CN109671185A

CN109671185A - 一种门禁控制方法及装置

Info

Publication number: CN109671185A
Application number: CN201710964065.1A
Authority: CN
Inventors: 何赛娟; 陈展; 陈扬坤
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2017-10-17
Filing date: 2017-10-17
Publication date: 2019-04-23
Anticipated expiration: 2037-10-17
Also published as: CN109671185B

Abstract

本发明实施例提供了一种门禁控制方法及装置，包括：采集声音信号；对所述声音信号进行语音识别，得到识别结果，并判断所述识别结果是否与预设的关键词相匹配；若匹配，对所述声音信号进行声纹识别，并确认所述声音信号对应的声音是否来源于目标用户；如果是，开启门禁。通过本发明实施例提供的技术方案，利用语音识别和声纹识别对门禁的开启进行控制，避免了需用手进行操作解锁的麻烦，进而提高了便利性。

Description

一种门禁控制方法及装置

技术领域

本发明涉及智能设备技术领域，特别是涉及一种门禁控制方法及装置。

背景技术

随着社会和技术的发展，传统的门锁已不能满足安全性和方便性的要求。基于此门禁系统应运而生，门禁系统是在传统的门锁基础上发展而来的。对于私宅、办公间、银行等场所来说，门禁系统是实现安全防范管理的有效措施。

目前，门禁系统大多采用密码解锁的方式，对于用户来说，只需记住门禁的密码即可，这样解决了传统门锁需要随身携带钥匙的问题，给用户带来了极大的方便。在办公间等人数比较多的情况下，为了保证安全性，防止密码泄露，门禁系统采用指纹解锁的方式。因为指纹对于每个人来说都是唯一的，所以指纹解锁仅对特定的人有效，这样进一步提高了门禁系统的安全性。

然而，无论密码门禁系统还是指纹门禁系统，均需要用户用手进行操作，密码门禁系统需要用户用手按密码，指纹门禁系统需要用户手指的指纹，而对于一些情况下，用户不方便甚至是没办法用手进行操作，这样就没办法通过门禁系统，造成诸多不便。

发明内容

本发明实施例的目的在于提供一种门禁控制方法及装置，以解决现有门禁系统中均需要用手进行操作解锁的问题。具体技术方案如下：

第一方面，本发明实施例提供了一种门禁控制方法，所述方法包括：

采集声音信号；

对所述声音信号进行语音识别，得到识别结果，并判断所述识别结果是否与预设的关键词相匹配；

若匹配，对所述声音信号进行声纹识别，并确认所述声音信号对应的声音是否来源于目标用户；

如果是，开启门禁。

可选地，在所述对所述声音信号进行语音识别之前，还包括：

判断所述声音信号对应的声音是否为人声；

如果否，判断所述声音信号中是否存在用于表征目标事件的声音片段，其中，所述目标事件为：用于请求开启门禁的事件；

若存在，开启远程语音通话。

可选地，所述判断所述声音信号中是否存在用于表征目标事件的声音片段的步骤，包括：

判断所述声音信号中是否存在第一类型的声音片段，若存在，判定所述声音信号中存在用于表征目标事件的声音片段，其中，所述第一类型的声音片段为：在频域对应的频率信息中存在预设频率的声音片段；

和/或，

判断所述声音信号中第二类型的声音片段依次出现的频率是否在预设的频率范围内，若为是，判定所述声音信号中存在用于表征目标事件的声音片段，其中，所述第二类型的声音片段为：在频域对应的频率信息中存在预设峰值特征的声音片段。

可选地，所述对所述声音信号进行语音识别之前，还包括：

获得所述声音信号的基音频率和共振峰频率；

根据所述基音频率和共振峰频率，确定所述声音信号所对应声音的发出者的分类；

判断所述分类是否为预设分类；

如果是，拒绝开启门禁；

如果否，执行所述对所述声音信号进行语音识别的步骤。

可选地，所述判断所述分类是否为预设分类的步骤之后，还包括：

在判断所述分类是所述预设分类时，存储所述声音信号。

可选地，所述共振峰频率为：所述声音信号在频域上功率谱的极大值对应的频率，频域信号是，对所述声音信号进行分帧处理得到的每一短时信号进行频域变换得到的。

可选地，所述对所述声音信号进行语音识别，得到识别结果，并判断所述识别结果是否与预设的关键词相匹配，包括：

提取所述声音信号的声音特征；

对所述声音特征进行解码，得到所述声音特征对应的文字；

判断所述文字与预设的关键词是否匹配。

可选地，所述对所述声音信号进行声纹识别，并确认所述声音信号对应的声音是否来源于目标用户，包括：

将所提取的声音特征与预先获得的目标用户的声音特征进行匹配；

若匹配，确定所述声音信号对应的声音来源于所述目标用户。

将所提取的声音特征输入至预先训练的用户识别模型，获得所提取的声音特征对应的用户，其中，所述用户识别模型为：用于识别声音特征对应的用户的模型；

判断所获得的用户是否为目标用户，若为是，则判定所述声音信号对应的声音来源于所述目标用户。

可选地，所述采集声音信号之后，还包括：

利用以下公式计算所述声音信号的能量值：

其中，n为所述声音信号中的信号点的数量，为所述声音信号中第i个信号点对应的能量值；

判断计算所得到的能量值是否大于预设能量阈值；

如果大于，执行对所述声音信号进行语音识别的步骤。

第二方面，本发明实施例提供了一种门禁控制装置，所述装置包括：

采集模块，用于采集声音信号；

语音识别模块，用于对所述声音信号进行语音识别，得到识别结果，并判断所述识别结果是否与预设的关键词相匹配；

声纹识别模块，用于当所述语音识别模块识别的结果为匹配时，对所述声音信号进行声纹识别，并确认所述声音信号对应的声音是否来源于目标用户；

门禁开启模块，用于所述声纹识别模块的识别结果为是时，开启门禁。

可选地，所述装置还包括：

第一判断模块，用于判断所述声音信号对应的声音是否为人声；

第二判断模块，用于所述第一判断模块的判断结果为否时，判断所述声音信号中是否存在用于表征目标事件的声音片段，其中，所述目标事件为：用于请求开启门禁的事件；

通话开启模块，用于所述第二判断模块的判断结果为是时，开启远程语音通话。

可选地，所述第二判断模块包括：

第一判断子模块，用于判断所述声音信号中是否存在第一类型的声音片段；

第一判定子模块，用于当所述第一判断子模块的判断结果为是时，判定所述声音信号中存在用于表征目标事件的声音片段，其中，所述第一类型的声音片段为：在频域对应的频率信息中存在预设频率的声音片段；

和/或，

第二判断子模块，用于判断所述声音信号中第二类型的声音片段依次出现的频率是否在预设的频率范围内；

第二判定子模块，用于当所述第二判断子模块的判断结果为是时，判定所述声音信号中存在用于表征目标事件的声音片段，其中，所述第二类型的声音片段为：在频域对应的频率信息中存在预设峰值特征的声音片段。

可选地，所述装置还包括：

获得模块，用于获得所述声音信号的基音频率和共振峰频率；

确定模块，用于根据所述基音频率和共振峰频率，确定所述声音信号所对应声音的发出者的分类；

第三判断模块，用于判断所述分类是否为预设分类；

拒绝开启模块，用于所述第三判断模块的判断结果为是时，拒绝开启门禁；

第一触发模块，用于所述第三判断模块的判断结果为否时，触发所述语音识别模块。

可选地，所述装置还包括：

存储模块，用于所述第三判断模块的判断结果为是时，存储所述声音信号。

可选地，所述语音识别模块包括：

提取子模块，用于提取所述声音信号的声音特征；

解码子模块，用于对所述声音特征进行解码，得到所述声音特征对应的文字；

第三判断子模块，用于判断所述文字与预设的关键词是否匹配。

可选地，所述声纹识别模块包括：

匹配子模块，用于将所提取的声音特征与预先获得的目标用户的声音特征进行匹配；

确定子模块，用于所述匹配子模块的匹配结果为匹配时，确定所述声音信号对应的声音来源于所述目标用户。

可选地，所述声纹识别模块包括：

输入子模块，用于将所提取的声音特征输入至预先训练的用户识别模型，获得所提取的声音特征对应的用户，其中，所述用户识别模型为：用于识别声音特征对应的用户的模型；

第四判断子模块，用于判断所获得的用户是否为目标用户；

第三判定子模块，用于当所述第四判断子模块的判断结果为是时，判定所述声音信号对应的声音来源于所述目标用户。

可选地，所述装置还包括：

计算模块，用于利用以下公式计算所述声音信号的能量值：

第四判断模块，用于判断计算所得到的能量值是否大于预设能量阈值；

第二触发模块，用于所述第四判断模块的判断结果为是时，触发所述语音识别模块。

第三方面，本发明实施例提供了一种电子设备，包括处理器和存储器，其中，

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的门禁控制方法步骤。

本发明实施例提供的技术方案中，通过采集声音信号；对所述声音信号进行语音识别，得到识别结果，并判断所述识别结果是否与预设的关键词相匹配；若匹配，对所述声音信号进行声纹识别，并确认所述声音信号对应的声音是否来源于目标用户；如果是，开启门禁。通过本发明实施例提供的技术方案，利用语音识别和声纹识别对门禁的开启进行控制，避免了需用手进行操作解锁的麻烦，进而提高了便利性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种门禁控制方法的一种流程图；

图2为本发明实施例提供的一种门禁控制方法的另一种流程图；

图3为本发明实施例提供的一种门禁控制方法的另一种流程图；

图4为本发明实施例提供的一种门禁控制装置的一种结构示意图；

图5为本发明实施例提供的一种门禁控制装置的另一种结构示意图；

图6为本发明实施例提供的一种门禁控制装置的另一种结构示意图；

图7为本发明实施例提供的一种电子设备的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了避免在门禁系统中用户需要用手进行操作解锁，进而提高解锁的便利性，本发明实施例提供了一种门禁控制方法，包括：

采集声音信号；

对声音信号进行语音识别，得到识别结果，并判断识别结果是否与预设的关键词相匹配；

若匹配，对声音信号进行声纹识别，并确认声音信号对应的声音是否来源于目标用户；如果是，开启门禁。

通过本发明实施例提供的技术方案，利用语音识别和声纹识别对门禁的开启进行控制，避免了需用手进行操作解锁的麻烦，进而提高了便利性。

下面首先就本发明实施例提供的一种门禁控制方法进行介绍，如图1所示，本发明实施例提供的一种门禁控制方法，包括：

S101，采集声音信号。

其中，所采集的声音信号的来源可以是多种，例如，可以是来源于人的说话声、门铃声、其他噪声等等。

声音信号的采集方式可以是通过麦克风采集，麦克风可以用来采集周围环境的各种声音，麦克风的数量可以是一个或多个，在此不做限定。

在麦克风有多个时，可以将各麦克风分开设置。例如，每两个麦克风之间间隔10厘米。这样，可以使得所采集的声音范围更广泛，并且，采集的声音信号更精确。

S102，对声音信号进行语音识别，得到识别结果，并判断识别结果是否与预设的关键词相匹配；如果匹配，执行S103。

其中，关键词是用户自定义设定的，可以是一句话、一串数字、字母等，例如，自己的姓名、123456、abcd等等。还可以是由数字、字母、汉字相互组合而成的，例如，12ab开门。当然，为了保证安全性，用户可以将关键词自定义为生活中不常见的词语。

第一种实施方式中，对声音信号进行语音识别前，可以将声音信号进行分帧处理，得到多个短时信号，其中，短时信号的时长可以是自定义设定的，例如，可以是10毫秒至20毫秒之间。举例而言，设定短时信号的时长为10毫秒，当转换得到的声音信号的时长为1秒时，通过分帧处理之后，可以得到100个相应的短时信号。

另外，在分帧处理之后，还可以对声音信号进行加窗操作，其中，加窗操作是将声音信号所对应的函数与窗函数做乘积，窗函数的种类可以有多种，例如，哈明窗函数。通过加窗操作，可以防止在分帧处理以及傅里叶变换之后频谱泄露，以及各短时信号之间的不连续。

第二种实施方式中，对声音信号进行语音识别，得到识别结果，并判断识别结果是否与预设的关键词相匹配(S102)时，可以先提取声音信号的声音特征，对声音特征进行解码，得到声音特征对应的文字，然后判断文字与预设的关键词是否匹配。在匹配的情况下，继续执行S103的步骤，在不匹配的情况下，则结束。

其中，声音特征可以是MFCC(Mel-Frequency Cepstral Coefficients，梅尔频率倒谱系数)特征、幅度谱等。

在对声音特征进行解码，得到声音特征对应的文字时。其中，解码的方式可以是通过解码器完成，解码器可以包括声学模型、语言模型和发音词典。

其中，声学模型用于描述在发音模型下所检测的声音特征的似然概率。

语言模型用于描述词间的连接概率，可以确定出各音素或音节之间的连接概率，进而可以确定出由多个音素或音节所组成的字或词语。

语言模型还可以描述两个字组成词语的概率，例如，两个单字分别为“开”和“门”，这两个单字可以组成词语的概率为“98％”，则可以确定该两个单字可以组成一个词语“开门”。

发音词典包括语音识别所能处理的字或词语的集合，还可以包括各字或词语所对应的发音。通过与发音词典中包括的字或词语相匹配的方式，可以确定出声音特征所表示的字或词语。具体地，可以进一步确定出语言模型中所组成的字或词语。

例如，语言模型所确定出音素1、音素2、音素3和音素4共同组成一个字，通过与发音词典中所包括的字相匹配的方式，音素1、音素2、音素3和音素4共同组成一个字与“开”相匹配，则可以得出音素1、音素2、音素3和音素4组成一个字“开”。

在确定出声音特征所表示的字或词语后，编码器可以将所确定出的字或词语解码成为对应的文字。所确定出的文字可以是一个词语或一个句子。

与预设的关键词进行匹配时，可以以词语为单位进行匹配，还可以以句子为单位进行匹配。

在以词语为单位进行匹配的情况下，判断解码所得到的词语与预设的关键词是否匹配时，为了防止过于轻易的通过语音识别，进而保证安全性，可以设定：只有在解码所得到的词语与预设的关键词完全一样时，才可认为是相匹配的。示例性地，可以将语音中的停顿和声音特征的匹配结果结合在一起，用于确定词语的开始和结束并识别词语。

例如，在以词语为单位进行匹配时，预设的关键词为“开门”，解码所得到的词语为“开门开门”时，虽然是有部分相匹配的，但与预设的关键词并不是完全一样的，因此判定该解码所得到的词语与预设的关键词不匹配。只有解码所得到的词语为“开门”时，与预设的关键词完全一样，则可以判定该解码所得到的词语与预设的关键词相匹配。

在以句子为单位进行匹配的情况下，将解码所得到的句子与预设的关键词进行匹配，并且，当解码所得到的句子中包含预设的关键词时，则可以认为是相匹配的。

例如，在以句子为单位进行匹配时，预设的关键词为“开门”，当解码所得到的句子为“我想要开门”时，该句子中包含了关键词“开门”，此时，可以解码所得到的句子与预设的关键词是相匹配的。

在以句子为单位进行匹配的情况下，确定整句语音均和预设句子的所有关键词匹配，则可以认为是相匹配的。

例如，在以句子为单位进行匹配时，预设句子为“我想要开门”，当解码所得到的句子为“我想要开门”时，该句子中包含了关键词“我”“想要”“开门”，此时，可以解码所得到的句子与预设的关键词是相匹配的。

又例如，在以句子为单位进行匹配时，预设句子为“我想要开门”，将解码得到的整个句子，和预设句子进行比对，确定解码得到的句子和整个预设句子“我想要开门”的相似度达到预设阈值的时候，确认匹配。

S103，对声音信号进行声纹识别，并确认声音信号对应的声音是否来源于目标用户，如果是，执行S104。

在通过语音识别检测之后，为提高门禁系统的安全性，可以对声音信号进行声纹识别。对于每一个人来说声纹都具有独特性，也就是说，声纹特征与人是一一对应的关系，因此，通过声纹识别可以进一步地确定特定的目标用户。

在上述第二种实施方式的基础上，第三种实施方式中，将所提取的声音特征与预先获得的目标用户的声音特征进行匹配；若匹配，确定该声音信号对应的声音来源于该目标用户。

其中，目标用户可以自定义设定，例如，对于居家的门禁系统，可以设定目标用户是家庭成员，这样，每一个家庭成员都可以成功通过声纹识别检测；还可以仅设定目标用户为家庭成员中的成年人，这样，只有家庭成员中的成年人才能通过声纹识别检测，家庭成员中的未成年人是不能通过声纹识别检测的。这样由于家庭成员以外的人未被设置为目标用户，因此，家庭成员以外的人也不能通过声纹识别检测。

目标用户的声音特征可以是预先存储在声纹识别系统中的，所存储的声音特征与目标用户是一一对应的。在进行声纹识别时，将所提取的声纹特征分别与所存储的声纹特征进行匹配，若与所存储的声纹特征均不匹配，则可以确定声音信号对应的声音不来源于目标用户；若所提取的声纹特征与所存储的声纹特征中的一个匹配，则可以确定声音信号对应的声音来源于目标用户。

例如，预先获得的目标用户的声音特征包括：声音特征1、声音特征2和声音特征3，其中，声音特征1与目标用户A相对应，声音特征2与目标用户B相对应，声音特征3与目标用户C相对应，通过对比，从声音信号中提取的声纹特征与声音特征1相匹配，则可以确定该声音信号对应的声音来源于目标用户A。

该实施方式中的匹配方法需要预先存储目标用户的声音特征，因此，更适用于人数有限的小范围场所的门禁系统，例如，居家的家庭门禁系统，这样，所存储的声音特征的数量较少，匹配的过程也较简便，并不会占用太大的运行内存，也不会影响整个门禁系统运行。

在上述第二种实施方式的基础上，第四种实施方式中，因为声音特征有比较稳定的统计分布规律，基于该统计分布规律，可以通过大量的声音特征数据训练得到一用户识别模型，该用户识别模型可以用于识别声音特征所对应的用户。其中，用户识别模型可以采用通用背景模型(Universal Background Model，UBM)。

将所提取的声音特征输入至用户识别模型，获得所提取的声音特征对应的用户，并判断所获得的用户是否为目标用户。

其中，获取所提取的声音特征对应的用户的方式可以是通过计算概率的方式，在用户识别模型中存储有该声音特征的多个特征点，将所提取的声音特征中包括的特征点与用户识别模型中的特征点进行一一对比，进而得出相匹配的特征点占特征点总量的百分比，该百分比表示所提取的声音特征与所获得的用户相对应的概率。

例如，百分比为0时，即表示所提取的声音特征与该用户不相对应的；当百分比为1时，即表示所提取的声音特征与该用户是相对应的。

可以自定义设定阈值，当百分比大于该阈值时，则判定所提取的声音特征与所对比的用户相对应，并且获取该用户的信息；而当百分比不大于该阈值时，则判定所提取的声音特征与所对比的用户不是相对应的，则不获取该用户的信息。

第五中实施方式中，可以用密码认证代替声纹识别，这样，可以防止用户在因为感冒等原因造成的变声，而无法准确的进行声纹识别。

S104，开启门禁。

在通过语音识别和声纹识别之后，可以确定出是否是目标用户。在确定出是目标用户的情况下，控制开启门禁，也就是开门。

第六种实施方式中，可以利用以下公式计算声音信号的能量值：

n为该声音信号中的信号点的数量，为该声音信号中第i个信号点对应的能量值。其中，声音信号由信号点组成。

例如，声音信号中包括5个信号点，5个信号点所对应的能量值分别为：则可计算出该声音信号的能量值S为：

当然，上述公式可以用于声音信号进行分帧处理后得到的短时信号，计算各短时信号的能量值。

判断计算所得到的能量值是否大于预设能量阈值；其中，预设能量阈值可以是根据经验自定义设定的。

并且，该预设能量阈值可以用来区分噪音与其他声音，当大于预设能量阈值时，表示所收集的声音不是噪音，则继续执行对该声音信息进行语音识别的步骤；当不大于预设能量阈值时，表示所收集的声音是噪音，此时，不进行任何操作。通过该实施方式，可以有效地去除噪音的影响。

为了避免在门禁系统中用户需要用手进行操作解锁，进而提高解锁的便利性。本发明实施例提供的另一实施例，如图2所示，本发明实施例的提供一种门禁控制方法，包括如下步骤：

S201，采集声音信号。

本实施例中，S201与上述实施例的S101相同，在此不做赘述。

S202，判断声音信号对应的声音是否为人声；如果否，执行S203，如果是，执行步骤S205。

其中，声音信号对应的声音可以包括多种，例如，可以同时包括人声和门铃声，还可以仅包括门铃声。

可以通过语音活动性检测(Voice Activity Detection，VAD)、语音识别的方式判断声音信号对应的声音是否为人声，当然，判断声音信号对应的声音是否为人声的方式不仅限于以上两种，还可以是其他的判断方式，在此不做限定。

如果判断出声音信号对应的声音是人声，则可以认为该人声的发出者请求开启门禁，因此，优先执行步骤S205，即对该人声进行语音识别和声纹识别。如果判断出声音信号对应的声音不是人声，则可以认为该声音是预设事件的声音，此时，优先执行步骤S203。其中，预设事件可以是敲门、按门铃等，当然，还可以是其他类型的事件，在此不做限定。

当然，声音信号对应的声音同时包括多种声音时，只要其中一种声音为人声，则优先执行步骤S205；只有所包括的多种声音均不是人声，则可以确定该声音信号对应的声音不是人声，此时优先执行步骤S203。

例如，声音信号对应的声音的频率包括700Hz和频率段260-300Hz，则可以确定该声音中包括女声和其他声音，进而可以确定优先执行步骤S205。

S203，判断声音信号中是否存在用于表征目标事件的声音片段，如果是，执行S204。

其中，目标事件可以为：用于请求开启门禁的事件。对于请求开启门禁的方式可以是：按门铃或者敲门。因此，可以判断声音信号中是否存在门铃声和/或敲门声的声音片段。

第七种实施方式中，判断声音信号中是否存在第一类型的声音片段，若存在，可以判定声音信号中存在用于表征目标事件的声音片段，其中，第一类型的声音片段为：在频域对应的频率信息中存在预设频率的声音片段。

其中，该实施方式中，所表征的目标事件可以是按门铃，相应地，第一类型的声音片段可以是包含门铃声的声音片段。

根据发明人的统计研究发现，按门铃时门铃声的频率可以为700Hz或500Hz，因此，可以将预设频率设定为700Hz和/或500Hz。那么，当声音信号中存在700Hz或500Hz的声音片段时，则可以确定该声音信号对应的声音即为门铃声，并且，发生按门铃的事件。

第八种实施方式中，判断声音信号中第二类型的声音片段依次出现的频率是否在预设的频率范围内，若为是，判定声音信号中存在用于表征目标事件的声音片段，其中，第二类型的声音片段为：在频域对应的频率信息中存在预设峰值特征的声音片段。例如，预设峰值特征可以是每间隔预设时间出现固定次数固定频率的峰值。

其中，该实施方式中，所表征的目标事件可以是敲门，相应地，第二类型的声音片段可以是敲门声。

对于敲门的动作来说，为了防止儿童恶作剧时快速连续的敲门，以及将时间间隔较长的多次撞击门的声音误认为是敲门声，可以预设频率范围，只有敲门的声音出现的频率在该预设的频率范围内时，才可以认为发生了敲门事件，这样，可以更准确的判断出敲门声。其中，预设的该频率范围可以是根据经验设定的，还可以是采集若干敲门声，进而研究统计出来的。

敲门声可以在频域对应的频谱上出现明显的峰值，可以认为，每一峰值对应一次敲门声，进而可以根据出现的峰值得到声音片段出现的频率。

例如，预设的频率范围可以是[2，4]，其中，2表示每秒出现两次峰值，4表示每秒出现4次峰值，[2，4]表示大于或者等于2、且小于或者等于4的数值范围；当第二类型的声音片段依次出现的频率3时，即表示每秒出现3次峰值，则可以确定该第二类型的声音片段为敲门声。

第九种实施方式中，目标事件可以是按门铃和敲门，因此，可以判断声音信号中是否存在门铃声和敲门声的声音片段。在该实施方式中，可以结合上述第七种实施方式和第八种实施方式，在此不再赘述。

S204，开启远程语音通话。

第十种实施方式中，在判断出声音信号中存在预设频率的声音片段时，等待预设时长，若在该预设时长后，门禁仍然没有开启，则开启远程语音通话。

其中，预设时长可以是自定义设定的，远程语音通话所连接的用户可以是在门禁系统中登记的人，该登记人可以是对门禁开关有权限的控制人，例如，可以是房屋的主人，可以是工厂的门卫。

例如，设定的预设时长是20秒，在第一次出现门铃声之后的20秒，门禁仍然没有开启，则开启远程语音通话。

另外，在开启远程语音通话之前，还可以将门禁外的信息发送给用户，例如，可以将门禁外的情况拍下来，并将所拍的照片发送给用户，这样，可以使得用户掌握当前的门禁外的情况。

另外，门禁系统检测到有人在没通过预设频率的声音片段的检测、以及语音识别和声纹识别的情况下，强行开启门禁，则启动报警系统，并将报警信息发送给用户。这样，可以及时地提醒用户采取相应的措施。

通过该实施方式，在用户不在的情况下，用户仍然可以了解门禁外相关的情况，并且，可以同时与门禁外的人进行沟通，提高了用户体验。

S205，对声音信号进行语音识别，得到识别结果，并判断识别结果是否与预设的关键词相匹配；如果匹配，执行S206。

S206，对声音信号进行声纹识别，并确认声音信号对应的声音是否来源于目标用户，如果是，执行S207。

S207，开启门禁。

本实施例中，S205-S207与上述实施例的S102-S104相同，在此不做赘述。

本发明实施例提供的技术方案中，声音信号对应的声音为人声的情况下，对声音信号进行语音识别和声纹识别，进而判断是否开启门禁；避免了需用手进行操作解锁的麻烦，进而提高了便利性。而在声音信号对应的声音不是人声的情况下，可以进行门铃声检测，并开启远程语音通话。这样，可以及时地通知门禁的控制人，并且让控制人实时掌握门禁外的情况，提高了便利性和安全性。

为了避免在门禁系统中用户需要用手进行操作解锁，进而提高解锁的便利性。本发明实施例提供的另一实施例，如图3所示，本发明实施例的提供一种门禁控制方法，包括如下步骤：

S301，采集声音信号。

本实施例中，S301与上述实施例的S101相同，在此不做赘述。

S302，获得声音信号的基音频率和共振峰频率。

声音的发出可以是有若干频率不同的振动波组成，其中，频率最低的波即为基音，该最低频率即为基音频率。

根据人的分类不同，各分类的人声所产生的基音频率不同，例如，童声的基音频率在400-1000Hz之间，成年女声的基音频率在160-380Hz之间，成年男声的基音频率在50-180Hz之间。

共振峰可以是由人的口腔耦合共振产生的，在声音信号的频谱中表现为能量相对集中的区域，共振峰所对应的频率即为共振峰频率。

根据人的分类不同，各分类的人声所产生的共振峰频率也不相同。据研究表明，人在说中文时，成年女声的共振峰频率比成年男声的共振峰频率高25％，而童声的共振峰频率比成年男声的共振峰频率高35％。

第十一种实施方式中，在对声音信号进行分帧处理，可以得到短时信号，然后，可以通过傅里叶变换将各短时信号转换成相应的频域信号，根据所得到的频域信号所对应的功率谱中，将功率谱中的极大值所对应的频率确定为共振峰频率。

当然，共振峰频率的检测方式不仅限于上述方法，还可以多种方法，例如，基于线性预测的求根法，该方法中通过线性预测对语音信号解卷积，得到声道响应的全极点模型，并且通过牛顿-拉夫逊方法可以确定出线性预测系数，进而可以得到共振峰频率。

S303，根据基音频率和共振峰频率，确定声音信号所对应声音的发出者的分类。

可以以基音频率和共振峰频率为依据，共同确定人的分类。

具体地，基音频率在400-1000Hz之间，且共振峰频率最高的声音，为童声；基音频率在160-380Hz之间，且共振峰频率第二高的声音，为成年女声；基音频率在50-180Hz之间，且共振峰频率最低的声音，为成年男声。

基于上述分类，可以确定出声音信号所对应声音的发出者的分类。

S304，判断分类是否为预设分类，如果是，执行S305；如果否，执行S306。

预设分类可以是根据用户需求所确定的，例如，为了避免小孩的恶作剧，该预设分类可以是童声，即判断声音信号所对应声音的发出者是否为小孩。如果是小孩，则可以结束执行；如果不是小孩，则继续可以进行后续的语音识别和声纹识别的操作。

S305，拒绝开启门禁。

在判断出声音信号所对应的声音的发出者的分类为预设分类时，可以拒绝开启门禁。

一种实施方式中，在判断出声音信号所对应的声音的发出者的分类为预设分类时，还可以将该声音信号进行存储。

在存储之后，一种实现方式，可以通知目标用户，通知的方式可以是在显示屏中显示或者语音通知；例如，可以在目标用户在下一次使用该门禁系统时，通过语音通知该目标用户。另一种实现方式，通知目标用户，并且，将该声音信号发送给目标用户。

另一种实现方式，在存储声音信号之后，还可以对该声音信号进行语音识别，以确定该声音信号的发出者是否是目标用户。

例如，对于家庭来说，可以预先存储家庭成员的声音特征，在存储声音信号之后，可以对该声音信号进行语音识别，判断该声音信号的发出者是否与所存储的声音特征相匹配，进而可以判断出该声音信号的发出者是否属于家庭成员，并且属于哪个家庭成员。若该声音信号与所存储的声音特征不匹配，则可以确定该声音信号的发出者为陌生人。

当然，该实现方式的应用环境并不仅限于家庭，还可以应用于公司等环境下。

S306，对声音信号进行语音识别，得到识别结果，并判断识别结果是否与预设的关键词相匹配；如果匹配，执行S307。

S307，对声音信号进行声纹识别，并确认声音信号对应的声音是否来源于目标用户，如果是，执行S308。

S308，开启门禁。

本实施例中，S306-S308与上述实施例的S102-S104相同，在此不做赘述。

本发明实施例提供的技术方案中，在对声音信号进行语音识别和声纹识别之前，可以对该声音信号进行童声识别，以判断该声音信号对应的声音是否来源于小孩，如果是小孩的情况下，则结束执行；只有确定不是小孩，才会进行语音识别和声纹识别。这样，可以有效地避免小孩的恶作剧而造成门禁系统失效的问题，进而提高门禁系统的稳定性和安全性。

相应于上述方法实施例，本发明实施例还提供一种门禁控制装置，如图4所示，所述装置包括：

采集模块410，用于采集声音信号；

语音识别模块420，用于对所述声音信号进行语音识别，得到识别结果，并判断所述识别结果是否与预设的关键词相匹配；

声纹识别模块430，用于当所述语音识别模块识别的结果为匹配时，对所述声音信号进行声纹识别，并确认所述声音信号对应的声音是否来源于目标用户；

门禁开启模块440，用于所述声纹识别模块的识别结果为是时，开启门禁。

可选地，第十二种实施方式中，所述语音识别模块420可以包括：

提取子模块，用于提取所述声音信号的声音特征；

可选地，第十三种实施方式中，所述声纹识别模块430可以包括：

可选地，第十四种实施方式中，所述声纹识别模块430可以包括：

第四判断子模块，用于判断所获得的用户是否为目标用户；

可选地，第十五种实施方式中，所述装置还可以包括：

计算模块，用于利用以下公式计算所述声音信号的能量值：

在上述图4及图4对应的实施例的基础上，本发明实施例还提供一种门禁控制装置，如图5所示，所述装置还可以包括：

第一判断模块450，用于判断所述声音信号对应的声音是否为人声；

第二判断模块460，用于所述第一判断模块的判断结果为否时，判断所述声音信号中是否存在用于表征目标事件的声音片段，其中，所述目标事件为：用于请求开启门禁的事件；

通话开启模块470，用于所述第二判断模块的判断结果为是时，开启远程语音通话。

可选地，第十六种实施方式中，所述第二判断模块460可以包括：

和/或，

通过本发明实施例，可以及时地通知门禁的控制人，并且让控制人实时掌握门禁外的情况，提高了便利性和安全性。

在上述图4及图4对应的实施例的基础上，本发明实施例还提供一种门禁控制装置，如图6所示，所述装置还可以包括：

获得模块480，用于获得所述声音信号的基音频率和共振峰频率；

确定模块490，用于根据所述基音频率和共振峰频率，确定所述声音信号所对应声音的发出者的分类；

第三判断模块500，用于判断所述分类是否为预设分类；

拒绝开启模块510，用于所述第三判断模块的判断结果为是时，拒绝开启门禁；

第一触发模块520，用于所述第三判断模块的判断结果为否时，触发语音识别模块420。

可选地，第十七种实施方式中，所述装置还可以包括：

存储模块，用于所述第三判断模块500的判断结果为是时，存储所述声音信号。

可选地，第十八种实施方式中，所述共振峰频率为：所述声音信号在频域上功率谱的极大值对应的频率，频域信号是，对所述声音信号进行分帧处理得到的每一短时信号进行频域变换得到的。

本发明实施例还提供了一种电子设备，如图7所示，包括处理器710、通信接口720、存储器730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信，

存储器730，用于存放计算机程序；

处理器710，用于执行存储器730上所存放的程序时，实现如下步骤：

采集声音信号；

如果是，开启门禁。

当然，本发明实施例提供一种电子设备还可以实现上述的门禁控制方法的其他实施方式，参见上述门禁生成实施例的部分说明即可，在此不做赘述。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时执行上述任一所述的门禁控制方法。

本发明实施例还提供了一种计算机应用程序，该计算机应用程序在计算机上运行时，使得计算机执行上述实施例中任一所述的门禁控制方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例、电子设备及计算机可读存储介质而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种门禁控制方法，其特征在于，所述方法包括：

采集声音信号；

如果是，开启门禁。

2.根据权利要求1所述的方法，其特征在于，在所述对所述声音信号进行语音识别之前，还包括：

判断所述声音信号对应的声音是否为人声；

若存在，开启远程语音通话。

3.根据权利要求2所述的方法，其特征在于，所述判断所述声音信号中是否存在用于表征目标事件的声音片段的步骤，包括：

和/或，

4.根据权利要求1所述的方法，其特征在于，所述对所述声音信号进行语音识别之前，还包括：

获得所述声音信号的基音频率和共振峰频率；

判断所述分类是否为预设分类；

如果是，拒绝开启门禁；

如果否，执行所述对所述声音信号进行语音识别的步骤。

5.根据权利要求4所述的方法，其特征在于，所述判断所述分类是否为预设分类的步骤之后，还包括：

在判断所述分类是所述预设分类时，存储所述声音信号。

6.根据权利要求4所述的方法，其特征在于，

所述共振峰频率为：所述声音信号在频域上功率谱的极大值对应的频率，频域信号是，对所述声音信号进行分帧处理得到的每一短时信号进行频域变换得到的。

7.根据权利要求1所述的方法，其特征在于，所述对所述声音信号进行语音识别，得到识别结果，并判断所述识别结果是否与预设的关键词相匹配，包括：

提取所述声音信号的声音特征；

对所述声音特征进行解码，得到所述声音特征对应的文字；

判断所述文字与预设的关键词是否匹配。

8.根据权利要求7所述的方法，其特征在于，所述对所述声音信号进行声纹识别，并确认所述声音信号对应的声音是否来源于目标用户，包括：

9.根据权利要求7所述的方法，其特征在于，所述对所述声音信号进行声纹识别，并确认所述声音信号对应的声音是否来源于目标用户，包括：

10.根据权利要求1所述的方法，其特征在于，所述采集声音信号之后，还包括：

利用以下公式计算所述声音信号的能量值：

判断计算所得到的能量值是否大于预设能量阈值；

如果大于，执行对所述声音信号进行语音识别的步骤。

11.一种门禁控制装置，其特征在于，所述装置包括：

采集模块，用于采集声音信号；

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

13.根据权利要求12所述的装置，其特征在于，所述第二判断模块包括：

和/或，

14.根据权利要求11所述的装置，其特征在于，所述装置还包括：

第三判断模块，用于判断所述分类是否为预设分类；

15.根据权利要求14所述的装置，其特征在于，所述装置还包括：

16.根据权利要求14所述的装置，其特征在于，

17.根据权利要求11所述的装置，其特征在于，所述语音识别模块包括：

提取子模块，用于提取所述声音信号的声音特征；

18.根据权利要求17所述的方法，其特征在于，所述声纹识别模块包括：

19.根据权利要求17所述的装置，其特征在于，所述声纹识别模块包括：

第四判断子模块，用于判断所获得的用户是否为目标用户；

20.根据权利要求11所述的装置，其特征在于，所述装置还包括：

计算模块，用于利用以下公式计算所述声音信号的能量值：

21.一种电子设备，其特征在于，包括处理器和存储器，其中，

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-10任一所述的方法步骤。