CN115100776B

CN115100776B - 一种基于语音识别的门禁认证方法、系统及存储介质

Info

Publication number: CN115100776B
Application number: CN202210597279.0A
Authority: CN
Inventors: 刘焕玉; 肖龙源; 李海洲; 李稀敏; 叶志坚
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2023-12-26
Anticipated expiration: 2042-05-30
Also published as: CN115100776A

Abstract

本发明公开了一种基于语音识别的门禁认证方法、系统及存储介质，包括以下步骤：步骤a.获取用户开门申请及用户身份信息；步骤b.基于用户身份信息，抽取与用户身份信息相对应的认证问题并推送至用户；步骤c.获取用户回答语音，判断用户身份信息是否存在异常；若用户身份信息正常，则获取有效语音；若存在异常，则将异常信息推送至用户；步骤d.将有效语音输入声纹识别模型，并提取声纹特征进行身份认证；若身份认证成功，则通过用户开门申请，若身份认证失败，则拒绝用户开门申请。通过语音识别与声纹识别，避免病毒传播风险；通过身份认证和声纹认证的双重认证，仅需将用户语音与满足身份认证的声纹信息进行一对一的匹配，极大的提高了验证效率。

Description

一种基于语音识别的门禁认证方法、系统及存储介质

技术领域

本发明涉及语音识别技术领域，特别是一种基于语音识别的门禁认证方法及其应用该方法的基于语音识别的门禁认证方法、系统及计算机可读存储介质。

背景技术

对于门禁识别也存在一定考验，特别是面部识别的认证方式，由于口罩使得人脸识别变得不可行，若摘口罩进行识别则会存在严重的安全隐患。目前，较为普遍应用的门禁认证方式例如：指纹识别、面部识别、门禁卡识别等认证方式都存在直接或间接接触的安全隐患。

相反，无接触的语音识别门禁系统则越来越受到消费者的喜爱。但是，现有技术的语音识别需要将用户语音与数据库中的大量语音进行匹配认证，计算量较大，用户等待时间较长，且准确率较低，导致用户体验不好。

发明内容

本发明的主要目的在于提供了一种基于语音识别的门禁认证方法、系统及存储介质，旨在解决现有的门禁认证方式都存在间接接触的安全隐患的技术问题。

为实现上述目的，本发明提供了一种基于语音识别的门禁认证方法，其包括以下步骤：步骤a.获取用户开门申请及用户身份信息；步骤b.基于用户身份信息，抽取与用户身份信息相对应的认证问题并推送至用户；步骤c.获取用户回答语音，判断用户身份信息是否存在异常；若用户身份信息正常，则获取有效语音；若存在异常，则将异常信息推送至用户；步骤d.将有效语音输入声纹识别模型，并提取声纹特征进行身份认证；若身份认证成功，则通过用户开门申请，若身份认证失败，则拒绝用户开门申请。

可选的，用户进行身份注册时，提供用户身份信息；用户身份信息具有唯一标识性。

可选的，用户进行身份注册至少包括如下步骤：获取用户身份信息、多组认证问题及答案语音；将多组答案语音进行拼接后，输入声纹识别模型；基于拼接答案语音，提取该用户声纹特征，并存储用户信息；用户信息用于用户身份认证，用户信息包括：用户身份信息、用户声纹特征与用户认证问题及答案。

可选的，认证问题至少包括用户预设认证问题、系统默认认证问题其中一种；所述用户预设认证问题为，用户进行身份注册时，自行设置的认证问题；所述系统默认认证问题为，从系统问答库中随机抽取的认证问题。

可选的，所述步骤c，获取用户回答语音，判断用户身份信息是否存在异常；具体包括如下步骤：c1.获取噪音阈值β、用户回答语音，并将用户回答语音进行分帧处理，得到N段第一回答语音；c2.将N段第一回答语音分别输入有效语音模型，根据噪音阈值β，遍历N段第一回答语音，判断每段第一回答语音中是否包括噪音；若包括，则对第一回答语音进行分离处理，得到有效语音，若不包括，则直接保存第一回答语音，并进行依次拼接，得到有效语音；c3.将有效语音转换为文字，并与认证问题的标准答案进行比对，若一致，则判断用户身份信息正常，并获取有效语音；若不一致，则判断用户身份信息异常，并将异常信息推送至用户。

可选的，有效语音模型经过二分类模型训练，训练样本包括噪音样本与非噪音样本。

可选的，步骤c2中，分离处理具体包括如下步骤：c20.获取包括噪音的第一回答语音帧，并将其设置为静音帧；c21.将静音帧进行分离后，得到M 段第二回答语音；其中，M≤N；c22.将M段第二回答语音依次进行拼接，得到有效语音。

可选的，所述步骤d中，将有效语音输入声纹识别模型，并提取声纹特征进行身份认证，具体包括如下步骤：d1.将有效语音输入声纹识别模型，并提取声纹特征；d2.基于声纹特征，进行特征打分；d3.获取特征打分分值以及识别阈值θ，并将获取特征打分分值与识别阈值θ进行比较，若特征打分分值大于识别阈值θ，判断为身份认证成功，则通过用户开门申请，否则，判断为身份认证失败，则拒绝用户开门申请。

与所述基于语音识别的门禁认证方法相对应的，本发明提供一种基于语音识别的门禁认证系统，其包括：信息获取模块，用于获取用户开门申请及用户身份信息；身份信息校验模块，用于基于用户身份信息，抽取与用户身份信息相对应的认证问题并推送至用户，并获取用户回答语音，判断用户身份信息是否存在异常；若用户身份信息正常，则获取有效语音；若存在异常，则将异常信息推送至用户；身份认证模块，用于将有效语音输入声纹识别模型，并提取声纹特征进行身份认证；若身份认证成功，则通过用户开门申请，若身份认证失败，则拒绝用户开门申请；身份注册模块，用于获取用户身份信息、多组认证问题及答案语音；将多组答案语音进行拼接后，输入声纹识别模型；基于拼接答案语音，提取该用户声纹特征，并存储用户信息；用户信息用于用户身份认证，用户信息包括：用户身份信息、用户声纹特征与用户认证问题及答案。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有基于语音识别的门禁认证程序，所述基于语音识别的门禁认证程序被处理器执行时实现如上文所述的基于语音识别的门禁认证方法的步骤。

本发明的有益效果是：

(1)通过语音识别与声纹识别，实现份信息校验与身份认证，避免直接或间接接触产生病毒传播风险，能够安全地进行门禁开锁，并且可以远程操作，更加便利；通过身份认证和声纹认证的双重认证，获取用户身份信息，进行身份信息校验与身份认证时，实现1:1身份信息校验与身份认证，不仅提高了准确率，而且仅需将用户语音与满足身份认证的数据库声纹信息进行一对一的匹配，极大的提高了验证效率；进一步地，缩短了数据比对、计算过程，提高了用户体验；

(2)用户进行身份注册时，通过将多组答案语音进行拼接，保证有足够长的答案语音进行注册，提高了声纹识别模型的性能；

(3)通过噪声阈值进行噪声检测，并基于检测结果进行分离处理，能够将用户回答语音转换为有效语音，避免无效或错误语音信息影响，提高声纹识别的准确性。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明基于语音识别的门禁认证方法的流程简图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明的一种基于语音识别的门禁认证方法，其包括以下步骤：步骤a.获取用户开门申请及用户身份信息；步骤b.基于用户身份信息，抽取与用户身份信息相对应的认证问题并推送至用户；步骤c.获取用户回答语音，判断用户身份信息是否存在异常；若用户身份信息正常，则获取有效语音；若存在异常，则将异常信息推送至用户；步骤d.将有效语音输入声纹识别模型，并提取声纹特征进行身份认证；若身份认证成功，则通过用户开门申请，若身份认证失败，则拒绝用户开门申请。

本申请通过语音识别与声纹识别，实现份信息校验与身份认证，避免直接或间接接触产生病毒传播风险，能够安全地进行门禁开锁，并且可以远程操作，更加便利；通过身份认证和声纹认证的双重认证，获取用户身份信息，进行身份信息校验与身份认证时，实现1:1身份信息校验与身份认证，不仅提高了准确率，而且仅需将用户语音与满足身份认证的数据库声纹信息进行一对一的匹配，极大的提高了验证效率；进一步地，缩短了数据比对、计算过程，提高了用户体验。

在本实施例中，步骤a.获取用户开门申请及用户身份信息，具体可通过以下方式实现。需要注意的是，以下两种方式中的实现方式，还可以根据实际应用需要进行组合。

方式一：分别获取用户开门申请、用户身份信息。具体而言，用户根据第一预设唤醒方式唤醒门禁系统，并发起开门申请。需要说明的是，在本方式中，用户唤醒门禁系统为现场唤醒或远程操作唤醒，远程操作时，用户通过移动终端进行远程操作唤醒门禁系统。用户唤醒门禁系统并发起开门申请后，门禁系统识别并获取用户开门申请后，下发用户身份信息获取通知，用户接收并根据该通知上传本人身份信息。其中，第一预设唤醒方式为通过第一预设语音口令唤醒门禁系统；用户上传本人身份信息为，通过手动输入身份信息或语音输入身份信息。需要说明的是，此处所述手动输入身份信息并非手动在门禁系统上输入，而是用户通过移动终端与门禁系统的通讯连接，直接在移动终端上输入身份信息，与门禁系统并不产生直接或间接的接触。优选的，移动终端为手机。

方式二：同时获取用户开门申请、用户身份信息。具体而言，用户根据第二预设唤醒方式唤醒门禁系统，门禁系统下发用户开门申请、用户身份信息获取通知，用户根据该通知发起开门申请及上传本人身份信息。类似的，在本方式中，用户唤醒门禁系统为现场唤醒或远程操作唤醒，远程操作时，用户通过移动终端进行远程操作唤醒门禁系统。优选的，移动终端为手机。第二预设唤醒方式为通过第二预设语音口令唤醒门禁系统。门禁系统被唤醒后，下发用户开门申请、用户身份信息获取通知，用户通过语音输入，发起开门申请及上传本人身份信息。例如，用户可以直接说：“请开门(发起开门申请)，我是XXX(本人身份信息)。”需要说明的是，此处仅作为举例说明，具体用户语音输入包括哪些文字内容，本申请不做具体限定，用户语音输入可以体现开门申请以及用户身份信息即可。

在本实施例中，用户进行身份注册时，提供用户身份信息；用户身份信息具有唯一标识性。具体而言，用户进行身份注册至少包括如下步骤：获取用户身份信息、多组认证问题及答案语音；将多组答案语音进行拼接后，输入声纹识别模型；基于拼接答案语音，提取该用户声纹特征，并存储用户信息；用户信息用于用户身份认证，用户信息包括：用户身份信息、用户声纹特征与用户认证问题及答案。

本申请通过用户进行身份注册时，通过将多组答案语音进行拼接，保证有足够长的答案语音进行注册，提高了声纹识别模型的性能。

优选的，单个用户信息组织格式如下：

<Id,[(Quesetion₁,Answer₁),(Quesetion₂,Answer₂)...],Embedding>；

其中，Id为用户身份信息，[(Quesetion₁,Answer₁),(Quesetion₂,Answe r₂)...]为用户认证问题及答案，Embedding为用户声纹特征。

优选的，认证问题至少包括用户预设认证问题、系统默认认证问题其中一种；所述用户预设认证问题为，用户进行身份注册时，自行设置的认证问题；所述系统默认认证问题为，从系统问答库中随机抽取的认证问题。

在本实施例中，所述步骤c，获取用户回答语音，判断用户身份信息是否存在异常；具体包括如下步骤：

c1.获取噪音阈值β、用户回答语音，并将用户回答语音进行分帧处理，得到N段第一回答语音；

c2.将N段第一回答语音分别输入有效语音模型，根据噪音阈值β，遍历 N段第一回答语音，判断每段第一回答语音中是否包括噪音；若包括，则对第一回答语音进行分离处理，得到有效语音，若不包括，则直接保存第一回答语音，并进行依次拼接，得到有效语音；

c3.将有效语音转换为文字，并与认证问题的标准答案进行比对，若一致，则判断用户身份信息正常，并获取有效语音；若不一致，则判断用户身份信息异常，并将异常信息推送至用户。

在本实施例中，有效语音模型经过二分类模型训练，训练样本包括噪音样本与非噪音样本。主要针对手机使用场景下的无效语音的识别，噪音样本为车辆鸣笛声、鸟叫、知了叫等，非噪音样本为正常手机对话声音，基于以上样本进行二分类模型训练，使模型具备区分噪声和正常语音的能力。

在本实施例中，步骤c2中，分离处理具体包括如下步骤：c20.获取包括噪音的第一回答语音帧，并将其设置为静音帧；c21.将静音帧进行分离后，得到M段第二回答语音；其中，M≤N；c22.将M段第二回答语音依次进行拼接，得到有效语音。

本申请通过噪声阈值进行噪声检测，并基于检测结果进行分离处理，能够将用户回答语音转换为有效语音，避免无效或错误语音信息影响，提高声纹识别的准确性。

在本实施例中，所述步骤d中，将有效语音输入声纹识别模型，并提取声纹特征进行身份认证，具体包括如下步骤：d1.将有效语音输入声纹识别模型，并提取声纹特征；d2.基于声纹特征，进行特征打分；d3.获取特征打分分值以及识别阈值θ，并将获取特征打分分值与识别阈值θ进行比较，若特征打分分值大于识别阈值θ，判断为身份认证成功，则通过用户开门申请，否则，判断为身份认证失败，则拒绝用户开门申请。

该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现图1所示的基于语音识别的门禁认证方法。所述计算机可读存储介质可以是只读存储器，磁盘或光盘等。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例、设备实施例及存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

并且，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于语音识别的门禁认证方法，其特征在于，包括以下步骤：

步骤a.获取用户开门申请及用户身份信息；

步骤b.基于用户身份信息，抽取与用户身份信息相对应的认证问题并推送至用户；

步骤c.获取用户回答语音，判断用户身份信息是否存在异常；若用户身份信息正常，则获取有效语音；若存在异常，则将异常信息推送至用户；

步骤d.将有效语音输入声纹识别模型，并提取声纹特征进行身份认证；若身份认证成功，则通过用户开门申请，若身份认证失败，则拒绝用户开门申请；

所述步骤c，获取用户回答语音，判断用户身份信息是否存在异常；具体包括如下步骤：

c2.将N段第一回答语音分别输入有效语音模型，根据噪音阈值β，遍历N段第一回答语音，判断每段第一回答语音中是否包括噪音；若包括，则对第一回答语音进行分离处理，得到有效语音，若不包括，则直接保存第一回答语音，并进行依次拼接，得到有效语音；

c3.将有效语音转换为文字，并与认证问题的标准答案进行比对，若一致，则判断用户身份信息正常，并获取有效语音；若不一致，则判断用户身份信息异常，并将异常信息推送至用户；

所述步骤d中，将有效语音输入声纹识别模型，并提取声纹特征进行身份认证，具体包括如下步骤：

d1.将有效语音输入声纹识别模型，并提取声纹特征；

d2.基于声纹特征，进行特征打分；

d3.获取特征打分分值以及识别阈值θ，并将获取特征打分分值与识别阈值θ进行比较，若特征打分分值大于识别阈值θ，判断为身份认证成功，则通过用户开门申请，否则，判断为身份认证失败，则拒绝用户开门申请。

2.根据权利要求1所述的一种基于语音识别的门禁认证方法，其特征在于：用户进行身份注册时，提供用户身份信息；用户身份信息具有唯一标识性。

3.根据权利要求2所述的一种基于语音识别的门禁认证方法，其特征在于：用户进行身份注册至少包括如下步骤：

获取用户身份信息、多组认证问题及答案语音；

将多组答案语音进行拼接后，输入声纹识别模型；

基于拼接答案语音，提取该用户声纹特征，并存储用户信息；用户信息用于用户身份认证，用户信息包括：用户身份信息、用户声纹特征与用户认证问题及答案。

4.根据权利要求3所述的一种基于语音识别的门禁认证方法，其特征在于：认证问题至少包括用户预设认证问题、系统默认认证问题其中一种；

所述用户预设认证问题为，用户进行身份注册时，自行设置的认证问题；

所述系统默认认证问题为，从系统问答库中随机抽取的认证问题。

5.根据权利要求1所述的一种基于语音识别的门禁认证方法，其特征在于：有效语音模型经过二分类模型训练，训练样本包括噪音样本与非噪音样本。

6.根据权利要求1所述的一种基于语音识别的门禁认证方法，其特征在于：步骤c2中，分离处理具体包括如下步骤：

c20.获取包括噪音的第一回答语音帧，并将其设置为静音帧；

c21.将静音帧进行分离后，得到M段第二回答语音；其中，M≤N；

c22.将M段第二回答语音依次进行拼接，得到有效语音。

7.一种基于语音识别的门禁认证系统，其特征在于，包括：

信息获取模块，用于获取用户开门申请及用户身份信息；

身份信息校验模块，用于基于用户身份信息，抽取与用户身份信息相对应的认证问题并推送至用户，并获取用户回答语音，判断用户身份信息是否存在异常；若用户身份信息正常，则获取有效语音；若存在异常，则将异常信息推送至用户；具体包括如下步骤：c1.获取噪音阈值β、用户回答语音，并将用户回答语音进行分帧处理，得到N段第一回答语音；c2.将N段第一回答语音分别输入有效语音模型，根据噪音阈值β，遍历N段第一回答语音，判断每段第一回答语音中是否包括噪音；若包括，则对第一回答语音进行分离处理，得到有效语音，若不包括，则直接保存第一回答语音，并进行依次拼接，得到有效语音；c3.将有效语音转换为文字，并与认证问题的标准答案进行比对，若一致，则判断用户身份信息正常，并获取有效语音；若不一致，则判断用户身份信息异常，并将异常信息推送至用户；

身份认证模块，用于将有效语音输入声纹识别模型，并提取声纹特征进行身份认证；若身份认证成功，则通过用户开门申请，若身份认证失败，则拒绝用户开门申请；具体包括如下步骤：d1.将有效语音输入声纹识别模型，并提取声纹特征；d2.基于声纹特征，进行特征打分；d3.获取特征打分分值以及识别阈值θ，并将获取特征打分分值与识别阈值θ进行比较，若特征打分分值大于识别阈值θ，判断为身份认证成功，则通过用户开门申请，否则，判断为身份认证失败，则拒绝用户开门申请；

身份注册模块，用于获取用户身份信息、多组认证问题及答案语音；将多组答案语音进行拼接后，输入声纹识别模型；基于拼接答案语音，提取该用户声纹特征，并存储用户信息；用户信息用于用户身份认证，用户信息包括：用户身份信息、用户声纹特征与用户认证问题及答案。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于语音识别的门禁认证程序，所述基于语音识别的门禁认证程序被处理器执行时实现如权利要求1至6任一项所述的基于语音识别的门禁认证方法的步骤。