CN116071842A

CN116071842A - 一种基于声纹的打卡方法及系统

Info

Publication number: CN116071842A
Application number: CN202211462103.0A
Authority: CN
Inventors: 李鹏; 蒋振华; 刘玉才; 张涛
Original assignee: Shencong Semiconductor Technology Shanghai Co ltd; Shencong Semiconductor Jiangsu Co ltd
Current assignee: Shencong Semiconductor Technology Shanghai Co ltd; Shencong Semiconductor Jiangsu Co ltd
Priority date: 2022-11-21
Filing date: 2022-11-21
Publication date: 2023-05-05

Abstract

本发明涉及声纹打卡技术领域，提供了一种基于声纹的打卡方法，包括以下步骤：S1：打卡设备采集并提取用户声音；S2：采用训练好的深度学习算法模型提取用户声音中的声纹特征信息；S3：将声纹特征信息与本地声纹信息搜索匹配，若声纹特征信息与本地声纹信息匹配成功，则记录用户打卡成功信息，若匹配失败，重新进入步骤S1。充分利用每个人的声纹的独特性，作为唯一ID来区分个人，实现打卡功能。并且使用声音作为交互方式，十分便捷，因为不需要实际接触，能避免交叉感染等卫生问题。同时，本发明的声纹识别技术采用深度学习的方式，使用深度神经网络(DNN)等相关算法，即使在环境较为嘈杂的环境下也能有很好的识别效果，能更易适应各种打卡环境。

Description

一种基于声纹的打卡方法及系统

技术领域

本发明涉及声纹打卡的技术领域，尤其涉及一种基于声纹的打卡方法及系统。

背景技术

随着社会的发展，工作生活中会用到各种各样的打卡方式。比如IC打卡，指纹打卡，面部识别打卡，还有手机定位打卡等，满足各种打卡需求。

但是在实际使用过程中，IC卡打卡容易被复制，不具备唯一性，安全程度不高；指纹打卡不是很方便，比如在冬天时需要脱掉手套，如果手里有东西，双手无法放开，操作起来更加繁琐，且指纹打卡需要接触，存在交叉感染的卫生安全等问题；面部识别打卡需要面部在一定的识别范围内才能识别到，且需要摘掉口罩等才能识别人脸，也不是很方便；手机定位打卡容易被修改，造假，不够准确，安全等级也不高。

发明内容

针对上述问题，本发明的目的在于提供一种基于声纹的打卡方法及系统。充分利用每个人的声纹的独特性，作为唯一ID来区分个人，实现打卡功能。并且使用声音作为交互方式，十分便捷，因为不需要实际接触，能避免交叉感染等卫生问题。同时，本发明的声纹识别技术采用深度学习的方式，使用深度神经网络(DNN)等相关算法，即使在环境较为嘈杂的环境下也能有很好的识别效果，能更易适应各种打卡环境。

本发明的上述发明目的是通过以下技术方案得以实现的：

一种基于声纹的打卡方法，包括以下步骤：

S1：打卡设备采集并提取用户声音；

S2：采用训练好的深度学习算法模型提取所述用户声音中的声纹特征信息；

S3：将所述声纹特征信息与本地声纹信息搜索匹配，若所述声纹特征信息与所述本地声纹信息匹配成功，则记录用户打卡成功信息，若匹配失败，重新进入步骤S1。

进一步地，在步骤S1之前，还包括：

对用户信息和所述用户声音进行采集，并通过训练好的所述深度学习算法模型获得所述用户声音的所述声纹特征信息，并将所述用户信息和所述声纹特征信息存储于所述打卡设备中。

进一步地，步骤S1，具体为：

用户使用所述打卡设备预设的唤醒词唤醒所述打卡设备；

所述打卡设备随机从打卡词库中获取一个语音打卡词，并播放所述语音打卡词，其中，所述打卡词库为预设在所述打卡设备中的所述语音打卡词的集合；

用户跟读所述语音打卡词，所述打卡设备采集所述用户声音，若采集所述用户声音超时，则打卡失败并播放语音失败信息，若采集所述用户声音未超时，所述打卡设备提取所述用户声音。

进一步地，在步骤S1中，所述打卡设备提取所述用户声音，具体为：

所述打卡设备通过包括降噪、声音回声消除在内的算法，提取所述用户声音；

其中，所述降噪为从采集的所述用户声音的混合信号中通过噪声估计模块估计出噪声信号，并通过噪声滤除模块将所述噪声信号除去，得到降噪语音信号；所述声音回声消除为通过自适应方法估计回波信号的大小，从所述混合信号中减去，保留近端语音信号。

进一步地，在步骤S2中，所述深度学习算法模型，具体为：

采用收集公开声音数据、采购私有声音数据、人工录制在内的方式收集用于训练所述深度学习算法模型的包括所述用户信息和所述用户声音在内的数据样本；

构建输入为所述用户声音，输出为所述声纹特征信息的神经网络作为所述深度学习算法模型，并采用梯度下降法训练所述神经网络。

进一步地，所述深度学习算法模型，包括以下建立步骤：

定义所述深度学习算法模型对应的所述神经网络和架构；

对所述深度学习算法模型进行编译；

在所述数据样本集合上拟合所述深度学习算法模型；

对所述深度学习算法模型进行评估和预测；

使用嵌入式系统部署所述深度学习算法模型。

进一步地，在步骤S3中，所述声纹特征信息于所述本地声纹信息匹配成功之后，记录所述用户打卡成功信息之前，还包括：

判断所述声纹特征信息在所述打卡设备中是否存储有对应的所述用户信息，若所述用户信息存储在所述打卡设备中，则记录所述用户打卡成功信息并播放成功语音，否则打卡失败。

一种用于执行如上述的基于声纹的打卡方法的基于声纹的打卡系统，包括：

用户声音提取模块，用于提供给打卡设备采集并提取用户声音；

声纹特征提取模块，用于采用训练好的深度学习算法模型提取所述用户声音中的声纹特征信息；

声纹特征匹配模块,用于将所述声纹特征信息与本地声纹信息搜索匹配，若所述声纹特征信息与所述本地声纹信息匹配成功，则记录用户打卡成功信息，若匹配失败，重新进入所述用户声音提取模块。

一种计算机设备，包括存储器和一个或多个处理器，所述存储器中存储有计算机代码，所述计算机代码被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如上述的方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机代码，当所述计算机代码被执行时，如上述的方法被执行。

与现有技术相比，本发明包括以下至少一种有益效果是：

(1)通过提供一种基于声纹的打卡方法，包括以下步骤：S1：打卡设备采集并提取用户声音；S2：采用训练好的深度学习算法模型提取所述用户声音中的声纹特征信息；S3：将所述声纹特征信息与本地声纹信息搜索匹配，若所述声纹特征信息与所述本地声纹信息匹配成功，则记录用户打卡成功信息，若匹配失败，重新进入步骤S1。上述技术方案，充分利用每个人的声纹的独特性，作为唯一ID来区分个人，实现打卡功能。并且使用声音作为交互方式，十分便捷，因为不需要实际接触，能避免交叉感染等卫生问题。同时，本发明的声纹识别技术采用深度学习的方式，使用深度神经网络(DNN)等相关算法，即使在环境较为嘈杂的环境下也能有很好的识别效果，能更易适应各种打卡环境。

(2)通过采用包括降噪、声音回声消除在内的算法，提取所述用户声音，使得提取的用户声音更加的准确，提高通过用户声音打卡的准确率和体验感。

附图说明

图1为本发明第一实施例中一种基于声纹的打卡方法的整体流程图；

图2为本发明第一实施例中一种基于声纹的打卡方法的详细流程图；

图3为本发明第二实施例中一种基于声纹的打卡系统的整体结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

第一实施例

如图1和图2所示，本实施例提供了一种基于声纹的打卡方法，包括以下步骤：

S1：打卡设备采集并提取用户声音。

在本实施例中通过声纹进行打卡的首要步骤是通过打卡设备对需要打卡的用户的用户声音进行采集。但是在正常打卡之前，还需要进行一项准备工作，即将需要打卡的用户信息和用户声音保存在打卡设备中。只有保存在打卡设备中的用户，才会将打卡记录记录下来。举个例子来说，一个公司需要通过声纹打卡设备对员工的考勤进行记录，在员工入职当天需要将新入职员工的用户信息和用户声音录入打卡设备中，只有录入到打卡设备中的员工，后续才能够使用声纹打卡设备进行正常的打卡。

将需要打卡的用户信息和用户声音保存在打卡设备中，具体的步骤为：对用户信息和所述用户声音进行采集，并通过训练好的所述深度学习算法模型获得所述用户声音的所述声纹特征信息，并将所述用户信息和所述声纹特征信息存储于所述打卡设备中。举个例子来说，新员工入职时，在打卡设备上输入对应的用户信息，并让新员工读出对应的录入词汇，打卡设备手机新员工读出的录入词汇对应的音频，打卡设备通过已经训练好的深度学习算法模型识别出音频中的声纹特征信息，将声纹特征信息与对应的用户信息作为一条员工记录存储在打卡设备对应的存储单元中。对于打卡设备的存储单元可以是集成到打卡设备内部的存储单元，也可以是远程的与打卡设备通过网络进行交互的存储单元。

在将用户信息和用户声音保存到打卡设备中的准备工作做完之后，用户可以通过打卡设备进行正常的打卡，具体的步骤为：

S11：用户使用所述打卡设备预设的唤醒词唤醒所述打卡设备，具体为采用语音检测技术VAD。

S12：所述打卡设备随机从打卡词库中获取一个语音打卡词，并播放所述语音打卡词，其中，所述打卡词库为预设在所述打卡设备中的所述语音打卡词的集合，每次播放语音打卡词时在打卡词库中随机挑选一个进行播放。

S13：用户跟读所述语音打卡词，所述打卡设备采集所述用户声音，若采集所述用户声音超时，则打卡失败并播放语音失败信息，若采集所述用户声音未超时，所述打卡设备提取所述用户声音。

进一步地，在步骤S13中，打卡设备提取用户声音具体通过包括降噪、声音回声消除在内的算法，提取所述用户声音；

其中，所述降噪(NR,No i se Reduce)为从采集的所述用户声音的混合信号中通过噪声估计模块估计出噪声信号，并通过噪声滤除模块将所述噪声信号除去，得到降噪语音信号。降噪算法的核心主要有两个模块，噪声估计模块和噪声滤除模块，噪声估计模块主要是判断当前信号是语音还是噪声，以及噪声的量，噪声滤除模块主要是依据噪声估计的信息滤除带噪语音的噪声，输出降噪语音。

所述声音回声消除(AEC，Acoust i c Echo Cance l l at i on)为通过自适应方法估计回波信号的大小，从所述混合信号中减去，保留近端语音信号。利用参考信号与估计的滤波来逼近麦克风接收到的回声信号，然后从混合信号中将其减去，保留近端语音信号。

S2：采用训练好的深度学习算法模型提取所述用户声音中的声纹特征信息。

具体的，在本实施例通过深度学习算法模型提取用户声音中的声纹特征信息，所述深度学习算法模型为：采用收集公开声音数据、采购私有声音数据、人工录制在内的方式收集用于训练所述深度学习算法模型的包括所述用户信息和所述用户声音在内的数据样本；构建输入为所述用户声音，输出为所述声纹特征信息的神经网络作为所述深度学习算法模型，并采用梯度下降法训练所述神经网络。

深度学习算法模型训练完成后，需要采集用户的声纹特征信息，具体为：在一定的信噪比要求下，通过打卡设备终端采集用户的音频(用户声音)，称之为注册音频；将注册音频提取特征，输入到深度学习算法模型的神经网络中，采用神经网络最后一层隐层的输出作为用户的声纹特征信息。

对于深度学习算法模型的建立，一般包括以下步骤：

(1)定义架构：

定义所述深度学习算法模型对应的所述神经网络和架构。是构建深度学习模型的第一步，也是最重要的一步就是成功定义网络和架构。根据所执行任务的类型，一般倾向于使用特定类型的体系结构。

(2)编译模型：

对所述深度学习算法模型进行编译。编译步骤通常是TensorF l ow深度学习框架中的一行代码，可以采用mode l.comp i l e()函数进行编译。

(3)拟合模型

在所述数据样本集合上拟合所述深度学习算法模型。拟合功能可在固定数量的周期(数据集上的迭代)内训练模型。

(4)评估和预测

对所述深度学习算法模型进行评估和预测。评估深度学习模型的一个主要方法是，确保模型对预处理步骤开始时，将分割测试数据所做的预测考虑在内，以验证训练模型的有效性。

(5)部署模型

部署阶段是构建任何模型的最后一步。我们使用了使用嵌入式系统部署。

S3：将所述声纹特征信息与本地声纹信息搜索匹配，若所述声纹特征信息与所述本地声纹信息匹配成功，则记录用户打卡成功信息，若匹配失败，重新进入步骤S1，重新随机播放语音打卡词，重新采集并提取用户声音，当连续若干次采集信息均不在打卡设备中时，则打卡失败并播放失败语音。

进一步地，在所述声纹特征信息于所述本地声纹信息匹配成功之后，记录所述用户打卡成功信息之前，还包括：判断所述声纹特征信息在所述打卡设备中是否存储有对应的所述用户信息，若所述用户信息存储在所述打卡设备中，则记录所述用户打卡成功信息并播放成功语音，否则打卡失败。

第二实施例

如图3所示，本实施例提供一种用于执行如第一实施例中的基于声纹的打卡方法的基于声纹的打卡系统，包括：

用户声音提取模块1，用于提供给打卡设备采集并提取用户声音；

声纹特征提取模块2，用于采用训练好的深度学习算法模型提取所述用户声音中的声纹特征信息；

声纹特征匹配模块3,用于将所述声纹特征信息与本地声纹信息搜索匹配，若所述声纹特征信息与所述本地声纹信息匹配成功，则记录用户打卡成功信息，若匹配失败，重新进入所述用户声音提取模块。

需要说明的是，其他具体技术细节与第一实施例中相同，在本实施例中不赘述。

一种计算机可读存储介质，计算机可读存储介质存储有计算机代码，当计算机代码被执行时，如上述方法被执行。本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read On l y Memory)、随机存取存储器(RAM，Random Access Memory)、磁盘或光盘等。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于声纹的打卡方法，其特征在于，包括以下步骤：

S1：打卡设备采集并提取用户声音；

2.根据权利要求1所述的基于声纹的打卡方法，其特征在于，在步骤S1之前，还包括：

3.根据权利要求1所述的基于声纹的打卡方法，其特征在于，步骤S1，具体为：

用户使用所述打卡设备预设的唤醒词唤醒所述打卡设备；

4.根据权利要求1或3所述的基于声纹的打卡方法，其特征在于，在步骤S1中，所述打卡设备提取所述用户声音，具体为：

5.根据权利要求1所述的基于声纹的打卡方法，其特征在于，在步骤S2中，所述深度学习算法模型，具体为：

6.根据权利要求5所述的基于声纹的打卡方法，其特征在于，所述深度学习算法模型，包括以下建立步骤：

定义所述深度学习算法模型对应的所述神经网络和架构；

对所述深度学习算法模型进行编译；

在所述数据样本集合上拟合所述深度学习算法模型；

对所述深度学习算法模型进行评估和预测；

使用嵌入式系统部署所述深度学习算法模型。

7.根据权利要求2所述基于声纹的打卡方法，其特征在于，在步骤S3中，所述声纹特征信息于所述本地声纹信息匹配成功之后，记录所述用户打卡成功信息之前，还包括：

8.一种用于执行如权利要求1-7所述的基于声纹的打卡方法的基于声纹的打卡系统，其特征在于，包括：

9.一种计算机设备，包括存储器和一个或多个处理器，所述存储器中存储有计算机代码，所述计算机代码被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机代码，当所述计算机代码被执行时，如权利要求1至7中任一项所述的方法被执行。