CN115019804A

CN115019804A - 一种多员工密集签到的多重校验式声纹识别方法及系统

Info

Publication number: CN115019804A
Application number: CN202210924489.6A
Authority: CN
Inventors: 何肖肖
Original assignee: Beijing Huilang Times Technology Co Ltd
Current assignee: Beijing Huilang Times Technology Co Ltd
Priority date: 2022-08-03
Filing date: 2022-08-03
Publication date: 2022-09-06
Anticipated expiration: 2042-08-03
Also published as: CN115019804B

Abstract

本发明公开了一种多员工密集签到的多重校验式声纹识别方法及系统，涉及声纹识别技术领域。该方法包括：录入员工签到音频；将员工签到音频进行多次不同的多等分分段；对各次分段后的多段音频数据进行音频编码，以得到各次分段后的多段编码音频；计算并根据各次分段后的各段编码音频两两之间的相似度确定目标员工签到音频；采用多种声纹识别方法分别对目标员工签到音频进行识别，以得到多个识别结果；判断多个识别结果是否相同，如果是，则生成签到识别成功信息；如果否，则生成签到失败提示信息，并重新录入员工签到音频。本发明利用多段音频相似性多重校验的方式来对多员工密集签到时刻的声纹进行精准检验，提高识别精度。

Description

一种多员工密集签到的多重校验式声纹识别方法及系统

技术领域

本发明涉及声纹识别技术领域，具体而言，涉及一种多员工密集签到的多重校验式声纹识别方法及系统。

背景技术

员工签到系统在企业管理过程中发挥了重要的作用，它不仅能够督促员工有较好的时间观念，也能让企业对员工进行较为有效的管理。声纹识别作为一种非常有效的签到方式，已经被广泛应用到多种签到系统中。

在理想状态下，基于声纹识别的签到系统有着较高的准确率。然而，接近上班时刻往往是员工的密集签到时间点，声纹重叠会造成识别精准度显著降低，无法对单一员工的声音进行精准识别。

发明内容

为了克服上述问题或者至少部分地解决上述问题，本发明实施例提供一种多员工密集签到的多重校验式声纹识别方法及系统，利用多段音频相似性多重校验的方式来对多员工密集签到时刻的声纹进行精准检验，提高识别精度。

本发明的实施例是这样实现的：

第一方面，本发明实施例提供一种多员工密集签到的多重校验式声纹识别方法，包括以下步骤：

录入员工签到音频；

将员工签到音频进行多次不同的多等分分段，以得到多次分段后的多段音频数据；

对各次分段后的多段音频数据进行音频编码，以得到各次分段后的多段编码音频；

计算并根据各次分段后的各段编码音频两两之间的相似度确定目标员工签到音频；

采用多种声纹识别方法分别对目标员工签到音频进行识别，以得到多个识别结果；

判断多个识别结果是否相同，如果是，则生成签到识别成功信息；如果否，则生成签到失败提示信息，并重新录入员工签到音频。

为了解决现有技术中无法针对员工密集签到时刻对单一员工的声音进行精准识别的技术问题，本发明利用多段音频相似性多重校验的方式来对多员工密集签到时刻的声纹进行精准检验，提高识别精度。将员工签到的音频划分为多段，利用多段音频相似性多重校验的方式来检验是否有其他员工声音的干扰，确保员工签到过程中不受其它员工的音频干扰，保证了声纹识别精度。利用了多种声纹识别方法相结合的判别方式对音频信号进行判断，提升了声纹识别的精准度。

基于第一方面，在本发明的一些实施例中，该多员工密集签到的多重校验式声纹识别方法还包括以下步骤：

利用小波音频去噪方法对录入的员工签到音频进行去噪，以得到去噪后的员工签到音频。

基于第一方面，在本发明的一些实施例中，上述将员工签到音频进行多次不同的多等分分段，以得到多次分段后的多段音频数据的方法包括以下步骤：

将员工签到音频进行N等分分段，以得到N段音频数据；

将员工签到音频进行N-1等分分段，以得到N-1段音频数据；

将员工签到音频进行N-2等分分段，以得到N-2段音频数据；其中，N大于等于4。

基于第一方面，在本发明的一些实施例中，上述计算并根据各次分段后的各段编码音频两两之间的相似度确定目标员工签到音频的方法包括以下步骤：

计算并根据各次分段后的各段编码音频两两之间的欧式距离确定各次分段后的各段编码音频两两之间的相似度；

判断各次分段后的各段编码音频两两之间的相似度是否有至少一个相似度小于预置的参考阈值，如果是，则生成干扰提示信息，并重新录入员工签到音频；如果否，则将录入的员工签到音频作为目标员工签到音频。

基于第一方面，在本发明的一些实施例中，上述采用多种声纹识别方法分别对目标员工签到音频进行识别的方法包括以下步骤：

采用GMM-UBM和GMM-SVM两种声纹识别方法分别对目标员工签到音频进行识别。

采用d-vector和ivector+PLDA/CDS两种声纹识别方法分别对目标员工签到音频进行识别。

第二方面，本发明实施例提供一种多员工密集签到的多重校验式声纹识别系统，包括音频录入模块、分段模块、编码模块、相似度计算模块、声纹识别模块以及识别判断模块，其中：

音频录入模块，用于录入员工签到音频；

分段模块，用于将员工签到音频进行多次不同的多等分分段，以得到多次分段后的多段音频数据；

编码模块，用于对各次分段后的多段音频数据进行音频编码，以得到各次分段后的多段编码音频；

相似度计算模块，用于计算并根据各次分段后的各段编码音频两两之间的相似度确定目标员工签到音频；

声纹识别模块，用于采用多种声纹识别方法分别对目标员工签到音频进行识别，以得到多个识别结果；

识别判断模块，用于判断多个识别结果是否相同，如果是，则生成签到识别成功信息；如果否，则生成签到失败提示信息，并重新录入员工签到音频。

为了解决现有技术中无法针对员工密集签到时刻对单一员工的声音进行精准识别的技术问题，本系统利用多段音频相似性多重校验的方式来对多员工密集签到时刻的声纹进行精准检验，提高识别精度。通过音频录入模块、分段模块、编码模块、相似度计算模块、声纹识别模块以及识别判断模块等多个模块的配合，将员工签到的音频划分为多段，利用多段音频相似性多重校验的方式来检验是否有其他员工声音的干扰，确保员工签到过程中不受其它员工的音频干扰，保证了声纹识别精度。利用了多种声纹识别方法相结合的判别方式对音频信号进行判断，提升了声纹识别的精准度。

基于第二方面，在本发明的一些实施例中，该多员工密集签到的多重校验式声纹识别系统还包括去噪模块，用于利用小波音频去噪方法对录入的员工签到音频进行去噪，以得到去噪后的员工签到音频。

第三方面，本申请实施例提供一种电子设备，其包括存储器，用于存储一个或多个程序；处理器。当一个或多个程序被处理器执行时，实现如上述第一方面中任一项的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面中任一项的方法。

本发明实施例至少具有如下优点或有益效果：

本发明实施例提供一种多员工密集签到的多重校验式声纹识别方法及系统，解决了现有技术中无法针对员工密集签到时刻对单一员工的声音进行精准识别的技术问题，本发明利用多段音频相似性多重校验的方式来对多员工密集签到时刻的声纹进行精准检验，提高识别精度。将员工签到的音频划分为多段，利用多段音频相似性多重校验的方式来检验是否有其他员工声音的干扰，确保员工签到过程中不受其它员工的音频干扰，保证了声纹识别精度。利用了多种声纹识别方法相结合的判别方式对音频信号进行判断，提升了声纹识别的精准度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例一种多员工密集签到的多重校验式声纹识别方法的流程图；

图2为本发明实施例一种多员工密集签到的多重校验式声纹识别方法的详细流程图；

图3为本发明实施例一种多员工密集签到的多重校验式声纹识别系统的原理框图一；

图4为本发明实施例一种多员工密集签到的多重校验式声纹识别系统的原理框图二；

图5为本发明实施例提供的一种电子设备的结构框图。

附图标记说明：100、音频录入模块；200、分段模块；300、编码模块；400、相似度计算模块；500、声纹识别模块；600、识别判断模块；700、去噪模块；101、存储器；102、处理器；103、通信接口。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本发明实施例的描述中，“多个”代表至少2个。

实施例：

如图1所示，第一方面，本发明实施例提供一种多员工密集签到的多重校验式声纹识别方法，包括以下步骤：

S1、录入员工签到音频；让签到员工录入自己的一段音频，大约3-5秒即可。

S2、将员工签到音频进行多次不同的多等分分段，以得到多次分段后的多段音频数据；

进一步地，将员工签到音频进行N等分分段，以得到N段音频数据；将员工签到音频进行N-1等分分段，以得到N-1段音频数据；将员工签到音频进行N-2等分分段，以得到N-2段音频数据；其中，N大于等于4。

S3、对各次分段后的多段音频数据进行音频编码，以得到各次分段后的多段编码音频；采用WAVE、APE、PCM、MPC等编码方式对音频进行编码处理。

S4、计算并根据各次分段后的各段编码音频两两之间的相似度确定目标员工签到音频；

进一步地，计算并根据各次分段后的各段编码音频两两之间的欧式距离确定各次分段后的各段编码音频两两之间的相似度；判断各次分段后的各段编码音频两两之间的相似度是否有至少一个相似度小于预置的参考阈值，如果是，则生成干扰提示信息，并重新录入员工签到音频；如果否，则将录入的员工签到音频作为目标员工签到音频。

在本发明的一些实施例中，对员工签到音频进行分段，利用多段音频相似性多重校验的方式来检验是否有其他员工声音的干扰，确保员工签到过程中不受其它员工的音频干扰，保证声纹识别精度。例如：将去噪后的音频等分为5段，每段音频利用I-Vector计算方法进行音频编码。将5段编码后的音频，利用欧式距离计算两两之间的相似度；将去噪后的音频等分为4段，每段音频利用I-Vector计算方法进行音频编码。将4段编码后的音频，利用欧式距离计算两两之间的相似度；将去噪后的音频等分为3段，每段音频利用I-Vector计算方法进行音频编码。将3段编码后的音频，利用欧式距离计算两两之间的相似度；将去噪后的音频等分为2段，每段音频利用I-Vector计算方法进行音频编码。将2段编码后的音频，利用欧式距离计算它们之间的相似度；若上述步骤中，有任意一个步骤中出现了两两之间相似度较低的情况，直接认定有其他签到人的音频对签到员工的音频进行了干扰，让签到员工重新录入自己的一段音频。若上述步骤中，都无两两之间相似度较低的情况出现，认定无其他签到员工的音频干扰，继续进行下一步的员工声纹识别。

S5、采用多种声纹识别方法分别对目标员工签到音频进行识别，以得到多个识别结果；

进一步地，采用GMM-UBM和GMM-SVM两种声纹识别方法分别对目标员工签到音频进行识别。

当录入音频被认定为无其他签到员工的音频干扰时，利用 GMM-UBM 和 GMM-SVM两种声纹识别方法对员工音频进行识别。进一步地，还可以采用d-vector和ivector+PLDA/CDS两种声纹识别方法分别对目标员工签到音频进行识别。 GMM-UBM 、GMM-SVM、d-vector和ivector+PLDA/CDS均为常规声纹识别模型算法，在此不做赘述。

S6、判断多个识别结果是否相同，如果是，则生成签到识别成功信息；如果否，则生成签到失败提示信息，并返回步骤S1，重新录入员工签到音频，并执行步骤S2-S5，直到多种声纹识别方法都认定为同一员工的音频之后，再判断该员工签到有效。

若两种方法都判定该音频为同一员工的音频，则判断该员工签到有效。若判断结果不一致，则让员工重新录入音频，经过步骤S2-S5再进行音频识别，直到GMM-UBM和GMM-SVM两种声纹识别方法或者d-vector和ivector+PLDA/CDS两种声纹识别方法都认定为同一员工的音频之后，则确定该员工签到有效。利用了多种声纹识别方法相结合的判别方式对音频信号进行判断，提升了声纹识别的精准度。

如图2所示，基于第一方面，在本发明的一些实施例中，该多员工密集签到的多重校验式声纹识别方法还包括以下步骤：

A1、利用小波音频去噪方法对录入的员工签到音频进行去噪，以得到去噪后的员工签到音频。

为了进一步提高员工声音识别的准确率，采用小波音频去噪方法对录入的员工签到音频进行去噪处理，去除冗杂干扰音频信号，以得到更为准确清晰的员工签到音频，以便后续进行精准识别判断。

如图3所示，第二方面，本发明实施例提供一种多员工密集签到的多重校验式声纹识别系统，包括音频录入模块100、分段模块200、编码模块300、相似度计算模块400、声纹识别模块500以及识别判断模块600，其中：

音频录入模块100，用于录入员工签到音频；

分段模块200，用于将员工签到音频进行多次不同的多等分分段，以得到多次分段后的多段音频数据；

编码模块300，用于对各次分段后的多段音频数据进行音频编码，以得到各次分段后的多段编码音频；

相似度计算模块400，用于计算并根据各次分段后的各段编码音频两两之间的相似度确定目标员工签到音频；

声纹识别模块500，用于采用多种声纹识别方法分别对目标员工签到音频进行识别，以得到多个识别结果；

识别判断模块600，用于判断多个识别结果是否相同，如果是，则生成签到识别成功信息；如果否，则生成签到失败提示信息，并重新录入员工签到音频。

为了解决现有技术中无法针对员工密集签到时刻对单一员工的声音进行精准识别的技术问题，本系统利用多段音频相似性多重校验的方式来对多员工密集签到时刻的声纹进行精准检验，提高识别精度。通过音频录入模块100、分段模块200、编码模块300、相似度计算模块400、声纹识别模块500以及识别判断模块600等多个模块的配合，将员工签到的音频划分为多段，利用多段音频相似性多重校验的方式来检验是否有其他员工声音的干扰，确保员工签到过程中不受其它员工的音频干扰，保证了声纹识别精度。利用了多种声纹识别方法相结合的判别方式对音频信号进行判断，提升了声纹识别的精准度。

如图4所示，基于第二方面，在本发明的一些实施例中，该多员工密集签到的多重校验式声纹识别系统还包括去噪模块700，用于利用小波音频去噪方法对录入的员工签到音频进行去噪，以得到去噪后的员工签到音频。

为了进一步提高员工声音识别的准确率，通过去噪模块700采用小波音频去噪方法对录入的员工签到音频进行去噪处理，去除冗杂干扰音频信号，以得到更为准确清晰的员工签到音频，以便后续进行精准识别判断。

如图5所示，第三方面，本申请实施例提供一种电子设备，其包括存储器101，用于存储一个或多个程序；处理器102。当一个或多个程序被处理器102执行时，实现如上述第一方面中任一项的方法。

还包括通信接口103，该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块，处理器102通过执行存储在存储器101内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。

其中，存储器101可以是但不限于，随机存取存储器（Random Access Memory，RAM），只读存储器（Read Only Memory，ROM），可编程只读存储器（Programmable Read-OnlyMemory，PROM），可擦除只读存储器（Erasable Programmable Read-Only Memory，EPROM），电可擦除只读存储器（Electric Erasable Programmable Read-Only Memory，EEPROM）等。

处理器102可以是一种集成电路芯片，具有信号处理能力。该处理器102可以是通用处理器，包括中央处理器（Central Processing Unit，CPU）、网络处理器（NetworkProcessor，NP）等；还可以是数字信号处理器（Digital Signal Processing，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field－Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请所提供的实施例中，应该理解到，所揭露的方法及系统和方法，也可以通过其它的方式实现。以上所描述的方法及系统实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的方法及系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器102执行时实现如上述第一方面中任一项的方法。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random AccessMemory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其它的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种多员工密集签到的多重校验式声纹识别方法，其特征在于，包括以下步骤：

录入员工签到音频；

2.根据权利要求1所述的一种多员工密集签到的多重校验式声纹识别方法，其特征在于，还包括以下步骤：

3.根据权利要求1所述的一种多员工密集签到的多重校验式声纹识别方法，其特征在于，所述将员工签到音频进行多次不同的多等分分段，以得到多次分段后的多段音频数据的方法包括以下步骤：

将员工签到音频进行N等分分段，以得到N段音频数据；

将员工签到音频进行N-1等分分段，以得到N-1段音频数据；

4.根据权利要求1所述的一种多员工密集签到的多重校验式声纹识别方法，其特征在于，所述计算并根据各次分段后的各段编码音频两两之间的相似度确定目标员工签到音频的方法包括以下步骤：

5.根据权利要求1所述的一种多员工密集签到的多重校验式声纹识别方法，其特征在于，所述采用多种声纹识别方法分别对目标员工签到音频进行识别的方法包括以下步骤：

6.根据权利要求1所述的一种多员工密集签到的多重校验式声纹识别方法，其特征在于，所述采用多种声纹识别方法分别对目标员工签到音频进行识别的方法包括以下步骤：

7.一种多员工密集签到的多重校验式声纹识别系统，其特征在于，包括音频录入模块、分段模块、编码模块、相似度计算模块、声纹识别模块以及识别判断模块，其中：

音频录入模块，用于录入员工签到音频；

8.根据权利要求7所述的一种多员工密集签到的多重校验式声纹识别系统，其特征在于，还包括去噪模块，用于利用小波音频去噪方法对录入的员工签到音频进行去噪，以得到去噪后的员工签到音频。

9.一种电子设备，其特征在于，包括：

存储器，用于存储一个或多个程序；

处理器；

当所述一个或多个程序被所述处理器执行时，实现如权利要求1-6中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法。