CN112289322A

CN112289322A - 声纹识别方法和装置

Info

Publication number: CN112289322A
Application number: CN202011247672.4A
Authority: CN
Inventors: 黄厚军; 顾向涛; 钱彦旻
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2021-01-29
Anticipated expiration: 2040-11-10
Also published as: CN112289322B

Abstract

本发明公开一种声纹识别方法和装置，其中，声纹识别方法，包括：响应于获取到用户的第一语音信息，对所述第一语音信息进行特征提取以获取第二语音信息；将所述第二语音信息与所述用户的声纹模板进行打分，判断得分是否高于预设阈值；若高于预设阈值，将所述第二语音信息的得分和所述第二语音信息一起加入与所述用户的声纹模板所对应的更新列表；通过在注册阶段设置一个计时器和更新列表，将得分高于预设阈值的第二语音信息加入更新列表，判断计时器的预设阈值和更新列表内第二语音的数量的预设阈值，从而可以实现对用户的声纹模板进行用户无感知的自学习更新，进一步的能够让系统一直保持较高的声纹识别率，避免出现时间长了识别率降低的情况。

Description

声纹识别方法和装置

技术领域

本发明属于语音识别技术领域，尤其涉及声纹识别方法和装置。

背景技术

声纹识别系统在用户注册声纹后，注册人随着年龄变化声音会发生变化，因而市场上的声纹识别系统在用户注册后随着使用时间声纹识别率会逐渐下降。目前市面上的声纹识别系统只能过一段时间要求用户重新注册声纹来解决该问题。

发明人在实现本申请的过程中发现：目前该问题只有在用户感觉识别率明显下降后，主动去进行重新注册，才能得以解决。

发明内容

本发明实施例提供一种声纹识别方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种声纹识别方法，包括响应于获取到用户的第一语音信息，对所述第一语音信息进行特征提取以获取第二语音信息；将所述第二语音信息与所述用户的声纹模板进行打分，判断得分是否高于预设阈值；若高于预设阈值，将所述第二语音信息的得分和所述第二语音信息一起加入与所述用户的声纹模板所对应的更新列表。

第二方面，本发明实施例提供一种声纹识别装置，包括：获取提取模块，配置为响应于获取到用户的第一语音信息，对所述第一语音信息进行特征提取以获取第二语音信息；打分判断模块，配置为将所述第二语音信息与所述用户的声纹模板进行打分，判断得分是否高于预设阈值；加入模块，配置为若高于预设阈值，将所述第二语音信息的得分和所述第二语音信息一起加入与所述用户的声纹模板所对应的更新列表。

第三方面，提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行第一方面所述的声纹识别方法的步骤。

第四方面，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述方法的步骤。

本申请实施例提供的方法通过在注册阶段设置一个计时器和更新列表，将得分高于预设阈值的第二语音信息加入更新列表，判断计时器的预设阈值和更新列表内第二语音的数量的预设阈值，从而可以实现对用户的声纹模板进行用户无感知的自学习更新，进一步的能够让系统一直保持较高的声纹识别率，避免出现时间长了识别率降低的情况。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种声纹识别方法的流程图；

图2为本发明一实施例提供的另一种声纹识别方法的流程图；

图3为本发明一实施例提供的另一种声纹识别方法的流程图；

图4为本发明实施例的声纹识别的方案一具体实施例的系统方案流程图；

图5为本发明一实施例提供的一种声纹识别装置的框图；

图6为本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本发明的一种声纹识别方法的一实施例的流程图。

如图1所示，在步骤101中，响应于获取到用户的第一语音信息，对所述第一语音信息进行特征提取以获取第二语音信息；

在步骤102中，将所述第二语音信息与所述用户的声纹模板进行打分，判断得分是否高于预设阈值；

在步骤103中，若高于预设阈值，将所述第二语音信息的得分和所述第二语音信息一起加入与所述用户的声纹模板所对应的更新列表。

在本实施例中，对于步骤101，声纹识别装置响应于获取到用户的第一语音信息，对所述第一语音信息进行特征提取以获取第二语音信息，例如，在采集到用户的语音后，经过语音活性检测截出用户说话的音频，将音频送入xvector提取模块，提取出xvector用作与用户对应的声纹模板。

之后，对于步骤102，声纹识别装置将所述第二语音信息与所述用户的声纹模板进行打分，判断得分是否高于预设阈值，例如，将第二语音信息与用户的声纹模板进行余弦距离打分，然后判断得分是否高于预设阈值。

最后，对于步骤103，若高于预设阈值，将所述第二语音信息的得分和所述第二语音信息一起加入与所述用户的声纹模板所对应的更新列表，例如，第二语音信息和用户的声纹模板进行打分，在得分高于预设阈值的时用户的声纹模板增加一条更新音频。

在本实施例的方案中，通过将得分高于预设阈值的第二语音信息加入更新列表，从而可以实现对用户的声纹模板进行用户无感知的自学习更新，进一步的能够让系统一直保持较高的声纹识别率。

在上述实施例所述的方法中，所述方法还包括：在所述用户的注册阶段对所述用户创建一个计时器和一个更新列表。

在本实施例所述的方案中，通过创建一个计时器和一个更新列表，判断计时器和更新列表的预设阈值，从而可以实现保证用户一次注册后，能够根据用户使用的数据对用户的声纹模板进行用户无感知的自学习更新。

请参考图2，其示出了本发明一实施例提供的另一种声纹识别方法的流程图，该流程图主要是针对步骤102“将所述第二语音信息与所述用户的声纹模板进行打分，判断得分是否高于预设阈值”所述的方法进一步限定的步骤的流程图。

如图2所示，在步骤201中，若所述得分不高于预设阈值，判断所述计时器的时间是否高于预设阈值；

在步骤202中，若所述计时器的时间高于预设阈值，将所述更新列表清空，同时将所述计时器清零。

在本实施例中，对于步骤201，若所述得分不高于预设阈值，判断所述计时器的时间是否高于预设阈值，例如，在第二语音信息与用户的声纹模板进行打分之后，得到的分数不高于预设阈值，将判断计时器中的时间是否高于预设的时间；

之后，对于步骤202，若所述计时器的时间高于预设阈值，将所述更新列表清空，同时将所述计时器清零，例如，计时器的预设阈值是三个月，当计时器中的时间高于或等于三个月时，则不更新声纹模板，将更新列表清空，计时器清零，等待下一次更新条件。若计时器的时间不高于三个月时，将直接结束，继续等待更多的第二语音加入更新列表，例如，在计时器中的时间高于三个月时，而更新列表内的第二语音数量在不高于预设的数量时，则本次不更新声纹模板，只有在设定时间内更新列表里的第二语音数量达到预设数量时才会更新声纹模板。

在本实施例的方案中，通过判断计时器的预设阈值，从此可以实现在更新列表长时间不高于阈值的时候，清空更新列表，继续等待更多的第二语音加入更新列表。

请参考图3，其示出了本发明一实施例提供的另一种声纹识别方法的流程图，该流程图主要是针对步骤103“将所述第二语音信息的得分和所述第二语音信息一起加入与所述用户的声纹模板所对应的更新列表”所述的方法之后进一步限定的步骤的流程图。

如图3所示，在步骤301中，判断与所述用户的声纹模板所对应的更新列表内的第二语音数量是否高于预设阈值；

在步骤302中，若高于预设阈值，将所述得分最高的第二语音更新到所述用户的声纹模板。

在本实施例中，对于步骤301，声纹识别装置判断与所述用户的声纹模板所对应的更新列表内的第二语音数量是否高于预设阈值，例如，更新列表预设的第二语音数量为三十条，将判断更新列表内的第二语音数量是否达到三十条。

对于步骤302，若高于预设阈值，将所述得分最高的第二语音更新到所述用户的声纹模板，例如，更新列表的预设阈值是三十条，当更新列表内的第二语音数量达到三十条时，例如，计时器没有达到预设时间，且更新列表内的第二语音数量高于等于预设阈值的数量，将更新列表内得分最高的第二语音信息更新到用户的声纹模板。

在本实施例的方案中，通过判断更新列表内第二语音的数量，将得分最高的第二语音更新到用户的声纹模板，从而可以实现在能够一直保持较高的声纹识别率，避免出现时间长了识别率降低的情况。

在上述实施例所述的方法中，所述用户的声纹模板更新后，将所述计时器清零并将所述更新列表清空。

例如，在更新列表和计时器任一个高于预设阈值时，更新用户的声纹模板之后，将更新列表清空并将计时器清零。

在上述任一实施例所述的方法中，所述声纹模板用x表示，所述第二语音信息用y表示，更新系数用α表示，所述更新后的声纹模板用x*表示，更新过程如下：

x*＝(1-α)*x+α*y。

需要说明的是，以上实施例中虽然采用了步骤101、步骤102等具有明确先后顺序的数字，限定了步骤的先后顺序，但是在实际的应用场景中，有些步骤是可以并列执行的，有些步骤的先后顺序也不受到以上数字的限定，本申请在此没有限制，在此不再赘述。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本发明的过程中发现这些相似技术的缺陷：

需要用户自己手动重新注册，用户体验差。

需要用户主动发起重新注册。

发明人在实现本发明的过程中发现为什么不容易想到原因：

目前竞品人员常用的方案用户自己手动重新注册。

本发明的技术创新点：

采用以下的技术方案解决问题：

用户注册通过某个设备注册时，注册音频传到声纹识别服务，系统从注册音频中提取注册声纹特征，作为该说话人模板。

用户在进行声纹认证时，测试音频会被传到声纹识别服务，从测试音频中提取测试声纹特征。测试声纹特征与目标说话人模板的打分如果高于给定阈值时，则目标人增加一条更新音频，如果该目标人在N天内累积到M条更新音频，则选择这M条中打分最高的音频提取的声纹特征与对目标人的声纹模板进更新。

通过上述方案，用户一次注册好声纹之后，系统会根据他/她使用的数据对用户的声纹模板进行用户无感知的自学习更新。只要用户经常使用声纹识别系统，声纹模板就可以一直学习到说话人最新的声音，保证用户一次注册后，系统能一直保持较高声纹识别率，不会出现过几年后系统识别率降低的情况。

整个系统的流程图如图4所示，该方案包括2步：用户注册、声纹测试。

在用户注册阶段，设备端麦克风采集到用户语音后，采用语音活动点检测(VoiceActivity detection，VAD)截出用户说话的音频，将音频送入xvector提取模块，提取出xvector用作说话人模板，放入说话人数据库。同时，对该说话人设置一个计时器和一个更新列表，计时器清零，更新列表清空。

在声纹识别阶段，设备端麦克风采集到用户语音后，采用VAD截出用户说话的音频，将音频送入xvector提取器提取xvector，然后与数据库中目标说话人的声纹模板进行余弦距离打分。

如果得分低于阈值则该音频不可以加入更新列表，此时判断注册人的计时器如果超时(大于N天)，则清空它的更新列表，计时器清零。

如果得分高于阈值则该音频可以判断是来自该目标说话人且可以加入更新列表，将测试音频提取的xvector以及打分加入注册人的更新列表。如果注册人的更新列表中xvector数量达到M个，取更新列表的xvector中与注册人模板打分最大的xvector用来更新注册因模板，更新过程如下：

x*＝(1-α)*x+α*y

其中，x表示更新前说话人模板，y表示用来更新的xvector，α表示更新系数，x*表示更新后说话人模板。说话人模板更新后，将计时器清零，更新列表清空。

请参考图5，其示出了本发明一实施例提供的一种声纹识别装置的框图。

如图5所示，获取提取模块510、打分判断模块520和加入模块530。

其中，获取提取模块510，配置为响应于获取到用户的第一语音信息，对所述第一语音信息进行特征提取以获取第二语音信息；打分判断模块520，配置为将所述第二语音信息与所述用户的声纹模板进行打分，判断得分是否高于预设阈值；加入模块530，配置为若高于预设阈值，将所述第二语音信息的得分和所述第二语音信息一起加入与所述用户的声纹模板所对应的更新列表。

应当理解，图5中记载的诸模块与参考图1、图2和图3中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图5中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如获取提取模块可以描述为响应于获取到用户的第一语音信息，对所述第一语音信息进行特征提取以获取第二语音信息的模块，另外，还可以通过硬件处理器来实现相关功能模块，例如获取提取模块可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的声纹识别方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

响应于获取到用户的第一语音信息，对所述第一语音信息进行特征提取以获取第二语音信息；

将所述第二语音信息与所述用户的声纹模板进行打分，判断得分是否高于预设阈值；

若高于预设阈值，将所述第二语音信息的得分和所述第二语音信息一起加入与所述用户的声纹模板所对应的更新列表。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据声纹识别装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至声纹识别装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项声纹识别方法。

图6是本发明实施例提供的电子设备的结构示意图，如图6所示，该设备包括：一个或多个处理器610以及存储器620，图6中以一个处理器610为例。用于声纹识别方法的设备还可以包括：输入装置630和输出装置640。处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接，图6中以通过总线连接为例。存储器620为上述的非易失性计算机可读存储介质。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例用于声纹识别装置方法。输入装置630可接收输入的数字或字符信息，以及产生与用于声纹识别装置的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于声纹识别装置中，包括：

至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种声纹识别方法，包括：

2.根据权利要求1所述的方法，其中，所述方法还包括：

在所述用户的注册阶段对所述用户创建一个计时器和一个更新列表。

3.根据权利要求1所述的方法，其中，所述将所述第二语音信息与所述用户的声纹模板进行打分，判断得分是否高于预设阈值，还包括：

若所述得分不高于预设阈值，判断所述计时器的时间是否高于预设阈值；

若所述计时器的时间高于预设阈值，将所述更新列表清空，同时将所述计时器清零。

4.根据权利要求1所述的方法，其中，在所述将所述第二语音信息的得分和所述第二语音信息一起加入与所述用户的声纹模板所对应的更新列表之后，还包括：

判断与所述用户的声纹模板所对应的更新列表内的第二语音数量是否高于预设阈值；

若高于预设阈值，将所述得分最高的第二语音更新到所述用户的声纹模板。

5.根据权利要求4所述的方法，其中，所述用户的声纹模板更新后，将所述计时器清零并将所述更新列表清空。

6.根据权利要求1-5所述的方法，其中，所述声纹模板用x表示，所述第二语音信息用y表示，更新系数用α表示，所述更新后的声纹模板用x^*表示，更新过程如下：

x^*＝(1-α)*x+α*y。

7.一种声纹识别装置，包括：

获取提取模块，配置为响应于获取到用户的第一语音信息，对所述第一语音信息进行特征提取以获取第二语音信息；

打分判断模块，配置为将所述第二语音信息与所述用户的声纹模板进行打分，判断得分是否高于预设阈值；

加入模块，配置为若高于预设阈值，将所述第二语音信息的得分和所述第二语音信息一起加入与所述用户的声纹模板所对应的更新列表。

8.根据权利要求7所述的装置，还包括：

判断模块，配置为判断与所述用户的声纹模板所对应的更新列表内的第二语音数量是否高于预设阈值；

更新模块，配置为若高于预设阈值，将所述得分最高的第二语音更新到所述用户的声纹模板。

9.一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行权利要求1至6中任一项所述方法的步骤。

10.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6中任一项所述方法的步骤。