CN109727602A

CN109727602A - 一种移动设备终端的声纹识别方法及装置

Info

Publication number: CN109727602A
Application number: CN201811640866.3A
Authority: CN
Inventors: 黄川�; 俞瑞隆; 甘津瑞; 宋泽
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-05-07

Abstract

本发明公开一种移动设备终端的声纹识别方法及装置，其中，该方法包括：采集录音数据；从触发唤醒库的录音数据中截取唤醒音频；当唤醒音频的信噪比小于第一阈值时，重新截取唤醒音频的步骤，当唤醒音频的信噪比不小于第一阈值时，将信噪比大于第一阈值的唤醒音频进行性别识别。将所述唤醒音频注册声纹；根据注册声纹成功的次数，确定是否启动移动设备终端的声纹识别功能。本方案通过在唤醒阶段，利用唤醒功能提取特定内容的音频，如唤醒音频，通过与第一阈值的比对，筛选出优质信噪比的音频，而且通过重复提取信噪比符合要求的音频，既筛选出了优质音频，也控制了声纹库的大小，从而实现在提升声纹识别率的同时也降低了声纹识别的耗时。

Description

一种移动设备终端的声纹识别方法及装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种移动设备终端的声纹识别方法及装置。

背景技术

现有的语音识别技术中，通常将采集到的声纹在数据库中进行1:N的检索和1:1的比对验证，即将说话人声纹信息与库中的已知用户声纹进行1:N的检索，和将说话人声纹信息与库中的已知用户声纹进行1:1比对验证。1:1的比对验证对比验证过程单一，对声音信息没有提炼，无法识别声纹的概率较高，未对声音信息进一步处理，很容易无法验证通过。而对于1:N的检索，检索声纹耗时，声纹库越大，耗时越严重，未对声纹库做限制，检索效率低。此外，采集优质声纹信息一般需要比较安静的环境，如果不对音频信息做内容和信噪比(即SIGNAL-NOISE RATIO，snr)的删选的话，很容易出现声纹功能使用异常，如果想达到优质的声纹效果的话，工作人员需要手动逐个删选，流程复杂，耗时耗力。

发明内容

本发明实施例提供一种移动设备终端的声纹识别方法及装置，用于至少解决上述技术问题之一。

第一方面，为达到上述目的，本发明实施例提供一种移动设备终端的声纹识别方法，该方法包括：采集录音数据；从触发唤醒库的录音数据中截取唤醒音频；

将信噪比大于第一阈值的唤醒音频进行性别识别；将所述进行性别识别后的唤醒音频注册声纹；根据注册声纹成功的次数，确定是否启动所述移动设备终端的声纹识别功能。

在一种可行的实施例中，在所述将信噪比大于第一阈值的唤醒音频进行性别识别的步骤之前，所述方法还包括：

将所述唤醒音频的信噪比与所述第一阈值比对；以及在所述唤醒音频的信噪比小于所述第一阈值的情况下，重新执行所述从触发唤醒库的录音数据中截取唤醒音频的步骤。

在一种可行的实施例中，所述第一阈值为0.5。

在一种可行的实施例中，所述根据注册声纹成功的次数，确定是否启动所述移动设备终端的声纹识别功能的步骤，包括：

当所述注册声纹成功的次数达到第二阈值时，启动所述移动设备终端的声纹识别功能。

在一种可行的实施例中，所述第二阈值不小于3，且不大于10。

第二方面，对应于上述第一方面，本发明实施例还提供一种移动设备终端的声纹识别装置，用于执行上述方法。该装置包括：

录音设备，用于采集录音数据；

唤醒库，用于从触发唤醒库的录音数据中截取唤醒音频；

性别识别库，用于将信噪比大于第一阈值的唤醒音频进行性别识别；

注册模块，用于将所述进行性别识别后的唤醒音频注册声纹；

第一控制模块，用于根据注册声纹成功的次数，确定是否启动所述移动设备终端的声纹识别功能。

在一种可行的实施例中，所述装置还包括：

第二控制模块，用于将所述唤醒音频的信噪比与所述第一阈值比对；以及在所述唤醒音频的信噪比小于所述第一阈值的情况下，控制所述唤醒库重新从触发所述唤醒库的录音数据中截取唤醒音频。

在一种可行的实施例中，所述第一阈值为0.5。

在一种可行的实施例中，当所述注册声纹成功的次数达到第二阈值时，所述第一控制模块启动所述移动设备终端的声纹识别功能。

第三方面，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述第一方面中任意一项所述方法的步骤。

第四方面，本发明实施例还提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述第一方面中任意一项所述方法的步骤。

本发明实施例的有益效果在于：在唤醒阶段，利用唤醒功能提取特定内容的音频(如唤醒音频)，通过与第一阈值的比对，筛选出优质信噪比的音频，而且通过重复提取3-10段符合要求的音频(即信噪比大于第一阈值的唤醒音频)，既筛选出了优质音频，也控制了声纹库的大小，从而实现在提升声纹识别率的同时也降低了声纹识别的耗时。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种移动设备终端的声纹识别方法的流程图；

图2是本发明实施例提供的一种移动设备终端的声纹识别装置的结构框图；

图3是图2所示装置执行图1所示方法是的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

图1是本发明实施例提供的一种移动设备终端的声纹识别方法的流程图。该方法可用于集成声纹识别功能的设备端。如图1所示，该方法包括以下步骤：

S101：采集录音数据。

具体地，可调用移动设备终端上的录音功能进行采集录音数据，以备后续将该录音数据输入给唤醒库，以触发所述唤醒库。

S102：从触发唤醒库的录音数据中截取唤醒音频。

具体地，当有录音数据触发所述唤醒库时，即在所述唤醒库在被录音数据触发的情况下，所述唤醒库可从触发唤醒库的录音数据中截取唤醒音频。

S103：将信噪比大于第一阈值的唤醒音频进行性别识别。

具体地，在获取到唤醒音频后，可将信噪比大于第一阈值的唤醒音频进行性别识别。所述第一阈值的取值可根据不同场景进行设定，在对声纹识别要求不高的应用场景，可设定较低的第一阈值，在对声纹识别要求较高的应用场景，可设定较高的第一阈值。所述第一阈值优选为0.5，该值信噪比的音频日常生活中较易获取，一般用做声纹准确率。该信噪比取值相对合理，使用场景相对普遍。

S104：将所述进行性别识别后的唤醒音频注册声纹。

具体地，将经性别识别后的唤醒音频注册声纹，并反馈是否注册成工的结果。

S105：根据注册声纹成功的次数，确定是否启动所述移动设备终端的声纹识别功能。

具体地，记录注册声纹成功的次数，即累计次数。当所述注册声纹成功的累计次数达到第二阈值时，启动所述移动设备终端的声纹识别功能。

在具体实施中，对所述第二阈值的取值往往会影响到声纹识别过程的耗时。如果获取10条以上且信噪比符合要求的唤醒音频(即10条以上且注册声纹成功的唤醒音频都信噪比大于第一阈值。)，注册声纹后(即注册声纹成功累计次数大于10。)后，再启动声纹识别功能，则会发现比较耗时，用户体验也不好，而且对后续声纹识别准确率的提升不高。如果获取3条以下且信噪比符合要求的唤醒音频(即3条以上且注册声纹成功的唤醒音频都信噪比大于第一阈值。)，注册声纹后(即注册声纹成功累计次数大于3。)后，再启动声纹识别功能，则会发现虽然耗时较小，但后续的声纹识别准确率不高。因此，本实施例优选所述第二阈值不小于3，且不大于10，通过采用提取s信噪比较高的唤醒音频注册声纹，且选择合理的条数，使用户在唤醒过程中成功注册音频，既提高声纹识别准确率、合理控制耗时，也控制了声纹库的音频数量，检索效率高，用户体验好。

可选的，在另外的实施方式中，可在步骤S103之前，即在所述将信噪比大于第一阈值的唤醒音频进行性别识别的步骤之前，将所述唤醒音频的信噪比与所述第一阈值比对；以及在所述唤醒音频的信噪比小于所述第一阈值的情况下，重新执行步骤102，即重新从触发唤醒库的录音数据中截取唤醒音频，以过滤掉质量较差的唤醒音频，筛选出优质的唤醒音频，以便提高注册声纹的质量。

图2是本发明实施例提供的一种移动设备终端的声纹识别装置的结构框图。该装置可设置在移动设备终端上运行，用于执行图1所示方法及上述可实施的其他方法步骤。该装置包括：

录音设备201，用于采集录音数据。

唤醒库202，用于从触发唤醒库的录音数据中截取唤醒音频。

性别识别库203，用于将信噪比大于第一阈值的唤醒音频进行性别识别。

注册模块204，用于将所述进行性别识别后的唤醒音频注册声纹。

第一控制模块205，用于根据注册声纹成功的次数，确定是否启动所述移动设备终端的声纹识别功能。即当所述注册声纹成功的次数达到第二阈值时，所述第一控制模块启动所述移动设备终端的声纹识别功能。

第二控制模块206，用于将所述唤醒音频的信噪比与所述第一阈值比对；以及在所述唤醒音频的信噪比小于所述第一阈值的情况下，控制所述唤醒库202重新从触发所述唤醒库的录音数据中截取唤醒音频。

需要说明的是，图2所示装置对图1所示方法及其他改进方法的执行过程内容可参考图1所示方法及上述其他改进方法的具体步骤内容，此处不再赘述。参考如图3所示，作为一个例子，将本装置设置在移动设备终端上运行，对图1所示方法的执行过程如下：

首先sdk(即software development kit，软件开发包)初始化，移动设备终端的录音设备(录音机)启动开始录音，采集录音数据，并将录音数据输入唤醒库。若所述录音数据触发唤醒库，则唤醒库截取唤醒音频。第二控制模块判断所述唤醒音频的信噪比与第一阈值比对，如果不符合要求(即所述唤醒音频的信噪比小于所述第一阈值)，则唤醒库重新截取唤醒音频。如果符合要求(即所述唤醒音频的信噪比大于或等于所述第一阈值)，则所述唤醒音频送入性别识别库。性别识别库将所述唤醒音频识别性别后，发送给注册模块。注册模块对所述唤醒音频进行注册声纹，并将注册结果反馈给第一控制模块。第一控制模块累计注册声纹成功的累计次数，如果累计次数达到第二阈值(例如3次)后，则使用该注册声纹，并启动该移动设备终端的声纹识别功能。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行图1所示方法及上述其他改进方法中任意一项所述方法的步骤。

本发明实施例还提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述图1所示方法及上述其他改进方法中任意一项所述方法的步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

本申请实施例的电子设备和具有声纹识别功能的移动设备终端以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有/具有声纹识别功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种移动设备终端的声纹识别方法，其特征在于，所述方法包括：

采集录音数据；

从触发唤醒库的录音数据中截取唤醒音频；

将信噪比大于第一阈值的唤醒音频进行性别识别；

将所述进行性别识别后的唤醒音频注册声纹；

根据注册声纹成功的次数，确定是否启动所述移动设备终端的声纹识别功能。

2.根据权利要求1所述的方法，其特征在于，在所述将信噪比大于第一阈值的唤醒音频进行性别识别的步骤之前，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述第一阈值为0.5。

4.根据权利要求1所述的方法，其特征在于，所述根据注册声纹成功的次数，确定是否启动所述移动设备终端的声纹识别功能的步骤，包括：

5.根据权利要求4所述的方法，其特征在于，所述第二阈值不小于3，且不大于10。

6.一种移动设备终端的声纹识别装置，其特征在于，所述装置包括：

录音设备，用于采集录音数据；

唤醒库，用于从触发唤醒库的录音数据中截取唤醒音频；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求6或7所述的装置，其特征在于，所述第一阈值为0.5。

9.根据权利要求6所述的装置，其特征在于，当所述注册声纹成功的次数达到第二阈值时，所述第一控制模块启动所述移动设备终端的声纹识别功能。

10.根据权利要求9所述的装置，其特征在于，所述第二阈值不小于3，且不大于10。

11.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任意一项所述方法的步骤。

12.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-5中任意一项所述方法的步骤。