CN111341320A

CN111341320A - 短语语音的声纹识别方法及装置

Info

Publication number: CN111341320A
Application number: CN202010128519.3A
Authority: CN
Inventors: 吕楠楠; 巫昌凯; 宁博; 周远侠
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2020-06-26
Anticipated expiration: 2040-02-28
Also published as: CN111341320B

Abstract

本发明提供一种短语语音的声纹识别方法及装置，方法包括：获取用户录入的短语语音的音频；对所述短语语音的音频进行音素提取处理并对提取的音素进行排序；根据所述排序后的音素和预设的音素提取模型进行特征提取处理并基于提取的特征进行声纹识别。本发明通过音素提取及排序将短语语音转换为因素的固定文本，基于转换后的固定文本进行声纹识别，提高短语语音的声纹识别准确率。

Description

短语语音的声纹识别方法及装置

技术领域

本发明涉及声纹识别技术领域，具体涉及一种短语语音的声纹识别方法及装置。

背景技术

目前，人工智能技术广泛应用于各领域，尤其是在办公领域中的应用，人工智能技术将大量重复性流程剥离出主要业务流程，显著地提高了办公效率及正确率。在人工智能技术领域中，声纹识别技术正逐渐应用到银行业，典型应用场景为电话银行，电话银行呼叫中心使用声纹识别作为用户身份验证的辅助手段并搭建声纹黑名单，有效抵制电话诈骗。

由于声纹识别算法的局限性，要取得较理想的声纹识别准确率必须对有效长语音进行识别，而在声纹识别的实际应用中，用户讲话习惯决定用户的录音往往达不到有效长语音的要求，因而实际场景下的声纹识别准确率相对较低，在某些特定场景下甚至无法达到可应用的最低要求。

因此，现有的声纹识别算法在对短语语音的音频进行识别时，还存在识别准确率低的问题。

发明内容

针对现有技术中的问题，本发明提供一种短语语音的声纹识别方法及装置，能够有效提高对短语语音的音频识别的准确率。

为解决上述技术问题，本发明提供以下技术方案：

第一方面，本发明提供一种短语语音的声纹识别方法，包括：

获取用户录入的短语语音的音频；

对所述短语语音的音频进行音素提取处理并对提取的音素进行排序；

根据所述排序后的音素和预设的音素提取模型进行特征提取处理并基于提取的特征进行声纹识别。

其中，对所述短语语音的音频进行音素提取处理，包括：

采用音素提取神经网络对短语语音的音频进行辅音音素的提取处理。

其中，所述基于提取的特征进行声纹识别，包括：

根据提取的特征与用户留存的特征进行比对，若比对结果相同，则声纹识别通过。

进一步的，还包括：根据短语语音的音频、该短语语音的音频对应的特征标签和时延神经网络进行训练得到预设的音素提取模型。

其中，所述根据短语语音的音频、该短语语音的音频对应的特征标签和时延神经网络进行训练得到预设的音素提取模型，包括：

采用时延神经网络对排序后的音素进行特征提取处理；

将特征提取结果和短语语音的音频对应的特征标签的交叉熵作为损失函数，基于所述损失函数对时延神经网络的参数进行训练；

其中，所述损失函数的函数值小于预设阈值，结束对时延神经网络的参数进行训练。

第二方面，本发明提供一种短语语音的声纹识别装置，包括：

获取单元，用于获取用户录入的短语语音的音频；

排序单元，用于对所述短语语音的音频进行音素提取处理并对提取的音素进行排序；

提取单元，用于根据所述排序后的音素和预设的音素提取模型进行特征提取处理并基于提取的特征进行声纹识别。

其中，所述排序单元，包括：

神经网络子单元，用于采用音素提取神经网络对短语语音的音频进行辅音音素的提取处理。

其中，所述提取单元，包括：

识别子单元，用于根据提取的特征与用户留存的特征进行比对，若比对结果相同，则声纹识别通过。

进一步的，还包括：

训练单元，用于根据短语语音的音频、该短语语音的音频对应的特征标签和时延神经网络进行训练得到预设的音素提取模型。

其中，所述训练单元包括：

第一子单元，用于对所述短语语音的音频进行音素提取处理并对提取的音素进行排序；

第二子单元，用于采用时延神经网络对排序后的音素进行特征提取处理；

第三子单元，用于将特征提取结果和短语语音的音频对应的特征标签的交叉熵作为损失函数，基于所述损失函数对时延神经网络的参数进行训练；

第三方面，本发明提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的短语语音的声纹识别方法的步骤。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的短语语音的声纹识别方法的步骤。

由上述技术方案可知，本发明提供一种短语语音的声纹识别方法及装置，通过获取用户录入的短语语音的音频；对所述短语语音的音频进行音素提取处理并对提取的音素进行排序；根据所述排序后的音素和预设的音素提取模型进行特征提取处理并基于提取的特征进行声纹识别，实现对音素提取及排序进而将短语语音转换为因素的固定文本，基于转换后的固定文本进行声纹识别，提高短语语音的声纹识别准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中的短语语音的声纹识别方法的第一种流程示意图。

图2为本发明实施例中的短语语音的声纹识别方法的第二种流程示意图。

图3为本发明实施例中的短语语音的声纹识别装置的第一种结构示意图。

图4为本发明实施例中的短语语音的声纹识别装置的第二种结构示意图。

图5为本发明实施例中的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种短语语音的声纹识别方法的实施例，参见图1，所述短语语音的声纹识别方法具体包含有如下内容：

S101：获取用户录入的短语语音的音频；

S102：对所述短语语音的音频进行音素提取处理并对提取的音素进行排序；

在本步骤中，对所述短语语音的音频进行音素提取处理，包括：采用音素提取神经网络对短语语音的音频进行辅音音素的提取处理。

例如：S1：获取通过对短语语音的音频进行人工鉴别得到的音素/音节集合，并根据音素/音节集合对预置的语音特征提取模型进行训练，得到训练后的语音特征提取模型；S2：通过训练后的语音特征提取模型对目标短语语音的音频进行音素/音节提取，得到完整的音素/音节集合；具体包括：S21：对目标短语语音的音频进行初步音素/音节提取得到未筛选的音素/音节集合；S22：通过训练后的语音特征提取模型对未筛选的音素/音节集合进行模型匹配，提取未筛选的音素/音节集合中与训练后的音素/音节提取模型的匹配度超过预置阈值的音素/音节，得到完整的音素/音节集合。

S103：根据所述排序后的音素和预设的音素提取模型进行特征提取处理并基于提取的特征进行声纹识别。

在本步骤中，基于提取的特征进行声纹识别，包括：根据提取的特征与用户留存的特征进行比对，若比对结果相同，则声纹识别通过。

从上述描述可知，本发明实施例提供的短语语音的声纹识别方法，通过获取用户录入的短语语音的音频；对所述短语语音的音频进行音素提取处理并对提取的音素进行排序；根据所述排序后的音素和预设的音素提取模型进行特征提取处理并基于提取的特征进行声纹识别，实现对音素提取及排序进而将短语语音转换为因素的固定文本，基于转换后的固定文本进行声纹识别，提高短语语音的声纹识别准确率。

基于上述实施例，参见图2，还包括步骤S100，具体内容如下：

S100：根据短语语音的音频、该短语语音的音频对应的特征标签和时延神经网络进行训练得到预设的音素提取模型。

在本步骤中，对所述短语语音的音频进行音素提取处理并对提取的音素进行排序；采用时延神经网络对排序后的音素进行特征提取处理；将特征提取结果和短语语音的音频对应的特征标签的交叉熵作为损失函数，基于所述损失函数对时延神经网络的参数进行训练；

需要说明的是，对大量带特征标签的短语语音的音频提取10个常用的辅音音素，其中，特征标签是使用MFCC(梅尔频率倒谱系数)算法对提取出音素的短语语音的音频提取13维声纹特征。

带特征标签的短语语音的音频进行因素提取和排序后，通过初始的时延神经网络TDNN进行特征提取；根据特征提取结果，使用将特征提取结果和短语语音的音频对应的特征标签的交叉熵作为损失函数不断修正时延神经网络的各项参数。可以理解的是，损失函数的函数值小于预设阈值，结束对时延神经网络的参数进行训练，最终得到一个基于音素识别的时延神经网络TDNN。

从上述描述可知，本发明实施例提供的短语语音的声纹识别方法，通过提取语音段中的音素，并对音素按照指定顺序重排序，将自由文本短语音转换成固定文本，有效解决了实际应用中短语音无法识别的问题，使用固定文本识别，大大提升了声纹识别准确率

为进一步地说明本方案，本发明提供一种短语语音的声纹识别方法的应用实施例，具体包含有如下内容：

在用户声纹注册时，用户交互模块采集用户短语语音，从注册的短语语音段中提取出常用的10个音素，并对音素进行排列，使用基于音素的神经网络对排序后的因素中提取声纹特征并建立声纹模型入库；

在验证或者识别声纹时，用户交互模块采集用户短语语音，从注册的短语语音段中提取出常用的10个音素，接着按照注册时音素的排列顺序进行排序，以此将短语音自由文本语音转换成固定文本语音，然后对转换后的语音进行特征提取、比对识别操作，以此提高短语音自由文本的声纹识别准确率。

本发明实施例提供一种能够实现所述短语语音的声纹识别方法中全部内容的短语语音的声纹识别装置的具体实施方式，参见图3，所述短语语音的声纹识别装置具体包括如下内容：

获取单元10，用于获取用户录入的短语语音的音频；

排序单元20，用于对所述短语语音的音频进行音素提取处理并对提取的音素进行排序；

提取单元30，用于根据所述排序后的音素和预设的音素提取模型进行特征提取处理并基于提取的特征进行声纹识别。

其中，所述排序单元20，包括：

其中，所述提取单元30，包括：

在上述实施例的技术上，参见图4还包括：

训练单元40，用于根据短语语音的音频、该短语语音的音频对应的特征标签和时延神经网络进行训练得到预设的音素提取模型。

其中，所述训练单元包括：

本发明提供的短语语音的声纹识别装置的实施例具体可以用于执行上述实施例中的短语语音的声纹识别方法的实施例的处理流程，其功能在此不再赘述，可以参照上述方法实施例的详细描述。

从上述描述可知，本发明实施例提供的短语语音的声纹识别装置，通过获取用户录入的短语语音的音频；对所述短语语音的音频进行音素提取处理并对提取的音素进行排序；根据所述排序后的音素和预设的音素提取模型进行特征提取处理并基于提取的特征进行声纹识别，实现对音素提取及排序进而将短语语音转换为因素的固定文本，基于转换后的固定文本进行声纹识别，提高短语语音的声纹识别准确率。

本申请提供一种用于实现所述短语语音的声纹识别方法中的全部或部分内容的电子设备的实施例所述电子设备具体包含有如下内容：

处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述通信接口用于实现相关设备之间的信息传输；该电子设备可以是台式计算机、平板电脑及移动终端等，本实施例不限于此。在本实施例中，该电子设备可以参照实施例用于实现所述短语语音的声纹识别方法的实施例及用于实现所述短语语音的声纹识别装置的实施例进行实施，其内容被合并于此，重复之处不再赘述。

图5为本申请实施例的电子设备9600的系统构成的示意框图。如图5所示，该电子设备9600可以包括中央处理器9100和存储器9140；存储器9140耦合到中央处理器9100。值得注意的是，该图5是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

一实施例中，短语语音的声纹识别功能可以被集成到中央处理器9100中。其中，中央处理器9100可以被配置为进行如下控制：

获取用户录入的短语语音的音频；

从上述描述可知，本申请的实施例提供的电子设备，通过获取用户录入的短语语音的音频；对所述短语语音的音频进行音素提取处理并对提取的音素进行排序；根据所述排序后的音素和预设的音素提取模型进行特征提取处理并基于提取的特征进行声纹识别，实现对音素提取及排序进而将短语语音转换为因素的固定文本，基于转换后的固定文本进行声纹识别，提高短语语音的声纹识别准确率。

在另一个实施方式中，短语语音的声纹识别装置可以与中央处理器9100分开配置，例如可以将短语语音的声纹识别配置为与中央处理器9100连接的芯片，通过中央处理器的控制来实现短语语音的声纹识别功能。

如图5所示，该电子设备9600还可以包括：通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是，电子设备9600也并不是必须要包括图5中所示的所有部件；此外，电子设备9600还可以包括图5中没有示出的部件，可以参考现有技术。

如图5所示，中央处理器9100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。

其中，存储器9140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序，以实现信息存储或处理等。

输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器9140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142，该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。

存储器9140还可以包括数据存储部9143，该数据存储部9143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块9110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132，以经由扬声器9131提供音频输出，并接收来自麦克风9132的音频输入，从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器9130还耦合到中央处理器9100，从而使得可以通过麦克风9132能够在本机上录音，且使得可以通过扬声器9131来播放本机上存储的声音。

本发明的实施例还提供能够实现上述实施例中的短语语音的声纹识别方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的短语语音的声纹识别方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

获取用户录入的短语语音的音频；

从上述描述可知，本发明实施例提供的计算机可读存储介质，通过获取用户录入的短语语音的音频；对所述短语语音的音频进行音素提取处理并对提取的音素进行排序；根据所述排序后的音素和预设的音素提取模型进行特征提取处理并基于提取的特征进行声纹识别，实现对音素提取及排序进而将短语语音转换为因素的固定文本，基于转换后的固定文本进行声纹识别，提高短语语音的声纹识别准确率。

虽然本发明提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

本领域技术人员应明白，本说明书的实施例可提供为方法、装置(系统)或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面，也不局限于任何单一的实施例，也不局限于这些方面和/或实施例的任意组合和/或置换。而且，可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种短语语音的声纹识别方法，其特征在于，包括：

获取用户录入的短语语音的音频；

2.根据权利要求1所述的短语语音的声纹识别方法，其特征在于，对所述短语语音的音频进行音素提取处理，包括：

3.根据权利要求1所述的短语语音的声纹识别方法，其特征在于，所述基于提取的特征进行声纹识别，包括：

4.根据权利要求1所述的短语语音的声纹识别方法，其特征在于，还包括：根据短语语音的音频、该短语语音的音频对应的特征标签和时延神经网络进行训练得到预设的音素提取模型。

5.根据权利要求4所述的短语语音的声纹识别方法，其特征在于，所述根据短语语音的音频、该短语语音的音频对应的特征标签和时延神经网络进行训练得到预设的音素提取模型，包括：

采用时延神经网络对排序后的音素进行特征提取处理；

6.一种短语语音的声纹识别装置，其特征在于，包括：

获取单元，用于获取用户录入的短语语音的音频；

7.根据权利要求6所述的短语语音的声纹识别装置，其特征在于，所述排序单元，包括：

8.根据权利要求6所述的短语语音的声纹识别装置，其特征在于，所述提取单元，包括：

9.根据权利要求6所述的短语语音的声纹识别装置，其特征在于，还包括：

10.根据权利要求9所述的短语语音的声纹识别装置，其特征在于，所述训练单元包括：

11.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至5任一项所述的短语语音的声纹识别方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至5任一项所述的短语语音的声纹识别方法的步骤。