CN112820298A

CN112820298A - 声纹识别方法及装置

Info

Publication number: CN112820298A
Application number: CN202110047207.4A
Authority: CN
Inventors: 邓洪文; 镇超; 卞小香; 吴多
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2021-05-18
Anticipated expiration: 2041-01-14
Also published as: CN112820298B

Abstract

本申请实施例提供一种声纹识别方法及装置，也可用于金融领域，所述方法包括：采集用户音频文件并提取所述音频文件中的声纹特征信息；根据跨信道声纹识别模型对所述声纹特征信息进行声纹识别，得到所述声纹识别的结果，其中，所述跨信道声纹识别模型中包括根据不同测试样本类型配置对应注意力系数的损失函数模型，所述测试样本类型与所述音频文件所属信道对应；本申请能够有效提高跨信道场景下声纹识别的准确率。

Description

声纹识别方法及装置

技术领域

本申请涉及人工智能领域，也可用于金融领域，具体涉及一种声纹识别方法及装置。

背景技术

目前，人工智能技术广泛应用于各领域，尤其是在办公领域中的应用，将大量重复性流程剥离出主要业务流程，显著地提高了办公效率及正确率。在人工智能技术领域中，声纹识别技术正逐渐应用到银行业，典型应用场景为电话银行，电话银行呼叫中心使用声纹识别作为用户身份验证的辅助手段，并基于声纹识别技术搭建声纹黑名单，在抵制电话诈骗的场景下有着广阔的应用空间。

声纹识别应用在同信道时效果极佳，识别准确率往往可以达到98％以上，等错率(EER)也能达到0.01以下。在实际应用中，用户通过手机app注册声纹，再通过呼叫中心咨询业务。在此过程中，银行业务系统使用声纹识别来对用户的身份进行认证来保障业务安全。这就涉及到，通过手机app网络信道采集的采样率为16kHz的语音，与通过电话信道采集的采样率为8kHz的语音进行跨信道比对的问题(即跨信道场景)。

发明人发现，无论在现实应用中，还是在实验室采集数据测试中，现有技术中的声纹识别算法对这种跨信道的准确率都不高，由于跨信道场景是声纹识别在银行应用最为重要、最为广泛的场景，因此必须提高跨信道声纹识别算法的识别准确率。

发明内容

针对现有技术中的问题，本申请提供一种声纹识别方法及装置，能够有效提高提高跨信道场景下声纹识别的准确率。

为了解决上述问题中的至少一个，本申请提供以下技术方案：

第一方面，本申请提供一种声纹识别方法，包括：

采集用户音频文件并提取所述音频文件中的声纹特征信息；

根据跨信道声纹识别模型对所述声纹特征信息进行声纹识别，得到所述声纹识别的结果，其中，所述跨信道声纹识别模型中包括根据不同测试样本类型配置对应注意力系数的损失函数模型。

进一步地，在所述根据跨信道声纹识别模型对所述声纹特征信息进行声纹识别之前，包括：

根据不同测试样本类型确定对应的注意力系数，得到添加有所述注意力系数的损失函数模型；

根据所述损失函数模型构建时延神经网络模型，并通过预设带标签的短语音音频对所述时延神经网络模型进行分类训练，得到跨信道声纹识别模型。

进一步地，在所述通过预设带标签的短语音音频对所述时延神经网络模型进行分类训练，得到跨信道声纹识别模型之后，包括：

确定每次所述分类训练的识别分类误差；

根据所述识别分类误差和预设随机下降梯度对所述跨信道声纹识别模型进行迭代训练，直至所述识别分类误差小于设定误差阈值。

进一步地，在所述采集用户音频文件之后，在所述提取所述音频文件中的声纹特征信息之前，包括：

对所述音频文件进行预处理操作，所述预处理操作包括音频数据降噪操作和静音段数据去除操作中的至少一种。

第二方面，本申请提供一种声纹识别装置，包括：

声纹特征信息确定模块，用于采集用户音频文件并提取所述音频文件中的声纹特征信息；

跨信道声纹识别模块，用于根据跨信道声纹识别模型对所述声纹特征信息进行声纹识别，得到所述声纹识别的结果，其中，所述跨信道声纹识别模型中包括根据不同测试样本类型配置对应注意力系数的损失函数模型。

进一步地，还包括：

损失函数模型构建单元，用于根据不同测试样本类型确定对应的注意力系数，得到添加有所述注意力系数的损失函数模型；

跨信道声纹识别模型构建单元，用于根据所述损失函数模型构建时延神经网络模型，并通过预设带标签的短语音音频对所述时延神经网络模型进行分类训练，得到跨信道声纹识别模型。

进一步地，还包括：

识别分类误差确定单元，用于确定每次所述分类训练的识别分类误差；

跨信道声纹识别模型迭代训练单元，用于根据所述识别分类误差和预设随机下降梯度对所述跨信道声纹识别模型进行迭代训练，直至所述识别分类误差小于设定误差阈值。

进一步地，还包括：

音频文件预处理操作单元，用于对所述音频文件进行预处理操作，所述预处理操作包括音频数据降噪操作和静音段数据去除操作中的至少一种。

第三方面，本申请提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的声纹识别方法的步骤。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的声纹识别方法的步骤。

由上述技术方案可知，本申请提供一种声纹识别方法及装置，通过在跨信道声纹识别模型中为损失函数模型添加基于不同测试样本类型确定的注意力系数，将影响识别的信息如信道等对声纹识别的影响凸显出来，进行再通过跨信道声纹识别模型的不断训练，消除此部分不利因素的影响，从而提升跨信道声纹识别的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中的声纹识别方法的流程示意图之一；

图2为本申请实施例中的声纹识别方法的流程示意图之二；

图3为本申请实施例中的声纹识别方法的流程示意图之三；

图4为本申请实施例中的声纹识别装置的结构图之一；

图5为本申请实施例中的声纹识别装置的结构图之二；

图6为本申请实施例中的声纹识别装置的结构图之三；

图7为本申请一具体实施例中的现有声纹识别模型的结构示意图；

图8为本申请实施例中的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

考虑到现有技术中的声纹识别算法对跨信道的准确率不高的问题，本申请提供一种声纹识别方法及装置，通过在跨信道声纹识别模型中为损失函数模型添加基于不同测试样本类型确定的注意力系数，将影响识别的信息如信道等对声纹识别的影响凸显出来，进行再通过跨信道声纹识别模型的不断训练，消除此部分不利因素的影响，从而提升跨信道声纹识别的准确率。

可以理解的是，参见图7，现有的声纹算法的结构为：一个TDNN(时延神经网络)后接一个统计池化层，再加上两层全连接层，最后通过softmax训练一个多分类的神经网络，然后将倒数第二层全连接层作为embeding，训练一个PLDA分类器，由此通过embding做特征提取，使用PLDA做相似度打分来实现声纹的注册与验证功能。由此可知，上述算法训练出来的embding含有大量的非声纹信息，如信道等，这些复杂的声纹信息会干扰声纹的判断，这也是跨信道声纹识别准确率低的主要原因。

为了能够有效提高跨信道场景下声纹识别的准确率，本申请提供一种声纹识别方法的实施例，参见图1，所述声纹识别方法具体包含有如下内容：

步骤S101：采集用户音频文件并提取所述音频文件中的声纹特征信息。

步骤S102：根据跨信道声纹识别模型对所述声纹特征信息进行声纹识别，得到所述声纹识别的结果，其中，所述跨信道声纹识别模型中包括根据不同测试样本类型配置对应注意力系数的损失函数模型，所述测试样本类型与所述音频文件所属信道对应。

可选的，本申请在构建跨信道声纹识别模型时，修改了其中的损失函数模型的计算方式，具体为针对每种分类赋一个注意力系数(也称权重系数)。

具体的，对于一个测试样本，假设共有n个分类，传统交叉熵损失函数为：

其中，每个类别都是独热码(one-hot)的形式，即只有当是分类正确时，y_i为1，其他(n-1)个类别y_i＝0。

表示分类器(softmax)输出类别i的概率，y_i∈(0,1)。

由于除了正样本之外，其余的y_i都为0，因此交叉熵可以简化为：

可以看出，简化后的交叉熵为大于零且单调递减的函数，

越大，交叉熵越小。根据交叉熵的实际意义，此时正确分类为i的可能性越高。

对某一个测试样本，改进后的损失函数为：

改进后的损失函数在交叉熵损失函数的基础上，为每个分类加上了一个注意力系数。同理，简化后的损失函数为：

可以看出，对于简单的声纹，假设

损失函数值为改进前的0.01。

可以看出，对于复杂的声纹，假设

损失函数值为改进前的0.25。

由此可见，对于复杂的声纹，其损失函数值在累计损失函数和中所占的比重成倍增加，对于简单的声纹，其损失函数值所占的比重成倍减少。因此，本申请的神经网络将更专注学习复杂的声纹特征，从而提高神经网络对声纹特征的提取程度，过滤掉信道等干扰信息。

从上述描述可知，本申请实施例提供的声纹识别方法，能够通过在跨信道声纹识别模型中为损失函数模型添加基于不同测试样本类型确定的注意力系数，将影响识别的信息如信道等对声纹识别的影响凸显出来，进行再通过跨信道声纹识别模型的不断训练，消除此部分不利因素的影响，从而提升跨信道声纹识别的准确率。

为了能够提高神经网络对声纹特征的提取程度，过滤掉信道等干扰信息，在本申请的声纹识别方法的一实施例中，参见图2，在上述步骤S102之前还可以具体包含如下内容：

步骤S201：根据不同测试样本类型确定对应的注意力系数，得到添加有所述注意力系数的损失函数模型。

具体的，如电话信道，设置

那么此类型的权重系数为

损失函数值为改进前的0.25。

步骤S202：根据所述损失函数模型构建时延神经网络模型，并通过预设带标签的短语音音频对所述时延神经网络模型进行分类训练，得到跨信道声纹识别模型。

具体的，本申请可以构建一个基于TDNN的声纹识别神经网络，其中损失函数模型为：

然后输入大量带标签的短语音音频给构建好的神经网络，得到识别结果。

为了能够提高跨信道声纹识别模型的识别准确率，在本申请的声纹识别方法的一实施例中，参见图3，在上述步骤S202之后还可以具体包含如下内容：

步骤S301：确定每次所述分类训练的识别分类误差。

步骤S302：根据所述识别分类误差和预设随机下降梯度对所述跨信道声纹识别模型进行迭代训练，直至所述识别分类误差小于设定误差阈值。

具体的，本申请可以使用识别分类误差作为损失函数进行反向传播，通过随机梯度下降方法迭代训练声纹识别神经网络，直到分类误差小于设定的误差阈值，即完成跨信道声纹识别模型的训练。

为了能够提高神经网络对声纹特征的提取程度，在本申请的声纹识别方法的一实施例中，在上述步骤S101中还可以具体包含如下内容：

为了能够有效提高跨信道场景下声纹识别的准确率，本申请提供一种用于实现所述声纹识别方法的全部或部分内容的声纹识别装置的实施例，参见图4，所述声纹识别装置具体包含有如下内容：

声纹特征信息确定模块10，用于采集用户音频文件并提取所述音频文件中的声纹特征信息。

跨信道声纹识别模块20，用于根据跨信道声纹识别模型对所述声纹特征信息进行声纹识别，得到所述声纹识别的结果，其中，所述跨信道声纹识别模型中包括根据不同测试样本类型配置对应注意力系数的损失函数模型，所述测试样本类型与所述音频文件所属信道对应。

从上述描述可知，本申请实施例提供的声纹识别装置，能够通过在跨信道声纹识别模型中为损失函数模型添加基于不同测试样本类型确定的注意力系数，将影响识别的信息如信道等对声纹识别的影响凸显出来，进行再通过跨信道声纹识别模型的不断训练，消除此部分不利因素的影响，从而提升跨信道声纹识别的准确率。

为了能够提高神经网络对声纹特征的提取程度，过滤掉信道等干扰信息，在本申请的声纹识别装置的一实施例中，参见图5，还具体包含有如下内容：

损失函数模型构建单元31，用于根据不同测试样本类型确定对应的注意力系数，得到添加有所述注意力系数的损失函数模型。

跨信道声纹识别模型构建单元32，用于根据所述损失函数模型构建时延神经网络模型，并通过预设带标签的短语音音频对所述时延神经网络模型进行分类训练，得到跨信道声纹识别模型。

为了能够提高跨信道声纹识别模型的识别准确率，在本申请的声纹识别装置的一实施例中，参见图6，还具体包含有如下内容：

识别分类误差确定单元41，用于确定每次所述分类训练的识别分类误差。

跨信道声纹识别模型迭代训练单元42，用于根据所述识别分类误差和预设随机下降梯度对所述跨信道声纹识别模型进行迭代训练，直至所述识别分类误差小于设定误差阈值。

为了能够提高神经网络对声纹特征的提取程度，在本申请的声纹识别装置的一实施例中，还具体包含有如下内容：

从硬件层面来说，为了能够有效提高跨信道场景下声纹识别的准确率，本申请提供一种用于实现所述声纹识别方法中的全部或部分内容的电子设备的实施例，所述电子设备具体包含有如下内容：

处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述通信接口用于实现声纹识别装置与核心业务系统、用户终端以及相关数据库等相关设备之间的信息传输；该逻辑控制器可以是台式计算机、平板电脑及移动终端等，本实施例不限于此。在本实施例中，该逻辑控制器可以参照实施例中的声纹识别方法的实施例，以及声纹识别装置的实施例进行实施，其内容被合并于此，重复之处不再赘述。

可以理解的是，所述用户终端可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中，所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。

在实际应用中，声纹识别方法的部分可以在如上述内容所述的电子设备侧执行，也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力，以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成，所述客户端设备还可以包括处理器。

上述的客户端设备可以具有通信模块(即通信单元)，可以与远程的服务器进行通信连接，实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器，其他的实施场景中也可以包括中间平台的服务器，例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备，也可以包括多个服务器组成的服务器集群，或者分布式装置的服务器结构。

图8为本申请实施例的电子设备9600的系统构成的示意框图。如图8所示，该电子设备9600可以包括中央处理器9100和存储器9140；存储器9140耦合到中央处理器9100。值得注意的是，该图8是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

一实施例中，声纹识别方法功能可以被集成到中央处理器9100中。其中，中央处理器9100可以被配置为进行如下控制：

步骤S102：根据跨信道声纹识别模型对所述声纹特征信息进行声纹识别，得到所述声纹识别的结果，其中，所述跨信道声纹识别模型中包括根据不同测试样本类型配置对应注意力系数的损失函数模型。

从上述描述可知，本申请实施例提供的电子设备，通过在跨信道声纹识别模型中为损失函数模型添加基于不同测试样本类型确定的注意力系数，将影响识别的信息如信道等对声纹识别的影响凸显出来，进行再通过跨信道声纹识别模型的不断训练，消除此部分不利因素的影响，从而提升跨信道声纹识别的准确率。

在另一个实施方式中，声纹识别装置可以与中央处理器9100分开配置，例如可以将声纹识别装置配置为与中央处理器9100连接的芯片，通过中央处理器的控制来实现声纹识别方法功能。

如图8所示，该电子设备9600还可以包括：通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是，电子设备9600也并不是必须要包括图8中所示的所有部件；此外，电子设备9600还可以包括图8中没有示出的部件，可以参考现有技术。

如图8所示，中央处理器9100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。

其中，存储器9140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序，以实现信息存储或处理等。

输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器9140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142，该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。

存储器9140还可以包括数据存储部9143，该数据存储部9143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块9110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132，以经由扬声器9131提供音频输出，并接收来自麦克风9132的音频输入，从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器9130还耦合到中央处理器9100，从而使得可以通过麦克风9132能够在本机上录音，且使得可以通过扬声器9131来播放本机上存储的声音。

本申请的实施例还提供能够实现上述实施例中的执行主体为服务器或客户端的声纹识别方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的声纹识别方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

从上述描述可知，本申请实施例提供的计算机可读存储介质，通过在跨信道声纹识别模型中为损失函数模型添加基于不同测试样本类型确定的注意力系数，将影响识别的信息如信道等对声纹识别的影响凸显出来，进行再通过跨信道声纹识别模型的不断训练，消除此部分不利因素的影响，从而提升跨信道声纹识别的准确率。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种声纹识别方法，其特征在于，所述方法包括：

采集用户音频文件并提取所述音频文件中的声纹特征信息；

根据跨信道声纹识别模型对所述声纹特征信息进行声纹识别，得到所述声纹识别的结果，其中，所述跨信道声纹识别模型中包括根据不同测试样本类型配置对应注意力系数的损失函数模型，所述测试样本类型与所述音频文件所属信道对应。

2.根据权利要求1所述的声纹识别方法，其特征在于，在所述根据跨信道声纹识别模型对所述声纹特征信息进行声纹识别之前，包括：

3.根据权利要求2所述的声纹识别方法，其特征在于，在所述通过预设带标签的短语音音频对所述时延神经网络模型进行分类训练，得到跨信道声纹识别模型之后，包括：

确定每次所述分类训练的识别分类误差；

4.根据权利要求1所述的声纹识别方法，其特征在于，在所述采集用户音频文件之后，在所述提取所述音频文件中的声纹特征信息之前，包括：

5.一种声纹识别装置，其特征在于，包括：

跨信道声纹识别模块，用于根据跨信道声纹识别模型对所述声纹特征信息进行声纹识别，得到所述声纹识别的结果，其中，所述跨信道声纹识别模型中包括根据不同测试样本类型配置对应注意力系数的损失函数模型，所述测试样本类型与所述音频文件所属信道对应。

6.根据权利要求5所述的声纹识别装置，其特征在于，还包括：

7.根据权利要求6所述的声纹识别装置，其特征在于，还包括：

8.根据权利要求6所述的声纹识别装置，其特征在于，还包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至4任一项所述的声纹识别方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至4任一项所述的声纹识别方法的步骤。