CN111933150A

CN111933150A - 一种基于双向补偿机制的文本相关说话人识别方法

Info

Publication number: CN111933150A
Application number: CN202010820029.XA
Authority: CN
Inventors: 柳天驰; 罗汉·库马尔·达斯; 毛利克·马达维; 申省梅; 李海洲; 马原
Original assignee: Beijing Pengsi Technology Co ltd
Current assignee: Beijing Pengsi Technology Co ltd
Priority date: 2020-07-20
Filing date: 2020-08-14
Publication date: 2020-11-13

Abstract

本申请实施例提供了一种基于双向补偿机制的文本相关说话人识别方法，该方法包括：获取待识别音频，并对所述待识别音频进行提取处理，得到多个子音频；确定每个子音频在声纹特征下的第一评价值，以及每个子音频在内容特征下的第二评价值；针对每个子音频，基于该子音频的第二评价值，确定针对该子音频的第一评价值的调整系数；所述调整系数和所述第二评价值负相关；基于各个所述调整系数，以及各个所述第一评价值，确定输入所述待识别音频的对象的识别结果。

Description

一种基于双向补偿机制的文本相关说话人识别方法

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种基于双向补偿机制的文本相关说话人识别方法。

背景技术

在实际应用场景中对于音频内容(语音)和音频内容的说话人的识别准确度的需求也越来越高。

在具体实现过程中，一般采用语音识别模型对语音内容进行识别，采用对象识别模型对陈述语音内容的对象进行识别，进行识别的模型是相互独立的，识别过程也是独立实现的。

发明内容

有鉴于此，本申请实施例的目的在于提供一种基于双向补偿机制的文本相关说话人识别方法，实现通过一个模型对不同识别任务进行识别，同时，提高了识别结果的准确度。

第一方面，本申请实施例提供了一种基于双向补偿机制的文本相关说话人识别方法，该方法包括：

获取待识别音频，并对所述待识别音频进行提取处理，得到多个子音频；

确定每个子音频在声纹特征下的第一评价值，以及每个子音频在内容特征下的第二评价值；

针对每个子音频，基于该子音频的第二评价值，确定针对该子音频的第一评价值的调整系数；所述调整系数和所述第二评价值负相关；

基于各个所述调整系数，以及各个所述第一评价值，确定输入所述待识别音频的对象的识别结果。

在一种实施方式中，确定每个子音频在声纹特征下的第一评价值，以及每个子音频在内容特征下的第二评价值，包括：

对所述多个子音频进行语音特征提取，得到每个子音频的语音特征；

将每个子音频的语音特征输入到训练完成的声纹特征提取模型，得到每个子音频在声纹特征下的第一评价值；

将每个子音频的语音特征输入到训练完成的内容特征提取模型，得到每个子音频在内容特征下的第二评价值。

在一种实施方式中，基于任一子音频的第二评价值，确定针对任一子音频的第一评价值的调整系数，包括：

S＝α-1/(β+e^-x)

其中，S为针对任一子音频的第一评价值的调整系数，x为任一子音频的第二评价值，e为自然常数，α、β均为常数。

在一种实施方式中，基于各个所述调整系数，以及各个所述第一评价值，确定输入所述待识别音频的对象的识别结果，包括：

针对每个调整系数，计算该调整系数和对应的第一评价值的乘积值；

将各个乘积值输入到完成训练的对象分类器，得到输入所述待识别音频的对象的识别结果。

第二方面，本申请实施例提供了一种基于双向补偿机制的文本相关说话人识别方法，该方法包括：

针对每个子音频，基于该子音频的第一评价值，确定针对该子音频的第二评价值的调整系数；所述调整系数和所述第一评价值负相关；

基于各个所述调整系数，以及各个所述第二评价值，确定所述待识别音频的内容识别结果。

在一种实施方式中，基于任一子音频的第一评价值，确定针对任一子音频的第二评价值的调整系数，包括：

T＝α-1/(β+e^-y)

其中，T为任一子音频的第二评价值的调整系数，y为任一子音频的第一评价值，e为自然常数，α、β均为常数。

在一种实施方式中，基于各个所述调整系数，以及各个所述第二评价值，确定所述待识别音频的内容识别结果，包括：

针对每个调整系数，计算该调整系数和对应的第二评价值的乘积值；

将各个乘积值输入到完成训练的内容分类器，得到所述待识别音频的内容识别结果。

第三方面，本申请实施例提供了一种基于双向补偿机制的文本相关说话人识别方法，该方法包括：

对所述多个子音频进行特征提取，得到每个子音频在声纹特征下的第一评价值，以及每个子音频在内容特征下的第二评价值；

针对每个子音频，基于该子音频的第二评价值，确定针对该子音频的第一评价值的第一调整系数；所述第一调整系数和所述第二评价值负相关；

基于各个所述第一调整系数，以及各个所述第一评价值，确定输入所述待识别音频的对象的识别结果；

针对每个子音频，基于该子音频的第一评价值，确定针对该子音频的第二评价值的第二调整系数；所述第二调整系数和所述第一评价值负相关；

基于各个所述第二调整系数，以及各个所述第二评价值，确定所述待识别音频的内容识别结果。

第四方面，本申请实施例提供了一种基于双向补偿机制的文本相关说话人识别装置，该装置包括：

第一处理模块，用于获取待识别音频，并对所述待识别音频进行提取处理，得到多个子音频；

第一确定模块，用于确定每个子音频在声纹特征下的第一评价值，以及每个子音频在内容特征下的第二评价值；

第二确定模块，用于针对每个子音频，基于该子音频的第二评价值，确定针对该子音频的第一评价值的调整系数；所述调整系数和所述第二评价值负相关；

第二处理模块，用于基于各个所述调整系数，以及各个所述第一评价值，确定输入所述待识别音频的对象的识别结果。

第五方面，本申请实施例提供了一种基于双向补偿机制的文本相关说话人识别装置，该装置包括：

第二确定模块，用于针对每个子音频，基于该子音频的第一评价值，确定针对该子音频的第二评价值的调整系数；所述调整系数和所述第一评价值负相关；

第二处理模块，用于基于各个所述调整系数，以及各个所述第二评价值，确定所述待识别音频的内容识别结果。

第六方面，本申请实施例提供了一种基于双向补偿机制的文本相关说话人识别装置，该装置包括：

第二确定模块，用于针对每个子音频，基于该子音频的第二评价值，确定针对该子音频的第一评价值的第一调整系数，以及基于该子音频的第一评价值，确定针对该子音频的第二评价值的第二调整系数；所述第二调整系数和所述第一评价值负相关，所述第一调整系数和所述第二评价值负相关；

第二处理模块，用于基于各个所述第一调整系数，以及各个所述第一评价值，确定输入所述待识别音频的对象的识别结果，以及基于各个所述第二调整系数，以及各个所述第二评价值，确定所述待识别音频的内容识别结果。

第七方面，本申请实施例提供了一种电子设备，包括：处理器和存储介质，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器执行所述机器可读指令，以执行时执行如上述第一方面方法的步骤，或执行如上述第二方面方法的步骤，或执行如上述第三方面方法的步骤。

第八方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面方法的步骤，或执行如上述第二方面方法的步骤，或执行如上述第三方面方法的步骤。

本申请实施例提供的一种基于双向补偿机制的文本相关说话人识别方法，获取待识别音频，并对所述待识别音频进行提取处理，得到多个子音频；确定每个子音频在声纹特征下的第一评价值，以及每个子音频在内容特征下的第二评价值，针对每个子音频，基于该子音频的第二评价值，确定针对该子音频的第一评价值的调整系数，调整系数和第二评价值负相关，基于各个调整系数，以及各个所述第一评价值，确定输入待识别音频的对象的识别结果，这样，利用子音频在内容特征下的第二评价值生成针对声纹特征下的第一评价值的调整系数，第二评价值越大，调整系数越小，反之则越小，对声纹特征下的第一评价值进行补偿，能够提高得到输入待识别音频的对象的识别结果的准确度。

另外，利用子音频在声纹特征下的第一评价值生成针对内容特征下的第二评价值的调整系数，针对每个子音频，基于该子音频的第一评价值，确定针对该子音频的第二评价值的调整系数；调整系数和所述第一评价值负相关，基于各个所述第二调整系数，以及各个第二评价值，确定待识别音频的内容识别结果，这样，利用子音频在声纹特征下的第一评价值生成针对内容特征下的第二评价值的调整系数，第一评价值越大，调整系数越小，反之则越小，对内容特征下的第二评价值进行补偿，能够提高得到输入待识别音频的内容识别结果的准确度。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种基于双向补偿机制的文本相关说话人识别方法的第一种流程示意图；

图2示出了本申请实施例所提供的一种基于双向补偿机制的文本相关说话人识别方法的第二种流程示意图；

图3A示出了本申请实施例所提供的一种基于双向补偿机制的文本相关说话人识别方法的第三种流程示意图；

图3B示出了本申请实施例所提供的一种基于双向补偿机制的文本相关说话人识别方法的示意图；

图4示出了本申请实施例所提供的一种基于双向补偿机制的文本相关说话人识别装置的第一种结构示意图；

图5示出了本申请实施例所提供的一种基于双向补偿机制的文本相关说话人识别装置的第二种结构示意图；

图6示出了本申请实施例所提供的一种基于双向补偿机制的文本相关说话人识别装置的第三种结构示意图；

图7示出了本申请实施例所提供的一种电子设备的结构示意图；

图8示出了本申请实施例所提供的又一种电子设备的结构示意图；

图9示出了本申请实施例所提供的另一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

基于此，本申请实施例提供了一种基于双向补偿机制的文本相关说话人识别方法，获取待识别音频，并对所述待识别音频进行提取处理，得到多个子音频；确定每个子音频在声纹特征下的第一评价值，以及每个子音频在内容特征下的第二评价值，针对每个子音频，基于该子音频的第二评价值，确定针对该子音频的第一评价值的调整系数，调整系数和第二评价值负相关，基于各个调整系数，以及各个所述第一评价值，确定输入待识别音频的对象的识别结果，这样，利用子音频在内容特征下的第二评价值生成针对声纹特征下的第一评价值的调整系数，第二评价值越大，调整系数越小，反之则越小，对声纹特征下的第一评价值进行补偿，能够提高得到输入待识别音频的对象的识别结果的准确度。

另外，利用子音频在声纹特征下的第一评价值生成针对内容特征下的第二评价值的调整系数，针对每个子音频，基于该子音频的第一评价值，确定针对该子音频的第二评价值的调整系数；调整系数和所述第一评价值负相关，基于各个所述第二调整系数，以及各个第二评价值，确定待识别音频的内容识别结果，这样，利用子音频在声纹特征下的第一评价值生成针对内容特征下的第二评价值的调整系数，第一评价值越大，调整系数越小，反之则越小，对内容特征下的第二评价值进行补偿，能够提高得到输入待识别音频的内容识别结果的准确度。本申请实施例将基于该思想进行详细描述。

针对上述情况，本申请实施例提供了一种基于双向补偿机制的文本相关说话人识别方法，如图1所示，该方法包括以下步骤：

S101，获取待识别音频，并对所述待识别音频进行提取处理，得到多个子音频。

S102，对所述多个子音频进行特征提取，得到每个子音频在声纹特征下的第一评价值，以及每个子音频在内容特征下的第二评价值；

S103，针对每个子音频，基于该子音频的第二评价值，确定针对该子音频的第一评价值的调整系数；所述调整系数和所述第二评价值负相关；

S104，基于各个所述调整系数，以及各个所述第一评价值，确定输入所述待识别音频的对象的识别结果。

本申请实施例提供的一种基于双向补偿机制的文本相关说话人识别方法可以应用与网上交易、支付、远程身份认证、智能家居、证券交易、银行交易、个人设备声控锁、汽车声控锁、公安取证、信用卡识别、工作打卡等领域。

在S101中，待识别音频的内容一般为预先设置的文本内容，例如，“你好”、“我要去XX大厦”等，可以根据实际应用场景设置；待识别音频可以为用户根据实际应用场景输入的语音，也可以为从网络平台获取的音频片段，例如，在网上交易领域，待识别音频可以为用户输入的表征用户身份的语音，又如，在公安取证领域，待识别音频可以为从网络平台获取的嫌疑人的音频片段；利用完成训练的模型从待识别音频中提取为多个子音频，不同的子音频的长度不同，长度为子音频的持续时长，例如，待识别音频的长度为10秒，子音频可以为0-2秒的音频，也可以为2-4秒的音频，也可以为0-10秒的音频，可以根据实际情况确定子音频的长度，不同子音频在待识别音频中的位置不同，每个子音频携带待识别音频对应位置的特征信息，该特征信息可以为对应音频片段包括的声纹特征和内容特征。

在S102中，声纹特征表征待识别音频的说话人的声音大小、音色等特征，内容特征表征与待识别音频的文本相关的特征；第一评价值表征子音频在声纹识别过程中重要程度，第一评价值越高，子音频在声音识别过程中的重要程度越高，在第一评价值中，声纹特征下的特征值的占比大于内容特征下的评价值，第一评价值越大，表征重要程度越高；第二评价值表征子音频在内容识别过程中重要程度，第二评价值越高，子音频在内容识别过程中的重要程度越高；声纹特征下的第一评价值中也包括有少部分内容特征下的评价值，内容特征下的评价值在第一评价值的占比很少，同样，内容特征下的第二评价值中也包括有少部分声纹特征下的评价值，声纹特征下的评价值在第二评价值中的占比也较小。

在执行S102时，确定每个子音频在声纹特征下的第一评价值，以及每个子音频在内容特征下的第二评价值，可以包括以下步骤：

对所述多个子音频进行语音特征提取，得到每个子音频的语音特征；将每个子音频的语音特征输入到训练完成的声纹特征提取模型，得到每个子音频在声纹特征下的第一评价值；将每个子音频的语音特征输入到训练完成的内容特征提取模型，得到每个子音频在内容特征下的第二评价值。

例如，可以利用梅尔频率倒谱系数算法对多个子音频进行语音特征提取；语音特征中包括声纹特征和内容特征；声纹特征提取模型可以包括声纹时序提取模型和第一卷积神经网络模型，声纹时序提取模型可以为长短期记忆神经网络模型，声纹时序特征提取模型用于从子音频中提取具有时序信息的声纹特征，第一卷积神经网络模型用于将声纹特征转换为高维度特征；内容特征提取模型包括内容时序提取模型和卷积神经网络模型，内容时序提取模型可以为长短期记忆神经网络模型，内容时序特征提取模型用于从子音频中提取具有时序信息的内容特征，第二卷积神经网络模型用于将内容特征转换为高维度特征；声纹时序提取模型的模型结构与内容时序特征提取模型的模型结构相同，但是模型参数不同，第一卷积神经网络模型的模型结构和第二卷积神经网络模型的模型结构相同，但是模型参数不同，内容特征提取模型和声纹特征提取模型的训练过程下文叙述。

在具体实施过程中，针对每个子音频，将子音频输入到梅尔频率倒谱系数算法，得到该子音频的语音特征。

分别将每个子音频的语音特征输入到声纹特征提取模型中的声纹时序提取模型，得到该子音频的声纹时序特征，将该子音频的声纹时序特征输入到第一卷积神经网络模型进行维度转换，得到高维的声纹特征矩阵，声纹特征矩阵中的值为每个子音频在声纹特征下的第一评价值，声纹特征(即模型中设置的通道)的数目可以根据实际场景确定。

分别将每个子音频的语音特征输入到内容特征提取模型中的内容时序提取模型，得到该子音频的内容时序特征，将该子音频的内容时序特征输入到第二卷积神经网络模型进行维度转换，得到高维的内容特征矩阵，内容特征矩阵中的值为每个子音频在内容特征下的第二评价值，内容特征的数目可以根据实际场景确定。其中，内容特征的数目与声纹特征的数目相同，声纹特征矩阵与内容特征矩阵中相同位置的值为同一子音频在不同特征下的值，比如，声纹矩阵中第一行第一列的值为子音频A在声纹特征下的值，那么，内容特征矩阵中第一行第一列的值为子音频A在内容特征下的值。

在S103中，当第二评价值越大时，得到的针对第一评价值的调整系数越小，当第二评价值越小时，得到的针对第一评价值的调整系数越大，其中，计算针对第一评价值的调整系数的第二评价值在内容特征矩阵中的位置与第一评价值在声纹特征矩阵中的位置相同，也就是，参与计算调整系数的第二评价值在内容特征矩阵中的行列与第一评价值在声纹特征矩阵中的行列相同。

以内容特征矩阵中的任一第二评价值为例，说明调整系数的计算过程。

根据以下公式计算针对第一评价值的调整系数：

S＝α-1/(β+e^-x)

例如，可以根据经验设置α、β的值，或者通过数值统计等方法设置合适的常数值。

例如，在计算声纹特征矩阵中处于n位置的第一评价值的调整系数时，可以将内容特征矩阵中处于n位置的第二评价值输入到上述调整系数计算公式中，从而得到针对n位置的第一评价值的调整系数。

此处需要注意，只要调整系数和第二评价值满足负相关关系的公式均可用于本申请。

在S104中，输入所述待识别音频的对象一般为不同场景下的用户，该用户可以为人；识别结果包括识别成功和识别失败，识别成功表征输入待识别音频的对象为预设对象库中的对象，识别失败表征输入待识别音频的对象不是预设对象库中的对象，或者在识别待识别音频过程中出现识别错误。

在执行S104时，针对每个调整系数，计算该调整系数和对应的第一评价值的乘积值；将各个乘积值输入到完成训练的对象分类器，得到输入所述待识别音频的对象的识别结果。

在具体实施过程中，通过对内容特征矩阵中的第二评价值进行处理得到针对声纹特征矩阵的调整系数矩阵，对调整系数矩阵和声纹特征矩阵进行点乘处理，得到每个子音频在不同声纹特征下的调整值，对得到的调整值进行池化处理，将池化处理结果输入到对象分类器中，得到待识别音频的对象与各个预设对象的相似度，若存在相似度大于预设相似度阈值，则确定输入待识别音频的对象的识别结果为识别成功，若全部相似度均小于预设相似度阈值，则确定输入待识别音频的对象的识别结果为识别失败。

本申请实施例提供了一种基于双向补偿机制的文本相关说话人识别方法，如图2所示，该方法包括以下步骤：

S201，获取待识别音频，并对所述待识别音频进行提取处理，得到多个子音频；

S202，确定每个子音频在声纹特征下的第一评价值，以及每个子音频在内容特征下的第二评价值；

S203，针对每个子音频，基于该子音频的第一评价值，确定针对该子音频的第二评价值的调整系数；所述调整系数和所述第一评价值负相关；

S204，基于各个所述调整系数，以及各个所述第二评价值，确定所述待识别音频的内容识别结果。

在S201和S202中相关计算过程可以参考图1提供的一种基于双向补偿机制的文本相关说话人识别方法中的过程，此处不进行过多说明。

在S203中，当第一评价值越大时，得到的针对第二评价值的调整系数越小，当第一评价值越小时，得到的针对第二评价值的调整系数越大，其中，计算针对第二评价值的调整系数的第一评价值在声纹特征矩阵中的位置与第二评价值在内容特征矩阵中的位置相同，也就是，参与计算调整系数的第一评价值在声纹特征矩阵中的行列与第二评价值在内容特征矩阵中的行列相同。

以声纹特征矩阵中的任一第一评价值为例，说明调整系数的计算过程。

根据以下公式计算针对第二评价值的调整系数：

T＝α-1/(β+e^-y)

其中，T为任一子音频的第二评价值的调整系数，y为任一子音频的第二评价值，e为自然常数，α、β均为常数。

本领域技术人员容易理解，尽管此处也使用了α、β等作为常数的符号，这仅为了表达的方便，然而与第一评价值的调整系数计算公式中的α、β在数值上可以是相同的，也可以是不同的。

例如，在计算内容特征矩阵中处于m位置的第二评价值的调整系数时，可以将声纹特征矩阵中处于m位置的第一评价值输入到上述调整系数计算公式中，从而得到针对m位置的第一评价值的调整系数。

此处需要注意，只要调整系数和第一评价值满足负相关关系的公式均可用于本申请。

在S204中，输入所述待识别音频的对象一般为不同场景下的用户；内容识别结果包括识别成功和识别失败，识别成功表征输入待识别音频的内容为预设内容库中的内容，识别失败表征输入待识别音频的内容不是预设对内容中的内容，或者在识别待识别音频过程中出现识别错误。

在执行S204时，针对每个调整系数，计算该调整系数和对应的第二评价值的乘积值；将各个乘积值输入到完成训练的内容分类器，得到输入所述待识别音频的内容识别结果。

在具体实施过程中，通过对声纹特征矩阵中的第一评价值进行处理得到针对内容特征矩阵的调整系数矩阵，对调整系数矩阵和内容特征矩阵进行点乘处理，得到每个子音频在不同内容特征下的调整值，对得到的调整值进行池化处理，将池化处理结果输入到内容分类器中，得到待识别音频的文本内容与各个预设文本内容的相似度，若存在相似度大于预设相似度阈值，则确定待识别音频的文本识别结果为识别成功，若全部相似度均小于预设相似度阈值，则确定待识别音频的内容识别结果为识别失败。

本申请涉及的声纹特征提取模型、内容特征提取模型、内容分类器、对象分类器可以整体进行训练，根据以下步骤训练得到声纹特征提取模型、内容特征提取模型、内容分类器、对象分类器：

构建样本训练库，样本训练库中包括样本音频、每个样本音频的实际输入对象和每个样本音频的实际内容。其中，样本音频包括正样本音频和负样本音频，正样本音频的内容可以为预先设定的内容，负样本音频的内容可以为用户任意输入的内容，样本音频的输入对象可以为实际场景中需要验证的对象。

对每个样本音频进行提取处理，得到多个子样本音频，对每个子样本音频进行语音特征提取，得到每个子样本音频的语音特征。

将每个子样本音频的语音特征输入到声纹特征提取模型中的声纹时序特征提取模型，得到各个子样本音频在声纹特征下的第一样本值，将各个子样本音频在声纹特征下的第一样本值输入到第一卷积神经网络模型，得到各个子样本音频的第二样本值，即第二样本值矩阵。

将每个子样本音频的语音特征输入到内容特征提取模型中的内容时序特征提取模型，得到各个子样本音频在内容特征下的第三样本值，将各个子样本音频在内容特征下的第三样本值输入到第二卷积神经网络模型，得到各个子样本音频在内容特征下的第四样本值，即第四样本值矩阵。

将各个第二样本值输入到调整系数T计算公式，得到针对第四样本值的第一调整系数矩阵，将各个第四样本值输入到调整系数S公式中，得到针对第二样本值的第二调整系数矩阵；

计算第一调整系数矩阵和第四样本值矩阵的乘积，将计算结果输入到内容分类器，得到每个样本音频的预测内容识别结果，计算第二调整系数矩阵和第二样本值矩阵的乘积，将计算结果输入到对象分类器，得到输入每个样本音频的预测识别结果，分别计算预测内容识别结果和实际内容之间的第一距离，以及预测识别结果和实际输入对象之间的第二距离，按照第一距离和/或第二距离最小原则，分别调整声纹特征提取模型、内容特征提取模型、内容分类器、对象分类器的模型参数，得到最终的声纹特征提取模型、内容特征提取模型、内容分类器、对象分类器。

本申请实施例提供了一种基于双向补偿机制的文本相关说话人识别方法，如图3A所示，该方法包括：

S301，获取待识别音频，并对所述待识别音频进行提取处理，得到多个子音频；

S302，确定每个子音频在声纹特征下的第一评价值，以及每个子音频在内容特征下的第二评价值；

S303，针对每个子音频，基于该子音频的第二评价值，确定针对该子音频的第一评价值的第一调整系数；所述第一调整系数和所述第二评价值负相关；

S304，基于各个所述第一调整系数，以及各个所述第一评价值，确定输入所述待识别音频的对象的识别结果。

S305，针对每个子音频，基于该子音频的第一评价值，确定针对该子音频的第二评价值的第二调整系数；所述第二调整系数和所述第一评价值负相关；

S306，基于各个所述第二调整系数，以及各个所述第二评价值，确定所述待识别音频的内容识别结果。

步骤S301-S304的具体实现过程可以参考图1中提供的实现方式，此处不进行详细介绍，其中，S303中的第一调整系数计算方式与S103中的调整系数相同，步骤S305-S306的实现过程可以参考图2中提供的实现过程，S305中的第二调整系数计算方式与S203中的调整系数相同。

在具体实施过程中，参考图3B，收音模型获取待识别音频，从待识别音频中提取梅尔频率倒谱系数，将提取结果分别输入到声纹时序提取模型和内容时序特征提取模型，将声纹时序提取模型的提取结果输入到第一卷积神经网络模型，将内容时序特征提取模型的提取结果输入到第二卷积神经网络模型，利用第一卷积神经网络模型的输出结果确定针对第二卷积神经网络模型的输出结果(第二评价值)的第二调整系数，利用第二卷积神经网络模型的输出结果确定针对第一卷积神经网络模型的输出结果(第一评价值)的第一调整系数，利用第一调整系数对第一评价值进行调整，利用第二调整系数对第二评价值进行调整，将第一调整系数调整后的结果输入到对象分类器，得到说话人，将第二调整系数调整后的结果输入到内容分类器，得到说话人所说的内容，分别存储第一调整系数调整后的结果和第二调整系数调整后的结果。

在一种实施方式中，基于任一子音频的第二评价值，确定任一子音频的第一评价值的第一调整系数，包括：

S＝α-1/(β+e^-x)

其中，S为针对任一子音频的第一评价值的第一调整系数，x为任一子音频的第二评价值，e为自然常数，α、β均为常数。

在一种实施方式中，基于各个所述第一调整系数，以及各个所述第一评价值，确定输入所述待识别音频的对象的识别结果，包括：

针对每个第一调整系数，计算该第一调整系数和对应的第一评价值的乘积值；

在一种实施方式中，基于任一子音频的第一评价值，确定任一子音频的第二评价值的第二调整系数，包括：

T＝α-1/(β+e^-y)

其中，T为任一子音频的第二评价值的第二调整系数，y为任一子音频的第一评价值，e为自然常数，α、β均为常数。

在一种实施方式中，基于各个所述第二调整系数，以及各个所述第二评价值，确定所述待识别音频的内容识别结果，包括：

针对每个第二调整系数，计算该第二调整系数和对应的第二评价值的乘积值；

本申请一方面利用子音频在内容特征下的第二评价值针对声纹特征下的第一评价值的进行补偿，另一方面利用子音频在声纹特征下的第一评价值针对内容特征下的第二评价值的进行补偿，同时提高了声纹识别和内容识别结果的准确度。这种方法在本申请中命名为‘双向补偿机制’，该机制的优势是使用了声纹识别和内容识别两个子任务之间的联系，利用相互补偿的方式，给予重要的信息(特征)更高的权重的同时，抑制了与对应任务无关的冗余信息的响应，使两个子任务的准确度得到大幅提升。

参照图4所示，为本申请实施例提供的一种基于双向补偿机制的文本相关说话人识别装置的示意图，该装置包括：

第一处理模块41，用于获取待识别音频，并对所述待识别音频进行提取处理，得到多个子音频；

第一确定模块42，用于确定每个子音频在声纹特征下的第一评价值，以及每个子音频在内容特征下的第二评价值；

第二确定模块43，用于针对每个子音频，基于该子音频的第二评价值，确定针对该子音频的第一评价值的调整系数；所述调整系数和所述第二评价值负相关；

第二处理模块44，用于基于各个所述调整系数，以及各个所述第一评价值，确定输入所述待识别音频的对象的识别结果。

在一种实施方式中，所述第一确定模块用于根据以下步骤确定每个子音频在声纹特征下的第一评价值，以及每个子音频在内容特征下的第二评价值：

在一种实施方式中，所述第二确定模块43用于根据以下步骤基于任一子音频的第二评价值，确定任一子音频的第一评价值的调整系数：

S＝α-1/(β+e^-x)

在一种实施方式中，所述第二处理模块用于根据以下步骤得到输入所述待识别音频的对象的识别结果：

本申请实施例提供了一种基于双向补偿机制的文本相关说话人识别装置，如图5所示，该装置包括：

第一处理模块51，用于获取待识别音频，并对所述待识别音频进行提取处理，得到多个子音频；

第一确定模块52，用于确定每个子音频在声纹特征下的第一评价值，以及每个子音频在内容特征下的第二评价值；

第二确定模块53，用于针对每个子音频，基于该子音频的第一评价值，确定针对该子音频的第二评价值的调整系数；所述调整系数和所述第一评价值负相关；

第二处理模块54，用于基于各个所述调整系数，以及各个所述第二评价值，确定所述待识别音频的内容识别结果。

在一种实施方式中，所述第二确定模块53用于根据以下步骤基于任一子音频的第一评价值，确定针对任一子音频的第二评价值的调整系数：

T＝α-1/(β+e^-y)

在一种实施方式中，所述第二处理模块54用于根据以下步骤得到所述待识别音频的内容识别结果，包括：

本申请实施例提供给了一种基于双向补偿机制的文本相关说话人识别装置，如图6所示，该装置包括：

第一处理模块61，用于获取待识别音频，并对所述待识别音频进行提取处理，得到多个子音频；

第一确定模块62，用于确定每个子音频在声纹特征下的第一评价值，以及每个子音频在内容特征下的第二评价值；

第二确定模块63，用于针对每个子音频，基于该子音频的第二评价值，确定针对该子音频的第一评价值的调整系数，以及基于该子音频的第一评价值，确定针对该子音频的第二评价值的调整系数；所述第二调整系数和所述第一评价值负相关，所述调整系数和所述第二评价值负相关；

第二处理模块64，用于基于各个所述第一调整系数，以及各个所述第一评价值，确定输入所述待识别音频的对象的识别结果，以及基于各个所述第二调整系数，以及各个所述第二评价值，确定所述待识别音频的内容识别结果。

在一种实施方式中，所述第一确定模块62用于根据以下步骤确定每个子音频在声纹特征下的第一评价值，以及每个子音频在内容特征下的第二评价值：

在一种实施方式中，所述第二确定模块63用于根据以下步骤基于任一子音频的第二评价值，确定任一子音频的第一评价值的调整系数：

S＝α-1/(β+e^-x)

在一种实施方式中，所述第二处理模块64用于根据以下步骤得到输入所述待识别音频的对象的识别结果：

在一种实施方式中，所述第二确定模块63用于根据以下步骤基于任一子音频的第一评价值，确定针对任一子音频的第二评价值的调整系数：

T＝α-1/(β+e^-y)

在一种实施方式中，所述第二处理模块64用于根据以下步骤得到所述待识别音频的内容识别结果，包括：

本申请实施例还提供了一种电子设备70，如图7所示，为本申请实施例提供的电子设备70结构示意图，包括：

处理器71、存储器72、和总线73；存储器72用于存储执行指令，包括内存721和外部存储器722；这里的内存721也称内存储器，用于暂时存放处理器71中的运算数据，以及与硬盘等外部存储器722交换的数据，处理器71通过内存721与外部存储器722进行数据交换，当所述电子设备70运行时，所述处理器71与所述存储器72之间通过总线73通信，使得所述处理器71在用户态执行以下指令：

一种可能的实施方式中，处理器71执行的指令中，确定每个子音频在声纹特征下的第一评价值，以及每个子音频在内容特征下的第二评价值，包括：

一种可能的实施方式中，处理器71执行的指令中，基于任一子音频的第二评价值，确定任一子音频的第一评价值的调整系数，包括：

S＝α-1/(β+e^-x)

一种可能的实施方式中，处理器71执行的指令中，基于各个所述调整系数，以及各个所述第一评价值，确定输入所述待识别音频的对象的识别结果，包括：

本申请实施例还提供了一种电子设备80，如图8所示，为本申请实施例提供的电子设备80结构示意图，包括：

处理器81、存储器82、和总线83；存储器82用于存储执行指令，包括内存821和外部存储器822；这里的内存821也称内存储器，用于暂时存放处理器81中的运算数据，以及与硬盘等外部存储器822交换的数据，处理器81通过内存821与外部存储器822进行数据交换，当所述电子设备80运行时，所述处理器81与所述存储器82之间通过总线83通信，使得所述处理器81在用户态执行以下指令：

一种可能的实施方式中，处理器81执行的指令中，基于任一子音频的第一评价值，确定针对任一子音频的第二评价值的调整系数，包括：

T＝α-1/(β+e^-y)

一种可能的实施方式中，处理器81执行的指令中，基于各个所述调整系数，以及各个所述第二评价值，确定所述待识别音频的内容识别结果，包括：

本申请实施例还提供了一种电子设备90，如图9所示，为本申请实施例提供的电子设备90结构示意图，包括：

处理器91、存储器92、和总线93；存储器92用于存储执行指令，包括内存921和外部存储器922；这里的内存921也称内存储器，用于暂时存放处理器91中的运算数据，以及与硬盘等外部存储器922交换的数据，处理器91通过内存921与外部存储器922进行数据交换，当所述电子设备90运行时，所述处理器91与所述存储器92之间通过总线93通信，使得所述处理器91在用户态执行以下指令：

如本领域技术人员所知，随着计算机硬件的发展，总线的具体实现方式以及名称可能发生各种改变，此处所称的总线概念上涵盖任何能够为电子设备内各部件提供服务的信息传送线路，包括但不限于FSB、HT、QPI、Infinity Fabric等。

在本申请实施例中，处理器可以是通用处理器，包括中央处理器(CPU)，还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、神经网络处理器(NPU)、张量处理器(TPU)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述一种基于双向补偿机制的文本相关说话人识别方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述一种基于双向补偿机制的文本相关说话人识别方法，从而解决无法通过一个模型对不同识别任务进行识别的问题，本申请获取待识别音频，并对所述待识别音频进行提取处理，得到多个子音频；确定每个子音频在声纹特征下的第一评价值，以及每个子音频在内容特征下的第二评价值，针对每个子音频，基于该子音频的第二评价值，确定针对该子音频的第一评价值的调整系数，调整系数和第二评价值负相关，基于各个调整系数，以及各个所述第一评价值，确定输入待识别音频的对象的识别结果，这样，利用子音频在内容特征下的第二评价值生成针对声纹特征下的第一评价值的调整系数，第二评价值越大，调整系数越小，反之则越小，对声纹特征下的第一评价值进行补偿，能够提高得到输入待识别音频的对象的识别结果的准确度。

另外，本申请利用子音频在声纹特征下的第一评价值生成针对内容特征下的第二评价值的调整系数，针对每个子音频，基于该子音频的第一评价值，确定针对该子音频的第二评价值的调整系数；调整系数和所述第一评价值负相关，基于各个所述第二调整系数，以及各个第二评价值，确定待识别音频的内容识别结果，这样，利用子音频在声纹特征下的第一评价值生成针对内容特征下的第二评价值的调整系数，第一评价值越大，调整系数越小，反之则越小，对内容特征下的第二评价值进行补偿，能够提高得到输入待识别音频的内容识别结果的准确度。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于双向补偿机制的文本相关说话人识别方法，其特征在于，该方法包括：

2.如权利要求1所述的方法，其特征在于，确定每个子音频在声纹特征下的第一评价值，以及每个子音频在内容特征下的第二评价值，包括：

3.如权利要求1所述的方法，其特征在于，基于任一子音频的第二评价值，确定针对任一子音频的第一评价值的调整系数，包括：

S＝α-1/(β+e^-x)

4.如权利要求1所述的方法，其特征在于，基于各个所述调整系数，以及各个所述第一评价值，确定输入所述待识别音频的对象的识别结果，包括：

5.一种基于双向补偿机制的文本相关说话人识别方法，其特征在于，该方法包括：

6.如权利要求5所述的方法，其特征在于，确定每个子音频在声纹特征下的第一评价值，以及每个子音频在内容特征下的第二评价值，包括：

7.如权利要求5所述的方法，其特征在于，基于任一子音频的第一评价值，确定针对任一子音频的第二评价值的调整系数，包括：

T＝α-1/(β+e^-y)

8.如权利要求5所述的方法，其特征在于，基于各个所述调整系数，以及各个所述第二评价值，确定所述待识别音频的内容识别结果，包括：

9.一种基于双向补偿机制的文本相关说话人识别方法，其特征在于，该方法包括：

10.一种电子设备，其特征在于，包括：处理器和存储介质，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器执行所述机器可读指令，以执行时执行如权利要求1至4任一所述的方法的步骤，或执行如权利要求5至8任一所述的方法的步骤，或执行如权利要求9所述的方法的步骤。

11.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至4任一所述的方法的步骤，或执行如权利要求5至8任一所述的方法的步骤，或执行如权利要求9所述的方法的步骤。