CN112233680B

CN112233680B - 说话人角色识别方法、装置、电子设备及存储介质

Info

Publication number: CN112233680B
Application number: CN202011033828.9A
Authority: CN
Inventors: 吴峥; 高天; 王培养
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2024-02-13
Anticipated expiration: 2040-09-27
Also published as: CN112233680A

Abstract

本发明实施例提供一种说话人角色识别方法、装置、电子设备及存储介质，通过待识别的说话人语音片段的语音特征与经声学特征确定的说话人语音属性特征相结合，对说话人角色进行识别，使得识别过程考虑的因素更加全面，可以保证角色识别的效果，使得角色识别的结果更加准确，同时也使得识别结果更加可信。

Description

说话人角色识别方法、装置、电子设备及存储介质

技术领域

本发明涉及信息处理技术领域，尤其涉及一种说话人角色识别方法、装置、电子设备及存储介质。

背景技术

日常生活中企业客服与客户通常语音进行沟通，为了更好的挖掘客户的语音内容以便企业形成良性沟通反馈闭环，对海量单通道录音进行说话人角色自动识别成为必不可少的一环。

目前，客服场景角色识别主要由语音识别模块和文本分类模块组成，首先获取到的待识别语音经过自动语音分割聚类成客服和客户这两个待识别角色类别，然后针对每个待识别角色类别通过语音识别模块转写成文本，最后结合已训练好的文本分类模块进行最终角色判定。

现有技术中在进行说话人角色识别时，主要依赖于语音层面信息，导致推广性及最终角色识别效果不佳。

发明内容

本发明实施例提供一种说话人角色识别方法、装置、电子设备及存储介质，用以解决现有技术中存在的缺陷。

本发明实施例提供一种说话人角色识别方法，包括：

确定待识别的说话人语音片段的语音特征和声学特征；

基于所述声学特征，确定所述说话人语音属性特征；

基于所述语音特征和所述说话人语音属性特征，确定所述说话人语音片段对应的说话人角色。

根据本发明一个实施例的说话人角色识别方法，所述确定待识别的说话人语音片段的语音特征和声学特征，具体包括：

确定所述说话人语音片段的声纹特征；

若所述声纹特征与指定角色的声纹特征匹配，则确定所述说话人语音片段对应的说话人角色为所述指定角色；

否则，确定待识别的说话人语音片段的语音特征和声学特征。

根据本发明一个实施例的说话人角色识别方法，所述基于所述语音特征和所述说话人语音属性特征，确定所述说话人语音片段对应的说话人角色，具体包括：

将所述语音特征和所述说话人语音属性特征进行融合，并基于得到的融合结果，确定所述说话人语音片段对应于各个候选角色的置信度得分；

若所述说话人语音片段对应于任一候选角色的置信度得分大于等于预设置信度得分阈值，则确定所述说话人语音片段对应的说话人角色为所述任一候选角色；

否则，确定所述说话人语音片段的语音文本，并基于所述语音文本确定所述说话人语音片段对应的说话人角色。

根据本发明一个实施例的说话人角色识别方法，所述基于得到的融合结果，确定所述说话人语音片段对应于各个候选角色的置信度得分，具体包括：

将所述融合结果输入至语音角色识别模型，得到由所述语音角色识别模型输出的所述说话人语音片段对应于各个候选角色的置信度得分；

所述语音角色识别模型用于提取所述融合结果中的局部声学特征以及上下文文本特征，并基于所述融合结果、所述局部声学特征以及所述上下文文本特征对所述说话人语音片段对应的说话人角色进行识别；

所述语音角色识别模型基于带有说话人角色标签的语音特征样本训练得到。

根据本发明一个实施例的说话人角色识别方法，所述将所述融合结果输入至语音角色识别模型，得到由所述语音角色识别模型输出的所述说话人语音片段对应于各个候选角色的置信度得分，具体包括：

将所述融合结果分别输入至所述语音角色识别模型的局部声学特征提取层以及上下文文本特征提取层，得到由所述局部声学特征提取层输出的所述融合结果中的局部声学特征，以及由所述上下文文本特征提取层输出的所述融合结果中的上下文文本特征；

将所述融合结果、所述局部声学特征以及所述上下文文本特征输入至所述语音角色识别模型的特征拼接层，得到由所述特征拼接层输出的所述融合结果的高维特征；

将所述高维特征输入至所述语音角色识别模型的输出层，得到由所述输出层输出的所述说话人语音片段对应于各个候选角色的置信度得分。

根据本发明一个实施例的说话人角色识别方法，所述基于所述声学特征，确定所述说话人语音属性特征，具体包括：

将所述声学特征中的梅尔频率倒谱系数特征输入至普通话评分模型，得到由所述普通话评分模型输出的所述说话人语音属性特征中的普通话评分特征；

将所述声学特征中的感知线性预测特征输入至情感评分模型，得到由所述情感评分模型输出的所述说话人语音属性特征中的情感评分特征；

所述普通话评分模型基于携带有普通话评分标签的梅尔频率倒谱系数特征训练得到，所述情感评分模型基于携带有情感评分标签的感知线性预测特征训练得到。

根据本发明一个实施例的说话人角色识别方法，所述语音特征具体包括：声学层面和文本层面上的特征。

本发明实施例还提供一种说话人角色识别装置，包括第一特征确定模块、第二特征确定模块以及说话人角色识别模块；其中，

所述第一特征确定模块用于确定待识别的说话人语音片段的语音特征和声学特征；

所述第二特征确定模块用于基于所述声学特征，确定所述说话人语音属性特征；

所述说话人角色识别模块用于基于所述语音特征和所述说话人语音属性特征，确定所述说话人语音片段对应的说话人角色。

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的说话人角色识别方法的步骤。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的说话人角色识别方法的步骤。

本发明实施例提供的说话人角色识别方法、装置、电子设备及存储介质，通过待识别的说话人语音片段的语音特征与经声学特征确定的说话人语音属性特征相结合，对说话人角色进行识别，使得识别过程考虑的因素更加全面，可以保证角色识别的效果，使得角色识别的结果更加准确，同时也使得识别结果更加可信。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种说话人角色识别方法的流程示意图；

图2是本发明实施例提供的一种说话人角色识别方法的完整流程示意图；

图3是本发明实施例提供的一种说话人角色识别装置的结构示意图；

图4是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于现有技术中在进行说话人角色识别时，主要依赖于语音层面信息，导致推广性及最终角色识别效果不佳。为此，本发明实施例中提供了一种说话人角色识别方法，用以解决上述技术问题。

图1为本发明实施例中提供的一种说话人角色识别方法的流程示意图。如图1所示，该说话人角色识别方法，包括：

S1，确定待识别的说话人语音片段的语音特征和声学特征；

S2，基于所述声学特征，确定所述说话人语音属性特征；

S3，基于所述语音特征和所述说话人语音属性特征，确定所述说话人语音片段对应的说话人角色。

具体地，本发明实施例中，在进行说话人角色识别时，首先执行步骤S1。其中，待识别的说话人语音片段是指需要对其中声音的来源进行识别的语音片段，即需要对发出其中语音的说话人角色进行识别的语音片段。待识别的说话人语音片段中可以只包含有一个说话人角色的语音。

待识别的说话人语音片段的语音特征用于表征说话人所体现的声音相关的特征，本发明实施例中，可以先提取说话人语音片段中的FB(FilterBank)声学特征，然后将FB声学特征输入至预先训练好的神经网络模型中，由神经网络模型输出说话人语音片段的语音特征。

待识别的说话人语音片段的声学特征可以是用于说明说话人语音片段中的语音所能反映出的与说话人声音相关的特征，例如可以是梅尔频率倒谱系数(Mel-frequencycepstral coefficient，MFCC)特征、感知线性预测(Perceptual Linear Prediction，PLP)特征等纯声学特征。

MFCC特征F_mfcc具体可以通过将待识别的说话人语音片段按照Mel标度频率域提取得到，其维数可以为14维。PLP特征F_plp可以通过对MFCC特征进行二阶差分处理后得到，其维数可以为39维。F_mfcc和F_plp中均包含有语音短时声学信息。

然后执行步骤S2，基于所述声学特征，确定说话人语音属性特征，此处说话人语音属性特征可以用于表征说话人的语音属性，语音属性可以包括发音标准程度、语音情感等信息。对于包含有多人对话的应用场景，例如，在客服角色和客户角色对话的应用场景下，发音标准程度可以与客服语音通常普通话发音标准的先验知识相对应，语音情感可以与客服语音情感普通中性和积极的先验知识相对应。

说话人语音属性特征可以是说话人的语音属性的向量表示，具体可以将声学特征输入至预先训练好的语音属性识别模型，由语音属性识别模型输出说话人语音属性特征，也可以根据大数据确定出的声学特征与说话人语音属性特征之间的对应关系确定出该声学特征对应的说话人语音属性特征，本发明实施例中对此不作具体限定。

最后执行步骤S3，根据语音特征和说话人语音属性特征，确定说话人语音片段对应的说话人角色，此处将语音特征与说话人语音属性特征进行结合，在考虑语音特征的基础上，结合发音标准程度、语音情感等说话人语音属性特征进行角色识别，可以使得考虑的因素更加全面，识别结果更加准确。

本发明实施例中提供的说话人角色识别方法，通过待识别的说话人语音片段的语音特征与经声学特征确定的说话人语音属性特征相结合，对说话人角色进行识别，使得识别过程考虑的因素更加全面，可以保证角色识别的效果，使得角色识别的结果更加准确，同时也使得识别结果更加可信。

在上述实施例的基础上，所述语音特征具体包括：声学层面和文本层面上的特征。

具体地，本发明实施例中语音特征具体可以是BN特征，通过BN特征表征声学层面和文本层面上的特征。BN特征的确定具体可以是将FB声学特征输入至预先训练好的神经网络模型中，由神经网络模型的瓶颈层输出得到。训练好的神经网络模型具体可以是深度神经网络(Deep Neural Networks，DNN)模型，DNN模型可以包括7层全连接(Fully ConnectLayer，FCL)层，其中DNN模型的隐层节点数依次为512、1024、2024、256、1024、1024等，瓶颈层节点可以输出156维BN特征。DNN模型具体由有帧级别音素标签的连续语音有监督训练得到，因此BN特征同时包含声学层面和文本层面的信息。

本发明实施例中，通过待识别的说话人语音片段的语音特征，可以从说话人语音片段的声学层面和文本层面对说话人角色识别提供辅助作用，可以保证角色识别的效果，使得角色识别的结果更加准确。

在上述实施例的基础上，具体可以通过如下方式确定待识别的说话人语音片段：

获取待识别语音文件；

对所述待识别语音文件进行语音分割聚类，得到所述待识别语音文件中包含的说话人语音片段。

具体地，本发明实施例中可以根据具体应用场景确定待识别的说话人语音片段。对于包含有多人对话的应用场景，例如，在客服角色和客户角色对话的应用场景下，录制得到待识别语音文件。如果待识别语音文件中只包含有一个说话人角色的语音，即不同说话人角色分别对应于一个待识别语音文件，此时可以直接对待识别语音文件按时间进行分割，得到说话人语音片段。如果待识别语音文件中包含有多个说话人角色的声音，即所有不同说话人角色均在同一个待识别语音文件中，此时需要对待识别语音文件进行语音分割聚类，得到待识别语音文件中包含的说话人语音片段。语音分割聚类具体可以通过语音端点检测(Voice Activity Detection，VAD)实现，还可以基于贝叶斯信息准则(BayesianInformation Criterion，BIC)对待识别语音文件进行话者变化点检测，依据检测的结果进行音频分割实现。得到的说话人语音片段的数量与待识别语音文件中包含的说话人角色的数量相同，例如可以分别得到说话人语音片段SpeakerA和SpeakerB，但是无法确定说话人语音片段SpeakerA、SpeakerB与客服角色、客户角色之间的对应关系。

在上述实施例的基础上，本发明实施例中提供的说话人角色识别方法，所述确定待识别的说话人语音片段的语音特征和声学特征，具体包括：

确定所述说话人语音片段的声纹特征；

具体地，本发明实施例中，在确定待识别的说话人语音片段的语音特征和声学特征时，首先确定出说话人语音片段的声纹特征，该声纹特征具体是指说话人语音片段中说话人所体现的声音特征。说话人语音片段的声纹特征可以通过将说话人语音片段输入到预先训练好的声纹特征提取模型得到。例如，预先训练好的声纹特征提取模型可以是自注意力卷积神经网络(Self-Attention_CNN)模型，分别将从说话人语音片段SpeakerA、SpeakerB中提取出的FB声学特征输入至Self-Attention_CNN模型，得到由Self-Attention_CNN模型输出的声纹特征VectorA和VectorB。FB声学特征具体可以是48维，Self-Attention_CNN模型可以包括3层卷积层(kernal_size＝7*7，stride＝1)、5层DNN模型(隐层节点数为256)、self_attention pooling层以及卷积层，FB声学特征首先经过3层卷积层提取得到低维frame level特征，接着经过5层DNN模型及self_attention pooling层，按时间序列的均值和方差统计量进行拼接，得到segment level特征，最后经过1层卷积层分别得到SpeakerA、SpeakerB的声纹特征VectorA和VectorB。

然后，判断说话人语音片段的声纹特征与指定角色的声纹特征是否匹配。其中，指定角色可以是指声纹库中存储的任一声纹特征对应的角色，在声纹库中角色与角色的声纹特征对应存储。是否匹配的判断方法可以是计算说话人语音片段的声纹特征与声纹库中每一指定角色的声纹特征之间的余弦相似度，然后确定计算出的所有余弦相似度中的最大值，最后确定该最大值是否大于等于预设阈值。如果该最大值大于等于预设阈值，则说明说话人语音片段的声纹特征与余弦相似度最大值对应的指定角色的声纹特征匹配，此时可以确定说话人语音片段对应的说话人角色为指定角色。本发明实施例中可以将预设阈值设置为0.6。

否则，如果该最大值小于预设阈值，则说明说话人语音片段的声纹特征与指定角色的声纹特征不匹配，此时需要确定待识别的说话人语音片段的语音特征和声学特征，然后根据说话人语音片段的语音特征和声学特征确定说话人语音片段对应的说话人角色。

本发明实施例中，在根据说话人语音片段的语音特征和声学特征确定说话人语音片段对应的说话人角色之前，提供了一种通过声纹特征识别说话人角色的方法，可以直接在说话人语音片段的声纹特征与声纹库中指定角色的声纹特征匹配时确定说话人语音片段对应的说话人角色，考虑到声纹匹配本身的准确率较高，此时不需要再进行后续判断，可以大大节约说话人角色识别的时间，提高识别效率。

在上述实施例的基础上，本发明实施例中提供的说话人角色识别方法，所述基于所述语音特征和所述说话人语音属性特征，确定所述说话人语音片段对应的说话人角色，具体包括：

具体地，本发明实施例中在确定说话人语音片段对应的说话人角色时，首先可以将所述语音特征和所述说话人语音属性特征进行融合，以说话人语音属性特征包括普通话评分特征以及情感评分特征为例，且普通话评分特征和情感评分特征均以向量的形式分别表示为V_mandarin、V_emotion，则语音特征F_BN与V_mandarin、V_emotion融合可以得到：

F_fusion＝Concat(F_BN,V_mandarin,V_emotion)

其中，F_fusion为得到的融合结果，Concat为融合函数。

然后，基于得到的融合结果确定说话人语音片段对应于各个候选角色的置信度得分。候选角色具体可以是具体应用场景下涉及的所有角色，例如，对于客服角色和客户角色对话的应用场景下，候选角色可以包括客服角色和客户角色。

最后，判断说话人语音片段对应于任一候选角色的置信度得分是否大于等于预设置信度得分阈值，如果是则可以确定出说话人语音片段对应的说话人角色为该任一候选角色；否则，可以进一步根据文本识别方法确定说话人语音片段对应的说话人角色。预设置信度得分阈值的取值可以根据需要进行设定，例如可以设定为0.7、0.8等。例如，Score_final大于预设置信度得分阈值，则可以确定说话人语音片段对应的说话人角色为客服角色。

在根据文本识别方法确定说话人语音片段对应的说话人角色时，可以包括语音识别和文本分类两部分，语音识别具体是确定出说话人语音片段的语音文本，文本分类则是将语音文本输入至文本分类模型来确定语音文本的角色，并将其作为说话人语音片段对应的说话人角色。其中，可以利用基于transform的语音角色识别模型将说话人语音片段转换成语音文本，得到说话人语音片段的语音文本。例如，对于说话人语音片段SpeakerA、SpeakerB，可以分别得到语音文本TextA、TextB。文本分类模型具体可以通过携带有角色标签的语音文本样本训练得到。

本发明实施例中，通过比对说话人语音片段对应于任一候选角色的置信度得分与预设置信度得分阈值之间的大小关系，分别采用不同的方式确定说话人语音片段对应的说话人角色，可以保证无论处于哪种情况都可以确定出说话人语音片段对应的说话人角色，提高了说话人角色识别方法的适用性。

在上述实施例的基础上，本发明实施例中提供的说话人角色识别方法，所述基于基于得到的融合结果，确定所述说话人语音片段对应于各个候选角色的置信度得分，具体包括：

具体地，本发明实施例中在确定说话人语音片段对应于各个候选角色的置信度得分时，具体通过语音角色识别模型实现，即将语音特征和说话人语音属性特征得到的融合结果输入至语音角色识别模型中，由语音角色识别模型输出说话人语音片段对应于各个候选角色的置信度得分。语音角色识别模型分别提取融合结果中的局部声学特征以及上下文文本特征。局部声学特征用于表征语音特征在声学层面上的声学信息，上下文本特征用于表征语音特征在文本层面上的上下文文本关联信息。然后根据融合结果、局部声学特征以及上下文文本特征对说话人语音片段对应的说话人角色进行识别。此时加入的融合结果体现在语音角色识别模型中是一种残差连接结构，在进行说话人角色识别时，将融合结果本身与基于融合结果得到的局部声学特征和上下文文本特征相结合，保证了融合结果本身的信息没有因为特征的逐层提取而被遗漏，进而可以保证说话人语音片段的直连完整性。

语音角色识别模型在进行训练时，可以将带有说话人角色标签的语音特征样本输入至语音角色识别模型中，然后将语音角色识别模型输出的说话人角色识别结果与说话人角色标签进行比较，二者差异满足预设条件时训练完成。

本发明实施例中，通过语音角色识别模型确定说话人语音片段对应于各个候选角色的置信度得分，并通过将融合结果、局部声学特征以及上下文文本特征相结合共同实现对说话人角色进行识别，可以简化识别的过程，并可以保证识别结果的准确性。

在上述实施例的基础上，本发明实施例中提供的说话人角色识别方法，所述将所述融合结果输入至语音角色识别模型，得到由所述语音角色识别模型输出的所述说话人语音片段对应于各个候选角色的置信度得分，具体包括：

具体地，本发明实施例中采用的语音角色识别模型具体可以包括局部声学特征提取层、上下文文本特征提取层、特征拼接层以及输出层。将融合结果输入至语音角色识别模型时，可以将融合结果分别输入至局部声学特征提取层以及上下文文本特征提取层，由局部声学特征提取层输出融合结果中的局部声学特征，由上下文文本特征提取层输出融合结果中的上下文文本特征。

输入至语音角色识别模型的融合结果可以表示为：F_fusion(500,256)，500表示语音特征的帧长，256表示语音特征的特征维数，该语音特征的通道数为1，即可以表示为F_fusion(1,500,256)。局部声学特征提取层可以是一个卷积神经网络(Convolutional NeuralNetworks，CNN)模块，具体包括三个二维卷积层(分别为Con2D-1、Con2D-2以及Con2D-3)和一个池化层(MaxPooling)，具体结构参数如表1所示。

表1局部声学特征提取层的结构参数

表2上下文文本特征提取层的结构参数

上下文文本特征提取层可以是一个双向长短时记忆循环神经网络(Bi-directional Long Short-Term Memory，Bilstm)模块，具体包括两个Bilstm层(分别为Bilstm-1、Bilstm-2)和一个全连接(Fully Connect，FC)层，具体结构参数如表2所示。

然后，将融合结果、局部声学特征以及上下文文本特征输入至语音角色识别模型的特征拼接层，通过特征拼接层将上述三类特征进行拼接，得到并输出融合结果的高维特征。拼接的方式可以是在通道维度上进行拼接，拼接后得到的融合结果的高维特征的通道数为6，设高维特征为F_hf(6，500，256)，C_cnn(4)、C_bilstm(1)、C_input(1)分别代表局部声学特征提取层、上下文文本特征提取层及输入层的通道数，Dim_f(256)表示高维特征F_hf(6，500，256)的频域特征维度。则有：

F_hf＝Concat_Chane(f_CNNbet(F_fusiob),f_BILSTMnet(F_fusion),F_fusion)。

其中，Concat_Chane表示在通道维度上的拼接函数，f_CNNnet(F_fusion)表示局部声学特征，f_BILSTMnet(F_fusion)表示上下文文本特征，F_fusion表示融合结果。

最后，将高维特征F_hf输入至语音角色识别模型的输出层，输出层可以包括Resnet18和softmax，通过输出层可以得到说话人语音片段对应于各个候选角色以及各个候选角色的置信度得分Score_main。

本发明实施例中，通过对语音角色识别模型的具体结构进行限定，可以使得通过语音角色识别模型得到的说话人语音片段对应于各个候选角色的置信度得分更加准确可靠。

在上述实施例的基础上，本发明实施例中提供的说话人角色识别方法，所述基于所述声学特征，确定所述说话人语音属性特征，具体包括：

具体地，本发明实施例中声学特征具体可以包括MFCC特征以及PLP特征，说话人语音属性特征可以包括普通话评分特征以及情感评分特征。可以通过MFCC特征确定普通话评分特征，具体将MFCC特征输入至普通话评分模型，由普通话评分模型输出说话人语音属性特征中的普通话评分特征的向量形式。可以通过PLP特征确定情感评分特征，具体是将PLP特征输入至情感评分模型，由情感评分模型输出说话人语音属性特征中的情感评分特征的向量表示。

其中，普通话评分模型可以包括3层全连接(Full Connect，FC)层(隐层节点数依次为512、128、128)，该模型可以通过携带有普通话评分标签的梅尔频率倒谱系数特征进行有监督训练得到，输出50维普通话评分特征向量，可以表征说话人语音片段的普通话发音标准程度。情感评分模型可以包括1层卷积神经网络(Convolutional Neural Networks，CNN)层(卷积核为3*3)以及2层FC层(隐层节点数依次为1024、512)，该模型可以通过携带有情感评分标签的感知线性预测特征进行有监督训练得到，输出50维情感评分特征向量，可以表征说话人语音片段的情感信息。

在上述实施例的基础上，图2为本发明实施例中提供的说话人角色识别方法的完整流程示意图。如图2所示，该方法包括：

1)获取待识别语音文件；

2)对所述待识别语音文件进行语音分割聚类，得到所述待识别语音文件中包含的说话人语音片段SpeakerA和SpeakerB；

3)提取说话人语音片段SpeakerA和SpeakerB的声纹特征；

4)判断声纹特征与声纹库中指定角色的声纹特征是否匹配，如果匹配则执行步骤5)，否则执行步骤6)；

5)确定说话人语音片段对应的说话人角色为指定角色；

6)确定待识别的说话人语音片段的语音特征和声学特征；

7)基于所述声学特征，确定所述说话人语音属性特征；

8)将语音特征和说话人语音属性特征进行融合，并基于得到的融合结果，确定说话人语音片段对应于各个候选角色的置信度得分；

9)判断说话人语音片段对应于任一候选角色的置信度得分是否大于等于预设置信度得分阈值，如果是则执行步骤10)，否则执行步骤11)；

10)确定说话人语音片段对应的说话人角色为大于等于预设置信度得分阈值的置信度得分对应的候选角色；

11)确定说话人语音片段的语音文本，并根据语音文本确定说话人语音片段对应的说话人角色。

图3为本发明实施例中提供的一种说话人角色识别装置的结构示意图。如图3所示，该装置包括第一特征确定模块31、第二特征确定模块32以及说话人角色识别模块33；其中，

所述第一特征确定模块31用于确定待识别的说话人语音片段的语音特征和声学特征；

所述第二特征确定模块32用于基于所述声学特征，确定所述说话人语音属性特征；

所述说话人角色识别模块33用于基于所述语音特征和所述说话人语音属性特征，确定所述说话人语音片段对应的说话人角色。

具体地，本发明实施例中提供的说话人角色识别装置中各模块的作用与上述方法类实施例中各步骤的操作流程是一一对应的，实现的效果也是一致的，具体参见上述实施例，本发明实施例中对此不再赘述。

在上述实施例的基础上，所述第一特征确定模块具体用于：

确定所述说话人语音片段的声纹特征；

在上述实施例的基础上，说话人角色识别模块具体用于：

在上述实施例的基础上，所述第二特征确定模块具体用于：

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行说话人角色识别方法，包括：确定待识别的说话人语音片段的语音特征和声学特征；基于所述声学特征，确定所述说话人语音属性特征；基于所述语音特征和所述说话人语音属性特征，确定所述说话人语音片段对应的说话人角色。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的说话人角色识别方法，包括：确定待识别的说话人语音片段的语音特征和声学特征；基于所述声学特征，确定所述说话人语音属性特征；基于所述语音特征和所述说话人语音属性特征，确定所述说话人语音片段对应的说话人角色。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的说话人角色识别方法，包括：确定待识别的说话人语音片段的语音特征和声学特征；基于所述声学特征，确定所述说话人语音属性特征；基于所述语音特征和所述说话人语音属性特征，确定所述说话人语音片段对应的说话人角色。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种说话人角色识别方法，其特征在于，包括：

确定待识别的说话人语音片段的语音特征和声学特征；所述语音特征具体包括：声学层面和文本层面上的特征；

基于所述声学特征，确定所述说话人语音属性特征；

基于所述语音特征和所述说话人语音属性特征，确定所述说话人语音片段对应的说话人角色；

所述基于所述语音特征和所述说话人语音属性特征，确定所述说话人语音片段对应的说话人角色，具体包括：

否则，确定所述说话人语音片段的语音文本，并基于所述语音文本确定所述说话人语音片段对应的说话人角色；

所述基于得到的融合结果，确定所述说话人语音片段对应于各个候选角色的置信度得分，具体包括：

所述语音角色识别模型用于提取所述融合结果中的局部声学特征以及上下文文本特征，并基于所述融合结果、所述局部声学特征以及所述上下文文本特征对所述说话人语音片段对应的说话人角色进行识别。

2.根据权利要求1所述的说话人角色识别方法，其特征在于，所述确定待识别的说话人语音片段的语音特征和声学特征，具体包括：

确定所述说话人语音片段的声纹特征；

3.根据权利要求1所述的说话人角色识别方法，其特征在于，所述语音角色识别模型基于带有说话人角色标签的语音特征样本训练得到。

4.根据权利要求1所述的说话人角色识别方法，其特征在于，所述将所述融合结果输入至语音角色识别模型，得到由所述语音角色识别模型输出的所述说话人语音片段对应于各个候选角色的置信度得分，具体包括：

5.根据权利要求1至4中任一项所述的说话人角色识别方法，其特征在于，所述基于所述声学特征，确定所述说话人语音属性特征，具体包括：

6.一种说话人角色识别装置，其特征在于，包括第一特征确定模块、第二特征确定模块以及说话人角色识别模块；其中，

所述第一特征确定模块用于确定待识别的说话人语音片段的语音特征和声学特征；所述语音特征具体包括：声学层面和文本层面上的特征；

所述说话人角色识别模块用于基于所述语音特征和所述说话人语音属性特征，确定所述说话人语音片段对应的说话人角色；

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述的说话人角色识别方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至5任一项所述的说话人角色识别方法的步骤。