CN113192516A

CN113192516A - 语音角色分割方法、装置、计算机设备及存储介质

Info

Publication number: CN113192516A
Application number: CN202110434754.8A
Authority: CN
Inventors: 刘博卿; 王健宗; 张之勇; 程宁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2021-07-30
Anticipated expiration: 2041-04-22
Also published as: CN113192516B

Abstract

本发明涉及语音分类技术领域，本发明公开了一种语音角色分割方法、装置、计算机设备及存储介质，所述方法包括：获取角色分割请求中的包含至少两个角色的待分割对话数据；依次对待分割对话数据进行语音识别以及文本段切割，划分出文本段和音频段；通过基于N‑gram的角色检测模型对各文本段进行角色识别，识别出困惑度值并确定与各文本段对应的识别结果；对与各音频段进行声学特征提取，并根据角色标签、置信度值和声学特征进行角色预测，得到角色预测结果；运用信道补偿算法，进行分割处理，分割出与各角色标识码对应的对话片段。本发明实现了准确地、科学地、快速地区分出对话数据中的角色及说话人，最终自动分割出不同角色不同说话人的对话片段。

Description

语音角色分割方法、装置、计算机设备及存储介质

技术领域

本发明涉及语音分类技术领域，尤其涉及一种语音角色分割方法、装置、计算机设备及存储介质。

背景技术

随着音频获取途径和数量的快速增加，音频管理变得越来越复杂，近几年说话人分割方法的需求越来越急迫，特别是在电话服务或者多人会议的场景，需对电话服务或者多人会议的录音的多人多角色的音频文件进行分割，分割出音频文件中不同角色的音频片段，为后续对不同的角色进行针对性的分析，传统说话人分割方法是直接对音频文件进行分割多个短的音频文件，提取短的音频文件的声学特征提取，将属于同一个人的多个短的音频文件进行聚类处理，从而得到此人的音频片段，采用上述的传统说话人分割方法，需要先分割再重新聚类得到属于同一个人的长语音，不仅算法较复杂，计算效率低，以及分割精度低，容易受噪音影响将聚类相邻的两个人的音频片段分割成同一人，导致分割方法的鲁棒性差，而且此方法只能区分人不能区分角色，后续进行角色分析时仍需要人工识别，带来二次加工的不变及成本。

发明内容

本发明提供一种语音角色分割方法、装置、计算机设备及存储介质，实现了结合对话数据中的声学特征和文本信息，准确地、科学地、快速地区分出对话数据中的角色及说话人，最终从对话数据分割出不同角色不同说话人的对话片段，提高了分割的鲁棒性，并提升了分割的准确率。

一种语音角色分割方法，包括：

接收角色分割请求，获取所述角色分割请求中的待分割对话数据；所述待分割对话数据为至少两个角色的对话数据；

依次对所述待分割对话数据进行语音识别以及文本段切割，划分出多个文本段和与所述文本段一一对应的音频段；

通过基于N-gram的角色检测模型对各所述文本段进行角色识别，识别出与各所述文本段对应的困惑度值，并根据所有所述困惑度值确定与各所述文本段一一对应的识别结果；所述识别结果包括角色标签和置信度值；

对与各所述文本段对应的所述音频段进行声学特征提取，并根据与各所述文本段对应的所述角色标签、所述置信度值和提取的所述声学特征进行角色预测，得到与所述待分割对话数据对应的角色预测结果；所述角色预测结果包括至少两个角色标识码；

运用信道补偿算法，根据所述角色预测结果，对所述待分割对话数据进行分割处理，分割出与各所述角色标识码对应的对话片段。

一种语音角色分割装置，包括：

接收模块，用于接收角色分割请求，获取所述角色分割请求中的待分割对话数据；所述待分割对话数据为至少两个角色的对话数据；

切割模块，用于依次对所述待分割对话数据进行语音识别以及文本段切割，划分出多个文本段和与所述文本段一一对应的音频段；

识别模块，用于通过基于N-gram的角色检测模型对各所述文本段进行角色识别，识别出与各所述文本段对应的困惑度值，并根据所有所述困惑度值确定与各所述文本段一一对应的识别结果；所述识别结果包括角色标签和置信度值；

预测模块，用于对与各所述文本段对应的所述音频段进行声学特征提取，并根据与各所述文本段对应的所述角色标签、所述置信度值和提取的所述声学特征进行角色预测，得到与所述待分割对话数据对应的角色预测结果；所述角色预测结果包括至少两个角色标识码；

分割模块，用于运用信道补偿算法，根据所述角色预测结果，对所述待分割对话数据进行分割处理，分割出与各所述角色标识码对应的对话片段。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述语音角色分割方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音角色分割方法的步骤。

本发明提供的语音角色分割方法、装置、计算机设备及存储介质，通过接收角色分割请求，获取所述角色分割请求中的包含至少两个角色的待分割对话数据；依次对所述待分割对话数据进行语音识别以及文本段切割，划分出多个文本段和与所述文本段一一对应的音频段；通过基于N-gram的角色检测模型对各所述文本段进行角色识别，识别出与各所述文本段对应的困惑度值，并根据所有所述困惑度值确定与各所述文本段一一对应的识别结果；对与各所述文本段对应的所述音频段进行声学特征提取，并根据与各所述文本段对应的所述角色标签、所述置信度值和提取的所述声学特征进行角色预测，得到与所述待分割对话数据对应的角色预测结果；运用信道补偿算法，根据所述角色预测结果，对所述待分割对话数据进行分割处理，分割出与各所述角色标识码对应的对话片段，因此，实现了通过运用语音识别技术划分待分割对话数据，识别出多个文本段和与所述文本段对应的音频段，再通过角色识别以及声学特征提取，预测出待分割对话数据中的角色预测结果，最后运用信道补偿算法，分割出不同角色下的不同说话人的对话片段，能够结合对话数据中的声学特征和文本信息，准确地、科学地、快速地区分出对话数据中的角色及说话人，最终从对话数据分割出不同角色不同说话人的对话片段，提高了分割的鲁棒性，并提升了分割的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中语音角色分割方法的应用环境示意图；

图2是本发明一实施例中语音角色分割方法的流程图；

图3是本发明一实施例中语音角色分割方法的步骤S20的流程图；

图4是本发明一实施例中语音角色分割方法的步骤S202的流程图；

图5是本发明一实施例中语音角色分割方法的步骤S30的流程图；

图6是本发明一实施例中语音角色分割方法的步骤S40的流程图；

图7是本发明一实施例中语音角色分割装置的原理框图；

图8是本发明一实施例中计算机设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的语音角色分割方法，可应用在如图1的应用环境中，其中，客户端(计算机设备)通过网络与服务器进行通信。其中，客户端(计算机设备)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑、摄像头和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

所述语音角色分割方法由客户端或者服务端执行。

在一实施例中，如图2所示，提供一种语音角色分割方法，其技术方案主要包括以下步骤S10-S50：

S10，接收角色分割请求，获取所述角色分割请求中的待分割对话数据；所述待分割对话数据为至少两个角色的对话数据。

可理解地，在应用场景中需要对过程中录制的音频文件进行说话人分给时，触发所述角色分割请求，所述应用场景可以为客服与客户的电话沟通场景、多人会议、多人电话会议或者多人视频会议等等，所述角色分割请求为需要对录制的音频文件进行分割出不同角色及不同说话人的音频片段而发起的请求，所述角色分割请求包含有所述待分割对话数据，所述待分割对话数据为至少两个不同角色对话后录制的音频格式的对话数据，例如客服与客户之间的对话，项目团队的多人会议等等。

S20，依次对所述待分割对话数据进行语音识别以及文本段切割，划分出多个文本段和与所述文本段一一对应的音频段。

可理解地，所述语音识别技术(Automatic Speech Recognition，ASR)就是把语音信号转变为相应的文本的技术，通过所述文本识别技术，可以将所述待分割对话数据转换成文本内容，将所述待分割对话数据进行语音识别，输出对话文本段，所述对话文本段为所述待分割对话数据中的文本内容，所述文本段切割为从所述对话文本段中切割出多个所述文本段以及与所述文本段一一对应的所述音频段，所述文本段为所述对话文本段中一段文本或者一句文本，所述音频段为从所述待分割对话数据中截取的与所述文本段相应的时间戳范围内的音频，所述文本段切割的方法可以根据需求设定，比如根据两字之间的时间间隔判断切割点进行划分，或者识别出所述对话文本段中的每一句或者每一段段的文本内容进行划分等等，在一实施例中，所述文本段切割为在所述对话文本段中的两个字相应于所述待分割对话数据的时间戳间隔大于预设时间间隔，在两个字之间分割出两段文本段，所述文本段的首尾两个字相应于所述待分割对话数据的时间戳之间进行截取，得到与所述文本段对应的所述音频段，所述时间戳间隔为所述待分割对话数据中两个时间戳之间的距离，所述预设时间间隔为预设时间段的距离，例如：预设时间段为0.5秒、0.8秒或者1秒等等。

在一实施例中，如图3所示，所述步骤S20中，即所述依次对所述待分割对话数据进行语音识别以及文本段切割，划分出多个文本段和与所述文本段一一对应的音频段，包括：

S201，运用语音识别技术，对所述待分割对话数据进行识别，得到对话文本段。

可理解地，所述语音识别技术(Automatic Speech Recognition，ASR)就是把语音信号转变为相应的文本的技术，通过所述文本识别技术，可以将所述待分割对话数据转换成文本内容，即对所述待分割对话数据进行信号处理后，按帧(毫秒级)拆分出预设段的波形，并对拆分出的预设段波形按照人耳特征转换成多维向量信息，将转换后的多维向量信息进行识别出状态信息，在将状态信息组合成音素，最后将音素组成字词并串连成句的技术，所述识别过程为运用所述语音识别技术识别所述待分割对话数据中音频包含的文本内容的过程，经过识别之后输出所述对话文本段，所述对话文本段为所述待分割对话数据中的文本内容。

S202，运用双向长短期记忆网络和条件随机场的预测算法，对所述对话文本段进行文本段切割，划分出多个所述文本段以及与所述文本段对应的时间始末节点。

可理解地，所述双向长短期记忆网络即为Bi-LSTM网络，是指通过双方向(正序方向和反序方向)的LSTM算法捕捉双方向的上下文语义的算法，所述LSTM算法为长短期记忆网络，通过刻意避免长期依赖问题且训练完成的循环神经网络，所述条件随机场的预测算法为CRF算法，是指给定条件随机场和输入序列的情况下，预测出最可能出现的输出序列的算法，运用双向长短期记忆网络和条件随机场的预测算法，所述文本段切割为运用双向长短期记忆网络和条件随机场的预测算法识别出所述对话文本段中的句子，并对每个句子进行切割，切割出多个所述文本段，以及根据各个所述文本段从所述待分割对话数据中确定出与其相应的所述时间始末节点的过程，所述文本段为一个句子的短文本，所述时间始末节点为与其对应的文本段的句首和句尾分别在所述待分割对话数据中相对应的时间节点，所述时间始末节点包括时间始节点和时间末节点，所述时间始节点为与其对应的文本段的句首在所述待分割对话数据中相对应的时间节点，所述时间末节点为与其对应的文本段的句尾在所述待分割对话数据中相对应的时间节点。

在一实施例中，如图4所示，所述步骤S202中，即所述运用双向长短期记忆网络和条件随机场的预测算法，对所述对话文本段进行文本段切割，划分出多个所述文本段，包括：

S2021，运用CNN网络和word2vec算法，对所述对话文本段进行向量转换，得到向量文本段。

可理解地，所述CNN网络为深度学习神经网络，所述CNN网络为用于将字符转换成字符嵌入向量且训练完成的神经网络模型，所述word2vec算法为将词语转换成词嵌入向量的算法，通过所述CNN网络和所述word2vec算法可以将所述对话文本中的每个字或者词语进行向量转换，将向量转换后的字符嵌入向量和词嵌入向量进行拼接，得到所述向量文本段，所述向量转换包括将字符转换成字符嵌入向量和将词语转换成词嵌入向量的转换过程，所述向量文本段为包括字符嵌入向量和/或词嵌入向量的向量数组。

S2022，运用双向长短期记忆网络，对所述向量文本段进行语义识别，得到文本结果。

可理解地，所述语义识别为运用双向长短期记忆网络对所述向量文本段提取所述对话文本段中的上下文语义特征，预测出文本内容的识别过程，所述文本结果为经过所述语义识别输出的文本内容。

S2023，运用条件随机场的预测算法，对所述文本结果进行词性标注和序列标注，得到标注文本结果。

可理解地，通过所述条件随机场的预测算法，对所述文本结果中的各个字或者词语进行标注，所述标注包括所述词性标注和所述序列标注，所述词性标注为标注出词语或者字的词性的序列，例如动词、助词、地名等等，所述序列标注为运用BIOES方法——B(Beginning)表示句首、I(Inside)表示句中、E(End)表示句尾、O(Other)不为任何实体、S(Single)表示单个字，从而标注出所述对话文本段中的句首和句尾，从而得到标注后的所述标注文本结果，所述标注文本结果为在所述文本结果中增加了词性标注和序列标注的维度的多维度的文本，所述标注文本结果包含更多的句子信息。

S2024，对所述标注文本结果进行句子分割，得到多个所述文本段。

可理解地，根据所述标注文本结果中标注的句首和句尾，对所述标注文本结果进行句子分割，所述句子分割为将句首及与其靠后相邻的句尾之间确定为一个句子，从所述标注文本结果中分割出一个所述文本段。

本发明实现了通过运用CNN网络和word2vec算法，对所述对话文本段进行向量转换，得到向量文本段；运用双向长短期记忆网络，对所述向量文本段进行语义识别，得到文本结果；运用条件随机场的预测算法，对所述文本结果进行词性标注和序列标注，得到标注文本结果；对所述标注文本结果进行句子分割，得到多个所述文本段，如此，实现了运用CNN网络、word2vec算法、双向长短期记忆网络和条件随机场的预测算法，能够通过上下文语义及标注自动识别出与对话文本段中的每一句一一对应的文本段，能够更加准确地划分出文本段，提升了识别的准确率和质量，并提高了识别效率。

S203，根据与各所述文本段对应的所述时间始末节点对所述待分割对话数据进行抽取，得到与各所述文本段对应的所述音频段。

可理解地，所述抽取的过程为将各个所述文本段的所述时间始末节点中的所述时间始节点和所述时间末节点之间的音频内容从所述待分割对话数据中截取的过程，通过所述抽取过程能够得到与各所述文本段一一对应的所述音频段。

本发明实现了通过运用语音识别技术，对所述待分割对话数据进行识别，得到对话文本段；运用双向长短期记忆网络和条件随机场的预测算法，对所述对话文本段进行文本段切割，划分出多个所述文本段以及与所述文本段对应的时间始末节点；根据与各所述文本段对应的所述时间始末节点对所述待分割对话数据进行抽取，得到与各所述文本段对应的所述音频段，如此，实现了运用语音识别技术、双向长短期记忆网络和条件随机场的预测算法，能够准确地对待分割对话数据中划分出包含一句话的文本段和音频段，为后续的角色识别提供了数据基础，提高了角色识别的准确率。

S30，通过基于N-gram的角色检测模型对各所述文本段进行角色识别，识别出与各所述文本段对应的困惑度值，并根据所有所述困惑度值确定与各所述文本段一一对应的识别结果；所述识别结果包括角色标签和置信度值。

可理解地，所述角色识别为通过训练完成的基于N-gram的角色检测模型提取输入的文本段中的角色特征，根据提取的所述角色特征与各个角色标签的特征向量进行匹配，得出与各个角色标签对应的困惑度值，根据所有困惑度值确定出识别结果的过程，所述识别结果包括所述角色标签和所述置信度值，所述角色标签指给各个角色赋予的标签，所述角色标签可以包括客户和客服，也可以包括项目经理、项目计划员、项目人力专员等等，所述置信度值为衡量识别出的角色标签的可信程度的指标。

其中，所述角色特征为与各个角色标签相关的特征，即不同角色说话的文本内容、称谓及语调具有不同的特征，所述困惑度值表明了所述文本段中的角色特征与各角色标签匹配的困惑程度，所述文本段中的角色特征与角色标签相匹配的差距越大，说明与该角色标签对应的困惑度值就越大。

在一实施例中，如图5所示，所述步骤S30中，即所述对各所述文本段进行角色识别，得到与各所述文本段对应的识别结果；所述识别结果包括角色标签和置信度值，包括：

S301，将所述文本段输入基于N-gram的角色检测模型。

可理解地，所述角色检测模型为训练完成用于识别出各个角色标签的困惑度值且基于N-gram的神经网络模型，所述角色检测模型包含与各个所述角色标签一一对应的基于N-gram的子模型，即一个角色标签对应一个基于N-gram的子模型，该子模型用于识别出是该角色标签的困惑度值，将所述文本段分别输入与各个所述角色标签对应的所述角色检测模型中的子模型。

其中，所述N-Gram是大词汇连续语音识别的语言模型，该汉语语言模型利用上下文中相邻词间的搭配信息，可以实现到汉字的自动转换，通过与一个角色标签对应的基于N-gram的子模型可以衡量出所述文本段中的词语与该角色标签的相关程度。

S302，通过所述角色检测模型对所述文本段进行角色特征提取，并根据提取的所述角色特征，得到与各角色标签对应的困惑度值。

可理解地，通过所述角色检测模型中的各个所述子模型对所述文本段分别提取所述角色特征，根据提取的所述角色特征与各个角色标签的特征向量进行匹配，得出与各个角色标签对应的困惑度值，提取的所述角色特征与所述角色标签的特征向量匹配的差距越大，其困惑度值越大，提取的所述角色特征与所述角色标签的特征向量匹配的差距越小，其困惑度值越小。

其中，所述角色特征为与各个角色标签相关的特征，即不同角色说话的文本内容、称谓及语调具有不同的特征。

S303，对所有所述困惑度值按照由小至大进行排序，将与序列第一的所述困惑度值对应的角色标签确定为与所述文本段对应的角色标签，以及根据排序后的所有所述困惑度值确定出与所述文本段对应的所述置信度值。

可理解地，按照由小至大的顺序对所有所述困惑度值进行排序，在排序后的所有所述困惑度中获取序列第一的所述困惑度值，该困惑度值为所有困惑度值中最小的值，说明与该困惑度值对应的所述角色标签为与所述文本段对应的角色标签，并且通过排序后的所有所述困惑度值计算出所述置信度值，其中，计算的方法可以根据需求进行设定。

在一实施例中，所述步骤S303中，即所述根据排序后的所有所述困惑度值确定出与所述文本段对应的所述置信度值，包括：

将序列靠前的两个所述困惑度值的差值的绝对值确定为与所述文本段对应的所述置信度值。

可理解地，先计算序列靠前的两个所述困惑度值的差值，再对该差值取绝对值，从而得到所述置信度值，如此，通过该计算方式可以准确地衡量出识别出的角色标签的可信程度。

本发明实现了通过将所述文本段输入基于N-gram的角色检测模型；通过所述角色检测模型对所述文本段进行所述角色识别，识别出与各角色标签对应的困惑度值；对所有所述困惑度值按照由小至大进行排序，将与序列第一的所述困惑度值对应的角色标签确定为与所述文本段对应的角色标签，以及根据排序后的所有所述困惑度值确定出与所述文本段对应的所述置信度值，如此，能够通过基于N-gram的角色检测模型的角色识别，自动识别出与文本段对应的角色标签以及置信度值，能够准确地识别出该文本段所属的角色以及衡量出属于该角色的可信程度，避免了人工识别角色，减少了二次识别的成本。

S40，对与各所述文本段对应的所述音频段进行声学特征提取，并根据与各所述文本段对应的所述角色标签、所述置信度值和提取的所述声学特征进行角色预测，得到与所述待分割对话数据对应的角色预测结果；所述角色预测结果包括至少两个角色标识码。

可理解地，所述声学特征即为x-vector特征，提取所述x-vector特征为在MFCC特征的基础上增加噪声和混响信道特征的特征，提取所述声学特征的过程为将不定长的所述音频段通过加该音频段的噪声和混响的信道信息进行数据扩充，然后经由深度神经网络映射成预设维度的特征向量的过程。

其中，所述角色预测为将与各所述文本段对应的所述角色标签、所述置信度值和提取的所述声学特征输入角色向量函数中，通过所述角色向量函数计算出该音频段的角色向量值，对所有所述角色向量值进行分类，得到所述角色预测结果，所述角色预测结果包括至少两个角色标识码以及与各个所述角色标识码一一对应的角色向量预测值，所述角色向量预测值为对所有所述角色向量值分类筛选后划分出不同角色以及不同说话人的预测值，所述角色标识码为标识不用角色和不同说话人的码，所述角色标识码的格式可以包括角色和同一角色下的不同说话人的组合格，例如：客服01，客户01，客户02等等。

在一实施例中，如图6所示，所述步骤S40中，即所述对与各所述文本段对应的所述音频段进行声学特征提取，并根据与各所述文本段对应的所述角色标签、所述置信度值和提取的所述声学特征进行角色预测，得到与所述待分割对话数据对应的角色预测结果，包括：

S401，对所述音频段进行所述声学特征提取，提取出所述音频段的声学特征向量。

可理解地，提取所述x-vector特征为在MFCC特征的基础上增加噪声和混响信道特征的特征，提取所述声学特征的过程为将不定长的音频通过加该音频段的噪声和混响的信道信息进行数据扩充，然后经由深度神经网络映射成预设维度的特征向量的过程，将所述音频段经过所述声学特征提取后得到的所述音频段的声学特征向量。

S402，通过角色向量函数，对所述音频段的所述声学特征向量和与所述音频段对应的所述文本段对应的所述角色标签以及所述置信度值进行计算，得到与所述音频段对应的角色向量值和与所述角色向量值关联的所述角色标签。

可理解地，将与所述音频段对应的角色向量值和与所述音频段对应的所述角色标签进行关联，所述角色向量函数可以根据需求设定，优选地，所述角色向量函数为：

其中，

r_i是与序列为第x段的音频段对应的角色标签的角色向量值；

u_x是序列为第x段的音频段的声学特征向量；

c_x是序列为第x段的音频段的置信度值；

R_i是与序列为第x段的音频段对应的角色标签；

I(c_x＞threshold)是指示函数，在c_x＞threshold时，取值为1，在c_x≤threshold时，取值为0。

S403，对所有所述角色向量值和与其关联的所述角色标签分类筛选，得到分类结果。

可理解地，所述分类筛选为将相同角色标识的角色向量值进行筛选，通过聚类方式对相同角色标识的角色向量值进行分类，分类出不同所述角色标签下不同说话人的角色向量预测值，将得到的所有角色向量预测值确定为所述分类结果，所述分类结果为不同所述角色标签下不同说话人的角色向量预测值的汇总。

S404，对所述分类结果进行角色标识处理，得到所述角色预测结果。

可理解地，所述角色标识处理为根据所述角色标签对不同说话人进行标识的处理过程，即对一个所述角色向量预测值赋予一个结合所述角色标签的所述角色标识码的过程，将所述角色向量预测值和与该角色向量预测值对应的所述角色标识码的集合确定为所述角色预测结果。

本发明实现了通过对所述音频段进行所述声学特征提取，提取出所述音频段的声学特征向量；通过角色向量函数，对所述音频段的所述声学特征向量和与所述音频段对应的所述文本段对应的所述角色标签以及所述置信度值进行计算，得到与所述音频段对应的角色向量值和与所述角色向量值关联的所述角色标签；对所有所述角色向量值和与其关联的所述角色标签分类筛选，得到分类结果；对所述分类结果进行角色标识处理，得到所述角色预测结果，如此，实现了通过声学特征、角色向量函数以及分类筛选，能够快速地识别出不同角色不同说话人的角色标签码，提高了角色识别的准确性，以及提高了识别角色的效率。

S50，运用信道补偿算法，根据所述角色预测结果，对所述待分割对话数据进行分割处理，分割出与各所述角色标识码对应的对话片段。

可理解地，根据所述角色预测结果中的所述角色标识码和所述角色向量预测值，运用所述信道补偿算法，对所述待分割对话数据进行所述分割处理，所述分割处理为通过预设滑动窗进行平滑切割，切割出均分的待处理音频片段；根据所述角色预测结果中的所述角色标识码创建与其对应的角色档案；对各待处理音频片段进行所述声学特征提取，得到每个所述待处理音频片段的待分类特征向量；运用信道补偿算法，根据所述角色预测结果中的所有所述角色向量值和所述角色标签，对各所述待分类特征向量进行分类，得到与各所述待分类特征向量匹配的所述角色向量预测值；将与相同的所述角色向量预测值匹配的所述待处理音频片段存储至相应的所述角色档案中；按照时间顺序进行拼接，从而分割出与各所述角色档案对应的所述角色标识码对应的所述对话片段的过程。

其中，所述信道补偿算法即为PLDA算法，为减少所述声学特征中对说话人相关信道信息的干扰，使用信道补偿的目的是增大不同角色及说话人之间的离散度并且降低相同说话人的离散度，以此获得更高的区分性，提高分割的性能。

本发明实现了通过接收角色分割请求，获取所述角色分割请求中的包含至少两个角色的待分割对话数据；运用语音识别技术，对所述待分割对话数据进行识别以及文本段切割，划分出多个文本段和与所述文本段对应的音频段；对各所述文本段进行角色识别，得到与各所述文本段对应的识别结果；对与各所述文本段对应的所述音频段进行声学特征提取，并根据与各所述文本段对应的所述角色标签、所述置信度值和提取的所述声学特征进行角色预测，得到与所述待分割对话数据对应的角色预测结果；运用信道补偿算法，根据所述角色预测结果，对所述待分割对话数据进行分割处理，分割出与各所述角色标识码对应的对话片段，因此，实现了通过运用语音识别技术划分待分割对话数据，识别出多个文本段和与所述文本段对应的音频段，再通过角色识别以及声学特征提取，预测出待分割对话数据中的角色预测结果，最后运用信道补偿算法，分割出不同角色下的不同说话人的对话片段，能够结合对话数据中的声学特征和文本信息，准确地、科学地、快速地区分出对话数据中的角色及说话人，最终从对话数据分割出不同角色不同说话人的对话片段，提高了分割的鲁棒性，并提升了分割的准确率。

在一实施例中，所述步骤S50中，即所述运用信道补偿算法，根据所述角色预测结果，对所述待分割对话数据进行分割处理，分割出与各所述角色标识码对应的对话片段，包括：

获取预设滑动窗，并对所述待分割对话数据进行平滑切割，得到多个均分的待处理音频片段。

可理解地，所述预设滑动窗为预设音频帧范围内的窗口，例如1帧窗口、2帧窗口等等，对所述待分割对话数据均分成与所述预设滑动窗等长度的所述待处理音频片段。

根据所述角色预测结果，创建与各所述角色标识码一一对应的角色档案。

可理解地，根据所述角色预测结果中的所述角色标识码创建与其对应的角色档案。

对各所述待处理音频片段进行所述声学特征提取，得到各所述待处理音频片段的待分类特征向量。

可理解地，提取所述x-vector特征为在MFCC特征的基础上增加噪声和混响信道特征的特征，提取所述声学特征的过程为将不定长的音频通过加该音频段的噪声和混响的信道信息进行数据扩充，然后经由深度神经网络映射成预设维度的特征向量的过程，将所述待处理音频片段经过所述声学特征提取后得到的所述待处理音频片段的待分类特征向量。

运用信道补偿算法，根据所述角色预测结果中的所有所述角色向量预测值和与所述角色向量预测值关联的所述角色标签，对各所述待分类特征向量进行分类，得到与各所述待分类特征向量匹配的所述角色向量预测值。

可理解地，运用信道补偿算法，建立基于信道补偿的神经网络模型，该模型训练的目标就是输入音频数据集，输出可以最大程度上表示该音频数据集的各参数，即噪声空间维度和身份空间维度的参数，从而得到声纹函数的训练过程，运用基于信道补偿的神经网络模型对各所述待分类特征向量进行信道补偿，所述信道补偿为输入至训练完成的声纹函数中增加噪声空间的补充以及身份空间的补偿，通过将信道补偿后的所述待分类特征向量与各所述角色向量预测值进行匹配，匹配出与其最靠近的所述角色向量预测值，将与其最靠近的所述角色向量预测值确定为与该待分类特征向量匹配的所述角色向量预测值。

将与相同的所述角色向量预测值匹配的所述待分类特征向量对应的所述待处理音频片段存储至与其相应的所述角色档案中。

可理解地，将与相同的所述角色向量预测值匹配的所述待分类特征向量对应的所述待处理音频片段存储至与该角色向量对应的所述角色标识码对应的所述角色档案中。

将各所述角色档案按照时间顺序进行拼接，得到与各所述角色档案对应的所述角色标识码对应的所述对话片段。

本发明实现了通过获取预设滑动窗，并对所述待分割对话数据进行平滑切割，得到多个均分的待处理音频片段；根据所述角色预测结果，创建与各所述角色标识码一一对应的角色档案；对各所述待处理音频片段进行所述声学特征提取，得到各所述待处理音频片段的待分类特征向量；运用信道补偿算法，根据所述角色预测结果中的所有所述角色向量预测值和与所述角色向量预测值关联的所述角色标签，对各所述待分类特征向量进行分类，得到与各所述待分类特征向量匹配的所述角色向量预测值；将与相同的所述角色向量预测值匹配的所述待分类特征向量对应的所述待处理音频片段存储至与该角色向量对应的所述角色标识码对应的所述角色档案中；将各所述角色档案按照时间顺序进行拼接，得到与各所述角色档案对应的所述角色标识码对应的所述对话片段，如此，实现了运用信道补偿算法，减少所述声学特征中对说话人相关信道信息的干扰，使用信道补偿的目的是增大不同角色及说话人之间的离散度并且降低相同说话人的离散度，以此获得更高的区分性，提高分割的性能，更加准确地区分出不同的角色以及不同说话人的对话片段，提高了语音角色分割的准确性和可靠性。

在一实施例中，提供一种语音角色分割装置，该语音角色分割装置与上述实施例中语音角色分割方法一一对应。如图7所示，该语音角色分割装置包括接收模块11、切割模块12、识别模块13、预测模块14和分割模块15。各功能模块详细说明如下：

接收模块11，用于接收角色分割请求，获取所述角色分割请求中的待分割对话数据；所述待分割对话数据为至少两个角色的对话数据；

切割模块12，用于依次对所述待分割对话数据进行语音识别以及文本段切割，划分出多个文本段和与所述文本段一一对应的音频段；

识别模块13，用于通过基于N-gram的角色检测模型对各所述文本段进行角色识别，识别出与各所述文本段对应的困惑度值，并根据所有所述困惑度值确定与各所述文本段一一对应的识别结果；所述识别结果包括角色标签和置信度值；

预测模块14，用于对与各所述文本段对应的所述音频段进行声学特征提取，并根据与各所述文本段对应的所述角色标签、所述置信度值和提取的所述声学特征进行角色预测，得到与所述待分割对话数据对应的角色预测结果；所述角色预测结果包括至少两个角色标识码；

分割模块15，用于运用信道补偿算法，根据所述角色预测结果，对所述待分割对话数据进行分割处理，分割出与各所述角色标识码对应的对话片段。

关于语音角色分割装置的具体限定可以参见上文中对于语音角色分割方法的限定，在此不再赘述。上述语音角色分割装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是客户端或者服务端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机程序和数据库。该内存储器为可读存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音角色分割方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中语音角色分割方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中语音角色分割方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种语音角色分割方法，其特征在于，包括：

2.如权利要求1所述的语音角色分割方法，其特征在于，所述依次对所述待分割对话数据进行语音识别以及文本段切割，划分出多个文本段和与所述文本段一一对应的音频段，包括：

运用语音识别技术，对所述待分割对话数据进行识别，得到对话文本段；

运用双向长短期记忆网络和条件随机场的预测算法，对所述对话文本段进行文本段切割，划分出多个所述文本段以及与所述文本段对应的时间始末节点；

根据与各所述文本段对应的所述时间始末节点对所述待分割对话数据进行抽取，得到与各所述文本段对应的所述音频段。

3.如权利要求2所述的语音角色分割方法，其特征在于，所述运用双向长短期记忆网络和条件随机场的预测算法，对所述对话文本段进行文本段切割，划分出多个所述文本段，包括：

运用CNN网络和word2vec算法，对所述对话文本段进行向量转换，得到向量文本段；

运用双向长短期记忆网络，对所述向量文本段进行语义识别，得到文本结果；

运用条件随机场的预测算法，对所述文本结果进行词性标注和序列标注，得到标注文本结果；

对所述标注文本结果进行句子分割，得到多个所述文本段。

4.如权利要求1所述的语音角色分割方法，其特征在于，所述通过基于N-gram的角色检测模型对各所述文本段进行角色识别，识别出与各所述文本段对应的困惑度值，并根据所有所述困惑度值确定与各所述文本段一一对应的识别结果，包括：

将所述文本段输入基于N-gram的角色检测模型；

通过所述角色检测模型对所述文本段进行角色特征提取，并根据提取的所述角色特征，得到与各角色标签对应的困惑度值；

对所有所述困惑度值按照由小至大进行排序，将与序列第一的所述困惑度值对应的角色标签确定为与所述文本段对应的角色标签，以及根据排序后的所有所述困惑度值确定出与所述文本段对应的所述置信度值。

5.如权利要求4所述的语音角色分割方法，其特征在于，所述根据排序后的所有所述困惑度值确定出与所述文本段对应的所述置信度值，包括：

6.如权利要求1所述的语音角色分割方法，其特征在于，所述对与各所述文本段对应的所述音频段进行声学特征提取，并根据与各所述文本段对应的所述角色标签、所述置信度值和提取的所述声学特征进行角色预测，得到与所述待分割对话数据对应的角色预测结果，包括：

对所述音频段进行所述声学特征提取，提取出所述音频段的声学特征向量；

通过角色向量函数，对所述音频段的所述声学特征向量和与所述音频段对应的所述文本段对应的所述角色标签以及所述置信度值进行计算，得到与所述音频段对应的角色向量值和与所述角色向量值关联的所述角色标签；

对所有所述角色向量值和与其关联的所述角色标签分类筛选，得到分类结果；

对所述分类结果进行角色标识处理，得到所述角色预测结果；所述角色预测结果包括所述角色标识码和所述角色向量预测值。

7.如权利要求1所述的语音角色分割方法，其特征在于，所述运用信道补偿算法，根据所述角色预测结果，对所述待分割对话数据进行分割处理，分割出与各所述角色标识码对应的对话片段，包括：

获取预设滑动窗，并对所述待分割对话数据进行平滑切割，得到多个均分的待处理音频片段；

根据所述角色预测结果，创建与各所述角色标识码一一对应的角色档案；

对各所述待处理音频片段进行所述声学特征提取，得到各所述待处理音频片段的待分类特征向量；

运用信道补偿算法，根据所述角色预测结果中的所有所述角色向量预测值和与所述角色向量预测值关联的所述角色标签，对各所述待分类特征向量进行分类，得到与各所述待分类特征向量匹配的所述角色向量预测值；

将与相同的所述角色向量预测值匹配的所述待分类特征向量对应的所述待处理音频片段存储至与该角色向量对应的所述角色标识码对应的所述角色档案中；

8.一种语音角色分割装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述语音角色分割方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音角色分割方法。