CN108735200A

CN108735200A - 一种说话人自动标注方法

Info

Publication number: CN108735200A
Application number: CN201810673628.6A
Authority: CN
Inventors: 庞在虎; 张志平; 陈博; 朱风云
Original assignee: Beijing Spirit With Real-Time Intelligence Science And Technology Ltd Co
Current assignee: Beijing Spirit With Real-Time Intelligence Science And Technology Ltd Co
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2018-11-02
Anticipated expiration: 2038-06-27
Also published as: CN108735200B

Abstract

本发明属于语音信号处理领域，具体涉及一种说话人自动标注方法，目的是提高说话人角色标注的准确性。该方法包括：对待标注的语音进行语音识别，得到文字内容以及静音段位置，并根据静音段位置将语音切分成多个短句；利用预先配置的基于内容的角色模型以及上述识别结果，对各个短句进行角色置信度打分，用得分高的短句语音构成其对应的角色语音数据集合；将当前各角色集合中的语音作为训练数据，得到该角色的说话人识别模型；利用说话人识别模型对其它短句打分，将满足要求的句子语音标记为相应的角色，并加入到该角色语音数据集合中，并更新说话人识别模型；利用更新后的模型对剩余的句子进行说话人识别，从而得到角色标注结果。

Description

一种说话人自动标注方法

技术领域

本发明属于语音信号处理领域，具体涉及一种说话人自动标注方法。

背景技术

说话人标注是将多人对话语音中的各个说话人的相关属性标注出来，主要包括语音中的说话人个数、每个说话人语音的起止时间，以及在对话中所处的角色等。说话人标注技术在语音文档信息挖掘、移动交互、身份验证、音频监控等领域有着广泛的应用前景；尤其适用于参与对话的说话人具有明显角色特点的场景，如语音客服、法庭辩护、电视采访等语音对话场景。

现有方法在对说话人语音建模并自动分类的基础上进行说话人分隔和角色标注。其前提是假设各个说话人的声纹特征之间存在较大差异并足以区分，并且还需要事先进行说话人注册，以指定某一说话人对应某种角色。当处理一段语音时，先识别说话人身份，再根据该说话人注册的信息得到其对应的角色。

说话人识别通常采用统计建模方法，一般包括训练阶段和识别阶段。在训练阶段，系统首先对提供的若干训练语音进行静音剔除和降噪处理，尽可能得到纯净有效的语音片段，然后再对这些语音提取对应的声学特征参数，根据系统的建模算法，得到说话人的特征模型。每个说话人对应的训练语音经过训练阶段后得到一个说话人模型。识别阶段就是模式匹配的过程，主要任务是将输入的待识别说话人语音与说话人模型集合中所有模型进行匹配，根据最优的匹配结果，判定待识别语音的说话人身份。

但现有方法存在很多限制和缺点。首先，事先获取说话人音频信息并进行说话人注册在实际应用场合中比较困难。例如，电话业务中拨打客服电话的可能是任何一个客户或潜在客户。其次，不同角色的说话人声纹特征相似的情况比较常见，这样就很难依靠说话人声音特点来准确辨别其身份。再次，同一说话人在不同的语音对话中可能担任不同的角色，例如在电话客服业务中，平时的客服人员也可能作为客户出现。因此，说话人一经注册便角色固定的假定在现实应用中也是不切实际的。

由于现有方法的不足，因此需要一种说话人自动标注方法，能够避免说话人注册过程，并且能够在不同角色的说话人声纹差别较小的情况下进行准确的角色标注。

发明内容

本发明提供一种说话人自动标注方法，避免了说话人注册过程，并且能够在不同角色的说话人声纹差别较小的情况下进行准确的角色标注。

本发明提供的一种说话人自动标注方法，包括如下步骤：

步骤一、对待标注的语音进行语音识别，得到文字内容以及静音段位置，并根据静音段位置将语音切分成多个短句；

步骤二、利用预先配置的基于内容的角色模型以及识别出的文字内容，对各个短句进行角色置信度打分，将得分达到要求的短句语音构成其对应角色的语音数据集合；

步骤三、将当前各角色集合中的语音作为训练数据，得到各角色的说话人识别模型；

步骤四、利用步骤三得到的说话人识别模型对其它短句打分，将得分达到要求的语音标记为相应角色，并加入到该角色语音数据集合中，将剩余的短句加入到待标注集合；

步骤五、利用经步骤四更新的角色集合对各个角色进行说话人识别模型更新；

步骤六、利用更新后的模型对待标注集合中的语音进行说话人识别，从而得到角色标注结果。

如上所述的一种说话人自动标注方法，其中：步骤一中，所述文字内容的识别方法为大词汇连续语音识别方法。

如上所述的一种说话人自动标注方法，其中：步骤一中，所述检测静音段的方法为语音识别方法，将静音作为一个特殊音子来识别，并得到起止时间。

如上所述的一种说话人自动标注方法，其中：步骤二中，所述基于内容的角色模型利用文字内容，并采用模糊匹配、关键词匹配、统计机器学习方法或深度学习方法构建。

如上所述的一种说话人自动标注方法，其中：步骤二和步骤四中，所述得分达到要求是指最优角色置信分数最高或分数大于某一预设阈值。

如上所述的一种说话人自动标注方法，其中：步骤三中，所述说话人识别模型采用基于UBM-GMM（Universal Background Model-Gaussian Mixture Model）的i-vector模型方法训练得到。

如上所述的一种说话人自动标注方法，其中：步骤四中所述得分达到要求还包括语句长度大于某一预设阈值。

如上所述的一种说话人自动标注方法，其中：当所述角色为N时，步骤二中预先配置的角色模型数为N个或N-1个。

本发明提供的另外一种说话人自动标注方法，包括如下步骤：

步骤一、已知待标注的语音保含A、B两个角色，首先进行语音识别，得到文字内容以及静音段位置，并根据静音段位置将语音切分成多个短句首先检测其中的静音段，利用静音段将语音切分成多个短句；

步骤二、利用预先配置的基于内容的A角色模型以及识别出的文字内容，对各个短句进行角色置信度打分，用得分达到要求的短句语音构成A角色语音数据集合；

步骤三、将当前A角色集合中的语音作为训练数据，得到A角色的说话人识别模型；

步骤四、利用步骤三得到的A角色说话人识别模型对其它短句打分，将得分超过一定阈值且语句长度超过一定阈值的短句标记为A角色，加入到A角色语句集合；将得分低于一定阈值且语句长度超过一定阈值的短句标记为B角色，加入到B角色语句集合；将剩余的短句加入到待标注集合；

步骤五、利用经步骤四更新的角色集合对两个角色进行说话人识别模型更新；

步骤六、利用更新后的模型对待标注集合中的语音进行说话人识别，从而得到角色A和B的标注结果。

与现有技术相比，本发明具有以下优点:

本发明将不同角色的语言特点作为解决问题的出发点，首先对不同角色预设内容相关的角色模型（例如使用关键词或关键句），再通过语音识别得到语音对应的文字内容，并根据内容相关的角色模型确定说话人角色。该方法无需进行说话人注册，并且能够在不同角色的说话人声纹差别较小的情况下进行准确的角色标注。

文本相关的角色模型可以是关键词或关键句，也可以是通过统计学习、深度学习等方法对角色相应的文本数据训练得到角色模型。

通过利用静音点切分句子有助于准确的标注说话人变换时刻，因为静音点尤其是较长时间间隔的静音片段是划分语音句子的候选位置，同时也是说话人变换的可能位置。

基于UBM-GMM的i-vector模型是主流的说话人识别的建模方法，具有更高的区分度，能够区分说话人之间比较精细的差距，对提高说话人的标注有很大帮助。

通过角色模型初始标注数据，以此数据建立说话人模型，保证了模型的准确性，并结合迭代优化策略，提高标注的准确性。

通过利用置信度得分较高的数据学习或更新说话人模型，有利于提高说话人模型的鲁棒性，结合迭代优化模型和标注数据的策略逐渐完成所有数据的标注，以达到更好的标注效果。

通过预设说话人识别模型得分阈值和语句长度阈值来标记语句并更新训练数据，即先标注较高置信且时长较长的句子，完善说话人识别模型，再标注置信度相对低且时长较短的句子，使模型训练过程更加稳定，避免快速学习而带来的错误。

本发明对较短语音、且内容无明确角色指向的句子，具有更高的说话人标注准确性，如：“对”、“是”等。

附图说明

图1是本发明第一实施例提供的一种说话人自动标注方法的流程示意图。

具体实施方式

如图1所示，本发明提供的一种说话人自动标注方法的一种实施例包括如下步骤：

步骤一、对待标注的语音进行语音识别，得到文字内容以及静音段位置，并根据静音段位置将语音切分成多个短句。

为获得更准确的结果，可以采用基于音素的语音识别系统获取语音中的音素以及静音的起止时间。

利用静音部分将语音切分成多个短句，将静音点作为可能的说话人变换点，以便进行后续的说话人标注。

步骤二、识别出各个短句的文字内容，利用预先训练的内容相关角色模型对各个短句进行角色置信度打分，用得分达到要求的句子语音构成其对应角色的语音数据集合。

通过预设的基于内容的角色模型得到角色对应的置信度高于预设阈值的语句。若有N个说话人角色，则角色模型可包括N-1个角色，第N个角色采用排除的方式得到。

预设的角色模型可以是不同角色对应的标识句或词，然后利用模糊匹配得到不同角色的标识句标注，也可以利用各角色的文本数据训练相应的统计模型。

角色模型的获得方法包括且不限于模糊匹配、关键词匹配、统计机器学习、深度学习等利用文字序列或词序列相关特征来获得说话人角色模型的方法。

可利用大词汇连续语音识别系统识别文字内容。

为得到相应角色的说话人识别模型，可采用基于UBM-GMM的i-vector模型方法。首先，预先训练表示说话人语音空间的UBM-GMM模型和i-vector模型；预先训练的UBM和i-vector模型可以使用多个任意说话人的语音来训练，训练时说话人数目越多越好，无需与待标注的语音数据相关。然后，根据角色集合中的训练数据，得到相应角色的i-vector模型。

步骤四、利用步骤三得到的说话人标注模型对其它短句打分，将得分达到要求的语音标记为相应角色，加入到该角色语音数据集合，将剩余的短句加入到待标注集合；

打分时，可将得分大于一定阈值且语句长度大于一定阈值的语音标记为相应角色，加入到该角色语句集合。因为语句较长的句子获得的置信度得分通常更加可信，可以使角色标注更加准确。

步骤五、利用步骤四更新的角色集合对各个角色进行说话人识别模型更新。更新后，每个模型的训练数据相对初始时刻更加鲁棒。

还可以采用预先训练的性别模型对各个句子进行性别标注，使标注内容更全面。

本发明提供的另一实施例，以两种角色-电话语音服务坐席和客户-之间的通话语音为例进行说明，包括如下步骤：

步骤一、已知待标注的语音保含A、B两个角色，首先进行语音识别，得到文字内容以及静音段位置，并根据静音段位置将语音切分成多个短句;

步骤二、利用预先训练的坐席角色模型及内容识别结果对各个短句进行角色置信度打分，用得分达到要求的短句语音构成坐席角色语音数据集合。例如，坐席的关键句通常是“先生/女士，您好！请问有什么可以帮您”，角色模型的获得方法包括且不限于模糊匹配、关键词匹配、统计机器学习、深度学习等利用文字序列或词序列相关特征来获得说话人角色相关模型的方法。

由于只有两个说话人角色，利用排除法，则无需预设客户的角色模型。

步骤三、将坐席角色集合中的语音作为训练数据，得到坐席识别模型；

步骤四、利用步骤三得到的坐席识别模型对其它短句进行打分，将得分超过一定阈值且语句长度超过一定阈值的句子标记为“坐席”，加入到坐席语音数据集合中；将得分低于一定阈值且语句长度超过一定阈值的句子标记为“客户”。

将剩余的得分居中、或者较短的语句加入到待标注集合。长的语句相对模型稳定性高，得分可靠性高，这类语句是首先标注的。而对于语句较短的句子最后标注，即待角色模型相对更稳定时再标注。

步骤五、利用步骤四中更新的语音数据集合对两个角色进行说话人识别i-vector模型更新；

步骤六、利用更新后的说话人识别模型对待标注集合中的短句进行说话人识别，从而得到坐席或客户的角色标注结果。

还可以采用预先训练的性别模型对各个句子进行性别标注，使标注内容更加全面和丰富。

实验时，选取10个电话订票录音作为说话人标注的测试数据，平均时长3分钟。说话人标注为四类：坐席（男）、坐席（女）、客户（男）、客户（女），对录音进行说话人标注后统计各类别正确率，正确率达到96.89%。

在实际通话中参与通话的说话人所说内容跟其通话角色有直接的关系，本专利引入内容线索，利用说话内容与对话角色的关系对说话人角色进行初始建模。进一步基于同一说话人在通话过程中音色保持一致这一事实得到完整的标注结果。该方法无需进行说话人注册，较传统方法相比有更好的可推广性。

本发明虽然以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以做出可能的变动和修改，因此本发明的保护范围应当以本发明权利要求所界定的范围为准。

Claims

1.一种说话人自动标注方法，包括如下步骤：

步骤二、利用预先配置的基于内容的角色模型以及步骤一识别出的文字内容，对各个短句进行角色置信度打分，将得分达到要求的短句语音构成其对应角色的语音数据集合；

2.如权利要求1所述的一种说话人自动标注方法，其特征在于：步骤一中，所述文字内容的识别方法为大词汇连续语音识别方法。

3.如权利要求1所述的一种说话人自动标注方法，其特征在于：步骤一中，所述静音段检测与语音内容识别均在识别过程中完成，即将静音作为一个特殊音子来识别，并得到起止时间。

4.如权利要求1所述的一种说话人自动标注方法，其特征在于：步骤二中，所述基于内容的角色模型利用文字内容，并采用模糊匹配、关键词匹配、统计机器学习方法或深度学习方法构建。

5.如权利要求1所述的一种说话人自动标注方法，其特征在于：步骤二和步骤四中，所述得分达到要求是指最优角色置信分数最高或分数大于某一预设阈值。

6.如权利要求1所述的一种说话人自动标注方法，其特征在于：步骤三中，所述说话人识别模型采用基于UBM-GMM的i-vector模型方法训练得到。

7.如权利要求5所述的一种说话人自动标注方法，其特征在于：步骤四中所述得分达到要求还包括语句长度大于某一预设阈值。

8.如权利要求1所述的一种说话人自动标注方法，其特征在于：当所述角色为N时，步骤二中预先配置的角色模型数为N个或N-1个。

9.一种说话人自动标注方法，包括如下步骤：

步骤一、已知待标注语音中包含A、B两个角色，首先进行语音识别，得到文字内容以及静音段位置，并根据静音段位置将语音切分成多个短句；

步骤二、利用预先配置的基于内容的A角色模型以及步骤一识别出的文字内容，对各个短句进行角色置信度打分，用得分达到要求的短句语音构成A角色语音数据集合；

步骤四、利用步骤三得到的A角色识别模型对其它短句打分，将得分超过一定阈值且语句长度超过一定阈值的短句标记为A角色，加入到A角色语句集合；将得分低于一定阈值且语句长度超过一定阈值的短句标记为B角色，加入到B角色语句集合；将剩余的短句加入到待标注集合；

步骤六、利用更新后的模型对待标注集合中的短句进行说话人识别，从而得到角色A和B的标注结果。

10.如权利要求9所述的一种说话人自动标注方法，其特征在于：步骤二中，所述基于内容的角色模型利用文字内容，并采用模糊匹配、关键词匹配、统计机器学习方法或深度学习方法构建。