CN114121023A

CN114121023A - 说话人分离方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN114121023A
Application number: CN202111446569.7A
Authority: CN
Inventors: 刘轶; 黄石磊; 程刚
Original assignee: PKU-HKUST SHENZHEN-HONGKONG INSTITUTION
Current assignee: PKU-HKUST SHENZHEN-HONGKONG INSTITUTION
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-03-01

Abstract

本申请涉及一种说话人分离方法，所述方法包括：获取待分离的语音信息，对待分离的语音信息进行初步分割，得到分离结果；对分离结果进行语音识别，得到分离语音内容，提取分离语音内容中的说话人转变点；提取分离结果的声纹特征和语义特征，并根据声纹特征和语义特征对分离结果进行说话人分类，得到标准分类结果；基于说话人转变点和标准分类结果对待分离的语音信息进行分类，得到目标分离结果。此外，本申请还涉及一种说话人分离方法、装置、设备及存储介质。本申请可解决说话人分离的准确度不够高的问题。

Description

说话人分离方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及语音处理领域，尤其涉及一种说话人分离方法、装置、电子设备及计算机可读存储介质。

背景技术

近年来，随着音频处理技术的不断提高，从海量的数据中，如电话录音、新闻广播、会议录音等，获取感兴趣的特定人声已成为研究热点。说话人分离技术是指从多人对话中自动地将语音依据说话人进行划分，并加以标记的过程，即解决的是“什么时候由谁说”的问题。

在说话人分离的过程当中，一般都是采用语音声学特征作为判决的依据，通过语音的音色信息来区分不同的说话人，然而当一段语音中两人的性别相同，音色接近的时候，往往容易导致分离错误。因此，采用语音声学特征进行说话人分离时的准确度不够高。

发明内容

本申请提供了一种说话人分离方法、装置、电子设备及存储介质，以解决说话人分离的准确度不够高的问题。

第一方面，本申请提供了一种说话人分离方法，所述方法包括：

获取待分离的语音信息，对所述待分离的语音信息进行初步分割，得到分离结果；

对所述分离结果进行语音识别，得到分离语音内容，提取所述分离语音内容中的说话人转变点；

提取所述分离结果的声纹特征和语义特征，并根据所述声纹特征和所述语义特征对所述分离结果进行说话人分类，得到标准分类结果；

基于所述说话人转变点和所述标准分类结果对所述待分离的语音信息进行分类，得到目标分离结果。

详细地，所述对所述待分离的语音信息进行初步分割，得到分离结果，包括：

利用基于门限判决的静音检测算法识别所述待分离的语音信息中的静音段，并将剔除所述静音段后的语音信息按照时间顺序拼接为标准语音段；

提取所述标准语音段中的音频特征，并计算所述音频特征中相邻数据窗之间的相似度；

将所述相似度小于预设阈值的相邻数据窗判定为分割点，并基于所述分割点对所述待分离的语音信息进行划分，得到分离结果。

详细地，所述利用基于门限判决的静音检测算法识别所述待分离的语音信息中的静音段，包括：

对所述待分离的语音信息进行分帧处理，并计算每一帧语音信息对应的能量；

确定所述能量小于预设的能量门限的语音信息为静音段。

详细地，所述对所述分离结果进行语音识别之前，所述方法还包括：

获取多个训练语音信号样本及多个所述训练语音信号样本对应的语音特征块；

采用待训练的语音识别模型对多个所述训练语音信号样本对应的语音特征块分别进行识别，得到每个训练语音信号样本的预测文本序列；

根据每个训练语音信号样本对应的预测文本序列对待训练的语音识别模型进行训练，直至达到预设的收敛条件，生成语音识别模型；

所述对所述分离结果进行语音识别，包括：

利用所述语音识别模型对所述分离结果进行语音识别。

详细地，所述提取所述分离语音内容中的说话人转变点，包括：

对所述分离语音内容进行语音分词，得到分词结果；

标记所述分词结果的属性信息，并对所述分离结果进行表征信息采集，得到表征分离信息；

将所述属性信息和所述表征分离信息输入至预训练好的说话人转变识别模型中，得到所述分离语音内容中的说话人转变点。

详细地，所述对所述分离结果进行表征信息采集，得到表征分离信息，包括：

提取所述分离结果中的文本表征、置信度表征和语音特征表征；

将所述文本表征、所述置信度表征和所述语音特征表征进行拼接处理，得到表征分离信息。

详细地，所述对所述待分离的语音信息进行初步分割之前，所述方法还包括：

对所述待分离的语音信息进行去噪处理。

第二方面，本申请提供了一种说话人分离装置，所述装置包括：

初步分割模块，用于获取待分离的语音信息，对所述待分离的语音信息进行初步分割，得到分离结果；

转变点提取模块，用于对所述分离结果进行语音识别，得到分离语音内容，提取所述分离语音内容中的说话人转变点；

说话人分类模块，用于提取所述分离结果的声纹特征和语义特征，并根据所述声纹特征和所述语义特征对所述分离结果进行说话人分类，得到标准分类结果；

语音分离模块，用于基于所述说话人转变点和所述标准分类结果对所述待分离的语音信息进行分类，得到目标分离结果。

第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一项实施例所述的说话人分离方法的步骤。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的说话人分离方法的步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本发明实施例对待分离的语音信息进行了初步分割，得到分离结果，所述初步分割对待分离的语音信息进行了初次分割，为后续进行转变识别等操作提供了数据基础，对所述分离结果进行语音识别及提取语音识别后的分离语音内容中的说话人转变点，得到所述分离语音内容中的说话人转变点，再根据提取出来的声纹特征和语义特征对所述分离结果进行说话人分类，得到标准分类结果。根据说话人转变点和标准分类结果得到目标分离结果。融合说话人转变点、底层声学特征以语义特征进行说话人分离，提高说话人分离的准确性。因此本发明提出的说话人分离方法、装置、电子设备及计算机可读存储介质，可以解决说话人分离的准确度不够高的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种说话人分离方法的流程示意图；

图2为本申请实施例提供的一种说话人分离的装置的模块示意图；

图3为本申请实施例提供的一种说话人分离的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种说话人分离方法的流程示意图。在本实施例中，所述说话人分离方法包括：

S1、获取待分离的语音信息，对所述待分离的语音信息进行初步分割，得到分离结果。

本发明实施例中，所述待分离的语音信息可以为通话过程中或者会议视频中存在多个说话者进行对话的语音数据，具体地，可以通过录音机等音频设备进行录制获取。

具体地，所述对所述待分离的语音信息进行初步分割之前，所述方法还包括：

对所述待分离的语音信息进行去噪处理。

详细地，在待分离的语音信息中可能包括各种类型的噪音，例如，咳嗽的声音，笑声和其他杂声等，可以基于能量检测以及基于信道交叉作用等方式进行去噪处理。

进一步地，所述对所述待分离的语音信息进行初步分割，得到分离结果，包括：

详细地，所述待分离的语音信息中包含噪音、静音段和不同音色的说话人语音，所述初步分割得到的分离结果中包含将相同音色的说话人的语音信息划分到一起的语音段，其中，所述初步分割得到的分离结果已经去除了噪音和静音段。

具体地，所述利用基于门限判决的静音检测算法识别所述待分离的语音信息中的静音段，包括：

确定所述能量小于预设的能量门限的语音信息为静音段。

详细地，所述分帧处理可以将待分离的语音信息划分为预设帧数的多个分帧。

进一步地，所述计算每一帧语音信息对应的能量，包括：

利用如下计算公式计算每一帧语音信息对应的能量：

其中，T(m)为每一帧语音信息对应的能量，p(k)为功率谱，H(k)为三角滤波器的频率响应，N为帧的大小，k为短时频谱上的预设参数。

进一步地，提取所述标准语音段中的音频特征，所述音频特征可以为梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients，MFCCs)及其一阶差分(Delta-MFCCs)的音频特征。将所述标准语音段中各个部分的语音信息对应的音频特征分别进行汇总，得到各个部分的语音信息对应的相邻数据窗，利用预设的相似度计算公式计算各个相邻数据窗之间的相似度，并将所述相似度小于预设阈值的相邻数据窗判定为分割点，以所述分割点为基础对所述待分离的语音信息进行划分，得到分离结果。

S2、对所述分离结果进行语音识别，得到分离语音内容，提取所述分离语音内容中的说话人转变点。

本发明实施例中，所述对所述分离结果进行语音识别之前，所述方法还包括：

所述对所述分离结果进行语音识别，包括：

利用所述语音识别模型对所述分离结果进行语音识别。

详细地，所述语音特征块是通过将所述训练语音信号样本转换为语音特征序列，并通过预设的分块方式对每个训练语音信号样本对应的语音特征序列进行划分，将每个训练语音信号样本对应的语音特征序列划分成多个语音特征块。其中，分块方式可以是将每个训练语音特征序列划分成预设数量的多个语音特征块，或者将每个训练语音特征序列划分成具有相同时间长度的多个语音特征块。

本发明实施例中，所述分离结果只是从音色的角度进行分离，但是当两个通话人的音色十分接近时，仅仅通过音色的特征很难将两个通话人分离时，在说话人分离过程中除了利用传统的底层声学特征在音色上进行说话人分离，还通过提取所述分离语音内容中的说话人转变点，以所述说话人转变点作为说话人分离的参考。

具体地，所述提取所述分离语音内容中的说话人转变点，包括：

对所述分离语音内容进行语音分词，得到分词结果；

其中，通过预先获取的待识别文本对待训练的说话人转变模型进行训练，利用所述说话人转变模型对所述待识别文本进行文本内容进行区分转变点，并将区分转变点后的结果与预先获取的真实转变结果进行比对，根据比对结果对所述说话人转变模型进行优化调整，得到预训练好的说话人转变识别模型。

详细地，利用基准分词器对所述分离语音内容进行语音分词，得到分词结果。或者利用基于字符串匹配的分词方法、通过语音文本与词典词汇的匹配、预设分词模型进行语音分词。其中，所述基准分词器包括但不限于Jieba分词器等。标记所述分词结果的属性信息，得到包含所述分词结果对应的分词词性和分词词义的属性信息，

进一步地，所述对所述分离结果进行表征信息采集，得到表征分离信息，包括：

详细地，可以通过将所述分离结果通过第一预设表征提取模型提取文本表征，确定所述分离结果中每个字的字边界，将所述字边界输入第二预设表征提取模型提取语音特征表征，识别所述分离结果的每个字的识别置信度向量，获取预设置信度向量矩阵，并根据所述识别置信度向量和所述预设置信度向量矩阵确定置信度向量表征。

其中，通过采用预设表征提取模型提取出所述分离结果中的文本表征、语音特征表征和置信度表征，可以增强说话人转变点识别模型的信息源，有利于提高判断说话人转变点的准确率。

例如，所述分离语音内容为：“喂您好请问有什么可以帮您你好我想查一下话费好的请您稍等”。利用所述预训练好的说话人转变识别模型可以识别出所述分离语音内容中的问候语，其中，想“您好”或者“你好”之类的问候语即本例中的说话人转变点。具体地，还可以通过说话人的说话习惯进行说话人转变点的检测，例如“喂您好请问有什么可以帮您你好我想查一下话费好的请您稍等”中，通过对对方的称呼为“您”和“你”，明显可以检测出是不同的说话人。

S3、提取所述分离结果的声纹特征和语义特征，并根据所述声纹特征和所述语义特征对所述分离结果进行说话人分类，得到标准分类结果。

本发明一实施例中，利用预设的声纹特征提取模块对所述分离结果进行提取声纹特征操作，得到所述分离结果的声纹特征，利用预设的语义特征提取模块对所述分离结果进行提取语义特征操作，得到所述分离结果的语义特征。

具体地，所述根据所述声纹特征和所述语义特征对所述分离结果进行说话人分类，得到标准分类结果，包括：

利用预设的特征融合模块将所述声纹特征和所述语义特征进行特征融合，得到分类特征；

基于所述分类特征对所述分离结果进行特征分类，得到标准分类结果。

详细地，所述特征融合模块为包含输入门、遗忘门、输出门和语义门的循环神经网络。

进一步地，基于所述分类特征对所述分离结果进行特征分类是对所述分离结果依据其对应的说话人分类特征进行分类，以得到至少一个类别的标准分类结果。

例如，所述分离结果为“喂您好请问有什么可以帮您你好我想查一下话费”，由于所述分离结果是基于音色进行分割，故有可能会将两个音色相近的不同说话人的语音信息分割到一起，因此可以通过提取所述分离结果中的声纹特征和语义特征，并对所述声纹特征和语义特征进行特征融合，得到分类特征，基于所述分类特征对所述分离结果进行特征分类，得到标准分类结果为“喂”、“您好，请问有什么可以帮您？”、“你好我想查一下话费”。

其中，根据所述声纹特征和所述语义特征对所述分离结果进行说话人分类可以结合声纹信息和语义信息进行分类，使得分类的结果更加准确，并且避免出现将音色相近或者相似的两个说话人的语音划分到一起的情况。

S4、基于所述说话人转变点和所述标准分类结果对所述待分离的语音信息进行分类，得到目标分离结果。

本发明实施例中，以所述说话人转变点和所述标准分类结果作为参考标准对所述待分离的语音信息进行最终的分类，得到目标分离结果。所述标准分类结果是集合了声纹特征和语义特征进行的说话人分类，根据所述说话人转变点和所述标准分类结果进行说话人分离，可以提高说话人分离判别的准确度。

具体地，基于所述说话人转变点对所述待分离的语音信息进行初步的分离，再以所述标准分类结果作为参考标准对利用说话人转变点进行分离后的语音信息进行再一次分类，得到待分离语音信息的目标分离结果。

例如，所述待分离的语音信息为“喂您好请问有什么可以帮您你好我想查一下话费好的请您稍等”。确定所述待分离的语音信息中的说话人转变点为“您好”或者“你好”，将所述待分离的语音信息暂时划分为“喂您好请问有什么可以帮您。”和“你好我想查一下话费好的请您稍等”。以所述标准分类结果作为参考标准对利用说话人转变点进行分离后的语音信息进行再一次分类，若所述标准分类结果为“喂”、“您好，请问有什么可以帮您？”、“你好我想查一下话费”。因此最后得到的目标分离结果为“喂”、“您好，请问有什么可以帮您？”、“你好我想查一下话费”、“好的请您稍等”。

本发明实施例对待分离的语音信息进行了初步分割，得到分离结果，所述初步分割对待分离的语音信息进行了初次分割，为后续进行转变识别等操作提供了数据基础，对所述分离结果进行语音识别及提取语音识别后的分离语音内容中的说话人转变点，得到所述分离语音内容中的说话人转变点，再根据提取出来的声纹特征和语义特征对所述分离结果进行说话人分类，得到标准分类结果。根据说话人转变点和标准分类结果得到目标分离结果。融合说话人转变点、底层声学特征以语义特征进行说话人分离，提高说话人分离的准确性。因此本发明提出的说话人分离方法，可以解决说话人分离的准确度不够高的问题。

如图2所示，本申请实施例提供了一种说话人分离装置10的模块示意图，所述说话人分离装置10，包括：所述初步分割模块11、所述转变点提取模块12、所述说话人分类模块13和所述语音分离模块14。

所述初步分割模块11，用于获取待分离的语音信息，对所述待分离的语音信息进行初步分割，得到分离结果；

所述转变点提取模块12，用于对所述分离结果进行语音识别，得到分离语音内容，提取所述分离语音内容中的说话人转变点；

所述说话人分类模块13，用于提取所述分离结果的声纹特征和语义特征，并根据所述声纹特征和所述语义特征对所述分离结果进行说话人分类，得到标准分类结果；

所述语音分离模块14，用于基于所述说话人转变点和所述标准分类结果对所述待分离的语音信息进行分类，得到目标分离结果。

详细地，本申请实施例中所述说话人分离装置10中的各模块在使用时采用与上述的图1中所述的说话人分离方法一样的技术手段，并能够产生相同的技术效果，这里不再赘述。

如图3所示，本申请实施例提供了一种电子设备，包括处理器111、通信接口112、存储器113和通信总线114，其中，处理器111、通信接口112、存储器113通过通信总线114完成相互间的通信；

存储器113，用于存放计算机程序；

在本申请一个实施例中，处理器111，用于执行存储器113上所存放的程序时，实现前述任意一个方法实施例提供的说话人分离方法，包括：

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的说话人分离方法的步骤。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种说话人分离方法，其特征在于，所述方法包括：

2.根据权利要求1所述的说话人分离方法，其特征在于，所述对所述待分离的语音信息进行初步分割，得到分离结果，包括：

3.根据权利要求2所述的说话人分离方法，其特征在于，所述利用基于门限判决的静音检测算法识别所述待分离的语音信息中的静音段，包括：

确定所述能量小于预设的能量门限的语音信息为静音段。

4.根据权利要求1所述的说话人分离方法，其特征在于，所述对所述分离结果进行语音识别之前，所述方法还包括：

所述对所述分离结果进行语音识别，包括：

利用所述语音识别模型对所述分离结果进行语音识别。

5.根据权利要求1所述的说话人分离方法，其特征在于，所述提取所述分离语音内容中的说话人转变点，包括：

对所述分离语音内容进行语音分词，得到分词结果；

6.根据权利要求5所述的说话人分离方法，其特征在于，所述对所述分离结果进行表征信息采集，得到表征分离信息，包括：

7.根据权利要求1至4中任一项所述的说话人分离方法，其特征在于，所述对所述待分离的语音信息进行初步分割之前，所述方法还包括：

对所述待分离的语音信息进行去噪处理。

8.一种说话人分离装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一项所述的说话人分离方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的说话人分离方法的步骤。