CN107545898B

CN107545898B - 一种区分说话人语音的处理方法及装置

Info

Publication number: CN107545898B
Application number: CN201710667697.1A
Authority: CN
Inventors: 王东; 李蓝天; 张之勇
Original assignee: Beijing Furui Xingchen Intelligent Technology Co ltd; Tsinghua University
Current assignee: Beijing Furui Xingchen Intelligent Technology Co ltd; Tsinghua University
Priority date: 2017-08-07
Filing date: 2017-08-07
Publication date: 2020-07-14
Anticipated expiration: 2037-08-07
Also published as: CN107545898A

Abstract

本发明实施例提供一种区分说话人语音的处理方法及装置，所述方法包括：获取包含有不同说话人的语音帧；根据所述语音帧和预先训练过的特征提取模型，获取说话人特征；根据所述说话人特征和收敛到一个最大似然解的高斯混合模型，计算每个语音帧对应的说话人特征x_t对每个高斯成分M_i的条件概率P(x_t|M_i)，其中，每个高斯成分对应一个待区分的说话人，1<M_i≤K，K为所述高斯成分的总数；将最大的条件概率P(x_t|M_i)对应的高斯成分M_j所表示的待区分说话人确定为说话人特征x_t对应的语音帧所属的说话人。所述装置执行上述方法。本发明实施例提供的区分说话人语音的处理方法及装置，通过获取说话人特征，并根据基于说话人特征建立的模型，能够稳定有效地区分说话人语音。

Description

一种区分说话人语音的处理方法及装置

技术领域

本发明实施例涉及语音识别技术领域，具体涉及一种区分说话人语音的处理方法及装置。

背景技术

区分说话人语音对通话质量检测、场景分析、语音识别自适应等都有重要实用价值。例如：将客服电话录音分成客服和客户声音，将会议录音分成不同说话人的说话片段。

现有的区分说话人语音的方法有：通过检测说话人切换点(Speaker Turn)，将语音信号切分成仅包含一个说话人发音的句子，再通过聚类方法将属于同一个人的句子聚成一类；另一种方法是模型法，首先对每个说话人训练单独模型，再根据某一语音帧对每个模型的概率将该语音帧分到某个说话人模型。这两种方法的显著缺陷是它们都基于初级声学特征，例如：梅尔频率倒谱系数(Mel-frequency cepstral coefficients，以下简称“MFCC”)，对模型参数的选择较为敏感，不能较为稳定地对说话人语音进行有效区分。

因此，如何稳定、有效地区分说话人语音，成为亟须解决的问题。

发明内容

针对现有技术存在的问题，本发明实施例提供一种区分说话人语音的处理方法及装置。

第一方面，本发明实施例提供一种区分说话人语音的处理方法，所述方法包括：

获取包含有不同说话人的语音帧；

根据所述语音帧和预先训练过的特征提取模型，获取说话人特征；

根据所述说话人特征和收敛到一个最大似然解的高斯混合模型，计算每个语音帧对应的说话人特征x_t对每个高斯成分M_i的条件概率P(x_t|M_i)，其中，每个高斯成分对应一个待区分的说话人，1<M_i≤K，K为所述高斯成分的总数，以表示待区分说话人的人数；

将最大的条件概率P(x_t|M_i)对应的高斯成分M_j所表示的待区分说话人确定为说话人特征x_t对应的语音帧所属的说话人。

第二方面，本发明实施例提供一种区分说话人语音的处理装置，所述装置包括：

第一获取单元，用于获取包含有不同说话人的语音帧；

第二获取单元，用于根据所述语音帧和预先训练过的特征提取模型，获取说话人特征；

计算单元，用于根据所述说话人特征和收敛到一个最大似然解的高斯混合模型，计算每个语音帧对应的说话人特征x_t对每个高斯成分M_i的条件概率P(x_t|M_i)，其中，每个高斯成分对应一个待区分的说话人，1<M_i≤K，K为所述高斯成分的总数，以表示待区分说话人的人数；

确定单元，用于将最大的条件概率P(x_t|M_i)对应的高斯成分M_j所表示的待区分说话人确定为说话人特征x_t对应的语音帧所属的说话人。

第三方面，本发明实施例提供另一种区分说话人语音的处理装置，包括：处理器、存储器和总线，其中：

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如下方法：

获取包含有不同说话人的语音帧；

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，包括：

所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如下方法：

获取包含有不同说话人的语音帧；

本发明实施例提供的区分说话人语音的处理方法及装置，通过获取说话人特征，并根据基于说话人特征建立的模型，能够稳定、有效地区分说话人语音。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例区分说话人语音的处理方法流程示意图；

图2为本发明实施例包含两个说话人的高斯混合模型区分说话人语音的效果图；

图3为本发明实施例区分说话人语音的处理装置结构示意图；

图4为本发明实施例提供的装置实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例区分说话人语音的处理方法流程示意图，如图1所示，本发明实施例提供的一种区分说话人语音的处理方法，包括以下步骤：

S1：获取包含有不同说话人的语音帧。

具体的，装置获取包含有不同说话人的语音帧。需要说明的是：这里的语音帧包含的说话人的数量可以是已知的，也可以是未知的，不作具体的限定。

S2：根据所述语音帧和预先训练过的特征提取模型，获取说话人特征。

具体的，装置根据所述语音帧和预先训练过的特征提取模型，获取说话人特征。特征提取模型可以是深度神经网络，可以分为训练和运行两个过程，其中：在训练阶段过程，可以用一组说话人语音数据训练一个对说话人特征提取的深度神经网络，该深度神经网络可以在短时语音帧上(可以是0.3秒左右)提取说话人特征；在运行阶段过程，利用该深度神经网络对每一个短时语音帧提取说话人特征。

S3：根据所述说话人特征和收敛到一个最大似然解的高斯混合模型，计算每个语音帧对应的说话人特征x_t对每个高斯成分M_i的条件概率P(x_t|M_i)，其中，每个高斯成分对应一个待区分的说话人，1<M_i≤K，K为所述高斯成分的总数，以表示待区分说话人的人数。

具体的，装置根据所述说话人特征和收敛到一个最大似然解的高斯混合模型，计算每个语音帧对应的说话人特征x_t对每个高斯成分M_i的条件概率P(x_t|M_i)，其中，每个高斯成分对应一个待区分的说话人，1<M_i≤K，K为所述高斯成分的总数，以表示待区分说话人的人数。高斯混合模型可以是包括有条件概率P(x_t|M_i)的函数，这里不对该函数的具体形式进行限定。可以先对初始的高斯混合模型进行随机初始化，不对随机初始化的方式作具体限定；再采用最大期望算法(Expectation Maximization Algorithm，以下简称“EM算法”)对随机初始化的高斯混合模型进行迭代运算，以获取收敛到一个最大似然解的高斯混合模型，从而得到对应的多个条件概率P(x_t|M_i)。需要说明的是：EM算法假设每一个说话人的说话人特征符合高斯分布，因此可将整个说话人特征用一个包含K个高斯的高斯混合模型来建模，图2为本发明实施例包含两个说话人的高斯混合模型区分说话人语音的效果图，如图2所示，图2中的每个“×”表示一个说话人特征，图2中的每个圆环表示每个说话人，可以根据“×”的分布情况，确定不同的说话人。高斯成分的总数K的具体数值可以根据实际情况自主设置。语音帧中包含的说话人的人数为已知的情况(即K的具体数值为已知)，则可直接利用上述方法得到包含具体说话人数(图2举例为两个说话人数)的高斯混合模型，再区分每一个说话人的语音。对于语音帧中包含的说话人的人数为未知的情况(即K的具体数值为未知)，无法事先确知说话人的人数，可从1开始逐渐增加说话人的个数K，并利用贝叶斯信息准则(BIC)选择最合适的K作为对说话人个数的估计，再区分每一个说话人的语音。

S4：将最大的条件概率P(x_t|M_i)对应的高斯成分M_j所表示的待区分说话人确定为说话人特征x_t对应的语音帧所属的说话人。

具体的，装置将最大的条件概率P(x_t|M_i)对应的高斯成分M_j所表示的待区分说话人确定为说话人特征x_t对应的语音帧所属的说话人。可以参照上述的图2说明，准确地确定每一个说话人特征对应的语音帧所属的说话人。

本发明实施例提供的区分说话人语音的处理方法，通过获取说话人特征，并根据基于说话人特征建立的模型，能够稳定、有效地区分说话人语音。

在上述实施例的基础上，所述高斯混合模型的获取，包括：

将初始的高斯混合模型进行随机初始化。

具体的，装置将初始的高斯混合模型进行随机初始化。可参照上述实施例，不再赘述。

采用EM算法对随机初始化的高斯混合模型进行迭代运算，以获取收敛到一个最大似然解的高斯混合模型。

具体的，装置采用EM算法对随机初始化的高斯混合模型进行迭代运算，以获取收敛到一个最大似然解的高斯混合模型。可参照上述实施例，不再赘述。

本发明实施例提供的区分说话人语音的处理方法，通过合理地获取收敛到一个最大似然解的高斯混合模型，进一步能够稳定、有效地区分说话人语音。

在上述实施例的基础上，所述特征提取模型为深度神经网络。

具体的，装置中的所述特征提取模型为深度神经网络。可参照上述实施例，不再赘述。

本发明实施例提供的区分说话人语音的处理方法，通过将特征提取模型选定为深度神经网络，能够准确地提取说话人特征，从而实现稳定、有效地对说话人语音进行区分。

在上述实施例的基础上，所述深度神经网络包括多层卷积层、多层延时层和多层全连接层。

具体的，装置中的所述深度神经网络包括多层卷积层、多层延时层和多层全连接层。卷积层、延时层和全连接层的具体层数可以根据实际情况自主设置，不作具体限定。本发明实施例的卷积层可以为两层、延时层可以为两层、全连接层可以为两层。

本发明实施例提供的区分说话人语音的处理方法，通过合理设置深度神经网络的卷积层、延时层和全连接层，进一步能够准确地提取说话人特征，从而实现稳定、有效地对说话人语音进行区分。

在上述实施例的基础上，所述多层卷积层为两层，其中，第一层的参数分别为128,6,33；第二层的参数分别为256,2,8；每一层的参数分别表示卷积层的数量、卷积核的数量和卷积核的空间尺度。

具体的，装置中的所述多层卷积层为两层，其中，第一层的参数分别为128,6,33；第二层的参数分别为256,2,8；每一层的参数分别表示卷积层的数量、卷积核的数量和卷积核的空间尺度。每一层的卷积层的参数也可以根据实测效果自主灵活的选择配置。

本发明实施例提供的区分说话人语音的处理方法，通过合理设置深度神经网络的卷积层的层数和参数，更进一步能够准确地提取说话人特征，从而实现稳定、有效地对说话人语音进行区分。

图3为本发明实施例区分说话人语音的处理装置结构示意图，如图3所示，本发明实施例提供了一种区分说话人语音的处理装置，包括第一获取单元1、第二获取单元2、计算单元3和确定单元4，其中：

第一获取单元1用于获取包含有不同说话人的语音帧；第二获取单元2用于根据所述语音帧和预先训练过的特征提取模型，获取说话人特征；计算单元3用于根据所述说话人特征和收敛到一个最大似然解的高斯混合模型，计算每个语音帧对应的说话人特征x_t对每个高斯成分M_i的条件概率P(x_t|M_i)，其中，每个高斯成分对应一个待区分的说话人，1<M_i≤K，K为所述高斯成分的总数，以表示待区分说话人的人数；确定单元4用于将最大的条件概率P(x_t|M_i)对应的高斯成分M_j所表示的待区分说话人确定为说话人特征x_t对应的语音帧所属的说话人。

具体的，第一获取单元1用于获取包含有不同说话人的语音帧；第二获取单元2用于根据所述语音帧和预先训练过的特征提取模型，获取说话人特征；计算单元3用于根据所述说话人特征和收敛到一个最大似然解的高斯混合模型，计算每个语音帧对应的说话人特征x_t对每个高斯成分M_i的条件概率P(x_t|M_i)，其中，每个高斯成分对应一个待区分的说话人，1<M_i≤K，K为所述高斯成分的总数，以表示待区分说话人的人数；确定单元4用于将最大的条件概率P(x_t|M_i)对应的高斯成分M_j所表示的待区分说话人确定为说话人特征x_t对应的语音帧所属的说话人。

本发明实施例提供的区分说话人语音的处理装置，通过获取说话人特征，并根据基于说话人特征建立的模型，能够稳定、有效地区分说话人语音。

在上述实施例的基础上，所述计算单元3具体用于：

将初始的高斯混合模型进行随机初始化；采用EM算法对随机初始化的高斯混合模型进行迭代运算，以获取收敛到一个最大似然解的高斯混合模型。

具体的，所述计算单元3具体用于：

本发明实施例提供的区分说话人语音的处理装置，通过合理地获取收敛到一个最大似然解的高斯混合模型，进一步能够稳定、有效地区分说话人语音。

具体的，装置中的所述特征提取模型为深度神经网络。

本发明实施例提供的区分说话人语音的处理装置，通过将特征提取模型选定为深度神经网络，能够准确地提取说话人特征，从而实现稳定、有效地对说话人语音进行区分。

本发明实施例提供的区分说话人语音的处理装置具体可以用于执行上述各方法实施例的处理流程，其功能在此不再赘述，可以参照上述方法实施例的详细描述。

图4为本发明实施例提供的装置实体结构示意图，如图4所示，所述装置包括：处理器(processor)401、存储器(memory)402和总线403；

其中，所述处理器401、存储器402通过总线403完成相互间的通信；

所述处理器401用于调用所述存储器402中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：获取包含有不同说话人的语音帧；根据所述语音帧和预先训练过的特征提取模型，获取说话人特征；根据所述说话人特征和收敛到一个最大似然解的高斯混合模型，计算每个语音帧对应的说话人特征x_t对每个高斯成分M_i的条件概率P(x_t|M_i)，其中，每个高斯成分对应一个待区分的说话人，1<M_i≤K，K为所述高斯成分的总数，以表示待区分说话人的人数；将最大的条件概率P(x_t|M_i)对应的高斯成分M_j所表示的待区分说话人确定为说话人特征x_t对应的语音帧所属的说话人。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：获取包含有不同说话人的语音帧；根据所述语音帧和预先训练过的特征提取模型，获取说话人特征；根据所述说话人特征和收敛到一个最大似然解的高斯混合模型，计算每个语音帧对应的说话人特征x_t对每个高斯成分M_i的条件概率P(x_t|M_i)，其中，每个高斯成分对应一个待区分的说话人，1<M_i≤K，K为所述高斯成分的总数，以表示待区分说话人的人数；将最大的条件概率P(x_t|M_i)对应的高斯成分M_j所表示的待区分说话人确定为说话人特征x_t对应的语音帧所属的说话人。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：获取包含有不同说话人的语音帧；根据所述语音帧和预先训练过的特征提取模型，获取说话人特征；根据所述说话人特征和收敛到一个最大似然解的高斯混合模型，计算每个语音帧对应的说话人特征x_t对每个高斯成分M_i的条件概率P(x_t|M_i)，其中，每个高斯成分对应一个待区分的说话人，1<M_i≤K，K为所述高斯成分的总数，以表示待区分说话人的人数；将最大的条件概率P(x_t|M_i)对应的高斯成分M_j所表示的待区分说话人确定为说话人特征x_t对应的语音帧所属的说话人。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上各实施例仅用以说明本发明的实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明的实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims

1.一种区分多说话人语音的处理方法，其特征在于，包括：

获取语音，其中，所述语音中包含有多个不同说话人的语音帧；

根据所述语音和预先训练过的说话人特征提取模型，获取每个语音帧的说话人特征；

根据所述说话人特征和收敛到一个最大似然解的高斯混合模型，计算所述语音中当前语音帧所对应的说话人特征x_t在每个高斯成分M_i的条件概率P(x_t|M_i)，其中，每个高斯成分对应其中一个待区分的说话人，1<M_i≤K，K为所述高斯成分的总数，以表示待区分说话人的总人数；

将最大的条件概率P(x_t|M_i)对应的高斯成分M_i所表示的待区分说话人确定为说话人特征x_t对应的语音帧所属的第i个说话人。

2.根据权利要求1所述的方法，其特征在于，所述特征提取模型为深度神经网络。

3.根据权利要求2所述的方法，其特征在于，所述深度神经网络包括多层卷积层、多层延时层和多层全连接层。

4.根据权利要求3所述的方法，其特征在于，所述多层卷积层为两层，其中，第一层的参数分别为128,6,33；第二层的参数分别为256,2,8；每一层的参数分别表示卷积层的数量、卷积核的数量和卷积核的空间尺度。

5.根据权利要求1所述的方法，其特征在于，所述高斯混合模型的获取，包括：

将初始的高斯混合模型进行随机初始化；

6.一种区分多说话人语音的处理装置，其特征在于，包括：

第一获取单元，用于获取语音，其中，所述语音中包含有多个不同说话人的语音帧；

第二获取单元，用于根据所述语音和预先训练过的说话人特征提取模型，获取每一个语音帧的说话人特征；

计算单元，用于根据所述说话人特征和收敛到一个最大似然解的高斯混合模型，计算所述语音中当前语音帧所对应的说话人特征x_t在每个高斯成分M_i的条件概率P(x_t|M_i)，其中，每个高斯成分对应其中一个待区分的说话人，1<M_i≤K，K为所述高斯成分的总数，以表示待区分说话人的总人数；

确定单元，用于将最大的条件概率P(x_t|M_i)对应的高斯成分M_i所表示的待区分说话人确定为说话人特征x_t对应的语音帧所属的第i个说话人。

7.根据权利要求6所述的装置，其特征在于，所述特征提取模型为深度神经网络。

8.根据权利要求6所述的装置，其特征在于，所述计算单元具体用于：

将初始的高斯混合模型进行随机初始化；

9.一种区分说话人语音的处理装置，其特征在于，包括：处理器、存储器和总线，其中：

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至5任一所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至5任一所述的方法。