CN107358945A

CN107358945A - 一种基于机器学习的多人对话音频识别方法及系统

Info

Publication number: CN107358945A
Application number: CN201710616434.8A
Authority: CN
Inventors: 谢兵; 龚永源
Original assignee: 谢兵; 徐涌
Current assignee: Guangzhou xinyuxinban Internet Information Service Co., Ltd
Priority date: 2017-07-26
Filing date: 2017-07-26
Publication date: 2017-11-17

Abstract

本发明的基于机器学习的多人对话音频角色识别对话音频方法，具体步骤包括：对带标注的语音数据采用UBM‑GMM算法进行训练，得到UBM‑GMM模型；对待识别的语音数据进行二次分割，再对语音进行聚类，得到带聚类标注的语音样本，然后抽取部分带聚类标注的语音样本作为样本放入所述UBM‑GMM模型中，进行准对型训练，得到准对型训练模型，根据准对型训练模型进行身份识别，得到相同身份的语音片段聚集，将相同身份的语音进行归类；输出对话中每个人的语音数据。通过对音频中的角色智能采样进行角色识别模型训练，极大提升语音分割和角色还原的精度，并实现模型的自动优化，解决当前传统方法分割和识别精度低、无法动态优化的问题。

Description

一种基于机器学习的多人对话音频识别方法及系统

技术领域

本发明涉及计算机技术领域，具体涉及一种基于机器学习的多人对话音频识别法及系统。

背景技术

对话音频中包含二个及以上的人物对话，从中识别和提取每个人物所说的话语并转换为文字对话，对于音频内容的深度分析及应用有非常重要的意义。

现有的对话分割技术主要是基于统计距离的方法，如Bayesian InformationCriterion(BIC)，Generalize Likelihood Ratio(GLR)。基于统计距离的方法，优势在于不需要经过样本数据训练模型的步骤，直接假设短时间范围内不同人的声学模型高斯混合模型(GaussianMixtureModel:GMM)分布存在差异，然后基于此差异就可以进行分割，这种方法可以适用于任何的语音角色分割任务；但基于统计距离的方法缺点也很明显，属于通用的分割方式，没有考虑个性化场景，更没有考虑角色的识别问题，分割和角色识别精度较差。

发明内容

针对现有技术中的缺陷，本发明的目的之一在于提供基于机器学习的多人对话音频角色识别方法，提升语音分割和角色还原的精度，并实现模型的自动优化。

第一方面，本发明提供的基于机器学习的多人对话音频角色识别方法，具体步骤包括：对带标注的语音数据采用UBM-GMM算法进行训练，得到 UBM-GMM模型；根据待识别的多人对话音频数据的语音部分和静音部分判断语音的停顿处，根据所述停顿处进行音频分割，得到分割后的第一音频片段数据；采用BIC方法对所述第一音频片段时长大于5秒的数据进行第二次分割，判断出真正的说话人的分隔点，并根据分隔点划分音频数据得到第二音频片段；对所述第二音频片段采用K-Means算法进行聚类，得到带聚类标注的语音样本，然后抽取部分带聚类标注的语音样本作为样本放入所述 UBM-GMM模型中，进行准对型训练，得到准对型训练模型，根据所述准对型训练模型判断第二音频片段中的身份；根据身份识别，得到相同身份的语音片段聚集，将相同身份的语音进行归类；输出对话中每个人的语音数据。

可选地，所述BIC方法对所述第一音频片段时长大于5秒的数据进行第二次分割的方法：采用的公式为ΔBIC＝Nlg|ε₀|-clg|ε₁|-(N-c)lg|ε₂|-αP (11),P＝0.5(d+0.5d(d+1))lgN(12),式(11)中，ΔBIC>0说明2个语音片段存在差异，应该切分，N是两段音频经过分窗后所得的样本总数，ε是语音片段的协方差，ε₀为未分割的总语音片段协方差，ε₁为左片段协方差，ε₂为右片段协方差，c是左侧音频片段经过分窗后所得的样本总数，α为惩罚因子， P为惩罚项，d是每个分窗样本的维度数。

可选地，对所述第二音频片段采用K-Means算法进行聚类的具体方法包括，从第二音频片段中选取长度大于2秒且有效语音占比大于0.7的音频片段数据作为样本集，按照样本集之间的距离大小，样本集划分为K₁个簇，让簇内的点紧密的连在一起，而让簇间的距离大，假设簇划分为(C₁,C₂，....C_K1)，则目标是最小化平方误差MSE：

其中C_i∈(C₁,C₂，....C_K1)，K₁为样本集的簇数量，K₁为整数，μ_i是簇C_i的均值向量。

可选地，所述部分带聚类标注的语音样本选取距离K-Means聚类中心点附近的20个长度大于3秒的语音样本。

可选地，所述UBM-GMM算法的具体步骤包括：分别求解E和M，计算公式如下：

其中，θ为似然函数给定的参数， X为音频的总体，x_j为音频总体X的样本，Y是因变量，Pr为概率密度函数，假设模型参数已知的情况下求隐含变量Z分别取z₁,z₂,...z_N的期望，在GMM中就是求数据点x_i由各个组件生成的概率γ(i,k)，

式(2)中，γ(i,k)代表当前观测数据属于第k个组件的概率，N(x_i,u_k,∑k)为高斯混合密度函数，π_k为权值因子，u_k为第k个组件数据点的均值，推出GMM 的每一个参数的值，

其中，N为样本总数，属于K个组件的样本数量分别是N₁,N₂,…,N_k，

UBM模型是一个大型的GMM模型，UBM模型同样利用EM算法来训练，在训练过程中，通过最大后验概率自适应，得到每个说话人的GMM模型，计算最大后验概率公式如下：

其中，x_t为说话人话语抽取出来的特征矢量，λ为说话人模型的特征分布中的参数，p_i(x_t|λ)为特征矢量x_t对应的似然率，Pr(i|x_t)为训练矢量在UBM混合成员中的概率分布，w_i是每个高斯密度函数的权重，n_i为第i个高斯混合加权值，E_I(X)为平均值向量。

第二方面，本发明提供的基于机器学习的多人对话音频角色识别系统，包括UBM-GMM训练模型，用于对带标注的语音数据采用UBM-GMM算法进行训练；第一音频分割单元，用于根据待识别的多人对话音频数据的语音部分和静音部分判断语音的停顿处，根据所述停顿处进行音频分割，得到分割后的第一音频片段数据；第二音频分割单元，采用BIC方法对所述第一音频片段时长大于5秒的数据进行第二次分割，判断出真正的说话人的分隔点，并根据分隔点划分音频数据得到第二音频片段；应用模型训练单元，用于对所述第二音频片段采用K-Means算法进行聚类，得到带聚类标注的语音样本，然后抽取部分带聚类标注的语音样本作为样本放入所述UBM-GMM模型中，进行准对型训练，得到准对型训练模型，根据所述准对型训练模型判断第二音频片段中的身份；语音归类单元，用于根据身份识别，得到相同身份的语音片段聚集，将相同身份的语音进行归类；输出单元，用于输出对话中每个人的语音数据。

可选地，所述第二音频分割单元中的BIC方法对所述第一音频片段时长大于5秒的数据进行第二次分割的方法：采用的公式为 ΔBIC＝Nlg|ε₀|-clg|ε₁|-(N-c)lg|ε₂|-αP(11),P＝0.5(d+0.5d(d+1))lgN(12),式 (11)中，ΔBIC>0说明2个语音片段存在差异，应该切分，N是两段音频经过分窗后所得的样本总数，ε是语音片段的协方差，ε₀为未分割的总语音片段协方差，ε₁为左片段协方差，ε₂为右片段协方差，c是左侧音频片段经过分窗后所得的样本总数，α为惩罚因子，P为惩罚项，d是每个分窗样本的维度数。

可选地，所述应用模型训练单元中第二音频片段采用K-Means算法进行聚类的具体方法包括，从第二音频片段中选取长度大于2秒且有效语音占比大于0.7的音频片段数据作为样本集，按照样本集之间的距离大小，样本集划分为K₁个簇，让簇内的点紧密的连在一起，而让簇间的距离大，假设簇划分为(C₁,C₂，....C_K1)，则目标是最小化平方误差MSE：

,

可选地，所述应用模型训练单元中部分带聚类标注的语音样本选取距离 K-Means聚类中心点附近的20个长度大于3秒的语音样本。

可选地，所述UBM-GMM训练模型中的UBM-GMM算法的具体步骤包括：分别求解E和M，计算公式如下：

其中，γ(i,k)代表当前观测数据属于第k个组件的概率，N(x_i,u_k,∑k)为高斯混合密度函数，π_k为权值因子，u_k为第k个组件数据点的均值，推出GMM的每一个参数的值，

其中，N为样本总数，属于K个组件的样本数量分别是N₁,N₂,…,N_k, UBM模型是一个大型的GMM模型，UBM模型同样利用EM算法来训练，在训练过程中，通过最大后验概率自适应，得到每个说话人的GMM模型，计算最大后验概率公式如下：

其中，x_t为说话人话语抽取出来的特征矢量，λ为说话人模型的特征分布中的参数，p_i(x_t|λ)为特征矢量x_t对应的似然率，Pr(i|x_t)为训练矢量在UBM混合成员中的概率分布，w_i是每个高斯密度函数的权重，n_i为第i个高斯混合加权值， E_I(X)为平均值向量。

本发明的有益效果：

本发明的基于机器学习的多人对话音频角色识别对话音频方法，在传统分割算法基础上引入机器学习算法，通过对音频中的角色智能采样进行角色识别模型训练，对语音进行二次分割，极大提升语音分割和角色还原的精度，并实现模型的自动优化，解决当前传统方法分割和识别精度低、无法动态优化的问题。

本发明的基于机器学习的多人对话音频角色识别对话音频系统，在传统分割算法基础上引入机器学习算法，通过对音频中的角色智能采样进行角色识别模型训练，对语音进行二次分割，极大提升语音分割和角色还原的精度，并实现模型的自动优化，解决当前传统方法分割和识别精度低、无法动态优化的问题。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1示出了本发明第一实施例所提供的一种基于机器学习的多人对话音频角色识别方法的流程图；

图2示出了本发明第二实施例所提供的一种基于机器学习的多人对话音频角色识别系统的结构图；

图3示出了两个人对话的5分钟音频录音波形图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只是作为示例，而不能以此来限制本发明的保护范围。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

图1示出了本发明第一实施例所提供的一种提供基于机器学习的多人对话音频角色识别方法的流程图。本实施例的基于机器学习的多人对话音频角色识别方法，具体包括以下步骤：对带标注的语音数据采用UBM-GMM算法进行训练，得到UBM-GMM模型；

根据待识别的多人对话音频数据的语音部分和静音部分判断语音的停顿处，根据所述停顿处进行音频分割，得到分割后的第一音频片段数据；

采用BIC方法对所述第一音频片段时长大于5秒的数据进行第二次分割，判断出真正的说话人的分隔点，并根据分隔点划分音频数据得到第二音频片段；

对所述第二音频片段采用K-Means算法进行聚类，得到带聚类标注的语音样本，然后抽取部分带聚类标注的语音样本作为样本放入所述UBM-GMM 模型中，进行准对型训练，得到准对型训练模型，根据所述准对型训练模型判断第二音频片段中的身份；

根据身份识别，得到相同身份的语音片段聚集，将相同身份的语音进行归类；

输出对话中每个人的语音数据。

收集不同人的说话语音样本，对每个人的语音数据根据GMM的模型训练，方法分为2步，分别求解E和M，E就是Expectation的意思，M就是 Maximization的意思，EM要求解的公式如下，

θ为似然函数给定的参数，X为音频的总体，x_j为音频总体X的样本，Y是因变量，Pr为概率密度函数。EM 算法的基本思路是：随机初始化一组参数θ⁽⁰⁾，根据后验概率Pr(Y|X；θ)来更新 Y的期望E(Y)，E(Y)＝E[lgPr(Y|X；θ)|X,θ⁽⁰⁾]，然后用E(Y)代替Y求出新的模型参数θ⁽¹⁾，如此迭代直到θ趋于稳定。

计算E的方法：假设模型参数已知的情况下求隐含变量Z分别取z₁,z₂,...z_N的期望，亦即Z分别取z₁,z₂,...z_N的概率。在GMM中就是求数据点由各个组件生成的概率γ(i,k)，

式(2)中，γ(i^,k)代表当前观测数据属于第k个组件的概率，N(x_i,u_k,∑k)为高斯混合密度函数，π_k为权值因子，u_k为第k个组件数据点的均值。

计算M的方法，就是用最大似然的方法求出模型参数，采用上述方法求出的 γ(i,k)就是数据点x_i由组件k生成的概率。计算GMM的每一个参数的值公式如下，

其中，N为样本总数，属于K个组件的样本数量分别是N₁,N₂,…,N_k。

UBM(Universal Background Model)模型是一个大型的GMM模型，UBM 模型同样可以利用EM算法来训练，并且UBM模型只需要训练一次，之后便可以反复利用，在训练过程中，通过最大后验概率(Maximum a posteriori， MAP)自适应，可以得到每个说话人的GMM模型。最大后验概率主要公式如下：对于给定一个UBM模型，计算的参数的值公式如下：

为了自适应，以上计算的新的参数的值与GMM的参数的值通过一个数据有关的混合系数进行合并。

将待识别的多人对话音频进行滤波，根据能量公式式(10)中，e是对话音频的总能量，N是一个音频片段的所有采样点数，s(n) 指在某个点n下采样值的归一化值。区分语音部分和静音部分判断语音的停顿处，根据所述停顿处进行音频分割，得到分割后的第一音频片段数据。

用BIC方法对音频片段时长大于5秒的进行二次分割，用于分割没有停顿的对话内容。BIC的原理是在一个小的分析窗内，用两个不断变化的数据窗来计算每一帧的BIC值，最大的BIC值对应的点为潜在的说话人分割点，再判断ΔBIC≥0是否成立，若成立为真正的说话人分割点。

N是一个音频片段的所有采样点数，s(n)指在某个点n下采样值的归一化值。

根据ΔBIC＝Nlg|ε₀|-clg|ε₁|-(N-c)lg|ε₂|-αP(11),P＝0.5(d+0.5d(d+1))lgN(12),式(11)中，ΔBIC>0说明2个语音片段存在差异，应该切分，N 是两段音频经过分窗后所得的样本总数，ε是语音片段的协方差，ε₀为未分割的总语音片段协方差，ε₁为左片段协方差，ε₂为右片段协方差，c是左侧音频片段经过分窗后所得的样本总数，α为惩罚因子，P为惩罚项，d是每个分窗样本的维度数，得到第二音频片段。

对所述第二音频片段采用K-Means算法进行聚类，得到带聚类标注的语音样本，然后抽取部分带聚类标注的语音样本作为样本放入所述UBM-GMM 模型中，进行准对型训练，得到准对型训练模型，根据所述准对型训练模型判断第二音频片段中的身份。在第二音频片段中选择长度大于2秒且有效语音占比大于0.7的音频片段作为样本集，按照样本集之间的距离大小，样本集划分为K₁个簇，让簇内的点尽量紧密的连在一起，而让簇间的距离尽量的大，假设簇划分为(C₁,C₂，....C_K1)，则目标是最小化平方误差MSE：

(13)，

将上述部分带聚类标注的语音样本选取距离Kmean聚类中心点附近的20 个长度大于3秒的语音样本带入预先训练好的GMM-UBM模型对语音分割片段进行准对型训练，得到准对型训练模型。GaussianMixtureModel(GMM)主要公式如下(15)、(16)：

exp是指数函数，u是模型期望，∑是模型方差，π_k为权值因子，u_k为第k个组件数据点的均值，Pr(x)为GMM所得出的概率密度值，其中的参数估计通过最大似然估计，每次迭代都由E步(求期望)和M步(最大化)组成，基本思想是根据现有的数据猜测需要求取的参数，之后用己知的数据还有这个猜测来计算未知参数可能取到的所有值的概率，取概率最大的作为下一次的猜测继续进行这个计算，直到得到一个最有可能的猜测。

GMM的模型训练，方法分为2步，分别求解E和M，E就是Expectation 的意思，M就是Maximization的意思，EM要求解的问题一般形式如下，

其中θ为似然函数给定的参数，X为音频的总体，x_j为音频总体X的样本，Y是因变量，Pr为概率密度函数。EM 算法的基本思路是：随机初始化一组参数θ⁽⁰⁾，根据后验概率Pr(Y|X；θ)来更新 Y的期望E(Y)，E(Y)＝E[lgPr(Y|X；θ)|X,θ⁽⁰⁾]，然后用E(Y)代替Y求出新的模型参数θ⁽¹⁾，如此迭代直到θ趋于稳定。

求解E的方法，假设模型参数已知的情况下求隐含变量Z分别取z₁,z₂,...z_N的期望，亦即Z分别取z₁,z₂,...z_N的概率。在GMM中就是求数据点由各个组件生成的概率γ(i,k)，

式(2)中：γ(i,k)代表当前观测数据属于第k个组件的概率，N(x_i,u_k,∑k)为高斯混合密度函数，π_k为权值因子，u_k为第k个组件数据点的均值。求解M 就是用最大似然的方法求出模型参数。假设上一步求出的γ(i,k)就是数据点x_i由组件k生成的概率。可以推出GMM的每一个参数的值，

UBM模型是一个大型的GMM模型，UBM模型同样可以利用EM算法来训练，并且UBM模型只需要训练一次，之后便可以反复利用，在训练过程中，通过最大后验概率自适应，可以得到每个说话人的GMM模型。最大后验概率主要公式如下：对于给定一个UBM模型：

如图2所示，一种基于机器学习的多人对话音频角色识别系统，包括 UBM-GMM训练模型1，用于对带标注的语音数据采用UBM-GMM算法进行训练；第一音频分割单元2，用于根据待识别的多人对话音频数据的语音部分和静音部分判断语音的停顿处，根据所述停顿处进行音频分割，得到分割后的第一音频片段数据；第二音频分割单元3，采用BIC方法对所述第一音频片段时长大于5秒的数据进行第二次分割，判断出真正的说话人的分隔点，并根据分隔点划分音频数据得到第二音频片段；应用模型训练单元4，用于对所述第二音频片段采用K-Means算法进行聚类，得到带聚类标注的语音样本，然后抽取部分带聚类标注的语音样本作为样本放入所述UBM-GMM模型中，进行准对型训练，得到准对型训练模型，根据所述准对型训练模型判断第二音频片段中的身份；语音归类单元5，用于根据身份识别，得到相同身份的语音片段聚集，将相同身份的语音进行归类；输出单元6，用于输出对话中每个人的语音数据。

所述第二音频分割单元中的BIC方法对所述第一音频片段时长大于5秒的数据进行第二次分割的方法：采用的公式为 ΔBIC＝Nlg|ε₀|-clg|ε₁|-(N-c)lg|ε₂|-αP(11),P＝0.5(d+0.5d(d+1))lgN(12),式 (11)中，ΔBIC>0说明2个语音片段存在差异，应该切分，N是两段音频经过分窗后所得的样本总数，ε是语音片段的协方差，ε₀为未分割的总语音片段协方差，ε₁为左片段协方差，ε₂为右片段协方差，c是左侧音频片段经过分窗后所得的样本总数，α为惩罚因子，P为惩罚项，d是每个分窗样本的维度数。

应用模型训练单元中第二音频片段采用K-Means算法进行聚类的具体方法包括，从第二音频片段中选取长度大于2秒且有效语音占比大于0.7的音频片段数据作为样本集，按照样本集之间的距离大小，样本集划分为K₁个簇，让簇内的点尽量紧密的连在一起，而让簇间的距离尽量的大，假设簇划分为 (C₁,C₂，....C_K1)，则目标是最小化平方误差MSE：

应用模型训练单元中部分带聚类标注的语音样本选取距离K-Means聚类中心点附近的20个长度大于3秒的语音样本，使同簇的数据能更好的紧密连在一起，便于归类。

UBM-GMM训练模型中的UBM-GMM算法的具体步骤包括：分别求解E 和M，计算公式如下：

其中，其中θ为似然函数给定的参数，X为音频的总体，x_j为音频总体X的样本，Y是因变量，Pr为概率密度函数。

假设模型参数已知的情况下求隐含变量Z分别取z₁,z₂,...z_N的期望，亦即Z 分别取z₁,z₂,...z_N的概率，在GMM中就是求数据点x_i由各个组件生成的概率 γ(i,k)，

其中：γ(i,k)代表当前观测数据属于第k个组件的概率，N(x_i,u_k,∑k)为高斯混合密度函数，π_k为权值因子，u_k为第k个组件数据点的均值，推出GMM的每一个参数的值，

例如，采用上述方法对如图3所示的两个人对话的5分钟音频录音波形进行处理：

首先通过对两个人对话的5分钟音频进行滤波，将两个人对话停顿处进行分割，得到第一音频片段数据，之后用BIC准则对时长大于5秒的音频进行二次分割，通过ΔBIC≥0是否成立，判断说话人在一个分析窗内有没有跳变点发生，若大于0，说明一个分析窗内有跳变点，即将大于5秒的音频在跳变点处进行第二次分割；从而，两个人对话的5分钟音频被分割成总样本为120 个短音频。

对于已经分隔好的120个音频，选择长度大于2秒且有效语音占比大于 0.7的音频片段进行K-Means聚类，由于已知为两个人对话的音频，将样本集的簇数量K₁设置为2(即K₁＝2)。通过K-Means聚类得到二类带聚类标注的语音样本。

分别抽取二类带聚类标注距离K-Means聚类中心点附近的20个长度大于 3秒的语音样本作为训练样本放入UBM-GMM模型中进行准对型训练，得到准对型训练模型，根据所述准对型训练模型对两个人(身份A，身份B)对话的5分钟音频分割成总样本为120个短音频进行身份识别，将相同身份的语音进行归类，输出对话中的角色为A的音频有55个，其中A身份的音频有51 个，B身份的音频为4个，识别准确率为92.7％；输出对话中的角色为B的音频有65个，其中为B身份的音频有60个，A身份的音频有5个，识别准确率为92.3％。

通过模型处理后，一共分隔出120段音频文件，识别情况如下表1：

对话中的角色	模型识别出的音频	模型识别正确的音频	识别准确率
				A	55	51	92.7％
B	65	60	92.3％

表1通过模型识别的多人对话音频数据

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于机器学习的多人对话音频角色识别方法，其特征在于：具体步骤包括：对带标注的语音数据采用UBM-GMM算法进行训练，得到UBM-GMM模型；根据待识别的多人对话音频数据的语音部分和静音部分判断语音的停顿处，根据所述停顿处进行音频分割，得到分割后的第一音频片段数据；

采用BIC方法对所述第一音频片段时长大于5秒的数据进行第二次分割，判断出真正的说话人的分隔点，并根据分隔点划分音频数据得到第二音频片段；对所述第二音频片段采用K-Means算法进行聚类，得到带聚类标注的语音样本，然后抽取部分带聚类标注的语音样本作为样本放入所述UBM-GMM模型中，进行准对型训练，得到准对型训练模型，根据所述准对型训练模型判断第二音频片段中的身份；根据身份识别，得到相同身份的语音片段聚集，将相同身份的语音进行归类；输出对话中每个人的语音数据。

2.如权利要求1所述的基于机器学习的多人对话音频角色识别方法，其特征在于：所述BIC方法对所述第一音频片段时长大于5秒的数据进行第二次分割的方法：采用的公式为ΔBIC＝Nlg|ε₀|-clg|ε₁|-(N-c)lg|ε₂|-αP(11),P＝0.5(d+0.5d(d+1))lgN(12),式(11)中，ΔBIC>0说明2个语音片段存在差异，应该切分，N是两段音频经过分窗后所得的样本总数，ε是语音片段的协方差，ε₀为未分割的总语音片段协方差，ε₁为左片段协方差，ε₂为右片段协方差，c是左侧音频片段经过分窗后所得的样本总数，α为惩罚因子，P为惩罚项，d是每个分窗样本的维度数。

3.如权利要求1所述的基于机器学习的多人对话音频角色识别方法，其特征在于：对所述第二音频片段采用K-Means算法进行聚类的具体方法包括，从第二音频片段中选取长度大于2秒且有效语音占比大于0.7的音频片段数据作为样本集，按照样本集之间的距离大小，样本集划分为K₁个簇，让簇内的点紧密的连在一起，而让簇间的距离大，假设簇划分为则目标是最小化平方误差MSE：其中K₁为样本集的簇数量，K₁为整数，μ_i是簇C_i的均值向量。

4.如权利要求1所述的基于机器学习的多人对话音频角色识别方法，其特征在于：所述部分带聚类标注的语音样本选取距离K-Means聚类中心点附近的20个长度大于3秒的语音样本。

5.如权利要求1所述的基于机器学习的多人对话音频角色识别方法，其特征在于：所述UBM-GMM算法的具体步骤包括：分别求解E和M，计算公式如下：

其中，θ为似然函数给定的参数，X为音频的总体，x_j为音频总体X的样本，Y是因变量，Pr为概率密度函数，假设模型参数已知的情况下求隐含变量Z，分别求z₁,z₂,...z_N的期望，在GMM中就是求数据点x_i由各个组件生成的概率γ(i,k)，式(2)中，γ(i,k)代表当前观测数据属于第k个组件的概率，N(x_i,u_k,∑k)为高斯混合密度函数，π_k为权值因子，u_k为第k个组件数据点的均值，推出GMM的每一个参数的值，

<mrow> <msub> <mi>N</mi> <mi>k</mi> </msub> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <mi>&gamma;</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

<mrow> <mo>&Sigma;</mo> <mi>k</mi> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>N</mi> <mi>k</mi> </msub> </mfrac> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <mi>&gamma;</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

<mrow> <msub> <mi>u</mi> <mi>k</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>N</mi> <mi>k</mi> </msub> </mfrac> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <mi>&gamma;</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

其中，N为样本总数，属于K个组件的样本数量分别是N₁,N₂,…,N_k，UBM模型是一个大型的GMM模型，UBM模型同样利用EM算法来训练，在训练过程中，通过最大后验概率自适应，得到每个说话人的GMM模型，计算最大后验概率公式如下：

<mrow> <mi>Pr</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>|</mo> <msub> <mi>x</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>w</mi> <mi>i</mi> </msub> <msub> <mi>p</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>t</mi> </msub> <mo>|</mo> <mi>&lambda;</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <msub> <mi>w</mi> <mi>j</mi> </msub> <msub> <mi>p</mi> <mi>j</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>t</mi> </msub> <mo>|</mo> <mi>&lambda;</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

<mrow> <msub> <mi>n</mi> <mi>i</mi> </msub> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </msubsup> <mi>Pr</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>|</mo> <msub> <mi>x</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

<mrow> <msub> <mi>E</mi> <mi>I</mi> </msub> <mrow> <mo>(</mo> <mi>X</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>n</mi> <mi>i</mi> </msub> </mfrac> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </msubsup> <mi>Pr</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>|</mo> <msub> <mi>x</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>x</mi> <mi>t</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

6.一种基于机器学习的多人对话音频角色识别系统，其特征在于：包括UBM-GMM训练模型，用于对带标注的语音数据采用UBM-GMM算法进行训练；第一音频分割单元，用于根据待识别的多人对话音频数据的语音部分和静音部分判断语音的停顿处，根据所述停顿处进行音频分割，得到分割后的第一音频片段数据；第二音频分割单元，采用BIC方法对所述第一音频片段时长大于5秒的数据进行第二次分割，判断出真正的说话人的分隔点，并根据分隔点划分音频数据得到第二音频片段；应用模型训练单元，用于对所述第二音频片段采用K-Means算法进行聚类，得到带聚类标注的语音样本，然后抽取部分带聚类标注的语音样本作为样本放入所述UBM-GMM模型中，进行准对型训练，得到准对型训练模型，根据所述准对型训练模型判断第二音频片段中的身份；语音归类单元，用于根据身份识别，得到相同身份的语音片段聚集，将相同身份的语音进行归类；输出单元，用于输出对话中每个人的语音数据。

7.如权利要求6所述的系统，其特征在于：所述第二音频分割单元中的BIC方法对所述第一音频片段时长大于5秒的数据进行第二次分割的方法：采用的公式为ΔBIC＝Nlg|ε₀|-clg|ε₁|-(N-c)lg|ε₂|-αP(11),P＝0.5(d+0.5d(d+1))lgN(12),式(11)中，ΔBIC>0说明2个语音片段存在差异，应该切分，N是两段音频经过分窗后所得的样本总数，ε是语音片段的协方差，ε₀为未分割的总语音片段协方差，ε₁为左片段协方差，ε₂为右片段协方差，c是左侧音频片段经过分窗后所得的样本总数，α为惩罚因子，P为惩罚项，d是每个分窗样本的维度数。

8.如权利要求6所述的系统，其特征在于：所述应用模型训练单元中第二音频片段采用K-Means算法进行聚类的具体方法包括，从第二音频片段中选取长度大于2秒且有效语音占比大于0.7的音频片段数据作为样本集，按照样本集之间的距离大小，样本集划分为K₁个簇，让簇内的点紧密的连在一起，而让簇间的距离大，假设簇划分为则目标是最小化平方误差MSE：

其中K₁为样本集的簇数量，K₁为整数，μ_i是簇C_i的均值向量。

9.如权利要求6所述的系统，其特征在于：所述应用模型训练单元中部分带聚类标注的语音样本选取距离K-Means聚类中心点附近的20个长度大于3秒的语音样本。

10.如权利要求6所述的系统，其特征在于：所述UBM-GMM训练模型中的UBM-GMM算法的具体步骤包括：分别求解E和M，计算公式如下：

其中，θ为似然函数给定的参数，X为音频的总体，x_j为音频总体X的样本，Y是因变量，Pr为概率密度函数，假设模型参数已知的情况下求隐含变量Z分别取z₁,z₂,...z_N的期望，在GMM中就是求数据点x_i由各个组件生成的概率γ(i,k)，