CN107358945A - 一种基于机器学习的多人对话音频识别方法及系统 - Google Patents
一种基于机器学习的多人对话音频识别方法及系统 Download PDFInfo
- Publication number
- CN107358945A CN107358945A CN201710616434.8A CN201710616434A CN107358945A CN 107358945 A CN107358945 A CN 107358945A CN 201710616434 A CN201710616434 A CN 201710616434A CN 107358945 A CN107358945 A CN 107358945A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- audio
- gmm
- msubsup
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000010801 machine learning Methods 0.000 title claims abstract description 22
- 230000011218 segmentation Effects 0.000 claims abstract description 35
- 230000002776 aggregation Effects 0.000 claims abstract description 6
- 238000004220 aggregation Methods 0.000 claims abstract description 6
- 239000012634 fragment Substances 0.000 claims description 67
- 230000006870 function Effects 0.000 claims description 29
- 239000000203 mixture Substances 0.000 claims description 14
- 238000000926 separation method Methods 0.000 claims description 12
- 238000009826 distribution Methods 0.000 claims description 10
- 230000003044 adaptive effect Effects 0.000 claims description 7
- 238000005520 cutting process Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 241001269238 Data Species 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 abstract description 5
- 230000009467 reduction Effects 0.000 abstract description 4
- 238000007796 conventional method Methods 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 abstract description 3
- 241000208340 Araliaceae Species 0.000 description 6
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 6
- 235000003140 Panax quinquefolius Nutrition 0.000 description 6
- 235000008434 ginseng Nutrition 0.000 description 6
- 239000004744 fabric Substances 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003973 paint Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明的基于机器学习的多人对话音频角色识别对话音频方法,具体步骤包括:对带标注的语音数据采用UBM‑GMM算法进行训练,得到UBM‑GMM模型;对待识别的语音数据进行二次分割,再对语音进行聚类,得到带聚类标注的语音样本,然后抽取部分带聚类标注的语音样本作为样本放入所述UBM‑GMM模型中,进行准对型训练,得到准对型训练模型,根据准对型训练模型进行身份识别,得到相同身份的语音片段聚集,将相同身份的语音进行归类;输出对话中每个人的语音数据。通过对音频中的角色智能采样进行角色识别模型训练,极大提升语音分割和角色还原的精度,并实现模型的自动优化,解决当前传统方法分割和识别精度低、无法动态优化的问题。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种基于机器学习的多人对话音频 识别法及系统。
背景技术
对话音频中包含二个及以上的人物对话,从中识别和提取每个人物所说的 话语并转换为文字对话,对于音频内容的深度分析及应用有非常重要的意义。
现有的对话分割技术主要是基于统计距离的方法,如Bayesian InformationCriterion(BIC),Generalize Likelihood Ratio(GLR)。基于统计距离的方法, 优势在于不需要经过样本数据训练模型的步骤,直接假设短时间范围内不同人 的声学模型高斯混合模型(GaussianMixtureModel:GMM)分布存在差异,然 后基于此差异就可以进行分割,这种方法可以适用于任何的语音角色分割任 务;但基于统计距离的方法缺点也很明显,属于通用的分割方式,没有考虑个 性化场景,更没有考虑角色的识别问题,分割和角色识别精度较差。
发明内容
针对现有技术中的缺陷,本发明的目的之一在于提供基于机器学习的多人 对话音频角色识别方法,提升语音分割和角色还原的精度,并实现模型的自动 优化。
第一方面,本发明提供的基于机器学习的多人对话音频角色识别方法,具 体步骤包括:对带标注的语音数据采用UBM-GMM算法进行训练,得到 UBM-GMM模型;根据待识别的多人对话音频数据的语音部分和静音部分判 断语音的停顿处,根据所述停顿处进行音频分割,得到分割后的第一音频片段 数据;采用BIC方法对所述第一音频片段时长大于5秒的数据进行第二次分 割,判断出真正的说话人的分隔点,并根据分隔点划分音频数据得到第二音频 片段;对所述第二音频片段采用K-Means算法进行聚类,得到带聚类标注的 语音样本,然后抽取部分带聚类标注的语音样本作为样本放入所述 UBM-GMM模型中,进行准对型训练,得到准对型训练模型,根据所述准对 型训练模型判断第二音频片段中的身份;根据身份识别,得到相同身份的语音 片段聚集,将相同身份的语音进行归类;输出对话中每个人的语音数据。
可选地,所述BIC方法对所述第一音频片段时长大于5秒的数据进行第二 次分割的方法:采用的公式为ΔBIC=Nlg|ε0|-clg|ε1|-(N-c)lg|ε2|-αP (11),P=0.5(d+0.5d(d+1))lgN(12),式(11)中,ΔBIC>0说明2个语音 片段存在差异,应该切分,N是两段音频经过分窗后所得的样本总数,ε是语 音片段的协方差,ε0为未分割的总语音片段协方差,ε1为左片段协方差,ε2为 右片段协方差,c是左侧音频片段经过分窗后所得的样本总数,α为惩罚因子, P为惩罚项,d是每个分窗样本的维度数。
可选地,对所述第二音频片段采用K-Means算法进行聚类的具体方法包 括,从第二音频片段中选取长度大于2秒且有效语音占比大于0.7的音频片段 数据作为样本集,按照样本集之间的距离大小,样本集划分为K1个簇,让簇内 的点紧密的连在一起,而让簇间的距离大,假设簇划分为(C1,C2,....CK1),则目标 是最小化平方误差MSE:
其中Ci∈(C1,C2,....CK1),K1为样本集的簇数量,K1为整数,μi是簇Ci的均值向量。
可选地,所述部分带聚类标注的语音样本选取距离K-Means聚类中心点 附近的20个长度大于3秒的语音样本。
可选地,所述UBM-GMM算法的具体步骤包括:分别求解E和M,计算 公式如下:
其中,θ为似然函数给定的参数, X为音频的总体,xj为音频总体X的样本,Y是因变量,Pr为概率密度函数, 假设模型参数已知的情况下求隐含变量Z分别取z1,z2,...zN的期望,在GMM中 就是求数据点xi由各个组件生成的概率γ(i,k),
式(2)中,γ(i,k)代表当前观测数据属于第k个组件的概率,N(xi,uk,∑k)为 高斯混合密度函数,πk为权值因子,uk为第k个组件数据点的均值,推出GMM 的每一个参数的值,
其中,N为样本总数,属于K个组件的样本数量分别是N1,N2,…,Nk,
UBM模型是一个大型的GMM模型,UBM模型同样利用EM算法来训练,在 训练过程中,通过最大后验概率自适应,得到每个说话人的GMM模型,计算 最大后验概率公式如下:
其中,xt为说话人话语抽取出来的特征矢量,λ为说话人模型的特征分布中的 参数,pi(xt|λ)为特征矢量xt对应的似然率,Pr(i|xt)为训练矢量在UBM混合 成员中的概率分布,wi是每个高斯密度函数的权重,ni为第i个高斯混合加权 值,EI(X)为平均值向量。
第二方面,本发明提供的基于机器学习的多人对话音频角色识别系统,包 括UBM-GMM训练模型,用于对带标注的语音数据采用UBM-GMM算法进 行训练;第一音频分割单元,用于根据待识别的多人对话音频数据的语音部分 和静音部分判断语音的停顿处,根据所述停顿处进行音频分割,得到分割后的 第一音频片段数据;第二音频分割单元,采用BIC方法对所述第一音频片段 时长大于5秒的数据进行第二次分割,判断出真正的说话人的分隔点,并根据 分隔点划分音频数据得到第二音频片段;应用模型训练单元,用于对所述第二音频片段采用K-Means算法进行聚类,得到带聚类标注的语音样本,然后抽 取部分带聚类标注的语音样本作为样本放入所述UBM-GMM模型中,进行准 对型训练,得到准对型训练模型,根据所述准对型训练模型判断第二音频片段 中的身份;语音归类单元,用于根据身份识别,得到相同身份的语音片段聚集, 将相同身份的语音进行归类;输出单元,用于输出对话中每个人的语音数据。
可选地,所述第二音频分割单元中的BIC方法对所述第一音频片段时长大 于5秒的数据进行第二次分割的方法:采用的公式为 ΔBIC=Nlg|ε0|-clg|ε1|-(N-c)lg|ε2|-αP(11),P=0.5(d+0.5d(d+1))lgN(12),式 (11)中,ΔBIC>0说明2个语音片段存在差异,应该切分,N是两段音频 经过分窗后所得的样本总数,ε是语音片段的协方差,ε0为未分割的总语音片 段协方差,ε1为左片段协方差,ε2为右片段协方差,c是左侧音频片段经过分 窗后所得的样本总数,α为惩罚因子,P为惩罚项,d是每个分窗样本的维度 数。
可选地,所述应用模型训练单元中第二音频片段采用K-Means算法进行 聚类的具体方法包括,从第二音频片段中选取长度大于2秒且有效语音占比大 于0.7的音频片段数据作为样本集,按照样本集之间的距离大小,样本集划分 为K1个簇,让簇内的点紧密的连在一起,而让簇间的距离大,假设簇划分为(C1,C2,....CK1),则目标是最小化平方误差MSE:
,
其中Ci∈(C1,C2,....CK1),K1为样本集的簇数量,K1为整数,μi是簇Ci的均值向量。
可选地,所述应用模型训练单元中部分带聚类标注的语音样本选取距离 K-Means聚类中心点附近的20个长度大于3秒的语音样本。
可选地,所述UBM-GMM训练模型中的UBM-GMM算法的具体步骤包 括:分别求解E和M,计算公式如下:
其中,θ为似然函数给定的参数, X为音频的总体,xj为音频总体X的样本,Y是因变量,Pr为概率密度函数, 假设模型参数已知的情况下求隐含变量Z分别取z1,z2,...zN的期望,在GMM中 就是求数据点xi由各个组件生成的概率γ(i,k),
其中,γ(i,k)代表当前观测数据属于第k个组件的概率,N(xi,uk,∑k)为高斯混 合密度函数,πk为权值因子,uk为第k个组件数据点的均值,推出GMM的 每一个参数的值,
其中,N为样本总数,属于K个组件的样本数量分别是N1,N2,…,Nk, UBM模型是一个大型的GMM模型,UBM模型同样利用EM算法来训练,在 训练过程中,通过最大后验概率自适应,得到每个说话人的GMM模型,计算 最大后验概率公式如下:
其中,xt为说话人话语抽取出来的特征矢量,λ为说话人模型的特征分布中的 参数,pi(xt|λ)为特征矢量xt对应的似然率,Pr(i|xt)为训练矢量在UBM混合成 员中的概率分布,wi是每个高斯密度函数的权重,ni为第i个高斯混合加权值, EI(X)为平均值向量。
本发明的有益效果:
本发明的基于机器学习的多人对话音频角色识别对话音频方法,在传统分 割算法基础上引入机器学习算法,通过对音频中的角色智能采样进行角色识别 模型训练,对语音进行二次分割,极大提升语音分割和角色还原的精度,并实 现模型的自动优化,解决当前传统方法分割和识别精度低、无法动态优化的问 题。
本发明的基于机器学习的多人对话音频角色识别对话音频系统,在传统分 割算法基础上引入机器学习算法,通过对音频中的角色智能采样进行角色识别 模型训练,对语音进行二次分割,极大提升语音分割和角色还原的精度,并实 现模型的自动优化,解决当前传统方法分割和识别精度低、无法动态优化的问 题。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将 对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附 图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分 并不一定按照实际的比例绘制。
图1示出了本发明第一实施例所提供的一种基于机器学习的多人对话音 频角色识别方法的流程图;
图2示出了本发明第二实施例所提供的一种基于机器学习的多人对话音 频角色识别系统的结构图;
图3示出了两个人对话的5分钟音频录音波形图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例 仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来 限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当 为本发明所属领域技术人员所理解的通常意义。
图1示出了本发明第一实施例所提供的一种提供基于机器学习的多人对 话音频角色识别方法的流程图。本实施例的基于机器学习的多人对话音频角色 识别方法,具体包括以下步骤:对带标注的语音数据采用UBM-GMM算法进 行训练,得到UBM-GMM模型;
根据待识别的多人对话音频数据的语音部分和静音部分判断语音的停顿 处,根据所述停顿处进行音频分割,得到分割后的第一音频片段数据;
采用BIC方法对所述第一音频片段时长大于5秒的数据进行第二次分割, 判断出真正的说话人的分隔点,并根据分隔点划分音频数据得到第二音频片 段;
对所述第二音频片段采用K-Means算法进行聚类,得到带聚类标注的语 音样本,然后抽取部分带聚类标注的语音样本作为样本放入所述UBM-GMM 模型中,进行准对型训练,得到准对型训练模型,根据所述准对型训练模型判 断第二音频片段中的身份;
根据身份识别,得到相同身份的语音片段聚集,将相同身份的语音进行归 类;
输出对话中每个人的语音数据。
收集不同人的说话语音样本,对每个人的语音数据根据GMM的模型训 练,方法分为2步,分别求解E和M,E就是Expectation的意思,M就是 Maximization的意思,EM要求解的公式如下,
θ为似然函数给定的参数,X为 音频的总体,xj为音频总体X的样本,Y是因变量,Pr为概率密度函数。EM 算法的基本思路是:随机初始化一组参数θ(0),根据后验概率Pr(Y|X;θ)来更新 Y的期望E(Y),E(Y)=E[lgPr(Y|X;θ)|X,θ(0)],然后用E(Y)代替Y求出新的模 型参数θ(1),如此迭代直到θ趋于稳定。
计算E的方法:假设模型参数已知的情况下求隐含变量Z分别取z1,z2,...zN的期望,亦即Z分别取z1,z2,...zN的概率。在GMM中就是求数据点由各个组件 生成的概率γ(i,k),
式(2)中,γ(i,k)代表当前观测数据属于第k个组件的概率,N(xi,uk,∑k)为 高斯混合密度函数,πk为权值因子,uk为第k个组件数据点的均值。
计算M的方法,就是用最大似然的方法求出模型参数,采用上述方法求出的 γ(i,k)就是数据点xi由组件k生成的概率。计算GMM的每一个参数的值公式 如下,
其中,N为样本总数,属于K个组件的样本数量分别是N1,N2,…,Nk。
UBM(Universal Background Model)模型是一个大型的GMM模型,UBM 模型同样可以利用EM算法来训练,并且UBM模型只需要训练一次,之后便 可以反复利用,在训练过程中,通过最大后验概率(Maximum a posteriori, MAP)自适应,可以得到每个说话人的GMM模型。最大后验概率主要公式 如下:对于给定一个UBM模型,计算的参数的值公式如下:
其中,xt为说话人话语抽取出来的特征矢量,λ为说话人模型的特征分布中的 参数,pi(xt|λ)为特征矢量xt对应的似然率,Pr(i|xt)为训练矢量在UBM混合 成员中的概率分布,wi是每个高斯密度函数的权重,ni为第i个高斯混合加权 值,EI(X)为平均值向量。
为了自适应,以上计算的新的参数的值与GMM的参数的值通过一个数据 有关的混合系数进行合并。
将待识别的多人对话音频进行滤波,根据能量公式式(10)中,e是对话音频的总能量,N是一个音频片段的所有采样点数,s(n) 指在某个点n下采样值的归一化值。区分语音部分和静音部分判断语音的停顿 处,根据所述停顿处进行音频分割,得到分割后的第一音频片段数据。
用BIC方法对音频片段时长大于5秒的进行二次分割,用于分割没有停 顿的对话内容。BIC的原理是在一个小的分析窗内,用两个不断变化的数据窗 来计算每一帧的BIC值,最大的BIC值对应的点为潜在的说话人分割点, 再判断ΔBIC≥0是否成立,若成立为真正的说话人分割点。
N是一个音频片段的所有采样点数,s(n)指在某个点n下采样值的归一化 值。
根据ΔBIC=Nlg|ε0|-clg|ε1|-(N-c)lg|ε2|-αP(11),P=0.5(d+0.5d(d+1))lgN(12),式(11)中,ΔBIC>0说明2个语音片段存在差异,应该切分,N 是两段音频经过分窗后所得的样本总数,ε是语音片段的协方差,ε0为未分割 的总语音片段协方差,ε1为左片段协方差,ε2为右片段协方差,c是左侧音频 片段经过分窗后所得的样本总数,α为惩罚因子,P为惩罚项,d是每个分窗 样本的维度数,得到第二音频片段。
对所述第二音频片段采用K-Means算法进行聚类,得到带聚类标注的语 音样本,然后抽取部分带聚类标注的语音样本作为样本放入所述UBM-GMM 模型中,进行准对型训练,得到准对型训练模型,根据所述准对型训练模型判 断第二音频片段中的身份。在第二音频片段中选择长度大于2秒且有效语音占 比大于0.7的音频片段作为样本集,按照样本集之间的距离大小,样本集划分 为K1个簇,让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大,假设 簇划分为(C1,C2,....CK1),则目标是最小化平方误差MSE:
(13),
其中Ci∈(C1,C2,....CK1),K1为样本集的簇数量,K1为整数,μi是簇Ci的均值向量。
将上述部分带聚类标注的语音样本选取距离Kmean聚类中心点附近的20 个长度大于3秒的语音样本带入预先训练好的GMM-UBM模型对语音分割片 段进行准对型训练,得到准对型训练模型。GaussianMixtureModel(GMM)主 要公式如下(15)、(16):
exp是指数函数,u是模型期望,∑是模型方差,πk为权值因子,uk为第k个 组件数据点的均值,Pr(x)为GMM所得出的概率密度值,其中的参数估计通 过最大似然估计,每次迭代都由E步(求期望)和M步(最大化)组成,基本 思想是根据现有的数据猜测需要求取的参数,之后用己知的数据还有这个猜测 来计算未知参数可能取到的所有值的概率,取概率最大的作为下一次的猜测继 续进行这个计算,直到得到一个最有可能的猜测。
GMM的模型训练,方法分为2步,分别求解E和M,E就是Expectation 的意思,M就是Maximization的意思,EM要求解的问题一般形式如下,
其中θ为似然函数给定的参数,X为 音频的总体,xj为音频总体X的样本,Y是因变量,Pr为概率密度函数。EM 算法的基本思路是:随机初始化一组参数θ(0),根据后验概率Pr(Y|X;θ)来更新 Y的期望E(Y),E(Y)=E[lgPr(Y|X;θ)|X,θ(0)],然后用E(Y)代替Y求出新的模 型参数θ(1),如此迭代直到θ趋于稳定。
求解E的方法,假设模型参数已知的情况下求隐含变量Z分别取z1,z2,...zN的期望,亦即Z分别取z1,z2,...zN的概率。在GMM中就是求数据点由 各个组件生成的概率γ(i,k),
式(2)中:γ(i,k)代表当前观测数据属于第k个组件的概率,N(xi,uk,∑k)为 高斯混合密度函数,πk为权值因子,uk为第k个组件数据点的均值。求解M 就是用最大似然的方法求出模型参数。假设上一步求出的γ(i,k)就是数据点xi由组件k生成的概率。可以推出GMM的每一个参数的值,
其中,N为样本总数,属于K个组件的样本数量分别是N1,N2,…,Nk。
UBM模型是一个大型的GMM模型,UBM模型同样可以利用EM算法 来训练,并且UBM模型只需要训练一次,之后便可以反复利用,在训练过程 中,通过最大后验概率自适应,可以得到每个说话人的GMM模型。最大后验 概率主要公式如下:对于给定一个UBM模型:
其中,xt为说话人话语抽取出来的特征矢量,λ为说话人模型的特征分布中的 参数,pi(xt|λ)为特征矢量xt对应的似然率,Pr(i|xt)为训练矢量在UBM混合 成员中的概率分布,wi是每个高斯密度函数的权重,ni为第i个高斯混合加权 值,EI(X)为平均值向量。
如图2所示,一种基于机器学习的多人对话音频角色识别系统,包括 UBM-GMM训练模型1,用于对带标注的语音数据采用UBM-GMM算法进行 训练;第一音频分割单元2,用于根据待识别的多人对话音频数据的语音部分 和静音部分判断语音的停顿处,根据所述停顿处进行音频分割,得到分割后的 第一音频片段数据;第二音频分割单元3,采用BIC方法对所述第一音频片段 时长大于5秒的数据进行第二次分割,判断出真正的说话人的分隔点,并根据 分隔点划分音频数据得到第二音频片段;应用模型训练单元4,用于对所述第 二音频片段采用K-Means算法进行聚类,得到带聚类标注的语音样本,然后 抽取部分带聚类标注的语音样本作为样本放入所述UBM-GMM模型中,进行 准对型训练,得到准对型训练模型,根据所述准对型训练模型判断第二音频片 段中的身份;语音归类单元5,用于根据身份识别,得到相同身份的语音片段 聚集,将相同身份的语音进行归类;输出单元6,用于输出对话中每个人的语 音数据。
所述第二音频分割单元中的BIC方法对所述第一音频片段时长大于5秒 的数据进行第二次分割的方法:采用的公式为 ΔBIC=Nlg|ε0|-clg|ε1|-(N-c)lg|ε2|-αP(11),P=0.5(d+0.5d(d+1))lgN(12),式 (11)中,ΔBIC>0说明2个语音片段存在差异,应该切分,N是两段音频 经过分窗后所得的样本总数,ε是语音片段的协方差,ε0为未分割的总语音片 段协方差,ε1为左片段协方差,ε2为右片段协方差,c是左侧音频片段经过分 窗后所得的样本总数,α为惩罚因子,P为惩罚项,d是每个分窗样本的维度 数。
应用模型训练单元中第二音频片段采用K-Means算法进行聚类的具体方 法包括,从第二音频片段中选取长度大于2秒且有效语音占比大于0.7的音频 片段数据作为样本集,按照样本集之间的距离大小,样本集划分为K1个簇,让 簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大,假设簇划分为 (C1,C2,....CK1),则目标是最小化平方误差MSE:
其中Ci∈(C1,C2,....CK1),K1为样本集的簇数量,K1为整数,μi是簇Ci的均值向量。
应用模型训练单元中部分带聚类标注的语音样本选取距离K-Means聚类 中心点附近的20个长度大于3秒的语音样本,使同簇的数据能更好的紧密连 在一起,便于归类。
UBM-GMM训练模型中的UBM-GMM算法的具体步骤包括:分别求解E 和M,计算公式如下:
其中,其中θ为似然函数给定 的参数,X为音频的总体,xj为音频总体X的样本,Y是因变量,Pr为概率密 度函数。
假设模型参数已知的情况下求隐含变量Z分别取z1,z2,...zN的期望,亦即Z 分别取z1,z2,...zN的概率,在GMM中就是求数据点xi由各个组件生成的概率 γ(i,k),
其中:γ(i,k)代表当前观测数据属于第k个组件的概率,N(xi,uk,∑k)为高斯混合密度函数,πk为权值因子,uk为第k个组件数据点的均值,推出GMM的每 一个参数的值,
其中,N为样本总数,属于K个组件的样本数量分别是N1,N2,…,Nk。
UBM模型是一个大型的GMM模型,UBM模型同样利用EM算法来训练,在 训练过程中,通过最大后验概率自适应,得到每个说话人的GMM模型,计算 最大后验概率公式如下:
其中,xt为说话人话语抽取出来的特征矢量,λ为说话人模型的特征分布中的 参数,pi(xt|λ)为特征矢量xt对应的似然率,Pr(i|xt)为训练矢量在UBM混合 成员中的概率分布,wi是每个高斯密度函数的权重,ni为第i个高斯混合加权 值,EI(X)为平均值向量。
例如,采用上述方法对如图3所示的两个人对话的5分钟音频录音波形进 行处理:
首先通过对两个人对话的5分钟音频进行滤波,将两个人对话停顿处进行 分割,得到第一音频片段数据,之后用BIC准则对时长大于5秒的音频进行 二次分割,通过ΔBIC≥0是否成立,判断说话人在一个分析窗内有没有跳变点 发生,若大于0,说明一个分析窗内有跳变点,即将大于5秒的音频在跳变点 处进行第二次分割;从而,两个人对话的5分钟音频被分割成总样本为120 个短音频。
对于已经分隔好的120个音频,选择长度大于2秒且有效语音占比大于 0.7的音频片段进行K-Means聚类,由于已知为两个人对话的音频,将样本集 的簇数量K1设置为2(即K1=2)。通过K-Means聚类得到二类带聚类标注的 语音样本。
分别抽取二类带聚类标注距离K-Means聚类中心点附近的20个长度大于 3秒的语音样本作为训练样本放入UBM-GMM模型中进行准对型训练,得到 准对型训练模型,根据所述准对型训练模型对两个人(身份A,身份B)对话 的5分钟音频分割成总样本为120个短音频进行身份识别,将相同身份的语音 进行归类,输出对话中的角色为A的音频有55个,其中A身份的音频有51 个,B身份的音频为4个,识别准确率为92.7%;输出对话中的角色为B的音 频有65个,其中为B身份的音频有60个,A身份的音频有5个,识别准确 率为92.3%。
通过模型处理后,一共分隔出120段音频文件,识别情况如下表1:
对话中的角色 | 模型识别出的音频 | 模型识别正确的音频 | 识别准确率 |
A | 55 | 51 | 92.7% |
B | 65 | 60 | 92.3% |
表1通过模型识别的多人对话音频数据
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其 限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术 人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者 对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相 应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明 的权利要求和说明书的范围当中。
Claims (10)
1.一种基于机器学习的多人对话音频角色识别方法,其特征在于:具体步骤包括:对带标注的语音数据采用UBM-GMM算法进行训练,得到UBM-GMM模型;根据待识别的多人对话音频数据的语音部分和静音部分判断语音的停顿处,根据所述停顿处进行音频分割,得到分割后的第一音频片段数据;
采用BIC方法对所述第一音频片段时长大于5秒的数据进行第二次分割,判断出真正的说话人的分隔点,并根据分隔点划分音频数据得到第二音频片段;对所述第二音频片段采用K-Means算法进行聚类,得到带聚类标注的语音样本,然后抽取部分带聚类标注的语音样本作为样本放入所述UBM-GMM模型中,进行准对型训练,得到准对型训练模型,根据所述准对型训练模型判断第二音频片段中的身份;根据身份识别,得到相同身份的语音片段聚集,将相同身份的语音进行归类;输出对话中每个人的语音数据。
2.如权利要求1所述的基于机器学习的多人对话音频角色识别方法,其特征在于:所述BIC方法对所述第一音频片段时长大于5秒的数据进行第二次分割的方法:采用的公式为ΔBIC=Nlg|ε0|-clg|ε1|-(N-c)lg|ε2|-αP(11),P=0.5(d+0.5d(d+1))lgN(12),式(11)中,ΔBIC>0说明2个语音片段存在差异,应该切分,N是两段音频经过分窗后所得的样本总数,ε是语音片段的协方差,ε0为未分割的总语音片段协方差,ε1为左片段协方差,ε2为右片段协方差,c是左侧音频片段经过分窗后所得的样本总数,α为惩罚因子,P为惩罚项,d是每个分窗样本的维度数。
3.如权利要求1所述的基于机器学习的多人对话音频角色识别方法,其特征在于:对所述第二音频片段采用K-Means算法进行聚类的具体方法包括,从第二音频片段中选取长度大于2秒且有效语音占比大于0.7的音频片段数据作为样本集,按照样本集之间的距离大小,样本集划分为K1个簇,让簇内的点紧密的连在一起,而让簇间的距离大,假设簇划分为则目标是最小化平方误差MSE:其中K1为样本集的簇数量,K1为整数,μi是簇Ci的均值向量。
4.如权利要求1所述的基于机器学习的多人对话音频角色识别方法,其特征在于:所述部分带聚类标注的语音样本选取距离K-Means聚类中心点附近的20个长度大于3秒的语音样本。
5.如权利要求1所述的基于机器学习的多人对话音频角色识别方法,其特征在于:所述UBM-GMM算法的具体步骤包括:分别求解E和M,计算公式如下:
其中,θ为似然函数给定的参数,X为音频的总体,xj为音频总体X的样本,Y是因变量,Pr为概率密度函数,假设模型参数已知的情况下求隐含变量Z,分别求z1,z2,...zN的期望,在GMM中就是求数据点xi由各个组件生成的概率γ(i,k), 式(2)中,γ(i,k)代表当前观测数据属于第k个组件的概率,N(xi,uk,∑k)为高斯混合密度函数,πk为权值因子,uk为第k个组件数据点的均值,推出GMM的每一个参数的值,
<mrow>
<msub>
<mi>N</mi>
<mi>k</mi>
</msub>
<mo>=</mo>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</msubsup>
<mi>&gamma;</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
<mrow>
<mo>&Sigma;</mo>
<mi>k</mi>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<msub>
<mi>N</mi>
<mi>k</mi>
</msub>
</mfrac>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</msubsup>
<mi>&gamma;</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
<mrow>
<msub>
<mi>u</mi>
<mi>k</mi>
</msub>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<msub>
<mi>N</mi>
<mi>k</mi>
</msub>
</mfrac>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</msubsup>
<mi>&gamma;</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
<mrow>
<msub>
<mi>&pi;</mi>
<mi>k</mi>
</msub>
<mo>=</mo>
<mfrac>
<msub>
<mi>N</mi>
<mi>k</mi>
</msub>
<mi>N</mi>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>6</mn>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
其中,N为样本总数,属于K个组件的样本数量分别是N1,N2,…,Nk,UBM模型是一个大型的GMM模型,UBM模型同样利用EM算法来训练,在训练过程中,通过最大后验概率自适应,得到每个说话人的GMM模型,计算最大后验概率公式如下:
<mrow>
<mi>Pr</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>|</mo>
<msub>
<mi>x</mi>
<mi>t</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<msub>
<mi>p</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>t</mi>
</msub>
<mo>|</mo>
<mi>&lambda;</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>k</mi>
</msubsup>
<msub>
<mi>w</mi>
<mi>j</mi>
</msub>
<msub>
<mi>p</mi>
<mi>j</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>t</mi>
</msub>
<mo>|</mo>
<mi>&lambda;</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>7</mn>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
<mrow>
<msub>
<mi>n</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>t</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>T</mi>
</msubsup>
<mi>Pr</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>|</mo>
<msub>
<mi>x</mi>
<mi>t</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>8</mn>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
<mrow>
<msub>
<mi>E</mi>
<mi>I</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>X</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<msub>
<mi>n</mi>
<mi>i</mi>
</msub>
</mfrac>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>t</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>T</mi>
</msubsup>
<mi>Pr</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>|</mo>
<msub>
<mi>x</mi>
<mi>t</mi>
</msub>
<mo>)</mo>
</mrow>
<msub>
<mi>x</mi>
<mi>t</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>9</mn>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
其中,xt为说话人话语抽取出来的特征矢量,λ为说话人模型的特征分布中的参数,pi(xt|λ)为特征矢量xt对应的似然率,Pr(i|xt)为训练矢量在UBM混合成员中的概率分布,wi是每个高斯密度函数的权重,ni为第i个高斯混合加权值,EI(X)为平均值向量。
6.一种基于机器学习的多人对话音频角色识别系统,其特征在于:包括UBM-GMM训练模型,用于对带标注的语音数据采用UBM-GMM算法进行训练;第一音频分割单元,用于根据待识别的多人对话音频数据的语音部分和静音部分判断语音的停顿处,根据所述停顿处进行音频分割,得到分割后的第一音频片段数据;第二音频分割单元,采用BIC方法对所述第一音频片段时长大于5秒的数据进行第二次分割,判断出真正的说话人的分隔点,并根据分隔点划分音频数据得到第二音频片段;应用模型训练单元,用于对所述第二音频片段采用K-Means算法进行聚类,得到带聚类标注的语音样本,然后抽取部分带聚类标注的语音样本作为样本放入所述UBM-GMM模型中,进行准对型训练,得到准对型训练模型,根据所述准对型训练模型判断第二音频片段中的身份;语音归类单元,用于根据身份识别,得到相同身份的语音片段聚集,将相同身份的语音进行归类;输出单元,用于输出对话中每个人的语音数据。
7.如权利要求6所述的系统,其特征在于:所述第二音频分割单元中的BIC方法对所述第一音频片段时长大于5秒的数据进行第二次分割的方法:采用的公式为ΔBIC=Nlg|ε0|-clg|ε1|-(N-c)lg|ε2|-αP(11),P=0.5(d+0.5d(d+1))lgN(12),式(11)中,ΔBIC>0说明2个语音片段存在差异,应该切分,N是两段音频经过分窗后所得的样本总数,ε是语音片段的协方差,ε0为未分割的总语音片段协方差,ε1为左片段协方差,ε2为右片段协方差,c是左侧音频片段经过分窗后所得的样本总数,α为惩罚因子,P为惩罚项,d是每个分窗样本的维度数。
8.如权利要求6所述的系统,其特征在于:所述应用模型训练单元中第二音频片段采用K-Means算法进行聚类的具体方法包括,从第二音频片段中选取长度大于2秒且有效语音占比大于0.7的音频片段数据作为样本集,按照样本集之间的距离大小,样本集划分为K1个簇,让簇内的点紧密的连在一起,而让簇间的距离大,假设簇划分为则目标是最小化平方误差MSE:
其中K1为样本集的簇数量,K1为整数,μi是簇Ci的均值向量。
9.如权利要求6所述的系统,其特征在于:所述应用模型训练单元中部分带聚类标注的语音样本选取距离K-Means聚类中心点附近的20个长度大于3秒的语音样本。
10.如权利要求6所述的系统,其特征在于:所述UBM-GMM训练模型中的UBM-GMM算法的具体步骤包括:分别求解E和M,计算公式如下:
其中,θ为似然函数给定的参数,X为音频的总体,xj为音频总体X的样本,Y是因变量,Pr为概率密度函数,假设模型参数已知的情况下求隐含变量Z分别取z1,z2,...zN的期望,在GMM中就是求数据点xi由各个组件生成的概率γ(i,k),
其中,γ(i,k)代表当前观测数据属于第k个组件的概率,N(xi,uk,∑k)为高斯混合密度函数,πk为权值因子,uk为第k个组件数据点的均值,推出GMM的每一个参数的值,
<mrow>
<msub>
<mi>N</mi>
<mi>k</mi>
</msub>
<mo>=</mo>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</msubsup>
<mi>&gamma;</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
<mrow>
<mo>&Sigma;</mo>
<mi>k</mi>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<msub>
<mi>N</mi>
<mi>k</mi>
</msub>
</mfrac>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</msubsup>
<mi>&gamma;</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
<mrow>
<msub>
<mi>u</mi>
<mi>k</mi>
</msub>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<msub>
<mi>N</mi>
<mi>k</mi>
</msub>
</mfrac>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</msubsup>
<mi>&gamma;</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
<mrow>
<msub>
<mi>&pi;</mi>
<mi>k</mi>
</msub>
<mo>=</mo>
<mfrac>
<msub>
<mi>N</mi>
<mi>k</mi>
</msub>
<mi>N</mi>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>6</mn>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
其中,N为样本总数,属于K个组件的样本数量分别是N1,N2,…,Nk,UBM模型是一个大型的GMM模型,UBM模型同样利用EM算法来训练,在训练过程中,通过最大后验概率自适应,得到每个说话人的GMM模型,计算最大后验概率公式如下:
<mrow>
<mi>Pr</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>|</mo>
<msub>
<mi>x</mi>
<mi>t</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<msub>
<mi>p</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>t</mi>
</msub>
<mo>|</mo>
<mi>&lambda;</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>k</mi>
</msubsup>
<msub>
<mi>w</mi>
<mi>j</mi>
</msub>
<msub>
<mi>p</mi>
<mi>j</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>t</mi>
</msub>
<mo>|</mo>
<mi>&lambda;</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>7</mn>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
<mrow>
<msub>
<mi>n</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>t</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>T</mi>
</msubsup>
<mi>Pr</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>|</mo>
<msub>
<mi>x</mi>
<mi>t</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>8</mn>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
<mrow>
<msub>
<mi>E</mi>
<mi>I</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>X</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<msub>
<mi>n</mi>
<mi>i</mi>
</msub>
</mfrac>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>t</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>T</mi>
</msubsup>
<mi>Pr</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>|</mo>
<msub>
<mi>x</mi>
<mi>t</mi>
</msub>
<mo>)</mo>
</mrow>
<msub>
<mi>x</mi>
<mi>t</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>9</mn>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
其中,xt为说话人话语抽取出来的特征矢量,λ为说话人模型的特征分布中的参数,pi(xt|λ)为特征矢量xt对应的似然率,Pr(i|xt)为训练矢量在UBM混合成员中的概率分布,wi是每个高斯密度函数的权重,ni为第i个高斯混合加权值,EI(X)为平均值向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710616434.8A CN107358945A (zh) | 2017-07-26 | 2017-07-26 | 一种基于机器学习的多人对话音频识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710616434.8A CN107358945A (zh) | 2017-07-26 | 2017-07-26 | 一种基于机器学习的多人对话音频识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107358945A true CN107358945A (zh) | 2017-11-17 |
Family
ID=60285636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710616434.8A Pending CN107358945A (zh) | 2017-07-26 | 2017-07-26 | 一种基于机器学习的多人对话音频识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107358945A (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108538312A (zh) * | 2018-04-28 | 2018-09-14 | 华中师范大学 | 基于贝叶斯信息准则的数字音频篡改点自动定位的方法 |
CN108597521A (zh) * | 2018-05-04 | 2018-09-28 | 徐涌 | 音频角色分割与识别文字的交互系统、方法、终端及介质 |
CN108615532A (zh) * | 2018-05-03 | 2018-10-02 | 张晓雷 | 一种应用于声场景的分类方法及装置 |
CN108735200A (zh) * | 2018-06-27 | 2018-11-02 | 北京灵伴即时智能科技有限公司 | 一种说话人自动标注方法 |
CN108897797A (zh) * | 2018-06-12 | 2018-11-27 | 腾讯科技(深圳)有限公司 | 对话模型的更新训练方法、装置、存储介质及电子设备 |
CN109461447A (zh) * | 2018-09-30 | 2019-03-12 | 厦门快商通信息技术有限公司 | 一种基于深度学习的端到端说话人分割方法及系统 |
CN109461441A (zh) * | 2018-09-30 | 2019-03-12 | 汕头大学 | 一种自适应、无监督式的课堂教学活动智能感知方法 |
CN109686382A (zh) * | 2018-12-29 | 2019-04-26 | 平安科技(深圳)有限公司 | 一种说话人聚类方法和装置 |
CN109743624A (zh) * | 2018-12-14 | 2019-05-10 | 深圳壹账通智能科技有限公司 | 视频切割方法、装置、计算机设备和存储介质 |
CN110197286A (zh) * | 2019-05-10 | 2019-09-03 | 武汉理工大学 | 一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法 |
CN110533085A (zh) * | 2019-08-12 | 2019-12-03 | 大箴(杭州)科技有限公司 | 同人识别方法及装置、存储介质、计算机设备 |
CN110889009A (zh) * | 2019-10-18 | 2020-03-17 | 平安科技(深圳)有限公司 | 一种声纹聚类方法、装置、处理设备以及计算机存储介质 |
CN111554273A (zh) * | 2020-04-28 | 2020-08-18 | 华南理工大学 | 一种语音关键词识别中扩增语料的选取方法 |
CN111580156A (zh) * | 2019-02-18 | 2020-08-25 | 中国石油天然气股份有限公司 | 一种地震零值切片自动拾取方法及系统 |
CN111639223A (zh) * | 2020-05-26 | 2020-09-08 | 广东小天才科技有限公司 | 一种用于口语练习的虚拟对象的音频生成方法及电子设备 |
WO2020199013A1 (en) * | 2019-03-29 | 2020-10-08 | Microsoft Technology Licensing, Llc | Speaker diarization with early-stop clustering |
CN112820293A (zh) * | 2020-12-31 | 2021-05-18 | 讯飞智元信息科技有限公司 | 一种语音识别方法及相关装置 |
CN114186559A (zh) * | 2021-12-09 | 2022-03-15 | 北京深维智信科技有限公司 | 一种从销售会话中确定会话主体角色标签的方法及系统 |
US11804228B2 (en) | 2018-09-10 | 2023-10-31 | Samsung Electronics Co., Ltd. | Phoneme-based speaker model adaptation method and device |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101241699A (zh) * | 2008-03-14 | 2008-08-13 | 北京交通大学 | 一种远程汉语教学中的说话人确认系统 |
CN101833951A (zh) * | 2010-03-04 | 2010-09-15 | 清华大学 | 用于说话人识别的多背景模型建立方法 |
CN102270451A (zh) * | 2011-08-18 | 2011-12-07 | 安徽科大讯飞信息科技股份有限公司 | 说话人识别方法及系统 |
CN102655002A (zh) * | 2011-03-01 | 2012-09-05 | 株式会社理光 | 音频处理方法和音频处理设备 |
CN102737633A (zh) * | 2012-06-21 | 2012-10-17 | 北京华信恒达软件技术有限公司 | 一种基于张量子空间分析的说话人识别方法及其装置 |
CN103219008A (zh) * | 2013-05-16 | 2013-07-24 | 清华大学 | 基于基状态矢量加权的短语音说话人识别方法 |
CN103400580A (zh) * | 2013-07-23 | 2013-11-20 | 华南理工大学 | 一种多人会话语音中的说话人重要程度估计方法 |
US20130325473A1 (en) * | 2012-05-31 | 2013-12-05 | Agency For Science, Technology And Research | Method and system for dual scoring for text-dependent speaker verification |
CN104835498A (zh) * | 2015-05-25 | 2015-08-12 | 重庆大学 | 基于多类型组合特征参数的声纹识别方法 |
CN105096300A (zh) * | 2014-05-08 | 2015-11-25 | 株式会社理光 | 对象检测方法和设备 |
CN106057206A (zh) * | 2016-06-01 | 2016-10-26 | 腾讯科技(深圳)有限公司 | 声纹模型训练方法、声纹识别方法及装置 |
CN106157135A (zh) * | 2016-07-14 | 2016-11-23 | 微额速达(上海)金融信息服务有限公司 | 基于声纹识别性别年龄的防欺诈系统及方法 |
CN106782507A (zh) * | 2016-12-19 | 2017-05-31 | 平安科技(深圳)有限公司 | 语音分割的方法及装置 |
-
2017
- 2017-07-26 CN CN201710616434.8A patent/CN107358945A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101241699A (zh) * | 2008-03-14 | 2008-08-13 | 北京交通大学 | 一种远程汉语教学中的说话人确认系统 |
CN101833951A (zh) * | 2010-03-04 | 2010-09-15 | 清华大学 | 用于说话人识别的多背景模型建立方法 |
CN102655002A (zh) * | 2011-03-01 | 2012-09-05 | 株式会社理光 | 音频处理方法和音频处理设备 |
CN102270451A (zh) * | 2011-08-18 | 2011-12-07 | 安徽科大讯飞信息科技股份有限公司 | 说话人识别方法及系统 |
US20130325473A1 (en) * | 2012-05-31 | 2013-12-05 | Agency For Science, Technology And Research | Method and system for dual scoring for text-dependent speaker verification |
CN102737633A (zh) * | 2012-06-21 | 2012-10-17 | 北京华信恒达软件技术有限公司 | 一种基于张量子空间分析的说话人识别方法及其装置 |
CN103219008A (zh) * | 2013-05-16 | 2013-07-24 | 清华大学 | 基于基状态矢量加权的短语音说话人识别方法 |
CN103400580A (zh) * | 2013-07-23 | 2013-11-20 | 华南理工大学 | 一种多人会话语音中的说话人重要程度估计方法 |
CN105096300A (zh) * | 2014-05-08 | 2015-11-25 | 株式会社理光 | 对象检测方法和设备 |
CN104835498A (zh) * | 2015-05-25 | 2015-08-12 | 重庆大学 | 基于多类型组合特征参数的声纹识别方法 |
CN106057206A (zh) * | 2016-06-01 | 2016-10-26 | 腾讯科技(深圳)有限公司 | 声纹模型训练方法、声纹识别方法及装置 |
CN106157135A (zh) * | 2016-07-14 | 2016-11-23 | 微额速达(上海)金融信息服务有限公司 | 基于声纹识别性别年龄的防欺诈系统及方法 |
CN106782507A (zh) * | 2016-12-19 | 2017-05-31 | 平安科技(深圳)有限公司 | 语音分割的方法及装置 |
Non-Patent Citations (4)
Title |
---|
RACHEL-ZHANG: "GMM的EM算法实现", 《CSDN》 * |
刘建平PINARD: "k-means聚类算法原理", 《博客园》 * |
斯台半居: "k-均值算法简介", 《CSDN》 * |
陌冢: "聚类之均值聚类(k-means)算法的python实现", 《CSDN》 * |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108538312A (zh) * | 2018-04-28 | 2018-09-14 | 华中师范大学 | 基于贝叶斯信息准则的数字音频篡改点自动定位的方法 |
CN108615532A (zh) * | 2018-05-03 | 2018-10-02 | 张晓雷 | 一种应用于声场景的分类方法及装置 |
CN108615532B (zh) * | 2018-05-03 | 2021-12-07 | 张晓雷 | 一种应用于声场景的分类方法及装置 |
CN108597521A (zh) * | 2018-05-04 | 2018-09-28 | 徐涌 | 音频角色分割与识别文字的交互系统、方法、终端及介质 |
CN108897797A (zh) * | 2018-06-12 | 2018-11-27 | 腾讯科技(深圳)有限公司 | 对话模型的更新训练方法、装置、存储介质及电子设备 |
CN108735200A (zh) * | 2018-06-27 | 2018-11-02 | 北京灵伴即时智能科技有限公司 | 一种说话人自动标注方法 |
US11804228B2 (en) | 2018-09-10 | 2023-10-31 | Samsung Electronics Co., Ltd. | Phoneme-based speaker model adaptation method and device |
CN109461441A (zh) * | 2018-09-30 | 2019-03-12 | 汕头大学 | 一种自适应、无监督式的课堂教学活动智能感知方法 |
CN109461447B (zh) * | 2018-09-30 | 2023-08-18 | 厦门快商通信息技术有限公司 | 一种基于深度学习的端到端说话人分割方法及系统 |
CN109461447A (zh) * | 2018-09-30 | 2019-03-12 | 厦门快商通信息技术有限公司 | 一种基于深度学习的端到端说话人分割方法及系统 |
CN109461441B (zh) * | 2018-09-30 | 2021-05-11 | 汕头大学 | 一种自适应、无监督式的课堂教学活动智能感知方法 |
CN109743624A (zh) * | 2018-12-14 | 2019-05-10 | 深圳壹账通智能科技有限公司 | 视频切割方法、装置、计算机设备和存储介质 |
CN109743624B (zh) * | 2018-12-14 | 2021-08-17 | 深圳壹账通智能科技有限公司 | 视频切割方法、装置、计算机设备和存储介质 |
CN109686382A (zh) * | 2018-12-29 | 2019-04-26 | 平安科技(深圳)有限公司 | 一种说话人聚类方法和装置 |
CN111580156A (zh) * | 2019-02-18 | 2020-08-25 | 中国石油天然气股份有限公司 | 一种地震零值切片自动拾取方法及系统 |
CN112204657A (zh) * | 2019-03-29 | 2021-01-08 | 微软技术许可有限责任公司 | 利用提前停止聚类的讲话者分离 |
WO2020199013A1 (en) * | 2019-03-29 | 2020-10-08 | Microsoft Technology Licensing, Llc | Speaker diarization with early-stop clustering |
CN112204657B (zh) * | 2019-03-29 | 2023-12-22 | 微软技术许可有限责任公司 | 利用提前停止聚类的讲话者分离 |
CN110197286B (zh) * | 2019-05-10 | 2021-03-16 | 武汉理工大学 | 一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法 |
CN110197286A (zh) * | 2019-05-10 | 2019-09-03 | 武汉理工大学 | 一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法 |
CN110533085A (zh) * | 2019-08-12 | 2019-12-03 | 大箴(杭州)科技有限公司 | 同人识别方法及装置、存储介质、计算机设备 |
CN110533085B (zh) * | 2019-08-12 | 2022-04-01 | 大箴(杭州)科技有限公司 | 同人识别方法及装置、存储介质、计算机设备 |
CN110889009A (zh) * | 2019-10-18 | 2020-03-17 | 平安科技(深圳)有限公司 | 一种声纹聚类方法、装置、处理设备以及计算机存储介质 |
CN110889009B (zh) * | 2019-10-18 | 2023-07-21 | 平安科技(深圳)有限公司 | 一种声纹聚类方法、装置、处理设备以及计算机存储介质 |
WO2021072893A1 (zh) * | 2019-10-18 | 2021-04-22 | 平安科技(深圳)有限公司 | 一种声纹聚类方法、装置、处理设备以及计算机存储介质 |
CN111554273A (zh) * | 2020-04-28 | 2020-08-18 | 华南理工大学 | 一种语音关键词识别中扩增语料的选取方法 |
CN111554273B (zh) * | 2020-04-28 | 2023-02-10 | 华南理工大学 | 一种语音关键词识别中扩增语料的选取方法 |
CN111639223A (zh) * | 2020-05-26 | 2020-09-08 | 广东小天才科技有限公司 | 一种用于口语练习的虚拟对象的音频生成方法及电子设备 |
CN111639223B (zh) * | 2020-05-26 | 2024-04-19 | 广东小天才科技有限公司 | 一种用于口语练习的虚拟对象的音频生成方法及电子设备 |
CN112820293A (zh) * | 2020-12-31 | 2021-05-18 | 讯飞智元信息科技有限公司 | 一种语音识别方法及相关装置 |
CN114186559A (zh) * | 2021-12-09 | 2022-03-15 | 北京深维智信科技有限公司 | 一种从销售会话中确定会话主体角色标签的方法及系统 |
CN114186559B (zh) * | 2021-12-09 | 2022-09-13 | 北京深维智信科技有限公司 | 一种从销售会话中确定会话主体角色标签的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107358945A (zh) | 一种基于机器学习的多人对话音频识别方法及系统 | |
CN105469784B (zh) | 一种基于概率线性鉴别分析模型的说话人聚类方法及系统 | |
CN104732978B (zh) | 基于联合深度学习的文本相关的说话人识别方法 | |
Campbell et al. | Forensic speaker recognition | |
Burget et al. | Analysis of feature extraction and channel compensation in a GMM speaker recognition system | |
CN104167208B (zh) | 一种说话人识别方法和装置 | |
CN108305616A (zh) | 一种基于长短时特征提取的音频场景识别方法及装置 | |
CN108231067A (zh) | 基于卷积神经网络与随机森林分类的声音场景识别方法 | |
CN107393554A (zh) | 一种声场景分类中融合类间标准差的特征提取方法 | |
CN105261367B (zh) | 一种说话人识别方法 | |
CN110544481B (zh) | 一种基于声纹识别的s-t分类方法、装置及设备终端 | |
CN110299142B (zh) | 一种基于网络融合的声纹识别方法及装置 | |
CN103985381A (zh) | 一种基于参数融合优化决策的音频索引方法 | |
CN102968990A (zh) | 说话人识别方法和系统 | |
CN109346084A (zh) | 基于深度堆栈自编码网络的说话人识别方法 | |
CN106448681A (zh) | 一种超矢量的说话人辨认方法 | |
CN104269169A (zh) | 一种混叠音频事件分类方法 | |
CN110176250A (zh) | 一种基于局部学习的鲁棒声学场景识别方法 | |
CN103336842B (zh) | 一种基于聚类和投票机制的主动学习初始样本选择方法 | |
CN104464738B (zh) | 一种面向智能移动设备的声纹识别方法 | |
CN105845143A (zh) | 基于支持向量机的说话人确认方法及其系统 | |
CN102237089A (zh) | 一种减少文本无关说话人识别系统误识率的方法 | |
CN107871498A (zh) | 一种基于Fisher准则以提高语音识别率的混合特征组合算法 | |
Reynolds et al. | The Lincoln speaker recognition system: NIST EVAL2000 | |
CN104318931A (zh) | 一种音频文件的情绪活跃度获取方法及分类方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200123 Address after: 510000 3-25-2, No. 309, Huangpu Avenue middle, Tianhe District, Guangzhou City, Guangdong Province Applicant after: Guangzhou xinyuxinban Internet Information Service Co., Ltd Address before: 510700 room 17, No. 1807 North st street, Whampoa District, Guangdong, Guangzhou Applicant before: Xie Bing Applicant before: Xu Yong |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171117 |