CN103985381B - 一种基于参数融合优化决策的音频索引方法 - Google Patents

一种基于参数融合优化决策的音频索引方法 Download PDF

Info

Publication number
CN103985381B
CN103985381B CN201410209057.2A CN201410209057A CN103985381B CN 103985381 B CN103985381 B CN 103985381B CN 201410209057 A CN201410209057 A CN 201410209057A CN 103985381 B CN103985381 B CN 103985381B
Authority
CN
China
Prior art keywords
parameter
model
quantum
fusion
making
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410209057.2A
Other languages
English (en)
Other versions
CN103985381A (zh
Inventor
杨毅
刘加
孙甲松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201410209057.2A priority Critical patent/CN103985381B/zh
Publication of CN103985381A publication Critical patent/CN103985381A/zh
Application granted granted Critical
Publication of CN103985381B publication Critical patent/CN103985381B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明为一种针对真实场景下的语音数据进行音频索引的方法,将输入的语音信号进行预处理和初始化后进行声学特征提取,然后分别进行基于高斯混合模型的优化学习及量子学习,将高斯混合模型参数与量子学习参数进行融合,最后基于分类决策给出分类结果,本发明中的量子学习方法是将常规类别进行线性叠加来构建量子态,并将量子态作为计算模型的状态。将这种方法扩展为通用分类学习方法,可有效地解决会议场景下多个说话人混合的通用说话人分类问题。

Description

一种基于参数融合优化决策的音频索引方法
技术领域
本发明属于音频技术领域,涉及对会议场景下的语音数据进行音频索引,具体涉及一种基于参数融合优化决策的音频索引方法。
背景技术
音频索引是一种从音频中自动提取信息并进行目标内容搜索的技术,其目的是按一定的方式对海量语音信号进行分析和检索,提取特定目标信息。在音频索引中需要获取信息包括说话内容和说话人身份。音频索引一般在时域上对音频信号按来源和分类进行标记索引,其索引内容包括但不限于:说话人身份、说话内容、音乐、背景噪声及其他内容。音频索引需要确定出某一说话人与另一说话人之间的切换时刻,并标记出每个语音段对应的说话人身份。音频索引可应用于电话语音、广播新闻和语音会议等场景,能够实现音频数据的结构化分析、理解和管理。
会议场景下的音频索引可视为基于说话人的语音信号自动优化和分离方法,上述音频索引通常包括三个部分:说话人特征提取、说话人分段、说话人聚类。
传统的说话人特征包括:MFCC(Mel Frequency Cepstral Coefficients)、LFCC(Linear Frequency Cepstral Coefficients)、PLP(Perceptual Linear Predictive)、LPC(Linear Predictive Coding)等感知特征;最近提出的新的说话人特征包括:鲁棒性较优的同步掩蔽和前向掩蔽感知特征;基于听神经放电时间信息的子带自相关特征;调频谱特征和频域线性预测特征;还可以利用汉明窗提取语音信号中若干情感特征参数。此外还包括如下提取说话人特征的方法:特征弯曲(warping)技术将特征的PDF包络改为高斯包络,可以避免背景噪声和其他干扰的影响;通过在聚类之前先将特征矢量投影到说话人子空间则可以提高说话人特征的鉴别性;将传统短时特征与节律(Prosodic)和其他长时特征(如基频、能量、共振峰、长时平均谱等)结合;根据给定的训练样本集选择最优小波包基.从被识别或分类的信号中提取具有最大可分性的特征。
基于测度的算法是最常用的说话人分段算法,通过计算两个声学段(通常是连续的)之间的距离来决策他们属于同一说话人或不同说话人,如果属于不同说话人,则需要判定是否存在说话人变更点。用于进行变更点判定的距离算法也可应用在说话人聚类方面来比较两个声学段是否属于同一说话人。通常用两类距离来定义一对声学段的距离,一类是不考虑数据的模型,仅利用足够多的统计数据进行计算,称为基于统计的距离,这种方法在声学段足够长的时候快速高效,将数据用一个唯一的均值和方差代表;第二类则评估数据与其模型的相似度,该方法计算较慢,但对复杂数据处理效果较好,称为基于相似度的距离。距离定义包括:贝叶斯信息准则、通用相似度评估、Gish距离。所有基于量度的技术都需要计算一个函数,其极值需要与阈值相比来决定每个变更点的合适度。
说话人聚类则采用混合高斯模型(Gaussian Mixture Model,GMM)或支持向量机(Support Vector Machine,SVM)来计算,前者需要对说话人模型进行生成训练,如最大似然或最大后验估计,后者需要对说话人模型进行差别训练,目前主流的技术为GMM-SVM,通过GMM建立概率密度分布模型并通过Kullback-Leibler散度上界来测量概率密度分布。虽然GMM-SVM系统性能较好,但仍存在GMM参数过多及通用性较差的问题。对于第一个问题,NAP等技术相继被提出,使得GMM-SVM系统的识别正确率进一步提高,不过在训练NAP模型时仅考虑了同类集合间的度量,未考虑异类集合间的度量;对于第二个问题,可引入量子学习理论进行处理。.
发明内容
为了克服上述现有技术的不足,本发明的目的在于提供了一种基于参数融合优化决策的音频索引方法,由高斯混合模型和量子学习模型参数构成。量子学习模型是一种在数据分布中增加量子控制参数的分类算法,主要方法是将常规类别进行线性叠加来构建量子态,并将量子态作为计算模型的状态。通过从训练集中学习并找到一种低误差分类器,对测试集进行分类决策并进行标记,可以解决多类混合状态问题。这种方法可用于处理多人多方会议中的音频索引问题。
为了实现上述目的,本发明采用的技术方案是:
一种基于参数融合优化决策的音频索引方法,包括以下步骤:
第一步,采用声传感器进行系统输入信号采集;
第二步,对所采集信号进行预处理;
第三步,提取声学特征;
第四步,采用高斯混合模型对声学特征建立分类模型;
第五步,采用量子学习模型对声学特征建立分类模型;
第六步,对上述传统优化学习和量子学习获得的模型的参数进行参数融合,得到融合模型分类器;
第七步,分类决策给出分类结果;
第八步,系统输出分类结果,包括全部的语音频段及其相应的分类信息。
所述第一步中的声传感器包括独立声传感器和便携设备上的声传感器。
所述第二步中的预处理包括预加重、分帧、加窗以及端点检测。
所述第三步中的声学特征为Mel频率倒谱系数或/和线性预测倒谱系数。
所述第四步中,对声学特征建立高斯混合分类模型,对不同说话人的声学特征所具有的概率密度函数进行建模,对这些特征进行聚类,用高斯分布函数来分别描述每个类,将这些类作为训练模板,随后将观测序列代入模板,找到最大后验概率。
所述第五步中,对声学特征建立量子学习分类模型,将常规类别进行线性叠加来构建量子态,并将量子态作为计算模型的状态。
所述第六步中,需要融合的参数由传统优化学习模型参数和量子学习模型参数构成,通过加权完成参数融合。
所述参数融合的方法是:在得到高斯混合模型参数后,按照获得的权重大小将模型分量进行排序w1>w2...>wn,其中w1,w2,...,wfloor(n/2)对应的模型分量构成高权重分量集合H,w(floor(n/2)+1),w(floor(n/2)+2),...,wn对应的模型分量构成低权重分量集合L,floor为下取整函数;在得到量子学习模型参数后,按照同样方法获得权重,将模型分量按照大小进行排序,构成高权重分量集合H'和低权重分量集合L',量子学习模型的置信度与训练数据个数无关;融合模型分类器最终输出来自高斯混合模型的高权重分量集合H和来自量子学习模型的低权重分量集合L'。
所述第七步中,分类决策由多个不同的分类器给出各自得分,通过决策级融合完成具有鲁棒性优化和最佳分类效果的决策输出,决策级融合后的分类决策即为分类结果。
本发明与现有技术相比,优点在于:
本发明建立了一种基于高斯混合模型参数及量子学习参数融合优化决策的音频索引方法,其中量子学习模型是一种在数据分布中增加量子控制参数的分类算法,主要方法是将常规类别进行线性叠加来构建量子态,并将量子态作为计算模型的状态。通过从训练集中学习并找到一种低误差分类器,对测试集进行分类决策并进行标记,可以解决多类混合状态问题。通过上述融合分类学习方法的扩展,可有效地解决会议场景下多个说话人混合的通用说话人分类问题。
附图说明
图1是本发明基于参数融合优化决策的说话人分类流程图。
具体实施方式
下面结合附图和实施例对本发明做进一步详细说明。
如图1所示,本发明为一种基于参数融合优化决策的音频索引方法,包括:
语音信号输入步骤101,采用声传感器进行系统输入信号采集,按说话人身份对数据进行分类;包括在多媒体会议中通过声传感器采集的全部语音频信号,有可能除了语音信号之外还包括音乐、环境噪声等其他信号。其目标在于,在多媒体会议中按说话人身份对数据进行分类,这类多媒体会议包括电话或视频会议。这些方法和装置不局限于任何已知的独立声传感器如麦克风等,也可以是任何便携设备如笔记本电脑或PDA设备上的声传感器。
预处理102,对所采集信号进行预处理,包括预加重、分帧、加窗以及端点检测等手段。
信号初始化103,进行噪声消除和有声段/无声段检测等。
声学特征提取104,提取声学特征作为说话人鉴别信息,这些声学特征可以为梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)或线性预测倒谱系数(Linear Frequency Cepstral Coefficients,LPCC)等,此外还存在将多种声学特征融合的特征,这种融合特征提供了更多鉴别信息,可以进一步提高分类正确率。
上述的步骤102、103、104共同完成整个特征提取部分。
特征提取步骤完成之后,对不同说话人的声学特征所具有的概率密度函数进行建模,构建高斯混合模型105,将每个说话人视作一个类别,用高斯分布函数来分别描述每个类,将这些类作为训练模板,随后将观测序列代入模板,找到最大后验概率。
其具体方式如下:
假设训练数据用N维列向量y=(y0,y1,…,yN-1)t表示,其中yi∈y代表第i个训练数据的特征矢量,y属于K个不同的类。定义y对应的标签为N维矢量x=(x0,x1,…,xN-1)t,xi∈{0,1…,K-1},xi∈x代表第i个训练数据对应的标签,xi用来表示x0,x1,…,xN-1,定义x由如下公式产生:
P ( x | α ) = Π i = 0 N - 1 Σ k = 0 K - 1 α k δ x i , k
其中参数α={α01,…,αK-1}需要满足δa,b是克罗内克δ函数,k为类别。
定义y由如下公式产生:
P ( y | x , μ , σ ) = Π i = 0 N - 1 g x i ( y i | μ , σ )
其中高斯分布函数定义为 g x i ( y i | μ , σ ) = 1 2 π σ k exp ( - 1 2 σ k 2 ( y i - μ k ) 2 ) , 式中μ={μ01,…,μK-1}和σ={σ01,…,σK-1}分别代表分布的均值和方差,μk∈μ代表第k类数据的均值,σk∈σ代表第k类数据的方差。x和y的联合概率函数为:
P ( x , y | α , μ , σ ) = P ( y | x , μ , σ ) P ( x | α ) = Π i = 0 N - 1 α x i g x i ( y i | σ , α )
通过最大化如下的边缘似然函数
P ( y | α , μ , σ ) = Σ x 0 = 0 K - 1 Σ x 2 = 0 K - 1 . . . Σ x N - 1 = 0 K - 1 P ( x , y | α , μ , σ ) = Π i = 0 N - 1 Π x i = 0 K - 1 α x i g x i ( y i | σ , α )
可以获得训练模板的参数μ,σ,α的估计值:
μ ^ k = Σ i = 0 N - 1 y i Ψ i ( k | μ ^ , σ ^ , α ^ ) Σ i = 0 N - 1 Ψ i ( k | μ ^ , σ ^ , α ^ )
α ^ k = 1 N Σ i = 0 N - 1 Ψ i ( k | μ ^ , σ ^ , α ^ )
σ ^ k 2 = Σ i = 0 N - 1 ( y i - μ ^ k ) 2 Ψ i ( k | μ ^ , σ ^ , α ^ ) Σ i = 0 N - 1 Ψ i ( k | μ ^ , σ ^ , α ^ )
其中 Ψ i ( k | μ , σ , α ) = α k g k ( y i - μ , σ ) Σ k = 0 K - 1 α k g k ( y i | μ , σ ) .
最后依据贝叶斯公式,可以得到测试数据y'对应的标签x'的后验概率为:
P ( x ′ | y ′ , μ ^ , σ ^ , α ^ ) = P ( x ′ , y ′ | μ ^ , σ ^ , α ^ ) P ( y ′ | μ ^ , σ ^ , α ^ ) = Π i = 0 N - 1 Ψ i ( x i ′ | μ ^ , σ ^ , α ^ )
通过最大化上述后验概率可以得到x'的最优估计。
高斯混合模型105完成后开始建立量子学习模型106,在量子学习模型中,假设训练数据用N维列向量y=(y0,y1,…,yN-1)t表示,y属于K个不同的类,将yi对应的每个类别标签Xi定义为一个K×K维的量子态矩阵,且其中l,l',k,k'∈{0,1,…,K-1},δa,b是克罗内克δ函数,〈Q(t)〉代表量子态Q(t)在t>0的时间内的期望值。
定义边缘似然函数如下:
P ( y | α , μ , σ ) = Π i = 0 N - 1 tr Σ n = 0 + ∞ 1 n ! ( - H ( y i ) ) n tr Σ n = 0 + ∞ 1 n ! ( - F ) n
其中α,μ,σ为量子学习训练模型的参数,tr指的是矩阵的迹,即矩阵对角元素的和, F = - ln α 0 0 . . . 0 0 ln α 1 . . . 0 . . . . . . . . . 0 0 . . . ln α K - 1 ,
H ( y i ) = - ln ( α 0 g 0 ( y i | μ , σ ) ) γ . . . γ γ ln ( α 1 g 1 ( y i | μ , σ ) ) . . . γ . . . . . . . . . γ γ . . . ln ( α K - 1 g K - 1 ( y i | μ , σ ) )
为K×K的矩阵,其中i=0,1…,N-1, g i ( y i | μ , σ ) = 1 2 π σ i exp ( - 1 2 σ i 2 ( y i - μ i ) 2 ) .
通过最大化边缘似然函数,可以获得参数μ,σ,α的估计值:
μ ^ k = Σ i = 0 N - 1 y i ( tr X kk ′ i Σ n = 0 + ∞ 1 n ! ( - H ( y i ) ) n tr Σ n = 0 + ∞ 1 n ! ( - H ( y i ) ) n ) Σ i = 0 N - 1 ( tr X kk ′ i Σ n = 0 + ∞ 1 n ! ( - H ( y i ) ) n tr Σ n = 0 + ∞ 1 n ! ( - H ( y i ) ) n )
α ^ k = exp ( trX ln ( 1 N Σ i = 0 N - 1 Σ n = 0 + ∞ 1 n ! ( - H ( y i ) ) n tr Σ n = 0 + ∞ 1 n ! ( - H ( y i ) ) n ) )
σ ^ k 2 = Σ i = 0 N - 1 ( y i - μ ^ i ) 2 ( tr X kk ′ i Σ n = 0 + ∞ 1 n ! ( - H ( y i ) ) n tr Σ n = 0 + ∞ 1 n ! ( - H ( y i ) ) n ) Σ i = 0 N - 1 ( tr X kk ′ i Σ n = 0 + ∞ 1 n ! ( - H ( y i ) ) n tr Σ n = 0 + ∞ 1 n ! ( - H ( y i ) ) n )
其中k=1,2,…,K-1。
假设测试数据为N'维列向量y'=(y'0,y'1,…,y'N'-1)t,则对应的类别标签X'的后验概率为:
P ( x i ′ | y ′ , μ , σ , α ) = Σ n = 0 + ∞ 1 n ! ( - Σ j = 0 i ( H ( y j ′ ) ) n tr Σ n = 0 + ∞ 1 n ! ( - Σ j = 0 i ( H ( y j ′ ) ) n
其中i=1,2,…,N'-1,H(y'i)的特征矢量即为类别标签x'i的最优估计。
融合模型分类器107由高斯混合模型105和量子学习模型106组成。在得到高斯混合模型参数后,按照获得的权重大小将模型分量进行排序,w1>w2...>wn,其中权重w1,w2,...,wfloor(n/2)(floor为下取整函数)对应的模型分量构成高权重分量集合H,权重w(floor(n/2)+1),w(floor(n/2)+2),...,wn对应的模型分量构成低权重分量集合L;构成高权重分量集合H和低权重分量集合L,由于H受训练数据个数的影响较小,因此置信度较高,而L受训练数据个数的影响较大,有时会产生失真。在得到量子学习模型参数后,按照同样方法获得权重,将模型分量按照大小进行排序,构成高权重分量集合H'和低权重分量集合L',量子学习模型的置信度与训练数据个数无关。融合模型分类器107最终输出来自高斯混合模型的高权重分量集合H和来自量子学习模型的低权重分量集合L'。
在实现融合模型分类器107后,由高斯混合模型分类器105、量子学习模型分类器106和融合模型分类器107对每个测试数据分别给出各自的分类结果;在分类决策108中通过决策级融合完成具有鲁棒性优化和最佳分类效果的决策输出,具体做法是进行线性加权,量子学习模型和高斯混合模型的分类结果对应的权重均为1,融合模型的分类结果对应的权重0<ω<1。最后输出线性加权后的分类结果109。

Claims (8)

1.一种基于参数融合优化决策的音频索引方法,包括以下步骤:
第一步,采用声传感器进行系统输入信号采集;
第二步,对所采集信号进行预处理;
第三步,提取声学特征;
第四步,采用高斯混合模型对声学特征建立分类模型;
第五步,采用量子学习模型对声学特征建立分类模型;
第六步,对传统优化学习和量子学习获得的模型的参数进行参数融合,得到融合模型分类器;
第七步,分类决策给出分类结果;
第八步,系统输出分类结果,包括全部的语音频段及其相应的分类信息;
其特征在于:所述第五步中,对声学特征建立量子学习分类模型,将常规类别进行线性叠加来构建量子态,并将量子态作为计算模型的状态。
2.根据权利要求1所述的基于参数融合优化决策的音频索引方法,其特征在于:所述第一步中的声传感器包括独立声传感器和便携设备上的声传感器。
3.根据权利要求1所述的基于参数融合优化决策的音频索引方法,其特征在于:所述第二步中的预处理包括预加重、分帧、加窗以及端点检测。
4.根据权利要求1所述的基于参数融合优化决策的音频索引方法,其特征在于:所述第三步中的声学特征为梅尔频率倒谱系数或线性预测倒谱系数。
5.根据权利要求1所述的基于参数融合优化决策的音频索引方法,其特征在于:所述第四步中,对不同说话人的声学特征所具有的概率密度函数进行建模,对这些特征进行聚类,用高斯分布函数来分别描述每个类,将这些类作为训练模板,随后将观测序列代入模板,找到最大后验概率。
6.根据权利要求1所述的基于参数融合优化决策的音频索引方法,其特征在于:所述第六步中,需要融合的参数由高斯混合模型模型参数和量子学习模型参数构成,通过加权完成参数融合。
7.根据权利要求6所述的基于参数融合优化决策的音频索引方法,其特征在于:所述参数融合的方法是:在得到高斯混合模型参数后,按照获得的权重大小将模型分量进行排序w1>w2...>wn,其中w1,w2,...,wfloor(n/2)对应的模型分量构成高权重分量集合H,w(floor(n/2)+1),w(floor(n/2)+2),...,wn对应的模型分量构成低权重分量集合L,floor为下取整函数;在得到量子学习模型参数后,按照同样方法获得权重,将模型分量按照大小进行排序,构成高权重分量集合H'和低权重分量集合L',量子学习模型的置信度与训练数据个数无关;融合模型分类器最终输出来自高斯混合模型的高权重分量集合H和来自量子学习模型的低权重分量集合L'。
8.根据权利要求1所述的基于参数融合优化决策的音频索引方法,其特征在于:所述第七步中,分类决策由多个不同的分类器给出各自得分,通过决策级融合完成具有鲁棒性优化和最佳分类效果的决策输出,决策级融合的具体做法是进行线性加权,量子学习模型和高斯混合模型的分类结果对应的权重均为1,融合模型的分类结果对应的权重0<ω<1,并输出线性加权后的分类结果。
CN201410209057.2A 2014-05-16 2014-05-16 一种基于参数融合优化决策的音频索引方法 Expired - Fee Related CN103985381B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410209057.2A CN103985381B (zh) 2014-05-16 2014-05-16 一种基于参数融合优化决策的音频索引方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410209057.2A CN103985381B (zh) 2014-05-16 2014-05-16 一种基于参数融合优化决策的音频索引方法

Publications (2)

Publication Number Publication Date
CN103985381A CN103985381A (zh) 2014-08-13
CN103985381B true CN103985381B (zh) 2016-09-21

Family

ID=51277324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410209057.2A Expired - Fee Related CN103985381B (zh) 2014-05-16 2014-05-16 一种基于参数融合优化决策的音频索引方法

Country Status (1)

Country Link
CN (1) CN103985381B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104700833A (zh) * 2014-12-29 2015-06-10 芜湖乐锐思信息咨询有限公司 一种大数据语音分类方法
CN105654944B (zh) * 2015-12-30 2019-11-01 中国科学院自动化研究所 一种融合了短时与长时特征建模的环境声识别方法及装置
CN107767861B (zh) * 2016-08-22 2021-07-02 科大讯飞股份有限公司 语音唤醒方法、系统及智能终端
CN110019776B (zh) * 2017-09-05 2023-04-28 腾讯科技(北京)有限公司 文章分类方法及装置、存储介质
CN108511002B (zh) * 2018-01-23 2020-12-01 太仓鸿羽智能科技有限公司 危险事件声音信号识别方法、终端和计算机可读存储介质
CN108417203A (zh) * 2018-01-31 2018-08-17 广东聚晨知识产权代理有限公司 一种人体语音识别传输方法及系统
CN108461091A (zh) * 2018-03-14 2018-08-28 南京邮电大学 面向家居环境的智能哭声检测方法
CN108734226A (zh) * 2018-06-12 2018-11-02 中国联合网络通信集团有限公司 决策融合方法、装置及系统
CN108877777B (zh) * 2018-08-01 2021-04-13 云知声(上海)智能科技有限公司 一种语音识别方法及系统
CN109298225B (zh) * 2018-09-29 2020-10-09 国网四川省电力公司电力科学研究院 一种电压量测数据异常状态自动识别模型系统及方法
CN109256150B (zh) * 2018-10-12 2021-11-30 北京创景咨询有限公司 基于机器学习的语音情感识别系统及方法
CN110415707B (zh) * 2019-04-12 2021-11-26 杭州电子科技大学 一种基于语音特征融合和gmm的说话人识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833951A (zh) * 2010-03-04 2010-09-15 清华大学 用于说话人识别的多背景模型建立方法
US8160877B1 (en) * 2009-08-06 2012-04-17 Narus, Inc. Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
CN102419976A (zh) * 2011-12-02 2012-04-18 清华大学 一种基于量子学习优化决策的音频索引方法
CN102737633A (zh) * 2012-06-21 2012-10-17 北京华信恒达软件技术有限公司 一种基于张量子空间分析的说话人识别方法及其装置
CN103035239A (zh) * 2012-12-17 2013-04-10 清华大学 一种基于局部学习的说话人识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8160877B1 (en) * 2009-08-06 2012-04-17 Narus, Inc. Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
CN101833951A (zh) * 2010-03-04 2010-09-15 清华大学 用于说话人识别的多背景模型建立方法
CN102419976A (zh) * 2011-12-02 2012-04-18 清华大学 一种基于量子学习优化决策的音频索引方法
CN102737633A (zh) * 2012-06-21 2012-10-17 北京华信恒达软件技术有限公司 一种基于张量子空间分析的说话人识别方法及其装置
CN103035239A (zh) * 2012-12-17 2013-04-10 清华大学 一种基于局部学习的说话人识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"GMM文本无关的说话人识别系统研究";蒋晔等;《计算机工程与应用》;20100411;第46卷(第11期);第180-181页第2.2小节 *

Also Published As

Publication number Publication date
CN103985381A (zh) 2014-08-13

Similar Documents

Publication Publication Date Title
CN103985381B (zh) 一种基于参数融合优化决策的音频索引方法
Wang et al. Deep extractor network for target speaker recovery from single channel speech mixtures
Zhang et al. Boosting contextual information for deep neural network based voice activity detection
CN104732978B (zh) 基于联合深度学习的文本相关的说话人识别方法
Yang et al. Combining temporal features by local binary pattern for acoustic scene classification
Xia et al. Auxiliary classifier generative adversarial network with soft labels in imbalanced acoustic event detection
CN110459240A (zh) 基于卷积神经网络和深度聚类的多说话人语音分离方法
CN103177733B (zh) 汉语普通话儿化音发音质量评测方法与系统
Zhuang et al. Feature analysis and selection for acoustic event detection
CN110782872A (zh) 基于深度卷积循环神经网络的语种识别方法及装置
US20170154640A1 (en) Method and electronic device for voice recognition based on dynamic voice model selection
CN100570711C (zh) 基于混合支持向量机的说话人识别方法
CN105869624A (zh) 数字语音识别中语音解码网络的构建方法及装置
CN108962229B (zh) 一种基于单通道、无监督式的目标说话人语音提取方法
CN105261367B (zh) 一种说话人识别方法
CN1860504A (zh) 用于视听内容合成的系统和方法
WO2015124006A1 (zh) 一种具有自定义功能的音频检测分类方法
CN104036774A (zh) 藏语方言识别方法及系统
CN104900235A (zh) 基于基音周期混合特征参数的声纹识别方法
CN105845140A (zh) 应用于短语音条件下的说话人确认方法和装置
CN104616663A (zh) 一种结合hpss的mfcc-多反复模型的音乐分离方法
Das et al. Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model
CN105206257A (zh) 一种声音转换方法及装置
Swain et al. Study of feature combination using HMM and SVM for multilingual Odiya speech emotion recognition
Ntalampiras A novel holistic modeling approach for generalized sound recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160921