CN108109612A - 一种基于自适应降维的语音识别分类方法 - Google Patents

一种基于自适应降维的语音识别分类方法 Download PDF

Info

Publication number
CN108109612A
CN108109612A CN201711283229.0A CN201711283229A CN108109612A CN 108109612 A CN108109612 A CN 108109612A CN 201711283229 A CN201711283229 A CN 201711283229A CN 108109612 A CN108109612 A CN 108109612A
Authority
CN
China
Prior art keywords
mrow
hybrid models
dimension
gauss hybrid
test sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711283229.0A
Other languages
English (en)
Inventor
张晓俊
徐天琪
陶智
黄程韦
吴迪
肖仲喆
孙宝印
葛怡雯
冯可瞧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201711283229.0A priority Critical patent/CN108109612A/zh
Publication of CN108109612A publication Critical patent/CN108109612A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Abstract

本发明公开了一种基于自适应降维的语音识别分类方法,首先提取语音信号的特征参数作为训练样本数据,对高斯混合模型进行训练,得到训练好的高斯混合模型;然后采用训练好的高斯混合模型针对当前输入的测试样本数据进行特征空间的自适应降维处理,即根据原始特征空间的概率分布模型,进行特征维度子空间的投影,计算不同的低维度特征子集上的似然概率,获得测试样本的最适特征空间,对降低了维度后的语音测试样本进行识别分类,确定测试样本类型。本发明根据不同的测试样本自适应地选择不同的特征维度,从而达到特征降维的目的,同时改进了高斯混合模型分类器,提高测试样本的识别率。

Description

一种基于自适应降维的语音识别分类方法
技术领域
本发明涉及一种语音分类方法,属于语音识别技术领域。
背景技术
分类器建模分类是除了特征提取、特征优化之外的语音识别的一个重要过程。不同的分类器具有不同的分类建模算法。常用的分类器有决策树(Decision Tree)、贝叶斯网络(BayesNet)、K最邻近((k-Nearest Neighbor)、多元线性回归(Multivariable LinearRegression)、多层感知器(Muti-Layer Percetron)和高斯混合模型(Gaussian MixtureModel)等。
高斯混合模型适合用于语音信号方面的静态建模,提取多种语音信号中相关特征参数作为训练数据,在高斯混合模型分类器中,每个特征维度对应于一个边缘概率分布,可以用来对当前测试样本进行分类。
在高斯混合模型识别过程中,并不是所有受过训练的特征都以同样的方式做出贡献,一些特征维度与测试样本匹配度很低,使得分类器做出相反的决策,导致这些样本被错误地分类。错误分类的原因在于并不是所有选定的特征都适合测试样本,如果去除这些不合适的特征维度,可以得到一个可预期的高斯混合模型分布,那么改进识别的可能性就会更大。
发明内容
本发明所要解决的技术问题是:针对背景技术的缺陷,本发明提出了一种语音识别分类方法,根据不同的测试样本自适应地选择不同的特征维度,从而达到特征降维的目的,提高测试样本的识别率。
本发明为解决上述技术问题采用以下技术方案:
一种基于自适应降维的语音识别分类方法,包括步骤:
(1)、首先提取语音信号的特征参数作为训练样本数据,对高斯混合模型进行训练,得到训练好的高斯混合模型;
(2)、采用步骤(1)训练好的高斯混合模型,针对当前输入的测试样本数据进行特征空间的自适应降维处理,即根据原始特征空间的概率分布模型,进行特征维度子空间的投影,计算不同的低维度特征子集上的标准化似然概率,获得测试样本的最适特征空间,对降低了维度后的语音测试样本进行识别分类,确定测试样本类型。
进一步的,本发明的语音识别分类方法,步骤(1)中,高斯混合模型的定义为:
其中M为高斯模型个数,πk为第k个高斯模型的权重,p(x|k)为第k个高斯模型的概率密度,其均值为uk,方差为σk,通过训练求出πk、uk和σk的具体取值。
进一步的,本发明的语音识别分类方法,步骤(2)中,针对当前输入测试样本数据进行特征空间的自适应降维处理,具体包括以下步骤:
201、输入语音信号测试样本的所有特征数值,将特征数值表示为Ct=[c1,c2,...,cD];D代表特征的数量;
202、计算高斯混合模型中所有高斯模型的标准化似然概率L,
203、采用经验公式计算第k个高斯模型的阈值Th,判定的经验公式为:
其中,α=-0.1,β代表特征维度数量的调节参数,K表示语音信号样本所分类的总数量,Li、Lj分别代表第i个、第j个高斯模型的标准化似然概率;
204、判断Th是否小于等于1:如果是,则进入下一步骤,如果否,则返回步骤203;
205、从测试样本的所有特征维度中移除第i维特征后,将高斯混合模型的维数进行降维,计算当前高斯混合模型的标准化似然概率,同时更新测试样本的特征维度;
206、判断当前高斯混合模型的标准化似然概率是否大于原高斯混合模型的标准化似然概率,或者判断Th是否小于等于1:
如果是,则返回步骤205继续进行迭代降维,去除高斯混合模型下一个维度;
如果否,则降维结束,将当前特征维度作为测试样本的最适特征空间。
进一步的,本发明的语音识别分类方法,降维后高斯混合模型的标准化似然概率分布仍旧服从高斯分布,样本C服从高斯分布
其中C1、C2分别是保留的特征维度和去除的特征维度,U1、U2表示相应的均值向量,表示协方差矩阵,N表示高斯分布。
进一步的,本发明的语音识别分类方法,移除样本C的C1维度后,剩余的C2特征维度仍旧服从多变量高斯分布C1~N(U1,∑11)。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
本发明提出了一种采用自适应降维的高斯混合模型识别方法,根据不同的测试样本自适应地选择不同的特征维度,从而达到特征降维的目的,同时改进了高斯混合模型分类器,提高测试样本的识别率。
附图说明
图1是本发明中语音信号训练系统流程图。
图2是本发明中语音信号识别系统流程图。
图3是基于本发明的高斯混合模型特征降维过程图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本发明主要对特征降维和分类器建模分类进行了研究。在语音模型训练之后,根据当前输入的测试样本的特点进行动态的降维操作,使得训练模型的特征空间与测试样本更加适配。为了达到这种测试样本自适应的特征降维效果,利用高斯混合模型的边缘概率构造出多个子分类器,并在多重串联结构中对这些分类器进行了融合,样本识别率得到提高。
本发明中语音信号训练系统流程如图1,这部分工作属于较成熟的技术手段,主要包括:语音信号的特征提取及高斯混合模型的训练。其中,高斯混合模型的定义为:
其中M为高斯模型个数,πk为第k个高斯模型的权重,p(x|k)为第k个高斯模型的概率密度,其均值为uk,方差为σk。通过训练就是要求出πk、uk和σk的具体取值。
本发明中语音信号识别系统流程如图2,主要包括:
(1)提取语音信号的特征参数作为高斯混合模型的训练数据,选取特征可表示为Ct=[c1,c2,...,cD]。
(2)采用训练好的的高斯混合模型针对当前输入测试样本进行特征空间的降维处理。
(3)语音样本包括训练样本和测试样本,训练样本作为高斯混合模型的训练数据,得到训练模型对测试样本进行识别分类。
现有的高斯混合模型对特征空间进行单次降维,主要过程为:
1)将当前样本的每个特征参数与最接近的高斯混合训练模型的均值的差值进行排序得到St=reorder(Ct)=reorder(min(Cm-Ui.m));
2)在识别阶段,有(D-n)个特征参数是适用于所有测试样本,当前测试样本中这n个特征参数被去除。在排序过程中略去最后的n个特征参数,得到一个降维空间
3)对高斯混合模型的参数λ以相同的方式进行降维:
4)得到高斯混合模型的后验概率为:
本发明的高斯混合模型对特征空间进行自适应特征降维如图3,主要过程为:
1)高斯混合模型具有多个级联子分类器,每个分类器都相对于原高斯混合模型进行降维处理。
2)从原高斯混合模型中移除一个维度后得到一个边缘概率分布,边缘概率也就是降维后的似然概率,边缘分布的大小取决于移除的特征维度,选择最大的边缘概率比原高斯混合模型更大,说明此次降维提高了分类器的性能。下一步进行迭代降维,去除下一个维度。判定的经验公式为:
其中,α=-0.1,β代表特征维度数量的调节参数,K表示语音信号样本所分类的总数量,Li、Lj分别代表第i个、第j个高斯模型的标准化似然概率。
3)高斯分布的边缘概率分布仍旧服从高斯分布,样本C服从高斯分布
移除样本C的C1维度后,剩余的C2特征维度仍旧服从多变量高斯分布C1~N(U1,∑11)。
其中C1、C2分别是保留的特征维度和去除的特征维度,U1、U2表示相应的均值向量,表示协方差矩阵,N表示高斯分布。
关于本申请中未进一步详细记载的采用高斯混合模型对语音信号进行分类识别的细节方案,属于本领域的已知现有技术手段,在本申请中不再进行赘述,以下进一步公开实施例来对本发明的技术方案的突出贡献点进行详细说明。
实施实例一:
(1)特征提取:
提取语音信号的基本特征
特征参数 特征参数 特征参数
1 基音频率 11 振幅抖动百分比 21-32 12阶MFCC参数
2 最高基频 12 幅度微扰商 33-42 10阶LPCC参数
3 最低基频 13 振幅扰动商
4 频率标准差 14 音调扰动商
5 基频半音范围 15 平滑音调微扰商
6 抖动频率 16 基频变化率
7 频率抖动百分比 17 谐噪比
8 相对平均微扰 18 嗓音骚动
9 绝对频率抖动 19 软发音指数
10 振幅抖动频率 20 嗓音破裂程度
(2)特征优化:
不进行特征优化。
(3)识别过程:
采用高斯混合模型进行识别(M=32)。
实施实例二
(1)特征提取同实例一。
(2)特征优化:
采用高斯混合模型进行特征参数单次降维处理。参数设置:D=10,C=1。
(3)识别过程:
采用高斯混合模型(M=32)进行识别。
实施实例三
(1)特征提取同实例一和二。
(2)特征优化:
采用本发明的高斯混合模型对特征参数进行降维处理。参数设置同实例二。
不同于实施例二的在分类前进行特征降维,本发明的语音信号识别方法,是在进行模型训练后对特征维度进行降维处理,然后进行分类识别。
对本发明提出的采用基于自适应降维的高斯混合模型的语音识别方法进行性能测试,并进行交叉对比:
实例
平均识别率 0.75 0.79 0.81
经过简单高斯混合模型和基于自适应降维的高斯混合模型方法降维处理后的语音信号识别率分别比未经过降维处理的识别率提高了4%和6%,基于自适应降维的高斯混合模型识别方法识别率最优。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.一种基于自适应降维的语音识别分类方法,其特征在于,包括步骤:
(1)、首先提取语音信号的特征参数作为训练样本数据,对高斯混合模型进行训练,得到训练好的高斯混合模型;
(2)、采用步骤(1)训练好的高斯混合模型,针对当前输入的测试样本数据进行特征空间的自适应降维处理,即根据原始特征空间的概率分布模型,进行特征维度子空间的投影,计算不同的低维度特征子集上的标准化似然概率,获得测试样本的最适特征空间,对降低了维度后的语音测试样本进行识别分类,确定测试样本类型。
2.根据权利要求1所述的语音识别分类方法,其特征在于,步骤(1)中,高斯混合模型的定义为:
<mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mi>&amp;pi;</mi> <mi>k</mi> </msub> <mi>p</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>|</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
其中M为高斯模型个数,πk为第k个高斯模型的权重,p(x|k)为第k个高斯模型的概率密度,其均值为uk,方差为σk,通过训练求出πk、uk和σk的具体取值。
3.根据权利要求1所述的语音识别分类方法,其特征在于,步骤(2)中,针对当前输入测试样本数据进行特征空间的自适应降维处理,具体包括以下步骤:
201、输入语音信号测试样本的所有特征数值,将特征数值表示为Ct=[c1,c2,...,cD];D代表特征的数量;
202、计算高斯混合模型中所有高斯模型的标准化似然概率L,
203、采用经验公式计算第k个高斯模型的阈值Th,判定的经验公式为:
<mrow> <mi>T</mi> <mi>h</mi> <mo>=</mo> <mi>&amp;alpha;</mi> <mrow> <mo>(</mo> <mrow> <mi>log</mi> <mrow> <mo>(</mo> <msup> <mi>&amp;beta;</mi> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mo>+</mo> <mi>log</mi> <mrow> <mo>(</mo> <mrow> <munder> <mi>max</mi> <mrow> <mn>1</mn> <mo>&amp;le;</mo> <mi>i</mi> <mo>&amp;le;</mo> <mi>K</mi> </mrow> </munder> <mrow> <mo>{</mo> <msub> <mi>L</mi> <mi>i</mi> </msub> <mo>}</mo> </mrow> </mrow> <mo>)</mo> </mrow> <mo>-</mo> <mi>log</mi> <mrow> <mo>(</mo> <mrow> <munder> <mi>&amp;Sigma;</mi> <mrow> <mn>1</mn> <mo>&amp;le;</mo> <mi>i</mi> <mo>&lt;</mo> <mi>j</mi> <mo>&amp;le;</mo> <mi>K</mi> </mrow> </munder> <msup> <mrow> <mo>(</mo> <mrow> <mi>log</mi> <mrow> <mo>(</mo> <msub> <mi>L</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mi>log</mi> <mrow> <mo>(</mo> <msub> <mi>L</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
其中,α=-0.1,β代表特征维度数量,K表示语音信号样本所分类的总数量,Li、Lj分别代表第i个、第j个高斯模型的标准化似然概率;
204、判断Th是否小于等于1:如果是,则进入下一步骤,如果否,则返回步骤203;
205、从测试样本的所有特征维度中移除第i维特征后,将高斯混合模型的维数进行降维,计算当前高斯混合模型的标准化似然概率,同时更新测试样本的特征维度;
206、判断当前高斯混合模型的标准化似然概率是否大于原高斯混合模型的标准化似然概率,或者判断Th是否小于等于1:
如果是,则返回步骤205继续进行迭代降维,去除高斯混合模型下一个维度;
如果否,则降维结束,将当前特征维度作为测试样本的最适特征空间。
4.根据权利要求3所述的语音识别分类方法,其特征在于:降维后高斯混合模型的标准化似然概率分布仍旧服从高斯分布,样本C服从高斯分布
其中C1、C2分别是保留的特征维度和去除的特征维度,U1、U2表示相应的均值向量,表示协方差矩阵,N表示高斯分布。
5.根据权利要求4所述的语音识别分类方法,其特征在于:移除样本C的C1维度后,剩余的C2特征维度仍旧服从多变量高斯分布
CN201711283229.0A 2017-12-07 2017-12-07 一种基于自适应降维的语音识别分类方法 Pending CN108109612A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711283229.0A CN108109612A (zh) 2017-12-07 2017-12-07 一种基于自适应降维的语音识别分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711283229.0A CN108109612A (zh) 2017-12-07 2017-12-07 一种基于自适应降维的语音识别分类方法

Publications (1)

Publication Number Publication Date
CN108109612A true CN108109612A (zh) 2018-06-01

Family

ID=62209413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711283229.0A Pending CN108109612A (zh) 2017-12-07 2017-12-07 一种基于自适应降维的语音识别分类方法

Country Status (1)

Country Link
CN (1) CN108109612A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109166591A (zh) * 2018-08-29 2019-01-08 昆明理工大学 一种基于音频特征信号的分类方法
CN109378002A (zh) * 2018-10-11 2019-02-22 平安科技(深圳)有限公司 声纹验证的方法、装置、计算机设备和存储介质
CN109635823A (zh) * 2018-12-07 2019-04-16 湖南中联重科智能技术有限公司 用于识别卷扬乱绳的方法和装置及工程机械
CN111949780A (zh) * 2020-07-31 2020-11-17 八维通科技有限公司 沿出行线路自动交互方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708871A (zh) * 2012-05-08 2012-10-03 哈尔滨工程大学 基于条件高斯混合模型的线谱对参数降维量化方法
CN103077720A (zh) * 2012-12-19 2013-05-01 中国科学院声学研究所 一种说话人识别方法及系统
CN104091602A (zh) * 2014-07-11 2014-10-08 电子科技大学 一种基于模糊支持向量机的语音情感识别方法
CN105389343A (zh) * 2015-10-23 2016-03-09 北京工业大学 一种向量化降维方法
CN105913066A (zh) * 2016-04-13 2016-08-31 刘国栋 一种基于相关向量机的数字化肺音特征降维方法
CN106297768A (zh) * 2015-05-11 2017-01-04 苏州大学 一种语音识别方法
CN107358947A (zh) * 2017-06-23 2017-11-17 武汉大学 说话人重识别方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708871A (zh) * 2012-05-08 2012-10-03 哈尔滨工程大学 基于条件高斯混合模型的线谱对参数降维量化方法
CN103077720A (zh) * 2012-12-19 2013-05-01 中国科学院声学研究所 一种说话人识别方法及系统
CN104091602A (zh) * 2014-07-11 2014-10-08 电子科技大学 一种基于模糊支持向量机的语音情感识别方法
CN106297768A (zh) * 2015-05-11 2017-01-04 苏州大学 一种语音识别方法
CN105389343A (zh) * 2015-10-23 2016-03-09 北京工业大学 一种向量化降维方法
CN105913066A (zh) * 2016-04-13 2016-08-31 刘国栋 一种基于相关向量机的数字化肺音特征降维方法
CN107358947A (zh) * 2017-06-23 2017-11-17 武汉大学 说话人重识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HUANG CHENGWEI: ""cascaded projection of Gaussian mixture model for emotion recognition in speech and ECG signals"", 《JOURNAL OF SOUTHEAST UNIVERSITY(ENGLISH EDITION)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109166591A (zh) * 2018-08-29 2019-01-08 昆明理工大学 一种基于音频特征信号的分类方法
CN109378002A (zh) * 2018-10-11 2019-02-22 平安科技(深圳)有限公司 声纹验证的方法、装置、计算机设备和存储介质
WO2020073518A1 (zh) * 2018-10-11 2020-04-16 平安科技(深圳)有限公司 声纹验证的方法、装置、计算机设备和存储介质
CN109635823A (zh) * 2018-12-07 2019-04-16 湖南中联重科智能技术有限公司 用于识别卷扬乱绳的方法和装置及工程机械
CN111949780A (zh) * 2020-07-31 2020-11-17 八维通科技有限公司 沿出行线路自动交互方法
CN111949780B (zh) * 2020-07-31 2021-12-31 八维通科技有限公司 沿出行线路自动交互方法

Similar Documents

Publication Publication Date Title
CN110164452B (zh) 一种声纹识别的方法、模型训练的方法以及服务器
CN108109612A (zh) 一种基于自适应降维的语音识别分类方法
CN110197286B (zh) 一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法
CN112069310B (zh) 基于主动学习策略的文本分类方法及系统
CN110534101B (zh) 一种基于多模融合深度特征的移动设备源识别方法及系统
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN109271517B (zh) Ig tf-idf文本特征向量生成及文本分类方法
CN108766464B (zh) 基于电网频率波动超矢量的数字音频篡改自动检测方法
Michalak et al. Correlation-based feature selection strategy in classification problems
CN111104513B (zh) 一种游戏平台用户问答业务的短文本分类方法
CN110110790B (zh) 采用无监督聚类得分规整的说话人确认方法
CN108549718B (zh) 一种通用主题嵌入模型联合训练方法
Nour-Eddine et al. GMM-based Maghreb dialect identification system
WO2021189830A1 (zh) 样本数据优化方法、装置、设备及存储介质
CN109062958B (zh) 一种基于TextRank和卷积神经网络的小学作文自动分类方法
CN111177010B (zh) 一种软件缺陷严重程度识别方法
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
Michalak et al. Correlation-based feature selection strategy in neural classification
CN113239199A (zh) 一种基于多方数据集的信用分类方法
CN109376241B (zh) 一种基于DenseNet面向电力领域的电话诉求文本分类算法
CN116861964A (zh) 一种基于双判别器生成式对抗网络的异常数据检测方法
CN110299133A (zh) 基于关键字判定非法广播的方法
CN115472179A (zh) 面向数字音频删除和插入篡改操作自动检测方法及系统
CN108446718A (zh) 一种动态深度置信网络分析方法
CN108932550B (zh) 一种基于模糊密集稀疏密集算法进行图像分类的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180601

WD01 Invention patent application deemed withdrawn after publication