CN102693723A - 一种基于子空间的非特定人孤立词识别方法及装置 - Google Patents
一种基于子空间的非特定人孤立词识别方法及装置 Download PDFInfo
- Publication number
- CN102693723A CN102693723A CN2012100931201A CN201210093120A CN102693723A CN 102693723 A CN102693723 A CN 102693723A CN 2012100931201 A CN2012100931201 A CN 2012100931201A CN 201210093120 A CN201210093120 A CN 201210093120A CN 102693723 A CN102693723 A CN 102693723A
- Authority
- CN
- China
- Prior art keywords
- model
- module
- subspace
- training
- submodule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及自动语音识别领域,特别是一种基于子空间技术的非特定人孤立词识别方法和装置。该方法的特征在于将子空间技术应用到隐含马尔科夫模型中,首先利用所有语音数据训练全局模型,随后采用子空间自适应的方法,刻画声学基元模型,并依此建立隐含马尔可夫模型。该装置包括:语音预处理模块、特征提取模块、建立模型模块、模型匹配模块和分数判决模块。本发明在有限数据条件下能够稳健估值。适用于训练和识别语音数据有限条件下,中等规模词表的非特定人孤立词识别。
Description
技术领域
本发明涉及自动语音识别领域,具体而言,是一种基于子空间技术的非特定人孤立词识别方法及装置。
背景技术
语音是人类最自然、最灵活、最频繁的信息交流方式。语音中蕴含多层信息,如何自动提取这些信息便成为当前语音信号处理领域的主要研究内容。作为该领域的一个重要分支,孤立词(Isolated Word Recognition,IWR)是利用计算机,自动从语音片段中提取内容的识别技术,在汽车导航、计算机控制、玩具等诸多领域有广泛的应用。
目前,非特定人孤立词识别主要利用统计模式识别的方法,分为训练和测试两个阶段。训练阶段可分为三个步骤:前端处理,特征提取和建立模型;测试阶段可分为四个步骤:前端处理,特征提取,模型匹配和分数判决。通常而言,
(1)前端处理:包括语音增强、活动语音检测和语音切分等信号处理技术;
(2)特征提取:通常选择线性预测倒谱系数(Linear Predictive Cepstral Coefficients,LPCC)、梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)或感知线性预测(PerceptualLinear Prediction,PLP);
(3)建模方法(建立模型和模型匹配):主流技术是隐含马尔科夫模型(Hidden Markov Model,HMM);
(4)分数判决:根据阈值,对分数进行比较,对HMM的输出分数进行处理,给出识别结果。
在上述过程中,建模方法是最为重要的一个环节。对于非特定人的IWR算法,在进行HMM建模时,需要选择建模基元,通常有三种方法:
(1)整词:把词作为建模的基本单元;
(2)声韵母:把声韵母作为建模的基本单元。在汉语中,有21个声母,37个韵母。
(3)音节:将音节作为建模的基本单元。音节分为无调音节和有调音节,在汉语中,无调音节有409个,有调音节有1300个。
上述三种方法各有利弊。一般而言,选择的基元越精细,系统的计算复杂度就越高,推广性就越好。例如,选择整词作为基元,其计算复杂度低,识别率高(>99%),适用于小规模词表的IWR系统;选择声韵母或音节作为基元,扩展性好,可以通过修改词表得到便利的应用,适用于大规模词表的IWR系统,但识别率不高。
选择声韵母或音节作为基元,利用HMM建模的非特定人孤立词识别系统的识别率不高的主要原因有如下几点:(1)HMM的参数较多,难以准确估值;(2)识别时会引入搜索误差等。其中,对HMM参数不能准确估值是造成识别率下降的核心因素。
子空间技术认为待估计的数据结构是冗余的,通过线性映射降低建模的自由度,达到准确估值的目的。子空间技术在在图像识别、文本识别、生物特征识别和雷达型号处理等领域有广泛的应用。
发明内容
本发明的目的在于:提出一种基于子空间技术的非特定人孤立词识别方法和装置,以解决传统方法中隐含马尔科夫模型的参数较多,不能被准确估值的问题。
本发明提出一种将子空间技术应用于非特定人孤立词识别方法和装置。发明的基本特征是:认为隐含马尔科夫模型的参数存在冗余,通过线性映射,降低建模的自由度。在相同训练数据条件下,能更为稳健的估值,解决估值不准的问题。
发明的具体步骤如下:
(1)训练阶段:对于训练语音,作如下处理,
(1.1)前端处理:包括语音增强,用于抑制背景噪声,提升语音部分的可懂度,以便后端能够更好的区分语音信号和非语音信号。采用的方法是频域的维纳滤波;活动语音检测,用于区分语音信号和非语音信号,去除非语音信号,以便后端对语音信号的识别。采用的方法有G723.1、G723.9等。语音切分,对检测到的语音信号分帧处理,以便后续的特征提取。
(1.2)特征提取:可以选择LPCC、MFCC或PLP及衍生特征。以MFCC为例,通常提取12维MFCC基本特征和能量构成13维特征。该13维特征是静态特征,为了反映语音的动态特性,利用静态特征构造差分特征。将1阶、2阶差分特征附到静态特征后,构成用于建模的39维MFCC特征。
(1.3)建立模型:采用声韵母模型。将声韵母作为基本单元的好处是:可以将事先训练好的基元单元按照声韵母拼接得到整体模型,使构建的非特定人孤立词识别系统通过修改词表,就能直接用于识别。
在对声韵母建模时,根据是否考虑上下文信息,分为单音子模型、双因子模型和三音子模型。单音子模型不考虑上下文信息,双音子模型考虑前向信息,三音子模型考虑前后项信息。这三者中,以单音子模型和三音子模型较为常见,三音子模型的性能一般优于单音子模型的性能。
对单音子建模时,将训练语音的特征按照声韵母状态分开,并采用LBG算法,得到状态输出模型。状态输出模型是高斯混合模型集(Gaussian Mixture Models,GMM)。对三音子模型建模时,要考虑上下文信息标注,并根据标注信息构建决策树,并根据决策树构建三音子模型。根据决策树,利用LBG算法,得到状态输出模型。状态输出模型是共享的高斯混合模型集。
为了便于说明问题,假设频谱特征ot是D维,其中下标t代表时间索引。在利用HMM对基本声学单元建模时,有S个状态,对于每个状态的GMM,有M个混合模型。以状态s(1≤s≤S)的GMM为例,其表达式如下:
以S=6,M=16和D=39为例,一个基本的HMM声学单元需要估计S×M×(1+D+D×(D+1)/2)=13120个参数。待参数较多意味着在模型训练阶段需要更多的训练数据。实际应用中,训练数据是有限的。为了在有限的数据上达到更好的识别性能,会对模型采用一定的约束,例如,权重矢量使用全局权重,协方差矩阵使用全局协方差等。
然而,对于GMM而言,均值矢量μ承载了最多的信息,更为重要。为了降低均值矢量μ建模时存在的较大自由度,提出如下建模方法:
上式中,Vi,g代表线性映射矩阵。下标g代表是通过所有数据,估计出的全局数据。在公式(3)中,仅有ys是变矢量,代表与状态和混合模型索引相关的参数,一般而言,yas的维数取100即可。通过对比公式(1)和公式(3),可以发现公式(3)的建模方法可以明显降低模型复杂度。
利用公式(3)建模时,需要估计全局参数λg={ωi,g,μi,g,∑i,g,i=1,2,…,M},其方法是利用所有数据,采用最大期望算法(Expectation Maximum,EM)估计。由于此时是利用所有训练数据估计,故而不存在训练数据不足的问题。
对Vi,g和y进行估计时,采用的是类似于EM的算法。具体方法是,先随机初始化Vi,g,将Vi,g视为常量,估计ys,使得
随机,固定ys,估计Vi,g,使得
公式(4)和公式(5)反复迭代6次。
上述过程是声韵母基元声学建模过程,将建模后的声韵母模型按照词表中的要求拼接起来,就得到整词模型。
(2)识别阶段:对测试语音,做如下处理
(2.1)前端处理:对测试语音的处理方法如步骤(1.1)所述;
(2.2)特征提取:对测试语音的处理方法如步骤(1.2)所述;
(2.3)模型匹配:根据孤立词列表和训练阶段得到的模型对待识别语音进行打分。在计算过程中,主要采用维特比(Viterbi)算法,搜索最优路径和最高得分。
(2.4)分数判决:根据模型匹配的最高得分,从孤立词列表中,选取一个最可能的孤立词。如果所有孤立词都低于某个阈值,则认为待识别语音的是孤立词列表中以外的其他词语。
附图说明
图1是本发明方法的流程图。
图2是本发明方法的装置图。
具体实施方式
本发明的方法在数字集成电路芯片中按以下步骤实现的:
步骤1:前端处理模块,包括语音增强子模块、活动语音检测子模块和语音切分子模块。
步骤1.1:语音增强子模块,采用频域维纳滤波,在一定程度上抑制非语音部分;
步骤1.2:活动语音检测子模块,采用G723.9,标记语音和非语音的时间索引;
步骤1.3:语音切分子模块,对语音进行分帧,以便后续的特征提取。
步骤2:特征提取模块,包括提取基本特征子模块和差分子模块。
步骤2.1:提取基本特征子模块:提取12维MFCC基本特征和能量,构成13维基本特征;
步骤2.2:差分子模块,利用基本特征构造1阶和2阶差分特征,并附到基本特征后,构成39维特征。
步骤3:建立模型模块,包括基元切分子模块、全局模型训练子模块、子空间训练子模块、整词拼接子模块和模型存储子模块。
步骤3.1:基元切分子模块。在训练语音库上,根据标注对特征进行切割,以便后端估值;
步骤3.2:全局模型训练模块,利用所有语音训练数据,利用LBG算法或EM算法,得到全局的模型参数,λg={ωi,g,μi,g,∑i,g,i=1,2,…,M};
步骤3.3:根据步骤3.1的分类特征和步骤3.2的全局模型,采用类似于EM算法的迭代法估计Vi,g和ys。具体策略是先随机初始化Vi,g,并固定Vi,g,估计使得对数似然最大的ys;随后固定ys,求解使得对数似然最大的Vi,g。上述过程迭代6次。
步骤3.4:根据步骤3.4建立的模型参数,通过孤立词列表,根据声韵母规则,进行整词拼接;
步骤3.5:将步骤3.1到步骤3.4中估计的参数存储到Flash中。
步骤4:孤立词识别模块,该模块利用已经训练好的模型,对测试语音进行打分。对于测试语音,需要先按照步骤1和步骤2,提取出测试语音的特征。随后,测试特征进入本模块。本模块主要操作是维特比解码。通过步骤3存储的基于子空间的HMM模型,计算出测试特征的最优路径和对应的似然分数。
步骤5:分数判决模块,该模块实现对步骤4输出分数的后处理。选择一个最大似然分数的孤立词作为识别结果,如果该分数低于某个阈值,则给出该段语音无法识别的结果。
该发明装置的特点是在步骤3和步骤4中,融入了子空间方法,从而降低了模型的自由度,达到更为稳健的估值。图2是本发明的装置图。
Claims (9)
1.一种基于子空间的非特定人孤立词建模方法,其特征在于,将子空间技术融入隐含马尔科夫模型框架,从而降低建模的自由度,在有限数据量的情况下,能够提高所估计模型的准确度,提升系统的识别性能。
2.根据权利要求1所述的,用于非特定人孤立词识别的子空间建模方法,其特征在于所述方法适用于不同声学基元,包括音节、半音节和声韵母。
3.根据权利要求1所述的,用于非特定人孤立词识别的予空间建模方法,其特征在于所建立的模型既可适用于单因子模型,也可以适用于双因子、三音子模型。
4.根据权利要求1所述的,用于孤立词识别的子空间建模方法是与语种无关的。
5.一种基于子空间的孤立词识别装置,其特征在于,该装置分为5个模块:前端处理模块、特征提取模块、建立模型模块、模型匹配模块和分数判决模块。
6.根据权利要求5所述的,建立模型模块是基于子空间技术的,具体而言,该模块又分为5个子模块:基元切分子模块、全局模型训练子模块、子空间训练子模块、整词拼接子模块和存储子模块。
7.根据权利要求6所述的,全局模型训练子模块是根据LBG算法或EM算法训练所得。
8.根据权利要求6所述的,予空间训练子模块是根据EM算法训练所得,目标函数是提升对数似然度,具体方法是:先固定线性子空间,估计隐含参数,使得对数似然最大;随后固定隐含参数,求解予空间。
9.根据权利要求5所述的,模型匹配模块采用的模型参数,是所述建立模型模块估计出的子空间模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012100931201A CN102693723A (zh) | 2012-04-01 | 2012-04-01 | 一种基于子空间的非特定人孤立词识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012100931201A CN102693723A (zh) | 2012-04-01 | 2012-04-01 | 一种基于子空间的非特定人孤立词识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102693723A true CN102693723A (zh) | 2012-09-26 |
Family
ID=46859107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012100931201A Pending CN102693723A (zh) | 2012-04-01 | 2012-04-01 | 一种基于子空间的非特定人孤立词识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102693723A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103117060A (zh) * | 2013-01-18 | 2013-05-22 | 中国科学院声学研究所 | 用于语音识别的声学模型的建模方法、建模系统 |
CN104661152A (zh) * | 2013-11-25 | 2015-05-27 | 奥迪康有限公司 | 用于听力系统的空间滤波器组 |
CN104732968A (zh) * | 2013-12-20 | 2015-06-24 | 携程计算机技术(上海)有限公司 | 语音操控系统的评价系统及方法 |
CN105893674A (zh) * | 2016-03-31 | 2016-08-24 | 恒泰艾普石油天然气技术服务股份有限公司 | 采用全局协方差进行地质属性预测的方法 |
CN106558306A (zh) * | 2015-09-28 | 2017-04-05 | 广东新信通信息系统服务有限公司 | 用于语音识别的方法、装置和设备 |
CN107498218A (zh) * | 2017-08-11 | 2017-12-22 | 潘荣兰 | 一种基于语音识别的智能焊接系统 |
CN107945789A (zh) * | 2017-12-28 | 2018-04-20 | 努比亚技术有限公司 | 语音识别方法、装置及计算机可读存储介质 |
CN108984159A (zh) * | 2018-06-15 | 2018-12-11 | 浙江网新恒天软件有限公司 | 一种基于马尔可夫语言模型的缩略词组扩展方法 |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
CN112434599A (zh) * | 2020-11-23 | 2021-03-02 | 同济大学 | 一种基于噪声通道的随机遮挡恢复的行人重识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0623914A1 (en) * | 1993-05-05 | 1994-11-09 | CSELT Centro Studi e Laboratori Telecomunicazioni S.p.A. | Speaker independent isolated word recognition system using neural networks |
CN1655232A (zh) * | 2004-02-13 | 2005-08-17 | 松下电器产业株式会社 | 上下文相关的汉语语音识别建模方法 |
CN1983388A (zh) * | 2005-12-14 | 2007-06-20 | 中国科学院自动化研究所 | 一种基于dsp的语音识别及优化方法 |
CN101894548A (zh) * | 2010-06-23 | 2010-11-24 | 清华大学 | 一种用于语种识别的建模方法及装置 |
-
2012
- 2012-04-01 CN CN2012100931201A patent/CN102693723A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0623914A1 (en) * | 1993-05-05 | 1994-11-09 | CSELT Centro Studi e Laboratori Telecomunicazioni S.p.A. | Speaker independent isolated word recognition system using neural networks |
CN1655232A (zh) * | 2004-02-13 | 2005-08-17 | 松下电器产业株式会社 | 上下文相关的汉语语音识别建模方法 |
CN1983388A (zh) * | 2005-12-14 | 2007-06-20 | 中国科学院自动化研究所 | 一种基于dsp的语音识别及优化方法 |
CN101894548A (zh) * | 2010-06-23 | 2010-11-24 | 清华大学 | 一种用于语种识别的建模方法及装置 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103117060A (zh) * | 2013-01-18 | 2013-05-22 | 中国科学院声学研究所 | 用于语音识别的声学模型的建模方法、建模系统 |
CN103117060B (zh) * | 2013-01-18 | 2015-10-28 | 中国科学院声学研究所 | 用于语音识别的声学模型的建模方法、建模系统 |
CN104661152A (zh) * | 2013-11-25 | 2015-05-27 | 奥迪康有限公司 | 用于听力系统的空间滤波器组 |
CN104661152B (zh) * | 2013-11-25 | 2020-08-11 | 奥迪康有限公司 | 用于听力系统的空间滤波器组 |
CN104732968B (zh) * | 2013-12-20 | 2018-10-02 | 上海携程商务有限公司 | 语音操控系统的评价系统及方法 |
CN104732968A (zh) * | 2013-12-20 | 2015-06-24 | 携程计算机技术(上海)有限公司 | 语音操控系统的评价系统及方法 |
CN106558306A (zh) * | 2015-09-28 | 2017-04-05 | 广东新信通信息系统服务有限公司 | 用于语音识别的方法、装置和设备 |
CN105893674A (zh) * | 2016-03-31 | 2016-08-24 | 恒泰艾普石油天然气技术服务股份有限公司 | 采用全局协方差进行地质属性预测的方法 |
CN105893674B (zh) * | 2016-03-31 | 2019-10-25 | 恒泰艾普集团股份有限公司 | 采用全局协方差进行地质属性预测的方法 |
CN107498218A (zh) * | 2017-08-11 | 2017-12-22 | 潘荣兰 | 一种基于语音识别的智能焊接系统 |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
CN107945789A (zh) * | 2017-12-28 | 2018-04-20 | 努比亚技术有限公司 | 语音识别方法、装置及计算机可读存储介质 |
CN108984159A (zh) * | 2018-06-15 | 2018-12-11 | 浙江网新恒天软件有限公司 | 一种基于马尔可夫语言模型的缩略词组扩展方法 |
CN108984159B (zh) * | 2018-06-15 | 2021-06-15 | 浙江网新恒天软件有限公司 | 一种基于马尔可夫语言模型的缩略词组扩展方法 |
CN112434599A (zh) * | 2020-11-23 | 2021-03-02 | 同济大学 | 一种基于噪声通道的随机遮挡恢复的行人重识别方法 |
CN112434599B (zh) * | 2020-11-23 | 2022-11-18 | 同济大学 | 一种基于噪声通道的随机遮挡恢复的行人重识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102693723A (zh) | 一种基于子空间的非特定人孤立词识别方法及装置 | |
US11270685B2 (en) | Speech based user recognition | |
US8301450B2 (en) | Apparatus, method, and medium for dialogue speech recognition using topic domain detection | |
US10032451B1 (en) | User recognition for speech processing systems | |
US11830485B2 (en) | Multiple speech processing system with synthesized speech styles | |
US8930196B2 (en) | System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands | |
US11211058B1 (en) | Disambiguation in automatic speech processing | |
EP2888669B1 (en) | Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems | |
CN107093422B (zh) | 一种语音识别方法和语音识别系统 | |
Imseng et al. | Impact of deep MLP architecture on different acoustic modeling techniques for under-resourced speech recognition | |
US11705116B2 (en) | Language and grammar model adaptation using model weight data | |
US11495215B1 (en) | Deep multi-channel acoustic modeling using frequency aligned network | |
Abad et al. | The L2F Spoken Web Search System for Mediaeval 2013. | |
Cardinal et al. | Speaker adaptation using the i-vector technique for bottleneck features | |
Aggarwal et al. | Integration of multiple acoustic and language models for improved Hindi speech recognition system | |
Alsayadi et al. | Deep investigation of the recent advances in dialectal Arabic speech recognition | |
US11308939B1 (en) | Wakeword detection using multi-word model | |
Bocchieri et al. | Speech recognition modeling advances for mobile voice search | |
JP4861912B2 (ja) | 知識源を組込むための確率計算装置及びコンピュータプログラム | |
Sharma et al. | Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art | |
US11817090B1 (en) | Entity resolution using acoustic data | |
Li et al. | Automatic segmentation of Chinese Mandarin speech into syllable-like | |
Matsuda et al. | Speech recognition system robust to noise and speaking styles. | |
Fernández et al. | Language identification techniques based on full recognition in an air traffic control task | |
Herbig et al. | Adaptive systems for unsupervised speaker tracking and speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120926 |