CN102479507A - 可辨认任何语言句子的方法 - Google Patents

可辨认任何语言句子的方法 Download PDF

Info

Publication number
CN102479507A
CN102479507A CN2010105634522A CN201010563452A CN102479507A CN 102479507 A CN102479507 A CN 102479507A CN 2010105634522 A CN2010105634522 A CN 2010105634522A CN 201010563452 A CN201010563452 A CN 201010563452A CN 102479507 A CN102479507 A CN 102479507A
Authority
CN
China
Prior art keywords
sentence
matrix
linear predictor
sound
cepstrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010105634522A
Other languages
English (en)
Other versions
CN102479507B (zh
Inventor
黎自奋
李台珍
黎世聪
黎世宏
廖丽娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201010563452.2A priority Critical patent/CN102479507B/zh
Publication of CN102479507A publication Critical patent/CN102479507A/zh
Application granted granted Critical
Publication of CN102479507B publication Critical patent/CN102479507B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明可辨认任何语言的句子。一个句子可能是一个单字,名称或句子。本发明最重要的特点是将任何语言的句子“全部用相等的E×P=12×12矩”表示。先用一千个不同声音。用E=12等长弹性框,无滤波器,不重叠,将声音换成E×P线性预估编码倒频谱矩阵,代表一千个资料库。将要辨认已知句子除去两音节、两单字之间及句子前后两端的静音及杂音。再用E个等长弹性框转换成E×P线性预估编码倒频谱矩阵,用距离将该已知全部句子E×P矩阵,分到最近的资料库内。辨认一个未知句子时,将它转换成E×P线性预估编码倒频谱矩阵,再用未知句子E×P矩阵从一千个资料库中,找F个最接近的资料库,再从F个最接近的资料库内已知句子,找该未知句子。

Description

可辨认任何语言句子的方法
技术领域
本发明提供一种可辨认任何语言句子的方法,用12弹性框(窗),等长、无滤波器、不重叠,将一到多个单字组成长短不一的一个句子的音波转换成E×P=12×12的线性预估编码倒频谱(LPCC)的矩阵。将全部被辨认的已知句子以相似度先分到一千个不同资料库中,辨认一个未知句子时,将它先转换成E×P线性预估编码倒频谱矩阵,再用未知句子E×P矩阵用距离从一千个资料库中,找最接近的资料库。再从最接近的资料库内的已知句子,用距离找要辨认未知的句子。
当使用者发音后,用Visual Basic,不到一秒钟很快能辨认所要的句子。方法简单,不需样本,任何人都可即时使用,发音不标准或发错音者也可。以前要计算及比对一个句子特征值,本发明只要计算及比对一个句子E×P矩阵值,速度快、准确率高。用普通话、闽南语、英语、日语、德语发音均测试过,可辨认大量语音,本发明不用样本,用简单数学计算及辨认,又准又快。
背景技术
一般辨认一个未知句子是先将该未知句子切割成多个单音或单字,切割是一项极高难度技术,尤其是英语,一个英语单字有多个音节,很难切割准确,一音节之差会使未知句子辨认错。所以讲话时,要小心、要慢、要清楚、单字间隔要长。再将未知句子全部单字和资料库的已知单字比对,一个单字错误会使未知句子辨认错。再将单字资料库找到的已知单字依照未知句子单字顺序,连成一个已知句子,再从句子资料库找最可能已知句子为未知句子。一般辨认一个未知句子方法很难准确,费时,不能正常和电脑自由交谈。一般辨认方法需费时做样本,须用统计计算及辨认,当然不准,因统计只能估计。
一个句子的发音是用音波表示。音波是一种随时间作非线性变化的系统,一个句子音波内含有一种动态特性,也随时间作非线性连续变化。相同句子发音时,有一连串相同动态特性,随时间作非线性伸展及收缩,但相同动态特性依时间排列秩序一样,但时间不同。相同句子发音时,将相同的动态特性排列在同一时间位置上非常困难。
一个电脑化语言辨认系统,首先要抽取声波有关语言资讯,也即动态特性,过滤和语言无关的杂音,如人的音色、音调,说话时心理、生理及情绪和语音辨认无关先删去,然后再将相同句子的相同特征排列在相同的时间位置上。此一连串的特征用一等长系列特征向量表示,称为一个句子的特征模型。目前语音辨认系统要产生大小一致的特征模型太复杂,且费时,因为相同句子的相同特征很难排列在同一时间位置上,尤其是英语,导致比对辨认较困难。
一个连续声波特征常用有下列几种:能量(energy),零横过点数(zerocrossings),极值数目(extreme count),颠峰(formants),线性预估编码倒频谱(LPCC)及梅尔频率倒频谱(MFCC),其中以线性预估编码倒频谱(LPCC)及梅尔频率倒频谱(MFCC)是最有效,并普遍使用。线性预估编码倒频谱(LPCC)是代表一个连续音最可靠,稳定又准确的语言特征。它用线性回归模式代表连续音音波,以最小平方估计法计算回归系数,其估计值再转换成倒频谱,就成为线性预估编码倒频谱(LPCC)。而梅尔频率倒频谱(MFCC)是将音波用傅氏转换法转换成频率。再根据梅尔频率比例去估计听觉系统。根据学者S.B.Davis and P.Mermelstein于1980年出版在IEEE Transactions on Acoustics,Speech Signal Processing,Vol.28,No.4发表的论文Comparison of parametric representations for monosyllabicword recognition in continuously spoken sentences中用动态时间扭曲法(DTW),梅尔频率倒频谱(MFCC)特征比线性预估编码倒频谱(LPCC)特征辨认率要高。但经过多次语音辨认实验(包含本人前发明),用贝氏分类法,线性预估编码倒频谱(LPCC)特征辨认率比梅尔频率倒频谱(MFCC)特征要高,且省时。
至于语言辨认,已有很多方法采用。有动态时间扭曲法(dynamictime-warping)、向量量化法(vector quantization)及隐藏式马可夫模式法(HMM)。如果相同的发音在时间上的变化有差异,一面比对,一面将相同特征拉到同一时间位置,辨认率会很好;但将相同特征拉到同一位置很困难并扭曲时间太长则不能应用。向量量化法如辨认大量单音,不但不准确,且费时。最近隐藏式马可夫模式法(HMM)辨认方法不错,但方法繁杂,太多未知参数需估计,计算估计值及辨认费时。本发明人T.F.Li(黎自奋)于2003年出版在Pattern Recognition,vol.36发表的论文Speechrecognition of mandarin monosyllables,Li,Tze Fen(黎自奋)于1997年在美国专利证书,Apparatus and Method for Normalizing and CategorizingLinear Prediction Code Vectors using Bayesian Categorization Technique,U.S.A.Patent No.5,704,004,Dec.30,1997,黎自奋于2008年在中国台湾专利证书I 297487号(2008,6,1)名称语音辨认方法及黎自奋于2009年在中国台湾专利证书第I 310543号(2009,6,1)名称一个连续二次贝氏分类法辨认相似国语单音的方法中,用贝氏分类法,以相同资料库,将长短不同一系列LPCC向量用各种方法压缩成相同大小的特征模型,辨认结果比Y.K.Chen,C.Y.Liu,G.H.Chiang,M.T.Lin于1990年出版在Proceedings ofTelecommunication Symposium,Taiwan发表的论文The recognition ofmandarin monosyllables based on the discrete hidden Markov model中用隐藏式马可夫模式法HMM方法要好。但压缩过程复杂费时,且相同单音很难将相同特征压缩到相同时间位置,对于相似单音,很难辨认。
本发明语音辨认方法针对上述缺点,从学理方面,根据音波有一种语音特征,随时间作非线性变化,自然导出一套抽取语音特征方法,将任何语言的句子“全部用相等的E×P=12×12矩阵”表示。
发明内容
(1)本发明最重要的目的是可以快速又准确地辨认任何语言的任何句子,以前要计算及比对一个句子全部单字特征值,本发明只要计算及比对一个句子E×P矩阵值,可达到和电脑自由交谈的目地。
(2)为了达到(1)的目地,本发明应用一种句子音波正常化及抽取特征方法。它使用较少数E=12个相等弹性框,等长,不重叠,没有滤波器,能依一个句子音波长短,自由调节涵盖全部句子波长,能将所有要辨认一到多个单字长短不一的句子全部转换成相等E×P=12×12线性预估编码倒频谱矩阵。句子内一系列随时间作非线性变化的动态特性转换成一个大小相等的E×P线性预估编码倒频谱矩阵,并且相同句子的特征模型在相同时间位置上有相同特征。可以及时比对,达到电脑即时辨认效果。
(3)本发明应用一千个不同资料库,能辨认大量句子,速度快,准确率也大大提高。主要将全部已知句子分散在一千个资料库最接近声音的资料库内,辨认未知句子时,先找和未知句子声音F个最接近的资料库,再从F个最接近的资料库内的已知句子找所要辨认的未知句子。在F个最接近的资料库内所有的已知句子不多,很容易辨认,又准又快。以前要计算及比对一个句子内所有单字特征值矩阵,本发明只要计算及比对一个句子的一个E×P矩阵值。
本发明提供给了一种可辨认所有语言句子的方法,其步骤包含:
(1)一个句子可能是任何语言一个单音,单字,名称或句子,先有M=1000个不同声音;
(2)一个先前处理器删去在句子或声音之前及句子或声音之后,两单字之间及两音节之间,所有不具语音音波信号点的静音及杂音;
(3)一个声音或句子音波正常化及抽取特征方法:用E个相等弹性框,没有滤波器,不重叠,将一个声音或句子音波正常化,并转换成大小相等的线性预估编码倒频谱E×P矩阵;
(4)M=1000不同声音的线性预估编码倒频谱E×P矩阵代表M=1000不同资料库;
(5)使用者对已知句子清楚发音一次,删去在句子之前及句子之后,两单字及两音节之间,所有不具语音音波信号点的静音及杂音,用E个相等弹性框将一个已知句子具语音的音波正常化,并转换成大小相等的线性预估编码倒频谱E×P矩阵;
(6)用已知句子线性预估编码倒频谱E×P矩阵与所有M=1000不同声音的线性预估编码倒频谱E×P矩阵之间距离或加权距离找最接近的资料库,将该已知句子的线性预估编码倒频谱E×P矩阵分到最接近的资料库内,同样,再用距离或加权距离,将全部要辨认的任何语言已知句子的线性预估编码倒频谱E×P矩阵分到和代表资料库声音的线性预估编码倒频谱E×P矩阵距离最近的资料库内,相似已知句子都放在同一资料库内;
(7)要辨认未知句子时,使用者对所要未知句子发音后,同样用该未知句子线性预估编码倒频谱E×P矩阵与所有M=1000不同声音的线性预估编码倒频谱E×P矩阵之间的距离或加权距离找F个最接近的资料库,再用该未知句子线性预估编码倒频谱E×P矩阵与F个最接近的资料库内”相似已知句子”的线性预估编码倒频谱E×P矩阵之间的距离或加权距离,找使用者所要的未知句子;
(8)如果辨认不成功,使用者再发音该句子一次,用E个相等弹性框将该句子转换成线性预估编码倒频谱E×P矩阵,将该句子及出现最前面N个句子线性预估编码倒频谱的(N+1)个E×P平均值矩阵作为该句子的E×P特征矩阵,用距离将该句子的E×P特征矩阵,该E×P特征矩阵即为平均值矩阵,分到最接近的资料库内,再辨认该句子。
本发明不用样本,不用统计计算及辨认,用数学计算及用句子的线性预估编码倒频谱E×P矩阵之间的距离来辨认。
本发明辨认方法可以辨认讲话太快或讲话太慢的句子。讲话太快时,一个句子音波很短,本发明的E=12等长弹性框长度可以缩小,仍然用相同数E个等长的弹性框含盖短音波。产生E个线性预估编码倒频谱(LPCC)向量。讲太慢所发出一个句子音波较长。E=12等长弹性框长度会伸长。所产生相同数E个线性预估编码倒频谱(LPCC)向量也能有效代表该长句子。
本发明提供一种修正技术,对辨错的句子清楚地发音一次即可。
附图说明
图1和图2说明发明执行程序;
图1是表示建立M=1000个不同资料库,每个资料库含相似的已知句子;
图2表示辨认未知句子的流程;
图3至图7是表示用Visual Basic软件输入片断本发明说明书及辨认中文及英文句子。
附图标记说明:1-先有M=1000个不同声音;10-音波数字化;20-除去杂音及静音时段;30-E个等长弹性框正常化全部有声音波;40-每个等长弹性框内,用最小平方法计算P个线性预估编码倒频谱;50-一个声音的线性预估编码倒频谱E×P矩阵代表一个资料库,一共有一千个资料库;60-对已知句子清楚发音一次,除去静音及杂音,将它转换成线性预估编码倒频谱LPCC E×P矩阵;70-用距离将已知句子线性预估编码倒频谱LPCCE×P矩阵分到最接近的资料库内;80-有M=1000个资料库,每个资料库含相似的已知句子;2-对要辨认未知句子清楚发音;41-每个等长弹性框内,用最小平方法计算P个线性预估编码倒频谱,一个未知句子用线性预估编码倒频谱E×P矩阵代表;84-用距离在M=1000个资料库找F个和该要辨认未知句子最接近的资料库;90-在F个最接近的资料库内相似的已知句子,用距离找要辨认的未知句子。
具体实施方式
用图1和图2说明发明执行程序。图1是表示建立M=1000个资料库,每个资料库内有相似已知句子。图2是表示使用者辨认未知句子执行程序。
先有M=1000个不同声音1,一个声音音波转换成数字化信号点10,除去杂音或静音20。先将该有声音音波正常化再抽取特征,将一个声音音波全部信号点分成E=12等时段,每时段组成一个框。一个声音一共有E个等长框30,没有滤波器,不重叠,根据声音全部信号点的长度,E个相等框长度自由调整涵盖全部信号点。所以该框称为等长弹性框,长度自由伸缩,但E个”弹性框长度一样”。不像汉明(Hamming)窗,有滤波器、半重叠、固定长度、不能随波长自由调整。因一个声音音波随时间作非线性变化,音波含有一个语音动态特征,也随时间作非线性变化。因为不重叠,所以本发明使用较少(E=12)个等长弹性框,涵盖全部声音音波,因信号点可由前面信号点估计,用随时间作线性变化的回归模式来密切估计非线性变化的音波,用最小平方法估计回归未知系数。每个等长弹性框内,用最小平方法计算P=12个线性预估编码倒频谱40,一个声音用E×P线性预估编码倒频谱矩阵代表,一个声音的E×P线性预估编码倒频谱矩阵代表一个资料库,一共有一千个资料库50。对所要辨认的已知句子清楚发音一次,除去静音及杂音,在句子之前及句子之后,两单字及两音节之间,删去所有的静音及杂音。用E个相等弹性框将要辨认的已知句子转换成一个E×P线性预估编码倒频谱(LPCC)矩阵60。用距离将该已知句子的E×P线性预估编码倒频谱(LPCC)矩阵分到最接近的资料库内70。全部要辨认的已知句子分到M=1000个不同资料库。有M=1000个资料库,每个资料库含相似的已知句子80。
图2表示辨认未知句子方法的流程,先对一个所要辨认的未知句子清楚发音2,未知句子音波数字化成信号点10,除去静音及杂音20,在未知句子之前及未知句子之后,两单字及两音节之间,删去所有的静音及杂音。E个等长弹性框正常化音波,抽取特征,将要辨认的未知句子全部具有语音的信号点分成E等时段,每时段形成一个弹性框30。一共有E个等长弹性框,没有滤波器,不重叠,自由伸缩含盖全部信号点。在每框内,因信号点可由前面信号估计,用最小平方法求回归未知系数的估计值。每框内所产生的P=12最小平方估计值叫做线性预估编码(LPC)向量,再将线性预估编码(LPC)向量转换较稳定线性预估编码倒频谱(LPCC)向量,一个未知句子用一个E×P线性预估编码倒频谱矩阵代表41。本发明用要辨认未知句子的E×P线性预估编码倒频谱矩阵和M=1000资料库80E×P线性预估编码倒频谱矩阵的距离或加权距离,找F个最接近的资料库,也即该F个资料库距该要辨认未知句子的线性预估编码倒频谱矩阵有F个最小距离84。再用距离或加权距离在F个最接近资料库内已知句子,找要辨认未知句子90。
本发明详述于后:
一个声音(句子)清楚发音后1,将此声音(句子)音波转换成一系列数化音波信号点(signal sampled points)10,再删去不具语音音波信号点,在声音(句子)之前及声音(句子)之后,两单字及两音节之间,删去所有的静音及杂音20。不具语音信号点删去后,剩下信号点代表一个声音(句子)全部信号点。先将音波正常化再抽取特征,将全部信号点分成E=12等时段,每时段形成一个框。一个声音(句子)共有E个”等长”的弹性框,没有滤波器、不重叠、自由伸缩,涵盖全部信号点30。在每个等长弹性框内,信号点随时间作非线性变化,很难用数学模型表示。因为J.Markhoul于1975年出版在Proceedings of IEEE,Vol.63,No.4发表论文Linear Prediction:Atutorial review及Li,Tze Fen(黎自奋)于1997年在美国专利证书,Apparatus and Method for Normalizing and Categorizing Linear PredictionCode Vectors using Bayesian Categorization Technique,U.S.A.Patent No.5,704,004,Dec.30,1997中说明信号点与前面信号点有线性关系,可用随时间作线性变化的回归的模型估计此非线性变化的信号点。信号点S(n)可由前面信号点估计,其估计值S′(n)由下列回归模式表示:
S ′ ( n ) = Σ k = 1 P a k S ( n - k ) , n ≥ 0 - - - ( 1 )
在(1)式中,ak,k=1,...,P,是回归未知系数估计值,P是前面信号点数目。用L.Rabiner及B.H.Juang于1993年著作书Fundamentals of SpeechRecognition,Prentice Hall PTR,Englewood Cliffs,New Jersey及Li,Tze Fen(黎自奋)于1997年在美国专利证书,Apparatus and Method forNormalizing and Categorizing Linear Prediction Code Vectors using BayesianCategorization Technique,U.S.A.Patent No.5,704,004,Dec.30,1997中Durbin的循环公式求最小平方估计值,此组估计值叫做线性预估编码(LPC)向量。求框内信号点的线性预估编码(LPC)向量方法详述如下:
以E1表示信号点S(n)及其估计值S′(n)之间平方差总和:
E 1 = Σ n = 0 N [ S ( n ) - Σ k = 1 P a k S ( n - k ) ] 2 - - - ( 2 )
求回归系数使平方总和E1达最小。对每个未知回归系数ai,i=1,...,P,求(2)式的偏微分,并使偏微分为0,得到P组正常方程式:
Σ k = 1 P a k Σ n S ( n - k ) S ( n - i ) = Σ n S ( n ) S ( n - i ) , 1≤i≤P    (3)
展开(2)式后,以(3)式代入,得最小总平方差EP
E P = Σ n S 2 ( n ) - Σ k = 1 P a k Σ n S ( n ) S ( n - k ) - - - ( 4 )
(3)式及(4)式转换为
Σ k = 1 P a k R ( i - k ) = R ( i ) , 1 ≤ i ≤ P - - - ( 5 )
E P = R ( 0 ) - Σ k = 1 P a k R ( k ) - - - ( 6 )
在(5)及(6)式中,用N表示框内信号点数,
R ( i ) = Σ n = 0 N - i S ( n ) S ( n + i ) , i ≥ 0 - - - ( 7 )
用Durbin的循环快速计算线性预估编码(LPC)向量如下:
E0=R(0)    (8)
k i = [ R ( i ) - Σ j = 1 i - 1 a j ( i - 1 ) R ( i - j ) ] / E i - 1 - - - ( 9 )
a i ( i ) = k i - - - ( 10 )
a j ( i ) = a j ( i - 1 ) - k i a i - j ( i - 1 ) , 1≤j≤i-1    (11)
E i = ( 1 - k i 2 ) E i - 1 - - - ( 12 )
(8-12)公式循环计算,得到回归系数最小平方估计值aj,j=1,...,P,(线性预估编码(LPC)向量)如下:
a j = a j ( P ) , 1≤j≤P    (13)
再用下列公式将LPC向量转换较稳定线性预估编码倒频谱(LPCC)向量a′j,j=1,...,P,
a ′ i = a i + Σ j = 1 i - 1 ( j i ) a i - j a ′ j , 1≤i≤P    (14)
a ′ i = Σ j = i - P i - 1 ( j i ) a i - j a ′ j , P<i       (15)
一个弹性框产生一个线性预估编码倒频谱(LPCC)向量(a′1,...,a′P)40。根据本发明语音辨认方法,用P=12,因最后的线性预估编码倒频谱(LPCC)几乎为0。一个以E个线性预估编码倒频谱(LPCC)向量表示一个声音(句子)特征,也即一个含E×P=12×12个线性预估编码倒频谱(LPCC)的矩阵表示一个声音50。
(2)将要辨认的已知句子发音后,已知句子前后,两单字及两音节之间,删去所有的静音及杂音,用(8-15)公式将已知句子转换成线性预估编码倒频谱(LPCC)E×P矩阵60。用已知句子线性预估编码倒频谱(LPCC)E×P矩阵与所有M=1000不同声音的线性预估编码倒频谱E×P矩阵之间距离或加权距离找最接近的资料库,将该已知句子的E×P线性预估编码倒频谱(LPCC)矩阵分到最接近的资料库内70。有M=1000个资料库,每个资料库含相似的已知句子80。
(3)要辨认未知句子时,使用者先对一个所要辨认的未知句子清楚发音2。未知句子音波数字化成信号点10,除去静音及杂音20,在未知句子之前及未知句子之后,两单字及两音节之间,删去所有的静音及杂音。E个等长弹性框正常化音波,抽取特征,将要辨认的未知句子全部具有语音的信号点分成E等时段,每时段形成一个弹性框。一共有E个等长弹性框,没有滤波器,不重叠,自由伸缩含盖全部信号点30。在每框内,因信号点可由前面信号估计,用最小平方法求回归未知系数的估计值。每框内用(8-15)公式转换成线性预估编码倒频谱(LPCC)E×P矩阵,一个未知句子用一个E×P线性预估编码倒频谱矩阵代表41。本发明同样用该未知句子线性预估编码倒频谱E×P矩阵与所有M=1000不同声音的线性预估编码倒频谱E×P矩阵80之间的距离或加权距离找F个最接近的资料库84。再从F个最接近的资料库,再用该未知句子线性预估编码倒频谱E×P矩阵与最接近的F个资料库内已知句子的线性预估编码倒频谱E×P矩阵之间的距离或加权距离,找使用者所要的未知句子90。
(4)为了证实本发明能快速又准确地辨认任何语言任何句子,可达到和电脑自由交谈的目地,发明人用1000个英语单字声音代表1000个不同资料库,发明人发音928句子(80英语句子、284中文句子、3闽南句子、2日语句子、160英语单字、398中文单字、1德文单字)。测试后,句子及英语单字全部排名第一,以前要计算及比对一个句子全部单字特征值,本发明只要计算及比对一个E×P矩阵值,中文单字也在前两名,因同音字太多,辨认时间不到1秒;发明人发音7200英语单字,测试后,也在前五名,辨认时间不到2秒;发明人发音4400中文单字,测试后,也在前20名,辨认时间不到2秒。4400中文单字做为语音输入中文软件。本发明说明书用本软件输入。
(5)图6、图7用本软件(Visual Basic)输入片断本发明说明书。图3到图5用本发明辨认中文及英文句子。
以上说明对本发明而言只是说明性的,而非限制性的,本领域普通技术人员理解,在不脱离所附权利要求所限定的精神和范围的情况下,可做出许多修改、变化或等效,但都将落入本发明的保护范围内。

Claims (2)

1.一种可辨认所有语言句子的方法,其特征在于,其步骤包含:
(1)一个句子可能是任何语言一个单音,单字,名称或句子,先有M=1000个不同声音;
(2)一个先前处理器删去在句子或声音之前及句子或声音之后,两单字之间及两音节之间,所有不具语音音波信号点的静音及杂音;
(3)一个声音或句子音波正常化及抽取特征方法:用E个相等弹性框,没有滤波器,不重叠,将一个声音或句子音波正常化,并转换成大小相等的线性预估编码倒频谱E×P矩阵;
(4)M=1000不同声音的线性预估编码倒频谱E×P矩阵代表M=1000不同资料库;
(5)使用者对已知句子清楚发音一次,删去在句子之前及句子之后,两单字及两音节之间,所有不具语音音波信号点的静音及杂音,用E个相等弹性框将一个已知句子具语音的音波正常化,并转换成大小相等的线性预估编码倒频谱E×P矩阵;
(6)用已知句子线性预估编码倒频谱E×P矩阵与所有M=1000不同声音的线性预估编码倒频谱E×P矩阵之间距离或加权距离找最接近的资料库,将该已知句子的线性预估编码倒频谱E×P矩阵分到最接近的资料库内,同样,再用距离或加权距离,将全部要辨认的任何语言已知句子的线性预估编码倒频谱E×P矩阵分到和代表资料库声音的线性预估编码倒频谱E×P矩阵距离最近的资料库内,相似已知句子都放在同一资料库内;
(7)要辨认未知句子时,使用者对所要未知句子发音后,同样用该未知句子线性预估编码倒频谱E×P矩阵与所有M=1000不同声音的线性预估编码倒频谱E×P矩阵之间的距离或加权距离找F个最接近的资料库,再用该未知句子线性预估编码倒频谱E×P矩阵与F个最接近的资料库内”相似已知句子”的线性预估编码倒频谱E×P矩阵之间的距离或加权距离,找使用者所要的未知句子;
(8)如果辨认不成功,使用者再发音该句子一次,用E个相等弹性框将该句子转换成线性预估编码倒频谱E×P矩阵,将该句子及出现最前面N个句子线性预估编码倒频谱的(N+1)个E×P平均值矩阵作为该句子的E×P特征矩阵,用距离将该句子的E×P特征矩阵,该E×P特征矩阵即为平均值矩阵,分到最接近的资料库内,再辨认该句子。
2.根据权利要求1所述的可辨认所有语言句子的方法,其特征在于,步骤(3)包含用E个相等弹性框,等长,没有滤波器,不重叠,将一个声音或句子音波正常化及抽取大小一致的特征矩阵,步骤如下:
删去在句子或声音之前及句子或声音之后,两单字之间及两音节之间,所有不具语音音波信号点的静音及杂音,用一个均等分一个句子或一个声音所有有声音波信号点方法,为了用线性变化的回归模式密切估计非线性变化的音波,将全长有声音波信号点分成E=12相等时段,每相等时段形成一个弹性框,一个句子或一个声音共有E个”等长”弹性框,没有滤波器,不重叠,可以自由伸缩含盖全长音波,不是固定长度的汉明窗;
每个”等长”弹性框内,用一随时间作线性变化的回归模式估计随时间作非线性变化的音波;
信号点S(n)可由前面信号点估计,其估计值S′(n)由下列回归模式表示:
S ′ ( n ) = Σ k = 1 P a k S ( n - k ) , n ≥ 0
在上式中,ak,k=1,...,P,是回归未知系数估计值,P是前面信号点数目,以E1表示信号点S(n)及其估计值S′(n)之间平方差总和:
E 1 = Σ n = 0 N [ S ( n ) - Σ k = 1 P a k S ( n - k ) ] 2
求回归系数使平方总和E1达最小。对每个未知回归系数ai,i=1,...,P,求上式的偏微分,并使偏微分为0,得到P组正常方程式:
Σ k = 1 P a k Σ n S ( n - k ) S ( n - i ) = Σ n S ( n ) S ( n - i ) , 1≤i≤P
由上两式,得最小总平方差EP
E P = Σ n S 2 ( n ) - Σ k = 1 P a k Σ n S ( n ) S ( n - k )
由上两式转换为
Σ k = 1 P a k R ( i - k ) = R ( i ) , 1≤i≤P
E P = R ( 0 ) - Σ k = 1 P a k R ( k )
用N表示框内信号点数,在上两式中
R ( i ) = Σ n = 0 N - i S ( n ) S ( n + i ) , i ≥ 0
用Durbin的循环快速计算线性预估编码向量如下:
E0=R(0)
k i = [ R ( i ) - Σ j = 1 i - 1 a j ( i - 1 ) R ( i - j ) ] / E i - 1
a i ( i ) = k i
a j ( i ) = a j ( i - 1 ) - k i a i - j ( i - 1 ) , 1≤j≤i-1
E i = ( 1 - k i 2 ) E i - 1
用上五公式循环计算,得到回归系数最小平方估计值aj,j=1,...,P,即线性预估编码向量如下:
a j = a j ( P ) 1≤j≤P
再用下列两公式
a ′ i = a i + Σ j = 1 i - 1 ( j i ) a i - j a ′ j , 1≤i≤P
a ′ i = Σ j = i - P i - 1 ( j i ) a i - j a ′ j , P<i
将线性预估编码向量转换较稳定线性预估编码倒频谱向量a′j,j=1,...,P;
用一个线性预估编码倒频谱E×P矩阵,表示一个句子或一个声音。
CN201010563452.2A 2010-11-29 2010-11-29 可辨认任何语言句子的方法 Expired - Fee Related CN102479507B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010563452.2A CN102479507B (zh) 2010-11-29 2010-11-29 可辨认任何语言句子的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010563452.2A CN102479507B (zh) 2010-11-29 2010-11-29 可辨认任何语言句子的方法

Publications (2)

Publication Number Publication Date
CN102479507A true CN102479507A (zh) 2012-05-30
CN102479507B CN102479507B (zh) 2014-07-02

Family

ID=46092121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010563452.2A Expired - Fee Related CN102479507B (zh) 2010-11-29 2010-11-29 可辨认任何语言句子的方法

Country Status (1)

Country Link
CN (1) CN102479507B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794192A (en) * 1993-04-29 1998-08-11 Panasonic Technologies, Inc. Self-learning speaker adaptation based on spectral bias source decomposition, using very short calibration speech
CN1662956A (zh) * 2002-06-19 2005-08-31 皇家飞利浦电子股份有限公司 大量说话人识别(id)系统及其相应方法
US6985858B2 (en) * 2001-03-20 2006-01-10 Microsoft Corporation Method and apparatus for removing noise from feature vectors
CN101246686A (zh) * 2007-02-15 2008-08-20 黎自奋 连续二次贝氏分类法辨认相似国语单音的方法及装置
CN101281746A (zh) * 2008-03-17 2008-10-08 黎自奋 一个百分之百辨认率的国语单音与句子辨认方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794192A (en) * 1993-04-29 1998-08-11 Panasonic Technologies, Inc. Self-learning speaker adaptation based on spectral bias source decomposition, using very short calibration speech
US6985858B2 (en) * 2001-03-20 2006-01-10 Microsoft Corporation Method and apparatus for removing noise from feature vectors
CN1662956A (zh) * 2002-06-19 2005-08-31 皇家飞利浦电子股份有限公司 大量说话人识别(id)系统及其相应方法
CN101246686A (zh) * 2007-02-15 2008-08-20 黎自奋 连续二次贝氏分类法辨认相似国语单音的方法及装置
CN101281746A (zh) * 2008-03-17 2008-10-08 黎自奋 一个百分之百辨认率的国语单音与句子辨认方法

Also Published As

Publication number Publication date
CN102479507B (zh) 2014-07-02

Similar Documents

Publication Publication Date Title
US6278970B1 (en) Speech transformation using log energy and orthogonal matrix
TWI396184B (zh) 一種語音辨認所有語言及用語音輸入單字的方法
Bezoui et al. Feature extraction of some Quranic recitation using mel-frequency cepstral coeficients (MFCC)
US5202926A (en) Phoneme discrimination method
Shariah et al. Human computer interaction using isolated-words speech recognition technology
Hon et al. Towards large vocabulary Mandarin Chinese speech recognition
Haraty et al. CASRA+: A colloquial Arabic speech recognition application
Unnibhavi et al. LPC based speech recognition for Kannada vowels
Syfullah et al. Efficient vector code-book generation using K-means and Linde-Buzo-Gray (LBG) algorithm for Bengali voice recognition
Chavan et al. Speech recognition in noisy environment, issues and challenges: A review
JP5091202B2 (ja) サンプルを用いずあらゆる言語を識別可能な識別方法
Malayath et al. Data-driven spectral basis functions for automatic speech recognition
CN101246686A (zh) 连续二次贝氏分类法辨认相似国语单音的方法及装置
Gedam et al. Development of automatic speech recognition of Marathi numerals-a review
Nguyen et al. Vietnamese voice recognition for home automation using MFCC and DTW techniques
Muslima et al. Experimental framework for mel-scaled LP based Bangla speech recognition
CN102479507B (zh) 可辨认任何语言句子的方法
CN101281746A (zh) 一个百分之百辨认率的国语单音与句子辨认方法
CN102034474B (zh) 语音辨认所有语言及用语音输入单字的方法
Bansod et al. Speaker Recognition using Marathi (Varhadi) Language
Kurian et al. Automated Transcription System for MalayalamLanguage
Arun et al. Malayalam speech to text conversion using deep learning
Srinivasan Real time speaker recognition of letter ‘zha’in Tamil language
TWI460718B (zh) 一個辨認所有語言句子方法
Li et al. Speech recognition of mandarin syllables using both linear predict coding cepstra and Mel frequency cepstra

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140702

Termination date: 20141129

EXPY Termination of patent right or utility model