CN101339765B - 一种国语单音辨认方法 - Google Patents

一种国语单音辨认方法 Download PDF

Info

Publication number
CN101339765B
CN101339765B CN2007101229605A CN200710122960A CN101339765B CN 101339765 B CN101339765 B CN 101339765B CN 2007101229605 A CN2007101229605 A CN 2007101229605A CN 200710122960 A CN200710122960 A CN 200710122960A CN 101339765 B CN101339765 B CN 101339765B
Authority
CN
China
Prior art keywords
tone
sound wave
unknown
known single
linear predictor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007101229605A
Other languages
English (en)
Other versions
CN101339765A (zh
Inventor
黎自奋
李台珍
廖丽娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN2007101229605A priority Critical patent/CN101339765B/zh
Publication of CN101339765A publication Critical patent/CN101339765A/zh
Application granted granted Critical
Publication of CN101339765B publication Critical patent/CN101339765B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明为一种国语单音辨认方法,其包含:一先前处理器,一已知单音音波正常化与抽取大小一致的特征矩阵方法:用弹性框将音波正常化并转换成大小相等的线性预估编码倒频谱特征矩阵,将相同已知单音音波转换成特征相同的矩阵;对每个已知单音,选择K个最好样本;一已知单音特征矩阵的K个最好样本转换成一标准模型,储藏在数据库,标准模型含有已知单音特征矩阵的K个最好样本平均数与变异数;将未知单音音波正常化并转换成大小与已知标准模型大小相等的特征矩阵,内含有线性预估编码倒频谱,叫做未知单音分类模型;将未知单音分类模型与数据库所有已知单音标准模型比较,找一已知单音。它和未知单音贝式距离达最小,辨认为未知单音。

Description

一种国语单音辨认方法
技术领域
本发明涉及的是一种国语单音辨认方法。
背景技术
单音发音时,它的发音用音波表示。音波是一种随时间作非线性变化的系统,一个单音音波内含有一种动态特性,也随时间作非线性连续变化。相同单音发音时,有一连串相同动态特性,随时间作非线性伸展与收缩,但相同动态特性依时间排列秩序一样,但时间不同。相同单音发音时,将相同的动态特性排列在同一时间位置上非常困难。还因相似单音特多,造成辨认还难。
一个计算机化语言辨认系统,首先要抽取声波有关语言信息,也即动态特性,过滤和语言无关的杂音,如人的音色、音调,说话时心理与生理与情绪和语音辨认无关先删去。然后再将相同单音的相同特征排列在相同的时间位置上。此一连串的特征用一等长系列特征向量表示,称为一个单音的特征模型。目前语音辨认系统要产生大小一致的特征模型太复杂,且费时。相同单音的相同特征很难排列在同一时间位置上,导致比对辨认困难。
一般语音辨认系统有三个主要工作:抽取特征、特征正常化(特征模型大小一致,且相同单音的相同特征排列在同一时间位置)与未知单音辨认。一个单音声波特征常用有下列几种:能量(energy)、零横过点数(zerocrossings)、极值数目(extreme count)、颠峰(formants)、线性预估编码倒频谱(LPCC)与梅尔频率倒频谱(MFCC)。其中以线性预估编码倒频谱(LPCC)与梅尔频率倒频谱(MFCC)最为有效并普遍使用。线性预估编码倒频谱(LPCC)是代表一个单音最可靠,稳定又准确的语言特征,它用线性回归模式代表单音音波,以最小平方估计法计算回归系数,再将其估计值转换成倒频谱,就成为线性预估编码倒频谱(LPCC)。而梅尔频率倒频谱(MFCC)是将音波用傅氏转换法转换成频率,再根据梅尔频率比例去估计听觉系统。根据学者[6]用动态时间扭曲法(DTW),梅尔频率倒频谱(MFCC)特征比线性预估编码倒频谱(LPCC)特征辨认率要高。但经过多次语音辨认实验(包含申请人先前发明),用贝氏分类法,线性预估编码倒频谱(LPCC)特征辨认率比梅尔频率倒频谱(MFCC)要高且省时。
至于语言辨认,已有很多方法采用,有动态时间扭曲法(dynamictime-warping)、向量量化法(vector quantization)与隐藏式马可夫模式法(HMM)。如果相同的发音在时间上的变化有差异,一面比对,一面将相同特征拉到同一时间位置,辨认率会很好,但将相同特征拉到同一位置很困难并扭曲时间太长,不能应用。向量量化法如辨认大量单音,不但不准确,且费时。隐藏式马可夫模式法(HMM)辨认方法不错,但方法繁杂,太多未知参数需估计,计算估计值与辨认费时。最近用贝氏分类法[2],以相同数据库,将各种长短一系列线性预估编码倒频谱(LPCC)向量压缩成相同大小的分类模型,辨认结果比隐藏式马可夫模式法(HMM)方法好[2,5],但压缩过程复杂费时,且相同单音很难将相同特征压缩到相同时间位置,对于相似单音,很难辨认。
本发明语音辨认系统针对上述缺点,从学理方面,根据音波有一种语音特征,随时间作非线性变化,自然导出一套抽取语音特征方法。将一个单音音波先正常化再转换成一个足以代表所述的单音的大小相等特征模型,并且相同单音在它们特征模型内相同时间位置有相同特征,不需要人为或实验调节系统内的未知参数与门坎。用简易贝氏分类法,即可将未知单音分类模型和数据库内已知单音标准模型比对,不需要再压缩、扭曲或寻找相同的特征来比对。所以本发明语音辨认系统,能快速完成特征抽取、特征正常化与辨认。本系统为了提高单音辨认率,先将数据库每个单音,用一个发音清晰者选择最好K个样本,来计算所述的单音特征,大大提高整体国语单音辨识率。辨认率高、应用广,用弹性框可以辨认极短或极长单音音波,对英语极短音节辨认也有效。
发明内容
(1)本发明提供一种语音辨认方法与装置。它能将不具语音音波删除。
(2)本发明提供一种单音音波正常化与抽取特征方法。它使用E个相等弹性框,不重迭,没有滤波器,能依单音音波长短自由调节涵盖全部波长,能将单音音波内一序列随时间作非线性变化的动态特性转换成一个大小相等的特征模型,并且相同单音音波的特征模型在相同时间位置上有相同特征。可以及时辨认,达到计算机实时辨认效果。
(3)本发明提供一种简易有效贝氏辨认未知单音方法。认错机率达到最小,计算少,辨认快与辨识率高。
(4)本发明提供一种抽取单音特征方法。单音音波有一种随时间作非线性变化的动态特性。本发明用随时间作线性变化的回归模型估计随时间作非线性变化的音波。产生的回归未知系数的最小平方估计值(线性预估编码(LPC)向量)。
(5)本发明使用所有具有语音音波(音波信号点)。用较少数E=12个相等弹性框,不重迭涵盖所有信号点特征。不因为一个单音音波太短,删去所述的单音,也不因为太长,删去或压缩部分信号点。只要人类听觉能辨别此单音,本发明即可将所述的单音抽取特征。所以本发明语音辨认方法应用每一个具有语音的信号点,可以尽量抽取语音特征。因E=12个弹性框不重迭,框数少,大大减少特征抽取与计算线性预估编码倒频谱(LPCC)时间。
(6)本发明语音辨认方法可以辨认讲话太快或讲话太慢的单音。讲话太快时,单音音波很短,尤其对于英语音节发音,本发明的弹性框长度可以缩小,仍然用相同数E个等长的弹性框涵盖短音波。产生E个线性预估编码倒频谱(LPCC)向量。只要所述的短音人类可辨别,那么所述的E个线性预估编码倒频谱(LPCC)向量可以有效代表所述的短音的特征模型。讲太慢所发出单音音波较长。弹性框会伸长。所产生E个线性预估编码倒频谱(LPCC)向量也能有效代表所述的长音。
(7)本发明包含一套语音辨认方法。首先由多人发出相同的已知单音,产生多种长短不一的声波。然后用E个相同的弹性框,没有滤波器,不重迭,涵盖全部声波,产生一个已知单音的E个线性预估编码倒频谱(LPCC)向量多个样本,也即有多个特征模型代表所述的已知单音。多个特征模型内在相同时间位置上含有相同特征向量,也即每个样本的E个线性预估编码倒频谱(LPCC)向量依顺序线性预估编码倒频谱(LPCC)向量大致相同。
(8)本发明最主要的技术,是先用一个发音清晰者对所述的已知单音发音,用贝式距离(其它距离效果比较差),在所述的单音多个样本中,找K个最好样本(对发音者的已知单音贝式距离最短)。再将特征模型的K个样本求线性预估编码倒频谱(LPCC)平均值与变异数,得到大小一致含有平均值与变异数的矩阵,叫做所述的已知单音的标准模型,存在数据库中。再用同样方法,将一个未知单音的音波,用E个等长弹性框,没有滤波器,不重迭包含全部音波,产生E个线性预估编码倒频谱(LPCC)向量。所述的E个线性预估编码倒频谱(LPCC)向量称为一个未知单音的分类模型。当用简易的贝氏分类法比对未知单音与数据库内一个已知单音时,将分类模型内所有线性预估编码倒频谱(LPCC)假设为有独立正常分配的随机变量,它的平均值与变异数用已知单音标准模型内的样本平均数与样本变异数代替。在数据库内计算每一个已知单音标准模型内的平均数(用K个最好样本计算)与未知单音的分类模型内的线性预估编码倒频谱(LPCC)距离,再以已知单音的变异数调整,选择一个已知单音,辨认为未知单音。
(9)对于乡音、口音特殊者发音的辨认,最好找一个有相同乡音或口音发音清晰者选择数据库内每个单音最接近的K个样本计算所述的单音的平均值。经过这样处理后,本发明也可辨认有相同乡音或口音的未知单音。
附图说明
图1表示数据库建立流程;
图2表示一个未知单音辨认方法流程。
附图标记说明:1-输入已知单音(input known syllables);10-单音以连续音波表示;11-已知单音接收器(Receiver);12-音波数字化转换器(A/D converter);13-先前处理器除去杂音(Delete noise);14-弹性框正常化音波(Wave form normalization by elastic frames);15-最小平方法计算线性预估编码(LPC)倒频谱向量(Computing LPC cepstra);16一个发音清晰者对每个已知单音发音一次,在数据库中,对所述的已知单音,用贝式距离为发音者找K个最接近的样本求平均值与变异数;17-建立已知单音数据库包含所有已知单音线性预估编码倒频谱(LPCC)平均值与变异数的标准模型;2-输入未知单音(input unknown syllable);20-未知单音以连续音波表示;11-单音接收器(Receiver);12-音波数字化转换器(A/D converter);13-先前处理器除去杂音(Delete noise);14-弹性框正常化音波(Wave form normalization by elastic frames);15-最小平方法计算线性预估编码(LPC)倒频谱向量(Computing LPC cepstra);21-用未知单音的线性预估编码倒频谱(LPCC)表示未知单音分类模型;17-由图一已知单音数据库取得平均值与变异数;22-比较已知单音标准模型与未知单音分类模型(Compare categorizing pattern with all standardpatterns);23-用贝氏分类法选择一个已知单音辨认为未知单音(Selectingtop one candidate for the unknown syllable by the Bayes rule)。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点作更详细的说明
用图1与图2说明发明执行程序。图1是表示数据库建立流程。数据库包含所有已知单音的标准模型,表示已知单音的特征。一个已知单音以一个连续音波形式进入接收器11,数化转换器12将连续音波转为一序列音波数化的信号点。先前处理器13有两种删去杂音的方法:(1)计算一小时段内信号点的变异数与一般杂音变异数,如前者小于后者,则所述的小时段不具语音,应删去;(2)计算一小时段内连续两信号点距离总和与一般杂音的总和,如前者小于后者,则所述的小时段不具语音,应删去。经过先前处理器13之后,得到一序列具有所述的已知单音信号点。先将音波正常化再抽取特征,将已知单音的全部信号点分成E等时段,每时段组成一个框。一个单音一共有E个等长框14,没有滤波器,不重迭,根据单音全部信号点的长度,E个框长度自由调整涵盖全部信号点,所以所述的框称为弹性框,长度可自由伸缩,但E个弹性框长度一样。不像汉明(Hamming)窗,有滤波器,半重迭,固定长度,不能随波长自由调整。因单音音波随时间作非线性变化,音波含有一个语音动态特征,也随时间作非线性变化。因为不重迭,所以本发明使用较少(E=12)个弹性框,涵盖单音音波,因信号点可由前面信号点估计,用随时间作线性变化的回归模式来密切估计非线性变化的音波,用最小平方法估计回归未知系数。每框内产生一组未知系数最小平方估计值,叫做线性预估编码(LPC)向量。再将线性预估编码(LPC)向量转换为较稳定线性预估编码倒频谱(LPCC)。一个单音音波内含有一序列随时间作非线性变化的语音动态特征,在本发明内转换成大小相等E个线性预估编码倒频谱(LPCC)向量15。为了建立数据库,一个已知单音,由多人发音,以同样转换方法,将多人发音音波转成大小相等的E个线性预估编码倒频谱(LPCC)向量多个样本。多个样本的E个线性预估编码倒频谱(LPCC)向量代表一个同样已知单音,因此E个线性预估编码倒频谱(LPCC)向量依顺序,多个样本的线性预估编码倒频谱(LPCC)向量应大致相同,也即在同一时间位置上,多个样本线性预估编码倒频谱(LPCC)向量一样。本发明最重要的技术为每一个单音找最好样本,需一个发音清晰者发音一次,在数据库中找所述的单音K个最好的样本,也即K个对发音者的已知单音最短的K个贝式距离。再用此K个样本的线性预估编码倒频谱(LPCC)计算平均值与变异数(用所述的音全部样品计算变异数也可),本发明主要是找最好最真实的E×P=144个平均值,使E×P的线性预估编码倒频谱(LPCC)平均值真正能代表所述的单音E×P特征。使数据库中每个已知单音有明确位置与范围,不会互相重迭,为方便贝式分类法辨认。这E个线性预估编码倒频谱(LPCC)平均值与变异数向量代表一个已知单音的标准特征矩阵,称为所述的已知单音的标准模型16。此含有样本平均数与变异数的标准模型代表一个已知单音,储存在数据库中17。
图2表示一个未知单音辨认方法流程。当输入一个未知单音到本发明语音辨认系统后,以声音连续音波进入接收器11,由数字转换器12转为一序列音波信号点。再以图1先前处理器13删去不具语音的音波,将音波正常化,抽取特征。将未知单音全部具有语音的信号点分成E等时段,每时段形成一个弹性框14。一共有E个弹性框,没有滤波器,不重迭,自由伸缩涵盖全部信号点。在每框内,因信号点可由前面信号估计,用最小平方法求回归未知系数的估计值15。每框内所产生的一组最小平方估计值叫做线性预估编码(LPC)向量。线性预估编码(LPC)向量有正常分配。再将线性预估编码(LPC)向量转换较稳定线性预估编码倒频谱(LPCC)向量。一个未知单音以E个线性预估编码倒频谱(LPCC)向量代表特征模型,称为分类模型21,和已知单音标准模型大小一样。如果一个已知单音是此未知单音,它的标准模型的平均值最靠近未知单音分类模型的线性预估编码倒频谱(LPCC)。所以本发明的简易贝氏辨认法22,以未知单音的分类模型和数据库每一个已知单音的标准模型比较。如果一个已知单音是所述的未知单音,为了计算省时,假定未知单音的分类模型内所有线性预估编码倒频谱(LPCC)有独立正常分配,它们的平均数与变异数以已知单音标准模型样本平均值与样本变异数估计。简易贝氏法是计算未知单音的线性预估编码倒频谱(LPCC)与已知单音的平均数的距离,再以已知单音变异数调整,所得的值代表所述的未知单音与一个已知单音相似度。选择与未知单音一个相似度最高已知单音辨认为未知单音23。
(1)一个单音输入语音辨认系统后,将单音连续音波转换一系列数化音波信号点(signal sampled points)。再删去不具语音音波信号点。本发明提供二种方法:一是计算一小时段内信号点的变异数;二是计算所述的时段内相邻二信号点距离的总和。理论上,第一种方法比较好,因信号点的变异数大于杂音变异数,表示有语音存在。但在本发明辨认单音时,两种方法辨认率一样,但第二种省时。
(2)不具语音信号点删去后,剩下信号点代表一个单音全部信号点。先将音波正常化再抽取特征,将全部信号点分成E等时段,每时段形成一个框。一个单音共有E个等长的弹性框,没有滤波器,不重迭,自由伸缩,涵盖全部信号点。弹性框内信号点随时间作非线性变化,很难用数学模型表示,因为信号点与前面信号点有线性关系[1,3,4],可用随时间作线性变化的回归的模型估计此非线性变化的信号点。信号点S(n)可由前面信号点估计,其估计值S′(n)由下列回归模式表示:
S ′ ( n ) = Σ k = 1 P a k S ( n - k ) , n ≥ 0 - - - ( 1 )
在(1)式中,ak,k=1,...,P,是回归未知系数估计值,P是前面信号点数目。Durbin的循环公式[1,3,4]求最小平方估计值,此组估计值叫做线性预估编码(LPC)向量。求框内信号点的线性预估编码(LPC)向量方法详述如下:
以E1表示信号点S(n)及其估计值S′(n)之间平方差总和:
E 1 = Σ n = 0 N [ S ( n ) - Σ k = 1 P a k S ( n - k ) ] 2 - - - ( 2 )
求回归系数使平方总和E1达最小。对每个未知回归系数ai,i=1,...,P,求(2)式的偏微分,并使偏微分为0,得到P组正常方程式:
Σ k = 1 P a k Σ n S ( n - k ) S ( n - i ) = Σ n S ( n ) S ( n - i ) , 1 ≤ i ≤ P - - - ( 3 ) 展开(2)式后,以(3)式代入,得最小总平方差EP
E P = Σ n S 2 ( n ) - Σ k = 1 P a k Σ n S ( n ) S ( n - k ) - - - ( 4 )
(3)式与(4)式转换为
Σ k = 1 P a k R ( i - k ) = R ( i ) , 1 ≤ i ≤ P - - - ( 5 )
E p = R ( 0 ) - Σ k = 1 P a k R ( k ) - - - ( 6 )
在(5)与(6)式中,用N表示框内信号点数,
R ( i ) = Σ n = 0 N - i S ( n ) S ( n + i ) , i ≥ 0 - - - ( 7 )
用Durbin’s循环快速计算线性预估编码(LPC)向量如下:
E0=R(0)--------------------------------------(8)
k i = [ R ( i ) - Σ j = 1 i - 1 a j ( i - 1 ) R ( i - j ) ] / E i - 1 - - - ( 9 )
a i ( i ) = k i - - - ( 10 )
a j ( i ) = a j ( i - 1 ) - k i a i - j ( i - 1 ) , 1 ≤ j ≤ i - 1 - - - ( 11 )
E i = ( 1 - k i 2 ) E i - 1 - - - ( 12 )
(8-12)公式循环计算,得到回归系数最小平方估计值aj,j=1,...,P,(线性预估编码(LPC)向量)如下:
a j = a j ( P ) , 1 ≤ j ≤ P - - - ( 13 )
再下列公式将线性预估编码(LPC)向量转换较稳定线性预估编码倒频谱(LPCC)向量a′j,j=1,...,P,
a ′ i = a i + Σ j = 1 i - 1 ( j i ) a i - j a ′ j , 1 ≤ i ≤ P - - - ( 14 )
a &prime; i = &Sigma; j = i - P i - 1 ( j i ) a i - j a &prime; j , P < i - - - ( 15 )
一个弹性框产生一个线性预估编码倒频谱(LPCC)向量(a′1,...,a′P)。根据本发明语音辨认方法,用P=12,因最后的线性预估编码倒频谱(LPCC)几乎为0。一个单音以E个线性预估编码倒频谱(LPCC)向量表示特征,也即一个含E×P个线性预估编码倒频谱(LPCC)的矩阵表示一个单音特征。
(3)一个已知单音由多人发音,产生多个样本的E×P矩阵,同时代表所述的已知单音。用下列(5)方法,在多个样本中找K个最好样本,求K个线性预估编码倒频谱(LPCC)样本平均值与变异数,得到一个E×P矩阵内含线性预估编码倒频谱(LPCC)样本平均值与样本变异数。所述的矩阵称为所述的已知单音的标准特征,或标准模型。
(4)同样方法以(8-15)式计算出一个未知单音音波的E个线性预估编码倒频谱(LPCC)向量,有同样大小E×P个线性预估编码倒频谱(LPCC)的矩阵,叫做未知单音的分类模型。
(5)在图2中,语音辨认器22,收到一个未知单音的分类模型,一个E×P线性预估编码倒频谱(LPCC)的矩阵。用X={Xjl},j=1,...,E,l=1,...,P,表示未知单音特征模型。在与一个已知单音ci,i=1,...,m,比对时。为了快速计算比对值,假定{Xjl}有E×P个独立正常分配,它的平均数与变异数
Figure GSB00000408501800091
以已知单音标准模型内的样本平均值与样本变异数(以最好K个样本计算)估计。以f(x|ci)表示X的条件密度函数。以决策理论说明贝氏分类法如下[2]:假设数据库一共有m个已知单音的标准模型。以θi,i=1,...,m,表示单音ci,i=1,...,m,出现的机率,也即先前机率,则以d表示一个决策方法。定义一个简单损失函数(loss function),也即d的判错机率(misclassification probability)如下:如决策方法d判错一个未知单音,则损失函数L(ci,d(x))=1。如果d判对一个未知单音,则无损失L(ci,d(x))=0。辨认方法如下:以Гi,i=1,...,m,表示X=x矩阵值属于已知单音ci的范围。也即X在Гi,d判未知单音属于已知单音ci。d判错平均机率为
R ( &tau; , d ) = &Sigma; i = 1 m &theta; i &Integral; L ( c i , d ( x ) ) f ( x | c i ) dx
= &Sigma; i = 1 m &theta; i &Integral; &Gamma; i c f ( x | c i ) dx - - - ( 16 )
在(16)中,τ=(θ1,...,θm),
Figure GSB00000408501800101
是Гi以外范围。以D表示所有语音辨认方法,也即划分m个已知单音的范围所有方法。在D中找一个辨认方法dτ使它的平均认错机率(16)达到最小,以R(τ,dτ)表示
R ( &tau; , d &tau; ) = min d &Element; D R ( &tau; , d ) - - - ( 17 )
满足(17)式的辨认方法dτ叫做与先前机率τ有关的贝氏分类法[2]。可用下列表示:
dτ(x)=ci if θif(x|ci)>θjf(x|cj)----------(18)
在(18)式中,j=1,...,m,j≠i,也即属于已知单音ci的范围是对所有j≠i,Гi={x|θif(x|ci)>θjf(x|cj)}。本发明对每个已知单音用最好K个样本计算所述的单音范围和Гi相同。如所有已知单音出现机率一样,则贝氏分类法和最大机率法一样。
贝氏分类法(18)辨认一个未知单音时,先计算所有X的条件密度函数f(x|ci)i=1,...,m,
f ( x | c i ) = [ &Pi; jl 1 2 &pi; &sigma; ijl ] e - 1 2 &Sigma; jl ( x jl - &mu; ijl &sigma; ijl ) 2 - - - ( 19 )
在(19)中,i=1,...,m,(已知单音总数)。为了计算方便,将(19)式取对数,并删去常数,得
l ( c i ) = &Sigma; jl ln ( &sigma; ijl ) + 1 2 &Sigma; jl ( x jl - &mu; ijl &sigma; ijl ) 2 , i = 1 , . . . , m . - - - ( 20 )
贝氏分类法(18)变成对每个已知单音ci,计算l(ci)值(20),l(ci)也称为未知单音和已知单音ci的相似度,或贝氏距离(mis-categorization risk)。在(20)式中,x={xjl},j=1,...,E,l=1,...,P,是未知单音分类模型内线性预估编码倒频谱(LPCC)值,
Figure GSB00000408501800105
用已知单音的标准模型内的样本平均数与样本变异数估计。本发明最重要的技术是在数据库中,为每一个已知单音ci找到真实的中心点ci={μijk}与明确不重迭的范围
Гi={x|θif(x|ci)>θjf(x|ci)}---------------------(21)
这里x是表示单音ci的E×P线性预估编码倒频谱(LPCC)矩阵范围。先找一个发音清晰者对每个单音发音ci,用x′={x′jk}表示所述的清晰者的发音的单音,用
Figure GSB00000408501800106
表示数据库内第i个已知单音ci第k个样品的E×P线性预估编码倒频谱(LPCC)矩阵。再以下列计算,发音者的单音与第k个样本贝式距离。
l ( x i k ) = &Sigma; jl ln ( &sigma; ijl ) + 1 2 &Sigma; jl ( x jl &prime; - x ijl k &sigma; ijl ) 2 - - - ( 22 )
这里
Figure GSB00000408501800112
用已知单音ci的全部样本变异数取代。用此贝式距离(22)得到在数据库中第i个单音ci,K个最接近发音者发第i个单音ci的样本,再用此K个最接近发音者的已知单音的样本,计算单音ci平均值与变异数(变异数也可由全部样品变异数代替)。叫做单音ci的标准模型,此标准模型大大提高本发明辨认率。(经实验结果,用K=6-8,辨识率可提高到百分的百)。贝式分类法辨认一个未知单音的分类模型x={xjl}是在数据库内选择一个已知单音c′i,它的l(c′i)值(20)达最小,判为所述的未知单音。
(6)为了证实本发明语音辨认方法辨识率高,适用范围广,抽取特征与辨认方法快速且省时,本发明执行男女二个人语音辨认实验。
(a)首先建立一个日常用的国语单音数据库。本单音数据库是从中央研究院购买。数据库一共有394个单音,全是女性发音,样本从6个到99个不等,很多单字的发音几乎一样;
(b)从(3)节中方法将所有样本转成E×P线性预估编码倒频谱(LPCC)矩阵,一共有12464个矩阵;
(c)测试人有二人,一是发明人黎自奋,男性,四川省通过,虽讲国语,带有四川口音。另一人也是发明人的一廖丽娟,女性,有台湾省通过口音。一人作清晰发音者,在数据库中用贝式分类法(20)找6-8个最接近发音者的样本,计算成平均值。本发明主要目的是要E×P=144平均值真正代表所述的单音特征,为了省时,变异数仍由全部样本计算,作为标准模型,储存在数据库中。另一人(测试者)发音作为贝式分类法(20)来辨认未知单音。
(d)因相同音字太多。贝式分类法(20)选择前3位单音,发音者的未知单音入围前3名算成功。例(两,娘,俩)、(年,连,言)、(陈,岑,成)、(曾,正,尊)、(诺,若,罗)、(赞,钻,站)等。贝式分类法(20)选择前3名已知单音,这前3名发音非常接近,很难判断测试者未知单音是3个其中哪一个,因此,只要前3名已知单音有未知单音,算是成功。
(e)用黎自奋的发音在数据库中去找K=6到8个最接近黎自奋发音的样品作为标准模型,由廖丽娟作为测试者,她均能100%测试成功。主要数据库全是女性样本(一共有12464个样本),再由廖丽娟发音,在数据库中去找6到8个最接近廖丽娟发音的样品作为标准模型,由黎自奋作为测试者,也有95%辨认率,主要数据库是女性样本,且黎自奋发音不太准确,但黎自奋重复3-5次发音,也能全部辨认(挤上前3名)。辨认的单音由表一列出。
表一.394个单音中,本方法能辨认390个,3个不认识,1个音错误(有*号者)。本方法辨认率是100%。
  1一
  2七
  3三
  4上
  5下
  6不
  7且
  8丢
  9并
  10中
  11乃
  12之
  13九
  14也
15乱
  16了
  17二
  18五
  19些
  20亚
  21人
  22仍
  23他
  24代
  25但
  26住
  27佛
  28你
  29来
  30便
  31系
  32促
  33修
  34俩
  35个
  36们
  37做
  38停
  39侧
  40僧
  41元
  42光
  43内
  44全
  45两
  46八
  47六
  48共
  49冷
  50列
  51别
  52到
  53刷
  54则
  55剖
  56创
  57勤
  58区
  59千
  60不知名*
  61半
  62卡
  63却
  64参
  65及
  66反
  67受
  68口
  69另
  70可
  71台
  72吃
  73同
  74名
  75向
  76否
  77吕
  78呢
  79周
  80和
  81品
  82哈
  83喔
  84嘎
  85喷
  86囊
  87四
  88因
  89国
  90图
  91团
  92在
  93均
  94坑
  95坤
  96垂
  97堂
  98报
  99场
  100塞
  101坏
  102外
  103多
  104梦
  105大
  106天
  107套
  108奥
  109女
  110如
  111娘
  112娟
  113嫩
  114孙
  115学
  116宅
  117定
  118家
  119宁
  120将
  121尊
  122对
  123小
  124少
  125届
  126层
  127屯
  128山
  129岑
  130崔
  131崖
  132崩
  133差
  134平
  135年
  136度
  137库
  138康
  139廖
  140庙
  141张
  142强
  143彭
  144很
  145后
  146得
  147从
  148忙
  149快
  150怒
  151怕
  152性
  153怪
  154恩
  155您
  156爱
  157赶
  158应
  159成
  160我
  161或
  162戳
  163所
  164才
  165批
  166找
  167抓
  168抽
  169拉
  170拖
  171捏
  172挂
  173推
  174揆
  175提
  176揣
  177搜
  178撇
  179据
  180擦
  181扩
  182挛
  183数
  184文
  185新
  186方
  187旁
  188日
  189昂
  190春
  191是
  192暖
  193更
  194曾
  195最
  196会
  197月
  198有
  199朝
  200木
  201本
  202李
  203村
  204东
  205林
  206某
  207查
  208栓
  209案
  210桌
  211桑
  212条
  213棒
  214森
  215杨
  216业
  217荣
  218楼
  219桥
  220横
  221欸*
  222欻*
  223款
  224正
  225此
  226岁
  227段
  228杀
  229每
  230比
  231民
  232水
  233决
  234况
  235法
  236波
  237洪
  238洽
  239派
  240混
  241港
  242凑
  243准
  244灭
  245滚
  246满
  247漂
  248润
  249滨
  250炸
  251为
  252然
  253热
  254片
  255牛
  256特
  257率
  258王
  259瑞
  260琼
  261瓦
  262甚
  263产
  264用
  265略
  266当
  267百
  268的
  269盘
  270省
  271看
  272砸
  273福
  274空
  275窘
  276窜
  277站
  278第
  279等
  280算
  281管
  282筛
  283米
  284组
  285给
  286经
  287县
  288总
  289罗
  290群
  291翁
  292老
  293考
  294耨*
  295肉
  296肯
  297能
  298自
  299与
  300船
  301艘
  302若
  303茂
  304草
  305庄
  306莫
  307华
  308万
  309藏
  310苏
  311兰
  312虐
  313处
  314号
  315行
  316冲
  317表
  318被
  319要
  320言
  321讯
  322设
  323许
  324该
  325说
  326谁
  327调
  328谈
  329请
  330诺
  331谬
  332让
  333赞
  334丰
  335贵
  336买
  337贼
  338购
  339赛
  340赃
  341走
  342跌
  343跑
  344跟
  345跨
  346跩
  347路
  348车
  349较
  350轮
  351转
  352农
  353追
  354送
  355这
  356连
  357运
  358遭
  359选
  360还
  361那
  362邱
  363郎
  364都
  365配
  366金
  367错
  368镇
  369铁
  370钻
  371开
  372间
  373阿
  374陈
  375雄
  376双
  377非
  378面
  379鞥
  380顺
  381顿
  382头
  383额
  384类
  385饶
  386马
  387腾
  388高
  389闹
  390鸟
  391黄
  392黑
  393点
  394容
以上所述仅为本发明的较佳实施例,对本发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在本发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。

Claims (6)

1.一种国语单音辨认方法,其特征在于:其包含:
步骤(1):一个先前处理器,删去不具语音音波信号点或杂音;
步骤(2):一个已知单音音波正常化与抽取大小一致的特征矩阵方法:用弹性框将音波正常化并转换成大小相等的线性预估编码倒频谱特征矩阵,并将相同已知单音音波转换成特征相同的矩阵;
步骤(3):在数据库中,对每个已知单音,选择K个最好样本;
步骤(4):一个已知单音特征矩阵的K个最好样本转换成一个标准模型,储藏在数据库,标准模型含有所述的已知单音特征矩阵的K个最好样本平均数与变异数;
步骤(5):一个未知单音音波正常化与抽取特征的方法:将音波正常化并转换成大小与已知标准模型大小相等的特征矩阵,称为未知单音分类模型,内含有线性预估编码倒频谱;
步骤(6):一个简化贝氏分类法:将未知单音分类模型与数据库所有已知单音标准模型比较,找一个已知单音,它和未知单音贝式距离达最小,辨认为未知单音;
步骤(2)包含已知单音音波正常化与抽取大小一致的特征矩阵方法,步骤如下:
一个均等分一个已知单音音波信号点方法,为了用线性变化的回归模式密切估计非线性变化的音波,将音波全长分成E等时段,每时段形成一个弹性框,一个单音共有E个弹性框,没有滤波器,不重迭,可以自由伸缩涵盖全长音波,不是固定长度的汉明窗;
每框内,用一随时间作线性变化的回归模式估计随时间作非线性变化的音波;
用Durbin’s循环方式求回归系数最小平方估计值,叫做线性预估编码向量,再转换线性预估编码向量为稳定的线性预估编码倒频谱向量;
用E个线性预估编码倒频谱向量表示一个单音的E×P线性预估编码倒频谱特征矩阵,P为每个弹性框内的信号点数;
一个已知单音,由多人发音,产生长短不一的音波,因代表相同已知单音,长短不一的音波包含一种随时间作非线性变化但相同动态特征,只是时间位置不同;
用E个弹性框将所述的单音长短不一的音波调整并转换成多个线性预估编码倒频谱特征大致相同的矩阵样本。
2.根据权利要求1所述国语单音辨认方法,其特征在于:步骤(1)的先前处理器删去不具语音的音波信号点或杂音,包含二种方法:
在一小的时段内信号点,计算信号点的变异数与一般杂音的变异数,如信号点的变异数小于杂音变异数,则删去所述的时段;
在一小的时段内信号点,计算相邻两信号点距离总和和一般杂音相邻两信号点距离总和,如前者小于后者则删去所述的时段。
3.根据权利要求1所述国语单音辨认方法,其特征在于:步骤(3)又包含一个在数据库中对每一个已知单音选择最好的K个样本的方法,步骤如下:
找一个发音清楚者对每个已知单音ci发音一次;
在数据库中,对所述的已知单音ci的全部样本
Figure FSB00000408501700021
用贝式距离对发音者所发的单音x′={x′jl}计算值,下式表示:
l ( x i k ) = &Sigma; jl ln ( &sigma; ijl ) + 1 2 &Sigma; jl ( x jl &prime; - x ijl k &sigma; ijl ) 2 ;
这里
Figure FSB00000408501700024
以已知单音ci全部样本变异数代替,而
Figure FSB00000408501700025
表示已知单音ci全部样本;
在已知单音ci全部样本中,以K个最小的
Figure FSB00000408501700026
值,来选择K个对发音者最接近的样本,叫做已知单音ci最好的K个样本
Figure FSB00000408501700027
4.根据权利要求1所述国语单音辨认方法,其特征在于:步骤(5)又包含一个计算未知单音的分类模型方法,其步骤如下:
将未知单音音波分成E等时段,每时段组成一个弹性框,一个未知单音有E个等长弹性框,没有滤波器,不重迭,自由伸缩涵盖全部音波信号点;
每个弹性框内,用一个随时间作线性变化的回归模式估计随时间作非线性变化的音波;
用Durbin’s循环方式计算由回归系数最小平方估计值组成的线性预估编码向量;
再将线性预估编码向量转换成稳定线性预估编码倒频谱向量;
用E个线性预估编码倒频谱向量,即E×P线性预估编码倒频谱矩阵,作为所述的未知单音的分类模型。
5.根据权利要求1所述的国语单音辨认方法,其特征在于:步骤(6)包含一个简化贝氏分类法,其步骤如下:
一个未知单音的特征是分类模型,用一个E×P线性预估编码倒频谱矩阵X={Xjl},j=1,...,E,l=1,...,P,表示;为了快速辨认,E×P个线性预估编码倒频谱{Xjl}假定是E×P个独立随机变量,有正常分配;如果未知单音和一个已知单音ci,i=1,...,m,比对时,m为数据库中的已知单音的标准模型的个数,则{Xjl}的平均数μijl与变异数
Figure FSB00000408501700031
用所述的已知单音标准模型内样本平均数与样本变异数估计;那么X的条件密度函数f(x|ci),以下式表示:
f ( x | c i ) = [ &Pi; jl 1 2 &pi; &sigma; ijl ] e - 1 2 ( x jl - &mu; ijl &sigma; ijl ) 2 ;
在上式中,X={Xjl}是未知单音的分类模型的线性预估编码倒频谱,但μijl
Figure FSB00000408501700033
是已知单音ci标准模型内的样本平均数、样本变异数,以K个最好样本计算估计;
简化贝氏分类法针对数据库中找一个已知单音ci最像此未知单音X,一个已知单音ci对未知单音相似度以上式中f(x|ci)大小表示;
为快速辨认,用对数化简上式中条件密度函数f(x|ci),并删去不必计算的常数,得第二式
l ( c i ) = &Sigma; jl ln ( &sigma; ijl ) + 1 2 &Sigma; jl ( x jl - &mu; ijl &sigma; ijl ) 2 ;
对每一个已知单音ci,i=1,...,m,计算第二式式中l(ci)值;
在数据库中,选择一个已知单音c′,它的l(c′i)值是最小,判为所述的未知单音,其中,
Figure FSB00000408501700035
由辨认测试结果,E=12,P=12,K=6-8,有些单音全部只有6个样本,最省时,辨认率最高,辨识率可达100%,这是因为弹性框不重迭,E=12弹性框能充分抽取一个单音特征,本发明为每一个已知单音提供144个最准确的平均值。
6.根据权利要求1所述国语单音辨认方法,其特征在于:步骤(1)还包含下列:
(a1)一个单音音波接收器接收单音连续音波;
(a2)一个数字转换器将连续音波转换为一系列数字化信号点,步骤(a1)-(a2)执行在第1项步骤(1)之前。
CN2007101229605A 2007-07-04 2007-07-04 一种国语单音辨认方法 Expired - Fee Related CN101339765B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007101229605A CN101339765B (zh) 2007-07-04 2007-07-04 一种国语单音辨认方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007101229605A CN101339765B (zh) 2007-07-04 2007-07-04 一种国语单音辨认方法

Publications (2)

Publication Number Publication Date
CN101339765A CN101339765A (zh) 2009-01-07
CN101339765B true CN101339765B (zh) 2011-04-13

Family

ID=40213814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101229605A Expired - Fee Related CN101339765B (zh) 2007-07-04 2007-07-04 一种国语单音辨认方法

Country Status (1)

Country Link
CN (1) CN101339765B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182946B (zh) * 2017-12-25 2021-04-13 广州势必可赢网络科技有限公司 一种基于声纹识别的声乐模式选择方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5522012A (en) * 1994-02-28 1996-05-28 Rutgers University Speaker identification and verification system
CN1264887A (zh) * 2000-03-31 2000-08-30 清华大学 基于语音识别专用芯片的非特定人语音识别、语音提示方法
CN1588535A (zh) * 2004-09-29 2005-03-02 上海交通大学 嵌入式语音识别系统的自动语音识别处理方法
EP1564721A1 (en) * 2002-11-21 2005-08-17 Matsushita Electric Industrial Co., Ltd. Standard model creating device and standard model creating method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5522012A (en) * 1994-02-28 1996-05-28 Rutgers University Speaker identification and verification system
CN1264887A (zh) * 2000-03-31 2000-08-30 清华大学 基于语音识别专用芯片的非特定人语音识别、语音提示方法
EP1564721A1 (en) * 2002-11-21 2005-08-17 Matsushita Electric Industrial Co., Ltd. Standard model creating device and standard model creating method
CN1588535A (zh) * 2004-09-29 2005-03-02 上海交通大学 嵌入式语音识别系统的自动语音识别处理方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Paolo Prandoni, et al.Optimal Time Segmentation for Signal Modeling and Compression.《IEEE International Conference on Acoustics, Speech, and Signal Processing, 1997》.1997,第3卷2029-2032. *
PaoloPrandoni et al.Optimal Time Segmentation for Signal Modeling and Compression.《IEEE International Conference on Acoustics
TZE FEN LI.Speech recognition of Mandarin monosyllables.《Pattern Recognition》.2003,第36卷2713-2721. *

Also Published As

Publication number Publication date
CN101339765A (zh) 2009-01-07

Similar Documents

Publication Publication Date Title
Cheng et al. A call-independent and automatic acoustic system for the individual recognition of animals: A novel model using four passerines
Narendranath et al. Transformation of formants for voice conversion using artificial neural networks
CN109671442A (zh) 基于STARGAN与x向量的多对多说话人转换方法
CN110060690A (zh) 基于STARGAN和ResNet的多对多说话人转换方法
CN105869624A (zh) 数字语音识别中语音解码网络的构建方法及装置
CN104123933A (zh) 基于自适应非平行训练的语音转换方法
CN110047501B (zh) 基于beta-VAE的多对多语音转换方法
CN103456302A (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
CN108109615A (zh) 一种基于dnn的蒙古语声学模型的构造和使用方法
CN110060657A (zh) 基于sn的多对多说话人转换方法
Sadeghi et al. Optimal MFCC features extraction by differential evolution algorithm for speaker recognition
Jiang et al. Speech Emotion Recognition Using Deep Convolutional Neural Network and Simple Recurrent Unit.
US8145483B2 (en) Speech recognition method for all languages without using samples
Ng et al. Teacher-student training for text-independent speaker recognition
Ejbali et al. Intelligent approach to train wavelet networks for Recognition System of Arabic Words
CN101339765B (zh) 一种国语单音辨认方法
Ting An acoustic recognition model for english speech based on improved HMM algorithm
CN101540168B (zh) 一种能够同时辨认英语及汉语的辨认方法
CN101246686A (zh) 连续二次贝氏分类法辨认相似国语单音的方法及装置
Abumallouh et al. Deep neural network combined posteriors for speakers' age and gender classification
Cook et al. Utterance clustering for large vocabulary continuous speech recognition.
Thakur et al. Conv-codes: audio hashing for bird species classification
Do Neural networks for automatic speaker, language, and sex identification
Sharma et al. Text-independent speaker identification using backpropagation MLP network classifier for a closed set of speakers
Deriche et al. A bilingual emotion recognition system using deep learning neural networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110413

Termination date: 20120704