CN101281746A - 一个百分之百辨认率的国语单音与句子辨认方法 - Google Patents
一个百分之百辨认率的国语单音与句子辨认方法 Download PDFInfo
- Publication number
- CN101281746A CN101281746A CNA2008100855324A CN200810085532A CN101281746A CN 101281746 A CN101281746 A CN 101281746A CN A2008100855324 A CNA2008100855324 A CN A2008100855324A CN 200810085532 A CN200810085532 A CN 200810085532A CN 101281746 A CN101281746 A CN 101281746A
- Authority
- CN
- China
- Prior art keywords
- tone
- sentence
- unknown
- title
- sigma
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明是一种应用广泛国语单音与句子的辨认方法,其是找一个发音清晰者对每一单音发音,再以数据库对所述的单音找K个样品,使K个样品对发音者的已知单音,贝式距离最短的样品,也即对发音者的已知单音取K个贝式距离最短的样品,叫做所述的单音的最好样本,再对K个最好样本抽取特征代表所述的单音,放在数据库中。因每单音都有自己的K个最好样品计算特征,大大提高本发明单音辨识能力,然后将要辨认的句子和任何名称建立一个句子与名称数据库,经过三位男女测试390单音与460个句子和名称,辨认率可达100%,并可随时增加句子数据库的句子或名称,即刻从句子数据库中辨认,最重要的是本发明提供一修正单音特征的方法保证辨认成功。
Description
技术领域
本发明涉及的是一种国语单音与句子辨认方法,也特别涉及的是一种在一个清晰发音者在数据库中,先对每个单音找K个”最好”样本求平均值与变异数代表所述的单音。使所述的单音的E×P=144个特征范围,很明确表现出来,不会和其它单音范围重迭。贝式分类法很明确地比对未知单音的特征和已知单音的特征,提高本发明辨识能力。详细地说,本发明语音辨认方法包含E个等长的弹性框,没有滤波器,不重迭,框住长短不等的单音音波,将音波正常化并转换成E个线性预估编码倒频谱(LPCC)向量。用简易贝氏分类法(Bayes decision rule)在单音数据库中,在每个已知单音明确范围内,找出和未知单音最相似的已知单音。语音计算机辨认最终目的是能辨认一个人所表达的句子或名称,将句子或名称切割成一组(D个)未知单音,然后用上述方法对D个中每一个未知单音找出F个最相似的已知单音,再从句子或名称数据库中找出最可能句子或名称。
背景技术
单音发音时,它的发音是用音波表示。音波是一种随时间作非线性变化的系统,一个单音音波内含有一种动态特性,也随时间作非线性连续变化。相同单音发音时,有一连串相同动态特性,随时间作非线性伸展与收缩,但相同动态特性依时间排列秩序一样,但时间不同。相同单音发音时,将相同的动态特性排列在同一时间位置上非常困难。还因相似单音特多,造成辨认更难。
一个计算机化语言辨认系统,首先要抽取声波有关语言信息,也即动态特性,过滤和语言无关的杂音,如人的音色、音调,说话时心理、生理与情绪和语音辨认无关先删去。然后再将相同单音的相同特征排列在相同的时间位置上。此一连串的特征用一等长是列特征向量表示,称为一个单音的特征模型。目前语音辨认系统要产生大小一致的特征模型太复杂,且费时,因为相同单音的相同特征很难排列在同一时间位置上,导致比对辨认困难。
一般句子或名称辨认方法有下列一连串五个主要工作:抽取特征、特征正常化(特征模型大小一致,且相同单音的相同特征排列在同一时间位置)、未知单音辨认、未知句子或名称切割成D个未知单音、与在句子或名称数据库找适合句子或名称。一个单音声波特征常用有下列几种:能量(energy),零横过点数(zerocrossings),极值数目(extreme count),颠峰(formants),线性预估编码倒频谱(LPCC)与梅尔频率倒频谱(MFCC),其中以线性预估编码倒频谱(LPCC)与梅尔频率倒频谱(MFCC)是最有效,并普遍使用。线性预估编码倒频谱(LPCC)是代表一个单音最可靠,稳定又准确的语言特征。它用线性回归模式代表单音音波,以最小平方估计法计算回归系数,其估计值再转换成倒频谱,就成为线性预估编码倒频谱(LPCC)。而梅尔频率倒频谱(MFCC)是将音波用傅氏转换法转换成频率。再根据梅尔频率比例去估计听觉系统。根据学者S.B.Davis andP.Mermelstein在1980年出版在IEEE Transactions on Acoustics,Speech SignalProcessing,Vol.28,No.4发表的论文Comparison of parametric representations formonosyllabic word recognition in continuously spoken sentences中用动态时间扭曲法(DTW),梅尔频率倒频谱(MFCC)特征比线性预估编码倒频谱(LPCC)特征辨认率要高。但经过多次语音辨认实验(包含本人前发明),用贝氏分类法,线性预估编码倒频谱(LPCC)特征辨认率比梅尔频率倒频谱(MFCC)特征要高,且省时。
至于语言辨认,已有很多方法采用。有动态时间扭曲法(dynamictime-warping),向量量化法(vector quantization)与隐藏式马可夫模式法(HMM)。如果相同的发音在时间上的变化有差异,一面比对,一面将相同特征拉到同一时间位置。辨认率会很好,但将相同特征拉到同一位置很困难并扭曲时间太长,不能应用。向量量化法如辨认大量单音,不但不准确,且费时。最近隐藏式马可夫模式法(HMM)辨认方法不错,但方法繁杂,太多未知参数需估计,计算估计值与辨认费时。最近T.F.Li在2003年出版在Pattern Recognition,vol.36发表的论文Speech recognition of mandarin monosyllables中用贝氏分类法,以相同数据库,将各种长短一序列LPCC向量压缩成相同大小的分类模型,辨认结果比Y.K.Chen,C.Y.Liu,G.H.Chiang,M.T.Lin在1990年出版在Proceedings of TelecommunicationSymposium,Taiwan发表的论文The recognition of mandarin monosyllables based onthe discrete hidden Markov model中用隐藏式马可夫模式法HMM方法要好,但压缩过程复杂费时,且相同单音很难将相同特征压缩到相同时间位置,对于相似单音,很难辨认。
本发明语音辨认方法针对上述缺点,从学理方面,根据音波有一种语音特征,随时间作非线性变化,自然导出一套抽取语音特征方法。将一个单音音波先正常化再转换成一个足以代表所述的单音的大小相等特征模型,并且相同单音在它们特征模型内相同时间位置有相同特征。不需要人为或实验调节本发明内的未知参数与门坎。用简易贝氏分类法,即可将未知单音分类模型和单音数据库内已知单音标准模型比对,不需要再压缩,扭曲或寻找相同的特征来比对。所以本发明语音辨认方法,能快速完成特征抽取,特征正常化与辨认。本方法为了提高单音辨认率,先将数据库每个单音,用贝式分类法选择最好K个样本,来计算所述的单音特征,大大提高整体国语单音辨识率。辨认率高,应用广,用弹性框可以辨认极短或极长单音音波,对英语极短音节辨认也有效。至于对句子与名称的计算机辨认,因单音辨认在本发明的前未曾突破,文献中很少有句子与名称辨认方法,但本发明用3×F窗口(对数据库句中每一已知单音用前后三列相似已知单音比对)找出所述的未知句子或名称的方法极为有效。
发明内容
(1)本发明提供一种语音辨认方法。它能将不具语音音波删除。
(2)本发明提供一种单音音波正常化与抽取特征方法。它使用E个相等弹性框,不重迭,没有滤波器,能依单音音波长短自由调节含盖全部波长,能将单音音波内一是列随时间作非线性变化的动态特性转换成一个大小相等的特征模型,并且相同单音音波的特征模型在相同时间位置上有相同特征。可以及时辨认,达到计算机实即时辨认效果。
(3)本发明提供一种简易有效贝氏辨认未知单音方法,认错机率达到最小,计算少、辨认快与辨识率高。
(4)本发明提供一种抽取单音特征方法,单音音波有一种随时间作非线性变化的动态特性。本发明用随时间作线性变化的回归模型估计随时间作非线性变化的音波,产生的回归未知系数的最小平方估计值(LPC向量)。
(5)本发明使用所有具有语音音波(音波信号点)。用较少数E=12个相等弹性框,不重迭含盖所有信号点特征。不因为一个单音音波太短,删去所述的单音,也不因为太长,删去或压缩部分信号点。只要人类听觉能辨别此单音,本发明即可将所述的单音抽取特征。所以本发明语音辨认方法应用每一个具有语音的信号点,可以尽量抽取语音特征。因E=12个弹性框不重迭,框数少,大大减少特征抽取与计算线性预估编码倒频谱(LPCC)时间。
(6)本发明单音与句子辨认方法可以辨认讲话太快或讲话太慢的单音。讲话太快时,单音音波很短,尤其对于英语音节发音,本发明的弹性框长度可以缩小,仍然用相同数E个等长的弹性框含盖短音波。产生E个线性预估编码倒频谱(LPCC)向量。只要所述的短音人类可辨别,那么所述的E个线性预估编码倒频谱(LPCC)向量可以有效代表所述的短音的特征模型。讲太慢所发出单音音波较长。弹性框会伸长。所产生E个线性预估编码倒频谱(LPCC)向量也能有效代表所述的长音。
(7)本发明包含一套语音辨认方法。首先由多人发出相同的已知单音,产生多种长短不一的声波。然后用E个相同的弹性框,没有滤波器,不重迭,含盖全部声波,产生一个已知单音的E个线性预估编码倒频谱(LPCC)向量多个样本,也即有多个特征模型代表所述的已知单音。多个特征模型内在相同时间位置上含有相同特征向量,也即每个样本的E个线性预估编码倒频谱(LPCC)向量依顺序线性预估编码倒频谱(LPCC)向量大致相同。
(8)本发明最主要的技术,是先用一个发音清晰者对所述的已知单音发音,用贝式距离(其它距离效果比较差),在所述的单音多个样本中,找K个最好样品。再将特征模型的K个样本求线性预估编码倒频谱(LPCC)平均值与变异数,得到大小一致含有平均值与变异数的矩阵,叫做所述的已知单音的标准模型,存在单音数据库中。再用同样方法,将一个未知单音的音波,用E个等长弹性框,没有滤波器,不重迭包含全部音波,产生E个线性预估编码倒频谱(LPCC)向量。所述的E个线性预估编码倒频谱(LPCC)向量称为一个未知单音的分类模型。当用简易的贝氏分类法比对未知单音与单音数据库内一个已知单音时,将分类模型内所有线性预估编码倒频谱(LPCC)假设为有独立正常分配的随机变量,它的平均值与变异数用已知单音标准模型内的样本平均数与样本变异数代替。在单音数据库内计算每一个已知单音标准模型内的平均数(用K个最好样品计算)与未知单音的分类模型内的线性预估编码倒频谱(LPCC)距离,再以已知单音的变异数调整。选择一个已知单音,辨认为未知单音。
(9)对于乡音、口音特殊者发音的辨认,最好找一个有相同乡音或口音发音清晰者选择单音数据库内每个单音最近的K个样本计算所述的单音的平均值。经过这样处理后,本发明也可辨认有相同乡音或口音的未知单音。
(10)辨认一个句子或名称时,先将未知句子或名称切割成D个未知单音,本发明将每个未知单音用贝氏法在单音资料库,选择最相似F个已知单音。一个句子用D×F个已知单音表示,因切割困难可能切成比较多或比较少未知单音个数,本发明以每个未知单音前后三列相似已知单音比对句子或名称中一个已知单音,也即在句子与名称数据库中,对每一句子或名称用3×F窗口的已知相似单音筛选一个已知单音,再从句子与名称数据库找一个最可能句子或名称,方法简单,不用任何计算(机率),成功率可达100%(460句子和名称)。
(11)本发明另外一个重要的技术是提供一个修正单音特征的方法,保证辨认成功。
附图说明
图1是表示单音和句子与名称两个数据库建立流程;
图2表示一个未知句子或名称辨认方法流程;
图3为本发明辨认的单音;
图4A、图4B为测试的句子与名称数据库。
附图标记说明:1-输入已知单音;10-单音连续音波;20-接收器;30-音波数字转换器;45-除去杂音;50-弹性框正常化音波;60-最小平方法计算线性预估编码倒频谱(LPCC)向量;70-一个发音清晰者对每个单音发音一次,在数据库中,对所述的已知单音用贝式距离为发音者找K个最接近样品计算平均值与变异数;80-单音数据库包含所有平均值与变异数的标准模型;85-用单音数据库的单音建立要辨认的句子与名称(任意一组单音)的句子与名称数据库;2-输入一未知句子或名称;11-一组未知单音连续音波;40-将一个句子或名称切成D个未知单音;90-D个未知单音的线性预估编码倒频谱(LPCC)向量代表D个未知单音分类模型;100-比较每一个已知单音标准模型与未知单音分类模型;110-一句子或名称中每一个未知单音找最相近的F个已知单音,一句子或名称一共有D×F个已知单音表示;120-在句子和名称数据库中,用3×F窗口筛选所有句子与名称中的每个已知单音;130-在句子与名称数据库中找一个最可能的句子或名称。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点作更详细的说明。
用图1与图2说明发明执行程序。图1是表示单音和句子与名称两个数据库建立流程。单音数据库包含所有已知单音的标准模型,表示已知单音的特征。输入一个已知单音1以一个连续音波10形式进入接收器20。数字转换器30将连续音波转为一序列音波数字的信号点。先前处理器45有两种删去方法:(1)计算一小时段内信号点的变异数与一般杂音变异数。如前者小于后者,则所述的小时段不具语音,应删去。(2)计算一小时段内连续两信号点距离总和与一般杂音的总和,如前者小于后者,则所述的小时段不具语音,应删去。经过先前处理器45的后,得到一序列具有所述的已知单音信号点。先将音波正常化再抽取特征,将已知单音的全部信号点分成E等时段,每时段组成一个框。一个单音一共有E个等长框50,没有滤波器,不重迭,根据单音全部信号点的长度,E个框长度自由调整含盖全部信号点。所以所述的框称为弹性框,长度自由伸缩,但E个弹性框长度一样。不像汉明(Hamming)窗,有滤波器、半重迭、固定长度、不能随波长自由调整。因单音音波随时间作非线性变化,音波含有一个语音动态特征,也随时间作非线性变化。因为不重迭,所以本发明使用较少(E=12)个弹性框,涵盖单音音波,因信号点可由前面信号点估计,用随时间作线性变化的回归模式来密切估计非线性变化的音波,用最小平方法估计回归未知系数。每框内产生一组未知系数最小平方估计值,叫做线性预估编码(LPC向量)。再将线性预估编码(LPC)向量转换为较稳定线性预估编码倒频谱(LPCC)。一个单音音波内含有一序列随时间作非线性变化的语音动态特征,在本发明内转换成大小相等E个线性预估编码倒频谱(LPCC)向量60。为了建立单音数据库,一个已知单音,由多人发音,以同样转换方法,将多人发音音波转成大小相等的E个线性预估编码倒频谱(LPCC)向量多个样本。多个样本的E个线性预估编码倒频谱(LPCC)向量代表一个同样已知单音,因此E个线性预估编码倒频谱(LPCC)向量依顺序,多个样本的线性预估编码倒频谱(LPCC)向量应大致相同,也即在同一时间位置上,多个样本线性预估编码倒频谱(LPCC)向量一样。本发明最重要的贡献为每一个单音找最好样本,需一个发音清晰者对单音发音一次,在单音所有样本中找所述的单音K个最好的样品,也即K个对发音者的已知单音最短的K个贝式距离。再用此K个样品的线性预估编码倒频谱(LPCC)计算平均值与变异数(用所述的音全部样品计算变异数也可),本发明主要是找最好最真实的平均值,使E×P个的线性预估编码倒频谱(LPCC)平均值真正能代表所述的单音E×P特征。使单音数据库中每个已知单音有明确位置与范围,不会互相重迭,为方便贝式分类法辨认。这E个线性预估编码倒频谱(LPCC)平均值与变异数向量代表一个已知单音的标准特征矩阵,称为所述的已知单音的标准模型70。此含有样本平均数与变异数的标准模型代表一个已知单音,储存在单音数据库中80。再用单音数据库的单音(394个单音)建立要辨认的句子或名称(任意一组单音)数据库(85)。
图2表示一个未知句子或名称辨认方法流程。当输入一个未知句子或名称2到本发明语音辨认方法后,以一组未知单音连续音波11进入接收器20,由数字转换器30转为一是列音波信号点。将一个句子或名称的音波切成D个单音的音波40,再以图1先前处理器45删去不具语音的音波。再将每个单音音波正常化,抽取特征,将句子每个未知单音全部具有语音的信号点分成E等时段,每时段形成一个弹性框50。每个单音一共有E个弹性框,没有滤波器,不重迭,自由伸缩含盖全部信号点。在每框内,因信号点可由前面信号估计,用最小平方法求回归未知系数的估计值。每框内所产生的一组最小平方估计值叫做线性预估编码(LPC)向量,线性预估编码(LPC)向量有正常分配,再将线性预估编码(LPC)向量转换较稳定线性预估编码倒频谱(LPCC)向量60。一个未知单音以E个线性预估编码倒频谱(LPCC)向量代表特征模型,称为分类模型90,和已知单音标准模型大小一样。一个句子一共有D个分类模型代表D个未知单音,如果一个已知单音是此未知单音,它的标准模型的平均值最靠近未知单音分类模型的线性预估编码倒频谱(LPCC)。所以本发明的简易贝氏辨认法,以未知单音的分类模型和单音数据库80每一个已知单音的标准模型比较100。如果一个已知单音是所述的未知单音,为了计算省时,假定未知单音的分类模型内所有线性预估编码倒频谱(LPCC)有独立正常分配,它们的平均数与变异数以已知单音标准模型样本平均值与样本变异数估计。简易贝氏法是计算未知单音的线性预估编码倒频谱(LPCC)与已知单音的平均数的距离,再以已知单音变异数调整,所得的值代表所述的未知单音与一个已知单音相似度。选择与未知单音F个相似度最高已知单音辨认为未知单音,因此一个未知句子或名称用D×F个已知单音来表示110。一个未知句子或名称切割成D个未知单音后,因有些单音有子音,很难刚好切成一个未知句子或名称所包含的单音与个数,有时一个单音切成两个,有时两个单音念的很近,计算机切成一个,因此,D个未知单音并不一定是讲话者真正单音数,所以某一列F个已知相似单音并不一定包含讲话者的单音。在辨认一个未知句子或名称时,在句子和名称数据库85,测试每一个句子与名称,在测试一个句子或名称是否是讲话者的句子或名称,将所述的句子或名称从头一个已知单音比对D×F矩阵相似音的前后三列相似音(当然第一个比对只能比对中后两列相似单音),再移动3×F窗口(前后三列相似音)120找句子第二个单音,直到测试句子全部单音。在数据库中,以最高机率的句子或名称为讲话者的句子或名称(用正确单音数除以测试句子或名称中单音数)130。当然可在句子与名称数据库中选择和未知句子或名称(D个未知单音)长度大约相等的句子或名称比对,节省时间。
(1)一个单音输入语音辨认方法后,将单音连续音波转换一是列数化音波信号点(signal sampled points)。再删去不具语音音波信号点。本发明提供二种方法:一是计算一小时段内信号点的变异数。二是计算所述的时段内相邻二信号点距离的总和。理论上,第一种方法比较好,因信号点的变异数大于杂音变异数,表示有语音存在。但在本发明辨认单音时,两种方法辨认率一样,但第二种省时。
(2)不具语音信号点删去后,剩下信号点代表一个单音全部信号点。先将音波正常化再抽取特征,将全部信号点分成E等时段,每时段形成一个框。一个单音共有E个等长的弹性框,没有滤波器、不重迭、自由伸缩,涵盖全部信号点。弹性框内信号点随时间作非线性变化,很难用数学模型表示。因为J.Markhoul在1975年出版在Proceedings of IEEE,Vol.63,No.4发表论文Linear Prediction:A tutorialreview中说明信号点与前面信号点有线性关系,可用随时间作线性变化的回归的模型估计此非线性变化的信号点。信号点S(n)可由前面信号点估计,其估计值S′(n)由下列回归模式表示:
在(1)式中,ak,k=1,...,P,是回归未知系数估计值,P是前面信号点数目。用L.Rabiner与B.H.Juang在1993年著作书Fundamentals of Speech Recognition,Prentice Hall PTR,Englewood Cliffs,New Jersey中Durbin的循环公式求最小平方估计值,此组估计值叫做线性预估编码(LPC)向量。求框内信号点的线性预估编码(LPC)向量方法详述如下:
以E1表示信号点S(n)及其估计值S′(n)之间平方差总和:
求回归系数使平方总和E1达最小。对每个未知回归系数ai,i=1,...,P,求(2)式的偏微分,并使偏微分为0,得到P组正常方程式:
展开(2)式后,以(3)式代入,得最小总平方差EP
(3)式与(4)式转换为
在(5)与(6)式中,用N表示框内信号点数,
用Durbin′s循环快速计算线性预估编码(LPC)向量如下:
E0=R(0) (8)
(8-12)公式循环计算,得到回归系数最小平方估计值aj,j=1,...,P,(线性预估编码(LPC)向量)如下:
再下列公式将LPC向量转换较稳定线性预估编码倒频谱(LPCC)向量a′j,j=1,...,P,
一个弹性框产生一个线性预估编码倒频谱(LPCC)向量(a′1,...,a′P)。根据本发明语音辨认方法,用P=12,因最后的线性预估编码倒频谱(LPCC)几乎为0。一个单音以E个线性预估编码倒频谱(LPCC)向量表示特征,也即一个含E×P个线性预估编码倒频谱(LPCC)的矩阵表示一个单音特征。
(3)一个已知单音由多人发音,产生多个样本的E×P矩阵,同时代表所述的已知单音,求K个最好样本线性预估编码倒频谱(LPCC)的样本平均值与变异数,得到一个E×P矩阵内含线性预估编码倒频谱(LPCC)样本平均值与样本变异数。所述的矩阵称为所述的已知单音的标准特征,或标准模型。
(4)同样方法以(8-15)式计算出一个未知单音音波的E个线性预估编码倒频谱(LPCC)向量,有同样大小E×P个LPCC的矩阵,叫做未知单音的分类模型。
(5)在图2中,语音辨认器100,收到一个未知单音的分类模型,一个E×PLPCC的矩阵。用X={Xjl},j=1,...,E,l=1,...,P,表示未知单音特征模型。在与一个已知单音ci,i=1,...,m,比对时。为了快速计算比对值,假定{Xjl}有E×P个独立正常分配,它的平均数与变异数(μijl,σijl 2),以已知单音标准模型内的样本平均值与样本变异数估计。以f(x|ci)表示X的条件密度函数。以T.F.Li在2003年出版在Pattern Recognition,Vol.36发表论文Speech recognition of mandarinmonosyllables中的决策理论说明贝氏分类法如下:假设数据库一共有m个已知单音的标准模型。以θi,i=1,...,m,表示单音ci,i=1,...,m,出现的机率,也即先前机率,则 以d表示一个决策方法。定义一个简单损失函数(loss function),也即d的判错机率(misclassification probability)如下:如决策方法d判错一个未知单音,则损失函数L(ci,d(x))=1。如果d判对一个未知单音,则无损失L(ci,d(x))=0。辨认方法如下:以Γi,i=1,...,m,表示X=x矩阵值属于已知单音ci的范围。也即X在Γi,d判未知单音属于已知单音ci。d判错平均机率为
在(16)中,τ=(θ1,...,θm),Гi c是Γi以外范围。以D表示所有语音辨认方法,也即划分m个已知单音的范围所有方法。在D中找一个辨认方法dτ使它的平均认错机率(16)达到最小,以R(τ,dτ)表示
满足(17)式的辨认方法dτ叫做与先前机率τ有关的贝氏分类法。可用下列表示:
dτ(x)=ci if θif(x|ci)>θjf(x|cj) (18)
在(18)式中,j=1,...,m,j≠i,也即属于已知单音ci的范围是对所有j≠i,Γi={x|θif(x|ci)>θjf(x|cj)}。如所有已知单音出现机率一样,则贝氏分类法和最大机率法一样。
贝氏分类法(18)辨认一个未知单音时,先计算所有X的条件密度函数f(x|ci)i=1,...,m,
在(19)中,i=1,...,m,(已知单音总数)。为了计算方便,将(19)式取对数,并删去常数,得
贝氏分类法(18)变成对每个已知单音ci,计算l(ci)值(20),l(ci)也称为未知单音和已知单音ci的相似度,或贝氏距离(mis-categorization risk)。在(20)式中,x={xjl},j=1,...,E,l=1,...,P,是未知单音分类模型内线性预估编码倒频谱(LPCC)值,{μijl,σijl 2}用已知单音的标准模型内的样本平均数与样本变异数估计。本发明最重要的贡献是在数据库中,为每一个已知单音ci找到真实的中心点ci={μijk}与明确不重迭的范围。
Γi={x|θif(x|ci)>θjf(x|ci)} (21)
这里x={xijk}是表示单音ci的E×P LPCC矩阵范围。先找一个发音清晰者对每个单音ci发音,用x={xjk}表示所述的清晰者对ci的发音的单音E×P LPCC,用 表示数据库内第i个已知单音ci第k个样品的E×P LPCC矩阵。再以下列计算,发音者的单音与第k个样本贝式距离
这里σijl 2用已知单音ci的全部样本变异数取代。用此贝式距离(22)得到在数据库中第i个单音ci的全部样本,找K个最接近发音者发第i个单音ci的样品,再用此K个最接近样品计算单音ci平均值与变异数(变异数也可由全部样品变异数代替)。叫做单音ci的标准模型,此标准模型大大提高本发明辨认率。(经实验结果,用K=4-8,可提高到百分的百)。贝式分类法辨认一个未知单音的分类模型x={xjl}是在数据库内选择一个已知单音ci′它的l(ci′)值达最小,判为所述的未知单音。
(6)为了证实本发明语音单音辨认方法辨识率高,适用范围广,抽取特征与辨认方法快速且省时,本发明执行男女三个人语音辨认实验。
(a)首先建立一个日常用的国语单音数据库。本单音数据库是从台湾之中央研究院购买。数据库一共有394个单音,全是女性发音,样本从6个到99个不等,很多单字的发音几乎一样。
(b)从(2)节中方法将所有样本转成E×P LPCC矩阵,一共有12464个矩阵。
(c)测试人有三位(发明人),一是本人黎自奋,男性,外省籍,虽讲国语,带有四川口音,第二位是廖丽娟小姐,女性,本省通过口音,第三位是李台珍小姐,外省通过口音。一人作清晰发音者,在数据库中用贝式分类法(22)找4-8个最接近发音者的样本,计算成平均值。本发明主要目的是要E×P=144平均值真正代表所述的单音特征,为了省时,变异数仍由全部样本计算,作为标准模型,储存在数据库中。另二人(测试者)发音作为贝式分类法(20)来辨认未知单音。
(d)因相同音字太多。贝式分类法(20)选择前3位单音,发音者的未知单音入围前3名算成功。例(两,娘,俩)、(年,连,言)、(陈,岑,成)、(曾,正,尊)、(诺,若,罗)、(赞,钻,站)等。贝式分类法(20)选择前3名已知单音,这3名发音非常接近,很难判断测试者未知单音是3个其中哪一个,因此,只要前3名已知单音有未知单音,算是成功。
(e)黎自奋的发音去找K=4到8个最接近样品作为标准模型,由李台珍与廖丽娟作为测试者。她们均能100%测试成功。主要数据库全是女性样本(一共有12464个样本)。廖丽娟的发音去找K=4-8个最接近样本作为标准模型,由黎自奋及李台珍作为测试者,也可达到100%辨认率。辨认的单音由表一列出。
(f)如果未知单音不在前三位最相似已知单音内,假定未知单音叫做甲单音,前三位最相似已知单音叫做乙、丙、丁三个单音,那么甲单音的最好K个样本不在甲单音样本内,而在乙、丙、丁的样本内(或乙的单音样本内),再到乙单音样本内寻找甲单音最好的K个样本,计算平均值及变异数称为甲的标准模型,这是因为相似音太接近,甲的样本和乙的样本非常相似,再测试未知(甲)单音,一定成功。
图3中394单音中,本方法能辨认390个,3个不认识,1个音错误。本方法辨认率是100%。
(7)对一个讲话者的句子或名称辨认,我们先建立一个句子与名称数据库,每个句子或名称内的单音全部由单音数据库内390已知单音任意组成,一共组成460常用的句子和名称,辨认方法如下:
(a)切割一个未知句子或名称成为D个未知单音,每单位时段计算相邻二信号点落差距离总和,如太小,所述的时段为杂音或静音,没有单音讯号的相邻单位时段累积太多,表示全是杂音或静音,应所述的是两单音分界线就应切割,一共切成D个未知单音,再用图2中45,50,60与90流程转成E×P LPCC矩阵。
(b)在句子与名称数据库寻找讲话者的句子或名称,在460句子和名称中,挑选长度有(D±1)个已知单音句子和名称。
(c)如果数据库的选择比对的句子或名称和讲话者的句子或名称等长(D个未知单音)时,那么将D个每列F个相似已知单音和比对句子或名称的D个已知单音依顺序比对,看看F个相似音有没有比对句子或名称内的已知单音。如每列相似音内都含一个比对句子或名称内的已知单音,辨认正确单音是D个,则所述的比对的句子或名称就是讲话者的句子或名称。
(d)如果数据库比对句子和名称内已知单音数不是D或(c)的辨认正确单音不是D个,本发明则用3×F窗口筛选。在比对句子或名称(数据库内)中,第i个已知单音,用D×F矩阵中前后三列相似音(即第i-1,i,i+1列)比对第i个已知单音,计算D×F矩阵有多少比对句子或名称内的已知单音,再除以总数D得到所述的比对句子或名称的机率,在数据库选择一个机率最大句子或名称为讲话者的发音。
(e)如果D×F矩阵相似音没有一个数据库的句子或名称,一定是讲话者的某单音不在它的F个相似音内,用6(f)在F个相似单音中,在第一到三顺位(或只用第一顺位)的已知单音找该单音K个最好样品做它的平均值与变异数,作为该单音的标准模型,下次测试时,一定成功。
(f)经过黎自奋和李台珍及廖丽娟三位测试460结果全部正确,本发明另外一个重要技术是提供一个修正单音特征方法(6(f)),务使辨认成功。
注:有些句子或名称的单音并未全部选对,正如人类讲话不需全部了解一句子或名称的每一个单音也能明了整个句子或名称。本发明测试的句子与名称数据库在图4A与图4B中。
图4B从390单音数据库任意组成460句子与名称数据库。取最相似的F=5已知单音,由黎自奋与李台珍及廖丽娟测试全部正确。
以上所述仅为本发明的较佳实施例,对本发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在本发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。
Claims (9)
1、一个百分之百辨认率的国语单音与句子辨认方法,其特征在于:其步骤包含:
步骤(1):通过一个先前处理器删去不具语音音波信号点或杂音;
步骤(2):实施一个已知单音音波正常化与抽取特征方法:用弹性框将音波正常化并转换成大小相等的线性预估编码倒频谱LPCC特征矩阵,并将相同单音音波转换成特征相同的矩阵;
步骤(3):在数据库中,对每个已知单音,选择K个最好样本;
步骤(4):一个已知单音特征矩阵的K个最好样本转换成一个标准模型,储藏在数据库,标准模型含有所述的已知单音特征矩阵的K个样本平均数与变异数;
步骤(5):实施一个未知单音音波正常化与抽取特征方法:将音波正常化并转换成大小与已知标准模型大小相等的特征矩阵,称为未知单音分类模型,内含有线性预估编码倒频谱LPCC;
步骤(6):实施一个简化贝氏分类法:将未知单音分类模型与数据库所有已知单音标准模型比较,找一个已知单音,它和未知单音贝式距离达最小,辨认为未知单音;
步骤(7):将一个未知句子或名称切成D个未知单音方法;
步骤(8):通过一个简化贝式分类法,在D个未知单音中,为每一个未知单音选F个最相似的已知单音,一个未知句子或名称用D×F矩阵已知单音表示;
步骤(9):用D×F矩阵的已知单音,比对句子与名称数据库全部句子与名称,找寻一个最可能已知句子或名称;
步骤(10):实施一个修正单音特征的方法,使讲话者的句子或名称辨认正确。
2、根据权利要求1所述的百分之百辨认率的国语单音与句子辨认方法,其特征在于:步骤(1)删去不具语音的音波或杂音,包含两种方法:
(a)、在一小时段内信号点,计算信号点的变异数与一般杂音的变异数,如信号点的变异数小于杂音变异数,则删去所述的时段;
(b)、在一小时段内信号点,计算相邻两信号点距离总和和一般杂音相邻两信号点距离总和,如前者小于后者则删去所述的时段。
3、根据权利要求1所述的国语单音与句子辨认方法,其特征在于:步骤(2)包含已知单音音波正常化与抽取大小一致的特征矩阵,步骤如下:
(a)一个均等分一个已知单音音波信号点方法,为了用线性变化的回归模式密切估计非线性变化的音波,将音波全长分成E等时段,每时段形成一个弹性框,一个单音共有E个弹性框,没有滤波器,不重迭,自由伸缩含盖全长音波,不是固定长度的汉明窗;
(b)每框内,用一随时间作线性变化的回归模式估计随时间作非线性变化的音波;
(c)用Durbin′s循环方式
E0=R(0)
求回归系数最小平方估计值,叫做线性预估编码LPC向量,再用
转换线性预估编码LPC向量为稳定的线性预估编码倒频谱LPCC向量;
(d)用E个线性预估编码倒频谱LPCC向量表示一个单音的E×P LPCC特征矩阵。
4、根据权利要求1所述的百分之百辨认率的国语单音与句子辨认方法,其特征在于:步骤(3)又包含一个,在数据库中,对每一个已知单音选择最好的K个样本的方法,步骤如下:
(a)找一个发音清楚者对每个单音ci发音一次;
(b)在数据库中,对所述的已知单音ci的全部样本xi k,用贝式距离对发音者所发的单音x={xjl}计算
这里σijl 2以已知单音ci全部样本变异数代替,而 表示已知单音ci全部样本;
(c)在已知单音ci全部样本中,以K个最小的l(xi k)值,来选择K个对发音者最接近的样本,叫做已知单音ci最好的K个样本xi k。
5、根据权利要求1所述的百分之百辨认率的国语单音与句子辨认方法,其特征在于:步骤(5)又包含一个计算未知单音的分类模型方法,其步骤如下:
(a)将未知单音音波分成E等时段,每时段组成一个弹性框,一个未知单音有E个等长弹性框,没有滤波器,不重迭,自由伸缩含盖全部音波信号点;
(b)每个弹性框内,用一个随时间作线性变化的回归模式估计随时间作非线性变化的音波;
(c)用Durbin′s循环方式
E0=R(0)
计算回归系数最小平方估计值LPC向量;
(d)再将LPC向量用公式
转换成稳定LPC倒频谱LPCC向量;
(e)用E个LPCC向量E×P LPCC矩阵,作为所述的未知单音的分类模型。
6、根据权利要求1所述的百分之百辨认率的国语单音与句子辨认方法,其特征在于:步骤(6)包含一个简易贝氏辨认未知单音方法,其步骤如下:
(a)一个未知单音的特征是分类模型,用一个E×P LPCC矩阵X={Xjl},j=1,...,E,l=1,...,P,表示,为了快速辨认,E×P个LPCC{Xjl}假定是E×P个独立随机变量,有正常分配,如果未知单音和一个已知单音ci,i=1,...,m,比对时,则{Xjl}的平均数与变异数(μijl,σijl 2)用所述的已知单音标准模型内样本平均数与样本变异数估计,那么X的条件密度函数是
X={Xjl}是未知单音的分类模型的线性预估编码倒频谱LPCC,但(μijl,σijl 2)用已知单音ci标准模型内的样本平均数与样本变异数以K个最好样本计算估计;
(b)简易贝氏分类法是针对数据库中找一个已知单音ci最像此未知单音X,一个已知单音ci对未知单音相似度以下式中f(x|ci)表示;
(c)为快速辨认,用对数化简(b)中条件密度函数f(x|ci),并删去不必计算的常数,得
(d)对每一个已知单音ci,i=1,...,m,计算(c)式中l(ci)值;
(e)在数据库中,选择一个已知单音c′i,它的l(ci′)值是最小,判为所述的未知单音;
(f)如果选择已知单音不是未知单音,假定未知单音是甲单音,而选择的已知单音是乙单音,那么甲单音最好K个样本不是在甲单音样本内,而是在乙单音样本内,再从乙单音样本内为甲单音选择K个最好样本作为甲单音的标准模型,下次辨认该未知单音一定辨认正确;
(g)由辨认测试结果,E=12,P=12,K=4-8为最好,这是因为弹性框不重迭,E=12弹性框能充分抽取一个单音特征。
7、根据权利要求1所述的百分之百辨认率的国语单音与句子辨认方法,其特征在于:步骤(7)还包含下列:
每单位时段计算相邻两个信号点落差距离总和,如太小,所述的时段则是静音或杂音,没有单音讯号;
静音或杂音相邻单位时段累积太多,所述的时段应是两单音分界线,应切割,一个未知句子或名称切割成D个未知单音;
再将每个未知单音除去静音与杂音,弹性框正常化,最小平方计算线性预估编码LPC倒频谱向量,代表一个未知单音,一句子或名称一共有D个线性预估编码倒频谱LPCC矩阵表示。
8、根据权利要求1所述的百分之百辨认率的国语单音与句子辨认方法,其特征在于:步骤(8)还包含下列:
(a)一个未知句子或名称切割成D个未知单音后,每一个未知单音用简化贝式分类法,在单音数据库中,计算每个已知单音ci和所述的未知单音{Xjl}贝式距离l(ci),
找最近的F个已知单音,一个未知单音用所述的F个相似音表示;
(b)因此一个未知句子或名称有D列F个相似音表示,也即所述的句子或名称在D×F矩阵的已知单音机率非常高。
9、根据权利要求1所述的百分之百辨认率的国语单音与句子辨认方法,其特征在于:步骤(9)还包含下列一个句子与名称辨认方法:
(a)在句子与名称数据库中,挑选和讲话者的句子或名称长度大约相等的句子或名称,也即D±1个已知单音的句子和名称;
(b)如果在句子与名称数据库中,挑选比对的句子或名称,它的长度刚好和讲话者的句子或名称等长(D个未知单音)时,那么将D个每列F个相似已知单音和被挑选的比对句子或名称的D个已知单音依顺序比对,看看F个相似单音中有没有比对句子或名称内的已知单音,如每列相似单音依次都包含比对句子或名称内一个已知单音,一共会有全部D个未知单音辨认正确,所述的比对句子或名称就是讲话者的句子或名称;
(c)如果句子与名称数据库中的比对句子或名称有D个已知单音,但比对讲话者,D个单音没有完全辨认正确,不在F个相似音内或比对句子或名称不是D个长度,本发明则用3×F窗口筛选,用D×F矩阵相似音中前后三列相似已知单音依顺序比对数据库,有D个或D±1个已知单音的比对句子或名称中每一个已知单音,在数据库中选择一个机率最大的比对句子或名称为讲话者的句子或名称,机率以单音正确辨认数除以全长D或D±1。
10、根据权利要求1所述的百分之百辨认率的国语单音与句子辨认方法,其特征在于:步骤(10)还包含一个修正单音特征方法,使句子与名称辨认正确:
(a)不能辨认讲话者的句子或名称一定是句子或名称中某一个未知单音不在它的F个相似音中,需要调整所述的未知单音的标准模型矩阵内K个LPCC的平均值与变异数;
(b)假如所述的未知单音是ci,本发明用4(b)中简化的贝式分类法,计算所述的未知单音{xjl}对单音数据库中已知单音ci全部样本 的贝式距离
取K个最好的样本做为平均值μijl与变异数σijl,调整后再辨认所述的句子或名称;
(c)再测试该未知句子或名称,如句子或名称中某一未知单音不在它的F个相似已知单音中,假定未知单音叫做甲单音,用它的F个相似已知单音中第一到三顺位的相似已知单音叫做乙、丙、丁单音,甲单音最好K样本不在甲单音样本中,而在前三顺位的乙、丙、丁单音样本中或乙单音中,再从乙单音全部样本选择甲单音的K个最好样本求甲单音特征模型,再测试该未知句子或名称,保证成功。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008100855324A CN101281746A (zh) | 2008-03-17 | 2008-03-17 | 一个百分之百辨认率的国语单音与句子辨认方法 |
CN2008101675992A CN101540168B (zh) | 2008-03-17 | 2008-10-14 | 一种能够同时辨认英语及汉语的辨认方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008100855324A CN101281746A (zh) | 2008-03-17 | 2008-03-17 | 一个百分之百辨认率的国语单音与句子辨认方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101281746A true CN101281746A (zh) | 2008-10-08 |
Family
ID=40014174
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2008100855324A Pending CN101281746A (zh) | 2008-03-17 | 2008-03-17 | 一个百分之百辨认率的国语单音与句子辨认方法 |
CN2008101675992A Expired - Fee Related CN101540168B (zh) | 2008-03-17 | 2008-10-14 | 一种能够同时辨认英语及汉语的辨认方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008101675992A Expired - Fee Related CN101540168B (zh) | 2008-03-17 | 2008-10-14 | 一种能够同时辨认英语及汉语的辨认方法 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN101281746A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101540168B (zh) * | 2008-03-17 | 2011-06-15 | 黎自奋 | 一种能够同时辨认英语及汉语的辨认方法 |
CN102479507A (zh) * | 2010-11-29 | 2012-05-30 | 黎自奋 | 可辨认任何语言句子的方法 |
CN102034474B (zh) * | 2009-09-25 | 2012-11-07 | 黎自奋 | 语音辨认所有语言及用语音输入单字的方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5704004A (en) * | 1993-12-01 | 1997-12-30 | Industrial Technology Research Institute | Apparatus and method for normalizing and categorizing linear prediction code vectors using Bayesian categorization technique |
US5522012A (en) * | 1994-02-28 | 1996-05-28 | Rutgers University | Speaker identification and verification system |
US5864810A (en) * | 1995-01-20 | 1999-01-26 | Sri International | Method and apparatus for speech recognition adapted to an individual speaker |
US7603276B2 (en) * | 2002-11-21 | 2009-10-13 | Panasonic Corporation | Standard-model generation for speech recognition using a reference model |
CN101246686A (zh) * | 2007-02-15 | 2008-08-20 | 黎自奋 | 连续二次贝氏分类法辨认相似国语单音的方法及装置 |
CN101281746A (zh) * | 2008-03-17 | 2008-10-08 | 黎自奋 | 一个百分之百辨认率的国语单音与句子辨认方法 |
-
2008
- 2008-03-17 CN CNA2008100855324A patent/CN101281746A/zh active Pending
- 2008-10-14 CN CN2008101675992A patent/CN101540168B/zh not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101540168B (zh) * | 2008-03-17 | 2011-06-15 | 黎自奋 | 一种能够同时辨认英语及汉语的辨认方法 |
CN102034474B (zh) * | 2009-09-25 | 2012-11-07 | 黎自奋 | 语音辨认所有语言及用语音输入单字的方法 |
CN102479507A (zh) * | 2010-11-29 | 2012-05-30 | 黎自奋 | 可辨认任何语言句子的方法 |
CN102479507B (zh) * | 2010-11-29 | 2014-07-02 | 黎自奋 | 可辨认任何语言句子的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101540168A (zh) | 2009-09-23 |
CN101540168B (zh) | 2011-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5937384A (en) | Method and system for speech recognition using continuous density hidden Markov models | |
US7869997B2 (en) | System and method of pattern recognition in very high dimensional space | |
US7369993B1 (en) | System and method of pattern recognition in very high-dimensional space | |
JP2015180966A (ja) | 音声処理システム | |
Chang et al. | A Segment-based Speech Recognition System for Isolated Mandarin Syllables | |
Shahin | Speaker identification in emotional talking environments based on CSPHMM2s | |
WO2022148176A1 (en) | Method, device, and computer program product for english pronunciation assessment | |
Nanavare et al. | Recognition of human emotions from speech processing | |
CN114360514A (zh) | 语音识别方法、装置、设备、介质及产品 | |
CN101281746A (zh) | 一个百分之百辨认率的国语单音与句子辨认方法 | |
JP5091202B2 (ja) | サンプルを用いずあらゆる言語を識別可能な識別方法 | |
CN101246686A (zh) | 连续二次贝氏分类法辨认相似国语单音的方法及装置 | |
Shen et al. | Automatic selection of phonetically distributed sentence sets for speaker adaptation with application to large vocabulary Mandarin speech recognition | |
Nguyen et al. | Vietnamese voice recognition for home automation using MFCC and DTW techniques | |
Syed et al. | Concatenative Resynthesis with Improved Training Signals for Speech Enhancement. | |
Prakash et al. | Exploration of End-to-end Synthesisers forZero Resource Speech Challenge 2020 | |
Vergin et al. | On the use of some divergence measures in speaker recognition | |
Phoophuangpairoj et al. | Two-Stage Gender Identification Using Pitch Frequencies, MFCCs and HMMs | |
Cook et al. | Utterance clustering for large vocabulary continuous speech recognition. | |
CN102034474B (zh) | 语音辨认所有语言及用语音输入单字的方法 | |
Kurian et al. | Automated Transcription System for MalayalamLanguage | |
Patil et al. | Linear collaborative discriminant regression and Cepstra features for Hindi speech recognition | |
CN101339765A (zh) | 一种可广泛应用的国语单音辨认系统 | |
Babykutty et al. | Development of multilingual phonetic engine for four Indian languages | |
Li et al. | Speech recognition of mandarin syllables using both linear predict coding cepstra and Mel frequency cepstra |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |