CN1300049A - 汉语普通话话音识别的方法和设备 - Google Patents
汉语普通话话音识别的方法和设备 Download PDFInfo
- Publication number
- CN1300049A CN1300049A CN00134525A CN00134525A CN1300049A CN 1300049 A CN1300049 A CN 1300049A CN 00134525 A CN00134525 A CN 00134525A CN 00134525 A CN00134525 A CN 00134525A CN 1300049 A CN1300049 A CN 1300049A
- Authority
- CN
- China
- Prior art keywords
- syllable
- chinese
- speech
- model
- voice signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 41
- 239000013598 vector Substances 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 11
- 150000001875 compounds Chemical class 0.000 claims description 37
- 238000005070 sampling Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 21
- 238000001914 filtration Methods 0.000 claims description 5
- 241001672694 Citrus reticulata Species 0.000 abstract description 8
- 238000004458 analytical method Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 10
- 230000003595 spectral effect Effects 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000012163 sequencing technique Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 210000000056 organ Anatomy 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000013178 mathematical model Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008288 physiological mechanism Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种采用声母/韵母音素相似性向量对汉语普通话话音识别的设备,该设备可提高汉语话音识别准确度并降低所需的存储的规模。一种汉语普通话识别设备包括一话音信号滤波器、一模/数转换器、一计算机、一音调鉴频器、一话音信号预处理器和一训练部分。
Description
本发明涉及一种应用声母和韵母的相似性向量进行汉语普通话话音识别的方法和设备。本发明的目的在于改善识别准确度和降低所需的建立在用于汉语普通话话音识别系统的单数字信号处理(DSP)芯片上的存储规模。本发明更为具体的目的在于提出不仅旨在根据汉语声母和韵母音素相似性提高汉语普通话话音识别率,而且还旨在降低所需的存储规模的方法。
二十多年以来,对普通话话音识别技术的研究和开发已经成了不仅在学术领域中,而且在面向商业的私营公司中的热门话题。显然,人类的话音是根据声道的形状及其瞬时的变化产生的,取决于发音器官的形状或大小的声道形状必然是因人而异的。另一方面,也取决于发出的字的声道的时间顺序模式也有很小的具体差别。因此,可以将发音的特征分成两个要素:即声道的形状和瞬时模式。前者因说话者的不同差别很大,而后者差别是比较小的。所以如果对取决于声道形状的区别以某种方式进行标准化,则仅利用少量说话者的发音即可对具体人的话音实现识别。声道形状的不同将导致不同的频谱。一种用于对说话者的频谱区别进行标准化的方法是通过采用将话音输入与为非特定说话者建立的音素样板比较的方法对话音输入进行分类。该运算实现了并不特别取决于说话者区别的相似性。同时声道的瞬时模式被认为只有很小的差别。
话音是人类最基本的通信手段,此点是促使了解话音生成机理的动因。诸如声音的重叠振荡的非线性、声道发音器的动态、语言规律的知识和声门源与声道耦合声学效应等领域都是不断进行研究的领域。通过对基本话音分析的不间断的研究实现了话音合成、编码和识别等新颖的和更实用的手段。在历史发展的进程中J.Q.斯图尔德(1922)研制出第一个用于对话音模化的全电子网络。由老式的话音处理系统到最新的进展,我们了解了就声道发音器的位置和移动、其时间波形特性的变化和诸如格式位置和带宽等频域特性等方面的话音声学。由于需要发音器进行有限的移动,以便产生每个声音,所以话音发生系统是不能进行即刻变化的。与听觉系统不同,所述听觉系统仅用于听的目的,而用于生成话音的器官还承担其它的诸如呼吸、吃东西和发出气味等功能。就人际的话音通信的目的而言,考虑的仅是由说话者产生的声音信号。事实上,还存在许多与之并列的人与电子之间的通信。受人的生成话音的器官和听觉系统的限制,典型的人类话音通信被限定在7-8kHz带宽上。
旨在进行测定的对声道的研究和理解自然话音信号与生理机理,即生成话音的人体声道机理和听取话音的人体听觉系统间的关系科学,被称作“声学”。最新的方案对人类的说和听的人体系统进行评价并且通过数字化将这些人类的通信信号变成参数,例如声学特征抽取。人类的声音特征因人而异,即每个人都具有其独自的声音特征。
通常用于不受说话者区别影响的话音识别的标准模式是通过对说话者的话音数据进行统计处理实现的。其中有几种比较方法,例如一种应用统计距离量度的方法和一种应用神经网络模型的方法,例如台湾专利303452;和隐式马尔可夫模型(HMM),例如台湾专利283774和269036。尤其是报导了许多采用连续混合高斯密度模型成功的实现的隐式马尔可夫模型(HMM)。采用这些方法时,应用作为特征参数的频谱参数进行话音识别并且通常需要大量的说话者,以进行训练。为实现高的识别率还要付出巨大的存储代价。如果由少量的说话者可以实现用于不受说话者区别影响的话音识别的标准模式,则测定的规模将可大大小于通常的方式。因而可以节省人力和测定并且话音识别方法则易于用于各种应用。为实现上述目的,我们提出应用作为特征参数的相似性向量的话音识别设备的发明。根据此方法,由少量的说话者训练出的字样板在对不受说话者区别影响的识别时可实现高的识别率。为了在实际应用时实现话音识别技术,话音识别设备必须耐躁声环境并且针对的是来自背景躁声的字,而不是针对发音。另外,话音识别设备必须作为便携式设备必须保持高的质量性能。出于此考虑,本发明集中在用于便携式设备的汉语话音识别系统内的小规模的编程编码,但高准确度的识别率。
有许多用于英语话音识别的算法和方法,然而汉语就其话语表达而言具有一些完全不同于西方语言的主要的特性。例如公知的区别是每个汉字的声调信息和单音节声音模式。就汉语话语的字而言,汉语口语是双音节的语言,其中一个字由在最后的元音前面的辅音或鼻音构成。在前面的辅音被称作“声母”。声母的发音时间很短并通过韵母起作用,而韵母在前面具有一个过渡部分。例如汉字“关”《メㄢ(g+uan l)或“心”T一ㄣ(s+ing l)等。韵母的中间部分是固定不变的并且对韵母组的整个集是相同的。每个韵母的结束部分的特征是有一个发音的或不发音的结束辅音。普通话共有21个声母和一个轻声母和36个韵母,所述韵母包括组成整个韵母的中间过渡和轻韵母。如果不考虑四声,则共有409个普通话音节集。如果将声调与音素组合在一起,则共有1345个不同的普通话音节。汉语口语的另外一个特征是发音特性的同音异意性,其中具有相同音素的不同的声调表示不同的汉字。
为实现汉语口语的准确的识别率,以有效的、关键性的和健全的方式由汉语话音信号提取相关信息的处理过程是重要的技术。有许多用于汉语话音识别的方法,其中包括有用于对话音信号的时间变化特性进行特征化的频谱分析以及使话音信号耐各种记录环境的信号预处理和后处理。这些方法通常与数字信号处理(DSP)技术和许多数学模型和公式相关联,例如DFT(离散型傅立叶变换)(或FFT(快速傅立叶变换))、有限脉冲响应(FIR)、Z变换、线性预测编码(LPC)、神经网络和隐式马尔可夫模型(HMM)。尽管提出了许多用于汉语话音识别的数学模型,但这些方法用少量的训练说话者数据库仍不能提高识别准确度。
在以基本的传统的声母-韵母结构为基础的用于汉语话音识别的方案中,应用的是汉语声母-韵母特性。该传统的方案采用此方法用于将作为声母和韵母链接的输入音节模化。但对该方案的应用并不意味着将输入的音节明显地分为两部分。采用这种声母-韵母结构的模化,必须通过对声母和韵母的鉴别实现对音节集的识别。在应用声母-韵母特征的系统中,对声母和韵母的识别是必不可少的部分。在最初阶段,几名发明人,例如在台湾专利273615、278174(美国专利US5704004)和219993提出的用于分别识别声母和韵母的方法。美国专利US5704004是台湾专利278174的同族专利。音节首先被分成两部分并且对其进行分别识别。即声母首先由音节分出并根据诸如零交叉率、平均能量和音节时间等提取的特征被分类成发音的和不发音的部分。接着,采用这些特征向量建立特征编码簿。应用有限状态向量量化可以实现识别。在这些传统的系统中,首先了解韵母。所以可以在被识别的韵母组中进行辅音分类。根据实验结果,该传统的方案的识别准确度只能达到93%(台湾专利273615)。同时,这些方案为进行处理必须建立无数的说话者的大型的话音大全。
故提出本发明,不仅旨在改善识别准确度,而且也旨在实现一种可降低编程编码规模的汉语话音识别系统的设备。本发明旨在提出一种采用作为特征参数的相似性向量的高准确度的不受说话者区别影响的汉语话音识别系统。在躁声环境条件下包括台湾的106个城市名称的字识别率的实验结果达97.3%。本发明的汉语话音的识别率大大高于传统的方法(例如台湾专利273615、278174)。其准确度高于其它传统的方法4.5%。
本发明的目的在于提出采用声母/韵母相似性向量的用于汉语普通话话音识别的设备,以便提高汉语话音识别准确度并降低所需的存储规模。
本发明的目的还在于提出采用声母/韵母相似性向量的汉语普通话话音识别的方法。
一种汉语普通话识别的方法包括如下步骤:
根据声母部分训练音素相似性向量(PSV)模型,以便建立一具有训练出的声母部分模型参数的声母部分模型;
根据韵母部分训练音素相似性向量(PSV),以便建立一具有训练出的韵母部分模型参数的模型;
训练话音音节的音素相似性向量,以便采用作为音节模型的启始参数的训练出的声母部分参数值和训练出的韵母部分参数值建立音节模型;
采用音节模型对目标话音取样进行操作;
根据目标话音取样与音节模型的符合度对作为目标话音音节的目标话音取样进行识别,和
对作为与目标话音音节相符的汉字的目标话音取样加以表示。
一种汉语普通话识别方法另外还包括如下步骤:
根据通用的上下文关系的汉字顺序训练动态时间Warp编译器,以便建立汉语模型;
采用汉语模型对目标音节取样中的目标话音音节顺序进行操作;
对作为与汉语模型相符的目标话音音节一致的汉字的目标话音取样加以表示;和
对作为与目标话音音节相符的顺序一致的汉字顺序的目标话音取样加以表示。
一种汉语普通话话音识别设备,包括:
一个话音信号滤波器,用于接收话音信号和产生经滤波的模拟信号;
一个模/数(A/D)转换器,用于将话音信号转换成数字话音信号;
一个计算机,该计算机与A/D转换器连接,用于接收和处理数字信号;
一个音调鉴频器,该鉴频器与计算机连接,用于对话音信号的音调频率特征进行检测,从而实现对话音信号中的声音进行识别;
一个话音信号预处理器,该处理器与计算机连接,用于对话音信号的音节的结束点进行检测,从而实现对音节的开始和结束的确定;和
一个训练部分,该部分与计算机连接,用于对声母部分音素相似性向量(PSV)模型和韵母部分音素相似性向量(PSV)模型进行训练并用于根据声母部分音素相似性向量(PSV)模型和韵母部分音素相似性向量(PSV)模型的训练出的参数对音节模型进行训练。
下面将结合优选实施例并对照附图对本发明的这些和其它目的和特征加以详细的说明,其中对相同的部分采用相同的附图标记加以标示。图中示出:
图1为本发明的优选实施例的系统框图;
图2为本发明输入部分的处理过程的框图;
图3为本发明的音频分析部分的处理过程的框图;
图4为本发明的相似性计算部分的处理过程的框图;
图5为本发明的滤波和模/数信号转换的详细的处理框图;
图6为本发明的模/数转换的电路图;
图7为本发明的带通滤波器的详细的处理框图;
图8为本发明的线性预测编码(LPC)分析功能块的详细的处理框图;
图9示出本发明的相似性计算和相似性参数生成的处理过程和及其算法;
图10示出本发明的识别部分的处理过程;
图11为用于本发明的音素模型化的汉语基本音节和声调信息表;
图12、13和14为本发明的用于音素模型化的汉语详细的音素信息表;
图15为本发明的动态编程表;和
图16示出用于实验性的字样板的106个城市名称。
本发明采用用少量的训练说话者用于汉语普通话话音识别的系统和方法克服了现有技术的缺陷和制约。在本发明的话音识别系统中共有五个部分,即输入部分20、音频分析部分30、相似性计算部分40、识别部分50和输出部分60。本发明宜在一规模-集成的器件中实现对音节的声母和韵母的判定,以便实现对汉字的发音信息的鉴别。图1示出本发明的用于汉语话音识别的结构。在本发明的设备中,输入部分20用于对人的话音信号输入进行处理。图2为输入部分20的基本方框图。由于人的话音是一种模拟信号,故必须将来自受话器输入端的信号转换成数字信号,以便用计算机(S205和S210)进行进一步的测定。通常,人的话音频率在125Hz至3.5KHz的范围内,因而必须在模/数转换器的前面建立一个低通滤波器,以便获得真实的人的话音信号并将来自实际环境的多余的躁声信号滤除(S215)。
图3为音频分析部分30的基本框图。在该音频分析部分30中有三个专用的处理方框(S305、S310和S315),包括带通滤波器、特征参数的提取和线性预测编码(LPC)分析模型。
在音频分析部分30后面进行计算,图4为相似性计算部分40的框图。
本发明以用户产生一个话音信号开始,实施一给定的任务。第二步,首先对话音输出进行识别,其中话音信号根据音素样板被译码成有意义的音素系列。音频分析部分30对话音输入和提取的线性预测编码(LPC)对数倒频谱系数和能量的增量进行分析。提取的参数与多种音素样板进行比较,并且在相似性计算部分40中对静态音素相似性和音素的一次回归系数进行计算。此后,这些音素样板的时间顺序用于确定空间相似系数向量并求出回归系数向量。假定所有的音素的协方差矩阵都是相同的,在相似性测量部分40应用马哈朗诺比斯距离算法进行距离测量。由后处理器求出被识别的字的意义,后处理器应用动态编程,将输入的字与实际的字和预先通过音素相似性计算被识别的字进行比较。因此,后处理可根据预先的音素结果作出判定,此点将降低所有识别模式的复杂性。最后,识别系统以话音输出方式或类似的以提出实施的旨在促使用户进一步输入的动作要求对用户作出响应。
下面不仅对每个过程,而且还对算法进行说明,以便对本发明设备的详细的处理过程加以阐述。图5示出模/数信号转换的处理过程。绝大部分信号就其本质而言是模拟形式的,因而需要进行模/数转换处理,该转换处理包括如下步骤:1)模拟输入信号,该信号的时间和振幅是连续的。2)取样信号,该信号的振幅是连续的,但仅在离散的时间点上被定义。3)数字信号,x(n)(n=0,1,…)。该信号仅在离散的时间点上存在并且在每个时间点上只能有2B个数值中的一个。图6为A/D转换器的电路图。
图7示出音频分析部分的带通滤波器的详细的处理步骤。取样的话音信号,s(n),通过Q个带通滤波器,输出信号: 其中设定第i个带通滤波器的脉冲响应是持续时间为Mi取样的hi(m)。同时设定第i个带通滤波器的输出是频率为wi的纯正弦波,即Si=aisin(win)。如果采用作为非线性的全波检波器,即f(Si(n))=Si(n)当Si(n)≥0时
=-Si(n)当Si(n)<时则可以用Vi(n)=f(Si(n))=Si(n)·W(n)表示非线性输出,其中W(n)=+1当 Si(n)≥0时
=-1当 Si(n)<0时在非线性处理后,低通滤波器起着将高频部分滤除的作用。尽管低通信号的频谱不是一个纯直流的脉冲,但代之的是在直流附近的低频段内含有的信号信息。因此末级的低通滤波器的重要作用在于去掉不需要的频率峰值。在降低取样速率的步骤中,对低通滤出的信号,ti(n)以40-60Hz的速率重新取样,并且采用振幅压缩方案对信号的动态范围进行压缩。在分析器的输出端上,当采用的取样速率为50Hz并且应用一7比特对数振幅压缩器时,则得到的信息速率为16路×50(取样/秒/路)×7(比特/取样),或5600(比特/秒)。因此,就此取样举例而言,可将比特率减少到1/40。
图8中示出音频分析部分的LPC分析模型。LPC方法曾长期用于大量的识别器。尤其是隐含在LPC模型后面的基本构思在于,在时间n,S(in)时的特定的话音取样可以近似等于在后的p个话音取样的线性结合,即
S’(n)≈a1S(n-1)+a2S(n-2)+…+apS(n-P),其中系数a1,a2……,ap设定为话音分析帧的常数。在本发明的设备中,确定数值a1,a2,……,ap为0.95。在帧分组步骤中,对预加重的话音信号进行预处理,S’(n),被组成N个取样的帧,所述帧与相邻的帧间隔M个帧。设定,用x1(n)表示话音的第1个帧,并且在整个话音信号中有L个帧,则
xi(n)=S’(Ml+n),n=0,1,……N-1,l=0,1,……,L-1。在本发明的设备中,N和M的值分别为300和100,所述值与8kHz的话音取样速率相符。此后,处理中的下一步骤是对每个帧开窗口,以便最大限度地减少在每个帧开始和结束处的信号不连续性。在本发明的系统中,将窗口定义为w(n),0≤n≤N-1,并且开窗口的结果是信号
x1’=x1(n)w(n),0≤n≤N-1。本发明的设备用于LPC自动修正方法的窗口是汉明窗口,其式为
w(n)=0.54-0.46cos(2πn/N-1),0≤n≤N-1。
据此,进行自动修正分析。接着对每个开窗口的信号的帧进行自动修正,得出 其中,最大的自动修正值,p,是LPC分析的阶。下一个处理级是LPC分析,该分析将每个p+1自动修正的帧转换成“LPC参数集”,其中集可以是LPC系数、反射系数、记录区域比系数和对数倒频谱系数。在本发明的系统中,应用了杜宾(Durbin)方法并给出下述算法的式子:E(0)=r(0)ai (i)=ki 可以在i=1,2,……,p的情况下,递归地对上述等式组进行计算,并且最后的解为
am=LPC系数=am (p),l≤m≤p。
在求出LPC分析系数后,将LPC参数转换成对数倒频谱系数,对该系数的处理在下面还将述及。可以直接由LPC系数集推导出的该非常重要的LPC参数集,该参数集是LPC对数倒频谱系数,c(m)。应用的递归是:
C0=lnδ2 其中δ2是LPC模型的增益相。至今我们已得到了输入向量C,该向量由许多帧中的LPC对数倒频谱系数和能量增量构成。
图9示出本发明的设备相似性计算部分的详细的处理步骤及其算法。在该相似性计算部分中采用了马哈朗诺比斯距离作为距离量度,其中设定所有音素的协方差矩阵是相同的。输入向量c由十个帧中的LPC对数倒频谱系数和能量增量构成。如在图9中的第一个方框所示,输入向量c的表示式如下:
c=(v1,c1 c,c1 1,…v10,…,c10 13)t,其中ck 1表示第k个帧的第i个LPC对数倒频谱系数并且vk表示第k个帧的能量增量。
对输入向量c和音素样板(音素p)之间的音素相似性的计算如下:Lp=ap·c-bp
ap=2∑-1·μp
bp=μp.∑-1·μp,其中μp是音素p的平均向量,并且∑表示协方差矩阵。
在获得静态音素相似性之后,应用50毫秒以上的静态协方差矩阵计算出音素相似性的回归系数。作为由少许说话者的话音获得的作为辅音和元音的分-字单元的链接产生字样板。具体地说,在相似性计算部分中,包括有音素样板,该音素样板由汉语的声母部分和韵母部分构成。汉语的音节具有声母和韵母,声母部分存储有声母的正文表示并且韵母部分存储有韵母的正文表示。共有409种分-字单元。在图11、12、13和14中示出基本汉语语音音标。据此,通过对s(i,j)的计算获得相似性参数,s(i,j)是计算局部相似性(s515)的打分函数,
其中di表示输入的第i个帧中的相似性向量,ei表示基准的第j个帧的相似性向量,并且△di和△ei分别是回归系数向量,并且’w’是根据相似性向量和根据其回归系数向量打分的混合比。相似性的轨道是回归系数,所述回归系数系对每个分-字单元的平均数并存储在分-字词典中。本设备的主要发明点是,当话音模式输入到受话器中时,计算出作为特征参数的相似性向量的时间顺序和每个帧的回归系数向量。
图10示出识别部分。利用动态编程(DP)匹配对输入话音的特征参数的时间顺序与词典中的基准进行比较并且选出最相似的字作为识别结果。在该部分中,应用了最广泛采用的被称作动态时间Warp编译(DTW)用于本发明的字样板识别处理。DTW基本上是特征-匹配方案,该方案通过DP过程可固有地实现基准集与试验特征的“时间对齐”。时间对齐系指试验的话音的时间区与基准话音的相应的区的匹配的过程。不仅因为通常相同字的不同的发音由不同的时间构成,而且由于字内的音素由跨接在发音上的不同的时间构成,所以需要此时间对齐。在图10的第三个框内(S615)示出用字样板算法进行字匹配的如下的动态编程:
t(ik)与r(jk)匹配,
其中k=1,2,……,K
通路为(ik,jk),其中k=1,2……,K
累积的距离例如为g(i,j)
图15分别示出与i和j搜索网格的坐标相关的试验和基准特征向量。
通过用由10位男性和10位女性,共20个人说的212个字集对本发明的用于汉语话音识别的设备的汉语音素样板进行训练。所述样板的训练是在作为时元的有特色的帧上根据时间-谱模式进行的。例如元音的时元在时间的中间并且不发音的辅音的时元在时间的结束处。
在根据图16中的包括台湾的106个城市名称的实验结果中,下表示出传统的LPC的对数倒频谱系数的识别率的准确度。
特征参数的差异 | 32位 | 8位 | 6位 | 4位 |
LPC对数倒频谱系数识别率(%) | 84.3 | 74.1 | 65.0 | 64.9 |
另一方面,根据图16的相同的实验数据,本发明的实验结果表明,采用本发明的算法可以大大提高设备的准确度。
特征参数的差异 | 32位 | 8位 | 6位 | 4位 |
LPC对数倒频谱系数识别率(%) | 97.5 | 97.5 | 97.5 | 97.3 |
很明显,根据上述两个表格,本发明的识别率大大高于传统设备的识别率。另外,甚至在采用4比特取样获得提取参数时,本发明的设备也能实现较高的准确度。在差不多所有传统的手段中,都用32比特进行参数提取(4字节)进行特征表示。但在本发明的设备中仅用4比特即可提取参数,而且准确度很高。
尽管在上面结合本发明的优选实施例并对照附图对本发明作了说明,但要指出的是,任何变化和变动对本领域的专业人员都是显而易见的。这类变化和变动应被视为在本发明的范围内。
Claims (3)
1.一种汉语普通话话音识别方法,包括如下步骤:
根据声母部分训练音素相似性向量(PSV)模型,建立一具有训练出的声母部分模型参数的声母部分模型;
根据韵母部分训练音素相似性向量,建立一具有训练出的韵母部分模型参数的韵母部分模型;
训练话音音节音素相似性向量,采用作为音节模型的启始参数的训练出的声母部分参数值和训练出的韵母部分参数值建立音节模型;
采用音节模型对目标话音取样进行操作;
根据目标话音取样与音节模型的符合度对作为目标话音音节的目标话音取样进行识别;和
对作为与目标话音音节一致的汉字的目标话音取样加以表示。
2.按照权利要求1所述的汉语普通话话音识别方法,另外还包括如下步骤:
根据通用的上下文关系的汉字顺序训练动态时间Warp编译器,建立汉语模型;
采用汉语模型对目标音节取样中的目标话音音节顺序进行操作;
对作为与汉语模型相符的目标话音音节顺序一致的汉字顺序的目标话音取样进行表示;和
对作为与目标话音音节相符的顺序一致的汉字顺序的目标话音取样进行表示。
3.一种汉语普通话话音识别设备,包括:
一个话音信号滤波器,用于接收话音信号和产生经滤波的模拟信号;
一个模/数(A/D)转换器,用于将话音信号转换成数字话音信号;
一个计算机,该计算机与A/D转换器连接,用于接收和处理数字信号;
一个音调鉴频器,该鉴频器与计算机连接,用于对话音信号的音调频率特征进行检测,从而实现对话音信号的声音进行识别;
一个话音信号预处理器,该处理器与计算机连接,用于对话音信号的音节的结束点进行检测,从而实现对音节的开始和结束的确定;和
一个训练部分,该部分与计算机连接,用于对声母部分音素相似性向量(PSV)模型和韵母部分音素相似性向量(PSV)模型进行训练并用于根据声母部分音素相似性向量(PSV)模型和韵母部分音素相似性向量(PSV)模型的训练出的参数对音节模型进行训练。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP35145299A JP2001166789A (ja) | 1999-12-10 | 1999-12-10 | 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置 |
JP351452/1999 | 1999-12-10 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1300049A true CN1300049A (zh) | 2001-06-20 |
Family
ID=18417388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN00134525A Pending CN1300049A (zh) | 1999-12-10 | 2000-12-11 | 汉语普通话话音识别的方法和设备 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20010010039A1 (zh) |
JP (1) | JP2001166789A (zh) |
CN (1) | CN1300049A (zh) |
SG (1) | SG97998A1 (zh) |
TW (1) | TW487902B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1312656C (zh) * | 2002-09-24 | 2007-04-25 | 松下电器产业株式会社 | 说话人标准化方法及用该方法的语音识别装置 |
CN102163428A (zh) * | 2011-01-19 | 2011-08-24 | 无敌科技(西安)有限公司 | 汉语发音判断方法 |
CN101702314B (zh) * | 2009-10-13 | 2011-11-09 | 清华大学 | 基于语种对的鉴别式语种识别模型建立方法 |
CN1645478B (zh) * | 2004-01-21 | 2012-03-21 | 微软公司 | 用于音调语言的分段音调建模 |
CN105609105A (zh) * | 2014-11-13 | 2016-05-25 | 现代自动车株式会社 | 语音识别系统和语音识别方法 |
CN109754784A (zh) * | 2017-11-02 | 2019-05-14 | 华为技术有限公司 | 训练滤波模型的方法和语音识别的方法 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100474253B1 (ko) * | 2002-12-12 | 2005-03-10 | 한국전자통신연구원 | 단어의 첫 자음 발성을 이용한 음성인식 방법 및 이를 저장한 기록 매체 |
US8229744B2 (en) * | 2003-08-26 | 2012-07-24 | Nuance Communications, Inc. | Class detection scheme and time mediated averaging of class dependent models |
US20080120108A1 (en) * | 2006-11-16 | 2008-05-22 | Frank Kao-Ping Soong | Multi-space distribution for pattern recognition based on mixed continuous and discrete observations |
JP4962962B2 (ja) * | 2007-09-11 | 2012-06-27 | 独立行政法人情報通信研究機構 | 音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造 |
TW200926140A (en) * | 2007-12-11 | 2009-06-16 | Inst Information Industry | Method and system of generating and detecting confusion phones of pronunciation |
ES2540995T3 (es) * | 2010-08-24 | 2015-07-15 | Veovox Sa | Sistema y método para reconocer un comando de voz de usuario en un entorno con ruido |
CN103236260B (zh) * | 2013-03-29 | 2015-08-12 | 京东方科技集团股份有限公司 | 语音识别系统 |
US9785706B2 (en) * | 2013-08-28 | 2017-10-10 | Texas Instruments Incorporated | Acoustic sound signature detection based on sparse features |
EP2884434A1 (en) * | 2013-12-10 | 2015-06-17 | Televic Education NV | Method and device for automatic feedback generation |
US20150179169A1 (en) * | 2013-12-19 | 2015-06-25 | Vijay George John | Speech Recognition By Post Processing Using Phonetic and Semantic Information |
US10607601B2 (en) * | 2017-05-11 | 2020-03-31 | International Business Machines Corporation | Speech recognition by selecting and refining hot words |
CN109887494B (zh) * | 2017-12-01 | 2022-08-16 | 腾讯科技(深圳)有限公司 | 重构语音信号的方法和装置 |
CN108182937B (zh) * | 2018-01-17 | 2021-04-13 | 出门问问创新科技有限公司 | 关键词识别方法、装置、设备及存储介质 |
CN112883443B (zh) * | 2021-01-12 | 2022-10-14 | 南京维拓科技股份有限公司 | 一种基于几何的零部件模型相似度的判断方法 |
CN118506767B (zh) * | 2024-07-16 | 2024-10-15 | 陕西智库城市建设有限公司 | 一种用于智慧物业的语音识别方法及系统 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5220639A (en) * | 1989-12-01 | 1993-06-15 | National Science Council | Mandarin speech input method for Chinese computers and a mandarin speech recognition machine |
JP2834260B2 (ja) * | 1990-03-07 | 1998-12-09 | 三菱電機株式会社 | 音声のスペクトル包絡パラメータ符号化装置 |
JP3050934B2 (ja) * | 1991-03-22 | 2000-06-12 | 株式会社東芝 | 音声認識方式 |
SE513456C2 (sv) * | 1994-05-10 | 2000-09-18 | Telia Ab | Metod och anordning vid tal- till textomvandling |
US5793891A (en) * | 1994-07-07 | 1998-08-11 | Nippon Telegraph And Telephone Corporation | Adaptive training method for pattern recognition |
GB2308002B (en) * | 1994-09-29 | 1998-08-19 | Apple Computer | A system and method for determining the tone of a syllable of mandarin chinese speech |
US5787230A (en) * | 1994-12-09 | 1998-07-28 | Lee; Lin-Shan | System and method of intelligent Mandarin speech input for Chinese computers |
US5680510A (en) * | 1995-01-26 | 1997-10-21 | Apple Computer, Inc. | System and method for generating and using context dependent sub-syllable models to recognize a tonal language |
US5717826A (en) * | 1995-08-11 | 1998-02-10 | Lucent Technologies Inc. | Utterance verification using word based minimum verification error training for recognizing a keyboard string |
US6067520A (en) * | 1995-12-29 | 2000-05-23 | Lee And Li | System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models |
US5764851A (en) * | 1996-07-24 | 1998-06-09 | Industrial Technology Research Institute | Fast speech recognition method for mandarin words |
-
1999
- 1999-12-10 JP JP35145299A patent/JP2001166789A/ja active Pending
-
2000
- 2000-12-08 US US09/731,716 patent/US20010010039A1/en not_active Abandoned
- 2000-12-08 TW TW089126258A patent/TW487902B/zh active
- 2000-12-08 SG SG200007288A patent/SG97998A1/en unknown
- 2000-12-11 CN CN00134525A patent/CN1300049A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1312656C (zh) * | 2002-09-24 | 2007-04-25 | 松下电器产业株式会社 | 说话人标准化方法及用该方法的语音识别装置 |
CN1645478B (zh) * | 2004-01-21 | 2012-03-21 | 微软公司 | 用于音调语言的分段音调建模 |
CN101702314B (zh) * | 2009-10-13 | 2011-11-09 | 清华大学 | 基于语种对的鉴别式语种识别模型建立方法 |
CN102163428A (zh) * | 2011-01-19 | 2011-08-24 | 无敌科技(西安)有限公司 | 汉语发音判断方法 |
CN105609105A (zh) * | 2014-11-13 | 2016-05-25 | 现代自动车株式会社 | 语音识别系统和语音识别方法 |
CN109754784A (zh) * | 2017-11-02 | 2019-05-14 | 华为技术有限公司 | 训练滤波模型的方法和语音识别的方法 |
CN109754784B (zh) * | 2017-11-02 | 2021-01-29 | 华为技术有限公司 | 训练滤波模型的方法和语音识别的方法 |
US11211052B2 (en) | 2017-11-02 | 2021-12-28 | Huawei Technologies Co., Ltd. | Filtering model training method and speech recognition method |
Also Published As
Publication number | Publication date |
---|---|
JP2001166789A (ja) | 2001-06-22 |
US20010010039A1 (en) | 2001-07-26 |
TW487902B (en) | 2002-05-21 |
SG97998A1 (en) | 2003-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11056097B2 (en) | Method and system for generating advanced feature discrimination vectors for use in speech recognition | |
CN1300049A (zh) | 汉语普通话话音识别的方法和设备 | |
CN107945805B (zh) | 一种智能化跨语言语音识别转化方法 | |
Tiwari | MFCC and its applications in speaker recognition | |
CN102231278B (zh) | 实现语音识别中自动添加标点符号的方法及系统 | |
CN101136199B (zh) | 语音数据处理方法和设备 | |
Kumar et al. | Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm | |
CN1167045C (zh) | 语音识别的方法和装置 | |
CN112397054B (zh) | 一种电力调度语音识别方法 | |
CN103065629A (zh) | 一种仿人机器人的语音识别系统 | |
CN1991976A (zh) | 基于音素的语音识别方法与系统 | |
NZ331431A (en) | Speech processing via voice recognition | |
JPH09500223A (ja) | 多言語音声認識システム | |
JPH07110695A (ja) | 音声符号化装置および方法 | |
CN102237083A (zh) | 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法 | |
Pao et al. | Combining acoustic features for improved emotion recognition in mandarin speech | |
Dave et al. | Speech recognition: A review | |
Grewal et al. | Isolated word recognition system for English language | |
CN1588535A (zh) | 嵌入式语音识别系统的自动语音识别处理方法 | |
Unnibhavi et al. | LPC based speech recognition for Kannada vowels | |
Zolnay et al. | Extraction methods of voicing feature for robust speech recognition. | |
Sharma et al. | Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art | |
Tian et al. | Nonspeech segment rejection based on prosodic information for robust speech recognition | |
Bansod et al. | Speaker Recognition using Marathi (Varhadi) Language | |
Sailaja et al. | Text independent speaker identification with finite multivariate generalized gaussian mixture model and hierarchical clustering algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |