CN1110789C - 有集成化音调分类器的连续汉语普通话语音识别系统 - Google Patents
有集成化音调分类器的连续汉语普通话语音识别系统 Download PDFInfo
- Publication number
- CN1110789C CN1110789C CN95196342A CN95196342A CN1110789C CN 1110789 C CN1110789 C CN 1110789C CN 95196342 A CN95196342 A CN 95196342A CN 95196342 A CN95196342 A CN 95196342A CN 1110789 C CN1110789 C CN 1110789C
- Authority
- CN
- China
- Prior art keywords
- tone
- confidence
- degree
- input
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000005520 cutting process Methods 0.000 claims description 35
- 238000000034 method Methods 0.000 claims description 25
- 230000005055 memory storage Effects 0.000 claims description 13
- 230000008878 coupling Effects 0.000 claims description 12
- 238000010168 coupling process Methods 0.000 claims description 12
- 238000005859 coupling reaction Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 3
- 230000007774 longterm Effects 0.000 abstract 6
- 241001672694 Citrus reticulata Species 0.000 abstract 1
- 230000003190 augmentative effect Effects 0.000 abstract 1
- 230000005236 sound signal Effects 0.000 description 22
- 238000005516 engineering process Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000007935 neutral effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000000630 rising effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008707 rearrangement Effects 0.000 description 2
- 230000033772 system development Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
一种包括一个麦克风、A/D转换器、一种音节识别系统、一种集成化音节分类器和一种置信度累加器的连续汉语普通话语音识别系统。该音节识别系统产生N个最佳假设及其初始置信度。该集成化音节分类器有一个估值输入语言基音一次的基音估值器和一个按照N个最佳假设之一的音节划分来切分估值基音的长时音调器。该长时音调分类器对于已切分的估值基音进行长时音调分析并产生一个长时音调置信度信号。置信度累加器接收该初始置信度和该长时音调置信度信号,按照相应的长时音调置信度信号修正每个初始置信度,按照累加的置信度重新排列这N个最佳假设,并输出这N个最佳假设。
Description
技术领域:
本发明总的来说涉及语音识别系统,特别是,本发明涉及识别连续汉语普通话语音的系统和方法。本发明进一步涉及用集成化声调分类器来识别一种有调语言的连续语音的系统和方法。
背景技术
汉语普通话和其它有调语言的语音识别系统遇到了独特的难题,这些难题在象罗马语或德语这样的无调语言中是没有的。汉语普通话是一种有调音节语言,每个音节被赋予一个音调。在汉语普通话中,有4个词汇性(lexical)音调(阴平、阳平、上声和去声)和一个中性声调。音调是由音频信号的基频曲线或基音曲线来表征的。基音与基频等价,基音曲线与基频曲线等价。代表汉语普通话音调的电信号示例波形由图1A,1B,1C,1D和1E表示。音调和音节共同决定一个音节的含义。由相同的语音结构,而具有不同的音调的音节常常具有很不同的含义。这样,为了准确识别汉语普通话语音音频信号,一个语音识别系统必须识别每个音节的音调和音节。
有许多与识别无调语言的系统相类似的现有系统,它能有效地分析和辨识了汉语普通话语音的弧立音节。这些系统非常成功地准确识别了弧立音节。这些现有系统通常首先识别音节,然后再完成音调分析。系统综合两步的结果来识别输入语音。
现有的连续汉语普通话语音识别系统还远不如弧立音节语音识别系统成功。连续语音识别系统一定要识别连续输入语音中的连在一起的多个音节中的每个音节和音调。
现有连续语音识别系统首先将输入语音分割或切分成有假想时间段(alignment)的一固定音段序列。将输入语音切分成音段的步骤是非常关键的,因为切分错误会传播并影响音节和音调的识别结果。然而,还没有能正确切分连续汉语普通话语音的切分方法使得该方法能够产生令人满意的切分准确率。
一旦这些现有系统切分了输入语音,它们通常依据假想的分段用弧立音节识别器和独立的音调识别器来辨识每个有调音节。这种分析显然依赖于切分步骤。这些系统还有一个问题,短时音调分析不能提供足够的频率分辨率来正确地辨识基音(基频)曲线的特征。而且,从一个音节到下一个音节,音节的音调可能移动超过了3个八度。为了克服短时音调分析的不足和音调的复杂特征,需要长时音调分析来准确地为基音曲线建模。但是,长时音调分析对切分错误很敏感。而且,长时音调分析也非常耗时。耗时特征对实现实时语音应用的语音识别系统来说是尤其重要的。
为了降低切分错误对最终识别结果的影响,现有连续语音识别系统对一个输入语音提供多个可能的辨识结果。这样的系统确定一个输入发音的多个候选,并产生N个最佳候选或识别结果的输出信号。一个识别结果习惯上称为一个假设(theory)。这些系统经常对每个可能的识别结果产生一个初始置信度。每个置信度表明假设与输入符合的准确程度。通常,最高置信度的识别结果被接受为正确的识别结果。这些语音识别系统由于计算量的原因,没有利用长时音调分析。当需要对N个最佳的假设的每一个做长时音调分析时就更为耗时了。
产生多个可能识别结果的连续语音识别系统仍有一个难题,如何将长时音调分析与N个最佳识别器结合。这样,对于有调语言的连续语音,仍需要进行长时音调分析,使得由于切分错误造成的性能下降幅度为最小。
发明内容
本发明克服了现有连续汉语普通话语音识别系统和方法的不足和局限。本系统包括麦克风、A/D转换器、音节识别系统、集成化的音调分类器和置信度累加器。本系统从麦克风接收音频信号,并把音频信号转化为模拟电信号。A/D转换器将电信号数字化。
音节识别系统分析输入的连续汉语普通话语音、并产生N个最佳假设。每个假设分为一个或多个音节。音节识别系统确定每种切分模式的每个音节的语音结构,并可能进行短时音调分析来确定每个假设的每个音节的音调。一个切分模式是一种将输入语音分割成离散音节可能的划分方式。音节识别系统将识别出的每一个切分模式的音节和音调组合成为一个假设,并确定每一假设的初始置信度。初始置信度表明音节识别系统确定的假设的语音结构和音调与语言实际的语音结构和音调符合得有多好。音节识别系统按照初始置信度对各假设排序,并产生包括N个最佳假设及其初始置信度的输出。
集成化的音调分类器包括基音估值器和长时音调分析器。基音估值器接受从A/D转换器输出的数字化输入,并估计输入信号的基音。集成化的音调分类器只估计一次基音;这样减少了长时音调分析需要的计算时间。长时音调分析器接受来自于基音估值器的基音估计值和来自于音节识别系统的N个最佳假设。长时音节分析器按照每种假设的音节切分方式来切分估计出的基音,并决定切分出的基音(分段的)与语言的音调匹配得有多好。长时音调分析器为每一假设产生一个长时音调置信度信号。长时音调置信度信号表明这种假设的音节切分方式与语言的音调匹配得有多好。集成化的音调分类器将长时音调置信度信号输出到置信度累加器。
置信度累加器接收N个最佳假设、初始置信度和来自于集成化音节分类器的长时音调置信度信号。置信度累加器根据相应的长时音调置信度信号来修正每个假设的初始置信度。置信度累加器根据累加的置信度对各种假设重新排序,并且输出带有累加的置信度的重新排序的假设。
本发明也包括一种识别连续汉语普通话输入语音的方法。本方法开始用音节识别法产生N个最佳假设,也叫语音辨识,并可能包括短时音调分析技术。本方法估计输入信号的基音,然后按照一个假设的音节切分信息把估值的基音切分成单元。然后,用长时间音调分析技术来分析每一单元,并对每一假设产生一个长时音调置信度信号。本方法最后根据长时音调置信度信号修正由语音辨识和短时音调分析产生的初始置信度,并重新排序各假设。
附图说明
图1A、1B、1C、1D和1E是汉语普通话语音4个词法性音调和中性声调的电信号的图形表示;
图2是本发明识别连续汉语普通话语音的第一个实施例的框图;
图3是本发明识别连续汉语普通话语音的第二个实施例的框图;
图4是本发明第二个实施例中的语音识别单元的优选实施例的框图;
图5是本发明识别连续汉语普通话语音的优选方法的流程图。
具体实施方式
现在参见图1A、1B、1C、1D和1E,它们代表汉语普通话语音的4个词法性音调和1个中性声调的电信号的基频特征的图形表示。图1A、1B、1C、1D和1E表示的信号产生于人发出的音频信号。一个语音识别系统76从二个麦克风40中接受音频信号。麦克风40将音频信号转化为电信号。汉语普通话语音的每个音节都有一个音调。该音调是音节音频信号的基音或基频曲线。当音频信号转化为电信号时音调被保留下来。这样一个音节的音调指的是音频信号的基频曲线,或由音频信号转化而来的电信号的基频曲线的特点。
图1A、1B、1C、1D和1E以基频曲线对时间的函数画出了汉语普通话语音的音调。图1A表示的第一声信号90为高而平的音调(阴平)。图1B表示的第二声信号92为升调(阳平)。图1C表示第三声信号94有一种先降后升的特点(上声)。图1D表示第四声信号96,即汉语普通话语音中最末一个词法性音调,降调(去声)。最后,图1E表示第五声信号98是一个中性声调。
现在参见图2,给出了识别汉语普通话连续语音的系统76的第一个实施例的框图。系统76包括麦克风40、模数转换器42、音节识别系统50、集成化的音调分类器58、和置信度累加器56。系统76通过麦克风40接收连续汉语普通话语音的音频信号的输入。麦克风40为一能把音频信号转变为电信号的普通麦克风。麦克风40有一个接收音频信号的输入端和一个用于传输模拟电信号的输出端。麦克风40将音频信号转化为模拟电信号,并将模拟电信号传送到与麦克风40输出端耦合的线路60上。线路60又与模数转换器的输入端耦合。该模数转换器(A/D转换器)42是一个能将模拟电信号数字化的普通A/D转换器。该A/D转换器42有与线路60耦合的单一输入和与线路62耦合的单一输出。A/D转换器42将输入的模拟电信号转化为数字电信号,并将后者输出到线路62上。
线路62耦合到音节识别系统50的输入端和集成化的音调分类器58的第一个输入端。音节识别系统50接收来自A/D转换器42的数字输出信号,产生N个有初始置信度的最佳假设。音节识别系统50将假设及其置信度输出到与音节识别系统50输出端相耦合的线路68上。每一输出至少包含一个假设,即一个输入信号的可能的识别结果(一系列音节及其时间切分标志),和表征音节识别系统50正确识别输入信号程度的初始置信度。初始置信度表征音节识别系统50正确识别输入信号的程度有多种方式。例如,置信度可以取0到100以内的任一值。这种情况下,取值100时表示音节识别系统50最大的置信度,初始置信度取值越大表明可信程度越大。另一种方式,初始置信度可以取0到1范围内的任一值,0表示识别系统50的可信程度更高。这时,初始置信度取值越小可信程度越高。有许多不同的技术可以产生初始置信度,本领域的技术人员懂得这些技术。音节识别系统50可优选地产生多个带有初始置信度的假设,但仅仅输出N个最佳的假设。N是预定值,最好是由系统开发人员根据系统需要而设定。音节识别系统50最好采用位于California,Cupertino的苹果计算机公司的苹果Plaintalk汉语音节识别系统。音节识别系统50也可以采用中华人民共和国四达(Star)公司的基于音节的语音打字机。
线路62提供A/D转换器42的输出,并与集成化的音调分类器58的第一个输入端耦合。线路68耦合到集成化的音调分类器58的第二个输入端。包含有本发明的集成化音调分类器58的汉语普通话语音识别系统,克服了现有语音识别系统的不足和局限。特别是,集成化音调分类器58迅速而有效地把长时音调分析应用于音节识别系统50的输出端。长时音调分析允许整个系统76准确地决定输入语音的音调,因而,大大地提高了识别输入音频信号的正确率。
集成化音调分类器58优选地包含基音估值器52和长时音调分析器54。基音估值器52估计整个数字化输入信号的基音或基频。基音估值器52仅有一个输入信号,并做为集成化音调分类器58的第一个输入,这一输入耦合到线路62以接收数字输入信号。基音估值器52确定整个输入信号的基音,并将一个基音信号提供给长时音调分析器54。基音估值器52用傅利叶分析决定输入信号基频的特点。基音估值器52也可以用低通滤波器来确定输入信号的基音。还有许多其它技术可以用来确定输入信号的基音。本领域中的技术人员可以明白这些技术。基音估值器52优选地仅仅确定输入信号的基音一次。这样,本发明避免了重复确定音节识别系统50产生的N个最佳假设的基音所引起的高昂的计算成本。本发明首先有利地进行整个输入发音的基音估值,然后按照N个最佳假设的切分方式来以不同方式切分基音信号。这样,本发明克服了现有系统试图进行长时音调分析所引起不必要延迟的不足和局限。
基音估值器52的输出通过线路70耦合到长时音节分析器54的第一个输入,以便使长时音调分析器54接收估计出的基音信号。长时音调分析器54的第二个输入构成了集成化音调分类器58的第二个输入,并通过线路68接收来自音节识别系统50的N个最佳假设及其初始置信度。长时音调分析器54包括用于存储来自基音估值器52的估值基音信号的存储装置。长时音调分析器54优选地是仿照共同未决的美国专利申请,题目是“确定汉语普通话语音音节音调的系统和方法”中描述的系统,该申请在此被引为参考文献。长时音调分析器54也可以是依照Chin-Heng Li,Lin Shan Lee和Pei-Yih Ting的文章“用亚音节单元来识别带调汉语普通话音节的新的框架”的系统,文章发表于1993年IEEE会刊。长时音调分析器54按照来自音节识别系统50的N个最佳假设来切分估值基音信号为单元。每个单元的时长与一个假设中对应音节的时长相等。例如,对于最高级别的假设,长时音调分析器54将基音信号分割为数目与该假设中包含的音节数目相等的一些单元。每个单元的时长与对应音节的时长相等。这样,本发明由于采用音节识别系统50作为复杂切分器减少了切分错误的影响并允许对N个最佳假设中每一个进行不同的切分。音节识别系统50的输出是该系统能决定的N个最佳假设。通过按照N个最佳假设的音节分段信息切分基音信号,长时音调分析器54使用音节识别系统50已确定的N个最佳匹配的切分模式。集成化音调分类器58对已经优化切分的输入音频信号进行长时音调分析。这大大提高了识别正确率。
长时音调分析器54将每一单元与汉语普通话语音中的4个词法音调和一个中性音调相比较,产生一个指示单元与音调匹配程度的长时置信度信号。长时音调分析器54优选地采用共同未决的美国专利申请中描述的系统,该申请的题目是“确定汉语普通话语音音节音调的系统与方法”,在此将它引为参考文献。长时置信度信息被归一化以便使具有不同音节数目的假设的信号可以相比较。其它声调语言有不同数目的音调,对这些语言,长时音调分析器54将这些单元与该声调语言的所有音调比较。然后长时音调分析器54在连接至其输出端的线路72上为N个最佳假设的每一个输出其长时音调置信度信号。长时音调分析器54的输出构成集成化音调分类器58的输出。
线路72耦合到置信度累加器56的第一个输入端。线路68既耦合于音节识别系统50的输出端,又耦合于置信度累加器56的第二个输入端。置信度累加器56根据集成化音调分类器58产生的长时音调置信度信号来修正来自于音节识别系统50的初始置信度。例如,置信度累加器56可以将相应的长时音调置信度与每个初始置信度相加来调整初始置信度。更为具体地,置信度累加器56输出的累加置信度可以是50%的初始置信度与50%的长时音调置信度之和。系统开发可以根据需要调整初始置信度与长时置信度加权的百分比从而计入集成化音调分类器58在整个识别中所提供的权重。有许多种组合初始置信度与长时音调置信度的不同技术。本领域的技术人员会明白这些技术。然后置信度累加器56按它们累加的置信度重新排列N个最佳假设并在线路74上输出结果。线路74可以耦合到一个查找表上,并从那里连接到内存,正如在一个听写机中一样,或是连接到一个显示装置,或连接到两者。
现在参阅图3,给出的方框图是第二个且为优选的依照本发明构造的用于识别汉语普通话连续语音的系统10的实施例。系统10优选地包括输入装置12、输出装置14、中央处理单元(CPU)16、存储装置18和语音识别单元20。输入装置12、输出装置14、中央处理单元16和存储装置18通过冯·诺依曼型体系结构,如在个人计算机中的总线22耦合到一起。中央处理单元(CPU)16优选地为如摩托罗拉68040的微处理器。输出装置14优选地为一视频监视器。存储装置18包括存储数据和程序指令步骤的随机存储器(RAM)和只读存储器(ROM)。输入装置12包括键盘、鼠标控制器、麦克风和A/D转换器。在优选的实施例中,系统10为来自加州的Cupertino的苹果计算机公司的麦金托什Quatra 840AV计算机系统。本领域的技术人员会明白本系统也可以在IBM个人计算机或其它计算机上实现。
在优选的实施例中,语音识别单元20是与总线22耦合的存储器,其中存有可由CPU16运行的一套程序指令步骤来识别汉语普通话连续语音。本发明的系统10通过输入装置12的麦克风接收汉语普通话连续语音音频信号。语音识别单元20分析输入语音并产生相应的N个最佳识别结果。语音识别单元20优选地接收并分析输入信号,产生多个可能的输入信号识别结果的输出信号。每个输出信号包括一个被识别出的输入信号,称为一个假设,和一个初始置信度。初始置信度表明语音识别单元20产生的假设是输入信号的正确识别结果的可信程度,并由一个置信度累加器24,如图4中所示,按照来自集成化音调分类器32的信号来调整初始置信度。优选地,语音识别单元20产生一个或多个假设并按照初始置信度排列这些假设。
现参阅图4,该图表示了语音识别单元20的方框图。语音识别单元20包括一个置信度累加器24、一个音节识别系统30和集成化的音调分类器32。音节识别系统30接收数字输入信号并产生N个最佳假设及其伴随的初始置信度。音节识别系统30优选地采用加州Cupertino的苹果计算机公司的苹果Plaintalk汉语音节识别系统。像以往在图2中讨论过的,音节识别系统30决定每个切分模式中的每个部分的语音结构,并可能进行短时音调分析。音节识别系统30产生每个假设的初始置信度并按照初始置信度排列这些假设。然后音节识别系统30产生一个信号将N个最佳假设及其初始置信度通过总线22传递到集成化音调分类器32和置信度累加器24。
集成化音调分类器32与总线22耦合并从A/D转换器接收数字输入信号以及来自于音节识别系统30的N个最佳假设。集成化音调分类器32包括一个基音估值器38和一个长时音调分析器39。基音估值器38估值整个输入信号的基音并将结果传递到长时音调分析器39。该估值器优选地仅仅估值一次基音。因为仅仅估值一次基音,集成化音调分类器32大大的加速了对N个最佳假设的长时分析过程。长时音调分析器39按照音节识别系统30产生的N个最佳假设的音节划分来切分估值基音,确定N个最佳假设中每个音节的音调并产生每个假设的长时音调置信度。集成化音调分类器32的输出耦合到总线22并由此将在总线22上的长时音调置信度传递到置信度累加器24。
置信度累加器24有第一输入和第二输入端,都与总线22耦合,它们分别接收来自于集成化音调分类器32的长时音调置信度和来自于音节识别器30的N个最佳假设及其初始置信度。置信度累加器24按照长时音调置信度来调整相应的初始置信度,按照累加的置信度重新排列这些假设,并产生一个信号来输出N个具有累加置信度的最佳假设。置信度累加器24耦合到总线22来输出具有累加后的置信度N个最佳假设。
现参阅图5,该图表示使用本发明的汉语普通话连续语音的优选分析方法的流程图。该方法从步骤100开始,系统10接收汉语普通话连续语音输入信号。在步骤102,输入装置12的麦克风将音频信号转换为模拟电信号,输入装置12的A/D转换器将输入信号数字化。在步骤104,音节识别系统30处理输入信号并产生具有相应的初始置信度的多个假设。音节识别系统30按照初始置信度输出N个最佳假设。系统开发者可根据应用系统的要求来决定N的数值。如果音节识别系统30不能产生输入信号的多于N个的假设,它就输出它所能产生的所有假设,并按照初始置信度排列它们。
在步骤106,基音估值器38接收来自于输入装置12的数字输入信号并估值输入信号的基音。本方法优选地仅估值基音一次,因为基音估值的计算量非常大。本发明克服了现有系统的不足,本发明用长时音调分析来避免多次基音估值的计算开销。本领域的技术人员明白步骤104和步骤106可以同时进行。基音估值器38用傅利叶分析或低通滤波器来估计输入信号的基频。本领域的技术人员明白基音估值也可以采取许多其它方法。在步骤108,长时音调分析器109从基音估值器38中接收估值的基音并存储之。
在步骤110中,长时音调分析器39按照N个最佳假设的音节分段信息来把估值基音切分为单元。这样,集成音调分类器32用音节识别器30做为专业切分器,将输入音节分割为可靠的音节分段,以便进行长时音调分析。音节识别系统30提供已非常接近正确切分的N个最佳假设。通过利用音节识别系统30来将估值基音切分为多个音节分段,本发明减少了切分错误的影响。然后在步骤112中,长时音调分析器39将基音单元与语言的音调模型比较。长时音调分析器54优选地采用在共同未决的美国专利申请中的方法,该申请的名称为“决定汉语普通话语音音节音调的系统和方法”,在此将其引为参考文献。在步骤114中,长时音调分析器39产生每个假设的长时音调置信度。长时音调置信度信号表明基音单元与语言的音调模型符合的程度。就像其它置信度一样,长时音调置信度信号需进行归一化,以便具有不同音节数目的假设的长时音调置信度可以相互比较。
然后,在116步骤中,置信度累加器24接收到来自于音节识别系统30的假设及其初始置信度和来自于集成化音调分类器32的长时音调置信度。置信度累加器24依照相应于该假设的长时音调置信度修正每个假设的初始置信度。然后置信度累加器24,在步骤118中,根据累加的置信度对假设重新排序。最后,在步骤120中,置信度累加器24为语音识别系统10产生输出N个最佳假设及其累加置信度的信号。本方法至此结束。
虽然本发明是参考一些优选实施例描述的,但本领域的技术人员在此基础上会做出各种改进。不要求用更大的正的数值的初始置信度和音调置信度来表示更大的可信程度。初始置信度可以按照任何一种方式累加,不只局限于初始置信度加上长时音调置信度。而且,本发明可用来识别任何有调语言,如广东方言,而不局限于汉语普通话。本发明也可同手写体识别系统和其它数据识别系统一起使用。这些或其它对于该优选实施例的变动和改进都由本发明提供。
Claims (17)
1.一种完成对于有调语言的连续语音输入信号的长时音调分析的集成化音调分类器,该集成化音调分类器包括:
一个基音估值器,有一个接收输入信号的输入端和一个输出端,用于估计输入信号的基音曲线;以及
一个长时音调分析器,有一个与基音估值器输出端耦合的输入端和构成该集成化音调分类器输出端的输出端,用于将估值器产生的估值基音曲线切分为单元并对这些分段估值基音单元进行长时音调分析。
2.权利要求1所述的系统,其中该基音估值器包括:
一个处理器,有与长时音调分析器的输入和输出端相耦合的输入和输出端,用来执行程序指令步骤;以及
一个第一存储装置,有与该处理器输入和输出端相耦合的输入和输出端,用来存储该处理器可执行的并用于估计输入信号基音曲线的程序指令步骤。
3.权利要求2所述的系统,其中该长时音调分析器包括一个第二存储装置,有与该处理器输入和输出端以及该第一存储装置的输入输出端相耦合的输入和输出端,用来存储可被该处理器执行,用来将由基音估值器产生的估值基音曲线切分为单元并对这些切分的估值基音单元进行长时音调分析的程序指令步骤。
4.一种识别有调语言的连续语音输入信号的系统,该系统包括:
一个音节识别系统,有一个输入和一个输出,用来确定音节的语音结构,用来完成输入信号的短时音调分析,并用来产生N个最佳假设及其初始置信度,音节识别系统的输入通过耦合来接收输入信号;以及
一个集成化音调分类器,有第一输入端、第二输入端和一个输出端,第一输入通过耦合接收输入信号,第二输入耦合到音节识别系统的输出以便接收有初始置信度的N个最佳假设,用来完成长时音调分析以便确定这些假设的音节的音调,并用来产生每个假设的长时音调置信度。
5.权利要求4的系统,其中该集成化音调分类器包括:
一个基音估值器,具有一个通过耦合接收输入信号的输入端和一个输出端,用来估计输入信号的基音曲线;以及
一个长时音调分析器,具有与该基音估值器一个输出相耦合的第一输入端、与音节识别系统一个输出相耦合的第二输入端和一构成集成化音调分类器输出的输出端,用来按照音节识别系统的输出将由基音估值器产生的基音估值曲线切分为单元,并用来完成对切分的估值基音单元的长时音调分析。
6.权利要求5的系统,其中长时音调分析器产生一个表明切分的估值基音曲线单元与有调语言音调匹配符合程度的长时音调置信度。
7.权利要求6的系统,进一步包括一个置信度累加器,有与集成化音调分类器的输出相耦合的第一输入端和与音节识别系统的输出相耦合的第二输入端,用来根据由该集成化音调分类器产生的长时音调置信度,修正由音节识别系统产生的初始置信度,并产生一个累加置信度。
8.权利要求7的系统,其中置信度累加器包括:
一个处理器,有与长时音调分析器的输入和输出、基音估值器的输入和输出、以及音节识别系统的输入和输出相耦合的输入端和输出端,用来执行程序指令步骤;以及
一个第一存储装置,有与该处理器输入和输出,该长时音调分析器的输入和输出,该基音估值器的输入和输出、和该音节识别系统的输入和输出相耦合的输入端和输出端,用来存储可由该处理器执行,根据由集成化音调分类器产生的长时音调置信度,来修正由该音节识别系统产生的初始置信度的程序指令步骤。
9.权利要求8的系统,其中该音节识别系统包括一个第二存储装置,有与该处理器的输入和输出,该第一存储装置的输入和输出,和该集成化音调分类器的输入和输出相耦合的输入端和输出端,用来存贮可由该处理器执行的完成输入信号的短时音调分析的程序指令步骤,以及用来产生具有初始置信度的N个最佳假设。
10.权利要求9的系统,其中该集成化音调分类器包括一个第三存储装置,有与该处理器的输入和输出,该第一存储装置的输入和输出,和该第二存储装置的输入和输出相耦合的输入端和输出端,用来存储可被该处理器执行的程序指令步骤,来接收有初始置信度的N个最佳假设来完成长时音调分析以便决定假设中每一个音节的音调,并产生每个假设的长时音调置信度。
11.权利要求7的系统,其中该置信度累加器用长时音调置信度与初始置信度相加来产生累加置信度。
12.权利要求7的系统,其中该置信度累加器按照累加置信度来重新排列N个最佳假设。
13.一种识别有调语言连续语音输入信号的方法,该方法包括以下步骤:
确定有初始置信度的N个最佳假设;
估值输入信号的基音曲线;
按照N个最佳假设的每一个将基音曲线切分为单元;
比较这些单元与有调语言的音调模型;
产生每个假设的长时置信度信号,该长时置信度表明一个假设的单元与有调语言的音调模型匹配的符合程度;以及
按照长时音调置信度信号修正初始置信度并产生累加置信度。
14.权利要求13的方法,进一步包括以下步骤:
按照累加置信度排列N个最佳假设;以及
产生包含有累加置信度的输出信号的N个最佳假设。
15.一种识别有调语言连续语音输入信号的系统,包括:
确定有初始置信度的N个最佳假设的装置,
估计输入信号基音曲线的装置;
按照N个最佳假设的每一个将基音曲线切分为单元的装置;
将这些单元与有调语言的音调模型相比较的装置;以及
按照长时音调置信度信号修正初始置信度以产生累加置信度的装置。
16.权利要求15的系统,进一步包括产生每个假设的长时音调置信度的装置。
17.权利要求16的系统,进一步包括:
按照累加置信度排列N个最佳假设的装置;以及
产生包含有累加置信度的N个最佳假设的输出信号的装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/316,257 US5602960A (en) | 1994-09-30 | 1994-09-30 | Continuous mandarin chinese speech recognition system having an integrated tone classifier |
US08/316,257 | 1994-09-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1166886A CN1166886A (zh) | 1997-12-03 |
CN1110789C true CN1110789C (zh) | 2003-06-04 |
Family
ID=23228267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN95196342A Expired - Lifetime CN1110789C (zh) | 1994-09-30 | 1995-09-29 | 有集成化音调分类器的连续汉语普通话语音识别系统 |
Country Status (6)
Country | Link |
---|---|
US (1) | US5602960A (zh) |
CN (1) | CN1110789C (zh) |
AU (1) | AU3893295A (zh) |
GB (1) | GB2308003B (zh) |
HK (1) | HK1005670A1 (zh) |
WO (1) | WO1996010819A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102479510A (zh) * | 2010-11-24 | 2012-05-30 | 株式会社东芝 | 用于生成语音标签的方法和装置 |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6067520A (en) * | 1995-12-29 | 2000-05-23 | Lee And Li | System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models |
CN1120436C (zh) * | 1997-09-19 | 2003-09-03 | 国际商业机器公司 | 用于识别孤立、非相关汉字的语音识别方法和系统 |
US6260015B1 (en) * | 1998-09-03 | 2001-07-10 | International Business Machines Corp. | Method and interface for correcting speech recognition errors for character languages |
US7043430B1 (en) * | 1999-11-23 | 2006-05-09 | Infotalk Corporation Limitied | System and method for speech recognition using tonal modeling |
US6553342B1 (en) | 2000-02-02 | 2003-04-22 | Motorola, Inc. | Tone based speech recognition |
WO2002029616A1 (en) * | 2000-09-30 | 2002-04-11 | Intel Corporation | Method, apparatus, and system for bottom-up tone integration to chinese continuous speech recognition system |
US7353173B2 (en) * | 2002-07-11 | 2008-04-01 | Sony Corporation | System and method for Mandarin Chinese speech recognition using an optimized phone set |
US7230176B2 (en) * | 2004-09-24 | 2007-06-12 | Nokia Corporation | Method and apparatus to modify pitch estimation function in acoustic signal musical note pitch extraction |
US7962327B2 (en) * | 2004-12-17 | 2011-06-14 | Industrial Technology Research Institute | Pronunciation assessment method and system based on distinctive feature analysis |
US7949533B2 (en) * | 2005-02-04 | 2011-05-24 | Vococollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US7827032B2 (en) | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
US7895039B2 (en) * | 2005-02-04 | 2011-02-22 | Vocollect, Inc. | Methods and systems for optimizing model adaptation for a speech recognition system |
US8200495B2 (en) | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
US7865362B2 (en) * | 2005-02-04 | 2011-01-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
EP1693828B1 (en) * | 2005-02-21 | 2008-01-23 | Harman Becker Automotive Systems GmbH | Multilingual speech recognition |
US20060293890A1 (en) * | 2005-06-28 | 2006-12-28 | Avaya Technology Corp. | Speech recognition assisted autocompletion of composite characters |
US8249873B2 (en) * | 2005-08-12 | 2012-08-21 | Avaya Inc. | Tonal correction of speech |
US7970613B2 (en) | 2005-11-12 | 2011-06-28 | Sony Computer Entertainment Inc. | Method and system for Gaussian probability data bit reduction and computation |
US7778831B2 (en) * | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
US20080120108A1 (en) * | 2006-11-16 | 2008-05-22 | Frank Kao-Ping Soong | Multi-space distribution for pattern recognition based on mixed continuous and discrete observations |
JP5025550B2 (ja) * | 2008-04-01 | 2012-09-12 | 株式会社東芝 | 音声処理装置、音声処理方法及びプログラム |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US9484027B2 (en) * | 2009-12-10 | 2016-11-01 | General Motors Llc | Using pitch during speech recognition post-processing to improve recognition accuracy |
US9070360B2 (en) * | 2009-12-10 | 2015-06-30 | Microsoft Technology Licensing, Llc | Confidence calibration in automatic speech recognition systems |
US8433570B2 (en) * | 2010-01-06 | 2013-04-30 | General Motors Llc | Method of recognizing speech |
US20110171617A1 (en) * | 2010-01-11 | 2011-07-14 | Ideographix, Inc. | System and method for teaching pictographic languages |
US8381119B2 (en) * | 2010-01-11 | 2013-02-19 | Ideographix, Inc. | Input device for pictographic languages |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
US8725498B1 (en) * | 2012-06-20 | 2014-05-13 | Google Inc. | Mobile speech recognition with explicit tone features |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
US9269352B2 (en) * | 2013-05-13 | 2016-02-23 | GM Global Technology Operations LLC | Speech recognition with a plurality of microphones |
US10714121B2 (en) | 2016-07-27 | 2020-07-14 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5220639A (en) * | 1989-12-01 | 1993-06-15 | National Science Council | Mandarin speech input method for Chinese computers and a mandarin speech recognition machine |
US5305421A (en) * | 1991-08-28 | 1994-04-19 | Itt Corporation | Low bit rate speech coding system and compression |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5305420A (en) * | 1991-09-25 | 1994-04-19 | Nippon Hoso Kyokai | Method and apparatus for hearing assistance with speech speed control function |
-
1994
- 1994-09-30 US US08/316,257 patent/US5602960A/en not_active Expired - Lifetime
-
1995
- 1995-09-29 AU AU38932/95A patent/AU3893295A/en not_active Abandoned
- 1995-09-29 GB GB9706563A patent/GB2308003B/en not_active Expired - Lifetime
- 1995-09-29 WO PCT/US1995/013076 patent/WO1996010819A1/en not_active Application Discontinuation
- 1995-09-29 CN CN95196342A patent/CN1110789C/zh not_active Expired - Lifetime
-
1998
- 1998-06-03 HK HK98104789A patent/HK1005670A1/xx not_active IP Right Cessation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5220639A (en) * | 1989-12-01 | 1993-06-15 | National Science Council | Mandarin speech input method for Chinese computers and a mandarin speech recognition machine |
US5305421A (en) * | 1991-08-28 | 1994-04-19 | Itt Corporation | Low bit rate speech coding system and compression |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102479510A (zh) * | 2010-11-24 | 2012-05-30 | 株式会社东芝 | 用于生成语音标签的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
GB2308003B (en) | 1998-08-19 |
HK1005670A1 (en) | 1999-01-22 |
WO1996010819A1 (en) | 1996-04-11 |
CN1166886A (zh) | 1997-12-03 |
GB9706563D0 (en) | 1997-05-21 |
AU3893295A (en) | 1996-04-26 |
GB2308003A (en) | 1997-06-11 |
US5602960A (en) | 1997-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1110789C (zh) | 有集成化音调分类器的连续汉语普通话语音识别系统 | |
CN1169115C (zh) | 语音合成系统及方法 | |
US6208971B1 (en) | Method and apparatus for command recognition using data-driven semantic inference | |
US5680510A (en) | System and method for generating and using context dependent sub-syllable models to recognize a tonal language | |
US6442519B1 (en) | Speaker model adaptation via network of similar users | |
EP0831456B1 (en) | Speech recognition method and apparatus therefor | |
US20020173955A1 (en) | Method of speech recognition by presenting N-best word candidates | |
US6567776B1 (en) | Speech recognition method using speaker cluster models | |
CN1591567A (zh) | 开放式词汇表语音识别 | |
EP2462586B1 (en) | A method of speech synthesis | |
CN111179917B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN111210807A (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
EP0689193A1 (en) | Speech recognition using dynamic features | |
US6963834B2 (en) | Method of speech recognition using empirically determined word candidates | |
CN1259631C (zh) | 使用韵律控制的中文文本至语音拼接合成系统及方法 | |
US6226610B1 (en) | DP Pattern matching which determines current path propagation using the amount of path overlap to the subsequent time point | |
US20020052733A1 (en) | Apparatus and method for speech synthesis | |
US5444817A (en) | Speech recognizing apparatus using the predicted duration of syllables | |
CN1113330C (zh) | 语音合成中的语音规整方法 | |
JP2002062892A (ja) | 音響分類装置 | |
EP0731447B1 (en) | Reference pattern training system and speech recognition system using the same | |
Wu et al. | Cohorts based custom models for rapid speaker and dialect adaptation | |
JPH08166796A (ja) | 連続音声認識のためのアクセント句境界検出装置 | |
JPH11133994A (ja) | 音声入力装置及びプログラムを記録した機械読み取り可能な記録媒体 | |
JPH10254477A (ja) | 音素境界検出装置及び音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C56 | Change in the name or address of the patentee |
Owner name: APPLE Free format text: FORMER NAME OR ADDRESS: APPLE COMPUTER, INC. |
|
CP03 | Change of name, title or address |
Address after: American California Patentee after: Apple Computer, Inc. Address before: American California Patentee before: Apple Computer, Inc. |
|
CX01 | Expiry of patent term |
Granted publication date: 20030604 |
|
EXPY | Termination of patent right or utility model |