CN1187693C - 以自底向上方式将声调集成到汉语连续语音识别系统中的方法和系统 - Google Patents
以自底向上方式将声调集成到汉语连续语音识别系统中的方法和系统 Download PDFInfo
- Publication number
- CN1187693C CN1187693C CNB008164835A CN00816483A CN1187693C CN 1187693 C CN1187693 C CN 1187693C CN B008164835 A CNB008164835 A CN B008164835A CN 00816483 A CN00816483 A CN 00816483A CN 1187693 C CN1187693 C CN 1187693C
- Authority
- CN
- China
- Prior art keywords
- speech
- tone
- level
- voice
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
Abstract
根据发明的一个方面,提供一种方法,其中关于带声调音节语言的声调特征的知识在自底向上识别结构中被用来在多个层次上模拟话音。自底向上识别结构中的多个层次包含声学层次、语音层次、词层次和语句层次。在声学层次上音调被看作连续声学变量并且从话音信号中抽取的音调信息被作为特征向量的特征分量。在语音层次上具有相同语音结构但不同声调的主元音被定义和模拟成不同的音素。在词层次上使用一组声调变化规则建立训练数据的副本和解码的读音格。在语句层次上一组具有轻声的语句结束词被加到系统词汇表中。
Description
技术领域
本发明涉及语音识别领域。更具体地,本发明涉及以自底向上方式将声调集成到汉语连续语音识别系统中的方法、装置和系统。
背景技术
现代语音识别系统依据统计模式识别的原理并且通常使用声学模型和语言模型解码一个代表输入话音(例如一个语句或词串)的观测(也称作声学事件或声学信号)输入序列以便在指定观测输入序列的情况下确定最可能的语句或词序列。换言之,现代语音识别器的功能是搜索大量潜在或候选语句并且选择最有可能产生观测或声学事件输入序列的语句或词序列。通常,多数现代语音识别系统使用基于连续密度隐藏马尔可夫模型(CDHMM)的声学模型。
多数现有技术的基于HMM的语音识别系统使用图1所示的层次结构模拟不同层次的事件。根据语音在足够短的时间段内(5到100毫秒之间)在统计上处于稳定状态这一事实,各个窗口的声学层次输入话音被编码成特征向量。在语音层次上,通过隐藏马尔可夫模型(HMM)模拟与相同语音单元(例如音素)相关的声学特征分段。在词层次上,通过根据每个词在字典中的发音连接语音HMM来构成每个词的词格(lattice)。在语句层次上,最终动态建立一个具有词结点的搜索网络并且根据当前活跃路径和N元语言模型精减搜索网络。根据这种自底向上结构,有关声音、语音、词和语法的知识可以被装到识别系统中以便改进性能。
汉语语音识别系统基本上也是基于上述自底向上结构,就象英语和其它语言的自底向上结构那样。为了达到较高的识别准确度和系统性能,在设计汉语连续语音识别系统时必须考虑到并且利用汉语口语的某些特征(例如普通话,广东话等等)。汉语是带声调的音节语言。每个音节被指定四或五个声调中的一个。例如,普通话汉语中每个音节可以被指定以下四或五个声调中的一个:阴平声(这里称作一声),阳平声(这里称作二声),上声(这里称作三声),去声(这里称作四声)和中性声或轻声(这里称作五声)。某些音节没有五声。在汉语中声调对于区分含义而言有重要的作用。具有相同语音结构但具有不同声调的音节通常表达不同的意思。因而声调是汉语语音识别的基本要素。
几十年来声调识别已经成为汉语语音识别的焦点问题。一个普遍使用的方法是分别识别基音节(声母和韵母)和声调。通过传统的基于HMM的方法识别基音节,例如用于英语的方法。通过使用鉴别规则区分音节的音调轮廓(pitch contour)可以识别音节的声调。带声调音节的识别综合了基音节的识别和声调的识别。如果用于孤立音节语音识别,这种方法因各种原因而不适用于汉语连续语音识别任务。首先,在连续语音识别中,音节的边界是不清晰的。在整个识别过程结束时才确定边界。在声音识别的早期阶段提供音节边界信息是非常困难的。其次,具有五声中的一个声调的音节的实际声调轮廓取决于语音环境。能够根据音调轮廓确定声调的规则将会非常复杂。
近年来,人们为把声调集成到汉语连续语音识别系统中付出了各种努力。通过将音调看作一个与倒谱(ceptra)或能量相同的声学参数,这些系统对性能进行了改进。然而这些系统没有集成如系统综述所述的语音识别其它层次的声调知识。换言之,语音识别过程的其它层次的声调知识尚未被考虑到。
发明内容
本发明的目的在于提供以自底向上方式将声调集成到汉语连续语音识别系统中的方法、装置和系统。
本发明提供一种方法,包括:将一个表示带声调音节语言输入话音的输入信号转换成一组特征向量,该输入话音包括一或多个词,每个词包括一或多个音素,每个特征向量代表一帧输入话音并且包含一个含有对应帧的音调信息的音调特征;根据特征向量和一组语音统计模型确定输入话音中包含的音素,其中每个语音统计模型均代表一组带声调音素中的一个不同音素,具有相同的语音结构但不同的声调的音素被确定为不同的音素;并且根据确定出的音素,一组词统计模型和一组声调变化规则确定输入话音中包含的词,其中该转换步骤包括从输入信号中抽取音调参数。
本发明提供一种系统,包括:一个模数转换器;一个模型数据库,它包括一组语音统计模型,每个语音统计模型均代表一组带声调音素中的一个不同音素,具有相同的语音结构但不同的声调的音素被确定为不同的音素;一个特征抽取单元,该特征抽取单元将一个表示带声调音节语言输入话音的输入信号转换成一组特征向量,该输入话音包括一或多个词,每个词包括一或多个音素,每个特征向量代表一帧输入话音并且包含一个含有对应帧的音调信息的音调特征;和一个解码器单元,该解码器单元根据特征向量和语音统计模型进行语音识别以识别出输入话音中包含的音素,并且根据识别出的音素,一组词统计模型和一组声调变化规则进行词识别以识别出输入话音中包含的词序列。
附图说明
以下参照附图可以更全面地理解本发明的特征和优点,其中:
图1是示出语音识别中使用的自底向上层次结构的图例;
图2是关于基于本发明的语音识别系统的一个实施例的模块图;
图3示出了在平滑处理之前测量的音调轮廓的一个例子;
图4示出了在平滑处理之后测量的音调轮廓的一个例子;
图5是图解基于HMM的语音模型的图例;
图6示出了基于本发明的方法的一个实施例的流程图;
图7示出了基于本发明的方法的一个实施例的流程图。
具体实施方式
在下面的详细描述中,为了能够透彻理解本发明,对许多具体细节进行了描述。然而本领域技术人员可以理解,即使没有这些具体细节也能够理解和实现本发明。
在下面的讨论中,根据本发明实现一个按照自底向上结构向汉语连续语音识别系统提供声调集成的方法、装置、系统和机器可读介质。根据本发明,在自底向上识别结构中在各个层次上模拟声调知识及其影响。在声学层次上,音调被看作是一个连续声学变量。在一个实施例中,为了使从一个帧中得到的音调估测易于被高斯混合分布所模拟,两个有声部分被一个指数衰减函数连接并且加上一个随机噪声,而频域滤波器被提供给其余的闪光点(spark point)。在基于本发明一个实施例的典型实验中,把音调特征集成到特征帧中使词差错率(WER)从9.9%降低到8.5%。在语音层次上,一个具有不同声调的主元音被看作是不同的音素。某些轻声音素也被加到语音集中。在三音建立阶段,针对各个判决树结点评估一组涉及声调的问题。在根据本发明所进行的实验中,语音层次的声调集成使词差错率从8.5%降到7.8%。在词层次上,使用一组声调变化规则建立训练数据的副本和解码的词格。词层次上的声调集成也降低了识别过程中的词差错率(在根据本发明的实验中又降低了0.4%)。在语句层次上,某些具有轻声的语句结束词也被加到系统词汇表中。
在一个实施例中,一个表示带声调音节语言(例如普通话汉语)中一个输入话音的输入信号被转换成一组特征向量。输入话音包含一或多个词并且每个词包含一或多个音素。每个特征向量代表一帧输入话音并且包含一个含有对应帧的音调信息的音调特征。根据特征向量和一组语音统计模型确定输入话音中包含的音素。每个语音模型代表一组带声调音素中的一个不同音素。具有相同的语音结构但不同的声调的音素被认为是不同的音素并且被表示成不同的统计模型。接着根据识别的音素,一组词统计模型和一组声调变化规则确定输入话音中包含的词。在一个实施例中,每个语音统计模型均被表示成一个对应的隐藏马尔可夫模型(HMM)。在一个实施例中,对应的HMM是一个使用高斯混合分布表示与对应HMM中各个状态相关的观测概率函数的连续密度HMM。在一个实施例中,通过根据其在字典中的读音连接对应的语音HMM来构成每个词的词统计模型。在一个实施例中,使用平均值微分函数(AMDF)从输入信号中取出音调参数。在一个实施例中,音调特征包含所取出的音调数值,Mel频率倒谱系数(Mel-frequency CepstralCoefficients MFCC),取出的音调参数的第一和第二导数。在一个实施例中,按照以下方式平滑输入信号的音调轮廓:(1)计算输入信号中所有合法点的音调数值的分组平均(running average)值;(2)输入信号的开始处的音调数值被定义成分组平均值加一个随机噪声;(3)从有声部分到无声部分的切换处的音调数值被定义成关于分组平均值的指数衰减函数加随机噪声。在一个实施例中,输入信号通过一个频域低通滤波器以清除输入信号中的尖刺。本发明适用于任何汉语语音识别方案、方法和系统。然而本发明并不仅限于汉语语音识别,也可以应用于其它带声调音节语言的语音识别方法、方案和系统。
虽然这里对本发明的讨论以普通话汉语作为示例性带声调音节语言描述和解释了本发明的技术,但本领域技术人员应当理解,本发明的技术也适用于诸如广东话的其它汉语带声调音节语言和其它非汉语带声调音节语言。
如上所述,普通话汉语是带声调音节语言。普通话中有将近400个基音节(无声调)。多数基音节可以和四个或五个声调相关联。因此,普通话汉语中有将近1400个带声调音节。根据下面示出的规则,每个音节含有一个韵母部分并且可以或不可以含有一个声母部分:
音节→[声母]韵母
声母→辅音
韵母→[中音]元音[尾音]
中音→元音
尾音→{元音,鼻音}
根据前面的描述可以理解,一个音节的声母部分对应于一个单辅音,而一个音节的韵母部分可以是一个单元音,一个双元音,一个三元音,一个带鼻音结束的元音,一个带鼻音结束的双元音,等等。在一个基于本发明的实施例中,每个声母和每个韵母均被看成是一个单独的音素并且被模拟成一个对应的连续隐藏马尔可夫模型(HMM)。
本发明基于发明人的以下观察。从系统角度看,声调对自底向上识别结构中所有层次上的事件均有影响。在声学层次上,音调轮廓规定了五个词汇声调。在语音层次上,声调与韵母部分,尤其是与元音或鼻音元音相关联。并且本发明人发现一个音节的声调信息集中表现在音节的主元音的音调行为特性上。因此,主元音的音调信息足以确定整个音节的声调。对于连续普通话汉语,主元音附近的音调平均值和音调时间导数对于确定声调而言都很重要。并且在音调估测的准确度和平滑度之间存在平衡,尤其是在从有声部分到无声部分的边界上。在词层次上,根据语音环境,一个音节的声调可能发生变化。例如,当一起读出或讲出两个三声音节时,前一个音节的声调会被改变成后一个音节的声调。换言之,前一个音节的读音受到后面环境的影响。因而一个音节的音调轮廓的环境依赖性可以被表述成相邻主元音的音调轮廓的影响。并且,在语句层次上,不同的语句模式具有不同的轻声结束。
根据上述观察和自底向上集成的新概念,相应设计出一个对应的音素集合。如前所述,一个音节的每个声母和每个韵母部分均被看作是一个单独的音素并且同样被加以模拟。在一个实施例中,使用一个由23个声母和48个韵母构成的基本集合来设计基于本发明的带声调音素集合。没有与声母关联的声调。因而每个单独的声母均被模拟成一个单独的音素。对于48个韵母,某些韵母与五个声调相关联,而其它韵母与不足五个的声调相关联(例如某些韵母只有四个声调与之关联,等等)。具有相同的语音结构但不同的声调的韵母被定义和模拟成不同的音素。因而48个基韵母中的每个韵母均可以具有多达五个的对应带声调音素。因此,一个基本的带声调音素集合含有178个音素单元,其中48个基韵母中的每个韵母均具有多达五个的带声调音素。在一个实施例中,一些五声单元被加到某些通常不与五声关联的韵母的带声调音素集合中。通过加入这些五声单元,带声调音素集合中单元的数量从178增加到185。对于五声单元被加入其带声调音素集合的那些韵母,对应的词的带五声读音也被加到读音字典中。如上所述,在词层次上使用一组声调变化规则建立训练数据的副本和解码的读音格(pronunciation Lattice)。在一个实施例中,设计并实现9个声调变化规则对词层次上的声调影响模拟如下:
(a)3音节词有以下4个声调变化规则:
(1)333→223
(2)1*3→123
(3)2*3→223
(4)4*3→423
在以上描述中,规则“333→223”意味着那些有3个三声音节的词被读成前两个音节为二声而最后一个音节为三声(“223”)。规则“1*3→123”意味着一声音节(第一个一声音节)与三声音节(最后一个三声音节)之间的任意音节均被读成二声音节。类似地,规则“2*3→223”意味着二声音节(第一个二声音节)与三声音节(最后一个三声音节)之间的任意音节均被读成二声音节。因此,规则“4*3→423”意味着四声音节(第一个四声音节)与三声音节(最后一个三声音节)之间的任意音节均被读成二声音节。
(b)具有2个三声音节的词有下面1个规则:
33→23
这个规则意味着后面跟有另一个三声音节的三声音节被读成二声音节。
(c)具有一个一声音节“yi1”,“qi1”,或“ba1”(拼音表示法)并且后跟一个四声音节“bu4” (拼音表示法)的词具有4个规则,这些实例中的一声音节均被读成二声。
上述9个声调变化规则被用于建立训练数据的副本和解码的读音格。
对于语句层次上的声调集成,存在一些未被包含在原始读音字典中的语句结束词。另外,这些词在处于一个语句的结束位置时的读音变化未被包含在原始读音字典中。为利于语句层次上的声调集成,这些语句结束词及其对应的读音变化已经被加到读音字典中。
图2图解了关于基于本发明的语音识别系统200的一个实施例的模块图。如图2所示,系统200包含一个模数转换器(A/D)210,一个特征抽取器或频谱分析单元220,一个解码器230,一个声学模型240,和一个语言模型250。首先使用A/D 210对代表输入话音的输入信号250进行数字化。数字信号接着被分割到通常为10、15或20毫秒的帧中。接着各个信号帧被转换成一个被用于提取输入信号频谱性质的特征的对应特征向量。在本实施例中,特征向量是多维向量并且有多个包含音调特征的特征分量。在一个实施例中,除音调值之外,MFCC,增量MFCC和增量-增量MFCC也被当作声学特征向量的分量。特征抽取器单元220产生的特征向量接着被输入到解码器230,而解码器230利用声学模型240和语言模型250确定在指定以特征向量为特征的声学事件的情况下具有最高概率的语句或词序列。在本实施例中,声学模型240包含一个按照上述方式设计和构成的带声调音素集合。如上所述,具有相同的语音结构但不同的声调的音素被认为是不同的音素。因此,48个基韵母中的每个韵母均可以具有多达五个的对应带声调音素。在一个实施例中,一些五声单元被加到某些通常不与五声关联的韵母的带声调音素集合中。通过加入这些五声单元,带声调音素集合中单元的数量从178增加到185。对于五声单元被加入其带声调音素集合的那些韵母,对应的词的带五声读音也被加到读音字典中。如上所述,在词层次上使用一组声调变化规则建立训练数据的副本和解码的读音格。在一个实施例中,设计并实现9个声调变化规则以模拟词层次上的声调影响。前面详细描述了这9个规则。此外为了模拟词层次上的声调影响,一些语句结束词及其对应的读音变化已经被加到读音字典中。
再次参照图2,在一个实施例中,使用平均值微分函数(AMDF)方法从话音信号中抽取音调参数。根据一般的理解,只能针对话音的有声帧确定音调。音调对于静音和无声部分是不存在的。图3示出了使用AMDF方法测量的一个四音节词组的音调轮廓的一个例子。如图3所示,在静音帧和带无声辅音的帧中音调是不确定的。在这些帧中,音调的导数会变成零。在有声部分和无声部分的边界上,音调的导数会变成无穷大。在两种情况下训练和解码均会出现问题。在一个实施例中,使用以下平滑处理解决该问题:
(1)根据所有合法点计算分组平均值;
(2)在说话开始时音调值被确定成分组平均值加一个随机噪声;
(3)当话音从有声部分变化到无声部分时,音调被确定成关于分组平均值的指数衰减函数加上一个随机噪声;
(4)整个信号被传递通过一个频域低通滤波器以清除尖峰信号。
向无声部分加入随机噪声量为了避免在音调不是重要变量的帧中出现零方差。图4示出了在对图3中示出的相同讲话进行平滑处理之后的音调轮廓。如图4所示,平滑后的音调是性能良好并且可以按照与倒谱相同的方式加以处理的参数。在一个实施例中,音调值的对数也被当作音调特征的一个要素。应当注意,在音调估测的准确度和平滑度之间存在平衡,尤其是在从有声部分到无声部分的边界上。
图5是图解基于本发明的教导在声学模型240中被用于模拟语音单元的基于HMM的语音模型的一个实施例的图例(例如各个声母和带声调韵母被表示成一个单独的音素)。每个单独的语音单元均被表示或模拟成一个对应的HMM。如图4所示,一个HMM具有一个状态(1-5)序列集合,该集合由一个切换概率(a12,a23,a34,a45)集合和一个观测概率或相似度(b2(o1,b2(o2),b3(o3),b4(o4),b4(o5),b4(o6))集合连接而成。每个切换概率aij表示从状态i切换到状态j的概率。每个观测概率或分布bi(oj)表示从状态i产生一个观测向量oj的概率。因此,切换概率模拟话音的持续可变性,而输出概率模拟频谱可变性。因此,状态集合,切换概率集合和输出概率集合是被用于定义一个HMM的参数。图2所示的HMM具有左-右拓扑。在本实施例中,各个状态输出分布或观测概率函数被模拟成下面的多元混合高斯:
其中cjk是状态j中混合分量k的权重,N(oi,mjk,Vjk)表示状态j中第k个混合分量的均值mjk和协方差Vjk的多元高斯。
图6示出了基于本发明的方法600的一个实施例的流程图,其中在自底向上识别结构中各个层次上模拟声调影响。在块610,在声学层次上把音调看作诸如倒谱或能量的连续变量。音调信息被从话音信号中抽取出来并且被包含成特征向量中的特征分量。在块620,在语音层次上把具有相同的语音结构但不同的声调的音素看作带声调音素集合中的不同音素(例如一个具有不同声调的主元音被定义成不同的音素)。一些五声单元也被加到某些通常不与五声关联的韵母部分的带声调音素集合中。在块630,在词层次上使用一组声调变化规则建立训练数据的副本和解码的读音词格。在块640,在语句层次上把一些语句结束词及其对应的读音变化加到读音字典中以模拟语句层次上的声调影响。
图7示出了基于本发明的语音识别方法700的一个实施例的流程图。方法700从块701开始并执行到块710。在块710,一个表示带声调音节语言(例如普通话汉语)中一个输入话音的输入信号被转换成一组特征向量。输入话音包含一或多个词并且每个词包含一或多个音素。每个特征向量代表一帧输入话音并且包含一个含有对应帧的音调信息的音调特征。在块720,根据特征向量和一组语音统计模型确定输入话音中包含的音素。每个语音模型代表一组带声调音素中的一个不同音素。具有相同的语音结构但不同的声调的音素被认为是不同的音素并且被表示成不同的语音模型。在块730,根据识别的音素,一组词统计模型和一组声调变化规则确定输入话音中包含的词。在一个实施例中,通过根据其在字典中的读音连接对应的语音HMM来构成一个词的词统计模型。
这里已经结合优选实施例描述了本发明。显然本领域技术人员根据前面的描述可以理解许多可选方案、修改、变化和使用。
Claims (23)
1.一种方法,包括:
将一个表示带声调音节语言输入话音的输入信号转换成一组特征向量,该输入话音包括一或多个词,每个词包括一或多个音素,每个特征向量代表一帧输入话音并且包含一个含有对应帧的音调信息的音调特征;
根据特征向量和一组语音统计模型确定输入话音中包含的音素,其中每个语音统计模型均代表一组带声调音素中的一个不同音素,具有相同的语音结构但不同的声调的音素被确定为不同的音素;并且
根据确定出的音素,一组词统计模型和一组声调变化规则确定输入话音中包含的词,
其中该转换步骤包括从输入信号中抽取音调参数。
2.如权利要求1所述的方法,其中每个语音统计模型均被表示成一个对应的隐藏马尔可夫模型(HMM)。
3.如权利要求2所述的方法,其中对应的HMM是一个使用高斯混合表示与对应HMM中各个状态相关的观测概率函数的连续密度HMM。
4.如权利要求2所述的方法,其中通过根据其在字典中的读音连接对应的语音HMM来构成每个词的词统计模型。
5.如权利要求1所述的方法,其中使用平均值微分函数(AMDF)抽取音调参数。
6.如权利要求1所述的方法,其中音调特征包括音调数值,Mel频标倒谱系数(MFCC),取出的音调参数的第一和第二导数。
7.如权利要求6所述的方法,还包括:
平滑输入信号的音调轮廓,它包括:
计算输入信号中所有合法点的音调数值的分组平均值;
把输入信号的开始处的音调数值定义成分组平均值加一个随机噪声;和
把从有声部分到无声部分的切换处的音调数值定义成关于分组平均值的指数衰减函数加随机噪声信号。
8.如权利要求6所述的方法,其中输入信号被传递通过一个频域低通滤波器以清除输入信号中的尖峰信号。
9.如权利要求1所述的方法,其中前向-后向算法被用来训练代表对应音素的语音统计模型参数。
10权利要求1所述的方法,其中关于带声调音节语言声调特征的知识在构造统计模型并且根据自底向上识别结构中的统计模型解码话音时被用来在多个层次上模拟话音,自底向上识别结构中的多个层次包含声学层次、语音层次、词层次和语句层次。
11如权利要求10的方法,其中在声学层次上对应于指定音素的声调的音调信息被看作连续声学变量并且被包含在表示指定音素的特征向量中。
12如权利要求11述的方法,其中在语音层次上具有相同语音结构但不同声调的主元音被看作不同的音素。
13如权利要求12述的方法,其中在词层次上使用一组声调变化规则建立训练数据的副本和解码的词格。
14如权利要求13述的方法,其中在语句层次上一组具有轻声的语句结束词被加到用于训练和解码带声调音节语言话音的系统词汇表中。
15一种系统,包括:
一个模数转换器;
一个模型数据库,它包括一组语音统计模型,每个语音统计模型均代表一组带声调音素中的一个不同音素,具有相同的语音结构但不同的声调的音素被确定为不同的音素;
一个特征抽取单元,该特征抽取单元将一个表示带声调音节语言输入话音的输入信号转换成一组特征向量,该输入话音包括一或多个词,每个词包括一或多个音素,每个特征向量代表一帧输入话音并且包含一个含有对应帧的音调信息的音调特征;和
一个解码器单元,该解码器单元根据特征向量和语音统计模型进行语音识别以识别出输入话音中包含的音素,并且根据识别出的音素,一组词统计模型和一组声调变化规则进行词识别以识别出输入话音中包含的词序列。
16如权利要求15述的系统,其中每个语音统计模型均被表示成一个对应的隐藏马尔可夫模型(HMM)。
17如权利要求16述的系统,其中通过根据其在字典中的读音连接对应的语音HMM来构成每个词的词统计模型。
18权利要求15的系统,其中特征抽取单元使用平均值微分函数(AMDF)抽取音调参数。
19权利要求18的系统,其中音调特征包括音调数值,Mel频标倒谱系数(MFCC),被取出的音调参数的第一和第二导数。
20如权利要求15的系统,其中该特征抽取单元通过把输入信号的开始处的音调数值定义成分组平均值加一个随机噪声,把从有声部分到无声部分的切换处的音调数值定义成关于分组平均值的指数衰减函数加随机噪声,其中根据输入信号中所有合法点的音调数值计算分组平均值。
21.如权利要求20所述的系统,其中输入信号被传递通过一个频域低通滤波器以清除输入信号中的尖峰信号。
22.如权利要求15所述的系统,其中关于带声调音节语言中声调特征的知识在构造统计模型并且根据自底向上识别结构中的统计模型解码话音时被用来在多个层次上模拟话音,自底向上识别结构中的多个层次包含声学层次、语音层次、词层次和语句层次。
23.如权利要求22所述的系统,其中该声学层次包括对应于指定音素的声调的音调信息,该音调信息被看作连续声学变量并且被包含在表示指定音素的特征向量中,该语音层次包括具有相同语音结构但不同声调的主元音,该主元音被看作不同的音素,该词层次包括使用一组声调变化规则,它们用于建立训练数据的副本和解码的词格,该语句层次包括一组具有轻声的语句结束词,它们被加到用于训练和解码带声调音节语言话音的系统词汇表中。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2000/000304 WO2002029616A1 (en) | 2000-09-30 | 2000-09-30 | Method, apparatus, and system for bottom-up tone integration to chinese continuous speech recognition system |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1402851A CN1402851A (zh) | 2003-03-12 |
CN1187693C true CN1187693C (zh) | 2005-02-02 |
Family
ID=4574717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB008164835A Expired - Fee Related CN1187693C (zh) | 2000-09-30 | 2000-09-30 | 以自底向上方式将声调集成到汉语连续语音识别系统中的方法和系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US7181391B1 (zh) |
CN (1) | CN1187693C (zh) |
AU (1) | AU2000276402A1 (zh) |
WO (1) | WO2002029616A1 (zh) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7353173B2 (en) * | 2002-07-11 | 2008-04-01 | Sony Corporation | System and method for Mandarin Chinese speech recognition using an optimized phone set |
US7353172B2 (en) * | 2003-03-24 | 2008-04-01 | Sony Corporation | System and method for cantonese speech recognition using an optimized phone set |
US7693713B2 (en) * | 2005-06-17 | 2010-04-06 | Microsoft Corporation | Speech models generated using competitive training, asymmetric training, and data boosting |
US20060293890A1 (en) * | 2005-06-28 | 2006-12-28 | Avaya Technology Corp. | Speech recognition assisted autocompletion of composite characters |
US8249873B2 (en) * | 2005-08-12 | 2012-08-21 | Avaya Inc. | Tonal correction of speech |
US20080120108A1 (en) * | 2006-11-16 | 2008-05-22 | Frank Kao-Ping Soong | Multi-space distribution for pattern recognition based on mixed continuous and discrete observations |
GB0623915D0 (en) * | 2006-11-30 | 2007-01-10 | Ibm | Phonetic decoding and concatentive speech synthesis |
WO2009025356A1 (ja) * | 2007-08-22 | 2009-02-26 | Nec Corporation | 音声認識装置および音声認識方法 |
US8015008B2 (en) * | 2007-10-31 | 2011-09-06 | At&T Intellectual Property I, L.P. | System and method of using acoustic models for automatic speech recognition which distinguish pre- and post-vocalic consonants |
KR100930714B1 (ko) * | 2007-12-14 | 2009-12-09 | 한국전자통신연구원 | 음성인식 장치 및 방법 |
JP5025550B2 (ja) * | 2008-04-01 | 2012-09-12 | 株式会社東芝 | 音声処理装置、音声処理方法及びプログラム |
JP4985689B2 (ja) * | 2009-03-30 | 2012-07-25 | ブラザー工業株式会社 | 印刷装置 |
US8433570B2 (en) * | 2010-01-06 | 2013-04-30 | General Motors Llc | Method of recognizing speech |
US8676574B2 (en) * | 2010-11-10 | 2014-03-18 | Sony Computer Entertainment Inc. | Method for tone/intonation recognition using auditory attention cues |
CN102208186B (zh) * | 2011-05-16 | 2012-12-19 | 南宁向明信息科技有限责任公司 | 汉语语音识别方法 |
CN103366737B (zh) * | 2012-03-30 | 2016-08-10 | 株式会社东芝 | 在自动语音识别中应用声调特征的装置和方法 |
JP5807921B2 (ja) * | 2013-08-23 | 2015-11-10 | 国立研究開発法人情報通信研究機構 | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム |
US10665243B1 (en) * | 2016-11-11 | 2020-05-26 | Facebook Technologies, Llc | Subvocalized speech recognition |
CN106782500A (zh) * | 2016-12-23 | 2017-05-31 | 电子科技大学 | 一种基于基音周期和mfcc的融合特征参数提取方法 |
KR20180092582A (ko) * | 2017-02-10 | 2018-08-20 | 삼성전자주식회사 | Wfst 디코딩 시스템, 이를 포함하는 음성 인식 시스템 및 wfst 데이터 저장 방법 |
CN111145725A (zh) * | 2019-12-06 | 2020-05-12 | 秒针信息技术有限公司 | 近音汉字的语音识别方法及装置 |
CN111696530B (zh) * | 2020-04-30 | 2023-04-18 | 北京捷通华声科技股份有限公司 | 一种目标声学模型获取方法及装置 |
CN112183086A (zh) * | 2020-09-23 | 2021-01-05 | 北京先声智能科技有限公司 | 基于意群标注的英语发音连读标记模型 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5220639A (en) * | 1989-12-01 | 1993-06-15 | National Science Council | Mandarin speech input method for Chinese computers and a mandarin speech recognition machine |
CN1112269A (zh) | 1994-05-20 | 1995-11-22 | 北京超凡电子科技有限公司 | 基于汉语发音特点的hmm语音识别技术 |
US5602960A (en) * | 1994-09-30 | 1997-02-11 | Apple Computer, Inc. | Continuous mandarin chinese speech recognition system having an integrated tone classifier |
CN1085367C (zh) | 1994-12-06 | 2002-05-22 | 西安电子科技大学 | 汉语识别合成型声码器及其韵律信息处理方法 |
US5787230A (en) * | 1994-12-09 | 1998-07-28 | Lee; Lin-Shan | System and method of intelligent Mandarin speech input for Chinese computers |
US5680510A (en) * | 1995-01-26 | 1997-10-21 | Apple Computer, Inc. | System and method for generating and using context dependent sub-syllable models to recognize a tonal language |
US5751905A (en) * | 1995-03-15 | 1998-05-12 | International Business Machines Corporation | Statistical acoustic processing method and apparatus for speech recognition using a toned phoneme system |
US6067520A (en) * | 1995-12-29 | 2000-05-23 | Lee And Li | System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models |
US6553342B1 (en) * | 2000-02-02 | 2003-04-22 | Motorola, Inc. | Tone based speech recognition |
US6510410B1 (en) * | 2000-07-28 | 2003-01-21 | International Business Machines Corporation | Method and apparatus for recognizing tone languages using pitch information |
EP1286329B1 (en) * | 2001-08-23 | 2006-03-29 | Culturecom Technology (Macau) Ltd. | Method and system for phonetic recognition |
-
2000
- 2000-09-30 WO PCT/CN2000/000304 patent/WO2002029616A1/en active Application Filing
- 2000-09-30 CN CNB008164835A patent/CN1187693C/zh not_active Expired - Fee Related
- 2000-09-30 AU AU2000276402A patent/AU2000276402A1/en not_active Abandoned
- 2000-09-30 US US10/148,479 patent/US7181391B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
WO2002029616A1 (en) | 2002-04-11 |
US7181391B1 (en) | 2007-02-20 |
AU2000276402A1 (en) | 2002-04-15 |
CN1402851A (zh) | 2003-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1187693C (zh) | 以自底向上方式将声调集成到汉语连续语音识别系统中的方法和系统 | |
CN108305634B (zh) | 解码方法、解码器及存储介质 | |
Lee | Voice dictation of mandarin chinese | |
Chang et al. | Large vocabulary Mandarin speech recognition with different approaches in modeling tones | |
Ghai et al. | Analysis of automatic speech recognition systems for indo-aryan languages: Punjabi a case study | |
CN112435654A (zh) | 通过帧插入对语音数据进行数据增强 | |
KR101424193B1 (ko) | 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법 | |
Hieronymus et al. | Use of acoustic sentence level and lexical stress in HSMM speech recognition. | |
Szarvas et al. | Automatic recognition of Hungarian: Theory and practice | |
Mourtaga et al. | Speaker independent Quranic recognizer based on maximum likelihood linear regression | |
Jiang et al. | Improvements on a trainable letter-to-sound converter | |
Liu et al. | State-dependent phonetic tied mixtures with pronunciation modeling for spontaneous speech recognition | |
Manasa et al. | Comparison of acoustical models of GMM-HMM based for speech recognition in Hindi using PocketSphinx | |
Fetter | Detection and transcription of OOV words | |
CN114974218A (zh) | 语音转换模型训练方法及装置、语音转换方法及装置 | |
CN111429886B (zh) | 一种语音识别方法及系统 | |
Penagarikano et al. | Semisupervised training of a fully bilingual ASR system for Basque and Spanish | |
Lamel et al. | Speech recognition of European languages | |
KR20050101694A (ko) | 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법 | |
Fosler-Lussier | A tutorial on pronunciation modeling for large vocabulary speech recognition | |
Premkumar et al. | Experiments towards a better LVCSR System for Tamil | |
Wang | Using graphone models in automatic speech recognition | |
Zgank | Cross-lingual speech recognition between languages from the same language family | |
Prasad et al. | Continuous speech recognition using automatically segmented data at syllabic units | |
Abidin et al. | Acoustic model with multiple lexicon types for Indonesian speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20050202 Termination date: 20190930 |