CN1538384A - 有效地实施普通话汉语语音识别字典的系统和方法 - Google Patents

有效地实施普通话汉语语音识别字典的系统和方法 Download PDF

Info

Publication number
CN1538384A
CN1538384A CNA2004100332291A CN200410033229A CN1538384A CN 1538384 A CN1538384 A CN 1538384A CN A2004100332291 A CNA2004100332291 A CN A2004100332291A CN 200410033229 A CN200410033229 A CN 200410033229A CN 1538384 A CN1538384 A CN 1538384A
Authority
CN
China
Prior art keywords
phoneme
pronunciation
dictionary
mandarin
affricate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2004100332291A
Other languages
English (en)
Other versions
CN1538384B (zh
Inventor
X・梅嫩德斯-皮达尔
X·梅嫩德斯-皮达尔
蘼仔
吕静雯
L·奥罗伦肖
段镭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Electronics Inc
Original Assignee
Sony Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Electronics Inc filed Critical Sony Electronics Inc
Publication of CN1538384A publication Critical patent/CN1538384A/zh
Application granted granted Critical
Publication of CN1538384B publication Critical patent/CN1538384B/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明包括有效地实施普通话汉语语音识别字典的系统和方法,可以包括被构造成将输入语音数据与来自根据优化的普通话汉语音素集实施的词汇词典的音素串进行比较的识别器。该优化的普通话汉语音素集可以通过利用音位变体和音位变化技术有效地实施。此外,前述的词汇字典可以通过利用统一的字典优化技术实施以提供稳健且精确的语音识别。此外,词汇字典可以实施为优化的字典以在语音识别过程中精确地识别北方普通话汉语语音或南方普通话汉语语音。

Description

有效地实施普通话汉语语音识别字典的系统和方法
技术领域
一般地说本发明涉及电子语音识别系统,更具体地说涉及有效地实施普通话汉语(Mandarin Chinese)语音识别字典的系统和方法。
背景技术描述
实施系统用户与电子设备进行稳健且有效的人机通信是系统设计者和制造商们非常重视的考虑因素。电子设备的语音控制操作是用于多种系统用户的理想接口。例如,语音控制操作允许用户同时执行其它的任务。例如,一个人在驾驶机车的同时,通过语音控制可以操作电子管理器。对于那些具有身体障碍或其它特殊要求的用户来说电子系统的免提操作是比较理想的。
电子设备的免提操作可以通过各种语音启动的电子系统实现。语音启动的电子系统由此有利地允许用户在其使用常规的输入设备不方便或者可能有危险的情况下与电子设备进行人机通信。电子娱乐系统也可以利用语音识别技术来允许用户通过向某一系统说话而与其交互。
然而,有效地实施这种系统对系统设计者来说可是一种巨大的挑战。例如,增加系统的功能和性能的进一步需求可能要求更大的系统处理能力和要求其它的硬件资源。由于增加了生产成本和操作的无效率,在处理或硬件要求方面的增加也相应地导致了不利的影响。
此外,增强系统执行各种高级操作的系统能力虽然可以给系统用户提供其它的优点,但也导致了对各种系统部件的控制和管理的增加。例如,有效地识别在普通话汉语语言中的字和词的增强的电子系统得益于有效的实施方案,因为要求大量且复杂的数字数据。因此,对于所有的前述原因,实施系统用户与电子设备人机通信的稳健且有效的方法一直是系统设计者和制造者重要的考虑因素。
发明内容
根据本发明,公开了一种有效地实施普通话汉语语音识别字典的系统和方法。在一个实施例中,识别器可以被构造成将输入语音数据与来自根据优化的普通话汉语音素集实施的词汇词典的音素串进行比较。
优化的普通话汉语音素集可以以语音学技术实施以单独包括辅音音素和元音音素。由于系统效率的缘故,优化的普通话汉语音素集优选以小型化的方式实施以仅包括在语音识别过程中精确地表示普通话汉语语音所要求的最小数量的辅音音素和元音音素。
根据本发明的某些实施例,通过利用将多个音位变体(allophone)或发音变化映射到优化的音素集中的相同对应音位的音位变体变化技术(allophone variation technique)可以有效地实施优化的普通话汉语音素集。在某些实施例中,音位变体变化技术可以将音位变体映射到包括辅音类别、半元音类别和元音类别的音素集中。
此外,通过利用各种不同的字典优化技术可以实施前述的词汇字典以提供稳健且精确的语音识别。区域变化(regional variation)技术可以将输入语音数据的区域变化映射到在词汇字典中的统一的对应条目,由此改善语音识别精度。输入语音数据的每个区域变化根据地理区域的不同具有重要的发音变化。在某些实施例中,发音的区域变化包括北方普通话汉语和南方普通话汉语的普通话汉语发音变化。
此外,在某些实施例中,前述的词汇字典可以实施为对应于特定的口语语言的不同的具体的区域发音变化的统一的字典。然后在语音识别过程中该字典可以精确地识别北方普通话汉语语音或南方普通话汉语语音。因此本发明提供了一种有效地实施普通话汉语语音识别字典的系统和方法。
附图说明
附图1所示为根据本发明的计算机系统的一个实施例的方块图;
附图2所示为根据本发明附图1的存储器的一个实施例的方块图;
附图3所示为根据本发明附图2的语音检测器的一个实施例的方块图;
附图4所示为根据本发明附图2的隐马尔可夫模型(HiddenMarkov Model)的一个实施例的附图;
附图5所示为根据本发明附图2的字典的一个实施例的附图;
附图6所示为根据本发明的一个实施例附图5的字典条目的附图;和
附图7所示为根据本发明的一个实施例说明区域变化技术的附图。
具体实施方式
本发明涉及语音识别系统的改进。提供下面的描述以便在本领域的普通技术人员能够实现并使用本发明,并且这些描述根据专利申请及其要求提供。对优选实施例做出各种改进对于本领域普通技术人员来说是显而易见的,因此在此的一般原理可应用于其它的实施例。因此并不希望将本发明限于所示的实施例,而是应该给予与在此所描述的原理和特征相一致的最宽泛的范围。
本发明包括有效地实施普通话汉语语音识别字典的系统和方法,可以包括被构造成将输入语音数据与来自根据优化的普通话汉语音素集实施的词汇字典的音素串进行比较的识别器。优化的普通话汉语音素集可以通过利用音位变体变化技术有效地实施。
此外,通过利用各种不同的字典优化技术可以实施前述的词汇字典以提供稳健且精确的语音识别。此外,可以将该词汇字典实施为字典集,从该字典集中可以选择适当的字典以在语音识别的过程中精确地识别北方普通话汉语语音或南方普通话汉语语音。
现在参考附图1,所示为根据本发明的计算机系统110的一个实施例的方块图。附图1的实施例包括声音传感器112、放大器116、模拟至数字转换器120、中央处理单元(CPU)128、存储器130和输入/输出接口132。在变型实施例中,除了结合附图1的实施例讨论的那些元件或功能之外或作为它们的替换,计算机系统110容易包括各种其它的元件或功能。
声音传感器112检测声音能量并将所检测到的声音能量转换为模拟语音信号,通过线114将该模拟语音信号提供给放大器116。放大器116放大所接收的模拟语音信号并经线118将经放大的模拟语音信号提供给模拟至数字转换器120。然后模拟至数字转换器120将经放大的模拟语音信号转换为对应的数字语音数据。然后模拟至数字转换器120通过线122将数字语音数据提供给系统总线124。
CPU 128然后访问在系统总线124上的数字语音数据并根据包含在存储器130中的软件指令响应地分析并处理该数字语音数据以执行语音检测。CPU 128的操作和在存储器130中的软件指令将在下文结合附图2-3进一步讨论。在处理了语音数据之后,CPU 128然后将语音检测分析的结果通过输入/输出接口132提供给其它的设备(未示)。在变型实施例中,本发明容易以除了在附图1中所示的计算机系统110之外的各种设备实施。
现在参考附图2,所示为根据本发明的附图1的存储器130的一个实施例的方块图。可替换的是,存储器130可以包括各种存储装置结构,包括随机存取存储器(RAM)和存储装置比如软盘或硬盘驱动器。在附图2的实施例中,存储器130包括但不限于语音识别引擎210、隐马尔可夫模型(HMM)212、词汇字典214和语言模型216。在变型实施例中,除了结合附图2的实施例讨论的那些元件或功能之外或作为它们的替换,存储器130容易包括各种其它的元件或功能。
在附图2的实施例中,语音识别引擎210包括由CPU 128执行以分析并识别语音数据的一系列软件模块,下文将参考附图3进一步描述这些模块。在变型实施例中,语音识别引擎210容易以各种其它的软件和/或软件结构实施。HMM 212和字典214可以由语音识别引擎210使用以实施本发明的语音识别功能。HMM 212的一种实施例将在下文结合附图4进一步讨论,字典214的一种实施例将在下文结合附图5进一步讨论。
现在参考附图3,所示根据本发明的附图2的语音识别引擎210的一个实施例的方块图。语音识别引擎210包括但不限于特征提取器310、端点检测器312和识别器314。在变型实施例中,除了结合附图3的实施例讨论的那些元件或功能之外或作为它们的替换,语音识别引擎210容易包括各种其它的元件或功能。
在附图3的实施例中,模拟至数字转换器120(附图1)通过系统总线124给特征提取器310提供数字语音数据。特征提取器310响应地产生特征矢量,通过路径320将该特征矢量提供给识别器314。特征提取器310进一步通过路径322响应地产生语音能量给端点检测器312。端点检测器312分析该语音能量并响应地确定由语音能量所代表的话语的端点。该端点指示该话语在时间上的开始和结束。端点检测器312然后通过路径324将该端点提供给识别器314。
识别器314优选被构造成识别在字典214(附图2)中提供的预定的词汇中的命令。前述的在字典214中的词汇命令可以对应于任何所需的命令、指令或计算机系统110的其它通信。然后将所识别的词汇命令通过通路332输出给系统110。
在实际中,来自字典214的每个命令都可以与表示该字的对应的音素串(单个音素的串)关联。隐马尔可夫模型(HMM)212(附图2)可以包括来自可有效地用于表示在字典214中的命令的预先确定的音素集中的每个音素的经训练的随机表示。识别器314然后将来自线320的输入特征矢量与来自字典214的每个音素串的适当的HMM 212进行比较以确定哪个命令产生了最高的识别分值。由此将对应于最高的识别分值的命令标识为所识别的命令。
现在参考附图4,所示为根据本发明的附图2的HMM 212的一个实施例的方块图。在附图4的实施例中,HMM 212优选包括模型1(412(a))至模型N(412(c))。在变型实施例中,除了结合附图4的实施例讨论的那些元件或功能之外或作为它们的替换,HMM 212容易包括各种其它的元件或功能。
在附图4的实施例中,HMM 212容易实施以包括任何所需数量的模型412,这些模型可以包括任何所要求的类型的信息。在附图5的实施例中,来自HMM 212的每个模型412可以对应于来自预先确定的音素集的不同的特定音素以用于识别器314(附图3)。
现在参考附图5,所示为根据本发明的一个实施例的附图2的字典214的方块图。在附图5的实施例中,字典214优选包括条目1(512(a))至条目N(512(d))。在变型实施例中,除了结合附图5的实施例讨论的那些元件或功能之外或作为它们的替换,字典214容易包括各种其它的元件或功能。
在附图5的实施例中,字典214容易实施以包括任何所需数量的条目512,这些条目可以包括任何所要求的信息。在附图5的实施例中,如上文参考附图3所讨论,来自字典214的每个条目512也可以包括来自预先确定的音素集的单个音素的对应的音素串。前述的音素串的单个音素优选形成字典214中的对应的字的发音的序列表示。字典条目512的一个实施例下文结合附图6进一步讨论。
现在参考附图6,所示为根据本发明的一个实施例的实例性附图5的字典条目512的附图。在变型实施例中,除了结合附图6的实施例讨论的那些元件或功能之外或作为它们的替换,本发明使用具有其它各种元件或功能的字典条目容易执行语音识别。
在附图6的实施例中,字典条目512可以包括将识别器314(附图3)设计成所识别的字典中的特定的命令610。在不同的实施例中,命令610可以是任何类型的说明或语言,包括句子、词组、命令、提问或根据适当的表示方案表示的字。此外,字典条目512可以包括表示命令610的序列听觉特征的音素串612。与命令610关联的音素串612可以包括来自与识别器314一起使用的预先确定的音素集的音素序列。在附图6的实施例中,前述的音素串可以包括音素串1(612(a))至音素串N(612(b))。每个可替换的音素串612可以表示由区域变化或发音变化引起的相同命令610的可替换的发音。下文参考附图7进一步讨论实施字典条目512的一种技术。
由于普通话汉语通常以汉字而不是罗马字母书写,因此通过利用标准的普通话汉语罗马化方案(一般称为“pinyin(拼音)”)可以表示音素集。还应该注意,在音素集中拼音“ü”表示为“yu”以便有利于计算机键盘使用。在变型的实施例中,本发明可以利用以各种不同的其它类型的罗马化方案表示的优化的普通话汉语音素集。
因为使用相对较小数量的音素,因此音素集可以提供用于精确地识别普通话汉语语音的有效和小型化的音素表示。在音素集中单个音素的数量减小极大地节省了在电子系统110中的处理资源和存储器。此外,总的音素的数量的减小实质上降低了与训练隐马尔可夫模型(HMM)212相关的负担。然而,在不同的变型的实施例中,可以实施本发明以包括各种不同的附加或不同的音素。
常规的普通话汉语语音识别系统通常利用以子音节方法实施的音素集,在这种子音节方法中每个音节表示为韵(rime)或半音节。相反,本发明的优化的普通话汉语音素集有利地利用语音学技术,在这种语音学技术中将音节进一步划分为由适当的辅音音素和元音音素的组合表示的语音学单元以给语音表示处理提供更大的粒度。此外,音素集表示普通话汉语的各种声音而不利用作为不同的音素的一部分的对应的音调信息。除了提供更大的灵活性之外,前述的语音学技术还具有在音素集610中要求的总的音素更少的附加优点。
根据对应的音素的特征可以将前述的普通话汉语音素集和对应的音位变体组织成各种语言类别。为了说明,下文在表1中给出一种这样的组织,表1包括在顶部的类别,下面有四列。在表1的左侧的两列是具有音位变体的音位变体列,该列映射成在表1的右侧上的两个音位列中的对应的音位。在表1中等效的音位变体在相同的水平行上示出(或者对于附加的音位变体音位映射在下面的不中断的水平行上)作为表1的对应的音位。
在表1的更左边上的音位变体列以前述的Pinyin罗马化格式表示。此外,在自左边的第二列中,表1也包括以根据由国际语音协会(International Phonetic Association(IPA))开发的系统的第二种罗马化方案格式表示的等效的音位变体列。关于国际语音协会的进一步的信息可以参见环球网WWW.arts.gla.ac.uk/IPA/fullchart.html。在变型的实施例中,音位变体也可以以除了在下面的表1中所示的方式之外的不同的方式组织。
此外,在表1的更右边上的音位变体列以前述的Pinyin罗马化格式表示。此外,在自右边的第二列中,表1也包括以前述的国际语音协会(IPA)的罗马化方案格式表示的等效音位变体列。在变型的实施例中,普通话汉语音素集的音位变体也可以以以除了在下面的表1中所示的方式之外的不同的方式组织。
表1:
辅音:
Pinyin            IPA         IPA         Pinyin
b(begin)           p            p            b
b(begin)           p_v
p(begin)           p_h          p_h          p
m(begin)           m            m            m
f(begin)           f            f            f
d(begin)           t            t            d
d(begin)           t_v
t(begin)           t_h          t_h          t
l(begin)           l            l`           l
l(begin)           l`
l(begin)           L
g(begin)           k            k            g
g(begin)           k_v
k(begin)           k_h          k_h          k
h(begin)           x            x            h
h(begin)           x_v
j(begin)           C           ^C           ^j
q(begin)           C^_h         C^_h         q
x(begin)           C            C            x
zh(begin)          s^`          s^`          zh
zh(begin)          t^
zh(begin)          S^
ch(begin)          s^`_h        s^`_h        ch
ch(begin)          t^_h
ch(begin)          S^_h
sh(begin)          s           ^s           ^sh
sh(begin)          S
sh(begin)          s
r(begin)           r^`          r^`          r
r(begin)           z^`
r(begin)           z
r(end)             r^`          r^`          r
z(begin)           t           ^t           ^z
z(begin)           s^`
z(begin)           S^
c(begin)           t^_h         t^_h         c
s(begin)           s            s            s
n(begin,end)      n            n            n
n(begin,end)      J
ng(end)            N            N            ng
*注意:“begin(开始)”和“end(结尾)”描述了音位出现在Pinyin中的哪儿。例如,在Pinyin“ban”中,“b”是b(begin)和“n”是n(end)。
半元音:
Pinyin            IPA         IPA         Pinyin
y                  j            j            y
w                  w            w            w
yu                 H            H            yu
元音:
Pinyin            IPA         IPA         Pinyin
a(ba)              A            a            a
a(ai,an)          a
a(ian)             E
a(yuan)            E^
a(ao,ang)         6
a(angr)            A~
o(bo)              uo           o            o
o(uo)              o
o(ao)              U
e(ge,strd)        7            e            e
e(ge,nstr)        @
e(ei)              e
e(ie)              E_r
e(engr)            @~
i                  i            I            i
i                  I
i(zhi)             1`
i(zi)              1
u(lu)              u            u            u
u(lou)             U
yu(qu)             y            yu           yu
现在参考附图7,所示为根据本发明的一个实施例说明区域变化技术的附图810。在变型的实施例中,除了结合附图7的实施例讨论的那些技术或功能之外或作为它们的替换,本发明容易利用其它的各种技术或功能。
在许多语言中,根据多种不同的因素比如地理区域可能存在发音变化。例如,根据讲话者是来自北方地区(北方普通话汉语)还是中国南方(南方普通话汉语)口语普通话汉语可能具有明显的发音变化。前述的明显的发音变化可能被确定超过预先确定的变化阈值。为了提供稳健且精确的普通话汉语语音识别系统,附图的图810所示为可用于改善用于在发音方面存在明显的区域变化的识别精度的区域变化技术。
在附图7的实施例中,为了说明本发明的不同原理,图810所示为映射到在由语音识别引擎210所使用的词汇字典214(附图2)中的统一的字典条目512中的普通话汉语区域变化1(814)。此外,图810所示为映射到在由语音识别引擎210所使用的词汇字典214中的相同的字典条目512中的普通话汉语区域变化2(816)。
此外,图810所示为映射到在由语音识别引擎210所使用的词汇字典214中的相同的字典条目512中的普通话汉语区域变化3(818)。在附图7的实施例中,区域变化表示与语音识别引擎210一起使用的特定的字典条目512的不同的发音变化。
在某些实施例中,根据本发明,语音识别引擎210也访问专门设计用于对于特定的环境优化语音识别精度的词汇字典。例如,在某些实施例中,普通话汉语语音识别字典可以包括对应于不同的区域北方普通话汉语方言的北方普通话汉语条目512。
此外,在某些实施例中,普通话汉语语音识别字典214也可以包括对应于区域南方普通话汉语土话的南方普通话汉语条目512。前述的普通话汉语语音识别字典也可以包括专门设计成有利于识别精度或强调节省处理资源同时执行语音识别过程的条目512。
在本发明的某些实施例中,各种字典优化技术可以用于提供更加稳健且精确的普通话汉语语音识别过程。在一个实施例中,本发明可以合并包括任何适当的自由音位变体和音位变化。某些普通话汉语字或声音可以具有不是由于区域变化引起的可替换的发音。例如nei4、zhe4、shei2、han4、huo0可以具有如在下表II中所示的可替换的发音。
表II:
普通的—可替换的
na4~nei4
zhe4~zhei4
shui2~shei2
he2~han2
he2~huo2
根据本发明的某些实施例,在下表III中示出了前述的普通话汉语字的对应的字典条目512;
表III;
na4 na
na4 nei(可替换的发音)
zhe4 s^`e
zhe4 s^`ei(可替换的发音)
shui2 s w ei
shui2 s ei(可替换的发音)
he2 xe
he2 xan(可替换的发音)
he2 xe
he2 xwo(可替换的发音)
在某些实施例中,词汇字典214可以以不同的改进方式实施以处理有问题的南方和北方普通话汉语方言变化。例如,与在中国北方的相同的字或声音的发音相比,某些普通话汉语字或声音在中国南方不同地发音。对于某些字,最后的r(r^`)可能在中国北方发音,而对应的最后的r可能不在中国南方使用。
如下的表IV提供了包括在中国北方发音中的最后的r的某些普通话汉语字或发音的列表。
表IV:
南方——北方
shi4~shir4
bian1~bianr1
pian4~pianr4
ge1~ger1
dian3~dianr3
tian1~tianr1
gou3~gour3
ban4~banr4
qiu2~qiur2
wan2~wanr2
zhao1~zhaor1
根据本发明的某些实施例,用于与前述的北方-南方普通话汉语配对的相应的字典条目512在下表V中示出。本发明可以将北方-南方普通话汉语配对合并到单个对应的字或意思中。
表V:
shir4 s ^i
shir4 s ^ir(北方发音)
bianr1 pjan
bianr1 pjanr(北方发音)
ger1 ke
ger1 ker(北方发音)
dianr3 cltjan
dianr3 cltjanr(北方发音)
tianrl clthjan
tianrl clthjanr(北方发音)
gour3 cl k ow
gour3 cl k owr(北方发音)
banr4 cl pan
banr4 cl panr(北方发音)
wanr2 wan
wanr2 wanr(北方发音)
zhaor1 s^`aw
zhaor1 s^`awr(北方发音)
在本发明的某些实施例中,在实施词汇字典214时可以使用某些塞擦音(affricate)技术。例如,在中国南方,塞擦音s^`容易以更接近音位t^的音位发音。词汇字典214因此包括可替换的南方普通话汉语发音并将其与t^音素合并,以含盖北方和南方的普通话汉语发音。例如,字典214可以包括北方塞擦音变化“1an2_zhu4 sil 1ancl s^`u sil”和南方塞擦音变化“1an2_zhu4 sil 1 a n cl t^usil”。
此外,在中国南方,塞擦音s^容易以更接近音位s的音位发音。词汇字典214因此包括可替换的南方普通话汉语发音并将其与s音素合并,以含盖北方和南方的普通话汉语发音。例如,字典214可以包括北方塞擦音变化“shang4 s^a N”和南方塞擦音变化“shang4 s aN”。因此,如上文所讨论,在本发明的某些实施例中,各种不同的字典优化技术可以用于提供更加稳健且精确的普通话语音识别过程。
参考优选的实施例已经解释了本发明。根据本发明的公开其它的实施例对本领域的普通技术人员来说是显然的。例如,使用除了在上述的优选实施例中描述的结构和技术之外的结构和技术容易实施本发明。此外,本发明也可以与除了上文作为优选实施例描述的系统之外的系统一起有效地使用。因此,优选实施例的这些和其它变型希望都被仅由附加的权利要求所限定的本发明所涵盖。

Claims (42)

1.一种执行语音识别过程的系统,包括:
识别器,该识别器被构造成将输入语音数据与来自根据优化的音素集实施的词汇词典的音素串进行比较,所说的优化的音素集通过利用音位变体变化技术以小型化的方式实施,所说的词汇字典通过利用一种或多种字典优化技术实施;和
处理器,该处理器被构造成控制所说的识别器由此执行所说的语音识别过程。
2.权利要求1的系统,其中所说的输入语音数据包括普通话汉语语言数据,所说的优化的音素集简洁地构造以精确地表示所说的普通话汉语语言数据。
3.权利要求1的系统,其中所说的识别器和所说的处理器作为消费者电子设备的一部分实施。
4.权利要求1的系统,其中在执行所说的语音识别过程的同时所说的优化的音素集节省处理资源和存储器资源。
5.权利要求1的系统,其中所说的音素串每个都包括来自所说的优化的音素集的不同的音素序列,每个所说的音素串对应于来自所说的词汇字典的相同的字。
6.权利要求5的系统,其中所说的识别器比较所说的输入语音数据和来自所说的词汇字典的所说的音素串的隐马尔可夫模型,由此在所说的语音识别过程中选择所识别的字。
7.权利要求1的系统,其中所说的优化的音素集表示普通话汉语语言的各种不同的声音而不利用作为在所说的优化的音素集中的不同的音素的部分的对应的音调信息。
8.权利要求1的系统,其中所说的音位变体或音位变化技术将多个音位变体或音位映射到对应的字典条目。
9.权利要求8的系统,其中所说的多个音位变体或音位包括所说的字典条目的发音变化。
10.权利要求8的系统,其中所说的优化的音素集以语音学技术实施以单独提供辅音音素和元音音素,所说的优化的音素集以小型化的方式实施以仅包括所要求的最小数量的所说的辅音音素和所说的元音音素。
11.权利要求1的系统,其中所说的区域变化技术将所说的输入语音数据的区域变化映射到在所说的词汇字典中的对应的条目中。
12.权利要求11的系统,其中所说的输入语音数据的每个所说的区域变化根据地理区域的不同具有明显的发音变化,所说的明显的发音变化被确定超过预先确定的可接受的变化阈值。
13.权利要求12的系统,其中所说的区域变化包括北方普通话汉语和南方普通话汉语的普通话汉语发音变化。
14.权利要求1的系统,其中所说的词汇字典实施为字典集,该字典集包括对应于特定的口语语言的不同的具体区域发音变化的多个统一的字典条目,所说的不同的具体区域发音变化包括北方普通话汉语发音变化和南方普通话汉语发音变化。
15.权利要求1的系统,其中所说的词汇字典包括且合并具有不应归于区域变化的可替换的发音的自由音位或音位变体变化的单独条目。
16.权利要求15的系统,其中所说的自由音位变化包括一系列发音变化对,该发音变化对包括na4~nei4对、zhe4~zhei4对、shui4~shei4对、he2~han2对和he2~huo2对。
17.权利要求1的系统,其中所说的词汇字典包括并合并用于南方-北方普通话方言变化对的单独字典条目,其中最后的r可能在中国北方发音,而所说的最后的r在中国南方可能不用。
18.权利要求17的系统,其中所说的北方-南方普通话方言变化对包括shi4~shir4对、bian1~bianr1对、pian4~pianr4对ge1~ger1对、dian3~dianr3对、tian1~tianr1对、gou3~gour3对、ban4~banr4、qiu2~qiur2对、wan2~wanr2对和zhao1~zhaor1对。
19.权利要求1的系统,其中塞擦音技术用于实施所说的词汇字典以包括且合并塞擦音s^`的可替换的南方普通话汉语发音与音位t^,因为,在中国南方,所说的塞擦音s^`发音更接近所说的音素t^,所说的塞擦音技术因此处理所说的塞擦音s^`的北方普通话发音和南方普通话发音两者。
20.权利要求1的系统,其中塞擦音技术用于实施所说的词汇字典以包括且合并塞擦音s^可替换的南方普通话汉语发音与音位s,因为,在中国南方,所说的塞擦音s^发音更接近所说的音素s,所说的塞擦音技术因此处理所说的塞擦音s^的北方普通话发音和南方普通话发音两者。
21.一种执行语音识别过程的方法,包括如下的步骤:
将识别器构造成比较输入语音数据和来自根据优化的音素集实施的词汇词典的音素串,所说的优化的音素集通过利用音位的和音位变体的变化技术以小型化的方式实施,所说的词汇字典通过利用一种或多种字典优化技术实施;和
以处理器控制所说的识别器由此执行所说的语音识别过程。
22.权利要求21的方法,其中所说的输入语音数据包括普通话汉语语言数据,所说的优化的音素集简洁地构造以精确地表示所说的普通话汉语语言数据。
23.权利要求21的方法,其中所说的识别器和所说的处理器作为消费者电子设备的一部分实施。
24.权利要求21的方法,其中在执行所说的语音识别过程的同时所说的优化的音素集节省处理资源和存储器资源。
25.权利要求21的方法,其中所说的音素串每个都包括来自所说的优化的音素集的不同的音素序列,每个所说的音素串对应于来自所说的词汇字典的相同的字。
26.权利要求25的方法,其中所说的识别器比较所说的输入语音数据和来自所说的词汇字典的所说的音素串的隐马尔可夫模型,由此在所说的语音识别过程中选择所识别的字。
27.权利要求21的方法,其中所说的优化的音素集表示普通话汉语语言的各种不同的声音而不利用作为在所说的优化的音素集中的不同的音素的部分的对应的音调信息。
28.权利要求21的方法,其中所说的音位变体或音位变化技术将多个音位变体或音位映射到对应的字典条目。
29.权利要求28的方法,其中所说的多个音位变体或音位包括所说的对应字典条目的发音变化。
30.权利要求28的方法,其中所说的优化的音素集以语音学技术实施以单独提供辅音音素和元音音素,所说的优化的音素集以小型化的方式实施以仅包括所要求的最小数量的所说的辅音音素和所说的元音音素。
31.权利要求21的方法,其中所说的区域变化技术将所说的输入语音数据的区域变化映射到在所说的词汇字典中的对应的条目中。
32.权利要求31的方法,其中所说的输入语音数据的每个所说的区域变化根据地理区域的不同具有明显的发音变化,所说的明显的发音变化被确定超过预先确定的可接受的变化阈值。
33.权利要求32的方法,其中所说的区域变化包括来自北方普通话汉语和来自南方普通话汉语的普通话汉语发音变化。
34.权利要求21的方法,其中所说的词汇字典实施为字典集,该字典集包括对应于特定的口语语言的不同的具体区域发音变化的多个统一的字典条目,所说的不同的具体区域发音变化包括北方普通话汉语发音变化和南方普通话汉语发音变化。
35.权利要求21的方法,其中所说的词汇字典包括且合并具有不应归于区域变化的可替换的发音的自由音位或音位变体变化的单独条目。
36.权利要求35的方法,其中所说的自由音位变化包括一系列发音变化对,该发音变化对包括na4~nei4对、zhe4~zhei4对、shui4~shei4对、he2~han2对和he2~huo2对。
37.权利要求21的方法,其中所说的词汇字典包括且合并用于南方-北方普通话方言变化对的单独字典条目,其中最后的r可能在中国北方发音,而所说的最后的r在中国南方可能不用。
38.权利要求37的方法,其中所说的北方-南方普通话方言变化对包括shi4~shir4对、bian1~bianr1对、pian4~pianr4对ge1~ger1对、dian3~dianr3对、tian1~tianr1对、gou3~gour3对、ban4~banr4、qiu2~qiur2对、wan2~wanr2对和zhao1~zhaor1对。
39.权利要求21的方法,其中塞擦音技术用于实施所说的词汇字典以包括且合并塞擦音s^`可替换的南方普通话汉语发音与音位t^,因为,在中国南方,所说的塞擦音s^`发音更接近所说的音素t^,所说的塞擦音技术因此处理所说的塞擦音s^`的北方普通话发音和南方普通话发音两者。
40.权利要求21的方法,其中塞擦音技术用于实施所说的词汇字典以包括且合并塞擦音s^可替换的南方普通话汉语发音与音位s,因为,在中国南方,所说的塞擦音s^发音更接近所说的音素s,所说的塞擦音技术因此处理了所说的塞擦音s^的北方普通话发音和南方普通话发音两者。
41.一种包括通过执行如下的步骤执行语音识别的程序指令的计算机可读媒体:
将识别器构造成比较输入语音数据和来自根据优化的音素集实施的词汇字典的音素串,所说的优化的音素集通过利用音位的和音位变体的变化技术以小型化的方式实施,所说的词汇字典通过利用一种或多种字典优化技术实施;和
以处理器控制所说的识别器由此执行所说的语音识别过程。
42.一种执行语音识别过程的系统,包括:
比较输入语音数据和来自根据优化的音素集实施的词汇字典的音素串的装置,所说的优化的音素集通过利用音位的和音位变体的变化技术以小型化的方式实施,所说的词汇字典通过利用一种或多种字典优化技术实施;和
控制所说的用于比较的装置由此执行所说的语音识别过程的装置。
CN2004100332291A 2003-03-31 2004-03-31 有效地实施普通话汉语语音识别字典的系统和方法 Expired - Fee Related CN1538384B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/403747 2003-03-31
US10/403,747 US7353174B2 (en) 2003-03-31 2003-03-31 System and method for effectively implementing a Mandarin Chinese speech recognition dictionary

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN2010102607735A Division CN101958118A (zh) 2003-03-31 2004-03-31 有效地实施语音识别字典的系统和方法

Publications (2)

Publication Number Publication Date
CN1538384A true CN1538384A (zh) 2004-10-20
CN1538384B CN1538384B (zh) 2010-11-24

Family

ID=32990019

Family Applications (2)

Application Number Title Priority Date Filing Date
CN2004100332291A Expired - Fee Related CN1538384B (zh) 2003-03-31 2004-03-31 有效地实施普通话汉语语音识别字典的系统和方法
CN2010102607735A Pending CN101958118A (zh) 2003-03-31 2004-03-31 有效地实施语音识别字典的系统和方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN2010102607735A Pending CN101958118A (zh) 2003-03-31 2004-03-31 有效地实施语音识别字典的系统和方法

Country Status (2)

Country Link
US (1) US7353174B2 (zh)
CN (2) CN1538384B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103578464A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 语言模型的建立方法、语音辨识方法及电子装置
CN103839546A (zh) * 2014-03-26 2014-06-04 合肥新涛信息科技有限公司 一种基于江淮语系的语音识别系统
CN107767858A (zh) * 2017-09-08 2018-03-06 科大讯飞股份有限公司 发音词典生成方法及装置、存储介质、电子设备
CN110827803A (zh) * 2019-11-11 2020-02-21 广州国音智能科技有限公司 方言发音词典的构建方法、装置、设备及可读存储介质
CN112382275A (zh) * 2020-11-04 2021-02-19 北京百度网讯科技有限公司 语音识别方法、装置、电子设备和存储介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7640159B2 (en) * 2004-07-22 2009-12-29 Nuance Communications, Inc. System and method of speech recognition for non-native speakers of a language
US9966064B2 (en) 2012-07-18 2018-05-08 International Business Machines Corporation Dialect-specific acoustic language modeling and speech recognition
US10403265B2 (en) * 2014-12-24 2019-09-03 Mitsubishi Electric Corporation Voice recognition apparatus and voice recognition method
CN105913841B (zh) * 2016-06-30 2020-04-03 北京小米移动软件有限公司 语音识别方法、装置及终端
CN112489634A (zh) * 2020-11-17 2021-03-12 腾讯科技(深圳)有限公司 语言的声学模型训练方法、装置、电子设备及计算机介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4370521A (en) * 1980-12-19 1983-01-25 Bell Telephone Laboratories, Incorporated Endpoint detector
EP0071716B1 (en) * 1981-08-03 1987-08-26 Texas Instruments Incorporated Allophone vocoder
JPH0758499B2 (ja) * 1987-09-08 1995-06-21 沖電気工業株式会社 文字認識装置
US5220639A (en) * 1989-12-01 1993-06-15 National Science Council Mandarin speech input method for Chinese computers and a mandarin speech recognition machine
US5268990A (en) * 1991-01-31 1993-12-07 Sri International Method for recognizing speech using linguistically-motivated hidden Markov models
US5680510A (en) * 1995-01-26 1997-10-21 Apple Computer, Inc. System and method for generating and using context dependent sub-syllable models to recognize a tonal language
US5758319A (en) * 1996-06-05 1998-05-26 Knittle; Curtis D. Method and system for limiting the number of words searched by a voice recognition system
US6510410B1 (en) * 2000-07-28 2003-01-21 International Business Machines Corporation Method and apparatus for recognizing tone languages using pitch information

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103578464A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 语言模型的建立方法、语音辨识方法及电子装置
CN103839546A (zh) * 2014-03-26 2014-06-04 合肥新涛信息科技有限公司 一种基于江淮语系的语音识别系统
CN107767858A (zh) * 2017-09-08 2018-03-06 科大讯飞股份有限公司 发音词典生成方法及装置、存储介质、电子设备
CN110827803A (zh) * 2019-11-11 2020-02-21 广州国音智能科技有限公司 方言发音词典的构建方法、装置、设备及可读存储介质
CN112382275A (zh) * 2020-11-04 2021-02-19 北京百度网讯科技有限公司 语音识别方法、装置、电子设备和存储介质
CN112382275B (zh) * 2020-11-04 2023-08-15 北京百度网讯科技有限公司 语音识别方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN1538384B (zh) 2010-11-24
US20040193417A1 (en) 2004-09-30
US7353174B2 (en) 2008-04-01
CN101958118A (zh) 2011-01-26

Similar Documents

Publication Publication Date Title
CN1143263C (zh) 识别有调语言的系统和方法
CN1168068C (zh) 语音合成系统与语音合成方法
CN1159702C (zh) 具有情感的语音-语音翻译系统和方法
CN1238833C (zh) 语音识别装置以及语音识别方法
CN1183510C (zh) 根据基音信息识别声调语言的方法与设备
CN100347741C (zh) 移动语音合成方法
CN1057625C (zh) 使用神经网络变换文本为声频信号的方法
CN101042867A (zh) 语音识别设备和方法
CN1234109C (zh) 语调生成方法、语音合成装置、语音合成方法及语音服务器
CN1169116C (zh) 语音识别装置和识别方法
CN1941077A (zh) 识别语音输入中的字符串的语音识别设备和方法
US7415411B2 (en) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
CN1461463A (zh) 语音合成设备
CN1920948A (zh) 语音识别系统及语音处理系统
CN101046960A (zh) 处理语音中的话音的装置和方法
CN1196103C (zh) 语音识别设备和方法以及记录了语音识别程序的记录媒体
CN1725295A (zh) 语音处理装置、语音处理方法、程序、和记录介质
CN1194337C (zh) 语音识别设备和方法以及记录了语音识别程序的记录媒体
CN1879147A (zh) 文本到语音转换方法和系统、及其计算机程序产品
CN101067780A (zh) 智能设备的文字输入系统及方法
CN1652107A (zh) 语言变换规则产生装置、语言变换装置及程序记录媒体
CN101042868A (zh) 群集系统、方法、程序和使用群集系统的属性估计系统
CN1622195A (zh) 语音合成方法和语音合成系统
CN1975857A (zh) 会话控制装置
CN1365488A (zh) 语音识别方法和装置以及记录介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20101124

Termination date: 20200331

CF01 Termination of patent right due to non-payment of annual fee