CN1666253A - 利用优化音素集进行普通话语音识别的系统和方法 - Google Patents

利用优化音素集进行普通话语音识别的系统和方法 Download PDF

Info

Publication number
CN1666253A
CN1666253A CN038162504A CN03816250A CN1666253A CN 1666253 A CN1666253 A CN 1666253A CN 038162504 A CN038162504 A CN 038162504A CN 03816250 A CN03816250 A CN 03816250A CN 1666253 A CN1666253 A CN 1666253A
Authority
CN
China
Prior art keywords
phone set
phoneme
optimization
recognizer
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN038162504A
Other languages
English (en)
Other versions
CN100380442C (zh
Inventor
X·梅嫩德斯-皮达尔
段镭
吕静雯
L·奥罗伦肖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Electronics Inc
Original Assignee
Sony Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Electronics Inc filed Critical Sony Electronics Inc
Publication of CN1666253A publication Critical patent/CN1666253A/zh
Application granted granted Critical
Publication of CN100380442C publication Critical patent/CN100380442C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Machine Translation (AREA)

Abstract

本发明包含一种利用优化音素集实现普通话语音识别器的系统和方法,并可包含一种识别器,该识别器用来对输入语音数据和根据优化普通话音素集实现的词汇字典中的音素串进行比较。利用语音技术实现所述优化音素集分别提供辅音音素和元音音素。为了系统的有效性,以压缩方式实现所述优化音素集仅包括所需最少的所述辅音音素和所述元音音素,从而在语音识别过程中精确表示普通话语音。

Description

利用优化音素集进行普通话语音识别的系统和方法
技术领域
本发明总体上涉及电子语音识别系统,具体而言,本发明涉及一种利用优化音素集进行普通话语音识别的系统和方法。
背景技术
为系统用户实现一种鲁棒而又有效的与电子设备进行交流的方法是系统设计者和制造者主要考虑的事。对于许多系统用户来说,电子设备的声控操作是一种理想的接口。例如,声控操作允许用户同步执行其它任务。例如,一个人可以驾驶汽车,同时利用声控操作电子组织者。对于那些有身体限制或者其它特殊需求的用户来说,不用手操作电子系统也是理想的。
通过各种语音激活电子系统可以实现不用手操作电子设备。因此,语音激活电子系统有利地允许用户在使用传统输入设备不方便或者潜在危险的情况下与电子设备进行交流。电子娱乐系统也可利用语音识别技术,从而允许用户通过说话来与系统交流。
可是,有效实现这种系统可能会对系统设计者产生重大挑战。例如,对增加的系统功能和系统的增强需要可能需要更多的系统处理能力,并需要另外的软件资源。处理或硬件需求的增加也可因增加的生产费用和操作效率低而导致相应的有害经济影响。
另外,进行各种高级操作的增强系统能力可为系统用户提供额外的好处,但是也可对各种系统部件的控制和管理产生更多的要求。例如,有效识别普通话单词和短语的增强电子系统可因涉及的大量复杂的数字数据而不易有效实现。因此,由于所有上述原因,为系统用户实现一种鲁棒而又有效的与电子设备进行交流的方法仍然是系统设计者和制造者主要考虑的事。
发明内容
根据本发明,公开了一种利用优化音素集实现普通话语音识别器的系统和方法。在一个实施例中,可以配置识别器以便比较输入语音数据和根据优化普通话音素集实现的词汇字典中的音素串。
使用语音技术可以实现该优化普通话音素集分别包括辅音音素和元音音素。为了系统有效性,可优选地以压缩方式来实现该优化普通话音素集仅包括所需最少的辅音音素和元音音素,以便在语音识别过程中精确地表达普通话语音。
在某些实施例中,优化普通话音素集可包括以下辅音音素:b,p,d,t,g,k,z,c,zh,ch,j,q,f,s,sh,x,h,m,n,ng,l,r,y,和w。另外,该优化普通话音素集还可包括以下元音音素:a,e,o,i,u,yu,ai,ei,ao,和ou。在许多实施例中,该优化普通话音素集还可包括结束音素“cl”。由于使用相对少量的音素,因此该优化普通话音素集提供了一种用来精确地识别普通话语音的有效且简洁的音素表示法。
在某些实施例中,优化普通话音素集可通过使用单个统一的双元音音素,有利地表示双元音。例如,该优化普通话音素集可包括以下统一的双元音音素:ai,ei,ao,和ou。另外,无音调信息加入该优化普通话音素集。因此,本发明提供一种利用优化音素集实现普通话语音识别器的有效的系统和方法。
附图说明
图1是根据本发明的计算机系统的一个实施例的方框图;
图2是根据本发明的图1中存储器的一个实施例的方框图;
图3是根据本发明的图2的语音识别引擎的一个实施例的方框图;
图4是根据本发明的图2的隐式Markov模型的一个实施例的示意图;
图5是根据本发明的图2的词典的一个实施例的示意图;
图6是根据本发明的一个实施例的优化普通话音素集的示意图;和
图7是根据本发明的一个实施例描述处理双元音技术的示意图。
具体实施方式
本发明设计一种语音识别系统的改进。根据专利申请及其要求提供以下说明,使本领域的普通技术人员能够制造和使用本发明。对于那些本领域的普通技术人员来说,可以很容易地对优选实施例进行各种修改,并且这里的基本原理可以应用到其它实施例中。因此,本发明并不限于所示实施例,而是应该给予符合这里所述的原理和特征的最宽范围。
本发明包含一种利用优化音素集实现普通话语音识别器的系统和方法,并且可包括识别器,该识别器用来比较输入语音数据和根据优化普通话音素集实现的词汇字典中的音素串。利用语音技术可实现该优化普通话音素集分别包括辅音音素和元音音素。为了系统有效性,可优选地以压缩方式来实现该优化普通话音素集仅包括所需最少的辅音音素和元音音素,以便在语音识别过程中精确地表达普通话语音。
现参考图1,图中示出了根据本发明的计算机系统110的一个实施例的方框图。图1实施例包括声音传感器112,放大器116,模拟数字转换器120,中央处理器(CPU)128,存储器130,和输入/输出接口132。该计算机系统110可容易地包括各种其它元件或功能,以便加在结合图1实施例讨论的那些元件或功能之上,或者取代结合图1实施例讨论的那些元件或功能。
声音传感器112检测声能并将检测到的声能转换成模拟语音信号,该模拟语音信号可经由线114提供给放大器116。放大器116放大接收到的模拟语音信号,并将该放大的模拟语音信号经由线118提供给模拟数字转换器120。然后,模拟数字转换器120将放大的模拟语音信号转换成相应的数字语音数据。接着,模拟数字转换器120经由线122将该数字语音数据提供给系统总线124。
接着,CPU 128可获取系统总线124上的数字语音数据,并做出响应,分析和处理该数字语音数据,以便根据存储器130中所包含的软件指令进行语音检测。存储器130中软件指令和CPU 126的工作将在下面结合图2-7进一步讨论。该语音数据经处理后,CPU 128接着可将该语音检测分析结果经由输入/输出接口132提供给其它设备(未示出)。在可选实施例中,本发明可容易地包含在不同于图1中所示的计算机系统110的各种其它设备中。
现参考图2,图中示出了根据本发明的图1中存储器130的一个实施例的方框图。存储器130可选地包含各种存储设备配置,包含随机存取存储器(RAM)和存储设备如软盘或硬盘驱动器。在图2实施例中,存储器130包括,但不限于,语音识别引擎210,隐式Markov模型(HMM)212,词汇字典214,和语言模型216。在可选实施例中,存储器130可容易地包括各种其它元件或功能,以便加在结合图2实施例讨论的那些元件或功能之上,或者取代结合图2实施例讨论的那些元件或功能。
在图2实施例中,语音识别引擎210包括一系列软件模块,该一系列软件模块由CPU 128执行以分析和识别语音数据,该一系列软件模块将在下面结合图3进行进一步描述。在可选实施例中,使用各种其它软件和/或硬件配置可容易地实现语音识别引擎210。语音识别引擎210可利用HMM 212和字典214来实现本发明的语音识别功能。HMM212的一个实施例将在下面将结合图4进一步讨论,而字典214的一个实施例将在下面结合图5进一步讨论。语言模型216可包括根据前面词预测后面词的词序或“句法”模型。
现参考图3,图中示出了根据本发明的图2中语音识别引擎210的一个实施例的方框图。语音识别引擎210包括,但不限于,特征提取器310,终点检测器312,和识别器314。在可选实施例中,语音识别引擎210可容易地包括各种其它元件或功能,以便加在结合图3实施例讨论的那些元件或功能之上,或者取代结合图3实施例讨论的那些元件或功能。
在图3实施例中,模拟数字转换器120(图1)将数字语音数据经由系统总线124提供给特征提取器310。特征提取器310做出响应生成特征向量,该特征向量经由通道320提供给识别器314。特征提取器310进一步做出响应生成语音能量,经由通道322提供给终点检测器312。终点检测器312分析该语音能量并做出响应检测由语音能量表现出的说话的终点。该终点表示说话在时间上的开始和结束。接着,终点检测器312将该终点经由通道324提供给识别器314。
识别器314优选地被设计用来识别字典214(图2)中表示的预定词汇量中的单词。上述字典214中词汇量单词可对应于用于计算机系统110的任何期望的命令,指令,或其它信息。接着,该识别的词汇量单层或命令可经由通道332被输出到系统110。
实际上,字典214中的每个单词都可与组成该单词的相应音素串(单个音素组成的串)相联系。隐式Markov模型(HMM)212(图2)可包括可用来表示字典214中单词的预定音素集中每个音素经训练的随机表示。识别器314接着可比较来自线320的输入特征向量和字典214中每个音素串的合适的HMM 212,以便确定哪个单词产生最高的识别得分。这样,对应于最高识别得分的那个单词可被认为是被识别单词。
现参考图4,图中示出了根据本发明的图2中HMM的一个实施例的方框图。在图4实施例中,HMM 212可优选地包括模型1(412(a))到模型N(412(c))。在可选实施例中,HMM 212可容易地包括各种其它元件或功能,以便加在结合图4实施例讨论的那些元件或功能之上,或者取代结合图4实施例讨论的那些元件或功能。
在图4实施例中,可容易地实现HMM 212包括任何期望数量的模型412,该模型412可包括任何需要类型的信息。在图4实施例中,HMM的每个模型412可对应于预定音素集中各个特定的音素,以便和识别器314(图3)一起使用。优化普通话音素集的一个实施例将在下面结合图6-7进一步讨论。
现参考图5,图中示出了根据本发明的图2中字典214的方框图。在图5实施例中,字典214优选地可包括单词1(512(a))到单词N(512(c))。在可选实施例中,字典214可容易地包括各种其它元件或功能,以便加在结合图5实施例讨论的那些元件或功能之上,或者取代结合图5实施例讨论的那些元件或功能。
在图5实施例中,可容易地实现字典214包括任何期望数量的词条512,该词条512可包括任何需要类型的信息。在图5实施例中,正如上面结合图3讨论的那样,字典214中的每个词条也可包括预定音素集中单个音素组成的相应的音素串。上述音素串中的单个音素优选地形成了字典214中相应词条512发音的连续表示。优选普通话音素集的一个实施例将在下面结合图6-7进一步讨论。
现参考图6,图中示出了根据本发明一个实施例的优化普通话音素集610的示意图。在可选实施例中,本发明可容易地包括各种其它元件或功能,以便加在结合图6实施例讨论的那些元件或功能之上,或者取代结合图6实施例讨论的那些元件或功能。
在图6实施例中,音素集610包括36个单独的音素,该36个单独音素可用来表示普通话中的语音。由于普通话中文典型地是使用中文字符代替罗马字母来书写的,因此利用被称为“拼音”的标准普通话罗马字书写方法来表示图6的音素集610(除了附加的结束音素“cl”之外)。应当指出的还有,在图6的音素集610中拼音“ü”被表示为“yu”,以便计算机键盘使用。在可选实施例中,本发明可使用以其它类型的罗马字书写方法表示的优化普通话音素集。
由于使用相对少量的音素,因此音素集610提供了一种用来精确识别普通话语音的有效而又简洁的音素表示法。音素集610中单独音素数量的减少显著节约了电子系统110中的处理资源和存储器。另外,总音素数量的减少充分减少了与训练隐式Markov模型(HMM)212有关的负担。可是,在各种可选实施例中,可实现本发明包括各种附加的或者不同的音素,这些音素不同于图6实施例中示出的那些音素。
传统的普通话识别系统典型地利用一种以子音节方法实现的音素集,在该子音节方法中每个音节表示为韵脚或半音节。相反地,优化普通话音素集610有利地利用语音技术,其中音节进一步被分成语音单元,该语音单元可以用合适的辅音音素和元音音素组合表示,从而为语音表示过程提供更大的颗粒度。另外,音素集610表示普通话的各种声音,而不需要利用相应的音调信息作为不同音素的一部分。除了提供更大的灵活性之外,上述语音技术也具有音素集610中需要更少的总音素的优点。
根据对应的音素的特性,可以将图6的音素集610组织到不同语言种类中。为了说明起见,表1中表示了一种这样的组织,表1中包括左面的种类和右面的音素集610中对应的音素。另外,表1还包括根据由国际语音协会(IPA)开发的一种系统的音素集610的第二等价表示法。有关国际语音协会(IPA)的进一步信息可以在环球网www.arts.gla.ac.uk/IPA/fullchart.html上找到。在可选实施例中,也可以以不同于表1中示出的各种方法将音素集610。
表1
           Sony(基于拼音)     IPA
闭止音          b             p
                p             ph
                d             t
                t             th
                g             k
                k             kh   
破擦音          z             t^
                c             t^h
                zh            s^`
                ch            s^`h
                j             C^
                q             C^h    
摩擦音          f             f
                s             s
                sh            s^
                x             C
                h             x   
鼻音            m             m
                n             n
                ng            N    
近似音          l             l
                r             r^
                y             j
                w             w
                yu            H   
元音            a             a
                e             e
                o             o
                i             i
                u             u
                yu            yu   
双元音          ai            aj
(可选)          ei            ej
                ao            aw
                ou                ow  
结束音          cl
(可选)
现参考图7,图中示出了根据本发明一个实施例描述处理双元音技术的示意图710。在可选实施例中,本发明可容易地使用各种其它技术或功能,以便加在结合图7实施例讨论的那些技术或功能之上,或者取代结合图7实施例讨论的那些技术或功能,从而处理双元音。
在图7实施例中,优化普通话音素集610(图6)可有利地通过使用单个统一的音素来表示双元音(两个或多个同时发出的元音声音)。例如,在图7实施例中,音素集610可包括以下统一的双元音音素:ai,ei,ao,ou。本发明可有效地利用该统一的双元音音素,从而节约处理和存储资源。另外,由于普通话语音的双元音中元音声音发生相对较快,因此,将双元音表示为统一的音素可防止语音识别过程中的各种问题。
为了说明,在图7实施例中,模块714包括示例的普通话单词“hei”。在模块716,单词“hei”被表示成具有三个单独单元“h”,“e”和“y”的常规语言方式。根据本发明,在模块718中,有效地仅使用音素集610中的两个音素,即“h”和“ei”来表示单词“hei”。根据本发明,任何类型的普通话双元音(或者其它双元音)都可以利用统一的音素来表示,如图7实施例中所示。
以上参考优选实施例阐述了本发明。根据本说明书,那些本领域的技术人员将明白其它实施例。例如,使用不同于上述优选实施例中描述的其它配置和技术,可以容易地实现本发明。另外,本发明可有效用来和不同于上述优选实施例的其它系统一起使用。因此,本发明试图覆盖在优选实施例基础上的这些和其它变化,本发明仅受所附权利要求的限制。

Claims (42)

1.一种用来执行语音识别过程的系统,包含:
识别器,用来比较输入语音数据和根据优化音素集实现的词汇字典中的音素串,利用语音技术实现所述优化音素集以分别提供辅音音素和元音音素,以压缩方式实现所述优化音素集以仅包括所需最少的所述辅音音素和所述元音音素;和
处理器,用来控制所述识别器,从而执行所述语音识别过程。
2.权利要求1的系统,其中所述输入语音数据包括普通话语言数据,所述优化音素集被压缩配置以便精确表示所述普通话语言数据。
3.权利要求1的系统,其中所述识别器和所述处理器被实施成消费电子设备的一部分。
4.权利要求1的系统,其中所述优化音素集在执行所述语音识别程序的同时,节约处理资源和存储资源。
5.权利要求1的系统,其中所述优化音素集减少了执行识别器训练程序以便初始执行所述识别器的训练需要。
6.权利要求1的系统,其中所述音素串中每一个都包括不同的一串来自优化音素集的音素,所述音素串中每一个对应于所述词汇字典中的不同单词。
7.权利要求6的系统,其中所述识别器比较所述输入语音数据和所述词汇字典中所述音素串的隐式Markov模型,从而在所示语音识别过程中选择出被识别单词。
8.权利要求1的系统,其中所述优化音素集包括音素b,p,d,t,g,k,z,c,zh,ch,j,q,f,s,sh,x,h,m,n,ng,l,r,y,w,a,e,o,i,u,yu,ai,ei,ao,和ou。
9.权利要求1的系统,其中所述优化音素集包括辅音音素b,p,d,t,g,k,z,c,zh,ch,j,q,f,s,sh,x,h,m,n,ng,l,r,y,和w。
10.权利要求1的系统,其中所述优化音素集包括结束音素“cl”。
11.权利要求1的系统,其中所述优化音素集包括元音音素a,e,o,i,u,yu,ai,ei,ao,和ou。
12.权利要求1的系统,其中所述优化音素集利用统一的双元音音素来表示某些双元音,从而在为所述语音识别程序提供更大精确度特性的同时,节约处理资源和存储资源。
13.权利要求12的系统,其中所述优化音素集包括统一双元音音素ai,ei,ao,和ou。
14.权利要求1的系统,其中所述优化音素集包括闭止音类,该闭止音类包括单独音素b,p,d,t,g,和k。
15.权利要求1的系统,其中所述优化音素集包括破擦音类,该破擦音类包括单独音素z,c,zh,ch,j,和q。
16.权利要求1的系统,其中所述优化音素集包括摩擦音类,该摩擦音类包括单独音素f,s,sh,x,和h。
17.权利要求1的系统,其中所述优化音素集包括近似音类,该近似音类包括单独音素l,r,y,w,和yu。
18.权利要求1的系统,其中所述优化音素集包括鼻音类,该鼻音类包括单独音素m,n,和ng。
19.权利要求1的系统,其中所述优化音素集表示普通话语言的各种声音,而不需利用相应的音调信息作为所述优化音素集中不同音素的一部分。
20.权利要求1的系统,其中所述优化音素集中的所述辅音音素和所述元音音素被组合起来表示普通话语言系统中的音节。
21.一种用来执行语音识别过程的方法,包含步骤:
配置一种识别器,以便比较输入语音数据和根据优化音素集实现的词汇字典中的音素串,利用语音技术实现所述优化音素集分别提供辅音音素和元音音素,以压缩方式实现所述优化音素集仅包括所需最少的所述辅音音素和所述元音音素;和
利用处理器控制所述识别器,从而执行所述语音识别过程。
22.权利要求21的方法,其中所述输入语音数据包括普通话语言数据,所述优化音素集被压缩配置以便精确表示所述普通话语言数据。
23.权利要求21的方法,其中所述识别器和所述处理器被实施成消费电子设备的一部分。
24.权利要求21的方法,其中所述优化音素集在执行所述语音识别程序的同时,节约处理资源和存储资源。
25.权利要求21的方法,其中所述优化音素集减少了执行识别器训练程序以便初始执行所述识别器的训练需要。
26.权利要求21的方法,其中所述音素串中每一个都包括不同的一串来自优化音素集的音素,所述音素串中每一个对应于所述词汇字典中的一个不同单词。
27.权利要求26的方法,其中所述识别器比较所述输入语音数据和所述词汇字典中所述音素串的隐式Markov模型,从而在所示语音识别过程中选择出被识别单词。
28.权利要求21的方法,其中所述优化音素集包括音素b,p,d,t,g,k,z,c,zh,ch,j,q,f,s,sh,x,h,m,n,ng,l,r,y,w,a,e,o,i,u,yu,ai,ei,ao,和ou。
29.权利要求21的方法,其中所述优化音素集包括辅音音素b,p,d,t,g,k,z,c,zh,ch,j,q,f,s,sh,x,h,m,n,ng,l,r,y,和w。
30.权利要求21的方法,其中所述优化音素集包括结束音素“cl”。
31.权利要求21的方法,其中所述优化音素集包括元音音素a,e,o,i,u,yu,ai,ei,ao,和ou。
32.权利要求21的方法,其中所述优化音素集利用统一的双元音音素来表示某些双元音,从而在为所述语音识别程序提供更大精确度特性的同时,节约处理资源和存储资源。
33.权利要求32的方法,其中所述优化音素集包括统一双元音音素ai,ei,ao,和ou。
34.权利要求21的方法,其中所述优化音素集包括闭止音类,该闭止音类包括单独音素b,p,d,t,g,和k。
35.权利要求21的方法,其中所述优化音素集包括破擦音类,该破擦音类包括单独音素z,c,zh,ch,j,和q。
36.权利要求21的方法,其中所述优化音素集包括摩擦音类,该摩擦音类包括单独音素f,s,sh,x,和h。
37.权利要求21的方法,其中所述优化音素集包括近似音类,该近似音类包括单独音素l,r,y,w,和yu。
38.权利要求21的方法,其中所述优化音素集包括鼻音类,该鼻音类包括单独音素m,n,和ng。
39.权利要求21的方法,其中所述优化音素集表示普通话语言的各种声音,而不需利用相应的音调信息作为所述优化音素集中不同音素的一部分。
40.权利要求21的方法,其中所述优化音素集中的所述辅音音素和所述元音音素被组合起来表示普通话语言系统中的音节。
41.一种计算机可读媒介,包含用来执行语音识别的程序指令,执行步骤为:
配置一种识别器,以便比较输入语音数据和根据优化普通话音素集实现的词汇字典中的音素串,利用语音技术实现所述优化音素集分别提供辅音音素和元音音素,以压缩方式实现所述优化音素集仅包括所需最少的所述辅音音素和所述元音音素;和
利用处理器控制所述识别器,从而执行所述语音识别过程。
42.一种用来执行语音识别过程的系统,包含
用来比较输入语音数据和根据优化普通话音素集实现的词汇字典中的音素串的装置,其中利用语音技术实现所述优化音素集分别提供辅音音素和元音音素,以压缩方式实现所述优化音素集仅包括所需最少的所述辅音音素和所述元音音素;和
用来控制所述用来比较的装置以便执行所述语音识别过程的装置。
CNB038162504A 2002-07-11 2003-07-07 利用优化音素集进行普通话语音识别的系统和方法 Expired - Fee Related CN100380442C (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US39511302P 2002-07-11 2002-07-11
US60/395,113 2002-07-11
US10/403,642 US7353173B2 (en) 2002-07-11 2003-03-31 System and method for Mandarin Chinese speech recognition using an optimized phone set
US10/403,642 2003-03-31

Publications (2)

Publication Number Publication Date
CN1666253A true CN1666253A (zh) 2005-09-07
CN100380442C CN100380442C (zh) 2008-04-09

Family

ID=30118471

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB038162504A Expired - Fee Related CN100380442C (zh) 2002-07-11 2003-07-07 利用优化音素集进行普通话语音识别的系统和方法

Country Status (4)

Country Link
US (1) US7353173B2 (zh)
CN (1) CN100380442C (zh)
AU (1) AU2003249733A1 (zh)
WO (1) WO2004008433A2 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103578464A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 语言模型的建立方法、语音辨识方法及电子装置
CN105225659A (zh) * 2015-09-10 2016-01-06 中国航空无线电电子研究所 一种指令式语音控制发音词典辅助生成方法
CN106205601A (zh) * 2015-05-06 2016-12-07 科大讯飞股份有限公司 确定文本语音单元的方法及系统
CN107210040A (zh) * 2015-02-11 2017-09-26 三星电子株式会社 语音功能的操作方法和支持该方法的电子设备

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060293890A1 (en) * 2005-06-28 2006-12-28 Avaya Technology Corp. Speech recognition assisted autocompletion of composite characters
US8249873B2 (en) * 2005-08-12 2012-08-21 Avaya Inc. Tonal correction of speech
CN103137125A (zh) * 2011-11-30 2013-06-05 北京德信互动网络技术有限公司 基于声控的智能电子设备和声控方法
CN103578467B (zh) * 2013-10-18 2017-01-18 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4370521A (en) * 1980-12-19 1983-01-25 Bell Telephone Laboratories, Incorporated Endpoint detector
EP0071716B1 (en) * 1981-08-03 1987-08-26 Texas Instruments Incorporated Allophone vocoder
JPH0758499B2 (ja) * 1987-09-08 1995-06-21 沖電気工業株式会社 文字認識装置
US5220639A (en) * 1989-12-01 1993-06-15 National Science Council Mandarin speech input method for Chinese computers and a mandarin speech recognition machine
US5268990A (en) * 1991-01-31 1993-12-07 Sri International Method for recognizing speech using linguistically-motivated hidden Markov models
US5884261A (en) * 1994-07-07 1999-03-16 Apple Computer, Inc. Method and apparatus for tone-sensitive acoustic modeling
US5602960A (en) 1994-09-30 1997-02-11 Apple Computer, Inc. Continuous mandarin chinese speech recognition system having an integrated tone classifier
US5787230A (en) 1994-12-09 1998-07-28 Lee; Lin-Shan System and method of intelligent Mandarin speech input for Chinese computers
US5680510A (en) * 1995-01-26 1997-10-21 Apple Computer, Inc. System and method for generating and using context dependent sub-syllable models to recognize a tonal language
CN1153127C (zh) * 1995-01-26 2004-06-09 李琳山 普通话语音输入和训练方法及普通话听写机
US5751905A (en) * 1995-03-15 1998-05-12 International Business Machines Corporation Statistical acoustic processing method and apparatus for speech recognition using a toned phoneme system
US5893133A (en) 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
US6067520A (en) * 1995-12-29 2000-05-23 Lee And Li System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models
US5758319A (en) * 1996-06-05 1998-05-26 Knittle; Curtis D. Method and system for limiting the number of words searched by a voice recognition system
US5764851A (en) 1996-07-24 1998-06-09 Industrial Technology Research Institute Fast speech recognition method for mandarin words
US6085160A (en) 1998-07-10 2000-07-04 Lernout & Hauspie Speech Products N.V. Language independent speech recognition
US6553342B1 (en) * 2000-02-02 2003-04-22 Motorola, Inc. Tone based speech recognition
WO2002029616A1 (en) * 2000-09-30 2002-04-11 Intel Corporation Method, apparatus, and system for bottom-up tone integration to chinese continuous speech recognition system

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103578464A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 语言模型的建立方法、语音辨识方法及电子装置
CN107210040A (zh) * 2015-02-11 2017-09-26 三星电子株式会社 语音功能的操作方法和支持该方法的电子设备
US10733978B2 (en) 2015-02-11 2020-08-04 Samsung Electronics Co., Ltd. Operating method for voice function and electronic device supporting the same
CN106205601A (zh) * 2015-05-06 2016-12-07 科大讯飞股份有限公司 确定文本语音单元的方法及系统
CN105225659A (zh) * 2015-09-10 2016-01-06 中国航空无线电电子研究所 一种指令式语音控制发音词典辅助生成方法

Also Published As

Publication number Publication date
CN100380442C (zh) 2008-04-09
WO2004008433A2 (en) 2004-01-22
WO2004008433A3 (en) 2004-03-11
US7353173B2 (en) 2008-04-01
US20040010405A1 (en) 2004-01-15
AU2003249733A1 (en) 2004-02-02

Similar Documents

Publication Publication Date Title
JP5174937B2 (ja) 音声認識装置及び方法
JP4818683B2 (ja) 言語モデルを作成する方法
US7502731B2 (en) System and method for performing speech recognition by utilizing a multi-language dictionary
JP2005258443A (ja) 発音グラフを使用して新しい単語の発音学習を改善すること
CN111243599B (zh) 语音识别模型构建方法、装置、介质及电子设备
CN1667699A (zh) 为字母-声音转换生成有互信息标准的大文法音素单元
WO2020238045A1 (zh) 智能语音识别方法、装置及计算机可读存储介质
CN101008942A (zh) 机器翻译装置和机器翻译方法
JPH10501078A (ja) 音声認識システムの言語モデルのサイズを適応させるための方法および装置
JP2007500367A (ja) 音声認識方法およびコミュニケーション機器
CN110010136B (zh) 韵律预测模型的训练和文本分析方法、装置、介质和设备
JP2009139862A (ja) 音声認識装置及びコンピュータプログラム
CN1151489C (zh) 中国人名、地名和单位名的语音识别方法
CN1300049A (zh) 汉语普通话话音识别的方法和设备
CN1666253A (zh) 利用优化音素集进行普通话语音识别的系统和方法
US7181396B2 (en) System and method for speech recognition utilizing a merged dictionary
US20090182561A1 (en) Speech recognition device and method thereof
JP2017102247A (ja) 音声対話システム、音声対話制御法およびプログラム
US7353174B2 (en) System and method for effectively implementing a Mandarin Chinese speech recognition dictionary
Wester et al. A comparison of data-derived and knowledge-based modeling of pronunciation variation
US7353172B2 (en) System and method for cantonese speech recognition using an optimized phone set
JP2005092310A (ja) 音声キーワード認識装置
JP2009069276A (ja) 音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造
KR0157026B1 (ko) 한국어 기본음소단위군으로 구성한 한국어 형태소 발음사전을 사용한 한국어 연속음성 인식시스템 및 그 방법
TWM651158U (zh) 以類神經網路語言模組之動態加新詞改善語音辨識之系統

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080409

Termination date: 20180707