CN102479508B - 用于将文本转换成语音的方法和系统 - Google Patents

用于将文本转换成语音的方法和系统 Download PDF

Info

Publication number
CN102479508B
CN102479508B CN201010580334.2A CN201010580334A CN102479508B CN 102479508 B CN102479508 B CN 102479508B CN 201010580334 A CN201010580334 A CN 201010580334A CN 102479508 B CN102479508 B CN 102479508B
Authority
CN
China
Prior art keywords
list
data source
phoneme
entry
part entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201010580334.2A
Other languages
English (en)
Other versions
CN102479508A (zh
Inventor
刘盈
付国康
韩兆兵
贾宾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN201010580334.2A priority Critical patent/CN102479508B/zh
Priority to US13/287,400 priority patent/US8650032B2/en
Priority to US13/411,614 priority patent/US8620656B2/en
Publication of CN102479508A publication Critical patent/CN102479508A/zh
Application granted granted Critical
Publication of CN102479508B publication Critical patent/CN102479508B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了用于将文本转换成语音的方法和系统。在本发明中,通过并行地或串行地解析数据源,获得数据源的部分词条列表。然后对各个部分词条列表分别进行编译,以获得与各个部分词条列表相对应的各个音素图。然后合并获得的各个音素图。然后,根据合并结果,进行语音处理。根据本发明,可以在语音识别过程中降低计算复杂度,提高识别效率。

Description

用于将文本转换成语音的方法和系统
技术领域
本发明涉及信息技术领域,更具体地,本发明涉及用于将文本转换成语音的方法和系统。
背景技术
直到现在,LVCSR(大词汇量连续语音识别)和NLU(自然语言处理)仍然不能满足现实生活中人机语音通信的正确性和性能要求。
因此,在支持语音的应用中,例如在基于Web页面的语音控制应用中,如果数据源内容发生了变化,必须根据数据源内容动态地产生语法。
在语音识别过程中,如何降低计算复杂度,提高识别效率,是一个需要面对的问题。
发明内容
根据本发明的第一方面,提出了一种将文本转换成语音的方法,包括对以文本形式的数据源进行解析,以获得数据源的部分词条列表;对各个部分词条列表分别进行编译,以获得与各个部分词条列表相对应的各个音素图;对获得的各个音素图进行合并;以及根据合并结果,进行语音识别。
根据本发明的第二方面,提出了一种将文本转换成语音的系统,包括:数据解析器,用于对以文本形式的数据源进行解析,以获得数据源的部分词条列表;一个或多个编译器,用于对各个部分词条列表分别进行编译,以获得与各个部分词条列表相对应的各个音素图;合并器,用于对获得的各个音素图进行合并;以及语音识别器,用于根据合并结果,进行语音识别。
根据本发明,可以在语音识别过程中降低计算复杂度,提高识别效率。
附图说明
通过以下结合附图的说明,并且随着对本发明的更全面了解,本发明的其他目的和效果将变得更加清楚和易于理解,其中:
图1示出了根据本发明的第一实施方式的用于将文本转化成语音的系统;
图2示出了根据本发明的第二实施方式的用于将文本转化成语音的系统;
图3示出了根据本发明的第三实施方式的用于将文本转化成语音的方法的流程图;
图4示出了根据本发明的第四实施方式的用于将文本转化成语音的方法的流程图;
图5示出了根据本发明的将文本转化成语音的具体例子;
在所有的上述附图中,相同的标号表示具有相同、相似或相应的特征或功能。
具体实施方式
以下结合附图对本发明的具体实施方式进行描述。
本发明的基本思想是通过并行地或串行地解析以文本形式的数据源,获得数据源的部分词条列表。然后对各个部分词条列表分别进行编译,以获得与各个部分词条列表相对应的各个音素图。然后合并获得的各个音素图。然后,根据合并结果,进行语音识别处理。
图1示出了根据本发明的第一实施方式的用于将文本转化成语音的系统。
如图1所示,该系统100包括数据解析器110,用于对以文本形式的数据源进行解析,以获得数据源的部分词条列表;多个编译器120-1、120-2、120-3、...、120-N-1、120-N,用于对各个部分词条列表分别进行编译,以获得与各个部分词条列表相对应的各个音素图;合并器130,用于合并获得的各个音素图;语音识别器140,用于根据合并结果,进行语音识别。
本领域的技术人员应当理解,在这里,词条代表字、词、短语等常见的语法元素。部分词条列表是指解析整个数据源应该得到的词条列表的一部分。
在该第一实施方式中,数据解析器110串行地解析所述数据源,在获得数据源的一个部分词条列表后,就调用一个编译器(例如编译器120-1)对该部分词条列表进行编译,以获得一个音素图,然后继续对剩下的数据源进行解析,以获得下一个部分词条列表。
在该第一实施方式中,还包括判断器160,用于判断合并结果是否有足够的信息可以进行语音识别。其中如果有足够的信息,例如,如果有完整的一个句子,语音识别器140就开始进行语音识别。
在该第一实施方式中,在合并器130完成获得的各个音素图的合并之前,在当前数据源发生了变化的情况下,合并器130继续进行对获得的各个音素图的合并,并缓存合并结果。
在该第一实施方式中,还可以包括优化器150,用于对合并结果进行优化。例如,优化器150对合并结果中相同的节点进行合并,如下面所描述的。
在该第一实施方式中,编译器120-1、120-2、120-3、...、120-N-1、120-N中的每一个编译器120可以包括:语法获得器1201,用于对部分词条列表应用语法模板,以获得与部分词条列表相对应的语法;确定器1202,用于确定语法的音素列表;创建器1203,用于根据所述音素列表,创建相对应的音素树;优化器1204,用于对音素树进行优化,以获得相对应的音素图。
其中,语法模板一般包括描述语法看起来应该是怎么样的内容。
以下是一个语法模板的例子:
<rule ID>=
Word_sequence_1|
Word_sequence_2|
Word_sequence_N;
Word_sequence_1=word_1word_2word_3;
Word_sequence_2=word_1word_3word_2;
Word_sequence_N=word_1word_4word_2;
而语法具体地描述了部分词条列表中的内容,例如,该部分词条列表中的内容是英文还是中文,是英文的情况下是美国英文还是英国英文等等。
以下是一个部分词条列表的语法的例子:
#ABNF 1.0 ISO-8859-1;
language en-US;
mode voice;
root$main;
$main=red flag|
white house|yellow flag|
xxx|xxx。
音素列表描述了词条如何发音。可以根据语法,从音素池中确定音素列表。
以下是一个音素列表的例子:
White:HH W AY TD
White:W AY TD
House:HH AW S
House:HH AW Z
Yellow:Y EH L OW
Yellow:Y EH L AX
Red:R EH DD
Flag:F L AE GD
总之,对于本领域的技术人员来说,是完全能够理解语法模板、语法、音素列表、音素树等等术语的含义的,这里出于简便的考虑,不对其进行过多地描述。
在对音素树的优化过程中,将音素树中相同的节点合并,从而获得音素图。
当然,对于本领域的技术人员来说,可以理解,在该第一实施方式中,如果编译器的处理速度足够快,即在数据解析器110向其发送一个部分词条列表之时,已经完成对该部分词条列表的前面一个部分词条列表的编译,那么可以只需要一个编译器。
另外,本领域的技术人员可以理解,在编译器120中,优化器不是必须的。
图2示出了根据本发明的第二实施方式的用于将文本转化成语音的系统。
该系统200与图1中所示的系统100相比不同之处在于该系统200包括一个分块器210,用于将数据源分块,以获得各个数据源子块;以及包括多个数据解析器110-1、110-2、110-3、...、110-N-1、110-N,这些数据解析器并行地解析各个数据源子块,以获得各个数据源子块的部分词条列表。
图3示出了根据本发明的第三实施方式的用于将文本转化成语音的方法的流程图。
如图3所示,该方法300包括步骤S310,对以文本形式的数据源进行解析,以获得数据源的部分词条列表;步骤S320,对各个部分词条列表分别进行编译,以获得与各个部分词条列表相对应的各个音素图;步骤S330,对获得的各个音素图进行合并;以及步骤S340,根据合并结果,进行语音识别。
在该第三实施方式中,串行地解析所述数据源,获得一个部分词条列表后,就对该部分词条列表进行编译,以获得一个音素图,然后继续对剩下的数据源进行解析,以获得下一个部分词条列表。
在该第三实施方式中,还包括步骤S360,在完成获得的各个音素图的合并之前,判断合并结果是否有足够的信息可以进行语音识别,如果有足够的信息,例如,如果有完整的一个句子,就开始进行语音识别。
在该第三实施方式中,在完成获得的各个音素图的合并之前,在当前数据源发生了变化的情况下,继续进行对获得的各个音素图的合并,并缓存合并结果。
在该第三实施方式中,还可以包括步骤S350:对合并结果进行优化。
在该第三实施方式中,对部分词条列表进行编译,以获得与部分词条列表相对应的音素图的步骤可以包括步骤S3201,对部分词条列表应用语法模板,以获得与部分词条列表相对应的语法;步骤S3202,确定语法的音素列表;步骤S3203,根据音素列表,创建相对应的音素树;步骤S3204,对音素树进行优化,以获得相对应的音素图。
当然,本领域的技术人员可以理解,对音素树进行优化,以获得相对应的音素图这个步骤不是必须的。
图4示出了根据本发明的第四实施方式的用于将文本转化成语音的方法。
该方法400与图3中所示的方法300相比不同之处在于在该方法400中,包括步骤S405,将数据源分块,以获得各个数据源子块,以及在步骤410,并行地解析各个数据源子块,以获得各个数据源子块的部分词条列表。
下面根据一个例子,对本发明的实施方式进行更具体地描述。
数据解析器110串行地解析数据源,获得第一部分词条列表,该第一部分词条列表包括内容Red flag,然后调用第一编译器120-1,对该第一部分词条列表进行编译,以获得第一音素图。
在该例子中,第一编译器120-1获得的语法如下:
#ABNF 1.0 ISO-8859-1;
language en-US;
mode voice;
root$main;
$main=Red flag
xxx|xxx。
确定的音素列表如下:
Red:R EH DD
Flag:F L AE GD。
创建的音素树如图5A所示。
由于在该简单例子中,如图5A所示的音素树已经最优化,因此不需要进行优化。
并且,由于这是第一个获得的音素图,因此此时不发生合并。
另外,这里假定第一音素图还没有足够的信息可以进行语音识别,因此此时也不发生语音识别。
随着数据解析器110继续解析剩下的数据源,获得第二部分词条列表,该第二部分词条列表包括内容White house,然后调用第二编译器120-2,对该第二部分词条列表进行编译,以获得第二音素图。
在该例子中,第二编译器120-2获得的语法如下:
#ABNF 1.0 ISO-8859-1;
language en-US;
mode voice;
root$main;
$main=White house
xxx|xxx。
确定的音素列表如下:
White:HH W AY TD
White:W AY TD
House:HH AW S
House:HH AW Z。
创建的音素树如图5B所示。
由于在该简单例子中,如图5B所示的音素树已经最优化,因此不需要进行优化。
并且,由于这是第二个获得的音素图,此前已经获得了第一音素图,因此此时发生合并。合并结果如图5C所示。因为第一音素图和第二音素图各自都具有根节点和末端节点,因此合并音素图相对比较简单,即合并第一音素图和第二音素图的根节点和末端节点。
另外,这里假定合并了第一音素图和第二音素图的合并结果已经有足够的信息可以进行语音识别,因此此时发生语音识别。
另外,在该例子中,此时第一音素图和第二音素图的合并结果已经是最优的,因此此时不发生对合并结果进行优化。
随着数据解析器110继续解析剩下的数据源,获得第三部分词条列表(最后一个),该第三部分词条列表包括内容Yellow flag,然后调用第三编译器120-3,对该第三部分词条列表进行编译,以获得第三音素图。
在该例子中,第三编译器120-3获得的语法如下:
#ABNF 1.0 ISO-8859-1;
language en-US;
mode voice;
root$main;
$main=Yellow flag
xxx|xxx。
确定的音素列表如下:
Yellow:Y EH L OW
Yellow:Y EH L AX
Flag:F L AE GD。
创建的音素树如图5D所示。
由于在该简单例子中,如图5D所示的音素树已经最优化,因此不需要进行优化。
并且,由于这是第三个获得的音素图,此前已经获得了第一音素图和第二音素图,因此此时发生合并。合并结果如图5E所示。
另外,此时第一音素图、第二音素图和第三音素图的合并结果不是最优的,两个分支上具有相同的节点F L AE和GD,因此此时对合并结果进行优化。优化后的合并结果如图5F所示。
另外,如果在合并第三个获得的音素图之前,该数据源发生了变化,例如,该数据源是一个网页,并且用户点击了该网页上的链接之后,继续进行第三个获得的音素图的合并,并缓存合并结果,以当用户返回上面这个页面时可以继续使用。
根据本发明,由于每次只需要确定部分词条列表的音素图,因此能降低计算复杂度。并且,在完成获得的各个音素图的合并之前,一旦合并结果已经有足够的信息可以进行语音识别,就开始进行语音识别,因此能提高语音识别性能。
应当注意,为了使本发明更容易理解,上面的描述省略了对于本领域的技术人员来说是公知的、并且对于本发明的实现可能是必需的更具体的一些技术细节。
提供本发明的说明书的目的是为了说明和描述,而不是用来穷举或将本发明限制为所公开的形式。对本领域的普通技术人员而言,许多修改和变更都是显而易见的。
因此,选择并描述实施方式是为了更好地解释本发明的原理及其实际应用,并使本领域普通技术人员明白,在不脱离本发明实质的前提下,所有修改和变更均落入由权利要求所限定的本发明的保护范围之内。

Claims (14)

1.一种将文本转换成语音的方法,包括步骤:
对以文本形式的数据源进行解析,以获得数据源的部分词条列表;
对各个部分词条列表分别进行编译,以获得与各个部分词条列表相对应的各个音素图,其中与每个所述部分词条列表相对应的所述音素图包括根节点和末节点;
对获得的各个音素图进行合并,使得所合并的音素图具有相同的根节点和末节点;以及
根据合并结果,进行语音识别。
2.根据权利要求1所述的方法,进一步包括:
判断合并结果是否有足够的信息可以进行语音识别;
其中,如果有足够的信息就开始进行语音识别。
3.根据权利要求1所述的方法,其中,在当前数据源发生了变化的情况下,继续进行对获得的各个音素图的合并,并缓存合并结果。
4.根据权利要求1所述的方法,其中对以文本形式的数据源进行解析,以获得数据源的部分词条列表包括:
将所述数据源分块,以获得各个数据源子块;
并行地解析各个数据源子块,以获得各个数据源子块的部分词条列表。
5.根据权利要求1所述的方法,其中对以文本形式的数据源进行解析,以获得数据源的部分词条列表包括:
串行地解析所述数据源,以获得数据源的部分词条列表。
6.根据权利要求1所述的方法,还包括步骤:
对合并结果进行优化。
7.根据权利要求1所述的方法,
其中对部分词条列表进行编译,以获得与部分词条列表相对应的音素图包括:
对部分词条列表应用语法模板,以获得与部分词条列表相对应的语法;
确定所述语法的音素列表;
根据所述音素列表,创建相对应的音素树;
对所述音素树进行优化,以获得相对应的音素图。
8.一种将文本转换成语音的系统,包括:
数据解析器,用于对以文本形式的数据源进行解析,以获得数据源的部分词条列表;
一个或多个编译器,用于对各个部分词条列表分别进行编译,以获得与各个部分词条列表相对应的各个音素图,其中与每个所述部分词条列表相对应的所述音素图包括根节点和末节点;
合并器,用于对获得的各个音素图进行合并,使得所合并的音素图具有相同的根节点和末节点;以及
语音识别器,用于根据合并结果,进行语音识别。
9.根据权利要求8所述的系统,还包括:
判断器,用于判断合并结果是否有足够的信息可以进行语音识别,其中如果有足够的信息,语音识别器就开始进行语音识别。
10.根据权利要求8所述的系统,其中,在当前数据源发生了变化的情况下,合并器继续进行对获得的各个音素图的合并,并缓存合并结果。
11.根据权利要求8所述的系统,还包括:
分块器,用于将所述数据源分块,以获得各个数据源子块;其中多个数据解析器并行地解析各个数据源子块,以获得各个数据源子块的部分词条列表。
12.根据权利要求8所述的系统,其中所述数据解析器串行地解析所述数据源,以获得数据源的部分词条列表。
13.根据权利要求8所述的系统,还包括:
优化器,用于对合并结果进行优化。
14.根据权利要求8所述的系统,
其中所述编译器包括:
语法获得器,用于对部分词条列表应用语法模板,以获得与部分词条列表相对应的语法;
确定器,用于确定语法的音素列表;
创建器,用于根据所述音素列表,创建相对应的音素树;
优化器,用于对所述音素树进行优化,以获得相对应的音素图。
CN201010580334.2A 2010-11-30 2010-11-30 用于将文本转换成语音的方法和系统 Expired - Fee Related CN102479508B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201010580334.2A CN102479508B (zh) 2010-11-30 2010-11-30 用于将文本转换成语音的方法和系统
US13/287,400 US8650032B2 (en) 2010-11-30 2011-11-02 Partial word lists into a phoneme tree
US13/411,614 US8620656B2 (en) 2010-11-30 2012-03-04 Converting partial word lists into a phoneme tree for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010580334.2A CN102479508B (zh) 2010-11-30 2010-11-30 用于将文本转换成语音的方法和系统

Publications (2)

Publication Number Publication Date
CN102479508A CN102479508A (zh) 2012-05-30
CN102479508B true CN102479508B (zh) 2015-02-11

Family

ID=46092122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010580334.2A Expired - Fee Related CN102479508B (zh) 2010-11-30 2010-11-30 用于将文本转换成语音的方法和系统

Country Status (2)

Country Link
US (2) US8650032B2 (zh)
CN (1) CN102479508B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645140B2 (en) * 2009-02-25 2014-02-04 Blackberry Limited Electronic device and method of associating a voice font with a contact for text-to-speech conversion at the electronic device
JP5821824B2 (ja) 2012-11-14 2015-11-24 ヤマハ株式会社 音声合成装置
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
CN104267922B (zh) * 2014-09-16 2019-05-31 联想(北京)有限公司 一种信息处理方法及电子设备
CN104485107B (zh) * 2014-12-08 2018-06-22 畅捷通信息技术股份有限公司 名称的语音识别方法、语音识别系统和语音识别设备
CN108228191B (zh) * 2018-02-06 2022-01-25 威盛电子股份有限公司 语法编译系统以及语法编译方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5724481A (en) * 1995-03-30 1998-03-03 Lucent Technologies Inc. Method for automatic speech recognition of arbitrary spoken words
US6377925B1 (en) * 1999-12-16 2002-04-23 Interactive Solutions, Inc. Electronic translator for assisting communications
US6405168B1 (en) * 1999-09-30 2002-06-11 Conexant Systems, Inc. Speaker dependent speech recognition training using simplified hidden markov modeling and robust end-point detection
US6622121B1 (en) * 1999-08-20 2003-09-16 International Business Machines Corporation Testing speech recognition systems using test data generated by text-to-speech conversion
CN1979637A (zh) * 2005-12-05 2007-06-13 财团法人工业技术研究院 文字转音标的方法
CN101326572A (zh) * 2005-12-08 2008-12-17 皇家飞利浦电子股份有限公司 具有巨大词汇量的语音识别系统
CN101470701A (zh) * 2007-12-29 2009-07-01 日电(中国)有限公司 支持基于有限状态机的语义规则的文本分析器及其方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4130631A1 (de) * 1991-09-14 1993-03-18 Philips Patentverwaltung Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
US5428707A (en) * 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
US5917891A (en) * 1996-10-07 1999-06-29 Northern Telecom, Limited Voice-dialing system using adaptive model of calling behavior
US6167117A (en) * 1996-10-07 2000-12-26 Nortel Networks Limited Voice-dialing system using model of calling behavior
US6260014B1 (en) * 1998-09-14 2001-07-10 International Business Machines Corporation Specific task composite acoustic models
US6870914B1 (en) * 1999-01-29 2005-03-22 Sbc Properties, L.P. Distributed text-to-speech synthesis between a telephone network and a telephone subscriber unit
WO2000058943A1 (fr) * 1999-03-25 2000-10-05 Matsushita Electric Industrial Co., Ltd. Systeme et procede de synthese de la parole
DE10022586A1 (de) * 2000-05-09 2001-11-22 Siemens Ag Verfahren zum Erzeugen einer Sprachdatenbank für einen Zielwortschatz zum Trainieren eines Spracherkennungssystems
US7324945B2 (en) * 2001-06-28 2008-01-29 Sri International Method of dynamically altering grammars in a memory efficient speech recognition system
US7577569B2 (en) * 2001-09-05 2009-08-18 Voice Signal Technologies, Inc. Combined speech recognition and text-to-speech generation
JP3703433B2 (ja) * 2002-01-08 2005-10-05 キヤノン株式会社 光走査装置及び画像形成装置
US7346507B1 (en) * 2002-06-05 2008-03-18 Bbn Technologies Corp. Method and apparatus for training an automated speech recognition-based system
US7124082B2 (en) * 2002-10-11 2006-10-17 Twisted Innovations Phonetic speech-to-text-to-speech system and method
US7885817B2 (en) * 2005-03-08 2011-02-08 Microsoft Corporation Easy generation and automatic training of spoken dialog systems using text-to-speech
JP2007024960A (ja) * 2005-07-12 2007-02-01 Internatl Business Mach Corp <Ibm> システム、プログラムおよび制御方法
US20070124142A1 (en) * 2005-11-25 2007-05-31 Mukherjee Santosh K Voice enabled knowledge system
US20080126093A1 (en) * 2006-11-28 2008-05-29 Nokia Corporation Method, Apparatus and Computer Program Product for Providing a Language Based Interactive Multimedia System
GB0623932D0 (en) 2006-11-29 2007-01-10 Ibm Data modelling of class independent recognition models
US9547642B2 (en) * 2009-06-17 2017-01-17 Empire Technology Development Llc Voice to text to voice processing

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5724481A (en) * 1995-03-30 1998-03-03 Lucent Technologies Inc. Method for automatic speech recognition of arbitrary spoken words
US6622121B1 (en) * 1999-08-20 2003-09-16 International Business Machines Corporation Testing speech recognition systems using test data generated by text-to-speech conversion
US6405168B1 (en) * 1999-09-30 2002-06-11 Conexant Systems, Inc. Speaker dependent speech recognition training using simplified hidden markov modeling and robust end-point detection
US6377925B1 (en) * 1999-12-16 2002-04-23 Interactive Solutions, Inc. Electronic translator for assisting communications
CN1979637A (zh) * 2005-12-05 2007-06-13 财团法人工业技术研究院 文字转音标的方法
CN101326572A (zh) * 2005-12-08 2008-12-17 皇家飞利浦电子股份有限公司 具有巨大词汇量的语音识别系统
CN101470701A (zh) * 2007-12-29 2009-07-01 日电(中国)有限公司 支持基于有限状态机的语义规则的文本分析器及其方法

Also Published As

Publication number Publication date
US8650032B2 (en) 2014-02-11
US8620656B2 (en) 2013-12-31
US20120166197A1 (en) 2012-06-28
CN102479508A (zh) 2012-05-30
US20120136661A1 (en) 2012-05-31

Similar Documents

Publication Publication Date Title
CN102479508B (zh) 用于将文本转换成语音的方法和系统
US8224645B2 (en) Method and system for preselection of suitable units for concatenative speech
US8639507B2 (en) Voice recognition system, voice recognition method, and program for voice recognition
Kaur et al. Review of machine transliteration techniques
WO2003065349A3 (en) Text to speech
DE60322985D1 (de) Text-zu-sprache-system und verfahren, computerprogramm dafür
BRPI0400306A (pt) Arquitetura de extremidade dianteira para um sistema conversor de texto em fala multilingual
CN112352275A (zh) 具有多级别文本信息的神经文本到语音合成
CN105989833A (zh) 多语种混语文本字音转换方法及系统
EP2950306A1 (en) A method and system for building a language model
Xydas et al. The DEMOSTHeNES speech composer
KR100669241B1 (ko) 화행 정보를 이용한 대화체 음성합성 시스템 및 방법
US9583095B2 (en) Speech processing device, method, and storage medium
TWI582755B (zh) 文字轉語音方法及系統
JP2004271895A (ja) 複数言語音声認識システムおよび発音学習システム
CN102298927B (zh) 可调整内存使用空间的语音辨识系统与方法
Naser et al. Implementation of subachan: Bengali text to speech synthesis software
JP2008064972A (ja) 音声合成装置、音声合成方法及び音声合成用プログラム
US20130144609A1 (en) Text processing system, text processing method, and text processing program
Van Niekerk Syllabification for Afrikaans speech synthesis
JP2003263184A5 (zh)
JP6649200B2 (ja) 発話生成装置、方法、及びプログラム
Tarsaku et al. Grapheme-to-Phoneme for Thai.
WO2008038994A1 (en) Method for converting pronunciation using boundary pause intensity and text-to-speech synthesis system based on the same
Sangle et al. Speech Synthesis Using Android

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150211

CF01 Termination of patent right due to non-payment of annual fee