CN102479508B - 用于将文本转换成语音的方法和系统 - Google Patents
用于将文本转换成语音的方法和系统 Download PDFInfo
- Publication number
- CN102479508B CN102479508B CN201010580334.2A CN201010580334A CN102479508B CN 102479508 B CN102479508 B CN 102479508B CN 201010580334 A CN201010580334 A CN 201010580334A CN 102479508 B CN102479508 B CN 102479508B
- Authority
- CN
- China
- Prior art keywords
- list
- data source
- phoneme
- entry
- part entry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000005267 amalgamation Methods 0.000 claims description 23
- 238000005457 optimization Methods 0.000 description 4
- 241001633663 Iris pseudacorus Species 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了用于将文本转换成语音的方法和系统。在本发明中,通过并行地或串行地解析数据源,获得数据源的部分词条列表。然后对各个部分词条列表分别进行编译,以获得与各个部分词条列表相对应的各个音素图。然后合并获得的各个音素图。然后,根据合并结果,进行语音处理。根据本发明,可以在语音识别过程中降低计算复杂度,提高识别效率。
Description
技术领域
本发明涉及信息技术领域,更具体地,本发明涉及用于将文本转换成语音的方法和系统。
背景技术
直到现在,LVCSR(大词汇量连续语音识别)和NLU(自然语言处理)仍然不能满足现实生活中人机语音通信的正确性和性能要求。
因此,在支持语音的应用中,例如在基于Web页面的语音控制应用中,如果数据源内容发生了变化,必须根据数据源内容动态地产生语法。
在语音识别过程中,如何降低计算复杂度,提高识别效率,是一个需要面对的问题。
发明内容
根据本发明的第一方面,提出了一种将文本转换成语音的方法,包括对以文本形式的数据源进行解析,以获得数据源的部分词条列表;对各个部分词条列表分别进行编译,以获得与各个部分词条列表相对应的各个音素图;对获得的各个音素图进行合并;以及根据合并结果,进行语音识别。
根据本发明的第二方面,提出了一种将文本转换成语音的系统,包括:数据解析器,用于对以文本形式的数据源进行解析,以获得数据源的部分词条列表;一个或多个编译器,用于对各个部分词条列表分别进行编译,以获得与各个部分词条列表相对应的各个音素图;合并器,用于对获得的各个音素图进行合并;以及语音识别器,用于根据合并结果,进行语音识别。
根据本发明,可以在语音识别过程中降低计算复杂度,提高识别效率。
附图说明
通过以下结合附图的说明,并且随着对本发明的更全面了解,本发明的其他目的和效果将变得更加清楚和易于理解,其中:
图1示出了根据本发明的第一实施方式的用于将文本转化成语音的系统;
图2示出了根据本发明的第二实施方式的用于将文本转化成语音的系统;
图3示出了根据本发明的第三实施方式的用于将文本转化成语音的方法的流程图;
图4示出了根据本发明的第四实施方式的用于将文本转化成语音的方法的流程图;
图5示出了根据本发明的将文本转化成语音的具体例子;
在所有的上述附图中,相同的标号表示具有相同、相似或相应的特征或功能。
具体实施方式
以下结合附图对本发明的具体实施方式进行描述。
本发明的基本思想是通过并行地或串行地解析以文本形式的数据源,获得数据源的部分词条列表。然后对各个部分词条列表分别进行编译,以获得与各个部分词条列表相对应的各个音素图。然后合并获得的各个音素图。然后,根据合并结果,进行语音识别处理。
图1示出了根据本发明的第一实施方式的用于将文本转化成语音的系统。
如图1所示,该系统100包括数据解析器110,用于对以文本形式的数据源进行解析,以获得数据源的部分词条列表;多个编译器120-1、120-2、120-3、...、120-N-1、120-N,用于对各个部分词条列表分别进行编译,以获得与各个部分词条列表相对应的各个音素图;合并器130,用于合并获得的各个音素图;语音识别器140,用于根据合并结果,进行语音识别。
本领域的技术人员应当理解,在这里,词条代表字、词、短语等常见的语法元素。部分词条列表是指解析整个数据源应该得到的词条列表的一部分。
在该第一实施方式中,数据解析器110串行地解析所述数据源,在获得数据源的一个部分词条列表后,就调用一个编译器(例如编译器120-1)对该部分词条列表进行编译,以获得一个音素图,然后继续对剩下的数据源进行解析,以获得下一个部分词条列表。
在该第一实施方式中,还包括判断器160,用于判断合并结果是否有足够的信息可以进行语音识别。其中如果有足够的信息,例如,如果有完整的一个句子,语音识别器140就开始进行语音识别。
在该第一实施方式中,在合并器130完成获得的各个音素图的合并之前,在当前数据源发生了变化的情况下,合并器130继续进行对获得的各个音素图的合并,并缓存合并结果。
在该第一实施方式中,还可以包括优化器150,用于对合并结果进行优化。例如,优化器150对合并结果中相同的节点进行合并,如下面所描述的。
在该第一实施方式中,编译器120-1、120-2、120-3、...、120-N-1、120-N中的每一个编译器120可以包括:语法获得器1201,用于对部分词条列表应用语法模板,以获得与部分词条列表相对应的语法;确定器1202,用于确定语法的音素列表;创建器1203,用于根据所述音素列表,创建相对应的音素树;优化器1204,用于对音素树进行优化,以获得相对应的音素图。
其中,语法模板一般包括描述语法看起来应该是怎么样的内容。
以下是一个语法模板的例子:
<rule ID>=
Word_sequence_1|
Word_sequence_2|
Word_sequence_N;
Word_sequence_1=word_1word_2word_3;
Word_sequence_2=word_1word_3word_2;
Word_sequence_N=word_1word_4word_2;
而语法具体地描述了部分词条列表中的内容,例如,该部分词条列表中的内容是英文还是中文,是英文的情况下是美国英文还是英国英文等等。
以下是一个部分词条列表的语法的例子:
#ABNF 1.0 ISO-8859-1;
language en-US;
mode voice;
root$main;
$main=red flag|
white house|yellow flag|
xxx|xxx。
音素列表描述了词条如何发音。可以根据语法,从音素池中确定音素列表。
以下是一个音素列表的例子:
White:HH W AY TD
White:W AY TD
House:HH AW S
House:HH AW Z
Yellow:Y EH L OW
Yellow:Y EH L AX
Red:R EH DD
Flag:F L AE GD
总之,对于本领域的技术人员来说,是完全能够理解语法模板、语法、音素列表、音素树等等术语的含义的,这里出于简便的考虑,不对其进行过多地描述。
在对音素树的优化过程中,将音素树中相同的节点合并,从而获得音素图。
当然,对于本领域的技术人员来说,可以理解,在该第一实施方式中,如果编译器的处理速度足够快,即在数据解析器110向其发送一个部分词条列表之时,已经完成对该部分词条列表的前面一个部分词条列表的编译,那么可以只需要一个编译器。
另外,本领域的技术人员可以理解,在编译器120中,优化器不是必须的。
图2示出了根据本发明的第二实施方式的用于将文本转化成语音的系统。
该系统200与图1中所示的系统100相比不同之处在于该系统200包括一个分块器210,用于将数据源分块,以获得各个数据源子块;以及包括多个数据解析器110-1、110-2、110-3、...、110-N-1、110-N,这些数据解析器并行地解析各个数据源子块,以获得各个数据源子块的部分词条列表。
图3示出了根据本发明的第三实施方式的用于将文本转化成语音的方法的流程图。
如图3所示,该方法300包括步骤S310,对以文本形式的数据源进行解析,以获得数据源的部分词条列表;步骤S320,对各个部分词条列表分别进行编译,以获得与各个部分词条列表相对应的各个音素图;步骤S330,对获得的各个音素图进行合并;以及步骤S340,根据合并结果,进行语音识别。
在该第三实施方式中,串行地解析所述数据源,获得一个部分词条列表后,就对该部分词条列表进行编译,以获得一个音素图,然后继续对剩下的数据源进行解析,以获得下一个部分词条列表。
在该第三实施方式中,还包括步骤S360,在完成获得的各个音素图的合并之前,判断合并结果是否有足够的信息可以进行语音识别,如果有足够的信息,例如,如果有完整的一个句子,就开始进行语音识别。
在该第三实施方式中,在完成获得的各个音素图的合并之前,在当前数据源发生了变化的情况下,继续进行对获得的各个音素图的合并,并缓存合并结果。
在该第三实施方式中,还可以包括步骤S350:对合并结果进行优化。
在该第三实施方式中,对部分词条列表进行编译,以获得与部分词条列表相对应的音素图的步骤可以包括步骤S3201,对部分词条列表应用语法模板,以获得与部分词条列表相对应的语法;步骤S3202,确定语法的音素列表;步骤S3203,根据音素列表,创建相对应的音素树;步骤S3204,对音素树进行优化,以获得相对应的音素图。
当然,本领域的技术人员可以理解,对音素树进行优化,以获得相对应的音素图这个步骤不是必须的。
图4示出了根据本发明的第四实施方式的用于将文本转化成语音的方法。
该方法400与图3中所示的方法300相比不同之处在于在该方法400中,包括步骤S405,将数据源分块,以获得各个数据源子块,以及在步骤410,并行地解析各个数据源子块,以获得各个数据源子块的部分词条列表。
下面根据一个例子,对本发明的实施方式进行更具体地描述。
数据解析器110串行地解析数据源,获得第一部分词条列表,该第一部分词条列表包括内容Red flag,然后调用第一编译器120-1,对该第一部分词条列表进行编译,以获得第一音素图。
在该例子中,第一编译器120-1获得的语法如下:
#ABNF 1.0 ISO-8859-1;
language en-US;
mode voice;
root$main;
$main=Red flag
xxx|xxx。
确定的音素列表如下:
Red:R EH DD
Flag:F L AE GD。
创建的音素树如图5A所示。
由于在该简单例子中,如图5A所示的音素树已经最优化,因此不需要进行优化。
并且,由于这是第一个获得的音素图,因此此时不发生合并。
另外,这里假定第一音素图还没有足够的信息可以进行语音识别,因此此时也不发生语音识别。
随着数据解析器110继续解析剩下的数据源,获得第二部分词条列表,该第二部分词条列表包括内容White house,然后调用第二编译器120-2,对该第二部分词条列表进行编译,以获得第二音素图。
在该例子中,第二编译器120-2获得的语法如下:
#ABNF 1.0 ISO-8859-1;
language en-US;
mode voice;
root$main;
$main=White house
xxx|xxx。
确定的音素列表如下:
White:HH W AY TD
White:W AY TD
House:HH AW S
House:HH AW Z。
创建的音素树如图5B所示。
由于在该简单例子中,如图5B所示的音素树已经最优化,因此不需要进行优化。
并且,由于这是第二个获得的音素图,此前已经获得了第一音素图,因此此时发生合并。合并结果如图5C所示。因为第一音素图和第二音素图各自都具有根节点和末端节点,因此合并音素图相对比较简单,即合并第一音素图和第二音素图的根节点和末端节点。
另外,这里假定合并了第一音素图和第二音素图的合并结果已经有足够的信息可以进行语音识别,因此此时发生语音识别。
另外,在该例子中,此时第一音素图和第二音素图的合并结果已经是最优的,因此此时不发生对合并结果进行优化。
随着数据解析器110继续解析剩下的数据源,获得第三部分词条列表(最后一个),该第三部分词条列表包括内容Yellow flag,然后调用第三编译器120-3,对该第三部分词条列表进行编译,以获得第三音素图。
在该例子中,第三编译器120-3获得的语法如下:
#ABNF 1.0 ISO-8859-1;
language en-US;
mode voice;
root$main;
$main=Yellow flag
xxx|xxx。
确定的音素列表如下:
Yellow:Y EH L OW
Yellow:Y EH L AX
Flag:F L AE GD。
创建的音素树如图5D所示。
由于在该简单例子中,如图5D所示的音素树已经最优化,因此不需要进行优化。
并且,由于这是第三个获得的音素图,此前已经获得了第一音素图和第二音素图,因此此时发生合并。合并结果如图5E所示。
另外,此时第一音素图、第二音素图和第三音素图的合并结果不是最优的,两个分支上具有相同的节点F L AE和GD,因此此时对合并结果进行优化。优化后的合并结果如图5F所示。
另外,如果在合并第三个获得的音素图之前,该数据源发生了变化,例如,该数据源是一个网页,并且用户点击了该网页上的链接之后,继续进行第三个获得的音素图的合并,并缓存合并结果,以当用户返回上面这个页面时可以继续使用。
根据本发明,由于每次只需要确定部分词条列表的音素图,因此能降低计算复杂度。并且,在完成获得的各个音素图的合并之前,一旦合并结果已经有足够的信息可以进行语音识别,就开始进行语音识别,因此能提高语音识别性能。
应当注意,为了使本发明更容易理解,上面的描述省略了对于本领域的技术人员来说是公知的、并且对于本发明的实现可能是必需的更具体的一些技术细节。
提供本发明的说明书的目的是为了说明和描述,而不是用来穷举或将本发明限制为所公开的形式。对本领域的普通技术人员而言,许多修改和变更都是显而易见的。
因此,选择并描述实施方式是为了更好地解释本发明的原理及其实际应用,并使本领域普通技术人员明白,在不脱离本发明实质的前提下,所有修改和变更均落入由权利要求所限定的本发明的保护范围之内。
Claims (14)
1.一种将文本转换成语音的方法,包括步骤:
对以文本形式的数据源进行解析,以获得数据源的部分词条列表;
对各个部分词条列表分别进行编译,以获得与各个部分词条列表相对应的各个音素图,其中与每个所述部分词条列表相对应的所述音素图包括根节点和末节点;
对获得的各个音素图进行合并,使得所合并的音素图具有相同的根节点和末节点;以及
根据合并结果,进行语音识别。
2.根据权利要求1所述的方法,进一步包括:
判断合并结果是否有足够的信息可以进行语音识别;
其中,如果有足够的信息就开始进行语音识别。
3.根据权利要求1所述的方法,其中,在当前数据源发生了变化的情况下,继续进行对获得的各个音素图的合并,并缓存合并结果。
4.根据权利要求1所述的方法,其中对以文本形式的数据源进行解析,以获得数据源的部分词条列表包括:
将所述数据源分块,以获得各个数据源子块;
并行地解析各个数据源子块,以获得各个数据源子块的部分词条列表。
5.根据权利要求1所述的方法,其中对以文本形式的数据源进行解析,以获得数据源的部分词条列表包括:
串行地解析所述数据源,以获得数据源的部分词条列表。
6.根据权利要求1所述的方法,还包括步骤:
对合并结果进行优化。
7.根据权利要求1所述的方法,
其中对部分词条列表进行编译,以获得与部分词条列表相对应的音素图包括:
对部分词条列表应用语法模板,以获得与部分词条列表相对应的语法;
确定所述语法的音素列表;
根据所述音素列表,创建相对应的音素树;
对所述音素树进行优化,以获得相对应的音素图。
8.一种将文本转换成语音的系统,包括:
数据解析器,用于对以文本形式的数据源进行解析,以获得数据源的部分词条列表;
一个或多个编译器,用于对各个部分词条列表分别进行编译,以获得与各个部分词条列表相对应的各个音素图,其中与每个所述部分词条列表相对应的所述音素图包括根节点和末节点;
合并器,用于对获得的各个音素图进行合并,使得所合并的音素图具有相同的根节点和末节点;以及
语音识别器,用于根据合并结果,进行语音识别。
9.根据权利要求8所述的系统,还包括:
判断器,用于判断合并结果是否有足够的信息可以进行语音识别,其中如果有足够的信息,语音识别器就开始进行语音识别。
10.根据权利要求8所述的系统,其中,在当前数据源发生了变化的情况下,合并器继续进行对获得的各个音素图的合并,并缓存合并结果。
11.根据权利要求8所述的系统,还包括:
分块器,用于将所述数据源分块,以获得各个数据源子块;其中多个数据解析器并行地解析各个数据源子块,以获得各个数据源子块的部分词条列表。
12.根据权利要求8所述的系统,其中所述数据解析器串行地解析所述数据源,以获得数据源的部分词条列表。
13.根据权利要求8所述的系统,还包括:
优化器,用于对合并结果进行优化。
14.根据权利要求8所述的系统,
其中所述编译器包括:
语法获得器,用于对部分词条列表应用语法模板,以获得与部分词条列表相对应的语法;
确定器,用于确定语法的音素列表;
创建器,用于根据所述音素列表,创建相对应的音素树;
优化器,用于对所述音素树进行优化,以获得相对应的音素图。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010580334.2A CN102479508B (zh) | 2010-11-30 | 2010-11-30 | 用于将文本转换成语音的方法和系统 |
US13/287,400 US8650032B2 (en) | 2010-11-30 | 2011-11-02 | Partial word lists into a phoneme tree |
US13/411,614 US8620656B2 (en) | 2010-11-30 | 2012-03-04 | Converting partial word lists into a phoneme tree for speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010580334.2A CN102479508B (zh) | 2010-11-30 | 2010-11-30 | 用于将文本转换成语音的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102479508A CN102479508A (zh) | 2012-05-30 |
CN102479508B true CN102479508B (zh) | 2015-02-11 |
Family
ID=46092122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010580334.2A Expired - Fee Related CN102479508B (zh) | 2010-11-30 | 2010-11-30 | 用于将文本转换成语音的方法和系统 |
Country Status (2)
Country | Link |
---|---|
US (2) | US8650032B2 (zh) |
CN (1) | CN102479508B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645140B2 (en) * | 2009-02-25 | 2014-02-04 | Blackberry Limited | Electronic device and method of associating a voice font with a contact for text-to-speech conversion at the electronic device |
JP5821824B2 (ja) | 2012-11-14 | 2015-11-24 | ヤマハ株式会社 | 音声合成装置 |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
CN104267922B (zh) * | 2014-09-16 | 2019-05-31 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN104485107B (zh) * | 2014-12-08 | 2018-06-22 | 畅捷通信息技术股份有限公司 | 名称的语音识别方法、语音识别系统和语音识别设备 |
CN108228191B (zh) * | 2018-02-06 | 2022-01-25 | 威盛电子股份有限公司 | 语法编译系统以及语法编译方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5724481A (en) * | 1995-03-30 | 1998-03-03 | Lucent Technologies Inc. | Method for automatic speech recognition of arbitrary spoken words |
US6377925B1 (en) * | 1999-12-16 | 2002-04-23 | Interactive Solutions, Inc. | Electronic translator for assisting communications |
US6405168B1 (en) * | 1999-09-30 | 2002-06-11 | Conexant Systems, Inc. | Speaker dependent speech recognition training using simplified hidden markov modeling and robust end-point detection |
US6622121B1 (en) * | 1999-08-20 | 2003-09-16 | International Business Machines Corporation | Testing speech recognition systems using test data generated by text-to-speech conversion |
CN1979637A (zh) * | 2005-12-05 | 2007-06-13 | 财团法人工业技术研究院 | 文字转音标的方法 |
CN101326572A (zh) * | 2005-12-08 | 2008-12-17 | 皇家飞利浦电子股份有限公司 | 具有巨大词汇量的语音识别系统 |
CN101470701A (zh) * | 2007-12-29 | 2009-07-01 | 日电(中国)有限公司 | 支持基于有限状态机的语义规则的文本分析器及其方法 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4130631A1 (de) * | 1991-09-14 | 1993-03-18 | Philips Patentverwaltung | Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal |
US5384893A (en) * | 1992-09-23 | 1995-01-24 | Emerson & Stern Associates, Inc. | Method and apparatus for speech synthesis based on prosodic analysis |
US5428707A (en) * | 1992-11-13 | 1995-06-27 | Dragon Systems, Inc. | Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance |
US5917891A (en) * | 1996-10-07 | 1999-06-29 | Northern Telecom, Limited | Voice-dialing system using adaptive model of calling behavior |
US6167117A (en) * | 1996-10-07 | 2000-12-26 | Nortel Networks Limited | Voice-dialing system using model of calling behavior |
US6260014B1 (en) * | 1998-09-14 | 2001-07-10 | International Business Machines Corporation | Specific task composite acoustic models |
US6870914B1 (en) * | 1999-01-29 | 2005-03-22 | Sbc Properties, L.P. | Distributed text-to-speech synthesis between a telephone network and a telephone subscriber unit |
WO2000058943A1 (fr) * | 1999-03-25 | 2000-10-05 | Matsushita Electric Industrial Co., Ltd. | Systeme et procede de synthese de la parole |
DE10022586A1 (de) * | 2000-05-09 | 2001-11-22 | Siemens Ag | Verfahren zum Erzeugen einer Sprachdatenbank für einen Zielwortschatz zum Trainieren eines Spracherkennungssystems |
US7324945B2 (en) * | 2001-06-28 | 2008-01-29 | Sri International | Method of dynamically altering grammars in a memory efficient speech recognition system |
US7577569B2 (en) * | 2001-09-05 | 2009-08-18 | Voice Signal Technologies, Inc. | Combined speech recognition and text-to-speech generation |
JP3703433B2 (ja) * | 2002-01-08 | 2005-10-05 | キヤノン株式会社 | 光走査装置及び画像形成装置 |
US7346507B1 (en) * | 2002-06-05 | 2008-03-18 | Bbn Technologies Corp. | Method and apparatus for training an automated speech recognition-based system |
US7124082B2 (en) * | 2002-10-11 | 2006-10-17 | Twisted Innovations | Phonetic speech-to-text-to-speech system and method |
US7885817B2 (en) * | 2005-03-08 | 2011-02-08 | Microsoft Corporation | Easy generation and automatic training of spoken dialog systems using text-to-speech |
JP2007024960A (ja) * | 2005-07-12 | 2007-02-01 | Internatl Business Mach Corp <Ibm> | システム、プログラムおよび制御方法 |
US20070124142A1 (en) * | 2005-11-25 | 2007-05-31 | Mukherjee Santosh K | Voice enabled knowledge system |
US20080126093A1 (en) * | 2006-11-28 | 2008-05-29 | Nokia Corporation | Method, Apparatus and Computer Program Product for Providing a Language Based Interactive Multimedia System |
GB0623932D0 (en) | 2006-11-29 | 2007-01-10 | Ibm | Data modelling of class independent recognition models |
US9547642B2 (en) * | 2009-06-17 | 2017-01-17 | Empire Technology Development Llc | Voice to text to voice processing |
-
2010
- 2010-11-30 CN CN201010580334.2A patent/CN102479508B/zh not_active Expired - Fee Related
-
2011
- 2011-11-02 US US13/287,400 patent/US8650032B2/en active Active
-
2012
- 2012-03-04 US US13/411,614 patent/US8620656B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5724481A (en) * | 1995-03-30 | 1998-03-03 | Lucent Technologies Inc. | Method for automatic speech recognition of arbitrary spoken words |
US6622121B1 (en) * | 1999-08-20 | 2003-09-16 | International Business Machines Corporation | Testing speech recognition systems using test data generated by text-to-speech conversion |
US6405168B1 (en) * | 1999-09-30 | 2002-06-11 | Conexant Systems, Inc. | Speaker dependent speech recognition training using simplified hidden markov modeling and robust end-point detection |
US6377925B1 (en) * | 1999-12-16 | 2002-04-23 | Interactive Solutions, Inc. | Electronic translator for assisting communications |
CN1979637A (zh) * | 2005-12-05 | 2007-06-13 | 财团法人工业技术研究院 | 文字转音标的方法 |
CN101326572A (zh) * | 2005-12-08 | 2008-12-17 | 皇家飞利浦电子股份有限公司 | 具有巨大词汇量的语音识别系统 |
CN101470701A (zh) * | 2007-12-29 | 2009-07-01 | 日电(中国)有限公司 | 支持基于有限状态机的语义规则的文本分析器及其方法 |
Also Published As
Publication number | Publication date |
---|---|
US8650032B2 (en) | 2014-02-11 |
US8620656B2 (en) | 2013-12-31 |
US20120166197A1 (en) | 2012-06-28 |
CN102479508A (zh) | 2012-05-30 |
US20120136661A1 (en) | 2012-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102479508B (zh) | 用于将文本转换成语音的方法和系统 | |
US8224645B2 (en) | Method and system for preselection of suitable units for concatenative speech | |
US8639507B2 (en) | Voice recognition system, voice recognition method, and program for voice recognition | |
Kaur et al. | Review of machine transliteration techniques | |
WO2003065349A3 (en) | Text to speech | |
DE60322985D1 (de) | Text-zu-sprache-system und verfahren, computerprogramm dafür | |
BRPI0400306A (pt) | Arquitetura de extremidade dianteira para um sistema conversor de texto em fala multilingual | |
CN112352275A (zh) | 具有多级别文本信息的神经文本到语音合成 | |
CN105989833A (zh) | 多语种混语文本字音转换方法及系统 | |
EP2950306A1 (en) | A method and system for building a language model | |
Xydas et al. | The DEMOSTHeNES speech composer | |
KR100669241B1 (ko) | 화행 정보를 이용한 대화체 음성합성 시스템 및 방법 | |
US9583095B2 (en) | Speech processing device, method, and storage medium | |
TWI582755B (zh) | 文字轉語音方法及系統 | |
JP2004271895A (ja) | 複数言語音声認識システムおよび発音学習システム | |
CN102298927B (zh) | 可调整内存使用空间的语音辨识系统与方法 | |
Naser et al. | Implementation of subachan: Bengali text to speech synthesis software | |
JP2008064972A (ja) | 音声合成装置、音声合成方法及び音声合成用プログラム | |
US20130144609A1 (en) | Text processing system, text processing method, and text processing program | |
Van Niekerk | Syllabification for Afrikaans speech synthesis | |
JP2003263184A5 (zh) | ||
JP6649200B2 (ja) | 発話生成装置、方法、及びプログラム | |
Tarsaku et al. | Grapheme-to-Phoneme for Thai. | |
WO2008038994A1 (en) | Method for converting pronunciation using boundary pause intensity and text-to-speech synthesis system based on the same | |
Sangle et al. | Speech Synthesis Using Android |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150211 |
|
CF01 | Termination of patent right due to non-payment of annual fee |