CN1989547A - 在语音识别和文本-语音引擎中处理缩写词和数字 - Google Patents
在语音识别和文本-语音引擎中处理缩写词和数字 Download PDFInfo
- Publication number
- CN1989547A CN1989547A CNA2005800250133A CN200580025013A CN1989547A CN 1989547 A CN1989547 A CN 1989547A CN A2005800250133 A CNA2005800250133 A CN A2005800250133A CN 200580025013 A CN200580025013 A CN 200580025013A CN 1989547 A CN1989547 A CN 1989547A
- Authority
- CN
- China
- Prior art keywords
- abb
- text
- language
- pronunciation
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000001514 detection method Methods 0.000 claims abstract description 21
- 238000004590 computer program Methods 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 235000004240 Triticum spelta Nutrition 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003760 hair shine Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
所公开的方法用于检测缩写词和数字以及用于发现它们的发音的方法。该方法可以结合为自动语音识别(ASR)和文本-语音(TTS)系统的一部分。此外,该方法可以为多语言自动语音识别(ML-ASR)和TTS系统的一部分。在语音识别和文本-语音系统中处理缩写饲的方法可包括从文本中检测缩写词,基于该文本中的非缩写词单词标识该文本的语言,以及在缩写词发音生成中利用该标识的语言以为该检测的缩写词生成发音。
Description
技术领域
本发明一般涉及在电信系统中的语音识别和文本-语音(TTS)合成技术。更特别地,本发明涉及在电信系统中的多语言语音识别和文本-语音引擎的缩写词和数字处理。
背景技术
文本-语音(TTS)转换器被用来改善对电存储的信息的访问。传统的TTS转换器仅可以从符合语言的拼写和语法习惯的文本中产生可理解的语音。例如,大多数转换器不能可理解地阅读典型的电子邮件(e-mail)消息。不同于认真编辑的文本,电子邮件消息、电话目录条目和日历约会(例如)经常包含马虎的、拼写错误的文本,这些文本具有随机使用的语言格、空格、字体、标点、情绪指示符以及工业专用缩略语和缩写词的优势。为使文本-语音转换可用于这样的应用,必须实施灵活和复杂的规则以智能地解释甚至是最恶劣地形成的文本消息。
在非特定语者人名拨号(SIND)系统中,电子电话目录或电话号码簿内容可以通过无需用户训练的语音或语音标签(voice-tagging)来使用。因此,整个电话号码簿的内容可以立即通过语音使用。与例如蜂窝电话的通信设备相关联的电子电话号码簿的文本内容预先可能是未知的。此外,不同的用户可以例如具有在电话目录中标注/指示某些事情的各种方案。许多人在电话号码簿中使用缩写词、数字或特殊字符使得电话号码簿条目较短或消除电话号码簿条目中的含糊不清。如果所有的用户都以电话号码簿的方式存储名称,则SIND引擎的工作将大为容易。遗憾地,在实际上并没有遵循这样的实践。
当用户向电话号码簿输入缩写词时,他或她可以将缩写词如其拼写地逐字母地发音或如单词一样地发音。通常,没有简单的解决方案来从正常的单词中检测缩写词,尤其是在多语言系统中。
传统的自动语音识别(ASR)和文本-语音(TTS)系统使用查找表发现单词的发音。词汇单词和它们的发音可以存储在查找表中。类似地,可以构建另一个查找表以就缩写词发现它们的发音。
直接的查找表途径有几个缺点。对于由多语言词汇项目组成的词汇,缩写词的发音取决于语言。目前,系统能够处理由单词组成的文本输入。然而,已知的系统不能处理缩写词和数字。
Malsheen等人的美国专利No.5,634,084描述了为文本-语音阅读器扩展了的缩写词、特殊单词或标签的方法。Malsheen的专利描述了使用特殊的查找表以生成发音。然而,如同其他查找表解决方案,Malsheen的专利所描述的系统不能处理多语言词汇项目。
因此,需要一种在发现缩写词的发音之前决定语言的方法。同样,期望区分规则的单词的发音的生成与缩写词的发音的生成。另外,需要依赖于语言的表以发现缩写词的发音。
发明内容
一般地,本发明涉及用于检测缩写词和数字以及用于发现它们的发音的方法。该方法可以结合为自动语音识别(ASR)和文本-语音(TTS)系统的一部分。此外,该方法可以为多语言自动语音识别(ML-ASR)和TTS系统的一部分。
在文本-音素(text-to-phoneme)(TTP)映射中用于检测缩写词和用于发现它们的发音的示例性方法可以是语音用户接口软件的一部分。示例性ML-ASR引擎或系统可以包括自动语言标识(LID)、发音建模和多语言声学建模模块。为引擎以文本形式给出词汇项目。首先,基于词汇项目的书写表示,LID模块标识语言。一旦确定了语言,将应用适当的TTP建模方案以获得与词汇项目相关的音素序列。最后,每个词汇项目的识别模型都构成为多语言声学模型的拼接。使用这些模块,识别器可以自动处理多语言词汇项目,而无需用户的任何协助。
TTP模块可以在ASR以及TTS二者中为词汇项目提供音素序列。TTP模块可以处理由用户提供的所有种类的文本输入。文本输入可以包括单词、数字和缩写词。该方法可以检测缩写词并且发现单词、缩写词和数字序列的发音。
一个示例性的实施例涉及一种在语音识别和文本-语音系统中处理缩写词的方法,该方法包括从文本中检测缩写词,基于该文本中的非缩写词单词标识该文本的语言,以及在缩写词发音生成中利用该标识的语言以为该检测的缩写词生成发音。
另一个示例性的实施例涉及一种用于将语音识别和文本-语音应用于缩写词的设备,该设备包括:语言标识符模块,用于从该文本中标识文本和词汇项目的语言;文本-音素模块,用于为标识的词汇项目提供音素序列;以及处理器,用于执行指令,以基于该所标识的文本的语言,使用来自该文本-音素模块的该音素序列,构成文本-语音信号。
另一个示例性的实施例涉及一种用于将语音识别和文本-语音应用于缩写词的系统,该系统包括:语言标识符,用于标识包括多个词汇项目的文本的语言;词汇管理器,用于将该词汇项目分离为单个单词并且用于在该词汇项目中检测缩写词;以及文本-音素(TTP)模块,用于生成该词汇项目的发音,包括缩写词和数字序列的发音。
再一个示例性的实施例涉及一种计算机程序产品,包括计算机代码,以便从包括缩写词和非缩写词的文本检测缩写词并且标注该检测的缩写词,基于非缩写词单词标识该文本的语言,并且在缩写词发音生成中使用该语言。
附图说明
图1为描述在发现缩写词的发音中所执行的操作的流程图;
图2为描述多语言自动语音识别系统的至少一部分的示图;
图3为描述在生成具有缩写词和数字的词汇的发音中的示例性操作的流程图;以及
图4为在为缩写词提供文本-语音和自动语音识别的系统中操作的一般流程图。
具体实施方式
在描述用于生成缩写词和数字的发音的示例性实施例之前,给出了某些定义。“单词”是由空白的空格字符分开的字母或字符的序列。“名称标签”是单词的序列。“缩写词”是由空格从其他单词分开的大写字母的序列。缩写词(通常)是通过提取以说话中每个单词的第一个字母并将它们彼此拼接而生成的。例如,IBM代表International BusinessMachines(国际商用机器)。
“数字”序列是数字组。它可以由空格从其他单词分开或它可以嵌入在字母序列中(在开始、中间或结尾处)。“缩略语”是后面带点(dot)的字母的序列。同样,存在源于特殊拉丁语的缩略语:E.g.代表“例如”,i.e.代表“即”,jr.代表“小”。“词汇项目”由单词、缩写词和数字的序列组成。
在此描述的语音识别系统中的词汇由条目组成,单个条目由单词、缩写词和数字序列组成。条目可以是大写和小写字符、数字和其他符号的混合并且其包含至少一个字符。最简单的条目之一是象包含人的名和姓的“Timo Makinen”。另一个条目可以象“Marti Virtanen GSM”。在此示例中,在条目中的最后的实体是缩写词,因为其都是大写的。当用户输入具有大小写字符混合的条目时可以区分缩写词与其余单词。因此,规则的单词优选地包含小写字符。如果名称标签全用大写字母书写,则假设其不包含任何缩写词。
在此描述的多语言ASR和TTS引擎覆盖了如中文或韩文的亚洲语言。在这样的语言中,单词由符号表示并且不需要处理缩写词,但是可能需要处理数字序列。
条目的另一个示例是“Bill W.Smith”。在该条目中,有一个由单个字母和点符号组成的实体。带点或不带点的单个字母被假设为缩写词。
原则上,某些缩写词,如“SUN”(Stanford University Network)可以读作单词。某些其他的缩写词,如GSM不能读作单词。作为替代,它们是逐字母地拼写的。为了描述的目的,假设所有的缩写词都逐字母地拼写。条目还可以包含如“123”的数字序列。象对待缩写词一样对待数字序列,这些数字序列被从条目的其余部分隔离并且被分开处理。该数字序列可以被读作“壹佰贰拾叁”,或者它们可以被逐位地拼写为“壹、贰、叁”假设数字序列逐位地拼写。这样的假设只是说明性的。
另外,除字符符号和数字之外,条目可以包含完全不发音的其他符号(如“Bill W.Smith”中的点)。非字符和非数字符号在生成发音之前被从条目中删除。
为描述示例性实施例的目的,做出以下假设:
-缩写词书写为大写字母
-缩写词逐字母地拼写
-将各字母的拼写存储在感兴趣的语言组的专用语言查找表中
-数字序列逐位地拼写
-将各数字的拼写存储在感兴趣的语言组的专用语言查找表中
示例性实施例在词汇的条目中检测缩写词并且在多语言语音识别引擎中生成针对缩写词的发音。生成针对缩写词的发音的途径利用了用于检测缩写词的算法。
图1说明了根据示例性实施例在发现缩写词的发音中所执行的操作的流程图,取决于实施例,可以执行另外的、较少的或不同的操作。
在操作12中,检测缩写词。缩写词可以通过标识具有多个大写字母的单词得以检测。在操作14中,检测的缩写词被标注。例如,标注可以包括向检测的缩写词和数字添加特殊的标注符(例如,“<”和“>”),以便由语言标识符和文本-音素(TTP)模块进一步处理。例如,短语JohnGSM将被转换成john<GSM>。
如果名称标签中只有一个单词,那么它不可能是缩写词。如果所有的单词都是大写字母,则不存在缩写词,因为假设用户用大写字母输入缩写词。如果至少一个单词是全大写字母,所有那些单词都设置为缩写词。具有单个字母并可能跟随有点字符的单词,被认为是缩写词,例如,John J.Smith=>john<J>smith。
在操作16中,标识文本的语言。语言可以是英语、西班牙语、芬兰语、法语或任何其他语言。语言的标识是使用了可以与包含在表中的文本中的非缩写词单词或者是通过使用对其他语言有标识力的方法。在操作18中,使用在操作16中标识的语言提供对所检测的和标注的缩写词的发音。该发音可以例如从依赖于语言的缩写词或字母表提取。
图2说明了多语言自动语音识别系统,包括语言标识符(LID)模块22、词汇管理(VM)模块24和文本-音素(TTP)模块26。自动语言识别系统还包括声学建模模块23和识别模块25。LID模块22基于每个词汇项目的文本形式标识其语言。
在示例性实施例中,缩写词的语音的生成要求LID模块22、TTP模块26和词汇管理(VM)模块24之间的相互作用。词汇管理模块24是TTP模块26和LID模块22的集线器,并且用作存储TTP模块26和LID模块22的结果。TTP模块26和LID模块22的处理假设单词以小写字符书写并且缩写词以大写字符书写。如果任何需要进行转换的情况下,则TTP模块22为它们提供覆盖目标语言的全局字母表。TTP模块22在生成发音之前,自动地将非缩写词单词转换为小写。缩写词在VM模块24中被转换为大写以匹配于预先定义的拼写发音规则。
在处理过程中,VM模块24将词汇中的条目拆分为单个单词。因为VM模块24具有关于词汇中的条目的全部信息,所以它实现了用于检测缩写词的逻辑。检测算法是基于大写单词的检测。因为TTP模块26存储了目标语言的全局字母表以及依赖于语言的字母表组,所以VM模块24利用TTP模块26来发现大写单词。基于检测逻辑,如果条目中的单词识别为缩写词,则将前缀“<”置于缩写词的前端并且将后缀“>”置于缩写词的后端。这将使得LID模块22和TTP模块26能够区分规则单词与缩写词。
在条目被分解为单个的单词并且缩写词被隔离之后,将它们中的单个的单词传送到LID模块22。LID模块22基于在条目中的规则单词为名称标签分配语言标识符。LID模块22忽略缩写词和数字序列。将所标识的语言标识符附加到缩写词和数字序列。
在将语言标识符分配给条目之后,VM模块24调用TTP模块26以便为条目生成发音。TTP模块26用例如查找表、发音规则或神经网络(NN)的TTP方法为规则单词生成发音。缩写词的发音是从依赖于语言的缩写词/字母表提取的。数字序列的发音通过拼接单个数字的发音构成。如果条目中有不是字符或数字的符号,则它们在TTP算法的处理过程中被忽略。
图3说明了词汇条目的发音的生成。在操作32中,VM模块从文本加载条目。在操作34中,VM模块将词汇中的条目拆分为单个的单词。这个分割或分离可以通过发现文本字符之间的空格来完成。在操作36中,VM模块实现检测逻辑以隔离缩写词并且为缩写词放置前缀“<”和后缀“>”。至少有一个实施例具有利用TTP模块检测作为缩写词的大写单词的检测逻辑。
在操作38中,VM模块将处理的条目传送到发现条目语言标识符的LID模块。LID模块忽略缩写词和数字串。在操作40中,VM模块将处理的条目传送到生成发音的TTP模块。TTP模块应用依赖于语言的缩写词/字母表和数字表以发现缩写词和数字序列的发音。对于其余的单词,使用非缩写词TTP方法。忽略不熟悉的字符和非数字符号。
参考图2和图3,模块之间的计算的区分不是必需的,计算可以重新分配给另一个模块定义。在这些示例性实施例中,发音的生成依赖于语言专用的缩写词和数字表。
图4说明了根据示例性实施例为缩写词提供文本-语音和自动语音识别的系统中操作的一般流程图。取决于实施例,可以执行另外的、较少的或不同的操作。在操作42、44和46中,系统检测和标注检测的缩写词,基于非缩写词单词标识文本的语言,并且在缩写词发音生成中使用该语言。缩写词的检测可以基于特定规则,例如缩写词使用所有的大写字母或缩写词是没有在专用语言字典文件中发现的单词或是带有特殊字符标签的单词(例如,-、*、#)。缩写词/字母表的发音表用于生成这些特殊情况的发音。
尽管已经描述了本发明的几个实施例,但应当理解,本发明所属领域技术人员将可以做出修改和变化。例如,虽然通过标识大写字母检测缩写词,但也可以利用其他标识习惯。因此,本说明书所附权利要求书试图准确地限定本发明。
Claims (20)
1.一种在语音识别和文本-语音系统中处理缩写词的方法,该方法包括:
从文本中检测缩写词;
基于该文本中的非缩写词单词标识该文本的语言;以及
在缩写词发音生成中利用该标识的语言以便为该检测的缩写词生成发音。
2.根据权利要求1所述的方法,其中该缩写词基于大写字母被检测。
3.根据权利要求1所述的方法,其中在缩写词发音生成中利用该标识的语言以便为该检测的缩写词生成发音包括:获得与该检测的缩写词相关联的音素序列。
4.根据权利要求3所述的方法,进一步包括使用声学模型构成该检测的缩写词。
5.根据权利要求1所述的方法,进一步包括标注该检测的缩写词。
6.根据权利要求5所述的方法,其中标注包括在该检测的缩写词之前添加<标注符并且在该检测的缩写词之后添加>标注符。
7.根据权利要求1所述的方法,其中从文本中检测缩写词包括从文件加载条目。
8.一种用于将语音识别和文本-语音应用于缩写词的系统,该系统包括:
语言标识符,用于标识包括多个词汇项目的文本的语言;
词汇管理器,用于将该词汇项目分离为单个单词并且用于在该词汇项目中检测缩写词并且用于保存该单词的发音;以及
文本-音素(TTP)模块,用于生成该词汇项目的发音,包括缩写词和数字序列的发音。
9.根据权利要求8所述的系统,其中该语言标识符、词汇管理器和TTP模块被集成到共用计算机软件代码。
10.根据权利要求8所述的系统,其中使用检测逻辑检测缩写词并且将其进行标注以从非缩写词分离出缩写词。
11.根据权利要求10所述的系统,其中该检测逻辑基于大写字母标识缩写词。
12.根据权利要求8所述的系统,其中该语言标识符从该文本中的非缩写词单词标识该文本的语言。
13.根据权利要求8所述的系统,其中文本-音素(TTP)模块使用依赖于语言的字母表为该词汇项目生成发音。
14.一种用于将语音识别和文本-语音应用于缩写词的设备,该设备包括:
语言标识符模块,用于从该文本中标识文本和词汇项目的语言;
文本-音素模块,用于为标识的词汇项目提供音素序列;以及
处理器,用于执行指令,以基于该所标识的文本的语言,使用来自该文本-音素模块的该音素序列,构成文本-语音信号。
15.根据权利要求14所述的设备,其中该处理器在该文本-语音信号的构成中使用多语言声学建模。
16.根据权利要求14所述的设备,其中该文本的语言基于来自该文本的非缩写词词汇项目得以标识。
17.一种计算机程序产品,包括:
计算机代码,以便:
从包括缩写词和非缩写词的文本中检测缩写词并且标注该检测的缩写词;
基于非缩写词单词标识该文本的语言;以及
在缩写词发音生成中使用该语言。
18.根据权利要求17所述的计算机程序代码,其中该缩写词的检测是基于包含在存储器中的特定的规则。
19.根据权利要求17所述的计算机程序代码,其中缩写词发音表被用于生成发音。
20.根据权利要求17所述的计算机程序产品,其中在该缩写词的开始处使用<并在该缩写词的结尾处使用>,以对该缩写词进行标注。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/856,207 US20050267757A1 (en) | 2004-05-27 | 2004-05-27 | Handling of acronyms and digits in a speech recognition and text-to-speech engine |
US10/856,207 | 2004-05-27 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1989547A true CN1989547A (zh) | 2007-06-27 |
Family
ID=35426539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2005800250133A Pending CN1989547A (zh) | 2004-05-27 | 2005-05-25 | 在语音识别和文本-语音引擎中处理缩写词和数字 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20050267757A1 (zh) |
CN (1) | CN1989547A (zh) |
WO (1) | WO2005116991A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8719028B2 (en) | 2009-01-08 | 2014-05-06 | Alpine Electronics, Inc. | Information processing apparatus and text-to-speech method |
CN107077841A (zh) * | 2014-06-13 | 2017-08-18 | 微软技术许可有限责任公司 | 用于文本到语音的超结构循环神经网络 |
CN109545183A (zh) * | 2018-11-23 | 2019-03-29 | 北京羽扇智信息科技有限公司 | 文本处理方法、装置、电子设备及存储介质 |
CN110413959A (zh) * | 2019-06-17 | 2019-11-05 | 重庆海特科技发展有限公司 | 桥梁检测记录的处理方法和装置 |
US10867597B2 (en) | 2013-09-02 | 2020-12-15 | Microsoft Technology Licensing, Llc | Assignment of semantic labels to a sequence of words using neural network architectures |
CN113646834A (zh) * | 2019-04-08 | 2021-11-12 | 微软技术许可有限责任公司 | 自动语音识别置信度分类器 |
Families Citing this family (115)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
EP1693830B1 (en) * | 2005-02-21 | 2017-12-20 | Harman Becker Automotive Systems GmbH | Voice-controlled data system |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
JP2007264466A (ja) * | 2006-03-29 | 2007-10-11 | Canon Inc | 音声合成装置 |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8060565B1 (en) * | 2007-01-31 | 2011-11-15 | Avaya Inc. | Voice and text session converter |
US8538743B2 (en) * | 2007-03-21 | 2013-09-17 | Nuance Communications, Inc. | Disambiguating text that is to be converted to speech using configurable lexeme based rules |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US20090083035A1 (en) * | 2007-09-25 | 2009-03-26 | Ritchie Winson Huang | Text pre-processing for text-to-speech generation |
US8595004B2 (en) * | 2007-12-18 | 2013-11-26 | Nec Corporation | Pronunciation variation rule extraction apparatus, pronunciation variation rule extraction method, and pronunciation variation rule extraction program |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
JP2009244639A (ja) * | 2008-03-31 | 2009-10-22 | Sanyo Electric Co Ltd | 発話装置、発話制御プログラムおよび発話制御方法 |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20090326945A1 (en) * | 2008-06-26 | 2009-12-31 | Nokia Corporation | Methods, apparatuses, and computer program products for providing a mixed language entry speech dictation system |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8165881B2 (en) * | 2008-08-29 | 2012-04-24 | Honda Motor Co., Ltd. | System and method for variable text-to-speech with minimized distraction to operator of an automotive vehicle |
US20100057465A1 (en) * | 2008-09-03 | 2010-03-04 | David Michael Kirsch | Variable text-to-speech for automotive application |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US9483461B2 (en) * | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
AU2014278592B2 (en) | 2013-06-09 | 2017-09-07 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10199034B2 (en) | 2014-08-18 | 2019-02-05 | At&T Intellectual Property I, L.P. | System and method for unified normalization in text-to-speech and automatic speech recognition |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
RU2639684C2 (ru) | 2014-08-29 | 2017-12-21 | Общество С Ограниченной Ответственностью "Яндекс" | Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты) |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10388270B2 (en) * | 2014-11-05 | 2019-08-20 | At&T Intellectual Property I, L.P. | System and method for text normalization using atomic tokens |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9922643B2 (en) * | 2014-12-23 | 2018-03-20 | Nice Ltd. | User-aided adaptation of a phonetic dictionary |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10380247B2 (en) * | 2016-10-28 | 2019-08-13 | Microsoft Technology Licensing, Llc | Language-based acronym generation for strings |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10699074B2 (en) * | 2018-05-22 | 2020-06-30 | Microsoft Technology Licensing, Llc | Phrase-level abbreviated text entry and translation |
US11003857B2 (en) * | 2018-08-22 | 2021-05-11 | International Business Machines Corporation | System for augmenting conversational system training with reductions |
US10664658B2 (en) | 2018-08-23 | 2020-05-26 | Microsoft Technology Licensing, Llc | Abbreviated handwritten entry translation |
CN111798832B (zh) * | 2019-04-03 | 2024-09-20 | 北京汇钧科技有限公司 | 语音合成方法、装置和计算机可读存储介质 |
US11501764B2 (en) | 2019-05-10 | 2022-11-15 | Spotify Ab | Apparatus for media entity pronunciation using deep learning |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4829580A (en) * | 1986-03-26 | 1989-05-09 | Telephone And Telegraph Company, At&T Bell Laboratories | Text analysis system with letter sequence recognition and speech stress assignment arrangement |
DE68913669T2 (de) * | 1988-11-23 | 1994-07-21 | Digital Equipment Corp | Namenaussprache durch einen Synthetisator. |
US5062143A (en) * | 1990-02-23 | 1991-10-29 | Harris Corporation | Trigram-based method of language identification |
KR950008022B1 (ko) * | 1991-06-19 | 1995-07-24 | 가부시끼가이샤 히다찌세이사꾸쇼 | 문자처리방법 및 장치와 문자입력방법 및 장치 |
US5651095A (en) * | 1993-10-04 | 1997-07-22 | British Telecommunications Public Limited Company | Speech synthesis using word parser with knowledge base having dictionary of morphemes with binding properties and combining rules to identify input word class |
US5477448A (en) * | 1994-06-01 | 1995-12-19 | Mitsubishi Electric Research Laboratories, Inc. | System for correcting improper determiners |
US5615301A (en) * | 1994-09-28 | 1997-03-25 | Rivers; W. L. | Automated language translation system |
US5634084A (en) * | 1995-01-20 | 1997-05-27 | Centigram Communications Corporation | Abbreviation and acronym/initialism expansion procedures for a text to speech reader |
US5761640A (en) * | 1995-12-18 | 1998-06-02 | Nynex Science & Technology, Inc. | Name and address processor |
AU3086497A (en) * | 1996-06-25 | 1999-01-04 | Telecom Ptt | System and method for coding and broadcasting voice data |
US5913185A (en) * | 1996-08-19 | 1999-06-15 | International Business Machines Corporation | Determining a natural language shift in a computer document |
DE60019301T2 (de) * | 1999-07-21 | 2006-03-09 | Lucent Technologies Inc. | Verbesserte text-zu-sprache umsetzung |
GB2366940B (en) * | 2000-09-06 | 2004-08-11 | Ericsson Telefon Ab L M | Text language detection |
US7117159B1 (en) * | 2001-09-26 | 2006-10-03 | Sprint Spectrum L.P. | Method and system for dynamic control over modes of operation of voice-processing in a voice command platform |
US7536297B2 (en) * | 2002-01-22 | 2009-05-19 | International Business Machines Corporation | System and method for hybrid text mining for finding abbreviations and their definitions |
-
2004
- 2004-05-27 US US10/856,207 patent/US20050267757A1/en not_active Abandoned
-
2005
- 2005-05-25 CN CNA2005800250133A patent/CN1989547A/zh active Pending
- 2005-05-25 WO PCT/IB2005/001435 patent/WO2005116991A1/en active Application Filing
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8719028B2 (en) | 2009-01-08 | 2014-05-06 | Alpine Electronics, Inc. | Information processing apparatus and text-to-speech method |
US10867597B2 (en) | 2013-09-02 | 2020-12-15 | Microsoft Technology Licensing, Llc | Assignment of semantic labels to a sequence of words using neural network architectures |
CN107077841A (zh) * | 2014-06-13 | 2017-08-18 | 微软技术许可有限责任公司 | 用于文本到语音的超结构循环神经网络 |
CN107077841B (zh) * | 2014-06-13 | 2020-10-16 | 微软技术许可有限责任公司 | 用于文本到语音的超结构循环神经网络 |
CN109545183A (zh) * | 2018-11-23 | 2019-03-29 | 北京羽扇智信息科技有限公司 | 文本处理方法、装置、电子设备及存储介质 |
CN113646834A (zh) * | 2019-04-08 | 2021-11-12 | 微软技术许可有限责任公司 | 自动语音识别置信度分类器 |
CN110413959A (zh) * | 2019-06-17 | 2019-11-05 | 重庆海特科技发展有限公司 | 桥梁检测记录的处理方法和装置 |
CN110413959B (zh) * | 2019-06-17 | 2023-05-23 | 重庆海特科技发展有限公司 | 桥梁检测记录的处理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
US20050267757A1 (en) | 2005-12-01 |
WO2005116991A1 (en) | 2005-12-08 |
WO2005116991A8 (en) | 2007-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1989547A (zh) | 在语音识别和文本-语音引擎中处理缩写词和数字 | |
US8041559B2 (en) | System and method for disambiguating non diacritized arabic words in a text | |
KR101083540B1 (ko) | 통계적인 방법을 이용한 한자에 대한 자국어 발음열 변환 시스템 및 방법 | |
CN100568225C (zh) | 文本中数字和特殊符号串的文字符号化处理方法及系统 | |
Vitale | An algorithm for high accuracy name pronunciation by parametric speech synthesizer | |
US20070255567A1 (en) | System and method for generating a pronunciation dictionary | |
JP2013117978A (ja) | タイピング効率向上のためのタイピング候補の生成方法 | |
JP2009037633A (ja) | 規模調整可能なニューラルネットワーク・ベースの、文書テキストからの言語同定 | |
JP2005202917A (ja) | 表音入力の曖昧さを除くためのシステムおよび方法 | |
US5995934A (en) | Method for recognizing alpha-numeric strings in a Chinese speech recognition system | |
WO2006106415A1 (en) | Method, device, and computer program product for multi-lingual speech recognition | |
CN105243056B (zh) | 一种基于标点符号处理的汉语句法分析方法及装置 | |
Kamran Malik et al. | Transliterating urdu for a broad-coverage urdu/hindi lfg grammar | |
CN101436205A (zh) | 通过释义查询单字的方法与装置 | |
Prochasson et al. | Language models for handwritten short message services | |
Shamsfard et al. | STeP-1: standard text preparation for Persian language | |
Qafmolla | Automatic language identification | |
Celikkaya et al. | A mobile assistant for Turkish | |
KR101777141B1 (ko) | 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법 | |
Nguyen et al. | Named entity recognition in Vietnamese tweets | |
Zaghal et al. | Arabic morphological analyzer with text to voice | |
CN102478971A (zh) | 一种方块字的键盘输入方法及具有键盘的数字电子装置 | |
CN101539428A (zh) | 导航系统中拼音加声调检索的方法及装置 | |
JP2798931B2 (ja) | 中国語の語音区切方式および語音漢字変換方式 | |
JP2004280353A (ja) | 韓国語の外来語自動抽出方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20070627 |
|
C20 | Patent right or utility model deemed to be abandoned or is abandoned |