CN1989547A - 在语音识别和文本-语音引擎中处理缩写词和数字 - Google Patents

在语音识别和文本-语音引擎中处理缩写词和数字 Download PDF

Info

Publication number
CN1989547A
CN1989547A CNA2005800250133A CN200580025013A CN1989547A CN 1989547 A CN1989547 A CN 1989547A CN A2005800250133 A CNA2005800250133 A CN A2005800250133A CN 200580025013 A CN200580025013 A CN 200580025013A CN 1989547 A CN1989547 A CN 1989547A
Authority
CN
China
Prior art keywords
abb
text
language
pronunciation
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2005800250133A
Other languages
English (en)
Inventor
朱阿·伊索-西皮拉
雅纳·叙翁托斯塔
吉雷·泰恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of CN1989547A publication Critical patent/CN1989547A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

所公开的方法用于检测缩写词和数字以及用于发现它们的发音的方法。该方法可以结合为自动语音识别(ASR)和文本-语音(TTS)系统的一部分。此外,该方法可以为多语言自动语音识别(ML-ASR)和TTS系统的一部分。在语音识别和文本-语音系统中处理缩写饲的方法可包括从文本中检测缩写词,基于该文本中的非缩写词单词标识该文本的语言,以及在缩写词发音生成中利用该标识的语言以为该检测的缩写词生成发音。

Description

在语音识别和文本-语音引擎中处理缩写词和数字
技术领域
本发明一般涉及在电信系统中的语音识别和文本-语音(TTS)合成技术。更特别地,本发明涉及在电信系统中的多语言语音识别和文本-语音引擎的缩写词和数字处理。
背景技术
文本-语音(TTS)转换器被用来改善对电存储的信息的访问。传统的TTS转换器仅可以从符合语言的拼写和语法习惯的文本中产生可理解的语音。例如,大多数转换器不能可理解地阅读典型的电子邮件(e-mail)消息。不同于认真编辑的文本,电子邮件消息、电话目录条目和日历约会(例如)经常包含马虎的、拼写错误的文本,这些文本具有随机使用的语言格、空格、字体、标点、情绪指示符以及工业专用缩略语和缩写词的优势。为使文本-语音转换可用于这样的应用,必须实施灵活和复杂的规则以智能地解释甚至是最恶劣地形成的文本消息。
在非特定语者人名拨号(SIND)系统中,电子电话目录或电话号码簿内容可以通过无需用户训练的语音或语音标签(voice-tagging)来使用。因此,整个电话号码簿的内容可以立即通过语音使用。与例如蜂窝电话的通信设备相关联的电子电话号码簿的文本内容预先可能是未知的。此外,不同的用户可以例如具有在电话目录中标注/指示某些事情的各种方案。许多人在电话号码簿中使用缩写词、数字或特殊字符使得电话号码簿条目较短或消除电话号码簿条目中的含糊不清。如果所有的用户都以电话号码簿的方式存储名称,则SIND引擎的工作将大为容易。遗憾地,在实际上并没有遵循这样的实践。
当用户向电话号码簿输入缩写词时,他或她可以将缩写词如其拼写地逐字母地发音或如单词一样地发音。通常,没有简单的解决方案来从正常的单词中检测缩写词,尤其是在多语言系统中。
传统的自动语音识别(ASR)和文本-语音(TTS)系统使用查找表发现单词的发音。词汇单词和它们的发音可以存储在查找表中。类似地,可以构建另一个查找表以就缩写词发现它们的发音。
直接的查找表途径有几个缺点。对于由多语言词汇项目组成的词汇,缩写词的发音取决于语言。目前,系统能够处理由单词组成的文本输入。然而,已知的系统不能处理缩写词和数字。
Malsheen等人的美国专利No.5,634,084描述了为文本-语音阅读器扩展了的缩写词、特殊单词或标签的方法。Malsheen的专利描述了使用特殊的查找表以生成发音。然而,如同其他查找表解决方案,Malsheen的专利所描述的系统不能处理多语言词汇项目。
因此,需要一种在发现缩写词的发音之前决定语言的方法。同样,期望区分规则的单词的发音的生成与缩写词的发音的生成。另外,需要依赖于语言的表以发现缩写词的发音。
发明内容
一般地,本发明涉及用于检测缩写词和数字以及用于发现它们的发音的方法。该方法可以结合为自动语音识别(ASR)和文本-语音(TTS)系统的一部分。此外,该方法可以为多语言自动语音识别(ML-ASR)和TTS系统的一部分。
在文本-音素(text-to-phoneme)(TTP)映射中用于检测缩写词和用于发现它们的发音的示例性方法可以是语音用户接口软件的一部分。示例性ML-ASR引擎或系统可以包括自动语言标识(LID)、发音建模和多语言声学建模模块。为引擎以文本形式给出词汇项目。首先,基于词汇项目的书写表示,LID模块标识语言。一旦确定了语言,将应用适当的TTP建模方案以获得与词汇项目相关的音素序列。最后,每个词汇项目的识别模型都构成为多语言声学模型的拼接。使用这些模块,识别器可以自动处理多语言词汇项目,而无需用户的任何协助。
TTP模块可以在ASR以及TTS二者中为词汇项目提供音素序列。TTP模块可以处理由用户提供的所有种类的文本输入。文本输入可以包括单词、数字和缩写词。该方法可以检测缩写词并且发现单词、缩写词和数字序列的发音。
一个示例性的实施例涉及一种在语音识别和文本-语音系统中处理缩写词的方法,该方法包括从文本中检测缩写词,基于该文本中的非缩写词单词标识该文本的语言,以及在缩写词发音生成中利用该标识的语言以为该检测的缩写词生成发音。
另一个示例性的实施例涉及一种用于将语音识别和文本-语音应用于缩写词的设备,该设备包括:语言标识符模块,用于从该文本中标识文本和词汇项目的语言;文本-音素模块,用于为标识的词汇项目提供音素序列;以及处理器,用于执行指令,以基于该所标识的文本的语言,使用来自该文本-音素模块的该音素序列,构成文本-语音信号。
另一个示例性的实施例涉及一种用于将语音识别和文本-语音应用于缩写词的系统,该系统包括:语言标识符,用于标识包括多个词汇项目的文本的语言;词汇管理器,用于将该词汇项目分离为单个单词并且用于在该词汇项目中检测缩写词;以及文本-音素(TTP)模块,用于生成该词汇项目的发音,包括缩写词和数字序列的发音。
再一个示例性的实施例涉及一种计算机程序产品,包括计算机代码,以便从包括缩写词和非缩写词的文本检测缩写词并且标注该检测的缩写词,基于非缩写词单词标识该文本的语言,并且在缩写词发音生成中使用该语言。
附图说明
图1为描述在发现缩写词的发音中所执行的操作的流程图;
图2为描述多语言自动语音识别系统的至少一部分的示图;
图3为描述在生成具有缩写词和数字的词汇的发音中的示例性操作的流程图;以及
图4为在为缩写词提供文本-语音和自动语音识别的系统中操作的一般流程图。
具体实施方式
在描述用于生成缩写词和数字的发音的示例性实施例之前,给出了某些定义。“单词”是由空白的空格字符分开的字母或字符的序列。“名称标签”是单词的序列。“缩写词”是由空格从其他单词分开的大写字母的序列。缩写词(通常)是通过提取以说话中每个单词的第一个字母并将它们彼此拼接而生成的。例如,IBM代表International BusinessMachines(国际商用机器)。
“数字”序列是数字组。它可以由空格从其他单词分开或它可以嵌入在字母序列中(在开始、中间或结尾处)。“缩略语”是后面带点(dot)的字母的序列。同样,存在源于特殊拉丁语的缩略语:E.g.代表“例如”,i.e.代表“即”,jr.代表“小”。“词汇项目”由单词、缩写词和数字的序列组成。
在此描述的语音识别系统中的词汇由条目组成,单个条目由单词、缩写词和数字序列组成。条目可以是大写和小写字符、数字和其他符号的混合并且其包含至少一个字符。最简单的条目之一是象包含人的名和姓的“Timo Makinen”。另一个条目可以象“Marti Virtanen GSM”。在此示例中,在条目中的最后的实体是缩写词,因为其都是大写的。当用户输入具有大小写字符混合的条目时可以区分缩写词与其余单词。因此,规则的单词优选地包含小写字符。如果名称标签全用大写字母书写,则假设其不包含任何缩写词。
在此描述的多语言ASR和TTS引擎覆盖了如中文或韩文的亚洲语言。在这样的语言中,单词由符号表示并且不需要处理缩写词,但是可能需要处理数字序列。
条目的另一个示例是“Bill W.Smith”。在该条目中,有一个由单个字母和点符号组成的实体。带点或不带点的单个字母被假设为缩写词。
原则上,某些缩写词,如“SUN”(Stanford University Network)可以读作单词。某些其他的缩写词,如GSM不能读作单词。作为替代,它们是逐字母地拼写的。为了描述的目的,假设所有的缩写词都逐字母地拼写。条目还可以包含如“123”的数字序列。象对待缩写词一样对待数字序列,这些数字序列被从条目的其余部分隔离并且被分开处理。该数字序列可以被读作“壹佰贰拾叁”,或者它们可以被逐位地拼写为“壹、贰、叁”假设数字序列逐位地拼写。这样的假设只是说明性的。
另外,除字符符号和数字之外,条目可以包含完全不发音的其他符号(如“Bill W.Smith”中的点)。非字符和非数字符号在生成发音之前被从条目中删除。
为描述示例性实施例的目的,做出以下假设:
-缩写词书写为大写字母
-缩写词逐字母地拼写
-将各字母的拼写存储在感兴趣的语言组的专用语言查找表中
-数字序列逐位地拼写
-将各数字的拼写存储在感兴趣的语言组的专用语言查找表中
示例性实施例在词汇的条目中检测缩写词并且在多语言语音识别引擎中生成针对缩写词的发音。生成针对缩写词的发音的途径利用了用于检测缩写词的算法。
图1说明了根据示例性实施例在发现缩写词的发音中所执行的操作的流程图,取决于实施例,可以执行另外的、较少的或不同的操作。
在操作12中,检测缩写词。缩写词可以通过标识具有多个大写字母的单词得以检测。在操作14中,检测的缩写词被标注。例如,标注可以包括向检测的缩写词和数字添加特殊的标注符(例如,“<”和“>”),以便由语言标识符和文本-音素(TTP)模块进一步处理。例如,短语JohnGSM将被转换成john<GSM>。
如果名称标签中只有一个单词,那么它不可能是缩写词。如果所有的单词都是大写字母,则不存在缩写词,因为假设用户用大写字母输入缩写词。如果至少一个单词是全大写字母,所有那些单词都设置为缩写词。具有单个字母并可能跟随有点字符的单词,被认为是缩写词,例如,John J.Smith=>john<J>smith。
在操作16中,标识文本的语言。语言可以是英语、西班牙语、芬兰语、法语或任何其他语言。语言的标识是使用了可以与包含在表中的文本中的非缩写词单词或者是通过使用对其他语言有标识力的方法。在操作18中,使用在操作16中标识的语言提供对所检测的和标注的缩写词的发音。该发音可以例如从依赖于语言的缩写词或字母表提取。
图2说明了多语言自动语音识别系统,包括语言标识符(LID)模块22、词汇管理(VM)模块24和文本-音素(TTP)模块26。自动语言识别系统还包括声学建模模块23和识别模块25。LID模块22基于每个词汇项目的文本形式标识其语言。
在示例性实施例中,缩写词的语音的生成要求LID模块22、TTP模块26和词汇管理(VM)模块24之间的相互作用。词汇管理模块24是TTP模块26和LID模块22的集线器,并且用作存储TTP模块26和LID模块22的结果。TTP模块26和LID模块22的处理假设单词以小写字符书写并且缩写词以大写字符书写。如果任何需要进行转换的情况下,则TTP模块22为它们提供覆盖目标语言的全局字母表。TTP模块22在生成发音之前,自动地将非缩写词单词转换为小写。缩写词在VM模块24中被转换为大写以匹配于预先定义的拼写发音规则。
在处理过程中,VM模块24将词汇中的条目拆分为单个单词。因为VM模块24具有关于词汇中的条目的全部信息,所以它实现了用于检测缩写词的逻辑。检测算法是基于大写单词的检测。因为TTP模块26存储了目标语言的全局字母表以及依赖于语言的字母表组,所以VM模块24利用TTP模块26来发现大写单词。基于检测逻辑,如果条目中的单词识别为缩写词,则将前缀“<”置于缩写词的前端并且将后缀“>”置于缩写词的后端。这将使得LID模块22和TTP模块26能够区分规则单词与缩写词。
在条目被分解为单个的单词并且缩写词被隔离之后,将它们中的单个的单词传送到LID模块22。LID模块22基于在条目中的规则单词为名称标签分配语言标识符。LID模块22忽略缩写词和数字序列。将所标识的语言标识符附加到缩写词和数字序列。
在将语言标识符分配给条目之后,VM模块24调用TTP模块26以便为条目生成发音。TTP模块26用例如查找表、发音规则或神经网络(NN)的TTP方法为规则单词生成发音。缩写词的发音是从依赖于语言的缩写词/字母表提取的。数字序列的发音通过拼接单个数字的发音构成。如果条目中有不是字符或数字的符号,则它们在TTP算法的处理过程中被忽略。
图3说明了词汇条目的发音的生成。在操作32中,VM模块从文本加载条目。在操作34中,VM模块将词汇中的条目拆分为单个的单词。这个分割或分离可以通过发现文本字符之间的空格来完成。在操作36中,VM模块实现检测逻辑以隔离缩写词并且为缩写词放置前缀“<”和后缀“>”。至少有一个实施例具有利用TTP模块检测作为缩写词的大写单词的检测逻辑。
在操作38中,VM模块将处理的条目传送到发现条目语言标识符的LID模块。LID模块忽略缩写词和数字串。在操作40中,VM模块将处理的条目传送到生成发音的TTP模块。TTP模块应用依赖于语言的缩写词/字母表和数字表以发现缩写词和数字序列的发音。对于其余的单词,使用非缩写词TTP方法。忽略不熟悉的字符和非数字符号。
参考图2和图3,模块之间的计算的区分不是必需的,计算可以重新分配给另一个模块定义。在这些示例性实施例中,发音的生成依赖于语言专用的缩写词和数字表。
图4说明了根据示例性实施例为缩写词提供文本-语音和自动语音识别的系统中操作的一般流程图。取决于实施例,可以执行另外的、较少的或不同的操作。在操作42、44和46中,系统检测和标注检测的缩写词,基于非缩写词单词标识文本的语言,并且在缩写词发音生成中使用该语言。缩写词的检测可以基于特定规则,例如缩写词使用所有的大写字母或缩写词是没有在专用语言字典文件中发现的单词或是带有特殊字符标签的单词(例如,-、*、#)。缩写词/字母表的发音表用于生成这些特殊情况的发音。
尽管已经描述了本发明的几个实施例,但应当理解,本发明所属领域技术人员将可以做出修改和变化。例如,虽然通过标识大写字母检测缩写词,但也可以利用其他标识习惯。因此,本说明书所附权利要求书试图准确地限定本发明。

Claims (20)

1.一种在语音识别和文本-语音系统中处理缩写词的方法,该方法包括:
从文本中检测缩写词;
基于该文本中的非缩写词单词标识该文本的语言;以及
在缩写词发音生成中利用该标识的语言以便为该检测的缩写词生成发音。
2.根据权利要求1所述的方法,其中该缩写词基于大写字母被检测。
3.根据权利要求1所述的方法,其中在缩写词发音生成中利用该标识的语言以便为该检测的缩写词生成发音包括:获得与该检测的缩写词相关联的音素序列。
4.根据权利要求3所述的方法,进一步包括使用声学模型构成该检测的缩写词。
5.根据权利要求1所述的方法,进一步包括标注该检测的缩写词。
6.根据权利要求5所述的方法,其中标注包括在该检测的缩写词之前添加<标注符并且在该检测的缩写词之后添加>标注符。
7.根据权利要求1所述的方法,其中从文本中检测缩写词包括从文件加载条目。
8.一种用于将语音识别和文本-语音应用于缩写词的系统,该系统包括:
语言标识符,用于标识包括多个词汇项目的文本的语言;
词汇管理器,用于将该词汇项目分离为单个单词并且用于在该词汇项目中检测缩写词并且用于保存该单词的发音;以及
文本-音素(TTP)模块,用于生成该词汇项目的发音,包括缩写词和数字序列的发音。
9.根据权利要求8所述的系统,其中该语言标识符、词汇管理器和TTP模块被集成到共用计算机软件代码。
10.根据权利要求8所述的系统,其中使用检测逻辑检测缩写词并且将其进行标注以从非缩写词分离出缩写词。
11.根据权利要求10所述的系统,其中该检测逻辑基于大写字母标识缩写词。
12.根据权利要求8所述的系统,其中该语言标识符从该文本中的非缩写词单词标识该文本的语言。
13.根据权利要求8所述的系统,其中文本-音素(TTP)模块使用依赖于语言的字母表为该词汇项目生成发音。
14.一种用于将语音识别和文本-语音应用于缩写词的设备,该设备包括:
语言标识符模块,用于从该文本中标识文本和词汇项目的语言;
文本-音素模块,用于为标识的词汇项目提供音素序列;以及
处理器,用于执行指令,以基于该所标识的文本的语言,使用来自该文本-音素模块的该音素序列,构成文本-语音信号。
15.根据权利要求14所述的设备,其中该处理器在该文本-语音信号的构成中使用多语言声学建模。
16.根据权利要求14所述的设备,其中该文本的语言基于来自该文本的非缩写词词汇项目得以标识。
17.一种计算机程序产品,包括:
计算机代码,以便:
从包括缩写词和非缩写词的文本中检测缩写词并且标注该检测的缩写词;
基于非缩写词单词标识该文本的语言;以及
在缩写词发音生成中使用该语言。
18.根据权利要求17所述的计算机程序代码,其中该缩写词的检测是基于包含在存储器中的特定的规则。
19.根据权利要求17所述的计算机程序代码,其中缩写词发音表被用于生成发音。
20.根据权利要求17所述的计算机程序产品,其中在该缩写词的开始处使用<并在该缩写词的结尾处使用>,以对该缩写词进行标注。
CNA2005800250133A 2004-05-27 2005-05-25 在语音识别和文本-语音引擎中处理缩写词和数字 Pending CN1989547A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/856,207 US20050267757A1 (en) 2004-05-27 2004-05-27 Handling of acronyms and digits in a speech recognition and text-to-speech engine
US10/856,207 2004-05-27

Publications (1)

Publication Number Publication Date
CN1989547A true CN1989547A (zh) 2007-06-27

Family

ID=35426539

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2005800250133A Pending CN1989547A (zh) 2004-05-27 2005-05-25 在语音识别和文本-语音引擎中处理缩写词和数字

Country Status (3)

Country Link
US (1) US20050267757A1 (zh)
CN (1) CN1989547A (zh)
WO (1) WO2005116991A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8719028B2 (en) 2009-01-08 2014-05-06 Alpine Electronics, Inc. Information processing apparatus and text-to-speech method
CN107077841A (zh) * 2014-06-13 2017-08-18 微软技术许可有限责任公司 用于文本到语音的超结构循环神经网络
CN109545183A (zh) * 2018-11-23 2019-03-29 北京羽扇智信息科技有限公司 文本处理方法、装置、电子设备及存储介质
CN110413959A (zh) * 2019-06-17 2019-11-05 重庆海特科技发展有限公司 桥梁检测记录的处理方法和装置
US10867597B2 (en) 2013-09-02 2020-12-15 Microsoft Technology Licensing, Llc Assignment of semantic labels to a sequence of words using neural network architectures
CN113646834A (zh) * 2019-04-08 2021-11-12 微软技术许可有限责任公司 自动语音识别置信度分类器

Families Citing this family (115)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
EP1693830B1 (en) * 2005-02-21 2017-12-20 Harman Becker Automotive Systems GmbH Voice-controlled data system
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
JP2007264466A (ja) * 2006-03-29 2007-10-11 Canon Inc 音声合成装置
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8060565B1 (en) * 2007-01-31 2011-11-15 Avaya Inc. Voice and text session converter
US8538743B2 (en) * 2007-03-21 2013-09-17 Nuance Communications, Inc. Disambiguating text that is to be converted to speech using configurable lexeme based rules
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US20090083035A1 (en) * 2007-09-25 2009-03-26 Ritchie Winson Huang Text pre-processing for text-to-speech generation
US8595004B2 (en) * 2007-12-18 2013-11-26 Nec Corporation Pronunciation variation rule extraction apparatus, pronunciation variation rule extraction method, and pronunciation variation rule extraction program
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
JP2009244639A (ja) * 2008-03-31 2009-10-22 Sanyo Electric Co Ltd 発話装置、発話制御プログラムおよび発話制御方法
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20090326945A1 (en) * 2008-06-26 2009-12-31 Nokia Corporation Methods, apparatuses, and computer program products for providing a mixed language entry speech dictation system
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8165881B2 (en) * 2008-08-29 2012-04-24 Honda Motor Co., Ltd. System and method for variable text-to-speech with minimized distraction to operator of an automotive vehicle
US20100057465A1 (en) * 2008-09-03 2010-03-04 David Michael Kirsch Variable text-to-speech for automotive application
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9483461B2 (en) * 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
AU2014278592B2 (en) 2013-06-09 2017-09-07 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10199034B2 (en) 2014-08-18 2019-02-05 At&T Intellectual Property I, L.P. System and method for unified normalization in text-to-speech and automatic speech recognition
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
RU2639684C2 (ru) 2014-08-29 2017-12-21 Общество С Ограниченной Ответственностью "Яндекс" Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты)
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10388270B2 (en) * 2014-11-05 2019-08-20 At&T Intellectual Property I, L.P. System and method for text normalization using atomic tokens
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9922643B2 (en) * 2014-12-23 2018-03-20 Nice Ltd. User-aided adaptation of a phonetic dictionary
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10380247B2 (en) * 2016-10-28 2019-08-13 Microsoft Technology Licensing, Llc Language-based acronym generation for strings
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10699074B2 (en) * 2018-05-22 2020-06-30 Microsoft Technology Licensing, Llc Phrase-level abbreviated text entry and translation
US11003857B2 (en) * 2018-08-22 2021-05-11 International Business Machines Corporation System for augmenting conversational system training with reductions
US10664658B2 (en) 2018-08-23 2020-05-26 Microsoft Technology Licensing, Llc Abbreviated handwritten entry translation
CN111798832B (zh) * 2019-04-03 2024-09-20 北京汇钧科技有限公司 语音合成方法、装置和计算机可读存储介质
US11501764B2 (en) 2019-05-10 2022-11-15 Spotify Ab Apparatus for media entity pronunciation using deep learning

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4829580A (en) * 1986-03-26 1989-05-09 Telephone And Telegraph Company, At&T Bell Laboratories Text analysis system with letter sequence recognition and speech stress assignment arrangement
DE68913669T2 (de) * 1988-11-23 1994-07-21 Digital Equipment Corp Namenaussprache durch einen Synthetisator.
US5062143A (en) * 1990-02-23 1991-10-29 Harris Corporation Trigram-based method of language identification
KR950008022B1 (ko) * 1991-06-19 1995-07-24 가부시끼가이샤 히다찌세이사꾸쇼 문자처리방법 및 장치와 문자입력방법 및 장치
US5651095A (en) * 1993-10-04 1997-07-22 British Telecommunications Public Limited Company Speech synthesis using word parser with knowledge base having dictionary of morphemes with binding properties and combining rules to identify input word class
US5477448A (en) * 1994-06-01 1995-12-19 Mitsubishi Electric Research Laboratories, Inc. System for correcting improper determiners
US5615301A (en) * 1994-09-28 1997-03-25 Rivers; W. L. Automated language translation system
US5634084A (en) * 1995-01-20 1997-05-27 Centigram Communications Corporation Abbreviation and acronym/initialism expansion procedures for a text to speech reader
US5761640A (en) * 1995-12-18 1998-06-02 Nynex Science & Technology, Inc. Name and address processor
AU3086497A (en) * 1996-06-25 1999-01-04 Telecom Ptt System and method for coding and broadcasting voice data
US5913185A (en) * 1996-08-19 1999-06-15 International Business Machines Corporation Determining a natural language shift in a computer document
DE60019301T2 (de) * 1999-07-21 2006-03-09 Lucent Technologies Inc. Verbesserte text-zu-sprache umsetzung
GB2366940B (en) * 2000-09-06 2004-08-11 Ericsson Telefon Ab L M Text language detection
US7117159B1 (en) * 2001-09-26 2006-10-03 Sprint Spectrum L.P. Method and system for dynamic control over modes of operation of voice-processing in a voice command platform
US7536297B2 (en) * 2002-01-22 2009-05-19 International Business Machines Corporation System and method for hybrid text mining for finding abbreviations and their definitions

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8719028B2 (en) 2009-01-08 2014-05-06 Alpine Electronics, Inc. Information processing apparatus and text-to-speech method
US10867597B2 (en) 2013-09-02 2020-12-15 Microsoft Technology Licensing, Llc Assignment of semantic labels to a sequence of words using neural network architectures
CN107077841A (zh) * 2014-06-13 2017-08-18 微软技术许可有限责任公司 用于文本到语音的超结构循环神经网络
CN107077841B (zh) * 2014-06-13 2020-10-16 微软技术许可有限责任公司 用于文本到语音的超结构循环神经网络
CN109545183A (zh) * 2018-11-23 2019-03-29 北京羽扇智信息科技有限公司 文本处理方法、装置、电子设备及存储介质
CN113646834A (zh) * 2019-04-08 2021-11-12 微软技术许可有限责任公司 自动语音识别置信度分类器
CN110413959A (zh) * 2019-06-17 2019-11-05 重庆海特科技发展有限公司 桥梁检测记录的处理方法和装置
CN110413959B (zh) * 2019-06-17 2023-05-23 重庆海特科技发展有限公司 桥梁检测记录的处理方法和装置

Also Published As

Publication number Publication date
US20050267757A1 (en) 2005-12-01
WO2005116991A1 (en) 2005-12-08
WO2005116991A8 (en) 2007-06-28

Similar Documents

Publication Publication Date Title
CN1989547A (zh) 在语音识别和文本-语音引擎中处理缩写词和数字
US8041559B2 (en) System and method for disambiguating non diacritized arabic words in a text
KR101083540B1 (ko) 통계적인 방법을 이용한 한자에 대한 자국어 발음열 변환 시스템 및 방법
CN100568225C (zh) 文本中数字和特殊符号串的文字符号化处理方法及系统
Vitale An algorithm for high accuracy name pronunciation by parametric speech synthesizer
US20070255567A1 (en) System and method for generating a pronunciation dictionary
JP2013117978A (ja) タイピング効率向上のためのタイピング候補の生成方法
JP2009037633A (ja) 規模調整可能なニューラルネットワーク・ベースの、文書テキストからの言語同定
JP2005202917A (ja) 表音入力の曖昧さを除くためのシステムおよび方法
US5995934A (en) Method for recognizing alpha-numeric strings in a Chinese speech recognition system
WO2006106415A1 (en) Method, device, and computer program product for multi-lingual speech recognition
CN105243056B (zh) 一种基于标点符号处理的汉语句法分析方法及装置
Kamran Malik et al. Transliterating urdu for a broad-coverage urdu/hindi lfg grammar
CN101436205A (zh) 通过释义查询单字的方法与装置
Prochasson et al. Language models for handwritten short message services
Shamsfard et al. STeP-1: standard text preparation for Persian language
Qafmolla Automatic language identification
Celikkaya et al. A mobile assistant for Turkish
KR101777141B1 (ko) 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법
Nguyen et al. Named entity recognition in Vietnamese tweets
Zaghal et al. Arabic morphological analyzer with text to voice
CN102478971A (zh) 一种方块字的键盘输入方法及具有键盘的数字电子装置
CN101539428A (zh) 导航系统中拼音加声调检索的方法及装置
JP2798931B2 (ja) 中国語の語音区切方式および語音漢字変換方式
JP2004280353A (ja) 韓国語の外来語自動抽出方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20070627

C20 Patent right or utility model deemed to be abandoned or is abandoned