CN101901599A - 不同语言的现有语音识别方案的快速原形化的系统和方法 - Google Patents

不同语言的现有语音识别方案的快速原形化的系统和方法 Download PDF

Info

Publication number
CN101901599A
CN101901599A CN2010101828285A CN201010182828A CN101901599A CN 101901599 A CN101901599 A CN 101901599A CN 2010101828285 A CN2010101828285 A CN 2010101828285A CN 201010182828 A CN201010182828 A CN 201010182828A CN 101901599 A CN101901599 A CN 101901599A
Authority
CN
China
Prior art keywords
language
word
target language
source language
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010101828285A
Other languages
English (en)
Other versions
CN101901599B (zh
Inventor
S·K·科帕拉普
I·A·谢赫
A·S·法兰德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tata Consultancy Services Ltd
Original Assignee
Tata Consultancy Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tata Consultancy Services Ltd filed Critical Tata Consultancy Services Ltd
Publication of CN101901599A publication Critical patent/CN101901599A/zh
Application granted granted Critical
Publication of CN101901599B publication Critical patent/CN101901599B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

公开一种将源语言的现有语音识别方案移植到目标语言的系统和方法。本发明设想的系统能够将源语言的工作语音识别方案移植到目标语言的工作系统,由此最小化开发过程和重用现有语音识别方案,以识别多种语言。

Description

不同语言的现有语音识别方案的快速原形化的系统和方法
技术领域
本发明涉及语音识别领域。
背景技术
说明书中使用的术语的定义
以下是本领域已知的并在说明书中使用的术语的定义:
●字素(grapheme):是书面语言的基本单位。
●音素(phoneme):是声音的最小部分单位,其用以形成话语之间的有意义的对比。
●翻译(translate):是文本的意义的理解以及用另一语言传达相同消息的同等文本的后期制作。
●音译(transliterate):是以系统化方式将文本从一个书写系统转换成另一书写系统的处理。
如今,为了提高客户服务,交互技术扮演了关键角色。如IVR(交互式语音应答)交互技术接受口头的用户输入和/或请求,并响应于用户的请求提供预记录的或动态生成的输出。
典型地,IVR应用使用语音识别系统识别并将口语单词或口语单词序列转换成机器可读形式,用于进一步处理和/或应答用户查询。典型地,这些语音识别系统被部署用于特定语言,因此当必须部署相同系统用于不同语言时,必须移植(port)现有系统,使其能够理解新语言,这等同于建立新的应用。由于以下原因,大部分现有系统以英语来部署:
(a)语言的更广泛的可接受性;以及
(b)英语的信息和其他资源的随时性。
然而,随着在本国语言并非英语的各个国家中基于语音的方案的可接受性增加,急切地需要将源语言(例如英语)的基于现有语音识别的应用转换成目标语言(例如印地语)。
典型地,基于现有语音识别的方案需要以下组件:
●具有用于声学识别的声学模型的语音识别(SR)引擎;
●必须识别的单词的发音词典;
●语音文法或语言模型;以及
●用于产生来自用户的响应的语音提示,即,提示用户提交他们的查询。
前三个组件在一起协作将口语语音转换成文本,而第四个组件帮助基于现有语音识别的方案与用户交流。典型地,从源语言将基于现有语音识别的方案转换成目标语言需要将这四个组件移植到目标语言。
但是,如果以目标语言适当地实现了其他两个组件(即发音词典和语音文法),则为了特定语言调整声学模型,并使用声学模型以满意的精度识别另一语言的语音。
实质上,从一个语言将基于现有语音识别的方案转换成另一语言必须创建用于目标语言的新的发音词典,其包含基于语音识别的方案要识别的所有单词以及目标语言的语音文法模型。此外,必须将源语言的提示转换成目标语言的提示。
用于将源语言的基于现有语音识别的方案移植成目标语言的这些修改需要等同于建立完全新的基于语音识别的方案的工作量。在现有技术中存在各种尝试,以开发能够容易地将应用从一个语言移植成另一语言的系统。
具体地,美国专利7406417公开了一种调节用于自动语音处理的数据库的方法。该文档公开了一种神经网络,其可被训练以借助于通过自动匹配字素和音素所生成的数据库来合成或识别语音。首先,对于具有相同数目的字素和音素的单词来匹配字素和音素。接下来,在将字素与先前音素组合的一系列步骤中,对于具有比音素更多字素的单词来匹配字素和音素。然后,对于具有比音素更少字素的单词来匹配字素和音素。在每个步骤之后,清除在先前步骤中做出的较少的和未成功的匹配。在这个处理完成之后,可使用数据库来训练神经网络和字素,或者可借助于训练的人工神经网络将文本的字母转换成相应的音素。
此外,美国专利申请2005197835公开了一种方法和装置,用于生成由非本国演讲者发出的外语单词的演讲者独立语音识别的声学模型。该文档公开了自动生成的并利用来自本国语言和外国语言的训练声学模型的用于语音识别的声学模型。利用音素到音素的映射来实现通过本国语言音素对外国语言单词的描述。使用音素到音素的映射来训练外国语言单词,这通过本国语言音素以外国语言语音素材来描述。
创建新的音素词典,其包含外国语言单词以及由本国语言音素转录的本国语言单词。可利用外国语言和本国语言训练素材导出健壮的本国语言声学模型。可使用所述映射来训练字素到音素转换器(即外国语言到本国语言),以生成对于新的外国语言单词的本国语言发音。
此外,美国专利申请2009150153公开了使用声学数据的字素到音素的转换。该文档公开了使用声学数据来改进用于语音识别的字素到音素的转换,例如用以在语音拨号系统中更精确地识别口语名称。描述了声学和音素的联合模型(声学数据、音素序列、字素序列以及音素序列和字素序列之间的排列),使用声学数据通过适配字素模型参数的最大可能性训练和区别性训练对所述模型进行重新训练。还描述了用于接收的声学数据的字素标签的非监督集合,从而自动获得可在重新训练时使用的大量实际采样。可过滤出不满足信任阈值的语音输入,而不被重新训练的模型使用。
此外,世界知识产权组织文档No.2009/150591公开了一种方法和设备,用于生成主题特定的词汇表和计算机程序产品。该文档公开了一种方法,用于从公用文本而计算机辅助生成主题特定的词汇表。在该文档中公开的步骤如下:语言和主题特定文本的自动选择;词汇表项目的自动生成,其每个包括基于所选文本的单词以及标音;采用词汇表项目的基于字素结构的分类来实现词汇表项目的自动生成,以根据多个预定类型来分类词汇表项目;词汇表项目类型特定的字素到音素的转换;以及获得用于单词的标音。
然而,上述文档不适于在现有部署中通过最小的改变将现有语音识别方案移植到多个目标语言。因此,需要一种系统,通过重用现有应用的语音识别引擎使得现有应用被快速移植和/或修改,从而以多个目标语言工作。
发明内容
本发明的目的在于提供一种系统,能够将现有语音识别方案快速移植到以另一目标语言工作。
本发明的另一目的在于提供一种系统,用于精确的源到目标语言词典和语音文法音译和翻译。
本发明的另一目的在于提供一种系统,其自动生成目标语言单词的源语言音素发音。
一种用于移植源语言的语音识别方案以识别目标语言的系统,所述语音识别方案包括语音识别引擎、源语言的发音词典、源语言的语音文法文件、源语言的提示,所述系统包括:
●词典转换装置,适于将源语言的发音词典转换成在目标语言中使用的等同词典,所述词典转换装置具有:
i.第一数据库,用于存储与目标语言的相似单词相应的源语言的单词的词典;
ii.与所述第一数据库协作的翻译装置,适于接收源语言的每个单词,以及提供目标语言的其相应单词;
iii.音译装置,适于接收所述翻译的单词并将其映射至源语言字素;
iv.字素到音素转换装置,适于针对所述源语言字素中的每个生成源语言音素,以获得源语言的目标语言单词的音素发音;
v.查询表生成装置,适于从所述字素到音素转换装置接收源语言的音译的目标语言单词,以及还接收所述单词的等同音素发音,并且制备查询表;
●文法转换装置,适于修改源语言的语音文法文件,以处理目标语言的基于自由语音的语音识别方案,所述文法转换装置具有:
i.翻译装置,适于接收源语言的语音文法文件,以及将所述文法文件翻译成目标语言;
ii.音译装置,适于接收所述翻译的文法文件,以及将所述翻译的文法文件音译成源语言,以及用源语言提供针对目标语言的音译文法文件;
●提示生成装置,适于将源语言的话音提示转换成目标语言,所述提示生成装置具有:
i.翻译装置,适于将可包含在源语言的话音提示中的单词转换成目标语言的单词;
ii.识别装置,适于使用所述词典转换装置的所述查询表中的单词以识别与可包含在目标语言的提示中的单词相应的音素发音,并提供可包含在源语言的提示中的单词的音素序列;
iii.文本到语音转换装置,适于接收所述单词的音素序列,并生成可包含在源语言的提示中的单词串;
iv.文法调节装置,适于接收所转换的可包含在源语言的提示中的单词串,并根据针对目标语言的音译文法文件设置单词,以及提供基于文法修改的文本的提示;
v.语音生成装置,适于接收所述基于文法修改的文本的提示,以及针对所述基于文法修改的文本的提示生成基于语音的输出;
●与所述提示生成装置协作的提示装置,适于输出与目标语言的提示相应的所生成的语音,以引导用户提交他们的查询;
●接收装置,适于从用户接收目标语言的基于语音的查询,所述查询适于被接收,并通过所述语音识别引擎使用针对目标语言的所述查询表和所述音译文法文件转换成源语言文本和源语言表示;
●处理装置,适于处理所述源语言文本和执行预定操作,并进一步适于提供处理的输出;
●编译装置,与所述词典转换装置、所述语音文法转换装置、所述提示生成装置、和所述处理装置协作,以及适于编译目标语言的最终输出;以及
●回放装置,适于播放目标语言的所述最终输出。
根据本发明,提供一种用于移植源语言的语音识别方案以用目标语言工作的方法,所述方法包括以下步骤:
●修改源语言的发音词典,以提供目标语言的发音词典;
●修改源语言的语音文法文件,以提供目标语言的语音文法文件;
●转换源语言的话音提示,以提供目标语言的话音提示;
目标语言方案然后:
●提示用户用目标语言提交他们的查询;
●从用户接收目标语言的基于语音的查询;
●使用目标语言的修改的发音词典将接收的查询转换成目标语言;
●查询与识别的目标语言文本等同的源语言文本;
●处理基于转换的源语言文本的查询,以执行预定操作和提供处理的输出;以及
●编译目标语言的最终输出;以及
●播放目标语言的所述最终输出。
典型地,修改源语言的发音词典,以提供目标语言的发音词典的步骤包括以下步骤:
●提供第一数据库,其用于存储源语言的单词的词典;
●翻译源语言的每个单词,并提供目标语言的其相应单词;
●将所述翻译的单词中的每个音译成源语言字素;
●针对所述源语言字素的每个生成源语言音素序列,以获得源语言的目标语言单词的音素发音;以及
●通过将目标语言的音译单词与其等同的音素发音映射来创建目标语言的单词的查询表。
优选地,修改源语言的语音文法文件,以提供目标语言的语音文法文件的步骤包括以下步骤:将源语言的语音文法文件翻译成目标语言,以及将所述翻译的语音文法文件从目标语言音译成源语言。
此外,将源语言的话音提示转换成目标语言的步骤包括以下步骤:
●将源语言的话音提示翻译成目标语言;
●识别与可包含在目标语言的提示中的单词相应的音素发音,以及提供可包含在源语言的提示中的单词的音素序列;以及
●生成针对单词的所述音素序列的语音,以及生成针对单词提示的所述音素序列的基于语音的输出。
附图说明
现在将参照附图描述本发明,其中:
图1示出根据本发明的提出的系统的概况及其具有现有语音识别方案的接口;
图2示出根据本发明的词典转换装置的示意图;
图3示出根据本发明的文法转换装置的示意图;
图4示出根据本发明的提示生成装置的示意图;以及
图5示出根据本发明的将语音识别方案从源语言移植到目标语言的方法的流程图。
具体实施方式
典型地,针对特定源语言(典型地英语)建立传统的语音识别方案,然而,随着在本国语言不同于源语言的各个国家中基于语音的方案的可接受性增加,需要以最小开发工作量将以源语言工作的现有语音方案转换成目标语言。为了克服现有语音识别方案的这些缺点,本发明设想从源语言的基于现有语音识别的方案建立目标语言的语音识别系统。
具体地,本发明所设想的系统能够将源语言的任意现有语音识别方案移植到目标语言,因此最小化了在开发过程中涉及的时间和工作量,并且能够重用现有语音识别方案组件。
参照附图,图1示出将现有语音识别方案从语言移植到目标语言的本发明的概况及其具有源语言的现有语音识别方案的接口。
建立具有一个或多个调用流单元(一般地,通过图1的标号10代表)的传统的语音识别应用。
每个传统的调用流单元10包括执行以下功能的模块:
●由提示装置12执行的提示用户说话/提交他们的请求/查询;
●由接收装置14执行的接收用户请求;
●由语音识别引擎16执行的识别用户请求;
●由处理装置18执行的处理所识别的文本,以应答用户请求;
●由编译装置20执行的编译向用户提供的结果;以及
●由回放装置22执行的向用户提供响应。
典型地,所识别的文本的处理的步骤包括两种类型数据的处理:
1.语音(声学)数据;以及
2.文本数据。
在与用户交互时使用语音数据,而为了处理从语音数据提取的信息内部处理文本数据。
为了将这样的现有语音识别方案移植到目标语言,本发明提出了通过采用以下步骤移植现有方案:
●保持文本数据以及由现有语音识别调用流单元对其进行的处理不变;
●保持(源/英语语言的)语音数据的文本数据表示不变,而不管目标语言;以及
●修改源语音识别资源(即音素词典和语音文法),以处理目标语言。
根据本发明,参照图1,调用流单元与应用数据24一起在目标语言中保持不变。由框100表示本发明所执行的修改。
为了有效地将任意现有语音识别方案移植到目标语言,本发明提出修改音素词典、语音文法和话音提示。
系统100包括用于将现有语音识别方案从源语言移植到目标语言的以下组件:
●词典转换装置102,适于将源语言的发音词典转换成目标语言的等同发音词典;
●文法转换装置104,适于转换源语言的语音文法文件,以处理目标语言的基于自由语音的语音识别方案;以及
●提示生成装置106,适于将源语言的话音提示转换成目标语言。
本发明的上述组件结合现有语音识别方案的组件运行,移植现有方案以识别目标语言。现有语音识别方案的组件如下:
●应用数据24,提供基于源语音识别方案的数据,包括源语言发音词典、语音文法文件和提示;
●提示装置12,适于引导用户提交他们的查询;
●接收装置14,适于从用户接收目标语言的基于语音的查询;
●现有语音识别方案的语音识别引擎16,接收基于语音的查询,并使用词典修改装置102将其转换成源语言音素;
●处理装置18,适于处理源语言文本并执行预定的操作,以及还适于提供所处理的输出;
●编译装置20,适于通过编译来自词典修改装置102、语音文法修改装置104、提示生成装置12和处理装置18的结果来编译目标语言的最终输出;以及
●回放装置22,适于播放最终编译的输出。
图2示出根据本发明的词典转换装置102的示意图。
词典转换装置102从源语言词典提取每个单词,并使用翻译装置202确定其翻译。翻译装置202检查单词是否存在于第一数据库200中,如果单词存在,则从第一数据库200提取目标语言的相应翻译的单词。如果单词不存在于第一数据库200中,则使用音译装置204将单词音译成目标语言字素。基于单词是专有名词的假设来执行到目标语言的音译。因此,词典转换装置102可处理普通名词和专有名词。
此外,通过音译装置204将翻译的/音译的单词音译成源语言字素。将源语言的音译单词提供至字素到音素转换装置206,其接收音译的单词,并生成源语言音素序列,获得源语言的目标语言单词的音素发音。
现在,将借助于以下实例描述源语言词典到目标语言的移植。例如,如果我们必须将单词“gold”从源语言英语移植到目标语言印地语,这可通过以下步骤实现:首先,本发明设想的系统检查单词“gold”的类似单词是否存在于第一数据库200中,如果存在,则通过翻译装置202从第一数据库200选择翻译的目标语言单词
Figure GSA00000116728400101
然后,通过音译装置204进行音译,将目标语言翻译的单词
Figure GSA00000116728400102
转换成“sona”。接下来,如表1所示,使用字素到音素转换装置206通过源语言从sona确定发音为“s/ow/n/aa”。
  英语   印地语
  文法短语   <Gold>   <Gold>
  词典项目   /g/ow/l/d/   /s/ow/n/aa/
  应用要求输入   -(文法未变)   -(文法未变)
  用户发音   /gold/   /sonaa/
  语音识别输出和处理输入   “Gold”   “Gold”
表1
为了避免每次处理目标语言单词以及获得源语言的其发音的开销,词典转换装置102使用查询表创建装置208制备查询表。查询表创建装置208接收用源语言表示的音译的目标语言单词以及用源语言的其音素发音,并创建将两者映射的查询表。
因此,下一次,语音识别方案需要识别目标语言的单词,并且可跳过字素到音素转换的步骤。该方案可针对作为源语言的发音词典一部分的任意音译单词直接获得源语言的字素序列。这个处理加速了目标语言的词典创建的处理。
参照图1,词典转换装置102将查询表提供至“音素词典”26,后者将目标语言单词发音提供至调用流单元10的语音识别引擎16。因此,语音识别引擎16通过基于源语言的脚本将语音识别方案所识别的源语言单词移植成目标语言的单词来仅理解/识别源语言,该系统可快速和健壮地识别目标语言单词。这样,语音识别引擎16可在无需开发开销的情况下被有效地重用,从而节省了移植现有语音识别应用以理解目标语言的时间。
图3示出根据本发明的文法转换装置104的示意图。
根据本发明,因为对于现有菜单驱动的语音识别方案来说,该方案仅期望一个单词或单词的小序列作为来自用户的输入,所以通常不需要文法转换装置104。在期望语音识别方案处理自由语音用户查询的情况下,需要语音文法修改(源到目标)。文法转换装置104通过采用翻译装置300实现对于目标语言的语音文法创建,所述翻译装置300接收源语言的语音文法文件,并将文法文件翻译成目标语言。由音译装置302音译目标语言的这个翻译的文件,用源语言提供针对目标语言的音译的文法文件。
参照图1,文法转换装置104执行这些翻译和音译,并向调用流单元10的语音识别引擎16给出作为框28表示的针对目标语言的语音文法文件的输出。
图4示出根据本发明的提示生成装置106的示意图。
根据本发明,如果在现有方案中使用记录的提示,则创建目标语言的提示的类似数据库,并且现有语音识别方案指示用于提示和响应于用户的这个数据库,另外通过翻译装置500将源语言的文本提示翻译成目标语言。将翻译的提示提供至识别装置502,后者使用词典转换装置102的查询表中的单词以识别与可包含在目标语言的提示中的单词相应的音素发音,并提供可包含在源语言的提示中的单词的音素序列。通过文本到语音转换装置504排列单词的这个音素序列,以形成可包含在源语言的提示中的单词串。然后,将排列的串继续传递至文法调节装置506,后者根据针对目标语言的音译文法文件转换可包含在源语言的提示中的单词串并设置单词,以及提供基于文法修改的文本的提示,由语音生成装置508将其实时地转换成语音。
参照图1,现有语音识别方案的提示装置12与本发明的提示生成装置106协作,向用户提供目标语言的语音提示。通过接收装置14接收响应于提示的用户查询,并且通过语音识别引擎16在音素26和文法文件28的帮助下识别这个查询。然后,处理识别的查询,如同通过处理装置18用源语言进行处理。由编译装置20提供向用户的最终处理的输出,并且回放装置22典型地以基于话音的格式向用户提供编译的输出。回放装置22还适于以文本和/或多媒体格式提供编译的输出。
因此,通过增加本发明提出的修改,可将源语言的工作语音识别方案移植到目标语言的工作语音识别方案。根据本发明,提供一种方法,用于移植源语言的语音识别方案以识别目标语言,该方法包括如图5所示的以下步骤:
●将源语言的发音词典修改成目标语言的发音词典,1000;
●将源语言的语音文法文件修改成目标语言的语音文法文件,1002;
●将源语言的话音提示转换成目标语言,1004;
●提示用户提交他们的查询,1006;
●从用户接收目标语言的基于语音的查询,1008;
●使用目标语言的修改的发音词典将接收的查询转换成基于目标语言的源语言文本,1010;
●查询与识别的目标语言文本等同的源语言文本并处理转换的源语言文本查询,以执行预定操作和提供处理的输出,1012;
●编译目标语言的最终输出,1014;以及
●播放目标语言的所述最终输出,1016。
技术进步
本发明的技术进步包括:
●提供了建立多语言语音识别系统的系统;
●提供了能够快速移植现有应用以通过另一语言工作的系统;
●提供了保持文本数据及其由现有语言识别调用流单位的处理不变并生成目标语言单词的源语言音素发音的系统;
●提供了当期望用目标语言“移植”源语言的现有应用时最小化与设计目标语言的新应用等同的工作量的系统;以及
●提供了重用原始应用和商业逻辑的系统。
尽管这里主要强调了优选实施例的组件和组件部分,但是应理解,可实现许多实施例并且在不脱离本发明的原理的情况下可在优选实施例中进行许多修改。根据这里公开的内容,对于本领域普通技术人员来说,本发明的优选实施例以及其他实施例中的这些和其他修改将变得清楚,从而可清楚地理解,以上描述性主题仅被理解为本发明的说明,而并非限制。

Claims (5)

1.一种用于移植源语言的语音识别方案以识别目标语言的系统,所述语音识别方案包括语音识别引擎、源语言的发音词典、源语言的语音文法文件、源语言的提示,所述系统包括:
●词典转换装置,适于将源语言的发音词典转换成在目标语言中使用的等同词典,所述词典转换装置具有:
i.第一数据库,用于存储与目标语言的相似单词相应的源语言的单词的词典;
ii.与所述第一数据库协作的翻译装置,适于接收源语言的每个单词,以及提供目标语言的其相应单词;
iii.音译装置,适于接收所述翻译的单词并将其映射至源语言字素;
iv.字素到音素转换装置,适于针对所述源语言字素中的每个生成源语言音素,以获得源语言的目标语言单词的音素发音;
v.查询表生成装置,适于从所述字素到音素转换装置接收源语言的音译的目标语言单词,以及还接收所述单词的等同音素发音,并且制备查询表;
●文法转换装置,适于修改源语言的语音文法文件,以处理目标语言的基于自由语音的语音识别方案,所述文法转换装置具有:
i.翻译装置,适于接收源语言的语音文法文件,以及将所述文法文件翻译成目标语言;
ii.音译装置,适于接收所述翻译的文法文件,以及将所述翻译的文法文件音译成源语言,以及用源语言提供针对目标语言的音译文法文件;
●提示生成装置,适于将源语言的话音提示转换成目标语言,所述提示生成装置具有:
i.翻译装置,适于将可包含在源语言的话音提示中的单词转换成目标语言的单词;
ii.识别装置,适于使用所述词典转换装置的所述查询表中的单词以识别与可包含在目标语言的提示中的单词相应的音素发音,并提供可包含在源语言的提示中的单词的音素序列;
iii.文本到语音转换装置,适于接收所述单词的音素序列,并生成可包含在源语言的提示中的单词串;
iv.文法调节装置,适于接收所转换的可包含在源语言的提示中的单词串,并根据针对目标语言的音译文法文件设置单词,以及提供基于文法修改的文本的提示;
v.语音生成装置,适于接收所述基于文法修改的文本的提示,以及针对所述基于文法修改的文本的提示生成基于语音的输出;
●与所述提示生成装置协作的提示装置,适于输出与目标语言的提示相应的所生成的语音,以引导用户提交他们的查询;
●接收装置,适于从用户接收目标语言的基于语音的查询,所述查询适于被接收,并通过所述语音识别引擎使用针对目标语言的所述查询表和所述音译文法文件转换成源语言文本和源语言表示;
●处理装置,适于处理所述源语言文本和执行预定操作,并进一步适于提供处理的输出;
●编译装置,与所述词典转换装置、所述语音文法转换装置、所述提示生成装置、和所述处理装置协作,以及适于编译目标语言的最终输出;以及
●回放装置,适于播放目标语言的所述最终输出。
2.一种用于移植源语言的语音识别方案以识别目标语言的方法,所述方法包括以下步骤:
●修改源语言的发音词典,以提供目标语言的发音词典;
●修改源语言的语音文法文件,以提供目标语言的语音文法文件;
●转换源语言的话音提示,以提供目标语言的话音提示;
●提示用户用目标语言提交他们的查询;
●从用户接收目标语言的基于语音的查询;
●使用目标语言的修改的发音词典将接收的查询转换成目标语言;
●查询与识别的目标语言文本等同的源语言文本;
●处理基于转换的源语言文本的查询,以执行预定操作和提供处理的输出;以及
●编译目标语言的最终输出;以及
●播放目标语言的所述最终输出。
3.如权利要求2所述的方法,其中修改源语言的发音词典,以提供目标语言的发音词典的步骤包括以下步骤:
●提供第一数据库,其用于存储源语言的单词的词典;
●翻译源语言的每个单词,并提供目标语言的其相应单词;
●将所述翻译的单词中的每个音译成源语言字素;
●针对所述源语言字素的每个生成源语言音素序列,以获得源语言的目标语言单词的音素发音;以及
●通过将目标语言的音译单词与其等同的音素发音映射来创建目标语言的单词的查询表。
4.如权利要求2所述的方法,其中修改源语言的语音文法文件,以提供目标语言的语音文法文件的步骤包括以下步骤:将源语言的语音文法文件翻译成目标语言,以及将所述翻译的语音文法文件从目标语言音译成源语言。
5.如权利要求2所述的方法,其中将源语言的话音提示转换成目标语言的步骤包括以下步骤:
●将源语言的话音提示翻译成目标语言的单词;
●识别与可包含在目标语言的提示中的单词相应的音素发音,以及提供可包含在源语言的提示中的单词的音素序列;以及
●生成针对可包含在提示中的单词的所述音素序列的语音,以及生成针对可包含在提示中的单词的所述音素序列的基于语音的输出。
CN2010101828285A 2009-05-19 2010-05-19 不同语言的现有语音识别方案的快速原形化的系统和方法 Active CN101901599B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IN1263/MUM/2009 2009-05-19
IN1263MU2009 2009-05-19

Publications (2)

Publication Number Publication Date
CN101901599A true CN101901599A (zh) 2010-12-01
CN101901599B CN101901599B (zh) 2013-08-28

Family

ID=43125159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101828285A Active CN101901599B (zh) 2009-05-19 2010-05-19 不同语言的现有语音识别方案的快速原形化的系统和方法

Country Status (2)

Country Link
US (1) US8498857B2 (zh)
CN (1) CN101901599B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103635963A (zh) * 2011-04-25 2014-03-12 谷歌公司 语言模型的跨语种初始化
CN104899192A (zh) * 2014-03-07 2015-09-09 韩国电子通信研究院 用于自动通译的设备和方法
CN105070289A (zh) * 2015-07-06 2015-11-18 百度在线网络技术(北京)有限公司 英文人名识别方法和装置
CN106653007A (zh) * 2016-12-05 2017-05-10 苏州奇梦者网络科技有限公司 一种语音识别系统
CN110111778A (zh) * 2019-04-30 2019-08-09 北京大米科技有限公司 一种语音处理方法、装置、存储介质及电子设备
CN111052229A (zh) * 2018-04-16 2020-04-21 谷歌有限责任公司 自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言
CN112055876A (zh) * 2018-04-27 2020-12-08 语享路有限责任公司 利用语音识别技术的多方对话记录/输出方法及用于其的装置
CN113077786A (zh) * 2021-03-23 2021-07-06 北京儒博科技有限公司 一种语音识别方法、装置、设备及存储介质
US11735173B2 (en) 2018-04-16 2023-08-22 Google Llc Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
CN117524193A (zh) * 2024-01-08 2024-02-06 浙江同花顺智能科技有限公司 中英混合语音识别系统训练方法、装置、设备及介质

Families Citing this family (203)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8930176B2 (en) 2010-04-01 2015-01-06 Microsoft Corporation Interactive multilingual word-alignment techniques
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US20120215520A1 (en) * 2011-02-23 2012-08-23 Davis Janel R Translation System
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9552213B2 (en) * 2011-05-16 2017-01-24 D2L Corporation Systems and methods for facilitating software interface localization between multiple languages
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8812294B2 (en) * 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US20120330641A1 (en) * 2011-06-21 2012-12-27 Apple Inc. Translating a symbolic representation of a lingual phrase into a representation in a different medium
US8805869B2 (en) * 2011-06-28 2014-08-12 International Business Machines Corporation Systems and methods for cross-lingual audio search
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
DE102012202391A1 (de) * 2012-02-16 2013-08-22 Continental Automotive Gmbh Verfahren und Einrichtung zur Phonetisierung von textenthaltenden Datensätzen
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
US9489351B2 (en) * 2013-03-15 2016-11-08 The Dun & Bradstreet Corporation Enhancement of multi-lingual business indicia through curation and synthesis of transliteration, translation and graphemic insight
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10102189B2 (en) 2015-12-21 2018-10-16 Verisign, Inc. Construction of a phonetic representation of a generated string of characters
US10102203B2 (en) * 2015-12-21 2018-10-16 Verisign, Inc. Method for writing a foreign language in a pseudo language phonetically resembling native language of the speaker
US9910836B2 (en) 2015-12-21 2018-03-06 Verisign, Inc. Construction of phonetic representation of a string of characters
US9947311B2 (en) 2015-12-21 2018-04-17 Verisign, Inc. Systems and methods for automatic phonetization of domain names
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US10930274B2 (en) * 2018-11-30 2021-02-23 International Business Machines Corporation Personalized pronunciation hints based on user speech
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN112364658A (zh) 2019-07-24 2021-02-12 阿里巴巴集团控股有限公司 翻译以及语音识别方法、装置、设备
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US20240013757A1 (en) * 2020-09-09 2024-01-11 Yao The Bard, Llc Systems and methods capable of generating rhythmic repetition based on textual input
TWI759003B (zh) * 2020-12-10 2022-03-21 國立成功大學 語音辨識模型的訓練方法
CN112435447A (zh) * 2021-01-27 2021-03-02 南京满星数据科技有限公司 一种基于深度学习的气象灾害预警方案生成方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4829580A (en) * 1986-03-26 1989-05-09 Telephone And Telegraph Company, At&T Bell Laboratories Text analysis system with letter sequence recognition and speech stress assignment arrangement
CN1369834A (zh) * 2001-01-24 2002-09-18 松下电器产业株式会社 语音转换设备、语音转换方法、程序以及媒介
WO2007088538A2 (en) * 2006-01-31 2007-08-09 Ramot At Tel Aviv University Ltd. Method and apparatus for translating utterances
CN101017428A (zh) * 2006-12-22 2007-08-15 广东电子工业研究院有限公司 一种嵌入式语音交互装置及交互方法
CN101178705A (zh) * 2007-12-13 2008-05-14 中国电信股份有限公司 一种自然语言理解方法和人机交互智能系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19942178C1 (de) 1999-09-03 2001-01-25 Siemens Ag Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
WO2003032191A1 (fr) * 2001-10-05 2003-04-17 Fujitsu Limited Systeme de traduction
US7415411B2 (en) 2004-03-04 2008-08-19 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
US20070255567A1 (en) * 2006-04-27 2007-11-01 At&T Corp. System and method for generating a pronunciation dictionary
US8290775B2 (en) * 2007-06-29 2012-10-16 Microsoft Corporation Pronunciation correction of text-to-speech systems between different spoken languages
US7991615B2 (en) 2007-12-07 2011-08-02 Microsoft Corporation Grapheme-to-phoneme conversion using acoustic data
US8229729B2 (en) * 2008-03-25 2012-07-24 International Business Machines Corporation Machine translation in continuous space
WO2009150591A1 (en) 2008-06-11 2009-12-17 Koninklijke Philips Electronics N.V. Method and device for the generation of a topic-specific vocabulary and computer program product

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4829580A (en) * 1986-03-26 1989-05-09 Telephone And Telegraph Company, At&T Bell Laboratories Text analysis system with letter sequence recognition and speech stress assignment arrangement
CN1369834A (zh) * 2001-01-24 2002-09-18 松下电器产业株式会社 语音转换设备、语音转换方法、程序以及媒介
WO2007088538A2 (en) * 2006-01-31 2007-08-09 Ramot At Tel Aviv University Ltd. Method and apparatus for translating utterances
CN101017428A (zh) * 2006-12-22 2007-08-15 广东电子工业研究院有限公司 一种嵌入式语音交互装置及交互方法
CN101178705A (zh) * 2007-12-13 2008-05-14 中国电信股份有限公司 一种自然语言理解方法和人机交互智能系统

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103635963A (zh) * 2011-04-25 2014-03-12 谷歌公司 语言模型的跨语种初始化
CN103635963B (zh) * 2011-04-25 2016-04-13 谷歌公司 语言模型的跨语种初始化
CN104899192A (zh) * 2014-03-07 2015-09-09 韩国电子通信研究院 用于自动通译的设备和方法
CN104899192B (zh) * 2014-03-07 2018-03-27 韩国电子通信研究院 用于自动通译的设备和方法
CN105070289A (zh) * 2015-07-06 2015-11-18 百度在线网络技术(北京)有限公司 英文人名识别方法和装置
CN105070289B (zh) * 2015-07-06 2017-11-17 百度在线网络技术(北京)有限公司 英文人名识别方法和装置
CN106653007A (zh) * 2016-12-05 2017-05-10 苏州奇梦者网络科技有限公司 一种语音识别系统
CN106653007B (zh) * 2016-12-05 2019-07-16 苏州奇梦者网络科技有限公司 一种语音识别系统
CN111052229B (zh) * 2018-04-16 2023-09-01 谷歌有限责任公司 自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言
CN111052229A (zh) * 2018-04-16 2020-04-21 谷歌有限责任公司 自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言
US11735173B2 (en) 2018-04-16 2023-08-22 Google Llc Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
US11798541B2 (en) 2018-04-16 2023-10-24 Google Llc Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
US11817085B2 (en) 2018-04-16 2023-11-14 Google Llc Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
CN112055876A (zh) * 2018-04-27 2020-12-08 语享路有限责任公司 利用语音识别技术的多方对话记录/输出方法及用于其的装置
CN110111778B (zh) * 2019-04-30 2021-11-12 北京大米科技有限公司 一种语音处理方法、装置、存储介质及电子设备
CN110111778A (zh) * 2019-04-30 2019-08-09 北京大米科技有限公司 一种语音处理方法、装置、存储介质及电子设备
CN113077786A (zh) * 2021-03-23 2021-07-06 北京儒博科技有限公司 一种语音识别方法、装置、设备及存储介质
CN113077786B (zh) * 2021-03-23 2022-12-02 北京如布科技有限公司 一种语音识别方法、装置、设备及存储介质
CN117524193A (zh) * 2024-01-08 2024-02-06 浙江同花顺智能科技有限公司 中英混合语音识别系统训练方法、装置、设备及介质
CN117524193B (zh) * 2024-01-08 2024-03-29 浙江同花顺智能科技有限公司 中英混合语音识别系统训练方法、装置、设备及介质

Also Published As

Publication number Publication date
US20100299133A1 (en) 2010-11-25
US8498857B2 (en) 2013-07-30
CN101901599B (zh) 2013-08-28

Similar Documents

Publication Publication Date Title
CN101901599B (zh) 不同语言的现有语音识别方案的快速原形化的系统和方法
US7412387B2 (en) Automatic improvement of spoken language
Rousseau et al. TED-LIUM: an Automatic Speech Recognition dedicated corpus.
WO2006106415A1 (en) Method, device, and computer program product for multi-lingual speech recognition
CN111477216A (zh) 一种用于对话机器人的音意理解模型的训练方法及系统
CN1311881A (zh) 语言变换规则产生装置、语言变换装置及程序记录媒体
CN1870728A (zh) 自动加配字幕的方法和系统
CN101382937A (zh) 基于语音识别的多媒体资源处理方法及其在线教学系统
KR102372069B1 (ko) 언어학습을 위한 양국어 자유 대화 시스템 및 방법
CN108763338A (zh) 一种基于电力行业的新闻采编系统
Niemann et al. Prosodic processing and its use in Verbmobil
Kurematsu et al. Automatic Speech Translation
Yaseen et al. Building Annotated Written and Spoken Arabic LRs in NEMLAR Project.
CN109859746B (zh) 一种基于tts的语音识别语料库生成方法及系统
Ashihara et al. SpeechGLUE: How well can self-supervised speech models capture linguistic knowledge?
Alumäe et al. Combining Hybrid and End-to-End Approaches for the OpenASR20 Challenge.
Liao et al. Personalized Taiwanese speech synthesis using cascaded ASR and TTS framework
CN115292349A (zh) 一种生成sql的方法、系统及装置
Evans et al. Developing automatic speech recognition for Scottish Gaelic
Cettolo et al. Advances in the automatic transcription of lectures
Karger et al. Facts and Figures about the Verbmobil Project
Lehečka et al. Transformer-based automatic speech recognition of formal and colloquial Czech in MALACH Project
Pandey et al. Development and suitability of indian languages speech database for building watson based asr system
CN104756183A (zh) 在智能汉语语音口述记录校正中使用字符描述器有效输入模糊字符
Alharbi et al. SADA: Saudi Audio Dataset for Arabic

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant