CN105869633A - 语言模型的跨语种初始化 - Google Patents
语言模型的跨语种初始化 Download PDFInfo
- Publication number
- CN105869633A CN105869633A CN201610183504.0A CN201610183504A CN105869633A CN 105869633 A CN105869633 A CN 105869633A CN 201610183504 A CN201610183504 A CN 201610183504A CN 105869633 A CN105869633 A CN 105869633A
- Authority
- CN
- China
- Prior art keywords
- language
- target
- corpus
- context
- specific
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000004590 computer program Methods 0.000 claims abstract description 12
- 238000013519 translation Methods 0.000 claims description 38
- 230000005540 biological transmission Effects 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 13
- 239000000463 material Substances 0.000 claims description 9
- 239000000203 mixture Substances 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 230000001052 transient effect Effects 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 description 14
- 238000013518 transcription Methods 0.000 description 6
- 230000035897 transcription Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000005056 cell body Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Navigation (AREA)
Abstract
本发明的各实施例总体上涉及语言模型的跨语种初始化。具体地,涉及一种用于为自动语音识别初始化语言模型的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。在一个方面,方法包括从现有语料库接收日志语音识别结果,现有语料库特定于给定语言和目标上下文;通过以下操作生成目标语料库:将日志语音识别结果从给定语言机器转译成不同目标语言;以及使用机器转译的日志语音识别结果扩大特定于不同目标语言和目标上下文的现有部分目标语料库;以及使用目标语料库估计特定于不同目标语言和相同的目标上下文的语言模型。
Description
分案申请说明
本申请是申请日为2012年4月25日、申请号为201280020118.X、发明名称为“语言模型的跨语种初始化”的中国发明专利申请的分案申请。
相关申请的交叉引用
本申请要求2011年4月25日提交的、标题为CROSS-LINGUALINITIALIZATION OF LANGUAGE MODELS的美国申请序列No.13/093,176的优先权,其公开内容通过引用合并于此。
背景技术
自动语音识别(“ASR”)引擎将语音转换成文本。在这样做时,ASR引擎通常依赖将每个话语的声音映射至候选词语或短语的声学模型,以及基于词语或短语的历史使用指定这些候选词语或短语中的哪些词语或短语最可能是正确的。
为了改进识别准确性,ASR引擎使用不同的声学模型和语言模型来识别与不同上下文相关联的话语。例如,一个语言模型可以用于识别在用户录入文本消息时说出的话语,而不同语言模型可以在用户录入搜索条件时使用。
一般而言,每个语言模型通常使用已经由ASR引擎或另一系统随时间收集的词语或短语语料库建立。例如,上下文特定语言模型可以根据先前语音识别结果的日志或者多个用户在相似上下文的先前文本输入的日志进行估计。特定语料库中的词语或短语可以包括已经由用户明确提供的词语或短语,或者已经由ASR引擎识别的候选转录。
如果针对给定语言和特定上下文开发的语言模型用于识别在不同上下文中说出的话语,则ASR引擎可能生成错误的识别结果。因此,为了提高识别准确性,ASR引擎应当使用适于话语的语言以及其中说出话语的上下文的语言模型。针对某种程度上不常使用的语言或者不常出现的上下文,ASR引擎可能不具有对适当语言模型的访问。
发明内容
当特定于目标语言和目标上下文两者的目标语料库或语言模型不可获得或不可接受时,可以使用已经针对不同语言生成的现有语料库中的日志识别结果估计目标语言模型并且生成目标语料库。具体地,根据本公开所述主题的一个创新方面,估计新的目标语言模型使用以下方法执行,所述方法包括机器转译与目标上下文和给定语言相关联的现有语料库,或者现有语料库中的日志语音识别结果,用于生成与相同目标上下文但不同目标语言相关联的机器转译语料库。
特定于目标语言和目标上下文的新的目标语言模型可以使用机器转译语料库(例如,使用对每个词语或短语在机器转译语料库中出现的相对频率计数的过程)进行估计。如果目标语言和目标上下文中的目标语料库已经存在但不充分,则目标语言模型可以使用机器转译语料库和现有目标语料库两者进行估计。ASR引擎可以使用新的、估计的目标语言模型来转录与目标语言和目标上下文相关联的话语。
根据本公开中所述主题的另一创新方面,方法包括从特定于给定语言和目标上下文的现有语料库接收日志语音识别结果。目标语料库通过将日志语音识别结果从给定语言机器转译成不同目标语言生成。特定于不同目标语言和相同目标上下文的语言模型使用目标语料库进行估计。
这些及其他实现方式可以每个可选择性地包括以下特征中的一个或多个。在各种示例中,估计语言模型包括对每个不同词语或短语在目标语料库中的每次出现计数,并且确定每个不同词语或短语在目标语料库与所有不同词语或短语在目标语料库中出现的相对频率。目标上下文与特定应用或应用状态、操作系统、地理位置或区域、或者环境或周围特性相关联。在某些实例中,目标上下文是文本消息传输上下文、电子邮件上下文、搜索查询上下文、话音拨号上下文或导航上下文。
在某些示例中,生成目标语料库包括过滤语音识别结果,然后仅机器转译过滤的语音识别结果。过滤语音识别结果包括过滤与低于预定阈值的语音识别置信得分相关联的语音识别结果,或者过滤表示缩写的语音识别结果。在某些实例中,生成目标语料库包括在接收语音识别结果时实时机器转译现有语料库的语音识别结果。生成目标语料库进一步包括将机器转译的语音识别结果以及特定于目标语言和目标上下文的现有部分语料库包括在目标语料库中。生成目标语料库还包括给定语言的现有语料库的日志文本数据转译成不同目标语言,并且将日志文本数据的转译结果包括在目标语料库中。
这些方面的其他实施方式包括对应的系统、装置以及配置为执行该方法动作、编码在计算机存储设备上的计算机程序。
根据本发明的一方面,一种由至少一个处理器执行的计算机实现的方法,该方法可以包括:从现有语料库接收日志语音识别结果,现有语料库特定于给定语言和目标上下文;通过以下操作生成目标语料库:将日志语音识别结果从给定语言机器转译成不同目标语言;以及使用机器转译的日志语音识别结果扩大特定于不同目标语言和目标上下文的现有部分目标语料库;以及使用目标语料库估计特定于不同目标语言和相同的目标上下文的语言模型。
在一个实施例中,其中估计语言模型可以包括对每个不同词语或短语在目标语料库中的每次出现计数。
在一个实施例中,其中估计语言模型可以包括确定每个不同词语或短语在目标语料库与所有不同词语或短语在目标语料库中出现的相对频率。
在一个实施例中,其中目标上下文可以与特定应用或应用状态、操作系统、地理位置或区域、或者环境或周围特性相关联。
在一个实施例中,其中目标上下文可以是文本消息传输上下文、电子邮件上下文、搜索查询上下文、话音拨号上下文或导航上下文。
在一个实施例中,其中生成目标语料库可以包括过滤语音识别结果,然后仅机器转译所过滤的语音识别结果。
在一个实施例中,其中过滤语音识别结果可以包括过滤与低于预定阈值的语音识别置信得分相关联的语音识别结果。
在一个实施例中,其中过滤语音识别结果可以包括过滤表示缩写的语音识别结果。
在一个实施例中,其中生成目标语料库可以包括在接收语音识别结果时实时机器转译现有语料库的语音识别结果。
根据本公开的另一方面,一种系统可以包括:一个或多个非瞬态计算机可读存储介质,存储有表示目标语料库的数据;机器转译引擎,在具有对计算机可读存储介质的访问的一个或多个处理器上可执行,并且可操作用于将特定于给定语言和目标上下文的现有语料库的日志语音识别结果从给定语言转译成不同目标语言,并且使用转译的结果扩大特定于不同目标语言和目标上下文的现有部分目标语料库以生成目标语料库;以及语言模型生成器,在具有对计算机可读存储介质的访问的一个或多个处理器上可执行,并且可操作用于使用目标语料库估计特定于不同目标语言和相同的目标上下文的语言模型。
在一个实施例中,其中机器转译引擎可以进一步可操作用于将给定语言的现有语料库的日志文本数据转译成不同目标语言,并且可以将日志文本数据的转译结果包括在目标语料库中。
在一个实施例中,其中估计语言模型可以包括确定每个不同词语或短语在目标语料库与所有不同词语或短语在目标语料库中出现的相对频率。
在一个实施例中,其中目标上下文可以是文本消息传输上下文、电子邮件上下文、搜索查询上下文、话音拨号上下文或导航上下文。
根据本发明的又一方面,一种编码有计算机程序的非瞬态计算机存储介质,程序可以包括指令,指令在由数据处理装置执行时使得数据处理装置执行以下操作,可以包括:标识从特定于给定语言和目标上下文的现有语料库获得的日志语音识别结果;通过将日志语音识别结果从给定语言机器转译成不同目标语言并且通过使用机器转译的日志语音识别结果扩大特定于不同目标语言和目标上下文的现有部分目标语料库来生成目标语料库;以及使用目标语料库估计特定于不同目标语言和相同的目标上下文的语言模型。
在一个实施例中,其中生成目标语料库可以包括过滤语音识别结果,然后仅机器转译所过滤的语音识别结果。
在一个实施例中,其中过滤语音识别结果可以包括过滤与低于预定阈值的语音识别置信得分相关联的语音识别结果。
在一个实施例中,其中目标上下文可以与特定应用或应用状态、操作系统、地理位置或区域、或者环境或周围特性相关联。
在一个实施例中,其中生成目标语料库可以进一步包括将机器转译的语音识别结果以及特定于目标语言和目标上下文的现有部分语料库包括在目标语料库中。
本说明书中所述主题的一个或多个实现方式的细节下面参考附图及说明进行阐述。主题的其他潜在特征、方面和优势通过说明书、附图及权利要求书变得容易理解。
附图说明
图1是机器转译现有语料库用于估计目标语言和上下文的语言模型的示例系统的示图。
图2是示例过程的流程图。
图3是示例语料库和示例语言模型的示图。
相似的参考标号表示全文中的对应部分。
具体实施方式
图1是机器转译现有语料库或与每个语料库相关联的日志识别结果用于估计目标语言和上下文的语言模型的示例系统100的示图。简言之,系统100标识包括给定语言和目标上下文的语音识别结果的现有语料库。目标语料库可以通过将现有语料库的语音识别结果从给定语言机器转译成不同语言来生成,并且可选择地将机器转译的语音识别结果与目标语言的其他数据源混合。目标语料库继而可以用于估计特定于不同语言和相同目标上下文的语言模型。
系统100包括客户端设备108和110,例如,蜂窝电话、PDA、电子书阅读器、智能电话、音乐播放器或个人计算机。客户端设备108和110被配置为与服务器116、118和120(其共同组成ASR系统)通信以获得客户端设备108和110的相应用户说出的话语的语音识别结果。
一个或多个服务器116可以可通信地耦合至一个或多个服务器118和120。共同地,服务器116、118和120使用特定于不同语言但相同或相似上下文的现有语料库生成特定于目标语言和上下文的新的、目标语言模型,并且使用该新的、目标语言模型转录话语。一个或多个服务器118可以是搜索引擎、听写引擎、对话系统、或者使用转录话语或调用使用转录话语执行某些动作的软件应用的任意其他引擎或系统。
网络106可以包括无线蜂窝网络、无线局域网(WLAN)或Wi-Fi网络、第三代(3G)或第四代(4G)移动电信网络、专用网络(诸如内联网)、公用网络(诸如因特网)、或者它们的任意适当组合。
图1还描绘了当用于估计新的语言模型的示例过程由系统100执行时客户端设备108和110以及服务器116、118和120之间各状态期间的数据流。状态(a)至状态(i)可以以所示序列发生,或者可以以与所示序列不同的序列发生。
ASR引擎105使用声学模型111和语言模型125转录话语。每个语言模型125可以包括给定语言的不同词语或短语的列表,并且针对每个不同的词语或短语可以指定所述词语或短语出现的可能性。语言模型125中的上下文特定语言模型可以指定每个词语或短语在特定、目标上下文中出现的可能性。特定词语或短语在目标上下文中出现的可能性可以基于相对于相同上下文中所有其他词语或短语的使用频率从词语或短语的先前使用获得的历史数据。
目标上下文中出现的每个词语或短语的可能性例如可以被表示为数量。该数量可以是反映词语或短语出现、已经出现、将要出现或预计出现在针对给定语言、上下文特定语言模型以及目标上下文的语料库中次数的值。
备选地,所述可能性可以被表示为百分比。该百分比可以被表示为例如反映所有词语或短语在语料库中的分数的值,其中词语或短语出现、已经出现、将要出现或预计出现在该语料库中。根据给定语言的语义或语法规则,语义或语法上错误的词语或短语可以与较低可能性相关联。根据给定语言的语义或语法规则,语义或语法上正确的词语或短语可以与较高可能性相关联。然而,在某些实例中,特定词语或短语出现在特定上下文中的可能性取决于该词语或短语先前使用的频率,而与该词语或短语的语义或语法准确性无关。
上下文特定语言模型的一个示例为用于将说出的话语转录为文本消息传输应用的输入的文本消息传输语言模型。该文本消息传输语言模型可以使用语料库(例如,文本消息传输语料库124)生成,该语料库可以是已经由发送过文本消息的其他用户先前提交的词语或短语的列表或日志。该语料库可以包括日志语音识别数据109(诸如话音记录文本消息的语音识别结果),或者作为传统、传入文本消息接收的日志文本数据111。
除了文本消息传输语言模型,ASR引擎105还可以具有对其他上下文特定语言模型的访问,诸如与电子邮件上下文、搜索查询上下文、话音拨号上下文、导航上下文、应用特定或应用状态特定上下文、操作系统特定上下文、默认上下文、地理位置或区域特定上下文、环境或周围特性特定上下文或其他上下文相关联的语言模型。与特定于一个上下文的语言模型中每个词语或短语相关联的可能性可以不同于与特定于另一、不同上下文的语言模型或者不特定于任意特定上下文的默认语言模型中相同词语或短语相关联的可能性。
如图1状态(a)至状态(c)中所示,在可接受的语料库或语音模型可用于给定语言和目标上下文的情况下,语音模型用于转录与给定语言和目标上下文相关联的话语。例如,当接收编码与给定语言相关联的话语的音频信号时,该音频信号中编码的话语可以使用特定于给定语言和目标上下文的语言模型在ASR引擎105转录。
在图1中,ASR引擎105在状态(a)期间从客户端设备108接收音频信号107。该音频信号107编码表示常见文本消息(即,英语短语“on my way”)的话语113。
当客户端设备108的用户向客户端设备108的麦克风说出话语113时,生成音频信号107。客户端设备108确定与话语113相关联的上下文(即,“文本消息传输”),并且向ASR引擎105生成与音频信号107通信的元数据117。在其他实现方式中,元数据117在ASR引擎105而不是在客户端设备108生成,或者ASR引擎105借助于客户端设备108生成元数据117。
客户端设备108或ASR引擎105可以通过估计说出话语113时正在客户端设备108上执行的应用、标识在说出话语113时客户端设备108的位置、分析采样周围音频或者接收标识上下文的明确用户输入确定与该话语相关联的上下文。在其他示例实现方式中,客户端设备108或ASR引擎105可以通过确定客户端设备108上正在执行的应用的状态、使用默认上下文、使用先前使用的或上次使用的上下文或者通过其他方法确定上下文。
除了或代替标识与话语113相关联的上下文,元数据117可以包括与客户端设备108、客户端设备108的用户、音频信号107或话语113相关联的任意其他信息。例如,如果用户选择允许客户端设备108提供此类信息,则元数据117可以指定该客户端设备108的地理位置、与客户端设备108的用户相关联的统计信息、客户端设备108的用户已经手工录入的信息、或者用户简档中包括的信息。通常,此类信息可以供ASR引擎105用于改进识别结果,或者更明确地可以用于标识与话语113相关联的上下文。
在状态(b)期间,音频信号107以及标识上下文的元数据117在服务器116被接收。在状态(c),ASR引擎105使用一个或多个声学模型111以及使用特定于话语113的语言以及元数据117中标识的上下文的一个或多个语言模型125转录话语113。ASR引擎105进一步生成候选转录140(即,英语短语“on my way”),并且向服务器118提供该候选转录140。
如状态(d)至状态(i)中所示,如果ASR引擎105不具有对目标语言和目标上下文的语料库或语言模型的访问,或者如果针对不同语言和目标上下文的语料库或语言模型不足或不可接受,则ASR引擎105可以使用现有语料库124的语音识别结果109估计针对不同语言和上下文的新的语言模型。语言模型的不足或不可接受可以通过评估语音识别置信得分、确定用户或用户组已经使用语音识别结果的程度、或者通过使用其他方法进行测量。
在状态(d)期间,客户端设备110的用户可以向该客户端设备110的麦克风说出话语123,同时尝试发送文本消息。在图1中,话语123(即,“njia yangu”)说明了英语短语“on my way”的斯瓦西里语表达。话语123被编码在音频信号121中,并且上下文(即,“文本消息传输”)被确定并编码在元数据127中。音频信号121和元数据127通过网络106从客户端设备110通信至ASR引擎105。
由于在ASR引擎105没有可用于目标、文本消息传输内容的斯瓦西里语语料库或语言,因此可以基于针对相同上下文现有英语语料库124的日志语音识别结果109生成新的语料库。附加地或备选地,新的语料库还可以基于针对相同上下文先前文本输入111的日志生成。在状态(e)期间,语音识别结果109和/或日志文本数据11被通信至机器转译引擎130,该机器转译引擎130可以位于不同于服务器116的服务器120(如图1所示)或者位于服务器116。
在状态(f)期间,机器转译引擎130执行现有语料库124中语音识别结果109和/或日志文本数据111的词语或短语从英语至斯瓦西里语的自动、直接转译,从而输出包括与相同目标上下文对应的机器转译词语和短语的斯瓦西里语目标语料库119。例如,机器转译引擎130将现有语料库124中的英语短语“on my way”机器转译成斯瓦西里语,并且使用对应的斯瓦西里语短语“njia yangu”填充目标语料库119。
在某些实例中,机器转译引擎130可以在语音识别结果109被机器转译成目标语料库119之前过滤现有语料库124的语音识别结果109。通过这样做,不是语音识别结果109中的每个词语或短语都可以被转译并包括在目标语料库119中。例如,各种信号可以用于过滤出现有语料库中具有低置信或质量得分的词语或短语。
附加地,各种信号可以使得ASR引擎105过滤先前没有被ASR引擎105的早先用户选择的、被早先用户标识为错误转录或其他词语的词语或短语。不是词语或短语的缩写或其他术语可能类似地不被机器转译。
在某些实例中,与低质量声学模型得分或语言模型得分相关联、或者与表示合计声学模型得分和语言模型得分的低整体识别置信得分相关联的词语或短语可以从机器转译中排除。语音识别结果中具有置信得分在阈值水平以下的条目可以自动从机器转译中排除。
此外,机器转译可以随着附加语音识别结果被添加至现有语料库124反复地、分阶段地或者实时执行,而不是一次机器转译整个现有语料库。例如,每次新的或不同的词语或短语基于完成的语音识别事件被添加至现有语料库124可以发生现有语料库124中语音识别结果109的词语或短语的机器转译。如果特定词语或短语已经被机器转译并添加至目标语料库119,则可以增加与目标语料库119中特定词语或短语相关联的实例计数而不是重新转译相同的特定词语或短语。
在状态(g)期间,在机器转译现有、英语语音识别结果109之后,机器转译引擎130向语言模型生成器104传输斯瓦西里语目标语料库119。语言模型生成器104使用机器转译的目标语料库119生成上下文特定斯瓦西里语目标语言模型132。在针对目标上下文的斯瓦西里语中的目标语料库已经存在但可能不完整或不足的实例中,语言模型生成器104可以基于机器转译引擎130的转译结果使用接收的目标语料库119来扩大现有但不充分的目标语料库,并且基于组合、扩大的语料库生成目标语言模型132。
由语言模型生成器104生成的目标语言模型132包括斯瓦西里语中不同词语或短语的机器转译列表,以及针对每个不同词语或短语所述词语或短语出现的可能性。每个词语或短语在目标上下文中出现的可能性例如可以被表示为反映词语或短语出现在机器转译斯瓦西里语目标语料库119中的次数的数量。备选地,该可能性可以被表示为例如反映其中出现所述词语或短语的语料库中所有词语或短语的分数的百分比。
在图1的示例中,目标语言模型132包括每个词语或短语在目标语料库119中出现的概率。例如,目标语言模型132可以指示短语“njia yangu”在目标语料库119中出现了一百次。“njia yangu”的出现相对于目标语料库119中其他词语或短语的出现的数目可以反映从接收的音频信号导出的特定词语集确实是短语“njia yangu”而不是另一、相似发音短语的可能性。
目标语言模型132被发送至ASR引擎105用于转录与斯瓦西里语相关联的音频信号以及文本消息传输上下文。在状态(h)期间,ASR引擎105使用目标语言模型来转译话语123,并且在状态(i)期间,向内容引擎101输出候选转录142。
通过使用现有语料库124的语音识别结果109估计目标语言模型132而不是完全开发新的语言模型,可以节省通常在开发新的语言模型过程中花费的大量时间和精力,同时仍提供高准确性识别结果。由于某些上下文中使用的词语和短语有时在许多或所有地域、文化和语言中通用,因此针对目标语言和上下文的估计目标语言模型132的使用可以产生比使用默认语言模型或使用不特定于任意特定上下文的语言模型针对相同目标语言生成的结果更准确的识别结果。
图2是示例过程200的流程图。简言之,过程200包括接收针对给定语言的语音识别结果,将所述结果转译成不同语言,以及基于转译结果估计针对不同语言的语言模型。
在对新的语言模型开发的早期,由于缺少针对特定语言的充足上下文特定语料库,因此ASR引擎的表现可能受到损害。根据过程200,上下文特定语料库可以基于现有语料库的语音识别结果或日志文本数据从针对相同上下文的不同语言中生成,并且生成的语料库可以选择性地混合针对目标语言的其他数据源(例如,字典),并且可以用作开始语料库以估计新的上下文特定语言模型。使用由来自不同语言的词语或短语填充的语料库生成的新的语料库可以很好适于转录针对其中用户使用的词语或短语是通用或相当语言独立的上下文的音频信号。
更具体地,当过程200开始时,接收与针对给定语言的现有语料库相关联的语音识别结果(202)。所述语音识别结果可以包括在给定语言的词语或短语的上下文特定语料库中,诸如先前已经由早先用户在与目标上下文相同或相似的上下文中提交词语或短语。在某些实现方式中,现有语料库包括来自在ASR引擎执行的先前语音识别操作的候选转录,所述操作包括对特定用户或用户组说出的话语执行的语音识别。现有语料库还可以包括与相同目标上下文相关联的先前文本数据。
简要参考以上内容,图3是示例语料库302和示例语言模型304的示图。示例语料库302可以包括已经由先前用户针对目标上下文提交的所有词语或短语。示例语料库302例如可以通过随时间收集与多个用户的话音记录文本消息相关联的实际语音识别结果进行填充。针对不同上下文(诸如搜索查询上下文),语料库可以通过收集在线搜索应用中录入的实际搜索查询进行填充。示例上下文特定语言模型304基于示例语料库302生成或估计。
示例上下文特定语言模型304包括每个词语或短语在语料库302中出现的概率。换言之,基于文本消息的示例语料库302生成的示例语言模型304提供用户提交文本消息的上下文中使用某些短语和词语的程度的指示。
ASR引擎可以使用包括特定词语或短语在语料库中出现的概率的示例语言模型304,以便转录音频信号中编码的话语。如果在ASR引擎接收到发音上转录为“I luv urk”的话语,则ASR引擎可以生成候选转录“I love new work”、“I love New York”或者“I loveNewark”。如果如示例语言模型304中所示短语“I love New York”比短语“I love new work”和“I love Newark”的出现频繁多,则ASR引擎可以输出短语“I love New York”作为候选转译,或者可以输出短语“I love New York”作为具有最高识别置信得分的候选转录。
返回图2,给定语言的所接收语音识别结果被转译成不同语言(204)。在某些实例中,转译可以使用硬件或软件机器转译引擎或模块自动执行。
在语音识别结果被转译成不同的目标语言之后,针对相同上下文不同语言估计或生成目标语言模型(206)。语言模型可以包括每个词语或短语在语音识别结果中出现的概率。
在某些实例中,不同的短语长度可以在语音识别结果中计数。例如,给定语言模型可以仅包括单词短语的计数,以便当转录音频信号时,语言模型仅用于确定特定词语与针对给定上下文的其他词语是否更像。
语言模型还可以包括多词短语的计数。如果语言模型还包括双词短语的计数,则语言模型例如可以用于确定在其他较少频率双词短语上某些双词短语被用户期望的可能性。因此,针对一种语言的语言模型可以基于不同语言的语料库的转译结果生成。
已经描述多个实现方式。然而将理解可以进行各种修改而未脱离公开内容的精神实质和范围。例如可以在重新排序、添加或者去除步骤时使用上文所示流程的各种形式。因而,其他实现方式在所附权利要求的范围内。
在本说明书中描述的所有功能操作和实施方式可以在数字电子电路中实现,或者在计算机软件、固件或者硬件中实现,包括在本说明书中公开的结构及其结构等效物,或者在它们中的一项或者多项的组合中实现。实施方式可以实现为在计算机可读介质上编码的用于由数据处理装置执行或者用来控制数据处理装置的操作的一个或者多个计算机程序产品,即一个或者多个计算机程序指令模块。计算机可读介质可以是机器可读存储设备、机器可读存储衬底、存储器设备、影响机器可读传播信号的组合物或者它们中的一项或多项的组合。术语“数据处理装置”涵盖所有种类的用于处理数据的装置、设备和机器,举例而言包括可编程处理器、计算机、或者多处理器或计算机。除了硬件之外,该装置还可以包括为所述计算机程序创建执行环境的代码,例如构成处理器固件、协议栈、数据库管理系统、操作系统或者它们中的一项或者多项的组合的代码。传播信号是人为生成的信号,例如机器生成的电、光、电磁信号,该传播信号被生成用于对信息进行编码以向适当接收器装置传输。
计算机程序(也称为程序、软件、软件应用、脚本或者代码)可以通过包括编译语言或者解译语言的任何形式的编程语言进行编写,并且其可以采用任何形式来部署、包括部署为独立程序或者部署为适合于在计算环境中使用的模块、部件、子例程或者其他单元。计算机程序没必要对应于文件系统中的文件。程序可以被存储于保持其他程序或者数据的文件的一部分中(例如,存储于标记语言文档中的一个或者多个脚本)、专用于所述程序的单个文件中或者多个协同文件(例如,存储一个或者多个模块、子程序或者代码部分的文件)中。计算机程序可以被部署用于在一个计算机上或者在位于一个地点或者分布于多个地点并且由通信网络互连的多个计算机上执行。
在本说明书中描述的过程和逻辑流程可以由一个或者多个可编程处理器执行,该一个或者多个可编程处理器执行一个或者多个计算机程序以通过对输入数据进行操作并且生成输出来执行功能。过程和逻辑流程还可以由专用逻辑电路、例如FPGA(现场可编程门阵列)或者ASIC(专用集成电路)执行并且装置也可以实施为专用逻辑电路。
适合于执行计算机程序的处理器例如包括通用和专用微处理器二者以及任何种类的数字计算机的任何一个或者多个处理器。通常,处理器将从只读存储器或者随机存取存储器或者二者接收指令和数据。
计算机的基本单元是用于执行指令的处理器以及用于存储指令和数据的一个或者多个存储器设备。通常,计算机也将包括用于存储数据的一个或者多个海量存储设备、诸如磁盘、光磁盘或者光盘或者操作地耦合成从该海量存储设备接收数据或者向该海量存储设备传送数据或者二者。然而,计算机无需具有这样的设备。另外,计算机可以嵌入于另一设备中,聊举数例,该另一设备例如是平板计算机、移动电话、个人数字助理(PDA)、移动音频播放器、全球定位系统(GPS)接收器。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备、例如包括半导体存储器设备如EPROM、EEPROM和闪存设备;磁盘如内部硬盘或者可拆卸盘;光磁盘;以及CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路装置补充或者并入于专用逻辑电路装置中。
为了提供与用户的交互,实施方式可以在计算机上实施,该计算机具有用于向用户显示信息的显示设备、例如CRT(阴极射线管)或者LCD(液晶显示器)监视器以及用户可以用来向计算机提供输入的键盘和指示设备、诸如鼠标或者跟踪球。其他种类的设备也可以用来提供与用户的交互;例如向用户提供的反馈可以是任何形式的感官反馈、诸如视觉反馈、听觉反馈或者触觉反馈;并且可以用包括声音、话音或者触觉输入的任何形式接收来自用户的输入。
实现方式可以在计算系统中实施,该计算系统包括后端部件、例如作为数据服务器或者包括中间件部件、例如应用服务器或者包括前端部件、例如具有图形用户界面或者Web浏览器——用户可以通过该图形用户界面或者Web浏览器与实现方式交互——的客户端计算机或者这样的后端、中间件或者前端部件中的一个或者多个部件的任何组合。系统的部件可以由任何数字数据通信形式或者介质、诸如通信网络互连。通信网络的例子包括局域网(“LAN”)和广域网(“WAN”)、例如因特网。
计算系统可以包括客户端和服务器。客户端和服务器一般相互远离并且通常通过通信网络交互。客户端和服务器的关系借助计算机程序来出现,这些计算机程序在相应计算机上运行并且相互具有客户端-服务器关系。
尽管本说明书包含许多细节,但是这些不应解释为对公开内容的或者可以要求保护的内容的范围的限制,而是实际上解释为对具体实施方式特有的特征的描述。也可以在单个实施方式中组合实现在单独实施方式的背景中本说明书中描述的某些特征。反言之,也可以在多个实施方式中单独或者在任何适当子组合中实现在单个实现方式的背景中描述的各种特征。另外,虽然上文可以描述特征为在某些组合中作用并且甚至起初这样要求保护,但是在一些情况下可以从要求保护的组合中去除来自该组合的一个或者多个特征,并且要求保护的组合可以涉及子组合或者子组合的变化。
类似地,尽管在附图中按特定顺序描绘操作,但是这不应理解为要求按所示特定顺序或者按依次顺序执行这样的操作或者执行所有所示操作以实现希望的结果。在某些境况中,多任务和并行处理可以是有利的。另外,在上文描述的实施方式中分离各种系统部件不应理解为在所有实施方式中要求这样的分离,并且应当理解,描述的程序部件和系统一般可以一起集成于单个软件产品中或者封装到多个软件产品中。
在其中提到HTML文件的每个实例中,可以替换为其他文件类型或者格式。例如HTML文件可以替换为XML、JSON、纯文字或者其他类型的文件。另外,在提到表或者哈希表时,可以使用其他数据结构(诸如电子表格、关系数据库或者结构化的文件)。
这样已经描述具体实施方式。其他实施方式在所附权利要求的范围内。例如,在权利要求书中记载的动作可以按不同顺序来执行而仍然实现希望的结果。
Claims (18)
1.一种由至少一个处理器执行的计算机实现的方法,所述方法包括:
从现有语料库接收日志语音识别结果,所述现有语料库特定于给定语言和目标上下文;
通过以下操作生成目标语料库:
将所述日志语音识别结果从所述给定语言机器转译成不同目标语言;以及
使用所述机器转译的日志语音识别结果扩大特定于所述不同目标语言和所述目标上下文的现有部分目标语料库;以及
使用所述目标语料库估计特定于所述不同目标语言和相同的所述目标上下文的语言模型。
2.根据权利要求1所述的方法,其中估计所述语言模型包括对每个不同词语或短语在所述目标语料库中的每次出现计数。
3.根据权利要求2所述的方法,其中估计所述语言模型包括确定每个不同词语或短语在所述目标语料库与所有不同词语或短语在所述目标语料库中出现的相对频率。
4.根据权利要求1所述的方法,其中所述目标上下文与特定应用或应用状态、操作系统、地理位置或区域、或者环境或周围特性相关联。
5.根据权利要求1所述的方法,其中所述目标上下文是文本消息传输上下文、电子邮件上下文、搜索查询上下文、话音拨号上下文或导航上下文。
6.根据权利要求1所述的方法,其中生成所述目标语料库包括过滤所述语音识别结果,然后仅机器转译所过滤的语音识别结果。
7.根据权利要求6所述的方法,其中过滤所述语音识别结果包括过滤与低于预定阈值的语音识别置信得分相关联的语音识别结果。
8.根据权利要求6所述的方法,其中过滤所述语音识别结果包括过滤表示缩写的语音识别结果。
9.根据权利要求1所述的方法,其中生成所述目标语料库包括在接收所述语音识别结果时实时机器转译所述现有语料库的所述语音识别结果。
10.一种系统,包括:
一个或多个非瞬态计算机可读存储介质,存储有表示目标语料库的数据;
机器转译引擎,在具有对所述计算机可读存储介质的访问的一个或多个处理器上可执行,并且可操作用于将特定于给定语言和目标上下文的现有语料库的日志语音识别结果从所述给定语言转译成不同目标语言,并且使用所述转译的所述结果扩大特定于所述不同目标语言和所述目标上下文的现有部分目标语料库以生成所述目标语料库;以及
语言模型生成器,在具有对所述计算机可读存储介质的访问的一个或多个处理器上可执行,并且可操作用于使用所述目标语料库估计特定于所述不同目标语言和相同的所述目标上下文的语言模型。
11.根据权利要求10所述的系统,其中所述机器转译引擎进一步可操作用于将所述给定语言的所述现有语料库的日志文本数据转译成所述不同目标语言,并且将所述日志文本数据的转译结果包括在所述目标语料库中。
12.根据权利要求10所述的系统,其中估计所述语言模型包括确定每个不同词语或短语在所述目标语料库与所有不同词语或短语在所述目标语料库中出现的相对频率。
13.根据权利要求10所述的系统,其中所述目标上下文是文本消息传输上下文、电子邮件上下文、搜索查询上下文、话音拨号上下文或导航上下文。
14.一种编码有计算机程序的非瞬态计算机存储介质,所述程序包括指令,所述指令在由数据处理装置执行时使得所述数据处理装置执行以下操作,包括:
标识从特定于给定语言和目标上下文的现有语料库获得的日志语音识别结果;
通过将所述日志语音识别结果从所述给定语言机器转译成不同目标语言并且通过使用所述机器转译的日志语音识别结果扩大特定于所述不同目标语言和所述目标上下文的现有部分目标语料库来生成目标语料库;以及
使用所述目标语料库估计特定于所述不同目标语言和相同的所述目标上下文的语言模型。
15.根据权利要求14所述的计算机存储介质,其中生成所述目标语料库包括过滤所述语音识别结果,然后仅机器转译所过滤的语音识别结果。
16.根据权利要求15所述的计算机存储介质,其中过滤所述语音识别结果包括过滤与低于预定阈值的语音识别置信得分相关联的语音识别结果。
17.根据权利要求14所述的计算机存储介质,其中所述目标上下文与特定应用或应用状态、操作系统、地理位置或区域、或者环境或周围特性相关联。
18.根据权利要求14所述的计算机存储介质,其中生成所述目标语料库进一步包括将机器转译的语音识别结果以及特定于所述目标语言和所述目标上下文的现有部分语料库包括在所述目标语料库中。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/093,176 US8260615B1 (en) | 2011-04-25 | 2011-04-25 | Cross-lingual initialization of language models |
US13/093,176 | 2011-04-25 | ||
CN201280020118.XA CN103635963B (zh) | 2011-04-25 | 2012-04-25 | 语言模型的跨语种初始化 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280020118.XA Division CN103635963B (zh) | 2011-04-25 | 2012-04-25 | 语言模型的跨语种初始化 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105869633A true CN105869633A (zh) | 2016-08-17 |
CN105869633B CN105869633B (zh) | 2020-04-17 |
Family
ID=46086051
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280020118.XA Active CN103635963B (zh) | 2011-04-25 | 2012-04-25 | 语言模型的跨语种初始化 |
CN201610183504.0A Expired - Fee Related CN105869633B (zh) | 2011-04-25 | 2012-04-25 | 语言模型的跨语种初始化 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280020118.XA Active CN103635963B (zh) | 2011-04-25 | 2012-04-25 | 语言模型的跨语种初始化 |
Country Status (4)
Country | Link |
---|---|
US (2) | US8260615B1 (zh) |
EP (2) | EP3355301B1 (zh) |
CN (2) | CN103635963B (zh) |
WO (1) | WO2012148957A2 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106373565A (zh) * | 2016-08-24 | 2017-02-01 | 安徽咪鼠科技有限公司 | 一种自动切换语音识别引擎的方法 |
CN108197121A (zh) * | 2017-12-29 | 2018-06-22 | 北京中关村科金技术有限公司 | 机器学习语料的获取方法、系统、装置及可读存储介质 |
CN108986791A (zh) * | 2018-08-10 | 2018-12-11 | 南京航空航天大学 | 针对民航陆空通话领域的中英文语种语音识别方法及系统 |
CN110442877A (zh) * | 2018-05-02 | 2019-11-12 | 国际商业机器公司 | 使用机器人规划作为平行语言语料库 |
CN112368703A (zh) * | 2018-06-27 | 2021-02-12 | 比特梵德知识产权管理有限公司 | 用于将自然语言句子转译成数据库查询的系统及方法 |
CN113345431A (zh) * | 2021-05-31 | 2021-09-03 | 平安科技(深圳)有限公司 | 跨语言语音转换方法、装置、设备及介质 |
Families Citing this family (60)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8181205B2 (en) | 2002-09-24 | 2012-05-15 | Russ Samuel H | PVR channel and PVR IPG information |
DE102009037687A1 (de) * | 2009-08-18 | 2011-02-24 | Sennheiser Electronic Gmbh & Co. Kg | Mikrofoneinheit, Taschensender und drahtloses Audiosystem |
US8260615B1 (en) | 2011-04-25 | 2012-09-04 | Google Inc. | Cross-lingual initialization of language models |
US8805869B2 (en) * | 2011-06-28 | 2014-08-12 | International Business Machines Corporation | Systems and methods for cross-lingual audio search |
US9176941B2 (en) * | 2011-07-14 | 2015-11-03 | Tencent Technology (Shenzhen) Company Limited | Text inputting method, apparatus and system based on a cache-based language model and a universal language model |
US9576573B2 (en) | 2011-08-29 | 2017-02-21 | Microsoft Technology Licensing, Llc | Using multiple modality input to feedback context for natural language understanding |
US9646001B2 (en) * | 2011-09-19 | 2017-05-09 | Nuance Communications, Inc. | Machine translation (MT) based spoken dialog systems customer/machine dialog |
US9235565B2 (en) * | 2012-02-14 | 2016-01-12 | Facebook, Inc. | Blending customized user dictionaries |
US8543398B1 (en) | 2012-02-29 | 2013-09-24 | Google Inc. | Training an automatic speech recognition system using compressed word frequencies |
US8374865B1 (en) | 2012-04-26 | 2013-02-12 | Google Inc. | Sampling training data for an automatic speech recognition system based on a benchmark classification distribution |
US8805684B1 (en) | 2012-05-31 | 2014-08-12 | Google Inc. | Distributed speaker adaptation |
US8571859B1 (en) | 2012-05-31 | 2013-10-29 | Google Inc. | Multi-stage speaker adaptation |
US8554559B1 (en) | 2012-07-13 | 2013-10-08 | Google Inc. | Localized speech recognition with offload |
US9786281B1 (en) * | 2012-08-02 | 2017-10-10 | Amazon Technologies, Inc. | Household agent learning |
US9123333B2 (en) | 2012-09-12 | 2015-09-01 | Google Inc. | Minimum bayesian risk methods for automatic speech recognition |
US9672818B2 (en) | 2013-04-18 | 2017-06-06 | Nuance Communications, Inc. | Updating population language models based on changes made by user clusters |
US9728184B2 (en) | 2013-06-18 | 2017-08-08 | Microsoft Technology Licensing, Llc | Restructuring deep neural network acoustic models |
US9311298B2 (en) | 2013-06-21 | 2016-04-12 | Microsoft Technology Licensing, Llc | Building conversational understanding systems using a toolset |
US9589565B2 (en) | 2013-06-21 | 2017-03-07 | Microsoft Technology Licensing, Llc | Environmentally aware dialog policies and response generation |
KR102084646B1 (ko) * | 2013-07-04 | 2020-04-14 | 삼성전자주식회사 | 음성 인식 장치 및 음성 인식 방법 |
US8768704B1 (en) | 2013-09-30 | 2014-07-01 | Google Inc. | Methods and systems for automated generation of nativized multi-lingual lexicons |
US9195656B2 (en) | 2013-12-30 | 2015-11-24 | Google Inc. | Multilingual prosody generation |
US9805120B2 (en) * | 2014-02-14 | 2017-10-31 | Microsoft Technology Licensing, Llc | Query selection and results merging |
US9324321B2 (en) | 2014-03-07 | 2016-04-26 | Microsoft Technology Licensing, Llc | Low-footprint adaptation and personalization for a deep neural network |
US9529794B2 (en) | 2014-03-27 | 2016-12-27 | Microsoft Technology Licensing, Llc | Flexible schema for language model customization |
US9614724B2 (en) | 2014-04-21 | 2017-04-04 | Microsoft Technology Licensing, Llc | Session-based device configuration |
US20150309984A1 (en) * | 2014-04-25 | 2015-10-29 | Nuance Communications, Inc. | Learning language models from scratch based on crowd-sourced user text input |
US9520127B2 (en) | 2014-04-29 | 2016-12-13 | Microsoft Technology Licensing, Llc | Shared hidden layer combination for speech recognition systems |
US10111099B2 (en) | 2014-05-12 | 2018-10-23 | Microsoft Technology Licensing, Llc | Distributing content in managed wireless distribution networks |
US9430667B2 (en) | 2014-05-12 | 2016-08-30 | Microsoft Technology Licensing, Llc | Managed wireless distribution network |
US9384335B2 (en) | 2014-05-12 | 2016-07-05 | Microsoft Technology Licensing, Llc | Content delivery prioritization in managed wireless distribution networks |
US9384334B2 (en) | 2014-05-12 | 2016-07-05 | Microsoft Technology Licensing, Llc | Content discovery in managed wireless distribution networks |
US9874914B2 (en) | 2014-05-19 | 2018-01-23 | Microsoft Technology Licensing, Llc | Power management contracts for accessory devices |
US10037202B2 (en) | 2014-06-03 | 2018-07-31 | Microsoft Technology Licensing, Llc | Techniques to isolating a portion of an online computing service |
US9367490B2 (en) | 2014-06-13 | 2016-06-14 | Microsoft Technology Licensing, Llc | Reversible connector for accessory devices |
US9717006B2 (en) | 2014-06-23 | 2017-07-25 | Microsoft Technology Licensing, Llc | Device quarantine in a wireless network |
CN105469789A (zh) * | 2014-08-15 | 2016-04-06 | 中兴通讯股份有限公司 | 一种语音信息的处理方法及终端 |
US10515151B2 (en) * | 2014-08-18 | 2019-12-24 | Nuance Communications, Inc. | Concept identification and capture |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
US9697201B2 (en) | 2014-11-24 | 2017-07-04 | Microsoft Technology Licensing, Llc | Adapting machine translation data using damaging channel model |
KR102380833B1 (ko) * | 2014-12-02 | 2022-03-31 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
CN106796586A (zh) | 2014-12-30 | 2017-05-31 | 哈曼国际工业有限公司 | 基于语音识别的拨号 |
US9703394B2 (en) * | 2015-03-24 | 2017-07-11 | Google Inc. | Unlearning techniques for adaptive language models in text entry |
US9460713B1 (en) | 2015-03-30 | 2016-10-04 | Google Inc. | Language model biasing modulation |
US9721559B2 (en) | 2015-04-17 | 2017-08-01 | International Business Machines Corporation | Data augmentation method based on stochastic feature mapping for automatic speech recognition |
CN105159893A (zh) * | 2015-08-31 | 2015-12-16 | 小米科技有限责任公司 | 字符串保存方法及装置 |
US9886958B2 (en) * | 2015-12-11 | 2018-02-06 | Microsoft Technology Licensing, Llc | Language and domain independent model based approach for on-screen item selection |
US20180018973A1 (en) | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
US10832664B2 (en) * | 2016-08-19 | 2020-11-10 | Google Llc | Automated speech recognition using language models that selectively use domain-specific model components |
US9959864B1 (en) * | 2016-10-27 | 2018-05-01 | Google Llc | Location-based voice query recognition |
KR102384641B1 (ko) * | 2017-02-20 | 2022-04-08 | 엘지전자 주식회사 | 다국어 처리를 수행하는 인공 지능 시스템의 제어 방법 |
US20190065462A1 (en) * | 2017-08-31 | 2019-02-28 | EMR.AI Inc. | Automated medical report formatting system |
US10423727B1 (en) | 2018-01-11 | 2019-09-24 | Wells Fargo Bank, N.A. | Systems and methods for processing nuances in natural language |
CN110858481B (zh) * | 2018-08-07 | 2024-04-30 | 三星电子株式会社 | 用于处理用户语音话语的系统和用于操作该系统的方法 |
WO2020068858A1 (en) * | 2018-09-24 | 2020-04-02 | Amazon Technologies, Inc. | Technicquest for language model training for a reference language |
US10854189B2 (en) | 2018-09-24 | 2020-12-01 | Amazon Technologies, Inc. | Techniques for model training for voice features |
US10937413B2 (en) * | 2018-09-24 | 2021-03-02 | Amazon Technologies, Inc. | Techniques for model training for voice features |
US11178465B2 (en) * | 2018-10-02 | 2021-11-16 | Harman International Industries, Incorporated | System and method for automatic subtitle display |
US11295732B2 (en) * | 2019-08-01 | 2022-04-05 | Soundhound, Inc. | Dynamic interpolation for hybrid language models |
CN113345418A (zh) * | 2021-06-09 | 2021-09-03 | 中国科学技术大学 | 基于跨语种自训练的多语种模型训练方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050228636A1 (en) * | 2004-03-31 | 2005-10-13 | Erhart George W | Method and apparatus for translating a classification system into a target language |
CN1705016A (zh) * | 2004-05-31 | 2005-12-07 | 国际商业机器公司 | 文本至语音转换以及调整语料库的装置和方法 |
CN1725295A (zh) * | 2004-07-22 | 2006-01-25 | 索尼株式会社 | 语音处理装置、语音处理方法、程序、和记录介质 |
CN101030369A (zh) * | 2007-03-30 | 2007-09-05 | 清华大学 | 基于子词隐含马尔可夫模型的嵌入式语音识别方法 |
CN101075435A (zh) * | 2007-04-19 | 2007-11-21 | 深圳先进技术研究院 | 一种智能聊天系统及其实现方法 |
CN101399044A (zh) * | 2007-09-29 | 2009-04-01 | 国际商业机器公司 | 语音转换方法和系统 |
CN101950560A (zh) * | 2010-09-10 | 2011-01-19 | 中国科学院声学研究所 | 一种连续语音声调识别方法 |
WO2011029011A1 (en) * | 2009-09-04 | 2011-03-10 | Speech Cycle, Inc. | System and method for the localization of statistical classifiers based on machine translation |
CN102855263A (zh) * | 2011-06-30 | 2013-01-02 | 富士通株式会社 | 一种对双语语料库进行句子对齐的方法及装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7113903B1 (en) * | 2001-01-30 | 2006-09-26 | At&T Corp. | Method and apparatus for providing stochastic finite-state machine translation |
US7593843B2 (en) * | 2004-03-30 | 2009-09-22 | Microsoft Corporation | Statistical language model for logical form using transfer mappings |
US7620539B2 (en) * | 2004-07-12 | 2009-11-17 | Xerox Corporation | Methods and apparatuses for identifying bilingual lexicons in comparable corpora using geometric processing |
US20060136226A1 (en) * | 2004-10-06 | 2006-06-22 | Ossama Emam | System and method for creating artificial TV news programs |
CA2612404C (en) * | 2005-06-17 | 2014-05-27 | National Research Council Of Canada | Means and method for adapted language translation |
US8898052B2 (en) * | 2006-05-22 | 2014-11-25 | Facebook, Inc. | Systems and methods for training statistical speech translation systems from speech utilizing a universal speech recognizer |
US8150677B2 (en) * | 2008-06-26 | 2012-04-03 | Microsoft Corporation | Machine translation using language order templates |
US8498857B2 (en) * | 2009-05-19 | 2013-07-30 | Tata Consultancy Services Limited | System and method for rapid prototyping of existing speech recognition solutions in different languages |
US8504353B2 (en) * | 2009-07-27 | 2013-08-06 | Xerox Corporation | Phrase-based statistical machine translation as a generalized traveling salesman problem |
US8260615B1 (en) | 2011-04-25 | 2012-09-04 | Google Inc. | Cross-lingual initialization of language models |
-
2011
- 2011-04-25 US US13/093,176 patent/US8260615B1/en active Active
- 2011-09-30 US US13/250,436 patent/US8442830B2/en active Active
-
2012
- 2012-04-25 WO PCT/US2012/034889 patent/WO2012148957A2/en active Application Filing
- 2012-04-25 EP EP18162871.0A patent/EP3355301B1/en active Active
- 2012-04-25 EP EP12721634.9A patent/EP2702586B1/en active Active
- 2012-04-25 CN CN201280020118.XA patent/CN103635963B/zh active Active
- 2012-04-25 CN CN201610183504.0A patent/CN105869633B/zh not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050228636A1 (en) * | 2004-03-31 | 2005-10-13 | Erhart George W | Method and apparatus for translating a classification system into a target language |
CN1705016A (zh) * | 2004-05-31 | 2005-12-07 | 国际商业机器公司 | 文本至语音转换以及调整语料库的装置和方法 |
CN1725295A (zh) * | 2004-07-22 | 2006-01-25 | 索尼株式会社 | 语音处理装置、语音处理方法、程序、和记录介质 |
CN101030369A (zh) * | 2007-03-30 | 2007-09-05 | 清华大学 | 基于子词隐含马尔可夫模型的嵌入式语音识别方法 |
CN101075435A (zh) * | 2007-04-19 | 2007-11-21 | 深圳先进技术研究院 | 一种智能聊天系统及其实现方法 |
CN101399044A (zh) * | 2007-09-29 | 2009-04-01 | 国际商业机器公司 | 语音转换方法和系统 |
WO2011029011A1 (en) * | 2009-09-04 | 2011-03-10 | Speech Cycle, Inc. | System and method for the localization of statistical classifiers based on machine translation |
CN101950560A (zh) * | 2010-09-10 | 2011-01-19 | 中国科学院声学研究所 | 一种连续语音声调识别方法 |
CN102855263A (zh) * | 2011-06-30 | 2013-01-02 | 富士通株式会社 | 一种对双语语料库进行句子对齐的方法及装置 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106373565A (zh) * | 2016-08-24 | 2017-02-01 | 安徽咪鼠科技有限公司 | 一种自动切换语音识别引擎的方法 |
CN108197121A (zh) * | 2017-12-29 | 2018-06-22 | 北京中关村科金技术有限公司 | 机器学习语料的获取方法、系统、装置及可读存储介质 |
CN110442877A (zh) * | 2018-05-02 | 2019-11-12 | 国际商业机器公司 | 使用机器人规划作为平行语言语料库 |
CN110442877B (zh) * | 2018-05-02 | 2023-05-30 | 国际商业机器公司 | 使用机器人规划作为平行语言语料库 |
CN112368703A (zh) * | 2018-06-27 | 2021-02-12 | 比特梵德知识产权管理有限公司 | 用于将自然语言句子转译成数据库查询的系统及方法 |
CN108986791A (zh) * | 2018-08-10 | 2018-12-11 | 南京航空航天大学 | 针对民航陆空通话领域的中英文语种语音识别方法及系统 |
CN113345431A (zh) * | 2021-05-31 | 2021-09-03 | 平安科技(深圳)有限公司 | 跨语言语音转换方法、装置、设备及介质 |
CN113345431B (zh) * | 2021-05-31 | 2024-06-07 | 平安科技(深圳)有限公司 | 跨语言语音转换方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103635963A (zh) | 2014-03-12 |
CN103635963B (zh) | 2016-04-13 |
US8260615B1 (en) | 2012-09-04 |
CN105869633B (zh) | 2020-04-17 |
US20120271617A1 (en) | 2012-10-25 |
US8442830B2 (en) | 2013-05-14 |
WO2012148957A3 (en) | 2012-12-20 |
EP2702586B1 (en) | 2018-06-06 |
EP3355301A1 (en) | 2018-08-01 |
EP3355301B1 (en) | 2022-11-02 |
WO2012148957A2 (en) | 2012-11-01 |
WO2012148957A4 (en) | 2013-03-28 |
EP2702586A2 (en) | 2014-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105869633A (zh) | 语言模型的跨语种初始化 | |
US11475898B2 (en) | Low-latency multi-speaker speech recognition | |
US10679622B2 (en) | Dependency graph generation in a networked system | |
EP2896039B1 (en) | Improving phonetic pronunciation | |
US10210267B1 (en) | Disambiguation of a spoken query term | |
US8868409B1 (en) | Evaluating transcriptions with a semantic parser | |
CN107430616B (zh) | 语音查询的交互式再形成 | |
CN114600114A (zh) | 助理系统的设备上卷积神经网络模型 | |
US9047868B1 (en) | Language model data collection | |
EP2963643B1 (en) | Entity name recognition | |
US9489940B2 (en) | Apparatus and methods to update a language model in a speech recognition system | |
CN110945515A (zh) | 数字助理的意图和槽检测 | |
US10482182B1 (en) | Natural language understanding system and dialogue systems | |
US9858923B2 (en) | Dynamic adaptation of language models and semantic tracking for automatic speech recognition | |
CN111261144A (zh) | 一种语音识别的方法、装置、终端以及存储介质 | |
JP7230806B2 (ja) | 情報処理装置、及び情報処理方法 | |
CN109791761A (zh) | 使用校正的术语的声学模型训练 | |
CN103187052A (zh) | 一种建立用于语音识别的语言模型的方法及装置 | |
JPWO2012165529A1 (ja) | 言語モデル構築支援装置、方法及びプログラム | |
Yun et al. | Multilingual speech-to-speech translation system for mobile consumer devices | |
US20140365218A1 (en) | Language model adaptation using result selection | |
CN113838461B (zh) | 智能语音交互方法、装置、设备和计算机存储介质 | |
WO2022143349A1 (zh) | 一种确定用户意图的方法及装置 | |
CN110189750A (zh) | 词语检测系统、词语检测方法以及记录介质 | |
CN117765940A (zh) | 为助理系统呈现与语音命令相关联的注意状态 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: California, USA Applicant after: Google Inc. Address before: California, USA Applicant before: Google Inc. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200417 |
|
CF01 | Termination of patent right due to non-payment of annual fee |