CN113168830A - 言语处理 - Google Patents
言语处理 Download PDFInfo
- Publication number
- CN113168830A CN113168830A CN201980078166.6A CN201980078166A CN113168830A CN 113168830 A CN113168830 A CN 113168830A CN 201980078166 A CN201980078166 A CN 201980078166A CN 113168830 A CN113168830 A CN 113168830A
- Authority
- CN
- China
- Prior art keywords
- computing device
- transcription
- utterance
- language
- language model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000035897 transcription Effects 0.000 claims abstract description 203
- 230000015654 memory Effects 0.000 description 35
- 238000000034 method Methods 0.000 description 26
- 238000004891 communication Methods 0.000 description 18
- 230000004044 response Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 230000003993 interaction Effects 0.000 description 4
- 230000004301 light adaptation Effects 0.000 description 4
- 230000001323 posttranslational Effects 0.000 description 4
- 108010009740 Vp16-Jazz protein Proteins 0.000 description 3
- 230000001413 cellular Effects 0.000 description 3
- 230000000875 corresponding Effects 0.000 description 3
- 230000000977 initiatory Effects 0.000 description 3
- 230000003287 optical Effects 0.000 description 3
- 239000000969 carrier Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000001755 vocal Effects 0.000 description 2
- 210000001072 Colon Anatomy 0.000 description 1
- 241001585714 Nola Species 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000001419 dependent Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006011 modification reaction Methods 0.000 description 1
- 230000000644 propagated Effects 0.000 description 1
- 230000001953 sensory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
Abstract
公开了用于适配语言模型的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。在一个方面中,一种方法包括接收话语的转录的动作,所述话语由在域中操作的计算设备接收并且是源语言的。所述动作还包括:生成所述话语的所述转录的目标语言的翻译后的转录。所述动作还包括:接收针对所述目标语言的语言模型。所述动作还包括:通过增加所述语言模型选择所述翻译后的转录中所包括的词项的可能性,偏置针对所述目标语言的所述语言模型。所述动作还包括:在所述域中操作时,使用所述偏置后的语言模型来生成所述目标语言的话语的转录。
Description
相关申请的交叉引用
本申请要求于2018年11月30日提交的美国申请62/773,361的权益,其通过引用并入本文。
技术领域
本说明书大体上涉及用于处理言语输入的系统和方法。
背景技术
越来越期望使得与计算机的交互能够使用言语输入来执行。这需要输入处理方面的发展,特别是如何对计算机进行编程以处理和分析自然语言数据。这种处理可能涉及言语识别,该言语识别是计算语言学的领域,其使得能够通过计算机将口头语言识别和翻译为文本。
发明内容
为了获得最优的言语识别准确度,通用言语识别系统可能需要被适配,以在域特定的言语识别方面表现出色。域可以与接收言语数据的设备的类型、在接收言语数据的设备上运行的应用和/或接收言语数据的设备的上下文相关。例如,如果言语识别系统被适配以用于在车辆中使用,则通过能够更快速且更准确地转录言语,该言语包括用户可能会在车辆中说出的单词或短语,言语识别质量可以改进车辆中的言语识别系统。
被用于使言语识别系统适配特定域的一种技术可以是分析由在特定域中操作的言语识别系统接收的转录日志。适配过程可以包括:与在针对通用言语识别系统的转录日志中相比,标识在针对特定域的转录日志中更常见的单词或短语。语言模型可能被偏置,使得该语言模型更有可能生成候选转录,该候选转录包括在针对特定域的转录日志中更常见的单词或短语。
如果没有针对目标语言的特定域的转录日志,则该技术对于针对新目标语言的特定域发起言语识别系统可能并不实用。在该实例中,利用另一种语言的域特定的转录日志可能会有所帮助。语言模型适配系统可以将域特定的转录日志翻译为目标语言。语言模型适配系统可以分析翻译后的转录日志,以标识对于在特定域中操作的设备说话的用户来说似乎更常见的单词和短语。在标识出常见单词的情况下,语言模型适配系统可以偏置针对目标语言的通用语言模型,使得在处理可能听起来与目标语言的其他单词类似的音频数据时,偏置后的语言模型可能更有可能生成包括常见单词的转录。
利用偏置后的语言模型,可能可以以目标语言发起针对特定域的言语识别系统,并受益于具有改进的准确度和时延的改进的言语识别。用户可以从言语识别中受益,该言语识别在系统发起时被配置为更快速且更准确地识别单词和短语,这些单词和短语是用户在与在特定域中操作的系统说话时更有可能说出的单词和短语。
根据本申请描述的主题的创新方面,一种用于处理言语输入的方法包括以下动作:由计算设备,接收话语的转录,该话语由在域中操作的计算设备接收并且是源语言的;由计算设备,生成话语的转录的目标语言的翻译后的转录;由计算设备,接收针对目标语言的语言模型;通过增加语言模型选择翻译后的转录中所包括的词项的可能性,由计算设备偏置针对目标语言的语言模型;以及在域中操作时,由计算设备,使用偏置后的语言模型来生成目标语言的话语的转录。
这些和其他实施方式可以分别可选地包括以下特征中的一个或多个。使用偏置后的语言模型生成目标语言的话语的转录的动作包括:当计算设备在域中操作时,由计算设备,接收话语的音频数据;由计算设备,提供音频数据作为声学模型的输入,该声学模型被配置为标识话语的音素;基于计算设备在域中操作,由计算设备,提供话语的音素作为偏置后的语言模型的输入;以及,基于提供话语的音素作为偏置后的语言模型的输入,由计算设备,生成话语的转录。针对目标语言的语言模型是通用语言模型。针对目标语言的偏置语言是特定于在域中操作的计算设备的语言模型。该动作包括:由计算设备,标识在翻译后的转录中出现的n元语法和每个n元语法的出现频率;以及由计算设备,标识在翻译后的转录中出现的大于阈值出现频率的n元语法的子集。
通过增加语言模型选择n元语法的子集的可能性,计算设备偏置语言模型。增加语言模型选择n元语法的子集的可能性的动作包括:针对n元语法的子集中的每个n元语法,基于针对n元语法的出现频率与阈值出现频率之间的较大差异,将可能性增加更大的数量。该动作包括:由计算设备,接收话语的音频数据,该话语由在域中操作的计算设备接收并且是源语言的。接收由在域中操作的计算设备接收并且是源语言的话语的转录的动作包括:由计算设备,生成话语的转录,该话语由在域中操作的计算设备接收并且是源语言的。该动作包括:由计算设备,接收附加话语的附加转录,该附加话语由在除了域之外的域中操作的计算设备接收并且是源语言的;由计算设备,生成附加转录的附加翻译后的转录;与在附加翻译后的转录中相比,标识在翻译后的转录中具有更高出现频率的词项。
通过增加语言模型选择翻译后的转录中所包括的词项的可能性来偏置针对目标语言的语言模型的动作包括:通过增加语言模型选择词项的可能性来偏置针对目标语言的语言模型,与在附加翻译后的转录中相比,该词项在翻译后的转录中具有更高出现频率。该动作包括:由计算设备,接收目标语言的语法。通过增加语言模型选择翻译后的转录中所包括的词项的可能性来偏置针对目标语言的语言模型的动作包括:通过增加语言模型选择语法的可能性来偏置针对目标语言的语言模型,该语法包括翻译后的转录中所包括的词项。
该方面的其他实施例包括在计算机存储设备上记录的对应系统、装置和计算机程序,每个系统、装置和计算机程序都被配置为执行方法的操作。
本说明书所描述的主题的特定实施例可以被实施,以便实现以下优点中的一个或多个。可能可以发起一种针对新语言和新域的言语识别系统,该言语识别系统被配置为更准确且更快速地识别该域中的用户所说的常见短语。可能没有必要用新语言收集针对该域的任何言语数据。
本说明书所描述的主题的一个或多个实施例的细节是在下面的附图和描述中陈述的。主题的其他特征、方面和优点将通过描述、附图和权利要求而变得显而易见。
附图说明
图1图示了示例系统,该示例系统使用翻译后的训练数据来偏置用于在特定域中使用的语言模型。
图2图示了示例系统,该示例系统使用翻译后的训练数据和预选语法来偏置用于在特定域中使用的语言模型。
图3是适配用于在特定域中使用的语言模型的示例过程的流程图。
图4是计算设备和移动计算设备的示例。
在各个附图中,相同的附图标记和名称指示相同的元件。
具体实施方式
图1图示了示例系统100,该示例系统100使用翻译后的训练数据110来偏置用于在特定域中使用的语言模型105。简而言之,并且如下面更详细地描述的,系统100检查翻译后的训练数据110,以标识可能由在特定域中的说话者使用的常见单词和短语。系统100偏置语言模型以支持那些常见单词和短语。
智能扬声器120可以在自动言语识别过程期间使用偏置后的语言模型115。用户125向智能扬声器120说出查询130,并且智能扬声器120使用偏置后的语言模型115来生成查询130的转录。基于查询130,智能扬声器120可以生成对查询130的响应135。
利用世界各地许多不同的语言,设计一种能够准确地识别所有语言的言语识别器可能并不实用。例如,同一言语识别器可能无法识别英语和土耳其语两者。相反,言语识别器可以使用被训练以标识英语音素的英语声学模型以及英语语言模型,该英语语言模型被配置为标识英语单词和短语,这可以被称为n元语法(例如一元语法是单个单词,二元语法是两个单词的短语等)。另一言语识别器可以使用被训练以标识土耳其语音素的土耳其语声学模型和土耳其语语言模型,该土耳其语语言模型被配置为标识土耳其语单词和短语。当用户说出言语识别器未被配置以识别的语言时,由言语识别器生成的转录可能不准确。附加地,访问多个声学模型和多个语言模型的言语识别器所需的计算资源可能太高,这将导致扬声器的时延不可接受。
言语识别器可以被适配用于不同类型的情况。例如,言语识别器可以被适配以用于在车辆中使用,由没有显示器的智能扬声器使用,由具有显示器的智能扬声器使用,由在移动电话上运行的数字助理应用使用,由在膝上型计算机上运行的数字助理应用使用,或者由任何其他类似的应用或情况使用。该应用或情况可以被称为域。被配置为识别特定语言的言语识别器可以被适配以用于在不同的域中使用。例如,英语言语识别器可以被适配以用于由在移动电话上运行的数字助理应用使用,或者用于由具有显示器的智能扬声器使用。与在移动电话上运行的数字助理应用交互的用户可能更有可能说出第一n元语法子集,并且与具有显示器的智能扬声器交互的用户可能更有可能说出第二n元语法子集,该第二n元语法子集可以或可以不包括第一集合中的一些n元语法。因此,开发人员可能会针对在移动电话域上运行的数字助理应用来偏置言语识别器的语言模型,以更有可能识别第一n元语法集合,并且针对具有显示器域的智能扬声器来偏置言语识别器的语言模型,以更有可能识别第二n元语法集合。
通过检查在特定域中操作的计算设备所接收的话语的转录,识别n元语法以偏置语言模型可以被实现。例如,为了标识针对没有显示器域的智能扬声器的流行n元语法,系统100可以检查由没有显示器的智能扬声器所接收的话语的转录。系统100可以标识最常见的n元语法,并且偏置语言模型以支持那些n元语法。然后,没有显示器的智能扬声器可以使用偏置后的语言模型执行自动言语识别过程。
对于在特定域中操作的计算设备所接收的话语的转录在特定语言中不可用的情况,针对特定语言的该偏置过程可能并不实用。由于在人群说特定语言的国家中,没有显示器的智能扬声器可能无法购买,因此转录可能是不可用的。例如,没有显示器的智能扬声器可能在土耳其不可用。因此,可能不存在人们向没有显示器的智能扬声器说土耳其语的任何转录。
尽管缺少这种转录数据,但是系统100可能能够利用来自其他语言的数据来偏置针对目标语言的语言模型。例如,系统100可能能够利用英语转录数据140来偏置土耳其语语言模型115。这样做可以允许应用或产品以偏向于或适配于特定域的土耳其语语言模型来发起,诸如没有显示器的智能扬声器。
如图1所图示的,系统100访问由计算设备接收的英语转录数据140,该计算设备在家庭助理域中操作。在家庭助理域中操作的设备可以包括诸如没有显示器的智能扬声器等设备。其他设备可以在家庭助理域中操作,并且从这些设备收集的转录可以被添加到英语转录数据140。作为示例,英语转录数据140可以包括诸如“what is the weather(天气怎么样)”、“play jazz music(播放爵士音乐)”、“volume up(提高音量)”、“lights on(开灯)”等转录145以及由在家庭助理域中操作的设备接收的其他话语的转录。
在一些实施方式中,通过对在家庭助理域中操作的设备所接收的话语的音频数据执行自动言语识别,系统100可以生成英语转录数据140。在一些实施方式中,系统100可以从人工转录者接收英语转录数据140,该人工转录者转录由在家庭助理域中操作的设备接收的话语的音频数据。在一些实施方式中,英语转录数据140可以包括自动转录和人工转录两者的混合。
系统100提供英语转录数据140作为英语到土耳其语翻译器150的输入。英语到土耳其语翻译器150可以是将英语转录数据140自动翻译为土耳其语转录数据110的机器翻译器。在一些实施方式中,英语到土耳其语翻译器150可以是人工翻译器。
土耳其语转录数据110可以包括诸如 和等转录155,其可以是“what is the weather”、“play jazz music”、“volume up”和“lights on”的土耳其语转录。转录155可以包括英语转录数据140的附加翻译后的转录。
在一些实施方式中,英语到土耳其语翻译器150在翻译英语转录数据140时可能出错。在这种情况下,系统100可以翻译从在各种域和/或通用域中接收的其他话语转录的附加英语转录数据。系统100可以提供通用英语转录数据作为英语到土耳其语翻译器150的输入。系统100可以将土耳其语转录数据110与通用土耳其语转录数据进行比较,以标识在家庭助理域中可能更常见的n元语法。使用域特定的翻译后的转录和通用翻译后的转录两者可以允许系统100去除在翻译期间发生的一些错误。由于在翻译域特定的转录时和在翻译通用转录时可能会发生一些错误,因此这些错误可能会抵消,并且系统可能无法标识与错误相关的n元语法,因为它们更有可能在特定域中发生。
系统100提供土耳其语转录数据110和土耳其语语言模型105作为语言模型适配器160的输入。语言模型适配器160可以被配置为偏置土耳其语语言模型105,以生成被适配用于家庭助理域的土耳其语语言模型170。土耳其语语言模型105可以是不被偏置到任何特定n元语法165的通用土耳其语语言模型。
通过增加土耳其语转录数据110的n元语法的权重,语言模型适配器160可以针对家庭助理域适配土耳其语语言模型105。例如,语言模型适配器160可以增加针对n元语法的权重,使得如果土耳其语说话者说的话听起来类似于则即使通用的土耳其语语言模型105不选择,土耳其语语言模型170可能还是更有可能选择作为转录。
语言模型适配器160可以适配土耳其语语言模型170,以更有可能识别n元语法175,诸如 以及在土耳其语转录110中所包括的其他n元语法。在一些实施方式中,语言模型适配器160可以根据在土耳其语转录110中n元语法的出现频率来适配土耳其语语言模型170。例如,如果与 相比,在土耳其语转录110中出现地更频繁,那么与相比,语言模型适配器160可以使土耳其语语言模型170更偏向于在一些实施方式中,语言模型适配器160可以使土耳其语语言模型170偏向于每个n元语法175的不同词项。例如,语言模型适配器160可以偏向于“hava”和两者。在一些实例中,与单独地偏向“hava”和相比,语言模型适配器160可能更偏向于
智能扬声器120在处理话语130期间访问土耳其语语言模型170。智能扬声器120可以在家庭助理域中操作,并因此访问被适配用于家庭助理域的土耳其语语言模型170。如图1所图示的,智能扬声器120可以通过输出“Merhaba,sanaedebilirim?”来提示用户125。智能扬声器120可以响应于用户125触摸智能扬声器120,说出预定的热词(例如“ok computer(好的,计算机)”或类似的土耳其语短语)或者任何其他类似动作来提示用户125。用户125可以用话语130 做出响应。在一些实施方式中,用户125可以在没有输出提示180的智能扬声器的情况下,在话语130之后说出热词。
智能扬声器120接收话语130,并使用土耳其语声学模型和被适配用于家庭助理域的土耳其语语言模型170执行自动言语识别。智能扬声器120基于话语130发起动作。在这种情况下,该动作可以是生成针对智能扬声器120的位置中的天气的查询。智能扬声器120可以接收对该查询的响应,并且生成响应135
图2图示了示例系统200,该示例系统200使用翻译后的训练数据204和预选语法206两者来偏置语言模型202以用于在特定域中使用。简而言之,并且如下面更详细地描述的,系统200将预选语法206与翻译后的训练数据204进行比较,以标识可能由在特定域中的说话者使用的常见单词和短语。系统200偏置语言模型以支持语法206和翻译后的训练数据中的词项。
配备有自动数字助理208的车辆可以在自动言语识别过程期间使用偏置后的语言模型210。用户212向自动数字助理208说出查询214,并且自动数字助理208使用偏置后的语言模型210来生成查询214的转录。基于查询214,自动数字助理208可以生成对查询214的响应216。
类似于图1中的系统100,系统200可以被配置为针对系统200没有对该语言的训练数据的任何访问权的语言生成偏置后的语言模型210。在图2的示例中,尽管仅访问由在车辆助理域中操作的设备接收的英语转录218,但是系统200针对车辆助理域生成偏置后的巴斯克语语言模型210。
除了利用由在车辆助理域中操作的设备接收的英语转录218之外,系统200还访问预编程的语法206。为了确保针对新语言的言语识别产品可以正确运作,开发人员可以包括语法集合206,言语识别器可以访问该语法集合206以辅助确定用户所请求的动作。除了仅使用通用语言模型来发起新语言中的言语识别产品之外,开发人员可以包括语法集合206以确保用户可以与设备交互。通过在显示器上显示句法,输出示例的音频或输出数据的任何其他类似方式,该设备可以指示语法206的句法以及针对每个语法的动作。
语法可以不同于词汇,语言模型从该词汇中选择单词。语法与话语的转录结构相关。如果转录与语法的结构相匹配,那么系统200执行与该语法相对应的动作。语法可以是可以使用常见的注释技术描述的任何单词结构,例如Bakus-Naur形式。每个语法可以对应于特定的用户意图。例如,用户意图可能是发出家庭自动化命令或媒体播放命令。语法的一个示例可以包括针对警报的语法。警报语法可以使用注释$DIGIT=(0|1|2|3|4|5|6|7|8|9)将数字定义为0、1、2、3、4、5、6、7、8、9或0。警报语法可以使用注释$TIME=$DIGIT$DIGIT:$DIGIT$DIGIT(am|pm)定义时间,该注释指示时间包括两个数字,后接冒号,然后是两个数字,接着是“上午”或“下午”。警报语法可以使用注释$MODE=(alarm|timer)来定义警报的模式,该注释指示警报是应该处于警报模式还是定时器模式。最后,警报语法可以针对$TIME将警报句法定义为$ALARM=set$MODE,这指示用户可以说“set alarm for 6:00am(将警报设置为上午6:00)”或“set timer for 20:00(将定时器设置为20:00)”。言语识别系统使用语法来解析话语或键入命令的转录,并标识设备要执行的动作。
在一些实例中,语法206可以不指示哪个语法206或语法206中所包括的哪个单词可以是说话者更有可能对在特定域中操作的设备说的东西。例如,语法206可以是针对车辆助理域的语法集合。除了包括“egungo trafikoa”、“$LOCATION jarraibideak”、“$NUMBERtenperatura ezarri”和“ezarri irratia$STATION”的语法示例220外,语法示例220还可以包括$ALARM语法。然而,在车辆助理域中,说话者可能更有可能说出用于控制车辆,请求交通信息,请求路线指引的命令以及其他车辆相关命令。尽管对于车辆而言,能够识别并执行设置警报的命令可能很重要,但在车辆助理域中,警报命令可能并不常见。
针对图2所图示的示例,开发人员可能希望使车辆助理技术可用于巴斯克语说话者。如果开发人员使用车辆助理技术访问巴斯克语说话者的转录,那么开发人员将能够使用这些转录适配针对车辆助理域的巴斯克语语言模型。在没有使用车辆助理技术的巴斯克语说话者的转录的情况下,开发人员可以使用通用的巴斯克语语言模型202。使用通用的巴斯克语语言模型202可能会为说话者带来不好的体验,因为如果用户说不清楚或存在听起来与“egungo trafikoa”类似的其他巴斯克语短语,则巴斯克语语言模型202可能无法识别说话者正在说“egungo trafikoa”。在通用的巴斯克语语言模型202可能无法识别的实例中,被偏向于说话者在车辆助理域中更有可能说出的短语的巴斯克语语言模型,可能更有可能识别出说话者正在说“egungo trafikoa”。在没有使用车辆助理技术和适配用于车辆助理域的巴斯克语语言模型的巴斯克语说话者的转录的情况下,包括语法206可能是开发人员在发起针对巴斯克语说话者的技术时包括在车辆助理技术中的语法。
系统200图示了用于使用语法206和英语转录218来适配巴斯克语语言模型202并且生成适配用于车辆助理域的巴斯克语语言模型210的组件。系统200访问由在车辆助理域中操作的计算设备接收的英语转录数据218。在车辆助理域中操作的设备可以包括诸如配备有语音交互系统的汽车等设备。其他设备可以在车辆助理域中操作,并且从这些设备收集的转录可以被添加到英语转录数据218。作为示例,英语转录数据218可以包括诸如“current traffic(当前交通)”、“directions to home(到家的路线指引)”、“open garagedoor(打开车库门)”、“lower fan speed(降低风扇速度)”等转录145以及由在车辆助理域中操作的设备接收的其他话语的转录。
在一些实施方式中,通过对由在车辆助理域中操作的设备接收的话语的音频数据执行自动言语识别,系统200可以生成英语转录数据218。在一些实施方式中,系统200可以从人工转录者接收英语转录数据218,该人工转录者转录由在车辆助理域中操作的设备接收的话语的音频数据。在一些实施方式中,英语转录数据218可以包括自动转录和人工转录两者的混合。
系统200提供英语转录数据218作为英语到巴斯克语翻译器224的输入。英语到巴斯克语翻译器224可以是将英语转录数据218自动翻译为巴斯克语转录数据204的机器翻译器。在一些实施方式中,英语到巴斯克语翻译器224可以是人工翻译器。
巴斯克语转录数据204可以包括诸如“egungo trafikoa”、“etxerakojarraibideak”、“garaje ate irekia”和“behe-fanaren abiadura”等转录226,其可以分别是“current traffic”、“directions to home”、“open garage door”、“lower fanspeed”的巴斯克语翻译。转录226可以包括英语转录数据218的附加翻译后的转录。
在一些实施方式中,英语到巴斯克语翻译器224在翻译英语转录数据140时可能出错。在这种情况下,系统200可以翻译从在各种域和/或通用域中接收的其他话语转录的附加英语转录数据。系统200可以提供通用英语转录数据作为英语到巴斯克语翻译器224的输入。系统200可以将巴斯克语转录数据204与通用巴斯克语转录数据进行比较,以标识在车辆助理域中可能更常见的n元语法。使用域特定的翻译后的转录和通用翻译后的转录两者可以允许系统200去除在翻译期间发生的一些错误。由于在翻译域特定的转录和通用转录两者时可能会发生一些错误,因此这些错误可能会抵消,并且系统可能无法标识与错误相关的n元语法,因为它们更有可能在特定域中发生。
系统200提供巴斯克语转录数据204和巴斯克语语法206作为语法加权器228的输入。语法加权器228可以被配置为通过将巴斯克语转录数据204与巴斯克语语法206进行比较来生成加权语法230。语法加权器228可以标识巴斯克语语法206中所包括的语法,该巴斯克语语法206解析存储在巴斯克语转录数据204中的单词或短语。例如,巴斯克语语法“$LOCATION jarraibideak”可以解析巴斯克语转录“Etxerako jarraibideak”,因为“etxerako”可能被包括为可以占用$LOCATION变量的词项。巴斯克语语法“ezarri irratia$STATION”可能无法解析巴斯克语转录数据204中的任何转录。如用加权语法232所图示的,语法加权器228可以将“egungo trafikoa”和“$LOCATION jarraibideak”都识别为语法,该语法更多是由与车辆助理系统进行交互的巴斯克语用户说出的。
在一些实施方式中,语法加权器228可以将数字权重指派给巴斯克语语法206。例如,语法加权器228可以将0.1的权重指派给不解析巴斯克语转录数据204中的任何转录的语法。权重为0.1可能不指示车辆助理系统可能无法将该语法标识为解析转录,但是当存在也解析转录的具有更高权重的其他语法时,它可能会减少车辆助理系统选择该语法并执行对应动作的可能性。语法加权器228可以基于可解析的转录在巴斯克语转录数据204中出现的频率来指派较高的权重。例如,如果巴斯克语转录数据204包括可以由语法“ezarriirratia$STATION”解析的七个转录,那么语法加权器228可以指派0.3的权重。七个转录中的一些转录可能是相同的而其他转录可以包括针对$STATION变量的不同词项。如果巴斯克语转录数据204包括可以由语法“$NUMBER tenperatura ezarri”解析的十一个转录,那么语法加权器228可以指派0.4的权重。在一些实施方式中,语法加权器228可以将相同的权重指派给解析至少一个转录的语法,并且将不同的权重指派给不解析转录的语法。
系统200提供加权的巴斯克语语法230和巴斯克语语言模型202作为语言模型适配器234的输入。语言模型适配器234可以被配置为偏置巴斯克语语言模型202,以生成被适配用于车辆助理域的巴斯克语语言模型210。巴斯克语语言模型202可以是不被偏置到任何特定词项、短语、单词或n元语法的通用巴斯克语语言模型。
通过增加加权的巴斯克语语法230的n元语法的权重,语言模型适配器234可以针对车辆助理域适配巴斯克语语言模型202。例如,语言模型适配器234可以增加针对n元语法“egungo trafikoa”的权重,使得如果巴斯克语说话者说的话听起来类似于“egungotrafikoa”,则即使通用的巴斯克语语言模型202不选择,巴斯克语语言模型210可能还是更有可能选择“egungo trafikoa”作为转录。
语言模型适配器234可以适配巴斯克语语言模型210,以更有可能识别n元语法232,诸如“egungo trafikoa”、“$LOCATION jarraibideak”和加权的巴斯克语语法230中所包括的其他n元语法。在一些实施方式中,语言模型适配器234可以根据指派给语法中的每个语法的权重来适配巴斯克语语言模型210。例如,如果“egungo trafikoa”的权重为0.3,并且“$LOCATION jarraibideak”的权重为0.5,那么语言模型适配器234可能会偏置巴斯克语语言模型210,使得巴斯克语语言模型210可能更有可能在接收到话语时在类似的语音转录上选择“etxerako jarraibideak”。在接收到话语时,巴斯克语语言模型210可能仍有可能在类似的语音转录上选择“egungo trafikoa”,但巴斯克语语言模型210偏置可能小于“etxerako jarraibideak”。在一些实施方式中,语言模型适配器234可以使巴斯克语语言模型210偏向于每个加权语法230的不同词项。例如,语言模型适配器234可以偏向于“egungo trafikoa”、“trafikoa”和“egungo”。在一些实例中,与单独地偏向“trafikoa”和“egungo”相比,语言模型适配器234可能更偏向“egungo trafikoa”。在一些实施方式中,语言模型适配器234可以将“trafikoa”标识为与“egungo”相比更偏向的n元语法,因为“trafikoa”可能出现在加权语法230中所包括的更重的加权语法中。
在一些实施方式中,除了可以用于语法中的变量的每个词项之外,语言模型适配器234还可以使巴斯克语语言模型210偏向于由加权语法230可解析的n元语法。例如,语言模型适配器234可以使巴斯克语语言模型210偏向于除了“$LOCATION jarraibideak”和“jarraibideak”之外还可以占用$LOCATION变量的词项。
车辆208可以被配备有车辆助理系统。车辆助理系统可以在话语214的处理期间访问巴斯克语语言模型210。由于车辆助理系统是位于车辆中的数字助理系统,因此在车辆助理域中进行操作。
如图2所图示的,车辆助理系统可以侦听来自用户212的语音命令。车辆助理系统可以响应于用户212说出预定的热词(例如“ok computer”或类似的巴斯克语短语),用户212按下方向盘上的按钮或任何其他类似动作来开始处理接收到的音频。用户可以说出话语214“Nola trafikoa da?”。
车辆助理系统接收话语214,并且使用巴斯克语声学模型和被适配用于车辆助理域的巴斯克语语言模型210来执行自动言语识别。车辆助理系统基于话语214启动动作。在这种情况下,该动作可以是生成针对车辆208的位置的交通的查询。车辆助理系统可以接收对该查询的响应并且生成响应216“Trafikoa argi dago”。巴斯克语语言模型210可能未被偏向于话语214的确切短语,但是巴斯克语语言模型210可能被偏向于关键字“trafikoa”。偏向于用户说出的n元语法可以辅助车辆助理系统标识准确的转录。
图3是用于适配语言模型以用于在特定域中使用的示例过程300的流程图。通常,过程300使用翻译后的训练数据来适配语言模型,以用于在特定域中使用。如果在该特定域中不存在针对目标语言的训练数据,则过程300可能是有用的。过程300将被描述为由包括一个或多个计算机的计算机系统(例如图1的系统100或图2的系统200)执行。系统100或系统100的组件中的每个组件可以被包括在单个计算设备上,或分布在多个计算设备上。
该系统接收话语的转录,该话语由在域中操作的其他系统接收并且是源语言的(310)。在一些实施方式中,当其他系统在域中操作时,系统可以接收由其他系统接收的源语言话语的音频数据。在该实例中,系统可以使用自动言语识别器来生成音频数据的转录,该自动言语识别器被配置为识别源语言。该域可以与接收话语的系统的类型相关,例如具有显示器的智能扬声器。其他域可以包括没有显示器的智能扬声器、车辆助理域、地图应用域、取决于位置(例如公园或饭店)的域、家庭助理域以及任何其他类似类型的域。
该系统生成话语的转录的目标语言的翻译后的转录(320)。该系统可以使用机器翻译来翻译后的转录。例如,系统可以使用机器翻译器,该机器翻译器被配置为将英语翻译为土耳其语。在一些实施方式中,系统可以接收并翻译由在不同域中操作的系统接收的转录。例如,系统可以翻译在地图应用域中接收的转录。该系统还可以翻译在其他域中接收的转录,该其他域可以包括多个域,诸如通用域或者可以包括或不包括地图应用域的其他域的组合。
系统接收针对目标语言的语言模型(330)。在一些实施方式中,目标语言模型是通用语言模型,通用语言模型可以不被偏向于任何特定的单词、短语和/或n元语法。例如,目标语言模型可以是通用的土耳其语语言模型。
通过增加语言模型选择翻译后的转录中所包括的词项的可能性,该系统偏置针对目标语言的语言模型(340)。该系统标识在翻译后的转录中出现的单词、短语和/或n元语法。该系统偏置目标语言模型,使得在用户的言语听起来与其他单词、短语和/或n元语法类似的实例中,偏置后的语言模型可能更有可能生成包括在翻译后的转录中出现的单词、短语和/或n元语法的转录。
在一些实施方式中,系统可以将来自特定域的翻译后的转录与来自其他域的翻译后的转录进行比较。该系统可以标识在来自特定域的翻译后的转录中更常见的那些单词、短语和/或n元语法。该系统可以偏置语言模型,以更有可能生成包括这些单词、短语和/或n元语法的转录。通过使用来自其他域的附加翻译,可以允许系统从翻译过程中去除噪声。因为翻译过程可能是机器翻译过程,所以翻译过程可能具有一些不准确性。这些不准确性可能会出现在来自特定域的翻译后的转录中,就像出现在来自其他域的翻译后的转录中一样。通过比较两组翻译后的转录,系统可能能够抵消单词,该单词可能无法反映准确翻译,并且系统偏置语言模型以更有可能生成转录,该转录包括来自特定域的翻译后的转录的单词、短语和/或n元语法,而没有来自翻译噪声的任何单词、短语和/或n元语法。翻译来自其他域的转录也可以帮助系统标识可能与特定域紧密相关的单词、短语和/或n元语法,而不是通常可能是常见单词的单词、短语和/或n元语法。
在一些实施方式中,基于单词、短语和/或n元语法在翻译后的转录中出现的频率,系统可以偏置语言模型。例如,如果与关于英语单词“jazz”的土耳其语单词“caz”相比,与英语单词“weather”相关的土耳其语单词“hava”在翻译后的转录中出现得更频繁,那么该系统可能会使语言模型更偏向于“hava”而不是“caz”。在一些实施方式中,该系统可以针对在翻译后的转录中出现的单词、短语和/或n元语法相等地偏置语言模型。
在一些实施方式中,系统可以访问目标语言的语法集合,在特定域中操作的设备可以使用该语法集合来解析候选转录。该系统可以将语法中所包括的n元语法与翻译后的转录中的n元语法进行比较。基于n元语法在翻译后的转录中出现的频率,该n元语法是在语法中出现的或者是可以由语法解析的,该系统可以对语法进行加权。通过在生成转录时偏置语言模型以在语法和翻译后的转录中更有可能选择n元语法,该系统可以使用加权语法来适配语言模型。
在一些实施方式中,当系统或另一系统在系统针对其适配语言模型的域中操作时,该系统或另一系统可以在自动言语识别过程期间使用所适配的语言模型。该系统或其他系统可以使用声学模型,该声学模型被训练以标识针对目标语言和针对所适配的语言模型的音素。如果该系统或其他系统访问了语法集合,那么该系统可以使用这些语法来解析候选转录。
图4示出了可以被用于实施此处描述的技术的计算设备400和移动计算设备450的示例。计算设备400旨在表示各种形式的数字计算机,诸如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片式服务器、大型计算机和其他适当的计算机。移动计算设备450旨在表示各种形式的移动设备,诸如个人数字助理、蜂窝电话、智能电话和其他类似的计算设备。此处示出的组件、其连接和关系及其功能仅仅旨在作为示例,并且不旨在限制。
计算设备400包括处理器402、存储器404、存储设备406、连接至存储器404和多个高速扩展端口410的高速接口408,以及连接至低速扩展端口414和存储设备406的低速接口412。处理器402、存储器404、存储设备406、高速接口408、高速扩展端口410和低速接口412中的每一个使用各种总线来互连,并且可以被安装在常见主板上或以其他方式适当地安装。处理器402可以处理指令以用于在计算设备400内执行,包括存储在存储器404中或者存储设备406上的指令,以在外部输入/输出设备(诸如耦合到高速接口408的显示器416)上显示针对GUI的图形信息。在其他实施方式中,多个处理器和/或多个总线以及多个存储器和存储器类型可以被适当地使用。而且,多个计算设备可以被连接,其中每个设备都提供部分必要操作(例如作为服务器阵列、一组刀片式服务器或者多处理器系统)。
存储器404将信息存储在计算设备400内。在一些实施方式中,存储器404是一个或多个易失性存储器单元。在一些实施方式中,存储器404是一个或多个非易失性存储器单元。存储器404还可以是另一形式的计算机可读介质,诸如磁盘或光盘。
存储设备406能够为计算设备400提供海量存储装置。在一些实施方式中,存储设备406可以是或者包含计算机可读介质,诸如软盘设备、硬盘设备、光盘设备或磁带设备、闪存或其他类似的固态存储器设备或者设备的阵列(包括存储区域网络中的设备或者其他配置)。指令可以被存储在信息载体中。在由一个或多个处理设备(例如处理器402)执行时,指令执行一种或多种方法,诸如上述方法。指令还可以由诸如计算机或机器可读介质等一个或多个存储设备(例如存储器404、存储设备406或处理器402上的存储器)存储。
高速接口408管理针对计算设备400的带宽密集型操作,而低速接口412管理较低的带宽密集型操作。这种功能分配仅是示例。在一些实施方式中,高速接口408被耦合到存储器404、显示器416(例如通过图形处理器或者加速器)和高速扩展端口410,该高速扩展端口410可以接受各种扩展卡(未示出)。在实施方式中,低速接口412被耦合到存储设备406和低速扩展端口414。可以包括各种通信端口(例如USB、蓝牙、以太网、无线以太网)的低速扩展端口414可以例如通过网络适配器被耦合到一个或多个输入/输出设备,诸如键盘、指向设备、扫描仪或联网设备(诸如交换机或者路由器)。
如附图所示,计算设备400可以利用多种不同形式来实施。例如,它可以被实施为标准服务器420,或者多次实施在一组这样的服务器中。另外,它可以被实施在个人计算机(诸如膝上型计算机422)中。它还可以被实施为机架式服务器系统424的一部分。备选地,来自计算设备400的组件可以与移动设备(未示出)(诸如移动计算设备450)中的其他组件组合。每个这种设备都可以包含计算设备400和移动计算设备450中的一个或多个,并且整个系统可以由彼此通信的多个计算设备组成。
移动计算设备450包括处理器452、存储器464、输入/输出设备(诸如显示器454)、通信接口466和收发器468等其他组件。移动计算设备450还可以被提供有存储设备,诸如微型硬盘或者其他设备,以提供额外存储装置。处理器452、存储器464、显示器454、通信接口466和收发器468中的每一个都使用各种总线来互连,并且多个组件可以被安装在常见主板上或者以其他方式适当地安装。
处理器452可以执行移动计算设备450内的指令,包括存储在存储器464中的指令。处理器452可以被实施为芯片的芯片组,其包括单独和多个模拟和数字处理器。例如,处理器452可以提供对移动计算设备450的其他组件的协调,诸如对用户界面的控制、由移动计算设备450运行的应用和由移动计算设备450进行的无线通信。
处理器452可以通过耦合到显示器454的控制接口458和显示接口456来与用户通信。显示器454可以是例如TFT(薄膜晶体管液晶显示屏)显示器或者OLED(有机发光二极管)显示器或者其他适当的显示技术。显示接口456可以包括适当的电路系统,以用于驱动显示器454向用户呈现图形和其他信息。控制接口458可以接收来自用户的命令,并且转换它们以用于提交给处理器452。另外,外部接口462可以提供与处理器452的通信,以使移动计算设备450能够与其他设备进行附近区域通信。在一些实施方式中,外部接口462可以提供例如有线通信,或者在其他实施方式中可以提供无线通信,并且多个接口也可以被使用。
存储器464将信息存储在移动计算设备450内。存储器464可以被实施为一个或多个计算机可读介质、一个或多个易失性存储器单元或者一个或多个非易失性存储器单元中的一个或多个。扩展存储器474也可以被提供,并且通过扩展接口472被连接到移动计算设备450,该扩展接口472可以包括例如SIMM(单线存储器模块)卡接口。扩展存储器474可以为移动计算设备450提供额外的存储空间,或者还可以存储针对移动计算设备450的应用或其他信息。具体地,扩展存储器474可以包括用于执行或者补充上述过程的指令,并且还可以包括安全信息。因此,例如扩展存储器474可以被提供为针对移动计算设备450的安全性模块,并且可以用允许安全使用移动计算设备450的指令来编程。另外,安全的应用可以经由SIMM卡与附加信息(诸如将标识信息以不可侵入的方式放置在SIMM卡上)一起提供。
存储器可以包括例如闪存和/或NVRAM存储器(非易失性随机存取存储器),如下面所讨论的。在一些实施方式中,指令被存储在信息载体中。在由一个或多个处理设备(例如处理器452)执行时,指令执行一种或多种方法,诸如上述方法。指令还可以由一个或多个存储设备存储,诸如一个或多个计算机或机器可读介质(例如存储器464、扩展存储器474或处理器452上的存储器)。在一些实施方式中,指令可以例如通过收发器468或外部接口462在传播信号中接收。
移动计算设备450可以通过通信接口466无线通信,若需要,该通信接口466可以包括数字信号处理电路系统。通信接口466可以提供各种模式或协议下的通信,诸如GSM语音呼叫(全球移动通信系统)、SMS(短消息服务)、EMS(增强消息收发服务)或MMS消息收发(多媒体消息收发服务)、CDMA(码分多址)、TDMA(时分多址)、PDC(个人数字蜂窝)、WCDMA(宽带码分多址)、CDMA2000或GPRS(通用分组无线电服务)等。例如,这种通信可以使用射频通过收发器468进行。另外,短程通信可以诸如使用蓝牙、WiFi或其他此类收发器(未示出)进行。另外,GPS(全球定位系统)接收器模块470可以将附加的导航和位置相关无线数据提供给移动计算设备450,该移动计算设备450可以通过在移动计算设备450上运行的应用来适当地使用。
移动计算设备450还可以使用音频编解码器460可听地通信,该音频编解码器460可以接收来自用户的口头信息,并且将其转换为可用的数字信息。音频编解码器460同样地可以为用户生成可听声音,诸如通过例如在移动计算设备450的听筒中的扬声器。这种声音可以包括来自语音电话呼叫的声音,可以包括记录的声音(例如语音消息、音乐文件等),并且还可以包括由在移动计算设备450上操作的应用生成的声音。
如附图所示,移动计算设备450可以利用多种不同形式来实施。例如,它可以被实施为蜂窝电话480。它还可以被实施为智能电话482、个人数字助理或者其他类似的移动设备的一部分。
此处描述的系统和技术的各种实施方式可以被实现在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合中。这些各种实施方式可以包括在可编程系统上可执行和/或可解释的一个或多个计算机程序中的实施方式,该可编程系统包括可以是专用或者通用的至少一个可编程处理器,被耦合以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令,并且将数据和指令发送给存储系统、至少一个输入设备和至少一个输出设备。
这些计算机程序(也称为程序、软件、软件应用或者代码)包括针对可编程处理器的机器指令,并且可以利用高级程序和/或面向对象的编程语言和/或汇编/机器语言来实施。如本文使用的,术语机器可读介质和计算机可读介质指的是任何计算机程序产品、装置和/或设备(例如磁盘、光盘、存储器、可编程逻辑设备(PLD)),其被用于将机器指令和/或数据提供给可编程处理器,包括接收机器指令作为机器可读信号的机器可读介质。术语机器可读信号指的是任何信号,其被用于将机器指令和/或数据提供给可编程处理器。
为了提供与用户的交互,此处描述的系统和技术可以被实施在计算机上,该计算机具有:用于向用户显示信息的显示设备(例如CRT(阴极射线管)或者LCD(液晶显示器)监测器);以及键盘和指向设备(例如鼠标或者轨迹球),用户可以通过该键盘和该指向设备来将输入提供给计算机。其他种类的设备还可以被用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如视觉反馈、听觉反馈或者触觉反馈);并且来自用户的输入可以用任何形式(包括声学输入、言语输入或者触觉输入)来接收。
此处描述的系统和技术可以被实施在计算系统中,该计算系统包括后端组件(例如作为数据服务器),或者包括中间件组件(例如应用服务器),或者包括前端组件(例如具有图形用户界面或者Web浏览器的客户端计算机,用户可以通过该图形用户界面或者该Web浏览器来与此处描述的系统和技术的实施方式交互),或者包括这种后端组件、中间件组件或者前端组件的任何组合。系统的组件可以通过任何形式或者介质的数字数据通信(例如通信网络)来互连。通信网络的示例包括局域网(LAN)、广域网(WAN)和互联网。
计算系统可以包括客户端和服务器。客户端和服务器通常远离彼此,并且通常通过通信网络进行交互。客户端和服务器的关系借助于在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生。
尽管一些实施方式已经在上面详细描述,但是其他修改是可能的。例如,尽管客户端应用被描述为访问(多个)委托,但是在其他实施方式中,(多个)委托可以由其他应用采用,该其他应用由一个或多个处理器实施,诸如在一个或多个服务器上执行的应用。另外,在附图中描绘的逻辑流程不需要所示的特定顺序或者相继顺序,以实现期望的结果。另外,其他动作可以被提供,或者动作可以从所描述的流程中消除,并且其他组件可以被添加到所描述的系统或者从所描述的系统中去除。因此,其他实施方式在以下权利要求的范围内。
权利要求如前所述。
Claims (20)
1.一种计算机实施的方法,包括:
由计算设备接收话语的转录,所述话语由在域中操作的计算设备接收并且是源语言的;
由所述计算设备生成所述话语的所述转录的目标语言的翻译后的转录;
由所述计算设备接收针对所述目标语言的语言模型;
由所述计算设备通过增加所述语言模型选择所述翻译后的转录中所包括的词项的可能性,偏置针对所述目标语言的所述语言模型;以及
由所述计算设备在所述域中操作时,使用偏置后的语言模型来生成所述目标语言的话语的转录。
2.根据权利要求1所述的方法,其中,使用偏置后的语言模型来生成所述目标语言的话语的转录包括:
当所述计算设备在所述域中操作时,由所述计算设备接收所述话语的音频数据;
由所述计算设备提供所述音频数据作为声学模型的输入,所述声学模型被配置为标识所述话语的音素;
基于所述计算设备在所述域中操作,由所述计算设备提供所述话语的所述音素作为偏置后的语言模型的输入;以及
基于提供所述话语的所述音素作为偏置后的语言模型的所述输入,由所述计算设备生成所述话语的转录。
3.根据权利要求1所述的方法,其中:
针对所述目标语言的所述语言模型是通用语言模型,以及
针对所述目标语言的偏置后的语言是特定于在所述域中操作的计算设备的语言模型。
4.根据权利要求1所述的方法,包括:
由所述计算设备标识在所述翻译后的转录中出现的n元语法以及每个n元语法的出现频率;以及
由所述计算设备标识在所述翻译后的转录中出现的大于阈值出现频率的所述n元语法的子集,
其中,所述计算设备通过增加所述语言模型选择所述n元语法的子集的所述可能性来偏置所述语言模型。
5.根据权利要求4所述的方法,其中,增加所述语言模型选择所述n元语法的子集的所述可能性包括:
针对所述n元语法的子集中的每个n元语法,基于所述n元语法的所述出现频率和所述阈值出现频率之间的较大差异来将所述可能性增加更大的量。
6.根据权利要求1所述的方法,包括:
由所述计算设备接收所述话语的音频数据,所述话语由在所述域中操作的所述计算设备接收并且是所述源语言的,
其中,接收所述话语的所述转录,所述话语由在所述域中操作的所述计算设备接收并且是所述源语言的,包括:
由所述计算设备生成所述话语的所述转录,所述话语由在域中操作的计算设备接收并且是源语言的。
7.根据权利要求1所述的方法,包括:
由所述计算设备接收附加话语的附加转录,所述附加话语由在除了所述域之外的域中操作的计算设备接收并且是所述源语言的;
由所述计算设备生成所述附加转录的附加翻译后的转录;
标识与在所述附加翻译后的转录中相比在所述翻译后的转录中具有更高出现频率的词项,
其中,通过增加所述语言模型选择所述翻译后的转录中所包括的词项的所述可能性,偏置针对所述目标语言的所述语言模型,包括:
通过增加所述语言模型选择与在所述附加翻译后的转录中相比在所述翻译后的转录中具有更高的出现频率的词项的所述可能性来偏置针对所述目标语言的所述语言模型。
8.根据权利要求1所述的方法,包括:
由所述计算设备接收所述目标语言的语法,
其中,通过增加所述语言模型选择所述翻译后的转录中所包括的词项的所述可能性,偏置针对所述目标语言的所述语言模型,包括:
通过增加所述语言模型选择包括所述翻译后的转录中所包括的所述词项的语法的所述可能性,偏置针对所述目标语言的所述语言模型。
9.一种系统,包括:
一个或多个计算机;以及
一个或多个存储设备,所述一个或多个存储设备存储指令,所述指令在由所述一个或多个计算机执行时可操作以使所述一个或多个计算机执行操作,包括:
由计算设备接收话语的转录,所述话语由在域中操作的计算设备接收并且是源语言的;
由所述计算设备生成所述话语的所述转录的目标语言的翻译后的转录;
由所述计算设备接收针对所述目标语言的语言模型;
由所述计算设备通过增加所述语言模型选择所述翻译后的转录中所包括的词项的可能性,偏置针对所述目标语言的所述语言模型;以及
由所述计算设备在所述域中操作时,使用偏置后的语言模型来生成所述目标语言的话语的转录。
10.根据权利要求9所述的系统,其中,使用偏置后的语言模型来生成所述目标语言的话语的转录包括:
当所述计算设备在所述域中操作时,由所述计算设备接收所述话语的音频数据;
由所述计算设备提供所述音频数据作为声学模型的输入,所述声学模型被配置为标识所述话语的音素;
基于所述计算设备在所述域中操作,由所述计算设备提供所述话语的所述音素作为偏置后的语言模型的输入;以及
基于提供所述话语的所述音素作为所述偏置后的语言模型的所述输入,由所述计算设备生成所述话语的转录。
11.根据权利要求9所述的系统,其中:
针对所述目标语言的所述语言模型是通用语言模型,以及
针对所述目标语言的偏置后的语言是特定于在所述域中操作的计算设备的语言模型。
12.根据权利要求9所述的系统,其中,所述操作包括:
由所述计算设备标识在所述翻译后的转录中出现的n元语法以及每个n元语法的出现频率;以及
由所述计算设备标识在所述翻译后的转录中出现的大于阈值出现频率的所述n元语法的子集,
其中,所述计算设备通过增加所述语言模型选择所述n元语法的子集的所述可能性来偏置所述语言模型。
13.根据权利要求12所述的系统,其中,增加所述语言模型选择所述n元语法的子集的所述可能性包括:
针对所述n元语法的子集中的每个n元语法,基于所述n元语法的所述出现频率和所述阈值出现频率之间的较大差异来将所述可能性增加更大的量。
14.根据权利要求9所述的系统,其中,所述操作包括:
由所述计算设备接收所述话语的音频数据,所述话语由在所述域中操作的所述计算设备接收并且是所述源语言的,
其中,接收所述话语的所述转录,所述话语由在所述域中操作的所述计算设备接收并且是所述源语言的,包括:
由所述计算设备生成所述话语的所述转录,所述话语由在域中操作的计算设备接收并且是源语言的。
15.根据权利要求9所述的系统,其中,所述操作包括:
由所述计算设备接收附加话语的附加转录,所述附加话语由在除了所述域之外的域中操作的计算设备接收并且是所述源语言的;
由所述计算设备生成所述附加转录的附加翻译后的转录;
标识与在所述附加翻译后的转录中相比在所述翻译后的转录中具有更高出现频率的词项,
其中,通过增加所述语言模型选择所述翻译后的转录中所包括的词项的所述可能性,偏置针对所述目标语言的所述语言模型,包括:
通过增加所述语言模型选择与在所述附加翻译后的转录中相比在所述翻译后的转录中具有更高的出现频率的词项的所述可能性来偏置针对所述目标语言的所述语言模型。
16.根据权利要求9所述的系统,其中,所述操作包括:
由所述计算设备接收所述目标语言的语法,
其中,通过增加所述语言模型选择所述翻译后的转录中所包括的词项的所述可能性,偏置针对所述目标语言的所述语言模型,包括:
通过增加所述语言模型选择包括所述翻译后的转录中所包括的所述词项的语法的所述可能性,偏置针对所述目标语言的所述语言模型。
17.一种存储软件的非暂时性计算机可读介质,所述软件包括由一个或多个计算机可执行的指令,所述指令在如此执行时使所述一个或多个计算机执行操作,包括:
由计算设备接收话语的转录,所述话语由在域中操作的计算设备接收并且是源语言的;
由所述计算设备生成所述话语的所述转录的目标语言的翻译后的转录;
由所述计算设备接收针对所述目标语言的语言模型;
由所述计算设备通过增加所述语言模型选择所述翻译后的转录中所包括的词项的可能性,偏置针对所述目标语言的所述语言模型;以及
由所述计算设备在所述域中操作时,使用偏置后的语言模型来生成所述目标语言的话语的转录。
18.根据权利要求17所述的介质,其中,使用偏置后的语言模型来生成所述目标语言的话语的转录包括:
当所述计算设备在所述域中操作时,由所述计算设备接收所述话语的音频数据;
由所述计算设备提供所述音频数据作为声学模型的输入,所述声学模型被配置为标识所述话语的音素;
基于所述计算设备在所述域中操作,由所述计算设备提供所述话语的所述音素作为偏置后的语言模型的输入;以及
基于提供所述话语的所述音素作为偏置后的语言模型的所述输入,由所述计算设备生成所述话语的转录。
19.根据权利要求17所述的介质,其中,所述操作包括:
由所述计算设备标识在所述翻译后的转录中出现的n元语法以及每个n元语法的出现频率;以及
由所述计算设备标识在所述翻译后的转录中出现的大于阈值出现频率的所述n元语法的子集,
其中,所述计算设备通过增加所述语言模型选择所述n元语法的子集的所述可能性来偏置所述语言模型。
20.根据权利要求17所述的介质,其中,所述操作包括:
由所述计算设备接收所述话语的音频数据,所述话语由在所述域中操作的所述计算设备接收并且是所述源语言的,
其中,接收所述话语的所述转录,所述话语由在所述域中操作的所述计算设备接收并且是所述源语言的,包括:
由所述计算设备生成所述话语的所述转录,所述话语由在域中操作的计算设备接收并且是源语言的。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862773361P | 2018-11-30 | 2018-11-30 | |
US62/773,361 | 2018-11-30 | ||
PCT/US2019/063272 WO2020112789A1 (en) | 2018-11-30 | 2019-11-26 | Speech processing |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113168830A true CN113168830A (zh) | 2021-07-23 |
Family
ID=68919792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980078166.6A Pending CN113168830A (zh) | 2018-11-30 | 2019-11-26 | 言语处理 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11138968B2 (zh) |
EP (1) | EP3867901A1 (zh) |
JP (2) | JP7077487B2 (zh) |
KR (1) | KR20210083331A (zh) |
CN (1) | CN113168830A (zh) |
WO (1) | WO2020112789A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3867901A1 (en) * | 2018-11-30 | 2021-08-25 | Google LLC | Speech processing |
US11074908B2 (en) * | 2019-03-29 | 2021-07-27 | Nuance Communications, Inc. | System and method for aligning ASR model weights with NLU concepts |
US11341340B2 (en) * | 2019-10-01 | 2022-05-24 | Google Llc | Neural machine translation adaptation |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1102719A (zh) * | 1993-11-06 | 1995-05-17 | 亨利·C·尤恩 | 键控语言翻译机 |
JP3920812B2 (ja) * | 2003-05-27 | 2007-05-30 | 株式会社東芝 | コミュニケーション支援装置、支援方法、及び支援プログラム |
WO2006059451A1 (ja) * | 2004-11-30 | 2006-06-08 | Matsushita Electric Industrial Co., Ltd. | 音声認識装置 |
US8898052B2 (en) * | 2006-05-22 | 2014-11-25 | Facebook, Inc. | Systems and methods for training statistical speech translation systems from speech utilizing a universal speech recognizer |
WO2009129315A1 (en) * | 2008-04-15 | 2009-10-22 | Mobile Technologies, Llc | System and methods for maintaining speech-to-speech translation in the field |
US9043209B2 (en) * | 2008-11-28 | 2015-05-26 | Nec Corporation | Language model creation device |
US8527270B2 (en) * | 2010-07-30 | 2013-09-03 | Sri International | Method and apparatus for conducting an interactive dialogue |
US9576570B2 (en) * | 2010-07-30 | 2017-02-21 | Sri International | Method and apparatus for adding new vocabulary to interactive translation and dialogue systems |
US8798984B2 (en) * | 2011-04-27 | 2014-08-05 | Xerox Corporation | Method and system for confidence-weighted learning of factored discriminative language models |
US9043205B2 (en) * | 2012-06-21 | 2015-05-26 | Google Inc. | Dynamic language model |
WO2016008128A1 (en) | 2014-07-17 | 2016-01-21 | Microsoft Technology Licensing, Llc | Speech recognition using foreign word grammar |
US9704483B2 (en) * | 2015-07-28 | 2017-07-11 | Google Inc. | Collaborative language model biasing |
JP6568429B2 (ja) * | 2015-08-27 | 2019-08-28 | 日本放送協会 | 発音系列拡張装置およびそのプログラム |
US9978367B2 (en) * | 2016-03-16 | 2018-05-22 | Google Llc | Determining dialog states for language models |
US10347245B2 (en) | 2016-12-23 | 2019-07-09 | Soundhound, Inc. | Natural language grammar enablement by speech characterization |
US11087098B2 (en) * | 2018-09-18 | 2021-08-10 | Sap Se | Computer systems for classifying multilingual text |
EP3867901A1 (en) * | 2018-11-30 | 2021-08-25 | Google LLC | Speech processing |
-
2019
- 2019-11-26 EP EP19821483.5A patent/EP3867901A1/en active Pending
- 2019-11-26 US US16/696,111 patent/US11138968B2/en active Active
- 2019-11-26 JP JP2021530940A patent/JP7077487B2/ja active Active
- 2019-11-26 WO PCT/US2019/063272 patent/WO2020112789A1/en unknown
- 2019-11-26 CN CN201980078166.6A patent/CN113168830A/zh active Pending
- 2019-11-26 KR KR1020217016466A patent/KR20210083331A/ko unknown
-
2021
- 2021-09-09 US US17/447,282 patent/US20210398519A1/en active Pending
-
2022
- 2022-05-18 JP JP2022081300A patent/JP2022110098A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US11138968B2 (en) | 2021-10-05 |
US20210398519A1 (en) | 2021-12-23 |
US20200175963A1 (en) | 2020-06-04 |
JP7077487B2 (ja) | 2022-05-30 |
WO2020112789A1 (en) | 2020-06-04 |
EP3867901A1 (en) | 2021-08-25 |
KR20210083331A (ko) | 2021-07-06 |
JP2022510280A (ja) | 2022-01-26 |
JP2022110098A (ja) | 2022-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3469585B1 (en) | Scalable dynamic class language modeling | |
KR102201937B1 (ko) | 후속 음성 쿼리 예측 | |
CN107045871B (zh) | 利用外部数据源重新识别语音 | |
KR20220021037A (ko) | 발언 분류기 | |
US10650810B2 (en) | Determining phonetic relationships | |
US11138968B2 (en) | Speech processing | |
US9570074B2 (en) | Behavior adjustment using speech recognition system | |
US10229114B2 (en) | Contextual language translation | |
US9135912B1 (en) | Updating phonetic dictionaries | |
US9240178B1 (en) | Text-to-speech processing using pre-stored results | |
AU2019431467B2 (en) | Detecting continuing conversations with computing devices | |
US11430434B1 (en) | Intelligent privacy protection mediation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |