CN112673421A - 训练和/或使用语言选择模型以自动确定用于口头话语的话音辨识的语言 - Google Patents
训练和/或使用语言选择模型以自动确定用于口头话语的话音辨识的语言 Download PDFInfo
- Publication number
- CN112673421A CN112673421A CN201980026087.0A CN201980026087A CN112673421A CN 112673421 A CN112673421 A CN 112673421A CN 201980026087 A CN201980026087 A CN 201980026087A CN 112673421 A CN112673421 A CN 112673421A
- Authority
- CN
- China
- Prior art keywords
- language
- current
- audio data
- spoken
- tuple
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 115
- 230000004044 response Effects 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims description 112
- 238000000034 method Methods 0.000 claims description 67
- 230000015654 memory Effects 0.000 claims description 6
- 238000009877 rendering Methods 0.000 claims description 5
- 230000000977 initiatory effect Effects 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000001902 propagating effect Effects 0.000 claims 1
- 230000000116 mitigating effect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000009795 derivation Methods 0.000 description 7
- 239000000463 material Substances 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 239000003795 chemical substances by application Substances 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000007257 malfunction Effects 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000026676 system process Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
用于训练和/或使用语音选择模型以在确定音频数据中捕获的口头话语的特定语言时使用。可以使用经训练的语言选择模型处理音频数据的特征以生成N种不同语言中的每一种语言的预测概率,并且基于所生成的概率选择特定语言。可以响应于选择了口头话语的特定语言而采用针对该特定语言的话音辨识结果。许多实施方式涉及利用元组损失代替传统的交叉熵损失来训练语言选择模型。利用元组损失训练语言选择模型可以导致更加有效的训练和/或可以导致更加准确和/或鲁棒的模型——由此缓解了针对口头话语的错误语言选择。
Description
背景技术
人类可以参与与交互式软件应用的人机对话,该交互式软件应用在本文被称作“自动化助理”(也被称作“数字代理”、“聊天机器人”、“交互式个人助理”、“智能个人助理”、“助理应用”、“对话代理”等)。例如,人类(当他们与自动化助理交互式可以被称作“用户”)可以使用口头自然语言输入(即,话语)和/或通过提供文本(例如,键入的)自然语言输入向自动化助理提供命令和/或请求,该口头自然语言输入在一些情况下可以被转换为文本并且然后被处理。自动化助理通过提供响应性用户接口输出而对请求作出响应,该响应性用户接口输出可以包括可听和/或视觉用户接口输出。
如上文所提到的,自动化助理可以将对应于用户的口头话语的音频数据转换为相对应的文本(或其它语义表示)。例如,音频数据可以基于经由客户端设备的一个或多个麦克风对用户的口头话语的检测而生成,该客户端设备包括用于使得用户能够与自动化助理交互的助理接口。自动化助理可以包括话音辨识引擎,该话音辨识引擎利用话音辨识模型来辨识在音频数据中所捕获的口头话语的各种特性,诸如该口头话语所产生的声音(例如,音素)、所产生的声音的顺序、话音的节奏、声调等。另外,话音辨识引擎可以识别这样的特性所表示的文本单词或短语。该文本然后可以由自动化助理在确定口头话语的响应内容时进一步处理(例如,使用自然语言理解(NLU)引擎和/或对话状态引擎)。话音辨识引擎可以由客户端设备和/或远离客户端设备但是与客户端设备网络通信的一个或多个自动化助理组件来实施。
然而,许多话音辨识引擎被配置为仅辨识单一语言的话音。对于多语言用户和/或家庭来说,这样的单一语言话音辨识引擎可能无法令人满意,并且在以并非话音辨识引擎所支持的单一语言的附加语言接收到口头话语时可能导致自动化助理故障和/或提供错误的输出。这可以致使自动化助理不可用和/或引起计算和/或网络资源的过度使用。计算和/或网络资源的过度使用可能是由于用户在自动化助理故障或提供错误输出时需要提供以所支持的单一语言的另外的口头话语。这样的另外的口头话语必须由相对应的客户端设备和/或远程自动化助理组件附加处理,由此导致各种资源的附加使用。
其它的话音辨识引擎可以被配置为辨识多种语言的话音,但是要求用户明确指定在给定时间应当在话音辨识中利用多种语言中的哪一种。例如,其它话音辨识引擎中的一些话音辨识引擎可能要求用户手动地指定在特定客户端设备处接收到的所有口头话语的话音辨识中要利用的默认语言。为了将该默认语言改变为另一种语言,可以要求用户与图形和/或可听接口进行交互以明确地更改默认语言。这样的交互可能引起接口的渲染、对用户经由接口所提供的输入的处理等中的计算和/或网络资源的过度使用。另外,可能经常出现用户在提供当前不是默认语言的口头话语之前忘记改变默认语言的情形。如上文所描述的,这可能致使自动化助理不可用和/或引起计算和/或网络资源的过度使用。
发明内容
本文所描述的实施方式涉及用于训练和/或使用语言选择模型(其是神经网络模型或其它机器学习模型)以自动确定在音频数据中捕获的口头话语的特定语言。可以使用经训练的语言选择模型处理该音频数据的特征以生成N种不同语言中的每一种语言的预测概率,并且基于所生成的概率选择的特定语言。可以响应于选择了特定语言而利用针对该特定语言的话音辨识结果。许多实施方式涉及利用元组损失代替传统的交叉熵损失来训练语言选择模型。利用元组损失训练语言选择模型可以导致更加有效的训练,由此导致在训练期间利用更少的资源(例如,在训练期间处理训练示例时所利用的处理器和/或存储器资源)。附加地或可替选地,利用元组损失训练语言选择模型可以导致更加准确和/或鲁棒的模型——由此缓解了针对口头话语的错误语言选择。
如本文所使用的,多个话音辨识模型可以被访问而用于话音辨识,并且话音辨识模型中的每种话音辨识模型可以被配置用于N种所支持话音辨识语言中的相对应语言。例如,第一话音辨识模型可以被配置用于在基于处理包括英语口头话语的音频数据来生成英语文本时使用,第二话音辨识模型可以被配置用于在基于处理包括法语口头话语的音频数据来生成法语文本时使用,第三可话音辨识模型以被配置用于在基于处理包括西班牙语口头话语的音频数据来生成西班牙语文本时使用。如上文所描述的,口头话语的特定语言可以至少部分地基于使用经训练的语言选择模型对捕获该口头话语的至少一部分的音频数据的处理而被选择。另外,针对特定语言的话音辨识结果可以响应于选择该特定语言而被利用。例如,可以仅利用符合特定语言的话音辨识模型来执行话音辨识,或者可以利用多个话音辨识模型,以及使用模型中的基于其符合特定语言而被利用的特定一种模型所生成的话音辨识结果来执行话音辨识。
本文所公开的各种实施方式采用了大多数多语言用户仅说来自所支持的话音辨识语言的集合N的有限数量的语言这一观察。那些实施方式可以针对捕获口头话语的音频数据识别两种或更多种的候选语言M,并且基于仅比较所生成的该M种候选语言的概率来选择该口头话语的特定语言。换句话说,虽然利用经训练的语言选择模型来处理音频数据的至少一部分并且生成N种单独语言的概率,但是特定语言的选择可以基于作为N种所支持的话音辨识语言的子集的M种语言的概率。如本文更详细描述的,在考虑到以上观察的情况下,还利用在训练语言选择模型时所利用的元组损失。进一步地,利用元组损失代替仅交叉熵损失训练的语言选择模型可以导致N种所支持的话音辨识语言的概率的生成,而所述概率的生成在仅考虑那些语言中的M种时更可能引起正确的语言的选择。
在其中针对给定音频数据仅考虑M种语言的实施方式中,该M种语言可以基于例如该M种语言在随音频数据的传输中被提供的指示(例如,该M种语言由客户端随该音频数据一起传输的指示),基于该M种语言关联于与该音频数据相关联的用户简档或其它标识符而被存储,和/或基于该M种语言关联于生成该音频数据的客户端设备而被存储。用于用户简档和/或设备的语言例如可以由用户手动地指定和/或基于用户对语言的过往使用(例如,跨一个或多个平台)、语言在客户端设备上过往使用等被自动指定。
在一些实施方式中,语言选择模型可以是判别式N类分类器、长短期记忆(LSTM)网络,或者其它神经网络模型。可以使用诸如支撑向量机(SVM)模型的其它类型的模型。在其中采用SVM模型的一些实施方式中,元组损失可以与线性内核一起被应用,因为线性内核是用原始形式的梯度下降算法被求解的。进一步地,使用监督或无监督学习以及利用本文所描述的元组损失对语言选择模型进行训练。出于简明的原因,关于监督学习描述了训练本文所描述的语言选择模型的许多实施方式。
作为基于元组损失训练语言选择模型的一个特定示例,可以针对所支持的话音辨识语言N的集合中的每一种语言生成训练示例。每一个训练示例可以包括:对应于给定训练口头话语的音频数据的一个或多个特征的训练示例输入;和针对全体可能语言的集合N中的每一种语言的标记概率量度的训练示例输出。例如,针对每一个训练示例,可能存在针对所支持的话音辨识语言N的集合中的特定语言的正概率量度(例如,“1”和/或正概率量度的其它指示),以及针对来自全体可能语言的集合N的其它每种语言的负概率量度(例如,“0”和/或负概率量度的其它指示)。可以基于训练示例来训练语言选择模型,其中,元组损失是基于训练示例生成的,并且元组损失被用于更新语言选择模型的权重(例如,通过反向传播)。
每一个元组损失可以被生成为一个或多个个体元组损失的函数,该一个或多个个体元组损失各自针对小于N(语言选择模型所预测的概率的数量)的相对应元组大小。例如,给定训练模型的元组损失可以至少部分地基于成对损失而生成,其中成对损失是针对大小2的元组的,并且是基于将N个概率中的所有对的预测概率(其中预测概率是通过使用语言选择模型处理给定训练示例的训练示例输入生成的)与如训练示例输出所指示的所有对的标记概率量度的标记概率相比较生成的。
在一些实施方式中,成对损失(L(y,z))可以由以下等式1所表示:
其中zk是(N种语言中的)第k种语言的预测非归一化概率,其中Es表示集合s的期望。子集可以是包括具有n个元素的正确标记y的所有元组集,其中1<n≤N,其中子集中的元组的数量可以对应于M种语言。如从以上描述所理解的,不同于交叉熵损失,成对损失不使得正确标记的概率最大化,而使得所有其它标记的概率相等地最小化。相反,利用成对损失,使得所有其它(不正确)标记的概率的最小化是不相等。同样,这在考虑到大多数多语言用户可能仅说来自所支持话音辨识语言的集合N的有限数量的语言这一观察——以及考虑到在利用成对损失(以及可选地其它的个体元组损失)对模型训练之后在推导时间仅考虑语言的子集的语言选择情形中可能是有利的。
虽然上文描述了成对损失,但是在各种实施方式中,元组损失进一步是附加的个体元组损失的函数。例如,针对给定训练示例的元组损失可以至少部分地基于三个一组(tri-wise)的损失(针对元组大小为3),至少部分基于四个一组(four-wise)的损失(针对元组大小4)等进一步生成。在一些实施方式中,以上等式1中的成对损失可以被一般化表示为以下的等式2以用于确定从n个标记的子集产生标记的损失:
其中是Sy中大小为n的所有元组。因此,中存在元组的种组合。例如,如果N=50种不同的口头语言并且针对成对损失n=2,则语言选择模型可以针对中的元组的组合中的每一种组合或者针对1176个元组确定个体元组损失。作为另一个示例,如果N=50种不同的口头语言并且针对三个一组的损失n=3,则语言选择模型可以针对中的元组的组合中的每一种组合或者针对18424个元组确定个体元组损失。
基于紧接在前的等式2,总元组损失L(y,z)可以基于每种语言的预测概率而被确定为所有1<n≤N的不同大小的所有个体元组损失的加权和。在一些实施方式中,所有个体元组损失的加权和可以由以下的等式3所定义:
其中pn是大小为n的元组的概率并且Ln(y,z)是与pn相关联的损失。大小为n的元组的概率pn可以对应于与大小为n的语言的量相关联的多语言用户、设备和/或请求的百分比。例如,如果90%的多语言用户仅指明了两种预定义语言,则p2可以为0.9。作为另一个示例,如果7%的用户指明了三种预定义语言,则p3可以为0.07。因此,pn有效地使得总元组损失朝向更可能发生的元组大小的个体元组损失偏移(例如,最大程度地偏向成对损失,随后是三个一组的损失等)。如上文所理解的,在一些实施方式中,除了大小小于N的元组的个体元组损失之外,元组损失还部分基于大小为N的元组的个体元组损失。这可以被视为其中n等于N的个体元组损失的特殊情况,并且等同于交叉熵损失。然而,在那些实施方式的许多实施方式中,交叉熵损失的权重pN可以基于例如极少用户实际上将所有所支持的语言N都指定为口头话语的候选语言而为最小。因此,虽然总元组损失可以是交叉熵损失的函数,但是其也是小于N的元组的个体元组损失的函数——并且这种小于N的元组的元组损失可以显著地比交叉熵损失更重的共同加权。
提供以上描述作为本公开一些实施方式的概述。在下文更详细地描述那些实施方式以及其它实施方式的进一步描述。
在一些实施方式中,阐述了一种由一个或多个处理器实现的方法,并且该方法包括生成多个训练示例。生成训练示例中的每一个训练示例基于捕获相对应的人类话语的相对应音频数据,以及指示相对应人类话语的相对应的口头语言的相对应的标记。相对应的口头语言是所要辨识的N种不同语言中的一种语言,其中N是大于10的整数。进一步地,每一个训练示例包括相对应训练示例输入以及相对应的训练示例输出,该相对应的训练示例输入包括相对应音频数据的相对应特征,该相对应的训练示例输出包括针对所要辨识的N种不同语言的中的每一种语言的相对应标记概率量度。该相对应标记概率量度基于相对应标记,包括对应于相对应口头语言的相对应正概率量度标记,以及针对所有其它相对应标记概率量度的相对应负概率量度标记。该方法进一步包括基于训练示例训练语言选择模型。训练语言选择模型包括使用语言选择模型处理训练示例的相对应训练示例输入的相对应特征以生成N种不同语言中的每一种语言的相应预测概率,基于所生成的相对应预测概率和相对应标记概率量度来生成相应元组损失,以及使用所生成的相对应元组损失来更新语言选择模型的权重。
在一些实施方式中,基于所生成的预测概率和相对应标记概率量度生成相对应元组损失包括针对训练示例中的给定训练示例生成元组损失中的给定元组损失。在一些实施方式中,生成给定元组损失进一步包括基于给定训练示例的相对应标记概率量度与给定训练示例的相对应预测概率的比较来确定各自针对与小于N的相对应元组大小的一个或多个个体元组损失。一个或多个个体元组损失至少包括针对相对应元组大小为2的成对损失。在一些实施方式中,生成给定元组损失进一步包括基于一个或多个个体元组损失生成给定元组损失。
在一些实施方式中,生成给定元组包括仅使用成对损失作为给定元组损失。在其它实施方式中,一个或多个个体元组损失进一步至少包括针对相对应元组大小为3的三个一组的损失,以及针对相对应元组大小为4的四个一组的损失。在一些其它实施方式中,生成给定元组损失基于至少成对损失、三个一组的损失、四个一组的损失的加权组合。在一些其它实施方式中,成对损失在加权组合中的权重基于所测量的概率,该所测量的概率指示仅指明用于话音处理的两种候选语言的用户的百分比。
在一些实施方式中,使用所生成的相对应元组损失更新语言选择模型的权重包括跨语言选择模型反向传播元组损失。
在一些实施方式中,继训练该语言选择模型之后,该方法可以进一步包括经由计算设备的至少一个麦克风接收捕获来自用户的当前口头话语的音频数据,提取当前口头话语的一个或多个特征,使用语言选择模型处理当前口头话语的一个或多个特征以生成N种不同语言中的每一种语言的当前预测概率,基于当前预测概率选择N种不用语言中的当前口头语言,基于所选择的当前口头语言执行音频数据的话音至文本处理。在那些实施方式的一些实施方式中,该方法可以进一步包括从多个候选话音辨识模型中选择与所选择的当前口头语言相对应的特定话音辨识模型,并且使用所选择的话音辨识模型处理音频数据的特征以确定与当前口头话语相对应的一个或多个单词。在那些实施方式的一些实施方式中,该方法可以进一步包括生成响应于该一个或多个单词的内容,并且提供该内容以便由该计算设备所渲染。
在一些实施方式中,该方法可以进一步包括继训练语言选择模型之后,经由计算设备的至少一个麦克风接收捕获来自用户的当前口头话语的当前音频数据。在一些实施方式中,该方法可以进一步包括基于第一候选口头语言和第二候选口头语言被指定为在计算设备处被利用和/或被该计算设备的用户所利用的语言,来识别该N种不同语言中的至少第一候选口头语言和第二候选口头语言。在一些实施方式中,该方法可以进一步包括基于识别第一候选口头语言和第二候选口头语言,使用针对第一候选口头语言的第一话音辨识模型发起音频数据的第一话音至文本处理,并且使用针对第二候选口头语言的第二话音辨识模型发起音频数据的第二话音至文本处理。在一些实施方式中,该方法可以进一步包括提取当前音频数据的一个或多个特征。在一些实施方式中,该方法可以进一步包括与第一话音至文本处理和第二话音至文本处理同时地,使用经训练的语言选择模型处理音频数据的一个或多个特征以生成N种不同语言中的每一种语言的当前预测概率,以及基于当前预测概率确定当前口头话语是第一候选口头语言。在一些实施方式中,该方法可以进一步包括基于确定当前口头话语是第一候选口头语言,在生成响应于当前口头话语的内容时使用在第一话音至文本处理期间所生成的输出。
在那些实施方式的一些实施方式中,基于当前预测概率确定当前口头话语是第一候选口头语言在第一话音至文本处理和第二话音至文本处理完成之前发生,并且进一步包括响应于确定当前口头话语是第一候选口头语言,在第二话音至文本处理完成之前停止该第二话音至文本处理,同时使得第一话音至文本处理得完成。
在那些实施方式的一些那些实施方式中,确定当前口头话语是第一候选口头语言进一步基于在第一话音至文本处理期间所生成的输出的第一置信度测度,该输出的第一置信度测度在该第一话音至文本处理期间生成。在那些实施方式的一些中,确定当前口头话语是第一候选口头语言进一步基于在第二话音至文本处理期间所生成的第二输出的第二置信度测度,该第二输出的第二置信度测度在第二话音至文本处理期间生成。
在一些实施方式中,该方法可以进一步包括继训练该语言选择模型之后经由计算设备的至少一个麦克风接收捕获当前口头话语的当前音频数据,确定该当前口头话语来自于计算设备的多个候选用户中的特定用户,基于N种不同语言的子集被指定为由该特定用户所利用的语言而识别该子集,以及提取当前音频数据的一个或多个特征。在一些实施方式中,该方法进一步包括继训练语言选择模型之后使用经训练的语言选择模型处理当前音频数据的一个或多个特征以生成N种不同语言中的每一种语言的当前预测概率,并且基于该当前预测概率从子集中选择当前口头语言,其中选择是响应于基于子集被指定为由特定用户所利用的语言来识别该子集而从该子集进行的。
提供以上描述是作为本公开的一些实施方式的概述。以下更详细地描述那些实施方式以及其它实施方式的进一步描述。
在一些实施方式中,阐述了一种由一个或多个处理器实现的方法,并且该方法包括经由计算设备的至少一个麦克风接收捕获来自用户的当前口头话语的当前音频数据,提取捕获当前口头话语的当前音频数据的一个或多个特征,使用使用元组损失训练的语言选择模型来处理当前口头话语的一个或多个特征以生成N种不同语言中的每一种语言的当前预测概率,基于当前预测概率选择N种不用语言中的当前口头语言,以及基于所选择的当前口头语言执行音频数据的话音至文本处理。
其它实施方式可以包括存储指令的非暂时性计算机可读存储介质,该指令能够由一个或多个处理器(例如,中央处理单元(CPU)、图形处理单元(GPU)和/或张量处理器(TPU))执行以执行诸如在上文和/或在本文其它地方所描述的一种或多种方法的方法。再其它的实施方式可以包括一个或多个计算机的系统,该一个或多个计算机包括一个或多个处理器,该一个或多个处理器可操作以执行所存储的指令以执行诸如在上文和/或在本文其它地方所描述的方法中的一种或多种方法。
应当理解的是,以上概念以及在本文更详细描述的附加概念的所有组合都被认为本文所公开主题的一部分。例如,出现在本公开的结尾处的所请求保护的主题的所有组合都被认为本文所公开主题的一部分。
附图说明
图1示出了根据本文所公开的各种实施方式的利用经训练的语言选择模型来选择自动化助理与用户交互的语言的示例系统。
图2示出了语言选择模型的一个示例,利用元组损失训练该语言选择模型的示例,以及一旦经过训练利用该语言选择模型的示例。
图3是示出根据本文所公开的实施方式的用于训练语言选择模型的示例方法的流程图。
图4是示出根据本文所公开的实施方式的用于使用经训练的语言选择模型来选择话音辨识语言的示例方法的流程图。
图5是示出根据本文所公开的实施方式的用于使用经训练的语言选择模型来选择话音辨识语言的另一种示例方法的流程图。
图6是根据本文所公开的实施方式的示例计算机系统的框图。
具体实施方式
图1示出了根据本文所公开的各种实施方式的利用经训练的语言选择模型150来选择自动化助理104与用户130交互的语言的示例系统。自动化助理104可以部分经由在诸如客户端计算设备118(例如,便携式计算设备132)的一个或多个客户端设备处提供的自动化助理126并且部分经由诸如服务器设备102(例如,其可以形成经常被称为“云基础设施”或简称为“云”)的一个或多个远程计算设备112进行操作。当在本文使用“自动化助理104”时,其可以是指104和126中的一个或二者。用户130可以经由客户端计算设备118的助理接口128与自动化助理104进行交互。助理接口128包括用户接口输入设备和用户接口输出设备以由自动化助理126在与用户130交互时使用。
助理接口128接受用户130的指向自动化助理104的用户接口输入,并且渲染来自自动化助理104的响应于该用户接口输入的内容以向用户140呈现。助理接口128可以包括麦克风、扬声器、显示面板、相机、触摸屏显示器中的一个或多个,和/或客户端计算设备118的任何其它用户接口设备。助理接口128还可以包括显示器、投影仪、扬声器,和/或可以被用来渲染来自自动化助理104的内容的客户端计算设备118的任何其它(多个)用户接口输出设备。用户可以通过向助理接口128提供言语、文本或图形输入来初始化自动化助理104以使自动化助理104执行功能(例如,提供数据、控制外围设备、访问代理等)。在一些实施方式中,客户端计算设备118可以包括显示设备,该显示设备可以是包括触摸接口的显示面板,该触摸接口用于接收触摸输入和/或手势以允许用户经由该触摸接口控制客户端计算设备的应用。在一些实施方式中,客户端计算设备118可能缺少显示设备,由此提供可听的用户接口输出,而并不提供图形用户界面输出。此外,客户端计算设备118可以提供用户接口输入设备,诸如麦克风,以用于接收来自用户130(以及来自附加的未示出的用户)的口头自然语言输入。
客户端计算设备118可以通过诸如互联网的一个或多个网络114与远程计算设备112进行通信。客户端计算设备118可以将计算任务卸载至远程计算设备112,以便例如节省客户端设备118处的计算资源和/或采用远程计算设备112处可用的更加鲁棒的资源。例如,远程计算设备112可以托管自动化助理104,并且客户端计算设备118可以将在一个或多个助理接口接收到的输入传输至远程计算设备112。然而,在一些实施方式中,自动化助理104可以由客户端计算设备118处的自动化助理126托管。在各种实施方式中,自动化助理104的全部或少于全部的方面可以由客户端计算设备118处的自动化助理126来实现。在那些实施方式的一些实施方式中,自动化助理104的方面经由客户端计算设备118处的本地自动化助理126实现并且与实现自动化助理104的其它方面的远程计算设备112对接。
远程计算设备112可选地可以经由用户简档为多个用户以及它们的相关联助理应用服务。在一些实施方式中,服务器设备102可以存储服务器用户简档120。在一些其它实施方式中,客户端计算设备118可以存储客户端用户简档122。在自动化助理104的全部或少于全部的方面经由客户端计算设备118的本地自动化助理126实现的实施方式中,本地自动化助理126可以是与客户端设备118的操作系统分离的应用(例如,安装在操作系统的“顶端”)——或者可以可替选地,可以直接由客户端设备118的操作系统实现(例如,被认为是操作系统的应用但是与操作系统整合)。
在一些实施方式中,服务器设备102可以包括语言选择模型150和/或客户端计算设备118可以包括语言选择模型160。语言选择模型150和语言选择模型160可以是相同的模型,或者语言选择模型160可选地可以被优化用于在更加资源受限的客户端计算设备118上的使用的变体。而且,在各种实施方式中,语言选择模型150可以在服务器设备102上实现而无需在客户端计算设备118上实现语言选择模型160,或者语言选择模型160可以在客户端计算设备118上实现而无需在服务器设备102上实现语言选择模型150。
如本文所描述的,自动化助理104可以在选择对应于所接收的口头人类话语的特定语言时利用语言选择模型150和/或自动化助理126可以在选择对应于所接收的口头人类话语的特定语言时利用语言选择模型160。例如,自动化助理104可以使用语言选择模型150处理所接收的音频数据的至少一部分以生成N种所支持的话音辨识语言中的每一种话音辨识语言的概率。进一步地,自动化助理104可以利用所生成的概率来选择那N种所支持语言中的一种语言作为音频数据所捕获的口头话语的特定语言。例如,自动化助理104可以将第一和第二语言识别为口头话语的候选语言,并且至少部分基于(来自N个概率的)第一语言的第一概率与(来自N个概率的)第二语言的第二概率的比较来选择第一语言或第二语言。注意到,在各种实施方式中,自动化助理104和/或自动化助理126也可以在选择特定语言时依赖于一个或多个附加信号,诸如本文所描述的其它信号。
在一些实施方式中,利用所选择的特定语言来仅选择话音辨识模型136中的相应的一个话音辨识模型以执行音频数据的话音至文本(STT)处理。在一些实施方式中,STT处理可能已经由多个话音辨识模型136与使用语言选择模型150的处理并行地处执行了。例如,可以在使用语言选择模型150执行处理的同时针对M种候选语言中的每一种候选语言初始化STT处理。但是,在那些实施方式的一些实施方式中,所选择的特定语言用来选择仅由话音辨识模型136中的相应的一个话音辨识模型所生成的输出,以及可选地停止使用不对应于所选择的特定语言的话音辨识模型136的处理。以下关于图2和3更详细地描述用于训练语言选择模型150的示例方法。
在一些实施方式中,远程计算设备112可以包括话音辨识引擎134,该话音辨识引擎134可以处理在助理接口128处所接收的音频数据以确定该音频数据中所体现的口头话语的文本和/或其它语义表示。话音辨识引擎134可以在确定音频数据中所体现的口头话语的文本和/或其它语义表示时可以采用一个或多个话音辨识模型136。如本文所描述的,可以提供多个话音辨识模型136,并且每一个话音辨识模型可以针对相对应的语言。例如,第一话音辨识模型可以针对英语,第二话音辨识模型可以针对法语,第三话音辨识模型针对西班牙语,第四话音辨识模型针对汉语,第五话音辨识模型针对日语等。
在一些实施方式中,话音辨识模型136各自包括用于确定对应于音频数据中所体现的口头话语的文本(或其它语义表示)的一个或多个机器学习模型和/或统计模型。在一些实施方式中,话音辨识引擎134可以利用话音辨识模型136中的一个话音辨识模型136确定音频数据中所包括的针对相对应语言的音素,并且然后基于所确定的音素生成针对该相对应语言的文本。在一些实施方式中,话音辨识模型接收例如数字音频数据的形式的语音输入的音频录制,并且将该数字音频数据转换为一个或多个文本符号(例如,STT处理)。这样的功能所使用的一个或多个模型总体上对音频信号和语言中的音素单元之间的关系连同该语言中的单词序列一起进行建模。在一些实施方式中,话音辨识模型可以是声学模型、语言模型、发音模型等,以及对这样的模型中的一种或多种这样的模型的组合功能进行建模。在一些实施方式中,例如,话音辨识模型可以被实现为包括多条路径或通路的有限状态解码图。
进一步地,如本文所描述的,在确定多种话音辨识模型136中的哪些应当在处理音频数据以生成语义和/或文本表示时被加以利用时和/或在选择应当利用哪些语义和/或文本表示时可以利用附加的语言选择模型150。例如,在那些实施方式的一些实施方式中,语言选择模型150用来生成口头话语对应于N种不同语言中的每一种语言的预测概率,其中多个话音辨识模型136对应于该N种不同语言中的每一种语言。给定语言的预测概率中的每一个预测概率可以构成有关用户说什么语言的“猜测”或“预测”。
当用户130与客户端计算设备118处的自动化助理126通信时,用户130可以向客户端计算设备118的助理接口128提供口头自然语言输入。该口头自然语言输入可以被转换为音频数据,该音频数据可以被客户端语言模型124所处理,该客户端语言模型124诸如用于识别音频数据是否体现了用于调用自动化助理126的调用短语的调用短语模型。在一些实施方式中,调用短语模型可以在客户端计算设备118处用来确定用户130是否想要调用自动化助理104。当用户向助理接口128提供了自然语言输入,并且该自然语言输入包括用于调用自动化助理104的调用短语时,客户端计算设备118可以使得服务器设备102处的自动化助理104接收该自然语言输入和/或来自用户130的后续自然语言输入。
例如,响应于确定用户130想要调用客户端计算设备118处的自动化助理104,可以在客户端计算设备118和服务器设备102之间建立一个或多个通信信道。其后,随着用户继续向助理接口128提供自然语言输入,该自然语言输入将被转换为然后通过网络114传输并且由服务器设备102处理的数据。该自然语言输入可以由服务器设备102使用语言选择模型150处理以生成该自然语言输入对应于N种不同语言中的每一种语言的预测概率。基于预测概率,一个或多个话音辨识模型136可以被选择作为针对每一个自然语言输入的适当模型。
在一些实施方式中,一个或多个话音辨识模型136中仅对应于特定口头语言的一个话音辨识模型136可以被选择用于自然语言输入的STT处理。在一些其它实施方式中,自然语言输入的STT处理可能已经由一个或多个话音辨识模型136中对应于特定口头语言以及N种不同语言中的至少一种附加语言的多个话音辨识模型136与使用语言选择模型150的处理并行地执行。例如,可以在使用语言选择模型150执行处理的同时针对M种候选语言中的每一种候选语言初始化STT处理。但是,在那些实施方式的一些实施方式中,所选择的特定语言用来选择仅由话音辨识模型136中的相对应的一个话音辨识模型136生成的输出,并且可选地基于排名停止使用不对应于所选择的特定语言的话音辨识模型136的处理。
图2示出了语言选择模型的一个示例(图2的示例中的LSTM模型250),利用元组损失训练该语言选择模型250的示例,以及一旦经过训练利用该语言选择模型250的示例。训练示例280可以存储在一个或多个数据库中,训练示例280中的每一个训练示例280对应于相对应口头语言的口头人类话语。进一步地,训练示例280中的每一个训练示例280可以被声学模型220处理以针对训练示例280中的每一个训练示例280提取音频数据260的一个或多个特征——被表示为特征序列x,以及标记概率量度236——被表示为标记y,其中y∈{1,…,N},并且其中N是全部可能语言的集合,这表明目标语言来自于全部可能语言的集合N。音频数据260的一个或多个特征可以用作针对语言选择模型的训练示例输入,该语言选择模型诸如图1中的语言选择模型150、160,其在图2中被表示为长短期存储器(LSTM)模型250(但是如本文所描述的,可以利用其它网络架构)。标记概率量度236指示针对对应于给定训练示例的语言的正概率量度,并且指示针对所有其它语言的负概率量度。
在一些实施方式中,在使用LSTM模型250处理音频数据260的一个或多个特征之前,该音频数据的一个或多个特征可以穿过级联层。该级联层可以允许在推导时间利用滑动窗口方法,这在本文更详细的描述(例如,参考图4-6)。通过使用级联层,LSTM模型250生成的输出可以更大,但是作为使用级联层的结果,训练明显更快且LSTM250更加鲁棒。例如,级联层可以级联音频数据的相邻分段使得输入数量减半。
在一些实施方式中,在LSTM模型250的每一个层之后,可以提供投影层以减少用于LSTM模型250的参数的大小。通过增加投影层并且减小用于LSTM模型250的参数的大小,LSTM模型250的训练以及使用LSTM模型250的推导可以明显加速训练和推导而并不损害性能。在一些实施方式中,在LSTM模型250之后,可以提供时间池化层(temporal poolinglayer)以将LSTM模型250的最后输出映射至全部可能语言的集合N中的每一种语言的线性投影。通过增加池化层,经训练的神经网络以最小延时来执行且并不要求任何上下文或填充。
继续参考图2,在一些实施方式中,z可以是语言选择模型的最后一层的N维输出,并且z=f(x;w)可以表示特征序列x在N种不同语言上的非归一化分布,其中w可以表示语言选择模型的参数。在一些实施方式中,zk可以是N种不同语言中的第k种语言的预测非归一化概率。语言选择模型可以被训练以针对全部可能语言的集合N中的每一种语言输出概率,并且可以从来自全部可能语言的集合N的子集S选择语言。子集S可以利用本文所描述的技术来识别。例如,可以基于所接收的音频数据与用户简档相关联并且该用户简档将子集S指示为与该用户简档相关联的说话者所说的语言而针对所接收的音频数据选择子集S。
在一些实施方式中,由元组损失引擎240针对每一个训练示例生成元组损失包括将针对每一个训练示例的标记概率量度236与针对每一个训练示例的预测概率238相比较,并且确定关于n个元组的加权组合。标记概率量度236可以是指示一个或多个值的向量,该一个或多个值指示针对给定训练示例,全部口头语言的集合N中的哪一种口头语言应当通过音频数据206的一个或多个特征而被辨识向量。在一些实施方式中,标记概率量度236可以包括针对由给定训练示例的音频数据260的一个或多个特征捕获的口头语言的正概率量度(例如,值“1”),以及针对来自全部口头语言的集合N中的所有其它口头语言的负概率量度(例如,值“0”)。例如,假设在训练期间已经利用语言选择模型来生成针对给定训练示例的音频数据的预测概率238[0.7,0.3,0.0,…,0.0],并且训练示例具有标记概率量度236[1,0,0,…,0]。在这样的示例中,可以通过将预测概率238[0.7,0.3,0.0,…,0.0]的一个或多个大小为n的元组中的全部(例如,“0.7”和“0.3”,“0.7”和“0.0”,“0.3”和“0.0”等)与标记概率量度236[1,0,0,…,0]的一个或多个大小为n的元组中的全部(例如,“1”和“0”,“0”和“0”等)相比较来生成总元组损失。
在一些实施方式中,元组损失至少部分地基于成对损失,但是这并非意在作为限制。如本文(例如,关于发明内容)所阐述的成对损失可以由以下等式1所表示:
基于等式2,总损失L(y,z)可以基于每种语言的预测概率而被确定为所有1<n≤N的不同大小的所有元组损失的加权和。该所有元组损失的加权和由以下等式3中的元组损失函数所定义:
其中pn是大小为n的元组的概率并且Ln(y,z)是与pn相关联的损失。大小为n的元组的概率pn对应于在用户简档或附加用户简档中指定了预定义的n种语言的用户的百分比。例如,如果90%的用户指定了两种预定义语言,则p2可以为0.9。作为另一个示例,如果7%的用户指定了三种预定义语言,则p3可以为0.07。通过使用元组损失训练语言选择模型,该系统可以明显加速训练和推导而并不损害性能。
在推导时,预测概率238均可以与针对N种不同语言中的每一种语言的相对应话音辨识模型2321-232N相关联。使用LSTM模型250的系统可以被配置为通过处理特征序列x以确定与来自全部可能语言的集合N的当前口头语言的当前口头话语相对应的一个或多个单词而基于该预测概率在话音辨识模型2321-232N之间进行选择。例如,使用LSTM模型250的系统可以接收与英语的当前口头话语的音频数据相对应的特征序列x。基于用户简档,可以获知提供口头人类话语的用户能够说英语和西班牙语。基于特征序列x,该系统可以确定该口头人类话语为英语的预测概率为0.7,并且该口头人类话语为西班牙语的预测概率为0.3。
因此,使用LSTM模型250的系统可以基于与英语相关联的预测概率0.7大于与西班牙语相关联的预测概率0.3而选择与英语相关联的话音辨识模型,诸如第一辨识模型2321,而不是与西班牙语相关联的话音辨识模型,诸如第二辨识模型2322。如果用户能够说两种语言,则该两种语言具有成对关系(例如,英语和西班牙语、西班牙语和德语、德语和法语等之间的成对关系)。在一些实施方式中,一旦选择了话音辨识模型,就可以执行与特征序列x相关联的音频数据的STT处理以确定与口头人类话语相对应的一个或多个单词234。进一步地,该系统可以生成响应于该一个或多个单词的内容236来生成内容,并且将该内容提供至计算设备以渲染该内容。在一些实施方式中,如本文所描述的,音频数据的STT处理可以与使用LSTM模型250针对口头话语选择语言并行地执行,并且在生成响应性内容时利用对应于所选择的语言的STT输出。
作为另一个示例,在推导时,考虑第一预测概率分布[0.3,0.4,0.2,0.1]和第二预测概率分布[0.3,0.25,0.25,0.2],其中该第一预测概率对应于作为口头话语的“正确”语言的第一语言,并且其中每种预测概率分布中的预测概率中的每一个预测概率对应于N种不同语言中的每一种语言。进一步地,第一预测概率分布可以对应于与使用交叉熵损失函数训练的语言选择模型相关联的预测概率分布,并且第二预测概率分布可以对应于与由元组损失引擎240使用元组损失函数——诸如等式(3)的损失函数——所训练的语言选择模型相关联的预测概率分布。基于第一预测概率分布,如由概率0.4所证明的,使用交叉熵损失函数训练的语言选择模型可以提供指示口头人类话语对应于第二口头语言的概率。然而,第二语言的该选择不正确。基于第二预测概率分布,如由概率0.3所证明的,使用元组损失函数训练的语言选择模型可以提供指示口头人类话语对应于第一口头语言的概率。因此,通过在训练期间使用元组损失函数,语言选择模型可以在推导时提供更加准确的结果,这减少了用户所接收的输入的数量,节省了计算资源,并且为用户提供了整体上更好的体验。
图3是示出根据本文所公开的实施方式的用于训练语言选择模型的示例方法300的流程图。为了方便,该流程图的操作参考执行该操作的系统来描述。该系统可以包括各种计算机系统的各种组件,诸如图1中所描绘的一个或多个组件。此外,虽然方法300的操作是以特定顺序被示出,但是这并非意在作为限制。一个或多个操作可以被重新排序、被省略或者被添加。
在框352,该系统基于捕获相对应人类话语的相对应音频数据以及指示该相对应人类话语的相对应口头语言的相对应标记来生成多个训练示例。每一个训练示例的相对应口头语言是要由该系统辨识的N种不同语言中相对应的一种语言。例如,该系统可以基于英语语言的人类话语来生成训练示例。人类话语可以与音频数据以及指示人类话语为英语语言的标记相关联。进一步地,框352可以包括一个或多个子框。
在子框352A,该系统确定包括相对应音频数据的相对应特征的相对应训练示例输入。继续以上示例,该系统可以根据相对应音频数据确定音频数据的一个或多个特征,诸如梅尔频率倒谱系数(MFCC)、对数梅尔滤波器组(log-mel-filterbank)特征和/或其它特征。
在子框352B,该系统确定相对应的训练示例输出,该相对应的训练示例输出包括针对要辨识的N种不同语言中的每一种语言的相对应标记概率量度。进一步地,相对应标记概率量度可以包括与相对应训练示例输入的相对应口头语言相对应的相对应正概率量度标记,以及针对所有其它的相对应标记概率量度的相对应负概率量度标记。继续以上示例,该系统可以根据英语语言的人类话语而确定标记概率量度,该标记概率量度可以被表示为向量,使得值“1”对应于英语语言的正概率量度的以及值“0”对应于N种不同语言中的所有其它语言的负概率量度的。
在框354,该系统基于训练示例训练语言选择模型。继续以上示例,该系统可以接收训练示例,该训练示例包括捕获英语语言的人类话语的音频数据的特征的相对应训练示例输入,以及本文所描述的标记概率量度的相对应的训练示例输出(例如,关于图2)。进一步地,框354可以包括一个或多个子框。
在子框354A,该系统可以使用语言选择模型处理训练示例输入的相对应特征以生成口头语言中的每种口头语言的预测概率。继续以上示例,该系统可以处理英语的人类话语的特征,并且至少生成指示人类话语的特征很可能对应于英语语言的第一预测概率0.7,并且至少生成指示人类话语的特征不大可能——但是有可能——对应于西班牙语的第二预测概率0.2。同样可以生成其它语言的其它概率。
在子框354B,该系统基于所生成的预测概率以及相对应标记概率量度生成元组损失。本文中描述了生成元组损失的示例,并且如所描述的,该元组损失可选地可以是诸如成对损失、三个一组的损失等的各种个体元组损失的函数。
在子框354C,该系统使用所生成的元组损失更新语言选择模型的权重。继续以上示例,该系统可以通过跨语言选择模型反向传播元组损失来更新语言选择模型的权重。
在框356,该系统确定是否基于附加训练示例继续训练语言选择模型。如果该系统在框356确定基于附加训练示例继续训练神经网络,则该系统执行框354的另一次迭代(例如,框354A、354B和354C)。如果该系统在框356确定不基于附加训练示例继续训练语言选择模型,则该系统继续进行至框358并且结束训练。在一些实施方式中,该系统可以基于缺少附加训练示例而确定不继续训练语言选择模型。附加地或可替选地,该系统可以基于训练已经被执行了至少阈值时间量,训练已经被执行了至少阈值量的时期,确定语言选择模型的当前训练版本满足一个或多个标准和/或其它(多种)因素来确定不继续训练语言选择模型。
现在参考图4和6,描绘了根据本文所公开的实施方式的用于使用(例如,使用图3的方法300训练的)经训练的语言选择模型的方法。在图4和5的描述之前,提供使用经训练的语言选择模型的实施方式的简要概述。在推导时,识别候选语言的子集S∈{1,…,N},其中N是所支持的话音辨识语言的集合,并且其中子集S是该系统将从其中选择给定语言的子集。S在本文也被称作M。子集S可以利用诸如本文所描述的那些的技术针对给定口头话语被确定(例如,基于在与给定口头话语相关联的用户简档中被指定的子集)。给定语言的预测可以被表示为:进一步地,从用户所接收的口头话语的长度可能有所变化。该口头话语可以被截取为固定持续时间的分段,并且每一个分段的部分可能重叠并且作为输入被提供至经训练的语言选择模型。该经训练语言选择模型的最终输出或预测概率可以是分段的重叠部分的平均,并且在等式5中表示:
其中是xt是作为第t个滑动窗口的输入分段的输入,并且zt是来自经训练的语言选择模型的相对应响应。通过使用该滑动窗口方法,经训练的语言选择模型可以为长的口头话语提供更加鲁棒的系统。进一步地,该滑动窗口方法适用于本文所描述的若干感兴趣的用例(例如,关于图4和5)。这些用例是非限制性的并且出于示例性的目的在本文被公开。
图4是示出根据本文所公开的实施方式的用于使用经训练的语言选择模型来选择话音辨识语言的示例方法400的流程图。为了方便,该流程图的操作参考执行该操作的系统来描述。该系统可以包括各种计算机系统的各种组件,诸如图1中所描绘的一个或多个组件。此外,虽然方法400的操作是以特定顺序被示出,但是这并非意在作为限制。一个或多个操作可以被重新排序、被省略或者被添加。
在框452,该系统接收捕获来自用户的当前口头话语的音频数据。例如,该音频数据可以经由计算设备的麦克风被捕获,并且可以捕获来自用户的西班牙语语言的口头话语。
在框454,该系统提取当前口头话语的一个或多个特征。继续以上示例,该系统可以提取诸如梅尔频率倒谱系数(MFCC)、对数梅尔滤波器组(log-mel-filterbank)特征和/或其它特征的特征。进一步地,在框454,该系统可选地可以选择所提取特征的子集,其中所提取特征的子集包括高度指示与当前口头话语相对应的语言的特征。
在框456,该系统使用经训练的语言选择模型处理当前口头话语的一个或多个特征以生成N种不同语言中的每一种语言的预测概率。继续以上示例,该系统可以处理当前口头话语以生成当前口头话语对应于西班牙语语言的第一预测概率0.8,生成当前口头话语的特征对应于英语语言的第二预测概率0.1,以及生成其余N种不同语言中的每一种语言的相对应概率。
在框458,该系统基于在框456所生成的当前预测概率选择该N种不同语言中的当前口头语言。继续以上示例,与基于第二预测语言0.1选择英语语言或者基于选择任何其它语言的概率而选择它们相反,该系统可以基于指示当前口头语言对应于西班牙语的第一预测概率0.8来选择西班牙语语言。如本文所描述的,在各种实施方式中,该系统在框458基于与当前口头话语相关联的M种候选语言的预测概率来选择当前口头语言,其中M是N的子集。例如,M种候选语言的指示可以被包括在与音频数据一起被传输的数据中。基于这样的指示,可以基于仅针对M种候选语言所生成的概率来选择M种候选语言中的一种候选语言。在那些实施方式中,可以选择M种候选语言中最高概率的语言——即使存在针对作为N种语言中的一种语言但是不是M种语言中的一种语言的另一种语言的更高的概率。
在框460,该系统基于在框458所选择的当前口头语言来选择话音辨识模型来执行音频数据的话音至文本(STT)处理。继续以上示例,该系统选择与西班牙语语言相关联的话音辨识模型。
在框462,该系统确定使用所选择的话音辨识模型来执行STT处理,并且不使用任何未选择的话音辨识模型来执行STT处理。因此,关于未选择的话音辨识模型,该系统继续进行至框472,其中处理针对其它话音辨识模型而技术。
在框464,该系统使用所选择的话音辨识模型对音频数据执行STT处理以确定对应于当前口头话语的一个或多个单词。继续以上示例,该系统使用西班牙语语言的话音辨识模型执行STT处理以确定西班牙语语言的口头话语的一个或多个单词。
在框466,该系统生成响应于一个或多个单词的内容。继续以上示例,该系统生成响应于西班牙语语言的口头话语的内容。响应于口头话语的内容可以包括自然语言响应、搜索结果、通过与第三方代理交互所确定的内容、使得安装在计算设备或远程计算设备上的一个或多个应用启动的内容等。该系统可以在处理一个或多个单词以确定该一个或多个单词的意图以及可选地该意图的参数时利用自然语言理解(NLU)引擎和/或其它引擎,并且可以基于该意图和参数而生成响应内容。
在框468,该系统提供内容以由计算设备渲染。继续以上示例,该系统可以提供内容以经由计算设备向用户进行可听的和/或视觉的呈现。在附加地或可替选的实施方式中,在框464所生成的一个或多个单词可以在框466的变型处被确定为对应于控制智能设备的请求。在那些实施方式中,框468的变体可以包括将一个或多个命令直接提供至智能设备或者提供至控制该智能设备的第三方服务器,其中命令使得智能设备与请求一致地被控制。
在框470,该系统确定用户是否已经提供了附加话语。如果该系统在框470接收到附加话语,则该系统可以返回至框452。如果该系统在框470未接收到来自用户的附加话语,则该系统可以继续进行至框472并且该处理结束。
图5是示出根据本文所公开的实施方式的用于使用经训练的语言选择模型来选择话音辨识语言的另一种示例方法500的流程图。为了方便,流程图的操作参考执行该操作的系统来描述。该系统可以包括各种计算机系统的各种组件,诸如图1中所描绘的一个或多个组件。此外,虽然方法500的操作是以特定顺序被示出,但是这并非意在作为限制。一个或多个操作可以被重新排序、被省略或者被添加。
在框552,该系统接收捕获来自用户的当前口头话语的音频数据。例如,该音频数据可以经由计算设备的麦克风被捕获,并且可以捕获来自用户的西班牙语语言的口头话语。
在框554,该系统提取音频数据的一个或多个特征。继续以上示例,该系统可以提取诸如梅尔频率倒谱系数(MFCC)、对数梅尔滤波器组特征和/或其它特征的特征。
在框556,该系统选择对应于第一候选口头语言的第一话音辨识模型和对应于第二候选口头语言的至少第二话音辨识模型以执行音频数据的STT处理。该系统可以继续进行至框562A和562B以开始音频数据的STT处理的执行。继续以上示例,该系统可以选择与西班牙语语言相关联的第一话音辨识模型以用于音频数据的STT处理,并且选择与英语语言相关联的第二话音辨识模型以用于音频数据的STT和处理。进一步地,该系统可以使用西班牙语语言模型和英语语言模型来执行音频数据的STT处理。如本文所描述的,在各种实施方式中,该系统在框556基于第一和第二话音辨识模型针对与当前口头话语相关联的M种候选语言中的相应候选语言来选择第一和第二话音辨识模型,其中M是N的子集。例如,英语和西班牙语话音辨识模型可以基于那些是针对所接收音频数据的两种候选语言的指示而被选择并且用于STT处理。
在框558,该系统使用经训练的语言选择模型处理该音频数据的一个或多个特征以生成N种不同语言中的每一种语言的预测概率。继续以上示例,该系统可以处理当前口头话语来以生成当前口头话语对应于西班牙语语言的第一预测概率0.4,生成当前口头话语的特征对应于英语语言的第二预测概率0.1,以及生成其余N种不同语言中的每一种语言的相对应概率。如本文所描述的,在各种实施方式中,框558与框562A和框562B的执行的至少一部分并行地执行。换句话说,针对M种候选语言中的每一种候选语言的STT处理可以在生成概率以使得能够选择口头话语的语言的同时被初始化。来自对应于所选择的语言的STT处理的输出然后可以被利用,并且可选地,针对其它语言的STT处理可以在这样的处理在已经选择了口头话语的语言时尚未完成的情况下被停止。通过执行这样的并行处理,生成对应于口头话语的文本时的延时可以减少,并且作为结果,可以以减少的延时基于口头话语采取响应性动作。进一步地,在针对其它(未确定的)语言的STT处理被停止的实施方式中,可以防止在这样的处理中所采用的不必要的资源消耗。
在框560,该系统基于预测概率选择N种不同语言中的口头语言。继续以上示例,该系统可以基于第一预测概率0.4是M种候选语言的全部概率中的最高概率来选择西班牙语语言作为口头语言话语。
在框562A,该系统使用对应于第一候选口头语言的第一话音辨识模型执行音频数据的STT处理以确定对应于当前口头话语的一个或多个单词。继续以上示例,该系统使用西班牙语语言模型执行音频数据的STT处理以确定对应于当前口头话语的西班牙语语言的一个或多个单词。
在框562B,该系统使用对应于第二候选口头语言的至少第二话音辨识模型来执行音频数据的STT处理以确定对应于当前口头话语的一个或多个单词。继续以上示例,该系统使用英语语言模型来执行音频数据的STT处理以确定对应于当前口头话语的英语语言的一个或多个单词。
如上文所描述的,在各种实施方式中,框562A和562B的STT处理可以与框558和560的处理并行地执行。例如,在使用语言选择模型执行处理的同时,可以针对M种候选语言(例如,继续示例中的西班牙语语言和英语语言)中的每一种候选语言初始化STT处理。在框560选择的口头语言被用来选择由框562A和562B中的仅一个所生成的输出(即使用对应于所选择的口头语言的话音辨识模型所生成的输出)。进一步地,如果利用未选择语言的STT处理尚未结束,则该系统可选地可以在框560选择口头语言之后停止这样的处理。
继续之前的示例,该系统可以使用西班牙语语言模型和英语语言模型两者来执行音频数据的STT处理。在该系统执行此STT处理时,该系统可以使用语言选择模型来处理相对应的音频数据以生成N种不同语言中的每一种语言的概率。基于西班牙语语言的预测概率为0.4且英语语言的预测概率为0.2,该系统可以选择西班牙语语言并且使用用西班牙语辨识模型所生成的输出。该系统可选地可以在使用英语语言模型的STT处理在选择了西班牙语时尚未完成的情况下将该STT处理停止。在一些实施方式中,停止可选地可以仅在西班牙语语言的概率满足了阈值(例如,相对于英语语言概率的阈值)的情况下发生。例如,如果预测概率相对接近(例如,西班牙语语言的0.55和英语语言的0.45),则该系统可以完成使用西班牙语语言模型和英语语言模型二者的STT处理,并且使用来自STT处理的置信度量度和/或其它量度来确保所选择的西班牙语语言实际上是正确的语言。
在框564,该系统确定使用对应于所选择语言的模型的STT处理是否完成。如果该系统在框564确定该STT处理未完成,则该系统继续框562A和/或562B的STT处理。如果该系统在框564确定该STT处理完成,则该系统继续进行至框566。在框566,该系统生成响应于使用所选择语言的STT处理所生成的一个或多个单词的内容。继续以上示例,该系统生成响应于西班牙语语言的口头话语的内容。
在框568,该系统提供内容以由计算设备渲染。虽然关于利用两个模型(即,其中M=2)执行STT处理描述了方法500,但是注意到,在M=3时可以针对三个相对应模型中的每一个相对应模型并行地执行STT处理,在M=4时可以针对四个相对应模型中的每一个相对应模型并行地执行STT处理等。
图6是根据示例计算机系统610的框图。计算机系统610通常包括至少一个处理器614,该至少一个处理器经由总线子系统612与多个外围设备进行通信。这些外围设备可以包括例如包括存储器625和文件存储子系统626的存储子系统724、用户接口输出设备620、用户接口输入设备622和网络接口子系统616。输入和输出设备允许用户与计算机系统610的交互。网络接口子系统616提供到外部网络的接口并且耦合至其它计算机系统中的相对应接口设备。
用户接口输入设备622可以包括键盘、诸如鼠标、轨迹球、触摸板或图形板的指向设备、扫描仪、整合到显示器中的触摸屏、诸如语音辨识系统、麦克风的音频输入设备,和/或其它类型的输入设备。通常,术语“输入设备”的使用意在包括用于向计算机系统610中或通信网络上输入信息的所有可能类型的设备和方式。
用户接口输出设备620可以包括显示子系统、打印机、传真机,或者诸如音频输出设备的非视觉显示器。显示子系统可以包括阴极射线管(CRT)、诸如液晶显示器(LCD)的平板设备、投影设备,或者用于创建可视图像的一些其它机制。显示子系统还可以诸如经由音频输出设备提供非视觉显示器。通常,术语“输出设备”的使用旨在包括用于从计算机系统610向用户或者向另一个机器或计算机系统输出信息的所有可能类型的设备和方式。
存储子系统624存储提供本文所描述的一些或全部模块的功能的编程和数据构造。例如,存储子系统624可以包括用于执行方法300、400和500的所选择的方面和/或用于实现服务器设备102、客户端计算设备118、便携式计算设备132和/或本文所讨论的任何其它设备或操作的逻辑。
这些软件模块通常由处理器614单独地或者结合其它处理器来执行。存储子系统624中使用的存储器625可以包括多个存储器,该多个存储器包括用于程序执行期间的指令和数据的存储的主随机访问存储器(RAM)630以及其中存储固定指令的只读存储器(ROM)632。文件存储子系统626可以为程序和数据文件提供永久存储,并且可以包括硬盘驱动器、软盘驱动器、连同相关联的可移除介质一起、CD-ROM驱动器、光驱或可移除介质卡盒。实现某些实施方式的功能的模块可以由文件存储子系统626存储在存储子系统624或者能够由处理器614所访问的其它机器中。
总线子系统612提供用于使得计算机系统610的各个组件和子系统如所期望的互相通信的机制。虽然总线子系统612被示意性地示为单总线,但是总线子系统的可替选实施方式可以使用多个总线。
计算机系统610可以是变化的类型,包括工作站、服务器、计算集群、刀片服务器、服务器场,或者任何其它的数据处理系统或计算设备。由于计算机和网络的不断变换的本质,图6中所描绘的计算机系统610的描述仅意在作为出于说明一些实施方式的目的的具体的示例。具有与图6中所描绘的计算机系统相比更多或更少组件的计算机系统610的许多其它配置是可能的。
在本文所描述的系统收集有关用户(或者如本文经常所提到的“参与者”)的个人信息或者可以利用个人信息的情况下,用户可以被提供控制程序或特征是否收集用户信息(例如,有关用户的社交网络、社交动作或活动、职业、用户的偏好或用户的当前地理位置的信息),或者控制是否和/或如何从内容服务器接收可能与用户更为相关的内容的机会。而且,某些数据可以先于其被存储或使用而以一种或多种方式被处理,使得个人可识别信息被移除。例如,用户的身份可以被处理使得不能确定用户的个人可识别信息,或者可以在获得位置信息的情况下对用户的地理位置进行一般化处理(诸如一般化为城市、邮政编码或州级),使得用户的特定位置不能被确定。因此,用户可以控制如何收集和/或使用有关该用户的信息。
虽然本文已经描述和示出了若干实施方式,但是可以利用用于执行本文所描述的功能和/或获得本文所描述的结果和/或一个或多个优势的各种其它手段和/或结构,并且这样的变体和/或修改均被认为在本文所描述的实施方式的范围之内。更一般地,本文所描述的所有参数、尺寸、材料和配置都意在是示例性的,并且实际的参数、尺寸、材料和/或配置将取决于使用本教导的一个或多个具体应用。本领域技术人员仅使用常规实验就将认识到或者能够确认本文所描述的具体实施方式的许多等同物。因此,要理解的是,前述实施方式仅通过示例给出,并且在所附权利要求及其等同物的范围内,可以以与具体描述和要求保护的方式不同的方式实施。本公开的实施方式涉及本文所描述的每一个个体特征、系统、物品、材料、装备和/或方法。此外,如果这样的特征、系统、物品、材料、装备和/或方法不互相矛盾,则两个或更多个这样的特征、系统、物品、材料、装备和/或方法的任意组合被包括于本公开的范围之内。
Claims (17)
1.一种由一个或多个处理器实现的方法,所述方法包括:
生成多个训练示例,其中,生成所述训练示例中的每一个训练示例基于捕获相对应人类话语的相对应音频数据以及指示所述相对应人类话语的相对应口头语言的相对应标记,所述相对应口头语言是要辨识的N种不同语言中的一种语言,其中,N是大于10的整数,并且其中,训练示例中的每一个训练示例包括:
相对应的训练示例输入,所述相对应的训练示例输入包括:所述相对应音频数据的相对应特征;和
相对应的训练示例输出,所述相对应的训练示例输出包括:针对要辨识的所述N种不同语言的中的每一种语言的相对应标记概率量度,其中,所述相对应标记概率量度基于相对应标记包括对应于所述相对应口头语言的相对应正概率量度标记,以及针对所述相对应标记概率量度的所有其它相对应标记概率量度的相对应负概率量度标记;以及
基于所述训练示例训练语言选择模型,训练所述语言选择模型包括:
使用所述语言选择模型处理所述训练示例的所述相对应的训练示例输入的所述相对应特征,以生成所述N种不同语言中的每一种语言的相对应预测概率,
基于所生成的相对应预测概率和相对应标记概率量度来生成相对应元组损失,以及
使用所生成的相对应元组损失更新所述语言选择模型的权重。
2.根据权利要求1所述的方法,其中,基于所生成的预测概率和所述相对应标记概率量度来生成所述相对应元组损失包括:
生成针对所述训练示例中的给定训练示例的所述元组损失中的给定元组损失,其中,生成所述给定元组损失包括:
基于所述给定训练示例的相对应标记概率量度与所述给定训练示例的相对应预测概率的比较,来确定各自针对小于N的相对应元组大小的一个或多个个体元组损失,其中,所述一个或多个个体元组损失至少包括针对相对应元组大小为2的成对损失;并且
基于所述一个或多个个体元组损失生成所述给定元组损失。
3.根据权利要求2所述的方法,其中,生成所述给定元组包括仅使用所述成对损失作为所述给定元组损失。
4.根据权利要求2所述的方法,其中,所述一个或多个个体元组损失进一步至少包括针对相对应元组大小为3的三个一组的损失,以及针对相对应元组大小为4的四个一组的损失。
5.根据权利要求4所述的方法,其中,生成所述给定元组损失基于至少所述成对损失、所述三个一组的损失以及所述四个一组的损失的加权组合。
6.根据权利要求5所述的方法,其中,所述成对损失在所述加权组合中的权重基于所测量的概率,所测量的概率指示仅指明用于话音处理的两种候选语言的用户的百分比。
7.根据权利要求1所述的方法,其中,使用所生成的相对应元组损失更新所述语言选择模型的所述权重包括:
跨所述语言选择模型反向传播所述元组损失。
8.根据权利要求1所述的方法,进一步包括继训练所述语言选择模型之后:
经由计算设备的至少一个麦克风接收捕获来自用户的当前口头话语的当前音频数据;
提取所述当前音频数据的一个或多个特征;
使用所述语言选择模型处理所述当前音频数据的所述一个或多个特征,以生成所述N种不同语言中的每一种语言的当前预测概率;
基于所述当前预测概率选择所述N种不用语言中的当前口头语言;以及
基于所选择的当前口头语言执行所述音频数据的话音至文本处理。
9.根据权利要求8所述的方法,其中,基于所选择的当前口头语言执行所述当前音频数据的话音至文本处理包括:
从多个候选话音辨识模型中选择与所选择的当前口头语言相对应的特定话音辨识模型;以及
使用所选择的话音辨识模型处理所述当前音频数据的所述特征以确定与所述当前口头话语相对应的一个或多个单词。
10.根据权利要求9所述的方法,进一步包括:
生成响应于所述一个或多个单词的内容;以及
提供所述内容以由所述计算设备渲染。
11.根据权利要求1所述的方法,进一步包括继训练所述语言选择模型之后:
经由计算设备的至少一个麦克风接收捕获来自用户的当前口头话语的当前音频数据;
基于第一候选口头语言和第二候选口头语言被指定为在所述计算设备处被利用和/或被所述计算设备的用户利用的语言,来识别所述N种不同语言中的至少所述第一候选口头语言和所述第二候选口头语言;
基于识别所述第一候选口头语言和所述第二候选口头语言:
使用针对所述第一候选口头语言的第一话音辨识模型发起所述音频数据的第一话音至文本处理,以及
使用针对所述第二候选口头语言的第二话音辨识模型发起所述音频数据的第二话音至文本处理;
提取所述当前音频数据的一个或多个特征;
与所述第一话音至文本处理和所述第二话音至文本处理同时地:
使用经训练的语言选择模型处理所述音频数据的所述一个或多个特征以生成所述N种不同语言中的每一种语言的当前预测概率,以及
基于所述当前预测概率确定所述当前口头话语是所述第一候选口头语言;
基于确定所述当前口头话语是所述第一候选口头语言:
在生成响应于所述当前口头话语的内容时使用在所述第一话音至文本处理期间所生成的输出。
12.根据权利要求11所述的方法,其中,基于所述当前预测概率确定所述当前口头话语是所述第一候选口头语言在所述第一话音至文本处理和所述第二话音至文本处理完成之前发生,并且进一步包括:
响应于确定所述当前口头话语是所述第一候选口头语言:
在所述第二话音至文本处理完成之前停止所述话音至文本处理,同时使得所述第一话音至文本处理完成。
13.根据权利要求11所述的方法,其中,确定所述当前口头话语是所述第一候选口头语言进一步基于:
在所述第一话音至文本处理期间所生成的输出的第一置信度测度,所述输出的所述第一置信度测度在所述第一话音至文本处理期间生成;以及
在所述第二话音至文本处理期间所生成的第二输出的第二置信度测度,所述第二输出的所述第二置信度测度在所述第二话音至文本处理期间生成。
14.根据权利要求1所述的方法,进一步包括:继训练所述语言选择模型之后:
经由计算设备的至少一个麦克风接收捕获当前口头话语的当前音频数据;
确定所述当前口头话语来自于所述计算设备的多个候选用户中的特定用户;
基于N种不同语言的子集被指定为由所述特定用户利用的语言来识别所述子集;
提取所述当前音频数据的一个或多个特征;
使用所述经训练的语言选择模型处理所述当前音频数据的所述一个或多个特征,以生成所述N种不同语言中的每一种语言的当前预测概率;以及
基于所述当前预测概率从所述子集中选择当前口头语言,其中,所述选择是响应于基于所述子集被指定为由所述特定用户利用的语言来识别所述子集而从所述子集进行的。
15.一种方法,包括:
经由计算设备的至少一个麦克风接收捕获来自用户的当前口头话语的当前音频数据;
提取捕获所述当前口头话语的所述当前音频数据的一个或多个特征;
使用语言选择模型来处理所述当前音频数据的所述一个或多个特征,以生成N种不同语言中的每一种语言的当前预测概率,所述语言选择模型使用元组损失进行训练;
基于与所述当前音频数据、所述计算设备和/或所述用户相关联的数据识别所述口头话语的M种候选语言,其中,所述M种候选语言包括两种或更多种语言,并且是所述N种不同语言的子集;
从所述M种候选语言中选择当前口头语言,其中,选择所述当前口头语言是基于所述M种候选语言的当前预测概率的比较;以及
基于所选择的当前口头语言执行所述音频数据的话音至文本处理。
16.根据权利要求15所述的方法,进一步包括:
在随所述当前音频数据的传输中接收所述M种候选语言的指示,其中,识别所述M种候选语言基于与所述当前音频数据相关联的所述数据,并且其中,所述数据包括在随所述当前音频数据的所述传输中所接收到的所述M种候选语言的所述指示。
17.一种系统,包括存储指令的存储器和一个或多个处理器,所述一个或多个处理器可操作以执行所述指令以使所述处理器执行根据前述权利要求中的任一项所述的方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862772514P | 2018-11-28 | 2018-11-28 | |
US62/772,514 | 2018-11-28 | ||
US201862772922P | 2018-11-29 | 2018-11-29 | |
US62/772,922 | 2018-11-29 | ||
PCT/US2019/063643 WO2020113031A1 (en) | 2018-11-28 | 2019-11-27 | Training and/or using a language selection model for automatically determining language for speech recognition of spoken utterance |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112673421A true CN112673421A (zh) | 2021-04-16 |
CN112673421B CN112673421B (zh) | 2024-07-16 |
Family
ID=69024607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980026087.0A Active CN112673421B (zh) | 2018-11-28 | 2019-11-27 | 训练和/或使用语言选择模型以自动确定用于口头话语的话音辨识的语言 |
Country Status (4)
Country | Link |
---|---|
US (2) | US11410641B2 (zh) |
EP (1) | EP3707703A1 (zh) |
CN (1) | CN112673421B (zh) |
WO (1) | WO2020113031A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113744724A (zh) * | 2021-08-30 | 2021-12-03 | 苏州浪潮智能科技有限公司 | 一种语音转换方法、装置、设备及存储介质 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020113031A1 (en) | 2018-11-28 | 2020-06-04 | Google Llc | Training and/or using a language selection model for automatically determining language for speech recognition of spoken utterance |
US11354504B2 (en) * | 2019-07-10 | 2022-06-07 | International Business Machines Corporation | Multi-lingual action identification |
US11423089B2 (en) * | 2019-09-25 | 2022-08-23 | Dell Products L.P. | System and method for determining application programming interface and object bindings on natural language processed inputs |
GB2600987B (en) * | 2020-11-16 | 2024-04-03 | Toshiba Kk | Speech Recognition Systems and Methods |
CN113129870B (zh) * | 2021-03-23 | 2022-03-25 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、装置、设备和存储介质 |
US11853712B2 (en) | 2021-06-07 | 2023-12-26 | International Business Machines Corporation | Conversational AI with multi-lingual human chatlogs |
CN113299314B (zh) * | 2021-07-27 | 2021-11-02 | 北京世纪好未来教育科技有限公司 | 一种音频事件识别模型的训练方法、装置及其设备 |
US12106753B2 (en) * | 2022-03-08 | 2024-10-01 | Microsoft Technology Licensing, Llc | Code-mixed speech recognition using attention and language-specific joint analysis |
US20230419958A1 (en) * | 2022-06-27 | 2023-12-28 | Samsung Electronics Co., Ltd. | Personalized multi-modal spoken language identification |
WO2024112335A1 (en) * | 2022-11-23 | 2024-05-30 | Google Llc | Application programming interfaces for on-device speech services |
CN116386602A (zh) * | 2023-05-30 | 2023-07-04 | 中国科学院自动化研究所 | 特征提取模型的训练方法和融合发音特征的语音鉴别方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6832191B1 (en) * | 1999-09-02 | 2004-12-14 | Telecom Italia Lab S.P.A. | Process for implementing a speech recognizer, the related recognizer and process for speech recognition |
CN1819018A (zh) * | 2005-02-11 | 2006-08-16 | 微软公司 | 有效语言识别 |
JP2011164175A (ja) * | 2010-02-05 | 2011-08-25 | Nippon Hoso Kyokai <Nhk> | 言語モデル生成装置、そのプログラムおよび音声認識システム |
CN103782291A (zh) * | 2011-07-26 | 2014-05-07 | 国际商业机器公司 | 定制自然语言处理引擎 |
US20150340034A1 (en) * | 2014-05-22 | 2015-11-26 | Google Inc. | Recognizing speech using neural networks |
CN105229723A (zh) * | 2013-03-14 | 2016-01-06 | 谷歌公司 | 完整语言序列的语言建模 |
US9275635B1 (en) * | 2012-03-08 | 2016-03-01 | Google Inc. | Recognizing different versions of a language |
CN106469552A (zh) * | 2015-08-20 | 2017-03-01 | 三星电子株式会社 | 语音识别设备和方法 |
CN106782518A (zh) * | 2016-11-25 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于分层循环神经网络语言模型的语音识别方法 |
CN108389576A (zh) * | 2018-01-10 | 2018-08-10 | 苏州思必驰信息科技有限公司 | 压缩后的语音识别模型的优化方法及系统 |
CN108630197A (zh) * | 2017-03-23 | 2018-10-09 | 三星电子株式会社 | 用于语音识别的训练方法和设备 |
Family Cites Families (77)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6092038A (en) * | 1998-02-05 | 2000-07-18 | International Business Machines Corporation | System and method for providing lossless compression of n-gram language models in a real-time decoder |
US6049767A (en) * | 1998-04-30 | 2000-04-11 | International Business Machines Corporation | Method for estimation of feature gain and training starting point for maximum entropy/minimum divergence probability models |
ATE235733T1 (de) * | 1998-05-11 | 2003-04-15 | Siemens Ag | Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner |
DE59901575D1 (de) * | 1998-10-27 | 2002-07-04 | Siemens Ag | Verfahren und anordnung zur klassenbildung für ein sprachmodell basierend auf linguistischen klassen |
US6928404B1 (en) * | 1999-03-17 | 2005-08-09 | International Business Machines Corporation | System and methods for acoustic and language modeling for automatic speech recognition with large vocabularies |
US6484136B1 (en) * | 1999-10-21 | 2002-11-19 | International Business Machines Corporation | Language model adaptation via network of similar users |
US9076448B2 (en) * | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US6477488B1 (en) * | 2000-03-10 | 2002-11-05 | Apple Computer, Inc. | Method for dynamic context scope selection in hybrid n-gram+LSA language modeling |
US8874431B2 (en) * | 2001-03-16 | 2014-10-28 | Meaningful Machines Llc | Knowledge system method and apparatus |
US7860706B2 (en) * | 2001-03-16 | 2010-12-28 | Eli Abir | Knowledge system method and appparatus |
US7171358B2 (en) * | 2003-01-13 | 2007-01-30 | Mitsubishi Electric Research Laboratories, Inc. | Compression of language model structures and word identifiers for automated speech recognition systems |
US20040138883A1 (en) * | 2003-01-13 | 2004-07-15 | Bhiksha Ramakrishnan | Lossless compression of ordered integer lists |
US7324927B2 (en) * | 2003-07-03 | 2008-01-29 | Robert Bosch Gmbh | Fast feature selection method and system for maximum entropy modeling |
US8478597B2 (en) * | 2005-01-11 | 2013-07-02 | Educational Testing Service | Method and system for assessing pronunciation difficulties of non-native speakers |
US8165870B2 (en) * | 2005-02-10 | 2012-04-24 | Microsoft Corporation | Classification filter for processing data for creating a language model |
WO2006099621A2 (en) * | 2005-03-17 | 2006-09-21 | University Of Southern California | Topic specific language models built from large numbers of documents |
US20070078653A1 (en) * | 2005-10-03 | 2007-04-05 | Nokia Corporation | Language model compression |
US8700403B2 (en) * | 2005-11-03 | 2014-04-15 | Robert Bosch Gmbh | Unified treatment of data-sparseness and data-overfitting in maximum entropy modeling |
US7536295B2 (en) * | 2005-12-22 | 2009-05-19 | Xerox Corporation | Machine translation using non-contiguous fragments of text |
US7877256B2 (en) * | 2006-02-17 | 2011-01-25 | Microsoft Corporation | Time synchronous decoding for long-span hidden trajectory model |
US8442965B2 (en) * | 2006-04-19 | 2013-05-14 | Google Inc. | Query language identification |
US20080147579A1 (en) * | 2006-12-14 | 2008-06-19 | Microsoft Corporation | Discriminative training using boosted lasso |
US7856351B2 (en) * | 2007-01-19 | 2010-12-21 | Microsoft Corporation | Integrated speech recognition and semantic classification |
US7873209B2 (en) * | 2007-01-31 | 2011-01-18 | Microsoft Corporation | Segment-discriminating minimum classification error pattern recognition |
US8000971B2 (en) * | 2007-10-31 | 2011-08-16 | At&T Intellectual Property I, L.P. | Discriminative training of multi-state barge-in models for speech processing |
US8046221B2 (en) * | 2007-10-31 | 2011-10-25 | At&T Intellectual Property Ii, L.P. | Multi-state barge-in models for spoken dialog systems |
US8190423B2 (en) * | 2008-09-05 | 2012-05-29 | Trigent Software Ltd. | Word sense disambiguation using emergent categories |
US20100256977A1 (en) * | 2009-04-01 | 2010-10-07 | Microsoft Corporation | Maximum entropy model with continuous features |
US9031844B2 (en) * | 2010-09-21 | 2015-05-12 | Microsoft Technology Licensing, Llc | Full-sequence training of deep structures for speech recognition |
US20120290293A1 (en) * | 2011-05-13 | 2012-11-15 | Microsoft Corporation | Exploiting Query Click Logs for Domain Detection in Spoken Language Understanding |
US20130018650A1 (en) * | 2011-07-11 | 2013-01-17 | Microsoft Corporation | Selection of Language Model Training Data |
US9514109B2 (en) * | 2012-01-12 | 2016-12-06 | Educational Testing Service | Computer-implemented systems and methods for scoring of spoken responses based on part of speech patterns |
US9129591B2 (en) * | 2012-03-08 | 2015-09-08 | Google Inc. | Recognizing speech in multiple languages |
US20140035823A1 (en) * | 2012-08-01 | 2014-02-06 | Apple Inc. | Dynamic Context-Based Language Determination |
US9218335B2 (en) * | 2012-10-10 | 2015-12-22 | Verisign, Inc. | Automated language detection for domain names |
US20150278194A1 (en) * | 2012-11-07 | 2015-10-01 | Nec Corporation | Information processing device, information processing method and medium |
US9966072B2 (en) * | 2012-12-06 | 2018-05-08 | Saronikos Trading And Services, Unipessoal Lda | Method and devices for language determination for voice to text transcription of phone calls |
US9110880B1 (en) * | 2013-02-08 | 2015-08-18 | Google Inc. | Acoustically informed pruning for language modeling |
US9484023B2 (en) * | 2013-02-22 | 2016-11-01 | International Business Machines Corporation | Conversion of non-back-off language models for efficient speech decoding |
US10170114B2 (en) * | 2013-05-30 | 2019-01-01 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
US9412365B2 (en) * | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
US9437189B2 (en) * | 2014-05-29 | 2016-09-06 | Google Inc. | Generating language models |
US20150364129A1 (en) * | 2014-06-17 | 2015-12-17 | Google Inc. | Language Identification |
US10089977B2 (en) * | 2015-07-07 | 2018-10-02 | International Business Machines Corporation | Method for system combination in an audio analytics application |
US20170011735A1 (en) * | 2015-07-10 | 2017-01-12 | Electronics And Telecommunications Research Institute | Speech recognition system and method |
GB2544070B (en) * | 2015-11-04 | 2021-12-29 | The Chancellor Masters And Scholars Of The Univ Of Cambridge | Speech processing system and method |
US10789539B2 (en) * | 2015-12-31 | 2020-09-29 | Nuance Communications, Inc. | Probabilistic ranking for natural language understanding |
US10176799B2 (en) * | 2016-02-02 | 2019-01-08 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for training language models to reduce recognition errors |
US20170364509A1 (en) * | 2016-06-16 | 2017-12-21 | Language Line Services, Inc. | Configuration that provides an augmented video remote language interpretation/translation session |
US10679643B2 (en) * | 2016-08-31 | 2020-06-09 | Gregory Frederick Diamos | Automatic audio captioning |
JP6712642B2 (ja) * | 2016-09-16 | 2020-06-24 | 日本電信電話株式会社 | モデル学習装置、その方法、及びプログラム |
US10654380B2 (en) * | 2016-11-18 | 2020-05-19 | Microsoft Technology Licensing, Llc | Query rewriting and interactive inquiry framework |
US10169324B2 (en) * | 2016-12-08 | 2019-01-01 | Entit Software Llc | Universal lexical analyzers |
US10762892B2 (en) * | 2017-02-23 | 2020-09-01 | Semantic Machines, Inc. | Rapid deployment of dialogue system |
US10431225B2 (en) * | 2017-03-31 | 2019-10-01 | International Business Machines Corporation | Speaker identification assisted by categorical cues |
US10565318B2 (en) * | 2017-04-14 | 2020-02-18 | Salesforce.Com, Inc. | Neural machine translation with latent tree attention |
US10606898B2 (en) * | 2017-04-19 | 2020-03-31 | Brown University | Interpreting human-robot instructions |
CN107193792B (zh) * | 2017-05-18 | 2020-10-02 | 北京百度网讯科技有限公司 | 基于人工智能的生成文章的方法和装置 |
US11056104B2 (en) * | 2017-05-26 | 2021-07-06 | International Business Machines Corporation | Closed captioning through language detection |
US20180357998A1 (en) * | 2017-06-13 | 2018-12-13 | Intel IP Corporation | Wake-on-voice keyword detection with integrated language identification |
US20180366110A1 (en) * | 2017-06-14 | 2018-12-20 | Microsoft Technology Licensing, Llc | Intelligent language selection |
US11610579B2 (en) * | 2017-06-18 | 2023-03-21 | Google Llc | Processing natural language using machine learning to determine slot values based on slot descriptors |
US11545140B2 (en) * | 2017-07-31 | 2023-01-03 | Beijing Didi Infinity Technology And Development Co., Ltd. | System and method for language-based service hailing |
WO2019028352A1 (en) * | 2017-08-04 | 2019-02-07 | Walmart Apollo, Llc | LANGUAGE LOCALIZATION SYSTEM |
US20190065458A1 (en) * | 2017-08-22 | 2019-02-28 | Linkedin Corporation | Determination of languages spoken by a member of a social network |
EP3622392A1 (en) * | 2017-08-22 | 2020-03-18 | Google LLC | Facilitating user device and/or agent device actions during a communication session |
US10607604B2 (en) * | 2017-10-27 | 2020-03-31 | International Business Machines Corporation | Method for re-aligning corpus and improving the consistency |
JP2019090942A (ja) * | 2017-11-15 | 2019-06-13 | シャープ株式会社 | 情報処理装置、情報処理システム、情報処理方法、および情報処理プログラム |
US20190197430A1 (en) * | 2017-12-21 | 2019-06-27 | Lyft, Inc. | Personalized ride experience based on real-time signals |
US11106690B1 (en) * | 2018-02-20 | 2021-08-31 | A9.Com, Inc. | Neural query auto-correction and completion |
WO2019172946A1 (en) * | 2018-03-07 | 2019-09-12 | Google Llc | Facilitating end-to-end communications with automated assistants in multiple languages |
WO2019176986A1 (ja) * | 2018-03-15 | 2019-09-19 | 日本電気株式会社 | 信号処理システム、信号処理装置、信号処理方法、および記録媒体 |
US20190287012A1 (en) * | 2018-03-16 | 2019-09-19 | Microsoft Technology Licensing, Llc | Encoder-decoder network with intercommunicating encoder agents |
US10909157B2 (en) * | 2018-05-22 | 2021-02-02 | Salesforce.Com, Inc. | Abstraction of text summarization |
US10679610B2 (en) * | 2018-07-16 | 2020-06-09 | Microsoft Technology Licensing, Llc | Eyes-off training for automatic speech recognition |
WO2020113031A1 (en) | 2018-11-28 | 2020-06-04 | Google Llc | Training and/or using a language selection model for automatically determining language for speech recognition of spoken utterance |
US11019207B1 (en) * | 2019-11-07 | 2021-05-25 | Hithink Royalflush Information Network Co., Ltd. | Systems and methods for smart dialogue communication |
-
2019
- 2019-11-27 WO PCT/US2019/063643 patent/WO2020113031A1/en unknown
- 2019-11-27 CN CN201980026087.0A patent/CN112673421B/zh active Active
- 2019-11-27 US US16/959,037 patent/US11410641B2/en active Active
- 2019-11-27 EP EP19828380.6A patent/EP3707703A1/en active Pending
-
2022
- 2022-06-22 US US17/846,287 patent/US11646011B2/en active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6832191B1 (en) * | 1999-09-02 | 2004-12-14 | Telecom Italia Lab S.P.A. | Process for implementing a speech recognizer, the related recognizer and process for speech recognition |
CN1819018A (zh) * | 2005-02-11 | 2006-08-16 | 微软公司 | 有效语言识别 |
JP2011164175A (ja) * | 2010-02-05 | 2011-08-25 | Nippon Hoso Kyokai <Nhk> | 言語モデル生成装置、そのプログラムおよび音声認識システム |
CN103782291A (zh) * | 2011-07-26 | 2014-05-07 | 国际商业机器公司 | 定制自然语言处理引擎 |
US9275635B1 (en) * | 2012-03-08 | 2016-03-01 | Google Inc. | Recognizing different versions of a language |
CN105229723A (zh) * | 2013-03-14 | 2016-01-06 | 谷歌公司 | 完整语言序列的语言建模 |
US20150340034A1 (en) * | 2014-05-22 | 2015-11-26 | Google Inc. | Recognizing speech using neural networks |
CN106469552A (zh) * | 2015-08-20 | 2017-03-01 | 三星电子株式会社 | 语音识别设备和方法 |
CN106782518A (zh) * | 2016-11-25 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于分层循环神经网络语言模型的语音识别方法 |
CN108630197A (zh) * | 2017-03-23 | 2018-10-09 | 三星电子株式会社 | 用于语音识别的训练方法和设备 |
CN108389576A (zh) * | 2018-01-10 | 2018-08-10 | 苏州思必驰信息科技有限公司 | 压缩后的语音识别模型的优化方法及系统 |
Non-Patent Citations (2)
Title |
---|
DAVID SNYDER: "Spoken Language Recognition using X-vectors", 《ODYSSEY 2018 THE SPEAKER AND LANGUAGE RECOGNITION WORKSHOP》,, 1 January 2018 (2018-01-01), pages 105 - 111, XP055676277, DOI: 10.21437/Odyssey.2018-15 * |
金马: "基于卷积神经网络的语种识别方法研究", 《中国优秀硕士学位论文全文数据库》, 15 November 2017 (2017-11-15) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113744724A (zh) * | 2021-08-30 | 2021-12-03 | 苏州浪潮智能科技有限公司 | 一种语音转换方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP3707703A1 (en) | 2020-09-16 |
US20200335083A1 (en) | 2020-10-22 |
US11646011B2 (en) | 2023-05-09 |
CN112673421B (zh) | 2024-07-16 |
WO2020113031A1 (en) | 2020-06-04 |
US20220328035A1 (en) | 2022-10-13 |
US11410641B2 (en) | 2022-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112673421B (zh) | 训练和/或使用语言选择模型以自动确定用于口头话语的话音辨识的语言 | |
CN112262430B (zh) | 自动确定经由自动助理界面接收到的口头话语的语音识别的语言 | |
US11735176B2 (en) | Speaker diarization using speaker embedding(s) and trained generative model | |
US11817085B2 (en) | Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface | |
US11817080B2 (en) | Using corrections, of predicted textual segments of spoken utterances, for training of on-device speech recognition model | |
US11545157B2 (en) | Speaker diartzation using an end-to-end model | |
US20220284049A1 (en) | Natural language understanding clarifications | |
KR20230005966A (ko) | 거의 일치하는 핫워드 또는 구문 검출 | |
US20230317082A1 (en) | Generating and/or utilizing unintentional memorization measure(s) for automatic speech recognition model(s) | |
US20240331681A1 (en) | Automatic adaptation of the synthesized speech output of a translation application | |
KR20240154576A (ko) | 자동 스피치 인식 모델(들)에 대한 비의도적 기억화 측정치(들)를 생성 및/또는 활용 | |
JP2024147552A (ja) | 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |