CN108364651A

CN108364651A - 语音识别方法和设备

Info

Publication number: CN108364651A
Application number: CN201711372384.XA
Authority: CN
Inventors: 文珉暎; 李镐式; 崔荣相
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-01-26
Filing date: 2017-12-19
Publication date: 2018-08-03
Also published as: US20180211652A1; KR20180087942A; JP2018120212A; EP3355303A1

Abstract

公开一种语音识别方法和设备。一种语音识别方法包括：从用户的语音信号产生多条候选文本数据；确定与用户的讲话类型对应的解码条件；通过基于确定的解码条件执行解码，在所述多条候选文本数据之中确定目标文本数据。

Description

语音识别方法和设备

本申请要求于2017年1月26日提交到韩国知识产权局的第10-2017-0012354号韩国专利申请的权益，所述韩国专利申请的全部公开出于所有目的通过引用包含于此。

技术领域

以下描述涉及一种语音识别方法和设备。

背景技术

语音识别是用于识别用户的声音或语音的技术。用户的语音可通过语音识别被转换成文本。在语音识别中，识别语音的准确度受各种因素的影响，例如，用户发出语音所处的周围环境以及用户的当前状态。

发明内容

提供本发明内容以采用简化的形式介绍在下面的具体实施方式中进一步描述的构思的选择。本发明内容不旨在标识所要求的主题的关键特征或必要特征，本发明内容也不意图用于帮助确定所要求的主题的范围。

在一个总的方面，一种语音识别方法包括：从用户的语音信号产生多条候选文本数据；确定与用户的讲话类型对应的解码条件；通过基于确定的解码条件执行解码，在所述多条候选文本数据之中确定目标文本数据。

所述语音识别方法还可包括：基于语音信号的特征、上下文信息、以及来自语音信号的识别部分的语音识别结果中的任意一个或者任意两个或更多个的任意组合，确定讲话类型。

上下文信息可包括用户位置信息、用户配置文件信息以及在用户装置中执行的应用的应用类型信息中的任意一个或者任意两个或更多个的任意组合。

确定解码条件的步骤可包括：响应于讲话类型被确定，从映射信息选择映射到确定的讲话类型的解码条件，其中，映射信息包括多个讲话类型和分别映射到所述多个讲话类型的相应的多个解码条件。

确定目标文本数据的步骤可包括：将当前解码条件改变为确定的解码条件；基于确定的解码条件计算所述多条候选文本数据中的每个的概率；基于计算的多个概率，在所述多条候选文本数据之中确定目标文本数据。

确定目标文本数据的步骤可包括：基于确定的解码条件，调节声学模型的权重和语言模型的权重中的任何一个或两者；通过基于声学模型的权重和语言模型的权重中的任何一个或两者执行解码，来确定目标文本数据。

产生多条候选文本数据的步骤可包括：基于声学模型从语音信号确定音素序列；基于语言模型从确定的音素序列识别多个单词；基于识别的多个单词产生所述多条候选文本数据。

声学模型可包括被配置为基于语音信号的特征确定讲话类型的分类器。

解码条件可包括：声学模型的权重、语言模型的权重、与对音标分布的依赖性关联的比例因子、倒谱均值和方差标准化(CMVN)、以及解码窗口大小中的任意一个或者任意两个或更多个的任意组合。

在另一总的方面，一种存储指令的非暂时性计算机可读介质，当由处理器执行所述指令时，使处理器执行如上所述方法。

在另一总的方面，一种语音识别设备包括：处理器；存储器，被配置为存储可被处理器执行的指令；其中，响应于执行所述指令，处理器被配置为：从用户的语音信号产生多条候选文本数据；确定与用户的讲话类型对应的解码条件；通过基于确定的解码条件执行解码，在所述多条候选文本数据之中确定目标文本数据。

处理器还可被配置为：基于语音信号的特征、上下文信息、以及来自语音信号的识别部分的语音识别结果中的任意一个或者任意两个或更多个的任意组合，确定讲话类型。

处理器还可被配置为：响应于讲话类型被确定，从映射信息选择映射到确定的讲话类型的解码条件，其中，映射信息包括多个讲话类型和分别映射到所述多个讲话类型的相应的多个解码条件。

处理器还可被配置为：将当前解码条件改变为确定的解码条件；基于确定的解码条件计算所述多条候选文本数据中的每个的概率；基于计算的多个概率，在所述多条候选文本数据之中确定目标文本数据。

处理器还可被配置为：基于确定的解码条件，调节声学模型的权重和语言模型的权重中的任何一个或两者；通过基于声学模型的权重和语言模型的权重中的任何一个或两者执行解码，来确定目标文本数据。

处理器还可被配置为：基于声学模型从语音信号确定音素序列；基于语言模型从所述音素序列识别多个单词；基于识别的多个单词产生所述多条候选文本数据。

在另一总的方面，一种语音识别方法包括：接收用户的语音信号；基于语音信号确定用户的讲话类型；基于与确定的讲话类型对应的预定信息，从语音信号识别文本数据。

所述语音识别方法还可包括：从映射信息选择所述预定信息，其中，映射信息包括多个讲话类型和分别映射到所述多个讲话类型的相应的预定信息。

所述预定信息可包括至少一个解码参数；识别文本数据的步骤可包括：从语音信号产生多条候选文本数据；基于与确定的讲话类型对应的所述至少一个解码参数，对所述多条候选文本数据执行解码；基于解码的结果，选择所述多条候选文本数据中的一个作为识别的文本。

产生多条候选文本数据的步骤可包括：基于声学模型从语音信号确定音素序列；通过基于语言模型从所述音素序列识别多个单词，来产生所述多条候选文本数据。

所述至少一个解码参数可包括：声学模型的权重、语言模型的权重、与对音标分布的依赖性关联的比例因子、倒谱均值和方差标准化(CMVN)、以及解码窗口大小中的任意一个或者任意两个或更多个的任意组合。

声学模型可产生音素概率向量；语言模型可产生单词概率；执行解码的步骤可包括：基于音素概率向量、单词概率以及与确定的讲话类型对应的所述至少一个解码参数，对所述多条候选文本数据执行解码。

识别文本数据的步骤可包括：基于与确定的讲话类型对应的预定信息，从语音信号的当前识别部分识别文本数据；确定用户的讲话类型的步骤可包括：基于之前从语音信号的先前识别部分识别的文本数据，来确定用户的讲话类型。

通过下面的具体实施方式、附图和权利要求，其他特征和方面将是清楚的。

附图说明

图1是示出语音识别设备的示例的示图。

图2是示出分类器的示例的示图。

图3至图5是示出语音识别设备的操作的示例的示图。

图6是示出神经网络的示例的示图。

图7是示出语音识别设备的另一示例的示图。

图8是示出语音识别方法的示例的流程图。

图9是示出包括语音识别设备的自然语言处理系统的示例的示图。

贯穿附图和具体实施方式，相同的参考标号表示相同的元件。附图可不按比例，并且为了清楚、说明和方便，附图中的元件的相对大小、比例和描绘可被夸大。

具体实施方式

提供下面的详细描述以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而，在理解本申请的公开之后，这里描述的方法、设备和/或系统的各种改变、修改和等同物将是清楚的。例如，这里描述的操作的顺序仅仅是示例，并不限于这里阐述的顺序，而是除了必须按照特定顺序发生的操作之外可以如理解本申请的公开之后将清楚地那样改变。此外，为了更加清楚和简明，本领域公知的特征的描述可被省略。

这里描述的特征可以以不同的形式实现，并且不将被解释为受限于这里所描述的示例。相反，已经提供了在此描述的示例以示出实现这里描述的方法、设备和/或系统的许多可能方式中的一些方式，其中，所述许多可能方式在理解本申请的公开之后将是清楚的。

诸如第一、第二、A、B、(a)和(b)的术语可在此使用以描述组件。然而，这样的术语不用于限定对应组件的本质、次序或顺序，而仅用于将对应组件与其他组件区分。例如，被称为第一组件的组件可被代替地称为第二组件，并且被称为第二组件的另一组件可被代替地称为第一组件。

如果本说明书描述一个组件“连接”、“结合”或“接合”到第二组件，则第一个组件可直接“连接”、“结合”或“接合”到第二组件，或者第三组件可“连接”、“结合”或“接合”在第一组件与第二组件之间。然而，如果本说明书描述第一组件“直接连接”或“直接接合”到第二组件，则第三组件可不“连接”或“接合”在第一组件与第二组件之间。类似的表述(例如，“在……之间”与“紧接在……之间”以及“与……相邻”与“与……紧接相邻”)也以这种方式来解释。

这里使用的术语仅为了描述特定示例的目的，而不意图限制本公开或权利要求。除非上下文另外明确指出，否则单数形式也意图包括复数形式。术语“包括”、“包含”说明存在陈述的特征、数量、操作、元件、组件、或它们的组合，但不排除存在或添加一个或多个其他特征、数量、操作、元件、组件、或它们的组合。

除非另有定义，否则基于对本公开的理解，这里使用的全部术语(包括技术术语和科学术语)具有与本公开所属领域的普通技术人员通常理解的含义相同的含义。除非在这里明确地定义，否则术语(诸如在通用字典中定义的术语)将被解释为具有与相关领域的上下文中它们的含义一致的含义，而不将被解释为理想化或过于正式的意义。

图1是示出语音识别设备的示例的示图。

参照图1，语音识别设备100接收语音信号。在一个示例中，语音识别设备100可以以服务器的形式实现，并可通过网络从用户装置(例如，移动终端)接收用户的语音信号。

语音识别设备100包括分类器110和识别器120。

分类器110确定用户的讲话类型(utterance type)。例如，分类器110确定用户的讲话类型是朗读说话类型(read speech type)还是交谈说话类型(conversationalspeech type)。朗读说话类型和交谈说话类型仅被提供作为说明性示例，讲话类型不限于这些示例。

分类器110确定与讲话类型对应的解码条件。解码条件包括将被识别器120使用以产生语音识别结果的至少一个解码参数。例如，解码条件包括声学模型的权重、语言模型的权重、比例因子(或在先比例因子(prior scaling factor)，以下称为比例因子)、倒谱均值和方差标准化(CMVN)、以及解码窗口大小的解码参数中的任意一个或者任意两个或更多个的任意组合。然而，这些解码参数仅为示例，解码参数不限于这些示例。例如，响应于讲话类型被确定为朗读说话类型，分类器110从预定映射信息选择解码条件“朗读说话”。例如，解码条件“朗读说话”包括语言模型的权重2、比例因子0.7、声学模型的权重0.061、CMVN v₁、以及解码窗口大小200。然而，这仅为示例，解码条件“朗读说话”不限于这个示例。

在下文中将参照图2描述分类器110的详细操作。

识别器120从语音信号确定多条候选文本数据。例如，响应于语音信号被输入到识别器120，识别器120基于声学模型从语音信号确定音素序列，并通过基于语言模型从音素序列识别多个单词来确定所述多条候选文本数据。

识别器120通过基于确定的解码条件执行解码，在所述多条候选文本数据之中确定目标文本数据。例如，识别器120通过将包括语言模型的权重2、比例因子0.7、声学模型的权重0.061、CMVN v₁、以及解码窗口大小200的解码条件“朗读说话”应用于解码器，来计算所述多条候选文本数据中的每个的概率。识别器120基于计算的多个概率，在所述多条候选文本数据之中确定目标文本数据。例如，识别器120将具有计算的多个概率之中的最大概率的候选文本数据确定为目标文本数据。

语音识别设备100接收另一语音信号。例如，语音识别设备100接收另一语音信号，例如，“They um and our entire school was on one campus from kindergarten to uhyou know twelfth grade”。分类器110确定该另一语音信号的讲话类型。当分类器110确定该另一语音信号的讲话类型为交谈说话类型时，分类器110从映射信息选择解码条件“交谈说话”。例如，解码条件“交谈说话”包括语言模型的权重2.2、比例因子0.94、声学模型的权重0.071、CMVN v₂、以及解码窗口大小300。然而，这仅为一个示例，解码条件“交谈说话”不限于这个示例。

识别器120基于解码条件“交谈说话”来执行解码。在对该另一语音信号执行语音识别之前，识别器120将解码条件“朗读说话”应用于解码器。也就是说，在对该另一语音信号开始执行语音识别时当前应用于解码器的解码条件为解码条件“朗读说话”。因此，识别器120将解码条件“交谈说话”应用于解码器以识别该另一语音信号。也就是说，应用于解码器的解码条件从解码条件“朗读说话”改变成解码条件“交谈说话”。因此，语言模型的权重、比例因子、声学模型的权重、CMVN、以及解码窗口大小中的任意一个或者任意两个或更多个的组合被调节。

识别器120通过解码来确定针对该另一语音信号的目标文本数据。

在一个示例中，语音识别设备100基于针对用户的讲话类型的最优解码条件来执行语音识别。因此，语音识别结果变得更准确，因此单词错误率(WER)被改善。

图2是示出分类器的示例的示图。

用户可在各种状况或环境下发出声音或语音。例如，用户在存在大量噪声或小量噪声的环境下发出声音或语音，或在距用户装置近距离或远距离处发出声音或语音。此外，用户可具有不同年龄。

各种讲话类型可基于状况、环境、用户年龄、用户性别以及其他因素被预先定义。讲话类型可被预先定义，并且除了上述的交谈说话类型和朗读说话类型之外还包括：例如，远距离交谈说话类型、近距离朗读说话类型、在嘈杂地方的近距离交谈说话类型、老年用户的远距离室内交谈说话类型、以及年轻女性用户的远距离交谈说话类型。

参照图2，分类器200在预先定义的讲话类型之中确定语音信号的讲话类型。分类器200使用至少一条信息来确定语音信号的讲话类型。例如，信息包括语音信号的特征和/或上下文信息。在下文中，将描述分类器200如何基于语音信号的特征来确定讲话类型。

在一个示例中，语音信号被输入到识别器120。例如，识别器120通过分析语音信号的频谱来确定或提取语音信号的特征，并将特征发送到分类器200。在另一示例中，语音识别设备100包括特征提取器(未示出)，例如，特征提取器接收语音信号，通过分析语音信号的频谱来确定或提取特征，并将特征发送到分类器200。分类器200基于语音信号的特征在各种讲话类型之中确定语音信号的讲话类型。在语音识别设备通过分析语音信号的频谱来确定语音信号的特征。例如，分类器200将语音信号的特征与阈值进行比较。响应于语音信号的特征大于或等于阈值，分类器200确定讲话类型为朗读说话类型。相反，响应于语音信号的特征小于阈值，分类器200确定讲话类型为交谈说话类型。

此外，分类器200基于上下文信息来确定语音信号的讲话类型。上下文信息包括关于用户装置从用户接收语音信号的状况的信息。例如，上下文信息包括用户的周围环境信息、用户配置文件信息、以及用户装置中执行的应用的应用类型信息。例如，周围环境信息包括用户位置信息、用户的位置的天气信息、时间信息以及噪声信息(例如，信噪比(SNR))。用户配置文件信息包括关于用户的各种信息，例如，用户的性别和年龄。例如，应用类型信息包括关于被执行以接收或记录用户的语音信号的应用的类型的信息。

在一个示例中，分类器200基于语音信号的特征和上下文信息两者来确定语音信号的讲话类型。

当讲话类型被确定时，分类器200通过参考预定映射信息来选择映射到确定的语音信号的讲话类型的解码条件。与所述多个讲话类型中的每个对应的解码条件预先通过仿真来确定或计算。

如图2的示例中所示，映射信息被存储在数据库(DB)210中。下面的表1示出映射信息的示例。

表1

参照表1，语言模型的权重、比例因子、声学模型的权重、CMVN、以及解码窗口大小指示解码条件。比例因子可用于调节对训练数据的音标分布的依赖性，CMVN可用于将从语音信号提取的特征向量标准化。可在声学模型正在基于语音信号确定音素概率向量的同时产生特征向量。解码窗口大小影响解码速度。例如，与使用200的解码窗口大小时相比，当使用300的解码窗口大小时解码速度更慢。

在表1中，Type₁至Type_N指示预先定义的多个讲话类型。例如，Type₁指示交谈说话类型，Type₂指示朗读说话类型，Type₁₀指示在嘈杂地方的近距离交谈说话类型，Type₂₀指示老年用户的远距离室内交谈说话类型。此外，在表1中，缺省指示针对语音信号没有确定出讲话类型。分类器200在语音信号的讲话类型不对应于预先定义的多个讲话类型中的任何讲话类型时选择缺省。

在一个示例中，在25岁的女性用户在挤满许多人的江南的区域中在距用户装置近距离处发出“Where is a French restaurant？”的情况下，语音识别设备从用户装置接收与话语“Where is a French restaurant？”对应的语音信号以及包括例如位置＝江南、用户性别＝女性、SNR和用户年龄＝25的上下文信息。然后，分类器200基于语音信号的特征和/或上下文信息确定用户的讲话类型为Type₁₀：在嘈杂地方的近距离交谈说话类型。分类器200选择映射到确定的讲话类型Type₁₀的解码条件{α₁₀,β₁₀,γ₁₀,v₁₀,s₁₀,...}。

在另一示例中，在六十多岁的老年男性用户在该老年用户在房子里与用户装置分开时在距用户装置远距离处发出“Turn on the TV”的情况下，语音识别设备从用户装置接收与话语“Turn on the TV”对应的语音信号以及包括例如位置＝室内、用户性别＝男性、用户年龄＝六十多岁的上下文信息。然后，分类器200基于语音信号的特征和/或上下文信息确定用户的讲话类型为Type₂₀：老年用户的远距离室内交谈说话类型。分类器200选择映射到确定的讲话类型Type₂₀的解码条件{α₂₀,β₂₀,γ₂₀,v₂₀,s₂₀,...}。

在另一示例中，在用户在呼叫记录应用正被执行的同时通过电话或移动电话交谈的情况下，用户装置将在交谈期间记录的将用于将语音信号转换成文本的语音信号和/或包括例如应用＝录音的应用类型信息的上下文信息发送到语音识别设备。通过呼叫记录应用产生的语音信号的讲话类型可以是交谈说话类型，而不是朗读说话类型。然后，分类器200基于应用的应用类型信息确定通过呼叫记录应用产生的语音信号的讲话类型为交谈说话类型Type₁。分类器200选择映射到确定的讲话类型Type₁的解码条件{α₁,β₁,γ₁,v₁,s₁,...}。在另一示例中，分类器200可通过考虑另一条上下文信息(例如，位置信息)和/或语音信号的特征来确定语音信号的更准确的讲话类型。

分类器200将解码条件提供或输出给识别器(未示出)，诸如，图1中的识别器120。

在一个示例中，语音识别设备基于最适合于用户的当前状况或环境的解码条件来执行语音识别。因此，可得到更准确的语音识别结果。

图3是示出语音识别设备的示例的示图。

参照图3，语音识别设备300包括分类器320、DB 330、声学模型340、语言模型350和解码器360。

在图3示出的示例中，语音识别设备300接收语音信号310“I'm like everybodyyou need to read this book right now”。

分类器320确定用户的讲话类型，并确定与确定的讲话类型对应的解码条件。对于分类器320的详细描述，可对参照图1和图2提供的描述做出参考，并且为了简明，这里省略更加详细且重复的描述。

DB 330对应于参照图2描述的DB 210，因此，为了简明，这里省略DB 330的更加详细且重复的描述。

声学模型340基于语音信号310确定音素序列。例如，声学模型340是隐马尔可夫模型(HMM)、高斯混合模型(GMM)、基于深度神经网络(DNN)的模型或基于双向长短期记忆(bidirectional long short-term memory，BLSTM)的模型。然而，这些仅为示例，声学模型340不限于这些示例。

语言模型350基于音素序列识别单词。通过这样的识别，识别的候选被确定。也就是说，多条候选文本数据基于语言模型350被确定。例如，语言模型350是n元(n-gram)语言模型或基于神经网络的模型。然而，这些仅为示例，语言模型350不限于这些示例。

表2示出从语音信号310“I'm like everybody you need to read this bookright now”得到的多条候选文本数据的示例。

表2

候选1	I'm like everybody need to read this book right now
		候选2	I'm like everybody meta regensburg right now
候选3	I'm<>everybody need to read the book<>now

参照表2，候选3中的<>表示“未知”。

解码器360基于解码条件、声学模型340和语言模型350计算所述多条候选文本数据中的每个的概率。解码器360基于计算的概率确定所述多条候选文本数据之一为目标文本数据。例如，解码器360基于下面的等式1计算所述多条候选文本数据中的每个的概率，并基于计算的概率确定目标文本数据。

在等式1中，给定作为语言模型350的词汇(lexicon)L的元素的所有音素序列W之中的语音信号的识别部分O时，表示最可能的音素序列(即，具有最高概率的音素序列)，P(O|W)表示给定由声学模型340计算的音素序列W时的语音信号的识别部分O的概率，P(W)表示由语言模型350计算的音素序列W的概率。也就是说，P(O|W)表示与由声学模型340计算的音素序列(即，音素概率向量)关联的概率，P(W)表示由语言模型350计算的音素序列概率。例如，音素序列可以是单词。此外，α表示语言模型350的权重，β表示比例因子。由于P(W)是概率，因此它具有0＜P(W)＜1的值。因此，如果语言模型350的权重α大于1并且增大，则语言模型350的重要性或依赖性降低。

例如，在基于等式1，第一候选文本数据的概率被计算为0.9、第二候选文本数据的概率被计算为0.1、以及第三候选文本数据的概率被计算为0.6的情况下，解码器360确定第一候选文本数据为目标文本数据。

等式1仅包括语言模型350的权重和比例因子。基于等式1的所述多条候选文本数据中的每个的概率的计算和由解码器360进行的目标文本数据的确定仅被提供作为示例。因此，除了语言模型350的权重和比例因子之外，解码器360可基于各种解码参数来计算所述多条候选文本数据中的每个的概率，并基于计算的概率确定目标文本数据。

图4是示出语音识别设备的另一示例的示图。

参照图4，语音识别设备400包括与图3中的语音识别设备300相同的元件。然而，在图4所示的示例中，分类器320基于先前解码结果来确定与语音信号310的当前识别部分O_t对应的讲话类型。先前解码结果包括来自先前识别部分的语音识别结果。在图4的示例中，先前解码结果包括来自先前识别部分O_t-1的语音识别结果，例如，“I'm like”。在另一示例中，先前解码结果包括来自先前识别部分O_t-1的语音识别结果和来自先前识别部分O_t-1之前的另一先前识别部分O_t-2(图4中未示出)的语音识别结果。

在图4所示的示例中，如果先前解码结果“I'm like”的讲话类型为朗读说话类型，则分类器320确定与当前识别部分O_t对应的讲话类型为朗读说话类型。在另一示例中，分类器320基于先前解码结果以及语音信号310的当前识别部分O_t的特征和上下文信息中的任何一个或任何组合，来确定与当前识别部分O_t对应的讲话类型。对于特征和上下文信息的详细描述，可对参照图2提供的描述做出参考，为了简明，这里省略更加详细且重复的描述。

分类器320基于确定的与当前识别部分O_t对应的讲话类型来确定当前识别部分O_t的解码条件。

声学模型340基于当前识别部分O_t产生音素概率向量。音素概率向量是与音素序列关联的概率向量。音素概率向量可以是实数向量，例如，[0.9，0.1，0.005，……]。

语言模型350基于音素序列识别单词。此外，语言模型350基于音素概率向量预测或识别与识别的单词相连的单词，并计算预测或识别的单词中的每个的单词概率。在图4所示的示例中，语言模型350基于音素序列预测与单词“everybody”相连的单词为“need to”、“meta”和“neat”。语言模型350计算“need to”、“meta”和“neat”中的每个的单词概率。“need to”、“meta”和“neat”中的每个的单词概率指示“need to”、“meta”和“neat”中的每个与单词“everbody”相连的概率。基于语言模型350，候选文本数据(例如，“everybodyneed to”、“everybody meta”和“everybody neat”)被确定。

解码器360基于当前识别部分O_t的音素概率向量、单词概率以及解码条件，来计算多条候选文本数据中的每个的概率。如图4所示，解码器360通过将音素概率向量、单词概率以及解码条件应用到上面的等式1，计算所述多条候选文本数据(例如，“everybody needto”、“everybody meta”和“everybody neat”)中的每个的概率。解码器360基于计算的概率在所述多条候选文本数据之中确定目标文本数据。在图4所示的示例中，当候选文本数据“everybody need to”的概率被计算为在计算的概率之中最大时，解码器360选择候选文本数据“everybody need to”作为目标文本数据。

分类器320确定与后续识别部分对应的讲话类型，并确定与确定的讲话类型对应的解码条件。解码器360通过对后续识别部分执行解码来从后续识别部分产生语音识别结果。在讲话类型在语音识别期间改变的情况下，分类器320动态地改变解码条件，并且解码器360基于改变的解码条件执行解码。

在另一示例中，分类器320可不确定与后续识别部分对应的讲话类型。当用户发出交谈说话类型的声音或语音时，在用户正在发出声音或语音的同时，讲话类型从交谈说话类型改变为朗读说话类型是不太可能的。也就是说，讲话类型在语音信号正在持续期间很可能不改变。当与语音信号的识别部分对应的讲话类型被确定时，语音识别设备300可假定与该识别部分对应的讲话类型保持预设时间段，例如，直至语音信号结束。基于这样的假定，语音识别设备300使用用于对当前识别部分执行语音识别的解码条件，对后续识别部分执行语音识别。在图4所示的示例中，与当前识别部分O_t对应的讲话类型被确定为朗读说话类型，语音识别设备300在不确定与后续识别部分对应的讲话类型的情况下，使用解码条件“朗读说话”对后续识别部分执行语音识别。

图5是示出语音识别设备的另一示例的示图。

参照图5，语音识别设备500包括与图3中的语音识别设备300和图4中的语音识别设备400相同的元件。图1至图3中的示例中的分类器320位于声学模型340的外部。然而，在图5的示例中，分类器320位于声学模型340的内部。

为了实现包括分类器320的声学模型340，声学模型340的神经网络中的隐藏层和/或输出层包括至少一个分类节点，这将在下文中参照图6进行描述。

图6是示出神经网络的示例的示图。

参照图6，图5中的声学模型320基于神经网络600。神经网络600包括输入层610、多个隐藏层620和630，以及输出层640。至少一个分类节点位于隐藏层620、隐藏层630和输出层640中的任何一个中。分类节点通过连接线连接到相邻层中的至少一个节点。连接线具有连接权重。

语音信号被输入到输入层610。当输入层610接收到语音信号时，前向计算(forward computation)被执行。前向计算沿输入层610→隐藏层620和630→输出层640的方向被执行。通过前向计算，语音信号的讲话类型和音素概率向量被确定。讲话类型从分类节点被输出，音素概率向量从输出层640被输出。

图7是示出语音识别设备的另一示例的示图。

参照图7，语音识别设备700包括存储器710和处理器720。

存储器710存储可由处理器720执行的指令。

当由处理器720执行指令时，处理器720从用户的语音信号产生多条候选文本数据，确定与用户的讲话类型对应的解码条件，通过基于确定的解码条件执行解码在所述多条候选文本数据之中确定目标文本数据。

参照图1至图6提供的描述也可应用于图7所示的语音识别设备700，因此，为了简明，这里省略更加详细且重复的描述。

图8是示出语音识别方法的示例的流程图。

将在下文描述的语音识别方法可由语音识别设备(诸如，图1、图3至图5以及图7所示的语音识别设备100、300、400、500和700中的任何语音识别设备)执行。

参照图8，在操作810中，语音识别设备从用户的语音信号产生多条候选文本数据。

在操作820中，语音识别设备确定与用户的讲话类型对应的解码条件。

在操作830中，语音识别设备通过基于确定的解码条件执行解码在多条候选文本数据之中确定目标文本数据。

参照图1至图7提供的描述也可应用于图8所示的语音识别方法，因此，为了简明，这里省略更加详细且重复的描述。

参照图9，自然语言处理系统900包括用户装置910和自然语言处理设备920。在一个示例中，自然语言处理设备920可以以服务器的形式实现。

用户装置910接收用户的声音或语音。用户装置910可捕获声音或语音。用户装置910通过对声音或语音进行预处理和/或压缩来产生语音信号。用户装置910将语音信号发送到自然语言处理设备920。

例如，用户装置910是移动终端，诸如，可穿戴装置、智能电话、平板个人计算机(PC)、或被配置为控制智能家居系统的家居代理。然而，这些仅为示例，用户装置910不限于这些示例。

自然语言处理设备920包括语音识别设备921和自然语言分析设备922。语音识别设备921还可被称为语音识别引擎，自然语言分析设备922还可被称为自然语言理解(NLU)引擎。

语音识别设备921确定与语音信号对应的目标文本数据。语音识别设备921可以是图1、图3至图5以及图7所示的语音识别设备100、300、400、500和700中的任何语音识别设备，并可实现图8所示的语音识别方法，因此，为了简明，这里省略语音识别设备921的更加详细且重复的描述。

自然语言分析设备922分析目标文本数据。例如，自然语言分析设备922执行目标文本数据的语素分析(morpheme analysis)、句法分析(syntax analysis)、语义分析(semantic analysis)以及话语分析(discourse analysis)中的任意一个或者任何两个或更多个的任意组合。自然语言分析设备922通过这样的分析来确定目标文本数据的意图信息。例如，在确定与“Turn on the TV”对应的目标文本数据的情况下，自然语言分析设备922分析与“Turn on the TV”对应的目标文本数据，并确定指示用户期望打开TV的意图信息。在一个示例中，自然语言分析设备922纠正目标文本数据中的错词或语法错误。

自然语言分析设备922产生与目标文本数据的意图信息对应的控制信号和/或文本数据。自然语言处理设备920将控制信号和/或文本数据发送到用户装置910。用户装置910基于控制信号进行操作或将文本数据显示在显示器上。例如，在用户装置910接收到与指示用户期望打开TV的意图信息对应的控制信号的情况下，用户装置910打开TV。

通过被配置为执行本申请中描述的操作的硬件组件来实现执行本申请中描述的操作的图1中的语音识别设备100、分类器110和识别器120、图2中的分类器200和DB 210、图3中的语音识别设备300、图3至图5中的分类器320、DB 330、声学模型340、语言模型350和解码器360、图4中的语音识别设备400、图5中的语音识别设备500、图6中的神经网络600、输入层610、隐藏层620和630、以及输出层640、图7中的语音识别设备700、存储器710和处理器720、图9中的自然语言处理系统900、用户装置910、自然语言处理设备920、语音识别设备921和自然语言分析设备922。在适当情况下可用于执行本申请中描述的操作的硬件组件的示例包括：控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器和被配置为执行本申请中描述的操作的任何其他电子组件。在其他示例中，通过计算硬件(例如，通过一个或多个处理器或计算机)来实现执行本申请中描述的操作的一个或多个硬件组件。可通过一个或多个处理元件(诸如，逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或被配置为以限定的方式响应并执行指令以获得期望结果的任意其他装置或装置的组合)来实现处理器或计算机。在一个示例中，处理器或计算机包括(或连接到)存储由处理器或计算机执行的指令或软件的一个或多个存储器。通过处理器或计算机实现的硬件组件可执行指令或软件(诸如，操作系统(OS)和在OS上运行的一个或多个软件应用)，以执行本申请中描述的操作。硬件组件还可响应于指令或软件的执行而访问、操控、处理、创建和存储数据。为了简单，单数术语“处理器”或“计算机”可用于本申请中描述的示例的描述，但在其他示例中，多个处理器或计算机可被使用，或者一个处理器或一个计算机可包括多个处理元件或多种类型的处理元件或二者。例如，可通过单个处理器或者两个或更多个处理器或者一个处理器和一个控制器来实现单个硬件组件或者两个或更多个硬件组件。可通过一个或多个处理器或者一个处理器和一个控制器来实现一个或多个硬件组件，可通过一个或多个其他处理器或者另一处理器和另一控制器来实现一个或多个其他硬件组件。一个或多个处理器或者一个处理器和一个控制器可实现单个硬件组件或者两个或更多个硬件组件。硬件组件可具有任意一个或多个不同的处理配置，处理配置的示例包括单个处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理和多指令多数据(MIMD)多处理。

通过计算硬件(例如，通过被实现为如上面描述地执行指令或软件以执行本申请中描述的由方法执行的操作的一个或多个处理器或计算机)来执行在图8中示出的执行本申请中描述的操作的方法。例如，可通过单个处理器或者两个或更多个处理器或者一个处理器和一个控制器来执行单个操作或者两个或更多个操作。可通过一个或多个处理器或者一个处理器和一个控制器来执行一个或多个操作，可通过一个或多个其他处理器或者另一处理器和另一控制器来执行一个或多个其他操作。一个或多个处理器或者一个处理器和一个控制器可执行单个操作或者两个或更多个操作。

控制计算硬件(例如，一个或多个处理器或计算机)实施硬件组件并执行如上面描述的方法的指令或软件可被编写为计算机程序、代码段、指令或其任何组合，用于单独或共同地指示或配置所述一个或多个处理器或计算机作为机器或专用计算机进行操作，以执行由硬件组件执行的操作和如上所述的方法。在一个示例中，指令或软件包括直接由所述一个或多个处理器或计算机执行的机器码(诸如，由编译器产生的机器代码)。在另一示例中，指令或软件包括由所述一个或多个处理器或计算机使用解释器执行的高级代码。可使用任何编程语言基于附图中示出的框图和流程图以及说明书中的相应描述来编写指令或软件，附图和说明书公开了用于执行由硬件组件执行的操作和如上所述的方法的算法。

用于控制计算硬件(例如，一个或多个处理器或计算机)实现硬件组件并且执行如上所述的方法的指令或软件以及任何相关联的数据、数据文件以及数据结构可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中，或被记录、存储或固定在一个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括只读存储器(ROM)、随机存取存储器(RAM)、闪存、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态磁盘以及被配置为以非暂时性方式存储指令或软件以及任何相关联数据、数据文件和数据结构并将指令或软件和任何关联数据、数据文件和数据结构提供给一个或多个处理器或计算机以使所述一个或多个处理器或计算机能够执行指令的任何其他装置。在一个示例中，指令或软件以及任何相关联数据、数据文件和数据结构被分布在连网的计算机系统上，以使指令和软件以及任何相关联数据、数据文件和数据结构以分布的方式被所述一个或多个处理器或计算机存储、访问和执行。

虽然本公开包括特定示例，但是在理解本申请的公开之后将清楚的是：在不脱离权利要求和它们的等同物的精神和范围的情况下，可在这些示例中进行形式上和细节上的各种改变。在此描述的示例应仅在描述意义上考虑，而非为了限制的目的。每个示例中的特征或方面的描述将被视为可被应用于其他示例中的相似特征或方面。如果按照不同顺序执行描述的技术，和/或如果按照不同方式组合描述的系统、架构、装置或电路中的组件和/或由其他组件或其等同物来替代或补充描述的系统、架构、装置或电路中的组件，则可实现适当的结果。因此，本公开的范围并非由具体实施方式限定，而是由权利要求和它们的等同物所限定，并且权利要求和它们的等同物的范围内的所有变化将被解释为包括在本公开中。

Claims

1.一种语音识别方法，包括：

从用户的语音信号产生多条候选文本数据；

确定与用户的讲话类型对应的解码条件；

通过基于确定的解码条件执行解码，在所述多条候选文本数据之中确定目标文本数据。

2.根据权利要求1所述的语音识别方法，还包括：基于语音信号的特征、上下文信息、以及来自语音信号的识别部分的语音识别结果中的任意一个或者任意两个或更多个的任意组合，确定讲话类型。

3.根据权利要求2所述的语音识别方法，其中，上下文信息包括用户位置信息、用户配置文件信息以及在用户装置中执行的应用的应用类型信息中的任意一个或者任意两个或更多个的任意组合。

4.根据权利要求1所述的语音识别方法，其中，确定解码条件的步骤包括：响应于讲话类型被确定，从映射信息选择映射到确定的讲话类型的解码条件，其中，映射信息包括多个讲话类型和分别映射到所述多个讲话类型的相应的多个解码条件。

5.根据权利要求1所述的语音识别方法，其中，确定目标文本数据的步骤包括：

将当前解码条件改变为确定的解码条件；

基于确定的解码条件计算所述多条候选文本数据中的每个的概率；

基于计算的多个概率，在所述多条候选文本数据之中确定目标文本数据。

6.根据权利要求1所述的语音识别方法，其中，确定目标文本数据的步骤包括：

基于确定的解码条件，调节声学模型的权重和语言模型的权重中的任何一个或两者；

通过基于声学模型的权重和语言模型的权重中的任何一个或两者执行解码，来确定目标文本数据。

7.根据权利要求1所述的语音识别方法，其中，产生多条候选文本数据的步骤包括：

基于声学模型从语音信号确定音素序列；

基于语言模型从确定的音素序列识别多个单词；

基于识别的多个单词产生所述多条候选文本数据。

8.根据权利要求7所述的语音识别方法，其中，声学模型包括被配置为基于语音信号的特征确定讲话类型的分类器。

9.根据权利要求1所述的语音识别方法，其中，解码条件包括：声学模型的权重、语言模型的权重、与对音标分布的依赖性关联的比例因子、倒谱均值和方差标准化、以及解码窗口大小中的任意一个或者任意两个或更多个的任意组合。

10.一种存储指令的非暂时性计算机可读介质，当由处理器执行所述指令时，使处理器执行权利要求1的语音识别方法。

11.一种语音识别设备，包括：

处理器；

存储器，被配置为存储可被处理器执行的指令；

其中，响应于执行所述指令，处理器被配置为：

从用户的语音信号产生多条候选文本数据；

确定与用户的讲话类型对应的解码条件；

12.根据权利要求11所述的语音识别设备，其中，处理器还被配置为：基于语音信号的特征、上下文信息、以及来自语音信号的识别部分的语音识别结果中的任意一个或者任意两个或更多个的任意组合，确定讲话类型。

13.根据权利要求12所述的语音识别设备，其中，上下文信息包括用户位置信息、用户配置文件信息以及在用户装置中执行的应用的应用类型信息中的任意一个或者任意两个或更多个的任意组合。

14.根据权利要求11所述的语音识别设备，其中，处理器还被配置为：响应于讲话类型被确定，从映射信息选择映射到确定的讲话类型的解码条件，其中，映射信息包括多个讲话类型和分别映射到所述多个讲话类型的相应的多个解码条件。

15.根据权利要求11所述的语音识别设备，其中，处理器还被配置为：

将当前解码条件改变为确定的解码条件；

16.根据权利要求11所述的语音识别设备，其中，处理器还被配置为：

17.根据权利要求11所述的语音识别设备，其中，处理器还被配置为：

基于声学模型从语音信号确定音素序列；

基于语言模型从所述音素序列识别多个单词；

基于识别的多个单词产生所述多条候选文本数据。

18.根据权利要求17所述的语音识别设备，其中，声学模型包括被配置为基于语音信号的特征确定讲话类型的分类器。

19.根据权利要求11所述的语音识别设备，其中，解码条件包括：声学模型的权重、语言模型的权重、与对音标分布的依赖性关联的比例因子、倒谱均值和方差标准化、以及解码窗口大小中的任意一个或者任意两个或更多个的任意组合。

20.一种语音识别方法，包括：

接收用户的语音信号；

基于语音信号确定用户的讲话类型；

基于与确定的讲话类型对应的预定信息，从语音信号识别文本数据。

21.根据权利要求20所述的语音识别方法，还包括：从映射信息选择所述预定信息，其中，映射信息包括多个讲话类型和分别映射到所述多个讲话类型的相应的预定信息。

22.根据权利要求20所述的语音识别方法，其中，预定信息包括至少一个解码参数；

识别文本数据的步骤包括：

从语音信号产生多条候选文本数据；

基于与确定的讲话类型对应的所述至少一个解码参数，对所述多条候选文本数据执行解码；

基于解码的结果，选择所述多条候选文本数据中的一个作为识别的文本。

23.根据权利要求22所述的语音识别方法，其中，产生多条候选文本数据的步骤包括：

基于声学模型从语音信号确定音素序列；

通过基于语言模型从所述音素序列识别多个单词，来产生所述多条候选文本数据。

24.根据权利要求23所述的语音识别方法，其中，所述至少一个解码参数包括：声学模型的权重、语言模型的权重、与对音标分布的依赖性关联的比例因子、倒谱均值和方差标准化、以及解码窗口大小中的任意一个或者任意两个或更多个的任意组合。

25.根据权利要求23所述的语音识别方法，其中，声学模型产生音素概率向量；

语言模型产生单词概率；

执行解码的步骤包括：基于音素概率向量、单词概率以及与确定的讲话类型对应的所述至少一个解码参数，对所述多条候选文本数据执行解码。

26.根据权利要求20所述的语音识别方法，其中，识别文本数据的步骤包括：基于与确定的讲话类型对应的预定信息，从语音信号的当前识别部分识别文本数据；

确定用户的讲话类型的步骤包括：基于之前从语音信号的先前识别部分识别的文本数据，来确定用户的讲话类型。