CN115346520A

CN115346520A - 语音识别的方法、装置、电子设备和介质

Info

Publication number: CN115346520A
Application number: CN202210974444.XA
Authority: CN
Inventors: 陈金坤; 侯俊峰; 李婉瑜; 张骏; 马泽君
Original assignee: Beijing Youzhuju Network Technology Co Ltd
Current assignee: Beijing Youzhuju Network Technology Co Ltd
Priority date: 2022-08-15
Filing date: 2022-08-15
Publication date: 2022-11-15

Abstract

本公开的实施例涉及语音识别的方法、装置、电子设备和介质。该方法包括获取流式语音的声学表示和流式语音的已识别部分的语义表示。该方法还包括获取流式语音的对话上下文。该方法还包括基于声学表示、流式语音的已识别部分的语义表示和对话上下文，生成流式语音的识别结果。通过本公开的实施例能够使得语音识别的准确度更高。

Description

语音识别的方法、装置、电子设备和介质

技术领域

本公开的实施例涉及计算机领域，并且更具体地，涉及语音识别的方法、装置、电子设备和介质。

背景技术

语音识别是指对说出的语音进行识别，并将其转换成对应文字的技术。随着自然语言处理技术的发展，已经具有对以流式传输方式接收的语音进行识别的技术。在以流式传输方式接收的语音中，语音识别模型无法感知到用户在下文所说的内容，只能知道当前语句的历史信息，因此识别的难度较大，导致识别率较差。

发明内容

本公开的实施例提供了一种语音识别的方法、装置、电子设备和计算机可读存储介质。

根据本公开的第一方面，提供了一种语音识别的方法。该方法包括获取流式语音的声学表示和流式语音的已识别部分的语义表示。该方法还包括获取流式语音的对话上下文。该方法还包括基于声学表示、流式语音的已识别部分的语义表示和对话上下文，生成流式语音的识别结果。

在本公开的第二方面中，提供了一种语音识别的装置。该装置包括语音获取模块，被配置为获取流式语音的声学表示和流式语音的已识别部分的语义表示。该装置还包括上下文获取模块，被配置为获取流式语音的对话上下文。该装置还包括识别结果生成模块，被配置为基于声学表示、流式语音的已识别部分的语义表示和对话上下文，生成流式语音的识别结果。

根据本公开的第三方面，提供了一种电子设备。该电子设备包括处理器以及与处理器耦合的存储器，存储器具有存储于其中的指令，指令在被处理器执行时使电子设备执行根据第一方面所述的方法。

在本公开的第四方面中，提供了一种计算机可读存储介质。该计算机可读存储介质上存储有一条或多条计算机指令，其中一条或多条计算机指令被处理器执行以实现根据第一方面所述的方法。

提供发明内容部分是为了以简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征，也无意限制要求保护的主题的范围。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其它特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了根据本公开的某些实施例的语音识别方法能够在其中实现的示例环境的示意图；

图2示出了根据本公开的某些实施例的语音识别方法的流程图；

图3示出了根据本公开的一个实施例的语音识别的过程的示意图；

图4示出了根据本公开的另一个实施例的语音识别的过程的示意图；

图5示出了根据本公开的某些实施例的确定语义关联表示的过程的示意图；

图6示出了根据本公开的某些实施例的用于语音识别的装置的框图；以及

图7示出了根据本公开的某些实施例的用于语音识别的设备的框图。

在所有附图中，相同或相似参考数字表示相同或相似元素。

具体实施方式

可以理解的是，在使用本公开各实施例公开的技术方案之前，均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。

例如，在响应于接收到用户的主动请求时，向用户发送提示信息，以明确地提示用户，其请求执行的操作将需要获取和使用到用户的个人信息。从而，使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。

作为一种可选的但非限定性的实现方式，响应于接收到用户的主动请求，向用户发送提示信息的方式例如可以是弹窗的方式，弹窗中可以以文字的方式呈现提示信息。此外，弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。

可以理解的是，上述通知和获取用户授权过程仅是示意性的，不对本公开的实现方式构成限定，其它满足相关法律法规的方式也可应用于本公开的实现方式中。

可以理解的是，本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包括，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其它明确的和隐含的定义。

在本公开中使用的术语“语音”是指设备接收到的声音，例如用户说话的声音。术语“流式语音”特指以流式传输方式接收的语音，以在线语音识别过程作为示例，语音识别模型一边接收语音，一边实时输出识别结果，其识别延迟较小。术语“对话上下文”是指，在对话中，两个用户之间可以交替说话，每一次交替可以被称为一轮(例如，一问一答的过程)，因此一轮对话中的先前的一句或几句话可以体现对话参与者的意图，这些能体现对话参与者意图的语音被称为“对话上下文”。可以理解，“对话上下文”作为整体来使用，是指对话的语境，不能被拆分为“上文”和“下文”，“对话上下文”是指对话中当前语句的历史信息。

在本公开中使用的术语“文本”是指以文字呈现的语音的内容，其具有思想内容和含义，能被掌握该语言的使用者理解，并且在本公开中“文本”与“字”可以互换使用。在本公开中使用的术语“表示”是指将文本映射为对应的向量，例如词嵌入向量，以便于计算系统处理。可以使用的将文本映射为表示的技术的示例可以是已知的word2vec技术或one hot技术，也可以使用经过训练的编码器将文本编码为与其相对应的更高维度的表示，本公开对此不做限制。

在本文中使用的术语“识别”是指将“语音”转换为“文本”的过程。在本公开的上下文中，为讨论描述方便之目的，使用两个用户之间的问答过程作为语音识别过程的示例。通常，识别过程可以借助于相应的语音识别模型来实现。因此，在下文描述中有时将使用术语“模型”或“层”来指代相应的语音识别过程。

在本文中使用的术语“训练”或“学习”是指利用经验或者数据优化系统性能的过程。例如，语音识别系统可以通过训练或学习过程，逐渐优化语音识别性能，例如提高识别出的文本的准确性。在本公开的上下文中，为讨论方便之目的，术语“训练”或者“学习”可以互换使用。

在本文中使用的术语“语音识别方法/模型”是指依据与特定语言的句法、语法、词法，以及该语言的声学特性等相关联的先验知识建立的方法/模型，可以用于在语音识别过程中生成对应的文本。在本公开中，“文本”将以汉语文本作为示例进行描述，但“文本”也可以是其他语言的文本。

另外，本文所有具体数值都是示例，仅是为了帮助理解，绝无限定范围之意图。

发明人注意到，在语音交互中，用户所说的语音内容的语义往往与其所处的上下文密切相关。特征地，在对话中，对话上下文往往包含一些与当前语音相关的关键信息。例如，如果某用户说：“你的属相是什么？”那么，对另一用户的回答“是龙”进行语音识别时，就可以缩小语音“龙”的候选文本范围，因为汉语中存在许多“龙”的同音字。由此可见，可以利用这些关键信息提升对话的语音识别的准确率。

为了解决上述缺点，本公开的实施例提供了一种语音识别的方案。该方案提取对话中的上下文语音中的关键信息，并且确定该关键信息与当前正在接收的流式语音的相关性(即语义关联表示)。利用该语义关联表示去优化对流式语音的识别。这样，可以使得识别流式语音时参考了相关的上下文语音中的关键信息，能够使得语音识别的准确度更高。

在下文描述中，某些实施例将参考两个用户的汉语对话过程来讨论。但是应当理解，这仅仅是为了使本领域普通技术人员更好地理解本公开实施例的原理和思想，而无意以任何方式限制本公开的范围。

图1示出了根据本公开的某些实施例的语音识别方法能够在其中实现的示例环境100的示意图。如图1所示，示例环境100可以包括电子设备110，其可以是用户终端、移动设备，计算机等，其也可以为计算系统、单个服务器、分布式服务器、或者基于云的服务器。电子设备110可以接收流式语音140并进行识别，电子设备110还可以调用其存储的对话上下文130，或者通过网络接收对话上下文130。如前所述，对话上下文130可以理解为已经接收到的语音并且对当前正在接收的流式语音140的准确识别有贡献。流式语音140可以理解为正在接收的语音。

在电子设备110中，还可以配置有语音识别模型120。例如，在电子设备110中部署语音识别模型120。语音识别模型120可以被用以基于对话上下文130和流式语音140来生成当前语音的识别结果150。语音识别模型120可以基于机器学习模型的架构，通过利用与流式语音的声学特性、上下文语音的识别结果相关联的损失函数来训练得到。其中，训练语料可以在正确语料的基础上，替换一部分含有错误的语料来进行训练，这样可以增加语音识别模型的鲁棒性和灵活性。利用误差反向传播算法使机器学习模型学习到优化的模型参数，并且得到最终的语音识别模型以用于推理阶段。

应当理解，仅出于示例性的目的来描述示例环境100中的架构和功能，而不暗示对本公开的范围的任何限制。本公开的实施例还可以被应用到具有不同的结构和/或功能的其他环境中。

下文将结合图2至图5详细描述根据本公开实施例的过程。为了便于理解，在下文描述中提及的具体数据均是示例性的，并不用于限定本公开的保护范围。可以理解，以下描述的实施例还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

图2示出了根据本公开的某些实施例的语音识别方法200的流程图。在框202处，获取流式语音的声学表示和流式语音的已识别部分的语义表示。例如，语音识别模型120获取流式语音140的声学表示和流式语音140的已识别部分的语义表示。

可以理解，该声学表示以高维向量(仅作为示例，例如64维、128维、256维等等)的形式表示语音的声学特性，例如，表示音色的能量集中区、共振峰频率、共振峰强度和带宽，以及表示语音韵律特性的时长、基频、平均语声功率等。同理，该语义表示以高维向量的形式表示语音对应的文本之间语义关系。关于如何获取声学表示和语义表示，将在下文结合图3和图4的示例来具体描述。

在框204处，获取流式语音的对话上下文。为了帮助理解，仅作为示例来描述，如果对话上下文为“你的属相是什么”，那么可以基于其语义，确定出其中的关键信息为“属相”，即对话参与者的意图与属相有关。在当前的流式语音中，则应该包括的关键信息为属相。

因此，在该示例中，对话上下文相对于流式语音的语义关联表示则体现了与“属相”相关联的语义信息。当然，“语义关联表示”也是高维向量，因此其本身不具有可解释性，但是依然可以参考上述示例来理解。关于如何确定语义关联表示，将在下文结合图5来具体描述。

应当理解，框202中的动作可以在框204之前完成，也可以在框204之后完成。备选地，框202中的动作还与框204中的动作同时完成，或者交叉完成。本公开的实施例对于框202中的动作和框204中的动作的时序关系不做限定。

在框206处，基于声学表示、流式语音的已识别部分的语义表示和对话上下文，生成流式语音的识别结果。可以理解，流式语音的已识别部分的语义表示是指当前语句的语义表示。例如，继续以上述示例来描述，如果当前流式语音为“是龙”，并且“是”为已经被识别的部分。语义关联表示已经体现了对话上下文的意图“属相”，同时，由声学表示和语义表示可以确定未识别部分应该是一个字，并且与发音为“long”的字相关联。那么，未识别部分的识别结果可以被确定为“龙”，而不是与“龙”同音的其他字，例如“珑”。可以理解，在识别结果输入前，已经识别的部分也可以根据最新的对未识别部分的识别结果来调整，以修正之前的识别错误。

这样，由于将对话上下文中包括的关键信息以语义关联表示的形式反馈给了当前正在识别的流式语音，可以使得识别过程中参考对话参与者的意图，使得在众多候选识别结果中，能够将候选识别结果限制在与该“意图”相关的范围内，提高了正确识别结果被选择的概率，从而令语音识别的准确度得到提高。

图3示出了根据本公开的某些实施例的语音识别的过程300的示意图。图3示出的过程300例如可以在图1中的语音识别模型120中实现。在过程300中，可以基于预测器320、音频编码器322、上下文编码器324、联合层326、以及归一化层328来实现图2中的方法200。图2中的语义表示和声学表示也可以通过过程300而被确定。

在过程300中，预测器320被用以根据当前接收到的流式语音140的已识别部分的文本预测出下一个文本的向量。例如，对于正在接收的流式语音140是“是龙”，已经识别出的部分是“是”。则在这种情况下，预测器320的输入y_1：u-1(或者可以表示为Y＝[y₁，y₂，...，y_u])可以表示“是”，输出

可以表示为“龙”的向量，其中u可以理解为步长，例如在该示例中为一个步长为一个字，1：u-1表示从第1个已识别的字到第u-1个已识别的字。

在一些实施例中，预测器320将流式语音140的已识别部分y_1：u-1与语义关联表示的混合向量(即混合后的语义表示)编码为向量

例如通过以下公式(1)来计算：

其中，f^pred()表示预测器编码的操作符。y′_1：u-1表示混合后的语义表示。

在一些实施例中，上下文编码器324可以被用以确定对话上下文130与流式语音140的已识别部分的语义关联表示

并且将该语义关联表示

与已识别部分的表示y_1：u-1混合。例如，上下文编码器324可以确定对话上下文130的文本w_1：k与流式语音140的已识别部分的向量

的语义关联表示

语义关联表示

的维度可以与已识别部分的表示y_1：u-1相同，因此可以将语义关联表示

与已识别部分的表示y_1：u-1混合(例如，相加)。将混合后的y′_1：u-1输入预测器320。这样，对于预测器320来说，混合后的y′_1：u-1具有与对话上下文130相关联的关键信息(例如，对话参与者的意图，语义相关性等)。作为示例，混合后的语义表示可以利用公式(2)来确定：

其中，M()表示混合向量的操作。

由于利用上下文编码器324确定了对话上下文在流式语音中的语义关联表示(即基于语义的有效表征信息)，并且将语义关联表示加入了当前正在识别的流式语音的语义表示中，可以使得混合后的语义表示融合了对话上下文中的有效的关键信息。因此，在针对流式语音的识别效果上，参考了有用的历史信息，降低了错误的识别结果。

音频编码器322被用以根据接收到的流式语音140来确定该语音的声学特征的表示(即，声学表示)。例如，根据接收到的语音x_1：t，确定其声学特征的声学表示h^enc。作为示例，语音x_1：t可以表示“我的属性是龙”的语音，其中x可以表示流式语音140，并且通常流式语音在帧中被接收。1：t表示从第1帧到第t帧。可以理解，音频编码器322生成的声学表示h^enc也是向量。

在一些实施例中，音频编码器322接收T帧的声音，并且以向量X＝[x₁，x₂，...，x_T]来表示。音频编码器322可以基于X生成向量序列

为了降低处理量，可以对T帧进行下采样。例如选择大于1的采样间隔D，令T’＝T/D。具体地，可以通过公式(3)来生成H^enc：

H^enc＝f^enc(X) 公式(3)

其中f^enc表示音频编码操作的操作符。

例如，在联合层326(例如，前馈神经网络FFN)中，可以结合

和h^enc以生成高维的向量矩阵。该向量矩阵可以表示字典中每个字的“概率向量”。但值得注意的是，此时该“概率向量”是以向量的形式表示的，因此不一定都在0-1之间，这些向量的和也不一定等于1。字典是生活中常用词的字典，也可以是专门确定某领域的字典，本公开对此不做限制。

在归一化层328中，将向量矩阵归一化，即将每个字的“概率向量”转换为大于等于0并且小于等于1的概率值，并且全部字的概率值的和等于1。作为示例，可以选择概率最大的字作为步长u处的输出，即将流式语音140的第u个字确定为经归一化后的概率最大的字。仅作为示例，在归一化时，可以使用softmax函数，或使用其他归一化方法。

作为示例，在确定了h^enc和

后，可以结合两者，利用前馈神经网络并且跟随归一化softmax函数来确定对预测的文本的概率。即根据以下公式(4)来计算条件概率：

其中，Softmax()表示归一化函数，f^joint()表示将结合操作符，p（y∣t，u)表示在给定t帧和步长u的y的条件概率。

上下文编码器324可以被用以确定对话上下文130与流式语音140的已识别部分的语义关联表示。例如，上下文编码器324可以确定对话上下文130的文本w_1：k与流式语音140的已识别部分的向量

的语义关联表示

语义关联表示

与已识别部分的表示y_1：u-1混合(例如，相加)。将混合后的y_1：u-1输入预测器320。这样，对于预测器320来说，混合后的y_1：u-1具有与对话上下文130相关联的关键信息(例如，对话参与者的意图，语义相关性等)。

图4示出了根据本公开的某些实施例的语音识别的过程400的示意图。图4示出的过程400例如可以在图1中的语音识别模型120中实现。在图4中，预测器420、联合层426、归一化层428、向量矩阵分别与图3中的预测器320、联合层326、归一化层328、向量矩阵具有相似的结构与功能，因此不再赘述。与图3不同的是，图4中的上下文编码器424与音频编码器422相连接。

在上下文编码器424中，可以基于对话上下文的文本w_1：k以及降低维度后的声学表示

来确定语义关联表示

将确定的语义关联表示

再输入音频编码器422。可以理解，该语义关联表示

可以体现出对话上下文相对于流式语音140在声学特性上的重要性，其也包含了对话上下文的“意图”或关键信息。此时，音频编码器422可以结合语义关联表示

来生成声学表示

并且输入联合层426。

由于利用上下文编码器424确定了对话上下文在流式语音中的语义关联表示(即基于声学的有效表征信息)，并且将语义关联表示加入了当前正在识别的流式语音的声学表示中，可以使得混合后的声学表示融合了对话上下文中的有效信息。在针对流式语音的识别效果上，参考了有用的历史信息，降低了错误的识别结果。

作为示例，音频编码器422被用以根据接收到的语音来确定该语音的声学特征。例如，根据接收到的语音x_1：t，确定其声学特征的声学表示

作为示例，语音x_1：t可以表示“我的属性是龙”的语音，其中x表示语音，语音以帧的形式被接收，1：t表示从第1帧到第t帧。可以理解，音频编码器422生成的声学表示

也是向量。此外，音频编码器422可以基于生成的声学表示

来生成降低维度后声学表示

例如，经过2个神经网络层(例如，LSTM层)来降维，以降维到与语义关联表示C_t相同的维度。

值得注意的是，图3与图4示出的过程可以单独地或组合在一起实现。图3示出的语义关联表示与语义表示相结合，而图4示出的语义关联表示则与声学特征相结合，因此可以根据实施环境与个性化的需要，例如根据用户设备的硬件性能、网络性能等，选择单独或组合地实现过程300或过程400。

图5示出了根据本公开的某些实施例的确定语义关联表示的过程500的示意图。图5示出的过程500例如可以在图3示出的上下文编码器324和/或图4示出的上下文编码器424中实现。

在过程500中，以对话上下文的文本w_1：t作为输入，语义表示模型502(例如，基于BERT的自然语言模型)可以提取出文本w_1：t的高维语义表示C_embd并且作为(键K 506，值V508)向量对。作为示例，BERT模型可以对上下文序列W＝[w₁，w₂，...，w_k]进行语义关系提取，并且提供公式(5)来确定：

C_embd＝BERT([w₁，w₂，...，w_k]) 公式(5)

其中，BERT()表示基于BERT模型进行语义关系提取操作，k表示第k个文本。

当过程500在图3示出的编码器324中实现时，可以以流式语音140的已识别部分的向量

作为查询向量Q 504，注意力层510利用注意力机制(例如，计算查询向量504与键，值向量对之间的相似程度)来计算出对话上下文与流式语音140的已识别部分的语义相关性向量。该语义相关性向量被输入前馈神经网络层512并且生成语义关联表示C 514。作为示例，可以通过公式(6)来计算：

C＝FFN(f^attn(Q，C_embd) 公式(6)

其中，FFN()表示前馈神经网络操作，f^attn()表示标准注意力操作，其将Q作为查询向量，将K和V作为键key向量和value值向量。

在一些实施例中，在将语义关联表示C应用于预测器或音频编码器之前，可以门控机制来缩小其贡献。基于语义关联表示C，门控输出

可以利用公式(7)和公式(8)来计算：

g＝Sigmoid(W(Q，C)+b 公式(7)

其中，g表示门控值；⊙表示门控操作；Sigmoid()表示Sigmoid函数；b表示偏移参数。

当获取了门控后的语义关联表示

后，可以利用基于LSTM模型的预测器来生成流式语音140的未识别部分的向量

作为示例，

可以利用公式(9)来计算：

其中，

表示基于图3的过程计算的门控后的语义关联表示；e_u-1表示对LSTM模型之前预测的第u-1个文本的词嵌入向量。

当过程500在图4示出的编码器424中实现时，可以以降低维度后的声学表示

作为查询向量504，注意力层510利用注意力机制(例如，计算查询向量504与键向量506之间的语义相关性)来计算出对话上下文与维度后声学表示

的语义相关性向量。该语义相关性向量被输入前馈神经网络层FFN 512并且生成语义关联表示C 514。

作为示例，在LSTM模型中建立多个单向LSTM层和时间缩减层。时间缩减层沿着模型框架对语音序列进行下采样。其中，可以将第n层(仅作为示例，n＝2)如LSTM的输出

作为查询向量Q 504，并且与门控后的语义关联表示

相结合，并且馈送入第2层LSTM层之后的LSTM层中以获取

作为示例，可以利用公式(10)和公式(11)来计算：

其中，LSTMs表示通过多个LSTM层的操作。

这样，由于对对话上下文中关键信息的注意力集中的上下文编码器被放在下采样层之后，可以显著降低计算开销并且促进对话上下文和声学特征之间的有效整合，使得对话上下文在当前流式语音中的有效表征信息与当前流式语音深度融合，使得识别准确率被进一步提升。

在一些实施例中，上述方法和过程可以在经训练的语音识别模型中执行。例如方法200、过程300、过程400和过程500都可以在语音识别模型120中实现。在一些实施例中，语音识别模型120可以基于RNN、LAS、CTC等技术框架通过训练而优化模型参数来实现。

在传统的语音识别模型训练中，可以基于已经标注好的正确的训练数据来训练语音识别模型。然而，在实际应用中，语音识别模型难免出现错误。由于训练期间的对话上下文通常是正确历史话语，因此语音识别模型可能会受到训练阶段和推理阶段之间对话上下文不匹配的影响。这样，如果将含有错误的历史语音的识别结果作为上下文语音来识别当前语音，那么可能会造成更加错误的识别结果。

为了使语音识别模型120的性能更优，本公开的还使用了两种类型的样本数据来训练语音识别模型120。可以理解，同时输入有对话历史(即对话上下文)的样本数据(即第一样本数据)和无对话历史的样本数据(即第二样本数据)，使得语音识别模型能够感知到同一条当前流式语音在有对话历史(也被称为对话上下文)和无对话历史时的差异，更有针对性地从对话历史中学到语义关联的信息，提升了模型的整体性能。但是，也存在一种情况，实际应用时，也存在对话上文缺失的情况。那么，如果仅仅使用有对话历史的样本数据来训练语音识别模型是不足够的。

因此，本公开使用联合无对话历史的样本数据和有对话历史的样本数据来联合训练语音识别模型，使得语音识别模型在两种情况下都具有较高的语音识别正确率。在没有对话上下文时，语音识别正确率也不会下降，因为采样这样的训练方法能够使模型适应对话历史缺失的情况，对无对话上下文的语音仍保持良好的识别正确率。

另一方面，训练时，如果以历史对话语音的正确标注作为对话上下文，而在实际应用(推理阶段)时，是以历史对话语音的识别结果作为对话上下文。因为语音识别很可能会有识别错误，导致训练和测试两阶段中的对话上下文的正确性有差异，从而使得语音识别模型的效果不如预期。

因此，一种较高效的方法是在训练时就提供一些扰动样本数据(即含有部分错误的标注文本)，利用这些扰动来训练语音识别模型。在一些实施例中，在准备训练数据时，会对每一条语音的对话历史标注以一定的概率随机去替换、插入或删除某个字符，用来模拟的真实测试场景中语音识别模型的字错误率为上述概率时的识别结果。该方法几乎不引入额外的计算开销，同时有效解决了上述问题，且保证了高效的训练效率。

在一些实施例中，其中所述错误的标注文本至少包括以下一项：将正确文本识别为其同音字(例如，将“是龙”中的“龙”识别为其同音字)；没有识别出所述正确文本(例如，将“是龙”中的“龙”识别为“珑”)；以及除了识别出所述正确文本之外，还识别出其他错误文本(将“是龙”识别为“是的龙”，即多识别了“的”)。

本公开示出的方法200可以在对话系统、语音助手、聊天机器人等产品和其他语音交互类产品中使用。在一些实施例中，其中流式语音来自对话的参与者中的用户A(被称为第一用户)，并且对话上下文来自用户A或者用户B(被称为第二用户)。总的来说，本公开的方法不限制对话上下文来自哪个用户，对话上下文可以来自相同或不同的用户。

综合图2至图5的描述可以看出，本公开可以在机器学习模型或深度学习模型中使用，这些模型可以依据本公开的训练方法学习到合适的参数并且获取到较好的性能。同时，由于深度结合了对话上下文信息，因此有效地提升了语音识别的正确率。此外，在模型的训练阶段还使用了联合两种训练样本数据的方法，能有效解决实际应用中对话上下文缺失导致的识别率下降的问题，而利用训练数据的扰动可以进一步提升模型的语音识别正确率。

图6示出了根据本公开的某些实施例的用于语音识别的装置600的框图。如图6所示，装置600包括语音获取模块602，被配置为获取流式语音的声学表示和流式语音的已识别部分的语义表示。装置600还包括上下文获取模块604，被配置为获取流式语音的对话上下文。装置600还包括识别结果生成模块606，被配置为基于声学表示、流式语音的已识别部分的语义表示和对话上下文，生成流式语音的识别结果。

在一些实施例中，装置600可以被配置为利用图5所示的过程500以及公式(5)至公式(8)来确定语义关联表示。在一些实施例中，装置600还可以被配置为利用图3的过程300，以及公式(1)至公式(4)、公式(9)来确定流式语音140的识别部分。在一些实施例中，装置600还可以被配置为利用图4的过程400，以及公式(1)至公式(4)、公式(10)、公式(11)来确定流式语音140的未识别部分。这些都可以参考图3至图5的描述来理解，本文在此不再赘述。

在一些实施例中，装置600还包括训练模块，被配置为有对话历史的样本数据(被称为第一样本数据)和/或无对话历史的样本数据(被称为第二样本数据)来训练语音识别模型120。在一些实施例中，训练模块还包括替换子模块，被配置为对每条语音的对话历史标注以一定的随机概率去替换、插入或删除某个字符，用这种方式来准备训练的样本数据，即扰动样本数据。

通过本公开的装置600，可以将对话上下文中包括的关键信息以语义关联表示的形式反馈给当前正在识别的流式语音，从而实现如方法200一样的至少一个优点，例如提高正确识别结果的概率，从而优化了语音识别的准确度。又例如使用联合训练策略和扰动样本数据，使模型适应对话上下文缺失的情况，对无对话上下文的流式语音仍保持良好的识别正确率，等等。

根据本公开的一些实施例的语音识别效果可以参考表1至表3。表1示出了在Switchboard任务的一些实验结果。Switchboard任务是识别英文对话语音，其中超过有2000小时的语料。可以看出，基于SWB(Switchboard)测试集和基于CH(Callhome)测试集的实验结果都具有相对于基线更低的WER(WORD ERROR RATE单词错误率)得分。无论单独的过程300或过程400，都降低了WER。过程300和过程400组合使用后，更加降低了WER。

表1本公开与基线的WER对比

模型	SWB	CH
			基线	10.4	16.6
过程300	10.1	16.0
			过程400	10.0	16.0
过程300+过程400	10.00	15.9

表2示出了在Switchboard任务上使用了联合训练策略训练的语音识别模型的实验结果。在实验中，以模型识别结果hypotheses(hyp)作为对话上下文。可以看出，基于SWB测试集和基于CH测试集的实验结果都具有相对于基线更低的WER。在过程300的基础上，在使用了联合训练策略后的WER明显低于没有使用联合训练策略后的WER。

表2本公开的联合训练与基线的对比

表3示出了在Switchboard任务上使用了加入扰动样本数据训练的语音识别模型的实验结果。在实验中，继续以模型hyp作为对话上下文。可以看出，基于SWB测试集和基于CH测试集的实验都具有相对于基线更低的WER得分，并且加了扰动样本数据训练之后，进一步地降低了WER。

表3本公开的联合训练和扰动与基线的对比

由表1至表3可以看出，本公开提出的语音识别模型由于模型结构的原因降低了单词错误率，而且由于训练方法的改进进一步地降低了识别错误率。因此，实现了如前文所述的至少一个优点。

图7示出了根据本公开的某些实施例的用于语音识别的设备700的框图，设备700可以是本公开的实施例所描述的设备或装置。如图7所示，设备700包括中央处理单元(CPU)和/或图形处理单元(GPU)701，其可以根据存储在只读存储器(ROM)702中的计算机程序指令或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序指令，来执行各种适当的动作和处理。在RAM 703中，还可以存储设备700操作所需的各种程序和数据。CPU/GPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。虽然未在图7中示出，设备700还可以包括协处理器。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如互联网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个方法或过程可以由CPU/GPU 701来执行。例如，在一些实施例中，方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序被加载到RAM 703并由CPU/GPU 701执行时，可以执行上文描述的方法或过程中的一个或多个步骤或动作。

在一些实施例中，以上所描述的方法和过程可以被实现为计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如互联网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，编程语言包括面向对象的编程语言，以及常规的过程式编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用互联网服务提供商来通过互联网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这取决于所涉及的功能。也要注意的是，框图和/或流程图中的每个框、以及框图和/或流程图中的框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所公开的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中技术的技术改进，或者使得本技术领域的其它普通技术人员能理解本文公开的各实施例。

以下列出了本公开的一些示例实现。

示例1.一种语音识别方法，包括：

获取流式语音的声学表示和所述流式语音的已识别部分的语义表示；

获取所述流式语音的对话上下文；以及

基于所述声学表示、所述流式语音的所述已识别部分的所述语义表示和所述对话上下文，生成所述流式语音的识别结果。

示例2.根据示例1所述的方法，其中获取所述流式语音的对话上下文包括：

将所述声学表示和所述语义表示中的至少一项确定为查询向量；确定与所述对话上下文的语义相关联的键值对；以及

基于所述查询向量与所述键值对中的键的语义相关性来确定所述对话上下文相对于所述流式语音的语义关联表示。

示例3.根据示例1-2中任一项所述的方法，其中基于所述声学表示、所述语义表示和所述对话上下文，生成所述流式语音的识别结果包括：

将所述语义关联表示与所述语义表示进行混合以获得混合后的语义表示；以及

基于所述声学表示和所述混合后的语义表示，生成所述流式语音的所述识别结果。

示例4.根据示例1-3中任一项所述的方法，其中基于所述声学表示和所述混合后的语义表示，生成所述流式语音的所述识别结果包括：

基于所述声学表示和所述混合后的语义表示，确定多个候选识别结果的相应概率；以及

将所述多个候选识别结果中的概率最大的候选识别结果确定为所述识别结果。

示例5.根据示例1-4中任一项所述的方法，其中所述识别结果和所述候选识别结果是文本，并且基于所述声学表示和所述混合后的语义表示，确定多个候选结果的相应概率包括：

基于所述声学表示、所述混合后的语义表示以及用于语音识别的字典，确定所述文本的概率表示；以及

对所述概率表示进行归一化以获取所述文本的相应概率。

示例6.根据示例1-5中任一项所述的方法，其中基于所述声学表示、所述语义表示和所述对话上下文，生成所述流式语音的识别结果包括：

将所述语义关联表示与所述声学表示进行混合以获得混合后的声学表示；以及

基于所述语义表示和所述混合后的声学表示，生成所述流式语音的所述识别结果。

示例7.根据示例1-6中任一项所述的方法，其中基于所述语义表示和所述混合后的声学表示，生成所述流式语音的所述识别结果包括：

基于所述语义表示和所述混合后的声学表示，确定多个候选识别结果的相应概率；以及

示例8.根据示例1-7中任一项所述的方法，其中将所述语义关联表示与所述声学表示进行混合包括：

对所述声学表示进行降维以使得降维后的所述声学表示与所述语义关联表示维度相同；以及

将降维后的所述声学表示与所述语义关联表示进行混合。

示例9.根据示例1-8中任一项所述的方法，其中所述方法由经训练的语音识别模型执行，所述方法还包括：

利用第一样本数据来训练所述语音识别模型，其中所述第一样本数据包括流式语音及其对应的标注文本和对话上下文。

示例10.根据示例1-9中任一项所述的方法，还包括：

利用第二样本数据来训练所述语音识别模型，其中所述第二样本数据包括流式语音及其对应的标注文本。

示例11.根据示例1-10中任一项所述的方法，还包括：

替换所述第一样本数据中的一部分以使得所述第一样本数据包括错误的标注文本；以及

利用替换后的所述第一样本数据来训练所述语音识别模型。

示例12.根据示例1-11中任一项所述的方法，其中所述错误的标注文本至少包括以下一项：

将正确文本识别为其同音字；

没有识别出所述正确文本；以及

除了识别出所述正确文本之外，还识别出其他错误文本。

示例13.根据示例1-12中任一项所述的方法，其中所述流式语音来自对话中的第一用户，并且所述对话上下文来自所述第一用户或者与所述第一用户不同的第二用户。

示例14.一种语音识别装置，包括：

语音获取模块，被配置为获取流式语音的声学表示和所述流式语音的已识别部分的语义表示；

上下文获取模块，被配置为获取所述流式语音的对话上下文；以及

识别结果生成模块，被配置为基于所述声学表示、所述流式语音的所述已识别部分的所述语义表示和所述对话上下文，生成所述流式语音的识别结果。

示例15.根据示例14所述的装置，其中所述上下文获取模块包括：

查询向量模块，被配置为将所述声学表示和所述语义表示中的至少一项确定为查询向量；

键值对模块，被配置为确定与所述对话上下文的语义相关联的键值对；以及

语义关联表示模块，被配置为基于所述查询向量与所述键值对中的键的语义相关性来确定所述对话上下文相对于所述流式语音的语义关联表示。

示例16.根据示例14-15中任一项所述的装置，其中所述识别结果生成模块包括：

混合模块，被配置为将所述语义关联表示与所述语义表示进行混合以获得混合后的语义表示；以及

第二识别结果生成模块，被配置为基于所述声学表示和所述混合后的语义表示，生成所述流式语音的所述识别结果。

示例17.根据示例14-16中任一项所述的装置，其中所述识别结果生成模块还包括：

概率确定模块，被配置为基于所述声学表示和所述混合后的语义表示，确定多个候选识别结果的相应概率；以及

识别结果确定模块，被配置为将所述多个候选识别结果中的概率最大的候选识别结果确定为所述识别结果。

示例18.根据示例14-17中任一项所述的装置，其中所述识别结果确定模块包括：

概率表示确定模块，被配置为基于所述声学表示、所述混合后的语义表示以及用于语音识别的字典，确定所述文本的概率表示；以及

归一化模块，被配置为对所述概率表示进行归一化以获取所述文本的相应概率。

示例19.根据示例14-18中任一项所述的装置，其中所述识别结果生成模块还包括：

第二混合模块，被配置为将所述语义关联表示与所述声学表示进行混合以获得混合后的声学表示；以及

第三识别结果生成模块，被配置为基于所述语义表示和所述混合后的声学表示，生成所述流式语音的所述识别结果。

示例20.根据示例14-19中任一项所述的装置，其中所述第三识别结果生成模块包括：

第二概率确定模块，被配置为基于所述语义表示和所述混合后的声学表示，确定多个候选识别结果的相应概率；以及

第二识别结果确定模块，被配置为将所述多个候选识别结果中的概率最大的候选识别结果确定为所述识别结果。

示例21.根据示例14-20中任一项所述的装置，其中所述第二混合模块包括：

降维模块，被配置为对所述声学表示进行降维以使得降维后的所述声学表示与所述语义关联表示维度相同；以及

第三混合模块，被配置为将降维后的所述声学表示与所述语义关联表示进行混合。

示例22.根据示例14-21中任一项所述的装置，还包括训练模块，被配置为：

利用第一样本数据来训练语音识别模型，其中所述第一样本数据包括流式语音及其对应的标注文本和对话上下文。

示例23.根据示例14-22中任一项所述的装置，所述训练模块还被配置为：

示例24.根据示例14-23中任一项所述的装置，其中所述训练模块还包括替换子模块，被配置为：

利用替换后的所述第一样本数据来训练所述语音识别模型。

示例25.根据示例14-24中任一项所述的装置，其中所述错误的标注文本至少包括以下一项：

将正确文本识别为其同音字；

没有识别出所述正确文本；以及

除了识别出所述正确文本之外，还识别出其他错误文本。

示例26.根据示例14-25中任一项所述的装置，其中所述流式语音来自对话中的第一用户，并且所述对话上下文来自所述第一用户或者与所述第一用户不同的第二用户。

示例27.一种电子设备，包括：

处理器；以及

与所述处理器耦合的存储器，所述存储器具有存储于其中的指令，所述指令在被处理器执行时使所述设备执行动作，所述动作包括：

获取所述流式语音的对话上下文；以及

示例28.根据示例27所述的电子设备，其中获取所述流式语音的对话上下文包括：

示例29.根据示例27-28中任一项所述的电子设备，其中基于所述声学表示、所述语义表示和所述对话上下文，生成所述流式语音的识别结果包括：

示例30.根据示例27-29中任一项所述的电子设备，其中基于所述声学表示和所述混合后的语义表示，生成所述流式语音的所述识别结果包括：

示例31.根据示例27-30中任一项所述的电子设备，其中所述识别结果和所述候选识别结果是文本，并且基于所述声学表示和所述混合后的语义表示，确定多个候选结果的相应概率包括：

对所述概率表示进行归一化以获取所述文本的相应概率。

示例32.根据示例27-31中任一项所述的电子设备，其中基于所述声学表示、所述语义表示和所述对话上下文，生成所述流式语音的识别结果包括：

示例33.根据示例27-32中任一项所述的电子设备，其中基于所述语义表示和所述混合后的声学表示，生成所述流式语音的所述识别结果包括：

示例34.根据示例27-33中任一项所述的电子设备，其中将所述语义关联表示与所述声学表示进行混合包括：

将降维后的所述声学表示与所述语义关联表示进行混合。

示例35.根据示例27-34中任一项所述的电子设备，其中所述方法由经训练的语音识别模型执行，所述方法还包括：

示例36.根据示例27-35中任一项所述的电子设备，所述动作还包括：

示例37.根据示例27-36中任一项所述的电子设备，所述动作还包括：

利用替换后的所述第一样本数据来训练所述语音识别模型。

示例38.根据示例27-37中任一项所述的电子设备，所述错误的标注文本至少包括以下一项：

将正确文本识别为其同音字；

没有识别出所述正确文本；以及

除了识别出所述正确文本之外，还识别出其他错误文本。

示例39.根据示例27-38中任一项所述的电子设备，其中所述流式语音来自对话中的第一用户，并且所述对话上下文来自所述第一用户或者与所述第一用户不同的第二用户。

示例40.一种计算机可读存储介质，其上存储有一条或多条计算机指令，其中所述一条或多条计算机指令被处理器执行以实现根据示例1至13中任一项所述的方法。

示例41.一种计算机程序产品，所述计算机程序产品被有形地存储在计算机可读介质上并且包括计算机可执行指令，所述计算机可执行指令在由设备执行时使所述设备执行根据示例1至13中任一项所述的方法。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本公开，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种语音识别方法，包括：

获取所述流式语音的对话上下文；以及

2.根据权利要求1所述的方法，其中获取所述流式语音的对话上下文包括：

将所述声学表示和所述语义表示中的至少一项确定为查询向量；

确定与所述对话上下文的语义相关联的键值对；以及

3.根据权利要求2所述的方法，其中基于所述声学表示、所述语义表示和所述对话上下文，生成所述流式语音的识别结果包括：

4.根据权利要求3所述的方法，其中基于所述声学表示和所述混合后的语义表示，生成所述流式语音的所述识别结果包括：

5.根据权利要求4所述的方法，其中所述识别结果和所述候选识别结果是文本，并且基于所述声学表示和所述混合后的语义表示，确定多个候选结果的相应概率包括：

对所述概率表示进行归一化以获取所述文本的相应概率。

6.根据权利要求2所述的方法，其中基于所述声学表示、所述语义表示和所述对话上下文，生成所述流式语音的识别结果包括：

7.根据权利要求6所述的方法，其中基于所述语义表示和所述混合后的声学表示，生成所述流式语音的所述识别结果包括：

8.根据权利要求6所述的方法，其中将所述语义关联表示与所述声学表示进行混合包括：

将降维后的所述声学表示与所述语义关联表示进行混合。

9.根据权利要求1所述的方法，其中所述方法由经训练的语音识别模型执行，所述方法还包括：

10.根据权利要求9所述的方法，还包括：

11.根据权利要求9所述的方法，还包括：

利用替换后的所述第一样本数据来训练所述语音识别模型。

12.根据权利要求11所述的方法，其中所述错误的标注文本至少包括以下一项：

将正确文本识别为其同音字；

没有识别出所述正确文本；以及

除了识别出所述正确文本之外，还识别出其他错误文本。

13.根据权利要求1所述的方法，其中所述流式语音来自对话中的第一用户，并且所述对话上下文来自所述第一用户或者与所述第一用户不同的第二用户。

14.一种语音识别装置，包括：

15.一种电子设备，包括：

处理器；以及

与所述处理器耦合的存储器，所述存储器具有存储于其中的指令，所述指令在被处理器执行时，使得所述电子设备执行根据权利要求1至13中任一项所述的方法。

16.一种计算机可读存储介质，其上存储有计算机可执行指令，其中所述计算机可执行指令被处理器执行以实现根据权利要求1至13中任一项所述的方法。