CN111640424A

CN111640424A - 一种语音识别方法、装置和电子设备

Info

Publication number: CN111640424A
Application number: CN201910157574.2A
Authority: CN
Inventors: 周盼
Original assignee: Beijing Sogou Technology Development Co Ltd; Sogou Hangzhou Intelligent Technology Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2020-09-08
Anticipated expiration: 2039-03-01
Also published as: CN111640424B

Abstract

本发明实施例提供了一种语音识别方法、装置和电子设备，其中，所述方法包括：获取语音数据和所述语音数据对应的其他模态数据；基于注意力机制将所述语音数据和其他模态进行融合，确定所述语音数据对应的文本信息；进而够将同源的不同模态信息进行有效融合，得到更加完备的融合信息，从而，能够有效的避免现有技术中声学信息对识别结果起到主导作用导致视觉信息对识别结果准确率提升的限制，提高了语音识别的准确率。

Description

一种语音识别方法、装置和电子设备

技术领域

本发明涉及语音处理技术领域，特别是涉及一种语音识别方法、装置和电子设备。

背景技术

随着语音识别技术的不断发展，语音识别应用在越来越多的领域；例如智能家居可以基于语音识别技术实现语音控制，又如机器同传可以基于语音识别技术实现同传，还例如智能汽车可以基于语音识别技术执行用户的语音指令如导航、开关空调/音乐等。

通常当语音环境比较安静时，语音识别的准确率会比较高，但当语音环境较为嘈杂时，语音识别的准确率会明显下降；因此为了提高嘈杂环境下语音识别的准确率，现有技术提出了一种结合声学和视觉的语音识别方法，该方法需要将声学信息和视觉信息(唇部动作)进行拼接，然后实现语音识别。但将两种信息同等对待的拼接方法，由于声音信息更丰富，区分性更好，会使得声学信息对识别结果起到主导作用，限制了视觉信息对识别结果的促进作用，语音识别的准确率依然较低。

发明内容

本发明实施例提供一种语音识别方法，以提高语音识别的准确率。

相应的，本发明实施例还提供了一种语音识别装置和一种电子设备，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种语音识别方法，具体包括：获取语音数据和所述语音数据对应的其他模态数据；基于注意力机制将所述语音数据和其他模态数据进行融合，确定所述语音数据对应的文本信息。

可选地，所述基于注意力机制将所述语音数据和其他模态数据进行融合，确定所述语音数据对应的文本信息，包括：采用基于注意力的编码器-解码器模型将所述语音数据和其他模态数据进行融合，并依据融合后的信息确定所述语音数据对应的文本信息。

可选地，所述基于注意力的编码器-解码器模型包括编码器、解码器和注意力模块，所述编码器与解码器通过所述注意力模块连接。

可选地，所述编码器包括声学编码器和视觉编码器，所述解码器包括中间网络和输出网络，所述采用基于注意力机制的编码器-解码器模型将所述语音数据和其他模态数据进行融合，并依据融合后的信息确定所述语音数据对应的文本信息，包括：将所述语音数据输入至所述声学编码器中，得到对应的声学特征信息；将所述其他模态数据输入至所述视觉编码器中，得到对应的视觉特征信息；在一次解码过程中：将所述解码器上一次输出的文本信息输入至解码器中，得到所述解码器中间网络输出的状态信息；调用所述注意力模块依据所述状态信息对声学特征信息和视觉特征信息进行融合，得到融合后的信息；将所述融合后的信息和状态信息输入至所述解码器的输出网络，得到所述输出网络当前输出的文本信息。

可选地，所述调用所述注意力模块依据所述状态信息对声学特征信息和视觉特征信息进行融合，得到融合后的信息，包括：调用所述注意力模块依据所述状态信息、声学特征信息和视觉特征信息，确定融合权值；依据所述融合权值对所述声学特征信息和视觉特征信息进行融合，得到融合后的信息。

可选地，所述调用所述注意力模块依据所述状态信息、声学特征信息和视觉特征信息，确定融合权值，包括：调用所述注意力模块依据所述状态信息和声学特征信息，确定声学上下文向量；以及依据所述状态信息和视觉特征信息，确定视觉上下文向量；对所述声学上下文向量和视觉上下文向量进行运算，确定融合权值。

可选地，所述调用所述注意力模块依据所述状态信息和声学特征信息，确定声学上下文向量，包括：调用所述注意力模块对所述状态信息和声学特征信息进行运算，得到声学注意力权重；依据所述声学注意力权重和声学特征信息，确定声学上下文向量；所述依据所述状态信息和视觉特征信息，确定视觉上下文向量，包括：对所述状态信息和视觉特征信息进行运算，得到视觉注意力权重；依据所述视觉注意力权重和视觉特征信息，确定视觉上下文向量。

可选地，所述依据所述融合权值对所述声学特征信息和视觉特征信息进行融合，得到融合后的信息，包括：依据所述融合权值对所述声学上下文向量和视觉上下文向量进行融合，得到融合后的信息。

可选地，还包括训练所述基于注意力的编码器-解码器模型的步骤：收集多组训练数据，一组训练数据可以包括一段语音训练数据、所述语音训练数据对应唇部动作的图像训练数据和所述语音训练数据对应的参考文本信息；针对一组训练数据，将所述组训练数据中的语音训练数据和图像训练数据输入至所述基于注意力的编码器-解码器模型中，得到所述基于注意力的编码器-解码器模型输出的文本信息；依据所述组训练数据中的参考文本信息和所述输出的文本信息，对所述基于注意力的编码器-解码器模型进行调整。

可选地，所述声学编码器包括双向长短期记忆网络LSTM，所述视觉编码器包括深层卷积神经网络CNN和双向LSTM；所述解码器的中间网络包括LSTM。

可选地，所述其他模态数据包括以下至少一种：所述语音数据对应手部动作的图像数据、所述语音数据对应唇部动作的图像数据，所述语音数据的相关文本的图像数据。

本发明实施例还公开了一种语音识别装置，具体包括：数据获取模块，用于获取语音数据和所述语音数据对应的其他模态数据；语音识别模块，用于基于注意力机制将所述语音数据和其他模态数据进行融合，确定所述语音数据对应的文本信息。

可选地，所述语音识别模块包括：数据融合子模块，用于采用基于注意力的编码器-解码器模型将所述语音数据和其他模态数据进行融合；语音文本识别子模块，用于依据融合后的信息确定所述语音数据对应的文本信息。

可选地，所述编码器包括声学编码器和视觉编码器，所述解码器包括中间网络和输出网络，所述数据融合子模块包括：编码单元，用于将所述语音数据输入至所述声学编码器中，得到对应的声学特征信息；将所述其他模态数据输入至所述视觉编码器中，得到对应的视觉特征信息；解码单元，用于在一次解码过程中，将所述解码器上一次输出的文本信息输入至解码器中，得到所述解码器中间网络输出的状态信息；数据调用所述注意力模块依据所述状态信息对声学特征信息和视觉特征信息进行融合，得到融合后的信息；所述语音文本识别子模块，用于在一次解码过程中，将所述融合后的信息和状态信息输入至所述解码器的输出网络，得到所述输出网络当前输出的文本信息。

可选地，所述解码单元包括：权值确定子单元，用于调用所述注意力模块依据所述状态信息、声学特征信息和视觉特征信息，确定融合权值；特征信息融合子单元，用于依据所述融合权值对所述声学特征信息和视觉特征信息进行融合，得到融合后的信息。

可选地，所述权值确定子单元，用于调用所述注意力模块依据所述状态信息和声学特征信息，确定声学上下文向量；以及依据所述状态信息和视觉特征信息，确定视觉上下文向量；对所述声学上下文向量和视觉上下文向量进行运算，确定融合权值。

可选地，所述权值确定子单元，用于调用所述注意力模块对所述状态信息和声学特征信息进行运算，得到声学注意力权重；依据所述声学注意力权重和声学特征信息，确定声学上下文向量；以及对所述状态信息和视觉特征信息进行运算，得到视觉注意力权重；依据所述视觉注意力权重和视觉特征信息，确定视觉上下文向量。

可选地，所述特征信息融合子单元，用于依据所述融合权值对所述声学上下文向量和视觉上下文向量进行融合，得到融合后的信息。

可选地，训练模块，用于收集多组训练数据，一组训练数据可以包括一段语音训练数据、所述语音训练数据对应的其他模态训练数据和所述语音训练数据对应的参考文本信息；针对一组训练数据，将所述组训练数据中的语音训练数据和其他模态训练数据输入至所述基于注意力的编码器-解码器模型中，得到所述基于注意力的编码器-解码器模型输出的文本信息；依据所述组训练数据中的参考文本信息和所述输出的文本信息，对所述基于注意力的编码器-解码器模型进行调整。

本发明实施例还公开了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如本发明实施例任一所述的语音识别方法。

本发明实施例还公开了一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取语音数据和所述语音数据对应的其他模态数据；基于注意力机制将所述语音数据和其他模态数据进行融合，确定所述语音数据对应的文本信息。

可选地，还包含用于进行训练所述基于注意力的编码器-解码器模型的指令：收集多组训练数据，一组训练数据可以包括一段语音训练数据、所述语音训练数据对应的其他模态训练数据和所述语音训练数据对应的参考文本信息；针对一组训练数据，将所述组训练数据中的语音训练数据和其他模态训练数据输入至所述基于注意力的编码器-解码器模型中，得到所述基于注意力的编码器-解码器模型输出的文本信息；依据所述组训练数据中的参考文本信息和所述输出的文本信息，对所述基于注意力的编码器-解码器模型进行调整。

本发明实施例包括以下优点：

本发明实施例中，可以获取语音数据和所述语音数据对应的其他模态数据，然后基于注意力机制将所述语音数据和其他模态数据进行融合，确定所述语音数据对应的文本信息；进而够将同源的不同模态信息进行有效融合，得到更加完备的融合信息，从而能够有效的避免现有技术中声学信息对识别结果起到主导作用导致视觉信息对识别结果准确率提升的限制，提高了语音识别的准确率。

附图说明

图1是本发明的一种语音识别方法实施例的步骤流程图；

图2是本发明的一种基于注意力的编码器-解码器模型实施例的示意图；

图3是本发明的一种语音识别方法可选实施例的步骤流程图；

图4是本发明一种基于注意力的编码器-解码器模型的语音识别过程实施例示意图；

图5是本发明的一种基于注意力的编码器-解码器模型的训练方法实施例的步骤流程图；

图6是本发明的一种语音识别装置实施例的结构框图；

图7是本发明的一种语音识别装置可选实施例的结构框图；

图8根据一示例性实施例示出的一种用于语音识别的电子设备的结构框图；

图9是本发明根据另一示例性实施例示出的一种用于语音识别的电子设备的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例的核心构思之一是，获取语音数据和语音数据语音数据对应的其他模态数据(如唇部动作的图像数据，手语动作的图像数据，相关文本的图像数据等)，然后基于注意力机制对语音数据和其他模态数据进行融合，实现语音识别；进而能够将同源的不同模态信息进行有效融合，得到更加完备的融合信息，从而能够避免现有技术中声学信息对识别结果起到主导作用导致视觉信息对识别结果准确率提升的限制，提高了语音识别的准确率。

参照图1，示出了本发明的一种语音识别方法实施例的步骤流程图，具体可以包括如下步骤：

步骤102、获取语音数据和所述语音数据对应的其他模态数据。

本发明实施例中，当需要对某个用户的语音进行识别时，可以在该用户说话过程中，采集该用户说话时对应的语音数据(即声学信息)和对应的其他模态数据(即视觉信息)；然后通过将所述语音数据和图像数据进行结合，对所述语音数据进行语音识别。其中，所述其他模态数据可以包括多种，例如用户说话时对应唇部动作的图像数据，又如用户说话时对应手部动作的图像数据，还例如演讲场景中用户说话时演讲文稿中相关文本的图像数据等等，本发明实施例对此不作限制。

步骤104、基于注意力机制将所述语音数据和其他模态数据进行融合，确定所述语音数据对应的语音文本。

本发明实施例中，通过将所述语音数据和其他模态数据进行结合，对所述语音数据进行语音识别的过程中，可以基于注意力机制对所述语音数据和其他模态数据进行融合；其中，可以基于注意力机制确定所述语音数据和对应的其他模态数据的相对重要程度，然后可以依据语音数据对应的相对重要程度和其他模态数据对应的相对重要程度，对所述语音数据和其他模态数据进行融合。再依据融合后的信息对所述语音数据进行语音识别，确定所述语音数据对应的文本信息。进而能够将同源的不同模态信息进行有效融合，得到更加完备的融合信息，避免了现有技术中声学信息对识别结果起到主导作用导致视觉信息对识别结果准确率提升的限制，提高了语音识别的准确率。

本发明的一个示例中，所述语音识别方法可以应用于驾驶场景下，所述其他模态数据可以是语音数据对应唇部动作的图像数据。由于汽车行驶的胎噪、风噪、发动机噪声等存在，采用现有语音识别的方法准确性较低；因此可以采用本发明实施例提供的语音识别方法，在驾驶员发出语音指令过程中，获取语音数据和所述语音数据对应唇部动作的图像数据；基于注意力机制将所述语音数据和图像数据进行融合，确定所述语音数据对应的文本信息；进而通过根据声学信息和视觉信息对识别结果的贡献，对语音数据和图像数据进行融合，实现语音识别，相对于现有技术中而言，本发明实施例可以显著提高驾驶员指令识别的准确率。

综上，本发明实施例中，可以获取语音数据和所述语音数据对应的其他模态数据，然后基于注意力机制将所述语音数据和其他模态数据进行融合，确定所述语音数据对应的文本信息；进而够将同源的不同模态信息进行有效融合，得到更加完备的融合信息，从而能够有效的避免现有技术中声学信息对识别结果起到主导作用导致视觉信息对识别结果准确率提升的限制，提高了语音识别的准确率。

本发明实施例中，可以预先训练基于注意力的编码器-解码器模型(对基于注意力的编码器-解码器模型的训练过程在后续进行说明)，然后采用训练后的模型将所述语音数据和图像数据进行融合，并依据融合后的信息确定所述语音数据对应的文本信息。其中，所述基于注意力的编码器-解码器模型可以包括编码器、解码器和注意力模块，所述编码器与解码器可以通过所述注意力模块连接。所述编码器可以包括声学编码器和视觉编码器，所述声学编码器可以用于对语音数据进行编码，提取声学特征信息，可以包括至少一个网络；所述视觉编码器可以用于对图像数据进行编码，提取视觉特征信息，可以包括至少一个网络。本发明的一个示例中所述解码器可以包括输入网络，中间网络和输出网络，三者依次连接；可参照图2，一种基于注意力的编码器-解码器模型实施例的示意图，其中，所述声学编码器的输出、视觉编码器的输出和解码器中间网络的输出分别连接至注意力模块，注意力模块的输出连接至解码器的输出网络的输入端。

本发明的一个示例中，所述声学编码器可以包括双向LSTM(Long Short-TermMemory，长短期记忆网络)，所述视觉编码器可以包括深层CNN(Convolutional NeuralNetworks卷积神经网络)和双向LSTM；所述解码器的中间网络可以包括LSTM；当然所述声学编码器、视觉编码器和解码器的中间网络，均可以分别是其他的网络，本发明实施例对此不作限制。

本发明实施例中，所述其他模态数据可以包括以下至少一种：所述语音数据对应手部动作的图像数据、所述语音数据对应唇部动作的图像数据，所述语音数据的相关文本的图像数据；当然所述其他模态数据还可以包括其他数据，本发明实施例对此不作限制。其中，不同的其他模态数据会有不同的存在形式，对于采用何种模态信息，模态信息的表现形式，模态的数量等，本发明实施例对此不作限制。为了不失一般性，以及为了便于本发明技术领域人员的理解，在本发明的后续实施例中将以语音数据对应唇部动作的图像数据作为一种模态数据，对本方案进行描述。

参照图3，示出了本发明的一种语音识别方法可选实施例的步骤流程图；具体包括如下步骤：

步骤302、获取语音数据和所述语音数据对应唇部动作的图像数据。

本发明实施例中，可以同时获取语音数据和所述语音数据对应唇部动作对应的图像数据，其中，在用户说话的过程中，可以在采用声音采集设备获取语音数据的同时，采用图像采集设备采集包括用户唇部动作的图像数据。然后将所述语音数据和图像数据进行结合，进行语音识别，以提高语音识别的准确率。

本发明实施例中，可以将所述语音数据和图像数据输入至基于注意力的编码器-解码器模型中，由所述基于注意力的编码器-解码器模型确定声音信息和视觉信息对应识别结果的贡献，然后基于两者的贡献进行语音识别；其中，可以参照步骤304-步骤312实现：

步骤304、将所述语音数据输入至所述声学编码器中，得到对应的声学特征信息。

步骤306、将所述图像数据输入至所述视觉编码器中，得到对应的视觉特征信息。

本发明实施例中，所述基于注意力的编码器-解码器模型中编码器和解码器(注意力模块)是帧异步的，即编码器对一个文本对应的语音数据和图像数据编码完成后，解码模块和注意力模块再依据所述编码后的数据进行语音识别。当然为了减小识别的延迟，也可以对一整段语音分若干小段进行编码后，然后启动解码，解码和后续的语音段编码同时进行。本发明对这种流式的在线解码和离线的整句编码后解码不作限制。

其中，可以依次将每一帧语音数据输入至声学编码器中，由声学编码器对语音数据进行编码，得到对应的声学特征信息；以及可以依次将每一帧图像数据输入至视觉编码器中，由视觉编码器对图像数据进行编码，得到视觉特征信息。每次当编码器对一个文本的语音数据和图像数据编码完成，得到一个文本对应的声学特征信息和视觉特征信息后，可以将所述声学特征信息和视觉特征信息输出至注意力模块中，然后可以调用解码器和注意力模块进行语音识别；其中，可以将每一次调用解码器和注意力模块进行语音识别的过程称为一次解码过程；其中一次解码过程可以参照步骤308-步骤312：

步骤308、在一次解码过程中，将所述解码器上一次输出的文本信息输入至解码器中，得到所述解码器中间网络输出的状态信息。

本发明实施例中，解码器可以获取其上一次输出的文本信息，然后将所述上一次输出的文本信息作为输入，输入至解码器的输入网络中；输入网络对该文本信息进行处理后，得到处理后的文本信息，然后将该处理后的文本信息输入至中间网络。中间网络可以对该处理后的文本信息继续进行处理，得到对应的状态信息，然后一方面将该状态信息输出至注意力模块，进而可以调用注意力模块进行相应的处理，可参照步骤310；另一方面可以将该状态信息输出至输出网络中，待该注意力模块的输出信息输入至输出网络后，输出网络再进行相应的处理，可参照步骤312。

步骤310、调用所述注意力模块依据所述状态信息对声学特征信息和视觉特征信息进行融合，得到融合后的信息。

本发明实施例中，所述注意力模块获取到输入的状态信息、声学特征信息和视觉特征信息后，可以依据所述状态信息对声学特征信息和视觉特征信息进行融合，得到融合后的信息；其中，可以包括子步骤22-24：

子步骤22、调用所述注意力模块依据所述状态信息、声学特征信息和视觉特征信息，确定融合权值。

本发明实施例中，所述注意力模块可以进行注意力计算，确定声学信息和视觉信息的相对重要程度，其中，可以采用融合权值表征声学信息和视觉信息的相对重要程度，可以包括声学信息对应的权值和视觉信息对应的权值。其中，可以参照如下子步骤222-224，确定融合权值：

子步骤222、调用所述注意力模块依据所述状态信息和声学特征信息，确定声学上下文向量；以及依据所述状态信息和视觉特征信息，确定视觉上下文向量。

本发明实施例中，可以调用所述注意力模块对所述状态信息和声学特征信息进行运算，得到声学注意力权重，依据所述声学注意力权重和声学特征信息，确定声学上下文向量；例如将状态信息与声学特征信息相乘，得到声学注意力权重，再将声学注意力权重和声学特征信息相乘，得到声学上下文向量。当然本发明实施例对如何对所述状态信息和声学特征信息进行运算，得到声学注意力权重，以及如何依据所述声学注意力权重和声学特征信息，确定声学上下文向量的方式不作限制。

类似的，本发明实施例中，也可以对所述状态信息和视觉特征信息进行运算，得到视觉注意力权重；依据所述视觉注意力权重和视觉特征信息，确定视觉上下文向量；在此不再赘述。

子步骤224、对所述声学上下文向量和视觉上下文向量进行运算，确定融合权值。

本发明实施例中，得到声学上下文向量和视觉上下文向量后，可以对所述声学上下文向量和视觉上下文向量进行运算，确定融合权值。

本发明的一个示例中，一种确定融合权值的方式可以是，对声学上下文向量进行非线性运算，以及对视觉上下文向量进行非线性变换；可以参照如下公式：

其中，所述f_t ^m表示第m个模态的上下文向量，例如声学对应一个模态，视觉对应另一个模态，可以将声学对应的模态称为第一个模态(m＝1)，将视觉对应的模态称为第二个模态(m＝2)；Z表示非线性变换。

然后依据两者非线性变换的结果，计算融合权值，可以参照如下公式：

其中，M为模态的总数量。

子步骤22、依据所述融合权值对所述声学特征信息和视觉特征信息进行融合，得到融合后的信息。

然后可以依据所述融合权值对所述声学上下文向量和视觉上下文向量进行融合，得到融合后的信息。可参照如下公式：

其中，f_t ^M可以表示将M个模态融合后的信息。

步骤312、将所述融合后的信息和状态信息输入至所述解码器的输出网络，得到所述输出网络当前输出的文本信息。

本发明实施例中，所述注意力模块确定融合后的信息后，可以将所述融合后的信息输入至所述解码器的输出网络的输入端；然后输出网络可以对所述融合后的信息和状态信息进行处理，输出当前的文本信息。

进而可以按照上述步骤，对一整句语音数据对应的文本信息。

可参照图4，示出了本发明的一种基于注意力的编码器-解码器模型的语音识别过程实施例示意图。

当然，本发明实施例中，基于注意力机制将多模态信息进行融合的方法，也不仅仅限制应用于语音识别领域，也可以应用于其他领域，本发明实施例对此不作限制。

综上，本发明实施例中，可以获取语音数据和所述语音数据对应唇部动作的图像数据，然后基于注意力机制将所述语音数据和图像数据进行融合，确定所述语音数据对应的文本信息；进而能够根据声学信息和视觉信息对识别结果的贡献，对语音数据和图像数据进行融合，能够有效的避免现有技术中声学信息对识别结果起到主导作用导致视觉信息对识别结果准确率提升的限制，提高了语音识别的准确率。

其次，本发明实施例中，可以调用所述注意力模块依据所述状态信息、声学特征信息和视觉特征信息，确定融合权值；依据所述融合权值对所述声学特征信息和视觉特征信息进行融合，得到融合后的信息；进而在不同的噪声环境下，可以自动调整融合权重，显示出更好的鲁棒性，且将不同模态的信息结合到不同的权重，更符合实际情况，效果也更好。从而即使在高噪声环境下，声音信息被破坏较多时，注意力模块倾向于更多的依赖视觉信息进行识别，能够减小识别错误，提高语音识别的准确率。

进一步，本发明实施例中，注意力模块用于生成声学上下文信息和视觉上下文信息的状态信息，与上一次解码器输出相关，无需将语音数据和图像数据相同帧进行对齐，通常情况语音和图像的帧速率也是不同的，简化了对原始数据预处理的步骤，效率高。

再次，本发明实施例在进行信息融合时，只需要计算与解码长度相同的次数，其计算量远小于直接进行特征拼接的计算量，进一步提高快语音识别的效率。

本发明的另一个实施例中，对所述基于注意力的编码器-解码器模型的训练过程进行说明：

参照图5，示出了本发明的一种基于注意力的编码器-解码器模型的训练方法实施例的步骤流程图；具体包括如下步骤：

步骤502、收集多组训练数据，一组训练数据可以包括一段语音训练数据、所述语音训练数据对应其他模态训练数据和所述语音训练数据对应的参考文本信息。

步骤504、针对一组训练数据，将所述组训练数据中的语音训练数据和其他模态训练数据输入至所述基于注意力的编码器-解码器模型中，得到所述基于注意力的编码器-解码器模型输出的文本信息。

步骤506、依据所述组训练数据中的参考文本信息和所述输出的文本信息，对所述基于注意力的编码器-解码器模型进行调整。

本发明实施例中，可以收集大量用户说话时的语音训练数据和其他模态训练数据，再对所述语音训练数据进行标注，确定对应的参考文本信息；然后将一段语音训练数据、所述语音训练数据对应唇部动作的其他模态训练数据和所述语音训练数据对应的参考文本信息，作为一组训练数据。其中，为了提高模型语音识别的准确性，针对同一段话，可以收集各种信噪比不同的语音训练数据；例如针对于同一段话，可以在录音室(信噪比好的环境)收集对应的语音训练数据，也可以在操场(信噪比一般)收集对应的训练数据，还可以子地铁(信噪比差)收集对应的训练数据等等；进而同一段话具有信噪比不同的语音训练数据。当然由于不同的用户说同一段话是唇部特征、手部特征是不同的，因此还可以针对同一段话，收集不同用户说该段话时的唇部动作对应的图像数据、手部动作对应的图像等，例如针对同一段话，可以收集小孩、成年人、老年人等说这段话时唇部动作的图像数据、手部动作对应的图像等。可选地，为了使噪声情况下识别准确率依然较高，在收集数据过程中其他模态数据尽量保持无污染，如其他模态数据为图像数据，则尽量保持图像数据不受视觉噪声(如遮挡等)污染。

然后采用收集的训练数据对基于注意力的编码器-解码器模型进行训练，可选地，每次可以采用一组训练数据进行训练；每次对基于注意力的编码器-解码器模型的训练过程可以包括正向训练和反向训练。正向训练：将该组训练数据中的语音训练数据和其他模态训练数据输入至所述基于注意力的编码器-解码器模型中，得到所述基于注意力的编码器-解码器模型输出的文本信息，其中，具体如何输出文本信息的过程与上述步骤304-312类似，在此不再赘述。反向训练，将所述文本信息与该组训练数据中的参考文本信息进行比对，然后依据比对结果对所述基于注意力的编码器-解码器模型进行调整；其中，可以包括多编码器对应网络的权值进行调整、对解码器中网络的权值进行调整，以及对注意力模块的运算方法、参数等进行调整等等，本发明实施例对此不作限制。进而可以使得注意力模块依据训练数据中各自模态信息的重要程度(可靠性)给不同的模态学习到对应的权重。从而在后续语音识别过程中，训练后的注意力模块能够根据当前输入的不同模态信息的信息量、可靠性，分配各自对应的融合权重，当某种模态信息发生信息量缺损，会自动将其对应权重进行调整；例如在高噪声环境下，声学信息被破坏较多时，注意力模块发现声学信息不可靠，将会自动调高视觉信息的权重，降低声学信息的权重；在低噪声环境下，声学信息比较完整时，注意力模块确定的声学信息的权重比视觉信息的权重高；等等。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图6，示出了本发明的一种语音识别装置实施例的结构框图，具体可以包括如下模块：

数据获取模块602，用于获取语音数据和所述语音数据对应的其他模态数据；

语音识别模块604，用于基于注意力机制将所述语音数据和其他模态数据进行融合，确定所述语音数据对应的文本信息。

参照图7，示出了本发明的一种语音识别装置可选实施例的结构框图。

本发明一个可选的实施例中，所述语音识别模块604包括：

数据融合子模块6042，用于采用基于注意力的编码器-解码器模型将所述语音数据和其他模态数据进行融合；

语音文本识别子模块6044，用于依据融合后的信息确定所述语音数据对应的文本信息。

本发明一个可选的实施例中，所述基于注意力的编码器-解码器模型包括编码器、解码器和注意力模块，所述编码器与解码器通过所述注意力模块连接。

本发明一个可选的实施例中，所述编码器包括声学编码器和视觉编码器，所述解码器包括中间网络和输出网络，

所述数据融合子模块6042包括：

编码单元60422，用于将所述语音数据输入至所述声学编码器中，得到对应的声学特征信息；将所述其他模态数据输入至所述视觉编码器中，得到对应的视觉特征信息；

解码单元60424，用于在一次解码过程中，将所述解码器上一次输出的文本信息输入至解码器中，得到所述解码器中间网络输出的状态信息；数据调用所述注意力模块依据所述状态信息对声学特征信息和视觉特征信息进行融合，得到融合后的信息；

所述语音文本识别子模块6044，用于在一次解码过程中，将所述融合后的信息和状态信息输入至所述解码器的输出网络，得到所述输出网络当前输出的文本信息。

本发明一个可选的实施例中，所述解码单元60424包括：

权值确定子单元604242，用于调用所述注意力模块依据所述状态信息、声学特征信息和视觉特征信息，确定融合权值；

特征信息融合子单元604244，用于依据所述融合权值对所述声学特征信息和视觉特征信息进行融合，得到融合后的信息。

本发明一个可选的实施例中，所述权值确定子单元604242，用于调用所述注意力模块依据所述状态信息和声学特征信息，确定声学上下文向量；以及依据所述状态信息和视觉特征信息，确定视觉上下文向量；对所述声学上下文向量和视觉上下文向量进行运算，确定融合权值。

本发明一个可选的实施例中，所述权值确定子单元604242，用于调用所述注意力模块对所述状态信息和声学特征信息进行运算，得到声学注意力权重；依据所述声学注意力权重和声学特征信息，确定声学上下文向量；以及对所述状态信息和视觉特征信息进行运算，得到视觉注意力权重；依据所述视觉注意力权重和视觉特征信息，确定视觉上下文向量。

本发明一个可选的实施例中，所述特征信息融合子单元604244，用于依据所述融合权值对所述声学上下文向量和视觉上下文向量进行融合，得到融合后的信息。

本发明一个可选的实施例中，所述的装置还包括：

训练模块606，用于收集多组训练数据，一组训练数据可以包括一段语音训练数据、所述语音训练数据对应的其他模态训练数据和所述语音训练数据对应的参考文本信息；针对一组训练数据，将所述组训练数据中的语音训练数据和其他模态训练数据输入至所述基于注意力的编码器-解码器模型中，得到所述基于注意力的编码器-解码器模型输出的文本信息；依据所述组训练数据中的参考文本信息和所述输出的文本信息，对所述基于注意力的编码器-解码器模型进行调整。

本发明一个可选的实施例中，所述声学编码器包括双向长短期记忆网络LSTM，所述视觉编码器包括深层卷积神经网络CNN和双向LSTM；所述解码器的中间网络包括LSTM。

本发明一个可选的实施例中，所述其他模态数据包括以下至少一种：所述语音数据对应手部动作的图像数据、所述语音数据对应唇部动作的图像数据，所述语音数据的相关文本的图像数据。

本发明实施例中，可以获取语音数据和所述语音数据对应的其他模态数据，然后基于注意力机制将所述语音数据和其他模态数据进行融合，确定所述语音数据对应的文本信息；进而能够将同源的不同模态信息进行有效融合，得到更加完备的融合信息，从而能够有效的避免现有技术中声学信息对识别结果起到主导作用导致视觉信息对识别结果准确率提升的限制，提高了语音识别的准确率。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图8是根据一示例性实施例示出的一种用于语音识别的电子设备800的结构框图。例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图8，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理部件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件806为电子设备800的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件814经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件814还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由电子设备800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种语音识别方法，所述方法包括：获取语音数据和所述语音数据对应的其他模态数据；基于注意力机制将所述语音数据和其他模态数据进行融合，确定所述语音数据对应的文本信息。

可选地，还包括训练所述基于注意力的编码器-解码器模型的步骤：收集多组训练数据，一组训练数据可以包括一段语音训练数据、所述语音训练数据对应的其他模态训练数据和所述语音训练数据对应的参考文本信息；针对一组训练数据，将所述组训练数据中的语音训练数据和其他模态训练数据输入至所述基于注意力的编码器-解码器模型中，得到所述基于注意力的编码器-解码器模型输出的文本信息；依据所述组训练数据中的参考文本信息和所述输出的文本信息，对所述基于注意力的编码器-解码器模型进行调整。

图9是本发明根据另一示例性实施例示出的一种用于语音识别的电子设备900的结构示意图。该电子设备900可以是服务器，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)922(例如，一个或一个以上处理器)和存储器932，一个或一个以上存储应用程序942或数据944的存储介质930(例如一个或一个以上海量存储设备)。其中，存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器922可以设置为与存储介质930通信，在服务器上执行存储介质930中的一系列指令操作。

服务器还可以包括一个或一个以上电源926，一个或一个以上有线或无线网络接口950，一个或一个以上输入输出接口958，一个或一个以上键盘956，和/或，一个或一个以上操作系统941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取语音数据和所述语音数据对应的其他模态数据；基于注意力机制将所述语音数据和其他模态数据进行融合，确定所述语音数据对应的文本信息。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种语音识别方法、一种语音识别装置和一种电子设备，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音识别方法，其特征在于，包括：

获取语音数据和所述语音数据对应的其他模态数据；

基于注意力机制将所述语音数据和其他模态数据进行融合，确定所述语音数据对应的文本信息。

2.根据权利要求1所述的方法，其特征在于，所述基于注意力机制将所述语音数据和其他模态数据进行融合，确定所述语音数据对应的文本信息，包括：

采用基于注意力的编码器-解码器模型将所述语音数据和其他模态数据进行融合，并依据融合后的信息确定所述语音数据对应的文本信息。

3.根据权利要求2所述的方法，其特征在于，所述基于注意力的编码器-解码器模型包括编码器、解码器和注意力模块，所述编码器与解码器通过所述注意力模块连接。

4.根据权利要求3所述的方法，其特征在于，所述编码器包括声学编码器和视觉编码器，所述解码器包括中间网络和输出网络，

所述采用基于注意力机制的编码器-解码器模型将所述语音数据和其他模态数据进行融合，并依据融合后的信息确定所述语音数据对应的文本信息，包括：

将所述语音数据输入至所述声学编码器中，得到对应的声学特征信息；

将所述其他模态数据输入至所述视觉编码器中，得到对应的视觉特征信息；

在一次解码过程中：

将所述解码器上一次输出的文本信息输入至解码器中，得到所述解码器中间网络输出的状态信息；

调用所述注意力模块依据所述状态信息对声学特征信息和视觉特征信息进行融合，得到融合后的信息；

将所述融合后的信息和状态信息输入至所述解码器的输出网络，得到所述输出网络当前输出的文本信息。

5.根据权利要求4所述的方法，其特征在于，所述调用所述注意力模块依据所述状态信息对声学特征信息和视觉特征信息进行融合，得到融合后的信息，包括：

调用所述注意力模块依据所述状态信息、声学特征信息和视觉特征信息，确定融合权值；

依据所述融合权值对所述声学特征信息和视觉特征信息进行融合，得到融合后的信息。

6.根据权利要求5所述的方法，其特征在于，所述调用所述注意力模块依据所述状态信息、声学特征信息和视觉特征信息，确定融合权值，包括：

调用所述注意力模块依据所述状态信息和声学特征信息，确定声学上下文向量；以及依据所述状态信息和视觉特征信息，确定视觉上下文向量；

对所述声学上下文向量和视觉上下文向量进行运算，确定融合权值。

7.根据权利要求6所述的方法，其特征在于，所述调用所述注意力模块依据所述状态信息和声学特征信息，确定声学上下文向量，包括：

调用所述注意力模块对所述状态信息和声学特征信息进行运算，得到声学注意力权重；

依据所述声学注意力权重和声学特征信息，确定声学上下文向量；

所述依据所述状态信息和视觉特征信息，确定视觉上下文向量，包括：

对所述状态信息和视觉特征信息进行运算，得到视觉注意力权重；

依据所述视觉注意力权重和视觉特征信息，确定视觉上下文向量。

8.一种语音识别装置，其特征在于，包括：

数据获取模块，用于获取语音数据和所述语音数据对应的其他模态数据；

语音识别模块，用于基于注意力机制将所述语音数据和其他模态数据进行融合，确定所述语音数据对应的文本信息。

9.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如方法权利要求1-7任一所述的语音识别方法。

10.一种电子设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取语音数据和所述语音数据对应的其他模态数据；