CN112786052B

CN112786052B - 语音识别方法、电子设备和存储装置

Info

Publication number: CN112786052B
Application number: CN202011643222.7A
Authority: CN
Inventors: 王孟之; 万根顺; 高建清; 刘聪; 王智国; 胡国平
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2024-05-31
Anticipated expiration: 2040-12-30
Also published as: CN112786052A

Abstract

本申请公开了一种语音识别方法、电子设备和存储装置，该方法包括：采集用户说话时的待识别数据；其中，待识别数据包括音频数据和用户嘴部的视频数据；利用视频数据，提取到第一特征表示，并利用音频数据，提取到第二特征表示；对待识别数据执行若干次以下识别步骤：利用第一特征表示、第二特征表示和上次识别的预测文字，获取视频数据和音频数据两者的融合上下文表示，并利用融合上下文表示进行预测，得到本次识别的预测文字；将若干次识别的预测文字的组合，作为待识别数据的最终识别文本。上述方案，能够提高语音识别的准确度。

Description

语音识别方法、电子设备和存储装置

技术领域

本申请涉及语音识别技术领域，特别是涉及一种语音识别方法、电子设备和存储装置。

背景技术

语音识别即对输入的语音数据进行识别，以得到与语音对应的识别文本内容。语音识别技术的应用，极大地促进了人们的输入效率，使得人们输入信息更加方便，快捷。

然而，较高的语音识别准确度依赖于说话人能够说出清楚的语音，对于吐字不清的人，例如是脑中风的后遗症患者，由于他们发音模糊不清，会导致语音识别的准确度不高，使得他们无法正常使用语音识别技术，极大的影响了用户的体验，也限制了语音识别技术的应用。有鉴于此，提高语音识别的准确度具有极其重大的意义。

发明内容

本申请主要解决的技术问题是提供一种语音识别方法、电子设备和存储装置，能够提高语音识别的准确度。

为了解决上述问题，本申请第一方面提供了一种语音识别方法，该方法包括：采集用户说话时的待识别数据；其中，待识别数据包括音频数据和用户嘴部的视频数据；利用视频数据，提取到第一特征表示，并利用音频数据，提取到第二特征表示；对待识别数据执行若干次以下识别步骤：利用第一特征表示、第二特征表示和上次识别的预测文字，获取视频数据和音频数据两者的融合上下文表示，并利用融合上下文表示进行预测，得到本次识别的预测文字；将若干次识别的预测文字的组合，作为待识别数据的最终识别文本。

为了解决上述问题，本申请第二方面提供了一种电子设备，该设备包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以上述第一方面描述的语音识别方法。

为了解决上述问题，本申请第三方面提供了一种存储装置，该存储装置存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面描述的语音识别方法。

上述方案，通过利用用户说话时产生的音频数据来得到第一特征表示以及利用用户嘴部的视频数据来得到第二特征表示，进而利用第一特征表示、第二特征表示和上次识别的预测文字来得到融合上下文表示，并利用融合上下文表示来得到本次识别的预测文字，故一方面能够依赖于音频数据和嘴部的视频数据共同识别，能够拓宽语音识别的数据维度，有利于提高吐字不清人群的语音识别的准确度，另一方面由于在每一预测文字的识别过程中，融合音频数据和视频数据两者共同识别得到本次识别的预测文字，故能联合视频数据的信息来辅助进行语音识别，提高了语音识别的准确度。

附图说明

图1是是本申请语音识别方法一实施例的第一流程示意图；

图2是本申请语音识别方法一实施例的第二流程示意图；

图3是本申请语音识别方法一实施例的第三流程示意图；

图4是本申请纠正网络的训练方法一实施例的流程示意图；

图5是本申请语音识别网络的训练方法一实施例的流程示意图；

图6是本申请电子设备一实施例的框架示意图；

图7是本申请存储装置一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

参阅图1，图1是本申请语音识别方法一实施例的第一流程示意图。在本实施例中，具体包括以下步骤：

步骤S11：采集用户说话时的待识别数据；其中，待识别数据包括音频数据和用户嘴部的视频数据。

本公开实施例中，用于实施语音识别方法的电子设备可以包括但不限于：翻译机、手机，平板电脑，笔记本电脑等等。

需要说明的是本公开实施例所指用户可以包括语言障碍人士，如：因脑中风等疾病而导致语言障碍的患者，因个人吐字习惯而导致语言障碍的人士，在此不做限定。此外，用户也可以包括无语言障碍的正常人士。

在用户说话时，可以采集用户说话时的待识别数据来进行语音识别。在一个实施例中，待识别数据可以包括音频数据和用户嘴部的视频数据，具体可以通过声音采集设备来采集得到用户说话时的音频数据，如可以通过手机等电子设备自身的麦克风来收集，或者也可以通过用户所佩戴的耳机的麦克风来收集，在此不做限定。用户嘴部的视频数据可以通过图像采集设备来获得。例如，视频数据可以通过外置的摄像头设备采集、或者也可以通过手机等电子设备的摄像头来采集，在此不做限定。

在一个实施场景中，用户嘴部的视频数据会包括若干帧嘴部图像，即通过用户嘴部的视频数据来记录用户嘴部的变化。

在一个实施场景中，可以利用人脸检测算法对用户嘴部的视频数据进行识别，以此来获取用户嘴部的视频数据。例如可以利用Dlib人脸检测器(DLib face detector)和DLib脸型预测器(DLib face shape predictor)来对视频数据的每一帧进行人脸特征点检测。在获得的68个特征点中，使用第四十九到第六十八特征点计算嘴唇的中心，使用第一和第十二特征点的X轴距离作为嘴唇的宽度，宽度的0.75倍作为嘴唇的高，提取嘴唇区域后，将其缩放至80*60分辨率，作为视频编码网络的输入。也即，在本实施例中，可以直接提取用户嘴部的视频数据作为视频编码网络的输入数据，以此可以减少输入到视频编码网络的数据量，加快视频编码网络的计算速度。

步骤S12：利用视频数据，提取到第一特征表示，并利用音频数据，提取到第二特征表示。

在一个实施场景中，为了提高特征提取的效率，可以预先训练一个语音识别网络，且语音识别网络包括视频编码网络和音频编码网络，从而可以利用视频编码网络对视频数据进行特征提取，得到第一特征表示，并利用音频编码网络对音频数据进行特征提取，得到第二特征表示。

在一个具体的实施场景中，视频编码网络可以包括但不限于：Gated CNN(GatedConvolutional NeuralNetworks，门控卷积神经网络)、CNN等，在此不做限定。

在一个实施场景中，可以针对音频数据进行处理，例如可以对音频数据进行分帧操作，以此可以得到若干帧的音频帧，也即，对于音频数据而言，音频数据可以包括至少一个音频帧。在一个具体实施场景中，可以利用短时傅里叶变换(short-time Fouriertransform，STFT)对每一个音频帧进行处理，以此可以获得更加丰富的音频数据信息，有助于提高语音识别的准确度。

在另一个具体的实施场景中，音频编码网络可以包括但不限于：Gated CNN和SAN-M，其中SAN-M是具备记忆单元的Transformer模型，SAN-M表示注意力机制(Self-attention)与DFSMN记忆单元的融合。

步骤S13：对待识别数据执行若干次以下识别步骤：利用第一特征表示、第二特征表示和上次识别的预测文字，获取视频数据和音频数据两者的融合上下文表示，并利用融合上下文表示进行预测，得到本次识别的预测文字。

在一个实施场景中，上次识别的预测文字可以包括在此次识别之前的上一次识别的预测文字，或者，上次识别到的预测文字也可以包括在此之前识别的所有的预测文字。

在一个具体的实施场景中，上次识别的预测文字是在此次识别之前的上一次识别的预测文字。例如，对一段音频数据进行多次语音识别时，对于第一次识别而言，因并不存在上次识别的预测文字，因此上次识别的预测文字可以设置为空字符(即，NULL)，也可以设置为预设字符(如，[CLS]、start等)；对于第i(其中，i大于1)次识别时，上次识别的预测文字为第i-1次识别的预测文字。例如，在第2次识别时，上次识别的预测文字可以为第1识别的预测文字；对于第3次识别时，上次识别的预测文字为第2次识别的预测文字，以此类推，在此不再一一举例。

在一个实施场景中，可以利用第一特征表示、第二特征表示和上次识别的预测文字，来获取视频数据和音频数据两者的融合上下文表示，以此便能够利用上文信息来辅助进行语音识别。具体的，可以利用第一特征表示、第二特征表示和上次识别的预测文字进行注意力值的计算，以此来实现三者的融合，最后得到融合上下文表示。

在一个实施场景中，如前所述，为了提高识别效率，可以预先训练一个语音识别网络，且语音识别网络还可以进一步包括融合数据解码网络，从而可以利用融合数据解码网络对上次识别的预测文字、第一特征表示以及第二特征表示进行解码，进而解码得到本次识别的预测文字。

在一个具体的实施场景中，上述的融合数据解码网络具体可以包括但不限于：长短期记忆人工神经网络(LSTM，Long Short-Term Memory)、循环神经网络(RecurrentNeural Network,RNN)等，在此不做限定。

在一个实施场景中，在本次识别的预测文字满足预设停止条件的情况下，可以重复执行上述“利用第一特征表示、第二特征表示和上次识别的预测文字，获取视频数据和音频数据两者的融合上下文表示，并利用融合上下文表示进行预测，得到本次识别的预测文字”的步骤。预设停止条件具体可以包括：本次识别的预测文字并非预设结束字符，预设结束字符可以包括但不限于：[SEP]、end等，在此不做限定。

在一个实施场景中，视频编码网络具体包括五层Gated CNN和一层LSTM，其具体结构参阅下述的表1，表示1是视频编码网络结构表。需要说明的是，表1中Kernel表示核函数，Stride表示步长，T表示输出的视频帧。如表1所示，在该视频编码网络中，每层卷积层的长宽步长均为2，可以大幅减少特征数量。

表1视频编码网络结构表

层数	结构	输出大小
			1	Kernel 3332stride 2*2	T3040*32
2	Kernel 3348stride 2*2	T1520*48
			3	Kernel 3364stride 2*2	T710*64
4	Kernel 3396stride 2*2	T35*96
			5	Kernel 33128stride 2*2	T12*128
6	LSTM 1024p256	T*256

通过利用Gated CNN，可以提高视频编码网络的抗噪性和鲁棒性，进而提高语音识别的准确度。

在一个实施场景中，在对音频数据进行短时傅里叶变换时，其窗长和帧移可以根据需要进行设置。在一个具体实施场景中，音频数据是8kHz的音频数据，可以使用32ms的窗长和10ms的帧移，进行分帧加窗后得到若干帧的音频帧。另外，在得到的音频帧中，还可以去除直流分量。

在一个具体实施场景中，音频编码网络Gated CNN+SAN-M的具体结构如表2所示。需要说明的是，Kernel表示核函数Stride表示步长，T表示输出的音频帧，其中，SAN-M是SAN和DFSMN的结合，SAN(Self-attention，注意力机制)使用动态系数编码上下文，DFSMN使用静态系数编码上下文，通过结合SAN和DFSMN，可以融合动态系数编码和静态系数编码，从而可以取得更好的特征提取效果，有助于提高语音识别准确度。

表2音频编码网络结构表

层数	结构	输出大小
			1	Kernel 3332stride 2*2	T/26432
2	Kernel 3364stride 2*2	T/43264
			3	Kernel 33128stride 2*2	T/816128
4	Dense	T/8*256
			5-12	SAN-M	T/8*256

步骤S14：将若干次识别的预测文字的组合，作为待识别数据的最终识别文本。

本公开实施例中，最终可以将上述若干次识别的预测文字的组合，得到待识别数据的最终识别文本。具体可以按照预测文字对应的识别次数由小到大的顺序组合得到最终识别文本。例如，可以按照第1次识别的预测文字、第2次识别的预测文字、第3次识别的预测文字，以此类推按序组合，得到最终识别文本。

在一个实施场景中，在语音识别过程中，可以持续对用户进行数据采集，以得到待识别数据。由于现实场景中，用户在语音输入过程中，可能会产生停顿等动作，故可以在连续预设时长(如，5秒、10秒等)采集到空白音的情况下，可以将从开始采集至当前所采集得到的数据，作为新的待识别数据，并重新执行本公开实施例中的步骤，以识别上述新的待识别数据，从而可以实现持续性地对用户进行语音识别。

在另一个实施场景中，在超过预设时间没有采集到新的待识别数据的情况下，可以暂停对用户进行数据采集，并检测到用户再次开始语音输入的情况下，可以重新开始对用户进行数据采集。

请参阅图2，图2是本申请语音识别方法一实施例的第二流程示意图。本实施例是对上述步骤S13的进一步扩展，具体而言，上述步骤S13可以包括以下步骤S131至S133。

步骤S131：利用第一特征表示和上次识别的预测文字，获取视频数据的第一上下文表示。

在一个实施例中，可以通过计算嘴部图像的注意力值来得到第一上下文表示，并根据注意力值使得语音识别网络可以确定当前解码时刻关注的嘴型特征。

在一个具体的实施场景中，可以基于第一注意力机制，利用嘴部图像的第一特征表示、上次识别的预测文字，获取嘴部图像的第一注意力值，以此来实现利用上次识别的预测文字来辅助语音识别。

为了便于描述，第i帧嘴部图像的第一特征表示可以记为i，上次识别的预测文字可以记为sj，嘴部图像的第一注意力值fatt可以表示为：

上述公式(1)中，W1、W2和b均表示第一注意力机制的网络参数，具体可以在训练过程中调整，此外tanh()表示激活函数。

在另一个具体的实施场景中，在得到嘴部图像的第一注意力值之后，可以利用嘴部图像的第一注意力值对对应嘴部图像的第一特征表示进行加权，得到第一上下文表示。例如，可以利用嘴部图像的第一注意力值对与其对应的嘴部图像的第一特征表示进行加权，以此得到第一上下文表示。由此，通过利用第一注意力值来对嘴部图像对应的第一特征表示进行加权，可以使得不同的部图像对应的第一特征表示的重要程度产生区别，使得语音识别网络能够确定当前解码时刻应当关注的第一特征表示。

步骤S132：利用第二特征表示、上次识别的预测文字和第一上下文表示，获取音频数据的第二上下文表示。

得到嘴部图像对应的第一上下文表示以后，语音识别网络可以进一步利用第一上下文表示中包含的嘴部信息，来辅助语音识别网络对音频数据进行处理。具体的，可以利用音频数据提取得到的第二特征表示、上次识别的预测文字和第一上下文表示，获取音频数据的第二上下文表示。

在一个实施场景中，可以基于第二注意力机制，利用音频帧的第二特征表示、上次识别的预测文字和第一上下文表示，获取音频帧的第二注意力值，以此来实现利用上次识别的预测文字来辅助语音识别。

音频帧的第二特征表示是由音频帧对应提取得到的。第一上下文表示是利用视频数据经过注意力值计算以及相关操作以后得到的，例如是由上述实施例提及的利用嘴部图像的第一注意力值对对应嘴部图像的第一特征表示进行加权后得到第一上下文表示。在此基础上，可以基于第二注意力机制，利用音频帧的第二特征表示、上次识别的预测文字和第一上下文表示，获取音频帧的第二注意力值。

为了便于描述，第i帧音频帧的第二特征表示可以记为i，上次识别的预测文字可以记为s_j，ct_video记为第一上下文表示，音频帧的第一注意力值f_att可以表示为：

上述公式(2)中，W₃、W₄、W₅和b均表示第二注意力机制的网络参数，具体可以在训练过程中调整，此外tanh()表示激活函数。由此，就可以计算得到音频帧的第二注意力值，即f_att(_i,j,ct_video)。通过计算音频帧的第二注意力值，可以根据第二注意力值确定不同音频帧的关注程度。

由此，通过计算音频帧的第二注意力值，可以确定当前识别文字在音频频谱上的位置。

步骤2：利用音频帧的第二注意力值对对应音频帧的第二特征表示进行加权，得到第二上下文表示。

在得到音频帧的第二注意力值以后，就可以利用该注意力值对与音频帧对应的第二特征表示进行处理，例如可以利用音频帧的第二注意力值对对应音频帧的第二特征表示进行加权，得到第二上下文表示。

因为第二注意力值可以确定不同音频帧的关注程度，因此通过第二注意力加权第二特征表述，可以进一步确定在当前解码时刻语音识别网络对不同音频帧的第二特征表示的关注程度。

步骤S133：利用第一上下文表示和第二上下文表示，获取融合上下文表示。

在分别得到与视频数据有关的第一上下文表示，与音频数据有关的第二上下文表示之后，为了进一步提高语音识别的准确，语音识别网络可以将第一上下文表示和第二上下文进行融合，使得语音识别网络能够更加充分的利用视频数据与音频数据的特征信息(第一特征表示和第二特征表示)。具体的，语音识别网络可以利用第一上下文表示和第二上下文表示，获取融合上下文表示。得到的融合上下文表示即融合了视频数据与音频数据的特征信息，有助于提高语音识别的准确度。

在一个实施例中，如前述公开实施例所述，为了提高语音识别效率，可以预先训练一个语音识别网络，且该语音识别网络还可以进一步包括融合数据解码网络，从而可以将融合上下文表示输入融合数据解码网络进行解码，得到本次识别的预测文字，故能够无需分别为与视频数据对应的第一特征表示设置对应的视频数据解码器，以及为与音频数据对应的第二特征表示设置对应的音频数据解码器，从而可以简化语音识别网络的结构，并减少网络参数的数量，有利于降低计算量，进而提高语音识别速度。此外，融合数据解码网络还能够将融合上下文表示中的第一特征表示和第二特征表示进行对齐，也即能将视频数据与音频数据进行对齐，以此来实现语音识别。

因此，通过将第一上下文表示和第二上下文进行融合，使得语音识别网络能够更加充分的利用视频数据与音频数据的特征信息(第一特征表示和第二特征表示)，以此有助于提高语音识别的准确度。

参阅图3，图3是本申请语音识别方法一实施例的第三流程示意图。本实施例是对上述步骤S12中“利用音频数据，提取到第二特征表示”的进一步扩展，具体而言，其可以通过步骤S121和步骤S122实现。

步骤S121：对音频数据进行发音纠正，得到符合预设发音标准的标准音频。

由于每个人在说话时，其说话的语速、语调等具有很大的差别，如果直接利用原始的音频数据来进行语音识别，会对语音识别的准确度地造成一定的影响，因此，可以先对音频数据进行预处理，以此得到符合预设发音标准的标准音频。具体的，预处理可以是对音频数据进行发音纠正。符合预设发音标准的标准音频例如是语速、语调、说话者性别等符合预设要求的音频。例如，可以将吐字不清的人说的普通的，转换为符合预设发音标准的普通话。

在一个实施例中，可以利用纠正网络对音频数据进行发音纠正，纠正网络可以包括但不限于：Parrotron网络等，在此不做限定。Parrotron是一种基于注意力机制的序列到序列网络模型。

在一个具体实施场景中，纠正网络包括编码器、频谱解码器。编码器用于对音频数据进行特征提取，以获得关于音频数据的特征信息。频谱解码器用于产生标准音频。在一个具体实施场景中，为了适应于中文语音识别场景，纠正网络还可以进一步包括拼音解码器，在对纠正网络进行训练时，具体可以采用标注有拼音的训练样本对纠正网络进行训练，以使拼音解码器能够学习到训练样本的拼音信息，从而可以提高纠正网络在中文语音识别场景中的性能。

因此，通过对音频数据进行发音纠正，可以使得处理后的标准音频满足要求，能够进一步地提高语音识别的准确度。

步骤S122：对标准音频进行特征提取，得到第二特征表示。

得到标准音频以后，可以对标准音频进行特征提取，得到第二特征表示。如利用音频编码网络对标准音频进行特征提取，音频编码网络的具体结构例如是上述实施例提及的音频编码网络。

因此，通过对音频数据进行发音纠正，可以得到符合预设发音标准的标准音频，利用标准音频进行语音识别，有助于提高语音识别的准确度。

参与图4，图4是本申请纠正网络的训练方法一实施例的流程示意图。本实施例是对上述实施例提及的纠正网络进行训练具体过程。

在本实施例中，纠正网络包括编码器、频谱解码器和拼音解码器。编码器用于对音频数据进行编码，频谱解码器用于解码输出符合预设发音标准的标准音频，拼音解码器的作用参阅上述公开实施例中的相关描述，在此不再赘述，拼音解码器能够使得转换前后的音频具有相同的发音内容。

具体而言，训练的步骤包括：

步骤S21：获取第一对象的第一样本音频和与第一样本音频对应的第一样本文本，并获取第二对象的第二样本音频和与第二样本音频对应的第二样本文本；其中，第一对象的发音无需纠正，且第二对象的发音需要纠正。

第一对象的发音无需纠正，即代表第一对象的发音满足要求，例如第一对象的发音是清楚的，第一对象的人群例如是发音清楚的人群，也即普通人群。第二对象的发音需要纠正，即代表第二对象的发音是不清楚，第二对象的人群例如是吐字不清的人群。与第一样本音频对应的第一样本文本，可以根据第一样本音频的内容确定的，例如是可以根据第一样本音频进行转录，以得到与第一样本音频对应的第一样本文本。同样的，第二样本文本也可以是利用第二样本音频进行转录得到的。

通过获取第一样本音频和第二样本音频，可以获得两种不同的类型的音频数据，能够丰富纠正网络的训练数据，并提高纠正网络针对需要纠正发音的音频数据的纠正效果。

步骤S22：将第一样本文本进行语音合成，得到符合预设发音标准的第一标准音频，并将第二样本文本进行语音合成，得到符合预设发音标准的第二标准音频。

将第一样本文本进行语音合成，即是利用语音合成技术，根据第一样本文本的具体内容，来得到符合预设发音标准的第一标准音频。具体的，可以利用语音合成模型得到符合预设发音标准的第一标准音频，语音合成模型例如是Merlin语音合成模型，FastSpeech模型。

同样的，也可以利用语音合成技术得到符合预设发音标准的第二标准音频，具体参见第一标准音频的合成，此处不再赘述。

通过生成符合预设发音标准的第一标准音频和第二标准音频，可以将这两个音频作为标注信息来对纠正网络进行训练。

步骤S23：利用第一样本音频和第一标准音频对纠正网络进行初始训练。

在对纠正网络进行训练时，可以先利用第一样本音频对纠正网络进行初始训练，使得纠正网络能够具备基本的功能，也即能够将普通音频数据(第一样本音频)转换为具有符合标准的语音、语调、性别等要求的音频数据。

在一个具体实施场景中，可以首先利用纠正网络对第一样本音频进行发音纠正，以得到第一纠正音频。此后，可以通过判断第一纠正音频和第一标准音频的差异，来检测第一纠正音频的效果，例如从语速、语调、说话风格等方面去判断。然后，利用第一纠正音频和第一标准音频的差异，调整纠正网络的网络参数，具体而言可以是调整编码器、频谱解码器和拼音解码器中的至少一个的网络参数。

步骤S24：利用第二样本音频和第二标准音频对纠正网络进行最终训练。

在完成了纠正网络的初始训练以后，意味着纠正网络能够针对发音无需纠正的音频数据进行转换。为了提高纠正网络针对吐字不清人群的发音的纠正能力，此时可以进一步地利用第二样本音频来对纠正进行训练，使得纠正网络能够提高对吐字不清人群发音的纠正能力。

因此，可以利用第二样本音频和第二标准音频对纠正网络进行最终训练。具体的，可以利用纠正网络对第二样本音频进行发音纠正，得到第二纠正音频。然后分析比较第二纠正音频与第二标准音频的差异，差异例如表现在发音清楚方面，语速、语调方面等等。然后，利用这些差异来调整编码器、频谱解码器和拼音解码器中的至少一个的网络参数。

因此，通过先利用无需纠正发音的第一样本音频来对纠正网络进行初始训练，使得纠正网络能够处理的音频数据，再进一步的利用需要纠正发音的第二样本音频来纠正网络进行最终训练，提高了纠正网络针对吐字不清人群的发音的纠正能力，有助于提高后续语音识别网络对吐字不清人群的音频数据的语音识别准确度。

参阅图5，图5是本申请语音识别网络的训练方法一实施例的流程示意图。本实施例是对上述实施例提及的语音识别网络进行训练具体过程。

步骤S31：获取第一对象的第一样本音频和与第一样本音频对应的第一样本文本以及第一样本视频，并获取第二对象的第二样本音频和与第二样本音频对应的第二样本文本以及第二样本视频；其中，第一对象的发音无需纠正，且第二对象的发音需要纠正。

关于第一对象、第一样本音频和第一样本文本，以及第二对象、第二样本音频和第二样本文本的具体描述，可以参阅上述步骤S21，此处不再赘述。

第一样本视频是第一对象说话时的视频图像，即第一样本视频与第一样本音频相互对应。第二样本视频是第二对象说话时的视频图像，即第二样本视频与第二样本音频相互对应。在第一样本视频和第二样本视频中，可以包含有用户嘴部的图像。

步骤S32：利用纠正网络分别对第一样本音频和第二样本音频进行纠正，得到第一标准音频和第二标准音频。

利用纠正网络对第一样本音频以及第二样本音频进行纠正的过程，请参阅上述步骤S22，此处不再赘述。在本实施例中，纠正网络例如是经过上述的对纠正网络进行训练的方法得到的。

步骤S33：利用语音识别网络对第一标准音频和第一样本视频进行语音识别，得到第一预测文本，并根据第一预测文本与第一样本文本的差异，调整语音识别网络的网络参数。

语音识别网络例如是上述实施例提及的语音识别网络。在训练时，可以先对语音识别网络进行初始训练，即利用无需纠正发音的音频数据、视频数据来训练语音识别网络。

具体而言，可以将第一标准音频和第一样本视频输入至语音识别网络，由语音识别网络分别获取视频数据的第一特征表示和音频数据的第二特征表示，并利用第一特征表示和第二特征表示得到融合上下文表示，然后利用融合上下文表示进行预测，得到第一预测文本。最后，可以根据第一预测文本和第一样本文本的差异，调整语音识别网络的网络参数。差异例如是字错率、句错率等等。

通过利用无需纠正发音的第一对象的第一样本视频来对语音识别网络进行训练，可以使得语音识别网络能够识别无需纠正发音的普通人群的音频数据。

步骤S34：利用语音识别网络利用第二标准音频和第二样本视频进行语音识别，得到第二预测文本，并根据第二预测文本与第二样本文本的差异，调整语音识别网络的网络参数。

为了进一步提高语音识别网络对吐字不清人群的语音识别准确度，在利用第一标准音频和第一样本视频进行语音识别并训练后，可以进一步利用吐字不清人群的视频数据和音频数据对语音识别网络进行最终训练。

具体的，可以利用语音识别网络利用第二标准音频和第二样本视频进行语音识别，得到第二预测文本。然后判断第二预测文本与第二样本文本的差异，最后根据这些差异来调整语音识别网络的网络参数。

因此，通过利用吐字不清人群的视频数据和音频数据来对语音识别网络进行针对性的训练，可以提高语音识别对吐字不清人群的语音识别的准确的。

请参阅图6，图6是本申请电子设备一实施例的框架示意图。电子设备60包括相互耦接的存储器61和处理器62，存储器61中存储有程序指令，处理器62用于执行程序指令以实现上述任一语音识别方法的实施例中的步骤，或实现上述任一纠正网络训练方法实施例中的步骤，或实现上述任一语音识别网络训练方法实施例中的步骤。电子设备60具体可以包括但不限于：翻译机、手机，平板电脑，笔记本电脑。

具体而言，处理器62用于控制其自身以及存储器61以实现上述任一语音识别方法的实施例中的步骤，或实现上述任一纠正网络训练方法实施例中的步骤，或实现上述任一语音识别网络训练方法实施例中的步骤。处理器62还可以称为CPU(Central ProcessingUnit，中央处理单元)。处理器62可能是一种集成电路芯片，具有信号的处理能力。处理器62还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器62可以由集成电路芯片共同实现。

在一些公开实施例中，处理器62用于采集用户说话时的待识别数据；其中，待识别数据包括音频数据和用户嘴部的视频数据；利用视频数据，提取到第一特征表示，并利用音频数据，提取到第二特征表示；对待识别数据执行若干次以下识别步骤：利用第一特征表示、第二特征表示和上次识别的预测文字，获取视频数据和音频数据两者的融合上下文表示，并利用融合上下文表示进行预测，得到本次识别的预测文字；将若干次识别的预测文字的组合，作为待识别数据的最终识别文本。

区别于上述实施例，通过利用用户说话时产生的音频数据来得到第一特征表示以及利用用户嘴部的视频数据来得到第二特征表示，进而利用第一特征表示、第二特征表示和上次识别的预测文字来得到融合上下文表示，并利用融合上下文表示来得到本次识别的预测文字，故一方面能够依赖于音频数据和嘴部的视频数据共同识别，能够拓宽语音识别的数据维度，有利于提高吐字不清人群的语音识别的准确度，另一方面由于在每一预测文字的识别过程中，融合音频数据和视频数据两者共同识别得到本次识别的预测文字，故能联合视频数据的信息来辅助进行语音识别，提高了语音识别的准确度。

在一些公开实施例中，上述的处理器62用于利用第一特征表示、第二特征表示和上次识别的预测文字，获取视频数据和音频数据两者的融合上下文表示，包括：利用第一特征表示和上次识别的预测文字，获取视频数据的第一上下文表示；利用第二特征表示、上次识别的预测文字和第一上下文表示，获取音频数据的第二上下文表示；利用第一上下文表示和第二上下文表示，获取融合上下文表示。

区别于上述实施例，通过将第一上下文表示和第二上下文进行融合，使得语音识别网络能够更加充分的利用视频数据与音频数据的特征信息(第一特征表示和第二特征表示)，以此有助于提高语音识别的准确度。

在一些公开实施例中，上述的视频数据包括至少一个嘴部图像，嘴部图像对应提取有第一特征表示。上述的处理器62用于利用第一特征表示和上次识别的预测文字，获取视频数据的第一上下文表示，包括：基于第一注意力机制，利用嘴部图像的第一特征表示、上次识别的预测文字，获取嘴部图像的第一注意力值；利用嘴部图像的第一注意力值对对应嘴部图像的第一特征表示进行加权，得到第一上下文表示。

区别于上述实施例，通过计算第一注意力值，以及通过利用第一注意力值来对嘴部图像对应的第一特征表示进行加权，可以使得不同的部图像对应的第一特征表示的重要程度产生区别，使得语音识别网络能够确定当前解码时刻应当关注的第一特征表示。

在一些公开实施例中，上述的音频数据包括至少一个音频帧，音频帧对应提取有第二特征表示。上述的处理器62用于利用第二特征表示、上次识别的预测文字和第一上下文表示，获取音频数据的第二上下文表示，包括：基于第二注意力机制，利用音频帧的第二特征表示、上次识别的预测文字和第一上下文表示，获取音频帧的第二注意力值；利用音频帧的第二注意力值对对应音频帧的第二特征表示进行加权，得到第二上下文表示。

区别于上述实施例，通过计算第二注意力值，并利用第二注意力加权第二特征表述，可以进一步确定在当前解码时刻语音识别网络对不同音频帧的第二特征表示的关注程度。

在一些公开实施例中，上述的处理器62用于利用音频数据，提取到第二特征表示，包括：对音频数据进行发音纠正，得到符合预设发音标准的标准音频；对标准音频进行特征提取，得到第二特征表示。

区别于上述实施例，通过对音频数据进行发音纠正，可以得到符合预设发音标准的标准音频，利用标准音频进行语音识别，有助于提高语音识别的准确度。

在一些公开实施例中，上述的发音纠正是利用纠正网络执行的。处理器62还用于对发音纠正网络的训练，处理器62具体用于获取第一对象的第一样本音频和与第一样本音频对应的第一样本文本，并获取第二对象的第二样本音频和与第二样本音频对应的第二样本文本；其中，第一对象的发音无需纠正，且第二对象的发音需要纠正；将第一样本文本进行语音合成，得到符合预设发音标准的第一标准音频，并将第二样本文本进行语音合成，得到符合预设发音标准的第二标准音频；利用第一样本音频和第一标准音频对纠正网络进行初始训练；利用第二样本音频和第二标准音频对纠正网络进行最终训练。

区别于上述实施例，通过先利用无需纠正发音的第一样本音频来对纠正网络进行初始训练，使得纠正网络能够处理的音频数据，再进一步的利用需要纠正发音的第二样本音频来纠正网络进行最终训练，提高了纠正网络针对吐字不清人群的发音的纠正能力，有助于提高后续语音识别网络对吐字不清人群的音频数据的语音识别准确度。

在一些公开实施例中，上述的处理器62用于利用第一样本音频和第一标准音频对纠正网络进行初始训练，包括：利用纠正网络对第一样本音频进行发音纠正，得到第一纠正音频，并利用第一纠正音频和第一标准音频的差异，调整纠正网络的网络参数。上述处理器62用于用第二样本音频和第二标准音频对纠正网络进行最终训练，包括：利用纠正网络对第二样本音频进行发音纠正，得到第二纠正音频，并利用第二纠正音频和第二标准音频的差异，调整纠正网络的网络参数。上述的纠正网络包括编码器、频谱解码器和拼音解码器。

区别于上述实施例，通过先后利用第一样本音频和第二样本音频对纠正网络进行训练，可以提高语音识别网络对吐字不清人群的音频数据的语音识别准确度。

在一些公开实施例中，上述的第一特征表示是利用视频编码网络提取得到的，视频编码网络包括Gated CNN。上述的第二特征表示是利用音频编码网络提取得到的，音频编码网络包括Gated CNN和SAN-M。上述的音频数据包括至少一个音频帧，第二特征表示是基于经短时傅里叶变换后的音频帧所提取得到的。

区别于上述实施例，通过利用Gated CNN，可以提高视频编码网络的抗噪性和鲁棒性，进而提高语音识别的准确度。区别于上述实施例，通过利用Gated CNN和SAN-M结合对音频数据进行编码，可以取得更好的特征提取效果，有助于提高语音识别准确度。区别于上述实施例，通过利用短时傅里叶变换对音频数据进行处理，可以获得更加丰富的音频数据信息，有助于提高语音识别的准确度。

请参阅图7，图7是本申请存储装置一实施例的框架示意图。存储装置70存储有能够被处理器运行的程序指令701，程序指令701用于实现上述任一语音识别方法的实施例中的步骤，或实现上述任一纠正网络训练方法实施例中的步骤，或实现上述任一语音识别网络训练方法实施例中的步骤。

上述方案，实现了将音频数据和视频数据的融合，以此便能利用视频数据的信息来辅助进行语音识别，提高了语音识别的准确度，尤其是提高了针对吐字不清人群的语音识别的准确度。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种语音识别方法，其特征在于，包括：

采集用户说话时的待识别数据；其中，所述待识别数据包括音频数据和所述用户嘴部的视频数据；

利用所述视频数据，提取到第一特征表示，并利用所述音频数据，提取到第二特征表示；其中，所述音频数据包括至少一个音频帧，所述音频帧对应提取有所述第二特征表示；

对所述待识别数据执行若干次以下识别步骤：利用所述第一特征表示和上次识别的预测文字，获取所述视频数据的第一上下文表示，基于第二注意力机制，利用所述音频帧的所述第二特征表示、上次识别的预测文字和所述第一上下文表示，获取所述音频帧的第二注意力值，利用所述音频帧的所述第二注意力值对对应所述音频帧的所述第二特征表示进行加权，得到第二上下文表示，利用所述第一上下文表示和所述第二上下文表示，获取融合上下文表示，并利用所述融合上下文表示进行预测，得到本次识别的预测文字；

将若干次识别的预测文字的组合，作为所述待识别数据的最终识别文本。

2.根据权利要求1所述的方法，其特征在于，所述视频数据包括至少一个嘴部图像，所述嘴部图像对应提取有所述第一特征表示；所述利用所述第一特征表示和上次识别的预测文字，获取所述视频数据的第一上下文表示，包括：

基于第一注意力机制，利用所述嘴部图像的第一特征表示、上次识别的预测文字，获取所述嘴部图像的第一注意力值；

利用所述嘴部图像的第一注意力值对对应所述嘴部图像的第一特征表示进行加权，得到所述第一上下文表示。

3.根据权利要求1所述的方法，其特征在于，所述利用所述音频数据，提取到第二特征表示，包括：

对所述音频数据进行发音纠正，得到符合预设发音标准的标准音频；

对所述标准音频进行特征提取，得到所述第二特征表示。

4.根据权利要求3所述的方法，其特征在于，所述发音纠正是利用纠正网络执行的，所述发音纠正网络的训练步骤包括：

获取第一对象的第一样本音频和与所述第一样本音频对应的第一样本文本，并获取第二对象的第二样本音频和与所述第二样本音频对应的第二样本文本；其中，所述第一对象的发音无需纠正，且所述第二对象的发音需要纠正；

将所述第一样本文本进行语音合成，得到符合所述预设发音标准的第一标准音频，并将所述第二样本文本进行语音合成，得到符合所述预设发音标准的第二标准音频；

利用所述第一样本音频和所述第一标准音频对所述纠正网络进行初始训练；

利用所述第二样本音频和所述第二标准音频对所述纠正网络进行最终训练。

5.根据权利要求4所述的方法，其特征在于，所述利用所述第一样本音频和所述第一标准音频对所述纠正网络进行初始训练，包括：

利用所述纠正网络对所述第一样本音频进行发音纠正，得到第一纠正音频，并利用所述第一纠正音频和所述第一标准音频的差异，调整所述纠正网络的网络参数；

和/或，所述利用所述第二样本音频和所述第二标准音频对所述纠正网络进行最终训练，包括：

利用所述纠正网络对所述第二样本音频进行发音纠正，得到第二纠正音频，并利用所述第二纠正音频和所述第二标准音频的差异，调整所述纠正网络的网络参数；

和/或，所述纠正网络包括编码器、频谱解码器和拼音解码器。

6.根据权利要求1所述的方法，其特征在于，所述第一特征表示是利用视频编码网络提取得到的，所述视频编码网络包括Gated CNN；

和/或，所述第二特征表示是利用音频编码网络提取得到的，所述音频编码网络包括Gated CNN和SAN-M；

和/或，所述音频数据包括至少一个音频帧，所述第二特征表示是基于经短时傅里叶变换后的音频帧所提取得到的。

7.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至6任一项所述的语音识别方法。

8.一种存储装置，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至6任一项所述的语音识别方法。