CN111583916A

CN111583916A - 一种语音识别方法、装置、设备及存储介质

Info

Publication number: CN111583916A
Application number: CN202010430127.2A
Authority: CN
Inventors: 殷兵; 严哲; 郭涛; 胡金水; 刘聪
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2020-08-25
Anticipated expiration: 2040-05-19
Also published as: CN111583916B

Abstract

本申请提供了一种语音识别方法、装置、设备及存储介质，其中，语音识别方法包括：获取目标语音数据和其对应的唇部图像数据，其中，唇部图像数据包括目标语音数据所涉及的每个说话人的唇部图像序列；以目标语音数据对应的唇部图像数据为辅助信息，利用预先建立的混叠语音识别模型，对目标语音数据按说话人进行分离，并对分离后的语音数据进行识别，得到目标语音数据的识别结果；其中，混叠语音识别模型以标注有真实分离结果和真实识别结果的混叠语音数据为训练样本，同时结合训练样本对应的唇部图像数据训练得到。本申请提供的语音识别方案对于嘈杂环境下的混叠语音具有较好的识别效果。

Description

一种语音识别方法、装置、设备及存储介质

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语音识别方法、装置、设备及存储介质。

背景技术

语音识别技术为将语音信号识别为文本的技术。目前比较成熟的语音识别方案主要为基于语音信号的识别方案，该方案的大致过程为，将待识别的语音信号输入语音识别模型进行识别，从而获得语音识别结果。

然而，基于语音信号的识别方案对于嘈杂环境下的语音识别效果不佳，尤其是嘈杂环境下的多人语音，并且，在针对多人语音识别的场景中，可能会出现多个说话人同时说话的情况，即待识别语音为混叠语音，对于混叠语音，基于语音信号的识别方案很难同时识别出多个说话人的说话内容。

发明内容

有鉴于此，本申请提供了一种语音识别方法、装置、设备及存储介质，用以解决现有技术中的语音识别方法对于嘈杂环境下的语音识别效果不佳，且在待识别语音为混叠语音时，很难同时识别出多个说话人的说话内容的问题，其技术方案如下：

一种语音识别方法，包括：

获取目标语音数据和其对应的唇部图像数据，其中，所述唇部图像数据包括所述目标语音数据所涉及的每个说话人的唇部图像序列；

以所述目标语音数据对应的唇部图像数据为辅助信息，利用预先建立的混叠语音识别模型，对所述目标语音数据按说话人进行分离，并对分离后的语音数据进行识别，得到所述目标语音数据的识别结果；

其中，所述混叠语音识别模型以标注有真实分离结果和真实识别结果的混叠语音数据为训练样本，同时结合所述训练样本对应的唇部图像数据训练得到。

可选的，所述混叠语音识别模型以最小化分离误差和识别误差为目标训练得到。

可选的，所述以所述目标语音数据对应的唇部图像数据为辅助信息，利用预先建立的混叠语音识别模型，对所述目标语音数据按说话人进行分离，并对分离后的语音数据进行识别，包括：

按预设长度对所述目标语音数据切分，由切分得到的目标语音段组成目标语音段集合；

对于所述目标语音段集合中的每个目标语音段：

利用所述混叠语音识别模型，以及该目标语音段对应的唇部图像数据，对该目标语音段进行分离；

利用所述混叠语音识别模型，以及该目标语音段对应的唇部图像数据，对分离后的各语音段进行识别，以得到该目标语音段的识别结果；

将所述目标语音段集合中各目标语音段的识别结果融合，得到所述目标语音数据的识别结果。

可选的，所述利用所述混叠语音识别模型，以及该目标语音段对应的唇部图像数据，对该目标语音段进行分离，包括：

将该目标语音段输入所述混叠语音识别模型的频谱转换模块，获得该目标语音段的语音频谱；

将该目标语音段的语音频谱输入所述混叠语音识别模型的第一语音特征提取模块，获得该目标语音段对应的语音频谱特征；

将该目标语音段对应的唇部图像数据输入所述混叠语音识别模型的图像特征提取模块，获得该目标语音段对应的唇部图像特征；

将该目标语音段对应的语音频谱特征和唇部图像特征输入所述混叠语音识别模型的第一特征融合模块，获得第一融合特征；

将所述第一融合特征输入所述混叠语音识别模型的语音分离模块，获得分离后的各语音段的语音频谱。

可选的，所述利用所述混叠语音识别模型，以及该目标语音段对应的唇部图像数据，对分离后的各语音段进行识别，包括：

将所述分离后的各语音段的语音频谱输入所述混叠语音识别模型的第二语音特征提取模块，获得分离后的各语音段分别对应的语音频谱特征；

将所述分离后的各语音段分别对应的语音频谱特征和该目标语音段对应的唇部图像特征输入所述混叠语音识别模型的第二特征融合模块，获得第二融合特征；

将所述第二融合特征输入所述混叠语音识别模型的语音识别模块，获得分离后的各语音段分别对应的识别结果。

可选的，获得所述训练样本和所述训练样本对应的唇部图像数据的过程包括：

获取至少两个单人视频段，并将所述至少两个单人视频段合成为一个视频段，得到合成后视频段，其中，所述合成后视频段中的每帧图像均包括各单人视频段中的说话人，所述合成后视频段的语音数据为将所述至少两个单人视频段的语音数据进行混叠得到的语音数据；

从所述合成后语音段中分离出语音数据和图像序列，分离出的语音数据作为所述训练样本，其中，所述至少两个单人视频段中，每个单人视频段的语音数据的语音频谱作为所述训练样本的真实分离结果，每个单人视频段的语音数据的文本内容作为所述训练样本的真实识别结果；

从所述图像序列中获取所述训练样本所涉及的每个说话人的唇部图像序列，作为所述训练样本对应的唇部图像数据。

可选的，所述混叠语音识别模型的训练过程包括：

按预设长度对所述训练样本切分，由切分得到的训练样本段组成训练样本段集合；

对于所述训练样本段集合中的每个训练样本段：

利用混叠语音识别模型，以及该训练样本段对应的唇部图像数据，对该训练样本段进行分离，获得分离后的各样本段的语音频谱，作为该训练样本段的预测分离结果；

利用混叠语音识别模型、该训练样本段对应的唇部图像数据以及该训练样本段的预测分离结果，确定分离后的各样本段分别对应的识别结果，作为该训练样本段的预测识别结果；

根据该训练样本段的预测分离结果和真实分离结果，确定该训练样本段对应的第一预测损失，并根据该训练样本段的预测识别结果和真实识别结果，确定该训练样本段对应的第二预测损失；

根据该训练样本段对应的第一预测损失和第二预测损失，更新混叠语音识别模型的参数。

可选的，所述混叠语音识别模型包括：语音分离部分和语音识别部分；

所述根据该训练样本段对应的第一预测损失和第二预测损失，更新混叠语音识别模型的参数，包括：

根据该训练样本段对应的第一预测损失，更新混叠语音识别模型的语音分离部分的参数；

根据该训练样本段对应的第二预测损失，更新混叠语音识别模型的语音分离部分和语音识别部分的参数。

可选的，所述根据该训练样本段对应的第一预测损失，更新混叠语音识别模型的语音分离部分的参数，包括：

按预设的第一权重对该训练样本段对应的第一预测损失加权，以加权后的损失为依据，更新混叠语音识别模型的语音分离部分的参数；

所述根据该训练样本段对应的第二预测损失，更新混叠语音识别模型的语音分离部分和语音识别部分的参数，包括：

按预设的第二权重对该训练样本段对应的第二预测损失加权，以加权后的损失为依据，更新混叠语音识别模型的语音分离部分和语音识别部分的参数；

其中，所述第一权重和所述第二权重均为大于0的值，且所述第一权重与所述第二权重的和为一固定值。

一种语音识别装置，包括：数据获取模块和语音分离及识别模块；

所述数据获取模块，用于获取目标语音数据和其对应的唇部图像数据，其中，所述唇部图像数据包括所述目标语音数据所涉及的每个说话人的唇部图像序列；

所述语音分离及识别模块，用于以所述目标语音数据对应的唇部图像数据为辅助信息，利用预先建立的混叠语音识别模型，对所述目标语音数据按说话人进行分离，并对分离后的语音数据进行识别，得到所述目标语音数据的识别结果；

一种语音识别设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现上述任一项所述的语音识别方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一项所述的语音识别方法的各个步骤。

经由上述方案可知，本申请提供的语音识别方法，首先获取目标语音数据和其对应的唇部图像数据，然后以目标语音数据对应的唇部图像数据为辅助信息，利用预先建立的混叠语音识别模型，对目标语音数据按说话人进行分离，并对分离后的语音数据进行识别，从而得到目标语音数据的识别结果。一方面，本申请在对目标语音数据进行语音分离和识别时，结合了目标语音数据对应的唇部图像数据，在语音分离和识别时辅以唇部图像数据，使得本申请提供的语音识别方法对噪声具有一定鲁棒性，且能够提升语音识别效果，另一方面，本申请采用预先建立的混叠语音识别模型先对目标语音数据进行分离，再对分离后的语音进行识别，由于混叠语音识别模型以标注有真实分离结果和真实识别结果的混叠语音数据为训练样本训练得到，因此，利用混叠语音识别模型将不同说话人的语音分离，能够获得有助于语音识别的语音分离结果，在此基础上进一步利用混叠语音识别模型进行语音识别，能够获得各说话人较准确的说话内容。本申请提供的语音识别方案除了对非嘈杂环境下的非混叠语音具有较好的识别效果外，对于嘈杂环境下的混叠语音也具有较好的识别效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的语音识别方法的流程示意图；

图2为本申请实施例提供的获取训练样本和训练样本对应的唇部图像数据的流程示意图；

图3为本申请实施例提供的混叠语音识别模型的训练过程的流程示意图；

图4为本申请实施例提供的混叠语音识别模型的一拓扑结构的示意图；

图5为本申请实施例提供的利用混叠语音识别模型，以及训练样本段对应的唇部图像数据，对训练样本段进行分离的流程示意图；

图6为本申请实施例提供的利用混叠语音识别模型、训练样本段对应的唇部图像数据以及训练样本段的预测分离结果，确定分离后的各样本段分别对应的识别结果的流程示意图；

图7为本申请实施例提供的以目标语音数据对应的唇部图像数据为辅助信息，利用预先建立的混叠语音识别模型，对目标语音数据按说话人进行分离，并对分离后的语音数据进行识别的流程示意图；

图8为本申请实施例提供的语音识别装置的结构示意图；

图9为本申请实施例提供的语音识别设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对于嘈杂环境下的多人语音识别，为了能够获得比较准确的识别结果，本案发明人进行了研究，起初的思路是：采用结合视觉信息的多模态语音识别方案，该方案结合视觉信息(主要是唇部视觉信息)和语音信号特征，利用多模态语音识别模型进行计算，从而得到多模态语音识别结果。

由于结合视觉信息的多模态语音识别方案结合了说话人的唇部视觉信息，因此，其对噪声具有一定鲁棒性，同时也具有较好的识别效果。然而，本案发明人发现，结合视觉信息的多模态语音识别方案虽然在噪声环境下的识别率相对于传统的语音识别方案(即基于语音信号的识别方案)有所提升，但是，其对于混叠语音的识别效果依然不佳。

为了能够对混叠语音进行准确识别，本案发明人想到，可以将多模态语音分离与多模态语音识别相结合，即先结合视觉信息(比如唇部视觉信息)，采用多模态语音分离技术对混叠语音进行分离，然后结合视觉信息(比如唇部视觉信息)，采用多模态语音识别技术对分离后的语音进行识别。

将多模态语音分离与多模态语音识别相结合的方案需要先分别训练多模态语音分离模型和多模态语音识别模型，然后将训练得到的多模态语音分离模型与训练得到的多模态语音识别模型拼接，利用拼接后的模型对待识别的混叠语音数据进行识别。

发明人对将多模态语音分离与多模态语音识别相结合的方案进行研究发现：由于多模态语音分离模型单独训练，因此，该模型在训练过程中，仅使用模型预测的分离结果与期望分离结果的误差为依据，不断更新模型参数，并未考虑分离结果对多模态语音识别准确性的影响，这导致使用独立的多模态语音分离模型对混叠语音进行分离，再使用独立的多模态语音识别模型对分离后的语音进行多模态识别，并不能得到最优的识别准确度。

另外，由于多模态语音分离模型和多模态语音识别模型相互独立，因此，二者均需要进行图像特征提取，也就是说，简单地将多模态语音分离模型与多模态语音识别模型拼凑在一起进行语音识别时，每个模型都需要单独提取图像特征，而提取图像特征需要耗费较长的时间，也就是说，无论是多模态语音分离还是多模态语音识别，其进行特征提取的效率瓶颈均为图像特征提取的效率。

鉴于上述将多模态语音分离与多模态语音识别相结合的方案存在的缺陷，本案发明人进一步进行研究，最终提出了一种可适用于多人语音识别场景、对噪声具有一定鲁棒性、对混叠语音具有较好识别效果且识别效率较高的语音识别方法，该方法的大致思路为，将语音分离部分与语音识别部分进行联合训练，以使语音分离部分的分离结果更加有助于语音识别部分的语音识别，从而提升语音识别准确率，另外，使语音分离部分与语音识别部分共用图像特征提取部分，从而提升特征提取的效率，进而提升语音识别效率。

本申请提供的语音识别方法可应用于具有数据处理能力的终端(比如PC、智能手机、笔记本、PAD等)，还可应用于服务器(可以为单个服务器、多个服务器或者服务器集群)。接下来通过下述实施例对本申请提供的语音识别方法进行介绍。

第一实施例

请参阅图1，示出了本申请实施例提供的语音识别方法的流程示意图，可以包括：

步骤S101：获取目标语音数据和其对应的唇部图像数据。

其中，目标语音数据和其对应的唇部图像数据从目标视频数据中获得。

具体的，从目标视频数据中获得目标语音数据和其对应的唇部图像数据的过程包括：首先从目标视频数据中分离出语音数据和图像序列，分离出的语音数据作为目标语音数据；然后从分离出的图像序列中获取目标语音数据所涉及的每个说话人的唇部图像序列，目标语音数据所涉及的每个说话人的唇部图像序列作为目标语音数据对应的唇部图像数据。

需要说明的是，可采用如下方式中的任一种从一图像中获取一说话人的唇部图像：

第一种方式：首先从该图像中获取该说话人的脸部区域图像，然后将该脸部区域图像缩放到预设的第一尺寸，最后以该说话人的唇部中心点为中心，从缩放后的脸部区域图像中截取预设的第二尺寸(比如80*80)的唇部图像。

第二种方式：首先以该说话人唇部中心点为中心，从该图像中截取该说话人的唇部图像，然后将该说话人的唇部图像缩放的预设的第二尺寸(比如80*80)。

对于图像序列中的每个图像执行上述操作，便可获得目标语音数据所涉及的每个说话人的唇部图像序列，即目标语音数据对应的唇部图像数据，假设目标语音数据包括5个说话人的语音数据，则从图像序列中获取分别对应于这5个说话人的唇部图像序列。

步骤S102：以目标语音数据对应的唇部图像数据为辅助信息，利用预先建立的混叠语音识别模型，对目标语音数据按说话人进行分离，并对分离后的语音数据进行识别，得到目标语音数据的识别结果。

具体的，先以目标语音数据对应的唇部图像数据为辅助信息，利用预先建立的混叠语音识别模型，对目标语音数据按说话人进行分离，然后以目标语音数据对应的唇部图像数据为辅助信息，利用预先建立的混叠语音识别模型，对分离后的语音数据进行识别，从而得到目标语音数据的识别结果。

其中，混叠语音识别模型以标注有真实分离结果和真实识别结果的混叠语音数据为训练样本，同时结合训练样本对应的唇部图像数据训练得到。优选的，混叠语音识别模型以最小化分离误差和识别误差为目标训练得到。

本申请实施例提供的语音识别方法具有如下两个特点：其一，在对目标语音数据进行语音分离和识别时，结合了目标语音数据对应的唇部图像数据，在语音分离和识别时辅以唇部图像数据，使得本申请实施例提供的语音识别方法对噪声具有一定鲁棒性，且能够提升语音识别效果；其二，采用混叠语音识别模型实现目标语音数据的分离和识别，由于混叠语音识别模型以标注有真实分离结果和真实识别结果的混叠语音数据为训练样本、以最小化分离误差和识别误差为目标训练得到，因此，利用混叠语音识别模型既能实现语音分离，又能在语音分离的基础上实现语音识别，且语音分离结果有助于提升语音识别结果。

本申请实施例提供的语音识别方案除了对非嘈杂环境下的非混叠语音具有较好的识别效果外，对于嘈杂环境下的混叠语音也具有较好的识别效果。

第二实施例

上述实施例提到，可采用预先建立的混叠语音识别模型对目标语音数据进行分离和识别，本实施例重点对建立混叠语音识别模型的过程进行介绍。

鉴于混叠语音识别模型采用标注有真实分离结果和真实识别结果的训练样本，同时结合训练样本对应的唇部图像数据训练得到，本实施例首先对获取训练样本和训练样本对应的唇部图像数据的过程进行介绍。

请参阅图2，示出了获取训练样本和训练样本对应的唇部图像数据的流程示意图，可以包括：

步骤S201：获取至少两个单人视频段。

其中，单人视频段为包含一个说话人的视频段，该视频段包含的语音数据为这一个说话人的语音数据，该视频段的每帧图像只包含这一个说话人。

具体的，可从预先构建的单人视频段集合中获取至少两个单人视频段。优选的，单人视频段集合中的各个视频段对应的说话人不同。

需要说明的是，获取单人视频段的数量可根据具体的应用场景确定，比如，某个应用场景为两个说话人的语音识别场景，则本步骤获取两个单人视频段，同理，若某个应用场景为三个说话人的语音识别场景，则本步骤可获取三个单人视频段。

步骤S202：将至少两个单人视频段合成为一个视频段，得到合成后视频段。

需要说明的是，单人视频段集合中可以包含时长相同的单人视频段，也可包含时长不同的单人视频段，若为前者，则从单人视频段集合中获取至少两个单人视频段后，可直接对至少两个单人视频段进行合成，若为后者，则需要先将获取的至少两个单人视频段处理成时长相同的单人视频段(比如，以时长最短的单人视频段的时长为基准，对其它单人视频段进行截取，使截取后的单人视频段的时长与时长最短的单人视频段的时长相同)，然后再合成。

在对获取的至少两个单人视频段进行合成时，一方面要将至少两个单人视频段的各帧图像进行合成，另一方面要将至少两个单人视频段的语音数据进行混叠。

示例性的，从单人视频段集合中获取了两个单人视频段，分别为说话人A的单人视频段a和说话人B的单人视频段b，则将单人视频段a的第一帧图像与单人视频段b的第一帧图像合成，合成后的第一帧图像中同时包含说话人A和说话人B，将单人视频段a的第二帧图像与单人视频段b的第二帧图像合成，合成后的第二帧图像中也同时包含说话人A和说话人B，其它图像以此类推，同时，将说话人A的语音数据与说话人B的语音数据进行混叠。假设单人视频段a和单人视频段b的时长均为t，则合成后视频段的时长也为t。

经由上述合成过程可知，合成后视频段中的每帧图像均包括各单人视频段中的说话人，合成后视频段的语音数据为将至少两个单人视频段的语音数据进行混叠得到的语音数据。

步骤S203：从合成后语音段中分离出语音数据和图像序列，分离出的语音数据作为训练样本。

其中，至少两个单人视频段中，每个单人视频段的语音数据的语音频谱作为训练样本的真实分离结果，每个单人视频段的语音数据的文本内容作为训练样本的真实识别结果。

步骤S204：从图像序列中获取训练样本所涉及的每个说话人的唇部图像序列，作为训练样本对应的唇部图像数据。

本步骤获取训练样本所涉及的每个说话人的唇部图像序列的过程与上述实施例中获取目标语音数据所涉及的每个说话人的唇部图像序列的过程类似，具体可参见上述实施例，本实施例在此不作赘述。

需要说明的是，上述步骤S201～S203为获取一个训练样本和其对应的唇部图像数据的过程，假设单人视频段集合中包括N个单人视频段，应用场景为M个说话人的语音识别场景，则可按上述过程获得C_NM个训练样本，以及C_NM个训练样本分别对应的唇部图像数据，C_NM个训练样本组成混叠语音识别模型的训练样本集。

接下来对利用训练样本集中的训练样本训练混叠语音识别模型的过程进行介绍。

请参阅图3，示出了混叠语音识别模型的训练过程的流程示意图，该训练过程可以包括：

步骤S301：从训练样本集中获取一训练样本。

在获取一训练样本的同时，获取该训练样本对应的唇部图像数据，假设该训练样本涉及5个说话人，则该训练样本对应的唇部图像数据包括5个唇部图像序列，其中，每个唇部图像序列对应于一个说话人。

步骤S302：按预设长度对训练样本切分，由切分得到的训练样本段组成训练样本段集合。

在本实施例中，按预设长度对训练样本进行切分的目的主要有两个方面，其一，混叠语音识别模型处理的数据长度是固定的，因此，需要将训练样本处理成固定长度，其二，为了提高混叠语音识别模型对于数据的处理速度，以保证实时性，需要将训练样本切分为小段处理。需要说明的是，预设长度应合适，不宜太长，也不宜太短，预设长度太长的话，实时性不够高，预设长度过短，将影响混叠语音识别模型的效果，可选的，预设长度可以为3秒。

步骤S303：采用训练样本段集合中的每个训练样本段，按如下的步骤S3021～S3024训练混叠语音识别模型：

步骤S3031：利用混叠语音识别模型，以及该训练样本段对应的唇部图像数据，对该训练样本段进行分离，获得分离后的各样本段的语音频谱，作为该训练样本段的预测分离结果。

假设步骤S301中的训练样本为y，其对应的唇部图像数据包括两个唇部图像序列(即训练样本y涉及2个说话人)，分别为唇部图像序列1和唇部图像序列2，该训练样本y来源于视频数据c，视频数据c的帧率为25fps，时长为15s，预设长度为3秒，则根据步骤S302可将训练样本y切分为5段，即获得5个训练样本段，对于每个3秒的训练样本段，其对应的唇部图像数据包括2个75帧的唇部图像序列，具体的，对于第1个训练样本段，其对应的唇部图像数据包括由唇部图像序列1中的第1～75帧图像组成的唇部图像序列，以及由唇部图像序列2中的第1～75帧图像组成的唇部图像序列，对于第2个训练样本段，其对应的唇部图像数据包括由唇部图像序列1中的第76～150帧图像组成的唇部图像序列，以及由唇部图像序列2中的第76～150帧图像组成的唇部图像序列，第3、4、5个训练样本段分别对应的唇部图像数据以此类推。

本申请中的混叠语音识别模型包括两个部分，即语音分离部分和语音识别部分，本步骤将训练样本段和该训练样本段对应的唇部图像数据输入混叠语音识别模型的语音分离部分，以对该训练样本段进行分离。

需要说明是，假设训练样本段涉及x个说话人，那么该训练样本段对应的唇部图像数据包括分别对应于x个说话人的x个唇部图像序列，在向混叠语音识别模型的语音分离部分输入数据时，需要将该训练样本段复制成x份，每份训练样本段与一唇部图像序列对应输入。混叠语音识别模型的语音分离部分对训练样本段进行分离后，将得到x段语音频谱(每段语音频谱对应一个说话人)，这x段语音频谱为分离后的x个语音段的语音频谱。

步骤S3032：利用混叠语音识别模型、该训练样本段对应的唇部图像数据以及该训练样本段的预测分离结果，确定分离后的各样本段分别对应的识别结果，作为该训练样本段的预测识别结果。

本步骤利用混叠语音识别模型的语音识别部分、该训练样本段对应的唇部图像数据以及该训练样本段的预测分离结果，确定分离后的各样本段分别对应的识别结果。

假设训练样本涉及x个说话人，则通过本步骤可获得对训练样本段进行分离后得到的x个样本段分别对应的识别结果。

步骤S3033：根据该训练样本段的预测分离结果和真实分离结果，确定该训练样本段对应的第一预测损失，并根据该训练样本段的预测识别结果和真实识别结果，确定该训练样本段对应的第二预测损失。

具体的，可根据该训练样本段的预测分离结果和真实分离结果计算L2损失，作为该训练样本段对应的第一预测损失LOSS1，可根据该训练样本段的预测识别结果和真实识别结果计算交叉熵损失，作为该训练样本段对应的第二预测损失LOSS2。

步骤S3034：根据该训练样本段对应的第一预测损失和第二预测损失，更新混叠语音识别模型的参数。

重复多次执行步骤S301～S303，即对混叠语音识别模型进行多次迭代训练，直至达到预设的迭代次数，或者，混叠语音识别模型的性能满足要求。

本申请将语音分离部分作为整个混叠语音识别模型的一部分，在训练时，对语音分离部分与语音识别部分进行联合训练，以语音分离部分的预测损失和语音识别部分的预测损失为依据更新模型的参数，通过对语音分离部分与语音识别部分进行联合训练使得，语音分离部分的语音分离结果有助于提升语音识别部分的识别准确率。

第三实施例

本实施例对上述实施例的“步骤S3031：利用混叠语音识别模型，以及该训练样本段对应的唇部图像数据，对该训练样本段进行分离，获得分离后的各样本段的语音频谱，作为该训练样本段的预测分离结果”，以及“步骤S3032：利用混叠语音识别模型、该训练样本段对应的唇部图像数据以及该训练样本段对应的预测分离结果，确定分离后的各样本段分别对应的识别结果，作为该训练样本段的预测识别结果”进行介绍。

在对上述步骤S3031和S3032进行介绍之前，本实施例首先对混叠语音识别模型的拓扑结构进行介绍。

请参阅图4，示出了本申请实施例提供的混叠语音识别模型的一拓扑结构的示意图，其可以包括：频谱转换模块401、第一语音特征提取模块402、图像特征提取模块403、第一特征融合模块404、语音分离模块405、第二语音特征提取模块406、第二特征融合模块407和语音识别模块408。

其中，频谱转换模块401用于将输入的语音转换为语音频谱；第一语音特征提取模块402和第二语音特征提取模块406均用于对输入的语音频谱提取语音特征；图像特征提取模块403用于对输入的图像提取图像特征；第一特征融合模块404和第二特征融合模块407均用于对输入的语音特征和图像特征进行融合；语音分离模块405用于对输入的语音进行分离；语音识别模块408用于对输入的语音进行识别。

需要说明的是，频谱转换模块401、第一语音特征提取模块402、图像特征提取模块403、第一特征融合模块404和语音分离模块405组成混叠语音识别模型的语音分离部分，第二语音特征提取模块406、图像特征提取模块403、第二特征融合模块407和语音识别模块408组成混叠语音识别模型的语音识别部分。

不难发现，混叠语音识别模型的语音分离部分与语音识别部分共用一个图像特征提取模块403，更为确切的说是，语音分离部分与语音识别部分共用图像特征提取模块403提取的图像特征。本申请通过对混叠语音识别模型的语音分离部分与语音识别部分进行联合训练，使得图像特征提取模块403不仅可以同时满足语音分离和语音识别的需求，还能够提升混叠语音识别模型的吞吐量，降低混叠语音识别模型的计算耗时，提升混叠语音识别模型的计算效率(这种计算效率的提升，是上述提到的通过简单地组合多模态语音分离和识别的方法所不具备的)。

在图4示出的混叠语音识别模型的基础上，现结合图5给出步骤S3031具体实现过程，可以包括：

步骤S501：将该训练样本段输入混叠语音识别模型的频谱转换模块401，获得该目标语音段的语音频谱。

具体的，该训练样本段输入混叠语音识别模型的频谱转换模块401后，频谱转换模块401对该训练样本段进行短时傅里叶变换(STFT)，输出2通道的语音频谱信号。

步骤S502：将该训练样本段的语音频谱输入混叠语音识别模型的第一语音特征提取模块402，获得该训练样本段对应的语音频谱特征。

步骤S503：将该训练样本段对应的唇部图像数据输入混叠语音识别模型的图像特征提取模块403，获得该训练样本段对应的唇部图像特征。

步骤S504：将该训练样本段对应的语音频谱特征和唇部图像特征输入混叠语音识别模型的第一特征融合模块404，获得第一融合特征。

具体的，该训练样本段对应的语音频谱特征和唇部图像特征输入混叠语音识别模型的第一特征融合模块404，第一特征融合模块404将该训练样本段对应的语音频谱特征与其对应的唇部图像特征进行拼接，拼接后的特征即为第一融合特征。

步骤S505：将第一融合特征输入混叠语音识别模型的语音分离模块405，获得分离后的各样本段的语音频谱。

请参阅图6，示出了步骤S3032的具体实现过程，可以包括：

步骤S601：将分离后的各样本段的语音频谱输入混叠语音识别模型的第二语音特征提取模块406，获得分离后的各样本段分别对应的语音频谱特征。

步骤S602：将分离后的各样本段分别对应的语音频谱特征和该训练样本段对应的唇部图像特征输入混叠语音识别模型的第二特征融合模块406，获得第二融合特征。

具体的，分离后的各样本段分别对应的语音频谱特征和该训练样本段对应的唇部图像特征输入混叠语音识别模型的第二特征融合模块406后，第二特征融合模块406对分离后的各样本段分别对应的语音频谱特征和该训练样本段对应的唇部图像特征进行拼接，拼接后的特征即为第二融合特征。

步骤S603：将第二融合特征输入混叠语音识别模型的语音识别模块，获得分离后的各样本段分别对应的识别结果。

第四实施例

本实施例对上述实施例中的“步骤S3034：根据该训练样本段对应的第一预测损失和第二预测损失，更新混叠语音识别模型的参数”进行介绍。

根据该训练样本段对应的第一预测损失和第二预测损失，更新混叠语音识别模型的参数的过程可以包括：

步骤a1、根据该训练样本段对应的第一预测损失LOSS1，进行梯度反向传播，更新(或者优化)混叠语音识别模型的语音分离部分的参数。

需要说明的是，根据LOSS1更新(或者优化)混叠语音识别模型中的语音分离部分的参数这一过程会优化混叠语音识别模型中的语音分离部分的分离效果，使得语音分离部分可以输出较好的分离结果用于后续的语音识别。

步骤a2、根据该训练样本段对应的第二预测损失LOSS2，进行梯度反向传播，更新(或者优化)整个混叠语音识别模型的参数。

需要说明的是，根据LOSS2更新(或者优化)整个混叠语音识别模型的参数这一过程会同时影响语音分离部分和语音识别部分，使得它们均向更好的识别效果方向优化，更具体的，这一过程会使得语音分离部分的特征提取模块和语音分离模块，在获得较好的分离效果的基础上，向着更利于识别效果的方向优化，同时使得语音分离部分的图像特征提取模块可以同时适应语音分离和语音识别两方面的需求。另外，根据LOSS2更新(或者优化)整个混叠语音识别模型的参数这一过程，也会使得语音识别部分更加兼容语音分离网络的特性，从而让两部分的配合取得更好的综合效果。

优选的，在本实施例中，可按预设的第一权重w1对该训练样本段对应的第一预测损失LOSS1进行加权，以加权后的损失LOSS1*w1为依据，更新混叠语音识别模型的语音分离部分的参数；按预设的第二权重w2对该训练样本段对应的第二预测损失LOSS2进行加权，以加权后的损失LOSS2*w2为依据，更新混叠语音识别模型的语音分离部分和语音识别部分的参数。有鉴于此，混叠语音识别模型的综合损失LOSS可表示为：

LOSS＝LOSS1*w1+LOSS2*w2 (1)

其中，第一权重w1为针对语音分离设置的权重，第二权重w2为针对语音识别设置的权重，第一权重w1与第二权重w2均为大于0的值，且第一权重w1与第二权重w2的和为一固定值，通常为1。需要说明的是，如果第一权重w1设置的偏大，则训练后的模型效果偏向于更好的分离，反之则偏向于更好的识别，第一权重w1和第二权重w2可根据实际情况灵活设定，可选的，第一权重w1可取0.4,第二权重w2可取0.6，当然，本实施例并不限定于此，比如，第一权重w1可取0.3,第二权重w2可取0.7。

第五实施例

在上述第二实施例至第四实施例的基础上，本实施例对第一实施例中的“步骤S102：以目标语音数据对应的唇部图像数据为辅助信息，利用预先建立的混叠语音识别模型，对目标语音数据按说话人进行分离，并对分离后的语音数据进行识别，得到目标语音数据的识别结果”进行介绍。

请参阅图7，示出了以目标语音数据对应的唇部图像数据为辅助信息，利用预先建立的混叠语音识别模型，对目标语音数据按说话人进行分离，并对分离后的语音数据进行识别的流程示意图，可以包括：

步骤S701：按预设长度对目标语音数据切分，由切分得到的目标语音段组成目标语音段集合。

步骤S702：对目标语音段集合中的每个目标语音段执行如下步骤S7021和S7022，以得到目标语音段集合中每个目标语音段的识别结果：

步骤S7021：利用混叠语音识别模型，以及该目标语音段对应的唇部图像数据，对该目标语音段进行分离。

具体的，利用混叠语音识别模型，以及该目标语音段对应的唇部图像数据，对该目标语音段进行分离的过程可以包括：

步骤b1、将该目标语音段输入混叠语音识别模型的频谱转换模块，获得该目标语音段的语音频谱。

具体的，频谱转换模块对输入的目标语音段进行短时傅里叶变换，从而输出目标语音段的语音频谱。

步骤b2、将该目标语音段的语音频谱输入混叠语音识别模型的第一语音特征提取模块，获得该目标语音段对应的语音频谱特征。

步骤b3、将该目标语音段对应的唇部图像数据输入混叠语音识别模型的图像特征提取模块，获得该目标语音段对应的唇部图像特征。

步骤b4、将该目标语音段对应的语音频谱特征和唇部图像特征输入混叠语音识别模型的第一特征融合模块，获得第一融合特征。

具体的，第一特征融合模块将该目标语音段对应的语音频谱特征与其对应的唇部图像特征拼接，输出拼接后的特征，即第一融合特征。

步骤b5、将第一融合特征输入混叠语音识别模型的语音分离模块，获得分离后的各语音段的语音频谱。

步骤S7022：利用混叠语音识别模型，以及该目标语音段对应的唇部图像数据，对分离后的各语音段进行识别，以得到该目标语音段的识别结果。

具体的，利用混叠语音识别模型，以及该目标语音段对应的唇部图像数据，对分离后的各语音段进行识别的过程包括：

步骤c1、将分离后的各语音段的语音频谱输入混叠语音识别模型的第二语音特征提取模块，获得分离后的各语音段分别对应的语音频谱特征。

步骤c2、将分离后的各语音段分别对应的语音频谱特征和该目标语音段对应的唇部图像特征输入混叠语音识别模型的第二特征融合模块，获得第二融合特征。

具体的，第二特征融合模块将分离后的各语音段分别对应的语音频谱特征与该目标语音段对应的唇部图像特征拼接，输出拼接后的特征，即第二融合特征。

步骤c3、将第二融合特征输入混叠语音识别模型的语音识别模块，获得分离后的各语音段分别对应的识别结果，作为该目标语音段的识别结果。

步骤S703：将目标语音段集合中各目标语音段的识别结果融合，得到目标语音数据的识别结果。

需要说明的是，目标语音数据的识别结果为从目标语音数据中分离出的、各说话人的语音数据分别对应的识别结果。

具体的，将目标语音段集合中各目标语音段的识别结果融合的方式为：将属于同一说话人的语音段的识别结果按顺序拼接，便可得到各个说话人的语音数据分别对应的识别结果。

示例性的，目标语音数据涉及两个说话人，假设将目标语音数据切分为5个目标语音段，分别为目标语音段1、目标语音段2、目标语音段3、目标语音段4、目标语音段5，对目标语音段1进行分离后得到说话人1的语音段11和说话人2的语音段12，对分离后的这两个语音段进行识别后可获得说话人1的语音段11的识别结果和说话人2的语音段12的识别结果，同理可获得说话人1的语音段21的识别结果、说话人2的语音段22的识别结果，…，说话人1的语音段51的识别结果、说话人2的语音段52的识别结果，将说话人1的语音段11的识别结果、语音段21的识别结果、语音段31的识别结果、语音段41的识别结果、语音段51的识别结果拼接，便可得到从目标语音数据中分离出的说话人1的语音数据的识别结果，同理可获得从目标语音数据中分离出的说话人2的语音数据的识别结果。

本申请提供的语音识别方法对噪声环境具有一定的鲁棒性，且能够从混叠语音中识别出各说话人准确的说话内容。

第六实施例

本申请实施例还提供了一种语音识别装置，下面对实施例提供的语音识别装置进行描述，下文描述的语音识别装置与上文描述的语音识别方法可相互对应参照。

请参阅图8，示出了本申请实施例提供的语音识别装置的结构示意图，可以包括：数据获取模块801和语音分离及识别模块802。

数据获取模块801，用于获取目标语音数据和其对应的唇部图像数据。

其中，唇部图像数据包括所述目标语音数据所涉及的每个说话人的唇部图像序列。

语音分离及识别模块802，用于以所述目标语音数据对应的唇部图像数据为辅助信息，利用预先建立的混叠语音识别模型，对所述目标语音数据按说话人进行分离，并对分离后的语音数据进行识别，得到所述目标语音数据的识别结果。

可选的，混叠语音识别模型以最小化分离误差和识别误差为目标训练得到。

可选的，语音分离及识别模块802可以包括：语音切分模块、语音分离模块、语音识别模块和识别结果融合模块。

语音切分模块，用于按预设长度对所述目标语音数据切分，由切分得到的目标语音段组成目标语音段集合。

语音分离模块，用于对于所述目标语音段集合中的每个目标语音段：利用所述混叠语音识别模型，以及该目标语音段对应的唇部图像数据，对该目标语音段进行分离；

语音识别模块，用于利用所述混叠语音识别模型，以及该目标语音段对应的唇部图像数据，对分离后的各语音段进行识别，以得到该目标语音段的识别结果；

识别结果融合模块，用于将所述目标语音段集合中各目标语音段的识别结果融合，得到所述目标语音数据的识别结果。

可选的，语音分离模块，具体用于将该目标语音段输入所述混叠语音识别模型的频谱转换模块，获得该目标语音段的语音频谱；将该目标语音段的语音频谱输入所述混叠语音识别模型的第一语音特征提取模块，获得该目标语音段对应的语音频谱特征；将该目标语音段对应的唇部图像数据输入所述混叠语音识别模型的图像特征提取模块，获得该目标语音段对应的唇部图像特征；将该目标语音段对应的语音频谱特征和唇部图像特征输入所述混叠语音识别模型的第一特征融合模块，获得第一融合特征；将所述第一融合特征输入所述混叠语音识别模型的语音分离模块，获得分离后的各语音段的语音频谱。

可选的，语音识别模块，具体用于将所述分离后的各语音段的语音频谱输入所述混叠语音识别模型的第二语音特征提取模块，获得分离后的各语音段分别对应的语音频谱特征；将所述分离后的各语音段分别对应的语音频谱特征和该目标语音段对应的唇部图像特征输入所述混叠语音识别模型的第二特征融合模块，获得第二融合特征；将所述第二融合特征输入所述混叠语音识别模型的语音识别模块，获得分离后的各语音段分别对应的识别结果。

可选的，本实施例提供的语音识别装置还可以包括：训练样本及相关数据获取模块。

训练样本及相关数据获取模块包括：单人视频段获取子模块、单人视频段合成子模块、数据分离子模块和唇部图像数据获取子模块。

单人视频段获取子模块，用于获取至少两个单人视频段。

单人视频段合成子模块，用于将所述至少两个单人视频段合成为一个视频段，得到合成后视频段。

其中，所述合成后视频段中的每帧图像均包括各单人视频段中的说话人，所述合成后视频段的语音数据为将所述至少两个单人视频段的语音数据进行混叠得到的语音数据。

数据分离子模块，用于从所述合成后语音段中分离出语音数据和图像序列，分离出的语音数据作为所述训练样本。

其中，所述至少两个单人视频段中，每个单人视频段的语音数据的语音频谱作为所述训练样本的真实分离结果，每个单人视频段的语音数据的文本内容作为所述训练样本的真实识别结果。

唇部图像数据获取子模块，用于从所述图像序列中获取所述训练样本所涉及的每个说话人的唇部图像序列，作为所述训练样本对应的唇部图像数据。

可选的，本实施例提供的语音识别装置还可以包括：混叠语音识别模型训练模块。

混叠语音识别模型训练模块包括：样本切分子模块和模型训练子模块。

样本切分子模块，用于按预设长度对所述训练样本切分，由切分得到的训练样本段组成训练样本段集合；

模型训练子模块，用于对于所述训练样本段集合中的每个训练样本段：

利用混叠语音识别模型，以及该训练样本段对应的唇部图像数据，对该训练样本段进行分离，获得分离后的各样本段的语音频谱，作为该训练样本段的预测分离结果；利用混叠语音识别模型、该训练样本段对应的唇部图像数据以及该训练样本段的预测分离结果，确定分离后的各样本段分别对应的识别结果，作为该训练样本段的预测识别结果；根据该训练样本段的预测分离结果和真实分离结果，确定该训练样本段对应的第一预测损失，并根据该训练样本段的预测识别结果和真实识别结果，确定该训练样本段对应的第二预测损失；根据该训练样本段对应的第一预测损失和第二预测损失，更新混叠语音识别模型的参数。

可选的，所述混叠语音识别模型包括：语音分离部分和语音识别部分。

模型训练子模块在根据该训练样本段对应的第一预测损失和第二预测损失，更新混叠语音识别模型的参数时，具体用于根据该训练样本段对应的第一预测损失，更新混叠语音识别模型的语音分离部分的参数，根据该训练样本段对应的第二预测损失，更新混叠语音识别模型的语音分离部分和语音识别部分的参数。

可选的，模型训练子模块在根据该训练样本段对应的第一预测损失，更新混叠语音识别模型的语音分离部分的参数时，具体用于按预设的第一权重对该训练样本段对应的第一预测损失加权，以加权后的损失为依据，更新混叠语音识别模型的语音分离部分的参数。

模型训练子模块在根据该训练样本段对应的第二预测损失，更新混叠语音识别模型的语音分离部分和语音识别部分的参数时，具体用于按预设的第二权重对该训练样本段对应的第二预测损失加权，以加权后的损失为依据，更新混叠语音识别模型的语音分离部分和语音识别部分的参数；

本申请实施例提供的语音识别装置，一方面，在对目标语音数据进行语音分离和识别时，结合了目标语音数据对应的唇部图像数据，在语音分离和识别时辅以唇部图像数据，使得本申请提供的语音识别方法对噪声具有一定鲁棒性，且能够提升语音识别效果，另一方面，采用预先建立的混叠语音识别模型实现目标语音数据的分离和识别，由于混叠语音识别模型以最小化分离误差和识别误差为目标，以标注有真实分离结果和真实识别结果的混叠语音数据为训练样本，同时结合训练样本对应的唇部图像数据训练得到，因此，利用混叠语音识别模型能够准确的将不同说话人的语音分离开，进而准确地对分离后的语音进行识别，从而能够获得各说话人准确的说话内容。本申请实施例提供的语音识别装置除了对非嘈杂环境下的非混叠语音具有较好的识别效果外，对于嘈杂环境下的混叠语音也具有较好的识别效果。

第七实施例

本申请实施例还提供了一种语音识别设备，请参阅图9，示出了该语音识别设备的结构示意图，该语音识别设备可以包括：至少一个处理器901，至少一个通信接口902，至少一个存储器903和至少一个通信总线904；

在本申请实施例中，处理器901、通信接口902、存储器903、通信总线904的数量为至少一个，且处理器901、通信接口902、存储器903通过通信总线904完成相互间的通信；

处理器901可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器903可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

第八实施例

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的语音识别方法，其特征在于，所述混叠语音识别模型以最小化分离误差和识别误差为目标训练得到。

3.根据权利要求1所述的语音识别方法，其特征在于，所述以所述目标语音数据对应的唇部图像数据为辅助信息，利用预先建立的混叠语音识别模型，对所述目标语音数据按说话人进行分离，并对分离后的语音数据进行识别，包括：

对于所述目标语音段集合中的每个目标语音段：

4.根据权利要求3所述的语音识别方法，其特征在于，所述利用所述混叠语音识别模型，以及该目标语音段对应的唇部图像数据，对该目标语音段进行分离，包括：

5.根据权利要求4所述的语音识别方法，其特征在于，所述利用所述混叠语音识别模型，以及该目标语音段对应的唇部图像数据，对分离后的各语音段进行识别，包括：

6.根据权利要求1所述的语音识别方法，其特征在于，获得所述训练样本和所述训练样本对应的唇部图像数据的过程包括：

7.根据权利要求1所述的语音识别方法，其特征在于，所述混叠语音识别模型的训练过程包括：

对于所述训练样本段集合中的每个训练样本段：

8.根据权利要求7所述的语音识别方法，其特征在于，所述混叠语音识别模型包括：语音分离部分和语音识别部分；

9.根据权利要求8所述的语音识别方法，其特征在于，所述根据该训练样本段对应的第一预测损失，更新混叠语音识别模型的语音分离部分的参数，包括：

10.一种语音识别装置，其特征在于，包括：数据获取模块和语音分离及识别模块；

11.一种语音识别设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～9中任一项所述的语音识别方法的各个步骤。

12.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～9中任一项所述的语音识别方法的各个步骤。