CN111326143A

CN111326143A - 语音处理方法、装置、设备及存储介质

Info

Publication number: CN111326143A
Application number: CN202010129113.7A
Authority: CN
Inventors: 吴华鑫; 景子君; 刘迪源; 胡金水; 潘嘉
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2020-06-23
Anticipated expiration: 2040-02-28
Also published as: CN111326143B

Abstract

本申请实施例公开了一种语音处理方法、装置、设备及存储介质，在获取目标语音信号和与目标语音信号同步采集的至少一个目标图像序列后，基于目标语音信号的频谱图，目标语音信号的声学特征，以及至少一个目标图像序列获得目标语音信号与至少一个目标唇部图像序列的第一融合特征，利用该第一融合特征从目标语音信号的频谱图中分离出与各个目标图像序列对应的子语音信号的频谱图，实现了语音分离。其中，唇动相关区域的图像序列的数量明确了语音分离的目标数量，声学特征和唇动相关区域的图像序列中携带的唇动信息保证分离出的频谱图不会失真，从而提高多人场景下语音分离的准确性，基于分离出的语音信号的语音识别效果也就相应的提高。

Description

语音处理方法、装置、设备及存储介质

技术领域

本申请涉及自然语言处理技术领域，更具体地说，涉及一种语音处理方法、装置、设备及存储介质。

背景技术

多人场景下的语音识别一直是语音识别领域中的难点，尤其是当多人同时说话使得说话声重叠时，直接对采集的语音信号进行语音识别很难做到对某个特定人的语音识别，其识别结果是多人语音混叠的结果，错误率高且难以理解。

为了实现多人场景下对特定人的语音识别，目前常用的做法是先从多人混叠的语音中分离出单人语音，然后对分离出的单人语音进行语音识别。然而，本申请的发明人研究发现，这种语音识别方式在一定程度上提高了多人场景下的语音识别的准确率，但由于语音分离任务易出现错分、漏分，甚至语音失真的情况，目前的语音识别的准确率仍然较低。

因此，如何提高多人场景下的语音识别效果成为亟待解决的技术问题。

发明内容

有鉴于此，本申请提供了一种语音处理方法、装置、设备及存储介质，以提高多人场景下的语音识别效果。

为了实现上述目的，现提出的方案如下：

一种语音处理方法，包括：

获取目标语音信号和与所述目标语音信号同步采集的至少一个目标图像序列；所述目标图像序列中的图像为唇动相关区域的图像；

获取所述目标语音信号的频谱图，以及所述目标语音信号的声学特征；

基于所述频谱图、所述声学特征以及所述至少一个目标图像序列，获得所述目标语音信号与所述至少一个目标图像序列的第一融合特征；

基于所述第一融合特征从所述目标语音信号的频谱图中分离出与各个目标图像序列对应的子语音信号的频谱图。

一种语音处理方法，包括：

基于所述频谱图、所述声学特征以及所述至少一个目标图像序列，获得所述目标语音信号与每一个目标图像序列的第三融合特征；

对应每一个目标图像序列，基于所述目标语音信号与该目标图像序列的第三融合特征进行语音识别，得到所述目标语音信号中与该目标图像序列对应的子语音信号的语音内容。

一种语音处理装置，包括：

第一获取模块，用于获取目标语音信号和与所述目标语音信号同步采集的至少一个目标图像序列；所述目标图像序列中的图像为唇动相关区域的图像；

第二获取模块，用于获取所述目标语音信号的频谱图，以及所述目标语音信号的声学特征；

第一融合模块，用于基于所述频谱图、所述声学特征以及所述至少一个目标图像序列，获得所述目标语音信号与所述至少一个目标图像序列的第一融合特征；

分离模块，用于基于所述第一融合特征从所述目标语音信号的频谱图中分离出与各个目标图像序列对应的子语音信号的频谱图。

一种语音处理装置，包括：

第三获取模块，用于获取目标语音信号和与所述目标语音信号同步采集的至少一个目标图像序列；所述目标图像序列中的图像为唇动相关区域的图像；

第四获取模块，用于获取所述目标语音信号的频谱图，以及所述目标语音信号的声学特征；

第二融合模块，用于基于所述频谱图、所述声学特征以及所述至少一个目标图像序列，获得所述目标语音信号与每一个目标图像序列的第一融合特征；

识别模块，用于对应每一个目标图像序列，基于所述目标语音信号与该目标图像序列的第一融合特征进行语音识别，得到所述目标语音信号中与该目标图像序列对应的子语音信号的语音内容。

一种语音识别设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上任一项所述的语音识别方法的各个步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如上任一项所述的语音识别方法的各个步骤。

从上述的技术方案可以看出，本申请实施例提供的语音处理方法、装置、设备及存储介质，在获取目标语音信号和与目标语音信号同步采集的至少一个目标图像序列后，基于目标语音信号的频谱图，目标语音信号的声学特征，以及至少一个目标图像序列获得目标语音信号与至少一个目标唇部图像序列的第一融合特征，利用该第一融合特征从目标语音信号的频谱图中分离出与各个目标图像序列对应的子语音信号的频谱图，实现了语音分离。本申请提供的语音处理方案，在语音分离过程中引入语音信号的声学特征以及唇动相关区域的图像序列，其中唇动相关区域的图像序列的数量明确了语音分离的目标数量(分离出的频谱图的数量与唇部图像序列的数量相同)，声学特征和唇动相关区域的图像序列中携带的唇动信息保证分离出的频谱图不会失真，从而提高多人场景下语音分离的准确性，基于分离出的语音信号的语音识别效果也就相应的提高。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的语音处理方法的一种实现流程图；

图2a为本申请实施例公开的拼接特征的一种示例图；

图2b为本申请实施例公开的拼接特征的另一种示例图；

图2c为本申请实施例公开的拼接特征的又一种示例图；

图2d为本申请实施例公开的第一拼接特征和第二拼接特征的一种示例图；

图2e为本申请实施例公开的第一拼接特征和第二拼接特征的另一种示例图；

图2f为本申请实施例公开的第一拼接特征和第二拼接特征的又一种示例图；

图3为本申请实施例公开的第一语音处理模型的一种结构示意图；

图4为本申请实施例公开的对第一语音处理模型进行训练的一种实现流程图；

图5为本申请实施例公开的对第一语音处理模型进行训练的另一种实现流程图；

图6为本申请实施例公开的语音处理方法的另一种实现流程图；

图7为本申请实施例公开的第二语音处理模型的一种结构示意图；

图8为本申请实施例公开的对第二语音处理模型进行训练的一种实现流程图；

图9为本申请实施例公开的对第二语音处理模型进行训练的另一种实现流程图；

图10为本申请实施例公开的语音分离和语音识别联合训练的一种示例图；

图11为本申请实施例公开的语音处理装置的一种结构示意图；

图12为本申请实施例公开的语音处理装置的另一种结构示意图；

图13为本申请实施例公开的语音处理设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的发明人研究发现，目前的语音分离任务大多仅对语音信号进行处理，这种语音分离方式没有明确到底要分离出几个人的说话语音，容易出现错分、漏分的情况。不管是错分、漏分还是语音失真，均会降低语音识别的准确率。

为了克服上述技术问题，本申请实施例提供的方案的基本思想是，在语音分离过程中引入语音信号的声学特征以及唇动相关区域的图像序列，其中唇动相关区域的图像序列的数量明确了语音分离的目标数量(分离出的频谱图的数量与唇动相关区域的图像序列的数量相同)，声学特征和唇动相关区域的图像序列中携带的唇动信息保证分离出的频谱图不会失真，降低错分、漏分、语音失真情况出现的概率，从而提高多人场景下语音分离的准确性，基于分离出的语音信号的语音识别效果也就相应的提高。

基于上述基本思想，本申请实施例提供的语音处理方法的一种实现流程图如图1所示，可以包括：

步骤S11：获取目标语音信号和与目标语音信号同步采集的至少一个(为便于叙述，记为N个，N为大于或等于1的正整数)目标图像序列；该目标图像序列中的图像为唇动相关区域的图像。

目标语音信号即为待进行语音分离的语音信号。本申请实施例中，在采集语音信号的同时，会采集现场的各个发声人的唇动相关区域的图像，在同一时刻有多人发声的情况下，所采集的语音信号即为多人语音的混叠信号，同步采集的图像序列也就相应的有多个，每个图像序列对应一个发声人。

与目标语音信号同步采集的图像序列可能会有多个(为便于叙述，记为M个)，上述N个目标图像序列即为上述M个图像序列中的至少部分图像序列，即N小于或等于M。也就是说，当需要分离出N个人的语音时，则获取该N个人说话时的图像序列。

唇动相关区域可以是指仅唇部区域；或者，唇动相关区域可以是唇部及其周围区域，比如，唇部和下巴区域；或者，唇动相关区域可以是整个脸部区域。

步骤S12：获取目标语音信号的频谱图，以及目标语音信号的声学特征。

可选的，可以对目标语音信号进行短时傅里叶变换(short-time Fouriertransform，STFT)，得到目标语音信号的频谱图。由于短时傅里叶变换会产生实部参数和虚部参数，因此，得到的目标语音信号的频谱图为两通道频谱图，一个通道对应实部参数，一个通道对应虚部参数。

声学特征可以为fbank特征，或者，mfcc(Mel频率倒谱系数)特征。以fbank特征为例，可以滑窗提取目标语音信号的fbank特征，滑动窗口每滑动到目标语音信号的一个位置，提取该位置处的语音信号的fbank特征，该fbank特征可以为一定维度的特征向量。

步骤S13：基于上述频谱图、声学特征以及至少一个目标图像序列，获得目标语音信号与至少一个目标图像序列的融合特征(为便于叙述，记为第一融合特征)。

本申请实施例中，融合特征不仅融合了唇动相关信息和频域的频谱图信息，还融合了时域的声学特征。

步骤S14：基于第一融合特征从目标语音信号的频谱图中分离出与各个目标图像序列对应的子语音信号的频谱图。

对于分离出的每一个目标图像序列对应的频谱图，将该频谱图经过短时傅里叶逆变换(ISTFT)即可得到对应的子语音信号。

本申请实施例提供的语音处理方法，在语音分离过程中引入语音信号的声学特征以及唇动相关区域的图像序列，其中唇动相关区域的图像序列的数量明确了语音分离的目标数量(分离出的频谱图的数量与唇动相关区域的图像序列的数量相同)，声学特征和唇动相关区域的图像序列中携带的唇动信息增加了语音分离特征的多样性，保证分离出的频谱图不会失真，降低错分、漏分、语音失真情况出现的概率，从而提高多人场景下语音分离的准确性，基于分离出的语音信号的语音识别效果也就相应的提高。

在一可选的实施例中，上述基于频谱图、声学特征以及至少一个目标图像序列，获得目标语音信号与至少一个目标图像序列的第一融合特征的一种实现方式可以为：

分别获取频谱图的隐层特征、声学特征的隐层特征，以及每个目标图像序列的隐层特征序列。

其中，频谱图的隐层特征主要体现的是目标语音信号在频域上的综合特性，声学特征的隐层特征主要体现的是目标语音信号在时域上与语音内容相关的特性，而目标图像序列的隐层特征序列主要体现的是发声人的唇部动作特性。

利用频谱图的隐层特征、声学特征的隐层特征以及每个目标图像序列的隐层特征序列，获得目标语音信号与至少一个目标图像序列的第一融合特征。

具体可以有以下两种融合方式：

方式一：

将频谱图的隐层特征、声学特征的隐层特征以及N个目标图像序列的隐层特征序列进行拼接，得到拼接特征；对拼接特征进行处理(包括维度变换和/或通道变换)，得到第一融合特征。也就是说，频谱图的隐层特征、声学特征的隐层特征以及N个目标图像序列的隐层特征序列融合为一个特征，基于该融合特征可以从目标语音信号的频谱图中分离出每一个目标图像序列对应的子语音信号的频谱图，即通过一个融合特征从目标语音信号的频谱图中分离出多个子频谱图。具体的，

可以直接将频谱图的隐层特征、声学特征的隐层特征以及N个目标图像序列的隐层特征序列进行拼接，得到拼接特征。比如，假设N＝2，即有两个目标图像序列，假设分别为A目标图像序列和B目标图像序列，则基于方式一，可以将频谱图的隐层特征、声学特征的隐层特征、A目标图像序列的隐层特征序列(为便于叙述，记为A隐层特征序列)和B目标图像序列的隐层特征序列(为便于叙述，记为B隐层特征序列)进行拼接，得到拼接特征，如图2a所示，为本申请实施例提供的拼接特征的一种示例图。然后，对该拼接特征进行处理，得到第一融合特征，基于该第一融合特征可以从语音信号的频谱图中分离出A目标图像序列对应的子语音信号的频谱图和B目标图像序列对应的子语音信号的频谱图。或者，

对应每个目标图像序列，将该目标图像序列的隐层特征序列与声学特征的隐层特征进行融合，得到该目标图像序列对应的中间融合特征；将各个目标图像序列对应的中间融合特征与频谱图的隐层特征进行拼接，得到拼接特征。比如，还以A、B两个目标图像序列为例，先将A目标图像序列的隐层特征序列与声学特征的隐层特征进行融合，得到A目标图像序列对应的中间融合特征(为便于叙述，记为A融合特征)，将B目标图像序列的隐层特征序列与声学特征的隐层特征进行融合，得到B目标图像序列对应的中间融合特征(为便于叙述，记为B融合特征)，然后，将频谱图的隐层特征、A融合特征，以及B融合特征拼接，得到拼接特征，如图2b所示，为本申请实施例提供的拼接特征的另一种示例图。然后，对该特征进行处理，得到第一融合特征，基于该第一融合特征可以从语音信号的频谱图中分离出A目标图像序列对应的子语音信号的频谱图和B目标图像序列对应的子语音信号的频谱图。或者，

对应每个目标图像序列，将该目标图像序列的隐层特征序列与频谱图的隐层特征进行融合，得到该目标图像序列对应的中间融合特征；将各个目标图像序列对应的中间融合特征与声学特征的隐层特征进行拼接，得到拼接特征。比如，还以A、B两个目标图像序列为例，先将A目标图像序列的隐层特征序列与频谱图的隐层特征进行融合，得到A目标图像序列对应的中间融合特征(为便于叙述，记为A’融合特征)，将B目标图像序列的隐层特征序列与频谱图的隐层特征进行融合，得到B目标图像序列对应的中间融合特征(为便于叙述，记为B’融合特征)，然后，将A’融合特征、B’融合特征以及声学特征的隐层特征拼接，得到拼接特征，如图2c所示，为本申请实施例提供的拼接特征的又一种示例图。然后，对该特征进行处理，得到第一融合特征，基于该第一融合特征可以从语音信号的频谱图中分离出A目标图像序列对应的子语音信号的频谱图和B目标图像序列对应的子语音信号的频谱图。

方式二：

对应每个目标图像序列，将该目标图像序列的隐层特征序列、频谱图的隐层特征以及声学特征的隐层特征进行拼接，得到该目标图像序列对应的拼接特征；对每一个目标图像序列对应的拼接特征分别进行处理(包括维度变换和/或通道变换)，得到目标语音信号与每一个目标图像序列的第一融合特征。频谱图的隐层特征、声学特征的隐层特征以及N个目标图像序列的隐层特征序列融合得到N个融合特征，即，每个目标图像序列对应一个第一融合特征，每个目标图像序列对应的第一融合特征用于从语音信号的频谱图中分离出该目标图像序列对应的子语音信号的频谱图，即通过一个融合特征只能从语音信号的频谱图中分离出一个子语音信号的频谱图。具体的，

还以A、B两个目标图像序列为例，基于方式二，可以将频谱图的隐层特征、声学特征的隐层特征以及A目标图像序列的隐层特征序列(为便于叙述，记为A隐层特征序列)拼接为一个特征(为便于叙述，记为第一拼接特征)，将该第一拼接特征进行处理，得到与A目标图像序列对应的第一融合特征，基于该第一融合特征可以从目标语音信号的频谱图中分离出A目标图像序列对应的子语音信号的频谱图；将频谱图的隐层特征、声学特征的隐层特征以及B目标图像序列的隐层特征序列(为便于叙述，记为B隐层特征序列)拼接为一个特征(为便于叙述，记为第二拼接特征)，将该第二拼接特征进行处理，得到与B目标图像序列对应的第一融合特征，基于该第一融合特征可以从目标语音信号的频谱图中分离出B目标图像序列对应的子语音信号的频谱图。如图2d所示，为本申请实施例提供的第一拼接特征和第二拼接特征的一种示例图。或者，

对应每个目标图像序列，将该目标图像序列的隐层特征序列与声学特征进行融合，得到该目标图像序列对应的中间融合特征；将该目标图像序列对应的中间融合特征与频谱图的隐层特征进行拼接，得到该目标图像序列对应的拼接特征，对该拼接特征进行处理，得到该目标图像序列对应的第一融合特征。比如，还以A、B两个目标图像序列为例，先将A目标图像序列的隐层特征序列与声学特征进行融合，得到A目标图像序列对应的中间融合特征(为便于叙述，记为A融合特征)，将B目标图像序列的隐层特征序列与声学特征进行融合，得到B目标图像序列对应的中间融合特征(为便于叙述，记为B融合特征)，然后，将频谱图的隐层特征与A融合特征拼接为第一拼接特征，对该第一拼接特征进行处理，得到与A目标图像序列对应的第一融合特征，基于该第一融合特征可以从目标语音信号的频谱图中分离出A目标图像序列对应的子语音信号的频谱图；将频谱图的隐层特征与B融合特征拼接为第二拼接特征，对该第二拼接特征进行处理，得到与B目标图像序列对应的第一融合特征，基于该第一融合特征可以从目标语音信号的频谱图中分离出B目标图像序列对应的子语音信号的频谱图。如图2e所示，为本申请实施例提供的第一拼接特征和第二拼接特征的另一种示例图。或者，

对应每个目标图像序列，将该目标图像序列的隐层特征序列与频谱图的隐层特征进行融合，得到该目标图像序列对应的中间融合特征；将该目标图像序列对应的中间融合特征与声学特征的隐层特征进行拼接，得到该目标图像序列对应的拼接特征，对该拼接特征进行处理，得到该目标图像序列对应的第一融合特征。比如，还以A、B两个目标图像序列为例，先将A目标图像序列的隐层特征序列与频谱图的隐层特征进行融合，得到A目标图像序列对应的中间融合特征(为便于叙述，记为A’融合特征)，将B目标图像序列的隐层特征序列与频谱图的隐层特征进行融合，得到B目标图像序列对应的中间融合特征(为便于叙述，记为B’融合特征)，然后，将声学特征的隐层特征与A’融合特征拼接，得到第一拼接特征，对该第一拼接特征进行处理，得到与A目标图像序列对应的第一融合特征，基于该第一融合特征可以从目标语音信号的频谱图中分离出A目标图像序列对应的子语音信号的频谱图；将声学特征的隐层特征与B’融合特征拼接为第二拼接特征，对该第二拼接特征进行处理，得到与B目标图像序列对应的第一融合特征，基于该第一融合特征可以从目标语音信号的频谱图中分离出B目标图像序列对应的子语音信号的频谱图。如图2f所示，为本申请实施例提供的第一拼接特征和第二拼接特征的又一种示例图。

在一可选的实施例中，上述获得第一融合特征，基于第一融合特征从目标语音信号的频谱图中分离出与各个目标图像序列对应的子语音信号的频谱图的过程可以通过语音处理模型(为便于叙述，记为第一语音处理模型)实现。具体的，

可以利用第一语音处理模型处理上述目标语音信号的频谱图和声学特征以及上述至少一个目标图像序列，得到从目标语音信号的频谱图中分离出的与各个目标图像序列对应的子语音信号的频谱图；

其中，第一语音处理模型具备分别获取频谱图的隐层特征、声学特征的隐层特征以及每个目标图像序列的隐层特征序列；利用频谱图的隐层特征、声学特征的隐层特征以及每个目标图像序列的隐层特征序列，获得目标语音信号与至少一个目标图像序列的第一融合特征；基于第一融合特征从目标语音信号的频谱图中分离出与各个目标图像序列对应的子语音信号的频谱图的能力。

其中，第一语音处理模型获得第一融合特征的过程可以参看前述实施例，这里不再赘述。

在一可选的实施例中，如图3所示，为本申请实施例提供的第一语音处理模型的一种结构示意图，可以包括：

频谱图特征提取模块31，声学特征提取模块32，图像特征提取模块33，特征融合模块34和分离模块35；其中，

频谱图特征提取模块31用于获取目标语音信号的频谱图的隐层特征。

声学特征提取模块32用于获取目标语音信号的声学特征的隐层特征。

图像特征提取模块33用户获取目标图像序列的隐层特征序列。

特征融合模块34用于利用频谱图的隐层特征、声学特征的隐层特征以及每个目标图像序列的隐层特征序列，获得目标语音信号与至少一个目标图像序列的第一融合特征。具体获得第一融合特征的过程可以参看前述实施例，这里不再赘述。

分离模块35用于基于第一融合特征从目标语音信号的频谱图中分离出与各个目标图像序列对应的子语音信号的频谱图。

进一步的，特征融合模块34还可以用于基于目标语音信号的声学特征以及至少一个目标图像序列，获得目标语音信号与每一个目标图像序列的第二融合特征；或者，基于目标语音信号的声学特征、目标语音信号的频谱图特征，以及至少一个目标图像序列，获得目标语音信号与每一个目标图像序列的第二融合特征。

相应的，第一语音处理模型还可以包括：

识别模块36，用于对应每一个目标图像序列，利用目标语音信号与该目标图像序列的第二融合特征进行语音识别，得到目标语音信号中与该目标图像序列对应的子语音信号的语音内容。

下面介绍第一语音处理模型的训练过程。

请参阅图4，图4为本申请实施例提供的对第一语音处理模型进行训练的一种实现流程图，可以包括：

步骤S41：通过第一语音处理模型分别获取样本语音信号的频谱图的隐层特征、样本语音信号的声学特征的隐层特征以及与样本语音信号同步采集的至少一个样本图像序列中各个样本图像序列的隐层特征序列。样本图像序列中的图像为唇动相关区域的图像。

可以通过频谱图特征提取模块31获取样本语音信号的频谱图的隐层特征，通过声学特征提取模块32获取样本语音信号的声学特征的隐层特征，通过图像特征提取模块33获取各个样本图像序列的隐层特征序列。

步骤S42：通过第一语音处理模型利用样本语音信号的频谱图的隐层特征、样本语音信号的声学特征的隐层特征以及各个样本图像序列的隐层特征序列，获得样本语音信号与至少一个样本图像序列的第一融合特征。可以通过特征融合模块34获得样本语音信号与至少一个样本图像序列的第一融合特征。

可选的，可以将样本语音信号的频谱图的隐层特征、样本语音信号的声学特征的隐层特征以及各个样本图像序列的隐层特征序列拼接为一个拼接特征，然后对该拼接特征进行处理，得到第一融合特征。

或者，对应每一个样本图像序列，将该样本图像序列的隐层特征序列、样本语音信号的频谱图的隐层特征，以及样本语音信号的声学特征的隐层特征拼接为与该样本图像序列对应的拼接特征，对该拼接特征进行处理，得到该样本图像序列对应的第一融合特征。即每个样本图像序列对应一个第一融合特征。

具体实现过程可以参看前述利用目标语音信号的频谱图的隐层特征、目标语音信号的声学特征的隐层特征以及每个目标图像序列的隐层特征序列，获得目标语音信号与至少一个目标图像序列的第一融合特征的具体实现过程，这里不再赘述。

步骤S43：通过第一语音处理模型基于样本语音信号与至少一个样本图像序列的第一融合特征从样本语音信号的频谱图中分离出与各个样本图像序列对应的子语音信号的频谱图。可以通过分离模块35从样本语音信号的频谱图中分离出与各个样本图像序列对应的子语音信号的频谱图。

步骤S44：通过第一语音处理模型以从样本语音信号的频谱图中分离出的与各个样本图像序列对应的子语音信号的频谱图趋近于与各个样本图像序列对应的频谱图标签为目标，对第一语音处理模型的参数进行更新。

本申请实施例中，样本语音信号标注有与每个样本图像序列对应的频谱图标签，该样本语音信号标注的频谱图标签即为样本图像序列对应的用户的语音信号的频谱图。

图4所示实施例中，是单独对语音分离任务进行训练。为了进一步提高语音分离的准确性，本申请实施例中，还可以对语音分离任务和语音识别任务进行联合训练。基于此，请参阅图5，图5为本申请实施例提供的对第一语音处理模型进行训练的另一种实现流程图，可以包括：

步骤S51：通过第一语音处理模型分别获取样本语音信号的频谱图的隐层特征、样本语音信号的声学特征的隐层特征以及与样本语音信号同步采集的至少一个样本图像序列中各个样本图像序列的隐层特征序列。

步骤S52：对应每一个样本图像序列，通过第一语音处理模型利用该样本图像序列的隐层特征序列以及样本语音信号的声学特征的隐层特征，获得样本语音信号与该样本图像序列的第二融合特征。

可以通过特征融合模块34中的第一融合模块获得样本语音信号与该样本图像序列的第二融合特征。具体的，可以通过第一融合模块将该样本图像序列的隐层特征序列与样本语音信号的声学特征的隐层特征进行拼接，对拼接后的特征进行处理(包括维度变换和/或通道变换等)，得到第二融合特征。

步骤S53：通过第一语音处理模型利用样本语音信号的频谱图的隐层特征，以及样本语音信号与各个样本图像序列的第二融合特征，获得样本语音信号与至少一个样本图像序列的第一融合特征。

可以通过特征融合模块34中的第二融合模块获得样本语音信号与至少一个样本图像序列的第一融合特征。具体可以通过第二融合模块将各个样本图像序列的第二融合特征与样本语音信号的频谱图的隐层特拼接为一个特征，将该特征进行处理，得到第一融合特征；或者，对应每一个样本图像序列，将该样本图像序列对应的第二融合特征与样本语音信号的频谱图的隐层特征进行拼接，得到该样本图像序列对应的拼接特征，将该拼接特征进行处理，得到该样本图像序列对应的第一融合特征。

其中，步骤S52和步骤S53执行顺序不做具体限定，可以先执行步骤S52，再执行步骤S53，或者，先执行步骤S53，再执行步骤S52，或者，两个步骤同步执行。

步骤S54：通过第一语音处理模型基于第一融合特征从样本语音信号的频谱图中分离出与各个样本图像序列对应的子语音信号的频谱图。

步骤S55：通过第一语音处理模型基于第二融合特征进行语音识别，得到各个样本图像序列对应的语音识别结果。

由于每个样本图像序列对应一个第二融合特征，因而，对应每一个样本图像序列，基于该样本图像序列对应的第二融合特征进行语音识别，得到该样本图像序列对应的语音识别结果。

可以通过语音识别模块36基于第二融合特征进行语音识别，得到各个样本图像序列对应的语音识别结果。

步骤S56：通过第一语音处理模型以从样本语音信号的频谱图中分离出的与各个样本图像序列对应的子语音信号的频谱图趋近于各个样本图像序列对应的频谱图标签，各个样本图像序列对应的语音识别结果趋近于各个样本图像序列对应的语音内容标签为目标，对第一语音处理模型的参数进行更新。

本申请实施例中，样本语音信号除了标注有与样本图像序列对应的频谱图标签外，还标注有语音内容标签，其中，样本语音信号标注的频谱图标签即为样本图像序列对应的用户的语音信号的频谱图，样本语音信号标注的语音内容标签即为样本图像序列对应的用户的语音信号的语音内容(可以是音素级的语音内容)。

由于第一语音处理模型训练过程中，考虑了唇动信息对语音识别的辅助作用，进一步降低分离出的语音出现语音失真情况的概率，从而进一步提高多人语音场景下语音分离的准确性，基于分离的语音进行语音识别的准确率也就进一步提高了。另外，通过语音分离和语音识别联合训练，在提高语音分离任务的准确率的同时，还提高了语音识别任务的准确率。

图5所示实施例中，用于进行语音识别的第二融合特征仅由声学特征的隐层特征和图像序列的隐层特征融合得到，用于进行语音分离的第一融合特征由第二融合特征和频谱图的隐层特征融合得到。除了这种融合方式外，还可以通过其它方式得到第一融合特征和第二融合特征，比如：

对应每一个样本图像序列，通过第一语音处理模型利用该样本图像序列的隐层特征序列、样本语音信号的声学特征的隐层特征，以及样本语音信号的频谱图特征的隐层特征，获得样本语音信号与该样本图像序列的第二融合特征。

可以通过特征融合模块34的第三融合模块获得样本语音信号与该样本图像序列的第二融合特征。具体的，可以通过第三融合模块将该样本图像序列的隐层特征序列、样本语音信号的声学特征的隐层特征，以及样本语音信号的频谱图特征进行拼接，对拼接后的特征进行处理(维度变换和/或通道变换等)，得到第二融合特征。

通过第一语音处理模型利用样本语音信号的频谱图的隐层特征、样本语音信号的声学特征的隐层特征，以及各个样本图像序列的隐层特征序列，获得样本语音信号与至少一个样本图像序列的第一融合特征。

可以通过特征融合模块34的第四融合模块获得样本语音信号与至少一个样本图像序列的第一融合特征。具体实现过程可以参看前述实施例，这里不再赘述。

与图5所示实施例的融合方式不同，本实施例中，第一融合特征和第二融合特征均由频谱图特征的隐层特征、声学特征的隐层特征和图像序列的隐层特征序列融合得到。

为了进一步提高语音分离的准确性，在一可选的实施例中，在对第一语音处理模型进行训练时，声学特征提取模块32，图像特征提取模块33均可以是预先训练好的模块。具体的，

若声学特征提取模块32是预先训练好的，则声学特征提取模块32的初始参数可以为，以语音信号及其对应的语音内容为训练数据训练好的语音识别模型中，用于获取语音信号的声学特征的隐层特征的特征提取模块的参数。

也就是说，声学特征提取模块32的初始参数是利用纯语音样本训练好的语音识别模型中的特征提取模块的参数。

本申请实施例中，不对语音识别模型的具体架构进行限定，但不管语音识别模型的架构是怎样的，特征提取模块是必须的功能模块。比如，在一可选的实施例中，语音识别模型可以包括：特征提取模块，用于提取输入语音识别模型的声学特征的隐层特征；识别模块，用于根据特征提取模块提取的隐层特征进行语音识别。语音识别模型的训练过程可以参看已有的训练方法，这里不再详述。

这里用于训练语音识别模型的语音样本中可以包含用于训练上述第一语音处理模型的语音样本，也可以不包含上述用于训练上述第一语音处理模型的语音样本，本申请对此不做具体限定。

若图像特征提取模块33是预先训练好的，则图像特征提取模块33的初始参数可以为，以图像序列及其对应的唇部发音内容为训练数据训练好的唇语识别模型中，用于提取图像序列的隐层特征序列的图像特征提取模块的参数。

也就是说，图像特征提取模块33的初始参数是利用纯图像序列样本训练好的唇语识别模型中的图像特征提取模块的参数。

本申请实施例中，不对唇语识别模型的具体架构进行限定，但不管唇语识别模型的架构是怎样的，图像特征提取模块是必须的功能模块。比如，在一可选的实施例中，唇语识别模型可以包括：图像特征提取模块，用于提取输入唇语识别模型的图像序列的隐层特征序列；识别模块，用于根据图像特征提取模块提取的隐层特征序列进行唇语识别。唇语识别模型的训练过程可以参看已有的训练方法，这里不再详述。

这里用于训练唇语识别模型的图像序列样本中可以包含用于训练上述第一语音处理模型的图像序列样本，也可以不包含上述用于训练上述第一语音处理模型的图像序列样本，本申请对此不做具体限定。

进一步的，在对第一语音处理模型进行训练时，频谱图特征提取模块31也可以是预先训练好的模块。具体的，

频谱图特征提取模块31的初始参数可以为，以语音信号及其对应的频谱图标签为训练数据训练好的语音分离模型中，用于对语音信号的频谱图进行特征提取的频谱图特征提取模块的参数。

也就是说，频谱图特征提取模块31的初始参数是利用纯语音样本训练好的语音分离模型中的频谱图特征提取模块的参数。

本申请实施例中，不对语音分离模型的具体架构进行限定，但不管语音分离模型的架构是怎样的，频谱图特征提取模块是必须的功能模块。比如，在一可选的实施例中，语音分离模型可以包括：频谱图特征提取模块，用于提取输入语音分离模型的频谱图的隐层特征；分离模块，用于根据频谱图特征提取模块提取的隐层特征进行语音分离。语音分离模型的训练过程可以参看已有的训练方法，这里不再详述。

这里用于训练语音分离模型的语音样本中可以包含用于训练上述第一语音处理模型的语音样本，也可以不包含上述用于训练上述第一语音处理模型的语音样本，本申请对此不做具体限定。

在一可选的实施例中，除了进行语音分离过程，本申请实施例提供的语音处理方法还可以包括语音识别的过程，具体可以包括：

基于目标语音信号的声学特征以及至少一个目标图像序列，获得目标语音信号与每一个目标图像序列的第二融合特征；或者，基于目标语音信号的声学特征、目标语音信号的频谱图特征，以及至少一个目标图像序列，获得目标语音信号与每一个目标图像序列的第二融合特征。具体获得第二融合特征的过程可以参看前述实施例，这里不再赘述。

对应每一个目标图像序列，利用目标语音信号与该目标图像序列的第二融合特征进行语音识别，得到目标语音信号中与该目标图像序列对应的子语音信号的语音内容。

基于与前述实施例相同的技术构思，本申请实施例提供的语音处理方法的另一种实现流程图如图6所示，可以包括：

步骤S61：获取目标语音信号和与目标语音信号同步采集的至少一个目标图像序列；该目标图像序列中的图像为唇动相关区域的图像。

步骤S62：获取目标语音信号的频谱图，以及目标语音信号的声学特征。

步骤S61和步骤S62的具体实现过程可以参看图1所示实施例中的步骤S11和步骤S12，这里不再赘述。

步骤S63：基于频谱图、声学特征以及至少一个目标图像序列，获得目标语音信号与每一个目标图像序列的第三融合特征。

本申请实施例中，用于语音识别的融合特征中不仅融合了唇动相关信息和时域的声学特征，还融合了频域的频谱图特征。

具体的，对应每一个目标图像序列，可以利用该目标图像序列，目标语音信号的频谱图，以及目标语音信号的声学特征获得目标语音信号与该目标图像序列的第三融合特征。

步骤S64：对应每一个目标图像序列，基于目标语音信号与该目标图像序列的第三融合特征进行语音识别，得到目标语音信号中与该目标图像序列对应的子语音信号的语音内容。所识别到的语音内容可以是音素级的语音内容。

本申请实施例提供的语音处理方法，在语音识别过程中引入语音信号的频谱图特征以及唇动相关区域的图像序列，其中唇动相关区域的图像序列的数量明确了语音识别的目标数量(识别出的语音内容的数量与唇部图像序列的数量相同)，频谱图特征和唇动相关区域的图像序列中携带的唇动信息增加了语音识别特征的多样性，从而提高语音识别的效果。

在一可选的实施例中，上述基于频谱图、声学特征以及至少一个目标图像序列，获得目标语音信号与每一个目标图像序列的第三融合特征的一种实现方式可以为：

分别获取频谱图的隐层特征、声学特征的隐层特征以及每个目标图像序列的隐层特征序列。

利用频谱图的隐层特征、声学特征的隐层特征以及每个目标图像序列的隐层特征序列，获得目标语音信号与每一个目标图像序列的第三融合特征。

具体的，可以对应每一个目标图像序列，将该目标图像序列的隐层特征序列、频谱图的隐层特征以及声学特征的隐层特征进行拼接，得到该目标图像序列对应的拼接特征；对该拼接特征进行处理(维度变换和/或通道变换)，得到目标语音信号与每一个目标图像序列的第三融合特征。

也就是说，对应每个目标图像序列，该目标图像序列对应的拼接特征都是由该目标图像序列的隐层特征序列以及目标语音信号的频谱图的隐层特征和目标语音信号的声学特征的隐层特征拼接而成。

还以A、B两个目标图像序列为例，可以将频谱图的隐层特征、声学特征的隐层特征以及A目标图像序列的隐层特征序列拼接为一个特征(为便于叙述，记为第三拼接特征)，将该第三拼接特征进行处理，得到与A目标图像序列对应的第三融合特征；将频谱图的隐层特征、声学特征的隐层特征以及B目标图像序列的隐层特征序列拼接为一个特征(为便于叙述，记为第四拼接特征)，将该第四拼接特征进行处理，得到与B目标图像序列对应的第三融合特征。

在一可选的实施例中，上述获得目标语音信号与每一个目标图像序列的第三融合特征，基于目标语音信号与每一个目标图像序列的第三融合特征进行语音识别，得到目标语音信号中与每一个目标图像序列对应的子语音信号的语音内容的过程可以通过语音处理模型(为便于叙述，记为第二语音处理模型)实现，具体的，

可以利用第二语音处理模型处理目标语音信号的频谱图、目标语音信号的声学特征以及上述至少一个目标图像序列，得到目标语音信号中与每一个目标图像序列对应的子语音信号的语音内容；

其中，第二语音处理模型具备分别获取频谱图的隐层特征、声学特征的隐层特征以及每个目标图像序列的隐层特征序列；利用频谱图的隐层特征、声学特征的隐层特征以及每个目标图像序列的隐层特征序列，获得目标语音信号与每一个目标图像序列的第三融合特征；基于目标语音信号与每一个目标图像序列的第三融合特征进行语音识别，得到目标语音信号中与每一个目标图像序列对应的子语音信号的语音内容的能力。

第二语音处理模型获得第三融合特征的过程可以参看前述实施例，这里不再赘述。

在一可选的实施例中，如图7所示，为本申请实施例提供的第二语音处理模型的一种结构示意图，可以包括：

频谱图特征提取模块71，声学特征提取模块72，图像特征提取模块73，特征融合模块74和识别模块75；其中，

频谱图特征提取模块71用于获取目标语音信号的频谱图的隐层特征。

声学特征提取模块72用于获取目标语音信号的声学特征的隐层特征。

图像特征提取模块73用户获取目标图像序列的隐层特征序列。

特征融合模块74用于利用频谱图的隐层特征、声学特征的隐层特征以及每个目标图像序列的隐层特征序列，获得目标语音信号与每一个目标图像序列的第三融合特征。具体获得第三融合特征的过程可以参看前述实施例，这里不再赘述。

识别模块75用于对应每一个目标图像序列，基于目标语音信号与该目标图像序列的第三融合特征进行语音识别，得到目标语音信号中与该目标图像序列对应的子语音信号的语音内容。

进一步的，特征融合模块74还可以用于基于目标语音信号的频谱图以及上述至少一个目标图像序列，获得目标语音信号与上述至少一个目标图像序列的第四融合特征；或者，基于目标语音信号的频谱图、目标语音信号的声学特征，以及上述至少一个目标图像序列，获得目标语音信号与上述至少一个目标图像序列的第四融合特征；

相应的，第二语音处理模型还可以包括：

分离模块76，用于基于第四融合特征从目标语音信号的频谱图中分离出与各个目标图像序列对应的子语音信号的频谱图。

下面介绍第二语音处理模型的训练过程。

请参阅图8，图8为本申请实施例提供的对第二语音处理模型进行训练的一种实现流程图，可以包括：

步骤S81：通过第二语音处理模型分别获取样本语音信号的频谱图的隐层特征、样本语音信号的声学特征的隐层特征以及与样本语音信号同步采集的至少一个样本图像序列中各个样本图像序列的隐层特征序列。

可以通过频谱图特征提取模块71获取样本语音信号的频谱图的隐层特征，通过声学特征提取模块72获取样本语音信号的声学特征的隐层特征，通过图像特征提取模块73获取各个样本图像序列的隐层特征序列。

步骤S82：通过第二语音处理模型利用样本语音信号的频谱图的隐层特征、声学特征的隐层特征以及每个样本图像序列的隐层特征序列，获得样本语音信号与每一个样本图像序列的第三融合特征。可以通过特征融合模块74获得样本语音信号与每一个样本图像序列的第三融合特征。具体实现过程可以参看前述实施例，这里不再赘述。

步骤S83：通过第二语音处理模型基于样本语音信号与每一个样本图像序列的第三融合特征进行语音识别，得到样本语音信号中与每一个样本图像序列对应的子语音信号的语音内容。可以通过识别模块75基于样本语音信号与每一个样本图像序列的第三融合特征进行语音识别，得到样本语音信号中与每一个样本图像序列对应的子语音信号的语音内容。

步骤S84：通过第二语音处理模型以各个样本图像序列对应的语音识别结果趋近于各个样本图像序列对应的语音内容标签为目标，对第二语音处理模型的参数进行更新。

本申请实施例中，样本语音信号标注有每个样本图像序列对应的语音内容标签，该样本语音信号标注的语音内容标签即为样本图像序列对应的用户的语音信号的语音内容。

图8所示实施例中，是单独对语音识别任务进行训练。为了进一步提高语音识别的准确性，本申请实施例中，还可以对语音分离任务和语音识别任务进行联合训练。基于此，请参阅图9，图9为本申请实施例提供的对第二语音处理模型进行训练的另一种实现流程图，可以包括：

步骤S91：通过第二语音处理模型分别获取样本语音信号的频谱图的隐层特征、样本语音信号的声学特征的隐层特征以及与样本语音信号同步采集的至少一个样本图像序列中各个样本图像序列的隐层特征序列。

步骤S92：通过第二语音处理模型利用样本语音信号的频谱图的隐层特征、样本语音信号的声学特征的隐层特征以及每个样本图像序列的隐层特征序列，获得样本语音信号与每一个样本图像序列的第三融合特征。

步骤S91-步骤S92具体实现过程与步骤S81-步骤S82相同，这里不再赘述。

步骤S93：通过第二语音处理模型利用样本语音信号的频谱图的隐层特征以及每个样本图像序列的隐层特征序列，获得样本语音信号与所述至少一个样本图像序列的第四融合特征；或者，利用样本语音信号的频谱图的隐层特征、样本语音信号的声学特征的隐层特征以及每个样本图像序列的隐层特征序列，获得样本语音信号与至少一个样本图像序列的第四融合特征。

本申请实施例中，用于进行语音分离的第四融合特征有两种获得方式，一种获得方式是仅由样本语音信号的频谱图的隐层特征以及样本图像序列的隐层特征序列融合得到，另一种获得方式是由样本语音信号的频谱图的隐层特征、样本语音信号的声学特征的隐层特征以及样本图像序列的隐层特征序列融合得到。

可以通过特征融合模块74获得样本语音信号获得第四融合特征，具体的，

可以将样本语音信号的频谱图的隐层特征以及各个样本图像序列的隐层特征序列拼接为一个特征，然对该特征进行处理，得到第四融合特征；或者，

对应每一个样本图像序列，将该样本图像序列的隐层特征序列与样本语音信号的频谱图的隐层特征拼接为一个特征，对该特征进行处理，得到该样本图像序列对应第四融合特征。或者，

将样本语音信号的频谱图的隐层特征、样本语音信号的声学特征的隐层特征，以及各个样本图像序列的隐层特征序列拼接为一个特征，然对该特征进行处理，得到第四融合特征；或者，

对应每一个样本图像序列，将该样本图像序列的隐层特征序列与样本语音信号的频谱图的隐层特征以及样本语音信号的声学特征的隐层特征拼接为一个特征，对该特征进行处理，得到该样本图像序列对应第四融合特征。

步骤S94：通过第二语音处理模型基于样本语音信号与每一个样本图像序列的第三融合特征进行语音识别，得到样本语音信号中与每一个样本图像序列对应的子语音信号的语音内容。

步骤S95：通过第二语音处理模块基于第四融合特征从样本语音信号的频谱图中分离出与各个样本图像序列对应的子语音信号的频谱图。可以通过分离模块76基于第四融合特征从样本语音信号的频谱图中分离出与各个样本图像序列对应的子语音信号的频谱图。

步骤S96：通过第二语音处理模型以从样本语音信号的频谱图中分离出的与各个样本图像序列对应的子语音信号的频谱图趋近于各个样本图像序列对应的频谱图标签，各个样本图像序列对应的语音识别结果趋近于各个样本图像序列对应的语音内容标签为目标，对语音处理模型的参数进行更新。

本申请实施例中，样本语音信号除了标注有样本图像序列对应的语音内容标签外，还标注有频谱图标签，其中，样本语音信号标注的语音内容标签即为样本图像序列对应的用户的语音信号的语音内容，样本语音信号标注的频谱图标签即为样本图像序列对应的用户的语音信号的频谱图。

由于第二语音处理模型训练过程中，考虑了唇动信息对语音分离的辅助作用，从而进一步提高多人语音场景下语音识别的准确性。另外，通过语音分离和语音识别联合训练，在提高语音识别任务的准确率的同时，还提高了语音分离任务的准确率。

为了进一步提高语音识别的准确性，在一可选的实施例中，在对第二语音处理模型进行训练时，频谱图特征提取模块71可以是预先训练好的模块。具体的，

频谱图特征提取模块71的初始参数可以为，以语音信号及其对应的频谱图标签为训练数据训练好的语音分离模型中，用于对语音信号的频谱图进行特征提取的频谱图特征提取模块的参数。

具体实现过程可以参看前述实施例中，与频谱图特征提取模块31相关的语音分离模型的实现过程，这里不再详述。

进一步的，在对第二语音处理模型进行训练时，声学特征提取模块72，图像特征提取模块73也可以是预先训练好的模块。具体的，

若声学特征提取模块72是预先训练好的，则声学特征提取模块72的初始参数可以为，以语音信号及其对应的语音内容为训练数据训练好的语音识别模型中，用于获取语音信号的声学特征的隐层特征的特征提取模块的参数。

若图像特征提取模块73是预先训练好的，则图像特征提取模块73的初始参数可以为，以图像序列及其对应的唇部发音内容为训练数据训练好的唇语识别模型中，用于提取图像序列的隐层特征序列的图像特征提取模块的参数。

具体实现过程可以参看前述与声学特征提取模块32相关联的语音识别模型的实现过程，以及与图像特征提取模块33相关联的唇语识别模型的实现过程，这里不再详述。

在一可选的实施例中，除了进行语音识别过程，本申请实施例提供的语音处理方法还可以包括语音分离的过程，具体可以包括：

基于目标语音信号的频谱图以及至少一个目标图像序列，获得目标语音信号与至少一个目标图像序列的第四融合特征。

基于第四融合特征从目标语音信号的频谱图中分离出与各个目标图像序列对应的子语音信号的频谱图。

可选的，本申请实施例提供的语音分离的过程的另一种实现方式可以为：

基于目标语音信号的频谱图、目标语音信号的声学特征，以及至少一个目标图像序列，获得目标语音信号与至少一个目标图像序列的第四融合特征。

下面结合具体的应用场景对本申请方案进行举例说明。

典型的多人语音场景是会议场景。在一场会议中，同一时刻可能只有一个人发言，也可能有多人同时发言。本示例中，可以在会议现场针对每个可能发言的与会人员分别设置图像采集装置，用于采集对应的与会人员的脸部区域的图像。比如，图像采集装置可以配置有1080p摄像头和GTX2070的显卡。

会议现场除了设置图像采集装置外，还可以设置音频采集装置，可以只设置一个音频采集装置，也可以设置多个音频采集装置。若只设置一个音频采集装置，则音频输出装置输出的就是该音频采集装置采集的音频信号，且该音频采集装置采集的音频信号即为需要进行语音分离和/或语音识别的目标语音信号。若设置多个音频采集装置，则音频输出装置可以将各个音频采集装置采集的音频信号进行混频，得到一路混频信号并输出，且该混频信号即为需要进行语音分离和/或语音识别的目标语音信号。

根据实际的需求，可以在会议进行过程中，实时对目标语音信号进行语音分离和/或语音识别，也可以在会议结束后，再对目标语音信号进行语音分离和/或语音识别。

用于对目标语音信号进行语音分离和/或语音识别的装置可以设置在会议现场，也可以不设置在会议现场。

下面给出基于语音处理模型对目标语音信号进行语音分离和语音识别的一种可选的实现方式。该示例中，包括以下处理步骤

数据预处理：

现场采集的视频中，通常为发言人整个脸部的图像，本示例中，对于作为样本的视频(简称样本视频)中的各帧图像，均裁剪唇部区域及唇部周围区域作为样本图像序列，具体的，可以在样本视频的各帧图像中，以嘴部中心点为中心，取固定大小(比如，80×80)的区域作为目标图像序列，目标图像序列中的每一帧图像均为RGB三通道图像。目标图像序列的帧率通常为25fps。

对于作为样本的语音信号(简称样本语音信号)，一方面通过滑动窗口提取fbank特征，其中，窗长可以为25ms，帧移为10ms，即相邻两个滑动窗口位置的语音信号有15ms的重叠，滑动窗口每滑动到一个位置，提取该位置处的语音信号的40维fbank特征(当然也可以是其它维度，本申请不做具体限定)向量，这样得到的fbank特征为100fps的fbank特征向量序列；另一方面，对样本语音信号进行短时傅里叶变换，得到频谱图。

此外，还对样本语音信号的文字标注进行预处理，具体可以使用force alignment将文字发音音素对齐到语音信号上，其中，每4帧语音信号对应到一个三音素(triphone)上，这样实际上文字标注被转化为triphone标注，标注帧率为25fps，与视频帧率同步，是音频帧率的四分之一。具体对齐方式可以参看已有的实现方式，这里不再赘述。

语音分离和语音识别联合训练：

在获取一定量的样本语音信号和样本图像序列后，分别搭建语音识别神经网络模型和语音分离神经网络模型，进行多模态语音识别与分离的联合训练。请参阅图10，为本申请实施例提供的语音分离和语音识别联合训练的一种示例图。为例便于叙述，本示例中以样本语音信号的时长为3s为例进行说明。

由于样本语音信号的fbank特征为100fps的40维fbank特征向量序列，因此，3s时长共有300×40的fbank特征图，本示例中，300×40的fbank特征图经过隐层特征提取模块后得到75×512维的语音特征向量序列(即75个512维的语音特征向量)。

视频图像输入的是25fps的图像序列，图像大小为80×80的RGB三通道图像，3s时长共有75×3×80×80大小的图像序列，将该图像序列输入隐层特征提取模块后得到75×512维的视频特征向量序列(即75个512维的视频特征向量)；融合模块将两个隐层特征提取模块提取出的512维语音特征向量和512维视频特征向量进行融合(具体可以为进行特征拼接，再通过一个小的融合神经网络)，生成新的75×512维的融合特征向量序列。该新的75×512维的融合特征向量序列直接送入识别模块，经过softmax分类，得到三音素识别结果，然后根据标注的三音素标签，使用交叉熵损失函数(即CrossEntry)计算分类结果与三音素标签的差异。

而语音分离任务使用的是U-Net网络结构，其输入为3s语音信号经过短时傅里叶变换形成的2×298×257的频谱图，其中，2表示频谱图的通道数，298是时间维度，257是频域维度。由于样本语音信号的时长为3000ms，窗长为25ms，窗移为10ms，因此会得到298个窗，每个窗内的语音信号经过短时傅里叶变换，得到257维的频域特征值。2×298×257的频谱图输入U-Net网络后，U-Net网络会对该2×298×257的频谱图先进行下采样再上采样，其中，下采样模块和上采样模块中对应大小一致的中间特征图会有特征拼接操作(即图中语音分离侧的Concat)(具体拼接可以参看已有的U-Net网络的拼接过程，这里不再详述)，而且下采样得到的最小的特征(大小也为75×512维)会与语音识别侧的75×512维的融合特征拼接起来，形成中间条件，指导U-Net网络重建与图像序列对应的频谱图。使用L2范数作为损失函数计算重建的频谱图与频谱图标签的差异。本示例中，语音分离任务并不仅限于U-Net网络，也可以使用其它网络，但本申请的发明人研究发现，U-Net网络不仅语音分离效果好，准确率高，而且，模型训练过程中收敛速度也快。另，损失函数也不仅限于L2范数，也可以使用其它损失函数，比如L1范数。

将交叉熵损失函数和L2范数的加权求和作为整个网络(即语音处理模型)的损失函数，使用梯度反传优化算法对语音处理模型的参数进行更新，其中，可以以交叉熵损失函数、L2范数，以及整个网络的损失函数均最小为目标对语音处理模型的各个功能模块的参数进行更新。交叉熵损失函数和L2范数的权重可以相同，也可以不同，本示例不对交叉熵损失函数和L2范数的权重做具体限定，例如，对交叉熵损失函数的权重可以为0.6，L2范数的权重可以为0.4。

在语音处理模型训练好以后，就可以进行语音分离和语音识别了。具体的，可以将采集的语音信号和与语音信号同步采集的指定人的图像序列(即唇动相关区域的图像序列)输入训练好的语音处理模型，得到从采集的语音信号的频谱图中分离出的指定人的语音信号的频谱图以及指定人的语音内容。

以上是以一个人的语音分离和识别为例进行说明，如果需要进行多个人的语音分离和识别，可以分多次向语音分离模型进行输入，每次输入采集的语音信号和与该语音信号同步采集的一个人的图像序列，得到从采集的语音信号中分离出的这个人的语音信号的频谱图，以及这个人的语音内容。

另外，还可以训练语音处理模型同时进行多人语音分离和识别(为便于叙述，记为K人语音分离和识别，其中，K大于1)，此时在训练语音处理模型时，每个样本语音信号对应K个人的图像序列，即对应每个输入语音处理模型的样本语音信号，向语音处理模型输入K个人的图像序列，这样训练出的语音处理模型可以一次分离出K个人的频谱图和识别出K个人的语音内容。而不必分多次输入多个人的图像序列才能进行多人分离和语音识别。

与方法实施例相对应，本申请实施例还提供一种语音处理装置。本申请实施例提供的语音处理装置的一种结构示意图如图11所示，可以包括：

第一获取模块111，第二获取模块112，第一融合模块113和分离模块114；其中，

第一获取模块111用于获取目标语音信号和与所述目标语音信号同步采集的至少一个目标图像序列；所述目标图像序列中的图像为唇动相关区域的图像；

第二获取模块112用于获取所述目标语音信号的频谱图，以及所述目标语音信号的声学特征；

第一融合模块113用于基于所述频谱图、所述声学特征以及所述至少一个目标图像序列，获得所述目标语音信号与所述至少一个目标图像序列的第一融合特征；

分离模块114用于基于所述第一融合特征从所述目标语音信号的频谱图中分离出与各个目标图像序列对应的子语音信号的频谱图。

本申请实施例提供的语音处理装置，在语音分离过程中引入语音信号的声学特征以及唇动相关区域的图像序列，其中唇动相关区域的图像序列的数量明确了语音分离的目标数量(分离出的频谱图的数量与唇部图像序列的数量相同)，声学特征和唇动相关区域的图像序列中携带的唇动信息增加了语音分离特征的多样性，保证分离出的频谱图不会失真，降低错分、漏分、语音失真情况出现的概率，从而提高多人场景下语音分离的准确性，基于分离出的语音信号的语音识别效果也就相应的提高。

在一可选的实施例中，第一融合模块113可以包括：

第一隐层特征获取模块，用于分别获取所述频谱图的隐层特征、所述声学特征的隐层特征以及每个目标图像序列的隐层特征序列；

第一隐层特征融合模块，用于利用所述频谱图的隐层特征、所述声学特征的隐层特征以及每个目标图像序列的隐层特征序列，获得所述目标语音信号与所述至少一个目标图像序列的第一融合特征。

在一可选的实施例中，所述第一隐层特征融合模块具体可以用于：

将所述频谱图的隐层特征、所述声学特征的隐层特征以及所述至少一个目标图像序列的隐层特征序列进行拼接，得到拼接特征；对所述拼接特征进行处理，得到所述第一融合特征；

或者，

对应每个目标图像序列，将该目标图像序列的隐层特征序列、所述频谱图的隐层特征以及所述声学特征的隐层特征进行拼接，得到该目标图像序列对应的拼接特征；对每一个目标图像序列对应的拼接特征分别进行处理，得到所述目标语音信号与每一个目标图像序列的第一融合特征。

在一可选的实施例中，第一融合模块113和分离模块114的功能可以通过语音处理模型实现，具体的，

第一融合模块113具体用于：通过所述语音处理模型分别获取所述频谱图的隐层特征、所述声学特征的隐层特征以及每个目标图像序列的隐层特征序列；利用所述频谱图的隐层特征、所述声学特征的隐层特征以及每个目标图像序列的隐层特征序列，获得所述目标语音信号与所述至少一个目标图像序列的第一融合特征；

所述分离模块114具体可以用于：通过所述语音处理模型基于所述第一融合特征从所述目标语音信号的频谱图中分离出与各个目标图像序列对应的子语音信号的频谱图。

在一可选的实施例中，还包括：第一语音处理模型训练模块，用于：

利用所述语音处理模型分别获取样本语音信号的频谱图的隐层特征、所述样本语音信号的声学特征的隐层特征以及与所述样本语音信号同步采集的至少一个样本图像序列中各个样本图像序列的隐层特征序列；

利用所述样本语音信号的频谱图的隐层特征、所述样本语音信号的声学特征的隐层特征以及各个样本图像序列的隐层特征序列，获得所述样本语音信号与所述至少一个样本图像序列的第一融合特征；

基于所述样本语音信号与所述至少一个样本图像序列的第一融合特征从所述样本语音信号的频谱图中分离出与各个样本图像序列对应的子语音信号的频谱图；

以从所述样本语音信号的频谱图中分离出的与各个样本图像序列对应的子语音信号的频谱图趋近于与各个样本图像序列对应的频谱图标签为目标，对所述语音处理模型的参数进行更新。

在一可选的实施例中，还包括：第二语音处理模型训练模块，用于：

对应每一个样本图像序列，利用该样本图像序列的隐层特征序列以及所述样本语音信号的声学特征的隐层特征，获得所述样本语音信号与该样本图像序列的第二融合特征；

利用所述样本语音信号的频谱图的隐层特征，以及所述样本语音信号与各个样本图像序列的第二融合特征，获得所述样本语音信号与所述至少一个样本图像序列的第一融合特征；

基于所述第一融合特征从所述样本语音信号的频谱图中分离出与各个样本图像序列对应的子语音信号的频谱图；

基于所述第二融合特征进行语音识别，得到各个样本图像序列对应的语音识别结果；

以从所述样本语音信号的频谱图中分离出的与各个样本图像序列对应的子语音信号的频谱图趋近于各个样本图像序列对应的频谱图标签，各个样本图像序列对应的语音识别结果趋近于各个样本图像序列对应的语音内容标签为目标，对所述语音处理模型的参数进行更新。

在一可选的实施例中，第一融合模块113利用所述语音处理模型中的声学特征提取模块获取所述样本语音信号的声学特征的隐层特征，利用所述语音处理模型中的图像特征提取模块获取每个样本图像序列的隐层特征序列；

所述声学特征提取模块的初始参数为，以语音信号及其对应的语音内容为训练数据训练好的语音识别模型中，用于获取语音信号的声学特征的隐层特征的特征提取模块的参数；

所述图像特征提取模块的初始参数为，以图像序列及其对应的唇部发音内容为训练数据训练好的唇语识别模型中，用于提取图像序列的隐层特征序列的图像特征提取模块的参数。

在一可选的实施例中，第一融合模块113利用所述语音处理模型中的频谱图特征提取模块获取所述样本语音信号的频谱图的隐层特征；

所述频谱图特征提取模块的初始参数为，以语音信号及其对应的频谱图标签为训练数据训练好的语音分离模型中，用于对语音信号的频谱图进行特征提取的频谱图特征提取模块的参数。

在一可选的实施例中，第一融合模块113还可以用于：基于所述目标语音信号的声学特征以及所述至少一个目标图像序列，获得所述目标语音信号与每一个目标图像序列的第二融合特征；或者，基于所述目标语音信号的声学特征、所述目标语音信号的频谱图特征，以及所述至少一个目标图像序列，获得所述目标语音信号与每一个目标图像序列的第二融合特征；

所述语音处理装置还可以包括识别模块，用于对应每一个目标图像序列，利用所述目标语音信号与该目标图像序列的第二融合特征进行语音识别，得到所述目标语音信号中与该目标图像序列对应的子语音信号的语音内容。

本申请实施例提供的语音处理装置的另一种结构示意图如图12所示，可以包括：

第三获取模块121，第四获取模块122，第二融合模块123和识别模块124；其中，

第三获取模块121用于获取目标语音信号和与所述目标语音信号同步采集的至少一个目标图像序列；所述目标图像序列中的图像为唇动相关区域的图像；

第四获取模块122用于获取所述目标语音信号的频谱图，以及所述目标语音信号的声学特征；

第二融合模块123用于基于所述频谱图、所述声学特征以及所述至少一个目标图像序列，获得所述目标语音信号与每一个目标图像序列的第一融合特征；

识别模块124用于对应每一个目标图像序列，基于所述目标语音信号与该目标图像序列的第一融合特征进行语音识别，得到所述目标语音信号中与该目标图像序列对应的子语音信号的语音内容。

本申请实施例提供的语音处理装置，在语音识别过程中引入语音信号的频谱图特征以及唇动相关区域的图像序列，其中唇动相关区域的图像序列的数量明确了语音识别的目标数量(识别出的语音内容的数量与唇部图像序列的数量相同)，频谱图特征和唇动相关区域的图像序列中携带的唇动信息增加了语音识别特征的多样性，从而提高语音识别的效果。

在一可选的实施例中，第二融合模块123可以包括：

第二隐层特征获取模块，用于分别获取所述频谱图的隐层特征、所述声学特征的隐层特征以及每个目标图像序列的隐层特征序列；

第二隐层特征融合模块，用于利用所述频谱图的隐层特征、所述声学特征的隐层特征以及每个目标图像序列的隐层特征序列，获得所述目标语音信号与每一个目标图像序列的第三融合特征。

在一可选的实施例中，第二隐层特征融合模块具体可以用于：

对应每一个目标图像序列，将该目标图像序列的隐层特征序列、所述频谱图的隐层特征以及所述声学特征的隐层特征进行拼接，得到该目标图像序列对应的拼接特征；对每一个目标图像序列对应的拼接特征分别进行处理，得到所述目标语音信号与每一个目标图像序列的第三融合特征。

在一可选的实施例中，第二融合模块123和识别模块124的功能可以通过语音处理模型实现，具体的，

第二融合模块123具体用于：通过所述语音处理模型分别获取所述频谱图的隐层特征、所述声学特征的隐层特征以及每个目标图像序列的隐层特征序列；利用所述频谱图的隐层特征、所述声学特征的隐层特征以及每个目标图像序列的隐层特征序列，获得所述目标语音信号与每一个目标图像序列的第三融合特征；

识别模块124具体用于：通过所述语音处理模型基于所述目标语音信号与每一个目标图像序列的第三融合特征进行语音识别，得到所述目标语音信号中与每一个目标图像序列对应的子语音信号的语音内容。

在一可选的实施例中，还包括：第三语音处理模型训练模块，用于：

利用所述样本语音信号的频谱图的隐层特征、所述声学特征的隐层特征以及每个样本图像序列的隐层特征序列，获得所述样本语音信号与每一个样本图像序列的第三融合特征；

基于所述样本语音信号与每一个样本图像序列的第三融合特征进行语音识别，得到所述样本语音信号中与每一个样本图像序列对应的子语音信号的语音内容；

以各个样本图像序列对应的语音识别结果趋近于各个样本图像序列对应的语音内容标签为目标，对所述语音处理模型的参数进行更新。

在一可选的实施例中，还包括：第四语音处理模型训练模块，用于：

利用所述样本语音信号的频谱图的隐层特征、所述样本语音信号的声学特征的隐层特征以及每个样本图像序列的隐层特征序列，获得所述样本语音信号与每一个样本图像序列的第三融合特征；

利用所述样本语音信号的频谱图的隐层特征以及每个样本图像序列的隐层特征序列，获得所述样本语音信号与所述至少一个样本图像序列的第四融合特征；或者，利用所述样本语音信号的频谱图的隐层特征、所述样本语音信号的声学特征的隐层特征以及每个样本图像序列的隐层特征序列，获得所述样本语音信号与所述至少一个样本图像序列的第四融合特征；

基于所述第四融合特征从所述样本语音信号的频谱图中分离出与各个样本图像序列对应的子语音信号的频谱图；

在一可选的实施例中，第二融合模块123利用所述语音处理模型中的频谱图特征提取模块获取所述样本语音信号的频谱图的隐层特征；

在一可选的实施例中，第二融合模块123利用所述语音处理模型中的声学特征提取模块获取所述样本语音信号的声学特征的隐层特征，利用所述语音处理模型中的图像特征提取模块获取每个样本图像序列的隐层特征序列；

在一可选的实施例中，第二融合模块123还可以用于：基于所述目标语音信号的频谱图以及所述至少一个目标图像序列，获得所述目标语音信号与所述至少一个目标图像序列的第四融合特征；或者，基于所述目标语音信号的频谱图、所述目标语音信号的声学特征，以及所述至少一个目标图像序列，获得所述目标语音信号与所述至少一个目标图像序列的第四融合特征；

语音处理装置还可以包括分离模块，用于基于所述第四融合特征从所述目标语音信号的频谱图中分离出与各个目标图像序列对应的子语音信号的频谱图。

本申请实施例提供的语音处理装置可应用于语音处理设备，如PC终端、云平台、服务器及服务器集群等。可选的，图13示出了语音处理设备的硬件结构框图，参照图13，语音处理设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；可选的，该语音处理设备还可以包括至少一个音频采集装置，至少一个图像采集装置。当然，该语音处理设备也可以不包括音频采集装置和图像采集装置。

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

或者，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

或者，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述频谱图、所述声学特征以及所述至少一个目标图像序列，获得所述目标语音信号与所述至少一个目标图像序列的第一融合特征，包括：

分别获取所述频谱图的隐层特征、所述声学特征的隐层特征以及每个目标图像序列的隐层特征序列；

利用所述频谱图的隐层特征、所述声学特征的隐层特征以及每个目标图像序列的隐层特征序列，获得所述目标语音信号与所述至少一个目标图像序列的第一融合特征。

3.根据权利要求2所述的方法，其特征在于，所述利用所述频谱图的隐层特征、所述声学特征的隐层特征以及每个目标图像序列的隐层特征序列获得所述目标语音信号与所述至少一个目标图像序列的第一融合特征，包括：

或者，

4.根据权利要求2所述的方法，其特征在于，获得所述第一融合特征，基于所述第一融合特征从所述目标语音信号的频谱图中分离出与各个目标图像序列对应的子语音信号的频谱图的过程，包括：

利用语音处理模型处理所述频谱图、所述声学特征以及所述至少一个目标图像序列，得到从所述目标语音信号的频谱图中分离出的与各个目标图像序列对应的子语音信号的频谱图；

其中，所述语音处理模型具备分别获取所述频谱图的隐层特征、所述声学特征的隐层特征以及每个目标图像序列的隐层特征序列；利用所述频谱图的隐层特征、所述声学特征的隐层特征以及每个目标图像序列的隐层特征序列，获得所述目标语音信号与所述至少一个目标图像序列的第一融合特征；基于所述第一融合特征从所述目标语音信号的频谱图中分离出与各个目标图像序列对应的子语音信号的频谱图的能力。

5.根据权利要求4所述的方法，其特征在于，所述语音处理模型通过如下方式训练得到：

6.根据权利要求4所述的方法，其特征在于，所述语音处理模型通过如下方式训练得到：

7.根据权利要求5-6任意一项所述的方法，其特征在于，利用语音处理模型分别获取样本语音信号的声学特征的隐层特征，以及每个样本图像序列的隐层特征序列的过程，包括：

利用所述语音处理模型中的声学特征提取模块获取所述样本语音信号的声学特征的隐层特征，利用所述语音处理模型中的图像特征提取模块获取每个样本图像序列的隐层特征序列；

8.根据权利要求7所述的方法，其特征在于，利用语音处理模型获取样本语音信号的频谱图的隐层特征的过程，包括：

利用所述语音处理模型中的频谱图特征提取模块获取所述样本语音信号的频谱图的隐层特征；

9.根据权利要求1-6任意一项所述的方法，其特征在于，还包括：

基于所述目标语音信号的声学特征以及所述至少一个目标图像序列，获得所述目标语音信号与每一个目标图像序列的第二融合特征；或者，基于所述目标语音信号的声学特征、所述目标语音信号的频谱图特征，以及所述至少一个目标图像序列，获得所述目标语音信号与每一个目标图像序列的第二融合特征；

对应每一个目标图像序列，利用所述目标语音信号与该目标图像序列的第二融合特征进行语音识别，得到所述目标语音信号中与该目标图像序列对应的子语音信号的语音内容。

10.一种语音处理方法，其特征在于，包括：

11.根据权利要求10所述的方法，其特征在于，所述基于所述频谱图、所述声学特征以及所述至少一个目标图像序列，获得所述目标语音信号与每一个目标图像序列的第三融合特征，包括：

利用所述频谱图的隐层特征、所述声学特征的隐层特征以及每个目标图像序列的隐层特征序列，获得所述目标语音信号与每一个目标图像序列的第三融合特征。

12.根据权利要求11所述的方法，其特征在于，所述利用所述频谱图的隐层特征、所述声学特征的隐层特征以及每个目标图像序列的隐层特征序列，获得所述目标语音信号与每一个目标图像序列的第三融合特征，包括：

13.根据权利要求11所述的方法，其特征在于，获得所述目标语音信号与每一个目标图像序列的第三融合特征，基于所述目标语音信号与每一个目标图像序列的第三融合特征进行语音识别，得到所述目标语音信号中与每一个目标图像序列对应的子语音信号的语音内容的过程，包括：

利用语音处理模型处理所述频谱图、所述声学特征以及所述至少一个目标图像序列，得到所述目标语音信号中与每一个目标图像序列对应的子语音信号的语音内容；

其中，所述语音处理模型具备分别获取所述频谱图的隐层特征、所述声学特征的隐层特征以及每个目标图像序列的隐层特征序列；利用所述频谱图的隐层特征、所述声学特征的隐层特征以及每个目标图像序列的隐层特征序列，获得所述目标语音信号与每一个目标图像序列的第三融合特征；基于所述目标语音信号与每一个目标图像序列的第三融合特征进行语音识别，得到所述目标语音信号中与每一个目标图像序列对应的子语音信号的语音内容的能力。

14.根据权利要求10-13任意一项所述的方法，其特征在于，还包括：

基于所述目标语音信号的频谱图以及所述至少一个目标图像序列，获得所述目标语音信号与所述至少一个目标图像序列的第四融合特征；或者，基于所述目标语音信号的频谱图、所述目标语音信号的声学特征，以及所述至少一个目标图像序列，获得所述目标语音信号与所述至少一个目标图像序列的第四融合特征；

基于所述第四融合特征从所述目标语音信号的频谱图中分离出与各个目标图像序列对应的子语音信号的频谱图。

15.一种语音处理装置，其特征在于，包括：

16.一种语音处理装置，其特征在于，包括：

17.一种语音识别设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1-14中任一项所述的语音识别方法的各个步骤。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-14中任一项所述的语音识别方法的各个步骤。