CN110992978A

CN110992978A - 音视频分离模型的训练方法及系统

Info

Publication number: CN110992978A
Application number: CN201911311756.7A
Authority: CN
Inventors: 钱彦旻; 李晨达
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-04-10
Anticipated expiration: 2039-12-18
Also published as: CN110992978B

Abstract

本发明实施例提供一种音视频分离模型的训练方法。该方法包括：接收第一、第二视频训练集和对应的混合音频；将混合音频和第一、第二视频训练集输入至深度残差网络确定深度混合语音特征和第一、第二唇读特征；将这些特征进行拼接，得到混合表示特征；将混合表示特征输入到第一、第二深度残差网络生成第一、第二音视频遮罩；基于第一、第二音视频遮罩对混合音频进行音频分离，确定第一、第二分离音频；确定第一、第二视频训练集对于音频与第一、第二分离音频的误差，通过误差训练音视频分离模型。本发明实施例还提供一种音视频分离模型的训练系统。本发明实施例通过注意力权重矩阵生成注意力特征，显著地提升音视频语音分离网络的语音分离性能。

Description

音视频分离模型的训练方法及系统

技术领域

本发明涉及语音分离领域，尤其涉及一种音视频分离模型的训练方法及系统。

背景技术

语音分离和增强是解决鸡尾酒会问题的最重要的关键技术之一，在这种环境下，经常会出现重叠的语音，将目标说话者的语音与其他说话者混合的嘈杂的重叠语音分开是一个有趣且具有挑战性的问题。

传统的深度神经网络语音分离技术。系统使用神经网络对混合了多个说话人的音频进行处理。以两个目标说话人的系统举例，网络输入为混合的音频，输出为分离出来的两个说话人各自的音频。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

传统的深度神经网络语音分离技术，由于分离的两个目标声音是对等的，在训练时，会遇到输出与训练标签的匹配问题。需要使用置换不变性准则进行训练，训练开销较大。没有将视频中的图像信息利用到音频分离任务中，语音分离效果相对较差。

发明内容

为了至少解决现有技术中语音分离神经网络训练时存在标签置换的情况、训练成本高、没有有效的利用视频中的图像信息问题。

第一方面，本发明实施例提供一种音视频分离模型的训练方法，包括：

接收第一说话人的第一视频训练集、第二说话人的第二视频训练集以及所述第一视频训练集和第二视频训练集对应音频的混合音频；

将所述混合音频、第一视频训练集以及第二音频训练集输入至深度残差网络，确定深度混合语音特征、所述第一说话人的第一唇读特征以及所述第二说话人的第二唇读特征；

将所述深度混合语音特征、所述第一唇读特征以及第二唇读特征进行拼接，得到带有唇读特征和语音特征的混合表示特征；

将所述混合表示特征分别输入至第一深度残差网络以及第二深度残差网络，生成第一音视频遮罩以及第二音视频遮罩；

基于所述第一音视频遮罩以及第二音视频遮罩对所述混合音频进行音频分离，确定出第一分离音频以及第二分离音频；

确定所述第一视频训练集对应音频与所述第一分离音频的第一误差，所述第二视频训练集对应音频与所述第二分离音频的第二误差，基于所述第一误差、所述第二误差分别训练所述第一深度残差网络以及第二深度残差网络，直至所述第一误差、所述第二误差收敛，确定音视频分离模型。

第二方面，本发明实施例提供一种音视频分离模型的训练方法，包括：

接收多个说话人的视频训练集，以及所述多个说话人的视频训练集对应音频的混合音频；

将所述混合音频和所述多个说话人的视频训练集输入至深度残差网络，确定深度混合语音特征和所述多个说话人各自的唇读特征；

将所述深度混合语音特征和所述多个说话人各自的唇读特征进行拼接，得到带有唇读特征和语音特征的混合表示特征；

将所述混合表示特征分别输入至多个深度残差网络，生成多个音视频遮罩；

基于所述多个音视频遮罩对所述混合音频进行音频分离，确定出多个分离音频；

分别确定所述多个说话人的视频训练集对应音频与所述多个分离音频的多个误差，基于所述多个误差分别训练各说话人各自的深度残差网络，直至所述多个误差分别收敛，确定音视频分离模型。

第三方面，本发明实施例提供一种音视频分离模型的训练系统，包括：

数据接收程序模块，用于接收第一说话人的第一视频训练集、第二说话人的第二视频训练集以及所述第一视频训练集和第二视频训练集对应音频的混合音频；

唇读特征确定程序模块，用于将所述混合音频、第一视频训练集以及第二音频训练集输入至深度残差网络，确定深度混合语音特征、所述第一说话人的第一唇读特征以及所述第二说话人的第二唇读特征；

混合表示特征确定程序模块，用于将所述深度混合语音特征、所述第一唇读特征以及第二唇读特征进行拼接，得到带有唇读特征和语音特征的混合表示特征；

音视频遮罩生成程序模块，用于将所述混合表示特征分别输入至第一深度残差网络以及第二深度残差网络，生成第一音视频遮罩以及第二音视频遮罩；

音频分离程序模块，用于基于所述第一音视频遮罩以及第二音视频遮罩对所述混合音频进行音频分离，确定出第一分离音频以及第二分离音频；

模型训练程序模块，用于确定所述第一视频训练集对应音频与所述第一分离音频的第一误差，所述第二视频训练集对应音频与所述第二分离音频的第二误差，基于所述第一误差、所述第二误差分别训练所述第一深度残差网络以及第二深度残差网络，直至所述第一误差、所述第二误差收敛，确定音视频分离模型。

第四方面，本发明实施例提供一种音视频分离模型的训练系统，包括：

数据接收程序模块，用于接收多个说话人的视频训练集，以及所述多个说话人的视频训练集对应音频的混合音频；

唇读特征确定程序模块，用于将所述混合音频和所述多个说话人的视频训练集输入至深度残差网络，确定深度混合语音特征和所述多个说话人各自的唇读特征；

混合表示特征确定程序模块，用于将所述深度混合语音特征和所述多个说话人各自的唇读特征进行拼接，得到带有唇读特征和语音特征的混合表示特征；

音视频遮罩生成程序模块，用于将所述混合表示特征分别输入至多个深度残差网络，生成多个音视频遮罩；

音频分离程序模块，用于基于所述多个音视频遮罩对所述混合音频进行音频分离，确定出多个分离音频；

模型训练程序模块，用于分别确定所述多个说话人的视频训练集对应音频与所述多个分离音频的多个误差，基于所述多个误差分别训练各说话人各自的深度残差网络，直至所述多个误差分别收敛，确定音视频分离模型。

第五方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的音视频分离模型的训练方法的步骤。

第六方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的音视频分离模型的训练方法的步骤。

本发明实施例的有益效果在于：在基于音视频信息的语音分离网络中，在融入视频信息的同时，计算两个目标说话人的视频信息之间的注意力权重，通过注意力权重矩阵生成注意力特征，将该特征作为分离网络的一个输入，把视频中的图像信息利用到音频分离的任务中，显著地提升音视频语音分离网络的语音分离性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种音视频分离模型的训练方法的流程图；

图2是本发明另一实施例提供的一种音视频分离模型的训练方法的流程图；

图3是本发明另一实施例提供的一种音视频分离模型的训练方法的音视频模型结构图；

图4是本发明另一实施例提供的一种音视频分离模型的训练方法的注意力机制结构图；

图5是本发明另一实施例提供的一种音视频分离模型的训练方法的网络结构数据图；

图6是本发明另一实施例提供的一种音视频分离模型的训练方法的LRS2数据集的性能评估数据图；

图7是本发明另一实施例提供的一种音视频分离模型的训练方法的VoxCeleb2数据集的性能评估数据图；

图8是本发明一实施例提供的一种音视频分离模型的训练系统的结构示意图；

图9是本发明另一实施例提供的一种音视频分离模型的训练系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种音视频分离模型的训练方法的流程图，包括如下步骤：

S11：接收第一说话人的第一视频训练集、第二说话人的第二视频训练集以及所述第一视频训练集和第二视频训练集对应音频的混合音频；

S12：将所述混合音频、第一视频训练集以及第二音频训练集输入至深度残差网络，确定深度混合语音特征、所述第一说话人的第一唇读特征以及所述第二说话人的第二唇读特征；

S13：将所述深度混合语音特征、所述第一唇读特征以及第二唇读特征进行拼接，得到带有唇读特征和语音特征的混合表示特征；

S14：将所述混合表示特征分别输入至第一深度残差网络以及第二深度残差网络，生成第一音视频遮罩以及第二音视频遮罩；

S15：基于所述第一音视频遮罩以及第二音视频遮罩对所述混合音频进行音频分离，确定出第一分离音频以及第二分离音频；

S16：确定所述第一视频训练集对应音频与所述第一分离音频的第一误差，所述第二视频训练集对应音频与所述第二分离音频的第二误差，基于所述第一误差、所述第二误差分别训练所述第一深度残差网络以及第二深度残差网络，直至所述第一误差、所述第二误差收敛，确定音视频分离模型。

对于步骤S11，为了使训练的分离模型能够处理录制音频的语音分离，在确定训练集时，需要收集视频训练集，考虑到现实中的场景，两个人重复说话的情况相对高于三个以上人重复说话。在此，以两个说话人为例。接收到第一说话人的第一视频训练集VA以及第二说话人的第二视频训练集VB。在收到训练集后，提取出第一视频训练集和第二视频训练集中的音频进行混合，得到对应的混合音频M。

对于步骤S12，将在步骤S11中确定的混合音频、第一视频训练集以及第二音频训练集输入至深度残差网络。其中，深度残差网络(ResNet)的特点是容易优化，并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失问题。确定了混合音频的深度混合语音特征，以及所述第一说话人的第一唇读特征以及所述第二说话人的第二唇读特征。

作为一种实施方式，所述唇读特征包括:视频训练集中唇部图像的空间结构，和时序信息，进一步的精确唇读特征的信息。

对于步骤S13，将在步骤S12确定的深度混合语音特征、所述第一唇读特征以及第二唇读特征进行拼接，作为一种实施方式，所述将所述深度混合语音特征、所述第一唇读特征以及第二唇读特征进行拼接包括：通过多个融合网络ResNet将所述深度混合语音特征、所述第一唇读特征以及第二唇读特征进行拼接。得到了混合表示特征F＝[V_A；VB；M]。

对于步骤S14，将混合表示特征分别输入至两个说话人各自的第一深度残差网络以及第二深度残差网络，生成第一音视频遮罩Mask_A，以及第二音视频遮罩Mask_B。所述音视频遮罩用于从混合音频中分离说话人的语音。

对于步骤S15，基于步骤S14确定的第一音视频遮罩Mask_A，以及第二音视频遮罩Mask_B，对混合音频进行分离。确定出第一分离音频和第二音频分离。这样就得到了原始的音频，和混合分离后的音频。这样就可以了解到训练的深度残差网络的缺陷。

对于步骤S16，确定出第一视频训练集V_A对应的音频与第一分离音频的第一误差，第二视频训练集V_B对应的音频与第二分离音频的第二误差。基于所述第一误差和第二误差分别训练第一深度残差网络以及第二深度残差网络，直至所述第一误差和第二误差达到预设误差阈值时，训练结束，进而音视频分离模型训练完成。

通过该实施方式可以看出，在基于音视频信息的语音分离网络中，在融入视频信息的同时，计算两个目标说话人的视频信息之间的权重，生成注意力特征，将该特征作为分离网络的一个输入，可以显著地提升音视频语音分离网络的语音分离性能。

作为一种实施方式，在本实施例中，在所述确定深度混合语音特征、所述第一说话人的第一唇读特征以及所述第二说话人的第二唇读特征后，所述方法包括：

基于注意力机制确定所述第一说话人的第一注意力矩阵以及第二说话人的第二注意力矩阵；

通过全连接层从所述第一注意力矩阵以及第二注意力矩阵的第一注意力特征以及第二注意力特征；

将所述第一注意力特征以及第二注意力特征分别与所述混合表示特征拼接，生成第一注意力混合表示特征以及第二注意力混合表示特征；

将所述第一注意力混合表示特征以及第二注意力混合表示特征，输入至第一深度残差网络以及第二深度残差网络，生成第一音视频遮罩以及第二音视频遮罩。

在得到两个高纬度视频特征后(也就是唇读特征)，通过点积注意力机制，计算出注意力矩阵Att，该举着你通过两个不同的全连接层W_A，W_B,得到两个不同的注意力特征Γ_A，Γ_B，在进行混合特征生成是，注意力特征Γ_A，Γ_B也分别被融入到混合特征F中。对应两个不用目标说话人的混合特征表示，有：

FA＝[V_A；V_B；M；Γ_A]

FB＝[V_A；V_B；M；Γ_B]

使用该方法得到的混合特征表示，再经过深度残差网络，估计出两个目标说话人对应的遮罩Mask_A与Mask_B，这两个遮罩分别加到混合的音频上，估计出两个分离开的目标说话人音频。

通过该实施方式可以看出，在基于音视频信息的语音分离网络中，在融入视频信息的同时，计算两个目标说话人的视频信息之间的注意力权重，通过注意力权重矩阵生成注意力特征，将该特征作为分离网络的一个输入，可以显著地提升音视频语音分离网络的语音分离性能。

如图2所示为本发明一实施例提供的一种音视频分离模型的训练方法的流程图，包括如下步骤：

S21：接收多个说话人的视频训练集，以及所述多个说话人的视频训练集对应音频的混合音频；

S22：将所述混合音频和所述多个说话人的视频训练集输入至深度残差网络，确定深度混合语音特征和所述多个说话人各自的唇读特征；

S23：将所述深度混合语音特征和所述多个说话人各自的唇读特征进行拼接，得到带有唇读特征和语音特征的混合表示特征；

S24：将所述混合表示特征分别输入至多个深度残差网络，生成多个音视频遮罩；

S25：基于所述多个音视频遮罩对所述混合音频进行音频分离，确定出多个分离音频；

S26：分别确定所述多个说话人的视频训练集对应音频与所述多个分离音频的多个误差，基于所述多个误差分别训练各说话人各自的深度残差网络，直至所述多个误差分别收敛，确定音视频分离模型。

在本实施方式中，考虑到超过两个以上人重复说话的情况，提供了多个说话人的音视频分离模型的训练方法。在本实施方式中，步骤与两个人的步骤相同，在此不再赘述。

对本方法进行具体说明，基线体系结构仅将目标说话者的视觉流用于目标说话者分离。在这项工作中，扩展了此基本结构，以利用来自目标扬声器和干扰扬声器的视觉流。考虑到来自说话人A和B的混合音频，当从混合音频中提取语音A时，来自视觉表示B的信息未在基线体系结构中使用。但是，来自干扰扬声器的视觉信息也可能有用，因此在此进行探讨。

假设至少有两个说话者的视觉表示可用，提出了视听语音分离模型。如图3所示，ResNet_V和ResNet_M与基线模型中的相同。视觉表示V_A和V_B的两个流由权重共享的ResNet_V处理。然后，将所有三个表示流在通道维度上连接在一起。然后，由两个融合网络ResNet_FA和ResNet_FB处理融合表示F＝[V_A；V_B；M]，以预测混合语音中两个说话者的两个掩码。这两个融合ResNet具有与基线模型中的ResNetF相同的结构，但是每个都有自己的参数。

将两个说话者的目标幅度谱图的参考表示为

并将预测幅度谱图表示为

和

优化目标可以是：

上述内容介绍了建议的视听语音分离模型，该模型具有目标和受干扰说话者的视觉流。实验表明，与基线相比，引入干扰扬声器的视觉表示可以在分离目标语音时带来进一步的改进，这将在下一部分中进行展示。此外，已经探索将注意力机制整合到视听语音分离模型中，以帮助该模型更多地关注不同说话者的视觉表示之间的差异和相似性。

由两个序列生成的参与特征图在卷积神经网络中效果很好。受此启发，提出了基于注意力的视听语音分离模型。如图4所示，将图3中先前的视觉ResNet处理的视觉表示A和B表示为V_A，V_B∈R^c×t。注意权重矩阵Att∈R^t×t可以表示为：

Att_i，j＝attenion_score(V_A[：，i]，

根据维度缩放后的点积注意力权重：

注意权重矩阵Att中的第i行表示相对于视觉表示V_B的视觉表示V_A中的第i帧的注意分布，反之亦然。因此，注意力特征图Γ_A和Γ_B是通过可学习的完全连接层W_A和W_B从矩阵Att生成的：

Γ_A＝W_A·AttT

Γ_B＝W_B·Att

最后，对于流A，融合表示F_A由视觉表示V_A，V_B，嘈杂音频表示M和注意力特征图Γ_A的两个流组成。通过在信道维度上串联这些表示，可以将流A的融合表示表示为F_A＝[V_A；V_B；M；Γ_A]。对于流B，F_B＝[V_A；V_B；M；Γ_B]。

对本方法进行试验，在LRS2数据集上训练模型，该数据集由口头句子和来自BBC电视的相应视频组成。数据集中的音频和视频已经同步。提供了用于拆分数据集的列表，并且按广播日期将其分为训练，验证和测试集，因此各集之间没有重叠。训练集中约有14万条语音样本，在验证和测试中分别约有1千条。数据集中的视频均为25fps，音频以16kHz采样率记录。

为了显示提出的模型的泛化性，还在VoxCeleb2数据集的一个子集上评估了在LRS2上训练的模型。从VoxCeleb2数据集中随机选择了2000个样本进行泛化测试。

数据准备过程类似于先前的工作。数据集中的每个样本都预先转换为视觉和音频表示。

视觉表示：首先在LRW数据集上训练唇读模型。视觉模型用于唇读任务。训练的模型在LRW验证集上的准确率达到75.4％。然后，唇读模型的18层3D ResNet前端用于为每个视频帧提取512维特征。视觉特征被剪切或填充为固定长度60。输入视觉表示V的形状为512×60。

音频表示：首先对原始波执行短时傅立叶变换。由于视频的速度为25fps，为了使音频与视觉表示对齐，将STFT(short-time Fourier transform，短时傅里叶变换)的窗口大小和跳长设置为40ms和10ms。通过该STFT设置，将有4帧音频特征与其对应的视频帧对齐。音频表示被剪切或填充为固定长度240。音频以16kHz采样，因此复频谱图的频率分辨率为321。幅频谱图的大小与复频谱图的大小相同，为321×240。对于相位频谱图中，使用正弦和余弦值来表示相位信息，因此大小为642×240。

合成音频：要生成嘈杂的音频，从同一数据集折叠中随机抽取2种发音，然后将其混合在一起。

结构：图6和图7中提到的ResNet的详细信息在图5中详细列出。其中，图5为训练方法的网络结构数据图，其中，I：ResNet中卷积层的顺序；C：卷积通道数；K：核大小；P：填充大小；S：卷积步长，转置卷积为1/2；RB：是否有剩余连接和批处理规范化层；a：激活函数。图6为训练方法的LRS2数据集的性能评估数据图，其中，GT：地面真相；PR：预测相；MX：噪声相；SDR：信噪比，越高越好；PESQ：语音质量的感知评估，从-0.5到4.5不等，越高越好。值得注意的是，他们的基线模型比我们的模型有更多的参数，每个卷积层有1536个滤波器，而我们的模型只有1024个滤波器。图7为训练方法的VoxCeleb2数据集的性能评估数据图，其中，GT：地面真相；PR：预测相；MX：噪声相；SDR：信噪比，越高越好；PESQ：语音质量的感知评价，从-0.5到4.5不等，越高越好。在LRS2上训练的模型直接在VoxCeleb2数据集上测试。

为了减少模型的参数数量，将所有卷积层的过滤器数量设置为1024，而不是1536。相位子网是按照提供的方法实现的。除了3D可视化ResNet前端外，所有其他主要模型都是通过MXNet实现的。

网络训练：所有幅度子网均以相同的过程进行训练。通过两个步骤来训练网络。首先，将初始学习率设置为10^-3。然后，每3个周期将学习率降低0.7倍。Adam优化器用于权重衰减10^-5。梯度裁剪设置为10.0。收敛之后，选择验证集中的最佳模型参数以再次进行优化。在第二训练过程中，初始学习率设置为10^-4，权重衰减设置为10^-6。然后，收敛之后，将验证集中的最佳模型用于对测试集进行评估。不对提出的相位子网进行修改。所有幅度子网络共享同一个相位子网络，该相位子网络使用基线幅度子网络进行训练。4个GTX-1080Ti GPU用于数据并行训练，并且最小批处理大小设置为160。

LRS2数据集：图6列出了LRS2测试集中评估的结果，不同的阶段用于分离的音频生成。评估协议包括信号失真比得分(SDR)和语音质量得分的感知评估(PESQ)。首先自己建立了基线，系统可以获得几乎相同的性能。然后构造所提出的架构。与基线相比，2-视频流模型在SDR和PESQ得分上均显示出显着的改善，并且设计的注意力机制可以带来更多的改善。在所有情况下，使用新提出的方法构建的系统始终优于传统方法。

对照实验：图6中的结果显示了所提出的基于注意力的模型的性能提升。考虑到该模型在W_A，W_B中的权重矩阵上具有额外的参数，为了进行更公平的比较，还构建了具有相同结构但带有伪注意模块的模型。它具有与建议的基于注意力的模型相同的结构，只是从高斯噪声中采样了注意力权重矩阵Att，其结果如图6的第4行所示。这表明伪注意力模块没有任何其他改进，这进一步证明了提出的关注图6的有效性。

VoxCeleb2数据集：为了评估提出的新模型的一般性，直接在VoxCeleb2数据集上评估在LRS2上训练的模型。VoxCeleb2数据集是从YouTube收集的，而LRS2是从BBC电视收集的。这两个语料之间不匹配。VoxCeleb2的大多数样本的视频质量均低于LRS2的样本。此外，LRS2仅由说英语的人组成，而VoxCeleb2包含更多的语言。结果显示在图7中。可以看到，由于数据更具挑战性，VoxCeleb2的总体性能比LRS2差。与在VoxCeleb2上进行泛化测试的常规方法相比，所提出的方法仍可以获得显着且一致的改进。

如图8所示为本发明一实施例提供的一种音视频分离模型的训练系统的结构示意图，该系统可执行上述任意实施例所述的音视频分离模型的训练方法，并配置在终端中。

本实施例提供的一种音视频分离模型的训练系统包括：数据接收程序模块11，唇读特征确定程序模块12，混合表示特征确定程序模块13，音视频遮罩生成程序模块14，音频分离程序模块15和模型训练程序模块16。

其中，数据接收程序模块11用于接收第一说话人的第一视频训练集、第二说话人的第二视频训练集以及所述第一视频训练集和第二视频训练集对应音频的混合音频；唇读特征确定程序模块12用于将所述混合音频、第一视频训练集以及第二音频训练集输入至深度残差网络，确定深度混合语音特征、所述第一说话人的第一唇读特征以及所述第二说话人的第二唇读特征；混合表示特征确定程序模块13用于将所述深度混合语音特征、所述第一唇读特征以及第二唇读特征进行拼接，得到带有唇读特征和语音特征的混合表示特征；音视频遮罩生成程序模块14用于将所述混合表示特征分别输入至第一深度残差网络以及第二深度残差网络，生成第一音视频遮罩以及第二音视频遮罩；音频分离程序模块15用于基于所述第一音视频遮罩以及第二音视频遮罩对所述混合音频进行音频分离，确定出第一分离音频以及第二分离音频；模型训练程序模块16用于确定所述第一视频训练集对应音频与所述第一分离音频的第一误差，所述第二视频训练集对应音频与所述第二分离音频的第二误差，基于所述第一误差、所述第二误差分别训练所述第一深度残差网络以及第二深度残差网络，直至所述第一误差、所述第二误差收敛，确定音视频分离模型。

进一步地，在所述唇读特征确定程序模块后，所述系统包括：

注意力矩阵确定程序模块，用于基于注意力机制确定所述第一说话人的第一注意力矩阵以及第二说话人的第二注意力矩阵；

注意力特征确定程序模块，用于通过全连接层从所述第一注意力矩阵以及第二注意力矩阵的第一注意力特征以及第二注意力特征；

注意力混合表示特征确定程序模块，用于将所述第一注意力特征以及第二注意力特征分别与所述混合表示特征拼接，生成第一注意力混合表示特征以及第二注意力混合表示特征；

音视频遮罩生成程序模块，用于将所述第一注意力混合表示特征以及第二注意力混合表示特征，输入至第一深度残差网络以及第二深度残差网络，生成第一音视频遮罩以及第二音视频遮罩。

进一步地，所述唇读特征包括:视频训练集中唇部图像的空间结构，和时序信息。

进一步地，所述混合表示特征确定程序模块用于：

通过多个融合网络ResNet将所述深度混合语音特征、所述第一唇读特征以及第二唇读特征进行拼接。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的音视频分离模型的训练方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

如图9所示为本发明一实施例提供的一种音视频分离模型的训练系统的结构示意图，该系统可执行上述任意实施例所述的音视频分离模型的训练方法，并配置在终端中。

本实施例提供的一种音视频分离模型的训练系统包括：数据接收程序模块21，唇读特征确定程序模块22，混合表示特征确定程序模块23，音视频遮罩生成程序模块24，音频分离程序模块25和模型训练程序模块26。

其中，数据接收程序模块21用于接收多个说话人的视频训练集，以及所述多个说话人的视频训练集对应音频的混合音频；唇读特征确定程序模块22用于将所述混合音频和所述多个说话人的视频训练集输入至深度残差网络，确定深度混合语音特征和所述多个说话人各自的唇读特征；混合表示特征确定程序模块23用于将所述深度混合语音特征和所述多个说话人各自的唇读特征进行拼接，得到带有唇读特征和语音特征的混合表示特征；音视频遮罩生成程序模块24用于将所述混合表示特征分别输入至多个深度残差网络，生成多个音视频遮罩；音频分离程序模块25用于基于所述多个音视频遮罩对所述混合音频进行音频分离，确定出多个分离音频；模型训练程序模块26用于分别确定所述多个说话人的视频训练集对应音频与所述多个分离音频的多个误差，基于所述多个误差分别训练各说话人各自的深度残差网络，直至所述多个误差分别收敛，确定音视频分离模型。

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的音视频分离模型的训练方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的音视频分离模型的训练方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种音视频分离模型的训练方法，包括：

2.根据权利要求1所述的方法，其中，在所述确定深度混合语音特征、所述第一说话人的第一唇读特征以及所述第二说话人的第二唇读特征后，所述方法包括：

3.根据权利要求1所述的方法，其中，所述唇读特征包括:视频训练集中唇部图像的空间结构，和时序信息。

4.根据权利要求1所述的方法，其中，所述将所述深度混合语音特征、所述第一唇读特征以及第二唇读特征进行拼接包括：

5.一种音视频分离模型的训练方法，包括：

6.一种音视频分离模型的训练系统，包括：

7.根据权利要求6所述的系统，其中，在所述唇读特征确定程序模块后，所述系统包括：

8.根据权利要求6所述的系统，其中，所述唇读特征包括:视频训练集中唇部图像的空间结构，和时序信息。

9.根据权利要求6所述的系统，其中，所述混合表示特征确定程序模块用于：

10.一种音视频分离模型的训练系统，包括：