CN111883105A

CN111883105A - 用于视频场景的上下文信息预测模型的训练方法及系统

Info

Publication number: CN111883105A
Application number: CN202010680970.6A
Authority: CN
Inventors: 钱彦旻; 李晨达
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2020-11-03
Anticipated expiration: 2040-07-15
Also published as: CN111883105B

Abstract

本发明实施例提供一种用于视频场景的上下文信息预测模型的训练方法。该方法包括：通过端到端语音识别编码器提取第一说话人的第一干净音频以及第二说话人的第二干净音频中的第一理想上下文特征以及第二理想上下文特征；将混合音频的幅度谱、以及第一说话人的第一视觉表示信息以及第二说话人的第二视觉表示信息，作为上下文信息预测模型的输入，输出第一预测上下文特征以及第二预测上下文特征；基于第一理想上下文特征以及第二理想上下文特征与第一预测上下文特征以及第二预测上下文特征的误差对上下文信息预测模型训练。本发明实施例还提供一种用于视频场景的上下文信息预测模型的训练系统。本发明实施例提升语音分离的性能。

Description

用于视频场景的上下文信息预测模型的训练方法及系统

技术领域

本发明涉及智能语音领域，尤其涉及一种用于视频场景的上下文信息预测模型的训练方法及系统。

背景技术

用多模式方法解决鸡尾酒会问题变得很流行。为了解决鸡尾酒会中的语音分离问题，通常使用：传统的深度神经网络语音分离技术、基于音视频信息的语音分离技术。

传统的深度神经网络语音分离技术。系统使用神经网络对混合了多个说话人的音频进行处理。以两个目标说话人的系统举例，网络输入为混合的音频，输出为分离出来的两个说话人各自的音频。

基于音视频信息的语音分离技术。系统在进行语音分离的时候，融入了目标说话人的视频信息(视频包括说话口型等重要信息)。神经网络结合目标说话人的视频信息，从混合的音频中分离出目标说话人对应的语音音频。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

传统的深度神经网络语音分离技术，由于分离的两个目标声音是对等的，在训练时，会遇到输出与训练标签的匹配问题。需要使用置换不变性准则进行训练，训练开销较大。

基于音视频信息的语音分离技术，将目标说话人的视频信息融入神经网络，消除了音频之间的对等问题，并且引入了更多可以利用的信息。但是如何进一步利用视频信息没有被很好地探索。

发明内容

为了至少解决现有技术中深度语音分离技术没有额外的信息，标签的匹配训练开销大，没有考虑到视频信息应用到语音分离技术中的问题。

第一方面，本发明实施例提供一种用于视频场景的上下文信息预测模型的训练方法，包括：

通过单说话人的端到端语音识别编码器提取第一说话人的第一干净音频以及第二说话人的第二干净音频中的第一理想上下文特征以及第二理想上下文特征；

将由所述第一干净音频以及所述第二干净音频生成的混合音频的幅度谱、以及所述第一说话人的第一视觉表示信息以及所述第二说话人的第二视觉表示信息，作为上下文信息预测模型的输入，输出第一预测上下文特征以及第二预测上下文特征；

基于所述第一理想上下文特征以及所述第二理想上下文特征与所述第一预测上下文特征以及所述第二预测上下文特征的误差对所述上下文信息预测模型训练，直至所述第一预测上下文特征以及所述第二预测上下文特征趋近于所述第一理想上下文特征以及所述第二理想上下文特征。

第二方面，本发明实施例提供一种上下文信息预测方法，包括：

将待分离混合语音的幅度谱输入至根据权利要求1所述的训练方法训练后的上下文信息预测模型，通过类视觉组卷积网络在时频维度上进行特征提取，以及在时间维度上进行下采样；

将特征提取以及采样后的幅度谱输入至深度残差网络，得到高维音频模态表示；

将待分离混合语音中第一说话人的第一视觉表示信息以及第二说话人的第二视觉表示信息输入至所述上下文信息预测模型，通过所述深度残差网络确定第一高维视觉模态表示以及第二高维视觉模态表示；

将所述高维音频模态表示、所述第一高维视觉模态表示以及所述第二高维视觉模态表示进行拼接，确定拼接模态表示；

将所述拼接模态表示输入至两个不同的双向长短时记忆元循环神经网络得到所述第一说话人的第一上下文信息表示以及所述第二说话人的第二上下文信息表示。

第三方面，本发明实施例提供一种语音分离方法，包括：

将所述权利要求5确定的所述第一高维视觉模态表示、所述第二高维视觉模态表示、所述待分离混合语音的幅度谱、所述第一上下文信息表示以及所述第二上下文信息表示输入至语音分离系统，确定所述待分离混合语音的高维特征表示；

基于所述高维特征表示确定第一说话人的第一幅度谱遮掩以及第二幅度谱遮掩；

通过所述第一幅度谱遮掩以及第二幅度谱遮掩对所述待分离混合语音的幅度谱进行预测，确定所述第一说话人的分离语音以及第二说话人的分离语音。

第四方面，本发明实施例提供一种用于视频场景的上下文信息预测模型的训练系统，包括：

理想上下文特征确定程序模块，用于通过单说话人的端到端语音识别编码器提取第一说话人的第一干净音频以及第二说话人的第二干净音频中的第一理想上下文特征以及第二理想上下文特征；

预测上下文特征确定程序模块，用于将由所述第一干净音频以及所述第二干净音频生成的混合音频的幅度谱、以及所述第一说话人的第一视觉表示信息以及所述第二说话人的第二视觉表示信息，作为上下文信息预测模型的输入，输出第一预测上下文特征以及第二预测上下文特征；

训练程序模块，用于基于所述第一理想上下文特征以及所述第二理想上下文特征与所述第一预测上下文特征以及所述第二预测上下文特征的误差对所述上下文信息预测模型训练，直至所述第一预测上下文特征以及所述第二预测上下文特征趋近于所述第一理想上下文特征以及所述第二理想上下文特征。

第五方面，本发明实施例提供一种上下文信息预测系统，包括：

提取采用程序模块，用于将待分离混合语音的幅度谱输入至根据权利要求8所述的训练方法训练后的上下文信息预测模型，通过类视觉组卷积网络在时频维度上进行特征提取，以及在时间维度上进行下采样；

高维音频模态表示确定程序模块，用于将特征提取以及采样后的幅度谱输入至深度残差网络，得到高维音频模态表示；

高维视觉模态表示确定程序模块，用于将待分离混合语音中第一说话人的第一视觉表示信息以及第二说话人的第二视觉表示信息输入至所述上下文信息预测模型，通过所述深度残差网络确定第一高维视觉模态表示以及第二高维视觉模态表示；

拼接模态表示确定程序模块，用于将所述高维音频模态表示、所述第一高维视觉模态表示以及所述第二高维视觉模态表示进行拼接，确定拼接模态表示；

上下文信息表示确定程序模块，用于将所述拼接模态表示输入至两个不同的双向长短时记忆元循环神经网络得到所述第一说话人的第一上下文信息表示以及所述第二说话人的第二上下文信息表示。

第六方面，本发明实施例提供一种语音分离系统，包括：

高维特征表示确定程序模块，用于将所述权利要求9确定的所述第一高维视觉模态表示、所述第二高维视觉模态表示、所述待分离混合语音的幅度谱、所述第一上下文信息表示以及所述第二上下文信息表示输入至语音分离系统，确定所述待分离混合语音的高维特征表示；

幅度谱遮掩确定程序模块，用于基于所述高维特征表示确定第一说话人的第一幅度谱遮掩以及第二幅度谱遮掩；

语音分离程序模块，用于通过所述第一幅度谱遮掩以及第二幅度谱遮掩对所述待分离混合语音的幅度谱进行预测，确定所述第一说话人的分离语音以及第二说话人的分离语音

第七方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于视频场景的上下文信息预测模型的训练方法、上下文信息预测方法以及语音分离方法的步骤。

第八方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的用于视频场景的上下文信息预测模型的训练方法、上下文信息预测方法以及语音分离方法的步骤。

本发明实施例的有益效果在于：从混合的音频信号和目标说话人的视觉信息中提取了上下文信息，并将其融入语音分离任务中。这种方法对人类在“鸡尾酒会场景”下，通过对说话人上下文信息理解来补全漏听、纠正错听的机制进行了建模。实验证明融入上下文信息的音视频语音分离相较于音视频语音分离基线，具有显著的分离性能提升。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种用于视频场景的上下文信息预测模型的训练方法的流程图；

图2是本发明一实施例提供的一种用于视频场景的上下文信息预测模型的训练方法的上下文信息预测模型的训练结构图；

图3是本发明一实施例提供的一种上下文信息预测方法的流程图；

图4是本发明一实施例提供的一种上下文信息预测方法的上下文信息预测模型结构图；

图5是本发明一实施例提供的一种语音分离方法的流程图；

图6是本发明一实施例提供的一种语音分离方法的融入上下文信息的语音分离系统结构图；

图7是本发明一实施例提供的一种语音分离方法的深度残差网络的详细信息数据图；

图8是本发明一实施例提供的一种语音分离方法的视听语境语音分离模型结果比较数据图；

图9是本发明一实施例提供的一种语音分离方法的注意力机制的结果数据图；

图10是本发明一实施例提供的一种用于视频场景的上下文信息预测模型的训练系统的结构示意图；

图11是本发明一实施例提供的一种上下文信息预测系统的结构示意图；

图12是本发明一实施例提供的一种语音分离系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种用于视频场景的上下文信息预测模型的训练方法的流程图，包括如下步骤：

S11：通过单说话人的端到端语音识别编码器提取第一说话人的第一干净音频以及第二说话人的第二干净音频中的第一理想上下文特征以及第二理想上下文特征；

S12：将由所述第一干净音频以及所述第二干净音频生成的混合音频的幅度谱、以及所述第一说话人的第一视觉表示信息以及所述第二说话人的第二视觉表示信息，作为上下文信息预测模型的输入，输出第一预测上下文特征以及第二预测上下文特征；

S13：基于所述第一理想上下文特征以及所述第二理想上下文特征与所述第一预测上下文特征以及所述第二预测上下文特征的误差对所述上下文信息预测模型训练，直至所述第一预测上下文特征以及所述第二预测上下文特征趋近于所述第一理想上下文特征以及所述第二理想上下文特征。

在本实施方式中，在真实的鸡尾酒会场景下，为了从混合的声音中分辨目标说话人的声音，人们不但会仔细听取声音，关注目标说话人的视觉信息，同时也会尝试着去理解目标说话人正在谈论的内容。对人类听觉机制的研究发现，人类的大脑中有相关的神经中枢，可以根据语音的上下文信息对被噪声覆盖的声音进行还原。

对于步骤S11，要直接从混合的音频信息和对应的目标说话人信息中提取出上下文信息是一件比较困难的事情。所以首先考虑了一种更简单的情况，利用了端到端语音识别系统的编码器部分从干净的标签数据中提取了上下文信息，称之为理想上下文信息。从干净的音频中获取到的理想上下文信息在真实场景下无法被利用，但是可以使用理想上下文信息作为训练标签，来训练一个上下文信息预测模型。

图2展示了两个目标说话人情况下的上下文预测模型的训练过程，通过单说话人的端到端语音识别编码器提取第一说话人的第一干净音频X_A的音频幅度谱|X_A|，fbank(|X_A|)为从干净音频中提取的filter bank音频特征。提取第二说话人的第二干净音频X_B的音频幅度谱|X_B|，fbank(|X_B|)为从干净音频中提取的filter bank音频特征。最终得到第一理想上下文特征E_A与第二理想上下文特征E_B。作为一种实施方式，所述端到端语音识别编码器的数量与所述说话人的数量相同，其中，各端到端语音识别编码器共享权值。也就是说有几个说话人，就会准备多少个端到端语音识别编码器，说话人的数量不仅限于2人，也可以适用于多人。上下文信息预测模型内的结构包括：二维的视觉卷积网络、共享权值的一维深度残差网络、双向长短时记忆元循环神经网络。

对于步骤S12，|Y|是由X_A与X_B生成的混合音频Y的幅度谱，V_A与V_B为目标说话人的视觉表示。上下文信息提取模型接受混合幅度谱|Y|，V_A与V_B作为输入，为说话人A与B分别预测上下文信息

与

其中，视觉表示信息包括：说话人嘴形区域的视频图像所提取的特征。

对于步骤S13，通过在理想上下文信息以及预测上下文信息之间的误差L_ctc可以对上下文信息预测模型进行训练：

通过这种训练方式，直至所述第一预测上下文特征以及所述第二预测上下文特征趋近于所述第一理想上下文特征以及所述第二理想上下文特征。

通过该实施方式可以看出，为基于深度学习的音视频语音分离系统扩展出类似的能力，即尝试将语音的上下文模态融入语音分离系统，实现音频、视频、上下文三个模态融合的语音分离系统，辅助其改善语音分离效果。

如图3所示为本发明一实施例提供的一种上下文信息预测方法的流程图，包括如下步骤：

S21：将待分离混合语音的幅度谱输入至根据权利要求1所述的训练方法训练后的上下文信息预测模型，通过类视觉组卷积网络在时频维度上进行特征提取，以及在时间维度上进行下采样；

S22：将特征提取以及采样后的幅度谱输入至深度残差网络，得到高维音频模态表示；

S23：将待分离混合语音中第一说话人的第一视觉表示信息以及第二说话人的第二视觉表示信息输入至所述上下文信息预测模型，通过所述深度残差网络确定第一高维视觉模态表示以及第二高维视觉模态表示；

S24：将所述高维音频模态表示、所述第一高维视觉模态表示以及所述第二高维视觉模态表示进行拼接，确定拼接模态表示；

S25：将所述拼接模态表示输入至两个不同的双向长短时记忆元循环神经网络得到所述第一说话人的第一上下文信息表示以及所述第二说话人的第二上下文信息表示。

对于步骤S21，上下文信息预测模型的具体结构如图4所示，在进行上下文信息预测时，混合音频的幅度谱|Y|输入至根据权利要求1所述的训练方法训练后的上下文信息预测模型，首先使用一个二维的类VGG卷积网络(VGG卷积网络是一个比较有名的牛津大学VGG组提出的神经网络结构，这里使用了类似的结构VGG-like。)在时频维度上进行特征提取，并在时间维度上进行了下采样。

对于步骤S22，在步骤S21之后，通过一维深度残差网络ResNet_M′进行处理，得到高维音频模态表示Y^R。

对于步骤S23，目标说话人的视觉表示通过共享权值的一维深度残差网络ResNet_V′进行了处理，得到高维视觉模态表示

对于步骤S24，对步骤S22、S23确定的高维音频模态表示、高维视觉模态表示进行拼接，获得相应的拼接模态表示

对于步骤S25，经过深度残差网络ResNet_F′处理后，被送入了两个不同的双向长短时记忆元循环神经网络(BLSTM)

与

得到上下文信息的中间表示

中间表示

通过一个共享权值的BLSTM_E，最终生成对应说话人的第一上下文信息表示

第二上下文信息表示

具体的实施步骤在下述实验方式会详细说明。

通过该实施方式可以看出，在鸡尾酒会问题场景下，为基于深度学习的音视频语音分离系统扩展出，类似人类具有关注目标说话人的口型变化，注意其声音，理解其谈话的内容，从而更好得从混合场景中辨别目标说话人声音的能力，即尝试将语音的上下文模态融入语音分离系统，实现音频、视频、上下文三个模态融合的语音分离系统，辅助其改善语音分离效果。

如图5所示为本发明一实施例提供的一种语音分离方法的流程图，包括如下步骤：

S31：将所述权利要求5确定的所述第一高维视觉模态表示、所述第二高维视觉模态表示、所述待分离混合语音的幅度谱、所述第一上下文信息表示以及所述第二上下文信息表示输入至语音分离系统，确定所述待分离混合语音的高维特征表示；

S32：基于所述高维特征表示确定第一说话人的第一幅度谱遮掩以及第二幅度谱遮掩；

S33：通过所述第一幅度谱遮掩以及第二幅度谱遮掩对所述待分离混合语音的幅度谱进行预测，确定所述第一说话人的分离语音以及第二说话人的分离语音。

在本实施方式中，在得到了预测的上下文信息后，可以按图6的方式将上下文信息的融入到语音分离系统中，语音分离系统可以使用注意力机制，来辅助预测语音分离的效果。

对于步骤S31，视频特征V_A、V_B，混合幅度谱|Y|，以及上下文信息E_A、E_B在经过对应的深度残差网络处理后，得到相应的待分离混合语音的高维特征表示。

对于步骤S32，在步骤S31经过凭借后，通过后续的网络为每个目标说话人估计出幅度谱遮掩M_A、M_B。

对于步骤S33，预测的幅度谱遮掩作用于原始的混合幅度谱|Y|来预测出目标语音的幅度谱

从而根据幅度谱确定出第一说话人的分离语音以及第二说话人的分离语音。

通过该实施方式可以看出，从混合的音频信号和目标说话人的视觉信息中提取了上下文信息，并将其融入语音分离任务中。这种方法对人类在“鸡尾酒会场景”下，通过对说话人上下文信息理解来补全漏听、纠正错听的机制进行了建模。实验证明融入上下文信息的音视频语音分离相较于音视频语音分离基线，具有显著的分离性能提升。在实际场景中也具有应用的价值。

对上述方法步骤进行具体说明，混合语音在时频(T-F)域进行分离。考虑两个发言者A和B的线性混合演讲:

经过短时傅里叶变换(STFT)，T-F域的信号可以写成：

设

表示混合STFT的单帧，其中N是STFT的窗口大小。

T形框架的混合可以写成：

Y的幅度谱可用

然后，表示两个目标说话人A和B的V_A，

其中D是每个框架的维度数。视听语音分离网络可以抽象地表示为：

M_A，M_B＝Net(|Y|，V_A，V_B)

其中MA，MB是估计的幅度掩模。

如图6所示，视听分离网络以混合语音|Y|的语音幅度谱、两个说话人V_A和V_B的相应视觉表示作为输入。输入表示由不同的一维ResNets。每个ResNet由一个基本块堆栈组成，每个基本块包含一个带剩余连接的一维卷积层、一个ReLU激活层和一个批标准化层。一些基本块包含额外的上采样层或下采样层。首先利用共享权重ResNet_V对V_A和V_B的可视化表示进行处理，得到高层次的可视化表示

和

混合语音Y的幅度谱由ResNet_M处理得到高水平的音频表示Y^R。ResNet_M中有2个下采样层，下采样因子为2，因为在我们的设置中，每个视觉表示帧对应4个音频帧。然后，在通道上连接高层表示以获得融合表示

融合表示传递给ResNet_FA和ResNet_FB，然后由sigmoid激活以估计幅度掩模M_A和M_B，估计的掩模通过元素相乘应用于混合幅度谱，以获得预测幅度谱：

L1损失用于训练，优化目标为：

其中|X|_A和|X|_B分别是混合语音中两个说话人的目标幅度谱。

在分离阶段，利用估计的幅度谱和Y的相位谱重建预测的STFT谱，然后利用逆短时傅立叶变换(iSTFT)恢复预测语音。

视听语境分离，除了视觉模态之外，还进一步探讨了用于语音分离的语境语言模态。

在基于注意力的端到端语音识别模型中，编码器被认为是对语音信号的上下文信息进行编码，明确地纳入上下文信息，包括每个说话者的语音和语言信息，有助于提高语音分离的性能。然而，这是一个两阶段的方法。第一步是不使用上下文信息的正常语音分离。第一阶段从分离的语音中提取上下文信息，然后构建含有上下文信息的第二次分离。该方法存在一定的约束:高度依赖第一阶段分离模块的性能，影响了上下文信息提取的准确性；另一方面，在真实场景中，通常也无法提前获得目标说话人的清晰语音。

在此，本方法提出了一种更直接有效的上下文语言嵌入提取方法，并将其与声像情态进一步整合到语音分离中。如图2与图4所示，说明了所提出的上下文语言嵌入学习的整体框架。首先，利用ESPnet工具箱，利用单说话人数据训练了一个基于CTC-注意力机制的端到端单说话人语音识别模型。利用这种预先训练的单说话人ASR模型，编码器可以为两个混合说话人A和B生成理想上下文语言嵌入E_A和E_B，这些理想上下文嵌入E_A和E_B可以直接用于以后的分离模块训练，可以将上下文标签进一步用作嵌入或训练模块。

在上下文预测模型中，混合语音的频谱特征和两个说话人的视觉表征作为输入。可视化表示由共享权重1-D处理ResNet_V’,和混合幅度谱|Y|由二维类VGG层和一维ResNet_M’处理。然后，将高层表示连接到一个融合表示中。然后由一维ResNet_F’处理融合表示。使用两个分离的双向长短期记忆(BLSTM)层，即BLSTM_SA和BLSTM_SB，以及每个说话人的共享编码器BLSTM层BLSTM_E来预测单个说话人的上下文嵌入，并且生成的

和

被预测为混合语音中两个说话人的上下文嵌入。培训标准可以写成：

视听语境语音分离，然后，预测(或理想)上下文语言嵌入可以与音频和视频模式集成，以构建音频-视频上下文语音分离，如图6所示。增加了一个共享权重ResNet_E，它将上下文嵌入

和

转换为高级表示

和

用于语音分离。然后，与视听系统类似，将所有高级表示连接在一起，作为融合表示

注意多模态嵌入，在本方法提出的视听语境语音分离系统中，开发了一个注意机制来更好地利用多模态信息。在融合步骤之前，高级表示

和

首先连接在一起，并通过浅网ResNet_VE投影得到融合表示C_A。说话人B得到C_B也是同样的过程。C_A和C_B可以看作是目标说话人的线索信息。

在C_A和C_B之间计算尺度化的点积关注度矩阵A:

式中D为C_A和C_B的维数。然后将注意力得分矩阵A转化为注意力特征，并通过一个可学习的全连通层W:

Γ_A＝W·A^T

Γ_B＝W·A

W将

投影到

中，其中L是数据集中的最大帧长度。在实现中，隐藏了ΓA和ΓB的填充位置。最后，将所有高级表示组合在一起，F＝[C_A；Ｃ_Ｂ；Ｙ^Ｒ；Γ_Ａ；Γ_Ｂ]。

对本方法进行试验，数据准备中在LRS2数据集上训练语音分离模型和上下文嵌入预测模型。这是一个从BBC电视台收集的视听数据集。还将LibriSpeech语料库用于端到端的单说话人自动语音识别训练。视觉表征：本方法使用中描述的预先训练的唇读网络从LRS2数据集中提取视觉表征。对于视频的每一帧，首先对说话人的面部区域进行裁剪，然后通过预训练模型进行处理，生成512维特征。

音频表示：在LRS2数据集中，以16kHz的采样率记录音频，视频的帧速率为25fps。对于STFT，窗口大小设置为40ms，跳长设置为10ms，通过该设置，幅度谱的每帧为321维，幅度谱的每4帧对应一个视觉表示的单帧。

上下文学习：在端到端的单说话人ASR训练中，输入特征被转换成80维log-melfilterbank系数。预言的或预言的上下文嵌入是512维的。ASR编码器在输入特征的时间尺度上执行4次子采样。因此，理想上下文嵌入的长度与视觉表示相同。

合成音频:混合音频是从LRS2数据集中随机挑选的两个目标音频生成的。目标音频是线性混合的，其中较短的音频被填充到与较长的音频相同的长度。

利用LibriSpeech 960h语料库对基于CTC/注意力机制的端到端单说话人ASR模型进行训练。培训程序遵循ESPnet工具包中的配方。在LibriSpeech数据集上收敛之后，使用LRS2训练集对模型进行微调。在LRS2测试集上，经过良好训练的ASR模型的最终误码率达到8.2％。用于提取理想ASR特征的ASR编码器是一个带投影的5层BSTLM，每层包含512个单位，编码器在时间尺度上执行4次子采样。

类VGG上下文嵌入预测模型包含4层二维卷积。在每个卷积中，核大小为3，卷积层的信道数为64-64-128-128。两个最大池层包含在类VGG块中，该块在时间尺度上执行4次子采样。分离的BLSTM网络由2层512单元组成，共享权重的BLSTM编码器由1层512单元组成。BSLTMs的退出率设置为0.2。上下文嵌入预测模型中ResNets的详细信息如图7所示。在训练期间使用重量衰减10^-6的Adam优化器。学习率最初设置为10^-4，然后在每3个阶段降低因子3。批量大小设置为16，数据并行训练使用4个GTX-2080Ti gpu。

图7列出了视听或视听混合语音分离网络中ResNet的详细信息。其中，N：剩余块的数量。C：卷积通道数；O：输出尺寸，如果与C不同，则包括额外的投影层；K：粒径；D/U：时间刻度上的下采样或上采样因子。除数据长度外，培训程序与之前的工作几乎相同。为了保持上下文信息的一致性，在本方法中，输入数据不被剪裁成固定长度。语音分离模型采用4gtx-2080tigpu进行数据并行训练，批量设置为32。训练时使用桶式取样器，使每批数据的长度相差不大。

结果和分析，本方法采用信号失真比(SDR)、短时客观清晰度(STOI)和听感语音质量评分(PESQ)作为评价指标。

为了评估合并上下文嵌入的上限，首先在训练和评估中使用理想上下文嵌入。如图8所示，使用理想上下文嵌入的语音分离系统在所有指标上都比视听语音分离系统有很大改进。然后，本方法使用预测的上下文嵌入评估新的音频-可视化上下文模型，因为理想上下文嵌入实际上在实际应用程序中不可用。比较了不同的上下文嵌入在训练和测试中的用法，并在图8中列出。实验结果表明，该模型提取的上下文嵌入对强视听双模系统的语音分离也有明显的改善作用。

本方法进一步评估了上述方法描述的多模态注意机制，结果如图9所示。结果表明，在多模态嵌入的情况下，所提出的注意可以获得额外的一致性改进。

本方法提出了一种新的多模态语音分离架构，包括视听语境三种模式。设计了直接从多说话者混合语音中提取上下文语言信息的具体模型，并通过适当的注意机制将这些上下文语言知识与其他情态动词结合起来进行语音分离。利用所提出的视听语境架构，可以在语音分离方面取得显著的改善。

如图10所示为本发明一实施例提供的一种用于视频场景的上下文信息预测模型的训练系统的结构示意图，该系统可执行上述任意实施例所述的用于视频场景的上下文信息预测模型的训练方法，并配置在终端中。

本实施例提供的一种用于视频场景的上下文信息预测模型的训练系统包括：理想上下文特征确定程序模块11，预测上下文特征确定程序模块12和训练程序模块13。

其中，理想上下文特征确定程序模块11用于通过单说话人的端到端语音识别编码器提取第一说话人的第一干净音频以及第二说话人的第二干净音频中的第一理想上下文特征以及第二理想上下文特征；预测上下文特征确定程序模块12用于将由所述第一干净音频以及所述第二干净音频生成的混合音频的幅度谱、以及所述第一说话人的第一视觉表示信息以及所述第二说话人的第二视觉表示信息，作为上下文信息预测模型的输入，输出第一预测上下文特征以及第二预测上下文特征；训练程序模块13用于基于所述第一理想上下文特征以及所述第二理想上下文特征与所述第一预测上下文特征以及所述第二预测上下文特征的误差对所述上下文信息预测模型训练，直至所述第一预测上下文特征以及所述第二预测上下文特征趋近于所述第一理想上下文特征以及所述第二理想上下文特征。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于视频场景的上下文信息预测模型的训练方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

如图11所示为本发明一实施例提供的一种上下文信息预测系统的结构示意图，该系统可执行上述任意实施例所述的用于视频场景的上下文信息预测方法，并配置在终端中。

本实施例提供的一种用于视频场景的上下文信息预测模型的训练系统包括：提取采用程序模块21，高维音频模态表示确定程序模块22、高维视觉模态表示确定程序模块23、拼接模态表示确定程序模块24和上下文信息表示确定程序模块25。

其中，提取采用程序模块21用于将待分离混合语音的幅度谱输入至根据权利要求8所述的训练方法训练后的上下文信息预测模型，通过类视觉组卷积网络在时频维度上进行特征提取，以及在时间维度上进行下采样；高维音频模态表示确定程序模块22用于将特征提取以及采样后的幅度谱输入至深度残差网络，得到高维音频模态表示；高维视觉模态表示确定程序模块23用于将待分离混合语音中第一说话人的第一视觉表示信息以及第二说话人的第二视觉表示信息输入至所述上下文信息预测模型，通过所述深度残差网络确定第一高维视觉模态表示以及第二高维视觉模态表示；拼接模态表示确定程序模块24用于将所述高维音频模态表示、所述第一高维视觉模态表示以及所述第二高维视觉模态表示进行拼接，确定拼接模态表示；上下文信息表示确定程序模块25用于将所述拼接模态表示输入至两个不同的双向长短时记忆元循环神经网络得到所述第一说话人的第一上下文信息表示以及所述第二说话人的第二上下文信息表示。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的上下文信息预测方法；

如图12所示为本发明一实施例提供的一种语音分离系统的结构示意图，该系统可执行上述任意实施例所述的语音分离方法，并配置在终端中。

本实施例提供的一种语音分离系统包括：高维特征表示确定程序模块31，幅度谱遮掩确定程序模块32和语音分离程序模块33。

其中，高维特征表示确定程序模块31用于将所述权利要求9确定的所述第一高维视觉模态表示、所述第二高维视觉模态表示、所述待分离混合语音的幅度谱、所述第一上下文信息表示以及所述第二上下文信息表示输入至语音分离系统，确定所述待分离混合语音的高维特征表示；幅度谱遮掩确定程序模块32用于基于所述高维特征表示确定第一说话人的第一幅度谱遮掩以及第二幅度谱遮掩；语音分离程序模块33用于通过所述第一幅度谱遮掩以及第二幅度谱遮掩对所述待分离混合语音的幅度谱进行预测，确定所述第一说话人的分离语音以及第二说话人的分离语音。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于视频场景的语音分离方法；

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的用于视频场景的上下文信息预测模型的训练方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于视频场景的上下文信息预测模型的训练方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于视频场景的上下文信息预测模型的训练方法，包括：

2.根据权利要求1所述的方法，其中，所述端到端语音识别编码器的数量与所述说话人的数量相同，其中，各端到端语音识别编码器共享权值。

3.根据权利要求1所述的方法，其中，所述第一视觉表示信息以及所述第二视觉表示信息包括：说话人嘴形区域的视频图像所提取的特征。

4.根据权利要求1所述的方法，其中，所述上下文信息预测模型包括：二维的类视觉组卷积网络、共享权值的一维深度残差网络、双向长短时记忆元循环神经网络。

5.一种上下文信息预测方法，包括：

6.一种语音分离方法，包括：

7.根据权利要求6所述的方法，其中，所述语音分离系统包括注意力机制，以用于辅助预测语音分离。

8.一种用于视频场景的上下文信息预测模型的训练系统，包括：

9.一种上下文信息预测系统，包括：

10.一种语音分离系统，包括：

语音分离程序模块，用于通过所述第一幅度谱遮掩以及第二幅度谱遮掩对所述待分离混合语音的幅度谱进行预测，确定所述第一说话人的分离语音以及第二说话人的分离语音。