CN112863538B

CN112863538B - 一种基于视听网络的多模态语音分离方法及装置

Info

Publication number: CN112863538B
Application number: CN202110208096.0A
Authority: CN
Inventors: 何梦雨; 程颖; 冯瑞
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2022-06-14
Anticipated expiration: 2041-02-24
Also published as: CN112863538A

Abstract

本发明提供了一种基于视听网络的多模态语音分离方法及装置，用于从待分离音视频中分离出画面中说话人的语音，其特征在于，包括如下步骤：利用第一预处理方法对第一音视频训练数据处理得到第一预处理数据；构建多模态网络模型；将第一预处理数据输入多模态网络模型训练，得到音视频对齐判断模型；利用第二预处理方法对第二音视频训练数据处理得到第二预处理数据；搭建Wave‑U‑Net分割模型，并与音视频对齐判断模型构成视听模型；将第二预处理数据输入视听模型训练，得到视音频分割模型；将待分离音视频输入视音频分割模型得到画面中说话人的语音。其中，将第二预处理数据中的各个子集按照说话人个数由小到大的顺序逐步输入视听模型进行训练。

Description

一种基于视听网络的多模态语音分离方法及装置

技术领域

本发明属于图像分析领域，具体涉及一种基于视听网络的多模态语音分离方法及装置。

背景技术

随着人工智能的高速发展以及计算机硬件性能的高速提升，传统的计算机视觉和听觉也取得了巨大的发展，而两者的结合即跨媒体领域也成为了研究的热点。语音分离作为经典的人工智能问题，在跨媒体领域也不断发展。语音分离有着广泛的商业应用场景，比如：语音识别系统、线上会议、智能家居等，该技术的发展不仅推动计算机视觉和计算机听觉这一交叉领域的发展，还使得人工智能在城市生活中得到更好地应用。

具体地，人类在鸡尾酒会这种嘈杂环境中能将听力注意力集中到某单个声源上，同时降低其他噪声的影响。而在语音识别领域，当说话人数为两人或多人时，语音识别的准确率就会大幅降低。这就是鸡尾酒问题，又叫盲源分离，它是一个经典的音频学习任务。在鸡尾酒问题中，根据麦克风的数量，又可分为单通道系统和多通道系统。而处理鸡尾酒问题时，现在主要有纯音频的方法和音频视频结合的方法。

纯音频的方法包括深度聚类的方法，即通过使用经过训练的音频嵌入来聚类和分离不同的声源。纯音频的方法还包括使用深度学习网络来分离声源。

音频视频结合的跨模态方法是使用神经网络对听觉和视觉信号进行多模态融合来解决声源分离问题。这种跨模态的方法也常被用于语音增强。该方法通过让模型同时学习音频和视频的表征，并通过视频的辅助，更好地学习到音频中不同说话人的声音信息。

与纯音频的音源分离方法相比，音频视频结合的方法往往具有更高的分离质量。同时，跨模态的方法被证明在混合有背景噪声且有多个说话人的场景中表现优于纯音频方法。但现有的跨模态方法也有一定局限性，比如要先将视频通过人脸检测模型的预处理，并且在处理多个说话人、不同性别的说话人的应用场景下，无法取得较好的效果，另外，由于跨模态方法的局限性，因此也无法应用在网络视频和电视视频上。

发明内容

为解决上述问题，提供一种通过自监督方式预训练多模态网络模型并且可以应用在多个说话人以及网络视频、电视视频中的语音分离方法及装置，本发明采用了如下技术方案：

本发明提供了一种基于视听网络的多模态语音分离方法，用于从待分离音视频中分离出画面中说话人的语音，其特征在于，包括如下步骤：步骤S1-1，利用预定的第一预处理方法对包含噪声的第一音视频训练数据进行处理得到第一预处理数据；步骤S1-2，构建多模态网络模型；步骤S1-3，将第一预处理数据输入多模态网络模型进行训练，直到多模态网络模型收敛从而得到训练好的多模态网络模型作为音视频对齐判断模型；步骤S1-4，利用预定的第二预处理方法对第二音视频训练数据进行处理得到第二预处理数据；步骤S1-5，搭建Wave-U-Net分割模型，并与音视频对齐判断模型构成视听模型；步骤S1-6，将第二预处理数据输入视听模型进行训练，直到视听模型收敛从而得到训练好的视听模型作为视音频分割模型；步骤S1-7，将待分离音视频输入视音频分割模型得到画面中说话人的语音，其中，步骤S1-4中第二预处理方法包括对第二音视频训练数据中的视频进行说话人个数标注并按照说话人个数进行分类从而得到多个子集作为第二预处理数据，步骤S1-6中将第二预处理数据中的各个子集按照说话人个数由小到大的顺序逐步输入视听模型进行训练。

根据本发明提供的一种基于视听网络的多模态语音分离方法，还可以具有这样的技术特征，其中，步骤S1-1中第一预处理方法包括如下步骤：步骤S2-1，对第一音视频训练数据中的视频进行采样切片得到多个采样视频；步骤S2-2，对第一音视频训练数据中的音频进行音轨随机移动得到多个采样音频；步骤S2-3，将所有采样视频以及所有采样音频作为第一预处理数据。

根据本发明提供的一种基于视听网络的多模态语音分离方法，还可以具有这样的技术特征，其中，步骤S1-5中音视频对齐判断模型包括视觉子网以及音频子网，当第二预处理数据输入音视频对齐判断模型时，视觉子网中的3D卷积层对第二预处理数据中的视频进行特征提取得到视频特征，音频子网中的1D卷积层对第二预处理数据中的音频进行特征提取得到音频特征，当视频特征的时间采样率与音频特征的时间采样率相同时，将视频特征的激活通道与音频特征的激活通道连接起来从而得到融合后视音频特征，然后利用3D卷积层对该融合后视音频特征进行进一步地特征提取，并通过全局平均池化层得到多模态特征。

根据本发明提供的一种基于视听网络的多模态语音分离方法，还可以具有这样的技术特征，其中，Wave-U-Net分割模型对输入视听模型的第二预处理数据中的音频进行下采样，与音视频对齐判断模型中的音频特征连接融合得到底层特征，再通过上采样得到上采样特征，将底层特征与上采样特征进行拼接融合从而分离得到目标说话人的音频以及背景噪声的音频。

根据本发明提供的一种基于视听网络的多模态语音分离方法，还可以具有这样的技术特征，其中，Wave-U-Net分割模型是基于U-Net网络改进得到的一维时间域音频分割模型。

根据本发明提供的一种基于视听网络的多模态语音分离方法，还可以具有这样的技术特征，其中，第二预处理方法还包括对第二音视频训练数据中的视频进行采样切片得到多个切片视频，对第二音视频训练数据中的视频进行分段得到多个分段音频，并将每个分段音频的波形的振幅的平方平均值归一化成常数值，将切片视频对应的音频作为画面中的说话人音频，从所有分段音频中随机选取预定数量的分段音频作为画面外的说话人音频，与切片视频以及该切片视频对应的音频混合从而得到混合音视频，将所有切片视频进行混合后得到的所有混合音视频作为第二预处理数据。

本发明提供了一种基于视听网络的多模态语音分离装置，用于从待分离音视频中分离出画面中说话人的语音，其特征在于，包括：第一预处理模块，利用预定的第一预处理方法对包含噪声的第一音视频训练数据进行处理得到第一预处理数据；多模态模型构建模块，构建多模态网络模型；多模态模型训练模块，将第一预处理数据输入多模态网络模型进行训练，直到多模态网络模型收敛从而得到训练好的多模态网络模型作为音视频对齐判断模型；第二预处理模块，利用预定的第二预处理方法对第二音视频训练数据进行处理得到第二预处理数据；视听模型构建模块，搭建Wave-U-Net分割模型，并与音视频对齐判断模型构成视听模型；视听模型训练模块，将第二预处理数据输入视听模型进行训练，直到视听模型收敛从而得到训练好的视听模型作为视音频分割模型；以及音频分离模块，将待分离音视频输入视音频分割模型得到画面中说话人的语音，其中，第二预处理方法包括对第二音视频训练数据中的视频进行说话人个数标注并按照说话人个数进行分类从而得到多个子集作为第二预处理数据，视听模型训练模块中将第二预处理数据中的各个子集按照说话人个数由小到大的顺序逐步输入视听模型进行训练。

发明作用与效果

根据本发明的一种基于视听网络的多模态语音分离方法及装置，由于预先训练好的多模态网络模型是通过代理任务以及大量的第一预处理数据训练得到，从而使得多模态网络模型自动学到有效的高层特征，使得下游任务(即Wave-U-Net分割模型)中微调模型参数就能取得很好的效果，因此，使得视音频分割模型能够较好地分离出画面中说话人的语音。又由于视听模型由音视频对齐判断模型以及Wave-U-Net分割模型构成，因此，该视听模型能够更好地学习到与视觉信号相关的说话人的音频特征，从而更好地表达特征，达到提高含有其他说话人噪声的语音分离任务的准确性。另外，由于视听模型的训练时，第二预处理数据中的各个子集是按照说话人个数由小到大的顺序逐步输入视听模型进行训练，因此该视听模型的训练过程中使用了课程学习的思想，即先学习包含说话人个数少的数据，再学习包含说话人个数多的数据，从而提高了复杂场景下的分离性能。

通过本发明的基于视听网络的多模态语音分离方法及装置，可以从包含有多个说话人语音且有噪声的待分离音视频中分离出画面中说话人的语音，并且具有较高的准确率，从而使得本发明的语音分离方法及装置能够应用在真实场景(例如网络视频、电视视频等)中。

附图说明

图1为本发明实施例的一种基于视听网络的多模态语音分离方法的流程图；

图2为本发明实施例的多模态网络模型的结构示意图；

图3为本发明实施例的视听模型的结构示意图；

图4为本发明实施例的Wave-U-Net分割模型的结构示意图；

图5为本发明实施例的基于视听网络的多模态语音分离方法与单一学习方法的实验结果对比图；

图6为本发明实施例的针对测试集2S实验的结果对比图；

图7为本发明实施例的针对测试集3S实验的结果对比图；以及

图8为本发明实施例的针对测试集4S实验的结果对比图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明的一种基于视听网络的多模态语音分离方法及装置作具体阐述。

<实施例>

本实施例中一种基于视听网络的多模态语音分离方法及装置的具体实现平台：操作系统为ubuntu16.04，编程语言为Python2.7，神经网络框架为Tensorflow-gpu 1.8.0版本，CUDA版本为9.0，计算加速单元为NVIDIA 1080Ti GPU。

图1为本发明实施例的一种基于视听网络的多模态语音分离方法的流程图。

如图1所示，一种基于视听网络的多模态语音分离方法包括如下步骤：

步骤S1-1，利用预定的第一预处理方法对包含噪声的第一音视频训练数据进行处理得到第一预处理数据。

本实施例中，第一音视频训练数据为AudioSet数据集，该AudioSet数据集包含了632个音频分类样本，并从YouTube视频中提取了2084320个人标记的10秒声音片段，该AudioSet数据集涵盖了人类声音、动物声音、乐器、各种流派以及常见的日常环境声音。

其中，噪声包括环境突发噪声、背景人声、笑声、回声、室内噪音、录音设备等噪音。

其中，步骤S1-1中第一预处理方法包括如下步骤：

步骤S2-1，对第一音视频训练数据中的视频进行采样切片得到多个采样视频。

本实施例中，对第一音视频训练数据中的每个视频进行采样4.2秒的切片从而得到多个采样视频。并且从每个视频中得到125帧视频帧。在多模态网络模型训练前，从每一帧256*256大小的视频帧中随机截取224*224大小的图像用于视觉子网的训练。

步骤S2-2，对第一音视频训练数据中的音频进行音轨随机移动得到多个采样音频。

本实施例中，对第一音视频训练数据中的音频进行2.0秒到5.8秒的音轨随机移动从而得到多个采样音频。

步骤S2-3，将所有采样视频以及所有采样音频作为第一预处理数据。

步骤S1-2，构建多模态网络模型。

本实施例中，多模态网络模型通过深度学习框架Tensorflow搭建完成。

图2为本发明实施例的多模态网络模型的结构示意图。

如图2所示，多模态网络模型中包括视觉子网以及音频子网(即音视频对齐判断模型中的视觉子网与音频子网)。

其中，视觉子网的具体结构为输入的第一预处理数据中的视频大小为[63,224,224,3]，第一个卷积层中卷积核个数为64，卷积核大小为[5,7,7]，步长为[2,2,2]，输出大小为[32,112,112,64]，经过一个池化层后，输出大小为[32,56,56,64]，经过第二个卷积层，第二个卷积层中卷积核个数为64，卷积核大小为[3,3,3]，步长为[2,2,2]，最后输出为[16,28,28,64]。

音频子网的具体结构为输入的第一预处理数据中的音频大小为[44144,1,2]，经过第一个卷积层，该第一个卷积层中卷积核个数为64，卷积核的尺寸为[65,1,1]，步长为4，输出大小为[11036,1,64]，经过池化后大小为[2759,1,64]，经过第二个卷积层，该第二个卷积层中卷积核个数为128，卷积核尺寸为[15,1,1]，步长为4，输出为[690,1,128]，再经过第三个卷积层，该第三个卷积层中卷积核个数为128，卷积核尺寸为[15,1,1]，步长为4，输出为[173,1,128]，再经过第四个卷积层，该第四个卷积层中卷积核个数为256，卷积核尺寸为[15,1,1]，步长为4，最后输出为[44,1,256]。

融合上述视觉子网以及音频子网时，需要通过以下网络层进行：

首先，视觉子网与音频子网的最后输出通过两个[1,1,1]的卷积层进行拼接得到输入为[16,28,28,64]，经过一个卷积层，该卷积层中卷积核个数为128，卷积核大小为[3,3,3]，步长为2，输出为[16,28,28,128]，再经过一个卷积核个数为256、卷积核大小为[3,3,3]、步长为[1,2,2]的卷积层，输出为[8,14,14,256]，再经过一个卷积核个数为512、卷积核大小为[3,3,3]、步长为[1,2,2]的卷积层，输出为[8,7,7,512]，最后经过全局平均(即fc&sigmoid)后，输出为[1,1,1,512]。

步骤S1-3，将第一预处理数据输入多模态网络模型进行训练，直到多模态网络模型收敛从而得到训练好的多模态网络模型作为音视频对齐判断模型。

本实施例中，第一预处理数据中的视频与音频分批次输入多模态网络模型中，批次大小设为5，一共迭代训练100000次。

多模态网络模型训练过程中，在每次迭代后，通过多模态网络模型最后一层的模型参数计算得到损失误差，然后将计算得到的损失误差反向传播，从而更新模型参数。

另外，多模态网络模型的训练直到各个网络层的模型参数收敛后停止从而得到训练好的多模态网络模型作为音视频对齐判断模型。该音视频对齐判断模型可以判断输入的音视频中音频与视频是否对齐。

步骤S1-4，利用预定的第二预处理方法对第二音视频训练数据进行处理得到第二预处理数据。

本实施例中，第二音视频训练数据为VoxCeleb数据集，该VoxCeleb数据集属于完全的集外数据集，全部采自YouTube，并且与文本无关。VoxCeleb数据集的采样率为16kHz、16bit、单声道、PCM-WAV音频格式。并且，数据集中的男女性别较均衡，分别为男性690人，女性561人。

其中，第二预处理方法包括先对第二音视频训练数据中的视频进行说话人个数标注并按照说话人个数进行分类从而得到多个用于步骤S1-6中通过课程学习的方式训练视听模型的子集作为第二预处理数据。

本实施例中，还对每个子集中的视频采样2.1秒的切片得到多个切片视频。另外，第二音视频训练数据中音频的输入数据的长度和使用的采样率成正比。具体地，输入数据的长度等于采样率乘以时长。

基于上述输入数据的长度，对第二音视频训练数据中音频进行分段得到分段音频。

然后，将每个分段音频波形的振幅的平方平均值归一化到一个常数值。

最后，将一个切片视频对应的音频作为画面中的说话人音频，从所有分段音频中随机选取预定数量的分段音频作为画面外的说话人音频，与切片视频以及该切片视频对应的音频混合从而得到混合音视频。

将所有切片视频进行混合后得到的所有混合音视频作为第二预处理数据。

本实施例中，随机混合生成了70％的两个说话人音视频数据，15％的三个说话人音视频数据和15％的四个说话人音视频数据。

本实施例中，由于第一音视频训练数据AudioSet数据集以及第二音视频训练数据VoxCeleb数据集中的音频数据的保存格式不同，为了保证多模态模型网络与视听模型读入的数据形式统一，所以利用音频格式转换工具ffmpeg将所有音频的格式转换为wav格式。

步骤S1-5，搭建Wave-U-Net分割模型，并与音视频对齐判断模型构成视听模型。

本实施例中，Wave-U-Net分割模型通过深度学习框架Tensorflow搭建而成。

其中，Wave-U-Net分割模型是基于U-Net网络改进得到的一维时间域音频分割模型。

图3为本发明实施例的视听模型的结构示意图。

如图3所示，Wave-U-Net分割模型对输入视听模型的第二预处理数据中的音频进行下采样，与音视频对齐判断模型中的音频特征连接融合得到底层特征，再通过上采样得到上采样特征，将底层特征与上采样特征进行拼接融合从而分离得到目标说话人的音频以及背景噪声的音频。

图4为本发明实施例的Wave-U-Net分割模型的结构示意图。

如图4所示，Wave-U-Net分割模型包括10个按照顺序排列的下采样块(即下采样块1至下采样块10)、10个按照顺序排列的上采样块(即上采样块1至上采样块10)、一个连接最后一个下采样块以及上采样块的1D卷积层以及一个1D卷积层。

其中，每个下采样块中包括一个1D卷积层以及一个下采样层，每个上采样块中包括一个1D卷积层以及一个上采样层。每个下采样块输出的底层特征与对应的上采样块输出的上采样特征相融合，最后经过一个1D卷积层从而得到说话人音频以及背景噪声的音频。

第二预处理数据中音频输入大小为[16384,1]，第1个下采样块中的1D卷积层中的卷积核个数为24，卷积核大小为15，步长为1，然后通过下采样层进行下采样。之后每个下采样块中的卷积核个数为24+24*下采样块序号。总共经过10次下采样操作后，得到的输出大小为[4,312]。最后，经过一个1D卷积层，该1D卷积层中卷积核个数为312，卷积核大小为15，步长为1，输出为[4,312]。

然后将1D卷积层的输出与对应的上采样块融合，再经过1D卷积层，最后得到的输出大小为[16384,2]，即画面中的说话人语音以及画面外的说话人语音。

其中，音视频对齐判断模型包括视觉子网以及音频子网。

当第二预处理数据输入音视频对齐判断模型时，视觉子网中的3D卷积层对第二预处理数据中的视频进行特征提取得到视频特征，音频子网中的1D卷积层对第二预处理数据中的音频进行特征提取得到音频特征。

当视频特征的时间采样率与音频特征的时间采样率相同时，将视频特征的激活通道与音频特征的激活通道连接起来从而得到融合后视音频特征，然后利用3D卷积层对该融合后视音频特征进行进一步地特征提取，并通过全局平均池化层得到多模态特征。

另外，本实施例中的Wave-U-Net分割模型不需要计算音频的短时傅里叶变换，而是直接处理音频特征。

步骤S1-6，将第二预处理数据输入视听模型进行训练，直到视听模型收敛从而得到训练好的视听模型作为视音频分割模型。

步骤S1-6中将第二预处理数据中的各个子集按照说话人个数由小到大的顺序逐步输入视听模型进行训练，从而达到先利用简单数据训练，进而通过复杂数据微调的目的。

本实施例中，按照说话人个数将各个子集命名为二人说话子集、三人说话子集以及四人说话子集。

先利用二人说话子集进行90000次迭代训练，然后利用三人说话子集进行35000次的迭代微调，最后用四人说话子集进行35000次的迭代微调。

本实施例中，视听模型训练过程中采用Adam算法进行优化，初始学习率为0.0001。使用BSS Eval工具箱计算信源失真比SDR、信源干扰比SIR以及信源人工比SAR。批次大小设为5，一共迭代训练160000次。

另外，本实施例中，第二预处理数据输入视听模型前，先将第二预处理数据中的音频进行归一化处理。

步骤S1-7，将待分离音视频输入视音频分割模型得到画面中说话人的语音以及背景噪声的音频。

本实施例中，待分离音视频输入视音频分割模型后得到对应的特征向量，将该特征向量转为波形输出即为画面中说话人的语音以及背景噪声的音频。

本实施例的基于视听网络的多模态语音分离装置包括第一预处理模块、多模态模型构建模块、多模态模型训练模块、第二预处理模块、视听模型构建模块、视听模型训练模块以及音频分离模块。本实施例中，基于视听网络的多模态语音分离装置基于本发明的基于视听网络的多模态语音分离方法，用于从待分离音视频中分离出画面中说话人的语音，并可应用于嵌入式设备。

第一预处理模块利用预定的第一预处理方法对包含噪声的第一音视频训练数据进行处理得到第一预处理数据。

多模态模型构建模块构建多模态网络模型。

多模态模型训练模块将第一预处理数据输入多模态网络模型进行训练，直到多模态网络模型收敛从而得到训练好的多模态网络模型作为音视频对齐判断模型。

第二预处理模块利用预定的第二预处理方法对第二音视频训练数据进行处理得到第二预处理数据。

视听模型构建模块搭建Wave-U-Net分割模型，并与音视频对齐判断模型构成视听模型。

视听模型训练模块将第二预处理数据输入视听模型进行训练，直到视听模型收敛从而得到训练好的视听模型作为视音频分割模型。

音频分离模块，将待分离音视频输入视音频分割模型得到画面中说话人的语音。

其中，第二预处理方法包括对第二音视频训练数据中的视频进行说话人个数标注并按照说话人个数进行分类从而得到多个子集作为第二预处理数据。

视听模型训练模块中将第二预处理数据中的各个子集按照说话人个数由小到大的顺序逐步输入视听模型进行训练。

为了验证本发明的基于视听网络的多模态语音分离方法及装置的有效性，本发明基于第二音视频训练数据中的测试集(即VoxCeleb数据集的测试集)进行验证。

从测试集中随机选取n个视频混合音频生成新视频(其中n分别取2，3，4)，然后经过第二预处理方法处理得到3个不同的测试子集，分别为二人说话测试子集(即包含一个画面中说话人和一个画面外说话人，简称测试集2S)、三人说话测试子集(即包含一个画面中说话人和两个画面外说话人，简称测试集3S)以及四人说话测试子集(即包含一个画面中说话人和三个画面外说话人，简称测试集4S)。每个生成的测试集和之前生成的训练集的比例都为3:7。

图5为本发明实施例的基于视听网络的多模态语音分离方法与单一学习方法的实验结果对比图。

本发明的基于视听网络的多模态语音分离方法及装置与单一学习方法在3个测试子集上的测得评价指标SDR如图5所示。其中，数据类型为视听模型训练时应用的训练数据集的类型，例如，数据类型为2S时为训练集全部使用二人说话数据集时得到对应的2S视听模型。同理，数据类型为40％的2S、30％的3S、30％的4S时，训练集由40％的二人说话数据、30％的三人说话数据以及30％的四人说话数据组成。

由图5可知，在本发明使用训练集为由70％的二人说话数据、15％的三人说话数据以及15％的四人说话数据组成时，在测试集2S、测试集3S以及测试集4S上的SDR均为最高，即本发明的语音分离方法由于单一学习方法。

图6为本发明实施例的针对测试集2S实验的结果对比图；

图7为本发明实施例的针对测试集3S实验的结果对比图；以及

图8为本发明实施例的针对测试集4S实验的结果对比图。

另外，本发明的视听模型与现有的Hou的视听模型、Gabbay的视听模型以及Yu的音频网络模型分别在测试集2S、测试集3S以及测试集4S上进行测试，并通过SDR、SIR以及SAR三个评价指标进行评价，具体如图6、图7以及图8所示。

其中，上述Hou的视听模型、Gabbay的视听模型以及Yu的音频网络模型均使用的是单一学习方法。从图6中看出，本发明的视听模型在分离2个说话人时整体上要优于单模态音频网络和其他视听网络模型的效果，除了SAR指标略低于Yu的音频网络模型。从图7以及图8可以看出本发明的视听模型在分离说话人个数大于2时表现在优于单模态Yu的音频网络模型的同时也优于另外两个视听模型，从而证明本发明的视听模型能够在多个说话人的音频分离任务上取得较好的效果。

实施例作用与效果

根据本实施例提供的基于视听网络的多模态语音分离方法，由于预先训练好的多模态网络模型是通过代理任务以及大量的第一预处理数据训练得到，从而使得多模态网络模型自动学到有效的高层特征，使得下游任务(即Wave-U-Net分割模型)中微调模型参数就能取得很好的效果，因此，使得视音频分割模型能够较好地分离出画面中说话人的语音。又由于视听模型由音视频对齐判断模型以及Wave-U-Net分割模型构成，因此，该视听模型能够更好地学习到与视觉信号相关的说话人的音频特征，从而更好地表达特征，达到提高含有其他说话人噪声的语音分离任务的准确性。另外，由于视听模型的训练时，第二预处理数据中的各个子集是按照说话人个数由小到大的顺序逐步输入视听模型进行训练，因此该视听模型的训练过程中使用了课程学习的思想，即先学习包含说话人个数少的数据，再学习包含说话人个数多的数据，从而提高了复杂场景下的分离性能。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

Claims

1.一种基于视听网络的多模态语音分离方法，用于从待分离音视频中分离出画面中说话人的语音，其特征在于，包括如下步骤：

步骤S1-1，利用预定的第一预处理方法对包含噪声的第一音视频训练数据进行处理得到第一预处理数据；

步骤S1-2，构建多模态网络模型；

步骤S1-3，将所述第一预处理数据输入所述多模态网络模型进行训练，直到所述多模态网络模型收敛从而得到训练好的多模态网络模型作为音视频对齐判断模型；

步骤S1-4，利用预定的第二预处理方法对第二音视频训练数据进行处理得到第二预处理数据；

步骤S1-5，搭建Wave-U-Net分割模型，并与所述音视频对齐判断模型构成视听模型；

步骤S1-6，将所述第二预处理数据输入所述视听模型进行训练，直到所述视听模型收敛从而得到训练好的视听模型作为视音频分割模型；

步骤S1-7，将所述待分离音视频输入所述视音频分割模型得到所述画面中说话人的语音，

其中，所述步骤S1-4中所述第二预处理方法包括对所述第二音视频训练数据中的视频进行说话人个数标注并按照所述说话人个数进行分类从而得到多个子集作为所述第二预处理数据，

所述步骤S1-6中将所述第二预处理数据中的各个所述子集按照所述说话人个数由小到大的顺序逐步输入所述视听模型进行训练，

所述步骤S1-5中，所述音视频对齐判断模型包括视觉子网以及音频子网，

当所述第二预处理数据输入所述音视频对齐判断模型时，所述视觉子网中的3D卷积层对所述第二预处理数据中的视频进行特征提取得到视频特征，所述音频子网中的1D卷积层对所述第二预处理数据中的音频进行特征提取得到音频特征，

当所述视频特征的时间采样率与所述音频特征的时间采样率相同时，将所述视频特征的激活通道与所述音频特征的激活通道连接起来从而得到融合后视音频特征，然后利用3D卷积层对该融合后视音频特征进行进一步地特征提取，并通过全局平均池化层得到多模态特征，

所述Wave-U-Net分割模型对输入所述视听模型的第二预处理数据中的音频进行下采样，与所述音视频对齐判断模型中的所述音频特征连接融合得到底层特征，再通过上采样得到上采样特征，将所述底层特征与所述上采样特征进行拼接融合从而分离得到目标说话人的音频以及背景噪声的音频。

2.根据权利要求1所述的基于视听网络的多模态语音分离方法，其特征在于：

其中，所述步骤S1-1中所述第一预处理方法包括如下步骤：

步骤S2-1，对所述第一音视频训练数据中的视频进行采样切片得到多个采样视频；

步骤S2-2，对所述第一音视频训练数据中的音频进行音轨随机移动得到多个采样音频；

步骤S2-3，将所有所述采样视频以及所有所述采样音频作为所述第一预处理数据。

3.根据权利要求1所述的基于视听网络的多模态语音分离方法，其特征在于：

其中，所述Wave-U-Net分割模型是基于U-Net网络改进得到的一维时间域音频分割模型。

4.根据权利要求1所述的基于视听网络的多模态语音分离方法，其特征在于：

其中，所述第二预处理方法还包括对所述第二音视频训练数据中的视频进行采样切片得到多个切片视频，对所述第二音视频训练数据中的视频进行分段得到多个分段音频，并将每个所述分段音频的波形的振幅的平方平均值归一化成常数值，

将所述切片视频对应的音频作为画面中的说话人音频，从所有所述分段音频中随机选取预定数量的分段音频作为画面外的说话人音频，与所述切片视频以及该切片视频对应的所述音频混合从而得到混合音视频，

将所有所述切片视频进行混合后得到的所有混合音视频作为所述第二预处理数据。

5.一种基于视听网络的多模态语音分离装置，用于从待分离音视频中分离出画面中说话人的语音，其特征在于，包括：

第一预处理模块，利用预定的第一预处理方法对包含噪声的第一音视频训练数据进行处理得到第一预处理数据；

多模态模型构建模块，构建多模态网络模型；

多模态模型训练模块，将所述第一预处理数据输入所述多模态网络模型进行训练，直到所述多模态网络模型收敛从而得到训练好的多模态网络模型作为音视频对齐判断模型；

第二预处理模块，利用预定的第二预处理方法对第二音视频训练数据进行处理得到第二预处理数据；

视听模型构建模块，搭建Wave-U-Net分割模型，并与所述音视频对齐判断模型构成视听模型；

视听模型训练模块，将所述第二预处理数据输入所述视听模型进行训练，直到所述视听模型收敛从而得到训练好的视听模型作为视音频分割模型；以及

音频分离模块，将所述待分离音视频输入所述视音频分割模型得到所述画面中说话人的语音，

其中，所述第二预处理方法包括对所述第二音视频训练数据中的视频进行说话人个数标注并按照所述说话人个数进行分类从而得到多个子集作为所述第二预处理数据，

所述视听模型训练模块中将所述第二预处理数据中的各个所述子集按照所述说话人个数由小到大的顺序逐步输入所述视听模型进行训练，

所述音视频对齐判断模型包括视觉子网以及音频子网，