CN110970056B

CN110970056B - 一种从视频中分离音源的方法

Info

Publication number: CN110970056B
Application number: CN201911124411.0A
Authority: CN
Inventors: 刘华平; 刘馨竹; 刘晓宇; 郭迪; 孙富春
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2022-03-11
Anticipated expiration: 2039-11-18
Also published as: CN110970056A

Abstract

本发明提出一种从视频中分离音源的方法。该方法由训练阶段和测试阶段两个阶段构成。该方法在训练阶段构建一个由视觉目标检测网络、声音特征提取网络和声音分离网络组成的音源分离模型，从训练数据中选取两个不同类别的视频将其音频混合，训练音源分离模型使之能够从混合音频中精确的分离出两个视频对应的原音频。在测试阶段，获取测试视频后将其输入训练完毕的音源分离模型，模型检测视频中的所有视觉目标，并从原始音频中分离出各个视觉目标对应的声音。本发明可以从目标物体级别上对音源进行分离，能够检测出视频中出现的所有目标物体并将其与分离出的对应声音进行自动匹配，建立了各视觉目标物体和分离后的声音之间的联系，应用前景广阔。

Description

一种从视频中分离音源的方法

技术领域

本发明涉及一种从视频中分离音源的方法，属于跨模态学习领域。

背景技术

近年来，智能可穿戴设备、智能家居以及智能服务机器人等技术迅速发展，其需要对现实场景中的视频、音频等数据进行实时处理并将处理结果进一步用于后续行为中。其中，从包含有多个音源的混合音频中分离出各个音源的声音是一项非常重要的任务。例如，当人向智能服务机器人下达语音指令时，环境中可能同时包含电话铃声、闹钟、电视等家用电器的声音，而智能机器人此时需要从获取的混合音频中分离出人的声音，来正确识别人向其下达的指令。音源分离任务是极具挑战性的任务。

目前，已有研究者提出稀疏编码、独立成分分析、非负矩阵分解、深度神经网络等方法从单一的听觉模态来解决音源分离任务，但是这些方法在现实场景中的音源分离任务上效果并不理想。

实际上，视频数据同时包含着图像画面和声音信号，并且二者在时间上是自然对齐的，可以充分挖掘二者的内在联系，利用视频中包含的视觉信息来指导音源分离任务。已有研究者提出跨模态的声音分离方法，建立视觉图像特征和听觉信号特征之间的关联，从而将混合音频进行分离。目前在声音分离任务上的已有工作大多都是在像素级别或者图像分割区域级别上进行声音分离，即把混合音频分离成图像各像素对应的声音，或者分离成图像分割后各个区域对应的声音。这些方法的声音分离结果并不适用于现实场景下的智能机器人等应用，在像素级别上进行声音分离时，尽管可以得到每个像素产生的声音，但是无法建立相邻像素之间的联系，单个孤立的像素在现实场景下不具备实际意义，例如机器人只能知道当前画面中某个像素发出的声音信号却不知道这个像素是闹钟这个物体的组成部分。类似的，在图像分割区域级别上进行声音分离时，机器人只能知道某一区域产生的声音信号而无法知道该区域在当前画面中实际包含了哪些物体，这使机器人无法理解分离出的声音所代表的实际含义。

发明内容

本发明的目的是为克服已有技术的不足之处，提出一种从视频中分离音源的方法。本发明可从视频中检测到所有目标物体，并将原声音分离为各个目标物体产生的声音，即在目标物体级别上进行音源分离，有很高的应用价值。

为了实现上述目的，本发明采用如下技术方案：

本发明提出的一种从视频中分离音源的方法，其特征在于，包括以下步骤：

(1)训练阶段

(1-1)获取训练数据

获取来自C类不同事件类别的T段视频作为训练数据，每段视频作为一个训练样本，每段视频的时长均相等，且每段视频中必须包含声音信号；

(1-2)生成训练样本对

对每一个训练样本，从其他C-1类视频中随机选取一段视频与其进行配对，生成T个训练样本对；

(1-3)提取训练样本对的关键帧

对于每一个训练样本对，分别提取两段视频中位于视频中点处的单帧图像作为该视频的关键帧；

(1-4)混合训练样本对的声音信号并提取音频频谱图

对于各训练样本对，分别提取两段视频对应的声音信号并进行混合，对混合后的音频信号经重采样和短时傅里叶变换后，得到各训练样本对的音频频谱图；

(1-5)构建音源分离模型，该模型由视觉目标检测网络、声音特征提取网络和声音分离网络组成，整个模型以视频关键帧和音频频谱图为输入，以音源分离结果为输出，具体包括以下步骤：

(1-5-1)构建一个视觉目标检测网络，所述视觉目标检测网络以步骤(1-3)得到的各视频关键帧为输入，以视频关键帧中检测到的视觉目标对应的检测框和由每个视觉目标对应的视觉特征组成的视觉特征集合为输出，输出的各视觉特征的维度均为S；

(1-5-2)构建一个声音特征提取网络，所述声音特征提取网络以步骤(1-4)得到的各音频频谱图为输入，以提取的相应声音特征集合作为输出；所述声音特征集合内的各声音特征分别反映输入的音频频谱图对应的声音信号的不同属性，设各声音特征集合均分别包括K个声音特征；

(1-5-3)构建一个声音分离网络，所述声音分离网络包括一个由两个全连接层组成的视觉特征映射网络和一个由线性层组成的分离网络；所述声音分离网络以所述视觉目标检测网络提取得到的视觉特征集合和所述声音特征提取网络提取得到的声音特征集合为输入，以音源分离结果为输出；

(1-6)对构建的音源分离模型进行迭代训练，具体步骤如下：

(1-6-1)将步骤(1-2)生成的各训练样本对中的第一视频关键帧输入步骤(1-5-1)构建的视觉目标检测网络，得到各第一视频关键帧中检测到的所有视觉目标的检测框，同时提取得到视觉特征集合，记第j个第一视频关键帧的视觉特征集合为

其中

为第j个第一视频关键帧中检测到的第u个视觉目标的视觉特征，

为该视频关键帧中检测到的视觉目标数量；

(1-6-2)为各视频关键帧设置视觉目标数量阈值为L，并设置对应的二进制向量用于记录输入的各视频关键帧中实际检测到的视觉目标数量；通过以下判定将步骤(1-6-1)得到的视觉特征集合

转化为修正视觉特征集合

若检测到的第j个第一视频关键帧中的视觉目标数量

小于L，则令修正视觉特征集合

中前

个视觉特征与视觉特征集合

中前

个对应的视觉特征相同，修正视觉特征集合

中第

到第L个视觉特征均为0向量，令二进制向量

的前

个元素均为1，其余各位均为0；若检测到的第j个第一视频关键帧中视觉目标数量大于或等于L，则保留目标检测过程中置信度最大的L个视觉目标和其对应的视觉特征，删除其余视觉目标对应的视觉特征，由保留的L个视觉特征构成第j个第一视频关键帧的修正视觉特征集合

其对应的二进制向量

中各元素均为1；

(1-6-3)将步骤(1-4)最后得到的各训练样本对混合声音信号的音频频谱图输入步骤(1-5-2)构建的声音特征提取网络，提取得到声音特征集合，记第j个训练样本对提取得到的的声音特征集合为

(1-6-4)对步骤(1-6-2)得到的各第一视频关键帧修正视觉特征集合中的所有视觉特征进行平均操作，得到对应的视觉平均特征，记第j个第一视频关键帧的视觉平均特征为

计算公式如下：

其中，

代表输入的第j个第一视频关键帧中实际检测到的视觉目标数量，

(1-6-5)通过步骤(1-5-3)构建的视觉特征映射网络，将步骤(1-6-4)得到的各第一视频关键帧的视觉平均特征从S维映射至K维，得到对应的视觉映射特征，记第j个第一视频关键帧的视觉映射特征为

(1-6-6)将步骤(1-6-5)得到的各视觉映射特征和步骤(1-6-3)得到的对应声音特征同时输入步骤(1-5-3)构建的分离网络，预测输入的各第一视频关键帧对应音频的频谱掩码，所述频谱掩码是指视频对应音频的频谱图与混合音频的频谱图的按位比值结果；记第j个第一视频关键帧对应音频的频谱掩码为

分离网络按照如下公式预测该频谱掩码：

其中，λ_p和β分别为分离网络线性层的参数，

为第j个第一视频关键帧的视觉映射特征中的第p维数据，

为步骤(1-6-3)得到的第j个训练样本对的声音特征集合中的第p个声音特征；

(1-6-7)将各训练样本对中第二视频关键帧和步骤(1-4)最后得到的各训练样本对混合声音信号的音频频谱图输入音源分离模型，依次按照步骤(1-6-1)～步骤(1-6-6)的操作，得到输入的各第二视频对应音频的频谱掩码，记第j个第二视频关键帧对应音频的频谱掩码为

(1-6-8)设置损失函数来约束音源分离模型的训练过程，公式如下：

其中，

分别为第j个训练样本对中第一视频关键帧和第二视频关键帧对应音频的频谱掩码真实值，计算公式如下：

其中，

和

分别代表第j个训练样本对中两个视频的原始音频频谱图，

代表由步骤(1-4)得到的第j个训练样本对混合声音信号的音频频谱图，公式中的除法是在各对应元素之间的除法计算；损失函数中，Dis运算指对参与运算的两个矩阵内的相应元素逐位计算差值，并对所有差值的绝对值求和；

(1-6-9)将视觉目标检测网络的参数固定，使用批量梯度下降算法更新声音特征提取网络和声音分离网络的参数，将音源分离模型迭代训练若干次直至达到设定上限次数后停止，得到训练完毕的音源分离模型；

(2)测试阶段

(2-1)获取与训练数据中每段视频时长相等的待测试视频，并提取其对应的音频信号；

(2-2)提取待测试视频中点处的单帧图像作为该视频的关键帧；

(2-3)对步骤(2-1)提取的音频信号经重采样和短时傅里叶变换后，得到该音频信号对应的音频频谱图；

(2-4)将待测试视频的关键帧和其对应的音频频谱图输入训练完毕的音源分离模型中，依次按照步骤(1-6-1)和(1-6-2)的操作获取视觉目检测框、视觉特征集合F＝{f₁，f₂，…，f_L}和用于记录实际检测到的视觉目标数量的二进制向量W，其中记待检测视频关键帧中实际检测到的视觉目标数量为N，即二进制向量W中数值为1的元素数量为N；按照步骤(1-6-3)的操作获取待测试视频的声音特征集合A＝{a₁，a₂，…，a_K}；

(2-5)将步骤(2-4)得到的视觉特征集合和声音特征集合通过训练完毕的声音分离网络，得到该待测试视频中每一个视觉目标对应声音的频谱掩码；具体步骤如下：

(2-5-1)通过音源分离模型中的视觉特征映射网络将待测试视频的视觉特征集合F＝{f₁，f₂，…f_v，…，f_L}中的各视频特征从S维均映射至K维，得到待测试视频的视觉映射特征集合G＝{g₁，g₂，…g_v，…，g_L}，其中g_v由f_v映射得到，并且g_v∈R^K；

(2-5-2)将步骤(2-5-1)得到的每个视觉目标的视觉映射特征和步骤(2-4)得到的声音特征同时输入音源分离模型中的分离网络，为每一个视觉目标物体预测对应音频的频谱掩码M_v，即预测每个视觉目标发出声音的音频频谱图与视频原声音的音频频谱图的按位比值结果；分离网络按照如下公式预测各视觉目标发出声音的频谱掩码：

其中，g_v[p]代表待测试视频中第v个视觉目标对应的视觉映射特征中的第p维数据；

(2-6)经过步骤(2-5)得到每个视觉目标产生声音的频谱掩码结果{M₁，M₂，…，M_L}，对于其中N个有效的频谱掩码，按下式计算对应的N个视觉目标产生声音的音频频谱图：

其中，P代表待测试视频的原始音频频谱图，

代表哈达玛积运算，P_i代表第i个视觉目标产生声音信号的音频频谱图；然后使用逆快速傅里叶变换算法将N个视觉目标的频谱图转换为N个音频信号；

(2-7)对于检测到的N个视觉目标，绘制步骤(2-4)中得到的视觉目标检测框，并将其与步骤(2-6)中得到的音频信号进行匹配，音源分离结束。

本发明提出的一种从视频中分离音源的方法，具有以下优点：

1、本发明在音源分离的过程中引入了视觉目标信息，从而实现了在目标级别上进行音源分离，建立起视觉目标物体和其对应声音之间的联系，使得音源分离结果更精准，更具有实际意义。

2、本发明使用深度神经网络完成目标检测及视觉特征提取过程，将声音信号转化为频谱图并使用深度神经网络提取特征，可得到具有实际意义的特征信息，使分离结果更精准。

3、本发明使用自监督的学习方式进行训练，可以直接从大量原始视频数据中进行学习，在训练过程中不需要使用视频数据的任何标签信息，对训练数据的限制较少。

4、本发明可以应用于机器人领域，例如智能服务机器人根据视频画面分离出各目标物体的声音，从而更精准的识别人提出的指令或者更准确的判断当前场景状态。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

为了更好地理解本发明，以下详细阐述一个本发明一种从视频中分离音源的方法的应用实例。

本发明提出的一种从视频中分离音源的方法，包括以下步骤：

(1)训练阶段

(1-1)获取训练数据

获取来自C类不同事件类别的T段视频作为训练数据，每段视频作为一个训练样本，每段视频的时长均相等，且要求每段视频中必须包含声音信号，视频的内容没有特殊要求。本实施例使用的训练数据共10000段视频，包括8类不同事件类别，分别为男人演讲、女人演讲、婴儿哭泣、赛车行驶、卡车行驶、公交车行驶、摩托车行驶、火车行驶，即有C＝8,T＝10000，每段视频的时长均为10秒。

(1-2)生成训练样本对

对每一个训练样本，从其他C-1类视频中随机选取一段视频与其进行配对，生成T个训练样本对。分别记训练样本对中的两个视频为第一视频和第二视频。

(1-3)提取训练样本对的关键帧

对于每一个训练样本对，分别提取两段视频中位于视频中点处的单帧图像作为该视频的关键帧。

(1-4)混合训练样本对的声音信号并提取音频频谱图

对于每一个训练样本对，分别提取两段视频对应的声音信号，将两段视频的声音信号进行混合，使得混合后的音频同时包含两段视频的音频信号。将混合音频信号重采样到11kHz(还可根据具体应用场景选择其他频率)，使用短时傅里叶变换将重采样后的信号转换为256×256的音频频谱图(该音频频谱图的维度由短时傅里叶变换过程中的各个参数决定)。

(1-5-1)构建一个视觉目标检测网络，用于提取视频关键帧中各个视觉目标(如对于男人演讲事件下，可能含有男性演讲人、听众等)对应的视觉特征，并构成视觉特征集合。所述视觉目标检测网络以步骤(1-3)得到的各视频关键帧为输入，以视频关键帧中检测到的视觉目标对应的检测框和由每个视觉目标对应的视觉特征组成的视觉特征集合为输出，输出的各视觉特征的维度均为S。

本实施例中，使用Faster R-CNN网络作为视觉目标检测网络，该Faster R-CNN网络基于ResNet-101网络实现，并在Pascal Voc2007数据集(为一公开数据集)上完成预训练。视觉目标检测网络以各视频关键帧为输入，以各视频关键帧中检测到的所有视觉目标对应的检测框为输出，对于输入的第j个视频关键帧，记其关键帧中检测到的视觉目标数量为N^(j)。同时，将Faster R-CNN网络中最后一个全连接层(FC7层)提取得到的S(本实施例S＝2048)维的特征取出，作为每个被检测到的视觉目标的视觉特征，记第j个视频关键帧中检测到的第n个视觉目标的视觉特征为

对于第j个视频关键帧，其提取到的视觉特征集合为

其中

(1-5-2)构建一个声音特征提取网络，用于从步骤(1-4)得到的音频频谱图中提取声音特征。所述声音特征提取网络以音频频谱图为输入，以得到的声音特征为输出；所述声音特征集合内的各声音特征分别反映输入的声音频谱图对应的声音信号的不同属性，设各声音特征集合均分别包括K个声音特征。

本实施例中，使用U-Net网络作为声音特征提取网络，该网络从输入的音频频谱图中提取声音特征并将原有的各音频频谱图分别分割为K个不同的组成成分，可以将这K个组成成分看作分割后的声音信号的基本组成单位，其分别代表声音信号某一方面的特征信息，对输入模型的第j个声音信号，记其分割后的声音特征集合为

(1-5-3)构建一个声音分离网络，用于获得音源分离结果。所述声音分离网络包括一个由两个全连接层组成的视觉特征映射网络和一个由线性层组成的分离网络。该声音分离网络以视觉目标检测网络提取得到的视觉特征集合和声音特征提取网络提取得到的声音特征集合为输入，以音源分离结果为输出。

(1-6)对构建的音源分离模型进行迭代训练。将步骤(1-2)获取的所有训练样本对依次输入音源分离模型，其中，视觉目标检测网络的参数保持不变，训练声音特征提取网络和声音分离网络，得到训练完毕的音源分离模型。具体步骤如下：

(1-6-1)将各训练样本对中的第一视频关键帧输入步骤(1-5-1)构建的视觉目标检测网络，得到各第一视频关键帧中检测到的所有视觉目标的检测框，同时提取得到视觉特征集合，记第j个训练样本对中的第一视频关键帧(以下简称为第j个第一视频关键帧)的视觉特征集合为

其中

为输入的第j个第一视频关键帧中检测到的第u个视觉目标的视觉特征，

为该视频关键帧中检测到的视觉目标数量；

(1-6-2)对提取到的视觉特征集合进行修正。由于一般场景下视频中目标物体的数量是有限的，同时为了便于对于张量进行批量运算，为各视频关键帧设置视觉目标数量阈值为L，L的值对所有视频都是固定的，同时设置一个二进制向量用于记录输入的第一视频关键帧中实际检测到的视觉目标数量；通过以下判定将步骤(1-6-1)得到的视觉特征集合

转化为修正视觉特征集合

若检测到的第j个第一视频关键帧中的视觉目标数量

小于L，则令修正视觉特征集合

中前

个视觉特征与视觉特征集合

中前

个对应的视觉特征相同，修正视觉特征集合

中第

到第L个视觉特征均为0向量，令二进制向量

的前

其对应的二进制向量

中各元素均为1。

(1-6-3)将步骤(1-4)最后得到的各训练样本对的混合声音信号的音频频谱图输入步骤(1-5-2)构建的声音特征提取网络，提取得到声音特征集合，记第j个训练样本对提取得到的声音特征集合为

(1-6-4)对步骤(1-6-2)得到的各第一视频关键帧的修正视觉特征集合中的所有特征进行平均操作，得到对应的视觉平均特征，记第j个第一视频关键帧的视觉平均特征为

计算公式为：

其中，

(1-6-5)通过步骤(1-5-3)构建的视觉特征映射网络，将步骤(1-6-4)得到的各第一视频关键帧的视觉平均特征从S＝2048维映射至K维，得到对应的视觉映射特征，记第j个第一视频关键帧的视觉映射特征为

即得到的第j个训练样本对的视觉映射特征的维数与其声音特征的数量相同，便于后续对视觉映射特征与声音特征进行进一步的运算。

(1-6-6)将经过步骤(1-6-5)得到的各视觉映射特征和经过步骤(1-6-3)得到的对应声音特征同时输入步骤(1-5-3)构建的分离网络，预测输入的各第一视频关键帧对应音频的频谱掩码，其中频谱掩码是指视频对应音频的频谱图与混合音频的频谱图的按位比值结果。记第j个第一视频关键帧对应音频的频谱掩码为

分离网络按照如下公式预测该频谱掩码：

其中，λ_p和β分别为分离网络线性层的参数，

为第j个第一视频关键帧的视觉映射特征中的第p维数据，

为步骤(1-6-3)得到的第j个训练样本对的声音特征集合中的第p个声音特征。分离网络通过将各视觉映射特征中的第p维数据与对应声音特征集合中的第p个声音成分的声音特征进行加权，从而建立起视觉特征和声音特征之间的联系。

(1-6-7)将各训练样本对中第二视频关键帧和步骤(1-4)最后得到的各训练样本对混合声音信号的音频频谱图输入音源分离模型，依次按照步骤(1-6-1)至步骤(1-6-6)的方式得到输入的各第二视频对应音频的频谱掩码，记第j个训练样本对中的第二视频关键帧(以下简称第j个第二视频关键帧)对应音频的频谱掩码为

其中，

其中，

和

分别代表第j个训练样本对中两个视频原始音频对应的音频频谱图，

代表由步骤(1-4)得到的第j个训练样本对混合声音信号的音频频谱图，公式中的除法是在各对应元素之间的除法计算。损失函数中，Dis运算指对参与运算的两个矩阵内的相应元素逐位计算差值，并对所有差值的绝对值求和。

(1-6-9)利用所有的训练样本对来训练音源分离模型，将视觉目标检测网络的参数固定，使用批量梯度下降算法(本实施例采用Adam批训练梯度下降算法，批大小为32)更新声音特征提取网络和声音分离网络的参数，将整个模型迭代训练若干次直至达到指定上限次数后停止(本实施例中迭代训练500次)，得到训练完毕的音源分离模型。

(2)测试阶段

利用步骤(1)训练完毕的音源分离模型对测试数据进行音源分离，具体步骤如下：

(2-1)获取与训练数据中每段视频时长相等的待测试视频(本实施例为10秒)，要求视频中包含不同类别的发声物体，并提取其对应的音频信号。

(2-2)提取待测试视频中点处的单帧图像作为该视频的关键帧。

(2-3)对步骤(2-1)提取的音频信号经重采样和短时傅里叶变换后，得到该音频信号对应的音频频谱图，该音频频谱图的维度与步骤(1-4)中训练样本对的音频频谱图维度相同。

(2-4)将待测试视频的关键帧和其对应的音频频谱图输入训练完毕的音源分离模型中，依次按照步骤(1-6-1)和(1-6-2)的操作获取视觉目检测框、视觉特征集合F＝{f₁，f₂，…，f_L}和用于记录实际检测到的视觉目标数量的二进制向量W，其中记待检测视频关键帧中实际检测到的视觉目标数量为N，即二进制向量W中数值为1的元素数量为N；按照步骤(1-6-3)的操作获取待测试视频的声音特征集合A＝{a₁，a₂，…，a_K}。

(2-5)将经过步骤(2-4)得到的视觉特征集合和声音特征集合通过训练完毕的声音分离网络，分离得到该待测试视频中每一个视觉目标对应的声音的频谱掩码；具体步骤如下：

(2-5-1)通过音源分离模型中的视觉特征映射网络将待测试视频的视觉特征集合F＝{f₁，f₂，…，f_v，…，f_L}中的各视频特征均从S＝2048维映射至K维，得到待测试视频的视觉映射特征集合G＝{g₁，g₂，…，g_v，…，g_L}，其中g_v由f_v映射得到，并且g_v∈R^K。

(2-5-2)将经过步骤(2-5-1)得到的每个视觉目标的视觉映射特征和经过步骤(2-4)得到的声音特征一起输入音源分离模型中的分离网络，为每一个视觉目标物体预测对应音频的频谱掩码M_v，即预测每个视觉目标发出声音的音频频谱图与视频原声音的音频频谱图的按位比值结果。分离网络按照如下公式预测各视觉目标发出声音的频谱掩码：

其中，λ_p和β分别为在训练阶段中训练完毕的分离网络线性层参数，M_v代表第v个视觉目标发出声音的频谱图预测结果，g_v[p]代表待测试视频中第v个视觉目标对应的视觉映射特征中的第p维数据。

(2-6)经过步骤(2-5)得到每个视觉目标产生声音的频谱掩码结果{M₁，M₂，…，M_L}，对于其中N个有效的频谱掩码，即二进制向量W中非零位对应的频谱掩码，按下式计算对应的N个视觉目标产生声音的音频频谱图：

其中，P代表待测试视频的原始音频频谱图，

代表哈达玛积运算，P_i代表第i个视觉目标产生声音的音频频谱图。再使用逆快速傅里叶变换算法将N个视觉目标的频谱图转换为N个音频信号。

Claims

1.一种从视频中分离音源的方法，其特征在于，包括以下步骤：

(1)训练阶段

(1-1)获取训练数据

(1-2)生成训练样本对

(1-3)提取训练样本对的关键帧

(1-4)混合训练样本对的声音信号并提取音频频谱图

(1-6)对构建的音源分离模型进行迭代训练，具体步骤如下：

(1-6-1)将步骤(1-2)生成的各训练样本对中的第一视频关键帧输入步骤(1-5-1) 构建的视觉目标检测网络，得到各第一视频关键帧中检测到的所有视觉目标的检测框，同时提取得到视觉特征集合，记第j个第一视频关键帧的视觉特征集合为

其中

为该视频关键帧中检测到的视觉目标数量；

转化为修正视觉特征集合

若检测到的第j个第一视频关键帧中的视觉目标数量

小于L，则令修正视觉特征集合

中前

个视觉特征与视觉特征集合

中前

个对应的视觉特征相同，修正视觉特征集合

中第

到第L个视觉特征均为0向量，令二进制向量

的前

其对应的二进制向量

中各元素均为1；

(1-6-3)将步骤(1-4)最后得到的各训练样本对混合声音信号的音频频谱图输入步骤(1-5-2)构建的声音特征提取网络，提取得到声音特征集合，记第j个训练样本对提取得到的声音特征集合为

计算公式如下：

其中，

分离网络按照如下公式预测该频谱掩码：

其中，λ_p和β分别为分离网络线性层的参数，

为第j个第一视频关键帧的视觉映射特征中的第p维数据，

其中，

其中，

和

分别代表第j个训练样本对中两个视频的原始音频频谱图，

(2)测试阶段

(2-4)将待测试视频的关键帧和其对应的音频频谱图输入训练完毕的音源分离模型中，依次按照步骤(1-6-1)和(1-6-2)的操作获取视觉目检测框、视觉特征集合F＝{f₁,f₂,…,f_L}和用于记录实际检测到的视觉目标数量的二进制向量W，其中记待检测视频关键帧中实际检测到的视觉目标数量为N，即二进制向量W中数值为1的元素数量为N；按照步骤(1-6-3)的操作获取待测试视频的声音特征集合A＝{a₁,a₂,…,a_K}；

(2-5-1)通过音源分离模型中的视觉特征映射网络将待测试视频的视觉特征集合F＝{f₁,f₂,…,f_v,…,f_L}中的各视频特征从S维均映射至K维，得到待测试视频的视觉映射特征集合G＝{g₁,g₂,…,g_v,…,g_L}，其中g_v由f_v映射得到，并且g_v∈R^K；

(2-6)经过步骤(2-5)得到每个视觉目标产生声音的频谱掩码结果{M₁,M₂,…,M_L}，对于其中N个有效的频谱掩码，按下式计算对应的N个视觉目标产生声音的音频频谱图：

其中，P代表待测试视频的原始音频频谱图，

2.根据权利要求1所述的从视频中分离音源的方法，其特征在于，所述视觉目标检测网络采用Faster R-CNN网络。

3.根据权利要求1所述的从视频中分离音源的方法，其特征在于，所述声音特征提取网络采用U-Net网络。

4.根据权利要求1所述的从视频中分离音源的方法，其特征在于，步骤(1-6-9)中，所述批量梯度下降算法采用Adam批训练梯度下降算法。