CN112712819A

CN112712819A - 视觉辅助跨模态音频信号分离方法

Info

Publication number: CN112712819A
Application number: CN202011537001.1A
Authority: CN
Inventors: 姬艳丽; 马硕; 申恒涛
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2021-04-27
Anticipated expiration: 2040-12-23
Also published as: CN112712819B

Abstract

本发明公开了一种视觉辅助跨模态音频信号分离方法，构建并训练音频信号分离模型，包括视觉特征提取模块、初步分离模块、残差频谱计算模块、修正分离模块和频谱分离模块，采用目标检测模块对包含多个声源信号的视频进行目标检测得到目标检测结果，从视频中提取出音频信号，用音频时序信号‑频谱转换模块进行处理得到对应频谱，将目标检测结果和频谱输入音频信号分离模型，得到分离的声源频谱，然后采用频谱‑音频时序信号转换模块得到不同目标的音频信号。本发明设计了一种跨模态的音频信号分离模型，更好地构建视‑听觉之间的对应关系，并且引入迭代修正使得声源分离结果更加准确。

Description

视觉辅助跨模态音频信号分离方法

技术领域

本发明属于音频信号分离技术领域，更为具体地讲，涉及一种视觉辅助跨模态音频信号分离方法。

背景技术

在实际生活中，当听到来自不同来源的不同声音的混合时，人类可以很自然地分辨出哪个声音来自哪个发生源头，可能来能鸟类，动物，乐器，或者机器。这种强大的辨别能力使得人类可以很好地理解这个自然世界。在智能技术飞速发展的今天，由机器人或智能设备自动实现准确地声源分离任务，在实际场景中是非常有意义的，例如可以应用到音频降噪，音频事件定位，以及声音筛选等。

在地震救灾过程中，救助工作是争分夺秒进行的。在这种复杂场景中实现场景中人、动物及其他物体声音的智能化分离，对于快速定位需要被救助的人或动物是非常有帮助的。

传统的声源分离方法是基于非负矩阵分解的方式来解决分离问题。近年来，深度学习的方法也被应用到声源分离中。但是随着深度学习在计算机视觉领域的快速发展，以及在视觉领域取得的卓越成效，在近些年的研究中，视觉信息也开始被引入到音频的声源分离任务中。引入视觉信息的另一个原因是目前的方法仅从声音这个单一模态来完成声源分离的任务时，难以取得非常显著的成效。鉴于发声物体的视觉信息和声音信息的天然关联性，视觉信息理论上可以作为指导信息，用于辅助混合场景下的音频声源分离。使用视觉信息来辅助解决声源分离任务的实质，就是构建视觉与听觉信息之间的跨模态对应。现有技术中涉及到的使用视觉信息辅助声源分离的方法，所使用的视觉信息相对复杂，并且主要方向是探索视觉中更贴切的表示形式，而对于声音信息本身考虑的并不细致。

发明内容

本发明的目的在于克服现有技术的不足，提供一种视觉辅助跨模态音频信号分离方法，对用户输入的多声源视频，根据视频帧中所包含的发声物体信息，从混合音频中精确分离出多个单声源的音频信号，并通过对分离结果进行迭代修正实现精确的声音分离。

为了实现上述发明目的，本发明视觉辅助跨模态音频信号分离方法包括以下步骤：

S1：根据所需分离的N个声音类别所对应的N个目标构建目标检测模型，并收集这N个目标的图像数据集对目标检测模型进行训练；

S2：对于每个目标分别获取若干个预设长度的包含有目标声音信号的视频，并从中提取出单个目标音频信号；

S3：采用目标检测模型对步骤S2中的各个视频的每一帧图像进行目标的检测，选取所有帧中置信度最高的检测结果并归一化至预设尺寸作为该视频的目标检测结果；

S4：随机选择2个及以上包含不同目标视频所对应的单个目标音频信号进行组合，得到混合音频信号，记所得到混合音频信号数量为M；

S5：对于步骤S4得到的每个混合音频信号，采用音频时序信号-频谱转换模块进行处理得到对应的混合频谱S_m，m＝1,2,…,M；记第m个混合音频信号中所包含的单个目标音频信号数量为K_m，对于各个单个目标音频信号，同样采用音频时序信号-频谱转换模块进行处理得到对应的单个目标频谱

k＝1,2,…,K_m；记单个目标音频信号在所对应的视频中的目标检测结果为O_m,k；将混合频谱S_m、其中一个单个目标频谱

和目标检测结果O_m,k作为一个训练样本；

S6：构建视觉辅助跨模态音频信号分离模型，包括视觉特征提取模块、初步分离模块、残差频谱计算模块、修正分离模块和频谱分离模块，其中：

视觉特征提取模块用于对视频得到的目标检测结果进行视觉特征提取并发送给初步分离模块和修正分离模块；

初步分离模块采用类U-Net网络，初步分离模块的输入为混合频谱，由编码器得到混合频谱特征，将视觉特征调整至经过编码器编码后的混合频谱特征维度，然后级联视觉特征和经过编码器编码后的混合频谱特征，将得到的特征输入至解码器，在解码器的最后一层设置sigmoid层，将输出图像中的每个元素值限制在0～1之间，得到初步分离声源频谱掩码图像；

残差频谱掩码计算模块用于根据各个初步分离声源频谱掩码图像或修正分离声源频谱掩码图像从原始的混合频谱中提取出各个目标的初步分离频谱，并将这些初步分离频谱进行叠加得到叠加频谱，然后将原始的混合频谱减去叠加频谱得到残差频谱，再将残差频谱与原始的混合频谱做除法，得到残差频谱掩码图像；计算残差频谱掩码图像的期望，如果期望小于预设的阈值，表明此时残差信息不存在或只存在噪声，则将当前使用的初步分离声源频谱掩码图像或修正分离声源掩码图像作为最终的分离声源频谱掩码图像发送至频谱分离模块，否则将初步分离声源频谱掩码图像或修正分离声源掩码图像作为分离声源掩码图像连同残差频谱掩码图像一起发送至修正分离模块继续循环迭代修正；

修正分离模块用于根据残差频谱掩码图像和视觉特征对分离声源掩码图像进行修正，得到修正分离声源频谱掩码图像反馈至残差频谱计算模块；修正分离模块的输入为残差频谱掩码图像和分离声源频谱掩码图像的级联掩码图像，由编码器得到级联掩码图像特征，将视觉特征调整至经过编码器编码后的级联掩码图像特征维度，然后级联视觉特征和经过编码器编码后的级联掩码图像特征，将得到的特征输入至解码器，在解码器的最后一层设置sigmoid层，将输出图像中的每个元素值限制在0～1之间，得到修正分离声源频谱掩码图像；

频谱分离模块用于根据接收到的分离声源频谱掩码图像从混合频谱中分离出单个目标频谱；

S8：采用步骤S105得到的训练样本中的混合频谱S_m和目标检测结果O_m,k作为输入，将单个目标频谱

作为期望输出，对音频信号分离模型进行训练；

S9：采集预设长度的包含有多个声源信号的视频，采用目标检测模块对其进行目标检测得到目标检测结果从视频中提取出待分离音频信号，用音频时序信号-频谱转换模块进行处理得到对应的待分离频谱。将目标检测结果和频谱输入训练好的音频信号分离模型，得到分离的声源频谱，然后采用频谱-音频时序信号转换模块得到不同目标的音频信号。

本发明视觉辅助跨模态音频信号分离方法，构建并训练音频信号分离模型，包括视觉特征提取模块、初步分离模块、残差频谱计算模块、修正分离模块和频谱分离模块，采用目标检测模块对包含多个声源信号的视频进行目标检测得到目标检测结果，从视频中提取出音频信号，用音频时序信号-频谱转换模块进行处理得到对应频谱，将目标检测结果和频谱输入音频信号分离模型，得到分离的声源频谱，然后采用频谱-音频时序信号转换模块得到不同目标的音频信号。本发明设计了一种跨模态的音频信号分离模型，更好地构建视-听觉之间的对应关系，并且引入迭代修正使得声源分离结果更加准确。

附图说明

图1是本发明视觉辅助跨模态音频信号分离方法的具体实施方式流程图；

图2是本发明中音频信号分离模型的结构图；

图3是本实施例中视觉特征提取模块的结构图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明视觉辅助跨模态音频信号分离方法的具体实施方式流程图。如图1所示，本发明用于视觉辅助跨模态音频信号分离方法的具体步骤包括：

S101：构建并训练目标检测模型：

根据所需分离的N个声音类别所对应的N个目标构建目标检测模型，并收集这N个目标的图像数据集对目标检测模型进行训练。在实际应用中可以采用公开的图像数据集来获取每个目标的图像数据集。

S102：获取视频和音频：

对于每个目标分别获取若干个预设长度的包含有目标声音信号的视频，并从中提取出单个目标音频信号。如果视频中包含的目标数量大于1，则需要事先对音频信号进行分离。

S103：获取目标检测结果：

采用目标检测模型对步骤S102中的各个视频的每一帧图像进行对应目标的检测，选取所有帧中置信度最高的检测结果并归一化至预设尺寸作为该视频的目标检测结果。归一化的尺寸是根据后续视觉特征提取模块的输入尺寸要求来确定的。

S104：获取混合音频信号：

随机选择2个及以上包含不同目标视频所对应的单个目标音频信号进行组合，得到混合音频信号，记所得到混合音频信号数量为M。

S105：获取训练样本：

对于步骤S104得到的每个混合音频信号，采用音频时序信号-频谱转换模块进行处理得到对应的混合频谱S_m，m＝1,2,…,M。记第m个混合音频信号中所包含的单个目标音频信号数量为K_m，对于各个单个目标音频信号，同样采用音频时序信号-频谱转换模块进行处理得到对应的单个目标频谱

k＝1,2,…,K_m。记单个目标音频信号在所对应视频中的对应目标检测结果为O_m,k。将混合频谱S_m、其中一个单个目标频谱

和目标检测结果O_m,k作为一个训练样本。可见，所得到的训练样本数量为

音频时序信号-频谱转换模块用于声音的一维时序信号与二维频谱的转换，常用于声音信号变换的方法有短时傅里叶变换、梅尔倒频谱以及小波变换等方法。由于短时傅里叶变换能够最大程度的保留有效信息，且性能优越，因此短时傅里叶变换在信号的转换中被广泛选择，本实施例中即采用短时傅里叶变换将混合音频信号转化为混合频谱。

S106：构建音频信号分离模型：

本发明中为了实现跨模态音频信号分离，需要构建音频信号分离模型。图2是本发明中音频信号分离模型的结构图。如图2所示，本发明中音频信号分离模型包括视觉特征提取模块、初步分离模块、修正分离模块和频谱分离模块，下面分别对每个模块进行详细说明。

·视觉特征提取模块

视觉特征提取模块用于对视频得到的目标检测结果进行视觉特征提取并发送给初步分离模块和修正分离模块。

视觉特征提取模块的具体结构可以根据实际需要设置。图3是本实施例中视觉特征提取模块的结构图。如图3所示，空心块表示特征图，实心块表示网络结构层。本实施例中视觉特征提取模块包括ResNet-18网络的前4层Block、卷积层、批归一化(BN，BatchNormalization)层、Relu激活层和全连接(FC)层，其中：

ResNet-18网络的前4层Block用于对所输入的目标检测结果提取特征图，然后发送给卷积层。

卷积层用于对所接收到的特征图进行1x1卷积降低维度，将得到的特征图发送给批归一化层。

批归一化层对所接收到的特征图进行批归一化处理，将处理得到的特征图发送给Relu激活层。

Relu激活层用于采用Relu激活函数对所接收到的特征图进行处理，将处理得到的特征图发送给全连接层。

全连接层用于对所接收到的特征进行处理，得到指定维数的特征向量。

表1是本实施例中视觉特征提取模块的网络结构和各网络层参数表。

表1

·初步分离模块

初步分离模块用于根据所输入的视觉特征，对混合频谱进行初步分离，得到不同目标对应的初步分离声源频谱掩码图像。

本发明中，初步分离模块采用类U-Net网络。初步分离模块的输入为混合频谱，由编码器得到混合频谱特征，将视觉特征调整至经过编码器编码后的混合频谱特征维度，然后级联视觉特征和经过编码器编码后的混合频谱特征，将得到的特征输入至解码器，在解码器的最后一层设置sigmoid层，将输出图像中的每个元素值限制在0～1之间，得到初步分离声源频谱掩码图像。

使用U-Net的优势是，通过短接的方式，可以使得网络不会随着卷积计算而丢失浅层信息。本实施例中使用的U-Net结构有7层。输入为混合频谱的幅值部分，经过尺寸调整后，频谱的大小变为256×256，所以初步分离模块的输入维度为1×256×256。

编码器(即下采样)部分，三层结构中每一层分别包括级联的2d卷积层，批归一化层以及LeakyReLU激活层。LeakyReLU激活函数相对于ReLU激活函数，在负值部分设置小的斜率，使得负值部分不会被完全丢弃，负值部分的斜率大小默认为0.2。

级联视觉特征和经过编码器编码后的混合频谱特征，输入至解码器。本实施例中视觉特征为512维向量，混合频谱特征的维度为512×2×2，为了使维度保持一致，根据频谱特征的尺寸对视觉特征进行处理，即将视觉特征翻4倍(2×2)，转化为512×2×2维度，以保持两个模态特征的维度一致。那么级联后的特征维度为1024×2×2。

解码器(即上采样)部分，每一层分别包括2d反卷积层、批归一化层以及ReLU激活层。同时在上采样时，每一层都会级联在下采样时与其对应的特征，这种级联操作即为短接操作。每次在反卷积之前，完成特征的拼接，拼接在第一个维度进行，再将拼接好的特征图输入下一级上采样层。因为预测的结果是掩码的形式，且为比例掩码，取值在0～1之间，所以在最后一级上采样层，结构为反卷积加sigmoid层，保证结果在0～1之间。

·残差频谱掩码计算模块

残差频谱掩码计算模块用于根据各个初步分离声源频谱掩码图像或修正分离声源频谱掩码图像从原始的混合频谱中提取出各个目标的初步分离频谱，并将这些初步分离频谱进行叠加得到叠加频谱，然后将原始的混合频谱减去叠加频谱得到残差频谱，再将残差频谱与原始的混合频谱做除法，得到残差频谱掩码图像。计算残差频谱掩码图像的期望，如果期望小于预设的阈值，表明此时残差信息不存在或只存在噪声，则将当前使用的初步分离声源频谱掩码图像或修正分离声源掩码图像作为最终的分离声源掩码图像发送至频谱分离模块，否则将初步分离声源频谱掩码图像或修正分离声源掩码图像作为分离声源掩码图像连同残差频谱掩码图像一起发送至修正分离模块继续循环迭代修正。

也就是说，根据残差信息的定义，只要最终的分离结果不是理想的，那么残差信息就会存在。因此可以根据每次计算出的残差信息进行循环迭代，迭代修正分离结果，直至残差信息不存在或只存在噪声。

·修正分离模块

修正分离模块用于根据残差频谱掩码图像和视觉特征对分离声源频谱掩码图像进行修正，得到修正分离声源频谱掩码图像反馈至残差频谱计算模块。本发明中的修正分离模块也采用类U-Net网络。如图2所示，本发明中修正分离模块的输入为残差频谱掩码图像和分离声源频谱掩码图像的级联掩码图像，由编码器得到级联掩码图像特征，将视觉特征调整至经过编码器编码后的级联掩码图像特征维度，然后级联视觉特征和经过编码器编码后的级联掩码图像特征，将得到的特征输入至解码器，在解码器的最后一层设置sigmoid层，将输出图像中的每个元素值限制在0～1之间，得到修正分离声源频谱掩码图像。

本实施例中修正分离模块的详细网络结构和初步分离模块类似，只是输入数据有所差别，即输入数据由1×256×256的混合频谱，变为2×256×256的级联掩码图像，其余部分不变。

·频谱分离模块

频谱分离模块用于根据接收到的分离声源掩码图像从混合频谱中分离出单个目标频谱。

S107：训练音频信号分离模型：

采用步骤S105得到的训练样本中的混合频谱S_m和目标检测结果O_m,k作为输入，将单个目标频谱

作为期望输出，对音频信号分离模型进行训练。

在进行音频信号分离模块进行训练时，所使用的损失函数可以根据实际需要设置。为了提高训练效果，使最终的音频信号分离结果更加准确，本实施例中对不同方面的损失进行分析，提出了一种综合性的损失函数。本实施例中所使用的损失包括共分离损失、目标一致性损失、修正损失和频谱一致性损失，下面分别对各个损失函数进行详细说明：

·共分离损失

本实施例中共分离损失L₁的计算公式为：

其中，K表示当前所输入混合频谱所对应的视频数量，V_k表示当前所输入混合频谱所对应的第k个视频，k＝1,2,…,K，|V_k|表示视频V_k中所包含的目标数量，

表示音频信号分离模型中初步分离模块所得到的视频V_k中第i个目标的初步分离声源频谱掩码图像，

表示视频V_k的频谱掩码图像，采用如下公式计算：

其中，

表示视频V_k的原始音频信号经音频时序信号-频谱转换模块进行处理得到的频谱。

共分离损失用于计算初步分离网络的掩码分离结果与对应的原视频的掩码之间的差异性，这种差异性是用两者之间的L1范数进行衡量的。理想情况下两者之间是没有差异的，那么根据计算出的差异性对网络进行训练，调整网络参数，使网络不断学习两个模态之间的匹配信息，生成对应的接近真实的频谱掩码。由于在训练过程中，混合的视频可以是多个，那么共分离损失计算的对象是单个视频相对所有混合视频的掩码，以及该单个视频中所有发声物体分离掩码的叠加之和。

·目标一致性损失

本实施例中在计算目标一致性损失时，先根据初步分离模块得到的初步分离声源频谱掩码图像从输入的混合频谱中分离出单个目标频谱，采用预训练好的频谱分类器对该单个目标频谱进行分类，得到该单个目标频谱属于第n个目标的概率，n＝1,2,…,N，然后确定目标分类结果，并判定该分类结果与所输入的视觉特征对应的目标分类结果是否一致，然后采用以下公式计算目标一致性损失L₂：

其中，

表示当前所输入混合频谱所对应的视频中所包含的目标数量，p_j,n表示预训练好的频谱分类器对第j个视频目标初步分离得到的单个目标频谱所判别出的属于第n个目标的概率，y_j,n＝1表示预训练好的频谱分类器对第j个视频目标初步分离得到的单个目标频谱的目标分类结果与所输入的视觉特征对应的目标分类结果一致，y_j,n＝0表示预训练好的频谱分类器对第j个视频目标初步分离得到的单个目标频谱的目标分类结果与所输入的视觉特征对应的目标分类结果不一致。

目标一致性损失用于判断对初步分离模块所分离频谱所属目标类别的预测结果与预训练的目标检测模块的预测结果是否一致。该损失的计算对象是初步分离模块的分离频谱经过预训练的频谱分类器后的类别预测分布和目标检测模块所给出的类别预测标签，从而促使两个模态的信息对应。本实施例中频谱分类器的结构是ResNet-18，最后的全连接输出层输出维度调整为本实施例中使用的目标类别数目。

·修正损失

本实施例中修正损失L₃的计算公式为：

其中，D表示当前所输入训练样本在修正分离模块中的循环迭代次数，α_d表示每次迭代对应的权重，

d＝1,2,…,D，loss_d表示每次迭代中修正分离声源频谱掩码图像所对应的共分离损失，其计算公式如下：

其中，

表示修正分离模块在第d次迭代时所得到的视频V_k中第i个目标的初步分离声源频谱掩码图像。

Ε[S_left]表示残差频谱的期望值，S_left表示残差频谱，其计算公式如下：

其中，S表示所输入的混合频谱，s_k,i表示视频V_k中第i个目标在当前迭代中所对应的分离得到的单个目标频谱，显然当第一次迭代时s_k,i是根据初步分离模块所得到的初步分离声源频谱掩码图像分离得到的，第二次及之后迭代时s_k,i是根据修正分离模块所得到的修正分离声源频谱掩码图像分离得到的。

修正损失用于计算迭代分离结果的掩码叠加之和与对应原视频掩码之间的差异以及限制残差频谱的能量趋近于0。因为修正模块和初步分离模块一样，都是生成器，为了约束生成结果接近真实结果，需要设置重建损失进行限制。所以本实施例中修正损失的第一部分和共分离损失的思想一致，就是为了约束最终生成的分离声源频谱掩码图像接近真实视频的掩码图像。

第二部分是限制残差频谱的能量。因为修正过程是迭代进行的，在理想情况下残差频谱中不应该存在信息，或者只存在噪声。因此在损失函数计算时，加入对残差频谱的限制，促使网络趋于理想情况下的分离性能。

·频谱一致性损失

本实施例中频谱一致性损失L₄的计算公式为：

其中，φ_s()表示频谱特征提取函数，

表示视频V_k中第i个目标在训练样本中所对应的真实单个目标频谱，

表示视频V_k中第i个目标由修正分离模块所得到的单个目标频谱，|| ||₂表示求取二范数。

频谱一致性损失是用于衡量最终分离的频谱与真实频谱之间的差异。分离效果越好，则分离的频谱与真实频谱之间差异越小。最直观的约束方式是直接计算两者之间的差异，求频谱之间的L1或者L2范数。但是为了减少计算量，并且只使用关键特征即可判断两者之间差异，同时加速计算，本实施例采用了频谱特征提取函数，从特征层面约束两者，使差异最小化。频谱特征提取函数可以根据需要设置，例如可以基于特征提取网络实现。对于特征的频谱一致性损失采用的是L2范数。

根据以上四种损失，即可得到本实施例中模型训练的总损失函数如下：

其中，λ_t表示预设的第t项损失的权重，

t＝1,2,3,4。

本实施例中训练数据采用两个视频混合或三个视频混合的形式，每个视频中包含1～2个发声物体，且视频帧中包含其视觉信息。整个网络训练至少300个周期，优化器使用Adam，批次大小视混合数据的情况而定，一般情况下两个视频混合的批次大小为16，3个视频混合的批次大小为8。初始时，视觉特征提取器，初步分离模块，修正模块的学习率设置为0.0001，频谱分类器和频谱特征提取器的学习率设置为0.00001。当训练周期到达总周期数的40％以及80％时，调整学习率为原先的十分之一。

S108：音频信号分离：

采集预设长度的包含有多个声源信号的视频，采用目标检测模块对其进行目标检测得到目标检测结果。从视频中提取出待分离音频信号，用音频时序信号-频谱转换模块进行处理得到对应的待分离频谱。将目标检测结果和频谱输入训练好的音频信号分离模型，得到分离的声源频谱，然后采用频谱-音频时序信号转换模块得到不同目标的音频信号。本实施例中频谱-音频时序信号转换模块所采用的转换方法即为短时傅里叶逆变换。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种视觉辅助跨模态音频信号分离方法，其特征在于，包括以下步骤：

k＝1,2,…,K_m；记单个目标音频信号在所对应视频中的对应目标检测结果为O_m,k；将混合频谱S_m、其中一个单个目标频谱

和目标检测结果O_m,k作为一个训练样本；

残差频谱掩码计算模块用于根据各个初步分离声源频谱掩码图像或修正分离声源频谱掩码图像从原始的混合频谱中提取出各个目标的初步分离频谱，并将这些初步分离频谱进行叠加得到叠加频谱，然后将原始的混合频谱减去叠加频谱得到残差频谱，再将残差频谱与原始的混合频谱做除法，得到残差频谱掩码图像；计算残差频谱掩码图像的期望，如果期望小于预设的阈值，则将当前使用的初步分离声源频谱掩码图像或修正分离声源掩码图像作为最终的分离声源频谱掩码图像发送至频谱分离模块，否则将初步分离声源频谱掩码图像或修正分离声源掩码图像作为分离声源掩码图像连同残差频谱掩码图像一起发送至修正分离模块继续循环迭代修正；

频谱分离模块用于根据接收到的残差频谱掩码图像从混合频谱中分离出单个目标频谱；

S8：采用步骤S105得到的训练样本中的混合频谱S_m和目标检测结果O_m,k作为输入，将单个目标频谱s_m,k作为期望输出，对音频信号分离模型进行训练；

S9：采集预设长度的包含有多个声源信号的视频，采用目标检测模块对其进行目标检测得到目标检测结果。从视频中提取出待分离音频信号，用音频时序信号-频谱转换模块进行处理得到对应的待分离频谱；将目标检测结果和频谱输入训练好的音频信号分离模型，得到分离的声源频谱，然后采用频谱-音频时序信号转换模块得到不同目标的音频信号。

2.根据权利要求1所述的视觉辅助跨模态音频信号分离方法，其特征在于，所述的视觉特征提取模块包括ResNet-18网络的前4层Block、卷积层、批归一化层、Relu激活层和全连接层，其中：

ResNet-18网络的前4层Block用于对所输入的目标检测结果提取特征图，然后发送给卷积层；

卷积层用于对所接收到的特征图进行1x1卷积降低维度，将得到的特征图发送给批归一化层；

批归一化层对所接收到的特征图进行批归一化处理，将处理得到的特征图发送给Relu激活层；

Relu激活层用于采用Relu激活函数对所接收到的特征图进行处理，将处理得到的特征图发送给全连接层；

3.根据权利要求1所述的视觉辅助跨模态音频信号分离方法，其特征在于，所述步骤S8中音频信号分离模块进行训练时所使用的损失

采用以下公式计算：

其中，λ_t表示预设的第t项损失的权重，t＝1,2,3,4；

L₁表示共分离损失，其计算公式如下：

其中，K表示当前所输入混合频谱中所对应的视频数量，V_k表示当前所输入混合频谱中所对应的第k个视频，k＝1,2,…,K，|V_k|表示视频V_k中所包含的目标数量，

表示视频V_k的频谱掩码图像，采用如下公式计算：

其中，

表示视频V_k的原始音频信号经音频时序信号-频谱转换模块进行处理得到的频谱；

L₂表示目标一致性损失，其计算方法为：先根据初步分离模块得到的初步分离声源频谱掩码图像从输入的混合频谱中分离出单个目标频谱，采用预训练好的频谱分类器对该单个目标频谱进行分类，得到该单个目标频谱属于第n个目标的概率，n＝1,2,…,N，然后确定目标分类结果，并判定该分类结果与所输入的视觉特征对应的目标分类结果是否一致，然后采用以下公式计算目标一致性损失L₂：

其中，

表示当前所输入混合频谱所对应的视频中所包含的目标数量，p_j,n表示预训练好的频谱分类器对第j个视频目标初步分离得到的单个目标频谱所判别出的属于第n个目标的概率，y_j,n＝1表示预训练好的频谱分类器对第j个视频目标初步分离得到的单个目标频谱的目标分类结果与所输入的视觉特征对应的目标分类结果一致，y_j,n＝0表示预训练好的频谱分类器对第j个视频目标初步分离得到的单个目标频谱的目标分类结果与所输入的视觉特征对应的目标分类结果不一致；

L₃表示修正损失，其计算公式如下：

中，D表示当前所输入训练样本在修正分离模块中的循环迭代次数，α_d表示每次迭代对应的权重，

loss_d表示每次迭代中修正分离声源频谱掩码图像所对应的共分离损失，其计算公式如下：

其中，

其中，S表示所输入的混合频谱，s_k,i表示视频V_k中第i个目标在当前迭代中所对应的分离得到的单个目标频谱；

L₄表示频谱一致性损失，其计算公式如下：

其中，φ_s()表示频谱特征提取函数，

表示视频V_k中第i个目标由修正分离模块所得到的单个目标频谱，||||₂表示求取二范数。