CN118016093A

CN118016093A - 一种基于跨模态损失的目标语音分离方法及系统

Info

Publication number: CN118016093A
Application number: CN202410209637.5A
Authority: CN
Inventors: 魏莹; 史迪雅
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2024-02-26
Filing date: 2024-02-26
Publication date: 2024-05-10

Abstract

本发明提供了一种基于跨模态损失的目标语音分离方法及系统，本发明利用预训练后的目标语音分离模型，基于目标说话人唇部序列和混合音频信号，得到分离后的目标语音信号，通过在模型中引入目标说话人的视觉信息以提取视觉嵌入，采用自提取音频嵌入的方式代替预注册语音，引入跨模态损失约束说话人视觉和听觉特征的提取，能够避免目标混淆问题，构建两分支架构，获取干扰说话人语音信号转化为辅助信息，优化第一分支的语音提取，避免使用难以获取的辅助信息，提高目标语音分离实际应用场景的适应度。

Description

一种基于跨模态损失的目标语音分离方法及系统

技术领域

本发明属于语音处理技术领域，具体涉及一种基于跨模态损失的目标语音分离方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

目标语音分离问题是指从混合音频中提取出特定的目标说话人的声音，是语音分离问题的一个分支。在复杂多说话人场景中，语音分离可以有效提升语音识别、说话人识别等应用的性能，可应用于远程会议记录、智能家居等系统。不同于多说话人分离提取说话场景中所有说话人语音，目标语音分离只有一个输出，即目标说话人的预估语音。目标语音分离可以避免多说话人分离中的排列模糊问题，且不需要预先知道说话人数量，但必须提供先验知识或辅助信息来指定目标信号。根据辅助信息的形态不同，目标语音分离可以分为依赖目标说话人视觉和依赖目标说话人注册语音片段辅助提取等方法。

目标语音分离网络通常由主网络和辅助网络组成，其中主网络用于学习目标说话人掩膜，辅助网络用于学习具有区分性的说话人嵌入。在目标语音分离网络中，辅助网络的输出对主网络具有重要指导意义，当辅助网络生成的说话人嵌入无法区分目标说话人和干扰说话人时，就会出现目标混淆问题，即错误地将干扰说话人提取出来，或得到的目标说话人语音质量不高。同时，辅助网络中用到的说话人标签、说话人预注册片段等信息可能难获取，不适用于现实应用场景。因此，如果能更好地利用辅助信息，提取出具有区分性的嵌入，将进一步提升目标语音分离的性能。

但据发明人了解，目前的目标语音分离存在以下问题：

(1)容易产生目标混淆：当目标语音与背景噪声或干扰语音在频谱上有重叠时，混合信号中的不同声源在频域上会相互干扰，导致提取出干扰说话人的语音或提取出的目标说话人语音质量低。

(2)难以获取部分辅助信息：在依赖目标说话人视觉辅助提取的方法中，在训练时通常需要获取说话人身份标签，计算说话人分类损失来约束说话人提取，但在现实生活中身份标签难以获得；在依赖目标说话人注册语音片段辅助提取的方法中，需要提前获取一段预录制的目标说话人纯净语音，并不适合实际应用场景。

发明内容

本发明为了解决上述问题，提出了一种基于跨模态损失的目标语音分离方法及系统，本发明通过在模型中引入目标说话人的视觉信息以提取视觉嵌入，采用自提取音频嵌入的方式代替预注册语音，以跨模态损失代替说话人交叉熵损失，能够避免目标混淆问题，提高目标语音分离实际应用场景的适应度。

根据一些实施例，本发明采用如下技术方案：

一种基于跨模态损失的目标语音分离方法，包括以下步骤：

获取目标说话人视频，提取目标说话人唇部序列；

获取混合音频信号；

利用预训练后的目标语音分离模型，基于目标说话人唇部序列和混合音频信号，得到分离后的目标语音信号，且目标语音分离模型的训练过程考虑跨模态损失；

所述目标语音分离模型在训练过程为两分支架构，其中：

第一分支用于实现视听多模态目标语音提取，基于目标说话人唇部序列和混合音频信号，得到分离后的目标语音信号；

第二分支用于实现单模态干扰语音提取，基于第一分支的预估目标语音信号和混合音频信号，得到分离后的干扰语音信号，以获取的干扰语音信号作为辅助信息，通过跨模态损失影响第一分支目标语音的提取；

跨模态损失同时影响两分支的训练过程，在目标说话人视觉特征、目标语音特征和干扰语音特征之间进行度量学习，拉近正样本距离，拉远负样本距离，约束视觉和听觉特征的提取。

作为可选择的实施方式，所述第一分支包括音频编码器、视觉编码器、说话人提取器和音频解码器，其中：

音频编码器从混合音频信号中提取音频嵌入，视觉编码器将目标说话人唇部序列编码为视觉嵌入；

说话人提取器接收提取的音频嵌入和视觉嵌入输入，所述说话人提取器包括多层迭代的提取器块，每一个提取器块包括说话人编码器和掩膜估计器，所述说话人编码器在时间维度上拼接两个模态的嵌入，得到含有区分性身份信息的目标说话人嵌入，所述掩膜估计器根据视觉嵌入、目标说话人嵌入和上一层掩膜估计器的输出，得到目标说话人掩膜；

所述音频解码器，基于目标说话人掩膜，得到目标语音信号。

作为可选择的实施方式，所述第二分支包含依次连接的音频编码器、说话人提取器和音频解码器；

所述第二分支仅存在于训练过程中。

作为可选择的实施方式，第二分支的音频编码器接收混合音频信号与第一分支中预估的目标语音信号的差值，说话人编码器仅接收音频嵌入，输出干扰说话人嵌入。

作为可选择的实施方式，所述音频编码器包括一维卷积，用于将时域音频信号转换为音频特征序列。

作为可选择的实施方式，所述音频解码器执行重叠相加操作，用于将音频特征序列重建为音频信号。

作为可选择的实施方式，所述视觉编码器包括依次连接的3D卷积层、残差网络层和视频时间卷积层，视频时间卷积层包括依次连接的修正线性单元、批量归一化层和深度可分离卷积层，视觉编码器接收音频同步的裁剪后的目标说话人唇部序列，并通过网络层提取视觉嵌入，对视频时间卷积层的输出进行上采样，最终获得视觉嵌入。

作为可选择的实施方式，所述说话人编码器包括依次连接的三个残差块和自适应平均池化层，所述掩膜估计器包括多个堆叠的时间卷积块，每个时间卷积块包括依次连接的多个一维卷积层和残差模块。

作为可选择的实施方式，在目标语音分离算法中引入跨模态损失，在目标说话人视觉特征、目标语音特征和干扰语音特征之间进行度量学习，利用视听一致性约束视觉和听觉特征的提取，将干扰说话人信息转化为辅助信息，优化第一分支的语音提取。

作为可选择的实施方式，在目标语音分离模型的训练过程中，构建包含三个目标函数的多任务学习框架，第一分支的尺度不变信噪比损失用于衡量提取的目标语音和干净语音之间的质量，第二分支的尺度不变信噪比损失用于衡量提取的干扰语音和干净目标语音之间的质量，跨模态损失用于拉进目标视觉特征和预估目标语音信号音频特征，拉远目标视觉特征和预估干扰语音信号音频特征。

作为可选择的实施方式，在目标语音分离模型的训练过程中，使用已有音频数据和对应视频数据，利用Adam优化器进行优化训练，直至满足测试要求。

一种基于跨模态损失的目标语音分离系统，包括：

数据获取模块，被配置为获取目标说话人视频，提取目标说话人唇部序列；获取混合音频信号；

目标语音分离模块，被配置为利用预训练后的目标语音分离模型，基于目标说话人唇部序列和混合音频信号，得到分离后的目标语音信号，且目标语音分离模型的训练过程考虑跨模态损失；

所述目标语音分离模型在训练过程为两分支架构，其中：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述方法中的步骤。

与现有技术相比，本发明的有益效果为：

本发明在模型中引入目标说话人的视觉信息以提取视觉嵌入，采用自提取音频嵌入的方式代替预注册语音，拼接自提取的音频嵌入和视觉嵌入并送入说话人编码器获得说话人嵌入，作为分离网络的吸引子，避免了目标混淆问题。

本发明以跨模态损失代替说话人交叉熵损失，在训练过程中，拉进目标说话人音频嵌入和视觉嵌入的距离，拉远干扰说话人音频嵌入和视觉嵌入的距离，以督促视觉编码器提取更好的视觉嵌入，进而获得更准确的说话人嵌入，以自提取语音代替预注册语音，重复四次说话人提取器网络，以获取先验知识解决辅助信息难获取的问题。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本实施例的模型结构示意图；

图2是本实施例的掩膜估计器结构示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例一

一种基于跨模态损失的目标语音分离方法，包括以下步骤：

获取目标说话人视频，提取目标说话人唇部序列；

获取混合音频信号；

目标语音分离模型在训练过程为两分支架构，其中：

预训练后的目标语音分离模型包括音频编码器、视觉编码器、说话人提取器和音频解码器，其中：

本实施例的目标语音分离模型是基于时域的双分支说话人提取网络，如图1所示，主要由四部分组成，分别是音频编码器、音频解码器、视觉编码器和说话人提取器。

其中，第一分支和第二分支均具有音频编码器、音频解码器和说话人提取器。

音频编码器从输入的混合音频信号中提取出音频嵌入，音频解码器可以将音频嵌入恢复为音频信号，视觉编码器将输入的目标说话人唇部序列编码为视觉嵌入，说话人提取器的主要任务是获取说话人掩膜，但两个分支的结构略有不同，且第二分支仅存在于训练阶段，在实际使用或测试阶段，第二分支并不存在。

下面就模型的各个部分进行详细的介绍。

音频编码器：音频编码器通过一维卷积实现将时域音频信号转换为音频特征序列X(t),转换过程可以表示为：

其中，N是音频嵌入维度，T是音频采样总数，K＝(2(T-L))/L+1，L为一维卷积的卷积核大小。

在第二分支中，音频编码器的输入是混合音频信号和第一分支中预估的目标语音信号的差值。

音频解码器：音频解码器执行重叠相加操作将音频特征序列重建为音频信号解码过程为：

在模型中，本实施例中，设定L为40，N为256。

视觉编码器：视觉编码器主要由3D卷积层、ResNet18层和视频时间卷积层三部分构成。3D卷积层和ResNet18层来源于预训练的唇读网络，在说话人提取训练期间，它们的权重是固定的。视频时间卷积层由修正线性单元(Relu)、批量归一化层(BN)和深度可分离卷积层(DS Conv1D)组成。视觉编码器接收音频同步的裁剪后的目标说话人唇部序列，并通过网络层提取视觉嵌入，为了匹配音频嵌入的时间分辨率，还需对视频时间卷积层的输出进行上采样，最终获得大小为1024的视觉嵌入V(t)。

说话人提取器：说话人提取器由四层提取器块迭代组成，每一个提取器块由一个说话人编码器和一个掩膜估计器组成。其中，说话人编码器根据动态估计的语音信号编码说话人嵌入A_r，掩膜估计器估计只让目标语音通过的掩膜M_r(t)。说话人编码器由三个残差块和自适应平均池化层组成，在两个分支中，两个编码器略有不同，在含有视觉信息的第一分支中，说话人编码器接收视觉编码器输出的视觉嵌入和动态估计的语音信号的音频嵌入，在时间维度上拼接两个模态的嵌入，输出含有区分性身份信息的目标说话人嵌入，嵌入大小为256。在第二分支中，说话人编码器仅接收音频嵌入作为输入，输出干扰说话人嵌入。

如图2所示，掩膜估计器是基于时间卷积网络构建的，由8个时间卷积块堆叠而成，每个时间卷积块由多个一维卷积层和残差模块组成，一维卷积的核大小为3，时间卷积块的膨胀因子为2^d。掩膜估计器的输入为视觉嵌入V(t)、目标说话人嵌入A_r和上一层提取块输出的掩膜M_r-1(t)，第二分支中的掩膜估计器输入不包含视觉嵌入，其他与第一分支相同。

本实施例中，使用三个目标函数构建多任务学习框架，第一分支的尺度不变信噪比(SISNR)损失用于衡量提取的目标语音和干净语音之间的质量，第二分支的尺度不变信噪比损失(SISNR)用于衡量提取的干扰语音和干净目标语音之间的质量，跨模态损失用于拉进目标视觉特征和预估目标语音信号音频特征，拉远目标视觉特征和预估干扰语音信号音频特征。损失定义如下所示。

L＝L_SISNR1+L_SISNR2+ΥL_Crossmodal (4)

L_Crossmoal＝max{0,dp-dn+margin} (6)

其中，γ是比例因子，本实施例中设置为0.1。

当然，在其他实施例中，可以根据目标语音分离的要求、应用场景等不同，设置或调整各项损失的比例因子。

在公式(6)中，dp表示视觉特征和预估目标语音信号音频特征之间的余弦距离，dn表示视觉特征和预估干扰语音信号音频特征之间的余弦距离，dp,dn∈[0,2]，margin为两个距离之间的余量，设置为0.5。

本实施例中，使用数据集VoxCeleb2对模型进行训练与评估。数据集VoxCeleb2包含从YouTube中提取的超过100万条音频和对应视频，训练集中有5994个说话人，测试集中有118个说话人。可以从原始训练数据集中每次随机选取两个语音，并将其直接混合创建含有20000个混合音频的训练集，从原始测试集中每次随机选取两个语音，并将其直接混合创建含有5000个混合音频的验证集，测试集中有3000个混合音频，创建方式与验证集相同。数据集中每条语音的采样频率为16kHz，音频长度为4s。数据集中，视频采样率为25FPS，视频音频长度相同且时间对应。

在模型训练过程中，本实施例使用Adam优化器，设置初始学习率为1e^-4，如果连续3个epoch验证集损失增加，则学习率降低0.5，当连续6个epoch验证损失增加，训练停止。在推理阶段，只保留第一分支的说话人提取过程。

当然，上述过程中，数据集可以选用其他合法公开来源的数据进行训练，且模型优化器，如动量优化器等，这些均属于本领域技术人员容易想到的常规选择，在此不再赘述。

可以理解的，在其他实施例中，上述参数或阈值的设定值、取值等，均可以根据具体场景、情况进行调整或更改，这些均属于本领域技术人员容易想到的常规选择，理应属于本发明的保护范围。

实施例二

一种基于跨模态损失的目标语音分离系统，其特征是，包括：

所述目标语音分离模型在训练过程为两分支架构，其中：

所述训练后的目标语音分离模型包括音频编码器、视觉编码器、说话人提取器和音频解码器，其中：

为了验证上述实施例的提供的技术方案的有效性和性能，在此处进行如下质量评估。

本实施例中，采用以下四个指标对目标语音分离算法性能进行评估。

(1)信号失真比提升(Signal to Distortion Ratio improvement,SDRi)。SDRi是估计语音信号和输入混合语音信号的两个信号失真比(Signal to Distortion Ratio,SDR)的差值，能直观反映算法分离前后语音信号质量的提升，算法分离前后SDR改善越大，SDRi值越大，表示模型性能越好。SDR表示目标信号功率与其他干扰信号功率的比例，反映算法分离后的增强语音中目标语音分量与其他干扰语音分量的能量比，目标有效信号占比越大，信号失真比越大，表示算法分离的目标语音更接近真实语音，SDR的计算公式为：

(2)尺度不变信号失真比提升(Scale Invariant Signal to Distortion Ratioimprovement,SISDRi)。SISDRi是估计语音信号和输入混合语音信号的两个尺度不变信号失真比(Scale Invariant Signal to Distortion Ratio,SISDR)的差值，SISDR是在SDR基础上提出的一种更具有鲁棒性的改进评价指标，旨在避免尺度不匹配造成的偏差问题。SISDR值越大，分离算法分离出的预估语音更接近真实语音，模型性能越好。SISDR的计算公式为：

(3)客观语音质量评估(Perceptual Evaluation of Speech Quality，PESQ)。PESQ是语音增强、分离和提取最常用的质量评估指标之一。该指标参考主观评价指标MOS的设计，通过带噪的衰减信号和参考信号计算MOS预测值，并将得分范围映射到MOS刻度范围。PESQ取值范围为-0.5–4.5之间，取值越大，表示测试语音质量越突出。

(4)短时客观可懂度(Short-Time Objective Intelligibility，STOI)。STOI是一种与语音信号可懂度线性相关的客观语音质量评价指标，用于评估语音信号可懂度，适用语音识别等场景。STOI旨在计算一段语音中能够被准确读懂的词汇所占的百分比，从而评估提取语音的可理解性，其范围在0-1之间，STOI越大意味该提取语音可懂度越高。

在数据集VoxCeleb2上，对模型评估的结果如表1所示。经过算法处理后，语音信号的SISDR提升了8.201dB，SDR提升了8.777dB。模型在不引入复杂目标辅助信息的基础上，有效从混合语音信号中提取出目标语音，避免目标混淆问题，在各个评估指标中获得良好结果。

表1本发明方案中目标语音分离结果

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，本领域技术人员不需要付出创造性劳动所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于跨模态损失的目标语音分离方法，其特征是，包括以下步骤：

获取目标说话人视频，提取目标说话人唇部序列；

获取混合音频信号；

所述目标语音分离模型在训练过程为两分支架构，其中：

2.如权利要求1所述的一种基于跨模态损失的目标语音分离方法，其特征是，所述第一分支包括音频编码器、视觉编码器、说话人提取器和音频解码器，其中：

3.如权利要求1所述的一种基于跨模态损失的目标语音分离方法，其特征是，所述第二分支包含依次连接的音频编码器、说话人提取器和音频解码器；

所述第二分支仅存在于训练过程中；

第二分支的音频编码器接收混合音频信号与第一分支中预估的目标语音信号的差值，说话人编码器仅接收音频嵌入，输出干扰说话人嵌入。

4.如权利要求1所述的一种基于跨模态损失的目标语音分离方法，其特征是，在目标语音分离算法中引入跨模态损失，在目标说话人视觉特征、目标语音特征和干扰语音特征之间进行度量学习，利用视听一致性约束视觉和听觉特征的提取，将干扰说话人信息转化为辅助信息，优化第一分支的语音提取。

5.如权利要求1-4中任一项所述的一种基于跨模态损失的目标语音分离方法，其特征是，在目标语音分离模型的训练过程中，构建包含三个目标函数的多任务学习框架，第一分支的尺度不变信噪比损失用于衡量提取的目标语音和干净语音之间的质量，第二分支的尺度不变信噪比损失用于衡量提取的干扰语音和干净目标语音之间的质量，跨模态损失用于拉进目标视觉特征和预估目标语音信号音频特征，拉远目标视觉特征和预估干扰语音信号音频特征。

6.如权利要求1-4中任一项所述的一种基于跨模态损失的目标语音分离方法，其特征是，所述视觉编码器包括依次连接的3D卷积层、残差网络层和视频时间卷积层，视频时间卷积层包括依次连接的修正线性单元、批量归一化层和深度可分离卷积层，视觉编码器接收音频同步的裁剪后的目标说话人唇部序列，并通过网络层提取视觉嵌入，对视频时间卷积层的输出进行上采样，最终获得视觉嵌入。

7.如权利要求1-4中任一项所述的一种基于跨模态损失的目标语音分离方法，其特征是，所述说话人编码器包括依次连接的三个残差块和自适应平均池化层，所述掩膜估计器包括多个堆叠的时间卷积块，每个时间卷积块包括依次连接的多个一维卷积层和残差模块。

8.如权利要求1-4中任一项所述的一种基于跨模态损失的目标语音分离方法，其特征是，在目标语音分离模型的训练过程中，使用已有音频数据和对应视频数据，利用Adam优化器进行优化训练，直至满足测试要求。

9.一种基于跨模态损失的目标语音分离系统，其特征是，包括：

所述目标语音分离模型在训练过程为两分支架构，其中：

10.一种电子设备，其特征是，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-8中任一项所述的方法中的步骤。