CN115376542A

CN115376542A - 一种低侵入性的视听语音分离方法及系统

Info

Publication number: CN115376542A
Application number: CN202211005193.0A
Authority: CN
Inventors: 王坤朋; 李文娜; 姚娟; 刘忠仁; 周浩; 张江梅; 冯兴华; 张春峰
Original assignee: Southwest University of Science and Technology
Current assignee: Southwest University of Science and Technology
Priority date: 2022-08-22
Filing date: 2022-08-22
Publication date: 2022-11-22

Abstract

本发明公开了一种低侵入性的视听语音分离方法及系统，该方法包括以下步骤：获取视频中不同目标对象的人脸图像之间不具备隐私侵入性的分辨率；基于不具备隐私侵入性的分辨率，选取多种分辨率的音视频训练数据集并预处理；构建低侵入性视听语音分离模型；利用预处理后的数据训练视听语音分离模型；将待分离的视听语音输入已训练好的视听语音分离模型中，分离出各目标对象的语音。本发明构建了一种新的视觉模态模型，将视觉特征的提取分为双支路结构，该结构同时融合了说话人的动态特征与语义特征，可在人脸图像分辨率不具备隐私侵入性的情况下有效关注可辅助语音分离的唇部动态特征，这使系统既能达到语音分离的目的又可以保护使用者的隐私信息。

Description

一种低侵入性的视听语音分离方法及系统

技术领域

本发明涉及语音分离技术领域，特别是一种低侵入性的视听语音分离方法及系统。

背景技术

如今人工智能已广泛应用于各个领域，如医疗领域、金融领域、网络安全领域等等，生活中具有人机交互功能的多模态机器人的应用场景不断增多，良好的语音分离性能是多模态机器人与用户进行良好交互的前提。视听多模态语音分离较单模态语音分离性能更好，但多模态机器人若要实现良好语音分离性能，首要任务在于视觉与语音信息的采集，如人脸图像、用户语音等，这导致对话机器人的隐私性能差，限制了对话机器人的应用范围，在这个个人隐私保护和个人信息安全备受重视的时代，人们一方面享受着多模态机器人所带来的便捷服务，另一方面又为其对隐私的侵犯而困扰。

语音分离也被称为“鸡尾酒会问题”，目的是从多人混合语音中得到每个说话人的纯净语音。随着信息技术与多媒体技术的发展，视频信号与音频信号被大量的同时保存与传播，研究者们不再局限于仅采用语音来解决语音分离问题，而是同时引入视觉信息来辅助分离。第一个视听语音分离工作的提出证明了视听语音分离的有效性，随后很多视听语音分离方法被提出，尤其是基于大数据的深度学习视听多模态语音分离。但这些方法在实现了比纯语音分离更好的分离性能的同时也采集用户更多的信息，用户在走向与机器人交互更加顺畅、便捷的同时，也担心自己的隐私被暴露，有些用户甚至会拒绝使用采集个人信息的机器人。

除此之外，多模态交互机器人或智能设备采集的视觉信息都为高清视觉信息及高采样率音频信息，如测温机器人、商用服务机器人、人脸验证、考勤设备等，高清视觉信息与高采样率音频中包含用户丰富的个人信息，如年龄、情绪、声纹等，在如今互联网大数据时代这些信息一旦泄露，不法分子便可利用这些信息获取用户更多的隐私，如健康状态、人际关系、消费行为等，而隐私泄露将导致用户不再信任人工智能，不利于人工智能的发展。

发明内容

鉴于此，本发明提供一种低侵入性的视听语音分离方法及系统，以解决上述技术问题。

本发明公开了一种低侵入性的视听语音分离方法，包括以下步骤：

步骤1：获取视频中的人脸图像之间不具备隐私侵入性的分辨率；

步骤2：基于不具备隐私侵入性的分辨率，选取多种分辨率的音视频训练数据集并预处理；其中，所述音视频包括所述视频以及与所述视频同步的语音；

步骤3：构建低侵入性视听语音分离模型；

步骤4：利用预处理后的数据训练视听语音分离模型；

步骤5：将待分离的视听语音输入已训练好的所述视听语音分离模型中，分离出所述待分离的视听语音中的语音。

进一步地，所述步骤1包括：

步骤11、从视觉模态分别采集任意两个目标对象s₁和s₂的n个人脸图像并分别形成人脸图像序列；其中，所述人脸图像的分辨率为f_v；

步骤12、利用人脸特征提取器F_v，分别对两个目标对象s₁和s₂对应的人脸图像序列进行特征提取，得到人脸特征序列

和

步骤13、绘制人脸特征聚类图，计算人脸特征序列

和

的视觉模态隐私侵入性大小z_v；

步骤14、降低人脸图像的分辨率，重复步骤12至步骤13，直到不能区分人脸特征聚类图中两个人脸特征聚类图中的类别为止，然后找到对应人脸图像不具备隐私侵入性的分辨率。

进一步地，在所述步骤13中：

当f_v低于阈值Th_v时，采用任意的特征提取器F_v得到的两个目标对象的人脸特征均不具有差异性，即对于

统计量

两者之间的差别无统计学意义，则认为视觉模态不具备侵入性；

其中，α_v为置信度水平，N为两人采用的人脸图片数，

进一步地，所述步骤2包括：

提取视听数据集中与视频同步的音频；对于视频，选取三种不同分辨率，分别为原始分辨率，不具备隐私侵入性的分辨率之下的分辨率，介于原始分辨率与不具备隐私侵入性的分辨率之间分辨率；

将视听数据集中的视频分辨率灰度化，将灰度化的视频的分辨率分别降低至所选的三种分辨率。

进一步地，所述视听数据集选择LRS3数据集、LRS2数据集与GRID数据集，且LRS3数据集、LRS2数据集与GRID数据集分别被分为训练集、验证集与测试集，互不重叠。

进一步地，所述步骤3包括：

步骤31：利用深度神经网络构建视觉模态模型，

步骤32：将视觉模态模型与多个纯语音分离模型结合，构成低侵入性视听语音分离模型。

进一步地，在所述步骤31中：

视觉模态模型总体分为快支路和慢支路，快支路和慢支路分别以不同的帧速率处理同一输入的视频，并在不同的阶段进行横向连接，最后通过卷积块注意力模块关注与音频特征相关的视觉特征。

进一步地，所述慢支路以较大的时序跨度在一整段视频中获取稀疏的视频帧；若慢支路的采样率为T，时间跨度为τ，原始视频长度为T*τ帧；

快支路与慢支路并行，以较小的时间跨度在一整段视频中获取稠密的视频帧；快支路的时间跨度为τ/，α为两支路的帧率比，α>1，即采样率为αT；α代表两条支路对于同一视频在不同时间速度上的处理方式。

进一步地，在所述步骤32中：

视觉特征与音频特征的融合采用串联方式，串联后的视听融合特征送入分离器进行分离任务，音频解码器将分离器产生的掩码恢复为语音。

本发明还公开了一种低侵入性的视听语音分离系统，包括：

分辨率获取模块，用于获取视频中不同目标对象的人脸图像之间不具备隐私侵入性的分辨率；

预处理模块，用于基于不具备隐私侵入性的分辨率，选取多种分辨率的音视频训练数据集并预处理；其中，所述音视频包括所述视频以及与所述视频同步的语音；

构建模块，用于构建低侵入性视听语音分离模型；

训练模块，用于利用预处理后的数据训练视听语音分离模型；

分离模块，用于将待分离的视听语音输入已训练好的所述视听语音分离模型中，分离出各目标对象的语音。

由于采用了上述技术方案，本发明具有如下的优点：构建了一种新的视觉模态模型，将视觉特征的提取分为双支路结构，这种结构同时融合了说话人的唇部动态特征与语义特征，可在人脸图像分辨率不具备隐私侵入性的情况下有效关注可辅助语音分离的唇部动态特征，这使系统能够既达到语音分离的目的又可以保护使用者隐私信息，还可使系统扩展到低分辨率摄像头设备上。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例的一种低侵入性的视听语音分离方法的流程示意图；

图2为本发明实施例的所绘制人脸特征聚类图；

图3为本发明实施例的低侵入性视听语音分离流程的系统图；

图4为本发明实施例的视觉模态模型的结构示意图。

具体实施方式

结合附图和实施例对本发明作进一步说明，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

本实施例中一种低侵入性的视听语音分离方法及系统的具体实现平台：操作系统为ubuntu16.04，编程语言为Python 3.7，神经网络框架为Pytorch1.11.0版本，CUDA版本为11.7，计算加速单元为NVIDIA 3090Ti GPU。

如图1所示，本发明提供了一种低侵入性的视听语音分离方法的实施例，其包括如下步骤；

S1、获取视频中的人脸图像之间不具备隐私侵入性的分辨率。

S11、视觉隐私侵入性的量化计算方法：

定义如下：设从视觉模态分别采集到任意两个说话人s₁和s₂的n个面部图像序列分别为

和

图像分辨率均为f_v，使用视觉特征提取器F_v分别对说话人s₁和s₂的面部图像进行特征提取得到特征序列为

和

当分辨率f_v低于阈值Th_v时，采用任意的特征提取器F_v得到的两个说话人的脸部特征均不具有差异性，即对于

统计量

两者之间的差别无统计学意义，则认为视觉模态不具备侵入性，公式：

其中，α_v为置信度水平，N为两人采用的人脸图片数，

S12、将人脸识别数据集中男女分开，进行了三组实验，分别为男-男实验组、女-女实验组，男-女实验组，每组实验中任意两人进行配对。

本实施例人脸识别数据集采用Pins Face Recognition数据集。Pins FaceRecognition数据经过裁剪和标记，共包括了105个名人的不同角度与不同形式的17534张图片，图片原始分辨率为224×224。

S13、每组实验中，利用最新人脸识别网络提取每对中人脸图像的特征序列

与

本实施例利用人脸识别网络FaceNet提取每对人脸图像特征序列

与

实验采用了该网络中可用于人脸验证、识别或聚类的最后一层面部特征。

其中，FaceNet在LFW数据集上测试的准确率达到了99.63％。

S14、绘制人脸特征聚类图，计算两人脸特征序列

与

的z_v；

如图2所示，为本发明实施例的人脸特征聚类图。

本实施例使用TSNE绘制人脸特征聚类图，图中不同颜色代表每对中不同人s₁与s₂，每个点代表从一张人脸图像中提取出的特征，红色点代表在低分辨率下，两人特征距离小于0.15。

S15、降低人脸图像分辨率、重复S12～S14直到人脸特征聚类图中两人人脸特征聚类图中类别聚合趋势不明显，此时对应分辨率为分辨率上线；

其中，实验按照原始图像比例降低分辨率，最低分辨率f_vmin，最高分辨率为f_vmax。

S2、基于不具备隐私侵入性的分辨率，选取多种分辨率的音视频训练数据集并预处理；其中，音视频包括视频以及与视频同步的语音；

本实施例对视听数据集提取与视频同步的音频。对于视频，选取三个不同分辨率，分别为原始分辨率(HR)，阈值分辨率之下的分辨率(LR)，介于原始分辨率与阈值分辨率之间分辨率(MR)。将视听数据集中的视频分辨率灰度化，将灰度化的视频分别降低至所选的三种分辨率。

其中，视听数据集选择LRS3数据集、LRS2数据集与GRID数据集，每个数据集被分为训练集、验证集与测试集，互不重叠。

如图3所示，本实施例中，低侵入性视听语音分离模型包括视觉模态模型、音频编码器、分离器及音频解码器。

S3、构建低侵入性视听语音分离模型包括；

S31、构建视觉模态模型。

如图4所示，为本发明实施例中的视觉模态模型结构图。本实施例中，视觉模态模型总体上分为两个支路，分别称为快支路与慢支路。两个支路使用相同的卷积神经网络，但以不同的帧速率处理同一段视频，并在不同的阶段进行横向连接。

S32、慢支路以较大的时序跨度在一整段视频中获取稀疏的视频帧，这样低帧率的采样下主要获取人的颜色、纹理等语义信息。若慢支路的采样率为T，时间跨度为τ(每隔τ帧图像序列处理一帧)，原始视频长度为T*τ帧。

S33、快支路与慢支路并行，但以较小的时间跨度在一整段视频中获取稠密的视频帧。快支路的时间跨度为τ/α(α>1)，α为两支路的帧率比，即采样率为αT。α代表了两条支路对于同一视频在不同时间速度上的处理方式。

其中，在快支路中不仅采用高采样率的输入，在整体网络中不对时间维度进行下采样(不进行池化与卷积)。同时快支路还具有较低的信道容量，慢支路的β(β<1)倍，对于空间的建模能力弱，含有空间语义信息少。

本实施例中，τ＝16/13，α＝8，β＝1/8。

S34、两支路在每个“阶段”以横向连接的方式进行融合，使另外一条支路含有另外一条支路所提取的特征。

本实施例中，横向连接具体在pool1、res2、res3和res4之后。最后，对每条支路的输出进行全局池化，将两个特征向量连接起来。去掉了最后的全连接层，网络具体实例化参数如表1所示，卷积核的维度用{T×S²,C}表示，T×S²表示时空大小，T其中是时间长度，S是一个正方形空间裁剪的高度和宽度，C是通道数。

表1网络具体实例化参数

S35、将特征沿时间维度进行上采样后得到视觉特征F^v。最后通过卷积块注意力块进一步关注与音频特征相关的视觉特征。

S36、将视觉模态模型嵌入到其他纯语音分离模型的方法中，得到低侵入性视听语音分离模型。视觉特征与音频特征融合阶段采用串联融合方式。

本实例化中，纯语音分离模型选择Conv-TasNet，DPRNN将本发明中所提视觉模态模型嵌入到其中构成低侵入性视听语音分离模型。视觉特征与音频特征的融合采用串联方式，串联后的视听融合特征送入分离器进行分离任务，音频解码器将分离器产生的掩码恢复为语音。

S4、利用预处理后的数据训练视听语音分离模型包括；

S41、在音频采样率8000Hz下训练纯语音模型；

S42、利用训练好的纯语音模型进行高分辨率(HR)下的增量训练视听语音分离模型，音频采样率为8000Hz；

S43、利用S42训练好的视听分离模型继续增量训练低分辨率(MR和LR)下的视听语音分离模型。

实验设置：

初始学习率为1^-5，批量大小(batch size)为1，优化器为ADAM优化器，学习率每隔两个epoch调整为原来的0.98倍。采用评价指标为尺度不变信噪比(SI-SNRi)与信噪比(SDRi)衡量分离出的说话人语音的质量。

实施例结果：

表2为本发明与纯语音分离模型对比结果；

视觉模态模型对视觉信息提取是在视频原始分辨率、音频采样率为8000Hz时。从表中我们可以看出，相比单模态语音分离模型，加入视觉模态模型的方法分离结果更好。这说明，当引入视觉信息时，由于唇部动态特征和声学特征之间的互补性使分离性能的到了提高。同时说明，视觉模态模型在嵌入到其他单模态分离方法中时，仍能够起到作用，与单模态相比多模态语音分离更具有效性。

表2本发明与纯语音分离模型对比结果

表3为本发明在LRS3数据集中在不用分辨率下对比结果；可以看出在视频分辨率降低时，两种方法的分离性能并没有下降，甚至有所提升。我们猜测这是因为此时在低分辨率情况下，视频中与声学特征无关的信息被模糊，如脸部轮廓、颜色、发型等，本视觉模态模型所提取唇部动态特征更加丰富。尤其是在分辨率为50×50时分离性能仍旧良好，这说明了我们的方法能够在不侵犯用户隐私条件下良好的完成语音分离任务。

表3本发明在LRS3数据集中在不用分辨率下对比结果

表4为本发明实施例在LRS2数据集中在不用分辨率下对比结果；与在LRS3数据集中结果类似，在视频分辨率降低时，两种方法的分离性能并没有下降，甚至有所提升。表5为本发明实施例在GRID数据集中在不用分辨率下对比结果。

表4本发明在LRS2数据集中在不用分辨率下对比结果

表5本发明实施例在GRID数据集中在不用分辨率下对比结果；

S5、将待分离的视听语音输入已训练好的所述视听语音分离模型中，分离出待分离的视听语音中的语音。

本发明还提供了一种低侵入性的视听语音分离系统的实施例，其包括：

预处理模块，用于基于不具备隐私侵入性的分辨率，选取多种分辨率的音视频训练数据集并预处理；其中，音视频包括视频以及与视频同步的语音；

构建模块，用于构建低侵入性视听语音分离模型；

分离模块，用于将待分离的视听语音输入已训练好的视听语音分离模型中，分离出各目标对象的语音。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。