CN113035225A

CN113035225A - 视觉声纹辅助的语音分离方法及装置

Info

Publication number: CN113035225A
Application number: CN201911252373.7A
Authority: CN
Inventors: 许家铭; 张鹏; 石晶; 徐波
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Zhongke Zidong Taichu Beijing Technology Co ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2021-06-25
Anticipated expiration: 2039-12-09
Also published as: CN113035225B

Abstract

本发明实施例涉及一种视觉声纹辅助的语音分离方法和装置，所述方法包括：对采集到的混合语音数据进行音频处理，得到该混合语音数据的隐层表示；对采集到的目标对象的视频数据进行视频处理，得到该视频数据的隐层表示；所述视频数据与所述混合语音数据在时间维度上对齐；基于所述视频数据的隐层表示，确定目标对象的身份信息；基于所述混合语音数据的隐层表示、视频数据的隐层表示和身份信息，从所述混合语音数据中分离出所述目标对象的语音数据。由此，可以实现混合语音数据中分离出目标对象的语音数据。

Description

视觉声纹辅助的语音分离方法及装置

技术领域

本发明实施例涉及音视频处理领域，尤其涉及一种视觉声纹辅助的语音分离方法及装置。

背景技术

近些年，随着电子设备和人工智能技术的飞速发展，人机语音交互的重要性日益凸显。但是，由于声学环境负载，干扰声多言，很难从混合语音数据中提出目标对象的语音数据。因此，如何从混合语音数据中提取出目标对象的语音数据就成为业界持续探讨的问题。

发明内容

鉴于此，为解决上述技术问题或部分技术问题，本发明实施例提供一种视觉声纹辅助的语音分离方法和装置。

第一方面，本发明实施例提供一种视觉声纹辅助的语音分离方法，包括：

对采集到的混合语音数据进行音频处理，得到该混合语音数据的隐层表示；

对采集到的目标对象的视频数据进行视频处理，得到该视频数据的隐层表示；所述视频数据与所述混合语音数据在时间维度上对齐；

基于所述视频数据的隐层表示，确定目标对象的身份信息；

基于所述混合语音数据的隐层表示、视频数据的隐层表示和身份信息，从所述混合语音数据中分离出所述目标对象的语音数据。

在一个可能的实施方式中，所述基于所述混合语音数据的隐层表示、视频数据的隐层表示和身份信息，从所述混合语音数据中分离出所述目标对象的语音数据，包括：

若该目标对象是已注册对象，则在预设数据库中获取该目标对象的声纹数据，并基于所述混合语音数据的隐层表示、视频数据的隐层表示和所述声纹数据，得到所述目标对象的语音掩模，采用所述语音掩模对所述混合语音数据进行掩模处理，得到所述目标对象的语音数据；

若该目标对象是未注册对象，则基于所述混合语音数据的隐层表示、视频数据的隐层表示，得到所述目标对象的语音掩模，采用所述语音掩模对所述混合语音数据进行掩模处理，得到所述目标对象的语音数据。

在一种可选的实施方式中，所述对采集到的混合语音数据进行音频处理，得到该混合语音数据的隐层表示，包括：

将采集到的混合语音数据转换为混合语音线性谱；

将混合语音线性谱输入至预设的语音处理子网络中，以使得所述语音处理子网络对混合语音线性谱在时间维度上进行卷积，得到混合语音数据的隐层表示；所述语音处理子网络为基于多层因果扩张卷积神经网络的子网络。

在一种可选的实施方式中，所述对采集到的目标对象的视频数据进行视频处理，得到该视频数据的隐层表示，包括：

将该视频数据拆分为多帧图像；

对每一帧图像进行人脸检测，截取每一帧图像中的人脸图像；

将多帧图像相对应的多帧人脸图像输入至预设的人脸特征提取网络中进行特征提取，得到特征向量；

将所述特征向量输入到预设的视觉处理子网络中，以使得所述视觉处理子网络对所述特征向量在时间维度上进行卷积，得到该视频数据的隐层表示；所述视觉处理子网络为基于多层因果空洞卷积神经网络的子网络。

在一种可选的实施方式中，所述基于所述混合语音数据的隐层表示、视频数据的隐层表示和所述声纹数据，得到所述目标对象的语音掩模，包括：

将所述声纹数据在时间维度上进行扩展，以使所述声纹数据与所述混合语音数据的隐层表示和视频数据的隐层表示在时间维度上对齐；

将扩展的声纹数据、所述混合语音数据的隐层表示和视频数据的隐层表示在时间维度上进行拼接，得到拼接后的拼接特征；

将所述拼接特征输入到预设的掩模生成网络中，得到所述目标对象的语音掩模；所述掩模生成网络包括：多层因果空洞卷积和全连接层。

在一种可选的实施方式中，所述基于所述混合语音数据的隐层表示、视频数据的隐层表示，得到所述目标对象的语音掩模包括：

将所述混合语音数据的隐层表示和视频数据的隐层表示在时间维度上进行拼接，得到拼接后的拼接特征；

若该目标对象是未注册对象，所述方法还包括：

从识别出的所述目标对象的语音数据中提取所述目标对象的声纹数据；

将提取到的所述声纹数据储存至预设的数据库。

第二方面，本发明实施例提供一种视觉声纹辅助的语音分离装置，包括：

音频处理单元，用于对采集到的混合语音数据进行音频处理，得到该混合语音数据的隐层表示；

视频处理单元，用于对采集到的目标对象的视频数据进行视频处理，得到该视频数据的隐层表示；所述视频数据与所述混合语音数据在时间维度上对齐；

身份识别单元，用于基于所述视频数据的隐层表示，确定目标对象的身份信息；

语音分离单元，用于基于所述混合语音数据的隐层表示、视频数据的隐层表示和身份信息，从所述混合语音数据中分离出所述目标对象的语音数据。

在一种可选的实施方式中，所述语音分离单元，具体用于若该目标对象是已注册对象，则在预设数据库中获取该目标对象的声纹数据，并基于所述混合语音数据的隐层表示、视频数据的隐层表示和所述声纹数据，得到所述目标对象的语音掩模，采用所述语音掩模对所述混合语音数据进行掩模处理，得到所述目标对象的语音数据；

在一种可选的实施方式中，所述音频处理单元，具体用于将采集到的混合语音数据转换为混合语音线性谱；

在一种可选的实施方式中，所述视频处理单元，具体用于将该视频数据拆分为多帧图像；

在一种可选的实施方式中，所述语音分离单元，在基于所述混合语音数据的隐层表示、视频数据的隐层表示和所述声纹数据，得到所述目标对象的语音掩模时，具体用于将所述声纹数据在时间维度上进行扩展，以使所述声纹数据与所述混合语音数据的隐层表示和视频数据的隐层表示在时间维度上对齐；

在一种可选的实施方式中，所述语音分离单元，在基于所述混合语音数据的隐层表示、视频数据的隐层表示，得到所述目标对象的语音掩模时，具体用于将所述混合语音数据的隐层表示和视频数据的隐层表示在时间维度上进行拼接，得到拼接后的拼接特征；将所述拼接特征输入到预设的掩模生成网络中，得到所述目标对象的语音掩模；所述掩模生成网络包括：多层因果空洞卷积和全连接层。所述语音识别单元，还用于若该目标对象是未注册对象，则从识别出的所述目标对象的语音数据中提取所述目标对象的声纹数据；将提取到的所述声纹数据储存至预设的数据库。

本申请提供一种基于深度学习技术的，端到端的深度利用视觉和声纹线索进行语音分离的模型，用于在复杂声学场景中利用混合语音数据、视频数据和声纹数据得到目标对象的语音掩模，并通过该语音掩模从混合语音数据中提取目标对象的语音数据，从而实现了从混合语音数据中分离出目标对象的语音数据。

附图说明

图1为本申请一示例性实施例示出的一种视觉声纹辅助的语音分离方法的流程图；

图2为本申请一示例性实施例示出的一种视觉声纹辅助的语音分离装置的框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本发明实施例的理解，下面将结合附图以具体实施例做进一步的解释说明，实施例并不构成对本发明实施例的限定。

近些年，随着电子设备和人工智能技术的飞速发展，人机语音交互的重要性日益凸显。然而，由于干扰声源的存在，在复杂开放环境下的语音交互技术远没有达到令人满意的程度。人类通过语音之间的沟通其实是基于多种感官信号(例如听觉、视觉)共同的刺激而完成的。举例而言，在日常的一段对话过程中，除了听觉通路本身以外，视觉也会带来如对语音分离质量的提升、对语音分离性能的提升(例如通过唇语动作的辅助)等作用。除了在多种模态信号输入方面的复杂之外，现实中的语音经常会面对有不止一个人参与的场景。在这类场景中，声学环境复杂，干扰声多样，这使得在复杂的场景中的语音分离技术成为一个非常重要的任务。

语音分离是语音处理中的一项重要任务，其目的是从混合语音中分离出目标说话人的语音。这就是Cherry在1953年所提出的著名的“鸡尾酒会”问题，虽然该问题被研究了60多年，但是截至今日，该问题还没有得到很好的解答。经典的语音分离任务只专注于从单纯的听觉通道来分离不同说话人的语音，忽略了在实际场景中视觉信号参与的重要性。在仅有听觉通道的情况下，当两个说话人具有相似声纹时，分离效果十分不理想。

近几年，整合视觉和听觉通道来做语音分离的方法还只有很少的工作被提出来。在仅有的一些工作中，需要使用非常理想的面部数据或采用额外的工具来提取说话人的清晰和正面的脸部或唇部区域。这种视觉信息的获取十分严苛，并且当视觉信息丢失时，语音分离质量会受到较为严重影响。

有鉴于此，本申请提供一种基于深度学习技术的，端到端的深度利用视觉和声纹线索进行语音分离的模型，用于在复杂声学场景中利用混合语音数据、视频数据和声纹数据得到目标对象的语音掩模，并通过该语音掩模从混合语音数据中提取目标对象的语音数据，从而实现了从混合语音数据中分离出目标对象的语音数据。

参见图1，图1是本申请一示例性实施例示出的一种视觉声纹辅助的语音分离方法的流程图，该方法可包括如下所示步骤。

步骤101：对采集到的混合语音数据进行音频处理，得到所述混合语音数据的隐层表示。

在实现时，利用麦克风采集场景中的全程语音，经过A/D转换，采样率转换后，得到16000采样率的单通道混合语音数据。

将所述混合语音信号经短时傅里叶变换(STFT)得到混合语音线性谱，并将将混合语音线性谱输入至预设的语音处理子网络中，以使得所述语音处理子网络对混合语音线性谱在时间维度上进行卷积，得到混合语音数据的隐层表示。

其中，语音处理子网络是多层因果扩张卷积神经网络的子网络，可以通过多层因果扩张卷积神经网络，将所输入的混合语音线性谱的特征提取为高维的隐层向量，得到该混合语音数据的隐层表示。

其中，语音处理子网络的第一层卷积神经网络会依据输入语音特征的通道数的不同而制定不同的输入通道数目。在整个语音处理子网络中，卷积层的操作将保持数据的尺寸大小不变，但是通道数保持不变或增加，直到达到预设定好的通道数目。其中，该语音处理子网络采用流式处理的方式，每200ms处理一次，对应的语音帧数为20，可以达到实时的目的；考虑到时序在语音信号中的重要性，我们沿着时间维度做1-D卷积，即在频率维度上的特征经过多层的网络后融合到一起。最终在每一个帧上得到一个一维的隐层向量表示。

步骤102：对采集到的目标对象的视频数据进行视频处理，得到所述视频数据的隐层表示；所述视频数据与所述混合语音数据在时间维度上对齐。

在实现时，将该视频数据拆分为多帧图像，并对每一帧图像进行人脸检测，截取每一帧图像中的人脸图像。将多帧图像相对应的多帧人脸图像输入至预设的人脸特征提取网络中进行特征提取，得到特征向量，并将所述特征向量输入到预设的视觉处理子网络中，以使得所述视觉处理子网络对所述特征向量在时间维度上进行卷积，得到该视频数据的隐层表示。其中，该每一帧图像是RGB图像。

其中，人脸检测网络可以完成上述“每一帧图像进行人脸检测，截取每一帧图像中的人脸图像”的操作。人脸检测网络对是在大规模人脸检测数据集上预训练得到的。该人脸检测网络用于检测每帧图像中的人脸并输出只包含人脸的图像。

人脸特征提取网络是在大规模人脸识别数据集上预训练得到的，用于提取每帧人脸图像的特征；将多帧图像的人脸特征堆叠在一起得到T*D维的特征向量，其中T是帧数，D是每帧特征的维度，然后将上述T*D维的特征向量输入视频处理子网络中。

视频处理子网络是多层因果扩张卷积网络中的子网络。该视频处理子网络也采用流式处理的方式，每200ms处理一次，对应的图像帧数为5；时序在视频处理中同样重要，所以沿着时间维度做1-D卷积，最终在每一个帧上得到一个一维的隐层向量表示，之后再做上采样操作使得到的视觉部分的隐层表示的帧数与听觉部分的隐层表示的帧数相同。

步骤103：基于所述视频数据的隐层表示，确定目标对象的身份信息。

在本申请中，设置有预设数据库，预设数据库中保存了已注册对象的身份信息和声纹数据的对应关系。

在本申请中，检测该预设数据库中是否包含目标对象的身份信息，若该预设数据库中包含该目标对象的身份信息，则确定该目标对象的已注册对象。若该目标预设数据库中未包含该目标对象的身份信息，确定该目标对象为未注册对象。

步骤104：基于所述混合语音数据的隐层表示、视频数据的隐层表示和身份信息，从所述混合语音数据中分离出所述目标对象的语音数据。

1)若该目标对象是已注册对象，则在预设数据库中获取该目标对象对应的声纹数据，并基于所述混合语音数据的隐层表示、视频数据的隐层表示和所述声纹数据，得到所述目标对象的语音掩模，采用所述语音掩模对所述混合语音数据进行掩模处理，得到所述目标对象的语音数据。

下面对“基于所述混合语音数据的隐层表示、视频数据的隐层表示和所述声纹数据，得到所述目标对象的语音掩模”进行介绍。

在实现时，将所述声纹数据在时间维度上进行扩展，以使所述声纹数据与所述混合语音数据的隐层表示和视频数据的隐层表示在时间维度上对齐。并将扩展的声纹数据、所述混合语音数据的隐层表示和视频数据的隐层表示在时间维度上进行拼接，得到拼接后的拼接特征。然后将所述拼接特征输入到预设的掩模生成网络中，得到所述目标对象的语音掩模。

其中，该掩模生成网络包括：多层因果空洞卷积和全连接层。

2)若该目标对象是未注册对象，则基于所述混合语音数据的隐层表示、视频数据的隐层表示，得到所述目标对象的语音掩模，采用所述语音掩模对所述混合语音数据进行掩模处理，得到所述目标对象的语音数据。

下面对上述“采用所述语音掩模对所述混合语音数据进行掩模处理”进行详细地说明。

将掩膜(mask)与混合语音的线性谱逐项相乘得到目标对象的语音线性谱。然后将目标对象的语音线性谱进行反短时傅里叶变换(ISTFT)后得到目标对象的语音数据。

由上述描述可知，第一方面，现有语音分离方案中，单纯利用听觉通道进行分离和听觉、视觉通道整合的方案都存在难以解决的问题。首先单纯利用听觉通道进行分离的方案难以解决声纹相似的说话人的语音分离；听觉、视觉通道整合的方案需要获得高质量的面部数据，这在大多数情况下是不切实际的。并且，当视觉信息丢失时，语音分离的质量会急速下降。针对上述问题，我们提出了我们的方案。

第二方面，我们的方案可以很好的解决上述问题，对于声纹相似的说话人，我们利用视觉信息进行辅助分离；对于视觉信息丢失的情况，我们采用声纹信息进行辅助分离。

第三方面，我们的模型可以作为一个处理多说话人场景的基础工具，很方便地与处理一些下游的任务配合，例如语音转录、会议纪要等。这可以有效地解决一系列面向多说话人场景中语音分离的问题。

此外，本申请还提供了与上述视觉声纹辅助的语音分离方法对应的视觉声纹辅助的语音分离装置。

参见图2，图2为本申请一示例性实施例示出的一种视觉声纹辅助的语音分离装置的框图，该语音分离装置可包括如下所示单元。

在一种可选的实施方式中，所述语音分离单元，在基于所述混合语音数据的隐层表示、视频数据的隐层表示，得到所述目标对象的语音掩模时，具体用于将所述混合语音数据的隐层表示和视频数据的隐层表示在时间维度上进行拼接，得到拼接后的拼接特征；将所述拼接特征输入到预设的掩模生成网络中，得到所述目标对象的语音掩模；所述掩模生成网络包括：多层因果空洞卷积和全连接层。若该目标对象是未注册对象，则从识别出的所述目标对象的语音数据中提取所述目标对象的声纹数据；将提取到的所述声纹数据储存至预设的数据库。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视觉声纹辅助的语音分离方法，其特征在于，包括：

对采集到的混合语音数据进行音频处理，得到所述混合语音数据的隐层表示；

对采集到的目标对象的视频数据进行视频处理，得到所述视频数据的隐层表示，所述视频数据与所述混合语音数据在时间维度上对齐；

基于所述视频数据的隐层表示，确定目标对象的身份信息；

2.根据权利要求1所述的方法，其特征在于，所述基于所述混合语音数据的隐层表示、视频数据的隐层表示和身份信息，从所述混合语音数据中分离出所述目标对象的语音数据，包括：

若所述目标对象是已注册对象，则在预设数据库中获取所述目标对象的声纹数据，并基于所述混合语音数据的隐层表示、视频数据的隐层表示和所述声纹数据，得到所述目标对象的语音掩模，采用所述语音掩模对所述混合语音数据进行掩模处理，得到所述目标对象的语音数据；

若所述目标对象是未注册对象，则基于所述混合语音数据的隐层表示、视频数据的隐层表示，得到所述目标对象的语音掩模，采用所述语音掩模对所述混合语音数据进行掩模处理，得到所述目标对象的语音数据。

3.根据权利要求2所述的方法，其特征在于，所述对采集到的混合语音数据进行音频处理，得到所述混合语音数据的隐层表示，包括：

将采集到的混合语音数据转换为混合语音线性谱；

4.根据权利要求要求2所述的方法，其特征在于，所述对采集到的目标对象的视频数据进行视频处理，得到所述视频数据的隐层表示，包括：

将所述视频数据拆分为多帧图像；

将所述特征向量输入到预设的视觉处理子网络中，以使得所述视觉处理子网络对所述特征向量在时间维度上进行卷积，得到所述视频数据的隐层表示；所述视觉处理子网络为基于多层因果空洞卷积神经网络的子网络。

5.根据权利要求2所述的方法，其特征在于，所述基于所述混合语音数据的隐层表示、视频数据的隐层表示和所述声纹数据，得到所述目标对象的语音掩模，包括：

将所述拼接特征输入到预设的掩模生成网络中，得到所述目标对象的语音掩模，所述掩模生成网络包括：多层因果空洞卷积和全连接层。

6.根据权利要求2所述的方法，其特征在于，所述基于所述混合语音数据的隐层表示、视频数据的隐层表示，得到所述目标对象的语音掩模包括：

将所述拼接特征输入到预设的掩模生成网络中，得到所述目标对象的语音掩模，所述掩模生成网络包括：多层因果空洞卷积和全连接层；

若所述目标对象是未注册对象，所述方法还包括：

从分离出的所述目标对象的语音数据中提取所述目标对象的声纹数据；

将提取到的所述声纹数据储存至预设的数据库。

7.一种视觉声纹辅助的语音分离装置，其特征在于，包括：

音频处理单元，用于对采集到的混合语音数据进行音频处理，得到所述混合语音数据的隐层表示；

视频处理单元，用于对采集到的目标对象的视频数据进行视频处理，得到所述视频数据的隐层表示，所述视频数据与所述混合语音数据在时间维度上对齐；

8.根据权利要求7所述的装置，其特征在于，所述语音分离单元，具体用于若所述目标对象是已注册对象，则在预设数据库中获取所述目标对象的声纹数据，并基于所述混合语音数据的隐层表示、视频数据的隐层表示和所述声纹数据，得到所述目标对象的语音掩模，采用所述语音掩模对所述混合语音数据进行掩模处理，得到所述目标对象的语音数据；

9.根据权利要求8所述的装置，其特征在于，所述音频处理单元，具体用于将采集到的混合语音数据转换为混合语音线性谱；将混合语音线性谱输入至预设的语音处理子网络中，以使得所述语音处理子网络对混合语音线性谱在时间维度上进行卷积，得到混合语音数据的隐层表示；所述语音处理子网络为基于多层因果扩张卷积神经网络的子网络。

10.根据权利要求8所述的装置，其特征在于，所述视频处理单元，具体用于将所述视频数据拆分为多帧图像；对每一帧图像进行人脸检测，截取每一帧图像中的人脸图像；将多帧图像相对应的多帧人脸图像输入至预设的人脸特征提取网络中进行特征提取，得到特征向量；将所述特征向量输入到预设的视觉处理子网络中，以使得所述视觉处理子网络对所述特征向量在时间维度上进行卷积，得到所述视频数据的隐层表示；所述视觉处理子网络为基于多层因果空洞卷积神经网络的子网络。

11.根据权利要求8所述的装置，其特征在于，所述语音分离单元，在基于所述混合语音数据的隐层表示、视频数据的隐层表示和所述声纹数据，得到所述目标对象的语音掩模时，具体用于将所述声纹数据在时间维度上进行扩展，以使所述声纹数据与所述混合语音数据的隐层表示和视频数据的隐层表示在时间维度上对齐；将扩展的声纹数据、所述混合语音数据的隐层表示和视频数据的隐层表示在时间维度上进行拼接，得到拼接后的拼接特征；将所述拼接特征输入到预设的掩模生成网络中，得到所述目标对象的语音掩模；所述掩模生成网络包括：多层因果空洞卷积和全连接层。

12.根据权利要求8所述的装置，其特征在于，所述语音分离单元，在基于所述混合语音数据的隐层表示、视频数据的隐层表示，得到所述目标对象的语音掩模时，具体用于将所述混合语音数据的隐层表示和视频数据的隐层表示在时间维度上进行拼接，得到拼接后的拼接特征；将所述拼接特征输入到预设的掩模生成网络中，得到所述目标对象的语音掩模，所述掩模生成网络包括：多层因果空洞卷积和全连接层；若所述目标对象是未注册对象，则从识别出的所述目标对象的语音数据中提取所述目标对象的声纹数据；将提取到的所述声纹数据储存至预设的数据库。