CN117334211A

CN117334211A - 一种应用于沉浸式视频会议系统中的语音分离方法及系统

Info

Publication number: CN117334211A
Application number: CN202311240771.3A
Authority: CN
Inventors: 胡瑞敏; 吴玉林; 王晓晨
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2023-09-22
Filing date: 2023-09-22
Publication date: 2024-01-02

Abstract

本发明提供了一种应用于沉浸式视频会议系统中的语音分离方法及系统，基于独立音源片段提取说话人声纹特征，分为多模态特征表示阶段和分离阶段，多模态特征表示阶段提取混合信号片段中信号特征系数，提取说话人独立音源片段建立声纹信息网络，提取说话人的人脸视觉特征，利用音源空间特征分析网络提取说话人的空间特征；分离阶段包括根据信号特征系数、声纹特征、人脸特征和空间特征，进行融合；在潜在空间中学习混合信号中每个说话人的掩膜；根据掩膜和混合信号片段中信号特征系数，获得潜在空间特征；将潜在空间特征反变换到时域；根据说话人的空间方位信息，将分离的说话人语音渲染到正确的位置，满足视频会议中用户的沉浸、灵活交互需求。

Description

一种应用于沉浸式视频会议系统中的语音分离方法及系统

技术领域

本发明属于数字音频信号处理领域，涉及沉浸式视频会议系统中的语音分离技术方案，适用于沉浸式视频会议系统，满足视频会议中用户的沉浸、灵活交互需求。

背景技术

随着行业数字化、智能化不断升级加速发展，语音交互场景从人机交互扩展到视频会议语音分离等人人交互，语音交互的场景和需求在不断增加。如何在多个说话人同时发声的场景下，有效分离纯净的单个说话人声音，准确识别说话人语音并做出相应的回复，提升视频会议中沉浸式体验，是当前语音交互中急需解决的重要问题。

音源分离问题来源于1953年Cherry在国际音频领域顶级期刊上提出的“鸡尾酒会效应”。根据分离系统输入模态的不同，音源分离技术可分为基于音频的单一模态分离方法和基于音视频的多模态分离方法。(1)基于音频的单一模态分离方法，即分离系统的输入仅是混合语音信号。当前的多说话人语音分离技术可分为传统数学模型方法和深度学习方法两大类。传统数学模型方法主要利用独立成分分析方法、非负矩阵方法和空间聚类方法分解混合语音信号；深度学习方法是使用深度学习的方法建立说话人混合信号和纯净语音信号之间的映射关系。(2)基于音视频的多模态分离方法，即分离系统的输入是混合语音信号和视频信号。已有心理声学的实验证明，在背景噪声或竞争说话人的环境下，说话人视觉信息的辅助输入有助于提升听觉感知。多模态音源分离的前言算法利用说话人的音频和视觉信息，但未充分利用说话人的音频模态声音特性，视觉模态中说话人的空间位置，导致分离的说话人声音质量受限。

发明内容

为解决上述技术问题，本发明提供一种应用于沉浸式视频会议系统中的语音分离方案，本发明能够充分利用音频、视频和空间信息全面提升分离的说话人声音质量，从而增强人沟通时的“社交临场感”。

本发明提供一种应用于沉浸式视频会议系统中的语音分离方法，基于独立音源片段提取说话人声纹特征，实现过程包括多模态特征表示阶段和分离阶段，

所述多模态特征表示阶段包括以下步骤，

步骤A1，提取混合信号片段中信号特征系数；

步骤A2，提取混合信号中每个说话人的独立音源片段；

步骤A3，对步骤A2得到的独立音源片段，建立声纹信息网络；

步骤A4，对于视频信号，利用人脸检测方式提取说话人的人脸区域，建立人脸属性分析网络，提取说话人的人脸视觉特征；

步骤A5，对于空间方位信号，利用音源空间特征分析网络提取说话人的空间特征；

所述分离阶段包括以下步骤，

步骤B1，根据步骤A1，A3，A4和A5得到说话人的信号特征系数、声纹特征、人脸特征和空间特征，进行融合；

步骤B2，根据步骤B1得到的多模态特征融合，构建多模态分离网络，在潜在空间中学习混合信号中每个说话人的掩膜；

步骤B3，根据步骤B2得到的每个说话人的掩膜和步骤A1得到的混合信号片段中信号特征系数，利用掩膜和混合信号特征系数获得每个说话人的潜在空间特征；

步骤B4，根据步骤B3得到的每个说话人的潜在空间特征，将说话人的潜在空间特征反变换到时域，得到混合信号中的时域音源信号；

步骤B5，根据步骤B4得到的单个说话人信号，根据说话人的空间方位信息，将分离的说话人语音渲染到正确的位置。

而且，输入的信号适用于不同环境下的、不同类型的语音信号。

而且，所述声纹信息网络，利用独立音源片段，提取每个说话人的高辨识度特征，包括提取独立音源片段的梅尔频率倒谱系数MFCC、对数能量、基音频率F₀和共振峰频率F_n,n＝1,2,3。

而且，所述利用音源空间特征分析网络提取说话人的空间特征，包括利用多维高斯变量编码空间方位信号。

而且，利用音频、视频和空间特征构建所述多模态分离网络，在潜在空间中学习混合信号中每个说话人的掩膜mask_j。

而且，利用掩膜和混合信号特征系数获得每个说话人的潜在空间特征g_j，实现方式如下，

其中，coeff为混合信号的时频信号，表示逐元素相乘，。

另一方面，本发明提供一种应用于沉浸式视频会议系统中的语音分离系统，包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如上所述的一种应用于沉浸式视频会议系统中的语音分离方法。

另一方面，本发明提供一种应用于沉浸式视频会议系统中的语音分离系统，包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如上所述的一种应用于沉浸式视频会议系统中的语音分离方法。

本发明语音分离方案与一般的分离技术相比，在噪声和混响环境下，语音分离质量较高，提升语音的听感和可懂度，能给用户带来更好的沉浸式体验。该方法适用于沉浸式会议中的交互设备，且适用于不同环境下的、不同类型的语音信号。

附图说明

图1是本发明实施例的语音分离流程图。

具体实施方式

为了便于本领域的技术人员理解和实施本发明，下面结合附图以及具体实施示例对本发明的技术方案作进一步说明，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明：

本发明提供了一种应用于沉浸式视频会议系统中的语音分离方案，用于解决视频会议环境下，目标说话人语音受到多个声学干扰或多个目标音源影响，语音的听感和可懂度急剧下降的问题。方案分为两个阶段：(一)多模态特征表示阶段：(1)音频部分：首先提取独立音源片段和多音源片段的基音、频谱系数等特征的差异性，然后利用特征提取独立音源片段；其次根据独立音源片段，建立声纹信息网络，提取说话人的声纹特征；(2)视频部分：利用人脸检测算法从视频帧中获取说话人的面部区域，并提取说话人的人脸视觉特征；(3)空间特征部分：构建音源空间特征分析网络提空间方位信号的空间特征。(二)分离阶段：将说话人的信号特征系数、声纹特征、人脸特征和空间特征融合并建立多模态分离模型，在潜在空间中学习混合信号中每个说话人的掩膜，并利用掩膜和混合信号特征系数获得每个说话人的潜在空间特征。将说话人的潜在空间特征反变换到时域，得到混合信号中的时域音源信号。最后根据说话人的空间方位信息，将分离的说话人语音渲染到正确的位置，满足视频会议中用户的沉浸、灵活交互需求。

为改进现有语音分离技术语音分离质量低的问题，本实施例阐述了一种应用于沉浸式视频会议系统中的语音分离方法，本发明实施例提供的一种应用于沉浸式视频会议系统中的语音分离方法实施流程图如图1所示。

实施例的实现过程分为多模态特征表示阶段和分离阶段。多模态特征表示阶段：分别提取输入的音频信号、视频信号和空间方位信号的特征，并拼接成多模态特征；分离阶段：利用多模态特征映射成单个说话人语音。

实施例多模态特征表示阶段包括以下具体实施步骤：

输入为语音信号采样频率是48kHz，位深度是32位，音频格式是wav。

应注意的是，此处规定的语音参数仅为举例说明本发明的实施过程，并不用于限定本发明。本发明输入的信号适用于不同环境下的、不同类型的语音信号。

步骤A1：提取混合信号片段中信号特征系数coeff。即提取混合信号的频谱幅度X(t,f)。

X(t,f)＝|STFT(x(t),N)|

其中，x(t)是混合信号，t为采样点，STFT()为短时傅里叶变换函数，N为快速傅里叶变换长度，|·|是幅值计算操作，f为频点。

步骤A2：提取混合信号中每个说话人的独立音源片段。

其中，s_j表示混合信号中只包含第j个说话人声源的所有时频点的集合，(t,f)表示时频点，M_j(t,f)为第j个说话人的时频点。

步骤A3：对步骤A2得到的独立音源片段，建立声纹信息网络，提取独立音源片段的梅尔频率倒谱系数(MFCC,Mel frequency cepstral coefficient)、对数能量、基音频率F₀和共振峰频率(F_n,n＝1,2,3)。由于梅尔频率倒谱系数是按帧计算的，声纹信息网络为12维静态MFCC参数和一阶12维动态MFCC参数的组合。其中，n为共振峰频率的序号。

本发明通过声纹信息网络，利用独立音源片段，提取每个说话人的高辨识度特征。

应注意的是，此处规定的语音特征参数(梅尔频率倒谱系数、对数能量、基音频率和共振峰频率)仅为举例说明本发明的实施过程，并不用于限定本发明。

步骤A4：对于视频信号，利用人脸检测算法提取说话人的人脸区域，建立人脸属性分析网络，提取说话人的人脸视觉特征V_j。

V_j＝v(feature(I))

其中，I为摄像头采集的说话人视频信号，feature()为人脸特征提取器，v()为视觉编码器，实施例中视觉编码器采用卷积神经网络来实现，即人脸属性分析网络。

所述人脸检测算法的实现方式为，利用MTCNN或Retina人脸检测算法提取人脸区域，然后利用时域时域卷积神经网络编码视觉特征。

步骤A5：对于空间方位信号，利用音源空间特征分析网络提取说话人的空间特征D_j。

D_j＝d(feature(L_j))

其中，L_j为说话人的空间方位，d()为空间方位编码器。

实施例中所述音源空间特征分析网络的实现方式为，利用多维高斯变量编码空间方位信号利用多维高斯变量编码空间方位信号。

本发明提供一种应用于沉浸式视频会议系统中的语音分离方法，提出基于独立音源片段提取说话人声纹特征算法，其中分离器包括以下步骤：

步骤B1：根据步骤A1，A3，A4和A5得到说话人的信号特征系数X(t,f)、声纹特征、人脸特征V_j和空间特征D_j，进行融合。

F＝Concatenate(X(t,f),F₀,F_n,V_j,D_j)

其中，F₀为基音频率，F_n为共振峰频率，Concatenate()为连接模块，融合方式为特征合并。

步骤B2：根据步骤B1得到的多模态特征融合，构建多模态分离网络g，在潜在空间中学习混合信号中每个说话人的掩膜mask_j。

mask_j＝g(F)

其中，g()表示多模态分离网络的处理。

所述多模态分离网络的实现方式为，采用基于自注意力机制方法实现多模态特征的映射。

本发明利用音频、视频和空间特征构建多模态分离网络，在潜在空间中学习混合信号中每个说话人的掩膜。

针对步骤B2所述多模态分离网络，网络训练过程根据情况选择合适的学习算法、训练次数和损失函数等一系列超参数。

步骤B3：根据步骤B2得到的每个说话人的掩膜和步骤A1得到的混合信号片段中信号特征系数，利用掩膜和混合信号特征系数获得每个说话人的潜在空间特征g_j。

其中，coeff为混合信号的时频信号，表示逐元素相乘。

步骤B4：根据步骤B3得到的每个说话人的潜在空间特征g_j，将说话人的潜在空间特征反变换到时域，得到混合信号中的时域音源信号

其中，D()表示反变换到时域。

步骤B5：根据步骤B4得到的单个说话人信号，根据说话人的空间方位信息，将分离的说话人语音渲染到正确的位置。

与现有语音分离方法相比，本发明具有的优势及特点是：

在噪声和混响环境下，语音分离质量较高，提升语音的听感和可懂度，能给用户带来更好的沉浸式体验。该方法适用于沉浸式会议中的交互设备，且适用于不同环境下的、不同类型的语音信号。

具体实施时，本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程，实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备，也应当在本发明的保护范围内。

在一些可能的实施例中，提供一种应用于沉浸式视频会议系统中的语音分离系统，包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如上所述的一种应用于沉浸式视频会议系统中的语音分离方法。

在一些可能的实施例中，提供一种应用于沉浸式视频会议系统中的语音分离系统，包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如上所述的一种应用于沉浸式视频会议系统中的语音分离方法。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种应用于沉浸式视频会议系统中的语音分离方法，其特征在于，基于独立音源片段提取说话人声纹特征，实现过程包括多模态特征表示阶段和分离阶段，所述多模态特征表示阶段包括以下步骤，

步骤A1，提取混合信号片段中信号特征系数；

步骤A2，提取混合信号中每个说话人的独立音源片段；

步骤A3，对步骤A2得到的独立音源片段，建立声纹信息网络；

所述分离阶段包括以下步骤，

2.根据权利要求1所述的一种应用于沉浸式视频会议系统中的语音分离方法，其特征在于：输入的信号适用于不同环境下的、不同类型的语音信号。

3.根据权利要求1所述的一种应用于沉浸式视频会议系统中的语音分离方法，其特征在于：所述声纹信息网络，利用独立音源片段，提取每个说话人的高辨识度特征，包括提取独立音源片段的梅尔频率倒谱系数MFCC、对数能量、基音频率F₀和共振峰频率F_n,n＝1,2,3。

4.根据权利要求1所述的一种应用于沉浸式视频会议系统中的语音分离方法，其特征在于：所述利用音源空间特征分析网络提取说话人的空间特征，包括利用多维高斯变量编码空间方位信号。

5.根据权利要求1所述的一种应用于沉浸式视频会议系统中的语音分离方法，其特征在于：利用音频、视频和空间特征构建所述多模态分离网络，在潜在空间中学习混合信号中每个说话人的掩膜mask_j。

6.根据权利要求5所述的一种应用于沉浸式视频会议系统中的语音分离方法，其特征在于：利用掩膜和混合信号特征系数获得每个说话人的潜在空间特征g_j，实现方式如下，

其中，coeff为混合信号的时频信号，表示逐元素相乘。

7.一种应用于沉浸式视频会议系统中的语音分离系统，其特征在于：包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如权利要求1-6任一项所述的一种应用于沉浸式视频会议系统中的语音分离方法。

8.一种应用于沉浸式视频会议系统中的语音分离系统，其特征在于：包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如权利要求1-6任一项所述的一种应用于沉浸式视频会议系统中的语音分离方法。