CN116189651A

CN116189651A - 一种用于远程视频会议的多说话人声源定位方法及系统

Info

Publication number: CN116189651A
Application number: CN202310173342.2A
Authority: CN
Inventors: 胡瑞敏; 吴玉林; 王晓晨
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2023-02-24
Filing date: 2023-02-24
Publication date: 2023-05-30

Abstract

本发明提供一种用于远程视频会议的多说话人声源定位方法及系统，属于数字音频信号处理技术领域，包括：采集多通道音频信号，将多通道音频信号转换为音频频域信号；获取视觉信号，提取视觉信号中的人脸面部位置信息；将音频频域信号和人脸面部位置信息进行融合，得到音视频信号多模态特征；对多模态特征进行映射，得到说话人空间方位信息；基于说话人空间方位信息，对原始说话人语音进行渲染，输出真实空间方位音频信号。本发明通过对远程视频会议中获取的音频特征和视觉特征进行融合，获得多说话人的方位信息，能辅助提升视频会议的声源定位效果，改进现有的声源定位技术在说话人定位模糊的缺陷，满足远程视频会议系统中的沉浸感听音需求。

Description

一种用于远程视频会议的多说话人声源定位方法及系统

技术领域

本发明涉及数字音频信号处理技术领域，尤其涉及一种用于远程视频会议的多说话人声源定位方法及系统。

背景技术

随着远程视频会议技术的日趋成熟，其清晰度、通话延迟等指标基本满足当前的会议需求，用户对会议的沉浸感需求更加凸显。

现有的远程视频会议技术中，有Facebook推出Horizon Workroom VR会议平台，还有微软宣布将具备混合现实功能的会议平台加入Microsoft Teams，沉浸式远程会议系统已成为热点需求，而如何获取说话人的空间信息，是当前沉浸式远程视频会议系统中一个亟待解决的问题。传统的基于音频的声源定位方法已发展成熟，但该技术中信息量单一，例如只有音频模态，定位性能受限，且基于音频的声源定位方法抗干扰能力弱，例如，在信噪比较低的情况下，定位误差较大，所以该技术难以应用于沉浸式的远程视频会议系统中。

进一步地，运用基于音视频多模态的声源定位方法，结合音频模态和视频模态之间的互补信息，能提升定位系统的抗干扰能力。多模态声源定位的思想是同时提取音频信号和视频图像特征，并利用它们在同一空间的互补信息实现多模态特征和空间方位之间的映射。音频信号和视觉图像含有说话人定位的线索信息，如何保留这些定位线索的同时，对音频信号和视觉图像压缩表达是多模态声源定位的关键内容。现有的多模态声源定位方法音频信号多通过提取具有相位变换的广义互相关线索作为输入的音频信号特征，视觉信号多通过提取说话人面部部位的离散余弦变换系数作为输入的视觉信号特征，这些高阶定位线索会限制神经网络学习多模态特征和说话人空间方位的映射关系。从而导致定位误差较大。

发明内容

本发明提供一种用于远程视频会议的多说话人声源定位方法及系统，用以解决现有技术中远程视频会议难以解决多说话人声源定位准确性的缺陷。

第一方面，本发明提供一种用于远程视频会议的多说话人声源定位方法，包括：

采集多通道音频信号，将所述多通道音频信号转换为音频频域信号；

获取视觉信号，提取所述视觉信号中的人脸面部位置信息；

将所述音频频域信号和所述人脸面部位置信息进行融合，得到音视频信号多模态特征；

对所述多模态特征进行映射，得到说话人空间方位信息；

基于说话人空间方位信息，对原始说话人语音进行渲染，输出真实空间方位音频信号。

根据本发明提供的一种用于远程视频会议的多说话人声源定位方法，所述采集多通道音频信号，将所述多通道音频信号转换为音频频域信号，包括：

基于预设采样频率采集若干说话人的音频信息，形成所述多通道音频信号；

通过短时傅里叶变换对所述多通道音频信号进行时域到频域变换，得到音频信号频谱；

分别提取所述音频信号频谱中每帧频谱信号的实部信息和虚部信息；

由多个实部信息和多个虚部信息构成所述音频频域信号。

根据本发明提供的一种用于远程视频会议的多说话人声源定位方法，所述通过短时傅里叶变换对所述多通道音频信号进行时域到频域变换，得到音频信号频谱之后，还包括：

基于预设重叠率的窗函数对所述音频信号频谱进行分帧处理，得到所述每帧频谱信号的帧序号和频点序号。

根据本发明提供的一种用于远程视频会议的多说话人声源定位方法，所述获取视觉信号，提取所述视觉信号中的人脸面部位置信息，包括：

采用预设人脸检测算法获取所述视觉信号中的人脸面部区域，提取所述人脸面部区域的中心位置像素坐标；

分别对所述中心位置像素坐标的横坐标和纵坐标采用高斯函数进行编码，获得所述人脸面部位置信息。

根据本发明提供的一种用于远程视频会议的多说话人声源定位方法，所述对所述多模态特征进行映射，得到说话人空间方位信息，包括：

由所述人脸面部位置信息确定说话人空间频谱，基于预设深度神经网络将所述多模态特征与所述说话人空间频谱进行映射，得到说话人空间方位信息。

根据本发明提供的一种用于远程视频会议的多说话人声源定位方法，所述基于说话人空间方位信息，对原始说话人语音进行渲染，输出真实空间方位音频信号，包括：

若确定采用耳机对所述原始说话人语音进行回放，则采用头相关传输函数对所述原始说话人语音进行渲染，得到所述真实空间方位音频信号；

若确定采用扬声器对所述原始说话人语音进行回放，则采用多声道渲染技术对所述原始说话人语音进行渲染，得到所述真实空间方位音频信号。

第二方面，本发明还提供一种用于远程视频会议的多说话人声源定位系统，包括：

转换模块，用于采集多通道音频信号，将所述多通道音频信号转换为音频频域信号；

提取模块，用于获取视觉信号，提取所述视觉信号中的人脸面部位置信息；

融合模块，用于将所述音频频域信号和所述人脸面部位置信息进行融合，得到音视频信号多模态特征；

映射模块，用于对所述多模态特征进行映射，得到说话人空间方位信息；

渲染模块，用于基于说话人空间方位信息，对原始说话人语音进行渲染，输出真实空间方位音频信号。

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述用于远程视频会议的多说话人声源定位方法。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述用于远程视频会议的多说话人声源定位方法。

第五方面，本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述用于远程视频会议的多说话人声源定位方法。

本发明提供的用于远程视频会议的多说话人声源定位方法及系统，通过对远程视频会议中获取的音频特征和视觉特征进行融合，获得多说话人的方位信息，能辅助提升视频会议的声源定位效果，改进现有的声源定位技术在说话人定位模糊的缺陷，满足远程视频会议系统中的沉浸感听音需求，同时给用户带来良好的会议体验。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的用于远程视频会议的多说话人声源定位方法的流程示意图之一；

图2是本发明提供的用于远程视频会议的多说话人声源定位方法的流程示意图之二；

图3是本发明提供的用于远程视频会议的多说话人声源定位系统的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，在很多成熟应用的远程视频会议系统中，虽然采用了多模态声源定位技术，但通常是应用高阶音视频特征作为定位的基础数据，导致定位误差较大，针对上述技术问题，本发明提出一种用于远程视频会议的多说话人声源定位方法，提取抽取低阶的音视频特征作为网络输入信号，图1是本发明实施例提供的用于远程视频会议的多说话人声源定位方法的流程示意图之一，如图1所示，包括：

步骤100：采集多通道音频信号，将所述多通道音频信号转换为音频频域信号；

步骤200：获取视觉信号，提取所述视觉信号中的人脸面部位置信息；

步骤300：将所述音频频域信号和所述人脸面部位置信息进行融合，得到音视频信号多模态特征；

步骤400：对所述多模态特征进行映射，得到说话人空间方位信息；

步骤500：基于说话人空间方位信息，对原始说话人语音进行渲染，输出真实空间方位音频信号。

具体地，本发明实施例从两个维度分别采集远程视频会议的输入信号，一方面是多通道音频信号，另一方面是视觉信号。对输入的多通道音频信号经过时域变换转到频域，然后提取音频频域信号中的实部信息和虚部信息，对输入的视觉信号进行人脸检测，提取说话人的面部区域信息，以面部区域中心点作为说话人空间位置信息；然后将音频频域信号的实部和虚部作为输入的音频特征，将说话人面部区域中心点的像素坐标高斯函数编码作为输入的视觉特征，并将音频特征和视觉特征融合；最后，利用深度神经网络完成音频特征和视觉特征到声源空间位置之间的映射，对原始说话人语音进行渲染，输出最终的真实空间方位音频信号。

如图2所示，本发明实施例的处理过程分为两个阶段，一是特征提取阶段，即分别对麦克风阵列采集的多通道音频信号和单目摄像机采集的视觉信号提取相应的特征，对多通道音频信号进行短时傅里叶变换(Short-time Fourier Transform，STFT)处理，得到多个音频信号频谱，再对多个音频信号频谱分别取实部信息和虚部信息；还对输入的视觉信号进行人脸检测，提取人脸面部区域的中心点位置，取中心点位置的横坐标和纵坐标。二是特征映射阶段，对一阶段提取的多个音频信号频谱的实部信息、虚部信息，以及人脸面部区域的中心点位置横坐标和纵坐标进行融合，再输入到深度神经网络进行模型训练，获得说话人的空间方位，最后采用对应的渲染技术，将原始说话人语音进行渲染，输出带有真实空间方位的音频信号。

本发明通过对远程视频会议中获取的音频特征和视觉特征进行融合，获得多说话人的方位信息，能辅助提升视频会议的声源定位效果，改进现有的声源定位技术在说话人定位模糊的缺陷，满足远程视频会议系统中的沉浸感听音需求，同时给用户带来良好的会议体验。

在上述实施例的基础上，步骤100包括：

由多个实部信息和多个虚部信息构成所述音频频域信号。

其中，所述通过短时傅里叶变换对所述多通道音频信号进行时域到频域变换，得到音频信号频谱之后，还包括：

具体地，通过麦克风阵列采集多个说话人同时发声的声音信号，对输入的J通道麦克风阵列采集的多个音频信号S₁,S₂,…,S_J，通过短时傅里叶变换模块进行时域-频域变换，得到音频信号频谱O₁(m,n),O₂(m,n),…,O_J(m,n)，m为帧序号，n为频点序号，对于音频数据集的采样率可以为16000/48000/96000赫兹等，优选为48000赫兹。

如图2所示的特征提取阶段中的“STFT”模块，将输入的多通道音频信号转换到频域，本发明实施例采用重叠窗对多通道音频信号进行分帧处理，常用的有凯塞-贝塞尔窗、汉宁窗、汉明窗、海明窗等窗函数，可以取50％、2/3重叠等常见重叠方式，STFT变换的点数可以取1024/2048常见数值，优选为使用50％重叠的43毫秒时长的汉明窗，STFT的点数是2048点。

进一步在特征提取阶段中的“取实部”模块和“取虚部”模块，对得到的每帧频谱数据提取实部和虚部。计算方式如下：

real_i(,n)＝real(O_i(m,n))

imag_i(,n)＝imaginary(O_i(m,n))

其中，O_i(m,n)为音频信号的频谱，m为帧序号，n为频点序号，real为取实部函数，imaginary为取虚部函数。

在上述实施例的基础上，步骤200包括：

具体地，在图2所示的特征提取阶段中的“人脸检测”模块，对输入的视觉信号提取说话人的面部区域，可选用多任务卷积神经网络(Multi-task convolutional neuralnetwork，MTCNN)和Retina人脸检测算法，优选为Retina人脸检测算法。

对说话人面部区域提取中心位置的像素坐标P，即以说话人面部区域中心点的空间位置作为说话人真实空间位置，对得到的像素坐标P提取横坐标P_u和纵坐标P_v，并对像素横坐标P_u和纵坐标P_v采用高斯函数编码，得到人脸面部位置信息。

在上述实施例的基础上，步骤300包括：

如图2中的特征映射阶段中“融合”模块，将获取的多通道音频特征和图像特征融合生成音视频多模态特征。

在上述实施例的基础上，步骤400包括：

具体地，由人脸面部位置信息确定对应的说话人空间频谱，将融合模块得到的音视频多模态特征输入到常用的深度神经网络中进行训练，完成音视频多模态特征和说话人空间频谱之间的映射，结合网络输出的说话人空间频谱进行编码获取多个说话人空间方位信息。

此处网络输出编码方法可选用高斯成形函数、后验概率、边际后验概率和基于似然的编码方法，优选采用基于似然的编码方法；网络训练过程根据情况选择合适的学习算法、训练次数和损失函数等一系列超参数。

在上述实施例的基础上，步骤500包括：

具体地，本发明实施例在特征映射阶段之后，对说话人空间位置信息应用渲染器，对原始说话人语音采用不同的渲染技术，重建真实声场。

需要说明的是，当声音回放设备是耳机时，渲染技术采用头相关传输函数，当声音回放设备是扬声器时，则采用多声道渲染技术，得到真实空间方位音频信号。

本发明通过处理多个人同时说话时的混合音频信号，与一般的声源定位方法相比，能有效提取多通道音频信号和视觉信号的低阶特征，并建立音频特征和视觉特征融合特征和说话人空间位置之间的映射，具有定位准确性较高，定位误差较小的特点，能给会议用户带来更好的沉浸式听觉体验。因此，本发明适用于沉浸式远程视频会议系统，且适用于多风格、多类型、多模态的音视频信号。

下面对本发明提供的用于远程视频会议的多说话人声源定位系统进行描述，下文描述的用于远程视频会议的多说话人声源定位系统与上文描述的用于远程视频会议的多说话人声源定位方法可相互对应参照。

图3是本发明实施例提供的用于远程视频会议的多说话人声源定位系统的结构示意图，如图3所示，包括：转换模块31、提取模块32、融合模块33、映射模块34和渲染模块35，其中：

转换模块31用于采集多通道音频信号，将所述多通道音频信号转换为音频频域信号；提取模块32用于获取视觉信号，提取所述视觉信号中的人脸面部位置信息；融合模块33用于将所述音频频域信号和所述人脸面部位置信息进行融合，得到音视频信号多模态特征；映射模块34用于对所述多模态特征进行映射，得到说话人空间方位信息；渲染模块35用于基于说话人空间方位信息，对原始说话人语音进行渲染，输出真实空间方位音频信号。

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行用于远程视频会议的多说话人声源定位方法，该方法包括：采集多通道音频信号，将所述多通道音频信号转换为音频频域信号；获取视觉信号，提取所述视觉信号中的人脸面部位置信息；将所述音频频域信号和所述人脸面部位置信息进行融合，得到音视频信号多模态特征；对所述多模态特征进行映射，得到说话人空间方位信息；基于说话人空间方位信息，对原始说话人语音进行渲染，输出真实空间方位音频信号。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的用于远程视频会议的多说话人声源定位方法，该方法包括：采集多通道音频信号，将所述多通道音频信号转换为音频频域信号；获取视觉信号，提取所述视觉信号中的人脸面部位置信息；将所述音频频域信号和所述人脸面部位置信息进行融合，得到音视频信号多模态特征；对所述多模态特征进行映射，得到说话人空间方位信息；基于说话人空间方位信息，对原始说话人语音进行渲染，输出真实空间方位音频信号。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的用于远程视频会议的多说话人声源定位方法，该方法包括：采集多通道音频信号，将所述多通道音频信号转换为音频频域信号；获取视觉信号，提取所述视觉信号中的人脸面部位置信息；将所述音频频域信号和所述人脸面部位置信息进行融合，得到音视频信号多模态特征；对所述多模态特征进行映射，得到说话人空间方位信息；基于说话人空间方位信息，对原始说话人语音进行渲染，输出真实空间方位音频信号。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于远程视频会议的多说话人声源定位方法，其特征在于，包括：

获取视觉信号，提取所述视觉信号中的人脸面部位置信息；

对所述多模态特征进行映射，得到说话人空间方位信息；

2.根据权利要求1所述的用于远程视频会议的多说话人声源定位方法，其特征在于，所述采集多通道音频信号，将所述多通道音频信号转换为音频频域信号，包括：

由多个实部信息和多个虚部信息构成所述音频频域信号。

3.根据权利要求2所述的用于远程视频会议的多说话人声源定位方法，其特征在于，所述通过短时傅里叶变换对所述多通道音频信号进行时域到频域变换，得到音频信号频谱之后，还包括：

4.根据权利要求1所述的用于远程视频会议的多说话人声源定位方法，其特征在于，所述获取视觉信号，提取所述视觉信号中的人脸面部位置信息，包括：

5.根据权利要求1所述的用于远程视频会议的多说话人声源定位方法，其特征在于，所述对所述多模态特征进行映射，得到说话人空间方位信息，包括：

6.根据权利要求1所述的用于远程视频会议的多说话人声源定位方法，其特征在于，所述基于说话人空间方位信息，对原始说话人语音进行渲染，输出真实空间方位音频信号，包括：

7.一种用于远程视频会议的多说话人声源定位系统，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述用于远程视频会议的多说话人声源定位方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述用于远程视频会议的多说话人声源定位方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述用于远程视频会议的多说话人声源定位方法。