CN116405633A

CN116405633A - 一种用于虚拟视频会议的声源定位方法及系统

Info

Publication number: CN116405633A
Application number: CN202310343517.XA
Authority: CN
Inventors: 胡瑞敏; 吴玉林; 王晓晨
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-07-07

Abstract

本发明提供一种用于虚拟视频会议的声源定位方法及系统，属于数字音频信号处理技术领域，包括：采集多通道音频信号，将多通道音频信号转换为音频频谱数据，提取音频频谱数据的音频特征；采集说话人视频图像，对说话人视频图像进行人脸检测获得人脸像素坐标，基于人脸像素坐标获取视觉特征；将音频特征和视觉特征进行融合获得融合特征数据，基于融合特征数据得到说话人三维空间位置；根据说话人三维空间位置对说话人原始语音进行渲染，得到真实三维空间音频信号。本发明通过将虚拟视频会议系统中的多通道音频信号和说话人的视频信号进行结合，能够提高多说话人三维空间位置的定位精度，确保图像与声音位置一致，有效提高会议效率，并提升用户体验。

Description

一种用于虚拟视频会议的声源定位方法及系统

技术领域

本发明涉及数字音频信号处理技术领域，尤其涉及一种用于虚拟视频会议的声源定位方法及系统。

背景技术

随着社会和科技的发展，人们之间的交流已不局限于面对面，各种虚拟视频会议的需求越来越多，因此虚拟视频会议的会议体验将是用户重点关注的问题。

目前，在虚拟视频会议中大量运用元宇宙技术，元宇宙是与现实世界相互打通、平行存在的虚拟世界。沉浸感是元宇宙未来发展中需要解决的基础体验。如何实时获取说话人的真实三维空间位置，使得图像与声像位置一致，是当前虚拟视频会议系统中一个亟待解决的问题。传统的声源定位仅使用一个传感器(通常是麦克风)来确定声源位置，由于单一传感器无法捕捉到足够的信息，定位准确性有限，且易受到环境噪声的影响，无法满足某些高精度的需求。基于单模态的声源定位方法利用声音在空间中传播的特性，测量声音传播的参数，然后利用数学模型计算声源位置。基于单模态的声源定位方法在理想的声学环境中定位性能较好，但在噪声环境中，或多个同时活动的声源情况下，单模态的声源定位精度会急剧下降。因此，单模态声源定位在精度、可靠性和适用范围方面存在一定的局限性。

针对虚拟视频会议系统，需要提出新的声源定位方法，以提高会议的体验感。

发明内容

本发明提供一种用于虚拟视频会议的声源定位方法及系统，用以解决现有技术中在虚拟视频会议中针对多说话人进行声源定位时容易受噪声影响，导致定位精度不高的缺陷。

第一方面，本发明提供一种用于虚拟视频会议的声源定位方法，包括：

采集多通道音频信号，将所述多通道音频信号转换为音频频谱数据，提取所述音频频谱数据的音频特征；

采集说话人视频图像，对所述说话人视频图像进行人脸检测获得人脸像素坐标，基于所述人脸像素坐标获取视觉特征；

将所述音频特征和所述视觉特征进行融合获得融合特征数据，基于所述融合特征数据得到说话人三维空间位置；

根据所述说话人三维空间位置对说话人原始语音进行渲染，得到真实三维空间音频信号。

根据本发明提供的一种用于虚拟视频会议的声源定位方法，所述采集多通道音频信号，将所述多通道音频信号转换为音频频谱数据，包括：

利用麦克风阵列，基于预设采样频率、预设位深度和预设音频格式采集不同类型说话人的音频信息，输出所述多通道音频信号；

由短时傅里叶变换对所述多通道音频信号进行时域到频域变换，得到音频频谱数据。

根据本发明提供的一种用于虚拟视频会议的声源定位方法，所述提取所述音频频谱数据的音频特征，包括：

提取所述音频频谱数据中每帧频谱数据的幅值信息和相位信息，所述幅值信息和所述相位信息均包括帧序号、频点序号和说话人序号；

由多个幅值信息和多个相位信息构成所述音频特征。

根据本发明提供的一种用于虚拟视频会议的声源定位方法，所述采集说话人视频图像，对所述说话人视频图像进行人脸检测获得人脸像素坐标，基于所述人脸像素坐标获取视觉特征，包括：

通过摄像头采集说话人的图像信号；

基于预设人脸检测算法检测所述图像信号中的说话人头部区域，提取所述说话人头部区域的人脸像素坐标；

根据所述人脸像素坐标确定所述视觉特征。

根据本发明提供的一种用于虚拟视频会议的声源定位方法，所述将所述音频特征和所述视觉特征进行融合获得融合特征数据，基于所述融合特征数据得到说话人三维空间位置，包括：

将所述音频特征和所述视觉特征输入至融合模块，得到所述融合特征数据；

将所述融合特征数据输入至预设多级卷积神经网络，输出说话人距离、说话人方位角和说话人高度角。

根据本发明提供的一种用于虚拟视频会议的声源定位方法，所述预设多级卷积神经网络包括顺次连接的第一模块、第二模块和第三模块；

所述第一模块包括连接层、扩张层、三维卷积层和压缩层，所述连接层用于对输入的所述音频特征和所述视觉特征进行拼接，所述三维卷积层用于提取时间轴特征，所述压缩层用于对提取的所述时间轴特征进行压缩处理；

所述第二模块包括6层残差稠密层，所述6层残差稠密层用于提取频率轴特征；

所述第三模块包括二维卷积层、交换层和激活函数，所述二维卷积层、所述交换层和所述激活函数用于提取方位轴特征。

根据本发明提供的一种用于虚拟视频会议的声源定位方法，所述根据所述说话人三维空间位置对说话人原始语音进行渲染，得到真实三维空间音频信号，包括：

若确定采用耳机对所述说话人原始语音进行回放，则采用头相关传输函数对所述说话人原始语音进行渲染，得到所述真实三维空间音频信号；

若确定采用扬声器对所述说话人原始语音进行回放，则采用环绕声渲染技术或杜比全景声渲染技术对所述说话人原始语音进行渲染，得到所述真实三维空间音频信号。

第二方面，本发明还提供一种用于虚拟视频会议的声源定位系统，包括：

音频处理模块，用于采集多通道音频信号，将所述多通道音频信号转换为音频频谱数据，提取所述音频频谱数据的音频特征；

视频处理模块，用于采集说话人视频图像，对所述说话人视频图像进行人脸检测获得人脸像素坐标，基于所述人脸像素坐标获取视觉特征；

融合模块，用于将所述音频特征和所述视觉特征进行融合获得融合特征数据，基于所述融合特征数据得到说话人三维空间位置；

渲染模块，用于根据所述说话人三维空间位置对说话人原始语音进行渲染，得到真实三维空间音频信号。

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述用于虚拟视频会议的声源定位方法。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述用于虚拟视频会议的声源定位方法。

本发明提供的用于虚拟视频会议的声源定位方法及系统，通过将虚拟视频会议系统中的多通道音频信号和说话人的视频信号进行结合，能够提高多说话人三维空间位置的定位精度，确保图像与声音位置一致，有效提高会议效率，并提升用户体验。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的用于虚拟视频会议的声源定位方法的流程示意图；

图2是本发明提供的用于虚拟视频会议的声源定位流程框图；

图3是本发明提供的多级映射流程图；

图4是本发明提供的汇总声源的水平方位角、高度角和距离示意图；

图5是本发明提供的用于虚拟视频会议的声源定位系统的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的用于虚拟视频会议的声源定位方法的流程示意图，如图1所示，包括：

步骤100：采集多通道音频信号，将所述多通道音频信号转换为音频频谱数据，提取所述音频频谱数据的音频特征；

步骤200：采集说话人视频图像，对所述说话人视频图像进行人脸检测获得人脸像素坐标，基于所述人脸像素坐标获取视觉特征；

步骤300：将所述音频特征和所述视觉特征进行融合获得融合特征数据，基于所述融合特征数据得到说话人三维空间位置；

步骤400：根据所述说话人三维空间位置对说话人原始语音进行渲染，得到真实三维空间音频信号。

本发明实施例首先将输入的多通道音频信号经过预处理变换到频域，然后提取频域信号的低级表示作为音频特征，利用人脸检测算法对输入的图像进行说话人人脸检测，得到人脸的像素坐标；然后利用人脸像素坐标提取视觉特征，接着将多通道音频特征和视觉特征融合，并构建特征矩阵，存储融合特征数据；最后将得到的融合特征数据传入映射模块中进行渲染，得到说话人的三维空间位置。

具体地，如图2所示，输入信号分别为多通道音频信号和视觉信号，对多通道音频信号进行预处理后提取音频特征，对视觉信号进行人脸检测提取视觉特征，进一步将音频特征和视觉特征输入到融合模块中进行融合之后，输入至多级映射模块，得到包括距离、方位角和高度角的三维空间位置，最后通过渲染器将原始说话人语音与三维空间位置进行渲染，输出带有真实三维空间的音频信号。

本发明通过将虚拟视频会议系统中的多通道音频信号和说话人的视频信号进行结合，能够提高多说话人三维空间位置的定位精度，确保图像与声音位置一致，有效提高会议效率，并提升用户体验。

在上述实施例的基础上，所述采集多通道音频信号，将所述多通道音频信号转换为音频频谱数据，包括：

可以理解的是，在虚拟视频会议系统中，输入的多通道音频信号包含多种类型的声音信号，如女声、男声和童声等不同种类的音频信号，在会议进行中，输入的多声道音频信号通常包含多个说话人同时发声的声音信号。

本发明实施例通过麦克风阵列采集声音信号，采用一定的采样频率，如8kHz、16kHz、48kHz或96kHz等，位深度通常是16位，音频格式是wav格式，采样之后得到多通道音频信号。

输入的多通道音频信号通过短时傅里叶变换进行时域-频域变换，得到音频频谱数据P_k，采用汉明窗得到具有一定帧长和一定帧移的频谱，例如帧长是8192，帧移是4096。

在上述实施例的基础上，所述提取所述音频频谱数据的音频特征，包括：

由多个幅值信息和多个相位信息构成所述音频特征。

具体地，本发明实施例对提取的音频特征采用低阶的信号表示，即提取频域信号的幅值和相位作为音频特征。计算方式如下：

amp_k(i，j)＝amplitude(P_k(i，j))

pha_k(i，j)＝phase(P_k(i，j))

其中，i为帧序号，j是频点序号，k是说话人序号，amplitude()是取幅值函数，phase()是取相位函数，P_k(i，j)为音频信号的频谱，amp_k(i，j)表示说话人的幅值，ph_k(i,j)表示说话人的相位。

需要说明的是，上述提取的幅值和相位只是为了举例说明本发明实施例针对提取音频特征的具体实施流程，并不用作限定本发明实施例。

在上述实施例的基础上，所述采集说话人视频图像，对所述说话人视频图像进行人脸检测获得人脸像素坐标，基于所述人脸像素坐标获取视觉特征，包括：

通过摄像头采集说话人的图像信号；

根据所述人脸像素坐标确定所述视觉特征。

具体地，本发明实施例通过视频会议中使用的摄像头采集说话人的图像信号，该图像信号是多帧图像，采用常用的人脸检测算法获取多帧图像信号中的说话人头部区域，这里的人脸检测算法可采用基于人脸特征点的识别算法、基于整幅人脸图像的识别算法、基于模板的识别算法、利用神经网络进行识别的算法和利用支持向量机进行识别的算法等。

对检测出的说话人头部区域提取人脸像素坐标，例如人脸中心点像素坐标，或者提取人脸区域关键识别点坐标，由该人脸像素坐标输出对应的视觉特征。

在上述实施例的基础上，所述将所述音频特征和所述视觉特征进行融合获得融合特征数据，基于所述融合特征数据得到说话人三维空间位置，包括：

其中，所述预设多级卷积神经网络包括顺次连接的第一模块、第二模块和第三模块；

具体地，本发明实施例将音频特征和视觉特征输入至融合模块得到融合特征数据，再将融合特征数据输入至映射模块中，得到说话人的三维空间位置。

此处，映射模块采用多级卷积神经网络，其中多级卷积神经网络包括三维卷积神经网络和二维卷积神经网络，实现时间轴、频率轴和方位轴的多层特征映射。

如图3所示，多级卷积神经网络三个模块：模块1、模块2和模块3，其中：

模块1由连接层、扩张层、三维卷积层和压缩层组成，连接层用于对输入的音频特征和视频特征拼接，卷积层提取时间轴特征，并利用压缩层对提取的特征进行压缩处理；

模块2由6层残差稠密层组成，6层残差稠密层用于提取频率轴特征，其中稠密连接的引入是为了增强神经网络各层之间的特征传递；

模块3有二维卷积层、交换层和激活函数组成，用于提取方位轴特征。

进一步地，得到的说话人三维空间位置，包括距离、方位角和高度角，对原始说话人语音进行渲染，输出带有真实三维空间的音频信号。其中，声源的水平角θ、高度角φ和距离d如图4所示。

在上述实施例的基础上，所述根据所述说话人三维空间位置对说话人原始语音进行渲染，得到真实三维空间音频信号，包括：

具体地，本发明实施例最后通过渲染器的渲染技术对说话人三维空间位置进行渲染，此处的渲染技术取决于具体的应用场景和个人喜好。

如果回放设备为耳机，则采用头相关传输函数对原始说话人语音进行渲染，得到真实的三维空间音频信号。

如果回放设备为扬声器，则采用环绕声渲染技术或杜比全景声渲染技术，实现真实、立体的听音效果。

本发明所提出的用于虚拟视频会议系统中的声源定位方法，改进了现有的声源定位技术在说话人定位模糊的问题，能应用于沉浸式的远程视频会议场景，且全过程均可采用计算机软件技术实现自动化处理流程，无需人工介入处理。

下面对本发明提供的用于虚拟视频会议的声源定位系统进行描述，下文描述的用于虚拟视频会议的声源定位系统与上文描述的用于虚拟视频会议的声源定位方法可相互对应参照。

图5是本发明实施例提供的用于虚拟视频会议的声源定位系统的结构示意图，如图5所示，包括：音频处理模块51、视频处理模块52、融合模块53和渲染模块54，其中：

音频处理模块51用于采集多通道音频信号，将所述多通道音频信号转换为音频频谱数据，提取所述音频频谱数据的音频特征；视频处理模块52用于采集说话人视频图像，对所述说话人视频图像进行人脸检测获得人脸像素坐标，基于所述人脸像素坐标获取视觉特征；融合模块53用于将所述音频特征和所述视觉特征进行融合获得融合特征数据，基于所述融合特征数据得到说话人三维空间位置；渲染模块54用于根据所述说话人三维空间位置对说话人原始语音进行渲染，得到真实三维空间音频信号。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行用于虚拟视频会议的声源定位方法，该方法包括：采集多通道音频信号，将所述多通道音频信号转换为音频频谱数据，提取所述音频频谱数据的音频特征；采集说话人视频图像，对所述说话人视频图像进行人脸检测获得人脸像素坐标，基于所述人脸像素坐标获取视觉特征；将所述音频特征和所述视觉特征进行融合获得融合特征数据，基于所述融合特征数据得到说话人三维空间位置；根据所述说话人三维空间位置对说话人原始语音进行渲染，得到真实三维空间音频信号。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的用于虚拟视频会议的声源定位方法，该方法包括：采集多通道音频信号，将所述多通道音频信号转换为音频频谱数据，提取所述音频频谱数据的音频特征；采集说话人视频图像，对所述说话人视频图像进行人脸检测获得人脸像素坐标，基于所述人脸像素坐标获取视觉特征；将所述音频特征和所述视觉特征进行融合获得融合特征数据，基于所述融合特征数据得到说话人三维空间位置；根据所述说话人三维空间位置对说话人原始语音进行渲染，得到真实三维空间音频信号。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于虚拟视频会议的声源定位方法，其特征在于，包括：

2.根据权利要求1所述的用于虚拟视频会议的声源定位方法，其特征在于，所述采集多通道音频信号，将所述多通道音频信号转换为音频频谱数据，包括：

3.根据权利要求1所述的用于虚拟视频会议的声源定位方法，其特征在于，所述提取所述音频频谱数据的音频特征，包括：

由多个幅值信息和多个相位信息构成所述音频特征。

4.根据权利要求1所述的用于虚拟视频会议的声源定位方法，其特征在于，所述采集说话人视频图像，对所述说话人视频图像进行人脸检测获得人脸像素坐标，基于所述人脸像素坐标获取视觉特征，包括：

通过摄像头采集说话人的图像信号；

根据所述人脸像素坐标确定所述视觉特征。

5.根据权利要求1所述的用于虚拟视频会议的声源定位方法，其特征在于，所述将所述音频特征和所述视觉特征进行融合获得融合特征数据，基于所述融合特征数据得到说话人三维空间位置，包括：

6.根据权利要求5所述的用于虚拟视频会议的声源定位方法，其特征在于，所述预设多级卷积神经网络包括顺次连接的第一模块、第二模块和第三模块；

7.根据权利要求1所述的用于虚拟视频会议的声源定位方法，其特征在于，所述根据所述说话人三维空间位置对说话人原始语音进行渲染，得到真实三维空间音频信号，包括：

8.一种用于虚拟视频会议的声源定位系统，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述用于虚拟视频会议的声源定位方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述用于虚拟视频会议的声源定位方法。