CN112584299A

CN112584299A - 一种基于多激励平板扬声器的沉浸式会议系统

Info

Publication number: CN112584299A
Application number: CN202011451333.8A
Authority: CN
Inventors: 周翊; 张楠楠
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-03-30

Abstract

本发明涉及一种基于多激励平板扬声器的沉浸式会议系统，属于视频会议技术领域。该系统由多媒体硬件终端和音视频控制中枢组成；多媒体硬件终端包括：多激励平板扬声器、投影仪、摄像头、麦克风阵列；音视频控制中枢包括：空间音频驱动单元、音频处理单元、视频播放控制单元以及视频处理单元。本发明系统改进了音视频播放形式，使用WFS技术作为声音呈现方式，并且使用多激励平板式扬声器作为音频播放终端，同时也能够作为视频播放的屏幕载体，与传统会议系统相比，能够得到音视频一致的沉浸式体验，同时能够节约会议房间的空间利用率，增大视觉与听觉感知范围。

Description

一种基于多激励平板扬声器的沉浸式会议系统

技术领域

本发明属于视频会议技术领域，涉及一种基于多激励平板扬声器的沉浸式会议系统。

背景技术

远程会议系统可以让身处不同地点的人在同一时刻出现在同一个虚拟会议现场，以达到面对面交流的效果。然而大多数情况下，远程会议系统仅仅是可以听得到声音和看得到视频，并不能保证音频和视频得质量，从而不能很好得实现面对面交流的效果，降低了面对面交流中获取信息的可靠性和有效性，也会分散人们对实际对话的注意力。为了解决该问题，亟需一种沉浸式的远程会议系统。它可以让人有身临其境的感觉，实现更真实的面对面交流。

目前，一般远程会议系统由以下几个部分组成：显示屏幕、视频输入/输出设备，音频输入/输出设备，信息通信设备，系统控制系统，视频/音频编码器等等。其中音频输入/输出通常使用单声道或立体声传输并重现，并主要使用传统的电动式锥形扬声器作为播放终端。因此，无法提供沉浸式的音频会议体验，远端参会人的声音被固定在有限且不准确的位置上。视频图像的显示通常使用液晶显示器等，其屏幕位置与扬声器位置的不匹配会进一步割裂音视频体验的一致性。

发明内容

有鉴于此，本发明的目的在于提供一种基于多激励平板扬声器的沉浸式会议系统，解决传统会议系统中音视频沉浸式体验差的问题，并同时解决了声音沉浸式算法部署时空间占用大，成本高的问题。通过多激励平板扬声器实现空间音频算法，同时使用扬声器面板作为视频播放的载体，能够大大降低系统成本，并且完成音视频一致的沉浸式体验。

为达到上述目的，本发明提供如下技术方案：

一种基于多激励平板扬声器的沉浸式会议系统，由多媒体硬件终端和音视频控制中枢组成；

所述多媒体硬件终端包括：多激励平板扬声器、投影仪、摄像头、麦克风阵列；

所述音视频控制中枢包括：空间音频驱动单元、音频处理单元、视频播放控制单元以及视频处理单元；

所述摄像头通过视频处理单元与网络连接，所述麦克风阵列通过音频处理单元与网络连接；所述视频处理单元将摄像头采集的说话者图像进行分析处理后传输至网络中；同时，所述音频处理单元将麦克风阵列采集的房间内的声音预处理后传输至网络中；

所述空间音频驱动单元从网络数据中获取远端传来的多个说话者的声音以及位置数据，并进行计算获取多激励平板每个发声单元所需播放的音频并通过多激励平板播放音频，同时视频播放控制单元控制投影仪将视频图像投影至多激励平板扬声器板面上。

进一步，所述音频处理单元预处理采集的声音时，具体包括对各个说话者的声音进行定位，分离并且消除回声。

进一步，所述空间音频驱动单元采用的空间音频算法包括：波场合成算法或立体声算法等。

进一步，所述空间音频驱动单元是根据不同多激励平板扬声器的参数和空间音频算法，计算得出每个激励源所需播放的音频信号。

进一步，采用WFS音频驱动算法计算得出每个激励源所需播放的音频信号：

其中，g(t)是WFS算法的预均衡滤波器，

l₀是扬声器的位置，n_x是虚拟声源的方向，n_l0是扬声器的方向，δ(·)是脉冲函数，c是声速。

进一步，所述音频处理单元包括：回声消除、降噪、分离、定位和空间音频编码。

进一步，所述视频播放控制单元根据视频信号播放对应图像。

本发明的有益效果在于：本发明会议系统改进了音视频播放形式，使用WFS技术作为声音呈现方式，并且使用多激励平板式扬声器作为音频播放终端，同时也能够作为视频播放的屏幕载体，与传统会议系统相比，能够得到音视频一致的沉浸式体验，同时能够节约会议房间的空间利用率，增大视觉与听觉感知范围。本发明采用多激励平板扬声器的具体有益效果为：

1)本发明使用多激励平板扬声器能够提供多通道的音频输出，相比于传统的电动式锥形扬声器，采用WFS技术时使成本更低。

2)本发明采用多激励平板扬声器的平板面作为视频投影屏幕，墙壁装饰物等，能够优化会议室结构，充分利用空间。

3)本发明使用多激励平板扬声器，并作为视频投影屏幕，能够更方便将声音与图像在空间中定位在同一位置，能够提高音视频空间信息的一致性，从而提高沉浸式音视频体验。

4)本发明使用多激励平板扬声器更加适合部署空间音频算法，除了能提供多通道输出外，还可以提供更加平坦的频率响应，产生的反射声和直达声相关性更小，有助于人耳对空间声的定位精度。同时它的宽指向性更适合营造环绕声场。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为基于多激励平板扬声器的沉浸式会议系统框架图；

图2为基于多激励平板扬声器的沉浸式会议系统安装示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图2，本发明设计了一种基于多激励平板扬声器的沉浸式会议系统，如图1所示，该系统包括以下两部分：

系统硬件部分主要包括多媒体硬件终端，核心是多激励平板扬声器，投影仪将视频图像投影至多驱动平板扬声器表面。摄像头对会议参与者进行视频图像采集，麦克风阵列对会议参与者语音进行录制。

软件部分主要包括音视频控制中枢，近端麦克风阵列录制的信号在音频处理单元中进行处理，核心是针对系统具体参数进行多通道的回声消除，并对各个声源进行分离与定位，根据获取到的独立声源进行空间编码，例如MPEG-4等。编码得到的空间音频数据与采集到的视频数据一同通过网络传输给远端。

远端传来的数据中，空间音频数据将通过空间音频驱动单元进行渲染，根据不同的多激励平板扬声器参数细节以及算法方案，计算得出每个激励源所需播放的音频信号。同时，视频播放控制单元可根据视频信号播放对应图像。

实施例1：

会议室安装示意图如图2所示，将多激励平板扬声器安装到其中一面墙上，并同时充当投影视频的画布。通过WFS算法中的驱动函数，计算多激励平板扬声器中每个激励器需要播放的声音，从而营造一个沉浸式的音频体验现场。

本实施例系统的算法处理计算过程为：

在空间音频驱动单元中，采用WFS音频驱动算法：

其中，

是WFS算法的预均衡滤波器，

l₀是扬声器的位置，n_x是虚拟声源的方向，n_l0是扬声器的方向；

当麦克风采集到的声音进入音频处理单元后，首先进行回声消除，本实施例中的音频系统是一个多声道系统，相应的使用的回声消除技术是多通道回声消除，本实施例使用的多通道回声消除算法是多通道分割的频域分块最小均方算法(MC-PFBLMS)，算法流程如下。

假设本实施例中的会议系统中有L＝8个扬声器，T＝3个麦克风，则共有C＝L×T个回声响应需要自适应算法迭代拟合。

初始化：

滤波器阶数设为N＝2048，分块长度M＝512，分块数量K＝4，回声路径数量C＝L×T＝24个；

分块后的滤波器系数定义为h，形状为M×K×C，补零并进行FFT后滤波器系数变为H，形状为2M×K×C。滤波器系数初始化为零。

频域延迟数据块X，形状为2M×K×C，存储更新K个输入块的频谱，初始化为零。存储上一数据块(用于OLS)x_old，初始化为零。

输入：

每一块远端信号x_n，形状为M×C；

参考信号d_t，形状为M×T，该信号为麦克风接收信号：

d_t＝[d_t(n-M+1)…d_t(n-1)d_t(n)]

迭代更新：

拼接并计算频谱

用X_n更新延迟数据块X；根据X和H计算y，取后M位，形状为M×T；

计算块误差e＝d-y，形状为M×T；对误差e前面补M个零，傅里叶变换得到E，形状为M×T；利用E和X更新频域滤波器H中的每个块，其中k∈[1，K]，c∈[1，C]；

将x_n的值存入x_old；

输出：输出语音块e；输出后的语音块即为无回声的语音，用于远端进行空间音频渲染。

分离：默认三个麦克风信号回声消除后的语音块均为独立的声音object；

定位：默认三个麦克风位置为声音object的位置；

编码：采用MPEG-H编码。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于多激励平板扬声器的沉浸式会议系统，其特征在于，该系统由多媒体硬件终端和音视频控制中枢组成；

2.根据权利要求1所述的基于多激励平板扬声器的沉浸式会议系统，其特征在于，所述音频处理单元预处理采集的声音时，具体包括对各个说话者的声音进行定位，分离并且消除回声。

3.根据权利要求1所述的基于多激励平板扬声器的沉浸式会议系统，其特征在于，所述空间音频驱动单元采用的空间音频算法包括：波场合成算法或立体声算法。

4.根据权利要求3所述的基于多激励平板扬声器的沉浸式会议系统，其特征在于，所述空间音频驱动单元是根据不同多激励平板扬声器的参数和空间音频算法，计算得出每个激励源所需播放的音频信号。

5.根据权利要求4所述的基于多激励平板扬声器的沉浸式会议系统，其特征在于，采用WFS音频驱动算法计算得出每个激励源所需播放的音频信号：

其中，g(t)是WFS算法的预均衡滤波器，

6.根据权利要求1所述的基于多激励平板扬声器的沉浸式会议系统，其特征在于，所述音频处理单元包括：回声消除、降噪、分离、定位和空间音频编码。

7.根据权利要求1所述的基于多激励平板扬声器的沉浸式会议系统，其特征在于，所述视频播放控制单元根据视频信号播放对应图像。