CN112584299A - 一种基于多激励平板扬声器的沉浸式会议系统 - Google Patents

一种基于多激励平板扬声器的沉浸式会议系统 Download PDF

Info

Publication number
CN112584299A
CN112584299A CN202011451333.8A CN202011451333A CN112584299A CN 112584299 A CN112584299 A CN 112584299A CN 202011451333 A CN202011451333 A CN 202011451333A CN 112584299 A CN112584299 A CN 112584299A
Authority
CN
China
Prior art keywords
audio
video
processing unit
excitation
panel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011451333.8A
Other languages
English (en)
Inventor
周翊
张楠楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202011451333.8A priority Critical patent/CN112584299A/zh
Publication of CN112584299A publication Critical patent/CN112584299A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/13Application of wave-field synthesis in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及一种基于多激励平板扬声器的沉浸式会议系统,属于视频会议技术领域。该系统由多媒体硬件终端和音视频控制中枢组成;多媒体硬件终端包括:多激励平板扬声器、投影仪、摄像头、麦克风阵列;音视频控制中枢包括:空间音频驱动单元、音频处理单元、视频播放控制单元以及视频处理单元。本发明系统改进了音视频播放形式,使用WFS技术作为声音呈现方式,并且使用多激励平板式扬声器作为音频播放终端,同时也能够作为视频播放的屏幕载体,与传统会议系统相比,能够得到音视频一致的沉浸式体验,同时能够节约会议房间的空间利用率,增大视觉与听觉感知范围。

Description

一种基于多激励平板扬声器的沉浸式会议系统
技术领域
本发明属于视频会议技术领域,涉及一种基于多激励平板扬声器的沉浸式会议系统。
背景技术
远程会议系统可以让身处不同地点的人在同一时刻出现在同一个虚拟会议现场,以达到面对面交流的效果。然而大多数情况下,远程会议系统仅仅是可以听得到声音和看得到视频,并不能保证音频和视频得质量,从而不能很好得实现面对面交流的效果,降低了面对面交流中获取信息的可靠性和有效性,也会分散人们对实际对话的注意力。为了解决该问题,亟需一种沉浸式的远程会议系统。它可以让人有身临其境的感觉,实现更真实的面对面交流。
目前,一般远程会议系统由以下几个部分组成:显示屏幕、视频输入/输出设备,音频输入/输出设备,信息通信设备,系统控制系统,视频/音频编码器等等。其中音频输入/输出通常使用单声道或立体声传输并重现,并主要使用传统的电动式锥形扬声器作为播放终端。因此,无法提供沉浸式的音频会议体验,远端参会人的声音被固定在有限且不准确的位置上。视频图像的显示通常使用液晶显示器等,其屏幕位置与扬声器位置的不匹配会进一步割裂音视频体验的一致性。
发明内容
有鉴于此,本发明的目的在于提供一种基于多激励平板扬声器的沉浸式会议系统,解决传统会议系统中音视频沉浸式体验差的问题,并同时解决了声音沉浸式算法部署时空间占用大,成本高的问题。通过多激励平板扬声器实现空间音频算法,同时使用扬声器面板作为视频播放的载体,能够大大降低系统成本,并且完成音视频一致的沉浸式体验。
为达到上述目的,本发明提供如下技术方案:
一种基于多激励平板扬声器的沉浸式会议系统,由多媒体硬件终端和音视频控制中枢组成;
所述多媒体硬件终端包括:多激励平板扬声器、投影仪、摄像头、麦克风阵列;
所述音视频控制中枢包括:空间音频驱动单元、音频处理单元、视频播放控制单元以及视频处理单元;
所述摄像头通过视频处理单元与网络连接,所述麦克风阵列通过音频处理单元与网络连接;所述视频处理单元将摄像头采集的说话者图像进行分析处理后传输至网络中;同时,所述音频处理单元将麦克风阵列采集的房间内的声音预处理后传输至网络中;
所述空间音频驱动单元从网络数据中获取远端传来的多个说话者的声音以及位置数据,并进行计算获取多激励平板每个发声单元所需播放的音频并通过多激励平板播放音频,同时视频播放控制单元控制投影仪将视频图像投影至多激励平板扬声器板面上。
进一步,所述音频处理单元预处理采集的声音时,具体包括对各个说话者的声音进行定位,分离并且消除回声。
进一步,所述空间音频驱动单元采用的空间音频算法包括:波场合成算法或立体声算法等。
进一步,所述空间音频驱动单元是根据不同多激励平板扬声器的参数和空间音频算法,计算得出每个激励源所需播放的音频信号。
进一步,采用WFS音频驱动算法计算得出每个激励源所需播放的音频信号:
Figure BDA0002827025060000021
其中,g(t)是WFS算法的预均衡滤波器,
Figure BDA0002827025060000022
l0是扬声器的位置,nx是虚拟声源的方向,nl0是扬声器的方向,δ(·)是脉冲函数,c是声速。
进一步,所述音频处理单元包括:回声消除、降噪、分离、定位和空间音频编码。
进一步,所述视频播放控制单元根据视频信号播放对应图像。
本发明的有益效果在于:本发明会议系统改进了音视频播放形式,使用WFS技术作为声音呈现方式,并且使用多激励平板式扬声器作为音频播放终端,同时也能够作为视频播放的屏幕载体,与传统会议系统相比,能够得到音视频一致的沉浸式体验,同时能够节约会议房间的空间利用率,增大视觉与听觉感知范围。本发明采用多激励平板扬声器的具体有益效果为:
1)本发明使用多激励平板扬声器能够提供多通道的音频输出,相比于传统的电动式锥形扬声器,采用WFS技术时使成本更低。
2)本发明采用多激励平板扬声器的平板面作为视频投影屏幕,墙壁装饰物等,能够优化会议室结构,充分利用空间。
3)本发明使用多激励平板扬声器,并作为视频投影屏幕,能够更方便将声音与图像在空间中定位在同一位置,能够提高音视频空间信息的一致性,从而提高沉浸式音视频体验。
4)本发明使用多激励平板扬声器更加适合部署空间音频算法,除了能提供多通道输出外,还可以提供更加平坦的频率响应,产生的反射声和直达声相关性更小,有助于人耳对空间声的定位精度。同时它的宽指向性更适合营造环绕声场。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为基于多激励平板扬声器的沉浸式会议系统框架图;
图2为基于多激励平板扬声器的沉浸式会议系统安装示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1~图2,本发明设计了一种基于多激励平板扬声器的沉浸式会议系统,如图1所示,该系统包括以下两部分:
系统硬件部分主要包括多媒体硬件终端,核心是多激励平板扬声器,投影仪将视频图像投影至多驱动平板扬声器表面。摄像头对会议参与者进行视频图像采集,麦克风阵列对会议参与者语音进行录制。
软件部分主要包括音视频控制中枢,近端麦克风阵列录制的信号在音频处理单元中进行处理,核心是针对系统具体参数进行多通道的回声消除,并对各个声源进行分离与定位,根据获取到的独立声源进行空间编码,例如MPEG-4等。编码得到的空间音频数据与采集到的视频数据一同通过网络传输给远端。
远端传来的数据中,空间音频数据将通过空间音频驱动单元进行渲染,根据不同的多激励平板扬声器参数细节以及算法方案,计算得出每个激励源所需播放的音频信号。同时,视频播放控制单元可根据视频信号播放对应图像。
实施例1:
会议室安装示意图如图2所示,将多激励平板扬声器安装到其中一面墙上,并同时充当投影视频的画布。通过WFS算法中的驱动函数,计算多激励平板扬声器中每个激励器需要播放的声音,从而营造一个沉浸式的音频体验现场。
本实施例系统的算法处理计算过程为:
在空间音频驱动单元中,采用WFS音频驱动算法:
Figure BDA0002827025060000041
其中,
Figure BDA0002827025060000042
是WFS算法的预均衡滤波器,
Figure BDA0002827025060000043
l0是扬声器的位置,nx是虚拟声源的方向,nl0是扬声器的方向;
当麦克风采集到的声音进入音频处理单元后,首先进行回声消除,本实施例中的音频系统是一个多声道系统,相应的使用的回声消除技术是多通道回声消除,本实施例使用的多通道回声消除算法是多通道分割的频域分块最小均方算法(MC-PFBLMS),算法流程如下。
假设本实施例中的会议系统中有L=8个扬声器,T=3个麦克风,则共有C=L×T个回声响应需要自适应算法迭代拟合。
初始化:
滤波器阶数设为N=2048,分块长度M=512,分块数量K=4,回声路径数量C=L×T=24个;
分块后的滤波器系数定义为h,形状为M×K×C,补零并进行FFT后滤波器系数变为H,形状为2M×K×C。滤波器系数初始化为零。
频域延迟数据块X,形状为2M×K×C,存储更新K个输入块的频谱,初始化为零。存储上一数据块(用于OLS)xold,初始化为零。
输入:
每一块远端信号xn,形状为M×C;
Figure BDA0002827025060000051
参考信号dt,形状为M×T,该信号为麦克风接收信号:
dt=[dt(n-M+1)…dt(n-1)dt(n)]
迭代更新:
拼接并计算频谱
Figure BDA0002827025060000052
用Xn更新延迟数据块X;根据X和H计算y,取后M位,形状为M×T;
Figure BDA0002827025060000053
计算块误差e=d-y,形状为M×T;对误差e前面补M个零,傅里叶变换得到E,形状为M×T;利用E和X更新频域滤波器H中的每个块,其中k∈[1,K],c∈[1,C];
Figure BDA0002827025060000054
将xn的值存入xold
输出:输出语音块e;输出后的语音块即为无回声的语音,用于远端进行空间音频渲染。
分离:默认三个麦克风信号回声消除后的语音块均为独立的声音object;
定位:默认三个麦克风位置为声音object的位置;
编码:采用MPEG-H编码。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种基于多激励平板扬声器的沉浸式会议系统,其特征在于,该系统由多媒体硬件终端和音视频控制中枢组成;
所述多媒体硬件终端包括:多激励平板扬声器、投影仪、摄像头、麦克风阵列;
所述音视频控制中枢包括:空间音频驱动单元、音频处理单元、视频播放控制单元以及视频处理单元;
所述摄像头通过视频处理单元与网络连接,所述麦克风阵列通过音频处理单元与网络连接;所述视频处理单元将摄像头采集的说话者图像进行分析处理后传输至网络中;同时,所述音频处理单元将麦克风阵列采集的房间内的声音预处理后传输至网络中;
所述空间音频驱动单元从网络数据中获取远端传来的多个说话者的声音以及位置数据,并进行计算获取多激励平板每个发声单元所需播放的音频并通过多激励平板播放音频,同时视频播放控制单元控制投影仪将视频图像投影至多激励平板扬声器板面上。
2.根据权利要求1所述的基于多激励平板扬声器的沉浸式会议系统,其特征在于,所述音频处理单元预处理采集的声音时,具体包括对各个说话者的声音进行定位,分离并且消除回声。
3.根据权利要求1所述的基于多激励平板扬声器的沉浸式会议系统,其特征在于,所述空间音频驱动单元采用的空间音频算法包括:波场合成算法或立体声算法。
4.根据权利要求3所述的基于多激励平板扬声器的沉浸式会议系统,其特征在于,所述空间音频驱动单元是根据不同多激励平板扬声器的参数和空间音频算法,计算得出每个激励源所需播放的音频信号。
5.根据权利要求4所述的基于多激励平板扬声器的沉浸式会议系统,其特征在于,采用WFS音频驱动算法计算得出每个激励源所需播放的音频信号:
Figure FDA0002827025050000011
其中,g(t)是WFS算法的预均衡滤波器,
Figure FDA0002827025050000012
l0是扬声器的位置,nx是虚拟声源的方向,nl0是扬声器的方向,δ(·)是脉冲函数,c是声速。
6.根据权利要求1所述的基于多激励平板扬声器的沉浸式会议系统,其特征在于,所述音频处理单元包括:回声消除、降噪、分离、定位和空间音频编码。
7.根据权利要求1所述的基于多激励平板扬声器的沉浸式会议系统,其特征在于,所述视频播放控制单元根据视频信号播放对应图像。
CN202011451333.8A 2020-12-09 2020-12-09 一种基于多激励平板扬声器的沉浸式会议系统 Pending CN112584299A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011451333.8A CN112584299A (zh) 2020-12-09 2020-12-09 一种基于多激励平板扬声器的沉浸式会议系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011451333.8A CN112584299A (zh) 2020-12-09 2020-12-09 一种基于多激励平板扬声器的沉浸式会议系统

Publications (1)

Publication Number Publication Date
CN112584299A true CN112584299A (zh) 2021-03-30

Family

ID=75131170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011451333.8A Pending CN112584299A (zh) 2020-12-09 2020-12-09 一种基于多激励平板扬声器的沉浸式会议系统

Country Status (1)

Country Link
CN (1) CN112584299A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004103025A1 (en) * 2003-05-08 2004-11-25 Harman International Industries, Incorporated Loudspeaker system for virtual sound synthesis
US20100328423A1 (en) * 2009-06-30 2010-12-30 Walter Etter Method and apparatus for improved mactching of auditory space to visual space in video teleconferencing applications using window-based displays
US20110103624A1 (en) * 2009-11-03 2011-05-05 Bran Ferren Systems and Methods for Providing Directional Audio in a Video Teleconference Meeting
CN102209225A (zh) * 2010-03-30 2011-10-05 华为终端有限公司 视频通信的实现方法及装置
CN102480671A (zh) * 2010-11-26 2012-05-30 华为终端有限公司 视频通信中的音频处理方法和装置
US20140153744A1 (en) * 2012-03-22 2014-06-05 Dirac Research Ab Audio Precompensation Controller Design Using a Variable Set of Support Loudspeakers
US20140267545A1 (en) * 2013-03-14 2014-09-18 Polycom, Inc. Immersive telepresence anywhere
WO2014208387A1 (ja) * 2013-06-27 2014-12-31 シャープ株式会社 音声信号処理装置
US20150131824A1 (en) * 2012-04-02 2015-05-14 Sonicemotion Ag Method for high quality efficient 3d sound reproduction

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004103025A1 (en) * 2003-05-08 2004-11-25 Harman International Industries, Incorporated Loudspeaker system for virtual sound synthesis
US20100328423A1 (en) * 2009-06-30 2010-12-30 Walter Etter Method and apparatus for improved mactching of auditory space to visual space in video teleconferencing applications using window-based displays
US20110103624A1 (en) * 2009-11-03 2011-05-05 Bran Ferren Systems and Methods for Providing Directional Audio in a Video Teleconference Meeting
CN102209225A (zh) * 2010-03-30 2011-10-05 华为终端有限公司 视频通信的实现方法及装置
CN102480671A (zh) * 2010-11-26 2012-05-30 华为终端有限公司 视频通信中的音频处理方法和装置
US20140153744A1 (en) * 2012-03-22 2014-06-05 Dirac Research Ab Audio Precompensation Controller Design Using a Variable Set of Support Loudspeakers
US20150131824A1 (en) * 2012-04-02 2015-05-14 Sonicemotion Ag Method for high quality efficient 3d sound reproduction
US20140267545A1 (en) * 2013-03-14 2014-09-18 Polycom, Inc. Immersive telepresence anywhere
WO2014208387A1 (ja) * 2013-06-27 2014-12-31 シャープ株式会社 音声信号処理装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JOSE: ""GPU-Based Dynamic Wave Field Synthesis Using Fractional Delay Filters and Room Compensation"", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
朱晓天: "一种全新的声还原技术――波前合成", 《电声技术》 *

Similar Documents

Publication Publication Date Title
US9049339B2 (en) Method for operating a conference system and device for a conference system
JP2975687B2 (ja) 第1局・第2局間に音声信号とビデオ信号とを送信する方法、局、テレビ会議システム、第1局・第2局間に音声信号を伝送する方法
US8571192B2 (en) Method and apparatus for improved matching of auditory space to visual space in video teleconferencing applications using window-based displays
JP6085029B2 (ja) 種々の聴取環境におけるオブジェクトに基づくオーディオのレンダリング及び再生のためのシステム
US9113034B2 (en) Method and apparatus for processing audio in video communication
RU2602346C2 (ru) Рендеринг отраженного звука для объектно-ориентированной аудиоинформации
US9232185B2 (en) Audio conferencing system for all-in-one displays
CN101384105B (zh) 三维声音重现的方法、装置及系统
US20100328419A1 (en) Method and apparatus for improved matching of auditory space to visual space in video viewing applications
US10447970B1 (en) Stereoscopic audio to visual sound stage matching in a teleconference
US20050213747A1 (en) Hybrid monaural and multichannel audio for conferencing
KR20170106063A (ko) 오디오 신호 처리 방법 및 장치
de Bruijn Application of wave field synthesis in videoconferencing
JP2002505058A (ja) 空間形成されたオーディオの再生
JP2006020314A (ja) 電話会議用のステレオ・マイクロフォン処理
CN108476367A (zh) 用于沉浸式音频回放的信号的合成
JP2003032776A (ja) 再生システム
Woszczyk et al. Shake, rattle, and roll: Gettiing immersed in multisensory, interactiive music via broadband networks
CN112584299A (zh) 一种基于多激励平板扬声器的沉浸式会议系统
US3940560A (en) Quadriphonic sound pick-up and reproduction devices
EP3917162A1 (en) System and devices for audio-video spatial communication and event sharing
US20230276189A1 (en) Real-time sound field synthesis by modifying produced audio streams
WO2017211448A1 (en) Method for generating a two-channel signal from a single-channel signal of a sound source
JP2023043497A (ja) リモート会議システム
CN117998055A (zh) 声像同位方法及其系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210330