CN106454686A

CN106454686A - 一种基于体感摄像头的多通路环绕声动态双耳重放方法

Info

Publication number: CN106454686A
Application number: CN201610693602.9A
Authority: CN
Inventors: 陈嘉衍; 谢菠荪; 刘昱; 余光正
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2016-08-18
Filing date: 2016-08-18
Publication date: 2017-02-22

Abstract

本发明公开了一种基于体感摄像头的多通路环绕声动态双耳重放方法，包括步骤：1)输入初始数据，包括虚拟扬声器位置参数和头相关传输函数数据；2)采用体感摄像头实时检测倾听者头部的运动数据,并计算出头部转动后的空间方向；3)根据倾听者头部转动后的空间方向调用相应的头相关传输函数主成分分解系数，对输入多通路环绕声信号进行相乘后再用头相关传输函数分解后得到的公共滤波器组进行滤波；4)将公共滤波器组的输出信号混合并经过逆滤波均衡处理后得到多通路环绕声的双耳重放信号给耳机重放。本发明利用体感摄像头获取头部的运动信息，动态、实时地模拟多通路环绕声的各个虚拟扬声器，产生类似扬声器重放多通路环绕声效果。

Description

一种基于体感摄像头的多通路环绕声动态双耳重放方法

技术领域

本发明专利涉及电声技术领域，具体涉及一种基于体感摄像头的多通路环绕声动态双耳重放方法。

背景技术

多通路环绕声采用多个环绕倾听者的扬声器布置及相应的信号通路，产生声音的空间听觉效果。例如，国际电信联盟所推荐的5.1通路环绕声具有前方左(L)、中(C)、右(R)以及左环绕(LS)、右环绕(RS)5个全频带通路，加上一个低频效果通路(LFE)，可以得到水平面环绕声的听觉效果。国际上也发展了更多通路的环绕声系统，包括7.1通路水平面环绕声系统、9.1通路、10.2通路、11.1通路、22.2通路、Dolby Atmos等三维空间环绕声系统等。这些环绕声系统是为扬声器重放而设计的，主要用在家庭或影院的声重放。但在一些应用中，如多媒体计算机等，有时也需要通过耳机来重放多通路环绕声信号。这种重放方式使得声音空间信息受损，不能获得正确的立体声虚拟声源，产生头中定位效应。

为改善耳机重放多通路环绕声的效果，可采用各扬声器方向的头相关传输函数(head related transfer functions,HRTF)对信号进行滤波，合成双耳声信号并用耳机重放。国内外已经有多个这方面的专利技术，如Dolby耳机技术和华南理工大学的耳机虚拟5.1通路环绕声技术(中华人民共和国国家发明专利授权，ZL02134415.9)。这相当于用信号处理的方法虚拟出多通路环绕声的多个扬声器。虽然这类耳机虚拟重放技术可以改善声音空间信息的重放，但还是存在一定缺陷，例如虚拟声源前后混乱、感知的虚拟声源方向与理论值有偏差、不能完全消除头中定位等。通过采用个性化或者定制的HRTF进行信号处理以及进行个性化的耳机--外耳传输特性均衡(中华人民共和国国家发明专利授权，ZL 2013 10109533.9)，可以部分减少上述缺陷。

上面的方法只是考虑了稳态双耳重放，也就是头部固定的情况。而现实中倾听者头部的运动会带来动态信息，这对听觉主观感知非常重要。因此也希望在多通路环绕声的耳机虚拟重放也加入动态信息，以改善听觉效果。这可以通过各种方法检测倾听者头部运动信息，然后采用动态合成双耳信号的方法实现。已有的实验结果表明，动态双耳重放可以降低虚拟声源前后混乱率、提高虚拟声源定位准确度、消除头中定位等。

可以采用各种专业的头踪迹跟踪器检测倾听者头部运动信息，并且可以达到很高的技术指标。例如采用Polhemus FASTRAK电磁跟踪器，距离测量精度为0.08cm、分辨率0.0005cm，角度测量精度0.15°、分辨率0.025°。华南理工大学的虚拟听觉环境实时绘制系统就是采用这类的头踪迹跟踪器(中华人民共和国国家发明专利授权，ZL 2012 10014504.X)。上述的头踪迹跟踪器可输出六个自由度的头部运动参数,因而可以实现三维空间声的动态双耳重放。但其体积大并且价格较高，只适用于科学研究、工程技术等专业的应用，而不适用于消费类电子产品应用。

华南理工大学也公开了一种适用于手持式播放设备等消费电子类应用的5.1通路环绕声的动态双耳重放方法(中华人民共和国国家发明专利申请，201410387541.4)。该方法采用廉价的磁传感器和加速度传感器获取头部在水平面运动引起的一个自由度的物理信息变化。这种头踪迹跟踪器比较简单，可以近似实现水平面动态双耳重放，但不能实现整个三维空间的动态双耳重放。另外，上面两种头踪迹跟踪器都属于接触式跟踪技术，倾听者需要佩戴跟踪传感器，这有时会给应用带来不便。且这些跟踪技术也容易受外界(如金属、磁场)的干扰。

检测倾听者头部运动信息的技术是多样的，其技术性能、复杂程度与成本、信号处理和实现方法也不同。对于不同的应用，可以根据实际情况采用不同的技术检测倾听者头部运动信息，实现多通路环绕声的动态双耳重放，包括三维空间的动态双耳重放。

发明内容

本发明目的是适应多媒体个人计算机等应用，提供了一种多通路环绕声的动态双耳虚拟重放方法。该方法通过体感摄像头作为头部运动跟踪器,获取头部三个旋转自由度的运动信息,并以个人计算机作为信号处理与控制系统,动态、实时地模拟多通路环绕声的各个虚拟扬声器，实现空间虚拟声源的实时绘制，能完全消除头中定位效应，产生类似扬声器重放的多通路环绕声效果。

本发明的目的通过如下技术方案实现：

一种基于体感摄像头的多通路环绕声动态双耳重放方法，其包括如下步骤：

1)输入初始数据，包括多通路环绕声信号、多通路虚拟扬声器的位置参数和头相关传输函数数据；

2)采用体感摄像头实时检测倾听者头部的运动数据,并计算出头部转动后的空间方向；

3)根据倾听者头部转动后的空间方向调用相应的头相关传输函数主成分分解系数，对输入多通路环绕声信号进行相乘后再用头相关传输函数分解后得到的公共滤波器组进行滤波；

4)将公共滤波器组的输出信号混合并经过耳机—耳道传输特性逆滤波均衡处理后得到多通路环绕声的双耳重放信号,再馈给耳机重放。

进一步地，所述步骤2)具体包括：

21)采用体感摄像头实时检测倾听者头部转动后的三个三维空间旋转角，包括自旋角(Roll)α、俯仰角(Pitch)β以及朝向角(Yaw)γ；

22)求得三个旋转角的对应旋转矩阵M_Rot，具体形式为：

23)计算倾听者头部转动后虚拟声源相对于倾听者的瞬时方位角为θ’，仰角为φ’，虚拟声源新的空间方向由下面的矩阵公式计算：

其中，虚拟声源相对于倾听者的初始方向用初始方位角0°≤θ<360°和初始仰角-90°≤φ≤90°表示。

进一步地，所述步骤3)具体包括：

31)将多通路环绕声的各扬声器信号分别用对应方向的左、右耳头相关传输函数H_L(θ_i,φ_i,f)和H_R(θ_i,φ_i,f)滤波并叠加，再分别经过一对左、右的耳机—耳道传输特性HP_L(f)和HP_R(f)逆滤波均衡处理后，即可得到双耳声信号E_L和E_R：

其中f是频率，M为通路数量；

32)根据头相关传输函数主成分分析，左、右耳的任意方向HRTF数据可以分别分解为Q个谱形状基函数d_q(f)的权重组合加上一个头相关传输函数的平均函数H_av(f):

其中，w_q,L(θ_i,φ_i)和w_q,R(θ_i,φ_i)是与方向有关的权重系数。

进一步地，所述步骤4)具体包括：

根据步骤31)和32)，将平均函数H_av(f)和Q个谱形状基函数滤波器的输出混合叠加，再经过耳机—耳道传输特性逆滤波均衡处理后，即可得到双耳声信号E_L和E_R为：

本发明利用体感摄像头实时检测倾听者头部的三维空间转动角度，并根据这个参数动态、实时地对多通路环绕声信号进行合成双耳声信号处理，体感摄像头可以安装在计算机显示器之上。将上述双耳声信号馈给耳机重放，可产生类似扬声器重放多通路环绕声的效果。

本发明与现有技术相比，具有如下优点和有益效果：

1.本发明可在多媒体计算机上实现多通路环绕声双耳信号的动态合成处理，实现水平面和三维多通路环绕声的耳机动态虚拟重放，完全消除头中定位效应，改善虚拟声源定位，在耳机重放中产生类似扬声器重放多通路环绕的声效果。

2.本发明只需体感摄像头检测头部运动引起的物理信息变化并计算头部的转动角度，它基于光学与图像处理的原理，属于非接触式跟踪技术，应用方便，且不容易受外界金属、磁场的干扰。

3.本发明的头踪迹跟踪价格低，适合于多媒体计算机等消费电子应用；

4.本发明的信号处理模块部分可在多媒体计算机上通过算法语言(如VC++)编程实现。

附图说明

图1是本发明的实施实例示意图。

图2是系统硬件示意图。

图3是系统软件的结构图。

图4是多通路环绕声中表示声源位置的坐标系统以及倾听者头部三个旋转角的示意图。

图5是多通路环绕声扬声器到双耳传输的示意图。

图6是合成双耳信号处理的方块图。

具体实施方式

下面结合附图和实施例对本发明做进一步的详细说明，但本发明要求保护范围并不局限于实施例表示的范围。

具体而言，所述步骤2)具体包括：

22)求得三个旋转角的对应旋转矩阵M_Rot，具体形式为：

具体而言，所述步骤3)具体包括：

其中f是频率，M为通路数量；

具体而言，所述步骤4)具体包括：

本发明的系统方框图如图1所示，包括输入初始数据(多通路环绕声输入信号、扬声器位置以及HRTF数据)、动态信号处理及双耳信号合成、耳机重放三个部分。

图2是基于体感摄像头的多通路环绕声动态双耳重放的信号处理系统硬件组成示意图，包括一台个人计算机、支持ASIO功能的声卡、体感摄像头。个人计算机是系统的核心处理部分，用于完成系统控制、信号处理和调用其他外设等功能。系统开始工作前计算机先通过USB接口传输数据完成人脸跟踪模块及声卡的初始化工作，以及设置多通路输入信号、虚拟扬声器位置和HRTF数据等信息。系统开始工作后体感摄像头将倾听者人脸数据信息通过USB接口传给计算机，计算机的信号处理模块据此信息计算出瞬时的头部方向，动态地合成出双耳声信号，然后通过声卡传送给耳机重放。

图3是系统软件的结构图。它包括三个功能模块。

(A)人机交互接口模块

人机交互主要用于实现对系统的控制。包括完成程序的开始、退出，多通路环绕声扬声器初始方位的输入、头相关传输函数数据的调入等。

(B)头踪迹跟踪模块

头踪迹跟踪模块主要用于实现对倾听者头部转动的实时监测。通过对体感摄像头的调用，实时获取头部转动的三个旋转角并反馈给信号处理模块，为动态处理提供依据。

(C)信号处理模块

信号处理模块是系统的核心部分，负责接收跟踪模块和人机交互模块反馈的信息,实现动态双耳信号的合成和输出，它包括了信号处理以及声卡输出两个部分。

图4是多通路环绕声中表示声源位置的坐标系统以及倾听者头部三个旋转角的示意图。虚拟声源相对于倾听者的初始方向用方位角0°≤θ<360°和仰角-90°≤φ≤90°表示。根据体感摄像头检测到的数据，头踪迹跟踪模块可以计算出倾听者头部的瞬时方向。在三维空间里，倾听者的头部转动可以用三个旋转角来表示，分别是自旋角(Roll)α、俯仰角(Pitch)β以及朝向角(Yaw)γ，其分别表示绕不同坐标轴的转动。倾听者头部转动后，虚拟声源相对于倾听者的瞬时方位角为θ’，仰角为φ’。虚拟声源新的空间方向由下面的矩阵公式计算：

其中M_Rot为对应旋转矩阵，具体形为：

三个旋转角的旋转顺序和头部的具体旋转模态是有关的。也就是说旋转顺序的不同，对应的旋转矩阵也不同。这里采用的旋转矩阵是本发明实例使用的体感传感器设备对应的旋转角顺序，不同的头跟踪设备可能采用的旋转顺序不同，对应的旋转矩阵也不相同。

图5是多通路环绕声扬声器到双耳传输的示意图。在多通路环绕声重放中，M个扬声器布置在环绕倾听者的圆周或球面上，第i个重放扬声器的方向是(θ_i,φ_i),信号是E_i。将多通路环绕声的各扬声器信号分别用对应方向的左、右耳头相关传输函数H_L(θ_i,φ_i,f)和H_R(θ_i,φ_i,f)滤波并叠加，再分别经过一对左、右的耳机—耳道传输特性HP_L(f)和HP_R(f)逆滤波均衡处理后，即可得到双耳声信号E_L和E_R：

其中f是频率。将合成的双耳声信号用一对耳机重放，即可虚拟出多通路环声的M个扬声器，产生相应的主观听觉效果。

对于M个通路的环绕声，直接实现(3)式的双耳声信号合成需要2M个头相关传输函数滤波器。当通路数较多时，可以采用头相关传输函数主成分分解和公共滤波器的方法简化信号处理。根据头相关传输函数主成分分析，左、右耳的任意方向HRTF数据可以分别分解为Q个谱形状基函数d_q(f)的权重组合加上一个头相关传输函数的平均H_av(f):

利用(4)式的主成分分析，(3)式的信号处理可变为：

图6是根据(5)式设计的合成双耳信号处理的方块图，图中只画出了对左耳信号处理部分，对右耳的信号处理部分完全类似。所有M个通路的环绕声信号组合相加后用平均函数H_av(f)设计的滤波器滤波；每个通路的信号E_i用头相关传输函数主成分分解系数w_q,L(θ_i,φ_i)相乘后再用头相关传输函数主成分分解后得到的谱形状基函数d_q(f)设计的公共滤波器组进行滤波；将平均函数和Q个谱形状基函数滤波器的输出混合叠加，再经的耳机—耳道传输特性逆滤波均衡处理后，即可得到双耳声信号。图6的双耳合成信号处理是通过一组Q个公共的谱形状基函数滤波器和一个平均函数滤波实现，滤波器的数目是固定在每个耳(Q+1)个，双耳是2(Q+1)个，与多通路环绕声的通路数目M无关。

对于动态双耳重放，在体感摄像头和头踪迹跟踪模块获取了了倾听者头部转动的三个旋转角后，即可以根据几何关系，计算出虚拟扬声器相对于倾听者的空间方向，信号处理模块就能根据此信息实时地调整或切换(5)式的系数w_q,L(θ_i,φ_i)以及w_q,R(θ_i,φ_i)，从而适应倾听者头部的瞬时位置，实现多通路环绕声动态双耳信号合成。选择主成分分析设计公共滤波器信号处理的另一个优点是只要切换系数w_q,L(θ_i,φ_i)以及w_q,R(θ_i,φ_i)即可实现动态双耳合成，避免了直接切换头相关传输函数带来的可听缺陷。

实例效果与验证：

选择的系统硬件配置为：个人计算机(Intel4790K 4核处理器@3.6GH，z 8G内存，240G固态硬盘，主板配有USB 3.0接口，并带有支持DirectX 11的显示卡)。选用的声卡为ESI UGM96，其支持在Windows下的ASIO驱动。输出数据缓冲区设置为128点，采样率为44.1kHz。

采用Kinect二代体感摄像头。这是微软公司于2014年发布的一款消费入门级体感设备。该设备拥有一个彩色摄像头(RGB Camera)、一个深度传感器(Depth Sensor)和一组红外发射器(IR Emitters)。透过这三个传感器，Kinect摄像头能够提供分辨率为1920x1080的彩色图像以及分辨率为512x424的成像深度数据，再结合微软发布的软件开发工具包可以实现人脸的实时跟踪。

系统软件部分是在微软公司的Visual Studio 2013Professional上使用C++编程实现。其中还使用到了微软公司提供的Kinect开发工具包，用于图像显示的跨平台计算机视觉库OpenCV，以及用于音频接口输出的ASIO SDK。

根据开发工具包里的编程接口使用规范，从Kinect上读取数据需要经过四个步骤：

1.通过GetDefaultKinectSensor()获取系统中Kinect设备对应的一个实例，并通open()方法开启设备；

2.通过获得的实例获取所需数据的一个数据源(frame source)；

3.通过该数据源获取对应的数据读取器(frame reader)；

4.最后通过数据读取器读取所需数据。

针对于当前模块而言，需要获取彩色、骨骼和人脸三个数据流，因此创建三个对应的数据源和读取器。读取得到的彩色数据用于视频的输出，骨骼数据用于标识受试者并作出标记，人脸数据则用于实现对受试者的头部跟踪。通过跟踪获得的头部转动信息以四元数的形式被提取出来。四元数是一种表示物体空间旋转的方式，通过转换可以得到对应的三个旋转角。

表1列出了测量得到的系统实例的动态性能参数。其中系统滞后时间指的是从倾听者运动到某个位置与系统输出相应的响应信号之间的时间差。系统刷新率指的是单位时间内的信号处理(场景)刷新次数。

表1系统性能参数列表

心理声学实验的目的是验证虚拟扬声器(声源)合成的实际效果。

实验采用全可听频带粉红噪声和管弦乐信号作为原始信号，粉红噪声信号是在计算机中通过软件产生(采样率44.1kHz、量化精度16bit)。采用边界元方法计算得到的KEMAR人工头的远场HRTF数据，分别作稳态和动态虚拟扬声器信号处理，对比虚拟扬声器(虚拟声源)的方向和距离定位(头内或头外)结果。在头相关传输函数的主成分分解中，采用Q＝16和32个基谱形状基函数及相应的公共滤波器分别可使HRTF滤波器的累积能量变化达到96.4％和99.9％，满足听觉上的要求。

实验选择5.1通路环绕声在水平面上的5个虚拟扬声器方向，方位角为θ＝0°,30°,110°,250°,330°。方位角的定义是θ＝0°为倾听者正前方，θ＝90°为倾听者正右方。共有8名受试者(男女各4名)参加实验，受试者的编号为S01到S08。对稳态和动态信号处理，每名受试者对每个虚拟声源方向分别作6次判断。根据实验结果，对每名受试者虚拟源定位的头中定位率、前后混乱率、平均方位角误差Δθ、平均仰角误差Δφ四个统计误差指标进行分析。对虚拟前方和环绕扬声器进行分区统计。前方包括三个方向，θ＝0°(正前)、30°(右前)和330°(左前)；环绕包括两个方向，θ＝110°(右环绕)和250°(左环绕)。因而对每名受试者，每种情况，前方区域共有共3方向×6重复＝18次判断，后方区域2方向×6重复＝12次判断。

表2粉噪信号受试者个体统计结果

表3管弦乐信号受试者个体统计结果

表4加入动态重放后的方位角和仰角定位改善效果对比

表2和表3分别给出了对粉红噪声和管弦乐信号、动态和稳态两种情况，每名受试者定位实验的统计结果。最后采用数理统计的T-检验方法，在显著性水平α＝0.05下，检验使用动态双耳重放和传统稳态双耳重放是否有显著性差异，结果由表4给出。其中√表示动态重放定位效果明显改善，-表示两者无明显差异。

总体而言，本系统实现的动态双耳重放能有效地消除头中定位和前后混乱，明显地改善了虚拟源的方位角定位，而由于非个性化头相关传输函数的使用，对于虚拟源的仰角定位则改善不明显。

本发明的研究得到广州市科技计划项目《编号：2014Y2-00021》资助。

本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于体感摄像头的多通路环绕声动态双耳重放方法，其特征在于，其包括如下步骤：

2.根据权利要求1所述的一种基于体感摄像头的多通路环绕声动态双耳重放方法，其特征在于：所述步骤2)具体包括：

22)求得三个旋转角的对应旋转矩阵M_Rot，具体形式为：

M_{R o t} = [\begin{matrix} \cos β \cos γ & \sin β \sin α + \cos β \cos α \sin γ & \cos β \sin γ \sin α - \cos α \sin β \\ - \sin γ & \cos γ \cos α & \cos γ \sin α \\ \cos γ \sin β & \cos α \sin β \sin γ - \cos β \sin α & \cos β \cos α + \sin β \sin α \sin γ \end{matrix}];

[\begin{matrix} c o s φ^{'} s i n θ^{'} \\ \cos φ^{'} c o s θ^{'} \\ \sin φ^{'} \end{matrix}] = M_{R o t} [\begin{matrix} c o s φ s i n θ \\ \cos φ c o s θ \\ s i n φ \end{matrix}],

3.根据权利要求1所述的一种基于体感摄像头的多通路环绕声动态双耳重放方法，其特征在于：所述步骤3)具体包括：

\begin{matrix} E_{L} = \frac{1}{{HP}_{L} (f)} [Σ_{i = 1}^{M} H_{L} (θ_{i}, φ_{i}, f) E_{i}] & E_{R} = \frac{1}{{HP}_{R} (f)} [Σ_{i = 1}^{M} H_{R} (θ_{i}, φ_{i}, f) E_{i}] \end{matrix},

其中f是频率，M为通路数量；

H_{L} (θ_{i}, φ_{i}, f) = Σ_{q = 1}^{Q} w_{q, L} (θ_{i}, φ_{i}) d_{q} (f) + H_{a v} (f)

H_{R} (θ_{i}, φ_{i}, f) = Σ_{q = 1}^{Q} w_{q, R} (θ_{i}, φ_{i}) d_{q} (f) + H_{a v} (f),

4.根据权利要求3所述的一种基于体感摄像头的多通路环绕声动态双耳重放方法，其特征在于：所述步骤4)具体包括：

E_{L} = \frac{1}{{HP}_{L} (f)} {Σ_{q = 1}^{Q} d_{q} (f) [Σ_{i = 1}^{M} w_{q, L} (θ_{i}, φ_{i}) E_{i}] + H_{a v} (f) [Σ_{i = 1}^{M} E_{i}]}

E_{R} = \frac{1}{{HP}_{R} (f)} {Σ_{q = 1}^{Q} d_{q} (f) [Σ_{i = 1}^{M} w_{q, R} (θ_{i}, φ_{i}) E_{i}] + H_{a v} (f) [Σ_{i = 1}^{M} E_{i}]} .