CN101384105B

CN101384105B - 三维声音重现的方法、装置及系统

Info

Publication number: CN101384105B
Application number: CN2008101712402A
Authority: CN
Inventors: 詹五洲; 王东琦
Original assignee: Huawei Device Co Ltd
Current assignee: Global Innovation Polymerization LLC; Tanous Co
Priority date: 2008-10-27
Filing date: 2008-10-27
Publication date: 2011-11-23
Anticipated expiration: 2028-10-27
Also published as: CN101384105A

Abstract

本发明实施例提供三维声音重现的发送端处理方法，包括：获取来自各个声源的多路音频信号；将获取的多路音频信号进行声源分离得到与各个声源对应的音频信号；计算出与各个声源对应的方位信息；将与各个声源对应的音频信号和方位信息分别进行编码。还提供三维声音重现的接收端处理方法，包括：将接收的编码后的与各个声源对应的音频信号和方位信息进行解码；按照解码后的与各个声源对应的方位信息将解码后的与各个声源对应的音频信号重现为三维声音。本发明还提供一种三维声音重现的发送、接收装置和系统。本发明克服了现有的立体声系统中通常存在的“热点”区域的问题，能够重现出原始真实的声场，为整个聆听空间提供基本相同质量的声覆盖。

Description

三维声音重现的方法、装置及系统

技术领域

本发明涉及通信领域，特别是涉及一种三维声音重现的方法、装置及系统。

背景技术

人的听觉不仅涉及听觉器官本身，还涉及视觉，甚至触觉等生理、物理、心理等综合因素。从听觉角度来讲，人耳除了声音有响度、音调、音色的主观感觉外，还有对声源的空间印象感觉，即对声源的定位能力。人耳对声源的定位能力产生于如下原因：人的双耳之间有一定的距离(约17cm)，若某一点声源偏离听音人正前方主轴方向，到达两耳的声音是有差别的，人的听觉系统根据这些差别就可以判断出声源的方位，这一理论被称为“双耳效应”理论。双耳效应理论认为：人耳对声源方位的判断能力是根据由于双耳距离差引起的以下四个物理因素产生的，具体为：

1.声音到达双耳间的时间差；

2.声音到达双耳间的强度差；

3.声音低频分量由于时间差产生的相位差；

4.由于人头对高频分量的遮蔽作用产生的音色差。

由于上面的原因，自然界发出的声音被人耳感知后都能够被确定声源的空间位置，即带有立体声效果。但如果把这些立体声经过记录、放大等处理后进行重放时，所有的声音都从一个扬声器放出来，这种重放声(与原声源相比)就不是立体的了。这是由于各种声音都从同一个扬声器发出，原来的空间感也消失了。如果从记录到重放整个系统能够在一定程度上恢复原发声的空间感，那么这种具有一定程度的方位层次等空间分布特性的重放声称为音响技术中的立体声。

如图1所示，现有的扬声器立体声重现系统中，通过调整立体声重现系统中的两个扬声器101、102的信号的时间差或者强度差，在传播过程中叠加后被听音人P感知。由于人的双耳效应的存在，听音人P会感觉声源位于一个虚拟的位置，如图中的VSS(虚拟声源，VirtualSound Source)所标记的声源，而不是感觉有两个声源(每一个扬声器可以看作是一个声源)。

图2是运用上述现有技术的扬声器立体声重现系统的多方视讯会议示意图。如图2所示，这里以三方视讯会议为例，图中的会场A、会场B和会场C是三个不同的会场。会场B和会场C中的与会者、指向性麦克风、扬声器及显示屏均与会场A类似，所以图中未示出。会场之间通过网络进行通信。会场A中，P1～P4为四个与会者；M1～M3为三个指向性麦克风，用于捕捉会场中的声音信号；L11～L12为两个扬声器，用于声音重现；D1～D2为两个显示屏幕，用于分别显示会场B和会场C中的摄像机捕捉到的会场场景。三个麦克风M1～M3所采集到的信号被混叠为一个声道或者两个声道，分别传送到会场B和会场C中；在会场B和会场C中，将接收到的声音信号，通过两个会场中的扬声器，利用立体声重现方法，将声音重现出来。另外，每个会场内的麦克风的个数也可以是由多个麦克风组成的一个麦克风阵列，该麦克风阵列捕捉到的信号也混叠为一个或者两个声道，传到其他的会场。

发明人在完成本发明的过程中，发现现有技术至少存在如下问题：现有的立体声重现系统中，通常存在一个“热点”区域，即黄金位置，只有在该位置的听者才能得到好的立体声效果，在其它位置的听者则不能得到好的立体声效果。而在视讯通信系统中，通常在一个会场有多个与会者，这样必然使得一些与会者不能听到较好的立体声效果，也就是音频的空间感有限。这在会场中的显示屏幕较大时更为突出，因为从视觉的角度看，较大的显示屏幕可以使更多的与会者获得较好的观看效果，但是由于现有技术的立体声重现系统存在的热点区域问题，使得只有部分位于黄金位置的与会者能得到好的立体声效果，在其它位置的与会者则不能得到好的立体声效果，音频的空间感较差。

发明内容

本发明实施例所要解决的技术问题在于，提供一种三维声音重现方法、装置及系统，使得在再现声场中的任何位置都具有较好的立体声效果，消除热点区域。

本发明实施例提供一种三维声音重现的发送端处理方法，包括：

获取来自各个声源的多路音频信号；

对所述获取到的多路音频信号进行声源分离，得到与所述各个声源对应的音频信号；

根据所述获取的多路音频信号及用来获取来自各个声源的多路音频信号的装置之间的位置关系计算出与所述各个声源对应的方位信息；

将所述与各个声源对应的音频信号和方位信息分别进行编码。

本发明实施例还提供一种三维声音重现的接收端处理方法，包括：

将接收的编码后的与各个声源对应的音频信号和方位信息进行解码；

按照解码后的与各个声源对应的方位信息将解码后的与各个声源对应的音频信号重现为三维声音。

本发明实施例还提供一种三维声音重现的发送装置，包括：

多路音频信号获取单元，用于获取来自各个声源的多路音频信号；

声源分离模块，用于将所述获取的多路音频信号进行声源分离，得到与所述各个声源对应的音频信号；

方位计算模块，用于根据所述获取的多路音频信号及用来获取来自各个声源的多路音频信号的装置之间的位置关系计算出与所述各个声源对应的方位信息；

编码模块，用于将所述与各个声源对应的音频信号和方位信息分别进行编码。

本发明实施例还提供一种三维声音重现的接收装置，包括：

解码模块，用于将接收的编码后的与各个声源对应的音频信号和方位信息进行解码；

声音重现模块，用于按照解码后的与各个声源对应的方位信息将解码后的与各个声源对应的音频信号重现为三维声音。

本发明实施例还提供一种三维声音重现系统，包括：

A.三维声音重现的发送装置，具体包括：

声源分离模块，用于将获取的多路音频信号进行声源分离，得到与所述各个声源对应的音频信号；

编码模块，用于将所述与各个声源对应的音频信号和方位信息分别进行编码；和

B.三维声音重现的接收装置，具体包括：

本发明实施例具有以下有益效果：通过将不同声源所对应的音频信号分离出来处理，为整个空间提供基本相同质量的声覆盖，基本可以重现出原始真实的声场，提高视讯会议系统的音频空间感。

附图说明

图1是现有技术的扬声器立体声重现示意图；

图2是现有技术的多方会议的扬声器立体声重现系统的示意图；

图3是根据本发明提供的三维声音重现的发送端处理方法的实施例一的流程图；

图4是根据本发明提供的三维声音重现的发送端处理方法的实施例二的流程图；

图5是图4中所示的三维声音重现的发送端处理方法的麦克风阵列捕捉声音信号的示意图；

图6是图4中所示的三维声音重现的发送端处理方法中的盲源分离方法的基本原理框图；

图7是根据本发明提供的三维声音重现的接收端处理方法的实施例一的流程图；

图8是根据本发明提供的三维声音重现的接收端处理方法的实施例二的流程图；

图9是使用图8中所示的三维声音重现的接收端处理方法中的波前合成方法前的原始声场；

图10是使用图8中所示的三维声音重现的接收端处理方法中的波前合成方法后的声场；

图11是图8中所示的三维声音重现的接收端处理方法中的扬声器阵列播放音频信号的示意图；

图12是根据本发明提供的三维声音重现的发送装置的实施例一的示意图；

图13是根据本发明提供的三维声音重现的发送装置的实施例二的示意图；

图14是图13中所示三维声音重现的发送装置中的方位计算模块的示意图；

图15是根据本发明提供的三维声音重现的接收装置的实施例一的示意图；

图16是根据本发明提供的三维声音重现的接收装置的实施例二的示意图；

图17是根据本发明提供的三维声音重现系统的实施例一的示意框图；

图18是根据本发明提供的三维声音重现系统的实施例二的示意框图；

图19是根据本发明提供的三维声音重现系统的一实施例的组网图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。

图3是根据本发明提供的三维声音重现的发送端处理方法的实施例一的流程图。该流程图包括下列步骤：

步骤S301：获取来自各个声源的多路音频信号；

在实施步骤S301过程中，所述获取来自各个声源的多路音频信号是使用麦克风阵列完成的。

步骤S302：将获取的多路音频信号进行声源分离，得到与所述各个声源对应的音频信号；

在实施步骤S302中，所述将获取的多路音频信号进行声源分离采用盲源分离方法。

步骤S303：根据所述获取的多路音频信号及用来获取来自各个声源的多路音频信号的装置之间的位置关系计算出与所述各个声源对应的方位信息；

在实施步骤S303的过程中，所述根据所述获取的多路音频信号及用来获取来自各个声源的多路音频信号的装置之间的位置关系计算出与所述各个声源对应的方位信息具体包括：估算所述多路音频信号传播到所述用来获取来自各个声源的多路音频信号的各个装置之间的相对时延；根据估算出的所述相对时延及用来获取来自各个声源的多路音频信号的装置之间的位置关系计算出与所述各个声源对应的方位信息。

步骤S304：将所述与各个声源对应的音频信号和方位信息分别进行编码。

本实施例能够将混杂在一起的不同声源所对应的音频信号分离出来，并计算出不同声源所对应的音频信号的位置信息，使得声音输出时可以很好地模拟再现原始真实声场。

图4是根据本发明提供的三维声音重现的发送端处理方法的实施例二的流程图。该流程图包括下列步骤：

步骤S401：首先获取来自各个声源的多路音频信号，本实施例采用多个麦克风组成的麦克风阵列采集同时说话的多个人(即多个声源)的语音信号，从而捕获多路声音信号，将其转换为多路音频信号。

步骤S402：对麦克风阵列采集输入的多路音频信号进行声源分离，得到与所述各个声源对应的音频信号。在该实施例中，采用盲源分离方法对不同声源的音频信号进行分离。

步骤S403：根据步骤S401中获取的多路音频信号及麦克风阵列中的各个麦克风之间的位置关系分别计算出与各个声源对应的方位信息。在该实施例中，采用基于时延估算的声源定位算法计算与各个声源对应的方位信息。

步骤S404：将与各个声源对应的音频信号和各个声源的方位信息进行编码，然后通过网络发送给三维声音重现的接收端。

下面详细说明基于时延估算的声源定位算法：

图5是图4中所示的三维声音重现的发送端处理方法的麦克风阵列捕捉声音信号的示意图。如图5所示，由于声源与各个麦克风之间的距离不同，所以声源发出的声音信号传播到麦克风阵列中的不同麦克风的时间不同。例如存在两个声源，声源1发出的声音信号传播到麦克风阵列中的各个麦克风的时间是不同的，声源2发出的声音信号传播到麦克风阵列中的各个麦克风的时间也是不同的，这样从不同的麦克风输出的对应同一声源的音频信号的时间也不相同。因此首先估算与各个声源对应的音频信号之间的相对时延，然后利用估算出来的相对时延结合已知的麦克风之间的位置关系确定各个声源的方位。时延估算算法中应用最为广泛的是广义互相关函数法(GCC，GeneralizedCross Correlation)。广义互相关函数法通过求两音频信号之间的互功率谱，并在频域内进行加权，对噪声和反射声进行抑制，再反变换到时域，得到两音频信号间的互相关函数。互相关函数的峰值位置即为两音频信号之间的相对时延。得到音频信号之间的时延后，结合已知的麦克风之间的位置关系，即可得到与声源对应的方位信息。

下面详细说明盲源分离方法：

图6是图4中所示的三维声音重现的发送端处理方法中的盲源分离方法的基本原理框图。所谓盲源分离，是指在不知道源信号和传输信道的先验信息的情况下，根据输入信号的统计特征，仅由观测到的混合信号来回复或分离出源信号。也就是说，源信号是不能被观测到的，得到的是混合后的信号；另外，各个不同的源信号是如何混合的也是未知的。典型的被观测信号是一系列传感器的输出，而每一个传感器收到的是源信号的不同组合。盲源分离的主要任务就是从观测数据中恢复出源信号。对应于本发明的实施例中，麦克风阵列采集同时说话的多个人的语音信号，从而获得多路语音，利用盲源分离技术从这多路语音中恢复出每个人对应的语音信号，也就是从多路语音中分离出与多个声源对应的音频信号。盲源分离方法的基本原理就是使观测信号经过一个分离系统后能恢复或分离出源信号。如图6所示，N个相互统计独立的未知源信号s＝[s₁(t)，s₂(t)，...，s_N(t)]^T经未知混合系统H的传输后，由M个传感器检测获得M个观测信号x＝[x₁(t)，x₂(t)，...，x_M(t)]^T。盲源分离的任务是将观测信号通过信号分离器(即，通过分离算法)后使得输出y＝[y₁(t)，y₂(t)，...，y_N(t)]^T是源信号的一个拷贝或估计。

目前解决盲源分离最主要的方法有如下三种：

①独立分量分析方法。通过寻求一个线性变换，使得信号经过变换后，其不同分量之间的相依性最小。该方法是由Comon于1994年提出的。当信号之间的独立性采用不同的准则测度时，即可得到不同的算法。

②熵最大化方法。利用非线性传递函数对输出进行变换，使得输出分布包含在一个有限的超立方体中，然后熵的最大化将迫使输出尽可能在超立方体中均匀散布。该方法是由Bell和Sejnowski于1995年提出的。

③非线性主分量分析方法。这类方法是由Oja与Karhumen等人提出的，它是线性主分量分析方法的推广，在正交约束下可以实现信号的分离。

本实施例通过麦克风阵列捕捉多路音频信号，并通过盲源分离方法能够很好地将混杂在一起的不同声源所对应的音频信号分离出来，并根据音频信号计算出不同声源所对应的音频信号的位置信息，通过网络发送给声音输出端，使得声音输出时可以很好地模拟再现原始真实声场。

图7是根据本发明提供的三维声音重现的接收端处理方法的实施例一的流程图。该流程图包括下列步骤：

步骤S701：将接收的所述编码后的与各个声源对应的音频信号和方位信息进行解码；

步骤S702：三维声音重现，即按照解码后的与各个声源对应的方位信息将解码后的与各个声源对应的音频信号重现为三维声音。

在实施步骤S702的过程中，所述按照解码后的与各个声源对应的方位信息将解码后的与各个声源对应的音频信号重现为三维声音是使用扬声器阵列完成的。所述按照解码后的与各个声源对应的方位信息将解码后的与各个声源对应的音频信号重现为三维声音采用波前合成方法。

本发明实施例将编码后的音频信号和方位信息进行解码，在声音输出端处生成各路音频信号对应的虚拟声源，能够将多声源的多路音频信息较为逼真地重现出来。

图8是根据本发明提供的三维声音重现的接收端处理方法的实施例二的流程图。该流程图包括下列步骤：

步骤S801：三维声音重现的接收端接收三维声音重现的发送端通过网络发送来的编码后的与各个声源对应的音频信号和方位信息后，对其进行解码，解码后得到与各个声源对应的音频信号和方位信息；

步骤S802：利用波前合成方法，通过扬声器阵列将三维声音重现出来。

下面详细说明波前合成方法：

图9是使用图8中所示的三维声音重现的接收端处理方法中的波前合成方法前的原始声场；图10是使用图8中所示的三维声音重现的接收端处理方法中的波前合成方法后的声场。

根据扬声器阵列理论，将若干个扬声器排列成一个阵列，例如间隔排列在一条直线上，每个扬声器单元辐射一个平面的同相位波阵面，多个单元的组合就可以提供单一的主扩展声源。该扬声器阵列的波阵面通过在整个音频范围内的耦合，使得声音以波束的形式在一定的方向上传播。通过控制扬声器阵列中各个扬声器对应输入信号的延迟时间，可使声波在指定地点或者方向发生叠加，而在其它位置发生破坏性干涉，从而实现根据需要改变声音传播方向的目的，这也就是所谓的“波前合成”。所谓波前合成(Wave Field Synthesis)是利用惠更斯(Huyghens)原理来进行声波合成的，其内容为“波阵面(Wave Front)上所有的点均可以看作一个新的波源，这些波源和原始的波源有同样的速率和波长，在叠加之后这些波源在下一个瞬间形成新的波阵面”。采用波前合成技术可以对声场进行真实的重现。

本实施例中使用多个扬声器作为新的波源，利用Huyghens原理，采用波前合成方法将不同虚拟声源对应的信号传送到不同的扬声器重现出来。具体的说，设定虚拟声源的个数为M，扬声器的个数为N，在使用波前合成方法时，某一个虚拟声源对应的信号可以使用N个扬声器中的2～N个扬声器重现出来；当有多个声源时，则可能有多个声源对应的信号共用一个扬声器的情况。图11是图8中所示的三维声音重现的接收端处理方法中的扬声器阵列播放音频信号的示意图。举例说明，如图11所示，根据会场接收到的声源所生成的虚拟声源共有S1、S2、S3三个，用于声音重放的扬声器有L1、L2、L3、L4、L5、L6共六个。其中S1对应的信号用L1和L4重放出来、S2对应的信号用L1、L4、L5、L6重放出来，S3对应的信号用L2和L5重放出来；既L1被S1和S2共用，L4被S1和S2共用，L5被S2和S3共用。

本发明实施例提供的三维声音重现的接收端处理方法采用波前合成方法对声音进行重现，能够为整个聆听空间提供相同质量的声覆盖，提高了整个视听空间中的立体声效果，使得在整个视听空间中都能感受到原始真实的声音。

图12是根据本发明提供的三维声音重现的发送装置的实施例一的示意图。如图所示，三维声音重现的发送装置12中包含：多路音频信号获取单元121，处理单元122和编码模块123，其中处理单元122包括声源分离模块1221和方位计算模块1222。多路音频信号获取单元121用于获取来自各个声源的多路音频信号；声源分离模块1221用于将获取的多路音频信号进行声源分离得到与各个声源对应的音频信号；方位计算模块1222用于根据所述获取的多路音频信号及用来获取来自各个声源的多路音频信号的装置之间的位置关系计算出与所述各个声源对应的方位信息；编码模块123用于将所述与各个声源对应的音频信号和方位信息分别进行编码。

本实施例能够将混杂在一起的不同声源所对应的音频信号分离出来，并计算出不同声源所对应的音频信号的位置信息，使得声音输出时可以很好地模拟再现原始真实声场

图13是根据本发明提供的三维声音重现的发送装置的实施例二的示意图。如图所示，三维声音重现的发送装置13中包含：多路音频信号获取单元131，处理单元132和编码模块133，其中处理单元132包括盲源分离模块1321和方位计算模块1322。多路音频信号获取单元131，本实施例中为麦克风阵列，用于获取来自各个声源的多路音频信号；盲源分离模块1321用于将获取的多路音频信号进行盲源分离得到与各个声源对应的音频信号；方位计算模块1322用于根据所述获取的多路音频信号及用来获取来自各个声源的多路音频信号的装置之间的位置关系计算出与所述各个声源对应的方位信息；方位计算模块1322具体包括时延估算模块1322.1和声源定位模块1322.2，如图14所示，其中时延估算模块1322.1用于估算与各个声源对应的音频信号之间的相对时延，声源定位模块1322.2根据估算出的相对时延，并结合已知的麦克风之间的位置关系，确定出声源的方位信息。编码模块133用于将所述与各个声源对应的音频信号和方位信息分别进行编码。

本发明实施例提供的三维声音重现的发送装置使用盲源分离模块能够更有效精确地将多路音频信号获取单元121所获取的多路音频信号分离出来，使用包含时延估算模块和声源定位模块的方位计算模块能够更好地估算出与各个声源对应的方位信息。

图15是根据本发明提供的三维声音重现的接收装置的实施例一的示意图。如图所示，本实施例提供的三维声音重现的接收装置15包括：解码模块151和声音重现模块152，解码模块151用于将接收到的编码后的与各个声源对应的音频信号和方位信息进行解码；声音重现模块152用于按照解码后的与各个声源对应的方位信息将解码后的与各个声源对应的音频信号重现为三维声音。

本实施例的三维声音重现的接收装置能够重现出具有良好空间感的三维声音。

图16是根据本发明提供的三维声音重现的接收装置的实施例二的示意图。如图所示，本发明实施例提供的三维声音重现的接收装置16包括：解码模块161和声音重现模块162，解码模块151用于将接收到的编码后的与各个声源对应的音频信号和方位信息进行解码；声音重现模块162包括波前合成模块1621和扬声器阵列1622，解码后的音频信号通过波前合成模块1621利用波前合成方法通过扬声器阵列1622的共同作用重现为三维声音。

本发明实施例提供的三维声音重现的接收装置使用波前合成技术和扬声器阵列对多路音频信息进行重现，能够逼真地再现出原声场，给人以亲临现场的感觉。

图17是根据本发明提供的三维声音重现系统的实施例一的示意框图。如图所示，该三维声音重现系统包括三维声音重现的发送装置171和三维声音重现的接收装置172。三维声音重现的发送装置171中包含多路音频信号获取单元1701、处理单元1700和编码模块1704，其中处理单元1700包括声源分离模块1702和方位计算模块1703。多路音频信号获取单元1701用于获取来自各个声源的多路音频信号；声源分离模块1702用于将获取的多路音频信号进行声源分离得到与各个声源对应的音频信号；方位计算模块1703用于根据所述获取的多路音频信号及用来获取来自各个声源的多路音频信号的装置之间的位置关系计算出与所述各个声源对应的方位信息；编码模块1704用于将所述与各个声源对应的音频信号和方位信息分别进行编码。三维声音重现的接收装置172中包括解码模块1705和声音重现模块1706。解码模块1705用于将接收到的编码后的与各个声源对应的音频信号和方位信息进行解码；声音重现模块1706用于按照解码后的与各个声源对应的方位信息将解码后的与各个声源对应的音频信号重现为三维声音。

图18是根据本发明提供的三维声音重现系统的实施例二的示意框图。如图所示，该三维声音重现系统包括三维声音重现的发送装置181和三维声音重现的接收装置182。

三维声音重现的发送装置181中包含多路音频信号获取单元1801、处理单元1800和编码模块1804，其中处理单元1800包括盲源分离模块1802和方位计算模块1803。多路音频信号获取单元1801用于获取来自各个声源的多路音频信号；盲源分离模块1802用于将获取的多路音频信号进行盲源分离得到与各个声源对应的音频信号；方位计算模块1803用于根据所述获取的多路音频信号及用来获取来自各个声源的多路音频信号的装置之间的位置关系计算出与所述各个声源对应的方位信息。其中方位计算模块1803包括时延估算模块1803.1和声源定位模块1803.2，其中时延估算模块1803.1用于估算与各个声源对应的音频信号之间的相对时延，声源定位模块1803.2根据估算出的相对时延，并结合已知的麦克风之间的位置关系，确定出声源的方位信息。编码模块1804用于将所述与各个声源对应的音频信号和方位信息分别进行编码。

三维声音重现的接收装置182中包括解码模块1805和声音重现模块1806，解码模块1805用于将接收到的编码后的与各个声源对应的音频信号和方位信息进行解码；声音重现模块1806包括波前合成模块1806.1和扬声器阵列1806.2，解码后的音频信号通过波前合成模块1806.1利用波前合成方法通过扬声器阵列1806.2共同作用重现为三维声音。

在多方视讯会场中设置本实施例的声源重现系统，将大大改善视讯会场的音频空间感。

图19是根据本发明提供的三维声音重现系统的一实施例的组网图。在多点视讯通信系统中，一种可能的利用本发明提供的三维声音重现系统的组网图如图19所示，图中示例性地显示有三个会场，通过网络中的多点控制单元(MCU)实现了一个三方远程的声源重现系统。在进行视频会议时，每一个终端设备Ti(i∈[1:3])都向MCU进行注册，关于MCU的更为全面的定义可以参考国际电信联盟，即ITU，制定的标准，这些标准包括但不局限于H.324、H.323等标准。图中的每个终端设备都包含了本发明实施例中所述三维声音重现的发送装置和三维声音重现的接收装置。

当视频会议系统进行时，各个终端设备Ti(i∈[1:3])的声源分离模块，特别是盲源分离模块，把对应会场Si中的麦克风阵列得到的多路音频信号进行分离，然后计算出各声源对应的方位信息，将分离后的多个声源对应的音频信号以及多个声源对应的方位信息一起发送给会议控制单元MCU。MCU得到各个终端设备传送过来的音视频信号后，生成类会场Si，即其它会场Sj(j∈[1:3]，且j≠i)需要呈现的音频信号，并将类会场Si传送给其它会场Sj中的终端设备Tj(j∈[1:3]，且j≠i)，终端设备Tj中的三维声音重现的接收装置对接收到类会场Si信息进行解码处理，得到音频输出设备中的各个扬声器对应的音频信号，在会场Sj中模拟出其它会场中传送过来的声源对应的虚拟声源，并呈现给会场Sj中的与会者。

根据本发明实施例提供的三维声音重现系统，能够为整个聆听空间提供相同质量的声覆盖，重现出原始真实的声场。

当然，以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种三维声音重现的发送端处理方法，其特征在于，包括：

获取来自各个声源的多路音频信号；

将获取的多路音频信号进行声源分离，得到与所述各个声源对应的音频信号；

估算所述多路音频信号传播到用来获取来自各个声源的多路音频信号的各个装置之间的相对时延，根据估算出的所述相对时延及所述用来获取来自各个声源的多路音频信号的装置之间的位置关系计算出与所述各个声源对应的方位信息；

2.根据权利要求1所述的三维声音重现的发送端处理方法，其特征在于，所述获取来自各个声源的多路音频信号是使用麦克风阵列完成的。

3.根据权利要求1或2所述的三维声音重现的发送端处理方法，其特征在于，所述将获取的多路音频信号进行声源分离采用盲源分离方法。

4.一种三维声音重现的发送装置，其特征在于，包括：

方位计算模块，其具体包括：时延估算模块，用于估算所述多路音频信号传播到所述多路音频信号获取单元之间的相对时延；声源定位模块，用于根据估算出的所述相对时延及所述多路音频信号获取单元之间的位置关系计算出与所述各个声源对应的方位信息；

5.根据权利要求4所述的三维声音重现的发送装置，其特征在于，所述多路音频信号获取单元为麦克风阵列。

6.根据权利要求4或5所述的三维声音重现的发送装置，其特征在于，所述声源分离模块具体为盲源分离模块。

7.一种三维声音重现系统，其特征在于，包括：

A.三维声音重现的发送装置，具体包括：

编码模块，用于将所述与各个声源对应的音频信号和方位信息分别进行编码；

和

B.三维声音重现的接收装置，具体包括：

8.根据权利要求7所述的三维声音重现系统，其特征在于，所述多路音频信号获取单元为麦克风阵列。

9.根据权利要求7或8所述的三维声音重现系统，其特征在于，所述声源分离模块具体为盲源分离模块。

10.根据权利要求7或8所述的三维声音重现系统，其特征在于，所述声音重现模块包括扬声器阵列。

11.根据权利要求7或8所述的三维声音重现系统，其特征在于，所述声音重现模块包括波前合成模块。