CN104735582B

CN104735582B - 一种声音信号处理方法、装置及设备

Info

Publication number: CN104735582B
Application number: CN201310714608.6A
Authority: CN
Inventors: 吴文海; 王田; 张德军
Original assignee: Huawei Technologies Co Ltd
Current assignee: Guangdong Gaohang Intellectual Property Operation Co ltd; Yuying School Yongnian District Handan City
Priority date: 2013-12-20
Filing date: 2013-12-20
Publication date: 2018-09-07
Anticipated expiration: 2033-12-20
Also published as: WO2015090039A1; CN104735582A

Abstract

本发明实施例提供了一种声音信号处理方法、装置及设备，该方法包括：获取设定区域内的声源信号以及设定区域的图像信息，根据图像信息得到三维极坐标中声源信号的坐标位置，根据声源信号的坐标位置，得到声源信号对应每一个坐标轴的差分信号，获取扬声器的位置信息，根据扬声器的位置信息以及得到的每一个坐标轴的差分信号，得到扬声器的声音输出信号，最后扬声器根据得到的输出声音信号进行输出，从而实现了3D音频技术的侵入式效果。

Description

一种声音信号处理方法、装置及设备

技术领域

本发明涉及通信技术领域，尤其涉及一种声音信号处理方法、装置及设备。

背景技术

随着通信技术的发展，用户不仅可以使用网络进行信息的传输，还可以使用网络进行语音交互或者是视频交互，因此用户可以实现远程的通讯，比如说远程的视频教学或者是远程的视频会议等等。

当前，采用3D声音处理方式对音频会议中的音频流进行处理，即通过为各个音频流分配声像位置，以及根据各个声像位置的音频流的位置关系，调节音频流在左右声道的增益大小，进而营造出一种立体的声响效果。

当前的3D声音处理方式是通过简单的左右声道的增益调节来实现会场3D声效果，但是当前的3D声效果都是通过固定扬声器播放音频，因此当前的3D声效果只能实现单一效果，降低了用户体验度。

发明内容

本发明实施例提供了一种声音信号处理方法、装置及设备，用以解决现有技术中3D声效果单一的问题。

其具体的技术方案如下：

本发明实施例第一发明提供了一种声音信号处理方法，包括：

获取设定区域内的声源信号以及所述设定区域的图像信息；

根据所述图像信息得到三维极坐标中所述声源信号的坐标位置；

根据所述声源信号的坐标位置，得到所述声源信号对应每一个坐标轴的差分信号；

获取扬声器的位置信息，根据所述扬声器的位置信息、所述对应每一个坐标轴的差分信号，得到所述扬声器的声音输出信号。

结合第一方面，在第一种可能的实现方式中，在X轴以及Y轴上的差分信号L可以通过如下公式得到：

L＝sqrt(2)/2*(gain_L1*S(t-τ_L1)-gain_L2*S(t-τ_L2))*K

gain_L1、S(t-τ_L1)分别为X轴或者是Y轴上的一个声音采集点的增益系数以及延迟信号，gain_L2、S(t-τ_L2)分别为X轴或者是Y轴上的另一个声音采集点的增益系数和延迟信号，τ是指两个相邻声音采集点之间的距离与声音传输速度之间的比值，K为复指数序列。

结合第一方面，在第二种可能的实现方式中，在Z轴上的差分信号z可以通过如下公式得到：

z＝sqrt(2)/2*(gain_z1*S(t-τ_z1)-gain_z2*S(t-τ_z2))

gain_z1、S(t-τ_z1)分别为Z轴上的一个声音采集点的增益系数以及延迟信号，gain_z2、S(t-τ_z2)分别为Z轴上的另一个声音采集点的增益系数和延迟信号，τ是指两个相邻声音采集点之间的距离与声音传输速度之间的比值。

结合第一方面，在第三种可能的实现方式中，在根据所述声源信号的坐标位置，得到所述声源信号对应每一个坐标轴的差分信号之后，以及在获取扬声器的位置信息，根据所述扬声器的位置信息、所述对应每一个坐标轴的差分信号，得到所述扬声器的声音输出信号之前，还包括：

获取表征所述声源信号强度的幅度值；

根据所述声源信号的幅度值以及声源信号在所述预设三维极坐标中的坐标位置，得到所述声源信号的幅度值对应在每一个坐标轴上的差分信号的幅度值。

结合第三种可能的实现方式，在第四种可能的实现方式中，通过如下公式确定所述声源信号S(t)的幅度值对应在每个坐标轴上的差分信号的幅度值：

|x|=u*cos(θ)*cos(φ)*|S(t)|

|y|=u*sin(θ)*cos(φ)*|S(t)|

|z|=u*sin(φ)*|S(t)|

其中，|S(t)|为声源信号的幅度值，|x|为差分信号x在X轴上的幅度值，|y|为差分信号y在Y轴上的幅度值，|z|为差分信号z在Z轴上的幅度值，u为幅度衰减系数，θ表示声源信号的坐标与所述三维极坐标的坐标原点之间的连线在XOY平面上的投影与X轴的夹角，φ表示所述连线与XOY平面之间的夹角。

结合第一方面，在第五种可能的实现方式中，获取扬声器的位置信息，根据所述扬声器的位置信息、所述对应每一个坐标轴的差分信号，得到所述扬声器的声音输出信号，包括：

确定所述扬声器在所处区域中的位置信息(θ_k，φ_k)，其中，θ_k为扬声器与坐标原点之间的连线在水平面上的投影与X轴的夹角，φ_k为所述连线与Z轴之间的夹角；

通过如下公式将扬声器的位置信息与每个坐标轴上的差分信号进行处理，生成所述扬声器对应的声音输出信号:

m(k)＝0.5*[S(t)+x*cos(θ_k)cos(φ_k)+y*sin(θ_k)cos(φ_k)+z*sin(φ_k)]

其中，m(k)表示各扬声器的输出信号。

本发明实施例第二方面提供了一种声音信号处理装置，包括：

获取模块，用于获取设定区域内的声源信号以及所述设定区域的图像信息；

确定模块，用于根据所述图像信息得到三维极坐标中所述声源信号的坐标位置；

第一处理模块，用于根据所述声源信号的坐标位置，得到所述声源信号对应每一个坐标轴的差分信号；

第二处理模块，用于获取扬声器的位置信息，根据所述扬声器的位置信息、所述对应每一个坐标轴的差分信号，得到所述扬声器的声音输出信号。

结合第二方面，在第一种可能的实现方式中，第一处理模块，还用于获取表征所述声源信号强度的幅度值，根据所述声源信号的幅度值以及声源信号在所述预设三维极坐标中的坐标位置，得到所述声源信号的幅度值对应在每一个坐标轴上的差分信号的幅度值。

本发明实施例第三方面提供了一种声音信号处理设备，包括：

声音采集器，用于获取设定区域内的声音信号；

图像采集器，用于获取所述设定区域内的图像信息；

处理器，用于根据所述图像信息得到三维极坐标中所述声源信号的坐标位置，根据所述声源信号的坐标位置，得到所述声源信号对应每一个坐标轴的差分信号，获取扬声器的位置信息，根据所述扬声器的位置信息、所述对应每一个坐标轴的差分信号，得到所述扬声器的声音输出信号。

在本发明实施例中获取设定区域内的声源信号以及设定区域的图像信息，根据图像信息得到三维极坐标中声源信号的坐标位置，根据声源信号的坐标位置，得到声源信号对应每一个坐标轴的差分信号，获取扬声器的位置信息，根据扬声器的位置信息以及得到的每一个坐标轴的差分信号，得到扬声器的声音输出信号，最后扬声器根据得到的输出声音信号进行输出。这样通过多个扬声器实现3D音效果的同时，还能通过3D声效果反映出说话者的发声位置以及声音的大小，避免了现有技术中3D声效果单一的问题。

附图说明

图1为本发明实施例中一种声音信号处理方法的流程图；

图2为本发明实施例中在第一设定区域内的坐标定位的示意图；

图3为本发明实施例中声音信号采集的示意图；

图4为本发明实施例中第二设定区域中扬声器设置位置的示意图；

图5为本发明实施例中扬声器在第二设定区域中的坐标位置示意图；

图6为本发明实施例中一种声音信号处理装置的结构示意图；

图7为本发明实施例中一种声音信号处理设备的结构示意图。

具体实施方式

当前3D音频技术的应用越来越广泛，比如说在游戏、电影、会议中都可以应用到3D音频技术，通过3D音频技术可以让用户更加有真实感，从而提升用户在声音上的体验度，尤其是在视频会议中，应用3D音频技术之后不仅可以让用户有更加真实的感受，并且还能够使说话者的声音信息更加具有辨识度。

但是，在当前的3D音频技术一般是通过两路声音信号的增益以及延迟调节来完成，这使得3D音频技术的实现方式单一，并且这种单一的实现方式使得3D音效的真实感较低。

针对上述问题，本发明实施例提供了一种声音信号处理方法，该方法包括：获取设定区域内的声源信号以及设定区域的图像信息，根据图像信息得到三维极坐标中声源信号的坐标位置，根据所述声源信号的坐标位置，得到声源信号对应每一个坐标轴的差分信号，获取扬声器的位置信息，根据扬声器的位置信息、对应每一个坐标轴的差分信号，得到扬声器的声音输出信号。

简单的来讲，比如说说话者在第一间会议室说话，而所有听众在第二间会议室，此时声音处理装置通过第一间会议室中的三维极坐标确定说话者在第一间会议室说话的坐标位置，并将说话者的声源信号分解为每个坐标轴上的差分信号，然后结合第二间会议室中扬声器所处的位置确定扬声器应该输出的差分信号，从而通过扬声器的组合播放，使得用户可以通过扬声器输出的声音信号判定出说话者在第一间会议室中的说话位置，这样就实现了3D音频技术的侵入式效果。

下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解，本发明实施例只是对本发明技术方案的详细说明而不是限定，在不冲突的情况下本发明实施例以及实施例中的具体技术特征可以相互组合。

实施例一：

如图1所示为本发明实施例中一种声音信号处理方法的流程图，该方法包括：

S101，获取设定区域内的声源信号以及设定区域的图像信息；

首先来讲，在设定区域中设置有一声音处理设备，在该声音处理设备中至少包括了声音采集装置以及图像采集装置，在本发明实施例中该声音采集装置为全向麦克风，用来来采集设定区域内的声源信号，图像采集装置为全向摄像头，用来采集设定区域内的图像信息。

S102，根据图像信息得到三维极坐标中声源信号的坐标位置；

当用户在设定区域内发出一声音信号时，声音采集装置将采集到说话者的声源信号S(t)，同时图像采集装置将采集设定区域中的图像信息，然后基于对图像的分析，得到声源信号在设定区域内的三维极坐标中的坐标位置。

具体来讲，在设定区域中的全向摄像头会拍摄一张设定区域中的全景图像，基于设定区域中的三维极坐标中的坐标原点确定出说话者在设定区域中的坐标位置，比如说如图2所示，在图2中说话者在设定区域中说话者的位置坐标可以使用极坐标（r，θ，φ）来表示，其中，r表示说话者与坐标原点之间的距离，θ表示说话者的声源位置与坐标原点之间的连线在XOY平面上的投影与X轴的夹角，φ表示XOY平面上的投影与连线之间的夹角。由于声源信号S(t)是由说话者发出，因此说话者的位置确定出来的同时声源信号S(t)的位置就相应的确定出来。

S103，根据声源信号的坐标位置，得到声源信号对应每一个坐标轴的差分信号;

在得到声源信号的坐标位置之后，声音处理设备会将声源信号S(t)分解到三维极坐标的每个坐标轴上，即：得到X、Y、Z坐标轴方向上的差分信号，具体来讲，X、Y、Z坐标轴方向上的差分信号可以根据自由声波传输原理，即：当一个点波传送到两个距离很近的虚拟的全向麦克风的信号的原理来得到各个坐标轴上的差分信号，比如说如图3所示，在图3中一个全向麦克分可以虚拟为两个距离很近的全向麦克风，通过分别获取声源信号对应在坐标轴上的两个相邻采集点上的第一声音采样信号以及第二声音采样信号，就可以根据坐标轴上的第一声音采样信号以及第二声音采样信号的差值得到声源信号S(t)在坐标轴上的差分信号。

具体来讲，X轴或者是Y上的差分信号可以但是不限于如下的公式（1）得到：

L＝sqrt(2)/2*(gain_L1*S(t-τ_L1)-gain_L2*S(t-τ_L2))*K （1）

当L表征X轴上的差分信号时：gain_x1*S(t-τ_x1)表示X轴上一个声音采集点采集到的第一声音采样信号，gain_x1、S(t-τ_x1)分别为X轴上的一个声音采集点的增益系数以及延迟信号，gain_x2*S(t-τ_x2)表示X轴上另一声音采集点采集到的第二声音采样信号，gain_x2、S(t-τ_x2)分别为X轴上的另一个声音采集点的增益系数和延迟信号，K为复指数序列。

进一步，由于声源信号S(t)所处位置可以通过极坐标（r，θ，φ）表示，因此在X轴上的第一声音采样信号以及第二声音采样信号在第一预设坐标系中的增益系数以及延迟时间可以通过声源信号S(t)中极坐标来得到，具体可以通过如下公式得到：

gain_x1＝(5/4+cos(θ))cos(φ)

gain_x2＝(5/4-cos(θ))cos(φ)

τ_x1＝τ*{-0.5+sqrt[(5/4-cos(θ))cos(φ)]}

τ_x2＝τ*{-0.5+sqrt[(5/4+cos(θ))cos(φ)]}

这里的τ是指两个虚拟全向麦克风的采集中心点之间的距离与声音传输速度之间的比值，即：两个虚拟全向麦克风中间的声音延迟时间，τ_x1表示声源信号S(t)传输到X轴上的一个声音采集点的时间，τ_x2表示声源信号S(t)传输到X轴上的另一个声音采集点的时间。

当L表征Y轴上的差分信号时：gain_y1*S(t-τ_y1)表示Y轴上一个声音采集点采集到的第一声音采样信号，gain_y1、S(t-τ_y1)分别为Y轴上的一个声音采集点的增益系数以及延迟信号，gain_y2*S(t-τ_y2)表示Y轴上另一声音采集点采集到的第二声音采样信号，gain_y2、S(t-τ_y2)分别为Y轴上的另一个声音采集点的增益系数和延迟信号，K为复指数序列。

进一步，由于声源信号S(t)所处位置可以通过极坐标（r，θ，φ）表示，因此在Y轴上的第一声音采样信号以及第二声源采样信号中的增益系数以及延迟时间可以通过声源信号S(t)的极坐标来得到，具体可以通过如下公式得到：

gain_y1＝(5/4+sin(θ))cos(φ)

gain_y2＝(5/4-sin(θ))cos(φ)

τ_y1＝τ*{-0.5+sqrt[(5/4-sin(θ))cos(φ)]}

τ_y2＝τ*{-0.5+sqrt[(5/4+sin(θ))cos(φ)]}

τ_y1表示声源信号S(t)传输到X轴上的一个声音采集点的延迟时间，τ_y2表示声源信号S(t)传输到X轴上的另一个声音采集点的时间。

对于Z轴上的差分信号可以通过公式（2）得到，具体如下：

z＝sqrt(2)/2*(gain_z1*S(t-τ_z1)-gain_z2*S(t-τ_z2)) （2）

其中，gain_z1*S(t-τ_z1)表示Z轴上一个声音采集点采集到的第一声音采样信号，gain_z1、S(t-τ_z1)分别为Z轴上的一个声音采集点的增益系数以及延迟信号，gain_z2*S(t-τ_z2)表示Z轴上另一声音采集点采集到的第二声音采样信号，gain_z2、S(t-τ_z2)分别为Z轴上的另一个声音采集点的增益系数和延迟信号。

进一步，由于声源信号S(t)所处位置可以通过极坐标（r，θ，φ）表示，因此在Z轴上的第一声音采样信号以及第二声源采样信号中的增益系数以及延迟时间可以通过声源信号S(t)中极坐标来得到，具体可以通过如下公式得到：

gain_z1＝5/4+sin(φ)

gain_z2＝5/4-sin(φ)

τ_z1＝τ*[-0.5+sqrt(5/4-sin(φ))]

τ_z1＝τ*[-0.5+sqrt(5/4+sin(φ))]

τ_z1表示声源信号S(t)传输到X轴上的一个声音采集点的时间，τ_z2表示声源信号S(t)传输到X轴上的另一个声音采集点的时间。

通过上述的处理过程可以得到的声源信号在三维极坐标中每个坐标轴上的差分信号，在得到每个坐标轴上的差分信号之后，需要根据声源信号的幅度值来调整每个坐标轴上的差分信号的幅度值。

具体来讲，首先获取声源信号的幅度值，根据声源信号的幅度值以及声源信号在三维极坐标中的坐标位置，确定声源信号的幅度值对应在每个坐标轴上的幅度值，最后根据各个坐标轴上的幅度值，调整各个坐标轴的差分信号的幅度值，具体的调整方式可以但是不限于通过如下的公式来得到：

|x|=u*cos(θ)*cos(φ)*|S(t)|

|y|=u*sin(θ)*cos(φ)*|S(t)|

|z|=u*sin(φ)*|S(t)|

其中，|S(t)|为声源信号的幅度值，|x|为差分信号x在X轴上的幅度值，|y|为差分信号y在Y轴上的幅度值，|z|为差分信号z在Z轴上的幅度值，u为幅度衰减系数。

在得到X、Y、Z坐标轴上的幅度值之后，根据得到的幅度值来调整各个坐标轴上对应差分信号的幅度值，即：X轴上的差分信号的幅度值调整为|x|，Y轴上的差分信号的幅度值调整为|y|，Z轴上的差分信号的幅度值调整为|z|。

在得到各个坐标轴上调整幅度之后的差分信号时，该声音处理设备将执行步骤S104。

S104，获取扬声器的位置信息，根据扬声器的位置信息、对应每一个坐标轴的差分信号，得到扬声器的声音输出信号；

在得到每个坐标轴上的差分信号之后，需要基于扬声器的位置信息确定扬声器应该对应的声音输出信号。

具体来讲，在本发明实施例中扬声器所处的区域中也存在三维极坐标，此时扬声器的位置坐标也可以通过极坐标来表征，比如说如图4所示，在图4中设置的是三维极坐标，即包括X轴、Y轴以及Z轴，扬声器在三维极坐标中的位置应该是图5所示的位置关系，在图5中，扬声器处于三维极坐标中，此时扬声器的位置可以通过极坐标（r，θ_k，φ_k）来表征，其中，r用来表征扬声器与极坐标系中坐标原点之间的距离，θ_k表示扬声器与坐标原点之间的连线在XOY平面上的投影线与X轴之间的夹角，φ_k投影线与所述连线之间的夹角，图5中的每个扬声器都可以通过极坐标来表征。

基于扬声器的极坐标，通过公式（3）得到扬声器的声音输出信号：

m(k)＝0.5*[S(t)+x*cos(θ_k)cos(φ_k)+ysin(θ_k)cos(φ_k)+zsin(φ_k)]（3）

其中，m(k)表示各扬声器的输出信号。

比如说第一扬声器的极坐标为（r，θ₁，φ₁），则该第一扬声器的输出信号就是：m(1)＝0.5*[S(t)+x*cos(θ₁)cos(φ₁)+ysin(θ₁)cos(φ_k)+zsin(φ₁)]，当然，若是区域中存在多个扬声器时，可以通过公式（3）得到每个扬声器对应的声音输出信号，此处就不再赘述。

在得到扬声器的输出信号之后，为了保证扬声器输出信号的效果，根据说话者的方位和扬声器的布局，选择并计算扬声器的增益，并得到增益调整后的输出信号，其增益调整后的输出信号如下：

m(k)＝0.5*gain*[S(t)+x*cos(θ_k)cos(φ_k)+ysin(θ_k)cos(φ_k)+zsin(φ_k)]

在得到每个扬声器增益调整后的输出信号之后，此时就将每个扬声器的声音输出信号发送至对应的扬声器，从而该扬声器就按照得到的输出信号进行输出。

通过不同位置的扬声器输出的不同的声音输出信号，就可以在区域中形成3D声效，并且能够比较精确的还原声源信号，从而让听者能够感受到声源信号的位置，以及感受到声源的位置改变以及声源信号的强度改变，进而实现了对声源信号在各个方位上的立体化效果，提升了3D声效的呈现效果。

另外，在本发明实施例中当说话者的位置发生改变，也就是声源位置发生改变时，则扬声器的声音输出信号也同时改变，这样就可以通过扬声器输出信号随着声源位置的改变而改变来反映出声源信号的位置改变，进而在提升了3D声效的呈现效果的基础上，听者还可以通过扬声器输出的声音输出信号随时感受到说话者在第一设定区域中的发声位置，实现了3D侵入式声效，提升了用户体验。

另外，在上述实施例中在设定区域中是通过全向麦克风将声源信号分别分解到3个坐标轴上的差分信号，当然在实际的场景中一般的麦克风只能是采集两路信号，因此在本发明实施例中还可以将声源信号分解到两个坐标轴上的差分信号，并通过这两个差分信号得到最后发送至扬声器的声音输出信号，具体的实现方式如下：

首先来讲，说话者还是处于设定区域中，并且在设定区域中存在三维极坐标，此时声源信号的位置可以通过三维极坐标来表示，即：根据声源信号的极坐标就可以得到声源信号在X轴上的差分信号，其X轴的声音信号采集方式与上述实施例中的采集方式相同，即：将一个麦克风虚拟为两个相邻的麦克风采集点，从而得到两次采集的声音信号，通过两次采集的声音信号得到X轴上的差分信号为：

x＝sqrt(2)/2*(gain_x1*S(t-τ_x1)-gain_x2*S(t-τ_x2-τ_x3))

其中，gain_x1表征声源信号在X轴上的第一声音采集点增益，S(t-τ_x1)表征声源信号在x轴上的第一声音采集点的延迟信号，gain_x2表征声源信号在X轴上的第二声音采集点增益，S(t-τ_x2-τ_x3)表征声源信号在X轴上的第二声音采集点的延迟信号。

进一步，由于声源信号S(t)所处位置可以通过三维坐标系中的极坐标（r，θ）表征，因此X轴上的增益以及延迟时间可以通过声源信号的极坐标来获取，其具体的可以通过如下公式获取：

gain_x1＝5/4+cos(θ)

gain_x2＝5/4-cos(θ)

τ_x1＝τ*[-0.5+sqrt(5/4-cos(θ))]

τ_x2＝τ*[-0.5+sqrt(5/4+cos(θ))]

τ_x3=τ

这里的τ是指两个虚拟全向麦克风的采集点之间的距离与声音传输速度之间的比值，即：两个虚拟全向麦克风中间的声音延迟时间，τ_x1表示声源信号S(t)传输到X轴上的一个声音采集点的时间，τ_x2表示声源信号S(t)传输到X轴上的另一个声音采集点的时间。

这样得到的X轴是的差分信号指向为心形。

基于获取X轴上差分信号的原理，同样可以通过如下公式获取到Y轴上的差分信号：

y＝sqrt(2)/2*(gain_y1*S(t-τ_y1)-gain_y2*S(t-τ_y2))

其中，gain_y1表征声源信号在X轴上的第一声音采集点增益，S(t-τ_y1)表征声源信号在Y轴上的第一声音采集点的延迟信号，gain_y2表征声源信号在Y轴上的第二声音采集点增益，S(t-τ_y2)表征声源信号在Y轴上的第二声音采集点的延迟信号。

进一步，由于声源信号S(t)所处位置可以通过三维坐标系中的极坐标（r，θ）表征，因此Y轴上的增益以及延迟时间可以通过声源信号的极坐标来获取，其具体的可以通过如下公式获取：

gain_y1＝5/4+sin(θ)

gain_y2＝5/4-sin(θ)

τ_y1＝τ*[-0.5+sqrt(5/4-sin(θ))]

τ_y2＝τ*[-0.5+sqrt(5/4+sin(θ))]

τ_y1表示声源信号S(t)传输到Y轴上的一个声音采集点的时间，τ_y2表示声源信号S(t)传输到Y轴上的另一个声音采集点的时间。

这样得到的Y轴是的差分信号指向为8字形

由于通过上述方法得到的基于三维坐标系得到的两路差分信号，因此得到的两个差分信号提供给另一区域中的两个扬声器输出，在另一区域中的两个扬声器的输出信号可以通过如下公式得到：

L＝0.5*(x+y)

R＝0.5*(x-y)

其中，L表征相对于坐标原点的左边的扬声器的输出信号，当然R表征相对于坐标原点的右边扬声器的输出信号。

当然，得到两个扬声器中每个扬声器的输出信号之后，还需要对得到的输出信号进行增益调整，此处的增益调整可以根据实际的应用场景来调整，即：增益可调高也可以调低。在调整好输出信号的增益之后，得到增益调整后的输出信号：

L＝0.5*gain*(x+y)

R＝0.5*gain*(x-y)

将最终的输出信号发送至对应的扬声器，具体来讲就是将L输出信号发送至相对于坐标原点坐标的左边的扬声器，而R输出信号发送至相对于坐标原点的右边的扬声器。最后通过左右两边的扬声器的输出信号在第二设定区域中混合形成3D音效，增加了3D声效的实现方式。

并且在本发明实施例中在说话者说话位置的改变，即：声源位置的改变，此时每个扬声器输出信号也会同样的改变的情况下，扬声器输出信号也会相应的调整，然后通过扬声器输出调整后的输出信号来形成不同的3D音效，从而使得听者可以感受到声音信号位置的改变，提升了用户的使用体验。

实施例二：

对应本发明实施例一中的一种声音信号处理方法，如图6所示，本发明实施例还提供了一种声音信号处理装置，该装置包括：

获取模块601，用于获取设定区域内的声源信号以及设定区域的图像信息；

确定模块602，用于根据图像信息得到三维极坐标中声源信号的坐标位置；

第一处理模块603，用于根据声源信号的坐标位置，得到声源信号对应每一个坐标轴的差分信号；

第二处理模块604，用于获取扬声器的位置信息，根据扬声器的位置信息、对应每一个坐标轴的差分信号，得到扬声器的声音输出信号。

进一步，第一处理模块603，还用于获取表征声源信号强度的幅度值，根据声源信号的幅度值以及声源信号在预设三维极坐标中的坐标位置，得到声源信号的幅度值对应在每一个坐标轴上的差分信号的幅度值。

第二处理模块604，具体用于确定扬声器在所处区域中的位置信息(θ_k，φ_k)，其中，θ_k为扬声器与坐标原点之间的连线在水平面上的投影与X轴的夹角，φ_k为连线与Z轴之间的夹角，通过如下公式将扬声器的位置信息与每个坐标轴上的差分信号进行处理，生成扬声器对应的声音输出信号:

m(k)＝0.5*[S(t)+x*cos(θ_k)cos(φ_k)+y*sin(θ_k)cos(φ_k)+z*sin(φ_k)]其中，m(k)表示各扬声器的输出信号。

另外，本发明实施例中还提供了一种声音信号处理设备，如图7所示为本发明实施例中一种声音信号处理设备的结构示意图，该设备包括：

声音采集器701，用于获取设定区域内的声音信号；

图像采集器702，用于获取设定区域内的图像信息；

处理器703，用于根据图像信息得到三维极坐标中声源信号的坐标位置，根据声源信号的坐标位置，得到声源信号对应每一个坐标轴的差分信号，获取扬声器的位置信息，根据扬声器的位置信息、对应每一个坐标轴的差分信号，得到扬声器的声音输出信号。

进一步，处理器703，具体用于通过如下公式得到X轴以及Y轴上的差分信号：

L＝sqrt(2)/2*(gain_L1*S(t-τ_L1)-gain_L2*S(t-τ_L2))*K

处理器703，具体用于通过如下公式得到Z轴上的差分信号：

z＝sqrt(2)/2*(gain_z1*S(t-τ_z1)-gain_z2*S(t-τ_z2))

进一步，处理器703，还用于获取表征声源信号强度的幅度值，根据声源信号的幅度值以及声源信号在预设三维极坐标中的坐标位置，得到声源信号的幅度值对应在每一个坐标轴上的差分信号的幅度值。

进一步，处理器703，还用于确定扬声器在所处区域中的位置信息(θ_k，φ_k)，其中，θ_k为扬声器与坐标原点之间的连线在水平面上的投影与X轴的夹角，φ_k为连线与Z轴之间的夹角，通过如下公式将扬声器的位置信息与每个坐标轴上的差分信号进行处理，生成扬声器对应的声音输出信

号:m(k)＝0.5*[S(t)+x*cos(θ_k)cos(φ_k)+y*sin(θ_k)cos(φ_k)+z*sin(φ_k)]其中，m(k)表示各扬声器的输出信号。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种声音信号处理方法，其特征在于，包括：

获取设定区域内的声源信号以及所述设定区域的图像信息；

获取表征所述声源信号强度的幅度值；

通过如下公式确定所述声源信号S(t)的幅度值对应在每个坐标轴上的差分信号的幅度值：

|x|＝u*cos(θ)*cos(φ)*|S(t)|

|y|＝u*sin(θ)*cos(φ)*|S(t)|

|z|＝u*sin(φ)*|S(t)|

其中，|S(t)|为声源信号的幅度值，|x|为差分信号x在X轴上的幅度值，|y|为差分信号y在Y轴上的幅度值，|z|为差分信号z在Z轴上的幅度值，u为幅度衰减系数，θ表示声源信号的坐标与所述三维极坐标的坐标原点之间的连线在XOY平面上的投影与X轴的夹角，φ表示所述连线与XOY平面之间的夹角；

2.如权利要求1所述的方法，其特征在于，在X轴以及Y轴上的差分信号L可以通过如下公式得到：

L＝sqrt(2)/2*(gain_L1*S(t-τ_L1)-gain_L2*S(t-τ_L2))*K

3.如权利要求1所述的方法，其特征在于，在Z轴上的差分信号z可以通过如下公式得到：

z＝sqrt(2)/2*(gain_z1*S(t-τ_z1)-gain_z2*S(t-τ_z2))

4.如权利要求1所述的方法，其特征在于，获取扬声器的位置信息，根据所述扬声器的位置信息、所述对应每一个坐标轴的差分信号，得到所述扬声器的声音输出信号，包括：

m(k)＝0.5*[S(t)+x*cos(θ_k)cos(φ_k)+y*sin(θ_k)cos(φ_k)+z*sin(φ_k)]

其中，m(k)表示各扬声器的输出信号。

5.一种声音信号处理装置，其特征在于，包括：

第一处理模块，用于根据所述声源信号的坐标位置，得到所述声源信号对应每一个坐标轴的差分信号，还用于获取表征所述声源信号强度的幅度值，通过如下公式确定所述声源信号S(t)的幅度值对应在每个坐标轴上的差分信号的幅度值：

|x|＝u*cos(θ)*cos(φ)*|S(t)|

|y|＝u*sin(θ)*cos(φ)*|S(t)|

|z|＝u*sin(φ)*|S(t)|

6.一种声音信号处理设备，其特征在于，包括：

声音采集器，用于获取设定区域内的声源信号；

图像采集器，用于获取所述设定区域内的图像信息；

处理器，用于根据所述图像信息得到三维极坐标中所述声源信号的坐标位置，根据所述声源信号的坐标位置，得到所述声源信号对应每一个坐标轴的差分信号，获取表征所述声源信号强度的幅度值，通过如下公式确定所述声源信号S(t)的幅度值对应在每个坐标轴上的差分信号的幅度值：

|x|＝u*cos(θ)*cos(φ)*|S(t)|

|y|＝u*sin(θ)*cos(φ)*|S(t)|

|z|＝u*sin(φ)*|S(t)|

其中，|S(t)|为声源信号的幅度值，|x|为差分信号x在X轴上的幅度值，|y|为差分信号y在Y轴上的幅度值，|z|为差分信号z在Z轴上的幅度值，u为幅度衰减系数，θ表示声源信号的坐标与所述三维极坐标的坐标原点之间的连线在XOY平面上的投影与X轴的夹角，φ表示所述连线与XOY平面之间的夹角，获取扬声器的位置信息，根据所述扬声器的位置信息、所述对应每一个坐标轴的差分信号，得到所述扬声器的声音输出信号。