CN107948856A

CN107948856A - 一种录播主机、声源测向的方法及装置

Info

Publication number: CN107948856A
Application number: CN201711352113.8A
Authority: CN
Inventors: 乔刚; 潘武
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2018-04-20

Abstract

本发明公开了一种录播主机、声源测向的方法及装置，通过获取录播主机中声音传感器所采集的声音信号，音频处理模块依据声音信号确定目标声源信号，并确定目标声源信号的声源方向信息，将声源方向信息发送给自由转动式摄像头；自由转动式摄像头接收音频处理模块发送的声源方向信息，并调整摄像头角度为声源方向信息所指示的声源方向，解决了录播主机集成化程度低以及测向跟踪能力差的问题。

Description

一种录播主机、声源测向的方法及装置

技术领域

本发明涉及声源定位技术领域，尤其涉及一种录播主机、声源测向的方法及装置。

背景技术

随着视频监控技术的不断进步，在一些视频会议、安防、直录播课堂或者庭审等场景中经常需要利用录播主机对场景进行实时采集，而在录播过程中利用摄像头对场景中的发言人进行定位跟踪可以更详细的了解发言人的情况。

目前，在一些场景进行录播时，录播主机的主机与摄像模块是分离的，往往需要通过其它的布线来实现摄像头与主机之间的信息传递。如果场景中的发言人移动位置，那么就需要调整摄像头角度，以实现对发言人的跟踪，常用的基于麦克风阵列的声源定位技术可以根据声学定位技术估计出发言人的方位并自动调整摄像头角度，保持对发言人的跟踪，但是这种方法的测向误差较大。故，现有技术中的录播主机测向跟踪能力不足，并且集成化程度较低，导致实际生产中成本较高。

发明内容

本发明的目的是提供一种录播主机、声源定位方法及装置，以解决录播主机集成化程度低以及测向跟踪能力差的问题。

本发明的目的是通过以下技术方案实现的：

本发明一方面提供一种录播主机，包括：音频处理模块、设置在机体上的声音传感器和自由转动式摄像头，其中：

所述声音传感器用于采集声音信号；所述音频处理模块用于获取所述声音传感器采集的声音信号，依据所述声音信号确定目标声源信号，并确定所述目标声源信号的声源方向信息，将所述声源方向信息发送给所述自由转动式摄像头；所述自由转动式摄像头用于接收所述音频处理模块发送的声源方向信息，并调整摄像头角度为所述声源方向信息所指示的声源方向。

可选的，所述音频处理模块采用如下方式依据所述声音信号确定目标声源信号：

确定所述声音传感器所采集的声音信号在时域上对应统计量的计算值，所述统计量包括过零率、长短时能量以及自相关函数，其中，所述声音传感器包括第一声音传感器和第二声音传感器；将所述统计量的计算值与预先设定的阈值进行比较，确定所述第一声音传感器所采集的声音信号中是否包含目标声源信号语音信号，以及所述第二声音传感器所采集的声音信号中是否包含语音信号目标声源信号，其中，所述目标声源信号为目标人物所发出的声音信号；若确定所述第一声音传感器和所述第二声音传感器中的至少一个所采集到的声音信号中包含有语音信号目标声源信号，则将所述第一声音传感器和所述第二声音传感器所采集到的语音信号目标声源信号确定为目标声源信号。

可选的，所述音频处理模块采用如下方式确定所述目标声源信号的声源方向信息：

将所述目标声源信号对应的时域信号转换为频域信号，并将所述频域信号所在频段划分为至少两个子频段；针对所述划分的至少两个子频段中的每个子频段，分别确定该子频段上的频域信号到达所述第一声音传感器和到达所述第二声音传感器的声程差，并根据所述声程差以及所述第一声音传感器和所述第二声音传感器之间的间距，确定该子频段上频域信号的声源方位估计值；对所述至少两个子频段中的每个子频段确定出的声源方位估计值进行加权，得到加权方位估计值；根据所述加权方位估计值，确定目标声源信号的声源方位估计值，并依据所述目标声源信号的声源方位估计值，确定所述目标声源信号的声源方向信息。

可选的，根据所述加权方位估计值，确定目标声源信号的声源方位估计值，包括：

根据当前时刻的加权方位估计值、前一时刻的加权方位估计值以及对前一时刻跟踪结果的加权值确定目标声源信号的声源方位估计值。

本发明另一方面提供了一种声源测向的方法，包括：

获取声音传感器所采集的声音信号；依据所述声音信号确定目标声源信号，并确定所述目标声源信号的声源方向信息。

可选的，所述依据所述声音信号确定目标声源信号，包括：

确定所述声音传感器所采集的声音信号在时域上对应统计量的计算值，所述统计量包括过零率、长短时能量以及自相关函数，其中，所述声音传感器包括第一声音传感器和第二声音传感器；将所述统计量的计算值与预先设定的阈值进行比较，确定所述第一声音传感器所采集的声音信号中是否包含目标声源信号，以及所述第二声音传感器所采集的声音信号中是否包含目标声源信号，其中，所述目标声源信号为目标人物所发出的声音信号；若确定所述第一声音传感器和所述第二声音传感器中的至少一个所采集到的声音信号中包含有目标声源信号，则将所述第一声音传感器和所述第二声音传感器所采集到的目标声源信号确定为目标声源信号。

可选的，所述确定所述目标声源信号的声源方向信息，包括：

本发明还提供了一种声源测向的装置，包括：

获取单元，用于获取声音传感器所采集的声音信号；处理单元，用于依据所述获取单元获取到的声音信号确定目标声源信号，并确定所述目标声源信号的声源方向信息。

可选的，所述处理单元具体用于按如下方式依据所述获取单元获取到的声音信号确定目标声源信号：

可选的，所述处理单元具体用于按如下方式确定所述目标声源信号的声源方向信息：

本发明提供的录播主机、声源测向的方法及装置中，通过声音传感器采集声音信号；音频处理模块获取声音传感器采集的声音信号，依据声音信号确定目标声源信号，并确定目标声源信号的声源方向信息，将声源方向信息发送给自由转动式摄像头；自由转动式摄像头接收音频处理模块发送的声源方向信息，并调整摄像头角度为声源方向信息所指示的声源方向，以解决录播主机集成化程度较低以及测向跟踪能力不足的问题。

附图说明

图1为本发明实施例提供的一种录播主机的结构框图；

图2为本发明实施例提供的录播主机的简单示意图；

图3为本发明实施例提供的确定目标声源信号的实施流程图；

图4为本发明实施例提供的确定声源方向信息的实施流程图；

图5为本发明实施例提供的场景简易示意图；

图6为本发明实施例提供的一种声源测向的方法流程图；

图7为本发明实施例提供的一种声源测向的装置结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种录播主机、声源测向的方法及装置，通过将声音传感器以及自由转动式摄像头集成在录播主机上，使得录播主机设备的集成化程度增高。其中，声音传感器采集声音信号，录播主机中的音频处理模块对采集到的声音信号进行处理，并确定目标声源信号以及目标声源信号的声源方向信息，自由转动式摄像头根据声源方向信息调整角度，从而解决了录播主机测向跟踪能力不足的问题。

图1所示为本发明实施例提供的一种录播主机的结构框图，包括声音传感器101、音频处理模块102以及自由转动式摄像头103。其中，声音传感器101和自由转动式摄像头103设置在录播主机的机体上。

本发明实施例中的声音传感器101可以为全向型麦克风，也可以由多个等间距或不等间距的声音传感器组成的麦克风阵列。目前，声音传感器101一般是由双麦克风组成，用于采集录播场景中的声音信号。声音传感器101采集到的声音信号可通过音频处理模块102对声音信号进行处理，确定出声源的方向，进而控制自由转动的摄像头103自动调整角度。

具体的，声音传感器101用于采集声音信号。音频处理模块102用于获取声音传感器101所采集到的声音信号，在所采集到的声音信号中确定目标声源信号，并确定出目标声源的方向信息。自由转动式摄像头103用于根据目标声源的方向信息自动调整摄像头角度，摄像头调整角度后的方向为目标声源方向信息所指示的声源方向。

本发明实施例中，目标声源信号可认为是目标人物所发出的声音信号。

在录播场景中，当目标人物发出声音时，声音传感器101会自动采集声音信号，那么在该采集声音信号的过程中，就会不可避免的采集到场景中的一些环境噪声，最终导致确定出的方向不够准确。

本发明实施例中，音频处理模块102可对声音传感器101采集到的声音信号进行处理，识别出声音传感器101采集到的声音信号中所包括的目标声源信号。

本发明实施例中，声音传感器101的数量为至少两个。一般的，声音传感器的数量选择两个，并且对称安装在录播主机的两端，方向朝向目标方向，两者之间的间距根据语音信号的频段设定，且不大于录播主机的面板长度。图2所示为本发明实施例提供的录播主机的简单示意图，参阅图2所示。其中，①:录播主机面板，②:声音传感器，③:声音传感器，④:录播场景中的目标说话人声源，⑤:声音传感器之间的距离d，⑥:录播主机集成的可以自由转动的摄像头。

为了描述方便，本发明实施例中以声音传感器包括第一声音传感器以及第二声音传感器为例进行说明。

图3所示为本发明实施例提供的确定目标声源信号的实施流程图，参阅图3所示，可包括如下步骤：

S101：确定声音传感器所采集的声音信号在时域上对应统计量的计算值。

本发明实施例中，声音传感器采集到声音信号后，音频处理模块计算声音传感器包括的第一声音传感器和第二声音传感器所采集的声音信号的时域数据上的过零率、长短时能量以及自相关函数。

S102：将统计量的计算值与预先设定的阈值进行比较，确定第一声音传感器所采集的声音信号中是否包含目标声源信号，以及第二声音传感器所采集的声音信号中是否包含目标声源信号。

本发明实施例中，在步骤S101计算出过零率、长短时能量以及自相关函数的值之后，可将计算值分别与预先设定的阈值进行比较，确定第一声音传感器以及第二声音传感器所采集到的声音信号中是否包含有目标声源信号。

具体的，上述所涉及的三个参数必须同时满足条件才能确定声音信号中是否包含有目标声源信号。例如，当长短时能量大于预先设定的阈值时，才认为是满足条件。若长短时能量小于预先设定的阈值，即使其他两个参数满足条件，那么也不能确定声音信号中是否包含有目标声源信号。上述涉及到的参数与设定阈值进行比较确定声音信号中是否包含有目标声源信号，现有技术中也有涉及，在此不再赘述。

本发明实施例中，通过在声音传感器采集的声音信号中利用过零率、长短时能量以及自相关函数辨识出目标声源信号，对声音信号中的噪声以及目标声源信号进行区分，只针对其中的目标声源信号进行处理，降低了跟踪错误的概率，使得跟踪的结果更准确。

S103：若确定第一声音传感器和第二声音传感器中的至少一个所采集到的声音信号中包含有目标声源信号，则将第一声音传感器和第二声音传感器所采集到的目标声源信号确定为目标声源信号。

本发明实施例中，音频处理模块102在确定出目标声源信号后，可对目标声源信号进行处理，确定出目标声源信号的声源方向信息。一种可能的实施方式中，可采用图4所示的确定声源方向信息的实施流程图，具体包括如下步骤：

S201：将目标声源信号对应的时域信号转换为频域信号，并将频域信号所在频段划分为至少两个子频段。

本发明实施例中，将确定的目标声源信号的时域数据转换为频域数据，并将频域数据在其频段上划分为至少两个子频段。

可以理解的是，划分子频段的方法有多种，本发明实施例不作限定，例如可以是等间隔的划分，可以是不等间隔的划分，也可以采用基于人耳听觉频率进行划分等。以采样频率8KHz为例，基于人耳听觉频率可以将子频段划分为：0～20Hz，20～100Hz，100～200Hz，200～300Hz，300～400Hz，400～510Hz，510Hz～630Hz，630～770Hz，770～920Hz，920～1080Hz，1080～1270Hz，1270Hz～1480Hz，1480～1720Hz，1720～2000Hz，2000～2320Hz，2320～2700Hz，2700～3150Hz，3150～3700Hz，3700～4000Hz。

当然，将时域数据转换为频域数据的算法也不作限定，例如可以是Z变换，也可以是快速傅里叶变换(Fast Fourier Transform，FFT)算法等。

S202：针对划分的至少两个子频段中的每个子频段，分别确定该子频段上的频域信号到达第一声音传感器和到达第二声音传感器的声程差，并根据声程差以及第一声音传感器和第二声音传感器之间的间距，确定该子频段上频域信号的声源方位估计值。

本发明实施例中，将声音信号所对应的频域信号划分为至少两个子频段，如图5所示，为本发明实施例提供的场景简易示意图，参阅图5所示。目标声源S发出声音信号，声音传感器采集声源S发出的声音信号，声音传感器之间的间距为d，声源的入射角为θ，入射角度θ的取值范围为0～180度。按照顺时针的方式，以右侧的声音传感器为参考，可以得出声音到达两个声音传感器的声程差为：deltal＝d×cosθ＝c×τ，c表示声音在空气中的声速，τ表示声音达到两个声音传感器的延时。

一种可能的实施方式中，可对声音传感器的每个子频段进行互相关分析，假设划分的子频段的数目为N，则依据互相关分析得到的值与采样频率之间的比值确定延时τ的估计值

根据d×cosθ＝c×τ可得出声源方位估计值因此子频段的声源方位估计值为

本发明实施例中，通过划分子频段，对子频段的声音信号进行互相关分析，可以利用子频段的信噪比较高的特性得到更准确的声源方位估计值，提高测向的准确度。

S203：对至少两个子频段中的每个子频段确定出的声源方位估计值进行加权，得到加权方位估计值。

本发明实施例中，可对每个子频段确定出的声源方位估计值利用如下公式进行加权：

其中，ω₁、ω₂…ω_N-1、ω_N为每个子频段对应的权数，为子频段的声源方位估计值，并且

可以理解的是，加权的方式有多种，本发明实施例在此不作限定，例如可以是等幅度加权，也可以是能量归一化因子加权等。

本发明实施例中，通过加权处理的方式对声源方位估计值进行处理，综合了各个子频段的声源方位估计值，使得方位估计结果更准确，解决了现有技术中声源目标范围估计结果不准确，使得方位估计结果方差较大的问题。

S204：根据加权方位估计值，确定目标声源信号的声源方位估计值，并依据目标声源信号的声源方位估计值，确定目标声源信号的声源方向信息。

本发明实施例中，可根据声源方位的加权估计值，确定出目标声源信号的声源方位估计值。

具体的，确定目标声源信号的声源方位估计值可根据当前时刻的加权方位估计值和前一时刻的加权方位估计值来确定，可采用如下公式：

其中，为目标声源信号的声源方位估计值，为当前时刻的加权方位估计值，为前一时刻的加权方位估计值，α为对前一时刻的加权值。α越大，前一时刻加权值的结果对声源方位估计值的影响越大。

本发明实施例中，目标声源信号的声源方位估计值可反映出声源的方向信息，在确定出声源的方向信息后，摄像头103可根据音频处理模块102确定的声源方向信息调整角度，以实现对目标声源的跟踪。

本申请实施例以下将对上述涉及的录播主机中所对应的声源测向的过程进行说明。

图6所示为本发明实施例提供的一种声源测向的方法流程图，图6所示方法的执行主体可以是声源测向的装置，该声源测向的装置可以是上述涉及的音频处理模块。参阅图6所示，该方法包括：

S301：获取声音传感器所采集的声音信号。

S302：依据声音信号确定目标声源信号，并确定目标声源信号的声源方向信息。

本发明实施例中，可根据声音传感器采集到的声音信号，确定出声音信号中的目标声源信号，并确定目标声源信号的声源方向信息。具体确定目标声源信号以及目标声源信号的方向信息的流程参阅上述录播主机的系统中的步骤，在此不再赘述。

本发明实施例中，在根据声音传感器采集到的声音信号确定目标声源信号之前，可预先保存声音传感器的传感特性，并依据声音传感器的传感特性对声音传感器所采集到的声音信号进行幅度和相位的校准，以消除声音传感器本身引入的非相关成分。其中，传感特性包括幅度特性和相位特性。

具体的，依据声音传感器的传感特性对声音传感器所采集到的声音信号进行幅度和相位的校准，包括：

将采集到的声音信号转换为声音信号的频域信号，并依据预先保存的两个声音传感器的传感特性，以其中一个声音传感器为参考，对另外一个声音传感器采集到的声音信号的频域数据进行幅度和相位的补偿。幅度和相位补偿可以只在测试的频点进行，也可以在测试频点幅相响应的基础上利用插值方法获取更多频点的幅相响应，进而在全频段进行。

本发明实施中插值方法可以有多种，在此不做限定，例如可以是双线性插值，也可以是三次样条插值等，也可以不采用插值方法，在测试频点幅相响应的基础上拟合出全频段的幅相响应，再进行幅度和相位补偿，完成幅度和相位补偿后，对补偿后的声音传感器的频域信号进行傅里叶逆变换，得到补偿后的声音时域信号。

可以理解的是，声音传感器所采集到的声音信号是时域信号。

本发明实施例提供的录播主机、声源测向的方法，通过获取录播主机中声音传感器所采集的声音信号，音频处理模块依据声音信号确定目标声源信号，并确定目标声源信号的声源方向信息，将声源方向信息发送给自由转动式摄像头；自由转动式摄像头接收音频处理模块发送的声源方向信息，并调整摄像头角度为声源方向信息所指示的声源方向，解决了录播主机集成化程度低以及测向跟踪能力差的问题。

基于与上述方法实施例相同的构思，本发明实施例还提供了一种声源测向的装置。

图7所示为本发明实施例提供的一种声源测向的装置结构图，如图7所示，包括：获取单元201和处理单元202，其中：

获取单元201，用于获取声音传感器所采集的声音信号。

处理单元202，用于依据获取单元201获取到的声音信号确定目标声源信号，并确定目标声源信号的声源方向信息。

其中，处理单元202具体用于按如下方式依据获取单元201获取到的声音信号确定目标声源信号：

确定声音传感器所采集的声音信号在时域上对应统计量的计算值，所述统计量包括过零率、长短时能量以及自相关函数，其中，声音传感器包括第一声音传感器和第二声音传感器。

将统计量的计算值与预先设定的阈值进行比较，确定第一声音传感器所采集的声音信号中是否包含目标声源信号，以及第二声音传感器所采集的声音信号中是否包含目标声源信号，其中，目标声源信号为目标人物所发出的声音信号。

若确定第一声音传感器和第二声音传感器中的至少一个所采集到的声音信号中包含有目标声源信号，则将所述第一声音传感器和所述第二声音传感器所采集到的目标声源信号确定为目标声源信号。

处理单元202还用于按如下方式确定目标声源信号的声源方向信息：

将所述目标声源信号对应的时域信号转换为频域信号，并将所述频域信号所在频段划分为至少两个子频段。

针对所述划分的至少两个子频段中的每个子频段，分别确定该子频段上的频域信号到达所述第一声音传感器和到达所述第二声音传感器的声程差，并根据所述声程差以及所述第一声音传感器和所述第二声音传感器之间的间距，确定该子频段上频域信号的声源方位估计值。

对所述至少两个子频段中的每个子频段确定出的声源方位估计值进行加权，得到加权方位估计值。

根据所述加权方位估计值，确定目标声源信号的声源方位估计值，并依据所述目标声源信号的声源方位估计值，确定所述目标声源信号的声源方向信息。

需要说明的是，本发明实施例中声源测向的装置中各个单元的功能实现可以进一步参照相关方法实施例的描述。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种录播主机，其特征在于，包括：音频处理模块、设置在机体上的声音传感器和自由转动式摄像头，其中：

所述声音传感器用于采集声音信号；

所述音频处理模块用于获取所述声音传感器采集的声音信号，依据所述声音信号确定目标声源信号，并确定所述目标声源信号的声源方向信息，将所述声源方向信息发送给所述自由转动式摄像头；

所述自由转动式摄像头用于接收所述音频处理模块发送的声源方向信息，并调整摄像头角度为所述声源方向信息所指示的声源方向。

2.如权利要求1所述的录播主机，其特征在于，所述音频处理模块采用如下方式依据所述声音信号确定目标声源信号：

确定所述声音传感器所采集的声音信号在时域上对应统计量的计算值，所述统计量包括过零率、长短时能量以及自相关函数，其中，所述声音传感器包括第一声音传感器和第二声音传感器；

将所述统计量的计算值与预先设定的阈值进行比较，确定所述第一声音传感器所采集的声音信号中是否包含目标声源信号，以及所述第二声音传感器所采集的声音信号中是否包含目标声源信号，其中，所述目标声源信号为目标人物所发出的声音信号；

若确定所述第一声音传感器和所述第二声音传感器中的至少一个所采集到的声音信号中包含有目标声源信号，则将所述第一声音传感器和所述第二声音传感器所采集到的目标声源信号确定为目标声源信号。

3.如权利要求2所述的录播主机，其特征在于，所述音频处理模块采用如下方式确定所述目标声源信号的声源方向信息：

将所述目标声源信号对应的时域信号转换为频域信号，并将所述频域信号所在频段划分为至少两个子频段；

针对所述划分的至少两个子频段中的每个子频段，分别确定该子频段上的频域信号到达所述第一声音传感器和到达所述第二声音传感器的声程差，并根据所述声程差以及所述第一声音传感器和所述第二声音传感器之间的间距，确定该子频段上频域信号的声源方位估计值；

对所述至少两个子频段中的每个子频段确定出的声源方位估计值进行加权，得到加权方位估计值；

4.如权利要求3所述的录播主机，其特征在于，根据所述加权方位估计值，确定目标声源信号的声源方位估计值，包括：

根据当前时刻的加权方位估计值和前一时刻的加权方位估计值，确定目标声源信号的声源方位估计值。

5.一种声源测向的方法，其特征在于，包括：

获取声音传感器所采集的声音信号；

依据所述声音信号确定目标声源信号，并确定所述目标声源信号的声源方向信息。

6.如权利要求5所述的方法，其特征在于，所述依据所述声音信号确定目标声源信号，包括：

7.如权利要求6所述的方法，其特征在于，所述确定所述目标声源信号的声源方向信息，包括：

8.一种声源测向的装置，其特征在于，包括：

获取单元，用于获取声音传感器所采集的声音信号；

处理单元，用于依据所述获取单元获取到的声音信号确定目标声源信号，并确定所述目标声源信号的声源方向信息。

9.如权利要求8所述的装置，其特征在于，所述处理单元具体用于按如下方式依据所述获取单元获取到的声音信号确定目标声源信号：

10.如权利要求9所述的装置，其特征在于，所述处理单元具体用于按如下方式确定所述目标声源信号的声源方向信息：