CN104934037A

CN104934037A - 一种直录播互动系统中的音频处理方法及装置

Info

Publication number: CN104934037A
Application number: CN201510293434.XA
Authority: CN
Inventors: 顾驰; 高华
Original assignee: Codyy Education Technology Co Ltd
Current assignee: Codyy Education Technology Co Ltd
Priority date: 2015-06-02
Filing date: 2015-06-02
Publication date: 2015-09-23
Anticipated expiration: 2035-06-02
Also published as: CN104934037B

Abstract

本发明提供一种直录播互动系统中的音频处理方法及装置，上述方法包括以下步骤：采集当前图像；根据第一策略确定所述当前图像中各个音频采集设备对应的一次混音权重值；根据各个音频采集设备采集的音频信息、各个音频采集设备对应的一次混音权重值确定各个音频采集设备的二次混音权重值；根据各个音频采集设备的二次混音权重值、各个音频采集设备采集的音频信息，进行混音，获取混音后的音频输出值。本发明还提供一种直录播互动系统中的音频处理装置，上述装置包括：全景摄像机、音频采集设备和智能导播设备；所述全景摄像机和所述音频采集设备分别与所述智能导播设备相连。

Description

一种直录播互动系统中的音频处理方法及装置

技术领域

本发明属于音频处理领域，尤其涉及一种直录播互动系统中的音频处理方法及装置。

背景技术

在音频信号的采集和录制过程中，需对接收到的音频信号进行处理，再通过音频混音算法对采集到的多路语音信号进行混合，使混合后的语音信号中包含每一路麦克风采集到的信息，以便能够让发声者的说话信息传送给每一个参与会议的成员。

传统的音频混音算法大都是对采集到的语音信号进行分析，根据信号的强弱分配不同的混音权重值，最后进行加权求和以达到混音的目的。这种方法可以在一定程度上实现混音的效果，但是由于其使用的是后验知识，即必须首先得到语音信号才能对每路麦克风通道赋予相应的权重值，存在着处理上的滞后性和信号产生方位的不确定性，如果能够利用一些先验知识，即在得到语音信号前就分配好了每路麦克风所对应的权重值，则可以更为精准地实现混音的效果。

发明内容

本发明提供一种直录播互动系统中的音频处理方法及装置，以解决上述问题。

本发明提供一种直录播互动系统中的音频处理方法。上述方法包括以下步骤：采集当前图像；根据第一策略确定所述当前图像中各个音频采集设备对应的一次混音权重值；根据各个音频采集设备采集的音频信息、各个音频采集设备对应的一次混音权重值确定各个音频采集设备的二次混音权重值；根据各个音频采集设备的二次混音权重值、各个音频采集设备采集的音频信息，进行混音，获取混音后的音频输出值。

本发明还提供一种直录播互动系统中的音频处理装置，上述装置包括：全景摄像机、音频采集设备和智能导播设备；所述全景摄像机和所述音频采集设备分别与所述智能导播设备相连；所述全景摄像机，用于采集当前图像；所述音频采集设备，用于采集音频信息；所述智能导播设备，用于根据第一策略确定所述当前图像中各个音频采集设备对应的一次混音权重值，并根据各个音频采集设备采集的音频信息、各个音频采集设备对应的一次混音权重值确定各个音频采集设备的二次混音权重值；所述智能导播设备还用于根据各个音频采集设备的二次混音权重值、各个音频采集设备采集的音频信息，进行混音，并获取混音后的音频输出值。

相较于先前技术，根据本发明提供的直录播互动系统中的音频处理方法及装置，首先对获取到的视频图像进行分析，提取出发声者在房间内的具体位置，利用人员的位置信息提前对房间内的多个麦克风设备分配相应的混音权重值，并且可以随着人员的移动实时改变权重值的大小，精准地实现混音效果。本发明利用根据发声者实时的位置变化，能够更加准确有效地根据人员实时位置从而避免权重值变化的滞后，能够使最终的混音效果变化平缓、自然真实。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1所示为根据本发明的较佳实施例提供的直录播互动系统中的音频处理方法的流程图；

图2所示为根据本发明的较佳实施例提供的整个直录播教室的图像中教师与麦克风的位置示意图；

图3所示为根据本发明的另一较佳实施例提供的整个直录播教室的图像中教师与麦克风的位置示意图；

图4所示为根据本发明的较佳实施例提供的直录播互动系统中的音频处理装置的结构图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

如图1所示为根据本发明的较佳实施例提供的直录播互动系统中的音频处理方法的流程图。如图1所示，本发明的较佳实施例提供的直录播互动系统中的音频处理方法包括步骤101-104。

步骤101：采集当前图像；

步骤102：根据第一策略确定所述当前图像中各个音频采集设备对应的一次混音权重值；

所述第一策略包括：建立各个音频采集设备与划分区域的对应关系；根据声源所在的区域、声源区域及音频采集设备混音权重动态分配表，确定各个音频采集设备对应的一次混音权重值。

所述声源区域及音频采集设备混音权重动态分配表包括：声源所在区域的音频采集设备对应的一次混音权重值、划分区域中非声源所在区域中的各个音频采集设备分别对应的一次混音权重值。

举例而言：在另一优选的实施例中，在确定所述当前图像中各个音频采集设备对应的一次混音权重值的方法还包括：假设声源的发出者为教师，建立教师所在区域和麦克风的混音权重动态分配表，具体如表1所示，将全景摄像头采集到的图像进行区域划分，具体如图3所示，将采集到的图像按照6个麦克风的位置划分为6个区域，每个区域分别对应着一个麦克风，假设教师在区域2中，根据混音权重动态分配表得到区域1中麦克风1对应的一次混音权重值为0.5，区域2中麦克风2对应的一次混音权重值为1，区域3中麦克风3对应的一次混音权重值0.5，区域4中麦克风4对应的一次混音权重值为0.25，区域5中麦克风5对应的一次混音权重值0.5，区域6中麦克风6对应的一次混音权重值为0.25。

表1混音权重动态分配表

所述第一策略包括：根据获取的声源与各个音频采集设备之间距离，确定各个音频采集设备对应的一次混音权重值。

根据获取的声源与各个音频采集设备之间距离，确定各个音频采集设备对应的一次混音权重值的过程为：

l_{i} = \frac{1}{{(x_{i} - x_{p})}^{2} + {(y_{i} - y_{p})}^{2}};

k_{i} = \frac{l_{i}}{l_{1} + l_{2} + l_{3} + ... ... + l_{n}};

其中，P(x_p,y_p)为所述声源位置坐标，所述声源位置坐标通过运动目标检测方法实时获取；

其中，l_i为第i路音频采集设备位置坐标Mic_i(x_i,y_i)和声源位置坐标P(x_p,y_p)之间距离平方的倒数，i＝1,2,3……n；

其中，k_i为第i路音频采集设备的一次混音权重值。

步骤103：根据各个音频采集设备采集的音频信息、各个音频采集设备对应的一次混音权重值确定各个音频采集设备的二次混音权重值；

根据各个音频采集设备采集的音频信息、各个音频采集设备对应的一次混音权重值，获取各个音频采集设备进行一次混音权重分配后的语音信号包络值；对获取的各个音频采集设备进行一次混音权重分配后的语音信号包络值进行平滑处理；获取各个音频采集设备平滑处理后的语音信号包络值总和，并根据获取的各个音频采集设备平滑处理后的语音信号包络值总和，获取各个音频采集设备的语音信号权重值，并对所述语音信号权重值进行平滑处理，得到二次混音权重值。

根据各个音频采集设备采集的音频信息、各个音频采集设备对应的一次混音权重值，获取各个音频采集设备进行一次混音权重分配后的语音信号包络值的过程为：env_i＝|e_i|*k_i；其中，e_i表示第i路音频采集设备直接采集到的语音信号幅值，k_i是第i路音频采集设备的一次混音权重值；env_i表示第i路音频采集设备进行一次混音权重分配后的语音信号包络值。

对一次混音权重分配后的语音信号包络值env_i进行平滑处理；其中，处理过程如下：E_i＝env_i*h+env'_i*(1-h)；其中，env'_i表示第i路音频采集设备上一个采样点的语音信号包络值，h表示平滑系数，E_i表示第i路音频采集设备平滑处理后的语音信号包络值。

获取各个音频采集设备平滑处理后的语音信号包络值总和即及各个音频采集设备的语音信号权重值

将各个音频采集设备平滑处理后的语音信号包络值总和E与阈值E_th进行比较，并根据比较结果做出相应处理。

根据比较结果做出相应处理的过程为：

若E≤E_th，E_th表示音频采集设备语音信号包络总和的阈值，则对权重值W_i做平滑，得到二次混音权重值w_i，

w_{i} = {\begin{matrix} W_{i} * (1 - m_{1}) + w_{t h} * m_{1} & W_{i} &GreaterEqual; w_{t h} \\ W_{i} * (1 - m_{2}) + w_{t h} * m_{2} & W_{i} < w_{t h} \end{matrix};

其中m₁、m₂表示平滑系数，w_th表示权重值的阈值；

如果E＞E_th，对权重值做平滑：

w_{i} = {\begin{matrix} W_{i} * (1 - m_{1}) + W_{i}^{'} * m_{1} & W_{i} &GreaterEqual; W_{i}^{'} \\ W_{i} * (1 - m_{2}) + W_{i}^{'} * m_{2} & W_{i} < W_{i}^{'} \end{matrix};

其中W'_i表示第i路音频采集设备上一个采样点所分配的权重值。

根据各个音频采集设备的二次混音权重值、各个音频采集设备采集的音频信息，进行混音，获取混音后的音频输出值的过程：混音后的音频输出值

步骤104：根据各个音频采集设备的二次混音权重值、各个音频采集设备采集的音频信息，进行混音，获取混音后的音频输出值。

所述方法还包括对混音后的音频输出值进行限幅处理，根据混音后的音频输出值与预设限幅的阈值上限和预设限幅的阈值下限的比较，并根据比较结果进行对应的处理，得到混音后的最终输出值。

具体而言，将混音后的音频输出值的绝对值与预设限幅的阈值上限(E_H)和预设限幅的阈值下限(E_L)进行比较，假设E_H为1.5，E_L为0.5，当|E_m|＜E_L时，混音后的最终输出值E_out＝E_m；当E_L≤|E_m|＜E_H时，混音后的最终输出值当|E_m|≥E_H，混音后的最终输出值E_out＝sign(E_m)，其中，

s i g n (E_{m}) = {\begin{matrix} 1 & E_{m} > 0 \\ 0 & E_{m} = 0 \\ - 1 & E_{m} < 0 \end{matrix} .

下面举例进行详细说明：

假设在直录播互动教室中，安装有1个全景摄像头用于拍摄整个录播教室的图像，在教室中的不同的位置安装6个麦克风(即n＝6)并记录每个麦克风的位置坐标，得到麦克风1的坐标Mic₁(53,60)，麦克风2的坐标Mic₂(159,60)，麦克风3的坐标Mic₃(265,60)，麦克风4的坐标Mic₄(53,180)，麦克风5的坐标Mic₅(159,180)，麦克风6的坐标Mic₆(265,180)。

假设声源的发出者为教师，通过全景摄像头获取尺寸为320×240的整个录播教室的当前帧图像如图2所示，根据运动目标检测法检测得到教师所在当前帧图像中的位置为P(120,100)，根据公式计算得到麦克风1对应的按照同样方法得到麦克风2对应的l₂为3.204e^-4，麦克风3对应的l₃为4.420e^-5，麦克风4对应的l₄为9.184e^-5，麦克风5对应的l₅为1.262e^-4，麦克风6对应的l₆为3.646e^-5。再通过公式计算分别得到麦克风1对应的一次混音权重值k₁为0.2096，麦克风2对应的一次混音权重值k₂为0.4090，麦克风3对应的一次混音权重值k₃为0.0564，麦克风4对应的一次混音权重值k₄为0.1172，麦克风5对应的一次混音权重值k₅为0.1611，麦克风6对应的一次混音权重值k₆为0.0466。

假设图像的采样频率为30Hz，声音的采样频率为44.1KHz，因此当前帧图像的采样点a对应多个声音采样点，以其中一个声音采样点B为例，声音采样点B的前一个声音采样点为A，且该采样点A对应的当前帧图像的采样点a，各麦克风在声音采样点B进行采样时，麦克风1采集到的语音信号幅值为0.4，麦克风2采集到的语音信号幅值为0.6，麦克风3采集到的语音信号幅值为0.4，麦克风4采集到的语音信号幅值为0.1，麦克风5采集到的语音信号幅值为0.5，麦克风6采集到的语音信号幅值为0.1，得到麦克风1进行一次混音权重分配后的语音信号包络值为env₁＝|e₁|*k₁＝0.4×0.2096＝0.08384，得到麦克风2进行一次混音权重分配后的语音信号包络值为env₂＝|e₂|*k₂＝0.6×0.4090＝0.2454，得到麦克风3进行一次混音权重分配后的语音信号包络值为env₃＝|e₃|*k₃＝0.4×0.0564＝0.02256，得到麦克风4进行一次混音权重分配后的语音信号包络值为env₄＝|e₄|*k₄＝0.1×0.1172＝0.01172，得到麦克风5进行一次混音权重分配后的语音信号包络值为env₅＝|e₅|*k₅＝0.5×0.1611＝0.08055，得到麦克风6进行一次混音权重分配后的语音信号包络值为env₆＝|e₆|*k₆＝0.1×0.0466＝0.00466。

假设各麦克风在声音采样点A(即声音采样点B的前一个声音采样点)进行采样时，得到的一次混音权重分配后的语音信号包络值分别为env'₁＝0.08421、env'₂＝0.2412、env'₃＝0.0223、env'₄＝0.0116、env'₅＝0.08231、env'₆＝0.00435，

假设平滑系数为0.0023，得到麦克风1的E₁＝env₁*h+env'₁*(1-h)＝0.08384×0.0023+0.08421×0.9977＝0.084，麦克风2的E₂为0.241，麦克风3的E₃为0.022，麦克风4的E₄为0.012，麦克风5的E₅为0.082，麦克风6的E₆为0.004。因此，麦克风1-6平滑处理后的语音信号包络值总和E为0.445，并通过计算得到麦克风1的语音信号权重值W₁为0.189，麦克风2的W₂为0.542，麦克风3的W₃为0.049，麦克风4的W₄为0.027，麦克风5的W₅为0.184，麦克风6的W₆为0.009。

假设E_th为0.85、w_th为1、m₁为0.9925、m₂为0.9996，E_H为1.5，E_L为0.5，麦克风1-6平滑处理后的语音信号包络值总和E为0.445，E小于E_th，因此根据公式

w_{i} = \{\begin{matrix} W_{i} * (1 - m_{1}) + w_{t h} * m_{1} & W_{i} &GreaterEqual; w_{t h} \\ W_{i} * (1 - m_{2}) + w_{t h} * m_{2} & W_{i} < w_{t h} \end{matrix}

对麦克风1-6的权重值W_i进行平滑，以麦克风1的权重值W₁的平滑为例，W₁为0.189，由于W₁小于w_th，因此将数值带入公式W_i*(1-m₂)+w_th*m₂中得到二次混音权重值w₁为0.9997，并根据上述公式依次得到w₂为0.9998，w₃为0.9996，w₄为0.9996，w₅为0.9997，w₆为0.9996，得到混音后的音频输出值由于得到的E_m的绝对值小于E_L 0.5，因此对混音后的音频输出值E_m进行限幅处理，得到混音后最终输出值E_out为0.491。

图4所示为根据本发明的较佳实施例提供的直录播互动系统中的音频处理装置，如图4所示，本发明的较佳实施例提供的直录播互动系统中的音频处理装置，上述装置包括：全景摄像机401、音频采集设备402和智能导播设备403；所述全景摄像机401和所述音频采集设备402分别与所述智能导播设备403相连；所述全景摄像机401，用于采集当前图像；所述音频采集设备402，用于采集音频信息；所述智能导播设备403，用于根据第一策略确定所述当前图像中各个音频采集设备对应的一次混音权重值，并根据各个音频采集设备采集的音频信息、各个音频采集设备对应的一次混音权重值确定各个音频采集设备的二次混音权重值；所述智能导播设备403还用于根据各个音频采集设备的二次混音权重值、各个音频采集设备采集的音频信息，进行混音，并获取混音后的音频输出值。

此外，关于上述装置的具体操作过程同上述方法所述，故于此不再赘述。

综上所述，相较于先前技术，根据本发明提供的直录播互动系统中的音频处理方法及装置，首先对获取到的视频图像进行分析，提取出发声者在房间内的具体位置，利用人员的位置信息提前对房间内的多个麦克风设备分配相应的混音权重值，并且可以随着人员的移动实时改变权重值的大小，精准地实现混音效果。本发明利用根据发声者实时的位置变化，能够更加准确有效地根据人员实时位置从而避免权重值变化的滞后，能够使最终的混音效果变化平缓、自然真实。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种直录播互动系统中的音频处理方法，其特征在于，包括以下步骤：

采集当前图像；

根据第一策略确定所述当前图像中各个音频采集设备对应的一次混音权重值；

根据各个音频采集设备采集的音频信息、各个音频采集设备对应的一次混音权重值确定各个音频采集设备的二次混音权重值；

根据各个音频采集设备的二次混音权重值、各个音频采集设备采集的音频信息，进行混音，获取混音后的音频输出值。

2.根据权利要求1所述的方法，其特征在于，所述第一策略包括：建立各个音频采集设备与划分区域的对应关系；根据声源所在的区域、声源区域及音频采集设备混音权重动态分配表，确定各个音频采集设备对应的一次混音权重值。

3.根据权利要求2所述的方法，其特征在于，所述声源区域及音频采集设备混音权重动态分配表包括：声源所在区域的音频采集设备对应的一次混音权重值、划分区域中非声源所在区域中的各个音频采集设备分别对应的一次混音权重值。

4.根据权利要求1所述的方法，其特征在于，所述第一策略包括：

根据获取的声源与各个音频采集设备之间距离，确定各个音频采集设备对应的一次混音权重值。

5.根据权利要求4所述的方法，其特征在于，根据获取的声源与各个音频采集设备之间距离，确定各个音频采集设备对应的一次混音权重值的过程为：

l_{i} = \frac{1}{{(x_{i} - x_{p})}^{2} + {(y_{i} - y_{p})}^{2}};

k_{i} = \frac{l_{i}}{l_{1} + l_{2} + l_{3} + ... + l_{n}};

其中，k_i为第i路音频采集设备的一次混音权重值。

6.根据权利要求1所述的方法，其特征在于，根据各个音频采集设备采集的音频信息、各个音频采集设备对应的一次混音权重值，获取各个音频采集设备进行一次混音权重分配后的语音信号包络值；

对获取的各个音频采集设备进行一次混音权重分配后的语音信号包络值进行平滑处理；

获取各个音频采集设备平滑处理后的语音信号包络值总和，并根据获取的各个音频采集设备平滑处理后的语音信号包络值总和，获取各个音频采集设备的语音信号权重值，并对所述语音信号权重值进行平滑处理，得到二次混音权重值。

7.根据权利要求6所述的方法，其特征在于，根据各个音频采集设备采集的音频信息、各个音频采集设备对应的一次混音权重值，获取各个音频采集设备进行一次混音权重分配后的语音信号包络值的过程为：env_i＝|e_i|*k_i；其中，e_i表示第i路音频采集设备直接采集到的语音信号幅值，k_i是第i路音频采集设备的一次混音权重值；env_i表示第i路音频采集设备进行一次混音权重分配后的语音信号包络值。

8.根据权利要求7所述的方法，其特征在于，对一次混音权重分配后的语音信号包络值env_i进行平滑处理；其中，处理过程如下：E_i＝env_i*h+env′_i*(1-h)；env′_i表示第i路音频采集设备上一个采样点的语音信号包络值，h表示平滑系数，E_i表示第i路音频采集设备平滑处理后的语音信号包络值。

9.根据权利要求8所述的方法，其特征在于，获取各个音频采集设备平滑处理后的语音信号包络值总和即及各个音频采集设备的语音信号权重值

10.根据权利要求9所述的方法，其特征在于，将各个音频采集设备平滑处理后的语音信号包络值总和E与阈值E_th进行比较，并根据比较结果做出相应处理。

11.根据权利要求10所述的方法，其特征在于，根据比较结果做出相应处理的过程为：

w_{i} = \{\begin{matrix} W_{i} * (1 - m_{1}) + w_{t h} * m_{1} & W_{i} &GreaterEqual; w_{t h} \\ W_{i} * (1 - m_{2}) + w_{t h} * m_{2} & W_{i} < w_{t h} \end{matrix};

其中m₁、m₂表示平滑系数，w_th表示权重值的阈值；

如果E＞E_th，对权重值做平滑：

w_{i} = \{\begin{matrix} W_{i} * (1 - m_{1}) + W_{i}^{'} * m_{1} & W_{i} &GreaterEqual; W_{i}^{'} \\ W_{i} * (1 - m_{2}) + W_{i}^{'} * m_{2} & W_{i} < W_{i}^{'} \end{matrix};

其中W_i'表示第i路音频采集设备上一个采样点所分配的权重值。

12.根据权利要求11所述的方法，其特征在于，根据各个音频采集设备的二次混音权重值、各个音频采集设备采集的音频信息，进行混音，获取混音后的音频输出值的过程：混音后的音频输出值

E_{m} = Σ_{i = 1}^{n} e_{i} * k_{i} * w_{i} .

13.根据权利要求12所述的方法，其特征在于，所述方法还包括对混音后的音频输出值进行限幅处理，根据混音后的音频输出值与预设限幅的阈值上限和预设限幅的阈值下限的比较，并根据比较结果进行对应的处理，得到混音后的最终输出值。

14.一种直录播互动系统中的音频处理装置，其特征在于，上述装置包括：全景摄像机、音频采集设备和智能导播设备；所述全景摄像机和所述音频采集设备分别与所述智能导播设备相连；

所述全景摄像机，用于采集当前图像；

所述音频采集设备，用于采集音频信息；

所述智能导播设备，用于根据第一策略确定所述当前图像中各个音频采集设备对应的一次混音权重值，并根据各个音频采集设备采集的音频信息、各个音频采集设备对应的一次混音权重值确定各个音频采集设备的二次混音权重值；所述智能导播设备还用于根据各个音频采集设备的二次混音权重值、各个音频采集设备采集的音频信息，进行混音，并获取混音后的音频输出值。