CN111696515B

CN111696515B - 一种用于教学录播的音频混音方法

Info

Publication number: CN111696515B
Application number: CN202010544498.3A
Authority: CN
Inventors: 任军军; 罗浩; 孙云云; 孙旭光
Original assignee: Hangzhou Elite Audio Co ltd
Current assignee: Hangzhou Elite Audio Co ltd
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2023-08-15
Anticipated expiration: 2040-06-15
Also published as: CN111696515A

Abstract

本发明公开了一种用于教学录播的音频混音方法，首先采集参与混音的n路拾音器的当前音频帧信号并计算能量有效值，然后根据能量有效值的大小排序并进行混音权重的更新和调整，最后对混音输出进行混音处理，计算得到混音的最终输出信号。本发明提出的混音方法可以将拾音器采集信号、无线麦采集信号和课件声信号三者准确的混合在一起，混音后的音频信号具有清晰度高，音质好的特点。本发明可以准确判断教学录播场景下的多种教学场景，并根据实际情况对混音权重因子进行实时更新，从而使得混音后音频信号具有出色自然的音质。

Description

一种用于教学录播的音频混音方法

技术领域

本发明涉及教学录播音频技术领域，尤其涉及一种用于教学录播的音频混音方法。

背景技术

教学录播系统是将上课的影像、声音和课件等记录成标准的网络格式，并通过网络进行同步直播和后期点播，实现优秀教学资源的有效共享。在录播系统中，音频的质量十分重要，而混音技术又直接影响到录播的音频质量。

由于目前大部分录播系统不仅要求录制教师授课的声音，而且要求对上课时师生的互动情况进行录制，即录制学生回答问题的声音。此外，也需要对上课时播放的课件声音进行录制。在实际课堂上，老师通常会佩戴领夹麦、头戴麦等无线麦克风进行录播和本地扩声；学生的声音被安装的多个拾音器或者吊麦来采集；课件的声音通过电脑的线性输出进行采集。

众所周知，教学录播系统需要录制老师、学生和课件的声音，传统的方法是在教室内安装一个或多个拾音器。每个拾音器都会采集安装位置处周围的声音，这个声音包含了老师的说话声，学生回答问题的声音，以及教室内扬声器播放的课件声音与无线麦克风的本地扩声。由于声源较多，难免会造成混响现象，如老师说话的直达声与通过扬声器扩声的声音造成的混响，此外课件播放的声音通过扬声器播放后再被拾音器采集，声音的还原度也会下降很多，这些因素都会造成录制的声音清晰度下降。此外，如果同时通过多个拾音器采集声音而进行直接混音操作，通常会造成“梳状滤波器效应”，导致混音后的声音发生失真，这是由于同一个声源到达各个拾音器的声音存在相位差所造成的。

发明内容

本发明目的在于针对现有技术的不足，提出一种能够提高录制音频质量，并用于教学录播的音频混音方法。

本发明的目的是通过以下技术方案来实现的：一种用于教学录播的音频混音方法，该方法具体步骤如下：

步骤1：采集参与混音的n路拾音器的当前音频帧信号，记做x_i，其中i＝1,2,……,n；无线麦音频帧信号为w，课件音频帧信号为c；

步骤2：分别计算采集的n路拾音器音频帧信号的能量有效值；其中，第k路音频帧信号能量有效值为：

其中，N为音频帧信号的采样点总数，i是采样点的序号；

步骤3：对步骤2计算得到的n路音频帧信号的能量有效值进行大小排序，选择当前帧信号的能量有效值最大的拾音器，记该拾音器的能量有效值为S_m，其中m为能量有效值最大的拾音器对应的序号；

步骤4：设n路拾音器在上一帧信号的混音权重为Q_i，其中i＝1,2,……,n；在当前帧进行混音时，根据能量有效值对混音权重Q_i进行更新；混音权重Q_i的更新过程如下：

其中，step为混音权重更新的步长因子，取值范围为0～1；

步骤5：混音权重Q_i的取值范围为0～1，根据步骤4对混音权重Q_i更新的结果，如果Q_i的取值超出指定范围，则对Q_i作以下调整：

步骤6：当对n路拾音器采集音频帧信号的当前帧数据进行混音时，将采用步骤5调整后的混音权重Q_i，此时，n路拾音器的混音输出为

i＝1,2,……,n

步骤7：对无线麦克风音频帧信号w、课件音频帧信号c和拾音器混音输出y进行混音处理，具体混音过程为：分别对无线麦克风音频帧信号w和课件音频帧信号c进行静音检测，当检测到w或c有声音时，对拾音器混音输出y进行逐步关闭，即更新拾音器输出y的混音权重Q_y，使其逐步变小，直至Q_y＝0。其中，混音权重Q_y的取值范围为0～1；当检测到w或c均为静音时，则更新拾音器输出y的混音权重Q_y，使其逐步变大，直至Q_y＝1；

步骤8：根据步骤7计算得到的混音权重Q_y对无线麦音频帧信号w、课件音频帧信号c和拾音器混音输出y进行混音，此时，三者的混音输出为

z＝w+c+Q_y·y

其中，z为音频混音的最终输出信号。

进一步地，音频帧一帧信号的长度为20ms，采样率为32kHz，采样点总数N＝640。

进一步地，所述步骤7中，静音检测通过计数器来实现，首先计算当前帧的能量值，然后将当前帧与上一帧信号进行平滑处理，得到平滑后的能量值；将平滑后的能量值与设定的阈值T进行比较，当平滑后的能量大于阈值T时，判断当前帧为有话段，并对计数器X进行清零；若当平滑后的能量值小于阈值T时，计数器X加1，将计数器X与设定的最小检测帧数C比较，若计数器X大于C，则判断为无话段，反之为有话段。

进一步地，所述阈值T的选取为环境声约60dB时对应的能量值，最小检测帧数C取值为5～10。

本发明的有益效果：本发明提出的混音方法可以将拾音器采集信号、无线麦克风采集信号和课件声信号三者准确的混合在一起，混音后的音频信号具有清晰度高，音质好的特点。本发明可以准确判断教学录播场景下的多种教学场景，并根据实际情况对混音权重因子进行实时更新，从而使得混音后音频信号具有出色自然的音质。

附图说明

图1为本发明所述混音方法的结构框图；

图2为本发明所述混音方法的工作流程图；

图3为本发明所述静音检测单元的流程图；

图4为本发明教学录播音频系统结构图。

具体实施方式

以下结合附图对本发明具体实施方式作进一步详细说明。

本发明所述混音方法的结构框图如图1所示，包括：拾音器单元，用于参与混音的各路音频信号的采集；与所述拾音器单元相连接的混音权重，用于对各路拾音器采集信号的加权，避免混音后的输出音频信号切换过于明显；与所述混音权重相连接的混音器，用于各路加权音频信号的混音；与所述混音器相连接的混音权重，用于对第一次混音输出信号的加权；无线麦克风单元，用于第二次混音所需的无线麦信号采集；课件单元，用于第二次混音所需的课件信号采集；与所述无线麦克风单元和课件单元相连接的静音检测单元，用于判断音频信号是否有语音信号；与所述静音检测相连接的混音器，用于拾音器混音后输出信号、无线麦克风信号和课件信号的混音，并输出本发明的最终混音信号。

本发明所述混音方法的工作流程图如图2所示，具体实施步骤如下：

步骤1：采集参与混音的n路拾音器的当前音频帧信号，记做x_i，其中i＝1,2,……,n。无线麦音频帧信号为w，课件音频帧信号为c。

步骤2：分别计算采集的n路拾音器音频帧信号的能量有效值。其中，第k路音频帧信号能量有效值为：

其中，N为音频帧信号的采样点总数，i是采样点的序号，本发明中一帧信号的长度为20ms，采样率为32kHz，所以此处的采样点总数N＝640；

步骤3：对步骤2计算得到的n路音频信号的能量有效值进行大小排序，选择当前帧信号的能量有效值最大的拾音器，记该拾音器的能量有效值为S_m，其中m为能量有效值最大的拾音器对应的序号。

步骤4：设n路拾音器在当前帧的混音权重为Q_i，其中i＝1,2,……,n。在当前帧进行混音时，根据能量有效值对混音权重Q_i进行更新。混音权重Q_i的更新过程如下：

其中，step为混音权重更新的步长因子，取值范围为0～1。step的取值可以根据实际情况进行选择。

步骤6：当对n路拾音器采集音频帧信号的当前帧数据进行混音时，将采用更新后的混音权重Q_i，此时，n路拾音器的混音输出为

i＝1,2,……,n

步骤7：对无线麦克风音频帧信号w、课件音频帧信号c和拾音器混音输出y进行混音处理。具体混音过程为：分别对无线麦克风音频帧信号w和课件音频帧信号c进行静音检测，当检测到w或c有声音时，对拾音器混音输出y进行静音处理，并更新拾音器输出y的混音权重Q_y，使其逐步变小，以防止发生明显的声音切换现象。其中，混音权重Q_y的取值范围为0～1。当检测到w或c均为静音时，则更新拾音器输出y的混音权重Q_y，使其逐步变大。

步骤8：根据步骤7计算得到的混音权重Q_y对无线麦克风音频帧信号w、课件音频帧信号c和拾音器混音输出y进行混音，此时，三者的混音输出为

z＝w+c+Q_y·y

其中，z为最终输出信号。

本发明中的静音检测计算方法如图3所示。首先计算当前帧的能量值，然后将当前帧与上一帧信号进行平滑处理，得到平滑后的能量值。将平滑后的能量值与设定的阈值T进行比较，当平滑后的能量大于阈值T时，判断当前帧为有话段，并对计数器X进行清零。而当平滑后的能量值小于阈值T时，计数器X加1，将计数器X与设定的最小检测帧数C比较，若计数器X大于C，则判断为无话段，反之为有话段。其中阈值T的选取为环境声约60dB时对应的能量值，最小检测帧数C取值为5～10。

下文中将结合实施例来进一步说明本发明能达到的效果。

图4表示一个教学录播音频系统的基本组成，其中无线麦克风采集老师说话的声音；拾音器1、拾音器2分别安装于学生区域的前部、后部位置，拾音器1采集前排学生的声音，拾音器2采集后排学生的声音；课件为电脑的音频输出，是老师上课时使用的电脑课件播放的音频信号；这些音频信号都接入混音器，经过混音后输出至录播主机，其中无线麦克风与课件的信号还要输出至音箱进行本地扩声。

表1为一段时间内该教室内教学活动的内容，按时间段排列，表2为这段时间内拾音器采集到的声音信号中包含的内容，表3为这段时间内常规混音方法与本发明使用的混音方法的输出音频信号的对比。

表1 0—t3时间段内的教学内容

时间段序号	开始时刻	结束时刻	教学内容
				1	0	t1	老师说话
2	t1	t2	学生发言
				3	t2	t3	播放课件

表2 0—t3时间段内的拾音器采集的声音内容

表3 0—t3时间段内不同混音方法的混音输出对比

从本例中可以看出，与传统的混音方法相比，使用本发明的混音方法的输出，不管在哪种教学场景下，均减小了混音的声源数量，以及减小了输出中的环境噪声，提高了声音的清晰度。在老师说话、播放课件两种场景下，完全去掉了环境噪声；在学生发言这种场景下，只输出了离发言者较近距离的拾音器的信号，也减小了混音的声源数量，减小了环境噪声的叠加与混响，消除了梳状滤波器效应带来的语音清晰度的降低。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种用于教学录播的音频混音方法，其特征在于，该方法具体步骤如下：

其中，N为音频帧信号的采样点总数，k是采样点的序号；

其中，step为混音权重更新的步长因子，取值范围为0～1；

步骤7：对无线麦克风音频帧信号w、课件音频帧信号c和拾音器混音输出y进行混音处理，具体混音过程为：分别对无线麦克风音频帧信号w和课件音频帧信号c进行静音检测，当检测到w或c有声音时，对拾音器混音输出y进行逐步关闭，即更新拾音器输出y的混音权重Q_y，使其逐步变小，直至Q_y＝0；其中，混音权重Q_y的取值范围为0～1；当检测到w或c均为静音时，则更新拾音器输出y的混音权重Q_y，使其逐步变大，直至Q_y＝1；

z＝w+c+Q_y·y

其中，z为音频混音的最终输出信号。

2.根据权利要求1所述的一种用于教学录播的音频混音方法，其特征在于，音频帧一帧信号的长度为20ms，采样率为32kHz，采样点总数N＝640。

3.根据权利要求1所述的一种用于教学录播的音频混音方法，其特征在于，所述步骤7中，静音检测通过计数器来实现，首先计算当前帧的能量值，然后将当前帧与上一帧信号进行平滑处理，得到平滑后的能量值；将平滑后的能量值与设定的阈值T进行比较，当平滑后的能量大于阈值T时，判断当前帧为有话段，并对计数器X进行清零；若当平滑后的能量值小于阈值T时，计数器X加1，将计数器X与设定的最小检测帧数C比较，若计数器X大于C，则判断为无话段，反之为有话段。

4.根据权利要求3所述的一种用于教学录播的音频混音方法，其特征在于，所述阈值T的选取为环境声60dB时对应的能量值，最小检测帧数C取值为5～10。