CN111586511B

CN111586511B - 一种音频标准化采集设备及方法

Info

Publication number: CN111586511B
Application number: CN202010292818.0A
Authority: CN
Inventors: 陈洪极; 苏成悦; 黄舒坦; 刘拔; 叶嘉乐; 莫少政; 何雷
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-04-14
Filing date: 2020-04-14
Publication date: 2022-07-05
Anticipated expiration: 2040-04-14
Also published as: CN111586511A

Abstract

本发明公开一种音频标准化采集设备及方法，其中的采集设备包括校准装置以及采集装置；其中，所述校准装置包括标识物及发声模块；所述采集装置包括支架、设置在支架上的转动架、拾音模块、声源识别模块以及控制模块，所述拾音模块和声源识别模均设置在所述转动架上，所述支架上设有用于驱动转动架转动的转动驱动机构；所述声源识别模块包括摄像头，该摄像头与所述控制模块电连接。本发明的采集设备在同一环境下，实现对音频进行统一化处理，有效降低音频处理量，提高处理效率和音频质量。

Description

一种音频标准化采集设备及方法

技术领域

本发明涉及一种声音采集处理设备，具体涉及一种音频标准化采集设备及方法。

背景技术

在音频数据的采集过程中，不同的环境及其他非人为的因素均对数据有很大的影响。例如，传播距离对不同频率的声音的衰减作用是不同的，温度的高低会影响着声音的传播速度；因此，往往在进行音频数据采集时，需要对声音进行校正修复，以获取高质量的音频。

但是，由于采集现场的环境影响因数众多，无法针对原始音频做统一的标准化处理，导致处理过程缓慢，且效果不佳。因此，有必要提出一种能对原始音频作统一处理的设备，以提高音频处理效率和质量。

发明内容

本发明目的在于克服现有技术的不足，提供一种音频标准化采集设备，该设备在同一环境下，实现对音频进行统一化处理，有效降低音频处理量，提高处理效率和音频质量。

本发明的另一目的在于提供一种音频标准化采集方法。

本发明的目的通过以下技术方案实现：

一种音频标准化采集设备，其特征在于，包括校准装置以及采集装置；其中，所述校准装置包括标识物及发声模块；所述采集装置包括支架、设置在支架上的转动架、拾音模块、声源识别模块以及控制模块，所述拾音模块和声源识别模块均设置在所述转动架上，所述支架上设有用于驱动转动架转动的转动驱动机构；所述声源识别模块包括摄像头，该摄像头与所述控制模块电连接。

上述音频标准化采集设备的工作原理是：

在工作现场进行音频采集前，先通过所述校准装置对采集装置进行对音频处理参数的校准。首先，将校准装置和采集装置均放置在工作现场，且相距一定距离，所述采集装置通过摄像头对校准装置的位置进行识别并测出两者之间的距离，在转动驱动机构的带动下，使得采集装置上的拾音模块与校准装置正对；接着，校准装置上的发声模块按照预设的参数发出规律的校准音频(发声模块按频谱发出正弦波声音，每个频谱点持续0.5秒)，所述采集装置上的拾音模块持续采集校准音频，并将采集到的校准音频发送至控制模块中，控制模块将该音频转化为电信号，随后再将该电信号与储存器中预设的原信号进行对比，计算每个频点在当前环境下校准音频的衰减系数。当计算出当前环境下校准音频的衰减系数后，开始采集工作现场的音频，在声源识别模块和转动驱动机构的作用下，寻找出声源并让拾音模块正对声源，并且以校准时计算出的衰减系数对所采集的音频进行处理，获取最终的标准声音文件。

本发明的一个优选方案，其中，所述校准装置还包括底盘和安装柱，所述安装柱设置在底盘上，所述标识物和发声模块均设置在安装柱上。

优选地，所述标识物呈圆环型，且设置在所述安装柱的顶部，所述发声模块设置在所述标识物的下方。

本发明的一个优选方案，所述转动架包括支臂和俯仰架，所述支臂的底部与支架转动连接，所述俯仰架与所述支臂的顶部转动连接；所述支臂上设有用于驱动所述俯仰架作俯仰运动的俯仰驱动机构；所述声源识别模块和拾音模块均设置在所述俯仰架上。

优选地，所述俯仰架包括连接杆和安装板；所述连接杆一端与支臂的顶部连接，另一端与所述安装板连接，所述拾音模块和声源识别模块均设置在所述安装板上。将声源识别模块和拾音模块均设置在俯仰架的安装板上，使得两者同时运动，在声源识别模块寻找和定位声源的同时，也让拾音模块与声源对准。通过俯仰驱动机构的设置，以便对高度不同的声源进行识别和采集，适应性更好。

优选地，所述支架由圆盘底座构成，所述支臂的底部转动连接在所述圆盘底座的中心处。

本发明的一个优选方案，所述声源识别模块上的摄像头有两个，构成双目摄像头；所述两个摄像头沿着竖向方向排列设置。

本发明的一个优选方案，所述拾音模块包括麦克风矩阵，该麦克风矩阵呈3×2布置。

一种音频标准化采集方法，其特征在于，包括以下步骤：

(1)将校准装置和采集装置放置在待采集环境中，采集装置上的声源识别模块准确定位校准装置的位置，并测出当前校准装置和采集装置的距离R₁；

(2)在转动驱动机构的作用下，将采集装置上的拾音模块正对所述校准装置上的发声模块；

(3)所述发声模块按照预设参数发出规律的校准音频，所述拾音模块持续采集所述校准音频，并传输至控制模块中；

(4)控制模块将接收到的校准音频转化为校准电信号，并与储存器中预设的原信号进行对比，计算出每个频点在当前环境下校准音频的衰减系数，从而获得衰减因子序列；其中，根据莫尔斯声学理论，由波动方程可知，

其中，P为麦克风处采集到的声压，q为单极子点声源质量总流率，

t为运行时刻，R为发声时刻声源与麦克风之间的距离，c为声音在空气中的传播速度，R/c为声波从声源传到麦克风所需的时间，V为声源的移动速度，M＝V/c为马赫数，θ为发声时刻声源和麦克风连线与声源运动方向之间的夹角；由于采集装置上的拾音模块正对发声模块，因此θ＝0，所述校准装置静止放置，因此V＝0，M＝0；将所述波动方程简化为：

此时，若校准电信号序列为{x_s(t)}，作频域变换{X_s(ω)}，距离为R₀，衰减因子

其中当前校准装置和采集装置的距离R₁作为校准信息；

(5)开始采集现场的音频，所述声源识别模块寻找并定位发声声源，获取声源与拾音模块之间的距离R₂；转动驱动机构带动拾音模块转动，使得拾音模块与发声声源正对，开始进行音频采集；

(6)采集原始音频后，根据所述衰减系数以及拾音模块与声源的距离信息，对现场采集的原始音频进行统一的标准化融合处理，获取标准音频；其中，若设采集到的人声信号序列为{x_r(t)}，声源与拾音模块之间的距离为R₂，标准化融合处理如下：

由公式(2)确定声压处理序列

将{x_r1(t)}作频域变换{X_r1(ω)}，{X_r2(ω)}＝{X_r1(ω)·β_s(ω)}，

{X_r2(ω)}作时域的逆变换为{x_r2(t)}，

最终得到处理后的标准音频电信号{x_r2(t)}。

优选地，校准装置和采集装置的距离R₁为1m；所述发声模块按频谱发出正弦波声音，且每个频谱点持续0.5秒。

本发明与现有技术相比具有以下有益效果：

1、本发明能够在同一环境下，实现对音频进行统一化处理，减少声音信号处理中待处理的数据量，减少采集过程中声源移动对声音的影响，减少距离因素对声音不同频率分量的衰减不同引起的误差，有效加快音频处理效率和提高音频质量。

2、本发明的音频标准化采集设备结构简单，采用先校准后采集的方式，针对不同环境场合计算出适合当前环境下的衰减系数，从而实现当前环境的音频标准化处理，适应性好。

附图说明

图1为本发明的音频标准化采集设备中采集装置的其中一种具体实施方式的立体结构示意图。

图2为本发明的音频标准化采集设备中校准装置的其中一种具体实施方式的立体结构示意图。

具体实施方式

下面结合实施例和附图对本发明作进一步描述，但本发明的实施方式不仅限于此。

参见图1-图2，本实施例的音频标准化采集设备，包括校准装置以及采集装置；其中，所述校准装置包括标识物9及发声模块10；所述采集装置包括支架、设置在支架上的转动架、拾音模块7、声源识别模块以及控制模块，所述拾音模块7和声源识别模块均设置在所述转动架上，所述支架上设有用于驱动转动架转动的转动驱动机构2；所述声源识别模块包括摄像头6，该摄像头6与所述控制模块电连接。

参见图2，所述校准装置还包括底盘12和安装柱11，所述安装柱11设置在底盘12上，所述标识物9和发声模块10均设置在安装柱11上。所述校准装置的控制器设置在所述地盘上。

参见图2，所述标识物9呈圆环型，且设置在所述安装柱11的顶部，所述发声模块10设置在所述标识物9的下方。通过设置这样的标识物9，以便采集装置上的声源识别模块快速寻找到校准装置的位置，并在转动驱动机构2的带动下与其对准，加快音频采集前的校准处理。

参见图1，所述转动架包括支臂3和俯仰架，所述支臂3的底部与支架转动连接，所述俯仰架与所述支臂3的顶部转动连接；所述支臂3上设有用于驱动所述俯仰架作俯仰运动的俯仰驱动机构4；所述声源识别模块和拾音模块7均设置在所述俯仰架上。本实施例中，所述俯仰架包括连接杆5和安装板8，所述连接杆5一端与支臂3的顶部连接，另一端与所述安装板8连接，所述拾音模块7和声源识别模块均设置在所述安装板8上。将声源识别模块和拾音模块7均设置在俯仰架的安装板8上，使得两者同时运动，在声源识别模块寻找和定位声源的同时，也让拾音模块7与声源对准。通过俯仰驱动机构4的设置，以便对高度不同的声源进行识别和采集，适应性更好。

参见图1，所述支架由圆盘底座1构成，所述支臂3的底部转动连接在所述圆盘底座1的中心处。将支架设置为圆盘底座1，有利于提高整个采集装置的稳定性，并且便于转动架的连接，并且有利于提高整个转动架及拾音模块7和声源识别模块的运动。所述采集装置的控制器设置在所述圆盘底座1上。

参见图1，所述声源识别模块上的摄像头6有两个，构成双目摄像头6；所述两个摄像头6沿着竖向方向排列设置。这样有利于提高寻找校准装置及其他声源的速度，并且提高声源识别精度，从而让拾音模块7快速与声源正对。本实施例中，所述声源识别模块可采取图像识别处理的方式，以快速寻找出校准装置上的识别块。

参见图1，所述拾音模块7包括麦克风矩阵，该麦克风矩阵呈3×2布置。

参见图1-图2，本实施例的音频标准化采集设备的工作原理是：

在工作现场进行音频采集前，先通过所述校准装置对采集装置进行对音频处理参数的校准。首先，将校准装置和采集装置均放置在工作现场，且相距一定距离，所述采集装置通过摄像头6对校准装置的位置进行识别并测出两者之间的距离，在转动驱动机构2的带动下，使得采集装置上的拾音模块7与校准装置正对；接着，校准装置上的发声模块10按照预设的参数发出规律的校准音频(发声模块10按频谱发出正弦波声音，每个频谱点持续0.5秒)，所述采集装置上的拾音模块7持续采集校准音频，并将采集到的校准音频发送至控制模块中，控制模块将该音频转化为电信号，随后再将该电信号与储存器中预设的原信号进行对比，计算每个频点在当前环境下校准音频的衰减系数。当计算出当前环境下校准音频的衰减系数后，开始采集工作现场的音频，在声源识别模块和转动驱动机构2的作用下，寻找出声源并让拾音模块7正对声源，并且以校准时计算出的衰减系数对所采集的音频进行处理，获取最终的标准声音文件。

本实施例的音频标准化采集方法，包括以下步骤：

(1)将校准装置和采集装置放置在待采集环境中，采集装置上的声源识别模块准确定位校准装置的位置，并测出当前校准装置和采集装置的距离R₁；本实施例中R₁为1m。

(2)在转动驱动机构2的作用下，将采集装置上的拾音模块7正对所述校准装置上的发声模块10。

(3)所述发声模块10按照预设参数发出规律的校准音频，所述拾音模块7持续采集所述校准音频，并传输至控制模块中；所述校准音频为按频谱发出正弦波声音，且每个频谱点持续0.5秒。

(4)控制模块将接收到的校准音频转化为校准电信号，并与储存器中预设的原信号进行对比，计算出每个频点在当前环境下校准音频的衰减系数，从而获得衰减因子序列。其中，根据莫尔斯声学理论，由波动方程可知，

t为运行时刻，R为发声时刻声源与麦克风之间的距离，c为声音在空气中的传播速度，R/c为声波从声源传到麦克风所需的时间，V为声源的移动速度，M＝V/c为马赫数，θ为发声时刻声源和麦克风连线与声源运动方向之间的夹角；由于采集装置上的拾音模块7正对发声模块10，因此θ＝0，所述校准装置静止放置，因此V＝0，M＝0；将所述波动方程简化为：

其中当前校准装置和采集装置的距离R₁作为校准信息。

(5)开始采集现场的音频，所述声源识别模块寻找并定位发声声源，获取声源与拾音模块7之间的距离R₂；转动驱动机构2带动拾音模块7转动，使得拾音模块7与发声声源正对，开始进行音频采集。

(6)采集原始音频后，根据所述衰减系数以及拾音模块7与声源的距离信息，对现场采集的原始音频进行统一的标准化融合处理，获取标准音频。其中，若设采集到的人声信号序列为{x_r(t)}，声源与拾音模块7之间的距离为R₂，标准化融合处理如下：

由公式(2)确定声压处理序列

将{x_r1(t)}作频域变换{X_r1(ω)}，{X_r2(ω)}＝{X_r1(ω)·β_s(ω)}，

{X_r2(ω)}作时域的逆变换为{x_r2(t)}，

最终得到处理后的标准音频电信号{x_r2(t)}。

上述为本发明较佳的实施方式，但本发明的实施方式并不受上述内容的限制，其他的任何未背离本发明的精神实质与原理下所做的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于音频标准化采集设备的音频标准化采集方法，其特征在于，

音频标准化采集设备包括校准装置和采集装置；所述校准装置包括标识物及发声模块；所述采集装置包括支架、设置在支架上的转动架、拾音模块、声源识别模块以及控制模块，所述拾音模块和声源识别模块均设置在所述转动架上，所述支架上设有用于驱动转动架转动的转动驱动机构；所述声源识别模块包括摄像头，该摄像头与所述控制模块电连接；所述声源识别模块对所述校准装置的标识物进行识别，所述采集装置的拾音模块对校准装置的发声模块发出的音频进行采集；所述校准装置还包括底盘和安装柱，所述安装柱设置在底盘上，所述标识物和发声模块均设置在安装柱上；所述标识物呈圆环型，且设置在所述安装柱的顶部，所述发声模块设置在所述标识物的下方；所述转动架包括支臂和俯仰架，所述支臂的底部与支架转动连接，所述俯仰架与所述支臂的顶部转动连接；所述支臂上设有用于驱动所述俯仰架作俯仰运动的俯仰驱动机构；所述声源识别模块和拾音模块均设置在所述俯仰架上；所述俯仰架包括连接杆和安装板；所述连接杆一端与支臂的顶部连接，另一端与所述安装板连接，所述拾音模块和声源识别模块均设置在所述安装板上；所述支架由圆盘底座构成，所述支臂的底部转动连接在所述圆盘底座的中心处；

音频标准化采集方法包括以下步骤：

其中当前校准装置和采集装置的距离R₁作为校准信息；

由公式(2)确定声压处理序列

将{x_r1(t)}作频域变换{X_r1(ω)}，{X_r2(ω)}＝{X_r1(ω)·β_s(ω)}，

{X_r2(ω)}作时域的逆变换为{x_r2(t)}，

最终得到处理后的标准音频电信号{x_r2(t)}。

2.根据权利要求1所述的基于音频标准化采集设备的音频标准化采集方法，其特征在于，校准装置和采集装置的距离R₁为1m；所述发声模块按频谱发出正弦波声音，且每个频谱点持续0.5秒。

3.根据权利要求1所述的基于音频标准化采集设备的音频标准化采集方法，其特征在于，所述声源识别模块上的摄像头有两个，构成双目摄像头；所述两个摄像头沿着竖向方向排列设置。

4.根据权利要求1所述的基于音频标准化采集设备的音频标准化采集方法，其特征在于，所述拾音模块包括麦克风矩阵，该麦克风矩阵呈3×2布置。