CN108389586A

CN108389586A - 一种远程集音装置、监控装置及远程集音方法

Info

Publication number: CN108389586A
Application number: CN201810121915.6A
Authority: CN
Inventors: 朱云海; 徐伟明; 高则海
Original assignee: Ningbo Sangdena Electronic Technology Co Ltd
Current assignee: Ningbo Sangdena Electronic Technology Co Ltd
Priority date: 2017-05-17
Filing date: 2018-02-07
Publication date: 2018-08-10

Abstract

本发明公开了一种远程集音装置及远程集音方法，包括拾音单元模块、单通道降噪处理模块、麦克风阵列处理模块以及指向性处理模块；拾音单元模块包括反射面以及设置在反射面中心位置的多个传声器组件，每个传声器组件输出端分别接入与传声器组件对应的单通道降噪处理模块的输入端，每个单通道降噪处理模块输出端均接入麦克风阵列处理模块的输入端，麦克风阵列处理模块的输出端接入指向性处理模块的输出端。

Description

一种远程集音装置、监控装置及远程集音方法

技术领域

本发明涉及一种远程集音装置及远程集音方法。

背景技术

在安保、安防，采访等领域，各类视频监控或视频采集系统已经得到广泛应用。依托各类视频监控或视频采集系统，可以对远距离视频中相关人员进行准确拍摄，但在利用视频监控系统进行远距离拍摄时很难进行远距离语音采集，如能通过远距离语音采集，视频监控系统即可利用语言、对话信息分析嫌疑人，视频采集系统可以视频语音同步记录，将可大大影响了工作效率。但在实际环境背景噪声条件下进行远距离语音采集可以实现，但是清晰度仍然较低。

发明内容

本发明要解决的技术问题是，提供一种能有效进行集音并能得到清晰度高的远程集音装置及远程集音方法。

本发明的技术解决方案是，提供一种具有以下结构的远程集音装置，包括拾音单元模块、单通道降噪处理模块、麦克风阵列处理模块以及指向性处理模块；拾音单元模块包括反射面以及设置在反射面中心位置的多个传声器组件，每个传声器组件输出端分别接入与传声器组件对应的单通道降噪处理模块的输入端，每个单通道降噪处理模块输出端均接入麦克风阵列处理模块的输入端，麦克风阵列处理模块的输出端接入指向性处理模块的输出端。

优选的，还包括用于固定麦克风组件的框体，所述的框体下部连接有云台。

优选的，所述的框体设置拾音单元模块的一侧设有摄像组件，另一侧设有红外灯组件。

优选的，所述的麦克风组件包括设置在反射面外壁的减震吸音棉，所述的反射面开口处设有防水罩。

优选的，阵列麦克风内含电源反向保护模块、防雷击模块。

采用以上结构后，本发明的远程集音装置，与现有技术相比，具有以下优点：通过多个麦克风组件实现拾音，由于麦克风组件直接有单一反射面和单一拾音单元组成，结构紧凑，并通过多个单通道降噪处理模块、阵列处理模块以及指向性处理模块实现声音信号的处理，单通道降噪处理模块能有效去除噪声并减少噪声对阵列效果的影响，阵列处理模块能将多个信号进行整合增益，最后通过指向性处理模块形成心型或高心型或超心型拾音模型，得到了清晰的语音输出。

本发明的另一技术解决方案是，提供一种监控装置，包括摄像组件、上述任一一种远程集音装置及音视频联动模块，所述的摄像组件输出变倍信号，所述的远程集音装置内指向性处理模块输出语音增强信号至音视频联动模块，所述的音视频联动模块根据摄像组件输出的变倍信号改变输出语音增强信号的音量大小，所述的摄像组件与集音装置同步运动。

采用以上结构后，本发明的监控装置，与现有技术相比，具有以下优点：由于集音装置结构紧凑便于整合至视频监控设备内，可以很方便的将集音装置整合到监控装置内，两者固定连接实现联动，能在远距离拍摄时进行远距离语音采集，并通过音视频联动模块识别摄像组件输出的变倍信号，通过变倍信号改变输出语音增强信号的音量大小，实现监控视频播放的时候不仅能对应采集声音且可以自动调节到合适的声音播放。

本发明的另一技术解决方案是，提供一种远程集音方法，其特征在于：包括以下步骤：

S1、多个拾音单元均沿一个方向进行声音拾取形成带噪语音并将带噪语音输入单通道降噪处理模块；

S2、单通道降噪处理模块首先对带噪语音进行成帧，然后对语音频谱进行估计和平滑并识别噪声类型，之后选取与噪声类型对应的滤波模型进行噪声消除，将降噪后的语音信号输入至阵列处理模块；

S3、阵列处理模块采用延迟求和波束形成算法处理降噪后的语音信号提升阵列增益并将信号输入至指向性处理模块；

S4、指向性处理模块采用基于人耳的听感知特性的计算机听觉场景分析技术建立心型或超心型拾音模型。

优选的，所述的步骤S2中滤波模型进行噪声消除的方法如下，利用端点检测的结果对噪声的频谱进行估计，频域维纳滤波系数通过Mel滤波器组转化为Mel域的维纳滤波系数，接着采用Mel IDCT得到滤波器的时域冲激响应，最终使用卷积得到增强后的时域语音信号用于后端的模型匹配。

优选的，所述的步骤S3中采用延迟求和波束形成算法如下，各通道接收到的单路降噪信号经过时延τ_i补偿后，使得各路输出信号x_i(n)在目标信号方向上同步，采用可调波束形成器对x_i(n)进行滤波，并将滤波后各路信号相加，实现目标语音的初步增强。

优选的，所述的步骤S4中采用基于人耳的听感知特性的计算机听觉场景分析技术建立心型或超心型拾音模型的方法如下:

(1)、指向性处理模块对获取阵列增强输出信号和残留噪声经过模拟人耳频率分解特性的gammatone滤波器组进行多子带滤波，得到多子带时域信号。

(2)、对所有子带信号进行加窗分帧，得到时频单元序列，计算可得阵列增强输出信号与残留噪声时频单元的能量；

(3)、将阵列增强输出信号与残留噪声时频单元的能量对比平滑后，作为线索，得到二值掩蔽模板；

(4)、将掩蔽模板作用于阵列输出的混合信号，提取出目标语音占优的时频单元，最终构建心形或超心型拾音模式，实现语音增强。

优选的，还包括音视频联动模块，

(1)、音视频联动模块接收指向性处理模块波束方向参数和摄像机变倍参数，建立音视频同步放缩参数映射表，输出音视频联动混合信号。

(2)、根据摄像机变倍参数调整波束形成参数，以使得指向性处理模块的波束形成参数符合声源在摄像机图像中的空间位置；

(3)、近焦情况下，波束角度变大，摄像机变倍参数变小，声源音量缩小；远焦情况下，波束角度变小，摄像机变倍参数放大，声源音量放大。

采用以上结构后，本发明的监控装置，与现有技术相比，具有以下优点：单通道降噪处理模块设计不同统计特性噪声所对应的滤波模型，以达到针对多种类型的噪声分别建模、分别予以消除的目标。由于针对性强且可以达到较强的降噪效果，由于先进行降噪再进行阵列增益，能大大提高阵列的准确性，使增益效果更佳，并最后通过建立心型或高心型或超心型拾音模型输出，使声音的指向型达到最优，并通过音视频联动模块将优化后的声音输出信号与摄像组件联动，实现监控画面与监控声音联动。

附图说明

图1是本发明的远程集音装置的结构示意图一。

图2是本发明的远程集音装置的剖视示意图。

图3是本发明的远程集音装置的结构示意图二。

图4是本发明的远程集音装置的剖视示意图三。

图中所示：1、摄像组件；2、云台；3、框体；4、减震吸音棉；5、拾音单元；6、防水罩：7、反射面。

具体实施方式

下面结合附图1和附图2以及具体实施例对本发明作进一步说明。

一种具有以下结构的远程集音装置，包括拾音单元5模块、单通道降噪处理模块、麦克风阵列处理模块以及指向性处理模块；拾音单元5模块包括反射面7以及设置在反射面7中心位置的多个传声器组件，每个传声器组件输出端分别接入与传声器组件对应的单通道降噪处理模块的输入端，每个单通道降噪处理模块输出端均接入麦克风阵列处理模块的输入端，麦克风阵列处理模块的输出端接入指向性处理模块的输出端，通过多个麦克风组件实现拾音，由于麦克风组件直接有单一反射面7和单一拾音单元5组成，结构紧凑，并通过多个单通道降噪处理模块、阵列处理模块以及指向性处理模块实现声音信号的处理，单通道降噪处理模块能有效去除噪声并减少噪声对阵列效果的影响，阵列处理模块能将多个信号进行整合增益，最后通过指向性处理模块形成心型或高心型或超心型拾音模型，得到了清晰的语音输出。

远程集音装置还包括用于固定麦克风组件的框体3，所述的框体3下部连接有云台2，通过云台2实现整体放置以及转动，大大提高了采集范围，所述的框体3设置麦克风组件的一侧设有摄像组件1，摄像组件1可以和视频型号形成联动，通过拾音单元5与采集视频的摄像头一同转动实现对应采集，且通过视频内图像大小计算声源距离以配合声音采集。所述的麦克风组件包括设置在反射面7外壁的减震吸音棉4，所述的反射面7开口处设有防水罩6，减震吸音棉4能有效减少背景噪声，并通过防水罩6实现户外作业。阵列麦克风内含电源反向保护模块、防雷击模块，大大提高了安全性能。

一种监控装置，包括摄像组件1、上述任一一种远程集音装置及音视频联动模块，所述的摄像组件1输出变倍信号，所述的远程集音装置内指向性处理模块输出语音增强信号至音视频联动模块，所述的音视频联动模块根据摄像组件1输出的变倍信号改变输出语音增强信号的音量大小，所述的摄像组件1与集音装置同步运动，由于集音装置结构紧凑便于整合至视频监控设备内，可以很方便的将集音装置整合到监控装置内，两者固定连接实现联动，能在远距离拍摄时进行远距离语音采集，并通过音视频联动模块识别摄像组件1输出的变倍信号，通过变倍信号改变输出语音增强信号的音量大小，实现监控视频播放的时候不仅能对应采集声音且可以自动调节到合适的声音播放。

S1、多个拾音单元5均沿一个方向进行声音拾取形成带噪语音并将带噪语音输入单通道降噪处理模块；

单通道降噪处理模块设计不同统计特性噪声所对应的滤波模型，以达到针对多种类型的噪声分别建模、分别予以消除的目标。由于针对性强且可以达到较强的降噪效果，由于先进行降噪再进行阵列增益，能大大提高阵列的准确性，使增益效果更佳，并最后通过人耳的听感知特性的计算机听觉场景分析技术建立心型或高心型或超心型拾音模型输出，使声音的指向型达到最优。

所述的步骤S2中滤波模型进行噪声消除的方法如下，利用端点检测的结果对噪声的频谱进行估计，频域维纳滤波系数通过Mel滤波器组转化为Mel域的维纳滤波系数，接着采用Mel IDCT得到滤波器的时域冲激响应，最终使用卷积得到增强后的时域语音信号用于后端的模型匹配。

频域滤波器系数H(k)经过Mel滤波器组的计算公式推导如下所示。语音采样率f_samp为8000Hz。Mel滤波器组数目K_FB为23。则每一个Mel滤波器的中心Mel值为

其中，算子MEL是将频率值转为Mel值，转换公式为

Mel{f}＝2595×log₁₀(1+f/700)

根据每一个Mel滤波器的中心Mel可以求得对应的中心频率

同时设定f_centr(0)＝0，f_centr(24)＝4000。系统采用256点FFT，根据实数FFT的对称性质，只需要计算前128点的滤波器系数。各个Mel滤波器中心频率对应的FFT序号为

算子int用于将浮点数取整。利用三角窗滤波器可以将频域维纳滤波系数H(k)转化为Mel域维纳滤波器。

根据上式，可以得到Mel域维纳滤波系数H_mel(k)，完成了从频域到Mel域的转化。另外，由于从Mel域到时域是实数到实数的转化，所以采用了逆离散余弦变换(InverseDiscrete Cosine Transform IDCT)。另外由于每个Mel滤波器覆盖的频段长度不同，因此要附加不同的权重。Mel IDCT的计算公式如下。

IDCT_mel(k,n)是Mel IDCT的系数，其中

最终的维纳滤波器的时域冲激响应为

所述的步骤S3中采用延迟求和波束形成算法如下，各通道接收到的单路降噪信号经过时延τ_i补偿后，使得各路输出信号x_i(n)在目标信号方向上同步，采用可调波束形成器对x_i(n)进行滤波，并将滤波后各路信号相加，实现目标语音的初步增强。具体方法如下：(1)均匀线列阵，阵列孔径为d，目标语音信号源s(n)，其入射角估计值为a_k。设声场为远场传播模型，声波以平行波方式传播，则a_k可表示为：

式中：N是扫描精度

(2)取阵列几何中心为参考阵元，对各通道语音信号进行时延补偿得：

式中：x_i是第i个阵元的接收信号；

τ_i(a_k)是第i个阵元以a_k作为期望语音输入方向，与参考元之间的时延差。

(3)在可调波束形成器这一路，有：

X(a_k,n)＝[x′₁(a_k,n),x′₂(a_k,n),...x′_M(a_k,n)]^T

W_s(a_k,n)＝[w₁(a_k,n),w₂(a_k,n),...w_M(a_k,n)]^T

式中：y_s(a_k,n)是接收信号经过固定波束形成器得到的信号；

W_s(a_k,n)是权向量。

(4)在阻塞矩阵这一路，有：

N(a_k,n)＝BX(a_k,n)

式中：N(a_k,n)是某通道接收信号经过阻塞矩阵B滤除期望信号后得到的噪声信号；

y(a_k,n)是增强后的语音信号。

所述的步骤S4中采用基于人耳的听感知特性的计算机听觉场景分析技术建立心型或超心型拾音模型的方法如下:

采用以上述建立拾音模型的方法后，进行加窗分帧，即可以得到可以处理的单元，根据单元能量得到的可以有效需求需要的时频单元，即能得到与目标语音更接近的时频单元，最后建立的拾音模式与目标语音更加接近。

本发明中集音方法还包括音视频联动模块，

通过建立音视频同步放缩参数映射表准确对应图像和声音，不仅运算小，且在图像变化过程中，采集的声音能准确对应，且采集的更加准确。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种远程集音装置，其特征在于：包括拾音单元(5)模块、单通道降噪处理模块、麦克风阵列处理模块以及指向性处理模块；拾音单元(5)模块包括反射面(7)以及设置在反射面(7)中心位置的多个传声器组件，每个传声器组件输出端分别接入与传声器组件对应的单通道降噪处理模块的输入端，每个单通道降噪处理模块输出端均接入麦克风阵列处理模块的输入端，麦克风阵列处理模块的输出端接入指向性处理模块的输出端。

2.根据权利要求1所述的一种远程集音装置，其特征在于：还包括用于固定麦克风组件的框体(3)，所述的框体(3)下部连接有云台(2)。

3.根据权利要求1所述的一种远程集音装置，其特征在于：所述的框体(3)设置拾音单元(5)模块的一侧设有摄像组件(1)，另一侧设有红外灯组件。

4.根据权利要求1所述的一种远程集音装置，其特征在于：所述的麦克风组件包括设置在反射面(7)外壁的减震吸音棉(4)，所述的反射面(7)开口处设有防水罩(6)。

5.一种监控装置，其特征在于：包括摄像组件(1)、权利要求1-4任一所述的远程集音装置及音视频联动模块，所述的摄像组件(1)输出变倍信号，所述的远程集音装置内指向性处理模块输出语音增强信号至音视频联动模块，所述的音视频联动模块根据摄像组件(1)输出的变倍信号改变输出语音增强信号的音量大小，所述的摄像组件(1)与集音装置同步运动。

6.一种远程集音方法，其特征在于：包括以下步骤：

S1、多个拾音单元(5)均沿一个方向进行声音拾取形成带噪语音并将带噪语音输入单通道降噪处理模块；

S4、指向性处理模块采用基于人耳的听感知特性的计算机听觉场景分析(CASA)技术建立心型或超心型拾音模型。

7.根据权利要求6所述的一种远程集音方法，其特征在于：所述的步骤S2中滤波模型进行噪声消除的方法如下，利用端点检测的结果对噪声的频谱进行估计，频域维纳滤波系数通过Mel滤波器组转化为Mel域的维纳滤波系数，接着采用Mel IDCT得到滤波器的时域冲激响应，最终使用卷积得到增强后的时域语音信号用于后端的模型匹配。

8.根据权利要求6所述的一种远程集音方法，其特征在于：所述的步骤S3中采用延迟求和波束形成算法如下，各通道接收到的单路降噪信号经过时延τ_i补偿后，使得各路输出信号x_i(n)在目标信号方向上同步，采用可调波束形成器对x_i(n)进行滤波，并将滤波后各路信号相加，实现目标语音的初步增强。

9.根据权利要求6所述的一种远程集音方法，其特征在于：所述的步骤S4中采用基于人耳的听感知特性的计算机听觉场景分析(CASA)技术建立心型或超心型拾音模型的方法如下:

10.根据权利要求6所述的一种集音方法，其特征在于：还包括音视频联动模块，

(1)音视频联动模块接收指向性处理模块波束方向参数和摄像机变倍参数，建立音视频同步放缩参数映射表，输出音视频联动混合信号。

(2)根据摄像机变倍参数调整波束形成参数，以使得指向性处理模块的波束形成参数符合声源在摄像机图像中的空间位置；

(3)近焦情况下，波束角度变大，摄像机变倍参数变小，声源音量缩小；远焦情况下，波束角度变小，摄像机变倍参数放大，声源音量放大。