CN110933254B

CN110933254B - 一种基于图像分析的声音过滤系统及其声音过滤方法

Info

Publication number: CN110933254B
Application number: CN201911264104.2A
Authority: CN
Inventors: 卢锡芹; 陈尚武; 金国庆; 吴宣辉; 冯超庭
Original assignee: Hangzhou Xujian Science And Technology Co ltd
Current assignee: Hangzhou Xujian Science And Technology Co ltd
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2021-09-07
Anticipated expiration: 2039-12-11
Also published as: CN110933254A

Abstract

本发明公开了一种基于图像分析的声音过滤系统及其声音过滤方法，一种基于图像分析的声音过滤系统，包括如下功能模块：阵列麦克风模块(1)：用于承当可变指向麦克风，接收声音方位计算模块控制，来监控指定方向声音，输出过滤后声音给声音采集模型(2)；以及声音增益调节模块(2)，声音方位计算模块(3)，事件位置预测模块(4)，人员检测模块(5)，数据同步模块(6)，数据录制模块(7)，全景摄像头模块(8)；本发明采用以上技术方案，通过图像的检测确认事件发生方位，控制麦克风阵列接收区域，从而抑制其他方向的声音以及噪音，实现视频监控摄像头的音频采集去噪，得到对事件更加清晰音频记录。

Description

一种基于图像分析的声音过滤系统及其声音过滤方法

技术领域

本发明涉及声音过滤处理技术领域，尤其是涉及一种基于图像分析的声音过滤系统及其声音过滤方法。

背景技术

现有视频监控摄像机的声音录制为全方向录制，录制声音的同时也录制周边噪音，在实际应用中事件发生时，视频监控摄像机会把周边噪音与其他声音以及目标的声音一起录制，最终导致最终声音的噪音过大，声音采集可用差。所以这需要一种对视频监控摄像头的声音采集去噪效果更好的方法。

发明内容

针对解决上述技术问题，本发明提供一种基于图像分析的声音过滤系统及其声音过滤方法，解决监控视频过多周边噪音导致录音不可用。

本发明提供一种基于图像分析的声音过滤系统，包括如下功能模块：

阵列麦克风模块(1)：用于承当可变指向麦克风，接收声音方位计算模块控制，来监控指定方向声音，输出过滤后声音给声音采集模型(2)；

声音增益调节模块(2)：用于接收阵列麦克风模块(1)的声音数据，事件位置预测模块(4)的监控声音的位置信息，人员检测模块(5)所有人员位置与大小，按照监控声音的位置信息过滤出符合人员，按照过滤人员的平均大小，对声音数据进行增益调节，把调节好声音转给数据同步模块(6)；

声音方位计算模块(3)：用于接收事件位置预测模块(4)的监控声音的位置信息，计算出需要监听的方向与范围，发送阵列麦克风模块(1)；

事件位置预测模块(4)：用于根据人员检测模块(5)上报图像的人员检查结果，分析多人员移动方向，预判出可能纠纷以及打架事件，通知声音方位计算模型(3)的监控声音的位置信息；

人员检测模块(5)：使用目标检测算法(YOLO算法)检测出图像出现人员，把人员位置通知给事件位置预测模块(4)与声音增益调节模块(2)；

数据同步模块(6)：接收声音增益调节模块(2)的音频，接收全景摄像头模块(8)的视频图像数据；根据时戳值进行同步；把同步后的数据给数据录制模块(7)；

数据录制模块(7)：保证音视频数据到存储；

全景摄像头模块(8)：用于负责监控视频数据采集，输出视频数据给人员检测模块(5)。

基于上述一种基于图像分析的声音过滤系统，本发明还提供一种基于图像分析的声音过滤方法，包括如下步骤：

步骤1：全景摄像头模块(8)采集真实世界的图像数据，输出图像数据给人员检测模块(5)；

步骤2：人员检测模块(5)采用目标检测算法(YOLO算法)识别出图像数据出现所有人；

步骤3：事件位置预测模块(4)根据人员检测模块(5)上报图像的人员检查结果，预判出可能纠纷以及打架事件；

3.1、事件位置预测模块(4)分析视频图像中所有的人员移动方向，对图像中每个人人员区域，进行色域统计，红绿蓝分别占比；对原有图像的每个人员与新图像的所有人员进行色域进行差值计算，红绿蓝占比的差值的平均值，如果小于阀值T(设为10％)人员生成候选清单，候选清单的人员与原有图像的人员距离最近为判断为同一人；同一人员从原来图像到新图像的变化方向，为该人员的移动方向；

3.2、把所有人员的移动方向在图像做延长线，延长线互相相交生成交叉点，查询图像中交叉点最密集区域为的可能纠纷以及打架事件区域，通知声音方位计算模型(3)的监控声音在图像位置；

步骤4：声音方位计算模块(3)接收事件位置预测模块(4)的监控声音的位置信息，计算出需要监听的方向与范围，发送阵列麦克风模块(1)；

4.1、声音方位计算模块(3)分析监听的方向方法，根据全景摄像头模块(8)的镜头安装角度得到图像中心点角度值，全景摄像头模块(8)的镜头的可视角度值得到图像两边的角度值，把监控声音在图像位置进行线性计算，这个完成图像空间位置到真实在世界方位转换，最终得到声音方位计算模块(3)监听的中心的方向；

4.2、声音方位计算模块(3)分析监听的范围方法，计算图像的所有人与监控声音在图像位置的平均距离，以平均值乘以系数(取1.5)做为声音在图像中范围区域，使用步骤4.1方法完成图像范围到真实世界角度范围转换；

4.3、声音方位计算模块(3)把计算好监听的方向与范围，发送阵列麦克风模块(1)；

步骤5：使用麦克风阵列做信号的提取和分离特性，阵列麦克风模块(1)使用声源信号分离技术则是将需要将声音全部分离提取出来，阵列麦克风模块(1)接收到监听的方向与范围的角度值，进行分离后声音进行过滤，最终得到监听目标的声音；

步骤6：声音增益调节模块(2)接收阵列麦克风模块(1)的声音数据、事件位置预测模块(4)的监控声音的位置信息、人员检测模块(5)所有人员位置与大小；按照监控声音的位置信息过滤出符合人员，按照过滤人员的平均大小，调节系数A除以过滤人员的平均大小，作为增益系数对声音数据进行增益调节，把调节好声音转给数据同步模块(6)；实现人员目标比较远时，进行声音放大效果；

步骤7：数据同步模块(6)接收声音增益调节模块(2)的音频，接收全景摄像头模块(8)的视频图像数据；根据时戳值进行同步，按照音频时戳为基准插入对应时间视频图像数据；把同步后的数据给数据录制模块(7)；

步骤8：数据录制模块(7)保证音视频数据到存储。

与现有技术相比，本发明具有如下有益效果：

本发明采用以上技术方案，通过图像的检测确认事件发生方位，控制麦克风阵列接收区域，从而抑制其他方向的声音以及噪音，实现视频监控摄像头的音频采集去噪，得到对事件更加清晰音频记录。

附图说明

图1是本发明中一种基于图像分析的声音过滤系统的工作原理框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示：本发明提供一种基于图像分析的声音过滤系统的具体实施例，包括如下功能模块：

阵列麦克风模块1：用于承当可变指向麦克风，接收声音方位计算模块控制，来监控指定方向声音，输出过滤后声音给声音采集模型2；

声音增益调节模块2：用于接收阵列麦克风模块1的声音数据，事件位置预测模块4的监控声音的位置信息，人员检测模块5所有人员位置与大小，按照监控声音的位置信息过滤出符合人员，按照过滤人员的平均大小，对声音数据进行增益调节，把调节好声音转给数据同步模块6；

声音方位计算模块3：用于接收事件位置预测模块4的监控声音的位置信息，计算出需要监听的方向与范围，发送阵列麦克风模块1；

事件位置预测模块4：用于根据人员检测模块5上报图像的人员检查结果，分析多人员移动方向，预判出可能纠纷以及打架事件，通知声音方位计算模型3的监控声音的位置信息；

人员检测模块5：使用目标检测算法(本实施例中：目标检测算法采用YOLO算法)检测出图像出现人员，把人员位置通知给事件位置预测模块4与声音增益调节模块2；

数据同步模块6：接收声音增益调节模块2的音频，接收全景摄像头模块8的视频图像数据；根据时戳值进行同步；把同步后的数据给数据录制模块7；

数据录制模块7：保证音视频数据到存储；

全景摄像头模块8：用于负责监控视频数据采集，输出视频数据给人员检测模块5。

基于上述一种基于图像分析的声音过滤系统，如图1所示，本发明还提供一种基于图像分析的声音过滤方法，包括如下步骤：

步骤1：全景摄像头模块8采集真实世界的图像数据，输出图像数据给人员检测模块5；

步骤2：人员检测模块5采用目标检测算法(本实施例中：目标检测算法采用YOLO算法)识别出图像数据出现所有人；

步骤3：事件位置预测模块4根据人员检测模块5上报图像的人员检查结果，预判出可能纠纷以及打架事件；

3.1、事件位置预测模块4分析视频图像中所有的人员移动方向，对图像中每个人人员区域，进行色域统计，红绿蓝分别占比；对原有图像的每个人员与新图像的所有人员进行色域进行差值计算，红绿蓝占比的差值的平均值，如果小于阀值T(本实施例中：阀值T设为10％)人员生成候选清单，候选清单的人员与原有图像的人员距离最近为判断为同一人；同一人员从原来图像到新图像的变化方向，为该人员的移动方向；

3.2、把所有人员的移动方向在图像做延长线，延长线互相相交生成交叉点，查询图像中交叉点最密集区域为的可能纠纷以及打架事件区域，通知声音方位计算模型3的监控声音在图像位置；

步骤4：声音方位计算模块3接收事件位置预测模块4的监控声音的位置信息，计算出需要监听的方向与范围，发送阵列麦克风模块1；

4.1、声音方位计算模块3分析监听的方向方法，根据全景摄像头模块8的镜头安装角度得到图像中心点角度值，全景摄像头模块8的镜头的可视角度值得到图像两边的角度值，把监控声音在图像位置进行线性计算，这个完成图像空间位置到真实在世界方位转换，最终得到声音方位计算模块3监听的中心的方向；

4.2、声音方位计算模块3分析监听的范围方法，计算图像的所有人与监控声音在图像位置的平均距离，以平均值乘以系数(本实施例中：系数取1.5做为声音在图像中范围区域，使用步骤4.1方法完成图像范围到真实世界角度范围转换；

4.3、声音方位计算模块3把计算好监听的方向与范围，发送阵列麦克风模块1；

步骤5：使用麦克风阵列做信号的提取和分离特性，阵列麦克风模块1使用声源信号分离技术则是将需要将声音全部分离提取出来，阵列麦克风模块1接收到监听的方向与范围的角度值，进行分离后声音进行过滤，最终得到监听目标的声音；

步骤6：声音增益调节模块2接收阵列麦克风模块1的声音数据、事件位置预测模块4的监控声音的位置信息、人员检测模块5所有人员位置与大小；按照监控声音的位置信息过滤出符合人员，按照过滤人员的平均大小，调节系数A除以过滤人员的平均大小，作为增益系数对声音数据进行增益调节，把调节好声音转给数据同步模块6；实现人员目标比较远时，进行声音放大效果；

步骤7：数据同步模块6接收声音增益调节模块2的音频，接收全景摄像头模块8的视频图像数据；根据时戳值进行同步，按照音频时戳为基准插入对应时间视频图像数据；把同步后的数据给数据录制模块7；

步骤8：数据录制模块7保证音视频数据到存储。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实例的说明只是用于帮助理解本发明的方法及其核心思想，以上所述仅是本发明的优选实施方式，应当指出，由于文字表达的有限性，而客观上存在无限的具体结构，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进、润饰或变化，也可以将上述技术特征以适当的方式进行组合；这些改进润饰、变化或组合，或未经改进将发明的构思和技术方案直接应用于其它场合的，均应视为本发明的保护范围。

Claims

1.一种基于图像分析的声音过滤系统，其特征在于，包括如下功能模块：

阵列麦克风模块（1）：用于承当可变指向麦克风，接受声音方位计算模块（3）的控制，来监控指定方向的声音，输出过滤后的声音给声音增益调节模块（2）；

声音增益调节模块（2）：用于接收阵列麦克风模块（1）的声音数据、事件位置预测模块（4）检测到的区域的位置信息和人员检测模块（5）检测到的所有人员位置与大小，按照区域的位置信息过滤出符合人员，按照过滤出的人员的平均大小，对声音数据进行增益调节，把调节好声音转给数据同步模块（6）；

声音方位计算模块（3）：用于接收事件位置预测模块（4）检测到的区域的位置信息，计算出需要监听的方向与范围，发送给阵列麦克风模块（1）；

事件位置预测模块（4）：用于根据人员检测模块（5）上报图像的人员检查结果，分析多人员的移动方向，预判出可能的纠纷以及打架事件的区域，通知声音方位计算模块（3）该区域的位置信息；

人员检测模块（5）：使用目标检测算法检测出图像出现人员，把人员位置通知给事件位置预测模块（4）与声音增益调节模块（2）；

数据同步模块（6）：接收声音增益调节模块（2）的音频，接收全景摄像头模块（8）的视频图像数据；根据时戳值进行同步；把同步后的数据给数据录制模块（7）；

数据录制模块（7）：保证音视频数据的存储；

全景摄像头模块（8）：用于负责监控视频数据采集，输出视频数据给人员检测模块（5）。

2.一种基于图像分析的声音过滤方法，其特征在于，包括如下步骤：

步骤1：全景摄像头模块（8）采集真实世界的图像数据，输出图像数据给人员检测模块（5）；

步骤2：人员检测模块（5）采用目标检测算法识别出图像数据出现的所有人；

步骤3：事件位置预测模块（4）根据人员检测模块（5）上报图像的人员检查结果，预判出可能的纠纷以及打架事件的区域，通知声音方位计算模块（3）该区域的位置信息；

步骤4：声音方位计算模块（3）接收事件位置预测模块（4）检测到的区域的位置信息，计算出需要监听的方向与范围，发送给阵列麦克风模块（1）；

步骤5：使用麦克风阵列做信号的提取和分离特性，阵列麦克风模块（1）使用声源信号分离技术将声音全部分离提取出来，阵列麦克风模块（1）接收到监听的方向与范围的角度值，对分离后声音进行过滤，最终得到监听目标的声音；

步骤6：声音增益调节模块（2）接收阵列麦克风模块（1）的声音数据、事件位置预测模块（4）检测到的区域的位置信息和人员检测模块（5）检测到的所有人员位置与大小；按照区域的位置信息过滤出符合人员，按照过滤出的人员的平均大小，调节系数A除以过滤出的人员的平均大小，作为增益系数对声音数据进行增益调节，把调节好声音转给数据同步模块（6）；实现人员目标比较远时，进行声音放大效果；

步骤7：数据同步模块（6）接收声音增益调节模块（2）的音频，接收全景摄像头模块（8）的视频图像数据；根据时戳值进行同步，按照音频时戳为基准插入对应时间视频图像数据；把同步后的数据给数据录制模块（7）；

步骤8：数据录制模块（7）保证音视频数据的存储。

3.根据权利要求2中所述的一种基于图像分析的声音过滤方法，其特征在于，步骤3的具体流程如下：

3.1、事件位置预测模块（4）分析视频图像中所有的人员移动方向，对图像中每个人的区域的每个像素的RGB(红绿蓝）的数值，分别进行平均值计算，得到每个人的RGB均值，R占比为 R均值/（R均值+G均值+B均值），G占比为 G均值/（R均值+G均值+B均值），B占比为 B均值/（R均值+G均值+B均值），最终得到RGB(红绿蓝）分别占比值；对原有图像的每个人员与新图像的所有人员进行RGB占比值进行差值计算得到差值，取RGB（红绿蓝）占比的差值的平均值，如果差值平均值小于阀值T，则把该人员加入候选清单，候选清单的人员与原有图像的人员距离最近的判断为同一人；同一人员从原有图像到新图像的变化方向，为该人员的移动方向；

3.2、把所有人员的移动方向在图像做延长线，延长线互相相交生成交叉点，查询图像中交叉点最密集区域为可能的纠纷以及打架事件区域，通知声音方位计算模块（3）该区域的图像位置。

4.根据权利要求2中所述的一种基于图像分析的声音过滤方法，其特征在于，步骤4的具体流程如下：

4.1、声音方位计算模块（3）分析监听的方向，具体包括：根据全景摄像头模块（8）的镜头安装角度得到图像中心点角度值，根据全景摄像头模块（8）的镜头的可视角度值得到图像两边的角度值，对区域的图像位置进行线性计算，完成图像空间位置到真实世界方位转换，最终得到声音方位计算模块（3）监听的中心的方向；

4.2、声音方位计算模块（3）分析监听的范围，具体包括：计算图像的所有人与区域在图像位置的平均距离，以平均距离乘以系数作为声音在图像中范围区域，使用步骤4.1完成图像范围到真实世界角度范围转换；

4.3、声音方位计算模块（3）把计算好监听的方向与范围，发送给阵列麦克风模块（1）。