CN108985222B

CN108985222B - 一种用于接打电话识别的深度学习网络模型及系统

Info

Publication number: CN108985222B
Application number: CN201810765537.5A
Authority: CN
Inventors: 张德馨; 史玉坤
Original assignee: Tianjin Isecure Technology Co ltd
Current assignee: Tianjin Isecure Technology Co ltd
Priority date: 2018-07-12
Filing date: 2018-07-12
Publication date: 2024-02-20
Anticipated expiration: 2038-07-12
Also published as: CN108985222A

Abstract

本发明提出一种用于接打电话识别的深度学习网络模型，网络模型的原型为VGG16网络，优化后的网络的建立方法为将原VGG16网络中前10层卷积层中的卷积核个数减半，并将原VGG16网络中第三层全连接层替换为融合检测网络。所述融合检测网络包括5个检测单元，每个检测单元包括两层卷积层。所述检测单元确定特征提取时所需的预选框尺寸的范围，由K‑means聚类算法统计得到。基于此网络模型提出一种基于深度学习的接打电话识别系统，包括视频输入模块、图像预处理模块、接打电话识别模块、报警模块和数据存储模块。与现有技术相比，本发明提出的深度学习网络中特征提取网络层的学习更充分。所述识别系统在保证准确率的同时，降低内存的占用率。

Description

一种用于接打电话识别的深度学习网络模型及系统

技术领域

本发明属于机器视觉领域，尤其是一种用于接打电话识别的深度学习网络模型及系统。

背景技术

基于视觉的人体动作识别要解决的主要问题是通过计算机对摄像机采集的原始图像或图像序列数据进行处理和分析，学习并理解其中人的动作和行为，通过分析获得人体运动模式，建立视频内容和动作类型之间的映射关系。动作识别的主要难点在于模型的设计，使其不仅能从背景中检测出目标和动作，而且能准确识别动作多样性的变化。目前手动设计的模型，当动作有部分被遮挡或同一动作在不同的环境下发生时，识别的效果较差。

发明内容

某些情况下打电话属于一种危险的动作，比如：在加油站加油或驾驶员处于驾驶状态。基于此设计一种用于接打电话识别的深度学习网络模型，采用的技术方案如下：

一种用于接打电话识别的深度学习网络模型，检测模型的原型为VGG16网络，优化后的网络的建立方法为将原VGG16网络中前10层卷积层中的卷积核个数减半，同时增大权重学习率和偏重学习率，并将原VGG16网络中第三层全连接层替换为融合检测网络。

进一步的，所述融合检测网络包括5个检测单元，每个检测单元包括两层卷积层。

进一步的，所述检测单元确定特征提取时所需的预选框尺寸的范围，由K-means聚类算法统计得到。

进一步的，所述预选框尺寸范围的确定方法为：用K-means聚类算法统计标记好的样本的尺寸，从统计结果中由大到小依次选取x5、x4、x3、x2、x1，其中x5为统计结果中的最大值，第一检测单元预选框尺寸的范围为0.8*x1～x1；第二检测单元预选框尺寸的范围为x1～x2；第三检测单元预选框尺寸的范围为x2～x3；第四检测单元预选框尺寸的范围为x3～x4；第五检测单元预选框尺寸的范围为x4～x5。

进一步的，所述优化后的网络的输入为：经过图像增强的图像集，图像增强包括修改原始图像集的色度、亮度、饱和度和对比度。

与现有技术相比，本发明的有益效果在于：将原VGG16网络中前10层卷积层中的卷积核个数减半，同时增大权重学习率和偏重学习率，使特征提取网络层的学习更充分，在保证动作识别的准确率的同时，降低内存的占用率。融合检测网络层所使用的预选框尺寸的范围是用K-means聚类算法进行统计得到的，这样可以使预选框尺寸的最大尺寸和最小尺寸更为适配检测的场景。

本发明的另一目的在于提出一种基于深度学习的接打电话识别系统，包括视频输入模块、图像预处理模块、接打电话识别模块、报警模块和数据存储模块。

其中图像预处理模块用于判断采集的图像背景亮度与参考背景亮度之差是否小于设定的阈值，当小于设定的阈值时对采集的图像进行光照处理。光照处理的步骤包括：

步骤1.对图像进行幂律变换，扩大图像在光线不足情况下的动态范围和压缩在光线强烈时的动态范围；

步骤2.采用高斯差分滤波器，对低频和高频部分进行处理；

步骤3.重新归一化所有的像素点值。

进一步的，所述参考背景定期自动更换或人为更换。

与现有技术相比，本发明的有益效果在于，在光照条件不好的情况下，提高识别的准确率。

附图说明

图1是本发明优化后的VGG16网络模型；

图2是本发明识别系统工作流程图。

具体实施方式

如图1所示，本发明使用的检测模型的原型为VGG16网络，优化后的网络的建立方法为将原VGG16网络中前10层卷积层中的卷积核个数减半，并将原VGG16网络中第三层全连接层替换为融合检测网络。所述融合检测网络包括5个检测单元，每个检测单元包括两层卷积层。

其中检测单元确定特征提取时所需的预选框尺寸的范围，由K-means聚类算法统计得到。所述预选框尺寸范围的确定方法为：用K-means聚类算法统计标记好的样本的尺寸，从统计结果中由大到小依次选取x5、x4、x3、x2、x1，其中x5为统计结果中的最大值，第一检测单元预选框尺寸的范围为0.8*x1～x1；第二检测单元预选框尺寸的范围为x1～x2；第三检测单元预选框尺寸的范围为x2～x3；第四检测单元预选框尺寸的范围为x3～x4；第五检测单元预选框尺寸的范围为x4～x5。按上述方法确定不同预选框的尺寸，可以使预选框尺寸的最大尺寸和最小尺寸更为适配检测的场景，从而提高识别结果的准确性。

基于优化后的网络提出了一种基于深度学习的接打电话识别系统，包括视频输入模块、图像预处理模块、接打电话识别模块、报警模块和数据存储模块。

如图2所示，本系统工作的流程包括：

步骤1.每20帧进行一次识别；

步骤2.判断采集的图像背景亮度与参考背景亮度之差是否小于设定的阈值，当小于设定的阈值时对采集的图像进行光照处理；

步骤3.识别是否接打电话；

步骤4.当检测到接打电话行为的时候报警，并存储数据。

上述步骤2的具体过程为：在曝光度良好的情况下，针对采集的图像用混合高斯进行背景建模，利用每个像素点8*8邻域内求得亮度之差的平均数作为检测区域的背景亮度差。以此类推，求得整张图像的背景亮度差。为了减少局部背景突变的影响，舍弃8个最大的数，之后对其求方差。方差与阈值相比较，如果大于阈值时，将对图像进行图像光照预处理。

其中所述阈值的确定方法为：将同一张图片进行不同的光照强度转换得到若干图片，然后对这些图片进行模型测试。根据测试结果，将测试结果不正确的图片进行光照强度与原始图片对比，计算方差。取这些方差或者这些方差的平均数作为阈值，手动更改设置不同的阈值，进行多次测试，选出测试结果最好的作为系统最终使用的阈值。

图像光照预处理的方法为：先对图像进行幂律变换，主要是扩大图像在光线不足情况下的动态范围和压缩在光线强烈时的动态范围。之后采用高斯差分滤波器，对低频和高频部分进行处理。最后，重新归一化所有的像素点值。

该系统工作时使用的参考图像背景是定期更换的，更换参考图像背景采取两种策略，一种是监控人员看到监控场景发生变化(比如监控场景中放置了一张桌子，且这张桌子会放一段时间)，这时手动点击图像背景更新，将会把桌子学习到背景中去，提高检测的效率和准确率。第二种是定期进行图像背景更新，优选的更新的周期为一星期。

以上所述仅为本发明创造的较佳实施例而已，并不用以限制本发明创造，凡在本发明创造的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明创造的保护范围之内。

Claims

1.一种用于接打电话识别的深度学习网络模型，网络模型的原型为VGG16网络，其特征在于，

优化后的网络的建立方法为将原VGG16网络中前10层卷积层中的卷积核个数减半，并将原VGG16网络中第三层全连接层替换为融合检测网络；

所述融合检测网络包括5个检测单元，每个检测单元包括两层卷积层；

所述检测单元确定特征提取时所需的预选框尺寸的范围，由K-means聚类算法统计得到；

所述预选框尺寸范围的确定方法为：用K-means聚类算法统计标记好的样本的尺寸，从统计结果中由大到小依次选取x5、x4、x3、x2、x1，其中x5为统计结果中的最大值，第一检测单元预选框尺寸的范围为0.8*x1～x1；第二检测单元预选框尺寸的范围为x1～x2；第三检测单元预选框尺寸的范围为x2～x3；第四检测单元预选框尺寸的范围为x3～x4；第五检测单元预选框尺寸的范围为x4～x5；

所述优化后的网络的输入为：经过图像增强的图像集，图像增强包括修改原始图像集的色度、亮度、饱和度和对比度。

2.基于权利要求1所述的一种用于接打电话识别的深度学习网络模型的基于深度学习的接打电话识别系统，其特征在于，

包括视频输入模块、图像预处理模块、接打电话识别模块、报警模块和数据存储模块，其中图像预处理模块用于判断采集的图像背景亮度与参考背景亮度之差是否小于设定的阈值，当小于设定的阈值时对采集的图像进行光照处理。

3.如权利要求2所述一种基于深度学习的接打电话识别系统，其特征在于，

光照处理的步骤包括：

步骤1.对图像进行幂律变换，扩大图像在光线不足情况下的动态范围和压缩图像在光线强烈时的动态范围；

步骤2.采用高斯差分滤波器，对低频和高频部分进行处理；

步骤3.重新归一化所有的像素点值。

4.如权利要求2所述一种基于深度学习的接打电话识别系统，其特征在于，

所述参考背景定期自动更换或人为更换。