CN108985222B - 一种用于接打电话识别的深度学习网络模型及系统 - Google Patents

一种用于接打电话识别的深度学习网络模型及系统 Download PDF

Info

Publication number
CN108985222B
CN108985222B CN201810765537.5A CN201810765537A CN108985222B CN 108985222 B CN108985222 B CN 108985222B CN 201810765537 A CN201810765537 A CN 201810765537A CN 108985222 B CN108985222 B CN 108985222B
Authority
CN
China
Prior art keywords
network
image
range
detection unit
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810765537.5A
Other languages
English (en)
Other versions
CN108985222A (zh
Inventor
张德馨
史玉坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Isecure Technology Co ltd
Original Assignee
Tianjin Isecure Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Isecure Technology Co ltd filed Critical Tianjin Isecure Technology Co ltd
Priority to CN201810765537.5A priority Critical patent/CN108985222B/zh
Publication of CN108985222A publication Critical patent/CN108985222A/zh
Application granted granted Critical
Publication of CN108985222B publication Critical patent/CN108985222B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes

Abstract

本发明提出一种用于接打电话识别的深度学习网络模型,网络模型的原型为VGG16网络,优化后的网络的建立方法为将原VGG16网络中前10层卷积层中的卷积核个数减半,并将原VGG16网络中第三层全连接层替换为融合检测网络。所述融合检测网络包括5个检测单元,每个检测单元包括两层卷积层。所述检测单元确定特征提取时所需的预选框尺寸的范围,由K‑means聚类算法统计得到。基于此网络模型提出一种基于深度学习的接打电话识别系统,包括视频输入模块、图像预处理模块、接打电话识别模块、报警模块和数据存储模块。与现有技术相比,本发明提出的深度学习网络中特征提取网络层的学习更充分。所述识别系统在保证准确率的同时,降低内存的占用率。

Description

一种用于接打电话识别的深度学习网络模型及系统
技术领域
本发明属于机器视觉领域,尤其是一种用于接打电话识别的深度学习网络模型及系统。
背景技术
基于视觉的人体动作识别要解决的主要问题是通过计算机对摄像机采集的原始图像或图像序列数据进行处理和分析,学习并理解其中人的动作和行为,通过分析获得人体运动模式,建立视频内容和动作类型之间的映射关系。动作识别的主要难点在于模型的设计,使其不仅能从背景中检测出目标和动作,而且能准确识别动作多样性的变化。目前手动设计的模型,当动作有部分被遮挡或同一动作在不同的环境下发生时,识别的效果较差。
发明内容
某些情况下打电话属于一种危险的动作,比如:在加油站加油或驾驶员处于驾驶状态。基于此设计一种用于接打电话识别的深度学习网络模型,采用的技术方案如下:
一种用于接打电话识别的深度学习网络模型,检测模型的原型为VGG16网络,优化后的网络的建立方法为将原VGG16网络中前10层卷积层中的卷积核个数减半,同时增大权重学习率和偏重学习率,并将原VGG16网络中第三层全连接层替换为融合检测网络。
进一步的,所述融合检测网络包括5个检测单元,每个检测单元包括两层卷积层。
进一步的,所述检测单元确定特征提取时所需的预选框尺寸的范围,由K-means聚类算法统计得到。
进一步的,所述预选框尺寸范围的确定方法为:用K-means聚类算法统计标记好的样本的尺寸,从统计结果中由大到小依次选取x5、x4、x3、x2、x1,其中x5为统计结果中的最大值,第一检测单元预选框尺寸的范围为0.8*x1~x1;第二检测单元预选框尺寸的范围为x1~x2;第三检测单元预选框尺寸的范围为x2~x3;第四检测单元预选框尺寸的范围为x3~x4;第五检测单元预选框尺寸的范围为x4~x5。
进一步的,所述优化后的网络的输入为:经过图像增强的图像集,图像增强包括修改原始图像集的色度、亮度、饱和度和对比度。
与现有技术相比,本发明的有益效果在于:将原VGG16网络中前10层卷积层中的卷积核个数减半,同时增大权重学习率和偏重学习率,使特征提取网络层的学习更充分,在保证动作识别的准确率的同时,降低内存的占用率。融合检测网络层所使用的预选框尺寸的范围是用K-means聚类算法进行统计得到的,这样可以使预选框尺寸的最大尺寸和最小尺寸更为适配检测的场景。
本发明的另一目的在于提出一种基于深度学习的接打电话识别系统,包括视频输入模块、图像预处理模块、接打电话识别模块、报警模块和数据存储模块。
其中图像预处理模块用于判断采集的图像背景亮度与参考背景亮度之差是否小于设定的阈值,当小于设定的阈值时对采集的图像进行光照处理。光照处理的步骤包括:
步骤1.对图像进行幂律变换,扩大图像在光线不足情况下的动态范围和压缩在光线强烈时的动态范围;
步骤2.采用高斯差分滤波器,对低频和高频部分进行处理;
步骤3.重新归一化所有的像素点值。
进一步的,所述参考背景定期自动更换或人为更换。
与现有技术相比,本发明的有益效果在于,在光照条件不好的情况下,提高识别的准确率。
附图说明
图1是本发明优化后的VGG16网络模型;
图2是本发明识别系统工作流程图。
具体实施方式
如图1所示,本发明使用的检测模型的原型为VGG16网络,优化后的网络的建立方法为将原VGG16网络中前10层卷积层中的卷积核个数减半,并将原VGG16网络中第三层全连接层替换为融合检测网络。所述融合检测网络包括5个检测单元,每个检测单元包括两层卷积层。
其中检测单元确定特征提取时所需的预选框尺寸的范围,由K-means聚类算法统计得到。所述预选框尺寸范围的确定方法为:用K-means聚类算法统计标记好的样本的尺寸,从统计结果中由大到小依次选取x5、x4、x3、x2、x1,其中x5为统计结果中的最大值,第一检测单元预选框尺寸的范围为0.8*x1~x1;第二检测单元预选框尺寸的范围为x1~x2;第三检测单元预选框尺寸的范围为x2~x3;第四检测单元预选框尺寸的范围为x3~x4;第五检测单元预选框尺寸的范围为x4~x5。按上述方法确定不同预选框的尺寸,可以使预选框尺寸的最大尺寸和最小尺寸更为适配检测的场景,从而提高识别结果的准确性。
基于优化后的网络提出了一种基于深度学习的接打电话识别系统,包括视频输入模块、图像预处理模块、接打电话识别模块、报警模块和数据存储模块。
如图2所示,本系统工作的流程包括:
步骤1.每20帧进行一次识别;
步骤2.判断采集的图像背景亮度与参考背景亮度之差是否小于设定的阈值,当小于设定的阈值时对采集的图像进行光照处理;
步骤3.识别是否接打电话;
步骤4.当检测到接打电话行为的时候报警,并存储数据。
上述步骤2的具体过程为:在曝光度良好的情况下,针对采集的图像用混合高斯进行背景建模,利用每个像素点8*8邻域内求得亮度之差的平均数作为检测区域的背景亮度差。以此类推,求得整张图像的背景亮度差。为了减少局部背景突变的影响,舍弃8个最大的数,之后对其求方差。方差与阈值相比较,如果大于阈值时,将对图像进行图像光照预处理。
其中所述阈值的确定方法为:将同一张图片进行不同的光照强度转换得到若干图片,然后对这些图片进行模型测试。根据测试结果,将测试结果不正确的图片进行光照强度与原始图片对比,计算方差。取这些方差或者这些方差的平均数作为阈值,手动更改设置不同的阈值,进行多次测试,选出测试结果最好的作为系统最终使用的阈值。
图像光照预处理的方法为:先对图像进行幂律变换,主要是扩大图像在光线不足情况下的动态范围和压缩在光线强烈时的动态范围。之后采用高斯差分滤波器,对低频和高频部分进行处理。最后,重新归一化所有的像素点值。
该系统工作时使用的参考图像背景是定期更换的,更换参考图像背景采取两种策略,一种是监控人员看到监控场景发生变化(比如监控场景中放置了一张桌子,且这张桌子会放一段时间),这时手动点击图像背景更新,将会把桌子学习到背景中去,提高检测的效率和准确率。第二种是定期进行图像背景更新,优选的更新的周期为一星期。
以上所述仅为本发明创造的较佳实施例而已,并不用以限制本发明创造,凡在本发明创造的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明创造的保护范围之内。

Claims (4)

1.一种用于接打电话识别的深度学习网络模型,网络模型的原型为VGG16网络,其特征在于,
优化后的网络的建立方法为将原VGG16网络中前10层卷积层中的卷积核个数减半,并将原VGG16网络中第三层全连接层替换为融合检测网络;
所述融合检测网络包括5个检测单元,每个检测单元包括两层卷积层;
所述检测单元确定特征提取时所需的预选框尺寸的范围,由K-means聚类算法统计得到;
所述预选框尺寸范围的确定方法为:用K-means聚类算法统计标记好的样本的尺寸,从统计结果中由大到小依次选取x5、x4、x3、x2、x1,其中x5为统计结果中的最大值,第一检测单元预选框尺寸的范围为0.8*x1~x1;第二检测单元预选框尺寸的范围为x1~x2;第三检测单元预选框尺寸的范围为x2~x3;第四检测单元预选框尺寸的范围为x3~x4;第五检测单元预选框尺寸的范围为x4~x5;
所述优化后的网络的输入为:经过图像增强的图像集,图像增强包括修改原始图像集的色度、亮度、饱和度和对比度。
2.基于权利要求1所述的一种用于接打电话识别的深度学习网络模型的基于深度学习的接打电话识别系统,其特征在于,
包括视频输入模块、图像预处理模块、接打电话识别模块、报警模块和数据存储模块,其中图像预处理模块用于判断采集的图像背景亮度与参考背景亮度之差是否小于设定的阈值,当小于设定的阈值时对采集的图像进行光照处理。
3.如权利要求2所述一种基于深度学习的接打电话识别系统,其特征在于,
光照处理的步骤包括:
步骤1.对图像进行幂律变换,扩大图像在光线不足情况下的动态范围和压缩图像在光线强烈时的动态范围;
步骤2.采用高斯差分滤波器,对低频和高频部分进行处理;
步骤3.重新归一化所有的像素点值。
4.如权利要求2所述一种基于深度学习的接打电话识别系统,其特征在于,
所述参考背景定期自动更换或人为更换。
CN201810765537.5A 2018-07-12 2018-07-12 一种用于接打电话识别的深度学习网络模型及系统 Active CN108985222B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810765537.5A CN108985222B (zh) 2018-07-12 2018-07-12 一种用于接打电话识别的深度学习网络模型及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810765537.5A CN108985222B (zh) 2018-07-12 2018-07-12 一种用于接打电话识别的深度学习网络模型及系统

Publications (2)

Publication Number Publication Date
CN108985222A CN108985222A (zh) 2018-12-11
CN108985222B true CN108985222B (zh) 2024-02-20

Family

ID=64537988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810765537.5A Active CN108985222B (zh) 2018-07-12 2018-07-12 一种用于接打电话识别的深度学习网络模型及系统

Country Status (1)

Country Link
CN (1) CN108985222B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033478A (zh) * 2021-04-19 2021-06-25 曲阜师范大学 一种基于深度学习的行人检测方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103268479A (zh) * 2013-05-29 2013-08-28 电子科技大学 全天候疲劳驾驶检测方法
CN103942961A (zh) * 2014-04-30 2014-07-23 中国计量学院 一种面向危险驾驶行为的智能监控识别系统
CN105046202A (zh) * 2015-06-23 2015-11-11 南京理工大学 自适应的人脸识别光照处理方法
CN106599827A (zh) * 2016-12-09 2017-04-26 浙江工商大学 一种基于深度卷积神经网络的小目标快速检测方法
CN107025440A (zh) * 2017-03-27 2017-08-08 北京航空航天大学 一种基于新型卷积神经网络的遥感图像道路提取方法
CN107169454A (zh) * 2017-05-16 2017-09-15 中国科学院深圳先进技术研究院 一种人脸图像年龄估算方法、装置及其终端设备
WO2018028255A1 (zh) * 2016-08-11 2018-02-15 深圳市未来媒体技术研究院 基于对抗网络的图像显著性检测方法
CN107818302A (zh) * 2017-10-20 2018-03-20 中国科学院光电技术研究所 基于卷积神经网络的非刚性多尺度物体检测方法
JP2018055259A (ja) * 2016-09-27 2018-04-05 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
CN107909095A (zh) * 2017-11-07 2018-04-13 江苏大学 一种基于深度学习的图像识别方法
CN107945791A (zh) * 2017-12-05 2018-04-20 华南理工大学 一种基于深度学习目标检测的语音识别方法
CN108171209A (zh) * 2018-01-18 2018-06-15 中科视拓(北京)科技有限公司 一种基于卷积神经网络进行度量学习的人脸年龄估计方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103268479A (zh) * 2013-05-29 2013-08-28 电子科技大学 全天候疲劳驾驶检测方法
CN103942961A (zh) * 2014-04-30 2014-07-23 中国计量学院 一种面向危险驾驶行为的智能监控识别系统
CN105046202A (zh) * 2015-06-23 2015-11-11 南京理工大学 自适应的人脸识别光照处理方法
WO2018028255A1 (zh) * 2016-08-11 2018-02-15 深圳市未来媒体技术研究院 基于对抗网络的图像显著性检测方法
JP2018055259A (ja) * 2016-09-27 2018-04-05 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
CN106599827A (zh) * 2016-12-09 2017-04-26 浙江工商大学 一种基于深度卷积神经网络的小目标快速检测方法
CN107025440A (zh) * 2017-03-27 2017-08-08 北京航空航天大学 一种基于新型卷积神经网络的遥感图像道路提取方法
CN107169454A (zh) * 2017-05-16 2017-09-15 中国科学院深圳先进技术研究院 一种人脸图像年龄估算方法、装置及其终端设备
CN107818302A (zh) * 2017-10-20 2018-03-20 中国科学院光电技术研究所 基于卷积神经网络的非刚性多尺度物体检测方法
CN107909095A (zh) * 2017-11-07 2018-04-13 江苏大学 一种基于深度学习的图像识别方法
CN107945791A (zh) * 2017-12-05 2018-04-20 华南理工大学 一种基于深度学习目标检测的语音识别方法
CN108171209A (zh) * 2018-01-18 2018-06-15 中科视拓(北京)科技有限公司 一种基于卷积神经网络进行度量学习的人脸年龄估计方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A fully connected layer elimination for a binarizec convolutional neural network on an FPGA;Hiroki Nakahara et al;《2017 27th International Conference on Field Programmable Logic and Applications》;第1-4页 *
基于YOLO v2的无人机航拍图像定位研究;魏湧明 等;《激光与光电子学进展》;第54卷(第11期);第101-110页 *
近红外静脉图像识别及处理算法研究;杨易;《中国优秀硕士学位论文全文数据库 医药卫生科技辑》;第2018年卷(第1期);第E080-1页 *

Also Published As

Publication number Publication date
CN108985222A (zh) 2018-12-11

Similar Documents

Publication Publication Date Title
CN106875373B (zh) 基于卷积神经网络剪枝算法的手机屏幕mura缺陷检测方法
CN104240235B (zh) 一种检测摄像头被遮挡的方法及系统
EP3667286A1 (en) Tire image recognition method and tire image recognition device
CN101421748B (zh) 自动检测并校正非红眼闪光缺陷
CN112364740B (zh) 一种基于计算机视觉的无人机房监控方法及系统
CN104331521A (zh) 基于图像处理的变电设备异常自动识别方法
CN109740721B (zh) 麦穗计数方法及装置
CN107103330A (zh) 一种指示灯状态识别方法和装置
CN111062938B (zh) 基于机器学习的板材涨塞检测系统和检测方法
CN112395928A (zh) 一种设备状态运行自动检测的方法
CN106355584A (zh) 基于局部熵确定阈值的眼底图像微动脉瘤自动检测方法
CN105260716A (zh) 故障指示器状态识别方法及装置
CN107067595A (zh) 一种指示灯的状态辨识方法、装置及电子设备
CN108107611B (zh) 一种自适应缺陷检测方法、装置及电子设备
CN108985222B (zh) 一种用于接打电话识别的深度学习网络模型及系统
CN111899210A (zh) 一种基于图像识别的电弧检测方法
CN101984451B (zh) 基于视频的遮挡火焰检测方法及装置
CN107729811B (zh) 一种基于场景建模的夜间火焰检测方法
CN116823795A (zh) 橡胶制品的缺陷检测方法、装置、电子设备及存储介质
CN117197064A (zh) 一种无接触眼红程度自动分析方法
Hadiprakoso Face anti-spoofing method with blinking eye and hsv texture analysis
CN113066077B (zh) 火焰检测方法及装置
CN112750113B (zh) 基于深度学习和直线检测的玻璃瓶缺陷检测方法及装置
CN112241707A (zh) 一种风电场智能视频识别装置
CN112561957A (zh) 一种目标对象的状态跟踪方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant