CN111144209A - 一种基于异构多分支深度卷积神经网络的监控视频人头检测方法 - Google Patents
一种基于异构多分支深度卷积神经网络的监控视频人头检测方法 Download PDFInfo
- Publication number
- CN111144209A CN111144209A CN201911168427.1A CN201911168427A CN111144209A CN 111144209 A CN111144209 A CN 111144209A CN 201911168427 A CN201911168427 A CN 201911168427A CN 111144209 A CN111144209 A CN 111144209A
- Authority
- CN
- China
- Prior art keywords
- network
- layer
- branch
- detection
- yolov3
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 46
- 238000012544 monitoring process Methods 0.000 title claims abstract description 16
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 13
- 238000000034 method Methods 0.000 claims abstract description 13
- 238000010586 diagram Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 3
- 239000002131 composite material Substances 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 8
- 238000013135 deep learning Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Closed-Circuit Television Systems (AREA)
Abstract
本发明提供一种基于异构多分支深度卷积神经网络的监控视频人头检测方法,可应用于视频监控领域中的各种小目标检测。为了提高目标检测算法的检测精度,对YOLOv3结构进行改造,将其主干网络修改为双主干网络结构,其中一个分支以DenseNet121网络为主干网络,去掉其最后的FC层,然后将其基础结构由CBL修改为BRC结构;另外一个分支采用Darknet53为主干网络,去掉其最后FC层,该分支的BRC结构不作修改。本发明设计的双主干结构网络模型取名为Dense_YOLO网络,通过两个不同结构的主干网络提取的特征进行特征融合,提高了检测效果,减少了误检和漏检,适用于小目标检测,效果优于以Darknet53作为主干网络的YOLOv3模型。
Description
技术领域
本发明涉及计算机视觉中智能视频监控技术领域,具体涉及一种基于异构多分支深度卷积神经网络的监控视频人头检测方法。
背景技术
在大型的视频监控场所,如机场、火车站、停车场、银行等,摄像机数量很多,捕获的视频非常庞大,却给人们搜索有用信息带来了巨大的挑战。
目前,智能视频监控技术已被应用于对视频进行自动处理和分析以节省昂贵的人力资源和时间成本。监控摄像头中的人头检测是智能视频监控系统的一个关键技术,是后续很多视频识别和分析任务的基础,比如人头部属性识别、人流量检测和行人跟踪等。
在监控摄像头中,人头部尺寸往往较小,尤其是距离较远的行人,在遮挡和各种复杂的背景下,其检测难度较大,这种检测属于视频监控中的小目标检测范畴。目前已有的方法检测精度不高,误检和漏检较多。基于此,本发明提出了一种新的深度学习网络结构Dense_YOLO的小目标检测方法,用于精确地实现监控视频中的行人头部检测。与已有的方法相比,本发明所提出的方法通过融合不同结构主干网络之间的特征,获得更加抽象和丰富的特征表达,提高了检测效果,尤其对小尺度目标的检测效果,减少了误检和漏检。
发明内容
本发明的目的是提供一种适用于摄像机网络中行人头部检测及视频监控中其他小目标检测、提高检测精度的基于异构多分支深度卷积神经网络的监控视频人头检测方法。
为了达到上述目的,本发明通过以下技术方案来实现:
一种基于异构多分支深度卷积神经网络的监控视频人头检测方法,包括如下步骤:
S1)数据增强
使用Mixup方法对人头检测数据进行数据增强操作,使用线性插值的方法构建新的训练样本和标签来代替原样本和标签;
S2)人头部位检测
S2-1)构建卷积神经网络Dense_YOLO
修改YOLOv3主干网络结构为双分支结构,其中一个分支以DenseNet121网络作为主干网络,去掉其最后一层FC层,另一个分支以Darknet53作为主干网络,去掉其最后一层FC层;将DenseNet121的基础结构由CBL结构修改为BRC结构,而Darknet53分支的BRC结构不作修改;
S2-2)特征图层次选择与融合
利用S2-1)中的双主干网络对增强后的训练数据进行训练;
将两个主干网络获得的特征图进行融合,得到三层特征图,对应的输入通道数分别为256、512和1024;
对最后一层特征图进行如下操作:首先,将它放进make embedding层中,通过后面的5层CBL结构后通道数减少一半;然后,分成两条路径,一条路径通过3×3卷积升维到原先的维度,再通过一个1×1卷积得到最终的255维输出,另一条路径通过1×1卷积通道数降维至一半,再通过上采样层得到特征图和主干网络输入的下一层次特征图进行拼接;
以此类推,得到第二层、第三层的输出;这三个层次的输出共同构成最终的输出结果;
S2-3)行人头部目标框预测
从S2-2)得到的三个特征图分别通过µ×(4+1+c)个1×1卷积进行卷积预测,其中µ为预设边界框的数量,c为待预测的目标类别数;
预设边界框的尺寸可根据训练数据集通过聚类得到,根据网络预测得到的目标边框内包含目标的概率和目标框中心点偏移量以及宽和高,最终得到目标真实的边界框,实现对目标的准确定位。
本发明与现有技术相比,具有以下优点:
本发明一种基于异构多分支深度卷积神经网络的监控视频人头检测方法,不仅适用于摄像机网络中行人头部检测,也适用于视频监控中其他小目标检测。为了提高目标检测算法的检测精度,本发明对YOLOv3结构进行改造,将其主干网络修改为双主干网络结构,其中一个分支以DenseNet121网络为主干网络,去掉其最后的FC层,然后将其基础结构由CBL修改为BRC结构;另外一个分支采用Darknet53为主干网络,去掉其最后FC层,该分支的BRC结构不作修改。本发明设计的双主干结构网络模型取名为Dense_YOLO网络,通过两个不同结构的主干网络提取的特征进行特征融合,提高了检测效果,减少了误检和漏检,适用于小目标检测,效果优于以Darknet53作为主干网络的YOLOv3模型。
附图说明
图1是本发明一种基于异构多分支深度卷积神经网络的监控视频人头检测方法的Dense_YOLO网络结构示意图。
具体实施方式
下面结合附图,对本发明的实施例作进一步详细的描述。
一种基于异构多分支深度卷积神经网络的监控视频人头检测方法,包括如下步骤:
S1)数据增强
S2)人头部位检测
S2-1)构建卷积神经网络Dense_YOLO
修改YOLOv3主干网络结构为双分支结构,其中一个分支以DenseNet121网络作为主干网络,去掉其最后一层FC层,另一个分支以Darknet53作为主干网络,去掉其最后一层FC层;
为了减少训练难度,提高精度,将DenseNet121的基础结构由CBL(Conv2d-BN-LeakyReLU)结构修改为BRC(BN-ReLU-Conv)结构,而Darknet53分支的BRC结构不作修改;
本发明设计的双主干结构网络模型取名为Dense_YOLO网络,其效果优于原YOLOv3以Darknet53作为主干网络的模型;YOLOv3是目标检测网络You Only Look Once v3:Unified, Real-Time Object Detection;DenseNet121是密集连接卷积网络,即DenselyConnected Convolutional Networks,网络中使用了121个convolutional layers;Darknet53是一个较为轻型的完全基于C与CUDA的开源深度学习框架,即Darknet: Opensource neural networks in C,使用了53个convolutional layers;
S2-2)特征图层次选择与融合
利用S2-1)中的双主干网络对增强后的训练数据进行训练;
对最后一层特征图进行如下操作:首先,将它放进make embedding层中,通过后
面的5层CBL结构后通道数N1减少一半;然后,分成两条路径,一条路径通过3×3卷积升维到
原先的维度,再通过一个1×1卷积得到最终的255维输出y1,另一条路径通过1×1卷积通道
数降维至一半,其特征图通道数刚好是主干网络输入的下一层特征图通道数N2的一
半,再通过上采样层得到特征图和主干网络输入的下一层次特征图进行拼接;
S2-3)行人头部目标框预测
从S2-2)得到的三个特征图分别通过卷积进行卷积
预测,得到了大小为的输出,其中µ为预设边界框的数量,这里取µ=3,预设边界
框的尺寸可根据训练数据集通过聚类得到,其在特征图上的中心坐标表示为,
宽和高表示为;c为待预测的目标的类别数,个参数用于预测目标框中心点
偏移量为,宽和高为,个参数用于预测目标边框j内包含目标的
概率;
根据网络预测得到的目标边框内包含目标的概率和目标框中心点偏移量以及宽和高,最终得到目标真实的边界框,实现对目标的准确定位。
以上所述仅是本发明优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明构思的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明保护范围内。
Claims (1)
1.一种基于异构多分支深度卷积神经网络的监控视频人头检测方法,其特征在于包括如下步骤:
S1)数据增强
使用Mixup方法对人头检测数据进行数据增强操作,使用线性插值的方法构建新的训练样本和标签来代替原样本和标签;
S2)人头部位检测
S2-1)构建卷积神经网络Dense_YOLO
修改YOLOv3主干网络结构为双分支结构,其中一个分支以DenseNet121网络作为主干网络,去掉其最后一层FC层,另一个分支以Darknet53作为主干网络,去掉其最后一层FC层;将DenseNet121的基础结构由CBL结构修改为BRC结构,而Darknet53分支的BRC结构不作修改;
S2-2)特征图层次选择与融合
利用S2-1)中的双主干网络对增强后的训练数据进行训练;
将两个主干网络获得的特征图进行融合,得到三层特征图,对应的输入通道数分别为256、512和1024;
对最后一层特征图进行如下操作:首先,将它放进make embedding层中,通过后面的5层CBL结构后通道数减少一半;然后,分成两条路径,一条路径通过3×3卷积升维到原先的维度,再通过一个1×1卷积得到最终的255维输出,另一条路径通过1×1卷积通道数降维至一半,再通过上采样层得到特征图和主干网络输入的下一层次特征图进行拼接;
以此类推,得到第二层、第三层的输出;这三个层次的输出共同构成最终的输出结果;
S2-3)行人头部目标框预测
从S2-2)得到的三个特征图分别通过µ×(4+1+c)个1×1卷积进行卷积预测,其中µ为预设边界框的数量,c为待预测的目标类别数;
预设边界框的尺寸可根据训练数据集通过聚类得到,根据网络预测得到的目标边框内包含目标的概率和目标框中心点偏移量以及宽和高,最终得到目标真实的边界框,实现对目标的准确定位。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911168427.1A CN111144209B (zh) | 2019-11-25 | 2019-11-25 | 一种基于异构多分支深度卷积神经网络的监控视频人头检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911168427.1A CN111144209B (zh) | 2019-11-25 | 2019-11-25 | 一种基于异构多分支深度卷积神经网络的监控视频人头检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111144209A true CN111144209A (zh) | 2020-05-12 |
CN111144209B CN111144209B (zh) | 2024-07-02 |
Family
ID=70516661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911168427.1A Active CN111144209B (zh) | 2019-11-25 | 2019-11-25 | 一种基于异构多分支深度卷积神经网络的监控视频人头检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111144209B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949498A (zh) * | 2021-03-04 | 2021-06-11 | 北京联合大学 | 一种基于异构卷积神经网络的目标关键点检测方法 |
CN114067282A (zh) * | 2021-11-04 | 2022-02-18 | 北京智芯原动科技有限公司 | 一种端到端的车辆位姿检测方法及装置 |
CN115661614A (zh) * | 2022-12-09 | 2023-01-31 | 江苏稻源科技集团有限公司 | 一种基于轻量化YOLO v1的目标检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844743A (zh) * | 2017-09-28 | 2018-03-27 | 浙江工商大学 | 一种基于多尺度分层残差网络的图像多字幕自动生成方法 |
CN109815886A (zh) * | 2019-01-21 | 2019-05-28 | 南京邮电大学 | 一种基于改进YOLOv3的行人和车辆检测方法及系统 |
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
US20190303731A1 (en) * | 2018-03-28 | 2019-10-03 | Boe Technology Group Co., Ltd. | Target detection method and device, computing device and readable storage medium |
-
2019
- 2019-11-25 CN CN201911168427.1A patent/CN111144209B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844743A (zh) * | 2017-09-28 | 2018-03-27 | 浙江工商大学 | 一种基于多尺度分层残差网络的图像多字幕自动生成方法 |
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
US20190303731A1 (en) * | 2018-03-28 | 2019-10-03 | Boe Technology Group Co., Ltd. | Target detection method and device, computing device and readable storage medium |
CN109815886A (zh) * | 2019-01-21 | 2019-05-28 | 南京邮电大学 | 一种基于改进YOLOv3的行人和车辆检测方法及系统 |
Non-Patent Citations (2)
Title |
---|
刘君;谢颖华;: "智能视频监控系统中改进YOLO算法的实现", 信息技术与网络安全, no. 04, 10 April 2019 (2019-04-10) * |
潘峥昊: "基于正反卷积和多任务深度学习的行人检测和属性识别研究及实现", 中国优秀硕士学位论文全文数据库 工程科技, 15 April 2022 (2022-04-15) * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949498A (zh) * | 2021-03-04 | 2021-06-11 | 北京联合大学 | 一种基于异构卷积神经网络的目标关键点检测方法 |
CN112949498B (zh) * | 2021-03-04 | 2023-11-14 | 北京联合大学 | 一种基于异构卷积神经网络的目标关键点检测方法 |
CN114067282A (zh) * | 2021-11-04 | 2022-02-18 | 北京智芯原动科技有限公司 | 一种端到端的车辆位姿检测方法及装置 |
CN114067282B (zh) * | 2021-11-04 | 2024-05-07 | 北京智芯原动科技有限公司 | 一种端到端的车辆位姿检测方法及装置 |
CN115661614A (zh) * | 2022-12-09 | 2023-01-31 | 江苏稻源科技集团有限公司 | 一种基于轻量化YOLO v1的目标检测方法 |
CN115661614B (zh) * | 2022-12-09 | 2024-05-24 | 江苏稻源科技集团有限公司 | 一种基于轻量化YOLO v1的目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111144209B (zh) | 2024-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102129893B1 (ko) | 딥러닝 네트워크 및 평균 이동을 기반으로 하는 선박 자동추적 방법 및 시스템 | |
CN110837778A (zh) | 一种基于骨架关节点序列的交警指挥手势识别方法 | |
Li et al. | A deep learning approach for real-time rebar counting on the construction site based on YOLOv3 detector | |
CN111144209B (zh) | 一种基于异构多分支深度卷积神经网络的监控视频人头检测方法 | |
CN111199556B (zh) | 基于摄像头的室内行人检测和跟踪方法 | |
CN109145836B (zh) | 基于深度学习网络和卡尔曼滤波的船只目标视频检测方法 | |
CN109753949B (zh) | 一种基于深度学习的多视窗交通标志检测方法 | |
CN110532961B (zh) | 一种基于多尺度注意机制网络模型的语义交通信号灯检测方法 | |
CN112651262A (zh) | 一种基于自适应行人对齐的跨模态行人重识别方法 | |
CN116385761A (zh) | 一种融合rgb与红外信息的3d目标检测方法 | |
WO2020114116A1 (zh) | 一种基于密集人群的行人检测方法、存储介质及处理器 | |
CN107609509A (zh) | 一种基于运动显著性区域检测的动作识别方法 | |
CN108875754A (zh) | 一种基于多深度特征融合网络的车辆再识别方法 | |
CN109086803A (zh) | 一种基于深度学习与个性化因子的雾霾能见度检测系统及方法 | |
Xu et al. | BANet: A balanced atrous net improved from SSD for autonomous driving in smart transportation | |
Tomar et al. | Crowd analysis in video surveillance: A review | |
Liang et al. | Methods of moving target detection and behavior recognition in intelligent vision monitoring. | |
CN112700476A (zh) | 一种基于卷积神经网络的红外船视频跟踪方法 | |
CN114708566A (zh) | 一种基于改进YOLOv4的自动驾驶目标检测方法 | |
Yin | Object Detection Based on Deep Learning: A Brief Review | |
CN117474883A (zh) | 基于残差偏移网络自适应优化的绝缘子状态检测方法 | |
CN115979250A (zh) | 基于uwb模块、语义地图与视觉信息的定位方法 | |
CN110688512A (zh) | 基于ptgan区域差距与深度神经网络的行人图像搜索算法 | |
CN116824641B (zh) | 姿态分类方法、装置、设备和计算机存储介质 | |
CN113936034A (zh) | 一种结合帧间光流的表观运动联合弱小运动目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |