CN108509859B - 一种基于深度神经网络的无重叠区域行人跟踪方法 - Google Patents
一种基于深度神经网络的无重叠区域行人跟踪方法 Download PDFInfo
- Publication number
- CN108509859B CN108509859B CN201810192601.5A CN201810192601A CN108509859B CN 108509859 B CN108509859 B CN 108509859B CN 201810192601 A CN201810192601 A CN 201810192601A CN 108509859 B CN108509859 B CN 108509859B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- picture
- target
- multiplied
- residual error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度神经网络的无重叠区域行人跟踪方法,该方法包括以下步骤:(1)采用YOLO算法对监控视频图像中当前行人目标进行检测,分割行人目标图片;(2)使用卡尔曼算法对所述检测结果跟踪预测;(3)利用卷积神经网络提取图片的深度特征,所述图片包括候选行人图片和所述步骤(2)中的目标行人图片,并存储所述候选行人的图片及其特征;(4)计算目标行人特征与候选行人特征的相似度并排序,识别出所述目标行人。本发明可获得较高的检测与跟踪精度,从而有助于提升行人识别率。
Description
技术领域
本发明涉及一种行人跟踪方法,具体涉及一种基于深度神经网络的无重叠区域行人跟踪方法。
背景技术
近年来视频监控系统的需求日益增加,对于大部分的视频监控系统来说,监控视频中出现的人都是其重点关注的对象,因此智能监控系统需要拥有对行人目标进行检测、识别、跟踪的能力,以便进一步对其的行为进行分析。由于摄像机监控区域的局限性,无重叠视域的摄像机联合监控在监控系统中的应用越来越广泛,而要实现这些功能需要拥有优秀的行人检测与行人再识别技术。
公开号为CN 105574515 A的专利公开了“一种无重叠视域下的行人再识别方法”,该方法采用基于HOG+SVM的行人检测算法进行行人检测,然后采用TLD算法对目标行人进行跟踪。行人再识别部分为行人目标的上半身和下半身的分别构建HSV三通道稀疏字典,并计算与另一监控视域下稀疏重构后的行人目标之间的重构误差,并融合判决从而得到匹配相似度。由于HOG+SVM检测算法,TLD跟踪算法以及构建多通道稀疏字典的局限性,使得在困难条件下该方法难以实时、准确地跟踪无重叠区域下的行人目标。
发明内容
发明目的:为了克服现有技术的不足,本发明提供一种基于深度神经网络的无重叠区域行人跟踪方法,该方法采用YOLO检测算法、卡尔曼跟踪算法以及深度残差网络对目标行人进行检测与跟踪,解决了检测精度与跟踪精度低的问题,提升了行人的识别率。
技术方案:本发明所述的基于深度神经网络的无重叠区域行人跟踪方法,包括以下步骤:
(1)采用YOLO算法对监控视频图像中当前行人目标进行检测,分割行人目标图片;
(2)使用卡尔曼算法对所述检测结果跟踪预测;
(3)利用卷积神经网络提取图片的深度特征,所述图片包括候选行人图片和所述步骤(2)中的目标行人图片,并存储所述候选行人的图片及其特征;
(4)计算目标行人特征与候选行人特征的相似度并排序,识别出所述目标行人。
优选的,所述步骤(2)包括:
(21)根据所述当前行人检测结果和所述卡尔曼算法,预测所述当前行人在下一帧图像中的位置,并将所述位置更新到预测框中;
(22)对检测框和所述预测框的结果进行配对,计算所述检测框和所述预测框之间的欧式距离;
(23)更新配对成功与配对未成功的预测情况。
优选的,所述检测框的显示方法为:
采用YOLO检测模型对输入的所述监控视频的每一帧进行检测,并将其设为只检测行人且设置置信度阈值,只显示所述置信度得分高于所述阈值的所述目标行人的检测框。
优选的,所述步骤(3)中,提取目标行人图片的深度特征与候选行人图片的深度特征的为同一个卷积神经网络,包括:
卷积模块Conv1:卷积核大小为7×7,输出为64张特征图;输入数据下采样层pool1:池化窗口大小为3×3,输出为64张特征图;
卷积模块Conv2:包含3个残差单元,每个残差单元包含3个卷积层,卷积核大小分别为1×1,3×3和1×1,最终输出256张特征图;
卷积模块Conv3:包含4个残差单元,每个残差单元包含3个卷积层,卷积核大小分别为1×1,3×3和1×1,最终输出512张特征图;
卷积模块Conv4:包含6个残差单元,每个残差单元包含3个卷积层,卷积核大小分别为1×1,3×3和1×1,最终输出1024张特征图;
卷积模块Conv5:包含3个残差单元,每个残差单元包含3个卷积层,卷积核大小分别为1×1,3×3和1×1,最终输出2048张特征图;
输出数据下采样层pool5:池化窗口大小7×7,输出为2048×1的向量,即为对所述目标行人图片或候选行人图片提取出的深度特征f。
优选的,所述步骤(4)包括:
(41)计算所述目标行人特征与候选行人特征的余弦相似度,然后进行排序;
(42)与所述目标行人图片相似度最大的所述候选行人图片,即为最终目标行人。
有益效果:本发明与现有技术相比,其显著优点是:1、本发明将行人检测,行人跟踪,行人再识别进行结合,能够对无重叠区域内活动的行人目标进行跨摄像头的跟踪;2、采用YOLO检测算法,卡尔曼跟踪算法对目标行人进行检测与跟踪;可获得较高的检测与跟踪精度,从而有助于提升行人识别率;3、采用深度残差网络作为行人再识别的主干网络,通过增加网络深度,来提高网络性能,使得提取的行人图片的深度特征更加鲁棒可靠,从而提升了行人识别率。
附图说明
图1是本发明方法的流程图。
具体实施方式
如图1,本发明所述方法的具体步骤依次为:
步骤A、调取监控探头,获取视频图像;
步骤B、使用YOLO算法对监控画面范围内的行人目标进行检测并从原始视频帧中分割出行人目标图片;
YOLO算法将检测问题看做是回归问题,采用单个神经网络,利用整个图像的信息来预测目标的边框、识别目标的类别,实现端到端的目标检测。
其中,使用的目标检测算法为YOLO算法,其具体使用步骤如下:
步骤B-1,训练基于深度学习的目标检测算法YOLO的检测模型。该检测算法模型可以检测出包含背景类在内的21类物体。训练数据集为VOC2007与VOC2012,单张训练图片尺寸为448×448。测试数据集为VOC2007,共迭代32000次;
步骤B-2,编写Python脚本程序调用训练好的YOLO检测模型对输入的监控视频每一帧进行检测,将其设为只检测行人且设置置信度阈值,优选为0.6,即只显示置信度得分高于0.6的行人目标的检测框。第i个行人的检测框为(xi,yi,wi,hi),其中(xi,yi)为该检测框左上角的坐标,wi为该检测框的宽度,hi为该检测框的高度;
步骤C、用卡尔曼算法对检测结果进行跟踪预测,并将预测框与检测框进行匹配、更新;
步骤C-2,对检测框与跟踪框的结果进行配对,计算检测框中心点(dx,dy)与跟踪框中心点(d′x,d′y)之间欧式距离h:
采用matlab计算检测框与跟踪框各自区域内的HSV颜色直方图,对两个直方图进行相似性匹配。当h大于70且匹配结果大于0.7时,认为检测框与跟踪框配对成功;
步骤C-3,分别更新配对成功与配对未成功的跟踪,对于未成功配对的跟踪,判断该行人目标是否被YOLO检测算法连续三帧检测到,如果成立则用检测框代替预测框,否则结束对该行人目标的跟踪;
步骤D、利用卷积神经网络,对数据库中每张候选行人图片提取其深度特征fg,并离线储存;
步骤E、利用卷积神经网络,对步骤C中的每个目标行人图片提取其深度特征fq;
步骤D和步骤E中所用的提取候选行人的深度特征与目标行人的深度特征为同一个卷积神经网络,具体为:
所用神经网络采用ResNet-50模型作为主干网络,ResNet-50以残差单元组成的卷积模块为基本组成:
第一个卷积模块Conv1:卷积核大小为7×7,输出为64张特征图;
输入数据下采样层pool1:池化窗口大小为3×3,输出为64张特征图;
第二个卷积模块Conv2:包含3个残差单元,每个残差单元包含3个卷积层,卷积核大小分别为1×1,3×3和1×1,最终输出256张特征图;
第三个卷积模块Conv3:包含4个残差单元,每个残差单元包含3个卷积层,卷积核大小分别为1×1,3×3和1×1,最终输出512张特征图;
第四个卷积模块Conv4:包含6个残差单元,每个残差单元包含3个卷积层,卷积核大小分别为1×1,3×3和1×1,最终输出1024张特征图;
第五个卷积模块Conv5:包含3个残差单元,每个残差单元包含3个卷积层,卷积核大小分别为1×1,3×3和1×1,最终输出2048张特征图;
输出数据下采样层pool5:池化窗口大小7×7,输出为2048×1的向量,该向量即为对行人图片提取出的深度特征f;
ResNet-50网络模型由ImageNet数据集进行预训练。在训练阶段使用Market1501数据集对网络模型进行微调,单张训练图片尺寸为224×224。共迭代18000次,学习率初始化为0.001,在最后2000次迭代时学习率设置为0.0001。网络参数的更新采用随机梯度下降法;
步骤F、将目标行人特征与候选行人特征进行余弦相似度计算并排序,从而识别出目标行人:
步骤F-1、计算对每个跟踪行人目标提取的深度特征fq与已离线储存的候选行人图片深度特征fgi之间的余弦相似度sim(fq,fgi),其中,fgi表示第i个候选行人图片的深度特征:
步骤F-2、对余弦相似度sim(fq,fgi)从到从大到小进行排序;
步骤F-3、与目标行人图片余弦相似度最大的候选行人图片,其所属的行人,即为本方法识别出的行人;设定余弦相似度阈值为0.75,即当识别出的最大余弦相似度低于该阈值时则判断目标行人不属于候选行人中的任意一名。
步骤G、在多个场景中依照步骤A-F,实现无重叠区域对同一行人的准确跟踪。
Claims (3)
1.一种基于深度神经网络的无重叠区域行人跟踪方法,其特征在于,该方法包括以下步骤:
(1)采用YOLO算法对监控视频图像中当前行人目标进行检测,分割行人目标图片;
(2)使用卡尔曼算法对当前行人 检测结果跟踪预测;
(3)利用深度残差网络提取图片的深度特征,所述图片包括候选行人图片和所述步骤(2)中的目标行人图片,并存储所述候选行人的图片及其特征;所用深度残差网络采用ResNet-50模型作为主干网络,ResNet-50以残差单元组成的卷积模块为基本组成:
第一个卷积模块Conv1:卷积核大小为7×7,输出为64张特征图;
输入数据下采样层pool1:池化窗口大小为3×3,输出为64张特征图;
第二个卷积模块Conv2:包含3个残差单元,每个残差单元包含3个卷积层,卷积核大小分别为1×1,3×3和1×1,最终输出256张特征图;
第三个卷积模块Conv3:包含4个残差单元,每个残差单元包含3个卷积层,卷积核大小分别为1×1,3×3和1×1,最终输出512张特征图;
第四个卷积模块Conv4:包含6个残差单元,每个残差单元包含3个卷积层,卷积核大小分别为1×1,3×3和1×1,最终输出1024张特征图;
第五个卷积模块Conv5:包含3个残差单元,每个残差单元包含3个卷积层,卷积核大小分别为1×1,3×3和1×1,最终输出2048张特征图;
输出数据下采样层pool5:池化窗口大小7×7,输出为2048×1的向量,该向量即为对行人图片提取出的深度特征f;
(4)计算目标行人特征与候选行人特征的相似度并排序,识别出所述目标行人;
所述步骤(4)包括:
(41)计算对每个跟踪行人目标提取的深度特征fq与已离线储存的候选行人图片深度特征fgi之间的余弦相似度sim(fq,fgi),其中,fgi表示第i个候选行人图片的深度特征:
(42)对余弦相似度sim(fq,fgi)从到从大到小进行排序;
2.根据权利要求1所述的基于深度神经网络的无重叠区域行人跟踪方法,其特征在于,所述步骤(2)包括:
(21)根据所述当前行人检测结果和所述卡尔曼算法,预测所述当前行人在下一帧图像中的位置,并将所述位置更新到预测框中;
(22)对检测框和所述预测框的结果进行配对,计算所述检测框和所述预测框之间的欧式距离;
(23)更新配对成功与配对未成功的预测情况。
3.根据权利要求2所述的基于深度神经网络的无重叠区域行人跟踪方法,其特征在于,所述检测框的显示方法为:
采用YOLO检测模型对输入的所述监控视频的每一帧进行检测,并将其设为只检测行人且设置置信度阈值,只显示所述置信度得分高于所述阈值的所述目标行人的检测框。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810192601.5A CN108509859B (zh) | 2018-03-09 | 2018-03-09 | 一种基于深度神经网络的无重叠区域行人跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810192601.5A CN108509859B (zh) | 2018-03-09 | 2018-03-09 | 一种基于深度神经网络的无重叠区域行人跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108509859A CN108509859A (zh) | 2018-09-07 |
CN108509859B true CN108509859B (zh) | 2022-08-26 |
Family
ID=63377340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810192601.5A Active CN108509859B (zh) | 2018-03-09 | 2018-03-09 | 一种基于深度神经网络的无重叠区域行人跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108509859B (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325967B (zh) * | 2018-09-14 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 目标跟踪方法、装置、介质以及设备 |
CN110942079A (zh) * | 2018-09-24 | 2020-03-31 | 天津大学 | 一种基于ssd的目标检测的改进算法 |
CN109492618A (zh) * | 2018-12-06 | 2019-03-19 | 复旦大学 | 基于分组扩张卷积神经网络模型的目标检测方法及装置 |
CN109740654A (zh) * | 2018-12-26 | 2019-05-10 | 华东师范大学 | 一种基于深度学习的舌体自动检测方法 |
CN109902556A (zh) * | 2019-01-14 | 2019-06-18 | 平安科技(深圳)有限公司 | 行人检测方法、系统、计算机设备及计算机可存储介质 |
CN109829436B (zh) * | 2019-02-02 | 2022-05-13 | 福州大学 | 基于深度表观特征和自适应聚合网络的多人脸跟踪方法 |
CN111582007A (zh) | 2019-02-19 | 2020-08-25 | 富士通株式会社 | 物体识别方法、装置和网络 |
CN110008867B (zh) * | 2019-03-25 | 2023-04-18 | 五邑大学 | 一种基于人物异常行为的预警方法、装置及存储介质 |
CN109951710B (zh) * | 2019-03-26 | 2021-07-02 | 中国民航大学 | 基于深度学习的机坪监控视频压缩方法及系统 |
CN110110649B (zh) * | 2019-05-02 | 2023-04-07 | 西安电子科技大学 | 基于速度方向的可选择性人脸检测方法 |
CN110276309B (zh) * | 2019-06-25 | 2021-05-28 | 新华智云科技有限公司 | 视频处理方法、装置、计算机设备及存储介质 |
CN110781806A (zh) * | 2019-10-23 | 2020-02-11 | 浙江工业大学 | 一种基于yolo的行人检测追踪方法 |
CN111652177A (zh) * | 2020-06-12 | 2020-09-11 | 中国计量大学 | 基于深度学习的信号特征提取方法 |
CN111985321A (zh) * | 2020-07-14 | 2020-11-24 | 浙江大华技术股份有限公司 | 目标物体检测方法、电子设备及存储介质 |
CN111897993A (zh) * | 2020-07-20 | 2020-11-06 | 杭州叙简科技股份有限公司 | 一种基于行人再识别的高效目标人物轨迹生成方法 |
CN112036271B (zh) * | 2020-08-18 | 2023-10-10 | 汇纳科技股份有限公司 | 基于卡尔曼滤波的行人重识别方法、系统、介质及终端 |
CN112183252A (zh) * | 2020-09-15 | 2021-01-05 | 珠海格力电器股份有限公司 | 视频的动作识别方法、装置、计算机设备和存储介质 |
CN112132873A (zh) * | 2020-09-24 | 2020-12-25 | 天津锋物科技有限公司 | 一种基于计算机视觉的多镜头行人识别与跟踪 |
CN112884810B (zh) * | 2021-03-18 | 2024-02-02 | 沈阳理工大学 | 一种基于YOLOv3的行人跟踪方法 |
CN113158897A (zh) * | 2021-04-21 | 2021-07-23 | 新疆大学 | 一种基于嵌入式YOLOv3算法的行人检测系统 |
CN113052139A (zh) * | 2021-04-25 | 2021-06-29 | 合肥中科类脑智能技术有限公司 | 一种基于深度学习双流网络的攀爬行为检测方法及系统 |
CN113326738B (zh) * | 2021-05-06 | 2023-07-07 | 南京信息工程大学 | 基于深度网络和字典学习的行人目标检测与重识别方法 |
CN115346169B (zh) * | 2022-08-08 | 2023-04-07 | 航天神舟智慧系统技术有限公司 | 一种睡岗行为检测方法及系统 |
CN115375736A (zh) * | 2022-10-25 | 2022-11-22 | 威海市博华医疗设备有限公司 | 一种基于图像的行人轨迹跟踪方法和装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106022237B (zh) * | 2016-05-13 | 2019-07-12 | 电子科技大学 | 一种端到端的卷积神经网络的行人检测方法 |
CN106097391B (zh) * | 2016-06-13 | 2018-11-16 | 浙江工商大学 | 一种基于深度神经网络的识别辅助的多目标跟踪方法 |
CN106778712B (zh) * | 2017-03-01 | 2020-04-14 | 扬州大学 | 一种多目标检测与跟踪方法 |
CN106997459B (zh) * | 2017-04-28 | 2020-06-26 | 成都艾联科创科技有限公司 | 一种基于神经网络和图像叠合分割的人数统计方法及系统 |
-
2018
- 2018-03-09 CN CN201810192601.5A patent/CN108509859B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108509859A (zh) | 2018-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108509859B (zh) | 一种基于深度神经网络的无重叠区域行人跟踪方法 | |
TWI677825B (zh) | 視頻目標跟蹤方法和裝置以及非易失性電腦可讀儲存介質 | |
CN106845487B (zh) | 一种端到端的车牌识别方法 | |
CN112200111B (zh) | 一种全局与局部特征融合的遮挡鲁棒行人重识别方法 | |
CN106709449B (zh) | 一种基于深度学习和强化学习的行人重识别方法及系统 | |
CN106096561B (zh) | 基于图像块深度学习特征的红外行人检测方法 | |
CN107016357B (zh) | 一种基于时间域卷积神经网络的视频行人检测方法 | |
CN107153817B (zh) | 行人重识别数据标注方法和装置 | |
CN110781836A (zh) | 人体识别方法、装置、计算机设备及存储介质 | |
CN107657249A (zh) | 多尺度特征行人重识别的方法、装置、存储介质及处理器 | |
CN111611874B (zh) | 基于ResNet和Canny的人脸口罩佩戴检测方法 | |
CN110008867A (zh) | 一种基于人物异常行为的预警方法、装置及存储介质 | |
Xia et al. | Loop closure detection for visual SLAM using PCANet features | |
CN111582126B (zh) | 基于多尺度行人轮廓分割融合的行人重识别方法 | |
Ye et al. | A two-stage real-time YOLOv2-based road marking detector with lightweight spatial transformation-invariant classification | |
CN113822352B (zh) | 基于多特征融合的红外弱小目标检测方法 | |
CN103093198A (zh) | 一种人群密度监测方法及装置 | |
CN109165658B (zh) | 一种基于Faster-RCNN的强负样本水下目标检测方法 | |
CN109325407B (zh) | 基于f-ssd网络滤波的光学遥感视频目标检测方法 | |
CN111582410B (zh) | 图像识别模型训练方法、装置、计算机设备及存储介质 | |
Bappy et al. | Real estate image classification | |
EP3352112A1 (en) | Architecture adapted for recognising a category of an element from at least one image of said element | |
CN111105436B (zh) | 目标跟踪方法、计算机设备及存储介质 | |
CN112241736A (zh) | 一种文本检测的方法及装置 | |
CN113129336A (zh) | 一种端到端多车辆跟踪方法、系统及计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |