CN108363997A - 一种在视频中对特定人的实时跟踪方法 - Google Patents
一种在视频中对特定人的实时跟踪方法 Download PDFInfo
- Publication number
- CN108363997A CN108363997A CN201810231641.6A CN201810231641A CN108363997A CN 108363997 A CN108363997 A CN 108363997A CN 201810231641 A CN201810231641 A CN 201810231641A CN 108363997 A CN108363997 A CN 108363997A
- Authority
- CN
- China
- Prior art keywords
- track
- face
- video
- frame
- particular person
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/167—Detection; Localisation; Normalisation using comparisons between temporally consecutive images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种在视频中对特定人的实时跟踪方法,其特征在于,包括以下步骤:步骤1,将输入视频切成图片,每一张图片对应一帧;步骤2,对图片进行检测算法,检测出图片里的人;步骤3,将检测结果输入跟踪算法,跟踪算法将根据情况创建新跟踪轨迹,更新已有跟踪轨迹,以及删除跟踪轨迹;步骤4,跟踪算法调用人脸识别算法给没有获得人名的轨迹命名,已获得人名的轨迹确认命名;步骤5,若视频还有剩余帧没有处理,返回步骤2;否则将已处理帧整理成视频并输出。本发明的方法能够大幅减轻全连接神经网络的计算量并提高运算速度,也可以更好地保留空间信息并因此提高模型的泛化能力和预测准确率。
Description
技术领域
本发明属于计算机视觉技术领域,特别是涉及一种在视频中对特定人的实时跟踪方法。
背景技术
对特定人的跟踪是指对视频中出现的特定人进行检测和跟踪的任务。即,在一段视频中,于每一帧以长方形框标记(bounding boxes),标出特定人的位置,同时根据当前帧与之前帧的信息给出特定人的跟踪轨迹线。据了解,现有的技术会通过结合物体检测与人脸识别算法两种算法对视频中的特定人给出长方形框标记(bounding boxes)与其对应的人名,并通过当前帧与之前帧的长方形框标记(bounding boxes)给出特定人的跟踪轨迹线。具体方法为:
1,使用物体检测算法如YOLO,Faster-RCNN,SSD等对每一帧进行人物检测。即:通过检测算法获得每一帧里出现的人的长方形框标记(bounding boxes);
2,对1里的人物检测结果进行人脸识别,将1中的人脸检测结果以识别出的人脸/人名信息显示;
3,使用当前帧与之前帧的1,2结果生成当前帧的特定人轨迹线。
现有的准确且快速的物体检测算法和人脸识别算法有由Facebook AI研究院的Redmon,Divvala,Girshick,Farhadi的YOLO物体检测算法和谷歌的Schroff,Kalenichenko,Philbin等人提出的Facenet人脸识别算法。在YOLO物体检测算法论文“YouOnly Look Once:Unified,Real-Time Object Detection”里,作者表示该算法可以实时运行并在VOC物体检测公开数据集上得到63.4分。在Facenet论文“FaceNet:A UnifiedEmbedding for Face Recognition and Clustering”里,作者在LFW公开数据集上的评测得分高达99分。
不足之处:
现有技术的不足之处在1,算法无法达到实时性;2,算法的稳定性很脆弱。实时性方面,因为同时运行yolo检测算法与facenet人脸识别算法要求巨大的计算量,算法在一帧上耗时长,所以无法做到实时性。稳定性方面,现有技术仅在检测算法与人脸识别算法都具良好表现时才能奏效。若其中任何一个算法受到场景影响而导致效果不好时,整个算法都会失效。主要影响算法的场景有:
1,视频里的特定人在背对摄像头,或仅显示部分脸部时会导致人脸识别算法失效
2,人脸识别算法产生错检时,无法生成特定人轨迹线
3,人脸识别算法需要大量特定人肖像数据来训练人脸识别分类器。
发明内容
针对上述技术问题,本发明公开一种在视频中对特定人的实时跟踪方法,实时跟踪视频中的特定人,提高识别速度与识别准确率。
为达到上述目的,本发明采用的技术方案为:本发明通过人脸定位与人脸识别算法,物体检测算法,与跟踪算法三种算法并用完成在视频中对特定人的跟踪任务。即是提出全新的解法,也解决了之前提到的现有做法的问题。
本发明有效使用跟踪算法,将物体检测算法的结果整理成轨迹,仅对轨迹里的若干个检测结果使用人脸识别算法,得到若干个人脸识别算法结果并以此为轨迹名字。轨迹名字,也就是轨迹所对应的特定人,由人脸识别算法结果的众数决定。本发明还包含在跟踪算法使用含dropout的深度卷积神经网络算做特征提取和对人脸识别算法的速度,数据量需求的优化。跟踪算法通过深度特征匹配,在当特定人背对摄像头,或仅显示部分脸部时仍能将检测结果归类于特定人轨迹,解决了问题1。由于跟踪算法可以独立生成轨迹线,不像现有方法依赖人脸识别结果来生成轨迹线,解决了问题2。优化了的人脸识别算法用阀值而非分类器识别人脸,无需大量特定人肖像数据,运行速度更快,解决了问题3。跟踪算法做人脸识别的运算频率低,减少了大量人脸识别算法的运算次数。优化了的人脸识别算法的运算速度也更快,这样使算法能够达到实时性,解决了问题4。
一种在视频中对特定人的实时跟踪方法,包括如下步骤:
步骤1,将输入视频切成图片,每一张图片对应一帧;
步骤2,对图片进行物体检测算法,检测出图片里的人;
步骤3,将检测结果输入跟踪算法,跟踪算法将根据情况创建新跟踪轨迹,更新已有跟踪轨迹,以及删除跟踪轨迹;
步骤4,跟踪算法调用人脸识别算法给没有获得人名的轨迹命名,已获得人名的轨迹确认命名;
步骤5,若视频还有剩余帧没有处理,返回步骤2;否则将已处理帧整理成视频并输出。
本发明步骤2中,采用物体检测算法,检测实时识别视频中的人。物体检测算法使用深度神经网络来识别视频里的人,使用的网络类型为多层全卷积神经网络(CNN)。近年,随着深度卷积神经网络的出现,图片中的识别率得到大幅提升。为了进一步提高识别速度和识别准确率,提高实时的识别效果,本发明采用瓶颈形全卷积神经网络架构(FullyConvolutional Neural Network with Bottle-neck),不同于许多方法的“深度卷积神经网络+全连接神经网络结构”,来解决视频中的物体识别问题。瓶颈形全卷积神经网络的优势体现在一,可以大幅减轻全连接神经网络的计算量并提高运算速度。二,可以更好地保留空间信息并因此提高模型的泛化能力和预测准确率。因此,模型对视频中的物体不仅在识别上有更高的准确率,而且在速度上可以达到实时性。实验中,模型在Titan X gpu上的速度可达到40-90fps,并在VOC物体检测公开数据集上得分达到76.8。
本发明步骤3中,使用跟踪算法实现对人的跟踪处理。本技术使用基于卡尔曼滤波,匈牙利算法,和基于深度学习技术的特征提取这三种方法来实现对人的跟踪。对每一帧中的人提取出定位信息(包含人的方框)后,我们对这些方框进行处理并得到跟踪轨迹。得到跟踪轨迹的关键是对前一帧中的轨迹和当前帧中的方框进行匹配。匹配成功的成为当前帧的轨迹,不成功的将被留下作为新轨迹起点。匹配的标准为卡尔曼滤波预测与当前帧中方框的马氏距离与当前帧方框内特征和之前轨迹方框里特征的余弦距离的加权和。匹配的顺序从最新生成(recent)的轨迹开始,一旦匹配产生,即对下一个当前帧中的方框进行匹配。
逻辑里不存在2个或以上匹配。轨迹终点的判断基于超参数A,代表没获得匹配的帧数。若超过A,则轨迹被视为达到终点。基于深度学习技术的特征提取方法是根据一个深层的卷积残差网络(Residual Network)得到的一个128维度特征。该网络的参数通过训练了11万张人的图片获得。
一、详细解释特定人跟踪算法:
跟踪器(tracker)在每一帧对检测结果D={d1,d2,d3,...,dm}与跟踪结果T={t1,t2,t3,...,tn}进行匹配,得到匹配集与不匹配集其中,nm,m∈{1,2,3,...m},n∈{1,2,3,...,n}。检测结果是检测算法输出的人的长方形标记框(bounding box)。跟踪器负责在每一帧计算每一条轨迹的匹配信息。匹配信息α为最近一次该轨迹得到成功匹配的帧到当前帧的帧数(number of framessince last successful association)。跟踪器还负责依照以下规则进行生成,删除轨迹。
规则1:若检测结果没有得到成功匹配,为该结果建立新的“假设轨迹”(trackhypothesis);
规则2:“假设轨迹”(track hypothesis)若在接下来连续的3帧中都得到成功匹配,将成为轨迹(track)。如果其中有一或大于一帧没有得到成功匹配,删除该“假设轨迹”(track hypothesis);
规则3:轨迹的匹配信息α初始值为0,当轨迹在当前帧没有得到成功匹配时,α=α+1。若得到成功匹配,设置α=0;
规则4:若轨迹的匹配信息超过参数Amax,删除轨迹。
综上举例,跟踪器在某一帧所保存的信息可以是:
{t1:[m,m,nm,nm,m],t2:[m,m],t3:[m,m,m,nm,nm,nm],t4[m]},ti为轨迹i,m为匹配,nm为不匹配。跟踪器里每条轨迹的轨迹信息α则是{t1:0,t2:0,t3:3,t4:0}
接下来解释匹配规则。首先解释距离d(1)(i,j),d(2)(i,j),损失矩阵C=[ci,j]与门限矩阵B=[bi,j]
1,对轨迹i做卡尔曼滤波预测(projection of Kalman filter),并将此结果在计量空间(measurement space)里的表示记为(yi,si).检测结果记为dj(jth bounding boxdetection).d(1)(i,j)为检测结果dj与轨迹卡尔曼滤波预测结果的马氏距离:
2,对每一个检测结果dj计算表征特征向量(appearance descriptor)rj,||rj||=1。同时还要为每条轨迹k记录之前已成功匹配的Lk=100个表征特征向量,记录表示为表征特征向量由深度卷积神经网络获得。距离d(2)(i,j)为轨迹i的所有表征特征向量与检测结果j的表征特征向量之前的最小余弦距离:
3,损失矩阵里的元素ci,j的计算方法为:
ci,j=λd(1)(i,j)+(1-λ)d(2)(i,j)
其中λ为参数,用于控制损失在卡尔曼滤波预测距离和表征特征向量距离上的权重。当监控摄像头在高速移动时,卡尔曼滤波预测将会失效。在这种情况下,可以设置λ=0来提高算法的鲁棒性。
4,门限矩阵里的元素bi,j的计算方法为:
bi,j=I[d(1)(i,j)≤t(1)]·I[d(2)(i,j)≤t(2)]
其中,t(1),t(2)可由最小化训练数据的损失函数获得。
综上所述,跟踪算法为:
输入部分:检测结果,序号为D={1,2,...,M},跟踪结果,序号为T={1,2,...,N},参数Amax
1,计算损失矩阵C=[ci,j],(i∈T,j∈D)
2,计算门限矩阵B=[bi,j]
3,初始化匹配集
4,初始化不匹配集U←D
5,对n∈{1,...,Amax}做循环操作:
6,根据匹配信息α选择轨迹Tn←{i∈T|αi=n}
7,在C,Tn,U里找到最小的ci,j值,xi,j←ci,j
8,M←M∪{(i,j)|bi,j·xi,j>0}
9,
10,结束循环
11,输出M,U
最后,跟踪器(tracker)调用已加载的人脸识别器(recognizer)对每条轨迹做人脸识别。调用频率基于自定义参数φ,即每φ次检测调用一次人脸识别。人脸识别器(recognizer)输出检测结果(特定人名或unknown人),并将该结果保存在跟踪器中。跟踪器中每条跟踪线的人脸识别结果可为
{t1:[′mike′,′unknown′,′mike′],t3:[′unknown′,'unknown′,′unknown′],...}
轨迹的名称由结果中的众数决定。这里,t1的名称为mike而t2的名称为unknown。人脸识别器在加载特定人算法时就已加载。加载人脸识别器需要提供特定人的肖像图片用于识别特定人。
二、解释跟踪算法中用于特征提取的深度卷积神经网络:
本方法使用带有dropout的深层卷积残差网络做特征提取,由于dropout,使结果更加鲁棒。网络层细节如下:
1,输入图片大小128×64
2,卷积层;卷积核大小(kernel size)3×3,跨度(stride)1,张数(filters)32
3,卷积层;卷积核大小(kernel size)3×3,跨度(stride)1,张数(filters)32
4,池化层;池化区域大小3×3,跨度(stride)1
5,dropout层:dropout概率0.4
6,残差层;卷积核大小(kernel size)3×3,跨度(stride)1,张数(filters)32
7,残差层;卷积核大小(kernel size)3×3,跨度(stride)1,张数(filters)32
8,残差层;卷积核大小(kernel size)3×3,跨度(stride)2,张数(filters)32
9,残差层;卷积核大小(kernel size)3×3,跨度(stride)1,张数(filters)32
10,残差层;卷积核大小(kernel size)3×3,跨度(stride)2,张数(filters)32
11,残差层;卷积核大小(kernel size)3×3,跨度(stride)1,张数(filters)32
12,dropout层:dropout概率0.2
13,全联接层;输出大小128
14,dropout层:dropout概率0.2
15,正则化层;将输出标准化norm=1
本发明步骤4中,使用人脸识别算法识别特定人。本发明优化了人脸识别算法:本方法使用阀值对比特定人人脸编码与检测人人脸编码的欧式距离来识别人脸,替换了人脸识别分类器方法。本方法在省去训练人脸识别分类器工作的同时,也省去了分类器模型加载流程,另外还提升了模型识别速度。本方法基于公开数据集训练阀值θ,方法如下:
1,将公开数据集中的人脸图片结对;
2,对每一对人脸图片,做:
3,使用人脸识别算法对人脸图片编码;
4,计算结对人脸的欧式距离
5,结束循环。
6,设置供搜索间隔为0.01的阀值θ={0.01,0.02,...4.99,5.00},并基于θ,d计算AUC(area under curve)值。阀值设为AUC拐点。
本发明具有以下有益效果:
第一方面,本方法通过引入跟踪算法来管理物体检测算法和人脸识别算法结果解决了以下不足:1,视频里的特定人在背对摄像头,或仅显示部分脸部时会导致人脸识别算法失效;2,当特定人被别的物体遮挡时,检测和人脸算法都将无法继续运作。3,当两种算法中仅一种算法在有效工作时,都无法对特定人进行识别。4,实时地运行两种算法会有巨大的计算量要求,使技术无法做到具有实时性。使本方法可以实时运作并可在特定人背对摄像头,仅显示部分脸部,以及被别的物体遮挡时的情况下持续跟踪。算法效果实例如图3所示。
第二方面,本方法对已有的物体检测算法,人脸识别算法也进行了优化。在物体检测算法中,本方法使用了瓶颈形全卷积神经网络架构(Fully Convolutional NeuralNetwork with Bottle-neck),取代了“深度卷积神经网络+全连接神经网络结构”。瓶颈形全卷积神经网络的优势在既可以大幅减轻全连接神经网络的计算量并提高运算速度,也可以更好地保留空间信息并因此提高模型的泛化能力和预测准确率。实验中,本方法提升了原有的物体检测算法效果,在确保实时性运作的情况下,在VOC物体检测公开数据集上得分从63.4分提升至76.8。在人脸识别算法方面,由于跟踪算法的管理,本算法的作用更偏重效果而非实时性。
本算法在跟踪算法里使用了带有dropout的深度卷积残差网络,使特征提取部分更加有效,鲁棒。
附图说明
图1为本发明实施例的视频中对特定人的实时跟踪方法算法流程图。
图2为本发明实施例的视频中对特定人的实时跟踪方法跟踪算法流程图。
图3为本发明实施例的视频中对特定人的实时跟踪方法算法实时性速度对比图。
具体实施方式
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明。
本方法的根本思想是运用跟踪算法管理物体检测算法与人脸识别算法的预测结果,从而弥补了后两者的缺点并减少了计算量。物体检测算法在检测人时不会受到背对摄像头,显示部分脸部的情况影响,但是会受到阻碍物遮挡影响。本发明使用跟踪算法,通过整理每一帧的检测结果为跟踪轨迹,使用卡尔曼滤波方法可以在即使物体处在被遮挡的情况下有效预测跟踪轨迹。因此,跟踪算法可以在特定人被遮挡的情况下继续跟踪特定人,并在特定人出现后定位到特定人,从而解决了问题2。采用了跟踪算法使每一帧中的检测结果都属于跟踪算法所管理的跟踪轨迹里。因此,我们可将人脸识别用于跟踪轨迹而非用于检测结果。这样可以解决问题1。将人脸识别用于跟踪轨迹和用于检测结果的区别在于前者保留了上下帧检测结果关系的信息。在有轨迹信息的情况下使用人脸识别可以对整个轨迹线进行标记,解决了人脸识别在背对摄像头和部分脸情况里的问题。比如,在当前帧中,虽然特定人背对摄像头,人脸识别算法无法生效,但是,由于跟踪算法有关于特定人的跟踪轨迹,我们可以直接用之前基于跟踪轨迹得出的特定人人脸识别结果,从而解决了问题1。使用跟踪算法管理的优势在于加入了检测结果之间的关系的信息(形成轨迹),从而解决了问题3中好似群龙无首的情况,使得人脸识别算法或是物体检测算法在不能有效工作时仍旧可通过轨迹信息给出所需输出。也正因为是对跟踪轨迹使用人脸识别算法而非检测结果,本方法可以大大减少人脸识别算法的使用次数,减少了计算量,使本方法可以在实时环境下运行,从而解决了问题4。
参考图1,本方法具体步骤如下:1,将输入视频切成图片,每一张图片对应一帧;2,对图片进行检测算法,检测出图片里的人;3,将检测结果输入跟踪算法,跟踪算法将根据情况创建新跟踪轨迹,更新已有跟踪轨迹,以及删除跟踪轨迹;4,跟踪算法调用人脸识别算法给没有获得人名的轨迹命名,已获得人名的轨迹确认命名;5,若视频还有剩余帧没有处理,返回2。否则将以处理帧整理成视频并输出。
以下为本方法使用的四个技术点:
一,物体检测算法:检测实时识别视频中的人
本技术使用深度神经网络来识别视频里的人,使用的网络类型为多层全卷积神经网络(CNN)。近年,随着深度卷积神经网络的出现,图片中的识别率得到大幅提升。但是,由于深度卷积神经网络的算法复杂性,实时的识别效果仍然欠佳。具体问题为识别速度与识别准确率。本技术采用了瓶颈形全卷积神经网络架构(Fully Convolutional NeuralNetwork with Bottle-neck),不同于许多方法的“深度卷积神经网络+全连接神经网络结构”,来解决视频中的物体识别问题。瓶颈形全卷积神经网络的优势体现在一,可以大幅减轻全连接神经网络的计算量并提高运算速度。二,可以更好地保留空间信息并因此提高模型的泛化能力和预测准确率。因此,模型对视频中的物体不仅在识别上有更高的准确率,而且在速度上可以达到实时性。实验中,模型在Titan X gpu上的速度可达到40-90fps,并在VOC物体检测公开数据集上得分达到76.8。
二,跟踪算法:对人的跟踪处理
本技术使用基于卡尔曼滤波,匈牙利算法,和基于深度学习技术的特征提取这三种方法来实现对人的跟踪。以下参考图2对跟踪算法进行说明。在使用技术1对每一帧中的人提取出定位信息(包含人的方框)后,我们对这些方框进行处理并得到跟踪轨迹。得到跟踪轨迹的关键是对前一帧中的轨迹和当前帧中的方框进行匹配。匹配成功的成为当前帧的轨迹,不成功的将被留下作为新轨迹起点。匹配的标准为卡尔曼滤波预测与当前帧中方框的马氏距离与当前帧方框内特征和之前轨迹方框里特征的余弦距离的加权和。匹配的顺序从最新生成(recent)的轨迹开始,一旦匹配产生,即对下一个当前帧中的方框进行匹配。逻辑里不存在2个或以上匹配。轨迹终点的判断基于超参数A,代表没获得匹配的帧数。若超过A,则轨迹被视为达到终点。基于深度学习技术的特征提取方法是根据一个深层的卷积残差网络(Residual Network)得到的一个128维度特征。该网络的参数通过训练了11万张人的图片获得。
三,人脸识别算法:识别特定人
本方法使用阀值对比特定人人脸编码与检测人人脸编码的欧式距离来识别人脸,替换了人脸识别分类器方法。本方法在省去训练人脸识别分类器工作的同时,也省去了分类器模型加载流程,另外还提升了模型识别速度。本方法基于公开数据集训练阀值θ,方法如下:
(1),将公开数据集中的人脸图片结对;
(2),对每一对人脸图片,做:
(3),使用人脸识别算法对人脸图片编码;
(4),计算结对人脸的欧式距离
(5),结束循环;
(6),设置供搜索间隔为0.01的阀值θ={0.01,0.02,...4.99,5.00},并基于θ,d计算AUC值;阀值设为AUC拐点。
实验中,基于LFW公开数据集得到的阀值为1.21,准确率为99.2。
作为一个实施例,本技术使用基于深度学习技术的人脸表征匹配来识别出特定人,人脸识别技术依次为定位人脸,匹配人脸。定位人脸方面,使用了传统的Haar分类器(Haar cascade)方法与多层卷积神经网络同时定位。在匹配人脸方面,会先对特定人与由定位得到的人脸进行特征提取,并根据单个特定人或多个特定人进行一对多或多对多的特征匹配。特征提取方法为通过深度卷积神经网络的编码(embedding)提取,编码采用梦空间卷积神经网络(inception structure)与三胞胎损失函数(triplet loss)通过随机梯度下降(Stochastic Gradient Descent)在公开数据集上进行编码器训练。匹配逻辑为对比特征间的欧式距离,欧式距离越小结果越好。最后输出匹配结果最好的人作为识别结果,即欧式距离最小的匹配结果作为识别结果。首先在定位人脸方面,使用了传统的Haar分类器方法与多层卷积神经网络同时定位,并因此达到可以凌驾于任意单个人脸定位方法的效果。其次在人脸编码方面,本方法采用了梦空间卷积神经网络与三胞胎损失函数通过随机梯度下降在公开数据集上进行编码器训练。梦空间卷积神经网络相比于别的深度神经网络(如VGG,A8lexNet)可以获得更深层的特征并降低计算量;三胞胎损失函数相较于传统的归一化损失函数(softmax loss)可以将预测结果简化到更小的维度空间从而达到更好的编码效果。本方法亦在LFW公开数据集上取得了99.2分的成绩。
四、跟踪算法中用于特征提取的深度卷积神经网络:本技术使用带有dropout的深层卷积残差网络做特征提取,由于dropout,使结果更加鲁棒。网络层细节如下:
1,输入图片大小128×64
2,卷积层;卷积核大小(kernel size)3×3,跨度(stride)1,张数(filters)32
3,卷积层;卷积核大小(kernel size)3×3,跨度(stride)1,张数(filters)32
4,池化层;池化区域大小3×3,跨度(stride)1
5,dropout层:dropout概率0.4
6,残差层;卷积核大小(kernel size)3×3,跨度(stride)1,张数(filters)32
7,残差层;卷积核大小(kernel size)3×3,跨度(stride)1,张数(filters)32
8,残差层;卷积核大小(kernel size)3×3,跨度(stride)2,张数(filters)32
9,残差层;卷积核大小(kernel size)3×3,跨度(stride)1,张数(filters)32
10,残差层;卷积核大小(kernel size)3×3,跨度(stride)2,张数(filters)32
11,残差层;卷积核大小(kernel size)3×3,跨度(stride)1,张数(filters)32
12,dropout层:dropout概率0.2
13,全联接层;输出大小128
14,dropout层:dropout概率0.2
15,正则化层;将输出标准化norm=1
此算法的训练使用了110万张含1250人的行人图片数据集。网络共有约280万个参数,在NVIDIA 1080GPU上运行一次批大小为32的数据集耗时约20毫秒。
本方法具体步骤如下:
1,将特征人肖像输入人脸识别器(recognizer),初始化人脸识别器(recognizer),设置人脸识别频率参数φ,批处理大小(batch size)参数。
2,解码输入视频并将输入视频以一帧15张图片的频率(15FPS)转化成图片,每一张图片对应一帧,图片保持原大小。比如,1280×640的RGB视频转化为1280×640的RGB图片。
3,将图片缩放成检测算法要求的输入大小。实验中,YOLO算法需要输入大小为416×416×3,所以将1280×640RGB图片转化为416×416的RGB图片。
4,将图片存入缓存。当缓存中的图片数量超过N时,运行特定人算法并清空缓存,否则继续存入图片。对缓存中的图片集批处理运行YOLO可以更高效地使用GPU资源,提高算法速度。
5,对缓存中的N张图片批处理运行YOLO检测算法,得到检测结果集{D1,D2,...,DN},每个检测结果集Di包含n个检测结果d(bounding box),Di={d1,d2,...,dn},在实验中,批处理大小(batch size)为5,批处理大小(batch size)与本机环境相关。
6,将N个检测结果集Di依次输入跟踪器(tracker),跟踪器(tracker)根据跟踪算法输出轨迹T={t1,t2,t3,...,tm}。
7,跟踪器(tracker)根据频率参数φ运行人脸识别算法,并将结果保存在跟踪器内。跟踪器(tracker)永远对轨迹里检测结果的第一帧运行人脸识别算法。
8,跟踪器(tracker)根据每条轨迹的人脸识别结果对轨迹命名(track name)。
9,跟踪器(tracker)对每条轨迹将检测结果(bounding box)中点按时间维度串联,串联得到的线为轨迹线(track line)。
10,在输入图片上画上轨迹线(track line),检测结果(bounding boxes),检测结果的名字为其所属于的轨迹名字。
11,输出画有轨迹线(track line),检测结果(bounding boxes),和轨迹名字的输入图片。
12,重复以上流程直至没有更多输入图片。
在算法实验实例中,特定人跟踪算法成功地在特定人侧脸条件下完成了对特定人的检测,并成功地画出了其跟踪轨迹。算法也成功地在阴影,背对摄像头的,使人脸识别失效的条件下检测出了另一名处在阴影中的非特定人工人。
算法的实时速度对比如图3所示。可见本发明的特定人算法在速度上对比现有方法有巨大优势。
以上的实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (10)
1.一种在视频中对特定人的实时跟踪方法,其特征在于,包括以下步骤:
步骤1,将输入视频切成图片,每一张图片对应一帧;
步骤2,对图片进行物体检测算法,检测出图片里的人;
步骤3,将检测结果输入跟踪算法,跟踪算法将根据情况创建新跟踪轨迹,更新已有跟踪轨迹,以及删除跟踪轨迹;
步骤4,跟踪算法调用人脸识别算法给没有获得人名的轨迹命名,已获得人名的轨迹确认命名;
步骤5,若视频还有剩余帧没有处理,返回步骤2;否则将已处理帧整理成视频并输出。
2.根据权利要求1所述的在视频中对特定人的实时跟踪方法,其特征在于:
步骤2中,物体检测算法使用深度神经网络来识别视频里的人,使用的网络类型为多层全卷积神经网络;物体检测算法采用瓶颈形全卷积神经网络架构。
3.根据权利要求1所述的在视频中对特定人的实时跟踪方法,其特征在于:
步骤3中,使用跟踪算法实现对人的跟踪处理;跟踪算法使用基于卡尔曼滤波,匈牙利算法,和基于深度学习技术的特征提取;对每一帧中的人提取出定位信息后,对前一帧中的轨迹和当前帧中的定位信息进行匹配,得到跟踪轨迹;匹配成功的成为当前帧的轨迹,不成功的留下作为新轨迹起点;匹配的标准为卡尔曼滤波预测与当前帧中方框的马氏距离与当前帧方框内特征和之前轨迹方框里特征的余弦距离的加权和;匹配的顺序从最新生成的轨迹开始,一旦匹配产生,即对下一个当前帧中的方框进行匹配。
4.根据权利要求3所述的在视频中对特定人的实时跟踪方法,其特征在于:
跟踪器负责在每一帧计算每一条轨迹的匹配信息α;匹配信息α为最近一次该轨迹得到成功匹配的帧到当前帧的帧数;跟踪器还负责依照以下规则进行生成,删除轨迹:
规则1:若检测结果没有得到成功匹配,为该结果建立新的“假设轨迹”;
规则2:“假设轨迹”若在接下来连续的3帧中都得到成功匹配,将成为轨迹;如果其中有一或大于一帧没有得到成功匹配,删除该“假设轨迹”;
规则3:轨迹的匹配信息α初始值为0,当轨迹在当前帧没有得到成功匹配时,α=α+1。若得到成功匹配,设置α=0;
规则4:若轨迹的匹配信息超过参数Amax,删除轨迹。
5.根据权利要求3所述的在视频中对特定人的实时跟踪方法,其特征在于:
轨迹终点的判断基于超参数A,超参数A代表没获得匹配的帧数;若超过A,则轨迹被视为达到终点。
6.根据权利要求3至5中任一所述的在视频中对特定人的实时跟踪方法,其特征在于:跟踪算法使用带有dropout的深层卷积残差网络做特征提取。
7.根据权利要求1所述的在视频中对特定人的实时跟踪方法,其特征在于:
步骤4中,将物体检测算法的结果整理成轨迹;对轨迹里的若干个检测结果使用人脸识别算法;得到若干个人脸识别算法结果并以此为轨迹名字,轨迹名字由人脸识别算法结果的众数决定。
8.根据权利要求7所述的在视频中对特定人的实时跟踪方法,其特征在于:使用阀值对比特定人人脸编码与检测人人脸编码的欧式距离来识别人脸。
9.根据权利要求8所述的在视频中对特定人的实时跟踪方法,其特征在于:
基于公开数据集训练阀值θ,方法如下:
(1),将公开数据集中的人脸图片结对;
(2),对每一对人脸图片,做:
(3),使用人脸识别算法对人脸图片编码;
(4),计算结对人脸的欧式距离
(5),结束循环;
(6),设置供搜索间隔为0.01的阀值θ={0.01,0.02,...4.99,5.00},并基于θ,d计算AUC值;阀值设为AUC拐点。
10.根据权利要求7所述的在视频中对特定人的实时跟踪方法,其特征在于:
人脸识别算法使用基于深度学习技术的人脸表征匹配来识别出特定人,人脸识别技术依次为定位人脸,匹配人脸;定位人脸,使用Haar分类器方法与多层卷积神经网络同时定位;匹配人脸,先对特定人与由定位得到的人脸进行特征提取,并根据单个特定人或多个特定人进行一对多或多对多的特征匹配;特征提取方法为通过深度卷积神经网络的编码提取,编码采用梦空间卷积神经网络与三胞胎损失函数通过随机梯度下降在公开数据集上进行编码器训练;匹配逻辑为对比特征间的欧式距离,欧式距离最小的匹配结果作为识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810231641.6A CN108363997A (zh) | 2018-03-20 | 2018-03-20 | 一种在视频中对特定人的实时跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810231641.6A CN108363997A (zh) | 2018-03-20 | 2018-03-20 | 一种在视频中对特定人的实时跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108363997A true CN108363997A (zh) | 2018-08-03 |
Family
ID=63001032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810231641.6A Pending CN108363997A (zh) | 2018-03-20 | 2018-03-20 | 一种在视频中对特定人的实时跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108363997A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108876817A (zh) * | 2018-06-01 | 2018-11-23 | 深圳市商汤科技有限公司 | 交叉轨迹分析方法及装置、电子设备和存储介质 |
CN109325467A (zh) * | 2018-10-18 | 2019-02-12 | 广州云从人工智能技术有限公司 | 一种基于视频检测结果的车辆跟踪方法 |
CN109493369A (zh) * | 2018-09-11 | 2019-03-19 | 深圳控石智能系统有限公司 | 一种智能机器人视觉动态定位跟踪方法及系统 |
CN109508675A (zh) * | 2018-11-14 | 2019-03-22 | 广州广电银通金融电子科技有限公司 | 一种针对复杂场景的行人检测方法 |
CN109635657A (zh) * | 2018-11-12 | 2019-04-16 | 平安科技(深圳)有限公司 | 目标跟踪方法、装置、设备及存储介质 |
CN110046548A (zh) * | 2019-03-08 | 2019-07-23 | 深圳神目信息技术有限公司 | 人脸的跟踪方法、装置、计算机设备和可读存储介质 |
CN110110649A (zh) * | 2019-05-02 | 2019-08-09 | 西安电子科技大学 | 基于速度方向的可选择性人脸检测方法 |
CN110163124A (zh) * | 2019-04-30 | 2019-08-23 | 北京易华录信息技术股份有限公司 | 一种轨迹追踪处理系统 |
CN110610120A (zh) * | 2019-05-16 | 2019-12-24 | 宁波中国科学院信息技术应用研究院 | 一种人脸轨迹匹配方法 |
CN111444766A (zh) * | 2020-02-24 | 2020-07-24 | 浙江科技学院 | 基于图像处理的车辆追踪方法、装置、计算机设备和存储介质 |
WO2020155873A1 (zh) * | 2019-02-02 | 2020-08-06 | 福州大学 | 一种基于深度表观特征和自适应聚合网络的多人脸跟踪方法 |
CN111640134A (zh) * | 2020-05-22 | 2020-09-08 | 深圳市赛为智能股份有限公司 | 人脸跟踪方法、装置、计算机设备及其存储装置 |
CN112449155A (zh) * | 2020-10-21 | 2021-03-05 | 苏州怡林城信息科技有限公司 | 一种保护人员隐私的视频监控方法和系统 |
CN113111847A (zh) * | 2021-04-29 | 2021-07-13 | 四川隧唐科技股份有限公司 | 一种工序循环的自动监测方法、装置和系统 |
CN113344968A (zh) * | 2021-05-18 | 2021-09-03 | 苏州云视图信息科技有限公司 | 一种果园水果识别与产量统计系统和方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105224912A (zh) * | 2015-08-31 | 2016-01-06 | 电子科技大学 | 基于运动信息和轨迹关联的视频行人检测和跟踪方法 |
CN107092883A (zh) * | 2017-04-20 | 2017-08-25 | 上海极链网络科技有限公司 | 物体识别追踪方法 |
CN107644204A (zh) * | 2017-09-12 | 2018-01-30 | 南京凌深信息科技有限公司 | 一种用于安防系统的人体识别与跟踪方法 |
-
2018
- 2018-03-20 CN CN201810231641.6A patent/CN108363997A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105224912A (zh) * | 2015-08-31 | 2016-01-06 | 电子科技大学 | 基于运动信息和轨迹关联的视频行人检测和跟踪方法 |
CN107092883A (zh) * | 2017-04-20 | 2017-08-25 | 上海极链网络科技有限公司 | 物体识别追踪方法 |
CN107644204A (zh) * | 2017-09-12 | 2018-01-30 | 南京凌深信息科技有限公司 | 一种用于安防系统的人体识别与跟踪方法 |
Non-Patent Citations (2)
Title |
---|
JUNJUE WANG 等: "A Scalable and Privacy-Aware IoT Service for Live Video Analytics", 《PROCEEDINGS OF THE 8TH ACM ON MULTIMEDIA SYSTEMS CONFERENCE》 * |
NICOLAI WOJKE 等: "SIMPLE ONLINE AND REALTIME TRACKING WITH A DEEP ASSOCIATION METRIC", 《2017 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP)》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108876817A (zh) * | 2018-06-01 | 2018-11-23 | 深圳市商汤科技有限公司 | 交叉轨迹分析方法及装置、电子设备和存储介质 |
CN109493369A (zh) * | 2018-09-11 | 2019-03-19 | 深圳控石智能系统有限公司 | 一种智能机器人视觉动态定位跟踪方法及系统 |
CN109493369B (zh) * | 2018-09-11 | 2020-12-29 | 深圳控石智能系统有限公司 | 一种智能机器人视觉动态定位跟踪方法及系统 |
CN109325467A (zh) * | 2018-10-18 | 2019-02-12 | 广州云从人工智能技术有限公司 | 一种基于视频检测结果的车辆跟踪方法 |
CN109635657A (zh) * | 2018-11-12 | 2019-04-16 | 平安科技(深圳)有限公司 | 目标跟踪方法、装置、设备及存储介质 |
CN109635657B (zh) * | 2018-11-12 | 2023-01-06 | 平安科技(深圳)有限公司 | 目标跟踪方法、装置、设备及存储介质 |
CN109508675A (zh) * | 2018-11-14 | 2019-03-22 | 广州广电银通金融电子科技有限公司 | 一种针对复杂场景的行人检测方法 |
WO2020155873A1 (zh) * | 2019-02-02 | 2020-08-06 | 福州大学 | 一种基于深度表观特征和自适应聚合网络的多人脸跟踪方法 |
CN110046548A (zh) * | 2019-03-08 | 2019-07-23 | 深圳神目信息技术有限公司 | 人脸的跟踪方法、装置、计算机设备和可读存储介质 |
CN110163124A (zh) * | 2019-04-30 | 2019-08-23 | 北京易华录信息技术股份有限公司 | 一种轨迹追踪处理系统 |
CN110110649A (zh) * | 2019-05-02 | 2019-08-09 | 西安电子科技大学 | 基于速度方向的可选择性人脸检测方法 |
CN110110649B (zh) * | 2019-05-02 | 2023-04-07 | 西安电子科技大学 | 基于速度方向的可选择性人脸检测方法 |
CN110610120A (zh) * | 2019-05-16 | 2019-12-24 | 宁波中国科学院信息技术应用研究院 | 一种人脸轨迹匹配方法 |
CN110610120B (zh) * | 2019-05-16 | 2024-04-26 | 宁波中科信息技术应用研究院(宁波人工智能产业研究院) | 一种人脸轨迹匹配方法 |
CN111444766A (zh) * | 2020-02-24 | 2020-07-24 | 浙江科技学院 | 基于图像处理的车辆追踪方法、装置、计算机设备和存储介质 |
CN111444766B (zh) * | 2020-02-24 | 2021-07-20 | 浙江科技学院 | 基于图像处理的车辆追踪方法、装置、计算机设备和存储介质 |
CN111640134A (zh) * | 2020-05-22 | 2020-09-08 | 深圳市赛为智能股份有限公司 | 人脸跟踪方法、装置、计算机设备及其存储装置 |
CN111640134B (zh) * | 2020-05-22 | 2023-04-07 | 深圳市赛为智能股份有限公司 | 人脸跟踪方法、装置、计算机设备及其存储装置 |
CN112449155A (zh) * | 2020-10-21 | 2021-03-05 | 苏州怡林城信息科技有限公司 | 一种保护人员隐私的视频监控方法和系统 |
CN113111847A (zh) * | 2021-04-29 | 2021-07-13 | 四川隧唐科技股份有限公司 | 一种工序循环的自动监测方法、装置和系统 |
CN113344968A (zh) * | 2021-05-18 | 2021-09-03 | 苏州云视图信息科技有限公司 | 一种果园水果识别与产量统计系统和方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363997A (zh) | 一种在视频中对特定人的实时跟踪方法 | |
Singh et al. | A deeply coupled ConvNet for human activity recognition using dynamic and RGB images | |
CN111666843B (zh) | 一种基于全局特征和局部特征拼接的行人重识别方法 | |
CN111709311B (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
CN110781838A (zh) | 一种复杂场景下行人的多模态轨迹预测方法 | |
CN112784763B (zh) | 基于局部与整体特征自适应融合的表情识别方法及系统 | |
CN106909938B (zh) | 基于深度学习网络的视角无关性行为识别方法 | |
CN109871780B (zh) | 一种人脸质量判决方法、系统及人脸识别方法、系统 | |
CN109063666A (zh) | 基于深度可分离卷积的轻量化人脸识别方法及系统 | |
CN109902573A (zh) | 面向矿井下视频监控的多摄像机无标注行人重识别方法 | |
CN108197587A (zh) | 一种通过人脸深度预测进行多模态人脸识别的方法 | |
CN107657249A (zh) | 多尺度特征行人重识别的方法、装置、存储介质及处理器 | |
CN106997629A (zh) | 门禁控制方法、装置及系统 | |
CN108961675A (zh) | 基于卷积神经网络的跌倒检测方法 | |
CN108805140B (zh) | 一种基于lbp的特征快速提取方法及人脸识别系统 | |
WO2020001083A1 (zh) | 一种基于特征复用的人脸识别方法 | |
CN106687989A (zh) | 使用标志子集内的线性关系进行面部表情识别的方法和系统 | |
CN107818299A (zh) | 基于融合hog特征和深度信念网络的人脸识别算法 | |
CN108875907A (zh) | 一种基于深度学习的指纹识别方法和装置 | |
CN108345900A (zh) | 基于颜色纹理分布特征的行人重识别方法及其系统 | |
Xia et al. | Face occlusion detection using deep convolutional neural networks | |
CN112200176A (zh) | 人脸图像的质量检测方法、系统和计算机设备 | |
Zhu et al. | Unsupervised voice-face representation learning by cross-modal prototype contrast | |
CN109858351B (zh) | 一种基于层级实时记忆的步态识别方法 | |
Shf et al. | Review on deep based object detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180803 |
|
RJ01 | Rejection of invention patent application after publication |