CN109472248B - 一种行人重识别方法、系统及电子设备和存储介质 - Google Patents
一种行人重识别方法、系统及电子设备和存储介质 Download PDFInfo
- Publication number
- CN109472248B CN109472248B CN201811398695.8A CN201811398695A CN109472248B CN 109472248 B CN109472248 B CN 109472248B CN 201811398695 A CN201811398695 A CN 201811398695A CN 109472248 B CN109472248 B CN 109472248B
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- attention
- pedestrian
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Abstract
本申请公开了一种行人重识别方法、系统及一种电子设备和计算机可读存储介质,该方法包括:获取视频集,并确定目标行人图像;提取目标行人图像的目标特征,并将目标特征输入NSN中提取视频集中每一帧图像的待识别图像;利用MN网络生成相邻帧的待识别图像的光流图;将所有待识别图像和所有光流图输入LSTM网络中,得到融合多帧图像信息的融合图片;利用训练完成的人体特征提取网络提取融合图片的全局特征图和部分注意力图,并将每一部分注意力图分别与全局特征图融合为融合部分注意力特征图;通过全局平均池形成每一部分注意力融合特征图的融合特征向量,并将所有融合特征向量连接为全局特征向量,提高了行人重识别的识别准确率。
Description
技术领域
本申请涉及计算机技术领域,更具体地说,涉及一种行人重识别方法、系统及一种电子设备和一种计算机可读存储介质。
背景技术
行人重识别是公共安防方面的一项重要的技术,寻找走丢的人和搜查罪犯的行踪上都能发挥很大的作用。由于卷积神经网络技术的推进,行人重识别技术开始推进,目前的行人重识别利用卷积识别网络基于单帧图像的局部特征,需要将待识别图像与目标行人的图像的每一个人体部位对齐,否则可能出现类似于头和上半身比较的差错,而且还会存在噪音的干扰,导致识别结果不准确。
因此,如何提高行人重识别的识别准确率是本领域技术人员需要解决的技术问题。
发明内容
本申请的目的在于提供一种行人重识别方法、系统及一种电子设备和一种计算机可读存储介质,提高了行人重识别的识别准确率。
为实现上述目的,本申请提供了一种行人重识别方法,包括:
获取视频集,并确定目标行人图像;
提取所述目标行人图像的目标特征,并将所述目标特征输入NSN中提取所述视频集中每一帧图像的待识别图像;
利用MN网络生成相邻帧的所述待识别图像的光流图;
将所有所述待识别图像和所有所述光流图输入LSTM网络中,得到融合多帧图像信息的融合图片;
利用训练完成的人体特征提取网络提取所述融合图片的全局特征图和部分注意力图,并将每一所述部分注意力图分别与所述全局特征图融合为融合部分注意力特征图;
通过全局平均池形成每一所述部分注意力融合特征图的融合特征向量,并将所有所述融合特征向量连接为全局特征向量,以便利用所述全局特征向量进行行人重识别。
其中,提取所述目标行人图像的目标特征,包括:
将所述目标行人图像输入CNN网络中提取所述目标行人图像的目标特征。
其中,将所述目标特征输入NSN中提取所述视频集中每一帧图像的待识别图像,包括:
S21:将所述视频集中每一帧图像确定为待输入图像;
S22:将所述待输入图像输入CNN网络中提取所述每一帧图像的图像特征,并将所述目标特征和所述图像特征输入所述NSN中得到注意力图;
S23:将所述注意力图输入RPN网络中产生候选框,并从所有所述候选框中选取得分最高的最优框;
S24:判断是否达到预设的迭代次数,若是,则将所述最优框作为所述待识别图像;若否,则将所述最优框作为所述待输入图像,并进入S22。
其中,所述从所有所述候选框中选取得分最高的最优框,包括:
根据每个所述候选框对应的所述注意力图利用预设的激活函数计算每个所述候选框的得分,并选取所述得分最高的候选框为所述最优框。
其中,所述利用MN网络生成相邻帧的所述待识别图像的光流图,包括:
利用所述MN网络生成相邻帧的所述待识别图像的预设数量个不同尺寸的中间光流图;
对所述中间光流图进行反卷积尺寸扩大操作后,将所有所述中间光流图融合为所述光流图。
其中,还包括:
获取训练样本图片和所述训练样本图片每一部分特征的预测注意力图;其中,所述部分特征包括K特征、R特征和N特征;其中,所述K特征为表征人体关键点的特征,R特征为表征人体固定部分的特征,N特征表征人体活动部分的特征;
将所述训练样本图片输入人体特征提取网络得到所述每一部分特征的注意力图;
利用所述注意力图和所述预测注意力图计算所述每一部分特征的LOSS值;
按照预设权重规则计算所有所述LOSS值的加权和,并利用所述加权和优化所述人体特征提取网络得到所述训练完成的人体特征提取网络。
其中,所述利用训练完成的人体特征提取网络提取所述融合图片的全局特征图和部分注意力图,并将每一所述部分注意力图分别与所述全局特征图融合为融合部分注意力特征图,包括:
将所述融合图片输入所述训练完成的人体特征提取网络得到所述融合图片的全局特征图;
根据所述全局特征图提取所述融合图片的每一部分特征的部分注意力图;
将所述全局特征图和所有所述部分注意力图融合为中间注意力图,并根据所述中间注意力图提取所述每一部分特征的最终部分注意力图;
将所述R特征、所述N特征对应的最终部分注意力图和所述全局特征图融合为所述融合部分注意力特征图。
为实现上述目的,本申请提供了一种行人重识别系统,包括:
获取模块,用于获取视频集,并确定目标行人图像;
第一提取模块,用于提取所述目标行人图像的目标特征,并将所述目标特征输入NSN中提取所述视频集中每一帧图像的待识别图像;
生成模块,用于利用MN网络生成相邻帧的所述待识别图像的光流图;
融合模块,用于将所有所述待识别图像和所有所述光流图输入LSTM网络中,得到融合多帧图像信息的融合图片;
第二提取模块,用于利用训练完成的人体特征提取网络提取所述融合图片的全局特征图和部分注意力图,并将每一所述部分注意力图分别与所述全局特征图融合为融合部分注意力特征图;
连接模块,用于通过全局平均池形成每一所述部分注意力融合特征图的融合特征向量,并将所有所述融合特征向量连接为全局特征向量,以便利用所述全局特征向量进行行人重识别。
为实现上述目的,本申请提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述行人重识别方法的步骤。
为实现上述目的,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述行人重识别方法的步骤。
通过以上方案可知,本申请提供的一种行人重识别方法,包括:获取视频集,并确定目标行人图像;提取所述目标行人图像的目标特征,并将所述目标特征输入NSN中提取所述视频集中每一帧图像的待识别图像;利用MN网络生成相邻帧的所述待识别图像的光流图;将所有所述待识别图像和所有所述光流图输入LSTM网络中,得到融合多帧图像信息的融合图片;利用训练完成的人体特征提取网络提取所述融合图片的全局特征图和部分注意力图,并将每一所述部分注意力图分别与所述全局特征图融合为融合部分注意力特征图;通过全局平均池形成每一所述部分注意力融合特征图的融合特征向量,并将所有所述融合特征向量连接为全局特征向量,以便利用所述全局特征向量进行行人重识别。
本申请提供的行人重识别方法,利用LSTM网络结合多帧连续的行人图像来进行关键信息的提取,保留关键的信息,丢弃噪音数据来形成较为完整的融合特征图,解决了遮挡问题,解决了只使用单一图片的不足。采用网络提取了人体每一个部位的部分注意力图,最大限度的降低了行人所处区域的背景噪音数据,使得识别效果更加精确。本申请还公开了一种行人重识别系统及一种电子设备和一种计算机可读存储介质,同样能实现上述技术效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种行人重识别方法的流程图;
图2为图1中步骤S102的细化流程图;
图3为CNN网络的结构图;
图4为本申请实施例公开的另一种行人重识别方法的流程图;
图5为人体特征提取网络的结构图;
图6为图1中步骤S105的细化流程图;
图7为本申请实施例公开的一种行人重识别系统的结构图;
图8为本申请实施例公开的一种电子设备的结构图;
图9为本申请实施例公开的另一种电子设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例公开了一种行人重识别方法,提高了行人重识别的识别准确率。
参见图1,本申请实施例公开的一种行人重识别方法的流程图,如图1所示,包括:
S101:获取视频集,并确定目标行人图像;
本实施例提供的行人重识别方法可以应用于视频领域,即在视频集中确定目标行人。在本步骤中,首先获取视频集和目标行人图像,以便后续步骤进行特征对比。
S102:提取所述目标行人图像的目标特征,并将所述目标特征输入NSN中提取所述视频集中每一帧图像的待识别图像;
在具体实施中,首先提取上述目标行人图像的目标特征,将该目标特征输入NSN(Neural Search Networks)中的每一层以提取视频集中每一帧图像的待识别图像。优选的,可以将目标行人图像输入CNN网络(卷积神经网络)中提取目标行人图像的目标特征。
NSN主要的核心就是一个Conv-LSTM网络,CNN网络采用的是Resnet50。Resnet50被分成了两部分,而本步骤中的CNN网络只使用浅层,将目标行人图像输入CNN网络的浅层可以得到上述目标特征。NSN中提取每一帧图像待识别图像的过程将在下一实施例进行详细介绍。
S103:利用MN网络生成相邻帧的所述待识别图像的光流图;
在具体实施中,相邻的两张图片会经过光流图预测网络MN(Motion network)产生光流图,以便在下一步骤中与前一张待识别图像融合之后输入到LSTM网络(中文全称:长短期记忆网络,英文全称:Long Short-Term Memory)中提取图片序列信息,保留关键数据去除噪音数据,生成行人完整的特征图片。
MN网络是一个时间步长的运动网络结构,它有6个卷积层,其中每一层都有两个阶段,每一层之后都有一个tanh非线性激活函数。输入是大小为H×W×6的连续的同一个人帧。为了提供密集的每个像素预测,几个卷积层应用于卷积层的输出特征映射和运动预测以细化粗糙的池化特征表示。
优选的,本步骤可以包括:利用所述MN网络生成相邻帧的所述待识别图像的预设数量个不同尺寸的中间光流图;对所述中间光流图进行反卷积尺寸扩大操作后,将所有所述中间光流图融合为所述光流图。
在具体实施中,网络可以分别在不同尺度的层,预测三种尺寸大小的光流图,分别为Pred1,Pred2,Pred3,之后将前一层预测的光流图,经过反卷积使尺寸扩大之后传递到下一层进行融合预测新的光流图。最后生成的光流图是由三种尺寸大小的光流图融合生成的。
预测生成的光流图和用传统光流提取方法提取的样本代入损失函数,通过最小化预测光流图和提取光流图的误差,网络能够提取出较准确的运动特征。还能利用光流图框出人物的轮廓在后续步骤中可以起到加强特征提取的作用。
S104:将所有所述待识别图像和所有所述光流图输入LSTM网络中,得到融合多帧图像信息的融合图片;
在具体实施中,由于单帧的图片所表达的信息有限,而且在野外场景,人体有很大的概率会被障碍物所遮挡,这样会造成人体部位的部分信息丢失或者会被网络误认为是人体的某一部分而产生噪音数据。因此,将步骤S102中生成的行人原图(即待识别图像)和相邻帧之间行人在MN网络生成的光流图经过融合之后输入到LSTM网络中,串联融合多帧的信息,使提取到的信息更加丰富,且利用了上下帧之间的联系信息。
S105:利用训练完成的人体特征提取网络提取所述融合图片的全局特征图和部分注意力图,并将每一所述部分注意力图分别与所述全局特征图融合为融合部分注意力特征图;
在具体实施中,将融合图片送入训练完成的人体特征提取网络中,融合图片经过卷积之后产生全局特征图,并根据该全局特征图提取每一部分的部分注意力图,每一部分的部分注意力图再结合全局特征图再一次细化每个部位的部分注意力图,得到每一部分对应的融合部分注意力特征图。
S106:通过全局平均池形成每一所述融合部分注意力特征图的融合特征向量,并将所有所述融合特征向量连接为全局特征向量,以便利用所述全局特征向量进行行人重识别。
在本实施例中,可以通过全局平均池形成每一融合部分注意力特征图的融合特征向量,并将所有融合特征向量连接为全局特征向量,最终得到的全局特征向量可用于行人重识别。
本申请实施例提供的行人重识别方法,利用LSTM网络结合多帧连续的行人图像来进行关键信息的提取,保留关键的信息,丢弃噪音数据来形成较为完整的融合特征图,解决了遮挡问题,解决了只使用单一图片的不足。采用网络提取了人体每一个部位的部分注意力图,最大限度的降低了行人所处区域的背景噪音数据,使得识别效果更加精确。
下面详细介绍提取视频集中每一帧图像的待识别图像的步骤,即如图2所示,上述实施例中的S102中将所述目标特征输入NSN中提取所述视频集中每一帧图像的待识别图像的步骤可以包括:
S21:将所述视频集中每一帧图像确定为待输入图像;
在本实施例中,首先将视频集的每一帧图像依此作为待输入图像,如图3所示输入CNN网络中。
S22:将所述待输入图像输入CNN网络中提取所述每一帧图像的图像特征,并将所述目标特征和所述图像特征输入所述NSN中得到注意力图;
对于上一步骤确定的待输入图像,将其输入CNN网络中提取图像特征,此步骤与上一实施例介绍的提取目标行人图像的目标特征相同。利用NSN中的ROI pooling中将目标特征和图像特征变成统一的像素大小的特征图,之后将统一了像素大小的目标特征和图像特征输入到NSN(一个类似LSTM的cell的一个模块)产生注意力图。产生注意力图Zt的公式为:
Zt=Wt×tanh(Wqa×q+Wha×ht+ba);
其中,q为目标特征,t为当前的迭代次数,h为当前迭代次数中CNN网络提取的当前帧a的图像特征,W为参数矩阵,可以通过网络进行训练得到,tanh()为一种可选的激活函数,ba为该激活函数中的当前帧a对应的常数。
S23:将所述注意力图输入RPN网络中产生候选框,并从所有所述候选框中选取得分最高的最优框;
在具体实施中,将注意力图输入RPN网络中产生候选框,并从所有候选框中选取得分最高的最优框选出分数最高的框,进行回归精修产生新的待输入图像。
优选的,可以根据每个所述候选框对应的所述注意力图利用预设的激活函数计算每个所述候选框的得分,并选取所述得分最高的候选框为所述最优框。每个候选框的得分为该候选框中每个像素点的得分和,每个像素点的得分为:
S24:判断是否达到预设的迭代次数,若是,则将所述最优框作为所述待识别图像;若否,则将述待所述最优框作为所输入图像,并进入S22。
在具体实施中,将第一阶段得到的待输入图像和目标特征都输入第二阶段的NSN中获得新的待输入图像,不断循环上述过程制动达到预设的迭代次数,直到框出了一个行人的待识别图像。
由此可见,在本实施例中,基于传统的LSTM的cell考虑上一次迭代过程中的图像特征ht-1和当前的输入xt,在NSN中进一步增加了目标特征q,该目标特征q一直保持不变,最终改进后的LSTM的公式如下:
it=σ(Wxi×xt+Whi×ht-1+Wqi×q+bi);
ft=σ(Wxf×xt+Whf×ht-1+Wqf×q+bf);
ot=σ(Wxo×xt+Who×ht-1+Wqo×q+bo);
gt=tanh(Wxc×xt+Whc×ht-1+Wqc×q+bc);
ct=ft⊙ct-1+it⊙gt;
ht=ot⊙tanh(ct);
其中,t为当前的迭代次数,W为参数矩阵,i为LSTM的输入门,f为LSTM的遗忘门,o为LSTM的输出门,g、c为LSTM中的中间变量,tanh()为一种可选的激活函数,σ()为Sigmod()激活函数,将数值映射到0~1的范围内,bi、bf、bo和bc为σ()函数中的常数,ht为当前迭代过程中的图像特征,⊙为同或运算。
可以理解的是,上述实施例默认存在人体特征提取网络的训练过程。具体的:
参见图4,本申请实施例提供的另一种行人重识别方法的流程图,如图4所示,包括:
S201:获取训练样本图片和所述训练样本图片每一部分特征的预测注意力图;其中,所述部分特征包括K特征、R特征和N特征;其中,所述K特征为表征人体关键点的特征,R特征为表征人体固定部分的特征,N特征表征人体活动部分的特征;
其中,K部分为人体的14个关键点。N部分为非固定性的人体部位,即容易产生活动、会受到姿态的变化而大幅度改变的部位,如大腿、小腿、头、手杆、手臂等,具体位置就是在关键点之间的连接线。R部分为固定性的人体部位,即不会因为姿态的改变产生大幅度变化的部位,也为关键点之间的连接点。
在本步骤中,首先获取训练样本图片和其对应的每一部分特征的预测注意力图,以便在下一步骤中计算LOSS值。
S202:将所述训练样本图片输入人体特征提取网络得到所述每一部分特征的注意力图;
S203:利用所述注意力图和所述预测注意力图计算所述每一部分特征的LOSS值;
S204:按照预设权重规则计算所有所述LOSS值的加权和,并利用所述加权和优化所述人体特征提取网络得到所述训练完成的人体特征提取网络。
在本实施例中,如图5所示,将训练样本图片输入人体特征提取网络得到K特征、R特征和N特征的注意力图,具体的过程与上一实施例介绍的一致,即经过卷积之后产生全局特征图,并根据该全局特征图提取每一部分的部分注意力图,每一部分的部分注意力图再结合全局特征图再一次细化每个部位的部分注意力图,得到每一部分对应的注意力图。
之后利用注意力图和预测注意力图计算LOSS值,用优化器去优化LOSS值,公式如下:
其中,i为人体的第i个关键点,p为人体的第p个部位,和分别为训练样本图片K部分、N部分和R部分对应的通过人体提取网络提取得到的注意力图,Ki、Np和Rp分别为训练样本图片K部分、N部分和R部分对应的预测注意力图,Lk(K)、Ln(N)、Lr(R)分别为K特征、N特征和R特征对应的LOSS值,s为优化LOSS值的阶段,取值为1或2,Ck=14,Cn=11,Cr=3,μ1和μ2分别为N特征和R特征对应的权重值,L为最终得到的加权和。
通过本实施例的方法得到训练完成的人体特征提取网络后,相应的如图6所示,第一实施例中的S105可以包括以下步骤:
S51:将所述融合图片输入所述训练完成的人体特征提取网络得到所述融合图片的全局特征图;
S52:根据所述全局特征图提取所述融合图片的每一部分特征的部分注意力图;
S53:将所述全局特征图和所有所述部分注意力图融合为中间注意力图,并根据所述中间注意力图提取所述每一部分特征的最终部分注意力图;
S54:将所述R特征、所述N特征对应的最终部分注意力图和所述全局特征图融合为所述融合部分注意力特征图。
在具体实施中,将R特征、N特征对应的最终部分注意力图和全局特征图再一次结合起来,生成新的融合特征图,即上述的融合部分注意力特征图,通过全局平均池形成每一融合特征图的融合特征向量,并将所有融合特征向量连接为全局特征向量。具体公式为:
fd=σgap(Fd);
其中,F为全局特征图,Md为R特征或N特征对应的最终部分注意力图,Fd为R特征或N特征对应的融合部分注意力特征图,σgap()为全局平均池的算法,fd为融合特征向量,f为全局特征向量。
下面对本申请实施例提供的一种行人重识别系统进行介绍,下文描述的一种行人重识别系统与上文描述的一种行人重识别方法可以相互参照。
参见图7,本申请实施例提供的一种行人重识别系统的结构图,如图7所示,包括:
获取模块701,用于获取视频集,并确定目标行人图像;
第一提取模块702,用于提取所述目标行人图像的目标特征,并将所述目标特征输入NSN中提取所述视频集中每一帧图像的待识别图像;
生成模块703,用于利用MN网络生成相邻帧的所述待识别图像的光流图;
融合模块704,用于将所有所述待识别图像和所有所述光流图输入LSTM网络中,得到融合多帧图像信息的融合图片;
第二提取模块705,用于利用训练完成的人体特征提取网络提取所述融合图片的全局特征图和部分注意力图,并将每一所述部分注意力图分别与所述全局特征图融合为融合部分注意力特征图;
连接模块706,用于通过全局平均池形成每一所述部分注意力融合特征图的融合特征向量,并将所有所述融合特征向量连接为全局特征向量,以便利用所述全局特征向量进行行人重识别。
本申请实施例提供的行人重识别系统,利用LSTM网络结合多帧连续的行人图像来进行关键信息的提取,保留关键的信息,丢弃噪音数据来形成较为完整的融合特征图,解决了遮挡问题,解决了只使用单一图片的不足。采用网络提取了人体每一个部位的部分注意力图,最大限度的降低了行人所处区域的背景噪音数据,使得识别效果更加精确。
在上述实施例的基础上,作为一种优选上述方式,所述第一提取模块702具体为将所述目标行人图像输入CNN网络中提取所述目标行人图像的目标特征,并将所述目标特征输入NSN中提取所述视频集中每一帧图像的待识别图像的模块。
在上述实施例的基础上,作为一种优选上述方式,所述第一提取模块702包括:
第一提取单元,用于提取所述目标行人图像的目标特征;
确定单元,用于将所述视频集中每一帧图像确定为待输入图像;
第一输入单元,用于将所述待输入图像输入CNN网络中提取所述每一帧图像的图像特征,并将所述目标特征和所述图像特征输入所述NSN中得到注意力图;
选取单元,用于将所述注意力图输入RPN网络中产生候选框,并从所有所述候选框中选取得分最高的最优框;
判断单元,用于判断是否达到预设的迭代次数,若是,则将所述最优框作为所述待识别图像;若否,则将所述最优框作为所述待输入图像,并启动所述确定单元的工作流程。
在上述实施例的基础上,作为一种优选上述方式,所述选取单元具体为将所述注意力图输入RPN网络中产生候选框,根据每个所述候选框对应的所述注意力图利用预设的激活函数计算每个所述候选框的得分,并选取所述得分最高的候选框为所述最优框的单元。
在上述实施例的基础上,作为一种优选上述方式,所述生成模块703包括:
生成单元,用于利用所述MN网络生成相邻帧的所述待识别图像的预设数量个不同尺寸的中间光流图;
第一融合单元,用于对所述中间光流图进行反卷积尺寸扩大操作后,将所有所述中间光流图融合为所述光流图。
在上述实施例的基础上,作为一种优选上述方式,还包括:
获取训练样本模块,用于获取训练样本图片和所述训练样本图片每一部分特征的预测注意力图;其中,所述部分特征包括K特征、R特征和N特征;其中,所述K特征为表征人体关键点的特征,R特征为表征人体固定部分的特征,N特征表征人体活动部分的特征;
第三提取模块,用于将所述训练样本图片输入人体特征提取网络得到所述每一部分特征的注意力图;
计算模块,用于利用所述注意力图和所述预测注意力图计算所述每一部分特征的LOSS值;
优化模块,用于按照预设权重规则计算所有所述LOSS值的加权和,并利用所述加权和优化所述人体特征提取网络得到所述训练完成的人体特征提取网络。
在上述实施例的基础上,作为一种优选上述方式,所述融合模块704包括:
第二输入单元,用于将所述融合图片输入所述训练完成的人体特征提取网络得到所述融合图片的全局特征图;
第二提取单元,用于根据所述全局特征图提取所述融合图片的每一部分特征的部分注意力图;
第二融合单元,用于将所述全局特征图和所有所述部分注意力图融合为中间注意力图,并根据所述中间注意力图提取所述每一部分特征的最终部分注意力图;
第三融合单元,用于将所述R特征、所述N特征对应的最终部分注意力图和所述全局特征图融合为所述融合部分注意力特征图。
本申请还提供了一种电子设备,参见图8,本申请实施例提供的一种电子设备的结构图,如图8所示,包括:
存储器100,用于存储计算机程序;
处理器200,用于执行所述计算机程序时可以实现上述实施例所提供的步骤。
具体的,存储器100包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令,该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。处理器200在一些实施例中可以是一中央处理器(CentralProcessing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,为电子设备提供计算和控制能力,执行所述存储器100中保存的计算机程序时,可以实现上述任一实施例提供的行人重识别方法的步骤。
本申请实施例利用LSTM网络结合多帧连续的行人图像来进行关键信息的提取,保留关键的信息,丢弃噪音数据来形成较为完整的融合特征图,解决了遮挡问题,解决了只使用单一图片的不足。采用网络提取了人体每一个部位的部分注意力图,最大限度的降低了行人所处区域的背景噪音数据,使得识别效果更加精确。
在上述实施例的基础上,作为优选实施方式,参见图9,所述电子设备还包括:
输入接口300,与处理器200相连,用于获取外部导入的计算机程序、参数和指令,经处理器200控制保存至存储器100中。该输入接口300可以与输入装置相连,接收用户手动输入的参数或指令。该输入装置可以是显示屏上覆盖的触摸层,也可以是终端外壳上设置的按键、轨迹球或触控板,也可以是键盘、触控板或鼠标等。
显示单元400,与处理器200相连,用于显示处理器12处理的数据以及用于显示可视化的用户界面。该显示单元15可以为LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。
网络端口500,与处理器200相连,用于与外部各终端设备进行通信连接。该通信连接所采用的通信技术可以为有线通信技术或无线通信技术,如移动高清链接技术(MHL)、通用串行总线(USB)、高清多媒体接口(HDMI)、无线保真技术(WiFi)、蓝牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术等。
图9仅示出了具有组件100-500的电子设备,本领域技术人员可以理解的是,图9示出的结构并不构成对电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
本申请还提供了一种计算机可读存储介质,该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。该存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例提供的行人重识别方法的步骤。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (9)
1.一种行人重识别方法,其特征在于,包括:
获取视频集,并确定目标行人图像;
提取所述目标行人图像的目标特征,并将所述目标特征输入NSN中提取所述视频集中每一帧图像的待识别图像;
利用MN网络生成相邻帧的所述待识别图像的光流图;
将所有所述待识别图像和所有所述光流图输入LSTM网络中,得到融合多帧图像信息的融合图片;
利用训练完成的人体特征提取网络提取所述融合图片的全局特征图和部分注意力图,并将每一所述部分注意力图分别与所述全局特征图融合为融合部分注意力特征图;
通过全局平均池形成每一所述部分注意力融合特征图的融合特征向量,并将所有所述融合特征向量连接为全局特征向量,以便利用所述全局特征向量进行行人重识别;
其中,还包括:
获取训练样本图片和所述训练样本图片每一部分特征的预测注意力图;其中,所述部分特征包括K特征、R特征和N特征;其中,所述K特征为表征人体关键点的特征,R特征为表征人体固定部分的特征,N特征表征人体活动部分的特征;
将所述训练样本图片输入人体特征提取网络得到所述每一部分特征的注意力图;
利用所述注意力图和所述预测注意力图计算所述每一部分特征的LOSS值;
按照预设权重规则计算所有所述LOSS值的加权和,并利用所述加权和优化所述人体特征提取网络得到所述训练完成的人体特征提取网络。
2.根据权利要求1所述行人重识别方法,其特征在于,提取所述目标行人图像的目标特征,包括:
将所述目标行人图像输入CNN网络中提取所述目标行人图像的目标特征。
3.根据权利要求1所述行人重识别方法,其特征在于,将所述目标特征输入NSN中提取所述视频集中每一帧图像的待识别图像,包括:
S21:将所述视频集中每一帧图像确定为待输入图像;
S22:将所述待输入图像输入CNN网络中提取所述每一帧图像的图像特征,并将所述目标特征和所述图像特征输入所述NSN中得到注意力图;
S23:将所述注意力图输入RPN网络中产生候选框,并从所有所述候选框中选取得分最高的最优框;
S24:判断是否达到预设的迭代次数,若是,则将所述最优框作为所述待识别图像;若否,则将所述最优框作为所述待输入图像,并进入S22。
4.根据权利要求3所述行人重识别方法,其特征在于,所述从所有所述候选框中选取得分最高的最优框,包括:
根据每个所述候选框对应的所述注意力图利用预设的激活函数计算每个所述候选框的得分,并选取所述得分最高的候选框为所述最优框。
5.根据权利要求1所述行人重识别方法,其特征在于,所述利用MN网络生成相邻帧的所述待识别图像的光流图,包括:
利用所述MN网络生成相邻帧的所述待识别图像的预设数量个不同尺寸的中间光流图;
对所述中间光流图进行反卷积尺寸扩大操作后,将所有所述中间光流图融合为所述光流图。
6.根据权利要求1所述行人重识别方法,其特征在于,所述利用训练完成的人体特征提取网络提取所述融合图片的全局特征图和部分注意力图,并将每一所述部分注意力图分别与所述全局特征图融合为融合部分注意力特征图,包括:
将所述融合图片输入所述训练完成的人体特征提取网络得到所述融合图片的全局特征图;
根据所述全局特征图提取所述融合图片的每一部分特征的部分注意力图;
将所述全局特征图和所有所述部分注意力图融合为中间注意力图,并根据所述中间注意力图提取所述每一部分特征的最终部分注意力图;
将所述R特征、所述N特征对应的最终部分注意力图和所述全局特征图融合为所述融合部分注意力特征图。
7.一种行人重识别系统,其特征在于,包括:
获取模块,用于获取视频集,并确定目标行人图像;
第一提取模块,用于提取所述目标行人图像的目标特征,并将所述目标特征输入NSN中提取所述视频集中每一帧图像的待识别图像;
生成模块,用于利用MN网络生成相邻帧的所述待识别图像的光流图;
融合模块,用于将所有所述待识别图像和所有所述光流图输入LSTM网络中,得到融合多帧图像信息的融合图片;
第二提取模块,用于利用训练完成的人体特征提取网络提取所述融合图片的全局特征图和部分注意力图,并将每一所述部分注意力图分别与所述全局特征图融合为融合部分注意力特征图;
连接模块,用于通过全局平均池形成每一所述部分注意力融合特征图的融合特征向量,并将所有所述融合特征向量连接为全局特征向量,以便利用所述全局特征向量进行行人重识别;
其中,还包括:
获取训练样本模块,用于获取训练样本图片和所述训练样本图片每一部分特征的预测注意力图;其中,所述部分特征包括K特征、R特征和N特征;其中,所述K特征为表征人体关键点的特征,R特征为表征人体固定部分的特征,N特征表征人体活动部分的特征;
第三提取模块,用于将所述训练样本图片输入人体特征提取网络得到所述每一部分特征的注意力图;
计算模块,用于利用所述注意力图和所述预测注意力图计算所述每一部分特征的LOSS值;
优化模块,用于按照预设权重规则计算所有所述LOSS值的加权和,并利用所述加权和优化所述人体特征提取网络得到所述训练完成的人体特征提取网络。
8.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述行人重识别方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述行人重识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811398695.8A CN109472248B (zh) | 2018-11-22 | 2018-11-22 | 一种行人重识别方法、系统及电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811398695.8A CN109472248B (zh) | 2018-11-22 | 2018-11-22 | 一种行人重识别方法、系统及电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109472248A CN109472248A (zh) | 2019-03-15 |
CN109472248B true CN109472248B (zh) | 2022-03-25 |
Family
ID=65673175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811398695.8A Active CN109472248B (zh) | 2018-11-22 | 2018-11-22 | 一种行人重识别方法、系统及电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109472248B (zh) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753574A (zh) * | 2019-03-26 | 2020-10-09 | 顺丰科技有限公司 | 抛扔区域定位方法、装置、设备及存储介质 |
CN111783497A (zh) * | 2019-04-03 | 2020-10-16 | 北京京东尚科信息技术有限公司 | 视频中目标的特征确定方法、装置和计算机可读存储介质 |
CN110059744B (zh) * | 2019-04-16 | 2022-10-25 | 腾讯科技(深圳)有限公司 | 训练神经网络的方法、图像处理的方法、设备及存储介质 |
CN109903289B (zh) * | 2019-04-17 | 2023-05-05 | 广东工业大学 | 一种太赫兹图像无损检测的方法、装置以及设备 |
CN110175527B (zh) | 2019-04-29 | 2022-03-25 | 北京百度网讯科技有限公司 | 行人再识别方法及装置、计算机设备及可读介质 |
CN110110642B (zh) * | 2019-04-29 | 2020-12-22 | 华南理工大学 | 一种基于多通道注意力特征的行人重识别方法 |
CN110070073A (zh) * | 2019-05-07 | 2019-07-30 | 国家广播电视总局广播电视科学研究院 | 基于注意力机制的全局特征和局部特征的行人再识别方法 |
CN111783506A (zh) * | 2019-05-17 | 2020-10-16 | 北京京东尚科信息技术有限公司 | 目标特征的确定方法、装置和计算机可读存储介质 |
CN110197154B (zh) * | 2019-05-30 | 2021-09-21 | 汇纳科技股份有限公司 | 融合部位纹理三维映射的行人重识别方法、系统、介质及终端 |
CN111460876B (zh) | 2019-06-05 | 2021-05-25 | 北京京东尚科信息技术有限公司 | 用于识别视频的方法和装置 |
CN110246171B (zh) * | 2019-06-10 | 2022-07-19 | 西北工业大学 | 一种实时单目视频深度估计方法 |
CN110807789A (zh) * | 2019-08-23 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 图像处理方法、模型、装置、电子设备及可读存储介质 |
CN110533119B (zh) * | 2019-09-04 | 2022-12-27 | 北京迈格威科技有限公司 | 标识识别方法及其模型的训练方法、装置及电子系统 |
CN110555420B (zh) * | 2019-09-09 | 2022-04-12 | 电子科技大学 | 一种基于行人区域特征提取和重识别融合模型网络及方法 |
CN112651267A (zh) * | 2019-10-11 | 2021-04-13 | 阿里巴巴集团控股有限公司 | 识别方法、模型训练、系统及设备 |
CN110909604B (zh) * | 2019-10-23 | 2024-04-19 | 深圳市重投华讯太赫兹科技有限公司 | 安检图像检测方法、终端设备、计算机存储介质 |
CN111160275B (zh) * | 2019-12-30 | 2023-06-23 | 深圳元戎启行科技有限公司 | 行人重识别模型训练方法、装置、计算机设备和存储介质 |
CN111160295B (zh) * | 2019-12-31 | 2023-05-12 | 广州视声智能科技有限公司 | 基于区域引导和时空注意力的视频行人重识别方法 |
CN111372123B (zh) * | 2020-03-03 | 2022-08-09 | 南京信息工程大学 | 基于从局部到全局的视频时序片段提取方法 |
CN111784735A (zh) * | 2020-04-15 | 2020-10-16 | 北京京东尚科信息技术有限公司 | 目标跟踪方法、装置和计算机可读存储介质 |
CN111539336B (zh) * | 2020-04-25 | 2023-06-20 | 长治学院 | 一种提高局部注意力的行人重识别方法 |
CN111582107B (zh) * | 2020-04-28 | 2023-09-29 | 浙江大华技术股份有限公司 | 目标重识别模型的训练方法、识别方法、电子设备及装置 |
CN111860374A (zh) * | 2020-07-24 | 2020-10-30 | 苏州浪潮智能科技有限公司 | 一种行人重识别方法、装置、设备及存储介质 |
CN111738362B (zh) * | 2020-08-03 | 2020-12-01 | 成都睿沿科技有限公司 | 对象识别方法及装置、存储介质及电子设备 |
CN112215092A (zh) * | 2020-09-23 | 2021-01-12 | 上海眼控科技股份有限公司 | 行人重识别方法、装置、计算机设备及存储介质 |
CN112488071B (zh) * | 2020-12-21 | 2021-10-26 | 重庆紫光华山智安科技有限公司 | 提取行人特征的方法、装置、电子设备和存储介质 |
CN113158905A (zh) * | 2021-04-23 | 2021-07-23 | 佛山市南海区广工大数控装备协同创新研究院 | 一种基于注意力机制的行人重识别方法 |
CN113378657B (zh) * | 2021-05-24 | 2024-03-01 | 汇纳科技股份有限公司 | 行人组群关系识别方法、装置及系统 |
CN113807189B (zh) * | 2021-08-20 | 2023-10-27 | 浙江大学自贡创新中心 | 一种基于人体部件学习和姿态重构的视频行人重识别方法 |
CN113723366B (zh) * | 2021-10-25 | 2022-03-25 | 山东力聚机器人科技股份有限公司 | 一种行人重识别方法、装置及计算机设备 |
CN113989944B (zh) * | 2021-12-28 | 2022-04-08 | 北京瑞莱智慧科技有限公司 | 操作动作识别方法、装置及存储介质 |
CN114332955B (zh) * | 2022-03-11 | 2022-06-10 | 浪潮云信息技术股份公司 | 一种行人重识别的方法、装置及计算机可读存储介质 |
CN114818989B (zh) * | 2022-06-21 | 2022-11-08 | 中山大学深圳研究院 | 基于步态的行为识别方法、装置、终端设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107316031A (zh) * | 2017-07-04 | 2017-11-03 | 北京大学深圳研究生院 | 用于行人重识别的图像特征提取方法 |
CN107832672A (zh) * | 2017-10-12 | 2018-03-23 | 北京航空航天大学 | 一种利用姿态信息设计多损失函数的行人重识别方法 |
CN108108754A (zh) * | 2017-12-15 | 2018-06-01 | 北京迈格威科技有限公司 | 重识别网络的训练、重识别方法、装置和系统 |
CN108452503A (zh) * | 2018-02-13 | 2018-08-28 | 淄博金墨知识产权顾问有限公司 | 一种通过人体滑车辅助运动的极限运动训练装置 |
CN108490075A (zh) * | 2018-04-03 | 2018-09-04 | 东华大学 | 一种纺织品听觉风格测量装置及方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11176382B2 (en) * | 2017-03-06 | 2021-11-16 | Conduent Business Services, Llc | System and method for person re-identification using overhead view images |
US10366595B2 (en) * | 2017-03-10 | 2019-07-30 | Turing Video, Inc. | Surveillance method and system based on human behavior recognition |
-
2018
- 2018-11-22 CN CN201811398695.8A patent/CN109472248B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107316031A (zh) * | 2017-07-04 | 2017-11-03 | 北京大学深圳研究生院 | 用于行人重识别的图像特征提取方法 |
CN107832672A (zh) * | 2017-10-12 | 2018-03-23 | 北京航空航天大学 | 一种利用姿态信息设计多损失函数的行人重识别方法 |
CN108108754A (zh) * | 2017-12-15 | 2018-06-01 | 北京迈格威科技有限公司 | 重识别网络的训练、重识别方法、装置和系统 |
CN108452503A (zh) * | 2018-02-13 | 2018-08-28 | 淄博金墨知识产权顾问有限公司 | 一种通过人体滑车辅助运动的极限运动训练装置 |
CN108490075A (zh) * | 2018-04-03 | 2018-09-04 | 东华大学 | 一种纺织品听觉风格测量装置及方法 |
Non-Patent Citations (4)
Title |
---|
Neural Person Search Machines;Hao Liu等;《arXiv:1707.06777v1》;20170721;1-9 * |
Video-based Person Re-identification with Accumulative Motion Context;Hao Liu等;《arXiv:1701.00193v2》;20170613;1-14 * |
基于深度学习的行人再识别问题研究;刘皓;《中国优秀博士学位论文全文数据库(博士)_信息科技辑》;20180715(第07期);正文第5.1-5.4节、第4.2-4.4节、第3.1-3.4节、图5.2 * |
面向显著性目标检测的SSD改进模型;余春艳等;《电子与信息学报》;20180815;第40卷(第11期);2554-2561 * |
Also Published As
Publication number | Publication date |
---|---|
CN109472248A (zh) | 2019-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109472248B (zh) | 一种行人重识别方法、系统及电子设备和存储介质 | |
JP6843086B2 (ja) | 画像処理システム、画像においてマルチラベル意味エッジ検出を行う方法、および、非一時的コンピューター可読記憶媒体 | |
CN110738125B (zh) | 利用Mask R-CNN选择检测框的方法、装置及存储介质 | |
CN109583340B (zh) | 一种基于深度学习的视频目标检测方法 | |
US20220414911A1 (en) | Three-dimensional reconstruction method and three-dimensional reconstruction apparatus | |
CN111709310B (zh) | 一种基于深度学习的手势跟踪与识别方法 | |
CN109903314A (zh) | 一种图像区域定位的方法、模型训练的方法及相关装置 | |
US11417095B2 (en) | Image recognition method and apparatus, electronic device, and readable storage medium using an update on body extraction parameter and alignment parameter | |
CN112200041B (zh) | 视频动作识别方法、装置、存储介质与电子设备 | |
CN110889421A (zh) | 目标物检测方法及装置 | |
CN106407978B (zh) | 一种结合似物度的无约束视频中显著物体检测方法 | |
KR20220073645A (ko) | 시공간 자기-주의에 기반한 행동 인식 방법 및 장치 | |
CN112084959B (zh) | 一种人群图像处理方法及装置 | |
CN112131965A (zh) | 一种人体姿态估计方法、装置、电子设备及存储介质 | |
CN114937285B (zh) | 动态手势识别方法、装置、设备及存储介质 | |
CN112819011A (zh) | 对象间关系的识别方法、装置和电子系统 | |
CN112668608A (zh) | 一种图像识别方法、装置、电子设备及存储介质 | |
CN112270384B (zh) | 一种回环检测方法、装置及电子设备和存储介质 | |
WO2023231753A1 (zh) | 一种神经网络的训练方法、数据的处理方法以及设备 | |
CN116258931B (zh) | 基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统 | |
CN117115824A (zh) | 一种基于笔划区域分割策略的视觉文本检测方法 | |
CN115035596B (zh) | 行为检测的方法及装置、电子设备和存储介质 | |
CN116189284A (zh) | 人体运动预测方法、装置、设备及存储介质 | |
CN114821424A (zh) | 视频分析方法、视频分析装置、计算机设备、存储介质 | |
CN115311598A (zh) | 基于关系感知的视频描述生成系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |