CN116110074A - 一种基于图神经网络的动态小股行人识别方法 - Google Patents

一种基于图神经网络的动态小股行人识别方法 Download PDF

Info

Publication number
CN116110074A
CN116110074A CN202211537300.4A CN202211537300A CN116110074A CN 116110074 A CN116110074 A CN 116110074A CN 202211537300 A CN202211537300 A CN 202211537300A CN 116110074 A CN116110074 A CN 116110074A
Authority
CN
China
Prior art keywords
picture
node
graph
group
background
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211537300.4A
Other languages
English (en)
Inventor
刘天奇
张国庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202211537300.4A priority Critical patent/CN116110074A/zh
Publication of CN116110074A publication Critical patent/CN116110074A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于图神经网络的动态小股行人识别方法,将数据集中图片进行预处理,使用特征匹配的方法将图片中背景的像素点进行匹配,通过像素点截取相应的图片,得到图片的背景特征;对行人进行动态筛选,排除不为同一组的行人,同时构建图结构;将得到的背景特征加入构建的图结构,得到新的图结构;采用多头注意力的图上下文信息感知传递的方法,寻找最优模型;解决了特征提取过程中受到局部扰动而特征不鲁棒的问题,提高了行人再识别的准确率;基于该算法设计的动态小股行人重识别方法,能够快速获取想要查找的行人以及小股行人。

Description

一种基于图神经网络的动态小股行人识别方法
技术领域
本发明涉及计算机视觉图像检索技术领域,具体的是一种基于图神经网络的动态小股行人识别方法。
背景技术
随着单人行人重识别的飞速发展,其在现实世界中的巨大潜力而受到越来越多的关注,单人行人重识别的方法已经取得了显著性的成果,然而,对于小股行人重识别的方法,不仅存在单人行人重识别的困难,还存在组成员数目的变化以及组成员位置发生变化这些特有的问题。采用人工查阅监控设备进行确认又需要耗费大量的人力和时间,效率低下。因此,设计了涉及一种基于图神经网络的动态小股行人再识别的方法。
现有与之相关的技术可以分为两类:背景信息匹配算法、小股行人再识别算法。(1)背景信息匹配算法方面,现有中国专利文献公开了DOI:10.1109/CVPR42600.2020.00499的一种基于深度学习的背景信息匹配算法,该算法设计了一种神经网络,它通过联合查找对应关系和拒绝不匹配点来匹配两组局部特征。通过求解一个可微分的最优运输问题来估计分配,该问题的成本由图神经网络预测。引入了一种基于注意力的灵活上下文聚合机制,能够联合推理底层3D场景和特征分配。目前为止,尚无技术尝试将背景信息匹配应用到小股行人重识别中。(2)小股行人再识别算法方面,现有中国专利文献公开了DOI:10.1109/TPAMI.2020.3032542的基于上下文信息的小股行人重识别的方法,该方法提出了一种基于图神经网络的新的统一框架来同时解决上述两个基于组的re-id任务,即组re-id和组感知人员re-id。具体来说,我们构建了一个以组成员为节点的上下文图,以利用不同人之间的依赖关系。但是,目前已有的方法并未考虑到组成员的变化,小股行人识别的准确率较低。
发明内容
为解决上述背景技术中提到的不足,本发明的目的在于提供一种基于图神经网络的动态小股行人识别方法,
本发明的目的可以通过以下技术方案实现:一种基于图神经网络的动态小股行人识别方法,方法包括以下步骤:
将数据集中图片进行预处理,使用背景特征匹配方法得到图片中的背景特征;
对行人进行动态筛选,排除不为同一组的行人,同时构建图结构;
将得到的背景特征加入构建的图结构,得到新的图结构;
在新的图结构中,采用多头注意力的图上下文信息感知传递的方法进行消息传递,最大化的更新节点信息特征,提高组识别的准确率。
优选地,所述将数据集中图片进行预处理,使用背景特征匹配方法得到图片中的背景特征的过程包括以下步骤:
根据行人的bounding box将行人的关键点置为0,每个关键点i的初始表示(0)xi结合了关键点视觉外观和位置;使用多层感知器MLPenc将关键点位置嵌入到高维向量中,如下所示:
(0)xi=di+MLPenc(pi)
其中di为关键点的视觉描述符,pi为关键点的位置,(f)xA i是图像A在第l层的元素i,mE->i汇聚了所有关键结点,m是注意力权重和,E包含了{Eself,Ecross},A中所有i的剩余消息传递更新为:
其中[||]表示连接,同时对图像B中的所有关键点执行类似的更新;具有不同参数的固定数量的层L被链接起来,并且交替地沿着自身边缘和交叉边缘聚合;因此,从l=1开始,如果l是奇数,则E=Eself,如果l是偶数,则E=Ecross
同理得到B,以及相应的横坐标xb和纵坐标yb
将得到的fA i和fB j进行内积,使用dustbin增强每个集;将a=[aT M N]T和b=[1T N M]T表示为A和B中每个关键点和dustbin的与其匹配数;增强分配具有如下约束:
M和N分别为第i张图片和第j张图片关键点的集合,背景匹配的损失函数如下:
我们通过优化匹配层得到少量相应的横坐标xb和纵坐标yb,最后计算第s张图片中(x1 b,y1 b)到(xM p,yM p)的距离与第j张图片中(x2 b,y2 b)到(xN p,yN p)的距离之间的差值的绝对值最小的点,并得到以此点为坐标的256×128的矩阵:
其中M和N分别为第i张和第j张图像中行人数量,(xi b,yi b)和(xj b,yj b)分别为第i张图片和第j张图片中背景特征信息的横纵坐标,(xM p,yM p)和(xN p,yN p)分别为第i张图片和第j张图片中所有行人的横纵坐标。
优选地,所述对行人进行动态筛选,排除不为同一组的行人,同时构建图结构的过程包括以下步骤:
构建一个由Ns个顶点Vs和一组边Es组成的图像Gs={Vs,Es};
提取图像中的人作为图像的节点,使用最近邻算法在每个图像中选择最近的人,并构建图结构。
优选地,将图结构中的边划分为强连通边、中等连通边和弱连通边。
优选地,所述将得到的背景特征加入构建的图结构,得到新的图结构的过程包括组内关系计算、组间关系计算和上下文信息感知;
所述组内关系计算过程包括:首先对组内人相同部分之间进行计算,再将组内人不同部分之间进行计算;然后在进行组间人相同部分之间进行计算,再将组间人不同部分之间进行计算;并引入背景信息。
计算组内相关性:将每个特征分为四部分,特征相同部分下我们选择了第s张图片的人物特征h(t-1) sip,以及第s张图片的背景特征h(t-1) sbp。从人物特征传递到背景特征的消息计算如下,当前情况下有且仅有一条:
其中φ是测量输入之间相关性的函数,W(t-1) e是将输入特征转换为更高级别表示的权重矩阵,通过使用softmax函数对重要性权重esibp进行归一化来计算注意力权重:
asibp=soft max(esibp)
然后,传递给节点i的部分内消息通过将邻居的特征与相关注意力权重:
其继续计算组内人的特征的p部分h(t-1) sip与背景其他q部分h(t-1) sbq进行计算,通过使用softmax函数对重要性权重epq sib进行归一化来计算注意力权重,最后传递给节点i的部分组内消息通过邻居的特征与相关注意力权重的计算:
得到了组内信息,包含人特征与人特征之间相同部分的信息m(t) sip,人特征与人特征之间不同部分的信息n(t) sip,背景特征与人特征之间相同部分的信息o(t) sibp,背景特征与人特征之间不同部分的信息r(t) sib
优选地,所述组间关系计算过程如下:
组间关系只需要计算图节点之间的相似性,图节点不仅仅包含人作为特征节点,还有背景信息作为特征节点,要计算当前图片的人的特征信息传递给另外一张图片的其他人的特征信息,第s张图片人的特征部分h(t-1) si与第r张背景特征部分h(t-1) rb进行计算,通过使用softmax函数对重要性权重zib进行归一化来计算注意力权重得到wib,最后传递给节点i的部分内消息通过将邻居的特征与相关注意力权重;
wib=soft max(zib)
在获得图内和图间消息后,通过连接先前的特征和所有类型的消息,使用全连接层更新节点特征:
优选地,所述上下文信息感知过程如下:使用图内和图间注意机制的上述特征更新步骤重复T轮,然后将模型设计为分别学习组和个人对应关系;首先通过读出操作构造一个图级表示,在图节点上应用自注意力,最终的图表示hs是节点级特征的加权和:
其中hsi是第s张图片第i个人,W(T) u是将输入特征转换为更高级别表示的权重矩阵。同理能够得到另一张图hr,为了学习组对应关系,采用circle loss损失函数将同一组的特征拉近,并将不同的组推得很远:
其中aj s和ai r为非负加权因子,γ为比例因子。采用pair-wise loss损失函数得到对于个人与背景信息级别的对应学习,仍采用pair-wise loss损失函数得到
其中ypp是对的标签,m是边距,hip是第i张图片的第p个人特征,hjp是第j张图片的第q个人特征,hbi,p是第i张图片的背景信息特征。当该对共享相同的人ID时,ypp=1;当该对由不同的人组成时,ypp=-1。通过交叉熵计算预测的矩阵S与真值矩阵的的值Sgt
其中Sgt∈Rns×nr是一个二元矩阵,Sgti,j=1如果i个Gs中的人与Gr中的第j个人属于同一恒等式,最后损失函数是所以函数的损失函数的线性组合:
优选地,所述强连通边是指由彼此选择的节点1和节点2形成的连通图;节点2选择节点3作为节点2最近的邻居,节点1选择节点2作为节点1最近邻居,在这种情况下,连接节点2和节点3的边称为中等连通边;所述弱连通边是指节点1选择节点2作为节点1邻居,而节点1未被其他节点选择为其他节点的邻居。
一种设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当一个或多个所述程序被一个或多个所述处理器执行,使得一个或多个所述处理器实现如上所述的一种基于图神经网络的动态小股行人识别方法。
一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如上所述的一种基于图神经网络的动态小股行人识别方法。
本发明的有益效果:
将基于视频序列的局部对齐行人再识别框架作为核心算法嵌入在轨迹监测中。该框架通过利用姿态信息作为参照实现不同视频之间的区域对齐,再在视频序列内部利用关联度注意力模块,使得网络关注到各帧特定的局部区域,实现了同一个视频内部不同帧的区域对齐。该框架解决了特征提取过程中受到局部扰动而特征不鲁棒的问题,提高了行人再识别的准确率。基于该算法设计的动态小股行人重识别方法,能够快速获取想要查找的行人以及小股行人。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图;
图1是本发明提供的基于图神经网络的动态小股行人再识别的方法的流程图;
图2是本发明提出的基于图神经网络的动态小股行人再识别框架的网络结构图;
图3是基于图神经网络的动态小股行人再识别框架中预处理模块(动态筛选行人)的分解模块示意图;
图4是基于图神经网络的动态小股行人再识别框架中添加背景特征后计算的分解模块的示意图;
图5是本发明提供的神经网络模型的训练流程图;
图6是本发明提供的基于图神经网络的动态小股行人再识别的方法的应用场景图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,一种基于行人动态筛选的小股行人再识别算法的方法。具体如下:
Step 1:将数据集中图片进行预处理,使用背景特征匹配方法得到图片中的背景特征;
Step 2:对行人进行动态筛选,排除不为同一组的行人,同时构建图结构;
Step3:将得到的背景特征加入构建的图结构,得到新的图结构;
Step4:在新的图结构中,采用多头注意力的图上下文信息感知传递的方法进行消息传递,最大化的更新节点信息特征,提高组识别的准确率。
具体的,基于行人动态筛选的小股行人再识别算法的方法的Step 1:
每个关键点i的初始表示(0)xi结合了关键点视觉外观和位置;使用多层感知器MLPenc将关键点位置嵌入到高维向量中,如下所示:
(0)xi=di+MLPenc(pi)
其中di为关键点的视觉描述符,pi为关键点的位置,(f)xA i是图像A在第l层的元素i,mE->i汇聚了所有关键结点,m是注意力权重和,E包含了{Eself,Ecross},A中所有i的剩余消息传递更新为:
其中[||]表示连接,同时对图像B中的所有关键点执行类似的更新;具有不同参数的固定数量的层L被链接起来,并且交替地沿着自身边缘和交叉边缘聚合;因此,从l=1开始,如果l是奇数,则E=Eself,如果l是偶数,则E=Ecross
同理得到B,以及相应的横坐标xb和纵坐标yb
将得到得fA i和fB j进行内积,使用dustbin增强每个集;将a=[aT M N]T和b=[1T N M]T表示为A和B中每个关键点和dustbin的与其匹配数;增强分配具有如下约束:
M和N分别为第i张图片和第j张图片关键点的集合,背景匹配的损失函数如下:
我们通过优化匹配层得到少量相应的横坐标xb和纵坐标yb,最后计算第s张图片中(xi b,yi b)到(xM p,yM p)的距离与第j张图片中(xj b,yj b)到(xN p,yN p)的距离之间的差值的绝对值最小的点,并得到以此点为坐标的20×20的矩阵:
其中M和N分别为第i张和第j张图像中行人数量,(xi b,yi b)和(xj b,yj b)分别为第i张图片和第j张图片中背景特征信息的横纵坐标,(xM p,yM p)和(xN p,yN p)分别为第i张图片和第j张图片中所有行人的横纵坐标。
具体的,基于行人动态筛选的小股行人再识别算法的方法的Step 2:
我们构建一个由Ns个顶点Vs和一组边Es组成的图像Gs={Vs,Es}。我们提取图像中的人作为图像的节点,使用最近邻算法在每个图像中选择最近的人,并构建图结构。我们将图结构中的边划分为强连通边、中等连通边和弱连通边。如图3所示,强连通边是指由彼此选择的节点1和节点2形成的连通图。适度连接的边缘意味着节点2选择节点3作为其最近的邻居,节点1选择节点2作为其最近邻居。在这种情况下,连接节点2和节点3的边称为适度连接边。弱连接边意味着节点1选择节点2作为其邻居,而节点1未被其他节点选择为其邻居。在这种情况下,节点1和节点2之间的边称为弱连通边。我们使用以下公式来确定由一个以上成员组成的组是否是同一组。如果判断为同一组,则通过组合Step 1中获得的背景特征信息来构建图结构。如果不能将它们识别为同一个组,则选择具有较长边和弱连接边的节点进行修剪。修剪后,继续确定组是否相同,以此类推。
然后,我们确定一组多个成员是否是同一组,如下公式所示。如果一个图中有很多人,那么在一个图下可能有多个子图结构。让我们选择一个子图结构进行计算。当确定一个组不属于同一个组时,选择对应于较长弱连接边的节点进行修剪。修剪后,继续判断该组是否为同一组,直到判断该组为同一个组,然后构建新的图结构。我们首先确定该组是否为连通图,我们发现根据近邻算法,节点1、2、3、4和5是连通图,节点6、7和8是另一个连通图。让我们以其中一个连通图为例,以连接图的前五个节点为例,此时确定连接节点1和节点5的弱连接边的长度,因为节点5的对应边较长,然后执行修剪操作,得到四个节点的图;此时,该组被判断为不同的组,因为此时只有一条弱连通边,然后修剪节点1及其边以获得三个节点的图;此时,该组被判断为同一组
我们将行人组分为三人组、四人组和五人组,如图3。如果五人组被判断为不同的组,则修剪弱连接边,直到被判断为同一组。
具体的,基于行人动态筛选的小股行人再识别算法的方法的Step 3:
我们在Step 1通过背景匹配算法得到的背景匹配特征,再从Step 2的行人筛选对原图结构进行剪枝操作,我们把背景信息结点加入进剪枝操作后的图结构中,最后得到新的图结构。我们根据图结构中的图内和图间的多级注意力机制来捕获上下文信息。最终的图级表示是以子注意力的方式从节点级特征中学习。此外我们在进行组特征匹配时,采用了circle loss损失函数。
Step 3.1:组内关系
首先对组内人相同部分之间进行计算,再将组内人不同部分之间进行计算;然后在进行组间人相同部分之间进行计算,再将组间人不同部分之间进行计算;并引入背景信息。
首先计算组内背景信息相关计算:对于组内相关性的计算,我们将每个特征分为四部分,特征相同部分下我们选择了第s张图片的人物特征h(t-1) sip,以及第s张图片的背景特征h(t-1) sbp,从人物特征传递到背景特征的消息计算如下,当前情况下有且仅有一条:
其中φ是测量输入之间相关性的函数,W(t-1) e是将输入特征转换为更高级别表示的权重矩阵,通过使用softmax函数对重要性权重esibp进行归一化来计算注意力权重:
asibp=soft max(esibp)
然后,传递给节点i的部分内消息通过将邻居的特征与相关注意力权重:
其继续计算组内人的特征的p部分h(t-1) sip与背景其他q部分h(t-1) sbq进行计算,通过使用softmax函数对重要性权重epq sib进行归一化来计算注意力权重,最后传递给节点i的部分内消息通过将邻居的特征与相关注意力权重:
得到了组内信息,包含人特征与人特征之间相同部分的信息m(t) sip,人特征与人特征之间不同部分的信息n(t) sip,背景特征与人特征之间相同部分的信息o(t) sibp,背景特征与人特征之间不同部分的信息r(t) sib
Step 3.2:组间关系
组间关系只需要计算图节点之间的相似性,图节点不仅仅包含人作为特征节点,还有背景信息作为特征节点,要计算当前图片的人的特征信息传递给另外一张图片的其他人的特征信息,还要计算当前人的特征信息传给另外一张背景信息的特征信息,第s张图片人的特征部分h(t-1) si与第r张背景特征部分h(t-1) rb进行计算,通过使用softmax函数对重要性权重zib进行归一化来计算注意力权重得到wib,最后传递给节点i的部分组内消息通过邻居的特征与相关注意力权重的计算:
wib=soft max(zib)
通过连接先前的特征和所有类型的消息,使用全连接层更新节点特征:
Step 3.3:上下文信息感知
使用图内和图间注意机制的上述特征更新步骤重复T轮,然后将模型设计为分别学习组和个人对应关系;首先通过读出操作构造一个图级表示,在图节点上应用自注意力,最终的图表示hs是节点级特征的加权和:
其中hsi是第s张图片第i个人,W(T) u是将输入特征转换为更高级别表示的权重矩阵。同理能够得到另一张图hr,为了学习组对应关系,采用circle loss损失函数将同一组的特征拉近,并将不同的组推得很远:
其中aj s和ai r为非负加权因子,γ为比例因子。采用pair-wise loss损失函数得到对于个人与背景信息级别的对应学习,仍采用pair-wise loss损失函数得到
其中ypp是对的标签,m是边距,hip是第i张图片的第p个人特征,hjp是第j张图片的第q个人特征,hbi,p是第i张图片的背景信息特征。当该对共享相同的人ID时,ypp=1;当该对由不同的人组成时,ypp=-1。通过交叉熵计算预测的矩阵S与真值矩阵的的值Sgt
其中Sgt∈Rns×nr是一个二元矩阵,Sgti,j=1如果i个Gs中的人与Gr中的第j个人属于同一恒等式,最后损失函数是所以函数的损失函数的线性组合:
具体的,基于行人动态筛选的小股行人再识别算法的方法的Step 4:
我们在三个公共数据集上评估了所提议的组重新识别方法:(1)Road Group数据集,其中162对组图像由两个摄像机拍摄。(2)CUHK-SYSU Group数据集包含提取的1558个组的3839个图像。道路组数据集中的组更紧凑,但其图像质量较差,照明变化较大。(3)DukeMTMC Group数据集,包含了1000多张图片。DukeMTMC Group和CUHK-SYSU Group数据集具有更大的组,因此经历了更多的组布局和成员变化。在Road Group和CUHK-SYSU Group数据集中,人总是在同一场景中行走,他们总是会进入其他场景。然而,在DukeMTMC Group数据集中,同一组人总是走到另一个场景中,而不同的组与噪声在同一场景中。
我们将每个数据集随机分为训练集和测试集,并使用平均累积匹配特征(CMC)得分作为评估指标。我们使用在ImageNet上预训练的ResNet50作为骨干。人物图像被调整为256×128作为输入。初始学习率被设置为0.0003,在第100和200个epoch减少10倍,训练阶段在第300个epoch结束。由于组的大小不同,我们构造具有相同数量节点的图以便于实现,并向成员有限的组添加虚拟节点。我们只对正组对进行人对应学习,因为负组对不存在对应关系。我们在框架中使用两层(即T=2)GNN。我们在一个GPU上训练我们的模型,模型在CUHK-SYSU Group数据集上收敛大约需要60小时。
图5展示了本发明提供的神经网络模型的训练流程图,包括以下步骤:我们先将小股行人图片进行预处理,通过数据增强的方式,进行裁剪至512*512像素,同时水平、垂直翻转,最后所有图像转换为张量(Tensor)的数据形式,使用通道均值和标准差进行标准化,再将张量归一化为(0,1)之间;开始训练后,我们在神经网络中进行前向传播,得到特征和预测标签;随后计算损失函数,进行反向传播;最后在测试集中进行准确率的计算;准确率高,则保存模型;完成一次训练。达到训练次数后,结束训练。
图6概述了基于图神经网络的动态小股行人再识别的方法的应用场景。我们的场景应用于各大场景,例如火车站、机场、医院、商场和加油站等等。在应用场景下大量摄像头分布,实时拍摄图片并上传至云服务器中。系统利用云端服务器进行计算和存储。经过我们算法的匹配,得到需要查询的小股行人,并将行人图片上传至系统终端操作平台。
基于同一种发明构思,本发明还提供一种计算机设备,该计算机设备包括包括:一个或多个处理器,以及存储器,用于存储一个或多个计算机程序;程序包括程序指令,处理器用于执行存储器存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其用于实现一条或一条以上指令,具体用于加载并执行计算机存储介质内一条或一条以上指令从而实现上述方法。
需要进一步进行说明的是,基于同一种发明构思,本发明还提供一种计算机存储介质,该存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述方法。该存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电、磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
需要进一步进行说明的是,在具体实施过程中:
在Road Group、DukeMTMC Group、CUHK-SYSU Group三个主流行人再识别数据集上的性能表现达到了先进水平,大部分性能指标达到了目前最高水平,对比试验结果如下表1:
表1本算法与其它行人再识别算法的准确度对比
(2)社会方面:本发明能在商场、机场、车站等人流密集地段进行应用,结合摄像头等仪器,对需要检测的小股行人快速识别并上传至云端;可在短时间内获取目标小股行人的图像。
(3)经济方面:本发明采用自动化的方式对小股行人进行识别,减少了人工走访调查的工作量,节约了大量的人力成本和时间成本。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上显示和描述了本公开的基本原理、主要特征和本公开的优点。本行业的技术人员应该了解,本公开不受上述实施例的限制,上述实施例和说明书中描述的只是说明本公开的原理,在不脱离本公开精神和范围的前提下,本公开还会有各种变化和改进,这些变化和改进都落入要求保护的本公开范围内容。

Claims (10)

1.一种基于图神经网络的动态小股行人识别方法,其特征在于,方法包括以下步骤:
将数据集中图片进行预处理,使用背景特征匹配方法得到图片中的背景特征;
对行人进行动态筛选,排除不为同一组的行人,同时构建图结构;
将得到的背景特征加入构建的图结构,得到新的图结构;
在新的图结构中,采用多头注意力的图上下文信息感知传递的方法进行消息传递,最大化的更新节点信息特征,提高组识别的准确率。
2.根据权利要求1所述的一种基于图神经网络的动态小股行人识别方法,其特征在于,所述将数据集中图片进行预处理,使用背景特征匹配方法得到图片中的背景特征的过程包括以下步骤:
根据行人的boundingbox将行人的关键点置为0,每个关键点i的初始表示(0)xi结合了关键点视觉外观和位置;使用多层感知器MLPenc将关键点位置嵌入到高维向量中,如下所示:
(0)xi=di+MLPenc(pi)
其中di为关键点的视觉描述符,pi为关键点的位置,(f)xA i是图像A在第
Figure FDA0003975938730000012
层的元素i,mE->i汇聚了所有关键结点,m是注意力权重和,E包含了{Eself,Ecross},A中所有i的剩余消息传递更新为:
Figure FDA0003975938730000011
其中[||]表示连接,同时对图像B中的所有关键点执行类似的更新;具有不同参数的固定数量的层L被链接起来,并且交替地沿着自身边缘和交叉边缘聚合;因此,从
Figure FDA0003975938730000013
开始,如果
Figure FDA0003975938730000014
是奇数,则E=Eself,如果
Figure FDA0003975938730000015
是偶数,则E=Ecross
Figure FDA0003975938730000021
同理得到B,以及相应的横坐标xb和纵坐标yb
将得到的fA i和fB j进行内积,使用dustbin增强每个集;将a=[aT M N]T和b=[1T NM]T表示为A和B中每个关键点和dustbin的与其匹配数;增强分配具有如下约束:
Figure FDA0003975938730000022
M和N分别为第i张图片和第j张图片关键点的集合,背景匹配的损失函数如下:
Figure FDA0003975938730000023
通过优化匹配层得到少量相应的横坐标xb和纵坐标yb,最后计算第s张图片中(x1 b,y1 b)到(xM p,yM p)的距离与第j张图片中(x2 b,y2 b)到(xN p,yN p)的距离之间的差值的绝对值最小的点,并得到以此点为坐标的256×128的矩阵:
Figure FDA0003975938730000024
其中M和N分别为第i张和第j张图像中行人数量,(xi b,yi b)和(xj b,yj b)分别为第i张图片和第j张图片中背景特征信息的横纵坐标,(xM p,yM p)和(xN p,yN p)分别为第i张图片和第j张图片中所有行人的横纵坐标。
3.根据权利要求1所述的一种基于图神经网络的动态小股行人识别方法,其特征在于,所述对行人进行动态筛选,排除不为同一组的行人,同时构建图结构的过程包括以下步骤:
构建一个由Ns个顶点Vs和一组边Es组成的图像Gs={Vs,Es};
提取图像中的人作为图像的节点,使用最近邻算法在每个图像中选择最近的人,并构建图结构。
4.根据权利要求3所述的一种基于图神经网络的动态小股行人识别方法,其特征在于,将图结构中的边划分为强连通边、中等连通边和弱连通边。
5.根据权利要求1所述的一种基于图神经网络的动态小股行人识别方法,其特征在于,所述将得到的背景特征加入构建的图结构,得到新的图结构的过程包括组内关系计算、组间关系计算和上下文信息感知;
所述组内关系计算过程包括:首先对组内人相同部分之间进行计算,再将组内人不同部分之间进行计算;然后在进行组间人相同部分之间进行计算,再将组间人不同部分之间进行计算;并引入背景信息;
计算组内相关性:将每个特征分为四部分,特征相同部分下选择了第s张图片的人物特征h(t-1) sip,以及第s张图片的背景特征h(t-1) sbp,从人物特征传递到背景特征的消息计算如下,当前情况下有且仅有一条:
Figure FDA0003975938730000031
其中φ是测量输入之间相关性的函数,W(t-1) e是将输入特征转换为更高级别表示的权重矩阵,通过使用softmax函数对重要性权重esibp进行归一化来计算注意力权重:
asibp=soft max(esibp)
然后,传递给节点i的部分内消息通过将邻居的特征与相关注意力权重:
Figure FDA0003975938730000032
其继续计算组内人的特征的p部分h(t-1) sip与背景其他q部分h(t-1) sbq进行计算,通过使用softmax函数对重要性权重epq sib进行归一化来计算注意力权重,最后传递给节点i的部分组内消息通过邻居的特征与相关注意力权重的计算:
Figure FDA0003975938730000041
Figure FDA0003975938730000042
Figure FDA0003975938730000043
得到了组内信息,包含人特征与人特征之间相同部分的信息m(t) sip,人特征与人特征之间不同部分的信息n(t) sip,背景特征与人特征之间相同部分的信息o(t) sibp,背景特征与人特征之间不同部分的信息r(t) sib
6.根据权利要求5所述的一种基于图神经网络的动态小股行人识别方法,其特征在于,所述组间关系计算过程如下:
组间关系只需要计算图节点之间的相似性,图节点不仅仅包含人作为特征节点,还有背景信息作为特征节点,要计算当前图片的人的特征信息传递给另外一张图片的其他人的特征信息,第s张图片人的特征部分h(t-1) si与第r张背景特征部分h(t-1) rb进行计算,通过使用softmax函数对重要性权重zib进行归一化来计算注意力权重得到wib,最后传递给节点i的部分内消息通过将邻居的特征与相关注意力权重;
Figure FDA0003975938730000044
ib=soft m ax(zib)
Figure FDA0003975938730000045
在获得图内和图间消息后,通过连接先前的特征和所有类型的消息,使用全连接层更新节点特征:
Figure FDA0003975938730000046
7.根据权利要求5所述的一种基于图神经网络的动态小股行人识别方法,其特征在于,所述上下文信息感知过程如下:使用图内和图间注意机制的上述特征更新步骤重复T轮,然后将模型设计为分别学习组和个人对应关系;首先通过读出操作构造一个图级表示,在图节点上应用自注意力,最终的图表示hs是节点级特征的加权和:
Figure FDA0003975938730000051
Figure FDA0003975938730000052
Figure FDA0003975938730000053
其中hsi是第s张图片第i个人,W(T) u是将输入特征转换为更高级别表示的权重矩阵,同理能够得到另一张图hr,为了学习组对应关系,采用circle loss损失函数将同一组的特征拉近,并将不同的组推得很远:
Figure FDA0003975938730000054
其中aj s和ai r为非负加权因子,γ为比例因子,采用pair-wise loss损失函数得到
Figure FDA0003975938730000055
对于个人与背景信息级别的对应学习,仍采用pair-wise loss损失函数得到
Figure FDA0003975938730000056
Figure FDA0003975938730000057
Figure FDA0003975938730000058
其中ypp是对的标签,m是边距,hip是第i张图片的第p个人特征,hjp是第j张图片的第q个人特征,hbi,p是第i张图片的背景信息特征,当该对共享相同的人ID时,ypp=1;当对由不同的人组成时,ypp=-1,通过交叉熵计算预测的矩阵S与真值矩阵的值Sgt
Figure FDA0003975938730000061
其中Sgt∈Rns×nr是一个二元矩阵,Sgt i,j=1如果i个Gs中的人与Gr中的第j个人属于同一恒等式,最后损失函数是所以函数的损失函数的线性组合:
Figure FDA0003975938730000062
8.根据权利要求4所述的一种基于图神经网络的动态小股行人识别方法,其特征在于,所述强连通边是指由彼此选择的节点1和节点2形成的连通图;节点2选择节点3作为节点2最近的邻居,节点1选择节点2作为节点1最近邻居,在这种情况下,连接节点2和节点3的边称为中等连通边;所述弱连通边是指节点1选择节点2作为节点1邻居,而节点1未被其他节点选择为其他节点的邻居。
9.一种设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当一个或多个所述程序被一个或多个所述处理器执行,使得一个或多个所述处理器实现如权利要求1-8中任一所述的一种基于图神经网络的动态小股行人识别方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8中任一所述的一种基于图神经网络的动态小股行人识别方法。
CN202211537300.4A 2022-12-01 2022-12-01 一种基于图神经网络的动态小股行人识别方法 Pending CN116110074A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211537300.4A CN116110074A (zh) 2022-12-01 2022-12-01 一种基于图神经网络的动态小股行人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211537300.4A CN116110074A (zh) 2022-12-01 2022-12-01 一种基于图神经网络的动态小股行人识别方法

Publications (1)

Publication Number Publication Date
CN116110074A true CN116110074A (zh) 2023-05-12

Family

ID=86266516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211537300.4A Pending CN116110074A (zh) 2022-12-01 2022-12-01 一种基于图神经网络的动态小股行人识别方法

Country Status (1)

Country Link
CN (1) CN116110074A (zh)

Similar Documents

Publication Publication Date Title
CN111539370B (zh) 一种基于多注意力联合学习的图像行人重识别方法和系统
CN108132968B (zh) 网络文本与图像中关联语义基元的弱监督学习方法
CN108399362B (zh) 一种快速行人检测方法及装置
CN110458844B (zh) 一种低光照场景的语义分割方法
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN104424634B (zh) 对象跟踪方法和装置
WO2021057056A1 (zh) 神经网络架构搜索方法、图像处理方法、装置和存储介质
CN112990211B (zh) 一种神经网络的训练方法、图像处理方法以及装置
CN111339818B (zh) 一种人脸多属性识别系统
CN111460968A (zh) 基于视频的无人机识别与跟踪方法及装置
CN110222718B (zh) 图像处理的方法及装置
CN111814620A (zh) 人脸图像质量评价模型建立方法、优选方法、介质及装置
CN109033107A (zh) 图像检索方法和装置、计算机设备和存储介质
CN112508094A (zh) 垃圾图片的识别方法、装置及设备
CN111178284A (zh) 基于地图数据的时空联合模型的行人重识别方法及系统
Guo et al. Using multi-scale and hierarchical deep convolutional features for 3D semantic classification of TLS point clouds
WO2024067884A1 (zh) 一种数据处理方法及相关装置
CN111046213B (zh) 一种基于图像识别的知识库构建方法
CN115018039A (zh) 一种神经网络蒸馏方法、目标检测方法以及装置
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
Buenaposada et al. Improving multi-class boosting-based object detection
CN116977674A (zh) 图像匹配方法、相关设备、存储介质及程序产品
CN114764870A (zh) 对象定位模型处理、对象定位方法、装置及计算机设备
CN116362294B (zh) 一种神经网络搜索方法、装置和可读存储介质
CN116110074A (zh) 一种基于图神经网络的动态小股行人识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination