CN111259701A - 行人再识别方法、装置及电子设备 - Google Patents

行人再识别方法、装置及电子设备 Download PDF

Info

Publication number
CN111259701A
CN111259701A CN201811465181.XA CN201811465181A CN111259701A CN 111259701 A CN111259701 A CN 111259701A CN 201811465181 A CN201811465181 A CN 201811465181A CN 111259701 A CN111259701 A CN 111259701A
Authority
CN
China
Prior art keywords
human body
information
body part
attention
label information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811465181.XA
Other languages
English (en)
Other versions
CN111259701B (zh
Inventor
卢晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN201811465181.XA priority Critical patent/CN111259701B/zh
Publication of CN111259701A publication Critical patent/CN111259701A/zh
Application granted granted Critical
Publication of CN111259701B publication Critical patent/CN111259701B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种行人再识别方法、装置及电子设备,其中的方法包括:将图像帧序列中各图像帧的图像特征输入已训练的注意力模型,以由所述注意力模型输出各图像帧中人体部件特征信息和标签信息;根据所述注意力模型输出的人体部件标签信息,确定人体部件特征信息的有效性以及所属的部件类别;将属于同一部件类别且有效的人体部件特征信息进行融合得到目标特征信息;根据所述目标特征信息识别行人。由此,本发明能够将非人体部件的特征信息如背景特征信息筛除,从而可以适用于复杂的监控场景,且本发明所提供的方法算法较为简单,能够提高行人再识别的效率和减轻系统的运算负担。

Description

行人再识别方法、装置及电子设备
技术领域
本发明涉及图像处理技术领域,特别涉及基于多帧信息融合的视频行人再识别方法、装置及电子设备。
背景技术
行人再识别也称行人重识别,是利用计算机视觉技术判断图像或视频序列中是否存在特定行人的技术。而视频行人再识别是指在监控视频中识别出某个特定的已经在监控网络中出现过的行人,即对监控网络中的同一个行人进行再次识别。
相关技术中,视频行人再识别方法一般采用固定部件划分策略,来定位人体的三个部件(人体肩部以上的部分、人体肩部到腰部之间的上半身部分、人体腰部以下的下半身部分),也即,无论对于何种情形的图像序列,现有视频行人再识别都将每帧图像划分为上、中、下这三个区域,以实现对人体肩部以上部分、上半身部分和下半身部分的定位。从上述描述可知,现有视频行人再识别方法有效的前提条件是:人体需要占满整个图像区域、且人体所有部件都必须存在于图像中。然而,在复杂的监控场景下,并不能保证所有采集到的图像都能满足所述前提条件。当人体未占满整个图像区域或人体某个部件不存在于图像中时,现有视频行人再识别方法会将部分图像背景定位为人体部件,导致人体部件定位错误。故存在识别准确性低、且无法适用于复杂的监控场景下的问题。
发明内容
有鉴于此,本发明提供一种行人再识别方法、装置及电子设备。
本发明的第一方面提供一种行人再识别方法,所述方法包括:
将图像帧序列中各图像帧的图像特征输入已训练的注意力模型,以由所述注意力模型输出各图像帧中人体部件特征信息和标签信息;
根据所述注意力模型输出的人体部件标签信息,确定人体部件特征信息的有效性以及所属的部件类别;
将属于同一部件类别且有效的人体部件特征信息进行融合得到目标特征信息;
根据所述目标特征信息识别行人。
本发明的第二方面提供一种行人再识别装置,所述装置包括特征输入模块、注意力模型、处理模块、融合模块和识别模块;所述注意力模块包括已训练的注意力模型;
所述输入模块用于将图像帧序列中各图像帧的图像特征输入所述注意力模块;
所述注意力模块用于根据各图像帧的图像特征输出各图像帧中人体部件特征信息和标签信息;
所述处理模块用于根据所述注意力模块输出的人体部件标签信息,确定人体部件特征信息的有效性以及所属的部件类别;
所述融合模块用于将属于同一部件类别且有效的人体部件特征信息进行融合得到目标特征信息;
所述识别模块用于根据所述目标特征信息识别行人。
本发明的第三方面提供一种电子设备,所述电子设备包括:
处理器;
存储器,用于存储可由所述处理器执行的计算机程序;
其中,所述处理器执行所述程序时实现所述行人再识别方法。
相比于现有技术,本发明至少具有以下有益效果:
本发明通过利用注意力模型定位得到各图像帧中人体部件的特征信息和标签信息,并基于标签信息确定定位得到的人体部件特征信息的有效性和人体部件特征信息所属的部件类别,以实现将属于同一部件类别且有效的人体部件特征信息进行融合,从而有效避免对非人体部件的特征信息的融合,有利于提高对人体部件定位的准确性和行人再识别的准确性。由此,本发明能够将非人体部件的特征信息如背景特征信息筛除,从而可以适用于复杂的监控场景,且本发明所提供的方法算法较为简单,能够提高行人再识别的效率和减轻系统的运算负担。
附图说明
图1a为现有技术行人再识别方法在人体占满整个图像时,进行部件区域划分后的示意图;
图1b为现有技术行人再识别方法在人体部分部件不存在于图像中时,进行部件区域划分后的示意图;
图1c为现有技术行人再识别方法在人体未占满整个图像时,进行部件区域划分后的示意图;
图2是本发明根据一示例性实施例示出的一种行人再识别方法的流程示意图;
图3是本发明根据一示例性实施例示出的一种行人再识别方法的步骤S2所包含的步骤的流程图;
图4是本发明所提供的行人再识别方法在对人体未占满整个图像时,进行人体部件区域划分后的示意图;
图5是本发明根据一示例性实施例示出的一种网络架构模型的训练过程的流程图;
图6是本发明根据一示例性实施例示出的一种网络架构模型的训练过程的流程图;
图7是本发明根据一示例性实施例示出的一种行人再识别装置的结构框图;
图8是本发明根据一示例性实施例示出的行人再识别装置所在电子设备的一种硬件结构图。
具体实施方式
这里将详细对示例性实施例进行说明,其示例表示在附图中,下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。并且,以下示例性实施例中所描述的实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应该限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释为“在……时”或“当……时”或“响应于确定”。
为了使本发明更清楚简洁,以下对本发明所提及的一些技术术语进行解释:
卷积神经网络(Convolutional Neural Network,CNN),是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现;其中,通过权值共享和特征汇聚,以较少的参数量有效提取图像的结构信息。通常包括卷积层(convolutional layer)和池化层(pooling layer)。
行人再识别(Person re-identification,Person Re-ID),也称为行人重识别,是一种利用计算机视觉技术判断图像或视频序列中是否存在特定行人的技术,如用于在多个摄像头拍摄的行人图像或视频序列中匹配相同行人,是一个图像检索的子问题,在室外安全监控等领域中有着广泛的应用。
注意力模型(Attention Model,AM),是一种对齐模型,能够实现目标与关键特征的对齐,在本发明中,体现在人体部件的特征信息的标签值与对应特征的对齐。
空间变换网络(Spatial Transformer Network,STN),是一种卷积神经网络架构模型,通过变换输入的图片,降低受到数据在空间上多样性的影响,来提高卷积网络模型的分类准确性,而不是通过改变网络结构;可用于粗略定位图像中的特定目标。
多层神经网络(Multi-Layer Perceptron,MLP),即多层感知器,是一种前向结构的人工神经网络,映射一组输入向量到一组输出向量。
目前在视频行人再识别领域中,实现行人再识别的方法一般是通过在每帧图像中固定划分部件区域,然后利用划分后的区域进行多帧间的特征信息融合,以再识别行人。其中,如图1a所示,在人体区域占满整张图像并且人体各部件都位于图像中时,划分后的区域a、b和c能够对人体部件进行有效的划分。但是,如图1b和1c所示,在复杂的图像采集环境下,当采集到图像中所显示的人体部件不完整或人体区域没有占满整张图像时,划分后的区域a、b和c无法对人体部件进行合理定位。这么一来,在多帧之间进行人体部件的特征信息融合时,会发生不对齐现象,即会将不属于人体部件的其它特征信息,如图像背景特征信息一起融合;另外,在不同视频之间进行人体部位比对时,也容易发生部件错位现象;导致行人再识别准确性较低、且无法适用于复杂的监控场景。
基于此,为解决上述问题,如图2所示,图2是本发明根据一示例性实施例示出的一种行人再识别方法的流程示意图,本发明提供了一种行人再识别方法,可以包括以下步骤:
S1,将图像帧序列中各图像帧的图像特征输入已训练的注意力模型,以由所述注意力模型输出各图像帧中人体部件特征信息和标签信息;
S2,根据所述注意力模型输出的人体部件标签信息,确定人体部件特征信息的有效性以及所属的部件类别;
S3,将属于同一部件类别且有效的人体部件特征信息进行融合得到目标特征信息;
S4,根据所述目标特征信息识别行人。
在本发明中,所述行人再识别方法可以应用于管理多个监控设备的服务器、监控设备、或其它具有图像处理功能的电子设备。
当以上任一种设备收到需要进行行人再识别的图像帧序列时,可以先在本设备或其它外接设备中通过预先训练好的卷积神经网络对输入的图像帧序列进行特征提取,以获得可以输入到已训练的注意力模型的各图像帧的图像特征。其中,具体的图像特征提取原理可参见相关技术,在此不赘述。
在一个例子中,所述卷积神经网络对单帧图像进行特征提取的过程可以通过以下公式表示:F=W*I。其中,F表示基于当前输入的一帧图像提取得到的单帧特征信息,W表示卷积神经网络的卷积操作中所使用到的所有参数,符号*表示卷积神经网络进行特征提取的过程中,所需进行的卷积、激活、池化等操作。
通过所述卷积神经网络从所述图像帧序列中提取到各图像帧的图像特征后,可以向所述预先训练好的注意力模型输入所述各图像帧的图像特征,以由所述注意力模型输出各图像帧中人体部件特征信息和标签信息。接着,就可以根据所述注意力模型输出的人体部件标签信息,确定人体部件特征信息的有效性以及人体部件信息的所属部件类别。
其中,所述人体部件标签信息用于表征所述人体部件特征信息是否有效以及对应的部件类别。因为在通常情况下,人体部件特征信息一般包括用于表征人体部件的有效特征信息和用于表征非人体部件的无效特征信息,例如,有效特征信息可以包括人体头部特征信息、人体上半身特征信息和人体下半身特征信息,无效特征信息可以为背景特征信息。基于此,为了实现对无效特征信息和有效特征信息的区分、并实现对有效特征信息所属的部件类型的区分,本发明实施例通过注意力模型输出人体部件特征信息时,还输出用于标记所述人体部件特征信息的标签信息,从而可以通过人体部件标签信息避免错将无效特征信息作为有效特征信息进行融合,也可以避免将不属于同一部件类别的人体部件特征信息进行融合。
以下,举例说明一下如何利用标签信息确定人体部件特征信息的有效性以及所属的部件类别:
假设将人体划分成组成其的3个人体部件,所述3个人体部件分别为对应人体头部的第一部件、对应除头部外的人体上半身部分的第二部件,和对应人体下半身部分的第三部件。相应地,部件类别包括人体头部、人体上半身部分和人体下半身部分;所述无效特征信息为图像中除了人体头部、人体上半身部件和人体下半身部分之外的其它部分的图像特征信息。
基于此,为区分各部件的部件类别和无效特征信息,标签信息可以为标记用的恒值,例如,第一部件对应的基准标签信息可以为标记值0,第二部件对应的基准标签信息可以为标记值1,第三部件对应的基准标签信息可以为标记值2,无效特征信息对应的基准标签信息可以为标记值3。这么一来,当所述人体部件特征信息的标签信息的值为0时,表示所述人体部件特征信息所属的部件类别为人体头部;当所述人体部件特征信息的标签信息的值为1时,表示所述人体部件特征信息所属的部件类别为人体上半身;当所述人体部件特征信息的标签信息的值为2时,表示所述人体部件特征信息所属的部件类别为人体下半身部分;当所述人体部件特征信息的标签信息的值为3时,表示所述人体部件特征信息无效,不属于任一部件类别,或者,当部件类别还包括用于指示非人体部件的无效部件类别时,可以表示所述人体部件特征信息无效并属于无效部件类别。
从上述描述可知,当通过一个注意力模型基于各帧对多个人体部件进行同时识别时,如果输出的人体部件标签信息分别为0、3、3,那么表示当前帧图像只存在第一部件。
注意力模型是如何根据各图像帧的图像特征获得各帧中人体部件特征信息和标签信息,可结合本发明相关内容和相关技术进行理解,在此不赘述。
由上述可知,在一个例子中,如图3所示,图3是本发明根据一示例性实施例示出的一种行人再识别方法的步骤S2所包含的步骤的流程图,所述步骤S2可以包括以下步骤:
S21,将人体部件标签信息与预设的基准标签信息进行匹配;所述基准标签信息包括无效标签信息和至少两个基准部件标签信息,不同基准部件标签信息对应不同部件类别;
S22,若所述人体部件标签信息与无效标签信息匹配,则确定所述人体部件特征信息无效,并确定所述人体部件特征信息所属的部件类别为无效部件类别;
S23,若所述人体部件标签信息与任一基准部件标签信息匹配,则确定所述人体部件特征信息有效,并确定所述人体部件特征信息所属的部件类别为匹配的基准部件标签信息对应的部件类别。
由此,通过注意力模型获得各图像帧中人体部件特征信息和所述人体部件特征信息对应的标签信息后,就可以根据所有人体部件特征信息所对应的标签信息,从所有人体部件特征信息中选取出标签信息与任一基准部件标签信息匹配的人体部件特征信息,以作为有效特征信息,例如,假设所有基准部件标签信息的预设值分别为0,1,2,注意力模型输出的所有人体部件特征信息的标签信息分别为0、0、0、3、1、3、2、1、3、2;那么可知,只有标签信息的值为0、1、2的人体部件特征信息才是有效特征信息,而标签信息的值为3的人体部件特征信息为无效特征信息;同时可以将有效特征信息进行分类——将人体部件标签信息的值为0的人体部件特征信息归为一类,将人体部件标签信息的值为1的人体部件特征信息归为一类,将人体部件标签信息的值为2的人体部件特征信息归为一类;在归类的同时,可以根据人体部件标签信息的值确定其对应的人体部件特征信息所属的部件类别。从而可以剔除掉不属于或不对应于人体部件的人体部件特征信息,也可以确定属于人体部件的各人体部件特征信息所属的部件类别。
由此,本发明所提供的行人再识别方法对各图像帧中人体部件的定位相对于现有技术具有更好的定位效果,以下举个例子说明,如图4所示,图4是本发明所提供的行人再识别方法在对人体未占满整个图像时,进行人体部件区域划分后的示意图,在复杂的图像采集环境下,当采集到的图像中所显示的人体部件不完整或人体区域没有占满整张图像时,通过本发明所提供的行人再识别方法得到各部件的划分区域都能对人体部件进行合理定位,也即,图4中所显示的区域a、b、c都能跟随自身对应的人体部件,如图4中的最前两帧图像所示。并且,当某个区域所对应的人体部件不存在时,该区域不会对当前帧图像的任一区域进行定位,如图4中的最后两帧图像所示。
确定人体部件特征信息的有效性以及所属的部件类别之后,即可对属于同一部件类别且有效的人体部件特征信息进行融合处理,从而获得各部件类别下的所有有效的人体部件特征信息融合后的目标特征信息。
在一个例子中,为了提高所获得的目标特征信息的精确度和行人再识别的准确度,可以通过加权融合算法实现融合处理。基于此,所述步骤S3可以包括以下步骤:
S31,通过加权融合算法计算属于同一部件类别且有效的各人体部件特征信息的融合权重值;
S32,根据属于同一部件类别且有效的各人体部件特征信息的融合权重值,对属于同一部件类别且有效的各人体部件特征信息进行融合得到目标特征信息。
例如,以有效的人体部件特征信息所属部件类别包括第一部件、第二部件和第三部件为例,将属于第一部件的所有有效人体部件特征信息进行融合得到的目标特征信息可以通过以下公式表示:
Figure BDA0001889598710000091
其中,F1表示第一部件的目标特征信息,N1表示部件类别为第一部件的所有有效人体部件特征信息的总数,fi,1表示第一部件下的第i个有效人体部件特征信息,wi,1表示第一部件下的第i个有效人体部件特征信息的融合权重。同理,所述第二部件对应的目标特征信息和所述第三部件对应的目标特征信息可以分别通过以下公式表示:
Figure BDA0001889598710000101
其中,F2表示第二部件的目标特征信息,N2表示部件类别为第二部件的所有有效人体部件特征信息的总数,fi,2表示第二部件下的第i个有效人体部件特征信息,wi,2表示第二部件下的第i个有效人体部件特征信息的融合权重;F3表示第三部件的目标特征信息,N3表示部件类别为第三部件的所有有效人体部件特征信息的总数,fi,3表示第三部件下的第i个有效人体部件特征信息,wi,3表示第二部件下的第i个有效人体部件特征信息的融合权重。
在一个例子中,所述融合权重可以通过训练好的权重计算网络基于有效的人体部件特征信息计算得到。
在一个例子中,所述特征提取用的卷积神经网络和所述权重计算网络可以属于同一卷积神经网络的一部分。例如,在训练中,可以将特征提取用的卷积神经网络、注意力模型和权重计算网络视为一个整体的网络架构,并基于图像样本序列对所述网络架构进行训练,得到本发明所需的网络架构。其中,权重计算网络的类型可以为卷积神经网络。
得到各部件类别所对应的目标特征信息之后,可以基于各目标特征信息实现识别行人,例如,将第一部件的目标特征信息与已获取的目标行人的第一部件的目标信息进行匹配,将第二部件的目标特征信息与所述目标行人的第二部件的目标信息进行匹配,将第三部件的目标特征信息与所述目标行人的第三部件的目标信息进行匹配,根据三次匹配所得的结果得到识别结果。另外,也可以将所有目标特征信息拼接后才识别行人,基于此,在一个例子中,所述步骤S4可以包括以下步骤:
S41,将不同部件类别的目标特征信息进行拼接得到行人特征;
S42,计算所述行人特征和已获取的目标行人特征之间的特征相似度;
S43,根据所述特征相似度得到识别结果。
按人体组成结构,将组成人体的多个人体部件的目标特征信息拼接后,所得的行人特征可以视为所述图像帧序列的最终特征信息。
本例中,所述行人特征和所述目标行人特征都为特征矩阵或特征向量;例如,假设将人体划分成3个组成部分、目标特征信息为1×T的特征向量时,对应的行人特征为一个1×3T的特征向量。同理,目标行人特征也可以表示为一个1×3T的特征向量。
在一个例子中,所述目标行人特征可以事先给定,例如,事先确定好目标行人,并对与目标行人相关的图像特征序列处理得到目标行人特征,其中的处理过程可以通过本发明的行人再识别方法实现,也可以通过相关技术中的其它方法实现。在另一例子中,所述目标行人特征可以与所述行人特征同时获得,也可以在得到所述行人特征之后获得,例如,可以通过本发明的行人再识别方法分别对所述目标行人特征对应的图像特征序列和所述行人特征对应的图像特征序列进行处理,得到所述目标行人特征和所述行人特征。
在获得所述行人特征和所述目标行人特征之后,可以通过以下公式计算得到所述行人特征和所述目标行人特征之间的特征相似度:
Figure BDA0001889598710000111
其中,Similarity(m,n)表示所述特征相似度,m表示所述行人特征,n表示所述目标行人特征,D表示所述行人特征的维度(所述行人特征的维度和所述目标行人特征的维度相同),Fm,k表示所述行人特征第k维度的特征,Fn,k表示目标行人特征第k维度的特征。
上述各公式中的运算符“·”为向量之间的点乘符号。
在一个例子中,所述特征相似度的值可以归一化到[0,1]这一取值区间。也即,所述特征相似度的值大于或等于0、且小于或等于1。当所述特征相似度的值越接近1,表明所述行人特征和所述目标行人特征对应着相同行人的可能性更高。
计算得到所述特征相似度后,可以将所述特征相似度与预设相似阈值比对,并根据比对结果确定识别结果。例如,当所述特征相似度小于预设相似阈值时,表示所述行人特征和所述目标行人特征对应着不同行人,输出的识别结果可以为:不同行人。当所述特征相似度大于或等于预设相似阈值时,表示所述行人特征和所述目标行人特征对应着相同行人,输出的识别结果可以为:相同行人。
在一个例子中,所述识别结果还可以包括所述特征相似度。
由此,在实际应用中,当需要识别两个不同的图像帧序列中指定的行人是否为同一行人时,例如,进行视频监控寻找目标对象时,可以通过本发明的所述行人再识别方法对所述两个不同的图像帧序列先后或同时进行行人再识别。
由此,本发明通过利用注意力模型定位得到各图像帧中人体部件的特征信息和标签信息,并基于标签信息确定定位得到的人体部件特征信息的有效性和人体部件特征信息所属的部件类别,以实现将属于同一部件类别且有效的人体部件特征信息进行融合,从而有效避免对非人体部件的特征信息的融合,有利于提高对人体部件定位的准确性和行人再识别的准确性。由此,本发明能够将非人体部件的特征信息如背景特征信息筛除,从而可以适用于复杂的监控场景,且本发明所提供的方法算法较为简单,能够提高行人再识别的效率和减轻系统的运算负担。
为了提高行人再识别效率和准确性,在一实施例中,本发明应用了两个以上的注意力子模型实现对不同人体部件的人体部件特征信息和标签信息的获取。可以理解为,所述注意力模型包括两个以上的注意力子模型,不同注意力子模型对应不同人体部件;各注意力子模型用于确定其对应的人体部件的人体部件特征信息和标签信息。
基于此,所述注意力模型输出各图像帧中人体部件特征信息和标签信息,可以包括:各注意力子模型根据输入的各图像帧的图像特征,确定其对应的人体部件在各图像帧的位置信息,并根据所述位置信息确定并输出其对应的人体部件特征信息和标签信息。
在应用中,可以将图像帧序列中各图像帧的图像特征同时输入到各注意力子模型中,各注意力子模型将各司其职,根据自身所需定位的部件分别对各图像帧的图像特征进行处理,输出各图像帧中其对应的人体部件特征信息和标签信息。
以下,以有效的人体部件特征信息所属部件类别包括第一部件、第二部件和第三部件、且第一部件、第二部件、第三部件及无效部件类别所对应的标签信息的值分别为0、1、2和3为例,说明一下所述注意力子模型的工作过程:
基于本例,所述注意力模型所包含的注意力子模型可以分别为:对应第一部件的第一注意力子模型、对应第二部件的第二注意力子模型、和对应第三部件的第三注意力子模型。将各图像帧的图像特征分别同时输入到各注意力子模型后,第一注意力子模型通过处理会定位出第一部件的特征区域,从而得到各图像帧中第一部件的位置信息、特征信息和标签信息,并输出;同时,第二注意力子模型和第三注意力子模型也分别输出各图像帧中第二部件和第三部件的位置信息、特征信息和标签信息。
其中,由于在上述应用中的各注意力子模型为已经训练完成的模型,所以各注意力子模型只会关注其对应的人体部件的特征,不会关注其不对应的其它人体部件的特征。可以理解为,各注意力子模型只会去识别其对应的人体部件的特征,会将其不对应的人体部件的特征忽视掉。故各注意力子模型输出的人体部件标签信息的值只有两种情况——当前图像帧中存在其对应的人体部件时所输出的标签信息的值,当前图像帧中不存在其对应的人体部件时所输出的标签信息的值;例如,第一注意力子模型输出的标签信息的值只有0和3两种,第二注意力子模型输出的标签信息的值只有1和3两种,第三注意力子模型输出的标签信息的值只有2和3两种。
由此,本发明通过利用不同注意力子模型分别获取不同人体部件的位置信息、特征信息和标签信息,分担一个注意力模型的工作量,从而有利于减轻一个注意力模型获取所有人体部件位置信息、特征信息和标签信息时的运算负担,并有利于提高行人再识别效率和准确性。
为了保证本发明上述实施例所提供的整体网络架构的运算准确性,在一实施例中,本发明实施例还提供了训练所述整体网络架构的技术方案。如图5所示,图5是本发明根据一示例性实施例示出的一种网络架构模型的训练过程的流程图;在预存所述注意力子模型之前,先基于图像样本序列训练得到所述注意力子模型,训练过程包括:
Sa,通过卷积神经网络对图像样本序列进行特征信息提取,得到样本特征序列;
Sb,向待训练的各注意力子模型输入所述样本特征序列,得到所述样本特征序列的各图像帧中对应人体部件的预测特征信息和预测标签信息;
Sc,根据各注意力子模型输出的预测标签信息,确定各注意力子模型对应的人体部件的预测特征信息的有效性和所属的部件类别;
Sd,将属于同一部件类别且有效的预测特征信息进行融合,获得各人体部件的预测目标特征信息;
Se,对获得的所有预测目标特征信息进行拼接处理,得到预测行人特征;
Sf,根据预测行人特征和基准行人特征,计算得到预测特征相似度;
Sg,当所述预测特征相似度满足预设值时,生成各注意力子模型。
对所述步骤Sa~Sg的理解,可结合本发明实施例上述所公开的相关内容及相关技术获知,在此不赘述。
在生成成功的各注意力子模型之前,需要不断基于不同的图像样本序列循环执行所述步骤Sa~Sf,以不断更新所述卷积神经网络和各注意力子模型,直至所得到的预测特征相似度满足所述步骤Sg中的注意力子模型的生成条件。
在所述步骤Sg之前,本发明所提供的行人再识别方法还包括以下步骤:
Sg1,基于所述预测特征相似度和预设的基准特征相似度,更新卷积神经网络和各注意力子模型。具体包括以下步骤:
Sg11,基于所述预测特征相似度和预设的基准特征相似度,计算得到第一损失函数的值,并将所述第一损失函数的值返回至所述卷积神经网络,作为所述卷积神经网络其中一输入参数;
Sg12,根据所述第一损失函数的值更新所述卷积神经网络、各注意力子模型和权重计算网络的内部参数。
为提高对卷积神经网络和各注意子模型的训练效率和准确度,在一实施例中,所述训练过程还可以包括:
Sc1,基于各人体部件的预测标签信息和预设的基准标签信息,更新卷积神经网络和待训练的各注意力子模型;所述基准标签信息包括无效标签信息和至少两个基准部件标签信息,不同基准部件标签信息对应不同部件类别。
其中,对所述无效标签信息的说明可见本发明实施例前述相关内容,在此不赘述。
所述基准标签信息用于表示注意力子模型所对应的人体部件在各图像帧中的实际情况,例如,对应于第一部件的第一注意力子模型,如果当前帧中并不存在第一部件(人体头部),那么当前的基准标签信息的值为3;如果当前帧中存在所述第一部件,那么当前的基准标签信息的值为0。基于此,所述预测标签信息只是学习中的第一注意力子模型根据当前帧图像的图像特征处理得到的不一定准确的标签信息,也即,在当前帧中并不存在第一部件(人体头部)时,所述预测标签信息可能是以下任一:0、1、2、3。
具体地,如图6所示,图6是本发明根据一示例性实施例示出的一种网络架构模型的训练过程的流程图,所述步骤Sc1可以包括以下步骤:
Sc11,基于各部件的所述预测标签信息和基准标签信息,计算得到第二损失函数的值,并将所述第二损失函数的值返回至所述卷积神经网络,作为所述卷积神经网络其中一输入参数;
Sc12,根据所述第二损失函数的值更新所述卷积神经网络、各注意力子模型和权重计算网络的内部参数。
由此,本发明通过以上训练方法对所述整体网络架构进行训练,有利于提高训练得到的整体网络架构的完善度和准确性。
与前述方法实施例对应,本发明实施例还提供一种行人再识别装置,如图7所示,图7是本发明根据一示例性实施例示出的一种行人再识别装置的结构框图,所述行人再识别装置100可以应用图像设备、移动设备、个人助理、平板设备、计算机设备或服务器上,其包括特征输入模块101、注意力模块102、处理模块103、融合模块104和识别模块105。所述注意力模块102包括已训练好的注意力模型。
所述特征输入模块101用于将图像帧序列中各图像帧的图像特征输入所述注意力模块。
所述注意力模块102用于根据各图像帧的图像特征输出各图像帧中人体部件特征信息和标签信息。
所述处理模块103用于根据所述注意力模块102输出的人体部件标签信息,确定人体部件特征信息的有效性以及所属的部件类别。
所述融合模块104用于将属于同一部件类别且有效的人体部件特征信息进行融合得到目标特征信息。
所述识别模块105用于根据所述目标特征信息识别行人。
在一实施例中,所述注意力模块102包括两个以上的注意力单元,不同注意力单元对应不同人体部件。各注意力单元用于确定其对应的人体部件的人体特征信息和标签信息,包括:
各注意力单元根据输入的各图像帧的图像特征,确定其对应的人体部件在各图像帧的位置信息,并根据所述位置信息确定并输出其对应的人体部件特征信息和标签信息。
在一实施例中,所述处理模块103可以包括:
匹配单元,用于将人体部件标签信息与预设的基准标签信息进行匹配;所述基准标签信息包括无效标签信息和至少两个基准部件标签信息,不同基准部件标签信息对应不同部件类别;
第一确定单元,用于在所述人体部件标签信息与无效标签信息匹配时,确定所述人体部件特征信息无效,并确定所述人体部件特征信息所属的部件类别为无效部件类别;
第二确定单元,用于在所述人体部件标签信息与任一基准部件标签信息匹配时,确定所述人体部件特征信息有效,并确定所述人体部件特征信息所属的部件类别为匹配的基准部件标签信息对应的部件类别。
在一实施例中,所述融合模块104可以包括:
权重计算单元,用于通过加权融合算法计算属于同一部件类别且有效的各人体部件特征信息的融合权重值;
融合处理单元,用于根据属于同一部件类别且有效的各人体部件特征信息的融合权重值,对属于同一部件类别且有效的各人体部件特征信息进行融合得到目标特征信息。
在一实施例中,所述识别模块105可以包括:
拼接单元,用于将不同部件类别的目标特征信息进行拼接得到行人特征;
相似度计算单元,用于计算所述行人特征和已获取的目标行人特征之间的特征相似度;
识别单元,用于根据所述特征相似度得到识别结果。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元。
与前述方法实施例对应,本发明实施例还提供了一种电子设备,所述电子设备包括:
处理器;
存储器,用于存储可由所述处理器执行的计算机程序;
其中,所述处理器执行所述程序时实现前述任一方法实施例中的所述行人再识别方法的步骤。
本发明实施例所提供的行人再识别装置的实施例可以应用在所述电子设备上。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图8所示,图8是本发明根据一示例性实施例示出的行人再识别装置所在电子设备的一种硬件结构图,除了图8所示的处理器510、内存530、接口520、以及非易失存储器540之外,实施例中视频编码数据的存储装置100所在的电子设备通常根据该电子设备的实际功能,还可以包括其他硬件,对此不再赘述。
与前述方法实施例对应,本发明实施例还提供一种机器可读存储介质,其上存储有程序,所述程序被处理器执行时实现前述任一方法实施例中的行人再识别方法。
本发明实施例可采用在一个或多个包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。所述机器可读存储介质可以包括:永久性或非永久性的可移动或非可移动媒体。所述机器可读存储介质的信息存储功能可以由任何可以实现的方法或技术实现。所述信息可以是计算机可读指令、数据结构、程序的模型或其它数据。
另外,所述机器可读存储介质包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其它类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其它内存技术的记忆体、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其它光学存储器、磁盒式磁带、磁带磁盘存储或其它磁性存储设备或可用于存储可被计算设备访问的信息的其它非传输介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (11)

1.一种行人再识别方法,其特征在于,包括:
将图像帧序列中各图像帧的图像特征输入已训练的注意力模型,以由所述注意力模型输出各图像帧中人体部件特征信息和标签信息;
根据所述注意力模型输出的人体部件标签信息,确定人体部件特征信息的有效性以及所属的部件类别;
将属于同一部件类别且有效的人体部件特征信息进行融合得到目标特征信息;
根据所述目标特征信息识别行人。
2.根据权利要求1所述的方法,其特征在于,所述注意力模型包括两个以上的注意力子模型,不同注意力子模型对应不同人体部件;各注意力子模型用于确定其对应的人体部件的人体部件特征信息和标签信息;
所述注意力模型输出各图像帧中人体部件特征信息和标签信息,包括:
各注意力子模型根据输入的各图像帧的图像特征,确定其对应的人体部件在各图像帧的位置信息,并根据所述位置信息确定并输出其对应的人体部件特征信息和标签信息。
3.根据权利要求1所述的方法,其特征在于,所述根据注意力模型输出的人体部件标签信息,确定人体部件特征信息的有效性以及所属的部件类别,包括:
将人体部件标签信息与预设的基准标签信息进行匹配;所述基准标签信息包括无效标签信息和至少两个基准部件标签信息,不同基准部件标签信息对应不同部件类别;
若所述人体部件标签信息与无效标签信息匹配,则确定所述人体部件特征信息无效,并确定所述人体部件特征信息所属的部件类别为无效部件类别;
若所述人体部件标签信息与任一基准部件标签信息匹配,则确定所述人体部件特征信息有效,并确定所述人体部件特征信息所属的部件类别为匹配的基准部件标签信息对应的部件类别。
4.根据权利要求1所述的方法,其特征在于,将属于同一部件类别且有效的人体部件特征信息进行融合得到目标特征信息,包括:
通过加权融合算法计算属于同一部件类别且有效的各人体部件特征信息的融合权重值;
根据属于同一部件类别且有效的各人体部件特征信息的融合权重值,对属于同一部件类别且有效的各人体部件特征信息进行融合得到目标特征信息。
5.根据权利要求1所述的方法,其特征在于,根据所述目标特征信息识别行人,包括:
将不同部件类别的目标特征信息进行拼接得到行人特征;
计算所述行人特征和已获取的目标行人特征之间的特征相似度;
根据所述特征相似度得到识别结果。
6.根据权利要求2所述的方法,其特征在于,所述注意力子模型通过基于图像样本序列训练得到,训练过程包括:
通过卷积神经网络对图像样本序列进行特征信息提取,得到样本特征序列;
向待训练的各注意力子模型输入所述样本特征序列,得到所述样本特征序列的各图像帧中对应人体部件的预测特征信息和预测标签信息;
根据各注意力子模型输出的预测标签信息,确定各注意力子模型对应的人体部件的预测特征信息的有效性和所属的部件类别;
将属于同一部件类别且有效的预测特征信息进行融合,获得各人体部件的预测目标特征信息;
对获得的所有预测目标特征信息进行拼接处理,得到预测行人特征;
根据预测行人特征和基准行人特征,计算得到预测特征相似度;
当所述预测特征相似度满足预设值时,生成各注意力子模型。
7.根据权利要求6所述的方法,其特征在于,所述训练过程还包括:
基于各人体部件的预测标签信息和预设的基准标签信息,更新卷积神经网络和待训练的各注意力子模型;所述基准标签信息包括无效标签信息和至少两个基准部件标签信息,不同基准部件标签信息对应不同部件类别。
8.一种行人再识别装置,其特征在于,包括特征输入模块、注意力模块、处理模块、融合模块和识别模块;所述注意力模块包括已训练的注意力模型;
所述输入模块用于将图像帧序列中各图像帧的图像特征输入所述注意力模块;所述注意力模块用于根据各图像帧的图像特征输出各图像帧中人体部件特征信息和标签信息;
所述处理模块用于根据所述注意力模块输出的人体部件标签信息,确定人体部件特征信息的有效性以及所属的部件类别;
所述融合模块用于将属于同一部件类别且有效的人体部件特征信息进行融合得到目标特征信息;
所述识别模块用于根据所述目标特征信息识别行人。
9.根据权利要求8所述的装置,其特征在于,所述注意力模块包括两个以上的注意力单元,不同注意力单元对应不同人体部件;
各注意力单元用于确定其对应的人体部件的人体特征信息和标签信息,包括:
各注意力单元根据输入的各图像帧的图像特征,确定其对应的人体部件在各图像帧的位置信息,并根据所述位置信息确定并输出其对应的人体部件特征信息和标签信息。
10.根据权利要求8所述的装置,其特征在于,所述处理模块包括:
匹配单元,用于将人体部件标签信息与预设的基准标签信息进行匹配;所述基准标签信息包括无效标签信息和至少两个基准部件标签信息,不同基准部件标签信息对应不同部件类别;
第一确定单元,用于在所述人体部件标签信息与无效标签信息匹配时,确定所述人体部件特征信息无效,并确定所述人体部件特征信息所属的部件类别为无效部件类别;
第二确定单元,用于在所述人体部件标签信息与任一基准部件标签信息匹配时,确定所述人体部件特征信息有效,并确定所述人体部件特征信息所属的部件类别为匹配的基准部件标签信息对应的部件类别。
11.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储可由所述处理器执行的计算机程序;
其中,所述处理器执行所述程序时实现权利要求1~7任一项所述方法的步骤。
CN201811465181.XA 2018-12-03 2018-12-03 行人再识别方法、装置及电子设备 Active CN111259701B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811465181.XA CN111259701B (zh) 2018-12-03 2018-12-03 行人再识别方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811465181.XA CN111259701B (zh) 2018-12-03 2018-12-03 行人再识别方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111259701A true CN111259701A (zh) 2020-06-09
CN111259701B CN111259701B (zh) 2023-04-25

Family

ID=70950509

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811465181.XA Active CN111259701B (zh) 2018-12-03 2018-12-03 行人再识别方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111259701B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627342A (zh) * 2021-08-11 2021-11-09 人民中科(济南)智能技术有限公司 视频深度特征提取优化的方法、系统、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330396A (zh) * 2017-06-28 2017-11-07 华中科技大学 一种基于多属性和多策略融合学习的行人再识别方法
WO2018100797A1 (ja) * 2016-11-29 2018-06-07 ソニーモバイルコミュニケーションズ株式会社 情報処理方法、情報処理装置、および情報処理端末
WO2018121690A1 (zh) * 2016-12-29 2018-07-05 北京市商汤科技开发有限公司 对象属性检测、神经网络训练、区域检测方法和装置
CN108764308A (zh) * 2018-05-16 2018-11-06 中国人民解放军陆军工程大学 一种基于卷积循环网络的行人重识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018100797A1 (ja) * 2016-11-29 2018-06-07 ソニーモバイルコミュニケーションズ株式会社 情報処理方法、情報処理装置、および情報処理端末
WO2018121690A1 (zh) * 2016-12-29 2018-07-05 北京市商汤科技开发有限公司 对象属性检测、神经网络训练、区域检测方法和装置
CN107330396A (zh) * 2017-06-28 2017-11-07 华中科技大学 一种基于多属性和多策略融合学习的行人再识别方法
CN108764308A (zh) * 2018-05-16 2018-11-06 中国人民解放军陆军工程大学 一种基于卷积循环网络的行人重识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAO LIU等: ""End-to-End Comparative Attention Networks for Person Re-Identification"" *
刘皓: ""基于深度学习的行人再识别问题研究"" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627342A (zh) * 2021-08-11 2021-11-09 人民中科(济南)智能技术有限公司 视频深度特征提取优化的方法、系统、设备及存储介质
CN113627342B (zh) * 2021-08-11 2024-04-12 人民中科(济南)智能技术有限公司 视频深度特征提取优化的方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN111259701B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
CN110472531B (zh) 视频处理方法、装置、电子设备及存储介质
CN110909651B (zh) 视频主体人物的识别方法、装置、设备及可读存储介质
Ge et al. An attention mechanism based convolutional LSTM network for video action recognition
Paul et al. Robust visual tracking by segmentation
CN111460968B (zh) 基于视频的无人机识别与跟踪方法及装置
WO2016183766A1 (en) Method and apparatus for generating predictive models
CN110598715A (zh) 图像识别方法、装置、计算机设备及可读存储介质
Huang et al. End-to-end multitask siamese network with residual hierarchical attention for real-time object tracking
KR20190125029A (ko) 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법 및 장치
Li et al. Learning hierarchical video representation for action recognition
Farhadi et al. TKD: Temporal knowledge distillation for active perception
CN113393496A (zh) 一种基于时空注意力机制的目标跟踪方法
Bajestani et al. Tkd: Temporal knowledge distillation for active perception
Ahmadi et al. Efficient and fast objects detection technique for intelligent video surveillance using transfer learning and fine-tuning
Zhou et al. Transformer-based multi-scale feature integration network for video saliency prediction
CN112036381A (zh) 视觉跟踪方法、视频监控方法及终端设备
CN112084887A (zh) 一种基于注意力机制的自适应视频分类方法及系统
CN116824625A (zh) 基于生成式多模态图像融合的目标重识别方法
Khan et al. Dimension invariant model for human head detection
CN111259701B (zh) 行人再识别方法、装置及电子设备
CN116824641A (zh) 姿态分类方法、装置、设备和计算机存储介质
CN112101154A (zh) 视频分类方法、装置、计算机设备和存储介质
CN116758449A (zh) 一种基于深度学习的视频显著目标检测方法及系统
CN112488985A (zh) 图像质量确定方法、装置及设备
Li et al. Spatial-then-temporal self-supervised learning for video correspondence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant