CN111597893B - 一种行人图像的匹配方法、装置、存储介质及终端 - Google Patents

一种行人图像的匹配方法、装置、存储介质及终端 Download PDF

Info

Publication number
CN111597893B
CN111597893B CN202010291688.9A CN202010291688A CN111597893B CN 111597893 B CN111597893 B CN 111597893B CN 202010291688 A CN202010291688 A CN 202010291688A CN 111597893 B CN111597893 B CN 111597893B
Authority
CN
China
Prior art keywords
pedestrian
boundary
matching
bounding box
box
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010291688.9A
Other languages
English (en)
Other versions
CN111597893A (zh
Inventor
张史梁
钟颖基
王孝宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202010291688.9A priority Critical patent/CN111597893B/zh
Publication of CN111597893A publication Critical patent/CN111597893A/zh
Application granted granted Critical
Publication of CN111597893B publication Critical patent/CN111597893B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种行人图像的匹配方法、装置、存储介质及终端,所述方法包括:根据预设匹配模型对第一微调边界框中的目标行人和第二微调边界框中的待比对行人进行匹配,得到匹配结果,以便于根据匹配结果进行目标行人的搜索;其中,预设匹配模型用于对第一微调边界框中的目标行人的第一相互可见部分的特征和第二微调边界框中的待比对行人的第二相互可见部分的特征进行匹配。因此,采用本申请实施例,针对目标行人的可见部位特征提取与匹配,不仅能够有效地避免被遮挡,而且由于是部分匹配,避免了图像匹配过程中可能会出现的图像变形现象,实现了图像之间的精准匹配,最终显著提升了行人检测和识别的准确率。

Description

一种行人图像的匹配方法、装置、存储介质及终端
技术领域
本发明涉及计算机技术领域,特别涉及一种行人图像的匹配方法、装置、存储介质及终端。
背景技术
当前用于目标行人的匹配方法包括如下几类:第一类为:利用离线检测器学习区域的局部特征,能够将人体分割成多个区域,或将人体均匀分割成多个条带;第二类为:利用注意机制增强特征的区分性;第三类为:用验证损失函数、三元组损失函数等对特征空间进行约束。在上述对图像进行匹配的方法中,需要对输入图像进行严格的对准,因为未对准会破坏相同空间位置上的条纹的对应性。因此,当存在未对准时,最终得到的匹配结果会不准确。
现有的行人图像匹配方法,在实际的监控视频中,遮挡、摄像头范围以及其他因素可能造成拍摄的行人往往容易被遮挡,检测框可能只包括了人体的某个部分,此外,图像匹配过程中会出现图像变形现象,从而无法实现图像之间的精准匹配,最终显著降低了行人检测和识别的准确率。
发明内容
本申请实施例提供了一种行人图像的匹配方法、装置、存储介质及终端。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
第一方面,本申请实施例提供了一种目标行人的匹配方法,所述方法包括:
从目标行人的第一图像中确定所述目标行人的第一边界框,并对所述第一边界框进行微调,得到第一微调边界框;
从预设图像库集合中随机选取的任一第二图像中确定待比对行人的第二边界框,并对所述第二边界框进行微调,得到第二微调边界框;
根据预设匹配模型对所述第一微调边界框中的所述目标行人和所述第二微调边界框中的所述待比对行人进行匹配,得到匹配结果,以便于根据所述匹配结果进行所述目标行人的搜索;其中,所述预设匹配模型用于对所述第一微调边界框中的所述目标行人的第一相互可见部分的特征和所述第二微调边界框中的所述待比对行人的第二相互可见部分的特征进行匹配。
第二方面,本申请实施例提供了一种行人图像的匹配装置,所述装置包括:
第一微调边界框确定模块,用于从目标行人的第一图像中确定所述目标行人的第一边界框,并对所述第一边界框进行微调,得到第一微调边界框;
第二微调边界框确定模块,用于从预设图像库集合中随机选取的任一第二图像中确定待比对行人的第二边界框,并对所述第二边界框进行微调,得到第二微调边界框;
匹配模块,用于根据预设匹配模型对所述第一微调边界框确定模块确定的所述第一微调边界框中的所述目标行人和所述第二微调边界框确定模块确定的所述第二微调边界框中的所述待比对行人进行匹配,得到匹配结果,以便于根据所述匹配结果进行所述目标行人的搜索;其中,所述预设匹配模型用于对所述第一微调边界框中的所述目标行人的第一相互可见部分的特征和所述第二微调边界框中的所述待比对行人的第二相互可见部分的特征进行匹配。
第三方面,本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。
第四方面,本申请实施例提供一种终端,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法步骤。
本申请实施例提供的技术方案可以包括以下有益效果:
在本申请实施例中,根据预设匹配模型对第一微调边界框中的目标行人和第二微调边界框中的待比对行人进行匹配,得到匹配结果,以便于根据匹配结果进行目标行人的搜索;其中,预设匹配模型用于对第一微调边界框中的目标行人的第一相互可见部分的特征和第二微调边界框中的待比对行人的第二相互可见部分的特征进行匹配。由于本申请的目标行人的匹配方法为:针对目标行人的可见部位特征提取与匹配,不仅能够有效地避免被遮挡,而且由于是部分匹配,避免了图像匹配过程中可能会出现的图像变形现象,从而实现了图像之间的精准匹配,最终显著提升了行人检测和识别的准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是本申请实施例提供的一种行人图像的匹配方法的流程示意图;
图2是未对齐的人员边界框和与具有全局特征人员匹配问题的示意图;
图3是本申请实施例中的APNet体系结构示意图;
图4是本申请实施例中的用于边界框细化的边界框对齐器的示意图;
图5是本申请实施例中的检测到的红色边界框和细化绿色边界框,以及对应的功能映射示意图;
图6(a)是LSPS和PRW在查询中的身体完整性比较结果示意图;图6(b)是若干个查询和图库边界框示意图;
图7是本申请实施例中在不同条带数量K的LSPS上的性能示意图;
图8是本申请实施例中用边界框对齐器实现精细化边界框的可视化示意图;
图9是本申请实施例提供的一种行人图像的匹配装置的结构示意图;
图10是本申请实施例提供的一种终端的结构示意图。
具体实施方式
以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
到目前为止,对于行人图像匹配,在实际的监控视频中,遮挡、摄像头范围以及其他因素可能造成拍摄的行人往往容易被遮挡,检测框只包括了人体的某个部分,而且图像匹配过程中会出现图像变形现象,无法对两张图像进行图像比对,无法确定出两张图像中的行人为同一行人。为此,本申请提供一种行人图像的匹配方法、装置、存储介质及终端,以解决上述相关技术问题中存在的问题。本申请提供的技术方案中,由于本申请根据预设匹配模型对第一微调边界框中的目标行人和第二微调边界框中的待比对行人进行匹配,得到匹配结果,以便于根据匹配结果进行目标行人的搜索;其中,预设匹配模型用于对第一微调边界框中的目标行人的第一相互可见部分的特征和第二微调边界框中的待比对行人的第二相互可见部分的特征进行匹配,这样,实现了目标行人和待比对行人之间的相互可见部分的部分且精准的图像匹配过程,这样,不仅能够有效地避免被遮挡,实现有效部位的图像匹配,提高了图像匹配的精准度;此外,由于是部分匹配,避免了图像匹配过程中可能会出现的图像变形现象,实现了图像之间的精准匹配,最终显著提升了行人检测和识别的准确率,下面采用示例性的实施例进行详细说明。
下面将结合附图1-附图8,对本申请实施例提供的行人图像的匹配方法进行详细介绍。该方法可依赖于计算机程序实现,可运行于行人图像的匹配装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。其中,本申请实施例中的行人图像的匹配装置可以为用户终端,包括但不限于:个人电脑、平板电脑、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中用户终端可以叫做不同的名称,例如:用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant,PDA)、5G网络或未来演进网络中的终端设备等。
请参见图1,为本申请实施例提供了一种行人图像的匹配方法的流程示意图。如图1所示,本申请实施例的行人图像的匹配方法可以包括以下步骤:
S101,从目标行人的第一图像中确定目标行人的第一边界框,并对第一边界框进行微调,得到第一微调边界框。
如图2所示,是未对齐的人员边界框和与具有全局特征人员匹配问题的示意图;如图2所示,检测分支返回边界框和全局特征F。边界框对齐器将检测到的边界框/>细化为对齐边界框,即/>图2中的全部匹配对应的边界框表示检测到的边界框/>图2中的部分匹配对应的边界框为细化的边界框/>区域敏感特征提取器从细化边界框中提取局部特征{f(k)}k=1:K,使其能够减轻相邻噪声的负面影响。RAP和GAP分别表示区域平均池化和全局平均池化。FRSM是区域敏感映射中的全局特征,仅用于训练区域敏感特征提取器。
在一个可选的实施方式中,对第一边界框进行微调包括以下步骤:
计算第一边界框的第一偏置值、第二偏置值、第三偏置值和第四偏置值,其中,第一偏置值用于移动第一边界框的上边界,第二偏置值用于移动第一边界框的下边界,第三偏置值用于移动第一边界框的左边界,第四偏置值用于移动第一边界框的右边界;
根据第一偏置值、第二偏置值、第三偏置值和第四偏置值对第一边界框进行偏移调整,以便于第一微调边界框能够覆盖目标行人的各个身体部位;这样,对第一边界框进行微调,得到第一微调边界框。
在一个可选的实施方式中,在计算第一边界框的第一偏置值、第二偏置值、第三偏置值和第四偏置值之后,方法还包括以下步骤:
获取第一边界框的第一偏置值、第二偏置值、第三偏置值和第四偏置值;
根据第一偏置值、第二偏置值、第三偏置值和第四偏置值判断出现在第一微调边界框中的目标行人的各个身体部位;这样,根据上述第一边界框对应的偏置值能够判断出目标行人的各个身体可见部位。
S102,从预设图像库集合中随机选取的任一第二图像中确定待比对行人的第二边界框,并对第二边界框进行微调,得到第二微调边界框。在此步骤中,可以随机选取预设图像库中的任一图像作为第二图像,确定当前图像对应的边界框,并对确定的边界框进行微调,得到对应的微调边界框。
在此步骤中,从预设图像库中确定所有图像对应的边界框,并且对各个边界框进行微调,得到对应的各个微调边界框,并组成预设图像库对应的微调边界框集合。将该微调边界框集合中的任一微调边界框作为第二微调边界框,然后可以将该第二微调边界框和上述S101中的第一微调边界框进行匹配。
在一个可选的实施方式中,对第二边界框进行微调包括以下步骤:
计算第二边界框的第五偏置值、第六偏置值、第七偏置值和第八偏置值,其中,第五偏置值用于移动第二边界框的上边界,第六偏置值用于移动第二边界框的下边界,第七偏置值用于移动第二边界框的左边界,第八偏置值用于移动第二边界框的右边界;
根据第五偏置值、第六偏置值、第七偏置值和第八偏置值对第二边界框进行偏移调整,以便于第二微调边界框能够覆盖待对比行人的各个身体部位;这样,就能够实现对第二边界框的微调,得到第二微调边界框。
在一个可选的实施方式中,在计算第二边界框的第五偏置值、第六偏置值、第七偏置值和第八偏置值之后,所述方法还包括以下步骤:
获取第二边界框的第五偏置值、第六偏置值、第七偏置值和第八偏置值;
根据第五偏置值、第六偏置值、第七偏置值和第八偏置值判断出现在第二微调边界框中的待比对行人的各个身体部位。
S103,根据预设匹配模型对第一微调边界框中的目标行人和第二微调边界框中的待比对行人进行匹配,得到匹配结果,以便于根据匹配结果进行目标行人的搜索;其中,预设匹配模型用于对第一微调边界框中的目标行人的第一相互可见部分的特征和第二微调边界框中的待比对行人的第二相互可见部分的特征进行匹配。在一个可选的实施方式中,根据预设匹配模型对第一微调边界框中的目标行人和第二微调边界框中的待比对行人进行匹配包括以下步骤:
计算第一微调边界框内的目标行人的第一全貌特征矢量和第二微调边界框内的待对比行人的第二全貌特征矢量之间的距离,得到对应的距离集合;
从距离集合中选取最小距离对应的第二图像中的待比对行人作为目标行人。
在一个可选的实施方式中,在根据预设匹配模型对第一微调边界框中的目标行人和第二微调边界框中的待比对行人进行匹配之前,所述方法还包括以下步骤:
将第一图像中的目标行人部分水平等分为K个部分,提取与第一图像对应的各个特征,并生成与第一图像对应的第一特征集合;以及
将第二图像中的待比对行人部分水平等分为K个部分,提取与第二图像对应的各个特征,并生成与第二图像对应的第二特征集合。
在得到第一特征集合之后,对第一特征集合对应的矢量进行处理和整合,得到第一全貌特征矢量。
在得到第二特征集合之后,对第二特征集合对应的矢量进行处理和整合,得到第二全貌特征矢量。通过计算第一微调边界框内的目标行人的第一全貌特征矢量和第二微调边界框内的待对比行人的第二全貌特征矢量之间的距离,得到对应的距离集合;从距离集合中选取最小距离对应的第二图像中的待比对行人作为目标行人;这样,最终就能够判断任一选取的第二图像中的待比对行人是否是目标行人。
需要说明的是,本公开实施例提供的行人图像的匹配方法中,使用第一图像和第二图像互相可见部分对应的各个特征,作为评估两个图像中的行人是否一致,这样,不仅提高了匹配的效率,还提高了匹配的精准度,也减少了内存开销。
在一个可选的实施例中,所述方法还包括以下步骤:
通过区域敏感特征提取器中预设的区域敏感映射模型,对基于区域敏感映射的特征进行提取,并生成与各个区域对应的区域特征集合,其中,区域特征集合包括与无效区域对应的无效区域特征和与噪声区域对应的噪声区域特征;
根据无效区域特征对接收到的无效区域的响应进行抑制处理;和/或,根据噪声区域特征对接收到的噪声区域的响应进行抑制处理;这样,对于无效区域,或者噪声区域提前进行识别,并在识别出为无效区域或噪声区域之后,直接对上述两个区域的响应做抑制处理,这样,不仅提高了匹配的效率,还提高了匹配的精准度,也减少了内存开销。
给定查询行人图像q和包含N个帧的图库集合行人搜索旨在检测来自的人边界框的集合/>然后将q与/>中的边界框进行匹配。假设一个个体可以被分成K个身体部分,本公开实施例提供的行人图像匹配方法,可以将包含完整的行人个体的边界框。bi表示为K个部分的集合,即/>其中,/>表示第K个部分。
利用上述公式,行人检测可以转化为一个包含K个部分的完整个体的边界框。本公开实施例提供的行人图像匹配方法中主要采用的行人再次识别算法的目标是提取一个区别性特征来识别中q的相同部分。现有技术通常提取一个全局特征,并利用距离执行再次识别过程。由于存在遮挡或背景杂乱,因此某些边界框只包含部分身体部位,使得全局特征退化为局部特征,即全局特征只能从l(l<K)个可见部分中进行提取。与全局特征相比,这种局部特征会导致人员匹配不准确。
本公开实施例提供的行人图像匹配方法,为解决上述问题,引入部分标识符E(·)来对每个检测到的边界框中的可见部分进行标识,即有了能够识别出的部分,那么目标行人的图像匹配可以看作是一个部分特征匹配任务,即匹配两个边界框中相互可见的部分上的特征。q和bi之间的距离可以表示为以下形式:
如上公式(1)所示,其中,和/>为从来自q和bi的第k个部分提取得到的特征。D(·)指的是L2距离。
本公开实施例提供的行人图像的匹配方法中的预设匹配模型能够精准地对行人图像进行匹配。
需要说明的是,本公开实施例提供的行人图像的匹配方法中的预设匹配模型,能够做到对检测到的边界框进行细化以覆盖估计的整体身体区域,以消除未对准误差。然后,通过简单的区域划分,从细化的边界框中提取对齐的部分特征。因此,部分特征允许跨越边界框的鲁棒部分匹配,其中,相互可见区域上的特征被匹配用于相似性计算,而噪声区域上的特征不被考虑用于匹配。
如图2所示,未对齐的人员边界框和与具有全局特征人员匹配问题的示意图。在行人搜索过程中,不对齐现象非常常见,并且不能通过训练更强的检测器来消除。本公开实施例提供的行人图像匹配方法,通过边界框对齐和部分匹配来解决现有技术中存在的上述问题。
如图2所示,存在遮挡和有限的摄像机视野会导致许多准确但未对齐的覆盖行人部分区域边界框。现有的行人图像的匹配,并根据匹配结果以进行行人搜索的方法大多采用区域建议网络进行人员检测,从调整大小的特征图中提取全局特征。如图2所示,由于无法将部分特征与全局特征进行匹配,因此未对齐问题会降低其提取全局特征的性能。
如图2所示,本公开实施例提供的行人图像的匹配方法,对检测到的边界框进行细化以覆盖估计的整体身体区域,以消除未对准误差。然后,通过简单的区域划分,从细化的边界框中提取对齐的部分特征。因此,部分特征允许跨越边界框的鲁棒部分匹配,其中,相互可见区域上的特征被匹配用于相似性计算,而噪声区域上的特征不被考虑用于匹配。这样,不仅提高了特征分辨率,又提高了算法对未对准误差的鲁棒性。
本公开实施例提供的行人图像的匹配方法,并根据匹配结果进行目标行人的搜索采用了部分对齐网络算法。部分对齐网络算法由额外的边界框对齐器模块和区域敏感特征提取器模块组成。其中,边界框对齐器模块是通过预测4个边界框偏移值来实现。因此,边界框对齐器模块可以通过自动数据扩充来训练,而不需要手动注释。不过,由于在特征提取CNN层中神经元的感受野增大,因此噪声或遮挡部分会影响其在同一边界框中相邻部分的特征。为此,在此基础上,本公开实施例提供的行人图像的匹配方法中采用了用于部分特征提取的区域敏感特征提取器模块。该模块能够增强每个部分特征中的局部线索,从而实现对相邻噪声在部分特征学习的负面影响的有效缓解。
本公开实施例提供的行人图像的匹配方法中,所使用的行人搜索模型的训练能够保证准确的人物检测器、可靠的部分识别器和可区分的部分特征。将训练损失表述为以下形式:
其中,表示检测器的损失,它能够通过边界框位置和行人再识别进行优化。/>表示部分标识丢失。/>评估第k部分特征的区分能力,这可以用行人再识别损失来实现。以下部分对本公开实施例提供的行人图像的匹配方法中涉及到的人员检测器、部分识别器、部分特征提取以及网络优化的实现方面进行了详细介绍。
如图2所示,是未对齐的人员边界框和与具有全局特征人员匹配问题的示意图;如图2所示,检测分支返回边界框和全局特征F。边界框对齐器将检测到的边界框/>细化为对齐边界框,即/>红色和绿色边界框分别表示检测到的边界框/>和细化的边界框/>区域敏感特征提取器从细化边界框中提取局部特征{f(k)}k=1:K,使其能够减轻相邻噪声的负面影响。RAP和GAP分别表示区域平均池化和全局平均池化。FRSM是区域敏感映射中的全局特征,仅用于训练区域敏感特征提取器。
如图3所示,是本申请实施例中的APNet体系结构示意图;其中,APNet分别由行人检测器、边界框对齐器和区域敏感特征提取器组成。其中,行人检测器建立在OIM之上,OIM是返回边界框以及它们对应的全局特征F的端到端行人检测器。如图3所示,本公开实施例提供的行人图像匹配方法,利用RPN损失、ROI头部损失以及重新识别损失对人员检测器进行训练。将探测器训练损失表示为:
其中,和/>分别表示ROI头部中的人员分类损失和边界框回归损失。/>表示RPN中的区域候选框分类损失和区域候选框回归损失。/>是在全局特征上计算的重新识别的损失。
如图2所示,顺利完成训练的检测器依旧可能会产生未对齐的人员边界框。因此,本公开实施例提供的行人图像的匹配方法设计了一个基于边界框对齐器的局部估计器,以便于通过该局部估计器对每个检测到的边界框中的可见身体部位进行评估。
边界框对齐器BBA
边界框对齐器能够实现部件标识符E(·),以对每个边界框中的可见部分进行标识。还可以通过各种方法来实现,例如,通过分割人员前景或估计身体关键点。但是,这些方法需要额外的注释和大量的计算。在公开实施例提供的行人图像的匹配方法,边界框对齐器BBA采用了一种更为高效的方式。
由于大多数行人在监控视频中都呈直立姿势,因此可以通过将整个身体区域划分为水平和垂直条纹来提取需要对齐的身体部位。该操作生成对齐的部分区域,例如,顶部和底部的水平条纹分别对应于头部和脚部。边界框对齐器BBA首先会对检测到的边界框进行细化处理,然后提取水平和垂直条纹作为身体部分(如图4所示)。
如图4所示,为用于边界框细化的BBA图示。在图4中,红色方框和绿色方框分别是指检测到的边界框和细化的边界框。BBA预测四个边界框偏移值ot,ob,ol和or,它们移动检测到的边界框以覆盖估计的整体身体区域。0,1表示各部分的有效性。
为覆盖整体身体区域,估计偏移向量O={ot,ob,ol,or}对每个检测到的边界框进行细化,其中每个偏移值在[-1,1]的范围内。其中的四个偏移值分别负责移动每个边界框的上、下、左和右边界。图4显示了按ot和ob移动边界的示例。假设边界框b的位置为{xmin,ymin,xmax,ymax},则其经O细化后的位置可表示为
其中,h为通过ymax-ymin计算得到的检测到的边界框的高度。类似的计算可以用ol和or来计算和/>
随后将细化后用于提取水平和垂直条纹作为部分的边界框表示为如图4所示,细化可能会在/>中引入遮挡部分和噪声。为了提取K个水平条纹,我们引入K-dim有效性向量v来记录每个条纹的可见性。如果满足以下条件,则认为第k个条带有效,即v[k]=1。
随后本研究采用相似的计算方法提取有效的垂直条纹。对每个边界框的最终有效部分集合中收集有效条纹。
如图3所示,BBA根据ROIAlign提取的边界框特征预测O。可以通过自动生成训练数据来训练BBA。首先根据从框架中裁剪边界框。设置被用来估计每个边界框的关键点,这些关键点提供关于缺失身体部位的线索。然后,将/>转换为/>以覆盖整个身体区域。比较/>和/>产生真值偏移标签Ogt={ogt-t,ogt-b,ogt-l,ogt-r},从而可以通过以下损失来监督BBA的训练过程。
其中,用于计算预测的偏移值和真值之间的差异。
区域敏感特征提取器
部分集合使其能够提取用于部分匹配的部分特征。下文对提取水平条纹特征的方法进行了介绍。垂直条纹特征的提取也可以采用类似的方法。
局部特征提取器:本研究通过在视频帧上的特征映射上应用区域平均池RAP来提取局部特征。如图3所示,对于经过细化处理的边界框首先使用ROI对齐从帧特征映射/>中提取其特征映射,然后将其输入到卷积块中以生成特征映射T∈RH×W×D。将由RAP提取的/>的部分特征表示为以下形式:
其中,l表示边界框的有效水平条纹的数目。
部分特征学习可以通过计算每个有效部分特征上的行人重识别损失函数来实现,即,
其中,为通过OIM函数实现的行人重识别损失函数。y是真值人员ID标签。
如图5所示,检测到的边界框(红色)和细化边界框(绿色)的插图,以及它们的功能映射。(b)和(c)显示使用部分特征提取器和本研究的RSFE训练的细化边界框的特征映射。很明显,RSFE抑制了噪声和无效区域上的噪声。图5b给出了由上述特征提取器训练的对准边界框的特征图。从图5的一系列图中可以看出,嘈杂或不可见的区域仍存在强烈响应。这可能是因为公式(8)中的训练过程集中在可见的身体部位,而不能调整噪音部位的特征所致。由于特征提取CNN层神经元的接收区增大,对噪声或遮挡部位的强烈CNN激活会影响其相邻有效部位的特征。这可能会降低上述特征提取器的有效性。因此,需要设计一种能够对遮挡和噪声具有较强鲁棒性的部分特征提取器。
基于区域敏感映射的特征提取:本公开实施例提供的行人图像的匹配方法,对区域敏感映射RSFE引入了区域敏感映射RSM来抑制无效区域响应。为调整每个特征条纹的响应,通过对每个水平特征条纹T[i]∈RW×D,i=1:H应用1*1卷积来生成RSM。M[i]∈RW×d的计算可以表示为如下形式:
其中,指的是第i个卷积核。与全局1*1卷积不同,公式(9)中的H卷积核无法共享参数来处理不同空间位置上的复杂遮挡。
为了抑制噪声区域,对具有全局特征的M进行监督。可以通过对M应用平均池并监督所产生的特征FRSN来计算损失,即,
这一损失会迫使网络抑制对噪声区域的激活以生成更好的结果,从而将其用于条纹特征提取。图5中的(c)示出了使用公式(10)训练之后的特征映射,从中可以很明显地看出,无效区域得到了很好的抑制。
利用M,本研究就可以通过RAP提取条纹特征,即,
其中,每个部分特征可以用公式(7)中的部分特征损失来进行训练。
公式(9)在T的空间位置上应用不同的1*1卷积核。这使得能够对每个零件特征进行更具体的细化。除此之外,不同的空间位置会表现出不同的遮挡概率,例如,脚部区域更容易被遮挡。这一特性使得公式(9)在抑制遮挡和噪声方面比学习全局1*1卷积核更有效。
利用上述方法从水平条纹中提取特征。类似的过程也可以应用于从垂直条纹中提取特征。给定要比较的查询行人图像q和检测到的图库边界框bi,对人再次识别既利用全局特征,又利用部分特征。其中部分特征距离可以用公式(1)计算。除此之外,还利用检测器分支的全局特征F进行距离计算。其中,q和bi之间的总距离可以计算为:
dist(q,bi)=distP(q,bi)+λ·D(Fq,Fi), 公式(12)
其中,Fq和Fi分别对应于q和bi的全局特征。在某一具体应用场景中,可以将λ设置为1。
在本公开实施例提供的行人图像的匹配方法中,采用了一种新型的大规模行人搜索数据集LSPS,该数据集具有以下特点:
复杂的场景和外观变化:视频帧来自17个被部署在室内和室外场景的摄像头,。不同的摄像机能够显示不同的背景、视点、视场、照明、行人密度等。这些差异导致同一个人的外观存在很大差异。同时,由于每个摄像机的视场有限,人员密度大,因此,会导致大量行人被遮挡,导致边界框仅覆盖部分人体区域。LSPS将部分边界框包括到查询和图库集中。
图6(a)为LSP和PRW在查询中的身体完整性比较结果;图6(b)为若干查询和图库边界框示意图;可以观察到,在查询和图库边界框两者中都发生未对齐。图6(a)给出了LSPS和PRW之间查询的身体完整性的对比结果。从图6(a)中可以很明显地看出,LSPS具有数量显著更多的不完整查询边界框。因此,与现有的人员搜索数据集相比,LSP呈现出更复杂的场景和外观变化。
规模较大:与以前需要手动检测边界框的基准不同,LSPS利用的是通过Faster-RCNN算法检测到的包围盒,因此在此基础上,能够收集具有更多边界框的数据集。表1给出了LSPS与其他两个数据集之间的比较结果。LSPS总共收集了51836个帧,其中注释了60433个边界框和4067个身份。
表1
表1为LSPS与其他两种人员搜索数据集之间的比较数据;
其中,“anno.boxes“指的是带有个人ID注释的边界框;“inc.query”是指具有部分身体的查询边界框的百分比。
从表1可以看出,LSPS分别呈现较大数量的帧、个人身份、带注释的个人边界框、相机。除此之外,LSPS中约60%的查询覆盖了部分身体。因此,较大的规模和不完整的查询边界框使LSPS成为比表1中的其他数据集更具挑战性和更逼真的数据集。
表2
表2为LSPS上的训练/测试集统计数据;“anno.Boxes”指的是带有个人ID注释的边界框。“boxes”指的是没有ID标签的边界框。
将LSPS分成具有18154帧的训练集和具有33673帧的测试集。并且训练和测试集分别包含1041和3026个身份。表2汇总了培训和测试集的统计数据。同时使用平均精度(MAP)和rank-1精度作为评价指标。在人员搜索过程中,如果检索到的边界框与查询具有相同的ID标签,并且与真值边界框的重叠率大于0.5,则认为检索到的边界框是正确的。因此,人员搜索的MAP和rank-1精度都会受到检测器性能的影响。
表3
表3为增加人工遮挡后在Market1501上的部分匹配的有效性数据;“upper bound”是指全局特征在原Market-1501上的性能。其他方法在修改后的Market-1501上进行了测试。有效区域是指两个匹配边界框的公共可见区域。
部分匹配的有效性:研究结果显示,APNet成功解决了基于条带特征的部分匹配的未对准问题。通过向查询和图库图像添加随机遮挡来修改Market-1501。然后基于修改后的数据集,对不同的特征匹配策略进行了比较,并对结果进行总结(如表3所示),从中可以看出,“全局匹配”无法区分特征提取中的遮挡,而“部分匹配”可以从有效区域中提取特征。
从表3可以看出,遮挡不利于重新识别算法的检测,例如,一些遮挡会将全局特征的mAP从53.5%降低到13.6%。不过,通过从整个边界框中提取条纹特征可以提高重新识别算法的性能。这表明,部分特征对其该算法是有效的。由于部分匹配算法从可见区域中提取特征,因此与全局匹配相比,它能够获得了更好的性能。研究结果证实,在用于部分匹配的三个特征中,相互条纹中提取的特征性能最好。它的性能大大超过了共同区域的特征(30.9%vs 21.4%)。除此之外,在全局匹配方面,它的性能也明显优于全局特征。因此,上述实验表明了图2中所示思想的有效性,其中,相互可见区域上的特征被匹配以进行相似度计算。
表4
表4为BBA和RSFE在条纹特征提取中的有效性数据;全局是指从检测到的边界框中提取的全局特征。“条纹(BBA)”表示使用基于BBA输出的Vanilla部分特征提取器来提取条纹特征。“RSFE(BBA)”表示由RSFE提取的条纹特征。
表4显示了应用BBA之前全局功能和条带功能的性能。很明显,从经BBA细化处理的边界框中提取有效条纹特征,能够大大提高ReID算法的性能,即“条纹(BBA)”在PRW上获得的mAP为40.8%,分别优于原全局特征的34.2%和条纹特征的39.1%。除此之外,本研究还展示了最新部分匹配方法VPP的性能。从表4中可以看出,使用BBA提取的条带特征在PRW和LSP上都比VPM执行得更好。上述实验结果证实了BBA算法在边界框细化处理和有效部分提取方面的有效性。
RSFE的有效性:RSFE的设计目的是减轻图5(b)中所示噪声区域的负面影响,以及细化每个部分特征。表4给出了由RSFT提取的条纹特征,即“RSFE(BBA)”与由vanilla部分特征提取器提取的条纹特征,即“条纹(BBA)”之间的对比结果。从表4中可以看出,RSFE在提高条带特征性能方面非常重要。例如,RSFE能够使PRW和LSPS上的mAP分别提高1.1%和0.7%。因此可以得出结论,BBA和RSFE的组合能够实现算法最佳性能,并大大超过了最近的VPM。
图7为在不同条带数量K的LSPS上的性能。从图7中可以看出,k=1能够将局部特征降级为全局特征。最大水平条纹数量K等于T的高度(7)。图中显示,更精细的条纹有助于提高性能。这可能是因为较大的K能够提高特征分辨率和对遮挡和噪声的鲁棒性。讨论:为了显示BBA模块在边界框细化中的作用,图7给出了细化前后的边界框的情况。实验结果表明,BBA模块有效地移动了原有的边界框,使其覆盖人员整体区域。该过程能够消除未对准误差,并能够保证对齐条纹特征的有效提取。
表5
表5为APNet和基线OIM参数和计算复杂度的比较数据。在NVIDIA 2080TiGPU上测量了速度和TFLOPS。
除了基于基线OIM的检测器分支之外,APNet还引入了额外的BBA和RSFE模块。在表5中就OIM和APNet的内存和计算开销分别进行了比较。结果表明,APNet在与基准OIM相当的速度下获得了令人满意的性能,例如,APNet的0.397TFLOP与OIM的0.383TFOLP。虽然BBA和RSFE模块为APNet带来了更多的参数,但它们并没有显著降低APNet的计算速度。APNet比分开处理检测和重新识别的行人搜索速度更快,也比QEEPS等通过比较每个查询库对进行人员搜索的一些算法的速度要快。
表6
如表6所示,在该数据库中,APNet达到了89.3%的一级准确率和88.9%的mAP,均超过了大多数近期的研究成果。需要注意的是,RDLR使用更强大的主干ResNet50-FPN以及基于排名的损耗。像CLSA、MGTS和RDLR这样的方法使用两个独立的模型来解决检测和重新识别,这两个模型在计算和存储方面都很昂贵。与已有的工作相比,本公开实施例提供的方法中的APNet是一个统一的模型,并且具有更好的计算效率和存储效率。
PRW:如表6所示,在PRW上,APNet算法亦取得了较为优异的性能,例如81.4%的rank-1准确率和41.9%的mAP准确率,超过了大多数最近的研究成果。除此之外,APNet算法还以较弱的主干在rank-1准确度上显著优于RDLR,即在rank-1准确度上高出9.2%。由于PRW中的某些查询图像覆盖了部分身体部位,因此APNet在部分匹配方面表现出了更多的优势。在rank-1上,它的性能也分别比CGPS和QEEPS高7.8%和4.7%。需要注意的是,CGPS和QEEPS将每个查询库对输入到CNN中进行相似度计算,因此与APNet相比效率也较低。
表6为分别与CUHK-SYSU和PRW的最新研究成果进行比较的数据。
/>
表7
表7为与最近关于LSP的工作进行了比较的数据。APNet表示本公开实施例提供的行人图像的匹配方法所采用的方法。APNet+v考虑额外的垂直条纹特征。如表7所示,将OIM作为基线进行比较。研究结果显示,APNet算法在基线的基础上提高了3.9%的rank-1,其在rank-1和mAP上分别达到了51.6%和17.1%。除此之外,本研究结果显示,APNet的性能也优于最近的VPM,而后者解决了部分重新识别问题。为了考虑垂直方向的错位,本公开实施例提供的行人图像的匹配方法,进一步应用了附加的垂直条纹特征。研究结果显示,相应的APNet+v方法性能最好,rank-1和MAP分别达到55.7%和18.8%。
为了显示BBA模块在边界框细化中的作用,图8给出了细化前后的边界框的情况。图7为用BBA实现精细化边界框的可视化示意图。红色和绿色框表示优化前后的边界框。BBA有效地估计整体身体区域以消除未对准误差实验结果表明,BBA模块有效地移动了原有的边界框,使其覆盖人员整体区域。该过程能够消除未对准误差,并能够保证对齐条纹特征的有效提取。
在本申请实施例中,根据预设匹配模型对第一微调边界框中的目标行人和第二微调边界框中的待比对行人进行匹配,得到匹配结果,以便于根据匹配结果进行目标行人的搜索;其中,预设匹配模型用于对第一微调边界框中的目标行人的第一相互可见部分的特征和第二微调边界框中的待比对行人的第二相互可见部分的特征进行匹配。由于本申请的目标行人的匹配方法为:针对目标行人的可见部位特征提取与匹配,不仅能够有效地避免被遮挡,而且由于是部分匹配,避免了图像匹配过程中可能会出现的图像变形现象,从而实现了图像之间的精准匹配,最终显著提升了行人检测和识别的准确率。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
请参见图9,其示出了本发明一个示例性实施例提供的行人图像的匹配装置的结构示意图。本公开实施例提供的行人图像的匹配装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置包括第一微调边界框确定模块10、第二微调边界框确定模块20和匹配模块30。
具体而言,第一微调边界框确定模块10,用于从目标行人的第一图像中确定目标行人的第一边界框,并对第一边界框进行微调,得到第一微调边界框;
第二微调边界框确定模块20,用于从预设图像库集合中随机选取的任一第二图像中确定待比对行人的第二边界框,并对第二边界框进行微调,得到第二微调边界框;
匹配模块30,用于根据预设匹配模型对第一微调边界框确定模块10确定的第一微调边界框中的目标行人和第二微调边界框确定模块20确定的第二微调边界框中的待比对行人进行匹配,得到匹配结果,以便于根据匹配结果进行目标行人的搜索;其中,预设匹配模型用于对第一微调边界框中的目标行人的第一相互可见部分的特征和第二微调边界框中的待比对行人的第二相互可见部分的特征进行匹配。
可选的,第一微调边界框确定模块10具体用于:
计算第一边界框的第一偏置值、第二偏置值、第三偏置值和第四偏置值,其中,第一偏置值用于移动第一边界框的上边界,第二偏置值用于移动第一边界框的下边界,第三偏置值用于移动第一边界框的左边界,第四偏置值用于移动第一边界框的右边界;
根据第一偏置值、第二偏置值、第三偏置值和第四偏置值对第一边界框进行偏移调整,以便于第一微调边界框能够覆盖目标行人的各个身体部位。
可选的,第二微调边界框确定模块20具体用于:
计算第二边界框的第五偏置值、第六偏置值、第七偏置值和第八偏置值,其中,第五偏置值用于移动第二边界框的上边界,第六偏置值用于移动第二边界框的下边界,第七偏置值用于移动第二边界框的左边界,第八偏置值用于移动第二边界框的右边界;
根据第五偏置值、第六偏置值、第七偏置值和第八偏置值对第二边界框进行偏移调整,以便于第二微调边界框能够覆盖待对比行人的各个身体部位。
可选的,匹配模块30具体用于:
计算第一微调边界框内的目标行人的第一全貌特征矢量和第二微调边界框内的待对比行人的第二全貌特征矢量之间的距离,得到对应的距离集合;
从距离集合中选取最小距离对应的第二图像中的待比对行人作为目标行人。
需要说明的是,上述实施例提供的行人图像的匹配装置在执行行人图像匹配方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的行人图像的匹配装置与行人图像的匹配方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
在本申请实施例中,本公开实施例的行人图像的普票装置中的匹配模块根据预设匹配模型对第一微调边界框中的目标行人和第二微调边界框中的待比对行人进行匹配,得到匹配结果,以便于根据匹配结果进行目标行人的搜索;其中,预设匹配模型用于对第一微调边界框中的目标行人的第一相互可见部分的特征和第二微调边界框中的待比对行人的第二相互可见部分的特征进行匹配。由于本申请针对目标行人的可见部位特征提取与匹配,不仅能够有效地避免被遮挡,而且由于是部分匹配,避免了图像匹配过程中可能会出现的图像变形现象,实现了图像之间的精准匹配,最终显著提升了行人检测和识别的准确率。
本发明还提供一种计算机可读介质,其上存储有程序指令,该程序指令被处理器执行时实现上述各个方法实施例提供的行人图像的匹配方法。
本发明还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各个方法实施例的行人图像的匹配方法。
请参见图10,为本申请实施例提供了一种终端的结构示意图。如图10所示,所述终端1000可以包括:至少一个处理器1001,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。
其中,通信总线1002用于实现这些组件之间的连接通信。
其中,用户接口1003可以包括显示屏(Display)、摄像头(Camera),可选用户接口1003还可以包括标准的有线接口、无线接口。
其中,网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个电子设备1000内的各个部分,通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集,以及调用存储在存储器1005内的数据,执行电子设备1000的各种功能和处理数据。可选的,处理器1001可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1001中,单独通过一块芯片进行实现。
其中,存储器1005可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及行人图像的匹配应用程序。
在图10所示的终端1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;而处理器1001可以用于调用存储器1005中存储的行人图像的匹配应用程序,并具体执行以下操作:
从目标行人的第一图像中确定目标行人的第一边界框,并对第一边界框进行微调,得到第一微调边界框;
从预设图像库集合中随机选取的任一第二图像中确定待比对行人的第二边界框,并对第二边界框进行微调,得到第二微调边界框;
根据预设匹配模型对第一微调边界框中的目标行人和第二微调边界框中的待比对行人进行匹配,得到匹配结果,以便于根据匹配结果进行目标行人的搜索;其中,预设匹配模型用于对第一微调边界框中的目标行人的第一相互可见部分的特征和第二微调边界框中的待比对行人的第二相互可见部分的特征进行匹配。
在一个实施例中,所述处理器1001在执行对第一边界框进行微调时,具体执行以下操作:
计算第一边界框的第一偏置值、第二偏置值、第三偏置值和第四偏置值,其中,第一偏置值用于移动第一边界框的上边界,第二偏置值用于移动第一边界框的下边界,第三偏置值用于移动第一边界框的左边界,第四偏置值用于移动第一边界框的右边界;
根据第一偏置值、第二偏置值、第三偏置值和第四偏置值对第一边界框进行偏移调整,以便于第一微调边界框能够覆盖目标行人的各个身体部位。
在一个实施例中,所述处理器1001在执行计算第一边界框的第一偏置值、第二偏置值、第三偏置值和第四偏置值之后,还执行以下操作:
获取第一边界框的第一偏置值、第二偏置值、第三偏置值和第四偏置值;
根据第一偏置值、第二偏置值、第三偏置值和第四偏置值判断出现在第一微调边界框中的目标行人的各个身体部位。
在一个实施例中,所述处理器1001在执行对第二边界框进行微调时,具体执行以下操作:
计算第二边界框的第五偏置值、第六偏置值、第七偏置值和第八偏置值,其中,第五偏置值用于移动第二边界框的上边界,第六偏置值用于移动第二边界框的下边界,第七偏置值用于移动第二边界框的左边界,第八偏置值用于移动第二边界框的右边界;
根据第五偏置值、第六偏置值、第七偏置值和第八偏置值对第二边界框进行偏移调整,以便于第二微调边界框能够覆盖待对比行人的各个身体部位。
在一个实施例中,所述处理器1001在执行计算第二边界框的第五偏置值、第六偏置值、第七偏置值和第八偏置值之后,还执行以下操作:
获取第二边界框的第五偏置值、第六偏置值、第七偏置值和第八偏置值;
根据第五偏置值、第六偏置值、第七偏置值和第八偏置值判断出现在第二微调边界框中的待比对行人的各个身体部位。
在一个实施例中,所述处理器1001在执行根据预设匹配模型对第一微调边界框中的目标行人和第二微调边界框中的待比对行人进行匹配时,具体执行以下操作:
计算第一微调边界框内的目标行人的第一全貌特征矢量和第二微调边界框内的待对比行人的第二全貌特征矢量之间的距离,得到对应的距离集合;
从距离集合中选取最小距离对应的第二图像中的待比对行人作为目标行人。
在一个实施例中,所述处理器1001还执行以下操作:
通过区域敏感特征提取器中预设的区域敏感映射模型,对基于区域敏感映射的特征进行提取,并生成与各个区域对应的区域特征集合,其中,区域特征集合包括与无效区域对应的无效区域特征和与噪声区域对应的噪声区域特征;
根据无效区域特征对接收到的无效区域的响应进行抑制处理;和/或,
根据噪声区域特征对接收到的噪声区域的响应进行抑制处理。
在本申请实施例中,根据预设匹配模型对第一微调边界框中的目标行人和第二微调边界框中的待比对行人进行匹配,得到匹配结果,以便于根据匹配结果进行目标行人的搜索;其中,预设匹配模型用于对第一微调边界框中的目标行人的第一相互可见部分的特征和第二微调边界框中的待比对行人的第二相互可见部分的特征进行匹配。由于本申请的目标行人的匹配方法为:针对目标行人的可见部位特征提取与匹配,不仅能够有效地避免被遮挡,而且由于是部分匹配,避免了图像匹配过程中可能会出现的图像变形现象,从而实现了图像之间的精准匹配,最终显著提升了行人检测和识别的准确率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (9)

1.一种行人图像的匹配方法,其特征在于,所述方法包括:
从目标行人的第一图像中确定所述目标行人的第一边界框,并对所述第一边界框进行微调,得到第一微调边界框;
从预设图像库集合中随机选取的任一第二图像中确定待比对行人的第二边界框,并对所述第二边界框进行微调,得到第二微调边界框;
根据预设匹配模型对所述第一微调边界框中的所述目标行人和所述第二微调边界框中的所述待比对行人进行匹配,得到匹配结果,以便于根据所述匹配结果进行所述目标行人的搜索,包括:计算所述第一微调边界框内的所述目标行人的第一全貌特征矢量和所述第二微调边界框内的所述待比对行人的第二全貌特征矢量之间的距离,得到对应的距离集合;从所述距离集合中选取最小距离对应的第二图像中的待比对行人作为所述目标行人;其中,所述预设匹配模型用于对所述第一微调边界框中的所述目标行人的第一相互可见部分的特征和所述第二微调边界框中的所述待比对行人的第二相互可见部分的特征进行匹配;其中,相互可见区域上的特征被匹配用于相似性计算。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一边界框进行微调:
计算第一边界框的第一偏置值、第二偏置值、第三偏置值和第四偏置值,其中,所述第一偏置值用于移动所述第一边界框的上边界,所述第二偏置值用于移动所述第一边界框的下边界,所述第三偏置值用于移动所述第一边界框的左边界,所述第四偏置值用于移动所述第一边界框的右边界;
根据所述第一偏置值、所述第二偏置值、所述第三偏置值和所述第四偏置值对所述第一边界框进行偏移调整,以便于所述第一微调边界框能够覆盖所述目标行人的各个身体部位。
3.根据权利要求2所述的方法,其特征在于,在所述计算第一边界框的第一偏置值、第二偏置值、第三偏置值和第四偏置值之后,所述方法还包括:
获取所述第一边界框的所述第一偏置值、所述第二偏置值、所述第三偏置值和所述第四偏置值;
根据所述第一偏置值、所述第二偏置值、所述第三偏置值和所述第四偏置值判断出现在所述第一微调边界框中的所述目标行人的各个身体部位。
4.根据权利要求1所述的方法,其特征在于,所述对所述第二边界框进行微调:
计算第二边界框的第五偏置值、第六偏置值、第七偏置值和第八偏置值,其中,所述第五偏置值用于移动所述第二边界框的上边界,所述第六偏置值用于移动所述第二边界框的下边界,所述第七偏置值用于移动所述第二边界框的左边界,所述第八偏置值用于移动所述第二边界框的右边界;
根据所述第五偏置值、所述第六偏置值、所述第七偏置值和所述第八偏置值对所述第二边界框进行偏移调整,以便于所述第二微调边界框能够覆盖所述待比对行人的各个身体部位。
5.根据权利要求4所述的方法,其特征在于,在所述计算第二边界框的第五偏置值、第六偏置值、第七偏置值和第八偏置值之后,所述方法还包括:
获取所述第二边界框的所述第五偏置值、所述第六偏置值、所述第七偏置值和所述第八偏置值;
根据所述第五偏置值、所述第六偏置值、所述第七偏置值和所述第八偏置值判断出现在所述第二微调边界框中的所述待比对行人的各个身体部位。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过区域敏感特征提取器中预设的区域敏感映射模型,对基于区域敏感映射的特征进行提取,并生成与各个区域对应的区域特征集合,其中,所述区域特征集合包括与无效区域对应的无效区域特征和与噪声区域对应的噪声区域特征;
根据所述无效区域特征对接收到的所述无效区域的响应进行抑制处理;和/或,
根据所述噪声区域特征对接收到的所述噪声区域的响应进行抑制处理。
7.一种行人图像的匹配装置,其特征在于,所述装置包括:
第一微调边界框确定模块,用于从目标行人的第一图像中确定所述目标行人的第一边界框,并对所述第一边界框进行微调,得到第一微调边界框;
第二微调边界框确定模块,用于从预设图像库集合中随机选取的任一第二图像中确定待比对行人的第二边界框,并对所述第二边界框进行微调,得到第二微调边界框;
匹配模块,用于根据预设匹配模型对所述第一微调边界框确定模块确定的所述第一微调边界框中的所述目标行人和所述第二微调边界框确定模块确定的所述第二微调边界框中的所述待比对行人进行匹配,得到匹配结果,以便于根据所述匹配结果进行所述目标行人的搜索,包括:计算所述第一微调边界框内的所述目标行人的第一全貌特征矢量和所述第二微调边界框内的所述待比对行人的第二全貌特征矢量之间的距离,得到对应的距离集合;从所述距离集合中选取最小距离对应的第二图像中的待比对行人作为所述目标行人;其中,所述预设匹配模型用于对所述第一微调边界框中的所述目标行人的第一相互可见部分的特征和所述第二微调边界框中的所述待比对行人的第二相互可见部分的特征进行匹配;其中,相互可见区域上的特征被匹配用于相似性计算。
8.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如所述权利要求1至6任意一项的方法步骤。
9.一种终端,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如所述权利要求1至6任意一项的方法步骤。
CN202010291688.9A 2020-04-14 2020-04-14 一种行人图像的匹配方法、装置、存储介质及终端 Active CN111597893B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010291688.9A CN111597893B (zh) 2020-04-14 2020-04-14 一种行人图像的匹配方法、装置、存储介质及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010291688.9A CN111597893B (zh) 2020-04-14 2020-04-14 一种行人图像的匹配方法、装置、存储介质及终端

Publications (2)

Publication Number Publication Date
CN111597893A CN111597893A (zh) 2020-08-28
CN111597893B true CN111597893B (zh) 2023-08-04

Family

ID=72184931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010291688.9A Active CN111597893B (zh) 2020-04-14 2020-04-14 一种行人图像的匹配方法、装置、存储介质及终端

Country Status (1)

Country Link
CN (1) CN111597893B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018133666A1 (zh) * 2017-01-17 2018-07-26 腾讯科技(深圳)有限公司 视频目标跟踪方法和装置
CN109635694A (zh) * 2018-12-03 2019-04-16 广东工业大学 一种行人检测方法、装置、设备及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9177226B2 (en) * 2013-03-15 2015-11-03 Google Inc. Object detection in images based on affinity determinations

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018133666A1 (zh) * 2017-01-17 2018-07-26 腾讯科技(深圳)有限公司 视频目标跟踪方法和装置
CN109635694A (zh) * 2018-12-03 2019-04-16 广东工业大学 一种行人检测方法、装置、设备及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GLAD: Global–Local-Alignment Descriptor for Scalable Person Re-Identification;Longhui Wei et al.;《IEEE Transactions on Multimedi》;第21卷(第04期);全文 *
基于全局空间约束块匹配的目标人体识别;陈普强;郭立君;张荣;赵杰煜;;计算机研究与发展(第03期);全文 *

Also Published As

Publication number Publication date
CN111597893A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
US11789545B2 (en) Information processing device and method, program and recording medium for identifying a gesture of a person from captured image data
CN110738101B (zh) 行为识别方法、装置及计算机可读存储介质
CN109670474B (zh) 一种基于视频的人体姿态估计方法、装置及设备
US9031282B2 (en) Method of image processing and device therefore
US9311524B2 (en) Image processing apparatus and image processing method
US9092662B2 (en) Pattern recognition method and pattern recognition apparatus
CN109960742B (zh) 局部信息的搜索方法及装置
CN110706259A (zh) 一种基于空间约束的可疑人员跨镜头追踪方法及装置
CN115588190A (zh) 一种成熟果实识别和采摘点定位方法及装置
US9947106B2 (en) Method and electronic device for object tracking in a light-field capture
CN113256683B (zh) 目标跟踪方法及相关设备
CN104504162B (zh) 一种基于机器人视觉平台的视频检索方法
CN111368883B (zh) 基于单目摄像头的避障方法、计算装置及存储装置
CN111597893B (zh) 一种行人图像的匹配方法、装置、存储介质及终端
CN115018886B (zh) 运动轨迹识别方法、装置、设备及介质
JP5217917B2 (ja) 物体検知追跡装置,物体検知追跡方法および物体検知追跡プログラム
JP4042602B2 (ja) 画像処理装置
CN112446355B (zh) 一种公共场所行人识别方法及人流统计系统
CN114140744A (zh) 基于对象的数量检测方法、装置、电子设备及存储介质
JP2015184743A (ja) 画像処理装置および物体認識方法
CN109146969B (zh) 行人定位方法、装置及处理设备及其存储介质
CN113095321A (zh) 一种带式输送机的滚轮轴承测温及故障预警方法及装置
JP2020187519A (ja) 対象の情報を接地点含有画像領域から推定する装置、プログラム及び方法
CN118429392A (zh) 一种面向多相机的泳池人体目标跟踪方法
CN116844185A (zh) 基于质量分数的多人姿态识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant