CN113157961B - 一种联合无类别区域建议框生成和图像目标快速检索方法 - Google Patents

一种联合无类别区域建议框生成和图像目标快速检索方法 Download PDF

Info

Publication number
CN113157961B
CN113157961B CN202110267042.1A CN202110267042A CN113157961B CN 113157961 B CN113157961 B CN 113157961B CN 202110267042 A CN202110267042 A CN 202110267042A CN 113157961 B CN113157961 B CN 113157961B
Authority
CN
China
Prior art keywords
image
feature vector
retrieved
similarity
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110267042.1A
Other languages
English (en)
Other versions
CN113157961A (zh
Inventor
陈梓希
邹文斌
张正宇
田时舜
李霞
邹辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huishi Innovation Shenzhen Co ltd
Shenzhen University
Original Assignee
Huishi Innovation Shenzhen Co ltd
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huishi Innovation Shenzhen Co ltd, Shenzhen University filed Critical Huishi Innovation Shenzhen Co ltd
Priority to CN202110267042.1A priority Critical patent/CN113157961B/zh
Publication of CN113157961A publication Critical patent/CN113157961A/zh
Application granted granted Critical
Publication of CN113157961B publication Critical patent/CN113157961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开一种联合无类别区域建议框生成和图像目标快速检索方法,所述联合无类别区域建议框生成和图像目标快速检索方法包括步骤:将待检索图像输入区域建议框检测网络模型,得到待检索图像中的多种初始区域建议框的定位结果和置信度;将待检索图像和定位结果输入包括基于双线性插值的区域特征裁剪模块的GeM图像检索网络模型,得到待检索特征向量集;将待匹配图像输入包括ResNet‑50干网络的GeM图像检索网络模型,得到待匹配特征向量集;计算待检索特征向量集和待匹配特征向量集的相似性,得到全局特征向量相似性;根据置信度,微调全局特征向量相似性,得到目标区域建议框,避免生成较多的低质量区域建议框,提高了检索的精度。

Description

一种联合无类别区域建议框生成和图像目标快速检索方法
技术领域
本发明涉及图像处理领域,尤其涉及一种联合无类别区域建议框生成和图像目标快速检索方法、装置、设备及计算机可读存储介质。
背景技术
大部分实际应用的视觉模型中,更多地是将目标检测作为模型的前置任务,服务于后续的实例分割、图像分类、图像检索等任务。现有技术中,目标检索没有有效考虑结合目标检测和检索方法,通常是将两者分离开来,即先进行检测,再将检测结果传到检索部分,这样造成了检索内容依赖有类别的检测结果,限制了获得的候选框质量。
目标检索的方法,传统的计算机视觉方法采用生成多尺度空间,利用空间极值点确定为图像特征点,再通过描述生成特定大小特征向量,而深度学习的方法则利用特征提取网络端到端生成指定维度特征向量。相似性计算常用高维欧氏距离计算,欧式距离是一种非常易于理解的距离计算方法,计算最大相似性。这类方法缺点只考虑了两个特征向量之间的空间距离,忽略了全局特征向量本身是由区域建议框中的图像所得到的,而预测的不同区域建议框之间的定位质量不同。因此,直接使用只考虑空间距离的相似性去衡量两个向量的距离等同于认为所有区域建议框的定位质量是相同的,这样便产生了一定程度的相似性匹配歧义,从而导致了网络模型性能下降。而且,当区域建议框数量增加时这种问题导致的性能下降更为显著,这是由于区域建议框数量增加会引入更多的低质量区域建议框。
发明内容
本发明的主要目的在于提出一种联合无类别区域建议框生成和图像目标快速检索方法、装置、设备及计算机可读存储介质,旨在提供解决如何提高区域建议框的种类和质量。联合无类别区域建议框生成和图像目标快速检索方法包括以下步骤:
将待检索图像输入区域建议框检测网络模型,得到所述待检索图像中的多种初始区域建议框的定位结果和置信度;
将所述待检索图像和所述定位结果输入包括基于双线性插值的区域特征裁剪模块的GeM图像检索网络模型,得到待检索特征向量集;
将待匹配图像输入包括ResNet-50干网络的GeM图像检索网络模型,得到待匹配特征向量集;
计算所述待检索特征向量集和所述待匹配特征向量集的相似性,得到全局特征向量相似性;
根据所述置信度,微调所述全局特征向量相似性,得到目标区域建议框。
在一种实施方式中,所述将所述待检索图像和所述定位结果输入包括基于双线性插值的区域特征裁剪模块的GeM图像检索网络模型,得到待检索特征向量集的步骤包括:
基于双线性插值的区域特征裁剪模块,得到与所述待检索图像对应的含有整型宽高区域建议框的深度特征图;
将所述深度特征图输入GeM图像检索网络模型中的广义平均池化模块和白化模块,得到待检索特征向量集。
在一种实施方式中,所述基于双线性插值的区域特征裁剪模块,得到与所述待检索图像对应的含有整型宽高区域建议框的深度特征图的步骤包括:
根据所述定位结果将所述初始区域建议框映射至所述待检索图像上,得到具有浮点型宽高区域建议框的特征图;
根据所述具有浮点型宽高区域建议框的特征图确定具有整型宽高区域建议框的深度特征图。
在一种实施方式中,所述根据所述具有浮点型宽高区域建议框的特征图确定具有整型宽高区域建议框的深度特征图的步骤包括:
对所述具有浮点型宽高区域建议框进行向上取整操作,得到整型宽高;
对所述整型宽高进行自适应划分,得到多个整型宽高区域块;
将所述整型宽高区域块划分成四个整型宽高小区域块,并确定所述整型宽高小区域块的中心点为采样点;
对所述采样点组成的区域继续进行划分,得到目标点;
将所述目标点连接,得到具有整型宽高区域建议框的深度特征图。
在一种实施方式中,所述将待匹配图像输入包括ResNet-50干网络的GeM图像检索网络模型,得到待匹配特征向量集的步骤包括:
将所述待匹配图像依次输入至GeM图像检索网络模型中ResNet-50干网络,广义平均池化模块和池化模块,得到待匹配特征向量集。
在一种实施方式中,所述计算所述待检索特征向量集和所述待匹配特征向量集的相似性,得到全局特征向量相似性的步骤包括:
计算所述待检索特征向量集中每一待检索特征向量与所述待匹配特征向量集中每一待匹配特征向量的欧式距离,得到所述待检索特征向量和所述待匹配特征向量的相似性;
确定所述相似性的最大值为全局特征向量相似性。
在一种实施方式中,所述根据所述置信度,微调所述全局特征向量相似性,得到目标区域建议框的步骤包括:
将所述置信度和所述全局特征向量相似性代入相似性微调公式中,得到微调后的全局特征向量相似性;
根据微调后的全局特征向量相似性生成目标区域建议框。
此外,为实现上述目的,本发明还提供一种联合无类别区域建议框生成和图像目标快速检索装置,所述联合无类别区域建议框生成和图像目标快速检索装置包括:
第一输入模块,用于将待检索图像输入区域建议框检测网络模型,得到所述待检索图像中的多种初始区域建议框的定位结果和置信度;
第二输入模块,用于将所述待检索图像和所述定位结果输入包括基于双线性插值的区域特征裁剪模块的GeM图像检索网络模型,得到待检索特征向量集;
第三输入模块,用于将待匹配图像输入包括ResNet-50干网络的GeM图像检索网络模型,得到待匹配特征向量集;
计算模块,用于计算所述待检索特征向量集和所述待匹配特征向量集的相似性,得到全局特征向量相似性;
微调模块,用于根据所述置信度,微调所述全局特征向量相似性,得到目标区域建议框。
此外,为实现上述目的,本发明还提供一种联合无类别区域建议框生成和图像目标快速检索设备,所述联合无类别区域建议框生成和图像目标快速检索设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的联合无类别区域建议框生成和图像目标快速检索程序,所述联合无类别区域建议框生成和图像目标快速检索程序被所述处理器执行时实现如上所述的联合无类别区域建议框生成和图像目标快速检索方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有所述联合无类别区域建议框生成和图像目标快速检索程序,所述联合无类别区域建议框生成和图像目标快速检索程序被处理器执行时实现如上所述的联合无类别区域建议框生成和图像目标快速检索方法的步骤。
本发明通过将待检索图像输入区域建议框检测网络模型,得到待检索图像中的多种初始区域建议框的定位结果和置信度,将待检索图像和定位结果输入包括基于双线性插值的区域特征裁剪模块的GeM图像检索网络模型,得到待检索特征向量集,又将待匹配图像输入包括ResNet-50干网络的GeM图像检索网络模型,得到待匹配特征向量集,计算待检索特征向量集和待匹配特征向量集的相似性,得到全局特征向量相似性,最后根据置信度,微调全局特征向量相似性,得到目标区域建议框,避免生成较多的低质量区域建议框,提高了检索的精度。
附图说明
图1为实现本发明各个实施例一种设备的硬件结构示意图;
图2为本发明联合无类别区域建议框生成和图像目标快速检索方法第一实施例的流程示意图;
图3为本发明双线性插值法示意图;
图4为本发明联合无类别区域建议框生成和图像目标快速检索方法框架图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供了一种联合无类别区域建议框生成和图像目标快速检索设备,参照图1,图1是本发明实施例方案涉及的硬件运行环境的结构示意图。
需要说明的是,图1即可为联合无类别区域建议框生成和图像目标快速检索设备的硬件运行环境的结构示意图。本发明实施例联合无类别区域建议框生成和图像目标快速检索设备可以是PC(Personal Computer,个人电脑),便携计算机,服务器等设备。
如图1所示,该联合无类别区域建议框生成和图像目标快速检索设备可以包括:处理器1001,例如CPU,存储器1005,用户接口1003,网络接口1004,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,联合无类别区域建议框生成和图像目标快速检索设备还可以包括RF(Radio Frequency,射频)电路,传感器、WiFi模块等等。
本领域技术人员可以理解,图1中示出的联合无类别区域建议框生成和图像目标快速检索设备结构并不构成联合无类别区域建议框生成和图像目标快速检索设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储可读存储介质的存储器1005中可以包括操作设备、网络通信模块、用户接口模块以及联合无类别区域建议框生成和图像目标快速检索程序。其中,操作设备是管理和控制联合无类别区域建议框生成和图像目标快速检索设备硬件和软件资源的程序,支持联合无类别区域建议框生成和图像目标快速检索程序以及其它软件或程序的运行。
图1所示的联合无类别区域建议框生成和图像目标快速检索设备,用于解决如何提高区域建议框的种类和质量,用户接口1003主要用于侦测或者输出各种信息,如输入待检索图像和输出目标区域建议框等;网络接口1004主要用于与后台服务器交互,进行通信;处理器1001可以用于调用存储器1005中存储的联合无类别区域建议框生成和图像目标快速检索程序,并执行以下操作:
将待检索图像输入区域建议框检测网络模型,得到所述待检索图像中的多种初始区域建议框的定位结果和置信度;
将所述待检索图像和所述定位结果输入包括基于双线性插值的区域特征裁剪模块的GeM图像检索网络模型,得到待检索特征向量集;
将待匹配图像输入包括ResNet-50干网络的GeM图像检索网络模型,得到待匹配特征向量集;
计算所述待检索特征向量集和所述待匹配特征向量集的相似性,得到全局特征向量相似性;
根据所述置信度,微调所述全局特征向量相似性,得到目标区域建议框。
本发明通过将待检索图像输入区域建议框检测网络模型,得到待检索图像中的多种初始区域建议框的定位结果和置信度,将待检索图像和定位结果输入包括基于双线性插值的区域特征裁剪模块的GeM图像检索网络模型,得到待检索特征向量集,又将待匹配图像输入包括ResNet-50干网络的GeM图像检索网络模型,得到待匹配特征向量集,计算待检索特征向量集和待匹配特征向量集的相似性,得到全局特征向量相似性,最后根据置信度,微调全局特征向量相似性,得到目标区域建议框,避免生成较多的低质量区域建议框,提高了检索的精度。
本发明移动终端具体实施方式与下述联合无类别区域建议框生成和图像目标快速检索方法各实施例基本相同,在此不再赘述。
基于上述结构,提出本发明联合无类别区域建议框生成和图像目标快速检索方法的实施例。
本发明提供一种联合无类别区域建议框生成和图像目标快速检索方法。
参照图2,图2为本发明联合无类别区域建议框生成和图像目标快速检索方法实施例的流程示意图。
在本实施例中,提供了联合无类别区域建议框生成和图像目标快速检索方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中,联合无类别区域建议框生成和图像目标快速检索方法包括:
步骤S10,将待检索图像输入区域建议框检测网络模型,得到所述待检索图像中的多种初始区域建议框的定位结果和置信度;
区域建议框检测网络模型(SC-RPN)是一种基于强相关学习的网络模型,将待检索图像输入区域建议框检测网络模型,得到待检索图像中的若干个区域,以及这些区域的定位结果和置信度。
步骤S20,将所述待检索图像和所述定位结果输入包括基于双线性插值的区域特征裁剪模块的GeM图像检索网络模型,得到待检索特征向量集;
基于双线性插值的区域特征裁剪方法,能够自适应地从深层特征图中得到区域建议框所对应的特征区域,并利用双线性插值法来解决深层特征图裁剪中的量化误差问题(由于区域建议框检测网络模型输出的区域建议框是对应于输入待检索图像的,因此将待检索图像中区域建议框的相对位置映射到深度特征图中会引入以下两个额外的问题:(1)区域建议框的相对位置对应到深度特征图中往往不是整数的像素值,深度特征图的下采样倍数越大,深度特征图裁剪所带来的量化误差也越大。(2)区域建议框需要尽可能多地包含待检索图像中所有物体的区域,因此区域建议框的大小和形状是非常多样且不规则的,由此(1)中的误差也会进一步增大),从而达到共享浅层特征图并提高网络模型的运行效率。双线性插值法又称为双线性内插法,该方法在图像处理中使用邻近四个参照点的像素值,根据其在X和Y方向上的距参照点距离的不同,赋予不同的权重并进行线性插值。
每张图像都有对应的特征向量表达,本实施例通过基于双线性插值的区域特征裁剪模块的GeM图像检索网络模型获取表达待检索图像的特征向量,即待检索特征向量,多个待检索特征向量合成待检索特征向量集。
在一些实施例中,步骤S20还包括:
步骤a,基于双线性插值的区域特征裁剪模块,得到与所述待检索图像对应的含有整型宽高区域建议框的深度特征图;
步骤b,将所述深度特征图输入GeM图像检索网络模型中的广义平均池化模块和白化模块,得到待检索特征向量集。
整型宽高区域建议框指的是区域建议框的边界点的横坐标和纵坐标为整数。
本实施例使用的GeM图像检索网络模型包括三个模块,分别是双线性插值的区域特征裁剪模块、广义平均池化模块和白化模块,首先将待检索图像输入和输入结果输入基于双线性插值的区域特征裁剪模块,得到具有整型宽高区域建议框的深度特征图,再将深度特征图依次输入广义平均池化模块和白化模块,得到若干个待检索特征向量,即待检索特征向量集。
在一些具体的实施例中,步骤a还包括:
步骤a1,根据所述定位结果将所述初始区域建议框映射至所述待检索图像上,得到具有浮点型宽高区域建议框的特征图;
步骤a2,根据所述具有浮点型宽高区域建议框的特征图确定具有整型宽高区域建议框的深度特征图。
将初始区域建议框根据定位结果映射到待检索图像中,此时,待检索图像中的初始区域建议框的边界值坐标不是整数,称为浮点型宽高,由此得到的特征图是具有浮点型宽高区域建议框的特征图。
具有浮点型宽高区域建议框的特征图的下采样倍数越大,裁剪带来的量化误差就越大,所以需要获得改具有浮点型宽高区域建议框的整型宽高区域建议框,进一步得到具有整型宽高区域建议框的深度特征图,对深度特征图进行裁剪可避免产生量化误差。
在一些具体的实施例中,步骤a2还包括:
步骤a21,对所述具有浮点型宽高区域建议框进行向上取整操作,得到整型宽高;
步骤a22,对所述整型宽高进行自适应划分,得到多个整型宽高区域块;
步骤a23,将所述整型宽高区域块划分成四个整型宽高小区域块,并确定所述整型宽高小区域块的中心点为采样点;
步骤a24,对所述采样点组成的区域继续进行划分,得到目标点;
步骤a25,将所述目标点连接,得到具有整型宽高区域建议框的深度特征图。
本实施例提供一种双线性插值的区域特征裁剪方法,具体的,首先对具有浮点型宽高区域建议框进行向上取整,将区域建议框的浮点型宽高调节成整型宽高,再对整型宽高区域建议框进行自适应划分,得到多个整型宽高区域块,对整型宽高区域块进行等份划分,得到四个整型宽高小区域块,将每个整型宽高小区域的中心点视为采样点,对采样点组成的区域继续上述自适应划分和等份划分的操作,最终得到目标点,目标点连接得到区域为整型宽高区域建议框,最终得到具有整型宽高区域建议框的深度特征图。
参照图3,阐述双线性插值法的具体计算过程,将点Q12、Q22、Q11、Q21围成的区域看做整型宽高区域建议框,点R1、R2为第一次插值得到的采样点,点P为第二次插值得到的目标点,双线性插值法利用已知点Q12、Q22、Q11、Q21得到点P,计算公式为
Figure BDA0002971543290000091
进一步的得到区域特征图。
基于双线性插值的区域特征裁剪方法是一种无超参数的特征图裁剪方法,这种方法能够在不改变区域建议框的横纵比的条件下,能够自适应地从深层特征图中得到区域建议框所对应的特征区域,并利用双线性插值法来解决深层特征图裁剪中的量化误差问题。同时,在此剪裁方法的支撑下,网络模型能够通过共享浅层特征图的方式有效地避免重复特征的计算,从而提高了模型的整体运行效率,增强了网络模型的可拓展性。
步骤S30,将待匹配图像输入包括ResNet-50干网络的GeM图像检索网络模型,得到待匹配特征向量集;
待匹配图像为预设图像,待匹配图像从待匹配图像库中提取,通常包括一种物体的不同姿态的图像。本实施例用到的GeM图像检索网络模型包括是三个模块,分别是ReNet50模块、广义平均池化模块和白化模块。
在一些实施例中,步骤S30包括:
步骤c,将所述待匹配图像依次输入至GeM图像检索网络模型中ResNet-50干网络,广义平均池化模块和池化模块,得到待匹配特征向量集。
将待匹配图像依次输入ReNet50模块、广义平均池化模块和白化模块,最终输出多个待匹配特征向量,即待匹配特征向量集。
参照图4,本实施例提供一种联合无类别区域建议框生成和图像目标快速检索方法框架图,区域建议框检测网络模型和GeM图像检索网络模型如图所示。全局特征向量相似性微调策略为全局特征向量相似性进行加权处理,基于双线性插值的区域特征裁剪方法利用共享权重和特征对齐来为网络模型加速。
目前大部分目标检索没有有效考虑结合目标检测和检索方法,通常是将两者分离开来,即先进行检测,再将检测结果传到检索部分,这样造成了检索内容依赖有类别的检测结果,限制了获得的候选框质量;检索未能有效利用检测任务中对图像提取的特征信息,造成额外的计算;检测与检索结合未能形成一个端到端的网络,制约实际部署的推理速度,而本实施例的联合无类别区域建议框生成和图像目标快速检索方法框架图源于一个完整的端到端快速目标检索系统,可有效避免上述问题。
步骤S40,计算所述待检索特征向量集和所述待匹配特征向量集的相似性,得到全局特征向量相似性;
相似性指的是向量之间的相关性,一般用欧式距离表达这种相关性。
在一些具体的实施例中,步骤S40还包括:
步骤d,计算所述待检索特征向量集中每一待检索特征向量与所述待匹配特征向量集中每一待匹配特征向量的欧式距离,得到所述待检索特征向量和所述待匹配特征向量的相似性;
步骤e,确定所述相似性的最大值为全局特征向量相似性。
分别计算待检索特征向量集中每一个待检索特征向量与待匹配特征向量集中每一个待匹配特征向量的欧式距离,作为每一个待检索特征向量与每一个待匹配特征向量的相似性。将每一个待检索特征向量对应的相似性中的最大值作为该待检索特征向量的全局特征向量相似性。
步骤S50,根据所述置信度,微调所述全局特征向量相似性,得到目标区域建议框。
本实施例提出的全局特征向量相似性微调策略是一种后处理方法,由于GeM图像检索网络模型最后输出的区域建议框的全局特征向量相似性没有考虑到区域建议框本身的定位质量,即区域建议框的全局特征向量与待匹配特征向量集之间的映射关系不正确。因此这一全局特征向量相似性微调策略利用从基于强相关性学习的区域建议框检测网络模型(SC-RPN)中得到的区域建议框置信度,以后处理的形式微调全局特征向量相似性,得到最终的区域建议框,即目标区域建议框。
在一些具体的实施例中,步骤S40还包括:
步骤f,将所述置信度和所述全局特征向量相似性代入相似性微调公式中,得到微调后的全局特征向量相似性;
步骤g,根据微调后的全局特征向量相似性生成目标区域建议框。
微调后的全局特征向量相似性S'如公式S'=Sp*C1-p所示,其中p为超参数,用于平衡置信度与原始相似性之间的权重占比。得到微调后的全局特征向量相似性后,根据微调后的全局特征向量生成目标区域建议框并输出。
全局特征向量相似性微调策略,解决当目标区域建议框数量增加引入更多的低质量区域建议框时,传统计算特征向量距离的方法带来更大误差的问题,提升目标区域建议框生成和检索的精度。
本实施例通过将待检索图像输入区域建议框检测网络模型,得到待检索图像中的多种初始区域建议框的定位结果和置信度,将待检索图像和定位结果输入包括基于双线性插值的区域特征裁剪模块的GeM图像检索网络模型,得到待检索特征向量集,又将待匹配图像输入包括ResNet-50干网络的GeM图像检索网络模型,得到待匹配特征向量集,计算待检索特征向量集和待匹配特征向量集的相似性,得到全局特征向量相似性,最后根据置信度,微调全局特征向量相似性,得到目标区域建议框,避免生成较多的低质量区域建议框,提高了检索的精度。
此外,本发明实施例还提出一种联合无类别区域建议框生成和图像目标快速检索装置,所述联合无类别区域建议框生成和图像目标快速检索装置包括:
第一输入模块,用于将待检索图像输入区域建议框检测网络模型,得到所述待检索图像中的多种初始区域建议框的定位结果和置信度;
第二输入模块,用于将所述待检索图像和所述定位结果输入包括基于双线性插值的区域特征裁剪模块的GeM图像检索网络模型,得到待检索特征向量集;
第三输入模块,用于将待匹配图像输入包括ResNet-50干网络的GeM图像检索网络模型,得到待匹配特征向量集;
计算模块,用于计算所述待检索特征向量集和所述待匹配特征向量集的相似性,得到全局特征向量相似性;
微调模块,用于根据所述置信度,微调所述全局特征向量相似性,得到目标区域建议框。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有联合无类别区域建议框生成和图像目标快速检索程序,所述联合无类别区域建议框生成和图像目标快速检索程序被处理器执行时实现如上所述的联合无类别区域建议框生成和图像目标快速检索方法的各个步骤。
需要说明的是,计算机可读存储介质可设置在联合无类别区域建议框生成和图像目标快速检索设备中。
本发明计算机可读存储介质具体实施方式与上述联合无类别区域建议框生成和图像目标快速检索方法各实施例基本相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者设备中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种联合无类别区域建议框生成和图像目标快速检索方法,其特征在于,所述联合无类别区域建议框生成和图像目标快速检索方法包括以下步骤:
将待检索图像输入区域建议框检测网络模型,得到所述待检索图像中的多种初始区域建议框的定位结果和置信度;
将所述待检索图像和所述定位结果输入包括基于双线性插值的区域特征裁剪模块的GeM图像检索网络模型,得到待检索特征向量集;
将待匹配图像输入包括ResNet-50干网络的GeM图像检索网络模型,得到待匹配特征向量集;
计算所述待检索特征向量集和所述待匹配特征向量集的相似性,得到全局特征向量相似性;
根据所述置信度,微调所述全局特征向量相似性,得到目标区域建议框;
所述根据所述置信度,微调所述全局特征向量相似性,得到目标区域建议框的步骤包括:
将所述置信度和所述全局特征向量相似性代入相似性微调公式中,得到微调后的全局特征向量相似性;
根据微调后的全局特征向量相似性生成目标区域建议框;
所述相似性微调公式为S′=Sp*C1-p,其中,p为超参数,S为所述全局特征向量相似性,C为所述置信度,S’为微调后的全局特征向量相似性。
2.如权利要求1所述的联合无类别区域建议框生成和图像目标快速检索方法,其特征在于,所述将所述待检索图像和所述定位结果输入包括基于双线性插值的区域特征裁剪模块的GeM图像检索网络模型,得到待检索特征向量集的步骤包括:
基于双线性插值的区域特征裁剪模块,得到与所述待检索图像对应的含有整型宽高区域建议框的深度特征图;
将所述深度特征图输入GeM图像检索网络模型中的广义平均池化模块和白化模块,得到待检索特征向量集。
3.如权利要求2所述的联合无类别区域建议框生成和图像目标快速检索方法,其特征在于,所述基于双线性插值的区域特征裁剪模块,得到与所述待检索图像对应的含有整型
宽高区域建议框的深度特征图的步骤包括:
根据所述定位结果将所述初始区域建议框映射至所述待检索图像上,得到具有浮点型宽高区域建议框的特征图;
根据所述具有浮点型宽高区域建议框的特征图确定具有整型宽高区域建议框的深度特征图。
4.如权利要求3所述的联合无类别区域建议框生成和图像目标快速检索方法,其特征在于,所述根据所述具有浮点型宽高区域建议框的特征图确定具有整型宽高区域建议框的深度特征图的步骤包括:
对所述具有浮点型宽高区域建议框进行向上取整操作,得到整型宽高;
对所述整型宽高进行自适应划分,得到多个整型宽高区域块;
将所述整型宽高区域块划分成四个整型宽高小区域块,并确定所述整型宽高小区域块的中心点为采样点;
对所述采样点组成的区域继续进行划分,得到目标点;
将所述目标点连接,得到具有整型宽高区域建议框的深度特征图。
5.如权利要求1所述的联合无类别区域建议框生成和图像目标快速检索方法,其特征在于,所述将待匹配图像输入包括ResNet-50干网络的GeM图像检索网络模型,得到待匹配特征向量集的步骤包括:
将所述待匹配图像依次输入至GeM图像检索网络模型中ResNet-50干网络,广义平均池化模块和池化模块,得到待匹配特征向量集。
6.如权利要求1所述的联合无类别区域建议框生成和图像目标快速检索方法,其特征在于,所述计算所述待检索特征向量集和所述待匹配特征向量集的相似性,得到全局特征向量相似性的步骤包括:
计算所述待检索特征向量集中每一待检索特征向量与所述待匹配特征向量集中每一待匹配特征向量的欧式距离,得到所述待检索特征向量和所述待匹配特征向量的相似性;
确定所述相似性的最大值为全局特征向量相似性。
7.一种联合无类别区域建议框生成和图像目标快速检索装置,其特征在于,所述联合无类别区域建议框生成和图像目标快速检索装置包括:
第一输入模块,用于将待检索图像输入区域建议框检测网络模型,得到所述待检索图像中的多种初始区域建议框的定位结果和置信度;
第二输入模块,用于将所述待检索图像和所述定位结果输入包括基于双线性插值的区域特征裁剪模块的GeM图像检索网络模型,得到待检索特征向量集;
第三输入模块,用于将待匹配图像输入包括ResNet-50干网络的GeM图像检索网络模型,得到待匹配特征向量集;
计算模块,用于计算所述待检索特征向量集和所述待匹配特征向量集的相似性,得到全局特征向量相似性;
微调模块,用于根据所述置信度,微调所述全局特征向量相似性,得到目标区域建议框;
所述根据所述置信度,微调所述全局特征向量相似性,得到目标区域建议框的步骤包括:
将所述置信度和所述全局特征向量相似性代入相似性微调公式中,得到微调后的全局特征向量相似性;根据微调后的全局特征向量相似性生成目标区域建议框;
所述相似性微调公式为S′=Sp*C1-p,其中p为超参数,S为全局特征向量相似性,C为所述置信度,S’为微调后的全局特征向量相似性。
8.一种联合无类别区域建议框生成和图像目标快速检索设备,其特征在于,所述联合无类别区域建议框生成和图像目标快速检索设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的联合无类别区域建议框生成和图像目标快速检索程序,所述联合无类别区域建议框生成和图像目标快速检索程序被所述处理器执行时实现如权利要求1至6中任一项所述的联合无类别区域建议框生成和图像目标快速检索方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有联合无类别区域建议框生成和图像目标快速检索程序,所述联合无类别区域建议框生成和图像目标快速检索程序被处理器执行时实现如权利要求1至6中任一项所述的联合无类别区域建议框生成和图像目标快速检索方法的步骤。
CN202110267042.1A 2021-03-11 2021-03-11 一种联合无类别区域建议框生成和图像目标快速检索方法 Active CN113157961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110267042.1A CN113157961B (zh) 2021-03-11 2021-03-11 一种联合无类别区域建议框生成和图像目标快速检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110267042.1A CN113157961B (zh) 2021-03-11 2021-03-11 一种联合无类别区域建议框生成和图像目标快速检索方法

Publications (2)

Publication Number Publication Date
CN113157961A CN113157961A (zh) 2021-07-23
CN113157961B true CN113157961B (zh) 2023-03-24

Family

ID=76886981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110267042.1A Active CN113157961B (zh) 2021-03-11 2021-03-11 一种联合无类别区域建议框生成和图像目标快速检索方法

Country Status (1)

Country Link
CN (1) CN113157961B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114064948A (zh) * 2021-10-15 2022-02-18 西安深信科创信息技术有限公司 基于广义平均池化策略的哈希图像检索方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020047854A1 (en) * 2018-09-07 2020-03-12 Intel Corporation Detecting objects in video frames using similarity detectors

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740405B (zh) * 2018-07-06 2021-08-27 博云视觉(北京)科技有限公司 一种非对齐相似车辆前窗差异信息检测方法
CN112287947B (zh) * 2020-09-27 2023-10-13 深圳大学 一种区域建议框检测方法、终端及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020047854A1 (en) * 2018-09-07 2020-03-12 Intel Corporation Detecting objects in video frames using similarity detectors

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的图像目标检测算法综述;张婷婷等;《电信科学》;20200720(第07期);全文 *

Also Published As

Publication number Publication date
CN113157961A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN110992356B (zh) 目标对象检测方法、装置和计算机设备
US8594434B2 (en) Device, method, and computer-readable storage medium for segmentation of an image
CN109064514B (zh) 一种基于投影点坐标回归的六自由度位姿估计方法
CN104778688A (zh) 点云数据的配准方法及装置
CN111047630B (zh) 神经网络和基于神经网络的目标检测及深度预测方法
CN111898668A (zh) 一种基于深度学习的小目标物体检测方法
EP3591580A1 (en) Method and device for recognizing descriptive attributes of appearance feature
US20150023607A1 (en) Gesture recognition method and apparatus based on analysis of multiple candidate boundaries
CN113628211B (zh) 参数预测推荐方法、设备及计算机可读存储介质
CN113157961B (zh) 一种联合无类别区域建议框生成和图像目标快速检索方法
CN114299303A (zh) 一种船舶目标检测方法、终端设备及存储介质
WO2019209751A1 (en) Superpixel merging
EP2884459A1 (en) Image processing device, image processing method, and image processing program
CN116266387A (zh) 基于重参数化残差结构和坐标注意力机制的yolov4的图像识别算法及系统
US8457388B2 (en) Method and system for searching for global minimum
CN111860054A (zh) 一种卷积网络训练方法和装置
CN112770118B (zh) 视频帧图像运动估计方法及相关设备
US20220114383A1 (en) Image recognition method and image recognition system
CN114511862B (zh) 表格识别方法、装置及电子设备
CN113469091A (zh) 人脸识别方法、训练方法、电子设备及存储介质
CN113159233A (zh) 一种谱聚类加速方法、系统、计算机设备及存储介质
JP2017201454A (ja) 画像処理装置及びプログラム
JP3527588B2 (ja) テンプレートマッチング方法
US20240104890A1 (en) Image processing device, recording medium, and image processing method
CN117372604B (zh) 一种3d人脸模型生成方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant