CN113704522B - 基于人工智能的目标图像快速检索方法及系统 - Google Patents

基于人工智能的目标图像快速检索方法及系统 Download PDF

Info

Publication number
CN113704522B
CN113704522B CN202111259001.4A CN202111259001A CN113704522B CN 113704522 B CN113704522 B CN 113704522B CN 202111259001 A CN202111259001 A CN 202111259001A CN 113704522 B CN113704522 B CN 113704522B
Authority
CN
China
Prior art keywords
similarity
image
loss function
detected
hash code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111259001.4A
Other languages
English (en)
Other versions
CN113704522A (zh
Inventor
聂秀山
史洋
刘新锋
刘兴波
袭肖明
尹义龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jianzhu University
Original Assignee
Shandong Jianzhu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jianzhu University filed Critical Shandong Jianzhu University
Priority to CN202111259001.4A priority Critical patent/CN113704522B/zh
Publication of CN113704522A publication Critical patent/CN113704522A/zh
Application granted granted Critical
Publication of CN113704522B publication Critical patent/CN113704522B/zh
Priority to US17/968,666 priority patent/US20230134531A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Library & Information Science (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于人工智能的目标图像快速检索方法及系统,获取模板图像和模板图像对应的若干个已知标签;从目标图像数据库中,抽取待检测图像;将待检测图像和模板图像,均输入到训练后的卷积神经网络中,输出待检测图像的哈希码和模板图像的哈希码;基于待检测图像的哈希码和模板图像的哈希码之间的汉明距离,得到待检测图像与模板图像的相似度,选择相似度高于设定阈值的一个或多个待检测图像作为检索结果输出。通过人工智能技术的使用实现对机器人视觉平台采集的复杂场景下的图像样本基于卷积神经网络,利用哈希方法提取图像特征,引入区分易混淆实体、可优化相似性关系以及区分样本关注度,更好地应对复杂场景下的物品检索。

Description

基于人工智能的目标图像快速检索方法及系统
技术领域
本发明涉及图像检索技术领域,特别是涉及基于人工智能的目标图像快速检索方法及系统。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
物品检索旨在利用计算机或者机器人对摄像机拍摄的图像进行处理、分析和理解,以识别各种不同模式的目标和对象,它是计算机视觉领域的一个重要研究课题。
如今,已经可以使用机器人来收集真实环境的图像,对于简单的图像而言,很容易为其学到一个合适的特征表示将其与不同语义的样本区分开来。而在复杂场景中,图像则需要更多的关注才能得到一个恰当的特征表示。复杂场景例如,在多标签学习(图像包含多个标签)中,图像间的相似度并不具备传递性,即存在图像A与图像B相似(图像A与图像B拥有一个或者一个以上相同的标签),图像A与图像C相似,但是图像B与图像C不相似(图像B与图像C不存在相同的标签)。因而流行的物品检索方法平等地对待所有的样本,导致其在复杂场景下物品检索方法出现了相对较差的泛化性能。
(1)复杂场景下物品检索包含大量容易混淆的实体,这些实体一般具有相似的特征表征,流行的物品检索方法并不能将其区分开(未考虑易混淆的特点);
(2)复杂场景下物品检索需要更加准确的图像相似性,以便挖掘图像的真实相似性关系来引导生成图像特征,现有的物品检索方法未考虑挖掘图像的相似性关系;
(3)复杂场景下物品检索需要提供更多的关注给复杂样本,合理划分注意力,但现有的物品检索方法平等对待所有样本。
发明内容
为了解决现有技术的不足,本发明提供了基于人工智能的目标图像快速检索方法及系统;
第一方面,本发明提供了基于人工智能的目标图像快速检索方法;
基于人工智能的目标图像快速检索方法,包括:
获取模板图像和模板图像对应的若干个已知标签;
从目标图像数据库中,抽取待检测图像;
将待检测图像和模板图像,均输入到训练后的卷积神经网络中,输出待检测图像的哈希码和模板图像的哈希码;
基于待检测图像的哈希码和模板图像的哈希码之间的汉明距离,得到待检测图像与模板图像的相似度,汉明距离越小表示相似度越高,选择相似度高于设定阈值的一个或多个待检测图像作为检索结果输出。
第二方面,本发明提供了基于人工智能的目标图像快速检索系统;
基于人工智能的目标图像快速检索系统,包括:
获取模块,其被配置为:获取模板图像和模板图像对应的若干个已知标签;
抽取模块,其被配置为:从目标图像数据库中,抽取待检测图像;
转换模块,其被配置为:将待检测图像和模板图像,均输入到训练后的卷积神经网络中,输出待检测图像的哈希码和模板图像的哈希码;
输出模块,其被配置为:基于待检测图像的哈希码和模板图像的哈希码之间的汉明距离,得到待检测图像与模板图像的相似度,汉明距离越小表示相似度越高,选择相似度高于设定阈值的一个或多个待检测图像作为检索结果输出。
与现有技术相比,本发明的有益效果是:
通过人工智能技术的使用实现对机器人视觉平台采集的复杂场景下的图像样本基于卷积神经网络,利用哈希方法提取图像特征,引入区分易混淆实体、可优化相似性关系以及区分样本关注度,更好地应对复杂场景下的物品检索。
本发明附加方面的优点将在下面的描述中部分给出,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为第一个实施例的方法流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
实施例一
本实施例提供了基于人工智能的目标图像快速检索方法;
如图1所示,基于人工智能的目标图像快速检索方法,包括:
S101:获取模板图像和模板图像对应的若干个已知标签;
S102:从目标图像数据库中,抽取待检测图像;
S103:将待检测图像和模板图像,分别输入到训练后的卷积神经网络中,输出待检测图像的哈希码和模板图像的哈希码;
S104:基于待检测图像的哈希码和模板图像的哈希码之间的汉明距离,得到待检测图像与模板图像的相似度,汉明距离越小表示相似度越高,选择相似度高于设定阈值(设定阈值,例如
Figure 677852DEST_PATH_IMAGE001
)的一个或多个待检测图像作为检索结果输出。
示例性地,所述模板图像为已知图像,所述模板图像对应的若干个已知标签,例如,包括:山、水、树、花、动物、行人、马路、车辆等。
示例性地,所述S102:从目标图像数据库中,抽取待检测图像;这里的抽取规则为无放回抽取。
进一步地,所述卷积神经网络为改进的卷积神经网络CNN-F;(CNN-F,Convolutional Neural Networks and the Improved Fisher Vector网络)。
其中,改进的卷积神经网络CNN-F,网络结构包括:
依次连接的第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第一全连接层、第二全连接层、第三全连接层和Tanh函数层;
将第三全连接层的输出维度设定为K维。
进一步地,所述训练后的卷积神经网络;训练步骤包括:
构建训练集和测试集;所述训练集和测试集,均包括:已知标签的图像;
将训练集已知标签的图像,输入到卷积神经网络中进行训练,卷积神经网络输出已知标签图像的哈希码;根据已知标签图像的哈希码与已知标签,构建损失函数,当损失函数达到最小值时,停止训练;
将测试集,输入到卷积神经网络中进行测试,当准确率超过设定阈值时,停止测试,认定当前卷积神经网络为训练后的卷积神经网络。
进一步地,所述训练后的卷积神经网络,是基于不同情况下,采用不同的损失函数训练得到的。
进一步地,基于不同情况下,采用不同的损失函数训练得到的;具体包括:
当需要使得所有的负样本的预测得分尽可能低,所有正样本的预测得分尽可能高,且相似度得分的取值范围为
Figure 523186DEST_PATH_IMAGE002
,则使用基于哈希码相似度的统一损失函数
Figure 780992DEST_PATH_IMAGE003
当需要损失函数
Figure 679678DEST_PATH_IMAGE004
关注相似度预测得分偏低的正样本,则使用对正负样本相似度预测得分的间隔进行加权的损失函数
Figure 655725DEST_PATH_IMAGE005
当需要使得所有的负样本的预测得分尽可能低,所有正样本的预测得分尽可能高,且使用的相似度得分的取值范围为
Figure 55482DEST_PATH_IMAGE006
,则使用基于哈希码相似度的损失函数
Figure 902215DEST_PATH_IMAGE007
当需要损失函数
Figure 847169DEST_PATH_IMAGE008
关注相似度预测得分偏低的正样本,则使用对正负样本相似度预测得分的间隔进行加权的损失函数
Figure 310511DEST_PATH_IMAGE009
当需要损失函数
Figure 389325DEST_PATH_IMAGE010
希望负样本的相似度预测得分与正样本的相似度预测得分之间存在明显的差距,则使用损失函数
Figure 621724DEST_PATH_IMAGE011
当需要损失函数
Figure 862212DEST_PATH_IMAGE012
在优化的过程中更新相似性矩阵,则使用基于优化相似性矩阵的间隔进行加权的统一损失函数
Figure 937484DEST_PATH_IMAGE013
当需要损失函数
Figure 554410DEST_PATH_IMAGE014
在优化的过程中更新相似性矩阵,则使用基于优化相似性矩阵的间隔进行加权的圆损失函数
Figure 641315DEST_PATH_IMAGE015
当需要损失函数
Figure 52705DEST_PATH_IMAGE016
在优化的过程中更新相似性矩阵,则使用损失函数
Figure 598962DEST_PATH_IMAGE017
进一步地,所述基于哈希码相似度的统一损失函数
Figure 19579DEST_PATH_IMAGE018
,其公式表达为:
Figure 960990DEST_PATH_IMAGE019
(1)
其中,
Figure 808860DEST_PATH_IMAGE020
表示集合中样本的数目,
Figure 734091DEST_PATH_IMAGE021
表示样本
Figure 817453DEST_PATH_IMAGE022
的相似样本集合,
Figure 613371DEST_PATH_IMAGE023
表示样本
Figure 897722DEST_PATH_IMAGE024
的不相似样本集合,
Figure 388877DEST_PATH_IMAGE025
是缩放因子,
Figure 151297DEST_PATH_IMAGE026
是间隔,
Figure 332879DEST_PATH_IMAGE027
是训练集中图像的数量,
Figure 522552DEST_PATH_IMAGE028
是样本
Figure 156796DEST_PATH_IMAGE029
Figure 581961DEST_PATH_IMAGE030
的哈希码预测样本相似度,
Figure 352471DEST_PATH_IMAGE031
是样本
Figure 713045DEST_PATH_IMAGE032
Figure 569006DEST_PATH_IMAGE033
的哈希码预测样本相似度,
Figure 47129DEST_PATH_IMAGE034
是第
Figure 937725DEST_PATH_IMAGE035
个样本,
Figure 469200DEST_PATH_IMAGE036
是第
Figure 812457DEST_PATH_IMAGE037
个样本。
应理解地,首先利用机器人视觉平台采集的待检测图像
Figure 579425DEST_PATH_IMAGE038
,送入卷积神经网络(CNN)获得图像的特征
Figure 324527DEST_PATH_IMAGE039
Figure 26904DEST_PATH_IMAGE040
Figure 857457DEST_PATH_IMAGE041
Figure 178848DEST_PATH_IMAGE042
分别是图像特征
Figure 44035DEST_PATH_IMAGE043
的通道数、高和宽。
本发明采用深度有监督哈希学习方法,损失函数采用Circle Loss三元组损失。Circle Loss为三元组形式的复杂场景物品检索问题提供了一个简单而直观的思路。三元组损失包含锚点
Figure 917313DEST_PATH_IMAGE044
与其正样本
Figure 969583DEST_PATH_IMAGE045
(存在相同类)的预测得分
Figure 343933DEST_PATH_IMAGE046
,锚点
Figure 63627DEST_PATH_IMAGE047
与其负样本
Figure 107806DEST_PATH_IMAGE048
(不存在相同类)的预测得分
Figure 647372DEST_PATH_IMAGE049
在检索任务中,两个图像是否相似的依据是其是否包含同类对象,因此,当图像对中包含多实体复杂场景图像时,图像对的实际相似度与检索时的相似度之间就存在差异。具体来说,对于锚点而言,不同的正样本可能与其具有不同数目的同类对象(类别标签交集的数量),这意味着正样本与锚点之间的实际相似度存在差别(显然类别标签的交集数量越多,实际相似度应该越高)。虽然检索时图像对仅有相似与不相似两种标签,但是在训练时同样将图像对的相似度视为这两种标签(相似或不相似)会带来一定的问题因此应该区分图像对之间的相似度。
本发明将现有CNN-F网络最后一层新增Tanh函数层,Tanh函数层作为激活函数层来将网络输出的各维度取值范围限制在
Figure 809101DEST_PATH_IMAGE050
区间上。对于输入图像
Figure 383302DEST_PATH_IMAGE051
,经过CNN-F网络后得到图像特征
Figure 598382DEST_PATH_IMAGE052
,之后经过Tanh激活层后得到输出
Figure 890823DEST_PATH_IMAGE053
,从而可以得到哈希码
Figure 341396DEST_PATH_IMAGE054
。这里的
Figure 770104DEST_PATH_IMAGE055
是符号函数。
为了便于目标函数的优化求解,本方法在目标函数中直接使用
Figure 156086DEST_PATH_IMAGE056
代替
Figure 545610DEST_PATH_IMAGE057
。因此样本
Figure 675240DEST_PATH_IMAGE058
Figure 224033DEST_PATH_IMAGE059
的哈希码预测样本相似度得分被定义为:
Figure 780916DEST_PATH_IMAGE060
其中,
Figure 907004DEST_PATH_IMAGE061
表示哈希码的长度,
Figure 840325DEST_PATH_IMAGE062
的取值范围是
Figure 243624DEST_PATH_IMAGE063
,所以此时样本的相似度得分取值范围为
Figure 971409DEST_PATH_IMAGE064
进一步地,所述对正负样本相似度预测得分的间隔进行加权的损失函数
Figure 834060DEST_PATH_IMAGE065
,其公式表达为:
Figure 571072DEST_PATH_IMAGE066
(2)
其中,
Figure 828878DEST_PATH_IMAGE067
是样本
Figure 727564DEST_PATH_IMAGE068
Figure 828244DEST_PATH_IMAGE069
的相似度。
应理解地,显然最小化公式(1)会使得所有的负样本的预测得分尽可能低,所有的正样本的预测得分尽可能高。
但是,公式(1)没有考虑到正样本与锚点之间的相似度,也就是应该让正样本与锚点之间的相似度被用来对正负样本的相似度预测得分之间的间隔进行加权。
显然,该损失函数(公式(2))会关注相似度预测得分偏低的正样本,这种正样本一般都是复杂场景图像,从而提升了对复杂场景图像的检索能力。此外正样本与锚点的相似度越大,公式中相应地设置的间隔也越大,因此对于同样相似度预测得分的正样本,损失函数会基于相似度更高的正样本更大的权重(即关注度),从而进一步优化了哈希码的分布。
进一步地,所述损失函数
Figure 103368DEST_PATH_IMAGE070
,其公式表达为:
Figure 215680DEST_PATH_IMAGE071
(3)
其中,
Figure 550847DEST_PATH_IMAGE072
为基于哈希码相似度的圆损失函数。
若使用的相似度预测得分的取值范围为
Figure 14189DEST_PATH_IMAGE073
,则损失函数如公式(3)所示。
此时,负样本的相似度预测得分以-1为中心,此时若引入间隔加权的思想,可以得到新的损失函数(4)。
进一步地,所述损失函数
Figure 968370DEST_PATH_IMAGE074
,其公式表达为:
Figure 935189DEST_PATH_IMAGE075
(4)
其中,
Figure 441256DEST_PATH_IMAGE076
表示正负样本相似度预测得分的间隔进行加权的圆损失函数。
三元组中三个变量被称为锚点、正样本和负样本。正样本与锚点相似,负样本与锚点不相似。正样本与锚点间的相似度越大,该圆损失函数circle loss的半径越小,即要求正负样本的相似度预测得分与-1或1的距离越近,反之则对距离的约束越小。
进一步地,所述损失函数
Figure 126316DEST_PATH_IMAGE077
,其公式表达为:
Figure 867876DEST_PATH_IMAGE078
(5)
其中,
Figure 954780DEST_PATH_IMAGE079
表示结合哈希检索任务的特性的圆损失函数,
Figure 631749DEST_PATH_IMAGE080
是调节负样本最高相似度得分的超参数,
Figure 804105DEST_PATH_IMAGE081
是调节正样本最低相似度得分的超参数。根据公式(5)可以看出,其进队预测得分高于
Figure 490301DEST_PATH_IMAGE082
的负样本关注,且得分越高,关注度越高,这使得上述公式仅为负样本的预测得分设置了
Figure 805613DEST_PATH_IMAGE083
的阈值,而不强迫所有的负样本的预测得分都趋近于-1。此外,上述公式会给预测得分低于
Figure 653484DEST_PATH_IMAGE084
的正样本关注,且得分越低,关注度越高,这同样使得上述公式仅为正样本的预测得分根据其实际相似度设置对应的阈值,而不迫使所有的正样本的预测得分都趋近于1。由此相对于
Figure 313135DEST_PATH_IMAGE085
Figure 271864DEST_PATH_IMAGE086
,该损失函数会更多地关注预测相似度得分与实际相似度差距过大的正样本,从而得到更隔离的哈希码分布。此时,再考虑可优化相似性关系,即在优化的过程中更新相似性矩阵,得到更加符合实际的相似性关系。上述损失函数中使用相似性矩阵的损失函数包括
Figure 598940DEST_PATH_IMAGE087
Figure 476766DEST_PATH_IMAGE088
Figure 358135DEST_PATH_IMAGE089
,在该三个损失函数中引入迭代优化相似性矩阵(在训练时优化相似性矩阵),我们得到新的三个损失函数
Figure 120554DEST_PATH_IMAGE090
Figure 911924DEST_PATH_IMAGE091
Figure 101597DEST_PATH_IMAGE092
进一步地,所述基于优化相似性矩阵的间隔进行加权的统一损失函数
Figure 735840DEST_PATH_IMAGE093
,其公式表达为:
Figure 36372DEST_PATH_IMAGE094
进一步地,所述基于优化相似性矩阵的间隔进行加权的圆损失函数
Figure 72461DEST_PATH_IMAGE095
,其公式表达为:
Figure 557669DEST_PATH_IMAGE096
进一步地,所述基于相似性矩阵的结合哈希检索任务特性的圆损失函数
Figure 413629DEST_PATH_IMAGE097
,其公式表达为:
Figure 517852DEST_PATH_IMAGE098
本发明的数据来源于机器人视觉平台在真实环境下采集的物体图片,比如一些数码设备、海底鱼类、陆地野生动物、地标建筑等各种各样的图片。而预处理包括之前提到的弱监督去背景、随机擦除、标准化、随机旋转等。
本技术可以更好地应对复杂场景下的图像检索问题,利用哈希方法生成图像特征,在损失函数中区分容易混淆的实体,并得到更加准确的图像相似性关系,同时提供更多的注意力给复杂样本。同时模型结构直观,容易迁移与部署实现。评价指标使用mAP(准确率),可以看出本发明的准确率比其他方法准确率都要高,特别是在NUS-WIDE和MS-COCO两个多标签数据集上,有着明显优异的性能。
实施例二
本实施例提供了基于人工智能的目标图像快速检索系统;
基于人工智能的目标图像快速检索系统,包括:
获取模块,其被配置为:获取模板图像和模板图像对应的若干个已知标签;
抽取模块,其被配置为:从目标图像数据库中,抽取待检测图像;
转换模块,其被配置为:将待检测图像和模板图像,均输入到训练后的卷积神经网络中,输出待检测图像的哈希码和模板图像的哈希码;
输出模块,其被配置为:基于待检测图像的哈希码和模板图像的哈希码之间的汉明距离,得到待检测图像与模板图像的相似度,汉明距离越小表示相似度越高,选择相似度高于设定阈值的一个或多个待检测图像作为检索结果输出。
此处需要说明的是,上述获取模块、抽取模块、转换模块和输出模块对应于实施例一中的步骤S101至S104,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.基于人工智能的目标图像快速检索方法,其特征是,包括:
获取模板图像和模板图像对应的若干个已知标签;
从目标图像数据库中,抽取待检测图像;
将待检测图像和模板图像,均输入到训练后的卷积神经网络中,输出待检测图像的哈希码和模板图像的哈希码;
基于待检测图像的哈希码和模板图像的哈希码之间的汉明距离,得到待检测图像与模板图像的相似度,汉明距离越小表示相似度越高,选择相似度高于设定阈值的一个或多个待检测图像作为检索结果输出;
所述训练后的卷积神经网络,是基于不同情况下,采用不同的损失函数训练得到的;
基于不同情况下,采用不同的损失函数训练得到的;具体包括:
当需要使得所有的负样本的预测得分尽可能低,所有正样本的预测得分尽可能高,且相似度得分的取值范围为
Figure 648088DEST_PATH_IMAGE001
,则使用基于哈希码相似度的统一损失函数
Figure 444006DEST_PATH_IMAGE002
当需要损失函数
Figure 259515DEST_PATH_IMAGE003
关注相似度预测得分偏低的正样本,则使用对正负样本相似度预测得分的间隔进行加权的损失函数
Figure 344146DEST_PATH_IMAGE004
当需要使得所有的负样本的预测得分尽可能低,所有正样本的预测得分尽可能高,且使用的相似度得分的取值范围为
Figure 106566DEST_PATH_IMAGE005
,则使用基于哈希码相似度的损失函数
Figure 84886DEST_PATH_IMAGE006
当需要损失函数
Figure 212242DEST_PATH_IMAGE007
关注相似度预测得分偏低的正样本,则使用对正负样本相似度预测得分的间隔进行加权的损失函数
Figure 518590DEST_PATH_IMAGE008
当需要损失函数
Figure 819121DEST_PATH_IMAGE009
希望负样本的相似度预测得分与正样本的相似度预测得分之间存在明显的差距,则使用损失函数
Figure 917527DEST_PATH_IMAGE010
当需要损失函数
Figure 12522DEST_PATH_IMAGE011
在优化的过程中更新相似性矩阵,则使用基于优化相似性矩阵的间隔进行加权的统一损失函数
Figure 310560DEST_PATH_IMAGE012
当需要损失函数
Figure 477099DEST_PATH_IMAGE013
在优化的过程中更新相似性矩阵,则使用基于优化相似性矩阵的间隔进行加权的圆损失函数
Figure 102116DEST_PATH_IMAGE014
当需要损失函数
Figure 571274DEST_PATH_IMAGE015
在优化的过程中更新相似性矩阵,则使用损失函数
Figure 914531DEST_PATH_IMAGE016
所述基于哈希码相似度的统一损失函数
Figure 884761DEST_PATH_IMAGE017
,其公式表达为:
Figure 629863DEST_PATH_IMAGE018
(1)
其中,
Figure 269923DEST_PATH_IMAGE019
表示集合中样本的数目,
Figure 100476DEST_PATH_IMAGE020
表示样本
Figure 608817DEST_PATH_IMAGE021
的相似样本集合,
Figure 880530DEST_PATH_IMAGE022
表示样本
Figure 753808DEST_PATH_IMAGE023
的不相似样本集合,
Figure 133974DEST_PATH_IMAGE024
是缩放因子,
Figure 118110DEST_PATH_IMAGE025
是间隔,
Figure 274023DEST_PATH_IMAGE026
是训练集中图像的数量,
Figure 318202DEST_PATH_IMAGE027
是样本
Figure 920085DEST_PATH_IMAGE028
Figure 645595DEST_PATH_IMAGE029
的哈希码预测样本相似度,
Figure 219796DEST_PATH_IMAGE030
是样本
Figure 231614DEST_PATH_IMAGE031
Figure 196159DEST_PATH_IMAGE032
的哈希码预测样本相似度,
Figure 787678DEST_PATH_IMAGE033
是第
Figure 278702DEST_PATH_IMAGE034
个样本,
Figure 664684DEST_PATH_IMAGE035
是第
Figure 116525DEST_PATH_IMAGE036
个样本;
所述对正负样本相似度预测得分的间隔进行加权的损失函数
Figure 308472DEST_PATH_IMAGE004
,其公式表达为:
Figure 591686DEST_PATH_IMAGE037
(2)
其中,
Figure 850366DEST_PATH_IMAGE038
是样本
Figure 648558DEST_PATH_IMAGE039
Figure 581879DEST_PATH_IMAGE040
的相似度;
所述基于哈希码相似度的损失函数
Figure 657283DEST_PATH_IMAGE041
,其公式表达为:
Figure 588329DEST_PATH_IMAGE042
(3)
其中,
Figure 873817DEST_PATH_IMAGE041
为基于哈希码相似度的圆损失函数;
所述对正负样本相似度预测得分的间隔进行加权的损失函数
Figure 282933DEST_PATH_IMAGE043
,其公式表达为:
Figure 540739DEST_PATH_IMAGE044
(4)
其中,
Figure 767321DEST_PATH_IMAGE045
表示正负样本相似度预测得分的间隔进行加权的圆损失函数;
所述损失函数
Figure 477788DEST_PATH_IMAGE046
,其公式表达为:
Figure 189130DEST_PATH_IMAGE047
(5)
其中,
Figure 363759DEST_PATH_IMAGE048
表示结合哈希检索任务的特性的圆损失函数,
Figure 433346DEST_PATH_IMAGE049
是调节负样本最高相似度得分的超参数,
Figure 834372DEST_PATH_IMAGE050
是调节正样本最低相似度得分的超参数;
所述基于优化相似性矩阵的间隔进行加权的统一损失函数
Figure 444345DEST_PATH_IMAGE051
,其公式表达为:
Figure 676743DEST_PATH_IMAGE052
所述基于优化相似性矩阵的间隔进行加权的圆损失函数
Figure 854915DEST_PATH_IMAGE053
,其公式表达为:
Figure 805553DEST_PATH_IMAGE054
所述基于相似性矩阵的结合哈希检索任务特性的圆损失函数
Figure 219217DEST_PATH_IMAGE055
,其公式表达为:
Figure 243805DEST_PATH_IMAGE056
2.如权利要求1所述的基于人工智能的目标图像快速检索方法,其特征是,所述卷积神经网络为改进的卷积神经网络CNN-F;
其中,改进的卷积神经网络CNN-F,网络结构包括:
依次连接的第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第一全连接层、第二全连接层、第三全连接层和Tanh函数层;将第三全连接层的输出维度设定为K维。
3.如权利要求1所述的基于人工智能的目标图像快速检索方法,其特征是,所述训练后的卷积神经网络;训练步骤包括:
构建训练集和测试集;所述训练集和测试集,均包括:已知标签的图像;
将训练集已知标签的图像,输入到卷积神经网络中进行训练,卷积神经网络输出已知标签图像的哈希码;根据已知标签图像的哈希码与已知标签,构建损失函数,当损失函数达到最小值时,停止训练;
将测试集,输入到卷积神经网络中进行测试,当准确率超过设定阈值时,停止测试,认定当前卷积神经网络为训练后的卷积神经网络。
4.如权利要求1所述的方法所采用的基于人工智能的目标图像快速检索系统,其特征是,包括:
获取模块,其被配置为:获取模板图像和模板图像对应的若干个已知标签;
抽取模块,其被配置为:从目标图像数据库中,抽取待检测图像;
转换模块,其被配置为:将待检测图像和模板图像,均输入到训练后的卷积神经网络中,输出待检测图像的哈希码和模板图像的哈希码;
输出模块,其被配置为:基于待检测图像的哈希码和模板图像的哈希码之间的汉明距离,得到待检测图像与模板图像的相似度,汉明距离越小表示相似度越高,选择相似度高于设定阈值的一个或多个待检测图像作为检索结果输出。
CN202111259001.4A 2021-10-28 2021-10-28 基于人工智能的目标图像快速检索方法及系统 Active CN113704522B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111259001.4A CN113704522B (zh) 2021-10-28 2021-10-28 基于人工智能的目标图像快速检索方法及系统
US17/968,666 US20230134531A1 (en) 2021-10-28 2022-10-18 Method and system for rapid retrieval of target images based on artificial intelligence

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111259001.4A CN113704522B (zh) 2021-10-28 2021-10-28 基于人工智能的目标图像快速检索方法及系统

Publications (2)

Publication Number Publication Date
CN113704522A CN113704522A (zh) 2021-11-26
CN113704522B true CN113704522B (zh) 2022-02-18

Family

ID=78647226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111259001.4A Active CN113704522B (zh) 2021-10-28 2021-10-28 基于人工智能的目标图像快速检索方法及系统

Country Status (2)

Country Link
US (1) US20230134531A1 (zh)
CN (1) CN113704522B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115357747B (zh) * 2022-10-18 2024-03-26 山东建筑大学 一种基于序数哈希的图像检索方法及系统
CN116310425B (zh) * 2023-05-24 2023-09-26 山东大学 一种细粒度图像检索方法、系统、设备及存储介质
CN116680418B (zh) * 2023-07-27 2024-01-16 广州城市信息研究所有限公司 一种基于知识图谱的大数据检索方法和系统
CN117172321A (zh) * 2023-11-02 2023-12-05 中国科学院空天信息创新研究院 引入图神经网络的地理实体对齐方法、装置及电子设备
CN118038447A (zh) * 2024-02-04 2024-05-14 达州市农业科学研究院(达州市苎麻科学研究所、达州市薯类作物研究所) 一种黄花组培苗高效炼苗方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241317A (zh) * 2018-09-13 2019-01-18 北京工商大学 基于深度学习网络中度量损失的行人哈希检索方法
CN112035689A (zh) * 2020-08-17 2020-12-04 苏州智元昇动智能科技有限公司 一种基于视觉转语义网络的零样本图像哈希检索方法
CN112395438A (zh) * 2020-11-05 2021-02-23 华中科技大学 一种多标签图像的哈希码生成方法和系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6190041B2 (ja) * 2014-03-31 2017-08-30 株式会社日立国際電気 安否確認システム及び秘匿化データの類似検索方法
CN110688502B (zh) * 2019-09-09 2022-12-27 重庆邮电大学 一种基于深度哈希和量化的图像检索方法及存储介质
CN111428073B (zh) * 2020-03-31 2022-08-09 新疆大学 一种深度监督量化哈希的图像检索方法
CN113051417B (zh) * 2021-04-20 2021-11-16 南京理工大学 一种细粒度图像检索方法及系统
CN113377981B (zh) * 2021-06-29 2022-05-27 山东建筑大学 基于多任务深度哈希学习的大规模物流商品图像检索方法
CN113537384B (zh) * 2021-07-30 2023-11-28 中国海洋大学 基于通道注意力的哈希遥感图像检索方法、装置及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241317A (zh) * 2018-09-13 2019-01-18 北京工商大学 基于深度学习网络中度量损失的行人哈希检索方法
CN112035689A (zh) * 2020-08-17 2020-12-04 苏州智元昇动智能科技有限公司 一种基于视觉转语义网络的零样本图像哈希检索方法
CN112395438A (zh) * 2020-11-05 2021-02-23 华中科技大学 一种多标签图像的哈希码生成方法和系统

Also Published As

Publication number Publication date
CN113704522A (zh) 2021-11-26
US20230134531A1 (en) 2023-05-04

Similar Documents

Publication Publication Date Title
CN113704522B (zh) 基于人工智能的目标图像快速检索方法及系统
CN110633745B (zh) 一种基于人工智能的图像分类训练方法、装置及存储介质
JP6932395B2 (ja) イメージを分析するために、ディープラーニングネットワークに利用するためのトレーニングイメージに対するラベルリング信頼度を自動的に評価するための方法、及びこれを利用した信頼度評価装置
KR20200047307A (ko) 유용한 학습 데이터를 취사 선별하기 위한 cnn 기반 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
CN110175615B (zh) 模型训练方法、域自适应的视觉位置识别方法及装置
JP2020123330A (ja) ニューラルネットワーク学習に利用されるオートラベリングされたイメージのうちでラベル検収のためのサンプルイメージを取得する方法、及びそれを利用したサンプルイメージ取得装置
CN110929848B (zh) 基于多挑战感知学习模型的训练、跟踪方法
CN112016601B (zh) 基于知识图谱增强小样本视觉分类的网络模型构建方法
CN112766170B (zh) 基于簇类无人机图像的自适应分割检测方法及装置
CN115471739A (zh) 基于自监督对比学习的跨域遥感场景分类与检索方法
CN116310850B (zh) 基于改进型RetinaNet的遥感图像目标检测方法
CN118113855A (zh) 一种舰船试验训练场景问答方法、系统、设备和介质
CN115187772A (zh) 目标检测网络的训练及目标检测方法、装置及设备
US20240185590A1 (en) Method for training object detection model, object detection method and apparatus
CN113723558A (zh) 基于注意力机制的遥感图像小样本舰船检测方法
CN113705293A (zh) 图像场景的识别方法、装置、设备及可读存储介质
CN117079024A (zh) 融合不确定度估计和增量阶段判别的图像类增量学习算法
CN111832435A (zh) 基于迁移与弱监督的美丽预测方法、装置及存储介质
CN116958809A (zh) 一种特征库迁移的遥感小样本目标检测方法
CN114120287B (zh) 数据处理方法、装置、计算机设备和存储介质
CN112905832B (zh) 复杂背景细粒度图像检索系统及方法
CN111401519A (zh) 一种基于物体内和物体间相似性距离的深层神经网络无监督学习方法
CN114329006B (zh) 图像检索方法、装置、设备、计算机可读存储介质
CN116129198B (zh) 一种多域轮胎花纹图像分类方法、系统、介质及设备
CN117274717B (zh) 基于全局与局部视觉特征映射网络的弹道目标识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20211126

Assignee: Shandong Zhongrun Tiancheng Intelligent Technology Group Co.,Ltd.

Assignor: SHANDONG JIANZHU University

Contract record no.: X2023980030917

Denomination of invention: A method and system for fast target image retrieval based on artificial intelligence

Granted publication date: 20220218

License type: Common License

Record date: 20230117

EE01 Entry into force of recordation of patent licensing contract