CN112905832A - 复杂背景细粒度图像检索系统及方法 - Google Patents

复杂背景细粒度图像检索系统及方法 Download PDF

Info

Publication number
CN112905832A
CN112905832A CN202110492805.2A CN202110492805A CN112905832A CN 112905832 A CN112905832 A CN 112905832A CN 202110492805 A CN202110492805 A CN 202110492805A CN 112905832 A CN112905832 A CN 112905832A
Authority
CN
China
Prior art keywords
feature
image
layer
retrieval
embedded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110492805.2A
Other languages
English (en)
Other versions
CN112905832B (zh
Inventor
贾式武
孙自若
丁冬睿
逯天斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lingxin Huizhi Shandong Intelligent Technology Co ltd
Original Assignee
Guangdong Zhongju Artificial Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Zhongju Artificial Intelligence Technology Co ltd filed Critical Guangdong Zhongju Artificial Intelligence Technology Co ltd
Priority to CN202110492805.2A priority Critical patent/CN112905832B/zh
Publication of CN112905832A publication Critical patent/CN112905832A/zh
Application granted granted Critical
Publication of CN112905832B publication Critical patent/CN112905832B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种复杂背景细粒度图像检索系统和方法。该系统包括:卷积神经网络,用于提取待处理图像的N层特征图;细节增强模块,与第(N‑1)层卷积层连接,得到n个子嵌入特征,计算n个分类学习损失;第一特征分支,与第(N‑1)层卷积层连接,用于生成第一嵌入特征,计算第一度量学习损失;第二特征分支,与第N层卷积层连接,用于生成第二嵌入特征,计算第(n+1)个ID Loss和第二Triplet Loss;特征融合模块,与第一特征分支和第二特征分支连接,用于将第一嵌入特征和第二嵌入特征进行融合。本发明对图片进行背景去除,并利用细节增强模块挖掘图片的细节信息,更好地应对细粒度识别场景。

Description

复杂背景细粒度图像检索系统及方法
技术领域
本发明实施例涉及图像检索技术领域,尤其涉及一种复杂背景细粒度图像检索系统和方法。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
复杂背景下的复杂背景细粒度图像检索是指在具有复杂背景的干扰下,可以精确地检索细粒度图像的技术。如今,很多情况下会利用机器人进行真实环境下的图片采集,而通过机器人双目摄像头在真实环境下采集图片,往往存在着较为复杂的背景信息对识别产生了很大影响。而如何减少背景影响,同时又可以挖掘细粒度图片的细节信息,做到细粒度图片的精确检索是一个难题。使用人工标注背景前景的方式极大的增加了人工成本,所以需要一些弱监督方法,在仅有图片级别标注的情况下,实现背景的去除。同时针对细粒度检索存在的类间差异小类内差异大问题。这里类间差异小指的是在细粒度任务中,有些类之间存在相似性,比如不同型号的手机往往在视觉上比较相似,而有些类内则存在差异大的问题,比如一部手机的亮屏和不亮屏在视觉上往往不太相似,所以需要检索模型挖掘更多的辨别能力强的细节信息用于细粒度检索。
在相关领域中,还没有专门针对复杂背景下的复杂背景细粒度图像检索问题的技术,此技术可以嵌入到机器人视觉平台中,缓解机器人双目摄像头采集到的图片存在的复杂背景问题,并作进一步的细粒度图像分析,提高机器人视觉平台应对真实环境的能力。
发明内容
本发明提供一种复杂背景细粒度图像检索系统和方法,以解决现有技术中存在的上述问题。
第一方面,本发明实施例提供了一种复杂背景细粒度图像检索系统。该系统包括:
卷积神经网络,用于接收待处理图像,并提取所述待处理图像的N层特征图,其中,所述卷积神经网络包括N层卷积层,第(N-1)层卷积层输出所述待处理图像的第(N-1)层特征图,第N层卷积层输出所述待处理图像的第N层特征图,N为大于或等于3的整数;
细节增强模块,与所述第(N-1)层卷积层连接,用于将所述第(N-1)层特征图切分为n个子特征图,对所述n个子特征图进行特征聚合,得到n个子嵌入特征;并基于所述n个子特征图预测所述待处理图像的类别,计算n个分类学习损失(ID Loss),其中,n为大于1的整数;
第一特征分支,与所述第(N-1)层卷积层连接,用于对所述第(N-1)层特征图进行特征聚合,生成第一嵌入特征;并基于所述第(N-1)层特征图,计算第一度量学习损失(Triplet Loss);
第二特征分支,与所述第N层卷积层连接,用于对所述第N层特征图进行特征聚合,生成第二嵌入特征;并基于所述第N层特征图预测所述待处理图像的分类,计算第(n+1)个ID Loss和第二Triplet Loss;
特征融合模块,与所述第一特征分支和第二特征分支连接,用于将所述第一嵌入特征和第二嵌入特征进行融合,得到融合嵌入特征;
其中,所述卷积神经网络和所述第二特征分支构成的系统能够复用为去背景系统,用于对所述接收待处理图像进行背景去除。
在一实施例中,所述细节增强模块包括:
切分模块,与所述第(N-1)层卷积层连接,用于将所述第(N-1)层特征图切分为所述n个子特征图;
n个广义平均化池(Generalized Mean pooling,GeM),均与所述切分模块连接,其中,第i个子特征图输入第i个GeM,所述第i个GeM用于对所述第i个子特征图进行特征聚合,得到第i个子嵌入特征;
n个批归一化(BatchNorm,BN)层,其中,第i个BN层与第i个GeM连接,用于对所述第i个子嵌入特征进行批归一化,得到归一化后的第i个子嵌入特征;
n个全连接层(Fully Connected layer,FC),其中,第i个FC与所述第i个BN层连接,用于预测所述待处理图像的类别,得到所述待处理图像的第i个预测类别;
n个ID Loss计算模块,其中,第i个ID Loss计算模块与所述第i个FC连接,用于根据所述待处理图像的标注类别和第i个预测类别,计算第i个ID Loss;
其中,i=1,2,...n。
在一实施例中,所述第一特征分支包括:
第(n+1)个GeM,与所述第(N-1)层卷积层连接,用于对所述第(N-1)层特征图进行特征聚合,生成所述第一嵌入特征;
第一Triplet Loss计算模块,与所述第(n+1)个GeM连接,用于计算所述第一Triplet Loss。
在一实施例中,所述第二特征分支包括:
第(n+2)个GeM,与所述第N层卷积层连接,用于对所述第N层特征图进行特征聚合,生成第N层嵌入特征;
第(n+1)个BN层,与所述第(n+2)个GeM连接,用于对所述第N层嵌入特征进行批归一化,生成所述第二嵌入特征;
第(n+1)个FC层,与所述第(n+1)个BN层连接,用于预测所述第二嵌入特征的类别,得到所述待处理图像的第(n+1)个预测类别;
第(n+1)个ID Loss计算模块,与所述第(n+1)个FC层连接,用于根据所述待处理图像的标注类别和第(n+1)个预测类别,计算所述第(n+1)个ID Loss;
第二Triplet Loss计算模块,与所述第(n+2)个GeM连接,用于计算所述第二Triplet Loss。
在一实施例中,所述特征融合模块与所述第一特征分支的第(n+1)个GeM和所述第二特征分支的第(n+1)个BN层连接,所述特征融合模块是用于:
将所述第一嵌入特征进行二范数L2标准化,得到第一标准化嵌入向量;
将所述第二嵌入特征进行L2标准化,得到第二标准化嵌入向量;
将所述第一标准化嵌入向量和所述第二标准化嵌入向量进行融合,得到所述融合嵌入特征。
在一实施例中,所述卷积神经网络采用残差网络resnet50卷积神经网络。
第二方面,本发明实施例还提供了一种复杂背景细粒度图像检索方法。该方法包括:
S10:获取训练图像集,其中,所述训练图像集中包括多个训练图像;对所述多个训练图像进行图片级类别标注和预处理;
S20:构建如权利要求1-6中任意一项所述的复杂背景细粒度图像检索系统;
S30:以所述预处理后的多个训练图像为训练集,对所述复杂背景细粒度图像检索系统进行训练;
S40:获取质询图像和检索图像集,其中,所述检索图像集中包括多个检索图像;对所述质询图像和多个检索图像进行预处理;
S50:将所述质询图像输入训练好的复杂背景细粒度图像检索系统,得到所述质询图像的融合嵌入特征;依次将每个检索图像输入所述训练好的复杂背景细粒度图像检索系统,得到所述每个检索图像的融合嵌入特征;
S60:依次计算所述质询图像的融合嵌入特征与每个检索图像的融合嵌入特征之间的距离,得到多个距离值;将符合预定条件的至少一个距离值对应的检索图像作为所述质询图像的检索结果。
在一实施例中,在步骤S10和S40中,所述预处理包括基于弱监督技术的背景去除,所述背景去除包括如下步骤:
S110:将所述卷积神经网络和所述第二特征分支构成的系统复用为去背景系统;以标注后的多个训练图像为训练集,利用度量学习和分类学习的多任务学习机制对所述去背景系统进行训练;
S120:将待预处理图片输入所述去背景系统,获取所述待预处理图片的最后一层特征图;将所述最后一层特征图的所有通道的权重累加,获得所述待预处理图片的热力响应图,其中,权重较大,图像内容是前景的几率越大;
S130:根据所述热力响应图,设置前景阈值;基于所述热力响应图和前景阈值,在热力响应图中生成包围权重最大的区域的检测框;将所述检测框扩展至所述待预处理图像的尺寸,剪切所述检测框以外的区域。
在一实施例中,在步骤S30中:
对所述复杂背景细粒度图像检索系统进行训练之前,对所述去背景系统中的网络参数进行重置;
在对所述复杂背景细粒度图像检索系统的训练中,将所述n个ID Loss、第(n+1)个ID Loss、第一Triplet Loss和第二Triplet Loss之和作为总的损失函数,利用反向传播算法对所述复杂背景细粒度图像检索系统的网络参数进行优化。
在一实施例中,在步骤S60中,所述将符合预定条件的至少一个距离值对应的检索图像作为所述质询图像的检索结果,包括:
按照相似度对所述多个检索图像进行排序,其中,所述距离用于度量图像之间的相似度,距离值越大,相似度越大;
将与所述质询图像相似度最高的至少一个检索图像作为所述质询图像的检索结果。
第三方面,本发明实施例还提供了一种计算机设备。该设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现本发明实施例提供的任一复杂背景细粒度图像检索方法。
第四方面,本发明实施例还提供了一种存储介质,其上存储有计算机可读的程序,该程序被执行时实现本发明实施例提供的任一复杂背景细粒度图像检索方法。
本发明的有益效果为:
1. 本发明提供基于机器人视觉平台的复杂背景细粒度图像检索系统和方法,在人工智能基础上设计和实现,通过人工智能技术实现对机器人视觉平台采集的具有复杂背景的现实世界图片进行背景去除,同时基于卷积神经网络获取图片特征,并利用细节增强模块挖掘图片的细节信息,更好地应对细粒度识别场景;
2. 通过对特征图进行切分,使网络更能去挖掘部分区域的细节特征,避免了因全局区域存在比较显而易见的区域而掩盖了局部特征,能够实现细节增强的效果,更好地应对细粒度图片的类间差异小类内差异大的问题;
3. 将细节增强模块设计在骨干网络的倒数第二层,这样可以利用后面一层的可学习参数对其矫正,且最终只利用全局特征便可获得很好的结果,避免基于局部信息容易过拟合而关注到错误的区域;
4. 对倒数第二层和最后一层的两组特征进行融合,可以使最终特征中包含更多的多尺度信息,更好的特征表示可以提升检索的性能;
5. 本系统和方法中仅需要最基本的图片级类别标签即可,无需额外标注,降低人力成本和时间成本;
6. 本系统结构直观,容易迁移与部署实现。
附图说明
图1为本发明实施例提供的一种复杂背景细粒度图像检索系统的结构示意图。
图2为本发明实施例提供的另一种复杂背景细粒度图像检索系统的结构示意图。
图3为本发明实施例提供的一种复杂背景细粒度图像检索方法的流程图。
图4为本发明实施例提供的基于弱监督技术的背景去除的流程示意图。
图5为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图与实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在相关技术中,还没有对机器人视觉平台下的复杂背景细粒度图片的检索技术,现有的方法简单实现了对普通场景下的图像检索,但对机器人视觉平台下针对复杂背景的细粒度图片的精确检索还尚有一段距离。
首先现在针对机器人视觉平台下的复杂背景处理,大多采用手工标记的方式,对前景和背景进行标注来训练一个检测网络用于检测前景和背景,造成了成本的上升。
此外,针对细粒度检索场景,辨别性强的细节特征是识别的关键,但是相关技术往往使用复杂的细节提取模块来获取细节特征,增加了计算的复杂性,同时一些方法引入关键点等信息,需要更多的人力资源,也带来了标注成本的增加。
实施例一
鉴于以上内容,本实施例提出一种复杂背景细粒度图像检索系统。该系统能够通过人工智能技术对机器人视觉平台采集的具有复杂背景的图片进行背景去除,同时基于卷积神经网络获取图片特征,并利用细节增强模块挖掘图片的细节信息,更好地应对细粒度识别场景。
图1为本发明实施例提供的一种复杂背景细粒度图像检索系统的结构示意图。该系统用于为生成良好的图像嵌入特征,为下一步进行图像检索提供基础。如图1所述,该系统包括:
卷积神经网络,用于接收待处理图像,并提取所述待处理图像的N层特征图,其中,所述卷积神经网络包括N层卷积层,第(N-1)层卷积层输出所述待处理图像的第(N-1)层特征图,第N层卷积层输出所述待处理图像的第N层特征图,N为大于或等于3的整数;
细节增强模块,与所述第(N-1)层卷积层连接,用于将所述第(N-1)层特征图切分为n个子特征图,对所述n个子特征图进行特征聚合,得到n个子嵌入特征;并基于所述n个子特征图预测所述待处理图像的类别,计算n个ID Loss,其中,n为大于1的整数;
第一特征分支,与所述第(N-1)层卷积层连接,用于对所述第(N-1)层特征图进行特征聚合,生成第一嵌入特征;并基于所述第(N-1)层特征图,计算第一Triplet Loss;
第二特征分支,与所述第N层卷积层连接,用于对所述第N层特征图进行特征聚合,生成第二嵌入特征;并基于所述第N层特征图预测所述待处理图像的分类,计算第(n+1)个ID Loss和第二Triplet Loss;
特征融合模块,与所述第一特征分支和第二特征分支连接,用于将所述第一嵌入特征和第二嵌入特征进行融合,得到融合嵌入特征;
其中,所述卷积神经网络和所述第二特征分支构成的系统能够复用为去背景系统,用于对所述接收待处理图像进行背景去除。
在一实施例中,所述细节增强模块包括:
切分模块,与所述第(N-1)层卷积层连接,用于将所述第(N-1)层特征图切分为所述n个子特征图;
n个GeM,均与所述切分模块连接,其中,第i个子特征图输入第i个GeM,所述第i个GeM用于对所述第i个子特征图进行特征聚合,得到第i个子嵌入特征;
n个BN层,其中,第i个BN层与第i个GeM连接,用于对所述第i个子嵌入特征进行批归一化,得到归一化后的第i个子嵌入特征;
n个FC,其中,第i个FC与所述第i个BN层连接,用于预测所述待处理图像的类别,得到所述待处理图像的第i个预测类别;
n个ID Loss计算模块,其中,第i个ID Loss计算模块与所述第i个FC连接,用于根据所述待处理图像的标注类别和第i个预测类别,计算第i个ID Loss;
其中,i=1,2,...n。
在一实施例中,所述第一特征分支包括:
第(n+1)个GeM,与所述第(N-1)层卷积层连接,用于对所述第(N-1)层特征图进行特征聚合,生成所述第一嵌入特征;
第一Triplet Loss计算模块,与所述第(n+1)个GeM连接,用于计算所述第一Triplet Loss;
在一实施例中,所述第二特征分支包括:
第(n+2)个GeM,与所述第N层卷积层连接,用于对所述第N层特征图进行特征聚合,生成第N层嵌入特征;
第(n+1)个BN层,与所述第(n+2)个GeM连接,用于对所述第N层嵌入特征进行批归一化,生成所述第二嵌入特征;
第(n+1)个FC层,与所述第(n+1)个BN层连接,用于预测所述第二嵌入特征的类别,得到所述待处理图像的第(n+1)个预测类别;
第(n+1)个ID Loss计算模块,与所述第(n+1)个FC层连接,用于根据所述待处理图像的标注类别和第(n+1)个预测类别,计算所述第(n+1)个ID Loss;
第二Triplet Loss计算模块,与所述第(n+2)个GeM连接,用于计算所述第二Triplet Loss。
在一实施例中,所述特征融合模块与所述第一特征分支的第(n+1)个GeM和所述第二特征分支的第(n+1)个BN层连接,所述特征融合模块是用于:
将所述第一嵌入特征进行二范数L2标准化,得到第一标准化嵌入向量;
将所述第二嵌入特征进行L2标准化,得到第二标准化嵌入向量;
将所述第一标准化嵌入向量和所述第二标准化嵌入向量进行融合,得到所述融合嵌入特征。
图2为本发明实施例提供的另一种复杂背景细粒度图像检索系统的结构示意图。图2中不仅显示了系统结构,还显示了各模块的部分输出。将卷积神经网络(即图2中的骨干网络)和第二特征分支(即图2中的S4分支)构成的模型称为基础模型,复杂背景细粒度图像检索系统是在基础模型的基础上增加了细节增强模块、第一特征分支(即图2中的S3分支)以及特征融合模块而形成的。如图2所示,复杂背景细粒度图像检索系统的结构设计及工作原理如下:
(一)基础模型设计
在本实施例中,使用比较成熟的多任务学习框架作为基础模型,通过一个残差网络resnet50卷积神经网络作为特征提取器,使用GeM作为特征聚合方式,将得到的特征计算度量学习损失,并对特征做BN操作后计算分类学习损失,利用度量学习和分类学习的多任务学习机制缓解类内差异大,类间差异小的问题。如图2所述,resnet系列的骨干网络通常为四层架构,包含四层卷积层;S3分支代表在骨干网络的第三层后分出来的分支,是对基础模型的扩展,用于提取第三层特征图;S4分支是骨干网络的第四层,是基础模型的原有的分支,用于提取第四层特征图。
检索系统运行时,首先,将原始图片输入到骨干网络进行特征提取。然后,使用GeM化将骨干网络的输出(也就是特征图)转化为向量(即上文中的“嵌入特征”),用此向量计算度量学习损失,也就是“三元组损失(Triplet loss)”,同时对其做批归一化,保证度量学习和分类学习的同步收敛。最后,得到标准化后的特征后计算分类损失,在训练中把分类损失和度量损失相加作为总损失,使用反向传播更新网络的参数。
需要说明的是,三元组损失即上文中的“度量学习损失”。在三元组损失中,图片分为锚图像(Anchor)、正例样本(Positive样本,与锚图像类别相同)和Negative样本(与锚图像类别不同)。三元组损失使得同类样本的positive样本更靠近Anchor,而不同类的样本Negative则远离Anchor,从而达到拉近同类距离推开异类的距离的目的。
(二)细节增强模块设计
在基础模型的基础上,针对细粒度检索的特点,需要挖掘出更多的具有辨别力的细节特征。因此,在本实施例中,设计了细节增强模块用于挖掘细节信息,同时通过特征融合模块进行多层特征融合。
具体来说,细节增强模块对resnet50倒数第二层得到的特征图进行条状切分,将得到的特征图在空间域上平分成大小相同的n份。然后,对平分后的块分别进行池化得到n个特征向量,将n个特征向量分别计算分类任务损失(ID loss)。通过将特征图分成多个小份,每个小份都是一个局部特征,用局部特征来做类别预测,将多个局部特征的分类损失和全局特征的多个损失的加和作为总的损失函数,利用反向传播算法对网络参数进行优化,从而使得网络基于图片的部分区域完成预测任务。
需要说明的是,在这一模型训练过程中,仅需要对训练集中的图片进行图片级的类别标注,操作简单,减少成本。同时,仅使用部分区域的时候,网络更能去挖掘该部分区域的细节特征。这是因为,在使用全局的特征时,可能存才某些比较显而易见的区域足以让网络去识别,因此网络不会去关注更多的细节,而通过切分为多个局部特征后,缺少了这些显而易见的区域,就迫使网络从局部区域中挖掘更多细节来进行识别,起到细节增强的作用。
在本实施例中,如图2所示,n可以取2,对倒数第二层的特征图在空间域上水平切分为2份,分别进行广义平均池化得到两组特征,两组特征分别经过一个BN层和一个FC,并最终计算分类类别(ID)损失函数,此处ID损失函数为SoftMax损失。BathNorm层用于保证度量学习损失和分类损失的同步收敛提升最终效果,FC+softmax激活函数用于输出每个类别的概率值。
以上操作均在骨干网络的倒数第二层进行,因此后面还有可学习的参数。这样做的好处是:基于局部信息容易过拟合,有可能关注到错误的区域;相比将切分操作设置在最后一层的做法,本申请将以上操作设置在倒数第二层,可以利用后面的可学习参数对其矫正,并且最终只利用全局特征便可获得更好的结果。
(三)特征融合模块设计
本实施例,在骨干网络的倒数第二层和最后一层后,分别进行全局广义池化,得到两组特征,并将这两组特征进行融合,得到最终的特征用于后续的图像检索阶段。
这两组特征都是图片的深度特征表示,但是深度不同,包含多尺度信息,融合这两个特征,可以使最终特征中包含更多的多尺度信息,更好的特征表示可以提升检索的性能。
(四)去背景系统的设计
在图2中,卷积神经网络(即骨干网络)和第二特征分支(即S4分支)构成基础模型。基础模型还可以单独复用为去背景系统,用来对复杂背景细粒度图像进行背景去除。这里的背景去除可理解为图像检索的之前的一个预处理操作,先将图片进行背景去除,只保留受关注的前景部分,然后再进行图像检索,可以提高检索的效率可准确度。
与复杂背景细粒度图像检索系统类似,本实施例中,通过模型训练的方式对去背景系统进行训练,利用训练好的模型可以去除图像的背景。模型训练和去除背景的具体过程将在实施例二中详细描述,更多的细节请参见实施例二。
值得注意的是,去背景系统的训练和前面提到的复杂背景细粒度图像检索系统的训练可以使用同一个训练集,且在两次训练中,只需要对训练集中的图像进行一次图片级类别标注,无需花费额外的人力成本和时间成本。但两次训练得到的网络参数是相互独立的,背景去除后,清空去背景系统中所有的网络参数,将基础模型作为复杂背景细粒度图像检索系统的一部分重新进行训练。
综上所述,本发明实施例提出的复杂背景细粒度图像检索系统具有以下有益效果:
1. 本系统是一种基于机器人视觉平台的复杂背景细粒度图像检索系统,在人工智能基础上设计和实现,通过人工智能技术实现对机器人视觉平台采集的具有复杂背景的现实世界图片进行背景去除,同时基于卷积神经网络获取图片特征,并利用细节增强模块挖掘图片的细节信息,更好地应对细粒度识别场景;
2. 通过对特征图进行切分,使网络更能去挖掘部分区域的细节特征,避免了因全局区域存在比较显而易见的区域而掩盖了局部特征,能够实现细节增强的效果,更好地应对细粒度图片的类间差异小类内差异大的问题;
3. 将细节增强模块设计在骨干网络的倒数第二层,这样可以利用后面一层的可学习参数对其矫正,且最终只利用全局特征便可获得很好的结果,避免基于局部信息容易过拟合而关注到错误的区域;
4. 对倒数第二层和最后一层的两组特征进行融合,可以使最终特征中包含更多的多尺度信息,更好的特征表示可以提升检索的性能;
5. 本系统仅需要最基本的图片级类别标签即可,无需额外标注,降低人力成本和时间成本;
6. 本系统结构直观,容易迁移与部署实现。
值得注意的是,上述装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例二
图3为本发明实施例提供的一种复杂背景细粒度图像检索方法的流程图。该方法的实现基于实施例一中的复杂背景细粒度图像检索系统,可以基于复杂背景细粒度图像检索系统输出的图像特征表示,检索到符合预定条件的图像。如图3所述,该方法包括步骤S10-S60。
S10:获取训练图像集,其中,所述训练图像集中包括多个训练图像;对所述多个训练图像进行图片级类别标注和预处理。
这里的数据来源于机器人视觉平台在真实环境下采集的物体图片,例如,一些数码设备、海底鱼类、陆地野生动物、地标建筑等各种各样的图片;而预处理包括弱监督去背景、随机擦除、标准化、随机旋转等。
S20:构建实施例一所述的任意一个复杂背景细粒度图像检索系统。
S30:以所述预处理后的多个训练图像为训练集,对所述复杂背景细粒度图像检索系统进行训练。
S40:获取质询图像和检索图像集,其中,所述检索图像集中包括多个检索图像;对所述质询图像和多个检索图像进行预处理。
S50:将所述质询图像输入训练好的复杂背景细粒度图像检索系统,得到所述质询图像的融合嵌入特征;依次将每个检索图像输入所述训练好的复杂背景细粒度图像检索系统,得到所述每个检索图像的融合嵌入特征。
S60:依次计算所述质询图像的融合嵌入特征与每个检索图像的融合嵌入特征之间的距离,得到多个距离值;将符合预定条件的至少一个距离值对应的检索图像作为所述质询图像的检索结果。
检索最重要的是获取特征表示,获取特征表示后,就是正常的计算距离(Distance)进行检索。通过复杂背景细粒度图像检索系统,可以把图片向量化,也就是对于每张图片可以获得它的特征表示。然后,可以使用合适的距离度量计算图片之间的相似度,距离越远越不相似,距离越近越相似;按照相似度进行排序,选取相似度最高的至少一个图像作为检索结果。
在一实施例中,在步骤S10和S40中,所述预处理包括基于弱监督技术的背景去除,所述背景去除包括如下步骤:
S110:将所述卷积神经网络和所述第二特征分支构成的系统复用为去背景系统;以标注后的多个训练图像为训练集,利用度量学习和分类学习的多任务学习机制对所述去背景系统进行训练;
S120:将待预处理图片输入所述去背景系统,获取所述待预处理图片的最后一层特征图;将所述最后一层特征图的所有通道的权重累加,获得所述待预处理图片的热力响应图,其中,权重较大,图像内容是前景的几率越大;
S130:根据所述热力响应图,设置前景阈值;基于所述热力响应图和前景阈值,在热力响应图中生成包围权重最大的区域的检测框;将所述检测框扩展至所述待预处理图像的尺寸,剪切所述检测框以外的区域。
本发明实施例中,基于弱监督技术的背景去除分为去背景模型训练、热力图获取和目标物体剪切三个阶段。
去背景模型训练阶段:首先利用机器人视觉平台采集的复杂背景图片,以及标注的图片级类别标签,训练去背景系统。即基于卷积神经网络,利用度量学习和分类学习的多任务学习机制训练一个模型,可以将这个模型称为“去背景模型”。其中,分类学习可以学习到具有辨识性的特征,而度量学习可以增加聚类性能,同时使用两种学习机制有利于检索性能的提升。
热力图获取阶段:将复杂背景图片输入训练好的去背景模型,获取模型的最后一层的特征图,将这个特征图所有通道的权重进行累加,此时便得到了对图片的热力响应图。其中,权重较大的地方,是前景的几率就比较大,而权重较小的地方是背景的概率就比较高。
具体来说,首先,将复杂背景图片输入到训练好的去背景模型中,得到一个多通道的特征图(简称为“多通道特征图”)。本模型使用深度卷积网络,网络的输出是一个和原始图片大小有关的多通道特征图。该多通道特征图一般表示为c*w*h的形式,其中,c表示多通道特征图的通道数目,通道是指卷积神经网络得到的特征图的通道,权重是每个通道的特征图上的数值,即将原始图片输入到训练好的去背景模型中获得的输出。然后,将多通道特征图的所有通道的权重进行累加,得到一个单通道特征图。例如,多通道特征图的大小为2048*16*16,这里的2048就是通道数,而16*16为每个通道的特征图的长和宽。得到多通道特征图之后,我们把所有通道的特征图的权重进行累加,此时,特征图的大小由2048*16*16变为16*16,得到了16*16的单通道特征图。单通道特征图上权重较大的地方一般是前景,而后景则权重较小,这个单通道特征图就可以作为热力响应图,用于下一步的目标物体剪切。
目标物体剪切阶段:根据获取的热力图,设定一个阈值。根据热力图和阈值,生成一个包围着权重最大的区域的检测框,然后将检测框扩展至原图大小,在原图上将图片剪切出来。
在一实施例中,在步骤S30中:
对所述复杂背景细粒度图像检索系统进行训练之前,对所述去背景系统中的网络参数进行重置;
在对所述复杂背景细粒度图像检索系统的训练中,将所述n个ID Loss、第(n+1)个ID Loss、第一Triplet Loss和第二Triplet Loss之和作为总的损失函数,利用反向传播算法对所述复杂背景细粒度图像检索系统的网络参数进行优化。
在一实施例中,在步骤S60中,所述将符合预定条件的至少一个距离值对应的检索图像作为所述质询图像的检索结果,包括:
按照相似度对所述多个检索图像进行排序,其中,所述距离用于度量图像之间的相似度,距离值越大,相似度越大;
将与所述质询图像相似度最高的至少一个检索图像作为所述质询图像的检索结果。
本发明实施例中,还将本申请的复杂背景细粒度图像检索方法在三个细粒度图像检索数据集上进行了验证,结果如下。可以看出,本申请的方法表现出了优异的检索性能。
(1)VehicleID数据集:
Figure 845379DEST_PATH_IMAGE001
(2)VeRi-776数据集:
Figure 762519DEST_PATH_IMAGE002
(3)VeRi-Wlid数据集:
Figure 479940DEST_PATH_IMAGE003
综上所述,本发明实施例提出的复杂背景细粒度图像检索方法具有以下有益效果:
1. 本方法是一种基于机器人视觉平台的复杂背景细粒度图像检索方法,在人工智能基础上设计和实现,通过人工智能技术实现对机器人视觉平台采集的具有复杂背景的现实世界图片进行背景去除,同时基于卷积神经网络获取图片特征,并利用细节增强模块挖掘图片的细节信息,更好地应对细粒度识别场景;
2. 通过对特征图进行切分,使网络更能去挖掘部分区域的细节特征,避免了因全局区域存在比较显而易见的区域而掩盖了局部特征,能够实现细节增强的效果,更好地应对细粒度图片的类间差异小类内差异大的问题;
3. 将细节增强模块设计在骨干网络的倒数第二层,这样可以利用后面一层的可学习参数对其矫正,且最终只利用全局特征便可获得很好的结果,避免基于局部信息容易过拟合而关注到错误的区域;
4. 对倒数第二层和最后一层的两组特征进行融合,可以使最终特征中包含更多的多尺度信息,更好的特征表示可以提升检索的性能;
5. 本方法中仅需要最基本的图片级类别标签即可,无需额外标注,降低人力成本和时间成本;
6. 本方法所用的系统结构直观,容易迁移与部署实现。
本发明实施例的复杂背景细粒度图像检索方法与实施例一中的复杂背景细粒度图像检索系统具有相同的技术原理和有益效果。未在本实施例中详尽描述的技术细节,请参照实施例一中的复杂背景细粒度图像检索系统。
实施例三
图5为本发明实施例提供的一种计算机设备的结构示意图。如图5所示,该设备包括处理器510和存储器520。处理器510的数量可以是一个或多个,图5中以一个处理器510为例。
存储器520作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的复杂背景细粒度图像检索方法的程序指令/模块。处理器510通过运行存储在存储器520中的软件程序、指令以及模块,实现上述复杂背景细粒度图像检索方法。
存储器520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器520可进一步包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实施例四
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以被设置为存储用于执行本发明任意实施例所提供的复杂背景细粒度图像检索方法的步骤的程序。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种复杂背景细粒度图像检索系统,其特征在于,包括:
卷积神经网络,用于接收待处理图像,并提取所述待处理图像的N层特征图,其中,所述卷积神经网络包括N层卷积层,第(N-1)层卷积层输出所述待处理图像的第(N-1)层特征图,第N层卷积层输出所述待处理图像的第N层特征图,N为大于或等于3的整数;
细节增强模块,与所述第(N-1)层卷积层连接,用于将所述第(N-1)层特征图切分为n个子特征图,对所述n个子特征图进行特征聚合,得到n个子嵌入特征;并基于所述n个子特征图预测所述待处理图像的类别,计算n个分类学习损失ID Loss,其中,n为大于1的整数;
第一特征分支,与所述第(N-1)层卷积层连接,用于对所述第(N-1)层特征图进行特征聚合,生成第一嵌入特征;并基于所述第(N-1)层特征图,计算第一度量学习损失TripletLoss;
第二特征分支,与所述第N层卷积层连接,用于对所述第N层特征图进行特征聚合,生成第二嵌入特征;并基于所述第N层特征图预测所述待处理图像的分类,计算第(n+1)个IDLoss和第二Triplet Loss;
特征融合模块,与所述第一特征分支和第二特征分支连接,用于将所述第一嵌入特征和第二嵌入特征进行融合,得到融合嵌入特征;
其中,所述卷积神经网络和所述第二特征分支构成的系统能够复用为去背景系统,用于对所述接收待处理图像进行背景去除。
2.如权利要求1所述的复杂背景细粒度图像检索系统,其特征在于,所述细节增强模块包括:
切分模块,与所述第(N-1)层卷积层连接,用于将所述第(N-1)层特征图切分为所述n个子特征图;
n个广义平均化池GeM,均与所述切分模块连接,其中,第i个子特征图输入第i个GeM,所述第i个GeM用于对所述第i个子特征图进行特征聚合,得到第i个子嵌入特征;
n个批归一化BN层,其中,第i个BN层与第i个GeM连接,用于对所述第i个子嵌入特征进行批归一化,得到归一化后的第i个子嵌入特征;
n个全连接层FC,其中,第i个FC与所述第i个BN层连接,用于预测所述待处理图像的类别,得到所述待处理图像的第i个预测类别;
n个ID Loss计算模块,其中,第i个ID Loss计算模块与所述第i个FC连接,用于根据所述待处理图像的标注类别和第i个预测类别,计算第i个ID Loss;
其中,i=1,2,...n。
3.如权利要求2所述的复杂背景细粒度图像检索系统,其特征在于,所述第一特征分支包括:
第(n+1)个GeM,与所述第(N-1)层卷积层连接,用于对所述第(N-1)层特征图进行特征聚合,生成所述第一嵌入特征;
第一Triplet Loss计算模块,与所述第(n+1)个GeM连接,用于计算所述第一TripletLoss。
4.如权利要求3所述的复杂背景细粒度图像检索系统,其特征在于,所述第二特征分支包括:
第(n+2)个GeM,与所述第N层卷积层连接,用于对所述第N层特征图进行特征聚合,生成第N层嵌入特征;
第(n+1)个BN层,与所述第(n+2)个GeM连接,用于对所述第N层嵌入特征进行批归一化,生成所述第二嵌入特征;
第(n+1)个FC层,与所述第(n+1)个BN层连接,用于预测所述第二嵌入特征的类别,得到所述待处理图像的第(n+1)个预测类别;
第(n+1)个ID Loss计算模块,与所述第(n+1)个FC层连接,用于根据所述待处理图像的标注类别和第(n+1)个预测类别,计算所述第(n+1)个ID Loss;
第二Triplet Loss计算模块,与所述第(n+2)个GeM连接,用于计算所述第二TripletLoss。
5.如权利要求4所述的复杂背景细粒度图像检索系统,其特征在于,所述特征融合模块与所述第一特征分支的第(n+1)个GeM和所述第二特征分支的第(n+1)个BN层连接,所述特征融合模块是用于:
将所述第一嵌入特征进行二范数L2标准化,得到第一标准化嵌入向量;
将所述第二嵌入特征进行L2标准化,得到第二标准化嵌入向量;
将所述第一标准化嵌入向量和所述第二标准化嵌入向量进行融合,得到所述融合嵌入特征。
6.如权利要求5所述的复杂背景细粒度图像检索系统,其特征在于,所述卷积神经网络采用残差网络resnet50卷积神经网络。
7.一种复杂背景细粒度图像检索方法,其特征在于,包括:
S10:获取训练图像集,其中,所述训练图像集中包括多个训练图像;对所述多个训练图像进行图片级类别标注和预处理;
S20:构建如权利要求1-6中任意一项所述的复杂背景细粒度图像检索系统;
S30:以所述预处理后的多个训练图像为训练集,对所述复杂背景细粒度图像检索系统进行训练;
S40:获取质询图像和检索图像集,其中,所述检索图像集中包括多个检索图像;对所述质询图像和多个检索图像进行预处理;
S50:将所述质询图像输入训练好的复杂背景细粒度图像检索系统,得到所述质询图像的融合嵌入特征;依次将每个检索图像输入所述训练好的复杂背景细粒度图像检索系统,得到所述每个检索图像的融合嵌入特征;
S60:依次计算所述质询图像的融合嵌入特征与每个检索图像的融合嵌入特征之间的距离,得到多个距离值;将符合预定条件的至少一个距离值对应的检索图像作为所述质询图像的检索结果。
8.如权利要求7所述的复杂背景细粒度图像检索方法,其特征在于,在步骤S10和S40中,所述预处理包括基于弱监督技术的背景去除,所述背景去除包括如下步骤:
S110:将所述卷积神经网络和所述第二特征分支构成的系统复用为去背景系统;以标注后的多个训练图像为训练集,利用度量学习和分类学习的多任务学习机制对所述去背景系统进行训练;
S120:将待预处理图片输入所述去背景系统,获取所述待预处理图片的最后一层特征图;将所述最后一层特征图的所有通道的权重累加,获得所述待预处理图片的热力响应图,其中,权重较大,图像内容是前景的几率越大;
S130:根据所述热力响应图,设置前景阈值;基于所述热力响应图和前景阈值,在热力响应图中生成包围权重最大的区域的检测框;将所述检测框扩展至所述待预处理图像的尺寸,剪切所述检测框以外的区域。
9.如权利要求8所述的复杂背景细粒度图像检索方法,其特征在于,在步骤S30中:
对所述复杂背景细粒度图像检索系统进行训练之前,对所述去背景系统中的网络参数进行重置;
在对所述复杂背景细粒度图像检索系统的训练中,将所述n个ID Loss、第(n+1)个IDLoss、第一Triplet Loss和第二Triplet Loss之和作为总的损失函数,利用反向传播算法对所述复杂背景细粒度图像检索系统的网络参数进行优化。
10.如权利要求9所述的复杂背景细粒度图像检索方法,其特征在于,在步骤S60中,所述将符合预定条件的至少一个距离值对应的检索图像作为所述质询图像的检索结果,包括:
按照相似度对所述多个检索图像进行排序,其中,所述距离用于度量图像之间的相似度,距离值越大,相似度越大;
将与所述质询图像相似度最高的至少一个检索图像作为所述质询图像的检索结果。
CN202110492805.2A 2021-05-07 2021-05-07 复杂背景细粒度图像检索系统及方法 Active CN112905832B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110492805.2A CN112905832B (zh) 2021-05-07 2021-05-07 复杂背景细粒度图像检索系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110492805.2A CN112905832B (zh) 2021-05-07 2021-05-07 复杂背景细粒度图像检索系统及方法

Publications (2)

Publication Number Publication Date
CN112905832A true CN112905832A (zh) 2021-06-04
CN112905832B CN112905832B (zh) 2021-08-03

Family

ID=76109025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110492805.2A Active CN112905832B (zh) 2021-05-07 2021-05-07 复杂背景细粒度图像检索系统及方法

Country Status (1)

Country Link
CN (1) CN112905832B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117274578A (zh) * 2023-11-23 2023-12-22 武汉工程大学 基于逻辑元变换乘积量化的细粒度图像检索方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108737750A (zh) * 2018-06-07 2018-11-02 北京旷视科技有限公司 图像处理方法、装置及电子设备
CN110363233A (zh) * 2019-06-28 2019-10-22 西安交通大学 一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法及系统
CN111444889A (zh) * 2020-04-30 2020-07-24 南京大学 基于多级条件影响的卷积神经网络的细粒度动作检测方法
CN111625667A (zh) * 2020-05-18 2020-09-04 北京工商大学 一种基于复杂背景图像的三维模型跨域检索方法及系统
CN112257758A (zh) * 2020-09-27 2021-01-22 浙江大华技术股份有限公司 细粒度图像识别方法、卷积神经网络及其训练方法
US10962939B1 (en) * 2017-04-18 2021-03-30 Amazon Technologies, Inc. Fine-grain content moderation to restrict images

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10962939B1 (en) * 2017-04-18 2021-03-30 Amazon Technologies, Inc. Fine-grain content moderation to restrict images
CN108737750A (zh) * 2018-06-07 2018-11-02 北京旷视科技有限公司 图像处理方法、装置及电子设备
CN110363233A (zh) * 2019-06-28 2019-10-22 西安交通大学 一种基于块检测器及特征融合的卷积神经网络的细粒度图像识别方法及系统
CN111444889A (zh) * 2020-04-30 2020-07-24 南京大学 基于多级条件影响的卷积神经网络的细粒度动作检测方法
CN111625667A (zh) * 2020-05-18 2020-09-04 北京工商大学 一种基于复杂背景图像的三维模型跨域检索方法及系统
CN112257758A (zh) * 2020-09-27 2021-01-22 浙江大华技术股份有限公司 细粒度图像识别方法、卷积神经网络及其训练方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117274578A (zh) * 2023-11-23 2023-12-22 武汉工程大学 基于逻辑元变换乘积量化的细粒度图像检索方法及系统
CN117274578B (zh) * 2023-11-23 2024-02-02 武汉工程大学 基于逻辑元变换乘积量化的细粒度图像检索方法及系统

Also Published As

Publication number Publication date
CN112905832B (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
US10242289B2 (en) Method for analysing media content
EP3690721A1 (en) Method for recognizing face using multiple patch combination based on deep neural network
CN111311475A (zh) 检测模型训练方法、装置、存储介质和计算机设备
CN114419570B (zh) 一种点云数据识别方法、装置、电子设备及存储介质
CN104915351A (zh) 图片排序方法及终端
CN110162657B (zh) 一种基于高层语义特征和颜色特征的图像检索方法及系统
CN112651364B (zh) 图像处理方法、装置、电子设备及存储介质
CN111652181B (zh) 目标跟踪方法、装置及电子设备
CN113704522A (zh) 基于人工智能的目标图像快速检索方法及系统
CN113420827A (zh) 语义分割网络训练和图像语义分割方法、装置及设备
CN112905832B (zh) 复杂背景细粒度图像检索系统及方法
CN116912796A (zh) 一种基于新型动态级联YOLOv8的自动驾驶目标识别方法及装置
CN112200862B (zh) 目标检测模型的训练方法、目标检测方法及装置
CN111291785A (zh) 目标检测的方法、装置、设备及存储介质
CN116824330A (zh) 一种基于深度学习的小样本跨域目标检测方法
CN116206201A (zh) 一种监督目标检测识别方法、装置、设备及存储介质
CN116168438A (zh) 关键点检测方法、装置及电子设备
CN115512353A (zh) 一种遥感图像标注方法、装置及设备
CN113780066B (zh) 行人重识别方法、装置、电子设备及可读存储介质
CN115063831A (zh) 一种高性能行人检索与重识别方法及装置
CN111382628B (zh) 同行判定方法及装置
CN114625984B (zh) 兴趣点验证方法、装置、电子设备及存储介质
CN117636072B (zh) 基于难度感知数据增强与标签矫正的图像分类方法及系统
CN117612231B (zh) 人脸检测方法、装置、电子设备和存储介质
CN113221920B (zh) 图像识别方法、装置、设备、存储介质以及计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zhao Yue

Inventor after: Jia Shiwu

Inventor after: Sun Ziruo

Inventor after: Ding Dongrui

Inventor after: Lu Tianbin

Inventor before: Jia Shiwu

Inventor before: Sun Ziruo

Inventor before: Ding Dongrui

Inventor before: Lu Tianbin

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240207

Address after: Room 1609, 16th Floor, Building 2, Xinsheng Building, Northwest Corner of Xinluo Street and Yingxiu Road Intersection, Shunhua Road Street, Jinan Area, China (Shandong) Pilot Free Trade Zone, Jinan City, Shandong Province, 250014

Patentee after: Lingxin Huizhi (Shandong) Intelligent Technology Co.,Ltd.

Country or region after: China

Address before: Room 156-8, No.5 Lingbin Road, Dangan Town, Xiangzhou District, Zhuhai City, Guangdong Province 519000

Patentee before: Guangdong Zhongju Artificial Intelligence Technology Co.,Ltd.

Country or region before: China