CN111522985B - 基于深浅层特征提取与融合的古董艺术品图像检索方法 - Google Patents

基于深浅层特征提取与融合的古董艺术品图像检索方法 Download PDF

Info

Publication number
CN111522985B
CN111522985B CN202010318057.1A CN202010318057A CN111522985B CN 111522985 B CN111522985 B CN 111522985B CN 202010318057 A CN202010318057 A CN 202010318057A CN 111522985 B CN111522985 B CN 111522985B
Authority
CN
China
Prior art keywords
image
retrieved
sample
feature extraction
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010318057.1A
Other languages
English (en)
Other versions
CN111522985A (zh
Inventor
蒋齐琛
周圆
王中恕
闫倩
徐冬梅
罗祖亮
祁煜琨
郑洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yiyuan Digital Beijing Big Data Technology Co ltd
Yiyuan Digital Beijing Technology Group Co ltd
Original Assignee
Epailive Auction Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Epailive Auction Beijing Co ltd filed Critical Epailive Auction Beijing Co ltd
Priority to CN202010318057.1A priority Critical patent/CN111522985B/zh
Publication of CN111522985A publication Critical patent/CN111522985A/zh
Application granted granted Critical
Publication of CN111522985B publication Critical patent/CN111522985B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种基于深浅层特征提取与融合的古董艺术品图像检索方法,本发明以“查询集”表示使用者的查询样本,“待检索集”表示被检索的图像库数据集,本发明内容主要分为深浅层特征提取与特征拼接融合两部分,并通过三元组损失函数约束,完成特定的以图搜图目的。由于本发明所涉及领域公开数据集极为少见。因此,使用数据集为自行人工标注的古董艺术品图像检索数据。包含21类古董艺术品分类,涉及碑帖拓片、名人手迹、唐卡、佛像、玉器、石器、竹木牙角匏器、贝器、珐琅、料器、家具、文房用具、古钱币、古乐器等共2000000张图片,其中训练集和测试集的数据比例为4:1。使用SGD优化器对网络训练过程进行优化,动量为0.9。

Description

基于深浅层特征提取与融合的古董艺术品图像检索方法
技术领域
本发明属于图像检索领域,更具体地,涉及一种基于卷积神经网络进行特征提取与融合的图像检索方法,用于提升以图搜图的检索精度。
背景技术
随着互联网技术的快速发展,多媒体资源的迅速增长,互联网内容逐渐从主流的文本信息向各类多媒体数据发展。尤其是近几年电子设备的不断更新,成像器材的不断简化与更新,图像数据资源的迅速扩增,使得人们对图像高层语义的表达、理解、存储和检索变得更加困难。在大数据背景下,如何从海量图片中及时准确的检索感兴趣的有价值信息,快速找到目标图片成为了目前亟待解决的重要问题之一。因此,实现对目标图像信息的高效检索成为了当下关注的一个重要研究方向。图像检索最初的研究方向为基于文本的图像检索,但是由于文本描述的不全面性与图片标注的复杂性,图像检索向基于内容的图像检索,即以图搜图等方向不断发展。
近年来,随着相关方法的研究以及以深度学习为主要依托的计算机视觉技术不断发展,图像搜索技术日渐成熟,但是在精确度、即时性、应用范围等问题上仍旧存在较大的发展空间。
当代人们愈加重视文化与精神文明追求,由此带来的文物收藏热潮日渐显现了该领域图像检索的重要性。但与百度的纷杂图片,淘宝的电商图片等领域的搜索不同,古董艺术品图像检索有着更鲜明的特点。首先是搜索使用者很多是相关方面的专家,或者爱好者,因此对搜索精准度要求较高;其次相较于传统搜索引擎、电商平台等,行业特点使得古董艺术品图像检索的市场需求相对较小,从而现有相关方法的研究并不十分成熟;再者是被搜索物具有较大相似性,例如两个相似的古董艺术品,从视觉上也许只是纹理有少许区别,这样的细微之差,增加了精准搜索的难度以及应用复杂度。
发明内容
为了提高图像在古董艺术品领域的检索精度,本发明提供一种基于深浅层特征提取与融合的图像检索方法。该方法能实现在古董艺术品领域有效的图像检索功能,准确度较高,具备应用价值。且在国内外资料中,针对该领域特点的图像检索方法较少,因此本方法补充了现有技术的空白。
为了解决上述技术问题,本发明提供如下技术方案:
一种基于深浅层特征提取与融合的古董艺术品图像检索方法,,包括以下步骤:
步骤1,深浅层特征提取:使用深层语义特征提取及浅层特征提取两种特征提取网络分别对输入图像进行特征提取,对于每一张输入的查询集与检索集图像,同时经过上下两支特征提取网络分别进行浅层特征的提取与深层特征的编码映射,均获得深层语义特征及浅层特征;
步骤2,特征拼接融合:使用了一个特征拼接“concate”层,直接将深层语义特征及浅层特征表示在通道维度上进行拼接,即输入512×14×14大小与128×14×14大小的两种特征表示,经过特征拼接,输出一个640维的14×14大小的特征表示之后,将进行拼接融合后的综合特征表示,进行降维,得到编码后的查询图像与待检索图像的综合特征;
步骤3,损失函数约束:三元组损失的目标是缩小查询图像特征和待检索库中的正例图像样本特征之间的距离,同时,加大查询图像特征和待检索库中的负例图像样本特征之间的距离,目标如下:
公式1:
Figure GDA0004069645180000021
公式2:
Figure GDA0004069645180000022
公式1及公式2中,
Figure GDA0004069645180000023
为第i组的查询图像样本,
Figure GDA0004069645180000024
Figure GDA0004069645180000025
分别为待检索图像中正样本和待检索图像负样本,
Figure GDA0004069645180000026
Figure GDA0004069645180000027
分别为待检索图像中正样本和待检索图像负样本的特征,a为最小间隔,因此输入为查询图像样本,待检索图像正样本,待检索图像负样本组成的三元组,最后的损失函数,为公
式3:
Figure GDA0004069645180000028
由公式3可以看出,当查询图像样本特征和待检索图像负样本之间的距离较小,和待检索图像正样本之间的距离较大时,L的值会随之增大,减小损失函数的目标将会引导神经网络带来更加理想的表现;
在被搜索域样本选择时,选择较难分辨的样本,其公式如下:
公式4:
Figure GDA0004069645180000029
公式5:
Figure GDA00040696451800000210
选择距离查询图像样本最远的正样本和距离最近的负样本作为三元组的输入,对于神经网络而言,如果可以区分“最不像的正样本”和“最相似的负样本”,则表明网络有着较高的区分性;
步骤4,特征匹配:得到查询图像与待检索数据库中图片的相似性度量模型,具体过程如下:
首先使用待检索集图像特征提取网络对数据库中待检索图像进行特征提取与编码,并对提取到的特征进行保存;当输入查询图像时,使用查询图像特征提取网络对其进行特征提取并产生相同维度的查询图像特征,然后将查询图像的特征与数据库中的待检索集图像特征进行相似性度量;最后,根据相似性度量返回排序结果,实现以图搜图任务。
上述中,所述步骤1中,所述深层语义特征提取,是指查询集与待检索集图像的深层语义特征提取网络中的卷积层与Vgg16的前四组卷积层具有相同的网络配置,即对于每一张经过预处理的3维224×224大小的输入图片,其输出为512维14×14大小的特征矩阵;所述浅层特征提取网络仅有两层卷积层构成,将3维224×224大小的输入图片映射为128维14×14大小的浅层特征表示。
上述中,所述步骤1中,还包括为了增强查询集与待检索集之间的语义联系,加快网络的收敛速度,本发明对查询集与待检索集的两组特征提取网络使用部分权重共享约束设置。
本发明中微调和迁移学习作为训练小样本量的常用方法,在深度学习任务中有着较好的表现。而众所周知,较大的样本量可以带来更全面、充分、具有普适性的特征。ImageNet是计算机视觉领域的大型数据集,其数据来源广泛,种类众多,图片样式繁杂,包含常见物体种类,在其基础上训练得到的模型参数有着更广的适用性,适合作为网络微调的初始参数。本发明中所使用的数据集数量少、分类多,单独训练难以获得理想效果,综合本任务图像检索的特点,本步骤1中的Vgg16网络部分并非重新训练,而是使用在ImageNet数据集中训练好的预训练权重参数,在此基础上用本实验图像数据进行网络微调,得到更好的网络模型参数。
附图说明
图1是以绘画为例的本发明方法整体模型示意图。
图2是以书法为例的本发明方法整体模型示意图。
图3是以碑帖拓片为例的本发明方法整体模型示意图。
图4是以唐卡为例的本发明方法整体模型示意图。
图5是以佛像为例的本发明方法整体模型示意图。
图6是以名人手迹为例的本发明方法整体模型示意图。
图7是以金属器为例的本发明方法整体模型示意图。
图8是以青铜器为例的本发明方法整体模型示意图。
图9是以珐琅为例的本发明方法整体模型示意图。
图10是以料器为例的本发明方法整体模型示意图。
图11是以紫砂器为例的本发明方法整体模型示意图。
图12是以漆器为例的本发明方法整体模型示意图。
图13是以家具为例的本发明方法整体模型示意图。
图14是以文房用具为例的本发明方法整体模型示意图。
图15是以竹木牙角匏器为例的本发明方法整体模型示意图。
图16是以玉器为例的本发明方法整体模型示意图。
图17是以石器为例的本发明方法整体模型示意图。
图18是以骨器为例的本发明方法整体模型示意图。
图19是以贝器为例的本发明方法整体模型示意图。
图20是以古钱币为例的本发明方法整体模型示意图。
图21是以古乐器为例的本发明方法整体模型示意图。
图22是本发明方法中三元组排序映射过程示意图。
图23是本发明以书画为例检索效果展示图。
图24是本发明以书法为例检索效果展示图。
图25是本发明以碑帖拓片为例检索效果展示图。
图26是本发明以唐卡为例检索效果展示图。
图27是本发明以佛像为例检索效果展示图。
图28是本发明以名人手迹为例检索效果展示图。
图29是本发明以金属器为例检索效果展示图。
图30是本发明以青铜器为例检索效果展示图。
图31是本发明以珐琅为例检索效果展示图。
图32是本发明以紫砂器为例检索效果展示图。
图33是本发明以料器为例检索效果展示图。
图34是本发明以漆器为例检索效果展示图。
图35是本发明以家具为例检索效果展示图。
图36是本发明以文房用具为例检索效果展示图。
图37是本发明以竹木牙角匏器为例检索效果展示图。
图38是本发明以玉器为例检索效果展示图。
图39是本发明以石器为例检索效果展示图。
图40是本发明以骨器为例检索效果展示图。
图41是本发明以贝器为例检索效果展示图。
图42是本发明以古钱币为例检索效果展示图。
图43是本发明以古乐器为例检索效果展示图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对现有的图像检索方法存在的不足以及本发明应用领域特点,本发明以计算机视觉技术为基础,通过卷积神经网络提供一种基于特征提取与融合匹配的图像检索方法。本文中以“查询集”表示使用者的查询样本,“待检索集”表示被检索的图像库数据集,本发明内容主要分为深浅层特征提取与特征拼接融合两部分,并通过三元组损失函数约束,完成特定的以图搜图目的。
请参阅附图1,本发明提供一种基于卷积神经网络进行特征提取与融合的图像检索方法,包括以下步骤:
步骤1,深浅层特征提取:
在计算机视觉领域,对图像进行特征提取时,根据特征提取网络的卷积层数与卷积核大小等参数的不同,所提取到的图像特征表示也存在差异。一般情况下认为,浅层卷积网络提取的特征更直观地反映输入图像的外在信息描述,主要反映输入图像的空间纹理与颜色等基础特征。而层数较多的深层卷积神经网络如VGG,Inception等可以更有效的提取输入图像的内容与高层语义信息。
对于图像检索任务,在检索相同的物体或目标时,易受拍摄环境的影响,比如光照变化、尺度变化、视角变化、遮挡以及背景的杂乱等都会对检索结果造成较大的影响,为了更全面有效的提取查询图像与待检索图像库内图像数据的综合特征表示,降低拍摄环境的影响,更好的实现查询集与待检索集的特征匹配与图片检索任务,本发明使用深层与浅层两种特征提取网络分别对输入图像进行特征提取。如图1-图21中各个分类的特征提取网络所示,图中为深浅层特征提取网络,对于图像检索任务而言,重要的基础环节之一就是提取到准确的图像特征,这样才能为后面的过程奠定较好的基础,因此本发明中使用了两种特征提取网络,图中深浅层特征提取网络部分从上而下顺序第一、三、五个网络结构为浅层特征提取网络,第二、四、六个网络结构为深层特征提取网络,对于一张输入的查询集和检索集图片,同时经过上下两支特征提取网络分别进行浅层特征的提取与深层特征的编码映射。
查询集与待检索集图像的深层语义特征提取网络中的卷积层与Vgg16的前四组卷积层具有相同的网络配置,即对于每一张经过预处理的3维224×224大小的输入图片,其输出为512维14×14大小的特征矩阵。而浅层特征提取网络仅有两层卷积层构成,可以将3维224×224大小的输入图片映射为128维14×14大小的浅层特征表示。由此,对于每张输入的查询集与待检索集图像,均可经过本特征提取网络,获得深浅层两个特征表示。
同时,为了增强查询集与待检索集之间的语义联系,加快网络的收敛速度,本发明对查询集与待检索集的两组特征提取网络使用部分权重共享约束设置。
步骤2,特征拼接融合:
经过深浅层神经网络对查询集与待检索集图像的特征提取,已经可以获得512维14×14大小与128维14×14大小的深、浅层两种特征表示。为了更全面而有效的对查询图像与待检索图像进行综合特征表示,需要将上述两种特征进行融合。本发明使用了一个特征拼接“concate”层,直接将深浅层提取的两个特征表示在通道维度上进行拼接,即输入512×14×14大小与128×14×14大小的两种特征表示,经过特征拼接,输出一个640维的14×14大小的特征表示。之后,将进行拼接融合后的综合特征表示,进行降维,得到编码后的查询图像与待检索图像的综合特征。所述降维指的是降低特征维数,在经过特征拼接后输出的特征表示为600维的14ⅹ14大小的特征,但这种特征过于庞大,因此可通过在此之后连接全连接层的方式进行降维,将特征的维数减少并进行编码,对于查询图像和待检索图像都需要经过这样的特征提取和拼接融合的过程,因此最后得到的是查询图像和待检索图像的综合特征。
步骤3,损失函数约束:
本发明使用在草图检索,人脸识别等深度学习领域得到广泛应用的三元组损失函数作为损失函数约束。如附图22中的三元组排序映射过程所示,图22所示左半部分为使用损失函数前的状态,查询图像和待检索库中正样本距离较远,正样本以图中“+”表示,和待检索库中负样本距离较近,负样本以图中“-”表示),即为检索效果较差的状态;经过三元组损失函数变为右侧部分,查询图像和待检索库中正样本图中“+”表示距离较近,和待检索库中负样本图中“-”表示距离较远,符合“正样本是和检索样本比较像距离近,负样本是和检索样本比较不像距离远”的标准,利用通过深浅层特征提取网络与特征拼接融合模块得到的查询图像与待检索库图像综合特征表示,三元组损失的目标是缩小查询图像特征和待检索库中的正例图像样本特征之间的距离,同时,加大查询图像特征和待检索库中的负例图像样本特征之间的距离。目标如下:
公式1:
Figure GDA0004069645180000071
公式2:
Figure GDA0004069645180000072
公式1及公式2中,
Figure GDA0004069645180000073
为第i组的查询图像样本,
Figure GDA0004069645180000074
Figure GDA0004069645180000075
分别为待检索图像中正样本和待检索图像负样本,
Figure GDA0004069645180000076
Figure GDA0004069645180000077
分别为待检索图像中正样本和待检索图像负样本的特征,a为最小间隔,因此输入为查询图像样本,待检索图像正样本,待检索图像负样本组成的三元组,最后的损失函数,为公
式3:
Figure GDA0004069645180000078
由公式可以看出,当查询图像样本特征和待检索图像负样本之间的距离较小,和待检索图像正样本之间的距离较大时,L的值会随之增大,减小损失函数的目标将会引导神经网络带来更加理想的表现。
此外,由于数据集中负样本的数量远远大于正样本的数量,盲目的选择负样本作为部分输入会导致训练时间的加长,网络难以学习到较好的特征,影响最终的搜索准确率。同样,对正样本的盲目选择也会导致相似问题的出现。因此,本发明中借鉴Tripletselection的做法,在被搜索域样本选择时,选择较难分辨的样本,其公式如下:
公式4:
Figure GDA0004069645180000079
公式5:
Figure GDA00040696451800000710
选择距离查询图像样本最远的正样本和距离最近的负样本作为三元组的输入。对于神经网络而言,如果可以区分“最不像的正样本”和“最相似的负样本”,则表明网络有着较高的区分性。
步骤4,特征匹配:
本发明的最终目标是得到查询图像与待检索数据库中图片的相似性度量模型。在完成深浅层特征提取与融合网络的三元组损失监督训练之后,本部分将使用训练好的图像特征提取与融合编码网络分别对查询图像与待检索数据库中图片进行特征提取,然后将提取到的查询图像特征与待检索数据库中图片特征进行相似性度量匹配。具体过程如下:
首先使用待检索集图像特征提取网络对数据库中待检索图像进行特征提取与编码,并对提取到的特征进行保存。当输入查询图像时,使用查询图像特征提取网络对其进行特征提取并产生相同维度的查询图像特征。然后将查询图像的特征与数据库中的待检索集图像特征进行相似性度量。最后,根据相似性度量返回排序结果,实现以图搜图任务。关于相似性匹配可以使用欧氏距离,余弦距离等常用距离公式。
为了验证本发明所描述方法的有效性,以caffe深度学习框架为基础对方法进行实现,并对实验结果进行展示,如图23-图43所示,图中对应于左侧检索样本的检索结果top-5中大部分可以将原图找到且其余图片也是和检索样本极为相似的图片,通过分析行业特点,改进现有图像检索技术并成功应用到古董艺术品领域,证明了本方法的可行性和潜在价值。”。
由于本发明所涉及领域公开数据集极为少见。因此,使用数据集为自行人工标注的古董艺术品图像检索数据。包含21类古董艺术品分类,涉及书法、绘画、碑帖拓片、名人手迹、唐卡、佛像、玉器、石器、竹木牙角匏器、漆器、金属器、青铜器、紫砂器、骨器、贝器、珐琅、料器、家具、文房用具、古钱币、古乐器等共2000000张图片,其中训练集和测试集的数据比例为4:1。使用SGD优化器对网络训练过程进行优化,动量为0.9。
微调和迁移学习作为训练小样本量的常用方法,在深度学习任务中有着较好的表现。而众所周知,较大的样本量可以带来更全面、充分、具有普适性的特征。ImageNet是计算机视觉领域的大型数据集,其数据来源广泛,种类众多,图片样式繁杂,包含常见物体种类,在其基础上训练得到的模型参数有着更广的适用性,适合作为网络微调的初始参数。本发明中所使用的数据集数量少、分类多,单独训练难以获得理想效果,综合本任务图像检索的特点,本发明步骤1中的Vgg16网络部分并非重新训练,而是使用在ImageNet数据集中训练好的预训练权重参数,在此基础上用本实验图像数据进行网络微调,得到更好的网络模型参数。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于深浅层特征提取与融合的古董艺术品图像检索方法,其特征在于,包括以下步骤:
步骤1,深浅层特征提取:使用深层语义特征提取及浅层特征提取两种特征提取网络分别对输入图像进行特征提取,对于每一张输入的查询集与检索集图像,同时经过上下两支特征提取网络分别进行浅层特征的提取与深层特征的编码映射,均获得深层语义特征及浅层特征;
步骤2,特征拼接融合:使用了一个特征拼接“concate”层,直接将深层语义特征及浅层特征表示在通道维度上进行拼接,即输入512×14×14大小与128×14×14大小的两种特征表示,经过特征拼接,输出一个640维的14×14大小的特征表示之后,将进行拼接融合后的综合特征表示,进行降维,得到编码后的查询图像与待检索图像的综合特征;
步骤3,损失函数约束:三元组损失的目标是缩小查询图像特征和待检索库中的正例图像样本特征之间的距离,同时,加大查询图像特征和待检索库中的负例图像样本特征之间的距离,目标如下:
公式1:
Figure FDA0004069645170000011
公式2:
Figure FDA0004069645170000012
公式1及公式2中,
Figure FDA0004069645170000013
为第i组的查询图像样本,
Figure FDA0004069645170000014
Figure FDA0004069645170000015
分别为待检索图像中正样本和待检索图像负样本,
Figure FDA0004069645170000016
Figure FDA0004069645170000017
分别为待检索图像中正样本和待检索图像负样本的特征,a为最小间隔,因此输入为查询图像样本,待检索图像正样本,待检索图像负样本组成的三元组,最后的损失函数,为公式3:
Figure FDA0004069645170000018
由公式3可以看出,当查询图像样本特征和待检索图像负样本之间的距离较小,和待检索图像正样本之间的距离较大时,L的值会随之增大,减小损失函数的目标将会引导神经网络带来更加理想的表现;
在被搜索域样本选择时,选择较难分辨的样本,其公式如下:
公式4:
Figure FDA0004069645170000019
公式5:
Figure FDA00040696451700000110
选择距离查询图像样本最远的正样本和距离最近的负样本作为三元组的输入,对于神经网络而言,如果可以区分“最不像的正样本”和“最相似的负样本”,则表明网络有着较高的区分性;
步骤4,特征匹配:得到查询图像与待检索数据库中图片的相似性度量模型,具体过程如下:
首先使用待检索集图像特征提取网络对数据库中待检索图像进行特征提取与编码,并对提取到的特征进行保存;当输入查询图像时,使用查询图像特征提取网络对其进行特征提取并产生相同维度的查询图像特征,然后将查询图像的特征与数据库中的待检索集图像特征进行相似性度量;最后,根据相似性度量返回排序结果,实现以图搜图任务。
2.如权利要求1所述的方法,其特征在于,所述步骤1中,所述深层语义特征提取,是指查询集与待检索集图像的深层语义特征提取网络中的卷积层与Vgg16的前四组卷积层具有相同的网络配置,即对于每一张经过预处理的3维224×224大小的输入图片,其输出为512维14×14大小的特征矩阵;所述浅层特征提取网络仅有两层卷积层构成,将3维224×224大小的输入图片映射为128维14×14大小的浅层特征表示。
3.如权利要求1所述的方法,其特征在于,所述步骤1中,还包括为了增强查询集与待检索集之间的语义联系,加快网络的收敛速度,对查询集与待检索集的两组特征提取网络使用部分权重共享约束设置。
CN202010318057.1A 2020-04-21 2020-04-21 基于深浅层特征提取与融合的古董艺术品图像检索方法 Active CN111522985B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010318057.1A CN111522985B (zh) 2020-04-21 2020-04-21 基于深浅层特征提取与融合的古董艺术品图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010318057.1A CN111522985B (zh) 2020-04-21 2020-04-21 基于深浅层特征提取与融合的古董艺术品图像检索方法

Publications (2)

Publication Number Publication Date
CN111522985A CN111522985A (zh) 2020-08-11
CN111522985B true CN111522985B (zh) 2023-04-07

Family

ID=71903675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010318057.1A Active CN111522985B (zh) 2020-04-21 2020-04-21 基于深浅层特征提取与融合的古董艺术品图像检索方法

Country Status (1)

Country Link
CN (1) CN111522985B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114528896A (zh) * 2020-11-23 2022-05-24 京东城市(北京)数字科技有限公司 模型训练、数据增强方法、装置、电子设备及存储介质
CN112328891B (zh) * 2020-11-24 2023-08-01 北京百度网讯科技有限公司 训练搜索模型的方法、搜索目标对象的方法及其装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021575A (zh) * 2016-05-31 2016-10-12 北京奇艺世纪科技有限公司 一种视频中同款商品检索方法及装置
CN106682233A (zh) * 2017-01-16 2017-05-17 华侨大学 一种基于深度学习与局部特征融合的哈希图像检索方法
CN106845510A (zh) * 2016-11-07 2017-06-13 中国传媒大学 基于深度层级特征融合的中国传统视觉文化符号识别方法
CN108427738A (zh) * 2018-03-01 2018-08-21 中山大学 一种基于深度学习的快速图像检索方法
CN108446312A (zh) * 2018-02-06 2018-08-24 西安电子科技大学 基于深度卷积语义网的光学遥感图像检索方法
CN110263207A (zh) * 2019-06-20 2019-09-20 杭州时趣信息技术有限公司 图像搜索方法、装置、设备及计算机可读存储介质
CN110263786A (zh) * 2019-06-24 2019-09-20 东北大学 一种基于特征维度融合的道路多目标识别系统及方法
CN110321957A (zh) * 2019-07-05 2019-10-11 重庆大学 融合三元组损失和生成对抗网络的多标签图像检索方法
CN110825899A (zh) * 2019-09-18 2020-02-21 武汉纺织大学 融合颜色特征和残差网络深度特征的服装图像检索方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11275747B2 (en) * 2015-03-12 2022-03-15 Yahoo Assets Llc System and method for improved server performance for a deep feature based coarse-to-fine fast search
CN106021364B (zh) * 2016-05-10 2017-12-12 百度在线网络技术(北京)有限公司 图片搜索相关性预测模型的建立、图片搜索方法和装置
US10628708B2 (en) * 2018-05-18 2020-04-21 Adobe Inc. Utilizing a deep neural network-based model to identify visually similar digital images based on user-selected visual attributes
US11227197B2 (en) * 2018-08-02 2022-01-18 International Business Machines Corporation Semantic understanding of images based on vectorization
US11222233B2 (en) * 2018-09-26 2022-01-11 Samsung Electronics Co., Ltd. Method and apparatus for multi-category image recognition

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021575A (zh) * 2016-05-31 2016-10-12 北京奇艺世纪科技有限公司 一种视频中同款商品检索方法及装置
CN106845510A (zh) * 2016-11-07 2017-06-13 中国传媒大学 基于深度层级特征融合的中国传统视觉文化符号识别方法
CN106682233A (zh) * 2017-01-16 2017-05-17 华侨大学 一种基于深度学习与局部特征融合的哈希图像检索方法
CN108446312A (zh) * 2018-02-06 2018-08-24 西安电子科技大学 基于深度卷积语义网的光学遥感图像检索方法
CN108427738A (zh) * 2018-03-01 2018-08-21 中山大学 一种基于深度学习的快速图像检索方法
CN110263207A (zh) * 2019-06-20 2019-09-20 杭州时趣信息技术有限公司 图像搜索方法、装置、设备及计算机可读存储介质
CN110263786A (zh) * 2019-06-24 2019-09-20 东北大学 一种基于特征维度融合的道路多目标识别系统及方法
CN110321957A (zh) * 2019-07-05 2019-10-11 重庆大学 融合三元组损失和生成对抗网络的多标签图像检索方法
CN110825899A (zh) * 2019-09-18 2020-02-21 武汉纺织大学 融合颜色特征和残差网络深度特征的服装图像检索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Wei Wang 等.Object Tracking with Shallow Convolution Feature.《2017 9th International Conference on Intelligent Human-Machine Systems and Cybernetics (IHMSC)》.2017,全文. *
侯媛媛 等.结合卷积神经网络多层特征融合和K-Means聚类的服装图像检索方法.《计算机科学》.2019,全文. *
李振东 ; 钟勇 ; 曹冬平 ; .深度卷积特征向量用于快速人脸图像检索.《计算机辅助设计与图形学学报》.2018,(第12期),全文. *

Also Published As

Publication number Publication date
CN111522985A (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN111444343B (zh) 基于知识表示的跨境民族文化文本分类方法
Sousa et al. Sketch-based retrieval of drawings using spatial proximity
CN111522985B (zh) 基于深浅层特征提取与融合的古董艺术品图像检索方法
CN107958067A (zh) 一种基于无标注自动特征提取的大规模电商图片检索系统
CN102750347B (zh) 一种用于图像或视频搜索重排序的方法
CN111179440B (zh) 一种面向自然场景的三维物体模型检索方法
CN105740378B (zh) 一种数字病理全切片图像检索方法
Rasyidi et al. Batik pattern recognition using convolutional neural network
CN103186538A (zh) 一种图像分类方法和装置、图像检索方法和装置
Schomaker et al. Using pen-based outlines for object-based annotation and image-based queries
CN110472652A (zh) 基于语义引导的少量样本分类方法
Wang et al. Norm-guided Adaptive Visual Embedding for Zero-Shot Sketch-Based Image Retrieval.
CN114443855A (zh) 一种基于图表示学习的知识图谱跨语言对齐方法
CN105843925A (zh) 一种基于改进bow算法的相似图片搜索方法
CN113032601A (zh) 一种基于判别性提升的零样本草图检索方法
CN110287369B (zh) 一种基于语义的视频检索方法及系统
CN114579794A (zh) 特征一致性建议的多尺度融合地标图像检索方法及系统
CN111125396A (zh) 一种单模型多分支结构的图像检索方法
CN110442736A (zh) 一种基于二次判别分析的语义增强子空间跨媒体检索方法
CN105468574A (zh) 装饰字体的合成方法
CN105740360B (zh) 艺术品图像中古典母题的识别与检索方法
CN110377790A (zh) 一种基于多模态私有特征的视频自动标注方法
CN116244464A (zh) 一种基于多模态数据融合的手绘图像实时检索方法
CN113191381B (zh) 一种基于交叉知识的图像零次分类模型及其分类方法
CN111898618B (zh) 一种识别古代图形文字的方法、装置和程序储存介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: B2301, floor 21, No. 2, Fuchengmenwai street, Xicheng District, Beijing 100037

Patentee after: Yiyuan digital (Beijing) Technology Group Co.,Ltd.

Address before: Room 102, 1st Floor, No. 9, Xiaguangli, Chaoyang District, Beijing 100000

Patentee before: EPAILIVE AUCTION (BEIJING) Co.,Ltd.

CP03 Change of name, title or address
TR01 Transfer of patent right

Effective date of registration: 20230705

Address after: B2301, floor 21, No. 2, Fuchengmenwai street, Xicheng District, Beijing 100037

Patentee after: Yiyuan digital (Beijing) Technology Group Co.,Ltd.

Patentee after: Yiyuan Digital (Beijing) Big Data Technology Co.,Ltd.

Address before: B2301, floor 21, No. 2, Fuchengmenwai street, Xicheng District, Beijing 100037

Patentee before: Yiyuan digital (Beijing) Technology Group Co.,Ltd.

TR01 Transfer of patent right