CN111523592A - 一种基于深度学习的文物艺术品领域图像相似度度量算法 - Google Patents

一种基于深度学习的文物艺术品领域图像相似度度量算法 Download PDF

Info

Publication number
CN111523592A
CN111523592A CN202010319027.2A CN202010319027A CN111523592A CN 111523592 A CN111523592 A CN 111523592A CN 202010319027 A CN202010319027 A CN 202010319027A CN 111523592 A CN111523592 A CN 111523592A
Authority
CN
China
Prior art keywords
ware
pictures
distance
imagea
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010319027.2A
Other languages
English (en)
Other versions
CN111523592B (zh
Inventor
蒋齐琛
周圆
王中恕
闫倩
祁煜琨
郑洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yiyuan Digital Beijing Big Data Technology Co ltd
Yiyuan Digital Beijing Technology Group Co ltd
Original Assignee
Epailive Auction Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Epailive Auction Beijing Co ltd filed Critical Epailive Auction Beijing Co ltd
Priority to CN202010319027.2A priority Critical patent/CN111523592B/zh
Publication of CN111523592A publication Critical patent/CN111523592A/zh
Application granted granted Critical
Publication of CN111523592B publication Critical patent/CN111523592B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的文物艺术品领域图像相似度度量算法,在caffe深度学习框架下进行实现。由于本发明涉及领域与大众领域稍有不同,目前尚未见到关于文物艺术品领域大型数据集,因此本实验数据集为自行人工标注的数据集,一共涉及绘画、书法、瓷器、贝器、名人手迹、青铜器、石器、玉器、唐卡、文房用具、竹木牙角匏器、紫砂器、碑帖拓片、珐琅器、佛像、古典家具、古乐器、古钱币、骨器、金属器、料器、漆器共22个分类,总计两百多万张图片数据,训练集与测试集比例为4:1。训练数据统一归一化到长、宽均为256像素尺寸,并通过镜面翻转、随机剪裁、小角度旋转、椒盐噪声等常见图片处理方式进行数据扩充至8~10倍。

Description

一种基于深度学习的文物艺术品领域图像相似度度量算法
技术领域
本发明属于图像相似度度量领域,更具体的说,涉及一种通过卷积神经网络提取图片特征,随后完成图片对之间的特征距离计算,进而转化为相似度数值的算法。
背景技术
科技的发展革新为日常生产生活带来了巨大的影响。计算机、互联网行业的蓬勃发展,为我们带来了海量数据,不得不承认,身处于大数据时代,无论哪个行业都有着将数据转化为效率和应用价值的机会。
文物艺术品行业也许没有衣食住行等领域更加贴近生活,但在人民物质生活日益提高的今天,精神层面的提升,文化底蕴的培养逐渐得到广泛重视,赋予在文物艺术品上的传承价值让这个行业近年来呈现出蓬勃发展的趋势。其与先进技术的结合为这一领域注入了新的活力,文物艺术品图片相似度的度量不仅为用户提供智能简便的冗余信息过滤方式,更在打击出土出水被盗文物等文物监测、搜索、比对等方面带来了新的变化,在一定程度上对以往单纯的人工监测起到了辅助作用。
卷积神经网络作为近些年来计算机领域的重要成果之一,在图像处理、计算机视觉方向得到了深入研究与广泛应用,为实现人工智能带来了重大的变革。卷积神经网络以原始图像数据作为输入,通过训练的方式自主学习数据特征,丰富的训练数据帮助神经网络提取到图像的重要特征,大量的计算神经元从某种程度上实现了对大脑运算方式的模拟,学习策略和网络结构的多样化更是进一步帮助性能的提高与优化,前人对经典网络结构的探索和在庞大数据集上的预训练结果更是为后来者提供了理论经验和实现基础。在人脸识别、图像分类、目标检测等方面的学术成果与工业落地也进一步验证了卷积神经网络的强大。
因此,鉴于文物艺术品种类繁多、品目庞杂,很多艺术品具有唯一性的特点以及卷积神经网络在处理图像问题有着一定优势的综合考量,本发明以卷积神经网络为基础提出一种基于深度学习的文物艺术品领域图像相似度度量方法,实现深度学习、神经网络技术在相关领域的成功应用。
发明内容
结合上述文物艺术品领域的特点及现有文献资料中相关方法介绍较少的情况,本发明利用卷积神经网络,提供了一种基于深度学习的文物艺术品领域的图片相似度度量方法。该方法可以实现对输入文物艺术品图像特征的有效提取,并采用新方法处理图像特征,转化为相似度度量,一定程度上符合大众对图片相似与否的认知,且不同于现有文物艺术品领域相关研究,因此有一定的创新性和应用价值。
本发明提供如下技术方案:
一种基于深度学习的文物艺术品领域图像相似度度量算法,包括以下步骤:
步骤1,图片特征提取:首先需要对两张文物艺术品图片进行特征提取,使用残差网络实现对图片语义特征的提取;其次使用在2012年的ILSVRC分类数据集预训练过的resnet-18网络参数作为初始权重,在预训练的基础上进一步通过分类任务优化初始权重;所述通过分类任务优化初始权重是指从计算机视觉角度出发,将文物艺术品分为绘画、书法、瓷器、贝器、名人手迹、青铜器、石器、玉器、唐卡、文房用具、竹木牙角匏器、紫砂器、碑帖拓片、珐琅器、佛像、古典家具、古乐器、古钱币、骨器、金属器、料器、漆器共22个类别,在经由上述预训练过的resnet18中以分类任务为目标继续训练,分类准确率达到较高标准后将此时的resnet18网络参数作为特征提取网络的初始参数,最后连接512维、256维的全连接层对所提取特征进行降维与编码,完成图片特征提取,则对于每一张文物艺术品图片输入都能够得到相对应的图片特征;
步骤2,损失函数选择:
TripletLoss损失函数输入为一个三元组,分别是样本数据Anchor、与样本数据属于同一类的正例样本Positive、与样本数据不属于同一类的负例样本Negative,其基础原理在于缩小样本数据和正例样本之间的距离,增大样本数据和负例样本之间的距离,公式表示如下:
公式1:
Figure RE-GDA0002510319440000021
公式2:
Figure RE-GDA0002510319440000022
在上述公式1及公式2中,其中
Figure RE-GDA0002510319440000023
分别为样本数据、正例样本、负例样本;α为样本与正样本距离和负样本距离的最小间隔;T包含了所有可能出现的三元组对;最终使用的特征提取网络的初始参数为在文物艺术品分类数据集中微调过的参数权值,同时,使用TripletLoss损失函数训练分类数据集,并将此时的网络参数作为训练整个网络的初始权重,再以 TripletLoss作为损失函数;
步骤3,相似程度计算:
步骤301:假设对于两张文物艺术品图片记为:ImageA和ImageB计算相似度,取其中一张图片,如ImageA,通过步骤1及步骤2所述神经网络必然会得到相应的特征向量记为:FeatureA;以ImageA为基础,添加适当旋转、椒盐噪声、裁剪等处理产生新的图片记为:ImageA_noise,通过神经网络得到与其对应的特征向量记为:FeatureA_noise,从人眼感知等视觉角度理解,虽然两张图片在细微之处有差别,但是仍属于相似图片,通过欧式距离将两张图片之间的距离量化,此距离称为可接受误差距离,公式3如下:
Figure RE-GDA0002510319440000031
步骤302:对另一图片ImageB提取特征向量(FeatureB),计算FeatureA 与FeatureB的欧式距离,公式4如下:
Figure RE-GDA0002510319440000032
步骤303:比较d(A&noise)和d(A&B)之间的大小,如果前者大于等于后者,即两张图片的距离在可接受误差距离之内,认为两张图片极为相似;如果前者小于后者,即两张图片的距离在可接受误差距离范围外,表示两张图片有部分相似又有部分不相似,为进一步将这种相似程度以量化形式表达,其公式5如下:
S(d(A&noise),d(A&B))=(1/ed(A&B)α*d(A&noise))
其中由于d(A&B)较大,保证分母指数部分始终大于0,分母恒大于1,函数整体恒小于1,且随着d(A&B)增大,函数值逐渐接近于0,符合普遍认知中随着两张图片特征距离增加,相似性趋于变小的认知,α为松弛因子,即根据不同实际情况对整体相似度函数进行适当调节。
为了证明本发明所述方法的有效性,在caffe深度学习框架下进行实现。由于本发明涉及领域与大众领域稍有不同,目前尚未见到关于文物艺术品领域大型数据集,因此本实验数据集为自行人工标注的数据集,一共涉及绘画、书法、瓷器、贝器、名人手迹、青铜器、石器、玉器、唐卡、文房用具、竹木牙角匏、紫砂器、碑帖拓片、珐琅器、佛像、古典家具、古乐器、古钱币、骨器、金属器、料器、漆器共22个分类,总计两百多万张图片数据,训练集与测试集比例为4∶1。训练数据统一归一化到长、宽均为256像素尺寸,并通过镜面翻转、随机剪裁、小角度旋转、椒盐噪声等常见图片处理方式进行数据扩充至8~10倍。
附图说明
图1是本发明方法步骤1中特征提取网络模型示意图。
图2是本发明方法步骤3的流程图。
图3是本发明步骤3中ImageA、ImageA_noise、ImageB碑帖拓片样本展示图。
图4是本发明步骤3中ImageA、ImageA_noise、ImageB贝器样本展示图。
图5是本发明步骤3中ImageA、ImageA_noise、ImageB珐琅器样本展示图。
图6是本发明步骤3中ImageA、ImageA_noise、ImageB佛像样本展示图。
图7是本发明步骤3中ImageA、ImageA_noise、ImageB古典家具样本展示图。
图8是本发明步骤3中ImageA、ImageA_noise、ImageB古乐器样本展示图。
图9是本发明步骤3中ImageA、ImageA_noise、ImageB古钱币样本展示图。
图10是本发明步骤3中ImageA、ImageA_noise、ImageB骨器样本展示图。
图11是本发明步骤3中ImageA、ImageA_noise、ImageB金属器样本展示图。
图12是本发明步骤3中ImageA、ImageA_noise、ImageB料器样本展示图。
图13是本发明步骤3中ImageA、ImageA_noise、ImageB名人手迹样本展示图。
图14是本发明步骤3中ImageA、ImageA_noise、ImageB漆器样本展示图。
图15是本发明步骤3中ImageA、ImageA_noise、ImageB青铜器样本展示图。
图16是本发明步骤3中ImageA、ImageA_noise、ImageB石器样本展示图。
图17是本发明步骤3中ImageA、ImageA_noise、ImageB绘画样本展示图。
图18是本发明步骤3中ImageA、ImageA_noise、ImageB唐卡样本展示图。
图19是本发明步骤3中ImageA、ImageA_noise、ImageB文房用具样本展示图。
图20是本发明步骤3中ImageA、ImageA_noise、ImageB玉器样本展示图。
图21本发明步骤3中ImageA、ImageA_noise、ImageB竹木牙角匏器样本展示图。
图22是本发明步骤3中ImageA、ImageA_noise、ImageB紫砂器样本展示图。
图23是本发明步骤3中ImageA、ImageA_noise、ImageB书法样本展示图。
图24是本发明步骤3中ImageA、ImageA_noise、ImageB瓷器样本展示图。
图25是使用本发明方法碑帖拓片的最终效果展示图。
图26是使用本发明方法贝器的最终效果展示图。
图27是使用本发明方法珐琅器的最终效果展示图。
图28是使用本发明方法佛像的最终效果展示图。
图29是使用本发明方法古典家具的最终效果展示图。
图30是使用本发明方法古乐器的最终效果展示图。
图31是使用本发明方法古钱币的最终效果展示图。
图32是使用本发明方法骨器的最终效果展示图。
图33是使用本发明方法金属器的最终效果展示图。
图34是使用本发明方法料器的最终效果展示图。
图35是使用本发明方法名人手迹的最终效果展示图。
图36是使用本发明方法漆器的最终效果展示图。
图37是使用本发明方法青铜器的最终效果展示图。
图38是使用本发明方法石器的最终效果展示图。
图39是使用本发明方法绘画的最终效果展示图。
图40是使用本发明方法唐卡的最终效果展示图。
图41是使用本发明方法文房用具的最终效果展示图。
图42是使用本发明方法玉器的最终效果展示图。
图43是使用本发明方法竹木牙角匏器的最终效果展示图。
图44是使用本发明方法紫砂器的最终效果展示图。
图45是使用本发明方法书法的最终效果展示图。
图46是使用本发明方法瓷器的最终效果展示图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种基于深度学习的文物艺术品领域图像相似度度量算法:包括以下步骤:
步骤1,图片特征提取,如图1所示:
为了实现对两张图片的相似度度量,首先需要对两张文物艺术品图片进行特征提取。本发明中,使用残差网络实现对图片语义特征的提取。一般认为网络层数的增加会提高神经网络的性能,但事实证明单纯增加网络深度会导致性能的退化,而残差网络的出现在一定程度上规避了这种由于网络深度增加而带来的风险,被广泛的应用于计算机视觉领域。
事实表明,使用在大型数据集上预训练的网络参数作为初始权值训练神经网络往往有着更好的效果。2012年的ILSVRC分类数据集包含有1000个分类,近13万张图片数据,是近年来常用的大型数据集之一。因此本发明使用在此数据集上预训练过的resnet-18网络参数作为初始权重。为了让网络更加适应于文物艺术品领域,在预训练的基础上进一步通过分类任务优化初始权重。
具体来说,从计算机视觉角度出发,将文物艺术品分为绘画、书法、瓷器、贝器、名人手迹、青铜器、石器、玉器、唐卡、文房用具、竹木牙角匏器、紫砂器、碑帖拓片、珐琅器、佛像、古典家具、古乐器、古钱币、骨器、金属器、料器、漆器共22个类别,在经由上述预训练过的resnet18中以分类任务为目标继续训练,分类准确率达到较高标准后将此时的resnet18网络参数作为特征提取网络的初始参数,最后连接512维、256维的全连接层对所提取特征进行降维与编码,完成图片特征提取,则对于每一张文物艺术品图片输入都可以得到相对应的图片特征。以书法图片为例:我们将书法图片归一化到宽为256像素,高为256像素的尺寸,作为神经网络的输入,此处的神经网络即为预训练过的resnet-18,由于神经网络有着层级结构,因此在原resnet-18结构后面顺次连接两个全连接层,这两个全连接层有512维、256维的输出。因此对于一张输入的书法图片最终是一个256维的输出。上述resnet-18结构是对图片进行特征提取,后面的两个全连接是降维与编码,可以理解为将一张图片通过上述过程转换成一个256维的向量。
步骤2,损失函数选择:
对于两张文物艺术品图片的相似程度的度量和人脸识别任务有着相似之处,人脸识别的重点是判断两张图中的人脸是否是同一个人,从某种程度上说也是判断两张人脸的相似程度。在此,我们借鉴在人脸领域应用效果较为理想的TripletLoss损失函数作为本发明中损失函数。而常见的softmax损失函数通常在分类问题中体现出更大的优势,但在本文场景中并不十分适用。
TripletLoss损失函数输入为一个三元组,分别是样本数据(Anchor)、与样本数据属于同一类的正例样本(Positive)、与样本数据不属于同一类的负例样本(Negative)。其基础原理在于缩小样本数据和正例样本之间的距离,增大样本数据和负例样本之间的距离,公式表示如下:
公式1:
Figure RE-GDA0002510319440000061
公式2:
Figure RE-GDA0002510319440000062
在公式1及公式2中,其中
Figure RE-GDA0002510319440000063
分别为样本数据、正例样本、负例样本;α为样本与正样本距离和负样本距离的最小间隔;T包含了所有可能出现的三元组对。
上述中,最终使用的特征提取网络的初始参数为在文物艺术品分类数据集中微调过的参数权值。同时,本发明中使用TripletLoss损失函数训练分类数据集,以达到对前章得到的网络参数再次微调,此处微调可以理解为在前者基础上继续训练神经网络,而下一句中提到分类准确率有所上升即证明本次微调在分类阶段起到积极效果,本次微调后的分类准确率较前章有2%左右的提升,并将此时的网络参数作为训练整个网络的初始权重,再以TripletLoss作为损失函数。
此外,在数据集中样本数据的正例样本数量往往会少于负例样本数量,在众多的正负例样本中采用随机选择的策略有时会导致神经网络性能不能达到预期。如果神经网络可以正确区分与样本数据相似的负例样本、与样本数据不相似的正例样本,最终效果会更好,这种思想在很多其他计算机视觉任务中也得到印证。本发明中借鉴TripletSelection做法,对三元组的选择采取类似措施,增加了三元组中距离较远的正例样本、距离较近的负例样本比例,同时为进一步贴合人眼对图片相似程度的感知,在对三元组进行选择时加入人工引导部分。因此所选择的三元组不仅有随机生成,TripletSelection 策略产生,还加入人工判断产生的正负例三元组样本,多种方法结合引导神经网络有更好的表现。
步骤3,相似程度计算:
经由步骤1及步骤2所述的神经网络与损失函数约束可以很好的提取到图片特征,转化为向量形式输出,但此种形式往往不能直接作为最终结果呈现,还需要对文物艺术品图片对的特征做处理,即图片间的相似程度计算。图片之间的相似程度与长度单位、电流单位等数学、物理单位不同,目前少有对其界定,即两张图片达到什么标准可以称的上是相似程度为90%或40%,大多数基于人眼感知。
结合实际情况,本发明所使用的图像相似度计算过程如下,如图2所示:
步骤301:假设对于两张文物艺术品图片记为:ImageA和ImageB计算相似度,取其中一张图片,如ImageA,通过步骤1及步骤2所述神经网络必然会得到相应的特征向量记为:FeatureA;以ImageA为基础,添加适当旋转、椒盐噪声、裁剪等处理产生新的图片记为:ImageA_noise,通过神经网络得到与其对应的特征向量记为:FeatureA_noise,从人眼感知等视觉角度理解,虽然两张图片在细微之处有差别,但是仍属于相似图片。通过欧式距离将两张图片之间的距离量化,此距离称为可接受误差距离。公式3如下:
Figure RE-GDA0002510319440000071
步骤302:对另一图片ImageB提取特征向量(FeatureB),计算FeatureA 与FeatureB的欧式距离,公式4如下:
Figure RE-GDA0002510319440000072
步骤303:比较d(A&noise)和d(A&B)之间的大小,如果前者大于等于后者,即两张图片的距离在可接受误差距离之内,认为两张图片极为相似;如果前者小于后者,即两张图片的距离在可接受误差距离范围外,表示两张图片有部分相似又有部分不相似,为进一步将这种相似程度以量化形式表达,其公式5如下:
S(d(A&noise),d(A&B))=(1/ed(A&B)-α*d(A&noise))
其中由于d(A&B)较大,保证分母指数部分始终大于0,分母恒大于1,函数整体恒小于1,且随着d(A&B)增大,函数值逐渐接近于0,符合普遍认知中随着两张图片特征距离增加,相似性趋于变小的认知,α为松弛因子,即可以根据不同实际情况对整体相似度函数进行适当调节。如图3-图24所示,图3-24展示出A、A_noise、B之间的区别,由于对两张图片相似度度量缺乏统一的定量衡量准则,一部分是根据经验等判断,在此我们以一张图片及其噪声图片之间的欧式距离d(A&noise)作为参考量对两张图片的相似度进行衡量,为本发明所述相似度找到一个参考值,分别展示了绘画、书法、瓷器、贝器、名人手迹、青铜器、石器、玉器、唐卡、文房用具、竹木牙角匏、紫砂器、碑帖拓片、珐琅器、佛像、古典家具、古乐器、古钱币、骨器、金属器、料器、漆器共22个分类在ImageA、ImageA_noise、ImageB瓷器样本展示图
为了证明本发明所述方法的有效性,在caffe深度学习框架下进行实现。由于本发明涉及领域与大众领域稍有不同,目前尚未见到关于文物艺术品领域大型数据集,因此本实验数据集为自行人工标注的数据集,如图25-图46为在22分类中使用本发明所述方法的最终效果展示,本实验数据集为自行人工标注的数据集,一共涉及绘画、书法、瓷器、贝器、名人手迹、青铜器、石器、玉器、唐卡、文房用具、竹木牙角匏、紫砂器、碑帖拓片、珐琅器、佛像、古典家具、古乐器、古钱币、骨器、金属器、料器、漆器共22个分类,总计两百多万张图片数据,训练集与测试集比例为4∶1。训练数据统一归一化到长、宽均为256像素尺寸,并通过镜面翻转、随机剪裁、小角度旋转、椒盐噪声等常见图片处理方式进行数据扩充至8~10倍,图25-图46为在22 个分类中使用本专利所述方法的最终效果展示图,根据相关图中最右列相似程度百分比可以看出,越相像的两张图片相似程度越高,数值越大,反之越小,符合一般情况下人眼感知情况。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于深度学习的文物艺术品领域图像相似度度量算法,其特征在于,包括以下步骤:
步骤1,图片特征提取:首先需要对两张文物艺术品图片进行特征提取,使用残差网络实现对图片语义特征的提取;其次使用在2012年的ILSVRC分类数据集预训练过的resnet-18网络参数作为初始权重,在预训练的基础上进一步通过分类任务优化初始权重;所述通过分类任务优化初始权重是指从计算机视觉角度出发,将文物艺术品分为绘画、书法、瓷器、贝器、名人手迹、青铜器、石器、玉器、唐卡、文房用具、竹木牙角匏器、紫砂器、碑帖拓片、珐琅器、佛像、古典家具、古乐器、古钱币、骨器、金属器、料器、漆器共22个类别,在经由上述预训练过的resnet18中以分类任务为目标继续训练,分类准确率达到较高标准后将此时的resnet18网络参数作为特征提取网络的初始参数,最后连接512维、256维的全连接层对所提取特征进行降维与编码,完成图片特征提取,则对于每一张文物艺术品图片输入都能够得到相对应的图片特征;
步骤2,损失函数选择:
TripletLoss损失函数输入为一个三元组,分别是样本数据Anchor、与样本数据属于同一类的正例样本Positive、与样本数据不属于同一类的负例样本Negative,其基础原理在于缩小样本数据和正例样本之间的距离,增大样本数据和负例样本之间的距离,公式表示如下:
公式1:
Figure FDA0002460648140000011
公式2:
Figure FDA0002460648140000012
在上述公式1及公式2中,其中
Figure FDA0002460648140000013
分别为样本数据、正例样本、负例样本;α为样本与正样本距离和负样本距离的最小间隔;T包含了所有可能出现的三元组对;最终使用的特征提取网络的初始参数为在文物艺术品分类数据集中微调过的参数权值,同时,使用TripletLoss损失函数训练分类数据集,并将此时的网络参数作为训练整个网络的初始权重,再以TripletLoss作为损失函数;
步骤3,相似程度计算:
步骤301:假设对于两张文物艺术品图片记为:ImageA和ImageB计算相似度,取其中一张图片,如ImageA,通过步骤1及步骤2所述神经网络必然会得到相应的特征向量记为:FeatureA;以ImageA为基础,添加适当旋转、椒盐噪声、裁剪等处理产生新的图片记为:ImageA_noise,通过神经网络得到与其对应的特征向量记为:FeatureA_noise,从人眼感知等视觉角度理解,虽然两张图片在细微之处有差别,但是仍属于相似图片,通过欧式距离将两张图片之间的距离量化,此距离称为可接受误差距离,公式3如下:
Figure FDA0002460648140000021
步骤302:对另一图片ImageB提取特征向量(FeatureB),计算FeatureA与FeatureB的欧式距离,公式4如下:
Figure FDA0002460648140000022
步骤303:比较d(A&noise)和d(A&B)之间的大小,如果前者大于等于后者,即两张图片的距离在可接受误差距离之内,认为两张图片极为相似;如果前者小于后者,即两张图片的距离在可接受误差距离范围外,表示两张图片有部分相似又有部分不相似,为进一步将这种相似程度以量化形式表达,其公式5如下:
S(d(A&noise),d(A&B))=(1/ed(A&B)-α*d(A&noise))
其中由于d(A&B)较大,保证分母指数部分始终大于0,分母恒大于1,函数整体恒小于1,且随着d(A&B)增大,函数值逐渐接近于0,符合普遍认知中随着两张图片特征距离增加,相似性趋于变小的认知,α为松弛因子,即根据不同实际情况对整体相似度函数进行适当调节。
CN202010319027.2A 2020-04-21 2020-04-21 一种基于深度学习的文物艺术品领域图像相似度度量方法 Active CN111523592B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010319027.2A CN111523592B (zh) 2020-04-21 2020-04-21 一种基于深度学习的文物艺术品领域图像相似度度量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010319027.2A CN111523592B (zh) 2020-04-21 2020-04-21 一种基于深度学习的文物艺术品领域图像相似度度量方法

Publications (2)

Publication Number Publication Date
CN111523592A true CN111523592A (zh) 2020-08-11
CN111523592B CN111523592B (zh) 2023-05-09

Family

ID=71903833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010319027.2A Active CN111523592B (zh) 2020-04-21 2020-04-21 一种基于深度学习的文物艺术品领域图像相似度度量方法

Country Status (1)

Country Link
CN (1) CN111523592B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090313294A1 (en) * 2008-06-11 2009-12-17 Microsoft Corporation Automatic image annotation using semantic distance learning
CN104636969A (zh) * 2013-11-15 2015-05-20 易拍全球(北京)科贸有限公司 艺术品限时竞拍系统
CN106951930A (zh) * 2017-04-13 2017-07-14 杭州申昊科技股份有限公司 一种适用于变电站巡检机器人的仪表定位方法
CN109870447A (zh) * 2018-09-28 2019-06-11 天津大学 判定光源对中国脆弱文物照明损伤度的方法
CN110135295A (zh) * 2019-04-29 2019-08-16 华南理工大学 一种基于迁移学习的无监督行人重识别方法
US20190273948A1 (en) * 2019-01-08 2019-09-05 Intel Corporation Method and system of neural network loop filtering for video coding
CN110517196A (zh) * 2019-08-12 2019-11-29 西安电子科技大学 一种sar图像降噪方法及系统
CN110705600A (zh) * 2019-09-06 2020-01-17 西安交通大学 一种基于互相关熵的多深度学习模型融合方法、终端设备及可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090313294A1 (en) * 2008-06-11 2009-12-17 Microsoft Corporation Automatic image annotation using semantic distance learning
CN104636969A (zh) * 2013-11-15 2015-05-20 易拍全球(北京)科贸有限公司 艺术品限时竞拍系统
CN106951930A (zh) * 2017-04-13 2017-07-14 杭州申昊科技股份有限公司 一种适用于变电站巡检机器人的仪表定位方法
CN109870447A (zh) * 2018-09-28 2019-06-11 天津大学 判定光源对中国脆弱文物照明损伤度的方法
US20190273948A1 (en) * 2019-01-08 2019-09-05 Intel Corporation Method and system of neural network loop filtering for video coding
CN110135295A (zh) * 2019-04-29 2019-08-16 华南理工大学 一种基于迁移学习的无监督行人重识别方法
CN110517196A (zh) * 2019-08-12 2019-11-29 西安电子科技大学 一种sar图像降噪方法及系统
CN110705600A (zh) * 2019-09-06 2020-01-17 西安交通大学 一种基于互相关熵的多深度学习模型融合方法、终端设备及可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
R. OLMSTEAD: "Linear filtering of spatially invariant image sequences for feature separation under three types of image noise", 《PROCEEDINGS OF THE THIRTY-FOURTH SOUTHEASTERN SYMPOSIUM ON SYSTEM THEORY (CAT. NO.02EX540)》 *
熊庆如: "基于提取权重的概率神经网络算法在陶瓷鉴定中的应用", 《数学的实践与认识》 *
阚雨婷: "无人机视角下的特征匹配引导粒子滤波跟踪算法", 《南通大学学报(自然科学版)》 *

Also Published As

Publication number Publication date
CN111523592B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
Li et al. An automatic iris occlusion estimation method based on high-dimensional density estimation
CN107403084B (zh) 一种基于步态数据的身份识别方法
Admasu et al. Ethiopian sign language recognition using Artificial Neural Network
Kishore et al. Conglomeration of hand shapes and texture information for recognizing gestures of Indian sign language using feed forward neural networks
Gao et al. Local face sketch synthesis learning
CN115205521B (zh) 基于神经网络的厨余垃圾检测方法
da Silva et al. Improved texture image classification through the use of a corrosion-inspired cellular automaton
JP2012527665A (ja) 芸術作品の原作者を識別するための装置および方法
Keyvanpour et al. An analytical review of texture feature extraction approaches
CN107229949A (zh) 一种复杂光照下图像特征提取方法
Huang et al. Comparison of different image denoising algorithms for Chinese calligraphy images
CN105631441A (zh) 一种人脸识别方法
CN107967495B (zh) 一种铜镜文物识别系统和方法
CN111523592A (zh) 一种基于深度学习的文物艺术品领域图像相似度度量算法
Garrigan The effect of contour closure on shape recognition
CN108596245A (zh) 一种基于多视图协同完整鉴别子空间学习的人脸识别方法
Xiong et al. Texture classification based on EMD and FFT
CN112116021A (zh) 一种宝石相似性度量数据处理方法及相关设备
Kuntitan et al. Using deep learning for the image recognition of motifs on the Center of Sukhothai Ceramics
CN109191447B (zh) 一种基于几何曲率分析的三维网格质量评价方法
Lemarchand et al. Noisebreaker: Gradual image denoising guided by noise analysis
Sanjekar et al. Wavelet based multimodal biometrics with score level fusion using mathematical normalization
Shirdhonkar et al. Off-line handwritten signature retrieval using curvelet transforms
CN111079715B (zh) 一种基于双字典学习的遮挡鲁棒性人脸对齐方法
Kaur et al. Offline signature verification in Punjabi based on SURF features and critical point matching using HMM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: B2301, 21st Floor, No. 2, Fuchengmenwai Street, Xicheng District, Beijing 100000

Applicant after: Yiyuan digital (Beijing) Technology Group Co.,Ltd.

Address before: Room 102, 1st Floor, No. 9, Xiaguangli, Chaoyang District, Beijing 100000

Applicant before: EPAILIVE AUCTION (BEIJING) Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230707

Address after: B2301, floor 21, No. 2, Fuchengmenwai street, Xicheng District, Beijing 100037

Patentee after: Yiyuan digital (Beijing) Technology Group Co.,Ltd.

Patentee after: Yiyuan Digital (Beijing) Big Data Technology Co.,Ltd.

Address before: B2301, 21st Floor, No. 2, Fuchengmenwai Street, Xicheng District, Beijing 100000

Patentee before: Yiyuan digital (Beijing) Technology Group Co.,Ltd.