一种基于深度学习的文物艺术品领域图像相似度度量算法
技术领域
本发明属于图像相似度度量领域,更具体的说,涉及一种通过卷积神经网络提取图片特征,随后完成图片对之间的特征距离计算,进而转化为相似度数值的算法。
背景技术
科技的发展革新为日常生产生活带来了巨大的影响。计算机、互联网行业的蓬勃发展,为我们带来了海量数据,不得不承认,身处于大数据时代,无论哪个行业都有着将数据转化为效率和应用价值的机会。
文物艺术品行业也许没有衣食住行等领域更加贴近生活,但在人民物质生活日益提高的今天,精神层面的提升,文化底蕴的培养逐渐得到广泛重视,赋予在文物艺术品上的传承价值让这个行业近年来呈现出蓬勃发展的趋势。其与先进技术的结合为这一领域注入了新的活力,文物艺术品图片相似度的度量不仅为用户提供智能简便的冗余信息过滤方式,更在打击出土出水被盗文物等文物监测、搜索、比对等方面带来了新的变化,在一定程度上对以往单纯的人工监测起到了辅助作用。
卷积神经网络作为近些年来计算机领域的重要成果之一,在图像处理、计算机视觉方向得到了深入研究与广泛应用,为实现人工智能带来了重大的变革。卷积神经网络以原始图像数据作为输入,通过训练的方式自主学习数据特征,丰富的训练数据帮助神经网络提取到图像的重要特征,大量的计算神经元从某种程度上实现了对大脑运算方式的模拟,学习策略和网络结构的多样化更是进一步帮助性能的提高与优化,前人对经典网络结构的探索和在庞大数据集上的预训练结果更是为后来者提供了理论经验和实现基础。在人脸识别、图像分类、目标检测等方面的学术成果与工业落地也进一步验证了卷积神经网络的强大。
因此,鉴于文物艺术品种类繁多、品目庞杂,很多艺术品具有唯一性的特点以及卷积神经网络在处理图像问题有着一定优势的综合考量,本发明以卷积神经网络为基础提出一种基于深度学习的文物艺术品领域图像相似度度量方法,实现深度学习、神经网络技术在相关领域的成功应用。
发明内容
结合上述文物艺术品领域的特点及现有文献资料中相关方法介绍较少的情况,本发明利用卷积神经网络,提供了一种基于深度学习的文物艺术品领域的图片相似度度量方法。该方法可以实现对输入文物艺术品图像特征的有效提取,并采用新方法处理图像特征,转化为相似度度量,一定程度上符合大众对图片相似与否的认知,且不同于现有文物艺术品领域相关研究,因此有一定的创新性和应用价值。
本发明提供如下技术方案:
一种基于深度学习的文物艺术品领域图像相似度度量算法,包括以下步骤:
步骤1,图片特征提取:首先需要对两张文物艺术品图片进行特征提取,使用残差网络实现对图片语义特征的提取;其次使用在2012年的ILSVRC分类数据集预训练过的resnet-18网络参数作为初始权重,在预训练的基础上进一步通过分类任务优化初始权重;所述通过分类任务优化初始权重是指从计算机视觉角度出发,将文物艺术品分为绘画、书法、瓷器、贝器、名人手迹、青铜器、石器、玉器、唐卡、文房用具、竹木牙角匏器、紫砂器、碑帖拓片、珐琅器、佛像、古典家具、古乐器、古钱币、骨器、金属器、料器、漆器共22个类别,在经由上述预训练过的resnet18中以分类任务为目标继续训练,分类准确率达到较高标准后将此时的resnet18网络参数作为特征提取网络的初始参数,最后连接512维、256维的全连接层对所提取特征进行降维与编码,完成图片特征提取,则对于每一张文物艺术品图片输入都能够得到相对应的图片特征;
步骤2,损失函数选择:
TripletLoss损失函数输入为一个三元组,分别是样本数据Anchor、与样本数据属于同一类的正例样本Positive、与样本数据不属于同一类的负例样本Negative,其基础原理在于缩小样本数据和正例样本之间的距离,增大样本数据和负例样本之间的距离,公式表示如下:
在上述公式1及公式2中,其中
分别为样本数据、正例样本、负例样本;α为样本与正样本距离和负样本距离的最小间隔;T包含了所有可能出现的三元组对;最终使用的特征提取网络的初始参数为在文物艺术品分类数据集中微调过的参数权值,同时,使用TripletLoss损失函数训练分类数据集,并将此时的网络参数作为训练整个网络的初始权重,再以 TripletLoss作为损失函数;
步骤3,相似程度计算:
步骤301:假设对于两张文物艺术品图片记为:ImageA和ImageB计算相似度,取其中一张图片,如ImageA,通过步骤1及步骤2所述神经网络必然会得到相应的特征向量记为:FeatureA;以ImageA为基础,添加适当旋转、椒盐噪声、裁剪等处理产生新的图片记为:ImageA_noise,通过神经网络得到与其对应的特征向量记为:FeatureA_noise,从人眼感知等视觉角度理解,虽然两张图片在细微之处有差别,但是仍属于相似图片,通过欧式距离将两张图片之间的距离量化,此距离称为可接受误差距离,公式3如下:
步骤302:对另一图片ImageB提取特征向量(FeatureB),计算FeatureA 与FeatureB的欧式距离,公式4如下:
步骤303:比较d(A&noise)和d(A&B)之间的大小,如果前者大于等于后者,即两张图片的距离在可接受误差距离之内,认为两张图片极为相似;如果前者小于后者,即两张图片的距离在可接受误差距离范围外,表示两张图片有部分相似又有部分不相似,为进一步将这种相似程度以量化形式表达,其公式5如下:
S(d(A&noise),d(A&B))=(1/ed(A&B)α*d(A&noise))
其中由于d(A&B)较大,保证分母指数部分始终大于0,分母恒大于1,函数整体恒小于1,且随着d(A&B)增大,函数值逐渐接近于0,符合普遍认知中随着两张图片特征距离增加,相似性趋于变小的认知,α为松弛因子,即根据不同实际情况对整体相似度函数进行适当调节。
为了证明本发明所述方法的有效性,在caffe深度学习框架下进行实现。由于本发明涉及领域与大众领域稍有不同,目前尚未见到关于文物艺术品领域大型数据集,因此本实验数据集为自行人工标注的数据集,一共涉及绘画、书法、瓷器、贝器、名人手迹、青铜器、石器、玉器、唐卡、文房用具、竹木牙角匏、紫砂器、碑帖拓片、珐琅器、佛像、古典家具、古乐器、古钱币、骨器、金属器、料器、漆器共22个分类,总计两百多万张图片数据,训练集与测试集比例为4∶1。训练数据统一归一化到长、宽均为256像素尺寸,并通过镜面翻转、随机剪裁、小角度旋转、椒盐噪声等常见图片处理方式进行数据扩充至8~10倍。
附图说明
图1是本发明方法步骤1中特征提取网络模型示意图。
图2是本发明方法步骤3的流程图。
图3是本发明步骤3中ImageA、ImageA_noise、ImageB碑帖拓片样本展示图。
图4是本发明步骤3中ImageA、ImageA_noise、ImageB贝器样本展示图。
图5是本发明步骤3中ImageA、ImageA_noise、ImageB珐琅器样本展示图。
图6是本发明步骤3中ImageA、ImageA_noise、ImageB佛像样本展示图。
图7是本发明步骤3中ImageA、ImageA_noise、ImageB古典家具样本展示图。
图8是本发明步骤3中ImageA、ImageA_noise、ImageB古乐器样本展示图。
图9是本发明步骤3中ImageA、ImageA_noise、ImageB古钱币样本展示图。
图10是本发明步骤3中ImageA、ImageA_noise、ImageB骨器样本展示图。
图11是本发明步骤3中ImageA、ImageA_noise、ImageB金属器样本展示图。
图12是本发明步骤3中ImageA、ImageA_noise、ImageB料器样本展示图。
图13是本发明步骤3中ImageA、ImageA_noise、ImageB名人手迹样本展示图。
图14是本发明步骤3中ImageA、ImageA_noise、ImageB漆器样本展示图。
图15是本发明步骤3中ImageA、ImageA_noise、ImageB青铜器样本展示图。
图16是本发明步骤3中ImageA、ImageA_noise、ImageB石器样本展示图。
图17是本发明步骤3中ImageA、ImageA_noise、ImageB绘画样本展示图。
图18是本发明步骤3中ImageA、ImageA_noise、ImageB唐卡样本展示图。
图19是本发明步骤3中ImageA、ImageA_noise、ImageB文房用具样本展示图。
图20是本发明步骤3中ImageA、ImageA_noise、ImageB玉器样本展示图。
图21本发明步骤3中ImageA、ImageA_noise、ImageB竹木牙角匏器样本展示图。
图22是本发明步骤3中ImageA、ImageA_noise、ImageB紫砂器样本展示图。
图23是本发明步骤3中ImageA、ImageA_noise、ImageB书法样本展示图。
图24是本发明步骤3中ImageA、ImageA_noise、ImageB瓷器样本展示图。
图25是使用本发明方法碑帖拓片的最终效果展示图。
图26是使用本发明方法贝器的最终效果展示图。
图27是使用本发明方法珐琅器的最终效果展示图。
图28是使用本发明方法佛像的最终效果展示图。
图29是使用本发明方法古典家具的最终效果展示图。
图30是使用本发明方法古乐器的最终效果展示图。
图31是使用本发明方法古钱币的最终效果展示图。
图32是使用本发明方法骨器的最终效果展示图。
图33是使用本发明方法金属器的最终效果展示图。
图34是使用本发明方法料器的最终效果展示图。
图35是使用本发明方法名人手迹的最终效果展示图。
图36是使用本发明方法漆器的最终效果展示图。
图37是使用本发明方法青铜器的最终效果展示图。
图38是使用本发明方法石器的最终效果展示图。
图39是使用本发明方法绘画的最终效果展示图。
图40是使用本发明方法唐卡的最终效果展示图。
图41是使用本发明方法文房用具的最终效果展示图。
图42是使用本发明方法玉器的最终效果展示图。
图43是使用本发明方法竹木牙角匏器的最终效果展示图。
图44是使用本发明方法紫砂器的最终效果展示图。
图45是使用本发明方法书法的最终效果展示图。
图46是使用本发明方法瓷器的最终效果展示图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种基于深度学习的文物艺术品领域图像相似度度量算法:包括以下步骤:
步骤1,图片特征提取,如图1所示:
为了实现对两张图片的相似度度量,首先需要对两张文物艺术品图片进行特征提取。本发明中,使用残差网络实现对图片语义特征的提取。一般认为网络层数的增加会提高神经网络的性能,但事实证明单纯增加网络深度会导致性能的退化,而残差网络的出现在一定程度上规避了这种由于网络深度增加而带来的风险,被广泛的应用于计算机视觉领域。
事实表明,使用在大型数据集上预训练的网络参数作为初始权值训练神经网络往往有着更好的效果。2012年的ILSVRC分类数据集包含有1000个分类,近13万张图片数据,是近年来常用的大型数据集之一。因此本发明使用在此数据集上预训练过的resnet-18网络参数作为初始权重。为了让网络更加适应于文物艺术品领域,在预训练的基础上进一步通过分类任务优化初始权重。
具体来说,从计算机视觉角度出发,将文物艺术品分为绘画、书法、瓷器、贝器、名人手迹、青铜器、石器、玉器、唐卡、文房用具、竹木牙角匏器、紫砂器、碑帖拓片、珐琅器、佛像、古典家具、古乐器、古钱币、骨器、金属器、料器、漆器共22个类别,在经由上述预训练过的resnet18中以分类任务为目标继续训练,分类准确率达到较高标准后将此时的resnet18网络参数作为特征提取网络的初始参数,最后连接512维、256维的全连接层对所提取特征进行降维与编码,完成图片特征提取,则对于每一张文物艺术品图片输入都可以得到相对应的图片特征。以书法图片为例:我们将书法图片归一化到宽为256像素,高为256像素的尺寸,作为神经网络的输入,此处的神经网络即为预训练过的resnet-18,由于神经网络有着层级结构,因此在原resnet-18结构后面顺次连接两个全连接层,这两个全连接层有512维、256维的输出。因此对于一张输入的书法图片最终是一个256维的输出。上述resnet-18结构是对图片进行特征提取,后面的两个全连接是降维与编码,可以理解为将一张图片通过上述过程转换成一个256维的向量。
步骤2,损失函数选择:
对于两张文物艺术品图片的相似程度的度量和人脸识别任务有着相似之处,人脸识别的重点是判断两张图中的人脸是否是同一个人,从某种程度上说也是判断两张人脸的相似程度。在此,我们借鉴在人脸领域应用效果较为理想的TripletLoss损失函数作为本发明中损失函数。而常见的softmax损失函数通常在分类问题中体现出更大的优势,但在本文场景中并不十分适用。
TripletLoss损失函数输入为一个三元组,分别是样本数据(Anchor)、与样本数据属于同一类的正例样本(Positive)、与样本数据不属于同一类的负例样本(Negative)。其基础原理在于缩小样本数据和正例样本之间的距离,增大样本数据和负例样本之间的距离,公式表示如下:
在公式1及公式2中,其中
分别为样本数据、正例样本、负例样本;α为样本与正样本距离和负样本距离的最小间隔;T包含了所有可能出现的三元组对。
上述中,最终使用的特征提取网络的初始参数为在文物艺术品分类数据集中微调过的参数权值。同时,本发明中使用TripletLoss损失函数训练分类数据集,以达到对前章得到的网络参数再次微调,此处微调可以理解为在前者基础上继续训练神经网络,而下一句中提到分类准确率有所上升即证明本次微调在分类阶段起到积极效果,本次微调后的分类准确率较前章有2%左右的提升,并将此时的网络参数作为训练整个网络的初始权重,再以TripletLoss作为损失函数。
此外,在数据集中样本数据的正例样本数量往往会少于负例样本数量,在众多的正负例样本中采用随机选择的策略有时会导致神经网络性能不能达到预期。如果神经网络可以正确区分与样本数据相似的负例样本、与样本数据不相似的正例样本,最终效果会更好,这种思想在很多其他计算机视觉任务中也得到印证。本发明中借鉴TripletSelection做法,对三元组的选择采取类似措施,增加了三元组中距离较远的正例样本、距离较近的负例样本比例,同时为进一步贴合人眼对图片相似程度的感知,在对三元组进行选择时加入人工引导部分。因此所选择的三元组不仅有随机生成,TripletSelection 策略产生,还加入人工判断产生的正负例三元组样本,多种方法结合引导神经网络有更好的表现。
步骤3,相似程度计算:
经由步骤1及步骤2所述的神经网络与损失函数约束可以很好的提取到图片特征,转化为向量形式输出,但此种形式往往不能直接作为最终结果呈现,还需要对文物艺术品图片对的特征做处理,即图片间的相似程度计算。图片之间的相似程度与长度单位、电流单位等数学、物理单位不同,目前少有对其界定,即两张图片达到什么标准可以称的上是相似程度为90%或40%,大多数基于人眼感知。
结合实际情况,本发明所使用的图像相似度计算过程如下,如图2所示:
步骤301:假设对于两张文物艺术品图片记为:ImageA和ImageB计算相似度,取其中一张图片,如ImageA,通过步骤1及步骤2所述神经网络必然会得到相应的特征向量记为:FeatureA;以ImageA为基础,添加适当旋转、椒盐噪声、裁剪等处理产生新的图片记为:ImageA_noise,通过神经网络得到与其对应的特征向量记为:FeatureA_noise,从人眼感知等视觉角度理解,虽然两张图片在细微之处有差别,但是仍属于相似图片。通过欧式距离将两张图片之间的距离量化,此距离称为可接受误差距离。公式3如下:
步骤302:对另一图片ImageB提取特征向量(FeatureB),计算FeatureA 与FeatureB的欧式距离,公式4如下:
步骤303:比较d(A&noise)和d(A&B)之间的大小,如果前者大于等于后者,即两张图片的距离在可接受误差距离之内,认为两张图片极为相似;如果前者小于后者,即两张图片的距离在可接受误差距离范围外,表示两张图片有部分相似又有部分不相似,为进一步将这种相似程度以量化形式表达,其公式5如下:
S(d(A&noise),d(A&B))=(1/ed(A&B)-α*d(A&noise))
其中由于d(A&B)较大,保证分母指数部分始终大于0,分母恒大于1,函数整体恒小于1,且随着d(A&B)增大,函数值逐渐接近于0,符合普遍认知中随着两张图片特征距离增加,相似性趋于变小的认知,α为松弛因子,即可以根据不同实际情况对整体相似度函数进行适当调节。如图3-图24所示,图3-24展示出A、A_noise、B之间的区别,由于对两张图片相似度度量缺乏统一的定量衡量准则,一部分是根据经验等判断,在此我们以一张图片及其噪声图片之间的欧式距离d(A&noise)作为参考量对两张图片的相似度进行衡量,为本发明所述相似度找到一个参考值,分别展示了绘画、书法、瓷器、贝器、名人手迹、青铜器、石器、玉器、唐卡、文房用具、竹木牙角匏、紫砂器、碑帖拓片、珐琅器、佛像、古典家具、古乐器、古钱币、骨器、金属器、料器、漆器共22个分类在ImageA、ImageA_noise、ImageB瓷器样本展示图
为了证明本发明所述方法的有效性,在caffe深度学习框架下进行实现。由于本发明涉及领域与大众领域稍有不同,目前尚未见到关于文物艺术品领域大型数据集,因此本实验数据集为自行人工标注的数据集,如图25-图46为在22分类中使用本发明所述方法的最终效果展示,本实验数据集为自行人工标注的数据集,一共涉及绘画、书法、瓷器、贝器、名人手迹、青铜器、石器、玉器、唐卡、文房用具、竹木牙角匏、紫砂器、碑帖拓片、珐琅器、佛像、古典家具、古乐器、古钱币、骨器、金属器、料器、漆器共22个分类,总计两百多万张图片数据,训练集与测试集比例为4∶1。训练数据统一归一化到长、宽均为256像素尺寸,并通过镜面翻转、随机剪裁、小角度旋转、椒盐噪声等常见图片处理方式进行数据扩充至8~10倍,图25-图46为在22 个分类中使用本专利所述方法的最终效果展示图,根据相关图中最右列相似程度百分比可以看出,越相像的两张图片相似程度越高,数值越大,反之越小,符合一般情况下人眼感知情况。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。