CN116051907A - 一种文物碎片精细分类方法、系统、介质、设备及终端 - Google Patents

一种文物碎片精细分类方法、系统、介质、设备及终端 Download PDF

Info

Publication number
CN116051907A
CN116051907A CN202310171272.7A CN202310171272A CN116051907A CN 116051907 A CN116051907 A CN 116051907A CN 202310171272 A CN202310171272 A CN 202310171272A CN 116051907 A CN116051907 A CN 116051907A
Authority
CN
China
Prior art keywords
fragments
cultural
convolution
features
cultural relic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310171272.7A
Other languages
English (en)
Inventor
王毅
郑宏志
王智波
闫小婕
李启航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest University
Original Assignee
Northwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest University filed Critical Northwest University
Priority to CN202310171272.7A priority Critical patent/CN116051907A/zh
Publication of CN116051907A publication Critical patent/CN116051907A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉中的图像处理技术领域,公开了一种文物碎片精细分类方法、系统、介质、设备及终端,通过基于样式的生成式对抗网络对现有秦俑碎块数据集进行数据增强;构建递归门控卷积自调节网络模型,在模型的特征提取层设计扩展邻域注意力机制,通过对秦俑碎块的轮廓线、厚度、曲率的物理特征以及颜色、纹理的文化特征进行局部注意力增强;在卷积层设计递归门控卷积,通过高阶空间交互对碎块的物理特征与文化特征进行联合学习,进而实现文物碎片的精细分类。本发明提供的文物碎块精细分类方法,可以有效提取文物碎块的复杂视觉外观特征,实现与部分特征缺失的联合解译,从而进行精细分类,为文物数字化保护与复原提供有效途径和手段。

Description

一种文物碎片精细分类方法、系统、介质、设备及终端
技术领域
本发明属于计算机视觉中的图像处理技术领域,尤其涉及一种文物碎片精细分类方法、系统、介质、设备及终端。
背景技术
目前,历史文化遗产是华夏民族血脉基因的重要载体,诞生于古代,不仅属于当代,更属于后代,传承保护好历史文物,就是守住了民族精神绵绵不断的根脉。其中兵马陶俑是文明的瑰宝,是维系民族精神的宝贵遗产。但历经千年地下与地上的双重破坏,大量精美珍贵的文物只能以碎块形式呈现。为还原文物原本样貌,必须对其进行修复保护,其中修复的重要一步便在于分类,通过将文物碎块通过颜色、纹理、厚度、曲率,断裂面等特征信息进行子集划分,以此降低拼接时的复杂程度,提高拼接成功率。目前常用的文物碎块数字化分类方法一是传统的陶瓷碎块分类方法:通过使用人工特征提取器提取特征,比如颜色直方图、灰度共生矩阵、gabor滤波器、LBP等方法提取碎块的颜色、纹理和形状特征,然后使用K-means、KNN、BP等传统分类算法进行分类。
由于文物数据的复杂性和模糊性特点,且随着深度学习的不断发展,传统分类算法在数据分类的表现上已经难以尽如人意,学者由此将目光转向卷积神经网络,通过使用基于卷积神经网络来进行图像分类。目前,基于神经网络的文物分类技术仍在发展阶段阶段,还有如下问题等待研究解决:
1.缺乏公开的碎块大规模数据库进行研究,有学者使用故宫博物院、其他地方博物院等网络来源的碎块数据,也有学者使用相关书籍的扫描图像和相关专业网站提供的碎块图片,但要么文物数据量少,无法实现精确分类,要么带来数据噪声,从而造成误分类问题,因此创建一个大规模且标准的文物数据库是切实且必要的。
2.以AlexNet、VGGNet、ResNet为代表的基础网络在网络分类中准确率不够高,鲁棒性不强,计算开销大。因此,亟需通过调整网络结构提高卷积网络的特征提取能力,并同时减少参数冗余,实现精度与速度的双重提升。
通过上述分析,现有技术存在的问题及缺陷为:
(1)目前的基于神经网络的文物分类技术缺乏公开的碎块大规模数据库,由于文物数据量少或存在数据噪声,无法实现精确分类或造成误分类问题。
(2)目前的基于神经网络的文物分类技术中,以AlexNet、VGGNet、ResNet为代表的基础网络在网络分类中准确率不够高,鲁棒性不强,计算开销大。
(3)高计算成本:目前的图像分类方法通常需要大量的计算资源来训练和评估,这可能是在资源有限的环境中采用的障碍。
(4)对抗性攻击的鲁棒性:现代深度学习模型很容易受到对抗性攻击,对图像的微小、难以察觉的变化可能导致模型对其错误分类。
发明内容
针对现有技术存在的问题,本发明提供了一种文物碎片精细分类方法、系统、介质、设备及终端,尤其涉及一种基于扩展邻域注意力机制的递归门控卷积自调节网络的文物碎片精细分类方法、系统、介质、设备及终端。
本发明是这样实现的,一种文物碎片精细分类方法,文物碎片精细分类方法包括:通过基于样式的生成式对抗网络对现有秦俑碎块数据集进行数据增强;构建递归门控卷积自调节网络模型做为主干网络,在模型的特征提取层设计扩展邻域注意力机制,通过对秦俑碎块的轮廓线、厚度、曲率的物理特征以及颜色、纹理的文化特征进行局部注意力增强;在卷积层设计递归门控卷积,通过高阶空间交互对碎块的物理特征与文化特征进行联合学习,增强分类网络对文化特征和物理特征联合解译的能力,进而实现文物碎片的精细分类。
进一步,文物碎片精细分类方法还包括:
对文物碎片进行数字化处理,构建数据集;构建DiNAT-gnConv-RegNet分类网络,并对网络进行初始化;输入训练数据,设置初始迭代次数K=0;分别进行网络输出值和误差计算,并判断误差是否满足要求;若误差不满足要求,则计算误差梯度中激活函数误差值,计算误差梯度并调整网络权值,令K=k+1,返回网络输出值和误差计算步骤;重新判断误差是否满足要求,若满足要求,则获得DiNAT-gnConv-RegNet分类网络参数,进而获得文物分类结果。
进一步,文物碎片精细分类方法包括以下步骤:
步骤一,将破碎佣体碎块进行数字化处理和数据增强,构建样本数据库;
步骤二,构建基于扩展邻域注意力机制的递归门控卷积自调节网络;
步骤三,下采样:将输入下采样到原始空间分辨率的四分之一并通过DiNATransformer编码器提取并发送特征信息;
步骤四,特征图被下采样到其空间大小的一半,并在级别之间的通道中加倍,获取更多全局背景;
步骤五,计算阈值:根据得到的权重和特征向量,进行注意力计算;
步骤六,门控卷积gnConv实现一阶空间交互和高阶空间交互;
步骤七,特征信息传入由全局平均池化、随机失活神经元函数和全连接层构成的RegHead输出层进行文物碎块的分类结果。
进一步,步骤一中,StyleGAN采用AdaIN机制的方式添加噪声,公式如下:
Figure BDA0004099453140000031
式中,xi为内容特征,y表示风格特征,μ和σ分别表示输入特征图xi的平均差和标准差。对输入特征图应用实例归一化后,StyleGAN利用风格信息对每个归一化空间特征图执行缩放,添加偏置。
确定数据的中间变量w,对w使用截断技巧,计算其他所有点到w的距离;对每个距离按照统一标准进行压缩,将数据点聚拢,使中间向量的空间分布控制在近似正态分布的空间,同时不改变点与点之间的距离关系,公式如下:
Figure BDA0004099453140000032
式中,w是映射网络mapping的输出,
Figure BDA0004099453140000033
是训练生成的中间向量w的均值,w′是生成网络的输入,ψ是截断系数。系数越大,潜在空间W密度越大;潜在向量空间越小,系统找到最佳中间向量w′的速度越快。通过对每个级别使用不同的ψ,模型控制每个级别上的特征值与平均特征值的差异量。
训练方式使用渐进式训练步骤,生成器和判别器两者渐进训练的模式使得生成器学习到不同尺度具有的特征;通过StyleGAN实现将原有秦俑碎块数据集按照1:10的比例进行数据集增强扩充,得到包含秦俑碎片的图像数据集。
文物碎块的数字化处理是将破碎佣体碎块实物进行特征提取后转化成计算机能够处理的数据格式,特征提取过程包括碎块拍摄、数据预处理和数据增强步骤;数字化处理完成后根据视觉外观特征进行分类,并标注对应标签,构建文物样本数据库;数据预处理包括归一化处理、裁剪处理;数据增强采用StyleGAN通过对碎片风格的多特征融合实现。
进一步,步骤二中,将扩展邻域注意力机制融入到RegNet网络中,通过对秦俑碎块的物理以及文化特征进行局部注意力增强,实现特征显著碎块分类。
进一步,步骤三中,将输入图像通过一系列卷积层来提取特征映射。然后将DiNA机制应用于特征图,以计算图像中每个像素的重要性。
进一步,步骤五中,对于输入X∈Rn×d,给定膨胀值δ,定义邻域大小为k的第i个令牌的邻域注意权重为
Figure BDA0004099453140000041
其中Q、K,V是X的线性投影,则:
Figure BDA0004099453140000042
Figure BDA0004099453140000043
式中,Bi,j是任何两个令牌i和j之间的相对位置偏差,将第i个令牌的q与其k个最近邻令牌的k做矩阵乘法,其中
Figure BDA0004099453140000044
表示令牌i的第j个最近邻令牌,满足j modδ=i modδ。根据相对位置将Bi,j添加到每个注意力权重中并扩展到所有像素(i,j),从而形成局部注意力的形式。
邻域大小为k的第i个令牌的邻域注意输出,定义为:
Figure BDA0004099453140000045
式中,DiNA是扩展的邻域注意力,d是嵌入维数,
Figure BDA0004099453140000046
是缩放参数;softmax为归一化指数函数,用于使注意力权重正常化。层膨胀值δ∈[1,[n/k]],其中n是令牌的数量,k是邻域大小。
DiNAT对特征图的每个像素周围创建一个扩大的邻域。这个邻域由膨胀率定义,膨胀率决定了邻域的大小。然后,注意力机制根据邻近中每个像素与其他像素的相似度来衡量其重要性。
进一步,步骤六中,设输入特征为
Figure BDA0004099453140000047
门控卷积的输出为:
Figure BDA0004099453140000048
Figure BDA0004099453140000049
式中,φin,φout是线性投影操作,用于完成通道维度的信息交流;f是逐通道的卷积;
Figure BDA00040994531400000410
其中Ωi是逐通道卷积的局部窗口,中心坐标为i,w为逐通道卷积的权重。
门控卷积的输出表达式是
Figure BDA0004099453140000051
及周边特征
Figure BDA0004099453140000052
的1阶相互作用。
实现高阶空间交互时,通过φin得到一系列的投影特征p0
Figure BDA0004099453140000053
Figure BDA0004099453140000054
卷积层在使用小内核大小从输入图像中提取低级特征后,这些特征再通过递归门控卷积层传递,捕获高阶空间相互作用:
pk+1=fk(qk)⊙gk(pk)/αk=0,1,...,n-1;
式中,每次递归通过除以α稳定训练,{fk}是系列的逐通道卷积操作,{gk}是在每次递归的过程匹配特征的通道数。
递归门控卷积层gnConv由若干递归子块组成。每个子块由两个卷积层组成,后面跟着一个门控机制。第一卷积层用于从输入中提取特征,而第二卷积层用于将这些特征与前一个递归子块的输出结合起来。
计算门控卷积时,直接将组合的特征
Figure BDA0004099453140000055
通过逐通道卷积完成;
Figure BDA0004099453140000056
将最后一次递归的输出qn输入到投影层φin得到gnConv的结果。利用gnConv实现某一特征和周边特征的n阶相互作用,通过递归门控卷积的高阶交互能力实现对碎块的物理特征与文化特征进行联合学习。
每一阶的通道维度均设置为指数递减的形式:
Figure BDA0004099453140000057
进一步,步骤七中,用门控卷积gnConv替换RegNet网络结构中的RegStage,同时通过采用两个深度卷积--7×7Convolution和全局过滤器GF实现gnConv捕获长期交互,进行物理和文化特征的联合解译。
其中,GF层为改进版本,一半的通道使用全局过滤器处理,另一半使用3×3深度卷积处理,并只在后期使用GF层保留更多的局部细节。
本发明的另一目的在于提供一种应用所述的文物碎片精细分类方法的文物碎片精细分类系统,文物碎片精细分类系统包括:
数据增强模块,用于将秦俑碎块进行数字化处理,通过基于样式的生成式对抗网络对现有秦俑碎块数据集进行数据增强,构建样本数据库;
模型构建模块,用于构建递归门控卷积自调节网络模型,在模型的特征提取层设计扩展邻域注意力机制,通过对秦俑碎块的轮廓线、厚度、曲率的物理特征以及颜色、纹理的文化特征进行局部注意力增强;
文物碎片精细分类模块,用于在卷积层设计递归门控卷积,通过高阶空间交互对碎块的物理特征与文化特征进行联合学习,实现文物碎片精细分类。
本发明的另一目的在于提供一种计算机设备,计算机设备包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行所述的文物碎片精细分类方法的步骤。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行所述的文物碎片精细分类方法的步骤。
本发明的另一目的在于提供一种信息数据处理终端,信息数据处理终端用于实现所述的文物碎片精细分类系统。
结合上述的技术方案和解决的技术问题,本发明所要保护的技术方案所具备的优点及积极效果为:
第一,针对上述现有技术存在的技术问题以及解决该问题的难度,紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等,详细、深刻地分析本发明技术方案如何解决的技术问题,解决问题之后带来的一些具备创造性的技术效果。具体描述如下:
本发明通过基于样式的生成式对抗网络(StyleGAN)对现有秦俑碎块数据集进行数据增强,满足RegNet网络训练规模的同时提升模型分类效果;其次,针对RegNet网络模型特征提取弱的问题,在模型的特征提取层设计扩展邻域注意力机制(DiNAT),通过对秦俑碎块的轮廓线、厚度、曲率的物理特征以及颜色、纹理的文化特征进行局部注意力增强,提升局部精细化特征,实现具有显著特征碎块的快速分类;同时,在卷积层设计递归门控卷积(gnConv),通过高阶空间交互对碎块的物理特征与文化特征进行联合学习,提升DiNAT-gnConv-RegNet模型的联合解译能力,有效解决因颜色模糊褪色、纹理磨损等显著特征部分缺失的碎块漏分、误分和错分问题。本发明的文物碎块精细分类方法可有效提取文物碎块的复杂视觉外观特征,实现与部分特征缺失的联合解译,从而进行精细分类,为文物数字化保护与复原提供有效途径和手段。
与现有分类技术相比,本发明还具有如下技术效果:
1.构建了高质量大规模的文物碎块数据样本库,为后续数据分类模型的训练提供良好的基础和支持,提高模型的分类的准确率。
2.采用的RegNet网络参数化的核心思想可表示为:好的网络的宽度和深度可以用一个量化的线性函数来解释,RegNet提供了简单而快速的网络,可以在各种令牌制度中很好地工作。
3.在RegNet网络中加入扩展邻域注意力机制(DiNAT),这种简单灵活且功能强大的稀疏全局注意力模式,允许感受野呈指数增长并捕获更远范围的上下文特征,而无需任何额外的计算成本。本发明通过模型利用渐进式膨胀变化,更优化地扩展感受野,而无需扩展到更大的窗口大小。通过对秦俑碎块的轮廓线、厚度、曲率的物理特征以及颜色、纹理的文化特征进行局部注意力增强,提升局部精细化特征,有利于增强文物碎块的特征提取能力,实现具有显著特征碎块的快速分类。
4.引入的门控递归卷积模块gnConv通过门控卷积和递归设计执行高阶空间交互,新操作具有高度的灵活性和可定制性,实现对碎块的物理特征与文化特征进行联合学习,提升DiNAT-gnConv-RegNet模型的联合解译能力,有效解决因颜色模糊褪色、纹理磨损等显著特征部分缺失的碎块漏分、误分和错分问题。
5.本发明提供的文物碎块精细分类方法可有效提取文物碎块的复杂视觉外观特征与部分特征缺失的联合解译,从而进行精细分类,有利于后续的文物拼接修复工作,极大节省修补的时间花费,提升拼接修复准确率,为文物拼接修复提供有效分类上的技术支持,同时促进了文化遗产的保护传承工作。
第二,把技术方案看做一个整体或者从产品的角度,本发明所要保护的技术方案具备的技术效果和优点,具体描述如下:
为解决现有技术存在的问题,本发明提供了一种基于扩展邻域注意力机制的递归门控卷积自调节网络(DiNAT-gnConv-RegNet),实现文物碎块精细分类的方法,提高了文物碎块的分类准确率,还提高了文物修补的效率和准确率。
本发明通过自适应网络RegNet作为主干网络,通过增加了网络深度和宽度,使其能够学习复杂的特征并很好地泛化到新数据。其次,RegNet使用网络通道的分组缩放来减少参数的数量并提高计算效率。
在特征提取层,办发明设计基于扩展邻域的注意力机制(DiNAT),将DiNAT机制应用于特征图,在图像中的每个像素周围创建一个扩大的邻域,这个邻域由膨胀率定义,膨胀率决定了邻域的大小。并使用注意力机制根据邻近中每个像素与其他像素的相似度来计算图像中每个像素的重要性。DiNAT允许模型根据任务的上下文,有选择地关注图像的不同部分。通过专注于最相关的特征,减少噪声并提高模型的准确性。同时该模型被设计为计算效率高,非常适合需要快速推断时间的实际应用。
同时在在卷积层设计递归门控卷积,输入特征映射与可学习滤波器进行卷积后,将结果按元素与前一个递归门的输出相乘。通过高阶空间交互对碎块的物理特征与文化特征进行联合学习,增强分类网络对文化特征和物理特征联合解译的能力,同时不需要大量参数。这使得它比其他使用更大内核或更复杂架构的模型在计算上更高效,进而实现文物碎片的精细分类。
第三,作为本发明的权利要求的创造性辅助证据,还体现在以下几个重要方面:
(1)本发明的技术方案转化后的预期收益和商业价值为:
本发明完成技术转化后,对于文物碎块图像分类具有极高的商业价值与使用价值,首先本发明已经通过实验证明在秦俑碎块图像分类上达到精细分类效果;同时在本实验室文物相关项目中发挥积极作用,例如:瓷片、秦腔脸谱、秦腔服装等一系列分类研究中具有良好的移植性,适用范围广泛,无论戏曲爱好者、文物收藏者还是文物研究人员,都可通过本发明实现自己不同的使用目的;本发明完成转化后,还具有如下优势:操作简单易上手,对于不同使用人群都可在短时间内具备对该发明的使用水平;同时该发明相比于其他基于卷积神经网络的分类模型体量更小,占用更少的内存,分类准确率提高的同时减少了分类的等待时间;同样在当前的大背景下,传统文物的保护成为热潮,本发明的出现顺应时代潮流。基于以上几点,可以说本发明在转化后具有极高的商业价值。
(2)本发明的技术方案解决了人们一直渴望解决、但始终未能获得成功的技术难题:
以前传统分类方法多依靠人工经验的判断,或者基于设置标签的方式进行分类,虽然可以保障分类结果的成功率,但耗时费力,过程繁琐;引入深度学习用于分类后,虽然卷积神经网络大大缩短了分类时间,但CNN对特征信息提取不充分、易陷入过拟合等问题,造成分类结果的错误表示,反而影响了后续的拼接过程;所以对于传统文物如何在降低时间复杂度的基础上提升分类准确度,一直是一个渴望被解决的技术难题,本发明通过自适应网络RegNet作为主干网络,通过增加了网络深度和宽度,使其能够学习复杂的特征并很好地泛化到新数据。其次,RegNet使用网络通道的分组缩放来减少参数的数量并提高计算效率。
在特征提取层,办发明设计基于扩展邻域的注意力机制(DiNAT),根据邻近中每个像素与其他像素的相似度来计算图像中每个像素的重要性。该模型被设计为计算效率高,非常适合需要快速推断时间的实际应用。
同时在在卷积层设计递归门控卷积,通过高阶空间交互对碎块的物理特征与文化特征进行联合学习,增强分类网络对文化特征和物理特征联合解译的能力,实现文物碎片的精细分类。
本发明通过上述方法有效的解决了分类时间复杂度与分类精度的双重矛盾,具有更高的分类准确率,更少的耗时,具有极高的使用价值和推广价值。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的文物碎片精细分类方法流程图;
图2是本发明实施例提供的文物碎片精细分类方法原理图;
图3是本发明实施例提供的秦俑碎片数据集样例示意图;
图4是本发明实施例提供的使用StyleGAN网络进行数据增强后的文物碎块数据集图;
图5A是本发明实施例提供的扩展邻域注意力机制架构图;
图5B是本发明实施例提供的DiNAT块图;
图6是本发明实施例提供的门控递归卷积模块图;
图7是本发明实施例提供的DiNAT-gnConv-RegNet的网络架构图;
图8A是本发明实施例提供的RegNet对破碎秦俑上半身分类效果图;
图8B是本发明实施例提供的DiNAT-gnConv-RegNet对破碎秦俑上半身分类效果图;
图8C是本发明实施例提供的RegNet对破碎秦俑裙摆分类效果图;
图8D是本发明实施例提供的DiNAT-gnConv-RegNet对破碎秦俑裙摆分类效果图;
图8E是本发明实施例提供的RegNet对破碎秦俑胸部分类效果图;
图8F是本发明实施例提供的DiNAT-gnConv-RegNet对破碎秦俑胸部分类效果图;
图9A是本发明实施例提供的训练准确率曲线对比图;
图9B是本发明实施例提供的训练损失曲线对比图;
图10A是本发明实施例提供的俑体头部示意图;
图10B是本发明实施例提供的俑体手臂示意图;
图10C是本发明实施例提供的俑体左腿示意图;
图10D是本发明实施例提供的俑体右腿示意图;
图10E是本发明实施例提供的俑体上半身示意图;
图10F是本发明实施例提供的俑体裙摆示意图;
图10G是本发明实施例提供的破碎俑体复原图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种文物碎片精细分类方法、系统、介质、设备及终端,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的文物碎片精细分类方法包括以下步骤:
S101,将秦俑碎块进行数字化处理,通过基于样式的生成式对抗网络对现有秦俑碎块数据集进行数据增强,构建样本数据库;
S102,构建基于扩展邻域注意力机制的递归门控卷积自调节网络模型;
S103,在模型特征提取层设计扩展邻域注意力机制,对秦俑碎块的轮廓线、厚度、曲率的物理特征以及颜色、纹理的文化特征进行局部注意力增强;
S104,在卷积层设计递归门控卷积,通过高阶空间交互对碎块的物理特征与文化特征进行联合学习,进而实现文物碎片精细分类。
作为优选实施例,如图2所示,本发明实施例提供的文物碎片精细分类方法具体包括以下步骤:
步骤1,将破碎佣体碎块进行数字化处理和数据增强,构建样本数据库;
StyleGAN采用类似于自适应实例归一化(AdaIN)机制的方式添加噪声,公式如下:
Figure BDA0004099453140000101
其中,xi为内容特征,y表示风格特征。在此过程中,首先对输入特征图应用实例归一化。然后,StyleGAN利用风格信息对每个归一化空间特征图执行缩放,添加偏置(μ和σ分别表示输入特征图xi的平均差和标准差)。
从数据分布来讲,低概率密度的数据在网络中表达能力弱,影响网络梯度的频率小,网络学习到其图像特征的能力随之相应减弱,因此需要找到数据的中间变量w,对w使用截断技巧,计算其他所有点到w的距离,对每个距离按照统一标准进行压缩,将数据点聚拢,使中间向量的空间分布控制在一个近似正态分布的空间里,同时不改变点与点之间的距离关系,过程如下:
Figure BDA0004099453140000111
其中,w是映射网络mapping的输出,
Figure BDA0004099453140000112
是训练生成的中间向量w的均值,w′是生成网络的输入,ψ是截断系数。系数越大,潜在空间W密度越大。这对于寻找精确匹配深度图的中间向量十分重要。潜在向量空间越小,系统找到最佳中间向量w′的速度越快。通过对每个级别使用不同的ψ,模型可以控制每个级别上的特征值与平均特征值的差异量。
训练方式方面使用渐进式训练步骤,生成器和判别器两者渐进训练的模式使得生成器更加轻松的学习到不同尺度具有的特征,逐渐使输出图像的特征不仅仅局限于原有训练数据集特征。传统风格迁移方法一种网络只对应一种风格,基于AdaIN可以快速实现任意图像风格的转换。并且通过截断技巧,更是可以将不同种类的特征进行多特征融合,生成具有新的特殊特征的图片。例如:针对秦俑碎块图像,可以将不同程度的破损特征移植到保存较完好的碎块上,得到足够多训练样本,覆盖测试集样本范围,从而保证模型对测试集的适用性。这对于文物碎块的后续分类工作具有很好的效果。
通过StyleGAN,实现将原有秦俑碎块数据集按照1:10的比例进行数据集增强扩充,得到了包含16000张秦俑碎片图像数据集,使得扩充后的秦俑碎片数据集可以满足后续深度学习分类模型的数据规模要求。
本发明实施例提供的步骤1中,文物碎块的数字化处理是将破碎佣体碎块实物进行特征提取后转化成计算机能够处理的数据格式,特征提取过程包括碎块拍摄、数据预处理、数据增强等步骤,数字化处理完成之后根据视觉外观特征进行分类,并标注对应标签,构建文物样本数据库;数据预处理包括归一化处理、裁剪处理;数据增强采用StyleGAN通过对碎片风格的多特征融合实现。
步骤2,构建基于扩展邻域注意力机制的递归门控卷积自调节网络。
本发明实施例提供的步骤2中,将扩展邻域注意力机制(DiNAT)融入到RegNet网络中,通过局部注意力增强提升网络对物理及文化特征的提取。
步骤3,下采样:首先将输入下采样到原始空间分辨率的四分之一并通过DiNATransformer编码器提取并发送特征信息。
步骤4,特征图被下采样到其空间大小的一半,并在级别之间的通道中加倍,获取更多全局背景。
步骤5,计算阈值:根据得到的权重和特征向量,进行注意力计算。
对于输入X∈Rn×d,给定一个膨胀值δ,定义邻域大小为k的第i个令牌的邻域注意权重为
Figure BDA0004099453140000121
其中Q、K,V是X的线性投影,则有公式(3)和(4):
Figure BDA0004099453140000122
Figure BDA0004099453140000123
其中,Bi,j是任何两个令牌i和j之间的相对位置偏差,将第i个令牌的q与其k个最近邻令牌的k做矩阵乘法,其中
Figure BDA0004099453140000124
表示令牌i的第j个最近邻令牌,满足j modδ=i modδ。根据相对位置将Bi,j添加到每个注意力权重中并扩展到所有像素(i,j),从而形成一种局部注意力的形式。
邻域大小为k的第i个令牌的邻域注意输出定义为式(5):
Figure BDA0004099453140000125
其中,DiNA是扩展的邻域注意力,d是嵌入维数,
Figure BDA0004099453140000126
是缩放参数,δ为前文定义的膨胀值,softmax为归一化指数函数,使注意力权重正常化。
层膨胀值δ∈[1,[n/k]],其中n是令牌的数量,k是邻域大小。由于膨胀值可变,因此提供了一个灵活的感受野,以此提取秦俑碎块的文化特征和物理特征。
步骤6,门控卷积gnConv实现一阶空间交互和高阶空间交互。
设输入特征为
Figure BDA0004099453140000127
门控卷积的输出为:
Figure BDA0004099453140000128
Figure BDA0004099453140000129
式中,φin,φout是线性投影操作,完成通道维度的信息交流,f是逐通道(Depth-wise)的卷积。
Figure BDA00040994531400001210
其中Ωi是逐通道卷积的局部窗口,中心坐标为i,w为逐通道卷积的权重。式(6)是
Figure BDA00040994531400001211
及其周边特征
Figure BDA00040994531400001212
的1阶相互作用。
实现高阶空间交互需首先通过φin得到一系列的投影特征p0
Figure BDA00040994531400001213
Figure BDA00040994531400001214
再以递归的方式进行门控卷积:
pk+1=fk(qk)⊙gk(pk)/αk=0,1,...,n-1  (8)
式中,每次递归通过除以α来稳定训练,{fk}是一系列的逐通道卷积操作,{gk}在每次递归的过程匹配特征的通道数。计算式(8)时,直接将组合的特征
Figure BDA0004099453140000131
通过一个逐通道卷积来完成,提高效率。
Figure BDA0004099453140000132
将最后一次递归的输出qn输入到投影层φin得到gnConv的结果。gnConv可以实现某一特征和其周边特征的n阶相互作用。在该分类方法中,通过递归门控卷积的高阶交互能力实现对碎块的物理特征与文化特征进行联合学习,提升DiNAT-gnConv-RegNet模型的联合解译能力,以此解决传统RegNet网络因特征缺失难以避免的漏分、误分和错分问题。
同时为避免高阶交互引入过多计算开销,每一阶的通道维度都设置为指数递减的形式:
Figure BDA0004099453140000133
本发明实施例提供的步骤6中,将扩展邻域注意力机制(DiNAT)融入到RegNet网络中,通过对秦俑碎块的物理及文化特征进行局部注意力增强,提升局部精细化特征,实现具有显著特征碎块的快速分类。
步骤7,特征信息传入由全局平均池化(Global Average Pooling,GAP)、随机失活神经元函数(Dropout)和全连接层(Fully Connected layer,FC)构成的RegHead输出层进行文物碎块的分类。
本发明实施例提供的步骤7中,用门控卷积gnConv替换RegNet网络结构中的RegStage,同时通过采用两个深度卷积:7×7Convolution和全局过滤器(GF)。以此实现gnConv捕获长期交互,进行物理和文化特征的联合解译,提升分类正确率。其中GF层为改进版本,其中一半的通道使用全局过滤器处理,另一半使用3×3深度卷积处理,并且只在后期使用GF层来保留更多的局部细节。
本发明实施例提供的文物碎片精细分类系统包括:
数据增强模块,用于将秦俑碎块进行数字化处理,通过基于样式的生成式对抗网络对现有秦俑碎块数据集进行数据增强,构建样本数据库;
模型构建模块,用于构建递归门控卷积自调节网络模型,在模型的特征提取层设计扩展邻域注意力机制,通过对秦俑碎块的轮廓线、厚度、曲率的物理特征以及颜色、纹理的文化特征进行局部注意力增强;
文物碎片精细分类模块,用于在卷积层设计递归门控卷积,通过高阶空间交互对碎块的物理特征与文化特征进行联合学习,实现文物碎片精细分类。
作为优选实施例,如图2所示,本发明实施例提供的基于扩展邻域注意力机制的递归门控卷积自调节网络的文物碎片精细分类方法具体包括以下步骤:
步骤1,采用数字化手段处理文物碎块。包括数据采集、数据预处理和数据增强三个步骤。
其中,数据采集为采集可视化研究所现有文物碎块。首先做好前期准备工作,将使用Sony相机拍摄的图像以JPG格式保存为RGB彩色图像,原始图像大小为(4224×3168),水平和垂直分辨率均为350dpi。
数据预处理的过程为分析并筛选采集到的所有文物碎块图像,根据颜色和纹理等视觉外观特征将采集到的碎块数据划分类别,并进行人工样本标注;将全部碎块进行归一化处理,归一化处理后的大小变为128×128,效果如图3所示。
步骤2,构建文物样本数据库。由于受外界条件及文物碎块自身磨损情况的限制,采集到的文物碎块数量有限,因此本发明采用StyleGAN网络通过对秦俑碎块旋转角度、亮度,位置等不同风格特征进行转换,同时加入噪声对数据集进行数据增强。图4表示进行数据增强后的文物碎块;经过步骤1对文物碎块进行数字化处理操作之后,每张文物数据对应一个数字标签,构建具有一定规模的文物样本数据库。
StyleGAN采用类似于(自适应实例归一化)AdaIN机制的方式添加噪声,公式如下:
Figure BDA0004099453140000141
其中,xi为内容特征,y表示风格特征。在此过程中,首先对输入特征图应用实例归一化。然后,StyleGAN利用风格信息对每个归一化空间特征图执行缩放,添加偏置(μ和σ分别表示输入特征图xi的平均差和标准差)。
从数据分布来讲,低概率密度的数据在网络中表达能力弱,影响网络梯度的频率小,网络学习到其图像特征的能力随之相应减弱,因此需要找到数据的中间变量w,对w使用截断技巧,计算其他所有点到w的距离,对每个距离按照统一标准进行压缩,将数据点聚拢,使中间向量的空间分布控制在一个近似正态分布的空间里,同时不改变点与点之间的距离关系,过程如下:
Figure BDA0004099453140000142
其中,w是映射网络mapping的输出,
Figure BDA0004099453140000151
是训练生成的中间向量w的均值,w′是生成网络的输入,ψ是截断系数。系数越大,潜在空间W密度越大。这对于寻找精确匹配深度图的中间向量十分重要。潜在向量空间越小,系统找到最佳中间向量w′的速度越快。通过对每个级别使用不同的ψ,模型可以控制每个级别上的特征值与平均特征值的差异量。
训练方式方面使用渐进式训练步骤,生成器和判别器两者渐进训练的模式使得生成器更加轻松的学习到不同尺度具有的特征,逐渐使输出图像的特征不仅仅局限于原有训练数据集特征。传统风格迁移方法一种网络只对应一种风格,基于AdaIN可以快速实现任意图像风格的转换。并且通过截断技巧,更是可以将不同种类的特征进行多特征融合,生成具有新的特殊特征的图片。例如:针对秦俑碎块图像,可以将不同程度的破损特征移植到保存较完好的碎块上,得到足够多训练样本,覆盖测试集样本范围,从而保证模型对测试集的适用性。这对于文物碎块的后续分类工作具有很好的效果。
通过StyleGAN,实现将原有秦俑碎块数据集按照1:10的比例进行数据集增强扩充,得到了包含16000张秦俑碎片图像数据集,使得本发明的秦俑碎片数据集可以满足后续深度学习分类模型的数据规模要求。
步骤3,下采样:将输入下采样到原始空间分辨率的四分之一;通过DiNATransformer编码器提取并发送特征信息,图5A为DiNAT架构示意图;其中DiNAT交替使用局部NA和全局DiNA,如图5B所示。
步骤4,特征图被下采样到其空间大小的一半,并在级别之间的通道中加倍,获取更多全局背景。
步骤5,计算阈值:根据得到的权重和特征向量,进行注意力计算。
对于输入X∈Rn×d,给定一个膨胀值δ,定义邻域大小为k的第i个令牌的邻域注意权重为
Figure BDA0004099453140000152
其中Q、K,V是X的线性投影,则有公式(3)和(4):
Figure BDA0004099453140000153
Figure BDA0004099453140000154
其中,Bi,j是任何两个令牌i和j之间的相对位置偏差,将第i个令牌的q与其k个最近邻令牌的k做矩阵乘法,其中
Figure BDA0004099453140000155
表示令牌i的第j个最近邻令牌,满足j modδ=i modδ。根据相对位置将Bi,j添加到每个注意力权重中,并扩展到所有像素(i,j),从而形成一种局部注意力的形式。
邻域大小为k的第i个令牌的邻域注意输出定义为式(5):
Figure BDA0004099453140000161
其中,DiNA是扩展的邻域注意力,d是嵌入维数,
Figure BDA0004099453140000162
是缩放参数,softmax为归一化指数函数,使注意力权重正常化。
层膨胀值δ∈[1,[n/k]],其中n是令牌的数量,k是邻域大小。由于膨胀值可变,因此提供了一个灵活的感受野,以此提取秦俑碎块的文化特征和物理特征。
步骤6,门控卷积gnConv实现一阶空间交互和高阶空间交互。
设输入特征为
Figure BDA0004099453140000163
门控卷积的输出为:
Figure BDA0004099453140000164
Figure BDA0004099453140000165
式中,φin,φout是线性投影操作,完成通道维度的信息交流,f是逐通道(Depth-wise)的卷积。
Figure BDA0004099453140000166
其中Ωi是逐通道卷积的局部窗口,中心坐标为i,w为逐通道卷积的权重。式(6)是
Figure BDA0004099453140000167
及其周边特征
Figure BDA0004099453140000168
的1阶相互作用。
实现高阶空间交互需首先通过φin得到一系列的投影特征p0
Figure BDA0004099453140000169
Figure BDA00040994531400001610
再以递归的方式进行门控卷积:
pk+1=fk(qk)⊙gk(pk)/αk=0,1,...,n-1  (8)
式中每次递归通过除以α稳定训练,{fk}是一系列的逐通道卷积操作,{gk}在每次递归的过程匹配特征的通道数。计算式(8)时,直接将组合的特征
Figure BDA00040994531400001611
通过一个逐通道卷积来完成,提高效率。
Figure BDA00040994531400001612
最后将最后一次递归的输出qn输入到投影层φin得到gnConv的结果。gnConv可以实现某一特征和其周边特征的n阶相互作用。在该分类方法中,通过递归门控卷积的高阶交互能力实现对碎块的物理特征与文化特征进行联合学习,提升DiNAT-gnConv-RegNet模型的联合解译能力,以此解决传统RegNet网络因特征缺失难以避免的漏分、误分和错分问题,图6为gnConv卷积模块。
同时为避免高阶交互引入太多计算开销,每一阶的通道维度都设置为指数递减的形式:
Figure BDA0004099453140000171
步骤7,特征信息传入由全局平均池化(Global Average Pooling,GAP)、随机失活神经元函数(Dropout)和全连接层(Fully Connected layer,FC)构成的RegHead输出层进行文物碎块的分类。
二、为了证明本发明的技术方案的创造性和技术价值,该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。
本发明设计了一种文物碎块精细分类方法,目前已经在基于秦俑碎块图像数据集上实现高精度分类效果,可以准确分类出秦俑碎块所属部位,如腿部、胸部、手部等等,为后续拼接奠定基础;同样在本研究所采集的文物瓷片具有良好的分类效果,可以准确分辨瓷片的图像文化特征和物理特征,通过对二者的联合解译,从而精细划分瓷片所属的不同类别,如青花瓷、邢窑白瓷、龙泉青瓷等;其次,本发明在研究传统秦腔戏曲上同样具有良好分类性能,在秦腔脸谱、动作造型、服装等各类别,经过学习训练后,均可达到精细分类效果,从而在传统文物保护方面具有良好的使用前景,在不同研究内容方面均可胜任,实现精细分类。
如图7所示,通过上述方法构建基于扩展邻域注意力机制的递归门控卷积自调节网络的文物碎块精细分类模型;图8A~图8F为传统方法与本方法在破碎佣体上半身、胸部和裙摆三个不同部位的分类效果。
如图8A~图8B所示,在秦俑上半身所框位置的碎块,由于自身表面显著特征的缺失,RegNet较难有效充分的提取到碎块的物理特征和文化特征,造成漏分类;而DiNAT-gnConv-RegNet模型通过加入基于扩展邻域的注意力机制(DiNAT),每隔一层在局部NA和稀疏全局DiNA之间切换,通过扩展感受野提升模型对碎块特征的深度提取,可以获取更多碎块所隐藏的精细特征,从而避免漏分类现象发生。从图8B可明显看到,使用DiNAT-gnConv-RegNet分类后进行匹配的上半身更加光滑,补全了缺失部分。
图8C~图8D所展示的框内部分,由于该碎块因磨损或其他原因与裙摆类碎块具有相似的曲率特征,RegNet网络对二者难以辨别,从而造成误分类;而DiNAT-gnConv-RegNet因为设计的基于扩展邻域的注意力机制(DiNAT),利用渐进式膨胀变化可以在提取秦俑碎块的物理特征外同样更好的获取秦俑碎块的文化特征,同时递归门控卷积(gnConv)通过将每一阶的通道维度都设置为指数递减的形式避免了冗余参数的产生,从而能够对于原本相似的曲率特征进行更加精确地计算,得出二者的差异,取得后续良好的匹配效果。
在图8E~图8F中,图8E是根据RegNet网络进行分类为依据所进行的匹配效果,将原本属于手臂类的碎块错分类到胸部,从而造成后续拼接的混乱;而DiNAT-gnConv-RegNet通过设计的具有高阶空间交互能力的递归门控卷积(gnConv),通过与门控卷积输入的一阶自适应交互,避免了因图片大小不同而降低注意力机制的效果,同时再通过高阶空间交互实现秦俑碎块文化特征和物理特征的联合解译,降低模型过拟合的风险,从而提高分类结果的准确性。
图9A和图9B为训练结果准确率与损失曲线图。从图中可以明显看出,无论是分类准确率还是失误率,DiNAT-gnConv-RegNet都明显优于仅使用RegNet网络的分类效果。在图9A中DiNAT-gnConv-RegNet分类准确率接近1,并在附近波动,而RegNet分类准确率仅在0.8附近;而在图9B中,DiNAT-gnConv-RegNet分类损失远远低于RegNet,且RegNet波动幅度剧烈,从0.6到1区间内大范围浮动,效果较差。
图10A~图10G为本发明实施例提供的DiNAT-gnConv-RegNet分类方法实现精准分类后的破碎佣体复原图。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种文物碎片精细分类方法,其特征在于,文物碎片精细分类方法包括:通过基于样式的生成式对抗网络对现有秦俑碎块数据集进行数据增强;构建递归门控卷积自调节网络模型做为主干网络,在模型的特征提取层设计扩展邻域注意力机制,通过对秦俑碎块的轮廓线、厚度、曲率的物理特征以及颜色、纹理的文化特征进行局部注意力增强;在卷积层设计递归门控卷积,通过高阶空间交互对碎块的物理特征与文化特征进行联合学习,增强分类网络对文化特征和物理特征联合解译的能力,进而实现文物碎片的精细分类。
2.如权利要求1所述的文物碎片精细分类方法,其特征在于,文物碎片精细分类方法还包括:
对文物碎片进行数字化处理,构建数据集;构建DiNAT-gnConv-RegNet分类网络,并对网络进行初始化;输入训练数据,设置初始迭代次数K=0;分别进行网络输出值和误差计算,并判断误差是否满足要求;若误差不满足要求,则计算误差梯度中激活函数误差值,计算误差梯度并调整网络权值,令K=k+1,返回网络输出值和误差计算步骤;重新判断误差是否满足要求,若满足要求,则获得DiNAT-gnConv-RegNet分类网络参数,进而获得文物分类结果。
3.如权利要求1所述的文物碎片精细分类方法,其特征在于,文物碎片精细分类方法包括以下步骤:
步骤一,将破碎佣体碎块进行数字化处理和数据增强,构建样本数据库;
步骤二,构建基于扩展邻域注意力机制的递归门控卷积自调节网络;
步骤三,下采样:将输入下采样到原始空间分辨率的四分之一并通过DiNATransformer编码器提取并发送特征信息;
步骤四,特征图被下采样到其空间大小的一半,并在级别之间的通道中加倍,获取更多全局背景;
步骤五,计算阈值:根据得到的权重和特征向量,进行注意力计算;
步骤六,门控卷积gnConv实现一阶空间交互和高阶空间交互;
步骤七,特征信息传入由全局平均池化、随机失活神经元函数和全连接层构成的RegHead输出层进行文物碎块的分类。
4.如权利要求3所述的文物碎片精细分类方法,其特征在于,步骤一中,StyleGAN采用AdaIN机制的方式添加噪声,公式如下:
Figure FDA0004099453130000021
式中,xi为内容特征,y表示风格特征,μ和σ分别表示输入特征图xi的平均差和标准差;对输入特征图应用实例归一化后,StyleGAN利用风格信息对每个归一化空间特征图执行缩放,添加偏置;
确定数据的中间变量w,对w使用截断技巧,计算其他所有点到w的距离;对每个距离按照统一标准进行压缩,将数据点聚拢,使中间向量的空间分布控制在近似正态分布的空间,同时不改变点与点之间的距离关系,公式如下:
Figure FDA0004099453130000022
式中,w是映射网络mapping的输出,
Figure FDA0004099453130000023
是训练生成的中间向量w的均值,w′是生成网络的输入,ψ是截断系数;系数越大,潜在空间W密度越大;潜在向量空间越小,系统找到最佳中间向量w′的速度越快;通过对每个级别使用不同的ψ,模型控制每个级别上的特征值与平均特征值的差异量;
训练方式使用渐进式训练步骤,生成器和判别器两者渐进训练的模式使得生成器学习到不同尺度具有的特征;通过StyleGAN实现将原有秦俑碎块数据集按照1:10的比例进行数据集增强扩充,得到包含秦俑碎片的图像数据集;
文物碎块的数字化处理是将破碎佣体碎块实物进行特征提取后转化成计算机能够处理的数据格式,特征提取过程包括碎块拍摄、数据预处理和数据增强步骤;数字化处理完成后根据视觉外观特征进行分类,并标注对应标签,构建文物样本数据库;数据预处理包括归一化处理、裁剪处理;数据增强采用StyleGAN通过对碎片风格的多特征融合实现;
步骤二中,将扩展邻域注意力机制融入到RegNet网络中,通过对秦俑碎块的物理以及文化特征进行局部注意力增强,实现特征显著碎块分类;
步骤三中,将输入图像通过一系列卷积层来提取特征映射。然后将DiNA机制应用于特征图,以计算图像中每个像素的重要性。
5.如权利要求3所述的文物碎片精细分类方法,其特征在于,步骤五中,对于输入X∈Rn ×d,给定膨胀值δ,定义邻域大小为k的第i个令牌的邻域注意权重为
Figure FDA0004099453130000039
其中Q、K,V是X的线性投影,则:
Figure FDA0004099453130000031
Figure FDA0004099453130000032
式中,Bi,j是任何两个令牌i和j之间的相对位置偏差,将第i个令牌的q与其k个最近邻令牌的k做矩阵乘法,其中
Figure FDA0004099453130000033
表示令牌i的第j个最近邻令牌,满足j modδ=imodδ;根据相对位置将Bi,j添加到每个注意力权重中并扩展到所有像素(i,j),从而形成局部注意力的形式;
邻域大小为k的第i个令牌的邻域注意输出,定义为:
Figure FDA0004099453130000034
式中,DiNA是扩展的邻域注意力,d是嵌入维数,
Figure FDA0004099453130000035
是缩放参数;softmax为归一化指数函数,用于使注意力权重正常化;层膨胀值δ∈[1,[n/k]],其中n是令牌的数量,k是邻域大小;DiNAT对特征图的每个像素周围创建一个扩大的邻域,邻域由膨胀率定义,膨胀率决定邻域的大小;然后,注意力机制根据邻近中每个像素与其他像素的相似度来衡量其重要性。
6.如权利要求3所述的文物碎片精细分类方法,其特征在于,步骤六中,设输入特征为
Figure FDA0004099453130000036
门控卷积的输出为:
Figure FDA0004099453130000037
Figure FDA0004099453130000038
式中,φin,φout是线性投影操作,用于完成通道维度的信息交流;f是逐通道的卷积;
Figure FDA0004099453130000041
其中Ωi是逐通道卷积的局部窗口,中心坐标为i,w为逐通道卷积的权重;
门控卷积的输出表达式是
Figure FDA0004099453130000042
及周边特征
Figure FDA0004099453130000043
的1阶相互作用;
实现高阶空间交互时,通过φin得到一系列的投影特征p0
Figure FDA0004099453130000044
Figure FDA0004099453130000045
卷积层在使用小内核大小从输入图像中提取低级特征后,特征再通过递归门控卷积层传递,捕获高阶空间相互作用:
pk+1=fk(qk)⊙gk(pk)/αk=0,1,…,n-1;
式中,每次递归通过除以α稳定训练,{fk}是系列的逐通道卷积操作,{gk}是在每次递归的过程匹配特征的通道数;
递归门控卷积层gnConv由若干递归子块组成,每个子块由两个卷积层组成,后面跟着一个门控机制;第一卷积层用于从输入中提取特征,而第二卷积层用于将这些特征与前一个递归子块的输出结合起来;
计算门控卷积时,直接将组合的特征
Figure FDA0004099453130000046
通过逐通道卷积完成;
Figure FDA0004099453130000047
将最后一次递归的输出qn输入到投影层φin得到gnConv的结果;利用gnConv实现某一特征和周边特征的n阶相互作用,通过递归门控卷积的高阶交互能力实现对碎块的物理特征与文化特征进行联合学习;
每一阶的通道维度均设置为指数递减的形式:
Figure FDA0004099453130000048
步骤七中,用门控卷积gnConv替换RegNet网络结构中的RegStage,同时通过采用两个深度卷积--7×7Convolution和全局过滤器GF实现gnConv捕获长期交互,进行物理和文化特征的联合解译;
其中,GF层为改进版本,一半的通道使用全局过滤器处理,另一半使用3×3深度卷积处理,并只在后期使用GF层保留更多的局部细节。
7.一种应用如权利要求1~6任意一项所述的文物碎片精细分类方法的文物碎片精细分类系统,其特征在于,文物碎片精细分类系统包括:
数据增强模块,用于将秦俑碎块进行数字化处理,通过基于样式的生成式对抗网络对现有秦俑碎块数据集进行数据增强,构建样本数据库;
模型构建模块,用于构建递归门控卷积自调节网络模型,在模型的特征提取层设计扩展邻域注意力机制,通过对秦俑碎块的轮廓线、厚度、曲率的物理特征以及颜色、纹理的文化特征进行局部注意力增强;
文物碎片精细分类模块,用于在卷积层设计递归门控卷积,通过高阶空间交互对碎块的物理特征与文化特征进行联合学习,实现文物碎片精细分类。
8.一种计算机设备,其特征在于,计算机设备包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行如权利要求1~6任意一项所述的文物碎片精细分类方法的步骤。
9.一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行如权利要求1~6任意一项所述的文物碎片精细分类方法的步骤。
10.一种信息数据处理终端,其特征在于,信息数据处理终端用于实现如权利要求7所述的文物碎片精细分类系统。
CN202310171272.7A 2023-02-28 2023-02-28 一种文物碎片精细分类方法、系统、介质、设备及终端 Pending CN116051907A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310171272.7A CN116051907A (zh) 2023-02-28 2023-02-28 一种文物碎片精细分类方法、系统、介质、设备及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310171272.7A CN116051907A (zh) 2023-02-28 2023-02-28 一种文物碎片精细分类方法、系统、介质、设备及终端

Publications (1)

Publication Number Publication Date
CN116051907A true CN116051907A (zh) 2023-05-02

Family

ID=86129914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310171272.7A Pending CN116051907A (zh) 2023-02-28 2023-02-28 一种文物碎片精细分类方法、系统、介质、设备及终端

Country Status (1)

Country Link
CN (1) CN116051907A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115512A (zh) * 2023-07-27 2023-11-24 武汉科鉴文化科技有限公司 古代器物器型识别方法、系统、介质及设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115512A (zh) * 2023-07-27 2023-11-24 武汉科鉴文化科技有限公司 古代器物器型识别方法、系统、介质及设备

Similar Documents

Publication Publication Date Title
US11908244B2 (en) Human posture detection utilizing posture reference maps
CN109376582B (zh) 一种基于生成对抗网络的交互式人脸卡通方法
Liang et al. Parsing the hand in depth images
Meng et al. Sample fusion network: An end-to-end data augmentation network for skeleton-based human action recognition
Liu Discriminative face alignment
CN108121975B (zh) 一种联合原始数据和生成数据的人脸识别方法
CN110334762B (zh) 一种基于四叉树结合orb和sift的特征匹配方法
CN116152267B (zh) 基于对比性语言图像预训练技术的点云实例分割方法
Li et al. A comprehensive survey on 3D face recognition methods
CN109543548A (zh) 一种人脸识别方法、装置及存储介质
JP7130905B2 (ja) フィードフォワード畳み込みニューラルネットワークを使用した高速且つ堅牢な皮膚紋理の印のマニューシャの抽出
CN111080591A (zh) 基于编码解码结构结合残差模块的医学图像分割方法
CN109242097B (zh) 无监督学习的视觉表示学习系统及方法
CN111079514A (zh) 一种基于clbp和卷积神经网络的人脸识别方法
CN115830652B (zh) 一种深度掌纹识别装置及方法
CN116051907A (zh) 一种文物碎片精细分类方法、系统、介质、设备及终端
CN116434033A (zh) 面向rgb-d图像稠密预测任务的跨模态对比学习方法及系统
Jia et al. Tiny-BDN: An efficient and compact barcode detection network
Reddy et al. Texton based shape features on local binary pattern for age classification
CN110909778A (zh) 一种基于几何一致性的图像语义特征匹配方法
CN114581918A (zh) 一种文本识别模型训练方法及装置
JP2024506170A (ja) 個人化された3d頭部モデルおよび顔モデルを形成するための方法、電子装置、およびプログラム
CN105069767A (zh) 基于表征学习与邻域约束嵌入的图像超分辨重构方法
CN116524549A (zh) 基于改进UNet的手背或手掌静脉图像关键点与ROI定位方法
CN110135253A (zh) 一种基于长期递归卷积神经网络的手指静脉认证方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination