CN116188809A - 基于视觉感知与排序驱动的纹理相似性判别方法 - Google Patents
基于视觉感知与排序驱动的纹理相似性判别方法 Download PDFInfo
- Publication number
- CN116188809A CN116188809A CN202310487028.1A CN202310487028A CN116188809A CN 116188809 A CN116188809 A CN 116188809A CN 202310487028 A CN202310487028 A CN 202310487028A CN 116188809 A CN116188809 A CN 116188809A
- Authority
- CN
- China
- Prior art keywords
- texture
- sequencing
- visual perception
- image
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000016776 visual perception Effects 0.000 title claims abstract description 38
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 30
- 230000006870 function Effects 0.000 claims abstract description 39
- 241000282414 Homo sapiens Species 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000005259 measurement Methods 0.000 claims abstract description 18
- 230000008447 perception Effects 0.000 claims abstract description 17
- 238000013441 quality evaluation Methods 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 37
- 238000011156 evaluation Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 claims description 2
- 239000013307 optical fiber Substances 0.000 claims description 2
- 238000000605 extraction Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000001303 quality assessment method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
基于视觉感知与排序驱动的纹理相似性判别方法,包括纹理图像对进行预处理,使用Siamese网络提取特征,抽取骨干网络输出的4个特征,利用Bilinear Pooling方法计算高阶统计信息,将两个图像的高阶统计信息在第二维上进行拼接,提取横向信息,将特征向量第一维进行拼接,用一个全连接网络模型进行预测,使用随机梯度下降算法和反向传播算法训练模型,使用基于排序的质量评估驱动方法作为损失函数。本发明充分模拟了人类的感知方式,能够学习出与人类具有一致性的相似性判断能力,充分考虑排序信息和尺度信息,促进视觉感知启发的纹理相似性度量模型充分学习人类感知范式,极大地提高了模型与人类判断的一致性。
Description
技术领域
本发明涉及一种基于视觉感知和排序驱动的纹理相似性判别方法,涉及视觉感知启发的纹理相似性度量技术和基于排序的质量评估驱动技术,属于计算机视觉领域。
背景技术
纹理作为材料表面的固有特性之一,使人们能够准确地感知和识别具体的对象。纹理相似性是判断两个纹理是否相似,或者它们之间的相似程度的方法。然而,使用算法来预测与视觉感知启发具有一致性的细粒度纹理相似性是非常困难的。传统上,欧几里德和马氏距离用于衡量两个样本之间的相似性。然而,这些距离只能捕获一些非线性信息。例如,欧氏距离不能编码非各向同性距离和类结构。目前,深度度量学习技术已被用于学习非线性信息。
视觉感知启发的纹理相似性度量主要包括两个方面:纹理特征提取和相似度计算。纹理特征提取主要关注于如何从纹理图像中提取符合人类感知的特征向量,而相似度计算则主要关注于如何根据纹理特征向量计算纹理之间的相似度。传统的纹理特征提取方法主要基于纹理本身的局部统计分布信息和结构特征。传统方法通常具有简单、快速、鲁棒性强的特点,但是对于尺度和旋转变化的表示较差,无法表示全局纹理信息。此外,传统的纹理特征提取方法还对光照、噪声等较为敏感,这是因为传统方法大多基于局部像元,难以获取纹理的全局信息。因此,传统的纹理特征提取方法通常不擅长处理复杂的纹理结构。近些年来,基于CNN(Convolutional Neural Networks,卷积神经网络)的方法逐渐成为主流,依靠CNN的尺度不变性和平移不变性能够获得更加强大的纹理表示。但目前还没有出现Transformer结合高阶统计信息的纹理表示方法。
纹理相似度计算方法在过去可以分为两种:基于像素的纹理相似度计算和基于语义的纹理相似度计算。基于像素的纹理相似度计算大多基于图像的亮度、对比度、结构等特征进行计算,简单易实现。但是基于像素的纹理相似度计算方法受限于全局纹理特征信息的提取和计算方法,导致该结果不能与人类视觉感知启发结果相匹配。基于语义的图像相似度计算,可以使用预训练的图像分类模型,如VGG(深度神经网络)、ResNet(残差神经网络)等,将图像映射到高维语义空间中,并计算两张图像之间的距离或余弦相似度。基于语义的图像相似度计算使用的纹理特征提取方法能够提取相较于基于像素的纹理相似度计算方法更多的特征信息,但是在相似度计算方法上通常计算余弦距离或是欧式距离。这种简单的计算方式难以模拟复杂的人类视觉系统。
发明内容
本发明的目的是提供一种基于视觉感知和排序驱动的纹理相似性判别方法,通过提供一种与人类视觉感知具有一致性的视觉感知启发的纹理相似性度量和基于排序的质量评估驱动的技术,克服传统算法依赖于图像结构、忽略人类的主观评价的缺点,使评价结果具有与人类主观感知的结果高度相关的一致性。
本发明解决上述技术问题所采用的技术方案包括:视觉感知启发的纹理相似性度量模型,该度量模型基于Transformer结构进行多尺度的高阶信息聚合,模拟人类视觉系统提取局部和全局信息、高阶统计信息以及横向信息等,在多尺度上进行聚合从而进行相似性判别;基于排序的质量评估驱动方法,该方法在训练视觉感知启发的纹理相似性度量时综合考虑了排序和尺度的信息。
基于视觉感知与排序驱动的纹理相似性判别方法,其特征是包括以下步骤:
步骤1:对参与评价的数字纹理图像对进行预处理:将图像调整为3*224*224大小的RGB图像;将所有的数字纹理图像对都赋予人工感知评价分数,以使后续构建的模型可以学习人类感知,模拟人类主观评价。若图像为单通道图像则将通道复制多份转变为RGB格式,并重新缩放图像至224*224大小,图像的最终格式为3*224*224大小的RGB图像。
步骤2:使用Siamese网络提取特征:所述Siamese网络包含一对共享参数的SwinTransformer骨干网络,所述Swin Transformer骨干网络在Imagenet上进行预训练,Siamese网络通过成对的骨干网络提取每一对纹理图像中的全局和局部特征;SwinTransformer骨干网络包含4个阶段(Stage),每个阶段又包含多个block。
步骤3:抽取Swin Transformer骨干网络的4个阶段的输出,获得4个特征,并对每个特征分别计算步骤4至步骤5。
步骤4:对提取的特征利用Bilinear Pooling方法计算高阶统计信息,计算方法如下:
其中,fl表示特征图在通道l∈L上的向量,L是通道集合,H×W是特征图的尺寸,F是fl的双线程池化高阶特征, sign()表示符号算子,γ是幂系数,BP是|F|经过幂系数为γ的幂函数再乘以符号算子得到最终的双线性池化高阶特征。
步骤5:提取纹理图像特征的高阶统计信息后,将两个图像的高阶统计信息在第二维上进行拼接,并继续使用横向信息计算模块进行横向信息的提取,以达到压缩高阶统计信息维度的目的。
步骤6:将获得的各个尺度上的特征展平成为特征向量,将特征向量第一维进行拼接,最后使用一个全连接网络模型进行预测。该全连接网络模型包含三个全连接层(N→1024, 1024→1024, 1024→1),两个ReLU激活函数和一个Sigmoid激活函数。
步骤7:通过步骤2至6完成视觉感知启发的纹理相似性度量模型的构建,初始化该模型参数,并使用随机梯度下降算法和反向传播算法训练模型;其中,batch size的大小为8,并使用步长为4的梯度累积技术,学习率为0.002;在训练过程中使用基于排序的质量评估驱动方法作为损失函数,最小化误差的同时最大化相关性。
所述基于排序的质量评估驱动方法的计算公式如下:
其中,n表示一个batch中数据的个数,α和β为控制激活函数log平滑程度的超参数,x i和y i分别表示一个batch中第i个数据的预测值和真实值,x r i和y r i则分别表示x i和y i在整个batch中按大小排序的序号,R(x r i, y r i)为计算排序差异的函数,S(x i, y i)为计算数据差异的函数,⊙是逐元素算子;
所述x r i和y r i是通过可微的排序操作符实现,可微的排序操作是将排序操作转换为排列多面体上的线性规划,其计算公式如下:
其中,Soft_Rank来自函数库torchsort,该函数通过将正则化引入到线性规划并转换为排列多面体上的投影,并将投影减少到保序优化,从而实现了O (nlogn)的前向传播和O(n)的反向传播(与雅可比矩阵相乘)的排序操作;r是正则化方式,默认是L2 (另一个选择是KL);rs是正则化强度,在本方法中默认为0.001。
所述R(x r i, y r i)的计算方法默认为衡量x r i和y r i的比值,其计算公式如下:
此外,S(x i, y i)默认选择均方误差损失函数作为衡量数据差异的方法,其计算公式如下:
步骤8:将步骤2至6构建的视觉感知启发的纹理相似性度量模型,以基于排序的质量评估驱动方法作为损失函数进行训练后,进行判断不同图像间纹理相似性。
本发明提出的视觉感知和排序驱动的纹理相似性判别方法包括(步骤2至步骤6)和基于排序的质量评估驱动方法(步骤7)两部分。本发明提出的视觉感知启发的纹理相似性度量模型充分模拟了人类的感知方式(多尺度的局部和全局信息、高阶统计信息和横向信息),能够学习出与人类具有一致性的相似性判断能力。基于排序的质量评估驱动方法作为损失函数时充分考虑排序信息和尺度信息,促进视觉感知启发的纹理相似性度量模型充分学习人类感知范式,极大地提高了模型与人类判断的一致性。
在以往的大部分相似性计算工作中,相似性的计算方式大多属于基于像素的纹理相似度计算方法。随着深度学习的发展,基于语义的纹理相似度计算方法开始出现。在基于语义的纹理相似度计算方法中,绝大多数工作都依赖于深度学习模型(如VGG等)提取特征并使用余弦相似度(Consine Silimilarity)等方法计算相似度。在训练过程中使用MSE计算损失函数并训练网络。最终使用皮尔逊相关性系数(PCC)进行方法的性能评价。然而,这种方法本质上依赖于深度学习模型的强大表征能力进行的数值预测任务,没有考虑到人类与机器视觉的整体相关性。例如,MSE与PCC在σ=1,μ=0的数据分布下的线性关系可以证明这一点:
其中,x i和y i分别是X和Y中第i个数据,n为数据长度。在在σ=1,μ=0的情况下,所以MSE(X,Y)=2(1-PCC(X,Y)),即最小化MSE(X,Y)就意味着最大化PCC(X,Y),在这个过程中并没有考虑到人类与机器视觉的感知一致性。同理,我们也可推出PCC与Consine Similarity等价。这意味着过去的工作中无论是模型还是损失函数,都没有严格地考虑到排序的一致性。
因此,本发明在设计视觉感知启发的纹理相似性度量模型时并未使用常用的相似度计算方法,而是模拟了人类的感知方式通过学习的手段获得相似性分数。此外,本发明还设计了基于排序的质量评估驱动方法。该方法在作为损失函数时能够综合考虑排序和尺度的信息,进而在训练视觉感知启发的纹理相似性度量时提高人类与机器的感知一致性。此外,本发明通过使用R(x r i, y r i)衡量预测值的排序和真实值排序的差距并使用激活函数(如log 10)平滑排序数值。将该平滑后的排序差距作为权重加权到S(x i, y i)利用排序信息促使视觉感知启发的纹理相似性度量模型学习人类的感知范式。该方法在计算时不仅引入了batch中各数据的相对排序信息,还利用该信息加权了数据之间的差异,针对性的加强了模型训练的梯度,从而起到加速模型训练和提高与真实值整体的一致性的作用。
附图说明
图1为本发明的整体流程示意图。
图2为本发明中基于排序的质量评估驱动方法的过程示意图。
图3为本发明中视觉感知启发的纹理相似性度量的网络结构图。
图4为本发明的实验效果图,相比于最广泛使用的均方误差损失函数,本方法取得了更快、更好的效果。
具体实施方式
本发明涉及一种基于视觉感知启发的细粒度纹理相似性判别方法,关键是视觉感知启发的纹理相似性度量和基于排序的质量评估驱动方法。以Pertex数据集实现本发明的实例流程如图1。
Pertex 数据集包含了从墙纸、帆布、地毯和窗帘等装饰材料中获得的 334 种纹理。对该数据集进行自由分组实验得到一个 334×334 的相似度矩阵,然后使用 Isomap降维方法得到一个更紧凑的 Isomap 相似矩阵。该矩阵中包含的人类感知相似性分数,所有的人类感知相似性分数都被线性归一化到 [0, 1] 的范围内。
Pertex 数据集被随机分为两个子集,分别包含 300 个训练图像和 34 个测试图像。所有的纹理图像按照Isomap 相似矩阵的组织方式进行组队,获得了用于训练的 45,150 对纹理和用于测试的 595 对纹理。具体的训练和测试步骤如下:
纹理图像预处理。Pertex 数据集中的所有单通道纹理图像都被复制三次组成RGB格式的纹理图像,所有纹理图像的尺寸都被Resize到224×224大小。目的是为了使用预训练的Swin Transformer网络提取特征。
构建网络模型。本发明所使用的网络模型包括一个Siamese网络(包含两个共享参数的Swin Transformer网络),一个Bilinear Pooling模块,一个横向信息计算模块以及一个相似性分数预测网络。具体网络结构如图3所示。
本发明所使用的Swin Transformer网络在Imagenet上经过预训练,SwinTransformer的架构包括4个阶段,每个阶段分别由(2,2,18,2)个Swin TransoformerBlock组成。为了获得多尺度的特征信息。本发明抽取了每个阶段中最后一个Block的输出作为不同尺度的输出,共计4个输出。
每个尺度上的输出都通过Bilinear Pooling模块计算高阶统计信息。在计算过程中,所有抽取的尺度特征的格式为(H×W)×C,C表示RGB通道之一,对特征信息进行Fl T×Fl后格式变为C×C(计算高阶统计信息后)。此时的特征信息忽略了图像尺寸,使进行不同大小尺寸的纹理图像相似度的检测成为了可能。随后特征上的所有信息都进行缩小H×W倍和带符号的开根号的放缩操作。
Siamese网络的两个特征的输出经过Bilinear Pooling计算得到高阶统计信息,将该信息在第二维进行级联操作。随后使用横向信息计算模块提取横向信息。该模块由2个Swin Transoformer Block和一个空洞卷积组成。该计算模块重复三次,空洞卷积操作将特征长度减小2倍。横向信息计算模块中的Swin Transoformer Block的结构与SwinTransformer保持一致,具体参数与高阶统计信息的特征尺寸保持一致。空洞卷积的卷积核大小为3×3,扩张系数为2,用于在进行降维的同时扩大感受野保留更多的特征信息。与此同时,空洞卷积的边际参数为2,用于保证特征的尺寸的规律变化。
对四个尺度特征计算横向信息后,所有的特征被在第一维上展开合并并使用相似性分数预测网络进行相似性分数预测。相似性分数预测网络由3个全连接层和2个ReLU激活函数以及1个Sigmoid激活函数组成。3个全链接层连分别为N→1024, 1024→1024, 1024→1,N为所有的特征被在第一维上展开合并后的特征长度。
使用基于排序的损失函数训练模型。使用的训练策略为随机梯度下降算法,除学习率被设置为0.002之外所有的训练器参数都跟随默认设置。在训练过程中观察损失函数,当损失函数的数值连续一段时间内稳定,即可视为“模型收敛”,如图1所示。此时模型及模型参数可用于相似性判断。
基于排序的损失函数的实例如图2,具体实施步骤如下:
对预测值X和真实值Y使用可微分的排序方法分别获得二者的排序X R 和Y R ,x i∈X和y i∈Y分别表示一个batch中第i个数据的预测值和真实值,x r i∈X R 和y r i∈Y R 则分别表示
x r i和y r i在整个batch中按大小排序的排序。
对于x i∈X,x r i∈X R 和y i∈Y,y r i∈Y R 使用如下公式计算损失:
,其中,x i和y i分别表示一个batch中第i个数据的预测值和真实值,x r i和y r i则分别表示x i和y i在整个batch中按大小排序的排序。/>作为预测值的排序和真实值的排序的衡量(即图2中的排名差异),再通过激活函数(如log 10)平滑之后作为均方误差损失函数的权重。相关实验结果展示在表1实验结果中。
表1 实验结果
本发明使用均方误差函数(MSE),皮尔逊相关性系数(PCC),斯皮尔曼相关性系数(SRCC)以及肯德尔相关性系数(KRCC)作为评价指标。其中MSE越小越好,PCC、SRCC以及KRCC数值为0代表完全不相关,数值为1代表完全相关。MSE和PCC用于衡量预测值和真实值的数据差距,SRCC和KRCC是等级相关性,即在计算相关性时注重预测值和真实值的排序差距。本发明中使用SRCC和KRCC衡量预测值和真实值的排序一致性。
在表1的实验结果中,本发明的视觉感知启发的纹理相似性度量模型(Our Model+ MSE)相比以往最好的方法(PMTSPN)获得了较大提升。在数值(MSE和PCC)接近的情况下,SRCC和KRCC有明显提升(0.8783→0.8973,0.7076→0.7257)。这说明本发明的视觉感知启发的纹理相似性度量模型充分模拟了人类的感知方式,充分学习到了人类的感知信息。本发明的基于排序的质量评估驱动方法在训练视觉感知启发的纹理相似性度量模型时(OurModel + Our Loss),能够综合考虑排序差距和尺度差距,不仅引入排序信息,更使用排序信息促进缩小尺度差距。在表1实验结果中,本发明的基于排序的质量评估驱动方法相比广泛使用的MSE方法有较大提升(0.0056→0.0037,0.9147→0.9440,0.8973→0.9132,0.7257→0.7544)。这证明本发明的基于排序的质量评估驱动方法能够明显提高预测值与真实值的感知一致性。此外,本发明的基于排序的质量评估驱动方法能够加快模型的训练过程,如图4所示,横坐标是每100次的训练迭代过程,纵坐标是模型在验证集上的平均损失函数。为了公平比较,两条曲线都是在验证集上使用MSE损失函数计算的。MSE方法曲线是使用MSE损失函数训练模型,本方法是使用本发明的提出的使用基于排序的损失函数。可以看到,本发明的基于排序的损失函数能够使模型更快的收敛且达到更好的效果。综上,本发明的视觉感知和排序驱动的纹理相似性判别方法,包括一个模拟人类视觉系统的视觉感知启发的纹理相似性度量模型设计和一种基于排序的质量评估驱动方法设计能够加快模型的训练过程,提高预测值与真实值的感知一致性。
Claims (6)
1.基于视觉感知与排序驱动的纹理相似性判别方法,其特征是包括以下步骤:
步骤1:对参与评价的数字纹理图像对进行预处理:将图像调整为3*224*224大小的RGB图像;将所有的数字纹理图像对都赋予人工感知评价分数,以使后续构建的模型得以学习人类感知与模拟人类主观评价;
步骤2:使用Siamese网络提取特征:所述Siamese网络包含一对共享参数的SwinTransformer骨干网络,所述Swin Transformer骨干网络在Imagenet上进行预训练,Siamese网络通过成对的骨干网络提取每一对纹理图像中的全局和局部特征;SwinTransformer骨干网络包含4个阶段,每个阶段又包含多个block;
步骤3:抽取Swin Transformer骨干网络的4个阶段的输出,获得4个特征,并对每个特征分别计算步骤4至步骤5;
步骤4:对提取的特征利用Bilinear Pooling方法计算高阶统计信息;
步骤5:提取纹理图像特征的高阶统计信息后,将两个图像的高阶统计信息在第二维上进行拼接,并继续使用横向信息计算模块进行横向信息的提取,以达到压缩高阶统计信息维度的目的;
步骤6:将获得的各个尺度上的特征展平成为特征向量,将特征向量第一维进行拼接,最后使用一个全连接网络模型进行预测;
步骤7:通过步骤2至6完成视觉感知启发的纹理相似性度量模型的构建,初始化该模型参数,并使用随机梯度下降算法和反向传播算法训练模型;其中,batch size的大小为8,并使用步长为4的梯度累积技术,学习率为0.002;在训练过程中使用基于排序的质量评估驱动方法作为损失函数,最小化误差的同时最大化相关性;
所述基于排序的质量评估驱动方法的计算公式如下:
其中,n表示一个batch中数据的个数,α和β为控制激活函数log平滑程度的超参数,x i和y i分别表示一个batch中第i个数据的预测值和真实值,x r i和y r i则分别表示x i和y i在整个batch中按大小排序的序号,R(x r i, y r i)为计算排序差异的函数,S(x i, y i)为计算数据差异的函数,⊙是逐元素算子;
所述x r i和y r i是通过可微的排序操作符实现,可微的排序操作是将排序操作转换为排列多面体上的线性规划;
步骤8:将步骤2至6构建的视觉感知启发的纹理相似性度量模型,以基于排序的质量评估驱动方法作为损失函数进行训练后,进行判断不同图像间纹理相似性。
2.如权利要求1所述的基于视觉感知与排序驱动的纹理相似性判别方法,其特征是所述步骤1中,若图像为单通道图像则将通道复制多份转变为RGB格式,并重新缩放图像至224*224大小,图像的最终格式为3*224*224大小的RGB图像。
3. 如权利要求1所述的基于视觉感知与排序驱动的纹理相似性判别方法,其特征是所述步骤2中,Swin Transformer骨干网络4个阶段分别包含2、2、18、2个block。
5.如权利要求1所述的基于视觉感知与排序驱动的纹理相似性判别方法,其特征是所述步骤6中,全连接网络模型包含三个全连接层分别是N→1024、1024→1024、1024→1,以及两个ReLU激活函数与一个Sigmoid激活函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310487028.1A CN116188809B (zh) | 2023-05-04 | 2023-05-04 | 基于视觉感知与排序驱动的纹理相似性判别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310487028.1A CN116188809B (zh) | 2023-05-04 | 2023-05-04 | 基于视觉感知与排序驱动的纹理相似性判别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116188809A true CN116188809A (zh) | 2023-05-30 |
CN116188809B CN116188809B (zh) | 2023-08-04 |
Family
ID=86436915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310487028.1A Active CN116188809B (zh) | 2023-05-04 | 2023-05-04 | 基于视觉感知与排序驱动的纹理相似性判别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116188809B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130293725A1 (en) * | 2012-05-07 | 2013-11-07 | Futurewei Technologies, Inc. | No-Reference Video/Image Quality Measurement with Compressed Domain Features |
CN104851113A (zh) * | 2015-04-17 | 2015-08-19 | 华中农业大学 | 多分辨率遥感影像的城市植被自动提取方法 |
CN104933725A (zh) * | 2015-06-25 | 2015-09-23 | 中国计量学院 | 模拟人类视觉的图像分割方法 |
CN109191428A (zh) * | 2018-07-26 | 2019-01-11 | 西安理工大学 | 基于掩蔽纹理特征的全参考型图像质量评价方法 |
CN110637307A (zh) * | 2017-05-23 | 2019-12-31 | 英特尔公司 | 用于使用二元张量和缩放因子对来增强神经网络的方法和装置 |
CN113011506A (zh) * | 2021-03-24 | 2021-06-22 | 华南理工大学 | 一种基于深度重分形频谱网络的纹理图像分类方法 |
CN113436167A (zh) * | 2021-06-25 | 2021-09-24 | 湖南工商大学 | 基于深度学习和视觉感知的无参考彩色图像质量评价方法 |
CN114676777A (zh) * | 2022-03-25 | 2022-06-28 | 中国科学院软件研究所 | 一种基于孪生网络的自监督学习细粒度图像分类方法 |
US20220319708A1 (en) * | 2021-03-31 | 2022-10-06 | Welch Allyn, Inc. | Automated disease identification based on ophthalmic images |
-
2023
- 2023-05-04 CN CN202310487028.1A patent/CN116188809B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130293725A1 (en) * | 2012-05-07 | 2013-11-07 | Futurewei Technologies, Inc. | No-Reference Video/Image Quality Measurement with Compressed Domain Features |
CN104851113A (zh) * | 2015-04-17 | 2015-08-19 | 华中农业大学 | 多分辨率遥感影像的城市植被自动提取方法 |
CN104933725A (zh) * | 2015-06-25 | 2015-09-23 | 中国计量学院 | 模拟人类视觉的图像分割方法 |
CN110637307A (zh) * | 2017-05-23 | 2019-12-31 | 英特尔公司 | 用于使用二元张量和缩放因子对来增强神经网络的方法和装置 |
CN109191428A (zh) * | 2018-07-26 | 2019-01-11 | 西安理工大学 | 基于掩蔽纹理特征的全参考型图像质量评价方法 |
CN113011506A (zh) * | 2021-03-24 | 2021-06-22 | 华南理工大学 | 一种基于深度重分形频谱网络的纹理图像分类方法 |
US20220319708A1 (en) * | 2021-03-31 | 2022-10-06 | Welch Allyn, Inc. | Automated disease identification based on ophthalmic images |
CN113436167A (zh) * | 2021-06-25 | 2021-09-24 | 湖南工商大学 | 基于深度学习和视觉感知的无参考彩色图像质量评价方法 |
CN114676777A (zh) * | 2022-03-25 | 2022-06-28 | 中国科学院软件研究所 | 一种基于孪生网络的自监督学习细粒度图像分类方法 |
Non-Patent Citations (2)
Title |
---|
WEIBO WANG 等: "Unifying the Visual Perception of Humans and Machines on Fine-Grained Texture Similarity", 《HTTPS://WWW.RESEARCHGATE.NET/PUBLICATION/364127053》 * |
张欣 等: "基于亮度与彩色纹理统计的无参考图像评价", 《信息技术与信息化》, pages 122 - 129 * |
Also Published As
Publication number | Publication date |
---|---|
CN116188809B (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108090902B (zh) | 一种基于多尺度生成对抗网络的无参考图像质量客观评价方法 | |
CN110334759B (zh) | 一种评论驱动的深度序列推荐方法 | |
CN111582225B (zh) | 一种遥感图像场景分类方法及装置 | |
CN108629370B (zh) | 一种基于深度置信网络的分类识别算法及装置 | |
CN114445292A (zh) | 一种多阶段渐进式水下图像增强方法 | |
CN109961102B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN114581356B (zh) | 基于风格迁移数据增广的图像增强模型泛化方法 | |
CN112800876A (zh) | 一种用于重识别的超球面特征嵌入方法及系统 | |
CN111461043A (zh) | 基于深度网络的视频显著性检测方法 | |
CN114612714A (zh) | 基于课程学习的无参考图像质量评价方法 | |
CN113554599A (zh) | 一种基于人类视觉效应的视频质量评价方法 | |
CN115564194A (zh) | 智能电网的计量异常诊断信息生成模型构建方法及系统 | |
CN111739037A (zh) | 一种针对室内场景rgb-d图像的语义分割方法 | |
CN112686117B (zh) | 一种基于隐变量分析的人脸表情强度识别方法及系统 | |
CN116188809B (zh) | 基于视觉感知与排序驱动的纹理相似性判别方法 | |
CN116543289B (zh) | 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法 | |
CN115346091B (zh) | 一种Mura缺陷图像数据集的生成方法和生成装置 | |
CN115018729B (zh) | 一种面向内容的白盒图像增强方法 | |
CN111754459B (zh) | 基于统计深度特征的染色伪造图像检测方法及电子装置 | |
CN112270370A (zh) | 一种车辆表观毁伤评估方法 | |
CN110827238A (zh) | 一种改进的全卷积神经网络的侧扫声纳图像特征提取方法 | |
CN111680760A (zh) | 服装风格识别方法、装置、电子设备及存储介质 | |
CN111881756A (zh) | 一种基于卷积神经网络的废旧手机型号识别方法 | |
CN114549852B (zh) | 基于颜色拮抗与注意力机制的脉冲神经网络训练方法 | |
Zenkov | Machine Learning. Correlational Convolution Method for Image Classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |