CN116188809A

CN116188809A - 基于视觉感知与排序驱动的纹理相似性判别方法

Info

Publication number: CN116188809A
Application number: CN202310487028.1A
Authority: CN
Inventors: 董兴辉; 汪卫博
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2023-05-04
Filing date: 2023-05-04
Publication date: 2023-05-30
Anticipated expiration: 2043-05-04
Also published as: CN116188809B

Abstract

基于视觉感知与排序驱动的纹理相似性判别方法，包括纹理图像对进行预处理，使用Siamese网络提取特征，抽取骨干网络输出的4个特征，利用Bilinear Pooling方法计算高阶统计信息，将两个图像的高阶统计信息在第二维上进行拼接，提取横向信息，将特征向量第一维进行拼接，用一个全连接网络模型进行预测，使用随机梯度下降算法和反向传播算法训练模型，使用基于排序的质量评估驱动方法作为损失函数。本发明充分模拟了人类的感知方式，能够学习出与人类具有一致性的相似性判断能力，充分考虑排序信息和尺度信息，促进视觉感知启发的纹理相似性度量模型充分学习人类感知范式，极大地提高了模型与人类判断的一致性。

Description

基于视觉感知与排序驱动的纹理相似性判别方法

技术领域

本发明涉及一种基于视觉感知和排序驱动的纹理相似性判别方法，涉及视觉感知启发的纹理相似性度量技术和基于排序的质量评估驱动技术，属于计算机视觉领域。

背景技术

纹理作为材料表面的固有特性之一，使人们能够准确地感知和识别具体的对象。纹理相似性是判断两个纹理是否相似，或者它们之间的相似程度的方法。然而，使用算法来预测与视觉感知启发具有一致性的细粒度纹理相似性是非常困难的。传统上，欧几里德和马氏距离用于衡量两个样本之间的相似性。然而，这些距离只能捕获一些非线性信息。例如，欧氏距离不能编码非各向同性距离和类结构。目前，深度度量学习技术已被用于学习非线性信息。

视觉感知启发的纹理相似性度量主要包括两个方面：纹理特征提取和相似度计算。纹理特征提取主要关注于如何从纹理图像中提取符合人类感知的特征向量，而相似度计算则主要关注于如何根据纹理特征向量计算纹理之间的相似度。传统的纹理特征提取方法主要基于纹理本身的局部统计分布信息和结构特征。传统方法通常具有简单、快速、鲁棒性强的特点，但是对于尺度和旋转变化的表示较差，无法表示全局纹理信息。此外，传统的纹理特征提取方法还对光照、噪声等较为敏感，这是因为传统方法大多基于局部像元，难以获取纹理的全局信息。因此，传统的纹理特征提取方法通常不擅长处理复杂的纹理结构。近些年来，基于CNN（Convolutional Neural Networks，卷积神经网络）的方法逐渐成为主流，依靠CNN的尺度不变性和平移不变性能够获得更加强大的纹理表示。但目前还没有出现Transformer结合高阶统计信息的纹理表示方法。

纹理相似度计算方法在过去可以分为两种：基于像素的纹理相似度计算和基于语义的纹理相似度计算。基于像素的纹理相似度计算大多基于图像的亮度、对比度、结构等特征进行计算，简单易实现。但是基于像素的纹理相似度计算方法受限于全局纹理特征信息的提取和计算方法，导致该结果不能与人类视觉感知启发结果相匹配。基于语义的图像相似度计算，可以使用预训练的图像分类模型，如VGG（深度神经网络）、ResNet（残差神经网络）等，将图像映射到高维语义空间中，并计算两张图像之间的距离或余弦相似度。基于语义的图像相似度计算使用的纹理特征提取方法能够提取相较于基于像素的纹理相似度计算方法更多的特征信息，但是在相似度计算方法上通常计算余弦距离或是欧式距离。这种简单的计算方式难以模拟复杂的人类视觉系统。

发明内容

本发明的目的是提供一种基于视觉感知和排序驱动的纹理相似性判别方法，通过提供一种与人类视觉感知具有一致性的视觉感知启发的纹理相似性度量和基于排序的质量评估驱动的技术，克服传统算法依赖于图像结构、忽略人类的主观评价的缺点，使评价结果具有与人类主观感知的结果高度相关的一致性。

本发明解决上述技术问题所采用的技术方案包括：视觉感知启发的纹理相似性度量模型，该度量模型基于Transformer结构进行多尺度的高阶信息聚合，模拟人类视觉系统提取局部和全局信息、高阶统计信息以及横向信息等，在多尺度上进行聚合从而进行相似性判别；基于排序的质量评估驱动方法，该方法在训练视觉感知启发的纹理相似性度量时综合考虑了排序和尺度的信息。

基于视觉感知与排序驱动的纹理相似性判别方法，其特征是包括以下步骤：

步骤1：对参与评价的数字纹理图像对进行预处理：将图像调整为3*224*224大小的RGB图像；将所有的数字纹理图像对都赋予人工感知评价分数，以使后续构建的模型可以学习人类感知，模拟人类主观评价。若图像为单通道图像则将通道复制多份转变为RGB格式，并重新缩放图像至224*224大小，图像的最终格式为3*224*224大小的RGB图像。

步骤2：使用Siamese网络提取特征：所述Siamese网络包含一对共享参数的SwinTransformer骨干网络，所述Swin Transformer骨干网络在Imagenet上进行预训练，Siamese网络通过成对的骨干网络提取每一对纹理图像中的全局和局部特征；SwinTransformer骨干网络包含4个阶段（Stage），每个阶段又包含多个block。

步骤3：抽取Swin Transformer骨干网络的4个阶段的输出，获得4个特征，并对每个特征分别计算步骤4至步骤5。

步骤4：对提取的特征利用Bilinear Pooling方法计算高阶统计信息，计算方法如下：

，

其中，f_l表示特征图在通道l∈L上的向量，L是通道集合，H×W是特征图的尺寸，F是f_l的双线程池化高阶特征， sign()表示符号算子，γ是幂系数，BP是|F|经过幂系数为γ的幂函数再乘以符号算子得到最终的双线性池化高阶特征。

步骤5：提取纹理图像特征的高阶统计信息后，将两个图像的高阶统计信息在第二维上进行拼接，并继续使用横向信息计算模块进行横向信息的提取，以达到压缩高阶统计信息维度的目的。

步骤6：将获得的各个尺度上的特征展平成为特征向量，将特征向量第一维进行拼接，最后使用一个全连接网络模型进行预测。该全连接网络模型包含三个全连接层（N→1024， 1024→1024， 1024→1），两个ReLU激活函数和一个Sigmoid激活函数。

步骤7：通过步骤2至6完成视觉感知启发的纹理相似性度量模型的构建，初始化该模型参数，并使用随机梯度下降算法和反向传播算法训练模型；其中，batch size的大小为8，并使用步长为4的梯度累积技术，学习率为0.002；在训练过程中使用基于排序的质量评估驱动方法作为损失函数，最小化误差的同时最大化相关性。

所述基于排序的质量评估驱动方法的计算公式如下：

，

其中，n表示一个batch中数据的个数，α和β为控制激活函数log平滑程度的超参数，x _i和y _i分别表示一个batch中第i个数据的预测值和真实值，x _{r i}和y _{r i}则分别表示x _i和y _i在整个batch中按大小排序的序号，R(x _{r i}, y _{r i})为计算排序差异的函数，S(x _i, y _i)为计算数据差异的函数，⊙是逐元素算子；

所述x _{r i}和y _{r i}是通过可微的排序操作符实现，可微的排序操作是将排序操作转换为排列多面体上的线性规划，其计算公式如下：

，

其中，Soft_Rank来自函数库torchsort，该函数通过将正则化引入到线性规划并转换为排列多面体上的投影，并将投影减少到保序优化，从而实现了O (nlogn)的前向传播和O(n)的反向传播（与雅可比矩阵相乘）的排序操作；r是正则化方式，默认是L₂（另一个选择是KL）；rs是正则化强度，在本方法中默认为0.001。

所述R(x _{r i}, y _{r i})的计算方法默认为衡量x _{r i}和y _{r i}的比值，其计算公式如下：

。

此外，S(x _i, y _i)默认选择均方误差损失函数作为衡量数据差异的方法，其计算公式如下：

。

步骤8：将步骤2至6构建的视觉感知启发的纹理相似性度量模型，以基于排序的质量评估驱动方法作为损失函数进行训练后，进行判断不同图像间纹理相似性。

本发明提出的视觉感知和排序驱动的纹理相似性判别方法包括（步骤2至步骤6）和基于排序的质量评估驱动方法（步骤7）两部分。本发明提出的视觉感知启发的纹理相似性度量模型充分模拟了人类的感知方式（多尺度的局部和全局信息、高阶统计信息和横向信息），能够学习出与人类具有一致性的相似性判断能力。基于排序的质量评估驱动方法作为损失函数时充分考虑排序信息和尺度信息，促进视觉感知启发的纹理相似性度量模型充分学习人类感知范式，极大地提高了模型与人类判断的一致性。

在以往的大部分相似性计算工作中，相似性的计算方式大多属于基于像素的纹理相似度计算方法。随着深度学习的发展，基于语义的纹理相似度计算方法开始出现。在基于语义的纹理相似度计算方法中，绝大多数工作都依赖于深度学习模型（如VGG等）提取特征并使用余弦相似度（Consine Silimilarity）等方法计算相似度。在训练过程中使用MSE计算损失函数并训练网络。最终使用皮尔逊相关性系数（PCC）进行方法的性能评价。然而，这种方法本质上依赖于深度学习模型的强大表征能力进行的数值预测任务，没有考虑到人类与机器视觉的整体相关性。例如，MSE与PCC在σ=1，μ=0的数据分布下的线性关系可以证明这一点：

，

其中，x _i和y _i分别是X和Y中第i个数据，n为数据长度。在在σ=1，μ=0的情况下

，所以MSE(X,Y)=2(1-PCC(X,Y))，即最小化MSE(X,Y)就意味着最大化PCC(X,Y)，在这个过程中并没有考虑到人类与机器视觉的感知一致性。同理，我们也可推出PCC与Consine Similarity等价。这意味着过去的工作中无论是模型还是损失函数，都没有严格地考虑到排序的一致性。

因此，本发明在设计视觉感知启发的纹理相似性度量模型时并未使用常用的相似度计算方法，而是模拟了人类的感知方式通过学习的手段获得相似性分数。此外，本发明还设计了基于排序的质量评估驱动方法。该方法在作为损失函数时能够综合考虑排序和尺度的信息，进而在训练视觉感知启发的纹理相似性度量时提高人类与机器的感知一致性。此外，本发明通过使用R(x _{r i}, y _{r i})衡量预测值的排序和真实值排序的差距并使用激活函数（如log ₁₀）平滑排序数值。将该平滑后的排序差距作为权重加权到S(x _i, y _i)利用排序信息促使视觉感知启发的纹理相似性度量模型学习人类的感知范式。该方法在计算时不仅引入了batch中各数据的相对排序信息，还利用该信息加权了数据之间的差异，针对性的加强了模型训练的梯度，从而起到加速模型训练和提高与真实值整体的一致性的作用。

附图说明

图1为本发明的整体流程示意图。

图2为本发明中基于排序的质量评估驱动方法的过程示意图。

图3为本发明中视觉感知启发的纹理相似性度量的网络结构图。

图4为本发明的实验效果图，相比于最广泛使用的均方误差损失函数，本方法取得了更快、更好的效果。

具体实施方式

本发明涉及一种基于视觉感知启发的细粒度纹理相似性判别方法，关键是视觉感知启发的纹理相似性度量和基于排序的质量评估驱动方法。以Pertex数据集实现本发明的实例流程如图1。

Pertex 数据集包含了从墙纸、帆布、地毯和窗帘等装饰材料中获得的 334 种纹理。对该数据集进行自由分组实验得到一个 334×334 的相似度矩阵，然后使用 Isomap降维方法得到一个更紧凑的 Isomap 相似矩阵。该矩阵中包含的人类感知相似性分数，所有的人类感知相似性分数都被线性归一化到 [0, 1] 的范围内。

Pertex 数据集被随机分为两个子集，分别包含 300 个训练图像和 34 个测试图像。所有的纹理图像按照Isomap 相似矩阵的组织方式进行组队，获得了用于训练的 45,150 对纹理和用于测试的 595 对纹理。具体的训练和测试步骤如下：

纹理图像预处理。Pertex 数据集中的所有单通道纹理图像都被复制三次组成RGB格式的纹理图像，所有纹理图像的尺寸都被Resize到224×224大小。目的是为了使用预训练的Swin Transformer网络提取特征。

构建网络模型。本发明所使用的网络模型包括一个Siamese网络（包含两个共享参数的Swin Transformer网络），一个Bilinear Pooling模块，一个横向信息计算模块以及一个相似性分数预测网络。具体网络结构如图3所示。

本发明所使用的Swin Transformer网络在Imagenet上经过预训练，SwinTransformer的架构包括4个阶段，每个阶段分别由（2，2，18，2）个Swin TransoformerBlock组成。为了获得多尺度的特征信息。本发明抽取了每个阶段中最后一个Block的输出作为不同尺度的输出，共计4个输出。

每个尺度上的输出都通过Bilinear Pooling模块计算高阶统计信息。在计算过程中，所有抽取的尺度特征的格式为（H×W）×C，C表示RGB通道之一，对特征信息进行F_l ^T×F_l后格式变为C×C（计算高阶统计信息后）。此时的特征信息忽略了图像尺寸，使进行不同大小尺寸的纹理图像相似度的检测成为了可能。随后特征上的所有信息都进行缩小H×W倍和带符号的开根号的放缩操作。

Siamese网络的两个特征的输出经过Bilinear Pooling计算得到高阶统计信息，将该信息在第二维进行级联操作。随后使用横向信息计算模块提取横向信息。该模块由2个Swin Transoformer Block和一个空洞卷积组成。该计算模块重复三次，空洞卷积操作将特征长度减小2倍。横向信息计算模块中的Swin Transoformer Block的结构与SwinTransformer保持一致，具体参数与高阶统计信息的特征尺寸保持一致。空洞卷积的卷积核大小为3×3，扩张系数为2，用于在进行降维的同时扩大感受野保留更多的特征信息。与此同时，空洞卷积的边际参数为2，用于保证特征的尺寸的规律变化。

对四个尺度特征计算横向信息后，所有的特征被在第一维上展开合并并使用相似性分数预测网络进行相似性分数预测。相似性分数预测网络由3个全连接层和2个ReLU激活函数以及1个Sigmoid激活函数组成。3个全链接层连分别为N→1024， 1024→1024， 1024→1，N为所有的特征被在第一维上展开合并后的特征长度。

使用基于排序的损失函数训练模型。使用的训练策略为随机梯度下降算法，除学习率被设置为0.002之外所有的训练器参数都跟随默认设置。在训练过程中观察损失函数，当损失函数的数值连续一段时间内稳定，即可视为“模型收敛”，如图1所示。此时模型及模型参数可用于相似性判断。

基于排序的损失函数的实例如图2，具体实施步骤如下：

对预测值X和真实值Y使用可微分的排序方法分别获得二者的排序X ^R和Y ^R，x _i∈X和y _i∈Y分别表示一个batch中第i个数据的预测值和真实值，x _{r i}∈X ^R和y _{r i}∈Y ^R则分别表示

x _{r i}和y _{r i}在整个batch中按大小排序的排序。

对于x _i∈X，x _{r i}∈X ^R和y _i∈Y，y _{r i}∈Y ^R使用如下公式计算损失：

，其中，x _i和y _i分别表示一个batch中第i个数据的预测值和真实值，x _{r i}和y _{r i}则分别表示x _i和y _i在整个batch中按大小排序的排序。/>

作为预测值的排序和真实值的排序的衡量（即图2中的排名差异），再通过激活函数（如log ₁₀）平滑之后作为均方误差损失函数的权重。相关实验结果展示在表1实验结果中。

表1 实验结果

本发明使用均方误差函数（MSE），皮尔逊相关性系数（PCC），斯皮尔曼相关性系数（SRCC）以及肯德尔相关性系数（KRCC）作为评价指标。其中MSE越小越好，PCC、SRCC以及KRCC数值为0代表完全不相关，数值为1代表完全相关。MSE和PCC用于衡量预测值和真实值的数据差距，SRCC和KRCC是等级相关性，即在计算相关性时注重预测值和真实值的排序差距。本发明中使用SRCC和KRCC衡量预测值和真实值的排序一致性。

在表1的实验结果中，本发明的视觉感知启发的纹理相似性度量模型（Our Model+ MSE）相比以往最好的方法（PMTSPN）获得了较大提升。在数值（MSE和PCC）接近的情况下，SRCC和KRCC有明显提升（0.8783→0.8973，0.7076→0.7257）。这说明本发明的视觉感知启发的纹理相似性度量模型充分模拟了人类的感知方式，充分学习到了人类的感知信息。本发明的基于排序的质量评估驱动方法在训练视觉感知启发的纹理相似性度量模型时（OurModel + Our Loss），能够综合考虑排序差距和尺度差距，不仅引入排序信息，更使用排序信息促进缩小尺度差距。在表1实验结果中，本发明的基于排序的质量评估驱动方法相比广泛使用的MSE方法有较大提升（0.0056→0.0037，0.9147→0.9440，0.8973→0.9132，0.7257→0.7544）。这证明本发明的基于排序的质量评估驱动方法能够明显提高预测值与真实值的感知一致性。此外，本发明的基于排序的质量评估驱动方法能够加快模型的训练过程，如图4所示，横坐标是每100次的训练迭代过程，纵坐标是模型在验证集上的平均损失函数。为了公平比较，两条曲线都是在验证集上使用MSE损失函数计算的。MSE方法曲线是使用MSE损失函数训练模型，本方法是使用本发明的提出的使用基于排序的损失函数。可以看到，本发明的基于排序的损失函数能够使模型更快的收敛且达到更好的效果。综上，本发明的视觉感知和排序驱动的纹理相似性判别方法，包括一个模拟人类视觉系统的视觉感知启发的纹理相似性度量模型设计和一种基于排序的质量评估驱动方法设计能够加快模型的训练过程，提高预测值与真实值的感知一致性。

Claims

1.基于视觉感知与排序驱动的纹理相似性判别方法，其特征是包括以下步骤：

步骤1：对参与评价的数字纹理图像对进行预处理：将图像调整为3*224*224大小的RGB图像；将所有的数字纹理图像对都赋予人工感知评价分数，以使后续构建的模型得以学习人类感知与模拟人类主观评价；

步骤2：使用Siamese网络提取特征：所述Siamese网络包含一对共享参数的SwinTransformer骨干网络，所述Swin Transformer骨干网络在Imagenet上进行预训练，Siamese网络通过成对的骨干网络提取每一对纹理图像中的全局和局部特征；SwinTransformer骨干网络包含4个阶段，每个阶段又包含多个block；

步骤3：抽取Swin Transformer骨干网络的4个阶段的输出，获得4个特征，并对每个特征分别计算步骤4至步骤5；

步骤4：对提取的特征利用Bilinear Pooling方法计算高阶统计信息；

步骤5：提取纹理图像特征的高阶统计信息后，将两个图像的高阶统计信息在第二维上进行拼接，并继续使用横向信息计算模块进行横向信息的提取，以达到压缩高阶统计信息维度的目的；

步骤6：将获得的各个尺度上的特征展平成为特征向量，将特征向量第一维进行拼接，最后使用一个全连接网络模型进行预测；

步骤7：通过步骤2至6完成视觉感知启发的纹理相似性度量模型的构建，初始化该模型参数，并使用随机梯度下降算法和反向传播算法训练模型；其中，batch size的大小为8，并使用步长为4的梯度累积技术，学习率为0.002；在训练过程中使用基于排序的质量评估驱动方法作为损失函数，最小化误差的同时最大化相关性；

所述基于排序的质量评估驱动方法的计算公式如下：

，

所述x _{r i}和y _{r i}是通过可微的排序操作符实现，可微的排序操作是将排序操作转换为排列多面体上的线性规划；

2.如权利要求1所述的基于视觉感知与排序驱动的纹理相似性判别方法，其特征是所述步骤1中，若图像为单通道图像则将通道复制多份转变为RGB格式，并重新缩放图像至224*224大小，图像的最终格式为3*224*224大小的RGB图像。

3. 如权利要求1所述的基于视觉感知与排序驱动的纹理相似性判别方法，其特征是所述步骤2中，Swin Transformer骨干网络4个阶段分别包含2、2、18、2个block。

4.如权利要求1所述的基于视觉感知与排序驱动的纹理相似性判别方法，其特征是所述步骤4中，计算高阶统计信息方法如下：

，

5.如权利要求1所述的基于视觉感知与排序驱动的纹理相似性判别方法，其特征是所述步骤6中，全连接网络模型包含三个全连接层分别是N→1024、1024→1024、1024→1，以及两个ReLU激活函数与一个Sigmoid激活函数。

6. 如权利要求1所述的基于视觉感知与排序驱动的纹理相似性判别方法，其特征是所述步骤7中，所述x _{r i}和y _{r i}通过可微的排序操作符实现，其计算公式如下：

，

其中，Soft_Rank来自函数库torchsort，r是正则化方式；rs是正则化强度，在本方法中默认为0.001；

，

。/>