CN116128846A

CN116128846A - 一种面向肺部X-ray图像检索的视觉Transformer哈希方法

Info

Publication number: CN116128846A
Application number: CN202310097938.9A
Authority: CN
Inventors: 丁卫平; 刘传升; 程纯; 侯涛; 王海鹏; 鞠恒荣; 黄嘉爽; 曹金鑫; 高自强; 薛皓文
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2023-02-01
Filing date: 2023-02-01
Publication date: 2023-05-16
Anticipated expiration: 2043-02-01
Also published as: CN116128846B

Abstract

本发明提供了一种面向肺部X‑ray图像检索的视觉Transformer哈希方法，属于医学图像处理技术领域，解决了不同种类的肺部X‑ray图像之间去检索同种类图像时存在检索时间长、检索精度低的问题。其技术方案为：建立肺部X‑ray图像数据库，构建视觉Transformer哈希模型，根据模型的输出计算成对损失L_pair、量化损失L_quan、平衡损失L_bal以及分类损失L_cl，构造总损失函数L_all；使用交替学习算法优化损失函数L_all；并逐一返回与测试集中最相似的前T张肺部X‑ray图像。本发明的有益效果为：能够分辨不同肺部X‑ray图像之间的细微差异，哈希方法将高维肺部X‑ray图像映射为低维的二进制编码，实现肺部X‑ray图像检索的准确率。

Description

一种面向肺部X-ray图像检索的视觉Transformer哈希方法

技术领域

本发明涉及医学图像处理技术领域，尤其涉及一种面向肺部X-ray图像检索的视觉Transformer哈希方法。

背景技术

近年来，X射线、核磁共振、计算机断层扫描(Computed Tomography，CT)、多普勒彩超等技术不断发展，由此所产生的医学影像也逐渐增加。不同的医学影像技术涵括了对人的不同身体部位的视觉解读，为了能够做出更合理的诊断，专家医生大多需要通过借助以往相关病例的影像资料来判断当前患者所患的病症。然而，针对如此海量的医学图像，如何快速且高效地检索到相关图像是一项重大挑战。

早期，基于文本的图像检索(Text-Based Image Retrieval，TBIR)是一种主流的检索技术，该技术一般通过图像的文本形式的启发式信息(如标签、图像描述符等)进行检索，因此这就需要工作人员去对每一张图像进行手工标注。然而，针对数以百万计的图像数据，手工标注每一幅图像显然是不现实的。为了克服这一弊端，基于内容的图像检索(Content-Based Image Retrieval，CBIR)技术迅速兴起。CBIR提供了一种在大型数据库中搜索相关图像的方法，这种搜索方法通过视觉特征(如颜色、形状和纹理等)来描述图像，并且在很大程度上依赖于这些选定的特征。在CBIR中，对于一张给定的待查询图像，系统会从数据库中检索出一些在颜色、形状和纹理等方面与其相似的图像返回给用户。假设数据库中的图像和待查询图像都是由实值特征表示，搜索相关图像的最简单方法就是根据它们在特征空间中的距离进行排序，并返回距离最近的图像。然而，对于大规模图像检索而言，CBIR同样面临着存储空间大、检索精度低且速度慢的缺点。

为了解决内存成本高、检索速度慢且精度低等一系列问题，基于哈希的图像检索方法被提出并逐渐得到应用。

发明内容

本发明的目的在于提供一种面向肺部X-ray图像检索的视觉Transformer哈希方法，哈希方法主要是将高维图像特征映射到低维汉明空间并生成紧凑的二进制哈希编码，同时还能保持原始图像数据的相似性，该方法极大地降低了特征维度，避免了维度过高问题，在检索精度和检索速度方面得到了极大的改善。

为了实现上述发明目的，本发明采用技术方案具体为：一种面向肺部X-ray图像检索的视觉Transformer哈希方法，包括以下步骤：

S10：建立肺部X-ray图像数据库；

S20：对步骤S10建立的肺部X-ray图像数据库进行预处理并扩充，划分训练集、测试集和数据库样本集；

S30：构建视觉Transformer哈希模型，该模型包括特征学习和哈希编码学习两个模块。特征学习模块提取肺部X-ray图像的深度特征；哈希编码学习模块包括类别分支MLP_c和哈希分支MLP_h，并且每一个分支都是一个多层感知机，类别分支负责学习肺部X-ray图像的类别，哈希分支负责将提取到的深度特征映射为哈希编码；

S40：根据步骤S30得到的哈希编码和学习的肺部X-ray图像的类别计算4种损失，即成对损失L_pair、量化损失L_quan、平衡损失L_bal以及分类损失L_cl。定义总损失函数为：L_all＝L_pair+αL_quan+βL_bal+γL_cl，其中α、β、γ均为权重因子；

S50：使用交替学习算法对目标函数

中的模型参数进行优化更新，并保存优化更新后的模型，其中B′∈R^(N-n)×l代表训练过程中学习到的数据库D′的哈希编码矩阵、θ_h代表哈希分支的权重矩阵、θ_c代表类别分支的权重矩阵；

S60：首先使用步骤S50中保存的模型读取测试集T_e中的肺部X-ray图像

得到对应的哈希编码

l代表哈希编码长度；然后将

与哈希编码矩阵B′的每一行进行比较，返回汉明距离较小的前T个哈希编码；最后根据标签信息和返回的T个哈希编码计算检索的平均精度MAP。

作为本发明提供的一种面向肺部X-ray图像检索的视觉Transformer哈希方法进一步优化方法，在步骤S20中，对步骤S10初步建立的肺部X-ray图像数据库进行预处理并扩充，划分训练集、测试集和数据库样本集，具体步骤如下：

S21：假设数据库中样本最多的类别具有c_max个样本，则将样本数低于0.1*c_max的类别通过随机旋转、水平翻折、垂直翻折和随机擦除操作进行扩充，形成扩充后的肺部X-ray图像数据库

其中N代表数据库样本的总数，d_i代表第i个样本，l_i代表第i个样本的标签信息且l_i∈{0，1}^1×c，c代表D的类别数；

S22：从数据库D中随机抽取m个样本作为训练集

其中

代表训练集中第j个样本，

代表第j个样本的标签信息；

S23：从除训练集之外的样本中随机抽取n个样本作为测试集

其中

代表测试集中第k个样本，

代表第k个样本的标签信息；

S24：除测试集T_e之外的所有样本作为新的肺部X-ray图像数据库

且

其中d′_i代表D′中第i个样本，l′_i代表第i个样本的标签信息；

S25：根据数据库D′和训练集T_r构造成对相似性矩阵S，其中

其中i＝1，2，...，(N-n)，j＝1，2，...，m。如果S_ij＝2，则代表样本d′_i和

完全相似；如果S_ij＝0，则代表样本d′_i和

不相似；如果S_ij介于0到2之间，则代表样本d′_i和

具有一定的相似性。

作为本发明提供的一种面向肺部X-ray图像检索的视觉Transformer哈希方法进一步优化方法，在步骤S30中，特征学习模块使用视觉Transformer来提取图像特征，并在其内部添加了幂均值变换层PMT(·)和空间金字塔池化层SPP(·)，具体步骤如下：

S31：首先将输入图像

裁剪成M个大小相同且互不重叠的patch块，其中H和W代表图像的高度和宽度，C代表通道数；然后将M个patch块展平成二维的向量

P代表每一个patch的宽度和高度；最后将X_M通过线性映射层映射到d维空间形成序列

其中p＝1，2，...，M；

S32：将步骤S31得到的序列

通过位置嵌入层，具体过程如下：

其中

代表线性映射矩阵，E_pos∈R^M×d代表位置嵌入矩阵；

S33：将步骤S32的输出z_o通过幂均值变换层，假设幂均值变换层的输出为z′_o，令y＝[ln(z_o+1)，ln²(z_o+1)]，则

S34：将步骤S33中幂均值变换层的输出z′_o进一步通过Transformer编码器进行特征提取，本发明所使用的Transformer编码器的深度是6，并且每个Transformer编码器都是由层归一化LN(·)、多头空间金字塔池化注意力机制MHSPA(·)、多层感知机MLP(·)和残差连接组成。对于MHSPA(·)模块，本发明是将空间金字塔池化层SPP(·)嵌入在多头注意力机制MHA(·)中所形成的。

空间金字塔池化层SPP(·)则是将输入特征图经过自适应平均池化层形成1×1、2×2、4×4和16×16的特征子图，并将形成的特征子图展平拼接。

注意力机制是将查询Q和一组键值对K、V映射到输出，其中Q、K、V以及输出都是矩阵形式。输出是通过对V的加权来计算的，分配给每个V的权重则是通过查询Q与相应键K的兼容性函数来计算。

在MHSPA(·)模块中，V和K先通过SPP(·)模块，然后再将查询Q和经过池化的键值对K和V通过尺度点击注意力层。假设尺度点击注意力层的查询Q和键K的维度为dk，则MHSPA(·)模块的输出为：

其中，K′＝SPP(K)，V′＝SPP(V)。假设Transformer编码器的输出为Z_o，则Transformer编码器的具体流程如下：

Z_o＝MLP(LN(MHSPA(LN(z′_o))+z′_o))+MHSPA(LN(z′_o))+z′_o

S35：将步骤S34中Transformer编码器的输出Z_o再次经过幂均值变换层，假设幂均值变换层的输出为z″_o，令y′＝[ln(Z_o+1)，ln²(Z_o+1)]，则

S36：将步骤S35中幂均值变换层的输出z″_o通过哈希编码学习模块。哈希编码学习模块包括类别分支MLP_c和哈希分支MLP_h，并且每一个分支都是一个多层感知机，类别分支负责学习肺部X-ray图像的类别，哈希分支负责将提取到的深度特征映射为哈希编码。假设类别分支MLP_c的输出为

其中

代表输入图像，θ_c代表类别分支的权重矩阵；假设哈希分支MLP_h的输出为

其中

代表输入图像，θ_h代表哈希分支的权重矩阵。

作为本发明提供的一种面向肺部X-ray图像检索的视觉Transformer哈希方法进一步优化方法，在步骤S40中，根据类别分支MLP_c和哈希分支MLP_h的输出计算4种损失，即成对损失L_pair、量化损失L_quan、平衡损失L_bal以及分类损失L_cl。定义总损失函数为：L_all＝L_pair+αL_quan+βL_bal+γL_cl，其中α、β、γ均为权重因子，具体步骤如下：

S41：计算成对损失，训练过程中，本发明通过最小化相似度矩阵S和训练样本-数据库样本之间的哈希编码内积

的L2损失来保持查询样本和数据库样本之间的相似性。成对损失函数定义如下：

B′＝[b′₁，b′₂，...，b′_N-n]^T∈{-1，+1}^(N-n)×l

其中，

和b′_i分别代表训练样本和数据库样本的哈希编码，

h(·)针对训练样本所学习的哈希函数。

考虑到L_pair中对sign(·)函数的求解是一种离散优化问题，非常难以求解，故本发明使用双曲正切函数tanh(·)来近似sign(·)函数，即：

S42：计算量化损失，由于在成对损失L_pair中使用双曲正切函数tanh(·)来近似sign(·)函数，因此本发明在哈希分支的实值输出和哈希编码之间添加正则化项，即量化损失L_quan：

S43：计算平衡损失，为了使哈希编码尽可能地填充整个2^l的汉明空间并保证每一比特的平衡性，本发明提出平衡损失L_bal以确保每一比特上-1和+1出现的概率尽可能相等，定义如下：

其中mean(·)函数用来计算向量中元素的平均值。

S44：计算分类损失，由于不同图像的标签个数有很大差别，因此本发明在训练过程中针对单标签和多标签图像使用不同的损失函数。

(1)多标签分类损失L_multi：

其中，m′代表多标签图像的数目且m′≤m。

(2)单标签分类损失L_single：

其中，m-m′代表单标签图像的数目。

总的分类损失函数定义如下：

L_cl＝L_multi+L_single

S45：构造总损失函数为：

L_all＝L_pair+αL_quan+βL_bal+γL_cl

其中α、β、γ均为权重因子。

与现有技术相比，本发明的有益效果为：

(1)、与自然图像相比，肺部X-ray图像包含着复杂的组织纹理和解剖结构，本发明将空间金字塔池化层SPP嵌入在视觉Transformer中的多头注意力机制中，形成多头空间金字塔池化注意力层，该模块不仅可以提取全局的上下文特征，而且可以提取多尺度的局部上下文特征，并将不同尺度的特征进行融合，更利于区分不同类别的肺部X-ray图像之间的细微差异。

(2)、为了进一步提高模型的非线性特征提取能力，本发明在Transformer编码器的前后端分别加入幂均值变换(PMT)层。

(3)、本发明引入哈希编码学习，将视觉Transformer提取到的实值特征映射到Hamming空间，使得在训练模型时大大降低了存储空间、缩短了训练时间。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发提供的面向肺部X-ray图像检索的视觉Transformer哈希方法的流程示意图；

图2为本发明对收集到的肺部X-ray图像数据库进行数据增强、扩充的流程图；

图3为本发明中空间金字塔池化层SPP示意图；

图4为本发明中多头空间金字塔池化注意力机制MHSPA模块示意图；

图5为本发明红幂均值变换层PMT示意图；

图6为本发明一种面向肺部X-ray图像检索的视觉Transformer哈希方法整体框架图；

图7为本发明针对测试集所进行的检索示例：在36位哈希编码下随机检索到的前10张肺部X-ray图像的示例图，从左到右，返回的图像按Hamming距离降序排列。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。当然，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

参见图1与图7，本发明提供其技术方案为，一种面向肺部X-ray图像检索的视觉Transformer哈希方法，包括以下步骤：

S10：建立肺部X-ray图像数据库，该数据库包含13种不同类别的肺部X-ray图像；

S40：根据步骤S30得到的哈希编码和学习的肺部X-ray图像的类别计算4种损失，即成对损失L_pair、量化损失L_quan、平衡损失L_bal以及分类损失L_cl。定义总损失函数为：L_all＝L_pair+αL_quan+βL_bal+γL_cl，其中α＝100、β＝500、γ＝10均为权重因子；

S50：使用交替学习算法对目标函数

得到对应的哈希编码

代表哈希编码长度；然后将

与哈希编码矩阵B′的每一行进行比较，返回汉明距离较小的前10个哈希编码；最后根据标签信息和返回的10个哈希编码计算检索的平均精度MAP。最终，整个测试集T_e(共1300张测试图像)的平均检索精度为0.758。

具体地，在步骤S20中，对步骤S10初步建立的肺部X-ray图像数据库进行预处理并扩充，划分训练集、测试集和数据库样本集，具体步骤如下：

其中N＝47723代表数据库样本的总数，d_i代表第i个样本，l_i代表第i个样本的标签信息且l_i∈{0，1}^1×c，c＝13代表D的类别数；

S22：从数据库D中随机抽取m＝20000个样本作为训练集

其中

代表训练集中第j个样本，

代表第j个样本的标签信息；

S23：从除训练集之外的样本中随机抽取n＝1300个样本作为测试集

其中

代表测试集中第k个样本，

代表第k个样本的标签信息；

且

S25：根据数据库D′和训练集T_r构造成对相似性矩阵S，其中

其中i＝1，2...，(N-n)，j＝1，2，...，m。如果S_ij＝2，则代表样本d′_i和

完全相似；如果S_ij＝0，则代表样本d′_i和

不相似；如果S_ij介于0到2之间，则代表样本d′_i和

具有一定的相似性。

具体地，在步骤S30中，特征学习模块使用视觉Transformer来提取图像特征，并在其内部添加了幂均值变换层PMT(·)和空间金字塔池化层SPP(·)，具体步骤如下：

S31：首先将输入图像

裁剪成M＝9个大小相同且互不重叠的patch块，其中H＝1020和W＝1020代表图像的高度和宽度，C＝3代表通道数；然后将M个patch块展平成二维的向量

代表每一个patch的宽度和高度；最后将X_M通过线性映射层映射到d＝128维空间形成序列

其中p＝1，2，...，M；

S32：将步骤S31得到的序列

通过位置嵌入层，具体过程如下：

其中

代表线性映射矩阵，E_pos∈R^M×d代表位置嵌入矩阵；

在MHSPA(·)模块中，V和K先通过SPP(·)模块，然后再将查询Q和经过池化的键值对K和V通过尺度点击注意力层。假设尺度点击注意力层的查询Q和键K的维度为d_k，则MHSPA(·)模块的输出为：

Z_o＝MLP(LN(MHSPA(LN(z′_o))+z′_o))+MHSPA(LN(z′_o))+z′_o

其中c＝13代表肺部X-ray图像数据库的类别数，

其中l＝36代表哈希编码长度，

代表输入图像，θ_h代表哈希分支的权重矩阵。

具体地，在步骤S40中，根据类别分支MLP_c和哈希分支MLP_h的输出计算4种损失，即成对损失L_pair、量化损失L_quan、平衡损失L_bal以及分类损失L_cl。定义总损失函数为：L_all＝L_pair+αL_quan+βL_bal+γL_cl，其中α＝100、β＝500、γ＝10均为权重因子，具体步骤如下：

B′＝[b′₁，b′₂，...，b′_N-n]^T∈{-1，+1}^(N-n)×l

其中，

和b′_i分别代表训练样本和数据库样本的哈希编码，

h(·)针对训练样本所学习的哈希函数。

其中mean(·)函数用来计算向量中元素的平均值。

(1)多标签分类损失L_multi：

其中，m′代表多标签图像的数目且m′≤m。

(2)单标签分类损失L_single：

其中，m-m′代表单标签图像的数目。

总的分类损失函数定义如下：

L_cl＝L_multi+L_single

S45：构造总损失函数为：

L_all＝L_pair+αL_quan+βL_bal+γL_cl

其中α、β、γ均为权重因子。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向肺部X-ray图像检索的视觉Transformer哈希方法，其特征在于，包括以下步骤：

S10：建立肺部X-ray图像数据库；

S30：构建视觉Transformer哈希模型，该模型包括特征学习和哈希编码学习两个模块，特征学习模块提取肺部X-ray图像的深度特征；哈希编码学习模块包括类别分支MLP_c和哈希分支MLP_h，并且每一个分支都是一个多层感知机，类别分支负责学习肺部X-ray图像的类别，哈希分支负责将提取到的深度特征映射为哈希编码；

S40：根据步骤S30得到的哈希编码和学习的肺部X-ray图像的类别计算4种损失，即成对损失L_pair、量化损失L_quan、平衡损失L_bal以及分类损失L_cl，定义总损失函数为：L_all＝L_pair+αL_quan+βL_bal+γL_cl，其中α、β、γ均为权重因子；

S50：使用交替学习算法对目标函数

得到对应的哈希编码

l代表哈希编码长度；然后将

2.根据权利要求1所述的一种面向肺部X-ray图像检索的视觉Transformer哈希方法，其特征在于，在步骤S20中，对步骤S10初步建立的肺部X-ray图像数据库进行预处理并扩充，划分训练集、测试集和数据库样本集，具体步骤如下：

S22：从数据库D中随机抽取m个样本作为训练集

其中

代表训练集中第j个样本，

代表第j个样本的标签信息；

S23：从除训练集之外的样本中随机抽取n个样本作为测试集

其中

代表测试集中第k个样本，

代表第k个样本的标签信息；

且

S25：根据数据库D′和训练集T_r构造成对相似性矩阵S，其中

其中i＝1，2…，(N-n)，j＝1，2，...，m，如果S_ij＝2，则代表样本d′_i和

完全相似；如果S_ij＝0，则代表样本d′_i和

不相似；如果S_ij介于0到2之间，则代表样本d′_i和

具有一定的相似性。

3.根据权利要求1所述的一种面向肺部X-ray图像检索的视觉Transformer哈希方法，其特征在于，在步骤S30中，特征学习模块使用视觉Transformer来提取图像特征，并在其内部添加了幂均值变换层PMT(·)和空间金字塔池化层SPP(·)，具体步骤如下：

S31：首先将输入图像

其中p＝1，2，...，M；

S32：将步骤S31得到的序列

通过位置嵌入层，具体过程如下：

其中

代表线性映射矩阵，E_pos∈R^M×d代表位置嵌入矩阵；

S34：将步骤S33中幂均值变换层的输出z′_o通过Transformer编码器进行特征提取，使用的Transformer编码器的深度是6，并且每个Transformer编码器都是由层归一化LN(·)、多头空间金字塔池化注意力机制MHSPA(·)、多层感知机MLP(·)和残差连接组成，对于MHSPA(·)模块，将空间金字塔池化层SPP(·)嵌入在多头注意力机制MHA(·)中所形成的；

空间金字塔池化层SPP(·)则是将输入特征图经过自适应平均池化层形成1×1、2×2、4×4和16×16的特征子图，并将形成的特征子图展平拼接；

注意力机制是将查询Q和一组键值对K、V映射到输出，其中Q、K、V以及输出都是矩阵形式，输出是通过对V的加权来计算的，分配给每个V的权重则是通过查询Q与相应键K的兼容性函数来计算；

在MHSPA(·)模块中，V和K先通过SPP(·)模块，然后再将查询Q和经过池化的键值对K和V通过尺度点击注意力层，假设尺度点击注意力层的查询Q和键K的维度为d_k，则MHSPA(·)模块的输出为：

其中，K′＝SPP(K)，V′＝SPP(V)，假设Transformer编码器的输出为Z_o，则Transformer编码器的具体流程如下：

Z_o＝MLP(LN(MHSPA(LN(z′_o))+z′_o))+MHSPA(LN(z′_o))+z′_o

S36：将步骤S35中幂均值变换层的输出z″_o通过哈希编码学习模块，哈希编码学习模块包括类别分支MLP_c和哈希分支MLP_h，并且每一个分支都是一个多层感知机，类别分支负责学习肺部X-ray图像的类别，哈希分支负责将提取到的深度特征映射为哈希编码，假设类别分支MLP_c的输出为

其中

其中

代表输入图像，θ_h代表哈希分支的权重矩阵。

4.根据权利要求1所述的一种面向肺部X-ray图像检索的视觉Transformer哈希方法，其特征在于，在步骤S40中，根据类别分支MLP_c和哈希分支MLP_h的输出计算4种损失，即成对损失L_pair、量化损失L_quan、平衡损失L_bal以及分类损失L_cl，定义总损失函数为：L_all＝L_pair+αL_quan+βL_bal+γL_cl，其中α、β、γ均为权重因子，具体步骤如下：

S41：计算成对损失，训练过程中，通过最小化相似度矩阵S和训练样本-数据库样本之间的哈希编码内积