CN116128846A - 一种面向肺部X-ray图像检索的视觉Transformer哈希方法 - Google Patents

一种面向肺部X-ray图像检索的视觉Transformer哈希方法 Download PDF

Info

Publication number
CN116128846A
CN116128846A CN202310097938.9A CN202310097938A CN116128846A CN 116128846 A CN116128846 A CN 116128846A CN 202310097938 A CN202310097938 A CN 202310097938A CN 116128846 A CN116128846 A CN 116128846A
Authority
CN
China
Prior art keywords
hash
lung
loss
ray image
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310097938.9A
Other languages
English (en)
Other versions
CN116128846B (zh
Inventor
丁卫平
刘传升
程纯
侯涛
王海鹏
鞠恒荣
黄嘉爽
曹金鑫
高自强
薛皓文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN202310097938.9A priority Critical patent/CN116128846B/zh
Publication of CN116128846A publication Critical patent/CN116128846A/zh
Application granted granted Critical
Publication of CN116128846B publication Critical patent/CN116128846B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10116X-ray image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30061Lung
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种面向肺部X‑ray图像检索的视觉Transformer哈希方法,属于医学图像处理技术领域,解决了不同种类的肺部X‑ray图像之间去检索同种类图像时存在检索时间长、检索精度低的问题。其技术方案为:建立肺部X‑ray图像数据库,构建视觉Transformer哈希模型,根据模型的输出计算成对损失Lpair、量化损失Lquan、平衡损失Lbal以及分类损失Lcl,构造总损失函数Lall;使用交替学习算法优化损失函数Lall;并逐一返回与测试集中最相似的前T张肺部X‑ray图像。本发明的有益效果为:能够分辨不同肺部X‑ray图像之间的细微差异,哈希方法将高维肺部X‑ray图像映射为低维的二进制编码,实现肺部X‑ray图像检索的准确率。

Description

一种面向肺部X-ray图像检索的视觉Transformer哈希方法
技术领域
本发明涉及医学图像处理技术领域,尤其涉及一种面向肺部X-ray图像检索的视觉Transformer哈希方法。
背景技术
近年来,X射线、核磁共振、计算机断层扫描(Computed Tomography,CT)、多普勒彩超等技术不断发展,由此所产生的医学影像也逐渐增加。不同的医学影像技术涵括了对人的不同身体部位的视觉解读,为了能够做出更合理的诊断,专家医生大多需要通过借助以往相关病例的影像资料来判断当前患者所患的病症。然而,针对如此海量的医学图像,如何快速且高效地检索到相关图像是一项重大挑战。
早期,基于文本的图像检索(Text-Based Image Retrieval,TBIR)是一种主流的检索技术,该技术一般通过图像的文本形式的启发式信息(如标签、图像描述符等)进行检索,因此这就需要工作人员去对每一张图像进行手工标注。然而,针对数以百万计的图像数据,手工标注每一幅图像显然是不现实的。为了克服这一弊端,基于内容的图像检索(Content-Based Image Retrieval,CBIR)技术迅速兴起。CBIR提供了一种在大型数据库中搜索相关图像的方法,这种搜索方法通过视觉特征(如颜色、形状和纹理等)来描述图像,并且在很大程度上依赖于这些选定的特征。在CBIR中,对于一张给定的待查询图像,系统会从数据库中检索出一些在颜色、形状和纹理等方面与其相似的图像返回给用户。假设数据库中的图像和待查询图像都是由实值特征表示,搜索相关图像的最简单方法就是根据它们在特征空间中的距离进行排序,并返回距离最近的图像。然而,对于大规模图像检索而言,CBIR同样面临着存储空间大、检索精度低且速度慢的缺点。
为了解决内存成本高、检索速度慢且精度低等一系列问题,基于哈希的图像检索方法被提出并逐渐得到应用。
发明内容
本发明的目的在于提供一种面向肺部X-ray图像检索的视觉Transformer哈希方法,哈希方法主要是将高维图像特征映射到低维汉明空间并生成紧凑的二进制哈希编码,同时还能保持原始图像数据的相似性,该方法极大地降低了特征维度,避免了维度过高问题,在检索精度和检索速度方面得到了极大的改善。
为了实现上述发明目的,本发明采用技术方案具体为:一种面向肺部X-ray图像检索的视觉Transformer哈希方法,包括以下步骤:
S10:建立肺部X-ray图像数据库;
S20:对步骤S10建立的肺部X-ray图像数据库进行预处理并扩充,划分训练集、测试集和数据库样本集;
S30:构建视觉Transformer哈希模型,该模型包括特征学习和哈希编码学习两个模块。特征学习模块提取肺部X-ray图像的深度特征;哈希编码学习模块包括类别分支MLPc和哈希分支MLPh,并且每一个分支都是一个多层感知机,类别分支负责学习肺部X-ray图像的类别,哈希分支负责将提取到的深度特征映射为哈希编码;
S40:根据步骤S30得到的哈希编码和学习的肺部X-ray图像的类别计算4种损失,即成对损失Lpair、量化损失Lquan、平衡损失Lbal以及分类损失Lcl。定义总损失函数为:Lall=Lpair+αLquan+βLbal+γLcl,其中α、β、γ均为权重因子;
S50:使用交替学习算法对目标函数
Figure GDA0004118852980000021
中的模型参数进行优化更新,并保存优化更新后的模型,其中B′∈R(N-n)×l代表训练过程中学习到的数据库D′的哈希编码矩阵、θh代表哈希分支的权重矩阵、θc代表类别分支的权重矩阵;
S60:首先使用步骤S50中保存的模型读取测试集Te中的肺部X-ray图像
Figure GDA0004118852980000022
得到对应的哈希编码
Figure GDA0004118852980000023
l代表哈希编码长度;然后将
Figure GDA0004118852980000024
与哈希编码矩阵B′的每一行进行比较,返回汉明距离较小的前T个哈希编码;最后根据标签信息和返回的T个哈希编码计算检索的平均精度MAP。
作为本发明提供的一种面向肺部X-ray图像检索的视觉Transformer哈希方法进一步优化方法,在步骤S20中,对步骤S10初步建立的肺部X-ray图像数据库进行预处理并扩充,划分训练集、测试集和数据库样本集,具体步骤如下:
S21:假设数据库中样本最多的类别具有cmax个样本,则将样本数低于0.1*cmax的类别通过随机旋转、水平翻折、垂直翻折和随机擦除操作进行扩充,形成扩充后的肺部X-ray图像数据库
Figure GDA0004118852980000025
其中N代表数据库样本的总数,di代表第i个样本,li代表第i个样本的标签信息且li∈{0,1}1×c,c代表D的类别数;
S22:从数据库D中随机抽取m个样本作为训练集
Figure GDA0004118852980000026
其中
Figure GDA0004118852980000027
代表训练集中第j个样本,
Figure GDA0004118852980000028
代表第j个样本的标签信息;
S23:从除训练集之外的样本中随机抽取n个样本作为测试集
Figure GDA0004118852980000029
其中
Figure GDA00041188529800000210
代表测试集中第k个样本,
Figure GDA00041188529800000211
代表第k个样本的标签信息;
S24:除测试集Te之外的所有样本作为新的肺部X-ray图像数据库
Figure GDA0004118852980000031
Figure GDA0004118852980000032
其中d′i代表D′中第i个样本,l′i代表第i个样本的标签信息;
S25:根据数据库D′和训练集Tr构造成对相似性矩阵S,其中
Figure GDA0004118852980000033
其中i=1,2,...,(N-n),j=1,2,...,m。如果Sij=2,则代表样本d′i
Figure GDA0004118852980000034
完全相似;如果Sij=0,则代表样本d′i
Figure GDA0004118852980000035
不相似;如果Sij介于0到2之间,则代表样本d′i
Figure GDA0004118852980000036
具有一定的相似性。
作为本发明提供的一种面向肺部X-ray图像检索的视觉Transformer哈希方法进一步优化方法,在步骤S30中,特征学习模块使用视觉Transformer来提取图像特征,并在其内部添加了幂均值变换层PMT(·)和空间金字塔池化层SPP(·),具体步骤如下:
S31:首先将输入图像
Figure GDA0004118852980000037
裁剪成M个大小相同且互不重叠的patch块,其中H和W代表图像的高度和宽度,C代表通道数;然后将M个patch块展平成二维的向量
Figure GDA0004118852980000038
P代表每一个patch的宽度和高度;最后将XM通过线性映射层映射到d维空间形成序列
Figure GDA0004118852980000039
其中p=1,2,...,M;
S32:将步骤S31得到的序列
Figure GDA00041188529800000310
通过位置嵌入层,具体过程如下:
Figure GDA00041188529800000311
其中
Figure GDA00041188529800000312
代表线性映射矩阵,Epos∈RM×d代表位置嵌入矩阵;
S33:将步骤S32的输出zo通过幂均值变换层,假设幂均值变换层的输出为z′o,令y=[ln(zo+1),ln2(zo+1)],则
Figure GDA00041188529800000313
Figure GDA00041188529800000314
Figure GDA0004118852980000041
S34:将步骤S33中幂均值变换层的输出z′o进一步通过Transformer编码器进行特征提取,本发明所使用的Transformer编码器的深度是6,并且每个Transformer编码器都是由层归一化LN(·)、多头空间金字塔池化注意力机制MHSPA(·)、多层感知机MLP(·)和残差连接组成。对于MHSPA(·)模块,本发明是将空间金字塔池化层SPP(·)嵌入在多头注意力机制MHA(·)中所形成的。
空间金字塔池化层SPP(·)则是将输入特征图经过自适应平均池化层形成1×1、2×2、4×4和16×16的特征子图,并将形成的特征子图展平拼接。
注意力机制是将查询Q和一组键值对K、V映射到输出,其中Q、K、V以及输出都是矩阵形式。输出是通过对V的加权来计算的,分配给每个V的权重则是通过查询Q与相应键K的兼容性函数来计算。
在MHSPA(·)模块中,V和K先通过SPP(·)模块,然后再将查询Q和经过池化的键值对K和V通过尺度点击注意力层。假设尺度点击注意力层的查询Q和键K的维度为dk,则MHSPA(·)模块的输出为:
Figure GDA0004118852980000042
其中,K′=SPP(K),V′=SPP(V)。假设Transformer编码器的输出为Zo,则Transformer编码器的具体流程如下:
Zo=MLP(LN(MHSPA(LN(z′o))+z′o))+MHSPA(LN(z′o))+z′o
S35:将步骤S34中Transformer编码器的输出Zo再次经过幂均值变换层,假设幂均值变换层的输出为z″o,令y′=[ln(Zo+1),ln2(Zo+1)],则
Figure GDA0004118852980000043
Figure GDA0004118852980000044
S36:将步骤S35中幂均值变换层的输出z″o通过哈希编码学习模块。哈希编码学习模块包括类别分支MLPc和哈希分支MLPh,并且每一个分支都是一个多层感知机,类别分支负责学习肺部X-ray图像的类别,哈希分支负责将提取到的深度特征映射为哈希编码。假设类别分支MLPc的输出为
Figure GDA0004118852980000051
其中
Figure GDA0004118852980000052
代表输入图像,θc代表类别分支的权重矩阵;假设哈希分支MLPh的输出为
Figure GDA0004118852980000053
其中
Figure GDA0004118852980000054
代表输入图像,θh代表哈希分支的权重矩阵。
作为本发明提供的一种面向肺部X-ray图像检索的视觉Transformer哈希方法进一步优化方法,在步骤S40中,根据类别分支MLPc和哈希分支MLPh的输出计算4种损失,即成对损失Lpair、量化损失Lquan、平衡损失Lbal以及分类损失Lcl。定义总损失函数为:Lall=Lpair+αLquan+βLbal+γLcl,其中α、β、γ均为权重因子,具体步骤如下:
S41:计算成对损失,训练过程中,本发明通过最小化相似度矩阵S和训练样本-数据库样本之间的哈希编码内积
Figure GDA0004118852980000055
的L2损失来保持查询样本和数据库样本之间的相似性。成对损失函数定义如下:
Figure GDA0004118852980000056
Figure GDA0004118852980000057
B′=[b′1,b′2,...,b′N-n]T∈{-1,+1}(N-n)×l
其中,
Figure GDA0004118852980000058
和b′i分别代表训练样本和数据库样本的哈希编码,
Figure GDA0004118852980000059
h(·)针对训练样本所学习的哈希函数。
考虑到Lpair中对sign(·)函数的求解是一种离散优化问题,非常难以求解,故本发明使用双曲正切函数tanh(·)来近似sign(·)函数,即:
Figure GDA00041188529800000510
Figure GDA0004118852980000061
S42:计算量化损失,由于在成对损失Lpair中使用双曲正切函数tanh(·)来近似sign(·)函数,因此本发明在哈希分支的实值输出和哈希编码之间添加正则化项,即量化损失Lquan
Figure GDA0004118852980000062
S43:计算平衡损失,为了使哈希编码尽可能地填充整个2l的汉明空间并保证每一比特的平衡性,本发明提出平衡损失Lbal以确保每一比特上-1和+1出现的概率尽可能相等,定义如下:
Figure GDA0004118852980000063
其中mean(·)函数用来计算向量中元素的平均值。
S44:计算分类损失,由于不同图像的标签个数有很大差别,因此本发明在训练过程中针对单标签和多标签图像使用不同的损失函数。
(1)多标签分类损失Lmulti
Figure GDA0004118852980000064
其中,m′代表多标签图像的数目且m′≤m。
(2)单标签分类损失Lsingle
Figure GDA0004118852980000065
其中,m-m′代表单标签图像的数目。
总的分类损失函数定义如下:
Lcl=Lmulti+Lsingle
S45:构造总损失函数为:
Lall=Lpair+αLquan+βLbal+γLcl
其中α、β、γ均为权重因子。
与现有技术相比,本发明的有益效果为:
(1)、与自然图像相比,肺部X-ray图像包含着复杂的组织纹理和解剖结构,本发明将空间金字塔池化层SPP嵌入在视觉Transformer中的多头注意力机制中,形成多头空间金字塔池化注意力层,该模块不仅可以提取全局的上下文特征,而且可以提取多尺度的局部上下文特征,并将不同尺度的特征进行融合,更利于区分不同类别的肺部X-ray图像之间的细微差异。
(2)、为了进一步提高模型的非线性特征提取能力,本发明在Transformer编码器的前后端分别加入幂均值变换(PMT)层。
(3)、本发明引入哈希编码学习,将视觉Transformer提取到的实值特征映射到Hamming空间,使得在训练模型时大大降低了存储空间、缩短了训练时间。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发提供的面向肺部X-ray图像检索的视觉Transformer哈希方法的流程示意图;
图2为本发明对收集到的肺部X-ray图像数据库进行数据增强、扩充的流程图;
图3为本发明中空间金字塔池化层SPP示意图;
图4为本发明中多头空间金字塔池化注意力机制MHSPA模块示意图;
图5为本发明红幂均值变换层PMT示意图;
图6为本发明一种面向肺部X-ray图像检索的视觉Transformer哈希方法整体框架图;
图7为本发明针对测试集所进行的检索示例:在36位哈希编码下随机检索到的前10张肺部X-ray图像的示例图,从左到右,返回的图像按Hamming距离降序排列。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。当然,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
参见图1与图7,本发明提供其技术方案为,一种面向肺部X-ray图像检索的视觉Transformer哈希方法,包括以下步骤:
S10:建立肺部X-ray图像数据库,该数据库包含13种不同类别的肺部X-ray图像;
S20:对步骤S10建立的肺部X-ray图像数据库进行预处理并扩充,划分训练集、测试集和数据库样本集;
S30:构建视觉Transformer哈希模型,该模型包括特征学习和哈希编码学习两个模块。特征学习模块提取肺部X-ray图像的深度特征;哈希编码学习模块包括类别分支MLPc和哈希分支MLPh,并且每一个分支都是一个多层感知机,类别分支负责学习肺部X-ray图像的类别,哈希分支负责将提取到的深度特征映射为哈希编码;
S40:根据步骤S30得到的哈希编码和学习的肺部X-ray图像的类别计算4种损失,即成对损失Lpair、量化损失Lquan、平衡损失Lbal以及分类损失Lcl。定义总损失函数为:Lall=Lpair+αLquan+βLbal+γLcl,其中α=100、β=500、γ=10均为权重因子;
S50:使用交替学习算法对目标函数
Figure GDA0004118852980000081
中的模型参数进行优化更新,并保存优化更新后的模型,其中B′∈R(N-n)×l代表训练过程中学习到的数据库D′的哈希编码矩阵、θh代表哈希分支的权重矩阵、θc代表类别分支的权重矩阵;
S60:首先使用步骤S50中保存的模型读取测试集Te中的肺部X-ray图像
Figure GDA0004118852980000082
得到对应的哈希编码
Figure GDA0004118852980000083
代表哈希编码长度;然后将
Figure GDA0004118852980000084
与哈希编码矩阵B′的每一行进行比较,返回汉明距离较小的前10个哈希编码;最后根据标签信息和返回的10个哈希编码计算检索的平均精度MAP。最终,整个测试集Te(共1300张测试图像)的平均检索精度为0.758。
具体地,在步骤S20中,对步骤S10初步建立的肺部X-ray图像数据库进行预处理并扩充,划分训练集、测试集和数据库样本集,具体步骤如下:
S21:假设数据库中样本最多的类别具有cmax个样本,则将样本数低于0.1*cmax的类别通过随机旋转、水平翻折、垂直翻折和随机擦除操作进行扩充,形成扩充后的肺部X-ray图像数据库
Figure GDA0004118852980000085
其中N=47723代表数据库样本的总数,di代表第i个样本,li代表第i个样本的标签信息且li∈{0,1}1×c,c=13代表D的类别数;
S22:从数据库D中随机抽取m=20000个样本作为训练集
Figure GDA0004118852980000086
其中
Figure GDA0004118852980000087
代表训练集中第j个样本,
Figure GDA00041188529800000811
代表第j个样本的标签信息;
S23:从除训练集之外的样本中随机抽取n=1300个样本作为测试集
Figure GDA0004118852980000088
其中
Figure GDA0004118852980000089
代表测试集中第k个样本,
Figure GDA00041188529800000810
代表第k个样本的标签信息;
S24:除测试集Te之外的所有样本作为新的肺部X-ray图像数据库
Figure GDA0004118852980000091
Figure GDA0004118852980000092
其中d′i代表D′中第i个样本,l′i代表第i个样本的标签信息;
S25:根据数据库D′和训练集Tr构造成对相似性矩阵S,其中
Figure GDA0004118852980000093
其中i=1,2...,(N-n),j=1,2,...,m。如果Sij=2,则代表样本d′i
Figure GDA0004118852980000094
完全相似;如果Sij=0,则代表样本d′i
Figure GDA0004118852980000095
不相似;如果Sij介于0到2之间,则代表样本d′i
Figure GDA0004118852980000096
具有一定的相似性。
具体地,在步骤S30中,特征学习模块使用视觉Transformer来提取图像特征,并在其内部添加了幂均值变换层PMT(·)和空间金字塔池化层SPP(·),具体步骤如下:
S31:首先将输入图像
Figure GDA0004118852980000097
裁剪成M=9个大小相同且互不重叠的patch块,其中H=1020和W=1020代表图像的高度和宽度,C=3代表通道数;然后将M个patch块展平成二维的向量
Figure GDA0004118852980000098
代表每一个patch的宽度和高度;最后将XM通过线性映射层映射到d=128维空间形成序列
Figure GDA0004118852980000099
其中p=1,2,...,M;
S32:将步骤S31得到的序列
Figure GDA00041188529800000910
通过位置嵌入层,具体过程如下:
Figure GDA00041188529800000911
其中
Figure GDA00041188529800000912
代表线性映射矩阵,Epos∈RM×d代表位置嵌入矩阵;
S33:将步骤S32的输出zo通过幂均值变换层,假设幂均值变换层的输出为z′o,令y=[ln(zo+1),ln2(zo+1)],则
Figure GDA00041188529800000913
Figure GDA00041188529800000914
S34:将步骤S33中幂均值变换层的输出z′o进一步通过Transformer编码器进行特征提取,本发明所使用的Transformer编码器的深度是6,并且每个Transformer编码器都是由层归一化LN(·)、多头空间金字塔池化注意力机制MHSPA(·)、多层感知机MLP(·)和残差连接组成。对于MHSPA(·)模块,本发明是将空间金字塔池化层SPP(·)嵌入在多头注意力机制MHA(·)中所形成的。
空间金字塔池化层SPP(·)则是将输入特征图经过自适应平均池化层形成1×1、2×2、4×4和16×16的特征子图,并将形成的特征子图展平拼接。
注意力机制是将查询Q和一组键值对K、V映射到输出,其中Q、K、V以及输出都是矩阵形式。输出是通过对V的加权来计算的,分配给每个V的权重则是通过查询Q与相应键K的兼容性函数来计算。
在MHSPA(·)模块中,V和K先通过SPP(·)模块,然后再将查询Q和经过池化的键值对K和V通过尺度点击注意力层。假设尺度点击注意力层的查询Q和键K的维度为dk,则MHSPA(·)模块的输出为:
Figure GDA0004118852980000101
其中,K′=SPP(K),V′=SPP(V)。假设Transformer编码器的输出为Zo,则Transformer编码器的具体流程如下:
Zo=MLP(LN(MHSPA(LN(z′o))+z′o))+MHSPA(LN(z′o))+z′o
S35:将步骤S34中Transformer编码器的输出Zo再次经过幂均值变换层,假设幂均值变换层的输出为z″o,令y′=[ln(Zo+1),ln2(Zo+1)],则
Figure GDA0004118852980000102
Figure GDA0004118852980000103
S36:将步骤S35中幂均值变换层的输出z″o通过哈希编码学习模块。哈希编码学习模块包括类别分支MLPc和哈希分支MLPh,并且每一个分支都是一个多层感知机,类别分支负责学习肺部X-ray图像的类别,哈希分支负责将提取到的深度特征映射为哈希编码。假设类别分支MLPc的输出为
Figure GDA0004118852980000111
其中c=13代表肺部X-ray图像数据库的类别数,
Figure GDA0004118852980000112
代表输入图像,θc代表类别分支的权重矩阵;假设哈希分支MLPh的输出为
Figure GDA0004118852980000113
其中l=36代表哈希编码长度,
Figure GDA0004118852980000114
代表输入图像,θh代表哈希分支的权重矩阵。
具体地,在步骤S40中,根据类别分支MLPc和哈希分支MLPh的输出计算4种损失,即成对损失Lpair、量化损失Lquan、平衡损失Lbal以及分类损失Lcl。定义总损失函数为:Lall=Lpair+αLquan+βLbal+γLcl,其中α=100、β=500、γ=10均为权重因子,具体步骤如下:
S41:计算成对损失,训练过程中,本发明通过最小化相似度矩阵S和训练样本-数据库样本之间的哈希编码内积
Figure GDA0004118852980000115
的L2损失来保持查询样本和数据库样本之间的相似性。成对损失函数定义如下:
Figure GDA0004118852980000116
Figure GDA0004118852980000117
B′=[b′1,b′2,...,b′N-n]T∈{-1,+1}(N-n)×l
其中,
Figure GDA00041188529800001110
和b′i分别代表训练样本和数据库样本的哈希编码,
Figure GDA0004118852980000118
h(·)针对训练样本所学习的哈希函数。
考虑到Lpair中对sign(·)函数的求解是一种离散优化问题,非常难以求解,故本发明使用双曲正切函数tanh(·)来近似sign(·)函数,即:
Figure GDA0004118852980000119
Figure GDA0004118852980000121
S42:计算量化损失,由于在成对损失Lpair中使用双曲正切函数tanh(·)来近似sign(·)函数,因此本发明在哈希分支的实值输出和哈希编码之间添加正则化项,即量化损失Lquan
Figure GDA0004118852980000122
S43:计算平衡损失,为了使哈希编码尽可能地填充整个2l的汉明空间并保证每一比特的平衡性,本发明提出平衡损失Lbal以确保每一比特上-1和+1出现的概率尽可能相等,定义如下:
Figure GDA0004118852980000123
其中mean(·)函数用来计算向量中元素的平均值。
S44:计算分类损失,由于不同图像的标签个数有很大差别,因此本发明在训练过程中针对单标签和多标签图像使用不同的损失函数。
(1)多标签分类损失Lmulti
Figure GDA0004118852980000124
其中,m′代表多标签图像的数目且m′≤m。
(2)单标签分类损失Lsingle
Figure GDA0004118852980000125
其中,m-m′代表单标签图像的数目。
总的分类损失函数定义如下:
Lcl=Lmulti+Lsingle
S45:构造总损失函数为:
Lall=Lpair+αLquan+βLbal+γLcl
其中α、β、γ均为权重因子。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种面向肺部X-ray图像检索的视觉Transformer哈希方法,其特征在于,包括以下步骤:
S10:建立肺部X-ray图像数据库;
S20:对步骤S10建立的肺部X-ray图像数据库进行预处理并扩充,划分训练集、测试集和数据库样本集;
S30:构建视觉Transformer哈希模型,该模型包括特征学习和哈希编码学习两个模块,特征学习模块提取肺部X-ray图像的深度特征;哈希编码学习模块包括类别分支MLPc和哈希分支MLPh,并且每一个分支都是一个多层感知机,类别分支负责学习肺部X-ray图像的类别,哈希分支负责将提取到的深度特征映射为哈希编码;
S40:根据步骤S30得到的哈希编码和学习的肺部X-ray图像的类别计算4种损失,即成对损失Lpair、量化损失Lquan、平衡损失Lbal以及分类损失Lcl,定义总损失函数为:Lall=Lpair+αLquan+βLbal+γLcl,其中α、β、γ均为权重因子;
S50:使用交替学习算法对目标函数
Figure FDA0004118852970000011
中的模型参数进行优化更新,并保存优化更新后的模型,其中B′∈R(N-n)×l代表训练过程中学习到的数据库D′的哈希编码矩阵、θh代表哈希分支的权重矩阵、θc代表类别分支的权重矩阵;
S60:首先使用步骤S50中保存的模型读取测试集Te中的肺部X-ray图像
Figure FDA0004118852970000012
得到对应的哈希编码
Figure FDA0004118852970000013
l代表哈希编码长度;然后将
Figure FDA0004118852970000014
与哈希编码矩阵B′的每一行进行比较,返回汉明距离较小的前T个哈希编码;最后根据标签信息和返回的T个哈希编码计算检索的平均精度MAP。
2.根据权利要求1所述的一种面向肺部X-ray图像检索的视觉Transformer哈希方法,其特征在于,在步骤S20中,对步骤S10初步建立的肺部X-ray图像数据库进行预处理并扩充,划分训练集、测试集和数据库样本集,具体步骤如下:
S21:假设数据库中样本最多的类别具有cmax个样本,则将样本数低于0.1*cmax的类别通过随机旋转、水平翻折、垂直翻折和随机擦除操作进行扩充,形成扩充后的肺部X-ray图像数据库
Figure FDA0004118852970000015
其中N代表数据库样本的总数,di代表第i个样本,li代表第i个样本的标签信息且li∈{0,1}1×c,c代表D的类别数;
S22:从数据库D中随机抽取m个样本作为训练集
Figure FDA0004118852970000016
其中
Figure FDA0004118852970000017
代表训练集中第j个样本,
Figure FDA0004118852970000018
代表第j个样本的标签信息;
S23:从除训练集之外的样本中随机抽取n个样本作为测试集
Figure FDA0004118852970000021
其中
Figure FDA0004118852970000022
代表测试集中第k个样本,
Figure FDA0004118852970000023
代表第k个样本的标签信息;
S24:除测试集Te之外的所有样本作为新的肺部X-ray图像数据库
Figure FDA0004118852970000024
Figure FDA0004118852970000025
其中d′i代表D′中第i个样本,l′i代表第i个样本的标签信息;
S25:根据数据库D′和训练集Tr构造成对相似性矩阵S,其中
Figure FDA0004118852970000026
其中i=1,2…,(N-n),j=1,2,...,m,如果Sij=2,则代表样本d′i
Figure FDA0004118852970000027
完全相似;如果Sij=0,则代表样本d′i
Figure FDA0004118852970000028
不相似;如果Sij介于0到2之间,则代表样本d′i
Figure FDA0004118852970000029
具有一定的相似性。
3.根据权利要求1所述的一种面向肺部X-ray图像检索的视觉Transformer哈希方法,其特征在于,在步骤S30中,特征学习模块使用视觉Transformer来提取图像特征,并在其内部添加了幂均值变换层PMT(·)和空间金字塔池化层SPP(·),具体步骤如下:
S31:首先将输入图像
Figure FDA00041188529700000210
裁剪成M个大小相同且互不重叠的patch块,其中H和W代表图像的高度和宽度,C代表通道数;然后将M个patch块展平成二维的向量
Figure FDA00041188529700000211
P代表每一个patch的宽度和高度;最后将XM通过线性映射层映射到d维空间形成序列
Figure FDA00041188529700000212
其中p=1,2,...,M;
S32:将步骤S31得到的序列
Figure FDA00041188529700000213
通过位置嵌入层,具体过程如下:
Figure FDA00041188529700000214
其中
Figure FDA00041188529700000215
代表线性映射矩阵,Epos∈RM×d代表位置嵌入矩阵;
S33:将步骤S32的输出zo通过幂均值变换层,假设幂均值变换层的输出为z′o,令y=[ln(zo+1),ln2(zo+1)],则
Figure FDA00041188529700000216
Figure FDA00041188529700000217
Figure FDA0004118852970000031
S34:将步骤S33中幂均值变换层的输出z′o通过Transformer编码器进行特征提取,使用的Transformer编码器的深度是6,并且每个Transformer编码器都是由层归一化LN(·)、多头空间金字塔池化注意力机制MHSPA(·)、多层感知机MLP(·)和残差连接组成,对于MHSPA(·)模块,将空间金字塔池化层SPP(·)嵌入在多头注意力机制MHA(·)中所形成的;
空间金字塔池化层SPP(·)则是将输入特征图经过自适应平均池化层形成1×1、2×2、4×4和16×16的特征子图,并将形成的特征子图展平拼接;
注意力机制是将查询Q和一组键值对K、V映射到输出,其中Q、K、V以及输出都是矩阵形式,输出是通过对V的加权来计算的,分配给每个V的权重则是通过查询Q与相应键K的兼容性函数来计算;
在MHSPA(·)模块中,V和K先通过SPP(·)模块,然后再将查询Q和经过池化的键值对K和V通过尺度点击注意力层,假设尺度点击注意力层的查询Q和键K的维度为dk,则MHSPA(·)模块的输出为:
Figure FDA0004118852970000032
其中,K′=SPP(K),V′=SPP(V),假设Transformer编码器的输出为Zo,则Transformer编码器的具体流程如下:
Zo=MLP(LN(MHSPA(LN(z′o))+z′o))+MHSPA(LN(z′o))+z′o
S35:将步骤S34中Transformer编码器的输出Zo再次经过幂均值变换层,假设幂均值变换层的输出为z″o,令y′=[ln(Zo+1),ln2(Zo+1)],则
Figure FDA0004118852970000033
Figure FDA0004118852970000034
S36:将步骤S35中幂均值变换层的输出z″o通过哈希编码学习模块,哈希编码学习模块包括类别分支MLPc和哈希分支MLPh,并且每一个分支都是一个多层感知机,类别分支负责学习肺部X-ray图像的类别,哈希分支负责将提取到的深度特征映射为哈希编码,假设类别分支MLPc的输出为
Figure FDA0004118852970000041
其中
Figure FDA0004118852970000042
代表输入图像,θc代表类别分支的权重矩阵;假设哈希分支MLPh的输出为
Figure FDA0004118852970000043
其中
Figure FDA0004118852970000044
代表输入图像,θh代表哈希分支的权重矩阵。
4.根据权利要求1所述的一种面向肺部X-ray图像检索的视觉Transformer哈希方法,其特征在于,在步骤S40中,根据类别分支MLPc和哈希分支MLPh的输出计算4种损失,即成对损失Lpair、量化损失Lquan、平衡损失Lbal以及分类损失Lcl,定义总损失函数为:Lall=Lpair+αLquan+βLbal+γLcl,其中α、β、γ均为权重因子,具体步骤如下:
S41:计算成对损失,训练过程中,通过最小化相似度矩阵S和训练样本-数据库样本之间的哈希编码内积
Figure FDA0004118852970000045
的L2损失来保持查询样本和数据库样本之间的相似性,成对损失函数定义如下:
Figure FDA0004118852970000046
Figure FDA0004118852970000047
B′=[b′1,b′2,…,b′N-n]T∈{-1,+1}(N-n)×l
其中,
Figure FDA0004118852970000048
和b′i分别代表训练样本和数据库样本的哈希编码,
Figure FDA0004118852970000049
h(·)针对训练样本所学习的哈希函数;
考虑到Lpair中对sign(·)函数的求解是一种离散优化问题,故使用双曲正切函数tanh(·)来近似sign(·)函数,即:
Figure FDA00041188529700000410
Figure FDA0004118852970000051
S42:计算量化损失,由于在成对损失Lpair中使用双曲正切函数tanh(·)来近似sign(·)函数,在哈希分支的实值输出和哈希编码之间添加正则化项,即量化损失Lquan
Figure FDA0004118852970000052
S43:计算平衡损失,为了使哈希编码尽可能地填充整个2l的汉明空间并保证每一比特的平衡性,提出平衡损失Lbal以确保每一比特上-1和+1出现的概率尽可能相等,定义如下:
Figure FDA0004118852970000053
其中mean(·)函数用来计算向量中元素的平均值;
S44:计算分类损失,由于不同图像的标签个数有很大差别,在训练过程中针对单标签和多标签图像使用不同的损失函数;
(1)多标签分类损失Lmulti
Figure FDA0004118852970000054
其中,m′代表多标签图像的数目且m′≤m;
(2)单标签分类损失Lsingle
Figure FDA0004118852970000055
其中,m-m′代表单标签图像的数目;
总的分类损失函数定义如下:
Lcl=Lmulti+Lsingle
S45:构造总损失函数为:
Lall=Lpair+αLquan+βLbal+γLcl
其中α、β、γ均为权重因子。
CN202310097938.9A 2023-02-01 2023-02-01 一种面向肺部X-ray图像检索的视觉Transformer哈希方法 Active CN116128846B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310097938.9A CN116128846B (zh) 2023-02-01 2023-02-01 一种面向肺部X-ray图像检索的视觉Transformer哈希方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310097938.9A CN116128846B (zh) 2023-02-01 2023-02-01 一种面向肺部X-ray图像检索的视觉Transformer哈希方法

Publications (2)

Publication Number Publication Date
CN116128846A true CN116128846A (zh) 2023-05-16
CN116128846B CN116128846B (zh) 2023-08-22

Family

ID=86311449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310097938.9A Active CN116128846B (zh) 2023-02-01 2023-02-01 一种面向肺部X-ray图像检索的视觉Transformer哈希方法

Country Status (1)

Country Link
CN (1) CN116128846B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116383470A (zh) * 2023-05-29 2023-07-04 新智元(南京)科技信息有限公司 一种具有隐私保护的图像搜索方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076465A (zh) * 2021-05-14 2021-07-06 中国石油大学(华东) 一种基于深度哈希的通用跨模态检索模型
CN113779361A (zh) * 2021-08-27 2021-12-10 华中科技大学 基于多层注意力机制的跨模态检索模型的构建方法及应用
CN114328991A (zh) * 2021-12-24 2022-04-12 深圳龙岗智能视听研究院 一种基于哈希编码的图像声音检索方法
CN114463583A (zh) * 2022-01-26 2022-05-10 南通大学 一种用于肺炎ct图像分类的深度哈希方法
CN114612747A (zh) * 2022-03-16 2022-06-10 东北林业大学 基于无监督加权哈希的遥感图像检索方法
CN115017366A (zh) * 2022-07-11 2022-09-06 中国科学技术大学 基于多粒度语境化和多结构保存的无监督视频哈希检索方法
JP2022155690A (ja) * 2021-03-31 2022-10-14 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
CN115357747A (zh) * 2022-10-18 2022-11-18 山东建筑大学 一种基于序数哈希的图像检索方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022155690A (ja) * 2021-03-31 2022-10-14 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
CN113076465A (zh) * 2021-05-14 2021-07-06 中国石油大学(华东) 一种基于深度哈希的通用跨模态检索模型
CN113779361A (zh) * 2021-08-27 2021-12-10 华中科技大学 基于多层注意力机制的跨模态检索模型的构建方法及应用
CN114328991A (zh) * 2021-12-24 2022-04-12 深圳龙岗智能视听研究院 一种基于哈希编码的图像声音检索方法
CN114463583A (zh) * 2022-01-26 2022-05-10 南通大学 一种用于肺炎ct图像分类的深度哈希方法
CN114612747A (zh) * 2022-03-16 2022-06-10 东北林业大学 基于无监督加权哈希的遥感图像检索方法
CN115017366A (zh) * 2022-07-11 2022-09-06 中国科学技术大学 基于多粒度语境化和多结构保存的无监督视频哈希检索方法
CN115357747A (zh) * 2022-10-18 2022-11-18 山东建筑大学 一种基于序数哈希的图像检索方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YONGBIAO CHEN ET AL.: "TransHash: Transformer-based Hamming Hashing for Efficient Image Retrieval", PROCEEDINGS OF THE 2022 INTERNATIONAL CONFERENCE ON MULTIMEDIA RETRIEVAL *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116383470A (zh) * 2023-05-29 2023-07-04 新智元(南京)科技信息有限公司 一种具有隐私保护的图像搜索方法
CN116383470B (zh) * 2023-05-29 2023-08-29 新智元(南京)科技信息有限公司 一种具有隐私保护的图像搜索方法

Also Published As

Publication number Publication date
CN116128846B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
Qayyum et al. Medical image retrieval using deep convolutional neural network
Zhuang et al. An Effective WSSENet-Based Similarity Retrieval Method of Large Lung CT Image Databases.
Xu et al. Texture-specific bag of visual words model and spatial cone matching-based method for the retrieval of focal liver lesions using multiphase contrast-enhanced CT images
CN106874489B (zh) 一种基于卷积神经网络的肺结节图像块检索方法及装置
CN111125411B (zh) 一种深度强相关哈希学习的大规模图像检索方法
Tipaldi et al. Geometrical flirt phrases for large scale place recognition in 2d range data
Camlica et al. Autoencoding the retrieval relevance of medical images
CN112949740B (zh) 一种基于多级度量的小样本图像分类方法
CN116128846B (zh) 一种面向肺部X-ray图像检索的视觉Transformer哈希方法
CN113889228A (zh) 基于混合注意的语义增强哈希医学图像检索方法
CN113836341A (zh) 基于无监督转换器平衡哈希的遥感图像检索方法
CN114399634B (zh) 基于弱监督学习的三维图像分类方法、系统、设备及介质
CN114579794A (zh) 特征一致性建议的多尺度融合地标图像检索方法及系统
CN117393098A (zh) 基于视觉先验和跨模态对齐网络的医疗影像报告生成方法
CN112182273B (zh) 基于语义约束矩阵分解哈希的跨模态检索方法及其系统
CN111340807B (zh) 病灶定位核心数据提取方法、系统、电子设备及存储介质
Setia et al. Grayscale medical image annotation using local relational features
Tang et al. Deep semantic ranking hashing based on self-attention for medical image retrieval
CN116363460A (zh) 基于主题模型的高分辨率遥感样本标注方法
Tsang et al. Texture-based image retrieval for computerized tomography databases
US20220083878A1 (en) Label inference system
CN114090813A (zh) 基于多通道特征融合的变分自编码器平衡哈希遥感图像检索方法
Tang et al. Medical image retrieval using multi-texton assignment
CN111611427B (zh) 基于线性鉴别分析深度哈希算法的图像检索方法及系统
CN112528066B (zh) 基于注意力机制的商标检索方法、系统、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant