CN116128846A - 一种面向肺部X-ray图像检索的视觉Transformer哈希方法 - Google Patents
一种面向肺部X-ray图像检索的视觉Transformer哈希方法 Download PDFInfo
- Publication number
- CN116128846A CN116128846A CN202310097938.9A CN202310097938A CN116128846A CN 116128846 A CN116128846 A CN 116128846A CN 202310097938 A CN202310097938 A CN 202310097938A CN 116128846 A CN116128846 A CN 116128846A
- Authority
- CN
- China
- Prior art keywords
- hash
- lung
- loss
- ray image
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 210000004072 lung Anatomy 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000000007 visual effect Effects 0.000 title claims abstract description 27
- 230000006870 function Effects 0.000 claims abstract description 44
- 238000012360 testing method Methods 0.000 claims abstract description 22
- 238000013139 quantization Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 37
- 239000011159 matrix material Substances 0.000 claims description 33
- 238000011176 pooling Methods 0.000 claims description 19
- 238000013507 mapping Methods 0.000 claims description 15
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000007306 turnover Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000002685 pulmonary effect Effects 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000012545 processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 3
- 238000002591 computed tomography Methods 0.000 description 2
- 238000005481 NMR spectroscopy Methods 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10116—X-ray image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30061—Lung
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Radiology & Medical Imaging (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Apparatus For Radiation Diagnosis (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种面向肺部X‑ray图像检索的视觉Transformer哈希方法,属于医学图像处理技术领域,解决了不同种类的肺部X‑ray图像之间去检索同种类图像时存在检索时间长、检索精度低的问题。其技术方案为:建立肺部X‑ray图像数据库,构建视觉Transformer哈希模型,根据模型的输出计算成对损失Lpair、量化损失Lquan、平衡损失Lbal以及分类损失Lcl,构造总损失函数Lall;使用交替学习算法优化损失函数Lall;并逐一返回与测试集中最相似的前T张肺部X‑ray图像。本发明的有益效果为:能够分辨不同肺部X‑ray图像之间的细微差异,哈希方法将高维肺部X‑ray图像映射为低维的二进制编码,实现肺部X‑ray图像检索的准确率。
Description
技术领域
本发明涉及医学图像处理技术领域,尤其涉及一种面向肺部X-ray图像检索的视觉Transformer哈希方法。
背景技术
近年来,X射线、核磁共振、计算机断层扫描(Computed Tomography,CT)、多普勒彩超等技术不断发展,由此所产生的医学影像也逐渐增加。不同的医学影像技术涵括了对人的不同身体部位的视觉解读,为了能够做出更合理的诊断,专家医生大多需要通过借助以往相关病例的影像资料来判断当前患者所患的病症。然而,针对如此海量的医学图像,如何快速且高效地检索到相关图像是一项重大挑战。
早期,基于文本的图像检索(Text-Based Image Retrieval,TBIR)是一种主流的检索技术,该技术一般通过图像的文本形式的启发式信息(如标签、图像描述符等)进行检索,因此这就需要工作人员去对每一张图像进行手工标注。然而,针对数以百万计的图像数据,手工标注每一幅图像显然是不现实的。为了克服这一弊端,基于内容的图像检索(Content-Based Image Retrieval,CBIR)技术迅速兴起。CBIR提供了一种在大型数据库中搜索相关图像的方法,这种搜索方法通过视觉特征(如颜色、形状和纹理等)来描述图像,并且在很大程度上依赖于这些选定的特征。在CBIR中,对于一张给定的待查询图像,系统会从数据库中检索出一些在颜色、形状和纹理等方面与其相似的图像返回给用户。假设数据库中的图像和待查询图像都是由实值特征表示,搜索相关图像的最简单方法就是根据它们在特征空间中的距离进行排序,并返回距离最近的图像。然而,对于大规模图像检索而言,CBIR同样面临着存储空间大、检索精度低且速度慢的缺点。
为了解决内存成本高、检索速度慢且精度低等一系列问题,基于哈希的图像检索方法被提出并逐渐得到应用。
发明内容
本发明的目的在于提供一种面向肺部X-ray图像检索的视觉Transformer哈希方法,哈希方法主要是将高维图像特征映射到低维汉明空间并生成紧凑的二进制哈希编码,同时还能保持原始图像数据的相似性,该方法极大地降低了特征维度,避免了维度过高问题,在检索精度和检索速度方面得到了极大的改善。
为了实现上述发明目的,本发明采用技术方案具体为:一种面向肺部X-ray图像检索的视觉Transformer哈希方法,包括以下步骤:
S10:建立肺部X-ray图像数据库;
S20:对步骤S10建立的肺部X-ray图像数据库进行预处理并扩充,划分训练集、测试集和数据库样本集;
S30:构建视觉Transformer哈希模型,该模型包括特征学习和哈希编码学习两个模块。特征学习模块提取肺部X-ray图像的深度特征;哈希编码学习模块包括类别分支MLPc和哈希分支MLPh,并且每一个分支都是一个多层感知机,类别分支负责学习肺部X-ray图像的类别,哈希分支负责将提取到的深度特征映射为哈希编码;
S40:根据步骤S30得到的哈希编码和学习的肺部X-ray图像的类别计算4种损失,即成对损失Lpair、量化损失Lquan、平衡损失Lbal以及分类损失Lcl。定义总损失函数为:Lall=Lpair+αLquan+βLbal+γLcl,其中α、β、γ均为权重因子;
S50:使用交替学习算法对目标函数中的模型参数进行优化更新,并保存优化更新后的模型,其中B′∈R(N-n)×l代表训练过程中学习到的数据库D′的哈希编码矩阵、θh代表哈希分支的权重矩阵、θc代表类别分支的权重矩阵;
S60:首先使用步骤S50中保存的模型读取测试集Te中的肺部X-ray图像得到对应的哈希编码l代表哈希编码长度;然后将与哈希编码矩阵B′的每一行进行比较,返回汉明距离较小的前T个哈希编码;最后根据标签信息和返回的T个哈希编码计算检索的平均精度MAP。
作为本发明提供的一种面向肺部X-ray图像检索的视觉Transformer哈希方法进一步优化方法,在步骤S20中,对步骤S10初步建立的肺部X-ray图像数据库进行预处理并扩充,划分训练集、测试集和数据库样本集,具体步骤如下:
S21:假设数据库中样本最多的类别具有cmax个样本,则将样本数低于0.1*cmax的类别通过随机旋转、水平翻折、垂直翻折和随机擦除操作进行扩充,形成扩充后的肺部X-ray图像数据库其中N代表数据库样本的总数,di代表第i个样本,li代表第i个样本的标签信息且li∈{0,1}1×c,c代表D的类别数;
S25:根据数据库D′和训练集Tr构造成对相似性矩阵S,其中
其中i=1,2,...,(N-n),j=1,2,...,m。如果Sij=2,则代表样本d′i和完全相似;如果Sij=0,则代表样本d′i和不相似;如果Sij介于0到2之间,则代表样本d′i和具有一定的相似性。
作为本发明提供的一种面向肺部X-ray图像检索的视觉Transformer哈希方法进一步优化方法,在步骤S30中,特征学习模块使用视觉Transformer来提取图像特征,并在其内部添加了幂均值变换层PMT(·)和空间金字塔池化层SPP(·),具体步骤如下:
S31:首先将输入图像裁剪成M个大小相同且互不重叠的patch块,其中H和W代表图像的高度和宽度,C代表通道数;然后将M个patch块展平成二维的向量P代表每一个patch的宽度和高度;最后将XM通过线性映射层映射到d维空间形成序列其中p=1,2,...,M;
S33:将步骤S32的输出zo通过幂均值变换层,假设幂均值变换层的输出为z′o,令y=[ln(zo+1),ln2(zo+1)],则
S34:将步骤S33中幂均值变换层的输出z′o进一步通过Transformer编码器进行特征提取,本发明所使用的Transformer编码器的深度是6,并且每个Transformer编码器都是由层归一化LN(·)、多头空间金字塔池化注意力机制MHSPA(·)、多层感知机MLP(·)和残差连接组成。对于MHSPA(·)模块,本发明是将空间金字塔池化层SPP(·)嵌入在多头注意力机制MHA(·)中所形成的。
空间金字塔池化层SPP(·)则是将输入特征图经过自适应平均池化层形成1×1、2×2、4×4和16×16的特征子图,并将形成的特征子图展平拼接。
注意力机制是将查询Q和一组键值对K、V映射到输出,其中Q、K、V以及输出都是矩阵形式。输出是通过对V的加权来计算的,分配给每个V的权重则是通过查询Q与相应键K的兼容性函数来计算。
在MHSPA(·)模块中,V和K先通过SPP(·)模块,然后再将查询Q和经过池化的键值对K和V通过尺度点击注意力层。假设尺度点击注意力层的查询Q和键K的维度为dk,则MHSPA(·)模块的输出为:
其中,K′=SPP(K),V′=SPP(V)。假设Transformer编码器的输出为Zo,则Transformer编码器的具体流程如下:
Zo=MLP(LN(MHSPA(LN(z′o))+z′o))+MHSPA(LN(z′o))+z′o
S35:将步骤S34中Transformer编码器的输出Zo再次经过幂均值变换层,假设幂均值变换层的输出为z″o,令y′=[ln(Zo+1),ln2(Zo+1)],则
S36:将步骤S35中幂均值变换层的输出z″o通过哈希编码学习模块。哈希编码学习模块包括类别分支MLPc和哈希分支MLPh,并且每一个分支都是一个多层感知机,类别分支负责学习肺部X-ray图像的类别,哈希分支负责将提取到的深度特征映射为哈希编码。假设类别分支MLPc的输出为其中代表输入图像,θc代表类别分支的权重矩阵;假设哈希分支MLPh的输出为其中代表输入图像,θh代表哈希分支的权重矩阵。
作为本发明提供的一种面向肺部X-ray图像检索的视觉Transformer哈希方法进一步优化方法,在步骤S40中,根据类别分支MLPc和哈希分支MLPh的输出计算4种损失,即成对损失Lpair、量化损失Lquan、平衡损失Lbal以及分类损失Lcl。定义总损失函数为:Lall=Lpair+αLquan+βLbal+γLcl,其中α、β、γ均为权重因子,具体步骤如下:
B′=[b′1,b′2,...,b′N-n]T∈{-1,+1}(N-n)×l
考虑到Lpair中对sign(·)函数的求解是一种离散优化问题,非常难以求解,故本发明使用双曲正切函数tanh(·)来近似sign(·)函数,即:
S42:计算量化损失,由于在成对损失Lpair中使用双曲正切函数tanh(·)来近似sign(·)函数,因此本发明在哈希分支的实值输出和哈希编码之间添加正则化项,即量化损失Lquan:
S43:计算平衡损失,为了使哈希编码尽可能地填充整个2l的汉明空间并保证每一比特的平衡性,本发明提出平衡损失Lbal以确保每一比特上-1和+1出现的概率尽可能相等,定义如下:
其中mean(·)函数用来计算向量中元素的平均值。
S44:计算分类损失,由于不同图像的标签个数有很大差别,因此本发明在训练过程中针对单标签和多标签图像使用不同的损失函数。
(1)多标签分类损失Lmulti:
其中,m′代表多标签图像的数目且m′≤m。
(2)单标签分类损失Lsingle:
其中,m-m′代表单标签图像的数目。
总的分类损失函数定义如下:
Lcl=Lmulti+Lsingle
S45:构造总损失函数为:
Lall=Lpair+αLquan+βLbal+γLcl
其中α、β、γ均为权重因子。
与现有技术相比,本发明的有益效果为:
(1)、与自然图像相比,肺部X-ray图像包含着复杂的组织纹理和解剖结构,本发明将空间金字塔池化层SPP嵌入在视觉Transformer中的多头注意力机制中,形成多头空间金字塔池化注意力层,该模块不仅可以提取全局的上下文特征,而且可以提取多尺度的局部上下文特征,并将不同尺度的特征进行融合,更利于区分不同类别的肺部X-ray图像之间的细微差异。
(2)、为了进一步提高模型的非线性特征提取能力,本发明在Transformer编码器的前后端分别加入幂均值变换(PMT)层。
(3)、本发明引入哈希编码学习,将视觉Transformer提取到的实值特征映射到Hamming空间,使得在训练模型时大大降低了存储空间、缩短了训练时间。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发提供的面向肺部X-ray图像检索的视觉Transformer哈希方法的流程示意图;
图2为本发明对收集到的肺部X-ray图像数据库进行数据增强、扩充的流程图;
图3为本发明中空间金字塔池化层SPP示意图;
图4为本发明中多头空间金字塔池化注意力机制MHSPA模块示意图;
图5为本发明红幂均值变换层PMT示意图;
图6为本发明一种面向肺部X-ray图像检索的视觉Transformer哈希方法整体框架图;
图7为本发明针对测试集所进行的检索示例:在36位哈希编码下随机检索到的前10张肺部X-ray图像的示例图,从左到右,返回的图像按Hamming距离降序排列。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。当然,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
参见图1与图7,本发明提供其技术方案为,一种面向肺部X-ray图像检索的视觉Transformer哈希方法,包括以下步骤:
S10:建立肺部X-ray图像数据库,该数据库包含13种不同类别的肺部X-ray图像;
S20:对步骤S10建立的肺部X-ray图像数据库进行预处理并扩充,划分训练集、测试集和数据库样本集;
S30:构建视觉Transformer哈希模型,该模型包括特征学习和哈希编码学习两个模块。特征学习模块提取肺部X-ray图像的深度特征;哈希编码学习模块包括类别分支MLPc和哈希分支MLPh,并且每一个分支都是一个多层感知机,类别分支负责学习肺部X-ray图像的类别,哈希分支负责将提取到的深度特征映射为哈希编码;
S40:根据步骤S30得到的哈希编码和学习的肺部X-ray图像的类别计算4种损失,即成对损失Lpair、量化损失Lquan、平衡损失Lbal以及分类损失Lcl。定义总损失函数为:Lall=Lpair+αLquan+βLbal+γLcl,其中α=100、β=500、γ=10均为权重因子;
S50:使用交替学习算法对目标函数中的模型参数进行优化更新,并保存优化更新后的模型,其中B′∈R(N-n)×l代表训练过程中学习到的数据库D′的哈希编码矩阵、θh代表哈希分支的权重矩阵、θc代表类别分支的权重矩阵;
S60:首先使用步骤S50中保存的模型读取测试集Te中的肺部X-ray图像得到对应的哈希编码代表哈希编码长度;然后将与哈希编码矩阵B′的每一行进行比较,返回汉明距离较小的前10个哈希编码;最后根据标签信息和返回的10个哈希编码计算检索的平均精度MAP。最终,整个测试集Te(共1300张测试图像)的平均检索精度为0.758。
具体地,在步骤S20中,对步骤S10初步建立的肺部X-ray图像数据库进行预处理并扩充,划分训练集、测试集和数据库样本集,具体步骤如下:
S21:假设数据库中样本最多的类别具有cmax个样本,则将样本数低于0.1*cmax的类别通过随机旋转、水平翻折、垂直翻折和随机擦除操作进行扩充,形成扩充后的肺部X-ray图像数据库其中N=47723代表数据库样本的总数,di代表第i个样本,li代表第i个样本的标签信息且li∈{0,1}1×c,c=13代表D的类别数;
S25:根据数据库D′和训练集Tr构造成对相似性矩阵S,其中
其中i=1,2...,(N-n),j=1,2,...,m。如果Sij=2,则代表样本d′i和完全相似;如果Sij=0,则代表样本d′i和不相似;如果Sij介于0到2之间,则代表样本d′i和具有一定的相似性。
具体地,在步骤S30中,特征学习模块使用视觉Transformer来提取图像特征,并在其内部添加了幂均值变换层PMT(·)和空间金字塔池化层SPP(·),具体步骤如下:
S31:首先将输入图像裁剪成M=9个大小相同且互不重叠的patch块,其中H=1020和W=1020代表图像的高度和宽度,C=3代表通道数;然后将M个patch块展平成二维的向量代表每一个patch的宽度和高度;最后将XM通过线性映射层映射到d=128维空间形成序列其中p=1,2,...,M;
S33:将步骤S32的输出zo通过幂均值变换层,假设幂均值变换层的输出为z′o,令y=[ln(zo+1),ln2(zo+1)],则
S34:将步骤S33中幂均值变换层的输出z′o进一步通过Transformer编码器进行特征提取,本发明所使用的Transformer编码器的深度是6,并且每个Transformer编码器都是由层归一化LN(·)、多头空间金字塔池化注意力机制MHSPA(·)、多层感知机MLP(·)和残差连接组成。对于MHSPA(·)模块,本发明是将空间金字塔池化层SPP(·)嵌入在多头注意力机制MHA(·)中所形成的。
空间金字塔池化层SPP(·)则是将输入特征图经过自适应平均池化层形成1×1、2×2、4×4和16×16的特征子图,并将形成的特征子图展平拼接。
注意力机制是将查询Q和一组键值对K、V映射到输出,其中Q、K、V以及输出都是矩阵形式。输出是通过对V的加权来计算的,分配给每个V的权重则是通过查询Q与相应键K的兼容性函数来计算。
在MHSPA(·)模块中,V和K先通过SPP(·)模块,然后再将查询Q和经过池化的键值对K和V通过尺度点击注意力层。假设尺度点击注意力层的查询Q和键K的维度为dk,则MHSPA(·)模块的输出为:
其中,K′=SPP(K),V′=SPP(V)。假设Transformer编码器的输出为Zo,则Transformer编码器的具体流程如下:
Zo=MLP(LN(MHSPA(LN(z′o))+z′o))+MHSPA(LN(z′o))+z′o
S35:将步骤S34中Transformer编码器的输出Zo再次经过幂均值变换层,假设幂均值变换层的输出为z″o,令y′=[ln(Zo+1),ln2(Zo+1)],则
S36:将步骤S35中幂均值变换层的输出z″o通过哈希编码学习模块。哈希编码学习模块包括类别分支MLPc和哈希分支MLPh,并且每一个分支都是一个多层感知机,类别分支负责学习肺部X-ray图像的类别,哈希分支负责将提取到的深度特征映射为哈希编码。假设类别分支MLPc的输出为其中c=13代表肺部X-ray图像数据库的类别数,代表输入图像,θc代表类别分支的权重矩阵;假设哈希分支MLPh的输出为其中l=36代表哈希编码长度,代表输入图像,θh代表哈希分支的权重矩阵。
具体地,在步骤S40中,根据类别分支MLPc和哈希分支MLPh的输出计算4种损失,即成对损失Lpair、量化损失Lquan、平衡损失Lbal以及分类损失Lcl。定义总损失函数为:Lall=Lpair+αLquan+βLbal+γLcl,其中α=100、β=500、γ=10均为权重因子,具体步骤如下:
B′=[b′1,b′2,...,b′N-n]T∈{-1,+1}(N-n)×l
考虑到Lpair中对sign(·)函数的求解是一种离散优化问题,非常难以求解,故本发明使用双曲正切函数tanh(·)来近似sign(·)函数,即:
S42:计算量化损失,由于在成对损失Lpair中使用双曲正切函数tanh(·)来近似sign(·)函数,因此本发明在哈希分支的实值输出和哈希编码之间添加正则化项,即量化损失Lquan:
S43:计算平衡损失,为了使哈希编码尽可能地填充整个2l的汉明空间并保证每一比特的平衡性,本发明提出平衡损失Lbal以确保每一比特上-1和+1出现的概率尽可能相等,定义如下:
其中mean(·)函数用来计算向量中元素的平均值。
S44:计算分类损失,由于不同图像的标签个数有很大差别,因此本发明在训练过程中针对单标签和多标签图像使用不同的损失函数。
(1)多标签分类损失Lmulti:
其中,m′代表多标签图像的数目且m′≤m。
(2)单标签分类损失Lsingle:
其中,m-m′代表单标签图像的数目。
总的分类损失函数定义如下:
Lcl=Lmulti+Lsingle
S45:构造总损失函数为:
Lall=Lpair+αLquan+βLbal+γLcl
其中α、β、γ均为权重因子。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种面向肺部X-ray图像检索的视觉Transformer哈希方法,其特征在于,包括以下步骤:
S10:建立肺部X-ray图像数据库;
S20:对步骤S10建立的肺部X-ray图像数据库进行预处理并扩充,划分训练集、测试集和数据库样本集;
S30:构建视觉Transformer哈希模型,该模型包括特征学习和哈希编码学习两个模块,特征学习模块提取肺部X-ray图像的深度特征;哈希编码学习模块包括类别分支MLPc和哈希分支MLPh,并且每一个分支都是一个多层感知机,类别分支负责学习肺部X-ray图像的类别,哈希分支负责将提取到的深度特征映射为哈希编码;
S40:根据步骤S30得到的哈希编码和学习的肺部X-ray图像的类别计算4种损失,即成对损失Lpair、量化损失Lquan、平衡损失Lbal以及分类损失Lcl,定义总损失函数为:Lall=Lpair+αLquan+βLbal+γLcl,其中α、β、γ均为权重因子;
S50:使用交替学习算法对目标函数中的模型参数进行优化更新,并保存优化更新后的模型,其中B′∈R(N-n)×l代表训练过程中学习到的数据库D′的哈希编码矩阵、θh代表哈希分支的权重矩阵、θc代表类别分支的权重矩阵;
2.根据权利要求1所述的一种面向肺部X-ray图像检索的视觉Transformer哈希方法,其特征在于,在步骤S20中,对步骤S10初步建立的肺部X-ray图像数据库进行预处理并扩充,划分训练集、测试集和数据库样本集,具体步骤如下:
S21:假设数据库中样本最多的类别具有cmax个样本,则将样本数低于0.1*cmax的类别通过随机旋转、水平翻折、垂直翻折和随机擦除操作进行扩充,形成扩充后的肺部X-ray图像数据库其中N代表数据库样本的总数,di代表第i个样本,li代表第i个样本的标签信息且li∈{0,1}1×c,c代表D的类别数;
S25:根据数据库D′和训练集Tr构造成对相似性矩阵S,其中
3.根据权利要求1所述的一种面向肺部X-ray图像检索的视觉Transformer哈希方法,其特征在于,在步骤S30中,特征学习模块使用视觉Transformer来提取图像特征,并在其内部添加了幂均值变换层PMT(·)和空间金字塔池化层SPP(·),具体步骤如下:
S31:首先将输入图像裁剪成M个大小相同且互不重叠的patch块,其中H和W代表图像的高度和宽度,C代表通道数;然后将M个patch块展平成二维的向量P代表每一个patch的宽度和高度;最后将XM通过线性映射层映射到d维空间形成序列其中p=1,2,...,M;
S33:将步骤S32的输出zo通过幂均值变换层,假设幂均值变换层的输出为z′o,令y=[ln(zo+1),ln2(zo+1)],则
S34:将步骤S33中幂均值变换层的输出z′o通过Transformer编码器进行特征提取,使用的Transformer编码器的深度是6,并且每个Transformer编码器都是由层归一化LN(·)、多头空间金字塔池化注意力机制MHSPA(·)、多层感知机MLP(·)和残差连接组成,对于MHSPA(·)模块,将空间金字塔池化层SPP(·)嵌入在多头注意力机制MHA(·)中所形成的;
空间金字塔池化层SPP(·)则是将输入特征图经过自适应平均池化层形成1×1、2×2、4×4和16×16的特征子图,并将形成的特征子图展平拼接;
注意力机制是将查询Q和一组键值对K、V映射到输出,其中Q、K、V以及输出都是矩阵形式,输出是通过对V的加权来计算的,分配给每个V的权重则是通过查询Q与相应键K的兼容性函数来计算;
在MHSPA(·)模块中,V和K先通过SPP(·)模块,然后再将查询Q和经过池化的键值对K和V通过尺度点击注意力层,假设尺度点击注意力层的查询Q和键K的维度为dk,则MHSPA(·)模块的输出为:
其中,K′=SPP(K),V′=SPP(V),假设Transformer编码器的输出为Zo,则Transformer编码器的具体流程如下:
Zo=MLP(LN(MHSPA(LN(z′o))+z′o))+MHSPA(LN(z′o))+z′o
S35:将步骤S34中Transformer编码器的输出Zo再次经过幂均值变换层,假设幂均值变换层的输出为z″o,令y′=[ln(Zo+1),ln2(Zo+1)],则
4.根据权利要求1所述的一种面向肺部X-ray图像检索的视觉Transformer哈希方法,其特征在于,在步骤S40中,根据类别分支MLPc和哈希分支MLPh的输出计算4种损失,即成对损失Lpair、量化损失Lquan、平衡损失Lbal以及分类损失Lcl,定义总损失函数为:Lall=Lpair+αLquan+βLbal+γLcl,其中α、β、γ均为权重因子,具体步骤如下:
B′=[b′1,b′2,…,b′N-n]T∈{-1,+1}(N-n)×l
考虑到Lpair中对sign(·)函数的求解是一种离散优化问题,故使用双曲正切函数tanh(·)来近似sign(·)函数,即:
S42:计算量化损失,由于在成对损失Lpair中使用双曲正切函数tanh(·)来近似sign(·)函数,在哈希分支的实值输出和哈希编码之间添加正则化项,即量化损失Lquan:
S43:计算平衡损失,为了使哈希编码尽可能地填充整个2l的汉明空间并保证每一比特的平衡性,提出平衡损失Lbal以确保每一比特上-1和+1出现的概率尽可能相等,定义如下:
其中mean(·)函数用来计算向量中元素的平均值;
S44:计算分类损失,由于不同图像的标签个数有很大差别,在训练过程中针对单标签和多标签图像使用不同的损失函数;
(1)多标签分类损失Lmulti:
其中,m′代表多标签图像的数目且m′≤m;
(2)单标签分类损失Lsingle:
其中,m-m′代表单标签图像的数目;
总的分类损失函数定义如下:
Lcl=Lmulti+Lsingle
S45:构造总损失函数为:
Lall=Lpair+αLquan+βLbal+γLcl
其中α、β、γ均为权重因子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310097938.9A CN116128846B (zh) | 2023-02-01 | 2023-02-01 | 一种面向肺部X-ray图像检索的视觉Transformer哈希方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310097938.9A CN116128846B (zh) | 2023-02-01 | 2023-02-01 | 一种面向肺部X-ray图像检索的视觉Transformer哈希方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116128846A true CN116128846A (zh) | 2023-05-16 |
CN116128846B CN116128846B (zh) | 2023-08-22 |
Family
ID=86311449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310097938.9A Active CN116128846B (zh) | 2023-02-01 | 2023-02-01 | 一种面向肺部X-ray图像检索的视觉Transformer哈希方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116128846B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116383470A (zh) * | 2023-05-29 | 2023-07-04 | 新智元(南京)科技信息有限公司 | 一种具有隐私保护的图像搜索方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076465A (zh) * | 2021-05-14 | 2021-07-06 | 中国石油大学(华东) | 一种基于深度哈希的通用跨模态检索模型 |
CN113779361A (zh) * | 2021-08-27 | 2021-12-10 | 华中科技大学 | 基于多层注意力机制的跨模态检索模型的构建方法及应用 |
CN114328991A (zh) * | 2021-12-24 | 2022-04-12 | 深圳龙岗智能视听研究院 | 一种基于哈希编码的图像声音检索方法 |
CN114463583A (zh) * | 2022-01-26 | 2022-05-10 | 南通大学 | 一种用于肺炎ct图像分类的深度哈希方法 |
CN114612747A (zh) * | 2022-03-16 | 2022-06-10 | 东北林业大学 | 基于无监督加权哈希的遥感图像检索方法 |
CN115017366A (zh) * | 2022-07-11 | 2022-09-06 | 中国科学技术大学 | 基于多粒度语境化和多结构保存的无监督视频哈希检索方法 |
JP2022155690A (ja) * | 2021-03-31 | 2022-10-14 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
CN115357747A (zh) * | 2022-10-18 | 2022-11-18 | 山东建筑大学 | 一种基于序数哈希的图像检索方法及系统 |
-
2023
- 2023-02-01 CN CN202310097938.9A patent/CN116128846B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022155690A (ja) * | 2021-03-31 | 2022-10-14 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
CN113076465A (zh) * | 2021-05-14 | 2021-07-06 | 中国石油大学(华东) | 一种基于深度哈希的通用跨模态检索模型 |
CN113779361A (zh) * | 2021-08-27 | 2021-12-10 | 华中科技大学 | 基于多层注意力机制的跨模态检索模型的构建方法及应用 |
CN114328991A (zh) * | 2021-12-24 | 2022-04-12 | 深圳龙岗智能视听研究院 | 一种基于哈希编码的图像声音检索方法 |
CN114463583A (zh) * | 2022-01-26 | 2022-05-10 | 南通大学 | 一种用于肺炎ct图像分类的深度哈希方法 |
CN114612747A (zh) * | 2022-03-16 | 2022-06-10 | 东北林业大学 | 基于无监督加权哈希的遥感图像检索方法 |
CN115017366A (zh) * | 2022-07-11 | 2022-09-06 | 中国科学技术大学 | 基于多粒度语境化和多结构保存的无监督视频哈希检索方法 |
CN115357747A (zh) * | 2022-10-18 | 2022-11-18 | 山东建筑大学 | 一种基于序数哈希的图像检索方法及系统 |
Non-Patent Citations (1)
Title |
---|
YONGBIAO CHEN ET AL.: "TransHash: Transformer-based Hamming Hashing for Efficient Image Retrieval", PROCEEDINGS OF THE 2022 INTERNATIONAL CONFERENCE ON MULTIMEDIA RETRIEVAL * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116383470A (zh) * | 2023-05-29 | 2023-07-04 | 新智元(南京)科技信息有限公司 | 一种具有隐私保护的图像搜索方法 |
CN116383470B (zh) * | 2023-05-29 | 2023-08-29 | 新智元(南京)科技信息有限公司 | 一种具有隐私保护的图像搜索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116128846B (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qayyum et al. | Medical image retrieval using deep convolutional neural network | |
Zhuang et al. | An Effective WSSENet-Based Similarity Retrieval Method of Large Lung CT Image Databases. | |
Xu et al. | Texture-specific bag of visual words model and spatial cone matching-based method for the retrieval of focal liver lesions using multiphase contrast-enhanced CT images | |
CN106874489B (zh) | 一种基于卷积神经网络的肺结节图像块检索方法及装置 | |
CN111125411B (zh) | 一种深度强相关哈希学习的大规模图像检索方法 | |
Tipaldi et al. | Geometrical flirt phrases for large scale place recognition in 2d range data | |
Camlica et al. | Autoencoding the retrieval relevance of medical images | |
CN112949740B (zh) | 一种基于多级度量的小样本图像分类方法 | |
CN116128846B (zh) | 一种面向肺部X-ray图像检索的视觉Transformer哈希方法 | |
CN113889228A (zh) | 基于混合注意的语义增强哈希医学图像检索方法 | |
CN113836341A (zh) | 基于无监督转换器平衡哈希的遥感图像检索方法 | |
CN114399634B (zh) | 基于弱监督学习的三维图像分类方法、系统、设备及介质 | |
CN114579794A (zh) | 特征一致性建议的多尺度融合地标图像检索方法及系统 | |
CN117393098A (zh) | 基于视觉先验和跨模态对齐网络的医疗影像报告生成方法 | |
CN112182273B (zh) | 基于语义约束矩阵分解哈希的跨模态检索方法及其系统 | |
CN111340807B (zh) | 病灶定位核心数据提取方法、系统、电子设备及存储介质 | |
Setia et al. | Grayscale medical image annotation using local relational features | |
Tang et al. | Deep semantic ranking hashing based on self-attention for medical image retrieval | |
CN116363460A (zh) | 基于主题模型的高分辨率遥感样本标注方法 | |
Tsang et al. | Texture-based image retrieval for computerized tomography databases | |
US20220083878A1 (en) | Label inference system | |
CN114090813A (zh) | 基于多通道特征融合的变分自编码器平衡哈希遥感图像检索方法 | |
Tang et al. | Medical image retrieval using multi-texton assignment | |
CN111611427B (zh) | 基于线性鉴别分析深度哈希算法的图像检索方法及系统 | |
CN112528066B (zh) | 基于注意力机制的商标检索方法、系统、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |