CN107092918A - 一种基于语义特征和有监督哈希的图像检索实现肺结节征象识别的方法 - Google Patents

一种基于语义特征和有监督哈希的图像检索实现肺结节征象识别的方法 Download PDF

Info

Publication number
CN107092918A
CN107092918A CN201710195957.XA CN201710195957A CN107092918A CN 107092918 A CN107092918 A CN 107092918A CN 201710195957 A CN201710195957 A CN 201710195957A CN 107092918 A CN107092918 A CN 107092918A
Authority
CN
China
Prior art keywords
sign
image
lung neoplasm
msub
mrow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710195957.XA
Other languages
English (en)
Other versions
CN107092918B (zh
Inventor
赵涓涓
潘玲
强梓林
郝晓燕
王�华
强彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Technology
Original Assignee
Taiyuan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Technology filed Critical Taiyuan University of Technology
Priority to CN201710195957.XA priority Critical patent/CN107092918B/zh
Publication of CN107092918A publication Critical patent/CN107092918A/zh
Application granted granted Critical
Publication of CN107092918B publication Critical patent/CN107092918B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • G06T7/0014Biomedical image inspection using an image reference approach
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30061Lung
    • G06T2207/30064Lung nodule

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Multimedia (AREA)
  • Primary Health Care (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种基于语义特征和有监督哈希的图像检索实现肺结节医学征象识别的方法,包括以下步骤:步骤A,提取肺部CT图像中的肺结节混合征象区域,并截取其中各个单一征象区域;步骤B,采用基于参数共享的卷积神经网络(CNN)提取表达肺结节征象信息的语义特征;步骤C,用于实现相似的肺结节图像检索;步骤D,用于识别肺结节征象。本发明的方法基于语义特征和有监督哈希的肺结节图像检索,进而识别肺结节图像所表现的征象类别,便于医师判断肺结节的良恶性程度,减少了医师对诊断经验的过度依赖。

Description

一种基于语义特征和有监督哈希的图像检索实现肺结节征象 识别的方法
技术领域
本发明涉及肺结节征象识别,具体涉及一种基于语义特征和有监督哈希的图像检索实现肺结节征象识别的方法。
背景技术
肺结节所表现的医学征象是医师诊断肺部疾病的基础,通过分析肺CT图像的各种医学征象,便于医师判断结节的良恶性程度并做出相应的诊断决策。但是医师主要根据经验诊断疾病,诊断结果具有一定主观性,常常出现误诊、漏诊的情况。基于内容的医学图像检索能够帮助医师从医学数据库中快速寻找相似的病灶图像,这些已确诊病例的诊断方案和病灶特征等可以为查询病灶的诊断提供参考,从而辅助医师做出可靠的诊断决策。
发明内容
本发明针对现有技术的不足提供一种基于语义特征和有监督哈希的图像检索用于肺结节征象识别的方法,既能检索得到相似的肺结节图像,又能有效识别肺结节的医学征象,为医师对查询病灶的诊断提供决策支持,从客观方面起到辅助诊断的作用。
本发明采用的技术方案为:
一种基于语义特征和有监督哈希的图像检索实现肺结节医学征象识别的方法,包括以下步骤:
步骤A,提取肺部CT图像中的肺结节混合征象区域,并截取其中各个单一征象区域,为之后提取表达肺结节征象信息的语义特征以及检索相似的肺结节图像,进而识别查询图像所表现的医学征象做准备;
步骤B,采用基于参数共享的卷积神经网络(CNN)提取表达肺结节征象信息的语义特征;首先使用第一个CNN训练单一征象数据,通过调整网络参数使其有效识别各个单一征象;然后将网络参数传递到第二个CNN,训练混合征象数据,并通过损失函数和误差反向传播机制来微调网络参数,从而获得表达结节征象信息的高维的语义特征;
步骤C,用于实现相似的肺结节图像检索;利用监督信息构造有效的哈希函数,将步骤B得到的高维的语义特征映射为简洁的哈希码,并为查询图像设计自适应权重向量,通过加权汉明距离的相似度衡量,从肺结节图像库中检索出具有相似征象的肺结节图像;
步骤D,用于识别肺结节征象;利用k近邻算法,从检索出的相似肺结节图像中判断查询图像含有的医学征象。
所述的方法,所述步骤B中网络参数调整过程如下:
B1、对于第一个CNN,使用单一征象数据集进行训练;
第一个CNN网络共有7层,输入层、包含2个卷积层和2个降采样层的隐含层、全连接层和输出层;使用线性插值方法将单一征象数据集中的图像统一大小为48×48,并减去图像均值进行预处理,将其作为卷积神经网络输入层的输入;使用多项逻辑回归模型中的softmax函数作为损失函数,输出层产生一个在各单一征象类上的概率分布;在隐含层使用rectified linear units(ReLU)作为激励函数,以便缩短学习周期的同时提高学习精度;在整个训练过程中使用梯度下降法进行优化,使得损失函数能够快速收敛;通过第一个CNN的训练,得到能够有效识别不同单一征象的网络参数;
B2、对于第二个CNN,使用混合征象数据集进行训练;
将B1中训练单一征象的网络参数转移到第二个CNN网络中,并将含有混合征象的整个肺结节图像作为网络输入,每张肺结节图像的大小同样被统一为48×48,通过微调网络参数,经过训练的网络能有效地识别肺结节图像含有的混合征象;网络训练过程与第一个CNN的训练过程相同,在输出层同样会产生对6个单一征象类的概率分布,以确定肺结节所含有的混合征象,但是由于混合征象的类别数不等于单一征象数,因此,损失函数的设计也有所不同;损失函数的定义为:其中,n表示肺结节混合征象数据集中的图像数,c表示单一征象的类别数,pi=[pi1,pi2,…,pic]表示网络输出的概率分布向量,表示基于事实的概率分布向量,li=[li1,li2,…,lic]表示第i个肺结节图像的标签向量,如果结节图像表现出第j类征象,则lij=1(j=1,2,…,c),否则lij=0;最后,利用调整好的网络获取肺结节图像所含有的征象特征。
所述的方法,所述步骤C具体过程如下:
C1、利用监督信息构造有效的哈希函数;
①使用主成分分析(PCA)算法对肺结节的图像特征进行预处理,将结节特征投影到可以最小化投影误差的线性子空间中,减少冗余信息,确保哈希映射后的哈希码含有原始图像的主要信息;
②哈希函数的一般形式为:w表示系数向量,b表示偏差,一般取值为所有图像特征的期望值,在PCA映射时已进行了零均值化处理,因此b的取值为0,用PCA映射后的语义特征vi代替xi,从而简化公式为:
③利用监督信息解决哈希函数中的w,所述的监督信息是指肺结节图像中所含混合征象的类型标签;
C2、为查询图像设计自适应权重向量,并检索相似的肺结节图像;
①设计各混合征象类型对应的权重向量;经哈希函数映射后,得到由肺结节图像的哈希码所构成的r维空间的集合Y={y1,y2,…,yn},表示第i类混合征象的哈希码集合;权重向量的设计要求同类混合征象中肺结节图像的汉明距离最小:
符号表示Hadamard积,c(j)表示第j类的哈希码中心,nj表示第j类的图像个数;还要求保留各类混合征象在原始特征空间的关系:
sij表示第i类与第j类的相似程度,若两类混合征象表现的差异性较大,即sij越小,相应的加权汉明距离应该越大;根据上述两个要求,目标函数可以设计为:
β表示平衡这两个要求的参数,设置β=1;求解上式即可得到不同混合征象类型的权重向量;
②计算查询图像的自适应权重向量;
③根据查询图像的自适应权重向量aq计算查询图像的哈希码yq与各候选混合征象类型中的哈希码{Y1,…,Ym}之间的加权汉明距离:并从这m个混合征象类型的图像库中检索出具有相似征象的肺结节图像。
所述的方法,利用监督信息即肺结节图像中所含混合征象的类型标签的标签信息解决哈希函数中的w,详细步骤如下:
第1步,使用标签信息表示样本间的语义相似性,并利用l个标签样本建立标签矩阵S∈Rl×l,若样本xi与xj相似,则Sij=1,否则Sij=-1;
第2步,性能好的哈希函数使得相似样本的汉明距离最小为0,反之最大;根据哈希码内积与汉明距离之间的关系,可以得出相似样本(Sij=1)的哈希码内积最大(为r),不相似样本(Sij=-1)的哈希码内积最小(为-r);
第3步,根据第2步所述关系,以及标签样本构成的内积矩阵HlHl T和标签矩阵S,定义目标函数为:
第4步,求解目标函数,完成哈希函数的构造,然后使用构造的哈希函数将肺结节的图像特征映射为哈希码。
所述的方法,计算查询图像的自适应权重向量,其具体步骤如下:
第1步,分别计算查询图像与各个征象类的余弦距离:
sim(xqi)=cos<xqi>(i=1,...,k)(μi是各征象类的类中心);
第2步,降序排序sim并选择前m个混合征象类作为候选混合征象类;
第3步,使用构造的哈希函数将查询图像映射为哈希码yq
第4步,计算查询图像的自适应权重向量
所述的方法,所述C1中①使用(PCA)算法对肺结节的图像特征进行预处理,基本步骤如下:
第1步,每一个肺结节图像都减去所有肺结节图像的特征均值,进行特征中心化;
第2步,计算协方差矩阵C:
第3步,根据SVD求取协方差矩阵C的特征值λi以及相应的特征向量ei
第4步,降序排序特征值λi,在贡献率的基础上选取其k个特征值对应的特征向量,构成线性子空间T=[e1,e2,…,ek];
第5步,将肺结节图像的语义特征投射到线性子空间:V=TX'。
所述的方法,所述步骤D具体步骤如下:
第1步,分别计算查询图像和检索到的相似肺结节图像之间的欧氏距离;
第2步,升序排序欧氏距离并选择前k个肺结节图像;
第3步,统计这k个肺结节图像中各个混合征象类所出现的频率;
第4步,出现频率最高的混合征象即为查询图像所表现的医学征象。
与现有技术相比,本发明的有益效果为:
1、本发明的方法基于语义特征和有监督哈希的肺结节图像检索,进而识别肺结节图像所表现的征象类别,便于医师判断肺结节的良恶性程度,减少了医师对诊断经验的过度依赖;
2、通过使用本发明的技术,能够从语义层面高效地检索出相似的肺结节图像,最大程度保证了肺结节征象的识别效果;
3、通过本发明检索出相似的肺结节图像,这些图像的病灶特征和诊断方案等可以为医师对肺部疾病的分析提供参考,起到辅助诊断的作用。
附图说明
图1是本发明对肺结节征象识别方法的框架图。
图2是本发明提取表达肺结节征象信息的肺结节特征的总体实现框图。
图3是利用肺结节图像的标签信息构造的标签矩阵。
图4是说明汉明距离相等的肺结节图像并不都相似于查询图像。
图5是基于加权汉明距离的肺结节图像检索过程。
图6是加权汉明排序与传统汉明排序在48比特哈希码时的检索结果。
图7是不同分类方法在8种混合征象类型上的正确识别率。
具体实施方式
以下结合具体实施例,对本发明进行详细说明。
参照图1、2、3、5,本发明方法的实现流程如下:
一种基于语义特征和有监督哈希的图像检索实现肺结节医学征象识别的方法,包括以下步骤:
步骤A,提取肺部CT图像中的肺结节混合征象区域,并截取其中各个单一征象区域,为之后提取表达肺结节征象信息的语义特征以及检索相似的肺结节图像,进而识别查询图像所表现的医学征象做准备;
步骤B,采用基于参数共享的卷积神经网络(CNN)提取表达肺结节征象信息的语义特征;首先使用第一个CNN训练单一征象数据,通过调整网络参数使其有效识别各个单一征象;然后将网络参数传递到第二个CNN,训练混合征象数据,并通过损失函数和误差反向传播机制来微调网络参数,从而获得表达结节征象信息的高维的语义特征;
步骤C,用于实现相似的肺结节图像检索;利用监督信息构造有效的哈希函数,将步骤B得到的高维的语义特征映射为简洁的哈希码,并为查询图像设计自适应权重向量,通过加权汉明距离的相似度衡量,从肺结节图像库中检索出具有相似征象的肺结节图像;
步骤D,用于识别肺结节征象;利用k近邻算法,从检索出的相似肺结节图像中判断查询图像含有的医学征象。
优选的,所述步骤B中网络参数调整过程如下:
B1、对于第一个CNN,使用单一征象数据集进行训练;
第一个CNN网络共有7层,输入层、包含2个卷积层和2个降采样层的隐含层、全连接层和输出层;使用线性插值方法将单一征象数据集中的图像统一大小为48×48,并减去图像均值进行预处理,将其作为卷积神经网络输入层的输入;使用多项逻辑回归模型中的softmax函数作为损失函数,输出层产生一个在各单一征象类上的概率分布;在隐含层使用rectified linear units(ReLU)作为激励函数,以便缩短学习周期的同时提高学习精度;在整个训练过程中使用梯度下降法进行优化,使得损失函数能够快速收敛;通过第一个CNN的训练,得到能够有效识别不同单一征象的网络参数;
B2、对于第二个CNN,使用混合征象数据集进行训练;
将B1中训练单一征象的网络参数转移到第二个CNN网络中,并将含有混合征象的整个肺结节图像作为网络输入,每张肺结节图像的大小同样被统一为48×48,通过微调网络参数,经过训练的网络能有效地识别肺结节图像含有的混合征象;网络训练过程与第一个CNN的训练过程相同,在输出层同样会产生对6个单一征象类的概率分布,以确定肺结节所含有的混合征象,但是由于混合征象的类别数不等于单一征象数,因此,损失函数的设计也有所不同;损失函数的定义为:其中,n表示肺结节混合征象数据集中的图像数,c表示单一征象的类别数,pi=[pi1,pi2,…,pic]表示网络输出的概率分布向量,表示基于事实的概率分布向量,li=[li1,li2,…,lic]表示第i个肺结节图像的标签向量,如果结节图像表现出第j类征象,则lij=1(j=1,2,…,c),否则lij=0;最后,利用调整好的网络获取肺结节图像所含有的征象特征。
优选的,所述步骤C具体过程如下:
C1、利用监督信息构造有效的哈希函数;
①使用主成分分析(PCA)算法对肺结节的图像特征进行预处理,将结节特征投影到可以最小化投影误差的线性子空间中,减少冗余信息,确保哈希映射后的哈希码含有原始图像的主要信息;
②哈希函数的一般形式为:w表示系数向量,b表示偏差,一般取值为所有图像特征的期望值,在PCA映射时已进行了零均值化处理,因此b的取值为0,用PCA映射后的语义特征vi代替xi,从而简化公式为:
③利用监督信息解决哈希函数中的w,所述的监督信息是指肺结节图像中所含混合征象的类型标签;
C2、为查询图像设计自适应权重向量,并检索相似的肺结节图像;
①设计各混合征象类型对应的权重向量;经哈希函数映射后,得到由肺结节图像的哈希码所构成的r维空间的集合Y={y1,y2,…,yn},表示第i类混合征象的哈希码集合;权重向量的设计要求同类混合征象中肺结节图像的汉明距离最小:
符号表示Hadamard积,c(j)表示第j类的哈希码中心,nj表示第j类的图像个数;还要求保留各类混合征象在原始特征空间的关系:
sij表示第i类与第j类的相似程度,若两类混合征象表现的差异性较大,即sij越小,相应的加权汉明距离应该越大;根据上述两个要求,目标函数可以设计为:
β表示平衡这两个要求的参数,设置β=1;求解上式即可得到不同混合征象类型的权重向量;
②计算查询图像的自适应权重向量;
③根据查询图像的自适应权重向量aq计算查询图像的哈希码yq与各候选混合征象类型中的哈希码{Y1,…,Ym}之间的加权汉明距离:并从这m个混合征象类型的图像库中检索出具有相似征象的肺结节图像。
优选的,利用监督信息即肺结节图像中所含混合征象的类型标签的标签信息解决哈希函数中的w,详细步骤如下:
第1步,使用标签信息表示样本间的语义相似性,并利用l个标签样本建立标签矩阵S∈Rl×l,若样本xi与xj相似,则Sij=1,否则Sij=-1;
第2步,性能好的哈希函数使得相似样本的汉明距离最小为0,反之最大;根据哈希码内积与汉明距离之间的关系,可以得出相似样本(Sij=1)的哈希码内积最大(为r),不相似样本(Sij=-1)的哈希码内积最小(为-r);
第3步,根据第2步所述关系,以及标签样本构成的内积矩阵HlHl T和标签矩阵S,定义目标函数为:
第4步,求解目标函数,完成哈希函数的构造,然后使用构造的哈希函数将肺结节的图像特征映射为哈希码。
优选的,计算查询图像的自适应权重向量,其具体步骤如下:
第1步,分别计算查询图像与各个征象类的余弦距离:
sim(xqi)=cos<xqi>(i=1,...,k)(μi是各征象类的类中心);
第2步,降序排序sim并选择前m个混合征象类作为候选混合征象类;
第3步,使用构造的哈希函数将查询图像映射为哈希码yq
第4步,计算查询图像的自适应权重向量
优选的,所述C1中①使用(PCA)算法对肺结节的图像特征进行预处理,基本步骤如下:
第1步,每一个肺结节图像都减去所有肺结节图像的特征均值,进行特征中心化;
第2步,计算协方差矩阵C:
第3步,根据SVD求取协方差矩阵C的特征值λi以及相应的特征向量ei
第4步,降序排序特征值λi,在贡献率的基础上选取其k个特征值对应的特征向量,构成线性子空间T=[e1,e2,…,ek];
第5步,将肺结节图像的语义特征投射到线性子空间:V=TX'。
优选的,所述步骤D具体步骤如下:
第1步,分别计算查询图像和检索到的相似肺结节图像之间的欧氏距离;
第2步,升序排序欧氏距离并选择前k个肺结节图像;
第3步,统计这k个肺结节图像中各个混合征象类所出现的频率;
第4步,出现频率最高的混合征象即为查询图像所表现的医学征象
图4说明了汉明距离相等的肺结节图像并不都相似于查询图像,因此,本发明为查询图像设计了自适应权重向量,通过计算加权汉明距离衡量肺结节图像间的相似度,以解决图4说明的问题。
图6对比了加权汉明排序与传统汉明排序在48比特哈希码时的检索结果。对于不同混合征象类型的肺结节图像,第一行为传统汉明距离的检索结果,第二行为对应查询图像的加权汉明距离的检索结果,黑色粗线框标记了返回图像中的错误图像。相比较传统汉明距离的检索,在返回的前5张相似结节图像中,基于加权汉明距离检索得到的正确图像数有所增加,准确率也有所提升。
图7对比了本发明与支持向量机(SVM)和极限学习机(ELM)方法在数据集中的8种混合征象上的正确识别率,即返回的正确图像数占返回图像数的比例。SVM算法是一种有监督的学习模型,采用监督信息弥补语义鸿沟,通过最小结构化风险来提高学习机泛化能力,是肺结节诊断中的常用方法。ELM是一种单隐层前馈神经网络的学习算法,相对于传统神经网络,ELM方法随机选取隐含层节点的参数,不需要通过迭代反复调整参数。SVM和ELM均使用径向基核函数,从中可以很直观地发现本发明的识别效果更好。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (7)

1.一种基于语义特征和有监督哈希的图像检索实现肺结节医学征象识别的方法,其特征在于,包括以下步骤:
步骤A,提取肺部CT图像中的肺结节混合征象区域,并截取其中各个单一征象区域,为之后提取表达肺结节征象信息的语义特征以及检索相似的肺结节图像,进而识别查询图像所表现的医学征象做准备;
步骤B,采用基于参数共享的卷积神经网络(CNN)提取表达肺结节征象信息的语义特征;首先使用第一个CNN训练单一征象数据,通过调整网络参数使其有效识别各个单一征象;然后将网络参数传递到第二个CNN,训练混合征象数据,并通过损失函数和误差反向传播机制来微调网络参数,从而获得表达结节征象信息的高维的语义特征;
步骤C,用于实现相似的肺结节图像检索;利用监督信息构造有效的哈希函数,将步骤B得到的高维的语义特征映射为简洁的哈希码,并为查询图像设计自适应权重向量,通过加权汉明距离的相似度衡量,从肺结节图像库中检索出具有相似征象的肺结节图像;
步骤D,用于识别肺结节征象;利用k近邻算法,从检索出的相似肺结节图像中判断查询图像含有的医学征象。
2.根据权利要求1所述的方法,其特征在于,所述步骤B中网络参数调整过程如下:
B1、对于第一个CNN,使用单一征象数据集进行训练;
第一个CNN网络共有7层,输入层、包含2个卷积层和2个降采样层的隐含层、全连接层和输出层;使用线性插值方法将单一征象数据集中的图像统一大小为48×48,并减去图像均值进行预处理,将其作为卷积神经网络输入层的输入;使用多项逻辑回归模型中的softmax函数作为损失函数,输出层产生一个在各单一征象类上的概率分布;在隐含层使用rectified linear units(ReLU)作为激励函数,以便缩短学习周期的同时提高学习精度;在整个训练过程中使用梯度下降法进行优化,使得损失函数能够快速收敛;通过第一个CNN的训练,得到能够有效识别不同单一征象的网络参数;
B2、对于第二个CNN,使用混合征象数据集进行训练;
将B1中训练单一征象的网络参数转移到第二个CNN网络中,并将含有混合征象的整个肺结节图像作为网络输入,每张肺结节图像的大小同样被统一为48×48,通过微调网络参数,经过训练的网络能有效地识别肺结节图像含有的混合征象;网络训练过程与第一个CNN的训练过程相同,在输出层同样会产生对6个单一征象类的概率分布,以确定肺结节所含有的混合征象,但是由于混合征象的类别数不等于单一征象数,因此,损失函数的设计也有所不同;损失函数的定义为:其中,n表示肺结节混合征象数据集中的图像数,c表示单一征象的类别数,pi=[pi1,pi2,…,pic]表示网络输出的概率分布向量,表示基于事实的概率分布向量,li=[li1,li2,…,lic]表示第i个肺结节图像的标签向量,如果结节图像表现出第j类征象,则lij=1(j=1,2,…,c),否则lij=0;最后,利用调整好的网络获取肺结节图像所含有的征象特征。
3.根据权利要求1所述的方法,其特征在于,所述步骤C具体过程如下:
C1、利用监督信息构造有效的哈希函数;
①使用主成分分析(PCA)算法对肺结节的图像特征进行预处理,将结节特征投影到可以最小化投影误差的线性子空间中,减少冗余信息,确保哈希映射后的哈希码含有原始图像的主要信息;
②哈希函数的一般形式为:w表示系数向量,b表示偏差,一般取值为所有图像特征的期望值,在PCA映射时已进行了零均值化处理,因此b的取值为0,用PCA映射后的语义特征vi代替xi,从而简化公式为:
③利用监督信息解决哈希函数中的w,所述的监督信息是指肺结节图像中所含混合征象的类型标签;
C2、为查询图像设计自适应权重向量,并检索相似的肺结节图像;
①设计各混合征象类型对应的权重向量;经哈希函数映射后,得到由肺结节图像的哈希码所构成的r维空间的集合Y={y1,y2,…,yn},表示第i类混合征象的哈希码集合;权重向量的设计要求同类混合征象中肺结节图像的汉明距离最小:
<mrow> <msup> <mi>c</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>n</mi> <mi>i</mi> </msub> </mfrac> <msub> <mi>&amp;Sigma;</mi> <mrow> <mi>y</mi> <mo>&amp;Element;</mo> <msub> <mi>Y</mi> <mi>i</mi> </msub> </mrow> </msub> <mi>y</mi> </mrow>
符号“。”表示Hadamard积,c(j)表示第j类的哈希码中心,nj表示第j类的图像个数;还要求保留各类混合征象在原始特征空间的关系:
sij表示第i类与第j类的相似程度,若两类混合征象表现的差异性较大,即sij越小,相应的加权汉明距离应该越大;根据上述两个要求,目标函数可以设计为:
<mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <msub> <mi>a</mi> <mn>1</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> </mrow> </munder> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mn>1</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>&amp;beta;</mi> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mn>1</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>&gt;</mo> <mn>0</mn> <mo>,</mo> <msup> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mo>*</mo> <mn>1</mn> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow>
β表示平衡这两个要求的参数,设置β=1;求解上式即可得到不同混合征象类型的权重向量;
②计算查询图像的自适应权重向量;
③根据查询图像的自适应权重向量aq计算查询图像的哈希码yq与各候选混合征象类型中的哈希码{Y1,…,Ym}之间的加权汉明距离:yi∈{Y1,...,Ym},并从这m个混合征象类型的图像库中检索出具有相似征象的肺结节图像。
4.根据权利要求3所述的方法,其特征在于,利用监督信息即肺结节图像中所含混合征象的类型标签的标签信息解决哈希函数中的w,详细步骤如下:
第1步,使用标签信息表示样本间的语义相似性,并利用l个标签样本建立标签矩阵S∈Rl×l,若样本xi与xj相似,则Sij=1,否则Sij=-1;
第2步,性能好的哈希函数使得相似样本的汉明距离最小为0,反之最大;根据哈希码内积与汉明距离之间的关系,可以得出相似样本(Sij=1)的哈希码内积最大(为r),不相似样本(Sij=-1)的哈希码内积最小(为-r);
第3步,根据第2步所述关系,以及标签样本构成的内积矩阵HlHl T和标签矩阵S,定义目标函数为:
第4步,求解目标函数,完成哈希函数的构造,然后使用构造的哈希函数将肺结节的图像特征映射为哈希码。
5.根据权利要求3所述的方法,其特征在于,计算查询图像的自适应权重向量,其具体步骤如下:
第1步,分别计算查询图像与各个征象类的余弦距离:
sim(xqi)=cos<xqi>(i=1,...,k)(μi是各征象类的类中心);
第2步,降序排序sim并选择前m个混合征象类作为候选混合征象类;
第3步,使用构造的哈希函数将查询图像映射为哈希码yq
第4步,计算查询图像的自适应权重向量
6.根据权利要求3所述的方法,其特征在于,所述C1中①使用(PCA)算法对肺结节的图像特征进行预处理,基本步骤如下:
第1步,每一个肺结节图像都减去所有肺结节图像的特征均值,进行特征中心化;
第2步,计算协方差矩阵C:
第3步,根据SVD求取协方差矩阵C的特征值λi以及相应的特征向量ei
第4步,降序排序特征值λi,在贡献率的基础上选取其k个特征值对应的特征向量,构成线性子空间T=[e1,e2,…,ek];
第5步,将肺结节图像的语义特征投射到线性子空间:V=TX'。
7.根据权利要求1所述方法,其特征在于,所述步骤D具体步骤如下:
第1步,分别计算查询图像和检索到的相似肺结节图像之间的欧氏距离;
第2步,升序排序欧氏距离并选择前k个肺结节图像;
第3步,统计这k个肺结节图像中各个混合征象类所出现的频率;
第4步,出现频率最高的混合征象即为查询图像所表现的医学征象。
CN201710195957.XA 2017-03-29 2017-03-29 一种基于语义特征和有监督哈希的图像检索方法 Active CN107092918B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710195957.XA CN107092918B (zh) 2017-03-29 2017-03-29 一种基于语义特征和有监督哈希的图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710195957.XA CN107092918B (zh) 2017-03-29 2017-03-29 一种基于语义特征和有监督哈希的图像检索方法

Publications (2)

Publication Number Publication Date
CN107092918A true CN107092918A (zh) 2017-08-25
CN107092918B CN107092918B (zh) 2020-10-30

Family

ID=59646470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710195957.XA Active CN107092918B (zh) 2017-03-29 2017-03-29 一种基于语义特征和有监督哈希的图像检索方法

Country Status (1)

Country Link
CN (1) CN107092918B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107625521A (zh) * 2017-09-14 2018-01-26 华东师范大学 基于脑电数据的用于评估记忆动态变化的多层建模方法
CN108875814A (zh) * 2018-06-04 2018-11-23 联想(北京)有限公司 图片检索方法、装置及电子设备
CN109416689A (zh) * 2018-01-16 2019-03-01 深圳力维智联技术有限公司 海量特征向量数据的相似检索方法及设备、存储介质
CN109558890A (zh) * 2018-09-30 2019-04-02 天津大学 基于自适应权重哈希循环对抗网络的零样本图像分类方法
CN109885712A (zh) * 2019-02-12 2019-06-14 山东中医药大学 基于内容的肺结节图像检索方法及系统
CN109960732A (zh) * 2019-03-29 2019-07-02 广东石油化工学院 一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统
CN110209867A (zh) * 2019-06-05 2019-09-06 腾讯科技(深圳)有限公司 图像检索模型的训练方法、装置、设备及存储介质
CN110265144A (zh) * 2019-07-01 2019-09-20 边源医疗科技(杭州)有限公司 基于医生反馈的医学人工智能应用评价系统
CN110309333A (zh) * 2019-05-28 2019-10-08 北京工业大学 一种基于余弦度量的深度哈希图像检索方法
CN110490268A (zh) * 2019-08-26 2019-11-22 山东浪潮人工智能研究院有限公司 一种基于余弦相似度的改进最近邻距离比的特征匹配方法
CN111223076A (zh) * 2019-12-30 2020-06-02 北京深睿博联科技有限责任公司 神经系统影像分析方法和装置
CN111242893A (zh) * 2019-12-30 2020-06-05 北京深睿博联科技有限责任公司 神经系统影像分析方法和装置
CN112733708A (zh) * 2021-01-08 2021-04-30 山东交通学院 一种基于半监督学习的肝门静脉检测定位方法与系统
CN113077427A (zh) * 2021-03-29 2021-07-06 北京深睿博联科技有限责任公司 一种类别预测模型的生成方法及装置
CN113658683A (zh) * 2021-08-05 2021-11-16 重庆金山医疗技术研究院有限公司 一种疾病诊断系统及数据推荐方法
CN116541429A (zh) * 2023-07-06 2023-08-04 南方科技大学 一种非对称的哈希检索方法及终端
CN117524427A (zh) * 2024-01-05 2024-02-06 莱凯医疗器械(北京)有限公司 一种智能化医学影像分析方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090222468A1 (en) * 2008-02-29 2009-09-03 Alpern Bowen L Method and system for using semantic information to improve virtual machine image management
CN104657350A (zh) * 2015-03-04 2015-05-27 中国科学院自动化研究所 融合隐式语义特征的短文本哈希学习方法
US20150154229A1 (en) * 2013-11-29 2015-06-04 Canon Kabushiki Kaisha Scalable attribute-driven image retrieval and re-ranking
CN104834748A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 一种利用基于深度语义排序哈希编码的图像检索方法
CN105069173A (zh) * 2015-09-10 2015-11-18 天津中科智能识别产业技术研究院有限公司 基于有监督的拓扑保持哈希的快速图像检索方法
CN105512289A (zh) * 2015-12-07 2016-04-20 郑州金惠计算机系统工程有限公司 基于深度学习和哈希的图像检索方法
CN106033426A (zh) * 2015-03-11 2016-10-19 中国科学院西安光学精密机械研究所 一种基于潜在语义最小哈希的图像检索方法
CN106383891A (zh) * 2016-09-22 2017-02-08 重庆理工大学 一种基于深度哈希的医学图像分布式检索方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090222468A1 (en) * 2008-02-29 2009-09-03 Alpern Bowen L Method and system for using semantic information to improve virtual machine image management
US20150154229A1 (en) * 2013-11-29 2015-06-04 Canon Kabushiki Kaisha Scalable attribute-driven image retrieval and re-ranking
CN104657350A (zh) * 2015-03-04 2015-05-27 中国科学院自动化研究所 融合隐式语义特征的短文本哈希学习方法
CN106033426A (zh) * 2015-03-11 2016-10-19 中国科学院西安光学精密机械研究所 一种基于潜在语义最小哈希的图像检索方法
CN104834748A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 一种利用基于深度语义排序哈希编码的图像检索方法
CN105069173A (zh) * 2015-09-10 2015-11-18 天津中科智能识别产业技术研究院有限公司 基于有监督的拓扑保持哈希的快速图像检索方法
CN105512289A (zh) * 2015-12-07 2016-04-20 郑州金惠计算机系统工程有限公司 基于深度学习和哈希的图像检索方法
CN106383891A (zh) * 2016-09-22 2017-02-08 重庆理工大学 一种基于深度哈希的医学图像分布式检索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JILE ZHOU 等: "Kernel-based supervised hashing for cross-view similarity search", 《2014 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME)》 *
唐珂 等: "基于核函数的有监督哈希视频图像检索", 《江苏科技信息》 *
毛晓蛟 等: "一种基于子空间学习的图像语义哈希索引方法", 《软件学报》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107625521A (zh) * 2017-09-14 2018-01-26 华东师范大学 基于脑电数据的用于评估记忆动态变化的多层建模方法
WO2019140548A1 (zh) * 2018-01-16 2019-07-25 深圳中兴力维技术有限公司 海量特征向量数据的相似检索方法及设备、存储介质
CN109416689A (zh) * 2018-01-16 2019-03-01 深圳力维智联技术有限公司 海量特征向量数据的相似检索方法及设备、存储介质
CN108875814A (zh) * 2018-06-04 2018-11-23 联想(北京)有限公司 图片检索方法、装置及电子设备
CN108875814B (zh) * 2018-06-04 2022-07-26 联想(北京)有限公司 图片检索方法、装置及电子设备
CN109558890B (zh) * 2018-09-30 2023-03-31 天津大学 基于自适应权重哈希循环对抗网络的零样本图像分类方法
CN109558890A (zh) * 2018-09-30 2019-04-02 天津大学 基于自适应权重哈希循环对抗网络的零样本图像分类方法
CN109885712A (zh) * 2019-02-12 2019-06-14 山东中医药大学 基于内容的肺结节图像检索方法及系统
CN109885712B (zh) * 2019-02-12 2020-09-29 山东中医药大学 基于内容的肺结节图像检索方法及系统
CN109960732A (zh) * 2019-03-29 2019-07-02 广东石油化工学院 一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统
CN109960732B (zh) * 2019-03-29 2023-04-18 广东石油化工学院 一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统
CN110309333A (zh) * 2019-05-28 2019-10-08 北京工业大学 一种基于余弦度量的深度哈希图像检索方法
CN110209867A (zh) * 2019-06-05 2019-09-06 腾讯科技(深圳)有限公司 图像检索模型的训练方法、装置、设备及存储介质
CN110265144A (zh) * 2019-07-01 2019-09-20 边源医疗科技(杭州)有限公司 基于医生反馈的医学人工智能应用评价系统
CN110490268A (zh) * 2019-08-26 2019-11-22 山东浪潮人工智能研究院有限公司 一种基于余弦相似度的改进最近邻距离比的特征匹配方法
CN111242893A (zh) * 2019-12-30 2020-06-05 北京深睿博联科技有限责任公司 神经系统影像分析方法和装置
CN111223076A (zh) * 2019-12-30 2020-06-02 北京深睿博联科技有限责任公司 神经系统影像分析方法和装置
CN111242893B (zh) * 2019-12-30 2023-12-15 北京深睿博联科技有限责任公司 神经系统影像分析方法和装置
CN111223076B (zh) * 2019-12-30 2023-12-15 北京深睿博联科技有限责任公司 神经系统影像分析方法和装置
CN112733708A (zh) * 2021-01-08 2021-04-30 山东交通学院 一种基于半监督学习的肝门静脉检测定位方法与系统
CN113077427A (zh) * 2021-03-29 2021-07-06 北京深睿博联科技有限责任公司 一种类别预测模型的生成方法及装置
CN113077427B (zh) * 2021-03-29 2023-04-25 北京深睿博联科技有限责任公司 一种类别预测模型的生成方法及装置
CN113658683A (zh) * 2021-08-05 2021-11-16 重庆金山医疗技术研究院有限公司 一种疾病诊断系统及数据推荐方法
CN116541429B (zh) * 2023-07-06 2023-09-05 南方科技大学 一种非对称的哈希检索方法及终端
CN116541429A (zh) * 2023-07-06 2023-08-04 南方科技大学 一种非对称的哈希检索方法及终端
CN117524427A (zh) * 2024-01-05 2024-02-06 莱凯医疗器械(北京)有限公司 一种智能化医学影像分析方法
CN117524427B (zh) * 2024-01-05 2024-04-02 莱凯医疗器械(北京)有限公司 一种智能化医学影像分析方法

Also Published As

Publication number Publication date
CN107092918B (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN107092918A (zh) 一种基于语义特征和有监督哈希的图像检索实现肺结节征象识别的方法
US10339419B2 (en) Fine-grained image similarity
Zhuang et al. Visual tracking via discriminative sparse similarity map
CN103605972B (zh) 一种基于分块深度神经网络的非限制环境人脸验证方法
Konig Interactive visualization and analysis of hierarchical neural projections for data mining
Malone et al. Data mining using rule extraction from Kohonen self-organising maps
Lu et al. Robust few-shot learning for user-provided data
CN110717554B (zh) 图像识别方法、电子设备及存储介质
Zhong et al. Class feature weighted hyperspectral image classification
CN107545276A (zh) 联合低秩表示和稀疏回归的多视角学习方法
CN110516098A (zh) 基于卷积神经网络及二进制编码特征的图像标注方法
Ma et al. Reduced analytic dependency modeling: Robust fusion for visual recognition
CN114048295A (zh) 一种用于数据处理的跨模态检索方法及系统
Guo et al. Unsupervised discriminative feature representation via adversarial auto-encoder
CN108595546A (zh) 基于半监督的跨媒体特征学习检索方法
CN113076476B (zh) 一种微博异构信息的用户画像构建方法
Bernard et al. Visual-interactive similarity search for complex objects by example of soccer player analysis
Srinivasa Rao et al. Content and context based image retrieval classification based on firefly-neural network
Zhang et al. Research progress of content-based fabric image retrieval
Yang et al. Remote sensing textual image classification based on ensemble learning
Jaimes et al. Integrating multiple classifiers in visual object detectors learned from user input
CN114357307A (zh) 一种基于多维度特征的新闻推荐方法
CN114022698A (zh) 一种基于二叉树结构的多标签行为识别方法及装置
Wanas Feature-based architectures for decision fusion
Paiz-Reyes et al. GIF image retrieval in cloud computing environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant