CN105989094B

CN105989094B - 基于隐层语义中层表达的图像检索方法

Info

Publication number: CN105989094B
Application number: CN201510076112.XA
Authority: CN
Inventors: 袁媛; 卢孝强; 梅剑寒
Original assignee: XiAn Institute of Optics and Precision Mechanics of CAS
Current assignee: XiAn Institute of Optics and Precision Mechanics of CAS
Priority date: 2015-02-12
Filing date: 2015-02-12
Publication date: 2020-09-01
Anticipated expiration: 2035-02-12
Also published as: CN105989094A

Abstract

本发明公开了一种基于隐层语义中层表达的图像检索方法，主要解决现有方法检索精度不高无法进行细粒度检索工作的问题。其实现步骤是：(1)对图像库中的图像划分训练样本集和测试样本集；(2)生成用于训练中层表达模型的训练向量集；(3)选取输入向量集使用基于隐层语义的中层表达方法训练生成映射矩阵M；(4)生成查询向量；(5)计算检索精度与响应用户查询。本发明与现有方法相比，学习了图片直接表达向量之间的隐层语义模型，在图片表达和其标记之间建立了良好的映射模型，因此获得了更好的系统检索精度。以医学图像应用为例，可以用于大规模图像数据的检索管理和医学临床诊断的辅助系统。

Description

基于隐层语义中层表达的图像检索方法

技术领域

本发明属于图像处理技术领域，特别涉及一种图像检索技术，以医学图像的应用为例，可以用于大规模图像数据的检索管理和医学临床诊断的辅助系统。

背景技术

医学图像是现代医学临床诊断中一种有效的辅助诊断工具。随着医学照影技术的不断发展和广泛应用，被用于辅助临床诊断的医学图像呈爆炸式增长。这使得应用于大规模图像数据的管理工具被迫切需求。传统的图像检索系统主要利用现在已经非常成熟的文本检索技术，通过检索事先对图片做好的标记实现对图像的检索。但这种方法过分地依赖于人工对图片的标记，当人工的经验标记出现错误，或标记格式出现问题时，该类型的图像检索系统性能会大幅的下降。同时，现代医学临床诊断在解读医学图像时，也不再单一依靠诊断者的经验，更多的时候还需要参考数据库中的已有病例。因此，为了进一步辅助临床诊断，医学图像检索系统应该能返回与图像语义最相关的目标，而不仅仅是选出人工划分的疾病类型。而这些都是传统的基于文本的图像检索系统无法实现的。

为了解决上述问题，近年来基于图像内容的图像检索技术被广泛研究。该类系统不同于基于文本的图像检索系统，其不再依赖于查找人工标记返回目标图片，而是通过计算机视觉对图像的理解实现以图搜图，从而返回与查询请求内容最相关的图片。

随着计算视觉技术的发展，基于图像内容的图像检索系统性能也在不断提高。早期，随着最初用于文本检索检索BoVW(Bag-of-Visual-Word)模型被引入图像分类与检索的领域，多种可应用于图像检索的图片表达方法基于该模型框架被提出，经典方法如“Jégou,H.,Perronnin,F.,Douze,M.,Sánchez,J.,Pérez,P.,&Schmid,C.Aggregating localimage descriptors into compact codes.IEEE Trans,Pattern Analysis and MachineIntelligence,34(9),1704-1716,2012.”中介绍的Fisher Vector和VLAD(Vector ofLocally Aggregated Descriptors)等。该类方法致力于将图片的底层局部特征聚合表示为与图片语义相关的空间向量，最后通过对向量的距离比较，可以实现系统的检索排序。但基于该类方法的检索系统性能很大程度上依赖于从图像提取的底层特征性质，使其无法很好地应用于高精度和细粒度的图像检索工作。随后，子空间映射模型被广泛研究，并被应用到图片向量的比较排序中。在“Yang,L.,Jin,R.,Mummert,L.,Sukthankar,R.,Goode,A.,Zheng,B.,...&Satyanarayanan,M.A boosting framework for visuality-preservingdistance metric learning and its application to medical image retrieval.IEEETrans,Pattern Analysis and Machine Intelligence,32(1),30-44,2010.”和“Simonyan,K.,Vedaldi,A.,&Zisserman,A.Learning local feature descriptors usingconvex optimisation.IEEE Trans,Pattern Analysis and Machine Intelligence,2(4),2014.”中分别列举了用图片表达的距离度量学习和局部特征空间映射两种方法来改进检索系统中对查询图片向量的排序性能。通常使用该类方法的系统能较直接应用图片表达向量的系统在精度上有所提升，但有时该类方法无法很好地解释特征映射子空间与语义相关度的关系。

发明内容

本发明的目的在于针对上述现有方法的不足，提出一种基于隐层语义中层表达的图像检索方法，通过矩阵分解提取数据库图像的隐层语义从而实现图片表达空间到图片标记空间更好的映射，以提高基于内容的医学图像检索系统的检索精度，并实现大规模医学图像数据的有效管理和临床疾病诊断的有效辅助。

本发明的具体技术方案包括如下步骤：

一种基于隐层语义中层表达的图像检索方法，其特征在于，包括以下步骤：

1)从医学图像数据库划分训练样本集和测试样本集；

1.1)在训练医学图像数据库的每个类别中选取等量的样本作为训练样本集；所述训练医学图像数据库是带分类标签的医学图像数据；

1.2)将测试医学图像数据库和全部的训练医学图像数据库作为测试样本集；

2)生成训练样本集对应的VLAD向量集以及训练样本集对应的标记向量集；

2.1)选取全部的训练样本集，利用VLAD方法将训练样本集中的每幅图像表示为VLAD向量，生成训练样本集的对应VLAD向量集X_train；

2.2)将训练样本集中的每幅图像对应的标记制作成标记向量，生成训练样本集对应的标记向量集Y_train；所述标记向量集为图片对应的标记二值列向量，若图片属于步骤1.1)中的所述类别，则标记该图片，否则不标记；

3)生成映射矩阵M；

3.1)选取步骤2)生成的VLAD向量集X_train和标记向量集Y_train作为训练模型的输入集；

3.2)使用基于隐层语义的中层表达式建立VLAD向量集X_train和标记向量集Y_train之间的映射模型，生成映射矩阵M；具体如下：

将VLAD向量集X_train和标记向量集Y_train带入以下目标式中的X和Y：

其中，α，β₁，β₂，β₃，β₄为权重参数；W为标记映射矩阵；θ为中层表达映射矩阵；U，V为矩阵分解乘子；

通过优化求解上式，可以得到映射矩阵M：

M＝Wθ；

4)生成测试样本查询向量集；

4.1)选取测试样本集，利用VLAD方法将其中每幅图片表示为VLAD向量，生成测试样本集对应的VLAD向量集X_test；

4.2)通过映射矩阵M与VLAD向量集X_test中各向量的乘积生成测试样本集对应的测试样本查询向量集Q_test；

5)计算检索精度与响应用户查询；

5.1)生成训练样本查询向量集并计算检索精度；

5.1.1)从训练样本集的每个类别中随机选取等量共N幅图像作为查询集，利用VLAD方法将查询集中每幅图像表示为VLAD向量，生成查询集对应的VLAD向量集X_query；

5.1.2)通过映射矩阵M与VLAD向量集X_query中各向量的乘积生成查询集对应的训练样本查询向量集Q_query；

5.1.3)通过比较训练样本查询向量集Q_query中的每个查询向量与测试样本查询向量集Q_test中每个查询向量的距离并排序，生成训练样本查询向量集Q_query对应的排序集R；

5.1.4)计算排序集R各个排序向量对应的排序精度并生成排序集对应的精度向量AP，得出系统的平均精度性能指标mAP；

mAP＝(∑AP)/N

其中，N为步骤5.1.1)中从训练样本集的各类别中随机抽取的等量共N幅图像；

5.2)生成用户查询向量集并返回检索排序；

5.2.1)选取用户查询图像，利用VLAD方法将查询图像表示为用户查询VLAD向量，生成用户查询图像对应的用户查询VLAD向量X_user；

5.2.2)通过映射矩阵M与用户查询VLAD向量X_user相乘生成用户查询VLAD向量对应的用户查询向量集Q_user；

5.2.3)通过比较用户查询向量集Q_user中的每个查询向量与测试样本查询向量集Q_test中每个向量的距离并排序，生成用户查询向量集Q_user中对应的排序R_user，通过排序序号返回用户所需的查询图片作为输出以实现检索功能。

上述的VLAD方法，其包括以下步骤：

A、图片的局部描述特征提取；对需表达的图片提取D维度的SIFT特征；

B、通过最近邻查找将图片的SIFT特征映射到有K个词汇的字典上，生成每个词汇对应的SIFT特征集W_i；字典通过事先在训练样本集对应的SIFT集上聚类得到，聚类方法采用k-means算法；

C、将图片中完成映射的词汇按其所属词汇求和，并按照词汇顺序拼接，生成图片VLAD表达向量V如下所示：

V＝[∑W₁,∑EW₂,......,∑W_K]

其中，[.]表示向量拼接运算；

由此便得到K×D维的图片VLAD表达向量V。

本发明的优点在于：

本发明由于提取了医学图像数据库的隐层语义，使得图片表达能够更好地映射到图片标记空间，映射模型具有良好的鲁棒性，能较好地对类内目标和类间目标进行建模，通过使用映射后的空间向量进行查询，能够在很大程度上提高检索系统的检索精度。

附图说明

图1为本发明基于隐层语义中层表达的图像检索的流程图；

具体实施方式

本发明提供了一种基于隐层语义中层表达的图像检索方法以下面结合附图，对本发明实现的步骤作进一步的详细描述：

参照图1，本发明实现的步骤如下：

步骤1，从医学图像数据库划分训练样本集和测试样本集。

步骤1.1)在训练医学图像数据库的每个类别中选取等量的样本作为训练样本集；其中，训练医学图像数据库是带分类标签的医学图像数据；

步骤1.2)将测试医学图像数据库和全部的训练医学图像数据库作为测试样本集；

步骤2，生成用于训练中层表达模型的训练向量集。

步骤2.1)选取全部的训练集，利用VLAD(Vector of Locally AggregatedDescriptors)请给出方法将其中的每一幅图片表示为VLAD向量，生成训练样本集的对应VLAD向量集X_train。

上所述的VLAD方法是一种成熟的现有技术，其包括图片的局部描述特征提取、局部特征的聚类、局部特征的中心最近邻映射、图片词汇的聚合表达，其步骤如下：

图片的局部描述特征提取；对需表达的图片提取D维度的SIFT特征(特征的中文为：尺度不变特征变换；特征的提取方法由文献提供：Lowe,David G."Object recognitionfrom local scale-invariant features."Computer vision.The proceedings of theseventh IEEE international conference on.Vol.2.IEEE,1999.)

步骤2.2)通过最近邻查找将图片的SIFT特征映射到有K个词汇的字典上，生成每个词汇对应的SIFT特征集W_i；字典通过事先在训练样本集对应的SIFT集上聚类得到，聚类方法采用k-means算法；

步骤2.3)将图片中完成映射的词汇按其所属词汇求和，并按照词汇顺序拼接，生成图片VLAD表达向量V如下所示：

V＝[∑W₁,∑EW₂,......,∑W_K]

其中，[.]表示向量拼接运算；

由此便得到K×D维的图片VLAD表达向量V。

步骤2.2)将训练集中的每幅图像对应的标记制作成标记向量，生成训练样本集对应的标记向量集Y_train，标记向量集为图片对应的标记列向量，若图片属于步骤1.1)中的类别，则标记该图片，否则不标记；

步骤3，选取输入向量集训练生成映射矩阵M。

步骤3)生成映射矩阵M；

步骤3.1)选取步骤2)生成的VLAD向量集X_train和标记向量集Y_train作为训练模型的输入集；

步骤3.2)使用基于隐层语义的中层表达式建立VLAD向量集X_train和标记向量集Y_train之间的映射模型，生成映射矩阵M；具体如下：

通过优化求解上式，可以得到映射矩阵M：

M＝Wθ；

步骤4，生成测试样本查询向量集；

4)生成测试样本查询向量集；

步骤5，计算检索精度与响应用户查询。

步骤5.1)生成训练样本查询向量集并计算精度

步骤5.1.1)从训练样本集的每个类别中随机选取等量共N幅图像作为查询集，利用VLAD方法将查询集中每幅图像表示为VLAD向量，生成查询集对应的VLAD向量集X_query；

步骤5.1.2)通过映射矩阵M与VLAD向量集X_query中各向量的乘积生成查询集对应的训练样本查询向量集Q_query；

步骤5.1.3)通过比较训练样本查询向量集Q_query中的每个查询向量与测试样本查询向量集Q_test中每个向量的距离并排序，生成训练样本查询向量集Q_query对应的排序集R；

mAP＝(∑AP)/N

5.2)生成用户查询向量集并返回检索排序；

为了了更好证明本发明的技术方案的系统检索精度高，是申请人就本发明的技术方案与现有技术的技术方案进行的对比验证；

对比验证：

从医学图像数据库中的20个人体X光分类中，每类随机选取10张图片作为查询请求。

本发明：利用本发明的方法计算全部查询的mAP作为检索系统的评价指标。

现有技术：采用传统的直接使用VLAD向量作为查询向量的检索方法计算查询的mAP作为检索系统的评价指标。

表1表示直接使用VLAD向量的检索方法与本发明检索方法最终检索的结果：

表1系统检索精度

从表1可见，试验1的本发明的平均检索精度(mAP)较试验2的直接使用VLAD向量的方法提高64.34％。这是因为本发明学习了图片直接表达向量之间的隐层语义模型，在图片表达和其标记之间建立了良好的映射模型，因此获得了更好的系统检索精度，进一步验证了本发明的先进性。

注：本发明是在中央处理器为Intel(R)Core(TM)i3-21303.40GHZ、内存16G、WINDOWS 7操作系统上，运用MATLAB软件进行的仿真。

实施例中使用的医学图像数据库为文献“Xia H,Hoi S,Jin R,P Zhao.OnlineMultiple Kernel Similarity Learning for Visual Search.IEEE Trans,PatternAnalysis and Machine Intelligence,2012.”中公开的从ImageCLEF中获取的X光数据库。

Claims

1.一种基于隐层语义中层表达的图像检索方法，其特征在于，包括以下步骤：

1)从医学图像数据库划分训练样本集和测试样本集；

3)生成映射矩阵M；

将VLAD向量集X_tra1n和标记向量集Y_train带入以下目标式中的X和Y：

通过优化求解上式，可以得到映射矩阵M：

M＝Wθ；

4)生成测试样本查询向量集；

5)计算检索精度与响应用户查询；

5.1)生成训练样本查询向量集并计算检索精度；

mAP＝(∑AP)/N

5.2)生成用户查询向量集并返回检索排序；

2.根据权利要求1所述的基于隐层语义中层表达的图像检索方法，其特征在于：所述的VLAD方法，其包括以下步骤：

V＝[∑W₁,∑W₂,……,∑W_K]

其中，[.]表示向量拼接运算；

由此便得到K×D维的图片VLAD表达向量V。