CN106484782A - 一种基于多核哈希学习的大规模医学图像检索方法 - Google Patents
一种基于多核哈希学习的大规模医学图像检索方法 Download PDFInfo
- Publication number
- CN106484782A CN106484782A CN201610827891.7A CN201610827891A CN106484782A CN 106484782 A CN106484782 A CN 106484782A CN 201610827891 A CN201610827891 A CN 201610827891A CN 106484782 A CN106484782 A CN 106484782A
- Authority
- CN
- China
- Prior art keywords
- image
- hash
- kernel function
- study
- multinuclear
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Processing Or Creating Images (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多核哈希学习的大规模医学图像检索方法,具体是通过融合多个不同的核函数构造核矩阵;利用学习到的哈希函数,将图像全部转换为哈希码并进行压缩;通过汉明距离度量求出医学图像间的距离并按升序排序,选择距离最小的m张图像返回给用户;利用相关反馈算法,用户可以对检索到的图像重新优化排序,直到满足用户要求为止。本发明计算效率高,检索速度快,存储量小,检索精度高,步骤清晰,针对性强。有助于医生的医学诊断,减少医生的工作量,提高工作效率。
Description
技术领域
本发明属于图像处理领域,具体涉及多核函数融合的哈希学习实现大规模医学图像检索。
背景技术
图像检索技术指的根据输入图像从图像数据库中检索出相匹配的图像或者同类图像。已有的技术主要有三个方面:基于文本的图像检索技术、基于内容的图像检索技术、以及文本和图像相结合的检索技术。基于文本的技术主要局限在于文本标注时的主观倾向和语义的局限性。
基于内容的图像检索技术是当前研究的主流技术,但存在一些技术难点:(1)没有一种普遍适用的方法可以应用于图像检索的各个领域;(2)图像越来越大,维度越来越高,如何解决维度过高而导致计算量过大的问题仍需大量的研究;(3)相似性度量方法各种各样,选择一个合适的度量方法能够很好的改善检索结果,而该度量方法的选择具有不确定性;(4)对于大规模的医学图像数据,能否在人们可接受的范围内进行快速的响应。(5)对于大规模的医学图像数据,如何解决存储空间不足问题。
针对上述五个问题,虽然很多学者投入了大量的时间和精力去改善,但是这些方面的改善空间依然很大,仍需努力。核函数的原理,可以解决维度过高,计算复杂等问题;而哈希技术的出现,对于解决大规模图像检索的速度问题和存储问题提供了良好的解决方案。
发明内容
本发明基于图像维度过高,计算复杂,容易引起“维数灾难”问题;图像规模大,检索速度低,存储量大等问题,提出了一种基于多核哈希学习的大规模医学图像检索方法。本发明运用核思想可以解决高维度数据的线性不可分问题,避免了“维数灾难”问题,大大减少了计算量,从而节省了计算机资源;使用哈希技术能够极大的提高检索速度,大大减少存储空间;使用相关反馈技术能够更好的提高检索精度。
为了实现上述目的本发明采用如下技术方案:
一种基于多核哈希学习的大规模医学图像检索方法,包括以下步骤:
步骤一:对图像库中的所有图像进行二值化处理,得到预处理图像。
步骤二:利用融合的核函数求出所述预处理图像的多核矩阵,所述融合的核函数为其中n代表核函数的个数,α代表每个核函数所占的比重,x,y分别表示图像库中的任意两张医学图像,K代表融合后的多核矩阵。融合的核函数是将线性核函数,多项式核函数,高斯核函数,拉普拉斯核函数,指数核函数,Sigmoid核函数,Cauchy核函数进行线性组合的。
步骤三,用学习到的哈希函数对多核矩阵进行统一的哈希编码,并将编码后的哈希码进行压缩存储到多核矩阵对应的哈希码库中,学习到的哈希函数为h(x)=sign(K*W),其中K代表融合后的多核矩阵,W表示权重矩阵,权重矩阵由服从高斯分布的核矩阵中的t(其中50≤t≤300)个点构成,sign表示符号函数,h(x)表示最终生成的二进制哈希码(长度为d)。
在所述哈希编码过程中,利用符号函数将大于0的值赋为1,小于等于0的值赋为0,每一张图像就可以直接由0,1二进制串表示,并将这些编码后的二进制码每8位压缩为一个值,进行存储,达到节省存储空间的目的。
步骤四,对待检索图像进行进行步骤一、步骤二和步骤三的处理,生成哈希码并压缩存储。
步骤五,使用汉明距离度量方法计算步骤四的哈希码与哈希码库中存放的哈希码之间的距离并升序排序,将距离最小的m张图像返回给用户,m为大于等于1的整数。所述汉明距离度量的公式如下:
d(x,y)表示医学图像x与y的汉明距离,n代表每一张医学图像的维度,x与y分别表示图像库中不同的医学图像。
在上述方案中,进一步包括用户根据返回的m张图像,对返回的每张图像赋予权重,重新优化排序,输出图像的步骤。在对返回的每张图像赋予权重的过程中,对返回的每张图像赋予一定的权重,权重区间为[0,1],其中相似的图像或者满足要求的图像给与的权重大(比如0.8,0.9,1等),不相似或者不满足要求的图像给与的权重小(比如0,0.1,0.2等)。对于这些获得权重的图像再重新优化排序,直到满足用户要求为止。
综上所述,本发明具有以下有益技术效果:
1、采用融合的核函数可以解决图像维度过高而线性不可分的问题,避免了“维数灾难”问题,解决了高维空间中计算量大,计算复杂问题。
2、使用哈希技术对求出的核矩阵进行哈希编码并压缩可以解决检索速度低,存储量大等问题。
3、效率高,检索速度快,存储量小,检索精度高。有助于医生的医学诊断,减少医生的工作量,提高工作效率。
4、使用升序排序方法将距离最小的m(本发明中m取10)张图像返回给用户,最后用户使用相关反馈技术对返回的m张图像进行赋权,再重新优化排序,直到满足用户需求为止,相关反馈技术,可以改善检索结果。
附图说明
图1是本发明的操作流程图;
图2是本发明的系统流程图;
图3是本发明中CT图像的头部检索结果图;
图4是本发明中CT图像的肺部检索结果图;
图5是本发明中CT图像的手部检索结果图。
具体实施方式
在本发明中,选取合适的核函数进行组合,将数据映射到高维的数据空间中,解决线性不可分的问题,利用核技术解决高维特征空间运算时存在的“维数灾难”问题。
不同的核函数有自己优势和不足,不同的核函数所表现出的特点也各不相同,由它们所构成的组合核函数性能也会有所差别。
核函数主要分为全局核函数和局部核函数。全局核函数(例如线性核函数)具有全局特性,允许相距很远的数据点都可以对核函数的值有影响,而局部核函数(如高斯核函数)具有局部性,只允许相距很近的数据点对核函数的值有影响。结合不同核函数各自优势,本发明提出了以下一种新的融合的核函数(其中n代表核函数的个数,α代表每个核函数所占的比重,x,y分别表示图像库中的任意两张医学图像)。通过该式求出核函数,利用从K中选出的t个服从高斯分布的点求出权重矩阵W。
对于大规模图像检索问题,需要处理的图像往往是海量并且具有很高的维度,快速地从海量的高维图像数据库中找到与某幅图像最相似的一幅或多幅图像成为了一个难点和热点问题,因此迫切需要新技术使得大规模图像检索具有较小的存储代价和高效的检索效率。
而哈希学习方法就是最近广泛研究与应用的技术,通过哈希编码使得相似的图像具有相似或相同的编码,并将编码后的数据进行压缩从而获得较低的存储代价,同时通过哈希索引能显著加快近似近邻图像的检索效率,利用h(x)=sign(K*W)求出哈希码。然后利用汉明距离计算方法求出待检索图像和图像库中图像的距离,按照升序方式排序。最终将前m(在本实施例中m取10)个相似图像返回给用户,用户根据返回的图像给图像赋权重,直到满足用户需求为止。
下面详细结合图1和图2详细说明本发明的技术方案:
步骤一:图像预处理
为了消除图像中的无关信息,恢复有用的真实信息,需要对图像进行二值化处理。为了方便后面对图像的处理和计算,将图像大小统一为200*200px。
步骤二:构造多核矩阵
使用线性核函数,多项式核函数,高斯核函数,拉普拉斯核函数,指数核函数,Sigmoid核函数,Cauchy核函数构造处理后的图像的多核矩阵。使用融合的核函数求出图像的多核矩阵(其中n代表核函数的个数,α代表每个核函数所占的比重,K代表融合后的多核矩阵,x,y分别表示图像库中的任意两张医学图像)。
步骤三:哈希编码
用学习到的哈希函数h(x)=sign(K*W)(其中K由步骤二求得,权重矩阵W的求解是服从高斯分布的核矩阵中的t(本实施例中t取50)个点构成的矩阵,sign为符号函数)对多核矩阵进行统一的哈希编码,并将编码后的哈希码进行压缩存放到多核矩阵对应的哈希码库中。即利用符号函数将大于0的值赋为1,小于等于0的值赋为0,每一张图像就可以直接由0,1二进制串表示,并将这些编码后的二进制码每8位压缩为一个值,达到节省存储空间的目的。
步骤四:通过步骤一、二、三将待检索的图像生成哈希码并压缩存储。
步骤五:返回待检索图像的m(在本实施例中中m取10)张近邻图
使用汉明距离度量方法计算样本之间的距离并升序排序,将距离最小的m张图像返回给用户。
步骤六:使用相关反馈技术,用户根据返回的图像对其赋予权重,重新检索,直到满足用户的要求为止。
采用上述方法进行检索的结果分别参见图3、图4和图5。
显然,以上所述为本发明的较佳实例,并不用于限定本发明的保护范围。凡在本发明的原则之内,任何熟悉本领域的技术人员作出的修改、同等替换和改进,都应视为包含在本发明的保护范围内。
Claims (7)
1.一种基于多核哈希学习的大规模医学图像检索方法,包括以下步骤:
步骤一:对图像库中的所有图像进行二值化处理,得到预处理图像;
步骤二:利用融合的核函数求出所述预处理图像的多核矩阵,所述融合的核函数为其中n代表核函数的个数,α代表每个核函数所占的比重,x,y分别表示图像库中的任意两张医学图像,K代表融合后的多核矩阵;
步骤三,用学习到的哈希函数对多核矩阵进行统一的哈希编码,并将编码后的哈希码进行压缩存放到多核矩阵对应的哈希码库中,其中学习到的哈希函数为h(x)=sign(K*W),其中K代表融合后的多核矩阵,W表示权重矩阵,sign表示符号函数,h(x)表示最终生成的二进制哈希码,长度为d;
步骤四,对待检索图像进行步骤一、步骤二和步骤三的处理,生成哈希码并压缩存储;
步骤五,使用汉明距离度量方法计算步骤四的哈希码与哈希码库中存放的哈希码之间的距离并升序排序,将距离最小的m张图像返回给用户,m为大于等于1的整数。
2.根据权利要求1所述一种基于多核哈希学习的大规模医学图像检索方法,其特征在于:所述融合的核函数中包括线性核函数,多项式核函数,高斯核函数,拉普拉斯核函数,指数核函数,Sigmoid核函数,Cauchy核函数。
3.根据权利要求1所述一种基于多核哈希学习的大规模医学图像检索方法,其特征在于:所述权重矩阵由服从高斯分布的核矩阵中的t个点构成。
4.根据权利要求1所述一种基于多核哈希学习的大规模医学图像检索方法,其特征在于:在所述哈希编码过程中,利用符号函数将大于0的值赋为1,小于等于0的值赋为0,每一张图像就可以直接由0,1二进制串表示,并将这些编码后的二进制码每8位压缩为一个值,进行存储。
5.根据权利要求1所述一种基于多核哈希学习的大规模医学图像检索方法,其特征在于:所述汉明距离度量的公式如下:
d(x,y)表示医学图像x与y的汉明距离,n代表每一张医学图像的维度,x,y分别表示图像库中的任意两张医学图像。
6.根据权利要求1到5任一项所述一种基于多核哈希学习的大规模医学图像检索方法,其特征在于:还包括用户根据返回的m张图像,对返回的每张图像赋予权重,重新优化排序,输出图像的步骤。
7.根据权利要求6所述一种基于多核哈希学习的大规模医学图像检索方法,其特征在于:所述用户根据返回的m张图像,对返回的每张图像赋予权重的过程中,对返回的每张图像赋予一定的权重,权重区间为[0,1],其中相似的图像或者满足要求的图像给与的权重大,不相似或者不满足要求的图像给与的权重小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610827891.7A CN106484782B (zh) | 2016-09-18 | 2016-09-18 | 一种基于多核哈希学习的大规模医学图像检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610827891.7A CN106484782B (zh) | 2016-09-18 | 2016-09-18 | 一种基于多核哈希学习的大规模医学图像检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106484782A true CN106484782A (zh) | 2017-03-08 |
CN106484782B CN106484782B (zh) | 2019-11-12 |
Family
ID=58267206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610827891.7A Active CN106484782B (zh) | 2016-09-18 | 2016-09-18 | 一种基于多核哈希学习的大规模医学图像检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106484782B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992612A (zh) * | 2017-12-18 | 2018-05-04 | 辽宁师范大学 | 基于截尾广义柯西建模的纹理图像检索方法 |
CN109902714A (zh) * | 2019-01-18 | 2019-06-18 | 重庆邮电大学 | 一种基于多图正则化深度哈希的多模态医学图像检索方法 |
CN110134803A (zh) * | 2019-05-17 | 2019-08-16 | 哈尔滨工程大学 | 基于哈希学习的图像数据快速检索方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101710334A (zh) * | 2009-12-04 | 2010-05-19 | 大连理工大学 | 基于图像哈希的大规模图像库检索方法 |
CN104317902A (zh) * | 2014-10-24 | 2015-01-28 | 西安电子科技大学 | 基于局部保持迭代量化哈希的图像检索方法 |
CN104376051A (zh) * | 2014-10-30 | 2015-02-25 | 南京信息工程大学 | 随机结构保形哈希信息检索方法 |
CN104462196A (zh) * | 2014-10-30 | 2015-03-25 | 南京信息工程大学 | 多特征联合哈希信息检索方法 |
CN104731882A (zh) * | 2015-03-11 | 2015-06-24 | 北京航空航天大学 | 一种基于哈希编码加权排序的自适应查询方法 |
CN104881449A (zh) * | 2015-05-15 | 2015-09-02 | 西安电子科技大学 | 基于流形学习数据压缩哈希的图像检索方法 |
CN105574063A (zh) * | 2015-08-24 | 2016-05-11 | 西安电子科技大学 | 基于视觉显著性的图像检索方法 |
-
2016
- 2016-09-18 CN CN201610827891.7A patent/CN106484782B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101710334A (zh) * | 2009-12-04 | 2010-05-19 | 大连理工大学 | 基于图像哈希的大规模图像库检索方法 |
CN104317902A (zh) * | 2014-10-24 | 2015-01-28 | 西安电子科技大学 | 基于局部保持迭代量化哈希的图像检索方法 |
CN104376051A (zh) * | 2014-10-30 | 2015-02-25 | 南京信息工程大学 | 随机结构保形哈希信息检索方法 |
CN104462196A (zh) * | 2014-10-30 | 2015-03-25 | 南京信息工程大学 | 多特征联合哈希信息检索方法 |
CN104731882A (zh) * | 2015-03-11 | 2015-06-24 | 北京航空航天大学 | 一种基于哈希编码加权排序的自适应查询方法 |
CN104881449A (zh) * | 2015-05-15 | 2015-09-02 | 西安电子科技大学 | 基于流形学习数据压缩哈希的图像检索方法 |
CN105574063A (zh) * | 2015-08-24 | 2016-05-11 | 西安电子科技大学 | 基于视觉显著性的图像检索方法 |
Non-Patent Citations (1)
Title |
---|
HAO XIA: ""Boosting multi-kernel locality-sensitive hashing for scalable image retrieval"", 《PROCEEDINGS OF THE INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992612A (zh) * | 2017-12-18 | 2018-05-04 | 辽宁师范大学 | 基于截尾广义柯西建模的纹理图像检索方法 |
CN109902714A (zh) * | 2019-01-18 | 2019-06-18 | 重庆邮电大学 | 一种基于多图正则化深度哈希的多模态医学图像检索方法 |
CN110134803A (zh) * | 2019-05-17 | 2019-08-16 | 哈尔滨工程大学 | 基于哈希学习的图像数据快速检索方法 |
CN110134803B (zh) * | 2019-05-17 | 2020-12-11 | 哈尔滨工程大学 | 基于哈希学习的图像数据快速检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106484782B (zh) | 2019-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918532A (zh) | 图像检索方法、装置、设备及计算机可读存储介质 | |
CN103870516B (zh) | 检索图像的方法、实时绘画提示方法及其装置 | |
CN103678670B (zh) | 一种微博热词与热点话题挖掘系统及方法 | |
CN106991127B (zh) | 一种基于拓扑特征扩展的知识主题短文本层次分类方法 | |
CN108492200A (zh) | 一种基于卷积神经网络的用户属性推断方法和装置 | |
Giannakidou et al. | Co-clustering tags and social data sources | |
Shi et al. | Deep adaptively-enhanced hashing with discriminative similarity guidance for unsupervised cross-modal retrieval | |
CN104765872A (zh) | 一种基于集成哈希编码的快速图像检索方法 | |
CN110209867A (zh) | 图像检索模型的训练方法、装置、设备及存储介质 | |
CN105956093B (zh) | 一种基于多视图锚点图哈希技术的个性化推荐方法 | |
CN111191466B (zh) | 一种基于网络表征和语义表征的同名作者消歧方法 | |
CN109829065A (zh) | 图像检索方法、装置、设备及计算机可读存储介质 | |
CN110134792A (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN109657061A (zh) | 一种针对海量多词短文本的集成分类方法 | |
CN106484782A (zh) | 一种基于多核哈希学习的大规模医学图像检索方法 | |
CN110837568A (zh) | 实体对齐方法及装置、电子设备、存储介质 | |
CN103970842A (zh) | 一种面向防洪减灾领域的水利大数据存取系统及方法 | |
CN109145083A (zh) | 一种基于深度学习的候选答案选取方法 | |
CN106570166A (zh) | 一种基于多个局部敏感哈希表的视频检索方法及装置 | |
Syam et al. | Efficient similarity measure via Genetic algorithm for content based medical image retrieval with extensive features | |
CN109344276A (zh) | 一种图像指纹生成方法、图像相似度比较方法及存储介质 | |
Prasomphan | Toward Fine-grained Image Retrieval with Adaptive Deep Learning for Cultural Heritage Image. | |
CN110321565B (zh) | 基于深度学习的实时文本情感分析方法、装置及设备 | |
CN112784040B (zh) | 基于语料库的垂直行业文本分类方法 | |
CN113553396A (zh) | 图向量化方法、装置及电力网图向量化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |