CN104679891A - 一种海量数据处理方法 - Google Patents

一种海量数据处理方法 Download PDF

Info

Publication number
CN104679891A
CN104679891A CN201510117663.6A CN201510117663A CN104679891A CN 104679891 A CN104679891 A CN 104679891A CN 201510117663 A CN201510117663 A CN 201510117663A CN 104679891 A CN104679891 A CN 104679891A
Authority
CN
China
Prior art keywords
image
feature
lbp
contourlet
sigma
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510117663.6A
Other languages
English (en)
Inventor
徐宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHENGDU YINGTAI SCIENCE & TECHNOLOGY Co Ltd
Original Assignee
CHENGDU YINGTAI SCIENCE & TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHENGDU YINGTAI SCIENCE & TECHNOLOGY Co Ltd filed Critical CHENGDU YINGTAI SCIENCE & TECHNOLOGY Co Ltd
Priority to CN201510117663.6A priority Critical patent/CN104679891A/zh
Publication of CN104679891A publication Critical patent/CN104679891A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种海量数据处理方法,该方法包括:采用Contourlet变换和LBP提取医学样本图像的特征,然后将所提取的特征与医学图像特征库中的特征进行匹配,并对匹配结果进行收集和排序,最后根据排序结果获取医学图像的最优检索结果。本发明提出了在基于云计算的PACS系统中的图像数据处理方法,提高了图像存储效率和检索速度。

Description

一种海量数据处理方法
技术领域
本发明涉及图像存储与处理,特别涉及一种海量数据处理方法。
背景技术
随着数字化图像技术发展,大量的医学图像随之产生,这些海量医学图像数据可以为临床诊断提供服务。如何对这些医学图像进行有效管理和组织是医学工作者面对的难题。PACS以数字化形式可为医学图像存储与传输提供优化解决方案,PACS的关键技术之一就是海量存储。基于内容的医学图像检索,在PACS架构的背景下发展起来。医学图像检索是一个典型的数据密集型计算过程,对于海量医学图像,基于单节点的医学图像检索系统难以满足图像的实时性要求。基于云计算的PACS系统具有分布式、并行处理能力可以将大型任务进行分解子任务,然后将子任务分配到各个工作节点共同完成任务,为医学图像检索提供了一种新思路。然而目前基于PACS平台的图像内容检索仍然存在检索速度慢和效率低的现象,制约了医学图像处理的发展。
因此,针对相关技术中所存在的上述问题,目前尚未提出有效的解决方案。
发明内容
为解决上述现有技术所存在的问题,本发明提出了一种海量数据处理方法,用于在基于云平台的PACS系统中进行图像数据处理,包括:
采用Contourlet变换和LBP提取医学样本图像的特征,然后将所提取的特征与医学图像特征库中的特征进行匹配,并对匹配结果进行收集和排序,最后根据排序结果获取医学图像的最优检索结果。
优选地,所述医学图像及其特征均存储于HBase中,所述方法利用MapReduce计算模型对医学图像检索进行并行计算,进一步包括如下步骤:
(1)收集医学图像,提取相应的特征,并将特征数据存储在HDFS;
(2)用户提交检索请求,提取待检索的医学图像的Contourlet域特征和LBP特征;
(3)在Map阶段将待检索的医学图像特征与HBase中的图像特征进行相似度匹配,map操作的输出为键值对<相似度,图像ID>;
(4)根据相似度的大小对map输出全部<相似度,图像ID>键值进行排序和重新划分,然后再输入到reduce节点;
(5)在Reduce阶段,收集所有的<相似度,图像ID>键值对,再对这些键值对进行相似度的排序,把前N个键值对写入到HDFS;
(6)输出与待检索医学图像相似度最高的图像的ID,用户得到最终的医学检索结果。
优选地,所述采用Contourlet变换和LBP提取医学样本图像的特征进一步包括:
在第一层分解中把傅里叶平面分成4个象限,分解后的系数由4个子带组成,对应的方向为π/4+kπ/2,k=0,1,2,3,在第二层分解把每个象限进一步分为4个部分,共12个方向,分别为π/12+kπ/6,k=0,1,…,11,分解后的系数由16个子带构成,其中环绕着中心的4个子带为低频纹理分量,其余的为高频纹理,在多层分解中对上一层迭代细分;
令fU表示Contourlet分解后的系数,而实部和虚部的第n个子带分别记为fnr U和fni U,n=1,2,…,32,则第n个子带模值的均值μn和标准差σn分别为:
&mu; n = 1 MN &Sigma; i = 1 M &Sigma; j = 1 N | f U ( i , j ) | = 1 MN &Sigma; i = 1 M &Sigma; j = 1 N f ni U ( i , j ) 2 + f nr U ( i , j ) 2
&sigma; n = 1 MN &Sigma; i = 1 M &Sigma; j = 1 N ( | f U ( i , j ) | - &mu; n ) 2
其中M和N是每个子带的行数和列数,图像最终的特征为:
F=[μ1122,…μnn];
对图像提取并将直方图作为图像的空域特征:
其中, s ( g i - g c ) = 1 , g i - g c &GreaterEqual; 0 0 , g i - g c &le; 0
U(LBP3)=|s(g7-gc)-s(g0-gc)|
其中,gc为一个邻域中心像素点的灰度值,gi是以gc为中心3×3邻域顺时针各像素点的灰度值;
对Contourlet域特征相似性采用平均距离度量:
SimContourlet ( P , Q ) = &Sigma; i = 1 6 | E P i - E Q i |
其中,P为待检索医学图像,Q为医学图像库的图像,EPi和EQi分别表示图像P和Q的第i个分量的平均距离;
对于图像LBP特征,首先对特征进行正则化处理,然后采用欧式距离计算相似度。
SimLBP ( P , Q ) = &Sigma; i = 1 32 ( W P i - W Q i ) 2
其中,WPi和WQi分别表示图像P和Q的第i个分量正则化后特征向量;
对SimContourlet和SimLBP进行外部正则化处理,具体为:
Sim′Contourlet(P,Q)=(SimContourlet(P,Q)-μContourlet)/6σContourlet
Sim′LBP(P,Q)=(SimLBP(P,Q)-μLBP)/6σLBP
其中,σContourlet、μContourlet及σLBP、μLBP分别表示SimContourlet和SimLBP的标准差和均值;
最终得到两幅医学图像间的距离为:
Sim(P,Q)=w1Sim′Contourlet(P,Q)+w2Sim′LBP(P,Q)
其中,w1和w2为权重,并且满足w1+w2=1。
本发明相比现有技术,具有以下优点:
本发明提出了在基于云计算的PACS系统中的图像数据处理方法,提高了图像存储效率和检索速度。
附图说明
图1是根据本发明实施例的海量数据处理方法的流程图。
具体实施方式
下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。
为了提高医学图像检索效率,本发明的一方面提供了一种海量数据处理方法。图1是根据本发明实施例的海量数据处理方法流程图。本发明的PACS架构为“在线-归档”二级存储架构。这样既可满足PB级存储容量的需求,也可实现原来“离线”数据的实时访问,提升系统可用性。PACS的云存储系统以Hadoop为基础架构,整个框架由基于HDFS的物理层、用于处理和存储图像数据服务的中间层、调用这些服务的接口层以及具体的应用层组成。物理层,即存储设备具有海量的存储容量,存储架构为HDFS,通过HDFS实现负载均衡、数据备份等功能,并向外提供统一的存储访问接口。中间层实现图像数据的存储与读取,该功能通过访问物理层的HDFS提供的接口实现。接口层在中间层的基础上做进一步的功能封装,使开发编程更容易。应用层则利用接口层提供的功能接口,编写分布式的并行处理应用程序。
云平台的分布式计算开源框架Hadoop使用Java的支持开发和并行处理海量数据,主要由分布式文件系统HDFS和MapReduce并行计算模型组成。进行Hadoop开发时,将分布式并行程序运行于由大量节点所组成的大规模集群系统上完成海量数据的计算,而不用关心并行编程中的工作调度、分布式存储、容错处理、网络通信和负载平衡等问题。
医学图像通常都是小文件,较大的文件如DR、CR一般是在10M字节左右,而CT、MR文件则只有几百K字节大小。由于HDFS文件系统里默认的数据块大小是64M字节,存放的小文件太多,将消耗大量HDFS主节点名字节点内存。由于每个文件会被多次复制,因此本发明建立一个处理小文件的抽象层,对每个病人采集到的图像文件进行处理。对于云存储中小文件存储与访问问题,可通过自适应文件系统进行优化。针对PACS图像文件类型较为单一的特点,提出了两个存储方案。
第一个方案是将每幅图像看作一帧,把一次检查的所有图像合并成一个序列图像文件。在医学图像文件中,图像数据保存在像素数据元素中,它的值域中保存的像素数据可以是原始数据,也可以是经过封装的。封装的像素数据的值是由分割开的多个像素数据流组成,以此来表示多帧的图像。此方案要等文件下载完后才能显示,而不是医生所习惯的边下载边显示,当病人一次检查的图像很多时(如CT图像,可达上千张),图像文件总大小达几百M甚至G数量级,下载时间较长。
第二个方案是分组压缩。将病人的图像文件按其序列号及编号的顺序进行分组,每一组的文件总大小为64M左右,然后分别将每一组文件压缩成一个压缩文件进行存储,这样在下载的时候,下载一组就解压并显示,以实现边下载边显示图像的功能。此方案的优点还在于它对图像的压缩无损,压缩后文件通常不到原来文件总大小的1/2,明显地减少了网络传输时间。
本发明的HDFS采用主从架构,一个HDFS集群是由一个名字节点和一组数据节点组成,名字节点是一个中心节点,负责管理文件系统的名字空间以及客户端对文件的访问。集群中一般是一个节点上运行一个数据节点,负责管理它所在节点上的数据存储,并负责处理文件系统客户端的读写请求,在名字节点统一调度下进行数据块的创建、删除和复制。HDFS把文件划分成块,这些块分散地存储于不同的数据节点上,每个块还可以复制数份存储于不同的数据节点上,因此具有较高的容错性和对数据读写的高吞吐率。
首先采用Contourlet变换和LBP提取医学样本图像的频域和空域特征,然后采用Map操作将所提取的特征与医学图像特征库中的特征进行匹配,并采用Reduce操作对Map任务的匹配结果进行收集和排序,最后根据排序结果获取医学图像的最优检索结果。
在MapReduce模型中的Map(映射)阶段,MapReduce框架将任务的输入数据先分割成若干固定大小的分块,对分块又分解成多个键值对(Key1,Value1)传给Map操作;每个节点的Map操作对每组键值对进行处理后,形成新的键值对(Key2,Value2),并按照Key2值相同的进行汇总,形成(Key2,list(Value2)),传给Reduce作为Reduce的输入。一般来说,Map将Key2值相同的键值对传给相同的节点来进行Reduce阶段的处理。
在Reduce阶段,Map输出的(Key2,list(Value2))成为Reduce阶段的输入,对于输入作相应处理后会得到键值对(Key3,Value3),根据用户需要输出到HDFS或者HBase数据库等指定的位置。
以下详细描述基于PACS的医学图像检索方法。
1.提取Contourlet域特征
Contourlet一层分解把傅里叶平面分成4个象限,分解后的系数由4个子带组成,对应的方向为π/4+kπ/2,k=0,1,2,3,那么Contourlet两层分解把每个象限进一步分为4个部分,共12个方向,分别为π/12+kπ/6,k=0,1,…,11,分解后的系数由16个子带构成,其中环绕着中心的4个子带为低频纹理分量,其余的为高频纹理。Contourlet多层分解是对上一层继续加以细分,但如果层数过多就会出现明显的频谱混叠现象,故而一般采用1~3层分解。
令fU表示Contourlet分解后的系数,而实部和虚部的第n个子带分别记为fnr U和fni U,n=1,2,32,则第n个子带模值的均值μn和标准差σn分别为:
&mu; n = 1 MN &Sigma; i = 1 M &Sigma; j = 1 N | f U ( i , j ) | = 1 MN &Sigma; i = 1 M &Sigma; j = 1 N f ni U ( i , j ) 2 + f nr U ( i , j ) 2
&sigma; n = 1 MN &Sigma; i = 1 M &Sigma; j = 1 N ( | f U ( i , j ) | - &mu; n ) 2
其中M和N是每个子带的行数和列数,图像最终的特征为:
F=[μ1122,…μnn]
2.提取LBP特征
LBP可以刻画领域内像素点的灰度相对于中心点的变化情况,注重像素灰度的变化,符合人类视觉对图像纹理的感知特点。因此对图像提取并将直方图作为图像的空域特征。
其中, s ( g i - g c ) = 1 , g i - g c &GreaterEqual; 0 0 , g i - g c &le; 0
U(LBP3)=|s(g7-gc)-s(g0-gc)|
其中,gc为一个邻域中心像素点的灰度值,gi是以gc为中心3×3邻域顺时针各像素点的灰度值。
3.相似度匹配
对Contourlet域特征相似性采用平均距离度量: SimContourlet ( P , Q ) = &Sigma; i = 1 6 | EP i - EQ i |
其中,P为待检索医学图像,Q为医学图像库的图像,EPi和EQi分别表示图像P和Q的第i个分量的平均距离;
对于图像LBP特征,首先对特征进行正则化处理,然后采用欧式距离计算相似度。
SimLBP ( P , Q ) = &Sigma; i = 1 32 ( W P i - W Q i ) 2
其中,WPi和WQi分别表示图像P和Q的第i个分量正则化后特征向量;
由于SimContourlet和SimLBP取值范围不同,对它们进行外部正则化处理,具体为:
Sim′Contourlet(P,Q)=(SimContourlet(P,Q)-μContourlet)/6σContourlet
Sim′LBP(P,Q)=(SimLBP(P,Q)-μLBP)/6σLBP
其中,σContourlet、μContourlet及σLBP、μLBP分别表示SimContourlet和SimLBP的标准差和均值。
最终得到两幅医学图像间的距离为:
Sim(P,Q)=w1Sim′Contourlet(P,Q)+w2Sim′LBP(P,Q)
其中,w1和w2为权重,并且满足w1+w2=1。
4.医学图像检索步骤
医学图像及其特征均存储于HBase中,当HBase的数据集非常大时,扫描搜索整个表要花费比较长的时间。为了减少检索图像的时间和提高检索效率,利用MapReduce计算模型对医学图像检索进行并行计算。
基于MapReduce的医学图像检索步骤如下:
(1)收集医学图像,提取相应的特征,并将特征数据存储在HDFS。
(2)用户提交检索请求,提取待检索的医学图像的Contourlet域特征和LBP特征。
(3)Map阶段:将待检索的医学图像特征与HBase中的图像特征进行相似度匹配,map操作的输出为键值对<相似度,图像ID>。
(4)根据相似度的大小对map输出全部<相似度,图像ID>键值进行排序和重新划分,然后再输入到reduce节点。
(5)Reduce阶段:收集所有的<相似度,图像ID>键值对,再对这些键值对进行相似度的排序,把前N个键值对写入到HDFS。
(6)输出与待检索医学图像相似度最高的图像的ID,用户得到最终的医学检索结果。
此外,出于精确率与计算复杂度以及可扩展性的考虑,本发明的另一实施例采用SIFT检测并描述局部特征,采用K均值聚类构建词汇表,采用加权向量表示图像,并构建排序索引来实现高效的检索。
由于Hadoop被设计为适于大规模离线数据处理的工具,并不保证在线处理的实时性,因此在线检索部分仍按传统方法进行,离线处理部分基于Hadoop设计。为了更好地处理图像数据,首先引入一种改进的Hadoop图像数据处理方法,在此基础上将这部分分为特征向量生成、特征聚类、图像的向量表示与排序索引构建三个阶段实现。
改进的Hadoop图像数据处理方法具体描述如下:
为了更好地处理图像数据并避免小文件低效率问题,参考序列文件方法合并文件的思想将大量小图像存储在一个大的图像库文件中,但是存储的方式不再是序列化的键值对或者浮点数组,而是原始图像的所有信息。这样不仅有效减小了对名字节点的内存需求,也降低了任务管理的开销,可以明显改善处理效率,同时保存的原始图像信息有利于应对复杂的图像处理需求。为了实现对图像数据的随机读取,需要一个索引文件,其中保存了图像库文件中所有图像数据的偏移量。通过偏移量可以方便地访问图像库文件中的任意图像。
特征向量生成:
首先计算图像中每个像素X=(x,y)在尺度σ的Hessian矩阵:
H ( X , &sigma; ) = L xx ( X , &sigma; ) L xy ( X , &sigma; ) L xy ( X , &sigma; ) L yy ( X , &sigma; )
其中:Lxx(X,σ)是高斯二阶导数和图像中像素X横坐标的卷积;Lxy(X,σ)是高斯二阶导数和图像中像素X纵坐标的卷积;Lyy(X,σ)是高斯二阶导数和图像中像素X纵坐标的卷积。该矩阵由二阶导数构成,可用不同尺度σ下的近似高斯核来计算,因此Hessian值变成了3个变量的函数:H(x,y,σ),然后求其同时在空间域和尺度域上达到局部极大值时的位置和对应的尺度。其特征描述符基于小波计算:对于每一个特征点,计算其在半径为6σ的圆形范围内的小波在x和y方向上的响应(记为dx和dy),对覆盖60°的窗口内的响应求和,旋转窗口计算得到的最长向量的方向即为主要方向。接下来按该方向构造大小为20σ的方形区域,并将其分割成4×4的小区域,对每个子区域的25个采样点计算dx响应和dy响应并分别进行求和,对每个子区域提取4个描述符的值:[Σdx Σdy Σ|dx| Σ|dy|],共有16个子区域就得到一个64维的向量,最后将其归一化。
由于图像之间的特征检测与描述相互独立,因此只需将以上计算过程封装进Map操作里,并且这一阶段只需要Map部分即可完成。以下为这一阶段的MapReduce设计:
1)Map。输入为形如<id,data>的图像。Map操作对输入的每一张图像执行SIFT算法提取特征向量,并统计该图像中的特征数fn。这个特征数用于后面词频的正则化。其输出形式为<(id:fn),feature>。
2)Reduce。Reduce操作的作用类似于恒等式,它仅将每个键值对传递到输出部分。
这一阶段结束后,得到一个每张图像所含特征向量的描述文件。
特征聚类:
首先随机选取K个样本作为初始簇中心,对剩下的每个样本根据其到簇中心的距离分配到各个簇,重新计算K个新簇的簇中心;再将每个样本根据其到簇中心的距离分配到各个新簇。如此迭代直到目标函数收敛或迭代到一个固定步数。
这个迭代过程可以通过重复调用MapReduce任务的方式来实现,每启动一次MapReduce计算对应一次迭代。以下为这一阶段的MapReduce设计:
1)Map。输入为形如<line_num,((id:fn),feature)>的待分配样本和上一次迭代(或初始)的簇中心。这里的(id:fn)并不参与计算只用于标识特征所属的图像以及图像包含的特征数。Map操作对输入的每个样本计算出距离最近的簇中心并标记新的簇类别。其输出形式为<cluster_id,((id:fn),feature)>。
2)Reduce。输入为形如<cluster_id,[((id:fn),feature)]>的样本列表,这里的(id:fn)同样不参与计算。所有cluster_id相同的样本都输送给同一个Reduce任务。Reduce操作累加cluster_id相同的样本个数与各样本向量分量的和,求各分量的均值得到新的簇中心。其输出形式为<cluster_id,cluster_mean>。
这一阶段结束后得到一个每张图像所含特征及其特征所属词汇的描述文件和一个词汇表描述文件,其中cluster_id为词汇编号,簇中心cluster_mean代表词汇。
图像的向量表示与排序索引构建:
每一张图像被表示为一个向量,其中每个分量对应词汇表中的词汇,分量的值预先计算出的权重值。当某词汇在图像中没有出现时,其对应的分量为0。
图像被表示成向量后,它们之间的相似度可以采用余弦相似度计算。当向量的维度很高,图像总数很多时,这个计算过程代价很大,需要一个高效的索引结构。由于词汇表中的词汇很少同时出现在同一张图像里,因此图像向量是稀疏的,有很多0分量。因此对于不含查询图像中词汇的图像并不需要参与计算,排序索引可以实现这种过滤。
以下MapReduce设计实现了权值计算和排序索引的构建:
1)Map。输入为形如<line_num,(cluster_id,((id:fn),feature))>的图像所含特征及特征所属词汇的描述文件。这里只需要cluster_id、id和fn的信息。Map操作对每个输入提取形如<cluster_id,(id:fn)>的键值对作为输出。
2)Reduce。输入为形如<cluster_id,[(id:fn)]>记录列表。所有cluster_id相同的记录都输送给同一个Reduce任务。Reduce操作对同一cluster_id记录的值列表[(id:fn)]分别对两个变量tc、dc进行累加,对每个新出现的id同时对tc、dc加1,对每个已出现过的id只对tc加1,然后用N除以dc并求对数得到逆文档频率,对每个id的tc除以对应的fn得到正则化的词频。其输出形式为<(cluster_id:idf),[(id:tf)]>,其中:(cluster_id:idf)为各个词汇以及各自的逆文档频率,列表[(id:tf)]即为该词汇对应的排序记录表。
这一阶段结束后得到一个排序索引文件,其存储着图像库中每张图像的向量表示。在线检索时,同样对查询图像提取SIFT特征向量,将每个特征分配到与之距离最小的词汇;然后计算图像的权重向量,再根据图像中出现的词汇从排序索引查询排序记录表并将其合并;最后计算查询图像向量与得到图像向量的余弦相似度,结果按相似度高低排序。
综上所述,本发明提出了在基于云计算的PACS系统中的图像数据处理方法,提高了图像存储效率和检索速度。
显然,本领域的技术人员应该理解,上述的本发明的各模块或各步骤可以用通用的计算系统来实现,它们可以集中在单个的计算系统上,或者分布在多个计算系统所组成的网络上,可选地,它们可以用计算系统可执行的程序代码来实现,从而,可以将它们存储在存储系统中由计算系统来执行。这样,本发明不限制于任何特定的硬件和软件结合。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (3)

1.一种海量数据处理方法,用于在基于云平台的PACS系统中进行图像数据处理,其特征在于,包括:
采用Contourlet变换和LBP提取医学样本图像的特征,然后将所提取的特征与医学图像特征库中的特征进行匹配,并对匹配结果进行收集和排序,最后根据排序结果获取医学图像的最优检索结果。
2.根据权利要求1所述的方法,其特征在于,所述医学图像及其特征均存储于HBase中,所述方法利用MapReduce计算模型对医学图像检索进行并行计算,进一步包括如下步骤:
(1)收集医学图像,提取相应的特征,并将特征数据存储在HDFS;
(2)用户提交检索请求,提取待检索的医学图像的Contourlet域特征和LBP特征;
(3)在Map阶段将待检索的医学图像特征与HBase中的图像特征进行相似度匹配,map操作的输出为键值对<相似度,图像ID>;
(4)根据相似度的大小对map输出全部<相似度,图像ID>键值进行排序和重新划分,然后再输入到reduce节点;
(5)在Reduce阶段,收集所有的<相似度,图像ID>键值对,再对这些键值对进行相似度的排序,把前N个键值对写入到HDFS;
(6)输出与待检索医学图像相似度最高的图像的ID,用户得到最终的医学检索结果。
3.根据权利要求2所述的方法,其特征在于,所述采用Contourlet变换和LBP提取医学样本图像的特征进一步包括:
在第一层分解中把傅里叶平面分成4个象限,分解后的系数由4个子带组成,对应的方向为π/4+kπ/2,k=0,1,2,3,在第二层分解把每个象限进一步分为4个部分,共12个方向,分别为π/12+kπ/6,k=0,1,…,11,分解后的系数由16个子带构成,其中环绕着中心的4个子带为低频纹理分量,其余的为高频纹理,在多层分解中对上一层迭代细分;
令fU表示Contourlet分解后的系数,而实部和虚部的第n个子带分别记为fnr U和fni U,n=1,2,…,32,则第n个子带模值的均值μn和标准差σn分别为:
&mu; n = 1 MN &Sigma; i = 1 M &Sigma; j = 1 N | f U ( i , j ) | = 1 MN &Sigma; i = 1 M &Sigma; j = 1 N f ni U ( i , j ) 2 + f nr U ( i , j ) 2
&sigma; n = 1 MN &Sigma; i = 1 M &Sigma; j = 1 N ( | f U ( i , j ) | - &mu; n ) 2
其中M和N是每个子带的行数和列数,图像最终的特征为:
F=[μ1122,…μnn];
对图像提取并将直方图作为图像的空域特征:
其中, s ( g i - g c ) = 1 , g i - g c &GreaterEqual; 0 0 , g i - g c &le; 0
U(LBP3)=|s(g7-gc)-s(g0-gc)|
其中,gc为一个邻域中心像素点的灰度值,gi是以gc为中心3×3邻域顺时针各像素点的灰度值;
对Contourlet域特征相似性采用平均距离度量:
SimContourlet ( P , Q ) = &Sigma; i = 1 6 | E Pi - E Qi |
其中,P为待检索医学图像,Q为医学图像库的图像,EPi和EQi分别表示图像P和Q的第i个分量的平均距离;
对于图像LBP特征,首先对特征进行正则化处理,然后采用欧式距离计算相似度。
SimLBP ( P , Q ) = &Sigma; i = 1 32 ( W P i - Q Q i ) 2
其中,WPi和WQi分别表示图像P和Q的第i个分量正则化后特征向量;
对SimContourlet和SimLBP进行外部正则化处理,具体为:
Sim′Contourlet(P,Q)=(SimContourlet(P,Q)-μContourlet)/6σContourlet
Sim′LBP(P,Q)=(SimLBP(P,Q)-μLBP)/6σLBP
其中,σContourlet、μContourlet及σLBP、μLBP分别表示SimContourlet和SimLBP的标准差和均值;
最终得到两幅医学图像间的距离为:
Sim(P,Q)=w1Sim′Contourlet(P,Q)+w2Sim′LBP(P,Q)
其中,w1和w2为权重,并且满足w1+w2=1。
CN201510117663.6A 2015-03-18 2015-03-18 一种海量数据处理方法 Pending CN104679891A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510117663.6A CN104679891A (zh) 2015-03-18 2015-03-18 一种海量数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510117663.6A CN104679891A (zh) 2015-03-18 2015-03-18 一种海量数据处理方法

Publications (1)

Publication Number Publication Date
CN104679891A true CN104679891A (zh) 2015-06-03

Family

ID=53314933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510117663.6A Pending CN104679891A (zh) 2015-03-18 2015-03-18 一种海量数据处理方法

Country Status (1)

Country Link
CN (1) CN104679891A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372672A (zh) * 2016-09-08 2017-02-01 杭州健培科技有限公司 基于单个或多个区域特征组合的医学影像分类方法
CN106897295A (zh) * 2015-12-17 2017-06-27 国网智能电网研究院 一种基于Hadoop的输电线路监控视频分布式检索方法
CN107729855A (zh) * 2017-10-25 2018-02-23 成都尽知致远科技有限公司 海量数据处理方法
CN108806773A (zh) * 2018-05-21 2018-11-13 上海熙业信息科技有限公司 医学影像云存储平台设计方法
CN109189969A (zh) * 2018-10-22 2019-01-11 镇江悦乐网络科技有限公司 一种基于图像序列的三维cg动画检索方法
CN111352937A (zh) * 2020-02-14 2020-06-30 山东省科学院海洋仪器仪表研究所 一种海洋生态环境监测并行数据检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
范敏等: "《基于云计算的医学图像检索系统》", 《计算机工程与应用》 *
黄传波: "《基于视觉感知和相关反馈机制的图像检索算法研究》", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897295A (zh) * 2015-12-17 2017-06-27 国网智能电网研究院 一种基于Hadoop的输电线路监控视频分布式检索方法
CN106897295B (zh) * 2015-12-17 2021-01-15 国网智能电网研究院 一种基于Hadoop的输电线路监控视频分布式检索方法
CN106372672A (zh) * 2016-09-08 2017-02-01 杭州健培科技有限公司 基于单个或多个区域特征组合的医学影像分类方法
CN107729855A (zh) * 2017-10-25 2018-02-23 成都尽知致远科技有限公司 海量数据处理方法
CN107729855B (zh) * 2017-10-25 2022-03-18 成都尽知致远科技有限公司 海量数据处理方法
CN108806773A (zh) * 2018-05-21 2018-11-13 上海熙业信息科技有限公司 医学影像云存储平台设计方法
CN109189969A (zh) * 2018-10-22 2019-01-11 镇江悦乐网络科技有限公司 一种基于图像序列的三维cg动画检索方法
CN111352937A (zh) * 2020-02-14 2020-06-30 山东省科学院海洋仪器仪表研究所 一种海洋生态环境监测并行数据检索方法

Similar Documents

Publication Publication Date Title
CN104679895A (zh) 一种医学影像数据存储方法
CN104679892A (zh) 一种医学图像存储方法
CN104679891A (zh) 一种海量数据处理方法
Wu et al. Recent developments in parallel and distributed computing for remotely sensed big data processing
CN108446340B (zh) 一种面向海量小文件的用户热点数据访问预测方法
CN101382934B (zh) 多媒体模型检索方法、装置及系统
CN110838125B (zh) 医学图像的目标检测方法、装置、设备、存储介质
CN105160039A (zh) 一种基于大数据的查询方法
JP3798719B2 (ja) ブロック・レベル・サンプリングを使用してデータベースのクラスタ化係数を判定する装置および方法
Jai-Andaloussi et al. Medical content based image retrieval by using the Hadoop framework
CN101441658A (zh) 面向pacs数据库中放射图像的基于内容的检索方法和系统
CN111326236A (zh) 一种医疗图像自动处理系统
Montagnat et al. Medical image content-based queries using the grid
CN104573082B (zh) 基于访问日志信息的空间小文件数据分布存储方法及系统
CN115424691A (zh) 病例匹配方法、系统、设备和介质
Madhu et al. A hybrid feature extraction technique for content based medical image retrieval using segmentation and clustering techniques
Ferhatosmanoglu et al. High dimensional nearest neighbor searching
Ferreira et al. Object-relational queries into multidimensional databases with the active data repository
WO2021168815A1 (zh) 图像检索方法和图像检索装置
Datcu et al. The digital Earth Observation Librarian: a data mining approach for large satellite images archives
Manojlović et al. Using DICOM tags for clustering medical radiology images into visually similar groups
Arietta et al. Building and using a database of one trillion natural-image patches
CN106971011A (zh) 一种基于云平台的大数据分析方法
CN113868291A (zh) 一种最近邻搜索方法、装置、终端和存储介质
Tamilkodi et al. A novel framework for retrieval of image using weighted edge matching algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150603