CN111581420B - 一种基于Flink的医学图像实时检索方法 - Google Patents

一种基于Flink的医学图像实时检索方法 Download PDF

Info

Publication number
CN111581420B
CN111581420B CN202010363686.6A CN202010363686A CN111581420B CN 111581420 B CN111581420 B CN 111581420B CN 202010363686 A CN202010363686 A CN 202010363686A CN 111581420 B CN111581420 B CN 111581420B
Authority
CN
China
Prior art keywords
image
feature
flink
image feature
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010363686.6A
Other languages
English (en)
Other versions
CN111581420A (zh
Inventor
毛亚青
胡俊峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xuzhou Medical University
Original Assignee
Xuzhou Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xuzhou Medical University filed Critical Xuzhou Medical University
Priority to CN202010363686.6A priority Critical patent/CN111581420B/zh
Publication of CN111581420A publication Critical patent/CN111581420A/zh
Application granted granted Critical
Publication of CN111581420B publication Critical patent/CN111581420B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Processing Or Creating Images (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于Flink的医学图像实时检索方法,包括图像上传部分通过Flink进行图像实时上传特征编码及批量导入图像特征编码,首先通过改进部分语义加权聚合模型对上传或导入图像进行深度特征提取,再将特征编码存储至HBase中的图像特征编码距离查找表中;还包括检索部分通过改进部分语义加权聚合模型对待检索图像进行深度特征提取,并对其进行图像特征编码;开启Flink批处理任务,根据图像特征编码距离查找表计算该图像的特征向量与上述查找表中各图像的特征向量聚类中心的非对称距离,对该距离最近的图像特征聚类,返回距离靠前的图像作为最相似的图像查询结果。本发明能够面向多场景、多用户应用,具有检索精度高和检索实时性好。

Description

一种基于Flink的医学图像实时检索方法
技术领域
本发明涉及一种检索方法,具体是一种基于Flink的医学图像实时检索方法,属于计算机视觉处理技术领域。
背景技术
医学图像检索技术是图像检索技术在医学图像领域的应用,其经历了三次变化,分别为基于文本、内容和语义的医学图像检索。其中,效率较高且应用最为广泛的是基于内容的医学图像检索技术(Content-Based Image Retrieval,CBIR),是通过在现有数据库中检索视觉上相似的图像,从而根据检索到的图像来探索其高级描述和解释。
目前的医学图像检索工作大多数基于离线数据库进行编码,没有考虑到在实际应用过程中多用户场景下的实时计算部分。在这种情况下,如果只通过批量构建现有数据库中的图像特征编码,用户则只能检索到截止批量构建前的图像数据,不能检索到同时在线的其他用户新上传的图像,而在实时计算过程中高并发的医学图像上传,为服务器集群和实时响应带来了极大的难度。因此,如何克服上述困难,提供一种能够检索到其他用户实时上传的图像的方法,成为目前亟需解决的技术问题。
发明内容
针对上述现有技术存在的问题,本发明提供一种基于Flink的医学图像实时检索方法,能够在多用户场景下实时提取用户上传的图像,实现实时在线检索医学图像。
本发明一种基于Flink的医学图像实时检索方法,包括步骤S1和步骤S2;
S1图像上传部分:基于Flink进行图像实时上传特征编码及批量导入图像特征编码,包括以下两种场景:
S1.1针对多用户实时在线场景,利用Flink流处理模型结合改进部分语义加权聚合模型对上传图像进行深度特征提取,并对其进行图像特征编码,再将该特征编码进行聚类存储至HBase中的图像特征编码距离查找表中;
S1.2针对图像批量导入场景,利用Flink分布式模型结合改进部分语义加权聚合模型对批量导入的图像进行深度特征提取,并对其进行图像特征编码,再将该特征编码进行聚类存储至HBase中的图像特征编码距离查找表中;
S2图像检索部分:上传待检索图像后,通过改进部分语义加权聚合模型对该图像进行深度特征提取,并对其进行图像特征编码;然后,开启Flink批处理任务,根据步骤S1中图像特征编码距离查找表,计算待检索图像的图像特征向量与图像特征编码距离查找表中的各图像的图像特征向量聚类中心的非对称距离,并对盖非对称距离最近的图像特征聚类,返回距离最小的m张图像作为最相似的图像查询结果,完成检索。
与现有技术相比,本发明通过基于改进部分语义加权聚合深度特征提取模型对医学图像进行深度特征提取,保证了提取特征对原图像关键信息的保留,基于HBase的医学图像及特征编码存储,提高了平台的可扩展性和数据存储效率;通过基于Flink的实时计算和批量计算,提供了面向多用户、多场景的医学图像检索服务,提高了图像编码检索效率。本发明不仅适用于医学图像的检索,同时也适用于其他图像的检索。
附图说明
图1为发明中的系统架构图;
图2为发明的总体步骤示意图;
图3为基于Flink的医学图像实时上传编码和批量导入编码过程示意图;
图4为将图像特征编码进行聚类存储至HBase中的图像特征编码距离查找表的过程示意图;
图5为基于Flink的医学图像并行检索过程示意图;
图6为改进部分语义加权聚合医学图像深度特征提取过程实施例示意图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,本发明一种基于Flink的医学图像实时检索系统,其总体架构主要包括5部分:
(1)数据采集层
数据采集层的数据源包括用户通过Web界面上传医学图像、通过API批量导入的医学图像和系统操作日志流。
对于实时产生的数据,首先传送至Kafka消息队列进行缓冲中作为后续计算,通过Zookeeper分布式协作服务对Kafka服务器消费生产速度进行同步。此外,还可以通过数据抽取、转换、装载(Extract,Transform and Load,ETL)导入数据作为系统的数据源。
(2)数据存储层
数据存储层根据数据类型和应用场景包括基础业务库、医学图像库、图像特征编码库和内存数据库;
基础业务库通过MySQL存放系统的结构化信息,如:人员列表、组织架构、图像基础信息等;医学图像库通过Hadoop平台的HBase进行存储,图像id对应MySQL中的图像基础信息表的记录,同时,该图像id的特征索引存储在HBase数据库中。图像特征编码库用于存放图像特征编码。此外,服务器将经常访问的热区数据如HBase中的图像特征编码距离查找表等缓存在内存数据库Redis中,从而提高访问速度和计算效率。
(3)资源管理层
资源管理层包括YARN资源调度管理组件,系统通过由YARN资源调度管理组件进行资源管理,负责在有数据计算请求时根据集群状况分配计算资源和计算节点,从而提供MapReduce、Spark、Flink等组件的计算环境。
(4)数据计算层
数据计算层包括医学图像特征提取模块、特征量化编码模块、医学图像并行检索模块、Flink实时计算/离线计算模块、Keras/Tensorflow模型分析模块、Phoenix数据查询模块;系统首先基于Keras/Tensorflow模型分析模块构建深度特征提取模型,对于用户输入的医学图像通过Flink进行特征提取,根据图像上传形式通过Flink实时计算/离线计算模块,将该上传图像分为Flink实时计算和离线批量计算两种;通过医学图像特征提取模块对上传的图像进行图像特征提取,然后对上传的图像通过特征量化编码模块进行特征量化编码,该编码存储在HBase中,便于检索,并由Phoenix数据查询模块在HBase中进行数据的查询计算;在用户需要检索时,通过医学图像并行检索模块比对特征相似度计算返回检索结果。
(5)应用层
应用层包括用户管理模块、系统管理模块、日志管理模块、医学图像存储管理模块、医学图像检索模块和定时任务管理模块;系统通过Web的形式提供用户管理模块、系统管理模块、日志管理模块、医学图像存储管理模块、医学图像检索模块和定时任务管理模块的用户交互界面,实现对用户管理、系统管理、日志管理、医学图像存储管理、医学图像检索操作、定时任务管理。
如图2所示,本发明一种应用上述系统的实时检索方法,包括步骤S1和S2;
S1图像上传部分:基于Flink进行医学图像实时上传特征编码及批量导入图像特征编码,如图3所示,包括以下两种场景:
S1.1针对多用户实时在线场景,利用Flink流处理模型结合改进部分语义加权聚合模型对上传的医学图像进行深度特征提取,并对其进行图像特征编码,再将该特征编码进行聚类存储至HBase中的图像特征编码距离查找表中;
利用Flink流处理模型进行医学图像实时特征编码的具体步骤如下:
1)基于Kafka构建消息订阅发布模式的医学图像实时处理消息队列;
2)Web服务器端响应用户的医学图像上传请求,并进行消息生产操作;
3)通过Flink对接Kafka消息队列,对消息进行实时消费,执行记录图像信息的存储和记录。
其中,Web服务器端响应用户的图像上传请求,并进行消息生产操作,包括如下步骤:
1)Web服务响应用户的上传请求,并判断表单信息完整性和规范性,然后将图像信息以及图像字节码提交到Kafka;
2)创建Kafka的生产者,由Kafka生产者将图像上传消息类进行序列化,包括图像的信息及图像字节码;
3)通过KafkaProducer类将消息发送到Kafka broker接受的名为“imageupload”的topic中;
4)利用生产者的回调函数监测是否发送成功,异常则触发报警。
所述通过Flink对接Kafka消息队列,对消息进行实时消费,执行记录图像信息的存储和记录,包括如下步骤:
1)配置Flink流式处理环境:设置Flink定期执行CheckPoint将数据持久化到内存中、设置检查点模式为Exactly-once、设置若执行CheckPoint时间超过60s,则丢弃检查点,从而保证数据容错性;通过Flink框架的Kafka Flink Connector API实现Kafka的消费者进行实时流式处理,配置Kafka的相关信息,包括:Zookeeper集群、Kafka broker集群以及Kafka消息者组;
2)配置Kafka消息数据格式:配置Kafka消息的<key,value>格式,使用其对应自定义数据结构类的反序列化形式作为Flink的数据格式Schema,从而便于其在网络上进行传输和解析;
3)执行map过程处理:添加配置Kafka消息的数据源作为Flink流式环境的source,执行DataStream流的map过程对每一条消息进行处理,执行记录图像信息(描述、类型、日期、上传人等)到业务库,并将提取的图像特征、存储图像字节码和图像特征编码存储到HBase的图像存储表中,根据图像字节码使用改进部分语义加权聚合模型对图像进行深度特征提取,并对该图像特征进行编码,形成图像特征编码,所述图像特征存储至图像编码特征集,图像字节码存储至图像字节码表,图像特征编码聚类情况存储至图像特征编码距离查找表中;
4)更新图像特征编码距离查找表:计算新增图像特征编码与现有数据库中的图像特征编码的非对称距离,并将其归到距离最近的聚类中心所属类中,更新图像特征编码距离查找表。若图像特征编码距离查找表为空,即在首张图像上传时,建立图像特征编码距离查找表,则新增图像特征编码自成一类;
S1.2针对图像批量导入场景,利用Flink分布式模型对批量导入的图像进行批量图像特征编码,再将该特征编码进行聚类存储至HBase中的图像特征编码距离查找表中;利用Flink分布式模型进行批量图像特征编码的具体步骤如下:
1)用户通过Web填写外部数据库的连接信息,包括:数据库地址、数据库用户名及密码、数据表和相关字段的对应关系;
2)系统将外部数据库的数据导入到业务库临时表中,同时通过Flink-JDBC对该外部数据库进行连接,将MySQL数据表的相关字段查询作为Flink的DataSource;
3)开启Flink读取MySQL的批处理任务,通过map算子对每条记录分别处理,执行记录图像信息到业务库,并将提取的图像特征、存储图像字节码和图像特征编码存储到HBase的图像存储表中。根据图像字节码使用改进部分语义加权聚合模型对图像进行深度特征提取,并对该图像特征进行编码,形成图像特征编码,所述图像特征存储至图像编码特征集,图像字节码存储至图像字节码表,图像特征编码聚类情况存储至图像特征编码距离查找表中;
4)计算每个新增图像特征编码与现有数据库中的图像特征编码的非对称距离,并将其归到距离最近的聚类中心所属类中,更新图像特征编码距离查找表。
如图4所示,通过以下步骤将图像特征编码进行聚类存储至HBase中的图像特征编码距离查找表:
1)在MySQL业务库中创建上传图像信息,并在业务库中将图像id关联到HBase中的图像存储记录;
2)在HBase中创建HBase医学图像存储表,包括3个列族,分别为:用于存放图像特征编码聚类非对称距离的图像特征编码距离查找表、用于存储图像字节码的图像字节码表、用于存放图像特征编码的图像特征编码集;
其中,步骤S1.1在首张图像上传时,建立图像特征编码距离查找表,并将上传图像的特征编码存储至图像特征编码距离查找表中;步骤S1.2在首次批量导入时,建立图像特征编码距离查找表,并将该批量上传图像的图像特征编码存储至图像特征编码距离查找表中;
3)通过对HBase表进行表预分区设计和RowKey设计,设计共9个分区,指定每个分区的RowKey范围('0000|','0001|',……,'000n|'),根据图像id作为RowKey将图像字节码和图像信息存放到相应的预分区中;
S2图像检索部分:基于Flink并行检索,返回近似结果查询,如图5所示:上传待检索图像后,通过改进部分语义加权聚合模型对待检索图像进行深度特征提取,并对其进行图像特征编码;然后,开启Flink批处理任务,根据步骤S1中图像特征编码距离查找表计算待检索图像的图像特征向量与图像特征编码距离查找表中的各图像的图像特征向量聚类中心的非对称距离,并返回特征编码集中距离最小的20张医学图像作为最相似的图像查询结果,完成检索。
简单讲,在实际使用本发明的方法进行检索时,用户将待检索的医学图像上传至系统中,系统根据该医学图像的图像字节码提取图像特征,并进行图像特征编码,根据图像特征编码比对图像特征编码距离查找表,找到特征编码集中近似的图像特征编码,再找到这些编码对应的图像字节码返回显示出来,即可完成检索。
所述改进部分语义加权聚合模型对待检索图像进行深度特征提取,如图6所示,具体步骤如下:
1)通过VGG-16模型提取医学图像深度特征,获取网络Pool-5层的特征输出,具体如下:
对于输入待检索的图像I,首先传递到预训练的深度网络VGG-16模型提取深度卷积层特征f(提取pool-5层特征,由C个通道特征图组成,每个特征图高度为H、宽度为W),该图像通过N个筛选出来的卷积层通道特征加权聚合表示,即为N*C维的矢量表示,N>0,C>0;
2)通过计算每个特征点的局部异常因子LOF,比较每个特征点与其邻域特征点的密度,检测并排除通道特征中的异常特征点;对各通道方差进行排序,筛选出方差最大的前N个判别式卷积层通道特征,具体如下:
卷积层通道特征的选择基于医学图像特征数据集进行训练,通过计算特征图通道方差筛选具有更大差异的显著特征。因此,对于数据库中D个特征,通过计算每个通道特征的方差,即C维向量gi(i=1,2,...,D)的C通道方差V={v1,v2,...,vc,...,vC},其中为通道均值:
通过PWA算法对C通道的方差{v1,v2,...,vC}进行排序,筛选出方差最大的前N个判别式卷积层通道,即认为方差越大的通道具有更显著的语义表示。然而这种直接按方差排序的筛选方式忽略了图像背景的干扰,很容易将包含较大差异性的背景通道筛选出来。因此,本方法对筛选卷积层通道环节进行优化,在计算每个通道方差之前采用局部异常因子算法(Local Outlier Factor,LOF)进行离群点检测,并将异常的离群点剔除,从而防止其对筛选结果的干扰,其中,检测离群点的方法如下:
定义k距离:对于每个特征图单个通道中的一个特征点p,将其他特征点与该特征点p的距离进行从小到大排序,设第k个为特征点p的k距离:
k_dis(p);
定义第k距离邻域Nk(p):到特征点p的距离小于等于k距离的特征点,即特征点p的第k距离及以内的所有特征点,包括第k距离。
定义可达距离:特征点o到特征点p的第k可达距离定义为:
reach_dis(o,p)=max{k_dis(o),dis(o,p)}
即若o到特征点p的实际距离小于o的第k距离,则特征点o到特征点p的第k可达距离为特征点o的第k距离,反之为特征点o到特征点p的实际距离dis(o,p)。
定义特征点p的局部可达密度表示如下式,即邻域内特征点到特征点p可达距离平均值的倒数:
其中,|Nk(p)|表示特征点p的第k距离邻域点的个数,即特征点p的第k距离即以内的所有点,包括第k距离;为特征点p与其第k距离邻域点的第k可达距离之和。
通过以上定义计算特征点p的局部离群因子(LOF):领域内点的局部可达密度的均值除以特征点p的局部可达密度,其计算公式为:
其中,lrd(p)表示特征点p的局部可达密度,为特征点p邻域内点的局部科大密度的均值。
本方法设置k为20,计算所得LOF的大小代表该特征点为离群点的可信度,即因子越大,该点越可能是离群点,若LOF值越接近1,则特征点p与其邻域点密度越相近,和邻域同属一簇的可能性较大;若LOF值小于1,则特征点p的密度相比邻域特征点密度更高,即特征点p为密集点;若LOF值大于1,则特征点p的密度小于其邻域特征点的密度,则特征点p是异常点,对该异常点进行排除。
经过LOF离群点检测后排除异常特征点,再对C通道的方差{v1,v2,...,vC}进行排序,筛选出方差最大的前N个判别式卷积层通道特征,从而防止其对筛选结果的干扰。
3)通过无监督策略生成概率权值方案,利用权值方案对筛选出的判别式卷积层通道特征进行加权表示,构造深度卷积特征的加权和集,得到特征全局向量表示。
4)通过后处理对全局向量表示依次执行l2-归一化、主成分分析压缩和白化,并获得最终的图像特征表示。
传统的图像检索只能在现有数据库中存储的图像进行检索,且现有的数据库无法实现实时更新,只能通过工作人员定期批量的将医学图像导入至数据库中,对数据库进行更新,而本发明实现了对医学图像进行实时上传的功能,用户在进行医学图像实时检索时,可以检索到其他用户实时上传的医学图像,提高了医学图像检索的效率。

Claims (6)

1.一种基于Flink的医学图像实时检索方法,其特征在于,包括步骤S1和步骤S2;
S1图像上传部分:基于Flink进行图像实时上传特征编码及批量导入图像特征编码,包括以下两种场景:
S1.1针对多用户实时在线场景,利用Flink流处理模型结合改进部分语义加权聚合模型对上传图像进行深度特征提取,并对其进行图像特征编码,再将该特征编码进行聚类存储至HBase中的图像特征编码距离查找表中;
S1.2针对图像批量导入场景,利用Flink分布式模型结合改进部分语义加权聚合模型对批量导入的图像进行深度特征提取,并对其进行图像特征编码,再将该特征编码进行聚类存储至HBase中的图像特征编码距离查找表中;
其中,步骤S1.1,在首张图像上传时,建立图像特征编码距离查找表,并将上传图像的特征编码存储至图像特征编码距离查找表中;
步骤S1.2,在首次批量导入时,建立图像特征编码距离查找表,并将批量导入的图像的图像特征编码进行聚类存储至图像特征编码距离查找表中;
S2图像检索部分:上传待检索图像后,通过改进部分语义加权聚合模型对待检索图像进行深度特征提取,并对其进行图像特征编码;然后,开启Flink批处理任务,根据步骤S1中图像特征编码距离查找表,计算待检索图像的图像特征向量与图像特征编码距离查找表中的各图像的图像特征向量聚类中心的非对称距离,并对该非对称距离最近的图像特征聚类,返回距离最小的m张图像作为最相似的图像查询结果,完成检索;
其中,改进部分语义加权聚合模型对待检索图像进行深度特征提取的具体步骤如下:
1)通过VGG-16模型提取医学图像深度特征,获取网络Pool-5层的特征输出;
2)通过计算每个特征点的局部异常因子LOF,比较每个特征点与其邻域特征点的密度,检测并排除通道特征中的异常特征点;对各通道方差进行排序,筛选出方差最大的前N个判别式卷积层通道特征;
3)通过无监督策略生成概率权值方案,利用权值方案对筛选出的判别式卷积层通道特征进行加权表示,构造深度卷积特征的加权和集,得到特征全局向量表示;
4)通过后处理对全局向量表示依次执行l2-归一化、主成分分析压缩和白化,并获得最终的图像特征表示。
2.根据权利要求1所述的一种基于Flink的医学图像实时检索方法,其特征在于,通过以下步骤将图像特征编码进行聚类存储至HBase中的图像特征编码距离查找表:
1)在MySQL业务库中创建上传图像信息,并在业务库中将图像id关联到HBase中的图像存储记录;
2)在HBase中创建HBase图像存储表,包括:用于存放图像特征编码聚类非对称距离的图像特征编码距离查找表、用于存储图像字节码的图像字节码表、用于存放图像特征编码的图像特征编码集;
3)通过对HBase表进行表预分区设计和RowKey设计,共设计n个分区,指定每个分区的RowKey范围('0000|','0001|',……,'000n|'),根据图像id作为RowKey将图像字节码和图像信息存放到相应的预分区中。
3.根据权利要求1所述的一种基于Flink的医学图像实时检索方法,其特征在于,步骤S1.1的具体步骤如下:
1)基于Kafka构建消息订阅发布模式的图像实时处理消息队列;
2)Web服务器端响应用户的图像上传请求,并进行消息生产操作;
3)通过Flink对接Kafka消息队列,对消息进行实时消费,执行记录图像信息的存储和记录。
4.根据权利要求3所述的一种基于Flink的医学图像实时检索方法,其特征在于,Web服务器端响应用户的图像上传请求,并进行消息生产操作的具体步骤如下:
1)Web服务响应用户的上传请求,并判断表单信息完整性和规范性,然后将图像信息以及图像字节码提交到Kafka;
2)创建Kafka的生产者,由Kafka生产者将图像上传消息类进行序列化,包括图像的基本信息及图像字节码;
3)通过KafkaProducer类将消息发送到Kafka broker接收的名为“imageupload”的topic中;
4)利用生产者的回调函数监测是否发送成功,异常则触发报警。
5.根据权利要求3所述的一种基于Flink的医学图像实时检索方法,其特征在于,通过Flink对接Kafka消息队列,对消息进行实时消费,执行记录图像信息的存储和记录的具体步骤如下:
1)配置Flink流式处理环境:设置Flink定期执行CheckPoint将数据持久化到内存中、设置检查点模式为Exactly-once、设置若执行CheckPoint时间超过60s,则丢弃检查点;
通过Flink框架的Kafka Flink Connector API实现Kafka的消费者进行实时流式处理,配置Kafka的相关信息;
2)配置Kafka消息数据格式:配置Kafka消息的数据源<key,value>格式,使用其对应自定义数据结构类的反序列化形式作为Flink的数据格式Schema;
3)执行map过程处理:添加配置的Kafka消息的数据源作为Flink流式环境的source,执行DataStream流的map过程对每一条消息进行处理,执行记录图像信息到业务库,并将提取的图像特征、存储图像字节码和图像特征编码存储到HBase的图像存储表中,根据图像字节码使用改进部分语义加权聚合模型对图像进行深度特征提取,并对该图像特征进行编码,形成图像特征编码,所述图像特征存储至图像编码特征集,图像字节码存储至图像字节码表,图像特征编码聚类情况存储至图像特征编码距离查找表中;
4)更新图像特征编码距离查找表:计算新增图像特征编码与图像特征编码距离查找表中的图像特征编码的非对称距离,并将其归到距离最近的聚类中心所属类中,更新图像特征编码距离查找表。
6.根据权利要求1所述的一种基于Flink的医学图像实时检索方法,其特征在于,步骤S1.2的具体步骤如下:
1)用户通过Web填写外部数据库的连接信息,包括:数据库地址、数据库用户名及密码、数据表和相关字段的对应关系;
2)将数据导入到业务库临时表中,同时通过Flink-JDBC对该外部数据库进行连接,将MySQL数据表的相关字段查询作为Flink的DataSource;
3)开启Flink读取MySQL的批处理任务,通过map算子对每条记录分别处理,执行记录图像信息到业务库,并将提取的图像特征、存储图像字节码和图像特征编码存储到HBase的图像存储表中;根据图像字节码使用改进部分语义加权聚合模型对图像进行深度特征提取,并对该图像特征进行编码,形成图像特征编码,所述图像特征存储至图像编码特征集,图像字节码存储至图像字节码表,图像特征编码聚类情况存储至图像特征编码距离查找表中;
4)更新图像特征编码距离查找表:计算每个新增图像特征编码与图像特征编码距离查找表中的图像特征编码的非对称距离,并将其归到距离最近的聚类中心所属类中,更新图像特征编码距离查找表。
CN202010363686.6A 2020-04-30 2020-04-30 一种基于Flink的医学图像实时检索方法 Active CN111581420B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010363686.6A CN111581420B (zh) 2020-04-30 2020-04-30 一种基于Flink的医学图像实时检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010363686.6A CN111581420B (zh) 2020-04-30 2020-04-30 一种基于Flink的医学图像实时检索方法

Publications (2)

Publication Number Publication Date
CN111581420A CN111581420A (zh) 2020-08-25
CN111581420B true CN111581420B (zh) 2023-07-28

Family

ID=72126381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010363686.6A Active CN111581420B (zh) 2020-04-30 2020-04-30 一种基于Flink的医学图像实时检索方法

Country Status (1)

Country Link
CN (1) CN111581420B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784822A (zh) * 2021-03-08 2021-05-11 口碑(上海)信息技术有限公司 对象识别方法、装置、电子设备、存储介质及程序产品

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106383891B (zh) * 2016-09-22 2019-04-23 重庆理工大学 一种基于深度哈希的医学图像分布式检索方法
CN107330074B (zh) * 2017-06-30 2020-05-26 中国科学院计算技术研究所 基于深度学习和哈希编码的图像检索方法
CN108829826B (zh) * 2018-06-14 2020-08-07 清华大学深圳研究生院 一种基于深度学习和语义分割的图像检索方法
CN110457514A (zh) * 2019-08-12 2019-11-15 桂林电子科技大学 一种基于深度哈希的多标签图像检索方法

Also Published As

Publication number Publication date
CN111581420A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
KR102591421B1 (ko) 의도 추천 방법, 장치, 기기 및 저장매체
US8548969B2 (en) System and method for clustering content according to similarity
CN108268600B (zh) 基于ai的非结构化数据管理方法及装置
CN103023970A (zh) 一种物联网海量数据存储方法及系统
Bernecker et al. Scalable probabilistic similarity ranking in uncertain databases
CN106897374B (zh) 一种基于轨迹大数据最近邻查询的个性化推荐方法
CN109710792B (zh) 一种基于索引的快速人脸检索系统应用
CN103412903B (zh) 基于兴趣对象预测的物联网实时搜索方法及系统
CN114218400A (zh) 基于语义的数据湖查询系统及方法
CN104298785A (zh) 一种众搜资源搜索方法
Elshater et al. godiscovery: Web service discovery made efficient
CN113609374A (zh) 基于内容推送的数据处理方法、装置、设备及存储介质
Khan et al. FALKON: large-scale content-based video retrieval utilizing deep-features and distributed in-memory computing
CN110334290B (zh) 一种基于MF-Octree的时空数据快速检索方法
CN111581420B (zh) 一种基于Flink的医学图像实时检索方法
Alam et al. Intellibvr-intelligent large-scale video retrieval for objects and events utilizing distributed deep-learning and semantic approaches
CN113590898A (zh) 数据检索方法、装置、电子设备、存储介质及计算机产品
CN112115281A (zh) 数据检索方法、装置及存储介质
Lakshmi et al. Long term relevance feedback: a probabilistic axis re-weighting update scheme
Yadav et al. An exhaustive study on data mining techniques in mining of multimedia database
CN111666452A (zh) 用于对视频进行聚类的方法和装置
Li Study on information recommendation of scientific and technological achievements based on user behavior modeling and big data mining
Sun et al. Deep learning based image cognition platform for IoT applications
CN114168612B (zh) 资产大数据平台查询加速方法
CN112506959B (zh) 智能船舶数据库检索的数据调度方法、装置和检索系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant