CN110750673A - 图像处理方法、装置、设备及存储介质 - Google Patents
图像处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN110750673A CN110750673A CN201910983353.0A CN201910983353A CN110750673A CN 110750673 A CN110750673 A CN 110750673A CN 201910983353 A CN201910983353 A CN 201910983353A CN 110750673 A CN110750673 A CN 110750673A
- Authority
- CN
- China
- Prior art keywords
- image
- retrieved
- detected
- images
- semantic features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 65
- 238000000034 method Methods 0.000 claims abstract description 38
- 230000004044 response Effects 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 20
- 238000011176 pooling Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 11
- 230000001174 ascending effect Effects 0.000 claims description 7
- 210000001035 gastrointestinal tract Anatomy 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 230000029087 digestion Effects 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 48
- 230000000875 corresponding effect Effects 0.000 description 66
- 230000008569 process Effects 0.000 description 12
- 238000013135 deep learning Methods 0.000 description 11
- 238000012549 training Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 210000003238 esophagus Anatomy 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000002596 correlated effect Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 210000002784 stomach Anatomy 0.000 description 3
- 208000025865 Ulcer Diseases 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000001575 pathological effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 231100000397 ulcer Toxicity 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000001079 digestive effect Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 210000001198 duodenum Anatomy 0.000 description 1
- 230000002496 gastric effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10068—Endoscopic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30028—Colon; Small intestine
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30092—Stomach; Gastric
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Quality & Reliability (AREA)
- Radiology & Medical Imaging (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明提供了一种基于人工智能的图像处理方法、装置、电子设备及存储介质;方法包括:响应于针对图像的检索请求,确定待检索图像;通过编码网络对所述待检索图像进行编码处理,得到对应所述待检索图像的语义特征;获取数据库中的待检出图像;通过匹配网络对所述对应所述待检索图像的语义特征、与所述待检出图像的语义特征进行匹配处理,得到所述待检索图像与所述待检出图像之间的匹配度;根据所述待检索图像与所述待检出图像之间的匹配度,获得满足匹配度要求的检出图像,以作为所述待检索图像的参考数据。通过本发明,能够高效、准确检索到有参考价值的内镜图像。
Description
技术领域
本发明涉及图像处理技术,尤其涉及一种基于人工智能的图像处理方法、装置、电子设备及存储介质。
背景技术
人工智能(Artificial Intelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
图像检索是从大量的图像中检索出有参考价值的图像的技术。目前数据库中存在大量的图像存在参考价值,但是从大量的图像中挖掘出有参考价值的数据往往依赖于人工判断,准确性和效率都不理想,成本非常高。
发明内容
本发明实施例提供一种图像处理方法、装置、电子设备及存储介质,能够快捷地从数据库中检索到有参考价值的图像,作为待检索图像的参考数据。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种图像处理方法,所述方法包括:
响应于针对图像的检索请求,确定待检索图像;
通过编码网络对所述待检索内镜图像进行编码处理,得到对应所述待检索内镜图像的语义特征;
获取数据库中的待检出图像;
通过匹配网络对所述对应所述待检索图像的语义特征、与所述待检出图像的语义特征进行匹配处理,得到所述待检索图像与所述待检出图像之间的匹配度;
根据所述待检索图像与所述待检出图像之间的匹配度,获得满足匹配度要求的检出图像,以作为所述待检索图像的参考数据。
本发明实施例提供一种图像处理装置,所述装置包括:
确定模块,用于响应于针对图像的检索请求,确定待检索图像;
编码模块,用于通过编码网络对所述待检索图像进行编码处理,得到对应所述待检索图像的语义特征;
获取模块,用于获取数据库中的待检出图像;
匹配模块,用于通过匹配网络对所述对应所述待检索图像的语义特征、与所述待检出图像的语义特征进行匹配处理,得到所述待检索图像与所述待检出图像之间的匹配度;
处理模块,用于根据所述待检索图像与所述待检出图像之间的匹配度,获得满足匹配度要求的检出图像,以作为所述待检索图像的参考数据。
上述技术方案中,所述确定模块还用于获取对消化道进行图像采集得到的原始彩色图像;
对所述原始彩色图像中的各个像素点进行亮度归一化处理,得到亮度归一化图像;
将所述原始彩色图像中的消化区域与背景的对比度进行增强处理,得到增强图像;
将所述原始彩色图像、所述亮度归一化图像和增强图像中的至少一个确定为所述待检索图像。
上述技术方案中,所述编码模块还用于通过所述编码网络中的卷积层对所述待检索图像进行特征提取,得到对应所述待检索图像的特征图;
通过所述编码网络中的池化层对所述特征图进行降维处理,得到对应所述待检索图像的语义特征。
上述技术方案中,所述编码模块还用于通过所述编码网络中的池化层去除所述特征图中的空间信息,得到对应所述待检索图像的语义特征。
上述技术方案中,所述匹配模块还用于通过所述匹配网络确定所述对应所述待检索图像的语义特征、与所述待检出图像的语义特征的欧式距离,并
确定所述欧式距离为所述待检索图像与所述待检出图像之间的匹配度;
所述处理模块还用于根据所述待检索图像与所述待检出图像之间的匹配度,对所述待检出图像进行升序排序,得到排序在前的预设数量的检出图像。
上述技术方案中,所述匹配模块还用于通过所述匹配网络确定所述对应所述待检索图像的语义特征、与所述待检出图像的语义特征的余弦相似度,并
确定所述余弦相似度为所述待检索图像与所述待检出图像之间的匹配度;
所述处理模块还用于根据所述待检索图像与所述待检出图像之间的匹配度,对所述待检出图像进行降序排序,得到排序在前的预设数量的检出图像。
上述技术方案中,所述匹配模块还用于通过所述匹配网络中的多个全连接层,将所述对应所述待检索图像的K维语义特征映射为第一M维特征向量、所述待检出图像的K维语义特征映射为第二M维特征向量;
通过所述匹配网络对所述第一M维特征向量、与所述第二M维特征向量进行匹配处理,得到所述待检索图像与所述待检出图像之间的匹配度;
其中,K大于或者等于M,且K和M为自然数。
上述技术方案中,所述基于人工智能的图像处理装置,还包括:
存储模块,用于当根据所述对应所述待检索图像的语义特征,确定所述数据库中不存在所述待检索图像的语义特征时,将所述待检索图像的语义特征以及所述待检索图像的相关数据存储至所述数据库中。
上述技术方案中,所述存储模块还用于对所述待检索图像进行聚类处理,得到所述待检索图像所属的类别;
根据所述待检索图像所属的类别,将所述待检索图像的语义特征、以及所述待检索图像的相关数据,存储至所述数据库中相应的文档中。
上述技术方案中,所述获取模块还用于根据所述待检索图像,对所述数据库中的图像样本进行筛选,得到所述待检出图像。
上述技术方案中,所述获取模块还用于对所述待检索图像进行聚类处理,得到所述待检索图像所属的类别;
根据所述类别对所述数据库中的图像样本进行筛选,得到对应所述类别的所述待检出图像。
上述技术方案中,所述基于人工智能的图像处理装置,还包括:
训练模块,用于获得待检索图像样本与所述待检出图像之间的匹配度、以及所述待检索图像样本与所述待检出图像的相关关系;
根据所述匹配度、以及所述相关关系,构建所述匹配网络的损失函数;
更新所述匹配网络的参数直至所述损失函数收敛。
本发明实施例提供一种图像处理设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的图像处理方法。
本发明实施例提供一种存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的图像处理方法。
本发明实施例具有以下有益效果:
1、通过编码网络对待检索图像进行编码,通过匹配网络对编码后的图像与待检出图像进行关联,得到待检索图像与待检出图像之间的匹配度,并基于匹配度得到检出图像,从而能够快捷地检索到有参考价值的图像;
2、基于待检索图像,通过检索图像本身对数据库中的待检出图像进行检索,从而可以通过高维的特征,得到有效的检出图像作为待检索图像的参考数据。
附图说明
图1是本发明实施例提供的基于人工智能的图像处理系统10的应用场景示意图;
图2是本发明实施例提供的基于人工智能的图像处理设备500的结构示意图;
图3是本发明实施例提供的基于人工智能的图像处理方法的流程示意图;
图4是本发明实施例提供的基于人工智能的图像处理方法的流程示意图;
图5是本发明实施例提供的基于人工智能的图像处理方法的一个可选的流程示意图;
图6是本发明实施例提供的基于人工智能的图像处理方法的一个可选的流程示意图;
图7为本发明实施例提供的图像检索系统示意图;
图8为本发明实施例提供的编码网络的结构示意图;
图9为本发明实施例提供的匹配网络的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)内镜图像:消化道的内镜图像,例如胃镜、肠镜等的内窥镜图像。
2)内容检索:基于目标的内容进行的检索,该内容可以是图像、语音、视频等。
3)深度学习(Deep Learning,DL):机器学习(Machine Learning,ML)领域中一个新方向,深度学习能更接近于最初的目标—人工智能。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
4)ImageNet:一种数据集,编码网络可通过ImageNet进行预训练,以便将编码网络的数据集与ImageNet进行关联。
为至少解决相关技术的上述技术问题,本发明实施例提供一种基于人工智能的图像处理方法、装置、电子设备和存储介质,能够高效、准确检索到有参考价值的内镜图像,提高用户体验感。下面说明本发明实施例提供的基于人工智能的图像处理设备的示例性应用,本发明实施例提供的基于人工智能的图像处理设备可以是服务器,例如部署在云端的服务器,根据其他设备或者用户提供的针对内镜图像的检索请求,向用户提供作为待检索内镜图像的参考数据的检出内镜图像,例如,服务器根据其他设备获得包括待检索内镜图像的针对内镜图像的检索请求,根据检索请求提取待检索内镜图像,通过编码网络以及匹配网络,获得检出内镜图像;也可是笔记本电脑,平板电脑,台式计算机,移动设备(例如,移动电话,个人数字助理)等各种类型的用户终端,例如手持终端,根据用户在手持终端上输入待检索内镜图像,获得检出内镜图像,并显示在手持终端的显示界面上,用户可以根据待检索内镜图像,能够高效、准确检索到有参考价值的内镜图像,从而为工作人员提供可供参考的治疗思路。
作为示例,参见图1,图1是本发明实施例提供的基于人工智能的图像处理系统10的应用场景示意图,终端200通过网络300连接服务器100,网络300可以是广域网或者局域网,又或者是二者的组合。
终端200可以被用来获取待检索内镜图像,例如,当用户通过输入界面输入待检索内镜图像,输入完成后,终端自动获取待检索内镜图像,并生成针对内镜图像的检索请求。
在一些实施例中,终端200本地执行本发明实施例提供的基于人工智能的内镜图像处理方法来完成根据输入的待检索内镜图像,得到与待检索内镜图像对应的检出内镜图像,例如,在终端200上安装应用(Application,APP),如内镜图像检索助手APP,用户在内镜图像检索助手APP中,输入待检出内镜图像,终端200根据待检索内镜图像,获得作为待检索内镜图像的参考数据的检出内镜图像,并将检出内镜图像显示在终端200的显示界面210上,以便用户可以根据待检索内镜图像快速地得到有参考价值的检出内镜图像。
在一些实施例中,终端200也可以通过网络300向服务器100发送用户在终端100上输入的待检索内镜图像,并调用服务器100提供的基于人工智能的内镜图像处理功能,服务器100通过本发明实施例提供的基于人工智能的内镜图像处理方法获得与待检索内镜图像对应的检出内镜图像,例如,在终端200上安装内镜图像检索助手APP,用户在内镜图像检索助手APP中,输入待检索内镜图像,终端通过网络300向服务器100发送待检索内镜图像的检索请求,服务器100接收到该检索请求后,提取检索请求中的待检索内镜图像,根据待检索内镜图像,获得与待检索内镜图像对应的检出内镜图像,并返回检出内镜图像至内镜图像检索助手APP,将检出内镜图像显示在终端200的显示界面210上,或者,服务器100直接通过检出内镜图像,以便用户可以根据待检索内镜图像快速地得到有参考价值的检出内镜图像。
继续说明本发明实施例提供的基于人工智能的图像处理设备的结构,基于人工智能的图像处理设备可以是各种终端,例如手机、电脑等,也可以是如图1示出的服务器100。
参见图2,图2是本发明实施例提供的基于人工智能的图像处理设备500的结构示意图,图2所示的基于人工智能的图像处理设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。基于人工智能的药物分子处理设备500中的各个组件通过总线系统540耦合在一起。可理解,总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统540。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本发明实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。
在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统551,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
显示模块553,用于经由一个或多个与用户接口530相关联的输出装置531(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块554,用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本发明实施例提供的基于人工智能的图像处理装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的基于人工智能的图像处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的基于人工智能的图像处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable LogicDevice)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
在另一些实施例中,本发明实施例提供的基于人工智能的图像处理装置可以采用软件方式实现,图2示出了存储在存储器550中的基于人工智能的图像处理装置555,其可以是程序和插件等形式的软件,并包括一系列的模块,包括确定模块5551、编码模块5552、获取模块5553、匹配模块5554、处理模块5555、存储模块5556以及训练模块5557;其中,确定模块5551、编码模块5552、获取模块5553、匹配模块5554、处理模块5555、存储模块5556以及训练模块5557用于实现本发明实施例提供的基于人工智能的图像处理方法。
结合本发明实施例提供的服务器的示例性应用和实施,说明本发明实施例提供的基于人工智能的图像处理方法,根据上文可以理解,本发明实施例提供的基于人工智能的图像处理方法可以由各种类型的基于人工智能的图像处理设备实施,例如智能终端和服务器等。
下面结合本发明实施例提供的服务器的示例性应用和实施,说明本发明实施例提供的基于人工智能的图像处理方法。参见图3,图3是本发明实施例提供的基于人工智能的图像处理方法的流程示意图,结合图3示出的步骤进行说明。
在步骤101中,响应于针对图像的检索请求,确定待检索图像。
这里,用户可以在终端的输入界面中输入待检索图像,当输入完成后,终端自动生成针对图像的检索请求,并向服务器发送该针对图像的检索请求,当服务器接收到该针对图像的检索请求后,对该检索请求进行解析,从而得到待检索图像。
其中,图像可以是用于医疗或非医疗场景,即图像可以是内镜图像或其他类型的医疗图像。内镜影像检索是从大量的内镜图像中检索出在医学上有参考价值的图像的技术,例如检索出与病灶等目标更接近的样本,从而进行医学诊断或医学研究。目前存在大量的内镜影像数据存在有参考价值的数据,但是从大量的内镜影像数据中挖掘出有参考价值的数据往往依赖于人工判断,准确性和效率都不理想,成本非常高。
在一些实施例中,确定待检索图像,包括:获取对消化道进行图像采集得到的原始彩色图像;对原始彩色图像中的各个像素点进行亮度归一化处理,得到亮度归一化图像;将原始彩色图像中的消化区域与背景的对比度进行增强处理,得到增强图像;将原始彩色图像、亮度归一化图像和增强图像中的至少一个确定为待检索图像。
用户在终端输入的待检索图像为对消化道进行图像采集得到的原始彩色图像,当服务器对检索请求进行解析,得到原始彩色图像。为了便于后续对原始彩色图像进行编码等处理,可以对原始彩色图像进行预处理,例如可以对原始彩色图像中的各个像素点进行亮度归一化处理,得到亮度归一化图像,从而将原始彩色图像转换成标准模式,减小仿射变换以及几何变换的影响,并加快梯度下降求最优解的速度。还可以将原始彩色图像中的消化区域与背景的对比度进行增强处理,得到增强图像,例如对胃镜中的溃疡部分与背景的对比度进行增强处理,从而加大溃疡部分与其他部分的区别,从而有目的地强调图像的整体或局部特性,将原来不清晰的图像变得清晰或强调某些感兴趣的特征,扩大图像中不同物体特征之间的差别,抑制不感兴趣的特征,使之改善图像质量、丰富信息量,加强图像判读和识别效果。
本发明实施例中对原始彩色图像的预处理,并不局限于亮度归一化以及图像增强,其他图像预处理方法也可应用于本发明实施例。
在步骤102中,通过编码网络对待检索图像进行编码处理,得到对应待检索图像的语义特征。
在服务器获得待检索图像后,需要通过编码网络对待检索图像进行编码处理,得到对应待检索图像的语义特征,以便后续根据待检索图像的语义特征,得到待检索图像与待检出图像之间的匹配度。
参见图4,图4是本发明实施例提供的基于人工智能的图像处理方法的流程示意图,图4示出图3中的步骤102可以通过图4中的1021-1022实现。
在步骤1021中,通过编码网络中的卷积层对待检索图像进行特征提取,得到对应待检索图像的特征图。
在服务器获得待检索图像后,编码网络中的卷积层可以对待检索图像进行特征提取,得到对应待检索背景图像的至少一个特征图,例如,根据待检索图像,得到H*W*K维的特征图,其中,H和W分别表示特征图的长和宽,K表示特征图的数量。
在步骤1022中,通过编码网络中的池化层对特征图进行降维处理,得到对应所述待检索图像的语义特征。
在通过编码网络的卷积层获得特征图后,还可以通过编码网络中的池化层对特征图进行降维处理,得到对应待检索图像的语义特征,例如,H*W*K维的特征图通过编码网络中的池化层处理后,得到1*K维的语义特征,从而去除特征图中不重要的信息,节约计算的复杂度。
在一些实施例中,通过编码网络中的池化层对特征图进行降维处理,得到对应待检索图像的语义特征,包括:通过编码网络中的池化层去除特征图中的空间信息,得到对应待检索图像的语义特征。
由于编码网络中的卷积层对待检索图像进行编码处理,得到的特征图中包含很多不重要的信息,例如包含一些空间信息,例如特征图的位置信息以及位置关系等,这些空间信息并不影响待检索图像的语义,因此可以通过编码网络中的池化层去除特征图中的空间信息,从而去除一些特征图中不重要的信息。
本发明实施例中的并不限于去除特征图中的空间信息,还可以去除特征图中的其他的不重要信息。
步骤103中,获取数据库中的待检出图像。
在服务器获得对应待检索图像的语义特征,需要从数据库中获取待检出图像,以便后续通过待检出图像、以及待检索图像,得到待检索图像与待检出图像之间的匹配度。
在一些实施例中,获取数据库中的待检出图像,包括:根据待检索图像,对数据库中的图像样本进行筛选,得到待检出图像。
为了提高检出图像的检索速度,可以根据待检索图像,对数据库中的图像样本进行初步筛选,得到符合初步筛选条件的待检出图像,避免计算所有数据库中待检出图像与待检索图像的匹配度,大大地节省了计算量。
在一些实施例中,根据待检索图像,对数据库中的图像样本进行筛选,得到待检出图像,包括:对待检索图像进行聚类处理,得到待检索图像所属的类别;根据类别对数据库中的图像样本进行筛选,得到对应类别的待检出图像。
在服务器中存储图像样本时,可以按照类别进行存储,例如当图像样本属于食管样本时,将图像样本存储至食管样本的目录下;当图像样本属于胃部样本时,将图像样本存储至胃部样本的目录下。因此,在获得待检索图像后,可以首先对待检索图像进行聚类处理,得到待检索图像所属的类别,从而根据待检索图像所属的类别对数据库中的图像样本进行筛选,得到对应类别的待检出图像,例如待检索图像属于食管类别,则根据食管类别对数据库目录进行筛选,得到食管目录下的待检出图像。
在步骤104中,通过匹配网络对对应待检索图像的语义特征、与待检出图像的语义特征进行匹配处理,得到待检索图像与待检出图像之间的匹配度。
在获得待检出图像后,可以通过编码网络对待检出图像进行编码处理,得到待检出图像的语义特征。在获得对应待检索图像的语义特征、与待检出图像的语义特征后,可以通过匹配网络对对应待检索图像的语义特征、与待检出图像的语义特征进行匹配处理,从而得到待检索图像与待检出图像之间的匹配度,以便后续根据匹配度获得检出图像。
在一些实施例中,通过匹配网络对对应待检索图像的语义特征、与待检出图像的语义特征进行匹配处理,得到待检索图像与待检出图像之间的匹配度,包括:通过匹配网络确定对应待检索图像的语义特征、与待检出图像的语义特征的欧式距离,并确定欧式距离为待检索图像与待检出图像之间的匹配度。
这里,匹配度可以是欧式距离。在获得对应待检索图像的语义特征、与待检出图像的语义特征后,匹配网络可以确定对应待检索图像的语义特征、与待检出图像的语义特征的欧式距离,从而将欧式距离确定为待检索图像与待检出图像之间的匹配度,以便后续根据欧式距离确定有参考价值的检出图像,工作人员根据检出图像分析待检索图像,以确定治疗方案。
其中,对应待检索图像的语义特征、与待检出图像的语义特征的欧式距离越大,说明对应待检索图像、与待检出图像越不相关,即欧式距离与相关度成反比。
在一些实施例中,通过匹配网络对对应待检索图像的语义特征、与待检出图像的语义特征进行匹配处理,得到待检索图像与待检出图像之间的匹配度,包括:通过匹配网络确定对应所述待检索图像的语义特征、与待检出图像的语义特征的余弦相似度,并确定余弦相似度为待检索图像与待检出图像之间的匹配度。
这里,匹配度可以是余弦相似度。在获得对应待检索图像的语义特征、与待检出图像的语义特征后,匹配网络可以确定对应待检索图像的语义特征、与待检出图像的语义特征的余弦相似度,从而将余弦相似度确定为待检索图像与待检出图像之间的匹配度,以便后续根据余弦相似度确定有参考价值的检出图像,工作人员根据检出图像分析待检索图像,以确定治疗方案。
其中,对应待检索图像的语义特征、与待检出图像的语义特征的余弦相似度越大,说明对应待检索图像、与待检出图像越相关,即欧式距离与相关度成正比。
在一些实施例中,通过匹配网络对对应待检索图像的语义特征、与待检出图像的语义特征进行匹配处理,得到待检索图像与待检出图像之间的匹配度,包括:通过匹配网络中的多个全连接层,将对应待检索图像的K维语义特征映射为第一M维特征向量、待检出图像的K维语义特征映射为第二M维特征向量;通过匹配网络对第一M维特征向量、与第二M维特征向量进行匹配处理,得到待检索图像与待检出图像之间的匹配度;其中,K大于或者等于M,且K和M为自然数。
在获得对应待检索图像的语义特征、与待检出图像的语义特征后,匹配网络中的多个全连接层可以将对应待检索图像的K维语义特征映射为第一M维特征向量、待检出图像的K维语义特征映射为第二M维特征向量,从而对第一M维特征向量、与第二M维特征向量进行匹配处理,得到待检索图像与待检出图像之间的匹配度。其中,全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来,对应待检索图像的K维语义特征、与待检出图像的K维语义特征通过多个全连接层的处理后,可以得到比K维更低维度的M维特征向量,其中,M维特征向量为综合前面所有重要特征的特征。
在步骤105中,根据所述待检索图像与所述待检出图像之间的匹配度,获得满足匹配度要求的检出图像,以作为所述待检索图像的参考数据。
待检索图像与待检出图像之间的匹配度为得到检出图像标准,待检索图像与待检出图像之间的匹配度为利用深度学习得到的精确相似度,根据待检索图像与待检出图像之间的匹配度,可以获得准确的检出图像,还可以得到检出图像的相关数据,例如视频、病理报告等,为工作人员提供可供参考的治疗思路。
在一些实施例中,根据所述待检索图像与所述待检出图像之间的匹配度,获得满足匹配度要求的检出图像,以作为所述待检索图像的参考数据,包括:根据待检索图像与待检出图像之间的匹配度,对待检出图像进行升序排序,得到排序在前的预设数量的检出图像。
当匹配度为欧式距离时,需要对待检出图像进行升序排序,得到排序在前的预设数量的检出图像,即排序在前的待检出图像与待检索图像相似度比较高,具有参考价值。
在一些实施例中,根据所述待检索图像与所述待检出图像之间的匹配度,获得满足匹配度要求的检出图像,以作为所述待检索图像的参考数据,包括:根据待检索图像与待检出图像之间的匹配度,对待检出图像进行降序排序,得到排序在前的预设数量的检出图像。
当匹配度为余弦相似度时,需要对待检出图像进行降序排序,得到排序在前的预设数量的检出图像,即排序在前的待检出图像与待检索图像相似度比较高,具有参考价值。
在一些实施例中,根据所述待检索图像与所述待检出图像之间的匹配度,获得满足匹配度要求的检出图像,以作为所述待检索图像的参考数据之前,还包括:当确定待检索图像与待检出图像之间的匹配度满足检出得分阈值的条件时,确定待检出图像为检出图像,以作为待检索图像的参考数据。
当匹配度为欧式距离时,当确定待检索图像与待检出图像之间的匹配度小于检出得分阈值时,确定待检出图像为检出图像,说明待检出图像与待检索图像相似度比较高,具有参考价值。
当匹配度为余弦相似度时,当确定待检索图像与待检出图像之间的匹配度大于检出得分阈值时,确定待检出图像为检出图像,说明待检出图像与待检索图像相似度比较高,具有参考价值。
在一些实施例中,参见图5,图5是本发明实施例提供的基于人工智能的图像处理方法的一个可选的流程示意图,基于图5,在通过编码网络对待检索图像进行编码处理,得到对应待检索图像的语义特征之后,在步骤106中,当根据对应待检索图像的语义特征,确定数据库中不存在待检索图像的语义特征时,将待检索图像的语义特征以及待检索图像的相关数据存储至数据库中。
在获得对应待检索图像的语义特征,根据数据库的数据结构,对该对应待检索图像的语义特征进行相应数据结构的处理,从而确定数据库中是否已存在待检索图像的语义特征,当确定数据库中不存在待检索图像的语义特征时,需要将待检索图像的语义特征以及待检索图像的相关数据存储至数据库中,以便将待检索图像的语义特征作为待检出图像;当确定数据库中存在待检索图像的语义特征时,继续进行获取数据库中的待检出图像。其中,待检索图像的相关数据包括待检索图像的视频、病理报告等数据。
在一些实施例中,将待检索图像的语义特征以及待检索图像的相关数据存储至所述数据库中,包括:对待检索图像进行聚类处理,得到待检索图像所属的类别;根据待检索图像所属的类别,将待检索图像的语义特征、以及待检索图像的相关数据,存储至数据库中相应的文档中。
为了便于从数据库中快捷地获取待检出图像,需要对待检索图像进行聚类处理,得到待检索图像所属的类别,并根据待检索图像所属的类别,将待检索图像的语义特征、以及待检索图像的相关数据,存储至数据库中相应的文档中,以便根据图像所属的类别,可以快速定位图像。
通过编码网络对待检索内镜图像进行编码,通过匹配网络对编码后的内镜图像与待检出内镜图像进行关联,得到待检索内镜图像与待检出内镜图像之间的匹配度,并基于匹配度得到检出内镜图像,从而能够快捷地检索到有参考价值的内镜图像,作为待检索内镜图像的参考数据,从而为工作人员提供可供参考的治疗思路。
在一些实施例中,参见图6,图6是本发明实施例提供的基于人工智能的图像处理方法的一个可选的流程示意图,基于图6,基于人工智能的图像处理方法还包括对匹配网络的训练过程,在步骤107中,获得待检索图像样本与待检出图像之间的匹配度、以及待检索图像样本与待检出图像的相关关系;根据匹配度、以及相关关系,构建匹配网络的损失函数;更新匹配网络的参数直至损失函数收敛。其中,步骤107与步骤101-105并无明显的先后顺序。
这里,相关关系为待检索图像样本与待检出图像的正相关或者负相关。服务器可以根据匹配度、以及相关关系,构建匹配网络的损失函数,已根据损失函数训练匹配网络。当服务器根据匹配度、以及相关关系,构建匹配网络的损失函数后,可以判断损失函数的值是否达到预设阈值,当损失函数的值超出预设阈值时,基于损失函数确定匹配网络的误差信号,将误差信息在匹配网络中反向传播,并在传播的过程中更新各个层的参数。
这里,对反向传播进行说明,将训练样本数据(待检索图像样本与待检出图像)输入到匹配网络的输入层,经过隐藏层,最后达到输出层并输出结果,这是匹配网络的前向传播过程,由于匹配网络的输出结果与实际结果有误差,则计算输出结果与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层,在反向传播的过程中,根据误差调整匹配网络参数的值;不断迭代上述过程,直至收敛,其中,匹配网络属于神经网络。
至此已经结合本发明实施例提供的基于人工智能的图像处理方法以及在基于人工智能的图像处理装置中的示例性应用,下面继续说明本发明实施例提供的基于人工智能的图像处理装置555中各个模块配合实现基于人工智能的图像的处理方案。
确定模块5551,用于响应于针对图像的检索请求,确定待检索图像;
编码模块5552,用于通过编码网络对所述待检索图像进行编码处理,得到对应所述待检索图像的语义特征;
获取模块5553,用于获取数据库中的待检出图像;
匹配模块5554,用于通过匹配网络对所述对应所述待检索图像的语义特征、与所述待检出图像的语义特征进行匹配处理,得到所述待检索图像与所述待检出图像之间的匹配度;
处理模块5555,用于根据所述待检索图像与所述待检出图像之间的匹配度,获得满足匹配度要求的检出图像,以作为所述待检索图像的参考数据。
上述技术方案中,所述确定模块5551还用于获取对消化道进行图像采集得到的原始彩色图像;对所述原始彩色图像中的各个像素点进行亮度归一化处理,得到亮度归一化图像;将所述原始彩色图像中的消化区域与背景的对比度进行增强处理,得到增强图像;将所述原始彩色图像、所述亮度归一化图像和增强图像中的至少一个确定为所述待检索图像。
上述技术方案中,所述编码模块5552还用于通过所述编码网络中的卷积层对所述待检索图像进行特征提取,得到对应所述待检索图像的特征图;通过所述编码网络中的池化层对所述特征图进行降维处理,得到对应所述待检索图像的语义特征。
上述技术方案中,所述编码模块5552还用于通过所述编码网络中的池化层去除所述特征图中的空间信息,得到对应所述待检索图像的语义特征。
上述技术方案中,所述匹配模块5554还用于通过所述匹配网络确定所述对应所述待检索图像的语义特征、与所述待检出图像的语义特征的欧式距离,并确定所述欧式距离为所述待检索图像与所述待检出图像之间的匹配度;
所述处理模块5555还用于根据所述待检索图像与所述待检出图像之间的匹配度,对所述待检出图像进行升序排序,得到排序在前的预设数量的检出图像。
上述技术方案中,所述匹配模块5554还用于通过所述匹配网络确定所述对应所述待检索图像的语义特征、与所述待检出图像的语义特征的余弦相似度,并确定所述余弦相似度为所述待检索图像与所述待检出图像之间的匹配度;
所述处理模块5555还用于根据所述待检索图像与所述待检出图像之间的匹配度,对所述待检出图像进行降序排序,得到排序在前的预设数量的检出图像。
上述技术方案中,所述匹配模块5554还用于通过所述匹配网络中的多个全连接层,将所述对应所述待检索图像的K维语义特征映射为第一M维特征向量、所述待检出图像的K维语义特征映射为第二M维特征向量;通过所述匹配网络对所述第一M维特征向量、与所述第二M维特征向量进行匹配处理,得到所述待检索图像与所述待检出图像之间的匹配度;其中,K大于或者等于M,且K和M为自然数。
上述技术方案中,所述基于人工智能的图像处理装置555,还包括:
存储模块5556,用于当根据所述对应所述待检索图像的语义特征,确定所述数据库中不存在所述待检索图像的语义特征时,将所述待检索图像的语义特征以及所述待检索图像的相关数据存储至所述数据库中。
上述技术方案中,所述存储模块5556还用于对所述待检索图像进行聚类处理,得到所述待检索图像所属的类别;根据所述待检索图像所属的类别,将所述待检索图像的语义特征、以及所述待检索图像的相关数据,存储至所述数据库中相应的文档中。
上述技术方案中,所述获取模块5553还用于根据所述待检索图像,对所述数据库中的图像样本进行筛选,得到所述待检出图像。
上述技术方案中,所述获取模块5553还用于对所述待检索图像进行聚类处理,得到所述待检索图像所属的类别;根据所述类别对所述数据库中的图像样本进行筛选,得到对应所述类别的所述待检出图像。
上述技术方案中,所述基于人工智能的图像处理装置555,还包括:
训练模块5557,用于获得待检索图像样本与所述待检出图像之间的匹配度、以及所述待检索图像样本与所述待检出图像的相关关系;根据所述匹配度、以及所述相关关系,构建所述匹配网络的损失函数;更新所述匹配网络的参数直至所述损失函数收敛。
下面,将说明本发明实施例在一个实际的应用场景中的示例性应用。
现有技术中,基于内镜图像的内容的检索系统较少,未发现与深度学习相关的内镜图像检索系统。
本发明实施例可应用于与消化道内镜使用或研究相关的数据管理场景中,例如对历史留存数据的智能化管理系统,例如下列场景:
在内镜影像研究机构中,存在大量的内镜影像数据,包括视频,截图,对应的病理报告等。目前,通过文字等关键字信息定位到近似的样例(待检出内镜图像)中,但是这种判断所依据的信息比较抽象、主观。本发明实施例提供的基于内容的检索方案(基于人工智能的内镜图像处理方法),可以通过待检索内镜图像本身的内容对待检出内镜图像进行检索并滤出与待检索内镜图像更接近的样本,再以此调出其他相关数据。为研究人员提供更便捷、目标更明确的检索方式。
本发明实施例为内镜数据的管理提供了一种检索方法,能快速得到与待待检索内镜图像内容相关的库存数据,即提出了一种结合深度学习的内镜图像检索方案,首先通过使用普通卷积分类网络进行预训练,预训练后使用内镜图像进行微调(finetune),并以编码网络对样本进行特征提取,再通过匹配网络将提取特征与数据库中样本的特征进行比对,输出相似度高的样本。一方面,可以得到高维的语义特征;另一方面,可以有效利用深度学习的特点进行更精细的相似度对比,得到准确的样本。
本发明实施例旨在利用深度卷积网络,构建基于内容的内镜图像检索系统。如图7所示,图7为本发明实施例提供的内镜图像检索系统示意图,系统的整体构造由三个主要部分构成:编码网络、数据库、匹配网络。编码网络由一个深度全卷积网络构成,可以将输入的内镜图像编码为语义特征,降低内镜图像的维度,并作为数据库和编码网络的输入,以便后续内镜图像的匹配比对。数据库用于存储内镜图像样本、内镜图像样本对应的特征(语义特征)以及其他重要信息(例如对应视频片段)。匹配网络由一个双分支输入的相似度量网络(S iamese Network)构成,可以评估两个输入样本之间的相似度。当一个需要进行检索的内镜图像(待检索内镜图像)到来时,首先经过编码网络得到高维语义特征,当这个待检索内镜图像不存在数据库中时,优先进行入库流程,同时数据库将粗略过滤出一批与该语义特征接近的待检出内镜图像,并依次在匹配网络中进行比对,当匹配网络输出的匹配度满足一定条件时,认为数据库中的该待检出内镜图像与待检索内镜图像匹配,并输出待检出内镜图像对应的原始图像及相关信息。接下来将会就整个系统中的各个主要部分进行说明:
A)编码网络:如图8所示,图8为本发明实施例提供的编码网络的结构示意图,所示编码网络可以由各种全卷积神经网络构成,网络的输入是待检索内镜图像的RGB图像,编码网络的中间输出为H*W*K大小的特征图,其中,H和W分别对应特征图的长宽,K为特征图的个数。编码网络首先需要通过ImageNet数据集(并不限于ImageNet数据集)进行预训练,预训练之后,再根据与内镜图像数据集相关的任务对编码网络进行微调,从而得到训练好的编码网络。其中,与内镜图像数据集相关的任务可以是消化道的内镜图像的分类层:食管、胃部、十二指肠,还可以是内镜图像数据集对应的有病、没病分类层,还可以是内镜图像的恢复训练。当编码网络训练完成后,将编码网络与任务相关的分类层去除,编码网络将保留最后的特征层(输出为H*W*K的特征图)。对于特征图,编码网络会通过全局池化层进行后处理,从而得到最终内镜图像对应的语义特征向量。因此,需要通过全局池化层去除特征图中包含的空间信息,达到降维的作用,从而编码网络的输出由H*W*K维变为1*K维。
B)数据库:主要用于保存内镜图像样本对应的K维语义特征,同时为了能回溯到内镜图像,还需要保存能追朔到内镜图像的相关信息。为了实现快速检索,可以在数据库部分引入前置的分类模块,用以判断输入的内镜图像所归属的部位、疾病类型、样本类型等详细归类,并依据结果进行存储,在检索待检索内镜图像时可以进行快速检索。
C)匹配网络:如图9所示,图9为本发明实施例提供的匹配网络的结构示意图,匹配网络用于对比两个内镜图像的语义特征,匹配网络可以仅由全连接层构成,匹配网络的输入为两个内镜图像的K维语义特征,K维语义特征的生成均来自于编码网络,匹配网络的输出为两个语义特征之间的关系,这种关系可以是两者的相似度,也可以是两者之间的距离。
在训练匹配网络的过程中,匹配网络可以同时输入两个不同内镜图像的K维语义特征,通过多个全连接层与激活函数的非线性变化,将K维语义特征至M维特征,并计算两个M维特征之间的匹配度,D表示匹配度。这里的匹配度可以为多种形式,例如欧式距离,余弦相似度等。损失函数用以规范两个输入内镜图像之间的关系,例如,将图9中的匹配度定义为欧式距离,则损失函数可以定义为公式(1),如公式(1)所示:
其中,当两个输入内镜图像正相关时,Y=0;当两个输入内镜图像负相关时,Y=1,D表示两个输入内镜图像之间的匹配度,τ表示平滑参数,用于抑制匹配度。
将图9中的匹配度定义为余弦相似度,则损失函数可以定义为公式(2),如公式(1)所示:
其中,当两个输入内镜图像正相关时,Y=0;当两个输入内镜图像负相关时,Y=1,D表示两个输入内镜图像之间的匹配度,τ表示平滑参数,用于抑制匹配度。
检索系统中的两个网络训练完成后,首先按照图7中的入库流程,对数据库进行填充。当数据库中的内镜图像样本有一定数量后,就可以开始检索工作。整个检索流程按照如下步骤进行:
(1)待检索内镜图像先通过编码网络得到K维语义特征,并判断数据库中是否已存在该待检索内镜图像,当确定数据库中不存在该待检索内镜图像时,则先将该待检索内镜图像入库存档;
(2)通过一定筛选规则,对数据库进行初步过滤,得到待检出内镜图像,例如,通过待检索内镜图像的类别,对数据库进行过滤,得到待检出内镜图像。
(3)将待检出内镜图像的K维语义特征与待检索内镜图像的K维语义特征输入至匹配网络,通过匹配网络进行评估,若匹配度满足检出条件时,则确定待检出内镜图像需要被检出。
(4)按照匹配度进行排序,输出前K个待检出内镜图像作为待检索内镜图像的检出结果。
通过基于内容的检索方法,能快速过滤出相关的内镜图像以及相关信息,从而提供可供参考的治疗思路。
其中,编码网络部分除了全卷积网络,还可以使用基于AutoEncoder方法,该基于AutoEncoder方法不需要额外的标注数据进行训练。匹配网络除了Siamese Network,同样还可以使用其他的神经网络。为了实现快速检索,可以在数据库部分引入前置的分类模块,用以判断输入的特征所归属的部位、疾病类型、样本类型等详细归类,并依据结果进行存储,在检索内镜图像时可以进行快速检索。
综上所述,本发明实施例根据针对内镜图像的检索请求,确定待检索内镜图像,并根据编码网络以及匹配网络,得到响应检索请求的检出内镜图像,具有以下有益效果:
1、通过编码网络对待检索内镜图像进行编码,通过匹配网络对编码后的内镜图像与待检出内镜图像进行关联,得到待检索内镜图像与待检出内镜图像之间的匹配度,并基于匹配度得到检出内镜图像,从而能够快捷地检索到有参考价值的内镜图像;
2、基于待检索内镜图像,通过检索内镜图像本身对数据库中的待检出内镜图像进行检索,从而可以通过高维的特征,得到有效的检出内镜图像作为待检索内镜图像的参考数据。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。
Claims (15)
1.一种图像处理方法,其特征在于,所述方法包括:
响应于针对图像的检索请求,确定待检索图像;
通过编码网络对所述待检索图像进行编码处理,得到对应所述待检索图像的语义特征;
获取数据库中的待检出图像;
通过匹配网络对所述对应所述待检索图像的语义特征、与所述待检出图像的语义特征进行匹配处理,得到所述待检索图像与所述待检出图像之间的匹配度;
根据所述待检索图像与所述待检出图像之间的匹配度,获得满足匹配度要求的检出图像,以作为所述待检索图像的参考数据。
2.根据权利要求1所述的方法,其特征在于,所述确定待检索图像,包括:
获取对消化道进行图像采集得到的原始彩色图像;
对所述原始彩色图像中的各个像素点进行亮度归一化处理,得到亮度归一化图像;
将所述原始彩色图像中的消化区域与背景的对比度进行增强处理,得到增强图像;
将所述原始彩色图像、所述亮度归一化图像和增强图像中的至少一个确定为所述待检索图像。
3.根据权利要求1或2所述的方法,其特征在于,所述通过编码网络对所述待检索图像进行编码处理,得到对应所述待检索图像的语义特征,包括:
通过所述编码网络中的卷积层对所述待检索图像进行特征提取,得到对应所述待检索图像的特征图;
通过所述编码网络中的池化层对所述特征图进行降维处理,得到对应所述待检索图像的语义特征。
4.根据权利要求3所述的方法,其特征在于,所述通过所述编码网络中的池化层对所述特征图进行降维处理,得到对应所述待检索图像的语义特征,包括:
通过所述编码网络中的池化层去除所述特征图中的空间信息,得到对应所述待检索图像的语义特征。
5.根据权利要求1所述的方法,其特征在于,所述通过匹配网络对所述对应所述待检索图像的语义特征、与所述待检出图像的语义特征进行匹配处理,得到所述待检索图像与所述待检出图像之间的匹配度,包括:
通过所述匹配网络确定所述对应所述待检索图像的语义特征、与所述待检出图像的语义特征的欧式距离,并
确定所述欧式距离为所述待检索图像与所述待检出图像之间的匹配度;
所述根据所述待检索图像与所述待检出图像之间的匹配度,对所述待检出图像进行排序,得到响应所述检索请求的检出图像,包括:
根据所述待检索图像与所述待检出图像之间的匹配度,对所述待检出图像进行升序排序,得到排序在前的预设数量的检出图像。
6.根据权利要求1所述的方法,其特征在于,所述通过匹配网络对所述对应所述待检索图像的语义特征、与所述待检出图像的语义特征进行匹配处理,得到所述待检索图像与所述待检出图像之间的匹配度,包括:
通过所述匹配网络确定所述对应所述待检索图像的语义特征、与所述待检出图像的语义特征的余弦相似度,并
确定所述余弦相似度为所述待检索图像与所述待检出图像之间的匹配度;
所述根据所述待检索图像与所述待检出图像之间的匹配度,对所述待检出图像进行排序,得到响应所述检索请求的检出图像,包括:
根据所述待检索图像与所述待检出图像之间的匹配度,对所述待检出图像进行降序排序,得到排序在前的预设数量的检出图像。
7.根据权利要求1、5或6所述的方法,其特征在于,所述通过匹配网络对所述对应所述待检索图像的语义特征、与所述待检出图像的语义特征进行匹配处理,得到所述待检索图像与所述待检出图像之间的匹配度,包括:
通过所述匹配网络中的多个全连接层,将所述对应所述待检索图像的K维语义特征映射为第一M维特征向量、所述待检出图像的K维语义特征映射为第二M维特征向量;
通过所述匹配网络对所述第一M维特征向量、与所述第二M维特征向量进行匹配处理,得到所述待检索图像与所述待检出图像之间的匹配度;
其中,K大于或者等于M,且K和M为自然数。
8.根据权利要求1或2所述的方法,其特征在于,所述通过编码网络对所述待检索图像进行编码处理,得到对应所述待检索图像的语义特征之后,还包括:
当根据所述对应所述待检索图像的语义特征,确定所述数据库中不存在所述待检索图像的语义特征时,将所述待检索图像的语义特征以及所述待检索图像的相关数据存储至所述数据库中。
9.根据权利要求8所述的方法,其特征在于,所述将所述待检索图像的语义特征以及所述待检索图像的相关数据存储至所述数据库中,包括:
对所述待检索图像进行聚类处理,得到所述待检索图像所属的类别;
根据所述待检索图像所属的类别,将所述待检索图像的语义特征、以及所述待检索图像的相关数据,存储至所述数据库中相应的文档中。
10.根据权利要求1或2所述的方法,其特征在于,所述获取数据库中的待检出图像,包括:
根据所述待检索图像,对所述数据库中的图像样本进行筛选,得到所述待检出图像。
11.根据权利要求10所述的方法,其特征在于,所述根据所述待检索图像,对所述数据库中的图像样本进行筛选,得到所述待检出图像,包括:
对所述待检索图像进行聚类处理,得到所述待检索图像所属的类别;
根据所述类别对所述数据库中的图像样本进行筛选,得到对应所述类别的所述待检出图像。
12.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
获得待检索图像样本与所述待检出图像之间的匹配度、以及所述待检索图像样本与所述待检出图像的相关关系;
根据所述匹配度、以及所述相关关系,构建所述匹配网络的损失函数;
更新所述匹配网络的参数直至所述损失函数收敛。
13.一种图像处理装置,其特征在于,所述装置包括:
第一确定模块,用于响应于针对图像的检索请求,确定待检索图像;
编码模块,用于通过编码网络对所述待检索图像进行编码处理,得到对应所述待检索图像的语义特征;
获取模块,用于获取数据库中的待检出图像;
匹配模块,用于通过匹配网络对所述对应所述待检索图像的语义特征、与所述待检出图像的语义特征进行匹配处理,得到所述待检索图像与所述待检出图像之间的匹配度;
处理模块,用于根据所述待检索图像与所述待检出图像之间的匹配度,对所述待检出图像进行排序,得到响应所述检索请求的检出图像,以作为所述待检索图像的参考数据。
14.一种图像处理设备,其特征在于,所述设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至12任一项所述的图像处理方法。
15.一种存储介质,其特征在于,存储有可执行指令,用于引起处理器执行时,实现权利要求1至12任一项所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910983353.0A CN110750673B (zh) | 2019-10-16 | 2019-10-16 | 图像处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910983353.0A CN110750673B (zh) | 2019-10-16 | 2019-10-16 | 图像处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110750673A true CN110750673A (zh) | 2020-02-04 |
CN110750673B CN110750673B (zh) | 2021-03-12 |
Family
ID=69278523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910983353.0A Active CN110750673B (zh) | 2019-10-16 | 2019-10-16 | 图像处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110750673B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111265317A (zh) * | 2020-02-10 | 2020-06-12 | 上海牙典医疗器械有限公司 | 一种牙齿正畸过程预测方法 |
CN115129915A (zh) * | 2021-03-26 | 2022-09-30 | 北京新氧科技有限公司 | 重复图像检索方法、装置、设备及存储介质 |
CN117115220A (zh) * | 2023-08-31 | 2023-11-24 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像处理方法、服务提供方法、装置、设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6728412B1 (en) * | 1999-10-29 | 2004-04-27 | S.V.V. Technology Innovations, Inc. | Method and apparatus for on-the-fly image coding |
CN101196905A (zh) * | 2007-12-05 | 2008-06-11 | 覃征 | 一种智能图形检索方法 |
CN106055576A (zh) * | 2016-05-20 | 2016-10-26 | 大连理工大学 | 一种大规模数据背景下的快速有效的图像检索方法 |
US20170026665A1 (en) * | 2014-03-13 | 2017-01-26 | Zte Corporation | Method and device for compressing local feature descriptor, and storage medium |
CN107908685A (zh) * | 2017-10-31 | 2018-04-13 | 西安交通大学 | 基于迁移学习的多视角商品图像检索与识别方法 |
CN110019917A (zh) * | 2018-08-29 | 2019-07-16 | 北京旷视科技有限公司 | 商品检索方法、装置及电子设备 |
-
2019
- 2019-10-16 CN CN201910983353.0A patent/CN110750673B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6728412B1 (en) * | 1999-10-29 | 2004-04-27 | S.V.V. Technology Innovations, Inc. | Method and apparatus for on-the-fly image coding |
CN101196905A (zh) * | 2007-12-05 | 2008-06-11 | 覃征 | 一种智能图形检索方法 |
US20170026665A1 (en) * | 2014-03-13 | 2017-01-26 | Zte Corporation | Method and device for compressing local feature descriptor, and storage medium |
CN106055576A (zh) * | 2016-05-20 | 2016-10-26 | 大连理工大学 | 一种大规模数据背景下的快速有效的图像检索方法 |
CN107908685A (zh) * | 2017-10-31 | 2018-04-13 | 西安交通大学 | 基于迁移学习的多视角商品图像检索与识别方法 |
CN110019917A (zh) * | 2018-08-29 | 2019-07-16 | 北京旷视科技有限公司 | 商品检索方法、装置及电子设备 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111265317A (zh) * | 2020-02-10 | 2020-06-12 | 上海牙典医疗器械有限公司 | 一种牙齿正畸过程预测方法 |
CN115129915A (zh) * | 2021-03-26 | 2022-09-30 | 北京新氧科技有限公司 | 重复图像检索方法、装置、设备及存储介质 |
CN117115220A (zh) * | 2023-08-31 | 2023-11-24 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像处理方法、服务提供方法、装置、设备和存储介质 |
CN117115220B (zh) * | 2023-08-31 | 2024-04-26 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像处理方法、服务提供方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110750673B (zh) | 2021-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Visual saliency guided complex image retrieval | |
CN109471945B (zh) | 基于深度学习的医疗文本分类方法、装置及存储介质 | |
CN110717534B (zh) | 一种基于网络监督的目标分类和定位方法 | |
CN105279495B (zh) | 一种基于深度学习和文本总结的视频描述方法 | |
WO2021022521A1 (zh) | 数据处理的方法、训练神经网络模型的方法及设备 | |
CN110309856A (zh) | 图像分类方法、神经网络的训练方法及装置 | |
CN107506793B (zh) | 基于弱标注图像的服装识别方法及系统 | |
KR101516712B1 (ko) | 의미론적 시각 검색 엔진 | |
CN110750673B (zh) | 图像处理方法、装置、设备及存储介质 | |
US10445602B2 (en) | Apparatus and method for recognizing traffic signs | |
JP7111088B2 (ja) | 画像検索装置、学習方法及びプログラム | |
CN111340213B (zh) | 神经网络的训练方法、电子设备、存储介质 | |
CN114332680A (zh) | 图像处理、视频搜索方法、装置、计算机设备和存储介质 | |
CN112395979A (zh) | 基于图像的健康状态识别方法、装置、设备及存储介质 | |
WO2021047587A1 (zh) | 手势识别方法、电子设备、计算机可读存储介质和芯片 | |
CN114782997B (zh) | 基于多损失注意力自适应网络的行人重识别方法及系统 | |
CN112084913B (zh) | 一种端到端的人体检测与属性识别方法 | |
CN113033321A (zh) | 目标行人属性识别模型的训练方法及行人属性识别方法 | |
CN113361549A (zh) | 一种模型更新方法以及相关装置 | |
CN117058517A (zh) | 一种基于YOLOv5优化模型的安全帽检测方法、装置和介质 | |
CN115223239A (zh) | 一种手势识别方法、系统、计算机设备以及可读存储介质 | |
CN112990339B (zh) | 胃病理切片图像分类方法、装置及存储介质 | |
Hashim et al. | An Optimized Image Annotation Method Utilizing Integrating Neural Networks Model and Slantlet Transformation | |
CN115631370A (zh) | 一种基于卷积神经网络的mri序列类别的识别方法及装置 | |
Sadiq | Improving CBIR Techniques with Deep Learning Approach: An Ensemble Method Using NASNetMobile, DenseNet121, and VGG12 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40018675 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |