CN117493601A - 一种图像检索方法、模型训练方法、装置及存储介质 - Google Patents

一种图像检索方法、模型训练方法、装置及存储介质 Download PDF

Info

Publication number
CN117493601A
CN117493601A CN202210868965.7A CN202210868965A CN117493601A CN 117493601 A CN117493601 A CN 117493601A CN 202210868965 A CN202210868965 A CN 202210868965A CN 117493601 A CN117493601 A CN 117493601A
Authority
CN
China
Prior art keywords
image
target
neural network
sample image
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210868965.7A
Other languages
English (en)
Inventor
彭成涛
朱森华
涂丹丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Cloud Computing Technologies Co Ltd
Original Assignee
Huawei Cloud Computing Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Cloud Computing Technologies Co Ltd filed Critical Huawei Cloud Computing Technologies Co Ltd
Priority to CN202210868965.7A priority Critical patent/CN117493601A/zh
Priority to PCT/CN2023/081658 priority patent/WO2024016691A1/zh
Publication of CN117493601A publication Critical patent/CN117493601A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/20ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Library & Information Science (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种图像检索方法、模型训练方法、装置及存储介质。其中,图像检索方法可以包括:通过第一神经网络对待检索图像进行目标区域的分割,得到至少一个第一特征;第一特征为进行目标区域的分割过程中所提取的中间特征;通过第二神经网络对待检索图像及至少一个第一特征进行处理,得到目标区域对应的特征,并根据目标区域对应的特征生成待检索图像对应的目标编码;根据目标编码在预设图像集中检索目标图像;这样,通过第一神经网络与第二神经网络之间信息的交互,提高了第一神经网络中所提取的特征的利用率,使得第二神经网络生成准确的目标编码,从而有效提升了相似性检索的准确度。

Description

一种图像检索方法、模型训练方法、装置及存储介质
技术领域
本申请涉及图像处理技术领域,尤其涉及一种图像检索方法、模型训练方法、装置及存储介质。
背景技术
随着医学影像技术的发展,医学影像(如,肺部电子计算机断层扫描(ComputedTomography,CT))已成为一些疾病(如肺炎等)的主流检测手段。由于临床上数据量较大、医学图像分辨率较低、以及病变特征不明显等因素,完全依靠人工进行疾病的筛查及相关诊疗方案的指定难免出现错误。其次,临床中医生的经验积累及对疾病特征的记忆力在相关疾病诊断及治疗中起着重要的作用,但是,这种方式面临着很强的主观性及不确定性。最后,对于疑难杂症或者临床中不太常见的疾病,医生往往需要查找整个医学社区中是否存在相关的病例历史,进而对疾病做出进一步的判断。然而,庞大的医学数据库导致临床医生很难查找到相关的相似病例,或很难查找到最为匹配的相似病例,进而不利于疾病的后续诊治。因此,自动化的相似病例检索技术在临床应用中尤为重要。
由于深度学习(Deep Learning,DL)(如卷积神经网络(Convolutional NeuralNetwork,CNN))强大的信息表征能力,现有临床相似病例检索方法主要依赖于深度学习展开;然而,检索的准确性仍有待提高。
发明内容
有鉴于此,提出了一种图像检索方法、模型训练方法、装置、电子设备及存储介质。
第一方面,本申请的实施例提供了一种图像检索方法,所述方法包括:将待检索图像输入到目标模型;所述目标模型包括第一神经网络和第二神经网络;通过所述第一神经网络对所述待检索图像进行目标区域的分割,得到至少一个第一特征;所述第一特征为进行所述目标区域的分割过程中所提取的中间特征;通过所述第二神经网络对所述待检索图像及所述至少一个第一特征进行处理,得到所述目标区域对应的特征,并根据所述目标区域对应的特征生成所述待检索图像对应的目标编码;根据所述目标编码在预设图像集中检索目标图像;其中,所述预设图像集包括多个图像及与所述多个图像中各图像对应的编码,所述目标图像对应的编码与所述目标编码的相似度满足预设条件。
基于上述技术方案,通过第一神经网络对待检索图像进行目标区域的分割,并将进行目标区域的分割过程中所提取的中间特征(即第一特征)传递到第二神经网络;从而实现第一神经网络提取到的特征与第二神经网络进行共享;由于第一特征包含目标区域的信息,第二神经网络在对待检索图像进行处理的过程中,结合第一特征,可以将重点放到目标区域,排除了非目标区域的无效信息或干扰信息的干扰,所得到的目标区域对应的特征能够更好的表征目标区域;进行根据目标区域对应的特征生成准确的目标编码,并用于目标图像的检索。这样,通过第一神经网络与第二神经网络之间信息的交互,提高了第一神经网络中所提取的特征的利用率,使得第二神经网络生成准确的目标编码,从而有效提升了相似性检索的准确度。此外,目标模型可以同时完成目标区域的分割和目标图像的检索,从而实现了采用一个模型实现两个功能,更加经济实用。
根据第一方面,在所述第一方面的第一种可能的实现方式中,所述通过所述第二神经网络对所述待检索图像及所述至少一个第一特征进行处理,得到所述目标区域对应的特征,包括:获取所述至少一个第一特征中与所述第二神经网络中的至少一个卷积层对应的第一特征;其中,所述至少一个卷积层对应的第一特征与所述至少一个卷积层所提取的特征的尺寸相同;将所述至少一个卷积层所提取的特征与所述至少一个卷积层对应的第一特征进行融合,得到所述至少一个卷积层对应的特征;通过对所述至少一个卷积层对应的特征进行处理,得到所述目标区域对应的特征。
基于上述技术方案,相同尺寸的特征可以包含相同或相似的信息;将与第二神经网络中卷积层所提取的特征具有相同尺寸的第一特征传递至该卷积层;并将该卷积层所提取的中间特征与该第一特征进行融合,融合后的特征可以作为该卷积层对应的特征,从而增强该卷积层对待检索图像中目标区域的特征提取性能;最终所得到的目标区域对应的特征能够更好的表征目标区域。
根据第一方面或第一方面的第一种可能的实现方式,在所述第一方面的第二种可能的实现方式中,所述方法还包括:显示所述待检索图像;响应于用户在所述待检索图像中的标记操作,确定所述待检索图像对应的目标种子点;将所述目标种子点输入到所述目标模型;所述通过所述第一神经网络对所述待检索图像进行目标区域的分割,得到至少一个第一特征,包括:基于所述目标种子点进行区域生长,得到初始区域;通过所述第一神经网络对所述初始区域及所述待检索图像进行目标区域的分割,得到所述至少一个第一特征。
基于上述技术方案,目标模型获取待检索图像及用户选取的目标种子点,可以基于用户选取的目标种子点进行区域生长,并在第一神经网络对待检索图像进行目标区域的分割过程中,将通过区域生长所得到的初始区域作为参考,进一步提升了所得到目标区域的分割结果的准确性;相应的,在第一神经网络进行目标区域的分割过程中所提取的中间特征可以包含目标区域更加准确的信息,将该中间特征传递至第二神经网络,使得第二神经网络生成更加准确的目标编码,从而进一步提升了相似性检索的准确度。
根据第一方面或第一方面上述各种可能的实现方式,在所述第一方面的第三种可能的实现方式中,所述方法还包括:显示至少一个候选类别;响应于用户在所述至少一个候选类别中的选取操作,确定目标类别;所述目标类别表示所述目标区域所对应的类别;根据所述目标类别,在至少一个预设模型中确定所述目标模型。
基于上述技术方案,通过交互的方式,允许用户在候选类别中选取期望进行相似性检索的类别(及目标类别),提升了用户的交互能力,使得用户可以根据需求动态调整目标类别,并通过相对应的目标模型实现相似性检索;从而解决了相关技术中只能对单一固定的目标类别进行相似性检索的问题,具有更高的实用性。
根据第一方面或第一方面上述各种可能的实现方式,在所述第一方面的第四种可能的实现方式中,所述预设图像集中还包括:所述多个图像中各图像对应的区域分割结果;所述方法还包括:显示进行所述目标区域的分割所得到的分割结果,及所述目标图像对应的区域分割结果。
基于上述技术方案,通过显示第一神经网络对待检索图像进行目标区域的分割所得到的分割结果,以及检索到的目标图像对应的区域分割结果,方便用户进行查看和对比。
第二方面,本申请的实施例提供了一种模型训练方法,所述方法包括:将样本图像组输入到目标预设模型,所述样本图像组中包括三张样本图像,其中,两张样本图像的类别相同,第三张样本图像的类别与所述两张样本图像的类别不同;所述目标预设模型包括第一预设神经网络和第二预设神经网络;通过所述第一预设神经网络对所述样本图像组中各样本图像进行区域分割,得到各样本图像对应的第一分割结果;通过所述第二预设神经网络对所述各样本图像及所述各样本图像对应的至少一个第一特征进行处理,得到所述各样本图像中所分割区域对应的特征,并根据所述各样本图像中所分割区域对应的特征生成所述各样本图像对应的编码;其中,所述第一特征为进行所述区域分割的过程中所提取的中间特征;根据所述各样本图像对应的编码及所述各样本图像对应的第一分割结果,对所述目标预设模型进行训练,得到目标模型。
基于上述技术方案,通过第一预设神经网络对样本图像组中各样本图像进行区域分割,并将进行区域分割过程中所提取的中间特征(即各样本图像对应的第一特征)传递到第二预设神经网络,从而实现第一预设神经网络提取到的特征与第二预设神经网络进行共享;由于各样本图像对应的第一特征包含所分割区域的信息,第二预设神经网络在对各样本图像进行处理的过程中,结合各样本图像对应的第一特征,可以将重点放到所分割区域,排除了无关信息的干扰,得到的所分割区域对应的特征能够更好的表征所分割区域;进行根据所分割区域对应的特征生成各样本图像对应的编码;这样,在训练过程中,通过第一预设神经网络与第二预设神经网络之间信息的交互,提高了第一预设神经网络中所提取的特征的利用率,第二预设神经网络通过不断学习,所生成的各样本图像对应的编码能够有效区分不同类别的样本图像,从而得到具有优良相似性检索性能的目标模型。此外,相关技术中,相似性检索方式中多个网络训练往往是分阶段的,训练过程较为复杂;本技术方案中,在训练过程中,增加第一预设神经网络与第二预设神经网络之间信息的交互,通过将第一预设神经网络提取到的特征传递给第二预设神经网络,使得第一预设神经网络与第二预设神经网络不再是彼此独立的个体,融合成一个整体网络(即目标预设模型),使得网络的训练可以端到端进行,降低了网络训练的复杂度,提高了训练效率。
根据第二方面,在所述第二方面的第一种可能的实现方式中,所述通过所述第二预设神经网络对所述各样本图像及所述各样本图像对应的至少一个第一特征进行处理,得到所述各样本图像中所分割区域对应的特征,包括:获取第一样本图像对应的至少一个第一特征中与所述第二预设神经网络中至少一个卷积层对应的第一特征;其中,所述第一样本图像为所述样本图像组中的任一图像,所述至少一个卷积层对应的第一特征与所述至少一个卷积层所提取的特征的尺寸相同;将所述至少一个卷积层所提取的特征与所述至少一个卷积层对应的第一特征进行融合,得到所述至少一个卷积层对应的特征;通过对所述至少一个卷积层对应的特征进行处理,得到所述第一样本图像中所分割区域对应的特征。
基于上述技术方案,相同尺寸的特征可以包含相同或相似的信息;将与第二预设神经网络中某一卷积层所提取的特征具有相同尺寸的第一样本图像对应的第一特征传递至该卷积层;并将该卷积层所提取的特征与该第一特征进行融合,融合后的特征可以作为该卷积层对应的特征,从而增强该卷积层对第一样本图像中所分割区域的特征提取性能;最终所得到的所分割区域对应的特征能够更好的表征第一样本图像中所分割区域。
根据第二方面或第二方面的第一种可能的实现方式,在所述第二方面的第二种可能的实现方式中,所述根据所述各样本图像对应的编码及所述各样本图像对应的第一分割结果,对所述目标预设模型进行训练,得到目标模型,包括:根据所述各样本图像对应的第一分割结果及所述各样本图像对应的标签,确定第一损失函数值;根据所述各样本图像对应的编码,确定第二损失函数值;根据所述第一损失函数值及所述第二损失函数值,确定所述目标损失函数值;根据所述目标损失函数值更新所述目标预设模型,直到满足预设的训练结束条件,得到所述目标模型。
在一些示例中,第一损失函数可以是骰子损失函数,第二损失函数可以是三元组损失函数。
根据第二方面或第二方面上述各种可能的实现方式,在所述第二方面的第三种可能的实现方式中,所述方法还包括:显示所述各样本图像;响应于用户在所述各样本图像中的标记操作,确定所述各样本图像对应的种子点;将所述各样本图像对应的种子点输入到所述目标预设模型;所述通过所述第一预设神经网络对所述样本图像组中各样本图像进行区域分割,得到各样本图像对应的第一分割结果,包括:基于第一样本图像对应的种子点进行区域生长,得到所述第一样本图像对应的第二分割结果;通过所述第一预设神经网络对所述第一样本图像及所述第一样本图像对应的第二分割结果进行处理,得到所述第一样本图像对应的第一分割结果。
基于上述技术方案,基于用户在各样本图像中选取的种子点进行区域生长,并在第一预设神经网络对各样本图像进行区域分割过程中,将通过区域生长所得到的第二分割结果作为参考,进一步提升了所得到的第一分割结果的准确性;相应的,在第一预设神经网络进行区域分割过程中所提取的中间特征可以包含所分割区域更加准确的信息,将该中间特征传递至第二预设神经网络,使得第二预设神经网络所生成的编码能够更加有效区分不同类别的样本图像,从而进一步提升了训练得到的目标模型的性能。
根据第二方面的第三种可能的实现方式,在所述第二方面的第四种可能的实现方式中,所述方法还包括:确定所述第一样本图像对应的第一分割结果与所述第一样本图像对应的第二分割结果的差异度;根据所述差异度,确定所述第一样本图像对应的标签;其中,在所述差异度大于预设值的情况下,将所述第一样本图像对应的第一分割结果作为所述第一样本图像对应的标签;在所述差异度不大于预设值的情况下,将所述第一样本图像对应的第二分割结果作为所述第一样本图像对应的标签。
基于上述技术方案,通过使用基于种子点进行区域生长得到的第二分割结果或第一预设神经网络输出的第一分割结果,作为各样本图像对应的标签对第一预设神经网络进行训练,无需获取大量人工标注的标签,提高了训练方法的实用性和可行性。
第三方面,本申请的实施例提供了一种图像检索装置,所述装置包括:输入模块,用于将待检索图像输入到目标模型;所述目标模型包括第一神经网络和第二神经网络;分割模块,用于通过所述第一神经网络对所述待检索图像进行目标区域的分割,得到至少一个第一特征;所述第一特征为进行所述目标区域的分割过程中所提取的中间特征;编码模块,用于通过所述第二神经网络对所述待检索图像及所述至少一个第一特征进行处理,得到所述目标区域对应的特征,并根据所述目标区域对应的特征生成所述待检索图像对应的目标编码;检索模块,用于根据所述目标编码在预设图像集中检索目标图像;其中,所述预设图像集包括多个图像及与所述多个图像中各图像对应的编码,所述目标图像对应的编码与所述目标编码的相似度满足预设条件。
根据第三方面,在所述第三方面的第一种可能的实现方式中,所述编码模块,还用于:获取所述至少一个第一特征中与所述第二神经网络中的至少一个卷积层对应的第一特征;其中,所述至少一个卷积层对应的第一特征与所述至少一个卷积层所提取的特征的尺寸相同;将所述至少一个卷积层所提取的特征与所述至少一个卷积层对应的第一特征进行融合,得到所述至少一个卷积层对应的特征;通过对所述至少一个卷积层对应的特征进行处理,得到所述目标区域对应的特征。
根据第三方面或第三方面的第一种可能的实现方式,在所述第三方面的第二种可能的实现方式中,所述装置还包括:显示模块,用于显示所述待检索图像;标记模块,用于响应于用户在所述待检索图像中的标记操作,确定所述待检索图像对应的目标种子点;所述输入模块还用于将所述目标种子点输入到所述目标模型;所述分割模块,还用于:基于所述目标种子点进行区域生长,得到初始区域;通过所述第一神经网络对所述初始区域及所述待检索图像进行处理,得到所述至少一个第一特征。
根据第三方面或第三方面上述各种可能的实现方式,在所述第三方面的第三种可能的实现方式中,所述装置还包括:显示模块,用于显示至少一个候选类别;选取模块,用于响应于用户在所述至少一个候选类别中的选取操作,确定目标类别;所述目标类别表示所述目标区域所对应的类别;确定模块,用于根据所述目标类别,在至少一个预设模型中确定所述目标模型。
根据第三方面或第三方面上述各种可能的实现方式,在所述第三方面的第四种可能的实现方式中,所述预设图像集中还包括:所述多个图像中各图像对应的区域分割结果;所述装置还包括:显示模块,用于显示进行所述目标区域的分割所得到的分割结果,及所述目标图像对应的区域分割结果。
第四方面,本申请的实施例提供了一种模型训练装置,所述装置包括:输入模块,用于将样本图像组输入到目标预设模型,所述样本图像组中包括三张样本图像,其中,两张样本图像的类别相同,第三张样本图像的类别与所述两张样本图像的类别不同;所述目标预设模型包括第一预设神经网络和第二预设神经网络;分割模块,用于通过所述第一预设神经网络对所述样本图像组中各样本图像进行区域分割,得到各样本图像对应的第一分割结果;特征模块,用于通过所述第二预设神经网络对所述各样本图像及所述各样本图像对应的至少一个第一特征进行处理,得到所述各样本图像中所分割区域对应的特征,并根据所述各样本图像中所分割区域对应的特征生成所述各样本图像对应的编码;其中,所述第一特征为进行所述区域分割的过程中所提取的中间特征;训练模块,用于根据所述各样本图像对应的编码及所述各样本图像对应的第一分割结果,对所述目标预设模型进行训练,得到目标模型。
根据第四方面,在所述第四方面的第一种可能的实现方式中,所述特征模块,还用于:获取第一样本图像对应的至少一个第一特征中与所述第二预设神经网络中至少一个卷积层对应的第一特征;其中,所述第一样本图像为所述样本图像组中的任一图像,所述至少一个卷积层对应的第一特征与所述至少一个卷积层所提取的特征的尺寸相同;将所述至少一个卷积层所提取的特征与所述至少一个卷积层对应的第一特征进行融合,得到所述至少一个卷积层对应的特征;通过对所述至少一个卷积层对应的特征进行处理,得到所述第一样本图像中所分割区域对应的特征。
根据第四方面或第四方面的第一种可能的实现方式,在所述第四方面的第二种可能的实现方式中,所述训练模块,还用于:根据所述各样本图像对应的第一分割结果及所述各样本图像对应的标签,确定第一损失函数值;根据所述各样本图像对应的编码,确定第二损失函数值;根据所述第一损失函数值及所述第二损失函数值,确定所述目标损失函数值;根据所述目标损失函数值更新所述目标预设模型,直到满足预设的训练结束条件,得到所述目标模型。
根据第四方面或第四方面上述各种可能的实现方式,在所述第四方面的第三种可能的实现方式中,所述装置还包括:显示模块,用于显示所述各样本图像;标记模块,用于响应于用户在所述各样本图像中的标记操作,确定所述各样本图像对应的种子点;所述输入模块,还用于将所述各样本图像对应的种子点输入到所述目标预设模型;所述分割模块,还用于:基于第一样本图像对应的种子点进行区域生长,得到所述第一样本图像对应的第二分割结果;通过所述第一预设神经网络对所述第一样本图像及所述第一样本图像对应的第二分割结果进行处理,得到所述第一样本图像对应的第一分割结果。
根据第四方面或第四方面的第三种可能的实现方式,在所述第四方面的第四种可能的实现方式中,所述装置还包括:差异度确定模块,用于确定所述第一样本图像对应的第一分割结果与所述第一样本图像对应的第二分割结果的差异度;标签确定模块,用于根据所述差异度,确定所述第一样本图像对应的标签;其中,在所述差异度大于预设值的情况下,将所述第一样本图像对应的第一分割结果作为所述第一样本图像对应的标签;在所述差异度不大于预设值的情况下,将所述第一样本图像对应的第二分割结果作为所述第一样本图像对应的标签。
第五方面,本申请的实施例提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令时实现第一方面或第一方面的一种或几种的图像检索方法,或者实现第二方面或第二方面的一种或几种的模型训练方法。在一些示例中,电子设备可以配置有显示装置。
第六方面,本申请的实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现第一方面或第一方面的一种或几种的图像检索方法,或者实现第二方面或第二方面的一种或几种的模型训练方法。
第七方面,本申请的实施例提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行上述第一方面或第一方面的一种或几种的图像检索方法,或者执行上述第二方面或第二方面的一种或几种的模型训练方法。
上述第三方面至第七方面的技术效果,可参见上述第一方面或第二方面。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面,并且用于解释本申请的原理。
图1示出根据本申请一实施例的一种基于整体特征的相似病例检索方式的示意图。
图2示出根据本申请一实施例的一种基于局部特征的相似病例检索方式的示意图。
图3示出根据本申请一实施例的一种图像检索方法的适用场景的示意图。
图4示出根据本申请一实施例的一种图像检索方法的流程图。
图5示出根据本申请一实施例的第一神经网络与第二神经网络之间进行特征传递的示意图。
图6示出根据本申请一实施例的一种图像检索方法的示意图。
图7示出根据本申请一实施例的一种图像检索方法的流程图。
图8示出根据本申请一实施例的一种图像检索方法的示意图。
图9示出根据本申请一实施例的一种图像检索方法的流程图。
图10示出根据本申请一实施例的一种模型训练方法的流程图。
图11示出根据本申请一实施例的计算三元组损失函数值的示意图。
图12示出根据本申请一实施例的一种模型训练方法的流程图。
图13示出根据本申请一实施例的一种确定各样本图像对应的标签的示意图。
图14示出根据本申请一实施例的一种模型训练方法的示意图。
图15示出根据本申请一实施例的一种图像检索装置的结构图。
图16示出根据本申请一实施例的一种模型训练装置的结构图。
图17示出根据本申请一实施例的一种电子设备的结构示意图。
具体实施方式
以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:包括单独存在A,同时存在A和B,以及单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。另外,为了更好的说明本申请,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本申请同样可以实施。
为了更好地理解本申请实施例的方案,下面先对本申请实施例可能涉及的相关术语和概念进行介绍。
1、深度学习
深度学习是一类基于深层次神经网络算法的机器学习技术,其主要特征是使用多重非线性变换构成的多个处理层对数据进行处理和分析。主要应用于人工智能领域的感知、决策等场景,例如图像和语音识别、自然语言翻译、计算机博弈等。
2、卷积神经网络
卷积神经网络是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器,卷积过程可以看作是使同一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中,一个神经元可以只与部分邻层神经元连接。一个卷积层中,通常包含若干个特征平面,每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重,这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是:图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置,都能使用同样的学习得到的图像信息。在同一卷积层中,可以使用多个卷积核来提取不同的图像信息,一般地,卷积核数量越多,卷积操作反映的图像信息越丰富。卷积核可以以随机大小的矩阵的形式初始化,在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外,共享权重带来的直接好处是减少卷积神经网络各层之间的连接,同时又降低了过拟合的风险。
3、损失函数
在训练深度神经网络的过程中,因为希望深度神经网络的输出尽可能的接近真正想要预测的值,所以可以通过比较当前网络的预测值和真正想要的目标值,再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然,在第一次更新之前通常会有初始化的过程,即为深度神经网络中的各层预先配置参数),比如,如果网络的预测值高了,就调整权重向量让它预测低一些,不断的调整,直到神经网络能够预测出真正想要的目标值。因此,就需要预先定义“如何比较预测值和目标值之间的差异”,这便是损失函数(lossfunction)或目标函数(objective function),它们是用于衡量预测值和目标值的差异的重要方程。其中,以损失函数举例,损失函数的输出值(loss)越高表示差异越大,那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。
4、对比学习(Contrastive Learning,CL)
对比学习是指通过对比不同种类图像之间的差异,学习到某一特定种类的独有特征的一种学习方式。
5、伪标签(Pseudo Label,PL)
伪标签是指通过一系列技术手段,生成分割目标的粗略轮廓,该轮廓并不能准确表征目标的轮廓信息,在网络训练过程中,只能作为辅助标签使用,不能作为拥有完全置信度的训练标签。
6、区域生长(Region Growing,GR)
区域生长指的是由初始化设置的点(即种子点),对周围具有相似性特征像素的聚类过程,最终输出一块具有相同特征的区域。
7、相似性检索(Similarity Search,SS)
又称,相似性搜索,指的是通过一系列技术手段,检索与当前图像内容高度相似的图像。
8、病灶分割(Lesion Segmentation)
病灶分割是指基于已收集的影像学信息,通过深度学习等手段提取病灶信息,对病灶所在区域进行预测。
9、相似病例检索(Similar cases recommendation)
又称,相似病例推荐,是基于以往确诊病例的相关影像信息,为医生对疑似病例确诊提供诊断依据或为已确诊患者提供相似性诊疗方案的一种技术手段。
相关技术中,基于深度学习的相似病例检索方式主要有两种:
(1)基于整体特征的相似病例检索方式
图1示出根据本申请一实施例的一种基于整体特征的相似病例检索方式的示意图。如图1所示,将一张二维医学图像输入到卷积神经网络进行图像的整体特征提取并进行编码,根据编码进行相似病历检索。该方式,直接提取医学图像的整体信息用于相似病例检索,除了提取图像中病灶区域的信息之外,还包含了病灶区域外的无效信息甚至是干扰信息,受这些信息的影响,导致相似病例检索的准确率较低。
(2)基于局部特征的相似病例检索方式
图2示出根据本申请一实施例的一种基于局部特征的相似病例检索方式的示意图。如图2所示,将一张二维医学图像输入到卷积神经网络进行图像的整体特征提取并进行病灶区域分割;再由另一个卷积神经网络对病灶区域分割结果进行局部特征提取并进行编码,根据编码进行相似病历检索。该方式,分为分割阶段及相似病例检索阶段这两个阶段进行,即首先分割病灶区域,然后,将病灶区域分割结果直接用于相似病例检索;两个阶段只是直接进行结果传递,分割阶段与相似病例检索阶段之间缺乏有效的信息交互,信息利用率较低,导致相似病例检索的准确率较低。
为了解决相关技术中的上述问题,本申请实施例提供了一种图像检索方法。
图3示出根据本申请一实施例的一种图像检索方法的适用场景的示意图,如图3所示,当医生在显示装置101查看患者的图像A时,通过图像检索装置102执行本申请实施例提供的图像检索方法(详细描述参见下文),可以在数据库103已有的多张图像(图中仅示出图像B、图像C、图像D)中检索到与图像A中病灶相似的图像,并可以通过显示装置101呈现给医生(如图中所示,检索到图像B与图像A中病灶相似,则在显示装置101中显示图像A及图像B),以便医生作为对比参考,辅助医生进行医学诊断。
本申请实施例不限定该图像检索装置的类型。
示例性地,该图像检索装置可以是独立设置,也可以集成在其他装置中,还可以是通过软件或者软件与硬件结合实现。
示例性地,该图像检索装置还可以为具有数据处理能力的设备或系统,或设置在这些设备或系统中的部件或者芯片。例如,该图像检索装置可以是云端服务器、台式机、便携式电脑、网络服务器、掌上电脑(personal digital assistant,PDA)、移动手机、平板电脑、无线终端设备、嵌入式设备、医疗设备或其他具有数据处理功能的设备,或者为这些设备内的部件或者芯片。
示例性地,该图像检索装置还可以是具有处理功能的芯片或处理器,该图像检索装置可以包括多个处理器。处理器可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。
需要说明的是,本申请实施例描述的上述应用场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,针对其他相似的或新的场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用,例如,可以应用于相似产品的检索等等场景中。
以下将从应用侧和训练侧两个方面对本申请提供的技术方案进行介绍,首先从应用侧对本申请实施例提供的图像检索方法进行详细说明。
图4示出根据本申请一实施例的一种图像检索方法的流程图。该方法可以在上述图像检索装置上执行,如图4所示,该方法可以包括以下步骤:
S401、将待检索图像输入到目标模型。
其中,待检索图像可以为二维图像、三维图像或伪三维图像等,对此不作限定。
作为一个示例,待检索图像可以是医学图像(如,磁共振成像、计算机断层扫描成像、超声成像等等);例如,待检索图像可以为肺部CT、皮肤图像等。
示例性地,将待检索图像输入到目标模型之前,可以对待检索图像进行预处理,预处理包括但不限于图像通道调整、图像缩放、尺寸调整、裁剪、去噪、旋转变换(例如,镜像变换及小角度旋转等)、图像增强、非目标区域排除或归一化等操作。示例性地,可以根据待检索图像的属性采用相适应的预处理操作,例如,以待检索图像为皮肤图像为例,可以对该皮肤图像进行图像缩放、图像归一化、图像通道数变换等预处理操作。
其中,目标模型可以包括第一神经网络和第二神经网络。第一神经网络为预先训练好的模型,也可以称为目标区域分割网络,用于对待检索图像进行特征提取,并根据所提取的特征进行目标区域的分割;示例性地,第一神经网络可以是卷积神经网络、图卷积神经网络、循环神经网络等具有提取图像特征功能的神经网络;例如,第一神经网络可以为全卷积网络(Fully Convolutional Networks,FCN)、U-Net网络、生成对抗网络(GenerativeAdversarial Networks,GAN)或DeepLab系列网络等等。第二神经网络为预先训练好的模型,也可称为相似性检索网络,用于对待检索图像进行特征提取,并根据所提取的特征进行相似性检索;示例性地,第二神经网络可以为卷积神经网络、图卷积神经网络、循环神经网络等具有提取图像特征功能的网络;例如,第二神经网络可以为残差网络(residualnetwork,ResNet)、稠密卷积网络(Dense Convolutional Network,DenseNet)网络等等。
S402、通过第一神经网络对待检索图像进行目标区域的分割,得到至少一个第一特征。
示例性地,目标区域可以为用户感兴趣的区域,目标区域的数量可以为一个或多个,即在待检索图像中可以包括一个或多个目标区域。作为一个示例,以待检索图像为医学图像为例,目标区域可以是医学图像中的病灶区域。
其中,第一特征为进行目标区域的分割过程中所提取的中间特征;可以理解的是,中间特征可以以特征图、特征向量或特征矩阵的形式表示。示例性地,第一神经网络可以包括一个或多个卷积层,将待检索图像输入到第一神经网络中,第一神经网络中的各卷积层可以提取待检索图像的特征;其中,任一卷积层所提取的待检索图像的特征即为第一神经网络对待检索图像进行目标区域的分割过程中所提取的中间特征。可以理解的是,通过第一神经网络对待检索图像进行目标区域的分割还可以得到目标区域的分割结果。
S403、通过第二神经网络对待检索图像及至少一个第一特征进行处理,得到目标区域对应的特征,并根据目标区域对应的特征生成待检索图像对应的目标编码。
示例性地,将待检索图像输入到第二神经网络,第二神经网络对待检索图像进行处理的过程中,提取得到待检索图像的不同特征,并将所提取的特征与至少一个第一特征进行融合处理,从而最终得到目标区域对应的特征。可选地,进行融合的方式可以是合并处理、拼接处理、或者是其它用于实现特征融合的处理过程,本申请对此不做限定。
示例性地,目标区域对应的特征可以为一维特征;可以理解的是,该一维特征的位数越大,则对目标区域的表征能力越强;可以根据实际需求设定该一维特征的位数,对此不作限定;示例性地,可以对所提取的中间特征进行全连接、下采样等操作,从而得到该一维特征。
该步骤中,第二神经网络对待检索图像及至少一个第一特征进行处理,从而实现了第一神经网络提取到的第一特征与第二神经网络进行共享;由于第一特征为第一神经网络对待检索图像进行目标区域的分割过程中所提取的中间特征;第一特征包含目标区域的信息,这样,在第二神经网络对待检索图像进行处理的过程中,以第一神经网络传递的第一特征作为特征提取的指导,将所提取的特征与第一特征进行融合,从而充分利用第一神经网络对待检索图像进行目标区域的分割过程中所提取的中间特征,得到包含更加准确的目标区域的信息的特征。例如,第一特征可以包含目标区域的语义信息,在第二神经网络对待检索图像进行特征提取的过程中,将所提取的特征与第一特征进行融合,从而可以得到包含更加准确的目标区域的语义信息的特征。
作为一个示例,第二神经网络可以包括多个卷积层及全连接层。将待检索图像输入到第二神经网络中,依次经过第二神经网络中的各卷积层的卷积操作,可以提取待检索图像不同的特征,最后通过全连接层得到目标区域对应的特征;在此过程中,可以将第二神经网络中部分或全部卷积层所提取的特征与至少一个第一特征进行融合,从而得到各卷积层对应的特征(其中,若某一卷积层所提取的特征未与至少一个第一特征进行融合,则该卷积层所提取的特征即为该卷积层对应的特征);这样,将每一卷积层对应的特征输入到下一卷积层进行卷积操作,并将最后一个卷积层对应的特征输入到全连接层进行进一步处理,从而得到目标区域对应的特征。
示例性地,可以采用哈希(Hash)编码或独热(one-hot)编码等编码方式对目标区域对应的特征进行编码,从而生成目标编码。作为一个示例,目标编码可以为一维编码,例如,一维哈希编码,可以通过对目标区域对应的特征进行L2正则化(Regularization)处理,然后通过哈希编码生成待检索图像对应的一维哈希编码。
在一种可能的实现方式中,第二神经网络可以为卷积神经网络;该步骤中,通过第二神经网络对待检索图像及至少一个第一特征进行处理,得到目标区域对应的特征,可以包括:获取至少一个第一特征中与第二神经网络中的至少一个卷积层对应的第一特征;将至少一个卷积层所提取的特征与至少一个卷积层对应的第一特征进行融合,得到至少一个卷积层对应的特征;通过对至少一个卷积层对应的特征进行处理,得到目标区域对应的特征。
其中,至少一个卷积层对应的第一特征与至少一个卷积层所提取的特征的尺寸相同;卷积层所提取的特征为第二神经网络对待处理图像进行处理的过程中该卷积层所提取的特征。可以理解的是,在卷积神经网络中不同的卷积层可以提取不同尺寸的特征,例如,卷积层所提取的特征尺寸较小时,可以包含更多边缘、位置、颜色、梯度等细节信息;而卷积层所提取的特征尺寸较大时,可以包含更强的语义信息;相同尺寸的特征可以包含相同或相似的信息。因此,在第二神经网络对待处理图像进行处理的过程中,将与第二神经网络中某一卷积层所提取的特征具有相同尺寸的第一特征传递至该卷积层;并将该卷积层所提取的特征与该第一特征进行融合,融合后的特征可以作为该卷积层对应的特征,从而增强该卷积层对待检索图像中目标区域的特征提取性能;进而将该卷积层对应的特征输入到下一卷积层,该下一卷积层进行卷积操作提取新的特征,这样,将待处理图像依次经过第二神经网络中的各卷积层的卷积操作,从而最终得到目标区域对应的特征,所得到的目标区域对应的特征能够更好的表征目标区域。
举例来说,以第一神经网络与第二神经神经网络均为卷积神经网络为例。图5示出根据本申请一实施例的第一神经网络与第二神经网络之间进行特征传递的示意图,如图5所示,将待检索图像输入到第一神经网络及第二神经网络;特征图a1、特征图a2、特征图a3、特征图a4、特征图a5、特征图a6、特征图a7分别为第一神经网络中不同卷积层所提取的特征图;特征图b1、特征图b2、特征图b3、特征图b4、特征图b5分别为第二神经网络中不同卷积层所提取的特征图。其中,特征图a4的尺寸与特征图b5的尺寸相同,特征图a5的尺寸与特征图b4的尺寸相同,特征图a6的尺寸与特征图b3的尺寸相同,特征图a7的尺寸与特征图b2的尺寸相同。第一神经网络将特征图a4、特征图a5、特征图a6、特征图a7分别传递到第二神经网络;其中,特征图a7传递至第二神经网络中提取特征图b2的卷积层,并将特征图b2与特征图a7进行融合,得到该卷积层对应的特征;特征图a6传递至第二神经网络中提取特征图b3的卷积层,并将特征图b3与特征图a6进行融合,得到该卷积层对应的特征;依次类推,将特征图a4、特征图a5、特征图a6、特征图a7分别传递至尺寸相同的特征图所对应的卷积层,即第二神经网络中提取特征图b5、特征图b4、特征图b3、特征图b2的卷积层;从而实现将第一神经网络中卷积层提取到的特征图传递至第二神经网络中,第二神经网络中的卷积层将所提取的特征图与第一神经网络传递来的特征图进行融合,融合后的特征包含更加准确的目标区域的信息。
S404、根据目标编码在预设图像集中检索目标图像。
其中,预设图像集包括多个图像及与多个图像中各图像对应的编码,示例性地,可以预先生成各图像对应的编码,生成各图像对应的编码所采用的编码方式与生成目标编码所采用的编码方式相同。
其中,目标图像对应的编码与目标编码的相似度满足预设条件。示例性地,可以将目标编码与预设图像集中各图像对应的编码进行对比,将与目标编码相似度最高的编码对应的图像确定为目标图像,作为一个示例,可以利用两个编码的距离(如欧氏距离)表示对应的两张图像的相似度,其中,两个编码的距离越大,则对应的两张图像的相似度越低;两个编码的距离越小,则对应的两张图像的相似度越高;则可以将预设图像集中与目标编码距离最小的编码对应的图像确定为目标图像,从而完成相似性检索。
示例性地,目标图像的数量不作限制;即可以在预设图像集中检索与待检索图像最相似的一张或多张图像。
进一步地,在检索到目标图像后,可以显示该目标图像,以供用户查看;示例性地,可以通过图像检索装置所配置的显示模块,或者将该目标图像发送至单独设置的显示装置,从而显示该目标图像。
作为一个示例,预设图像集中还可以包括:多个图像中各图像对应的区域分割结果。在执行完上述步骤S404后,还可以显示第一神经网络对待检索图像进行目标区域的分割所得到的分割结果,及目标图像对应的区域分割结果。
示例性地,可以通过上述第一神经网络对各图像进行处理,从而预先得到各图像对应的区域分割结果。
示例性地,可以通过图像检索装置所配置的显示模块,或者将该目标图像发送至单独设置的显示装置,从而显示第一神经网络对待检索图像进行目标区域的分割所得到的分割结果,以及检索到的目标图像对应的区域分割结果,方便用户进行查看和对比。
本申请实施例中,通过第一神经网络对待检索图像进行目标区域的分割,并将进行目标区域的分割过程中所提取的中间特征(即第一特征)传递到第二神经网络;从而实现第一神经网络提取到的特征与第二神经网络进行共享;由于第一特征包含目标区域的信息,第二神经网络在对待检索图像进行处理的过程中,结合第一特征,可以将重点放到目标区域,排除了非目标区域的无效信息或干扰信息的干扰,所得到的目标区域对应的特征能够更好的表征目标区域;进行根据目标区域对应的特征生成准确的目标编码,并用于目标图像的检索。这样,通过第一神经网络与第二神经网络之间信息的交互,提高了第一神经网络中所提取的特征的利用率,使得第二神经网络生成准确的目标编码,从而有效提升了相似性检索的准确度。此外,目标模型可以同时完成目标区域的分割和目标图像的检索,从而实现了采用一个模型实现两个功能,更加经济实用。
举例来说,以待检索图像为皮肤图像,目标区域为皮肤的病灶区域为例,检索到的目标图像可以作为该皮肤图像的相似病例,用于为医生后续诊断提供参考。图6示出根据本申请一实施例的一种图像检索方法的示意图,如图6所示,将皮肤图像输入到第一神经网络及第二神经网络;第一神经网络对该皮肤图像进行病灶区域的分割,生成多个第一特征及病灶区域分割结果;其中,与第二神经网络中卷积层对应的第一特征传递至相应的卷积层;第二神经网络对该皮肤图像进行处理的过程,接收到第一神经网络传递来的第一特征的卷积层,将该卷积层所提取的特征与所接收的第一特征进行融合,得到该卷积层对应的特征;未接收到第一神经网络传递来的第一特征的卷积层,将该卷积层所提取的特征作为该卷积层对应的特征;这样,该皮肤图像依次通过各卷积层的卷积操作,最终得到病灶区域对应的特征,并对该特征进行L2正则化处理,进而编码生成该皮肤图像对应的一维编码;然后在皮肤疾病数据库中查询以往已确诊皮肤病例图像的一维编码,若与某个皮肤病例图像的一维编码相似度最高,则该皮肤病例图像即为最相似的皮肤病例图像,从而完成相似病例检索,检索到的相似病例图像可以为医生后续诊疗提供参考,提高了医生诊断的效率。这样,通过第一神经网络与第二神经网络之间信息的交互,排除了非病灶区域的无关信息对相似病例检索的干扰,提高了第一神经网络中所提取的特征的利用率,使得第二神经网络生成准确的一维编码,从而有效提升了相似病例检索的精度。此外,目标模型可以同时完成病灶区域的分割和相似病例检索,从而实现了采用一个模型实现两个功能。进一步地,还可以将第一神经网络对皮肤图像进行病灶区域分割的结果、及皮肤疾病数据库中皮肤病例图像对应的病灶区域分割结果进行显示,方便医生进行查看和对比。
图7示出根据本申请一实施例的一种图像检索方法的流程图。该方法可以在上述图像检索装置上执行,如图7所示,该方法可以包括以下步骤:
S701、将待检索图像输入到目标模型。
该步骤与上述图4中步骤S401相同,在此不再赘述。
S702、显示待检索图像。
示例性地,可以通过图像检索装置所配置的显示模块,或者将该目标图像发送至单独设置的显示装置,从而显示该待检索图像,以便用户查看。
S703、响应于用户在待检索图像中的标记操作,确定待检索图像对应的目标种子点。
其中,目标种子点表示用户感兴趣区域中的点,可以理解的是,目标种子点的数量可以为一个或多个;示例性地,用户可以根据所感兴趣的区域,在上述所显示的待检索图像上以点击、选取、画圈等方式进行标记操作;响应于用户的该标记操作,从而确定一个或多个目标种子点。
作为一个示例,待检索图像可以显示在触摸屏上,用户可以在触摸屏上对待检索图像进行标记,手动选取目标种子点。
S704、将目标种子点输入到目标模型。
示例性地,目标模型还可以包括区域生长模块,可以将上述用户标记的目标种子点输入到该区域生长模块。
S705、基于目标种子点进行区域生长,得到初始区域。
示例性地,区域生长模块可以从目标种子点开始,将待检索图像中与目标种子点有相似属性,例如与目标种子点有相似的强度、灰度级、纹理、颜色等的相邻像素合并到同一区域,从而得到初始区域。可以理解的是,初始区域可以作为目标区域的粗分割结果。
作为一个示例,以待检索图像为医学图像为例,用户所感兴趣区域为病灶区域,基于用户所标记的目标种子点,通过区域生长得到病灶区域的粗分割结果。
示例性地,该初始区域还可以作为待检索图像对应的标签,将该待检索图像作为训练样本,以便对目标模型进一步进行训练加强,提高目标模型的性能。
S706、通过第一神经网络对初始区域及待检索图像进行目标区域的分割,得到至少一个第一特征。
该步骤中,第一神经网络可以结合目标区域的粗分割结果,完成对待检索图像进行目标区域的分割,得到至少一个第一特征;示例性地,还可以得到目标区域的分割结果。
作为一个示例,第一神经网络可以对待检索图像进行目标区域的分割,并将分割出的区域与初始区域进行融合,从而得到目标区域的分割结果及至少一个第一特征。
可以理解的是,通过区域生长得到的初始区域,可以作为目标区域的粗分割结果,这样,在第一神经网络对待检索图像进行目标区域的分割过程中,该粗分割结果可以作为参考,从而进一步提升了所得到目标区域的分割结果的准确性;相应的,在进行上述目标区域的分割过程中所得到的第一特征,可以包含目标区域更加准确的信息。
S707、通过第二神经网络对待检索图像及至少一个第一特征进行处理,得到目标区域对应的特征,并根据目标区域对应的特征生成待检索图像对应的目标编码。
该步骤与上述图4中步骤S403相同,在此不再赘述。
S708、根据目标编码在预设图像集中检索目标图像。
该步骤与上述图4中步骤S404相同,在此不再赘述。
本申请实施例中,目标模型获取待检索图像及用户选取的目标种子点,可以基于用户选取的目标种子点进行区域生长,并在第一神经网络对待检索图像进行目标区域的分割过程中,将通过区域生长所得到的初始区域作为参考,进一步提升了所得到目标区域的分割结果的准确性;相应的,在第一神经网络进行目标区域的分割过程中所提取的中间特征可以包含目标区域更加准确的信息,将该中间特征传递至第二神经网络,使得第二神经网络生成更加准确的目标编码,从而进一步提升了相似性检索的准确度。
举例来说,以待检索图像为皮肤图像,目标区域为皮肤的病灶区域。图8示出根据本申请一实施例的一种图像检索方法的示意图,如图8所示,将皮肤图像输入到区域生长模块、第一神经网络及第二神经网络;其中,区域生长模块用于基于医生所选取的目标种子点进行区域生长,得到病灶区域的粗分割结果,并将该粗分割结果传递至第一神经网络。第一神经网络结合该粗分割结果对该皮肤图像进行病灶区域的分割,生成多个第一特征及病灶区域精确的分割结果;其中,与第二神经网络中卷积层对应的第一特征传递至相应的卷积层;第二神经网络对该皮肤图像进行处理的过程,接收到第一神经网络传递来的第一特征的卷积层,将该卷积层所提取的特征与所接收的第一特征进行融合,得到该卷积层对应的特征;未接收到第一神经网络传递来的第一特征的卷积层,将该卷积层所提取的特征作为该卷积层对应的特征;这样,该皮肤图像依次通过各卷积层的卷积操作,最终得到病灶区域对应的特征,并对该特征进行L2正则化处理,进而编码生成该皮肤图像对应的一维编码;然后在皮肤疾病数据库中查询以往已确诊皮肤病例图像的一维编码,若与某个皮肤病例图像的一维编码相似度最高,则该皮肤病例图像即为最相似的皮肤病例图像,从而完成相似病例检索,检索到的相似图像(即皮肤病例图像)可以为医生后续诊疗提供参考。这样,基于用户选取的目标种子点进行区域生长,并在第一神经网络对皮肤图像进行病灶区域的分割过程中,将通过区域生长得到的病灶区域的粗分割结果作为参考,进一步提升了所得到病灶区域的分割结果的准确性;相应的,在第一神经网络进行病灶区域的分割过程中所提取的中间特征可以包含病灶区域更加准确的信息,将该中间特征传递至第二神经网络,使得第二神经网络生成更加准确的目标编码,从而进一步提升了相似病例检索的精度。进一步地,还可以将粗分割结果、第一神经网络对皮肤图像进行病灶区域分割的结果、或皮肤疾病数据库中皮肤病例图像对应的病灶区域分割结果中的一项或多项进行显示,方便医生进行查看和对比。
图9示出根据本申请一实施例的一种图像检索方法的流程图。该方法可以在上述图像检索装置上执行,如图9所示,该方法可以包括以下步骤:
S901、显示至少一个候选类别。
其中,候选类别的数量可以根据需求进行设定。
示例性地,可以通过图像检索装置所配置的显示模块,或者将该目标图像发送至单独设置的显示装置,显示该至少一个候选类别。
作为一个示例,候选类别可以包括脑部、皮肤、肺部、肝脏等不同的人体部位。
S902、响应于用户在至少一个候选类别中的选取操作,确定目标类别。
其中,目标类别表示目标区域所对应的类别,即用户期望进行相似性检索的类别。
作为一个示例,用户可以根据病灶区域所在的人体部位在候选类别中选取至少一个类别作为目标类别。例如,以目标区域为脑部的病灶区域为例,用户可以在候选类别中选择脑部作为目标类别。
S903、根据目标类别,在至少一个预设模型中确定目标模型。
示例性地,预设模型可以为预先训练好的用于相似性检索的模型,其中,预设模型可以与候选类别一一对应,即每一候选类别对应于一个基于该候选类别的样本训练得到的预设模型。
作为一个示例,预设模型可以包括用于对脑部中病灶区域进行相似性检索的模型、用于对皮肤中病灶区域进行相似性检索的模型、用于对肺部中病灶区域进行相似性检索的模型或用于对肝脏中病灶区域进行相似性检索的模型等等,分别对应于脑部、皮肤、肺部或肝脏等不同的候选类别。可以根据用户在上述不同候选类别中所选取的目标类别,确定与该目标类别对应的目标模型;例如,用户选取的目标类别为脑部,则将用于对脑部中病灶区域进行相似性检索的模型作为目标模型。
S904、将待检索图像输入到目标模型。
S905、通过第一神经网络对所述待检索图像进行目标区域的分割,得到至少一个第一特征。
示例性地,可以通过执行上述图7中步骤S702-S706,从而基于用户标记的目标种子点,通过区域生长得到初始区域,并通过第一神经网络对该初始区域及待检索图像进行目标区域的分割,得到至少一个第一特征。
S906、通过第二神经网络对待检索图像及至少一个第一特征进行处理,得到目标区域对应的特征,并根据目标区域对应的特征生成待检索图像对应的目标编码。
S907、根据目标编码在预设图像集中检索目标图像。
其中,上述步骤S904~步骤S907分别与上述图4中步骤S401~步骤S404相同,在此不再赘述。
本申请实施例中,通过交互的方式,允许用户在候选类别中选取期望进行相似性检索的类别,提升了用户的交互能力,使得用户可以根据需求动态调整目标类别,并通过相对应的目标模型实现相似性检索;从而解决了相关技术中只能对单一固定的目标类别进行相似性检索的问题,具有更高的实用性。
举例来说,相关技术中只能对单一且固定部位的病灶区域进行相似性检索,例如,针对一张包含肺部及肝脏的医学图像,只能对肺部中的病灶区域进行相似性检索,并不能根据临床需求灵活地调整相似性检索的类别,如在对肺部的病灶区域进行相似性检索与对肝脏的病灶区域进行相似性检索之间进行切换,临床中实用性受限。本申请实施例中,可以允许医生手动选取期望进行相似性检索的类别,例如,在医生选取肺部为目标类别时,则可以调用对肺部中病灶区域进行相似性检索的模型对该医学图像进行处理,实现针对肺部中病灶区域的相似性检索;在医生选取肝脏为目标类别时,则可以调用对肝脏中病灶区域进行相似性检索的模型对该医学图像进行处理,实现针对肝脏中病灶区域的相似性检索;提高了与医生的互动能力,使得医生可以根据需求动态调整期望进行相似性检索的类别,临床实用性更高。
上面对本申请实施例提供的图像检索方法进行了描述,下面从训练侧对本申请实施例提供的模型训练方法进行描述。
图10示出根据本申请一实施例的一种模型训练方法的流程图。该方法可以在上述图像检索装置上执行,如图10所示,该方法可以包括以下步骤:
S1001、将样本图像组输入到目标预设模型。
其中,样本图像组中包括三张样本图像,两张样本图像的类别相同,第三张样本图像的类别与该两张样本图像的类别不同。示例性地,样本图像可以为二维图像、三维图像或伪三维图像等,对此不作限定。
示例性地,首先可以根据目标类别,在该目标类别对应的样本图像集中随机选取第一张样本图像,作为锚(Anchor);然后,在该样本图像集中剩余样本图像中随机选取出第二张样本图像或者对第一张样本图像进行随机变换操作(如旋转、镜面反转等)得到第二张样本图像,作为正例(Positive sample);最后,从其他类别对应的样本图像中随机选取第三张样本图像,作为反例(Negative sample),从而得到一个样本图像组。
作为一个示例,样本图像组可以为医学样本图像三元组,包括两张相同类别的医学样本图像以及一张其他类别的医学样本图像。例如,以目标类别为皮肤为例,在皮肤对应的样本图像集I={I1,I2,…,IT}中随机选取一张样本图像,记为{g1},即锚;然后将{g1}进行随机变换操作,随机变换后的样本图像记为{g2},即正例;最后,再从其他样本图像集中随机选取一张与{g1}类别不同的样本图像并进行随机变换操作,得到随机变换后的样本图像记为{g3},即反例;将{g1,g2,g3}记为一个医学样本图像三元组。
示例性地,在将样本图像组输入到目标预设模型之前,还可以对样本图像组中各样本图像进行预处理,其中,预处理的方式可参照前文图4中步骤S401对待检索图像进行预处理的相关表述,此处不再赘述。
其中,目标预设模型可以包括第一预设神经网络和第二预设神经网络。示例性地,第一预设神经网络可以是常见的分割网络,例如,FCN网络、U-Net网络、GAN网络或DeepLab系列网络等等;示例性地,第二预设神经网络可以是常见的特征提取网络,例如,ResNet网络、DenseNet网络等。
S1002、通过第一预设神经网络对样本图像组中各样本图像进行区域分割,得到各样本图像对应的第一分割结果。
示例性地,第一预设神经网络对样本图像组中各样本图像进行区域分割可以是单独的,即依次对各样本图像进行区域分割,直到遍历三张样本图像,且在对不同样本图像进行区域分割时第一预设神经网络的参数共享。
示例性地,第一分割结果可以包括一个或多个所分割的区域;作为一个示例,以样本图像为医学图像为例,第一分割结果可以包括医学图像中的病灶区域。
可以理解的是,通过第一预设神经网络对样本图像组中各样本图像进行区域分割,还可以得到各样本图像对应的至少一个第一特征,即第一预设神经网络对样本图像组中各样本图像进行区域分割的过程中所提取的中间特征。
作为一个示例,第一预设神经网络可以包括一个或多个卷积层,针对样本图像组中任一样本图像,将该样本图像输入到第一预设神经网络;第一预设神经网络中的各卷积层可以提取该样本图像的特征;其中,任一卷积层所提取的该样本图像的特征即为第一预设神经网络对该样本图像进行区域分割过程中所提取的中间特征。
S1003、通过第二预设神经网络对各样本图像及各样本图像对应的至少一个第一特征进行处理,得到各样本图像中所分割区域对应的特征,并根据各样本图像中所分割区域对应的特征生成各样本图像对应的编码。
示例性地,第二预设神经网络对样本图像组中各样本图像的处理可以是单独的,即依次对各样本图像进行处理,直到遍历三张样本图像,且在对不同样本图像进行处理时第二预设神经网络的参数共享。
示例性地,针对样本图像组中任一样本图像,将该样本图像输入到第二预设神经网络,第二预设神经网络对该样本图像进行处理的过程中,提取得到待检索图像的不同特征,并将所提取的特征与该样本图像对应的至少一个第一特征进行融合处理,从而最终得到该样本图像中所分割区域对应的特征;其中,融合方式可参照前文相关表述。
示例性地,各样本图像中所分割区域对应的特征可以为一维特征,生成该一维特征的方式可以参照图4中步骤S403中相关表述。
示例性地,生成各样本图像对应的编码的方式可参照图4中步骤S403中相关表述;例如,各样本图像对应的编码可以为一维编码。
在一种可能的实现方式中,第二预设网络可以为卷积神经网络,该步骤中,通过第二预设神经网络对各样本图像及各样本图像对应的至少一个第一特征进行处理,得到各样本图像中所分割区域对应的特征,可以包括:获取第一样本图像对应的至少一个第一特征中与第二预设神经网络中至少一个卷积层对应的第一特征;将第二预设神经网络中至少一个卷积层所提取的特征与第二预设神经网络中至少一个卷积层对应的第一特征进行融合,得到第二预设神经网络中至少一个卷积层对应的特征;通过对第二预设神经网络中至少一个卷积层对应的特征进行处理,得到第一样本图像中所分割区域对应的特征。
其中,第一样本图像为样本图像组中的任一图像,第二预设神经网络中至少一个卷积层对应的第一特征与第二预设神经网络中至少一个卷积层所提取的特征的尺寸相同。在卷积神经网络中不同的卷积层可以提取不同尺寸的特征,相同尺寸的特征可以包含相同或相似的信息。在第二预设神经网络对第一样本图像进行处理的过程中,将与第二预设神经网络中某一卷积层所提取的特征具有相同尺寸的第一样本图像对应的第一特征传递至该卷积层;并将该卷积层所提取的特征与该第一特征进行融合,融合后的特征可以作为该卷积层对应的特征,从而增强该卷积层对第一样本图像中所分割区域的特征提取性能;进而将该卷积层对应的特征输入到下一卷积层,该下一卷积层进行卷积操作提取新的特征,这样,将第一样本图像依次经过第二预设神经网络中的各卷积层的卷积操作,从而最终得到第一样本图像中所分割区域对应的特征,所得到的特征能够更好的表征第一样本图像中所分割区域。示例性地,第一预设神经网络与第二预设神经网络之间进行特征传递的示例可参照上述图5中相关表述。
S1004、根据各样本图像对应的编码及各样本图像对应的第一分割结果,对目标预设模型进行训练,得到目标模型。
示例性地,可以根据各样本图像对应的编码及各样本图像对应的第一分割结果,对目标预设模型进行训练,直到满足预设的训练结束条件,得到目标模型;所得到目标模型可以用于目标类别图像的相似性检索;其中,预设的训练结束条件可以包括目标损失函数值不再下降或训练达到预设迭代次数。例如,可以在训练达到最大迭代次数时完成目标预设模型的训练,得到目标模型;再例如,可以在目标损失函数值不再下降实现收敛时完成目标预设模型的训练,得到目标模型。
在一种可能的实现方式中,该步骤可以包括:根据各样本图像对应的第一分割结果及各样本图像对应的标签,确定第一损失函数值;根据各样本图像对应的编码,确定第二损失函数值;根据第一损失函数值及第二损失函数值,确定目标损失函数值;根据目标损失函数值更新目标预设模型,直到满足预设的训练结束条件,得到目标模型。其中,各样本图像对应的标签表示各样本图像对应的精确的区域分割结果。
作为一个示例,第一损失函数可以是骰子损失(Dice Loss)函数,第一损失函数值可以是样本图像组中三张样本图像对应的Dice Loss函数值的平均值。
其中,针对样本图像组中任一样本图像,其对应的Dice Loss函数值L1′可以通过下述公式(1)计算得到:
其中,P为该样本图像对应的第一分割结果,G为该样本图像对应的标签,N为该样本图像中像素的总数;Pi表示该样本图像中第i个像素对应的分割结果;Gi表示该样本图像中第i个像素对应的标签。
作为一个示例,第二损失函数可以是三元组损失(Triplet Loss,TL)函数,图11示出根据本申请一实施例的计算三元组损失函数值的示意图,如图11所示,第二预设神经网络分别对样本图像组中三张样本图像,即第一张样本图像、第二张样本图像、第三张样本图像进行处理,在对各样本图像进行处理的过程中第二预设神经网络参数共享;从而分别得到三张样本图像对应的一维编码,即编码a、编码p、编码n;进而可以通过如下公式(2)对编码a、编码p、编码n进行计算,得到三元组损失函数值L2。
L2=max{d(a,p)-d(a,n)+margin,0}………………………(2)
其中,a表示样本图像组中第一张样本图像(即锚)对应的编码,p表示样本图像组中第二张样本图像(即正例)对应的编码,n表示样本图像组中第三张样本图像(即反例)对应的编码,d(a,p)表示编码a和p之间的距离(如欧氏距离),d(a,n)表示编码a和n之间的距离。
由上述公式(2)可知,通过最小化三元组损失函数值L2,使得编码a和p之间的距离d(a,p)=0,由于编码a和n之间的距离d(a,n)不小于(d(a,p)+margin),当编码a和p之间的距离与a和n之间的距离刚好是margin时,三元组损失函数值L2的值为0,否则是一个比较大的值。可以理解的是,margin值越大,第二预设神经网络对不同类别的样本图像之间的区分能力越强,但网络较难训练,不容易收敛;margin值越小,第二预设神经网络对不同类别的样本图像的区分能力越弱,但网络训练较为容易;因此,margin值的设置可以根据具体数据而设定,对此不作限定。
示例性地,可以将第一损失函数值与第二损失函数值进行相加,作为目标损失函数值,例如,可以将样本图像组中三张样本图像对应的Dice Loss函数值的平均值与对应的三元组损失函数值相加,作为目标函数损失值。
进一步地,在得到目标损失函数值后,可以对该目标损失函数值进行反向传播,采用梯度下降算法更新目标预设模型中参数值,从而实现端到端(end-to-end)训练。通过不断训练,第一预设神经网络对样本图像进行区域分割所得到分割结果与该样本图像对应的标签的差距逐渐缩小;第二预设神经网络经过不断的对比学习,使得第二预设神经网络所生成的相同类别的样本图像对应的编码之间相似程度(如距离)不断靠近,所生成的不同类别的样本图像对应的编码之间的相似程度不断增大。这样,通过对第一预设神经网络与第二预设神经网络进行同步训练,所得到的目标模型具有优良的区域分割性能及有效区分不同类别的样本图像的能力。
这样,利用目标类别对应的多个样本图像组,通过执行上述步骤S1001-S1004,从而得到目标类别对应的目标模型;例如,可以得到上述图4、图7或图9中的目标模型,相应的,训练好的第一预设神经网络可以作为上述图4、图7或图9中的第一神经网络,训练好的第二预设神经网络可以作为上述图4、图7或图9中的第二神经网络。进一步地,可以利用不同类别对应的多个样本图像组,对应的执行上述步骤S1001-S1004,从而得到不同类别对应的预设模型;示例性地,可以采用同一网络结构,对不同类别对应的多个样本图像组进行训练,得到对应的多个预设模型。
进一步地,待上述训练完成后,可以将数据库中相同类别的图像依次输入到该类别对应的预设模型中,从而生成图像对应的编码;将该编码存储在数据库中,以作为后续进行相似性检索的依据。示例性地,该类别对应的预设模型还可以输出图像对应的区域分割结果,可以在数据库中保存已知类别的图像、图像对应的编码及图像对应的区域分割结果,作为预设图像集。
作为一个示例,将数据库中皮肤图像输入到采用皮肤样本图像三元组训练得到的目标模型中,目标模型中的第一神经网络对皮肤图像进行病灶区域分割,得到病灶区域分割结果;同时,第一神经网络将所提取的特征传递到目标模型中的第二神经网络;第二神经网络计算得到皮肤图像对应的一维编码,并存储在皮肤疾病数据库中,作为后续相似病例检索提供依据;示例性地,还可以将该皮肤图像及所得到病灶区域分割结果存储在皮肤疾病数据库中。
本申请实施例中,通过第一预设神经网络对样本图像组中各样本图像进行区域分割,并将进行区域分割过程中所提取的中间特征(即各样本图像对应的第一特征)传递到第二预设神经网络,从而实现第一预设神经网络提取到的特征与第二预设神经网络进行共享;由于各样本图像对应的第一特征包含所分割区域的信息,第二预设神经网络在对各样本图像进行处理的过程中,结合各样本图像对应的第一特征,可以将重点放到所分割区域,排除了无关信息的干扰,得到的所分割区域对应的特征能够更好的表征所分割区域,进行根据所分割区域对应的特征生成各样本图像对应的编码;这样,在训练过程中,通过第一预设神经网络与第二预设神经网络之间信息的交互,提高了第一预设神经网络中所提取的特征的利用率,第二预设神经网络通过不断学习,所生成的各样本图像对应的编码能够有效区分不同类别的样本图像,从而得到具有优良相似性检索性能的目标模型。此外,相关技术中,相似性检索方式中多个网络训练往往是分阶段的,训练过程较为复杂;本申请实施例中,在训练过程中,增加第一预设神经网络与第二预设神经网络之间信息的交互,通过将第一预设神经网络提取到的特征传递给第二预设神经网络,使得第一预设神经网络与第二预设神经网络不再是彼此独立的个体,融合成一个整体网络(即目标预设模型),使得网络的训练可以端到端进行,降低了网络训练的复杂度,提高了训练效率。
图12示出根据本申请一实施例的另一种模型训练方法的流程图。该方法可以在上述图像检索装置上执行,如图12所示,该方法可以包括以下步骤:
S1201、将样本图像组输入到目标预设模型。
该步骤与上述图10中步骤S1001相同,在此不再赘述。
S1202、显示各样本图像。
示例性地,可以通过图像检索装置所配置的显示模块,或者将各样本图像发送至单独设置的显示装置,从而显示各样本图像,以便用户查看。
S1203、响应于用户在各样本图像中的标记操作,确定各样本图像对应的种子点。
其中,种子点表示用户感兴趣区域中的点;例如,对于医学图像,种子点可以为病灶区域中的点。
该步骤中,用户标记种子点的可能方式可参照上述图7中步骤S703中标记目标种子点的相关表述。
S1204、将各样本图像对应的种子点输入到目标预设模型。
示例性地,目标预设模型可以包括区域生长模块,可以将上述用户标记的种子点输入到该区域生长模块。
需要说明的是,上述步骤S1202-S1204也可以在上述步骤S1201之前执行,对此不作限定。
S1205、基于第一样本图像对应的种子点进行区域生长,得到第一样本图像对应的第二分割结果。
其中,实现区域生长的方式可参照图7中步骤S705中相关表述。
作为一个示例,以第一样本图像为医学图像为例,用户可以在该医学图像的病灶区域标记种子点,基于用户所标记的种子点,通过区域生长得到第一样本图像中病灶区域的粗分割结果(即第二分割结果)。
S1206、通过第一预设神经网络对第一样本图像及第一样本图像对应的第二分割结果进行处理,得到第一样本图像对应的第一分割结果。
该步骤中,第一预设神经网络可以结合第一样本图像的粗分割结果,完成对第一样本图像进行区域分割,得到更加准确的分割结果(即第一分割结果),可以理解的是,还可以得到第一样本图像对应的至少一个第一特征;示例性地,第一预设神经网络可以对第一样本图像进行区域分割,并将区域分割结果与第二分割结果进行融合,从而得到第一分割结果。
S1207、通过第二预设神经网络对各样本图像及各样本图像对应的至少一个第一特征进行处理,得到各样本图像中所分割区域对应的特征;并根据各样本图像中所分割区域对应的特征生成各样本图像对应的编码。
该步骤与上述图10中步骤S1003相同,在此不再赘述。
S1208、根据各样本图像对应的编码及各样本图像对应的第一分割结果,对目标预设模型进行训练,得到目标模型。
该步骤与上述图10中步骤S1004相同,在此不再赘述。
这样,通过执行上述步骤S1201-S1208步骤对目标预设模型进行训练,基于用户在各样本图像中选取的种子点进行区域生长,并在第一预设神经网络对各样本图像进行区域分割过程中,将通过区域生长所得到的第二分割结果作为参考,进一步提升了所得到的第一分割结果的准确性;相应的,在第一预设神经网络进行区域分割过程中所提取的中间特征可以包含所分割区域更加准确的信息,将该中间特征传递至第二预设神经网络,使得第二预设神经网络所生成的编码能够更加有效区分不同类别的样本图像,从而进一步提升了训练得到的目标模型的性能。
示例性地,可以根据各样本图像对应的编码、各样本图像对应的第一分割结果以及各样本图像对应的标签,对目标预设模型进行训练,得到目标模型;其中,可以将各样本图像对应的第一分割结果或第二分割结果作为各样本图像对应的标签。
在一种可能的实现方式中,所述方法还可以包括:确定第一样本图像对应的第一分割结果与第一样本图像对应的第二分割结果的差异度;根据该差异度,确定第一样本图像对应的标签;其中,在差异度大于预设值的情况下,将第一样本图像对应的第一分割结果作为第一样本图像对应的标签;在差异度不大于预设值的情况下,将第一样本图像对应的第二分割结果作为第一样本图像对应的标签。
示例性地,差异度可以采用第一分割结果与第二分割结果之间的距离(如欧氏距离)表示;预设值可以根据实际需求进行设定,对此不作限定。在对目标预设模型进行训练的过程中,往往需要进行多轮训练;在每轮训练中,可以通过对比第一分割结果或第二分割结果,确定第一样本图像对应的标签;其中,在差异度大于预设值的情况下,即第一预设神经网络所得到的第一分割结果与通过区域生长得到的粗分割结果的差异较大,表明第一预设神经网络的性能有较大提升,则将第一分割结果作为本轮训练中第一样本图像对应的标签;在差异度不大于预设值的情况下,即第一预设神经网络所得到的第一分割结果与通过区域生长得到的粗分割结果的差异比较微小,则将通过区域生长得到的粗分割结果作为本轮训练中第一样本图像对应的标签,此时,该粗分割结果可以看作伪标签。可以理解的是,在模型训练过程,第一样本图像对应的标签在通过区域生长得到的粗分割结果与第一预设神经网络输出的第一分割结果之间不断替换,两者之间的差异度逐渐变小,直到差异可忽略时可以得到稳定的第一样本图像对应的标签。
图13示出根据本申请一实施例的一种确定各样本图像对应的标签的示意图,如图13所示,在每轮训练中,将第一样本图像及用户标记的种子点输入到区域生长模块,区域生长模块基于该种子点进行区域生长,得到第一样本图像对应的第二分割结果;将第一样本图像及第二分割结果输入到第一预设神经网络,第一预设神经网络输出第一分割结果;进而,可以将第一分割结果与第二分割结果进行对比,如果第一分割结果与第二分割结果的差异度不大于预设值,则将第二分割结果作为第一样本图像对应的伪标签,对第一预设神经网络进行训练;如果第一分割结果与第二分割结果的差异度大于预设值,则将第一分割结果作为第一样本图像对应的标签,对第一预设神经网络进行训练,从而实现半监督学习;同时,通过使用基于种子点进行区域生长得到的第二分割结果或第一预设神经网络输出的第一分割结果,作为各样本图像对应的标签对第一预设神经网络进行训练,无需获取大量人工标注的标签,提高了训练方法的实用性和可行性。
相关技术中,对分割网络及相似病例检索网络进行训练的过程中,除了需要相似病例检索所依赖的类别标签之外,还需精准的病灶区域分割标签作为训练分割网络的依据,而分割标签需专业医生花费大量精力进行标注,费时费力且标签质量难以保证,临床普适性较差。本申请实施例中,针对医学样本图像,基于医生标记在病灶区域中的种子点,通过区域生长得到的病灶区域的粗分割结果,将粗分割结果或第一预设神经网络输出的病灶区域分割结果,作为病灶区域分割标签对第一预设神经网络进行训练,从而实现病灶区域分割的半监督学习,且无需获取临床大量的人工标记的病灶分割标签,减轻了临床中医生对于病灶区域手动标记的繁重工作量,提高了训练方法的实用性和可行性。
举例来说,以样本图像组为医学样本图像三元组、第一预设神经网络和第二预设神经网络均为卷积神经网络为例,图14示出根据本申请一实施例的一种模型训练方法的示意图,如图14所示,将医学样本图像三元组中锚输入到同时输入区域生长模块、第一预设神经网络和第二预设神经网络;同时,将医生在锚上所标记的种子点输入到区域生长模块;区域生长模块可以根据医生所标记的种子点进行区域生长,得到锚对应的粗分割结果;并可以将该粗分割结果传递至第一预设网络;第一预设网络对锚及该粗分割结果进行处理,输出锚对应的病灶区域分割结果;将锚对应的病灶区域分割结果与区域生长得到锚对应的粗分割结果进行对比,如果差异较小,则使用锚对应的粗分割结果作为锚对应的标签;如果差异较大,则使用锚对应的病灶区域分割结果作为锚对应的标签。第一预设神经网络可以将对锚进行区域分割的过程中各卷积层提取到的特征传递给第二预设神经网络中相对应的卷积层,锚依次通过第二预设神经网络中各卷积层的卷积操作,最终得到锚中病灶区域对应的一维特征,并对该一维特征进行L2正则化处理,进而编码生成锚对应的一维编码。这样,参照上述对锚进行的处理,对该医学样本图像三元组中正例及反例均进行相应处理,从而可以得到锚对应的标签、正例对应的标签、反例对应的标签、锚对应的病灶区域分割结果、正例对应的病灶区域分割结果、反例对应的病灶区域分割结果,以及三个一维编码(即图中的锚对应的一维编码A、正例对应的一维编码P、反例对应的一维编码N),从而可以参照上述公式(1)及(2)计算目标损失函数值,用于更新目标预设模型。
基于上述方法实施例的同一发明构思,本申请的实施例还提供了一种图像检索装置,该图像检索装置可以用于执行上述方法实施例所描述的技术方案。例如,可以执行上述图4、图7或图9中所示方法的各步骤。
图15示出根据本申请一实施例的一种图像检索装置的结构图。如图15所示,所述装置包括:第一输入模块1501,用于将待检索图像输入到目标模型;所述目标模型包括第一神经网络和第二神经网络;第一分割模块1502,用于通过所述第一神经网络对所述待检索图像进行目标区域的分割,得到至少一个第一特征;所述第一特征为进行所述目标区域的分割过程中所提取的中间特征;编码模块1503,用于通过所述第二神经网络对所述待检索图像及所述至少一个第一特征进行处理,得到所述目标区域对应的特征,并根据所述目标区域对应的特征生成所述待检索图像对应的目标编码;检索模块1504,用于根据所述目标编码在预设图像集中检索目标图像;其中,所述预设图像集包括多个图像及与所述多个图像中各图像对应的编码,所述目标图像对应的编码与所述目标编码的相似度满足预设条件。
本申请实施例中,通过第一神经网络对待检索图像进行目标区域的分割,并将进行目标区域的分割过程中所提取的中间特征传递到第二神经网络;从而实现第一神经网络提取到的特征与第二神经网络进行共享;由于第一特征包含目标区域的信息,第二神经网络在对待检索图像进行处理的过程中,结合第一特征,可以将重点放到目标区域,排除了非目标区域的无效信息或干扰信息的干扰,所得到的目标区域对应的特征能够更好的表征目标区域;进行根据目标区域对应的特征生成准确的目标编码,并用于目标图像的检索。这样,通过第一神经网络与第二神经网络之间信息的交互,提高了第一神经网络中所提取的特征的利用率,使得第二神经网络生成准确的目标编码,从而有效提升了相似性检索的准确度。此外,目标模型可以同时完成目标区域的分割和目标图像的检索,从而实现了采用一个模型实现两个功能。
在一种可能的实现方式中,所述编码模块1503,还用于:获取所述至少一个第一特征中与所述第二神经网络中的至少一个卷积层对应的第一特征;其中,所述至少一个卷积层对应的第一特征与所述至少一个卷积层所提取的特征的尺寸相同;将所述至少一个卷积层所提取的特征与所述至少一个卷积层对应的第一特征进行融合,得到所述至少一个卷积层对应的特征;通过对所述至少一个卷积层对应的特征进行处理,得到所述目标区域对应的特征。
在一种可能的实现方式中,所述装置还包括:第一显示模块,用于显示所述待检索图像;标记模块,用于响应于用户在所述待检索图像中的标记操作,确定所述待检索图像对应的目标种子点;所述第一输入模块1501还用于将所述目标种子点输入到所述目标模型;所述第一分割模块1502,还用于:基于所述目标种子点进行区域生长,得到初始区域;通过所述第一神经网络对所述初始区域及所述待检索图像进行处理,得到所述至少一个第一特征。
在一种可能的实现方式中,所述装置还包括:第一显示模块,用于显示至少一个候选类别;选取模块,用于响应于用户在所述至少一个候选类别中的选取操作,确定目标类别;所述目标类别表示所述目标区域所对应的类别;确定模块,用于根据所述目标类别,在至少一个预设模型中确定所述目标模型。
在一种可能的实现方式中,所述预设图像集中还包括:所述多个图像中各图像对应的区域分割结果;所述装置还包括:第一显示模块,用于显示进行所述目标区域的分割所得到的分割结果,及所述目标图像对应的区域分割结果。
上述图15所示的图像检索装置及其各种可能的实现方式的技术效果及具体描述可参见上述图像检索方法,此处不再赘述。
基于上述方法实施例的同一发明构思,本申请的实施例还提供了一种模型训练装置,该模型训练装置可以用于执行上述方法实施例所描述的技术方案。例如,可以执行上述图10或图12所示方法的各步骤。
图16示出根据本申请一实施例的一种模型训练装置的结构图。如图16所示,所述装置包括:第二输入模块1601,用于将样本图像组输入到目标预设模型,所述样本图像组中包括三张样本图像,其中,两张样本图像的类别相同,第三张样本图像的类别与所述两张样本图像的类别不同;所述目标预设模型包括第一预设神经网络和第二预设神经网络;第二分割模块1602,用于通过所述第一预设神经网络对所述样本图像组中各样本图像进行区域分割,得到各样本图像对应的第一分割结果;特征模块1603,用于通过所述第二预设神经网络对所述各样本图像及所述各样本图像对应的至少一个第一特征进行处理,得到所述各样本图像中所分割区域对应的特征,并根据所述各样本图像中所分割区域对应的特征生成所述各样本图像对应的编码;其中,所述第一特征为进行所述区域分割的过程中所提取的中间特征;训练模块1604,用于根据所述各样本图像对应的编码及所述各样本图像对应的第一分割结果,对所述目标预设模型进行训练,得到目标模型。
本申请实施例中,通过第一预设神经网络对样本图像组中各样本图像进行区域分割,并将进行区域分割过程中所提取的中间特征传递到第二预设神经网络;从而实现第一预设神经网络提取到的特征与第二预设神经网络进行共享;由于各样本图像对应的第一特征包含所分割区域的信息,第二预设神经网络在对各样本图像进行处理的过程中,结合各样本图像对应的第一特征,可以将重点放到所分割区域,排除了无关信息的干扰,得到的所分割区域对应的特征能够更好的表征所分割区域;进行根据所分割区域对应的特征生成各样本图像对应的编码;这样,在训练过程中,通过第一预设神经网络与第二预设神经网络之间信息的交互,提高了第一预设神经网络中所提取的特征的利用率,第二预设神经网络通过不断学习,所生成的各样本图像对应的编码能够有效区分不同类别的样本图像,从而得到具有优良相似性检索性能的目标模型。此外,相关技术中,相似性检索方式中多个网络训练往往是分阶段的,训练过程较为复杂;本申请实施例中,在训练过程中,增加第一预设神经网络与第二预设神经网络之间信息的交互,通过将第一预设神经网络提取到的特征传递给第二预设神经网络,使得第一预设神经网络与第二预设神经网络不再是彼此独立的个体,融合成一个整体网络,使得网络的训练可以端到端进行,降低了网络训练的复杂度,提高了训练效率。
在一种可能的实现方式中,所述特征模块1603,还用于:获取第一样本图像对应的至少一个第一特征中与所述第二预设神经网络中至少一个卷积层对应的第一特征;其中,所述第一样本图像为所述样本图像组中的任一图像,所述至少一个卷积层对应的第一特征与所述至少一个卷积层所提取的特征的尺寸相同;将所述至少一个卷积层所提取的特征与所述至少一个卷积层对应的第一特征进行融合,得到所述至少一个卷积层对应的特征;通过对所述至少一个卷积层对应的特征进行处理,得到所述第一样本图像中所分割区域对应的特征。
在一种可能的实现方式中,所述训练模块1604,还用于:根据所述各样本图像对应的第一分割结果及所述各样本图像对应的标签,确定第一损失函数值;根据所述各样本图像对应的编码,确定第二损失函数值;根据所述第一损失函数值及所述第二损失函数值,确定所述目标损失函数值;根据所述目标损失函数值更新所述目标预设模型,直到满足预设的训练结束条件,得到所述目标模型。
在一种可能的实现方式中,所述装置还包括:第二显示模块,用于显示所述各样本图像;标记模块,用于响应于用户在所述各样本图像中的标记操作,确定所述各样本图像对应的种子点;所述第二输入模块1601,还用于将所述各样本图像对应的种子点输入到所述目标预设模型;所述第二分割模块1602,还用于:基于第一样本图像对应的种子点进行区域生长,得到所述第一样本图像对应的第二分割结果;通过所述第一预设神经网络对所述第一样本图像及所述第一样本图像对应的第二分割结果进行处理,得到所述第一样本图像对应的第一分割结果。
在一种可能的实现方式中,所述装置还包括:差异度确定模块,用于确定所述第一样本图像对应的第一分割结果与所述第一样本图像对应的第二分割结果的差异度;标签确定模块,用于根据所述差异度,确定所述第一样本图像对应的标签;其中,在所述差异度大于预设值的情况下,将所述第一样本图像对应的第一分割结果作为所述第一样本图像对应的标签;在所述差异度不大于预设值的情况下,将所述第一样本图像对应的第二分割结果作为所述第一样本图像对应的标签。
上述图16所示的模型训练装置及其各种可能的实现方式的技术效果及具体描述可参见上述模型训练方法,此处不再赘述。
应理解以上图像检索装置及模型训练装置中各模块的划分仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。此外,装置中的模块可以以处理器调用软件的形式实现;例如装置包括处理器,处理器与存储器连接,存储器中存储有指令,处理器调用存储器中存储的指令,以实现以上任一种方法或实现该装置各模块的功能,其中处理器例如为通用处理器,例如中央处理单元(CentralProcessing Unit,CPU)或微处理器,存储器为装置内的存储器或装置外的存储器。或者,装置中的模块可以以硬件电路的形式实现,可以通过对硬件电路的设计实现部分或全部模块的功能,该硬件电路可以理解为一个或多个处理器;例如,在一种实现中,该硬件电路为专用集成电路(application-specific integrated circuit,ASIC),通过对电路内元件逻辑关系的设计,实现以上部分或全部模块的功能;再如,在另一种实现中,该硬件电路为可以通过可编程逻辑器件(programmable logic device,PLD)实现,以现场可编程门阵列(Field Programmable Gate Array,FPGA)为例,其可以包括大量逻辑门电路,通过配置文件来配置逻辑门电路之间的连接关系,从而实现以上部分或全部模块的功能。以上装置的所有模块可以全部通过处理器调用软件的形式实现,或全部通过硬件电路的形式实现,或部分通过处理器调用软件的形式实现,剩余部分通过硬件电路的形式实现。
在本申请实施例中,处理器是一种具有信号的处理能力的电路,在一种实现中,处理器可以是具有指令读取与运行能力的电路,例如CPU、微处理器、图形处理器(graphicsprocessing unit,GPU)、数字信号处理器(digital signal processor,DSP)、神经网络处理器(neural-network processing unit,NPU)、张量处理器(tensor processing unit,TPU)等;在另一种实现中,处理器可以通过硬件电路的逻辑关系实现一定功能,该硬件电路的逻辑关系是固定的或可以重构的,例如处理器为ASIC或PLD实现的硬件电路,例如FPGA。在可重构的硬件电路中,处理器加载配置文档,实现硬件电路配置的过程,可以理解为处理器加载指令,以实现以上部分或全部模块的功能的过程。
可见,以上装置中的各模块可以是被配置成实施以上实施例方法的一个或多个处理器(或处理电路),例如:CPU、GPU、NPU、TPU、微处理器、DSP、ASIC、FPGA,或这些处理器形式中至少两种的组合。此外,以上装置中的各模块可以全部或部分可以集成在一起,或者可以独立实现,对此不作限定。
本申请的实施例还提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令时实现上述实施例的方法。示例性地,可以执行上述图4、图7或图9中所示方法的各步骤或者执行上述图10或图12所示方法的各步骤。
图17示出根据本申请一实施例的一种电子设备的结构示意图,如图17所示,该图像处理装置可以包括:至少一个处理器1701,通信线路1702,存储器1703以及至少一个通信接口704。
处理器1701可以是一个通用中央处理器,微处理器,特定应用集成电路,或一个或多个用于控制本申请方案程序执行的集成电路;处理器1701也可以包括多个通用处理器的异构运算架构,例如,可以是CPU、GPU、微处理器、DSP、ASIC、FPGA中至少两种的组合;作为一个示例,处理器1701可以是CPU+GPU或者CPU+ASIC或者CPU+FPGA。
通信线路1702可包括一通路,在上述组件之间传送信息。
通信接口1704,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如以太网,RAN,无线局域网(wireless local area networks,WLAN)等。
存储器1703可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,EEPROM)、只读光盘(compactdisc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过通信线路1702与处理器相连接。存储器也可以和处理器集成在一起。本申请实施例提供的存储器通常可以具有非易失性。其中,存储器1703用于存储执行本申请方案的计算机执行指令,并由处理器1701来控制执行。处理器1701用于执行存储器1703中存储的计算机执行指令,从而实现本申请上述实施例中提供的方法;示例性地,可以实现上述图4、图7或图9中所示方法的各步骤或者执行上述图10或图12所示方法的各步骤。
可选的,本申请实施例中的计算机执行指令也可以称之为应用程序代码,本申请实施例对此不作具体限定。
示例性地,处理器1701可以包括一个或多个CPU,例如,图17中的CPU0;处理器701也可以包括一个CPU,及GPU、ASIC、FPGA中任一个,例如,图17中的CPU0+GPU0或者CPU 0+ASIC0或者CPU0+FPGA0。
示例性地,图像处理装置可以包括多个处理器,例如图17中的处理器1701和处理器1707。这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器,或者是包括多个通用处理器的异构运算架构。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
在具体实现中,作为一种实施例,图像处理装置还可以包括输出设备1705和输入设备1706。输出设备1705和处理器1701通信,可以以多种方式来显示信息。例如,输出设备1705可以是液晶显示器(liquid crystal display,LCD),发光二级管(light emittingdiode,LED)显示设备,阴极射线管(cathode ray tube,CRT)显示设备,或投影仪(projector)等,例如,可以为车载HUD、AR-HUD、显示器等显示设备。输入设备1706和处理器1701通信,可以以多种方式接收用户的输入。例如,输入设备1706可以是鼠标、键盘、触摸屏设备或传感设备等。
本申请的实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述实施例中的方法。示例性地,可以实现上述图4、图7或图9中所示方法的各步骤或者执行上述图10或图12所示方法的各步骤。
本申请的实施例提供了一种计算机程序产品,例如,可以包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质;当所述计算机程序产品在计算机上运行时,使得所述计算机执行上述实施例中的方法。示例性地,可以上述图4、图7或图9中所示方法的各步骤或者执行上述图10或图12所示方法的各步骤。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本申请的各个方面。
这里参照根据本申请实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (22)

1.一种图像检索方法,其特征在于,包括:
将待检索图像输入到目标模型;所述目标模型包括第一神经网络和第二神经网络;
通过所述第一神经网络对所述待检索图像进行目标区域的分割,得到至少一个第一特征;所述第一特征为进行所述目标区域的分割过程中所提取的中间特征;
通过所述第二神经网络对所述待检索图像及所述至少一个第一特征进行处理,得到所述目标区域对应的特征,并根据所述目标区域对应的特征生成所述待检索图像对应的目标编码;
根据所述目标编码在预设图像集中检索目标图像;其中,所述预设图像集包括多个图像及与所述多个图像中各图像对应的编码,所述目标图像对应的编码与所述目标编码的相似度满足预设条件。
2.根据权利要求1所述的方法,其特征在于,所述通过所述第二神经网络对所述待检索图像及所述至少一个第一特征进行处理,得到所述目标区域对应的特征,包括:
获取所述至少一个第一特征中与所述第二神经网络中的至少一个卷积层对应的第一特征;其中,所述至少一个卷积层对应的第一特征与所述至少一个卷积层所提取的特征的尺寸相同;
将所述至少一个卷积层所提取的特征与所述至少一个卷积层对应的第一特征进行融合,得到所述至少一个卷积层对应的特征;
通过对所述至少一个卷积层对应的特征进行处理,得到所述目标区域对应的特征。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
显示所述待检索图像;
响应于用户在所述待检索图像中的标记操作,确定所述待检索图像对应的目标种子点;
将所述目标种子点输入到所述目标模型;
所述通过所述第一神经网络对所述待检索图像进行目标区域的分割,得到至少一个第一特征,包括:
基于所述目标种子点进行区域生长,得到初始区域;
通过所述第一神经网络对所述初始区域及所述待检索图像进行目标区域的分割,得到所述至少一个第一特征。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述方法还包括:
显示至少一个候选类别;
响应于用户在所述至少一个候选类别中的选取操作,确定目标类别;所述目标类别表示所述目标区域所对应的类别;
根据所述目标类别,在至少一个预设模型中确定所述目标模型。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述预设图像集中还包括:所述多个图像中各图像对应的区域分割结果;
所述方法还包括:
显示进行所述目标区域的分割所得到的分割结果,及所述目标图像对应的区域分割结果。
6.一种模型训练方法,其特征在于,包括:
将样本图像组输入到目标预设模型,所述样本图像组中包括三张样本图像,其中,两张样本图像的类别相同,第三张样本图像的类别与所述两张样本图像的类别不同;所述目标预设模型包括第一预设神经网络和第二预设神经网络;
通过所述第一预设神经网络对所述样本图像组中各样本图像进行区域分割,得到各样本图像对应的第一分割结果;
通过所述第二预设神经网络对所述各样本图像及所述各样本图像对应的至少一个第一特征进行处理,得到所述各样本图像中所分割区域对应的特征,并根据所述各样本图像中所分割区域对应的特征生成所述各样本图像对应的编码;其中,所述第一特征为进行所述区域分割的过程中所提取的中间特征;
根据所述各样本图像对应的编码及所述各样本图像对应的第一分割结果,对所述目标预设模型进行训练,得到目标模型。
7.根据权利要求6所述的方法,其特征在于,所述通过所述第二预设神经网络对所述各样本图像及所述各样本图像对应的至少一个第一特征进行处理,得到所述各样本图像中所分割区域对应的特征,包括:
获取第一样本图像对应的至少一个第一特征中与所述第二预设神经网络中至少一个卷积层对应的第一特征;其中,所述第一样本图像为所述样本图像组中的任一图像,所述至少一个卷积层对应的第一特征与所述至少一个卷积层所提取的特征的尺寸相同;
将所述至少一个卷积层所提取的特征与所述至少一个卷积层对应的第一特征进行融合,得到所述至少一个卷积层对应的特征;
通过对所述至少一个卷积层对应的特征进行处理,得到所述第一样本图像中所分割区域对应的特征。
8.根据权利要求6或7所述的方法,其特征在于,所述根据所述各样本图像对应的编码及所述各样本图像对应的第一分割结果,对所述目标预设模型进行训练,得到目标模型,包括:
根据所述各样本图像对应的第一分割结果及所述各样本图像对应的标签,确定第一损失函数值;
根据所述各样本图像对应的编码,确定第二损失函数值;
根据所述第一损失函数值及所述第二损失函数值,确定所述目标损失函数值;
根据所述目标损失函数值更新所述目标预设模型,直到满足预设的训练结束条件,得到所述目标模型。
9.根据权利要求6-8中任一项所述的方法,其特征在于,所述方法还包括:
显示所述各样本图像;
响应于用户在所述各样本图像中的标记操作,确定所述各样本图像对应的种子点;
将所述各样本图像对应的种子点输入到所述目标预设模型;
所述通过所述第一预设神经网络对所述样本图像组中各样本图像进行区域分割,得到各样本图像对应的第一分割结果,包括:
基于第一样本图像对应的种子点进行区域生长,得到所述第一样本图像对应的第二分割结果;
通过所述第一预设神经网络对所述第一样本图像及所述第一样本图像对应的第二分割结果进行处理,得到所述第一样本图像对应的第一分割结果。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
确定所述第一样本图像对应的第一分割结果与所述第一样本图像对应的第二分割结果的差异度;
根据所述差异度,确定所述第一样本图像对应的标签;其中,在所述差异度大于预设值的情况下,将所述第一样本图像对应的第一分割结果作为所述第一样本图像对应的标签;在所述差异度不大于预设值的情况下,将所述第一样本图像对应的第二分割结果作为所述第一样本图像对应的标签。
11.一种图像检索装置,其特征在于,包括:输入模块,用于将待检索图像输入到目标模型;所述目标模型包括第一神经网络和第二神经网络;分割模块,用于通过所述第一神经网络对所述待检索图像进行目标区域的分割,得到至少一个第一特征;所述第一特征为进行所述目标区域的分割过程中所提取的中间特征;编码模块,用于通过所述第二神经网络对所述待检索图像及所述至少一个第一特征进行处理,得到所述目标区域对应的特征,并根据所述目标区域对应的特征生成所述待检索图像对应的目标编码;检索模块,用于根据所述目标编码在预设图像集中检索目标图像;其中,所述预设图像集包括多个图像及与所述多个图像中各图像对应的编码,所述目标图像对应的编码与所述目标编码的相似度满足预设条件。
12.根据权利要求11所述的图像检索装置,其特征在于,所述编码模块,还用于:获取所述至少一个第一特征中与所述第二神经网络中的至少一个卷积层对应的第一特征;其中,所述至少一个卷积层对应的第一特征与所述至少一个卷积层所提取的特征的尺寸相同;将所述至少一个卷积层所提取的特征与所述至少一个卷积层对应的第一特征进行融合,得到所述至少一个卷积层对应的特征;通过对所述至少一个卷积层对应的特征进行处理,得到所述目标区域对应的特征。
13.根据权利要求11或12所述的图像检索装置,其特征在于,所述装置还包括:显示模块,用于显示所述待检索图像;标记模块,用于响应于用户在所述待检索图像中的标记操作,确定所述待检索图像对应的目标种子点;所述输入模块还用于将所述目标种子点输入到所述目标模型;所述分割模块,还用于:基于所述目标种子点进行区域生长,得到初始区域;通过所述第一神经网络对所述初始区域及所述待检索图像进行处理,得到所述至少一个第一特征。
14.根据权利要求11-13中任一项所述的图像检索装置,其特征在于,所述装置还包括:显示模块,用于显示至少一个候选类别;选取模块,用于响应于用户在所述至少一个候选类别中的选取操作,确定目标类别;所述目标类别表示所述目标区域所对应的类别;确定模块,用于根据所述目标类别,在至少一个预设模型中确定所述目标模型。
15.根据权利要求11-14中任一项所述的图像检索装置,其特征在于,所述预设图像集中还包括:所述多个图像中各图像对应的区域分割结果;所述装置还包括:显示模块,用于显示进行所述目标区域的分割所得到的分割结果,及所述目标图像对应的区域分割结果。
16.一种模型训练装置,其特征在于,包括:输入模块,用于将样本图像组输入到目标预设模型,所述样本图像组中包括三张样本图像,其中,两张样本图像的类别相同,第三张样本图像的类别与所述两张样本图像的类别不同;所述目标预设模型包括第一预设神经网络和第二预设神经网络;分割模块,用于通过所述第一预设神经网络对所述样本图像组中各样本图像进行区域分割,得到各样本图像对应的第一分割结果;特征模块,用于通过所述第二预设神经网络对所述各样本图像及所述各样本图像对应的至少一个第一特征进行处理,得到所述各样本图像中所分割区域对应的特征,并根据所述各样本图像中所分割区域对应的特征生成所述各样本图像对应的编码;其中,所述第一特征为进行所述区域分割的过程中所提取的中间特征;训练模块,用于根据所述各样本图像对应的编码及所述各样本图像对应的第一分割结果,对所述目标预设模型进行训练,得到目标模型。
17.根据权利要求16所述的模型训练装置,其特征在于,所述特征模块,还用于:获取第一样本图像对应的至少一个第一特征中与所述第二预设神经网络中至少一个卷积层对应的第一特征;其中,所述第一样本图像为所述样本图像组中的任一图像,所述至少一个卷积层对应的第一特征与所述至少一个卷积层所提取的特征的尺寸相同;将所述至少一个卷积层所提取的特征与所述至少一个卷积层对应的第一特征进行融合,得到所述至少一个卷积层对应的特征;通过对所述至少一个卷积层对应的特征进行处理,得到所述第一样本图像中所分割区域对应的特征。
18.根据权利要求16或17所述的模型训练装置,其特征在于,所述训练模块,还用于:根据所述各样本图像对应的第一分割结果及所述各样本图像对应的标签,确定第一损失函数值;根据所述各样本图像对应的编码,确定第二损失函数值;根据所述第一损失函数值及所述第二损失函数值,确定所述目标损失函数值;根据所述目标损失函数值更新所述目标预设模型,直到满足预设的训练结束条件,得到所述目标模型。
19.根据权利要求16-18中任一项所述的模型训练装置,其特征在于,所述装置还包括:显示模块,用于显示所述各样本图像;标记模块,用于响应于用户在所述各样本图像中的标记操作,确定所述各样本图像对应的种子点;所述输入模块,还用于将所述各样本图像对应的种子点输入到所述目标预设模型;所述分割模块,还用于:基于第一样本图像对应的种子点进行区域生长,得到所述第一样本图像对应的第二分割结果;通过所述第一预设神经网络对所述第一样本图像及所述第一样本图像对应的第二分割结果进行处理,得到所述第一样本图像对应的第一分割结果。
20.根据权利要求19中所述的模型训练装置,其特征在于,所述装置还包括:差异度确定模块,用于确定所述第一样本图像对应的第一分割结果与所述第一样本图像对应的第二分割结果的差异度;标签确定模块,用于根据所述差异度,确定所述第一样本图像对应的标签;其中,在所述差异度大于预设值的情况下,将所述第一样本图像对应的第一分割结果作为所述第一样本图像对应的标签;在所述差异度不大于预设值的情况下,将所述第一样本图像对应的第二分割结果作为所述第一样本图像对应的标签。
21.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令时实现权利要求1-5任意一项所述的方法,或者实现权利要求6-10任意一项所述的方法。
22.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1-5中任意一项所述的方法,或者,实现权利要求6-10任意一项所述的方法。
CN202210868965.7A 2022-07-22 2022-07-22 一种图像检索方法、模型训练方法、装置及存储介质 Pending CN117493601A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210868965.7A CN117493601A (zh) 2022-07-22 2022-07-22 一种图像检索方法、模型训练方法、装置及存储介质
PCT/CN2023/081658 WO2024016691A1 (zh) 2022-07-22 2023-03-15 一种图像检索方法、模型训练方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210868965.7A CN117493601A (zh) 2022-07-22 2022-07-22 一种图像检索方法、模型训练方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN117493601A true CN117493601A (zh) 2024-02-02

Family

ID=89616908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210868965.7A Pending CN117493601A (zh) 2022-07-22 2022-07-22 一种图像检索方法、模型训练方法、装置及存储介质

Country Status (2)

Country Link
CN (1) CN117493601A (zh)
WO (1) WO2024016691A1 (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389587B (zh) * 2018-09-26 2021-07-16 上海联影智能医疗科技有限公司 一种医学图像分析系统、装置及存储介质
US11276172B2 (en) * 2019-05-03 2022-03-15 Huron Technologies International Inc. Image diagnostic system, and methods of operating thereof
CN110245657B (zh) * 2019-05-17 2021-08-24 清华大学 病理图像相似性检测方法及检测装置
CN112559781B (zh) * 2020-12-10 2023-04-07 西北大学 一种图像检索系统和方法
CN114612902A (zh) * 2022-03-17 2022-06-10 腾讯科技(深圳)有限公司 图像语义分割方法、装置、设备、存储介质及程序产品

Also Published As

Publication number Publication date
WO2024016691A1 (zh) 2024-01-25

Similar Documents

Publication Publication Date Title
Usman et al. Volumetric lung nodule segmentation using adaptive roi with multi-view residual learning
US20210264599A1 (en) Deep learning based medical image detection method and related device
US11842487B2 (en) Detection model training method and apparatus, computer device and storage medium
CN112446270B (zh) 行人再识别网络的训练方法、行人再识别方法和装置
Venkatasubramanian et al. Prediction of Alzheimer’s Disease Using DHO‐Based Pretrained CNN Model
WO2022001623A1 (zh) 基于人工智能的图像处理方法、装置、设备及存储介质
CN110489582B (zh) 个性化展示图像的生成方法及装置、电子设备
CN112330684B (zh) 对象分割方法、装置、计算机设备及存储介质
CN111476806B (zh) 图像处理方法、装置、计算机设备和存储介质
An et al. Medical image segmentation algorithm based on multilayer boundary perception-self attention deep learning model
CN111091010A (zh) 相似度确定、网络训练、查找方法及装置和存储介质
JP2023533907A (ja) 自己注意ベースのニューラルネットワークを使用した画像処理
Casaca et al. Laplacian coordinates: Theory and methods for seeded image segmentation
Grigorev et al. Depth estimation from single monocular images using deep hybrid network
CN116129141A (zh) 医学数据处理方法、装置、设备、介质和计算机程序产品
Manaswi Generative Adversarial Networks with Industrial Use Cases: Learning How to Build GAN Applications for Retail, Healthcare, Telecom, Media, Education, and HRTech
Chatterjee et al. A survey on techniques used in medical imaging processing
CN111582449B (zh) 一种目标域检测网络的训练方法、装置、设备及存储介质
Lima et al. Automatic design of deep neural networks applied to image segmentation problems
US11816185B1 (en) Multi-view image analysis using neural networks
JP7225731B2 (ja) 多変数データシーケンスの画像化
WO2023160157A1 (zh) 三维医学图像的识别方法、装置、设备、存储介质及产品
Zou et al. An intelligent image feature recognition algorithm with hierarchical attribute constraints based on weak supervision and label correlation
CN117493601A (zh) 一种图像检索方法、模型训练方法、装置及存储介质
Glory Precious et al. Deployment of a mobile application using a novel deep neural network and advanced pre-trained models for the identification of brain tumours

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication