CN116168258A - 一种目标物分类方法、装置、设备及可读存储介质 - Google Patents

一种目标物分类方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN116168258A
CN116168258A CN202310454392.8A CN202310454392A CN116168258A CN 116168258 A CN116168258 A CN 116168258A CN 202310454392 A CN202310454392 A CN 202310454392A CN 116168258 A CN116168258 A CN 116168258A
Authority
CN
China
Prior art keywords
mode
target
classification
image
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310454392.8A
Other languages
English (en)
Other versions
CN116168258B (zh
Inventor
李劲松
刘帆
童琪琦
邱文渊
陈子洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202310454392.8A priority Critical patent/CN116168258B/zh
Publication of CN116168258A publication Critical patent/CN116168258A/zh
Application granted granted Critical
Publication of CN116168258B publication Critical patent/CN116168258B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • G06V2201/032Recognition of patterns in medical or anatomical images of protuberances, polyps nodules, etc.
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本说明书公开了一种目标物分类方法、装置、设备及可读存储介质,通过分别训练各模态的第一分类模型,将各模态的第一分类模型的特征提取子网作为各模态对应的特征提取子网,构建包含各模态的特征提取子网以及第二分类器的第二分类模型,并通过特征提取子网得到各模态的第一目标特征,并将各模态的第一目标特征融合得到的第二目标特征输入第二分类器得到预测分类结果,以预测分类结果以及第一训练样本的标签之间差异的最小化为优化目标,调整第二分类器的参数。可见,通过迁移预训练的特征提取子网的方式,解决了训练样本量少导致的模型分类效果差的问题,根据各模态的第一目标特征进行融合得到预测分类结果,能够提高模型分类性能。

Description

一种目标物分类方法、装置、设备及可读存储介质
技术领域
本说明书涉及计算机技术领域,尤其涉及一种目标物分类方法、装置、设备及可读存储介质。
背景技术
胶质瘤是中枢神经系统肿瘤中最常见一种。在临床中,术前的胶质瘤分类对于治疗决策和预后分析非常重要。传统的胶质瘤分类方案是通过活组织切片检查得到的病理学诊断,但这种侵入式的检查方式会对患者带来额外的伤害。
随着人工智能技术的发展,目前已经采用机器学习的方法得到胶质瘤分类模型,并通过该模型实现输入患者的扫描影像,输出胶质瘤分类结果的目的。
但是,上述方案中,模型分类的准确性与模型训练时采用的训练样本相关,训练样本的样本量少可能导致模型的准确性降低。
发明内容
本说明书提供一种目标物分类方法、装置、设备及可读存储介质,以部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了一种目标物分类方法,包括:
获取参考用户的多模态的目标物图像,以及所述参考用户的目标物分类结果;
针对每个模态,将该模态的目标物图像作为该模态的第一训练样本,将所述目标物分类结果作为所述第一训练样本的标签,训练该模态的第一分类模型,所述第一分类模型包含预先基于通用图像集训练的图像分类模型的特征提取子网以及待训练的第一分类器;
将训练完成的各模态的第一分类模型的特征提取子网,作为各模态对应的特征提取子网,根据所述各模态对应的特征提取子网以及待训练的第二分类器,构建第二分类模型;
分别将各模态的第一训练样本输入所述第二分类模型,通过各模态分别对应的特征提取子网,得到各模态的第一目标特征;
对所述各模态的第一目标特征进行融合,得到第二目标特征,并将所述第二目标特征输入所述第二分类器,得到所述第二分类器输出的预测分类结果;
以所述预测分类结果以及所述第一训练样本的标签之间差异的最小化为优化目标,调整所述第二分类器的参数;
响应于分类请求,将目标用户的多模态目标物图像输入到训练完成的第二分类模型中,得到所述目标用户的目标物分类结果。
可选地,预先训练特征提取子网,具体包括:
获取若干扫描图像作为第二训练样本;
对所述第二训练样本进行图像变换,得到变换后的扫描图像;
将待训练的特征提取子网和图像生成器串联得到待训练的图像处理模型;
将变换后的扫描图像输入所述图像处理模型,得到所述图像处理模型输出的还原扫描图像;
以所述还原扫描图像与所述第二训练样本之间的差异最小化为训练目标,训练所述图像处理模型。
可选地,训练该模态的第一分类模型之前,所述方法还包括:
对所述参考用户的多模态的目标物图像进行去噪、颅骨剥离的预处理,得到预处理后的多模态的目标物图像;
对预处理后的各模态的目标物图像进行配准以及重采样标准化处理。
可选地,对预处理后的各模态的目标物图像进行配准,具体包括:
从所述参考用户的各模态的目标物图像中选择图像分辨率最高的模态作为参考模态;
将所述各模态的目标物图像向所述参考模态的目标物图像进行配准。
可选地,训练该模态的第一分类模型之前,所述方法还包括:
根据所述各模态的目标物图像中目标物的位置确定目标区域;所述目标区域对应的图像至少包含各模态的目标物的完整图像;
从所述各模态的目标物图像中裁切出各模态的目标区域对应的图像;
训练该模态的第一分类模型,具体包括:
将该模态的目标区域对应的图像作为输入,输入到该模态的第一分类模型,得到该模态的第一分类模型输出的该模态的目标区域对应的图像的预测分类结果;
以所述第一训练样本的标签以及所述预测分类结果之间的差异的最小化为优化目标,该模态的第一分类模型的参数。
可选地,所述各模态的第一分类模型的特征提取子网中包括多个神经网络层;
以所述第一训练样本的标签以及所述预测分类结果之间的差异的最小化为优化目标,调整该模态的第一分类模型的参数,具体包括:
从该模态的第一分类模型的特征提取子网的各神经网络层中确定指定层;
以所述第一训练样本的标签以及所述预测分类结果之间的差异的最小化为优化目标,调整所述指定层的参数以及所述第一分类器的参数。
可选地,所述各模态的第一分类模型的特征提取子网中包括多个神经网络层;
以所述第一训练样本的标签以及所述预测分类结果之间的差异的最小化为优化目标,调整该模态的第一分类模型的参数,具体包括:
从该模态的第一分类模型的特征提取子网的各神经网络层中筛选出至少一个目标层;
以所述第一训练样本的标签以及所述预测分类结果之间的差异的最小化为优化目标,调整筛选出的目标层的参数,以及所述第一分类器的参数。
可选地,从该模态的第一分类模型的特征提取子网的各神经网络层中筛选出至少一个目标层,具体包括:
根据所述第一训练样本的样本量以及在所述第一训练样本上的交叉验证结果,确定该模态的第一分类模型的特征提取子网中需要进行参数调整的神经网络层的数量;
根据所述数量,从该模态的第一分类模型的特征提取子网的各神经网络层中筛选出所述数量对应的目标层。
可选地,分别将各模态的第一训练样本输入所述第二分类模型,通过各模态分别对应的特征提取子网,得到各模态的第一目标特征,具体包括:
分别将各模态的目标区域对应的图像输入所述第二分类模型,通过各模态分别对应的特征提取子网,得到各模态的第一目标特征。
可选地,对所述各模态的第一目标特征进行融合,得到第二目标特征,具体包括:
将所述各模态的第一目标特征进行拼接得到中间特征;
根据所述中间特征和所述第一训练样本的标签,通过预先优化的特征筛选算法对所述中间特征进行降维,得到第二目标特征。
可选地,将目标用户的多模态目标物图像输入到训练完成的第二分类模型中,得到所述目标用户的目标物分类结果,具体包括:
将所述目标用户的多模态目标物图像输入到所述第二分类模型,通过所述第二分类模型中的各模态的特征提取子网,得到各模态的第一目标特征;
将所述各模态的第一目标特征进行拼接得到中间特征;
通过预先优化的特征筛选算法对所述中间特征进行降维,得到第二目标特征;
将所述第二目标特征输入到优化后的第二分类器,得到所述目标用户的目标物分类结果。
本说明书提供了一种目标物分类装置,包括:
获取模块,用于获取参考用户的多模态的目标物图像,以及所述参考用户的目标物分类结果;
第一训练模块,用于针对每个模态,将该模态的目标物图像作为该模态的第一训练样本,将所述目标物分类结果作为所述第一训练样本的标签,训练该模态的第一分类模型,所述第一分类模型包含预先基于通用图像集训练的图像分类模型的特征提取子网以及待训练的第一分类器;
模型构建模块,用于将训练完成的各模态的第一分类模型的特征提取子网,作为各模态对应的特征提取子网,根据所述各模态对应的特征提取子网以及待训练的第二分类器,构建第二分类模型;
第一目标特征确定模块,用于分别将各模态的第一训练样本输入所述第二分类模型,通过各模态分别对应的特征提取子网,得到各模态的第一目标特征;
预测分类结果确定模块,用于对所述各模态的第一目标特征进行融合,得到第二目标特征,并将所述第二目标特征输入所述第二分类器,得到所述第二分类器输出的预测分类结果;
调整模块,用于以所述预测分类结果以及所述第一训练样本的标签之间差异的最小化为优化目标,调整所述第二分类器的参数;
分类模块,用于响应于分类请求,将目标用户的多模态目标物图像输入到训练完成的第二分类模型中,得到所述目标用户的目标物分类结果。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述目标物分类方法。
本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述目标物分类方法。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
本说明提供的目标物分类方法中,通过将各模态的目标物图像作为各模态的第一训练样本,并以目标物分类结果为第一训练样本的标签,分别训练由预训练的特征提取子网构建的各模态的第一分类模型,将训练完成的各模态的第一分类模型的特征提取子网作为各模态对应的特征提取子网,并构建包含各模态的特征提取子网以及第二分类器的第二分类模型,通过各模态分别对应的特征提取子网,得到各模态的第一目标特征,并将各模态的第一目标特征融合得到的第二目标特征输入所第二分类器得到预测分类结果,进而以预测分类结果以及第一训练样本的标签之间差异的最小化为优化目标,调整第二分类器的参数。可见,通过迁移预训练的特征提取子网的方式,解决了训练样本量少导致的模型分类效果差的问题,并且,根据各模态的第一目标特征进行融合分析得到预测分类结果的方式,能够达到提高模型分类性能的目的。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书中一种目标物分类方法的流程示意图;
图2为本说明书中一种第二分类模型的示意图;
图3为本说明书中一种目标物分类方法的流程示意图;
图4为本说明书中一种图像处理模型的示意图;
图5为本说明书中一种目标物分类方法的流程示意图;
图6为本说明书提供的一种目标物分类装置的示意图;
图7为本说明书提供的对应于图1的电子设备示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
另外,需要说明的是,本发明中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
随着人工智能技术的发展,采用机器学习的方法得到用于识别图像中目标物的类型的分类模型广泛应用到各种实际场景中。例如,在无人驾驶领域,针对采集到的道路图像对图像中的障碍物进行分类以实现避障;在监控技术领域,针对监控中的每一帧图像中的人物进行分类以确定需要追踪的目标人物;在医疗技术领域,针对患者的医学图像对患者的病灶进行分类以得出患者的参考诊断结果。
其中,在医疗技术领域,将机器学习方法和医学图像结合,通过对医学图像中的病灶目标进行识别以及分类,得到具有医学价值的诊断参考结果,能够辅助医生对患者的病情进行分析。因此,基于医学影像的目标物分类模型越来越广泛应用在医疗技术领域中。
具体的,胶质瘤作为中枢神经系统肿瘤中最常见一种,其在恶性脑肿瘤中的占比已超过80%。在临床中,术前的胶质瘤分类对于治疗决策和预后分析非常重要,通过活组织切片检查得到的病理学诊断是胶质瘤分类的金标准,但是这种侵入式的检查方式会对患者带来额外的伤害。由此,在越来越多种类疾病的筛查、诊断或治疗中开始采用软组织分辨率高、非侵入式、无电离辐射以及多参数成像的医学成像技术,如磁共振成像(MagneticResonance Imaging,MRI)技术。
随着人工智能技术的发展,将人工智能和医学影像相结合的影像组学分析方法也得到了极大的发展,目前影像组学已经被用于疾病检测、诊断和预后分析等各种临床应用中,尤其是在肿瘤分析领域。目前,基于深度学习的模型已经可以实现传统影像组学中目标物分割、特征提取等过程的自动化,并且能够将后续基于特征的分析模块也集成在神经网络中,从而实现输入原始图像数据、输出最终预测结果的端到端模型。
但是上述方案存在因为训练数据量太少的原因无法直接将原始医学图像作为输入来训练模型的问题。在实际临床中,由于患者医疗数据隐私性问题、病例数据较少,或者标注成本较高等原因,难以获得足够多的带有准确标注的、可以用于训练模型的医学影响影像数据。
基于此,本说明书提供一种目标物分类方法,通过迁移预训练的特征提取子网的方式,解决了训练样本量少导致的模型分类效果差的问题,并且,根据各模态的第一目标特征得到预测分类结果的方式,能够达到提高模型分类性能的目的。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书提供的一种目标物分类方法的流程示意图。
S100:获取参考用户的多模态的目标物图像,以及所述参考用户的目标物分类结果。
本说明书实施例中提供一种目标物分类方法,并涉及分类模型的训练过程,其中,分类模型的训练过程可由用于训练模型的服务器等电子设备执行该分类模型的训练过程。执行分类模型训练过程的电子设备与执行分类方法的电子设备可以相同也可以不同,本说明书对此不做限定。
本说明书提供的目标物分类方法可以应用于多种不同的实际场景中,如在无人驾驶领域对无人设备采集的图像中的障碍物进行分类,则该场景中目标物为障碍物;如在监控技术领域,对监控设备采集的人脸图像进行人脸分类时,则该场景中目标物为人脸;如在医疗技术领域中,针对患者的患病部位的医学图像进行病灶分类时,该场景中的目标物即为病灶(如肿瘤物)。根据不同类型的应用场景,目标物的实际类型可能有所不同,因此,目标物的类型可以根据具体的应用场景确定,本说明书实施例中以目标物分类模型应用在医疗技术领域,对患者的胶质瘤进行分类为例,对技术方案进行详细阐述。
在实际应用中,胶质瘤可以分成高级别胶质瘤(WHO 3~4级)和低级别胶质瘤LGG(WHO 1~2级)。高级别胶质瘤(HGG)的恶性程度较高,患者预后较差;而分化良好的低级别胶质瘤(LGG)虽然不属于良性肿瘤,但患者的预后相对较好。因此,根据第二分类模型的类型,可以确定不同的参考用户的目标物分类结果。如果第二分类模型是二分类模型,则参考用户的目标物分类结果可分为高级别类型和低级别类型,如果第二分类模型是多分类模型,则参考用户的目标物分类结果可以是1级、2级、3级、4级。
另一方面,将胶质瘤患者作为参考用户,获取不同参考用户的脑部多模态医疗图像,其中,由于单一的医学图像采集模式由于无法充分描述参考用户体内目标物的特征,常常会因单一模态的医学图像表征目标物过于片面而导致分类和识别的准确率降低,因此,可以利用不同的模态以弥补上述弱点。多种模式图像信息能够有效互补,可以有效地提升识别和分类的准确性。对此,在本说明书实施例中,多模态可以指的是多种模态的影像设备采集的参考用户的医疗图像,多种模态的影像设备可以是CT、超声、MRI、PECT等。多模态也可以指的是同一种影像设备的不同成像方式,如MRI成像的T1、T2、T1ce、Flair模态,本说明书对此不做限定。总之,通过医学影像设备对参考用户进行多次图像采集,得到不同模态下、包含有目标物的、参考用户的医学图像,以采集目标物的多种不同的形态表现。
S102:针对每个模态,将该模态的目标物图像作为该模态的第一训练样本,将所述目标物分类结果作为所述第一训练样本的标签,训练该模态的第一分类模型,所述第一分类模型包含预先基于通用图像集训练的图像分类模型的特征提取子网以及待训练的第一分类器。
进一步的,为了从各个模态的目标物图像中充分提取目标物的特征,可以针对每个模态训练第一分类模型,其中,每个模态的第一分类模型可以通过迁移学习的方法可以将预训练的特征提取子网与待训练的第一分类器串联得到。这样,可以将预训练的特征子网在训练中学习到的知识(即网络中的参数训练结果)迁移到每个模态的第一分类模型,以帮助每个模态的第一分类模型在训练样本量较少的情况下仍然能够实现较好的训练效果。
其中,预先训练的特征子网可以来自预先训练的图像处理模型,该图像处理模型可以通过自监督的方式,以将变换后的图像还原回原始图像为训练目标进行训练,该预先训练的图像处理模型所采用的训练样本可以来源于通用图像集,为了提高图像处理模型提取医学影像特征的准确性,优选地,图像处理模型的训练样本可以是医学影像,而其中,根据具体的应用场景,可以选用三维医学影像或者二维医学影像作为训练样本,当然也可以是将三维医学影像以及二维医学影像作为训练样本,本说明书对此不做限定,但是,一般的,由于需要采用图像处理模型中的特征提取子网构建第一分类器,因此可以根据第一分类器的训练样本的类型确定该图像处理模型所用的训练样本的类型。例如,第一分类模型训练所用的第一训练样本为三维图像,则训练图像处理模型的训练样本也为三维图像。
该模型可以是现有任意包含特征提取子网的模型,例如3D U-Net模型。在自监督的图像处理模型的训练中,可以选择样本量较大的医学图像公开数据集作为训练数据。在条件允许的情况下,所用公开数据集的模态、部位应该与后续胶质瘤分类任务中使用的多模态影像数据尽量保持一致。
在本说明书实施例中,各模态的第一分类模型分别基于各模态的目标物图像进行独立训练。假设目标物图像有K个模态,对于其中第i个模态Mi(i=1,2,…,K),将目标物图像中的Mi模态的目标物图像作为该模态的第一分类模型的第一训练样本,对初始的该模态的第一分类模型(即预先训练好的图像处理模型的特征提取子网和随机参数初始化的第一分类器串联得到的模型)进行迁移学习训练,得到第i个模态的第一分类模型Ni。对于每个模态都分别独立进行上述迁移学习训练,最终得到与K个模态对应的K个第一分类模型。
S104:将训练完成的各模态的第一分类模型的特征提取子网,作为各模态对应的特征提取子网,根据所述各模态对应的特征提取子网以及待训练的第二分类器,构建第二分类模型。
具体的,进行迁移学习训练得到的各模态的第一分类模型,其中的各模态对应的特征提取子网可以更好的从各模态的目标物图像中提取目标物的特征,为了更进一步提高目标物分类的准确性,可以将从各模态的目标物图像中提取目标物的特征融合,并基于融合后的特征进行目标物分类,这就需要将各模态的目标物图像分别经过各模态的特征提取层得到不同模态的目标物特征,基于此,可根据各模态对应的特征提取子网以及第二分类器构建第二分类模型,其中,各个模态对应的特征提取子网之间的关系可以是并列的,而各模态的特征提取子网的输出均输入到第二分类器中,第二分类模型的模型结构可如图2所示。
S106:分别将各模态的第一训练样本输入所述第二分类模型,通过各模态分别对应的特征提取子网,得到各模态的第一目标特征。
进一步的,基于训练完成的各模态的第一分类模型从各模态的目标物图像中提取目标物的第一目标特征。具体的,对于模态Mi对应的目标物图像,将其输入到训练好的模态Mi对应的第一分类模型Ni中,然后将第一分类模型Ni中特征提取子网的输出(即后端第一分类器的输入)作为模态Mi对应的第一目标特征。如此,可用K个第一分类模型对所有K个模态的目标无图像提取各模态的目标物的第一目标特征。
S108:对所述各模态的第一目标特征进行融合,得到第二目标特征,并将所述第二目标特征输入所述第二分类器,得到所述第二分类器输出的预测分类结果。
S110:以所述预测分类结果以及所述训练样本的标签之间差异的最小化为优化目标,调整所述第二分类器的参数。
将训练后的各模态的第一分类模型中的特征提取子网提取出来并联,并均与后端待训练的第二分类器进行串联,得到本说明书实施例中的第二分类模型。具体的,第一分类器和第二分类器的神经网络结构可以相同,也可以不同,两者区别在于第一分类器是基于从不同模态的目标物图像中提取的特征进行目标物分类的,而第二分类器是基于融合后的第二目标特征进行目标物分类的。
由于各模态的特征提取子网是经过训练的,所以在优化第二分类器的模型参数时,可以不对各模态的特征提取子网的参数进行调整,以简化模型训练的过程,降低复杂度。
可选的,在第二分类模型训练后可以基于预选确定的测试图像对第二分类模型进行性能评估,将测试图像输入第二分类模型并得到第二分类模型输出的测试图像对应的预测目标物分类结果,并以测试图像的预测目标物分类结果与真实标签分类结果之间的差异,确定第二分类模型的性能,以测试图像的预测目标物分类结果与真实标签分类结果之间的差异可以通过不同的评价指标确定,如AUC(Area Under Curve)、准确率、敏感度、特异性等,本说明书对此不做限定。
S112:响应于分类请求,将目标用户的多模态目标物图像输入到训练完成的第二分类模型中,得到所述目标用户的目标物分类结果。
本说明提供的目标物分类方法中,通过分别训练由预训练的特征提取子网构建的各模态的第一分类模型,将训练完成的各模态的第一分类模型的特征提取子网作为各模态对应的特征提取子网,构建包含各模态的特征提取子网以及第二分类器的第二分类模型,并通过特征提取子网得到各模态的第一目标特征,进而通过第二分类器得到预测分类结果,以预测分类结果以及第一训练样本的标签之间差异的最小化为优化目标,调整第二分类器的参数。可见,通过迁移预训练的特征提取子网的方式,解决了训练样本量少导致的模型分类效果差的问题,并且,根据各模态的第一目标特征进行融合分析得到预测分类结果的方式,能够达到提高模型分类性能的目的。
在本说明书一个或多个实施例中,如图1步骤S102训练该模态的第一分类模型之前,需要得到预先训练的特征提取子网,而预先训练的特征提取子网可以来源于预先训练的图像处理模型,图像处理模型的训练方案可如下,如图3所示。
S200:获取若干扫描图像作为第二训练样本。
在自监督图像处理模型的训练中,可以选择样本量较大的医学图像公开数据集作为训练图像处理模型的训练样本,并且,由于图像处理模型是基于自监督学习进行训练的,无需对训练样本进行标注,这极大地降低了数据收集的难度。可选的,在条件允许的情况下,图像处理模型所用的训练样本中图像的模态、部位可以与前述目标物分类任务中使用的多模态目标物图像尽量保持一致,目的是进一步降低训练的难度。
S202:对所述第二训练样本进行图像变换,得到变换后的扫描图像。
进一步地,为了更好的从医学图像中提取特征,图像处理模型的训练目标是将变换后的图像恢复到变换前的原始图像,如图4所示,X0是原始医学图像,对X0进行灰度值非线性变换、局部像素位置重排等变换得到X1。将X1输入到待训练的图像处理模型中,得到图像处理模型输出的恢复后的图像X2,根据X0和X2之间的差异确定损失,并以损失最小化为训练目标,训练图像处理模型。
S204:将待训练的特征提取子网和图像生成器串联得到待训练的图像处理模型。
S206:将变换后的扫描图像输入所述图像处理模型,得到所述图像处理模型输出的还原扫描图像。
其中,特征提取子网用于从变换后的图像中提取图像的特征,图像生成器用于基于提取出的图像特征生成原始图像,作为还原扫描图像。将图像处理模型输出的还原扫描图像与第二训练样本之间的差异的最小化为训练目标,图像处理模型在训练的过程中能够学习到将变换后的图像还原出原始图像的能力,因此,图像处理模型中的特征提取子网有较高的图像特征提取能力。
S208:以所述还原扫描图像与所述第二训练样本之间的差异最小化为训练目标,训练所述图像处理模型。
所述还原扫描图像与所述第二训练样本之间的差异通过损失函数确定,其中,损失函数的类型可以是现有的任意类型的损失函数,本说明书不做限定。
在本说明书一个可选的实施例中,在如图1步骤S102训练该模态的第一分类模型之前,可以对作为第一训练样本的参考用户的多模态目标物图像进行预处理。其中,预处理的方式可以包括去噪和颅骨剥离。其中,去噪是将目标物图像中作为干扰的噪声去掉,颅骨剥离是将头骨从目标物图像中去除,目的是将图像特征提取的重点集中在头颅中间的组织。
之后,还可以对不同模态图像之间进行配准,配准的方式为:将分辨率最高的模态作为参考模态,其他模态的影像数据均通过配准算法向其进行配准。配准的目的在于:寻找一种空间变换,使得多模态目标物图像的对应点达到空间位置和解剖位置的完全一致,配准的结果应该使多模态目标物图像上所有的解剖点、或至少是具有诊断意义的点都达到匹配。配准可以是单模态目标物图像之间的配准(即待配准的目标物图像由相同的成像设备获取),可以是多模态目标物图像之间的配准(待配准的目标物图像来源于不同的成像设备),也可以是患者和模态之间的配准。具体的配准对象和配准算法可根据具体的应用场景确定,本说明书对此不做限定。
另外,配准后对多模态目标物图像进行基于最近邻插值技术的重采样,目标是使3D图像通过重采样后在三个维度上具有各向同性的分辨率,比如1 mm ×1 mm ×1 mm。
进一步地,本说明书一个可选的实施例中,在如图1步骤S102训练该模态的第一分类模型之前,还可以对作为第一训练样本的目标物图像进行分割,具体如下:
首先,根据所述各模态的目标物图像中目标物的位置确定目标区域;所述目标区域对应的图像至少包含各模态的目标物的完整图像。
传统的影像组学方法一般需要先精确分割出肿瘤区域ROI,然后才能提取ROI的各种特征并用于后续的分析,而肿瘤ROI的精确分割通常难度较大或者工作量较大;此外,特征提取的方式需要算法设计者手工设计,这会导致对专家经验的依赖并产生一定的主观差异性。
与传统影像组学方法相比,本发明不需要对肿瘤ROI进行精确分割,而只需要粗略地裁切出一个包含肿瘤的立方体区域;不需要对目标物ROI区域进行精确分割,也无需对特征提取方式进行手工设计。
其次,从所述各模态的目标物图像中裁切出各模态的目标区域对应的图像。
在各模态的第一分类模型的训练过程中,输入数据为裁切后的目标物特向,将裁切目标立方体区域在x, y, z三个方向的像素尺寸大小记为Cw, 则裁切后的3D图像尺寸大小记为(Cw,Cw,Cw)。裁切的基本原则是裁切后的立方体区域能够包含整个肿瘤,且尽量使肿瘤位于该立方体区域的中心;而Cw值对于不同的数据应该保持统一,其大小设置为能包含所有肿瘤的最小值,也即所有肿瘤尺寸中的最大值。
在本说明提供的一个或多个实施例中,在如图1步骤S102训练该模态的第一分类模型时,由于特征提取子网包含有多个神经网络层,参数优化的目标通常不是该模态的第一分类模型的特征提取子网包含的所有神经网络层,具体可以分为以下两种情况:
第一种情况:在各模态的第一分类模型分别训练的过程中,将特征提取子网的前几层神经网络(代表医学图像底层特征的提取方式)的参数冻结,仅对特征提取子网的指定层的神经网络参数和第一分类器的参数进行优化。该指定层的神经网络可以是特征提取子网中的最后一层,这是由于特征提取子网包含的多层神经网络中,前几层神经网络是用于提取医学图像中目标物的底层特征,如形状、边缘、大小等,而最后一层神经网络用于提取医学图像中目标物的高层特征,如语义特征。通常,预训练的特征子网中用于提取低层特征的神经网络对各模态的目标物图像的底层特征提取的泛化性较高,而最后一层神经网络在对各模态的目标物图像的高层特征提取的泛化性较低,因此可以在各模态的第一分类模型的训练过程中,重新调整最后一层的神经网络的参数,以使第一分类模型能够更为精准的提取各模态的目标物图像的特征,并达到准确的分类效果。当然,可选的,该指定层可以是在第一分类模型训练之前预先设置的,并非仅可以是特征提取子网中的最后一层,也可以是中间层,本说明书对此不做限定。
第二种情况:从该模态的第一分类模型的特征提取子网的各神经网络层中筛选出至少一个目标层。其中,可以根据该模态的第一训练样本的样本量和第二分类模型在第一训练样本上的交叉验证结果,确定该模态的第一分类模型在训练过程中,需要进行参数调整的若干层神经网络。具体的,特征提取子网中不同层的神经网络从图像中提取的目标物的特征不同,通常,后端的神经网络所提取的特征比前端的神经网络提取的特征的级别高,而级别越高的目标物特征越能够体现目标物的实际概念。基于此,如果第一训练样本的样本量较大,重新调整特征提取子网中后几层神经网络的参数能够提高特征提取子网提取目标物高层语义特征的准确性;相应的,如果第一训练样本的样本量较小,能够学习到的特征也较少,此时如果调整的神经网络的数量较多,可能会由于过拟合而影响特征提取子网在预训练时学习到的特征提取能力。根据交叉验证结果与第一训练样本的样本量确定需要进行参数调整的神经网络同理。因此,可以根据所述第一训练样本的样本量和第二分类模型在第一训练样本上的交叉验证结果,确定该模态的第一分类模型的特征提取子网中需要进行参数调整的至少部分网络,作为目标网络,进而以所述第一训练样本的标签以及所述预测分类结果之间的差异的最小化为优化目标,调整所述目标网络的参数,以及所述第一分类器的参数。当然,还可以通过第一训练样本的样本量以及在第一训练样本上的交叉验证结果中的至少一个确定需要进行参数调整的神经网络层的数量,另外,本说明书并不限制在确定需要进行参数调整的神经网络层的数量时,第一训练样本的样本量和交叉验证结果分别对确定所述数量的重要程度。
在本说明书一个或多个实施例中,如图1步骤S108所示对所述各模态的第一目标特征进行融合,得到第二目标特征,并将所述第二目标特征输入所述第二分类器,得到所述第二分类器输出的预测分类结果,具体可以如下方案实施:
首先,对所述各模态的第一目标特征进行融合得到第二目标特征。
具体的,通过向量拼接的方式对各模态的第一目标特征进行融合,以得到多模态的中间特征。可选的,由于各模态的第一目标特征的维度较大,还可以先将第一目标特征进行降维处理,避免拼接得到的中间特征维度更大,训练样本数少而导致过拟合,从而影响最终分类模型的性能和泛化性。
然后,将所述第二目标特征输入所述第二分类器,根据所述第二分类器的输出确定所述预测分类结果。
在本说明书一个可选的实施例中,可以对上述步骤中通过拼接得到的中间特征通过预先优化的特征筛选算法进行特征筛选,得到第二目标特征,进而基于第二目标特征和第二分类器得到预测分类结果。其中,该特征筛选算法可以是现有的任意一种特征筛选算法,可以根据具体的应用场景和具体的第一训练样本确定,本说明书对此不做限定。
其中,上述预先优化的特征筛选算法可以是基于过滤式方案的t检验、卡方检验或者是F 检验,通过独立统计中间特征中每一维特征与第一训练样本的标签之间的相关性来为每一维特征打分,并将相关性较大的多个特征筛选出来作为第二目标特征;还可以是基于嵌入式方案的Lasso特征筛选和树模型,通过利用了模型本身的特性,将特征选择嵌入到模型的构建过程中。以Lasso特征筛选为例,在第二分类模型的训练过程中通过L1范数形成的惩罚项对模型系数加以约束,控制模型参数的稀疏程度,模型参数越稀疏,会有越多的与第一训练样本的标签最不相关、或者对第一训练样本的预测分类结果贡献最小的一部分特征的特征系数为0,即不选用该特征,以达到特征筛选的目的。
通过优化后的特征筛选算法,可以得到中间特征中与第一训练样本的标签最相关、或者对第一训练样本的预测分类结果贡献最大的一部分特征。特征筛选算法可以根据所需处理的数据特点从现有的降维算法中进行选择,本说明书对此不做限定。
通过特征筛选算法,可以得到在对目标物进行分类时起到的作用较大若干个特征,进而在应用的过程中,仅将拼接得到的中间特征中,对最终预测有较大价值的特征提取出来,组合作为第二目标特征,即可在对特征进行降维的同时,最大限度的保留对分类起作用较大的特征,提高分类效率的同时,保证了分类的准确率。
在本说明书一个或多个实施例中,基于上述结合特征筛选算法筛选出的第二目标特征优化第二分类器的方案,在将优化后的第二分类器进行实际应用时,其应用的过程如图5所示,具体包括以下几个步骤:
S300:将所述目标用户的多模态目标物图像输入到所述第二分类模型,通过所述第二分类模型中的各模态的特征提取子网,得到各模态的第一目标特征。
此处与如图1步骤S106类似,此处不做赘述。
S302:将所述各模态的第一目标特征进行拼接得到中间特征。
S304:通过预先优化的特征筛选算法对所述中间特征进行降维,得到第二目标特征。
其中,由于在第二分类模型的训练过程中采用了预先优化的特征筛选算法对中间特征进行特征筛选,得到第二目标特征,因此,在实际应用中,在通过各模态的第一目标特征得到中间特征后,同样可以通过该预先优化的特征筛选算法,从中间特征包含的各维特征中筛选出对最终目标物分类结果具有较大价值的特征提取出来作为第二目标特征。选择出的第二目标特征将作为第二分类器的输入,通过优化后的第二分类器,即可得到准确率较高的目标物分类结果。
S306:将所述第二目标特征输入到优化后的第二分类器,得到所述目标用户的目标物分类结果。
在实际应用中,该目标物分类结果可以作为辅助操作人员对目标用户进行诊断的参考指标,为操作人员更好的为目标用户诊断病情、制定治疗手段提供有医学价值的参考。
图6为本说明书提供的一种目标物分类装置示意图,具体包括:
获取模块400,用于获取参考用户的多模态的目标物图像,以及所述参考用户的目标物分类结果;
第一训练模块402,用于针对每个模态,将该模态的目标物图像作为该模态的第一训练样本,将所述目标物分类结果作为所述第一训练样本的标签,训练该模态的第一分类模型,所述第一分类模型包含预先基于通用图像集训练的图像分类模型的特征提取子网以及待训练的第一分类器;
模型构建模块404,用于将训练完成的各模态的第一分类模型的特征提取子网,作为各模态对应的特征提取子网,根据所述各模态对应的特征提取子网以及待训练的第二分类器,构建第二分类模型;
第一目标特征确定模块406,用于分别将各模态的第一训练样本输入所述第二分类模型,通过各模态分别对应的特征提取子网,得到各模态的第一目标特征;
预测分类结果确定模块408,用于对所述各模态的第一目标特征进行融合,得到第二目标特征,并将所述第二目标特征输入所述第二分类器,得到所述第二分类器输出的预测分类结果;
调整模块410,用于以所述预测分类结果以及所述第一训练样本的标签之间差异的最小化为优化目标,调整所述第二分类器的参数;
分类模块412,用于响应于分类请求,将目标用户的多模态目标物图像输入到训练完成的第二分类模型中,得到所述目标用户的目标物分类结果。
可选地,所述装置还包括:
第二训练模块414,具体用于获取若干扫描图像作为第二训练样本;对所述第二训练样本进行图像变换,得到变换后的扫描图像;将待训练的特征提取子网和图像生成器串联得到待训练的图像处理模型;将变换后的扫描图像输入所述图像处理模型,得到所述图像处理模型输出的还原扫描图像;以所述还原扫描图像与所述第二训练样本之间的差异最小化为训练目标,训练所述图像处理模型。
可选地,所述装置还包括:
预处理模块416,具体用于对所述参考用户的多模态的目标物图像进行去噪、颅骨剥离的预处理,得到预处理后的多模态的目标物图像;对预处理后的各模态的目标物图像进行配准以及重采样标准化处理。
可选地,所述预处理模块416,具体用于从所述参考用户的各模态的目标物图像中选择图像分辨率最高的模态作为参考模态;将所述各模态的目标物图像向所述参考模态的目标物图像进行配准。
可选地,所述装置还包括:
裁切模块418,具体用于根据所述各模态的目标物图像中目标物的位置确定目标区域;所述目标区域对应的图像至少包含各模态的目标物的完整图像;从所述各模态的目标物图像中裁切出各模态的目标区域对应的图像;
可选地,所述第一训练模块402,具体用于将该模态的目标区域对应的图像作为输入,输入到该模态的第一分类模型,得到该模态的第一分类模型输出的该模态的目标区域对应的图像的预测分类结果;以所述第一训练样本的标签以及所述预测分类结果之间的差异的最小化为优化目标,该模态的第一分类模型的参数。
可选地,所述各模态的第一分类模型的特征提取子网中包括多个神经网络层;
可选地,所述调整模块410具体用于,从该模态的第一分类模型的特征提取子网的各神经网络层中确定指定层;以所述第一训练样本的标签以及所述预测分类结果之间的差异的最小化为优化目标,调整所述指定层的参数以及所述第一分类器的参数。
可选地,所述各模态的第一分类模型的特征提取子网中包括多个神经网络层;
可选地,所述调整模块410具体用于,从该模态的第一分类模型的特征提取子网的各神经网络层中筛选出至少一个目标层;以所述第一训练样本的标签以及所述预测分类结果之间的差异的最小化为优化目标,调整筛选出的目标层的参数,以及所述第一分类器的参数。
可选地,所述调整模块410具体用于,根据所述第一训练样本的样本量以及在所述第一训练样本上的交叉验证结果,确定该模态的第一分类模型的特征提取子网中需要进行参数调整的神经网络层的数量;根据所述数量,从该模态的第一分类模型的特征提取子网的各神经网络层中筛选出所述数量对应的目标层。
可选地,所述第一目标特征确定模块406具体用于,分别将各模态的目标区域对应的图像输入所述第二分类模型,通过各模态分别对应的特征提取子网,得到各模态的第一目标特征。
可选地,所述预测分类结果确定模块408具体用于,将所述各模态的第一目标特征进行拼接得到中间特征;根据所述中间特征和所述第一训练样本的标签,通过预先优化的特征筛选算法对所述中间特征进行降维,得到第二目标特征。
可选地,所述分类模块412,具体用于将所述目标用户的多模态目标物图像输入到所述第二分类模型,通过所述第二分类模型中的各模态的特征提取子网,得到各模态的第一目标特征;将所述各模态的第一目标特征进行拼接得到中间特征;通过预先优化的特征筛选算法对所述中间特征进行降维,得到第二目标特征;将所述第二目标特征输入到优化后的第二分类器,得到所述目标用户的目标物分类结果。
本说明书还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述图1所示的目标物分类方法。
本说明书还提供了图7所示的电子设备的示意结构图。如图7所述,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所示的目标物分类方法。当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device, PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (14)

1.一种目标物分类方法,其特征在于,所述方法包括:
获取参考用户的多模态的目标物图像,以及所述参考用户的目标物分类结果;
针对每个模态,将该模态的目标物图像作为该模态的第一训练样本,将所述目标物分类结果作为所述第一训练样本的标签,训练该模态的第一分类模型,所述第一分类模型包含预先基于通用图像集训练的图像处理模型的特征提取子网以及待训练的第一分类器;
将训练完成的各模态的第一分类模型的特征提取子网,作为各模态对应的特征提取子网,根据所述各模态对应的特征提取子网以及待训练的第二分类器,构建第二分类模型;
分别将各模态的第一训练样本输入所述第二分类模型,通过各模态分别对应的特征提取子网,得到各模态的第一目标特征;
对所述各模态的第一目标特征进行融合,得到第二目标特征,并将所述第二目标特征输入所述第二分类器,得到所述第二分类器输出的预测分类结果;
以所述预测分类结果以及所述第一训练样本的标签之间差异的最小化为优化目标,调整所述第二分类器的参数;
响应于分类请求,将目标用户的多模态目标物图像输入到训练完成的第二分类模型中,得到所述目标用户的目标物分类结果。
2.如权利要求1所述的方法,其特征在于,预先训练特征提取子网,具体包括:
获取若干扫描图像作为第二训练样本;
对所述第二训练样本进行图像变换,得到变换后的扫描图像;
将待训练的特征提取子网和图像生成器串联得到待训练的图像处理模型;
将变换后的扫描图像输入所述图像处理模型,得到所述图像处理模型输出的还原扫描图像;
以所述还原扫描图像与所述第二训练样本之间的差异最小化为训练目标,训练所述图像处理模型。
3.如权利要求1所述的方法,其特征在于,训练该模态的第一分类模型之前,所述方法还包括:
对所述参考用户的多模态的目标物图像进行去噪、颅骨剥离的预处理,得到预处理后的多模态的目标物图像;
对预处理后的各模态的目标物图像进行配准以及重采样标准化处理。
4.如权利要求3所述的方法,其特征在于,对预处理后的各模态的目标物图像进行配准,具体包括:
从所述参考用户的各模态的目标物图像中选择图像分辨率最高的模态作为参考模态;
将所述各模态的目标物图像向所述参考模态的目标物图像进行配准。
5.如权利要求1所述的方法,其特征在于,训练该模态的第一分类模型之前,所述方法还包括:
根据所述各模态的目标物图像中目标物的位置确定目标区域;所述目标区域对应的图像至少包含各模态的目标物的完整图像;
从所述各模态的目标物图像中裁切出各模态的目标区域对应的图像;
训练该模态的第一分类模型,具体包括:
将该模态的目标区域对应的图像作为输入,输入到该模态的第一分类模型,得到该模态的第一分类模型输出的该模态的目标区域对应的图像的预测分类结果;
以所述第一训练样本的标签以及所述预测分类结果之间的差异的最小化为优化目标,该模态的第一分类模型的参数。
6.如权利要求1所述的方法,其特征在于,所述各模态的第一分类模型的特征提取子网中包括多个神经网络层;
以所述第一训练样本的标签以及所述预测分类结果之间的差异的最小化为优化目标,调整该模态的第一分类模型的参数,具体包括:
从该模态的第一分类模型的特征提取子网的各神经网络层中确定指定层;
以所述第一训练样本的标签以及所述预测分类结果之间的差异的最小化为优化目标,调整所述指定层的参数以及所述第一分类器的参数。
7.如权利要求1所述的方法,其特征在于,所述各模态的第一分类模型的特征提取子网中包括多个神经网络层;
以所述第一训练样本的标签以及所述预测分类结果之间的差异的最小化为优化目标,调整该模态的第一分类模型的参数,具体包括:
从该模态的第一分类模型的特征提取子网的各神经网络层中筛选出至少一个目标层;
以所述第一训练样本的标签以及所述预测分类结果之间的差异的最小化为优化目标,调整筛选出的目标层的参数,以及所述第一分类器的参数。
8.如权利要求7所述的方法,其特征在于,从该模态的第一分类模型的特征提取子网的各神经网络层中筛选出至少一个目标层,具体包括:
根据所述第一训练样本的样本量以及在所述第一训练样本上的交叉验证结果,确定该模态的第一分类模型的特征提取子网中需要进行参数调整的神经网络层的数量;
根据所述数量,从该模态的第一分类模型的特征提取子网的各神经网络层中筛选出所述数量对应的目标层。
9.如权利要求5所述的方法,其特征在于,分别将各模态的第一训练样本输入所述第二分类模型,通过各模态分别对应的特征提取子网,得到各模态的第一目标特征,具体包括:
分别将各模态的目标区域对应的图像输入所述第二分类模型,通过各模态分别对应的特征提取子网,得到各模态的第一目标特征。
10.如权利要求1所述的方法,其特征在于,对所述各模态的第一目标特征进行融合,得到第二目标特征,具体包括:
将所述各模态的第一目标特征进行拼接得到中间特征;
根据所述中间特征和所述第一训练样本的标签,通过预先优化的特征筛选算法对所述中间特征进行降维,得到第二目标特征。
11.如权利要求10所述的方法,其特征在于,将目标用户的多模态目标物图像输入到训练完成的第二分类模型中,得到所述目标用户的目标物分类结果,具体包括:
将所述目标用户的多模态目标物图像输入到所述第二分类模型,通过所述第二分类模型中的各模态的特征提取子网,得到各模态的第一目标特征;
将所述各模态的第一目标特征进行拼接得到中间特征;
通过预先优化的特征筛选算法对所述中间特征进行降维,得到第二目标特征;
所述第二目标特征输入到优化后的第二分类器,得到所述目标用户的目标物分类结果。
12.一种目标物分类装置,其特征在于,所述装置包括:
获取模块,用于获取参考用户的多模态的目标物图像,以及所述参考用户的目标物分类结果;
第一训练模块,用于针对每个模态,将该模态的目标物图像作为该模态的第一训练样本,将所述目标物分类结果作为所述第一训练样本的标签,训练该模态的第一分类模型,所述第一分类模型包含预先基于通用图像集训练的图像分类模型的特征提取子网以及待训练的第一分类器;
模型构建模块,用于将训练完成的各模态的第一分类模型的特征提取子网,作为各模态对应的特征提取子网,根据所述各模态对应的特征提取子网以及待训练的第二分类器,构建第二分类模型;
第一目标特征确定模块,用于分别将各模态的第一训练样本输入所述第二分类模型,通过各模态分别对应的特征提取子网,得到各模态的第一目标特征;
预测分类结果确定模块,用于对所述各模态的第一目标特征进行融合,得到第二目标特征,并将所述第二目标特征输入所述第二分类器,得到所述第二分类器输出的预测分类结果;
调整模块,用于以所述预测分类结果以及所述第一训练样本的标签之间差异的最小化为优化目标,调整所述第二分类器的参数;
分类模块,用于响应于分类请求,将目标用户的多模态目标物图像输入到训练完成的第二分类模型中,得到所述目标用户的目标物分类结果。
13.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~11任一项所述的方法。
14.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~11任一项所述的方法。
CN202310454392.8A 2023-04-25 2023-04-25 一种目标物分类方法、装置、设备及可读存储介质 Active CN116168258B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310454392.8A CN116168258B (zh) 2023-04-25 2023-04-25 一种目标物分类方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310454392.8A CN116168258B (zh) 2023-04-25 2023-04-25 一种目标物分类方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN116168258A true CN116168258A (zh) 2023-05-26
CN116168258B CN116168258B (zh) 2023-07-11

Family

ID=86411770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310454392.8A Active CN116168258B (zh) 2023-04-25 2023-04-25 一种目标物分类方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN116168258B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117237744A (zh) * 2023-11-10 2023-12-15 之江实验室 一种图像分类模型的训练方法、装置、介质及电子设备
CN117994470A (zh) * 2024-04-07 2024-05-07 之江实验室 一种多模态层次自适应的数字网格重建方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734208A (zh) * 2018-05-15 2018-11-02 重庆大学 基于多模态深度迁移学习机制的多源异构数据融合系统
CN109522965A (zh) * 2018-11-27 2019-03-26 天津工业大学 一种基于迁移学习的双通道卷积神经网络的烟雾图像分类方法
CN111275130A (zh) * 2020-02-18 2020-06-12 上海交通大学 基于多模态的深度学习预测方法、系统、介质及设备
CN111898400A (zh) * 2019-12-30 2020-11-06 南京信息工程大学 一种基于多模态特征融合的指纹活性检测方法
CN113191385A (zh) * 2021-03-25 2021-07-30 之江实验室 一种基于预训练标注数据不可知的图像分类自动标注方法
CN115545321A (zh) * 2022-10-14 2022-12-30 云南中烟工业有限责任公司 一种制丝车间工艺质量在线预测方法
WO2023005133A1 (zh) * 2021-07-28 2023-02-02 深圳前海微众银行股份有限公司 联邦学习建模优化方法、设备、可读存储介质及程序产品
CN115828162A (zh) * 2023-02-08 2023-03-21 支付宝(杭州)信息技术有限公司 一种分类模型训练的方法、装置、存储介质及电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734208A (zh) * 2018-05-15 2018-11-02 重庆大学 基于多模态深度迁移学习机制的多源异构数据融合系统
CN109522965A (zh) * 2018-11-27 2019-03-26 天津工业大学 一种基于迁移学习的双通道卷积神经网络的烟雾图像分类方法
CN111898400A (zh) * 2019-12-30 2020-11-06 南京信息工程大学 一种基于多模态特征融合的指纹活性检测方法
CN111275130A (zh) * 2020-02-18 2020-06-12 上海交通大学 基于多模态的深度学习预测方法、系统、介质及设备
CN113191385A (zh) * 2021-03-25 2021-07-30 之江实验室 一种基于预训练标注数据不可知的图像分类自动标注方法
WO2023005133A1 (zh) * 2021-07-28 2023-02-02 深圳前海微众银行股份有限公司 联邦学习建模优化方法、设备、可读存储介质及程序产品
CN115545321A (zh) * 2022-10-14 2022-12-30 云南中烟工业有限责任公司 一种制丝车间工艺质量在线预测方法
CN115828162A (zh) * 2023-02-08 2023-03-21 支付宝(杭州)信息技术有限公司 一种分类模型训练的方法、装置、存储介质及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SEUNGWHAN MOON,ET,AL: "multimodal transfer deep learning with applications in audio-visual recognition", 《CS.NE》, pages 1 - 6 *
杨皓楠: "基于深度学习的多源数据约束性融合方法", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2023, no. 02, pages 140 - 193 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117237744A (zh) * 2023-11-10 2023-12-15 之江实验室 一种图像分类模型的训练方法、装置、介质及电子设备
CN117237744B (zh) * 2023-11-10 2024-01-30 之江实验室 一种图像分类模型的训练方法、装置、介质及电子设备
CN117994470A (zh) * 2024-04-07 2024-05-07 之江实验室 一种多模态层次自适应的数字网格重建方法及装置
CN117994470B (zh) * 2024-04-07 2024-06-07 之江实验室 一种多模态层次自适应的数字网格重建方法及装置

Also Published As

Publication number Publication date
CN116168258B (zh) 2023-07-11

Similar Documents

Publication Publication Date Title
Singh et al. Shallow 3D CNN for detecting acute brain hemorrhage from medical imaging sensors
JP7143008B2 (ja) 深層学習に基づく医用画像検出方法及び装置、電子機器及びコンピュータプログラム
CN116168258B (zh) 一种目标物分类方法、装置、设备及可读存储介质
CN106682435B (zh) 一种多模型融合自动检测医学图像中病变的系统及方法
US10223610B1 (en) System and method for detection and classification of findings in images
US20230342918A1 (en) Image-driven brain atlas construction method, apparatus, device and storage medium
Kumar et al. An improved Gabor wavelet transform and rough K-means clustering algorithm for MRI brain tumor image segmentation
Viji et al. RETRACTED ARTICLE: An improved approach for automatic spine canal segmentation using probabilistic boosting tree (PBT) with fuzzy support vector machine
ShanmugaPriya et al. Efficient fuzzy c-means based multilevel image segmentation for brain tumor detection in MR images
Veeramuthu et al. A neural network based deep learning approach for efficient segmentation of brain tumor medical image data
Alahmadi Multiscale attention U-Net for skin lesion segmentation
CN111368849A (zh) 图像处理方法、装置、电子设备及存储介质
Muneeswaran et al. An Articulated Learning Method Based on Optimization Approach for Gallbladder Segmentation from MRCP Images and an Effective IoT Based Recommendation Framework
David et al. Retinal Blood Vessels and Optic Disc Segmentation Using U‐Net
Sreelakshmi et al. M-Net: An encoder-decoder architecture for medical image analysis using ensemble learning
Ganesan et al. Internet of medical things with cloud-based e-health services for brain tumour detection model using deep convolution neural network
Bansal et al. An improved hybrid classification of brain tumor MRI images based on conglomeration feature extraction techniques
Mishra et al. CR‐SSL: A closely related self‐supervised learning based approach for improving breast ultrasound tumor segmentation
Alpar et al. Low-contrast lesion segmentation in advanced MRI experiments by time-domain Ricker-type wavelets and fuzzy 2-means
Atiyah et al. Brain MRI Images Segmentation Based on U-Net Architecture
CN115965785A (zh) 图像分割方法、装置、设备、程序产品及介质
CN116524295A (zh) 一种图像处理方法、装置、设备及可读存储介质
Li et al. Medical image segmentation with domain adaptation: a survey
CN113379770B (zh) 鼻咽癌mr图像分割网络的构建方法、图像分割方法及装置
Saumiya et al. Unified automated deep learning framework for segmentation and classification of liver tumors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant