CN115457361A - 分类模型获取方法、表达类别确定方法、装置、设备及介质 - Google Patents

分类模型获取方法、表达类别确定方法、装置、设备及介质 Download PDF

Info

Publication number
CN115457361A
CN115457361A CN202211140564.6A CN202211140564A CN115457361A CN 115457361 A CN115457361 A CN 115457361A CN 202211140564 A CN202211140564 A CN 202211140564A CN 115457361 A CN115457361 A CN 115457361A
Authority
CN
China
Prior art keywords
image
omics
features
voxel
screening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211140564.6A
Other languages
English (en)
Inventor
胡玉兰
张翠芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN202211140564.6A priority Critical patent/CN115457361A/zh
Publication of CN115457361A publication Critical patent/CN115457361A/zh
Priority to PCT/CN2023/110354 priority patent/WO2024060842A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/54Extraction of image or video features relating to texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • G06V2201/032Recognition of patterns in medical or anatomical images of protuberances, polyps nodules, etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Image Processing (AREA)

Abstract

本公开提供了一种分类模型获取方法、表达类别确定方法、装置、设备及介质,所述分类模型获取方法包括:针对样本对象的肿瘤区域,获取肿瘤区域的多个影像组学特征和多个体素特征;基于第一筛选因子对多个影像组学特征进行筛选,得到多个影像组学特征样本;以及基于第二筛选因子对多个体素特征进行筛选,得到多个体素特征样本;其中,第一筛选因子和第二筛选因子均包括样本对象的目标基因的表达类别标签;基于多个影像组学特征样本和多个体素特征样本,构建训练样本;以训练样本为输入,对预设模型进行训练,得到分类模型,分类模型用于预测目标基因的表达类别。

Description

分类模型获取方法、表达类别确定方法、装置、设备及介质
技术领域
本公开涉及数据处理技术领域,特别是涉及一种分类模型获取方法、表达类别确定方法、装置、设备及介质。
背景技术
对常见的肿瘤而言,特别是神经胶质瘤,其肿瘤的分子标志物及所涉及的信号通路有很多,如:异柠檬酸脱氢酶(IDH)突变、O6-甲基鸟嘌呤DNA甲基转移酶(MGMT)启动子甲基化、染色体1p/19q缺失、表皮生长因子受体(EGFR)扩增、端粒酶逆转录酶(TERT)基因启动子(TERTp)突变、H3F3A突变、Notch通路、miRNAs等。
而上述基因的表达类型可以作为肿瘤的检测和预后的一个参考因素。
发明内容
本公开提供了一种分类模型获取方法,方法包括:
针对样本对象的肿瘤区域,获取肿瘤区域的多个影像组学特征和多个体素特征;
基于第一筛选因子对多个影像组学特征进行筛选,得到多个影像组学特征样本;以及基于第二筛选因子对多个体素特征进行筛选,得到多个体素特征样本;其中,第一筛选因子和第二筛选因子均包括样本对象的目标基因的表达类别标签;
基于多个影像组学特征样本和多个体素特征样本,构建训练样本;
以训练样本为输入,对预设模型进行训练,得到分类模型,分类模型用于预测目标基因的表达类别。
在一种可选地示例中,获取肿瘤区域的多个影像组学特征,包括:
从肿瘤区域的图像样本中提取属于肿瘤非增强区的第一亚区图像、属于肿瘤增强区的第二亚区图像,以及属于肿瘤周围水肿区的第二亚区图像;
分别对第一亚区图像、第二亚区图像以及第三亚区图像进行特征提取,得到多个影像组学特征。
在一种可选地示例中,获取肿瘤区域的多个影像组学特征,包括:
获取肿瘤区域的多种类型的图像样本,多种类型包括T1加权类型、T2加权类型、对比度增强的T1加权类型和T2流体衰减期转恢复类型;
分别对每种类型的图像样本进行特征提取;
将提取到的每种类型的图像样本各自对应的影像组学特征进行组合,得到多个影像组学特征。
在一种可选地示例中,肿瘤区域为大脑中的胶质瘤区域,方法还包括:
基于胶质瘤区域的图像样本,确定胶质瘤区域对应的位置信息;
获取位置信息对应的位置特征;其中,位置信息包括胶质瘤区域所属的大脑区域,和/或胶质瘤区域在大脑中的位置坐标;
基于多个影像组学特征样本和多个体素特征样本,构建训练样本,包括:
基于位置特征、多个影像组学特征样本和多个体素特征样本,构建训练样本。
在一种可选地示例中,第一筛选因子包括表达类别标签和肿瘤区域的肿瘤分级标签;基于第一筛选因子对多个影像组学特征进行筛选,得到多个影像组学特征样本,包括:
基于每个影像组学特征与表达类别标签之间的第一关系值,对多个影像组学特征进行筛选,得到多个第一影像组学特征;其中,第一关系值用于表征影像组学特征与目标基因的突变之间的关联程度;
基于每个影像组学特征与肿瘤分级标签之间的第二关系值,对多个影像组学特征进行筛选,得到多个第二影像组学特征;其中,第二关系值用于表征影像组学特征与肿瘤分级之间的关联程度;
对多个第一影像组学特征和多个第二影像组学特征进行去重,得到多个影像组学特征样本。
在一种可选地示例中,包括多个样本对象,方法还包括:
针对全部样本对象所包括的全部影像组学特征,基于第三筛选因子对全部影像组学特征进行筛选,得到补充性影像组学特征样本;其中,第三筛选因子包括多个样本对象各自对应的临床数据;
基于多个影像组学特征样本和多个体素特征样本,构建训练样本,包括:
基于多个影像组学特征样本、多个体素特征样本和多个补充性影像组学特征样本,构建训练样本。
在一种可选地示例中,针对全部样本对象所包括的全部影像组学特征,基于第三筛选因子对全部影像组学特征进行筛选,得到补充性影像组学特征样本,包括:
获取影像组学特征矩阵以及临床数据矩阵;其中,影像组学特征矩阵包括多个样本对象各自对应的多个影像组学特征,临床数据矩阵包括多个样本对象各自对应的临床数据;
基于影像组学特征矩阵和临床数据特征矩阵,获取互信息系数矩阵,互信息系数矩阵包括每个影像组学特征与临床数据之间的互信息系数,互信息系数用于表征影像组学特征与临床数据之间的关联程度;
基于互信息系数矩阵,对影像组学特征矩阵所包括的全部影像组学特征进行筛选,得到多个补充性影像组学特征样本。
在一种可选地示例中,第二筛选因子包括表达类别标签,基于第二筛选因子对多个体素特征进行筛选,得到多个体素特征样本,包括:
获取每个体素特征的方差,将方差大于第一方差阈值的体素特征保留,得到多个候选体素特征;
以表达类别标签为预测标签,以多个候选体素特征为输入,利用线性回归模型从多个候选体素特征中筛选出多个体素特征样本。
在一种可选地示例中,基于第一筛选因子对多个影像组学特征进行筛选,得到多个影像组学特征样本之前,方法还包括:
确定每个影像组学特征对应的方差,并将方差大于第二方差阈值的影像组学特征保留,得到多个候选影像组学特征;
基于第一筛选因子对多个影像组学特征进行筛选,得到多个影像组学特征样本,包括:
基于第一筛选因子对多个候选影像组学特征进行筛选,得到多个影像组学特征样本。
在一种可选地示例中,获取肿瘤区域的多个影像组学特征,包括:
获取所述肿瘤区域的图像样本的小波图像和LoG图像;
分别对所述肿瘤区域的图像样本、所述小波图像和所述LoG图像进行多尺度特征提取,得到所述肿瘤区域的一阶统计量特征、纹理特征和形态特征;
将所述肿瘤区域的一阶统计量特征、纹理特征和形态特征进行组合,得到多个所述影像组学特征。
在一种可选地示例中,以训练样本为输入,对预设模型进行训练,得到分类模型,包括:
将训练样本输入至分类模型,得到分类模型输出的目标基因的预测表达类别;
基于预测表达类别和表达类别标签,确定分类模型的损失值;
基于损失值,更新分类模型的参数;
将满足训练结束条件时的分类模型作为分类模型,训练结束条件为分类模型收敛或达到预设更新次数。
本公开还提供一种目标基因的表达类别确定方法,方法包括:
获取待测对象的肿瘤区域的多个目标影像组学特征和多个目标体素特征;
将多个目标影像组学特征和多个目标体素特征,输入至分类模型;其中,分类模型是按照所述分类模型的获取方法得到的;
基于分类模型的输出,确定待测对象的目标基因的表达类别。
在一种可选地示例中,获取待测对象的肿瘤区域的多个目标影像组学特征和多个目标体素特征之后,方法还包括:
确定每个体素特征对应的方差,将方差大于第一方差阈值的目标体素特征保留;
确定每个目标影像组学特征对应的方差,并将方差大于第二方差阈值的目标影像组学特征保留;
将多个目标影像组学特征和多个目标体素特征,输入至分类模型,包括:
将保留的目标影像组学特征和目标体素特征,输入至分类模型。
在一种可选地示例中,获取待测对象的肿瘤区域的多个目标影像组学特征和多个目标体素特征之后,方法还包括:
获取待测对象对应的第四筛选因子,第四筛选因子包括待测对象的临床数据和/或肿瘤分级数据;
基于第四筛选因子,对多个目标影像组学特征进行筛选;
将多个目标影像组学特征和多个目标体素特征,输入至分类模型,包括:
将多个筛选出的目标影像组学特征和多个目标体素特征,输入至分类模型。
在一种可选地示例中,第四筛选因子包括临床数据和肿瘤分级数据;基于第四筛选因子,对多个目标影像组学特征进行筛选,包括:
确定每个目标影像组学特征与肿瘤分级标签之间的第三关系值,以及每个目标影像组学特征与临床数据之间的互信息系数;
基于第三关系值对多个目标影像组学特征进行筛选,以及,基于互信息系数对多个目标影像组学特征进行筛选;
将基于第三关系值筛选出的目标影像组学特征和基于互信息系数筛选出的目标影像组学特征进行去重,得到筛选出的目标影像组学特征。
本公开还提供一种分类模型获取装置,装置包括:
特征获取模块,用于针对样本对象的肿瘤区域,获取肿瘤区域的多个影像组学特征和多个体素特征;
特征选择模块,用于基于第一筛选因子对多个影像组学特征进行筛选,得到多个影像组学特征样本;以及基于第二筛选因子对多个体素特征进行筛选,得到多个体素特征样本;其中,第一筛选因子和第二筛选因子均包括样本对象的目标基因的表达类别标签;
样本构建模块,用于基于多个影像组学特征样本和多个体素特征样本,构建训练样本;
模型训练模块,用于以训练样本为输入,对预设模型进行训练,得到分类模型,分类模型用于预测目标基因的表达类别。
本公开还提供一种目标基因的表达类别确定装置,装置包括:
特征获取模块,用于获取待测对象的肿瘤区域的多个目标影像组学特征和多个目标体素特征;
特征输入模块,用于将多个目标影像组学特征和多个目标体素特征,输入至分类模型;其中,分类模型是按照所述的分类模型的获取方法得到的;
类别确定模块,用于基于分类模型的输出,确定待测对象的目标基因的表达类别。
本公开还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行时实现的分类模型获取方法,或执行时实现的目标基因的表达类别确定方法。
本公开还提供一种计算机可读存储介质,其存储的计算机程序使得处理器执行的分类模型获取方法,或执行时实现的目标基因的表达类别确定方法。
采用本公开提供的分类模型获取方法,可以针对样本对象的肿瘤区域,获取肿瘤区域的多个影像组学特征和多个体素特征;基于第一筛选因子对多个影像组学特征进行筛选,得到多个影像组学特征样本;以及基于第二筛选因子对多个体素特征进行筛选,得到多个体素特征样本;并基于多个影像组学特征样本和多个体素特征样本,构建训练样本;接着以训练样本为输入,对预设模型进行训练,得到分类模型,分类模型用于预测目标基因的表达类别。
一方面,由于第一筛选因子和第二筛选因子均包括样本对象的目标基因的表达类别标签,该表达类别标签可以表征目标基因的表达类别,如突变类别、缺失状态等,如此,便可以以目标基因的表达类别为生理参数,筛选出与目标基因的表达类别紧密相关的影像组学特征样本和体素特征样本,再以这些筛选出的影像组学特征样本和体素特征样本为训练样本对预设模型进行训练,从而可以使得分类模型可以学习到肿瘤区域的形态学特点与目标基因的表达类别之间的关联性,提高了分类模型的可解释性,从而提高了基于肿瘤区域的影像预测目标基因的表达类别的准确性。
另一方面,由于训练样本不仅包括肿瘤区域的影像组学特征,还包括了肿瘤区域的体素特征,其中,影像组学特征可以反应肿瘤区域的纹理、形状等三维特征,体素特征可以反应肿瘤区域的空间立体形态等三维特征,从而可以提高训练样本的丰富程度,进而提高分类模型的准确度。
上述说明仅是本公开技术方案的概述,为了能够更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为了让本公开的上述和其它目的、特征和优点能够更明显易懂,以下特举本公开的具体实施方式。
附图说明
为了更清楚地说明本公开实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。需要注意的是,附图中各图形的尺寸和形状不反映真实比例,目的只是示意说明本发明内容。附图中相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。
图1示意性地示出了分类模型获取过程的总体流程示意图;
图2示意性地示出了分类模型获取方法的步骤流程图;
图3示意性地示出本公开的完整的对影像组学特征进行提取的过程示意图;
图4示意性地示出了基于临床数据对影像组学特征进行筛选的步骤流程示意图;
图5示意性地示出了目标基因的表达类别确定方法的步骤流程图;
图6示意性地示出了分类模型获取装置的结构框架示意图;
图7示意性地示出了目标基因的表达类别确定装置的结构框架示意图;
图8示意性地示出了本公开的电子设备的结构框图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
对于神经胶质瘤(脑胶质瘤)而言,脑胶质瘤的IDH基因型分型(突变型/野生型),1p/19q染色体缺失状态(缺失/未缺失),MGMT甲基化状态(甲基化/未甲基化)这些标志物及信号转导通路参与了胶质瘤的发生、发展,对胶质瘤的增殖、转移、侵袭等具有明显影响。
以TERT(telomerase reverse tranase,端粒酶逆转录酶)基因为例,其是编码端粒酶复合体的重要基因之一,TERT基因在绝大多数非肿瘤细胞中没有转录活性,但是在73%的肿瘤中存在TERT基因突变,如启动子突变、基因易位和DNA扩增等。也就是说上述基因的表达类别与肿瘤具有一定的关联性。
目前,化疗仍是治疗神经胶质瘤的重要手段之一,然而化疗药物带来的副作用日益突出,效果也不理想。而基因的表达类型一般需要进行有创检测,给患者带来较大的痛苦,因此,对上述基因的生物指标状态的预测,可以帮助对脑胶质瘤的治疗提供参考参数,以制定治疗方案。
本公开为实现对目标基因的表达类别的检测,以为肿瘤的精准检测提供可靠的生理参数,提出了一种基于影像组学与神经网络的目标基因的表达类别确定方法,该方法可以无创实现目标基因的检测,主要核心构思在于,利用MR分割图像的影像组学特征,并结合多种特征筛选方法,得到筛选的影像组学特征,接着,利用基于体素的形态测量学(VBM)方法对MRI脑影像进行体素计算,并对得到的体素特征进行体素与目标基因之间的关联分析,得到筛选的体素特征;然后基于影像组学特征与体素特征融合训练分类器,得到分类模型,利用分类模型对待预测的目标基因的表达类别进行预测。
其中,本公开所指的肿瘤可以是脑胶质瘤、肝肿瘤、乳腺肿瘤、甲状腺肿瘤、肺部肿瘤以及黑色素肿瘤等常见肿瘤,本公开主要以脑胶质瘤为例进行说明。
需要说明的是,由于本公开提出的是基于影像组学与神经网络的目标基因的表达类别确定方法,因此,旨在利用机器学习的思想,构建可以用于预测目标基因的表达类别的分类模型,为了使得分类模型具有较高的可解释性,提出了对影像组学特征(结合多种特征筛选影像组学特征)和体素特征进行筛选(进行体素与目标基因之间的关联分析)的技术手段,从而提高训练样本的有效性。
参照图1所示,示出了分类模型获取过程的总体流程示意图,参照图1所示,可以对包含肿瘤区域的三维图像进行预处理后进行分割,从而得到肿瘤区域的图像,接着,对肿瘤区域的图像进行特征提取,得到影像组学特征,对预处理后的三维图像进行体素特征计算,得到体素特征。
之后,进行特征筛选,对影像组学特征进行多种筛选,得到特征筛选后的影像组学特征,以及对体素特征进行目标基因关联分析,得到筛选后的体素特征,接着,对筛选后的体素特征和影像组学特征进行融合后送入分类器进行训练,从而训练得到分类模型。
参照图2所示,示出了本公开的分类模型获取方法的步骤流程图,如图2所示,具体可以包括以下步骤:
步骤S201:针对样本对象的肿瘤区域,获取肿瘤区域的多个影像组学特征和多个体素特征。
本实施例中,样本对象可以是指肿瘤患者,其中,肿瘤区域的多个影像组学特征和多个体素特征可以是从肿瘤区域的核磁共振图像中提取的,多个影像组学特征可以对肿瘤区域的三维图像进行特征提取得到的。
实际中,三维图像是核磁共振图像,由于人体的组织密度是不均匀的,在扫描中可以将介质分成很多密度相对均匀的立方体小块,这种小立方体,称为体素,体素是构成三维图像的基本单元,体素越小图像越清晰。
其中,影像组学特征可以反应肿瘤区域的切片纹理、形状等二维特征,体素特征可以反应肿瘤区域的空间立体形态等三维特征,这样可以得到肿瘤的各个维度的特征,以充分反应肿瘤区域的形态学特征,丰富特征信息。
其中,得到多个影像组学特征的过程可以是如下过程:
将肿瘤所在部位的具有不同切片厚度(范围:1到10)和像素间距的不同核磁共振机器生成的图像帧,重采样到1.0的均匀切片厚度和[1,1,1]像素区间得到三维图像;并采用均值和标准差对三维图像进行归一化处理后得到出后的图像。对于处理后的图像进行图像分割,分割出肿瘤区域所在的图像,接着对肿瘤区域所在的图像进行特征提取,得到多个影像组学特征。具体实施时,图像分割模块采用UNet分割网络模型实现肿瘤区域分割,UNet分割网络模型训练输入包括4种模态的三维影像数据,标签为分割mask图像。
其中,得到多个体素特征的过程可以是如下过程:
以脑胶质瘤为例,将肿瘤所在部位的具有不同切片厚度(范围:1到10)和像素间距的不同MRI机器生成的图像帧,重采样到1.0的均匀切片厚度和[1,1,1]像素区间得到三维图像,将该三维图像与肿瘤所在部位的T1加权模板图像对齐,然后标准化到蒙特利尔神经学研究所空间,使用8mm FWHM内核提取,生成灰质密度图像,该灰质密度图像包括240*240*155=8928000个体素,体素大小为1*1*1mm3。其中,本示例以脑胶质瘤为例进行说明,对于其他类型的肿瘤,可以参照进行。
步骤S202:基于第一筛选因子对多个影像组学特征进行筛选,得到多个影像组学特征样本;以及基于第二筛选因子对多个体素特征进行筛选,得到多个体素特征样本。
其中,第一筛选因子和第二筛选因子均包括样本对象的目标基因的表达类别标签。
本实施例中,可以基于目标基因的表达类别标签对多个影像组学特征和多个体素特征进行分别筛选,目标基因的表达类别标签表示样本对象的目标基因的真实表达类别,其中,如目标基因是TERT,则目标基因的表达类别包括突变型和野生型,突变型的标签是1,野生型的标签是0。
其中,基于目标基因的表达类别对多个影像组学特征筛选可以是指,将多个影像组学特征中与目标基因的表达类别相关性较高的影像组学特征筛选出,同理,基于目标基因的表达类别对多个体素特征筛选可以是指,将多个体素特征中与目标基因的表达类别相关性较高的体素特征筛选出。
示例地,样本对象A的目标基因的表达类别为突变型,则可以将多个影像组学特征中与突变型相关性较高的影像组学特征筛选出,以及将多个体素特征中与突变型相关性较高的体素特征筛选出。而样本对象B的目标基因的表达类别为野生型,则可以将多个影像组学特征中与野生型相关性较高的影像组学特征筛选出,以及将多个体素特征中与野生型相关性较高的体素特征筛选出。也就是说,针对不同的样本对象,可以按照样本对象自身的目标基因的表达类别,将与该表达类别相关性较高的影像组学特征和体素特征筛选出。
本实施例中,可以通过计算影像组学特征与表达类别标签之间的关系值,得到影像组学特征与表达类别标签之间的相关性。以及通过计算屠苏特征与表达类别标签之间的关系值,得到体素特征与表达类别标签之间的相关性。
实际中,第一筛选因子还可以包括除目标基因的表达类别标签外的其他筛选因子,如临床数据、肿瘤分级等。也就是说,针对多个影像组学特征,可以分别基于每种筛选因子进行一次筛选,得到每种筛选因子筛选出的影像组学特征,之后,将多种筛选因子分别筛选主的影像组学特征组合并去重后,得到筛选出的多个影像组学特征样本。
步骤S203:基于多个影像组学特征样本和多个体素特征样本,构建训练样本。
本实施例中,针对每个样本对象,可以通过筛选出对应的多个影像组学特征样本和体素特征样本,之后,将每个样本对象筛选出的多个影像组学特征样本和体素特征样本作为一个样本组,将该样本对象的表达类别标签作为该样本组的标签,以用于后续模型训练中构建损失函数。
这样,多个样本对象便构成多个样本组,多个样本组构成训练样本,其中,每个样本组包括对应的一个样本对象的多个影像组学特征样本和体素特征样本,以及对应一个表达类别标签。
步骤S204:以训练样本为输入,对预设模型进行训练,得到分类模型,分类模型用于预测目标基因的表达类别。
本实施例中,可以将每个样本组中的多个影像组学特征样本和体素特征样本融合后,输入到预设模型进行训练,其中,融合可以指将多个影像组学特征样本和体素特征样本组合为一个特征集,将特征集中的每个特征样本输入到预设模型。
其中,预设模型可以是分类器,例如,DenseNet网络作为分类器,其中,DenseNet的每一层都建立起了位于该层之前的每个层之间的连接,这样,误差信号可以很容易地传播到较早的层,从而较早的层可以从最终分类层获得直接监督,这样,可以减轻梯度消失现象,避免模型过拟合。
在训练多次后,当预设模型收敛时,或者损失值趋近于最小值,则可以得到分类模型,该分类模型可以用于预测肿瘤患者的目标基因的表达类别。
其中,本公开中的影像组学特征和体素特征均可以以特征向量的方式表达。
本公开中的目标基因可以包括:TERT基因启动子、基因IDH基因型分型(突变型/野生型),1p/19q染色体缺失状态(缺失/未缺失),MGMT甲基化状态(甲基化/未甲基化)中的任一者,只需要预先标注目标基因的表达类别标签即可,例如,对于TERT基因启动子而言,其表达类别包括突变类别和野生类别,对于IDH基因分型,其表达类别包括突变类别和野生类别,对于1p/19q染色体而言,其表达类别包括缺失类别和未缺失类别,对MGMT而言,其表达类别包括甲基化类别和未甲基化类别。
在一种可选的示例中,用于进行分类模型训练的目标基因可以是一种或多种,一种目标基因的情况下,分类模型可以对一种目标基因的表达类别进行预测,在目标基因是多种的情况下,分类模型可以同时实现对多种基因的表达类别的预测,如分类模型可以同时输出TERT基因启动子的突变类别、1p/19q染色体的缺失状态、MGMT甲基化状态,此种情况下,可以为每种基因准备表达类别标签,以使分类模型同时学习到体素特征和影像组学特征与多种目标基因之间的关联。
采用本公开实施例的技术方案,一方面,由于表达类别标签可以表征目标基因的表达类别,如此,便可以以目标基因的表达类别为生理参数,筛选出与目标基因的表达类别紧密相关的影像组学特征样本和体素特征样本,再以这些筛选出的影像组学特征样本和体素特征样本为训练样本对预设模型进行训练,从而可以使得分类模型可以学习到肿瘤区域的形态特征与目标基因的表达类别之间的关联性,提高了分类模型的可解释性,从而提高了基于肿瘤区域的影像预测目标基因的表达类别的准确性。
另一方面,由于训练样本不仅包括肿瘤区域的影像组学特征,还包括了肿瘤区域的体素特征,其中,影像组学特征可以反应肿瘤区域的切片纹理、形状等二维特征,体素特征可以反应肿瘤区域的空间立体形态等三维特征,从而可以提高训练样本的丰富程度,进而提高分类模型的准确度。
<影像组学特征的提取>
在一种可选的示例中,为提高提取到的影像组学特征的丰富性和细腻性,提出了两种措施使得提取出的影像组学特征可以更加细腻地描述肿瘤区域的形态学特征,其中一种措施A是对肿瘤区域的图像的三种亚区进行影像组学特征提取,从而可以反应肿瘤区域的各个亚区的形态学特征,以描述肿瘤不同亚区的形态学特征,另一种措施B是对肿瘤区域的图像进行细粒度的影像组学特征提取,具体而言可以是提取描述肿瘤不同形态学特点的特征,如描述肿瘤的表面(MRI的切片)的细腻程度的特征,描述肿瘤的外观形状的特征等。
其中,措施A和措施B可以结合,也就是可以对每种亚区的图像进行多种细粒度的影像组学特征提取。
措施A:可以从肿瘤区域的图像样本中提取属于肿瘤非增强区的第一亚区图像、属于肿瘤增强区的第二亚区图像,以及属于肿瘤周围水肿区的第三亚区图像;分别对第一亚区图像、第二亚区图像以及第三亚区图像进行特征提取,得到多个影像组学特征。
本措施A中,可以对肿瘤区域分别进行三次图像分割,每次图像分割得到一个亚区的图像,接着,对每个亚区的图像进行特征提取。其中,亚区包括肿瘤非增强区、肿瘤增强区和肿瘤周围水肿区;肿瘤非增强区是指肿瘤区域中的增强肿瘤区域,即肿瘤核;肿瘤增强区是指肿瘤核周围的增强区域,由增强肿瘤体素组成;肿瘤周围水肿区是指肿瘤浮肿区域。
本实施例中,可以分别对第一亚区图像进行特征提取,得到属于第一亚区图像的多个第一影像组学特征,对第二亚区图像进行特征提取,得到属于第二亚区图像的多个第二影像组学特征,以及对第三亚区图像进行特征提取,得到属于第三亚区图像的多个第三影像组学特征。并将多个第一影像组学特征、多个第二影像组学特征以及多个第三影像组学特征合并后得到样本对象的多个影像组学特征。
其中,针对不同亚区图像所提取的影像组学特征的数量可以是相同的,例如从不同亚区图像中均提取N个影像组学特征。这样,三种亚区图像共提取得到3N个影像组学特征。
采用该措施A时,基于肿瘤区域中肿瘤细胞表达程度的不同,分肿瘤核心区、增强肿瘤核心区和整个肿瘤区域,进而在提取影像组学特征时,也可以分区域对不同肿瘤细胞表达程度的区域进行特征提取,进而实现了对肿瘤区域的细粒度的特征提取,提取到的影像组学特征可以充分反应肿瘤区域的形态学特征,以及肿瘤细胞在不同表达程度下的形态学特征,从而增强训练样本的丰富性。
措施B:获取肿瘤区域的图像样本的小波图像和LoG图像;分别对肿瘤区域的图像样本、小波图像和LoG图像进行多尺度特征提取,得到肿瘤区域的一阶统计量特征、纹理特征和形态特征;并将肿瘤区域的一阶统计量特征、纹理特征和形态特征进行组合,得到多个影像组学特征。
本措施B中,小波图像可以是指:针对肿瘤区域的图像样本进行小波变换后得到的图像,LoG图像可以是指:求取肿瘤区域的图像样本一阶导数,最终得到肿瘤区域的边缘图像。
其中,可以分别对肿瘤区域的图像样本、小波图像和LoG图像进行多种尺度的特征提取,每种尺度对应一种维度,具体可以包括:一阶统计量维度、纹理维度和形态维度。
其中,可以从肿瘤区域的图像样本中提取一阶统计量特征、纹理特征和形态特征,可以从小波图像中提取一阶统计量特征和纹理特征,从LoG图像中提取一阶统计量特征和纹理特征。
其中,从一阶统计量维度可以提取肿瘤区域的一阶统计量特征,具体地,一阶统计量维度可以是基于图像样本的像素灰度分布而计算出来的特征值,包括形态学特征和直方图特征,可以反应肿瘤区域的整体形态学特征。
其中,从形态维度可以提取肿瘤区域的形态特征,具体地,该形态特征可以是基于图像样本中肿瘤区域的轮廓线条而计算出来的特征值,可以反应肿瘤区域的肿瘤的形状和结构。
其中,从纹理维度可以提取肿瘤区域的纹理特征,具体地,可以采用统计方法、几何法和模型法提取肿瘤区域的图像样本中的纹理特征,其中,统计方法可以包括GLCM方法(空间灰度共生矩阵)、半方差图、纹理谱方法等,模型法可以包括随机场模型方法。其中,纹理特征可以用于描述肿瘤的表面性质,例如表面的粗细、稠密等特征。
具体实施时,可以提取小波图像的一阶统计量特征和纹理特征,小波图像是对图像样本进行去噪后得到的,提取出的纹理特征和一阶统计量特征所包含的噪点较少,这样,便可以与从原始的图像样本中提取的纹理特征和一阶统计量特征形成对比,以得到不同尺度下的图像样本的多维度特征。
其中,LoG图像可以勾勒出肿瘤区域的形态结构,从而可以对该边缘图像进行不同形式的特征提取,得到LoG图像的一阶统计特征和纹理特征。这样,便可以提取出肿瘤区域的边缘线条的形态学特征和表面性质特征。
采用此措施B的实施方案,可以按照不同特征方式,分别对肿瘤区域的原始的图像样本、去噪后的图像样本以及边缘图像进行特征提取,可以理解为是按照不同的关注点,提取不同关注点下的一阶统计量特征和纹理特征,这样,不同关注点下的一阶统计量特征和纹理特征,可以用于描述肿瘤区域在不同观测角度下的形态学特征,进而可以全方位反应肿瘤区域的形态学特征,从而增强训练样本的丰富性。
实际中,措施A和措施B可以结合使用,也就是说,对每个亚区图像,可以对该亚区图像进行多种维度的特征提取,得到每个亚区图像在每种维度下的多个影像组学特征。这样,不仅对肿瘤区域的细粒度区域进行特征提取,还针对每个细粒度区域,从不同观测角度提取了影像组学特征。
在另外一种可选示例中,样本对象的肿瘤区域的图像样本可以包括T1加权图像(T1w)、T2加权图像(T2w)、对比度增强的T1加权图像(T1WCE)和T2流体衰减翻转恢复图像(T2-FLAIR),在进行特征提取时,可以对四种类型的图像均进行特征提取。
具体实施时,可以获取目标对象的肿瘤区域的多种类型的图像样本,多种类型包括T1加权类型、T2加权类型、对比度增强的T1加权类型和T2流体衰减期转恢复类型;分别对每种类型的图像样本进行特征提取;将提取到的每种类型的图像样本各自对应的影像组学特征进行组合,得到多个影像组学特征。
本可选示例中,以脑胶质瘤为例,核磁共振成像常用的序列有T1加权(T1)、对比增强T1加权(T1c)、T2加权(T2)和流体衰减反演恢复(FLAIR)图像。不同的模式的图像称为一种模态,其可以提供互补的信息来分析不同的胶质瘤分区。例如,T2和FLAIR突出肿瘤周围水肿,指定整个肿瘤。T1和T1c突出显示没有瘤周水肿的肿瘤,指定为肿瘤核心。在T1c中也可以观察到肿瘤核心的高强度增强区域,称为增强肿瘤核心。因此,应用多模态图像可以减少信息的不确定性,提高临床诊断和分割的准确性。
这样,对每种模态的图像样本,都可以提取出相应的影像组学特征。具体实施时,可以针对每种模态的图像样本,从该模态的图像样本中提取三个亚区的图像(上述措施A),接着又对每个亚区的图像样本分别进行多种维度的特征提取(上述措施B),从而得到每种模态下的图像样本的多个影像组学特征,接着对上述四种模态的图像样本提取到的多个影像组学特征进行组合,得到样本对象的多个影像组学特征。
参照图3所示,示出了本公开的完整的对影像组学特征进行提取的过程示意图,如图3所示,包括T1加权类型(TIW图像)、T2加权类型(T2W图像)、对比度增强的T1加权类型(T1WCE图像)和T2流体衰减期转恢复类型的图像样本(FLAIR图像),需要说明的是,这四种模态的图像样本都为三维图像。
其中,对每一种模态的图像样本进行图像分割,得到第一亚区图像、第二亚区图像和第三亚区图像,由于不同模态的图像样本用于突出不同肿瘤区域的不同亚区的特征,因此,对分割出的每种亚区的图像样本均进行特征提取。
在进行特征提取时,可以利用措施B,得到每个亚区图像的一阶统计量特、形态特征、纹理特征,小波图像的一阶统计量特征和纹理特征,以及LoG图像的一阶统计特征和纹理特征。
在实际进行特征提取时,可以参考以下示例进行:
其中,对每个亚区的图像样本,提取一阶统计量特征18个,形态特征16个特征;对纹理维度而言,可以采用不同纹理特征提取方式得到不同方式下提取到的纹理特征,具体包括灰度共生矩阵(GLCM)24个特征、灰度游程矩阵(GLRLM)16个特征、灰度尺寸区域矩阵(GLSZM)16个特征,灰度依赖矩阵(GLDM)14个特征、相邻灰度差分矩阵(NGTDM)5个特征;
LoG滤波图像(sigma:[1.0,2.0,3.0,4.0,5.0])的一阶统计量特征90个、纹理特征375个,小波滤波图像(LLH、LHL、LHH、HLL、HLH、HHL、HHH、LLL)的一阶统计量特征144个、纹理特征600个。
也就是说,针对每种模态下的每个亚区的图像样本,可以得到1318个影像组学特征,这样,针对肿瘤增强区、肿瘤非增强区、肿瘤周围水肿区等三个亚区,得到每个模态的图像样本的影像组学特征为1318*3=3954个,四种模态的图像样本的影像组学特征总共为4*3954=15816个。
当然,以上仅为示例性说明,实际中,提取的影像组学特征的数量可以根据实际需求进行确定即可。
如上所述,本公开的对多个影像组学特征进行筛选可以是指,对多个影像组学特征进行多次筛选,每次筛选所依据的筛选因子可以不同,这样,可以将多次筛选出的影像组学特征进行合并并去重,从而得到筛选出的影像组学特征样本。下面,分别对如何进行影像组学特征的筛选和体素特征的筛选进行介绍。
<影像组学特征的筛选过程>
对影像组学特征的筛选可以包括针对单个样本对象的多个影像组学特征的筛选,也可以包括针对全部样本对象的全部影像组学特征的筛选。其中,在单个样本对象的多个影像组学特征进行筛选时,可以依据表达类别标签和肿瘤区域的肿瘤分级标签进行筛选,在对全部样本对象的全部影像组学特征进行筛选时,可以依据临床数据进行筛选。
具体实施,针对单个样本对象的多个影像组学特征的筛选的过程如下:
在一种可选的示例中,第一筛选因子可以包括表达类别标签和肿瘤区域的肿瘤分级标签;其中,肿瘤分级标签用于标识该样本对象的肿瘤分级,其中,肿瘤分级是指肿瘤的组织学分级,用以表示肿瘤的恶性程度指标。
需要说明的是,本公开的表达类别标签和肿瘤分级标签都是样本对象被确诊肿瘤疾病后得到的,即可以是确诊患者的目标基因的表达类别和肿瘤分级。
其中,可以分别基于表达类别标签和肿瘤分级标签对影像组学特征进行筛选,将二者筛选后的影像组学特征去重后,得到影像组学特征样本。
具体实施时,可以基于每个影像组学特征与表达类别标签之间的第一关系值,对多个影像组学特征进行筛选,得到多个第一影像组学特征;基于每个影像组学特征与肿瘤分级标签之间的第二关系值,对多个影像组学特征进行筛选,得到多个第二影像组学特征;接着对多个第一影像组学特征和多个第二影像组学特征进行去重,得到多个影像组学特征样本。
其中,第一关系值用于表征影像组学特征与目标基因的突变之间的关联程度;第二关系值用于表征影像组学特征与肿瘤分级之间的关联程度。
其中,可以利用Mann-Whitney U(惠特尼检验)检验方法选择与TERT状态标签显著相关的特征,其中,Mann-Whitney U(惠特尼检验)检验方法用于评估两个抽样群体是否可能来自同一群。
具体地,按照TERT状态类别标签0和1分将样本对象分成两组x1和x2,其中,x1中的样本对象的TERT的表达类别标签是0,x2中的样本对象的TERT的表达类别标签是1,接着,计算样本x1和x2之间的Mann-Whitney U检验,得到每个样本对象的每个影像组学特征的p-value,即第一关系值,该第一关系值可以反应样本对象的影像组学特征与状态标签之间的关联程度,进而保留p-value<0.05的影像组学特征,从而完成对影像组学特征的第一次筛选。
其中,也可以利用Mann-Whitney U检验方法选择与肿瘤分级(高级别的胶质瘤/低级别的胶质瘤)标签显著相关的特征,其中,肿瘤分级标签可以包括0和1,0代表高级别的肿瘤,1代表低级别的肿瘤,按照肿瘤分级标签0和1分将样本对象分成两组x3和x4,其中,x3中的样本对象的肿瘤分级标签是0,x4中的样本对象的肿瘤分级标签是1,接着,计算样本x3和x4之间的Mann-Whitney U检验,得到每个样本对象的每个影像组学特征的p-value,即第二关系值,该第二关系值可以反应样本对象的影像组学特征与肿瘤分级标签之间的关联程度,进而保留p-value<0.05的影像组学特征,从而完成对影像组学特征的第二次筛选。
接着,对多个第一影像组学特征和多个第二影像组学特征进行组合后,并去除重复的影像组学特征,得到多个影像组学特征样本。
需要说明的是,第一次筛选(基于目标基因的表达类别标签的筛选)和第二次筛选(基于肿瘤分级标签的筛选)是相互独立的。
在又一种可选的示例中,还可以先采用方差选择法选择区分能力较好的影像组特征,接着,基于第一筛选因子从区分能力较好的影像组特征中筛选出多个影像组学特征样本。
具体实施时,可以确定每个影像组学特征对应的方差,并将方差大于第二方差阈值的影像组学特征保留,得到多个候选影像组学特征。之后,基于第一筛选因子对多个候选影像组学特征进行筛选,得到多个影像组学特征样本。
其中,方差选择法可以选择出对样本的区分有用的特征,也就是说可以选择出特征表达较强的影像组学特征。具体地,若一个影像组学特征的方差接近于0,则表征该样本对象在这个影像组学特征上基本上没有差异,这个影像组学特征对于样本对象之间的区分并没有什么用。
具体地,可以设定阈值,将方差大于阈值的影像组学特征保留,得到方差选择法选择的影像组学特征。实际中,可以对方差选择法选择的影像组学特征使用z-score进行数据标准化处理,接着再基于第一筛选因子,对数据标准化处理后的影像组学特征进行筛选,得到影像组学特征样本。
采用此种实施方式时,可以先对提取出的影像组学特征中对样本区分性不大的影像组学特征进行剔除,从而保留的影像组学特征都是特征表达强的特征,从而提高了后续筛选出的影像组学特征的特征表达强度,也减小了后续进行特征筛选的计算量,提高特征筛选效率。
针对全部样本对象的多个影像组学特征的筛选的过程如下:
具体实施时,基于第三筛选因子对全部影像组学特征进行筛选,得到补充性影像组学特征样本;其中,第三筛选因子包括多个样本对象各自对应的临床数据。
相应地,可以基于多个影像组学特征样本、多个体素特征样本和多个补充性影像组学特征样本,构建所述训练样本。
具体地,如上所述,训练样本包括多个样本组,每个样本组包括一个样本对象对应的多个影像组学特征样本、多个体素特征样本以及该样本对象的多个补充性影像组学特征样本。
这样,多个样本对象被筛选出的影像组学特征样本构成影像组学特征子集1,多个补充性影像组学特征样本构成影像组学特征子集2,体素特征样本构成体素特征子集,影像组学特征子集1、影像组学特征子集2和体素特征子集便作为训练预设模型的训练样本。
具体实施时,参照图4所示,示出了基于临床数据对影像组学特征进行筛选的步骤流程示意图,如图4所示,具体可以包括如下步骤:
步骤S401:获取影像组学特征矩阵以及临床数据矩阵;其中,影像组学特征矩阵包括多个样本对象各自对应的多个影像组学特征,临床数据矩阵包括多个样本对象各自对应的临床数据。
步骤S402:基于影像组学特征矩阵和临床数据特征矩阵,获取互信息系数矩阵。其中,互信息系数矩阵包括每个影像组学特征与临床数据之间的互信息系数,互信息系数用于表征影像组学特征与临床数据之间的关联程度。
步骤S403:基于互信息系数矩阵,对影像组学特征矩阵所包括的全部影像组学特征进行筛选,得到多个补充性影像组学特征样本。
本实施例中,可以将多个样本对象的影像组学特征,基于各自对应的临床数据进行筛选,得到了每个样本对象筛选出的补充性影像组学特征样本。具体实施时,可以使用互信息度量影像组学特征与临床数据特征之间的相关性。具体地,设有N个样本对象,则设影像组学特征矩阵为AN*M,临床数据特征矩阵为BN*S
其中,M为每个样本对象提取到的影像组学特征的数量,例如,如上示例提取了15816个影像组学特征,则M为15816,当然,在采用方差选择法选择了部分影像组学特征后,M为方法选择法选择出的影像组学特征的数量。S为每个样本对象的临床数据的数量。
本公开中,临床数据包括年龄、性别、收缩压、舒张压、疾病史、恶性肿瘤史、用药信息、手术情况、生存时间等。示例如下表所示:
Figure BDA0003853049770000191
其中,可以将临床数据中的每种数据转换为临床数据特征,S即表示临床数据特征的数量。其中,将临床数据转换为临床数据特征的过程可以如下所示:
对于数值型的临床数据执行归一化处理,如对年龄、收缩压、舒张压执行归一化处理。对字符串类型的临床数据先将其转换为数值信息,例如,对性别、疾病史、恶性肿瘤史、用药信息、手术情况等数据进行数值化处理。例如,性别男用1表示,女用0表示;疾病史糖尿病用1表示,高血压用2表示,脑血管疾病用3表示,接着再将其转换为向量表示;其中,对生存期的临床数据进行特征离散化处理,按照0~3年用1表示1,3~5年用2表示,5年以上用3表示的标准划分为三个类别。
当然,实际中,也可以对每种临床数据进行独热编码,得到每种临床数据对应的临床数据特征。
其中,可以基于影像组学特征矩阵和临床数据特征矩阵,获取互信息系数矩阵,具体地,可以计算每个样本对象的每个影像组学特征与该样本对象的不同临床数据特征之间的互信息系数,得到互信息系数矩阵CS*M;这样,系数矩阵CS*M的每行代表一个样本对象的M个影像组学特征各自对应的互信息系数,接着,可以从每行选择K个最好的影像组学特征,并将S行(S个临床数据特征)选择的特征合并去重,得到多个补充性影像组学特征样本。
其中,多个补充性影像组学特征样本中可以按照各自所属的样本对象进行分组,得到每个样本对象对应的补充性影像组学特征样本,进而每个样本对象对应的补充性影像组学特征样本可以划分到该样本对象的样本组中作为训练样本。
由于互信息系数可以度量影像组学特征与临床数据特征之间的相关性,因此,可以筛选出每个样本对象的与临床数据特征相关的影像组学特征,也就是说可以基于临床数据筛选出与患者的病情密切相关的影像组学特征用于模型训练,以提高模型的可解释性。
再一方面,由于基于影像组学特征矩阵和临床数据特征矩阵,获取互信息系数矩阵,这样通过互信息矩阵即可筛选出对应的补充性影像组学特征样本,由此,相比于单个计算每个样本对象的影像组学特征与临床数据特征之间的相关性,可以一次性筛选出多个样本对象各自对应的补充性影像组学特征样本,提高了筛选效率。且将不同样本对象的影像组学特征和临床数据特征纳入到统一矩阵空间中进行计算,由此,在筛选出一个样本对象的补充性影像组学特征样本时,可以借助其他样本对象的临床数据特征与影像组学特征之间的相关性,从而基于多个样本对象构建了临床数据特征与影像组学特征之间的医学关联,提高了筛选出的补充性影像组学特征样本的准确性,即筛选出可以真实反应临床数据的影像组学特征样本。
<体素特征的筛选过程>
在一种可选的示例中,用于筛选体素特征的筛选因子可以包括表达类别标签,当然在筛选过程中,可以先对体素特征进行初级筛选,以筛选出特征表达强的体素特征,之后,在特征表达强的体素特征中,基于表达类别标签进行筛选,以减小分类模型对体素特征的计算量,以及对体素特征进行筛选时的计算量。
具体实施时,可以获取每个体素特征的方差,将方差大于第一方差阈值的体素特征保留,得到多个候选体素特征;以表达类别标签为预测标签,以多个候选体素特征为输入,利用线性回归模型从多个候选体素特征中筛选出多个体素特征样本。
本示例中,仍然可以计算每个体素特征的方差,接着,将方差大于第一方差阈值的体素特征保留,其中,第一方差阈值可以不同于上述的第二方差阈值。其中,线性回归模型可以是LASSO回归模型,具体地,针对保留的候选体素特征,可以采用LASSO回归L1正则化算法进行体素特征选择,具体而言,以多个候选体素特征为LASSO的输入特征,该LASSO的预测标签为目标基因的表达类别标签,从而得到LASSO选择的一组体素特征样本。
实际中,由于肿瘤发生位置与目标基因的表达类别有一定关联,因此,如图1所示,在一种可选的示例中,还可以确定肿瘤区域在所属人体部位上的位置,这样,可以将该位置的位置信息作为训练样本的补充特征,用于训练分类模型。
具体地,可以基于胶质瘤区域的图像样本,确定胶质瘤区域对应的位置信息;并获取位置信息对应的位置特征。其中,位置信息包括胶质瘤区域所属的大脑区域,和/或胶质瘤区域在大脑中的位置坐标。
相应地,可以基于位置特征、多个影像组学特征样本和多个体素特征样本,构建训练样本。
本实施方式中,对于脑胶质瘤而言,其胶质瘤的发生区域与目标基因的表达类别有一定的关联,因此,为了刻画此种关联,可以获取胶质瘤区域在大脑中的位置,即获取胶质瘤区域对应的位置信息。
其中,可以根据脑部的核磁共振图像,确定出胶质瘤区域所在的位置,进而基于该位置所属的脑部区域,确定位置信息。该位置信息可以包括胶质瘤区域所属的大脑区域或胶质瘤区域在大脑中的位置坐标,或者,既包括胶质瘤区域所属的大脑区域,也包括胶质瘤区域在大脑中的位置坐标。具体地,位置坐标可以是指胶质瘤在大脑中的中心坐标,即胶质瘤在大脑中的空间位置。
在一种示例中,大脑区域可以包括大脑、小脑和脑干;在另一种示例中,根据解剖标记(AAL)图谱将大脑细分为116个ROI(region of interest,感兴趣区),AAL图谱全称是Anatomical Automatic Labeling,是一种数字化的大脑结构图谱,一般用于功能性神经影像研究中定位大脑的活动区域,因此,大脑区域可以包括116个ROI区域。
其中,在将位置信息转换为位置特征时,对于位置坐标可以用数值型表示,对于胶质瘤区域所属的大脑区域,可以用胶质瘤区域是否属于上述每个大脑区域的标签表示,以大脑区域包括大脑、小脑和脑干为例,肿瘤属于该区域,则表示为1,不属于该区域,则表示为0,假设胶质瘤分布在小脑和脑干,则位置特征表示为[0,1,1]。
采用本实施方式的技术方案,可以融合肿瘤所属的区域的位置特征,从而可以为预测目标基因的表达类别提供肿瘤位置的参考,基于肿瘤发生位置与目标基因的表达类别之间的关联,可以较为准确预测目标基因的表达类别。
在利用训练样本对预设模型进行训练得到分类模型的过程可以如下:
将训练样本输入至分类模型,得到分类模型输出的目标基因的预测表达类别;并基于预测表达类别和表达类别标签,确定预设模型的损失值;基于损失值,更新预设模型的参数;接着将满足训练结束条件时的预设模型作为分类模型,训练结束条件为分类模型收敛或达到预设更新次数。
本实施方式中,如上所述,可以将每个样本对象的样本组,即每个样本对象被筛选出的影像组学特征样本、体素特征样本以及补充性影像组学特征样本输入预设模型中,由预设模型基于影像组学特征样本、体素特征样本以及补充性影像组学特征样本,进行不同尺度的处理,从而预测出该样本对象的目标基因的表达类别,即预测表达类别,之后,基于该样本对象的表达类别标签和预测表达类别构建损失函数,计算预设模型的损失值,基于该损失值,不断更新预设模型的参数,最终得到分类模型。
其中,在训练结束条件中,分类模型收敛可以是指损失值小于或等于预设损失值,或者,可以是损失值不再变小。其中,预设更新次数可以根据实际需求进行设置。
采用本公开的分类模型获取方法,由于训练样本是基于目标基因的表达类别标签筛选出的与目标基因的表达类别相关性较强的影像组学特征样本和体素样本,因此,分类模型学习到了影像组学特征和体素特征与目标基因的表达类别之间的相关性,从而提高了分类模型的可解释性。
在训练得到上述的分类模型后,由于送入预设模型的训练样本是基于临床数据、目标基因的表达类别筛选出的有效影像组学特征样本和体素特征样本,这样,预设模型在训练过程中可以学习到这些与目标基因的突变有关的特征与目标基因的表达类别之间的关联,也就是说可以提高分类模型的医学可解释性,进而该分类模型可以具有依据影像组学特征和体素特征,预测目标基因的表达类别。
这样,在又一种实施例中,本公开提供了一种目标基因的表达类别确定方法,参照图5所示,示出了目标基因的表达类别确定方法的步骤流程图,如图5所示,包括以下步骤:
步骤S501:获取待测对象的肿瘤区域的多个目标影像组学特征和多个目标体素特征。
步骤S502:将多个目标影像组学特征和多个目标体素特征,输入至分类模型;其中,分类模型是按照上述实施例所述的分类模型获取方法得到的;
步骤S503:基于分类模型的输出,确定待测对象的目标基因的表达类别。
本实施例中,待测对象可以是指待测定目标基因的表达类别的患者,其中,可以获取待测对象的肿瘤区域的核磁共振图像,具体地,该核磁共振图像可以包括上述实施例所述的四种模态的图像,即包括T1加权类型的图像、T2加权类型的图像、对比度增强的T1加权类型的图像和T2流体衰减期转恢复类型的图像,接着,可以从每种模态的图像中分割出三个亚区的图像,分别对每个亚区的图像进行多种尺度的特征提取,通过多种尺度的特征提取,可以获取上述实施例所述的一阶统计量特征、形态特征、纹理特征,从而得到待测对象对应的多个目标影像组学特征。
其中,获取待测对象的目标体素特征的过程可以参照上述实施中获取样本对象的体素特征的过程所述,在此不再赘述。
接着,可以将多个目标影像组学特征和多个目标体素特征,输入至分类模型,由于分类模型经过上述实施例的获取过程,已经学习到影像组学特征和体素特征与目标基因的表达类别之间的相关性,因此,具有基于影像组学特征和体素特征预测目标基因的表达类别的能力。
其中,分类模型的输出是目标基因属于每种表达类别的概率,即属于突变型的概率和属于野生型的概率,实际中,可以将概率大于预设概率值的类别作为目标基因的表达类别。
采用本实施方案的目标基因的表达类别确定方法,由于预设模型在训练过程中学习到这些与目标基因的突变有关的特征与目标基因的表达类别之间的关联,也就是说可以提高分类模型的医学可解释性,进而该分类模型可以具有依据影像组学特征和体素特征,预测目标基因的表达类别,从而在实际应用中,可以直接将待测对象的目标影像组学特征和目标体素特征输入到分类模型,即可得到准确的目标基因的表达类别,而无需对待测对象进行焦磷酸测序或PCR等有创检测方法确定突变状态,可以大大减轻患者的痛苦。
在一种可选示例中,在利用分类模型对待测对象的目标基因的表达类别进行预测时,也可以对影像组学特征进行筛选,一方面,可以筛选出特征表达较强的目标影像组学特征和目标体素特征,另一方面,可以筛选出与待测对象的肿瘤分级和临床数据具有较强关联的目标影像组学特征。
具体实施时,筛选出特征表达较强的目标影像组学特征的过程如下:可以确定每个目标影像组学特征对应的方差,并将方差大于第二方差阈值的目标影像组学特征保留;确定每个体素特征的方差,将方差大于所述第一方差阈值的目标体素特征保留。相应地,可以将保留的目标影像组学特征和保留的目标体素特征,输入至分类模型。
其中,第一方差阈值可以与上述实施例的第一方差阈值相同,第二方差阈值可以与上述实施例的第二方差阈值相同。也就是说对于待测对象,也可以采用方差选择法选择出表达能力强的目标体素特征和目标影像组学特征。
具体实施时,筛选出与待测对象的肿瘤分级和临床数据具有较强关联的目标影像组学特征的过程可以如下:
获取待测对象对应的第四筛选因子,基于第四筛选因子,对多个目标影像组学特征进行筛选;其中,第四筛选因子包括待测对象的临床数据和/或肿瘤分级数据。
其中,第四筛选因子可以包括临床数据或肿瘤分级数据,或者临床数据和肿瘤分级数据都包括。
在仅包括临床数据的情况下,可以计算目标影像组学特征与临床数据之间的互信息系数,进而基于互信息系数筛选出送入分类模型的目标影像组学特征;在仅包括肿瘤分级的情况下,可以计算目标影像组学特征与肿瘤分级之间的第三关系值,进而基于第三关系值筛选出送入分类模型的目标影像组学特征。
在包括临床数据和肿瘤分级的情况下,可以确定每个目标影像组学特征与所述肿瘤分级标签之间的第三关系值,以及每个目标影像组学特征与所述临床数据之间的互信息系数;
接着,分别基于第三关系值对多个目标影像组学特征进行筛选,以及,基于互信息系数对多个目标影像组学特征进行筛选;之后,将基于第三关系值筛选出的目标影像组学特征和基于互信息系数筛选出的目标影像组学特征进行去重,得到筛选出的目标影像组学特征。
其中,计算三关系值和互信息系数的过程可以参照上述实施例的描述即可,在此不再赘述。
采用此种实施方式,由于从多个目标影像组学特征中筛选出了与待测对象的临床数据密切相关的目标影像组学特征,以及与待测对象的肿瘤分级密切相关的目标影像组学特征,因此,在分类模型已经具备确定影像组学特征和体素特征与目标基因的表达类别之间的关联的能力的情况下,送入到分类模型的也是与待测对象的临床数据和肿瘤分级密切相关的目标影像组学特征,因此,可以进一步提高预测目标基因的表达类别的准确度。
基于相同的发明构思,本公开还提供了一种分类模型获取装置,参照图6所示,示出了本公开的分类模型获取装置的结构框架示意图,如图6所示,装置具体可以包括以下模块:
特征获取模块601,用于针对样本对象的肿瘤区域,获取肿瘤区域的多个影像组学特征和多个体素特征;
特征选择模块602,用于基于第一筛选因子对多个影像组学特征进行筛选,得到多个影像组学特征样本;以及基于第二筛选因子对多个体素特征进行筛选,得到多个体素特征样本;其中,第一筛选因子和第二筛选因子均包括样本对象的TERT基因的表达类别标签;
样本构建模块603,用于基于多个影像组学特征样本和多个体素特征样本,构建训练样本;
模型训练模块604,用于以训练样本为输入,对预设模型进行训练,得到分类模型,分类模型用于预测目标基因突变的类别。
可选地,特征获取模块601,包括:
图像分割单元,用于从肿瘤区域的图像样本中提取属于肿瘤非增强区的第一亚区图像、属于肿瘤增强区的第二亚区图像,以及属于肿瘤周围水肿区的第二亚区图像;
特征提取单元,用于分别对第一亚区图像、第二亚区图像以及第三亚区图像进行特征提取,得到多个影像组学特征。
可选地,特征获取模块601,包括:
多类型图像获取单元,用于获取肿瘤区域的多种类型的图像样本,多种类型包括T1加权类型、T2加权类型、对比度增强的T1加权类型和T2流体衰减期转恢复类型;
特征提取单元,用于分别对每种类型的图像样本进行特征提取;
特征组合单元,用于将提取到的每种类型的图像样本各自对应的影像组学特征进行组合,得到多个影像组学特征。
可选地,肿瘤区域为大脑中的胶质瘤区域,装置还包括:
位置信息获取模块,用于基于胶质瘤区域的图像样本,确定胶质瘤区域对应的位置信息;
位置特征获取模块,用于获取位置信息对应的位置特征;其中,位置信息包括胶质瘤区域所属的大脑区域,和/或胶质瘤区域在大脑中的位置坐标;
样本构建模块603,具体用于基于位置特征、多个影像组学特征样本和多个体素特征样本,构建训练样本。
可选地,第一筛选因子包括表达类别标签和肿瘤区域的肿瘤分级标签;特征选择模块602包括影像组学特征筛选单元,影像组学特征筛选单元包括:
第一筛选子单元,用于基于每个影像组学特征与表达类别标签之间的第一关系值,对多个影像组学特征进行筛选,得到多个第一影像组学特征;其中,第一关系值用于表征影像组学特征与目标基因的突变之间的关联程度;
第二筛选子单元,用于基于每个影像组学特征与肿瘤分级标签之间的第二关系值,对多个影像组学特征进行筛选,得到多个第二影像组学特征;其中,第二关系值用于表征影像组学特征与肿瘤分级之间的关联程度;
去重单元,用于对多个第一影像组学特征和多个第二影像组学特征进行去重,得到多个影像组学特征样本。
可选地,包括多个样本对象,装置还包括:
影像组学特征再筛选模块,用于针对全部样本对象所包括的全部影像组学特征,基于第三筛选因子对全部影像组学特征进行筛选,得到补充性影像组学特征样本;其中,第三筛选因子包括多个样本对象各自对应的临床数据;
样本构建模块603,具体用于基于多个影像组学特征样本、多个体素特征样本和多个补充性影像组学特征样本,构建训练样本。
可选地,影像组学特征再筛选模块,包括:
矩阵创建单元,用于获取影像组学特征矩阵以及临床数据矩阵;其中,影像组学特征矩阵包括多个样本对象各自对应的多个影像组学特征,临床数据矩阵包括多个样本对象各自对应的临床数据;
互信息系数确定单元,用于基于影像组学特征矩阵和临床数据特征矩阵,获取互信息系数矩阵,互信息系数矩阵包括每个影像组学特征与临床数据之间的互信息系数,互信息系数用于表征影像组学特征与临床数据之间的关联程度;
补充筛选单元,用于基于互信息系数矩阵,对影像组学特征矩阵所包括的全部影像组学特征进行筛选,得到多个补充性影像组学特征样本。
可选地,第二筛选因子包括表达类别标签,特征选择模块602包括体素特征筛选单元,体素特征筛选单元包括:
第一方差确定单元,用于获取每个体素特征的方差,将方差大于第一方差阈值的体素特征保留,得到多个候选体素特征;
体素筛选单元,用于以表达类别标签为预测标签,以多个候选体素特征为输入,利用线性回归模型从多个候选体素特征中筛选出多个体素特征样本。
可选地,装置还包括:
第二方差确定单元,用于确定每个影像组学特征对应的方差,并将方差大于第二方差阈值的影像组学特征保留,得到多个候选影像组学特征;
影像组学特征筛选单元,用于基于第一筛选因子对多个候选影像组学特征进行筛选,得到多个影像组学特征样本。
可选地,特征获取模块包括影像组学特征提取单元,影像组学特征提取单元具体包括:
多维度特征提取子单元,获取肿瘤区域的图像样本的小波图像和LoG图像;分别对肿瘤区域的图像样本、小波图像和LoG图像进行多尺度特征提取,得到肿瘤区域的一阶统计量特征、纹理特征和形态特征;
多维度特征组合子单元,用于将肿瘤区域的一阶统计量特征、纹理特征和形态特征进行组合,得到多个影像组学特征。
可选地,模型训练模块,包括:
输入单元,用于将训练样本输入至分类模型,得到分类模型输出的目标基因的预测表达类别;
损失确定单元,用于基于预测表达类别和表达类别标签,确定分类模型的损失值;
参数更新单元,用于基于损失值,更新分类模型的参数;
分类模型获取单元,用于将满足训练结束条件时的分类模型作为分类模型,训练结束条件为分类模型收敛或达到预设更新次数
基于相同的发明构思,本公开还提供了一种目标基因的表达类别确定装置,参照图7所示,示出了本公开的目标基因的表达类别确定装置的框架示意图,如图7所示,装置具体可以包括以下模块:
特征获取模块701,用于获取待测对象的肿瘤区域的多个目标影像组学特征和多个目标体素特征;
特征输入模块702,用于将多个目标影像组学特征和多个目标体素特征,输入至分类模型;其中,分类模型是按照合上述实施例的分类模型的获取方法得到的;
类别确定模块703,用于基于分类模型的输出,确定待测对象的目标基因的表达类别。
可选地,装置还包括:
第一影像组学特征筛选模块,用于确定每个目标影像组学特征对应的方差,并将方差大于第二方差阈值的目标影像组学特征保留;
体素特征筛选模块,用于确定每个体素特征的方差,将方差大于第一方差阈值的目标体素特征保留;
特征输入模块702,具体用于将保留的目标影像组学特征和目标体素特征,输入至分类模型。
可选地,装置还包括:
筛选因子获取模块,用于获取待测对象对应的第四筛选因子,第四筛选因子包括待测对象的临床数据和/或肿瘤分级数据;
第二影像组学特征筛选模块,用于基于第四筛选因子,对多个目标影像组学特征进行筛选;
特征输入模块702,具体用于将多个筛选出的目标影像组学特征和多个目标体素特征,输入至分类模型。
可选地,第四筛选因子包括临床数据和肿瘤分级数据;第二影像组学特征筛选模块,包括:
数值确定单元,用于确定每个目标影像组学特征与肿瘤分级标签之间的第三关系值,以及每个目标影像组学特征与临床数据之间的互信息系数;
筛选单元,用于基于第三关系值对多个目标影像组学特征进行筛选,以及,基于互信息系数对多个目标影像组学特征进行筛选;
去重单元,用于将基于第三关系值筛选出的目标影像组学特征和基于互信息系数筛选出的目标影像组学特征进行去重,得到筛选出的目标影像组学特征。
基于相同的发明构思,本公开还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现所述的分类模型获取方法,或执行时实现所述的目标基因的表达类别确定方法。
参照图8所示,示出了本公开实施例的一种电子设备800的结构框图,如图8所示,本发明实施例提供的一种电子设备,该电子设备800可以用于执行分类模型获取方法或者目标基因的表达类别确定方法。
电子设备800可以包括存储器801、处理器802及存储在存储器上并可在处理器上运行的计算机程序,所述处理器802被配置为执行所述的图像处理方法。
如图8所示,在一实施例中,该电子设备800完整的可以包括输入装置803、输出装置804以及图像采集装置805,其中,在执行本公开实施例的图像处理方法时,图像采集装置805可以获取肿瘤区域的图像(包括图像样本和待测对象的肿瘤区域的图像),接着输入装置803可以获得图像采集装置805获取的图像,该图像可以由处理器802进行处理,该处理具体可以包括提取影像组学特征和体素特征,以及对影像组学特征和体素特征进行筛选,并对筛选后的特征构建训练样本训练预设模型,输出装置804可以输出分类模型,或者可以输出分类模型输出的表达类别结果。
当然,在一实施例中,存储器801可以包括易失性存储器和非易失性存储器,其中,易失性存储器可以理解为是随机存取记忆体,用来存储和保存数据的。非易失性存储器是指当电流关掉后,所存储的数据不会消失的电脑存储器,当然,本公开的分类模型获取方法,或者目标基因的表达类别确定方法的计算机程序可以存储在易失性存储器和非易失性存储器中,或者存在二者中的任意一个中。
基于相同的发明构思,本公开还提供一种计算机可读存储介质,其存储的计算机程序使得处理器执行所述的分类模型获取方法,或执行时实现所述的目标基因的表达类别确定方法。
基于相同的发明构思,本公开还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现所述的分类模型的获取方法,或执行时实现所述的确定目标基因的表达类别的方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
最后,还需要说明的是,除非另外定义,在本文中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
以上对本公开所提供的一种分类模型获取方法、表达类别确定方法、装置、设备及介质进行了详细介绍,本文中应用了具体个例对本公开的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本公开的方法及其核心思想;同时,对于本领域的一般技术人员,依据本公开的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本公开的限制。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着,结合实施例描述的特定特征、结构或者特性包括在本公开的至少一个实施例中。此外,请注意,这里“在一个实施例中”的词语例子不一定全指同一个实施例。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本公开的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
最后应说明的是:以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围。

Claims (19)

1.一种分类模型获取方法,其特征在于,所述方法包括:
针对样本对象的肿瘤区域,获取所述肿瘤区域的多个影像组学特征和多个体素特征;
基于第一筛选因子对多个所述影像组学特征进行筛选,得到多个影像组学特征样本;以及基于第二筛选因子对多个所述体素特征进行筛选,得到多个体素特征样本;其中,所述第一筛选因子和所述第二筛选因子均包括所述样本对象的目标基因的表达类别标签;
基于多个所述影像组学特征样本和多个所述体素特征样本,构建训练样本;
以所述训练样本为输入,对预设模型进行训练,得到所述分类模型,所述分类模型用于预测所述目标基因的表达类别。
2.根据权利要求1所述的方法,其特征在于,所述获取所述肿瘤区域的多个影像组学特征,包括:
从所述肿瘤区域的图像样本中提取属于肿瘤非增强区的第一亚区图像、属于肿瘤增强区的第二亚区图像,以及属于肿瘤周围水肿区的第三亚区图像;
分别对所述第一亚区图像、所述第二亚区图像以及所述第三亚区图像进行特征提取,得到多个所述影像组学特征。
3.根据权利要求1或2所述的方法,其特征在于,所述获取所述肿瘤区域的多个影像组学特征,包括:
获取所述肿瘤区域的多种类型的图像样本,所述多种类型包括T1加权类型、T2加权类型、对比度增强的T1加权类型和T2流体衰减期转恢复类型;
分别对每种类型的图像样本进行特征提取;
将提取到的所述每种类型的图像样本各自对应的影像组学特征进行组合,得到多个所述影像组学特征。
4.根据权利要求1所述的方法,其特征在于,所述肿瘤区域为大脑中的胶质瘤区域,所述方法还包括:
基于所述胶质瘤区域的图像样本,确定所述胶质瘤区域对应的位置信息;
获取所述位置信息对应的位置特征;其中,所述位置信息包括所述胶质瘤区域所属的大脑区域,和/或所述胶质瘤区域在所述大脑中的位置坐标;
基于多个所述影像组学特征样本和多个所述体素特征样本,构建训练样本,包括:
基于所述位置特征、多个所述影像组学特征样本和多个所述体素特征样本,构建所述训练样本。
5.根据权利要求1所述的方法,其特征在于,所述第一筛选因子包括所述表达类别标签和所述肿瘤区域的肿瘤分级标签;所述基于第一筛选因子对多个所述影像组学特征进行筛选,得到多个影像组学特征样本,包括:
基于每个所述影像组学特征与所述表达类别标签之间的第一关系值,对多个所述影像组学特征进行筛选,得到多个第一影像组学特征;其中,所述第一关系值用于表征所述影像组学特征与所述目标基因的突变之间的关联程度;
基于每个所述影像组学特征与所述肿瘤分级标签之间的第二关系值,对多个所述影像组学特征进行筛选,得到多个第二影像组学特征;其中,所述第二关系值用于表征所述影像组学特征与所述肿瘤分级之间的关联程度;
对多个所述第一影像组学特征和多个第二影像组学特征进行去重,得到多个所述影像组学特征样本。
6.根据权利要求1-5任一所述的方法,其特征在于,包括多个所述样本对象,所述方法还包括:
针对全部所述样本对象所包括的全部影像组学特征,基于第三筛选因子对所述全部影像组学特征进行筛选,得到补充性影像组学特征样本;其中,所述第三筛选因子包括多个所述样本对象各自对应的临床数据;
基于多个所述影像组学特征样本和多个所述体素特征样本,构建训练样本,包括:
基于多个所述影像组学特征样本、多个所述体素特征样本和多个所述补充性影像组学特征样本,构建所述训练样本。
7.根据权利要求6所述的方法,其特征在于,所述针对全部所述样本对象所包括的全部影像组学特征,基于第三筛选因子对所述全部影像组学特征进行筛选,得到补充性影像组学特征样本,包括:
获取影像组学特征矩阵以及临床数据矩阵;其中,所述影像组学特征矩阵包括多个样本对象各自对应的多个影像组学特征,所述临床数据矩阵包括多个样本对象各自对应的临床数据;
基于所述影像组学特征矩阵和所述临床数据特征矩阵,获取互信息系数矩阵,所述互信息系数矩阵包括每个影像组学特征与所述临床数据之间的互信息系数,所述互信息系数用于表征所述影像组学特征与所述临床数据之间的关联程度;
基于所述互信息系数矩阵,对所述影像组学特征矩阵所包括的全部影像组学特征进行筛选,得到多个所述补充性影像组学特征样本。
8.根据权利要求1所述的方法,其特征在于,所述第二筛选因子包括所述表达类别标签,所述基于第二筛选因子对多个所述体素特征进行筛选,得到多个体素特征样本,包括:
获取每个所述体素特征的方差,将方差大于第一方差阈值的体素特征保留,得到多个候选体素特征;
以所述表达类别标签为预测标签,以多个所述候选体素特征为输入,利用线性回归模型从多个所述候选体素特征中筛选出多个所述体素特征样本。
9.根据权利要求1所述的方法,其特征在于,所述基于第一筛选因子对多个所述影像组学特征进行筛选,得到多个影像组学特征样本之前,所述方法还包括:
确定每个所述影像组学特征对应的方差,并将方差大于第二方差阈值的影像组学特征保留,得到多个候选影像组学特征;
所述基于第一筛选因子对多个所述影像组学特征进行筛选,得到多个影像组学特征样本,包括:
基于第一筛选因子对多个所述候选影像组学特征进行筛选,得到多个影像组学特征样本。
10.根据权利要求1所述的方法,其特征在于,所述获取所述肿瘤区域的多个影像组学特征,包括:
获取所述肿瘤区域的图像样本的小波图像和LoG图像;
分别对所述肿瘤区域的图像样本、所述小波图像和所述LoG图像进行多尺度特征提取,得到所述肿瘤区域的一阶统计量特征、纹理特征和形态特征;
将所述肿瘤区域的一阶统计量特征、纹理特征和形态特征进行组合,得到多个所述影像组学特征。
11.根据权利要求1所述的方法,其特征在于,以所述训练样本为输入,对预设模型进行训练,得到所述分类模型,包括:
将所述训练样本输入至所述分类模型,得到所述分类模型输出的TERT基因的预测表达类别;
基于所述预测表达类别和所述表达类别标签,确定所述分类模型的损失值;
基于所述损失值,更新所述分类模型的参数;
将满足训练结束条件时的分类模型作为所述分类模型,所述训练结束条件为所述分类模型收敛或达到预设更新次数。
12.一种目标基因的表达类别确定方法,其特征在于,所述方法包括:
获取待测对象的肿瘤区域的多个目标影像组学特征和多个目标体素特征;
将所述多个目标影像组学特征和多个所述目标体素特征,输入至分类模型;其中,所述分类模型是按照权利要求1-11任一所述的分类模型的获取方法得到的;
基于所述分类模型的输出,确定所述待测对象的目标基因的表达类别。
13.根据权利要求12所述的方法,其特征在于,所述获取待测对象的肿瘤区域的多个目标影像组学特征和多个目标体素特征之后,所述方法还包括:
确定每个所述体素特征对应的方差,将方差大于第一方差阈值的目标体素特征保留;
确定每个所述目标影像组学特征对应的方差,并将方差大于第二方差阈值的目标影像组学特征保留;
将多个所述目标影像组学特征和多个所述目标体素特征,输入至分类模型,包括:
将保留的目标影像组学特征和目标体素特征,输入至所述分类模型。
14.根据权利要求12或13所述的方法,其特征在于,所述获取待测对象的肿瘤区域的多个目标影像组学特征和多个目标体素特征之后,所述方法还包括:
获取所述待测对象对应的第四筛选因子,所述第四筛选因子包括所述待测对象的临床数据和/或肿瘤分级数据;
基于所述第四筛选因子,对多个目标影像组学特征进行筛选;
将多个所述目标影像组学特征和多个所述目标体素特征,输入至分类模型,包括:
将多个筛选出的目标影像组学特征和多个所述目标体素特征,输入至所述分类模型。
15.根据权利要求14所述的方法,其特征在于,所述第四筛选因子包括所述临床数据和所述肿瘤分级数据;基于所述第四筛选因子,对多个目标影像组学特征进行筛选,包括:
确定每个所述目标影像组学特征与所述肿瘤分级标签之间的第三关系值,以及每个所述目标影像组学特征与所述临床数据之间的互信息系数;
基于所述第三关系值对多个所述目标影像组学特征进行筛选,以及,基于所述互信息系数对多个所述目标影像组学特征进行筛选;
将基于所述第三关系值筛选出的目标影像组学特征和基于所述互信息系数筛选出的目标影像组学特征进行去重,得到所述筛选出的目标影像组学特征。
16.一种分类模型获取装置,其特征在于,所述装置包括:
特征获取模块,用于针对样本对象的肿瘤区域,获取所述肿瘤区域的多个影像组学特征和多个体素特征;
特征选择模块,用于基于第一筛选因子对多个所述影像组学特征进行筛选,得到多个影像组学特征样本;以及基于第二筛选因子对多个所述体素特征进行筛选,得到多个体素特征样本;其中,所述第一筛选因子和所述第二筛选因子均包括所述样本对象的目标基因的表达类别标签;
样本构建模块,用于基于多个所述影像组学特征样本和多个所述体素特征样本,构建训练样本;
模型训练模块,用于以所述训练样本为输入,对预设模型进行训练,得到所述分类模型,所述分类模型用于预测目标基因的表达类别。
17.一种目标基因的表达类别确定装置,其特征在于,所述装置包括:
特征获取模块,用于获取待测对象的肿瘤区域的多个目标影像组学特征和多个目标体素特征;
特征输入模块,用于将所述多个目标影像组学特征和多个所述目标体素特征,输入至分类模型;其中,所述分类模型是按照权利要求1-11任一所述的分类模型的获取方法得到的;
类别确定模块,用于基于所述分类模型的输出,确定所述待测对象的目标基因的表达类别。
18.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现如权利要求1-11任一所述的分类模型获取方法,或执行时实现如权利要求12-15任一项所述的目标基因的表达类别确定方法。
19.一种计算机可读存储介质,其特征在于,其存储的计算机程序使得处理器执行如权利要求1-11任一所述的分类模型获取方法,或执行时实现如权利要求12-15任一所述的目标基因的表达类别确定方法。
CN202211140564.6A 2022-09-19 2022-09-19 分类模型获取方法、表达类别确定方法、装置、设备及介质 Pending CN115457361A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211140564.6A CN115457361A (zh) 2022-09-19 2022-09-19 分类模型获取方法、表达类别确定方法、装置、设备及介质
PCT/CN2023/110354 WO2024060842A1 (zh) 2022-09-19 2023-07-31 分类模型获取方法、表达类别确定方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211140564.6A CN115457361A (zh) 2022-09-19 2022-09-19 分类模型获取方法、表达类别确定方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN115457361A true CN115457361A (zh) 2022-12-09

Family

ID=84305867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211140564.6A Pending CN115457361A (zh) 2022-09-19 2022-09-19 分类模型获取方法、表达类别确定方法、装置、设备及介质

Country Status (2)

Country Link
CN (1) CN115457361A (zh)
WO (1) WO2024060842A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452559A (zh) * 2023-04-19 2023-07-18 深圳市睿法生物科技有限公司 基于ctDNA片段化模式的肿瘤病灶的定位方法及装置
WO2024060842A1 (zh) * 2022-09-19 2024-03-28 京东方科技集团股份有限公司 分类模型获取方法、表达类别确定方法、装置、设备及介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118096773A (zh) * 2024-04-29 2024-05-28 东莞市人民医院 一种瘤内及瘤周生境分析方法、装置、设备及存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060195266A1 (en) * 2005-02-25 2006-08-31 Yeatman Timothy J Methods for predicting cancer outcome and gene signatures for use therein
CN106943192A (zh) * 2017-03-14 2017-07-14 上海交通大学医学院附属第九人民医院 肺癌细胞ki‑67表达指数的术前预测模型的建立方法
CN108109140A (zh) * 2017-12-18 2018-06-01 复旦大学 基于深度学习的低级别脑胶质瘤柠檬酸脱氢酶无损预测方法及系统
CN108376565B (zh) * 2018-02-13 2022-07-19 北京市神经外科研究所 一种脑胶质瘤Ki-67表达水平的影像组学预测方法
WO2020138479A1 (ja) * 2018-12-28 2020-07-02 国立大学法人大阪大学 個体の形質情報を予測するためのシステムまたは方法
CN110097921B (zh) * 2019-05-30 2023-01-06 复旦大学 基于影像组学的胶质瘤内基因异质性可视化定量方法和系统
WO2021108382A1 (en) * 2019-11-26 2021-06-03 University Of Cincinnati Characterizing intra-site tumor heterogeneity
CN111260636B (zh) * 2020-01-19 2023-07-25 郑州大学 模型训练方法及设备、图像处理方法及设备以及介质
CN113744801B (zh) * 2021-09-09 2023-05-26 首都医科大学附属北京天坛医院 肿瘤类别的确定方法、装置、系统、电子设备及存储介质
CN114463320B (zh) * 2022-02-17 2024-01-26 厦门大学 一种磁共振成像脑胶质瘤idh基因预测方法及系统
CN114999571B (zh) * 2022-06-06 2024-03-29 哈尔滨工业大学 一种诊断早期结肠癌的突变基因筛选方法及系统
CN115457361A (zh) * 2022-09-19 2022-12-09 京东方科技集团股份有限公司 分类模型获取方法、表达类别确定方法、装置、设备及介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024060842A1 (zh) * 2022-09-19 2024-03-28 京东方科技集团股份有限公司 分类模型获取方法、表达类别确定方法、装置、设备及介质
CN116452559A (zh) * 2023-04-19 2023-07-18 深圳市睿法生物科技有限公司 基于ctDNA片段化模式的肿瘤病灶的定位方法及装置
CN116452559B (zh) * 2023-04-19 2024-02-20 深圳市睿法生物科技有限公司 基于ctDNA片段化模式的肿瘤病灶的定位方法及装置

Also Published As

Publication number Publication date
WO2024060842A1 (zh) 2024-03-28

Similar Documents

Publication Publication Date Title
US10846367B2 (en) Predicting recurrence in early stage non-small cell lung cancer (NSCLC) with integrated radiomic and pathomic features
US10235755B2 (en) High-throughput adaptive sampling for whole-slide histopathology image analysis
US10503959B2 (en) Predicting cancer progression using cell run length features
Diciotti et al. 3-D segmentation algorithm of small lung nodules in spiral CT images
Ahirwar Study of techniques used for medical image segmentation and computation of statistical test for region classification of brain MRI
Mahapatra Analyzing training information from random forests for improved image segmentation
US11017896B2 (en) Radiomic features of prostate bi-parametric magnetic resonance imaging (BPMRI) associate with decipher score
US9123095B2 (en) Method for increasing the robustness of computer-aided diagnosis to image processing uncertainties
Gao et al. Prostate segmentation by sparse representation based classification
CN115457361A (zh) 分类模型获取方法、表达类别确定方法、装置、设备及介质
Arnaud et al. Fully automatic lesion localization and characterization: Application to brain tumors using multiparametric quantitative MRI data
US20180253841A1 (en) Predicting cancer recurrence using local co-occurrence of cell morphology (locom)
CN108109140A (zh) 基于深度学习的低级别脑胶质瘤柠檬酸脱氢酶无损预测方法及系统
US20080021301A1 (en) Methods and Apparatus for Volume Computer Assisted Reading Management and Review
EP2686828A1 (en) Histology analysis
WO2010115885A1 (en) Predictive classifier score for cancer patient outcome
US20100183210A1 (en) Computer-assisted analysis of colonic polyps by morphology in medical images
Doran et al. Breast MRI segmentation for density estimation: Do different methods give the same results and how much do differences matter?
CN115393269A (zh) 一种基于多模态影像数据的可扩展多层级图神经网络模型
KR20180022607A (ko) 다양한 측정으로부터의 의료 측정 데이터에 기초한 결과 데이터의 결정
Xu et al. Using transfer learning on whole slide images to predict tumor mutational burden in bladder cancer patients
CN114171197B (zh) 一种乳腺癌her2状态的预测方法及相关设备
Florez et al. Emergence of radiomics: novel methodology identifying imaging biomarkers of disease in diagnosis, response, and progression
CN112561869A (zh) 一种胰腺神经内分泌肿瘤术后复发风险预测方法
Kaushik et al. Brain tumor segmentation using genetic algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination