CN116862861B - 一种基于多组学的胃癌治疗疗效的预测模型训练、预测方法及系统 - Google Patents

一种基于多组学的胃癌治疗疗效的预测模型训练、预测方法及系统 Download PDF

Info

Publication number
CN116862861B
CN116862861B CN202310813707.3A CN202310813707A CN116862861B CN 116862861 B CN116862861 B CN 116862861B CN 202310813707 A CN202310813707 A CN 202310813707A CN 116862861 B CN116862861 B CN 116862861B
Authority
CN
China
Prior art keywords
image
features
training
prediction model
focus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310813707.3A
Other languages
English (en)
Other versions
CN116862861A (zh
Inventor
陈健
齐佳
王帅
王可意
张天云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202310813707.3A priority Critical patent/CN116862861B/zh
Publication of CN116862861A publication Critical patent/CN116862861A/zh
Application granted granted Critical
Publication of CN116862861B publication Critical patent/CN116862861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N1/00Sampling; Preparing specimens for investigation
    • G01N1/28Preparing specimens for investigation including physical details of (bio-)chemical methods covered elsewhere, e.g. G01N33/50, C12Q
    • G01N1/30Staining; Impregnating ; Fixation; Dehydration; Multistep processes for preparing samples of tissue, cell or nucleic acid material and the like for analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10081Computed x-ray tomography [CT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多组学的胃癌治疗疗效的预测模型训练、预测方法及系统,包括获取样本图像集,数据包括CT图像和染色图像;对样本图像集中的每个图像进行ROI分割,获得病灶区域集;对病灶区域集中每个病灶区域进行特征提取,获取训练样本集;将训练样本集输入XGBoost预测模型进行训练,得到训练完成的XGBoost预测模型。本发明基于CT图像和染色图像获得影像组特征和病理学特征,将两个特征集输入XGBoost预测模型进行训练,从而提高预测模型的准确率。

Description

一种基于多组学的胃癌治疗疗效的预测模型训练、预测方法 及系统
技术领域
本发明涉及放疗计划预测技术领域,具体涉及一种基于多组学的胃癌治疗疗效的预测模型训练、预测方法及系统。
背景技术
胃癌(Gastric cancer,GC)是世界上最常见的恶性肿瘤之一。胃癌易发生转移和化疗不敏感,是导致其预后差的重要原因。有效的预测胃癌患者术后的预后和化疗获益,将可以选择合适的治疗人群和方式,为有效诊治提供有力的支持。根据TNM(tumor nodemetastasis)分期系统和组织分型对胃癌进行的临床分期,是目前最常用的预测预后和制定治疗方案的参考标准。然而,大量的研究表明即使是相同临床分期,治疗方案一致的病人,他们的临床结局也存在很大差异。
CT影像已被广泛应用于胃癌的辅助诊断中。目前不同个体的胃癌组织由于其病理特性在增强CT影像上的表现出差异,不同的胃癌影像特征也预示着治疗疗效完全不同,并直接影响着患者预后。目前通过CT影像手段实现胃癌的预判都需要医生根据其主观的临床经验、病理切片以及血检等进行详细的检测得到临床检测结果。然而,基于现有的医学影像特征分析研究,某些多维纹理特征能够准确反映病变组织的病理学信息,对于实现个体化医疗具有重要的研究价值。所以建立基于CT多组学的胃癌预后和化疗获益的辅助评估系统和方法具有极高的实用意义。
发明内容
为解决现有技术中存在的上述问题,本发明提供一种基于多组学的胃癌治疗疗效的预测模型训练、预测方法及系统。
本发明公开了一种基于多组学的胃癌治疗疗效的预测模型训练方法,包括:
获取样本图像集,所述数据包括CT图像和染色图像;
对所述样本图像集中的每个图像进行ROI分割,获得病灶区域集;
对所述病灶区域集中每个病灶区域进行特征提取,获取训练样本集;
将所述训练样本集输入XGBoost预测模型进行训练,得到训练完成的XGBoost预测模型。
优选的是,获取所述染色图像包括:
获取胃镜活检组织石蜡切片;
分别对所述切片的胞核和胞质进行染色处理,两者染色颜色不同;
通过切片扫描得到所述染色图像。
优选的是,获得病灶区域集包括:
采用开源医学标注工具ITK-SNAP软件在所述CT图像上沿着胃肿瘤边缘勾勒以获得所述CT图像的病变区域;
使用Aperio ImageScope病理学载玻片检视软件在所述染色图像上沿着肿瘤组织边缘勾画以获得所述染色图像的病变区域。
优选的是,对所述病灶区域集中每个病灶区域进行特征提取,获取训练样本集包括:
采用Python软件利用开源工具包Pyradiomics包从CT图像提取影像组学特征;
采用生物图像分析的开源应用程序Cell Profiler从所述染色图像提取病理学特征。
优选的是,采用生物图像分析的开源应用程序Cell Profiler从所述染色图像提取病理学特征包括:
去除所述染色图像中无组织空白区域;
对所述染色图像进行色彩标准化处理;
将所述染色图像均匀切成小分块;
通过所述应用程序Cell Profiler中的“UnmixColors”模块对小分块的所述染色图像进行颜色分离;
通过所述应用程序Cell Profiler中的“IdentifyPrimaryObjects”模块分割识别组织中的细胞核和细胞质;
通过所述应用程序Cell Profiler中的“Object Intensity Distribution”、“Object Intensity”、“Texture”和“Object Size Shape”模块,提取了细胞形状、大小、组织纹理和图片像素强度分布的定量图像特征;
将所有小分块的每个特征维度的最小值、25%分位数、75%分位数和最大值聚合为所述染色图像的特征。
优选的是,所述XGBoost预测模型公式为:
式中:obj*为预测值;Gj和Hj分别为第j个节点所有样本的一阶导和二阶导的求和;T为决策树中叶子节点的个数;γ和λ分别为正则项系数。
优选的是,Gj和Hj的公式分别为:
式中:yi为实际值;l为损失函数;为预测值;k为第k棵树。
优选的是,的公式为:
式中:xi为训练样本集中的特征;fk(xi)为第k棵树对样本xi的预测结果。
本发明还提供一种基于多组学的胃癌治疗疗效的预测方法,包括:
获取待预测的胃癌组织切片和CT图像;
对所述胃癌组织切片染色处理后进行数字化扫描处理,得到染色图像;
对所述CT图像和所述染色图像进行ROI分割,获得病灶区域;
对所述病灶区域进行特征提取,获取特征;
将所述特征输入上述预测模型训练方法所得到的预测模型中,得到状态预测结果。
本发明还提供一种基于多组学的胃癌治疗疗效的预测模型系统,包括:
获取模块,用于获取样本图像集,所述数据包括CT图像和染色图像;
分割模块,用于对所述样本图像集中的每个图像进行ROI分割,获得病灶区域集;
提取模块,用于对所述病灶区域集中每个病灶区域进行特征提取,获取训练样本集;
训练模块,用于将所述训练样本集输入XGBoost预测模型进行训练,得到训练完成的XGBoost预测模型。
与现有技术相比,本发明的有益效果为:
本发明基于CT图像和染色图像获得影像组特征和病理学特征,将两个特征集输入XGBoost预测模型进行训练,从而提高预测模型的准确率。
附图说明
图1为本发明基于多组学的胃癌治疗疗效的预测模型训练方法的流程图;
图2为本发明一实施例中CT影像ROI的分割图;
图3为本发明一实施例中染色图像ROI的分割图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
参照图1,本发明公开了一种基于多组学的胃癌治疗疗效的预测模型训练方法,包括:
获取样本图像集,数据包括CT图像和染色图像;
对样本图像集中的每个图像进行ROI分割,获得病灶区域集;
对病灶区域集中每个病灶区域进行特征提取,获取训练样本集;
将训练样本集输入XGBoost预测模型进行训练,得到训练完成的XGBoost预测模型。
具体地,XGBoost预测模型公式为:
式中:obj*为预测值;Gj和Hj分别为第j个节点所有样本的一阶导和二阶导的求和;T为决策树中叶子节点的个数;γ和λ分别为正则项系数;yi为实际值;l为损失函数;为预测值;k为第k棵树;xi为训练样本集中的特征;fk(xi)为第k棵树对样本xi的预测结果。
在本实施例中,基于电子病历系统回顾性收集各中心入组研究对象的年龄、性别、NAC治疗后肿瘤退缩分级(Tumor regression grade,TRG)、肿瘤分化程度、CEA、血清糖类抗原19-9(Carbohydrate antigen,CA19-9)、临床肿瘤浸润深度T分期(Clinical tumorinvasion,cT)、临床区域淋巴结状态N分期(Clinical node state,cN)和临床TNM分期(Clinical tumor invasion,node and distant metastasis,cTNM)等临床诊疗信息,进行归类汇总,形成以患者为单位,包含所需标准化图像学检查资料、文本材料、结构化数据等多种信息相关联的多维度数据集。其中cT、cN和cTNM分期来自于初诊为胃癌的腹部增强CT检查报告。
具体地,CT影像为患者在接受NAC治疗前一周内行腹部增强CT扫描检查,具体的检查流程如下:检查前准备:检查前一周内,患者不得服用含有任何重金属成分的食品或药物。所有患者在CT检查前禁食至少6小时,保持空腹状态。在检查约0.5小时内饮用1000毫升左右的温水,使胃部充盈扩张。扫描操作:仰卧位,在屏气时进行连续横断面CT平扫。动态增强CT扫描前,根据患者体重以1.5ml/kg的标准量计算碘化造影剂(碘海醇,GE Healthcare,美国)注射剂量,以3.0–3.5ml/s的速度向肘部前静脉注入,注射药物约30秒后扫描获得动脉期图像,注射药物约60秒后扫描获得门静脉期图像,注射药物约2-5分钟后扫描获得延迟期图像。图像采集参数:管电压100–300KV,管电流为125–300mAs,机架旋转时间为0.5s,探测器准直64–192×0.6,间距0.6–1.25mm,矩阵512×512,切层厚度3–5mm,重构建间隔3–5mm。主要使用的多排螺旋CT机型为:64/256排CT(飞利浦医疗,荷兰)、SOMATOM64排/双源CT(西门子AG,德国)和320排CT(东芝医疗系统,日本)。图像存储与导出:各期相的CT扫描和重建图像均存储于医疗图像存档和通信系统(Picture Archiving and CommunicationSystem,PACS),经该系统可将图片导出为医学数字成像和通信(Digital imaging andcommunications in medicine,DICOM)文件。
进一步地,CT影像采集借助PACS检索LAGC患者治疗前一周内的腹部增强CT,随后对检索出的影像图片进行统一标准化质控,凡出现以下情况者均予以剔除:胃腔充盈不佳,胃黏膜皱襞重叠;肿瘤病灶显示不清晰,存在明显噪声;呼吸运动伪影明显。经质控合格的图像确定能用于区域分割和特征分析,将质控合格的全序列CT图像从PACS中导出,存储为DICOM文件备用。
参照图2,采用开源医学标注工具ITK-SNAP软件在CT影像上沿着胃肿瘤边缘勾勒以获得多组学的病变区域,图中,(A)为增强CT门静脉期显示胃窦部胃壁强化增厚;(B)为沿着胃肿瘤边缘手工勾勒ROI,红线为肿瘤轮廓;(C)为红色覆盖区为分割的胃肿瘤ROI区域。
在本实施例中,多组学特征数据的获取容易受到扫描切片厚度、增强显影剂量等客观条件的影响,特别是不同医疗中心或不同扫描设备来源的图像数据。因此在特征提取和数据分析前,需对图像进行统一规范的预处理,尽可能提高图像的质量,降低图像噪声对研究结果的干扰。对获取病变区域的CT影像进行预处理,预处理包括:
根据特征点驱动技术的标准对CT影像进行统一的配准,采用滤波器对影像进行去噪;
对图像体素强度使用25Hu的Bin-width进行离散化,使CT影像体素维度一致;
采用Z-score归一化方法使CT影像的体素值符合标准正态分布,其公式为:
式中:xi和zi分别为归一化前后的第i个体素值;u和σ分别为CT影像归一化前的均值和标准差值。
在本实施例中,胃镜活检组织H&E染色切片要求成像清晰,因此通过以下两种途径获取高质量染色切片,一是直接借用病理科处理好的胃镜活检组织的H&E染色切片,二是借用胃镜活检组织石蜡块重新制片、染色,具体的操作如下:
胃镜活检组织石蜡切片:使用石蜡切片机进行切片,厚度约5um,用镊子夹住组织切片的一边并提起,将光亮面朝下平铺于恒温水中,毛笔轻微展拨至组织切片无皱褶。
摊片:切片充分展平后,将涂有蛋白甘油面的载玻片朝向组织切片侧,垂直插入水中,并向切片轻靠使其一侧边附着于载玻片上,立即将玻片垂直抽出于水中。
烘片:在载玻片毛玻璃的一侧标识组织切片的编号,将切片置于切片盘,放入60℃恒温箱内2小时左右。
组织脱蜡:将切片先后完全浸没于二甲苯溶液两次,每次10min,以溶解组织切片中的石蜡成分,利于染色充分。
水化:将切片先后放入无水乙醇两次,每次浸泡5min,而后依次置于95%、90%、85%、80%、75%浓度梯度乙醇(各浓度乙醇均按比例自行配制),每个浓度浸泡5min后,PBS溶液浸洗3次,每次5min。
胞核苏木素染色:每个切片滴加适量苏木素染色液,10min后用双蒸水将染液洗去。
染色后分化与反蓝:使用1%的盐酸乙醇分化5s,随即用双蒸水冲洗反蓝。
胞质伊红染色:向切片中滴加适量伊红染液,染色3min。
脱水:染色毕,浓度梯度乙醇脱水,依次置入75%、85%、95%,每个浓度2min,最后分别浸入无水乙醇两次,每次2min。
封片:二甲苯浸泡透明2次,每次10min,将切片置于通风橱风干后,用滴加适量中性树胶,盖玻片封片。
所有质控合格的H&E染色病理切片经生强科技玻片扫描影像系统(Sqray slidescan image system,版本SQS-600P)在20倍放大倍率下数字化为WSI。该玻片扫描影像系统能够快速无缝隙的扫描整个玻片,具有高扫描质量和分辨率,高精准地将载入系统的组织切片智能生成一张全视野的数字化切片,可以数字化、完整、永久存储玻片的信息。医务人员或研究者可以宏观浏览图像,也可以放到到任意位置、任意倍率,观察切片的细节。所得的WSI经过病理科医师重新质检,进一步确保图像高质量,并通过扫描系统以.SDPC格式导出备用。
参照图3,经玻片扫描影像系统导出的.SDPC格式的WSI输入阅片软件ImageViewer转换为.SVS格式。随后,使用Aperio ImageScope病理学载玻片检视软件沿着肿瘤组织边缘勾画出肿瘤的ROI,将ROI储存输出为.xml格式备用于特征提取和分析。
在本实施例中,CT特征包括定性语义特征和定量非语义特征,定性语义特征包括病灶的形状和病灶性质,定量非语义特征是指借助算法从CT影像中提取出来的特征,其包括一阶统计特征、二阶纹理特征和高阶纹理特征。
具体地,一阶统计特征包括体素的偏度、峰度、体素强度的最大值、中值、最小值、平均值、极差、标准差以及肿瘤最大轴长度、最短轴长度、伸长率、球形度、平面度、表面积、体积、体表面积比,二阶纹理特征包括灰度共生矩阵、灰度游程长度矩阵、灰度尺寸区域矩阵、邻域灰度差矩阵和灰度依赖矩阵,高阶纹理特征为滤波器过滤后特征。
在本实施例中,采用Python软件利用开源工具包Pyradiomics包(版本3.0.1,https://github.com/Radiomics/pyradiomics),总共提取1595个特征对LAGC患者CT影像进行定量分析,分别为ROI区域的一阶统计特征(n=18)、形状特征(n=14)、二阶及高阶纹理特征(包括原始图像纹理特征和滤波器过滤后特征,n=1563)。采用生物图像分析的开源应用程序Cell Profiler从染色图像提取病理学特征。
具体地,和CT图像特征提取前的操作一样,对WSI染色图像进行了统一的风格迁移和标准化预处理,尽可能降低图像差异和噪声对研究结果的干扰。WSI的预处理措施包括去除切片白色背景区域、H&E染色色彩标准化、图像切割分块。首先,组织切片上常存在大片的无组织空白区域,无法提供肿瘤的病理组学特征相关信息,反而增加了计算的工作量和难度,因此将白色区域进行了分割裁剪。其次,组织染色效果存在或多或少的差异性,这些色彩差异会进一步影响特征的提取和分析,因此将色彩显示进行了标准化处理。此外,由于WSI分辨率大,超出了目前计算机图形处理器(Graphic processing unit,GPU)的承受能力,无法直接输入进行特征提取,使用level-0缩放来切割划定的WSI病变区域,形成512×512无重叠小分块,分别对小分块进行特征提取,最后融合成整张切片的总特征。使用生物图像分析的开源应用程序Cell Profiler对每个小分块进行定量的病理图像特征提取。Cell Profiler可以定量地解决各种生物问题,包括标准基础分析(如细胞计数、大小等)和复杂的形态学分析(如细胞器形状、DNA或蛋白质染色的亚细胞模式等)。Cell Profiler是一个可自由使用的模块化图像分析软件,每个模块包含多种算法,发挥不同的图像分析作用。本软件使用具体为:
使用“UnmixColors”模块进行H&E染色图像的颜色分离;
通过“IdentifyPrimaryObjects”模块自动分割染色图像,以识别组织中的细胞核和细胞质;
分别采用了“Object Intensity Distribution”、“Object Intensity”、“Texture”和“Object Size Shape”模块,提取了细胞形状、大小、组织纹理和图片像素强度分布的定量图像特征。
经多模块算法整合,从每个病理小分块中提取161个病理特征,然后,我们将所有小分块的每个特征维度的最小值、25%分位数、75%分位数和最大值聚合为每个ROI图像特征,最终每个样本共有664个病理组学特征。
在本实施例中,对特征采用组内和组间相关系数筛选出可重复性好的稳定特征,并采用嵌入式的LASSO算法筛选出特征数量。
具体地,对特征采用组内和组间相关系数(Inter-and intra-class correlationcoefficient,ICC)筛选出可重复性好的稳定特征为:在相同的参数下进行特征提取,随机选取50名患者,并从50名患者中分别得到两组不同的多组学特征,以计算组间相关系数。2周后,其中再次对抽取50名患者的腹部CT图像勾画ROI并提取其中的肿瘤特征,将该组特征与2周前中一组的特征组结合,以计算组内相关系数。ICC值通常介于0–1之间,0–0.5表示特征稳定性较差,0.5–0.75特征稳定性中等,当ICC值介于0.75–0.9时,表示特征稳定性好,当ICC值介于0.9–1.0时,则认为特征可信极佳[95]。在本研究中ICC大于0.75的多组学特征被认为是稳定的,经上述分析计算后,将稳定性和重复性好的特征纳入下一步的数据分析中。
进一步地,采用了LASSO算法进行最终的特征纳入筛选。LASSO通过计算各特征的权重系数筛选变量,该算法属于嵌入式的特征筛选方法,其主要设计是基于特征之间的多重共线性问题,由存在多重共线性的特征所构建的模型效能常伴随着不稳定性,模型难以计算并区分每个特征对预测结果的实际贡献,同时也增加了预测结果的解释成本[96]。为了达到使用最具贡献度的特征进行精准预测的目的,构造一个代价函数,即损失函数,损失函数的结果越小,模型的预测性能越好。线性模型的复杂度与变量的数目有最直接的相关性,模型所含变量数目越多其复杂度就会越高,也越容易产生过拟合。因此,我们通常希望模型尽量精简,模型所含的特征变量(即权重系数不为0的特征)数不宜过多。基于LASSO回归的模型复杂度调整由其优化参数lambda控制,lambda对模型的惩罚力度越大,所筛选出的特征变量越精简[97]。本研究采用R语言中的“glmnet”包实现LASSO特征筛选,它是一个通过惩罚最大似然来拟合广义线性模型的工具包,连续优化每个参数上的目标函数并与其他参数固定,并反复循环直至模型收敛。LASSO回归模型lambda值通过十倍交叉验证确定,模型误差最小时的lambda值即为其最优化lambda值,该值也直接决定了构建模型的特征变量个数,即lambda值下权重系数不为0的特征变量数。Spearman相关性分析筛选和治疗后病理反应具有统计学相关性的特征。采用极端梯度提升(eXtreme Gradient Boosting,XGBoost)算法构建特征选择模型,根据特征对模型的贡献度进行重要性排序、筛选和过滤
具体地,XGBoost算法是一种强大机器学习方法,既可以用于回归建模也可以用于分类建模,在分类建模问题上更具优势。XGBoost属于集成学习,是在梯度提升决策树(Gradient Boosting Decision Tree,GBDT)的基础上对boosting算法的改进,它通过加法模型和前向分步算法来一步一步的靠近研究目标,运算过程中会构建多个弱学习器,再经策略算法让这些学习器对数据进行学习,最后将所有弱学习器的预测结果加起来作为最终结果。将多个弱学习器通过引入多项方法集成组合为一个强学习器,它具备更强的泛化能力。具体XGBoost的弱学习器由决策树和树节点组成,每个节点和决策树代表一个选定的特征和一个拟合函数。XGBoost通过添加由不同特征组成的决策树来训练特征选择模型,模型算法表示为:
其中,xi表示训练样本集中的特征,fk(xi)表示第k棵树对样本xi的预测结果,为预测值。XGBoost即用多棵树共同决策,其添加的每棵新树都试图拟合先前树的预测残差,用二阶泰勒展开式去近似损失函数,它将损失函数的表达形式统一化,并进步一解耦了各弱学习器与损失函数之间的联系,这种损失函数和弱学习器“模块化”的独立性,使得XGBoost能够支持本研究自定义的损失函数,只要研究定义的损失函数二阶可导,就可使XGBoost快速高效运行。运行过程中通过让损失函数最小化,来求出最优的树结构以及叶子节点的值。损失函数可表达为:
其中,yi表示实际值,l表示损失函数;表示样本Xi的训练误差,Ω(fk)是第k棵树的正则项。
其中,γ和λ均为正则项系数,T为决策树中叶子节点的个数。
在Python的工具包中,模型初始化参数中除了与这两个参数对应的gamma和lambda之外,还有alpha参数,表示的一阶正则项,此时可写作:
泰勒展开式为:
将损失函数套用上泰勒展开,l对应f,对相应x,fk(xi)对应Δx;
即可得:
代入损失函数即可得
这一项是在计算k-1棵树为止的预测结果的损失累加值,而这些在计算第k颗树时,其实都是已知的,不参与优化过程。所以上式的都是已知的。后两项可以分别用gi(一阶导)和hi(二阶导)表示,在优化后,损失函数只需优化如下式子即可:
最优叶子权重求解
第一步来源于Taylor二阶展开近似,将常数部分省略,i为样本序号,n为样本总数。
在第二步的等号转换中,则是以叶子节点为粒度,将落在同一叶子节点的多个样本进行了聚合,此时落在同一叶子节点上的所有样本预测结果均为其叶子权重wj,各个叶子节点内部的求和对应为内部的∑。
有了以上的近似展开和各叶子节点的汇聚,则可以引出如下公式:
其中Gj和Hj分别为第j个叶子节点所有样本的一阶导和二阶导的求和,即:
上述目标公式可看做是一个一元二次表达式的求和,其中每个一元二次表达式中的变量为wj,进而容易得出最优的wj及此时对应的损失函数最小取值结果为:
本实验中通过数据训练,参数调整,最终的λ=2,gamma=0.2,模型公式为:
本发明还提供一种基于多组学的胃癌治疗疗效的预测方法,包括:
获取待预测的胃癌组织切片和CT图像;
对胃癌组织切片染色处理后进行数字化扫描处理,得到染色图像;
对CT图像和染色图像进行ROI分割,获得病灶区域;
对病灶区域进行特征提取,获取特征;
将特征输入基于多组学的胃癌治疗疗效的预测模型训练方法所得到的预测模型中,得到状态预测结果。
本发明还提供一种基于多组学的胃癌治疗疗效的预测模型系统,包括:
获取模块,用于获取样本图像集,数据包括CT图像和染色图像;
分割模块,用于对样本图像集中的每个图像进行ROI分割,获得病灶区域集;
提取模块,用于对病灶区域集中每个病灶区域进行特征提取,获取训练样本集;
训练模块,用于将训练样本集输入XGBoost预测模型进行训练,得到训练完成的XGBoost预测模型。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于多组学的胃癌治疗疗效的预测模型训练方法,其特征在于,包括:
获取样本图像集,数据包括CT图像和染色图像;
对所述样本图像集中的每个图像进行ROI分割,获得病灶区域集;
对所述病灶区域集中每个病灶区域进行特征提取,获取训练样本集;
将所述训练样本集输入XGBoost预测模型进行训练,得到训练完成的XGBoost预测模型;
其中,对所述病灶区域集中每个病灶区域进行特征提取,获取训练样本集包括:
采用Python软件利用开源工具包Pyradiomics包从所述CT图像提取影像组学特征;
采用生物图像分析的开源应用程序Cell Profiler从所述染色图像提取病理学特征;
所述影像组学特征包括定性语义特征和定量非语义特征,所述定性语义特征包括病灶的形状和病灶性质,所述定量非语义特征是指借助算法从CT影像中提取出来的特征,其包括一阶统计特征、二阶纹理特征和高阶纹理特征;所述一阶统计特征包括体素的偏度、峰度、体素强度的最大值、中值、最小值、平均值、极差、标准差以及肿瘤最大轴长度、最短轴长度、伸长率、球形度、平面度、表面积、体积、体表面积比,所述二阶纹理特征包括灰度共生矩阵、灰度游程长度矩阵、灰度尺寸区域矩阵、邻域灰度差矩阵和灰度依赖矩阵,所述高阶纹理特征为滤波器过滤后特征;
采用生物图像分析的开源应用程序Cell Profiler从所述染色图像提取病理学特征包括:
去除所述染色图像中无组织空白区域;
对所述染色图像进行色彩标准化处理;
将所述染色图像均匀切成小分块;
通过所述应用程序Cell Profiler中的“UnmixColors”模块对小分块的所述染色图像进行颜色分离;
通过所述应用程序Cell Profiler中的“IdentifyPrimaryObjects”模块分割识别组织中的细胞核和细胞质;
通过所述应用程序Cell Profiler中的“Object Intensity Distribution”、“ObjectIntensity”、“Texture”和“Object Size Shape”模块,提取了细胞形状、大小、组织纹理和图片像素强度分布的定量图像特征;
将所有小分块的每个特征维度的最小值、25%分位数、75%分位数和最大值聚合为所述染色图像的特征;
对所述特征采用组内和组间相关系数筛选出可重复性好的稳定特征,并采用嵌入式的LASSO算法筛选出所述特征数量;
所述XGBoost预测模型公式为:
式中:obj*为预测值;Gj和Hj分别为第j个节点所有样本的一阶导和二阶导的求和;T为决策树中叶子节点的个数;γ和λ分别为正则项系数;
Gj和Hj的公式分别为:
式中:yi为实际值;l为损失函数;为预测值;k为第k棵树;
的公式为:
式中:为预测值;xi为训练样本集中的特征;fk(xi)为第k棵树对样本xi的预测结果。
2.根据权利要求1所述的基于多组学的胃癌治疗疗效的预测模型训练方法,其特征在于,获取所述染色图像包括:
获取胃镜活检组织石蜡切片;
分别对所述切片的胞核和胞质进行染色处理,两者染色颜色不同;
通过切片扫描得到所述染色图像。
3.根据权利要求1所述的基于多组学的胃癌治疗疗效的预测模型训练方法,其特征在于,获得病灶区域集包括:
采用开源医学标注工具ITK-SNAP软件在所述CT图像上沿着胃肿瘤边缘勾勒以获得所述CT图像的病变区域;
使用Aperio ImageScope病理学载玻片检视软件在所述染色图像上沿着肿瘤组织边缘勾画以获得所述染色图像的病变区域。
4.一种基于多组学的胃癌治疗疗效的预测方法,其特征在于,包括:
获取待预测的胃癌组织切片和CT图像;
对所述胃癌组织切片染色处理后进行数字化扫描处理,得到染色图像;
对所述CT图像和所述染色图像进行ROI分割,获得病灶区域;
对所述病灶区域进行特征提取,获取特征;
将所述特征输入如权利要求1-3中任一项所述的基于多组学的胃癌治疗疗效的预测模型训练方法所得到的预测模型中,得到状态预测结果。
5.一种基于多组学的胃癌治疗疗效的预测模型系统,其特征在于,包括:
获取模块,用于获取样本图像集,数据包括CT图像和染色图像;
分割模块,用于对所述样本图像集中的每个图像进行ROI分割,获得病灶区域集;
提取模块,用于对所述病灶区域集中每个病灶区域进行特征提取,获取训练样本集;
训练模块,用于将所述训练样本集输入XGBoost预测模型进行训练,得到训练完成的XGBoost预测模型;
其中,对所述病灶区域集中每个病灶区域进行特征提取,获取训练样本集包括:
采用Python软件利用开源工具包Pyradiomics包从所述CT图像提取影像组学特征;
采用生物图像分析的开源应用程序Cell Profiler从所述染色图像提取病理学特征;
所述影像组学特征包括定性语义特征和定量非语义特征,所述定性语义特征包括病灶的形状和病灶性质,所述定量非语义特征是指借助算法从CT影像中提取出来的特征,其包括一阶统计特征、二阶纹理特征和高阶纹理特征;所述一阶统计特征包括体素的偏度、峰度、体素强度的最大值、中值、最小值、平均值、极差、标准差以及肿瘤最大轴长度、最短轴长度、伸长率、球形度、平面度、表面积、体积、体表面积比,所述二阶纹理特征包括灰度共生矩阵、灰度游程长度矩阵、灰度尺寸区域矩阵、邻域灰度差矩阵和灰度依赖矩阵,所述高阶纹理特征为滤波器过滤后特征;
采用生物图像分析的开源应用程序Cell Profiler从所述染色图像提取病理学特征包括:
去除所述染色图像中无组织空白区域;
对所述染色图像进行色彩标准化处理;
将所述染色图像均匀切成小分块;
通过所述应用程序Cell Profiler中的“UnmixColors”模块对小分块的所述染色图像进行颜色分离;
通过所述应用程序Cell Profiler中的“IdentifyPrimaryObjects”模块分割识别组织中的细胞核和细胞质;
通过所述应用程序Cell Profiler中的“Object Intensity Distribution”、“ObjectIntensity”、“Texture”和“Object Size Shape”模块,提取了细胞形状、大小、组织纹理和图片像素强度分布的定量图像特征;
将所有小分块的每个特征维度的最小值、25%分位数、75%分位数和最大值聚合为所述染色图像的特征;
对所述特征采用组内和组间相关系数筛选出可重复性好的稳定特征,并采用嵌入式的LASSO算法筛选出所述特征数量;
所述XGBoost预测模型公式为:
式中:obj*为预测值;Gj和Hj分别为第j个节点所有样本的一阶导和二阶导的求和;T为决策树中叶子节点的个数;γ和λ分别为正则项系数;
Gj和Hj的公式分别为:
式中:yi为实际值;l为损失函数;为预测值;k为第k棵树;
的公式为:
式中:为预测值;xi为训练样本集中的特征;fk(xi)为第k棵树对样本xi的预测结果。
CN202310813707.3A 2023-07-04 2023-07-04 一种基于多组学的胃癌治疗疗效的预测模型训练、预测方法及系统 Active CN116862861B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310813707.3A CN116862861B (zh) 2023-07-04 2023-07-04 一种基于多组学的胃癌治疗疗效的预测模型训练、预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310813707.3A CN116862861B (zh) 2023-07-04 2023-07-04 一种基于多组学的胃癌治疗疗效的预测模型训练、预测方法及系统

Publications (2)

Publication Number Publication Date
CN116862861A CN116862861A (zh) 2023-10-10
CN116862861B true CN116862861B (zh) 2024-06-21

Family

ID=88221017

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310813707.3A Active CN116862861B (zh) 2023-07-04 2023-07-04 一种基于多组学的胃癌治疗疗效的预测模型训练、预测方法及系统

Country Status (1)

Country Link
CN (1) CN116862861B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114529541A (zh) * 2022-03-28 2022-05-24 中国人民解放军海军军医大学第一附属医院 预测胰腺癌微环境中细胞表达的方法、电子设备、介质及系统
CN115497623A (zh) * 2022-09-27 2022-12-20 山东第一医科大学(山东省医学科学院) 一种基于影像、病理和基因多组学的肺癌预后预测系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2965431C (en) * 2014-12-03 2023-05-16 Ventana Medical Systems, Inc. Computational pathology systems and methods for early-stage cancer prognosis
US11835524B2 (en) * 2017-03-06 2023-12-05 University Of Southern California Machine learning for digital pathology
CN111178449B (zh) * 2019-12-31 2021-11-05 浙江大学 结合计算机视觉特征和影像组学特征的肝癌图像分类方法
CN111242174B (zh) * 2019-12-31 2022-09-23 浙江大学 一种基于影像组学的肝癌图像特征提取与病理分类方法
CN112820403B (zh) * 2021-02-25 2024-03-29 中山大学 一种基于多组学数据预测癌症患者预后风险的深度学习方法
CN112861994B (zh) * 2021-03-12 2023-04-28 中国科学院自动化研究所 基于Unet迁移学习的胃印戒细胞癌图像智能分类系统
CN112949772A (zh) * 2021-04-12 2021-06-11 中国科学院自动化研究所 基于影像组学的胃癌多维特征提取与分析系统
CN113362888A (zh) * 2021-06-02 2021-09-07 齐鲁工业大学 一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质
CN114841947A (zh) * 2022-04-27 2022-08-02 广东省人民医院 肺腺癌h&e染色病理图像肿瘤区域多尺度特征提取与预后分析方法、装置
CN116189761A (zh) * 2022-12-09 2023-05-30 浙江大学 基于多组学数据的肝癌deb-tace联合pd-1抑制剂疗效精准预测方法和装置
CN116110608A (zh) * 2023-01-18 2023-05-12 南方医科大学顺德医院(佛山市顺德区第一人民医院) 一种胃癌her2状态预测模型的训练、预测方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114529541A (zh) * 2022-03-28 2022-05-24 中国人民解放军海军军医大学第一附属医院 预测胰腺癌微环境中细胞表达的方法、电子设备、介质及系统
CN115497623A (zh) * 2022-09-27 2022-12-20 山东第一医科大学(山东省医学科学院) 一种基于影像、病理和基因多组学的肺癌预后预测系统

Also Published As

Publication number Publication date
CN116862861A (zh) 2023-10-10

Similar Documents

Publication Publication Date Title
Hu et al. Parallel deep learning algorithms with hybrid attention mechanism for image segmentation of lung tumors
Oskal et al. A U-net based approach to epidermal tissue segmentation in whole slide histopathological images
US8335359B2 (en) Systems, apparatus and processes for automated medical image segmentation
CN107203999B (zh) 一种基于全卷积神经网络的皮肤镜图像自动分割方法
CN113516210B (zh) 一种基于pet/ct的肺腺癌鳞癌诊断模型训练方法及装置
CN115131642B (zh) 一种基于多视子空间聚类的多模态医学数据融合系统
Binder et al. Multi-organ gland segmentation using deep learning
NL2003805A (en) Systems, apparatus and processes for automated medical image segmentation using a statistical model.
CN115497623A (zh) 一种基于影像、病理和基因多组学的肺癌预后预测系统
CN112767407B (zh) 一种基于级联门控3DUnet模型的CT图像肾脏肿瘤分割方法
CN113706435A (zh) 基于传统影像组学的胸部增强ct图像处理方法
CN114693933A (zh) 基于生成对抗网络和多尺度特征融合的医学影像分割装置
CN114596317A (zh) 一种基于深度学习的ct影像全心脏分割方法
CN112508884A (zh) 一种癌变区域综合检测装置及方法
Pradhan et al. Semantic segmentation of non-linear multimodal images for disease grading of inflammatory bowel disease: A segnet-based application
CN116091412A (zh) 一种从pet/ct图像中分割肿瘤的方法
CN110008836B (zh) 一种病理组织切片高光谱图像的特征提取方法
Farajzadeh et al. A fully-convolutional residual encoder-decoder neural network to localize breast cancer on histopathology images
Lomacenkova et al. Whole slide pathology image patch based deep classification: an investigation of the effects of the latent autoencoder representation and the loss function form
CN116862861B (zh) 一种基于多组学的胃癌治疗疗效的预测模型训练、预测方法及系统
CN117523204A (zh) 面向医疗场景的肝脏肿瘤图像分割方法、装置和可读存储介质
CN116759076A (zh) 一种基于医疗影像的无监督疾病诊断方法及系统
CN116934721A (zh) 一种基于多尺度特征提取的肾脏肿瘤分割方法
CN115690056A (zh) 基于her2基因检测的胃癌病理图像分类方法及系统
CN114445374A (zh) 一种基于扩散峰度成像mk图的图像特征处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant