CN115132327B

CN115132327B - 微卫星不稳定预测系统及其构建方法、终端设备及介质

Info

Publication number: CN115132327B
Application number: CN202210574938.9A
Authority: CN
Inventors: 赵青; 钟红霞; 张红梅; 赵心明
Original assignee: Cancer Hospital and Institute of CAMS and PUMC
Current assignee: Cancer Hospital and Institute of CAMS and PUMC
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2023-03-24
Anticipated expiration: 2042-05-25
Also published as: US20240062881A1; CN115132327A; WO2023226217A1

Abstract

本发明公开了一种微卫星不稳定预测系统及其构建方法、终端设备及介质，通过微卫星不稳定预测系统中的获取模块获取待预测用户的目标影像信息、病理标本信息以及临床资料信息；通过标签生成模块基于预先训练的MSI‑H/dMMR多组学标签模型，根据所述目标影像信息生成影像组学标签，根据所述病理标本信息生成病理组学标签；通过预测生成模块基于预先训练的MSI‑H/dMMR预测模型，根据所述影像组学标签、所述病理组学标签以及所述临床资料信息生成MSI‑H/dMMR预测结果。通过对待预测用户的目标影像信息及病理标本信息进行分类，得到影像组学标签及病理组学标签，进而结合临床资料信息生成MSI‑H/dMMR预测结果，实现无创且高效预测MSI‑H/dMMR状态。

Description

微卫星不稳定预测系统及其构建方法、终端设备及介质

技术领域

本发明涉及医疗技术领域，尤其涉及一种微卫星不稳定预测系统及其构建方法、终端设备及介质。

背景技术

微卫星(Microsatellites)序列是人类基因组中的短串联重复序列，复制稳定性差，容易发生错配，但通常状态下，能被生物体细胞的DNA错配修复(mismatch repair,MMR)机制识别进维持微卫星稳定(microsatellite stability,MSS)。而当错配修复功能缺陷(deficient mismatch repair,dMMR)时，可导致微卫星序列发生错配，即微卫星不稳定(Microsatellite instability，MSI)。仅单个位点MSI为低频微卫星不稳定(microsatellite low instability,MSI-L)，超过2个(含)位点发生MSI为高频微卫星不稳定(microsatellite high instability,MSI-H)。MSI-H/dMMR是结直肠癌(colorectalcancer,CRC)发生的重要遗传因素之一，且由于该状态能够引起基因突变并不断累积，对于结直肠癌的治疗及转归亦有特殊意义。美国、欧洲及中国的结直肠癌诊治指南均要求在治疗前明确患者是否存在MSI-H/dMMR。

现有技术中，检测是否存在MSI-H/dMMR状态是通过对肠镜活检标本或术后大病理标本进行基因检测(MSI-H)或免疫组化染色(dMMR)获得，但肠镜方法需要增加单次样本采集量甚至二次活检，从而增加了创伤性，而手术病理标本检测则存在时效性滞后的缺陷，两种采样和检测方法均增加了患者的时间、经济成本和诊疗风险。

因此，有必要提出一种无创且高效预测MSI-H/dMMR状态的解决方案。

发明内容

本发明的主要目的在于提供一种微卫星不稳定预测系统及其构建方法、终端设备及介质，旨在实现无创且高效预测MSI-H/dMMR状态。

为实现上述目的，本发明提供一种微卫星不稳定预测系统，所述微卫星不稳定预测系统包括：

获取模块，用于获取待预测用户的目标影像信息、病理标本信息以及临床资料信息；

标签生成模块，用于基于预先训练的MSI-H/dMMR多组学标签模型，根据所述目标影像信息生成影像组学标签，根据所述病理标本信息生成病理组学标签；

预测生成模块，用于基于预先训练的MSI-H/dMMR预测模型，根据所述影像组学标签、所述病理组学标签以及所述临床资料信息生成MSI-H/dMMR预测结果。

可选地，所述微卫星不稳定预测系统还包括图像预处理模块，所述图像预处理模块包括：

读取单元，用于获取所述待预测用户的增强CT图像、磁共振图像以及PWSI病理全景切片图像；

影像勾画单元，用于将所述增强CT图像及所述磁共振图像提供至终端界面，并采用区域生长影像分割算法进行范围分割，并基于操作者的修订操作进行病灶定位，得到增强CT图像感兴趣区域以及磁共振图像感兴趣区域；

标本勾画单元，用于采用预先构建的全连接神经网络算法框架对所述PWSI图像进行自动勾画，得到PWSI图像感兴趣区域；

特征提取单元，用于通过分别对所述增强CT图像感兴趣区域、磁共振图像感兴趣区域以及PWSI图像感兴趣区域进行特征提取，得到所述目标影像信息及病理标本信息。

可选地，所述特征提取单元包括：

组学特征提取单元，用于分别对所述增强CT图像感兴趣区域、磁共振图像感兴趣区域以及PWSI图像感兴趣区域进行组学特征提取，得到增强CT图像组学特征值、磁共振图像组学特征值以及PWSI图像组学特征值；

特征输出单元，用于将所述所述增强CT图像组学特征值、及所述磁共振图像组学特征值作为所述目标影像信息输出，将所述PWSI图像组学特征值作为所述病理标本信息输出。

可选地，所述标签生成模块包括：

分析单元，用于对所述临床资料信息进行单因素回归分析，得到相关临床危险因素；

预测单元，用于基于所述MSI-H/dMMR预测模型，根据所述影像组学标签、所述病理组学标签以及所述相关临床危险因素进行多元回归分析，生成所述MSI-H/dMMR预测结果。

可选地，所述微卫星不稳定预测系统还包括：

验证模块，用于通过预先采集的验证集数据对所述MSI-H/dMMR预测模型的预测效能进行验证。

本发明还提供一种微卫星不稳定预测系统的构建方法，所述微卫星不稳定预测系统的构建方法包括：

构建获取模块，用于获取待预测用户的目标影像信息、病理标本信息以及临床资料信息；

基于预先训练的MSI-H/dMMR多组学标签模型，构建标签生成模块；

基于预先训练的MSI-H/dMMR预测模型，构建预测生成模块。

可选地，所述基于预先训练的MSI-H/dMMR多组学标签模型，构建标签生成模块的步骤之前还包括：

训练得到所述MSI-H/dMMR多组学标签模型，具体包括：

获取预先采集的样本集数据，其中，所述样本集数据包括样本临床资料信息、样本影像信息、样本病理标本信息及微卫星/错配修复功能状态的实验室检测数据；

对所述样本影像信息及样本病理标本信息进行数据清洗，得到有效样本信息，并将所述有效样本信息中的连续变量以中位数为界值转化为二分类变量，得到分类样本信息；

基于所述微卫星/错配修复功能状态的实验室检测数据对所述分类样本信息进行降维筛选，得到与MSI-H/dMMR状态显著相关的相关样本信息；

对所述相关样本信息进行标签向量计算，得到所述MSI-H/dMMR多组学标签模型。

可选地，所述基于预先训练的MSI-H/dMMR预测模型，构建预测生成模块的步骤之前还包括：

训练得到所述MSI-H/dMMR预测模型，具体包括：

获取所述样本集数据中的样本临床资料信息、所述样本影像信息及所述样本病理标本信息；

对所述样本临床资料信息进行单因素回归分析，得到相关样本临床危险因素；

基于所述MSI-H/dMMR多组学标签模型，根据所述样本影像信息生成样本影像组学标签，根据所述样本病理标本信息生成样本病理组学标签；

根据所述相关样本临床危险因素、所述样本影像组学标签及所述样本病理组学标签进行多元回归分析，得到与MSI-H/dMMR状态显著相关的高相关样本临床危险因素；

根据所述高相关样本临床危险因素对机器学习模型进行训练，得到所述MSI-H/dMMR预测模型。

此外，为实现上述目的，本发明还提供一种终端设备，所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的微卫星不稳定预测程序，所述微卫星不稳定预测程序被所述处理器执行时实现如上所述的微卫星不稳定预测系统的构建方法。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有微卫星不稳定预测程序，所述微卫星不稳定预测程序被处理器执行时实现如上所述的微卫星不稳定预测系统的构建方法。

本发明实施例提出的一种微卫星不稳定预测系统及其构建方法、终端设备及介质，通过微卫星不稳定预测系统中的获取模块获取待预测用户的目标影像信息、病理标本信息以及临床资料信息；通过标签生成模块基于预先训练的MSI-H/dMMR多组学标签模型，根据所述目标影像信息生成影像组学标签，根据所述病理标本信息生成病理组学标签；通过预测生成模块基于预先训练的MSI-H/dMMRI预测模型，根据所述影像组学标签、所述病理组学标签以及所述临床资料信息生成MSI-H/dMMR预测结果。通过对待预测用户的目标影像信息及病理标本信息进行分类，得到影像组学标签及病理组学标签，进而结合临床资料信息生成MSI-H/dMMR预测结果，实现无创且高效预测MSI-H/dMMR状态。

附图说明

图1为本发明微卫星不稳定预测系统的构建方法对应的装置所属终端设备的功能模块示意图；

图2为本发明微卫星不稳定预测系统的基本架构示意图；

图3为本发明微卫星不稳定预测系统的构建方法一示例性实施例的流程示意图；

图4为本发明微卫星不稳定预测系统的第二系统架构示意图；

图5为本发明实施例中预测结果显示模块显示的示例性列线图；

图6为本发明实施例中系统模型对于训练集病例和验证集病例的预测效能示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：通过微卫星不稳定预测系统中的获取模块获取待预测用户的目标影像信息、病理标本信息以及临床资料信息；通过标签生成模块基于预先训练的MSI-H/dMMR多组学标签模型，根据所述目标影像信息生成影像组学标签，根据所述病理标本信息生成病理组学标签；通过预测生成模块基于预先训练的MSI-H/dMMR预测模型，根据所述影像组学标签、所述病理组学标签以及所述临床资料信息生成MSI-H/dMMR预测结果。通过对待预测用户的目标影像信息及病理标本信息进行分类，得到影像组学标签及病理组学标签，进而结合临床资料信息生成MSI-H/dMMR预测结果，实现无创且高效预测MSI-H/dMMR状态。

本发明实施例涉及的技术术语：

微卫星：Microsatellites；

错配修复：mismatch repair,MMR；

错配修复功能缺陷：deficient mismatch repair,dMMR；

微卫星不稳定：Microsatellite instability，MSI；

低频微卫星不稳定：microsatellite low instability,MSI-L；

高频微卫星不稳定：microsatellite high instability,MSI-H；

结直肠癌：colorectal cancer,CRC；

病理全景切片图像：pathological whole slide image,PWSI；

苏木精-伊红：hematoxylin-eosin,H&E；

电子计算机断层扫描：Computed Tomography，CT；

T2WI：T2-Weighted Image

DWI：Diffusion-Weighted Image

磁共振成像：Magnetic Resonance Imaging，MRI(MRI属于多序列多模态成像，上述两个属于MRI的两种不同的序列)；

感兴趣区域：region of interest，ROI；

身体质量指数：Body Mass Index，BMI；

长短期记忆网路：Long Short-Term Memory，LSTN。

由于现有的MSI-H/dMMR预测技术仅单独从影像组学或病理组学一个维度来预测CRC的MSI-H/dMMR状态，存在片面性，且准确性低，容易有假阳性或假阴性。此外，基于病理组学维度进行预测使用的是手术切除病理标本进行MSI的预测，具有时效的滞后性，无法在初治前就为患者提供MSI信息。

本发明提供一种解决方案，结合了治疗前增强CT及多模态MRI的影像与肠镜活检病理标本PWSI的深度特征和组学特征，从多个维度的信息对CRC的MSI状态进行预测，提高了预测的准确性和全面性。影像深度特征的提取具体使用的是CT扫描静脉期图像，以及MRI的T2WI图像和DWI序列的b＝800s/mm²图像，在图像分割方面分别结合了区域生长影像分割算法和全连接神经网络算法框架进行图像ROI的辅助勾画，较之前单纯基于CT或MR断层图像的手工分割提取在准确性和效率方面也有创新和改进。

具体地，参照图1，图1为本发明微卫星不稳定预测系统的构建方法对应的装置所属终端设备的功能模块示意图。该装置可以为独立于终端设备的、能够进行微卫星不稳定预测的装置，其可以通过硬件或软件的形式承载于终端设备上。该终端设备可以为手机、平板电脑等具有数据处理功能的智能移动终端，还可以为具有数据处理功能的固定终端设备或服务器等。

在本实施例中，该装置所属终端设备至少包括输出模块110、处理器120、存储器130以及通信模块140。

存储器130中存储有操作系统以及微卫星不稳定预测系统的构建程序，微卫星不稳定预测系统的构建装置可以将获取的待预测用户的目标影像信息、病理标本信息以及临床资料信息、基于预先训练的MSI-H/dMMR多组学标签模型，根据所述目标影像信息生成的影像组学标签、根据所述病理标本信息生成的病理组学标签，以及基于预先训练的MSI-H/dMMR预测模型，根据所述影像组学标签、所述病理组学标签以及所述临床资料信息生成的MSI-H/dMMR预测结果等信息存储于该存储器130中；输出模块110可为显示屏等。通信模块140可以包括WIFI模块、移动通信模块以及蓝牙模块等，通过通信模块140与外部设备或服务器进行通信。

其中，存储器130中的微卫星不稳定预测系统的构建程序被处理器执行时实现以下步骤：

基于预先训练的MSI-H/dMMR预测模型，构建预测生成模块。

进一步地，存储器130中的微卫星不稳定预测程序被处理器执行时还实现以下步骤：

训练得到所述MSI-H/dMMR多组学标签模型，具体包括：

获取预先采集的样本集数据，其中，所述样本集数据包括样本临床资料信息、样本影像信息、样本病理标本信息及MSI检测数据；

训练得到所述MSI-H/dMMR预测模型，具体包括：

基于所述MSI-H/dMMR组学标签模型，根据所述样本影像信息生成样本影像组学标签，根据所述样本病理标本信息生成样本病理组学标签；

本实施例通过上述方案，具体通过构建获取模块，用于获取待预测用户的目标影像信息、病理标本信息以及临床资料信息；基于预先训练的MSI-H/dMMR多组学标签模型，构建标签生成模块；基于预先训练的MSI-H/dMMR预测模型，构建预测生成模块。构建了一种基于影像病理深度特征分析的结直肠癌微卫星不稳定的预测系统并提供了构建方案，实现在治疗前通过综合分析患者治疗前CT/MRI的影像学深度/组学特征和病理全景切片图像(pathological whole slide image,PWSI)的病理学深度/组学特征，结合临床指标，预测CRC患者MSI-H/dMMR的风险值。

基于上述终端设备架构但不限于上述架构，本发明提供一种微卫星不稳定预测系统，参照图2，图2为本发明微卫星不稳定预测系统的基本架构示意图。在本发明微卫星不稳定预测系统一实施例中，所述微卫星不稳定预测系统的包括：

在通过获取模块获取待预测用户的目标影像信息、病理标本信息以及临床资料信息之前，需先通过图像预处理模块调取待预测用户的治疗前增强CT及多模态MRI的影像与肠镜活检病理标本PWSI，进而进行深度特征和组学特征提取得到目标影像信息、病理标本信息，具体包括：

具体地，通过操作者所提供路径调取预存在电子计算机系统空间内经过滤波器标准化信号强度及层厚(1mm)的患者腹盆腔CT增强扫描(静脉期)及MRI的高分辨T2WI和DWI(b＝800s/mm²)序列图像；以及苏木精-伊红(hematoxylin-eosin,H&E)染色的肠镜活检标本切片经电子扫描制作的PWSI图像。进而可以基于图像读取模块输出的病灶CT/MRI图像和PWSI图像进行代表肿瘤组织的感兴趣区(ROI，region of interest)勾画。对于CT/MRI图像，采用区域生长影像分割算法与操作者手工圈定生长点及对生长后的分割范围进行手动修订结合的半自动分割方式对病灶区域进行勾画。具体的方法说明如下：

区域生长法的基本原理是首先选取种子点集，并与周围与之形态(灰度、纹理等)相似的像素进行合并，不断更新种子点集，迭代合并周围相似像素，直到满足生长停止条件为止。主要包括三个要点：①选择合适方法和数量的种子；②确定邻域内(8邻域或4邻域)不同像素点特征的计算和比较方法；③确定生长停止的条件。

对于以上三个要素，本发明中区域生长分割法设定为：

①由操作者在断层图像肿瘤非坏死区域内用鼠标点击一处代表肿瘤组织的点，计算机识别为种子点并纳入到队列Q中。

②计算机以灰度值作为像素点的特征，特征比较方式是与最开始的种子进行比较(±5个灰度值范围内认定为相似)；计算机自动检查周围所有像素点并把判定为相似的点纳入Q中，其余不予处理。

③生长的停止条件为遍历完容器内所有符合要求的点，具体步骤是将队列Q中的第一个元素弹出，并加入到集合R₁中。并检查Q是否为空，若不为空，则将当前Q中的第一个元素作为种子点，并重复步骤②；否则，将尚未列入R₁中的元素纳入到R₂，生长停止。

操作者修正：由操作者肉眼判断自然生长得到的ROI是否完整覆盖肿瘤区域，以及是否过度分割导致范围过大，若存在上述问题则由操作者手动修正ROI使其更加吻合肿瘤区域。

对于PWSI图像，采用预先构建的全连接神经网络(Full Connect NeuralNetwork)算法框架对代表病变的区域进行自动勾画，该构架包括2个3D U-Net框架，第一个的输出将作为第二个的输入。每个框架包含4个下采样区和4个上采样区，每层有两个卷积和一个ReLu(rectified linear unit)激活单元。对生成的ROI进一步采用3D条件随机场和连通域分析算法进行分割结果的后处理，提高分割的精准性。

进一步地，勾画出CT图像感兴趣区域、磁共振图像感兴趣区域以及PWSI图像感兴趣区域后，即可通过特征提取单元对各图像的ROI进行组学特征提取，即可得到相应的目标影像信息及病理标本信息，具体包括：

具体地，通过组学特征提取单元基于图像预处理模块输入的CT/MRI图像ROI及PWSI图像ROI提取影像及病理组学特征值。影像组学特征值包含1029个特征值分别用于描述病灶区的一阶特征(19个)、形状特征(16个)和纹理特征(28个GLCM、16个GLRLM、16个GLSZM、18个GLDM、411个Wavelets和505个Logs)；病例组学特征值包含820个病理组学特征值分别用于描述图像的像素强度(175个)、形态特征(285)和核纹理特征(360)。【CT/MRI和PWSI的组学特征提取分别基于Pyradiomics(version 2.1.1,https://github.com/Radiomics/pyradiomics)和CellProfiler平台(version2.2.1,https://cellprofiler.org/)】。

基于人工勾画ROI的影像病理组学分析方法存在主观性的偏倚，由于对病变范围认知的差异，导致模型的构建和使用过程中存在不稳定因素，本发明构建的系统嵌入了区域生长图像分割算法框架和全连接神经网络算法框架，实现对病灶MRI图像和PWSI图像内肿瘤区域的自动分割识别，减少了系统因操作者的不稳定和不一致性而产生的偏差。

此外，通过临床资料采集可以采集操作者输入的患者临床资料，包括性别、年龄、体重指数(BMI)、肿瘤分化程度(高分化＝1，中＝2，低＝3)及血清学化验结果(CEA、CA-199血清浓度)。系统将自动根据预设的二分类界值，将上述连续变量转化为二分类变量(年龄，BMI，CEA和CA-199血清浓度的界值分别为：50岁，24kg/m²，5ng/ml和27U/ml，分别将数值小于界值的定义为“0”类，大于等于界值的定义为“1类”)；对于肿瘤分化程度这个分类变量，分别以“1”“2”“3”类代表高、中、低分化。在模型构建和验证阶段还需采集患者的微卫星/错配修复功能状态的实验室检测数据，即MSI-H/dMMR(标记为“1”类)或MSI-L/MSS/MMR(标记为“0”类)，用于模型的构建。

在基于预先训练的MSI-H/dMMR预测模型，根据所述影像组学标签、所述病理组学标签以及所述临床资料信息生成MSI-H/dMMR预测结果过程中，标签生成模块具体包括：

将采集的患者临床信息使用SPSS(Statistics 22；IBM Corp,Armonk,NY)软件中的单因素回归分析(Univariable Regression Analysis)筛选出与MSI-H状态显著相关的临床危险因素(P<0.05)，并结合高频MSI预测模型输出的影像组学及病理组学标签SigCT-MRI和SigPWSI进行多元回归分析(Multiple Regression Analysis)，获得能够显著独立预测MSI-H/dMMR状态的临床危险因素(P<0.05)，得到MSI-H/dMMR预测结果。

此外，本实施例中的微卫星不稳定预测系统还包括验证模块，用于通过预先采集的验证集数据对所述高频MSI预测模型的预测效能进行验证。

具体地，基于430例CRC患者的临床、影像、病理资料进行结直肠癌微卫星不稳定预测系统的构建及外部验证。将患者随机按照7:3的比例分为训练组(300例)和验证组(130例)。将训练组患者治疗前的经过滤波器滤过及灰度强度标准化的增强CT(静脉期)，MRI的T2WI及DWI(b＝800s/mm²)序列图像，以及肠镜活检标本PWSI图像存入既定文件夹，在临床资料采集模块中输入完整信息，经过预先训练的模型得到特定患者的影像组学及病理组学标签评分及MSI-H/dMMR风险。本实施例中待预测患者作为验证病例在得出所有预测结果后，最后将患者实际微卫星状态输入系统，根据预测与实际的偏差评价模型的一致性和稳定性。

在本实施例中，通过微卫星不稳定预测系统中的获取模块获取待预测用户的目标影像信息、病理标本信息以及临床资料信息；通过标签生成模块基于预先训练的MSI-H/dMMR多组学标签模型，根据所述目标影像信息生成影像组学标签，根据所述病理标本信息生成病理组学标签；通过预测生成模块基于预先训练的MSI-H/dMMR预测模型，根据所述影像组学标签、所述病理组学标签以及所述临床资料信息生成MSI-H/dMMR预测结果。通过对待预测用户的目标影像信息及病理标本信息进行分类，得到影像组学标签及病理组学标签，进而结合临床资料信息生成MSI-H/dMMR预测结果，实现无创且高效预测MSI-H/dMMR。

参照图3，图3为本发明微卫星不稳定预测系统的构建方法一示例性实施例的流程示意图。所述肿瘤诊断系统的构建方法包括：

步骤S10，构建获取模块，用于获取待预测用户的目标影像信息、病理标本信息以及临床资料信息；

具体地，获取模块可以包括临床资料信息采集模块以及信息调取模块，通过临床资料信息采集模块采集操作者输入的患者临床资料，包括性别、年龄、体重指数(BMI)、肿瘤分化程度(高分化＝1，中＝2，低＝3)及血清学化验结果(CEA、CA-199血清浓度)。系统将自动根据预设的二分类界值，将上述连续变量转化为二分类变量(年龄，BMI，CEA和CA-199血清浓度的界值分别为：50岁，24kg/m²，5ng/ml和27U/ml，分别将数值小于界值的定义为“0”类，大于等于界值的定义为“1类”)；对于肿瘤分化程度这个分类变量，分别以“1”“2”“3”类代表高、中、低分化。以及在模型构建和验证阶段还需采集患者的微卫星/错配修复功能状态的实验室检测数据(即MSI-H/dMMR定义为“1”类或MSI-L/MSS/MMR定义为“0”类)用于模型建立。信息调取模块可以调取经过预处理和特征提取得到的目标影像信息以及病理标本信息。

步骤S20，基于预先训练的MSI-H/dMMR多组学标签模型，构建标签生成模块；

在此之前，需先通过训练得到MSI-H/dMMR多组学标签模型，具体步骤包括：

基于所述微卫星/错配修复功能状态的实验室检测数据对所述分类样本信息进行降维筛选，得到与高频MSI状态显著相关的相关样本信息；

对所述相关样本信息进行标签向量计算，得到所述MSI多组学标签模型。

具体地，样本集数据中的样本影像信息及样本病理标本信息为经过图像预处理勾画ROI并经过特征提取得到的样本图像数据，根据样本影像信息、样本病理标本信息、样本临床资料信息以及样本MSI检测数据可以构建表征MSI-H的影像组学及病理组学标签(Signature)的MSI多组学标签模型。这部分主要分为三步，包括数据清洗、数据降维和标签向量计算。

更为具体地，数据清洗主要负责清洗出多组学特征数据中的无效数据和错误数据，同时将连续变量以中位数为界值转化为二分类变量；数据降维负责对多组学特征数据进行显著性筛选，基于组学特征二分类变量与MSI-H/dMMR变量的相关性，使用R软件(version 3.5.1；http://www.Rproject.org)中的最小绝对收缩和选择运算符(Leastabsolute shrinkage and selection operator,LASSO)公式对影像和病理组学特征变量分别进行数据降维，筛选出与MSI-H/dMMR状态显著相关(p＜0.05)的影像和病理组学特征；标签向量计算负责将上述筛选出的特征代入不同机器学习模型，分别生成预测MSI-H/dMMR的多组学标签(SigCT-MRI和SigPWSI)，由系统自动通过接收者操作特征(receiveroperating characteristic,ROC)曲线分析对比并筛选出曲线下面积(area under thecurve,AUC)最大的影像和病理组学标签(SigCT-MRI和SigPWSI)。上述机器学习的方法包括但不限于1D LSTM、逻辑回归、朴素贝叶斯、随机森林和支持向量机等模型。

步骤S30，基于预先训练的MSI-H/dMMR预测模型，构建预测生成模块。

在此之前，需先通过训练得到MSI-H/dMMR预测模型，具体步骤包括：

具体地，基于临床资料采集模块采集的样本患者临床信息使用SPSS(Statistics22；IBM Corp,Armonk,NY)软件中的单因素回归分析(Univariable Regression Analysis)筛选出与MSI-H状态显著相关的临床危险因素(P<0.05)，并结合MSI-H/dMMR组学标签构建模块输出的影像组学及病理组学标签SigCT-MRI和SigPWSI进行多元回归分析(MultipleRegression Analysis)，获得能够显著独立预测MSI-H/dMMR状态的临床危险因素(P<0.05)，进一步将SigCT-MR，SigPWSI和多元回归分析中筛选出的临床危险因素纳入由系统自动选择的机器学习模型构建MSI-H/dMMR预测模型。该步骤中所使用的机器学习模型与MSI-H/dMMR组学标签构建模块中标签向量计算单元用于计算组学标签的机器学习模型相同。

在本实施例中，通过构建获取模块，用于获取待预测用户的目标影像信息、病理标本信息以及临床资料信息；基于预先训练的MSI-H/dMMR多组学标签模型，构建标签生成模块；基于预先训练的MSI-H/dMMR预测模型，构建预测生成模块。构建了一种基于影像病理深度特征分析的结直肠癌微卫星不稳定的预测系统并提供了构建方案，实现在治疗前通过综合分析患者治疗前CT/MRI的影像学深度/组学特征和病理全景切片图像(pathologicalwhole slide image,PWSI)的病理学深度/组学特征，结合临床指标，预测CRC患者MSI-H/dMMR的风险值。

参照图4，图4为本发明微卫星不稳定预测系统的第二系统架构示意图。本发明实施例中微卫星不稳定预测系统包括图像读取模块，图像预处理模块、组学特征提取模块、临床资料采集模块、MSI-H/dMMR组学标签构建模块、MSI-H/dMMR模型生成模块、预测结果显示模块。图像读取模块输出端与图像预处理模块输入端连接，图像预处理模块的输出端与组学特征提取模块的输入端连接，组学特征提取模块和临床资料采集模块的输出端与MSI-H/dMMR组学标签构建模块的输入端连接，MSI-H/dMMR组学标签构建模块和临床资料采集模块的输出端与MSI-H/dMMR模型生成模块的输入端连接，MSI-H/dMMR模型生成模块输出端与预测结果显示模块的输入端连接。

优选的，所述的图像读取模块负责内容包括：通过操作者所提供路径调取预存在电子计算机系统空间内经过滤波器标准化信号强度及层厚(1mm)的患者腹盆腔CT增强扫描(静脉期)及MRI的高分辨T2WI和DWI(b＝800s/mm²)序列图像；以及苏木精-伊红(hematoxylin-eosin,H&E)染色的肠镜活检标本切片经电子扫描制作的PWSI图像。

优选的，所述的图像预处理模块负责基于图像读取模块输出的病灶CT/MRI图像和PWSI图像进行代表肿瘤组织的感兴趣区(ROI，region of interest)勾画。对于CT/MRI图像，采用区域生长影像分割算法与操作者手工圈定生长点及对生长后的分割范围进行手动修订结合的半自动分割方式对病灶区域进行勾画。对于PWSI图像，采用预先构建的全连接神经网络算法框架对代表病变的区域进行自动勾画，该构架包括2个3D U-Net框架，第一个的输出将作为第二个的输入。每个框架包含4个下采样区和4个上采样区，每层有两个卷积和一个ReLu(rectified linear unit)激活单元。对生成的ROI进一步采用3D条件随机场和连通域分析算法进行分割结果的后处理，提高分割的精准性。

优选的，所述的组学特征提取模块负责基于图像预处理模块输入的CT/MRI图像ROI及PWSI图像ROI提取深度特征值和传统组学特征值。该模块主要使用经ImageNet大样本医学影像数据进行了初步训练的VGG-19模型提取CT/MRI图像ROI及PWSI图像ROI的深度特征，该模型包含5个堆栈，每个堆栈由2-4个卷积层和1个池化层组成，最后由3个全连层。深度特征主要由5个池化层和第一个全连层提取。同时提取CT/MRI图像ROI及PWSI图像ROI的组学特征值，前者包含1029个特征值分别用于描述病灶区的一阶特征(19个)、形状特征(16个)和纹理特征(28个GLCM、16个GLRLM、16个GLSZM、18个GLDM、411个Wavelets和505个Logs)；后者包含820个病理组学特征值分别用于描述图像的像素强度(175个)、形态特征(285)和核纹理特征(360)。

优选的，所述的临床资料采集模块负责采集操作者输入的患者临床资料，包括性别、年龄、体重指数(BMI)、肿瘤分化程度(高分化＝1，中＝2，低＝3)及血清学化验结果(CEA、CA-199血清浓度)。系统将自动根据预设的二分类界值，将上述连续变量转化为二分类变量(年龄，BMI，CEA和CA-199血清浓度的界值分别为：50岁，24kg/m²，5ng/ml和27U/ml，分别将数值小于界值的定义为“0”类，大于等于界值的定义为“1类”)；对于肿瘤分化程度这个分类变量，分别以“1”“2”“3”类代表高、中、低分化。以及在模型构建和验证阶段还需采集患者的微卫星/错配修复功能状态的实验室检测数据(即MSI-H/dMMR定义为“1”类或MSI-L/MSS/MMR定义为“0”类)。

优选的，所述的MSI-H/dMMR组学标签构建模块主要基于图像组学特征提取模块输入的图像组学特征值及临床资料采集模块输入的微卫星检测数据(建模期)，筛选并构建表征MSI-H/dMMR的影像组学及病理组学标签(Signature)，这部分主要分为三步，包括数据清洗、数据降维和标签向量计算。数据清洗主要负责清洗出多组学特征数据中的无效数据和错误数据，同时将连续变量以中位数为界值转化为二分类变量；数据降维负责对多组学特征数据进行显著性筛选，基于组学特征二分类变量与MSI-H/dMMR变量的相关性，使用R软件(version 3.5.1；http://www.Rproject.org)中的最小绝对收缩和选择运算符(Leastabsolute shrinkage and selection operator,LASSO)公式对影像和病理组学特征变量分别进行数据降维，筛选出与MSI-H/dMMR状态显著相关(p＜0.05)的影像和病理组学特征；标签向量计算负责将上述筛选出的特征代入不同机器学习模型，分别生成预测MSI-H/dMMR的多组学标签(SigCT-MRI和SigPWSI)，由系统自动通过接收者操作特征(receiveroperating characteristic,ROC)曲线分析对比并筛选出曲线下面积(area under thecurve,AUC)最大的影像和病理组学标签(SigCT-MRI和SigPWSI)。上述机器学习的方法包括但不限于1D LSTM、逻辑回归、朴素贝叶斯、随机森林和支持向量机等模型。

优选的，所述的MSI-H/dMMR模型生成模块将基于临床资料采集模块采集的患者临床信息使用SPSS(Statistics 22；IBM Corp,Armonk,NY)软件中的单因素回归分析(Univariable Regression Analysis)筛选出与MSI-H/dMMR状态显著相关的临床危险因素(P<0.05)，并结合MSI-H/dMMR组学标签构建模块输出的影像组学及病理组学标签SigCT-MRI和SigPWSI进行多元回归分析(Multiple Regression Analysis)，获得能够显著独立预测MSI-H/dMMR状态的临床危险因素(P<0.05)，进一步将SigCT-MR，SigPWSI和多元回归分析中筛选出的临床危险因素纳入由系统自动选择的机器学习模型构建MSI-H预测模型。该步骤中所使用的机器学习模型与MSI组学标签构建模块中标签向量计算单元用于计算组学标签的机器学习模型相同。

优选的，所述的预测结果显示模块将显示MSI模型生成模块输出的MSI-H/dMMR预测模型结构列线图，以及基于模型训练或验证病例集得到的代表模型预测效能的ROC曲线和相应的AUC。进一步根据操作者后续输入的待预测的前瞻性病例信息(CT/MRI及PWSI图像，临床资料)，系统将根据上述列线图显示出相应的SigCT-MRI和SigPWSI评分，模型总分及MSI-H/dMMR风险，实现在治疗前预测CRC患者的微卫星状态。

参照图5，图5为本发明实施例中预测结果显示模块显示的示例性列线图，基于430例CRC患者的临床、影像、病理资料进行结直肠癌微卫星不稳定预测系统的构建及外部验证。将患者随机按照7:3的比例分为训练组(300例)和验证组(130例)。将训练组患者治疗前的经过滤波器标准化的增强CT(静脉期)，MRI的高分辨T2WI和DWI(b＝800s/mm²)序列图像及肠镜活检标本PWSI图像存入既定文件夹，在临床资料采集模块中输入完整信息，经过上述系统模型构建过程筛选出了CT_glcm_JointEnergy，CT_gldm_GrayLevelNonUniformity，CT_gldm_DependenceEntropy，CT_gldm_DependenceVariance，和T2WI_glrlm_ShortRunHighGrayLevelEmphasis共5个影像组学特征纳入SigCT-MRI，pathomics_feature_374,pathomics_feature_635,pathomics_feature_768,和pathomics_feature_812共4个特征纳入SigPWSI，并筛选出支持向量机模型作为组学标签和最终预测模型的构建的机器学习模型。经过上述系统模型构建过程最终在预测结果显示模块中显示的列线图如图5所示。

参照图6，图6为本发明实施例中系统模型对于训练集病例和验证集病例的预测效能示意图，完成初始系统模型构建后，依次输入待预测患者(验证集)的标准化增强CT(静脉期)及MRI的高分辨T2WI和DWI(b＝800s/mm²)序列图像、PWSI图像和临床资料(无微卫星状态信息)，系统即可基于上述列线图运算并显示出特定患者的影像组学及病理组学标签评分及MSI-H/dMMR风险。本实施例中待预测患者作为验证病例在得出所有预测结果后，最后将验证集患者实际微卫星/错配修复功能状态的实验室检测数据(MSI-H/dMMR标记为“1”类或MSI-L/MSS/MMR标记为“0”类)输入系统，根据预测与实际的偏差评价模型的一致性和稳定性。如图6所示，系统模型对于训练集病例和验证集病例的预测效能AUC分别达到0.846和0.815。

本实施例通过上述方案，具体通过构建一种基于影像病理深度特征分析的结直肠癌微卫星不稳定的预测系统，实现在治疗前通过综合分析患者治疗前CT/MRI的影像学深度/组学特征和肠镜活检病理全景切片图像的病理学深度/组学特征，结合临床指标，预测CRC患者MSI-H/dMMR的风险值。依靠现有临床诊疗过程中常规的信息和数据，在不增加患者时间、经济成本的前提下，在初治前便捷、精准地预测CRC患者的微卫星状态。

此外，本发明实施例还提出一种终端设备，所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的微卫星不稳定预测程序，所述微卫星不稳定预测程序被所述处理器执行时实现如上所述的微卫星不稳定预测系统的构建方法。

由于本微卫星不稳定预测程序被处理器执行时，采用了前述所有实施例的全部技术方案，因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果，在此不再一一赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有微卫星不稳定预测程序，所述微卫星不稳定预测程序被处理器执行时实现如上所述的微卫星不稳定预测系统的构建方法。

相比现有技术，本发明实施例提出的微卫星不稳定预测系统及其构建方法、终端设备及介质，通过微卫星不稳定预测系统中的获取模块获取待预测用户的目标影像信息、病理标本信息以及临床资料信息；通过标签生成模块基于预先训练的MSI-H/dMMR多组学标签模型，根据所述目标影像信息生成影像组学标签，根据所述病理标本信息生成病理组学标签；通过预测生成模块基于预先训练的MSI-H/dMMR预测模型，根据所述影像组学标签、所述病理组学标签以及所述临床资料信息生成MSI-H/dMMR预测结果。通过对待预测用户的目标影像信息及病理标本信息进行分类，得到影像组学标签及病理组学标签，进而结合临床资料信息生成MSI-H/dMMR预测结果，实现无创且高效预测MSI-H/dMMR。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，被控终端，或者网络设备等)执行本申请每个实施例的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种微卫星不稳定预测系统，其特征在于，所述微卫星不稳定预测系统包括：

标签生成模块，用于基于预先训练的高频微卫星不稳定和/或错配修复功能缺陷MSI-H/dMMR多组学标签模型，根据所述目标影像信息生成影像组学标签，根据所述病理标本信息生成病理组学标签；

预测生成模块，用于基于预先训练的MSI-H/dMMR预测模型，根据所述影像组学标签、所述病理组学标签以及所述临床资料信息生成MSI-H/dMMR预测结果；

所述微卫星不稳定预测系统还包括图像预处理模块，所述图像预处理模块包括特征提取单元，所述特征提取单元包括：

组学特征提取单元，用于分别对增强CT图像感兴趣区域、磁共振图像感兴趣区域以及肠镜活检病理标本PWSI图像感兴趣区域进行组学特征提取，得到增强CT图像组学特征值、磁共振图像组学特征值以及PWSI图像组学特征值；

特征输出单元，用于将所述增强CT图像组学特征值、及所述磁共振图像组学特征值作为所述目标影像信息输出，将所述PWSI图像组学特征值作为所述病理标本信息输出。

2.如权利要求1所述的微卫星不稳定预测系统，其特征在于，所述图像预处理模块还包括：

读取单元，用于获取所述待预测用户的增强CT图像、磁共振图像以及肠镜活检病理标本PWSI图像；

影像勾画单元，用于将所述增强CT图像及所述磁共振图像提供至终端界面，并采用区域生长影像分割算法进行范围分割，并基于操作者的修订操作进行病灶定位，得到所述增强CT图像感兴趣区域以及磁共振图像感兴趣区域；

标本勾画单元，用于采用预先构建的全连接神经网络算法框架对所述PWSI图像进行自动勾画，得到所述PWSI图像感兴趣区域。

3.如权利要求1所述的微卫星不稳定预测系统，其特征在于，所述标签生成模块包括：

4.如权利要求1所述的微卫星不稳定预测系统，其特征在于，所述微卫星不稳定预测系统还包括：

5.一种微卫星不稳定预测系统的构建方法，其特征在于，所述微卫星不稳定预测系统应用于医疗辅助场景，所述微卫星不稳定预测系统的构建方法包括：

基于预先训练的MSI-H/dMMR预测模型，构建预测生成模块；

6.如权利要求5所述的微卫星不稳定预测系统的构建方法，其特征在于，所述基于预先训练的MSI-H/dMMR多组学标签模型，构建标签生成模块的步骤之前还包括：

训练得到所述MSI-H/dMMR多组学标签模型，具体包括：

7.如权利要求6所述的微卫星不稳定预测系统的构建方法，其特征在于，所述基于预先训练的MSI-H/dMMR预测模型，构建预测生成模块的步骤之前还包括：

训练得到所述MSI-H/dMMR预测模型，具体包括：

8.一种终端设备，其特征在于，所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的微卫星不稳定预测程序，所述微卫星不稳定预测程序被所述处理器执行时实现如权利要求5-7中任一项所述的微卫星不稳定预测系统的构建方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有微卫星不稳定预测程序，所述微卫星不稳定预测程序被处理器执行时实现如权利要求5-7中任一项所述的微卫星不稳定预测系统的构建方法。