CN110991535A

CN110991535A - 一种基于多类型医学数据的pCR预测方法

Info

Publication number: CN110991535A
Application number: CN201911225360.0A
Authority: CN
Inventors: 曾坤; 舒丁飞; 周凡; 林格
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2020-04-10

Abstract

本发明公开了一种基于多类型医学数据的pCR预测方法。本发明从医疗部门获取临床数据、CT诊断报告和肠镜图像；使用临床数据来训练SVM，使用CT诊断报告来迁移学习训练BERT，使用肠镜图像来迁移学习训练Faster‑RCNN模型；将待预测患者的临床数据、CT诊断报告和肠镜图像输入到训练好的三个模型中得到预测的pCR概率p₁、p₂和p₃，并融合得到最终预测的pCR概率p，若p大于设定的阈值T，则预测患者为pCR。本发明使用Faster‑RCNN网络，能自动生成肿瘤ROI，整个过程无需人工干预，提高预测的效率；使用神经网络进行表征学习，而不用人工设定和选择特征，提高了预测的准度和效率；结合使用患者的临床数据和CT诊断报告进行pCR的预测，提高了预测的准度。

Description

一种基于多类型医学数据的pCR预测方法

技术领域

本发明涉及机器学习、计算机视觉和自然语言处理领域，具体涉及一种基于多类型医学数据的pCR预测方法。

背景技术

进展期中低位直肠癌的标准治疗方案是先对患者进行新辅助放化疗，然后进行根治性手术，即对病灶区域进行根治性切除。医生通过对手术切下来的病灶组织进行病理学检查，发现大概有10％到20％的病人在经过化疗之后就已经痊愈，也就是说进行了不必要的手术。如果能够在手术前就找出新辅助治疗后pCR(病理完全缓解)的病人，使其避免进行不必要的手术，而是采取“wait&see”策略，对于患者而言，意义十分重大。但是目前来讲，对于新辅助治疗后直肠癌患者的pCR判定，在医学上没有一套统一的标准。

现阶段，人工智能已经渗透到医学的各个领域，应用在日常场景下的各项任务，如图像分类、物体检测和自然语言处理等都可以迁移到相应的医学数据当中。机器学习中的分类器，如SVM(支持向量机)、随机森林等可以基于医学数据的特征完成分类任务；BERT(Transformer双向编码器表示)是Google AI Language开发的自然语言处理模型，引入Masked LM技术将双向transformer应用于语言模型，在多项自然语言处理问题，如命名实体识别、单句情感分析等中表现卓越，因此BERT模型也可以迁移应用在医学的文本数据上，如电子病历和诊断报告等，完成各项任务；Faster-RCNN是目标检测网络，能自动生成包含物体的候选框，并通过候选框对应的特征图中的ROI(感兴趣区域)判断物体的类别，因此Faster-RCNN模型可以迁移应用在医学影像上，如CT影像、MRI影像和肠镜图像等，自动找出病灶部位的ROI，并判断它的良恶性。

现有的技术之一为一个基于MRI影像的术前pCR预测模型，该模型通过MRI影像中提取的影像特征来预测患者经过新辅助治疗后是否pCR，其流程如下：

首先对患者的MRI影像进行人工分割肿瘤ROI，然后对新辅助治疗前后的T2WI和DWI影像的ROI分别提取影像特征，每组影像特征包括4个统计学特征、43个体素灰度特征和516个小波特征，因此共计2252个影像特征，然后对提取到的影像特征通过双样本t检验和LASSO回归进行特征选择，最终保留了30个影像特征，并将其输入到SVM完成对pCR的预测。作者还将选择后的30个影像特征结合新辅助治疗后的病灶直径，建立了多元逻辑回归pCR预测模型。

该技术的缺点是：

1、要获取肿瘤的ROI需要人工分割，要求是包含完整的肿瘤区域而且要排除肠道，因此标注人员需要具有较高的医学专业素养，标注的过程费时费力，降低了整个模型的预测速度，而且分割的精度会影响后续的预测效果；

2、该技术从MRI影像的ROI中提取的特征都是人工特征，如统计学特征、体素灰度特征和小波特征等，而人工特征的抽取并没有表征学习的能力，无法根据具体任务特化，也就是说很难代表MRI影像的最核心、最显著的特征，而这会影响后续的预测效果；

3、该方案过于依赖MRI影像的特征，最终建立的pCR预测模型使用了30个经过特征选择后保留下来的影像特征，只使用了一项临床特征，即新辅助治疗后的病灶直径，没有挖掘和使用更多的临床特征，可能会降低后续的预测性能。

发明内容

本发明的目的是克服现有方法的不足，提出了一种基于多类型医学数据的pCR预测方法。本发明解决的主要问题是，(1)基于肠镜图像的pCR预测使用Faster-RCNN网络，能自动生成肠镜图像和特征图中对应的肿瘤ROI，整个过程无需人工干预；(2)使用神经网络进行表征学习，自动学习出肠镜图像中有用的特征，而不用人工设定和选择特征；(3)结合使用患者的临床数据和CT诊断报告进行pCR的预测，综合利用患者的多类型医学数据。

为了解决上述问题，本发明提出了一种基于多类型医学数据的pCR预测方法，所述方法包括：

从医疗部门获取临床数据、CT诊断报告和肠镜图像，对这三种医学数据进行预处理，输出归一化后的临床数据的特征、定长向量表示的CT诊断报告，以及固定尺寸归一化后的肠镜图像，并分为三种医学数据各自的训练集和验证集；

使用得到的归一化后的临床数据的特征的训练集来训练SVM，使用得到的定长向量表示的CT诊断报告的训练集来迁移学习训练BERT模型，使用得到的固定尺寸归一化后的肠镜图像的训练集来迁移学习训练Faster-RCNN模型；

将待预测患者的临床数据输入到训练好的SVM中得到预测的pCR概率p₁，将待预测患者的CT诊断报告输入到训练好的BERT中得到预测的pCR概率p₂，将待预测患者的肠镜图像输入到训练好的Faster-RCNN网络中得到预测的pCR概率p₃，之后对p₁、p₂和p₃进行融合得到最终预测的pCR概率p，若p大于设定的阈值T，则预测患者为pCR，否则是非pCR。

本发明提出的一种基于多类型医学数据的pCR预测方法，基于肠镜图像的pCR预测使用Faster-RCNN网络，能自动生成肠镜图像和特征图中对应的肿瘤ROI，整个过程无需人工干预，提高预测的效率；使用神经网络进行表征学习，自动学习出肠镜图像中有用的特征，而不用人工设定和选择特征，提高了预测的准度和效率；结合使用患者的临床数据和CT诊断报告进行pCR的预测，综合利用患者的多类型医学数据，提高了预测的准度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例的基于多类型医学数据的pCR预测方法总体流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例的本发明实施例的基于多类型医学数据的pCR预测方法总体流程图，如图1所示，该方法包括：

S1，从医疗部门获取临床数据、CT诊断报告和肠镜图像，对这三种医学数据进行预处理，输出归一化后的临床数据的特征、定长向量表示的CT诊断报告，以及固定尺寸归一化后的肠镜图像，并分为三种医学数据各自的训练集和验证集；

S2，使用得到的归一化后的临床数据的特征的训练集来训练SVM，使用得到的定长向量表示的CT诊断报告的训练集来迁移学习训练BERT模型，使用得到的固定尺寸归一化后的肠镜图像的训练集来迁移学习训练Faster-RCNN模型；

S3，将待预测患者的临床数据输入到训练好的SVM中得到预测的pCR概率p₁，将待预测患者的CT诊断报告输入到训练好的BERT中得到预测的pCR概率p₂，将待预测患者的肠镜图像输入到训练好的Faster-RCNN网络中得到预测的pCR概率p₃，之后对p₁、p₂和p₃进行融合得到最终预测的pCR概率p，若p大于设定的阈值T，则预测患者为pCR，否则是非pCR。

步骤S1，具体如下：

S1-1，对临床数据的特征进行预处理，量化成[0,1]内的数值，具体包含以下两种情况：

(1)对于数据是数值的特征，如身高、体重等，直接规定一个区间[min,max]，对于落在区间外的数值截断到边界值，然后通过以下表达式将特征值x进行量化：

其中，f(x)是特征值x的量化结果，max和min分别是设定的区间左值和右值；

(2)对于数据是有限个取值的特征，假设特征X有n个取值，按程度的递进给它们排序为x₁,x₂,x₃...x_n，然后通过以下表达式将特征值x_i进行量化：

其中，f(xi)是特征值xi的量化结果，n是特征X的取值个数。

S1-2，CT诊断报告预处理：

对于CT诊断报告这类文本数据，使用BERT基于汉字训练的标记器进行分字，然后将分开的字用标记器字典中的字对应的数字编号表示，将文本表示成向量；长度超过最大长度L就进行截断，小于L用标记器的PAD补全到L长度，这样将诊断报告的文本处理成长度为L的向量。

S1-3，肠镜图像预处理：

因为肠镜检查的医学仪器输出的图像中不仅包含了肠镜图像，还将部分医学数据直接写在了图像上，所以第一步是从图像中抠出完整的肠镜图像，方法是设定一个阈值T将整幅图像二值化，然后找出图像中面积最大的连通区域，然后提取出这块连通区域的外接矩形，就是肠镜图像。然后将肠镜图像缩放到256×256的大小，并将RGB三通道的值归一化到[-1,1]的范围内。

S1-4，将预处理后的临床数据、CT诊断报告和肠镜图像分别按照7:3的比例分为训练集和验证集。

步骤S2，具体如下：

S2-1，SVM训练：

具体的，安装实现了SVM的scikit-learn库，使用S14得到的临床数据的训练集来训练SVM，保留组织分型、盆腔MRI浸润深度和新辅助放疗这3项特征，标签为类别，即pCR或非pCR。把训练集的特征和标签输入到SVM中，完成SVM的训练。训练SVM分类器使用的损失函数是带L2正则项的hinge loss，表达式如下：

其中，N是样本个数，y_i是第i个样本的类别标签，C是类别的个数，这里为2，这里只有2类，即pCR和非pCR，x(y_i)是第i个样本预测y_i类别的分数，x(j)是第i个样本预测j类别的分数，Δ是边界值，λ是正则化参数，w是分类器的参数。

对于SVM最终预测的pCR的概率p，设定一个阈值T₁，p大于T₁，则判断为pCR，p小于等于T₁，则判断为非pCR。T₁选择S14得到的临床数据的验证集ROC曲线中最左上角的点对应的阈值。

S2-2，BERT训练：

具体的，安装实现了BERT的transformers库，并下载BERT基于汉字的文本分类预训练模型，使用S1-4得到的CT诊断报告的训练集来训练BERT模型，标签为类别，即pCR或非pCR。在预训练模型的基础上对CT诊断报告的文本分类进行迁移学习，微调网络的参数。训练BERT模型做文本分类使用的损失函数是带类别权重参数的二分类交叉熵损失，表达式如下：

其中，N是mini-batch中的样本个数，y_i是第i个样本的类别标签，weight(y_i)是设定的y_i类别的权重，C是类别的个数，这里为2，即pCR和非pCR，x(y_i)是第i个样本预测y_i类别的分数，x(j)是第i个样本预测j类别的分数。

对于BERT最终预测的pCR的概率p，设定一个阈值T₂，p大于T₂，则判断为pCR，p小于等于T₂，则判断为非pCR。T₂选择S1-4得到的CT诊断报告的验证集ROC曲线中最左上角的点对应的阈值。

S2-3，Faster-RCNN训练：

具体的，下载Faster-RCNN的开源代码和预训练模型，使用S14得到的肠镜图像的训练集来训练Faster-RCNN模型，标签为肠镜图像中肿瘤区域的bounding box和其类别，即pCR或非pCR。在预训练模型的基础上对肠镜图像肿瘤区域的检测和分类进行迁移学习，微调网络的参数。输入为归一化后的肠镜图像，训练时进行数据增强，即从256×256的肠镜图像中随机截取224×224的区域，并有50％的概率进行随机水平翻转。Faster-RCNN中训练RPN的损失函数包含分类和回归的损失，表达式如下：

其中，N_cls是mini-batch中进行分类的anchor box的个数，p_i是第i个anchor box为前景的概率，当第i个anchor box为前景时，

是1，反之为0，L_cls是分类的损失函数，为二分类交叉熵损失函数；λ是平衡因子，N_reg是mini-batch中进行回归的anchor box的个数，t_i是预测的anchor box的中心坐标和宽高，

是真实的bounding box的中心坐标和宽高，L_reg是回归的损失函数，为smooth L1损失函数。

Faster-RCNN会生成多个bounding box，每个bounding box会进行分类并得到pCR和非pCR的概率，取这两类中较高的概率作为该bounding box的分数，保留分数最高的bounding box，并将其预测的pCR概率作为最终预测的pCR概率p，设定一个阈值T₃，p大于T₃，则判断为pCR，p小于等于T₃，则判断为非pCR。T₃选择S1-4得到的肠镜图像的验证集ROC曲线中最左上角的点对应的阈值。

步骤S3，具体如下：

S3-1，输入直肠癌患者的临床数据，按照S1-1的步骤对临床数据进行预处理，获得组织分型、盆腔MRI浸润深度和新辅助放疗这3项特征，输入到S2-1训练好的SVM中，输出预测的pCR概率p₁。

S3-2，输入直肠癌患者的CT诊断报告，按照S1-2的步骤对CT诊断报告的文本数据进行预处理，输入到S2-2训练好的BERT中，输出预测的pCR概率p₂。

S3-3，输入直肠癌患者的肠镜图像，按照S1-3的步骤对肠镜图像进行预处理，不需要进行训练时的数据增强，直接缩放到224×224像素的尺寸，然后单张输入到S2-3训练好的Faster-RCNN网络中。具体的，Faster-RCNN网络的处理步骤如下：

S3-3-1，输入的图片经过由卷积层、激活层和池化层组成的特征提取层，生成高度抽象的特征图。

S3-3-2，将S3-3-1得到的特征图输入到RPN，以特征图中的每一个点作为一个锚点，通过预设的面积和长宽比，设面积有k₁组，长宽比有k₂组，那么每一个锚点可以生成k₁×k₂个anchor box，设特征图的尺寸为m×n，那么一共可以生成m×n×k₁×k₂个anchor box，然后对生成的这些anchor box进行分类和回归，分类是为了得到预测的anchor box包含肿瘤区域的概率，记为anchor box的分数，回归是为了对anchor box的边框进行调整，使其更准确地包住肠镜图像中的肿瘤区域。最后对anchor box进行越界剔除和非极大值抑制，取分数排名前N的anchor box作为候选框。

S3-3-3，对于S3-3-2中得到的每一个候选框，找出其在S3-3-1中得到的特征图对应的区域，将特征图中的这块区域抠出来，即ROI，使用ROI对候选框再次进行分类和回归，分类是为了得到候选框中的肿瘤区域pCR和非pCR的概率，取这两类中较高的概率作为该候选框的分数，回归是为了进一步对候选框的边框进行微调，使其更准确地包住肠镜图像中的肿瘤区域。最后保留分数最高的候选框，并将其预测的pCR概率作为最终预测的pCR概率。

S3-3-4，如果患者有多张肠镜检查的图像，则将其每张肠镜图像通过Faster-RCNN预测的pCR概率取平均，作为该患者基于肠镜图像预测的pCR概率p₃。

S3-4，对S3-1、S3-2和S3-3得到的分别基于临床数据、CT诊断报告和肠镜图像预测的pCR概率p₁、p₂和p₃进行融合，融合的表达式如下：

其中T₁、T₂和T₃分别是S2-1、S2-2和S2-3设定的阈值，p是最终预测的pCR概率。若p大于设定的阈值T，则预测患者为pCR，否则是非pCR。

本发明实施例提出的一种基于多类型医学数据的pCR预测方法，基于肠镜图像的pCR预测使用Faster-RCNN网络，能自动生成肠镜图像和特征图中对应的肿瘤ROI，整个过程无需人工干预，提高预测的效率；使用神经网络进行表征学习，自动学习出肠镜图像中有用的特征，而不用人工设定和选择特征，提高了预测的准度和效率；结合使用患者的临床数据和CT诊断报告进行pCR的预测，综合利用患者的多类型医学数据，提高了预测的准度。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的一种基于多类型医学数据的pCR预测方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于多类型医学数据的pCR预测方法，其特征在于，所述方法包括：