CN116703896A

CN116703896A - 一种基于多模态的前列腺癌与增生预测系统及构建方法

Info

Publication number: CN116703896A
Application number: CN202310963187.4A
Authority: CN
Inventors: 张佳乐; 许娟; 王瑞国; 梁大柱; 聂瑞; 王晓勇; 高剑伟; 吴玉杰; 刘燕波; 史文钊
Original assignee: Digital Health China Technologies Co Ltd
Current assignee: Digital Health China Technologies Co Ltd
Priority date: 2023-08-02
Filing date: 2023-08-02
Publication date: 2023-09-05
Anticipated expiration: 2043-08-02
Also published as: CN116703896B

Abstract

本发明涉及前列腺癌技术领域，具体涉及一种基于多模态的前列腺癌与增生预测系统及构建方法；本方法包括采集患者的临床数据以及前列腺序列的CT影像，采用3DUNET分割模型对前列腺影像序列的前列腺区域进行ROI标注，经VIT算法模型处理后得出患者的前列腺影像embedding，对患者的临床数据进行预处理后得到患者的临床embedding，将对应的影像和临床embedding进行拼接，得到前列腺癌与增生预测模型；本发明通过将临床数据与影响数据进行结合形成多模态数据，并构建预测模型，实现对前列腺癌与增生的预测，解决了临床上医生对PSA值处于4到6的患者影像判断的挑战，避免患者做活检带来的痛苦。

Description

一种基于多模态的前列腺癌与增生预测系统及构建方法

技术领域

本发明涉及前列腺癌技术领域，具体涉及一种基于多模态的前列腺癌与增生预测系统及构建方法。

背景技术

前列腺癌是发生在前列腺的上皮性恶性肿瘤，是男性泌尿生殖系统最常见的恶性肿瘤。前列腺癌是一种进展特别缓慢的癌症，疾病早期阶段不易发现，患者临床主要表现为排尿费力、腰痛、尿急、尿频、尿痛等尿道症状，主要通过前列腺癌根治术和手术或者药物去势等治疗，早期前列腺癌可以治愈，晚期以保守治疗为主。

对于前列腺癌发生的病因，其与遗传、环境、食物、年龄有关，有家族性前列腺癌病史，发病率相对偏高，发病的年龄也会偏年轻。前列腺癌好发于年龄大于65岁以上的老年男人、生活方式不健康的人、直系亲属中有得过前列腺癌的人，饮食、肥胖等因素则容易诱发。

目前临床医生对前列腺特异性抗原水平（psa）在4到10的患者通过前列腺影像判断是否为前列腺癌或者前列腺增生有很大的挑战，常常需要去做活检来确定。而活检常常会增加检测时间或是给患者带来痛苦。

发明内容

针对上述现有技术的不足，本发明旨在提供一种基于多模态的前列腺癌与增生预测系统及构建方法，以解决前列腺特异性抗原水平（psa）在4到10不易辨别是前列腺癌还是前列腺增生，而常常需要进行活检的问题。

为了解决上述问题，本发明采用了如下的技术方案：

一种基于多模态的前列腺癌与增生预测系统，包括信息采集模块、标注模块和模型构建模块；

所述信息采集模块用于采集患者的临床数据以及前列腺T2、ADC、DWI和DCE序列的CT影像；

所述标注模块用于采用3DUNET分割模型对前列腺影像序列的前列腺区域进行ROI标注；

所述模型构建模块用于将标注后的CT影像经VIT算法模型处理后得出患者的前列腺影像embedding，对患者的临床数据进行预处理后得到患者的临床embedding，将对应的影像embedding和临床embedding进行拼接，再设置全连接网络层和分类器，得到前列腺癌与增生预测模型，并进行训练和验证；

所述前列腺癌与增生预测模型采用随机森林、XGBoost，朴素贝叶斯、k最近邻、支持向量机、逻辑回归、决策树和adaboost算法中的多种，并计算每种算法的评价指标，采用评价指标最优的算法作为前列腺癌与增生预测模型的预测算法。

作为一种可实施方式，所述临床数据包括年龄、体质量指数、游离PSA、总PSA、游离PSA/总PSA、血清白蛋白、三酰甘油、肌酸激酶、肌酸激酶同工酶、低密度脂蛋白胆固醇、载脂蛋白A1、载脂蛋白B、氯化物、无机磷、钙和游离钙。

作为一种可实施方式，所述将标注后的CT影像经VIT算法模型处理后得出患者的前列腺影像embedding包括：

将标注后的CT影像利用MASK裁剪得到前列腺区域,输入至VIT算法模型；

VIT算法模型将三维图像H×W×C转化为一个 N×(P²×C)的序列，该序列包含了N=HW/P²个展平的图像块，每个图像块的维度为(P²×C)，其中P为图像块的大小，C为通道数量；

将N视为序列的长度，再将每个图像块继续线性变换，将维度压缩为 D，实现将三维图像H×W×C转化为(N,D)的二维输入，将(N,D)输入到Transformer 结构中进行特征提取，得到患者的前列腺影像embedding。

作为一种可实施方式，评价指标为acc、pre、recall、F1、AUROC和/或AUPRC。

作为一种可实施方式，所述3DUNET分割模型包括：

输入层，输入前列腺3D图像；

编码层，每层包含两个3×3×3卷积，卷积后使用BN+ReLU激活函数，通过卷积得到特征图，然后再利用2×2×2最大池化，卷积核移动步长为2的最大池化层进行下采样；

解码层，每层具有一个2×2×2的上卷积操作，卷积核移动步长为2，对特征图进行上采样，得到与原图一样长宽的特征热图，在每次上采样后使用2个3x3x3的卷积进行卷积操作，使用BN+ReLU激活函数，解码每层的特征热图；

跳跃连接，用于将编码层中相同分辨率的层传递到解码路径，为解码层提供高分辨率的特征；

所述3DUNET分割模型采用加权softmax损失函数。

作为一种可实施方式，所述随机森林的模型超参数为n_estimators=100,criterion=gini,max_depth=None,random_state=42；所述XGBoost的模型超参数为learing_rate=0.1，n_estimators =100，max_depth=6；所述朴素贝叶斯的模型超参数为var_smoothing=1e-9；所述k最近邻的模型超参数为neighbors=2,weights=uniform,leaf_size=30；所述支持向量机的模型超参数为C=1.0, kernel=rbf, degree=3, gamma=auto,coef0=0.0；所述逻辑回归的模型超参数为penalty=l2,tol=1e-4,c=1.0,intercept_scaling=1；所述决策树的模型超参数为learing_rate=0.1,n_estimators =100，max_depth=6,min_samples_leaf=1；所述adaboost的模型超参数为learing_rate=0.1,n_estimators =100，max_depth=6,min_samples_leaf=1。

一种基于多模态的前列腺癌与增生预测系统的构建方法，包括：

采集患者的临床数据以及前列腺T2、ADC、DWI和DCE序列的CT影像；

采用3DUNET分割模型对前列腺影像序列的前列腺区域进行ROI标注；

将标注后的CT影像经VIT算法模型处理后得出患者的前列腺影像embedding，对患者的临床数据进行预处理后得到患者的临床embedding，将对应的影像embedding和临床embedding进行拼接，再设置全连接网络层和分类器，得到前列腺癌与增生预测模型，并进行训练和验证；

作为一种可实施方式，所述3DUNET分割模型包括：

输入层，输入前列腺3D图像；

所述3DUNET分割模型采用加权softmax损失函数。

一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如所述构建方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如所述构建方法的步骤。

本发明的有益效果在于：通过前列腺影像的四个子序列，丰富了影像特征；多模态数据的构建提高了模型的表达能力，解决了临床上医生对PSA值处于4到6的患者影像判断的挑战，避免患者做活检带来的痛苦。

附图说明

图1为本发明实施例中一种基于多模态的前列腺癌与增生预测系统示意图。

图2为本发明实施例中一种基于多模态的前列腺癌与增生预测系统的构建方法流程示意图。

具体实施方式

下面结合具体实施例对本发明作进一步的详细说明。

需要说明的是，这些实施例仅用于说明本发明，而不是对本发明的限制，在本发明的构思前提下本方法的简单改进，都属于本发明要求保护的范围。

参见图1，为一种基于多模态的前列腺癌与增生预测系统，包括信息采集模块100、标注模块200和模型构建模块300；

所述信息采集模块100用于采集患者的临床数据以及前列腺T2、ADC、DWI和DCE序列的CT影像。

其中，所述临床数据包括年龄、体质量指数、游离PSA、总PSA、游离PSA/总PSA、血清白蛋白、三酰甘油、肌酸激酶、肌酸激酶同工酶、低密度脂蛋白胆固醇、载脂蛋白A1、载脂蛋白B、氯化物、无机磷、钙和游离钙。

所述标注模块200用于采用3DUNET分割模型对前列腺影像序列的前列腺区域进行ROI标注。

其中，所述3DUNET分割模型包括：

输入层，输入前列腺3D图像；

所述3DUNET分割模型采用加权softmax损失函数。

所述模型构建模块300用于将标注后的CT影像经VIT算法模型处理后得出患者的前列腺影像embedding，对患者的临床数据进行预处理后得到患者的临床embedding，将对应的影像embedding和临床embedding进行拼接，再设置全连接网络层和分类器，得到前列腺癌与增生预测模型，并进行训练和验证。

全连接网络层的作用是将前一层的所有神经元与当前层的所有神经元相连接，从而实现信息的传递和转换；分类器根据已有的训练数据学习到不同类别之间的区别和特征，然后将这些学习到的知识应用到新的未见过的数据上进行分类。

其中，所述将标注后的CT影像经VIT算法模型处理后得出患者的前列腺影像embedding包括：

其中，所述随机森林的模型超参数为n_estimators=100,criterion=gini,max_depth=None,random_state=42；所述XGBoost的模型超参数为learing_rate=0.1，n_estimators =100，max_depth=6；所述朴素贝叶斯的模型超参数为var_smoothing=1e-9；所述k最近邻的模型超参数为neighbors=2,weights=uniform,leaf_size=30；所述支持向量机的模型超参数为C=1.0, kernel=rbf, degree=3, gamma=auto, coef0=0.0；所述逻辑回归的模型超参数为penalty=l2,tol=1e-4,c=1.0,intercept_scaling=1；所述决策树的模型超参数为learing_rate=0.1,n_estimators =100，max_depth=6,min_samples_leaf=1；所述adaboost的模型超参数为learing_rate=0.1,n_estimators =100，max_depth=6,min_samples_leaf=1。

其中，评价指标为acc、pre、recall、F1、AUROC和/或AUPRC。

S100、采集患者的临床数据以及前列腺T2、ADC、DWI和DCE序列的CT影像。

S200、采用3DUNET分割模型对前列腺影像序列的前列腺区域进行ROI标注。

其中，所述3DUNET分割模型包括：

输入层，输入前列腺3D图像；

所述3DUNET分割模型采用加权softmax损失函数。

S300、将标注后的CT影像经VIT算法模型处理后得出患者的前列腺影像embedding，对患者的临床数据进行预处理后得到患者的临床embedding，将对应的影像embedding和临床embedding进行拼接，再设置全连接网络层和分类器，得到前列腺癌与增生预测模型，并进行训练和验证。

其中，预处理可以为归一化和onehot处理。

其中，评价指标为acc、pre、recall、F1、AUROC和/或AUPRC。

电子设备可以包括处理装置（例如中央处理器、图形处理器等），其可以根据存储在只读存储器（ROM）中的程序或者从存储装置加载到随机访问存储器（RAM）中的程序而执行各种适当的动作和处理。在RAM 中，还存储有电子设备操作所需的各种程序和数据。处理装置、ROM 以及RAM 通过总线彼此相连。输入/输出（I/O）接口也连接至总线。

通常，以下装置可以连接至I/O接口：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置；包括例如液晶显示器（LCD）、扬声器、振动器等的输出装置；包括例如磁带、硬盘等的存储装置；以及通信装置。通信装置可以允许电子设备与其他设备进行无线或有线通信以交换数据。

特别地，根据本公开的一些实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的一些实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中，该计算机程序可以通过通信装置从网络上被下载和安装，或者从存储装置被安装，或者从ROM 被安装。在该计算机程序被处理装置执行时，执行本公开的一些实施例的方法中限定的上述功能。

需要说明的是，本公开的一些实施例上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF（射频）等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP（HyperText TransferProtocol，超文本传输协议）之类的网络协议进行通信，并且可以与任意形式或介质的数字数据通信（例如，通信网络）互连。通信网络的示例包括局域网（“LAN”），广域网（“WAN”），网际网（例如，互联网）以及端对端网络（例如，ad hoc端对端网络），以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述装置中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：确定目标车辆的充电功率需求预测曲线；基于上述充电功率需求预测曲线确定总能量消耗预测曲线；基于上述总能量消耗预测曲线分别确定总能量最大消耗预测曲线和总能量最小消耗预测曲线；确定平均功率参考线；基于上述总能量最大消耗预测曲线、总能量最小消耗预测曲线和上述平均功率参考线生成期望运行工况曲线；基于上述期望运行工况曲线调整充电系统当前运行参数。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网（LAN）或广域网（WAN）——连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

基于上述构建方法，通过核查病理报告，删除治疗后 (内分泌治疗、化疗或手术治疗后) 的样本272例，删除标签与病理报告不相符的样本48 例，剩余样本2 731例。在此基础上，删除数据完整度小于70% 的8个特征以及数据完整度小于70%的252例样本。经过预处理后，共保留特征23个，样本2479例，其中前列腺增生患者1255例，前列腺癌患者1 224例。平均年龄分别为65.86岁、67.70岁；选取年龄、体质量指数、前列腺特异性抗原(prostatespecific antigen,PSA)系列指标及其他生化检验指标共23个特征。以及他们前列腺四个序列（T2,ADC,DWI,DCE）的CT影像信息。

诊断结果为：判断患者前列腺状态（前列腺癌是1，前列腺增生是0）。

采用的3DUNET分割模型为通过1000个前列腺影像序列训练得到，在验证集的224个前列腺影像序列上平均dice为0.85。

前列腺癌与增生预测模型评价指标见表1。

表1前列腺癌与增生预测模型评价指标

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管通过参照本发明的优选实施例已经对本发明进行了描述，但本领域的普通技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离所附权利要求书所限定的本发明的精神和范围。

Claims

1.一种基于多模态的前列腺癌与增生预测系统，其特征在于，包括信息采集模块、标注模块和模型构建模块；

2.根据权利要求1所述的基于多模态的前列腺癌与增生预测系统，其特征在于，所述临床数据包括年龄、体质量指数、游离PSA、总PSA、游离PSA/总PSA、血清白蛋白、三酰甘油、肌酸激酶、肌酸激酶同工酶、低密度脂蛋白胆固醇、载脂蛋白A1、载脂蛋白B、氯化物、无机磷、钙和游离钙。

3.根据权利要求1所述的基于多模态的前列腺癌与增生预测系统，其特征在于，所述将标注后的CT影像经VIT算法模型处理后得出患者的前列腺影embedding包括：

将N视为序列的长度，再将每个图像块继续线性变换，将维度压缩为 D，实现将三维图像H×W×C转化为(N,D)的二维输入，将(N,D)输入到Transformer结构中进行特征提取，得到患者的前列腺影像embedding。

4.根据权利要求1所述的基于多模态的前列腺癌与增生预测系统，其特征在于，

所述3DUNET分割模型包括：

输入层，输入前列腺3D图像；

所述3DUNET分割模型采用加权softmax损失函数。

5.根据权利要求1所述的基于多模态的前列腺癌与增生预测系统，其特征在于，所述随机森林的模型超参数为n_estimators=100,criterion=gini,max_depth=None,random_state=42；所述XGBoost的模型超参数为learing_rate=0.1，n_estimators =100，max_depth=6；所述朴素贝叶斯的模型超参数为var_smoothing=1e-9；所述k最近邻的模型超参数为neighbors=2,weights=uniform,leaf_size=30；所述支持向量机的模型超参数为C=1.0, kernel=rbf, degree=3, gamma=auto, coef0=0.0；所述逻辑回归的模型超参数为penalty=l2,tol=1e-4,c=1.0,intercept_scaling=1；所述决策树的模型超参数为learing_rate=0.1,n_estimators =100，max_depth=6,min_samples_leaf=1；所述adaboost的模型超参数为learing_rate=0.1,n_estimators =100，max_depth=6,min_samples_leaf=1。

6.一种基于多模态的前列腺癌与增生预测系统的构建方法，其特征在于，包括：

7.根据权利要求6所述的基于多模态的前列腺癌与增生预测系统的构建方法，其特征在于，所述临床数据包括年龄、体质量指数、游离PSA、总PSA、游离PSA/总PSA、血清白蛋白、三酰甘油、肌酸激酶、肌酸激酶同工酶、低密度脂蛋白胆固醇、载脂蛋白A1、载脂蛋白B、氯化物、无机磷、钙和游离钙。

8.根据权利要求6所述的基于多模态的前列腺癌与增生预测系统的构建方法，其特征在于，所述将标注后的CT影像经VIT算法模型处理后得出患者的前列腺影像embedding包括：

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求6-8中任一项所述构建方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求6-8中任一项所述构建方法的步骤。