CN116881725B

CN116881725B - 一种癌症预后预测模型训练装置、介质及电子设备

Info

Publication number: CN116881725B
Application number: CN202311152151.4A
Authority: CN
Inventors: 李劲松; 齐倩倩; 胡佩君; 周天舒; 田雨
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-09-07
Filing date: 2023-09-07
Publication date: 2024-01-09
Anticipated expiration: 2043-09-07
Also published as: CN116881725A

Abstract

本说明书公开了一种癌症预后预测模型训练装置、介质及电子设备，包括：第二确定模块根据第一确定模块确定出的各训练样本对应的基因表达数据以及医学图像，分别确定各训练样本对应的基因特征以及图像特征。拼接模块再将各基因特征以及各图像特征分别进行拼接，得到各多模态特征。筛选模块根据各训练样本的多模态特征，从各训练样本的图像特征的各维度中，筛选用于表征各训练样本的多模态特征的维度，将筛选出的维度对应的特征作为各训练样本的输入特征。训练模块根据各输入特征以及各标注，对待训练的癌症预后预测模型进行训练，使得后续直接根据特征权重，将对图像特征进行筛选后的特征输入癌症预后预测模型预测复发情况，提高预测准确性。

Description

一种癌症预后预测模型训练装置、介质及电子设备

技术领域

本说明书涉及计算机技术领域，尤其涉及一种癌症预后预测模型训练装置、介质及电子设备。

背景技术

随着社会的不断发展，癌症越来越受到人们的关注。癌症的本质是正常细胞的基因发生突变，致使细胞产生异常激活，并转化为恶性肿瘤的原始细胞，该原始细胞不断地分裂并传递异常基因到后代细胞中，从而形成肿瘤。

目前，一般是采用手术对癌症患者进行治疗，但是部分患者在接受手术治疗后仍有较高的复发风险。若是能够对患者治疗后的复发情况进行准确地预测，则能进行及时干预，从而提高疾病治愈率，改善患者生活质量。因此，如何训练一个癌症预后预测模型以预测患者治疗后的复发情况一个重要的问题。

基于此，本说明书提供一种癌症预后预测模型训练装置。

发明内容

本说明书提供一种癌症预后预测模型训练装置、介质及电子设备，以部分的解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种癌症预后预测模型训练装置，包括：

第一确定模块，用于确定历史上各患者的检查数据为各训练样本，其中，所述检查数据至少包括医学图像以及基因表达数据；

第二确定模块，用于针对所述各训练样本，根据该训练样本的基因表达数据，确定该训练样本的基因特征，以及根据该训练样本的医学图像，确定该训练样本的图像特征；

拼接模块，用于将该训练样本的基因特征以及该训练样本的图像特征进行拼接，得到该训练样本的多模态特征；

筛选模块，用于根据该训练样本的多模态特征，从该训练样本的图像特征的各维度中，筛选用于表征该训练样本的多模态特征的维度，将筛选出的维度对应的特征作为该训练样本的输入特征；

训练模块，用于将所述各患者治疗后的复发情况作为所述各训练样本分别对应的标注，并根据各输入特征以及各标注，对待训练的癌症预后预测模型进行训练，其中，训练完成的癌症预后预测模型用于根据待预测患者的医学图像，预测所述待预测患者的复发情况。

可选地，所述筛选模块具体用于，采用预设的维度权重分别对该训练样本的图像特征以及多模态特征进行加权，其中，所述维度权重包括图像特征的各维度分别对应的权重以及多模态特征的各维度分别对应的权重；以各加权后的图像特征与各加权后的多模态特征之间的相似度最大为目标，对所述维度权重进行优化；针对每一个训练样本，根据优化后的维度权重，对该训练样本的图像特征的各维度进行筛选，将筛选出的维度对应的特征作为该训练样本的输入特征。

可选地，所述筛选模块具体用于，根据优化后的维度权重，确定图像特征的各维度分别对应的权重；根据确定出的权重，确定权重大于预设第一阈值的维度，作为选中维度；将该训练样本中所述选中维度对应的特征作为该训练样本的输入特征。

可选地，所述筛选模块具体用于，确定该训练样本的图像特征到与该训练样本的标注不同的其他训练样本的图像特征的最近距离为第一距离，以及确定该训练样本的图像特征到与该训练样本的标注相同的其他训练样本的图像特征的最近距离为第二距离；将所述第一距离与所述第二距离的差值作为该训练样本的第一样本边距；确定该训练样本的多模态特征到与该训练样本的标注不同的其他训练样本的多模态特征的最近距离为第三距离，以及确定该训练样本的多模态特征到与该训练样本的标注相同的其他训练样本的多模态特征的最近距离为第四距离；将所述第三距离与所述第四距离的差值作为该训练样本的第二样本边距；采用预设的维度权重分别对该训练样本的图像距离以及多模态距离进行加权；以各加权后的图像距离与各加权后的多模态距离之和最大为目标，对所述维度权重进行优化；针对每一个训练样本，根据优化后的维度权重，对该训练样本的图像特征的各维度进行筛选，将筛选出的维度对应的特征作为该训练样本的输入特征。

可选地，所述第二确定模块具体用于，对该训练样本的基因表达数据进行归一化处理，得到归一化特征；采用方差选择算法，对所述归一化特征进行特征提取，确定该训练样本的基因特征。

可选地，所述第二确定模块具体用于，对该训练样本的医学图像进行分割，确定包含癌灶区域的图像；将确定出的图像输入预训练的特征提取层，确定待选特征；采用方差分析算法，对所述待选特征进行特征提取，确定该训练样本的图像特征。

可选地，所述装置还包括：

测试模块，用于将不包含基因表达数据的检查数据作为测试样本；根据所述测试样本的检查数据中包含的医学图像，确定所述测试样本的图像特征；将所述测试样本的图像特征中所述筛选出的维度对应的特征作为所述测试样本的输入特征；将所述输入特征输入训练完成的癌症预后预测模型，得到输出结果；将所述测试样本对应的患者的治疗后的复发情况作为所述测试样本的测试标注；根据所述输出结果和所述测试标注，确定所述癌症预后预测模型的测试结果。

可选地，所述装置还包括：

应用模块，用于确定待预测患者的医学图像；确定所述医学图像的图像特征；将所述医学图像的图像特征中所述筛选出的维度对应的特征作为输入特征；将所述输入特征输入训练完成的癌症预后预测模型，得到所述待预测患者治疗后的复发情况，并显示给医护人员。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述癌症预后预测模型训练装置。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述癌症预后预测模型训练装置。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

本说明书提供的癌症预后预测模型训练装置，第一确定模块先确定历史上各患者的检查数据为各训练样本。第二确定模块再针对各训练样本，根据该训练样本的基因表达数据，确定该训练样本的基因特征，以及根据该训练样本的医学图像，确定该训练样本的图像特征。拼接模块再将该训练样本的基因特征以及该训练样本的图像特征进行拼接，得到该训练样本的多模态特征。之后，筛选模块根据该训练样本的多模态特征，从该训练样本的图像特征的各维度中，筛选用于表征该训练样本的多模态特征的维度，将筛选出的维度对应的特征作为该训练样本的输入特征。训练模块再将各患者治疗后的复发情况作为各训练样本分别对应的标注，并根据各输入特征以及各标注，对待训练的癌症预后预测模型进行训练。

从上述装置中可以看出，本申请在训练癌症预后预测模型时，第二确定模块针对第一确定模块确定出的各训练样本，根据该训练样本的基因表达数据，确定该训练样本的基因特征，以及根据该训练样本的医学图像，确定该训练样本的图像特征。然后，拼接模块将该训练样本的基因特征以及该训练样本的图像特征进行拼接，得到该训练样本的多模态特征。筛选模块根据该训练样本的多模态特征，从该训练样本的图像特征的各维度中，筛选用于表征该训练样本的多模态特征的维度，将筛选出的维度对应的特征作为该训练样本的输入特征。然后，训练模块将各患者治疗后的复发情况作为各训练样本分别对应的标注，并根据各输入特征以及各标注，对待训练的癌症预后预测模型进行训练，使得后续可以直接根据患者的医学图像，通过训练完成的癌症预后预测模型，预测患者的复发情况，不需要对患者进行基因检测获得基因表达数据，降低患者检查成本。同时，输入特征是参考多模态的特征选择对图像特征进行特征选择得到的，将输入特征输入癌症预后预测模型后得到的复发情况的准确性更高。后续无需对患者进行基因检测获得基因表达数据，直接根据更新完成后的特征权重，参考多模态的特征选择对患者的医学图像的图像特征进行特征选择，并将得到的输入特征输入癌症预后预测模型预测患者的复发情况，降低患者检查成本，提高预测的准确性。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书中提供的一种癌症预后预测模型训练装置的结构示意图；

图2为本说明书中提供的一种确定多模态特征的过程示意图；

图3为本说明书中提供的一种癌症预后预测模型应用示意图；

图4为本说明书中提供的另一种癌症预后预测模型训练装置的结构示意图；

图5为本说明书提供的一种对应于图1的电子设备的结构示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书中提供的一种癌症预后预测模型训练装置的结构示意图，图1所示的装置包括第一确定模块100、第二确定模块102、拼接模块104、筛选模块106以及训练模块108。

第一确定模块100可以用于确定历史上各患者的检查数据为各训练样本，其中，所述检查数据至少包括医学图像以及基因表达数据。其中，预后预测为预测患者病情发展情况，故癌症预后预测为预测癌症患者的癌症发展情况，在本说明书中，癌症预后预测模型为预测癌症患者在治疗之后癌症发展情况，也是就预测癌症患者在治疗之后的复发情况。

在说明书中，在对癌症患者进行治疗之前，需要对癌症患者进行检查，得到检查数据。之后，医疗人员根据癌症患者的治疗前的检查数据，制定对癌症患者的治疗方案。当然，癌症患者的治疗前的检查数据仅是作为医疗人员制定治疗方案的辅助信息，并且治疗方案不仅只依据检查数据，还需要考虑到医疗人员对癌症患者进行问诊时的临床问诊信息，临床问诊信息包括癌症患者的既往病史、过敏情况以及是否存在癌症相关症状等信息。

上述对癌症患者进行治疗前的检查方式有很多种，比如基因检测、电子计算机断层扫描（Computed Tomography简称，CT）、磁共振成像(magnetic resonance imaging，简称MRI)等，故检查数据也有很多种，当采用CT或者MRI对癌症患者进行检查时，得到的检查数据为CT图像或者MRI图像。当对癌症患者进行基因检测时，得到的检查数据为基因表达数据，该基因表达数据为癌症患者的基因序列，由各基因项组成。

基于此，第一确定模块100可以确定历史上各患者的检查数据为各训练样本，其中，检查数据至少包括医学图像以及基因表达数据，医学图像为CT图像，医学图像还可以为MRI图像以及超声波图像等，本说明书不做具体限定。当然，检查数据除了医学图像以及基因表达数据之外，还可以包括医疗人员对癌症患者进行问诊时的临床问诊信息。另外，为了便于查看癌灶区域，第一确定模块100可以预先调整医学图像的窗宽和窗位，以提高医学图像的清晰度。

例如，将来自于癌症图像档案（TCIA）的107例的非小细胞肺癌患者的检查数据作为样本，其中，统计期间复发的患者为30例，未复发患者为77例。使用五折交叉验证的方式进行预后预测，将85或者86个患者的检查数据作为训练样本。另外，为了便于查看肺部区域，可以调整训练样本中的医学图像的窗宽为1400Hu，窗位为-700Hu。

第二确定模块102可以用于针对所述各训练样本，根据该训练样本的基因表达数据，确定该训练样本的基因特征，以及根据该训练样本的医学图像，确定该训练样本的图像特征。之后，拼接模块104可以用于将该训练样本的基因特征以及该训练样本的图像特征进行拼接，得到该训练样本的多模态特征。

具体的，针对每一个训练样本，第二确定模块102可以根据该训练样本的基因表达数据，确定该训练样本的基因特征，以及根据该训练样本的医学图像，确定该训练样本的图像特征。之后，拼接模块104可以将该训练样本的基因特征以及该训练样本的图像特征进行拼接，得到该训练样本的多模态特征。

在本说明书中，由于基因表达数据中的每一个基因项的量级可能不一样，并且基因项之间的量级可能相差较大，会影响后续癌症预后预测模型的训练，故如图2所示，图2为本说明书中提供的一种确定多模态特征的过程示意图，图2仅示例确定一个训练样本的多模态特征的过程。故第二确定模块102可以针对每一个训练样本，第二确定模块102可以对该训练样本的基因表达数据进行归一化处理，得到归一化特征，并作为该训练样本的基因特征。同时，将该训练样本的医学图像输入预训练的特征提取层，得到该训练样本的图像特征。之后，拼接模块104将该训练样本的基因特征以及该训练样本的图像特征进行拼接，得到该训练样本的多模态特征。其中，预训练的特征提取层可以为经数据集预训练的DenseNet121模型中的特征提取层，还可以为任意已有的用于提取医学图像特征的特征提取层，本说明书不做具体限定。

另外，由于基因表达数据是对患者进行基因检测得到的，导致通过该基因表达数据得到的基因特征中可能包含与癌症预后预测无关的特征，也就是存在不影响通过癌症预后预测模型预测出的患者治疗后的复发情况的冗余特征，故在根据该训练样本的基因表达数据，确定该训练样本的基因特征时，第二确定模块102可以对该训练样本的基因表达数据进行归一化处理，得到归一化特征，再采用方差选择算法，对归一化特征进行特征提取，确定该训练样本的基因特征。其中，方差选择算法是预先设置的算法，用于提取与癌症预后预测相关的特征。该方差选择算法是先计算归一化特征中各基因项对应的特征的方差，选择方差大于预设阈值的基因项的特征作为该训练样本的基因特征。

同时，由于医学图像中除了包含癌灶区域还包含其他部位，导致通过该医学图像得到的图像特征中包含其他与癌症预后预测无关特征，故在根据该训练样本的医学图像，确定该训练样本的图像特征时，第二确定模块102可以对医学图像进行分割，确定包含癌灶区域的图像，再将确定出的图像输入预训练的特征提取层，确定该训练样本的图像特征。

另外，虽然图像特征是通过包含癌灶区域的图像得到的，但该图像特征中也有可能包含与癌症预后预测无关的特征，故在根据该训练样本的医学图像，确定该训练样本的图像特征时，第二确定模块102可以对该训练样本的医学图像进行分割，确定包含癌灶区域的图像，再将确定出的图像输入预训练的特征提取层，得到待选特征。再采用方差分析算法，对待选特征进行特征提取，确定该训练样本的图像特征。其中，方差分析法是预先设置的算法，该方差分析法用于根据该训练样本对应的患者的治疗后的复发情况，对待选特征进行提取，确定与癌症预后预测相关的特征，作为该训练样本的图像特征。

筛选模块106可以用于根据该训练样本的多模态特征，从该训练样本的图像特征的各维度中，筛选用于表征该训练样本的多模态特征的维度，将筛选出的维度对应的特征作为该训练样本的输入特征。

由于基因检测是一种侵入性的检测，会给癌症患者带来风险，而且基因检测的费用较高，故癌症患者可能无法具备基因检测的条件，导致基因表达数据这一类型的检查数据较少，从而包含基因表达数据的训练样本也较少。故筛选模块106可以根据该训练样本的多模态特征，从该训练样本的图像特征的各维度中，筛选用于表征该训练样本的多模态特征的维度，将筛选出的维度对应的特征作为该训练样本的输入特征。其中，从图像特征的各维度中，筛选用于表征该训练样本的多模态特征的维度是为了后续在没有多模态特征，仅有图像特征时，可以根据筛选出的维度，对图像特征进行筛选得到输入特征，并且输入特征能够表征多模态特征。图像特征中包含若干维度的特征，每一个训练样本的图像特征包含的维度相同。多模态特征中也包含若干维度的特征，每一个训练样本的多模态特征包含的维度相同。

具体的，为了使用多模态特征提供的信息对图像特征的特征选择进行指导，以便后续在仅有图像特征时，对图像特征进行特征选择时可以参考多模态的特征选择，故可以通过引入非负的维度权重对多模态特征以及图像特征进行加权，使得多模态特征与图像特征更加相似，故筛选模块106可以采用预设的维度权重分别对该训练样本的图像特征以及多模态特征进行加权。然后，以各加权后的图像特征与各加权后的多模态特征之间的相似度最大为目标，对维度权重进行优化。之后，针对每一个训练样本，根据优化后的维度权重，对该训练样本的图像特征的各维度进行筛选，将筛选出的维度对应的特征作为该训练样本的输入特征。其中，维度权重包括图像特征的各维度分别对应的权重以及多模态特征的各维度分别对应的权重，且图像特征的各维度分别对应的权重以及多模态特征的各维度分别对应的权重初始时的权重均相同，可以设置为1，后续不断地更新维度权重，以使与癌症预后预测更相关的信息获得更高的权重。

由于图像特征的长度与多模态特征的长度不同，无法直接进行比较，故在对维度权重进行优化时，筛选模块106可以设置参考点，确定图像特征到参考点的距离以及多模态特征到参考点的距离，比较确定出的两个距离的相似度，以相似度最大为目标，对维度权重进行优化。其中，每一个图像特征以及每一个多模态特征的参考点是不同的，每一个图像特征的参考点均是除自身之外的其他图像特征，同理，每一个多模态特征的参考点也均是除自身之外的其他多模态特征，也就是每一个训练样本对应的参考点是不同的，每一个训练样本的图像特征的参考点均是除自身之外的其他训练样本的图像特征，每一个训练样本的多模态特征的参考点也均是除自身之外的其他训练样本的多模态特征。为了便于说明，以M个训练样本为例进行，则每一个训练样本均有M-1个参考点。

上述确定出的两个距离的相似度越高，则遵循多模态特征的特征选择过程越有意义，具体计算公式如下所示：

其中，表示图像特征，/>表示多模态特征，N为M-1，/>表示第/>个训练样本的图像特征到第N个训练样本的图像特征的/>距离，/>表示第/>个训练样本的图像特征到其他N个训练样本的图像特征的距离向量。/>表示第/>个训练样本的多模态特征到第N个训练样本的多模态特征的/>距离，/>表示第/>个训练样本的多模态特征到其他N个训练样本的多模态特征的距离向量。

当上述越小时，二者的相似性越高，则遵循多模态特征的特征选择过程越有意义。因此，基于/>个训练样本对维度权重进行优化时，可以采用下述最小化跨模态匹配误差表达式进行优化：

其中，表示/>的/>范数，/>表示由图像特征的各维度分别对应的权重组成的向量，/>表示由多模态特征的各维度分别对应的权重组成的向量，/>表示/>的转置，/>表示/>的转置，/>表示的/>范数的平方，/>表示/>个的和。

另外，为了便于计算，可以令作为变换矩阵，对上述表达式进行化简后，得到只与/>相关的表达式，具体如下：

其中，为图像特征，即/>，/>为/>与/>进行拼接后的权重向量，/>表示/>个之和。

上述在根据优化后的维度权重，对该训练样本的图像特征的各维度进行筛选，将筛选出的维度对应的特征作为该训练样本的输入特征时，筛选模块106可以根据优化后的维度权重，确定图像特征的各维度分别对应的权重，根据确定出的权重，确定权重大于预设第一阈值的维度，作为选中维度。之后，将该训练样本中选中维度对应的特征作为该训练样本的输入特征。其中，第一阈值为预先设置的数值，比如第一阈值可以设置为0.005。

例如，假设图像特征中包含四个维度的特征，多模态特征中包含五个维度的特征，第一阈值为0.2，优化后的维度权重为（0.4，0.2，0.3，0.1，0.2，0.3，0.2，0.2，0.1），其中图像特征的各维度分别对应的权重为（0.4，0.2，0.3，0.1）。筛选模块106可以根据确定出的权重，即（0.4，0.2，0.3，0.1），确定权重大于预设第一阈值的维度作为选中维度，显然，0.4、0.3大于0.2，故选中维度为第一个维度以及第三个维度。之后，将该训练样本中第一个维度以及第三个维度对应的特征作为该训练样本的输入特征。

另外，筛选模块106还可以根据优化后的维度权重，确定图像特征的各维度分别对应的权重，将确定出的权重按照权重从大到小的顺序进行排序，得到维度序列。之后，从维度序列的首位开始，确定指定数量个维度作为选中维度。之后，将该训练样本中选中维度对应的特征作为该训练样本的输入特征。其中，指定数量为预先设置的数量。

在上述以各加权后的图像特征与各加权后的多模态特征之间的相似度最大为目标，对维度权重进行优化时，筛选模块106可以以各加权后的图像特征与各加权后的多模态特征之间的相似度最大为目标，对维度权重进行优化，直到满足结束条件为止。其中，结束条件可以为连续指定次数优化得到的维度权重之间差值小于预设第二阈值，指定次数为预先设置的次数。具体的，该结束条件可以是连续指定次数中的任意两次优化得到的维度权重的差值小于第二阈值，即，/>为预设第二阈值，比如，/>可以设置为0.01，/>为较前的一次优化后得到的维度权重，/>为较后的一次优化后得到的维度权重。当然，在对维度权重进行优化过程中，可能一直未满足结束条件，也就是连续指定次数中的任意两次优化得到的维度权重的差值一直不小于第二阈值，故筛选模块106可以在每次优化时，先判断是否满足结束条件，若否，再判断优化次数是否达到预设数值。若达到预设数值，则说明对维度权重的优化结束，并把最后一次优化后的维度权重作为后续应用的优化后的维度权重，若未达到预设数值，则说明对维度权重的优化未结束，继续进行优化。该预设数值为预先设置的结束优化的次数。

上述结束条件也可以是连续指定次数中的指定两次优化得到的维度权重的差值小于第二阈值，该指定两次可以为连续指定次数中的第一次和最后一次，本说明书不做具体限定。另外，为了避免在对维度权重优化过程中由于维度权重上下波动导致的结束条件判断不准确的问题，上述结束条件可以为连续两次优化得到的维度权重的差值小于第二阈值。并且，筛选模块106是根据连续两次优化得到的维度权重，判断二者的差值是否小于第二阈值，若是，则说明优化结束，若否，继续进行优化，降低了对维度权重进行优化的时间成本。

在本说明书中，上述结束条件还可以仅为达到预设的优化次数。当对维度权重进行优化的次数达到预设的优化次数时，则说明优化完成。故筛选模块106可以以各加权后的图像特征与各加权后的多模态特征之间的相似度最大为目标，对维度权重进行优化，直到达到预设的优化次数为止。

训练模块108可以用于将所述各患者治疗后的复发情况作为所述各训练样本分别对应的标注，并根据各输入特征以及各标注，对待训练的癌症预后预测模型进行训练，其中，训练完成的癌症预后预测模型用于根据待预测患者的医学图像数据，预测所述带预测患者的复发情况。

训练模块108可以将各患者治疗后的复发情况作为各训练样本分别对应的标注，并根据各输入特征以及各标注，对待训练的癌症预后预测模型进行训练，其中，训练完成的癌症预后预测模型用于根据待预测患者的医学图像数据，预测待预测患者的复发情况。

具体的，训练模块108可以将各患者治疗后的复发情况作为各训练样本分别对应的标注。将各输入特征输入待训练的癌症预后预测模型，得到各输出结果，再以各输出结果与各标注之间的差异最小为训练目标，对待训练的癌症预后预测模型进行训练。其中，复发情况可以为患者在治疗之后是否复发，即复发情况为复发以及未复发中的一种。待训练的癌症预后预测模型可以为具有Elastic Net惩罚项的Cox比例风险模型，该Cox比例风险模型结合了Lasso惩罚项的子集选择属性与Ridge惩罚项的正则化强度，具有更好的稳定性。当然，待训练的癌症预后预测模型还可以为其他仅初始化了模型参数的待训练的模型。

从上述装置中可以看出，本申请在训练癌症预后预测模型时，第一确定模块100可以确定历史上各患者的检查数据为各训练样本。第二确定模块102可以针对各训练样本，根据该训练样本的基因表达数据，确定该训练样本的基因特征，以及根据该训练样本的医学图像，确定该训练样本的图像特征。然后，拼接模块104可以将该训练样本的基因特征以及该训练样本的图像特征进行拼接，得到该训练样本的多模态特征。之后，筛选模块106可以根据该训练样本的多模态特征，从该训练样本的图像特征的各维度中，筛选用于表征该训练样本的多模态特征的维度，将筛选出的维度对应的特征作为该训练样本的输入特征，使得多模态特征提供的信息对图像特征的特征选择进行指导，以便后续在仅有图像特征的单模态的情况下，对图像特征进行特征选择时可以参考多模态的特征选择。之后，训练模块108可以将各患者治疗后的复发情况作为各训练样本分别对应的标注，并根据各输入特征以及各标注，对待训练的癌症预后预测模型进行训练，使得后续可以直接根据患者的医学图像，通过训练完成的癌症预后预测模型，预测患者的复发情况，不需要对患者进行基因检测获得基因表达数据，降低患者的风险以及检查的成本。同时，输入癌症预后预测模型的特征是参考多模态的特征选择对图像特征进行特征选择得到的，故后续将特征输入癌症预后预测模型后得到的复发情况的准确性更高，提高了单模态的癌症预后预测的准确率。

在本说明书中，为了使得不同标注的样本之间易被区分，也就是样本之间具有很强的类可分离性，可以使用样本边距进行衡量。由于样本边距为到最邻近的不同标注的样本的距离与到最邻近的相同标注的样本的距离之差，同类的样本（即标注相同的样本）之间具有更大的相似性，故在样本空间中，当不同类别的样本（即标注不同的样本）之间的样本边距较大时，则不同类别的样本之间具有较大的差异性和可分性。当不同类别的样本（即标注不同的样本）之间的样本边距较小时，则不同类别的样本之间具有较小的差异性和可分性。

基于此，上述筛选模块106还可以确定该训练样本的图像特征到与该训练样本的标注不同的其他训练样本的图像特征的最近距离为第一距离，以及确定该训练样本的图像特征到与该训练样本的标注相同的其他训练样本的图像特征的最近距离为第二距离，再将第一距离与第二距离的差值作为该训练样本的第一样本边距。同时，确定该训练样本的多模态特征到与该训练样本的标注不同的其他训练样本的多模态特征的最近距离为第三距离，以及确定该训练样本的多模态特征到与该训练样本的标注相同的其他训练样本的多模态特征的最近距离为第四距离，再将第三距离与第四距离的差值作为该训练样本的第二样本边距。然后，采用预设的维度权重分别对该训练样本的图像距离以及多模态距离进行加权。以各加权后的图像距离与各加权后的多模态距离之和最大为目标，对维度权重进行优化。然后，针对每一个训练样本，根据优化后的维度权重，对该训练样本的图像特征的各维度进行筛选，将筛选出的维度对应的特征作为该训练样本的输入特征。

具体的，基于个训练样本对维度权重进行优化时，可以采用下述最大化样本边距表达式进行优化：

其中，表示第/>个训练样本的图像特征的样本边距，即第一样本边距，故有，/>表示与第/>个训练样本的标注不同且与第/>个训练样本在样本空间中最近的训练样本的图像特征，/>表示第/>个训练样本的图像特征到/>的距离，即第一距离。/>表示与第/>个训练样本的标注相同且与第/>个训练样本在样本空间中最近的训练样本的图像特征，/>表示第/>个训练样本的图像特征到/>的距离，即第二距离。同理，/>表示第/>个训练样本的多模态特征的样本边距，即第二样本边距，故有/>，/>表示与第/>个训练样本的标注不同且与第/>个训练样本在样本空间中最近的训练样本的多模态特征，/>表示第/>个训练样本的图像特征到的距离，即第三距离。/>表示与第/>个训练样本的标注相同且与第/>个训练样本在样本空间中最近的训练样本的多模态特征，/>表示第/>个训练样本的多模态特征到的距离，即第三距离。/>是一个单调递增函数，保证输出在0到1之间。

为了便于计算，令作为变换矩阵，/>代表/>矩阵的第/>列，对上述最大化样本边距表达式进行化简，得到只与/>相关的表达式，作为最终的最大化样本边距表达式，如下所示：

其中，是以10为底的/>的对数函数，/>(/>)表示/>的/>次方。

另外，在基于个训练样本对维度权重进行优化时，可以采用最小化跨模态匹配误差表达式和最大化样本边距表达式的和进行优化，如下所示：

对维度权重进行优化的具体过程与上述步骤S106中的内容一致，只是采用最小化跨模态匹配误差表达式和最大化样本边距表达式的和进行优化，在此不在赘述。

在本说明书中，为了降低癌症预后预测模型的复杂性，提高癌症预后预测模型的泛化能力，便于在对图像特征进行特征选择时提取到与癌症预后预测最相关的特征，还可以在上述最小化跨模态匹配误差表达式和最大化样本边距表达式的和的基础上，增加一个附加项，即，保证特征的稀疏性，因此，在基于/>个训练样本对维度权重进行优化时，可以采用下述表达式进行优化：

其中，和/>是设置的参数，比如/>可以设置为0.01，/>可以设置为0.0001。

在本说明书中，医学图像中可以包括各切片图像，该切片图像是对患者进行扫描得到的图像，故上述第二确定模块102在根据该训练样本的医学图像，确定该训练样本的图像特征时，第二确定模块102可以将各切片图像分别输入预训练的特征提取层，得到各切片特征。再将各切片特征进行最大池化处理，确定图像特征。另外，每一张切片图像中可能包含癌灶区域，也可能不包含癌灶区域。故在将各切片图像分别输入预训练的特征提取层之前，从各切片图像中，确定包含癌灶区域的各切片图像。后续再将确定出的包含癌灶区域的各切片图像分别输入预训练的特征提取层，得到各切片特征。

在本说明书中，由于基因检测具有侵入性，并且费用高，患者较少采用基因检测这一检查方式进行治疗前检查，一般采用CT、MRT等检查方式进行治疗前检查，导致包含基因表达数据的检查数据较少，包含医学图像的检查数据较多。对于这种包含基因表达数据和医学图像的检查数据，可以将该种检查数据作为训练样本，而对于这种不包含基因表达数据的检查数据，可以将该种检查数据作为测试样本。因此，在得到训练完成的癌症预后预测模型之后，还可以采用测试样本对该癌症预后预测模型进行测试，得到测试结果，再根据测试结果，确定该癌症预后预测模型预测的准确性。

基于此，癌症预后预测模型训练装置还包括测试模块110，在得到训练完成的癌症预后预测模型之后，测试模块110可以将不包含基因表达数据的检查数据作为测试样本，根据测试样本的检查数据中包含的医学图像，确定测试样本的图像特征。再将测试样本的图像特征筛选出的维度对应的特征作为测试样本的输入特征，之后，将输入特征输入训练完成的癌症预后预测模型，得到输出结果。将测试样本对应的患者的治疗后的复发情况作为测试样本的测试标注，根据输出结果和测试标注，确定癌症预后预测模型的测试结果。其中，当输出结果与测试标注一致时，说明该癌症预后预测模型预测准确，则测试结果为通过。当输出结果与测试标注不一致时，说明该癌症预后预测模型预测不准确，则测试结果为未通过。

当然，测试模块110还可以根据若干测试样本，对该癌症预后预测模型进行测试，也就是将不包含基因表达数据的各检查数据作为各测试样本，确定各测试样本的图像特征，再根据更新完成后的特征权重，对各测试样本分别对应的图像特征进行筛选，确定各测试样本分别对应的输入特征。之后，将各输入特征输入训练完成的癌症预后预测模型，得到各输出结果。之后，将各测试样本对应的患者的治疗后的复发情况作为各测试样本分别对应的测试标注，根据各输出结果和各测试标注，确定癌症预后预测模型的测试结果。其中，当输出结果与测试标注一致的概率达到阈值时，说明该癌症预后预测模型预测的准确率较高，则测试结果为通过。当输出结果与测试标注一致的概率未达到阈值时，说明该癌症预后预测模型预测的准确率较低，则测试结果为未通过。

另外，在得到各测试样本对应的各输出结果之后，测试模块110还可以根据各输出结果以及各测试标注，采用一致性指标C-Index，确定癌症预后预测模型的测试结果。

在本说明书中，癌症预后预测模型训练装置还包括应用模块112，在应用训练完成的癌症预后预测模型进行预测时，应用模块112可以确定待预测患者的医学图像，再确定医学图像的图像特征。之后，根据筛选出的维度，对图像特征进行筛选，确定输入特征。再将输入特征输入训练完成的癌症预后预测模型，得到待预测患者治疗后的复发情况，并显示给医护人员，使得后续医护人员可以根据待预测患者治疗后的复发情况，进行及时地干预，也就是将复发情况作为辅助信息，医护人员可以及时地干预。当然，复发情况仅是作为辅助信息，无法直接依据复发情况，确定患者所患的疾病以及健康情况，进而制定后续患者的治疗方案，并对患者进行治疗，制定后续患者的治疗方案以及对患者进行治疗是由医护人员进行的。具体的，如图3所示，图3为本说明书中提供的一种癌症预后预测模型应用示意图，应用模块112可以先确定待预测患者的医学图像，将医学图像输入预训练的特征提取层，得到待预测患者的图像特征。之后，将医学图像的图像特征中筛选出的维度对应的特征作为为输入特征。将输入特征输入癌症预后预测模型，得到待预测患者治疗后的复发情况。

在本说明书中，如图4所示，图4为本说明书中提供的另一种癌症预后预测模型训练装置的结构示意图，癌症预后预测模型训练装置可以包括第一确定模块100、第二确定模块102、拼接模块104、筛选模块106、训练模块108、测试模块110以及应用模块112。

在本说明书中，由于维度权重是由图像特征的各维度分别对应的权重以及多模态特征的各维度分别对应的权重组成，每一个图像特征各维度分别对应的权重是相同的。但是，一个图像特征中各维度之间的权重可能是相同也可能是不同的，故在得到优化后的维度权重之后，可以从该优化后的维度权重中，确定图像特征的各维度分别对应的权重。根据确定出权重，确定权重大于预设第一阈值的维度，作为选中维度，建立选中维度与图像特征中对应的特征之间的索引关系。后续在确定输入特征时，可以直接根据索引关系，从图像特征中确定输入特征。其中，索引关系表征选中维度与图像特征中对应的特征之间的关系，也就是根据索引关系，可以确定图像特征中哪些特征可以作为输入特征。

基于此，上述筛选模块106可以从优化后的维度权重中，确定图像特征的各维度分别对应的权重。根据确定出权重，确定权重大于预设第一阈值的维度，作为选中维度，建立选中维度与图像特征中对应的特征之间的索引关系，根据索引关系，从该训练样本的图像特征中，确定输入特征。同理，在测试或者应用过程中确定输入特征时，均可以直接根据索引关系，从相应的图像特征中，确定输入特征。

由于基因表达数据中含有与癌症相关的信息，故癌症预后预测模型训练装置在训练癌症预后预测模型中进行特征选择时，是由基因表达数据对应的基因特征以及医学图像对应的图像特征这一多模态特征引导医学图像对应的图像特征这一单模态进行特征选择。但是，在本说明书中，还可以将基因表达数据对应的基因特征替换为病理数据对应的病理特征或者临床问诊信息对应的临床特征，具体过程如上述内容，仅是将基因表达数据替换为病理数据或者临床问诊信息，基因特征替换为病理特征或者临床特征。当然，多模态特征可以不仅由基于两种数据（即基因表达数据和医学图像）得到的特征（即基因特征和图像特征）进行拼接得到，还可以由基于多种数据得到的特征进行拼接得到，比如基于基因表达数据、病理数据以及医学图像得到的基因特征、病理特征以及图像特征进行拼接得到多模态特征。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的一种癌症预后预测模型训练装置。

本说明书还提供了图5所示的一种对应于图1的电子设备的示意结构图。如图5所示，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的癌症预后预测模型训练装置。

当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（Programmable Logic Device, PLD）（例如现场可编程门阵列（Field Programmable GateArray，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（Hardware Description Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（Advanced Boolean Expression Language）、AHDL（Altera Hardware DescriptionLanguage）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（Java Hardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（RubyHardware Description Language）等，目前最普遍使用的是VHDL（Very-High-SpeedIntegrated Circuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书的实施例可提供为方法、系统、或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种癌症预后预测模型训练装置，其特征在于，包括：

2.如权利要求1所述的装置，其特征在于，所述筛选模块具体用于，采用预设的维度权重分别对该训练样本的图像特征以及多模态特征进行加权，其中，所述维度权重包括图像特征的各维度分别对应的权重以及多模态特征的各维度分别对应的权重；以各加权后的图像特征与各加权后的多模态特征之间的相似度最大为目标，对所述维度权重进行优化；针对每一个训练样本，根据优化后的维度权重，对该训练样本的图像特征的各维度进行筛选，将筛选出的维度对应的特征作为该训练样本的输入特征。

3.如权利要求2所述的装置，其特征在于，所述筛选模块具体用于，根据优化后的维度权重，确定图像特征的各维度分别对应的权重；根据确定出的权重，确定权重大于预设第一阈值的维度，作为选中维度；将该训练样本中所述选中维度对应的特征作为该训练样本的输入特征。

4.如权利要求1所述的装置，其特征在于，所述筛选模块具体用于，确定该训练样本的图像特征到与该训练样本的标注不同的其他训练样本的图像特征的最近距离为第一距离，以及确定该训练样本的图像特征到与该训练样本的标注相同的其他训练样本的图像特征的最近距离为第二距离；将所述第一距离与所述第二距离的差值作为该训练样本的第一样本边距；确定该训练样本的多模态特征到与该训练样本的标注不同的其他训练样本的多模态特征的最近距离为第三距离，以及确定该训练样本的多模态特征到与该训练样本的标注相同的其他训练样本的多模态特征的最近距离为第四距离；将所述第三距离与所述第四距离的差值作为该训练样本的第二样本边距；采用预设的维度权重分别对该训练样本的图像距离以及多模态距离进行加权；以各加权后的图像距离与各加权后的多模态距离之和最大为目标，对所述维度权重进行优化；针对每一个训练样本，根据优化后的维度权重，对该训练样本的图像特征的各维度进行筛选，将筛选出的维度对应的特征作为该训练样本的输入特征。

5.如权利要求1所述的装置，其特征在于，所述第二确定模块具体用于，对该训练样本的基因表达数据进行归一化处理，得到归一化特征；采用方差选择算法，对所述归一化特征进行特征提取，确定该训练样本的基因特征。

6.如权利要求1所述的装置，其特征在于，所述第二确定模块具体用于，对该训练样本的医学图像进行分割，确定包含癌灶区域的图像；将确定出的图像输入预训练的特征提取层，确定待选特征；采用方差分析算法，对所述待选特征进行特征提取，确定该训练样本的图像特征。

7.如权利要求1所述的装置，其特征在于，所述装置还包括：

8.如权利要求1所述的装置，其特征在于，所述装置还包括：

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1~8任一项所述的装置。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1~8任一项所述的装置。