CN113628751A

CN113628751A - 胃癌预后预测方法、装置及电子设备

Info

Publication number: CN113628751A
Application number: CN202110817212.9A
Authority: CN
Inventors: 赵群; 刘洋
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2021-11-09

Abstract

本发明提供了一种胃癌预后预测方法，该方法包括：获取待处理对象的原始基础数据；对该原始基础数据进行预处理，得到该待处理对象的用于胃癌预后预测的预处理数据；将该预处理数据输入预先训练好的预测模型中，输出该待处理对象的指标数据；该指标数据用于指示将该预处理数据由分散变量转化为等级变量后的等级；基于该指标数据，生成该待处理对象的胃癌预后的预测结果。本发明实施例的目的在于提供一种胃癌预后预测方法、装置及电子设备，以提供一种针对具体患者的、胃癌预后预测准确度更高的胃癌预后预测方法。

Description

胃癌预后预测方法、装置及电子设备

技术领域

本发明涉及医学领域，尤其是涉及一种胃癌预后预测方法、装置及电子设备。

背景技术

胃癌是最常见的消化道恶性肿瘤，胃癌的形态学与分子特征复杂，具有高度异质性，严重影响进展期患者的疗效和生存。有越来越多的证据表明，癌症特别是胃癌是一种高度复杂、渐变及多样性的疾病，患者可能罹患同一种癌症，却有不同的病理分型，不同的基因分子分型，接受同一种化疗方案，疗效与预后也大相径庭。随着基因二代测序技术的飞速发展及生物信息与大数据应用在肿瘤研究中取得的重大突破，人们对肿瘤异质性了解的更加深刻，并提出了新的以个体化医疗为基础的“(precision medicine，精准医学)”的医疗模式。该模式按照传统的症状和体征以及疾病的分子分型对疾病进行分类，从分子层面找到精准药物及精准医疗策略，最终目的是为了实现对特种疾病的特定患者进行个性化的精准治疗。这种以基因检测为基础、个体化用药为核心，“量体裁药”式的新模式将最大程度地减少临床用药不当带来的副作用，从而实现治疗效果最大化以及医疗费用最低化。

传统的胃癌临床预后研究，仅通过收集胃癌患者的一般及临床病理特征资料，并观察其近期疗效及远期预后，其是基于统计学方法寻找影响因素，然而，这种仅仅是通过统计学的方式对胃癌患者进行预后处理分析的方式，其得到只是大部分患者的统计结果，并不能准确的对具体患者进行预后分析处理。

发明内容

有鉴于此，本发明的目的在于提供一种胃癌预后预测方法、装置及电子设备，以提供针对具体患者的、胃癌预后预测准确性更高的胃癌预后预测方法。

第一方面，本发明实施例提供了一种方法胃癌预后预测方法，包括：获取待处理对象的原始基础数据；对该原始基础数据进行预处理，得到该待处理对象的用于胃癌预后预测的预处理数据；将该预处理数据输入预先训练好的预测模型中，输出该待处理对象的指标数据；该指标数据用于指示将该预处理数据由分散变量转化为等级变量后的等级；基于该指标数据，生成该待处理对象的胃癌预后的预测结果。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，该对该原始基础数据进行预处理，得到该待处理对象的用于胃癌预后预测的预处理数据的步骤，包括：对该原始基础数据进行空值验证，确定出数据完整的第一数据；对该第一数据进行数据格式验证，确定出数据格式正确的第二数据；对该第二数据进行去重处理，得到去重后的第三数据；对该第三数据进行标准化处理，得到该待处理对象的用于胃癌预后预测的预处理数据。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第二种可能的实施方式，其中，对该第三数据进行标准化处理，得到该待处理对象的用于胃癌预后预测的预处理数据的步骤，包括：获取预设的医疗术语标准化处理模板；基于该预设的医疗术语标准化处理模板，对该第三数据进行标准化转换，得到该待处理对象的用于胃癌预后预测的预处理数据。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，该原始基础数据包括该待处理对象的用药数据和临床检测数据，该对该原始基础数据进行预处理，得到该待处理对象的用于胃癌预后预测的预处理数据的步骤包括：根据该用药数据，得到药效功能数据；根据该临床检测数据，得到该待处理对象的患病类型数据；将该药效功能数据和该患病类型数据确定为该待处理对象的用于胃癌预后预测的预处理数据。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，该预处理数据包括：该待处理对象的年纪数据、肿瘤分期数据、肿瘤体积数据、表皮生长因子受体状态数据、免疫抑制分子数据、表观遗传学数据以及分子分型状态数据中的至少一种。

结合第一方面，本发明实施例提供了第一方面的第五种可能的实施方式，其中，该获取待处理对象的原始基础数据的步骤，包括：获取该待处理对象的标识信息；基于该标识信息，从预设医疗系统查找该待处理对象的检查数据；根据查找到的该待处理对象的检查数据，确定该待处理对象的原始基础数据。

结合第一方面，本发明实施例提供了第一方面的第六种可能的实施方式，其中，该预先训练好的预测模型的构建步骤，包括：获取胃癌预后训练集数据和胃癌预后验证集数据；构建初始预测模型；基于该胃癌预后训练集数据对该初始预测模型进行训练，生成对应的训练结果数据；根据该训练结果数据，输出该初始预测模型的模型损失；基于该模型损失对该初始预测模型进行更新，并对更新后的该初始预测模型进行迭代训练，得到中间预测模型；基于该胃癌预后验证集数据，对该中间预测模型进行验证，得到该预先训练好的预测模型。

第二方面，本发明实施例还提供了一种胃癌预后预测装置，其中，该装置包括：数据接收模块，用于获取待处理对象的原始基础数据；数据处理模块，用于对该原始基础数据进行预处理，得到该待处理对象的用于胃癌预后预测的预处理数据；数据转化模块，用于将该预处理数据输入预先训练好的预测模型中，输出该待处理对象的指标数据；该指标数据用于指示将该预处理数据由分散变量转化为等级变量后的等级；数据预测模块，用于基于该指标数据，生成该待处理对象的胃癌预后的预测结果。

第三方面，本发明实施例还提供了一种电子设备，其中，该电子设备包括处理器和存储器，该存储器存储有能够被该处理器执行的计算机可执行指令，该处理器执行该计算机可执行指令以实现第一方面至第一方面的第六种可能的实施方式中任一项该的胃癌预后预测方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现第一方面至第一方面的第六种可能的实施方式中任一项该的方法的步骤。

本发明实施例带来了以下有益效果：

本发明实施例提供的胃癌预后预测方法、装置及电子设备，该胃癌预后预测方法通过获取待处理对象的原始基础数据；对该原始基础数据进行预处理，得到该待处理对象的用于胃癌预后预测的预处理数据；将该预处理数据输入预先训练好的预测模型中，输出该待处理对象的指标数据；该指标数据用于指示将该预处理数据由分散变量转化为等级变量后的等级；基于该指标数据，生成该待处理对象的胃癌预后的预测结果。该方法通过对患者的原始基础数据进行数据挖掘及机器学习，生成基于数据挖掘技术的预测模型，通过该预测模型生成的该待处理对象的胃癌预后的预测结果，该方法不但可以针对各个患者进行预后分析处理，而且还提高了胃癌预后预测的准确程度。

本实施例公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种胃癌预后预测方法使用场景示意图；

图2为本发明实施例提供的一种胃癌预后预测方法流程示意图；

图3为本发明实施例提供的另一种胃癌预后预测方法流程示意图；

图4为本发明实施例提供的一种检查数据获取方法示意图；

图5为本发明实施例提供的另一种检查数据获取方法示意图；

图6为本发明实施例提供的一种数据预处理方法示意图；

图7为本发明实施例提供的一种用药数据预处理流程示意图；

图8为本发明实施例提供的一种临床检测数据预处理流程示意图；

图9为本发明实施例提供的一种胃癌预后预测系统搭建流程示意图；

图10为本发明实施例提供的一种胃癌预后预测装置示意图；

图11为本发明实施例提供的一种电子设备的结构示意图。

图标：12-终端；14-服务器；101-数据接收模块；102-数据处理模块；103-数据转化模块；104-数据预测模块；111-存储器；112-处理器；113-总线；114-通信接口。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

传统的胃癌临床预后研究，仅通过收集胃癌患者的一般及临床病理特征资料，并观察其近期疗效及远期预后，其是基于统计学方法寻找影响因素，然而，这种仅仅是通过统计学的方式对胃癌患者进行预后处理分析的方式，其得到只是大部分患者的统计结果，并不能准确的对各个患者进行预后分析处理。

基于此，本发明实施例提供了一种胃癌预后预测方法、装置及电子设备，该技术可以缓解上述技术问题，不但可以针对各个患者进行预后分析处理，而且提高了胃癌预后预测的准确程度。为便于对本实施例进行理解，首先对本发明实施例所公开的一种胃癌预后预测方法进行详细介绍。

实施例1

如图1所示，为本发明实施例提供的一种胃癌预后预测方法使用场景示意图，如图1所见，终端12通过网络与服务器14进行通信。终端12可以采集待处理对象的原始基础数据，并存储至数据库中。服务器14可以从各终端对应的数据库中获取待处理对象的原始基础数据，并对原始基础数据进行预处理，得到用于胃癌预后预测的预处理数据。

进一步，服务器14可以将该预处理数据输入预先训练好的预测模型中，输出该待处理对象的指标数据，基于该指标数据，生成还待处理对象的胃癌预后的预测结果。其中，该指标数据用于指示将该预处理数据由分散变量转化为等级变量后的等级。

其中，终端12可以是各种医疗系统所对应的终端，可以但不限于是各种类型的个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器14可以是独立的服务器或者是多个服务器集群。

在图1的基础上，图2为本发明实施例提供的一种胃癌预后预测方法流程示意图，由图2所见，该方法包括以下步骤：

步骤S201:获取待处理对象的原始基础数据。

在本实施例中，服务器通过终端获取待处理对象的原始基础数据，其中该原始基础数据可以包括待处对象的个人信息数据及待处理对象的医疗数据。

在实际操作中，上述个人信息数据可以包括但不限于该待处理对象的性别、出生日期、婚姻状况、居住信息、职业信息、身份证号码、民族、国籍、受教育水平等信息数据；上述待处理对象的医疗数据可以包括但不限于该待处理对象的门诊登记数据、门诊诊断数据、门诊处方数据、门诊费用数据、化验数据、检查报告数据、病历信息数据、住院登记数据、住院诊断数据、住院医嘱数据、住院费用数据、手术信息数据、体征记录数据、化验报告数据以及检查报告数据。

步骤S202:对该原始基础数据进行预处理，得到该待处理对象的用于胃癌预后预测的预处理数据。

在本实施例中，上述原始基础数据的数据类型可以包括但不限于图像表单数据、文档文字数据、音视频数据等。其中，上述图像表单数据、文档文字数据、音视频数据的格式可以不同。

服务器在获取到的原始基础数据后，对该原始基础数据进行预处理，该预处理的方式包括但不限于数据格式的预处理、数据类型的预处理以及数据标准性的预处理，使该待处理对象的预处理数据可以用于胃癌预后预测。

在实际操作中，还可以对该原始基础数据进行数据清洗，得到该待处理对象的用于胃癌预后预测的预处理数据。其中，数据清洗原理主要是利用有关技术如数理统计、数据挖掘或预定义的清理规则将不满足数据质量要求的数据转化为满足数据质量要求的数据。

步骤S203:将该预处理数据输入预先训练好的预测模型中，输出该待处理对象的指标数据；该指标数据用于指示将该预处理数据由分散变量转化为等级变量后的等级。

进一步的，上述预测模型基于算法建立，该算法包括但不限于C5.0决策树、贝叶斯理论网络、多层感知神经网络和机器学习等，以及上述算法的融合算法。服务器可以基于患者的数据，如一般信息以及病理状态等，结合人源肿瘤异种移植模型(Patient-Derivedtumor Xenograft，PDX)验证结果，应用随机森林比较影响胃癌患者生存状态的因素重要性，结合不同模型特性，对胃癌分子分型和化疗方案选择影响胃癌患者预后的危险因素构建分析数据库及预测模型。

此外，服务器还可以根据该预测模型，进行回归临床分析，验证各种预测因子，包括影像分期、病理分期、分子分型和化疗标志物等。

在本实施例中，原始基础数据可以是离散变量数据，服务器基于该预先训练好的预测模型进行数据挖掘，并按该原始基础数据的区间进行划分，输出该待处理对象的指标数据，其中，该指标数据用于指示将该预处理数据由分散变量转化为等级变量后的等级。

具体的，其中，分散变量通常是以整数数位取值的变量。例如：待处理对象的年龄数据、待处理对象的病理分期数据等；其中，等级变量通常是按照数据的等级将分散数据通过程度大小进行分级后的数据；其中，等级是表示将分散变量划分为等级变量后的程度的数值。

例如：输入预测模型的待处理对象的年龄数据可以是35，则其对应的指标数据可以是4，如果输入的年龄数据为20，则其对应的指标数据可以是2等。

在其中一种实施方式中，该预测模型为logist(P)＝-34.033+0.050X1+0.415X2+0.498X3+0.316X4+1.696X5+0.031X6+0.039X7+1.019X8+1.953X9-1.863X10+2.665X11。其中，X1为待处理对象的年龄数据、X2为肿瘤分期(Tumor Node Metastasis，TNM)、X3表示肿瘤体积数据、X4表示表皮生长因子受体状态数据(Her2状态)、X5表示免疫抑制分子数据(X5表示PD-1，程序性死亡受体1，X6表示PDL1，细胞程序性死亡-配体1)、X7表示是否接受手术、X8表示是否接受化疗、X9表示癌胚抗原(carcinoembryonic antigen，CEA)水平数据、X10表示糖类抗原199(Carbohydrate antigen199，CA199)水平数据、X11表示Lauren(Lauren，罗伦)组织分型数据。

步骤S204：基于该指标数据，生成该待处理对象的胃癌预后的预测结果。

在本实施例中，对于各项指标数据，服务器均通过预测模型生成其对应的指标数据，并基于该各项指标数据，生成对应的胃癌预后的预测数据。其中，该胃癌预后的预测数据包括该待处理对象的预后用药组合数据、化疗方案及其他胃癌预后预测数据。

本发明实施例提供的胃癌预后预测方法，该方法包括：获取待处理对象的原始基础数据；对该原始基础数据进行预处理，得到该待处理对象的用于胃癌预后预测的预处理数据；将该预处理数据输入预先训练好的预测模型中，输出该待处理对象的指标数据；该指标数据用于指示将该预处理数据由分散变量转化为等级变量后的等级；基于该指标数据，生成该待处理对象的胃癌预后的预测结果。该方法通过对患者的原始基础数据进行数据挖掘及机器学习，生成基于数据挖掘技术的预测模型，通过该预测模型生成的该待处理对象的胃癌预后的预测结果，该方法不但可以针对各个患者进行预后分析处理，而且还提高了胃癌预后预测的准确程度。

实施例2

在图1所示方法的基础上，本发明还提供另一种胃癌预后预测方法，如图3所示，图3为本发明实施例提供的另一种胃癌预后预测方法流程示意图。

步骤S301：获取待处理对象的原始基础数据。

在实际操作中，上述原始基础数据可以包括但不限于疾病诊断数据、处方数据、医嘱数据以及其他医学诊断数据。

在其中一种实施方式中，通过下述步骤A1-A3获取该待处理对象的原始基础数据：

步骤A1：获取该待处理对象的标识信息。其中，标识信息是指示待处理对象唯一性的标识，可以包括但不限于待处理对象的患者ID、个人社保编号或者是身份证号等标识。

步骤A2：基于该标识信息，从预设医疗系统查找该待处理对象的检查数据。其中，上述预设的医疗系统的数量可以是多个，为了便于理解，图4为本实施例提供的一种检查数据获取方法示意图。由图4可见，该预设医疗系统可以包括但不限于医院信息系统(Hospital Information System，HIS)，实验室信息管理系统(Laboratory InformationManagement System，LIS)，影像归档和通信系统(Picture Archiving and CommunicationSystems，PACS)，电子病历(Electronic Medical Record，EMR)系统等，服务器可以基于对象标识，通过医院ESB(Enterprise Service Bus，企业服务总线)消息总线或者ETL(Extract-Transform-Load，数据仓库技术)数据监控系统，从各医疗系统获取待处理对象的检查数据，存储指临床数据中心(SV CDR)中，并进行处理，例如，通过医学术语词典、知识库或者是自我学习(机器学习)等，输出对应的数据，包括:人口学特征、区域疾病谱、疾病发展历程、患病就医模式、疾病诊疗历程、医疗诊治行为、医疗支出和医疗资源分布等数据及其挖掘下的应用和分析报告。在图4的基础上，图5为本发明实施例提供的另一种检查数据获取方法示意图。由图5可见，通过HIS、LIS、PACS和EMR获取检查数据，然后将该检查数据进行数据的克隆然后中转到数据库然后进行数据清洗最后处理后的检查数据进入标准化大数据系统数据库。其中，服务器还可以通过WEB数据监控系统进行全面监控。具体地，服务器可以进行数据监控以及异常处理监控。其中，数据监控包括：远程控制、查看运行日志、查看医院信息、查看/修改配置信息以及进行ETL定时启动等。其中，ETL数据监控系统可以实时对该检测数据进行检测和异常处理。上述数据监控包括：运行状态全程动态监控和运行日志即时获取；上述异常处理包括：异常状态等待模式和异常检测智能回复。

步骤A3：根据查找到的该待处理对象的检查数据，确定该待处理对象的原始基础数据。

步骤S302:对该原始基础数据进行空值验证，确定出数据完整的第一数据。

在本实施例中，空值是结构化查询语言中使用的特殊标记，是中对数属性未知或缺失的一种标识，用于指示数据库中不据值。通过对该原始基础数据进行空值验证，可以判断该原始基础数据为完整数据或者是残缺数据。例如：该待处理对象的用户信息是否完整以及疾病诊断的诊断报告、音视频检查报告是否完整等。

进一步的，对于残缺数据，服务器经过上述空值验证，还可以请求重新获取该待处理对象的原始基础数据。

步骤S303：对该第一数据进行数据格式验证，确定出数据格式正确的第二数据。

在本实施例中，当确定出数据完整的第一数据后，服务器可以对该第一数据的格式进行验证，并确认出格式正确的第二数据。例如：对于该第一数据中的检测报告，应该为TXT或者是Word格式的数据，而对于CT数据或者是磁共振等数据，其应当是图像数据或者是影像数据，从而确定出格式正确的第二数据。

步骤S304：对该第二数据进行去重处理，得到去重后的第三数据。

在本实施例中，当确认出格式正确的第二数据后，服务器对该第二数据进行去重处理，该去重处理也就是去除重复的数据，以此减少数据的处理量，提升数据处理的效率，最后得到去重后的第三数据。

步骤S305：对该第三数据进行标准化处理，得到该待处理对象的用于胃癌预后预测的预处理数据。

在本实施例中，对该第三数据进行标准化处理，通过下述步骤a1～a2得到该待处理对象的用于胃癌预后预测的预处理数据。

步骤a1:获取预设的医疗术语标准化处理模板。

具体的，医疗术语标准化处理模板是指用于对医疗术语进行标准化转换的模板文件。

步骤a2:基于该预设的医疗术语标准化处理模板，对该第三数据进行标准化转换，得到该待处理对象的用于胃癌预后预测的预处理数据。

在实际操作中，同一个药的命名方式有很多，在药品名称里面附加有品规信息或医保信息，服务器可以将其统一标准到CFDA(China Food and Drug Administration，家食品药品监督管理总局)发表的药品目录中，统一命名为CFDA目录名称，在CFDA的目录应用的同时，还将第三待处理数据以解剖学、药理学、化学等的药品进行分类。

在本实施例中，医疗术语标准化处理模板可以包括但不限于国际疾病分类(international Classification of diseases，ICD)ICD-10、手术与操作ICD9CM3、ATC(Anatomical Therapeutic Chemical，药物的解剖学、治疗学及化学分类法)分类等。

在其中一个实施例中，图6为本实施例提供的一种数据预处理方法示意图，由图6所见，还可以对疾病诊断数据、处方数据、医嘱数据以及其他医学诊断数据进行上述步骤S302～S305的数据预处理或进行数据清洗，得到该待处理对象的用于胃癌预后预测的预处理数据，最后将该预处理数据上传至大数据平台。

在其中一个实施例中，预处理数据可以包括但不限于待处理对象的年龄数据、肿瘤分期数据、肿瘤体积数据、表皮生长因子受体状态数据、免疫抑制分子数据、表观遗传学数据以及分子分型状态数据中的其中至少一种。

步骤S306：将该预处理数据输入预先训练好的预测模型中，输出该待处理对象的指标数据；该指标数据用于指示将该预处理数据由分散变量转化为等级变量后的等级。

这里，将该预处理数据由分散变量转化为等级变量的过程运用了数据处理的统计学方法。例如，按照数据的数值划分等级区间，将预处理数据由分散变量由对应的等级确定为指标数据。

在其中一个实施例中，通过下述步骤B1～B6构建预测模型，并生成预先训练好的预测模型：

步骤B1：获取胃癌预后训练集数据和胃癌预后验证集数据。

具体的，服务器可以获取500例患者的样品数据，将其按照比例分成胃癌预后训练集数据和胃癌预后验证集数据。

步骤B2：构建初始预测模型。

步骤B3：基于该胃癌预后训练集数据对该初始预测模型进行训练，生成对应的训练结果数据。

步骤B4：根据该训练结果数据，输出该初始预测模型的模型损失。

这里，服务器通过交叉熵损失函数，根据训练结果以及输入的胃癌预后训练集数据，确定初始预测模型的模型损失。

步骤B5：基于该模型损失对该初始预测模型进行更新，并对更新后的该初始预测模型进行迭代训练，得到中间预测模型。

在实际的操作中，服务器可以获取更多患者的样品数据，以扩充胃癌预后训练集数据，并且通过上述步骤B2～B4，不断输出该初始预测模型的模型损失，然后基于该模型损失对该初始预测模型进行更新，随着数据量的不断积累，实现自动学习和迭代，从而获得对胃癌预后预测能力更强的中间预测模型。

步骤B6：基于该胃癌预后验证集数据，对该中间预测模型进行验证，得到该预先训练好的预测模型。

具体的，胃癌预后验证集数据用于对中间预测模型进行调参，从而进一步优化训练好的预测模型。在实际的操作中，服务器可以获取更多患者的样品数据，以扩充胃癌预后验证集数据，通过大量胃癌预后验证集数据对间预测模型进行验证，进一步优化上述中间预测模型，从而得到训练好的预测模型。

步骤S307：基于该指标数据，生成该待处理对象的胃癌预后的预测结果。

在另一种可能的实施方式中，在图3所示癌预后预测方法的基础上，本发明还提供另一种胃癌预后预测方法，包括下述步骤S1101～S1106：

步骤S1101：获取待处理对象的原始基础数据。其中，该原始基础数据包括该待处理对象的用药数据和临床检测数据。

具体的，该用药数据也可以是指获取到的处方数据，可以包括具体的用药信息。

步骤S1102：根据该用药数据，得到药效功能数据。

步骤S1103：根据该临床检测数据，得到该待处理对象的患病类型数据。

步骤S1104：将该药效功能数据和该患病类型数据确定为该待处理对象的用于胃癌预后预测的预处理数据。

为了便于理解，图7为本实施例提供的一种用药数据预处理流程示意图，由图7所见，“(60片)(原研)格列齐特缓释片”、“(F)格列齐特缓释片(乙自选)”和“(F)格列齐特缓释片(乙省选)”都被处理为“格列特缓释片”；“(J)格列吡嗪分散片B”被处理为“格列吡嗪分散片”；“(J)格列吡片B”被处理为“格列吡片”；“(SJ)格列齐特缓释胶囊”被处理为“格列齐特缓释胶囊”；“(SJ)格列齐特缓释片(B)”被处理为“格列齐特缓释片”。进一步的，将上述“格列特缓释片”、“格列吡嗪分散片”、“格列吡片”、“格列齐特缓释胶囊”、“格列齐特缓释片”均处理为代码“A10H0”，对应表示为“降糖药”。

进一步的，图8为本实施例提供的一种临床检测数据预处理流程示意图，由图8所见，将“头晕待查；糖尿病”、“0252619糖尿病”、“02型糖尿病”、“0糖尿病1乏力查因2糖尿病”预处理为“I型糖尿病E10.900；I型糖尿病白内障E10.302+；I型糖尿病伴神经并发症E10.400；I型糖尿病伴多并发症E10.700”，然后将上述“I型糖尿病E10.900；I型糖尿病白内障E10.302+；I型糖尿病伴神经并发症E10.400；I型糖尿病伴多并发症E10.700”预处理为“E10糖尿病”；将“眩晕待查；高血压病”、“停经待查；高血压病”、“眩晕待查；高血压病3级”和“恶心查因；高血压病”预处理为“高血压I10.X02；高血压I I10.X03；高血压II 10.X04；高血压III 10.X05；高血压危象I 10.X06”，然后将上述“高血压I10.X02；高血压II10.X03；高血压II 10.X04；高血压III 10.X05；高血压危象I 10.X06”处理为“I10高血压”。

步骤S1105：将该预处理数据输入预先训练好的预测模型中，输出该待处理对象的指标数据；该指标数据用于指示将该预处理数据由分散变量转化为等级变量后的等级。

步骤S1106：基于该指标数据，生成该待处理对象的胃癌预后的预测结果。其中，该胃癌预后的预测数据包括该待处理对象的预后用药组合数据、化疗方案及其他胃癌预后预测数据。

为了便于理解，图9为本发明实施例提供的一种胃癌预后预测系统搭建流程示意图。由图9所见，第一部分，服务器可以建立数据输入模块，即数据库，服务器可以收集患者的一般信息并检测现有患者的病理状态，进一步检查患者的不同分子分型特点，其中ACRG表示分子分型状态数据。然后将100例临床样本数据分为管理信息系统、MSS/EMT型、MSS/TP53+型和MSS/TP53-型；第二部分，服务器构建PDX模型，根据C5.0决策树、贝叶斯理论网络、多层感知神经网络和机器学习等算法建立预测模型，其中还进行如下表现遗传学相关检查：全基因组简化甲基化测序(Reduced representation bisulfite sequencing，RRBS)、mRNAm6A甲基化测序(MeRIP-seq)、组蛋白乙酰化相关染色质免疫共沉淀测序(ChIP-seq)、组蛋白甲基化相关染色质免疫共沉淀测序(ChIP-seq)、转录组测序(RNA-seq)、DIA(Data independent acquisition)蛋白质组学检测，然后将该患者的病理状态区分为敏感和不敏感；第三部分，服务器可以根据胃癌预后预测模型，进行回归临床分析，验证各种预测因子，包括影像分期、病理分期、分子分型和化疗标志物等。具体的，首先，通过Cox比例风险回模型进行多因素分析之后，利用R软件绘制列线图，每位胃癌患者可通过列线图预测出生存概率，再绘制校准曲线评估列线图的精准度。其中，Cox比例风险回模型也称Cox回归模型，是英国统计学家D.R.Cox于1972年提出的用于肿瘤和其他慢性疾病的预后分析，队列研究的病因探索模型。其次，通过收集分析患者临床资料与随访数据，结合PDX模型验证结果，对胃癌分子分型和化疗方案选择影响胃癌患者预后的危险因素进行分析数据库及建立预后预测模型。同时，结合体外细胞和体内动物模型进行关键性调控因子的功能和作用机制验证和研究。最后，以胃癌细胞和PDX及CDX(cell-line-derived xenograft)动物为研究模型，验证关键调控因子的生物学和影响胃癌化疗敏感性的功能；结合多种分子生物学技术和手段深入研究关键性因子通过表观遗传调控影响胃癌化疗敏感性的分子机制。进而通过R软件的生存(survival)和均方根(rms)两个软件包，计算列线图(Nomogram)。利用一致性指数(concordance index，C-index)衡量胃癌预后预测模型的精准度。说明决策树每个条件的产生规则及对应的生存概率。通过随机森林比较影响胃癌生存状态的因素重要性。结合不同模型特性，对分子分型和化疗方案选择影响胃癌患者预后的危险因素进行分析；第四部分，服务器基于获取到待处理对象的样本，基于预测模型，进行以100例患者样本进行的前瞻性验证，其中获取500例患者的样本按比例分成胃癌预后训练集数据和胃癌预后验证集数据，通过机器学习的手段，进行上述步骤B2～B6，验证关键调控因子、胃癌分子分型、化疗敏感性、胃癌进展与患者预后的相关性，得到胃癌预后预测结果。其中，该处理结果包括：待处理对象的胃癌预后用药组合、化疗方案及其他胃癌预后预测数据。

本发明实施例提供的胃癌预后预测方法，该方法包括：获取待处理对象的原始基础数据；对该原始基础数据进行空值验证，确定出数据完整的第一数据；对该第一数据进行数据格式验证，确定出数据格式正确的第二数据；对该第二数据进行去重处理，得到去重后的第三数据；对该第三数据进行标准化处理，得到该待处理对象的用于胃癌预后预测的预处理数据；将该预处理数据输入预先训练好的预测模型中，输出该待处理对象的指标数据；该指标数据用于指示将该预处理数据由分散变量转化为等级变量后的等级；基于该指标数据，生成该待处理对象的胃癌预后的预测结果。该方法通过对原始基础数据进行预处理，并在此基础上对患者的原始基础数据进行数据挖掘及机器学习，生成基于数据挖掘技术的预测模型，通过该预测模型生成的该待处理对象的胃癌预后的预测结果，该方法不但可以针对各个患者进行预后分析处理，而且进一步提高了胃癌预后预测的准确程度。

实施例3

本发明实施例还提供了一种胃癌预后预测装置，如图10所示，为本发明实施例提供的一种胃癌预后预测装置示意图，包括：

数据接收模块101，用于获取待处理对象的原始基础数据。

数据处理模块102，用于对该原始基础数据进行预处理，得到该待处理对象的用于胃癌预后预测的预处理数据。

数据转化模块103，用于将该预处理数据输入预先训练好的预测模型中，输出该待处理对象的指标数据；该指标数据用于指示将该预处理数据由分散变量转化为等级变量后的等级。

数据预测模块104，用于基于该指标数据，生成该待处理对象的胃癌预后的预测结果。

其中，上述数据接收模块101、数据处理模块102、数据转化模块103和数据预测模块104依次相连。

在其中一种可能的实施方式中，上述数据处理模块102还用于，对该原始基础数据进行空值验证，确定出数据完整的第一数据；对该第一数据进行数据格式验证，确定出数据格式正确的第二数据；对该第二数据进行去重处理，得到去重后的第三数据；对该第三数据进行标准化处理，得到该待处理对象的用于胃癌预后预测的预处理数据。

在其中一种可能的实施方式中，上述数据处理模块102还用于，获取预设的医疗术语标准化处理模板；基于该预设的医疗术语标准化处理模板，对该第三待处理数据进行标准化转换，得到该待处理对象的用于胃癌预后预测的预处理数据。

在其中一种可能的实施方式中，该原始基础数据包括该待处理对象的用药数据和临床检测数据，上述数据处理模块102还用于，根据该用药数据，得到药效功能数据；根据该临床检测数据，得到该待处理对象的患病类型数据；将该药效功能数据和该患病类型数据确定为该待处理对象的用于胃癌预后预测的预处理数据。

在其中一种可能的实施方式中，上述数据转化模块103还用于，将待处理对象的年纪数据、肿瘤分期数据、肿瘤体积数据、表皮生长因子受体状态数据、免疫抑制分子数据、表观遗传学数据以及分子分型状态数据中的至少一种作为预处理数据，将上述预处理数据输入预先训练好的预测模型中，输出该待处理对象的指标数据；该指标数据用于指示将该预处理数据由分散变量转化为等级变量后的等级。

在其中一种可能的实施方式中，上述数据接收模块101还用于，获取该待处理对象的标识信息；基于该标识信息，从预设医疗系统查找该待处理对象的检查数据；根据查找到的该待处理对象的检查数据，确定该待处理对象的原始基础数据。

在其中一种可能的实施方式中，数据转化模块103还用于，获取胃癌预后训练集数据和胃癌预后验证集数据；构建初始预测模型；基于该胃癌预后训练集数据对该初始预测模型进行训练，生成对应的训练结果数据；根据该训练结果数据，输出该初始预测模型的模型损失；基于该模型损失对该初始预测模型进行更新，并对更新后的该初始预测模型进行迭代训练，得到中间预测模型；基于该胃癌预后验证集数据，对该中间预测模型进行验证，得到该预先训练好的预测模型。

本发明实施例提供的胃癌预后预测装置，与上述实施例提供的胃癌预后预测方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

实施例4

本实施例提供了一种电子设备，包括处理器和存储器，该存储器存储有能够被该处理器执行的计算机可执行指令，该处理器执行该计算机可执行指令以实现胃癌预后预测方法的步骤。

本实施例提供了一种计算机可读存储介质，其中存储有计算机程序，该计算机程序被处理器执行时实现胃癌预后预测方法的步骤。

参见图11所示的一种电子设备的结构示意图，该电子设备包括：存储器111、处理器112，存储器111中存储有可在处理器112上运行的计算机程序，处理器执行计算机程序时实现上述胃癌预后预测方法提供的步骤。

如图4所示，该设备还包括：总线113和通信接口114，处理器112、通信接口114和存储器111通过总线113连接；处理器112用于执行存储器111中存储的可执行模块，例如计算机程序。

其中，存储器111可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口114(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线113可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器111用于存储程序，处理器112在接收到执行指令后，执行程序，前述本发明任一实施例揭示胃癌预后预测装置所执行的方法可以应用于处理器112中，或者由处理器112实现。处理器112可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器112中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器112可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器111，处理器112读取存储器111中的信息，结合其硬件完成上述方法的步骤。

进一步地，本发明实施例还提供了一种机器可读存储介质，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器112调用和执行时，机器可执行指令促使处理器112实现上述胃癌预后预测方法。

本发明实施例提供的电子设备和计算机可读存储介质具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

Claims

1.一种胃癌预后预测方法，其特征在于，所述方法包括：

获取待处理对象的原始基础数据；

对所述原始基础数据进行预处理，得到所述待处理对象的用于胃癌预后预测的预处理数据；

将所述预处理数据输入预先训练好的预测模型中，输出所述待处理对象的指标数据；所述指标数据用于指示将所述预处理数据由分散变量转化为等级变量后的等级；

基于所述指标数据，生成所述待处理对象的胃癌预后的预测结果。

2.根据权利要求1所述的胃癌预后预测方法，其特征在于，所述对所述原始基础数据进行预处理，得到所述待处理对象的用于胃癌预后预测的预处理数据的步骤，包括：

对所述原始基础数据进行空值验证，确定出数据完整的第一数据；

对所述第一数据进行数据格式验证，确定出数据格式正确的第二数据；

对所述第二数据进行去重处理，得到去重后的第三数据；

对所述第三数据进行标准化处理，得到所述待处理对象的用于胃癌预后预测的预处理数据。

3.根据权利要求2所述的胃癌预后预测方法，其特征在于，所述对所述第三数据进行标准化处理，得到所述待处理对象的用于胃癌预后预测的预处理数据的步骤，包括：

获取预设的医疗术语标准化处理模板；

基于所述预设的医疗术语标准化处理模板，对所述第三数据进行标准化转换，得到所述待处理对象的用于胃癌预后预测的预处理数据。

4.根据权利要求1所述的胃癌预后预测方法，其特征在于，所述原始基础数据包括所述待处理对象的用药数据和临床检测数据，所述对所述原始基础数据进行预处理，得到所述待处理对象的用于胃癌预后预测的预处理数据的步骤包括：

根据所述用药数据，得到药效功能数据；

根据所述临床检测数据，得到所述待处理对象的患病类型数据；

将所述药效功能数据和所述患病类型数据确定为所述待处理对象的用于胃癌预后预测的预处理数据。

5.根据权利要求1所述的胃癌预后预测方法，其特征在于，所述预处理数据包括：

所述待处理对象的年纪数据、肿瘤分期数据、肿瘤体积数据、表皮生长因子受体状态数据、免疫抑制分子数据、表观遗传学数据以及分子分型状态数据中的至少一种。

6.根据权利要求1所述的胃癌预后预测方法，其特征在于，所述获取待处理对象的原始基础数据的步骤，包括：

获取所述待处理对象的标识信息；

基于所述标识信息，从预设医疗系统查找所述待处理对象的检查数据；

根据查找到的所述待处理对象的检查数据，确定所述待处理对象的原始基础数据。

7.根据权利要求1所述的胃癌预后预测方法，其特征在于，所述预先训练好的预测模型的构建步骤，包括：

获取胃癌预后训练集数据和胃癌预后验证集数据；

构建初始预测模型；

基于所述胃癌预后训练集数据对所述初始预测模型进行训练，生成对应的训练结果数据；

根据所述训练结果数据，输出所述初始预测模型的模型损失；

基于所述模型损失对所述初始预测模型进行更新，并对更新后的所述初始预测模型进行迭代训练，得到中间预测模型；

基于所述胃癌预后验证集数据，对所述中间预测模型进行验证，得到所述预先训练好的预测模型。

8.一种胃癌预后预测装置，其特征在于，所述装置包括：

数据接收模块，用于获取待处理对象的原始基础数据；

数据处理模块，用于对所述原始基础数据进行预处理，得到所述待处理对象的用于胃癌预后预测的预处理数据；

数据转化模块，用于将所述预处理数据输入预先训练好的预测模型中，输出所述待处理对象的指标数据；所述指标数据用于指示将所述预处理数据由分散变量转化为等级变量后的等级；

数据预测模块，用于基于所述指标数据，生成所述待处理对象的胃癌预后的预测结果。

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机可执行指令，所述处理器执行所述计算机可执行指令以实现权利要求1至7任一项所述的胃癌预后预测方法。

10.一种计算机可读存储介质，其中存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。