CN111739642A

CN111739642A - 一种结直肠癌风险预测方法、系统、计算机设备及可读存储介质

Info

Publication number: CN111739642A
Application number: CN202010580401.4A
Authority: CN
Inventors: 王军一; 肖雯; 刘杰; 叶可勇; 高金龙; 王兆宝
Original assignee: Hangzhou Heyi Medical Laboratory Co ltd
Current assignee: Hangzhou Heyi Medical Laboratory Co ltd
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2020-10-02

Abstract

本申请提涉及一种结直肠癌风险预测方法、系统、计算机设备及可读存储介质。其中，所述结直肠癌风险预测方法，既考虑了传统风险因素对结直肠癌风险的影响，又考虑了遗传因素对结直肠癌风险的影响，使得最终得到的结直肠癌风险预测结果准确性高。此外，风险预测结果呈现为结直肠癌的风险等级，包括低风险等级，中风险等级和高风险等级，实现了结直肠癌风险预测的指标化，更具有直观性，便于给予防治建议。

Description

一种结直肠癌风险预测方法、系统、计算机设备及可读存储介质

【技术领域】

本发明涉及癌症风险检测技术领域，具体涉及一种结直肠癌风险预测方法、系统、计算机设备及可读存储介质。

【背景技术】

结直肠癌是常见的消化道恶性肿瘤之一，是结直肠黏膜上皮在多种致癌因素作用下发生的恶性肿瘤。由于结直肠癌具有预后差，病死率高的特点，因此早诊断、早治疗是防治结直肠癌的关键。研究显示，34.3％的早期结直肠癌患者发现于无症状自然人群。由于结直肠癌早期症状不典型，早期诊断率仅为15％，60％-70％的结直肠癌患者确诊时已为晚期，术后复发率高，因此对结直肠癌易感人群进行筛查，进行风险预测尤为重要。

目前，国内外多个研究团队已尝试对结直肠癌进行风险预测，以识别危险因素、筛选高危人群并预测发病风险，从而为不同结直肠癌风险人群提供个性化的筛查和防控方案，以有效降低结直肠癌的发病率和死亡率。

然而，传统的结直肠癌风险预测方法，仅纳入常见的传统风险因素，导致结直肠癌风险预测结果的准确性低。

【发明内容】

为解决前述问题，本发明提供了一种结直肠癌风险预测方法，对罹患结直肠癌的风险作出准确预测，以供医生参考。

为了达到上述目的，本发明采用如下技术方案：

一种结直肠癌风险预测方法，包括如下步骤：

采集原始数据；所述原始数据包括传统风险因素信息和遗传因素信息；

对原始数据进行预处理，得到待用特征集，所述待用特征集包括训练集和待测集；

建立风险评估模型，利用所述训练集对风险评估模型进行训练，训练好的风险评估模型可以对所述待测集中的样本进行结直肠癌风险预测，并输出低风险等级、中风险等级和高风险等级；

利用训练好的风险评估模型，基于所述待测集预测结果。

可选的，对原始数据进行预处理包括数据清洗、特征转换以及特征选择。

可选的，数据清洗包括如下步骤：

处理原始数据中格式错误的数据、处理原始数据中内容错误的数据和处理原始数据中逻辑错误的数据；

特征转换包括如下步骤：

将数据清洗后的原始数据转换为数值型数据、缺失值填充数据、定性特征属性亚编码数据、定量特征属性二值化数据、特征标准化与归一化数据；

特征选择包括如下步骤：

在原始数据的特征属性中，选取建立风险评估模型所需的特征属性；

构建特征属性列表，将建立风险评估模型所需的特征属性加入所述特征属性列表。

可选的，建立风险评估模型包括建立测算模型和建立结果模型，建立测算模型包括如下步骤：

采用t检验和卡方检验筛选出与结直肠癌风险显著相关的传统风险因素；

依据最小等位基因频率、连锁不平衡系数、Hardy-Weinberg遗传平衡定律、卡方检验和多因素逻辑回归筛选出与结直肠癌风险显著相关的SNP位点，并得出每一个与直肠癌风险显著相关的SNP位点的相关性权重；

根据每一个与直肠癌风险显著相关的SNP位点的相关性权重计算权重遗传风险评分，计算权重遗传风险评分的公式为：

其中，wGRS为权重遗传风险评分，i为与结直肠癌风险显著相关的SNP位点的序号，β_i为与结直肠癌风险显著相关的SNP位点对应的相关性权重，G_i为与直肠癌风险显著相关的SNP位点；

构建测算模型，测算模型的公式为：

其中，p为结直肠癌风险概率，β₀为固定系数，β₁至β_n-1为各个与结直肠癌风险显著相关的传统风险因素的相关性权重，X₁至X_n-1为各个与结直肠癌风险显著相关的传统风险因素，β_n为权重遗传风险评分的权重，X_n为权重遗传风险评分；

建立结果模型包括将结直肠癌风险概率划分为低风险等级、中风险等级和高风险等级。

可选地，所述训练集包括病例集和对照集，采用t检验和卡方检验筛选出与结直肠癌风险显著相关的传统风险因素包括：

选取预处理后的原始数据中的传统风险因素，作为预处理后的传统风险因素；

选取预处理后的传统风险因素中的连续型变量；

采用t检验分析各个连续型变量在病例集和对照集之间的分布差异，筛选出满足p-value₁＜0.05的连续型变量；

选取预处理后的传统风险因素中的分类型变量；

采用卡方检验分析各个分类型变量在病例集和对照集之间的分布差异，筛选出满足p-value₂＜0.05的分类型变量。

可选地，依据最小等位基因频率、连锁不平衡系数、Hardy-Weinberg遗传平衡定律、卡方检验和多因素逻辑回归筛选出与结直肠癌风险显著相关的SNP位点，并得出每一个与直肠癌风险显著相关的SNP位点的相关性权重，包括依次执行的下述步骤：

选取预处理后的原始数据中的SNP位点，删除在中国人群中最小等位基因频率小于0.05的SNP位点；

删除连锁不平衡系数大于0.8的SNP位点；

删除不符合Hardy-Weinberg遗传平衡定律的SNP位点；

采用卡方检验，分析各个SNP位点在病例集和对照集之间的分布差异，删除P-value₃＞0.05的SNP位点；

采用多因素逻辑回归分析算法，分析经传统风险因素校正后各个SNP位点与结直肠癌风险之间的相关性，并以P-value₄＜0.05为标准筛选出与结直肠癌风险之间显著相关的SNP位点，并计算每个与结直肠癌风险之间显著相关的SNP位点的相关性权重。

可选地，利用所述训练集对风险评估模型进行训练包括对测算模型进行训练和对结果模型进行训练，对结果模型进行训练包括对划分低风险等级、中风险等级和高风险等级的位值进行迭代。

本发明具有如下有益效果：

1、本发明所提供的技术方案，既考虑了传统风险因素对结直肠癌风险的影响，又考虑了遗传因素对结直肠癌风险的影响，使得最终得到的结直肠癌风险预测结果准确性高；

2、本发明所提供的技术方案，结果呈现为结直肠癌的风险等级，包括低风险等级，中风险等级和高风险等级，实现了结直肠癌风险预测的指标化，更具有直观性，便于给予防治建议。

相对应的，本发明还提供了一种结直肠癌风险预测装置，包括：

数据采集模块，用以采集原始数据；所述原始数据包括传统风险因素信息和遗传因素信息；

预处理模块，用以对原始数据进行预处理，得到待用特征集，所述待用特征集包括训练集和待测集；

风险评估模块，用以建立风险评估模型；

训练模块，利用所述训练集对风险评估模块的风险评估模型进行训练；训练好的风险评估模型可以对所述待测集中的样本进行结直肠癌风险预测，并输出低风险等级、中风险等级和高风险等级；

训练模块训练好风险评估模型后，风险评估模块利用训练好的风险评估模型，基于所述待测集预测结果。

本发明所提供的结直肠癌风险预测装置的有益效果，与前述结直肠癌风险预测方法的有益效果推理过程相似，在此不作赘述。

此外，本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的结直肠癌风险预测方法。

同时，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的结直肠癌风险预测方法。

本发明的这些特点和优点将会在下面的具体实施方式以及附图中进行详细的揭露。本发明最佳的实施方式或手段将结合附图来详尽表现，但并非是对本发明技术方案的限制。另外，在每个下文和附图中出现的这些特征、要素和组件是具有多个，并且为了表示方便而标记了不同的符号或数字，但均表示相同或相似构造或功能的部件。

【附图说明】

下面结合附图对本发明作进一步说明：

图1为本发明一实施例提供的结直肠癌风险预测方法的方法流程图。

【具体实施方式】

下面结合本发明实施例的附图对本发明实施例的技术方案进行解释和说明，但下述实施例仅为本发明的优选实施例，并非全部。基于实施方式中的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得其他实施例，都属于本发明的保护范围。

在本说明书中引用的“一个实施例”或“实例”或“例子”意指结合实施例本身描述的特定特征、结构或特性可被包括在本专利公开的至少一个实施例中。短语“在一个实施例中”在说明书中的各位置的出现不必都是指同一个实施例。

本申请提供了一种结直肠癌风险预测方法。所述结直肠癌风险预测方法，不限制其应用领域与应用场景。可选地，本申请提供的结直肠癌风险预测方法可以应用于结直肠癌风险评估中心、结直肠癌风险评估研究院或各个医疗机构级别的医院。

需要说明的是，本申请提供的结直肠癌风险预测方法不限制其执行主体。可选地，所述结直肠癌风险预测方法的执行主体可以是一种结直肠癌风险预测装置。

在本申请的一实施例中，所述结直肠癌风险预测方法包括如下步骤：

利用训练好的风险评估模型，基于所述待测集预测结果。

具体地，所述训练集可以包括病例集和对照集。病例集中可以包括多个样本，病例集中的样本可以均为结直肠癌患者。对照集中可以包括多个样本，对照集中的样本可以均为非结直肠癌患者。所述训练集用于风险评估模型的创建与训练。所述待测集用于实际风险预测。

原始数据可以通过数据采集模块获取。所述数据采集装置还可以与结直肠癌风险评估中心的病历数据库通信连接。所述数据采集装置获取所述病历数据库中众多样本的病历数据。病历数据包括多种不同类型的数据。所述数据采集模块可以获取与结直肠癌疑似相关的病历数据，作为所述原始数据。获取依据可以查询文献资料。

所述原始数据包括传统风险因素信息和遗传因素信息。所述传统风险因素信息包括多个传统因素。所述传统风险因素信息可以包括年龄、性别、疾病史、结直肠癌家族史、吸烟、饮酒、膳食纤维摄入、红肉及加工肉摄入。

所述遗传因素信息可以包括SNP位点数据。所述SNP位点数据为多个与结直肠癌疑似相关的SNP位点。SNP位点，又称为遗传易感位点，为了描述简洁写作SNP位点，后文不再说明。每一个SNP位点具有一个基因型信息。

本实施例中，本发明所提供的技术方案，既考虑了传统风险因素对结直肠癌风险的影响，又考虑了遗传因素对结直肠癌风险的影响，使得最终得到的结直肠癌风险预测结果准确性高。此外，本发明所提供的技术方案，结果呈现为结直肠癌的风险等级，包括低风险等级，中风险等级和高风险等级，实现了结直肠癌风险预测的指标化，更具有直观性，便于给予防治建议。

在本申请的一实施例中，对原始数据进行预处理包括数据清洗、特征转换以及特征选择。

具体地，当然预处理的方式也可以为其他任意其他种类的预处理方式。

本实施例中，通过对原始数据预处理，实现对数据的初步形式过滤与筛选。

在本申请的一实施例中，数据清洗包括：处理原始数据中格式错误的数据、处理原始数据中内容错误的数据和处理原始数据中逻辑错误的数据。

具体地，本步骤为对原始数据的形式错误纠错处理。

在本申请的一实施例中，特征转换包括：

将数据清洗后的原始数据转换为数值型数据、缺失值填充数据、定性特征属性亚编码数据、定量特征属性二值化数据、特征标准化与归一化数据。

具体地，本步骤是为了将原始数据的数据类型转化为风险评估模型可以识别并读取的数据类型，避免原始数据的遗漏。

在本申请的一实施例中，特征选择包括如下步骤：

具体地，为了避免原始数据量过大，在建立风险评估模型之前，可以通过查阅文献资料预先选取建立风险评估模型所需的特征属性。选取原则就是选取与结直肠癌疑似最相关的特征属性。

如表1和表2所示，表1和表2就是选取建立风险评估模型所需的特征属性后生成的2个特征表。以表1为例，性别，年龄，症状这些都是建立风险评估模型所需的特征属性。需要说明的是，表1和表2列举的特征属性为选取建立风险评估模型所需的部分特征属性，并非全部的特征属性，仅用于举例说明。

表1-传统风险因素特征选择表

序号	传统风险因素特征
		1	性别
2	年龄
		3	症状
4	II型糖尿病情况
		5	直系亲属肠癌家族史

表2-遗传风险因素特征选择表

编号	染色体	位置	参考等位基因	突变等位基因
					rs356219	4	90637601	G	A
rs1685748	3	155734056	C	T
					rs9535914	13	52791751	C	T
rs77235035	1	156877797	C	T
					rs2857130	6	32776414	T	A

本实施例中，通过特征选择，可以避免无意义数据进入风险评估模型。

在本申请的一实施例中，建立风险评估模型包括建立测算模型和建立结果模型，建立测算模型包括如下步骤：

构建测算模型，测算模型的公式为：

具体地，权重遗传风险评分的计算过程运用了化繁为简的方法，将多个与结直肠癌风险显著相关的SNP位点整合为一个整体，即多个与结直肠癌风险显著相关的SNP位点的集合，这样便于计算。

在本申请的一实施例中，所述训练集包括病例集和对照集，采用t检验和卡方检验筛选出与结直肠癌风险显著相关的传统风险因素包括：

选取预处理后的传统风险因素中的连续型变量；

采用t检验分析各个连续型变量在病例集和对照集之间的分布差异，筛选出满足p-value₁＜0.05的连续型变量。

具体地，所述连续型变量为有具体数值的传统风险因素，例如年龄。

在本申请的一实施例中，所述训练集包括病例集和对照集，采用t检验和卡方检验筛选出与结直肠癌风险显著相关的传统风险因素还包括：

选取预处理后的传统风险因素中的分类型变量；

具体地，所述连续型变量为没有具体数值的传统风险因素，例如性别。

在本申请的一实施例中，依据最小等位基因频率、连锁不平衡系数、Hardy-Weinberg遗传平衡定律、卡方检验和多因素逻辑回归筛选出与结直肠癌风险显著相关的SNP位点，并得出每一个与直肠癌风险显著相关的SNP位点的相关性权重，包括依次执行的下述步骤：

删除连锁不平衡系数大于0.8的SNP位点；

删除不符合Hardy-Weinberg遗传平衡定律的SNP位点；

具体的，上述数个步骤是依次按顺序执行，一步一步筛选，直至筛选出满足所有条件的与直肠癌风险显著相关的SNP位点。在算每个与结直肠癌风险之间显著相关的SNP位点的相关性权重时，可以将每一个与结直肠癌风险之间显著相关的SNP位点的P-value₄值作为该SNP位点的相关性权重。这样可以得出每一个与结直肠癌风险之间显著相关的SNP位点的相关性权重。例如，SNP位点A的P-value₄值为0.02，则SNP位点A的相关性权重也为0.02，可以用于代入后续权重遗传风险评分的计算公式中。

在本申请的一实施例中，利用所述训练集对风险评估模型进行训练包括对测算模型进行训练和对结果模型进行训练，对结果模型进行训练包括对划分低风险等级、中风险等级和高风险等级的位值进行迭代。

具体地，可以通过风险评估模型对训练集中的每一个样本进行结直肠癌风险概率的计算，将所有结直肠癌风险概率按从小到大的顺序进行排序，将排序后的前三分之一结直肠癌风险概率对应的数值范围，定义为低风险等级。将所有结直肠癌风险概率按从大到小的顺序进行排序，将排序后的后三分之一结直肠癌风险概率对应的数值范围，定义为高风险等级。将剩余结直肠癌风险概率对应的数值范围，定义为中风险等级。

本实施例中，通过将风险预测结果呈现为结直肠癌的风险等级，包括低风险等级，中风险等级和高风险等级，实现了结直肠癌风险预测的指标化，更具有直观性，便于给予防治建议。

下面展示几种实施例下的风险预测结果，以验证本申请提供的结直肠癌风险预测方法的准确性。

表3是通过本申请提供的结直肠癌风险预测方法对112个待预测样本进行预测的结果。且112个待预测样本均为已患结直肠癌的患者。

如表3所示，112个已患结直肠癌的患者通过本申请提供的结直肠癌风险预测方法进行预测后，90个为高风险样本，准确度为80.4％(90除以112)，准确度很高。

表3-结直肠癌风险预测表(示例1)

结直肠癌风险预测表可以为表4的形式。表4是通过本申请提供的结直肠癌风险预测方法对558个待预测样本进行预测的结果。且558个待预测样本均为未知是否患结直肠癌的患者。

表4-结直肠癌风险预测表(示例2)

如表4所示，558个已患结直肠癌的患者通过本申请提供的结直肠癌风险预测方法进行预测后，高风险样本为100个，低中风险样本为458个，特异性为82.1％(458除以558)，特异性很高，表明本申请提供的结直肠癌风险预测方法能够准确区分阳性患者和阴性患者。

本申请还提供了一种结直肠癌风险预测装置。

在本申请的一实施例中，所述结直肠癌风险预测装置包括：

风险评估模块，用以建立风险评估模型；

具体地，所述结直肠癌风险预测装置还可以包括存储模块。所述存储模块作为数据库保存所有数据，并实时更新。

在本申请的一实施例中，所述预处理模块对原始数据进行预处理包括数据清洗、特征转换以及特征选择。

在本申请的一实施例中，所述预处理模块对原始数据进行数据清洗包括：处理原始数据中格式错误的数据、处理原始数据中内容错误的数据和处理原始数据中逻辑错误的数据。

在本申请的一实施例中，所述预处理模块对原始数据进行特征转换包括：

在本申请的一实施例中，所述预处理模块对原始数据进行特征选择包括如下步骤：

在本申请的一实施例中，所述风险评估模块所建立的风险评估模型包括建立测算模型和建立结果模型，建立测算模型包括如下步骤：

构建测算模型，测算模型的公式为：

在本申请的一实施例中，所述训练集包括病例集和对照集，所述风险评估模块采用t检验和卡方检验筛选出与结直肠癌风险显著相关的传统风险因素包括：

选取预处理后的传统风险因素中的连续型变量；

在本申请的一实施例中，所述训练集包括病例集和对照集，所述风险评估模块采用t检验和卡方检验筛选出与结直肠癌风险显著相关的传统风险因素还包括：

选取预处理后的传统风险因素中的分类型变量；

在本申请的一实施例中，所述风险评估模块依据最小等位基因频率、连锁不平衡系数、Hardy-Weinberg遗传平衡定律、卡方检验和多因素逻辑回归筛选出与结直肠癌风险显著相关的SNP位点，并得出每一个与直肠癌风险显著相关的SNP位点的相关性权重，包括依次执行的下述步骤：

删除连锁不平衡系数大于0.8的SNP位点；

删除不符合Hardy-Weinberg遗传平衡定律的SNP位点；

在本申请的一实施例中，所述训练模块利用所述训练集对风险评估模型进行训练包括对测算模型进行训练和对结果模型进行训练，对结果模型进行训练包括对划分低风险等级、中风险等级和高风险等级的位值进行迭代。

本实施例还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现如上的任意实施例中的方法。本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。

本实施例还提供了一种可读存储介质，计算机程序可存储于所述可读取存储介质中，该计算机程序在执行时，可实现上述任意一项实施例的方法。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)以及存储器总线动态RAM(RDRAM)等。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，熟悉该本领域的技术人员应该明白本发明包括但不限于附图和上面具体实施方式中描述的内容。任何不偏离本发明的功能和结构原理的修改都将包括在权利要求书的范围中。

Claims

1.一种结直肠癌风险预测方法，其特征在于，所述结直肠癌风险预测方法包括如下步骤：

采集原始数据；所述原始数据包括传统风险因素信息和遗传因素信息；对原始数据进行预处理，得到待用特征集，所述待用特征集包括训练集和待测集；

利用训练好的风险评估模型，基于所述待测集预测结果。

2.根据权利要求1所述的结直肠癌风险预测方法，其特征在于，对原始数据进行预处理包括数据清洗、特征转换以及特征选择。

3.根据权利要求2所述的结直肠癌风险预测方法，其特征在于，数据清洗包括如下步骤：

特征转换包括如下步骤：

特征选择包括如下步骤：

4.根据权利要求1所述的结直肠癌风险预测方法，其特征在于，建立风险评估模型包括建立测算模型和建立结果模型，建立测算模型包括如下步骤：

构建测算模型，测算模型的公式为：

5.根据权利要求4所述的结直肠癌风险预测方法，其特征在于，所述训练集包括病例集和对照集，采用t检验和卡方检验筛选出与结直肠癌风险显著相关的传统风险因素包括：

选取预处理后的传统风险因素中的连续型变量；

选取预处理后的传统风险因素中的分类型变量；

6.根据权利要求5所述的结直肠癌风险预测方法，其特征在于，依据最小等位基因频率、连锁不平衡系数、Hardy-Weinberg遗传平衡定律、卡方检验和多因素逻辑回归筛选出与结直肠癌风险显著相关的SNP位点，并得出每一个与直肠癌风险显著相关的SNP位点的相关性权重，包括依次执行的下述步骤：

删除连锁不平衡系数大于0.8的SNP位点；

删除不符合Hardy-Weinberg遗传平衡定律的SNP位点；

7.根据权利要求6所述的结直肠癌风险预测方法，其特征在于，利用所述训练集对风险评估模型进行训练包括：

对测算模型进行训练和对结果模型进行训练，对结果模型进行训练包括对划分低风险等级、中风险等级和高风险等级的位值进行迭代。

8.一种结直肠癌风险预测装置，其特征在于，所述结直肠癌风险预测装置包括：

风险评估模块，用以建立风险评估模型；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的结直肠癌风险预测方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的结直肠癌风险预测方法。