CN111739642A - 一种结直肠癌风险预测方法、系统、计算机设备及可读存储介质 - Google Patents
一种结直肠癌风险预测方法、系统、计算机设备及可读存储介质 Download PDFInfo
- Publication number
- CN111739642A CN111739642A CN202010580401.4A CN202010580401A CN111739642A CN 111739642 A CN111739642 A CN 111739642A CN 202010580401 A CN202010580401 A CN 202010580401A CN 111739642 A CN111739642 A CN 111739642A
- Authority
- CN
- China
- Prior art keywords
- risk
- colorectal cancer
- data
- cancer risk
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010009944 Colon cancer Diseases 0.000 title claims abstract description 172
- 208000001333 Colorectal Neoplasms Diseases 0.000 title claims abstract description 172
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000003860 storage Methods 0.000 title claims abstract description 10
- 230000002068 genetic effect Effects 0.000 claims abstract description 48
- 238000012502 risk assessment Methods 0.000 claims description 60
- 238000012549 training Methods 0.000 claims description 54
- 238000012216 screening Methods 0.000 claims description 29
- 238000000546 chi-square test Methods 0.000 claims description 23
- 238000007781 pre-processing Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 15
- 108700028369 Alleles Proteins 0.000 claims description 14
- 238000012353 t test Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 238000009826 distribution Methods 0.000 claims description 12
- 238000007477 logistic regression Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 208000015634 Rectal Neoplasms Diseases 0.000 claims description 5
- 206010038038 rectal cancer Diseases 0.000 claims description 5
- 201000001275 rectum cancer Diseases 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000000692 Student's t-test Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000013210 evaluation model Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims 1
- 230000002265 prevention Effects 0.000 abstract description 5
- 238000005259 measurement Methods 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 201000011510 cancer Diseases 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 2
- 208000034826 Genetic Predisposition to Disease Diseases 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 235000013325 dietary fiber Nutrition 0.000 description 2
- 238000013399 early diagnosis Methods 0.000 description 2
- 238000002203 pretreatment Methods 0.000 description 2
- 235000020991 processed meat Nutrition 0.000 description 2
- 235000020989 red meat Nutrition 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000391 smoking effect Effects 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 208000005016 Intestinal Neoplasms Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 208000032023 Signs and Symptoms Diseases 0.000 description 1
- 208000006011 Stroke Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000000711 cancerogenic effect Effects 0.000 description 1
- 231100000315 carcinogenic Toxicity 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 210000000981 epithelium Anatomy 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000001035 gastrointestinal tract Anatomy 0.000 description 1
- 201000002313 intestinal cancer Diseases 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010837 poor prognosis Methods 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 208000001072 type 2 diabetes mellitus Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请提涉及一种结直肠癌风险预测方法、系统、计算机设备及可读存储介质。其中,所述结直肠癌风险预测方法,既考虑了传统风险因素对结直肠癌风险的影响,又考虑了遗传因素对结直肠癌风险的影响,使得最终得到的结直肠癌风险预测结果准确性高。此外,风险预测结果呈现为结直肠癌的风险等级,包括低风险等级,中风险等级和高风险等级,实现了结直肠癌风险预测的指标化,更具有直观性,便于给予防治建议。
Description
【技术领域】
本发明涉及癌症风险检测技术领域,具体涉及一种结直肠癌风险预测方法、系统、计算机设备及可读存储介质。
【背景技术】
结直肠癌是常见的消化道恶性肿瘤之一,是结直肠黏膜上皮在多种致癌因素作用下发生的恶性肿瘤。由于结直肠癌具有预后差,病死率高的特点,因此早诊断、早治疗是防治结直肠癌的关键。研究显示,34.3%的早期结直肠癌患者发现于无症状自然人群。由于结直肠癌早期症状不典型,早期诊断率仅为15%,60%-70%的结直肠癌患者确诊时已为晚期,术后复发率高,因此对结直肠癌易感人群进行筛查,进行风险预测尤为重要。
目前,国内外多个研究团队已尝试对结直肠癌进行风险预测,以识别危险因素、筛选高危人群并预测发病风险,从而为不同结直肠癌风险人群提供个性化的筛查和防控方案,以有效降低结直肠癌的发病率和死亡率。
然而,传统的结直肠癌风险预测方法,仅纳入常见的传统风险因素,导致结直肠癌风险预测结果的准确性低。
【发明内容】
为解决前述问题,本发明提供了一种结直肠癌风险预测方法,对罹患结直肠癌的风险作出准确预测,以供医生参考。
为了达到上述目的,本发明采用如下技术方案:
一种结直肠癌风险预测方法,包括如下步骤:
采集原始数据;所述原始数据包括传统风险因素信息和遗传因素信息;
对原始数据进行预处理,得到待用特征集,所述待用特征集包括训练集和待测集;
建立风险评估模型,利用所述训练集对风险评估模型进行训练,训练好的风险评估模型可以对所述待测集中的样本进行结直肠癌风险预测,并输出低风险等级、中风险等级和高风险等级;
利用训练好的风险评估模型,基于所述待测集预测结果。
可选的,对原始数据进行预处理包括数据清洗、特征转换以及特征选择。
可选的,数据清洗包括如下步骤:
处理原始数据中格式错误的数据、处理原始数据中内容错误的数据和处理原始数据中逻辑错误的数据;
特征转换包括如下步骤:
将数据清洗后的原始数据转换为数值型数据、缺失值填充数据、定性特征属性亚编码数据、定量特征属性二值化数据、特征标准化与归一化数据;
特征选择包括如下步骤:
在原始数据的特征属性中,选取建立风险评估模型所需的特征属性;
构建特征属性列表,将建立风险评估模型所需的特征属性加入所述特征属性列表。
可选的,建立风险评估模型包括建立测算模型和建立结果模型,建立测算模型包括如下步骤:
采用t检验和卡方检验筛选出与结直肠癌风险显著相关的传统风险因素;
依据最小等位基因频率、连锁不平衡系数、Hardy-Weinberg遗传平衡定律、卡方检验和多因素逻辑回归筛选出与结直肠癌风险显著相关的SNP位点,并得出每一个与直肠癌风险显著相关的SNP位点的相关性权重;
根据每一个与直肠癌风险显著相关的SNP位点的相关性权重计算权重遗传风险评分,计算权重遗传风险评分的公式为:
其中,wGRS为权重遗传风险评分,i为与结直肠癌风险显著相关的SNP位点的序号,βi为与结直肠癌风险显著相关的SNP位点对应的相关性权重,Gi为与直肠癌风险显著相关的SNP位点;
构建测算模型,测算模型的公式为:
其中,p为结直肠癌风险概率,β0为固定系数,β1至βn-1为各个与结直肠癌风险显著相关的传统风险因素的相关性权重,X1至Xn-1为各个与结直肠癌风险显著相关的传统风险因素,βn为权重遗传风险评分的权重,Xn为权重遗传风险评分;
建立结果模型包括将结直肠癌风险概率划分为低风险等级、中风险等级和高风险等级。
可选地,所述训练集包括病例集和对照集,采用t检验和卡方检验筛选出与结直肠癌风险显著相关的传统风险因素包括:
选取预处理后的原始数据中的传统风险因素,作为预处理后的传统风险因素;
选取预处理后的传统风险因素中的连续型变量;
采用t检验分析各个连续型变量在病例集和对照集之间的分布差异,筛选出满足p-value1<0.05的连续型变量;
选取预处理后的传统风险因素中的分类型变量;
采用卡方检验分析各个分类型变量在病例集和对照集之间的分布差异,筛选出满足p-value2<0.05的分类型变量。
可选地,依据最小等位基因频率、连锁不平衡系数、Hardy-Weinberg遗传平衡定律、卡方检验和多因素逻辑回归筛选出与结直肠癌风险显著相关的SNP位点,并得出每一个与直肠癌风险显著相关的SNP位点的相关性权重,包括依次执行的下述步骤:
选取预处理后的原始数据中的SNP位点,删除在中国人群中最小等位基因频率小于0.05的SNP位点;
删除连锁不平衡系数大于0.8的SNP位点;
删除不符合Hardy-Weinberg遗传平衡定律的SNP位点;
采用卡方检验,分析各个SNP位点在病例集和对照集之间的分布差异,删除P-value3>0.05的SNP位点;
采用多因素逻辑回归分析算法,分析经传统风险因素校正后各个SNP位点与结直肠癌风险之间的相关性,并以P-value4<0.05为标准筛选出与结直肠癌风险之间显著相关的SNP位点,并计算每个与结直肠癌风险之间显著相关的SNP位点的相关性权重。
可选地,利用所述训练集对风险评估模型进行训练包括对测算模型进行训练和对结果模型进行训练,对结果模型进行训练包括对划分低风险等级、中风险等级和高风险等级的位值进行迭代。
本发明具有如下有益效果:
1、本发明所提供的技术方案,既考虑了传统风险因素对结直肠癌风险的影响,又考虑了遗传因素对结直肠癌风险的影响,使得最终得到的结直肠癌风险预测结果准确性高;
2、本发明所提供的技术方案,结果呈现为结直肠癌的风险等级,包括低风险等级,中风险等级和高风险等级,实现了结直肠癌风险预测的指标化,更具有直观性,便于给予防治建议。
相对应的,本发明还提供了一种结直肠癌风险预测装置,包括:
数据采集模块,用以采集原始数据;所述原始数据包括传统风险因素信息和遗传因素信息;
预处理模块,用以对原始数据进行预处理,得到待用特征集,所述待用特征集包括训练集和待测集;
风险评估模块,用以建立风险评估模型;
训练模块,利用所述训练集对风险评估模块的风险评估模型进行训练;训练好的风险评估模型可以对所述待测集中的样本进行结直肠癌风险预测,并输出低风险等级、中风险等级和高风险等级;
训练模块训练好风险评估模型后,风险评估模块利用训练好的风险评估模型,基于所述待测集预测结果。
本发明所提供的结直肠癌风险预测装置的有益效果,与前述结直肠癌风险预测方法的有益效果推理过程相似,在此不作赘述。
此外,本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的结直肠癌风险预测方法。
同时,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的结直肠癌风险预测方法。
本发明的这些特点和优点将会在下面的具体实施方式以及附图中进行详细的揭露。本发明最佳的实施方式或手段将结合附图来详尽表现,但并非是对本发明技术方案的限制。另外,在每个下文和附图中出现的这些特征、要素和组件是具有多个,并且为了表示方便而标记了不同的符号或数字,但均表示相同或相似构造或功能的部件。
【附图说明】
下面结合附图对本发明作进一步说明:
图1为本发明一实施例提供的结直肠癌风险预测方法的方法流程图。
【具体实施方式】
下面结合本发明实施例的附图对本发明实施例的技术方案进行解释和说明,但下述实施例仅为本发明的优选实施例,并非全部。基于实施方式中的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得其他实施例,都属于本发明的保护范围。
在本说明书中引用的“一个实施例”或“实例”或“例子”意指结合实施例本身描述的特定特征、结构或特性可被包括在本专利公开的至少一个实施例中。短语“在一个实施例中”在说明书中的各位置的出现不必都是指同一个实施例。
本申请提供了一种结直肠癌风险预测方法。所述结直肠癌风险预测方法,不限制其应用领域与应用场景。可选地,本申请提供的结直肠癌风险预测方法可以应用于结直肠癌风险评估中心、结直肠癌风险评估研究院或各个医疗机构级别的医院。
需要说明的是,本申请提供的结直肠癌风险预测方法不限制其执行主体。可选地,所述结直肠癌风险预测方法的执行主体可以是一种结直肠癌风险预测装置。
在本申请的一实施例中,所述结直肠癌风险预测方法包括如下步骤:
采集原始数据;所述原始数据包括传统风险因素信息和遗传因素信息;
对原始数据进行预处理,得到待用特征集,所述待用特征集包括训练集和待测集;
建立风险评估模型,利用所述训练集对风险评估模型进行训练,训练好的风险评估模型可以对所述待测集中的样本进行结直肠癌风险预测,并输出低风险等级、中风险等级和高风险等级;
利用训练好的风险评估模型,基于所述待测集预测结果。
具体地,所述训练集可以包括病例集和对照集。病例集中可以包括多个样本,病例集中的样本可以均为结直肠癌患者。对照集中可以包括多个样本,对照集中的样本可以均为非结直肠癌患者。所述训练集用于风险评估模型的创建与训练。所述待测集用于实际风险预测。
原始数据可以通过数据采集模块获取。所述数据采集装置还可以与结直肠癌风险评估中心的病历数据库通信连接。所述数据采集装置获取所述病历数据库中众多样本的病历数据。病历数据包括多种不同类型的数据。所述数据采集模块可以获取与结直肠癌疑似相关的病历数据,作为所述原始数据。获取依据可以查询文献资料。
所述原始数据包括传统风险因素信息和遗传因素信息。所述传统风险因素信息包括多个传统因素。所述传统风险因素信息可以包括年龄、性别、疾病史、结直肠癌家族史、吸烟、饮酒、膳食纤维摄入、红肉及加工肉摄入。
所述遗传因素信息可以包括SNP位点数据。所述SNP位点数据为多个与结直肠癌疑似相关的SNP位点。SNP位点,又称为遗传易感位点,为了描述简洁写作SNP位点,后文不再说明。每一个SNP位点具有一个基因型信息。
本实施例中,本发明所提供的技术方案,既考虑了传统风险因素对结直肠癌风险的影响,又考虑了遗传因素对结直肠癌风险的影响,使得最终得到的结直肠癌风险预测结果准确性高。此外,本发明所提供的技术方案,结果呈现为结直肠癌的风险等级,包括低风险等级,中风险等级和高风险等级,实现了结直肠癌风险预测的指标化,更具有直观性,便于给予防治建议。
在本申请的一实施例中,对原始数据进行预处理包括数据清洗、特征转换以及特征选择。
具体地,当然预处理的方式也可以为其他任意其他种类的预处理方式。
本实施例中,通过对原始数据预处理,实现对数据的初步形式过滤与筛选。
在本申请的一实施例中,数据清洗包括:处理原始数据中格式错误的数据、处理原始数据中内容错误的数据和处理原始数据中逻辑错误的数据。
具体地,本步骤为对原始数据的形式错误纠错处理。
在本申请的一实施例中,特征转换包括:
将数据清洗后的原始数据转换为数值型数据、缺失值填充数据、定性特征属性亚编码数据、定量特征属性二值化数据、特征标准化与归一化数据。
具体地,本步骤是为了将原始数据的数据类型转化为风险评估模型可以识别并读取的数据类型,避免原始数据的遗漏。
在本申请的一实施例中,特征选择包括如下步骤:
在原始数据的特征属性中,选取建立风险评估模型所需的特征属性;
构建特征属性列表,将建立风险评估模型所需的特征属性加入所述特征属性列表。
具体地,为了避免原始数据量过大,在建立风险评估模型之前,可以通过查阅文献资料预先选取建立风险评估模型所需的特征属性。选取原则就是选取与结直肠癌疑似最相关的特征属性。
如表1和表2所示,表1和表2就是选取建立风险评估模型所需的特征属性后生成的2个特征表。以表1为例,性别,年龄,症状这些都是建立风险评估模型所需的特征属性。需要说明的是,表1和表2列举的特征属性为选取建立风险评估模型所需的部分特征属性,并非全部的特征属性,仅用于举例说明。
表1-传统风险因素特征选择表
序号 | 传统风险因素特征 |
1 | 性别 |
2 | 年龄 |
3 | 症状 |
4 | II型糖尿病情况 |
5 | 直系亲属肠癌家族史 |
表2-遗传风险因素特征选择表
编号 | 染色体 | 位置 | 参考等位基因 | 突变等位基因 |
rs356219 | 4 | 90637601 | G | A |
rs1685748 | 3 | 155734056 | C | T |
rs9535914 | 13 | 52791751 | C | T |
rs77235035 | 1 | 156877797 | C | T |
rs2857130 | 6 | 32776414 | T | A |
本实施例中,通过特征选择,可以避免无意义数据进入风险评估模型。
在本申请的一实施例中,建立风险评估模型包括建立测算模型和建立结果模型,建立测算模型包括如下步骤:
采用t检验和卡方检验筛选出与结直肠癌风险显著相关的传统风险因素;
依据最小等位基因频率、连锁不平衡系数、Hardy-Weinberg遗传平衡定律、卡方检验和多因素逻辑回归筛选出与结直肠癌风险显著相关的SNP位点,并得出每一个与直肠癌风险显著相关的SNP位点的相关性权重;
根据每一个与直肠癌风险显著相关的SNP位点的相关性权重计算权重遗传风险评分,计算权重遗传风险评分的公式为:
其中,wGRS为权重遗传风险评分,i为与结直肠癌风险显著相关的SNP位点的序号,βi为与结直肠癌风险显著相关的SNP位点对应的相关性权重,Gi为与直肠癌风险显著相关的SNP位点;
构建测算模型,测算模型的公式为:
其中,p为结直肠癌风险概率,β0为固定系数,β1至βn-1为各个与结直肠癌风险显著相关的传统风险因素的相关性权重,X1至Xn-1为各个与结直肠癌风险显著相关的传统风险因素,βn为权重遗传风险评分的权重,Xn为权重遗传风险评分;
建立结果模型包括将结直肠癌风险概率划分为低风险等级、中风险等级和高风险等级。
具体地,权重遗传风险评分的计算过程运用了化繁为简的方法,将多个与结直肠癌风险显著相关的SNP位点整合为一个整体,即多个与结直肠癌风险显著相关的SNP位点的集合,这样便于计算。
在本申请的一实施例中,所述训练集包括病例集和对照集,采用t检验和卡方检验筛选出与结直肠癌风险显著相关的传统风险因素包括:
选取预处理后的原始数据中的传统风险因素,作为预处理后的传统风险因素;
选取预处理后的传统风险因素中的连续型变量;
采用t检验分析各个连续型变量在病例集和对照集之间的分布差异,筛选出满足p-value1<0.05的连续型变量。
具体地,所述连续型变量为有具体数值的传统风险因素,例如年龄。
在本申请的一实施例中,所述训练集包括病例集和对照集,采用t检验和卡方检验筛选出与结直肠癌风险显著相关的传统风险因素还包括:
选取预处理后的传统风险因素中的分类型变量;
采用卡方检验分析各个分类型变量在病例集和对照集之间的分布差异,筛选出满足p-value2<0.05的分类型变量。
具体地,所述连续型变量为没有具体数值的传统风险因素,例如性别。
在本申请的一实施例中,依据最小等位基因频率、连锁不平衡系数、Hardy-Weinberg遗传平衡定律、卡方检验和多因素逻辑回归筛选出与结直肠癌风险显著相关的SNP位点,并得出每一个与直肠癌风险显著相关的SNP位点的相关性权重,包括依次执行的下述步骤:
选取预处理后的原始数据中的SNP位点,删除在中国人群中最小等位基因频率小于0.05的SNP位点;
删除连锁不平衡系数大于0.8的SNP位点;
删除不符合Hardy-Weinberg遗传平衡定律的SNP位点;
采用卡方检验,分析各个SNP位点在病例集和对照集之间的分布差异,删除P-value3>0.05的SNP位点;
采用多因素逻辑回归分析算法,分析经传统风险因素校正后各个SNP位点与结直肠癌风险之间的相关性,并以P-value4<0.05为标准筛选出与结直肠癌风险之间显著相关的SNP位点,并计算每个与结直肠癌风险之间显著相关的SNP位点的相关性权重。
具体的,上述数个步骤是依次按顺序执行,一步一步筛选,直至筛选出满足所有条件的与直肠癌风险显著相关的SNP位点。在算每个与结直肠癌风险之间显著相关的SNP位点的相关性权重时,可以将每一个与结直肠癌风险之间显著相关的SNP位点的P-value4值作为该SNP位点的相关性权重。这样可以得出每一个与结直肠癌风险之间显著相关的SNP位点的相关性权重。例如,SNP位点A的P-value4值为0.02,则SNP位点A的相关性权重也为0.02,可以用于代入后续权重遗传风险评分的计算公式中。
在本申请的一实施例中,利用所述训练集对风险评估模型进行训练包括对测算模型进行训练和对结果模型进行训练,对结果模型进行训练包括对划分低风险等级、中风险等级和高风险等级的位值进行迭代。
具体地,可以通过风险评估模型对训练集中的每一个样本进行结直肠癌风险概率的计算,将所有结直肠癌风险概率按从小到大的顺序进行排序,将排序后的前三分之一结直肠癌风险概率对应的数值范围,定义为低风险等级。将所有结直肠癌风险概率按从大到小的顺序进行排序,将排序后的后三分之一结直肠癌风险概率对应的数值范围,定义为高风险等级。将剩余结直肠癌风险概率对应的数值范围,定义为中风险等级。
本实施例中,通过将风险预测结果呈现为结直肠癌的风险等级,包括低风险等级,中风险等级和高风险等级,实现了结直肠癌风险预测的指标化,更具有直观性,便于给予防治建议。
下面展示几种实施例下的风险预测结果,以验证本申请提供的结直肠癌风险预测方法的准确性。
表3是通过本申请提供的结直肠癌风险预测方法对112个待预测样本进行预测的结果。且112个待预测样本均为已患结直肠癌的患者。
如表3所示,112个已患结直肠癌的患者通过本申请提供的结直肠癌风险预测方法进行预测后,90个为高风险样本,准确度为80.4%(90除以112),准确度很高。
表3-结直肠癌风险预测表(示例1)
结直肠癌风险预测表可以为表4的形式。表4是通过本申请提供的结直肠癌风险预测方法对558个待预测样本进行预测的结果。且558个待预测样本均为未知是否患结直肠癌的患者。
表4-结直肠癌风险预测表(示例2)
如表4所示,558个已患结直肠癌的患者通过本申请提供的结直肠癌风险预测方法进行预测后,高风险样本为100个,低中风险样本为458个,特异性为82.1%(458除以558),特异性很高,表明本申请提供的结直肠癌风险预测方法能够准确区分阳性患者和阴性患者。
本申请还提供了一种结直肠癌风险预测装置。
在本申请的一实施例中,所述结直肠癌风险预测装置包括:
数据采集模块,用以采集原始数据;所述原始数据包括传统风险因素信息和遗传因素信息;
预处理模块,用以对原始数据进行预处理,得到待用特征集,所述待用特征集包括训练集和待测集;
风险评估模块,用以建立风险评估模型;
训练模块,利用所述训练集对风险评估模块的风险评估模型进行训练;训练好的风险评估模型可以对所述待测集中的样本进行结直肠癌风险预测,并输出低风险等级、中风险等级和高风险等级;
训练模块训练好风险评估模型后,风险评估模块利用训练好的风险评估模型,基于所述待测集预测结果。
具体地,所述结直肠癌风险预测装置还可以包括存储模块。所述存储模块作为数据库保存所有数据,并实时更新。
所述原始数据包括传统风险因素信息和遗传因素信息。所述传统风险因素信息包括多个传统因素。所述传统风险因素信息可以包括年龄、性别、疾病史、结直肠癌家族史、吸烟、饮酒、膳食纤维摄入、红肉及加工肉摄入。
所述遗传因素信息可以包括SNP位点数据。所述SNP位点数据为多个与结直肠癌疑似相关的SNP位点。SNP位点,又称为遗传易感位点,为了描述简洁写作SNP位点,后文不再说明。每一个SNP位点具有一个基因型信息。
在本申请的一实施例中,所述预处理模块对原始数据进行预处理包括数据清洗、特征转换以及特征选择。
在本申请的一实施例中,所述预处理模块对原始数据进行数据清洗包括:处理原始数据中格式错误的数据、处理原始数据中内容错误的数据和处理原始数据中逻辑错误的数据。
在本申请的一实施例中,所述预处理模块对原始数据进行特征转换包括:
将数据清洗后的原始数据转换为数值型数据、缺失值填充数据、定性特征属性亚编码数据、定量特征属性二值化数据、特征标准化与归一化数据。
在本申请的一实施例中,所述预处理模块对原始数据进行特征选择包括如下步骤:
在原始数据的特征属性中,选取建立风险评估模型所需的特征属性;
构建特征属性列表,将建立风险评估模型所需的特征属性加入所述特征属性列表。
在本申请的一实施例中,所述风险评估模块所建立的风险评估模型包括建立测算模型和建立结果模型,建立测算模型包括如下步骤:
采用t检验和卡方检验筛选出与结直肠癌风险显著相关的传统风险因素;
依据最小等位基因频率、连锁不平衡系数、Hardy-Weinberg遗传平衡定律、卡方检验和多因素逻辑回归筛选出与结直肠癌风险显著相关的SNP位点,并得出每一个与直肠癌风险显著相关的SNP位点的相关性权重;
根据每一个与直肠癌风险显著相关的SNP位点的相关性权重计算权重遗传风险评分,计算权重遗传风险评分的公式为:
其中,wGRS为权重遗传风险评分,i为与结直肠癌风险显著相关的SNP位点的序号,βi为与结直肠癌风险显著相关的SNP位点对应的相关性权重,Gi为与直肠癌风险显著相关的SNP位点;
构建测算模型,测算模型的公式为:
其中,p为结直肠癌风险概率,β0为固定系数,β1至βn-1为各个与结直肠癌风险显著相关的传统风险因素的相关性权重,X1至Xn-1为各个与结直肠癌风险显著相关的传统风险因素,βn为权重遗传风险评分的权重,Xn为权重遗传风险评分;
建立结果模型包括将结直肠癌风险概率划分为低风险等级、中风险等级和高风险等级。
在本申请的一实施例中,所述训练集包括病例集和对照集,所述风险评估模块采用t检验和卡方检验筛选出与结直肠癌风险显著相关的传统风险因素包括:
选取预处理后的原始数据中的传统风险因素,作为预处理后的传统风险因素;
选取预处理后的传统风险因素中的连续型变量;
采用t检验分析各个连续型变量在病例集和对照集之间的分布差异,筛选出满足p-value1<0.05的连续型变量。
在本申请的一实施例中,所述训练集包括病例集和对照集,所述风险评估模块采用t检验和卡方检验筛选出与结直肠癌风险显著相关的传统风险因素还包括:
选取预处理后的传统风险因素中的分类型变量;
采用卡方检验分析各个分类型变量在病例集和对照集之间的分布差异,筛选出满足p-value2<0.05的分类型变量。
在本申请的一实施例中,所述风险评估模块依据最小等位基因频率、连锁不平衡系数、Hardy-Weinberg遗传平衡定律、卡方检验和多因素逻辑回归筛选出与结直肠癌风险显著相关的SNP位点,并得出每一个与直肠癌风险显著相关的SNP位点的相关性权重,包括依次执行的下述步骤:
选取预处理后的原始数据中的SNP位点,删除在中国人群中最小等位基因频率小于0.05的SNP位点;
删除连锁不平衡系数大于0.8的SNP位点;
删除不符合Hardy-Weinberg遗传平衡定律的SNP位点;
采用卡方检验,分析各个SNP位点在病例集和对照集之间的分布差异,删除P-value3>0.05的SNP位点;
采用多因素逻辑回归分析算法,分析经传统风险因素校正后各个SNP位点与结直肠癌风险之间的相关性,并以P-value4<0.05为标准筛选出与结直肠癌风险之间显著相关的SNP位点,并计算每个与结直肠癌风险之间显著相关的SNP位点的相关性权重。
在本申请的一实施例中,所述训练模块利用所述训练集对风险评估模型进行训练包括对测算模型进行训练和对结果模型进行训练,对结果模型进行训练包括对划分低风险等级、中风险等级和高风险等级的位值进行迭代。
本发明所提供的结直肠癌风险预测装置的有益效果,与前述结直肠癌风险预测方法的有益效果推理过程相似,在此不作赘述。
本实施例还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现如上的任意实施例中的方法。本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。
本实施例还提供了一种可读存储介质,计算机程序可存储于所述可读取存储介质中,该计算机程序在执行时,可实现上述任意一项实施例的方法。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)以及存储器总线动态RAM(RDRAM)等。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,熟悉该本领域的技术人员应该明白本发明包括但不限于附图和上面具体实施方式中描述的内容。任何不偏离本发明的功能和结构原理的修改都将包括在权利要求书的范围中。
Claims (10)
1.一种结直肠癌风险预测方法,其特征在于,所述结直肠癌风险预测方法包括如下步骤:
采集原始数据;所述原始数据包括传统风险因素信息和遗传因素信息;对原始数据进行预处理,得到待用特征集,所述待用特征集包括训练集和待测集;
建立风险评估模型,利用所述训练集对风险评估模型进行训练,训练好的风险评估模型可以对所述待测集中的样本进行结直肠癌风险预测,并输出低风险等级、中风险等级和高风险等级;
利用训练好的风险评估模型,基于所述待测集预测结果。
2.根据权利要求1所述的结直肠癌风险预测方法,其特征在于,对原始数据进行预处理包括数据清洗、特征转换以及特征选择。
3.根据权利要求2所述的结直肠癌风险预测方法,其特征在于,数据清洗包括如下步骤:
处理原始数据中格式错误的数据、处理原始数据中内容错误的数据和处理原始数据中逻辑错误的数据;
特征转换包括如下步骤:
将数据清洗后的原始数据转换为数值型数据、缺失值填充数据、定性特征属性亚编码数据、定量特征属性二值化数据、特征标准化与归一化数据;
特征选择包括如下步骤:
在原始数据的特征属性中,选取建立风险评估模型所需的特征属性;
构建特征属性列表,将建立风险评估模型所需的特征属性加入所述特征属性列表。
4.根据权利要求1所述的结直肠癌风险预测方法,其特征在于,建立风险评估模型包括建立测算模型和建立结果模型,建立测算模型包括如下步骤:
采用t检验和卡方检验筛选出与结直肠癌风险显著相关的传统风险因素;
依据最小等位基因频率、连锁不平衡系数、Hardy-Weinberg遗传平衡定律、卡方检验和多因素逻辑回归筛选出与结直肠癌风险显著相关的SNP位点,并得出每一个与直肠癌风险显著相关的SNP位点的相关性权重;
根据每一个与直肠癌风险显著相关的SNP位点的相关性权重计算权重遗传风险评分,计算权重遗传风险评分的公式为:
其中,wGRS为权重遗传风险评分,i为与结直肠癌风险显著相关的SNP位点的序号,βi为与结直肠癌风险显著相关的SNP位点对应的相关性权重,Gi为与直肠癌风险显著相关的SNP位点;
构建测算模型,测算模型的公式为:
其中,p为结直肠癌风险概率,β0为固定系数,β1至βn-1为各个与结直肠癌风险显著相关的传统风险因素的相关性权重,X1至Xn-1为各个与结直肠癌风险显著相关的传统风险因素,βn为权重遗传风险评分的权重,Xn为权重遗传风险评分;
建立结果模型包括将结直肠癌风险概率划分为低风险等级、中风险等级和高风险等级。
5.根据权利要求4所述的结直肠癌风险预测方法,其特征在于,所述训练集包括病例集和对照集,采用t检验和卡方检验筛选出与结直肠癌风险显著相关的传统风险因素包括:
选取预处理后的原始数据中的传统风险因素,作为预处理后的传统风险因素;
选取预处理后的传统风险因素中的连续型变量;
采用t检验分析各个连续型变量在病例集和对照集之间的分布差异,筛选出满足p-value1<0.05的连续型变量;
选取预处理后的传统风险因素中的分类型变量;
采用卡方检验分析各个分类型变量在病例集和对照集之间的分布差异,筛选出满足p-value2<0.05的分类型变量。
6.根据权利要求5所述的结直肠癌风险预测方法,其特征在于,依据最小等位基因频率、连锁不平衡系数、Hardy-Weinberg遗传平衡定律、卡方检验和多因素逻辑回归筛选出与结直肠癌风险显著相关的SNP位点,并得出每一个与直肠癌风险显著相关的SNP位点的相关性权重,包括依次执行的下述步骤:
选取预处理后的原始数据中的SNP位点,删除在中国人群中最小等位基因频率小于0.05的SNP位点;
删除连锁不平衡系数大于0.8的SNP位点;
删除不符合Hardy-Weinberg遗传平衡定律的SNP位点;
采用卡方检验,分析各个SNP位点在病例集和对照集之间的分布差异,删除P-value3>0.05的SNP位点;
采用多因素逻辑回归分析算法,分析经传统风险因素校正后各个SNP位点与结直肠癌风险之间的相关性,并以P-value4<0.05为标准筛选出与结直肠癌风险之间显著相关的SNP位点,并计算每个与结直肠癌风险之间显著相关的SNP位点的相关性权重。
7.根据权利要求6所述的结直肠癌风险预测方法,其特征在于,利用所述训练集对风险评估模型进行训练包括:
对测算模型进行训练和对结果模型进行训练,对结果模型进行训练包括对划分低风险等级、中风险等级和高风险等级的位值进行迭代。
8.一种结直肠癌风险预测装置,其特征在于,所述结直肠癌风险预测装置包括:
数据采集模块,用以采集原始数据;所述原始数据包括传统风险因素信息和遗传因素信息;
预处理模块,用以对原始数据进行预处理,得到待用特征集,所述待用特征集包括训练集和待测集;
风险评估模块,用以建立风险评估模型;
训练模块,利用所述训练集对风险评估模块的风险评估模型进行训练;训练好的风险评估模型可以对所述待测集中的样本进行结直肠癌风险预测,并输出低风险等级、中风险等级和高风险等级;
训练模块训练好风险评估模型后,风险评估模块利用训练好的风险评估模型,基于所述待测集预测结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的结直肠癌风险预测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的结直肠癌风险预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010580401.4A CN111739642A (zh) | 2020-06-23 | 2020-06-23 | 一种结直肠癌风险预测方法、系统、计算机设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010580401.4A CN111739642A (zh) | 2020-06-23 | 2020-06-23 | 一种结直肠癌风险预测方法、系统、计算机设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111739642A true CN111739642A (zh) | 2020-10-02 |
Family
ID=72650656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010580401.4A Pending CN111739642A (zh) | 2020-06-23 | 2020-06-23 | 一种结直肠癌风险预测方法、系统、计算机设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111739642A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113539493A (zh) * | 2021-06-23 | 2021-10-22 | 吾征智能技术(北京)有限公司 | 一种利用多模态风险因素推断癌症风险概率的系统 |
CN113724875A (zh) * | 2021-09-10 | 2021-11-30 | 北京思泰瑞健康科技有限公司 | 一种癌症复发率的预测方法、装置及设备 |
CN116580846A (zh) * | 2023-07-05 | 2023-08-11 | 四川大学华西医院 | 基于相关性分析的结直肠癌预后风险模型构建方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1973778A (zh) * | 2006-12-08 | 2007-06-06 | 南京大学 | 胃癌术后严重并发症风险度的预测方法 |
CN107254531A (zh) * | 2017-06-28 | 2017-10-17 | 南京医科大学 | 早发性结直肠癌辅助诊断的遗传生物标志物及其应用 |
CN108504732A (zh) * | 2017-02-27 | 2018-09-07 | 复旦大学附属华山医院 | 一种建立胃癌的风险预测模型的方法 |
CN109072308A (zh) * | 2016-01-28 | 2018-12-21 | 墨尔本大学 | 用于评估患结直肠癌风险的方法 |
CN110718299A (zh) * | 2019-09-03 | 2020-01-21 | 重庆大学 | 一种患肝癌风险等级快速预测装置 |
CN110956224A (zh) * | 2019-08-01 | 2020-04-03 | 平安科技(深圳)有限公司 | 评估模型生成、评估数据处理方法、装置、设备及介质 |
-
2020
- 2020-06-23 CN CN202010580401.4A patent/CN111739642A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1973778A (zh) * | 2006-12-08 | 2007-06-06 | 南京大学 | 胃癌术后严重并发症风险度的预测方法 |
CN109072308A (zh) * | 2016-01-28 | 2018-12-21 | 墨尔本大学 | 用于评估患结直肠癌风险的方法 |
CN108504732A (zh) * | 2017-02-27 | 2018-09-07 | 复旦大学附属华山医院 | 一种建立胃癌的风险预测模型的方法 |
CN107254531A (zh) * | 2017-06-28 | 2017-10-17 | 南京医科大学 | 早发性结直肠癌辅助诊断的遗传生物标志物及其应用 |
CN110956224A (zh) * | 2019-08-01 | 2020-04-03 | 平安科技(深圳)有限公司 | 评估模型生成、评估数据处理方法、装置、设备及介质 |
CN110718299A (zh) * | 2019-09-03 | 2020-01-21 | 重庆大学 | 一种患肝癌风险等级快速预测装置 |
Non-Patent Citations (1)
Title |
---|
邵卫: "胃癌遗传风险预测模型及多组学生存预测模型构建", 南京医科大学硕士学位论文, pages 18 - 19 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113539493A (zh) * | 2021-06-23 | 2021-10-22 | 吾征智能技术(北京)有限公司 | 一种利用多模态风险因素推断癌症风险概率的系统 |
CN113724875A (zh) * | 2021-09-10 | 2021-11-30 | 北京思泰瑞健康科技有限公司 | 一种癌症复发率的预测方法、装置及设备 |
CN116580846A (zh) * | 2023-07-05 | 2023-08-11 | 四川大学华西医院 | 基于相关性分析的结直肠癌预后风险模型构建方法及系统 |
CN116580846B (zh) * | 2023-07-05 | 2023-09-15 | 四川大学华西医院 | 基于相关性分析的结直肠癌预后风险模型构建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112635063B (zh) | 一种肺癌预后综合预测模型、构建方法及装置 | |
Sun et al. | Identification of 12 cancer types through genome deep learning | |
US10354747B1 (en) | Deep learning analysis pipeline for next generation sequencing | |
Ainscough et al. | A deep learning approach to automate refinement of somatic variant calling from cancer sequencing data | |
CN111739642A (zh) | 一种结直肠癌风险预测方法、系统、计算机设备及可读存储介质 | |
Chen et al. | Radiomics model of contrast-enhanced computed tomography for predicting the recurrence of acute pancreatitis | |
AU2019253112A1 (en) | Multi-assay prediction model for cancer detection | |
CN111739641A (zh) | 一种胃癌风险预测方法、系统、计算机设备及可读存储介质 | |
CN112048559A (zh) | 基于m6A相关的IncRNA网络胃癌预后的模型构建及临床应用 | |
US20220277811A1 (en) | Detecting False Positive Variant Calls In Next-Generation Sequencing | |
CN113593630A (zh) | 一种家庭冠心病患病风险评估及其风险因素鉴定系统 | |
JP6941309B2 (ja) | 遺伝子変異の評価装置、評価方法、プログラム、および記録媒体 | |
Zeng et al. | Mixture classification model based on clinical markers for breast cancer prognosis | |
CN113593708A (zh) | 基于集成学习算法的脓毒症预后预测方法 | |
CN109801681B (zh) | 一种基于改进的模糊聚类算法的snp选择方法 | |
CN114373548A (zh) | 一种基于代谢基因建立的胰腺癌预后风险预测方法和装置 | |
CN117253625A (zh) | 肺癌筛查模型的构建装置、肺癌筛查装置、设备及介质 | |
CN111944902A (zh) | 一种基于lincRNA表达谱组合特征的肾乳头状细胞癌早期预测方法 | |
CN110942808A (zh) | 一种基于基因大数据的预后预测方法及预测系统 | |
CN116525108A (zh) | 基于snp数据的预测方法、装置、设备及存储介质 | |
CN113234823B (zh) | 胰腺癌预后风险评估模型及其应用 | |
CN112309571B (zh) | 数字病理图像的预后量化特征的筛选方法 | |
CN112687329B (zh) | 一种基于非癌组织突变信息的癌症预测系统及其构建方法 | |
Wolf et al. | Ordinal Logic Regression: A classifier for discovering combinations of binary markers for ordinal outcomes | |
CN113539479A (zh) | 一种基于相似性约束的miRNA-疾病关联预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |