CN116949179A - 结直肠肿瘤多基因遗传风险评分系统、存储介质和电子设备 - Google Patents
结直肠肿瘤多基因遗传风险评分系统、存储介质和电子设备 Download PDFInfo
- Publication number
- CN116949179A CN116949179A CN202310816096.8A CN202310816096A CN116949179A CN 116949179 A CN116949179 A CN 116949179A CN 202310816096 A CN202310816096 A CN 202310816096A CN 116949179 A CN116949179 A CN 116949179A
- Authority
- CN
- China
- Prior art keywords
- colorectal tumor
- samples
- snp
- genetic
- series
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000001333 Colorectal Neoplasms Diseases 0.000 title claims abstract description 141
- 230000002068 genetic effect Effects 0.000 title claims abstract description 84
- 238000012502 risk assessment Methods 0.000 claims abstract description 19
- 206010009944 Colon cancer Diseases 0.000 claims abstract description 13
- 238000001514 detection method Methods 0.000 claims abstract description 9
- 239000002773 nucleotide Substances 0.000 claims abstract description 7
- 125000003729 nucleotide group Chemical group 0.000 claims abstract description 7
- 239000003153 chemical reaction reagent Substances 0.000 claims abstract description 3
- 238000002360 preparation method Methods 0.000 claims abstract 2
- 230000035772 mutation Effects 0.000 claims description 39
- 230000003234 polygenic effect Effects 0.000 claims description 24
- 238000000034 method Methods 0.000 claims description 23
- 239000012636 effector Substances 0.000 claims description 18
- 230000007614 genetic variation Effects 0.000 claims description 15
- 108700028369 Alleles Proteins 0.000 claims description 14
- 238000003205 genotyping method Methods 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 7
- 238000003908 quality control method Methods 0.000 claims description 7
- 238000007477 logistic regression Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000013210 evaluation model Methods 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000000513 principal component analysis Methods 0.000 claims description 3
- 108090000623 proteins and genes Proteins 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000012252 genetic analysis Methods 0.000 claims description 2
- 238000012216 screening Methods 0.000 abstract description 13
- 230000007613 environmental effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000002550 fecal effect Effects 0.000 description 3
- 230000000750 progressive effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 208000003200 Adenoma Diseases 0.000 description 2
- 206010001233 Adenoma benign Diseases 0.000 description 2
- 208000034826 Genetic Predisposition to Disease Diseases 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000002052 colonoscopy Methods 0.000 description 2
- 201000002758 colorectal adenoma Diseases 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000984 immunochemical effect Effects 0.000 description 2
- 230000003902 lesion Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- General Health & Medical Sciences (AREA)
- Organic Chemistry (AREA)
- Analytical Chemistry (AREA)
- Pathology (AREA)
- Biophysics (AREA)
- Public Health (AREA)
- Biotechnology (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Epidemiology (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Immunology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Primary Health Care (AREA)
- Biomedical Technology (AREA)
- Microbiology (AREA)
- General Engineering & Computer Science (AREA)
- Oncology (AREA)
- Biochemistry (AREA)
- Hospice & Palliative Care (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供结直肠肿瘤多基因遗传风险评分系统、存储介质和电子设备,具体而言,本发明提供了检测个体结直肠癌遗传风险信息的试剂在制备结直肠肿瘤多基因遗传风险的检测装置中的应用,其中,所述个体结直肠癌遗传风险信息包括127个结直肠肿瘤相关单核苷酸多态性位点。基于该位点,本发明构建了结直肠肿瘤多基因遗传风险评分系统,利用结直肠肿瘤多基因遗传风险评分系统可以快速、简洁、有效地用于结直肠肿瘤遗传风险评估和分级筛查。
Description
技术领域
本发明涉及医学工程技术领域,具体涉及结直肠肿瘤多基因遗传风险评分系统、存储介质和电子设备。
背景技术
结直肠癌作为全球最常见的恶性肿瘤之一,是由环境和遗传因素共同引起的复杂疾病。早期筛查与治疗是防治结直肠肿瘤的重要途径。目前,全基因组关联研究(genome-wide association study,GWAS)已鉴定出若干与结直肠肿瘤相关的遗传易感位点。多基因遗传风险评分(polygenic risk score,PRS)通过整合多个遗传变异的信息,将各单核苷酸多态性(Single Nucleotide Polymorphism,SNP)位点的微弱效应进行叠加,以提高遗传风险预测的准确性,有助于开展结直肠肿瘤遗传风险评估和高危人群识别。然而,现有遗传评分研究在国内尚未完善,目前能够获得的相关信息是基于欧洲人群构建,由于不同种族人群遗传背景的显著差异,这些遗传评分信息对于我国人群的适用程度尚不知晓。此外,进展期结直肠腺瘤是结直肠癌重要的癌前病变,与结直肠癌的发生、发展密切相关,寻找与进展期结直肠腺瘤相关的遗传易感位点并全面构建PRS对结直肠癌高危人群的准确识别和早期干预至关重要。基于此,本发明旨在构建适合我国人群的结直肠肿瘤遗传风险评分模型。
发明内容
本发明的目的是提供结直肠肿瘤多基因遗传风险评分系统、存储介质和电子设备,以通过PRS构建针对我国结直肠癌高危人群的评分模型,实现准确识别和早期干预。
为解决上述技术问题,本发明采用的技术方案为:
第一方面,本发明提供检测个体信息的试剂在制备结直肠肿瘤多基因遗传风险的检测装置中的应用,其中,所述个体信息包括以下单核苷酸多态性位点信息:
rs112791300、rs66572578、rs148581398、rs117388114、rs562386、rs2332057、rs113551494、rs1154015、rs61832090、rs514350、rs796496654、rs149754992、rs58815470、rs1895136、rs111976844、rs7568465、rs530368762、rs10184431、rs117832794、rs186630989、rs117920212、rs79062588、rs531450721、rs78163413、rs13058898、rs1240966、rs6777038、rs531040040、rs33941150、rs10573056、rs2940781、rs555115590、rs57969304、rs17017151、rs1757937、rs4315753、rs1491110450、rs183537419、rs77967017、rs72775764、rs77898034、rs77889528、rs7379682、rs1428981180、rs155074、rs184971456、rs76782373、rs12662019、rs4839969、rs979679927、rs1076668、rs144647955、rs11769234、rs435714、rs11980421、rs188165261、rs4571718、rs56787477、rs10113303、rs1494921、rs13273662、rs55642373、rs9330465、rs71356106、rs117373254、rs11789984、rs115205063、rs74554130、rs117451546、rs76372788、rs12247215、rs528696020、rs11197481、rs71484317、rs11345974、rs2804246、rs533062181、rs36112701、rs540269946、rs11439697、rs558391、rs3741255、rs147657675、rs7488529、rs12818737、rs12813911、rs544720729、rs9597502、rs74085350、rs12585231、rs10636332、rs9549186、rs7327884、rs1416992968、rs9549222、rs377347658、rs78958920、rs4261445、rs3007066、rs35466209、rs201865275、rs11635392、rs77832859、rs74870706、rs11857736、rs79335856、rs11547962、rs137920220、rs34294057、rs72766494、rs12601930、rs12450934、rs7208724、rs1238858355、rs16978159、rs117667007、rs199786761、rs78204423、rs1560901、rs1943895、rs1178551783、rs6603067、rs329716、rs5828224、rs181969064、rs73610697、rs6040412。
优选地,根据各单核苷酸多态性位点的信息获得满足以下计算公式的遗传风险评分:
其中,i表示第i个SNP位点,i=1~m,m表示SNP位点的总数,lnOR表示该SNP位点对于结直肠癌的OR值的自然对数,j表示第i个SNP位点的基因型,Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变;
进一步优选地,遗传风险评分越高,个体患结直肠肿瘤的风险越高。
第二方面,本发明提供结直肠肿瘤多基因遗传风险评分系统,包括:
质量控制模块,用于获取符合分析标准的系列样本和所述系列样本的SNP位点;
数据获取模块,用于获取所述系列样本的个体基因分型数据;
基因分析模块,用于计算所述系列样本的单个遗传变异与结直肠肿瘤发病风险关联的比值比和95%置信区间,并形成汇总数据;
遗传位点提取及组合模块,根据所述汇总数据,获取所述系列样本结直肠肿瘤相关遗传位点的效应等位基因、效应值及P值,并形成结直肠肿瘤相关SNP位点组合模型;
评分模块,通过所述结直肠肿瘤相关SNP位点组合模型,并结合以下计算公式,对待评估样本进行结直肠肿瘤发病风险评分:
其中,i表示第i个SNP位点,i=1~m,m表示SNP位点的总数,lnOR表示该SNP位点对于结直肠肿瘤的OR值的自然对数,j表示第i个SNP位点的基因型,Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变。
优选地,所述结直肠肿瘤相关SNP位点组合模型是采用不同的连锁不平衡r2和不同的显著性阈值P交叉构建的具有多个结直肠肿瘤相关候选SNP位点组合的模型;
优选地,所述模型中,具有9个结直肠肿瘤相关候选SNP位点组合;
进一步优选地,所述9个结直肠肿瘤相关候选SNP位点组合中,r2=0.4、0.6、或者0.8,P值=0.05、5×10-4、或者5×10-5;
更进一步优选地,采用logistic回归模型评估所述9个结直肠肿瘤相关候选SNP位点组合,比较各个组合的接收者操作特征曲线下面积,当AUC无统计学差异时,选择SNP位点个数较少的组合作为结直肠肿瘤相关SNP位点组合模型,当AUC有统计学差异时,选择AUC更高的组合作为结直肠肿瘤相关SNP位点组合模型。
优选地,所述质量控制模块中,对样本和SNP位点的筛选原则为:①保留哈迪温伯格平衡P值大于1e-6的位点;②保留最小等位基因频率(MAF)大于1%的位点;③保留检出率95%以上的位点;④保留检出率95%以上的样本;⑤过滤杂合率大于或小于三倍标准差的样本;⑥亲缘关系质控;⑦去除主成分分析离群的样本。
优选地,所述基因分析模块是采用logistic回归分析,以遗传变异的基因型剂量为自变量,以结直肠肿瘤样本或对照样本为因变量;优选地,以年龄、性别和前几个遗传主成分为协变量;优选为前4个遗传主成分。
优选地,所述结直肠肿瘤相关SNP位点组合模型是由连锁不平衡r2=0.4和显著性阈值P=5×10-4交叉构建的模型。
第三方面,本发明提供一种存储介质,所述存储介质上有计算机程序,所述计算机程序被处理器执行时实现结直肠肿瘤多基因遗传风险评估模型的构建方法,所述构建方法包括:
获取符合分析标准的系列样本和所述系列样本的SNP位点;
获取所述系列样本的个体基因分型数据;
计算所述系列样本的单个遗传变异与结直肠肿瘤发病风险关联的比值比和95%置信区间,并形成汇总数据;
根据所述汇总数据,获取所述系列样本结直肠肿瘤相关遗传位点的效应等位基因、效应值及P值,并形成结直肠肿瘤相关SNP位点组合模型;
通过所述结直肠肿瘤相关SNP位点组合模型,并结合以下计算公式,对待评估样本进行结直肠肿瘤发病风险评分:
其中,i表示第i个SNP位点,i=1~m,m表示SNP位点的总数,lnOR表示该SNP位点对于结直肠肿瘤的OR值的自然对数,j表示第i个SNP位点的基因型,Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变。
第四方面,本发明提供另一种存储介质,所述存储介质上有计算机程序,所述计算机程序被处理器执行时实现结直肠肿瘤多基因遗传风险评估模型的应用方法,所述应用方法包括:通过结直肠肿瘤多基因遗传风险评估模型计算待评估样本的风险评分;
所述结直肠肿瘤多基因遗传风险评估模型的构建方法包括:
获取符合分析标准的系列样本和所述系列样本的SNP位点;
获取所述系列样本的个体基因分型数据;
计算所述系列样本的单个遗传变异与结直肠肿瘤发病风险关联的比值比和95%置信区间,并形成汇总数据;
根据所述汇总数据,获取所述系列样本结直肠肿瘤相关遗传位点的效应等位基因、效应值及P值,并形成结直肠肿瘤相关SNP位点组合模型;
通过所述结直肠肿瘤相关SNP位点组合模型,并结合以下计算公式,对待评估样本进行结直肠肿瘤发病风险评分:
其中,i表示第i个SNP位点,i=1~m,m表示SNP位点的总数,lnOR表示该SNP位点对于结直肠肿瘤的OR值的自然对数,j表示第i个SNP位点的基因型,Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变。
第五方面,本发明提供一种电子设备,所述电子设备包括:
一个或多个处理器;以及,
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现结直肠肿瘤多基因遗传风险评估模型的构建方法,所述结直肠肿瘤多基因遗传风险评估模型的构建方法包括:
获取符合分析标准的系列样本和所述系列样本的SNP位点;
获取所述系列样本的个体基因分型数据;
计算所述系列样本的单个遗传变异与结直肠肿瘤发病风险关联的比值比和95%置信区间,并形成汇总数据;
根据所述汇总数据,获取所述系列样本结直肠肿瘤相关遗传位点的效应等位基因、效应值及P值,并形成结直肠肿瘤相关SNP位点组合模型;
通过所述结直肠肿瘤相关SNP位点组合模型,并结合以下计算公式,对待评估样本进行结直肠肿瘤发病风险评分:
其中,i表示第i个SNP位点,i=1~m,m表示SNP位点的总数,lnOR表示该SNP位点对于结直肠肿瘤的OR值的自然对数,j表示第i个SNP位点的基因型,Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变。
第六方面,本发明提供另一种电子设备,所述电子设备包括:
一个或多个处理器;以及,
存储装置,用于存储一个或多个程序,当所述一个或多个程序被一个或多个处理器执行,使得所述一个或多个处理器实现结直肠肿瘤多基因遗传风险评估模型的应用方法;
所述应用方法包括:通过结直肠肿瘤多基因遗传风险评估模型计算待评估样本的风险评分;
所述结直肠肿瘤多基因遗传风险评估模型的构建方法包括:
获取符合分析标准的系列样本和所述系列样本的SNP位点;
获取所述系列样本的个体基因分型数据;
计算所述系列样本的单个遗传变异与结直肠肿瘤发病风险关联的比值比和95%置信区间,并形成汇总数据;
根据所述汇总数据,获取所述系列样本结直肠肿瘤相关遗传位点的效应等位基因、效应值及P值,并形成结直肠肿瘤相关SNP位点组合模型;
通过所述结直肠肿瘤相关SNP位点组合模型,并结合以下计算公式,对待评估样本进行结直肠肿瘤发病风险评分:
其中,i表示第i个SNP位点,i=1~m,m表示SNP位点的总数,lnOR表示该SNP位点对于结直肠肿瘤的OR值的自然对数,j表示第i个SNP位点的基因型,Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变。
本发明的评分系统可以快速、简洁、有效地用于结直肠肿瘤遗传风险评估和分级筛查。在实际应用中,一方面可联合环境风险评分进行综合风险评估,针对各个风险区域的人群进行准确评估。另一方面,可结合成熟的结肠镜和粪便潜血检测筛查技术,实现结直肠癌高风险人群的精准识别以及不同风险人群的筛查分流,可提高人群筛查依从性和阳性病变的检出率,将为实现结直肠癌个体化、精准化筛查策略的制定提供重要理论参考,对进一步提升我国结直肠癌筛查效果起到推动作用。
附图说明
图1为本发明的多基因遗传风险评分模型的构建流程图。
图2为本发明的多基因遗传风险评分模型的实际应用方式。
具体实施方式
在本发明的描述中,需要说明的是,实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
下面结合附图和具体的实施例对本发明做进一步详细说明,所述是对本发明的解释而不是限定。
实施例1
结直肠肿瘤多基因遗传风险评分模型的构建,其过程如图1所示,具体如下:
本研究的数据来源于中国首个人群新型结直肠肿瘤筛查方案比较的多中心随机对照试验(Target-C研究,中国临床试验平台http://www.chictr.org.cn,注册号:ChiCTR1800015506),此项目在全国6个地区(安徽合肥、湖南长沙、江苏徐州、云南昆明、浙江温岭、浙江兰溪)开展实施。
(1)GWAS关联分析
基于Target-C研究,课题组已完成研究样本的基因分型工作。在排除了缺少病理确诊结果、血液样本未通过分型质控的参与者后,最终纳入的研究对象为1058例,包括238例进展期腺瘤患者和820例健康对照受试者。个体基因分型数据由InfiniumTMChineseGenotyping Array芯片测得。质量控制和基因型填补后的基因分型数据用于GWAS关联分析。质量控制步骤包括:①保留哈迪温伯格平衡P值大于1e-6的位点;②保留最小等位基因频率(MAF)大于1%的位点;③保留检出率95%以上的位点;④保留检出率95%以上的样本;⑤过滤杂合率大于或小于三倍标准差的样本;⑥亲缘关系质控;⑦去除主成分分析离群的样本。
使用Plink v1.9软件进行全基因组关联分析,以遗传变异的基因型剂量为自变量,以病例(结直肠肿瘤)或对照状态为因变量,使用logistic回归分析计算单个遗传变异与结直肠肿瘤发病风险关联的比值比(Odds ratio,OR)和95%置信区间(Confidenceinterval,CI)。调整的协变量为年龄、性别和前四个遗传主成分。
(2)遗传位点的选择
基于上述全基因组关联分析的汇总数据,从中提取遗传位点的效应等位基因、效应值及P值。根据提取的P值,按照0.05、5×10-4、5×10-5三个值筛选出3组SNP位点,对于每组SNP位点,使用Plink软件(version 1.9)--clump命令按照不同的连锁不平衡(0.4、0.6、0.8)修剪,最终得到9组SNP位点组合。
(3)PRS模型的构建
本发明根据SNP位点的纳入情况,基于GWAS的汇总数据采用不同的连锁不平衡r2(0.4、0.6、0.8)和显著性阈值(P值=0.05、5×10-4、5×10-5)构建9个候选SNP位点组合:r2=0.4,P值=0.05;r2=0.4,P值=5×10-4;r2=0.4,P值=5×10-5;r2=0.6,P值=0.05;r2=0.6,P值=5×10-4;r2=0.6,P值=5×10-5;r2=0.8,P值=0.05;r2=0.8,P值=5×10-4;r2=0.8,P值=5×10-5。
候选PRS确定后,对每个个体的PRS进行计算,计算公式如下:
其中,i表示第i个SNP位点,i=1~m,m表示SNP位点的总数,lnOR表示该SNP位点对于结直肠肿瘤的OR值的自然对数,j表示第i个SNP位点的基因型,Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变。实际应用中,可以根据多基因遗传风险评分的百分位数划分遗传高危人群,遗传风险评分越高,个体患结直肠肿瘤的风险越高。
采用logistic回归模型评估这些候选PRS与结直肠肿瘤的关联,比较各个模型的接收者操作特征曲线下面积(Area Under receiving-operator characteristic Curve,AUC),当AUC无统计学差异时,选择SNP位点个数较少的模型,当AUC有统计学差异时,选择AUC更高的模型。
2、多基因遗传风险评分模型的构建结果
经过上述统计处理步骤,当显著性阈值为5×10-4且连锁不平衡r2为0.4时,所获得的SNP位点组合模型针对238例进展期腺瘤患者和820例健康对照受试者的预测效果最佳,纳入的SNP位点个数为127个。各SNP位点的信息和权重如下:
3、多基因遗传风险评分模型在人群筛查中的应用:
结合图2,该模型可以有效用于结直肠肿瘤遗传风险评估和分级筛查。在实际应用中,一般将多基因遗传风险评分居于人群前25%~30%的个体划分为遗传高风险人群,联合环境风险评分进行综合风险评估,建议高风险人群接受结肠镜筛查。而多基因遗传风险评分居于人群后70%~75%且环境风险评分也为低风险的个体,可以接受粪便免疫化学测试(Fecal Immunochemical Test,FIT),FIT阳性个体建议进一步接受结肠镜检查,阴性个体可以继续参加下一年度的FIT筛查。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.检测个体信息的试剂在制备结直肠肿瘤多基因遗传风险的检测装置中的应用,其中,所述个体信息包括以下单核苷酸多态性位点信息:
rs112791300、rs66572578、rs148581398、rs117388114、rs562386、rs2332057、rs113551494、rs1154015、rs61832090、rs514350、rs796496654、rs149754992、rs58815470、rs1895136、rs111976844、rs7568465、rs530368762、rs10184431、rs117832794、rs186630989、rs117920212、rs79062588、rs531450721、rs78163413、rs13058898、rs1240966、rs6777038、rs531040040、rs33941150、rs10573056、rs2940781、rs555115590、rs57969304、rs17017151、rs1757937、rs4315753、rs1491110450、rs183537419、rs77967017、rs72775764、rs77898034、rs77889528、rs7379682、rs1428981180、rs155074、rs184971456、rs76782373、rs12662019、rs4839969、rs979679927、rs1076668、rs144647955、rs11769234、rs435714、rs11980421、rs188165261、rs4571718、rs56787477、rs10113303、rs1494921、rs13273662、rs55642373、rs9330465、rs71356106、rs117373254、rs11789984、rs115205063、rs74554130、rs117451546、rs76372788、rs12247215、rs528696020、rs11197481、rs71484317、rs11345974、rs2804246、rs533062181、rs36112701、rs540269946、rs11439697、rs558391、rs3741255、rs147657675、rs7488529、rs12818737、rs12813911、rs544720729、rs9597502、rs74085350、rs12585231、rs10636332、rs9549186、rs7327884、rs1416992968、rs9549222、rs377347658、rs78958920、rs4261445、rs3007066、rs35466209、rs201865275、rs11635392、rs77832859、rs74870706、rs11857736、rs79335856、rs11547962、rs137920220、rs34294057、rs72766494、rs12601930、rs12450934、rs7208724、rs1238858355、rs16978159、rs117667007、rs199786761、rs78204423、rs1560901、rs1943895、rs1178551783、rs6603067、rs329716、rs5828224、rs181969064、rs73610697、rs6040412。
2.根据权利要求1所述的应用,其特征在于,根据各单核苷酸多态性位点的信息获得满足以下计算公式的遗传风险评分:
其中,i表示第i个SNP位点,i=1~m,m表示SNP位点的总数,lnOR表示该SNP位点对于结直肠癌的OR值的自然对数,j表示第i个SNP位点的基因型,Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变;
优选地,遗传风险评分越高,个体患结直肠肿瘤的风险越高。
3.结直肠肿瘤多基因遗传风险评分系统,其特征在于,包括:
质量控制模块,用于获取符合分析标准的系列样本和所述系列样本的SNP位点;
数据获取模块,用于获取所述系列样本的个体基因分型数据;
基因分析模块,用于计算所述系列样本的单个遗传变异与结直肠肿瘤发病风险关联的比值比和95%置信区间,并形成汇总数据;
遗传位点提取及组合模块,根据所述汇总数据,获取所述系列样本结直肠肿瘤相关遗传位点的效应等位基因、效应值及P值,并形成结直肠肿瘤相关SNP位点组合模型;
评分模块,通过所述结直肠肿瘤相关SNP位点组合模型,并结合以下计算公式,对待评估样本进行结直肠肿瘤发病风险评分:
其中,i表示第i个SNP位点,i=1~m,m表示SNP位点的总数,lnOR表示该SNP位点对于结直肠癌的OR值的自然对数,j表示第i个SNP位点的基因型,Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变。
4.根据权利要求3所述的结直肠肿瘤多基因遗传风险评分系统,其特征在于,所述结直肠肿瘤相关SNP位点组合模型是采用不同的连锁不平衡r2和不同的显著性阈值P交叉构建的具有多个结直肠肿瘤相关候选SNP位点组合的模型;
优选地,所述模型中,具有9个结直肠肿瘤相关候选SNP位点组合;
进一步优选地,所述9个结直肠肿瘤相关候选SNP位点组合中,r2=0.4、0.6、或者0.8,P值=0.05、5×10-4、或者5×10-5;
更进一步优选地,采用logistic回归模型评估所述9个结直肠肿瘤相关候选SNP位点组合,比较各个组合的接收者操作特征曲线下面积,当AUC无统计学差异时,选择SNP位点个数较少的组合作为结直肠肿瘤相关SNP位点组合模型,当AUC有统计学差异时,选择AUC更高的组合作为结直肠肿瘤相关SNP位点组合模型。
5.根据权利要求3或4所述的结直肠肿瘤多基因遗传风险评分系统,其特征在于,所述质量控制模块中,对样本和SNP位点的筛选原则为:①保留哈迪温伯格平衡P值大于1e-6的位点;②保留最小等位基因频率(MAF)大于1%的位点;③保留检出率95%以上的位点;④保留检出率95%以上的样本;⑤过滤杂合率大于或小于三倍标准差的样本;⑥亲缘关系质控;⑦去除主成分分析离群的样本。
6.根据权利要求3~5任一项所述的结直肠肿瘤多基因遗传风险评分系统,其特征在于,所述基因分析模块是采用logistic回归分析,以遗传变异的基因型剂量为自变量,以结直肠肿瘤样本或对照样本为因变量;优选地,以年龄、性别和前几个遗传主成分为协变量;优选为前4个遗传主成分。
7.根据权利要求3~6任一项所述的结直肠肿瘤多基因遗传风险评分系统,其特征在于,所述结直肠肿瘤相关SNP位点组合模型是由连锁不平衡r2=0.4和显著性阈值P=5×10-4交叉构建的模型。
8.一种存储介质,其特征在于,所述存储介质上有计算机程序,所述计算机程序被处理器执行时实现结直肠肿瘤多基因遗传风险评估模型的构建方法,所述构建方法包括:
获取符合分析标准的系列样本和所述系列样本的SNP位点;
获取所述系列样本的个体基因分型数据;
计算所述系列样本的单个遗传变异与结直肠肿瘤发病风险关联的比值比和95%置信区间,并形成汇总数据;
根据所述汇总数据,获取所述系列样本结直肠肿瘤相关遗传位点的效应等位基因、效应值及P值,并形成结直肠肿瘤相关SNP位点组合模型;
通过所述结直肠肿瘤相关SNP位点组合模型,并结合以下计算公式,对待评估样本进行结直肠肿瘤发病风险评分:
其中,i表示第i个SNP位点,i=1~m,m表示SNP位点的总数,lnOR表示该SNP位点对于结直肠肿瘤的OR值的自然对数,j表示第i个SNP位点的基因型,Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变。
9.一种存储介质,其特征在于,所述存储介质上有计算机程序,所述计算机程序被处理器执行时实现结直肠肿瘤多基因遗传风险评估模型的应用方法,所述应用方法包括:通过结直肠肿瘤多基因遗传风险评估模型计算待评估样本的风险评分;
所述结直肠肿瘤多基因遗传风险评估模型的构建方法包括:
获取符合分析标准的系列样本和所述系列样本的SNP位点;
获取所述系列样本的个体基因分型数据;
计算所述系列样本的单个遗传变异与结直肠肿瘤发病风险关联的比值比和95%置信区间,并形成汇总数据;
根据所述汇总数据,获取所述系列样本结直肠肿瘤相关遗传位点的效应等位基因、效应值及P值,并形成结直肠肿瘤相关SNP位点组合模型;
通过所述结直肠肿瘤相关SNP位点组合模型,并结合以下计算公式,对待评估样本进行结直肠肿瘤发病风险评分:
其中,i表示第i个SNP位点,i=1~m,m表示SNP位点的总数,lnOR表示该SNP位点对于结直肠肿瘤的OR值的自然对数,j表示第i个SNP位点的基因型,Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变。
10.一种电子设备,其特征在于:所述电子设备包括:
一个或多个处理器;以及,
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现结直肠肿瘤多基因遗传风险评估模型的构建方法,所述结直肠肿瘤多基因遗传风险评估模型的构建方法包括:
获取符合分析标准的系列样本和所述系列样本的SNP位点;
获取所述系列样本的个体基因分型数据;
计算所述系列样本的单个遗传变异与结直肠肿瘤发病风险关联的比值比和95%置信区间,并形成汇总数据;
根据所述汇总数据,获取所述系列样本结直肠肿瘤相关遗传位点的效应等位基因、效应值及P值,并形成结直肠肿瘤相关SNP位点组合模型;
通过所述结直肠肿瘤相关SNP位点组合模型,并结合以下计算公式,对待评估样本进行结直肠肿瘤发病风险评分:
其中,i表示第i个SNP位点,i=1~m,m表示SNP位点的总数,lnOR表示该SNP位点对于结直肠肿瘤的OR值的自然对数,j表示第i个SNP位点的基因型,Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变;
或者,所述电子设备包括:
一个或多个处理器;以及,
存储装置,用于存储一个或多个程序,当所述一个或多个程序被一个或多个处理器执行,使得所述一个或多个处理器实现结直肠肿瘤多基因遗传风险评估模型的应用方法;
所述应用方法包括:通过结直肠肿瘤多基因遗传风险评估模型计算待评估样本的风险评分;
所述结直肠肿瘤多基因遗传风险评估模型的构建方法包括:
获取符合分析标准的系列样本和所述系列样本的SNP位点;
获取所述系列样本的个体基因分型数据;
计算所述系列样本的单个遗传变异与结直肠肿瘤发病风险关联的比值比和95%置信区间,并形成汇总数据;
根据所述汇总数据,获取所述系列样本结直肠肿瘤相关遗传位点的效应等位基因、效应值及P值,并形成结直肠肿瘤相关SNP位点组合模型;
通过所述结直肠肿瘤相关SNP位点组合模型,并结合以下计算公式,对待评估样本进行结直肠肿瘤发病风险评分:
其中,i表示第i个SNP位点,i=1~m,m表示SNP位点的总数,lnOR表示该SNP位点对于结直肠肿瘤的OR值的自然对数,j表示第i个SNP位点的基因型,Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310816096.8A CN116949179A (zh) | 2023-07-04 | 2023-07-04 | 结直肠肿瘤多基因遗传风险评分系统、存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310816096.8A CN116949179A (zh) | 2023-07-04 | 2023-07-04 | 结直肠肿瘤多基因遗传风险评分系统、存储介质和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116949179A true CN116949179A (zh) | 2023-10-27 |
Family
ID=88445494
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310816096.8A Pending CN116949179A (zh) | 2023-07-04 | 2023-07-04 | 结直肠肿瘤多基因遗传风险评分系统、存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116949179A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009047532A2 (en) * | 2007-10-12 | 2009-04-16 | Cancer Research Technology Limited | Cancer susceptibility loci |
US20150159220A1 (en) * | 2012-05-11 | 2015-06-11 | Fred Hutchinson Cancer Research Center | Methods for predicting and detecting cancer risk |
EP3153591A1 (en) * | 2015-10-06 | 2017-04-12 | Eberhard Karls Universität Tübingen | Determination of the risk for colorectal cancer and the likelihood to survive |
AU2017212152A1 (en) * | 2016-01-28 | 2018-08-16 | The University Of Melbourne | Methods for assessing risk of developing colorectal cancer |
CN110214149A (zh) * | 2016-07-06 | 2019-09-06 | 克里斯珀医疗股份公司 | 用于治疗疼痛相关病症的材料和方法 |
-
2023
- 2023-07-04 CN CN202310816096.8A patent/CN116949179A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009047532A2 (en) * | 2007-10-12 | 2009-04-16 | Cancer Research Technology Limited | Cancer susceptibility loci |
US20150159220A1 (en) * | 2012-05-11 | 2015-06-11 | Fred Hutchinson Cancer Research Center | Methods for predicting and detecting cancer risk |
EP3153591A1 (en) * | 2015-10-06 | 2017-04-12 | Eberhard Karls Universität Tübingen | Determination of the risk for colorectal cancer and the likelihood to survive |
AU2017212152A1 (en) * | 2016-01-28 | 2018-08-16 | The University Of Melbourne | Methods for assessing risk of developing colorectal cancer |
CN110214149A (zh) * | 2016-07-06 | 2019-09-06 | 克里斯珀医疗股份公司 | 用于治疗疼痛相关病症的材料和方法 |
Non-Patent Citations (2)
Title |
---|
LUKE MCGEOCH 等: "Risk Prediction Models for Colorectal Cancer Incorporating Common Genetic Variants: A Systematic Review", CANCER EPIDEMIOL BIOMARKERS PREV, vol. 28, no. 10, 31 October 2019 (2019-10-31), pages 1580 - 1593 * |
蒋丹捷 等: "遗传风险评分在结直肠癌风险评估中的研究进展", 中国癌症防治杂志, vol. 11, no. 1, 25 February 2019 (2019-02-25), pages 21 - 25 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107423534B (zh) | 基因组拷贝数变异的检测方法和系统 | |
Kim et al. | rSW-seq: algorithm for detection of copy number alterations in deep sequencing data | |
CA2786565C (en) | Partition defined detection methods | |
CN103797129B (zh) | 使用多态计数来解析基因组分数 | |
CN108899091B (zh) | 与癌症相关的遗传或分子畸变的检测 | |
CN111278993A (zh) | 从无细胞核酸中检测体细胞单核苷酸变体并应用于微小残留病变监测 | |
CN109689891A (zh) | 用于无细胞核酸的片段组谱分析的方法 | |
TW201903158A (zh) | Dna混合物中之組織甲基化模式分析 | |
CN108913776B (zh) | 放化疗损伤相关的dna分子标记的筛选方法和试剂盒 | |
CN110770838A (zh) | 用于确定体细胞突变克隆性的方法和系统 | |
CN106156543A (zh) | 一种肿瘤ctDNA信息统计方法 | |
CN110016497B (zh) | 一种检测肿瘤单细胞基因组拷贝数变异的方法 | |
CN107586852A (zh) | 基于22个基因的胃癌腹膜转移预测模型及其应用 | |
WO2020237184A1 (en) | Systems and methods for determining whether a subject has a cancer condition using transfer learning | |
Zhou et al. | Development of a 50K SNP array for Japanese flounder and its application in genomic selection for disease resistance | |
CN115702457A (zh) | 使用自动编码器确定癌症状态的系统和方法 | |
WO2023240755A1 (zh) | 用于检测染色体非整倍体及单基因突变的试剂盒及应用 | |
JP2021531016A (ja) | 無細胞dna損傷分析およびその臨床応用 | |
CN115836349A (zh) | 用于评估纵向生物特征数据的系统和方法 | |
Renaud et al. | Unsupervised detection of fragment length signatures of circulating tumor DNA using non-negative matrix factorization | |
WO2020081445A1 (en) | Methods and systems for predicting or diagnosing cancer | |
KR100590547B1 (ko) | 복합 질환과 연관된 다중 snp 마커들로부터 최적 마커세트를 선택하는 방법 | |
WO2023191262A1 (ko) | 환자 맞춤형 패널을 이용한 암의 재발을 예측하는 방법 | |
CN116949179A (zh) | 结直肠肿瘤多基因遗传风险评分系统、存储介质和电子设备 | |
CN113362897A (zh) | 基于核小体分布特征的肿瘤标志物筛选方法及应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |