CN116949179A - 结直肠肿瘤多基因遗传风险评分系统、存储介质和电子设备 - Google Patents

结直肠肿瘤多基因遗传风险评分系统、存储介质和电子设备 Download PDF

Info

Publication number
CN116949179A
CN116949179A CN202310816096.8A CN202310816096A CN116949179A CN 116949179 A CN116949179 A CN 116949179A CN 202310816096 A CN202310816096 A CN 202310816096A CN 116949179 A CN116949179 A CN 116949179A
Authority
CN
China
Prior art keywords
colorectal tumor
samples
snp
genetic
series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310816096.8A
Other languages
English (en)
Inventor
陈宏达
代敏
骆晨雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking Union Medical College Hospital Chinese Academy of Medical Sciences
Original Assignee
Peking Union Medical College Hospital Chinese Academy of Medical Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking Union Medical College Hospital Chinese Academy of Medical Sciences filed Critical Peking Union Medical College Hospital Chinese Academy of Medical Sciences
Priority to CN202310816096.8A priority Critical patent/CN116949179A/zh
Publication of CN116949179A publication Critical patent/CN116949179A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Pathology (AREA)
  • Biophysics (AREA)
  • Public Health (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Oncology (AREA)
  • Biochemistry (AREA)
  • Hospice & Palliative Care (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供结直肠肿瘤多基因遗传风险评分系统、存储介质和电子设备,具体而言,本发明提供了检测个体结直肠癌遗传风险信息的试剂在制备结直肠肿瘤多基因遗传风险的检测装置中的应用,其中,所述个体结直肠癌遗传风险信息包括127个结直肠肿瘤相关单核苷酸多态性位点。基于该位点,本发明构建了结直肠肿瘤多基因遗传风险评分系统,利用结直肠肿瘤多基因遗传风险评分系统可以快速、简洁、有效地用于结直肠肿瘤遗传风险评估和分级筛查。

Description

结直肠肿瘤多基因遗传风险评分系统、存储介质和电子设备
技术领域
本发明涉及医学工程技术领域,具体涉及结直肠肿瘤多基因遗传风险评分系统、存储介质和电子设备。
背景技术
结直肠癌作为全球最常见的恶性肿瘤之一,是由环境和遗传因素共同引起的复杂疾病。早期筛查与治疗是防治结直肠肿瘤的重要途径。目前,全基因组关联研究(genome-wide association study,GWAS)已鉴定出若干与结直肠肿瘤相关的遗传易感位点。多基因遗传风险评分(polygenic risk score,PRS)通过整合多个遗传变异的信息,将各单核苷酸多态性(Single Nucleotide Polymorphism,SNP)位点的微弱效应进行叠加,以提高遗传风险预测的准确性,有助于开展结直肠肿瘤遗传风险评估和高危人群识别。然而,现有遗传评分研究在国内尚未完善,目前能够获得的相关信息是基于欧洲人群构建,由于不同种族人群遗传背景的显著差异,这些遗传评分信息对于我国人群的适用程度尚不知晓。此外,进展期结直肠腺瘤是结直肠癌重要的癌前病变,与结直肠癌的发生、发展密切相关,寻找与进展期结直肠腺瘤相关的遗传易感位点并全面构建PRS对结直肠癌高危人群的准确识别和早期干预至关重要。基于此,本发明旨在构建适合我国人群的结直肠肿瘤遗传风险评分模型。
发明内容
本发明的目的是提供结直肠肿瘤多基因遗传风险评分系统、存储介质和电子设备,以通过PRS构建针对我国结直肠癌高危人群的评分模型,实现准确识别和早期干预。
为解决上述技术问题,本发明采用的技术方案为:
第一方面,本发明提供检测个体信息的试剂在制备结直肠肿瘤多基因遗传风险的检测装置中的应用,其中,所述个体信息包括以下单核苷酸多态性位点信息:
rs112791300、rs66572578、rs148581398、rs117388114、rs562386、rs2332057、rs113551494、rs1154015、rs61832090、rs514350、rs796496654、rs149754992、rs58815470、rs1895136、rs111976844、rs7568465、rs530368762、rs10184431、rs117832794、rs186630989、rs117920212、rs79062588、rs531450721、rs78163413、rs13058898、rs1240966、rs6777038、rs531040040、rs33941150、rs10573056、rs2940781、rs555115590、rs57969304、rs17017151、rs1757937、rs4315753、rs1491110450、rs183537419、rs77967017、rs72775764、rs77898034、rs77889528、rs7379682、rs1428981180、rs155074、rs184971456、rs76782373、rs12662019、rs4839969、rs979679927、rs1076668、rs144647955、rs11769234、rs435714、rs11980421、rs188165261、rs4571718、rs56787477、rs10113303、rs1494921、rs13273662、rs55642373、rs9330465、rs71356106、rs117373254、rs11789984、rs115205063、rs74554130、rs117451546、rs76372788、rs12247215、rs528696020、rs11197481、rs71484317、rs11345974、rs2804246、rs533062181、rs36112701、rs540269946、rs11439697、rs558391、rs3741255、rs147657675、rs7488529、rs12818737、rs12813911、rs544720729、rs9597502、rs74085350、rs12585231、rs10636332、rs9549186、rs7327884、rs1416992968、rs9549222、rs377347658、rs78958920、rs4261445、rs3007066、rs35466209、rs201865275、rs11635392、rs77832859、rs74870706、rs11857736、rs79335856、rs11547962、rs137920220、rs34294057、rs72766494、rs12601930、rs12450934、rs7208724、rs1238858355、rs16978159、rs117667007、rs199786761、rs78204423、rs1560901、rs1943895、rs1178551783、rs6603067、rs329716、rs5828224、rs181969064、rs73610697、rs6040412。
优选地,根据各单核苷酸多态性位点的信息获得满足以下计算公式的遗传风险评分:
其中,i表示第i个SNP位点,i=1~m,m表示SNP位点的总数,lnOR表示该SNP位点对于结直肠癌的OR值的自然对数,j表示第i个SNP位点的基因型,Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变;
进一步优选地,遗传风险评分越高,个体患结直肠肿瘤的风险越高。
第二方面,本发明提供结直肠肿瘤多基因遗传风险评分系统,包括:
质量控制模块,用于获取符合分析标准的系列样本和所述系列样本的SNP位点;
数据获取模块,用于获取所述系列样本的个体基因分型数据;
基因分析模块,用于计算所述系列样本的单个遗传变异与结直肠肿瘤发病风险关联的比值比和95%置信区间,并形成汇总数据;
遗传位点提取及组合模块,根据所述汇总数据,获取所述系列样本结直肠肿瘤相关遗传位点的效应等位基因、效应值及P值,并形成结直肠肿瘤相关SNP位点组合模型;
评分模块,通过所述结直肠肿瘤相关SNP位点组合模型,并结合以下计算公式,对待评估样本进行结直肠肿瘤发病风险评分:
其中,i表示第i个SNP位点,i=1~m,m表示SNP位点的总数,lnOR表示该SNP位点对于结直肠肿瘤的OR值的自然对数,j表示第i个SNP位点的基因型,Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变。
优选地,所述结直肠肿瘤相关SNP位点组合模型是采用不同的连锁不平衡r2和不同的显著性阈值P交叉构建的具有多个结直肠肿瘤相关候选SNP位点组合的模型;
优选地,所述模型中,具有9个结直肠肿瘤相关候选SNP位点组合;
进一步优选地,所述9个结直肠肿瘤相关候选SNP位点组合中,r2=0.4、0.6、或者0.8,P值=0.05、5×10-4、或者5×10-5
更进一步优选地,采用logistic回归模型评估所述9个结直肠肿瘤相关候选SNP位点组合,比较各个组合的接收者操作特征曲线下面积,当AUC无统计学差异时,选择SNP位点个数较少的组合作为结直肠肿瘤相关SNP位点组合模型,当AUC有统计学差异时,选择AUC更高的组合作为结直肠肿瘤相关SNP位点组合模型。
优选地,所述质量控制模块中,对样本和SNP位点的筛选原则为:①保留哈迪温伯格平衡P值大于1e-6的位点;②保留最小等位基因频率(MAF)大于1%的位点;③保留检出率95%以上的位点;④保留检出率95%以上的样本;⑤过滤杂合率大于或小于三倍标准差的样本;⑥亲缘关系质控;⑦去除主成分分析离群的样本。
优选地,所述基因分析模块是采用logistic回归分析,以遗传变异的基因型剂量为自变量,以结直肠肿瘤样本或对照样本为因变量;优选地,以年龄、性别和前几个遗传主成分为协变量;优选为前4个遗传主成分。
优选地,所述结直肠肿瘤相关SNP位点组合模型是由连锁不平衡r2=0.4和显著性阈值P=5×10-4交叉构建的模型。
第三方面,本发明提供一种存储介质,所述存储介质上有计算机程序,所述计算机程序被处理器执行时实现结直肠肿瘤多基因遗传风险评估模型的构建方法,所述构建方法包括:
获取符合分析标准的系列样本和所述系列样本的SNP位点;
获取所述系列样本的个体基因分型数据;
计算所述系列样本的单个遗传变异与结直肠肿瘤发病风险关联的比值比和95%置信区间,并形成汇总数据;
根据所述汇总数据,获取所述系列样本结直肠肿瘤相关遗传位点的效应等位基因、效应值及P值,并形成结直肠肿瘤相关SNP位点组合模型;
通过所述结直肠肿瘤相关SNP位点组合模型,并结合以下计算公式,对待评估样本进行结直肠肿瘤发病风险评分:
其中,i表示第i个SNP位点,i=1~m,m表示SNP位点的总数,lnOR表示该SNP位点对于结直肠肿瘤的OR值的自然对数,j表示第i个SNP位点的基因型,Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变。
第四方面,本发明提供另一种存储介质,所述存储介质上有计算机程序,所述计算机程序被处理器执行时实现结直肠肿瘤多基因遗传风险评估模型的应用方法,所述应用方法包括:通过结直肠肿瘤多基因遗传风险评估模型计算待评估样本的风险评分;
所述结直肠肿瘤多基因遗传风险评估模型的构建方法包括:
获取符合分析标准的系列样本和所述系列样本的SNP位点;
获取所述系列样本的个体基因分型数据;
计算所述系列样本的单个遗传变异与结直肠肿瘤发病风险关联的比值比和95%置信区间,并形成汇总数据;
根据所述汇总数据,获取所述系列样本结直肠肿瘤相关遗传位点的效应等位基因、效应值及P值,并形成结直肠肿瘤相关SNP位点组合模型;
通过所述结直肠肿瘤相关SNP位点组合模型,并结合以下计算公式,对待评估样本进行结直肠肿瘤发病风险评分:
其中,i表示第i个SNP位点,i=1~m,m表示SNP位点的总数,lnOR表示该SNP位点对于结直肠肿瘤的OR值的自然对数,j表示第i个SNP位点的基因型,Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变。
第五方面,本发明提供一种电子设备,所述电子设备包括:
一个或多个处理器;以及,
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现结直肠肿瘤多基因遗传风险评估模型的构建方法,所述结直肠肿瘤多基因遗传风险评估模型的构建方法包括:
获取符合分析标准的系列样本和所述系列样本的SNP位点;
获取所述系列样本的个体基因分型数据;
计算所述系列样本的单个遗传变异与结直肠肿瘤发病风险关联的比值比和95%置信区间,并形成汇总数据;
根据所述汇总数据,获取所述系列样本结直肠肿瘤相关遗传位点的效应等位基因、效应值及P值,并形成结直肠肿瘤相关SNP位点组合模型;
通过所述结直肠肿瘤相关SNP位点组合模型,并结合以下计算公式,对待评估样本进行结直肠肿瘤发病风险评分:
其中,i表示第i个SNP位点,i=1~m,m表示SNP位点的总数,lnOR表示该SNP位点对于结直肠肿瘤的OR值的自然对数,j表示第i个SNP位点的基因型,Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变。
第六方面,本发明提供另一种电子设备,所述电子设备包括:
一个或多个处理器;以及,
存储装置,用于存储一个或多个程序,当所述一个或多个程序被一个或多个处理器执行,使得所述一个或多个处理器实现结直肠肿瘤多基因遗传风险评估模型的应用方法;
所述应用方法包括:通过结直肠肿瘤多基因遗传风险评估模型计算待评估样本的风险评分;
所述结直肠肿瘤多基因遗传风险评估模型的构建方法包括:
获取符合分析标准的系列样本和所述系列样本的SNP位点;
获取所述系列样本的个体基因分型数据;
计算所述系列样本的单个遗传变异与结直肠肿瘤发病风险关联的比值比和95%置信区间,并形成汇总数据;
根据所述汇总数据,获取所述系列样本结直肠肿瘤相关遗传位点的效应等位基因、效应值及P值,并形成结直肠肿瘤相关SNP位点组合模型;
通过所述结直肠肿瘤相关SNP位点组合模型,并结合以下计算公式,对待评估样本进行结直肠肿瘤发病风险评分:
其中,i表示第i个SNP位点,i=1~m,m表示SNP位点的总数,lnOR表示该SNP位点对于结直肠肿瘤的OR值的自然对数,j表示第i个SNP位点的基因型,Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变。
本发明的评分系统可以快速、简洁、有效地用于结直肠肿瘤遗传风险评估和分级筛查。在实际应用中,一方面可联合环境风险评分进行综合风险评估,针对各个风险区域的人群进行准确评估。另一方面,可结合成熟的结肠镜和粪便潜血检测筛查技术,实现结直肠癌高风险人群的精准识别以及不同风险人群的筛查分流,可提高人群筛查依从性和阳性病变的检出率,将为实现结直肠癌个体化、精准化筛查策略的制定提供重要理论参考,对进一步提升我国结直肠癌筛查效果起到推动作用。
附图说明
图1为本发明的多基因遗传风险评分模型的构建流程图。
图2为本发明的多基因遗传风险评分模型的实际应用方式。
具体实施方式
在本发明的描述中,需要说明的是,实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
下面结合附图和具体的实施例对本发明做进一步详细说明,所述是对本发明的解释而不是限定。
实施例1
结直肠肿瘤多基因遗传风险评分模型的构建,其过程如图1所示,具体如下:
本研究的数据来源于中国首个人群新型结直肠肿瘤筛查方案比较的多中心随机对照试验(Target-C研究,中国临床试验平台http://www.chictr.org.cn,注册号:ChiCTR1800015506),此项目在全国6个地区(安徽合肥、湖南长沙、江苏徐州、云南昆明、浙江温岭、浙江兰溪)开展实施。
(1)GWAS关联分析
基于Target-C研究,课题组已完成研究样本的基因分型工作。在排除了缺少病理确诊结果、血液样本未通过分型质控的参与者后,最终纳入的研究对象为1058例,包括238例进展期腺瘤患者和820例健康对照受试者。个体基因分型数据由InfiniumTMChineseGenotyping Array芯片测得。质量控制和基因型填补后的基因分型数据用于GWAS关联分析。质量控制步骤包括:①保留哈迪温伯格平衡P值大于1e-6的位点;②保留最小等位基因频率(MAF)大于1%的位点;③保留检出率95%以上的位点;④保留检出率95%以上的样本;⑤过滤杂合率大于或小于三倍标准差的样本;⑥亲缘关系质控;⑦去除主成分分析离群的样本。
使用Plink v1.9软件进行全基因组关联分析,以遗传变异的基因型剂量为自变量,以病例(结直肠肿瘤)或对照状态为因变量,使用logistic回归分析计算单个遗传变异与结直肠肿瘤发病风险关联的比值比(Odds ratio,OR)和95%置信区间(Confidenceinterval,CI)。调整的协变量为年龄、性别和前四个遗传主成分。
(2)遗传位点的选择
基于上述全基因组关联分析的汇总数据,从中提取遗传位点的效应等位基因、效应值及P值。根据提取的P值,按照0.05、5×10-4、5×10-5三个值筛选出3组SNP位点,对于每组SNP位点,使用Plink软件(version 1.9)--clump命令按照不同的连锁不平衡(0.4、0.6、0.8)修剪,最终得到9组SNP位点组合。
(3)PRS模型的构建
本发明根据SNP位点的纳入情况,基于GWAS的汇总数据采用不同的连锁不平衡r2(0.4、0.6、0.8)和显著性阈值(P值=0.05、5×10-4、5×10-5)构建9个候选SNP位点组合:r2=0.4,P值=0.05;r2=0.4,P值=5×10-4;r2=0.4,P值=5×10-5;r2=0.6,P值=0.05;r2=0.6,P值=5×10-4;r2=0.6,P值=5×10-5;r2=0.8,P值=0.05;r2=0.8,P值=5×10-4;r2=0.8,P值=5×10-5
候选PRS确定后,对每个个体的PRS进行计算,计算公式如下:
其中,i表示第i个SNP位点,i=1~m,m表示SNP位点的总数,lnOR表示该SNP位点对于结直肠肿瘤的OR值的自然对数,j表示第i个SNP位点的基因型,Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变。实际应用中,可以根据多基因遗传风险评分的百分位数划分遗传高危人群,遗传风险评分越高,个体患结直肠肿瘤的风险越高。
采用logistic回归模型评估这些候选PRS与结直肠肿瘤的关联,比较各个模型的接收者操作特征曲线下面积(Area Under receiving-operator characteristic Curve,AUC),当AUC无统计学差异时,选择SNP位点个数较少的模型,当AUC有统计学差异时,选择AUC更高的模型。
2、多基因遗传风险评分模型的构建结果
经过上述统计处理步骤,当显著性阈值为5×10-4且连锁不平衡r2为0.4时,所获得的SNP位点组合模型针对238例进展期腺瘤患者和820例健康对照受试者的预测效果最佳,纳入的SNP位点个数为127个。各SNP位点的信息和权重如下:
3、多基因遗传风险评分模型在人群筛查中的应用:
结合图2,该模型可以有效用于结直肠肿瘤遗传风险评估和分级筛查。在实际应用中,一般将多基因遗传风险评分居于人群前25%~30%的个体划分为遗传高风险人群,联合环境风险评分进行综合风险评估,建议高风险人群接受结肠镜筛查。而多基因遗传风险评分居于人群后70%~75%且环境风险评分也为低风险的个体,可以接受粪便免疫化学测试(Fecal Immunochemical Test,FIT),FIT阳性个体建议进一步接受结肠镜检查,阴性个体可以继续参加下一年度的FIT筛查。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.检测个体信息的试剂在制备结直肠肿瘤多基因遗传风险的检测装置中的应用,其中,所述个体信息包括以下单核苷酸多态性位点信息:
rs112791300、rs66572578、rs148581398、rs117388114、rs562386、rs2332057、rs113551494、rs1154015、rs61832090、rs514350、rs796496654、rs149754992、rs58815470、rs1895136、rs111976844、rs7568465、rs530368762、rs10184431、rs117832794、rs186630989、rs117920212、rs79062588、rs531450721、rs78163413、rs13058898、rs1240966、rs6777038、rs531040040、rs33941150、rs10573056、rs2940781、rs555115590、rs57969304、rs17017151、rs1757937、rs4315753、rs1491110450、rs183537419、rs77967017、rs72775764、rs77898034、rs77889528、rs7379682、rs1428981180、rs155074、rs184971456、rs76782373、rs12662019、rs4839969、rs979679927、rs1076668、rs144647955、rs11769234、rs435714、rs11980421、rs188165261、rs4571718、rs56787477、rs10113303、rs1494921、rs13273662、rs55642373、rs9330465、rs71356106、rs117373254、rs11789984、rs115205063、rs74554130、rs117451546、rs76372788、rs12247215、rs528696020、rs11197481、rs71484317、rs11345974、rs2804246、rs533062181、rs36112701、rs540269946、rs11439697、rs558391、rs3741255、rs147657675、rs7488529、rs12818737、rs12813911、rs544720729、rs9597502、rs74085350、rs12585231、rs10636332、rs9549186、rs7327884、rs1416992968、rs9549222、rs377347658、rs78958920、rs4261445、rs3007066、rs35466209、rs201865275、rs11635392、rs77832859、rs74870706、rs11857736、rs79335856、rs11547962、rs137920220、rs34294057、rs72766494、rs12601930、rs12450934、rs7208724、rs1238858355、rs16978159、rs117667007、rs199786761、rs78204423、rs1560901、rs1943895、rs1178551783、rs6603067、rs329716、rs5828224、rs181969064、rs73610697、rs6040412。
2.根据权利要求1所述的应用,其特征在于,根据各单核苷酸多态性位点的信息获得满足以下计算公式的遗传风险评分:
其中,i表示第i个SNP位点,i=1~m,m表示SNP位点的总数,lnOR表示该SNP位点对于结直肠癌的OR值的自然对数,j表示第i个SNP位点的基因型,Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变;
优选地,遗传风险评分越高,个体患结直肠肿瘤的风险越高。
3.结直肠肿瘤多基因遗传风险评分系统,其特征在于,包括:
质量控制模块,用于获取符合分析标准的系列样本和所述系列样本的SNP位点;
数据获取模块,用于获取所述系列样本的个体基因分型数据;
基因分析模块,用于计算所述系列样本的单个遗传变异与结直肠肿瘤发病风险关联的比值比和95%置信区间,并形成汇总数据;
遗传位点提取及组合模块,根据所述汇总数据,获取所述系列样本结直肠肿瘤相关遗传位点的效应等位基因、效应值及P值,并形成结直肠肿瘤相关SNP位点组合模型;
评分模块,通过所述结直肠肿瘤相关SNP位点组合模型,并结合以下计算公式,对待评估样本进行结直肠肿瘤发病风险评分:
其中,i表示第i个SNP位点,i=1~m,m表示SNP位点的总数,lnOR表示该SNP位点对于结直肠癌的OR值的自然对数,j表示第i个SNP位点的基因型,Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变。
4.根据权利要求3所述的结直肠肿瘤多基因遗传风险评分系统,其特征在于,所述结直肠肿瘤相关SNP位点组合模型是采用不同的连锁不平衡r2和不同的显著性阈值P交叉构建的具有多个结直肠肿瘤相关候选SNP位点组合的模型;
优选地,所述模型中,具有9个结直肠肿瘤相关候选SNP位点组合;
进一步优选地,所述9个结直肠肿瘤相关候选SNP位点组合中,r2=0.4、0.6、或者0.8,P值=0.05、5×10-4、或者5×10-5
更进一步优选地,采用logistic回归模型评估所述9个结直肠肿瘤相关候选SNP位点组合,比较各个组合的接收者操作特征曲线下面积,当AUC无统计学差异时,选择SNP位点个数较少的组合作为结直肠肿瘤相关SNP位点组合模型,当AUC有统计学差异时,选择AUC更高的组合作为结直肠肿瘤相关SNP位点组合模型。
5.根据权利要求3或4所述的结直肠肿瘤多基因遗传风险评分系统,其特征在于,所述质量控制模块中,对样本和SNP位点的筛选原则为:①保留哈迪温伯格平衡P值大于1e-6的位点;②保留最小等位基因频率(MAF)大于1%的位点;③保留检出率95%以上的位点;④保留检出率95%以上的样本;⑤过滤杂合率大于或小于三倍标准差的样本;⑥亲缘关系质控;⑦去除主成分分析离群的样本。
6.根据权利要求3~5任一项所述的结直肠肿瘤多基因遗传风险评分系统,其特征在于,所述基因分析模块是采用logistic回归分析,以遗传变异的基因型剂量为自变量,以结直肠肿瘤样本或对照样本为因变量;优选地,以年龄、性别和前几个遗传主成分为协变量;优选为前4个遗传主成分。
7.根据权利要求3~6任一项所述的结直肠肿瘤多基因遗传风险评分系统,其特征在于,所述结直肠肿瘤相关SNP位点组合模型是由连锁不平衡r2=0.4和显著性阈值P=5×10-4交叉构建的模型。
8.一种存储介质,其特征在于,所述存储介质上有计算机程序,所述计算机程序被处理器执行时实现结直肠肿瘤多基因遗传风险评估模型的构建方法,所述构建方法包括:
获取符合分析标准的系列样本和所述系列样本的SNP位点;
获取所述系列样本的个体基因分型数据;
计算所述系列样本的单个遗传变异与结直肠肿瘤发病风险关联的比值比和95%置信区间,并形成汇总数据;
根据所述汇总数据,获取所述系列样本结直肠肿瘤相关遗传位点的效应等位基因、效应值及P值,并形成结直肠肿瘤相关SNP位点组合模型;
通过所述结直肠肿瘤相关SNP位点组合模型,并结合以下计算公式,对待评估样本进行结直肠肿瘤发病风险评分:
其中,i表示第i个SNP位点,i=1~m,m表示SNP位点的总数,lnOR表示该SNP位点对于结直肠肿瘤的OR值的自然对数,j表示第i个SNP位点的基因型,Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变。
9.一种存储介质,其特征在于,所述存储介质上有计算机程序,所述计算机程序被处理器执行时实现结直肠肿瘤多基因遗传风险评估模型的应用方法,所述应用方法包括:通过结直肠肿瘤多基因遗传风险评估模型计算待评估样本的风险评分;
所述结直肠肿瘤多基因遗传风险评估模型的构建方法包括:
获取符合分析标准的系列样本和所述系列样本的SNP位点;
获取所述系列样本的个体基因分型数据;
计算所述系列样本的单个遗传变异与结直肠肿瘤发病风险关联的比值比和95%置信区间,并形成汇总数据;
根据所述汇总数据,获取所述系列样本结直肠肿瘤相关遗传位点的效应等位基因、效应值及P值,并形成结直肠肿瘤相关SNP位点组合模型;
通过所述结直肠肿瘤相关SNP位点组合模型,并结合以下计算公式,对待评估样本进行结直肠肿瘤发病风险评分:
其中,i表示第i个SNP位点,i=1~m,m表示SNP位点的总数,lnOR表示该SNP位点对于结直肠肿瘤的OR值的自然对数,j表示第i个SNP位点的基因型,Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变。
10.一种电子设备,其特征在于:所述电子设备包括:
一个或多个处理器;以及,
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现结直肠肿瘤多基因遗传风险评估模型的构建方法,所述结直肠肿瘤多基因遗传风险评估模型的构建方法包括:
获取符合分析标准的系列样本和所述系列样本的SNP位点;
获取所述系列样本的个体基因分型数据;
计算所述系列样本的单个遗传变异与结直肠肿瘤发病风险关联的比值比和95%置信区间,并形成汇总数据;
根据所述汇总数据,获取所述系列样本结直肠肿瘤相关遗传位点的效应等位基因、效应值及P值,并形成结直肠肿瘤相关SNP位点组合模型;
通过所述结直肠肿瘤相关SNP位点组合模型,并结合以下计算公式,对待评估样本进行结直肠肿瘤发病风险评分:
其中,i表示第i个SNP位点,i=1~m,m表示SNP位点的总数,lnOR表示该SNP位点对于结直肠肿瘤的OR值的自然对数,j表示第i个SNP位点的基因型,Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变;
或者,所述电子设备包括:
一个或多个处理器;以及,
存储装置,用于存储一个或多个程序,当所述一个或多个程序被一个或多个处理器执行,使得所述一个或多个处理器实现结直肠肿瘤多基因遗传风险评估模型的应用方法;
所述应用方法包括:通过结直肠肿瘤多基因遗传风险评估模型计算待评估样本的风险评分;
所述结直肠肿瘤多基因遗传风险评估模型的构建方法包括:
获取符合分析标准的系列样本和所述系列样本的SNP位点;
获取所述系列样本的个体基因分型数据;
计算所述系列样本的单个遗传变异与结直肠肿瘤发病风险关联的比值比和95%置信区间,并形成汇总数据;
根据所述汇总数据,获取所述系列样本结直肠肿瘤相关遗传位点的效应等位基因、效应值及P值,并形成结直肠肿瘤相关SNP位点组合模型;
通过所述结直肠肿瘤相关SNP位点组合模型,并结合以下计算公式,对待评估样本进行结直肠肿瘤发病风险评分:
其中,i表示第i个SNP位点,i=1~m,m表示SNP位点的总数,lnOR表示该SNP位点对于结直肠肿瘤的OR值的自然对数,j表示第i个SNP位点的基因型,Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变。
CN202310816096.8A 2023-07-04 2023-07-04 结直肠肿瘤多基因遗传风险评分系统、存储介质和电子设备 Pending CN116949179A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310816096.8A CN116949179A (zh) 2023-07-04 2023-07-04 结直肠肿瘤多基因遗传风险评分系统、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310816096.8A CN116949179A (zh) 2023-07-04 2023-07-04 结直肠肿瘤多基因遗传风险评分系统、存储介质和电子设备

Publications (1)

Publication Number Publication Date
CN116949179A true CN116949179A (zh) 2023-10-27

Family

ID=88445494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310816096.8A Pending CN116949179A (zh) 2023-07-04 2023-07-04 结直肠肿瘤多基因遗传风险评分系统、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN116949179A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009047532A2 (en) * 2007-10-12 2009-04-16 Cancer Research Technology Limited Cancer susceptibility loci
US20150159220A1 (en) * 2012-05-11 2015-06-11 Fred Hutchinson Cancer Research Center Methods for predicting and detecting cancer risk
EP3153591A1 (en) * 2015-10-06 2017-04-12 Eberhard Karls Universität Tübingen Determination of the risk for colorectal cancer and the likelihood to survive
AU2017212152A1 (en) * 2016-01-28 2018-08-16 The University Of Melbourne Methods for assessing risk of developing colorectal cancer
CN110214149A (zh) * 2016-07-06 2019-09-06 克里斯珀医疗股份公司 用于治疗疼痛相关病症的材料和方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009047532A2 (en) * 2007-10-12 2009-04-16 Cancer Research Technology Limited Cancer susceptibility loci
US20150159220A1 (en) * 2012-05-11 2015-06-11 Fred Hutchinson Cancer Research Center Methods for predicting and detecting cancer risk
EP3153591A1 (en) * 2015-10-06 2017-04-12 Eberhard Karls Universität Tübingen Determination of the risk for colorectal cancer and the likelihood to survive
AU2017212152A1 (en) * 2016-01-28 2018-08-16 The University Of Melbourne Methods for assessing risk of developing colorectal cancer
CN110214149A (zh) * 2016-07-06 2019-09-06 克里斯珀医疗股份公司 用于治疗疼痛相关病症的材料和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LUKE MCGEOCH 等: "Risk Prediction Models for Colorectal Cancer Incorporating Common Genetic Variants: A Systematic Review", CANCER EPIDEMIOL BIOMARKERS PREV, vol. 28, no. 10, 31 October 2019 (2019-10-31), pages 1580 - 1593 *
蒋丹捷 等: "遗传风险评分在结直肠癌风险评估中的研究进展", 中国癌症防治杂志, vol. 11, no. 1, 25 February 2019 (2019-02-25), pages 21 - 25 *

Similar Documents

Publication Publication Date Title
CN107423534B (zh) 基因组拷贝数变异的检测方法和系统
Kim et al. rSW-seq: algorithm for detection of copy number alterations in deep sequencing data
CA2786565C (en) Partition defined detection methods
CN103797129B (zh) 使用多态计数来解析基因组分数
CN108899091B (zh) 与癌症相关的遗传或分子畸变的检测
CN111278993A (zh) 从无细胞核酸中检测体细胞单核苷酸变体并应用于微小残留病变监测
CN109689891A (zh) 用于无细胞核酸的片段组谱分析的方法
TW201903158A (zh) Dna混合物中之組織甲基化模式分析
CN108913776B (zh) 放化疗损伤相关的dna分子标记的筛选方法和试剂盒
CN110770838A (zh) 用于确定体细胞突变克隆性的方法和系统
CN106156543A (zh) 一种肿瘤ctDNA信息统计方法
CN110016497B (zh) 一种检测肿瘤单细胞基因组拷贝数变异的方法
CN107586852A (zh) 基于22个基因的胃癌腹膜转移预测模型及其应用
WO2020237184A1 (en) Systems and methods for determining whether a subject has a cancer condition using transfer learning
Zhou et al. Development of a 50K SNP array for Japanese flounder and its application in genomic selection for disease resistance
CN115702457A (zh) 使用自动编码器确定癌症状态的系统和方法
WO2023240755A1 (zh) 用于检测染色体非整倍体及单基因突变的试剂盒及应用
JP2021531016A (ja) 無細胞dna損傷分析およびその臨床応用
CN115836349A (zh) 用于评估纵向生物特征数据的系统和方法
Renaud et al. Unsupervised detection of fragment length signatures of circulating tumor DNA using non-negative matrix factorization
WO2020081445A1 (en) Methods and systems for predicting or diagnosing cancer
KR100590547B1 (ko) 복합 질환과 연관된 다중 snp 마커들로부터 최적 마커세트를 선택하는 방법
WO2023191262A1 (ko) 환자 맞춤형 패널을 이용한 암의 재발을 예측하는 방법
CN116949179A (zh) 结直肠肿瘤多基因遗传风险评分系统、存储介质和电子设备
CN113362897A (zh) 基于核小体分布特征的肿瘤标志物筛选方法及应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination