CN116949179A

CN116949179A - 结直肠肿瘤多基因遗传风险评分系统、存储介质和电子设备

Info

Publication number: CN116949179A
Application number: CN202310816096.8A
Authority: CN
Inventors: 陈宏达; 代敏; 骆晨雨
Original assignee: Peking Union Medical College Hospital Chinese Academy of Medical Sciences
Current assignee: Peking Union Medical College Hospital Chinese Academy of Medical Sciences
Priority date: 2023-07-04
Filing date: 2023-07-04
Publication date: 2023-10-27

Abstract

本发明提供结直肠肿瘤多基因遗传风险评分系统、存储介质和电子设备，具体而言，本发明提供了检测个体结直肠癌遗传风险信息的试剂在制备结直肠肿瘤多基因遗传风险的检测装置中的应用，其中，所述个体结直肠癌遗传风险信息包括127个结直肠肿瘤相关单核苷酸多态性位点。基于该位点，本发明构建了结直肠肿瘤多基因遗传风险评分系统，利用结直肠肿瘤多基因遗传风险评分系统可以快速、简洁、有效地用于结直肠肿瘤遗传风险评估和分级筛查。

Description

结直肠肿瘤多基因遗传风险评分系统、存储介质和电子设备

技术领域

本发明涉及医学工程技术领域，具体涉及结直肠肿瘤多基因遗传风险评分系统、存储介质和电子设备。

背景技术

结直肠癌作为全球最常见的恶性肿瘤之一，是由环境和遗传因素共同引起的复杂疾病。早期筛查与治疗是防治结直肠肿瘤的重要途径。目前，全基因组关联研究(genome-wide association study，GWAS)已鉴定出若干与结直肠肿瘤相关的遗传易感位点。多基因遗传风险评分(polygenic risk score，PRS)通过整合多个遗传变异的信息，将各单核苷酸多态性(Single Nucleotide Polymorphism，SNP)位点的微弱效应进行叠加，以提高遗传风险预测的准确性，有助于开展结直肠肿瘤遗传风险评估和高危人群识别。然而，现有遗传评分研究在国内尚未完善，目前能够获得的相关信息是基于欧洲人群构建，由于不同种族人群遗传背景的显著差异，这些遗传评分信息对于我国人群的适用程度尚不知晓。此外，进展期结直肠腺瘤是结直肠癌重要的癌前病变，与结直肠癌的发生、发展密切相关，寻找与进展期结直肠腺瘤相关的遗传易感位点并全面构建PRS对结直肠癌高危人群的准确识别和早期干预至关重要。基于此，本发明旨在构建适合我国人群的结直肠肿瘤遗传风险评分模型。

发明内容

本发明的目的是提供结直肠肿瘤多基因遗传风险评分系统、存储介质和电子设备，以通过PRS构建针对我国结直肠癌高危人群的评分模型，实现准确识别和早期干预。

为解决上述技术问题，本发明采用的技术方案为：

第一方面，本发明提供检测个体信息的试剂在制备结直肠肿瘤多基因遗传风险的检测装置中的应用，其中，所述个体信息包括以下单核苷酸多态性位点信息：

rs112791300、rs66572578、rs148581398、rs117388114、rs562386、rs2332057、rs113551494、rs1154015、rs61832090、rs514350、rs796496654、rs149754992、rs58815470、rs1895136、rs111976844、rs7568465、rs530368762、rs10184431、rs117832794、rs186630989、rs117920212、rs79062588、rs531450721、rs78163413、rs13058898、rs1240966、rs6777038、rs531040040、rs33941150、rs10573056、rs2940781、rs555115590、rs57969304、rs17017151、rs1757937、rs4315753、rs1491110450、rs183537419、rs77967017、rs72775764、rs77898034、rs77889528、rs7379682、rs1428981180、rs155074、rs184971456、rs76782373、rs12662019、rs4839969、rs979679927、rs1076668、rs144647955、rs11769234、rs435714、rs11980421、rs188165261、rs4571718、rs56787477、rs10113303、rs1494921、rs13273662、rs55642373、rs9330465、rs71356106、rs117373254、rs11789984、rs115205063、rs74554130、rs117451546、rs76372788、rs12247215、rs528696020、rs11197481、rs71484317、rs11345974、rs2804246、rs533062181、rs36112701、rs540269946、rs11439697、rs558391、rs3741255、rs147657675、rs7488529、rs12818737、rs12813911、rs544720729、rs9597502、rs74085350、rs12585231、rs10636332、rs9549186、rs7327884、rs1416992968、rs9549222、rs377347658、rs78958920、rs4261445、rs3007066、rs35466209、rs201865275、rs11635392、rs77832859、rs74870706、rs11857736、rs79335856、rs11547962、rs137920220、rs34294057、rs72766494、rs12601930、rs12450934、rs7208724、rs1238858355、rs16978159、rs117667007、rs199786761、rs78204423、rs1560901、rs1943895、rs1178551783、rs6603067、rs329716、rs5828224、rs181969064、rs73610697、rs6040412。

优选地，根据各单核苷酸多态性位点的信息获得满足以下计算公式的遗传风险评分：

其中，i表示第i个SNP位点，i＝1～m，m表示SNP位点的总数，lnOR表示该SNP位点对于结直肠癌的OR值的自然对数，j表示第i个SNP位点的基因型，Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变；

进一步优选地，遗传风险评分越高，个体患结直肠肿瘤的风险越高。

第二方面，本发明提供结直肠肿瘤多基因遗传风险评分系统，包括：

质量控制模块，用于获取符合分析标准的系列样本和所述系列样本的SNP位点；

数据获取模块，用于获取所述系列样本的个体基因分型数据；

基因分析模块，用于计算所述系列样本的单个遗传变异与结直肠肿瘤发病风险关联的比值比和95％置信区间，并形成汇总数据；

遗传位点提取及组合模块，根据所述汇总数据，获取所述系列样本结直肠肿瘤相关遗传位点的效应等位基因、效应值及P值，并形成结直肠肿瘤相关SNP位点组合模型；

评分模块，通过所述结直肠肿瘤相关SNP位点组合模型，并结合以下计算公式，对待评估样本进行结直肠肿瘤发病风险评分：

其中，i表示第i个SNP位点，i＝1～m，m表示SNP位点的总数，lnOR表示该SNP位点对于结直肠肿瘤的OR值的自然对数，j表示第i个SNP位点的基因型，Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变。

优选地，所述结直肠肿瘤相关SNP位点组合模型是采用不同的连锁不平衡r²和不同的显著性阈值P交叉构建的具有多个结直肠肿瘤相关候选SNP位点组合的模型；

优选地，所述模型中，具有9个结直肠肿瘤相关候选SNP位点组合；

进一步优选地，所述9个结直肠肿瘤相关候选SNP位点组合中，r²＝0.4、0.6、或者0.8，P值＝0.05、5×10^-4、或者5×10^-5；

更进一步优选地，采用logistic回归模型评估所述9个结直肠肿瘤相关候选SNP位点组合，比较各个组合的接收者操作特征曲线下面积，当AUC无统计学差异时，选择SNP位点个数较少的组合作为结直肠肿瘤相关SNP位点组合模型，当AUC有统计学差异时，选择AUC更高的组合作为结直肠肿瘤相关SNP位点组合模型。

优选地，所述质量控制模块中，对样本和SNP位点的筛选原则为：①保留哈迪温伯格平衡P值大于1e-6的位点；②保留最小等位基因频率(MAF)大于1％的位点；③保留检出率95％以上的位点；④保留检出率95％以上的样本；⑤过滤杂合率大于或小于三倍标准差的样本；⑥亲缘关系质控；⑦去除主成分分析离群的样本。

优选地，所述基因分析模块是采用logistic回归分析，以遗传变异的基因型剂量为自变量，以结直肠肿瘤样本或对照样本为因变量；优选地，以年龄、性别和前几个遗传主成分为协变量；优选为前4个遗传主成分。

优选地，所述结直肠肿瘤相关SNP位点组合模型是由连锁不平衡r²＝0.4和显著性阈值P＝5×10^-4交叉构建的模型。

第三方面，本发明提供一种存储介质，所述存储介质上有计算机程序，所述计算机程序被处理器执行时实现结直肠肿瘤多基因遗传风险评估模型的构建方法，所述构建方法包括：

获取符合分析标准的系列样本和所述系列样本的SNP位点；

获取所述系列样本的个体基因分型数据；

计算所述系列样本的单个遗传变异与结直肠肿瘤发病风险关联的比值比和95％置信区间，并形成汇总数据；

根据所述汇总数据，获取所述系列样本结直肠肿瘤相关遗传位点的效应等位基因、效应值及P值，并形成结直肠肿瘤相关SNP位点组合模型；

通过所述结直肠肿瘤相关SNP位点组合模型，并结合以下计算公式，对待评估样本进行结直肠肿瘤发病风险评分：

第四方面，本发明提供另一种存储介质，所述存储介质上有计算机程序，所述计算机程序被处理器执行时实现结直肠肿瘤多基因遗传风险评估模型的应用方法，所述应用方法包括：通过结直肠肿瘤多基因遗传风险评估模型计算待评估样本的风险评分；

所述结直肠肿瘤多基因遗传风险评估模型的构建方法包括：

获取符合分析标准的系列样本和所述系列样本的SNP位点；

获取所述系列样本的个体基因分型数据；

第五方面，本发明提供一种电子设备，所述电子设备包括：

一个或多个处理器；以及，

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现结直肠肿瘤多基因遗传风险评估模型的构建方法，所述结直肠肿瘤多基因遗传风险评估模型的构建方法包括：

获取符合分析标准的系列样本和所述系列样本的SNP位点；

获取所述系列样本的个体基因分型数据；

第六方面，本发明提供另一种电子设备，所述电子设备包括：

一个或多个处理器；以及，

存储装置，用于存储一个或多个程序，当所述一个或多个程序被一个或多个处理器执行，使得所述一个或多个处理器实现结直肠肿瘤多基因遗传风险评估模型的应用方法；

所述应用方法包括：通过结直肠肿瘤多基因遗传风险评估模型计算待评估样本的风险评分；

所述结直肠肿瘤多基因遗传风险评估模型的构建方法包括：

获取符合分析标准的系列样本和所述系列样本的SNP位点；

获取所述系列样本的个体基因分型数据；

本发明的评分系统可以快速、简洁、有效地用于结直肠肿瘤遗传风险评估和分级筛查。在实际应用中，一方面可联合环境风险评分进行综合风险评估，针对各个风险区域的人群进行准确评估。另一方面，可结合成熟的结肠镜和粪便潜血检测筛查技术，实现结直肠癌高风险人群的精准识别以及不同风险人群的筛查分流，可提高人群筛查依从性和阳性病变的检出率，将为实现结直肠癌个体化、精准化筛查策略的制定提供重要理论参考，对进一步提升我国结直肠癌筛查效果起到推动作用。

附图说明

图1为本发明的多基因遗传风险评分模型的构建流程图。

图2为本发明的多基因遗传风险评分模型的实际应用方式。

具体实施方式

在本发明的描述中，需要说明的是，实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。

下面结合附图和具体的实施例对本发明做进一步详细说明，所述是对本发明的解释而不是限定。

实施例1

结直肠肿瘤多基因遗传风险评分模型的构建，其过程如图1所示，具体如下：

本研究的数据来源于中国首个人群新型结直肠肿瘤筛查方案比较的多中心随机对照试验(Target-C研究，中国临床试验平台http://www.chictr.org.cn，注册号：ChiCTR1800015506)，此项目在全国6个地区(安徽合肥、湖南长沙、江苏徐州、云南昆明、浙江温岭、浙江兰溪)开展实施。

(1)GWAS关联分析

基于Target-C研究，课题组已完成研究样本的基因分型工作。在排除了缺少病理确诊结果、血液样本未通过分型质控的参与者后，最终纳入的研究对象为1058例，包括238例进展期腺瘤患者和820例健康对照受试者。个体基因分型数据由Infinium^TMChineseGenotyping Array芯片测得。质量控制和基因型填补后的基因分型数据用于GWAS关联分析。质量控制步骤包括：①保留哈迪温伯格平衡P值大于1e-6的位点；②保留最小等位基因频率(MAF)大于1％的位点；③保留检出率95％以上的位点；④保留检出率95％以上的样本；⑤过滤杂合率大于或小于三倍标准差的样本；⑥亲缘关系质控；⑦去除主成分分析离群的样本。

使用Plink v1.9软件进行全基因组关联分析，以遗传变异的基因型剂量为自变量，以病例(结直肠肿瘤)或对照状态为因变量，使用logistic回归分析计算单个遗传变异与结直肠肿瘤发病风险关联的比值比(Odds ratio，OR)和95％置信区间(Confidenceinterval，CI)。调整的协变量为年龄、性别和前四个遗传主成分。

(2)遗传位点的选择

基于上述全基因组关联分析的汇总数据，从中提取遗传位点的效应等位基因、效应值及P值。根据提取的P值，按照0.05、5×10^-4、5×10^-5三个值筛选出3组SNP位点，对于每组SNP位点，使用Plink软件(version 1.9)--clump命令按照不同的连锁不平衡(0.4、0.6、0.8)修剪，最终得到9组SNP位点组合。

(3)PRS模型的构建

本发明根据SNP位点的纳入情况，基于GWAS的汇总数据采用不同的连锁不平衡r²(0.4、0.6、0.8)和显著性阈值(P值＝0.05、5×10^-4、5×10^-5)构建9个候选SNP位点组合：r²＝0.4，P值＝0.05；r²＝0.4，P值＝5×10^-4；r²＝0.4，P值＝5×10^-5；r²＝0.6，P值＝0.05；r²＝0.6，P值＝5×10^-4；r²＝0.6，P值＝5×10^-5；r²＝0.8，P值＝0.05；r²＝0.8，P值＝5×10^-4；r²＝0.8，P值＝5×10^-5。

候选PRS确定后，对每个个体的PRS进行计算，计算公式如下：

其中，i表示第i个SNP位点，i＝1～m，m表示SNP位点的总数，lnOR表示该SNP位点对于结直肠肿瘤的OR值的自然对数，j表示第i个SNP位点的基因型，Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变。实际应用中，可以根据多基因遗传风险评分的百分位数划分遗传高危人群，遗传风险评分越高，个体患结直肠肿瘤的风险越高。

采用logistic回归模型评估这些候选PRS与结直肠肿瘤的关联，比较各个模型的接收者操作特征曲线下面积(Area Under receiving-operator characteristic Curve,AUC)，当AUC无统计学差异时，选择SNP位点个数较少的模型，当AUC有统计学差异时，选择AUC更高的模型。

2、多基因遗传风险评分模型的构建结果

经过上述统计处理步骤，当显著性阈值为5×10^-4且连锁不平衡r²为0.4时，所获得的SNP位点组合模型针对238例进展期腺瘤患者和820例健康对照受试者的预测效果最佳，纳入的SNP位点个数为127个。各SNP位点的信息和权重如下：

3、多基因遗传风险评分模型在人群筛查中的应用：

结合图2，该模型可以有效用于结直肠肿瘤遗传风险评估和分级筛查。在实际应用中，一般将多基因遗传风险评分居于人群前25％～30％的个体划分为遗传高风险人群，联合环境风险评分进行综合风险评估，建议高风险人群接受结肠镜筛查。而多基因遗传风险评分居于人群后70％～75％且环境风险评分也为低风险的个体，可以接受粪便免疫化学测试(Fecal Immunochemical Test，FIT)，FIT阳性个体建议进一步接受结肠镜检查，阴性个体可以继续参加下一年度的FIT筛查。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.检测个体信息的试剂在制备结直肠肿瘤多基因遗传风险的检测装置中的应用，其中，所述个体信息包括以下单核苷酸多态性位点信息：

2.根据权利要求1所述的应用，其特征在于，根据各单核苷酸多态性位点的信息获得满足以下计算公式的遗传风险评分：

优选地，遗传风险评分越高，个体患结直肠肿瘤的风险越高。

3.结直肠肿瘤多基因遗传风险评分系统，其特征在于，包括：

其中，i表示第i个SNP位点，i＝1～m，m表示SNP位点的总数，lnOR表示该SNP位点对于结直肠癌的OR值的自然对数，j表示第i个SNP位点的基因型，Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变。

4.根据权利要求3所述的结直肠肿瘤多基因遗传风险评分系统，其特征在于，所述结直肠肿瘤相关SNP位点组合模型是采用不同的连锁不平衡r²和不同的显著性阈值P交叉构建的具有多个结直肠肿瘤相关候选SNP位点组合的模型；

5.根据权利要求3或4所述的结直肠肿瘤多基因遗传风险评分系统，其特征在于，所述质量控制模块中，对样本和SNP位点的筛选原则为：①保留哈迪温伯格平衡P值大于1e-6的位点；②保留最小等位基因频率(MAF)大于1％的位点；③保留检出率95％以上的位点；④保留检出率95％以上的样本；⑤过滤杂合率大于或小于三倍标准差的样本；⑥亲缘关系质控；⑦去除主成分分析离群的样本。

6.根据权利要求3～5任一项所述的结直肠肿瘤多基因遗传风险评分系统，其特征在于，所述基因分析模块是采用logistic回归分析，以遗传变异的基因型剂量为自变量，以结直肠肿瘤样本或对照样本为因变量；优选地，以年龄、性别和前几个遗传主成分为协变量；优选为前4个遗传主成分。

7.根据权利要求3～6任一项所述的结直肠肿瘤多基因遗传风险评分系统，其特征在于，所述结直肠肿瘤相关SNP位点组合模型是由连锁不平衡r²＝0.4和显著性阈值P＝5×10^-4交叉构建的模型。

8.一种存储介质，其特征在于，所述存储介质上有计算机程序，所述计算机程序被处理器执行时实现结直肠肿瘤多基因遗传风险评估模型的构建方法，所述构建方法包括：

获取符合分析标准的系列样本和所述系列样本的SNP位点；

获取所述系列样本的个体基因分型数据；

9.一种存储介质，其特征在于，所述存储介质上有计算机程序，所述计算机程序被处理器执行时实现结直肠肿瘤多基因遗传风险评估模型的应用方法，所述应用方法包括：通过结直肠肿瘤多基因遗传风险评估模型计算待评估样本的风险评分；

所述结直肠肿瘤多基因遗传风险评估模型的构建方法包括：

获取符合分析标准的系列样本和所述系列样本的SNP位点；

获取所述系列样本的个体基因分型数据；

10.一种电子设备，其特征在于：所述电子设备包括：

一个或多个处理器；以及，

获取符合分析标准的系列样本和所述系列样本的SNP位点；

获取所述系列样本的个体基因分型数据；

其中，i表示第i个SNP位点，i＝1～m，m表示SNP位点的总数，lnOR表示该SNP位点对于结直肠肿瘤的OR值的自然对数，j表示第i个SNP位点的基因型，Gi,j分别用0、1、2表征没有突变、杂合突变和纯合突变；

或者，所述电子设备包括：

一个或多个处理器；以及，

所述结直肠肿瘤多基因遗传风险评估模型的构建方法包括：

获取符合分析标准的系列样本和所述系列样本的SNP位点；

获取所述系列样本的个体基因分型数据；