CN117219166B - 一种高度近视致病变异体的筛选方法、系统及设备 - Google Patents

一种高度近视致病变异体的筛选方法、系统及设备 Download PDF

Info

Publication number
CN117219166B
CN117219166B CN202311176549.1A CN202311176549A CN117219166B CN 117219166 B CN117219166 B CN 117219166B CN 202311176549 A CN202311176549 A CN 202311176549A CN 117219166 B CN117219166 B CN 117219166B
Authority
CN
China
Prior art keywords
sample
data
variation
mutation
screening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311176549.1A
Other languages
English (en)
Other versions
CN117219166A (zh
Inventor
郁相宜
于晓光
杜政霖
邢世来
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Puxi And Optogene Technology Co ltd
Original Assignee
Shanghai Puxi And Optogene Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Puxi And Optogene Technology Co ltd filed Critical Shanghai Puxi And Optogene Technology Co ltd
Priority to CN202311176549.1A priority Critical patent/CN117219166B/zh
Publication of CN117219166A publication Critical patent/CN117219166A/zh
Application granted granted Critical
Publication of CN117219166B publication Critical patent/CN117219166B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种高度近视致病变异体的筛选方法、系统及设备。所述方法包括:获取待测样本的外显子测序数据及临床数据;从所述待测样本的外显子测序数据中筛选得到变异数据;对所述变异数据进行注释得到变异体的注释信息;基于所述待测样本的临床数据和注释信息中的变异计数预测待测样本是否为高度近视;如果所述待测样本为高度近视,将损伤性错义变异和/或功能丧失变异所在的基因和数据集中高度近视样本进行关联分析,筛选出高度近视相关的候选基因及基因上的变异体;分析所述候选基因在眼部组织单细胞转录表达情况,得到高度近视致病变异体。本申请可协助临床医生分析患者的高度近视致病原因,具有重要的临床应用价值。

Description

一种高度近视致病变异体的筛选方法、系统及设备
技术领域
本发明涉及计算机数据处理领域,更具体地,涉及一种高度近视致病变异体的筛选方法、系统、设备及存储介质。
背景技术
高度近视通常定义为屈光度小于–6.00D或眼轴长度大于26.0mm,其发病机制尚不清楚。我国青少年近视比例随年龄增长不断上升。高度近视除影响正常视觉功能外,还会大幅增加视网膜脱落、青光眼、黄斑变性等致盲性眼病的发生风险。许多研究表明遗传因素在近视中发挥着至关重要的作用,其中,在高度近视中更为明显。超高度近视为屈光度小于-10.0D的严重高度近视,其引发严重眼部后遗症的概率比起高度近视患者大大增加,且受遗传因素的影响更大。虽然人们已经认识到近视具有高度的遗传性,但直到最近,在剖析高度近视遗传背景方面才取得了重大进展。双胞胎和家族研究表明,高度近视的遗传率很高,估计约为90%。由于眼球的复杂结构,解释高度近视的遗传机制也比较困难。高度近视存在许多可叠加、影响较小的遗传变异,在眼球所有组织及细胞都有表达,通常与已知的神经传递或细胞外基质功能有关。尽管对高度近视家系和双胞胎的研究以及对高度近视的分子遗传学研究表明,高度近视具有强大的遗传性(在大型家系研究中具有55%的遗传性,在双胞胎研究中的遗传性超过80%,近视的阳性率超过50%),但确定与潜在的高度近视相关的位点仍然是一个挑战。
发明内容
为解决上述问题,发明人团队基于对高度近视疾病的发病特点公开了一种高度近视致病变异体的筛选方法,并采用此方法进行了高度近视致病基因的筛选,动物实验结果表明,采用本发明提供的筛选方法得到的候选基因和高度近视密切相关,敲除基因后,眼轴增长、屈光度下降。
本申请公开了一种高度近视致病变异体的筛选方法,所述方法包括:
获取待测样本的外显子测序数据及临床数据;
将所述外显子测序数据与人类参考基因组序列进行比对,从所述待测样本的外显子测序数据中筛选得到变异数据;优选的,所述变异包括单核苷酸变异、插入和/或删除变异;
对所述变异数据进行注释得到变异体的注释信息,所述注释信息包括下列中的任意一种或几种:同义变异、良性的错义变异、损伤性错义变异、功能丧失变异;
基于所述待测样本的临床数据和注释信息中的变异计数预测待测样本是否为高度近视;
如果所述待测样本为高度近视,将损伤性错义变异和/或功能丧失变异所在的基因和数据集中高度近视样本进行关联分析,筛选出高度近视相关的候选基因及基因上的变异体;优选的,所述数据集为公共或自有测序的含变异数据的数据集;
分析所述候选基因在眼部组织单细胞转录表达情况,筛选出在眼部组织单细胞转录表达显著的眼部相关候选基因,所述眼部相关候选基因上的变异体作为高度近视致病变异体。
如果所述待测样本不是高度近视,则终止筛选。
进一步,所述注释信息中的变异计数包括下列中的一种或几种:变异的全外显子计数、同义变异计数、良性的错义变异计数、损伤性错义变异计数、功能丧失变异计数;具体为:将所述待测样本的临床数据和注释信息中的变异计数输入逻辑回归模型得到预测样本是否为高度近视的分类结果。
进一步,所述基于所述待测样本的临床数据和注释信息中的变异计数预测待测样本是否为高度近视,具体为:基于所述待测样本的临床数据、同义变异计数、良性的错义变异计数预测样本是否为高度近视。
本申请的目的在于提供一种高度近视致病变异体的筛选方法,包括:
获取数据集中样本的外显子测序数据及分类标签,所述标签为高度近视病例和对照;
将所述外显子测序数据与人类参考基因组序列进行比对,从所述样本的外显子测序数据中筛选得到变异数据;优选的,所述变异包括单核苷酸变异、插入和/或删除变异;
对所述变异数据进行注释得到变异体的注释信息,所述注释信息包括损伤性错义变异和/或功能丧失变异;
将所述损伤性错义变异和/或功能丧失变异所在的基因和数据集中高度近视样本进行关联分析,筛选出高度近视相关的候选基因及基因上的变异体;
分析所述候选基因在眼部组织单细胞转录表达情况,筛选出在眼部组织单细胞转录表达显著的眼部相关候选基因,所述眼部相关候选基因上的变异体作为高度近视致病变异体。
进一步,所述方法还包括对所述变异数据进行质量控制,所述质量控制包括:排除样本:如果样本的平均召回率<0.9、平均测序深度<10或平均基因型质量低<65,则排除样本;和/或样本中转换/颠换比、杂合/纯合子比或插入/缺失率为异常值,则排除样本;和/或排除X染色体近亲繁殖系数<0.8到>0.4之间的样本;排除变异位点:设置基因型深度<10、基因型质量<20的基因型以及等位基因平衡率>0.8或<0.2的杂合基因型为缺失,排除缺失率>1,高度近视病例-对照缺失率<0.995的变异位点,以及在基于合并病例对照队列的Hardy-Weinberg均衡(HWE)检验中,P<1×10-6的变异位点。
进一步,采用变异效应预测软件对所述变异数据进行注释得到变异体的注释信息,所述注释信息包括:同义变异、良性的错义变异、损伤性错义变异、功能丧失变异及变异的计数,所述计数包括变异的全外显子计数、同义变异计数、良性的错义变异计数、损伤性错义变异计数、功能丧失变异计数、良性变异计数。
本申请的目的在于提供一些筛选得到的高度近视的候选基因,所述候选基因包括下列中的一种或几种:VN1R4、KDELR3、ARHGEF3、CCDC85A、USP31、TGM7、ELOVL2、AXIN1、KIAA1191、C22orf46。优选的,所述候选基因为KDELR3、VN1R4。
本申请的目的在于提供一种高度近视致病变异体的筛选设备,包括:存储器和处理器;所述存储器用于存储程序指令;所述处理器用于调用程序指令,当程序指令被执行上述的高度近视致病变异体的筛选方法步骤。
本申请的目的在于提供一种计算机程序产品,所述产品包括计算机程序,所述计算机程序被处理器执行时实现上述的高度近视致病变异体的筛选方法步骤。
本申请的目的在于提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的高度近视致病变异体的筛选方法步骤。
本申请的优点:
1.本申请提供了一种高度近视致病变异体的筛选方法,基于待测样本的外显子测序得到变异数据,通过将变异数据计数和临床数据输入逻辑回归模型,预测待测样本是否为高度近视,当待测样本为高度近视时,基于待测样本的变异数据中的损伤性错义变异和/或功能丧失变异和高度近视数据集中的基因水平进行关联分析,筛选到候选基因,再通过和眼部组织单细胞转录表现数据进行富集,进一步筛选到和高度近视致病相关的候选基因及变异体;
2.基于本申请的研究结果,在筛选过程中创造性的将损伤性错义变异和功能丧失变异这两种主要驱动高度近视的变异作为筛选条件,为后续高效筛选高度近视相关候选基因打下基础;此外,为了使得筛选的基因具有特异性,在筛选过程中引入眼部组织单细胞转录数据进行富集,使得整个筛选方法特异且高效;
3.本申请提供了两种筛选方法,一种是针对待测样本的高度近视致病变异体筛选,一种是针对公共数据集或自有测序数据的候选基因挖掘,前者可协助临床医生分析患者的高度近视致病原因;后者可协助公司或团队筛选候选基因进行后续研发;
4.为了提高筛选效果,本申请进一步提供了质控控制方法,包括异常样本或变异位点的排除标准。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。
图1是本发明实施例提供的一种高度近视致病变异体的筛选方法示意流程图;
图2是本发明实施例提供的一种高度近视致病变异体的筛选设备示意图;
图3是本发明实施例提供的一种高度近视致病变异体的筛选系统示意图;
图4是本发明实施例提供的视网膜中心凹单细胞分析中候选基因KDELR3在成纤维细胞(FB)中高表达结果图;
图5是本发明实施例提供的视网膜外周单细胞分析中候选基因KDELR3在成纤维细胞(FB)中高表达结果图;
图6是本发明实施例提供的脉络膜单细胞分析中候选基因KDELR3在成纤维细胞(FB)中高表达结果图;
图7是本发明实施例提供的巩膜单细胞分析中候选基因KDELR3在成纤维细胞(FB)中高表达结果图;
图8是本发明实施例提供的一种在斑马鱼进行候选基因KDELR3基因敲除实验结果。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的一种高度近视致病变异体的筛选方法示意流程图,具体地,所述方法包括如下步骤:
S101:获取待测样本的外显子测序数据及临床数据;
在一个实施例中,获取待测口腔拭子样本,进行DNA提取,采用Twist人类核心外显子试剂盒,并使用Illumina NovaSeq 6000测序仪进行全外显子组测序。
在一个实施例中,所述临床数据还包括样本性别和PCA主成分分析结果中排序前10个PC的样本人口结构。
在一个实施例中,所述外显子测序数据为全外显子测试数据。全外显子测序技术(Whole Exome Sequencing,以下简称WES)是指基于人类基因组外显子区DNA捕获富集后进行高通量测序的技术。
DNA序列由A、G、C、T四种碱基组成,测序实际上就是通过仪器得到由这四种碱基组成的一条很长的字符串。外显子测序技术就是将位于外显子区域的DNA捕获并富集,通过测序得到外显子区域的字符串。所以,使用外显子测序数据检测病人的基因变异成为研究人类疾病主要方式之一。WES原始序列经过序列预处理、序列比对、变异识别、信息注释和变异过滤的生物信息学分析,并由遗传分析人员综合考虑人群频率、变异质量、变异对蛋白的影响程度、表型关联和病例报道等信息,从数百万个变异中找到引起相应疾病的变异位点。针对WES变异位点的主要方法包括以下步骤:1)构建符合注释软件要求的人群频率文件;2)构建符合注释软件要求的变异致病性文件;3)采用变异注释软件,如VEP(Ensembl VariantEffect Predictor),对变异识别输出的多个vcf文件分别进行数据库注释,获得每个变异位点的人群频率、致病性信息;4)构建质量和人群频率阈值、致病性规则,过滤掉低质量、高频率和良性变异,得到可用于医学遗传分析的变异结果文件。
S102:将所述外显子测序数据与人类参考基因组序列进行比对,从所述待测样本的外显子测序数据中筛选得到变异数据;
在一个具体实施例中,外显子组测序得到的序列片段使用Burrows–WheelerAligner(BWA 0.7.12)比对至37号人类参考基因组序列(GRCh37)上。随后,采用Sambamba0.6.6对测序片段进行染色体坐标的排序和重复序列的标记。最后,采用一系列基因组分析工具组合包(GATK 4.0.11.0)区分单核苷酸变异(SNVs)和插入或删除变异(indels)。
在一个实施例中,还包括对S102得到的变异数据进行质量控制,所述质量控制包括:(1)排除样本:如果样本的平均召回率<0.9、平均测序深度<10或平均基因型质量低<65,则排除样本;和/或样本中转换/颠换比、杂合/纯合子比或插入/缺失率为异常值,则排除样本;和/或排除X染色体近亲繁殖系数<0.8到>0.4之间的样本;(2)排除变异位点:设置基因型深度<10、基因型质量<20的基因型以及等位基因平衡率>0.8或<0.2的杂合基因型为缺失,排除缺失率>1,高度近视病例-对照缺失率<0.995的变异位点,以及在基于合并病例对照队列的Hardy-Weinberg均衡(HWE)检验中,P<1×10-6的变异位点。
在一个实施例中,所述质量控制还包括:为了缓解因召回率差异造成的混淆,本申请使用了基于位点的过滤策略,如果病例百分比与对照组相比的绝对差异超过0.007,则显示有外显子序列位点靶向的个体被排除在分析之外,基于位点的过滤导致2.42%的目标外显子序列碱基被排除在各自的分析之外,以缓解与差异召回率相关的问题。此外,本申请去除了2.36%的目标外显子序列碱基,这些碱基在召回率关联测试中达到了全基因组显著性阈值(P<1×10-6)(Fisher精确测试中的双侧P值)。
S103:对所述变异数据进行注释得到变异体的注释信息,所述注释信息包括下列中的任意一种或几种:同义变异、良性的错义变异、损伤性错义变异、功能丧失变异;
在一个实施例中,采用变异效应预测软件对所述变异数据进行注释得到变异体的注释信息,所述注释信息包括:同义变异、良性的错义变异、损伤性错义变异、功能丧失变异及变异的计数,所述计数包括变异的全外显子计数、同义变异计数、良性的错义变异计数、损伤性错义变异计数、功能丧失变异计数、良性变异计数。具体的,实验采用Ensembl的变异效应预测软件(VEP v.99)进行变异的注释。优选的,变异类型包括可变剪切、无义突变、移码插入/删除、良性的错义变异、损伤性错义变异、非移码插入/删除、同义变异和未知变异。
S104:基于所述待测样本的临床数据和注释信息中的变异计数预测待测样本是否为高度近视;
在一个实施例中,所述注释信息中的变异计数包括下列中的一种或几种:变异的全外显子计数、同义变异计数、良性的错义变异计数、损伤性错义变异计数、功能丧失变异计数;具体为:将所述待测样本的临床数据和注释信息中的变异计数输入分类模型得到预测样本是否为高度近视的分类结果。更具体的,所述分类模型为训练好的分类模型,所述分类模型的训练过程包括:获取高度近视病例与对照组(正常视力)的外显子测序数据和临床数据及分类标签,所述临床数据包括性别、人口结构等;模型采用变异计数、临床数据、变异的全外显子计数、同义变异计数、良性的错义变异计数、损伤性错义变异计数、功能丧失变异计数、良性变异计数(同义变异计数+良性的错义变异计数)作为输入变量对分类器进行分类模型训练,生成预测结果,将所述预测结果与实际分类标签进行比对生成损失函数,优化模型,得到训练好的分类模型。在一个具体实施例中,申请人给予不同的输入变量构建了多个逻辑回归模型,结果显示,输入为变异计数、临床数据、良性变异计数的模型在预测样本是否为高度近视时效果最佳。
所述分类模型可采用常见的机器学习模型,所述机器学习模型可以使用训练输入数据进行训练。示例使用被称为“监督学习”的训练方法。在监督学习中,使用多个训练样本来训练机器学习模型,其中每个样本可以包括多个输入数据值和多个期望输出值,即:每个训练样品与期望输出值相关联。通过指定训练样品和期望输出值,机器学习模型基于与训练期间提供的样品相似的输入样品,“学习”提供哪个输出值。除了监督学习之外,还可以使用半监督学习。在半监督学习中,一些训练样本缺少对应的期望输出值。监督学习可以基于监督学习算法、例如分类算法、回归算法或相似度学习算法来进行。当输出被限制为一组有限的值时,可以使用分类算法,即:将输入归类到一组有限的值中的一个值。当输出可以具有任何数值(在某个范围内)时,可以使用回归算法。相似度学习算法可以类似于分类算法和回归算法,但是基于使用测量两个对象的相似或相关程度的相似度函数从示例中进行学习。除了监督或半监督学习之外,还可以使用无监督学习来训练机器学习模型。在无监督学习中,可以(仅)提供输入数据,并且可以使用无监督学习算法来找到输入数据中的结构,例如,通过对输入数据进行分组或聚类,找到数据中的共性。聚类是将包括多个输入值的输入数据分配到子集(聚类)中,从而根据一个或多个(预定义的)相似度标准,同一聚类内的输入值是相似的,但与包含在其他聚类中的输入值不相似。
所述分类模型的算法可采用下列中的一种或几种:逻辑回归算法、朴素贝叶斯分类、支持向量机、k近邻、决策树、随机森林、xgboost、感知机算法、GBM、NNET。
S105:如果所述待测样本为高度近视,将损伤性错义变异和/或功能丧失变异所在的基因和数据集中高度近视样本进行关联分析,筛选出高度近视相关的候选基因及基因上的变异体;
在一个实施例中,所述关联分析方法包括Fisher's exact test、SKAT和SKAT-O。
在一个实施例中,可以将同义变异、良性的错义变异、损伤性错义变异和/或功能丧失变异所在的基因和数据集中高度近视样本进行关联分析。可选的,发明人团队基于研究表明,相对于对照组,高度近视病例中罕见的功能丧失变异和损伤性错义变异明显富集,故而优选损伤性错义变异和/或功能丧失变异所在的基因进行关联分析,从而实现高效筛选。
在一个实施例中,将损伤性错义变异和/或功能丧失变异所在的基因与高度近视的关联分析为:分析得到变异所在的基因在数据集和验证集的病例和对照组的等位基因频率,分别基于logistic回归模型和Fisher精确检验等分析各变异所在的基因与是否高度近视进行关联分析,p<0.05的关联被定义为显著突变。以基因为单位,将变异累积到基因上进行统计,分析基因在高度近视与正常视力对照中的差异;将各变异类型组合分别基于logistic回归模型和Fisher精确检验进行基因负荷分析,得到不同组合下的风险基因排序结果。
S106:分析所述候选基因在眼部组织单细胞转录表达情况,筛选出在眼部组织单细胞转录表达显著的眼部相关候选基因,所述眼部相关候选基因上的变异体作为高度近视致病变异体。
在一个具体实施例中,基于本申请提供的方法筛选得到的高度近视的候选基因,所述候选基因包括下列中的一种或几种:VN1R4、KDELR3、ARHGEF3、CCDC85A、USP31、TGM7、ELOVL2、AXIN1、KIAA1191、C22orf46。优选的,所述候选基因为KDELR3、VN1R4。
单细胞测序能够获得每个细胞的转录组表达图谱,通过单个细胞的图谱精确划分克隆归属,实现对异质性克隆群体的全面解析。分析候选基因在眼部组织单细胞转录表达情况有利于进一步筛选出和高度近视密切相关的变异体。
在一个实施例中,眼部组织单细胞转录表达情况是基于单细胞高通量测序得到的。具体的,用Illumina NovaSeq 6000或BGISEQ DNBSEQ-T7测序仪对眼部组织样本的单细胞RNA文库进行测序,对单细胞测序分析后,进行全局细胞类型鉴定,样本的单细胞转录组测序数据进行分析,采用二次过滤,去除低质量细胞,鉴定全局细胞类型。示例性的,所述眼部组织中细胞类型包括FB、ACT、CM、CEC等。
本发明实施例提供的另一种高度近视致病变异体的筛选方法,包括:
获取数据集中样本的外显子测序数据及分类标签,所述标签为高度近视病例和对照;
将所述外显子测序数据与人类参考基因组序列进行比对,从所述样本的外显子测序数据中筛选得到变异数据;
对所述变异数据进行注释得到变异体的注释信息,所述注释信息包括损伤性错义变异和/或功能丧失变异;
将所述损伤性错义变异和/或功能丧失变异所在的基因和数据集中高度近视样本进行关联分析,筛选出高度近视相关的候选基因及基因上的变异体;
分析所述候选基因在眼部组织单细胞转录表达情况,筛选出在眼部组织单细胞转录表达显著的眼部相关候选基因,所述眼部相关候选基因上的变异体作为高度近视致病变异体。
在一个具体实施例中,对2万例人进行口腔拭子采样,从中筛选出449例高度近视病例及449例正常视力对照样本,对口腔拭子样本进行遗传物质DNA提取;对21227个DNA样本进行全外显子组测序。采用Twist人类核心外显子试剂盒,并使用Illumina NovaSeq6000测序仪进行全外显子组测序。测序得到的序列片段使用Burrows–Wheeler Aligner(BWA 0.7.12)比对至37号人类基因组序列(GRCh37)上。随后,采用Sambamba 0.6.6对测序片段进行染色体坐标的排序和重复序列的标记。最后,采用一系列基因组分析工具组合包(GATK 4.0.11.0)区分单核苷酸变异(SNVs)和插入或删除变异(indels);质量控制。本实验首先保留了通过了GATK VQSR(变异质量分数重校准)的度量标准,以及位于低复杂区域以外的读段。基因型深度(DP)<10、基因型质量(GQ)<20的基因型以及等位基因平衡率>0.8或<0.2的杂合基因型被设置为缺失。本实验还排除了缺失率>1,病例-对照缺失率<0.995的变异位点,以及在基于合并病例对照队列的Hardy-Weinberg均衡(HWE)检验中,P<1×10-6的那些变异位点。此外,如果样本的平均召回率低(<0.9)、平均测序深度低(<10)或平均基因型质量低(<65),则排除样本。最后,排除每个队列中转换/颠换比、杂合/纯合子比或插入/缺失率的异常值(距离平均值>4SD);X染色体近亲繁殖系数>0.8的样本被归类为雄性,X染色体近亲繁殖系数<0.4的样本被归类为雌性。从数据集中排除<0.8到>0.4之间的样本,这些样本被归类为显示不明确的性别状态。为了缓解因召回率差异造成的混淆,我们使用了一种基于位点的过滤策略。如果病例百分比与对照组相比的绝对差异超过0.007,则显示有外显子序列位点靶向的个体被排除在分析之外。基于位点的过滤导致2.42%的目标外显子序列碱基被排除在各自的分析之外,以缓解与差异召回率相关的问题。此外,我们去除了2.36%的目标外显子序列碱基,这些碱基在召回率关联测试中达到了全基因组显著性阈值(P<1×10-6)(Fisher精确测试中的双侧P值)。变异位点的注释。实验采用Ensembl的变异效应预测软件(VEP v.99)对人类基因组GRCh37进行变异的注释。我们将蛋白质编码变体分为以下四类:(1)同义变异(2)良性的错义变异;(3)损伤性的错义突变;(4)功能丧失变异(PTV)。
在一个具体实施例中,为了预测待测样本是否为高度近视,构建了多个逻辑回归模型。筛选样本:筛选449名双眼高度近视的患者作为研究对象,并从9606名对照组中随机抽取449名作为高度近视队列的第二个对照组,以此进行重复分。为了确定高度近视病例与对照组中是否存在某类变异的富集,我们应用了多个Firth逻辑回归(Firth-logisticregression)模型。(1)模型1仅从变异计数预测高度近视病例-对照状态(2)模型2纳入了多个协变量(样本性别和PCA主成分分析结果中排序前10个PC的样本人口结构)(3)模型3纳入了第二个模型中使用的所有协变量以及样本总外显子组计数,即测试的特定频率类中的变异的全外显子计数。(4)模型4在模型2基础上,增加了良性变异(同义变异加良性错义突变)的计数作为协变量。(5)模型5与模型3、4相似,但将增加的协变量改为功能丧失变异、损伤性错义变异和同义变异。五个Firth逻辑回归模型被用来从全外显子组的同义变异、良性错义突变、有害错义突变和功能丧失变异的计数中预测病例-对照的致病状态。我们使用Firth逻辑回归模型对高度近视病例中与近视相关的基因进行了富集分析。模型根据优势比(odds ratio,OR)及P值判断变异的富集状态。若优势比大于1,被认为高度近视拥有更多的特定类型变异,并是高度近视致病的危险因素。P值小于0.05被认为具有显著性。模型4被作为我们分析的首选模型(结果见表1)。在此模型中,我们观察到相对于对照组,超高度近视病例中罕见的功能丧失变异(OR=1.08,P=7.14×10-6)和损伤性错义变异(OR=1.02,P=0.0149)明显富集,这一结果在验证队列(449:449)中也保持一致(功能丧失变异:OR=1.08,P=0.0374;损伤性错义变异:OR=1.06,P=0.000366)。逻辑回归没有证据表明在罕见的同义变异和良性错义变异中有着显著的负荷。因此,同义变异及良性变异可被视为阴性对照,表明有害的致病变异的富集不太可能是由人群分层或人为造成的。以上结果说明,在遗传学上,超高度近视的成因主要是由功能丧失变异及损伤性错义变异驱动的。
表1预测待测样本是否为高度近视的模型结果
在一个实施例中,基于损伤性错义变异和/或功能丧失变异所在的基因和数据集中高度近视样本进行关联分析,具体为,为了确定在高度近视病例中单个基因是否富集或耗尽了罕见的蛋白质编码变异,我们进行了三种基因水平的关联测试,包括Fisher'sexact test、SKAT和SKAT-O,以及先前定义的协变量(样本性别,PC1-PC10)。关联测试的对象包括以下两种变异:一种针对罕见的PTVs,另一种针对罕见的损伤性错义变异。通过聚合一个基因中多个高度近视罕见因果变异的影响,可以提高挖掘单个基因导致高度近视的能力。我们发现,通过Fisher精确检验,有两个基因P值达到了外显子意义上的显著阈值,其基因上的变异更有可能与高度近视相关(结果见表2)。本发明中新发现了KDELR3及VN1R4两个基因作为高度近视的候选基因,经过fisher’s精确分析,我们发现了其与高度近视非常相关。
表2基于关联分析筛选的部分候选基因
在一个实施例中,分析所述候选基因在眼部组织单细胞转录表达情况,眼部不同组织的单细胞转录表达分析的所有数据在R3.6平台中,使用Seurat单细胞分析软件包(4.3.0)进行处理分析。在单细胞分析中,我们发现KDELR3在视网膜中心凹、视网膜外周、脉络膜及巩膜中的成纤维细胞中具有显著表达,结果见图4-7,证明了KDELR3这一基因的高度近视病因学,即通过影响成纤维细胞的表达而引起的轴性近视。通过增加候选基因在眼部组织单细胞转录表达情况的分析这个步骤,不仅起到进一步筛选的作用,还可以有利于发现候选基因引起高度近视的致病机制。
在一个实施例中,采用常规的斑马鱼基因敲除实验,敲除候选上面筛选得到的候选基因KDELR3。斑马鱼(Danio rerio)是一种常用的实验动物模型,因其易于繁殖、发育迅速以及透明胚胎等特点,在生物学研究中被广泛用于遗传学、发育生物学、毒理学等领域。基因敲除实验是一种常见的遗传工具,用于研究特定基因的功能。基因敲除后,通过研究斑马鱼的发育、行为、生理、分子和细胞层面的变化与正常个体的差异,从而了解KDELR3基因的功能。实验结果表明,KDELR3的敲除导致斑马鱼的眼轴增长,屈光度下降,具体结果见图8。从动物实验验证了采用本申请提供的高度近视致病变异体的筛选方法的有效性,采用本申请提供的筛选方法筛选到的候选基因经过动物验证,的确和高度近视非常相关。
图2是本发明实施例提供的一种高度近视致病变异体的筛选系统,包括:
获取单元201,用于获取待测样本的外显子测序数据及临床数据;
变异数据筛选单元202,用于将所述外显子测序数据与人类参考基因组序列进行比对,从所述待测样本的外显子测序数据中筛选得到变异数据;
变异数据注释单元203,用于对所述变异数据进行注释得到变异体的注释信息,所述注释信息包括下列中的任意一种或几种:同义变异、良性的错义变异、损伤性错义变异、功能丧失变异;
分类单元204,用于基于所述待测样本的临床数据和注释信息中的变异计数预测待测样本是否为高度近视;
关联分析单元205,用于将损伤性错义变异和/或功能丧失变异所在的基因和数据集中高度近视样本进行关联分析,筛选出高度近视相关的候选基因及基因上的变异体;
候选基因筛选单元206,用于分析所述候选基因在眼部组织单细胞转录表达情况,筛选出在眼部组织单细胞转录表达显著的眼部相关候选基因,所述眼部相关候选基因上的变异体作为高度近视致病变异体。
本发明实施例提供的另一种高度近视致病变异体的筛选系统,包括:
获取单元,用于获取数据集中样本的外显子测序数据及分类标签,所述标签为高度近视病例和对照;
变异数据筛选单元,用于将所述外显子测序数据与人类参考基因组序列进行比对,从所述待测样本的外显子测序数据中筛选得到变异数据;
变异数据注释单元,用于对所述变异数据进行注释得到变异体的注释信息,所述注释信息包括损伤性错义变异和/或功能丧失变异;
关联分析单元,用于将所述损伤性错义变异和/或功能丧失变异所在的基因和数据集中高度近视样本进行关联分析,筛选出高度近视相关的候选基因及基因上的变异体;
候选基因筛选单元,用于分析所述候选基因在眼部组织单细胞转录表达情况,筛选出在眼部组织单细胞转录表达显著的眼部相关候选基因,所述眼部相关候选基因上的变异体作为高度近视致病变异体。
本发明实施例提供的一种高度近视致病变异体的筛选系统/机程序产品,所述产品包括计算机程序,所述计算机程序被处理器执行时实现上述的高度近视致病变异体的筛选方法步骤。
图3是本发明实施例提供的一高度近视致病变异体的筛选设备,所述设备包括:存储器和处理器;
所述存储器用于存储程序指令;所述处理器用于调用程序指令,当程序指令被执行时实现上述的高度近视致病变异体的筛选方法步骤。
本发明的一个目的在于提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的高度近视致病变异体的筛选步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上对本发明所提供的一种计算机设备进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (19)

1.一种高度近视致病变异体的筛选方法,其特征在于,所述方法包括:
获取待测样本的外显子测序数据及临床数据;
将所述外显子测序数据与人类参考基因组序列进行比对,从所述待测样本的外显子测序数据中筛选得到变异数据;
对所述变异数据进行注释得到变异体的注释信息,所述注释信息包括下列中的任意一种或几种:同义变异、良性的错义变异、损伤性错义变异、功能丧失变异;
基于所述待测样本的临床数据和注释信息中的变异计数预测待测样本是否为高度近视;
如果所述待测样本为高度近视,将损伤性错义变异和/或功能丧失变异所在的基因和数据集中高度近视样本进行关联分析,筛选出高度近视相关的候选基因及基因上的变异体;
分析所述候选基因在眼部组织单细胞转录表达情况,筛选出在眼部组织单细胞转录表达显著的眼部相关候选基因,所述眼部相关候选基因上的变异体作为高度近视致病变异体。
2.根据权利要求1中所述的高度近视致病变异体的筛选方法,其特征在于,所述注释信息中的变异计数包括下列中的一种或几种:变异的全外显子计数、同义变异计数、良性的错义变异计数、损伤性错义变异计数、功能丧失变异计数。
3.根据权利要求1中所述的高度近视致病变异体的筛选方法,其特征在于,将所述待测样本的临床数据和注释信息中的变异计数输入分类模型得到预测样本是否为高度近视的分类结果。
4.根据权利要求1中所述的高度近视致病变异体的筛选方法,其特征在于,将所述待测样本的临床数据和注释信息中的变异计数输入逻辑回归模型得到预测样本是否为高度近视的分类结果。
5.根据权利要求1中所述的高度近视致病变异体的筛选方法,其特征在于,所述数据集为公共或自有测序的含变异数据的数据集。
6.根据权利要求1中所述的高度近视致病变异体的筛选方法,其特征在于,所述变异包括单核苷酸变异、插入和/或删除变异。
7.根据权利要求1中所述的高度近视致病变异体的筛选方法,其特征在于,所述基于所述待测样本的临床数据和注释信息中的变异计数预测待测样本是否为高度近视。
8.根据权利要求2中所述的高度近视致病变异体的筛选方法,其特征在于,基于所述待测样本的临床数据、同义变异计数、良性的错义变异计数预测样本是否为高度近视。
9.一种高度近视致病变异体的筛选方法,其特征在于,所述方法包括:
获取数据集中样本的外显子测序数据及分类标签,所述标签为高度近视病例和对照;
将所述外显子测序数据与人类参考基因组序列进行比对,从所述样本的外显子测序数据中筛选得到变异数据;
对所述变异数据进行注释得到变异体的注释信息,所述注释信息包括损伤性错义变异和/或功能丧失变异;
将所述损伤性错义变异和/或功能丧失变异所在的基因和数据集中高度近视样本进行关联分析,筛选出高度近视相关的候选基因及基因上的变异体;
分析所述候选基因在眼部组织单细胞转录表达情况,筛选出在眼部组织单细胞转录表达显著的眼部相关候选基因,所述眼部相关候选基因上的变异体作为高度近视致病变异体。
10.根据权利要求1-9任意一项所述的高度近视致病变异体的筛选方法,其特征在于,所述方法还包括对所述变异数据进行质量控制,所述质量控制包括:
排除样本:如果样本的平均召回率<0.9、平均测序深度<10或平均基因型质量低<65,则排除样本。
11.根据权利要求10中所述的高度近视致病变异体的筛选方法,其特征在于,所述排除还包括:如果样本中转换/颠换比、杂合/纯合子比或插入/缺失率为异常值,则排除样本。
12.根据权利要求10中所述的高度近视致病变异体的筛选方法,其特征在于,所述排除还包括:排除X染色体近亲繁殖系数<0.8到>0.4之间的样本;
排除变异位点:设置基因型深度<10、基因型质量<20的基因型以及等位基因平衡率>0.8或<0.2的杂合基因型为缺失,排除缺失率>1,高度近视病例-对照缺失率<0.995的变异位点,以及在基于合并病例对照队列的Hardy-Weinberg均衡检验中,P值<10-6的变异位点。
13.根据权利要求1-9任意一项所述的高度近视致病变异体的筛选方法,其特征在于,采用变异效应预测软件对所述变异数据进行注释得到变异体的注释信息。
14.根据权利要求13中所述的高度近视致病变异体的筛选方法,其特征在于,所述注释信息包括:同义变异、良性的错义变异、损伤性错义变异、功能丧失变异及变异的计数。
15.根据权利要求13中所述的高度近视致病变异体的筛选方法,其特征在于,所述计数包括变异的全外显子计数、同义变异计数、良性的错义变异计数、损伤性错义变异计数、功能丧失变异计数、良性变异计数。
16.一种高度近视的候选基因,其特征在于,所述候选基因包括下列中的一种或几种:VN1R4、KDELR3、ARHGEF3、CCDC85A、USP31、TGM7、ELOVL2、AXIN1、KIAA1191、C22orf46,所述候选基因是采用权利要求1-15任意一项所述的方法步骤获得的高度近视的候选基因。
17.一种高度近视致病变异体的筛选设备,包括:存储器和处理器;
所述存储器用于存储程序指令;
所述处理器用于调用程序指令,当程序指令被执行权利要求1-15任意一项所述的高度近视致病变异体的筛选方法步骤。
18.一种计算机程序产品,其特征在于,所述产品包括计算机程序,所述计算机程序被处理器执行时实现权利要求1-15任意一项所述的高度近视致病变异体的筛选方法步骤。
19.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-15任意一项所述的高度近视致病变异体的筛选方法步骤。
CN202311176549.1A 2023-09-12 2023-09-12 一种高度近视致病变异体的筛选方法、系统及设备 Active CN117219166B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311176549.1A CN117219166B (zh) 2023-09-12 2023-09-12 一种高度近视致病变异体的筛选方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311176549.1A CN117219166B (zh) 2023-09-12 2023-09-12 一种高度近视致病变异体的筛选方法、系统及设备

Publications (2)

Publication Number Publication Date
CN117219166A CN117219166A (zh) 2023-12-12
CN117219166B true CN117219166B (zh) 2024-06-25

Family

ID=89038296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311176549.1A Active CN117219166B (zh) 2023-09-12 2023-09-12 一种高度近视致病变异体的筛选方法、系统及设备

Country Status (1)

Country Link
CN (1) CN117219166B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117577182B (zh) * 2024-01-15 2024-04-02 迈杰转化医学研究(苏州)有限公司 一种快速识别药物标识位点的系统及其应用

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105861697A (zh) * 2016-05-13 2016-08-17 万康源(天津)基因科技有限公司 一种基于家系的外显子组潜在致病变异检测系统
CN114836530A (zh) * 2022-03-30 2022-08-02 温州医科大学附属眼视光医院 Fkbp5基因突变位点在高度近视早期筛查诊断中的应用

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013085489A (ja) * 2011-10-14 2013-05-13 Yokohama City Univ び慢性大脳白質形成不全症患者又は保因者の検出方法
US20190228836A1 (en) * 2018-01-15 2019-07-25 SensOmics, Inc. Systems and methods for predicting genetic diseases
CN113196317A (zh) * 2018-10-26 2021-07-30 人工智能技术公司 通过人工智能对近视发展进行准确预测和治疗
TWI795139B (zh) * 2021-12-23 2023-03-01 國立陽明交通大學 自動化致病突變點位的分類系統及其分類方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105861697A (zh) * 2016-05-13 2016-08-17 万康源(天津)基因科技有限公司 一种基于家系的外显子组潜在致病变异检测系统
CN114836530A (zh) * 2022-03-30 2022-08-02 温州医科大学附属眼视光医院 Fkbp5基因突变位点在高度近视早期筛查诊断中的应用

Also Published As

Publication number Publication date
CN117219166A (zh) 2023-12-12

Similar Documents

Publication Publication Date Title
Setter et al. VolcanoFinder: genomic scans for adaptive introgression
CN117219166B (zh) 一种高度近视致病变异体的筛选方法、系统及设备
WO2020170052A1 (en) Disease-gene prioritization method and system
Munro et al. The regulatory landscape of multiple brain regions in outbred heterogeneous stock rats
US20230287516A1 (en) Determination of a physiological condition with nucleic acid fragment endpoints
CN111710432A (zh) 基于表型的致病基因定量测算方法及设备
US20230348993A1 (en) Diagnosis of cancer or other physiological condition using circulating nucleic acid fragment sentinel endpoints
Schwender et al. Logic regression and its extensions
Gadot et al. Predicting surgical decision-making in vestibular schwannoma using tree-based machine learning
Umlai et al. Genome sequencing data analysis for rare disease gene discovery
Early et al. Declines in prevalence alter the optimal level of sexual investment for the malaria parasite Plasmodium falciparum
CN116825192A (zh) 一种ncRNA基因突变的解读方法、存储介质及终端
US20220293214A1 (en) Methods of analyzing genetic variants based on genetic material
Carnahan-Craig et al. Rates of evolution of hominoid seminal proteins are correlated with function and expression, rather than mating system
Zhang et al. Inferring historical introgression with deep learning
CN114783613A (zh) 一种近视的预测分析方法
Aguet et al. Transcriptomic signatures across human tissues identify functional rare genetic variation
CN108509767B (zh) 一种遗传突变的处理方法及装置
Mehrotra et al. Evaluating methods for differential gene expression and alternative splicing using internal synthetic controls
Tollis et al. Elephant genomes reveal insights into differences in disease defense mechanisms between species
Vinson et al. A practical approach for designing breeding groups to maximize genetic diversity in a large colony of captive rhesus macaques (Macaca mulatta)
US20240182982A1 (en) Fragmentomics in urine and plasma
US20230386612A1 (en) Determining comparable patients on the basis of ontologies
Greene Methods for Determining the Genetic Causes of Rare Diseases
Sloan-Heggen Precision Health and Deafness: Optimizing Genetic Diagnosis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant