CN110910955A - 一种易感基因罕见变异位点纵向分析模型的建立方法 - Google Patents
一种易感基因罕见变异位点纵向分析模型的建立方法 Download PDFInfo
- Publication number
- CN110910955A CN110910955A CN201911002493.1A CN201911002493A CN110910955A CN 110910955 A CN110910955 A CN 110910955A CN 201911002493 A CN201911002493 A CN 201911002493A CN 110910955 A CN110910955 A CN 110910955A
- Authority
- CN
- China
- Prior art keywords
- gene
- rare
- mutation
- function
- regression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 149
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000010234 longitudinal analysis Methods 0.000 title claims abstract description 27
- 230000035772 mutation Effects 0.000 claims abstract description 63
- 108700028369 Alleles Proteins 0.000 claims abstract description 53
- 239000013610 patient sample Substances 0.000 claims abstract description 40
- 238000007476 Maximum Likelihood Methods 0.000 claims abstract description 20
- 238000012417 linear regression Methods 0.000 claims abstract description 13
- 238000009826 distribution Methods 0.000 claims description 43
- 238000004364 calculation method Methods 0.000 claims description 35
- 238000009795 derivation Methods 0.000 claims description 10
- 108091026890 Coding region Proteins 0.000 claims description 6
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 claims description 6
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 claims description 6
- 206010064571 Gene mutation Diseases 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 229940104302 cytosine Drugs 0.000 claims description 3
- 238000005315 distribution function Methods 0.000 claims description 3
- 230000004777 loss-of-function mutation Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000012070 whole genome sequencing analysis Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 9
- 201000010099 disease Diseases 0.000 description 7
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 239000000523 sample Substances 0.000 description 5
- 238000003556 assay Methods 0.000 description 4
- 101000753253 Homo sapiens Tyrosine-protein kinase receptor Tie-1 Proteins 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 101000976959 Homo sapiens Transcription factor 4 Proteins 0.000 description 2
- 101000596771 Homo sapiens Transcription factor 7-like 2 Proteins 0.000 description 2
- 102100022007 Tyrosine-protein kinase receptor Tie-1 Human genes 0.000 description 2
- 208000022602 disease susceptibility Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 208000024827 Alzheimer disease Diseases 0.000 description 1
- 206010019280 Heart failures Diseases 0.000 description 1
- 101000795117 Homo sapiens Triggering receptor expressed on myeloid cells 2 Proteins 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 208000001132 Osteoporosis Diseases 0.000 description 1
- 206010039966 Senile dementia Diseases 0.000 description 1
- 101150017815 TCF4 gene Proteins 0.000 description 1
- 102100023489 Transcription factor 4 Human genes 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 238000012097 association analysis method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000013068 control sample Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003389 potentiating effect Effects 0.000 description 1
- 201000000980 schizophrenia Diseases 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 208000001072 type 2 diabetes mellitus Diseases 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 208000019553 vascular disease Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明生物信息数据处理技术领域,提出一种易感基因罕见变异位点纵向分析模型的建立方法,包括以下步骤:获取待分析的病人样本的全基因组序列变异数据;观察统计病人样本中基因上的基因数量突变观察值,对基因进行截断负二项回归,并构建广义线性回归函数;采用最大似然估计函数计算截断负二项回归的系数以及基因罕见变异等位基因数估算值的期望;计算基因的突变观察值与回归估计基线突变数的标准化偏移残差;将所述标准化偏移残差转换为统计显著性程度;根据预设的阈值剔除基因中的显著基因,然后重复上述步骤对截断负二项回归系数进行重新拟合,至病人样本中的所有显著基因被剔除,得到易感基因罕见变异负荷的纵向分析模型。
Description
技术领域
本发明涉及生物信息数据处理技术领域,更具体地,涉及一种疾病易感基因罕见变异位点鉴定纵向分析模型的建立方法。
背景技术
罕见基因变异被认为是复杂遗传疾病的主要成因之一,包括二型糖尿病、心力衰竭、骨质疏松症等遗传疾病。例如,基因TREM2和APP中的罕见变异被报道与老年痴呆相关等。但目前用于发掘罕见易感位点的统计方法还不够强大,因此迫切需要更强大有效的新方法发现更多人类复杂疾病中的罕见变异。
现有的复杂疾病罕见变异分析方法主要采用病例对照策略,它继承了基于芯片的全基因组关联分析方法的思想,利用全基因组罕见变异分析。考虑在单个罕见变异位点统计检验低功效问题,研究人员也提出了基于多个变异的关联分析策略,即区域关联性检测。该策略通常联合同一基因或区域内的多个变异位点一起考虑等位基因与疾病相关性,比较病人与正常人突变数的差异评估相关性,或者根据统计模型中方差成分,鉴定易感基因。基因水平多位点关联检测通常比单个位点关联检测更有效。但总体而言这些分析方法的统计效能偏低,难以有效地检测出疾病的罕见易感突变。此外,由于病例、对照分析策略既要测序大量病人样本,又要测序等量正常人样本,成本较高。
发明内容
本发明为克服上述现有技术所述的基因水平检测分析统计效能低的缺陷,提供一种易感基因罕见变异位点纵向分析模型的建立方法。
为解决上述技术问题,本发明的技术方案如下:
一种易感基因罕见变异位点的纵向分析模型建立方法,包括以下步骤:
S1:获取待分析的病人样本的全基因组测序或外显子组序列变异数据;
S2:观察统计病人样本中基因i上全部罕见变异等位基因数量的突变观察值yi,对所述病人样本中基因组的所有基因进行截断负二项回归,构建用于预测基因i罕见突变等位基因数的基于截断负二项分布的广义线性回归模型;
S3:根据所述广义线性回归函数采用最大似然估计函数计算截断负二项回归的系数,以及基因i罕见变异等位基因数估算值的期望;
S4:根据所述基因i罕见变异等位基因数估算值的期望,计算所述病人样本中基因i的突变观察值与回归估计基线突变数的标准化偏移残差;
S5:将所述标准化偏移残差转换为统计显著性程度;
S6:通过预设的阈值剔除所述基因i中的显著基因,然后跳转执行S2步骤,重新拟合得到截断负二项回归系数,至病人样本中的所有显著基因被剔除,得到易感基因罕见变异负荷的纵向分析模型。
本技术方案中,采用截断负二项分布模型拟合罕见变异分布的基准线,用于评估易感基因的相对罕见变异负荷,具体地,对病人样本中的基因组上所有基因做截断负二项回归,然后基于最大似然估计函数计算回归系数,并计算每个基因实际突变数与回归估计基线突变数的偏移残差值,将该偏移残差值在基因组水平纵向地标准化,然后将偏移残差值转换为统计显著性程度p-值,其中,p-值越小表示显著性程度越高,也表示该基因相对于估计的基线有更多的突变量,同时提示该基因与疾病的相关性越强。根据计算得到的统计显著性p-值,通过预设的阈值剔除相应显著基因,然后,用病人样本中余下的基因重复上述步骤,重新拟合出截断负二项回归的系数并计算统计显著性p-值,重复执行上述步骤,直至病人样本中没有可以被剔除的显著基因。由最后迭代所得到的截断负二项回归系数所建立的易感基因罕见变异位点的纵向分析模型最接近零假设,能够减少有高突变数的易感基因对非易感突变基线值估算的影响。
优选地,S1步骤中的病人样本中包括基因i,且基因i中含有mi个罕见变异位点,一个罕见变异位点j中含有ni,j个变异等位基因,其中,i、mi、ni,j分别取正整数。
优选地,S2步骤中,其具体步骤如下:
S21:观察统计基因i上每个变异位点的在病人样本中的加权变异等位基因数ci,j,其计算公式如下:
ci,j=ni,j*wi,j
其中,ni,j表示罕见变异位点j在病人样本中的实际变异等位基因数量;wi,j表示变异位点j上的功能评分,且wi,j为的正整数,如果加权值缺失则取1;
S22:根据所述加权变异等位基因数ci,j,计算基因i上全部罕见变异等位基因数量的突变观察值yi,其计算公式如下:
其中,所述基因i的突变观察值yi服从期望为μi,分布参数为θ的负二项分布;
S23:计算负二项分布的概率质量函数,其计算公式如下:
其中,Γ(·)表示伽马函数;e是自然对数符号;β为待拟合的回归系数;γ表示分布参数系数;
S24:截取所述基因i中罕见变异等位基因数为0至t的基因,让变异等位基因数服从截断负二项分布模型,其中,在t点截断的概率质量函数如下:
其中,g(y|μi,θ,t)表示基因i上的变异等位基因数目为y时的概率,y=t+1,t+2,...,且t=0,1,2,...;
S25:构建用于预测基因i罕见突变等位基因数的基于截断负二项分布的广义线性回归函数,所述广义线性回归的连接函数如下式所示:
其中,x1,i是基因i的编码区长度,x2,i是基因i的频率评分,x3,i是基因i编码区长度与频率评分的乘积,x4,i是基因i的错义突变保守评分,x5,i是基因i的失去功能突变保守评分,x5,i是基因i的鸟嘌呤和胞嘧啶所占的比率;参数β0,...,β6表示分别的回归系数;EXP(yi)表示基因i的突变观察值yi的期望。
优选地,S3步骤中,所述基于截断负二项分布的最大似然估计函数的计算公式如下:
所述最大似然估计函数取对数为
li=lnp(yi|μi,θ)-ln(1-F(X≤t|μi,θ)
优选地,S3步骤中,其具体步骤如下:
对所述最大似然估计函数对θ求导的计算公式如下:
令θ=eγ,得到对分布参数系数γ的求导计算公式:
其中,ei表示基因i的偏移残差,和分别为估算的基因i中罕见变异等位基因数的均值和标准偏差;ri表示原始残差,sign(·)为标注符号函数,ll(·)为分布的自然对数似然函数,表示观察均值;表示估算的基因i中罕见变异等位基因数,均值通过求解所述估算的罕见变异等位基因数方程可得到。
其中,Φ(·)表示标准正太分布的积累分布函数。
优选地,S6步骤中,所述预设的阈值采用伪发现率FDR,且所述伪发现率FDR≥0.2。
与现有技术相比,本发明技术方案的有益效果是:采用截断负二项分布模型准确拟合罕见变异分布的基准线,并通过基准线有效检测复杂疾病的易感基因,能够有效减少高突变数的易感基因对非易感突变基线值估算的影响,从而有效提高基因水平检测分析统计效能。
附图说明
图1为本实施例的易感基因罕见变异位点的纵向分析模型建立方法流程图。
图2为本实施例中病人样本量为75、100、150、200时的p-值对比图。
图3为本实施例中与对照方法的统计效能比较图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1所示,为本实施例的易感基因罕见变异位点的纵向分析模型建立方法的流程图。
本实施例提出一种易感基因罕见变异位点的纵向分析模型建立方法,包括以下步骤:
S1:获取待分析的病人样本的全基因组数据。
本实施例中,病人样本中包括基因i,且基因i中含有mi个罕见变异位点,一个罕见变异位点j中含有ni,j个变异等位基因。
本实施例中,对每个基因i设置有功能评分wi,j=1,2,3,...。
S2:观察统计病人样本中基因i上全部罕见变异等位基因数量的突变观察值yi,对所述病人样本中基因组的所有基因进行截断负二项回归,并构建用于预测基因i罕见突变等位基因数的基于截断负二项分布的广义线性回归函数。其具体步骤如下:
S21:观察统计基因i上每个变异位点的在病人样本中的加权变异等位基因数ci,j,其计算公式如下:
ci,j=ni,j*wi,j
其中,ni,j表示罕见变异位点j在病人样本中的实际变异等位基因数量;wi,j表示变异位点j上的功能评分,且wi,j为的正整数,如果加权值缺失则取1;
S22:根据所述加权变异等位基因数ci,j,计算基因i上全部罕见变异等位基因数量的突变观察值yi,其计算公式如下:
其中,所述基因i的突变观察值yi服从期望为μi,分布参数为θ的负二项分布;
S23:计算负二项分布的概率质量函数,其计算公式如下:
其中,Γ(·)表示伽马函数;e是自然对数符号;β为待拟合的回归系数;γ表示分布参数系数;
S24:截取所述基因i中罕见变异等位基因数为0至t的基因,让变异等位基因数服从截断负二项分布模型,其中,在t点截断的概率质量函数如下:
其中,g(y|μi,θ,t)表示基因i上的变异等位基因数目为y时的概率,y=t+1,t+2,...,且t=0,1,2,...;
S25:构建用于预测基因i罕见突变等位基因数的基于截断负二项分布的广义线性回归函数,所述广义线性回归的连接函数如下式所示:
其中,x1,i是基因i的编码区长度,x2,i是基因i的频率评分,x3,i是基因i编码区长度与频率评分的乘积,x4,i是基因i的错义突变保守评分,x5,i是基因i的失去功能突变保守评分,x5,i是基因i的鸟嘌呤和胞嘧啶所占的比率;参数β0,...,β6表示分别的回归系数;EXP(yi)表示基因i的突变观察值yi的期望。
本实施例中,由于大部分基因上不存在或存在极少的罕见突变,低突变的基因数的比例将会膨胀,这样往往会扭曲假定的负二项分布,因此在本实施例中截取所述全基因组数据中罕见变异等位基因数为0至t的基因,使变异等位基因数服从截断负二项分布模型。
S3:根据所述广义线性回归函数采用最大似然估计函数计算截断负二项回归系数,以及基因i罕见变异等位基因数估算值的期望。
本步骤中,基于截断负二项分布的最大似然估计函数的计算公式如下:
将最大似然估计函数取对数,得到以下公式:
li=lnp(yi|μi,θ)-ln(1-F(X≤t|μi,θ)
本步骤中,包括以下具体步骤:
对所述最大似然估计函数对θ求导的计算公式如下:
令θ=eγ,得到对γ的求导计算公式:
S4:根据所述基因i罕见变异等位基因数估算值的期望,计算所述病人样本中基因i的突变观察值与回归估计基线突变数的标准化偏移残差。
其中,ei表示基因i的偏移残差,和分别为估算的基因i中罕见变异等位基因数的均值和标准偏差;ri表示原始残差,sign(·)为标注符号函数,ll(·)为分布的自然对数似然函数,表示观察均值;表示估算的基因i中罕见变异等位基因数,均值通过求解所述估算的罕见变异等位基因数方程可得到。
S5:将所述标准化偏移残差转换为统计显著性程度。
其中,Φ(·)表示标准正太分布的积累分布函数。
本实施例中,统计显著性程度p-值表示基因i在病人群中相对基线突变数的多寡,p-值越小则表示相对突变数越多,同时也表示更有可能是复杂疾病易感基因。本实施例中的p-值为由偏移残差值ei标准化后计算得到,而偏移残差值ei同时是基因i的罕见变异等位基因数的观察值yi与估算值及其均值计算得到。
S6:通过预设的阈值剔除所述基因i中的显著基因,然后跳转执行S2步骤,重新拟合得到截断负二项回归系数,至病人样本中的所有显著基因被剔除,得到易感基因罕见变异负荷的纵向分析模型。
在本实施例中,采用伪发现率FDR剔除相应的显著基因,且FDR设置为0.2。
本实施例中提出的易感基因罕见变异位点纵向分析模型可以减少有高突变数的易感基因对非易感突变基线值估算的影响,因此用稳定后的模型计算全部基因的偏移残差和p值,能够实现通过纵向比较基因之间的校正后的相对突变数的差异来鉴定复杂疾病易感基因,突破了现有的分析方法受限于对照样本的要求。
本实施例中,采用随机样本的方法检验本实施例提出的方法与使用原有的位点变异数没有加权的方法鉴定易感基因的1型错误,并采用现有的CMC、SKAT、Price、KBAC等四种基于基因关联分析的罕见变异样本对照常用方法与本实施例提出的一种易感基因罕见变异位点的纵向分析模型建立方法进行对比。如图2所示,分别为当病人样本量为75、100、150、200时的p值对比图。其中,图2(a)为表示病人样本量为75时的p值对比图,图2(b)表示病人样本量为100时的p值对比图,图2(c)表示病人样本量为150时的p值对比图,图2(d)表示病人样本量为200时的p值对比图;RUNER表示本实施例提出的易感基因罕见变异位点纵向分析模型,UW-RUNER表示本实施例提出易感基因罕见变异位点纵向分析模型使用原有的位点变异数且没有加权的方法。
由图可知,RUNER的p值最接近均匀分布,即使在样本量为75时的分析效果也相对较为理想,而其他四种对照方法在小样本时出现了很明显的p值膨胀,表示现有的统计关联检测对中小样本量的罕见变异效果不佳,且耗费时间长,存在基因水平检测分析统计效能低的缺陷。
如图3所示,为本实施例与对照方法的统计效能比较图,其中,图3(a)为探测基因TIE1的效能对比图,图3(b)为探测基因TCF4的效能对比图,图3(c)为表示模拟生成100个数据集,每个数据集做一次检测,每次产生的假阳性基因数求均值。在对照实验中,在健康样本中随机地插入易感等位基因产生模拟病人样本。在模拟中,假设多个罕见错义突变发生在基因TCF4和TIE1中,其中,TCF4是精神分裂症的易感基因,TIE1对产生血管病很重要。在该对照实验中,Bonferroni校正控制多重比较谬误为0.05。由图可知,当样本量为75时,RUNER的效能能够达到58%和89%,且当样本100时,RUNER的效能达到75%和93%。相比于其他四种现有的分析方法,该四种方法在小样本时效能远不如RUNER和不加权的UW-RUNER。因此,本实施例提出的易感基因罕见变异位点纵向分析模型显然能够有效克服基因水平检测分析统计效能低的缺陷。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (8)
1.一种易感基因罕见变异位点的纵向分析模型建立方法,其特征在于,包括以下步骤:
S1:获取待分析的病人样本的全基因组测序或外显子组序列变异数据;
S2:观察统计病人样本中基因i上全部罕见变异等位基因数量的突变观察值yi,对所述病人样本中基因组的所有基因进行截断负二项回归,并构建用于预测基因i罕见突变等位基因数的基于截断负二项分布的广义线性回归函数;
S3:根据所述广义线性回归函数采用最大似然估计函数计算截断负二项回归系数,以及基因i罕见变异等位基因数估算值的期望;
S4:根据所述基因i罕见变异等位基因数估算值的期望,计算所述病人样本中基因i的突变观察值与回归估计基线突变数的标准化偏移残差;
S5:将所述标准化偏移残差转换为统计显著性程度;
S6:通过预设的阈值剔除所述基因i中的显著基因,然后跳转执行S2步骤,重新拟合得到截断负二项回归系数,至病人样本中的所有显著基因被剔除,得到易感基因罕见变异负荷的纵向分析模型。
2.根据权利要求1所述的纵向分析模型建立方法,其特征在于:所述S1步骤中的病人样本中包括基因i,且基因i中含有mi个罕见变异位点,一个罕见变异位点j中含有ni,j个变异等位基因,其中i为正整数。
3.根据权利要求2所述的纵向分析模型建立方法,其特征在于:所述S2步骤中,其具体步骤如下:
S21:观察统计基因i上每个变异位点的在病人样本中的加权变异等位基因数ci,j,其计算公式如下:
ci,j=ni,j*wi,j
其中,ni,j表示罕见变异位点j在病人样本中的实际变异等位基因数量;wi,j表示变异位点j上的功能评分,且wi,j为的正整数,如果加权值缺失则取1;
S22:根据所述加权变异等位基因数ci,j,计算基因i上全部罕见变异等位基因数量的突变观察值yi,其计算公式如下:
其中,所述基因i的突变观察值yi服从期望为μi,分布参数为θ的负二项分布;
S23:计算负二项分布的概率质量函数,其计算公式如下:
其中,Γ(·)表示伽马函数;e是自然对数符号;β为待拟合的回归系数;γ表示分布参数系数;
S24:截取所述基因i中罕见变异等位基因数为0至t的基因,让变异等位基因数服从截断负二项分布模型,其中,在t点截断的概率质量函数如下:
其中,g(y|μi,θ,t)表示基因i上的变异等位基因数目为y时的概率,y=t+1,t+2,...,且t=0,1,2,...;
S25:构建用于预测基因i罕见突变等位基因数的基于截断负二项分布的广义线性回归函数,所述广义线性回归的连接函数如下式所示:
其中,x1,i是基因i的编码区长度,x2,i是基因i的频率评分,x3,i是基因i编码区长度与频率评分的乘积,x4,i是基因i的错义突变保守评分,x5,i是基因i的失去功能突变保守评分,x5,i是基因i的鸟嘌呤和胞嘧啶所占的比率;参数β0,...,β6表示分别的回归系数;EXP(yi)表示基因i的突变观察值yi的期望。
5.根据权利要求4所述的纵向分析模型建立方法,其特征在于:所述S3步骤中,其具体步骤如下:
对所述最大似然估计函数对θ求导的计算公式如下:
令θ=eγ,得到对γ的求导计算公式:
8.根据权利要求1~7任一项所述的纵向分析模型建立方法,其特征在于:所述S6步骤中,所述预设的阈值采用伪发现率FDR,所述伪发现率FDR≥0.2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911002493.1A CN110910955B (zh) | 2019-10-21 | 2019-10-21 | 一种易感基因罕见变异位点纵向分析模型的建立方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911002493.1A CN110910955B (zh) | 2019-10-21 | 2019-10-21 | 一种易感基因罕见变异位点纵向分析模型的建立方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110910955A true CN110910955A (zh) | 2020-03-24 |
CN110910955B CN110910955B (zh) | 2024-03-01 |
Family
ID=69816199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911002493.1A Active CN110910955B (zh) | 2019-10-21 | 2019-10-21 | 一种易感基因罕见变异位点纵向分析模型的建立方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110910955B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112599189A (zh) * | 2020-12-29 | 2021-04-02 | 北京优迅医学检验实验室有限公司 | 一种全基因组测序的数据质量评估方法及其应用 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170249434A1 (en) * | 2016-02-26 | 2017-08-31 | Daniela Brunner | Multi-format, multi-domain and multi-algorithm metalearner system and method for monitoring human health, and deriving health status and trajectory |
CN107391962A (zh) * | 2017-09-05 | 2017-11-24 | 武汉古奥基因科技有限公司 | 基于多组学分析基因或位点对疾病调控关系的方法 |
CN109346127A (zh) * | 2018-08-09 | 2019-02-15 | 中山大学 | 一种用于检测潜在癌症驱动基因的统计分析方法 |
US20190228838A1 (en) * | 2016-09-26 | 2019-07-25 | Mcmaster University | Tuning of Associations For Predictive Gene Scoring |
-
2019
- 2019-10-21 CN CN201911002493.1A patent/CN110910955B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170249434A1 (en) * | 2016-02-26 | 2017-08-31 | Daniela Brunner | Multi-format, multi-domain and multi-algorithm metalearner system and method for monitoring human health, and deriving health status and trajectory |
US20190228838A1 (en) * | 2016-09-26 | 2019-07-25 | Mcmaster University | Tuning of Associations For Predictive Gene Scoring |
CN107391962A (zh) * | 2017-09-05 | 2017-11-24 | 武汉古奥基因科技有限公司 | 基于多组学分析基因或位点对疾病调控关系的方法 |
CN109346127A (zh) * | 2018-08-09 | 2019-02-15 | 中山大学 | 一种用于检测潜在癌症驱动基因的统计分析方法 |
Non-Patent Citations (1)
Title |
---|
MIAO-XIN LI 等: "GATES: A Rapid and Powerful Gene-Based Association Test Using Extended Simes Procedure", 《美国人类遗传学杂志》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112599189A (zh) * | 2020-12-29 | 2021-04-02 | 北京优迅医学检验实验室有限公司 | 一种全基因组测序的数据质量评估方法及其应用 |
Also Published As
Publication number | Publication date |
---|---|
CN110910955B (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pouyet et al. | Background selection and biased gene conversion affect more than 95% of the human genome and bias demographic inferences | |
US9639657B2 (en) | Methods for allele calling and ploidy calling | |
Capra et al. | A model-based analysis of GC-biased gene conversion in the human and chimpanzee genomes | |
US9916416B2 (en) | System and method for genotyping using informed error profiles | |
US20170206311A1 (en) | Method of characterizing sequences from genetic material samples | |
CN109887546B (zh) | 基于二代测序的单基因或多基因拷贝数检测系统及方法 | |
Weber et al. | Species delimitation in the presence of strong incomplete lineage sorting and hybridization: Lessons from Ophioderma (Ophiuroidea: Echinodermata) | |
US20190338349A1 (en) | Methods and systems for high fidelity sequencing | |
CN114724626A (zh) | 母体血浆的无创性产前分子染色体核型分析 | |
WO2020063052A1 (zh) | 胎儿游离dna浓度获取方法、获取装置、存储介质及电子装置 | |
Yao et al. | Limitations of principal components in quantitative genetic association models for human studies | |
CN110910955A (zh) | 一种易感基因罕见变异位点纵向分析模型的建立方法 | |
Sethuraman | Estimating genetic relatedness in admixed populations | |
Zhou et al. | Eigenvalue significance testing for genetic association | |
Biswas et al. | Biological averaging in RNA-seq | |
WO2019132010A1 (ja) | 塩基配列における塩基種を推定する方法、装置及びプログラム | |
WO2016112539A1 (zh) | 确定胎儿核酸含量的方法和装置 | |
Bérard et al. | Unsupervised classification for tiling arrays: ChIP-chip and transcriptome | |
Warde-Farley et al. | Mixture model for sub-phenotyping in GWAS | |
Gymrek et al. | A framework to interpret short tandem repeat variations in humans | |
Mao et al. | abSNP: RNA-seq SNP calling in repetitive regions via abundance estimation | |
Talenti et al. | The evolution and convergence of mutation spectra across mammals | |
Hirt et al. | A bayesian framework for genome-wide inference of DNA methylation levels | |
Bercovich Szulmajster et al. | Measuring linkage disequilibrium and improvement of pruning and clumping in structured populations | |
KR102441856B1 (ko) | 중요도 샘플링을 활용한 다중변이 연관연구 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |