CN107391962B - 基于多组学分析基因或位点对疾病调控关系的方法 - Google Patents

基于多组学分析基因或位点对疾病调控关系的方法 Download PDF

Info

Publication number
CN107391962B
CN107391962B CN201710792537.XA CN201710792537A CN107391962B CN 107391962 B CN107391962 B CN 107391962B CN 201710792537 A CN201710792537 A CN 201710792537A CN 107391962 B CN107391962 B CN 107391962B
Authority
CN
China
Prior art keywords
analysis
genes
loci
analyzing
gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710792537.XA
Other languages
English (en)
Other versions
CN107391962A (zh
Inventor
袁晓辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Gooal Gene Technology Co ltd
Original Assignee
Wuhan Gooal Gene Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Gooal Gene Technology Co ltd filed Critical Wuhan Gooal Gene Technology Co ltd
Priority to CN201710792537.XA priority Critical patent/CN107391962B/zh
Publication of CN107391962A publication Critical patent/CN107391962A/zh
Application granted granted Critical
Publication of CN107391962B publication Critical patent/CN107391962B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于多组学分析基因与位点调控关系的方法,属于生物信息和计算机数据分析领域。本发明方法包括如下步骤:采集到病人样本后,分别使用转录组分析、CHIP‑Seq分析、miRNA分析以及GWAS分析对病因进行分析,得到的突变基因或位点和置信度分别为(g1,x1)、(g2,x2)、(g3,x3)和(g4,x4);使用估计函数hθ(x)=0.2+0.7*x1+0.6*x2+0.3*x3+0.9*x4对上述分析结果进行整合,以分析基因或位点和疾病之间的调控关系。本发明的估计函数对与疾病相关的基因分析的准确率达到了87%。

Description

基于多组学分析基因或位点对疾病调控关系的方法
技术领域
本发明涉及生物信息和计算机数据分析领域,具体涉及一种基于多组学分析基因或位点对疾病调控关系的方法。
背景技术
转录组分析,是在整体水平上对细胞中基因转录的情况及转录调控规律进行分析。简而言之,转录组学是从RNA水平研究基因表达的情况。转录组即一个活细胞所能转录出来的所有RNA的总和,是研究细胞表型和功能的一个重要手段。
CHIP-seq,指的是结合位点分析法,作用为研究体内蛋白质与DNA的相互作用关系。染色质免疫共沉淀技术(Chromatin Immunoprecipitation,CHIP)也称结合位点分析法,是研究体内蛋白质与DNA相互作用的有力工具,通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。将CHIP与第二代测序技术相结合的CHIP-Seq技术,能够高效地在全基因组范围内检测与组蛋白、转录因子等互作的DNA区段。
MicroRNA(miRNA)是一类内生的、长度约为20-24个核苷酸的小RNA,其在细胞内具有多种重要的调节作用。每个miRNA可以有多个靶基因,而几个miRNA也可以调节同一个基因。这种复杂的调节网络既可以通过一个miRNA来调控多个基因的表达,也可以通过几个miRNA的组合来精细调控某个基因的表达。据推测,miRNA调节着人类三分之一的基因。
GWAS(Genome-wide association study),即全基因组关联分析,是指在人类全基因组范围内找出存在的序列变异,即单核苷酸多态性(SNP),从中筛选出与疾病相关的SNPs。GWAS为人们打开了一扇通往研究复杂疾病的大门,将在患者全基因组范围内检测出的SNP位点与对照组进行比较,找出所有的变异等位基因频率,从而避免了像候选基因策略一样需要预先假设致病基因。GWAS一般采用非假说驱动。由于GWAS研究的各种研究设计方法以及遗传统计方法无法从根本上消除人群混杂、多重比较造成的假阳性,需要通过重复研究来保证遗传标记与疾病间的真关联。
转录组分析、CHIP-Seq分析、miRNA分析以及GWAS分析都可以通过对基因或者位点进行分析来得出基因对疾病的调控关系。然而,单纯的某种分析结果可能并不准确,如GWAS研究中随机干扰往往很大,可能的干扰包括遗传背景的不同,环境效应的不同等等。
发明内容
本发明的目的在于解决现有技术存在的问题,提供一种基于多组学分析基因或位点对疾病调控关系的方法,该方法用于将转录组分析、CHIP-Seq分析、miRNA分析以及GWAS分析的结果进行整合,以对假设进行修正或者形成新的假设。
本发明的目的通过下述技术方案实现:
一种基于多组学分析基因或位点对疾病调控关系的方法,包括如下步骤:采集到病人样本后,分别使用转录组分析、CHIP-Seq分析、miRNA分析以及GWAS分析对病因进行分析,得到的突变基因或位点和置信度分别为(g1,x1)、(g2,x2)、(g3,x3)和(g4,x4);使用估计函数hθ(x)=0.2+0.7*x1+0.6*x2+0.3*x3+0.9*x4对上述分析结果进行整合,以分析基因或位点和疾病之间的调控关系。
本发明通过样本数据训练出模型hθ(x)=0.2+0.7*x1+0.6*x2+0.3*x3+0.9*x4,然后采用大量的新的病人数据对模型进行测试,结果显示,训练的模型取得了较好的效果,对与疾病相关的基因分析的准确率达到了87%。这也证实了,本发明所提出的基于多组学分析基因与位点调控关系的方法无论在理论还是实践上都是可行的。
具体实施方式
下面以结合具体实施方式对本发明做进一步详细的描述,但本发明的实施方式不限于此。
采集病人样本数据,其中这些病人的病情、病因已知,如已知白化病主要是由于缺乏酪氨酸酶的正常基因而导致无法将酪氨酸转化成黑色素而引起,苯丙酮尿症主要是由于缺乏苯丙氨酸羟化酶的正常基因而导致苯丙氨酸不能转化成酪氨酸所引起。将这些数据作为训练集,采用线性回归方法来对样本数据进行拟合,训练出合适的模型。
具体做法和原理如下,
分别使用转录组分析、CHIP-Seq分析、miRNA分析以及GWAS分析对采集到的样本数据进行分析。对同一病人而言,各自得到分析结果。在实际实验中对某白化病患者,通过转录组分析,得到突变基因为酪氨酸酶正常基因,置信度为0.6;而经由CHIP-Seq分析,则得到突变基因为酪氨酸酶正常基因,置信度为0.7;经由miRNA分析得到突变基因为丙氨酸正常基因,置信度为0.55;经由GWAS分析,得到突变基因为酪氨酸酶正常基因,置信度为0.8。可以看到,即使对同一病人,采用不同的分析方法,得到的结果也不尽相同,那么哪一种分析得出的结果是最为合理的呢,如何组合这四种分析结果,以得到最为科学的结论呢。
假设通过转录组分析、CHIP-Seq分析、miRNA分析以及GWAS分析对某已知病因的疾病进行分析,得到的突变基因和置信度分别为(g1,x1)、(g2,x2)、(g3,x3)和(g4,x4),而已知的突变基因和置信度为(g,x),如果通过分析得到的突变基因和已知突变基因相同,那么在计算时,其置信度记为正值,如果分析得出的结果和已知事实相悖,那么置信度记为负值。如上文中通过miRNA分析得到突变基因为丙氨酸,置信度为0.55,而真正的突变基因为酪氨酸酶正常基因,于是,在计算时置信度取-0.55。
设估计函数为hθ(x)=θ01*x12*x23*x34*x4,其中θ1、θ2、θ3、θ4为参数,表示每一种分析对总结论所造成的影响,所占权重,θ0为截距项。令x0=1,就可以用向量的方式来表示了:
hθ(x)=θTX
其中,θ和X都是向量,θ=(θ0,θ1,θ2,θ3,θ4),X=(1,x1,x2,x3,x4)。
需要一个机制去评估训练得到的θ是否比较好,即需要对上述h函数进行评估,这个评估函数称为损失函数,描述h函数不好的程度,在下面,将这个损失函数设为J函数,J函数如下:
Figure BDA0001399584500000031
Figure BDA0001399584500000032
J函数中的参数解释为:假设共有m个已知病因的样本,其中x(i)表示第i个已知病因的样本,由上述四种方法分析得到的向量,如x(i)=(1,0.6,0.57,0.79,0.43),而y(i)则表示实际的置信度,如0.9。hθ(x(i))-y(i)即表示估计函数得出的结果与实际值的差。现在的目标是找到一个合适的θ参数向量,使得所有m个样本的估计值与实际值的差的平方和最小,亦即求解
Figure BDA0001399584500000033
上述函数是将x(i)的估计值与真实值y(i)差的平方和作为损失函数,前面乘上的1/2是为了在求导的时候,这个系数就不见了。在选定线性回归模型后,只需要确定参数θ,就可以将模型用来预测。然而θ需要在J(θ)最小的情况下才能确定。因此问题归结为求极小值问题,使用梯度下降法求极小值。
梯度下降法的过程如下:
1)首先对θ赋值,这个值可以是随机的,也可以让θ是一个全零的向量,如θ=(0,0,0,0,0)。
2)改变θ的值,使得J(θ)按梯度下降的方向进行减少。
梯度方向由J(θ)对θ的偏导数确定,由于求的是极小值,因此梯度方向是偏导数的反方向。结果为
Figure BDA0001399584500000041
该结果整体误差对θj求偏导产生,表示θj对整体误差的影响。其中α表示步长,即每次对θj更新多少,如果步长太大,可能会跳过那个最优的θj,而步长太小,则可能导致迭代次数过多。采用梯度下降法对样本数据进行拟合后,得到估计函数为hθ(x)=0.2+0.7*x1+0.6*x2+0.3*x3+0.9*x4
这里对推导过程做出概率解释。假设通过估计函数预测的结果与实际结果有误差∈(i),那么预测结果θTx(i)和真实结果y(i)满足下式:
y(i)=θTx(i)+∈(i)
一般来讲,误差满足平均值为0的高斯分布,也就是正态分布。那么x和y的条件概率也就是:
Figure BDA0001399584500000042
上述公式即为均值为0的标准正态分布的公式,其中σ表示正态分布的方差。这里,就得到了一条样本的结果概率,然而期待的是模型能够在全部样本上预测最准,也就是概率积最大。概率积是概率密度函数积,连续函数的概率密度函数与离散值的概率函数不同。这个概率积成为最大似然估计。最大似然估计得到最大值时确定θ。那么需要对最大似然估计公式求导,求导结果即是:
Figure BDA0001399584500000043
这个式子也就是在前文所采取的损失函数。
上述推导过程中做了一些假定,但这些假定符合客观规律。
采集到新的病人样本后,分别使用四种分析方式对病人病因进行分析得到突变基因和置信度(g,x),然后使用上述估计函数对分析结果进行整合。在实验中,通过样本数据训练模型,然后采用大量的新的病人数据对模型进行测试,结果显示,训练的模型取得了较好的效果,对与疾病相关的基因分析的准确率达到了87%。这也证实了,本发明所提出的基于多组学分析基因或位点对疾病调控关系的方法无论在理论还是实践上都是可行的。

Claims (1)

1.一种基于多组学分析基因或位点对疾病调控关系的方法,其特征在于:包括训练阶段和测试阶段:在训练阶段,采集到病人数据后,分别使用转录组分析、CHIP-Seq分析、miRNA分析以及GWAS分析对病因进行分析,得到的突变基因或位点和置信度分别为(g1,x1)、(g2,x2)、(g3,x3)和(g4,x4);对上述分析结果使用梯度下降法训练估计函数hθ(x)=θ01*x12*x23*x34*x4,得到估计函数hθ(x)=0.2+0.7*x1+0.6*x2+0.3*x3+0.9*x4,在测试阶段,采集新的病人数据,使用估计函数hθ(x)=0.2+0.7*x1+0.6*x2+0.3*x3+0.9*x4以分析基因或位点和疾病之间的调控关系。
CN201710792537.XA 2017-09-05 2017-09-05 基于多组学分析基因或位点对疾病调控关系的方法 Active CN107391962B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710792537.XA CN107391962B (zh) 2017-09-05 2017-09-05 基于多组学分析基因或位点对疾病调控关系的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710792537.XA CN107391962B (zh) 2017-09-05 2017-09-05 基于多组学分析基因或位点对疾病调控关系的方法

Publications (2)

Publication Number Publication Date
CN107391962A CN107391962A (zh) 2017-11-24
CN107391962B true CN107391962B (zh) 2020-12-29

Family

ID=60351251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710792537.XA Active CN107391962B (zh) 2017-09-05 2017-09-05 基于多组学分析基因或位点对疾病调控关系的方法

Country Status (1)

Country Link
CN (1) CN107391962B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110910955B (zh) * 2019-10-21 2024-03-01 中山大学 一种易感基因罕见变异位点纵向分析模型的建立方法
CN110729022B (zh) * 2019-10-24 2023-06-23 江西中烟工业有限责任公司 一种被动吸烟大鼠早期肝损伤模型建立方法及相关基因筛选方法
CN113921084B (zh) * 2021-12-13 2022-03-08 山东大学齐鲁医院 疾病相关非编码rna调控轴多维靶向预测方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040191779A1 (en) * 2003-03-28 2004-09-30 Jie Zhang Statistical analysis of regulatory factor binding sites of differentially expressed genes
CN101515313B (zh) * 2009-03-27 2012-02-01 吉林大学 一组微阵列误标记样本检测方法
DK3511422T3 (da) * 2013-11-12 2023-02-06 Population Bio Inc Fremgangsmåder og sammensætninger til diagnosticering, prognose og behandling af endometriose
CN106874704B (zh) * 2017-01-04 2019-02-19 湖南大学 一种基于线性模型的基因共调控网络中关键调控子识别方法
CN106874706B (zh) * 2017-01-18 2019-04-02 湖南大学 一种基于功能模块的疾病关联因子识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基因富集分析方法研究及基因与疾病关联性分析;吴帅;《中国优秀硕士学位论文全文数据库 医药卫生科技辑》;20170215(第2期);E059-166 *

Also Published As

Publication number Publication date
CN107391962A (zh) 2017-11-24

Similar Documents

Publication Publication Date Title
Teschendorff et al. Statistical and integrative system-level analysis of DNA methylation data
JP6883584B2 (ja) マルチオミック癌プロファイルを用いて機能的な患者固有の体細胞異常を識別するための統合された方法及びシステム
CN107391962B (zh) 基于多组学分析基因或位点对疾病调控关系的方法
US20210313006A1 (en) Cancer Classification with Genomic Region Modeling
JP2005531853A (ja) Snp遺伝子型クラスタリングのためのシステムおよび方法
WO2016084844A1 (ja) 形質予測モデル作成方法および形質予測方法
CN108913776B (zh) 放化疗损伤相关的dna分子标记的筛选方法和试剂盒
CN103390119B (zh) 一种转录因子结合位点识别方法
CN106295246A (zh) 找到与肿瘤相关的lncRNA并预测其功能
Simon Resampling strategies for model assessment and selection
Scott-Boyer et al. An integrated hierarchical Bayesian model for multivariate eQTL mapping
CN104899474A (zh) 基于岭回归矫正MB-seq甲基化水平的方法及系统
Snedecor et al. Fast and accurate kinship estimation using sparse SNPs in relatively large database searches
CN110191964B (zh) 确定生物样本中预定来源的游离核酸比例的方法及装置
KR102400195B1 (ko) Snp 데이터를 이용하여 유전형을 예측하는 방법
Shen et al. Detect differentially methylated regions using non-homogeneous hidden Markov model for methylation array data
Bérard et al. Unsupervised classification for tiling arrays: ChIP-chip and transcriptome
CN105408909B (zh) 转录本确定方法
EP3884502A1 (en) Method and computer program product for analysis of fetal dna by massive sequencing
JP2022530016A (ja) サンプル中のポリヌクレオチド配列の部分存在量の多孔決定
Bian et al. Hidden Markov models in bioinformatics: SNV inference from next generation sequence
Greenberg et al. The metagenomic binning problem: Clustering markov sequences
KR102659915B1 (ko) 환자의 의학적 정보를 예측하기 위한 유전자 선별 방법 및 이의 활용
Shokoohi et al. Uncovering Alterations in Cancer Epigenetics via Trans-Dimensional Markov Chain Monte Carlo and Hidden Markov Models
US20230272486A1 (en) Tumor fraction estimation using methylation variants

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant