CN114913919A - 一种单基因病遗传变异智能解读及报告的方法、系统及服务器 - Google Patents

一种单基因病遗传变异智能解读及报告的方法、系统及服务器 Download PDF

Info

Publication number
CN114913919A
CN114913919A CN202210256620.6A CN202210256620A CN114913919A CN 114913919 A CN114913919 A CN 114913919A CN 202210256620 A CN202210256620 A CN 202210256620A CN 114913919 A CN114913919 A CN 114913919A
Authority
CN
China
Prior art keywords
genetic variation
monogenic
gene
data
sites
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210256620.6A
Other languages
English (en)
Inventor
许桂丹
王春芳
邓益斌
常正义
梁菊华
钟世茂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Youjiang Medical University for Nationalities Affiliated Hospital
Original Assignee
Youjiang Medical University for Nationalities Affiliated Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Youjiang Medical University for Nationalities Affiliated Hospital filed Critical Youjiang Medical University for Nationalities Affiliated Hospital
Priority to CN202210256620.6A priority Critical patent/CN114913919A/zh
Publication of CN114913919A publication Critical patent/CN114913919A/zh
Priority to LU503638A priority patent/LU503638B1/en
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioethics (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明属于生物信息学的数据处理技术领域,公开了一种单基因病遗传变异智能解读及报告的方法、系统及服务器,在多种数据样本集上使用单基因病遗传变异芯片显著性分析方法,分别筛选出全基因组上的差异单基因病遗传变异位点;将多个样本集的单基因病遗传变异差异位点取交集,得到共同差异位点集合;计算差异单基因病遗传变异位点的单基因病遗传变异水平与相应基因表达水平间的皮尔森相关系数,识别单基因病遗传变异调控位点。本发明为针对去单基因病遗传变异的药物研制提供参考和借鉴;不同类型的疾病在单基因病遗传变异模式上的确存在共性,从全基因组角度研究单基因病遗传变异模式与疾病的关系具有现实和临床意义。

Description

一种单基因病遗传变异智能解读及报告的方法、系统及服 务器
技术领域
本发明属于生物信息学的数据处理技术领域,尤其涉及单基因病遗传变异智能解读及报告的方法、系统及服务器。
背景技术
新一代测序技术在单基因病的致病突变研究和医疗实践中的应用越来越广泛。近年来,大量的研究证实,全外显子测序是开展单基因病相关研究,对单基因病患者进行致病突变鉴定和分子诊断的理想方法之一。
然而,在精准医学应用层面,基于新一代测序技术在数据分析和临床解读方面还存在着很多问题,例如,现有的基因检测服务仅能够提供基本的基础数据分析,由于这些检测服务仅停留在科学研究层面,不能够直接对遗传变异进行鉴定和解读,因此还需专业的医生依据经验对上述基础数据分析解读后才能给出致病突变的结果,可见,这样通过人工解读的基础数据分析得到遗传变异报告的方式费时费力,效率极低,制约了精准医学的发展,阻碍了基于新一代测序相关产品和技术的推广。
为解决上述技术问题,CN201810877290.6一种单基因病遗传变异智能解读及报告的方法及系统,能够基于患者的基因原始序列数据自动分析出遗传变异的结果,并给出专业的遗传变异分析报告,提高了遗传变异的诊疗效率。该方法包括:获取基因序列数据,并对基因序列数据进行属性标记;分别将每组基因序列数据与人类参考基因组进行序列比对,得到对应数量的比对数据;基于遗传变异的长度信息识别其变异类型,以及基于遗传变异的位置信息和碱基改变信息预测其变异功能;针对每个遗传变异的变异类型识别结果,对遗传变异所在的基因和人群发生频率进行注释,并在家系检测模式时判断其家系遗传模式。该系统包括上述技术方案所提的方法。
再者,随着高通量测序技术以及单基因病遗传变异芯片技术的不断发展进步,可以得到高效海量的基因数据,基因数据蕴含着许多错综复杂的生命现象,使全面地探索疾病的遗传和表观遗传基础成为可能,为现代生命科学研究提供了新的方向和思路。然而海量数据并不能直观地揭示生命现象或者反映生物规律,必须使用复杂的统计方法和其他的一些手段和技术来分析探索海量数据蕴含的生物学现象。由此,衍生出了生物信息学科。生物信息学是一门生命科学和计算机科学相结合的新兴学科,研究生物信息的采集、处理、存储、传播、分析和解释等,通过综合利用生物学、计算机科学和信息技术来揭示复杂的生物数据所蕴藏的生物学奥秘。人类基因组实际上包含两类信息:遗传信息和表观遗传信息,由此催生了遗传学和表观遗传学。遗传学(Genetics)研究生物的遗传和变异,包括基因结构、功能变异及表达规律,即由DNA序列发生改变而产生的遗传信息;表观遗传学(Epigenetics)研究在核苷酸序列不发生改变的前提下,基因表达发生改变而导致的遗传。遗传和表观遗传是相对的概念,同时又相互依存共同构成人类的遗传信息。在胚胎形成和发展中DNA单基因病遗传变异是至关重要的生命过程,也是最常见的表观遗传修饰之一。因此,作为表观遗传修饰重要组成部分的DNA单基因病遗传变异也成为研究的重点,其在疾病的早期检测、预防、治疗、预后等取得了显著的成效。DNA单基因病遗传变异是指在DNA甲基转移酶(DNMT)的催化下,以硫代蛋氨酸为甲基供体,在CpG二核苷酸胞嘧啶分子的5’碳原子上添加一个甲基基团的化学修饰。DNA单基因病遗传变异能够导致某些基因失活以及某些区域DNA构象变化,进而影响DNA 与蛋白质的相互作用,控制基因表达。DNA单基因病遗传变异还可能引起基因组中相应区域染色质结构的改变,导致DNA失去核梅,限制性内切酶的切割位点,以及DNA酶的敏感位点,使染色质高度螺旋,凝缩成团,失去转录活性。通过分析单基因病遗传变异水平与基因表达的关系发现,单基因病遗传变异水平与基因表达程负相关,即低单基因病遗传变异促进基因表达,而高单基因病遗传变异抑制基因表达。同时大量研究表明,与正常细胞相比,疾病细胞中基因组整体单基因病遗传变异水平偏低,但启动子局部区域异常高单基因病遗传变异,这为利用单基因病遗传变异水平检测疾病的发生提供了理论依据。同时某些基因可能在癌细胞或组织中存在肿瘤特异性单基因病遗传变异的改变,基于此特性,可以将DNA单基因病遗传变异作为疾病早期诊断的生物标记,分子标记可以进一步确定疾病的亚型,这对疾病的治疗非常重要;再者由于表观遗传的可逆性,临床上可以将DNA单基因病遗传变异作为疾病治疗的新靶点,已有研究表明通过去单基因病遗传变异药物处理体外培养的细胞,可以激活由于 DNA单基因病遗传变异改变而沉默的基因。测序技术和微阵列技术的限制, DNA单基因病遗传变异数据非正态分布的统计特点以及高异质性的特点,DNA 单基因病遗传变异数据在基因组上的不均匀分布,不同组学数据的不同维度都对单基因病遗传变异数据分析产生巨大挑战。DNA单基因病遗传变异数据的来源主要通过芯片和测序技术,使用芯片可以获得多个样本的全基因组单基因病遗传变异数据,可以统计地研究DNA单基因病遗传变异在复杂疾病中的作用,但是其在基因组上的覆盖率较低,而且不如测序数据精确;测序数据成本高、耗时多、样本数量少,尽管覆盖率高且结果精确,但对于癌症研究存在一定限制;常用的差异分析方法如T检验,ANOVA等统计方法对数据分布都有一定的要求,并不适用于分析DNA单基因病遗传变异数据,因此在识别DNA单基因病遗传变异模式时,需要提出新的统计方法或测度;DNA单基因病遗传变异和基因表达的维度不同,而且,一个基因包含多个单基因病遗传变异位点,如何整合二者,也是研究人员面临的一大挑战。正是鉴于以上原因,当前,关于DNA单基因病遗传变异模式的研究虽多,但大多数研究都是基于一种疾病或者单个基因及较小区域的DNA单基因病遗传变异,很少是基于多种疾病的全基因组上的DNA单基因病遗传变异模式的分析,致使多种疾病的DNA单基因病遗传变异模式并不清晰,目前已发现的单基因病遗传变异调控位点更是少之又少。
综上所述,现有技术存在的问题是:传统统计方法对数据的分布要求较高,即要求数据的分布是确定的,而实际单基因病遗传变异数据的分布并不明确,所以传统的统计方法存在局限性;不同组学数据其维度不同,所以数据整合也是当前研究面临的挑战。
发明内容
针对现有技术存在的问题,本发明提供了单基因病遗传变异智能解读及报告的方法、系统及服务器。
本发明是这样实现的,一种单基因病遗传变异智能解读及报告的方法,其包括:在多种数据样本集上使用单基因病遗传变异芯片显著性分析方法,分别筛选出全基因组上的差异单基因病遗传变异位点;将多个样本集的单基因病遗传变异差异位点取交集,得到共同差异位点集合;计算差异单基因病遗传变异位点的单基因病遗传变异水平与相应基因表达水平间的皮尔森相关系数,识别单基因病遗传变异调控位点;对差异位点集合迭代进行聚类,得到单基因病遗传变异簇,分别对每个单基因病遗传变异簇进行模式分析,并通过基因注释和富集分析进行论证;
再对样本数据质量检查,剔除不合格样本;对样本数据做归一化、标准化处理,使得样本数据具有可比性;采取探针折叠对单基因病遗传变异芯片采集;
利用差异化分析方法筛选差异表达基因,并将p值和差异倍数两个检验值,同时设为筛选阈值,筛选符合条件的显著差异表达基因;对于差异表达基因,基因的表达均值为u,将基因的每个样本值与u的f倍作差值,若结果大于零则将该基因的该样本值标记为up;将每个基因的每个样本值的f倍与u做差值,若小于零则将基因的该样本值标记为down;分别提取每个样本里标记为up的基因构成上调事务集,标记为down的基因构成下调事务集;
对上调和下调事务集采用关联规则挖掘算法作关联分析,筛选大于K值的频繁集,最后提取支持度和自信度同时排行靠前的两百三十条规则,将强规则对应的基因视为关键基因,最后采用通路分析和富集分析对这些基因的生物功能注释,从生物功能角度诠释这些关键基因的重要性。
进一步,所述单基因病遗传变异智能解读及报告的方法进一步包括:
步骤一,对多种疾病样本数据的单基因病遗传变异水平及基因表达水平进行预处理,预处理过程分为单基因病遗传变异数据预处理和基因表达数据预处理;
步骤二,用单基因病遗传变异芯片显著性分析方法筛选差异单基因病遗传变异位点,对每种疾病预处理后的CpG位点单基因病遗传变异数据,分别采取非配对参数的算法进行差异单基因病遗传变异位点筛选,每种疾病的正常样本和患病样本进行150次的重复实验以调整的阈值,观察每个阈值对应的假阳性率FDR值,选取FDR值为0时对应的值作为阈值Δ;
步骤三,将筛选出来的各个疾病的差异单基因病遗传变异位点,取交集,得到差异单基因病遗传变异位点集合;分析差异单基因病遗传变异位点集合在基因各个位置的分布;
步骤四,对得到的差异单基因病遗传变异位点集合进行聚类,得到单基因病遗传变异簇;
步骤五,取出差异单基因病遗传变异位点集合对应的基因表达水平,计算之间的皮尔森相关系数,根据系数的大小设置阈值,识别单基因病遗传变异调控位点;
步骤六,根据得到的单基因病遗传变异簇及单基因病遗传变异调控位点,得到多种疾病全基因组上的单基因病遗传变异模式。
进一步,所述步骤一具体包括:单基因病遗传变异数据预处理:将每个样本的Beta值映射到基因组上而产生的数据;去掉基因名为空的位点,以及包含0 的个数达到80%以上的位点;
基因表达数据预处理:去掉包含0的个数达到80%以上的基因,进行缺失值填充,标准化后取对数归一化;
按照基因结构将位点分区域:将全基因组的单基因病遗传变异位点根据基因结构分为如下区域:启动子区域、基因体区域、3'UTR三个区域;启动子区域划分为TSS1500、TSS200、第一外显子、5'UTR四个小区域。
进一步,所述步骤四具体包括:取出差异单基因病遗传变异位点集合对应的每种疾病的患病样本的单基因病遗传变异水平,得到一个行为单基因病遗传变异位点,列为数据集样本的矩阵,即聚类的数据集;
计算单基因病遗传变异数据的相似矩阵,相似性度量采用皮尔森相关系数,得到的相似矩阵为对称矩阵;将相似矩阵当做聚类的输入,迭代地进行差异单基因病遗传变异数据的聚类,每次迭代都生成一定数目的聚类。
进一步,所述迭代的具体包括:设置迭代次数大于等于10或者聚类数目小于等于10时,聚类终止;当迭代次数小于10且当前聚类数目小于10个时,将当前每个聚类中的单基因病遗传变异位点对应样本的单基因病遗传变异水平求平均值,得到新的单基因病遗传变异位点作为该聚类的代表点;聚类过程中,有两种信息在各节点间传递并不断被更新,吸引度r和归属度a,通过多次迭代不断更新每个样本点的吸引度和归属度,直到产生多个高质量的聚类中心,并将其他样本点分配到相应的簇中;在第一次迭代中,r变量更新公式如下:
Figure RE-GDA0003742139760000061
第一次迭代之后的迭代过程中,根据信息变量a的值来更新公式;a变量的更新则是收集所有的样本点对于每一个候选聚类中心的支持度,其更新公式如下:
Figure RE-GDA0003742139760000062
将所有聚类的新单基因病遗传变异位点代表点组成的数据矩阵作为下次迭代的新单基因病遗传变异数据,并计算其相似矩阵作为下次迭代的输入,继续聚类过程,直到达到设定的迭代终止条件。
进一步,所述探针折叠的具体方法为:依据基因库信息,对所有的探针注释基因名;遍历基因表达矩阵,标记所有彼此基因名相同的探针行,并依据结果将数据拆分成不同的子集,每个子集内的基因名要么全一致,要么全不一致,查看各子集,若基因名一致则以和的均值的形式返回表达值作为该基因的最终表达值;若子集内基因名全不一致,则保留原数据;汇总所有子集。
进一步,所述差异化分析方法的差异筛选阈值为p值小于0.05且|logFC|=1,保留具有统计意义且表达值变化倍数大于2的基因。
进一步,所述f值取2。
本发明另一目的在于提供一种实施所述的单基因病遗传变异智能解读及报告的方法的单基因病遗传变异智能解读及报告系统。
本发明另一目的在于提供一种基因检测服务器,所述基因检测服务器实施所述的单基因病遗传变异智能解读及报告的方法。
本发明的优点及积极效果为:本发明使用差异分析方法解决了传统差异分析方法中对数据分布的要求,同时本发明的方法与T检验方法对比发现,差异不大,证明了方法的有效性;本发明使用的聚类方法,也摒弃了传统聚类方法中预设置聚类数目的缺陷,不仅提高了聚类效率,还降低了FDR(假阳性率)。本发明综合考虑多种疾病的单基因病遗传变异数据,由以往方法中的单个疾病扩展到多种类型的疾病;由单个基因或者某个区域扩展到全基因组;结合其基因表达数据,总结出疾病的DNA单基因病遗传变异模式,对比不同疾病类型单基因病遗传变异模式的相似性和特异性,揭示单基因病遗传变异模式对疾病发生发展的重要作用,为单基因病遗传变异在临床上的应用提供理论依据和借鉴。
本发明利用单基因病遗传变异与基因表达之间的皮尔森相关系数,设定阈值,筛选强相关位点,识别单基因病遗传变异调控位点。这些位点与多种疾病有关联,并不局限于某种疾病,为多种疾病类型所共享。
本发明可用于阐释复杂疾病的致病机理,对疾病进行风险预测,并为针对去单基因病遗传变异的药物研制提供参考和借鉴;不同类型的疾病在单基因病遗传变异模式上的确存在共性,从全基因组角度研究单基因病遗传变异模式与疾病的关系具有现实和临床意义。
再对样本数据质量检查,剔除不合格样本;对样本数据做归一化、标准化处理,使得样本数据具有可比性;采取探针折叠对单基因病遗传变异芯片采集;
利用差异化分析方法筛选差异表达基因,并将p值和差异倍数两个检验值,同时设为筛选阈值,筛选符合条件的显著差异表达基因;对于差异表达基因,基因的表达均值为u,将基因的每个样本值与u的f倍作差值,若结果大于零则将该基因的该样本值标记为up;将每个基因的每个样本值的f倍与u做差值,若小于零则将基因的该样本值标记为down;分别提取每个样本里标记为up的基因构成上调事务集,标记为down的基因构成下调事务集;
对上调和下调事务集采用关联规则挖掘算法作关联分析,筛选大于K值的频繁集,最后提取支持度和自信度同时排行靠前的两百三十条规则,将强规则对应的基因视为关键基因,最后采用通路分析和富集分析对这些基因的生物功能注释,从生物功能角度诠释这些关键基因的重要性。具有实际意义。
附图说明
图1是本发明实施例提供的单基因病遗传变异智能解读及报告的方法流程图。
图2是本发明实施例提供的在真实数据中的实验结果示意图;
图中:(a)肿瘤细胞中各区域单基因病遗传变异水平分布情况;(b)正常细胞中各区域单基因病遗传变异水平分布情况。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的单基因病遗传变异智能解读及报告的方法包括:
S101,在多种数据样本集上使用单基因病遗传变异芯片显著性分析方法,分别筛选出全基因组上的差异单基因病遗传变异位点;将多个样本集的单基因病遗传变异差异位点取交集,得到共同差异位点集合;计算差异单基因病遗传变异位点的单基因病遗传变异水平与相应基因表达水平间的皮尔森相关系数,识别单基因病遗传变异调控位点;对差异位点集合迭代进行聚类,得到单基因病遗传变异簇,分别对每个单基因病遗传变异簇进行模式分析,并通过基因注释和富集分析进行论证;
S102,再对样本数据质量检查,剔除不合格样本;对样本数据做归一化、标准化处理,使得样本数据具有可比性;采取探针折叠对单基因病遗传变异芯片采集;
S103,利用差异化分析方法筛选差异表达基因,并将p值和差异倍数两个检验值,同时设为筛选阈值,筛选符合条件的显著差异表达基因;对于差异表达基因,基因的表达均值为u,将基因的每个样本值与u的f倍作差值,若结果大于零则将该基因的该样本值标记为up;将每个基因的每个样本值的f倍与u 做差值,若小于零则将基因的该样本值标记为down;分别提取每个样本里标记为up的基因构成上调事务集,标记为down的基因构成下调事务集;
S104,对上调和下调事务集采用关联规则挖掘算法作关联分析,筛选大于K 值的频繁集,最后提取支持度和自信度同时排行靠前的两百三十条规则,将强规则对应的基因视为关键基因,最后采用通路分析和富集分析对这些基因的生物功能注释,从生物功能角度诠释这些关键基因的重要性。
在本发明一优选实施例中,步骤S101进一步包括:
步骤一,对多种疾病样本数据的单基因病遗传变异水平及基因表达水平进行预处理,预处理过程分为单基因病遗传变异数据预处理和基因表达数据预处理;
步骤二,用单基因病遗传变异芯片显著性分析方法筛选差异单基因病遗传变异位点,对每种疾病预处理后的CpG位点单基因病遗传变异数据,分别采取非配对参数的算法进行差异单基因病遗传变异位点筛选,每种疾病的正常样本和患病样本进行150次的重复实验以调整的阈值,观察每个阈值对应的假阳性率FDR值,选取FDR值为0时对应的值作为阈值Δ;
步骤三,将筛选出来的各个疾病的差异单基因病遗传变异位点,取交集,得到差异单基因病遗传变异位点集合;分析差异单基因病遗传变异位点集合在基因各个位置的分布;
步骤四,对得到的差异单基因病遗传变异位点集合进行聚类,得到单基因病遗传变异簇;
步骤五,取出差异单基因病遗传变异位点集合对应的基因表达水平,计算之间的皮尔森相关系数,根据系数的大小设置阈值,识别单基因病遗传变异调控位点;
步骤六,根据得到的单基因病遗传变异簇及单基因病遗传变异调控位点,得到多种疾病全基因组上的单基因病遗传变异模式。
在本发明一优选实施例中,所述步骤一具体包括:单基因病遗传变异数据预处理:将每个样本的Beta值映射到基因组上而产生的数据;去掉基因名为空的位点,以及包含0的个数达到80%以上的位点;
基因表达数据预处理:去掉包含0的个数达到80%以上的基因,进行缺失值填充,标准化后取对数归一化;
按照基因结构将位点分区域:将全基因组的单基因病遗传变异位点根据基因结构分为如下区域:启动子区域、基因体区域、3'UTR三个区域;启动子区域划分为TSS1500、TSS200、第一外显子、5'UTR四个小区域。
在本发明一优选实施例中,所述步骤四具体包括:取出差异单基因病遗传变异位点集合对应的每种疾病的患病样本的单基因病遗传变异水平,得到一个行为单基因病遗传变异位点,列为数据集样本的矩阵,即聚类的数据集;
计算单基因病遗传变异数据的相似矩阵,相似性度量采用皮尔森相关系数,得到的相似矩阵为对称矩阵;将相似矩阵当做聚类的输入,迭代地进行差异单基因病遗传变异数据的聚类,每次迭代都生成一定数目的聚类。
在本发明一优选实施例中,所述迭代的具体包括:设置迭代次数大于等于10 或者聚类数目小于等于10时,聚类终止;当迭代次数小于10且当前聚类数目小于10个时,将当前每个聚类中的单基因病遗传变异位点对应样本的单基因病遗传变异水平求平均值,得到新的单基因病遗传变异位点作为该聚类的代表点;聚类过程中,有两种信息在各节点间传递并不断被更新,吸引度r和归属度a,通过多次迭代不断更新每个样本点的吸引度和归属度,直到产生多个高质量的聚类中心,并将其他样本点分配到相应的簇中;在第一次迭代中,r变量更新公式如下:
Figure RE-GDA0003742139760000111
第一次迭代之后的迭代过程中,根据信息变量a的值来更新公式;a变量的更新则是收集所有的样本点对于每一个候选聚类中心的支持度,其更新公式如下:
Figure RE-GDA0003742139760000112
将所有聚类的新单基因病遗传变异位点代表点组成的数据矩阵作为下次迭代的新单基因病遗传变异数据,并计算其相似矩阵作为下次迭代的输入,继续聚类过程,直到达到设定的迭代终止条件。
在本发明一优选实施例中,所述步骤S102探针折叠的具体方法为:依据基因库信息,对所有的探针注释基因名;遍历基因表达矩阵,标记所有彼此基因名相同的探针行,并依据结果将数据拆分成不同的子集,每个子集内的基因名要么全一致,要么全不一致,查看各子集,若基因名一致则以和的均值的形式返回表达值作为该基因的最终表达值;若子集内基因名全不一致,则保留原数据;汇总所有子集。
在本发明一优选实施例中,所述步骤S103所述差异化分析方法的差异筛选阈值为p值小于0.05且|logFC|=1,保留具有统计意义且表达值变化倍数大于2 的基因。
本发明中,分别对各种疾病预处理后的CpG位点的单基因病遗传变异数据采取非配对参数的算法进行差异单基因病遗传变异位点筛选,每种疾病的正常样本和患病样本进行150次的重复实验去调整的阈值,观察每个阈值对应的FDR 值,最后选取FDR值为0时对应的值为阈值(Δ)。本发明实施例中取的阈值分别为:BLCAΔ=4.51;BRCAΔ=4.94;COADΔ=4.62;LUADΔ=4.90; LUSCΔ=4.69;UCECΔ=5.03。
下面结合实验对本发明的应用效果作详细的描述。
利用真实病例数据,挖掘全基因组单基因病遗传变异模式。
实验中采用的全基因组DNA单基因病遗传变异数据集和基因表达数据集均来自癌症和肿瘤基因图谱(TheCancer Genome Altas,TCGA)中的泛癌症项目 (Pan-CancerInitiative)数据库(https://www.synse.org/#!Synse:syn300013/ wiki/70804)中的提供的六种疾病的数据集。包括:膀胱尿路上皮癌(Bladder Urothelial Ca-rcinoma,BLCA)、乳腺浸润癌(Breast invasive Carcinoma,BRCA)、结肠癌(Colon Adenocarcinoma,COAD)、肺鳞状细胞癌(Lung Squamous cell Carcinoma,LUSC)、子宫内膜癌(Uterine CorpusEndometrial Carcinoma,UCEC)、肺腺癌(Lung Adenocarcinoma,LUAD)。数据都是Illumina平台上的level3水平数据,单基因病遗传变异数据是Illumina微阵列平台(IlluminaInfiniumHumanMethylation 450K Array)上形成的,即将每个样本的Beta值映射到基因组上而产生的数据;基因表达数据使用的是IlluminaHiSeqRNASeqV2数据。
本实验采用的DNA单基因病遗传变异原始数据,包含396064个CPG位点,每个基因上可能有多个位点,即每个样本对应396064个CPG位点的不同单基因病遗传变异水平,为一系列0到1连续的值。六种疾病类型的患病样本和正常样本都是不平衡样本,由于处理成平衡样本会丢失大量样本,忽略因样本非对照造成的误差。
实验的具体实施步骤如下:
的数据做预处理,本发明使用的是Bioconductor上提供的FEM包里的基因信息,然后去掉基因名(gene-symbol)为空的位点,以及包含0的个数达到80%以上的位点最后得到248592个CpG位点,接下来的步骤中使用这248592个位点的单基因病遗传变异值。
分别对六种癌症预处理后的248592个CpG位点的单基因病遗传变异数据采取非配对参数的算法进行差异单基因病遗传变异位点筛选,每种癌症的正常样本和疾病样本进行150次的重复实验去调整的阈值,观察每个阈值对应的FDR 值,最后选取FDR值为0时对应的值为阈值(Δ),则各癌症对应的阈值分别为:BLCAΔ=4.51;BRCAΔ=4.94;COADΔ=4.62;LUADΔ=4.90;LUSCΔ=4.69;UCECΔ=5.03。
为了分析多种疾病类型全基因组上的单基因病遗传变异模式,本发明使用六种疾病差异单基因病遗传变异后的交集数据其结果。取交集得到的差异CPG 位点为2184个,基因为2728个,其中高单基因病遗传变异CpG位点(up)1489 个和1591个基因;低单基因病遗传变异CpG位点(low)692个CpG位点和611 个基因;由高单基因病遗传变异位点小于基因个数,推断出有些位点在多个基因上,如基因结合处。整体来看,差异单基因病遗传变异位点个数小于基因个数,进一步说明了,同一个基因对应多个位点,且其在不同位点的单基因病遗传变异水平差距较大;由此推断,单基因病遗传变异水平差异较大的位点并不在geneBody区域,而是基因交界处,即启动子区。综上,接下来的实验中仅使用差异后取交集得到的2184个CPG位点和2728个基因,对应到之前划分的六个区域上进行分析,其在各区域的分布情况如图2所示,在肿瘤基因中,第一外显子是单基因病遗传变异差异最大的区域,其次是3'UTR、geneBody、TSS1500 是单基因病遗传变异差异较大的区域,由此可以推测,这部分区域的DNA单基因病遗传变异参与人体的部分基本功能,若这些区域的单基因病遗传变异水平产生较大的变化,则易导致其相关功能的紊乱,致使癌症发生,这一现象体现了癌症之间的相似性。
对经过上述差异分析并取交集的2184个差异单基因病遗传变异位点及其 2728个基因,进行聚类。首先取出2184个差异单基因病遗传变异对应的每种癌症的患病样本的单基因病遗传变异水平,得到一个2184行,1874列的矩阵,即聚类的数据集。其次计算单基因病遗传变异数据的相似矩阵,本发明使用的是皮尔森相关系数,所以得到的相似矩阵(Similarity)为对称矩阵。将相似性矩阵当做聚类的输入,迭代地进行差异单基因病遗传变异数据的聚类,每次迭代都生成一定数目的聚类,其具体聚类过程为:首先设定迭代终止的条件,这里设置迭代次数大于等于10或者聚类数目小于等于10时,聚类终止;当迭代次数小于10同时当前聚类数目小于10个时,将当前每个聚类中的单基因病遗传变异位点对应样本的单基因病遗传变异水平求平均值,得到新的单基因病遗传变异位点作为该聚类的代表点,然后将所有聚类的新单基因病遗传变异位点代表点组成的数据矩阵作为下次迭代的新单基因病遗传变异数据,并计算其相似矩阵作为下次迭代的输入,继续聚类过程,直到达到设定的迭代终止条件。本发明中迭代终止时,共进行了两次迭代,最终产生了9个单基因病遗传变异簇,每个单基因病遗传变异簇的代表点即为该单基因病遗传变异簇中所有单基因病遗传变异位点的单基因病遗传变异水平的平均值,可知,2184个CPG位点分在9 个不同的单基因病遗传变异簇中之间没有重合。观察基因个数发现,9个簇中基因的总个数为1406,但是2184个CpG位点总共对应1239个基因。因此,可以推断出有部分基因被划分到多个单基因病遗传变异簇中。
识别单基因病遗传变异调控位点:分别计算9个单基因病遗传变异簇中CPG 位点的单基因病遗传变异水平值与对应基因表达水平间的皮尔森相关系数。实验中9个单基因病遗传变异簇共包含2184个CPG位点,从TCGA数据库中得到基因表达的原始数据。通过前期的数据预处理,去掉某些基因的表达水平值, 2184个差异CPG位点对应到基因表达上剩余1721个位点。观察这1721个位点的单基因病遗传变异水平与基因表达水平的皮尔森相关系数发现,从总体上看,大部分的CPG位点单基因病遗传变异程度与基因表达水平之间的相关系数的绝对值均低于0.1,甚至有200多个CPG位点的相关系数接近于零,可以认为是不相关;只有8个CPG位点的相关系数的绝对值大于0.3。它们位于不同的染色体上,且分布集中在第3、4、5单基因病遗传变异簇中。这其中cg19883813 这个位点的皮尔森相关系数为-0.63,强负相关,由此可以推断出这8个基因的异常表达可能是由相对碱基位点过高或过低的单基因病遗传变异水平异常引起的。
对各个单基因病遗传变异簇使用DAVID软件借助GO等数据库进行基因注释,并使用R软件包GOStats参照数据库进行pathway富集分析。Pathway通路富集分析结果,显示第3单基因病遗传变异簇没有参与任何通路即生物过程,说明此类与各癌症的关联性可能很小,这与DAVID基因注释的结果相同。纵向观察表6可以发现,其OR值均大于1,由此推断这部分基因是疾病的危险因素,与肿瘤有着密切关系。9类单基因病遗传变异簇在23个生物通路中出现显著性富集,这表明异常DNA单基因病遗传变异水平影响着多个不同的癌症相关通路,并在多个类型的肿瘤相关通路中发挥关键性作用。
各单基因病遗传变异簇基因参与的主要生物过程有:促进神经组织中受体与配体的相互作用,诱发致心律失常性右室心肌病(Arrhythmogenic right ventricularcardiomyopathy ARVC)、肥厚性心肌病(Hypertrophic cardiomyopathy, HCM)、扩张型心肌病、青春晚期糖尿病、II型糖尿病等疾病的发生;在钙信号通路、趋化因子信号通路、Notch信号通路、胰岛素信号通路等相关信号通路中显著性富集;参与嗅觉信号传导、细胞粘附分子(Cell adhesion molecules,CAM) 黏着连接、胃酸分泌、氨基酸代谢等相关生物过程。
其富集结果表明这些基因不仅在癌症中起着重要作用,其表达异常也可能导致其他疾病的发生;这也表明癌症之间,各种疾病之间存在一些相同的相关致病基因。Karnovsky等通过分析DNA单基因病遗传变异的特异性表达探究了多个癌症类型的相关通路,并表明癌症之间有相似的通路,这与本发明有着相似的结论,证明了本发明的有效性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种单基因病遗传变异智能解读及报告的方法,其特征在于,所述单基因病遗传变异智能解读及报告的方法包括:在多种数据样本集上使用单基因病遗传变异芯片显著性分析方法,分别筛选出全基因组上的差异单基因病遗传变异位点;将多个样本集的单基因病遗传变异差异位点取交集,得到共同差异位点集合;计算差异单基因病遗传变异位点的单基因病遗传变异水平与相应基因表达水平间的皮尔森相关系数,识别单基因病遗传变异调控位点;对差异位点集合迭代进行聚类,得到单基因病遗传变异簇,分别对每个单基因病遗传变异簇进行模式分析,并通过基因注释和富集分析进行论证;
再对样本数据质量检查,剔除不合格样本;对样本数据做归一化、标准化处理,使得样本数据具有可比性;采取探针折叠对单基因病遗传变异芯片采集;
利用差异化分析方法筛选差异表达基因,并将p值和差异倍数两个检验值,同时设为筛选阈值,筛选符合条件的显著差异表达基因;对于差异表达基因,基因的表达均值为u,将基因的每个样本值与u的f倍作差值,若结果大于零则将该基因的该样本值标记为up;将每个基因的每个样本值的f倍与u做差值,若小于零则将基因的该样本值标记为down;分别提取每个样本里标记为up的基因构成上调事务集,标记为down的基因构成下调事务集;
对上调和下调事务集采用关联规则挖掘算法作关联分析,筛选大于K值的频繁集,最后提取支持度和自信度同时排行靠前的两百三十条规则,将强规则对应的基因视为关键基因,最后采用通路分析和富集分析对这些基因的生物功能注释,从生物功能角度诠释这些关键基因的重要性。
2.如权利要求1所述的单基因病遗传变异智能解读及报告的方法,其特征在于,所述单基因病遗传变异智能解读及报告的方法进一步包括:
步骤一,对多种疾病样本数据的单基因病遗传变异水平及基因表达水平进行预处理,预处理过程分为单基因病遗传变异数据预处理和基因表达数据预处理;
步骤二,用单基因病遗传变异芯片显著性分析方法筛选差异单基因病遗传变异位点,对每种疾病预处理后的CpG位点单基因病遗传变异数据,分别采取非配对参数的算法进行差异单基因病遗传变异位点筛选,每种疾病的正常样本和患病样本进行150次的重复实验以调整的阈值,观察每个阈值对应的假阳性率FDR值,选取FDR值为0时对应的值作为阈值Δ;
步骤三,将筛选出来的各个疾病的差异单基因病遗传变异位点,取交集,得到差异单基因病遗传变异位点集合;分析差异单基因病遗传变异位点集合在基因各个位置的分布;
步骤四,对得到的差异单基因病遗传变异位点集合进行聚类,得到单基因病遗传变异簇;
步骤五,取出差异单基因病遗传变异位点集合对应的基因表达水平,计算之间的皮尔森相关系数,根据系数的大小设置阈值,识别单基因病遗传变异调控位点;
步骤六,根据得到的单基因病遗传变异簇及单基因病遗传变异调控位点,得到多种疾病全基因组上的单基因病遗传变异模式。
3.如权利要求2所述的单基因病遗传变异智能解读及报告的方法,其特征在于,所述步骤一具体包括:单基因病遗传变异数据预处理:将每个样本的Beta值映射到基因组上而产生的数据;去掉基因名为空的位点,以及包含0的个数达到80%以上的位点;
基因表达数据预处理:去掉包含0的个数达到80%以上的基因,进行缺失值填充,标准化后取对数归一化;
按照基因结构将位点分区域:将全基因组的单基因病遗传变异位点根据基因结构分为如下区域:启动子区域、基因体区域、3'UTR三个区域;启动子区域划分为TSS1500、TSS200、第一外显子、5'UTR四个小区域。
4.如权利要求2所述的单基因病遗传变异智能解读及报告的方法,其特征在于,所述步骤四具体包括:取出差异单基因病遗传变异位点集合对应的每种疾病的患病样本的单基因病遗传变异水平,得到一个行为单基因病遗传变异位点,列为数据集样本的矩阵,即聚类的数据集;
计算单基因病遗传变异数据的相似矩阵,相似性度量采用皮尔森相关系数,得到的相似矩阵为对称矩阵;将相似矩阵当做聚类的输入,迭代地进行差异单基因病遗传变异数据的聚类,每次迭代都生成一定数目的聚类。
5.如权利要求4所述的单基因病遗传变异智能解读及报告的方法,其特征在于,所述迭代的具体包括:设置迭代次数大于等于10或者聚类数目小于等于10时,聚类终止;当迭代次数小于10且当前聚类数目小于10个时,将当前每个聚类中的单基因病遗传变异位点对应样本的单基因病遗传变异水平求平均值,得到新的单基因病遗传变异位点作为该聚类的代表点;聚类过程中,有两种信息在各节点间传递并不断被更新,吸引度r和归属度a,通过多次迭代不断更新每个样本点的吸引度和归属度,直到产生多个高质量的聚类中心,并将其他样本点分配到相应的簇中;在第一次迭代中,r变量更新公式如下:
Figure FDA0003548643920000031
第一次迭代之后的迭代过程中,根据信息变量a的值来更新公式;a变量的更新则是收集所有的样本点对于每一个候选聚类中心的支持度,其更新公式如下:
Figure FDA0003548643920000032
将所有聚类的新单基因病遗传变异位点代表点组成的数据矩阵作为下次迭代的新单基因病遗传变异数据,并计算其相似矩阵作为下次迭代的输入,继续聚类过程,直到达到设定的迭代终止条件。
6.如权利要求1所述的单基因病遗传变异智能解读及报告的方法,其特征在于,所述探针折叠的具体方法为:依据基因库信息,对所有的探针注释基因名;遍历基因表达矩阵,标记所有彼此基因名相同的探针行,并依据结果将数据拆分成不同的子集,每个子集内的基因名要么全一致,要么全不一致,查看各子集,若基因名一致则以和的均值的形式返回表达值作为该基因的最终表达值;若子集内基因名全不一致,则保留原数据;汇总所有子集。
7.如权利要求1所述的单基因病遗传变异智能解读及报告的方法,其特征在于,所述差异化分析方法的差异筛选阈值为p值小于0.05且|logFC|=1,保留具有统计意义且表达值变化倍数大于2的基因。
8.如权利要求1所述的单基因病遗传变异智能解读及报告的方法,其特征在于,所述f值取2。
9.一种实施权利要求1~8任意一项所述的单基因病遗传变异智能解读及报告的方法的单基因病遗传变异智能解读及报告系统。
10.一种基因检测服务器,其特征在于,所述基因检测服务器实施权利要求1~8任意一项所述的单基因病遗传变异智能解读及报告的方法。
CN202210256620.6A 2022-03-16 2022-03-16 一种单基因病遗传变异智能解读及报告的方法、系统及服务器 Withdrawn CN114913919A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210256620.6A CN114913919A (zh) 2022-03-16 2022-03-16 一种单基因病遗传变异智能解读及报告的方法、系统及服务器
LU503638A LU503638B1 (en) 2022-03-16 2023-03-14 Ein Verfahren, ein System und einen Server für die intelligente Interpretation und Berichterstattung über genetische Varianten bei Einzelgenkrankheiten

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210256620.6A CN114913919A (zh) 2022-03-16 2022-03-16 一种单基因病遗传变异智能解读及报告的方法、系统及服务器

Publications (1)

Publication Number Publication Date
CN114913919A true CN114913919A (zh) 2022-08-16

Family

ID=82762623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210256620.6A Withdrawn CN114913919A (zh) 2022-03-16 2022-03-16 一种单基因病遗传变异智能解读及报告的方法、系统及服务器

Country Status (2)

Country Link
CN (1) CN114913919A (zh)
LU (1) LU503638B1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115394357A (zh) * 2022-09-01 2022-11-25 杭州链康医学检验实验室有限公司 用于判断样本配对或污染的位点组合及其筛选方法和应用
CN115881218A (zh) * 2022-12-15 2023-03-31 哈尔滨星云医学检验所有限公司 用于全基因组关联分析的基因自动选择方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115394357A (zh) * 2022-09-01 2022-11-25 杭州链康医学检验实验室有限公司 用于判断样本配对或污染的位点组合及其筛选方法和应用
CN115394357B (zh) * 2022-09-01 2023-06-30 杭州链康医学检验实验室有限公司 用于判断样本配对或污染的位点组合及其筛选方法和应用
CN115881218A (zh) * 2022-12-15 2023-03-31 哈尔滨星云医学检验所有限公司 用于全基因组关联分析的基因自动选择方法

Also Published As

Publication number Publication date
LU503638B1 (en) 2023-09-14

Similar Documents

Publication Publication Date Title
Riddick et al. Integration and analysis of genome-scale data from gliomas
Tan et al. Evaluation of gene expression measurements from commercial microarray platforms
CN114913919A (zh) 一种单基因病遗传变异智能解读及报告的方法、系统及服务器
CN107357924A (zh) 一种精准医学知识图谱构建方法和装置
WO2012104764A2 (en) Method for estimation of information flow in biological networks
CN107301330A (zh) 一种利用全基因组数据挖掘甲基化模式的方法
US20090182513A1 (en) Method for analyzing biological networks
CN112837744A (zh) 一种前列腺癌预后显著相关ceRNA调控网络的构建方法
US20130166320A1 (en) Patient-centric information management
Li et al. Cluster-Rasch models for microarray gene expression data
Lopes-Ramos et al. Regulatory network of PD1 signaling is associated with prognosis in glioblastoma multiforme
CN116312785A (zh) 乳腺癌诊断标志基因及其筛查方法
Munquad et al. A deep learning–based framework for supporting clinical diagnosis of glioblastoma subtypes
Chen et al. Identification and analysis of spinal cord injury subtypes using weighted gene co-expression network analysis
Zhou et al. Imputing gene expression to maximize platform compatibility
Callegaro et al. A locally adaptive statistical procedure (LAP) to identify differentially expressed chromosomal regions
Rau et al. Individualized multi-omic pathway deviation scores using multiple factor analysis
Rodriguez et al. Massive integrative gene set analysis enables functional characterization of breast cancer subtypes
CN112195247B (zh) 一种folfox药物方案有效性检测方法及试剂盒
CN111785319B (zh) 基于差异表达数据的药物重定位方法
Park Experimental design and data analysis for array comparative genomic hybridization
CN113257354B (zh) 基于高通量实验数据挖掘进行关键rna功能挖掘的方法
CN118314951B (zh) 胶质母细胞瘤预后生物标志物筛选分析方法及系统
Pham et al. A New Feature Selection and Classification Approach for Optimizing Breast Cancer Subtyping Based on Gene Expression
US20240076744A1 (en) METHODS AND SYSTEMS FOR mRNA BOUNDARY ANALYSIS IN NEXT GENERATION SEQUENCING

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20220816