CN107977550A - 一种基于压缩的快速分析致病基因算法 - Google Patents

一种基于压缩的快速分析致病基因算法 Download PDF

Info

Publication number
CN107977550A
CN107977550A CN201711472339.1A CN201711472339A CN107977550A CN 107977550 A CN107977550 A CN 107977550A CN 201711472339 A CN201711472339 A CN 201711472339A CN 107977550 A CN107977550 A CN 107977550A
Authority
CN
China
Prior art keywords
mrow
msub
individual
snp
msubsup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711472339.1A
Other languages
English (en)
Inventor
孙志伟
贾洪川
马永军
蔡润身
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University of Science and Technology
Original Assignee
Tianjin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University of Science and Technology filed Critical Tianjin University of Science and Technology
Priority to CN201711472339.1A priority Critical patent/CN107977550A/zh
Publication of CN107977550A publication Critical patent/CN107977550A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种基于压缩的快速分析致病基因算法,其主要技术特点是:将SNP基因型数据进行二进制的转换;将转换后的二进制序列进行压缩处理;确定样本个体之间相似度的评价标准;通过样本个体之间相似度的评价标准,得到样本个体之间的位点评分结果,确定一定阈值以得到候选IBD片段;选取病例组和对照组样本个体进行病例对照分析,比较病例组/病例组个体与对照组/对照组个体评价值之间的差异;鉴定SNP与疾病之间的关联。本发明设计合理,较大程度上缩短了实验分析的运行时间,提高了效率,而且可以较准确定位到致病基因上,可广泛用于一些常见疾病与基因之间关联分析的相关研究。

Description

一种基于压缩的快速分析致病基因算法
技术领域
本发明属于生物信息处理技术领域,尤其是一种基于压缩的快速分析致病 基因算法(FADG-C,Fast anlysis of disease gene based on compression)。
背景技术
单核苷酸多态性(Single nucleotide polymorphism,SNP)指的是在某种生 物不同个体的DNA序列当中,存在着单个核苷酸变异的多态性现象。SNP是基因 组中存在的一种数量异常丰富的变异形式,占人类基因组中遗传多态性的90% 以上。SNP与罕见变异的不同之处在于,通常情况下,种群中频率等于或小于 1%的此种变异被称为是突变,而只有当频率大于1%的时候才被称为是单核苷酸 多态性。
SNP的诸多特性使得它可以用于对复杂性状与疾病的遗传解剖以及基于群 体的基因识别等多方面的研究工作,表现在以下方面:
首先,SNP数量多并且分布广泛。
其次,SNP适用于规模化并且快速的筛查。虽然组成DNA的碱基有4种类型, 但SNP是一种二态的标记,因为它一般只有两种碱基组成,又被称为是二等位 基因(biallelic)。由于SNP二态性的存在,在基因组筛选中SNP往往只需要 进行或加或减的分析,而不需要去分析片段的长度,这一特性对于利用自动化 技术来筛选或者检测SNP的发展特别有利。
然后是易于估计SNP等位基因频率。采用混和样本估算等位基因的频率的 策略就是一种高效且快速的方法。第一步选择参考样本作为标准曲线,第二步 将待测的混和样本与标准曲线进行分析比较,最后一步根据所得信号的比例来 确定各种等位基因在混和样本中的频率。
最后是SNP易于基因分型。SNP的二态性同时也使得对其进行基因分型更加 方便。SNP进行基因分型主要包含三个方面的内容:(1)通过DNA分子杂交、等 位基因特异的寡核苷酸连接反应、引物延伸、侧翼探针切割反应以及基于这些 方法的变通技术来鉴别SNP基因型;(2)完成上述这些化学反应采用包括液相反 应、固相支持物上进行的反应以及两者都有的反应三种模式。(3)等到化学反应 结束之后,还需要运用生物技术对化学反应的结果进行系统检测。
人类基因组计划的实施使得SNP成为人类基因组中最丰富的遗传变异形式。 位于一条染色体特定区域的一组相互关联并且倾向于作为一个整体一起遗传给 下一代的SNP的组合称为是单体型(Haplotype)。人类群体中大约有一千万个 SNP位点,其中特异SNP位点的频率往往都大于百分之一。相邻的SNP等位位点 倾向于作为一个整体一起遗传给下一代,单体型图利用这一特性可以拿来描述 人类常见的遗传多态模式。单体型图谱可以涵盖染色体上具有紧密关联SNP的 区域,区域当中的单体型以及这些单体型的标签SNP。除此之外单体型图还可以 标示出那些与特定SNP位点关联不紧密的区域。
在两个或者两个以上的个体当中,如果一个DNA片段具有相同的核苷酸序列, 就说这个DNA片段是IBS(Identity By State,状态一致),如果这个IBS片段 是遗传自同一个祖先且中间过程没有发生过重组事件,就说这个片段是 IBD(Identity By Descent,同源一致)。也就是说,该片段在这些个体中具有 相同的祖先来源。
作为IBD的DNA片段是定义的IBS,但是不是IBD的片段仍然可以是IBS, 因为不同个体中的相同突变或许不改变该区段的重组。如果往上追溯足够长的 时间,则在有限群体中的所有个体都是相关的,并且因此将共享它们的基因组 IBD的片段。在减数分裂期间,IBD的片段通过重组进行分裂。因此,IBD片段 的预期长度取决于该区段的基因座的最近的共同祖先的世代数。
IBD共享的量(包括长度和数量)取决于受试个体之间的家族关系。因此, IBD片段检测的一个应用是量化关联性。相关性的测量可以用于法医遗传学,但 也可以增加遗传连锁图谱中的信息,并且有助于通过标准关联研究中的非文档 关系减少偏差。IBD定位类似于连锁分析,但是却可以在无关个体不知系谱的情 况下进行。IBD定位可以看作是关联分析的一种新形式,提高了定位包含多个罕 见的疾病易感基因变异或基因组区域的能力。
有相应学者研究表明病例组和对照组个体同胞对之间的IBD差异可以用于鉴 定SNP和疾病之间的关联。IBD定位致病基因是在各位点上个体之间的IBD关系 已知的情况下定位致病基因,首先需要检测IBD片段,得到各位点上个体之间 的IBD关系之后再进行关联检测来定位致病基因。尤其是IBD片段的检测,需 要复杂的分析,运行效率比较低。这里考虑进一步提高运行效率,一定程度上 解决片段检测计算效率的挑战。
对IBD的分析发现,IBS是潜在的IBD候选,这里考虑到算法的效率,不需 要找到确切的IBD片段,考虑IBS和IBD之间的特殊关系,找到候选IBD片段 直接进行分析来试图更加快速地定位到致病基因。基于此想法,产生了FADG算 法,对于FADG算法来说,算法总共分为六个步骤。
(1)将SNP基因型数据进行数值化预处理转换为数目为h的SNP序列。
(2)对个体对之间的IBS状态进行对比分析。对于任意两个样本个体的每 个SNP位点进行对比分析。
(3)对IBS区域进行分析,满足一定阈值的作为候选IBD片段进一步分析。 需要对得到的IBS状态值进行一次遍历。
(4)定义评价函数,需要对候选IBD片段的状态值进行综合计算,然后进 行标准化。
(5)病例对照分析,分别得到病例组和对照组的评价函数,然后得到两者 之间的差异。
(6)定位致病基因,把病例组和对照组差异最大的位点作为致病基因。
FADG算法考虑IBS和IBD的关系,寻找候选IBD片段,从而避免了复杂的片 段检测,缩短了运行时间,然后通过定义评价函数来定位致病基因。为了测试 算法FADG的效率,选取已有的方法进行效率对比。选取进行对比的方法是PLINK 和Fast pairwise(用P&F表示),用Plink检测IBD片段,得到IBD关系之后用 目前较快的Fast pairwise方法进行关联检测来定位致病基因。虽然FADG算法 相比于P&F算法有很大的改进,但是,其在拟合误差的准确性和时间效率上都 存在很大的提升空间。
发明内容
本发明的目的在于克服现有技术的不足,提出一种设计合理、处理速度快 且准确性高的基于压缩的快速分析致病基因算法。
本发明解决其技术问题是采取以下技术方案实现的:
一种基于压缩的快速分析致病基因算法,包括以下步骤:
步骤1、数据预处理:将SNP基因型数据进行二进制的转换,转换为0和1 组成的序列;
步骤2、数据压缩:将转换后的二进制序列进行压缩处理;
步骤3:确定样本个体之间相似度的评价标准;
步骤4:获取候选IBD片段:通过样本个体之间相似度的评价标准,得到样 本个体之间的位点评分结果,确定一定阈值以得到候选IBD片段;
步骤5:进行病例对照分析:选取病例组和对照组样本个体进行病例对照分 析,比较病例组/病例组个体与对照组/对照组个体评价值之间的差异;
步骤6:定位致病位点:通过步骤5得到的差异来鉴定SNP与疾病之间的关 联。
本发明的优点和积极效果是:
1、本发明通过IBS(Identity By State)和IBD(Identity By Descent)之 间的特殊关系,找到待检测的候选IBD片段直接进行分析来是试图更加快速地 定位到致病基因,由病例组与对照组个体同胞之间的IBD差异来鉴定SNP和疾 病的关联;其利用数据压缩的思想以及SNP基因型的二态性对SNP基因型数据 转换为二进制数据进行数据压缩处理,每次可以对多个SNP位点同时进行分析, 以达到显著降低样本个体之间位点对比分析的频率,进一步地提高了运行效率 和片段检测计算效率。
2、本发明设计合理,与其他的基因关联分析算法相比,在不同SNP数量的 样本实验中和不同数量样本个体实验的中,都较大程度上缩短了实验分析的运 行时间,提高了效率,而且可以较准确定位到致病基因上,本发明具有很好的 适应性,可广泛用于一些常见疾病与基因之间关联分析的相关研究。
附图说明
图1为本发明的处理流程图;
图2a为本发明使用染色体Chr6的实验结果图;
图2b为本发明使用染色体Chr9的实验结果图;
图2c为本发明使用染色体Chr11的实验结果图;
图2d为本发明使用染色体Chr16的实验结果图;
图2e为本发明使用染色体Chr18的实验结果图;
图3为本发明与现有FAGD算法的实验对比图。
具体实施方式
以下结合附图对本发明实施例做进一步详述。
本发明的设计思想为:首先考虑到了SNP的二态性,将SNP基因型转换为 二进制数据,然后考虑引入数据压缩的思想,同时分析多个SNP位点,降低位 点对比分析的次数来提高算法的效率,而在两个或者两个以上的个体当中,如 果一个DNA片段具有相同的核苷酸序列,就说这个DNA片段是IBS,如果这个 IBS片段是遗传自同一个祖先且中间过程没有发生过重组事件,就说这个片段是 IBD。IBD片段检测的一个最主要的应用就是能够量化遗传位点与疾病之间的关 联性。IBD定位类似于连锁分析,但是却可以在无关个体不知系谱的情况下进行。 IBD定位可以看作是关联分析的一种新形式,提高了定位包含多个罕见的疾病易 感基因变异或基因组区域的能力,对基于IBD的致病基因分析做出了部分尝试, 也取得了一定的成果。
基于上述设计思想,本发明的一种基于压缩的快速分析致病基因算法,如 图1所示,包括以下步骤:
步骤1、数据预处理:SNP基因型数据进行二进制的转换,转换为0和1组 成的序列。
SNP基因型数据是由1和2组成的数量为2h的序列,每一个SNP位点对应 两个基因型序列。因此,在本步骤中,对任意一个个体i的数量为2h的SNP基因 型数据进行预处理,把这些序列进行二进制转换,转换为由0和1组成的序列, 该序列表示如下:
其中,代表个体i转换之后的二进制SNP基因型数据,i代表的是个体i, 而k代表个体的第k个序列,2h是序列长度,snpik值为0或1。
步骤2、数据压缩:将转换后的二进制序列进行压缩处理,压缩的数据表示 如下:
其中,代表个体i转换之后的十六进制SNP基因型数据,cik值为0~F的十 六进制数。
步骤3:确定样本个体之间相似度的评价标准。
本步骤对个体对之间数据进行对比分析,建立起对应位点00~FF这256种 情况与四类分值的映射关系。
对IBS区域进行分析,满足一定阈值的作为候选IBD片段进一步分析。对 样本个体j和样本个体k数量为h/2的十六进制序列进行对比分析,就是对两个样 本个体对应的每一个序列位点进行对比分析。对于其中单个的位点,两个样本 个体组合存在的可能情况有256种,也即00、01、…、FF。这里把可能存在IBD 关系的位点作为候选IBD进行分析,只有两个样本个体是隐性纯合子和显性纯 合子的情况时,两个体在该位点是IBD的概率较低,才不作为候选IBD进行分 析,其余的情况都作为候选IBD进行分析。根据每个位点包含的左右两个SNP 位点的对应情况分为四个类别,分别是左侧SNP为候选IBD、右侧SNP位点为 候选IBD、两个SNP位点都是候选IBD和两个SNP位点都不是候选IBD。四种 类别分别对应10、01、11和00,相当于压缩后每个位点的评分同时包含了对两 个SNP位点的评分,将上述规则作为样本个体之间相似度的评价标准。
步骤4:获取候选IBD片段:通过样本个体之间相似度的评价标准,得到样 本个体之间的位点评分结果,确定一定阈值以得到候选IBD片段。
本步骤是通过步骤3给出的评分标准,可以得到样本个体对之间的位点评 分结果,每个位点的评分同时包含了两个SNP位点的评分,因此可以得到每一 个SNP位点的评分结果,与之对应的就是算法FADG中SNP的IBS状态值。对于 两个个体而言,IBS状态值为1的区域就是有IBD片段的可能性,把满足一定阈 值的区域作为候选IBD片段进行下一步分析。
在本步骤中,得到样本个体之间的位点评分结果如下:
其中,Cijk是个体i和个体j在位点k的对比结果,值为四类分值00、01、10、11 之一;再去得到IBS状态值,形式如下:
其中,IBS表示的是个体对之间的IBS状态值,Gi和Gj分别代表的是个体i 和个体j,ibsijk代表的是个体i和个体j在SNP位点k的状态值,表示每 一个位点对应两个SNP位点的IBS状态值。
本步骤得到的候选IBD片段表示如下:
其中r代表个体IBS状态值为1的SNP数量,也即该候选IBD片段包含有 数量为r的SNP。
步骤5:进行病例对照分析:选取病例组和对照组样本个体进行病例对照分 析,计算病例组/病例组个体与对照组/对照组个体评价值之间的差异。
在本步骤中,各组内样本个体轮流进行比较,然后运用步骤3给出的打分 标准逐个位点进行打分,对于各个位点进行相似度分析,然后比较病例组和对 照组之间的差异。选取病例组和对照组样本个体数量分别为m和n,因此病例组 和对照组分别需要进行m(m-1)/2和n(n-1)/2次样本个体的对比,以及m(m-1)h/4 和n(n-1)h/4次的位点相似度评分。
本步骤在具体实施时,按下式计算病例组/病例组个体与对照组/对照组个体 评价值之间的差异:
其中,N是进行分析的样本个体的数目。
对于第k个SNP的评价函数就可以表示为:
对每个SNP得到各自的评价函数分别表示为:
步骤6:定位致病位点:通过步骤5得到的差异来鉴定SNP与疾病之间的关 联,将差异最大的SNP位点作为致病基因进行分析。
本步骤分析得到的病例组/病例组个体与对照组/对照组个体评价值之间的 差异可以拿来鉴定SNP与疾病之间存在的关联。病例组个体和对照组个体之间 的差异恰恰反应的是疾病与正常之间的差异,本专利将差异最大的SNP位点作 为致病基因进行分析。具体方法如下:
在具体实施时,通过下面公式得到差异:
进而得到整体评价函数:
D=(d1,d2,···,dh)
最后可以得到评价函数差异最大的SNP,作为所求的致病基因位点。
下面以选取一组数据进行分析,该组数据是选自Gaw15的类风湿关节炎(Rheumatoid Arthritis,RA)的模拟数据,来对模型FADG-C进行实验分析和结 果验证。
如图2a至图2e所示,五条染色体Chr6、Chr9、Chr11、Chr16和Chr18分 别得到的实验结果分别是SNP153、SNP183、SNP389、SNP30和SNP269,与FADG 的算法得到的实验结果保持一致。
然后对两种算法的运行效率进行分析比较,来比较算法FADG-C和算法FADG 在运行效率上能否有一定程度地提高。对比的实验结果如下表1所示。
表1算法的实验对比表
如表1所示,选取RA数据的五组不同SNP数目的染色体数据进行实验分析, SNP数目有204、303、475、492和674,对应的SNP基因型数目是408、606、 950、984和1348。实验病例对照分析选用病例组样本个体1500个,对照组样 本个体2000个。可以看到FADG-C算法提升了算法的运行效率。为了能有更加 直观的感受,图3给出了运行时间的折线图。
下面给出具体的实验过程:
(1)实验数据给定的SNP基因型数据是由1和2组成的数量为2h的序列, 每一个SNP位点对应两个基因型序列,因此每一个个体包含的SNP位点数量为h。 对任意一个个体i的数量为2h的SNP基因型数据进行预处理,把这些序列进行二 进制转换,转换为由0和1组成的序列。这里进行简单处理,把所有值为2的 序列转化为了0。经过二进制转换之后的数据变为如下形式:
其中,代表个体i转换之后的二进制SNP基因型数据,i代表的是个体i, 而k代表个体的第k个序列,2h是序列长度,snpik值为0或1。
(2)经过数据预处理之后,数据转换为二进制数据,然后将二进制数据进 行压缩处理转换为十六进制,个体i经过压缩的SNP基因型数据就可以表示为:
其中,代表个体i转换之后的十六进制SNP基因型数据,cik值为0~F的十 六进制数。
(3)对个体i和个体j之间关于经过压缩之后的第k个序列进行如下的处理:
以上的对应分析共包含256种情况,上面列出了几种具有代表性的情况, 可以得到对比的结果可以分为四类,分别是00、01、10、11,每一个十六进制 位点对比直接得到两个SNP位点的评价值。表示成十六进制的形式是为了更加 直观的表示,在实际的计算过程中,本文建立起00~FF这256种情况与四类分 值的映射关系,不需要真正把二进制数据转换成十六进制,直接对二进制序列 进行移位运算和位运算快速得到映射索引,直接就可以得到对比的结果,进而 得到包含两个SNP位点的评价值。
(4)应用上式的结论对个体i和个体j的数量为h/2的位点进行对比分析, 得到两个个体各位点的对比分析结果。
其中,Cijk是个体i和个体j在位点k的对比结果,值为四类分值00、01、10、 11之一。
每一个位点的对比结果对应到SNP位点的评价值,对比结果就可以对应算 法FADG的IBS状态值。
其中,IBS表示的是个体对之间的IBS状态值,Gi和Gj分别代表的是个体i和 个体j,ibsijk代表的是个体i和个体j在SNP位点k的状态值,每一个位 点对应两个SNP位点的IBS状态值。
(5)个体i和个体j SNP的IBS状态值非0的区域满足一定阈值就作为候选 IBD片段,与FADG保持一致阈值为2cM,候选IBD片段表示为:
其中r代表个体IBS状态值为1的SNP数量,也即该候选IBD片段包含有数 量为r的SNP。
(6)定义一个评价函数,用来计算每个SNP上各个体之间的差异:
其中,N是进行分析的样本个体的数目。
对于第k个SNP的评价函数就可以表示为:
把数量为N的样本个体的数据分成病例组和对照组两组进行分析,其中病 例组包含数量为L的样本个体,对照组包含数量为M的样本个体,然后对这两 组数据分别进行评价分析,对每个SNP得到各自的评价函数分别表 示为:
(7)对于任意的第k个SNP来说,可以得到在该SNP上病例组和对照组之间 存在的差异,表示为:
则对于所有h个SNP进行分析,得到整体的评价函数可以表示为:
D=(d1,d2,···,dh)
然后可以得到评价函数差异最大的SNP,即作为所求的致病基因位点。
d*=max{d1,d2,···,dh}
通过对算法FADG和FADG-C的时间频度进行了详细分析,可以得到算法 FADG-C与FADG的差别主要体现在T21和T22。两者的总体时间频度分别记为T1和T2
T1=(h+1)+(m+n)h+(m(m-1)+n(n-1))(h+1)
T2=(h+1)+2(m+n)h+(m(m-1)+n(n-1))(3h/4+1)
通过分析可以得到与算法FADG相比,FADG-C的时间频度更小。根据算法花 费的时间与算法中语句的执行次数的正比例关系,算法FADG-C中语句执行次数 少,因此FADG-C花费的时间就相对少。
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此 本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根 据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。

Claims (7)

1.一种基于压缩的快速分析致病基因算法,其特征在于包括以下步骤:
步骤1、数据预处理:将SNP基因型数据进行二进制的转换,转换为0和1组成的序列;
步骤2、数据压缩:将转换后的二进制序列进行压缩处理;
步骤3:确定样本个体之间相似度的评价标准;
步骤4:获取候选IBD片段:通过样本个体之间相似度的评价标准,得到样本个体之间的位点评分结果,确定一定阈值以得到候选IBD片段;
步骤5:进行病例对照分析:选取病例组和对照组样本个体进行病例对照分析,比较病例组/病例组个体与对照组/对照组个体评价值之间的差异;
步骤6:定位致病位点:通过步骤5得到的差异来鉴定SNP与疾病之间的关联。
2.根据权利要求一种基于压缩的快速分析治病基因的算法,其特征在于:所述步骤1预处理得到的序列如下:
<mrow> <msubsup> <mi>G</mi> <mi>i</mi> <mrow> <mi>b</mi> <mi>i</mi> <mi>n</mi> </mrow> </msubsup> <mo>=</mo> <mo>{</mo> <msub> <mi>snp</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>snp</mi> <mrow> <mi>i</mi> <mn>2</mn> </mrow> </msub> <mo>,</mo> <mo>...</mo> <msub> <mi>snp</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>snp</mi> <mrow> <mi>i</mi> <mn>2</mn> <mi>h</mi> </mrow> </msub> <mo>}</mo> <mo>,</mo> <mn>1</mn> <mo>&amp;le;</mo> <mi>k</mi> <mo>&amp;le;</mo> <mn>2</mn> <mi>h</mi> </mrow>
其中,代表个体i转换之后的二进制SNP基因型数据,i代表的是个体i,而k代表个体的第k个序列,2h是序列长度,snpik值为0或1。
3.根据权利要求1所述的一种基于压缩的快速分析治病基因的算法,其特征在于:所述步骤2数据压缩后的形式如下:
<mrow> <msubsup> <mi>G</mi> <mi>i</mi> <mi>C</mi> </msubsup> <mo>=</mo> <mo>{</mo> <msub> <mi>c</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>c</mi> <mrow> <mi>i</mi> <mn>2</mn> </mrow> </msub> <mo>,</mo> <mo>...</mo> <msub> <mi>c</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>c</mi> <mrow> <mi>i</mi> <mi>h</mi> <mo>/</mo> <mn>2</mn> </mrow> </msub> <mo>}</mo> <mo>,</mo> <mn>1</mn> <mo>&amp;le;</mo> <mi>k</mi> <mo>&amp;le;</mo> <mi>h</mi> <mo>/</mo> <mn>2</mn> </mrow>
其中,代表个体i转换之后的十六进制SNP基因型数据,cik值为0~F的十六进制数。
4.根据权利要求1所述的一种基于压缩的快速分析治病基因的算法,其特征在于:所述步骤4中得到样本个体之间的位点评分结果如下:
<mrow> <mi>C</mi> <mrow> <mo>(</mo> <msubsup> <mi>G</mi> <mi>i</mi> <mi>C</mi> </msubsup> <mo>,</mo> <msubsup> <mi>G</mi> <mi>j</mi> <mi>C</mi> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mrow> <mi>i</mi> <mi>j</mi> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>C</mi> <mrow> <mi>i</mi> <mi>j</mi> <mn>2</mn> </mrow> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>C</mi> <mrow> <mi>i</mi> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>C</mi> <mrow> <mi>i</mi> <mi>j</mi> <mi>h</mi> <mo>/</mo> <mn>2</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mn>1</mn> <mo>&amp;le;</mo> <mi>k</mi> <mo>&amp;le;</mo> <mi>h</mi> <mo>/</mo> <mn>2</mn> </mrow>
其中,Cijk是个体i和个体j在位点k的对比结果,值为四类分值00、01、10、11之一;再去得到IBS状态值,形式如下:
<mrow> <mi>I</mi> <mi>B</mi> <mi>S</mi> <mrow> <mo>(</mo> <msub> <mi>G</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>G</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>C</mi> <mrow> <mo>(</mo> <msubsup> <mi>G</mi> <mi>i</mi> <mi>C</mi> </msubsup> <mo>,</mo> <msubsup> <mi>G</mi> <mi>j</mi> <mi>C</mi> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <msub> <mi>ibs</mi> <mrow> <mi>i</mi> <mi>j</mi> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>ibs</mi> <mrow> <mi>i</mi> <mi>j</mi> <mn>2</mn> </mrow> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>ibs</mi> <mrow> <mi>i</mi> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>ibs</mi> <mrow> <mi>i</mi> <mi>j</mi> <mi>h</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mn>1</mn> <mo>&amp;le;</mo> <mi>k</mi> <mo>&amp;le;</mo> <mi>h</mi> </mrow>
其中,IBS表示的是个体对之间的IBS状态值,Gi和Gj分别代表的是个体i和个体j,ibsijk代表的是个体i和个体j在SNP位点k的状态值,表示每一个位点对应两个SNP位点的IBS状态值。
5.根据权利要求1所述的一种基于压缩的快速分析治病基因的算法,其特征在于:所述步骤4得到的候选IBD片段表示如下:
<mrow> <mi>c</mi> <mi>I</mi> <mi>B</mi> <mi>D</mi> <mrow> <mo>(</mo> <msub> <mi>G</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>G</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <msub> <mi>ibs</mi> <mrow> <msub> <mi>ij</mi> <mn>1</mn> </msub> </mrow> </msub> <mo>,</mo> <msub> <mi>ibs</mi> <mrow> <msub> <mi>ij</mi> <mn>2</mn> </msub> </mrow> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>ibs</mi> <mrow> <msub> <mi>ij</mi> <mi>r</mi> </msub> </mrow> </msub> <mo>)</mo> </mrow> </mrow>
其中r代表个体IBS状态值为1的SNP数量。
6.根据权利要求1所述的一种基于压缩的快速分析治病基因的算法,其特征在于:所述步骤5采用下式计算每个SNP上各个体之间的差异:
<mrow> <mi>S</mi> <mo>=</mo> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>S</mi> <mn>2</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>S</mi> <mi>h</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mfrac> <mrow> <mi>c</mi> <mi>I</mi> <mi>B</mi> <mi>D</mi> <mrow> <mo>(</mo> <msub> <mi>G</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>G</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <mi>N</mi> </mtd> </mtr> <mtr> <mtd> <mn>2</mn> </mtd> </mtr> </mtable> </mfenced> </mfrac> </mrow>
其中,N是进行分析的样本个体的数目;
对于第k个SNP的评价函数表示为:
<mrow> <msub> <mi>S</mi> <mi>k</mi> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mfrac> <mrow> <mi>c</mi> <mi>I</mi> <mi>B</mi> <mi>D</mi> <mrow> <mo>(</mo> <msub> <mi>G</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>G</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <mi>N</mi> </mtd> </mtr> <mtr> <mtd> <mn>2</mn> </mtd> </mtr> </mtable> </mfenced> </mfrac> </mrow>
对每个SNP得到各自的评价函数分别表示为:
<mrow> <msubsup> <mi>S</mi> <mrow> <mi>c</mi> <mi>a</mi> <mi>s</mi> <mi>e</mi> </mrow> <mi>k</mi> </msubsup> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>L</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>L</mi> </munderover> <mfrac> <mrow> <mi>c</mi> <mi>I</mi> <mi>B</mi> <mi>D</mi> <mrow> <mo>(</mo> <msub> <mi>G</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>G</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <mi>L</mi> </mtd> </mtr> <mtr> <mtd> <mn>2</mn> </mtd> </mtr> </mtable> </mfenced> </mfrac> </mrow>
<mrow> <msubsup> <mi>S</mi> <mrow> <mi>c</mi> <mi>o</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>o</mi> <mi>l</mi> </mrow> <mi>k</mi> </msubsup> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>M</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <mfrac> <mrow> <mi>c</mi> <mi>I</mi> <mi>B</mi> <mi>D</mi> <mrow> <mo>(</mo> <msub> <mi>G</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>G</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <mi>M</mi> </mtd> </mtr> <mtr> <mtd> <mn>2</mn> </mtd> </mtr> </mtable> </mfenced> </mfrac> </mrow>
7.根据权利要求1所述的一种基于压缩的快速分析治病基因的算法,其特征在于:所述步骤6通过如下公式得出差异:
<mrow> <msub> <mi>d</mi> <mi>k</mi> </msub> <mo>=</mo> <mo>|</mo> <msubsup> <mi>S</mi> <mrow> <mi>c</mi> <mi>a</mi> <mi>s</mi> <mi>e</mi> </mrow> <mi>k</mi> </msubsup> <mo>-</mo> <msubsup> <mi>S</mi> <mrow> <mi>c</mi> <mi>o</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>o</mi> <mi>l</mi> </mrow> <mi>k</mi> </msubsup> <mo>|</mo> <mo>,</mo> <mn>1</mn> <mo>&amp;le;</mo> <mi>k</mi> <mo>&amp;le;</mo> <mi>h</mi> </mrow>
进而得到整体评价函数:
D=(d1,d2,…,dh)
最后得到评价函数差异最大的SNP,作为所求的致病基因位点。
CN201711472339.1A 2017-12-29 2017-12-29 一种基于压缩的快速分析致病基因算法 Pending CN107977550A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711472339.1A CN107977550A (zh) 2017-12-29 2017-12-29 一种基于压缩的快速分析致病基因算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711472339.1A CN107977550A (zh) 2017-12-29 2017-12-29 一种基于压缩的快速分析致病基因算法

Publications (1)

Publication Number Publication Date
CN107977550A true CN107977550A (zh) 2018-05-01

Family

ID=62005459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711472339.1A Pending CN107977550A (zh) 2017-12-29 2017-12-29 一种基于压缩的快速分析致病基因算法

Country Status (1)

Country Link
CN (1) CN107977550A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109273046A (zh) * 2018-10-19 2019-01-25 上海晶准生物医药有限公司 一种基于概率统计模型的生物学全同胞鉴定方法
CN110400603A (zh) * 2019-07-23 2019-11-01 中国石油大学(华东) 基于格局加权的ibd矩阵计算方法
CN111199782A (zh) * 2019-12-30 2020-05-26 东软集团股份有限公司 病因分析方法,装置,存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336916A (zh) * 2013-07-05 2013-10-02 中国科学院数学与系统科学研究院 一种测序序列映射方法及系统
CN103546160A (zh) * 2013-09-22 2014-01-29 上海交通大学 基于多参考序列的基因序列分级压缩方法
CN104928349A (zh) * 2015-05-29 2015-09-23 西安交通大学 一种基于纳米金颗粒的单核苷酸多态性检测方法
CN105969863A (zh) * 2016-05-18 2016-09-28 中国人民解放军陆军总医院 与早产发生相关的mmp-8基因多态性及其检测方法
CN106834299A (zh) * 2017-02-09 2017-06-13 福建医科大学附属第医院 人类特发性基底节钙化致病基因及其检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336916A (zh) * 2013-07-05 2013-10-02 中国科学院数学与系统科学研究院 一种测序序列映射方法及系统
CN103546160A (zh) * 2013-09-22 2014-01-29 上海交通大学 基于多参考序列的基因序列分级压缩方法
CN104928349A (zh) * 2015-05-29 2015-09-23 西安交通大学 一种基于纳米金颗粒的单核苷酸多态性检测方法
CN105969863A (zh) * 2016-05-18 2016-09-28 中国人民解放军陆军总医院 与早产发生相关的mmp-8基因多态性及其检测方法
CN106834299A (zh) * 2017-02-09 2017-06-13 福建医科大学附属第医院 人类特发性基底节钙化致病基因及其检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孙志伟等: "《快速的致病基因分析方法》", 《计算机工程与应用》 *
李雄: "《单核苷酸多态性数据挖掘方法及其应用研究》", 《计算机科学与技术》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109273046A (zh) * 2018-10-19 2019-01-25 上海晶准生物医药有限公司 一种基于概率统计模型的生物学全同胞鉴定方法
CN109273046B (zh) * 2018-10-19 2022-04-22 江苏东南证据科学研究院有限公司 一种基于概率统计模型的生物学全同胞鉴定方法
CN110400603A (zh) * 2019-07-23 2019-11-01 中国石油大学(华东) 基于格局加权的ibd矩阵计算方法
CN111199782A (zh) * 2019-12-30 2020-05-26 东软集团股份有限公司 病因分析方法,装置,存储介质及电子设备
CN111199782B (zh) * 2019-12-30 2023-09-29 东软集团股份有限公司 病因分析方法,装置,存储介质及电子设备

Similar Documents

Publication Publication Date Title
AU2022202791B2 (en) Determination of base modifications of nucleic acids
JP7311934B2 (ja) 妊娠中の無細胞断片を使用する分子分析
WO2010024894A1 (en) Processing data from genotyping chips
Snedecor et al. Fast and accurate kinship estimation using sparse SNPs in relatively large database searches
Halman et al. Accuracy of short tandem repeats genotyping tools in whole exome sequencing data
US9002653B2 (en) Methods for assembling panels of cancer cell lines for use in testing the efficacy of one or more pharmaceutical compositions
CN108137642A (zh) 分子质量保证方法在测序中的应用
CN107977550A (zh) 一种基于压缩的快速分析致病基因算法
US20230307130A1 (en) Methods and related aspects for analyzing chromosome number status
CN107679365A (zh) 基于y染色体分子标记高效推断姓氏的方法
US20240360504A1 (en) Cancer classification with cancer signal of origin thresholding
US20230272477A1 (en) Sample contamination detection of contaminated fragments for cancer classification
US20240055073A1 (en) Sample contamination detection of contaminated fragments with cpg-snp contamination markers
CN113571130B (zh) 一种简洁全面的拷贝数变异模式识别方法及其应用
Hedges Bioinformatics of Human Genetic Disease Studies
Bigio et al. Detection of homozygous and hemizygous partial exon deletions by whole-exome sequencing
Cho et al. Validation of the Utility of the Genetically Shared Regions of Chromosomes (GD-ICS) Measuring Method in Identifying Complicated Genetic Relatedness
Gafurov et al. Probabilistic Models of k-mer Frequencies
WO2018066317A1 (ja) 必要なローカス数を決定する方法および必要なSNPs座位数を決定する方法
WO2024192121A1 (en) White blood cell contamination detection
WO2024026075A1 (en) Methylation-based age prediction as feature for cancer classification
WO2024020036A1 (en) Dynamically selecting sequencing subregions for cancer classification
Douville Computational Assessment of Genetic Variation beyond Single Nucleotide Changes
Meng Bayesian change point analysis of copy number variants using human next generation sequencing data
Ait-Ghezala et al. Genes, Genomics, Microarray Methods, and Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180501