CN101256602A - 基于优化解集合的个体单体型重建方法 - Google Patents

基于优化解集合的个体单体型重建方法 Download PDF

Info

Publication number
CN101256602A
CN101256602A CNA2008100308341A CN200810030834A CN101256602A CN 101256602 A CN101256602 A CN 101256602A CN A2008100308341 A CNA2008100308341 A CN A2008100308341A CN 200810030834 A CN200810030834 A CN 200810030834A CN 101256602 A CN101256602 A CN 101256602A
Authority
CN
China
Prior art keywords
haplotype
particle
site
row
optimization solution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008100308341A
Other languages
English (en)
Inventor
王建新
吴璟莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CNA2008100308341A priority Critical patent/CN101256602A/zh
Publication of CN101256602A publication Critical patent/CN101256602A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于优化解集合的个体单体型重建方法,包括以下步骤:预处理单核苷酸多态性(single nucleotide polymorphism,SNP)矩阵,去掉对重建工作没有帮助的冗余信息,得到只含杂合位点的SNP矩阵。通过粒子群优化策略得到一个小规模的优化解集合,即只带有杂合位点的单体型对集合。最后的扩展阶段将预处理阶段删掉的SNPs重新加上,得到最终的单体型对集合。本发明提出基于小规模优化解集合求解MEC模型的个体单体型重建方法,该方法可以获得比以往相关方法更高的单体型重建率,并且在求解大规模问题时仍具有较高的执行效率。

Description

基于优化解集合的个体单体型重建方法
技术领域
本发明涉及生物信息学,特别涉及个体单体型的重建。
背景技术
人类基因组测序工作完成之后,遗传差异性研究已成为基因组的热点研究之一。众所周知,人类几乎有99.9%的基因是相同的,因此我们所呈现出的外部差异性仅仅是由于0.1%的基因差异引起的。在各种遗传变异之中,单核苷酸多态性(single nucleotide polymorphisms,SNPs)是最显著的一种形式,它是人类染色体某个位点上的碱基变化。研究SNP在阐明疾病易感性机制、设计个体化治疗方案和药物研制等方面都具有重要意义和实际应用价值。
然而,检测人类染色体上所有一千万个常见SNPs的费用极其昂贵,所幸的是,由于连锁不平衡现象以及缺乏重组事件,一些相邻的多态位点趋于在一起共同遗传,这些变异连锁的区域即为单体型(haplotype),它定义为一条染色单体上某一区域的一组相关联的SNP位点。最近的研究表明,在与疾病相关的研究中,单体型数据通常比单个SNP携带更多的信息,但在当前的实验技术下,直接通过生物学实验手段来测定单体型既费钱又费时间,因此利用计算机技术来确定个体的单体型有极其重要的现实意义。
个体单体型重建问题可描述如下:给定一组来自某对同源染色体的由DNA测序方法得到的DNA片断,若只关注SNP位点,这些DNA片断即为SNP片断。单体型重建问题是要根据片断上SNP位点的状态信息将这些片断分成两个集合,每个集合中的片断组装成一条单体型。由于在DNA测序过程中会产生测序错误,而且当片断中存在错误时,无法准确地对片断进行分组。因此,在2002年,Lippert等提出了最少错误更正(the minimum error correction,MEC)模型,它要求通过更正最少的片断错误来重建单体型,目前求解该模型的方法主要有:
(1)王瑞省等提出的基于分支定界思想的方法,但由于MEC模型是NP难的,该方法无法求解大规模问题。
(2)王瑞省等提出两种动态聚类方法(文中称为DC1和DC2)以及一种基于遗传算法的启发式方法(文中称为GA)。
这些方法均致力于得到一对重建率最高的单体型数据。但是由于MEC模型及方法本身的原因,最优结果会在问题求解过程中被遗失,从而使结果单体型重建率并不高。
发明内容
为了解决上述基于MEC模型的个体单体型重建方法存在的技术问题,本发明提供了一种基于优化解集合求解MEC模型的重建方法。该方法能够生成一个小规模的优化解集合,且基于该优化解集,能够获得较以往方法更高重建率的单体型。
本发明基于MEC模型解决个体单体型重建问题,包括以下步骤:预处理SNP矩阵,得到只含杂合位点的SNP矩阵。通过粒子群优化策略得到一个小规模的优化解集合,即只具有杂合位点的单体型对集合。最后的扩展阶段将预处理阶段删掉的SNPs重新加上,得到最终的单体型对集合。
上述的基于优化解集合的个体单体型重建方法,粒子群优化策略采用二进制串X(x1,x2,...,xn)(xi∈{0,1})和V(v1,v2,...,vn)(vi∈{0,1})来分别表示一个粒子的位置和速度,粒子位置代表一条只含杂合位点的单体型。
上述的基于优化解集合的个体单体型重建方法,某个粒子位置X对应的错误更正数E(X)的计算方式如下:
E ( X ) = Σ i = 1 m 1 min ( S ( f i , X ) , D ( f i , X ) )
上式中m1表示预处理后SNP矩阵的行数,fi表示SNP矩阵中的行(SNP片断),S(fi,X)表示fi和X对应位取值相同(同为1或同为0)的位数,D(fi,X)表示fi和X对应位取值相异(一个为1则另一个为0)的位数。
本发明的技术效果在于:本发明提出一种生成小规模优化解集合以降低最优解遗失概率的新研究思路。基于这种研究思路,针对SNP位点杂合率较低的特点,设计了一种短的粒子编码,给出求解MEC模型的粒子群优化方法。这种短粒子编码一方面能够有效控制解空间的大小,使本发明更容易获得最优解;另一方面它使粒子群优化策略能够使用小的群体规模,继而可以生成一个小规模的优化解集合,解集合中的解均与粒子群中的Pg有相同的适应值,但它们的重建率不一定相同。优化解集合的研究思路与短粒子编码方式的结合使用,使得本发明能够获得比以往相关方法更高的单体型重建率。另外,由于群体规模得到控制,本发明即使在求解大规模问题时,仍具有较高的执行效率,因此具有很高的实用价值。
附图说明
图1:本发明的流程图。
具体实施方式
下面结合附图对本发明的具体实施作进一步说明。参见图1,图1为本发明的流程图,虚线框部分表示粒子群优化方法。本发明中预处理SNP矩阵Mm×n,去掉对重建工作没有帮助的冗余信息,即删除M中所有满足条件f0≤t或f1≤t的列(在矩阵M中,令nx为某一列中值为x的元素个数,且fx=nx/(nx+n1-x)),这里t设置为0.2,若被删除的列中大部分非空元素值为0,则称其为0-列,否则称为1-列。将所有满足上述条件的列删除之后,某些行将变成空行(元素值全为-),它们对于重建工作没有任何帮助,因此也将其删除。预处理后得到只含杂合位点的SNP矩阵M1m1×n1。实施粒子群优化策略,将与Pg适应值相同的k个解均保留下来,并将k个解转换成只含杂合位点的单体型对Hi’=(hi1’,hi2’)(i=1,...,k),以得到一个规模为k的优化解集合H’={H1’,...,Hk’}。最后的扩展阶段将预处理阶段删掉的SNPs重新加上,对于优化解集H’中只含杂合位点的单体型对Hi’=(hi1’,hi2’),如果某个已被删除的同合位点为0-列(1-列),则将0(1)插回到单体型对(hi1’,hi2’)的相应位置,以此得到扩展后的单体型对Hi=(hi1,hi2),扩展结束后得到最终的单体型对集合H={H1,...,Hk}。
基于这种生成小规模优化解集的研究思路,本发明设计了一种短的粒子编码,从而提出求解MEC模型的粒子群优化方法。这种短的粒子编码采用二进制串X(x1,x2,...,xn1)(xi∈{0,1})来表示一个粒子的位置,它代表一条只含杂合位点的单体型。如前所述,新矩阵M1中的片断只保留了杂合位点,则由它们构建的单体型必定也只具有杂合位点。由于一对单体型在其杂合位点上的值是相异的(一个值为0(1),另一个值则为1(0)),因此对于这样一对只具有杂合位点的单体型,可以通过其中一条推导出另一条。所以,由一个粒子的位置可以推导出一对只含杂合位点的单体型。
将粒子群优化方法运用于离散问题时,需要对粒子的速度表示及粒子间的运算操作进行定义:
(a)粒子的速度V定义为其两次位置X1和X2之间的距离。
V=X1-X2=(v1,...,vn),
v i = 0 , x 1 i = x 2 i 1 , x 1 i ≠ x 2 i i = 1,2 , . . . , n
(b)速度V1和V2间的加法操作定义为其相应位的逻辑加,结果为速度V。
V=V1+V2=(v1,...,vn),vi=v1iORv2i,i=1,2,...,n}.
(c)粒子速度V1与概率C的乘积,结果为速度V。
V=CV1=(v1,...,vn),
Figure A20081003083400072
(d)速度V和位置X1间的加法操作定义为其相应位的逻辑异或,结果为位置X。
X=X1+V=(x1,...,xn),xi=x1iXORvi,i=1,2,...,n}.
适应度函数用于评价粒子的搜索性能,指导粒子群的搜索过程。给定某个粒子位置X及矩阵M1中的所有片断fi(i=1,...,m1),X的适应度函数Fitness(X)定义为:
Fitness ( X ) = 1 - E ( X ) m 1 × n 1 ,
E ( X ) = Σ i = 1 m 1 min ( S ( f i , X ) , D ( f i , X ) )
其中,粒子位置X表示一对仅含杂合位点的单体型(h1’,h2’)中的一条,例如h1’。于是S(fi,X)表示片断fi与单体型h1’间等位基因相同的位点个数,即片断fi与单体型h2’间等位基因相异的位点个数;D(fi,X)表示片断fi与单体型h1’间等位基因相异的位点个数;E(X)表示对应于单体型对(h1’,h2’)的最少错误更正数。
综上所述,优化解集合的研究思路与短粒子编码方式的结合使用可以有效降低最优解的遗失概率,从而获得具有更高重建率的单体型。
利用计算机模拟真实生物数据的特征生成测试数据集进行实验测试。实验在一台安装了Windows XP Professional操作系统的IBM工作站(Intel PentiumIV 2.0GHz,内存为512MB)上进行,程序编译器为Microsoft Visual C++6.0。
本发明中用“重建率”和“运行时间”来测试本发明方法的性能。在本发明的优化解集合H中选取重建率最大的单体型对作为结果,即该方法结果单体型对的重建率为max{RR(H1),...,RR(Hk)}(H1,...,Hk∈H)。表1到表5中的每个计算结果均为100次重复测试的平均值。在下面的实验中,本发明的参数设置如下:w=0.8,C1=C2=0.7,群体规模N为20,迭代次数M-ITER为100。
表1至表3的实验结果显示本发明能够获得较现有方法更高重建率的单体型对,这说明优化解集的研究思路能有效避免最优解的遗失。表中k表示优化解集合H中平均单体型的对数,其平均值均不超过4对,满足了解集合规模不宜太大的要求。本发明引入的粒子编码较短,使得本发明能够采用小规模种群,这为生成小规模的优化解集合奠定了基础。
表1重建率的比较(c=5,n=100)
Figure A20081003083400081
表2重建率的比较(n=100,Ps=0.05)
Figure A20081003083400082
表3重建率的比较(c=5,Ps=0.05)
Figure A20081003083400083
表4运行时间比较(n=100,Ps=0.05)
Figure A20081003083400091
表5运行时间比较(c=5,Ps=0.05)
Figure A20081003083400092
表4和表5的结果显示,GA方法的运行时间最长,方法DC1和DC2运行速度较快,最长时间不超过0.1秒,虽然本发明比这两种动态聚类方法运行得慢,但最多也只需花费几秒钟,因此具有很高的实用价值。
从以上实验数据看来,应用本发明方法的得到的重建率和花费的运行时间均比较理想,这是因为本发明成功地将优化解集合的研究思路与粒子群优化方法相结合,通过引入短的粒子编码方式,使粒子群优化策略能够使用小的群体规模,这使得通过生成优化解集合来降低最优解的地遗失概率成为可能,且由于群体规模得到控制,本发明即使在求解大规模问题时,仍具有较高的执行效率,因此具有很高的实用价值。另外短粒子编码还能够有效控制解空间的大小,使本发明更容易获得最优解。

Claims (1)

1.一种基于优化解集合的个体单体型重建方法,包括以下步骤:
(1)预处理SNP矩阵Mm×n,去掉对重建工作没有帮助的冗余信息,即删除M中所有满足条件.f0≤t或.f1≤t的列,在矩阵M中,令nx为某一列中值为x的元素个数,且.fx=nx/(nx+n1-x),t设置为0.2,若被删除的列中大部分非空元素值为0,则称其为0-列,否则称为1-列,将所有满足上述条件的列删除之后,得到只含杂合位点的SNP矩阵M1m1×n1
(2)通过粒子群优化策略得到一个小规模的优化解集合,即只具有杂合位点的单体型对集合,将与Pg适应值相同的k个解均保留下来,并将k个解转换成只含杂合位点的单体型对Hi’=(hi1’,hi2)(i=1,...,k),以得到一个规模为k的优化解集合H’={H1’,...,Hk’};
采用二进制串X(x1,x2,...,xn)(xi∈{0,1})和V(v1,v2,...,vn)(vi∈{0,1})来分别表示一个粒子的位置和速度,粒子的速度表示及粒子间的运算操作定义如下:
(a)粒子的速度V定义为其两次位置X1和X2之间的距离;
V=X1-X2=(v1,...,vn),
v i = 0 , x 1 i = x 2 i 1 , x 1 i ≠ x 2 i i = 1,2 , . . . , n
(b)速度V1和V2间的加法操作定义为其相应位的逻辑加,结果为速度V;
V=V1+V2=(v1,...,vn),vi=v1iORv2i,i=1,2,...,n}.
(c)粒子速度V1与概率C的乘积,结果为速度V。
V=CV1=(v1,...,vn),
Figure A20081003083400022
(d)速度V和位置X1间的加法操作定义为其相应位的逻辑异或,结果为位置X。
X=X1+V=(x1,...,xn),xi=x1iXORvi,i=1,2,...,n}.
适应度函数用于评价粒子的搜索性能,指导粒子群的搜索过程;某个粒子位置X及矩阵M1中的所有片断fi(i=1,...,m1),X的适应度函数Fitness(X)定义为:
Fitness ( X ) = 1 - E ( X ) m 1 × n 1 ,
E ( X ) = Σ i = 1 m 1 min ( S ( f i , X ) , D ( f i , X ) )
其中,粒子位置X表示一对仅含杂合位点的单体型(h1’,h2’)中的一条,S(fi,X)表示fi和X对应位取值相同的位点个数,D(fi,X)表示表示fi和X对应位取值相同的位点个数;E(X)表示对应于单体型对(h1’,h2’)的最少错误更正数;
(3)最后的扩展阶段将预处理阶段删掉的SNPs重新加上,对于优化解集H’中只含杂合位点的单体型对Hi’=(hi1’,hi2’),如果某个已被删除的同合位点为0-列或1-列,则将0或1插回到单体型对(hil’,hi2’)的相应位置,以此得到扩展后的单体型对Hi=(hi1,hi2),扩展结束后得到最终的单体型对集合H={H1,...,Hk}。
CNA2008100308341A 2008-03-18 2008-03-18 基于优化解集合的个体单体型重建方法 Pending CN101256602A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2008100308341A CN101256602A (zh) 2008-03-18 2008-03-18 基于优化解集合的个体单体型重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2008100308341A CN101256602A (zh) 2008-03-18 2008-03-18 基于优化解集合的个体单体型重建方法

Publications (1)

Publication Number Publication Date
CN101256602A true CN101256602A (zh) 2008-09-03

Family

ID=39891420

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008100308341A Pending CN101256602A (zh) 2008-03-18 2008-03-18 基于优化解集合的个体单体型重建方法

Country Status (1)

Country Link
CN (1) CN101256602A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013097413A1 (zh) * 2011-12-31 2013-07-04 深圳华大基因科技服务有限公司 一种二倍体单体构建方法和系统
CN106446606A (zh) * 2016-08-25 2017-02-22 广西师范大学 一种基于枚举策略重建多倍体个体单体型的方法
CN110444251A (zh) * 2019-07-23 2019-11-12 中国石油大学(华东) 基于分支定界的单体型格局生成方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013097413A1 (zh) * 2011-12-31 2013-07-04 深圳华大基因科技服务有限公司 一种二倍体单体构建方法和系统
CN106446606A (zh) * 2016-08-25 2017-02-22 广西师范大学 一种基于枚举策略重建多倍体个体单体型的方法
CN110444251A (zh) * 2019-07-23 2019-11-12 中国石油大学(华东) 基于分支定界的单体型格局生成方法
CN110444251B (zh) * 2019-07-23 2023-09-22 中国石油大学(华东) 基于分支定界的单体型格局生成方法

Similar Documents

Publication Publication Date Title
Shrikumar et al. Technical note on transcription factor motif discovery from importance scores (TF-MoDISco) version 0.5. 6.5
US10504611B2 (en) Ancestral human genomes
Beacham et al. A comparison of stock and individual identification for Chinook salmon in British Columbia provided by microsatellites and single‐nucleotide polymorphisms
CN101256602A (zh) 基于优化解集合的个体单体型重建方法
Bohling et al. Developing a standardized single nucleotide polymorphism panel for rangewide genetic monitoring of bull trout
Morton et al. Genome scanning by composite likelihood
Li et al. eQTL
Douzono et al. An application of genetic algorithm to DNA sequencing by oligonucleotide hybridization
Bayzid et al. Hmec: A heuristic algorithm for individual haplotyping with minimum error correction
US20200135300A1 (en) Applying low coverage whole genome sequencing for intelligent genomic routing
Conant et al. Parallel genehunter: Implementation of a linkage analysis package for distributed-memory architectures
Zhang et al. Integrated mapping package—a physical mapping software tool kit
Wu et al. A practical algorithm based on particle swarm optimization for haplotype reconstruction
Hoef-Emden Molecular phylogenetic analyses and real-life data
Setsirichok et al. Small Ancestry Informative Marker panels for complete classification between the original four HapMap populations
CN106446606A (zh) 一种基于枚举策略重建多倍体个体单体型的方法
Yatskou et al. A computational approach and software package RNAexploreR for grouping RNA molecules of human genes by exon features
Wu et al. A genetic algorithm for single individual SNP haplotype assembly
Yang et al. FNphasing: a novel fast heuristic algorithm for haplotype phasing based on flow network model
Berg et al. Trilocus disequilibrium analysis of multiallelic markers in outcrossing populations
Vecchioni et al. DNA by Design: De novo Computational Framework for DNA Sequence Design and Nanotechnology
Lee et al. Multi-purpose SNP Selection by the principal variables for a genetic study
CN102495977B (zh) 生物基因组简单重复序列的发掘方法及设备
Mohsen et al. Predicting the minimum free energy RNA Secondary Structures using Harmony Search Algorithm
Hyvönen A comparison of methods for haplotype inference

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20080903