具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明而不是要求本发明必须以特定的方位构造和操作,因此不能理解为对本发明的限制。
需要说明的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。进一步地,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
变异模拟的相关方法
根据本发明的第一方面,本发明提供了一种对测序序列进行变异模拟的方法。根据本发明实施例的对测序序列进行变异模拟的方法,通过对碱基序列的变异状态进行标记,设定碱基的变异类型,从而对各种变异进行模拟,变异模拟的方法简单,生成速度快,并能根据需要设计特殊的变异组合用于测试,变异模拟后的序列的仿真程度高。
根据本发明实施例的对测序序列进行变异模拟的方法,能够在较短的时间内模拟生成所需的变异模拟序列,该序列可以采用fasta文件的格式输出,比如在915个总长约200kb的目标区域内随机模拟200个SNV和300个InDel,并同时生成对应的变异序列用时不到30s。此外,迭代的层次越多,每次迭代的平均用时会更少,比如一次序列生成需要约21s,而4次迭代也不会超过22s。
参考图1,根据本发明的实施例,对变异模拟的方法进行解释说明,具体如下:
S10:获取序列
根据本发明的实施例,获取待模拟区域的碱基序列,从而后续对该碱基序列添加变异,进而是该序列具有目标疾病的变异特征。
其中,本文中的术语“碱基序列”是指使用一串字母表示的真实的或者假设的携带基因信息的DNA或者RNA分子的一级结构。
根据本发明的实施例,该碱基序列是捕获测序得到的。捕获测序不同于全基因组测序,它只检测感兴趣的部分区域,因此成本低、检测速度快、测序深度高。同时,由于探针的亲和性差异,捕获测序的reads数据也具有自己独特的深度波动特征。为了能够模拟出接近真实的捕获测序的下机数据,它一般需要具有以下几个特点:(1)能够指定变异,参入部分真实存在的正常的或肿瘤的变异后模拟的数据会更真实;(2)能够限制模拟的区域,实现捕获的初步特征,如果目标区域一个变异都没有那也就失去了实际意义;(3)能够实现包括snv、indel、CNV、SV在内的所有变异;(4)能够进一步地模拟出reads和肿瘤样本的一些特征,包括GC倾向性、体系/胚系差异、染色体倍数、异质性和肿瘤纯度等。相对于全基因的变异模拟,在捕获测序条件下,有些变异所导致的结果是重叠的。比如目标区域外到目标区域内的复制和移位最终表现出的都只是一段已知序列的插入。
S20:变异状态标记
根据本发明的实施例,将碱基序列进行变异状态标记,得到标记后的特征串。
其中,变异状态标记也就是利用字符对碱基是否变异,以及何种变异进行标记,该标记可以是数字,也可以是字符,包括字母和符号等,只要能对不同类型的变异形成区别即可。通过对碱基的变异状态进行标记,相对于现有的通过逻辑算法模拟变异,运算简单,速度快,并且易于进行多层次变异的叠加。
进一步地,针对捕获测序的序列特征,即相对于全基因,捕获测序指是针对特定区域的一段序列,部分变异可能跨越目标区域,同时位于目标区域内和目标区域外。进而,为了判定变异是否跨越目标区域,也就是越界,发明人在标记后的特征串上设置了越界判定部,也就是说,标记后的特征串包括目标片段部和越界判定部,其中,越界判定部位于该目标片段部的两端,用于判定目标片段的两端是否存在越界的变异。
根据本发明的实施例,该变异状态标记为数值标记,也就是利用不同的数值标记不同的变异类型,不仅标记简单,而且,可以通过数值的加和进行多层次变异的叠加。
具体地,根据本发明的实施例,该变异状态标记包括:将碱基序列上的碱基赋予若干标记位,每个变异类型特异对应至少一个标记位,可以通过在各变异类型对应的标记位是进行有和无的标记来确认各碱基的变异类型,并且,各标记位是独立的,也可以是相互关联的,也就是说,可以同时对一个碱基的不同标记位进行标记,从而进行多层次变异的叠加,同时,针对变异模拟的特点,对部分变异类型进行关联,使其不能同时发生,例如同一碱基上SNV(单核苷酸变异)和删除变异不同时发生;通过有和无对字符的各标记位进行变异类型的设置,得到设置后的标记位,同一碱基可以存在多种变异类型,从而实现碱基任意层次的指定变异;将设置后的标记位进行数值转换,得到数值化的碱基的变异类型标记。
由于二进制只有0和1两个数字,与有和无的判定相符,根据本发明的实施例,该变异类型的设置以二进制数值表示有和无,得到二进制表示的该设置后的标记位;该数值转换包括将该二进制表示的设置后的标记位转换成十进制数字,该十进制数字为该碱基的变异类型标记。由此,通过二进制进行变异类型有和无的判断,便于通过数值进制的转换进行变异类型的标记,易于对不同变异类型的叠加的表示,变异状态标记易于存储和解读。
为了便于理解,举例说明变异状态标记的方法,对每一个长度为N的目标片段,生成一个相应的长度为N+2,初始值为2的变异状态标记位数组。两侧的额外两个标记位为越界判定部,用于记录变异的越界状态。标志位以十进制整数形式存储,但以二进制格式解读。如图2所示,采用了二进制的前6位来标记各种状态。例如,根据指定的变异信息(90个snp和100个inDel)对相应的标志位进行操作。比如3号染色体的第1000个碱基由G变异成了T,根据记录差值的公式得到并记录它们的差值2。同时将碱基G对应的标志位加32(SNV对应的标记位为二进制的第六位,转化为十进制后为32)。对于短删除,记录删除起始和结束位点,由于短删除对应的标记位为二进制的第一位,转化为十进制为1,而变异状态标记位的初始值为2,所以同时对所有待删除碱基的标志位减1。而对于短插入,记录插入位置左侧第一个碱基的坐标,同时对该碱基的标记位加8(短插入对应的标记位为二进制的第四位,转化为十进制后为8)。
S30:选取变异
根据本发明的实施例,选取待添加的变异。该变异可以是随机产生的,也可以是在特定的数据库或变异集合中根据一定的条件选取产生的。
根据本发明的实施例,该待添加的变异的类型包括单核苷酸位点变异、删除、插入、连续重复、倒置、易位和拷贝数变异,其中,删除还包括长删除和短删除,插入还包括长插入和短插入,而短的掺入和删除,也就是插入缺失标记(InDel)。
根据本发明的一些实施例,该待添加的变异含有目标疾病的变异。也就是,通过添加目标疾病的变异,使变异模拟后的序列含有目标疾病的变异特征,与目标疾病的序列的相似度更高。
此外,根据本发明的实施例,该待模拟序列可以位于该目标疾病的至少部分变异所处的染色体区域内。由此,变异模拟后的序列的仿真性高。
根据本发明的实施例,该待添加的变异包括指定变异和随机变异,其中,指定变异包括指定体系变异和指定胚系变异,随机变异包括随机体系变异和随机胚系变异。例如,指定变异可以来源于目标疾病的数据库,从而使模拟得到的序列具有目标疾病的变异特征,而随机变异由随机产生,使变异具有个体特征,并且,无论指定变异还是随机变异,都分别具有体系变异和胚系变异,使变异即具有目标疾病的一般变异特征,又具有个体的变异特征,变异模拟序列的仿真程度更高。
进一步需要说明的是,在指定变异的选取过程中,可以检查各变异之间是否存在互斥关系,也就是在同一碱基位点是否可以发生多层的变异,该位点的变异类型是否会影响后续该位点的其他变异的设置,例如在删除位点再进行其他变异就没有意义。由此,在选取指定变异时,可以对各类型的变异的选取条件进行设置,并对选取后的变异进行检查,判断是否有互斥位点,具体地,一些变异类型的设置条件可以如下所示:
SNV:给A、T、C、G四个碱基分别赋值0,1,2,3,对于已知的SNV用如下公式计算并存储它变异前后的差值。对于新产生的SNV位点,只用1,2或3来记录它的变异结果。在选取SNV位点时需要与snv、deletion位点互斥。
InDel:有80%的概率indel的长度在1~5bp之间,20%的概率在6~15bp之间。对于deletion,只记录目标片段的序号及起始、结束坐标。对于insertion,记录待插位置左侧第一个碱基的坐标及随机产生的序列。删除位点不能有任何变异,插入位点最多只能有SNV变异。
重复:长度在15~50bp之间,复制数量在6~10次。记录目标片段号及起始、结束坐标。重复(Tandem duplication)的位点最多只能有SNV变异。
倒置:长度为15bp,记录目标片段号及起始、结束坐标。倒置(Inversion)位点最多只能与SNV重叠。
易位:暂时定义为染色体的非目标区域序列在目标区域的插入,长度为500~1000bp。记录插入位点的目标片段号、坐标及待插入片段的染色体号,起始、终止坐标。Translocation位点也是最多允许与SNV重叠。
基因拷贝数变异(CNV):目前实现的有拷贝数的减少,以长段的删除来实现,删除的长度在500~1000bp之间,可以完全在目标区域内,也可以部分在目标区域内。记录删除的染色体号,起始、结束位点。长删除位点不能与任何变异重叠。
S40:整合变异
根据本发明的实施例,将该待添加的变异整合至标记后的特征串上,得到添加变异后的特征串。
根据本发明的实施例,该整合包括:将指定变异与变异标记特征串上的对应的标记位进行第一整合,得到添加指定变异的特征串;将随机变异与添加指定变异的特征串上随机选取的字符进行第二整合,并相应修改随机选取的字符的变异类型标记,得到变异特征串。具体地,第一整合是按照指定变异的原发位点的位置在变异标记特征串上的对应的标记位添加变异,而随机变异是在添加指定变异的特征串上随机生成的,位置和变异的类型均是随机产生的,产生随机变异后,记录该随机变异的变异位置、变异类型和具体变异序列信息等。
其中,需要说明的是,在进行第一整合时,需要将第二整合中的指定变异的标记位标记为不可以变异位点,例如,可以将标记位的数值设置为0,以防止第一整合中的随机变异在第二整合中的指定位点产生变异,影响第二整合指定变异的添加。
变异的整合顺序可以是随机进行的,也可以按照一定的顺序进行,本领域技术人员可以根据需要自行选择,根据本发明的优选实施例,该第一整合是按变异类型将指定变异迭代添加至该标记后的特征串上,该第二整合是按变异类型将随机变异迭代添加至该添加指定变异的特征串上。也就是说,不同的变异根据类型进行分类后,按照种类依次添加。根据本发明的一些实施例,变异整合可以按照不同的变异类型按照不同的顺序依次进行整合,优选地,模拟的顺序可以按照不同变异类型对空间要求的高低进行,一般情况下,变异模拟的顺序根据变异片段的长度进行设置,先进行变异片段较长的相应的变异类型的模拟,再进行变异片段较短的变异类型的模拟,例如变异模拟的顺序可以为长删除、连续重复、倒置、插入缺失标记和单核苷酸位点变异。
在变异整合的过程中,不同类型的变异之间既存在互斥关系,又存在相容关系。例如,根据本发明的实施例,删除与其他变异互斥,该位点已经删除,再在该位点上模拟其他变异也无法在最终的序列上呈现出其他变异,优化了变异模拟的方法。根据本发明的实施例,插入与单核苷酸位点变异有交叉位点,也就是在插入的序列上有单核苷酸位点变异。
例如,需要添加的变异类型有SNV和InDel,其中,InDel包括短插入和短删除。InDel中的短删除与短插入按照2:1的比例拆分。模拟的顺序按照对空间要求的高低排列,先模拟短删除,后模拟短插入和SNV。对于短删除,首先在目标区域内随机选取一个起始位点,然后根据自定义的概率分布(80%概率1~5bp,20%概率6~15bp)取得当次删除的长度从而确定结束位点。最后检查起始位点和结束位点的标志位,如果是0(表示不可变异)则重新选,如果都是2(初始值)就表明选中并将该区域作为短删除区域,如果不都是那重复循环直至选中或循环达上限。对于短插入,则只需要选择一个插入位点,如果该位点是2(无任何改变)或者34(2+32,表明是一个SNV位点)则表明选中,如果不是则重复循环。对于SNV而言,随机选取一个位点,只要标志位是2(初始值)、10(插入)或18(倒置)都可以,否则重新选择。按照这个顺序依次迭代将短删除、短插入和SNV添加到序列上,直至所有的变异添加完毕。
此外,为了防止第一整合中添加的随机变异影响第二整合中指定变异的添加,在进行第一整合前,可以将第二整合中指定变异的变异状态标记为不可变异状态,例如,可以将变异状态标志位设置为0,从而,在整合随时变异时,当遇到标志位为“0”的位点时,迭代重新选取待变异位点,待第一整合结束后,再将标志位为“0”的位点的值恢复为原标记数值。
S50:还原碱基
根据本发明的实施例,将添加变异后的特征串进行碱基还原,得到变异模拟后的序列。其中,碱基还原指的是将特征串上的非碱基特征符号转化为对应的碱基,从而得到模拟后的碱基序列。
在此基础上,根据本发明的第二方面,本发明提供了一种模拟目标疾病患者测序文库的方法。根据本发明的实施例的模拟目标疾病患者测序文库的方法,通过在胚系变异数据库和体系变异数据库中选取变异,在测序序列上利用前述的对测序序列进行变异模拟的方法生成胚系变异和体系变异,使测序序列获得体系和胚系变异特征,并选取部分变异实现杂合和纯合二倍体,得到不同的纯度目标疾病患者测序文库。由此,该方法可以根据需要进行具有特定体系和胚系变异特征和预定纯合比例的测序文库的模拟,并且得到的测序文库的仿真程度高,有利于对相关测序装置的变异检测准确度的检测。
参考图3,根据本发明的实施例,对该模拟目标疾病患者测序文库的方法进行解释说明,该方法包括:
S100生成胚系变异序列集合
根据本发明的实施例,基于胚系变异数据库,利用前述的方法在测序序列上模拟生成胚系变异序列集合。由此,通过在序列上添加整合胚系变异,使序列具有目标疾病的胚系变异的特征。
其中,本文术语“胚系变异数据库”是指含有胚系变异的集合,可以是现有的关于变异的一些数据库,也可以是收集的一些关于胚系变异的汇总,针对不同的疾病,可以应用不同疾病的胚系变异数据库或相关汇总资料。
S200生成含有胚系和体系变异的序列集合
根据本发明的实施例,基于目标疾病的体系变异数据库,利用前述的方法在胚系变异序列集合的基础上添加体系变异生成含有胚系和体系变异的序列集合。
其中,本文术语“体系变异数据库”是指含有体系变异的集合,可以是现有的关于变异的一些数据库,也可以是收集的一些关于体系变异的汇总,针对不同的疾病,可以应用不同疾病的体系变异数据库或相关汇总资料。
S300 生成二倍体
根据本发明的实施例,从胚系变异序列集合和含有胚系和体系变异的序列集合中选取部分变异作为纯合变异,分别以胚系变异序列集合中的序列和含有胚系和体系变异的序列集合中的序列为模板,得到胚系变异二倍体集合和含有胚系和体系变异的二倍体集合。换句话说,就是在含有胚系变异的序列的基础上添加体系变异,使序列同时具有胚系变异和体系变异,然后从胚系变异和体系变异选取部分变异作为纯合变异,合成二倍体序列,该二倍体序列为配对的二倍体序列,各二倍体序列构成二倍体集合。
对应系列中整合添加的变异,可以根据具体的需求进行调整,根据本发明的一些实施例,按照变异类型的预定比例,从胚系变异序列集合和含有胚系和体系变异的序列集合中选取变异。
其中,纯合变异的比例可以根据需要进行设定,例如,可以按照临床目标疾病的通常纯合变异的比例进行设定,以使变异序列集合的仿真度更高。
S400 获得目标疾病患者测序文库
根据本发明的实施例,从胚系变异二倍体集合中选取部分胚系变异二倍体构成胚系变异二倍体子集,从含有胚系和体系变异的二倍体集合中选取部分含有胚系和体系变异的二倍体构成含有胚系和体系变异的二倍体子集,且含有胚系和体系变异的二倍体子集包括胚系变异二倍体子集,胚系变异序列子集和含有胚系和体系变异的二倍体子集构成目标疾病患者测序文库。
其中,需要说明的是,该含有胚系和体系变异的二倍体子集包括胚系变异二倍体子集,换句话说,该含有胚系和体系变异的二倍体子集中的胚系变异与胚系变异二倍体子集中的胚系变异具有同源性。也就是说,该胚系和体系变异的二倍体子集中的体系变异是在胚系变异二倍体子集的基础上添加的。
参考图4,以模拟癌症患者的序列为例,对该模拟目标疾病患者测序文库的方法进行具体说明,具体如下:。
1)Normal样本的纯合实现:从第一次迭代产生的胚系变异序列集合中按百分比挑选出纯合变异,生成的变异记录文件作为输入生成对应的fasta序列,两条fa序列配对即构成了normal样本二倍体的纯合/杂合特征,即胚系变异二倍体集合。
2)Tumor样本的纯合实现:在第二次迭代中产生的含有胚系和体系变异的序列集合里按比例挑选一定的纯合变异位点,与Normal样本挑选的纯合变异位点混合在一起生成对应的fasta序列,两条fa序列配对即构成了tumor样本二倍体的纯合/杂合特征,即含有胚系和体系变异的二倍体集合。
3)在得到胚系变异二倍体集合和含有胚系和体系变异的二倍体集合中的正常及肿瘤样本各2条、共4条fasta序列之后,借助其它软件比如ART生成对应的fastq测序文件,并模拟好接近真实的深度分布。按肿瘤/正常的比例从normal及tumor的fastq中随机抽取读段(reads),抽取完成之后将reads合并成新的fastq文件,以实现不同的肿瘤纯度。
变异模拟相关的装置和系统
根据本发明的第三方面,本发明提供了一种对测序序列进行变异模拟的装置。根据本发明的实施例,该装置包括:序列获取单元、变异状态标记单元、变异选取单元、变异整合单元和碱基还原单元。本发明实施例的对测序序列进行变异模拟的装置,通过变异状态标记单元对碱基序列的变异状态进行标记,设定碱基的变异类型,从而利用变异整合单元对各种变异进行模拟,变异模拟的方法简单,生成速度快,并能根据需要设计特殊的变异组合用于测试,变异模拟后的序列的仿真程度高。
参考图5,根据本发明的实施例,对该装置进行解释说明,具体如下:
序列获取单元10:根据本发明的实施例,该序列获取单元10用于获取待模拟区域的碱基序列,从而后续对该碱基序列添加变异,进而是该序列具有目标疾病的变异特征。
根据本发明的实施例,该碱基序列是捕获测序得到的。捕获测序的特点如前所述,在此不再赘述。
变异状态标记单元20:根据本发明的实施例,该变异状态标记单元20与序列获取单元10相连,用于将碱基序列进行变异状态标记,得到标记后的特征串。其中,变异状态标记也就是利用字符对碱基是否变异,以及何种变异进行标记,该标记可以是数字,也可以是字符,包括字母和符号等,只要能对不同类型的变异形成区别即可。通过对碱基的变异状态进行标记,相对于现有的通过逻辑算法模拟变异,运算简单,速度快,并且易于进行多层次变异的叠加。
进一步地,针对捕获测序的序列特征,即相对于全基因,捕获测序指的是针对特定区域的一段或多段序列,部分变异可能跨越目标区域,同时位于目标区域内和目标区域外。进而,为了判定变异是否跨越目标区域,也就是越界,该变异状态标记单元20在标记后的特征串上设置了越界判定部,也就是说,标记后的特征串包括目标片段部和越界判定部,其中,越界判定部位于该目标片段部的两端,用于判定目标片段的两端是否存在越界的变异。
根据本发明的实施例,该变异状态标记为数值标记,也就是利用不同的数值标记不同的变异类型,不仅标记简单,而且,可以通过数值的加和进行多层次变异的叠加。
参考图6,根据本发明的实施例,该变异状态标记单元20包括:标记位设置子单元21、变异类型设置子单22和数值转换子单元23,其中,标记位设置子单元21与序列获取单元10相连,将碱基序列上的碱基赋予若干标记位,每个变异类型特异对应至少一个标记位,可以通过在各变异类型对应的标记位是进行有和无的标记来确认各碱基的变异类型,并且,各标记位是独立的,也可以是相互关联的,也就是说,可以同时对一个碱基的不同标记位进行标记,从而进行多层次变异的叠加,同时,针对变异模拟的特点,对部分变异类型进行关联,使其不能同时发生,例如同一碱基上SNV(单核苷酸变异)和删除变异不同时发生;变异类型设置子单元22与标记位设置子单元21相连,通过有和无对字符的各标记位进行变异类型的设置,得到设置后的标记位,同一碱基可以存在多种变异类型,从而实现一个碱基上多种变异的叠加;数值转换子单元23与变异类型设置子单元22相连,用于将设置后的标记位进行数值转换,得到数值化的碱基的变异类型标记。
由于二进制只有0和1两个数字,与有和无的判定相符,根据本发明的实施例,该变异状态标记单元20以二进制数值表示有和无设置变异类型,得到二进制表示的该设置后的标记位;该数值转换包括将该二进制表示的设置后的标记位转换成十进制数字,该十进制数字为该碱基的变异类型标记。由此,通过二进制进行变异类型有和无的判断,便于通过数值进制的转换进行变异类型的标记,易于对不同变异类型的叠加的表示,变异状态标记易于存储和解读。
变异选取单元30:根据本发明的实施例,该变异选取单元30用于选取待添加的变异。该变异可以是随机产生的,也可以是在特定的数据库或变异集合中根据一定的条件选取产生的。
参考图6,根据本发明的实施例,该变异选取单元30包括:指定变异选取子单元31和随机变异选取子单元32,其中,该指定变异选取子单元31与变异整合单元40相连,该指定变异选取子单元31可以选取指定体系变异和指定胚系变异;随机变异选取子单元32与指定变异选取子单元31和变异整合单元40相连,该随机变异选取子单元32可以选取随机体系变异和随机胚系变异。例如,指定变异可以来源于目标疾病的数据库,从而使模拟得到的序列具有目标疾病的变异特征,而随机变异由随机产生,使变异具有个体特征,并且,无论指定变异还是随机变异,都分别具有体系变异和胚系变异,使变异即具有目标疾病的一般变异特征,又具有个体的变异特征,变异模拟序列的仿真程度更高。
进一步需要说明的是,在指定变异的选取过程中,可以检查各变异之间是否存在互斥关系,也就是在同一碱基位点是否可以发生多个变异叠加,该位点的变异类型是否会影响后续该位点的其他变异的设置,例如在删除位点再进行其他变异就没有意义。由此,在选取指定变异时,可以对各类型的变异的选取条件进行设置,并对选取后的变异进行检查,判断是否有互斥位点,各变异类型的设置条件如前所述,在此不再赘述。
变异整合单元40:根据本发明的实施例,该变异整合单元40与变异选取单元30和变异状态标记单元20相连,用于将待添加的变异整合至标记后的特征串上,得到添加变异后的特征串。
参考图6,根据本发明的实施例,该变异整合单元40包括:第一整合子单元41和第二整合子单元42,其中,该第一整合子单元41与变异选取单元 30和变异状态标记单元20相连,用于将指定变异与标记后的特征串上的对应的标记位进行第一整合,得到添加指定变异的特征串;该第二整合子单元42与第一整合子单元41相连,用于将随机变异与添加指定变异的特征串上随机选取的字符进行第二整合,并相应修改随机选取的字符的标记位信息,得到变异特征串。具体地,第一整合是按照指定变异的原发位点的位置在变异标记特征串上的对应的标记位添加变异,而随机变异是在添加指定变异的特征串上随机生成的,位置和变异的类型均是随机产生的,产生随机变异后,记录该随机变异的变异位置、变异类型和具体变异序列信息等。
进一步地,可以在变异整合单元40中设置变异整合的顺序,变异的整合顺序可以是随机进行的,也可以按照一定的顺序进行,本领域技术人员可以根据需要自行选择,根据本发明的优选实施例,该第一整合子单元41是按变异类型将指定变异迭代添加至该标记后的特征串上,该第二整合子单元42是按变异类型将随机变异迭代添加至该添加指定变异的特征串上。也就是说,不同的变异根据类型进行分类后,按照种类依次添加。根据本发明的一些实施例,变异整合可以按照不同的变异类型按照不同的顺序依次进行整合,优选地,模拟的顺序可以按照不同变异类型对空间要求的高低进行,例如变异模拟的顺序可以为插入缺失标记、单核苷酸位点变异、长删除、连续重复、倒置。
在变异整合的过程中,不同类型的变异之间既存在互斥关系,又存在相容关系。例如,根据本发明的实施例,删除与其他变异互斥,该位点已经删除,再在该位点上模拟其他变异也无法在最终的序列上呈现出其他变异,简化变异模拟的流程。根据本发明的实施例,插入与单核苷酸位点变异有交叉位点,也就是在插入的序列上有单核苷酸位点变异。
例如,需要添加的变异类型有SNV和InDel,其中,InDel包括短插入和短删除。Indel中的短删除与短插入按照2:1的比例拆分。变异整合单元40的模拟顺序可以按照对空间要求的高低排列,先模拟短删除,后模拟短插入和SNV。对于短删除,首先在目标区域内随机选取一个起始位点,然后根据自定义的概率分布(80%概率1~5bp,20%概率6~15bp)取得当次删除的长度从而确定结束位点。最后检查起始位点和结束位点的标志位,如果是0(表示不可变异)则重新选,如果都是2(初始值)就表明选中并将该区域作为短删除区域,如果不都是那重复循环直至选中或循环达上限。对于短插入,则只需要选择一个插入位点,如果该位点是2(无任何改变)或者34(2+32,表明是一个SNV位点)则表明选中,如果不是则重复循环。对于SNV而言,随机选取一个位点,只要标志位是2(初始值)、10(插入)或18(倒置)都可以,否则重新选择。按照这个顺序依次迭代将短删除、短插入和SNV添加到序列上,直至所有的变异添加完毕。
此外,为了防止第一整合中添加的随机变异影响第二整合中指定变异的添加,在进行第一整合前,可以将第二整合中指定变异的变异状态标记为不可变异状态,例如,可以将变异状态标志位设置为0,从而,在整合随时变异时,当遇到标志位为“0”的位点时,就重新迭代添加变异,待第一整合结束后,再将标志位为“0”的位点的值恢复为原标记数值。也就是说,参考图7,该变异整合单元40还包括变异预判子单元43,该变异预判子单元43与第一整合子单元41和第二整合子单元42相连,用于在随机变异前预判该位点是否可以整合随机变异,如果不可以整合随机变异,重新代添加新的随机变异。
碱基还原单元50:根据本发明的实施例,该碱基还原单元50与变异整合单元40相连,用于将添加变异后的特征串进行碱基还原,得到变异模拟后的序列。其中,碱基还原指的是将特征串上的非碱基特征符号转化为对应的碱基,从而得到模拟后的碱基序列。
根据本发明的第四方面,本发明提供了一种模拟目标疾病患者测序文库的系统,该系统包括胚系变异生成装置、体系变异生成装置、二倍体生成装置和筛选装置。
根据本发明的实施例的模拟目标疾病患者测序文库的系统,由胚系变异生成装置和体系变异生成装置通过在胚系变异数据库和体系变异数据库中选取变异,在测序序列上利用前述的对测序序列进行变异模拟的装置生成胚系变异和体系变异,使测序序列获得体系和胚系变异特征,并利用二倍体生成装置特异选取部分变异实现杂合和纯合二倍体,选取不同比例的正常人和目标疾病患者的序列得到不同纯度的目标疾病患者测序文库。由此,该系统可以根据需要进行具有特定体系和胚系变异特征和预定纯合比例的测序文库的模拟,并且得到的测序文库的仿真程度高,有利于对相关测序装置的变异检测准确度的检测。
参考图8,根据本发明的实施例,对该模拟目标疾病患者测序文库的系统进行解释说明,具体如下:
胚系变异生成装置100:根据本发明的实施例,该胚系变异生成装置100为前述的对测序序列进行变异模拟的装置,基于胚系变异数据库,该胚系变异生成装置100在测序序列上模拟生成胚系变异序列集合。由此,通过在序列上添加整合胚系变异,使序列具有目标疾病的胚系变异的特征。该胚系变异生成装置100具有前述的对测序序列进行变异模拟的装置的全部技术特征和技术效果,在此不再赘述。
体系变异生成装置200:根据本发明的实施例,该体系变异生成装置200与该胚系变异生成装置100相连,该体系变异生成装置200为前述的对测序序列进行变异模拟的装置,基于目标疾病的体系变异数据库,该体系变异生成装置200在胚系变异序列集合的基础上添加体系变异生成含有胚系和体系变异的序列集合。该体系变异生成装置200具有前述的对测序序列进行变异模拟的装置的全部技术特征和技术效果,在此不再赘述。
二倍体生成装置300:根据本发明的实施例,该二倍体生成装置300包括:纯合变异选取单元310和扩增单元320,其中,纯合变异选取单元310与胚系变异生成装置100和体系变异生成装置200相连,用于从胚系变异序列集合和含有胚系和体系变异的序列集合中选取部分变异作为纯合变异;扩增单元与纯合变异选取单元相连,用于分别以胚系变异序列集合中的序列和含有胚系和体系变异的序列集合中的序列为模板扩增二倍体,得到胚系变异二倍体集合和含有胚系和体系变异的二倍体集合。换句话说,就是在含有胚系变异的序列的基础上添加体系变异,使序列同时具有胚系变异和体系变异,然后从胚系变异和体系变异选取部分变异作为纯合变异,合成二倍体序列,各二倍体序列构成二倍体集合。
筛选装置400:根据本发明的实施例,该筛选装置400与扩增单元相连,用于从胚系变异二倍体集合中选取部分胚系变异二倍体构成胚系变异二倍体子集,从含有胚系和体系变异的二倍体集合中选取部分含有胚系和体系变异的二倍体构成含有胚系和体系变异的二倍体子集,且含有胚系和体系变异的二倍体子集包括胚系变异二倍体子集,该胚系变异序列子集和含有胚系和体系变异的二倍体子集构成目标疾病患者测序文库。其中,需要说明的是,该含有胚系和体系变异的二倍体子集包括胚系变异二倍体子集,换句话说,该含有胚系和体系变异的二倍体子集中的胚系变异与胚系变异二倍体子集中的胚系变异具有同源性。也就是说,该胚系和体系变异的二倍体子集中的体现变异是在胚系变异二倍体子集的基础上添加的。
根据本发明的第五方面,本发明提供了一种电子设备。根据本发明的实施例,该电子设备包括处理器和存储器。
根据本发明实施例的电子设备,能执行前述对测序序列进行变异模拟的方法,通过对碱基序列的变异状态进行标记,设定碱基的变异类型,从而对各种变异进行模拟,变异模拟的方法简单,生成速度快,并能根据需要设计特殊的变异组合用于测试,变异模拟后的序列的仿真程度高。在此需要说明的是,该电子设备可以执行前述对测序序列进行变异模拟的方法,具有该方法的全部技术特征和技术效果,在此不再赘述。
参考图9,根据本发明的实施例,对该电子设备进行解释说明,该电子设备500包括:
处理器510;该处理器510可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备510中的其他组件以执行期望的功能。
存储器520:根据本发明的实施例,在该存储器520中存储有计算机程序指令,该计算机程序指令在被处理器510运行时使得处理器510执行如前述的对测序序列进行变异模拟的方法。该存储器520可以包括一个或多个计算机程序产品,该计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。其中,该易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。该非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器510可以运行程序指令,以实现上文所述的本申请的各个实施例的对目标序列进行拟合的方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如上述待拟合序列、参比序列、比较参数等各种内容。
根据本发明的一些实施例,该电子设备500还可以包括:输入装置530和输出装置540,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,该输入装置530可以包括例如键盘、鼠标等。
该输出装置540可以向外部输出各种信息,例如目标序列的拟合曲线等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图9中仅示出了该电子设备500中与本发明有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备500还可以包括任何其他适当的组件。
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,该计算机程序指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的对目标序列进行拟合的方法中的步骤。
该计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Perl、Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本发明的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,该计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的对目标序列进行拟合的方法中的步骤。
本发明实施例的计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。