CN109920485B - 对测序序列进行变异模拟的方法及其应用 - Google Patents

对测序序列进行变异模拟的方法及其应用 Download PDF

Info

Publication number
CN109920485B
CN109920485B CN201910202272.2A CN201910202272A CN109920485B CN 109920485 B CN109920485 B CN 109920485B CN 201910202272 A CN201910202272 A CN 201910202272A CN 109920485 B CN109920485 B CN 109920485B
Authority
CN
China
Prior art keywords
variation
mutation
sequence
germ line
diploid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910202272.2A
Other languages
English (en)
Other versions
CN109920485A (zh
Inventor
谢张冬
荆瑞琳
杜洋
李大为
玄兆伶
王海良
王娟
肖飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Annoroad Gene Technology Beijing Co ltd
Beijing Annoroad Medical Laboratory Co ltd
Original Assignee
Annoroad Gene Technology Beijing Co ltd
Zhejiang Annoroad Bio Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Annoroad Gene Technology Beijing Co ltd, Zhejiang Annoroad Bio Technology Co ltd filed Critical Annoroad Gene Technology Beijing Co ltd
Publication of CN109920485A publication Critical patent/CN109920485A/zh
Application granted granted Critical
Publication of CN109920485B publication Critical patent/CN109920485B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了对测序序列进行变异模拟的方法及其应用,其中,对测序序列进行变异模拟的方法包括:获取待模拟区域的碱基序列;将所述碱基序列进行变异状态标记,以便得到标记后的特征串;选取待添加的变异;将所述待添加的变异整合至所述标记后的特征串上,以便得到添加变异后的特征串;以及将所述添加变异后的特征串进行碱基还原,以便得到变异模拟后的序列。该方法通过对碱基序列的变异状态进行标记,设定碱基的变异类型,从而对各种变异进行模拟,变异模拟的方法简单,生成速度快,并能根据需要设计特殊的变异组合用于测试,变异模拟后的序列的仿真程度高。

Description

对测序序列进行变异模拟的方法及其应用
技术领域
本发明涉及基因测序领域,具体地,涉及对测序序列进行变异模拟的方法及其应用,更具体地,涉及一种对测序序列进行变异模拟的方法、一种模拟目标疾病患者测序文库的方法、一种对测序序列进行变异模拟的装置,以及一种电子设备。
背景技术
在基因测序领域,随着技术的快速更新迭代,诞生了许多新的检测方法和流程,它们大多还不够完善,性能仍需清晰、准确的定位,从而,需要利用已知变异的仿真序列检测不同变异检测软件或流程的特点及差异等。一般来说,测试(“benchmarking”)会检测真实的测序下机数据,在检出变异之后还需要后续相应的实验验证,这导致该方法费时费力且费钱。数据模拟的方法可以很好地避开这些缺点,既不需要真实的下机数据,也不需要后续繁琐的实验验证步骤,虽然相对于检测真实的测序下机数据具有迅速、高效且效费比高的优点,但仍存在算法复杂,生成变异时间长和变异添加种类有限等问题。
由此,现有的测序序列的变异模拟的方法有待改进。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明的一个目的在于提出一种对测序序列进行变异模拟的方法,该方法模拟的变异种类多,速度快,可以根据需要设计特殊的变异组合进行测试。
需要说明的是,本发明是基于发明人的下列工作而完成的:
目前可用于全基因组变异模拟的软件有很多,比如FUSIM、RSVSim(2013)、SInC、SMaSH、SCNVsim、VarSim、IntSIM、SVEngine等等。它们有的侧重于模拟部分变异,比如FUSIM、RSVSim;有的会同时模拟出下机reads,比如SInC;有的则会进一步地模拟出肿瘤样本的一些特征,比如SCNVsim;还有的能参考真实数据库指定变异,比如Pysim-sv。但是还没有一款可以直接用于捕获测序下机数据模拟的报道。和全基因组测序相比,捕获测序有很多优势,比如成本低、检测速度快,测序深度高等,因此广泛地用于疾病,尤其是肿瘤的检测。此外,在捕获测序条件下,有些变异所导致的结果是重叠的。比如目标区域外到目标区域内的复制和移位最终表现出的都只是一段已知序列的插入。还有,模拟生成的fasta序列是否正确也需要对应的机制去确认,这些都是现有的全基因组变异模拟无法实现。
发明人针对捕获测序下机数据的特点,设计了一种变异模拟的方法,该方法不仅适用于全基因组测序数据,而且适用于捕获测序下机数据。在该方法中,一方面,变异模拟即可以位于全部基因中,也可以限制在捕获测序的目标区域中,并且根据捕获测序的特点对变异的种类及输出等做了特别处理;另一方面,发明人通过对序列碱基的变异状态进行标记,从而根据变异标记在碱基序列上整合指定变异,然后再生成随机变异。总的来说,变异的模拟可以针对全基因组,也可以针对捕获测序的目标区域,并通过变异状态标记,对各碱基的变异类型进行标记,根据变异标记在指定变异的基础上模拟各种类型的变异以及目标疾病样本的特征。
因而,根据本发明的第一方面,本发明提供了一种对测序序列进行变异模拟的方法。根据本发明的实施例,该方法包括:获取待模拟区域的碱基序列;将所述碱基序列进行变异状态标记,以便得到标记后的特征串;选取待添加的变异;将所述待添加的变异整合至所述标记后的特征串上,以便得到添加变异后的特征串;以及将所述添加变异后的特征串进行碱基还原,以便得到变异模拟后的序列。
根据本发明实施例的对测序序列进行变异模拟的方法,通过对碱基序列的变异状态进行标记,设定碱基的变异类型,从而对各种变异进行模拟,变异模拟的方法简单,生成速度快,并能根据需要设计特殊的变异组合用于测试,变异模拟后的序列的仿真程度高。
在此基础上,根据本发明的第二方面,本发明提供了一种模拟目标疾病患者测序文库的方法。该方法包括:基于胚系变异数据库,利用前述的方法在测序序列上模拟生成胚系变异序列集合;基于目标疾病的体系变异数据库,利用前述的方法在所述胚系变异序列集合的基础上添加体系变异生成含有胚系和体系变异的序列集合;从所述胚系变异序列集合和所述含有胚系和体系变异的序列集合中选取部分变异作为纯合变异,分别以所述胚系变异序列集合中的序列和所述含有胚系和体系变异的序列集合中的序列为模板,得到胚系变异二倍体集合和含有胚系和体系变异的二倍体集合;以及从所述胚系变异二倍体集合中选取部分胚系变异二倍体构成胚系变异二倍体子集,从所述含有胚系和体系变异的二倍体集合中选取部分含有胚系和体系变异的二倍体构成含有胚系和体系变异的二倍体子集,且所述含有胚系和体系变异的二倍体子集包括所述胚系变异二倍体子集,所述胚系变异序列子集和所述含有胚系和体系变异的二倍体子集构成所述目标疾病患者测序文库。
根据本发明的实施例的模拟目标疾病患者测序文库的方法,通过在胚系变异数据库和体系变异数据库中选取变异,在测序序列上利用前述的对测序序列进行变异模拟的方法生成胚系变异和体系变异,使测序序列获得体系和胚系变异特征,并特异选取部分变异实现杂合和纯合二倍体,得到不同的纯度目标疾病患者测序文库。由此,该方法可以根据需要进行具有特定体系和胚系变异特征和预定纯合比例的测序文库的模拟,并且得到的测序文库的仿真程度高,有利于对相关测序装置的变异检测准确度的检测。
根据本发明的第三方面,本发明提供了一种对测序序列进行变异模拟的装置。根据本发明的实施例,该装置包括:序列获取单元,用于获取待模拟区域的碱基序列;变异状态标记单元,所述变异状态标记单元与所述序列获取单元相连,用于将所述碱基序列进行变异状态标记,以便得到标记后的特征串;变异选取单元,用于选取待添加的变异;变异整合单元,所述变异整合单元与所述变异选取单元和所述变异状态标记单元相连,用于将所述待添加的变异整合至所述标记后的特征串上,以便得到添加变异后的特征串;以及碱基还原单元,所述碱基还原单元与所述变异整合单元相连,用于将所述添加变异后的特征串进行碱基还原,以便得到变异模拟后的序列。
本发明实施例的对测序序列进行变异模拟的装置,通过变异状态标记单元对碱基序列的变异状态进行标记,设定碱基的变异类型,从而利用变异整合单元对各种变异进行模拟,变异模拟的方法简单,生成速度快,并能根据需要设计特殊的变异组合用于测试,变异模拟后的序列的仿真程度高。
根据本发明的第四方面,本发明提供了一种模拟目标疾病患者测序文库的系统,该系统包括:胚系变异生成装置,所述胚系变异生成装置为前述的对测序序列进行变异模拟的装置,基于胚系变异数据库,所述胚系变异生成装置在测序序列上模拟生成胚系变异序列集合;体系变异生成装置,所述体系变异生成装置与所述胚系变异生成装置相连,所述体系变异生成装置为前述的对测序序列进行变异模拟的装置,基于目标疾病的体系变异数据库,所述体系变异生成装置在所述胚系变异序列集合的基础上添加体系变异生成含有胚系和体系变异的序列集合;二倍体生成装置,所述二倍体生成装置包括:纯合变异选取单元,所述纯合变异选取单元与所述胚系变异生成装置和所述体系变异生成装置相连,用于从所述胚系变异序列集合和所述含有胚系和体系变异的序列集合中选取部分变异作为纯合变异;扩增单元,所述扩增单元与所述纯合变异选取单元相连,用于分别以所述胚系变异序列集合中的序列和所述含有胚系和体系变异的序列集合中的序列为模板扩增二倍体,得到胚系变异二倍体集合和含有胚系和体系变异的二倍体集合;以及筛选装置,所述筛选装置与所述扩增单元相连,用于从所述胚系变异二倍体集合中选取部分胚系变异二倍体构成胚系变异二倍体子集,从所述含有胚系和体系变异的二倍体集合中选取部分含有胚系和体系变异的二倍体构成含有胚系和体系变异的二倍体子集,且所述含有胚系和体系变异的二倍体子集包括所述胚系变异二倍体子集,所述胚系变异序列子集和所述含有胚系和体系变异的二倍体子集构成所述目标疾病患者测序文库。
根据本发明的实施例的模拟目标疾病患者测序文库的系统,由胚系变异生成装置和体系变异生成装置通过在胚系变异数据库和体系变异数据库中选取变异,在测序序列上利用前述的对测序序列进行变异模拟的装置生成胚系变异和体系变异,使测序序列获得体系和胚系变异特征,并利用二倍体生成装置特异选取部分变异实现杂合和纯合二倍体,得到不同的纯度目标疾病患者测序文库。由此,该系统可以根据需要进行具有特定体系和胚系变异特征和预定纯合比例的测序文库的模拟,并且得到的测序文库的仿真程度高,有利于对相关测序装置的变异检测准确度的检测。
根据本发明的第五方面,本发明提供了一种电子设备。根据本发明的实施例,该电子设备包括:处理器;以及存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如前述的对测序序列进行变异模拟的方法。
根据本发明实施例的电子设备,能执行前述对测序序列进行变异模拟的方法,通过对碱基序列的变异状态进行标记,设定碱基的变异类型,从而对各种变异进行模拟,变异模拟的方法简单,生成速度快,并能根据需要设计特殊的变异组合用于测试,变异模拟后的序列的仿真程度高。在此需要说明的是,该电子设备可以执行前述对测序序列进行变异模拟的方法,具有该方法的全部技术特征和技术效果,在此不再赘述。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1显示了根据本发明一个实施例的对测序序列进行变异模拟的方法的流程示意图;
图2显示了根据本发明一个实施例的变异状态标记的方法的示意图;
图3显示了根据本发明一个实施例的模拟目标疾病患者测序文库的方法的流程示意图;
图4显示了根据本发明一个实施例的模拟目标疾病患者测序文库的方法的流程示意图;
图5显示了根据本发明一个实施例的对测序序列进行变异模拟的装置的结构示意图;
图6显示了根据本发明一个实施例的对测序序列进行变异模拟的装置的结构示意图;
图7显示了根据本发明一个实施例的变异整合单元的结构示意图;。
图8显示了根据本发明一个实施例的模拟目标疾病患者测序文库的系统的结构示意图;
图9显示了根据本发明一个实施例的电子设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明而不是要求本发明必须以特定的方位构造和操作,因此不能理解为对本发明的限制。
需要说明的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。进一步地,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
变异模拟的相关方法
根据本发明的第一方面,本发明提供了一种对测序序列进行变异模拟的方法。根据本发明实施例的对测序序列进行变异模拟的方法,通过对碱基序列的变异状态进行标记,设定碱基的变异类型,从而对各种变异进行模拟,变异模拟的方法简单,生成速度快,并能根据需要设计特殊的变异组合用于测试,变异模拟后的序列的仿真程度高。
根据本发明实施例的对测序序列进行变异模拟的方法,能够在较短的时间内模拟生成所需的变异模拟序列,该序列可以采用fasta文件的格式输出,比如在915个总长约200kb的目标区域内随机模拟200个SNV和300个InDel,并同时生成对应的变异序列用时不到30s。此外,迭代的层次越多,每次迭代的平均用时会更少,比如一次序列生成需要约21s,而4次迭代也不会超过22s。
参考图1,根据本发明的实施例,对变异模拟的方法进行解释说明,具体如下:
S10:获取序列
根据本发明的实施例,获取待模拟区域的碱基序列,从而后续对该碱基序列添加变异,进而是该序列具有目标疾病的变异特征。
其中,本文中的术语“碱基序列”是指使用一串字母表示的真实的或者假设的携带基因信息的DNA或者RNA分子的一级结构。
根据本发明的实施例,该碱基序列是捕获测序得到的。捕获测序不同于全基因组测序,它只检测感兴趣的部分区域,因此成本低、检测速度快、测序深度高。同时,由于探针的亲和性差异,捕获测序的reads数据也具有自己独特的深度波动特征。为了能够模拟出接近真实的捕获测序的下机数据,它一般需要具有以下几个特点:(1)能够指定变异,参入部分真实存在的正常的或肿瘤的变异后模拟的数据会更真实;(2)能够限制模拟的区域,实现捕获的初步特征,如果目标区域一个变异都没有那也就失去了实际意义;(3)能够实现包括snv、indel、CNV、SV在内的所有变异;(4)能够进一步地模拟出reads和肿瘤样本的一些特征,包括GC倾向性、体系/胚系差异、染色体倍数、异质性和肿瘤纯度等。相对于全基因的变异模拟,在捕获测序条件下,有些变异所导致的结果是重叠的。比如目标区域外到目标区域内的复制和移位最终表现出的都只是一段已知序列的插入。
S20:变异状态标记
根据本发明的实施例,将碱基序列进行变异状态标记,得到标记后的特征串。
其中,变异状态标记也就是利用字符对碱基是否变异,以及何种变异进行标记,该标记可以是数字,也可以是字符,包括字母和符号等,只要能对不同类型的变异形成区别即可。通过对碱基的变异状态进行标记,相对于现有的通过逻辑算法模拟变异,运算简单,速度快,并且易于进行多层次变异的叠加。
进一步地,针对捕获测序的序列特征,即相对于全基因,捕获测序指是针对特定区域的一段序列,部分变异可能跨越目标区域,同时位于目标区域内和目标区域外。进而,为了判定变异是否跨越目标区域,也就是越界,发明人在标记后的特征串上设置了越界判定部,也就是说,标记后的特征串包括目标片段部和越界判定部,其中,越界判定部位于该目标片段部的两端,用于判定目标片段的两端是否存在越界的变异。
根据本发明的实施例,该变异状态标记为数值标记,也就是利用不同的数值标记不同的变异类型,不仅标记简单,而且,可以通过数值的加和进行多层次变异的叠加。
具体地,根据本发明的实施例,该变异状态标记包括:将碱基序列上的碱基赋予若干标记位,每个变异类型特异对应至少一个标记位,可以通过在各变异类型对应的标记位是进行有和无的标记来确认各碱基的变异类型,并且,各标记位是独立的,也可以是相互关联的,也就是说,可以同时对一个碱基的不同标记位进行标记,从而进行多层次变异的叠加,同时,针对变异模拟的特点,对部分变异类型进行关联,使其不能同时发生,例如同一碱基上SNV(单核苷酸变异)和删除变异不同时发生;通过有和无对字符的各标记位进行变异类型的设置,得到设置后的标记位,同一碱基可以存在多种变异类型,从而实现碱基任意层次的指定变异;将设置后的标记位进行数值转换,得到数值化的碱基的变异类型标记。
由于二进制只有0和1两个数字,与有和无的判定相符,根据本发明的实施例,该变异类型的设置以二进制数值表示有和无,得到二进制表示的该设置后的标记位;该数值转换包括将该二进制表示的设置后的标记位转换成十进制数字,该十进制数字为该碱基的变异类型标记。由此,通过二进制进行变异类型有和无的判断,便于通过数值进制的转换进行变异类型的标记,易于对不同变异类型的叠加的表示,变异状态标记易于存储和解读。
为了便于理解,举例说明变异状态标记的方法,对每一个长度为N的目标片段,生成一个相应的长度为N+2,初始值为2的变异状态标记位数组。两侧的额外两个标记位为越界判定部,用于记录变异的越界状态。标志位以十进制整数形式存储,但以二进制格式解读。如图2所示,采用了二进制的前6位来标记各种状态。例如,根据指定的变异信息(90个snp和100个inDel)对相应的标志位进行操作。比如3号染色体的第1000个碱基由G变异成了T,根据记录差值的公式得到并记录它们的差值2。同时将碱基G对应的标志位加32(SNV对应的标记位为二进制的第六位,转化为十进制后为32)。对于短删除,记录删除起始和结束位点,由于短删除对应的标记位为二进制的第一位,转化为十进制为1,而变异状态标记位的初始值为2,所以同时对所有待删除碱基的标志位减1。而对于短插入,记录插入位置左侧第一个碱基的坐标,同时对该碱基的标记位加8(短插入对应的标记位为二进制的第四位,转化为十进制后为8)。
S30:选取变异
根据本发明的实施例,选取待添加的变异。该变异可以是随机产生的,也可以是在特定的数据库或变异集合中根据一定的条件选取产生的。
根据本发明的实施例,该待添加的变异的类型包括单核苷酸位点变异、删除、插入、连续重复、倒置、易位和拷贝数变异,其中,删除还包括长删除和短删除,插入还包括长插入和短插入,而短的掺入和删除,也就是插入缺失标记(InDel)。
根据本发明的一些实施例,该待添加的变异含有目标疾病的变异。也就是,通过添加目标疾病的变异,使变异模拟后的序列含有目标疾病的变异特征,与目标疾病的序列的相似度更高。
此外,根据本发明的实施例,该待模拟序列可以位于该目标疾病的至少部分变异所处的染色体区域内。由此,变异模拟后的序列的仿真性高。
根据本发明的实施例,该待添加的变异包括指定变异和随机变异,其中,指定变异包括指定体系变异和指定胚系变异,随机变异包括随机体系变异和随机胚系变异。例如,指定变异可以来源于目标疾病的数据库,从而使模拟得到的序列具有目标疾病的变异特征,而随机变异由随机产生,使变异具有个体特征,并且,无论指定变异还是随机变异,都分别具有体系变异和胚系变异,使变异即具有目标疾病的一般变异特征,又具有个体的变异特征,变异模拟序列的仿真程度更高。
进一步需要说明的是,在指定变异的选取过程中,可以检查各变异之间是否存在互斥关系,也就是在同一碱基位点是否可以发生多层的变异,该位点的变异类型是否会影响后续该位点的其他变异的设置,例如在删除位点再进行其他变异就没有意义。由此,在选取指定变异时,可以对各类型的变异的选取条件进行设置,并对选取后的变异进行检查,判断是否有互斥位点,具体地,一些变异类型的设置条件可以如下所示:
SNV:给A、T、C、G四个碱基分别赋值0,1,2,3,对于已知的SNV用如下公式计算并存储它变异前后的差值。对于新产生的SNV位点,只用1,2或3来记录它的变异结果。在选取SNV位点时需要与snv、deletion位点互斥。
InDel:有80%的概率indel的长度在1~5bp之间,20%的概率在6~15bp之间。对于deletion,只记录目标片段的序号及起始、结束坐标。对于insertion,记录待插位置左侧第一个碱基的坐标及随机产生的序列。删除位点不能有任何变异,插入位点最多只能有SNV变异。
重复:长度在15~50bp之间,复制数量在6~10次。记录目标片段号及起始、结束坐标。重复(Tandem duplication)的位点最多只能有SNV变异。
倒置:长度为15bp,记录目标片段号及起始、结束坐标。倒置(Inversion)位点最多只能与SNV重叠。
易位:暂时定义为染色体的非目标区域序列在目标区域的插入,长度为500~1000bp。记录插入位点的目标片段号、坐标及待插入片段的染色体号,起始、终止坐标。Translocation位点也是最多允许与SNV重叠。
基因拷贝数变异(CNV):目前实现的有拷贝数的减少,以长段的删除来实现,删除的长度在500~1000bp之间,可以完全在目标区域内,也可以部分在目标区域内。记录删除的染色体号,起始、结束位点。长删除位点不能与任何变异重叠。
S40:整合变异
根据本发明的实施例,将该待添加的变异整合至标记后的特征串上,得到添加变异后的特征串。
根据本发明的实施例,该整合包括:将指定变异与变异标记特征串上的对应的标记位进行第一整合,得到添加指定变异的特征串;将随机变异与添加指定变异的特征串上随机选取的字符进行第二整合,并相应修改随机选取的字符的变异类型标记,得到变异特征串。具体地,第一整合是按照指定变异的原发位点的位置在变异标记特征串上的对应的标记位添加变异,而随机变异是在添加指定变异的特征串上随机生成的,位置和变异的类型均是随机产生的,产生随机变异后,记录该随机变异的变异位置、变异类型和具体变异序列信息等。
其中,需要说明的是,在进行第一整合时,需要将第二整合中的指定变异的标记位标记为不可以变异位点,例如,可以将标记位的数值设置为0,以防止第一整合中的随机变异在第二整合中的指定位点产生变异,影响第二整合指定变异的添加。
变异的整合顺序可以是随机进行的,也可以按照一定的顺序进行,本领域技术人员可以根据需要自行选择,根据本发明的优选实施例,该第一整合是按变异类型将指定变异迭代添加至该标记后的特征串上,该第二整合是按变异类型将随机变异迭代添加至该添加指定变异的特征串上。也就是说,不同的变异根据类型进行分类后,按照种类依次添加。根据本发明的一些实施例,变异整合可以按照不同的变异类型按照不同的顺序依次进行整合,优选地,模拟的顺序可以按照不同变异类型对空间要求的高低进行,一般情况下,变异模拟的顺序根据变异片段的长度进行设置,先进行变异片段较长的相应的变异类型的模拟,再进行变异片段较短的变异类型的模拟,例如变异模拟的顺序可以为长删除、连续重复、倒置、插入缺失标记和单核苷酸位点变异。
在变异整合的过程中,不同类型的变异之间既存在互斥关系,又存在相容关系。例如,根据本发明的实施例,删除与其他变异互斥,该位点已经删除,再在该位点上模拟其他变异也无法在最终的序列上呈现出其他变异,优化了变异模拟的方法。根据本发明的实施例,插入与单核苷酸位点变异有交叉位点,也就是在插入的序列上有单核苷酸位点变异。
例如,需要添加的变异类型有SNV和InDel,其中,InDel包括短插入和短删除。InDel中的短删除与短插入按照2:1的比例拆分。模拟的顺序按照对空间要求的高低排列,先模拟短删除,后模拟短插入和SNV。对于短删除,首先在目标区域内随机选取一个起始位点,然后根据自定义的概率分布(80%概率1~5bp,20%概率6~15bp)取得当次删除的长度从而确定结束位点。最后检查起始位点和结束位点的标志位,如果是0(表示不可变异)则重新选,如果都是2(初始值)就表明选中并将该区域作为短删除区域,如果不都是那重复循环直至选中或循环达上限。对于短插入,则只需要选择一个插入位点,如果该位点是2(无任何改变)或者34(2+32,表明是一个SNV位点)则表明选中,如果不是则重复循环。对于SNV而言,随机选取一个位点,只要标志位是2(初始值)、10(插入)或18(倒置)都可以,否则重新选择。按照这个顺序依次迭代将短删除、短插入和SNV添加到序列上,直至所有的变异添加完毕。
此外,为了防止第一整合中添加的随机变异影响第二整合中指定变异的添加,在进行第一整合前,可以将第二整合中指定变异的变异状态标记为不可变异状态,例如,可以将变异状态标志位设置为0,从而,在整合随时变异时,当遇到标志位为“0”的位点时,迭代重新选取待变异位点,待第一整合结束后,再将标志位为“0”的位点的值恢复为原标记数值。
S50:还原碱基
根据本发明的实施例,将添加变异后的特征串进行碱基还原,得到变异模拟后的序列。其中,碱基还原指的是将特征串上的非碱基特征符号转化为对应的碱基,从而得到模拟后的碱基序列。
在此基础上,根据本发明的第二方面,本发明提供了一种模拟目标疾病患者测序文库的方法。根据本发明的实施例的模拟目标疾病患者测序文库的方法,通过在胚系变异数据库和体系变异数据库中选取变异,在测序序列上利用前述的对测序序列进行变异模拟的方法生成胚系变异和体系变异,使测序序列获得体系和胚系变异特征,并选取部分变异实现杂合和纯合二倍体,得到不同的纯度目标疾病患者测序文库。由此,该方法可以根据需要进行具有特定体系和胚系变异特征和预定纯合比例的测序文库的模拟,并且得到的测序文库的仿真程度高,有利于对相关测序装置的变异检测准确度的检测。
参考图3,根据本发明的实施例,对该模拟目标疾病患者测序文库的方法进行解释说明,该方法包括:
S100生成胚系变异序列集合
根据本发明的实施例,基于胚系变异数据库,利用前述的方法在测序序列上模拟生成胚系变异序列集合。由此,通过在序列上添加整合胚系变异,使序列具有目标疾病的胚系变异的特征。
其中,本文术语“胚系变异数据库”是指含有胚系变异的集合,可以是现有的关于变异的一些数据库,也可以是收集的一些关于胚系变异的汇总,针对不同的疾病,可以应用不同疾病的胚系变异数据库或相关汇总资料。
S200生成含有胚系和体系变异的序列集合
根据本发明的实施例,基于目标疾病的体系变异数据库,利用前述的方法在胚系变异序列集合的基础上添加体系变异生成含有胚系和体系变异的序列集合。
其中,本文术语“体系变异数据库”是指含有体系变异的集合,可以是现有的关于变异的一些数据库,也可以是收集的一些关于体系变异的汇总,针对不同的疾病,可以应用不同疾病的体系变异数据库或相关汇总资料。
S300 生成二倍体
根据本发明的实施例,从胚系变异序列集合和含有胚系和体系变异的序列集合中选取部分变异作为纯合变异,分别以胚系变异序列集合中的序列和含有胚系和体系变异的序列集合中的序列为模板,得到胚系变异二倍体集合和含有胚系和体系变异的二倍体集合。换句话说,就是在含有胚系变异的序列的基础上添加体系变异,使序列同时具有胚系变异和体系变异,然后从胚系变异和体系变异选取部分变异作为纯合变异,合成二倍体序列,该二倍体序列为配对的二倍体序列,各二倍体序列构成二倍体集合。
对应系列中整合添加的变异,可以根据具体的需求进行调整,根据本发明的一些实施例,按照变异类型的预定比例,从胚系变异序列集合和含有胚系和体系变异的序列集合中选取变异。
其中,纯合变异的比例可以根据需要进行设定,例如,可以按照临床目标疾病的通常纯合变异的比例进行设定,以使变异序列集合的仿真度更高。
S400 获得目标疾病患者测序文库
根据本发明的实施例,从胚系变异二倍体集合中选取部分胚系变异二倍体构成胚系变异二倍体子集,从含有胚系和体系变异的二倍体集合中选取部分含有胚系和体系变异的二倍体构成含有胚系和体系变异的二倍体子集,且含有胚系和体系变异的二倍体子集包括胚系变异二倍体子集,胚系变异序列子集和含有胚系和体系变异的二倍体子集构成目标疾病患者测序文库。
其中,需要说明的是,该含有胚系和体系变异的二倍体子集包括胚系变异二倍体子集,换句话说,该含有胚系和体系变异的二倍体子集中的胚系变异与胚系变异二倍体子集中的胚系变异具有同源性。也就是说,该胚系和体系变异的二倍体子集中的体系变异是在胚系变异二倍体子集的基础上添加的。
参考图4,以模拟癌症患者的序列为例,对该模拟目标疾病患者测序文库的方法进行具体说明,具体如下:。
1)Normal样本的纯合实现:从第一次迭代产生的胚系变异序列集合中按百分比挑选出纯合变异,生成的变异记录文件作为输入生成对应的fasta序列,两条fa序列配对即构成了normal样本二倍体的纯合/杂合特征,即胚系变异二倍体集合。
2)Tumor样本的纯合实现:在第二次迭代中产生的含有胚系和体系变异的序列集合里按比例挑选一定的纯合变异位点,与Normal样本挑选的纯合变异位点混合在一起生成对应的fasta序列,两条fa序列配对即构成了tumor样本二倍体的纯合/杂合特征,即含有胚系和体系变异的二倍体集合。
3)在得到胚系变异二倍体集合和含有胚系和体系变异的二倍体集合中的正常及肿瘤样本各2条、共4条fasta序列之后,借助其它软件比如ART生成对应的fastq测序文件,并模拟好接近真实的深度分布。按肿瘤/正常的比例从normal及tumor的fastq中随机抽取读段(reads),抽取完成之后将reads合并成新的fastq文件,以实现不同的肿瘤纯度。
变异模拟相关的装置和系统
根据本发明的第三方面,本发明提供了一种对测序序列进行变异模拟的装置。根据本发明的实施例,该装置包括:序列获取单元、变异状态标记单元、变异选取单元、变异整合单元和碱基还原单元。本发明实施例的对测序序列进行变异模拟的装置,通过变异状态标记单元对碱基序列的变异状态进行标记,设定碱基的变异类型,从而利用变异整合单元对各种变异进行模拟,变异模拟的方法简单,生成速度快,并能根据需要设计特殊的变异组合用于测试,变异模拟后的序列的仿真程度高。
参考图5,根据本发明的实施例,对该装置进行解释说明,具体如下:
序列获取单元10:根据本发明的实施例,该序列获取单元10用于获取待模拟区域的碱基序列,从而后续对该碱基序列添加变异,进而是该序列具有目标疾病的变异特征。
根据本发明的实施例,该碱基序列是捕获测序得到的。捕获测序的特点如前所述,在此不再赘述。
变异状态标记单元20:根据本发明的实施例,该变异状态标记单元20与序列获取单元10相连,用于将碱基序列进行变异状态标记,得到标记后的特征串。其中,变异状态标记也就是利用字符对碱基是否变异,以及何种变异进行标记,该标记可以是数字,也可以是字符,包括字母和符号等,只要能对不同类型的变异形成区别即可。通过对碱基的变异状态进行标记,相对于现有的通过逻辑算法模拟变异,运算简单,速度快,并且易于进行多层次变异的叠加。
进一步地,针对捕获测序的序列特征,即相对于全基因,捕获测序指的是针对特定区域的一段或多段序列,部分变异可能跨越目标区域,同时位于目标区域内和目标区域外。进而,为了判定变异是否跨越目标区域,也就是越界,该变异状态标记单元20在标记后的特征串上设置了越界判定部,也就是说,标记后的特征串包括目标片段部和越界判定部,其中,越界判定部位于该目标片段部的两端,用于判定目标片段的两端是否存在越界的变异。
根据本发明的实施例,该变异状态标记为数值标记,也就是利用不同的数值标记不同的变异类型,不仅标记简单,而且,可以通过数值的加和进行多层次变异的叠加。
参考图6,根据本发明的实施例,该变异状态标记单元20包括:标记位设置子单元21、变异类型设置子单22和数值转换子单元23,其中,标记位设置子单元21与序列获取单元10相连,将碱基序列上的碱基赋予若干标记位,每个变异类型特异对应至少一个标记位,可以通过在各变异类型对应的标记位是进行有和无的标记来确认各碱基的变异类型,并且,各标记位是独立的,也可以是相互关联的,也就是说,可以同时对一个碱基的不同标记位进行标记,从而进行多层次变异的叠加,同时,针对变异模拟的特点,对部分变异类型进行关联,使其不能同时发生,例如同一碱基上SNV(单核苷酸变异)和删除变异不同时发生;变异类型设置子单元22与标记位设置子单元21相连,通过有和无对字符的各标记位进行变异类型的设置,得到设置后的标记位,同一碱基可以存在多种变异类型,从而实现一个碱基上多种变异的叠加;数值转换子单元23与变异类型设置子单元22相连,用于将设置后的标记位进行数值转换,得到数值化的碱基的变异类型标记。
由于二进制只有0和1两个数字,与有和无的判定相符,根据本发明的实施例,该变异状态标记单元20以二进制数值表示有和无设置变异类型,得到二进制表示的该设置后的标记位;该数值转换包括将该二进制表示的设置后的标记位转换成十进制数字,该十进制数字为该碱基的变异类型标记。由此,通过二进制进行变异类型有和无的判断,便于通过数值进制的转换进行变异类型的标记,易于对不同变异类型的叠加的表示,变异状态标记易于存储和解读。
变异选取单元30:根据本发明的实施例,该变异选取单元30用于选取待添加的变异。该变异可以是随机产生的,也可以是在特定的数据库或变异集合中根据一定的条件选取产生的。
参考图6,根据本发明的实施例,该变异选取单元30包括:指定变异选取子单元31和随机变异选取子单元32,其中,该指定变异选取子单元31与变异整合单元40相连,该指定变异选取子单元31可以选取指定体系变异和指定胚系变异;随机变异选取子单元32与指定变异选取子单元31和变异整合单元40相连,该随机变异选取子单元32可以选取随机体系变异和随机胚系变异。例如,指定变异可以来源于目标疾病的数据库,从而使模拟得到的序列具有目标疾病的变异特征,而随机变异由随机产生,使变异具有个体特征,并且,无论指定变异还是随机变异,都分别具有体系变异和胚系变异,使变异即具有目标疾病的一般变异特征,又具有个体的变异特征,变异模拟序列的仿真程度更高。
进一步需要说明的是,在指定变异的选取过程中,可以检查各变异之间是否存在互斥关系,也就是在同一碱基位点是否可以发生多个变异叠加,该位点的变异类型是否会影响后续该位点的其他变异的设置,例如在删除位点再进行其他变异就没有意义。由此,在选取指定变异时,可以对各类型的变异的选取条件进行设置,并对选取后的变异进行检查,判断是否有互斥位点,各变异类型的设置条件如前所述,在此不再赘述。
变异整合单元40:根据本发明的实施例,该变异整合单元40与变异选取单元30和变异状态标记单元20相连,用于将待添加的变异整合至标记后的特征串上,得到添加变异后的特征串。
参考图6,根据本发明的实施例,该变异整合单元40包括:第一整合子单元41和第二整合子单元42,其中,该第一整合子单元41与变异选取单元 30和变异状态标记单元20相连,用于将指定变异与标记后的特征串上的对应的标记位进行第一整合,得到添加指定变异的特征串;该第二整合子单元42与第一整合子单元41相连,用于将随机变异与添加指定变异的特征串上随机选取的字符进行第二整合,并相应修改随机选取的字符的标记位信息,得到变异特征串。具体地,第一整合是按照指定变异的原发位点的位置在变异标记特征串上的对应的标记位添加变异,而随机变异是在添加指定变异的特征串上随机生成的,位置和变异的类型均是随机产生的,产生随机变异后,记录该随机变异的变异位置、变异类型和具体变异序列信息等。
进一步地,可以在变异整合单元40中设置变异整合的顺序,变异的整合顺序可以是随机进行的,也可以按照一定的顺序进行,本领域技术人员可以根据需要自行选择,根据本发明的优选实施例,该第一整合子单元41是按变异类型将指定变异迭代添加至该标记后的特征串上,该第二整合子单元42是按变异类型将随机变异迭代添加至该添加指定变异的特征串上。也就是说,不同的变异根据类型进行分类后,按照种类依次添加。根据本发明的一些实施例,变异整合可以按照不同的变异类型按照不同的顺序依次进行整合,优选地,模拟的顺序可以按照不同变异类型对空间要求的高低进行,例如变异模拟的顺序可以为插入缺失标记、单核苷酸位点变异、长删除、连续重复、倒置。
在变异整合的过程中,不同类型的变异之间既存在互斥关系,又存在相容关系。例如,根据本发明的实施例,删除与其他变异互斥,该位点已经删除,再在该位点上模拟其他变异也无法在最终的序列上呈现出其他变异,简化变异模拟的流程。根据本发明的实施例,插入与单核苷酸位点变异有交叉位点,也就是在插入的序列上有单核苷酸位点变异。
例如,需要添加的变异类型有SNV和InDel,其中,InDel包括短插入和短删除。Indel中的短删除与短插入按照2:1的比例拆分。变异整合单元40的模拟顺序可以按照对空间要求的高低排列,先模拟短删除,后模拟短插入和SNV。对于短删除,首先在目标区域内随机选取一个起始位点,然后根据自定义的概率分布(80%概率1~5bp,20%概率6~15bp)取得当次删除的长度从而确定结束位点。最后检查起始位点和结束位点的标志位,如果是0(表示不可变异)则重新选,如果都是2(初始值)就表明选中并将该区域作为短删除区域,如果不都是那重复循环直至选中或循环达上限。对于短插入,则只需要选择一个插入位点,如果该位点是2(无任何改变)或者34(2+32,表明是一个SNV位点)则表明选中,如果不是则重复循环。对于SNV而言,随机选取一个位点,只要标志位是2(初始值)、10(插入)或18(倒置)都可以,否则重新选择。按照这个顺序依次迭代将短删除、短插入和SNV添加到序列上,直至所有的变异添加完毕。
此外,为了防止第一整合中添加的随机变异影响第二整合中指定变异的添加,在进行第一整合前,可以将第二整合中指定变异的变异状态标记为不可变异状态,例如,可以将变异状态标志位设置为0,从而,在整合随时变异时,当遇到标志位为“0”的位点时,就重新迭代添加变异,待第一整合结束后,再将标志位为“0”的位点的值恢复为原标记数值。也就是说,参考图7,该变异整合单元40还包括变异预判子单元43,该变异预判子单元43与第一整合子单元41和第二整合子单元42相连,用于在随机变异前预判该位点是否可以整合随机变异,如果不可以整合随机变异,重新代添加新的随机变异。
碱基还原单元50:根据本发明的实施例,该碱基还原单元50与变异整合单元40相连,用于将添加变异后的特征串进行碱基还原,得到变异模拟后的序列。其中,碱基还原指的是将特征串上的非碱基特征符号转化为对应的碱基,从而得到模拟后的碱基序列。
根据本发明的第四方面,本发明提供了一种模拟目标疾病患者测序文库的系统,该系统包括胚系变异生成装置、体系变异生成装置、二倍体生成装置和筛选装置。
根据本发明的实施例的模拟目标疾病患者测序文库的系统,由胚系变异生成装置和体系变异生成装置通过在胚系变异数据库和体系变异数据库中选取变异,在测序序列上利用前述的对测序序列进行变异模拟的装置生成胚系变异和体系变异,使测序序列获得体系和胚系变异特征,并利用二倍体生成装置特异选取部分变异实现杂合和纯合二倍体,选取不同比例的正常人和目标疾病患者的序列得到不同纯度的目标疾病患者测序文库。由此,该系统可以根据需要进行具有特定体系和胚系变异特征和预定纯合比例的测序文库的模拟,并且得到的测序文库的仿真程度高,有利于对相关测序装置的变异检测准确度的检测。
参考图8,根据本发明的实施例,对该模拟目标疾病患者测序文库的系统进行解释说明,具体如下:
胚系变异生成装置100:根据本发明的实施例,该胚系变异生成装置100为前述的对测序序列进行变异模拟的装置,基于胚系变异数据库,该胚系变异生成装置100在测序序列上模拟生成胚系变异序列集合。由此,通过在序列上添加整合胚系变异,使序列具有目标疾病的胚系变异的特征。该胚系变异生成装置100具有前述的对测序序列进行变异模拟的装置的全部技术特征和技术效果,在此不再赘述。
体系变异生成装置200:根据本发明的实施例,该体系变异生成装置200与该胚系变异生成装置100相连,该体系变异生成装置200为前述的对测序序列进行变异模拟的装置,基于目标疾病的体系变异数据库,该体系变异生成装置200在胚系变异序列集合的基础上添加体系变异生成含有胚系和体系变异的序列集合。该体系变异生成装置200具有前述的对测序序列进行变异模拟的装置的全部技术特征和技术效果,在此不再赘述。
二倍体生成装置300:根据本发明的实施例,该二倍体生成装置300包括:纯合变异选取单元310和扩增单元320,其中,纯合变异选取单元310与胚系变异生成装置100和体系变异生成装置200相连,用于从胚系变异序列集合和含有胚系和体系变异的序列集合中选取部分变异作为纯合变异;扩增单元与纯合变异选取单元相连,用于分别以胚系变异序列集合中的序列和含有胚系和体系变异的序列集合中的序列为模板扩增二倍体,得到胚系变异二倍体集合和含有胚系和体系变异的二倍体集合。换句话说,就是在含有胚系变异的序列的基础上添加体系变异,使序列同时具有胚系变异和体系变异,然后从胚系变异和体系变异选取部分变异作为纯合变异,合成二倍体序列,各二倍体序列构成二倍体集合。
筛选装置400:根据本发明的实施例,该筛选装置400与扩增单元相连,用于从胚系变异二倍体集合中选取部分胚系变异二倍体构成胚系变异二倍体子集,从含有胚系和体系变异的二倍体集合中选取部分含有胚系和体系变异的二倍体构成含有胚系和体系变异的二倍体子集,且含有胚系和体系变异的二倍体子集包括胚系变异二倍体子集,该胚系变异序列子集和含有胚系和体系变异的二倍体子集构成目标疾病患者测序文库。其中,需要说明的是,该含有胚系和体系变异的二倍体子集包括胚系变异二倍体子集,换句话说,该含有胚系和体系变异的二倍体子集中的胚系变异与胚系变异二倍体子集中的胚系变异具有同源性。也就是说,该胚系和体系变异的二倍体子集中的体现变异是在胚系变异二倍体子集的基础上添加的。
根据本发明的第五方面,本发明提供了一种电子设备。根据本发明的实施例,该电子设备包括处理器和存储器。
根据本发明实施例的电子设备,能执行前述对测序序列进行变异模拟的方法,通过对碱基序列的变异状态进行标记,设定碱基的变异类型,从而对各种变异进行模拟,变异模拟的方法简单,生成速度快,并能根据需要设计特殊的变异组合用于测试,变异模拟后的序列的仿真程度高。在此需要说明的是,该电子设备可以执行前述对测序序列进行变异模拟的方法,具有该方法的全部技术特征和技术效果,在此不再赘述。
参考图9,根据本发明的实施例,对该电子设备进行解释说明,该电子设备500包括:
处理器510;该处理器510可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备510中的其他组件以执行期望的功能。
存储器520:根据本发明的实施例,在该存储器520中存储有计算机程序指令,该计算机程序指令在被处理器510运行时使得处理器510执行如前述的对测序序列进行变异模拟的方法。该存储器520可以包括一个或多个计算机程序产品,该计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。其中,该易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。该非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器510可以运行程序指令,以实现上文所述的本申请的各个实施例的对目标序列进行拟合的方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如上述待拟合序列、参比序列、比较参数等各种内容。
根据本发明的一些实施例,该电子设备500还可以包括:输入装置530和输出装置540,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,该输入装置530可以包括例如键盘、鼠标等。
该输出装置540可以向外部输出各种信息,例如目标序列的拟合曲线等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图9中仅示出了该电子设备500中与本发明有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备500还可以包括任何其他适当的组件。
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,该计算机程序指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的对目标序列进行拟合的方法中的步骤。
该计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Perl、Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本发明的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,该计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的对目标序列进行拟合的方法中的步骤。
本发明实施例的计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (23)

1.一种对测序序列进行变异模拟的方法,其特征在于,包括:
获取待模拟区域的碱基序列;
将所述碱基序列进行变异状态标记,以便得到标记后的特征串;
选取待添加的变异;
将所述待添加的变异整合至所述标记后的特征串上,以便得到添加变异后的特征串;以及
将所述添加变异后的特征串进行碱基还原,以便得到变异模拟后的序列;
所述变异状态标记包括:
将所述碱基序列上的碱基赋予若干标记位,每个变异类型特异对应至少一个标记位;
通过有和无对字符的各所述标记位进行变异类型的设置,以便得到设置后的标记位;
将所述设置后的标记位进行数值转换,以便得到数值化的所述碱基的变异类型标记;
所述变异类型的设置以二进制数值表示所述有和无,以便得到二进制表示的所述设置后的标记位;
所述数值转换包括将所述二进制表示的所述设置后的标记位转换成十进制数字,所述十进制数字为所述碱基的变异类型标记;
所述待添加的变异的类型包括单核苷酸位点变异、删除、插入、连续重复、倒置、易位和拷贝数变异。
2.根据权利要求1所述的方法,其特征在于,所述碱基序列是捕获测序得到的。
3.根据权利要求1所述的方法,其特征在于,所述标记后的特征串包括目标片段部和越界判定部,所述越界判定部位于所述目标片段部的两端。
4.根据权利要求1所述的方法,其特征在于,所述变异状态标记为数值标记。
5.根据权利要求1所述的方法,其特征在于,所述待添加的变异含有目标疾病的变异。
6.根据权利要求5所述的方法,其特征在于,待模拟序列位于所述目标疾病的至少部分变异所处的染色体区域内。
7.根据权利要求1所述的方法,其特征在于,所述待添加的变异包括指定变异和随机变异,所述指定变异包括指定体系变异和指定胚系变异,所述随机变异包括随机体系变异和随机胚系变异。
8.根据权利要求7所述的方法,其特征在于,所述整合包括:
将所述指定变异与所述变异标记特征串上的对应的所述标记位进行第一整合,以便得到添加指定变异的特征串;
将所述随机变异与所述添加指定变异的特征串上随机选取的字符进行第二整合,并相应修改所述随机选取的字符的所述变异类型标记,以便得到所述变异特征串。
9.根据权利要求1所述的方法,其特征在于,所述删除与其他所述变异互斥。
10.根据权利要求1所述的方法,其特征在于,所述插入与所述单核苷酸位点变异有交叉位点。
11.根据权利要求8所述的方法,其特征在于,所述第一整合是按变异类型将所述指定变异迭代添加至所述标记后的特征串上,所述第二整合是按变异类型将所述随机变异迭代添加至所述添加指定变异的特征串上。
12.一种模拟目标疾病患者测序文库的方法,其特征在于,包括:
基于胚系变异数据库,利用权利要求1-11任一项所述的方法在测序序列上模拟生成胚系变异序列集合;
基于目标疾病的体系变异数据库,利用权利要求1-11任一项所述的方法在所述胚系变异序列集合的基础上添加体系变异生成含有胚系和体系变异的序列集合;
从所述胚系变异序列集合和所述含有胚系和体系变异的序列集合中选取部分变异作为纯合变异,分别以所述胚系变异序列集合中的序列和所述含有胚系和体系变异的序列集合中的序列为模板,得到胚系变异二倍体集合和含有胚系和体系变异的二倍体集合;以及
从所述胚系变异二倍体集合中选取部分胚系变异二倍体构成胚系变异二倍体子集,从所述含有胚系和体系变异的二倍体集合中选取部分含有胚系和体系变异的二倍体构成含有胚系和体系变异的二倍体子集,且所述含有胚系和体系变异的二倍体子集包括所述胚系变异二倍体子集,所述胚系变异序列子集和所述含有胚系和体系变异的二倍体子集构成所述目标疾病患者测序文库。
13.根据权利要求12所述的方法,其特征在于,按照变异类型的预定比例,从所述胚系变异序列集合和所述含有胚系和体系变异的序列集合中选取变异。
14.一种对测序序列进行变异模拟的装置,其特征在于,所述装置被设置为实现执行权利要求1-13任一项所述的方法,包括:
序列获取单元,用于获取待模拟区域的碱基序列;
变异状态标记单元,所述变异状态标记单元与所述序列获取单元相连,用于将所述碱基序列进行变异状态标记,以便得到标记后的特征串;
变异选取单元,用于选取待添加的变异;
变异整合单元,所述变异整合单元与所述变异选取单元和所述变异状态标记单元相连,用于将所述待添加的变异整合至所述标记后的特征串上,以便得到添加变异后的特征串;以及
碱基还原单元,所述碱基还原单元与所述变异整合单元相连,用于将所述添加变异后的特征串进行碱基还原,以便得到变异模拟后的序列。
15.根据权利要求14所述的装置,其特征在于,所述标记后的特征串包括目标片段部和越界判定部,所述越界判定部位于所述目标片段部的两端。
16.根据权利要求14所述的装置,其特征在于,所述变异状态标记为数值标记。
17.根据权利要求14所述的装置,其特征在于,所述变异状态标记单元包括:
标记位设置子单元,所述标记位设置子单元与所述序列获取单元相连,将所述碱基序列上的碱基赋予若干标记位,每个变异类型特异对应至少一个标记位;
变异类型设置子单元,所述变异类型设置子单元与所述标记位设置子单元相连,通过有和无对字符的各所述标记位进行变异类型的设置,以便得到设置后的标记位;
数值转换子单元,所述数值转换子单元与所述变异类型设置子单元相连,用于将所述设置后的标记位进行数值转换,以便得到数值化的所述碱基的变异类型标记。
18.根据权利要求14所述的装置,其特征在于,所述变异选取单元包括:
指定变异选取子单元,所述指定变异选取子单元与所述变异整合单元相连;和
随机变异选取子单元,所述随机变异选取子单元与所述指定变异选取子单元和所述变异整合单元相连。
19.根据权利要求14所述的装置,其特征在于,所述变异整合单元包括:
第一整合子单元,所述第一整合子单元与所述变异选取单元和所述变异状态标记单元相连,用于将指定变异与所述标记后的特征串上的对应的所述标记位进行第一整合,以便得到添加指定变异的特征串;
第二整合子单元,所述第二整合子单元与所述第一整合子单元相连,用于将随机变异与所述添加指定变异的特征串上随机选取的字符进行第二整合,并相应修改所述随机选取的字符的标记位信息,以便得到所述变异特征串。
20.根据权利要求17所述的装置,其特征在于,所述变异类型设置子单元以二进制数值表示所述有和无,以便得到二进制表示的所述设置后的标记位;
所述数值转换子单元将所述二进制表示的所述设置后的标记位转换成十进制数字,所述十进制数字为所述碱基的变异类型标记。
21.根据权利要求19所述的装置,其特征在于,所述第一整合子单元通过按变异类型将所述指定变异迭代添加至所述标记后的特征串上,所述第二整合单元按变异类型将所述随机变异迭代添加至所述添加指定变异的特征串上。
22.一种模拟目标疾病患者测序文库的系统,其特征在于,包括:
胚系变异生成装置,所述胚系变异生成装置为权利要求14-21任一项所述的对测序序列进行变异模拟的装置,基于胚系变异数据库,所述胚系变异生成装置在测序序列上模拟生成胚系变异序列集合;
体系变异生成装置,所述体系变异生成装置与所述胚系变异生成装置相连,所述体系变异生成装置为权利要求14-21任一项所述的对测序序列进行变异模拟的装置,基于目标疾病的体系变异数据库,所述体系变异生成装置在所述胚系变异序列集合的基础上添加体系变异生成含有胚系和体系变异的序列集合;
二倍体生成装置,所述二倍体生成装置包括:
纯合变异选取单元,所述纯合变异选取单元与所述胚系变异生成装置和所述体系变异生成装置相连,用于从所述胚系变异序列集合和所述含有胚系和体系变异的序列集合中选取部分变异作为纯合变异;
扩增单元,所述扩增单元与所述纯合变异选取单元相连,用于分别以所述胚系变异序列集合中的序列和所述含有胚系和体系变异的序列集合中的序列为模板扩增二倍体,得到胚系变异二倍体集合和含有胚系和体系变异的二倍体集合;以及
筛选装置,所述筛选装置与所述扩增单元相连,用于从所述胚系变异二倍体集合中选取部分胚系变异二倍体构成胚系变异二倍体子集,从所述含有胚系和体系变异的二倍体集合中选取部分含有胚系和体系变异的二倍体构成含有胚系和体系变异的二倍体子集,且所述含有胚系和体系变异的二倍体子集包括所述胚系变异二倍体子集,所述胚系变异序列子集和所述含有胚系和体系变异的二倍体子集构成所述目标疾病患者测序文库。
23.一种电子设备,包括:
处理器;以及
存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-11中任一项所述的对测序序列进行变异模拟的方法。
CN201910202272.2A 2018-12-29 2019-03-18 对测序序列进行变异模拟的方法及其应用 Active CN109920485B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2018116352155 2018-12-29
CN201811635215 2018-12-29

Publications (2)

Publication Number Publication Date
CN109920485A CN109920485A (zh) 2019-06-21
CN109920485B true CN109920485B (zh) 2023-10-31

Family

ID=66965240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910202272.2A Active CN109920485B (zh) 2018-12-29 2019-03-18 对测序序列进行变异模拟的方法及其应用

Country Status (1)

Country Link
CN (1) CN109920485B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1774511A (zh) * 2002-11-27 2006-05-17 斯昆诺有限公司 用于序列变异检测和发现的基于断裂的方法和系统
WO2014014497A1 (en) * 2012-07-20 2014-01-23 Verinata Health, Inc. Detecting and classifying copy number variation in a cancer genome
KR101400947B1 (ko) * 2013-12-27 2014-05-29 한국과학기술정보연구원 변이 유전체 시퀀스 예측 방법, 장치 및 변이 유전체 시퀀스 예측 프로그램을 저장하는 저장매체
WO2014149134A2 (en) * 2013-03-15 2014-09-25 Guardant Health Inc. Systems and methods to detect rare mutations and copy number variation
CN104204220A (zh) * 2011-12-31 2014-12-10 深圳华大基因医学有限公司 一种遗传变异检测方法
WO2016062713A1 (en) * 2014-10-21 2016-04-28 Barcelona Supercomputing Center - Centro Nacional De Supercomputación A computational method for the identification of variants in nucleic acid sequences
CN106202991A (zh) * 2016-06-30 2016-12-07 厦门艾德生物医药科技股份有限公司 一种基因组多重扩增测序产物中突变信息的检测方法
CN106682450A (zh) * 2016-11-24 2017-05-17 西安电子科技大学 一种基于状态转移模型的新一代测序拷贝数变异仿真方法
CN106909806A (zh) * 2015-12-22 2017-06-30 广州华大基因医学检验所有限公司 定点检测变异的方法和装置
CN107423578A (zh) * 2017-03-02 2017-12-01 北京诺禾致源科技股份有限公司 检测体细胞突变的装置
WO2018057770A1 (en) * 2016-09-22 2018-03-29 Illumina, Inc. Somatic copy number variation detection

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050026173A1 (en) * 2003-02-27 2005-02-03 Methexis Genomics, N.V. Genetic diagnosis using multiple sequence variant analysis combined with mass spectrometry

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1774511A (zh) * 2002-11-27 2006-05-17 斯昆诺有限公司 用于序列变异检测和发现的基于断裂的方法和系统
CN104204220A (zh) * 2011-12-31 2014-12-10 深圳华大基因医学有限公司 一种遗传变异检测方法
WO2014014497A1 (en) * 2012-07-20 2014-01-23 Verinata Health, Inc. Detecting and classifying copy number variation in a cancer genome
WO2014149134A2 (en) * 2013-03-15 2014-09-25 Guardant Health Inc. Systems and methods to detect rare mutations and copy number variation
KR101400947B1 (ko) * 2013-12-27 2014-05-29 한국과학기술정보연구원 변이 유전체 시퀀스 예측 방법, 장치 및 변이 유전체 시퀀스 예측 프로그램을 저장하는 저장매체
WO2016062713A1 (en) * 2014-10-21 2016-04-28 Barcelona Supercomputing Center - Centro Nacional De Supercomputación A computational method for the identification of variants in nucleic acid sequences
CN106909806A (zh) * 2015-12-22 2017-06-30 广州华大基因医学检验所有限公司 定点检测变异的方法和装置
CN106202991A (zh) * 2016-06-30 2016-12-07 厦门艾德生物医药科技股份有限公司 一种基因组多重扩增测序产物中突变信息的检测方法
WO2018057770A1 (en) * 2016-09-22 2018-03-29 Illumina, Inc. Somatic copy number variation detection
CN106682450A (zh) * 2016-11-24 2017-05-17 西安电子科技大学 一种基于状态转移模型的新一代测序拷贝数变异仿真方法
CN107423578A (zh) * 2017-03-02 2017-12-01 北京诺禾致源科技股份有限公司 检测体细胞突变的装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种二倍体片段测序中SNP检测系统的构建;邓继忠等;《华南农业大学学报》;20160415;第115-120页 *

Also Published As

Publication number Publication date
CN109920485A (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
CN107615283B (zh) 用于二倍体基因组组装和单倍型序列重建的方法、软件和系统
US10600217B2 (en) Methods for the graphical representation of genomic sequence data
JP5068414B2 (ja) 少なくとも1つの順序づけされた制限酵素マップを使用して1つ以上の遺伝子配列マップの検証、アラインメントおよび再順序づけを行うためのシステムおよび方法
CN110491441A (zh) 一种模拟人群背景信息的基因测序数据仿真系统及方法
US20150286775A1 (en) String graph assembly for polyploid genomes
CN111243663A (zh) 一种基于模式增长算法的基因变异检测方法
CN108256291A (zh) 一种生成具有较高可信度基因突变检测结果的方法
CN109920485B (zh) 对测序序列进行变异模拟的方法及其应用
Xing et al. SECNVs: a simulator of copy number variants and whole-exome sequences from reference genomes
MX2013014746A (es) Representacion de secuencia genomica/proteomica, visualizacion, comparacion y reporte de uso de conjunto de caracteres bioinformaticos y fuentes bioinformaticas mapeadas.
Alachiotis et al. ChromatoGate: a tool for detecting base mis-calls in multiple sequence alignments by semi-automatic chromatogram inspection
Luhmann et al. Scaffolding of ancient contigs and ancestral reconstruction in a phylogenetic framework
Dewey Whole-genome alignments and polytopes for comparative genomics
CN113674799B (zh) 一种基因网络数量性状定位检测方法和系统
CN109754845B (zh) 模拟目标疾病仿真测序文库的方法及其应用
CN111383714B (zh) 模拟目标疾病仿真测序文库的方法及其应用
CN109935275B (zh) 序列变异校验方法和装置、生产变异序列的方法和装置及电子设备
Simpson Efficient sequence assembly and variant calling using compressed data structures
WO2016143062A1 (ja) 配列データ解析装置、dna解析システムおよび配列データ解析方法
Kulp Protein-coding gene structure prediction using generalized hidden Markov models
Kindlund et al. GRAT—genome-scale rapid alignment tool
Rescheneder Fast, accurate and user-friendly alignment of short and long read data with high mismatch rates
Chen et al. SECNVs: A Simulator of Copy Number Variants and Whole-Exome Sequences From Reference Genomes
CN108256290A (zh) 一种计算基因突变检测分析流程误差和误差率的方法
Chaisson Combinatorial methods in computational genomics: mammalian phylogenetics using microinversions and fragment assembly with short reads

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240402

Address after: Room 701, Unit 2, Building 8, No. 88 Kechuang 6th Street, Beijing Economic and Technological Development Zone, Daxing District, Beijing, 100176

Patentee after: ANNOROAD GENE TECHNOLOGY (BEIJING) Co.,Ltd.

Country or region after: China

Patentee after: BEIJING ANNOROAD MEDICAL LABORATORY Co.,Ltd.

Address before: 322000, 1st Floor, Building 2, Standard Factory Building, No. 10 Gaoxin Road, Zhujiang Street, Yiwu City, Jinhua City, Zhejiang Province

Patentee before: ZHEJIANG ANNOROAD BIO-TECHNOLOGY Co.,Ltd.

Country or region before: China

Patentee before: ANNOROAD GENE TECHNOLOGY (BEIJING) Co.,Ltd.

TR01 Transfer of patent right