CN116469468B - 一种基于贝叶斯模型的编辑基因载体残留检测方法和系统 - Google Patents
一种基于贝叶斯模型的编辑基因载体残留检测方法和系统 Download PDFInfo
- Publication number
- CN116469468B CN116469468B CN202310687322.7A CN202310687322A CN116469468B CN 116469468 B CN116469468 B CN 116469468B CN 202310687322 A CN202310687322 A CN 202310687322A CN 116469468 B CN116469468 B CN 116469468B
- Authority
- CN
- China
- Prior art keywords
- sequence
- genome sequence
- sequencing
- carrier
- editing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 25
- 238000001514 detection method Methods 0.000 title claims abstract description 16
- 239000000463 material Substances 0.000 claims abstract description 252
- 238000012163 sequencing technique Methods 0.000 claims abstract description 114
- 239000013598 vector Substances 0.000 claims abstract description 81
- 238000012216 screening Methods 0.000 claims abstract description 39
- 239000012634 fragment Substances 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000012165 high-throughput sequencing Methods 0.000 claims description 23
- 238000013537 high throughput screening Methods 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 4
- 230000000717 retained effect Effects 0.000 claims description 4
- 238000010362 genome editing Methods 0.000 abstract description 7
- 239000000443 aerosol Substances 0.000 abstract description 5
- 238000002474 experimental method Methods 0.000 abstract description 5
- 238000011156 evaluation Methods 0.000 abstract description 4
- 108091081062 Repeated sequence (DNA) Proteins 0.000 abstract description 3
- 238000012070 whole genome sequencing analysis Methods 0.000 abstract description 3
- 238000012864 cross contamination Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 238000013100 final test Methods 0.000 abstract description 2
- 230000009467 reduction Effects 0.000 abstract description 2
- 241000196324 Embryophyta Species 0.000 description 26
- 238000011109 contamination Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 241000894007 species Species 0.000 description 8
- 238000013515 script Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 241000209094 Oryza Species 0.000 description 3
- 235000007164 Oryza sativa Nutrition 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 235000009566 rice Nutrition 0.000 description 3
- 230000009897 systematic effect Effects 0.000 description 3
- 108020004414 DNA Proteins 0.000 description 2
- 238000007400 DNA extraction Methods 0.000 description 2
- 238000012408 PCR amplification Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 230000009191 jumping Effects 0.000 description 2
- 239000013642 negative control Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000589158 Agrobacterium Species 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001890 transfection Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
- G16B5/20—Probabilistic models
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Molecular Biology (AREA)
- Physiology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明请求保护一种基于贝叶斯模型的编辑基因载体残留检测方法和系统,通过全基因组测序数据,依靠数据比对,结合比对质量、同源区域,野生材料降低背景噪音等多种筛选方式,并将最后试验材料剩余的载体测序片段数目与贝叶斯概率模型进行科学融合,推断编辑材料的载体残留情况更为科学有效,充分考虑了重复序列,同源序列,载体中会使用植物同源的启动子。由于实验中会有气溶胶污染,测序中会有测序标签交叉污染等情况,本发明进一步推动基因编辑材料的安全性评价。本发明的技术效果包括利用了大规模高通量的检测手段,综合考虑各种污染情况,更有效地推断编辑材料的载体残留情况,更科学地评价基因编辑材料的安全性。
Description
技术领域
本发明属于生物技术领域,具体的涉及一种基于贝叶斯模型的编辑基因载体残留检测方法和系统。
背景技术
高通量测序由于其短周期和低成本的优势,目前在肿瘤诊断,遗传病检测,新生儿筛查等方向上广泛应用,但是基因编辑方向上使用高通量测序数据进行检测的方法和算法并不多见。尤其是在植物方向,由于植物进行基因编辑时候会通过载体(如农杆菌转染)将外源序列导入到植物本体基因组中,表达相关基因编辑的蛋白质和靶点,对目标区域的DNA进行改变。在后期的多代回交中纯化过滤载体序列。基因组中存在大量重复序列,同源序列,载体中会使用植物同源的启动子,实验中会有气溶胶污染,测序中会有测序标签交叉污染等情况。所以如何利用高通量测序技术评价编辑植物的基因组中是否有载体相关序列残留需要系统的方法和算法。
目前对于载体残留情况评价采用,传统的PCR方式进行,利用随机在载体骨架序列上进行引物设计,然后在编辑植物中进行PCR实验,观察是否能够获得PCR产物序列,从而确认载体是否残留。
1、传统使用具有局限性,无法对载体序列进行全面检查,随机抽查,会导致最终判定结果不准确。
2.传统方法,需要繁琐的引物设计与分子实验,无法进行大规模高通量筛查。
3.传统方法,并没有综合考虑试验操作系统及环境污染,取样污染等情况。
4.早期高通量测序方法,无系统的分析方法和算法,只是简单统计载体残留的测序片段 数目,不符合统计学意义的显著性。
发明内容
针对上述缺点,首先利用高通量测序手段,通过一次全基因组测序,获得该个体的全部基因组序列信息,可以在短时间内对大量植物进行同时检测,大大提高了检测通量;通过多种筛选手段后的数据,尽可能排除实验操作、实验环境及系统引入的误差,借助贝叶斯概率模型,结合统计学的显著性值,科学有效地推断编辑材料是否安全,大大加快编辑材料的安全评价进程。
根据本发明第一方面,本发明请求保护一种基于贝叶斯模型的编辑基因载体残留检测方法,包括:
获取编辑材料基因组序列和野生材料基因组序列,构建样本数据库,将所述编辑材料基因组序列和野生材料基因组序列存入所述样本数据库中;
提取所述编辑材料基因组序列和野生材料基因组序列,进行高通量测序,得到测序编辑材料基因组序列和测序野生材料基因组序列;
将所述测序编辑材料基因组序列和测序野生材料基因组序列依次分别与植物基因组与载体序列进行比对,得到候选编辑材料基因组序列和候选野生材料基因组序列;
依据所述候选野生材料基因组序列对所述候选编辑材料基因组序列进行筛选,得到编辑材料基因组序列中载体序列残留的数据条数;
将所述载体序列残留的数据条数输入载体残留贝叶斯概率模型,得到编辑材料存在载体序列残留的概率。
根据本发明第二方面,本发明请求保护一种基于贝叶斯模型的编辑基因载体残留检测系统,包括:
样本数据库,存储编辑材料基因组序列和野生材料基因组序列;
高通量测序模块,提取所述编辑材料基因组序列和野生材料基因组序列,进行高通量测序,得到测序编辑材料基因组序列和测序野生材料基因组序列;
比对模块,将所述测序编辑材料基因组序列和测序野生材料基因组序列依次分别与植物基因组与载体序列进行比对,得到候选编辑材料基因组序列和候选野生材料基因组序列;
筛选模块,依据所述候选野生材料基因组序列对所述候选编辑材料基因组序列进行筛选,得到编辑材料基因组序列中载体序列残留的数据条数;
概率输出模块,将所述载体序列残留的数据条数输入载体残留贝叶斯概率模型,得到编辑材料存在载体序列残留的概率。
本发明请求保护一种基于贝叶斯模型的编辑基因载体残留检测方法和系统,通过全基因组测序数据,依靠数据比对,结合比对质量、同源区域、野生材料基因组序列降低背景噪音等多种筛选方式,并将最后试验材料剩余的载体测序片段数目与贝叶斯概率模型进行科学融合,推断编辑材料的载体残留情况更为科学有效,充分考虑了重复序列,同源序列,载体中会使用植物同源的启动子。由于实验中会有气溶胶污染,测序中会有测序标签交叉污染等情况,本发明进一步推动基因编辑材料的安全性评价。本发明的技术效果包括实现了大规模高通量的检测,综合考虑各种污染情况,更有效地推断编辑材料的载体残留情况,更科学地评价基因编辑材料的安全性。
附图说明
图1为本发明所请求保护的一种基于贝叶斯模型的编辑基因载体残留检测方法的工作流程图。
图2为本发明所请求保护的一种基于贝叶斯模型的编辑基因载体残留检测方法的第二工作流程图。
图3为本发明所请求保护的一种基于贝叶斯模型的编辑基因载体残留检测方法的第三工作流程图。
图4为本发明所请求保护的一种基于贝叶斯模型的编辑基因载体残留检测方法的第四工作流程图。
图5为本发明所请求保护的一种基于贝叶斯模型的编辑基因载体残留检测系统的结构模块图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序运转,和/或并行运转。此外,方法实施方式可以包括附加的步骤和/或省略运转示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
参照附图1,根据本发明第一实施例,本发明请求保护一种基于贝叶斯模型的编辑基因载体残留检测方法,包括:
获取编辑材料基因组序列和野生材料基因组序列,构建样本数据库,将所述编辑材料基因组序列和野生材料基因组序列存入所述样本数据库中;
提取所述编辑材料基因组序列和野生材料基因组序列,进行高通量测序,得到测序编辑材料基因组序列和测序野生材料基因组序列;
将所述测序编辑材料基因组序列和测序野生材料基因组序列依次分别与植物基因组与载体序列进行比对,得到候选编辑材料基因组序列和候选野生材料基因组序列;
依据所述候选野生材料基因组序列对所述候选编辑材料基因组序列进行筛选,得到编辑材料基因组序列中载体序列残留的数据条数;
将所述载体序列残留的数据条数输入载体残留贝叶斯概率模型,得到编辑材料存在载体序列残留的概率。
植物基因组序列(参考基因组)是连续的碱基组成,通常由几百上千MB连续的碱基组成,重测序数据利用高通量测序仪获得,高通量测序仪一般测序片段长度为150bp(1MB=1000Kb=1000000bp),一次测序可以获得近千万条150bp左右的Reads(测序片段)。由于Reads(测序片段)长度较短,且数量巨大,通常是需要通过公开的处理软件,进行质量过滤,比对等操作。
其中,在该实施例中,利用编辑材料和野生材料进行建库和测序。从下机原始数据开始对数据进行处理。
进一步地,参照图2,所述提取所述编辑材料基因组序列和野生材料基因组序列,进行高通量测序,得到测序编辑材料基因组序列和测序野生材料基因组序列,具体包括:
提取所述编辑材料基因组序列和野生材料基因组序列,进行高通量测序后通过Trimmomatic软件, 对测序质量低的测序片段进行筛选、清洗并去掉测序接头;
借助fastqc软件及采用自建脚本及流程,通过数据量,GC比例,Q20比例,Q30比例对测序数据质量进行进一步评估,得到测序编辑材料基因组序列和测序野生材料基因组序列。
其中,在该实施例中,GC表示一条测序数据中G/C两个碱基的含量;
Q20比例表示,测序碱基的质量大于20的比例;碱基测序质量20表示的该碱基的错误率1%;
Q30比例表示,测序碱基的质量大于30的比例;碱基测序质量30表示的该碱基的错误率0.1%
上述指标通常是测序好坏的评价指标,用于数据基础质量展示。
fastqc是评价测序质量的软件,该软件会图形化展示测序读长内的每个碱基的质量分布,测序长度分布,测序污染等情况。
具体的,通过fastqc软件,对测序数据质量进行进一步评估,该软件评估每条测序片段(Read)的每个碱基的测序质量值,测序片段长度,是否存在测序污染等情况,并以图形化的方式展示。
具体的,例如在该实施例中使用fastq对一条示例性的Read进行评估,格式测序数据如下:
@M08128:80:000000000-GG576:1:1101:12494:10053 2:N:0:ACTTGAAT+CTGAAGCT
TAGGTGGGCAAGAACAGAGGGCCCACAGCGCCACGAGGTGTCCTGGGTTCTTGAACTCTGGAATCCCACACTTGCTAGCAGGTCAAAAGTTCCATGCTCCTTGAGATTACGAGTGATTGTGTAAACCCAGGCCTGA
+
AB@?ADABBFBBGGGGGGGGGGGGGGGHHGGGGGGCFGGHHHHHHGGAFFHHHHHHHGHFHHHHHHHHHGGHHHHHHHHHHHGHHHHHHHGHHHHHHHHHHHHHGHHHHHGGCGEHHHHHHGHHHHHGFFFHGHGH
进一步地,参照附图3,所述测序编辑材料基因组序列和测序野生材料基因组序列依次分别与植物基因组与载体序列进行比对,得到候选编辑材料基因组序列和候选野生材料基因组序列,具体包括:
采用bwa比对软件,将所述测序编辑材料基因组序列和测序野生材料基因组序列比对到植物基因组与载体序列上,得到多份所述材料的多个bam文件;
通过samtools 软件统计所述材料的比对率,将单份材料的多个bam文件进行合并,排序及索引构建,得到候选编辑材料基因组序列和候选野生材料基因组序列。
所述bam文件高通量数据处理的标准文件,其主要记录每一条测序片段在基因组上的位置,比对情况,比对次数等信息;
比对率统计指代的是统计有多少比例的测序片段(Read)能够比对上参考基因组,旨在检测是否存在材料污染的情况。
合并比对文件指代将比对上植物基因组和载体的结果文件进行合并,方便后续过滤。
其中,在该实施例中,植物基因组是指通过前期基因组Denvo(从头组装)获得的该类植物的基因组。
例如,水稻存在公布的日本晴品种基因组(http://rice.uga.edu/)。水稻种能够作为比对使用的参考基因组非常多,目前超过50个。通常本发明选择遗传背景与编辑植物更相似的参考基因组,或者使用该物种最常用的基因组。与植物基因组与载体序列分别比对是为了进一步降低计算复杂度,减少计算消耗,方便后续进行数据过滤,指标统计,结果推断等。
进一步地,参照附图4,所述依据所述候选野生材料基因组序列对所述候选编辑材料基因组序列进行筛选,得到编辑材料基因组序列中载体序列残留的数据条数,还包括:
通过自建脚本对所述候选编辑材料基因组序列进行同源筛选;得到编辑材料第一基因组序列;
通过picard软件对所述编辑材料第一基因组序列进行PCR duplicate筛选,得到编辑材料第二基因组序列;
将所述候选野生材料基因组序列作为背景信息,对所述编辑材料第二基因组序列进行背景筛选,得到编辑材料载体序列残留的数据条数。
其中,在该实施例中,进行同源筛选由于同一条测序片段(Read)既能比对到植物基因组,同时比对到载体序列上,原因为载体序列和植物基因组有一段相同的序列,无法区分这条测序片段(Read)真实比对位置,会影响判断编辑材料是否存在载体残留,通过脚本将其过滤,同源过滤截图如下。
PCR duplicate筛选:高通量测序过程中,存在PCR扩增这一过程,不可避免会有PCR产生的重复测序片段,这些测序片段的多少并不代表载体残留的量,只是测序手段引起的系统误差,所以需要标记出来并筛选。
测序前,需要对植物DNA进行建库。在建库过程中,由于本身提取的DNA量比较少,需要PCR扩增才能进行后续的测序。建库过程中,不可避免会引起PCR duplicate的发生,即PCR duplication是多个完全一致的测序片段(Read),碱基序列相同,比对到基因组的位置相同,比对方向相同。
PCR duplication不属于有效数据,通过软件picard进行过滤。
背景筛选:我们使用的参考基因组往往不是编辑材料本身或者相同品种的参考基因组。所以在测序中我们分别测序野生型和编辑材料。如果在载体上出现的测序片段,野生型和编辑材料同时具备,那么可能是该材料本身具有的一些同源片段。
野生材料属于阴性对照,存在于阴性对照材料的载体测序片段(Read),均由于实验污染或者受体材料的遗传背景与植物参考基因组差异引起。对野生材料和编辑材料测序数据分析,标记野生材料存在载体残留的区域,将编辑材料此区域内的测序片段(Read)通过脚本进行过滤。
其中,在该实施例中,贝叶斯概率模型进行推断,得到编辑材料存在载体序列残留的概率。
所述贝叶斯概率模型如下:
H0假设:编辑材料存在载体残留
H1假设:编辑材料不存在载体残留
如下是条件概率公式:
如下是贝叶斯概率模型:
将“载体插入”作A事件,“试验材料载体的测序片段数目”作B事件,导入到上述贝叶斯概率公式。
进一步地,将所述载体序列残留的数据条数输入载体残留贝叶斯概率模型,得到编辑材料存在载体序列残留的概率,具体包括:
所述载体残留贝叶斯概率模型的公式为:
;
;
;
表示载体残留事件;
表示在观测到n条测序片段比对到载体时编辑材料存
在载体序列残留的概率;
表示在载体残留事件后,观察到N条测序片段的概率;
表示无载体残留事件;
为载体的长度,单位bp;
为编辑材料的全基因组平均测序深度,单位为乘(X)
为载体发生残留的概率,假设为0.5;
为载体未发生残留的概率,假设为0.5;
为编辑材料载体序列残留的数据条数;
为载体发生残留,序列已经保留在植物基因组,理论上测序
测序片段数目;
包括实验室的气溶胶污染,提取DNA过程污染、建库环境污染,测序错误,
测序仪“标签跳跃(Index hooping)”事件的概率值,其范围为0.001-0.005,优选为0.001。
当所述编辑材料存在载体序列残留的概率小于5%,推断所述编辑材料不存在载体序列残留。
当所述编辑材料存在载体序列残留的概率小于5%,推断所述编辑材料不存在载体序列残留。
依据本方案,参照表1-表6对在后期的多代回交中纯化掉载体序列的多个物种进行载体序列残留检测,进一步验证了本方案检测的准确性。
表1 物种1 T1世代编辑材料载体残留概率
表2 物种1 T5世代编辑材料载体残留概率
表3 物种2 T1世代编辑材料载体残留概率
表4 物种2 T5世代编辑材料载体残留概率
表5 物种3 T1世代编辑材料载体残留概率
表6 物种3 T5世代编辑材料载体残留概率
根据本发明第二实施例,参照附图5,本发明请求保护一种基于贝叶斯模型的编辑基因载体残留检测系统,包括:
样本数据库,存储编辑材料基因组序列和野生材料基因组序列;
高通量测序模块,提取所述编辑材料基因组序列和野生材料基因组序列,进行高通量测序,得到测序编辑材料基因组序列和测序野生材料基因组序列;
比对模块,将所述测序编辑材料基因组序列和测序野生材料基因组序列依次分别与植物基因组与载体序列进行比对,得到候选编辑材料基因组序列和候选野生材料基因组序列;
筛选模块,依据所述候选野生材料基因组序列对所述候选编辑材料基因组序列进行筛选,得到编辑材料基因组序列中载体序列残留的数据条数;
概率输出模块,将所述载体序列残留的数据条数输入载体残留贝叶斯概率模型,得到编辑材料存在载体序列残留的概率。
进一步地,所述高通量测序模块,具体包括:
提取所述编辑材料基因组序列和野生材料基因组序列,进行高通量测序后通过Trimmomatic软件, 对测序质量低的测序片段进行筛选、清洗并去掉测序接头;
借助fastqc软件及采用自建脚本及流程,通过数据量,GC比例,Q20比例,Q30比例对测序数据质量进行进一步评估,得到测序编辑材料基因组序列和测序野生材料基因组序列。
进一步地,所述比对模块,具体包括:
采用bwa比对软件,将所述测序编辑材料基因组序列和测序野生材料基因组序列比对到植物基因组与载体序列上,得到多份所述材料的多个bam文件;
通过samtools 软件统计所述材料的比对率,将单份材料的多个bam文件进行合并,排序及索引构建,得到候选编辑材料基因组序列和候选野生材料基因组序列。
进一步地,所述筛选模块,还包括:
通过自建脚本对所述候选编辑材料基因组序列进行同源筛选,得到编辑材料第一基因组序列;
通过picard软件对所述编辑材料第一基因组序列进行PCR duplicate筛选,得到编辑材料第二基因组序列;
将所述候选野生材料基因组序列作为背景信息,对所述编辑材料第二基因组序列进行背景筛选,得到编辑材料载体序列残留的数据条数。
进一步地,所述概率输出模块,具体包括:
所述载体残留贝叶斯概率模型的公式为:
;
;
;
表示载体残留事件;
表示在观测到n条测序片段比对到载体时编辑材料存
在载体序列残留的概率;
表示在载体残留事件后,观察到N条测序片段的概率;
表示无载体残留事件;
为载体的长度,单位bp;
为编辑材料的全基因组平均测序深度,单位为乘(X);
为载体发生残留的概率,假设为0.5;
为载体未发生残留的概率,假设为0.5;
为编辑材料载体序列残留的数据条数;
为载体发生残留,序列已经保留在植物基因组,理论上测序
测序片段数目;
包括实验室的气溶胶污染,提取DNA过程污染、建库环境污染,测序错误,
测序仪“标签跳跃(Index hooping)”事件的概率值,其范围为0.001-0.005,优选为0.001。
当所述编辑材料存在载体序列残留的概率小于5%,推断所述编辑材料不存在载体序列残留。
本领域技术人员能够理解,本公开所披露的内容可以出现多种变型和改进。例如,以上所描述的各种设备或组件可以通过硬件实现,也可以通过软件、固件、或者三者中的一些或全部的组合实现。
本公开中使用了流程图用来说明根据本公开的实施例的方法的步骤。应当理解的是,前面或后面的步骤不一定按照顺序来精确的进行。相反,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中。
本领域普通技术人员可以理解上述方法中的全部或部分的步骤可通过计算机程序来指令相关硬件完成,程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本公开并不限制于任何特定形式的硬件和软件的结合。
除非另有定义,这里使用的所有术语具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
以上是对本公开的说明,而不应被认为是对其的限制。尽管描述了本公开的若干示例性实施例,但本领域技术人员将容易地理解,在不背离本公开的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此,所有这些修改都意图包含在权利要求书所限定的本公开范围内。应当理解,上面是对本公开的说明,而不应被认为是限于所公开的特定实施例,并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本公开由权利要求书及其等效物限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (10)
1.一种基于贝叶斯模型的编辑基因载体残留检测方法,其特征在于,包括:
获取编辑材料基因组序列和野生材料基因组序列,构建样本数据库,将所述编辑材料基因组序列和野生材料基因组序列存入所述样本数据库中;
提取所述编辑材料基因组序列和野生材料基因组序列,进行高通量测序,得到测序编辑材料基因组序列和测序野生材料基因组序列;
将所述测序编辑材料基因组序列与植物基因组序列、载体序列进行比对,得到候选编辑材料基因组序列;
将所述测序野生材料基因组序列与植物基因组序列、载体序列进行比对,得到候选野生材料基因组序列;
依据所述候选野生材料基因组序列对所述候选编辑材料基因组序列进行筛选,得到编辑材料基因组序列中载体序列残留的数据条数;
将所述载体序列残留的数据条数输入载体残留贝叶斯概率模型,得到编辑材料存在载体序列残留的概率;
所述筛选包括依次进行同源筛选、PCR duplicate筛选、背景筛选;
所述载体残留贝叶斯概率模型的输入还包括载体的长度、编辑材料的全基因组平均测序深度、其他污染的概率值;
所述载体残留贝叶斯概率模型的输出为观测到n条测序片段比对到载体时编辑材料存在载体序列残留的概率。
2.如权利要求1所述的一种基于贝叶斯模型的编辑基因载体残留检测方法,其特征在于,
所述提取所述编辑材料基因组序列和野生材料基因组序列,进行高通量测序,得到测序编辑材料基因组序列和测序野生材料基因组序列,具体包括:
提取所述编辑材料基因组序列和野生材料基因组序列,进行高通量测序后通过Trimmomatic软件, 对测序质量低的测序片段进行筛选、清洗并去掉测序接头;
借助fastqc软件,通过数据量,GC比例,Q20比例,Q30比例对测序数据质量进行进一步评估,得到测序编辑材料基因组序列和测序野生材料基因组序列。
3.如权利要求1所述的一种基于贝叶斯模型的编辑基因载体残留检测方法,其特征在于,
将所述测序编辑材料基因组序列与植物基因组序列、载体序列进行比对,得到候选编辑材料基因组序列;将所述测序野生材料基因组序列与植物基因组序列、载体序列进行比对,得到候选野生材料基因组序列;
具体包括:
采用bwa比对软件,将所述测序编辑材料基因组序列和测序野生材料基因组序列比对到植物基因组与载体序列上,得到多份所述材料的多个bam文件;
通过samtools软件统计所述材料的比对率,将单份材料的多个bam文件进行合并,排序及索引构建,得到候选编辑材料基因组序列和候选野生材料基因组序列。
4.如权利要求1所述的一种基于贝叶斯模型的编辑基因载体残留检测方法,其特征在于,
所述依据所述候选野生材料基因组序列对所述候选编辑材料基因组序列进行筛选,得到编辑材料基因组序列中载体序列残留的数据条数,还包括:
对所述候选编辑材料基因组序列进行同源筛选,得到编辑材料第一基因组序列;
通过picard软件对所述编辑材料第一基因组序列进行PCR duplicate筛选,得到编辑材料第二基因组序列;
将所述候选野生材料基因组序列作为背景信息,对所述编辑材料第二基因组序列进行背景筛选,得到编辑材料载体序列残留的数据条数。
5.如权利要求1所述的一种基于贝叶斯模型的编辑基因载体残留检测方法,其特征在于,
将所述载体序列残留的数据条数输入载体残留贝叶斯概率模型,得到编辑材料存在载体序列残留的概率,具体包括:
所述载体残留贝叶斯概率模型的公式为:
;
;
;
表示载体残留事件;
表示在观测到n条测序片段比对到载体时编辑材料存在载体序列残留的概率;
表示在载体残留事件后,观察到N条测序片段的概率;
表示无载体残留事件;
为载体的长度,单位bp;
为编辑材料的全基因组平均测序深度,单位为乘;
为载体发生残留的概率,设置为0.5;
为载体未发生残留的概率,设置为0.5;
为编辑材料载体序列残留的数据条数;
为载体发生残留,序列已经保留在植物基因组,理论上测序片段数目;
为发生其他污染的概率值,其范围为0.001-0.005;
当所述编辑材料存在载体序列残留的概率小于5%,推断所述编辑材料不存在载体序列残留。
6.一种基于贝叶斯模型的编辑基因载体残留检测系统,其特征在于,包括:
样本数据库,存储编辑材料基因组序列和野生材料基因组序列;
高通量测序模块,提取所述编辑材料基因组序列和野生材料基因组序列,进行高通量测序,得到测序编辑材料基因组序列和测序野生材料基因组序列;
比对模块,将所述测序编辑材料基因组序列与植物基因组序列、载体序列进行比对,得到候选编辑材料基因组序列;将所述测序野生材料基因组序列与植物基因组序列、载体序列进行比对,得到候选野生材料基因组序列;
筛选模块,依据所述候选野生材料基因组序列对所述候选编辑材料基因组序列进行筛选,得到编辑材料基因组序列中载体序列残留的数据条数;
概率输出模块,将所述载体序列残留的数据条数输入载体残留贝叶斯概率模型,得到编辑材料存在载体序列残留的概率;
所述筛选包括依次进行同源筛选、PCR duplicate筛选、背景筛选;
所述载体残留贝叶斯概率模型的输入还包括载体的长度、编辑材料的全基因组平均测序深度、其他污染的概率值;
所述载体残留贝叶斯概率模型的输出为观测到n条测序片段比对到载体时编辑材料存在载体序列残留的概率。
7.如权利要求6所述的一种基于贝叶斯模型的编辑基因载体残留检测系统,其特征在于
所述高通量测序模块,具体包括:
提取所述编辑材料基因组序列和野生材料基因组序列,进行高通量测序后通过Trimmomatic软件, 对测序质量低的测序片段进行筛选、清洗并去掉测序接头;
借助fastqc软件,通过数据量,GC比例,Q20比例,Q30比例对测序数据质量进行进一步评估,得到测序编辑材料基因组序列和测序野生材料基因组序列。
8.如权利要求7所述的一种基于贝叶斯模型的编辑基因载体残留检测系统,其特征在于,
所述比对模块,具体包括:
采用bwa比对软件,将所述测序编辑材料基因组序列和测序野生材料基因组序列比对到植物基因组与载体序列上,得到多份所述材料的多个bam文件;
通过samtools 软件统计所述材料的比对率,将单份材料的多个bam文件进行合并,排序及索引构建,得到候选编辑材料基因组序列和候选野生材料基因组序列。
9.如权利要求8所述的一种基于贝叶斯模型的编辑基因载体残留检测系统,其特征在于,
所述筛选模块,还包括:
对所述候选编辑材料基因组序列进行同源筛选,得到编辑材料第一基因组序列;
通过picard软件对所述编辑材料第一基因组序列进行PCR duplicate筛选,得到编辑材料第二基因组序列;
将所述候选野生材料基因组序列作为背景信息,对所述编辑材料第二基因组序列进行背景筛选,得到编辑材料载体序列残留的数据条数。
10.如权利要求9所述的一种基于贝叶斯模型的编辑基因载体残留检测系统,其特征在于,
所述概率输出模块,具体包括:
所述载体残留贝叶斯概率模型的公式为:
;
;
;
表示载体残留事件;
表示在观测到n条测序片段比对到载体时编辑材料存在载体序列残留的概率;
表示在载体残留事件后,观察到N条测序片段的概率;
表示无载体残留事件;
为载体的长度,单位bp;
为编辑材料的全基因组平均测序深度,单位为乘;
为载体发生残留的概率,设置为0.5;
为载体未发生残留的概率,设置为0.5;
为编辑材料载体序列残留的数据条数;
为载体发生残留,序列已经保留在植物基因组,理论上测序片段数目;
为发生其他污染的概率值,其范围为0.001-0.005;
当所述编辑材料存在载体序列残留的概率小于5%,推断所述编辑材料不存在载体序列残留。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310687322.7A CN116469468B (zh) | 2023-06-12 | 2023-06-12 | 一种基于贝叶斯模型的编辑基因载体残留检测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310687322.7A CN116469468B (zh) | 2023-06-12 | 2023-06-12 | 一种基于贝叶斯模型的编辑基因载体残留检测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116469468A CN116469468A (zh) | 2023-07-21 |
CN116469468B true CN116469468B (zh) | 2023-09-19 |
Family
ID=87175697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310687322.7A Active CN116469468B (zh) | 2023-06-12 | 2023-06-12 | 一种基于贝叶斯模型的编辑基因载体残留检测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116469468B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110556165A (zh) * | 2019-09-12 | 2019-12-10 | 浙江大学 | 一种利用全基因组重测序数据快速鉴定转基因或基因编辑材料及其插入位点的方法 |
CN111278993A (zh) * | 2017-09-15 | 2020-06-12 | 加利福尼亚大学董事会 | 从无细胞核酸中检测体细胞单核苷酸变体并应用于微小残留病变监测 |
CN112094928A (zh) * | 2020-11-09 | 2020-12-18 | 天津科佰迪生物医药科技有限公司 | 一种用于检测昆虫细胞dna残留的引物、试剂盒及检测方法 |
CN112424360A (zh) * | 2018-06-08 | 2021-02-26 | 法兰克福大学 | 用固定的向导rna对生成基因编辑载体的方法 |
WO2022006195A1 (en) * | 2020-06-30 | 2022-01-06 | Virginia Commonwealth University | Methods for the detection of length polymorphisms |
CN114277190A (zh) * | 2021-12-31 | 2022-04-05 | 安徽中盛溯源生物科技有限公司 | 一种hiPSC中外源基因残留检测用特异性DNA片段、引物、试剂盒和检测方法 |
WO2022147420A1 (en) * | 2020-12-30 | 2022-07-07 | Guardant Health, Inc. | Detection of epigenetic status using sequence-specific degradation |
CN115135143A (zh) * | 2020-02-11 | 2022-09-30 | 先锋国际良种公司 | 用于植物细胞基因组的多重编辑的方法和组合物 |
CN115927447A (zh) * | 2022-08-23 | 2023-04-07 | 广东省农业科学院果树研究所 | 一种无转基因残留基因编辑载体、构建方法及应用 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140143188A1 (en) * | 2012-11-16 | 2014-05-22 | Genformatic, Llc | Method of machine learning, employing bayesian latent class inference: combining multiple genomic feature detection algorithms to produce an integrated genomic feature set with specificity, sensitivity and accuracy |
EP3990659A4 (en) * | 2019-06-25 | 2023-07-26 | The Translational Genomics Research Institute | DETECTION AND TREATMENT OF RESIDUAL DISEASE USING CIRCULATING TUMOR DNA ANALYSIS |
EP4004238A1 (en) * | 2019-07-23 | 2022-06-01 | Grail, LLC | Systems and methods for determining tumor fraction |
-
2023
- 2023-06-12 CN CN202310687322.7A patent/CN116469468B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111278993A (zh) * | 2017-09-15 | 2020-06-12 | 加利福尼亚大学董事会 | 从无细胞核酸中检测体细胞单核苷酸变体并应用于微小残留病变监测 |
CN112424360A (zh) * | 2018-06-08 | 2021-02-26 | 法兰克福大学 | 用固定的向导rna对生成基因编辑载体的方法 |
CN110556165A (zh) * | 2019-09-12 | 2019-12-10 | 浙江大学 | 一种利用全基因组重测序数据快速鉴定转基因或基因编辑材料及其插入位点的方法 |
CN115135143A (zh) * | 2020-02-11 | 2022-09-30 | 先锋国际良种公司 | 用于植物细胞基因组的多重编辑的方法和组合物 |
WO2022006195A1 (en) * | 2020-06-30 | 2022-01-06 | Virginia Commonwealth University | Methods for the detection of length polymorphisms |
CN112094928A (zh) * | 2020-11-09 | 2020-12-18 | 天津科佰迪生物医药科技有限公司 | 一种用于检测昆虫细胞dna残留的引物、试剂盒及检测方法 |
WO2022147420A1 (en) * | 2020-12-30 | 2022-07-07 | Guardant Health, Inc. | Detection of epigenetic status using sequence-specific degradation |
CN114277190A (zh) * | 2021-12-31 | 2022-04-05 | 安徽中盛溯源生物科技有限公司 | 一种hiPSC中外源基因残留检测用特异性DNA片段、引物、试剂盒和检测方法 |
CN115927447A (zh) * | 2022-08-23 | 2023-04-07 | 广东省农业科学院果树研究所 | 一种无转基因残留基因编辑载体、构建方法及应用 |
Also Published As
Publication number | Publication date |
---|---|
CN116469468A (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Hi-TOM: a platform for high-throughput tracking of mutations induced by CRISPR/Cas systems | |
CN111951895B (zh) | 基于宏基因组学的病原分析方法、分析装置、设备及存储介质 | |
SA517381091B1 (ar) | طرق وأنظمة لتحليل بيانات توالي الحمض النووي | |
CN113160882B (zh) | 一种基于三代测序的病原微生物宏基因组检测方法 | |
CN111341383B (zh) | 一种检测拷贝数变异的方法、装置和存储介质 | |
CN111718982A (zh) | 一种肿瘤组织单样本体细胞突变检测方法及装置 | |
KR20140006846A (ko) | Dna 서열의 데이터 분석 | |
CN113249453B (zh) | 一种检测拷贝数变化的方法 | |
CN105950707A (zh) | 一种确定核酸序列的方法及系统 | |
CN107832584B (zh) | 宏基因组的基因分析方法、装置、设备及存储介质 | |
US20220336051A1 (en) | Method for Determining Relatedness of Genomic Samples Using Partial Sequence Information | |
CN109949866B (zh) | 病原体操作组的检测方法、装置、计算机设备和存储介质 | |
CN109524060B (zh) | 一种遗传病风险提示的基因测序数据处理系统与处理方法 | |
CN109461473B (zh) | 胎儿游离dna浓度获取方法和装置 | |
CN114530199A (zh) | 基于双重测序数据检测低频突变的方法、装置及存储介质 | |
CN116469468B (zh) | 一种基于贝叶斯模型的编辑基因载体残留检测方法和系统 | |
CN116312779A (zh) | 检测样本污染和识别样本错配的方法和装置 | |
Kaiser et al. | Automated structural variant verification in human genomes using single-molecule electronic DNA mapping | |
JP2008161056A (ja) | Dna配列解析装置、dna配列解析方法およびプログラム | |
US11001880B2 (en) | Development of SNP islands and application of SNP islands in genomic analysis | |
AlEisa et al. | K‐Mer Spectrum‐Based Error Correction Algorithm for Next‐Generation Sequencing Data | |
CN116646010B (zh) | 人源性病毒检测方法及装置、设备、存储介质 | |
Hesse | K-Mer-Based Genome Size Estimation in Theory and Practice | |
Moraga et al. | BrumiR: A toolkit for de novo discovery of microRNAs from sRNA-seq data | |
Hesse | Check Chapter 4 updates for |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |