CN116469468B

CN116469468B - 一种基于贝叶斯模型的编辑基因载体残留检测方法和系统

Info

Publication number: CN116469468B
Application number: CN202310687322.7A
Authority: CN
Inventors: 高强; 王志伟
Original assignee: Beijing Qiheshengke Biotechnology Co ltd
Current assignee: Beijing Qiheshengke Biotechnology Co ltd
Priority date: 2023-06-12
Filing date: 2023-06-12
Publication date: 2023-09-19
Anticipated expiration: 2043-06-12
Also published as: CN116469468A

Abstract

本发明请求保护一种基于贝叶斯模型的编辑基因载体残留检测方法和系统，通过全基因组测序数据，依靠数据比对，结合比对质量、同源区域，野生材料降低背景噪音等多种筛选方式，并将最后试验材料剩余的载体测序片段数目与贝叶斯概率模型进行科学融合，推断编辑材料的载体残留情况更为科学有效，充分考虑了重复序列，同源序列，载体中会使用植物同源的启动子。由于实验中会有气溶胶污染，测序中会有测序标签交叉污染等情况，本发明进一步推动基因编辑材料的安全性评价。本发明的技术效果包括利用了大规模高通量的检测手段，综合考虑各种污染情况，更有效地推断编辑材料的载体残留情况，更科学地评价基因编辑材料的安全性。

Description

一种基于贝叶斯模型的编辑基因载体残留检测方法和系统

技术领域

本发明属于生物技术领域，具体的涉及一种基于贝叶斯模型的编辑基因载体残留检测方法和系统。

背景技术

高通量测序由于其短周期和低成本的优势，目前在肿瘤诊断，遗传病检测，新生儿筛查等方向上广泛应用，但是基因编辑方向上使用高通量测序数据进行检测的方法和算法并不多见。尤其是在植物方向，由于植物进行基因编辑时候会通过载体（如农杆菌转染）将外源序列导入到植物本体基因组中，表达相关基因编辑的蛋白质和靶点，对目标区域的DNA进行改变。在后期的多代回交中纯化过滤载体序列。基因组中存在大量重复序列，同源序列，载体中会使用植物同源的启动子，实验中会有气溶胶污染，测序中会有测序标签交叉污染等情况。所以如何利用高通量测序技术评价编辑植物的基因组中是否有载体相关序列残留需要系统的方法和算法。

目前对于载体残留情况评价采用，传统的PCR方式进行，利用随机在载体骨架序列上进行引物设计，然后在编辑植物中进行PCR实验，观察是否能够获得PCR产物序列，从而确认载体是否残留。

1、传统使用具有局限性，无法对载体序列进行全面检查，随机抽查，会导致最终判定结果不准确。

2.传统方法，需要繁琐的引物设计与分子实验，无法进行大规模高通量筛查。

3.传统方法，并没有综合考虑试验操作系统及环境污染，取样污染等情况。

4.早期高通量测序方法，无系统的分析方法和算法，只是简单统计载体残留的测序片段数目，不符合统计学意义的显著性。

发明内容

针对上述缺点，首先利用高通量测序手段，通过一次全基因组测序，获得该个体的全部基因组序列信息，可以在短时间内对大量植物进行同时检测，大大提高了检测通量；通过多种筛选手段后的数据，尽可能排除实验操作、实验环境及系统引入的误差，借助贝叶斯概率模型，结合统计学的显著性值，科学有效地推断编辑材料是否安全，大大加快编辑材料的安全评价进程。

根据本发明第一方面，本发明请求保护一种基于贝叶斯模型的编辑基因载体残留检测方法，包括：

获取编辑材料基因组序列和野生材料基因组序列，构建样本数据库，将所述编辑材料基因组序列和野生材料基因组序列存入所述样本数据库中；

提取所述编辑材料基因组序列和野生材料基因组序列，进行高通量测序，得到测序编辑材料基因组序列和测序野生材料基因组序列；

将所述测序编辑材料基因组序列和测序野生材料基因组序列依次分别与植物基因组与载体序列进行比对，得到候选编辑材料基因组序列和候选野生材料基因组序列；

依据所述候选野生材料基因组序列对所述候选编辑材料基因组序列进行筛选，得到编辑材料基因组序列中载体序列残留的数据条数；

将所述载体序列残留的数据条数输入载体残留贝叶斯概率模型，得到编辑材料存在载体序列残留的概率。

根据本发明第二方面，本发明请求保护一种基于贝叶斯模型的编辑基因载体残留检测系统，包括：

样本数据库，存储编辑材料基因组序列和野生材料基因组序列；

高通量测序模块，提取所述编辑材料基因组序列和野生材料基因组序列，进行高通量测序，得到测序编辑材料基因组序列和测序野生材料基因组序列；

比对模块，将所述测序编辑材料基因组序列和测序野生材料基因组序列依次分别与植物基因组与载体序列进行比对，得到候选编辑材料基因组序列和候选野生材料基因组序列；

筛选模块，依据所述候选野生材料基因组序列对所述候选编辑材料基因组序列进行筛选，得到编辑材料基因组序列中载体序列残留的数据条数；

概率输出模块，将所述载体序列残留的数据条数输入载体残留贝叶斯概率模型，得到编辑材料存在载体序列残留的概率。

本发明请求保护一种基于贝叶斯模型的编辑基因载体残留检测方法和系统，通过全基因组测序数据，依靠数据比对，结合比对质量、同源区域、野生材料基因组序列降低背景噪音等多种筛选方式，并将最后试验材料剩余的载体测序片段数目与贝叶斯概率模型进行科学融合，推断编辑材料的载体残留情况更为科学有效，充分考虑了重复序列，同源序列，载体中会使用植物同源的启动子。由于实验中会有气溶胶污染，测序中会有测序标签交叉污染等情况，本发明进一步推动基因编辑材料的安全性评价。本发明的技术效果包括实现了大规模高通量的检测，综合考虑各种污染情况，更有效地推断编辑材料的载体残留情况，更科学地评价基因编辑材料的安全性。

附图说明

图1为本发明所请求保护的一种基于贝叶斯模型的编辑基因载体残留检测方法的工作流程图。

图2为本发明所请求保护的一种基于贝叶斯模型的编辑基因载体残留检测方法的第二工作流程图。

图3为本发明所请求保护的一种基于贝叶斯模型的编辑基因载体残留检测方法的第三工作流程图。

图4为本发明所请求保护的一种基于贝叶斯模型的编辑基因载体残留检测方法的第四工作流程图。

图5为本发明所请求保护的一种基于贝叶斯模型的编辑基因载体残留检测系统的结构模块图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序运转，和/或并行运转。此外，方法实施方式可以包括附加的步骤和/或省略运转示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

参照附图1，根据本发明第一实施例，本发明请求保护一种基于贝叶斯模型的编辑基因载体残留检测方法，包括：

植物基因组序列（参考基因组）是连续的碱基组成，通常由几百上千MB连续的碱基组成，重测序数据利用高通量测序仪获得，高通量测序仪一般测序片段长度为150bp（1MB=1000Kb=1000000bp），一次测序可以获得近千万条150bp左右的Reads(测序片段)。由于Reads(测序片段）长度较短，且数量巨大，通常是需要通过公开的处理软件，进行质量过滤，比对等操作。

其中，在该实施例中，利用编辑材料和野生材料进行建库和测序。从下机原始数据开始对数据进行处理。

进一步地，参照图2，所述提取所述编辑材料基因组序列和野生材料基因组序列，进行高通量测序，得到测序编辑材料基因组序列和测序野生材料基因组序列，具体包括：

提取所述编辑材料基因组序列和野生材料基因组序列，进行高通量测序后通过Trimmomatic软件, 对测序质量低的测序片段进行筛选、清洗并去掉测序接头；

借助fastqc软件及采用自建脚本及流程，通过数据量，GC比例，Q20比例，Q30比例对测序数据质量进行进一步评估，得到测序编辑材料基因组序列和测序野生材料基因组序列。

其中，在该实施例中，GC表示一条测序数据中G/C两个碱基的含量；

Q20比例表示，测序碱基的质量大于20的比例；碱基测序质量20表示的该碱基的错误率1%；

Q30比例表示，测序碱基的质量大于30的比例；碱基测序质量30表示的该碱基的错误率0.1%

上述指标通常是测序好坏的评价指标，用于数据基础质量展示。

fastqc是评价测序质量的软件，该软件会图形化展示测序读长内的每个碱基的质量分布，测序长度分布，测序污染等情况。

具体的，通过fastqc软件，对测序数据质量进行进一步评估，该软件评估每条测序片段（Read）的每个碱基的测序质量值，测序片段长度，是否存在测序污染等情况，并以图形化的方式展示。

具体的，例如在该实施例中使用fastq对一条示例性的Read进行评估，格式测序数据如下：

@M08128：80:000000000-GG576:1:1101:12494:10053 2:N:0:ACTTGAAT+CTGAAGCT

TAGGTGGGCAAGAACAGAGGGCCCACAGCGCCACGAGGTGTCCTGGGTTCTTGAACTCTGGAATCCCACACTTGCTAGCAGGTCAAAAGTTCCATGCTCCTTGAGATTACGAGTGATTGTGTAAACCCAGGCCTGA

+

AB@?ADABBFBBGGGGGGGGGGGGGGGHHGGGGGGCFGGHHHHHHGGAFFHHHHHHHGHFHHHHHHHHHGGHHHHHHHHHHHGHHHHHHHGHHHHHHHHHHHHHGHHHHHGGCGEHHHHHHGHHHHHGFFFHGHGH

进一步地，参照附图3，所述测序编辑材料基因组序列和测序野生材料基因组序列依次分别与植物基因组与载体序列进行比对，得到候选编辑材料基因组序列和候选野生材料基因组序列，具体包括：

采用bwa比对软件，将所述测序编辑材料基因组序列和测序野生材料基因组序列比对到植物基因组与载体序列上，得到多份所述材料的多个bam文件；

通过samtools 软件统计所述材料的比对率，将单份材料的多个bam文件进行合并，排序及索引构建，得到候选编辑材料基因组序列和候选野生材料基因组序列。

所述bam文件高通量数据处理的标准文件，其主要记录每一条测序片段在基因组上的位置，比对情况，比对次数等信息；

比对率统计指代的是统计有多少比例的测序片段（Read）能够比对上参考基因组，旨在检测是否存在材料污染的情况。

合并比对文件指代将比对上植物基因组和载体的结果文件进行合并，方便后续过滤。

其中，在该实施例中，植物基因组是指通过前期基因组Denvo（从头组装）获得的该类植物的基因组。

例如，水稻存在公布的日本晴品种基因组（http://rice.uga.edu/）。水稻种能够作为比对使用的参考基因组非常多，目前超过50个。通常本发明选择遗传背景与编辑植物更相似的参考基因组，或者使用该物种最常用的基因组。与植物基因组与载体序列分别比对是为了进一步降低计算复杂度，减少计算消耗，方便后续进行数据过滤，指标统计，结果推断等。

进一步地，参照附图4，所述依据所述候选野生材料基因组序列对所述候选编辑材料基因组序列进行筛选，得到编辑材料基因组序列中载体序列残留的数据条数，还包括：

通过自建脚本对所述候选编辑材料基因组序列进行同源筛选；得到编辑材料第一基因组序列；

通过picard软件对所述编辑材料第一基因组序列进行PCR duplicate筛选，得到编辑材料第二基因组序列；

将所述候选野生材料基因组序列作为背景信息，对所述编辑材料第二基因组序列进行背景筛选，得到编辑材料载体序列残留的数据条数。

其中，在该实施例中，进行同源筛选由于同一条测序片段（Read）既能比对到植物基因组，同时比对到载体序列上，原因为载体序列和植物基因组有一段相同的序列，无法区分这条测序片段（Read）真实比对位置，会影响判断编辑材料是否存在载体残留，通过脚本将其过滤，同源过滤截图如下。

PCR duplicate筛选：高通量测序过程中，存在PCR扩增这一过程，不可避免会有PCR产生的重复测序片段，这些测序片段的多少并不代表载体残留的量，只是测序手段引起的系统误差，所以需要标记出来并筛选。

测序前，需要对植物DNA进行建库。在建库过程中，由于本身提取的DNA量比较少，需要PCR扩增才能进行后续的测序。建库过程中，不可避免会引起PCR duplicate的发生，即PCR duplication是多个完全一致的测序片段（Read），碱基序列相同，比对到基因组的位置相同，比对方向相同。

PCR duplication不属于有效数据，通过软件picard进行过滤。

背景筛选：我们使用的参考基因组往往不是编辑材料本身或者相同品种的参考基因组。所以在测序中我们分别测序野生型和编辑材料。如果在载体上出现的测序片段，野生型和编辑材料同时具备，那么可能是该材料本身具有的一些同源片段。

野生材料属于阴性对照，存在于阴性对照材料的载体测序片段（Read），均由于实验污染或者受体材料的遗传背景与植物参考基因组差异引起。对野生材料和编辑材料测序数据分析，标记野生材料存在载体残留的区域，将编辑材料此区域内的测序片段（Read）通过脚本进行过滤。

其中，在该实施例中，贝叶斯概率模型进行推断，得到编辑材料存在载体序列残留的概率。

所述贝叶斯概率模型如下：

H0假设：编辑材料存在载体残留

H1假设：编辑材料不存在载体残留

如下是条件概率公式：

如下是贝叶斯概率模型：

将“载体插入”作A事件，“试验材料载体的测序片段数目”作B事件，导入到上述贝叶斯概率公式。

进一步地，将所述载体序列残留的数据条数输入载体残留贝叶斯概率模型，得到编辑材料存在载体序列残留的概率，具体包括：

所述载体残留贝叶斯概率模型的公式为：

；

表示载体残留事件；

表示在观测到n条测序片段比对到载体时编辑材料存在载体序列残留的概率；

表示在载体残留事件后，观察到N条测序片段的概率；

表示无载体残留事件；

为载体的长度，单位bp；

为编辑材料的全基因组平均测序深度，单位为乘（X）

为载体发生残留的概率，假设为0.5；

为载体未发生残留的概率，假设为0.5；

为编辑材料载体序列残留的数据条数；

为载体发生残留，序列已经保留在植物基因组，理论上测序测序片段数目；

包括实验室的气溶胶污染，提取DNA过程污染、建库环境污染，测序错误，测序仪“标签跳跃（Index hooping）”事件的概率值，其范围为0.001-0.005，优选为0.001。

当所述编辑材料存在载体序列残留的概率小于5%，推断所述编辑材料不存在载体序列残留。

依据本方案，参照表1-表6对在后期的多代回交中纯化掉载体序列的多个物种进行载体序列残留检测，进一步验证了本方案检测的准确性。

表1 物种1 T1世代编辑材料载体残留概率

表2 物种1 T5世代编辑材料载体残留概率

表3 物种2 T1世代编辑材料载体残留概率

表4 物种2 T5世代编辑材料载体残留概率

表5 物种3 T1世代编辑材料载体残留概率

表6 物种3 T5世代编辑材料载体残留概率

根据本发明第二实施例，参照附图5，本发明请求保护一种基于贝叶斯模型的编辑基因载体残留检测系统，包括：

进一步地，所述高通量测序模块，具体包括：

进一步地，所述比对模块，具体包括：

进一步地，所述筛选模块，还包括：

通过自建脚本对所述候选编辑材料基因组序列进行同源筛选，得到编辑材料第一基因组序列；

进一步地，所述概率输出模块，具体包括：

所述载体残留贝叶斯概率模型的公式为：

；

表示载体残留事件；

表示在载体残留事件后，观察到N条测序片段的概率；

表示无载体残留事件；

为载体的长度，单位bp；

为编辑材料的全基因组平均测序深度，单位为乘（X）；

为载体发生残留的概率，假设为0.5；

为载体未发生残留的概率，假设为0.5；

为编辑材料载体序列残留的数据条数；

本领域技术人员能够理解，本公开所披露的内容可以出现多种变型和改进。例如，以上所描述的各种设备或组件可以通过硬件实现，也可以通过软件、固件、或者三者中的一些或全部的组合实现。

本公开中使用了流程图用来说明根据本公开的实施例的方法的步骤。应当理解的是，前面或后面的步骤不一定按照顺序来精确的进行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中。

本领域普通技术人员可以理解上述方法中的全部或部分的步骤可通过计算机程序来指令相关硬件完成，程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本公开并不限制于任何特定形式的硬件和软件的结合。

除非另有定义，这里使用的所有术语具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

以上是对本公开的说明，而不应被认为是对其的限制。尽管描述了本公开的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本公开的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本公开范围内。应当理解，上面是对本公开的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本公开由权利要求书及其等效物限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于贝叶斯模型的编辑基因载体残留检测方法，其特征在于，包括：

将所述测序编辑材料基因组序列与植物基因组序列、载体序列进行比对，得到候选编辑材料基因组序列；

将所述测序野生材料基因组序列与植物基因组序列、载体序列进行比对，得到候选野生材料基因组序列；

将所述载体序列残留的数据条数输入载体残留贝叶斯概率模型，得到编辑材料存在载体序列残留的概率；

所述筛选包括依次进行同源筛选、PCR duplicate筛选、背景筛选；

所述载体残留贝叶斯概率模型的输入还包括载体的长度、编辑材料的全基因组平均测序深度、其他污染的概率值；

所述载体残留贝叶斯概率模型的输出为观测到n条测序片段比对到载体时编辑材料存在载体序列残留的概率。

2.如权利要求1所述的一种基于贝叶斯模型的编辑基因载体残留检测方法，其特征在于，

所述提取所述编辑材料基因组序列和野生材料基因组序列，进行高通量测序，得到测序编辑材料基因组序列和测序野生材料基因组序列，具体包括：

借助fastqc软件，通过数据量，GC比例，Q20比例，Q30比例对测序数据质量进行进一步评估，得到测序编辑材料基因组序列和测序野生材料基因组序列。

3.如权利要求1所述的一种基于贝叶斯模型的编辑基因载体残留检测方法，其特征在于，

将所述测序编辑材料基因组序列与植物基因组序列、载体序列进行比对，得到候选编辑材料基因组序列；将所述测序野生材料基因组序列与植物基因组序列、载体序列进行比对，得到候选野生材料基因组序列；

具体包括：

通过samtools软件统计所述材料的比对率，将单份材料的多个bam文件进行合并，排序及索引构建，得到候选编辑材料基因组序列和候选野生材料基因组序列。

4.如权利要求1所述的一种基于贝叶斯模型的编辑基因载体残留检测方法，其特征在于，

所述依据所述候选野生材料基因组序列对所述候选编辑材料基因组序列进行筛选，得到编辑材料基因组序列中载体序列残留的数据条数，还包括：

对所述候选编辑材料基因组序列进行同源筛选，得到编辑材料第一基因组序列；

5.如权利要求1所述的一种基于贝叶斯模型的编辑基因载体残留检测方法，其特征在于，

将所述载体序列残留的数据条数输入载体残留贝叶斯概率模型，得到编辑材料存在载体序列残留的概率，具体包括：

所述载体残留贝叶斯概率模型的公式为：

；

表示载体残留事件；

表示在载体残留事件后，观察到N条测序片段的概率；

表示无载体残留事件；

为载体的长度，单位bp；

为编辑材料的全基因组平均测序深度，单位为乘；

为载体发生残留的概率，设置为0.5；

为载体未发生残留的概率，设置为0.5；

为编辑材料载体序列残留的数据条数；

为载体发生残留，序列已经保留在植物基因组，理论上测序片段数目；

为发生其他污染的概率值，其范围为0.001-0.005；

6.一种基于贝叶斯模型的编辑基因载体残留检测系统，其特征在于，包括：

比对模块，将所述测序编辑材料基因组序列与植物基因组序列、载体序列进行比对，得到候选编辑材料基因组序列；将所述测序野生材料基因组序列与植物基因组序列、载体序列进行比对，得到候选野生材料基因组序列；

概率输出模块，将所述载体序列残留的数据条数输入载体残留贝叶斯概率模型，得到编辑材料存在载体序列残留的概率；

7.如权利要求6所述的一种基于贝叶斯模型的编辑基因载体残留检测系统，其特征在于

所述高通量测序模块，具体包括：

8.如权利要求7所述的一种基于贝叶斯模型的编辑基因载体残留检测系统，其特征在于，

所述比对模块，具体包括：

9.如权利要求8所述的一种基于贝叶斯模型的编辑基因载体残留检测系统，其特征在于，

所述筛选模块，还包括：

10.如权利要求9所述的一种基于贝叶斯模型的编辑基因载体残留检测系统，其特征在于，

所述概率输出模块，具体包括：

所述载体残留贝叶斯概率模型的公式为：

；

表示载体残留事件；

表示在载体残留事件后，观察到N条测序片段的概率；

表示无载体残留事件；

为载体的长度，单位bp；

为编辑材料的全基因组平均测序深度，单位为乘；

为载体发生残留的概率，设置为0.5；

为载体未发生残留的概率，设置为0.5；

为编辑材料载体序列残留的数据条数；

为发生其他污染的概率值，其范围为0.001-0.005；