CN116386713A - 基因编辑酶脱靶位点的检测方法、装置和电子设备 - Google Patents

基因编辑酶脱靶位点的检测方法、装置和电子设备 Download PDF

Info

Publication number
CN116386713A
CN116386713A CN202111602075.3A CN202111602075A CN116386713A CN 116386713 A CN116386713 A CN 116386713A CN 202111602075 A CN202111602075 A CN 202111602075A CN 116386713 A CN116386713 A CN 116386713A
Authority
CN
China
Prior art keywords
target site
gene editing
editing enzyme
candidate
detecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111602075.3A
Other languages
English (en)
Inventor
张永建
伍林军
袁鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Edigene Biotechnology Inc
Original Assignee
Edigene Biotechnology Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Edigene Biotechnology Inc filed Critical Edigene Biotechnology Inc
Priority to CN202111602075.3A priority Critical patent/CN116386713A/zh
Publication of CN116386713A publication Critical patent/CN116386713A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请涉及一种基因编辑酶脱靶位点的检测方法、检测装置和电子设备。该基因编辑酶脱靶位点的检测方法包括:对待检测的样本数据进行数据质控;对经过数据质控的待检测的样本数据进行读段去重;对从待检测的样本数据读取的插入信号进行聚类以确定候选脱靶位点;以及,基于sgRNA与所述候选脱靶位点所在的序列进行比对过滤以筛选所述候选脱靶位点,而获得脱靶位点的检测结果。这样,实现了高通量、高灵敏度、快速和低资源消耗的基因编辑酶脱靶位点的检测。

Description

基因编辑酶脱靶位点的检测方法、装置和电子设备
技术领域
本申请涉及基因编辑技术领域,更为具体地说,涉及一种基因编辑酶脱靶位点的检测方法、检测装置和电子设备。
背景技术
基因编辑技术作为一种重要的基因序列修饰手段,正在不断地被开发用于一系列基因缺陷相关疾病的治疗中。在一系列的基因编辑技术开发中,有两个重要的指标需要评估,即编辑效果和脱靶效应。对基因编辑酶潜在脱靶位点的评估,是脱靶效应评估中必不可少的一个环节。
目前评估潜在脱靶位点的方法主要分为,通过计算模拟(in silico)和湿实验法。湿实验法主要是基于编辑酶的核酸内切酶功能,在适当条件下,将基因组进行细胞内或者胞外切割,对切割信号进行聚类富集并过滤得到可能的脱靶位点。
通过细胞内编辑酶的切割,对切割产生的双链断裂末端插入短序列标记,对标记产物采用标记序列特异引物进行扩增,采用二代测序分析扩增产物,因为信噪比高而备受重视。然而对于海量插入标记序列的有效富集,以及进一步聚类挖掘出可能的脱靶位点是一个计算量大且复杂的工程。现有的处理这类数据的软件或流程存在一系列的缺陷,主要如下:
处理数据的通量小(最多仅能处理一百万左右的读段);
灵敏度低(仅支持碱基错配的潜在脱靶位点检测);
运行速度很慢(动辄数小时甚至数天的运行时间);和
资源消耗大(内存消耗较高)。
因此,期望提供一种改进的用于检测基因编辑酶脱靶位点的方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基因编辑酶脱靶位点的检测方法、检测装置和电子设备,其通过对待检测的样本数据进行数据质控和读段去重,并基于引导信号与由插入信号获得的候选脱靶位点所在的序列的比对过滤,实现了高通量、高灵敏度、快速和低资源消耗的基因编辑酶脱靶位点的检测。
根据本申请的一方面,提供了一种基因编辑酶脱靶位点的检测方法,包括:对待检测的样本数据进行数据质控;对经过数据质控的待检测的样本数据进行读段去重;对从待检测的样本数据读取的插入信号进行聚类以确定候选脱靶位点;以及,基于sgRNA与所述候选脱靶位点所在的序列进行比对过滤以筛选所述候选脱靶位点,而获得脱靶位点的检测结果。
在上述基因编辑酶脱靶位点的检测方法中,所述数据质控包括一般性质控和实验特异性质控。
在上述基因编辑酶脱靶位点的检测方法中,所述实验特异性质控包括以下的至少一个:确定连接插入短序列的一段读段是否与相应的插入序列以及可能的额外序列相匹配;确定一对读段是否均能够唯一地匹配到基因组的位置上;确定一对读段是否比对到同一条染色体上且比对距离在预定模板长度大小的范围内;以及,确定读段与基因组的匹配相似度是否大于预定阈值。
在上述基因编辑酶脱靶位点的检测方法中,对经过数据质控的待检测的样本数据进行读段去重包括:在大于候选模板长度的预定区间内对所有的双端读段分区间去重。
在上述基因编辑酶脱靶位点的检测方法中,对从待检测的样本数据读取的插入信号进行聚类以确定候选脱靶位点包括:确定携带短序列的读段中发生堆叠的位置集合;对于相邻的堆叠峰,确定是否存在正反向分类信号以确定是否为配对峰;合并预定范围内的堆叠峰和配对峰;以及,确定堆叠峰形支持的读段数量超过预定阈值的相应脱靶位点为候选脱靶位点。
在上述基因编辑酶脱靶位点的检测方法中,所述比对过滤允许单碱基错配和插入缺失。
在上述基因编辑酶脱靶位点的检测方法中,基于sgRNA与所述候选脱靶位点所在的序列进行比对过滤包括:根据预设的错配允许量,基于初步确定的比对位置和分值进行初步比对;以及,响应于所述初步比对未达到预定阈值允许的范围,直接放弃后续详细比对。
在上述基因编辑酶脱靶位点的检测方法中,进一步包括:对所述脱靶位点进行基因信息注释。
在上述基因编辑酶脱靶位点的检测方法中,进一步包括:输出报告文件。
根据本申请的另一方面,提供了一种基因编辑酶脱靶位点的检测装置,包括:数据质控单元,用于对待检测的样本数据进行数据质控;读段去重单元,用于对经过数据质控的待检测的样本数据进行读段去重;信号聚类单元,用于对从待检测的样本数据读取的插入信号进行聚类以确定候选脱靶位点;以及,位点筛选单元,用于基于sgRNA与所述候选脱靶位点所在的序列进行比对过滤以筛选所述候选脱靶位点,而获得脱靶位点的检测结果。
根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在所述处理器运行时使得所述处理器执行如上所述的基因编辑酶脱靶位点的检测方法。
根据本申请的又一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,当所述计算机程序指令被计算装置执行时,可操作来执行如上所述的基因编辑酶脱靶位点的检测方法。
本申请实施例提供的基因编辑酶脱靶位点的检测方法、检测装置和电子设备,能够通过对待检测的样本数据进行数据质控和读段去重,并基于引导信号与由插入信号获得的候选脱靶位点所在的序列的比对过滤,实现高通量、高灵敏度、快速和低资源消耗的基因编辑酶脱靶位点的检测。
附图说明
通过阅读下文优选的具体实施方式中的详细描述,本申请各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。说明书附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。显而易见地,下面描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。而且在整个附图中,用相同的附图标记表示相同的部件。
图1图示了根据本申请实施例的基因编辑酶脱靶位点的检测方法的流程图;
图2图示了根据本申请实施例的基因编辑酶脱靶位点的检测方法的一致性验证图;
图3图示了根据本申请实施例的基因编辑酶脱靶位点的检测方法的速度验证图;
图4图示了根据本申请实施例的基因编辑酶脱靶位点的检测方法的内存消耗验证图;
图5图示了根据本申请实施例的基因编辑酶脱靶位点的检测装置的框图;
图6图示了根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
示例性方法
图1图示了根据本申请实施例的基因编辑酶脱靶位点的检测方法的流程图。
如图1所示,根据本申请实施例的基因编辑酶脱靶位点的检测方法包括以下步骤。
步骤S110,对待检测的样本数据进行数据质控。在本申请实施例中,是对基因编辑酶脱靶位点进行检测,这里,基因编辑酶脱靶位点指的是基因编辑酶错误作用的位点,例如期望作用的位点是A,而基因编辑酶错误地作用在B位点上,则B位点被称为基因编辑酶脱靶位点。
如上所述,在湿实验法,首先将引导信号导入到待编辑样本中,通常,引导信号为sgRNA。也就是,在待编辑样本中表达该sgRNA,该sgRNA可以引导基因编辑酶到对应的基因组区域,从而引发基因编辑酶的剪切/编辑作用。例如,sgRNA导入待编辑样本的方式常见的有:1)通过病毒载体以整合到基因组的方式,将可以表达sgRNA的组件插入到基因组;2)通过非病毒载体(如脂质体)或电击转化等方式将体外表达的或合成的sgRNA单独或者与基因编辑酶一起导入到受体(待编辑个体)体内,可以引发基因组编辑。
然后,基因编辑酶基于引导信号对序列进行切割,并且对切割产生的双链断裂末端插入一段用于标记的短序列。之后,通过读取该段短序列而获得读取的信号,一般称为插入信号,再基于插入信号的有效富集以及进一步聚类就可以确定脱靶位点。这里,该插入信号就是一段额外加入的特征DNA序列(可以理解为标签),可以为后续特异性富集提供靶标或指示。
例如,如该序列是一段优化过的、已知序列的特定的寡核苷酸序列(oligo)/或类似接头的序列,1)可以为下一步PCR扩增提供模板(包含了一段可以用于特定PCR引物结合的序列),2)也可以为类似探针杂交捕获或者其它类似方式提供结合的模板。
或者,如该序列是一段经过特殊修饰或标记的、有别于体内大多数正常DNA序列的特征DNA序列,比如可以进行生物素(biotin)、地高辛(Digoxin)等修饰的碱基掺入该特征DNA;同时,该修饰不限于外源化学修饰,还可以是体内常见的甲基化标记、尿嘧啶掺入等,只要是可以实现特异性识别和/或捕获富集均可。
因此,在本申请实施例中,这里的待检测的样本数据是已经通过如上所述的方式进行了基因编辑酶的切割,并插入了短序列标记并读取出插入信号的基因序列。通常,基因序列是通过基因测序手段一段一段地读取的,因此测序得到的read序列也被称为读段。
并且,在本申请实施例中,在基于插入信号进行基因编辑酶脱靶位点的检测之前,首先对待检测的样本数据进行数据质控。具体地,数据质控可以包括一般性质控和实验特异性质控,其目的在于过滤掉低质量数据,提高信噪比。
这里,一般性质控例如可以包括Q20/Q30质控,含有不确定碱基(用N表示A、T、C、G四种碱基的任意一种)数量/比例控制等,此外,用户可根据测序服务商产出的结果酌情调整参数。
另外,实验特异性质控例如可以包括以下几个方面。
1)确定连接插入短序列的一段读段是否与相应的插入序列以及可能的额外序列相匹配,如果匹配较差,则可能是发生了PCR(polymerase chain reaction,聚合酶链反应)模板结合错误,予以抛弃。这里,PCR是一种在体外扩增DNA片段的重要技术,当存在模板DNA、底物、上下游引物和耐热的DNA聚合酶时,经过多次“变性-复性-延伸反应”的循环过程,痕量模板DNA可扩增至几百万倍。
2)一对读段(read pair)在基因组上的比对情况,只有当两条读段均能够唯一地匹配到基因组的位置上的时候,才能准确地确定可能发生切割的位置。任意一条匹配不上基因组或者发生了多个位置匹配,则无法用于准确预测可能的切割位点,予以抛弃。
3)一对读段(read pair)必须比对到同一条染色体上,且比对距离符合实验中筛选的模板长度大小的范围。超出范围的可能是PCR错误或者基因组结构变异造成的噪音,予以抛弃。
4)读段与基因组的匹配相似度必须要大于一定阈值(默认90%),所获得的插入信号才能是可靠的信号,否则将读段予以抛弃。
因此,在根据本申请实施例的基因编辑酶脱靶位点的检测方法中,所述数据质控包括一般性质控和实验特异性质控。
并且,在上述基因编辑酶脱靶位点的检测方法中,所述实验特异性质控包括以下的至少一个:确定连接插入短序列的一段读段是否与相应的插入序列以及可能的额外序列相匹配;确定一对读段是否均能够唯一地匹配到基因组上的位置上;确定一对读段是否比对到同一条染色体上且比对距离在预定模板长度大小的范围内;以及,确定读段与基因组的匹配相似度是否大于预定阈值。
步骤S120,对经过数据质控的待检测的样本数据进行读段去重。例如,在本申请实施例中,对于读段的去重可以通过建库的技术手段。也就是,对于所处理的文库,主要以插入序列作为标记,固定引物PCR富集,模板的一端并非随机,另一端较为随机。因此,不适合进行按照位置或者UMI(unique molecular identifiers,唯一分子标记)的方法进行去重,所以采用序列和UMI组合去重的方式,避免因为一端起始位置固定经长度筛选建库造成由于位置随机性差引起的一定概率的相同事件被识别为重复而被低估,同时避免因为PCR扩增放大引起的偏岐,最大限度还原原始模板丰度。其中,UMI是一种分子条形码,可特异性的标记样本文库中的每个分子,可以在测序过程中错误校正,提高准确性。
具体地,可以在一定区间内(一般比可能的模板长度大的区间),对于所有的双端读段分区间去重,并及时输出。例如,输出到磁盘,避免全文件进入内存引发内存爆炸。
因此,在根据本申请实施例的基因编辑酶脱靶位点的检测方法中,对经过数据质控的待检测的样本数据进行读段去重包括:在大于候选模板长度的预定区间内对所有的双端读段分区间去重。
步骤S130,对从待检测的样本数据读取的插入信号进行聚类以确定候选脱靶位点。这里,短序列在基因组中的插入主要发生在双链断裂的位置,双链断裂可能是由于编辑酶切造成的,也可能是自然断裂或者意外断裂造成的。其中,编辑酶切发生断裂具有聚集性,仅在某些位置发生,而短序列插入位置在切割位点附近呈现锯齿形排列,且深度由切割位点中间往两侧依次递减。根据这一特征,可以进行如下步骤的聚类:
1)对于携带短序列的读段,找出发生堆叠的位置集合;
2)对于相邻的堆叠峰,确定是否存在正反向分类信号以确定是否为配对峰,这里,正反向分类信号指的是从双链上对应的断裂位置读取到的插入信号;
3)合并一定范围内的堆叠和配对峰;
4)对堆叠峰形支持的读段数量超过一定阈值(默认为3)的进行后续判定。
这里,本领域技术人员可以理解,可以从进行了数据质控和读段去重之前的待检测的样本数据读取插入信号,然后对与数据质控和读段去重之后的待检测的样本数据对应的插入信号进行聚类。或者,也可以直接从进行了数据质控和读段去重之后的待检测的样本数据读取插入信号。
因此,在根据本申请实施例的基因编辑酶脱靶位点的检测方法中,对从待检测的样本数据读取的插入信号进行聚类以确定候选脱靶位点包括:确定携带短序列的读段中发生堆叠的位置集合;对于相邻的堆叠峰,确定是否存在正反向分类信号以确定是否为配对峰;合并预定范围内的堆叠峰和配对峰;以及,确定堆叠峰形支持的读段数量超过预定阈值的相应脱靶位点为候选脱靶位点。
步骤S140,基于sgRNA与所述候选脱靶位点所在的序列进行比对过滤以筛选所述候选脱靶位点,而获得脱靶位点的检测结果。也就是,对于由短序列的位置聚类得到的候选脱靶位点,需要进一步考察sgRNA序列和候选脱靶位点的周围区域,即,候选脱靶位点所在的序列的比对情况。如果差别太大(例如,编辑距离大于6),则很有可能并非是由于酶切产生的切割位点聚类信号,应该舍弃。并且,在比对过程中,不仅要允许单碱基的错配,也应该允许插入缺失,以更加符合sgRNA引导切割作用的生物学特征,提高检测灵敏度。
因此,在根据本申请实施例的基因编辑酶脱靶位点的检测方法中,所述比对过滤允许单碱基错配和插入缺失。
并且,在进行比对时,可以根据预设的错配允许量,在初步确定比对位置和分值后即进行即时判断,而如果无法达到阈值允许的范围,则直接放弃后续详细的比对结果产出,以避免大量动态规划带来的计算量暴涨。
因此,在根据本申请实施例的基因编辑酶脱靶位点的检测方法中,基于sgRNA与所述候选脱靶位点所在的序列进行比对过滤包括:根据预设的错配允许量,基于初步确定的比对位置和分值进行初步比对;以及,响应于所述初步比对未达到预定阈值允许的范围,直接放弃后续详细比对。
另外,考虑到脱靶位点所在的基因微环境信息对于评估脱靶位点生理/病理学上的作用意义重大,所以在本申请实施例中,可以进一步对确定为脱靶位点的切割位点进行基因信息注释。这里,注释信息主要包括:该位点是否为基因,离上下游基因的距离有多远,该基因是否为必需基因(essential gene),该基因是否为癌基因(oncogene)、肿瘤抑制基因(tumor suppressor gene)等。
因此,在根据本申请实施例的基因编辑酶脱靶位点的检测方法中,进一步包括:对所述脱靶位点进行基因信息注释。
最后,根据本申请实施例的基因编辑酶脱靶位点的检测方法通过以上步骤,可以输出报告文件。例如,报告文件可以包括脱靶位点文本文件;网页文件,对于QC、目标位点支持数、比对详细信息/图、IGV接口链接、注释信息进行综合动态展示;带索引的信号检出文件,便于后期审查;带索引的比对结果BAM文件,便于IGV审阅以及从BAM开始重新计算;以及,详细的QC结果JSON文件,便于程序之间结果的交流。
因此,在根据本申请实施例的基因编辑酶脱靶位点的检测方法中,进一步包括:输出报告文件。
软件实现
在实践过程中,根据本申请实施例的基因编辑酶脱靶位点的检测方法可以实现为基于C/C++的软件,并采用子命令的方式将各个功能模块化,方便用户调用。
如上所述的根据本申请实施例的基因编辑酶脱靶位点的检测方法的软件实现可以在保证准确率的情况下,带来了显著的速度和性能提升,并产出了工业化的标准结果文件以及用户友好的动态网页。
例如,该软件实现可以提供工业化的输出结果(BAM和JSON),便于上下游软件的适配使用;也可以提供交互型动态网页结果,便于用户直观的查阅结果。其中,动态网页中提供各个步骤的完整QC信息,目标编辑位点的支持序列统计图,各个疑似脱靶位点的IGV链接,sgRNA和参考基因组的比对情况,以及注释信息等。
如上所述,根据本申请实施例的基因编辑酶脱靶位点的检测方法期望解决现有方法的处理数据的通量小、灵敏度低、运行速度慢和资源消耗大的问题。
在现有方法中,最多仅能处理一百万左右的读段,这主要是由于软件实现中数据结构使用的不合理,导致大数据量的情况下无法从系统获取更多的内存存储更多的信息,内存错误而被迫中断。
因此,为了解决大数据量样品的计算问题,根据本申请实施例的软件实现首先提升了读取处理速度,例如,可以采用读写分离模式,每次只读取一部分到缓冲区域,处理完产生的中间结果及时释放到磁盘中保存。并且,根据本申请实施例的软件实现提升了大数据量排序性能,例如,采用固定缓存小批量排序并输出到文件,最后将文件合并产出最终的完整排序文件。
此外,基于如上所述的基因编辑酶脱靶位点的检测方法,根据本申请实施例的软件实现提升了比对文件去重性能,也就是,在一定区间内(一般比可能的模板长度大的区间),对于所有的双端读段分区间去重,并及时输出到磁盘,避免全文件进入内存引发内存爆炸。另外,根据本申请实施例的软件实现提升了插入序列信号聚类性能,也就是,将脱靶位点预测必要的信息归集到特定对象中,摒弃不必要的信息(如整条读段的序列以及质量值等其他比对信息),仅仅只提取聚类所需的位置、链向等数字化信息,减少不必要的内存占用。另外,在具体软件实现中,可以以指针为存储对象,避免反复复制,并且及时对距离较远的小区间范围内的信号进行进一步合并、配对、比对,及时释放空闲内存。
并且,本申请实施例的软件实现还提升了注释性能,例如,采用预制带索引的注释数据库,利用坐标索引的方式查阅相应的位点信息,避免全部加载到内存中查询。
另外,现有方法的灵敏度低主要是因为其仅支持碱基错配的潜在脱靶位点检测,这是由于其比对算法的使用错误,也就是,sgRNA和潜在脱靶区域的比对算法缺陷导致其不支持插入缺失比对。相应地,根据本申请实施例的软件实现解决了不兼容插入缺失匹配的缺陷算法,也就是,采用支持插入缺失的高效比对算法,并对结果进行详尽的解析,获取比对结果中的错配、插入、缺失、编辑距离信息。
此外,现有方法的运行速度慢,动辄需要耗费数小时甚至数天的运行时间,这主要是由于其程序设计不合理,存在大量的对象复制,冗余信息无效计算,且低效率算法太多。对于此,根据本申请实施例的软件实现首先实现了读写分离,例如,采用双线程并行读区配对读段文件,并存入空置的循环缓存中,处理线程直接从已经存储完成的缓存块中读取相应的序列进行后续处理,做到读和处理分离。并且,根据本申请实施例的软件实现分块并行处理序列,例如,采用多线程分子块并发处理的模式,根据预设处理线程数均分缓存中区块读段各自处理,最后将处理结果存到缓存中,缓存满后各排序并输出到磁盘。
另外,根据本申请实施例的软件实现可以实现分染色体并行去重,也就是,根据预设的处理线程数,同时并发处理若干个染色体,并分别输出到磁盘,处理完后合并即可。针对sgRNA和潜在脱靶区域的比对,根据本申请实施例的软件实现提升了比对速度,例如,对于sgRNA匹配的处理,采用高效的比对算法(比如基于kseq.h的指令集加速比对算法),并根据预设的错配允许量,在初步确定比对位置和分值后即进行即时判断,如果无法达到阈值允许的范围,则直接放弃后续详细的比对结果产出,以避免大量动态规划带来的计算量暴涨。
并且,根据本申请实施例的软件实现可以提升读段与基因组比对的速度,例如,对于读段与基因组的匹配,采用BWA(Burrow-Wheeler Aligner,一种基于块排序压缩的短序列比对工具)内置的比对算法,同时在比对产出详细SAM(Sequence Alignment/Map,序列比对图,是一种基于文本的标准比对文件格式)信息之前提前干预,避免无效比对浪费计算资源。
另外,根据本申请实施例的软件实现可以提高信号聚类速度,例如采用多线程,分染色体并行处理提速。
另外,根据本申请实施例的软件实现也能够解决现有方法的资源消耗大,主要是内存消耗较高的问题。也就是,由于现有方法中,对象实体全部都放到内存中,且实体冗余信息过多,排序去重算法使用不合理,导致资源消耗大。
效果验证
图2图示了根据本申请实施例的基因编辑酶脱靶位点的检测方法的一致性验证图。
这里,对于基于iGUIDE-Seq策略建库的插入标记文库进行了分析,对42个样品的测试结果取正反向支持数均大于3,错配总数小于等于6的脱靶位点进行统计,结果显示一致性为100%。这42个样品的数据量和读段总数分布如图2所示。
图3图示了根据本申请实施例的基因编辑酶脱靶位点的检测方法的速度验证图。
如图3所示,以iGUIDE-Seq数据为例,对42个样品的测试结果显示,本方法的软件实现的速度比官方iGUIDE-Seq流程软件平均快75倍,至少快47倍。
图4图示了根据本申请实施例的基因编辑酶脱靶位点的检测方法的内存消耗验证图。
如图4所示,同样以iGUIDE-Seq数据为例,对42个样品的测试结果显示,本方法的软件实现的消耗内存平均比官方iGUIDE-Seq流程软件少了约四分之三,也就是说官方iGUIDE-Seq流程软件的内存消耗平均为本方法的软件实现的四倍。
示例性装置
图5图示了根据本申请实施例的基因编辑酶脱靶位点的检测装置的框图。
如图5所示,根据本申请实施例的基因编辑酶脱靶位点的检测装置200包括:数据质控单元210,用于对待检测的样本数据进行数据质控;读段去重单元220,用于对经过数据质控的待检测的样本数据进行读段去重;信号聚类单元230,用于对从待检测的样本数据读取的插入信号进行聚类以确定候选脱靶位点;以及,位点筛选单元240,用于基于sgRNA与所述候选脱靶位点所在的序列进行比对过滤以筛选所述候选脱靶位点,而获得脱靶位点的检测结果。
在一个示例中,在上述基因编辑酶脱靶位点的检测装置200中,所述数据质控单元210用于进行一般性质控和实验特异性质控。
在一个示例中,在上述基因编辑酶脱靶位点的检测装置200中,所述实验特异性质控包括以下的至少一个:确定连接插入短序列的一段读段是否与相应的插入序列以及可能的额外序列相匹配;确定一对读段是否均能够唯一地匹配到基因组的位置上;确定一对读段是否比对到同一条染色体上且比对距离在预定模板长度大小的范围内;以及,确定读段与基因组的匹配相似度是否大于预定阈值。
在一个示例中,在上述基因编辑酶脱靶位点的检测装置200中,所述读段去重单元220用于:在大于候选模板长度的预定区间内对所有的双端读段分区间去重。
在一个示例中,在上述基因编辑酶脱靶位点的检测装置200中,所述信号聚类单元230用于:确定携带短序列的读段中发生堆叠的位置集合;对于相邻的堆叠峰,确定是否存在正反向分类信号以确定是否为配对峰;合并预定范围内的堆叠峰和配对峰;以及,确定堆叠峰形支持的读段数量超过预定阈值的相应脱靶位点为候选脱靶位点。
在一个示例中,在上述基因编辑酶脱靶位点的检测装置200中,所述位点筛选单元240进行的所述比对过滤允许单碱基错配和插入缺失。
在一个示例中,在上述基因编辑酶脱靶位点的检测装置200中,所述位点筛选单元240用于:根据预设的错配允许量,基于初步确定的比对位置和分值进行初步比对;以及,响应于所述初步比对未达到预定阈值允许的范围,直接放弃后续详细比对。
在一个示例中,在上述基因编辑酶脱靶位点的检测装置200中,进一步包括:信息注释单元,用于对所述脱靶位点进行基因信息注释。
在一个示例中,在上述基因编辑酶脱靶位点的检测装置200中,进一步包括:报告生成单元,用于输出报告文件。
这里,本领域技术人员可以理解,上述基因编辑酶脱靶位点的检测装置200中的各个单元和模块的具体功能和操作已经在上面参考图1到图4描述的基因编辑酶脱靶位点的检测方法中详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的基因编辑酶脱靶位点的检测装置200可以实现在各种终端设备中,例如用于基因编辑服务的服务器。在一个示例中,根据本申请实施例的基因编辑酶脱靶位点的检测装置200可以作为一个软件模块和/或硬件模块而集成到所述终端设备中。例如,该基因编辑酶脱靶位点的检测装置200可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该基因编辑酶脱靶位点的检测装置200同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该基因编辑酶脱靶位点的检测装置200与该终端设备也可以是分立的设备,并且该基因编辑酶脱靶位点的检测装置200可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性电子设备
下面,参考图6来描述根据本申请实施例的电子设备。
图6图示了根据本申请实施例的电子设备的框图。
如图6所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的基因编辑酶脱靶位点的检测方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如待检测的样本数据、读取的插入信号等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,该输入装置13可以是例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,例如基因编辑酶脱靶位点的检测结果等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图6中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基因编辑酶脱靶位点的检测方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基因编辑酶脱靶位点的检测方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (12)

1.一种基因编辑酶脱靶位点的检测方法,其特征在于,包括:
对待检测的样本数据进行数据质控;
对经过数据质控的待检测的样本数据进行读段去重;
对从待检测的样本数据读取的插入信号进行聚类以确定候选脱靶位点;以及
基于sgRNA与所述候选脱靶位点所在的序列进行比对过滤以筛选所述候选脱靶位点,而获得脱靶位点的检测结果。
2.如权利要求1所述的基因编辑酶脱靶位点的检测方法,其特征在于,所述数据质控包括一般性质控和实验特异性质控。
3.如权利要求2所述的基因编辑酶脱靶位点的检测方法,其特征在于,所述实验特异性质控包括以下的至少一个:
确定连接插入短序列的一段读段是否与相应的插入序列以及可能的额外序列相匹配;
确定一对读段是否均能够唯一地匹配到基因组的位置上;
确定一对读段是否比对到同一条染色体上且比对距离在预定模板长度大小的范围内;以及,
确定读段与基因组的匹配相似度是否大于预定阈值。
4.如权利要求1所述的基因编辑酶脱靶位点的检测方法,其特征在于,对经过数据质控的待检测的样本数据进行读段去重包括:
在大于候选模板长度的预定区间内对所有的双端读段分区间去重。
5.如权利要求1所述的基因编辑酶脱靶位点的检测方法,其特征在于,对从待检测的样本数据读取的插入信号进行聚类以确定候选脱靶位点包括:
确定携带短序列的读段中发生堆叠的位置集合;
对于相邻的堆叠峰,确定是否存在正反向分类信号以确定是否为配对峰;
合并预定范围内的堆叠峰和配对峰;以及,
确定堆叠峰形支持的读段数量超过预定阈值的相应脱靶位点为候选脱靶位点。
6.如权利要求1所述的基因编辑酶脱靶位点的检测方法,其特征在于,所述比对过滤允许单碱基错配和插入缺失。
7.如权利要求1所述的基因编辑酶脱靶位点的检测方法,其特征在于,基于sgRNA与所述候选脱靶位点所在的序列进行比对过滤包括:
根据预设的错配允许量,基于初步确定的比对位置和分值进行初步比对;以及,
响应于所述初步比对未达到预定阈值允许的范围,直接放弃后续详细比对。
8.如权利要求1所述的基因编辑酶脱靶位点的检测方法,其特征在于,进一步包括:
对所述脱靶位点进行基因信息注释。
9.如权利要求1所述的基因编辑酶脱靶位点的检测方法,其特征在于,进一步包括:
输出报告文件。
10.一种基因编辑酶脱靶位点的检测装置,其特征在于,包括:
数据质控单元,用于对待检测的样本数据进行数据质控;
读段去重单元,用于对经过数据质控的待检测的样本数据进行读段去重;
信号聚类单元,用于对从待检测的样本数据读取的插入信号进行聚类以确定候选脱靶位点;以及
位点筛选单元,用于基于sgRNA与所述候选脱靶位点所在的序列进行比对过滤以筛选所述候选脱靶位点,而获得脱靶位点的检测结果。
11.一种电子设备,其特征在于,包括:
处理器;以及
存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在所述处理器运行时使得所述处理器执行如权利要求1-9中任意一项所述的基因编辑酶脱靶位点的检测方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,当所述计算机程序指令被计算装置执行时,可操作来执行如权利要求1-9中任意一项所述的基因编辑酶脱靶位点的检测方法。
CN202111602075.3A 2021-12-24 2021-12-24 基因编辑酶脱靶位点的检测方法、装置和电子设备 Pending CN116386713A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111602075.3A CN116386713A (zh) 2021-12-24 2021-12-24 基因编辑酶脱靶位点的检测方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111602075.3A CN116386713A (zh) 2021-12-24 2021-12-24 基因编辑酶脱靶位点的检测方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN116386713A true CN116386713A (zh) 2023-07-04

Family

ID=86964325

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111602075.3A Pending CN116386713A (zh) 2021-12-24 2021-12-24 基因编辑酶脱靶位点的检测方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN116386713A (zh)

Similar Documents

Publication Publication Date Title
Zhao et al. Misuse of RPKM or TPM normalization when comparing across samples and sequencing protocols
CN106446600B (zh) 一种基于CRISPR/Cas9的sgRNA的设计方法
Clark et al. Performance comparison of exome DNA sequencing technologies
CA3049682C (en) Methods for non-invasive assessment of genetic alterations
CN109767810B (zh) 高通量测序数据分析方法及装置
AU2023219911A1 (en) Using cell-free DNA fragment size to detect tumor-associated variant
WO2013107048A1 (zh) 确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质
CN111566225A (zh) 归一化肿瘤突变负荷
EP3405573A1 (en) Methods and systems for high fidelity sequencing
WO2022267867A1 (zh) 基因测序分析方法、装置、存储介质和计算机设备
CN112349346A (zh) 检测基因组区域中的结构变异的方法
CN115083521B (zh) 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统
CA3049455A1 (en) Sequencing adapter manufacture and use
CN113362889A (zh) 基因组结构变异注释方法
CN109461473B (zh) 胎儿游离dna浓度获取方法和装置
Normand et al. An introduction to high-throughput sequencing experiments: design and bioinformatics analysis
CN110782946A (zh) 识别重复序列的方法及装置、存储介质、电子设备
KR102347463B1 (ko) 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치
WO2012097474A1 (zh) 检测转基因外源片段插入位点的方法和系统
WO2019132010A1 (ja) 塩基配列における塩基種を推定する方法、装置及びプログラム
CN116386713A (zh) 基因编辑酶脱靶位点的检测方法、装置和电子设备
CN111028885B (zh) 一种检测牦牛rna编辑位点的方法及装置
Peretz-Machluf et al. Genome-wide noninvasive prenatal diagnosis of de novo mutations
Skog et al. Seqpac: A new framework for small RNA analysis in R using sequence-based counts
WO2013097149A1 (zh) 估计基因组重复序列含量的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination