CN112687331B - 一种crispr目标区间变异检测的分析方法 - Google Patents

一种crispr目标区间变异检测的分析方法 Download PDF

Info

Publication number
CN112687331B
CN112687331B CN202011596528.1A CN202011596528A CN112687331B CN 112687331 B CN112687331 B CN 112687331B CN 202011596528 A CN202011596528 A CN 202011596528A CN 112687331 B CN112687331 B CN 112687331B
Authority
CN
China
Prior art keywords
target interval
cluster
clustering
reads
software
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011596528.1A
Other languages
English (en)
Other versions
CN112687331A (zh
Inventor
陈全明
姜丽荣
孙子奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Personal Biotechnology Co ltd
Original Assignee
Shanghai Personal Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Personal Biotechnology Co ltd filed Critical Shanghai Personal Biotechnology Co ltd
Priority to CN202011596528.1A priority Critical patent/CN112687331B/zh
Publication of CN112687331A publication Critical patent/CN112687331A/zh
Application granted granted Critical
Publication of CN112687331B publication Critical patent/CN112687331B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种CRISPR目标区间变异检测的分析方法,1)将高质量测序数据使用flash软件将两条reads按照overlap进行合并,再使用cd_hit软件按照短序列与长序列完全相似的标准进行聚类,获得聚类结果;2)使用mafft软件将聚类结果与目标区间进行序列的多重比对,扫描目标区间,根据扫描结果查找出突变;3)根据步骤2)中找出的突变进行分类,再结合步骤1)中的聚类结果中每一个cluster的reads数除以总聚类的reads数,得到每个cluster条目对应分类的突变率;通过本发明的分析得到的结果更接近真实情况,提高了准确率。

Description

一种CRISPR目标区间变异检测的分析方法
技术领域
本发明涉及基因检测分析技术领域,尤其涉及一种CRISPR目标区间变异检测的分析方法。
背景技术
Clustered regularly interspaced short palindromic repeats(CRISPR)——规律成簇的间隔短回文重复和CRISPR-associated protein 9(Cas9),共同组成了一套系统,是细菌用来抵御外源DNA入侵的天然防御系统。目前利用这个原理构建了很强的RNA引导的DNA靶向平台——主要用来基因组编辑、转录扰乱、表观遗传调控等。
CRISPR/Cas9从2013年以来,凭借其特有的敲除靶序列效果,迅速风靡科研界。与传统的siRNA文库和shRNA文库比较,有更加严苛的筛选标准,更有效去除假阳性,而且有着成本低廉、构建简单、操作方便的诸多优点。
而现有的CRISPR分析主要是集中在针对目标区间单位点碱基突变的分析,而忽略了完整序列在成功转导后的比率,从而造成假阳性的情况。
发明内容
本发明的提供一种CRISPR目标区间变异检测的分析方法。
本发明的方案是:
一种CRISPR目标区间变异检测的分析方法,包括下列步骤:
1)将高质量测序数据使用flash软件将两条reads按照overlap进行合并,再使用cd_hit软件进行聚类,获得聚类结果与每一类代表性序列;
2)使用mafft软件将聚类的代表性序列与目标区间进行序列的多重比对,扫描目标区间,根据扫描结果查找出突变;
3)根据步骤2)中找出的突变进行分类,再结合步骤1)中的聚类结果中每一个cluster的reads数除以总聚类的reads数,得到每个cluster条目对应分类的突变率;
4)将步骤1)中的聚类结果的reads数与步骤2)中的扫描结果统计每种cluster的丰度,然后结合步骤3)中突变率,筛选,获得分析结果。
作为优选的技术方案,步骤1)中的所述聚类为当长序列包含短序列时把短序列归为长序列。
作为优选的技术方案,所述步骤1)中高质量测序数据获得方法:
将原始二代下机数据按照barcode拆分成单个样本的fastq文件,将得到的所述fastq文件使用fastp软件过滤去接头处理得到高质量测序数据。
作为优选的技术方案,所述步骤1)中高质量测序数据使用flash软件将两条reads根据overlap合并成一条长reads;将得到的所述长reads的fastq文件转化为fasta格式的文件,使用cd-hit软件对转化后的所述fasta格式的文件内序列进行聚类,所述聚类结果为各个cluster的reads数以及各个cluster的代表性序列;
作为优选的技术方案,使用mafft软件将聚类结果中的各个cluster的代表性序列与目标区间进行序列进行两两比对。
作为优选的技术方案,所述步骤4)中筛选为筛选高频cluster与目标区间高频的突变位点。
由于采用了上述技术方案一种CRISPR目标区间变异检测的分析方法,包括下列步骤,1)将高质量测序数据使用flash软件将两条reads按照overlap进行合并,再使用cd_hit软件进行聚类,获得聚类结果与每一类代表性序列;2)使用mafft软件将聚类的代表性序列与目标区间进行序列的多重比对,扫描目标区间,根据扫描结果查找出突变;3)根据步骤2)中找出的突变进行分类,再结合步骤1)中的聚类结果中每一个cluster的reads数除以总聚类的reads数,得到每个cluster条目对应分类的突变率;4)将步骤1)中的聚类结果的reads数与步骤2)中的扫描结果统计每种cluster的丰度,然后结合步骤3)中突变率,筛选,获得分析结果。
本发明的优点:
本发明避免了因忽略完整序列在成功转导后的比率造成假阳性的情况出现,成本低廉、构建简单、操作方便,通过本发明的分析得到的结果更接近真实情况,提高了准确率。
附图说明
图1为本发明的框架流程图;
图2为本发明实施例2的统计比对率结果图;
图3为本发明实施例2的比对结果扫描突变位点图。
具体实施方式
为了弥补以上不足,本发明提供了一种CRISPR目标区间变异检测的分析方法以解决上述背景技术中的问题。
一种CRISPR目标区间变异检测的分析方法,包括下列步骤:
1)将高质量测序数据使用flash软件将两条reads按照overlap进行合并,再使用cd_hit软件进行聚类,获得聚类结果与每一类代表性序列;
2)使用mafft软件将聚类的代表性序列与目标区间进行序列的多重比对,扫描目标区间,根据扫描结果查找出突变;
3)根据步骤2)中找出的突变进行分类,再结合步骤1)中的聚类结果中每一个cluster的reads数除以总聚类的reads数,得到每个cluster条目对应分类的突变率;
4)将步骤1)中的聚类结果的reads数与步骤2)中的扫描结果统计每种cluster的丰度,然后结合步骤3)中突变率,筛选,获得分析结果。
步骤1)中的所述聚类为当长序列包含短序列时把短序列归为长序列。
所述步骤1)中高质量测序数据获得方法:
将原始二代下机数据按照barcode拆分成单个样本的fastq文件,将得到的所述fastq文件使用fastp软件过滤去接头处理得到高质量测序数据。
所述步骤1)中高质量测序数据使用flash软件将两条reads根据overlap合并成一条长reads;将得到的所述长reads的fastq文件转化为fasta格式的文件,使用cd-hit软件对转化后的所述fasta格式的文件内序列进行聚类,所述聚类结果为各个cluster的reads数以及各个cluster的代表性序列;
使用mafft软件将聚类结果中的各个cluster的代表性序列与目标区间进行序列进行两两比对。
所述步骤4)中筛选为筛选高频cluster与目标区间高频的突变位点。
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施例,进一步阐述本发明。
实施例1:
1)将高质量测序数据使用flash软件将两条reads按照overlap进行合并,再使用cd_hit软件进行聚类,获得聚类结果;
2)使用mafft软件将聚类结果与目标区间进行序列的多重比对,扫描目标区间,根据扫描结果查找出突变;
3)根据步骤2)中找出的突变进行分类,再结合步骤1)中的聚类结果中每一个cluster的reads数除以总聚类的reads数,得到每个cluster条目对应分类的突变率;
4)将步骤1)中的聚类结果的reads数与步骤2)中的扫描结果统计每种cluster的丰度,然后结合步骤3)中突变率,筛选,获得分析结果。
作为优选的技术方案,步骤1)中的所述聚类为当长序列包含短序列时把短序列归为长序列。
所述步骤1)中高质量测序数据获得方法:
将原始二代下机数据按照barcode拆分成单个样本的fastq文件,将得到的所述fastq文件使用fastp软件过滤去接头处理得到高质量测序数据。
所述步骤1)中高质量测序数据使用flash软件将两条reads根据overlap合并成一条长reads;将得到的所述长reads的fastq文件转化为fasta格式的文件,使用cd-hit软件对转化后的所述fasta格式的文件内序列进行聚类,所述聚类结果为各个cluster的reads数以及各个cluster的代表性序列;
使用mafft软件将聚类结果中的各个cluster的代表性序列与目标区间进行序列进行两两比对。
所述步骤4)中筛选为筛选高频cluster与目标区间高频的突变位点。
实施例2
1、以小鼠特定目标基因扩增为例,使用传统的bwa比对然后统计目标区域的突变会发现在前130bp序列中有8个高频突变位点,步骤如下:
一)将test样本高质量的数据使用flash进行搭载:
flash test_HQ_R1.fq.gz test_HQ_R2.fq.gz-m 10-M 300-c-q-x 0.1-t
5|pigz-9-p 2>test.merged.fastq.gz
二)将搭载后的reads使用bwa软件与参考目标序列进行比对:
bwa mem-t 4-R
'@RG\tID:'${name}'\tSM:'test'\tPL:illumina\tLB:PE400\tPU:unit'
ref.fasta test.merged.fastq.gz>test.sam
三)使用picard将sam文件转化为bam并进行排序生成索引:
/picard.jar SortSam INPUT=test.sam OUTPUT=test.sorted.bam
SORT_ORDER=coordinate CREATE_INDEX=true
TMP_DIR=./temp/picardSortSam/test
VALIDATION_STRINGENCY=LENIENT
四)使用iDES软件中的bam2freq.pl脚本将比对bam文件转化文本文件,统计比对率。结果如图1所述:
Perl bam2freq.pl-a-q 0test.sorted.bam ref.fasta test.bed
2、使用聚类后的reads与参考序列进行多重比对,从最多的前8类聚类reads结果可以看出,在前130bp序列中有一些测序结果中有效reads发生突变位点在32,其他位置的突变是多种reads共同作用结果包括可能被放大的随机错误,步骤如下:
一)将test样本高质量的数据使用flash进行搭载:
flash test_HQ_R1.fq.gz test_HQ_R2.fq.gz-m 10-M 300-c-q
-x 0.1-t 5|pigz-9-p 2>test.merged.fastq.gz
二)将fastq文件转化为fasta文件:
Zcat test.merged.fastq.gz|awk'{if(NR%4==1||
NR%4==2)print$0}'test.fastq|sed's/@/>/'>test.fasta
三)使用cd-hit对test.fasta文件进行聚类(按照100%相似):
cd-hit-est-i tes.fasta-c 1-o PSN19CV922-1-aS 1
四)将test样本的各个cluster代表序列与ref.fasta进行两辆比对(cluster代表序列用sequence_n.fa表示n代表类别):
for i in sequence_*.fa;do mafft--globalpair--maxiterate
1000--clustalout$i>$i.out;done
五)依据比对结果扫描突变位点,如图2所示:
六)结合聚类reads数与扫描结果统计每种cluster的丰度;
七)从结果中可以看出在前130bp序列中有一些测序结果中有效reads发生突变位点在32,其他位置的突变是多种reads共同作用结果包括可能被放大的随机错误;
八)将cluster的代表性reads在32好位点发生突变的丰度汇总,统计整体发生突变的碱基比率。
以上显示和描述了本发明的基本原理、主要特征及本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (5)

1.一种CRISPR目标区间变异检测的分析方法,其特征在于,包括下列步骤:
1)将高质量测序数据使用flash软件将两条reads按照overlap进行合并,再使用cd_hit软件进行聚类,获得聚类结果与每一类代表性序列;
2)使用mafft软件将聚类结果中的各个cluster的代表性序列与目标区间序列进行两两比对,扫描目标区间,根据扫描结果查找出突变;
3)根据步骤2)中找出的突变进行分类,再结合步骤1)中的聚类结果中每一个cluster的reads数除以总聚类的reads数,得到每个cluster条目对应分类的突变率;
4)将步骤1)中的聚类结果的reads数与步骤2)中的扫描结果统计每种cluster的丰度,然后结合步骤3)中突变率,筛选,获得分析结果。
2.如权利要求1所述的一种CRISPR目标区间变异检测的分析方法,其特征在于:
步骤1)中的所述聚类为当长序列包含短序列时把短序列归为长序列。
3.如权利要求1所述的一种CRISPR目标区间变异检测的分析方法,其特征在于,所述步骤1)中高质量测序数据获得方法:
将原始二代下机数据按照barcode拆分成单个样本的fastq文件,将得到的所述fastq文件使用fastp软件过滤去接头处理得到高质量测序数据。
4.如权利要求1所述的一种CRISPR目标区间变异检测的分析方法,其特征在于:所述步骤1)中高质量测序数据使用flash软件将两条reads根据overlap合并成一条长reads;将得到的所述长reads的fastq文件转化为fasta格式的文件,使用cd-hit软件对转化后的所述fasta格式的文件内序列进行聚类,所述聚类结果为各个cluster的reads数以及各个cluster的代表性序列。
5.如权利要求1所述的一种CRISPR目标区间变异检测的分析方法,其特征在于:
所述步骤4)中筛选为筛选高频cluster与目标区间高频的突变位点。
CN202011596528.1A 2020-12-29 2020-12-29 一种crispr目标区间变异检测的分析方法 Active CN112687331B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011596528.1A CN112687331B (zh) 2020-12-29 2020-12-29 一种crispr目标区间变异检测的分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011596528.1A CN112687331B (zh) 2020-12-29 2020-12-29 一种crispr目标区间变异检测的分析方法

Publications (2)

Publication Number Publication Date
CN112687331A CN112687331A (zh) 2021-04-20
CN112687331B true CN112687331B (zh) 2024-01-05

Family

ID=75454083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011596528.1A Active CN112687331B (zh) 2020-12-29 2020-12-29 一种crispr目标区间变异检测的分析方法

Country Status (1)

Country Link
CN (1) CN112687331B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106033502A (zh) * 2015-03-20 2016-10-19 深圳华大基因股份有限公司 鉴定病毒的方法和装置
CN110819705A (zh) * 2019-08-17 2020-02-21 昆明医科大学第一附属医院 Uc患者肠道菌群多样性及差异性的分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105063208B (zh) * 2015-08-10 2018-03-06 北京吉因加科技有限公司 一种血浆中游离的目标dna低频突变富集测序方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106033502A (zh) * 2015-03-20 2016-10-19 深圳华大基因股份有限公司 鉴定病毒的方法和装置
CN110819705A (zh) * 2019-08-17 2020-02-21 昆明医科大学第一附属医院 Uc患者肠道菌群多样性及差异性的分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CRISPR/Cas9系统中的脱靶效应及检测技术研究进展;张晨;雷展;李凯;商颖;许文涛;;生物技术通报(第03期);全文 *

Also Published As

Publication number Publication date
CN112687331A (zh) 2021-04-20

Similar Documents

Publication Publication Date Title
Rautiainen et al. GraphAligner: rapid and versatile sequence-to-graph alignment
Pevzner et al. Combinatorial approaches to finding subtle signals in DNA sequences.
CN114743594B (zh) 一种用于结构变异检测的方法、装置和存储介质
CN104700033A (zh) 病毒检测的方法及装置
CN103993069A (zh) 病毒整合位点捕获测序分析方法
CN111718982A (zh) 一种肿瘤组织单样本体细胞突变检测方法及装置
US10810239B2 (en) Sequence data analyzer, DNA analysis system and sequence data analysis method
CN111243663B (zh) 一种基于模式增长算法的基因变异检测方法
CN108154010B (zh) 一种ctDNA低频突变测序数据分析方法和装置
CN114420212B (zh) 一种大肠杆菌菌株鉴定方法和系统
CN107832584B (zh) 宏基因组的基因分析方法、装置、设备及存储介质
CN109145605A (zh) 一种基于SinglePass算法的Android恶意软件家族聚类方法
TW202036584A (zh) 一種基因變異識別方法、裝置和儲存介質
CN114121160A (zh) 一种检测样本中宏病毒组的方法和系统
Donato et al. New evaluation methods of read mapping by 17 aligners on simulated and empirical NGS data: an updated comparison of DNA-and RNA-Seq data from Illumina and Ion Torrent technologies
CN116189763A (zh) 一种基于二代测序的单样本拷贝数变异检测方法
CN112687331B (zh) 一种crispr目标区间变异检测的分析方法
CN113096737B (zh) 一种用于对病原体类型进行自动分析的方法及系统
CN112133371A (zh) 基于单管长片段测序数据进行骨架组装的方法和装置
JP5419145B2 (ja) アプタマー分類装置、アプタマー分類方法、プログラムおよび記録媒体
Esmat et al. A parallel hash‐based method for local sequence alignment
WO2013097149A1 (zh) 估计基因组重复序列含量的方法和装置
US20210363589A1 (en) Immunotherapy using multi-omics data to extract microsatellite instability-based neoantigen
Ming et al. FIRM: fast Integration of singlecell RNA-sequencing data across multiple platforms
CN110853709B (zh) 一种可以有效降低错误的umi设计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210420

Assignee: Shanghai Boyio Gene Technology Co.,Ltd.

Assignor: SHANGHAI PERSONAL BIOTECHNOLOGY Co.,Ltd.

Contract record no.: X2024980004994

Denomination of invention: An Analysis Method for CRISPR Target Interval Variation Detection

Granted publication date: 20240105

License type: Common License

Record date: 20240428