CN118016145A - 一种sgRNA文库的分析方法和系统 - Google Patents
一种sgRNA文库的分析方法和系统 Download PDFInfo
- Publication number
- CN118016145A CN118016145A CN202311697687.4A CN202311697687A CN118016145A CN 118016145 A CN118016145 A CN 118016145A CN 202311697687 A CN202311697687 A CN 202311697687A CN 118016145 A CN118016145 A CN 118016145A
- Authority
- CN
- China
- Prior art keywords
- information
- original
- sample data
- target
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 105
- 108091027544 Subgenomic mRNA Proteins 0.000 title claims abstract description 21
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 63
- 238000007781 pre-processing Methods 0.000 claims abstract description 19
- 238000012163 sequencing technique Methods 0.000 claims description 38
- 238000000034 method Methods 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 28
- 238000009826 distribution Methods 0.000 claims description 26
- 238000010201 enrichment analysis Methods 0.000 claims description 17
- 238000012216 screening Methods 0.000 claims description 14
- 238000003908 quality control method Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 11
- 238000000513 principal component analysis Methods 0.000 claims description 10
- 238000013515 script Methods 0.000 claims description 9
- 238000007621 cluster analysis Methods 0.000 claims description 8
- 238000010219 correlation analysis Methods 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 7
- 230000000007 visual effect Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000012800 visualization Methods 0.000 claims description 5
- 238000003556 assay Methods 0.000 claims 1
- 239000000463 material Substances 0.000 abstract description 4
- 239000000523 sample Substances 0.000 description 122
- 238000010586 diagram Methods 0.000 description 25
- 108091033409 CRISPR Proteins 0.000 description 10
- 239000012634 fragment Substances 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 239000013068 control sample Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000010354 CRISPR gene editing Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000010356 CRISPR-Cas9 genome editing Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 108091036078 conserved sequence Proteins 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003209 gene knockout Methods 0.000 description 3
- 238000010362 genome editing Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 241000894006 Bacteria Species 0.000 description 2
- 108020004414 DNA Proteins 0.000 description 2
- -1 FOXD L3 Proteins 0.000 description 2
- 101150074062 Tnfsf11 gene Proteins 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000003776 cleavage reaction Methods 0.000 description 2
- 230000007017 scission Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 241000203069 Archaea Species 0.000 description 1
- 102100031697 Basic helix-loop-helix transcription factor scleraxis Human genes 0.000 description 1
- 108091035707 Consensus sequence Proteins 0.000 description 1
- 230000008836 DNA modification Effects 0.000 description 1
- 241000252212 Danio rerio Species 0.000 description 1
- 102100038644 Four and a half LIM domains protein 2 Human genes 0.000 description 1
- 108020005004 Guide RNA Proteins 0.000 description 1
- 101000654285 Homo sapiens Basic helix-loop-helix transcription factor scleraxis Proteins 0.000 description 1
- 101001031714 Homo sapiens Four and a half LIM domains protein 2 Proteins 0.000 description 1
- 101000619927 Homo sapiens LIM/homeobox protein Lhx9 Proteins 0.000 description 1
- 101001124901 Homo sapiens Putative histone-lysine N-methyltransferase PRDM6 Proteins 0.000 description 1
- 101000588553 Homo sapiens Serine/threonine-protein kinase Nek9 Proteins 0.000 description 1
- 101000845189 Homo sapiens Testis-specific Y-encoded protein 1 Proteins 0.000 description 1
- 101000777786 Homo sapiens Testis-specific chromodomain protein Y 2 Proteins 0.000 description 1
- 101000701142 Homo sapiens Transcription factor ATOH1 Proteins 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 102100022141 LIM/homeobox protein Lhx9 Human genes 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 102100029134 Putative histone-lysine N-methyltransferase PRDM6 Human genes 0.000 description 1
- 102100031398 Serine/threonine-protein kinase Nek9 Human genes 0.000 description 1
- 102100031283 Testis-specific Y-encoded protein 1 Human genes 0.000 description 1
- 102100031666 Testis-specific chromodomain protein Y 2 Human genes 0.000 description 1
- 102100029373 Transcription factor ATOH1 Human genes 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000009098 adjuvant therapy Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000009749 continuous casting Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 210000005260 human cell Anatomy 0.000 description 1
- 230000007124 immune defense Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请提供了一种sgRNA文库的分析方法和系统,涉及生物信息技术领域,包括通过获取原始样本数据和原始sgRNA文库信息;对所述原始样本数据进行预处理,得到目标样本数据;比对所述目标样本数据与所述原始sgRNA文库信息,得到匹配信息,所述匹配信息包括完全匹配信息、部分匹配信息;基于所述匹配信息,对所述原始sgRNA文库信息进行分析,得到分析结果,确定目标基因,提高sgRNA文库的分析准确性,减少人力物力成本。
Description
技术领域
本发明涉及生物信息技术领域,尤其涉及一种sgRNA文库的分析方法和系统。
背景技术
在CRISPR/Cas9基因敲除文库中,向导RNA(sgRNA)是引导Cas9酶进行精准切割的重要元件。每个sgRNA都包含一个靶向序列,用于识别和结合到特定DNA序列上,从而引导Cas9酶进行切割。
在CRISPR/Cas9的基因敲除文库可靶向编辑全基因组范围的目的基因时,利用生物信息学手段统计sgRNA文库的丰度,从而鉴定出与特定表型相关的基因。其中,sgRNA文库丰度统计的准确性尤为重要。
目前的sgRNA文库的丰度分析方法主要是通过将测序序列与sgRNA文库比对的方法来统计与sgNRA文库中完全匹配的sgRNA数目及丢失的sgRNA等,即使有些算法会切除FASTQ文件中的一致性序列,但仍然可能有一些测序序列与sgRNA文库中的某些条目存在一定的相似性,导致它们被错误地匹配,降低了sgRNA文库分析的准确率。
因此,需提出一种sgRNA文库的分析方法和系统。
发明内容
本说明书提供一种sgRNA文库的分析方法和系统,通过比对所述目标样本数据与所述原始sgRNA文库信息,得到匹配信息,所述匹配信息包括完全匹配信息、部分匹配信息;基于所述匹配信息,对所述原始sgRNA文库信息进行分析,得到分析结果,确定目标基因,提高sgRNA文库的分析准确性,减少人力物力成本。
本申请提供的一种sgRNA文库的分析方法采用如下的技术方案,包括:
获取原始样本数据和原始sgRNA文库信息;
对所述原始样本数据进行预处理,得到目标样本数据;
比对所述目标样本数据与所述原始sgRNA文库信息,得到匹配信息,所述匹配信息包括完全匹配信息、部分匹配信息;
基于所述匹配信息,对所述原始sgRNA文库信息进行分析,得到分析结果,确定目标基因。
可选的,所述获取原始样本数据,包括:
获取原始配置信息;
根据所述原始配置信息中的样本脚本,确定所述原始样本数据的位置并提取所述原始样本数据,所述原始样本数据包括第一测序数据和第二测序数据。
可选的,所述对所述原始样本数据进行预处理,得到目标样本数据,包括:
依照预设处理条件对所述第一测序数据进行质控和过滤,得到第一目标数据;
依照所述预设处理条件对所述第二测序数据进行质控和过滤,得到第二目标数据;
将所述第一目标数据和所述第二目标数据进行合并,得到所述目标样本数据。
可选的,所述比对所述目标样本数据与所述原始sgRNA文库信息,得到匹配信息,包括:
校验所述目标样本数据,基于校验结果确定所述目标样本数据中的第一统计信息;
基于所述第一统计信息和所述原始sgRNA文库信息,得到匹配信息。
可选的,所述基于所述匹配信息,对所述原始sgRNA文库信息进行分析,得到分析结果,确定目标基因,包括:
基于所述匹配信息进行差异分析,得到差异分析结果;
根据所述差异分析结果,按照预设筛选顺序筛选目标基因;分析得到所述目标基因的可视化结果和富集分析结果。
可选的,所述基于所述匹配信息,对所述原始sgRNA文库信息进行分析,得到分析结果,包括:
对所述匹配信息进行标准化,基于标准化结果绘制箱线图,得到分布结果。
可选的,还包括:
所述目标样本数据包括处理样本;
对所述处理样本进行主成分分析和样本相关性聚类分析,得到相关性分析结果。
可选的,还包括:
汇总所述分布结果、所述差异分析结果、所述目标基因的可视化结果和富集分析结果中的至少一个,生成分析报告。
本申请提供的一种sgRNA文库的分析系统采用如下的技术方案,包括:
获取模块,用于获取原始样本数据和原始sgRNA文库信息;
预处理模块,用于对所述原始样本数据进行预处理,得到目标样本数据;
比对模块,用于比对所述目标样本数据与所述原始sgRNA文库信息,得到匹配信息,所述匹配信息包括完全匹配信息、部分匹配信息;
分析模块,用于基于所述匹配信息,对所述原始sgRNA文库信息进行分析,得到分析结果,确定目标基因。
可选的,所述获取模块,包括:
第一获取子模块,用于获取原始配置信息;
第二获取子模块,用于根据所述原始配置信息中的样本脚本,确定所述原始样本数据的位置并提取所述原始样本数据,所述原始样本数据包括第一测序数据和第二测序数据。
可选的,所述预处理模块,包括:
第一预处理子模块,用于依照预设处理条件对所述第一测序数据进行质控和过滤,得到第一目标数据;
第二预处理子模块,用于依照所述预设处理条件对所述第二测序数据进行质控和过滤,得到第二目标数据;
合并子模块,用于将所述第一目标数据和所述第二目标数据进行合并,得到所述目标样本数据。
可选的,所述比对模块,包括:
校验子模块,用于校验所述目标样本数据,基于校验结果确定所述目标样本数据中的第一统计信息;
匹配子模块,用于基于所述第一统计信息和所述原始sgRNA文库信息,得到匹配信息。
可选的,所述分析模块,包括:
差异分析子模块,用于基于所述匹配信息进行差异分析,得到差异分析结果;
第二分析子模块,用于根据所述差异分析结果,按照预设筛选顺序筛选目标基因;分析得到所述目标基因的可视化结果和富集分析结果。
可选的,所述分析模块,包括:
分布分析子模块,用于对所述匹配信息进行标准化,基于标准化结果绘制箱线图,得到分布结果。
可选的,还包括:
所述目标样本数据包括处理样本;
聚类分析子模块,用于对所述处理样本进行主成分分析和样本相关性聚类分析,得到相关性分析结果。
可选的,还包括:
报告生成子模块,用于汇总所述分布结果、所述差异分析结果、所述目标基因的可视化结果和富集分析结果中的至少一个,生成分析报告。
本说明书还提供一种电子设备,其中,该电子设备包括:
处理器;以及,
存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述任一项方法。
本说明书还提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现上述任一项方法。
本申请中,通过获取原始样本数据和原始sgRNA文库信息;对所述原始样本数据进行预处理,得到目标样本数据;比对所述目标样本数据与所述原始sgRNA文库信息,得到匹配信息,所述匹配信息包括完全匹配信息、部分匹配信息;基于所述匹配信息,对所述原始sgRNA文库信息进行分析,得到分析结果,确定目标基因,提高sgRNA文库的分析准确性,减少人力物力成本。
附图说明
图1为本说明书实施例提供的一种sgRNA文库的分析方法的原理示意图;
图2为本说明书实施例提供的一种sgRNA文库的分析方法的流程示意图;
图3为本说明书实施例提供的一种sgRNA文库的分析方法的箱体图的示意图;
图4为本说明书实施例提供的一种sgRNA文库的分析方法的主成分分析图的示意图;
图5为本说明书实施例提供的一种sgRNA文库的分析方法的样本相关性聚类热图的示意图;
图6为本说明书实施例提供的一种sgRNA文库的分析方法的可视化结果的示意图;
图7为本说明书实施例提供的一种sgRNA文库的分析方法的富集分析结果示意图;
图8为本说明书实施例提供的一种sgRNA文库的分析方法的分析报告的示意图;
图9为本说明书实施例提供的一种sgRNA文库的分析系统的结构示意图;
图10为本说明书实施例提供的一种电子设备的结构示意图;
图11为本说明书实施例提供的一种计算机可读介质的原理示意图。
具体实施方式
以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例,本领域技术人员可以想到其他显而易见的变型。在以下描述中界定的本发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。
现在将参考附图更全面地描述本发明的示例性实施例。然而,示例性实施例能够以多种形式实施,且不应被理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例能够使得本发明更加全面和完整,更加便于将发明构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的元件、组件或部分,因而将省略对它们的重复描述。
在符合本发明的技术构思的前提下,在某个特定的实施例中描述的特征、结构、特性或其他细节不排除可以以合适的方式结合在一个或更多其他的实施例中。
在对于具体实施例的描述中,本发明描述的特征、结构、特性或其他细节是为了使本领域的技术人员对实施例进行充分理解。但是,并不排除本领域技术人员可以实践本发明的技术方案而没有特定特征、结构、特性或其他细节的一个或更多。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
术语“和/或”或者“及/或”包括相关联的列出项目中的任一个或多者的所有组合。
图1为本说明书实施例提供的一种sgRNA文库的分析方法的原理示意图,该方法包括:
S1获取原始样本数据和原始sgRNA文库信息;
S2对所述原始样本数据进行预处理,得到目标样本数据;
S3比对所述目标样本数据与所述原始sgRNA文库信息,得到匹配信息,所述匹配信息包括完全匹配信息、部分匹配信息;
S4基于所述匹配信息,对所述原始sgRNA文库信息进行分析,得到分析结果,确定目标基因。
CRISPR-Cas9是细菌和古细菌在长期演化过程中形成的一种适应性免疫防御,可用来对抗入侵的病毒及外源DNA。而CRISPR-Cas9基因编辑技术,则是对靶向基因进行特定DNA修饰的技术。
以CRISPR-Cas9基础的基因编辑技术在动植物基因组编辑领域得到了广泛应用,比如人类细胞、斑马鱼、小鼠以及细菌的基因组精确修饰。而且,其在相关领域都展现出极大的应用前景,例如辅助治疗血液病、肿瘤和其他遗传疾病。
CRISPR/Cas9的基因敲除文库可靶向编辑全基因组范围的目的基因,通过高通量测序,利用生物信息学手段统计sgRNA文库的丰度,从而鉴定出与特定表型相关的基因。其中,sgRNA文库丰度统计分析的准确性尤为重要。为了提高sgRNA文库丰度统计分析的准确性,本发明提供一种sgRNA文库的分析方法,如图2所示,其具体包括:
S1获取原始样本数据和原始sgRNA文库信息;
S31获取原始配置信息,在本说明书的一个实施例中,S31-1获取原始项目信息;原始项目信息包括:样本文库对应关系信息、合同编号信息、项目单号信息、以及其他信息。其他信息包括与客户技术支持、销售有关的信息。
S31-2对原始项目信息进行配置,得到原始配置信息。
原始配置信息包括主流程脚本和其他配置信息。所述其他配置信息包括:样本脚本、工作目录和项目结题邮件。
在本说明书的一个实施例中,根据样本文库对应关系在原始数据存放路径寻找项目单号对应的原始样本数据的位置,基于样本数据的位置生成样本脚本,其中,样本脚本用于获取原始样本数据,原始样本数据是经测序得到的测序数据(Reads)。
根据合同编号信息及项目单号创建相应的工作目录,确定对照组和处理组样本分组表。
根据其他信息生成项目结题邮件。
在本说明书的一个实施例中,原始配置信息的文件格式为json文件。
S32根据所述原始配置信息中的样本脚本,确定所述原始样本数据的位置并提取所述原始样本数据;
其中,原始样本数据包括第一测序数据和第二测序数据,其中,第一测序数据为R1数据,第二测序数据为R2数据。
原始sgRNA文库信息是基于CRISPR/Cas9预先构建好的文库,原始sgRNA文库信息包括若干个向导DNA(sgRNA)的信息,每一sgRNA作为一个原始对象,确定默认的sgRNA总数。
S2对所述原始样本数据进行预处理,得到目标样本数据;
S21依照预设处理条件对所述第一测序数据进行质控和过滤,得到第一目标数据;依照所述预设处理条件对所述第二测序数据进行质控和过滤,得到第二目标数据;
在本说明书的一个实施例中,预设处理条件包括:对原始样本数据中的碱基质量分布、reads平均错误率分布、reads测序碱基含量分布等进行质控;确定并记录测序数据中的碱基质量分布、碱基含量分布(Base Content分布)、碱基对分布(GC分布)和测序数据中每个碱基的质量值(Sequence Base Quality)。
过滤质量低的序列和碱基,并输出高质量的序列,作为高质量数据。
作为优选的,可以使用fastp软件对原始样本数据中的各个测序片段进行质控。
按照上述步骤对第一测序数据进行处理,得到第一目标数据R1;按照上述步骤对第二测序数据进行处理,得到第二目标数据R2。
S22将所述第一目标数据R1和所述第二目标数据R2进行合并,得到所述目标样本数据;
第一目标数据R1和第二目标数据R2成功合并是进行后续分析的关键,后续分析是基于R1和R2合并后的数据进行分析,在合并完成之后,统计目标样本数据中的测序片段的数量和百分比,以检验目标样本数据是否适合下一步分析。
S3比对所述目标样本数据与所述原始sgRNA文库信息,得到匹配信息;
S31校验所述目标样本数据,基于校验结果确定所述目标样本数据中的第一统计信息;
考虑到,sgRNA的上游有13bp的保守序列(Key序列),基于其保守序列,可以确定sgRNA的位置。在本说明书的一个实施例中,预设序列为预先设置的13bp的保守序列。
第一统计信息包括:所有待定对象的序列信息。其中的待定对象是基于预设序列从目标样本数据中提取到的sgRNA。
S31-1校验所述目标样本数据中的所述预设序列和样本分组信息;
所述目标样本数据包括若干样本(Sample),基于目标样本数据,确定对照样本组和处理样本组。对照样本组包括若干个对照样本;处理样本组包括若干个处理样本。在本说明书的一个实施例中,如果目标样本数据存在多个样本A1、A2、A3、A4,可以设定多组对照,继而确定样本分组信息。比如,将样本A1与样本A作为一组对照(Contrast),其中,样本A1为对照样本(Control),样本A2为处理样本(Treatment);将样本A3与样本A4作为一组对照(Contrast),其中,样本A3为对照样本(Control),样本A4为处理样本(Treatment)。
关于S31-1,在本说明书的一个实施例中,读取目标样本数据,并对目标样本数据进行解析,得到解析结果,解析结果包括预设序列和样本分组信息,所述样本分组信息包括对照样本的分组信息和处理样本的分组信息。
判断解析结果是否符合预设校验条件,若否,则生成提示信息;若是,则进行任务提交流程。
具体的,判断解析结果是否符合预设校验条件,包括:
判断预设序列是否符合第一预设校验规则;
判断样本分组信息是否符合第二预设校验规则;
若预设序列不符合第一预设校验规则、或者样本分组信息不符合第二预设校验规则,则认定解析结果不符合预设校验规则,生成提示信息。
在本说明书的一个实施例中,第一预设校验规则为:碱基序列依次为GGACGAAACACCG。
若预设序列符合预设第一校验规则、且样本分组信息符合第二预设校验规则,则认定解析结果符合预设校验规则,基于预设序列确定所述目标样本数据中的第一统计信息;
S32基于所述第一统计信息和所述原始sgRNA文库信息,得到匹配信息。
匹配信息包括完全匹配信息、部分匹配信息、完全不匹配信息和其他匹配信息。
其中,将原始对象与待定对象进行匹配,确定与原始对象完全相同的待定对象的数目,作为完全匹配信息;确定与原始对象部分相同的待定对象的数目,作为部分匹配信息;确定与原始对象完全不相同的待定对象的数目,作为完全不匹配信息。
其他匹配信息包括:统计的测序片段的总和、包含key序列的测序片段数目、未检测到的sgRNA占文库sgRNA数量的比例等。
在本说明书的一个实施例中,完全匹配信息包括:与文库sgRNA完全匹配的reads数目(Number of perfect guide matches)。部分匹配信息包括:与文库sgRNA部分匹配的reads数目(Number of nonperfect guide matches)。完全不匹配信息包括:与文库sgRNA完全不匹配的reads数目(Number of reads where key was not found)。统计的测序片段的总和,包括:以上三种reads的总和(Number of reads processed)。
在本说明书的一个实施例中,根据key序列,计算目标样本数据中包含key序列的测序片段数目,确定有reads完全匹配的文库sgRNA的比例(Percentage of guides thatmatched perfectly)。
对于原始sgRNA文库信息中的每一原始对象(sgRNA)来说,如果其与之完全匹配的测序片段的数目为0,则认为,该原始对象(sgRNA)未被检测到。获取未被检测到的原始对象(sgRNA)的信息,确定未被检测到的原始对象(sgRNA)的个数与默认的sgRNA总数的占比,作为没检测到的文库sgRNA的比例(Percentage of undetected guides),从而确定文库偏差率(Skew ratio of top 10%to bottom 10%),以便于提高统计准确性,已经减少比对时间,其中,文库偏差率=top_10分位数/bottom_10分位数。
在本说明书的一个实施例中,处理样本A和处理样本B中的匹配信息的结果如表1所示:
匹配信息的类别 | A | B |
与文库sgRNA完全匹配的reads数目 | 6002147 | 5591461 |
与文库sgRNA部分匹配的reads数目 | 1253954 | 1041762 |
与文库sgRNA完全不匹配的reads数目 | 63624 | 72001 |
以上三种reads的总和 | 7319725 | 6705224 |
有reads完全匹配的文库sgRNA的比例 | 82.7% | 84.3% |
没检测到的文库sgRNA的比例 | 99.6% | 99.3% |
文库偏差率 | * | * |
(表1)
在本说明书的另一个实施例中,匹配信息还包括原始sgRNA文库的丰度。
将除了完全不匹配信息对应的特定对象之外的待定对象作为匹配对象。即,匹配对象的序列信息与原始sgRNA文库中的信息至少有部分匹配。即,原始sgRNA文库信息包括匹配对象。
S4基于所述匹配信息,对所述原始sgRNA文库信息进行分析,得到分析结果,确定目标基因。
S41对所述匹配信息进行标准化,基于标准化结果绘制箱线图,得到分布结果。在本说明书的一个实施例中,首先,根据匹配信息得到样本对应的原始sgRNA文库丰度统计的结果,如表2所示:
其中,第一列显示具体的基因名称(Gene ID),第二列显示具体的sgRNA名称(sgRNA ID),第三列显示sgRNA碱基序列,最后三列显示的sgRNA丰度统计的结果,具体的,第四列显示处理样本A对应的sgRNA丰度、第五列显示处理样本B对应的sgRNA丰度、第六列显示对照样本组(NC)对应的sgRNA丰度。
(表2)
使用mageck软件对统计得到的sgRNA文库丰度进行标准化,得到标准化后的sgRNA数量,作为标准化结果(sgRNA counts normalized),然后基于标准化结果绘制箱线图。在本说明书的一个实施例中,箱线图如图3所示,其中,横坐标显示样本名称(Sample),即,4T1_CTR1、4T1_CTR2、4T1_CTR3、4T1_PA_1、4T1_PA_2、4T1_PA_3表示不同的样本,其样本名称依照实际情况进行调整。纵坐标表示标准化后的sgRNA数量取对数(log值)的结果(log2(Nomalized sgRNA count))。通过将sgRNA文库丰度的统计结果转化为线性关系,以便更好地分析和理解实验结果。
S42基于所述匹配信息进行差异分析,得到差异分析结果;
根据预先指定的对照样本组和处理样本组,使用RRA(Robust Rank Aggregation)算法对匹配信息进行差异分析,得到差异分析结果;
差异分析结果包括正负向选择下的差异情况和正向选择下的差异情况。在本说明书的一个实施例中,各基因的负向选择下的差异情况如表3所示。
各基因的负向选择下的差异情况具体包括:neg|score、neg|p-value、neg|fdr、neg|rank、neg|goodsgrna和neg|lfc。其中,neg|score表示该基因的负向选择下的RRA值;neg|p-value表示该基因在负向选择下的原始p统计值;neg|fdr表示负向选择下的错误发现率;neg|rank表示负向选择下的排名;neg|goodsgrna表示负向选择下的“good”的sgRNA数目;neg|lfc表示负向选择下的基因表达差异(log2 fold change,log2FC)。Num表示sgRNA数量。
(表3)
在本说明书的一个实施例中,各基因的正向选择下的差异情况,如表4所示。
各基因的正向选择下的差异情况具体包括:pos|score、pos|p-value、pos|fdr、pos|rank、pos|goodsgrna和pos|lfc。其中,pos|score表示该基因的正向选择下的RRA值;pos|p-value表示基因在正向选择下的原始p统计值;pos|fdr表示正向选择下的错误发现率;pos|rank表示正向选择下的排名;pos|goodsgrna表示正向选择下的“good”的sgRNA数目;pos|lfc表示正向选择下的基因表达差异(log2 fold change,log2FC)。
(表4)
在本说明书的另一个实施例中,对处理样本进行排序,得到处理样本的排名。根据排名计算每个处理样本的得分,得分越高表示该处理样本在整体中的地位越重要。将得分进行加权平均,得到每个处理样本的平均得分。根据平均得分计算差异系数,差异系数越大表示两个处理样本之间的差异越大。根据差异系数进行差异显著性检验,确定差异是否具有统计学显著性。
S43对所述处理样本进行主成分分析和样本相关性聚类分析,得到相关性分析结果。相关性分析结果用于展示处理样本间的聚类关系及样本间相关性,相关性分析结果包括主成分分析结果和相关性聚类分析结果。
在本说明书的一个实施例中,主成分分析结果以主成分分析图的形式展现,如图4所示,横坐标表示第一主成分(PC1),纵坐标表示第二主成分(PC2),Condition表示样本,其中的HT-29-LX818、HT-29-D14、HT-29LX818-CT、HT-29-D0为表示不同的样本,在主成分分析图中,基于各个样本之间的距离展示样本间的相互关系。
在本说明书的一个实施例中,相关性聚类分析结果以样本相关性聚类热图的形式展现,如图5所示,两个样本对应的数字越大、色块颜色越深,则表示样本间的相关性强度越高。
S44根据所述差异分析结果,按照预设筛选顺序筛选目标基因;分析得到所述目标基因的可视化结果和富集分析结果;
在本说明书的一个实施例中,首先,S44-1根据所述差异分析结果,按由低到高的顺序分别对正向筛选和负向筛选的所述匹配进行排序,基于排序结果筛选目标基因,作为必须基因,得到必须基因的筛选的结果;
然后,S44-2可视化表达目标基因的表达数据;在本说明书的一个实施例中,可视化组间sgRNA counts比较的结果;如图6所示,显示在Rankl_1_vs_NC neg这个比较组中,各基因的RRA得分的分布情况,其中,Rankl_1表示一个处理样本组,NC neg表示一个对照样本组,横坐标表示基因数量,纵坐标表示RRA得分,其中的CDY2A、FOXD4L3、TSPY1、FOXD4L2、PRDM6、FHL2、SCXA、LHX9、NEK9、ATOH1表示不同的基因。其中的RRA得分越高,表示差异基因越显著。
在本说明书的其他实施例中,使用R中的绘图函数,如plot()、ggplot2()等,绘制柱状图、箱线图、散点图等图形,以展示目标基因在不同处理样本中的表达情况。
再者,S44-3使用R中的绘图函数,如plot()、ggplot2()等,绘制富集分析结果的柱状图、饼图等图形,以展示目标基因在GO(Gene Ontology)和KEGG中的富集情况,得到基因富集分析的结果。具体的,如图7所示,在基因富集分析的结果中,横坐标表示富集到各GO条目上的基因数目占富集分析基因树的比值,纵坐标表示GO通路名称,气泡的颜色对应校正后的p值(p.adjust),气泡的大小对应做富集分析的基因(gene)中富集到各GO条目上的基因数量(Count)。
目前主流的sgRNA文库丰度统计方法主要是通过将测序片段(reads)与sgRNA文库比对的方法来统计与sgNRA文库中完全匹配的sgRNA数目及丢失的sgRNA。
尽管有些算法会切除FASTQ文件中的一致性序列,但仍然存在假阳性的概率。并且通常为了统计sgRNA在不同样本间的消耗和富集情况,需要进行差异分析来鉴定候选基因。
虽然分析流程及内容相对固定,但需要人工整理分析所需的文件,耗费大量人力物力,为了减少分析项目对人力的依赖,提高分析项目的准确性,并且缩短项目周期,本说明书提供一种构建任务集群进行分析的实施例:
其中,流程包括校验任务(S3),分析任务(S4),其中,S41-S44分别为四个分析任务。基于集群的任务信息,进行分配和管理。
具体的,实时监测集群中各个任务的处理状态:
当监测到集群中的任务完成时,生成jobid.finish文件,更新该部分处理状态为处理完成状态;并进行下一步的任务;通过减少人工干预和错误的可能性,提高了数据处理效率和准确性。
当监测到集群中的任务失败时,生成jobid.failed文件,更新该部分处理状态为处理失败状态,并进行报错。在本说明书的一个实施例中,当检测到分析失败的任务时,中断所有操作;生成任务失败相应的日志信息,并对此日志信息进行保留。
当解决失败任务报错问题后,重新进行分析,检索未完成的分析内容,继续进行未完成的任务,实现断点续投。
为了便于查看分析结果,S5汇总所述分布结果、所述差异分析结果、所述目标基因的可视化结果和富集分析结果中的至少一个,生成分析报告。
分析报告的格式和展示类型不做限制。
基于本发明的应用场景不同,其分析报告的类型有所差异。在本说明书的一个实施例中,如果将本发明应用与研究项目或课题,其分析报告包括结题报告。在本说明书的一个实施例中,如图8所示展现了网页版的分析报告的形式,网页版的分析报告包括数据质控阶段的数据、获取的高质量数据、sgRNA丰度统计的结果、基因富集分析的结果、标准化结果(sgRNA counts normalized)、组间sgRNA counts比较的结果、必须基因的筛选的结果等。其中,数据质控阶段的数据,包括:测序数据中的碱基质量分布、碱基含量分布(BaseContent分布)、碱基对分布(GC分布)和测序数据中每个碱基的质量值(Sequence BaseQuality)。在本说明书的另一实施例中,还可以在原始样本数据的处理过程中,统计并记录下机数据,以体现在网页版的分析报告中;在本说明书的又一实施例中,还可以在网页版的分析报告中增加理论性内容,比如测序概述等。
图9为本说明书实施例提供的一种sgRNA文库的分析系统的结构示意图,该系统包括:
获取模块901,用于获取原始样本数据和原始sgRNA文库信息;
预处理模块902,用于对所述原始样本数据进行预处理,得到目标样本数据;
比对模块903,用于比对所述目标样本数据与所述原始sgRNA文库信息,得到匹配信息,所述匹配信息包括完全匹配信息、部分匹配信息;
分析模块904,用于基于所述匹配信息,对所述原始sgRNA文库信息进行分析,得到分析结果,确定目标基因。
可选的,所述获取模块901,包括:
第一获取子模块,用于获取原始配置信息;
第二获取子模块,用于根据所述原始配置信息中的样本脚本,确定所述原始样本数据的位置并提取所述原始样本数据,所述原始样本数据包括第一测序数据和第二测序数据。
可选的,所述预处理模块902,包括:
第一预处理子模块,用于依照预设处理条件对所述第一测序数据进行质控和过滤,得到第一目标数据;
第二预处理子模块,用于依照所述预设处理条件对所述第二测序数据进行质控和过滤,得到第二目标数据;
合并子模块,用于将所述第一目标数据和所述第二目标数据进行合并,得到所述目标样本数据。
可选的,所述比对模块903,包括:
校验子模块,用于校验所述目标样本数据,基于校验结果确定所述目标样本数据中的第一统计信息;
匹配子模块,用于基于所述第一统计信息和所述原始sgRNA文库信息,得到匹配信息。
可选的,所述分析模块904,包括:
差异分析子模块,用于基于所述匹配信息进行差异分析,得到差异分析结果;
第二分析子模块,用于根据所述差异分析结果,按照预设筛选顺序筛选目标基因;分析得到所述目标基因的可视化结果和富集分析结果。
可选的,所述分析模块904,包括:
分布分析子模块,用于对所述匹配信息进行标准化,基于标准化结果绘制箱线图,得到分布结果。
可选的,还包括:
所述目标样本数据包括处理样本;
聚类分析子模块,用于对所述处理样本进行主成分分析和样本相关性聚类分析,得到相关性分析结果。
可选的,还包括:
报告生成子模块,用于汇总所述分布结果、所述差异分析结果、所述目标基因的可视化结果和富集分析结果中的至少一个,生成分析报告。
本发明实施例的装置的功能已经在上述的方法实施例中进行了描述,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种sgRNA文库的分析方法,其特征在于,包括:
获取原始样本数据和原始sgRNA文库信息;
对所述原始样本数据进行预处理,得到目标样本数据;
比对所述目标样本数据与所述原始sgRNA文库信息,得到匹配信息,所述匹配信息包括完全匹配信息、部分匹配信息;
基于所述匹配信息,对所述原始sgRNA文库信息进行分析,得到分析结果,确定目标基因。
2.如权利要求1所述的一种sgRNA文库的分析方法,其特征在于,所述获取原始样本数据,包括:
获取原始配置信息;
根据所述原始配置信息中的样本脚本,确定所述原始样本数据的位置并提取所述原始样本数据,所述原始样本数据包括第一测序数据和第二测序数据。
3.如权利要求2所述的一种sgRNA文库的分析方法,其特征在于,所述对所述原始样本数据进行预处理,得到目标样本数据,包括:
依照预设处理条件对所述第一测序数据进行质控和过滤,得到第一目标数据;
依照所述预设处理条件对所述第二测序数据进行质控和过滤,得到第二目标数据;
将所述第一目标数据和所述第二目标数据进行合并,得到所述目标样本数据。
4.如权利要求1所述的一种sgRNA文库的分析方法,其特征在于,所述比对所述目标样本数据与所述原始sgRNA文库信息,得到匹配信息,包括:
校验所述目标样本数据,基于校验结果确定所述目标样本数据中的第一统计信息;
基于所述第一统计信息和所述原始sgRNA文库信息,得到匹配信息。
5.如权利要求1所述的一种sgRNA文库的分析方法,其特征在于,所述基于所述匹配信息,对所述原始sgRNA文库信息进行分析,得到分析结果,确定目标基因,包括:
基于所述匹配信息进行差异分析,得到差异分析结果;
根据所述差异分析结果,按照预设筛选顺序筛选目标基因;分析得到所述目标基因的可视化结果和富集分析结果。
6.如权利要求1所述的一种sgRNA文库的分析方法,其特征在于,所述基于所述匹配信息,对所述原始sgRNA文库信息进行分析,得到分析结果,包括:
对所述匹配信息进行标准化,基于标准化结果绘制箱线图,得到分布结果。
7.如权利要求1所述的一种sgRNA文库的分析方法,其特征在于,还包括:
所述目标样本数据包括处理样本;
对所述处理样本进行主成分分析和样本相关性聚类分析,得到相关性分析结果。
8.如权利要求5-7所述的一种sgRNA文库的分析方法,其特征在于,还包括:
汇总所述分布结果、所述差异分析结果、所述目标基因的可视化结果和富集分析结果中的至少一个,生成分析报告。
9.一种sgRNA文库的分析系统,其特征在于,包括:
获取模块,用于获取原始样本数据和原始sgRNA文库信息;
预处理模块,用于对所述原始样本数据进行预处理,得到目标样本数据;
比对模块,用于比对所述目标样本数据与所述原始sgRNA文库信息,得到匹配信息,所述匹配信息包括完全匹配信息、部分匹配信息;
分析模块,用于基于所述匹配信息,对所述原始sgRNA文库信息进行分析,得到分析结果,确定目标基因。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311697687.4A CN118016145A (zh) | 2023-12-11 | 2023-12-11 | 一种sgRNA文库的分析方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311697687.4A CN118016145A (zh) | 2023-12-11 | 2023-12-11 | 一种sgRNA文库的分析方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118016145A true CN118016145A (zh) | 2024-05-10 |
Family
ID=90958786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311697687.4A Pending CN118016145A (zh) | 2023-12-11 | 2023-12-11 | 一种sgRNA文库的分析方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118016145A (zh) |
-
2023
- 2023-12-11 CN CN202311697687.4A patent/CN118016145A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Duò et al. | A systematic performance evaluation of clustering methods for single-cell RNA-seq data | |
Melo et al. | GBS-SNP-CROP: a reference-optional pipeline for SNP discovery and plant germplasm characterization using variable length, paired-end genotyping-by-sequencing data | |
Alexa et al. | Improved scoring of functional groups from gene expression data by decorrelating GO graph structure | |
AU2011352786B2 (en) | Data analysis of DNA sequences | |
CN114420212B (zh) | 一种大肠杆菌菌株鉴定方法和系统 | |
Külahoglu et al. | Quantitative transcriptome analysis using RNA-seq | |
Hill et al. | A deep learning approach for detecting copy number variation in next-generation sequencing data | |
US9008974B2 (en) | Taxonomic classification system | |
Tang et al. | MAC: merging assemblies by using adjacency algebraic model and classification | |
Langfelder et al. | Package ‘WGCNA’ | |
CN118016145A (zh) | 一种sgRNA文库的分析方法和系统 | |
CN107688727B (zh) | 生物序列聚类和全长转录组中转录本亚型识别方法和装置 | |
Morais et al. | Medusa: A pipeline for sensitive taxonomic classification and flexible functional annotation of metagenomic shotgun sequences | |
CN114723516A (zh) | 基于成单数据的用户相似度计算方法及系统 | |
CN113407700A (zh) | 一种数据查询方法、装置和设备 | |
CN111651987A (zh) | 身份判别方法及装置、计算机可读存储介质、电子设备 | |
Fattel et al. | Standardized genome-wide function prediction enables comparative functional genomics: a new application area for Gene Ontologies in plants | |
Einipoura et al. | FSPAM: a feature construction method to identifying cell populations in ScRNA-seq data | |
CN114496089B (zh) | 一种病原微生物鉴定方法 | |
Kim et al. | Cloud-scale SNP detection from RNA-Seq data | |
CN116153410B (zh) | 微生物基因组参考数据库及其构建方法和应用 | |
Moutsopoulos et al. | noisyR: Enhancing biological signal in sequencing datasets by characterising random technical noise | |
CN116364182A (zh) | 一种单细胞转录组与tcr和bcr测序数据的整合分析方法 | |
KR102110017B1 (ko) | 분산 처리에 기반한 miRNA 분석 시스템 | |
WO2024138691A1 (zh) | 微生物物种鉴定方法、系统、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |