CN110504006B - 一种处理扩增子数据的方法、系统、平台及存储介质 - Google Patents
一种处理扩增子数据的方法、系统、平台及存储介质 Download PDFInfo
- Publication number
- CN110504006B CN110504006B CN201910636461.0A CN201910636461A CN110504006B CN 110504006 B CN110504006 B CN 110504006B CN 201910636461 A CN201910636461 A CN 201910636461A CN 110504006 B CN110504006 B CN 110504006B
- Authority
- CN
- China
- Prior art keywords
- amplicon
- file
- data
- information
- reads
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及生物技术领域,具体涉及一种处理扩增子数据的方法、系统、平台及存储介质。获取下机扩增子数据,将同一批的下机扩增子数据,按照项目类型放置;对扩增子数据进行去除和过滤处理;获取参考基因组数据,并将经过去除和过滤处理后得到的扩增子数据与参考基因组进行比对,得到扩增子比对后格式文件;获取扩增子信息文件,将扩增子信息文件与扩增子比对后格式文件进行统计分析处理,得到每一个扩增子的捕获数据。可以实现高效的、智能简便的处理方式,来达到处理扩增子数据的目的,而且适应性高、扩展性强。
Description
技术领域
本发明涉及生物技术领域,具体涉及一种处理扩增子数据的方法、系统、平台及存储介质。
背景技术
高通量测序技术是现代基础生物学研究和医学检测的常规实验方法。随着高通量测序技术的发展,测序成本下降,新一代测序技术通过构建了大量常规物种的全基因组图谱,促进了测序技术的高速发展。但全基因组测序仍存在结构复杂,数据量大,周期长,费用高等问题。扩增子测序(Amplicon Sequencing)是只对研究者感兴趣的特定基因组区域进行测序研究的方法。通过设计目标区域的引物,再使用PCR进行扩增,对感兴趣的区域进行富集,然后针对性的对捕获的片段或者特定长度的PCR产物进行建库,使用高通量测序,然后分析其中变异位点。扩增子测序除了目标区域扩增子测序外,还包括16S rDNA测序、18SrDNA测序、ITS测序等。
目前,针对扩增子测序的下机数据,其他公司和机构大多使用FastQC、multiQC等软件对数据的整体质量进行质量统计,未有针对每个扩增子进行捕获效率分析的方法。这种常规的方法有以下弊端:通用的软件输出的结果比较少,不能概括数据的整体;需要多个软件搭配操作,流程繁琐,速度慢;不能分析每个扩增子的捕获效率,无法针对性的改进实验流程。
发明内容
针对以上通用的软件输出的结果比较少,不能概括数据的整体,且需要多个软件搭配操作,流程繁琐,速度慢;不能分析每个扩增子的捕获效率,无法针对性的改进实验流程的技术问题,本发明提供一种处理扩增子数据的方法、系统、平台及存储介质,用一种高效的、智能简便的处理方式,来达到处理扩增子数据的目的及效果。
本发明具体通过以下技术方案实现:
一种处理扩增子数据的方法,所述的方法具体包括如下步骤:
获取下机扩增子数据,将同一批的下机扩增子数据,按照项目类型放置;
对扩增子数据进行去除和过滤处理;
获取参考基因组数据,并将经过去除和过滤处理后得到的扩增子数据与参考基因组进行比对,得到扩增子比对后格式文件;
获取扩增子信息文件,将扩增子信息文件与扩增子比对后格式文件进行统计分析处理,得到每一个扩增子的捕获数据。
进一步地,于步骤获取下机扩增子数据,将同一批的下机扩增子数据,按照项目类型放置之前,还包括步骤:
获取样本数据信息;
所述的样本信息包括每个样本的项目类型信息,受检者信息。
进一步地,所述的按照项目类型放置,具体为根据样本信息中的项目类型信息,将不同的项目下机扩增子数据自动放置到不同文件夹下。
进一步地,所述的扩增子比对后格式文件具体为sam文件。
进一步地,于步骤获取下机扩增子数据,将同一批的下机扩增子数据,按照项目类型放置之中,还包括步骤:
添加新的扩增子数据项目类型。
为实现上述目的,本发明还提供一种处理扩增子数据的系统,所述的系统具体包括:
第一获取单元,用于获取下机扩增子数据,将同一批的下机扩增子数据,按照项目类型放置;
第一处理单元,用于对扩增子数据进行去除和过滤处理;
比对单元,用于获取参考基因组数据,并将经过去除和过滤处理后得到的扩增子数据与参考基因组进行比对,得到扩增子比对后格式文件;
第二处理单元,用于获取扩增子信息文件,将扩增子信息文件与扩增子比对后格式文件进行统计分析处理,得到每一个扩增子的捕获数据。
进一步地,所述的系统还包括:
第二获取单元,用于获取样本数据信息;
相应地,所述的第一获取单元包括:
添加模块,用于添加新的扩增子数据项目类型。
为实现上述目的,本发明还提供一种处理扩增子数据的平台,包括:
处理器、存储器以及处理扩增子数据平台控制程序;
其中在所述的处理器执行所述处理扩增子数据平台控制程序,所述处理扩增子数据平台控制程序被存储在所述存储器中,所述的处理扩增子数据平台控制程序,实现所述的处理扩增子数据的方法步骤。
为实现上述目的,本发明还提供一种计算机可读取存储介质,所述计算机可读取存储介质存储有处理扩增子数据平台控制程序,所述处理扩增子数据平台控制程序,实现所述的处理扩增子数据的方法步骤。
与现有技术相比,本发明具有以下有益效果:
本发明通过一种处理扩增子数据的方法,
获取下机扩增子数据,将同一批的下机扩增子数据,按照项目类型放置;
对扩增子数据进行去除和过滤处理;
获取参考基因组数据,并将经过去除和过滤处理后得到的扩增子数据与参考基因组进行比对,得到扩增子比对后格式文件;
获取扩增子信息文件,将扩增子信息文件与扩增子比对后格式文件进行统计分析处理,得到每一个扩增子的捕获数据。
及相应地系统单元和模块:
第一获取单元,用于获取下机扩增子数据,将同一批的下机扩增子数据,按照项目类型放置;
第一处理单元,用于对扩增子数据进行去除和过滤处理;
比对单元,用于获取参考基因组数据,并将经过去除和过滤处理后得到的扩增子数据与参考基因组进行比对,得到扩增子比对后格式文件;
第二处理单元,用于获取扩增子信息文件,将扩增子信息文件与扩增子比对后格式文件进行统计分析处理,得到每一个扩增子的捕获数据。
进一步地,所述的系统还包括:
第二获取单元,用于获取样本数据信息;
相应地,所述的第一获取单元包括:
添加模块,用于添加新的扩增子数据项目类型。
及相应地平台及存储介质;
可以实现高效的、智能简便的处理方式,来达到处理扩增子数据的目的,即可自动得到同一批次不同项目所有数据的数据质量统计值,以及每个样本的每个扩增子捕获效率。可以针对性的对每个项目进行改进。适应性高,对每个扩增子测序项目均可进行分析。扩展性强,只要更新扩增子信息即可对新项目进行分析。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种处理扩增子数据的方法架构流程示意图;
图2为本发明一种处理扩增子数据的系统架构示意图;
图3为本发明一种处理扩增子数据的系统之模块框架示意图;
图4为本发明一种处理扩增子数据的平台架构示意图;
图5为本发明一种实施例中计算机可读取存储介质架构示意图;
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为便于更好的理解本发明的目的、技术方案和优点更加清楚,下面结合附图和具体的实施方式对本发明作进一步说明,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。
本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。其次,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
优选地,本发明一种处理扩增子数据的方法应用在一个或者多个终端或者服务器中。所述终端是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific IntegratedCircuit,ASIC)、可编程门阵列(Field -Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述终端可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端可以与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
本发明为实现一种处理扩增子数据的方法、系统、平台及存储介质。
如图1所示,是本发明实施例提供的处理扩增子数据的方法的流程图。
在本实施例中,所述处理扩增子数据的方法,可以应用于具备显示功能的终端或者固定终端中,所述终端并不限定于个人电脑、智能手机、平板电脑、安装有摄像头的台式机或一体机等。
所述处理扩增子数据的方法也可以应用于由终端和通过网络与所述终端进行连接的服务器所构成的硬件环境中。网络包括但不限于:广域网、城域网或局域网。本发明实施例的处理扩增子数据的方法可以由服务器来执行,也可以由终端来执行,还可以是由服务器和终端共同执行。
例如,对于需要进行处理扩增子数据的终端,可以直接在终端上集成本发明的方法所提供的处理扩增子数据的功能,或者安装用于实现本发明的方法的客户端。再如,本发明所提供的方法还可以软件开发工具包(Software Development Kit,SDK)的形式运行在服务器等设备上,以SDK的形式提供处理扩增子数据的功能的接口,终端或其他设备通过所提供的接口即可实现处理扩增子数据的功能。
如图1所示,本发明提供了一种处理扩增子数据的方法,所述方法具体包括如下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
获取下机扩增子数据,将同一批的下机扩增子数据,按照项目类型放置;
对扩增子数据进行去除和过滤处理;
获取参考基因组数据,并将经过去除和过滤处理后得到的扩增子数据与参考基因组进行比对,得到扩增子比对后格式文件;
获取扩增子信息文件,将扩增子信息文件与扩增子比对后格式文件进行统计分析处理,得到每一个扩增子的捕获数据。
具体地,于步骤获取下机扩增子数据,将同一批的下机扩增子数据,按照项目类型放置之前,还包括步骤:
获取样本数据信息;
所述的样本信息包括每个样本的项目类型信息,受检者信息。
较佳地,所述的按照项目类型放置,具体为根据样本信息中的项目类型信息,将不同的项目下机扩增子数据自动放置到不同文件夹下。
在本发明实施例中,所述的扩增子比对后格式文件具体为sam文件。
较佳地,于步骤获取下机扩增子数据,将同一批的下机扩增子数据,按照项目类型放置之中,还包括步骤:
添加新的扩增子数据项目类型。
也就是说,本发明建立一种对扩增子测序数据进行每个扩增子捕获效率分析的方法及软件Amppro,具体地,包括以下步骤:
步骤一,根据样本信息(样本信息内包含每个样本的项目类型信息,受检者信息等),将同一批次的扩增子测序下机fastq数据,按照不同的项目,分别放置于不同文件夹下;
步骤二,对下机fastq进行分析,去除每个fastq的adapter序列,过滤低质量的reads,输出过滤后得到的fastq以及被过滤的fastq;
步骤三,将过滤后得到的fastq与参考基因组进行比对,得到比对后的sam文件;
步骤四,对比对后的sam文件与扩增子信息文件进行比较统计,得到每个扩增子的捕获reads数以及捕获效率、每个独立项目的扩增子总体捕获效率以及每个样本的下机数据质量统计。
具体地,在本发明实施例中,为达到上述步骤一的目的,本发明还提供一种将针对不同项目的下机数据自动分类的方法,即根据样本信息中的项目类型信息,将不同的项目下机数据自动放置到不同文件夹下。
较佳地,为达到上述步骤四的目的,本发明方案配置了不同项目的扩增子信息数据。如后续建立新项目,可往软件中添加新的数据信息,即可对新项目进行扩增子捕获分析。
换言之,为克服上述现有技术存在的不足,本发明实施例之目的在于提供一种分析扩增子捕获效率的方法及系统(命名为Amppro),通过构建扩增子统计算法工具,调用已设计的扩增子位置索引库,并建立样本信息与高通量测序数据的关联信息,在完成测序数据的QC质控后,利用质控后的数据计算出具体到每个样本不同扩增子Panel的扩增子捕获效率,并将结果自动整合为方便阅读Excel表格。
具体地,本发明之另一目的在于提供一种分析扩增子捕获效率的方法及系统,其生成结果表的过程中,自动样本信息勾连,便于操作人理解高通量测序数据,并应用于下一步的测序报告解读。
本发明建立一种对扩增子测序数据进行每个扩增子捕获效率分析的方法及系统,包括以下步骤:
步骤一,建立高通量测序数据的文件存放目录。目录用于暂存需要进行扩增子捕获效率分析的高通量测序数据。数据格式可以是fastq文件或fastq.gz文件,数据来源可兼容Illumina测序平台或Ion Torrent测序平台;
步骤二,准备扩增子信息文件和样本信息文件。
扩增子信息文件格式如下所示:
第一列是编号,第二列是基因名编号以及基因组位置。
样本信息文件中内容包含受检人姓名,性别,年龄,样本编码,样本类型,检测项目,收样时间,住院号,送检单位,送检科室,送检医生,受检人联系电话,临床诊断,既往用药史等信息。
同时,样本信息中样本编码与高通量测序数据有唯一对应关系,样本编码是联系测序数据与样本信息的唯一凭证,可以根据样本编码追溯目前样本的检测状态;扩增子信息文件是扩增子测序中的扩增子覆盖区域,不同的检测Panel因目标区域不一样而扩增子信息不同。本发明支持多Panel同时分析,在分析前需要准备不同Panel的扩增子信息,放置于软件目录下即可自动读取。
步骤三,建立高通量测序数据与样本信息文件索引。本发明每个样本的信息自动形成一行,当存在多行信息,本发明系统可以通过样本编码经过自动分类算法将样本分为不同的项目类别,达到批量处理的效果的同时,在后续的分析过程中可以按照不同的项目自动选择对应的分析参数;为达到自动建立信息文件的目的,本发明中以sql语言作为基础,发明了一个算法对信息文件数据库进行读取,自动生成样本信息文件;
本步骤还包括,建立索引前针对性的判断输入信息是否完整,样本信息文件是否存在。如果出现输入或样本信息异常,则系统报错并弹出错误提示。
步骤四,扩增子Panel分类统计。根据样本信息文件,自动识别下机fastq文件的所属项目与批次,当存在双端测序数据时,自动识别数据是Read1数据或Read2数据,分类算法自动将同一批次的扩增子测序下机fastq文件,按照项目,如体细胞检测项目、生殖细胞检测项目,分别放置于不同文件夹下,便于管理;
步骤五,去除测序接头。对下机fastq文件进行分析。根据所输入的adapter序列,去除fastq文件中对应的adapter序列,本发明系统预设了常见的adapter序列,同时,可以输入自定义序列,亦支持同时输入多条adapter序列。或使用cutadapt软件(M.Martin,2011)去除每个fastq文件的adapter序列,设定错误率为ER(可取范围为0-1),设定overlap值(可取范围为1-149bp),设定过滤后最短长度(可取范围为1-149bp)。过滤低质量的reads,将结果文件自动输出到设定的输出文件夹下的cutadapt文件夹中;
步骤六,过滤后序列比对。将过滤后得到的fastq文件可以选择来源于ucsc的参考基因组hg19、hg38,或来源于ncbi的参考基因组GRCh37以及GRCh38,或以及来源于GATK的参考基因组进行比对。除人源参考基因组之外,本发明还支持其他所有基因组序列;
本发明使用Burrows–Wheeler Transform算法将fastq数据与参考基因组进行比对,算法将输入碱基按照字典序排序,并以排序后字符串形成的矩阵,对矩阵进行打分输出,根据分值,得到最佳匹配比对。同时,本发明兼容bwa(Li H.and Durbin R,2010)以及bowtie2(Langmead B,Salzberg S,2012)的比对模式,亦可以使用bwa以及bowtie2进行比对,设置线程数8以上提高比对效率,得到比对后的sam文件,将sam文件输出到设定的输出文件夹下的samfolder文件夹中;
以下是Burrows–Wheeler Transform算法原理:
步骤七,序列比对后文件格式转换。本发明使用二进制压缩算法,将sam文件转换为二进制的bam文件,二进制的bam文件能显著降低文件大小,同时提高后续处理的速度;本发明兼容samtools(Li H,2009)功能,可以使用samtools的view模式,同时加入参数-b、-S、-h,达到相近的处理效果;将bam文件进行排序处理,可选择排序的模式为按染色体编号进行排序或按read名称进行排序;
步骤八,扩增子目标区域比对。本发明系统对bam文件与扩增子信息文件进行比较统计,扩增子信息文件可根据项目进行调整新建。另外,为了更方便的读取扩增子信息文件,本发明对扩增子信息文件归类,整理为projectamp文件。具体地,projectamp文件格式:
第一列是项目编号,第二列是对应的扩增子信息文件。当需要新建项目,只需要在projectamp文件中新增行,即可达到目的。
本发明可设定得到每个扩增子的捕获reads数以及捕获效率、每个独立项目的扩增子总体捕获效率以及每个样本的下机数据质量统计。本发明使用amplicon capture核心算法,利用loess回归,对参考基因组划分bin(bin的大小可选100bp-30kb),统计每个bin中的GC含量,并利用loess回归曲线,对reads值进行校正;
对bam文件进行解析,通过筛选flag值4的结果,得到比对不上的reads数,将此结果输出到设定的输出文件夹下的removeread文件夹中;通过筛选flag值0或16的结果,得到比对上的reads数,将此结果输出到设定的输出文件夹下的selectRead文件夹中。通过统计过滤的reads数,与总reads数通过回归比较算法进行对比,得到Dimer值;通过计算扩增子信息文件中每个位置的覆盖深度,得到20X深度的百分比以及100X深度的百分比,可选择保留小数的位数,调整分辨率;为了提高效率,可以设定随机挑选bam文件中一定数量的reads进行分析,可设定最低值为10000条reads;
步骤九,最终结果输出。通过统计cutadapt,removeread,selectRead等文件夹内结果数据的reads数,与总reads数通过回归比较算法进行对比,得到Dimer值;通过计算每个selectRead中bam文件的reads数与总reads数进行比较,以百分比算法得到均一性和特异性;通过计算扩增子信息文件中每个位置的覆盖深度,得到20X深度的百分比以及100X深度的百分比,同时,可以自定义统计的深度;
在设定输出文件夹中,生成result文件夹,用于放置最终结果。最终的统计结果将形成标准格式的excel文件,文件名称以日期加运行次数自动命名:日期-次数-DataAnalysisResult.xlsx,有效的避免了多次运行时新结果替换旧结果的缺点,便于对旧结果进行追溯以及对照;
步骤十、查看最终结果。在result文件夹下的excel表格中,allSample表为每个样本的质量值统计,包含了总校正reads数,过滤的校正reads数,比对上基因组的reads数,扩增子(amplicon)数目,均一性,特异性,Dimer,平均深度,20x以上百分比,100x以上百分比等。除allSample表外,每个项目单独形成一份单独表格,在每个项目的表格下,呈现该项目的每个样本,每个扩增子的捕获的reads数百分比等,同时展示该项目的总体均一性,特异性,Dimer,平均深度,20x以上百分比,100x以上百分比等。
具体地,实施例一:以下以ctLungv4.0项目为例,说明本发明的实施方式。
步骤1,在Amppro软件根目录的source文件夹下,新建input_ampRef_ctLungv4.0_44.txt文件,其中内容格式如下(只展示前五行):
1ALK_01|chr2:29432636-29432735
2ALK_02|chr2:29436795-29436892
3ALK_03|chr2:29443554-29443655
4ALK_04|chr2:29443652-29443751
5ALK_05|chr2:29445134-29445247
步骤2,在Amppro软件根目录的input文件夹下的projectamp.txt文件中,新增一行,内容为
ctLungv4.0input_ampRef_ctLungv4.0_44.txt
步骤3,生成项目样本信息文件sampleinfo.txt,内容格式如下:
Sample_ID,Sample_Name,Sample_Plate,Sample_Well,I7_Index_ID,index,I5_Index_ID,index2,Sample_Project,Description
136,QA020-A525B741,,,B741,GATTACTT,A525,GCTGCATG,ctLungv4.0,samp le2
137,QA020-A526B742,,,B742,GCTAAGTT,A526,GTAGCGCA,ctLungv4.0,samp le1
步骤4,存放高通量测序数据。将高通量测序数据存放在rawdata文件夹中;
步骤5,使用Amppro软件,设定输入文件夹为rawdata文件夹,样本信息文件sampleinfo.txt,设定输出文件夹output文件夹,即可输出分析结果到output文件夹中;
具体来说,步骤5程序将自动完成以下过程:
步骤501,将rawdata文件中的下机数据,找出ctLungv4.0的项目,并分类出来;
步骤502,对ctLungv4.0项目中的数据进行过滤;去除每个fastq文件的默认adapter序列,默认长adapter序列为“GATCGTCGGACTGTAGAACTCTGAACG”,默认短adapter序列为“GATCGTCGGA”。默认设定错误率ER为0.1,默认设定overlap值为5bp,默认设定过滤后最短长度为50bp。过滤低质量的reads,将结果文件自动输出到设定的输出文件夹下的cutadapt文件夹中。
步骤503,将136以及137两个样本的数据,与参考基因组进行比对,默认选择hg19作为参考基因组,设定线程数8,设定输出文件夹为output文件夹下的samfolder文件夹;
步骤504,将比对结果sam文件转换为bam格式,设定线程数8,设定保留sam文件中的头信息,默认设定按染色体编号进行排序;
步骤505,根据input_ampRef_ctLungv4.0_44.txt对bam文件结果进行分析,筛选flag值为4的结果,生成unmap.bam文件放置于output文件夹下的removeread文件夹中;筛选flag值为16的结果,放置于output文件夹下的selectRead文件夹中。Amppro通过统计removeread、selectRead文件夹下bam文件的reads数,设定挑选所有reads进行计算,利用Amplicon Capture算法得到最终的amplicon捕获分析结果excel表格。
步骤6,查看结果
程序在output文件夹下生成了cutadapt、removeread、result、samfolder、selectRead等5个文件夹,其中以批次命名的结果文件存放于result文件夹下,打开日期-1-DataAnalysisResult.xlsx表格:
在表格allSample表中,展示所有样本的结果:
如图表所示,每个样本占据一行,并且包含TargetRead(目标区域reads数)、RemoveRead(被过滤reads数)、Uniformity(均一性)、。Specificity(特异性)、Dimer%(Dimer比率)、MeanDepth(平均深度)等质控关键信息。
同时对于ctLungv4.0项目,单独生成一张表格:
ctLungv4.0 | ||||
Sample | 136 | 137 | ||
TotalMapTarget | 318248 | 316371 | ||
Uniformity(%) | 95.45 | 97.27 | ||
Specificity(%) | 95.18 | 93.64 | ||
Dimer(%) | 5.21 | 2.02 | ||
MeanDepth | 7232.91 | 7190.25 | ||
>=20x(%) | 100 | 100 | ||
>=100x(%) | 100 | 100 | ||
AmpliconId | Count | Percentile | Count | Percentile |
ALK_01|chr2:29432636-29432735 | 6626 | 2.08 | 7525 | 2.38 |
ALK_02|chr2:29436795-29436892 | 7520 | 2.36 | 6381 | 2.02 |
ALK_03|chr2:29443554-29443655 | 8114 | 2.55 | 8224 | 2.60 |
ALK_04|chr2:29443652-29443751 | 8815 | 2.77 | 8914 | 2.82 |
ALK_05|chr2:29445134-29445247 | 6337 | 1.99 | 7050 | 2.23 |
展示每个amplicon的reads count以及捕获效率。
与现有技术相比,本发明操作简单,只需要运行一次,即可自动得到同一批次不同项目所有数据的数据质量统计值,以及每个样本的每个扩增子捕获效率。可以针对性的对每个项目进行改进。适应性高,对每个扩增子测序项目均可进行分析。扩展性强,只要更新扩增子信息即可对新项目进行分析。速度快,Amppro软件将整个分析流程聚合,不再需要多次设置参数。
为实现上述目的,如图2所示,本发明还提供一种处理扩增子数据的系统,所述的系统包括:
第一获取单元,用于获取下机扩增子数据,将同一批的下机扩增子数据,按照项目类型放置;
第一处理单元,用于对扩增子数据进行去除和过滤处理;
比对单元,用于获取参考基因组数据,并将经过去除和过滤处理后得到的扩增子数据与参考基因组进行比对,得到扩增子比对后格式文件;
第二处理单元,用于获取扩增子信息文件,将扩增子信息文件与扩增子比对后格式文件进行统计分析处理,得到每一个扩增子的捕获数据。
较佳地,如图3所示,所述的系统还包括:
第二获取单元,用于获取样本数据信息;
相应地,所述的第一获取单元包括:
添加模块,用于添加新的扩增子数据项目类型。
本发明还提出一种处理扩增子数据的平台,如图4所示,包括:
处理器、存储器以及处理扩增子数据平台控制程序;
其中在所述的处理器执行所述处理扩增子数据平台控制程序,所述处理扩增子数据平台控制程序被存储在所述存储器中,所述处理扩增子数据平台控制程序,实现所述的处理扩增子数据的方法步骤,例如:
获取下机扩增子数据,将同一批的下机扩增子数据,按照项目类型放置;
对扩增子数据进行去除和过滤处理;
获取参考基因组数据,并将经过去除和过滤处理后得到的扩增子数据与参考基因组进行比对,得到扩增子比对后格式文件;
获取扩增子信息文件,将扩增子信息文件与扩增子比对后格式文件进行统计分析处理,得到每一个扩增子的捕获数据。
步骤具体细节已在上文阐述,此处不再赘述;
本发明实施例中,所述的处理扩增子数据的平台内置处理器,可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器利用各种接口和线路连接取各个部件,通过运行或执行存储在存储器内的程序或者单元,以及调用存储在存储器内的数据,以执行处理扩增子数据的各种功能和处理数据;
存储器用于存储程序代码和各种数据,安装在处理扩增子数据的平台中,并在运行过程中实现高速、自动地完成程序或数据的存取。
所述存储器包括只读存储器(Read-Only Memory,ROM),随机存储器(RandomAccess Memory,RAM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
本发明还提出一种计算机可读取存储介质,如图5所示,所述计算机可读取存储介质存储有处理扩增子数据平台控制程序,所述处理扩增子数据平台控制程序,实现所述的处理扩增子数据的方法步骤,例如,
获取下机扩增子数据,将同一批的下机扩增子数据,按照项目类型放置;
对扩增子数据进行去除和过滤处理;
获取参考基因组数据,并将经过去除和过滤处理后得到的扩增子数据与参考基因组进行比对,得到扩增子比对后格式文件;
获取扩增子信息文件,将扩增子信息文件与扩增子比对后格式文件进行统计分析处理,得到每一个扩增子的捕获数据。
步骤具体细节已在上文阐述,此处不再赘述;
在本发明的实施方式的描述中,需要说明的是,流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理模块的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读取介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。
另外,计算机可读取介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
通过本发明的方法步骤、系统、平台及存储介质,可以实现高效的、智能简便的处理方式,来达到处理扩增子数据的目的,与现有技术相比,本发明操作简单,只需要运行一次,即可自动得到同一批次不同项目所有数据的数据质量统计值,以及每个样本的每个扩增子捕获效率。可以针对性的对每个项目进行改进。适应性高,对每个扩增子测序项目均可进行分析。扩展性强,只要更新扩增子信息即可对新项目进行分析。速度快,Amppro软件从原始数据到的捕获效率结果,相比联合使用多个软件,速度更快。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种处理扩增子数据的方法,其特征在于,所述的方法具体包括如下步骤:
获取下机扩增子数据,将同一批的下机扩增子数据,按照项目类型放置;
对扩增子数据进行去除和过滤处理;
获取参考基因组数据,并将经过去除和过滤处理后得到的扩增子数据与参考基因组进行比对,得到扩增子比对后格式文件;
获取扩增子信息文件,将扩增子信息文件与扩增子比对后格式文件进行统计分析处理,得到每一个扩增子的捕获数据;
去除测序接头;对下机fastq文件进行分析,根据所输入的adapter序列,去除fastq文件中对应的adapter序列,预设常见的adapter序列,同时,输入自定义序列,亦支持同时输入多条adapter序列;或使用cutadapt软件去除每个fastq文件的adapter序列,设定错误率为ER,设定overlap值,设定过滤后最短长度;过滤低质量的reads,将结果文件自动输出到设定的输出文件夹下的cutadapt文件夹中;
过滤后序列比对;将过滤后得到的fastq文件选择来源于ucsc的参考基因组hg19、hg38,或来源于ncbi的参考基因组GRCh37以及GRCh38,或以及来源于GATK的参考基因组进行比对;
序列比对后文件格式转换;使用二进制压缩算法,将sam文件转换为二进制的bam文件,使用samtools的view模式,同时加入参数-b、-S、-h;将bam文件进行排序处理,选择排序的模式为按染色体编号进行排序或按read名称进行排序;
扩增子目标区域比对;对bam文件与扩增子信息文件进行比较统计,扩增子信息文件根据项目进行调整新建;对扩增子信息文件归类,整理为projectamp文件;
最终结果输出;通过统计cutadapt,removeread,selectRead文件夹内结果数据的reads数,与总reads数通过回归比较算法进行对比,得到Dimer值;通过计算每个selectRead中bam文件的reads数与总reads数进行比较,以百分比算法得到均一性和特异性;通过计算扩增子信息文件中每个位置的覆盖深度,得到20X深度的百分比以及100X深度的百分比,同时,自定义统计的深度;
查看最终结果;在result文件夹下的excel表格中,allSample表为每个样本的质量值统计,包含了总校正reads数,过滤的校正reads数,比对上基因组的reads数,扩增子(amplicon)数目,均一性,特异性,Dimer,平均深度,20x以上百分比,100x以上百分比;除allSample表外,每个项目单独形成一份单独表格,在每个项目的表格下,呈现该项目的每个样本,每个扩增子的捕获的reads数百分比,同时展示该项目的总体均一性,特异性,Dimer,平均深度,20x以上百分比,100x以上百分比。
2.根据权利要求1所述的一种处理扩增子数据的方法,其特征在于,于步骤获取下机扩增子数据,将同一批的下机扩增子数据,按照项目类型放置之前,还包括步骤:
获取样本数据信息;
所述的样本信息包括每个样本的项目类型信息,受检者信息。
3.根据权利要求1所述的一种处理扩增子数据的方法,其特征在于,所述的按照项目类型放置,具体为根据样本信息中的项目类型信息,将不同的项目下机扩增子数据自动放置到不同文件夹下。
4.根据权利要求1所述的一种处理扩增子数据的方法,其特征在于,所述的扩增子比对后格式文件具体为sam文件。
5.根据权利要求1所述的一种处理扩增子数据的方法,其特征在于,于步骤获取下机扩增子数据,将同一批的下机扩增子数据,按照项目类型放置之中,还包括步骤:
添加新的扩增子数据项目类型。
6.一种处理扩增子数据的系统,其特征在于,所述的系统具体包括:
第一获取单元,用于获取下机扩增子数据,将同一批的下机扩增子数据,按照项目类型放置;
第一处理单元,用于对扩增子数据进行去除和过滤处理;
比对单元,用于获取参考基因组数据,并将经过去除和过滤处理后得到的扩增子数据与参考基因组进行比对,得到扩增子比对后格式文件;
第二处理单元,用于获取扩增子信息文件,将扩增子信息文件与扩增子比对后格式文件进行统计分析处理,得到每一个扩增子的捕获数据;去除测序接头;对下机fastq文件进行分析,根据所输入的adapter序列,去除fastq文件中对应的adapter序列,预设常见的adapter序列,同时,输入自定义序列,亦支持同时输入多条adapter序列;或使用cutadapt软件去除每个fastq文件的adapter序列,设定错误率为ER,设定overlap值,设定过滤后最短长度;过滤低质量的reads,将结果文件自动输出到设定的输出文件夹下的cutadapt文件夹中;
过滤后序列比对;将过滤后得到的fastq文件选择来源于ucsc的参考基因组hg19、hg38,或来源于ncbi的参考基因组GRCh37以及GRCh38,或以及来源于GATK的参考基因组进行比对;
序列比对后文件格式转换;使用二进制压缩算法,将sam文件转换为二进制的bam文件,使用samtools的view模式,同时加入参数-b、-S、-h;将bam文件进行排序处理,选择排序的模式为按染色体编号进行排序或按read名称进行排序;
扩增子目标区域比对;对bam文件与扩增子信息文件进行比较统计,扩增子信息文件根据项目进行调整新建;对扩增子信息文件归类,整理为projectamp文件;
最终结果输出;通过统计cutadapt,removeread,selectRead文件夹内结果数据的reads数,与总reads数通过回归比较算法进行对比,得到Dimer值;通过计算每个selectRead中bam文件的reads数与总reads数进行比较,以百分比算法得到均一性和特异性;通过计算扩增子信息文件中每个位置的覆盖深度,得到20X深度的百分比以及100X深度的百分比,同时,自定义统计的深度;
查看最终结果;在result文件夹下的excel表格中,allSample表为每个样本的质量值统计,包含了总校正reads数,过滤的校正reads数,比对上基因组的reads数,扩增子(amplicon)数目,均一性,特异性,Dimer,平均深度,20x以上百分比,100x以上百分比;除allSample表外,每个项目单独形成一份单独表格,在每个项目的表格下,呈现该项目的每个样本,每个扩增子的捕获的reads数百分比,同时展示该项目的总体均一性,特异性,Dimer,平均深度,20x以上百分比,100x以上百分比。
7.根据权利要求6所述的一种处理扩增子数据的系统,其特征在于,所述的系统还包括:
第二获取单元,用于获取样本数据信息;
相应地,所述的第一获取单元包括:
添加模块,用于添加新的扩增子数据项目类型。
8.一种处理扩增子数据的平台,其特征在于,包括:
处理器、存储器以及处理扩增子数据平台控制程序;
其中在所述的处理器执行所述处理扩增子数据平台控制程序,所述处理扩增子数据平台控制程序被存储在所述存储器中,所述的处理扩增子数据平台控制程序,实现如权利要求1至5中任一项所述的处理扩增子数据的方法步骤。
9.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质存储有处理扩增子数据平台控制程序,所述处理扩增子数据平台控制程序,实现如权利要求1至5中任一项所述的处理扩增子数据的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910636461.0A CN110504006B (zh) | 2019-07-15 | 2019-07-15 | 一种处理扩增子数据的方法、系统、平台及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910636461.0A CN110504006B (zh) | 2019-07-15 | 2019-07-15 | 一种处理扩增子数据的方法、系统、平台及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110504006A CN110504006A (zh) | 2019-11-26 |
CN110504006B true CN110504006B (zh) | 2023-03-28 |
Family
ID=68585615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910636461.0A Active CN110504006B (zh) | 2019-07-15 | 2019-07-15 | 一种处理扩增子数据的方法、系统、平台及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110504006B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113470747B (zh) * | 2021-06-29 | 2024-04-26 | 首都医科大学附属北京胸科医院 | 结核杆菌耐药性分析结果的获取方法及装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ZA200900024B (en) * | 2006-06-29 | 2010-04-28 | Mendel Biotechnology Inc | Improved yield and stress tolerance in transgenic plants |
CN106661613B (zh) * | 2014-05-13 | 2020-12-08 | 生命科技股份有限公司 | 用于验证测序结果的系统和方法 |
US10570464B2 (en) * | 2016-05-09 | 2020-02-25 | The Board Of Trustees Of The Leland Stanford Junior University | Bacterial pathogen identification by high resolution melting analysis |
CN106372459B (zh) * | 2016-08-30 | 2019-03-15 | 天津诺禾致源生物信息科技有限公司 | 一种基于扩增子二代测序拷贝数变异检测的方法及装置 |
CN106815492B (zh) * | 2016-12-20 | 2019-02-12 | 上海派森诺生物科技股份有限公司 | 一种用于16S rRNA基因的细菌群落组成和多样性分析的自动化方法 |
CN108664767B (zh) * | 2018-05-21 | 2020-01-31 | 广州金域医学检验中心有限公司 | 测序建库的引物序列处理方法、装置、设备及存储介质 |
CN109378038A (zh) * | 2018-09-17 | 2019-02-22 | 上海派森诺生物科技股份有限公司 | 一种基于bsa基因定位的自动化分析方法 |
CN109801677B (zh) * | 2018-12-29 | 2023-05-23 | 浙江安诺优达生物科技有限公司 | 测序数据自动化分析方法、装置和电子设备 |
-
2019
- 2019-07-15 CN CN201910636461.0A patent/CN110504006B/zh active Active
Non-Patent Citations (1)
Title |
---|
循环肿瘤DNA测序的数据分析方法;陈实富;《中国博士学位论文全文数据库_信息科技辑》;I140-9 * |
Also Published As
Publication number | Publication date |
---|---|
CN110504006A (zh) | 2019-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rakocevic et al. | Fast and accurate genomic analyses using genome graphs | |
Ashhurst et al. | Integration, exploration, and analysis of high‐dimensional single‐cell cytometry data using Spectre | |
Lam et al. | Detecting and annotating genetic variations using the HugeSeq pipeline | |
CN108920899B (zh) | 一种基于目标区域测序的单个外显子拷贝数变异预测方法 | |
CN110737689B (zh) | 数据标准符合性检测方法、装置、系统及存储介质 | |
CN110797088B (zh) | 全基因组重测序分析及用于全基因组重测序分析的方法 | |
CN112885412B (zh) | 基因组注释方法、装置、可视化平台和存储介质 | |
Ranzani et al. | Next-generation sequencing analysis of long noncoding RNAs in CD4+ T cell differentiation | |
CN110504006B (zh) | 一种处理扩增子数据的方法、系统、平台及存储介质 | |
Lun et al. | From reads to regions: a Bioconductor workflow to detect differential binding in ChIP-seq data | |
Sztanka-Toth et al. | Spacemake: processing and analysis of large-scale spatial transcriptomics data | |
CN110570901B (zh) | 一种基于测序数据进行ssr分型的方法及系统 | |
US20120010823A1 (en) | System for the quantification of system-wide dynamics in complex networks | |
WO2020211399A1 (zh) | 数据发送方法、装置、设备及存储介质 | |
CN110970100A (zh) | 检测项目编码方法、装置、设备和计算机可读存储介质 | |
CN113299342B (zh) | 基于芯片数据的拷贝数变异检测方法及检测装置 | |
Shirley et al. | PISCES: a package for rapid quantitation and quality control of large scale mRNA-seq datasets | |
Eckenrode et al. | Curated single cell multimodal landmark datasets for R/Bioconductor | |
CN112863602B (zh) | 染色体异常的检测方法、装置、计算机设备和存储介质 | |
US20230102127A1 (en) | Systems and methods for identifying samples of interest by comparing aligned time-series measurements | |
CN110570908B (zh) | 测序序列多态识别方法及装置、存储介质、电子设备 | |
CN110570902B (zh) | 一种拷贝数变异分析方法、系统及计算机可读存储介质 | |
CN111429967A (zh) | Pacbio三代测序数据的处理方法 | |
CN113325797A (zh) | 控制设备的数据采集方法、装置、存储介质和电子设备 | |
Zhang et al. | SymSim: simulating multi-faceted variability in single cell RNA sequencing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |