CN106709028A - 高通量测序数据统计方法和统计装置 - Google Patents

高通量测序数据统计方法和统计装置 Download PDF

Info

Publication number
CN106709028A
CN106709028A CN201611236130.0A CN201611236130A CN106709028A CN 106709028 A CN106709028 A CN 106709028A CN 201611236130 A CN201611236130 A CN 201611236130A CN 106709028 A CN106709028 A CN 106709028A
Authority
CN
China
Prior art keywords
data
flux sequence
sequence data
parallel computation
mass value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611236130.0A
Other languages
English (en)
Inventor
陈晨
王震
于伟文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Point Cloud Biotechnology Co Ltd
Original Assignee
Shanghai Point Cloud Biotechnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Point Cloud Biotechnology Co Ltd filed Critical Shanghai Point Cloud Biotechnology Co Ltd
Priority to CN201611236130.0A priority Critical patent/CN106709028A/zh
Publication of CN106709028A publication Critical patent/CN106709028A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种高通量测序数据统计方法和装置,所述方法包括:根据高通量测序数据为并行计算做准备;对准备好的高通量测序数据进行并行计算;将并行计算结果汇总得出统计数据。确定碱基质量值转换方式;切分数据;生成执行实体。将文件转换为RDD;将RDD切分为partition。生成执行实体task。计算每个数据块中与序列行相关的统计信息以及碱基质量值。统计每一列的碱基质量值分布。本发明的技术方案极大地提高了对高通量测序数据进行统计的速度。

Description

高通量测序数据统计方法和统计装置
技术领域
本发明涉及生物和计算机领域,特别涉及通过大数据技术高通量测序数据统计方法和装置。
背景技术
基于高通量测序数据寻找和致病基因、癌症治疗、个性化用药相关的染色体突变位点为临床应用提供了不可估量的前景。由于测序技术的不断进步,获取到的数据越来越多,如何快速地处理不断增加的高通量测序数据已成为亟待解决的问题。
在获取到高通量测序数据后,需要对原始数据进行统计。目前常用的软件工具是FastQC,但是FastQC只能在单台机器上运行,运行速度较慢、运行时间较长,如一个3.8G的50基因的高通量测序数据在FastQC上需要运行6分钟以上。随着数据量的增加,FastQC消耗的处理的时间也越来越长。因此急需缩短高通量测序数据在统计环节消耗的时间,使高质量的数据能够快速地进入后续分析流程。
发明内容
有鉴于此,本发明基于分布式计算框架提供了一种对高通量测序数据速度更快的统计方法和统计装置。
本发明的实施例提供了一种对高通量测序数据的统计方法,所述方法包括:
根据高通量测序数据为并行计算做准备;
对准备好的高通量测序数据进行并行计算;
将并行计算结果汇总得出统计数据。
优选地,所述根据所述高通量测序数据为并行计算做准备包括:
根据所述高通量测序数据中的碱基质量值确定碱基质量值转换方式;
对已确定碱基质量值转换方式的高通量测序数据进行切分;
生成对切分后的数据块进行并行计算的执行实体。
优选地,所述对已确定碱基质量值转换方式的高通量测序数据进行切分包括:
将包含已确定碱基质量值转换方式的文件转换为RDD;
将RDD切分为partition。
优选地,所述生成对切分后的数据块进行并行计算的执行实体包括:生成对partition进行并行计算的执行实体task。
优选地,所述对准备好的高通量测序数据进行并行计算包括:通过执行实体并行地计算每个切分后的数据块中与序列行相关的统计信息以及碱基质量值。
优选地,所述将并行计算结果汇总得出统计数据包括:根据每个切分后的数据块中与序列行相关的统计信息和碱基质量值统计所述高通量测序数据中每一列的碱基质量值分布。
本发明的实施例还提供了一种对高通量测序数据的统计装置,所述装置包括:
并行准备模块,用于根据高通量测序数据为并行计算做准备;
并行计算模块,用于对准备好的高通量测序数据进行并行计算;
结果汇总模块,用于将并行计算结果汇总得出统计数据。
优选地,所述并行准备模块包括:
碱基质量值转换方式确定单元,用于根据所述高通量测序数据中的碱基质量值确定碱基质量值转换方式;
数据切分单元:用于对已确定碱基质量值转换方式的高通量测序数据进行切分;
执行实体生成单元:用于生成对切分后的数据块进行并行计算的执行实体。
优选地,所述数据切分单元具体用于:
将包含已确定碱基质量值转换方式的文件转换为RDD;
将RDD切分为partition。
优选地,所述执行实体生成单元具体用于:生成对partition进行并行计算的执行实体task。
优选地,所述并行计算模块具体用于:通过执行实体并行地计算每个切分后的数据块中与序列行相关的统计信息以及碱基质量值。
优选地,所述结果汇总模块具体用于:根据每个切分后的数据块中与序列行相关的统计信息和碱基质量值统计所述高通量测序数据中每一列的碱基质量值分布。
本发明提供的技术方案采用大数据处理技术Spark集群开发了用于对高通量测序数据进行统计的软件工具SfastQC,极大地提高了对高通量测序数据进行统计的速度:在采用12核CPU、128G内存的单机虚拟三个节点的条件下,SfastQC处理3.8G的50基因的测序数据所需时间缩短为42秒,比目前的FastQC快8倍以上。如果机器配置更高,数据量更大,那么加速效果会更加明显。
附图说明
图1为本发明实施例一提供的高通量测序数据统计方法的示意图;
图2为本发明实施例二提供的高通量测序数据统计方法的示意图;
图3为本发明实施例三提供的高通量测序数据统计方法的示意图;
图4为本发明实施例三提供的高通量测序数据统计方法绘制的箱线图;
图5为本发明实施例四提供的高通量测序数据统计装置的示意图;
图6为本发明实施例五、六提供的高通量测序数据统计方法的示意图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下将参照本发明实施例中的附图,通过实施方式清楚、完整地描述本发明的技术方案,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
在本发明的实施例中,相关名词解释如下:
高通量测序数据:用高通量测序方法获得的数据;
高通量测序:能够一次并行对几十万到几百万条DNA片段进行序列测定的测序方法;
第一阈值:在本发明的实施例中为58,在实际应用中可以根据具体情况取适当的值;
第二阈值:在本发明的实施例中为76,在实际应用中可以根据具体情况取适当的值;
第一碱基质量值转换方式:将质量行中每一位置上的ASCII码字符的ASCII码值减去第一阈值,得到对应碱基的质量值;
第二碱基质量值转换方式:将质量行中每一位置上的ASCII码字符的ASCII码值减去第二阈值,得到对应碱基的质量值。
实施例一
请参阅图1,在本发明的第一个实施例中,在根据获得的高通量测序数据为并行计算做好准备后,对数据进行并行计算,根据计算结果绘制统计图。
S101、根据高通量测序数据为并行计算做准备。
在包含高通量测序数据的FastQ文件中,每一条记录包括四行,分别为:
以“@”开头后面附加测序介绍信息的标识行;
由A、T、G、C四种碱基组成的序列行(测序仪无法识别的碱基用N表示);
“+”行(或者“+”后面附带标识行中@后面的内容,但该内容一般被省略);
由ASCII码字符组成的质量行(质量行和序列行长度相等且质量行中的ASCII码字符与序列行中的碱基一一对应,质量行中每一位置的ASCII码字符代表与其对应的序列行中对应位置的碱基质量值)。
将包含原始高通量测序数据的FastQ文件切分为多个数据块,为并行计算做准备。
S102、对准备好的高通量测序数据进行并行计算。
根据实际需求对多个数据块进行并行计算,例如:计算每个碱基的质量值、高通量测序数据的序列行长度等等。
S103、将并行计算结果汇总得出统计数据。
将多个数据块并行计算得出的多个中间结果汇总,得到最终统计数据,并根据这些统计数据绘制相应的高通量测序数据统计图。
实施例二
请参阅图2,在本发明的第二个实施例中,使用Hadoop并行计算框架对高通量测序数据进行并行计算,将多台计算机上并行计算的结果进行合并,得到最终统计数据并绘制统计图。
在本实施例中,相关名词解释如下:
Hadoop:由Apache基金会所开发的分布式并行计算框架。
HDFS(Hadoop Distributed File System):由Hadoop实现的一个分布式文件系统。
S201、根据所述高通量测序数据中的碱基质量值确定碱基质量值转换方式。
输入包含原始高通量测序数据的FastQ文件,在FastQ文件中,每一条记录包括四行,其中序列行由A、T、G、C四种碱基组成(测序仪无法识别的碱基用N表示);质量行由ASCII码字符组成,质量行和序列行长度相等,质量行中每一位置上的ASCII码字符代表与其对应的序列行中的碱基的质量。
根据读入的FastQ文件质量行中的碱基质量值确定本文件对应的碱基质量值转换方式:
如果读取到大于第一阈值且小于等于第二阈值的碱基质量值,则忽略此值,继续读入下一位置的碱基质量值;
如果读取到小于等于第一阈值的碱基质量值,则确定本文件对应第一碱基质量值转换方式,选择碱基质量值转换方式的过程结束;
如果读取到大于第二阈值的碱基质量值,则确定本文件对应第二碱基质量值转换方式,选择碱基质量值转换方式的过程结束。
S202、对已确定碱基质量值转换方式的高通量测序数据进行切分。
HDFS将输入的FastQ文件根据一定的规则切分成小数据块并保存。切分规则如下:例如输入文件为3G,在Hadoop中将一个数据块的大小设置为128M,那么输入文件总共将被切分为3*1024/128=24块。
S203、生成包含切分后的数据的执行实体map task。
在Hadoop集群中,参与并行计算的多台计算机并行地读取HDFS中的小数据块,并启动一个job,job为每一个小数据块生成一个map task。Map task是并行计算的执行实体。
S204、对准备好的高通量测序数据进行并行计算。
Hadoop在参与并行计算的多台计算机上并行地运行map task。Map task以小数据块为单位进行统计(如统计每个小数据块中的碱基总数,或碱基的GC含量等),并根据实际需要对每个小数据块进行计算(如计算碱基质量值等),然后把对每个小数据块的统计和计算结果写到HDFS中。
S205、将并行计算结果汇总得出统计数据。
Hadoop根据用户指定的数量生成多个reduce task。Reduce task从HDFS中读取map task对每个小数据块的统计和计算结果,并将其进行合并,得出最终统计数据,然后根据最终统计数据绘制相应的高通量测序数据统计图。
实施例三
请参阅图3,在本发明的第三个实施例中,使用spark并行计算框架对高通量测序数据进行并行计算,将多台计算机上并行计算的结果进行合并,得到最终统计数据并绘制统计图。
S301、根据所述高通量测序数据中的碱基质量值确定碱基质量值转换方式。
输入包含原始高通量测序数据的FastQ文件,在FastQ文件中,每一条记录包括四行,其中序列行由A、T、G、C四种碱基组成(测序仪无法识别的碱基用N表示);质量行由ASCII码字符组成,质量行和序列行长度相等,质量行中每一位置上的ASCII码字符代表与其对应的序列行中对应位置的碱基质量值。
根据读入的FastQ文件质量行中的碱基质量值确定本文件对应的碱基质量值转换方式:
如果读取到大于第一阈值且小于等于第二阈值的碱基质量值,则忽略此值,继续读入下一位置的碱基质量值;
如果读取到小于等于第一阈值的碱基质量值,则确定本文件对应第一碱基质量值转换方式,选择碱基质量值转换方式的过程结束;
如果读取到大于第二阈值的碱基质量值,则确定本文件对应第二碱基质量值转换方式,选择碱基质量值转换方式的过程结束。
S302、将包含已确定碱基质量值转换方式的文件转换为RDD;将RDD切分为partition。
在读取FastQ文件时,spark先将其转换为RDD,在生成RDD时用户可以根据实际需要指定将RDD切分为partition的数量。例如输入文件为3G,设置将RDD切分为24个partition,那么每一个partition所占存储空间为3*1024/24=128M。实际生成的partition的数量最少为(该文件所占存储空间/128M),如果指定的partition数量少于(该文件所占存储空间/128M),则实际将生成(该文件所占存储空间/128M)个partition。Spark根据用户指定的partition数量将RDD切分成若干partition。
在本实施例中:
Spark:是UC Berkeley AMPLab开发的一种计算框架。
RDD是指弹性分布式数据集(Resilient Distributed Datasets),它是可容错的并行数据结构,使用户能够显式地在内存中保存中间的运算结果,通过控制RDD的分区来优化数据的布局,并使用丰富的转换算子进行操作。
Partition是指spark在计算过程中,生成的数据在计算空间内的最小单元。
S303、生成对partition进行并行计算的执行实体task。
在本实施例中:
Job是指包在spark中含由多个stage组成的并行计算,对RDD执行action操作后会生成job;
Stage是指在spark中,一个job会根据处理过程的需要而分成不同的阶段即stage,stage由多个task组成;
Task是指被送到为某个应用启动的executor进程的工作单元。
在spark中对RDD进行action操作时生成DAG Scheduler(有向无环图调度器),从而启动一个job。对一个job内的操作,根据处理过程是否需要shuffle分成不同的stage,并在每一个stage内产生一系列的task。通常一个RDD内的task数量与partition的数量相同。后续多个执行实体task将在多台计算机上对不同的partition执行并行计算过程。
S304、通过执行实体task并行地计算每个partition中与序列行相关的统计信息以及碱基质量值。
在多台计算机上通过多个执行实体task并行地对每个partition进行以下计算:
对高通量测序数据中每个记录的序列行计数得到该记录的序列总数、计算每个记录的序列行中的碱基总数和碱基中的GC含量;
计算碱基质量值:
如果本次并行计算数据对应的是第一碱基质量值转换方式,则将质量行中每一位置上的ASCII码字符的ASCII码值减去第一阈值即为对应的碱基质量值;
如果本次并行计算数据对应的是第二碱基质量值转换方式,则将质量行中每一位置上的ASCII码字符的ASCII码值减去第二阈值,即为对应的碱基质量值。
S305、根据每个partition中与序列行相关的统计信息和碱基质量值统计所述高通量测序数据中每一列的碱基质量值分布。
将所有partition中的序列数累加得出序列总数;统计所有partition中的序列长度得出序列长度范围;将所有partition中的碱基数累加得出碱基总数;将所有partition中的碱基质量值累加并除以碱基总数得出每一列碱基质量平均值;将所有partition中的碱基G和C的数量累加并除以碱基总数得到碱基GC含量。
根据每个partition中的计算结果统计高通量测序数据中每一列的碱基质量值分布:10%点、上四分位数(25%点)、中位数(50%点)、下四分位数(75%点)和90%点。
根据上述统计数据生成结果文件,此结果文件包括原始高通量测序数据文件的名称、序列总数、序列长度范围、碱基总数、平均碱基质量值、GC碱基含量和每一列的碱基质量值分布;根据每一列的碱基质量值分布即每一列碱基质量值的10%点、上四分位数(25%点)、中位数(50%)、下四分位数(75%点)、90%点和平均值绘制箱线图(箱线图是利用数据中的上述五个统计量来描述数据的一种方法,根据箱线图可以大致看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较)。如图4所示例,在本实施例的箱线图中,纵坐标为碱基质量值,分布在0到42之间;横坐标为碱基位置坐标,即高通量测序数据中的序列长度。
实施例四
如图5所示,本发明的第四个实施例提供了一种高通量测序数据的统计装置,所述装置包括:
并行准备模块510,用于根据高通量测序数据为并行计算做准备;
并行计算模块520,用于对准备好的高通量测序数据进行并行计算;
结果汇总模块530,用于将并行计算结果汇总得出统计数据。
在本实施例中,并行准备模块510将包含原始高通量测序数据的FastQ文件切分为多个数据块,为并行计算做准备。并行计算模块520根据实际需求对多个数据块进行并行计算。将多个数据块并行计算得出的多个中间结果汇总,得到最终统计数据,结果汇总模块530并根据这些统计数据绘制相应的高通量测序数据统计图。
实施例五
如图6所示,本发明的第五个实施例提供了一种高通量测序数据的统计装置,所述装置包括:
并行准备模块610,用于根据高通量测序数据为并行计算做准备;
并行计算模块620,具体用于通过执行实体并行地计算每个切分后的数据块中与序列行相关的统计信息以及碱基质量值。
结果汇总模块630,具体用于根据每个切分后的数据块中与序列行相关的统计信息和碱基质量值统计所述高通量测序数据中每一列的碱基质量值分布。
所述并行准备模块610包括:
碱基质量值转换方式确定单元6101,用于根据所述高通量测序数据中的碱基质量值确定碱基质量值转换方式;
数据切分单元6102:用于对已确定碱基质量值转换方式的高通量测序数据进行切分;
执行实体生成单元6103:用于生成对切分后的数据块进行并行计算的执行实体。
在本实施例中,并行准备模块610中的碱基质量值转换方式确定单元6101根据输入的高通量测序数据中的碱基质量值确定碱基质量值转换方式。并行准备模块610的数据切分单元6102对已确定碱基质量值转换方式的高通量测序数据进行切分。并行准备模块610中的执行实体生成单元6103生成包含切分后的数据的执行实体map task。并行计算模块620通过map task以小数据块为单位并行地进行统计和计算。结果汇总模块630通过reduce task将多个计算机上对每个小数据块的统计和计算结果进行合并,得到最终统计数据,并根据最终统计数据绘制相应的高通量测序数据统计图。
实施例六
如图6所示,本发明的第六个实施例提供了一种高通量测序数据的统计装置,所述装置包括:
并行准备模块610,用于根据高通量测序数据为并行计算做准备;
并行计算模块620,用于对准备好的高通量测序数据进行并行计算;
结果汇总模块630,用于将并行计算结果汇总得出统计数据。
所述并行准备模块610包括:
碱基质量值转换方式确定单元6101,用于根据所述高通量测序数据中的碱基质量值确定碱基质量值转换方式;
数据切分单元6102,具体用于将包含已确定碱基质量值转换方式的文件转换为RDD;将RDD切分为partition。
执行实体生成单元6103,用于生成对partition进行并行计算的执行实体。
所述并行计算模块620,具体用于通过执行实体task并行地计算每个partition中与序列行相关的统计信息以及碱基质量值。
所述结果汇总模块630,具体用于根据每个partition中与序列行相关的统计信息和碱基质量值统计所述高通量测序数据中每一列的碱基质量值分布。
在本发明的第六个实施例中,并行准备模块610中的碱基质量值转换方式确定单元6101根据输入的高通量测序数据中的碱基质量值确定碱基质量值转换方式。并行准备模块610的数据切分单元6102将包含已确定碱基质量值转换方式的文件转换为RDD;将RDD切分为partition。并行准备模块610中的执行实体生成单元6103生成对partition进行并行计算的执行实体task。并行计算模块620通过执行实体task并行地计算每个partition中与序列行相关的统计信息以及碱基质量值。结果汇总模块630根据每个partition中与序列行相关的统计信息和碱基质量值统计所述高通量测序数据中每一列的碱基质量值分布,并绘制箱线图。
本领域普通技术人员可以理解,实现上述本发明实施例中的高通量测序数据统计方法和统计装置可以通过程序指令相关的硬件来完成,所述的程序可以存储于可读取存储介质中,该程序在执行时执行上述方法中的对应步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原来的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种高通量测序数据统计方法,其特征在于,所述方法包括:
根据高通量测序数据为并行计算做准备;
对准备好的高通量测序数据进行并行计算;
将并行计算结果汇总得出统计数据。
2.根据权利要求1所述的高通量测序数据统计方法,其特征在于,所述根据所述高通量测序数据为并行计算做准备包括:
根据所述高通量测序数据中的碱基质量值确定碱基质量值转换方式;
对已确定碱基质量值转换方式的高通量测序数据进行切分;
生成对切分后的数据块进行并行计算的执行实体。
3.根据权利要求2所述的高通量测序数据统计方法,其特征在于,所述对已确定碱基质量值转换方式的高通量测序数据进行切分包括:
将包含已确定碱基质量值转换方式的文件转换为RDD;
将RDD切分为partition。
4.根据权利要求3所述的高通量测序数据统计方法,其特征在于,所述生成对切分后的数据块进行并行计算的执行实体包括:生成对partition进行并行计算的执行实体task。
5.根据权利要求2-4中任意一项所述的高通量测序数据统计方法,其特征在于,所述对准备好的高通量测序数据进行并行计算包括:通过执行实体并行地计算每个切分后的数据块中与序列行相关的统计信息以及碱基质量值。
6.根据权利要求5所述的高通量测序数据统计方法,其特征在于,所述将并行计算结果汇总得出统计数据包括:根据每个切分后的数据块中与序列行相关的统计信息和碱基质量值统计所述高通量测序数据中每一列的碱基质量值分布。
7.一种对高通量测序数据进行统计的装置,其特征在于,所述装置包括:
并行准备模块,用于根据高通量测序数据为并行计算做准备;
并行计算模块,用于对准备好的高通量测序数据进行并行计算;
结果汇总模块,用于将并行计算结果汇总得出统计数据。
8.根据权利要求7所述的对高通量测序数据进行统计的装置,其特征在于,所述并行准备模块包括:
碱基质量值转换方式确定单元,用于根据所述高通量测序数据中的碱基质量值确定碱基质量值转换方式;
数据切分单元:用于对已确定碱基质量值转换方式的高通量测序数据进行切分;
执行实体生成单元:用于生成对切分后的数据块进行并行计算的执行实体。
9.根据权利要求8所述的对高通量测序数据进行统计的装置,其特征在于,所述数据切分单元具体用于:
将包含已确定碱基质量值转换方式的文件转换为RDD;
将RDD切分为partition。
10.根据权利要求9所述的对高通量测序数据进行统计的装置,其特征在于,所述执行实体生成单元具体用于:生成对partition进行并行计算的执行实体task。
11.根据权利要求8-10中任意一项所述的对高通量测序数据进行统计的装置,其特征在于,所述并行计算模块具体用于:通过执行实体并行地计算每个切分后的数据块中与序列行相关的统计信息以及碱基质量值。
12.根据权利要求11所述的对高通量测序数据进行统计的装置,其特征在于,所述结果汇总模块具体用于:根据每个切分后的数据块中与序列行相关的统计信息和碱基质量值统计所述高通量测序数据中每一列的碱基质量值分布。
CN201611236130.0A 2016-12-28 2016-12-28 高通量测序数据统计方法和统计装置 Pending CN106709028A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611236130.0A CN106709028A (zh) 2016-12-28 2016-12-28 高通量测序数据统计方法和统计装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611236130.0A CN106709028A (zh) 2016-12-28 2016-12-28 高通量测序数据统计方法和统计装置

Publications (1)

Publication Number Publication Date
CN106709028A true CN106709028A (zh) 2017-05-24

Family

ID=58903618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611236130.0A Pending CN106709028A (zh) 2016-12-28 2016-12-28 高通量测序数据统计方法和统计装置

Country Status (1)

Country Link
CN (1) CN106709028A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108132986A (zh) * 2017-12-14 2018-06-08 北京航天测控技术有限公司 一种飞行器海量传感器试验数据的快速处理方法
CN108629154A (zh) * 2018-04-03 2018-10-09 江苏理工学院 一种高通量测序数据质检附属装置及其质检方法
CN110021345A (zh) * 2017-12-08 2019-07-16 北京哲源科技有限责任公司 基于spark平台的基因数据分析方法
CN110136777A (zh) * 2018-02-09 2019-08-16 深圳先进技术研究院 一种基于Spark框架的重测序序列比对方法
CN112151114A (zh) * 2020-10-20 2020-12-29 中国农业科学院农业信息研究所 一种生物信息深度挖掘分析系统的架构构建方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838985A (zh) * 2012-11-22 2014-06-04 中国科学院青岛生物能源与过程研究所 基于多核cpu和gpgpu硬件的高通量测序数据质量控制系统
CN104169927A (zh) * 2012-02-28 2014-11-26 皇家飞利浦有限公司 紧凑的下一代测序数据集及使用其的高效测序处理
CN105760706A (zh) * 2014-12-15 2016-07-13 深圳华大基因研究院 一种二代测序数据的压缩方法
CN106021984A (zh) * 2016-05-13 2016-10-12 万康源(天津)基因科技有限公司 一种全外显子组测序数据分析系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104169927A (zh) * 2012-02-28 2014-11-26 皇家飞利浦有限公司 紧凑的下一代测序数据集及使用其的高效测序处理
CN103838985A (zh) * 2012-11-22 2014-06-04 中国科学院青岛生物能源与过程研究所 基于多核cpu和gpgpu硬件的高通量测序数据质量控制系统
CN105760706A (zh) * 2014-12-15 2016-07-13 深圳华大基因研究院 一种二代测序数据的压缩方法
CN106021984A (zh) * 2016-05-13 2016-10-12 万康源(天津)基因科技有限公司 一种全外显子组测序数据分析系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIEWENCAI的个人博客: "Fastq 格式说明 & ﴾Phred33 or Phred64﴿", 《HTTP://BLOG.SCIENCENET.CN/BLOG-630246-813262.HTML》 *
何卓忧: "华点云:互联网+高通量基因测序,让基因解读更容易", 《HTTPS://WWW.LIEYUNWANG.COM/ARCHIVES/210414》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110021345A (zh) * 2017-12-08 2019-07-16 北京哲源科技有限责任公司 基于spark平台的基因数据分析方法
CN110021345B (zh) * 2017-12-08 2021-02-02 北京哲源科技有限责任公司 基于spark平台的基因数据分析方法
CN108132986A (zh) * 2017-12-14 2018-06-08 北京航天测控技术有限公司 一种飞行器海量传感器试验数据的快速处理方法
CN110136777A (zh) * 2018-02-09 2019-08-16 深圳先进技术研究院 一种基于Spark框架的重测序序列比对方法
CN108629154A (zh) * 2018-04-03 2018-10-09 江苏理工学院 一种高通量测序数据质检附属装置及其质检方法
CN112151114A (zh) * 2020-10-20 2020-12-29 中国农业科学院农业信息研究所 一种生物信息深度挖掘分析系统的架构构建方法

Similar Documents

Publication Publication Date Title
CN106709028A (zh) 高通量测序数据统计方法和统计装置
Rasmussen et al. A Bayesian approach for fast and accurate gene tree reconstruction
US20230142864A1 (en) Estimation of Admixture Generation
Knowles ParEGO: A hybrid algorithm with on-line landscape approximation for expensive multiobjective optimization problems
Wu et al. Most parsimonious reconciliation in the presence of gene duplication, loss, and deep coalescence using labeled coalescent trees
US20200065710A1 (en) Normalizing text attributes for machine learning models
JP2020501240A (ja) 汎がんゲノムにおけるdnaアクセシビリティを予測するための方法及びシステム
CN106407749A (zh) 寻找样本的染色体突变位点的分析方法和分析装置
Ruan et al. DACIDR: deterministic annealed clustering with interpolative dimension reduction using a large collection of 16S rRNA sequences
CN116401555A (zh) 双胞识别模型的构建方法、系统及存储介质
Tarazona et al. NOISeq: Differential Expression in RNA-seq
Nazarov et al. Co-expression analysis of large microarray data sets using CoExpress software tool
CN106777262B (zh) 高通量测序数据质量过滤方法和过滤装置
CN116130002A (zh) 一种dna序列多态分析方法及系统
CN109801676B (zh) 一种用于评价化合物对基因通路活化作用的方法及装置
CN114021031A (zh) 理财产品信息推送方法及装置
CN108897990B (zh) 面向大规模高维序列数据的交互特征并行选择方法
Li et al. Orthogonal outlier detection and dimension estimation for improved MDS embedding of biological datasets
Gao et al. Multiple sequence alignment based on combining genetic algorithm with chaotic sequences
JP4918868B2 (ja) 入力値選定プログラム、入力値選定方法および入力値選定装置
Chan et al. A two-phase strategy for detecting recombination in nucleotide sequences: reviewed article
Johnson et al. Recombination rate inference via deep learning is limited by sequence diversity
Zacharia et al. Microarray image analysis based on an evolutionary approach
Wang et al. The graph-guided group lasso for genome-wide association studies
Bonham-Carter et al. Cellular proliferation biases clonal lineage tracing and trajectory inference

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170524

RJ01 Rejection of invention patent application after publication