CN103853937A - 高通量测序数据后期处理方法 - Google Patents
高通量测序数据后期处理方法 Download PDFInfo
- Publication number
- CN103853937A CN103853937A CN201310610912.6A CN201310610912A CN103853937A CN 103853937 A CN103853937 A CN 103853937A CN 201310610912 A CN201310610912 A CN 201310610912A CN 103853937 A CN103853937 A CN 103853937A
- Authority
- CN
- China
- Prior art keywords
- file
- data
- flux
- matrix
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种高通量测序数据后期处理方法,属于分子生物学技术领域。该方法根据用户需要,对高通量测序数据后期进行高效的数据平滑、数据缩放、组间标准化、特定数据行提取、组间数据量平衡等操作,并支持任何测序平台生成的实验数据,特别适用于存放有多个样本组数据的矩阵文件,从而能够从而减少数据分析人员的工作负担,降低数据处理的难度,且本发明的高通量测序数据后期处理方法的应用范围也较为广泛。
Description
技术领域
本发明涉及分子生物学技术领域,特别涉及染色质测序数据分析技术领域,具体是指一种高通量测序数据后期处理方法。
背景技术
新一代高通量测序技术的出现极大地丰富了人们利用分子生物学手段研究细胞内变化规律的方案。目前众多高通量测序技术都有相关的分析方法或分析流程作为参考帮助科研人员进行高通量数据处理。但是,现有工具对这些高通量测序数据的后期加工和整合仍然缺乏系统性的总结。目前,在后期数据加工中,没有专门数据处理方法会涉及到的诸如平滑、缩放和组间标准化、特定数据行提取等常用操作,这无形中增加了数据分析人员的工作负担,加大了数据处理的难度。
发明内容
本发明的目的是克服了上述现有技术中的缺点,提供一种支持任何测序平台生成的实验数据,对于存放有多个样本组数据的矩阵文件能够进行高效的数据平滑、数据缩放、组间标准化、特定数据行提取、组间数据量平衡等操作,从而减少数据分析人员的工作负担,降低数据处理的难度,且应用范围较为广泛的高通量测序数据后期处理方法。
为了实现上述的目的,本发明的高通量测序数据后期处理方法包括以下步骤:
(1)系统获得高通量测序数据的矩阵文件,通过用户设置的矩阵最大值和最小值,生成经尺寸变换处理的新的矩阵文件;
(2)系统对所述的新的矩阵文件的列或行进行分位数规范化处理,形成统一的列向量或行向量之间的值域范围;
(3)系统对所述的新的矩阵文件进行压缩处理,保持所述的新的矩阵文件特征不变,并降低新的矩阵文件的容量大小;
(4)系统根据用户操作获取关键字段文件、模版文件及所述模版文件中关键字段所属列,通过对模版文件中特定关键字段的信息提取,筛选出符合条件的模版文件子集并输出;
(5)系统根据用户操作高通量数据序列比对结果文件,并根据设定的随机重抽样文件的个数和单个重抽样文件的序列比对结果记录条数,生成预设数量的模拟格式高通量数据序列比对结果文件;
(6)系统根据所述的新的矩阵文件、模版文件子集和模拟格式高通量数据序列比对结果文件生成前景数据处理结果文件和背景数据处理文件,通过逐一比较每个信号值在前景数据处理结果文件和背景数据处理结果文件中的数量分布,生成经验性假阳性率分布,并对每个前景信号的假阳性概率进行估计,生成前景信号假阳性概率;
(7)系统根据所述的特定格式的高通量测序数据的矩阵文件及预设的预期聚合酶链反应冗余片段在总样本中所占比例,生成聚合酶链反应冗余片段阈值并在所述的高通量测序数据的矩阵文件中标记所述的聚合酶链反应冗余片段位置。
其中,所述的特定格式的高通量测序数据的矩阵文件中其第一列为染色体序号,第二列位位置信息,第三列为该位点正链上的序列个数,第四列为该位点负链上的序列个数。
该高通量测序数据后期处理方法中,所述的高通量测序数据的矩阵文件为存放有多个样本组数据的矩阵文件。
采用了该发明的高通量测序数据后期处理方法,其能够根据用户需要,对高通量测序数据进行高效的数据平滑、数据缩放、组间标准化、特定数据行提取、组间数据量平衡等操作,并支持任何测序平台生成的实验数据,特别适用于存放有多个样本组数据的矩阵文件,从而能够从而减少数据分析人员的工作负担,降低数据处理的难度,且本发明的高通量测序数据后期处理方法的应用范围也较为广泛。
附图说明
图1为本发明的高通量测序数据后期处理方法的步骤流程图。
具体实施方式
为了能够更清楚地理解本发明的技术内容,特举以下实施例详细说明。
请参阅图1所示,为本发明的高通量测序数据后期处理方法的步骤流程图。
在具体实施方式中,该方法如图1所示包括以下步骤:
(1)系统获得高通量测序数据的矩阵文件,通过用户设置的矩阵最大值和最小值,生成经尺寸变换处理的新的矩阵文件,所述的高通量测序数据的矩阵文件为存放有多个样本组数据的矩阵文件;
(2)系统对所述的新的矩阵文件的列或行进行分位数规范化处理,形成统一的列向量或行向量之间的值域范围;
(3)系统对所述的新的矩阵文件进行压缩处理,保持所述的新的矩阵文件特征不变,并降低新的矩阵文件的容量大小;
(4)系统根据用户操作获取关键字段文件、模版文件及所述模版文件中关键字段所属列,通过对模版文件中特定关键字段的信息提取,筛选出符合条件的模版文件子集并输出;
(5)系统根据用户操作高通量数据序列比对结果文件,并根据设定的随机重抽样文件的个数和单个重抽样文件的序列比对结果记录条数,生成预设数量的模拟格式高通量数据序列比对结果文件;
(6)系统根据所述的新的矩阵文件、模版文件子集和模拟格式高通量数据序列比对结果文件生成前景数据处理结果文件和背景数据处理文件,通过逐一比较每个信号值在前景数据处理结果文件和背景数据处理结果文件中的数量分布,生成经验性假阳性率分布,并对每个前景信号的假阳性概率进行估计,生成前景信号假阳性概率;
(7)系统根据所述的特定格式的高通量测序数据的矩阵文件及预设的预期聚合酶链反应(polymerase chain reaction,PCR duplicates)样本在总样本中所占比例,生成聚合酶链反应冗余片段阈值并在所述的高通量测序数据的矩阵文件中标记所述的聚合酶链反应冗余片段位置;其中,所述的特定格式的高通量测序数据的矩阵文件中其第一列为染色体序号,第二列位位置信息,第三列为该位点正链上的序列个数,第四列为该位点负链上的序列个数。
在实际应用中,本发明的方法所利用的工具包共包含3个Python脚本代码和4个R脚本代码,每个脚本名称如下:
(1)PROGRAM_row_selection.py
(2)PROGRAM_QC_PCR_duplicates_cutoff.py
(3)PROGRAM_sam_random_sampling.py
(4)PROGRAM_FDR_calculation_based_on_data.r
(5)PROGRAM_matrix_data_bin_smooth.r
(6)PROGRAM_matrix_data_resacle.r
(7)PROGRAM_matrix_dataquantile_norm.r
上述每个脚本既能够独立执行,也可以嵌入到已有的数据分析流程中,使用非常灵活。
每个脚本的代码编写基于Python和R语言,可以在Windows、Linux、MacOS等多种系统平台下使用。代码运行过程中,耗费系统资源少,能够在任意一台个人PC、工作站和或服务器上进行使用。
每个脚本都应对高通量数据分析后期经常所需的操作进行设计。
1、PROGRAM_matrix_data_rescale.r,以数值类型矩阵文件作为输入数据,通过设置新生成数值矩阵的最大值和最小值,帮助用户获得经过rescaling处理的矩阵文件。
2、PROGRAM_matrix_data_quantile_norm.r,以数值类型矩阵文件作为输入数据,可以设置对列或对行进行分位数规范化(quantile normalization),从而统一列向量或行向量之间的值域范围。
3、PROGRAM_matrix_data_bin_smooth.r,以数值类型矩阵文件作为输入数据,通过设置加和窗口的大小和平滑窗口的大小对输入矩阵数据进行先加和后平滑的数据处理方式,最终输出一个经过压缩的数值矩阵文件,在保证总体特征不变的前提下,降低文件容量大小,以便于后续的图形化处理。
4、PROGRAM_row_selection.py,要求提供关键字段文件和模版文件作为输入文件,要求提供模版文件中关键字段所属列,通过对模版文件中特定关键字段的信息提取,最终筛选出符合条件的模版文件子集并输出,用户可以根据输出文件设计后续的数据处理流程。
5、PROGRAM_sam_random_sampling.py以.sam格式高通量数据reads比对结果文件作为输入文件,通过设置随机重抽样文件的个数和单个重抽样文件的reads比对结果记录条数,最终生成用户规定数量的模拟.sam格式的高通量数据reads比对结果文件,为后续的算法开发和不同软件工具之间的优劣比较提供测试用数据。
6、PROGRAM_FDR_calculation_based_on_data.r的运行要求提供前景数据处理结果文件和背景数据处理文件,通过逐一比较每个信号值在前景和背景中的数量分布,生成经验性假阳性率分布,并对每个前景信号的假阳性概率进行估计,最终为用户提供统计学一类错误的假阳性指标的筛选参考。
7、PROGRAM_QC_PCR_duplicates_cutoff.py,以特定格式文件(第一列为染色体序号,第二列位位置信息,第三列为该位点正链上的reads个数,第四列为该位点负链上的reads个数)作为输入,通过设置预期PCR duplicates在样本中的所占比例,最终向用户提供具体的PCRduplicates的具体阈值并对PCR duplicates所处的位置进行标记,帮助用户对这些位置上的PCR duplicates进行识别和后续操作。
此外,通过这7个独立脚本之间的不同组合能够帮助用户决解一系列高通量数据后期分析操作难题。
在应用过程中,上述脚本会返回一系列详细的参数设置和对应的参数说明,指导数据分析人员正确使用这些方法。其中,参数分为两种类型:必要参数和可选参数。必要参数要求由数据分析人员提供输入值,无默认值。可选参数的默认值有预设值,分析人员也可以结合实际需求进行调整,具有灵活性。
采用了该发明的高通量测序数据后期处理方法,其能够根据用户需要,对高通量测序数据进行高效的数据平滑、数据缩放、组间标准化、特定数据行提取、组间数据量平衡等操作,并支持任何测序平台生成的实验数据,特别适用于存放有多个样本组数据的矩阵文件,从而能够从而减少数据分析人员的工作负担,降低数据处理的难度,且本发明的高通量测序数据后期处理方法的应用范围也较为广泛。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。
Claims (3)
1.一种高通量测序数据后期处理方法,其特征在于,所述的方法包括以下步骤:
(1)系统获得高通量测序数据的矩阵文件,通过用户设置的矩阵最大值和最小值,生成经尺寸变换处理的新的矩阵文件;
(2)系统对所述的新的矩阵文件的列或行进行分位数规范化处理,形成统一的列向量或行向量之间的值域范围;
(3)系统对所述的新的矩阵文件进行压缩处理,保持所述的新的矩阵文件特征不变,并降低新的矩阵文件的容量大小;
(4)系统根据用户操作获取关键字段文件、模版文件及所述模版文件中关键字段所属列,通过对模版文件中特定关键字段的信息提取,筛选出符合条件的模版文件子集并输出;
(5)系统根据用户操作高通量数据序列比对结果文件,并根据设定的随机重抽样文件的个数和单个重抽样文件的序列比对结果记录条数,生成预设数量的模拟格式高通量数据序列比对结果文件;
(6)系统根据所述的新的矩阵文件、模版文件子集和模拟格式高通量数据序列比对结果文件生成前景数据处理结果文件和背景数据处理文件,通过逐一比较每个信号值在前景数据处理结果文件和背景数据处理结果文件中的数量分布,生成经验性假阳性率分布,并对每个前景信号的假阳性概率进行估计,生成前景信号假阳性概率;
(7)系统根据所述的特定格式的高通量测序数据的矩阵文件及预设的预期聚合酶链反应冗余片段在总样本中所占比例,生成聚合酶链反应冗余片段阈值并在所述的高通量测序数据的矩阵文件中标记所述的聚合酶链反应冗余片段位置。
2.根据权利要求1所述的高通量测序数据后期处理方法,其特征在于,所述的特定格式的高通量测序数据的矩阵文件中其第一列为染色体序号,第二列位位置信息,第三列为该位点正链上的序列个数,第四列为该位点负链上的序列个数。
3.根据权利要求1或2所述的高通量测序数据后期处理方法,其特征在于,所述的高通量测序数据的矩阵文件为存放有多个样本组数据的矩阵文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310610912.6A CN103853937B (zh) | 2013-11-27 | 2013-11-27 | 高通量测序数据后期处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310610912.6A CN103853937B (zh) | 2013-11-27 | 2013-11-27 | 高通量测序数据后期处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103853937A true CN103853937A (zh) | 2014-06-11 |
CN103853937B CN103853937B (zh) | 2017-02-01 |
Family
ID=50861585
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310610912.6A Expired - Fee Related CN103853937B (zh) | 2013-11-27 | 2013-11-27 | 高通量测序数据后期处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103853937B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104894271A (zh) * | 2015-06-10 | 2015-09-09 | 天津诺禾致源生物信息科技有限公司 | 一种检测基因融合的方法及装置 |
CN106557666A (zh) * | 2016-11-15 | 2017-04-05 | 上海派森诺生物科技股份有限公司 | 一种能够基于Nextseq500高通量测序平台的数据过滤方法 |
CN106778072A (zh) * | 2016-12-30 | 2017-05-31 | 西安交通大学 | 针对第二代肿瘤基因组高通量测序数据的流程校正方法 |
CN110246546A (zh) * | 2019-06-18 | 2019-09-17 | 西南民族大学 | 一种基因型高通量测序数据的压缩方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894211A (zh) * | 2010-06-30 | 2010-11-24 | 深圳华大基因科技有限公司 | 一种基因注释方法和系统 |
US20120295260A1 (en) * | 2008-11-07 | 2012-11-22 | Industrial Technology Research Institute | Methods for accurate sequence data and modified base position determination |
CN103177197A (zh) * | 2011-12-22 | 2013-06-26 | 上海聚类生物科技有限公司 | 基于高通量测序检测差异表达与可变剪切分析的方法 |
-
2013
- 2013-11-27 CN CN201310610912.6A patent/CN103853937B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120295260A1 (en) * | 2008-11-07 | 2012-11-22 | Industrial Technology Research Institute | Methods for accurate sequence data and modified base position determination |
CN101894211A (zh) * | 2010-06-30 | 2010-11-24 | 深圳华大基因科技有限公司 | 一种基因注释方法和系统 |
CN103177197A (zh) * | 2011-12-22 | 2013-06-26 | 上海聚类生物科技有限公司 | 基于高通量测序检测差异表达与可变剪切分析的方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104894271A (zh) * | 2015-06-10 | 2015-09-09 | 天津诺禾致源生物信息科技有限公司 | 一种检测基因融合的方法及装置 |
CN104894271B (zh) * | 2015-06-10 | 2020-02-21 | 天津诺禾致源生物信息科技有限公司 | 一种检测基因融合的方法及装置 |
CN106557666A (zh) * | 2016-11-15 | 2017-04-05 | 上海派森诺生物科技股份有限公司 | 一种能够基于Nextseq500高通量测序平台的数据过滤方法 |
CN106778072A (zh) * | 2016-12-30 | 2017-05-31 | 西安交通大学 | 针对第二代肿瘤基因组高通量测序数据的流程校正方法 |
CN106778072B (zh) * | 2016-12-30 | 2019-05-21 | 西安交通大学 | 针对第二代肿瘤基因组高通量测序数据的流程校正方法 |
CN110246546A (zh) * | 2019-06-18 | 2019-09-17 | 西南民族大学 | 一种基因型高通量测序数据的压缩方法 |
CN110246546B (zh) * | 2019-06-18 | 2021-07-09 | 西南民族大学 | 一种基因型高通量测序数据的压缩方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103853937B (zh) | 2017-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zou et al. | Survey of MapReduce frame operation in bioinformatics | |
Svensson et al. | SpatialDE: identification of spatially variable genes | |
Maignien et al. | Ecological succession and stochastic variation in the assembly of Arabidopsis thaliana phyllosphere communities | |
Karpievitch et al. | Normalization of peak intensities in bottom-up MS-based proteomics using singular value decomposition | |
Hebestreit et al. | Detection of significantly differentially methylated regions in targeted bisulfite sequencing data | |
Mueller et al. | Ecological distribution and population physiology defined by proteomics in a natural microbial community | |
CN105653900B (zh) | 无参转录组分析系统及方法 | |
Anderson et al. | A functional central limit theorem for a Markov-modulated infinite-server queue | |
CN103853937A (zh) | 高通量测序数据后期处理方法 | |
CN104484558B (zh) | 生物信息项目的分析报告自动生成方法及系统 | |
Soltani et al. | Effects of cell-cycle-dependent expression on random fluctuations in protein levels | |
CN105335133A (zh) | 用于生成业务规则模型的方法和装置 | |
Cohen et al. | A code for transcription elongation speed | |
Wilmes et al. | Metabolome-proteome differentiation coupled to microbial divergence | |
Wen et al. | The best practice for microbiome analysis using R | |
Sekula et al. | Detection of differentially expressed genes in discrete single-cell RNA sequencing data using a hurdle model with correlated random effects | |
CN101110024A (zh) | 一种单元测试系统和方法 | |
CN107832584B (zh) | 宏基因组的基因分析方法、装置、设备及存储介质 | |
CN115472298A (zh) | 基于ai的高通量测序数据智能分析系统及方法 | |
CN105653897B (zh) | 基于生物云平台的lncRNA分析系统及方法 | |
Vuong et al. | Small investments with big returns: environmental genomic bioprospecting of microbial life | |
CN110176276B (zh) | 生物信息分析流程化管理方法及系统 | |
CN109582292B (zh) | 一种基于基因组学以及生物信息学的在线交互云平台 | |
CN104850638B (zh) | Etl过程并行决策方法及装置 | |
Damashek et al. | Coastal ocean metagenomes and curated metagenome-assembled genomes from Marsh Landing, Sapelo Island (Georgia, USA) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C53 | Correction of patent of invention or patent application | ||
CB02 | Change of applicant information |
Address after: 200241 Shanghai City, Minhang District science and Technology Park of Cangyuan Jianchuan Road No. 951 building A Room 102 Applicant after: FENGHE (SHANGHAI) INFORMATION TECHNOLOGY CO., LTD. Address before: 201108, room 4, building 508, No. 208 East Spring Road, Shanghai, Minhang District Applicant before: FENGHE (SHANGHAI) INFORMATION TECHNOLOGY CO., LTD. |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170201 Termination date: 20171127 |