CN103853937A

CN103853937A - 高通量测序数据后期处理方法

Info

Publication number: CN103853937A
Application number: CN201310610912.6A
Authority: CN
Inventors: 王立山; 曹鑫恺; 臧卫东; 王媛媛
Original assignee: FENGHE (SHANGHAI) INFORMATION TECHNOLOGY Co Ltd
Current assignee: FENGHE (SHANGHAI) INFORMATION TECHNOLOGY Co Ltd
Priority date: 2013-11-27
Filing date: 2013-11-27
Publication date: 2014-06-11
Anticipated expiration: 2033-11-27
Also published as: CN103853937B

Abstract

本发明涉及一种高通量测序数据后期处理方法，属于分子生物学技术领域。该方法根据用户需要，对高通量测序数据后期进行高效的数据平滑、数据缩放、组间标准化、特定数据行提取、组间数据量平衡等操作，并支持任何测序平台生成的实验数据，特别适用于存放有多个样本组数据的矩阵文件，从而能够从而减少数据分析人员的工作负担，降低数据处理的难度，且本发明的高通量测序数据后期处理方法的应用范围也较为广泛。

Description

高通量测序数据后期处理方法

技术领域

本发明涉及分子生物学技术领域，特别涉及染色质测序数据分析技术领域，具体是指一种高通量测序数据后期处理方法。

背景技术

新一代高通量测序技术的出现极大地丰富了人们利用分子生物学手段研究细胞内变化规律的方案。目前众多高通量测序技术都有相关的分析方法或分析流程作为参考帮助科研人员进行高通量数据处理。但是，现有工具对这些高通量测序数据的后期加工和整合仍然缺乏系统性的总结。目前，在后期数据加工中，没有专门数据处理方法会涉及到的诸如平滑、缩放和组间标准化、特定数据行提取等常用操作，这无形中增加了数据分析人员的工作负担，加大了数据处理的难度。

发明内容

本发明的目的是克服了上述现有技术中的缺点，提供一种支持任何测序平台生成的实验数据，对于存放有多个样本组数据的矩阵文件能够进行高效的数据平滑、数据缩放、组间标准化、特定数据行提取、组间数据量平衡等操作，从而减少数据分析人员的工作负担，降低数据处理的难度，且应用范围较为广泛的高通量测序数据后期处理方法。

为了实现上述的目的，本发明的高通量测序数据后期处理方法包括以下步骤：

(1)系统获得高通量测序数据的矩阵文件，通过用户设置的矩阵最大值和最小值，生成经尺寸变换处理的新的矩阵文件；

(2)系统对所述的新的矩阵文件的列或行进行分位数规范化处理，形成统一的列向量或行向量之间的值域范围；

(3)系统对所述的新的矩阵文件进行压缩处理，保持所述的新的矩阵文件特征不变，并降低新的矩阵文件的容量大小；

(4)系统根据用户操作获取关键字段文件、模版文件及所述模版文件中关键字段所属列，通过对模版文件中特定关键字段的信息提取，筛选出符合条件的模版文件子集并输出；

(5)系统根据用户操作高通量数据序列比对结果文件，并根据设定的随机重抽样文件的个数和单个重抽样文件的序列比对结果记录条数，生成预设数量的模拟格式高通量数据序列比对结果文件；

(6)系统根据所述的新的矩阵文件、模版文件子集和模拟格式高通量数据序列比对结果文件生成前景数据处理结果文件和背景数据处理文件，通过逐一比较每个信号值在前景数据处理结果文件和背景数据处理结果文件中的数量分布，生成经验性假阳性率分布，并对每个前景信号的假阳性概率进行估计，生成前景信号假阳性概率；

(7)系统根据所述的特定格式的高通量测序数据的矩阵文件及预设的预期聚合酶链反应冗余片段在总样本中所占比例，生成聚合酶链反应冗余片段阈值并在所述的高通量测序数据的矩阵文件中标记所述的聚合酶链反应冗余片段位置。

其中，所述的特定格式的高通量测序数据的矩阵文件中其第一列为染色体序号，第二列位位置信息，第三列为该位点正链上的序列个数，第四列为该位点负链上的序列个数。

该高通量测序数据后期处理方法中，所述的高通量测序数据的矩阵文件为存放有多个样本组数据的矩阵文件。

采用了该发明的高通量测序数据后期处理方法，其能够根据用户需要，对高通量测序数据进行高效的数据平滑、数据缩放、组间标准化、特定数据行提取、组间数据量平衡等操作，并支持任何测序平台生成的实验数据，特别适用于存放有多个样本组数据的矩阵文件，从而能够从而减少数据分析人员的工作负担，降低数据处理的难度，且本发明的高通量测序数据后期处理方法的应用范围也较为广泛。

附图说明

图1为本发明的高通量测序数据后期处理方法的步骤流程图。

具体实施方式

为了能够更清楚地理解本发明的技术内容，特举以下实施例详细说明。

请参阅图1所示，为本发明的高通量测序数据后期处理方法的步骤流程图。

在具体实施方式中，该方法如图1所示包括以下步骤：

(1)系统获得高通量测序数据的矩阵文件，通过用户设置的矩阵最大值和最小值，生成经尺寸变换处理的新的矩阵文件，所述的高通量测序数据的矩阵文件为存放有多个样本组数据的矩阵文件；

(7)系统根据所述的特定格式的高通量测序数据的矩阵文件及预设的预期聚合酶链反应(polymerase chain reaction，PCR duplicates)样本在总样本中所占比例，生成聚合酶链反应冗余片段阈值并在所述的高通量测序数据的矩阵文件中标记所述的聚合酶链反应冗余片段位置；其中，所述的特定格式的高通量测序数据的矩阵文件中其第一列为染色体序号，第二列位位置信息，第三列为该位点正链上的序列个数，第四列为该位点负链上的序列个数。

在实际应用中，本发明的方法所利用的工具包共包含3个Python脚本代码和4个R脚本代码，每个脚本名称如下：

(1)PROGRAM_row_selection.py

(2)PROGRAM_QC_PCR_duplicates_cutoff.py

(3)PROGRAM_sam_random_sampling.py

(4)PROGRAM_FDR_calculation_based_on_data.r

(5)PROGRAM_matrix_data_bin_smooth.r

(6)PROGRAM_matrix_data_resacle.r

(7)PROGRAM_matrix_dataquantile_norm.r

上述每个脚本既能够独立执行，也可以嵌入到已有的数据分析流程中，使用非常灵活。

每个脚本的代码编写基于Python和R语言，可以在Windows、Linux、MacOS等多种系统平台下使用。代码运行过程中，耗费系统资源少，能够在任意一台个人PC、工作站和或服务器上进行使用。

每个脚本都应对高通量数据分析后期经常所需的操作进行设计。

1、PROGRAM_matrix_data_rescale.r，以数值类型矩阵文件作为输入数据，通过设置新生成数值矩阵的最大值和最小值，帮助用户获得经过rescaling处理的矩阵文件。

2、PROGRAM_matrix_data_quantile_norm.r，以数值类型矩阵文件作为输入数据，可以设置对列或对行进行分位数规范化(quantile normalization)，从而统一列向量或行向量之间的值域范围。

3、PROGRAM_matrix_data_bin_smooth.r，以数值类型矩阵文件作为输入数据，通过设置加和窗口的大小和平滑窗口的大小对输入矩阵数据进行先加和后平滑的数据处理方式，最终输出一个经过压缩的数值矩阵文件，在保证总体特征不变的前提下，降低文件容量大小，以便于后续的图形化处理。

4、PROGRAM_row_selection.py，要求提供关键字段文件和模版文件作为输入文件，要求提供模版文件中关键字段所属列，通过对模版文件中特定关键字段的信息提取，最终筛选出符合条件的模版文件子集并输出，用户可以根据输出文件设计后续的数据处理流程。

5、PROGRAM_sam_random_sampling.py以.sam格式高通量数据reads比对结果文件作为输入文件，通过设置随机重抽样文件的个数和单个重抽样文件的reads比对结果记录条数，最终生成用户规定数量的模拟.sam格式的高通量数据reads比对结果文件，为后续的算法开发和不同软件工具之间的优劣比较提供测试用数据。

6、PROGRAM_FDR_calculation_based_on_data.r的运行要求提供前景数据处理结果文件和背景数据处理文件，通过逐一比较每个信号值在前景和背景中的数量分布，生成经验性假阳性率分布，并对每个前景信号的假阳性概率进行估计，最终为用户提供统计学一类错误的假阳性指标的筛选参考。

7、PROGRAM_QC_PCR_duplicates_cutoff.py，以特定格式文件(第一列为染色体序号，第二列位位置信息，第三列为该位点正链上的reads个数，第四列为该位点负链上的reads个数)作为输入，通过设置预期PCR duplicates在样本中的所占比例，最终向用户提供具体的PCRduplicates的具体阈值并对PCR duplicates所处的位置进行标记，帮助用户对这些位置上的PCR duplicates进行识别和后续操作。

此外，通过这7个独立脚本之间的不同组合能够帮助用户决解一系列高通量数据后期分析操作难题。

在应用过程中，上述脚本会返回一系列详细的参数设置和对应的参数说明，指导数据分析人员正确使用这些方法。其中，参数分为两种类型：必要参数和可选参数。必要参数要求由数据分析人员提供输入值，无默认值。可选参数的默认值有预设值，分析人员也可以结合实际需求进行调整，具有灵活性。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种高通量测序数据后期处理方法，其特征在于，所述的方法包括以下步骤：

2.根据权利要求1所述的高通量测序数据后期处理方法，其特征在于，所述的特定格式的高通量测序数据的矩阵文件中其第一列为染色体序号，第二列位位置信息，第三列为该位点正链上的序列个数，第四列为该位点负链上的序列个数。

3.根据权利要求1或2所述的高通量测序数据后期处理方法，其特征在于，所述的高通量测序数据的矩阵文件为存放有多个样本组数据的矩阵文件。