CN106611107B

CN106611107B - 一种去除测序数据噪声的方法

Info

Publication number: CN106611107B
Application number: CN201710031232.7A
Authority: CN
Inventors: 王演; 张宁
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2017-01-17
Filing date: 2017-01-17
Publication date: 2020-09-22
Anticipated expiration: 2037-01-17
Also published as: CN106611107A

Abstract

本发明公开了一种去除测序数据噪声的方法,包括以下步骤：S1：对原始RNA‑Seq数据进行过滤，应用最小过滤原则，去除原始数据矩阵中的数值为0或表达量极低的行；S2：对过滤后的数据进行标准化处理，去除系统偏差，将不同的结果根据全局数值进行调整，使个体之间的数据具有可比性；S3：计算标准化数据后感兴趣的变量和批次噪声之间的相关性，进行相关系数显著性检验，求出P值，若P<0.05，则有显著相关性，否则没有显著相关性；S4：若两者相关，则对数据进行rlog变换；若两者不相关，则先对数据进行Z‑Score处理后，再log变换，Z‑Score的模型为：

其中：Y为处理前的数据，X为处理后的数据，μ为均值，ν为方差；S5：确定替代变量。

Description

一种去除测序数据噪声的方法

技术领域

本发明涉及生物信息学与第二代测序技术领域，特别是关于不同实验室或平台干扰下引入的批次效应的去除方法，具体为一种去除测序数据噪声的方法。

背景技术

目前已有的去除测序数据噪声算法有两种，一种是去除不需要的变量方法。对于m个样本和n组基因，基于对数线性模型，观测的测序读取计数在感兴趣的已知协变量和不需要的变量的未知因素上回归，利用数据的子集来估计不需要的变量并调整他们。另一种为替代变量分析方法。该算法结合奇异值分解和线性模型分析，通过线性模型删除生物变量引入的差异后，对残差矩阵通过奇异值分解估计特征值并确定重要的混杂变量后对其进行移除。

以上两种算法的缺陷具有以下三点缺陷：

(1)目前算法用于微阵列数据，不适用于第二代测序数据。

(2)没有考虑模型中存在的异方差问题，数据处理的精度不准确。

(3)目前算法对对计数值进行对数变换，然而对数变化后形成的小计数值会存在内在的噪声，并且对数变换会加大较小计数值之间的差异，这些低计数值显示样本之间强大的相对差异。

发明内容

根据现有技术存在的问题，本发明公开了一种去除测序数据噪声的方法。

其采用如下技术方案：一种去除测序数据噪声的方法，包括以下步骤：

S1：对原始数据集进行过滤，应用最小过滤原则，去除原始数据矩阵中数值为0或表达量极低的行；

S2：对过滤后的数据进行标准化处理，去除系统偏差，将不同的结果根据全局数值进行调整，使个体之间的数据具有可比性；

S3：计算标准化数据后组变量和批次噪声之间的相关性，进行相关系数显著性检验，求出P值，若P＜0.05，则有显著相关性，否则没有显著相关性；

S4：若两者相关，则对数据进行rlog变换；若两：若两者不相关，则先对数据进行Z-Score处理，然后对处理后的数据进行log变换，Z-Score的模型为：

其中：Y为处理前的数据，X为处理后的数据，μ为均值，ν为方差；

S5：确定替代变量。

进一步的，所述S5步骤包括以下步骤：

S51：检测批次效应；

S52：计算替代变量。

进一步的，所述S51步骤包括以下步骤：

①通过拟合模型x_ij＝μ_i+b_iy_j+e_ij来估计

和

并通过加权最小二乘法计算残差

形成m×n的残差矩阵R；

②计算残差矩阵的奇异值分解，即R＝UDV^T，其中U和V是A的特征向量，D表示A的特征值；

③使d_l为第l个特征值，其是D的第l个对角元素，l＝1,2,...,n，如果df是模型拟合

的自由度，然后通过构造最后的df特征值正好为零，将其删除；对于特征基因k＝1,2,...,n-df设置观察到的统计量为：

④通过置换R的每一行以形成矩阵R^*；

⑤拟合模型

并计算残差

来形成m×n的空矩阵模型

⑥计算R⁰矩阵的奇异值分解

⑦对于R⁰中的特征基因k

⑧迭代4-7步骤共B次，得到空统计

b＝1,2,...,B和k＝1,2,...,n-df；

⑨计算特征基因k的p值：

⑩对于用户选择的显著性水平0≤α≤1，如果p_k≤α，则特征基因k为显著性特征；否则，这些特征基因不显著。

进一步的，所述S52步骤包括以下步骤：

①通过拟合模型x_ij＝μ_i+b_iy_j+e_ij来估计

和

并通过加权最小二乘法计算残差

形成m×n的残差矩阵R；

②计算残差矩阵的奇异值分解R＝UDV^T，令e_k＝(e_k1,.....e_kn)^T是特征向量V的第k列，表示残差特征基因，并且代表与主变量导致的信号无关的正交残差信号；

设置

为算法所确定的显著特征基因数；

③在x_i(i＝1,2,...m)上回归e_k并计算p值来检测残差特征基因和每个基因表达之间的关联，p值测量残差特征基因e_k和基因i的表达之间关联的强度；

④令π₀是与e_k不相关的表达基因的比例，估计

并估计与残差特征基因相关的基因的数量为

⑤形成

的简化矩阵

为与残差特征基因k相关的基因数量的估计，计算X_r的特征基因，并用

表示，j＝1,...,n；

⑥令

即j^*是使得e_k和

之间的相关性达到最大值所对应的变量，并设置

将替代变量的估计设置为与相应的残差特征基因最相关的简化矩阵的特征基因；

⑦在后续分析中，应用模型

本发明具有以下有益效果：

(1)本发明的一种去除测序数据噪声的方法，对原始第二代测序数据进行标准化处理，降低了数据中的技术噪声；

(2)本发明的一种去除测序数据噪声的方法，当组变量和批次相关时，使用正则对数变换后更稳定，有助于多变量可视化和排序，效果更好；

(3)本发明的一种去除测序数据噪声的方法，当组变量和批次不相关时，用Z-Score处理后，提高了算法的精度；

(4)本发明的一种去除测序数据噪声的方法，利用带权重的最小二乘法求残差矩阵，解决了模型中存在的异方差问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图；

图1为本发明所述去除测序数据噪声的方法逻辑结构示意图；

图2为本发明所述去除测序数据噪声的方法步骤S5逻辑结构示意图；

图3为组变量和批次效应不相关数据差异表达结果的比较；

图4为组变量和批次效应相关数据差异表达结果的比较。

具体实施方式

为使本发明的技术方案和优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整的描述。

实施例1

如图1所示，一种去除测序数据噪声的方法，包括以下步骤：

S5：确定替代变量。

所述S1步骤中，由于计数数据矩阵中许多行仅包含0或者表达量极低，去除那些没有含有或仅含有很少信息的行，能够降低对象的大小，并增加处理的速度。

所述rlog变换为正则对数变换，所述log变换为对数变换，所述Z-Score处理为根据数据的均值和标准差进行归一化，经过处理的数据符合正态分布。

如图2所示，进一步的，所述S5步骤包括以下步骤：

S51：检测批次效应；

S52：计算替代变量。

进一步的，所述S51步骤包括以下步骤：

①通过拟合模型x_ij＝μ_i+b_iy_j+e_ij来估计

和

并通过加权最小二乘法计算残差

形成m×n的残差矩阵R；

④通过置换R的每一行以形成矩阵R^*；

⑤拟合模型

并计算残差

来形成m×n的空矩阵模型

⑥计算R⁰矩阵的奇异值分解

⑦对于R⁰中的特征基因k

⑧迭代4-7步骤共B次，得到空统计

b＝1,2,...,B和k＝1,2,...,n-df；

⑨计算特征基因k的p值：

进一步的，所述S52步骤包括以下步骤：

①通过拟合模型x_ij＝μ_i+b_iy_j+e_ij来估计

和

并通过加权最小二乘法计算残差

形成m×n的残差矩阵R；

设置

为算法所确定的显著特征基因数；

④令π₀是与e_k不相关的表达基因的比例，估计

并估计与残差特征基因相关的基因的数量为

⑤形成

的简化矩阵

表示，j＝1,...,n；

⑥令

即j^*是使得e_k和

之间的相关性达到最大值所对应的变量，并设置

⑦在后续分析中，应用模型

实验结果：

以下实验为使用数据来比较算法的优劣：

从ReCount网站下载了Pickrell和Montgomery研究的计数数据，并从Hapmap网站下载了谱系信息进行分析。Montgomery研究为对具有北欧或西欧血统的犹他州居民进行测序(HapMap中的CEU人群)，Pickrell为对尼日利亚伊巴丹的约鲁巴人进行测序(HapMap中的YRI人群)。通过把两个不同群体的基因表达研究的数据组合起来，产生人为的批次效应。在分析中把性别作为结果变量，然后使用不同的方法去除批次效应。原始数据中，组变量和批次效应几乎完全正交，即两者不相关，用不同的算法得到的结果如图3所示。然后重新采样数据，模拟了两者相关的情况，得到的结果如图4所示。

图3和图4中，算法1至算法5分别表示使用一种算法得到的结果，算法1为使用本发明的一种去除测序数据噪声的方法得到的结果，算法2为使用RUVEmp去除批次效应算法得到的结果，算法3为使用RUVRes去除批次效应算法得到的结果，算法4为使用svaseq去除批次效应算法得到的结果，算法5为使用Noadjustment去除批次效应算法得到的结果。

从图3中看到算法1的结果线条在其他算法的结果线条的上方，即本发明的算法去除批次效应后的差异表达结果高于其他方法，因此说明该算法优于其他算法。

图4表示组变量和批次效应相关时去除批次效应后得到的差异表达结果，从图4中看到算法1的结果线条在其他算法的结果线条的上方，即本发明的算法得到的差异表达分数明显高于其他方法，因此可以说明本算法明显优于其他算法。

综合图3-4可以得到，本发明的算法在组变量和批次效应相关和不相关这两种情况下，表现都优于其他常用算法。

由于采用了上述技术方案，本发明提供的一种去除测序数据噪声的方法，对原始第二代测序数据进行标准化处理，降低了数据中的技术噪声，当组变量和批次相关时，使用正则对数变换后更稳定，有助于多变量可视化和排序，效果更好，当组变量和批次不相关时，用Z-Score处理后，提高了算法的精度，利用带权重的最小二乘法求残差矩阵，解决了模型中存在的异方差问题。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。