CN106611107B - 一种去除测序数据噪声的方法 - Google Patents
一种去除测序数据噪声的方法 Download PDFInfo
- Publication number
- CN106611107B CN106611107B CN201710031232.7A CN201710031232A CN106611107B CN 106611107 B CN106611107 B CN 106611107B CN 201710031232 A CN201710031232 A CN 201710031232A CN 106611107 B CN106611107 B CN 106611107B
- Authority
- CN
- China
- Prior art keywords
- data
- residual
- matrix
- calculating
- gene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
Landscapes
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Complex Calculations (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种去除测序数据噪声的方法,包括以下步骤:S1:对原始RNA‑Seq数据进行过滤,应用最小过滤原则,去除原始数据矩阵中的数值为0或表达量极低的行;S2:对过滤后的数据进行标准化处理,去除系统偏差,将不同的结果根据全局数值进行调整,使个体之间的数据具有可比性;S3:计算标准化数据后感兴趣的变量和批次噪声之间的相关性,进行相关系数显著性检验,求出P值,若P<0.05,则有显著相关性,否则没有显著相关性;S4:若两者相关,则对数据进行rlog变换;若两者不相关,则先对数据进行Z‑Score处理后,再log变换,Z‑Score的模型为:其中:Y为处理前的数据,X为处理后的数据,μ为均值,ν为方差;S5:确定替代变量。
Description
技术领域
本发明涉及生物信息学与第二代测序技术领域,特别是关于不同实验室或平台干扰下引入的批次效应的去除方法,具体为一种去除测序数据噪声的方法。
背景技术
目前已有的去除测序数据噪声算法有两种,一种是去除不需要的变量方法。对于m个样本和n组基因,基于对数线性模型,观测的测序读取计数在感兴趣的已知协变量和不需要的变量的未知因素上回归,利用数据的子集来估计不需要的变量并调整他们。另一种为替代变量分析方法。该算法结合奇异值分解和线性模型分析,通过线性模型删除生物变量引入的差异后,对残差矩阵通过奇异值分解估计特征值并确定重要的混杂变量后对其进行移除。
以上两种算法的缺陷具有以下三点缺陷:
(1)目前算法用于微阵列数据,不适用于第二代测序数据。
(2)没有考虑模型中存在的异方差问题,数据处理的精度不准确。
(3)目前算法对对计数值进行对数变换,然而对数变化后形成的小计数值会存在内在的噪声,并且对数变换会加大较小计数值之间的差异,这些低计数值显示样本之间强大的相对差异。
发明内容
根据现有技术存在的问题,本发明公开了一种去除测序数据噪声的方法。
其采用如下技术方案:一种去除测序数据噪声的方法,包括以下步骤:
S1:对原始数据集进行过滤,应用最小过滤原则,去除原始数据矩阵中数值为0或表达量极低的行;
S2:对过滤后的数据进行标准化处理,去除系统偏差,将不同的结果根据全局数值进行调整,使个体之间的数据具有可比性;
S3:计算标准化数据后组变量和批次噪声之间的相关性,进行相关系数显著性检验,求出P值,若P<0.05,则有显著相关性,否则没有显著相关性;
S4:若两者相关,则对数据进行rlog变换;若两:若两者不相关,则先对数据进行Z-Score处理,然后对处理后的数据进行log变换,Z-Score的模型为:
其中:Y为处理前的数据,X为处理后的数据,μ为均值,ν为方差;
S5:确定替代变量。
进一步的,所述S5步骤包括以下步骤:
S51:检测批次效应;
S52:计算替代变量。
进一步的,所述S51步骤包括以下步骤:
②计算残差矩阵的奇异值分解,即R=UDVT,其中U和V是A的特征向量,D表示A的特征值;
③使dl为第l个特征值,其是D的第l个对角元素,l=1,2,...,n,如果df是模型拟合的自由度,然后通过构造最后的df特征值正好为零,将其删除;对于特征基因k=1,2,...,n-df设置观察到的统计量为:
④通过置换R的每一行以形成矩阵R*;
⑦对于R0中的特征基因k
⑨计算特征基因k的p值:
⑩对于用户选择的显著性水平0≤α≤1,如果pk≤α,则特征基因k为显著性特征;否则,这些特征基因不显著。
进一步的,所述S52步骤包括以下步骤:
②计算残差矩阵的奇异值分解R=UDVT,令ek=(ek1,.....ekn)T是特征向量V的第k列,表示残差特征基因,并且代表与主变量导致的信号无关的正交残差信号;
③在xi(i=1,2,...m)上回归ek并计算p值来检测残差特征基因和每个基因表达之间的关联,p值测量残差特征基因ek和基因i的表达之间关联的强度;
本发明具有以下有益效果:
(1)本发明的一种去除测序数据噪声的方法,对原始第二代测序数据进行标准化处理,降低了数据中的技术噪声;
(2)本发明的一种去除测序数据噪声的方法,当组变量和批次相关时,使用正则对数变换后更稳定,有助于多变量可视化和排序,效果更好;
(3)本发明的一种去除测序数据噪声的方法,当组变量和批次不相关时,用Z-Score处理后,提高了算法的精度;
(4)本发明的一种去除测序数据噪声的方法,利用带权重的最小二乘法求残差矩阵,解决了模型中存在的异方差问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图;
图1为本发明所述去除测序数据噪声的方法逻辑结构示意图;
图2为本发明所述去除测序数据噪声的方法步骤S5逻辑结构示意图;
图3为组变量和批次效应不相关数据差异表达结果的比较;
图4为组变量和批次效应相关数据差异表达结果的比较。
具体实施方式
为使本发明的技术方案和优点更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整的描述。
实施例1
如图1所示,一种去除测序数据噪声的方法,包括以下步骤:
S1:对原始数据集进行过滤,应用最小过滤原则,去除原始数据矩阵中数值为0或表达量极低的行;
S2:对过滤后的数据进行标准化处理,去除系统偏差,将不同的结果根据全局数值进行调整,使个体之间的数据具有可比性;
S3:计算标准化数据后组变量和批次噪声之间的相关性,进行相关系数显著性检验,求出P值,若P<0.05,则有显著相关性,否则没有显著相关性;
S4:若两者相关,则对数据进行rlog变换;若两:若两者不相关,则先对数据进行Z-Score处理,然后对处理后的数据进行log变换,Z-Score的模型为:
其中:Y为处理前的数据,X为处理后的数据,μ为均值,ν为方差;
S5:确定替代变量。
所述S1步骤中,由于计数数据矩阵中许多行仅包含0或者表达量极低,去除那些没有含有或仅含有很少信息的行,能够降低对象的大小,并增加处理的速度。
所述rlog变换为正则对数变换,所述log变换为对数变换,所述Z-Score处理为根据数据的均值和标准差进行归一化,经过处理的数据符合正态分布。
如图2所示,进一步的,所述S5步骤包括以下步骤:
S51:检测批次效应;
S52:计算替代变量。
进一步的,所述S51步骤包括以下步骤:
②计算残差矩阵的奇异值分解,即R=UDVT,其中U和V是A的特征向量,D表示A的特征值;
③使dl为第l个特征值,其是D的第l个对角元素,l=1,2,...,n,如果df是模型拟合的自由度,然后通过构造最后的df特征值正好为零,将其删除;对于特征基因k=1,2,...,n-df设置观察到的统计量为:
④通过置换R的每一行以形成矩阵R*;
⑦对于R0中的特征基因k
⑨计算特征基因k的p值:
⑩对于用户选择的显著性水平0≤α≤1,如果pk≤α,则特征基因k为显著性特征;否则,这些特征基因不显著。
进一步的,所述S52步骤包括以下步骤:
②计算残差矩阵的奇异值分解R=UDVT,令ek=(ek1,.....ekn)T是特征向量V的第k列,表示残差特征基因,并且代表与主变量导致的信号无关的正交残差信号;
③在xi(i=1,2,...m)上回归ek并计算p值来检测残差特征基因和每个基因表达之间的关联,p值测量残差特征基因ek和基因i的表达之间关联的强度;
实验结果:
以下实验为使用数据来比较算法的优劣:
从ReCount网站下载了Pickrell和Montgomery研究的计数数据,并从Hapmap网站下载了谱系信息进行分析。Montgomery研究为对具有北欧或西欧血统的犹他州居民进行测序(HapMap中的CEU人群),Pickrell为对尼日利亚伊巴丹的约鲁巴人进行测序(HapMap中的YRI人群)。通过把两个不同群体的基因表达研究的数据组合起来,产生人为的批次效应。在分析中把性别作为结果变量,然后使用不同的方法去除批次效应。原始数据中,组变量和批次效应几乎完全正交,即两者不相关,用不同的算法得到的结果如图3所示。然后重新采样数据,模拟了两者相关的情况,得到的结果如图4所示。
图3和图4中,算法1至算法5分别表示使用一种算法得到的结果,算法1为使用本发明的一种去除测序数据噪声的方法得到的结果,算法2为使用RUVEmp去除批次效应算法得到的结果,算法3为使用RUVRes去除批次效应算法得到的结果,算法4为使用svaseq去除批次效应算法得到的结果,算法5为使用Noadjustment去除批次效应算法得到的结果。
从图3中看到算法1的结果线条在其他算法的结果线条的上方,即本发明的算法去除批次效应后的差异表达结果高于其他方法,因此说明该算法优于其他算法。
图4表示组变量和批次效应相关时去除批次效应后得到的差异表达结果,从图4中看到算法1的结果线条在其他算法的结果线条的上方,即本发明的算法得到的差异表达分数明显高于其他方法,因此可以说明本算法明显优于其他算法。
综合图3-4可以得到,本发明的算法在组变量和批次效应相关和不相关这两种情况下,表现都优于其他常用算法。
由于采用了上述技术方案,本发明提供的一种去除测序数据噪声的方法,对原始第二代测序数据进行标准化处理,降低了数据中的技术噪声,当组变量和批次相关时,使用正则对数变换后更稳定,有助于多变量可视化和排序,效果更好,当组变量和批次不相关时,用Z-Score处理后,提高了算法的精度,利用带权重的最小二乘法求残差矩阵,解决了模型中存在的异方差问题。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (4)
1.一种去除测序数据噪声的方法,其特征在于,包括以下步骤:
S1:对原始数据集进行过滤,应用最小过滤原则,去除原始数据矩阵中数值为0或表达量极低的行;
S2:对过滤后的数据进行标准化处理,去除系统偏差,将不同的结果根据全局数值进行调整,使个体之间的数据具有可比性;
S3:计算标准化数据后组变量和批次噪声之间的相关性,进行相关系数显著性检验,求出P值,若P<0.05,则有显著相关性,否则没有显著相关性;
S4:若两者相关,则对标准化数据进行rlog变换;若两者不相关,则先对标准化数据进行Z-Score处理,然后对处理后的数据进行log变换,Z-Score的模型为:
其中:Y为处理前的数据,X为处理后的数据,μ为标准化数据的均值,ν为标准化数据的方差;
S5:确定替代变量。
2.根据权利要求1所述的一种去除测序数据噪声的方法,其特征还在于:所述S5步骤包括以下步骤:
S51:检测批次效应;
S52:计算替代变量。
3.根据权利要求2所述的一种去除测序数据噪声的方法,其特征还在于:所述S51步骤包括以下步骤:
②计算残差矩阵的奇异值分解,即R=UDVT,其中U和V是R的特征向量,D表示R的特征值;
③使dl为第l个特征值,其是D的第l个对角元素,l=1,2,...,n,如果df是模型拟合的自由度,然后通过构造最后的df特征值正好为零,将dl删除;对于特征基因k=1,2,...,n-df设置观察到的统计量为:
④通过置换R的每一行以形成矩阵R*;
⑦对于R0中的第k个特征基因的T统计量为:
⑨计算特征基因k的p值:
⑩对于用户选择的显著性水平0≤α≤1,如果pk≤α,则特征基因k为显著性特征;否则,这些特征基因不显著。
4.根据权利要求2所述的一种去除测序数据噪声的方法,其特征还在于:所述S52步骤包括以下步骤:
②计算残差矩阵的奇异值分解R=UDVT;令ek=(ek1,.....ekn)T是特征向量V的第k列,表示残差特征基因,并且代表与主变量导致的信号无关的正交残差信号;
③在xi上回归ek并计算p值来检测残差特征基因和每个基因表达之间的关联,p值测量残差特征基因ek和基因i的表达之间关联的强度,其中i=1,2……m;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710031232.7A CN106611107B (zh) | 2017-01-17 | 2017-01-17 | 一种去除测序数据噪声的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710031232.7A CN106611107B (zh) | 2017-01-17 | 2017-01-17 | 一种去除测序数据噪声的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106611107A CN106611107A (zh) | 2017-05-03 |
CN106611107B true CN106611107B (zh) | 2020-09-22 |
Family
ID=58636878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710031232.7A Expired - Fee Related CN106611107B (zh) | 2017-01-17 | 2017-01-17 | 一种去除测序数据噪声的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106611107B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033743B (zh) * | 2018-07-25 | 2021-01-01 | 上海交通大学 | 一种降低单细胞转录组数据中技术噪声的方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1691311A1 (en) * | 2005-02-15 | 2006-08-16 | Institut Gustave Roussy | Method, system and software for carrying out biological interpretations of microarray experiments |
US8707160B2 (en) * | 2006-08-10 | 2014-04-22 | Yahoo! Inc. | System and method for inferring user interest based on analysis of user-generated metadata |
US20140207478A1 (en) * | 2013-01-23 | 2014-07-24 | Comparion Medical Analytics, Inc. | Physician composite quality scoring and rating methodology |
CN104965973B (zh) * | 2015-06-05 | 2016-09-14 | 西北农林科技大学 | 一种苹果霉心病多因子无损检测判别模型及其建立方法 |
-
2017
- 2017-01-17 CN CN201710031232.7A patent/CN106611107B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN106611107A (zh) | 2017-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Romao et al. | An empirical power comparison of univariate goodness-of-fit tests for normality | |
Gregory et al. | A two-sample test for equality of means in high dimension | |
CN111899882B (zh) | 一种预测癌症的方法及系统 | |
Guo et al. | Optimal estimation of genetic relatedness in high-dimensional linear models | |
CN113092981B (zh) | 晶圆数据检测方法及系统、存储介质及测试参数调整方法 | |
CN104216349B (zh) | 利用制造设备的传感器数据的成品率分析系统及方法 | |
CN106547852B (zh) | 异常数据检测方法及装置、数据预处理方法及系统 | |
Huwang et al. | Monitoring general linear profiles using simultaneous confidence sets schemes | |
CN108846261B (zh) | 基于可视图算法的基因表达时序数据分类方法 | |
CN110991422A (zh) | 基于多元时移多尺度排列熵的滚动轴承故障诊断方法 | |
CN111612216A (zh) | 基于GM灰色模型和Bootstrap理论的定制产品质量控制预测方法 | |
CN110728177A (zh) | 基于双协方差随机子空间的类噪声数据低频振荡辨识方法 | |
Li et al. | Power and sample size calculations for generalized estimating equations via local asymptotics | |
CN106611107B (zh) | 一种去除测序数据噪声的方法 | |
CN114972339A (zh) | 用于推土机结构件生产异常检测的数据增强系统 | |
CN113495913B (zh) | 一种空气质量数据缺失值插补方法及装置 | |
CN112380932B (zh) | 振动信号特征值选择方法及电梯健康状态评估或故障诊断方法 | |
CN111383709B (zh) | ceRNA竞争模块识别方法、装置、电子设备及存储介质 | |
Lajeunesse | Power statistics for meta-analysis: tests for mean effects and homogeneity | |
CN113782121B (zh) | 随机分组方法、装置、计算机设备及存储介质 | |
Zhu et al. | Bayesian functional data modeling for heterogeneous volatility | |
CN105893789A (zh) | 一种显著性分析方法 | |
Claringbold | Multivariate quantal analysis | |
CN113327655B (zh) | 多维度数据的离群值检测方法、装置、设备和介质 | |
CN114745231B (zh) | 一种基于区块链的ai通信信号识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200922 Termination date: 20220117 |
|
CF01 | Termination of patent right due to non-payment of annual fee |