CN109033743B

CN109033743B - 一种降低单细胞转录组数据中技术噪声的方法

Info

Publication number: CN109033743B
Application number: CN201810828849.6A
Authority: CN
Inventors: 郝洁; 邹欣; 韩泽广
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2018-07-25
Filing date: 2018-07-25
Publication date: 2021-01-01
Anticipated expiration: 2038-07-25
Also published as: CN109033743A

Abstract

本发明公开了一种降低单细胞转录组数据中技术噪声的方法，包括以下步骤：步骤一，根据单细胞转录组数据获取每个基因表达的平均方差；步骤二，根据所述每个基因表达的平均方差构建卡方分布模型并使用所述卡方分布模型计算多个候选阈值；步骤三，计算使用每个所述候选阈值时所得到的有效特征向量的个数；步骤四，基于所述有效特征向量的个数判定基因滤除的最优阈值；步骤五，基于所述最优阈值进行基因滤除。本发明的降低单细胞转录组数据中技术噪声的方法，可以平衡单细胞转录组数据预处理中控制残留噪声和减小信息损失之间的矛盾，并且基于统计最优化原则降低噪声，摒除人为干扰因素，显著提高了单细胞数据解读的可靠性。

Description

一种降低单细胞转录组数据中技术噪声的方法

技术领域

本发明涉及单细胞数据处理领域，尤其涉及一种降低单细胞转录组数据中技术噪声的方法。

背景技术

单细胞转录组数据中存在大量的技术噪音。这些技术噪音的来源复杂，随机性强，可能会极大的影响数据的解读。因此，单细胞数据解读的第一步往往是滤除掉技术噪声污染基因。已有的降低技术噪音的方法主要有两种，一是通过人工设定的硬阈值来滤除基因，比如Martinez-Jimenez(Martinez-Jimenez,C.P.,et al.“Aging increases cell-to-cell transcriptional variability upon immune stimulation(衰老增加免疫刺激后细胞间转录的变异性)”Science 355,1433-1436,2017)、Treutlein(Treutlein,B.,et al.“Reconstructing lineage hierarchies of the distal lung epithelium usingsingle-cell RNA-seq(使用单细胞RNA-seq重建远端肺上皮的谱系层次)”Nature 509,371-375,2014)以及Usoskin(Usoskin,D.,et al.“Unbiased classification of sensoryneuron types by large-scale single-cell RNA sequencing(通过大规模单细胞RNA测序对感觉神经元类型进行无偏分类)”Nature neuroscience 18,145-153,2015)均使用了人工设定的硬阈值进行基因滤除；另一种是通过回归方法计算阈值并滤除基因，比如Zeisel(Zeisel,A.,et al.“Cell types in the mouse cortex and hippocampusrevealed by single-cell RNA-seq(通过单细胞RNA-seq显示小鼠皮层和海马体中的细胞类型)”Science 347,1138-1142,2015)。但是，已有的方法都缺乏一个客观的评价标准，因而基因滤除的结果中有可能仍然包含大量的残留噪声或者有价值的生物学信息被错误地滤除。

因此，本领域的技术人员致力于开发一种可靠的降低单细胞转录组数据中技术噪声的方法，摒除人为干扰因素，提高单细胞数据解读的可靠性。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是提供一种比较客观的方法来判定滤除单细胞转录组数据中技术噪声的阈值，减少基因滤除的结果中的残留噪声，并保留有价值的生物学信息不被错误地滤除。

为实现上述目的，本发明提供了一种降低单细胞转录组数据中技术噪声的方法，包括以下步骤：

步骤一，根据单细胞转录组数据获取每个基因表达的平均方差；

步骤二，根据所述每个基因表达的平均方差构建卡方分布模型并使用所述卡方分布模型计算多个候选阈值；

步骤三，计算使用每个所述候选阈值时所得到的有效特征向量的个数；

步骤四，基于所述有效特征向量的个数判定基因滤除的最优阈值；

步骤五，基于所述最优阈值进行基因滤除。

进一步地，所述步骤一中获取所述每个基因表达的平均方差包括：根据所述单细胞转录组数据计算每个基因的平均表达水平μ和平均方差σ²；将所有基因按照相应的所述平均表达水平μ划分成不同的区块，针对每个所述区块建立线性回归模型并预测所述平均方差。

进一步地，所述每个基因的平均表达水平μ和所述每个基因的平均方差σ²的关系由以下公式表示：σ²/μ²＝a₀+a₁/μ；所述建立线性回归模型包括：针对属于每个所述区块的基因使用线性回归模型计算所述公式中的系数a₀和a₁。

进一步地，所述预测所述平均方差包括：使用已知的所述每个基因的平均表达水平μ和计算得到的所述线性回归模型的所述系数a₀和a₁，计算每个基因表达的所述平均方差σ₀ ²。

进一步地，所述步骤二中，所述使用所述卡方分布模型计算多个候选阈值包括：使用所述卡方分布模型的不同分位数计算所述多个候选阈值。

进一步地，由所述平均方差σ₀ ²和所述卡方分布模型按照如下公式计算候选阈值T(α)：

T(α)＝σ₀ ²F^-1(α)

其中F^-1是所述卡方分布模型的逆累计分布函数，所述候选阈值所对应的卡方分布分位数α选取[0.5,0.6,0.7,0.8,0.9,0.99,0.999,0.9999]，其中α＝0.5对应于平均方差σ₀ ²。

进一步地，所述步骤三还包括：基于Tracy-Widom分布模型并利用特征值分解计算每个所述候选阈值的所述有效特征向量的个数，Tracy-Widom分布模型简称为TW分布模型；。

进一步地，所述计算每个所述候选阈值的所述有效特征向量的个数包括：将每个所述候选阈值对应的特征值按降序排列，基于所述TW分布模型对每个所述特征值计算对应的似然值，所述似然值大于预设值的特征值的数目即为所述候选阈值的所述有效特征向量的个数。

进一步地，所述步骤四中判定所述最优阈值包括：在所述多个候选阈值中，选取有效特征向量个数最多并且保留基因数最少的候选阈值为所述最优阈值。

进一步地，所述选取有效特征向量个数最多并且保留基因数最少的候选阈值为所述最优阈值包括：当所述多个候选阈值中至少两个候选阈值的所述有效特征向量的个数相同且均为最多个数时，选取所述至少两个候选阈值中保留基因数最少的候选阈值作为最优阈值。

本发明的降低单细胞转录组数据中技术噪声的方法，可以平衡单细胞转录组数据预处理中控制残留噪声和减小信息损失之间的矛盾，并且基于统计最优化原则降低噪声，摒除人为干扰因素，显著提高了单细胞数据解读的可靠性。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例的降低单细胞转录组数据中技术噪声的方法的流程图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

本发明的一个较佳实施例的降低单细胞转录组数据中技术噪声方法的流程图如图1所示。

步骤一，根据单细胞转录组数据获取每个基因表达的平均方差。具体地，在获取单细胞转录组的原始数据后，使用分段线性回归模型描述基因表达水平和方差的关系。基于所述线性回归模型，获得基因的平均表达水平，并利用基因平均表达水平预测所述平均方差。

本实施例中，所述步骤一中获取所述每个基因表达的平均方差还包括：根据所述单细胞转录组数据计算每个基因的平均表达水平μ和平均方差σ²；将所有基因按照相应的所述平均表达水平μ划分成不同的区块，针对每个所述区块建立线性回归模型并预测所述平均方差。

具体地，所述每个基因的平均表达水平μ和所述每个基因的平均方差σ²的关系由以下公式表示：σ²/μ²＝a₀+a₁/μ。所述建立线性回归模型包括：针对属于每个所述区块的基因使用线性回归模型计算所述公式中的系数a₀和a₁。

所述预测所述平均方差包括：使用已知的所述每个基因的平均表达水平μ和计算得到的所述线性回归模型的所述系数a₀和a₁，计算每个基因表达的所述平均方差σ₀ ²。

步骤二，根据所述每个基因表达的平均方差构建卡方分布模型并使用所述卡方分布模型计算多个候选阈值。具体地，基于所述回归模型所预测的平均方差作为卡方分布的均值，使用不同的卡方分布分位数构建多个候选基因滤除阈值。也就是说，以步骤一中得到的每个基因的所述平均方差σ₀ ²为均值，构建卡方分布模型，并使用卡方分布不同分位数计算多个候选阈值。由平均方差σ₀ ²和卡方分布模型计算候选阈值T(α)如下

T(α)＝σ₀ ²F^-1(α)

其中F^-1是卡方分布的逆累计分布函数。候选阈值所对应的卡方分布分位数α选取[0.5,0.6,0.7,0.8,0.9,0.99,0.999,0.9999]，其中α＝0.5对应于平均方差σ₀ ²。

相比于现有技术中选取单一硬阈值或直接使用回归方法计算得到的单一阈值，本发明的方法利用统计学的模型，构建了多个候选的基因滤除的阈值，摒除人为干扰因素，提高了单细胞数据解读的可靠性。

步骤三，计算使用每个所述候选阈值时所得到的有效特征向量的个数。具体地，利用特征值分解和Tracy-Widom(TW)分布模型，计算当使用每一个候选阈值时所得到的有效特征向量的数量。首先将特征值λ按降序排列。对每一个特征值λ，计算其基于TW分布模型的似然值。似然值大于预设值的特征值的数目即为有效特征值的数目。所述预设值可以是0.9999。

步骤四，基于所述有效特征向量的个数判定基因滤除的最优阈值。

所述步骤四中判定所述最优阈值包括：在所述多个候选阈值中，选取有效特征向量个数最多的候选阈值为所述最优阈值；或者，在所述多个候选阈值中，选取有效特征向量个数最多并且保留基因数最少的候选阈值为所述最优阈值。

在一个优选实施例中，所述步骤四包括：选取可以得到最多的有效特征向量并且滤除基因数目最多的那个候选阈值作为基因滤除的最优阈值。其中需要在优先保证特征向量的数目最大化的前提下选取保留基因数最少的阈值。比如，当至少两个候选阈值的有效特征向量的个数相同且均为最多个数时，选取所述至少两个候选阈值中保留基因数最少的候选阈值作为最优阈值。

所述步骤四中，滤除基因数目多，即保留基因数目最少，代表了降低技术噪声效果好，选取滤除基因数目最多的候选阈值即选取降噪效果最好的阈值。所述有效特征向量代表了有效的生物学信息，选取可以得到最多数量的有效特征向量的候选阈值作为最优阈值，即选取保留最多有效生物学信息的阈值，防止有价值的生物学信息被错误地滤除。另外，有效特征向量的个数和滤除基因的个数都是客观的评价标准，可以摒除人为干扰因素。

所述方法还包括：步骤五，基于所述最优阈值进行基因滤除。利用选取的最优阈值，准确有效地滤除掉单细胞转录组数据中被技术噪声污染的基因。

本发明所提供的实施例可以平衡单细胞转录组数据预处理中控制残留噪声和减小信息损失之间的矛盾；并且在选取滤除基因的阈值的过程中基于统计最优化原则，摒除人为干扰因素，显著提高了单细胞数据解读的可靠性。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种降低单细胞转录组数据中技术噪声的方法，其特征在于，包括以下步骤：

步骤五，基于所述最优阈值进行基因滤除；

其中，所述步骤二中，所述使用所述卡方分布模型计算多个候选阈值包括：将所述平均方差作为均值构建所述卡方分布模型，并使用所述卡方分布模型的不同分位数计算所述多个候选阈值；由所述平均方差σ₀ ²和所述卡方分布模型按照如下公式计算候选阈值T(α)：

T(α)＝σ₀ ²F^-1(α)

其中F^-1是所述卡方分布模型的逆累计分布函数，所述候选阈值所对应的卡方分布分位数α选取[0.5,0.6,0.7,0.8,0.9,0.99,0.999,0.9999]，其中α＝0.5对应于平均方差σ₀ ²；

所述步骤三包括：基于Tracy-Widom分布模型并利用特征值分解计算每个所述候选阈值的所述有效特征向量的个数，其中Tracy-Widom分布模型简称为TW分布模型；将每个所述候选阈值对应的特征值按降序排列，基于所述TW分布模型对每个所述特征值计算对应的似然值，所述似然值大于预设值的特征值的数目即为所述候选阈值的所述有效特征向量的个数；

所述步骤四中判定所述最优阈值包括：在所述多个候选阈值中，选取有效特征向量个数最多并且保留基因数最少的候选阈值为所述最优阈值，具体包括：当所述多个候选阈值中至少两个候选阈值的所述有效特征向量的个数相同且均为最多个数时，选取所述至少两个候选阈值中保留基因数最少的候选阈值作为最优阈值。

2.如权利要求1所述的降低单细胞转录组数据中技术噪声的方法，其特征在于，所述步骤一中获取所述每个基因表达的平均方差包括：

根据所述单细胞转录组数据计算每个基因的平均表达水平μ和平均方差σ²；

将所有基因按照相应的所述平均表达水平μ划分成不同的区块，针对每个所述区块建立线性回归模型并预测所述平均方差。

3.如权利要求2所述的降低单细胞转录组数据中技术噪声的方法，其特征在于，

所述每个基因的平均表达水平μ和所述平均方差σ²的关系由以下公式表示：σ²/μ²＝a₀+a₁/μ；

所述建立线性回归模型包括：针对属于每个所述区块的基因使用线性回归模型计算所述公式中的系数a₀和a₁。

4.如权利要求3所述的降低单细胞转录组数据中技术噪声的方法，其特征在于，所述预测所述平均方差包括：使用已知的所述每个基因的平均表达水平μ和计算得到的所述线性回归模型的所述系数a₀和a₁，计算每个基因表达的所述平均方差σ₀ ²。