CN109033743B - 一种降低单细胞转录组数据中技术噪声的方法 - Google Patents
一种降低单细胞转录组数据中技术噪声的方法 Download PDFInfo
- Publication number
- CN109033743B CN109033743B CN201810828849.6A CN201810828849A CN109033743B CN 109033743 B CN109033743 B CN 109033743B CN 201810828849 A CN201810828849 A CN 201810828849A CN 109033743 B CN109033743 B CN 109033743B
- Authority
- CN
- China
- Prior art keywords
- candidate
- calculating
- chi
- distribution model
- gene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种降低单细胞转录组数据中技术噪声的方法,包括以下步骤:步骤一,根据单细胞转录组数据获取每个基因表达的平均方差;步骤二,根据所述每个基因表达的平均方差构建卡方分布模型并使用所述卡方分布模型计算多个候选阈值;步骤三,计算使用每个所述候选阈值时所得到的有效特征向量的个数;步骤四,基于所述有效特征向量的个数判定基因滤除的最优阈值;步骤五,基于所述最优阈值进行基因滤除。本发明的降低单细胞转录组数据中技术噪声的方法,可以平衡单细胞转录组数据预处理中控制残留噪声和减小信息损失之间的矛盾,并且基于统计最优化原则降低噪声,摒除人为干扰因素,显著提高了单细胞数据解读的可靠性。
Description
技术领域
本发明涉及单细胞数据处理领域,尤其涉及一种降低单细胞转录组数据中技术噪声的方法。
背景技术
单细胞转录组数据中存在大量的技术噪音。这些技术噪音的来源复杂,随机性强,可能会极大的影响数据的解读。因此,单细胞数据解读的第一步往往是滤除掉技术噪声污染基因。已有的降低技术噪音的方法主要有两种,一是通过人工设定的硬阈值来滤除基因,比如Martinez-Jimenez(Martinez-Jimenez,C.P.,et al.“Aging increases cell-to-cell transcriptional variability upon immune stimulation(衰老增加免疫刺激后细胞间转录的变异性)”Science 355,1433-1436,2017)、Treutlein(Treutlein,B.,et al.“Reconstructing lineage hierarchies of the distal lung epithelium usingsingle-cell RNA-seq(使用单细胞RNA-seq重建远端肺上皮的谱系层次)”Nature 509,371-375,2014)以及Usoskin(Usoskin,D.,et al.“Unbiased classification of sensoryneuron types by large-scale single-cell RNA sequencing(通过大规模单细胞RNA测序对感觉神经元类型进行无偏分类)”Nature neuroscience 18,145-153,2015)均使用了人工设定的硬阈值进行基因滤除;另一种是通过回归方法计算阈值并滤除基因,比如Zeisel(Zeisel,A.,et al.“Cell types in the mouse cortex and hippocampusrevealed by single-cell RNA-seq(通过单细胞RNA-seq显示小鼠皮层和海马体中的细胞类型)”Science 347,1138-1142,2015)。但是,已有的方法都缺乏一个客观的评价标准,因而基因滤除的结果中有可能仍然包含大量的残留噪声或者有价值的生物学信息被错误地滤除。
因此,本领域的技术人员致力于开发一种可靠的降低单细胞转录组数据中技术噪声的方法,摒除人为干扰因素,提高单细胞数据解读的可靠性。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种比较客观的方法来判定滤除单细胞转录组数据中技术噪声的阈值,减少基因滤除的结果中的残留噪声,并保留有价值的生物学信息不被错误地滤除。
为实现上述目的,本发明提供了一种降低单细胞转录组数据中技术噪声的方法,包括以下步骤:
步骤一,根据单细胞转录组数据获取每个基因表达的平均方差;
步骤二,根据所述每个基因表达的平均方差构建卡方分布模型并使用所述卡方分布模型计算多个候选阈值;
步骤三,计算使用每个所述候选阈值时所得到的有效特征向量的个数;
步骤四,基于所述有效特征向量的个数判定基因滤除的最优阈值;
步骤五,基于所述最优阈值进行基因滤除。
进一步地,所述步骤一中获取所述每个基因表达的平均方差包括:根据所述单细胞转录组数据计算每个基因的平均表达水平μ和平均方差σ2;将所有基因按照相应的所述平均表达水平μ划分成不同的区块,针对每个所述区块建立线性回归模型并预测所述平均方差。
进一步地,所述每个基因的平均表达水平μ和所述每个基因的平均方差σ2的关系由以下公式表示:σ2/μ2=a0+a1/μ;所述建立线性回归模型包括:针对属于每个所述区块的基因使用线性回归模型计算所述公式中的系数a0和a1。
进一步地,所述预测所述平均方差包括:使用已知的所述每个基因的平均表达水平μ和计算得到的所述线性回归模型的所述系数a0和a1,计算每个基因表达的所述平均方差σ0 2。
进一步地,所述步骤二中,所述使用所述卡方分布模型计算多个候选阈值包括:使用所述卡方分布模型的不同分位数计算所述多个候选阈值。
进一步地,由所述平均方差σ0 2和所述卡方分布模型按照如下公式计算候选阈值T(α):
T(α)=σ0 2F-1(α)
其中F-1是所述卡方分布模型的逆累计分布函数,所述候选阈值所对应的卡方分布分位数α选取[0.5,0.6,0.7,0.8,0.9,0.99,0.999,0.9999],其中α=0.5对应于平均方差σ0 2。
进一步地,所述步骤三还包括:基于Tracy-Widom分布模型并利用特征值分解计算每个所述候选阈值的所述有效特征向量的个数,Tracy-Widom分布模型简称为TW分布模型;。
进一步地,所述计算每个所述候选阈值的所述有效特征向量的个数包括:将每个所述候选阈值对应的特征值按降序排列,基于所述TW分布模型对每个所述特征值计算对应的似然值,所述似然值大于预设值的特征值的数目即为所述候选阈值的所述有效特征向量的个数。
进一步地,所述步骤四中判定所述最优阈值包括:在所述多个候选阈值中,选取有效特征向量个数最多并且保留基因数最少的候选阈值为所述最优阈值。
进一步地,所述选取有效特征向量个数最多并且保留基因数最少的候选阈值为所述最优阈值包括:当所述多个候选阈值中至少两个候选阈值的所述有效特征向量的个数相同且均为最多个数时,选取所述至少两个候选阈值中保留基因数最少的候选阈值作为最优阈值。
本发明的降低单细胞转录组数据中技术噪声的方法,可以平衡单细胞转录组数据预处理中控制残留噪声和减小信息损失之间的矛盾,并且基于统计最优化原则降低噪声,摒除人为干扰因素,显著提高了单细胞数据解读的可靠性。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的一个较佳实施例的降低单细胞转录组数据中技术噪声的方法的流程图。
具体实施方式
以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
本发明的一个较佳实施例的降低单细胞转录组数据中技术噪声方法的流程图如图1所示。
步骤一,根据单细胞转录组数据获取每个基因表达的平均方差。具体地,在获取单细胞转录组的原始数据后,使用分段线性回归模型描述基因表达水平和方差的关系。基于所述线性回归模型,获得基因的平均表达水平,并利用基因平均表达水平预测所述平均方差。
本实施例中,所述步骤一中获取所述每个基因表达的平均方差还包括:根据所述单细胞转录组数据计算每个基因的平均表达水平μ和平均方差σ2;将所有基因按照相应的所述平均表达水平μ划分成不同的区块,针对每个所述区块建立线性回归模型并预测所述平均方差。
具体地,所述每个基因的平均表达水平μ和所述每个基因的平均方差σ2的关系由以下公式表示:σ2/μ2=a0+a1/μ。所述建立线性回归模型包括:针对属于每个所述区块的基因使用线性回归模型计算所述公式中的系数a0和a1。
所述预测所述平均方差包括:使用已知的所述每个基因的平均表达水平μ和计算得到的所述线性回归模型的所述系数a0和a1,计算每个基因表达的所述平均方差σ0 2。
步骤二,根据所述每个基因表达的平均方差构建卡方分布模型并使用所述卡方分布模型计算多个候选阈值。具体地,基于所述回归模型所预测的平均方差作为卡方分布的均值,使用不同的卡方分布分位数构建多个候选基因滤除阈值。也就是说,以步骤一中得到的每个基因的所述平均方差σ0 2为均值,构建卡方分布模型,并使用卡方分布不同分位数计算多个候选阈值。由平均方差σ0 2和卡方分布模型计算候选阈值T(α)如下
T(α)=σ0 2F-1(α)
其中F-1是卡方分布的逆累计分布函数。候选阈值所对应的卡方分布分位数α选取[0.5,0.6,0.7,0.8,0.9,0.99,0.999,0.9999],其中α=0.5对应于平均方差σ0 2。
相比于现有技术中选取单一硬阈值或直接使用回归方法计算得到的单一阈值,本发明的方法利用统计学的模型,构建了多个候选的基因滤除的阈值,摒除人为干扰因素,提高了单细胞数据解读的可靠性。
步骤三,计算使用每个所述候选阈值时所得到的有效特征向量的个数。具体地,利用特征值分解和Tracy-Widom(TW)分布模型,计算当使用每一个候选阈值时所得到的有效特征向量的数量。首先将特征值λ按降序排列。对每一个特征值λ,计算其基于TW分布模型的似然值。似然值大于预设值的特征值的数目即为有效特征值的数目。所述预设值可以是0.9999。
步骤四,基于所述有效特征向量的个数判定基因滤除的最优阈值。
所述步骤四中判定所述最优阈值包括:在所述多个候选阈值中,选取有效特征向量个数最多的候选阈值为所述最优阈值;或者,在所述多个候选阈值中,选取有效特征向量个数最多并且保留基因数最少的候选阈值为所述最优阈值。
在一个优选实施例中,所述步骤四包括:选取可以得到最多的有效特征向量并且滤除基因数目最多的那个候选阈值作为基因滤除的最优阈值。其中需要在优先保证特征向量的数目最大化的前提下选取保留基因数最少的阈值。比如,当至少两个候选阈值的有效特征向量的个数相同且均为最多个数时,选取所述至少两个候选阈值中保留基因数最少的候选阈值作为最优阈值。
所述步骤四中,滤除基因数目多,即保留基因数目最少,代表了降低技术噪声效果好,选取滤除基因数目最多的候选阈值即选取降噪效果最好的阈值。所述有效特征向量代表了有效的生物学信息,选取可以得到最多数量的有效特征向量的候选阈值作为最优阈值,即选取保留最多有效生物学信息的阈值,防止有价值的生物学信息被错误地滤除。另外,有效特征向量的个数和滤除基因的个数都是客观的评价标准,可以摒除人为干扰因素。
所述方法还包括:步骤五,基于所述最优阈值进行基因滤除。利用选取的最优阈值,准确有效地滤除掉单细胞转录组数据中被技术噪声污染的基因。
本发明所提供的实施例可以平衡单细胞转录组数据预处理中控制残留噪声和减小信息损失之间的矛盾;并且在选取滤除基因的阈值的过程中基于统计最优化原则,摒除人为干扰因素,显著提高了单细胞数据解读的可靠性。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (4)
1.一种降低单细胞转录组数据中技术噪声的方法,其特征在于,包括以下步骤:
步骤一,根据单细胞转录组数据获取每个基因表达的平均方差;
步骤二,根据所述每个基因表达的平均方差构建卡方分布模型并使用所述卡方分布模型计算多个候选阈值;
步骤三,计算使用每个所述候选阈值时所得到的有效特征向量的个数;
步骤四,基于所述有效特征向量的个数判定基因滤除的最优阈值;
步骤五,基于所述最优阈值进行基因滤除;
其中,所述步骤二中,所述使用所述卡方分布模型计算多个候选阈值包括:将所述平均方差作为均值构建所述卡方分布模型,并使用所述卡方分布模型的不同分位数计算所述多个候选阈值;由所述平均方差σ0 2和所述卡方分布模型按照如下公式计算候选阈值T(α):
T(α)=σ0 2F-1(α)
其中F-1是所述卡方分布模型的逆累计分布函数,所述候选阈值所对应的卡方分布分位数α选取[0.5,0.6,0.7,0.8,0.9,0.99,0.999,0.9999],其中α=0.5对应于平均方差σ0 2;
所述步骤三包括:基于Tracy-Widom分布模型并利用特征值分解计算每个所述候选阈值的所述有效特征向量的个数,其中Tracy-Widom分布模型简称为TW分布模型; 将每个所述候选阈值对应的特征值按降序排列,基于所述TW分布模型对每个所述特征值计算对应的似然值,所述似然值大于预设值的特征值的数目即为所述候选阈值的所述有效特征向量的个数;
所述步骤四中判定所述最优阈值包括:在所述多个候选阈值中,选取有效特征向量个数最多并且保留基因数最少的候选阈值为所述最优阈值,具体 包括:当所述多个候选阈值中至少两个候选阈值的所述有效特征向量的个数相同且均为最多个数时,选取所述至少两个候选阈值中保留基因数最少的候选阈值作为最优阈值。
2.如权利要求1所述的降低单细胞转录组数据中技术噪声的方法,其特征在于,所述步骤一中获取所述每个基因表达的平均方差包括:
根据所述单细胞转录组数据计算每个基因的平均表达水平μ和平均方差σ2;
将所有基因按照相应的所述平均表达水平μ划分成不同的区块,针对每个所述区块建立线性回归模型并预测所述平均方差。
3.如权利要求2所述的降低单细胞转录组数据中技术噪声的方法,其特征在于,
所述每个基因的平均表达水平μ和所述平均方差σ2的关系由以下公式表示:σ2/μ2=a0+a1/μ;
所述建立线性回归模型包括:针对属于每个所述区块的基因使用线性回归模型计算所述公式中的系数a0和a1。
4.如权利要求3所述的降低单细胞转录组数据中技术噪声的方法,其特征在于,所述预测所述平均方差包括:使用已知的所述每个基因的平均表达水平μ和计算得到的所述线性回归模型的所述系数a0和a1,计算每个基因表达的所述平均方差σ0 2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810828849.6A CN109033743B (zh) | 2018-07-25 | 2018-07-25 | 一种降低单细胞转录组数据中技术噪声的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810828849.6A CN109033743B (zh) | 2018-07-25 | 2018-07-25 | 一种降低单细胞转录组数据中技术噪声的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109033743A CN109033743A (zh) | 2018-12-18 |
CN109033743B true CN109033743B (zh) | 2021-01-01 |
Family
ID=64645313
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810828849.6A Expired - Fee Related CN109033743B (zh) | 2018-07-25 | 2018-07-25 | 一种降低单细胞转录组数据中技术噪声的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109033743B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110957009B (zh) * | 2019-11-05 | 2023-05-12 | 中山大学中山眼科中心 | 一种基于深度混合网络的单细胞转录组缺失值填补方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016138041A2 (en) * | 2015-02-23 | 2016-09-01 | Cellanyx Diagnostics, Llc | Cell imaging and analysis to differentiate clinically relevant sub-populations of cells |
CN106520997A (zh) * | 2016-12-14 | 2017-03-22 | 南京诺唯赞医疗科技有限公司 | 一种单细胞基因表达定量分析的方法 |
CN106611107A (zh) * | 2017-01-17 | 2017-05-03 | 大连海事大学 | 一种去除测序数据噪声的方法 |
CN106777870A (zh) * | 2016-11-18 | 2017-05-31 | 邹欣 | 一种针对单细胞转录组数据的降噪声算法 |
CN107451424A (zh) * | 2017-07-31 | 2017-12-08 | 浙江绍兴千寻生物科技有限公司 | 大批量单细胞RNA‑seq数据质量控制和分析方法 |
CN108090325A (zh) * | 2016-11-23 | 2018-05-29 | 中国科学院昆明动物研究所 | 一种应用β-稳定性分析单细胞测序数据的方法 |
-
2018
- 2018-07-25 CN CN201810828849.6A patent/CN109033743B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016138041A2 (en) * | 2015-02-23 | 2016-09-01 | Cellanyx Diagnostics, Llc | Cell imaging and analysis to differentiate clinically relevant sub-populations of cells |
CN106777870A (zh) * | 2016-11-18 | 2017-05-31 | 邹欣 | 一种针对单细胞转录组数据的降噪声算法 |
CN108090325A (zh) * | 2016-11-23 | 2018-05-29 | 中国科学院昆明动物研究所 | 一种应用β-稳定性分析单细胞测序数据的方法 |
CN106520997A (zh) * | 2016-12-14 | 2017-03-22 | 南京诺唯赞医疗科技有限公司 | 一种单细胞基因表达定量分析的方法 |
CN106611107A (zh) * | 2017-01-17 | 2017-05-03 | 大连海事大学 | 一种去除测序数据噪声的方法 |
CN107451424A (zh) * | 2017-07-31 | 2017-12-08 | 浙江绍兴千寻生物科技有限公司 | 大批量单细胞RNA‑seq数据质量控制和分析方法 |
Non-Patent Citations (3)
Title |
---|
Normalization and noise reduction for single cell RNA-seq experiments;Bo Ding.et.;《Bioinformatics》;20150224;第31卷(第13期);第2225-2227页 * |
Single-cell RNA-Seq analysis reveals dynamic trajectories during mouse liver development;Xianbin Su.et;《BMC Genomics》;20171231;第946卷;第1-14页 * |
肿瘤基因组结构变异的检测方法及应用研究;梁莹;《中国博士学位论文全文数据库 医药卫生科技辑》;20180615(第6期);第E072-6页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109033743A (zh) | 2018-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Müller-Putz et al. | Better than random: a closer look on BCI results | |
CN111062425B (zh) | 基于c-k-smote算法的不平衡数据集处理方法 | |
CN110111840B (zh) | 一种体细胞突变检测方法 | |
CN104462868A (zh) | 一种结合随机森林和Relief-F的全基因组SNP位点分析方法 | |
CN113838532B (zh) | 基于双重自适应邻域半径的多粒度乳腺癌基因分类方法 | |
Chidester et al. | Discriminative bag-of-cells for imaging-genomics | |
CN115274136A (zh) | 整合多组学与必需基因的肿瘤细胞系药物响应预测方法 | |
CN109033743B (zh) | 一种降低单细胞转录组数据中技术噪声的方法 | |
Gao et al. | A novel effective diagnosis model based on optimized least squares support machine for gene microarray | |
CN113555121B (zh) | 一种胃癌预后标志物的筛选和分类方法、胃癌预后标志物和检测胃癌预后的试剂及应用 | |
CN110706004B (zh) | 一种基于层次聚类的农田重金属污染物溯源方法 | |
CN117037905A (zh) | 基于祖先信息标记的鸡品种鉴定方法、系统、设备及介质 | |
CN107609348B (zh) | 高通量转录组数据样本分类数目估计方法 | |
Ma et al. | EnsembleKQC: an unsupervised ensemble learning method for quality control of single cell RNA-seq sequencing data | |
Shao et al. | cDNA microarray image segmentation with an improved moving k-means clustering method | |
EP3698367B1 (en) | Detection device and method | |
CN117637020B (zh) | 一种基于深度学习的四倍体牡蛎全基因组snp分型方法 | |
Han et al. | Molecular bases of morphometric composition in Glioblastoma multiforme | |
CN116168761B (zh) | 核酸序列特征区域确定方法、装置、电子设备及存储介质 | |
Matsuda et al. | Distortion-free PCA on sample space for highly variable gene detection from single-cell RNA-seq data | |
CN114141305B (zh) | 基于随机丢弃的肿瘤分子分型方法及系统 | |
CN101570788A (zh) | 一种通过寡核苷酸多态性芯片识别基因型的方法 | |
CN107273930A (zh) | 一种动态流式数据的聚类方法 | |
Henry | Peak detection and statistical analysis of karyotypic variation from flow cytometry data | |
Lainscsek et al. | Purely Sequence based prediction of contact maps and classification of chromosomal compartments with DDA-DNA |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210101 Termination date: 20210725 |
|
CF01 | Termination of patent right due to non-payment of annual fee |