CN106777870A - 一种针对单细胞转录组数据的降噪声算法 - Google Patents

一种针对单细胞转录组数据的降噪声算法 Download PDF

Info

Publication number
CN106777870A
CN106777870A CN201611014369.3A CN201611014369A CN106777870A CN 106777870 A CN106777870 A CN 106777870A CN 201611014369 A CN201611014369 A CN 201611014369A CN 106777870 A CN106777870 A CN 106777870A
Authority
CN
China
Prior art keywords
gene
noise
data
profile data
transcript profile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611014369.3A
Other languages
English (en)
Inventor
邹欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Sanyu Huaxia Gene Technology Co., Ltd.
Original Assignee
Top Chia (shanghai) Gene Bioengineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Top Chia (shanghai) Gene Bioengineering Co Ltd filed Critical Top Chia (shanghai) Gene Bioengineering Co Ltd
Priority to CN201611014369.3A priority Critical patent/CN106777870A/zh
Publication of CN106777870A publication Critical patent/CN106777870A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种针对单细胞转录组数据的降噪声算法,涉及分子生物学领域,包括:步骤1、计算每一个基因的平均表达水平μ和方差σ2;步骤2、μ和σ2被配置为有以下关系:σ2=a0μ2+a1μ;步骤3、已知a0,a1和μ,噪声的方差水平σ0 2用a0μ2+a1μ来估计;步骤4、建立数据读数筛选准则;步骤5、输出的结果中只包含高可靠的基因表达数值。本发明的优点是可以全自动的判定数据的可靠性,从而找出受噪声影响的大基因表达值读数。这个过程基于统计最优化原则,摒除了人为因素的干扰,从而提高了数据处理效率,降低了信息丢失的可能性。

Description

一种针对单细胞转录组数据的降噪声算法
技术领域
本发明涉及分子生物学领域,尤其涉及一种针对单细胞转录组数据的降噪声算法。
背景技术
单细胞转录组数据测量的是每一个细胞中基因的表达量,并由此鉴定出不同类型细胞的区别。单细胞技术可以揭示同一组织中细胞的多样性,因此已经被广泛应用于很多基础生物医学领域的研究中,比如组织发育和癌症等。然而由于每个细胞中所含的RNA数量有限,这使得单细胞转录组数据中往往较传统转录组数据含有更多的技术噪声。技术噪声的存在会极大的影响数据的解读和细胞类型的判定。
针对广泛存在的技术噪音,目前主要依靠人工判定的方法,去除受噪声影响大的基因。由于表达量低的基因往往受噪声影响比较大,这部分基因通常被除去。同时,在不同细胞间表达量波动小的基因可以被认为对细胞分类无贡献,这部分基因通常也可以被除去。然而,这种方法受研究者主观因素影响很大,并有可能将真正的差异表达基因去除掉,从而引起数据信息损失。
针对单细胞转录组数据的自动去噪算法还比较少。Bo Ding最近提出了一种算法通过建立RNA浓度与转录组数据FPKM数值之间的回归模型,降低噪声水平。但是这种方法并不能有效的降低那些低表达基因的噪声水平,并可能引起更多的偏差,因为相对于低表达水平的基因,它们的FPKM值并不能反映其真实RNA浓度。
因此,本领域的技术人员致力于开发一种针对单细胞转录组数据的降噪声算法,摒除了人为因素的干扰,从而提高了数据处理效率,降低了信息丢失的可能性。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是如何去除单细胞转录组数据中的技术噪声。
为实现上述目的,本发明提供了一种针对单细胞转录组数据的降噪声算法,包括:
步骤1、计算每一个基因的平均表达水平μ和方差σ2
步骤2、μ和σ2被配置为有以下关系:σ2=a0μ2+a1μ;
步骤3、通过使用回归模型建立μ和σ2之间的关系,从而估计a0,a1的值。基于估计的a0,a1和每一个基因的平均表达水平,噪声的方差水平σ0 2用a0μ2+a1μ来估计;
步骤4、建立数据读数筛选准则;
步骤5、输出的结果中只包含高可靠的基因表达数值。
进一步地,所述步骤2中,使用通用线性(GLM)回归模型来计算公式中的系数a0和a1
进一步地,所述数据读数筛选准则包括:
(1)对于一个基因,基于μ和σ0 2计算95%置信区间,如果该区间包括零点,则该基因被认为噪声污染基因;
(2)如果一个基因,其表达水平方差σ20 2,则该基因被认为噪声污染基因;
(3)对于一个基因在某一个细胞中的表达量读数x,如果x<σ0,则认为该数值的信号噪声比<1,此时x被设为0。
本发明的优点是可以全自动的判定数据的可靠性,从而找出受噪声影响的大基因表达值读数。这个过程基于统计最优化原则,摒除了人为因素的干扰,从而提高了数据处理效率,降低了信息丢失的可能性。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的一个较佳实施例的算法运行流程图。
具体实施方式
以下结合具体实施步骤和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,对于本领域公知的一些技术特征未进行描述,本发明没有特别限制内容。
本发明提出了一种针对单细胞转录组数据的降噪声算法,包括:
步骤1、计算每一个基因的平均表达水平和表达水平方差;
步骤2、建立平均表达水平和方差之间的回归模型;
步骤3、利用建立的回归模型,估计噪声的方差;
步骤4、利用自定义的准则,对数据进行筛选,去除受噪声影响大的读数。
参照图1,具体实施步骤包括:
步骤1、计算每一个基因的平均表达水平μ和方差σ2
步骤2、μ和σ2有以下关系:σ2=a0μ2+a1μ,使用通用线性(GLM)回归模型来计算公式中的系数a0和a1
步骤3、已知a0,a1和μ,噪声的方差水平σ0 2可以用a0μ2+a1μ来估计;
步骤4、建立可靠数据读数筛选准则:(1)对于一个基因,基于μ和σ0 2计算95%置信区间,如果该区间包括零点,则该基因被认为噪声污染基因;(2)如果一个基因,其表达水平方差σ20 2,则该基因被认为噪声污染基因;(3)对于一个基因在某一个细胞中的表达量读数x,如果x<σ0,这认为该数值的信号噪声比<1,此时x被设为0;
步骤5、输出的结果中只包含高可靠的基因表达数值。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (3)

1.一种针对单细胞转录组数据的降噪声算法,其特征在于,包括:
步骤1、计算每一个基因的平均表达水平μ和方差σ2
步骤2、μ和σ2被配置为有以下关系:σ2=a0μ2+a1μ;
步骤3、通过使用回归模型建立μ和σ2之间的关系,从而估计a0,a1的值。基于估计的a0,a1和每一个基因的平均表达水平μ,噪声的方差水平σ0 2用a0μ2+a1μ来估计;
步骤4、建立数据读数筛选准则;
步骤5、输出的结果中只包含高可靠的基因表达数值。
2.如权利要求1所述的针对单细胞转录组数据的降噪声算法,其特征在于,所述步骤2中,使用GLM回归模型来计算公式中的系数a0和a1
3.如权利要求1所述的针对单细胞转录组数据的降噪声算法,其特征在于,所述数据读数筛选准则包括:
(1)对于一个基因,基于μ和σ0 2计算95%置信区间,如果该区间包括零点,则该基因被认为噪声污染基因;
(2)如果一个基因,其表达水平方差σ20 2,则该基因被认为噪声污染基因;
(3)对于一个基因在某一个细胞中的表达量读数x,如果x<σ0,则认为该数值的信号噪声比<1,此时x被设为0。
CN201611014369.3A 2016-11-18 2016-11-18 一种针对单细胞转录组数据的降噪声算法 Pending CN106777870A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611014369.3A CN106777870A (zh) 2016-11-18 2016-11-18 一种针对单细胞转录组数据的降噪声算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611014369.3A CN106777870A (zh) 2016-11-18 2016-11-18 一种针对单细胞转录组数据的降噪声算法

Publications (1)

Publication Number Publication Date
CN106777870A true CN106777870A (zh) 2017-05-31

Family

ID=58969213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611014369.3A Pending CN106777870A (zh) 2016-11-18 2016-11-18 一种针对单细胞转录组数据的降噪声算法

Country Status (1)

Country Link
CN (1) CN106777870A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033743A (zh) * 2018-07-25 2018-12-18 上海交通大学 一种降低单细胞转录组数据中技术噪声的方法
CN114121164A (zh) * 2021-11-30 2022-03-01 浙江百麦生物科技有限公司 一种基于pls模型分析单细胞动态分量的方法
CN115472222A (zh) * 2022-11-02 2022-12-13 杭州链康医学检验实验室有限公司 一种单细胞转录组rna污染鉴定方法、介质和设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101215602A (zh) * 2007-12-28 2008-07-09 上海敏芯信息科技有限公司 一种筛选基因芯片差异表达基因的方法
CN102460114A (zh) * 2009-06-05 2012-05-16 皇家飞利浦电子股份有限公司 用于鉴别和计数表达特定标志物的颗粒的多频阻抗方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101215602A (zh) * 2007-12-28 2008-07-09 上海敏芯信息科技有限公司 一种筛选基因芯片差异表达基因的方法
CN102460114A (zh) * 2009-06-05 2012-05-16 皇家飞利浦电子股份有限公司 用于鉴别和计数表达特定标志物的颗粒的多频阻抗方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BO DING,ET AL.: "《Normalization and noise reduction for single cell RNA-seq experiments》", 《BIOINFORMATICS》 *
DOMINIC GRUN,ET AL.: "《Validation of noise models for single-cell transcriptomics》", 《NATURE METHODS》 *
PHILIP BRENNECKE,ET AL: "《Corrigendum:Accounting for technical noise in single-cell RNA-seq experiments》", 《NATURE METHODS》 *
TRUNG NGHIA VU,ET AL.: "《Beta-Poisson model for single-cell RNA-seq data analyses》", 《BIOINFORMATICS》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033743A (zh) * 2018-07-25 2018-12-18 上海交通大学 一种降低单细胞转录组数据中技术噪声的方法
CN109033743B (zh) * 2018-07-25 2021-01-01 上海交通大学 一种降低单细胞转录组数据中技术噪声的方法
CN114121164A (zh) * 2021-11-30 2022-03-01 浙江百麦生物科技有限公司 一种基于pls模型分析单细胞动态分量的方法
CN114121164B (zh) * 2021-11-30 2024-08-23 浙江百麦生物科技有限公司 一种基于pls模型分析单细胞动态分量的方法
CN115472222A (zh) * 2022-11-02 2022-12-13 杭州链康医学检验实验室有限公司 一种单细胞转录组rna污染鉴定方法、介质和设备

Similar Documents

Publication Publication Date Title
CN108615535A (zh) 语音增强方法、装置、智能语音设备和计算机设备
WO2020220758A1 (zh) 一种异常交易节点的检测方法及装置
CN106777870A (zh) 一种针对单细胞转录组数据的降噪声算法
CN102623009B (zh) 一种基于短时分析的异常情绪自动检测和提取方法和系统
CN110047519B (zh) 一种语音端点检测方法、装置及设备
WO2009067655A3 (en) Methods of feature selection through local learning; breast and prostate cancer prognostic markers
CN112700326A (zh) 一种基于灰狼算法优化bp神经网络的信贷违约预测方法
CN113312578A (zh) 一种数据指标的波动归因方法、装置、设备、及介质
Zhu et al. CancerClock: A DNA methylation age predictor to identify and characterize aging clock in pan-cancer
CN111507377A (zh) 一种养号帐号批量识别方法及装置
CN117370331B (zh) 小区用水总数据清洗方法及装置、终端设备、存储介质
CN108197795A (zh) 恶意团体账户识别方法、装置、终端及存储介质
Faghani et al. Ultra-low-power voice activity detection system using level-crossing sampling
CN117173494B (zh) 基于类别平衡样本选择的含噪声标签图像识别方法及系统
CN201716985U (zh) 一种咳嗽自动识别装置
CN114121158A (zh) 一种基于深度网络自适应的scRNA-seq细胞类型识别方法
CN116527398A (zh) 物联网卡风险识别方法、装置、设备及存储介质
Li et al. Fault diagnosis and prediction of complex system based on Hidden Markov model
CN111428510B (zh) 一种基于口碑的p2p平台风险分析方法
CN110189034A (zh) 一种基于朴素贝叶斯模型的内幕交易识别法
CN113408641B (zh) 资源生成模型的训练与服务资源的生成方法、装置
CN110362831B (zh) 目标用户识别方法、装置、电子设备及存储介质
CN111012306B (zh) 基于双神经网络的睡眠呼吸声检测方法及系统
CN104392722B (zh) 一种基于声音的生物种群识别方法及系统
CN108921226B (zh) 一种基于低秩表示和流形正则化的零样本图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20190108

Address after: Room 801-830, Building 53, Yingdong Village, Chenjiazhen, Chongming District, Shanghai, 202150 (Shanghai Smart Island Data Industry Park)

Applicant after: Shanghai Sanyu Huaxia Gene Technology Co., Ltd.

Address before: 200240 Institute of Systematic Biomedicine, 800 Dongchuan Road, Minhang District, Shanghai

Applicant before: Zou Xin

Applicant before: Top Chia (Shanghai) gene Bioengineering Co., Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170531