CN110415767B - 液滴单细胞转录组测序数据降噪方法、装置和存储介质 - Google Patents

液滴单细胞转录组测序数据降噪方法、装置和存储介质 Download PDF

Info

Publication number
CN110415767B
CN110415767B CN201910537037.0A CN201910537037A CN110415767B CN 110415767 B CN110415767 B CN 110415767B CN 201910537037 A CN201910537037 A CN 201910537037A CN 110415767 B CN110415767 B CN 110415767B
Authority
CN
China
Prior art keywords
filtered
droplets
droplet
gene
normalized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910537037.0A
Other languages
English (en)
Other versions
CN110415767A (zh
Inventor
古槿
郭文博
王东方
王事成
刘昌毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201910537037.0A priority Critical patent/CN110415767B/zh
Publication of CN110415767A publication Critical patent/CN110415767A/zh
Application granted granted Critical
Publication of CN110415767B publication Critical patent/CN110415767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Data Mining & Analysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本申请涉及一种液滴单细胞转录组测序数据降噪方法、装置、计算机设备和存储介质,首先通过Cell Ranger对液滴进行估计,得到待过滤液滴集合,即Cell Ranger认为包含细胞的液滴的集合,然后根据预设过滤阈值过滤所述待过滤液滴集合中的液滴,实现对细胞质量的控制,这可以降低通过Cell Ranger流程得到的液滴中包含的质量较差的细胞、‘假细胞’、单液滴多细胞等对后续数据分析的影响,之后根据液滴的mRNAs分子的污染分析结果对待规范液滴集合进行基因过滤,得到规范化的液滴集合,完成对液滴单细胞转录组测序数据的规范化处理,这可以去掉与研究问题无关的基因,液滴单细胞测序后续数据分析过程中干扰变量因素的影响。

Description

液滴单细胞转录组测序数据降噪方法、装置和存储介质
技术领域
本申请涉及基因测序技术领域,特别是涉及一种液滴单细胞转录组测序数据降噪方法、装置、计算机设备和存储介质。
背景技术
高通量单细胞转录组测序技术(scRNA-seq)使我们可以从单个细胞的精度、全基因组的广度来研究、了解、鉴别和发现在特定环境下不同类型细胞在基因表达谱特征上的差异。这对于我们从单细胞水平认识生命系统、防治疾病,建立起微观基因型与宏观表型的联系,有着重要的意义。
在众多单细胞转录组测序技术中,以油包水的微反应体系为原理的10x GenomicsChromium平台被广泛应用。通过油滴-barcode-单细胞的对应关系,可得到数以万计细胞的单细胞水平的基因表达谱。其自研的单细胞转录组数据处理流程Cell Ranger可以估计“空液滴”(不包含细胞的液滴)和“真实细胞”(包含细胞的液滴)。
但是由于实验技术手段以及估计方法的局限,“真实细胞”中往往会包含质量较差的细胞、单液滴多细胞等情况,对后续分析造成系统偏差,影响最终结果。
发明内容
基于此,有必要针对上述技术问题,提供一种能够对数据降噪的液滴单细胞转录组测序数据降噪方法、装置、计算机设备和存储介质。
一种液滴单细胞转录组测序数据降噪方法,所述方法包括:
通过Cell Ranger对液滴进行估计,得到待过滤液滴集合,其中,所述待过滤液滴集合中的待过滤液滴为所述Cell Ranger的估计结果为包含细胞的液滴;
根据预设过滤阈值过滤所述待过滤液滴集合中的待过滤液滴,得到待规范液滴集合,其中,所述预设过滤阈值根据分析所述待过滤液滴的UMI数目、所述待过滤液滴的基因数目、所述待过滤液滴的线粒体基因、所述待过滤液滴的核糖体基因以及受细胞分离影响基因占比中的一个或多个的分析结果设置;
根据液滴的mRNAs分子的污染分析结果对待规范液滴集合中待规范液滴进行基因过滤,得到规范化的液滴集合,其中,所述规范化的液滴集合用于数据分析。
在其中一个实施例中,所述根据预设过滤阈值过滤所述待过滤液滴集合中的待过滤液滴,得到待规范液滴集合,包括:
根据待过滤液滴的UMI数目的箱线图异常值截断点确定UMI数目的过滤上阈值;
使用所述UMI数目的过滤上阈值过滤所述待过滤液滴集合中的待过滤液滴。
在其中一个实施例中,所述根据预设过滤阈值过滤所述待过滤液滴集合中的待过滤液滴,得到待规范液滴集合,包括:
根据待过滤液滴的基因数目的箱线图异常值截断点确定基因数目过滤的上阈值;
使用预设的基因数目的过滤下阈值和所述基因数目过滤的上阈值过滤所述待过滤液滴集合中的待过滤液滴。
在其中一个实施例中,所述根据预设过滤阈值过滤所述待过滤液滴集合中的待过滤液滴,得到待规范液滴集合,包括:
根据待过滤液滴的线粒体基因占比的箱线图异常值截断点确定线粒体基因占比的过滤上阈值;
使用所述线粒体基因占比的过滤上阈值过滤所述待过滤液滴集合中的待过滤液滴。
在其中一个实施例中,所述根据预设过滤阈值过滤所述待过滤液滴集合中的待过滤液滴,得到待规范液滴集合,包括:
根据待过滤液滴的核糖体基因占比的箱线图异常值截断点确定核糖体基因占比的过滤上阈值;
使用所述核糖体基因占比的过滤上阈值过滤所述待过滤液滴集合中的待过滤液滴。
在其中一个实施例中,所述根据预设过滤阈值过滤所述待过滤液滴集合中的待过滤液滴,得到待规范液滴集合,包括:
根据受细胞分离影响基因占比的箱线图异常值截断点确定受细胞分离影响基因占比的过滤上阈值;
使用所述受细胞分离影响基因占比的过滤上阈值过滤所述待过滤液滴集合中的待过滤液滴。
在其中一个实施例中,根据液滴的mRNAs分子的污染分析结果对待规范液滴集合进行基因过滤,得到规范化的液滴集合,包括:
根据液滴的mRNAs分子的污染分析结果,确定测序影响基因,其中,所述测序影响基因包括线粒体基因、核糖体基因、受细胞分离影响基因以及基因表达的细胞占总细胞的比例大于预设阈值的基因中的一种或几种;
去除所述待规范液滴集合中待规范液滴的测序影响基因,得到规范化的液滴集合。
在其中一个实施例中,所述方法还包括:
可视化输出所述Cell Ranger的估计结果;和/或,
可视化输出所述待过滤液滴的UMI数目、待过滤液滴的基因数目、待过滤液滴的线粒体基因、待过滤液滴的核糖体基因以及受细胞分离影响基因占比中的一个或多个的分析结果;和/或,
可视化输出所述液滴的mRNAs分子的污染分析结果。
一种液滴单细胞转录组测序数据降噪装置,所述装置包括:
Cell Ranger模块,用于通过Cell Ranger对液滴进行估计,得到待过滤液滴集合,其中,所述待过滤液滴集合中的待过滤液滴为所述Cell Ranger的估计结果为包含细胞的液滴;
细胞质量控制模块,用于根据预设过滤阈值过滤所述待过滤液滴集合中的待过滤液滴,得到待规范液滴集合,其中,所述预设过滤阈值根据分析所述待过滤液滴的UMI数目、所述待过滤液滴的基因数目、所述待过滤液滴的线粒体基因、所述待过滤液滴的核糖体基因以及受细胞分离影响基因占比中的一个或多个的分析结果设置;
数据规范化模块,用于根据液滴的mRNAs分子的污染分析结果对待规范液滴集合中待规范液滴进行基因过滤,得到规范化的液滴集合,其中,所述规范化的液滴集合用于液滴单细胞转录组测序。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行本申请实施例的方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请实施例的方法的步骤。
上述液滴单细胞转录组测序数据降噪方法、装置、计算机设备和存储介质,首先通过Cell Ranger对液滴进行估计,得到待过滤液滴集合,即Cell Ranger认为包含细胞的液滴的集合,然后根据预设过滤阈值过滤所述待过滤液滴集合中的液滴,实现对细胞质量的控制,这可以降低通过Cell Ranger流程得到的液滴中包含的质量较差的细胞、‘假细胞’、单液滴多细胞等对后续数据分析的影响,之后根据液滴的mRNAs分子的污染分析结果对待规范液滴集合进行基因过滤,得到规范化的液滴集合,完成对液滴单细胞转录组测序数据的规范化处理,这可以去掉与研究问题无关的基因,这可以进一步降低液滴单细胞测序后续数据分析过程中干扰变量因素的影响。
附图说明
图1为一个实施例中的终端的示意图;
图2为一个实施例中液滴单细胞转录组测序数据降噪方法的流程示意图;
图3为一个实施例中Cell Ranger的估计结果的可视化效果图;
图4为一个实施例中步骤S220的细化步骤的流程示意图;
图5为一个实施例中UMI直方图;
图6为一个实施例中步骤S220的细化步骤的流程示意图;
图7为一个实施例中基因数目直方图;
图8为一个实施例中步骤S220的细化步骤的流程示意图;
图9为一个实施例中线粒体基因占比的统计图;
图10为一个实施例中步骤S220的细化步骤的流程示意图;
图11为一个实施例中核糖体基因占比的统计图;
图12为一个实施例中步骤S220的细化步骤的流程示意图;
图13为一个实施例中核受细胞分离影响基因占比的统计图;
图14为一个实施例中步骤S230的细化步骤的流程示意图;
图15为一个实施例中对外围游离的RNA分析的统计图;
图16为一个实施例中统计量①和②的之间关系图,以及统计量③和④的之间关系图;
图17为一个实施例中液滴单细胞转录组测序数据降噪装置的结构框图;
图18为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的液滴单细胞转录组测序数据噪声处理与数据归一化方法,可以应用于如图1所示的终端100。该终端100可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑。进一步地,该终端100可以运行Linux,Windows和MAC OS系统中的一种。
在一个实施例中,如图2所示,提供了一种液滴单细胞转录组测序数据降噪方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤210,通过Cell Ranger对液滴进行估计,得到待过滤液滴集合。
其中,所述待过滤液滴集合中的液滴为所述Cell Ranger的估计结果为包含细胞的液滴。具体地,Cell Ranger对液滴进行估计后,终端100改进该估计结果得到待过滤液滴集合。可选地,在得到该估计结果后,通过终端100将该估计结果进行可视化输出。如图3所示为Cell Ranger的估计结果的可视化输出的样例。该图中,图左横坐标为UMI(Uniquemolecular identifiers)的数目,纵坐标为对应UMI数目的液滴值,灰色部分为“空液滴”的分布,紫色部分为“细胞”(该细胞含义为包含细胞的液滴)的分布;图右对液滴的UMI数目进行降序排布,横坐标为液滴累积数目,纵坐标为液滴的UMI数目,可以看到“空液滴”与“细胞”的分界点大致为曲线的“膝点”。
步骤220,根据预设过滤阈值过滤所述待过滤液滴集合中的待过滤液滴,得到待规范液滴集合。
其中,待过滤液滴集合包含至少一个待过滤液滴,待过滤液滴为将要被根据预设过滤阈值进行过滤的液滴。所述预设过滤阈值根据分析所述待过滤液滴的UMI数目、所述待过滤液滴的基因数目、所述待过滤液滴的线粒体基因、所述待过滤液滴的核糖体基因以及受细胞分离影响基因占比中的一个或多个的分析结果设置。具体地,终端根据预设过滤阈值过滤所述待过滤液滴集合中的待过滤液滴,得到待规范液滴集合。
步骤230,根据液滴的mRNAs分子的污染分析结果对待规范液滴集合中待规范液滴进行基因过滤,得到规范化的液滴集合。
具体地,终端100根据液滴的mRNAs分子的污染分析结果对待规范液滴集合中的待规范液滴进行基因过滤,得到规范化的液滴集合。该规范化的液滴集合用于液滴单细胞转录组测序
上述液滴单细胞转录组测序数据降噪方法中,首先通过Cell Ranger对液滴进行估计,得到待过滤液滴集合,即Cell Ranger认为包含细胞的液滴的集合,然后根据预设过滤阈值过滤所述待过滤液滴集合中的液滴,实现对细胞质量的控制,这可以降低通过CellRanger流程得到的液滴中包含的质量较差的细胞、‘假细胞’、单液滴多细胞等对后续数据分析的影响,之后根据液滴的mRNAs分子的污染分析结果对待规范液滴集合进行基因过滤,得到规范化的液滴集合,完成对液滴单细胞转录组测序数据的规范化处理,这可以去掉与研究问题无关的基因,液滴单细胞测序后续数据分析过程中干扰变量因素的影响。
在其中一个实施例中,如图4所示,步骤S220包括:
步骤S221,根据待过滤液滴的UMI数目的箱线图异常值截断点确定UMI数目的过滤上阈值。
具体地,终端根据待过滤液滴的UMI数目的箱线图异常值截断点确定UMI数目的过滤上阈值。更具体地,获取待过滤液滴的UMI数目直方图,根据该直方图对待过滤液滴的UMI数目进行分析,得UMI数目过滤的上阈值(一种预设过滤阈值)。该UMI数目直方图如图5所示。
具体分析过程如下:
Cell Ranger识别出的包含细胞的液滴中通常包括质量较好的真实细胞液滴,含有少量UMI的空液滴,质量较差的细胞液滴,包含多细胞的液滴。Cell Ranger通常会将UMI数目过少的液滴误认为空液滴或者细胞质量太差,而UMI数目过多,Cell Ranger通常会认为该液滴为一个液滴中包含了两个或者多个细胞。基于此,根据待过滤液滴的UMI数目设定的过滤阈值具体包括:
根据待过滤液滴的UMI数目的箱线图异常值截断点确定UMI数目的过滤上阈值,即:Q3+3IQR。该式中:Q3为上四分位数,IQR为四分位距。该过滤阈值在图4中以虚线标识。
步骤S222,使用所述UMI数目的过滤上阈值过滤所述待过滤液滴集合中的待过滤液滴。
具体地,终端100使用所述UMI数目的过滤上阈值过滤所述待过滤液滴集合中的待过滤液滴.
本实施例给出了具体如何根据过滤液滴的UMI数目设置过滤阈值的方法,该方法实施简单。
在其中一个实施例中,如图6所示,步骤S220包括:
步骤S223,根据待过滤液滴的基因数目的箱线图异常值截断点确定基因数目过滤的上阈值。
具体地,终端根据待过滤液滴的基因数目的箱线图异常值截断点确定基因数目过滤的上阈值。更具体地,获取待过滤液滴的基因数目直方图,根据该直方图对待过滤液滴的基因数目进行分析,得到基因数目过滤的上阈值(一种预设过滤阈值)。该基因数目直方图如图7所示。
具体分析过程如下:
Cell Ranger识别出的包含细胞的液滴中通常包括质量较好的真实细胞液滴,含有少量UMI的空液滴,质量较差的细胞液滴,包含多细胞的液滴。Cell Ranger通常会将UMI数目过少的液滴误认为空液滴或者细胞质量太差,而UMI数目过多,Cell Ranger通常会认为该液滴为一个液滴中包含了两个或者多个细胞。基于此,根据待过滤液滴的基因数目设定的过滤阈值具体包括:
根据待过滤液滴的基因数目的箱线图异常值截断点确定UMI数目的过滤上阈值,即:Q3+3IQR。该式中:Q3为上四分位数,IQR为四分位距。该过滤阈值在图7中以虚线标识。可选地,根据经验设置基因数目的过滤下阈值(例如可以将该下阈值设置为200)
步骤S224,使用预设的基因数目的过滤下阈值和所述基因数目过滤的上阈值过滤所述待过滤液滴集合中的待过滤液滴。
具体地,终端100使用预设的基因数目的过滤下阈值和所述基因数目过滤的上阈值过滤所述待过滤液滴集合中的待过滤液滴。
本实施例给出了具体如何根据过滤液滴的基因数目设置过滤阈值的方法,该方法实施简单。
由于当细胞中线粒体基因或者核糖体基因比例过高时,说明细胞可能发生破裂。这是由于破裂的细胞的细胞质中的核基因mRNA部分游离到液滴外,使得线粒体基因和核糖体基因的mRNA占比上升,这部分细胞(线粒体基因或者核糖体基因比例过高的细胞)也是质量差的细胞,其会影响后续的数据分析,应该被过滤掉。
基于此,在其中一个实施例中,如图8所示,步骤S220包括:
步骤S225,根据待过滤液滴的线粒体基因占比的箱线图异常值截断点确定线粒体基因占比的过滤上阈值。
具体地,终端100根据待过滤液滴的线粒体基因占比的箱线图异常值截断点确定线粒体基因占比的过滤上阈值。更具体地,对待过滤液滴中线粒体基因进行分析,设置过滤阈值。进一步地,为了方便分析,对该线粒体基因进行了归一化处理,具体处理方法为,计算线粒体基因占比,计算公式为:
π线粒体=nUMI线粒体基因/nUMI所有基因
进一步地,基于该归一化处理结果得到线粒体基因占比的统计图,该图如图9所示。该图9包括3部分,主图为根据待过滤液滴的UMI数目和线粒体基因占比(mito.percent)确定的散点图,过滤阈值通过虚线标识,该图可以直观显示横纵坐标是否具有相关性。上副图为线粒体基因占比的直方图,右副图为UMI数目的直方图。该线粒体基因占比过滤上阈值可以通过该箱线图异常值截断点确定,即Q3+3IQR。
步骤S226,使用所述线粒体基因占比的过滤上阈值过滤所述待过滤液滴集合中的待过滤液滴。
具体地,终端100使用所述线粒体基因占比的过滤上阈值过滤所述待过滤液滴集合中的待过滤液滴。
本实施例给出了具体如何根据线粒体基因占比设置过滤阈值的方法,该方法实施简单。
基于此,在其中一个实施例中,如图10所示,步骤S220包括:
步骤S227,根据待过滤液滴的核糖体基因占比的箱线图异常值截断点确定核糖体基因占比的过滤上阈值。
具体地,终端100根据待过滤液滴的核糖体基因占比的箱线图异常值截断点确定核糖体基因占比的过滤上阈值。更具体地,对待过滤液滴中核糖体基因进行分析,设置过滤阈值。进一步地,为了方便分析,对该核糖体基因进行了归一化处理,具体处理方法为,计算核糖体基因占比,计算公式为:
π核糖体=nUMI核糖体基因/nUMI所有基因
进一步地,基于该归一化处理结果得到核糖体基因占比的统计图,该图如图11所示。该图11包括3部分,主图为根据待过滤液滴的UMI数目和核糖体基因占比(rito.percent)确定的散点图,过滤阈值通过虚线标识,该图可以直观显示横纵坐标是否具有相关性。上副图为核糖体基因占比的直方图,右副图为UMI数目的直方图。该核糖体基因占比过滤上阈值可以通过该箱线图异常值截断点确定,即Q3+3IQR。
步骤S228,使用所述核糖体基因占比的过滤上阈值过滤所述待过滤液滴集合中的待过滤液滴。
具体地,终端100使用所述核糖体基因占比的过滤上阈值过滤所述待过滤液滴集合中的待过滤液滴。
本实施例给出了具体如何根据核糖体基因占比设置过滤阈值的方法,该方法实施简单。
由于单细胞测序技术首先需要将组织样本的黏连在一起的细胞剥落成单独的细胞,在这一过程中细胞可能会对外界环境的刺激做出反应,细胞状态发生变化,造成额外的系统偏差。根据文献,van den Brink,Susanne C.,et al."Single-cell sequencingreveals dissociation-induced gene expression in tissue subpopulations."Naturemethod,可得出通过过滤受细胞分离影响基因表达较高的细胞,对液滴单细胞转录组测序数据进行降噪。
基于此,在其中一个实施例中,如图12所示,步骤S220包括:
步骤S229,根据受细胞分离影响基因占比的箱线图异常值截断点确定受细胞分离影响基因占比的过滤上阈值。
具体地,终端100根据受细胞分离影响基因占比的箱线图异常值截断点确定受细胞分离影响基因占比的过滤上阈值。更具体地,首先对受细胞分离影响基因进行统计分析,并对统计结果做归一化处理,即获取受细胞分离影响基因占比,计算公式为:
π受细胞分离影响基因=nUMI受细胞分离影响基因/nUMI所有基因
统计图如图13所示,该图包括3部分,主图为根据待过滤液滴的UMI数目和受细胞分离影响基因占比(diss.percent)确定的散点图,过滤阈值通过虚线标识,该图可以可直观显示横纵坐标是否具有相关性。上副图为受细胞分离影响基因的直方图,右副图为UMI数目的直方图。该受细胞分离影响基因过滤上阈值可以通过该箱线图异常值截断点确定,即Q3+3IQR。
步骤S2210,使用所述受细胞分离影响基因占比的过滤上阈值过滤所述待过滤液滴集合中的待过滤液滴。
具体地,终端100使用所述受细胞分离影响基因占比的过滤上阈值过滤所述待过滤液滴集合中的待过滤液滴。
本实施例给出了具体如何根据核受细胞分离影响基因占比设置过滤阈值的方法,该方法实施简单。
需要说明的是,上述实施例中的过滤域值的设置方法可以单独使用也可以组合使用,本申请在此不做限定。
在其中一个实施例中,如图14所示,步骤S230包括:
步骤S231,根据液滴的mRNAs分子的污染分析结果,确定测序影响基因。
其中,所述测序影响基因包括线粒体基因、核糖体基因、受细胞分离影响基因以及基因表达的细胞占总细胞的比例大于预设阈值的基因中的一种或几种。
进一步地,终端100首先对外围游离的RNA分析进行分析,统计结果如图15所示。可选地,对Cell Ranger估计出的空液滴进行聚合,并根据聚合结果得到该统计结果的背景。图15中图中每一行为一个基因,基因颜色标识了线粒体基因(mitochondrial,蓝色),核糖体基因(ribosome,橙黄色),受细胞分离影响基因(dissociation,绿色)和一般基因(general,红色),其中每行基因通过箱线图给出基因在各个细胞中占比的分布,“*”标识了在背景中该基因的占比,所有基因按照箱线图中位数降序排列,共给出前100个基因。
进一步地,还可以得出下述4个统计量:
①Fraction of cells(lower than background):对某一基因,以其在背景中的占比a为标准统计在细胞中该基因占比小于a的细胞数目占总细胞数目的比例
②Gene detection rate in cells:对某一基因,检测到该基因表达的细胞占总细胞的比例
③Gene proportion in background:某一基因在背景中表达量的占比
④Median of gene proportion in cells:某一基因在所有细胞中表达量的占比的中位数
更进一步地,分析统计量①和②的之间关系,以及统计量③和④的之间关系,分析结果如图16所示。
由上述分析可知,液滴中的线粒体基因、核糖体基因、受细胞分离影响基因以及基因表达的细胞占总细胞的比例大于预设阈值的基因(统计量②过高的基因)对液滴单细胞转录组测序的准确性有较大影响,因此,确定将这些基因从液滴中去除,以降低液滴单细胞转录组测序数据的噪声。
步骤S232,去除所述待规范液滴集合中待规范液滴的测序影响基因,得到规范化的液滴集合。
具体地,终端100去除所述待规范液滴集合中待规范液滴的测序影响基因,得到规范化的液滴集合。
本实施例的方法通过分析外围游离的RNA,得出测序影响基因,并将该测序影响基因从液滴中去除,完成数据规范化,这可以进一步降低液滴单细胞测序后续数据分析过程中干扰变量因素的影响。
在其中一个实施例中,上述实施例中的方法步骤可以通过R语言进行编写,通过命令交互给出文件路径(例如Cell Ranger的估计结果的文件路径),运行脚本在获取文件后,会自动解析文件,按照上述实施例中对应的步骤进行液滴单细胞转录组测序数据降噪处理。
在其中一个实施例中,上述液滴单细胞转录组测序数据降噪处理还可以包括:可视化输出所述Cell Ranger的估计结果;和/或,可视化输出所述待过滤液滴的UMI数目、待过滤液滴的基因数目、待过滤液滴的线粒体基因、待过滤液滴的核糖体基因以及受细胞分离影响基因占比中的一个或多个的分析结果;和/或,可视化输出所述液滴的mRNAs分子的污染分析结果。
在其中一个实施例中,上述液滴单细胞转录组测序数据降噪方法还可以包括:输出总结和报告。
具体地,输出细胞质量控制过程的参考阈值,可以以表格的形式给出。可选地,该报告文件可以包括HTML版本和Markdown版本。可选地,在输出报告的同时输出以下文件:统计分析图片文件(PNG),阈值数据文件(TXT),细胞注释文件(TXT)和基因注释文件(TXT)。
应该理解的是,虽然图2、图4、图6、图8、图10、图12、图14的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、图4、图6、图8、图10、图12、图14中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图17所示,提供了一种液滴单细胞转录组测序数据降噪装置,包括:
Cell Ranger模块110,用于通过Cell Ranger对液滴进行估计,得到待过滤液滴集合,其中,所述待过滤液滴集合中的待过滤液滴为所述Cell Ranger的估计结果为包含细胞的液滴;
细胞质量控制模块120,用于根据预设过滤阈值过滤所述待过滤液滴集合中的待过滤液滴,得到待规范液滴集合,其中,所述预设过滤阈值根据分析所述待过滤液滴的UMI数目、所述待过滤液滴的基因数目、所述待过滤液滴的线粒体基因、所述待过滤液滴的核糖体基因以及受细胞分离影响基因占比中的一个或多个的分析结果设置;
数据规范化模块130,用于根据液滴的mRNAs分子的污染分析结果对待规范液滴集合中待规范液滴进行基因过滤,得到规范化的液滴集合,其中,所述规范化的液滴集合用于数据分析。
在其中一个实施例中,细胞质量控制模块120,具体用于根据待过滤液滴的UMI数目的箱线图异常值截断点确定UMI数目的过滤上阈值;使用所述UMI数目的过滤上阈值过滤所述待过滤液滴集合中的待过滤液滴。
在其中一个实施例中,细胞质量控制模块120,具体用于根据待过滤液滴的基因数目的箱线图异常值截断点确定基因数目过滤的上阈值;使用预设的基因数目的过滤下阈值和所述基因数目过滤的上阈值过滤所述待过滤液滴集合中的待过滤液滴。
在其中一个实施例中,细胞质量控制模块120,具体用于根据待过滤液滴的线粒体基因占比的箱线图异常值截断点确定线粒体基因占比的过滤上阈值;使用所述线粒体基因占比的过滤上阈值过滤所述待过滤液滴集合中的待过滤液滴。
在其中一个实施例中,细胞质量控制模块120,具体用于根据待过滤液滴的核糖体基因占比的箱线图异常值截断点确定核糖体基因占比的过滤上阈值;使用所述核糖体基因占比的过滤上阈值过滤所述待过滤液滴集合中的待过滤液滴。
在其中一个实施例中,细胞质量控制模块120,具体用于根据受细胞分离影响基因占比的箱线图异常值截断点确定受细胞分离影响基因占比的过滤上阈值;使用所述受细胞分离影响基因占比的过滤上阈值过滤所述待过滤液滴集合中的待过滤液滴。
在其中一个实施例中,数据规范化模块130,具体用于根据液滴的mRNAs分子的污染分析结果,确定测序影响基因,其中,所述测序影响基因包括线粒体基因、核糖体基因、受细胞分离影响基因以及基因表达的细胞占总细胞的比例大于预设阈值的基因中的一种或几种;去除所述待规范液滴集合中待规范液滴的测序影响基因,得到规范化的液滴集合。
在其中一个实施例中,上述液滴单细胞转录组测序数据降噪装置还包括可视化模块,用于可视化输出所述Cell Ranger的估计结果;和/或,可视化输出所述待过滤液滴的UMI数目、待过滤液滴的基因数目、待过滤液滴的线粒体基因、待过滤液滴的核糖体基因以及受细胞分离影响基因占比中的一个或多个的分析结果;和/或,可视化输出所述液滴的mRNAs分子的污染分析结果。
关于液滴单细胞转录组测序数据降噪装置的具体限定可以参见上文中对于液滴单细胞转录组测序数据降噪方法的限定,在此不再赘述。上述液滴单细胞转录组测序数据降噪装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图18所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种液滴单细胞转录组测序数据降噪方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图18中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:通过CellRanger对液滴进行估计,得到待过滤液滴集合,其中,所述待过滤液滴集合中的待过滤液滴为所述Cell Ranger的估计结果为包含细胞的液滴;根据预设过滤阈值过滤所述待过滤液滴集合中的待过滤液滴,得到待规范液滴集合,其中,所述预设过滤阈值根据分析所述待过滤液滴的UMI数目、所述待过滤液滴的基因数目、所述待过滤液滴的线粒体基因、所述待过滤液滴的核糖体基因以及受细胞分离影响基因占比中的一个或多个的分析结果设置;根据液滴的mRNAs分子的污染分析结果对待规范液滴集合中待规范液滴进行基因过滤,得到规范化的液滴集合,其中,所述规范化的液滴集合用于数据分析。
在一个实施例中,处理器执行计算机程序时具体实现以下步骤:根据待过滤液滴的UMI数目的箱线图异常值截断点确定UMI数目的过滤上阈值;使用所述UMI数目的过滤上阈值过滤所述待过滤液滴集合中的待过滤液滴。
在一个实施例中,处理器执行计算机程序时具体实现以下步骤:根据待过滤液滴的基因数目的箱线图异常值截断点确定基因数目过滤的上阈值;使用预设的基因数目的过滤下阈值和所述基因数目过滤的上阈值过滤所述待过滤液滴集合中的待过滤液滴。
在一个实施例中,处理器执行计算机程序时具体实现以下步骤:根据待过滤液滴的线粒体基因占比的箱线图异常值截断点确定线粒体基因占比的过滤上阈值;使用所述线粒体基因占比的过滤上阈值过滤所述待过滤液滴集合中的待过滤液滴。
在一个实施例中,处理器执行计算机程序时具体实现以下步骤:根据待过滤液滴的核糖体基因占比的箱线图异常值截断点确定核糖体基因占比的过滤上阈值;使用所述核糖体基因占比的过滤上阈值过滤所述待过滤液滴集合中的待过滤液滴。
在一个实施例中,处理器执行计算机程序时具体实现以下步骤:根据受细胞分离影响基因占比的箱线图异常值截断点确定受细胞分离影响基因占比的过滤上阈值;使用所述受细胞分离影响基因占比的过滤上阈值过滤所述待过滤液滴集合中的待过滤液滴。
在一个实施例中,处理器执行计算机程序时具体实现以下步骤:根据液滴的mRNAs分子的污染分析结果,确定测序影响基因,其中,所述测序影响基因包括线粒体基因、核糖体基因、受细胞分离影响基因以及基因表达的细胞占总细胞的比例大于预设阈值的基因中的一种或几种;去除所述待规范液滴集合中待规范液滴的测序影响基因,得到规范化的液滴集合。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:可视化输出所述Cell Ranger的估计结果;和/或,可视化输出所述待过滤液滴的UMI数目、待过滤液滴的基因数目、待过滤液滴的线粒体基因、待过滤液滴的核糖体基因以及受细胞分离影响基因占比中的一个或多个的分析结果;和/或,可视化输出所述液滴的mRNAs分子的污染分析结果。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:通过Cell Ranger对液滴进行估计,得到待过滤液滴集合,其中,所述待过滤液滴集合中的待过滤液滴为所述Cell Ranger的估计结果为包含细胞的液滴;根据预设过滤阈值过滤所述待过滤液滴集合中的待过滤液滴,得到待规范液滴集合,其中,所述预设过滤阈值根据分析所述待过滤液滴的UMI数目、所述待过滤液滴的基因数目、所述待过滤液滴的线粒体基因、所述待过滤液滴的核糖体基因以及受细胞分离影响基因占比中的一个或多个的分析结果设置;根据液滴的mRNAs分子的污染分析结果对待规范液滴集合中待规范液滴进行基因过滤,得到规范化的液滴集合,其中,所述规范化的液滴集合用于数据分析。
在一个实施例中,计算机程序被处理器执行时具体实现以下步骤:根据待过滤液滴的UMI数目的箱线图异常值截断点确定UMI数目的过滤上阈值;使用所述UMI数目的过滤上阈值过滤所述待过滤液滴集合中的待过滤液滴。
在一个实施例中,计算机程序被处理器执行时具体实现以下步骤:根据待过滤液滴的基因数目的箱线图异常值截断点确定基因数目过滤的上阈值;使用预设的基因数目的过滤下阈值和所述基因数目过滤的上阈值过滤所述待过滤液滴集合中的待过滤液滴。
在一个实施例中,计算机程序被处理器执行时具体实现以下步骤:根据待过滤液滴的线粒体基因占比的箱线图异常值截断点确定线粒体基因占比的过滤上阈值;使用所述线粒体基因占比的过滤上阈值过滤所述待过滤液滴集合中的待过滤液滴。
在一个实施例中,计算机程序被处理器执行时具体实现以下步骤:根据待过滤液滴的核糖体基因占比的箱线图异常值截断点确定核糖体基因占比的过滤上阈值;使用所述核糖体基因占比的过滤上阈值过滤所述待过滤液滴集合中的待过滤液滴。
在一个实施例中,计算机程序被处理器执行时具体实现以下步骤:根据受细胞分离影响基因占比的箱线图异常值截断点确定受细胞分离影响基因占比的过滤上阈值;使用所述受细胞分离影响基因占比的过滤上阈值过滤所述待过滤液滴集合中的待过滤液滴。
在一个实施例中,计算机程序被处理器执行时具体实现以下步骤:根据液滴的mRNAs分子的污染分析结果,确定测序影响基因,其中,所述测序影响基因包括线粒体基因、核糖体基因、受细胞分离影响基因以及基因表达的细胞占总细胞的比例大于预设阈值的基因中的一种或几种;去除所述待规范液滴集合中待规范液滴的测序影响基因,得到规范化的液滴集合。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:可视化输出所述Cell Ranger的估计结果;和/或,可视化输出所述待过滤液滴的UMI数目、待过滤液滴的基因数目、待过滤液滴的线粒体基因、待过滤液滴的核糖体基因以及受细胞分离影响基因占比中的一个或多个的分析结果;和/或,可视化输出所述液滴的mRNAs分子的污染分析结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种液滴单细胞转录组测序数据降噪方法,其特征在于,所述方法包括:
通过Cell Ranger对液滴进行估计,得到待过滤液滴集合,其中,所述待过滤液滴集合中的待过滤液滴,是Cell Ranger的估计结果为包含细胞的液滴;
根据预设过滤阈值过滤所述待过滤液滴集合中的待过滤液滴,得到待规范液滴集合,其中,所述预设过滤阈值根据分析所述待过滤液滴的UMI数目、所述待过滤液滴的基因数目、所述待过滤液滴的线粒体基因占比、所述待过滤液滴的核糖体基因占比以及受细胞分离影响基因占比中的一个或多个的分析结果设置;
根据液滴的mRNAs分子的污染分析结果对待规范液滴集合中待规范液滴进行基因过滤,得到规范化的液滴集合,其中,所述规范化的液滴集合用于数据分析;
所述根据液滴的mRNAs分子的污染分析结果对待规范液滴集合进行基因过滤,得到规范化的液滴集合,包括:
根据液滴的mRNAs分子的污染分析结果,确定测序影响基因,其中,所述测序影响基因包括线粒体基因、核糖体基因、受细胞分离影响基因以及所有基因中基因表达的细胞占总细胞的比例大于预设阈值的基因中的一种或几种;
去除所述待规范液滴集合中待规范液滴的测序影响基因,得到规范化的液滴集合。
2.根据权利要求1所述的方法,其特征在于,所述根据预设过滤阈值过滤所述待过滤液滴集合中的待过滤液滴,得到待规范液滴集合,包括:
根据待过滤液滴的单一分子标识符UMI数目的箱线图异常值截断点确定UMI数目的过滤上阈值;
使用所述UMI数目的过滤上阈值过滤所述待过滤液滴集合中的待过滤液滴。
3.根据权利要求1所述的方法,其特征在于,所述根据预设过滤阈值过滤所述待过滤液滴集合中的待过滤液滴,得到待规范液滴集合,包括:
根据待过滤液滴的基因数目的箱线图异常值截断点确定基因数目过滤的上阈值;
使用预设的基因数目的过滤下阈值和所述基因数目过滤的上阈值过滤所述待过滤液滴集合中的待过滤液滴。
4.根据权利要求1所述的方法,其特征在于,所述根据预设过滤阈值过滤所述待过滤液滴集合中的待过滤液滴,得到待规范液滴集合,包括:
根据待过滤液滴的线粒体基因占比的箱线图异常值截断点确定线粒体基因占比的过滤上阈值;
使用所述线粒体基因占比的过滤上阈值过滤所述待过滤液滴集合中的待过滤液滴。
5.根据权利要求1所述的方法,其特征在于,所述根据预设过滤阈值过滤所述待过滤液滴集合中的待过滤液滴,得到待规范液滴集合,包括:
根据待过滤液滴的核糖体基因占比的箱线图异常值截断点确定核糖体基因占比的过滤上阈值;
使用所述核糖体基因占比的过滤上阈值过滤所述待过滤液滴集合中的待过滤液滴。
6.根据权利要求1所述的方法,其特征在于,所述根据预设过滤阈值过滤所述待过滤液滴集合中的待过滤液滴,得到待规范液滴集合,包括:
根据受细胞分离影响基因占比的箱线图异常值截断点确定受细胞分离影响基因占比的过滤上阈值;
使用所述受细胞分离影响基因占比的过滤上阈值过滤所述待过滤液滴集合中的待过滤液滴。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
可视化输出所述Cell Ranger的估计结果;和/或,
可视化输出所述待过滤液滴的UMI数目、待过滤液滴的基因数目、待过滤液滴的线粒体基因、待过滤液滴的核糖体基因以及受细胞分离影响基因占比中的一个或多个的分析结果;和/或,
可视化输出所述液滴的mRNAs分子的污染分析结果。
8.一种液滴单细胞转录组测序数据降噪装置,其特征在于,所述装置包括:
Cell Ranger模块,用于通过Cell Ranger对液滴进行估计,得到待过滤液滴集合,其中,所述待过滤液滴集合中的待过滤液滴,是Cell Ranger的估计结果为包含细胞的液滴;
细胞质量控制模块,用于根据预设过滤阈值过滤所述待过滤液滴集合中的待过滤液滴,得到待规范液滴集合,其中,所述预设过滤阈值根据分析所述待过滤液滴的UMI数目、所述待过滤液滴的基因数目占比、所述待过滤液滴的线粒体基因占比、所述待过滤液滴的核糖体基因以及受细胞分离影响基因占比中的一个或多个的分析结果设置;
数据规范化模块,用于根据液滴的mRNAs分子的污染分析结果对待规范液滴集合中待规范液滴进行基因过滤,得到规范化的液滴集合,其中,所述规范化的液滴集合用于数据分析;
所述根据液滴的mRNAs分子的污染分析结果对待规范液滴集合进行基因过滤,得到规范化的液滴集合,包括:
根据液滴的mRNAs分子的污染分析结果,确定测序影响基因,其中,所述测序影响基因包括线粒体基因、核糖体基因、受细胞分离影响基因以及所有基因中基因表达的细胞占总细胞的比例大于预设阈值的基因中的一种或几种;
去除所述待规范液滴集合中待规范液滴的测序影响基因,得到规范化的液滴集合。
9.一种计算机设备,包括存储器及处理器,所述存储器上存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201910537037.0A 2019-06-20 2019-06-20 液滴单细胞转录组测序数据降噪方法、装置和存储介质 Active CN110415767B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910537037.0A CN110415767B (zh) 2019-06-20 2019-06-20 液滴单细胞转录组测序数据降噪方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910537037.0A CN110415767B (zh) 2019-06-20 2019-06-20 液滴单细胞转录组测序数据降噪方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN110415767A CN110415767A (zh) 2019-11-05
CN110415767B true CN110415767B (zh) 2022-04-22

Family

ID=68359372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910537037.0A Active CN110415767B (zh) 2019-06-20 2019-06-20 液滴单细胞转录组测序数据降噪方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN110415767B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116189770B (zh) * 2022-11-02 2023-08-18 杭州链康医学检验实验室有限公司 一种单细胞转录组rna污染去除方法、介质和设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8725425B2 (en) * 2007-01-26 2014-05-13 Illumina, Inc. Image data efficient genetic sequencing method and system
CN105734125B (zh) * 2016-02-23 2021-01-12 刘淑艳 豆粉中黄曲霉定性标准样品及其制备方法
CN106599614B (zh) * 2016-11-07 2020-05-19 为朔医学数据科技(北京)有限公司 一种高通量测序数据处理及分析流程控制方法及系统
CN107451424A (zh) * 2017-07-31 2017-12-08 浙江绍兴千寻生物科技有限公司 大批量单细胞RNA‑seq数据质量控制和分析方法
CN108300767B (zh) * 2017-10-27 2021-08-20 清华大学 一种核酸复合体中核酸区段相互作用的分析方法

Also Published As

Publication number Publication date
CN110415767A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
Zhang et al. Determining sequencing depth in a single-cell RNA-seq experiment
Bacher et al. SCnorm: robust normalization of single-cell RNA-seq data
Love et al. Modeling of RNA-seq fragment sequence bias reduces systematic errors in transcript abundance estimation
Käll et al. Non-parametric estimation of posterior error probabilities associated with peptides identified by tandem mass spectrometry
Kim et al. Characterizing noise structure in single-cell RNA-seq distinguishes genuine from technical stochastic allelic expression
Altmäe et al. Guidelines for the design, analysis and interpretation of ‘omics’ data: focus on human endometrium
Mandric et al. Optimized design of single-cell RNA sequencing experiments for cell-type-specific eQTL analysis
RU2654575C2 (ru) Способ и устройство для детектирования хромосомных структурных аномалий
WO2020154885A1 (zh) 单细胞类型检测方法、装置、设备和存储介质
Heskes et al. A fast algorithm for determining bounds and accurate approximate p-values of the rank product statistic for replicate experiments
Zou et al. An efficient resampling method for assessing genome-wide statistical significance in mapping quantitative trait loci
CN110415767B (zh) 液滴单细胞转录组测序数据降噪方法、装置和存储介质
CN111881023A (zh) 一种基于多模型对比的软件老化预测方法及装置
Dickhaus Randomized p-values for multiple testing of composite null hypotheses
JP2022546206A (ja) 検体レベルの適応正規化のための方法、装置、及びコンピュータ読み取り可能な媒体
Tekwe et al. Application of survival analysis methodology to the quantitative analysis of LC-MS proteomics data
CN113378332B (zh) 生产设备组分析方法、装置、电子设备及计算机可读存储介质
Philtron et al. Maximum rank reproducibility: a nonparametric approach to assessing reproducibility in replicate experiments
Kaseniit et al. Strategies to minimize false positives and interpret novel microdeletions based on maternal copy-number variants in 87,000 noninvasive prenatal screens
CN115527610B (zh) 一种单细胞组学数据的聚类分析方法
CN114863994B (zh) 污染评估方法、装置、电子设备及存储介质
CN111625720B (zh) 数据决策项目执行策略的确定方法、装置、设备和介质
Barbash et al. Statistically invalid classification of high throughput gene expression data
CN111047433B (zh) 用户数异常原因的分析方法、装置、服务器和存储介质
CN111028885B (zh) 一种检测牦牛rna编辑位点的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant