CN114424287A - 单细胞rna-seq数据处理 - Google Patents
单细胞rna-seq数据处理 Download PDFInfo
- Publication number
- CN114424287A CN114424287A CN202080066402.5A CN202080066402A CN114424287A CN 114424287 A CN114424287 A CN 114424287A CN 202080066402 A CN202080066402 A CN 202080066402A CN 114424287 A CN114424287 A CN 114424287A
- Authority
- CN
- China
- Prior art keywords
- gene
- expression
- noise
- genes
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/58—Random or pseudo-random number generators
- G06F7/588—Random number generators, i.e. based on natural stochastic processes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/40—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
Landscapes
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Physiology (AREA)
- General Physics & Mathematics (AREA)
- Computational Mathematics (AREA)
- Primary Health Care (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
一种通过应用噪声正则化过程减少基因‑基因相关性伪影来处理单细胞基因表达(揭示基因‑基因相关性)的方法。本发明的计算机实现方法包括以下步骤:处理基因表达数据进行归一化或插补,将噪声正则化过程应用于归一化或插补的基因表达数据,以及应用基因‑基因相关性计算过程获取相关基因对。根据表达矩阵中细胞基因的表达值添加随机噪声,获得噪声正则化表达矩阵。
Description
技术领域
本发明一般涉及通过应用噪声正则化过程来处理基因-基因相关性基因表达数据的方法和系统。
背景技术
从批量细胞的微阵列和RNA测序获得的基因表达数据已成功应用于推断用于构建基因网络的基因-基因相关性(Ballouz等人,RNA-seq共表达网络构建和分析指导:数字安全性。生物信息学杂志,2015年。31(13):第2123页-第2130页),但表达数据的分析结果仅限于测量细胞池间的平均基因表达。可用单细胞RNA测序(scRNA-seq)技术在单细胞分辨率水平上对基因表达进行分析,从而剖析表面同质细胞群中的异质性,以揭示由批量表达谱掩盖的隐藏基因-基因相关性(Kolodziejczyk等人,单细胞RNA测序技术与生物学。分子细胞,2015年。58(4):第610页-第620页;Papalexi等人,单细胞RNA测序探索免疫细胞异质性。自然免疫学综述,2018年。18(1):第35页)。
但是,由于丢弃事件、高噪声水平等技术限制,处理scRNA-seq数据时仍存在挑战。已经采用了各种方法来减轻由低效率引起的噪声,并在处理scRNA-seq数据时估计真实的表达水平。已提出了许多数据预处理方法作为scRNA-seq数据分析的第一步。这些数据预处理方法可能影响基因-基因相关性推断和后续的基因共表达网络构建,例如引入假阳性基因-基因相关性。
应理解的是,需要处理scRNA-seq数据的方法和系统,这样可有效减少基因-基因相关性伪影,以推断基因-基因相关性并进一步构建基因网络。
发明内容
可用scRNA-seq数据剖析同质细胞群中的异质性,通过在单细胞分辨率水平上分析基因表达来揭示隐藏的基因-基因相互作用。由于丢弃(未检测到的基因表达)和高噪声(变异)等技术限制,处理scRNA-seq数据时存在挑战。采用数据预处理方法来降低噪声,以估计处理scRNA-seq数据时的真实表达水平。但是,这些数据预处理方法可能会引入假阳性的基因-基因相关性,从而影响基因-基因相关性推断。
本发明提供了一种通过应用噪声正则化过程减少基因-基因相关性伪影处理基因表达数据(揭示基因-基因相关性)的方法和系统。本发明还提供了一种改进基因-基因相关性数据处理的方法,包括以下步骤:处理基因表达数据进行归一化或插补,将噪声正则化过程应用于归一化或插补的基因表达数据,以及应用基因-基因相关性计算过程获取相关基因对。在某些示例性实施例中,所述基因表达数据为单细胞基因表达数据。在某些示例性实施例中,所述噪声正则化过程包括向表达矩阵中细胞基因的表达值添加随机噪声,并且由基因的表达水平确定随机噪声。
在某些示例性实施例中,通过以下方法确定所述随机噪声:(1)确定基因在表达矩阵所有细胞中的表达分布,(2)取基因表达水平的约0.1-约20个百分位作为最大噪声水平,(3)在均匀分布下生成从0到最大噪声水平的随机数,以及(4)向表达矩阵中细胞基因的表达值添加随机数,获得噪声正则化表达矩阵。
在某些示例性实施例中,通过以下方法确定所述随机噪声:(1)确定基因在表达矩阵所有细胞中的表达分布,(2)取基因表达水平的1个百分位作为最大噪声水平,(3)在均匀分布下生成从0到最大噪声水平的随机数,以及(4)向表达矩阵中细胞基因的表达值添加随机数,获得噪声正则化表达矩阵。
在某些示例性实施例中,在细胞集群内进行所述基因-基因相关性计算过程。在某些示例性实施例中,总唯一分子标识符归一化(NormUMI)、正则化负二项回归(NBR)、深度计数自动编码器网络(DCA)、基于马尔可夫亲和力的细胞图插补法(MAGIC)或通过表达恢复进行单细胞分析(SAVER)用于处理基因表达数据进行归一化或插补。在某些示例性实施例中,本发明所述改进基因-基因相关性数据处理的方法进一步包括富集与相关基因对有关的基因表达数据和/或根据相关基因对构建基因-基因相关性网络,其中,所述基因-基因相关性网络具有细胞类型特异性。在某些示例性实施例中,本发明所述方法进一步包括使用基因-基因相关性网络绘制分子间相互作用、指导实验室设计研究生物事件、发现生物标志物、指导比较网络分析、指导药物设计、通过比较细胞的健康和疾病状态识别基因-基因相互作用的变化、指导药物开发、预测基因的转录调控、提高药物效率或识别耐药因子。
本发明至少部分提供了一种基因-基因相关性网络,其中,根据相关基因对构建所述网络,使用本发明的改进基因-基因相关性数据处理的方法获得这些基因对,其中,所述方法包括以下步骤:处理基因表达数据进行归一化或插补;将噪声正则化过程应用于归一化或插补的基因表达数据;以及应用基因-基因相关性计算过程获取相关基因对。
本发明至少部分提供了一种用于基因-基因相关性数据处理的计算机实现方法,包括以下步骤:检索基因表达数据,处理基因表达数据进行归一化或插补,将噪声正则化过程应用于归一化或插补的基因表达数据,应用基因-基因相关性计算过程获取相关基因对,以及根据相关基因对构建基因-基因相关性网络,其中,所述基因-基因相关性网络具有细胞类型特异性。在某些示例性实施例中,所述基因表达数据为单细胞基因表达数据。在某些示例性实施例中,所述噪声正则化过程包括向表达矩阵中细胞基因的表达值添加随机噪声,并且由基因的表达水平确定随机噪声。
在某些示例性实施例中,通过以下方法确定所述随机噪声:(1)确定基因在表达矩阵所有细胞中的表达分布,(2)取基因表达水平的约0.1-约20个百分位作为最大噪声水平,(3)在均匀分布下生成从0到最大噪声水平的随机数,以及(4)向表达矩阵中细胞基因的表达值添加随机数,获得噪声正则化表达矩阵。
在某些示例性实施例中,通过以下方法确定所述随机噪声:(1)确定基因在表达矩阵所有细胞中的表达分布,(2)取基因表达水平的1个百分位作为最大噪声水平,(3)在均匀分布下生成从0到最大噪声水平的随机数,以及(4)向表达矩阵中细胞基因的表达值添加随机数,获得噪声正则化表达矩阵。
在某些示例性实施例中,在细胞集群内进行所述基因-基因相关性计算过程。在某些示例性实施例中,总唯一分子标识符归一化(NormUMI)、正则化负二项回归(NBR)、深度计数自动编码器网络(DCA)、基于马尔可夫亲和力的细胞图插补法(MAGIC)或通过表达恢复进行单细胞分析(SAVER)用于处理基因表达数据进行归一化或插补。
在某些示例性实施例中,本发明用于基因-基因相关性数据处理的计算机实现方法进一步包括富集与相关基因对有关的基因表达数据。在某些示例性实施例中,本发明所述的计算机实现方法进一步包括使用基因-基因相关性网络绘制分子间相互作用、指导实验室设计研究生物事件、发现生物标志物、指导比较网络分析、指导药物设计、通过比较细胞的健康和疾病状态识别基因-基因相互作用的变化、指导药物开发、预测基因的转录调控,提高药物效率或识别耐药因子。
本发明至少部分提供了一种用于基因-基因相关性数据处理的计算机系统,包括:一个可存储指令的数据库;一个可存储指令的存储器;至少一个与存储器连接的处理器,其中,所述至少一个处理器可执行以下指令:检索基因表达数据,处理基因表达数据进行归一化或插补,将噪声正则化过程应用于归一化或插补的基因表达数据,应用基因-基因相关性计算过程获取相关基因对,以及根据相关基因对构建基因-基因相关性网络;以及一个用户界面,能够接收基因-基因相关性的查询,并显示相关基因对和构建的基因-基因相关网络的结果。在某些示例性实施例中,所述基因表达数据为单细胞基因表达数据,所述基因-基因相关性网络具有细胞类型特异性。在某些示例性实施例中,所述噪声正则化过程包括向表达矩阵中细胞基因的表达值添加随机噪声,并且由基因的表达水平确定随机噪声。
在某些示例性实施例中,通过以下方法确定所述随机噪声:(1)确定基因在表达矩阵所有细胞中的表达分布,(2)取基因表达水平的约0.1-约20个百分位作为最大噪声水平,(3)在均匀分布下生成从0到最大噪声水平的随机数,以及(4)向表达矩阵中细胞基因的表达值添加随机数,获得噪声正则化表达矩阵。
在某些示例性实施例中,通过以下方法确定所述随机噪声:(1)确定基因在表达矩阵所有细胞中的表达分布,(2)取基因表达水平的1个百分位作为最大噪声水平,(3)在均匀分布下生成从0到最大噪声水平的随机数,以及(4)向表达矩阵中细胞基因的表达值添加随机数,获得噪声正则化表达矩阵。
在某些示例性实施例中,在细胞集群内进行所述基因-基因相关性计算过程。在某些示例性实施例中,总唯一分子标识符归一化(NormUMI)、正则化负二项回归(NBR)、深度计数自动编码器网络(DCA)、基于马尔可夫亲和力的细胞图插补法(MAGIC)或通过表达恢复进行单细胞分析(SAVER)用于处理基因表达数据进行归一化或插补。在某些示例性实施例中,所述至少一个处理器可进一步富集与相关基因对有关的基因表达数据。
某些示例性实施例中,所述至少一个处理器可进一步利用基因-基因相关性网络绘制分子间相互作用、指导实验室设计研究生物事件、发现生物标志物、指导比较网络分析、指导药物设计、通过比较细胞的健康和疾病状态识别基因-基因相互作用的变化、指导药物开发、预测基因的转录调控、提高药物效率或识别耐药因子。
结合以下说明和附图,将更好地理解本发明的这些方面和其他方面。以下说明显示了各个实施例及其许多具体细节,仅用于说明目的,不应视为限制。在本发明的范围内,可进行多种替换、修改、增加或重排。
附图说明
图1是一个示例性实施例所述用于改进基因-基因相关性数据处理的计算机系统示意图,其中包括一个数据库、一个存储器、至少一个处理器和一个用户界面。
图2是一个示例性实施例所述将噪声正则化过程应用于归一化或插补的基因表达数据的流程图。
图3显示了一个示例性实施例所述来自人细胞图谱预览数据集(用作各种数据预处理方法的基准数据集)的骨髓scRNA-seq数据。完整数据集包含378,000个骨髓细胞,这些细胞可分为21个细胞集群,覆盖所有主要的免疫细胞类型。
图4显示了一个示例性实施例所述基准框架的概述。根据示例性实施例,将五种代表性数据预处理方法(NormUMI、NBR、DCA、MAGIC和SAVER)应用于单细胞表达数据矩阵,例如骨髓单细胞表达数据。方法1表示直接从结果矩阵计算出的基因-基因相关性。方法2表示增加了噪声正则化步骤,其中,将由基因表达水平(红色区域)确定的随机噪声应用于表达矩阵,然后再进行基因-基因相关性计算。评估了蛋白-蛋白相互作用(PPI)中得出的基因-基因相关性的富集程度和方法之间的一致性。
图5A-5D显示了一个示例性实施例所述使用五种数据预处理方法处理scRNA-seq数据时观察到的伪影。图5A显示了一个示例性实施例所述这些方法之间的相关性分布不同。直线表示中位数。
图5B显示了一个示例性实施例所述每种方法的蛋白-蛋白相互作用中最相关基因对的富集程度。X轴表示前n个基因对。Y轴表示出现在STRING蛋白-蛋白相互作用(PPI)数据库中n个基因对的分数。
图5C显示了一个示例性实施例所述在推断高度相关基因对方面,各方法之间的一致性较低。
图5D显示了一个示例性实施例所述随机抽样基因对的富集程度。
图6是一个示例性实施例所述在应用不同数据预处理方法后,基因对MB21D1和OGT(例如,负基因对照对)表达值的散布图。分析中应用了五种代表性数据预处理方法(例如,NormUMI、NBR、DCA、MAGIC和SAVER)。
图7A-7C显示了一个示例性实施例所述应用噪声正则化减少五种代表性预处理方法(例如,NormUMI、NBR、DCA、MAGIC和SAVER)假性相关性的结果。图7A显示了一个示例性实施例所述对每种方法应用噪声正则化后相关性分布的结果。不同的颜色表示不同的方法。
图7B显示了一个示例性实施例所述在应用噪声正则化后,蛋白-蛋白相互作用中最相关基因对的富集程度。X轴表示前n个基因对。Y轴表示出现在STRING蛋白-蛋白相互作用(PPI)数据库中n个基因对的分数。不同的颜色表示不同的方法。实线的误差条表示基于10次重复的99%置信区间。
图7C显示了一个示例性实施例所述在应用噪声正则化推断高度相关基因对后,方法之间的一致性。
图8A-8C显示了一个示例性实施例所述从scRNA-seq数据推断的基因-基因相关性网络。图8A和8B显示了一个示例性实施例所述在应用噪声正则化前后构建的相关性网络中每个基因度中心性(Degree)和Pagerank的比较。
图8C显示了一个示例性实施例所述具有细化基因-基因相关性的网络构建。通过应用NBR和噪声正则化处理scRNA-seq数据。移除蛋白-蛋白相互作用中不存在的链接。
图9显示了一个示例性实施例所述在应用噪声正则化前后,Reactome通路中最相关基因对的富集程度。X轴表示前n个基因对。Y轴表示Reactome数据库相同通路中出现的n个基因对的分数。虚线和实线分别表示噪声正则化前后。
图10显示了一个示例性实施例所述通过测试不同百分位上最大噪声来确定最佳噪声水平的结果。
图11显示了一个示例性实施例所述生成范围0-1个百分位基因表达水平的随机噪声,并将随机噪声添加到表达矩阵中。
具体实施方式
由于可用高通量基因表达数据,可通过基因表达数据的统计推断来大规模构建基因调控网络,例如,通过将数据置于焦点中心来假设一个统计视角。已使用各种统计网络推断方法(例如,推断算法)估计相互作用。推断的基因调控网络提供了有关调控因子与其潜在目标之间调控相互作用的信息,例如基因-基因相互作用或复合物中潜在的蛋白-蛋白相互作用。这些推断的网络代表了从大规模基因表达数据中获得的分子相互作用的统计显著预测。(Emmert-Streib等人,基因调控网络及其应用:从网络的角度理解生物和医学问题。细胞和发育生物学前沿,2014年。2(38))。
推断的基因调控网络可有助于解决生物和生物医学问题,例如,用作分子相互作用的因果图、指导实验设计、发现生物标志物、指导比较网络分析或指导药物设计(Emmert-Streib等人)。此外,构建的网络可用于识别下游相互作用,并为进一步进行下游分析提供指导,例如,通过比较细胞的健康和疾病状态识别基因-基因相互作用的变化,从而节约药物开发的时间。
推断的基因调控网络可用作分子相互作用的因果图来帮助解决生物和生物医学问题,例如,推导出新的分子相互作用生物假说或预测基因的转录调控。因为预测的链接应该与分子之间实际物理结合事件相对应,所以这些信息可用于指导实验室实验来研究生物事件。此外,这些推断的网络可用于发现或研究诊断、预测或预后目的的生物标志物。例如,因为癌症是一种与各种通路而不是单个基因有关的复杂疾病,所以基于网络的生物标志物可用作癌症诊断的统计度量。此外,当更多推断的基因调控网络可用时,可指导相当的网络分析,了解在不同生理或疾病条件下基因-基因相互作用的变化。(Emmert-Streib等人)因此,这些推断的网络可指导更有效的合理药物设计,例如提高药物效率或识别耐药因子。
基因-基因共表达网络可视为基因调控网络,此网络由基因表达数据推断出(例如由单细胞RNA测序(scRNA-seq)数据推断出()的基因-基因相关性构建。可在不同的生理、疾病或治疗条件下构建基因-基因共表达网络。比较不同条件下构建的基因-基因共表达网络可了解不同生理或疾病条件下的基因相互作用变化,从而在不同条件下分析此类表型。例如,两个基因的表达在一种细胞类型中可能高度相关,但在其他细胞类型中却不相关。ScRNA-seq数据可无偏差捕捉异质细胞群中不同细胞类型的完整转录组,这可揭示特定细胞类型的基因-基因相关性。
基因表达受转录因子和信号分子网络的调控。因为每个细胞都是一个代表不同类型或阶段生物事件的独立个体,所以ScRNA-seq数据可通过揭示分化动态和量化基因转录,为了解细胞和组织的异质性提供关键信息。基因之间的相关表达,特别是共表达,可为建立可视化和解释网络提供信息(Stuart等人,在全球范围内发现保守遗传模块的基因共表达网络。科学杂志,2003年。302(5643):第249页-第255页)。scRNA-seq数据分析可促进生物发现,因为它可以将每个细胞分为不同的细胞类型或谱系,从而提高对不同背景下生物过程的理解。因此,从单细胞表达数据中发现的基因-基因相关性有可能构建揭示细胞类型特定模块的更全面网络。
开发了专门针对单细胞数据的相关度量,分析scRNA-seq数据,从而推断不同器官和疾病条件下的大规模调控网络。使用图论工具计算基因生物相关性的无偏差量化,以明确器官功能和疾病驱动因子中的关键作用。(Iacono等人,单细胞转录组学揭示基因调控网络的可塑性。基因组生物学,2019年。20(1):第110页)。通过检查基因-基因对的合成遗传相互作用,构建一个基因组规模的遗传相互作用图谱。基于遗传相互作用图谱的网络通过将类似的生物过程聚集在连贯的子集中来揭示功能图谱,其中高度相关的图谱描绘了定义基因功能的特定通路(Costanzo,M.等人,细胞的遗传全景。科学杂志,2010年。327(5964):第425页-第431页)。
然而,由于丢弃事件(例如,scRNA-seq无法检测到的基因表达)、高水平的噪声(变异)和非常大的数据量等技术上的限制,在利用scRNA-seq数据方面存在挑战。此外,在scRNA-seq中只对每个细胞中的一小部分转录本进行测序,这导致了对低表达和中表达基因的量化不可靠。由于捕捉和测序效率低,很大一部分基因(例如超过90%的基因群)的读数为零或很低。尽管许多观察到的零计数反映了真实的零表达,但相当一部分计数可能是由于技术限制(Huang等人,SAVER:单细胞RNA测序的基因表达恢复。自然方法杂志,2018年。15(7):第539页-第542页)。此外,观察到的测序深度在不同的细胞之间可能有很大差异。在测序过程中,细胞裂解、反转录效率和分子取样的变化也会导致变化(Hicks等人,单细胞RNA测序实验中缺失数据和技术可变性。生物统计杂志,2017年。19(4):第562页-第578页)。
已采用各种数据预处理方法来减轻由低效率引起的噪声,并估计处理scRNA-seq数据时真实的表达水平,包括表达归一化和丢弃插补。通常需要对数据进行归一化处理,以消除技术噪声,同时保留真实的生物信号。scRNA-seq的高丢弃率是指由于检测转录本的技术限制,很大一部分基因的计数为零(Svensson等人,单细胞RNA测序实验的效力分析。自然方法杂志,2017年。14:第381页;Ziegenhain等人,单细胞RNA测序方法的比较分析。分子细胞,2017年。65(4):第631页-第643页,e4)。为了处理丢弃的基因来恢复真实的基因表达水平,可使用各种数据插补方法来预处理scRNA-seq数据,例如细胞集群、检测差异表达的基因和轨迹分析(Tian等人,使用混合控制实验对单细胞RNA测序分析管道进行基准测试。自然方法杂志,2019年。16(6):第479页-第487页)。
因为这些方法用于逆向工程基因网络测量基因-基因相关性,所以应用有关假基因-基因相关性方面的插补方法存在挑战。Andrews等人在小型的模拟数据集上测试了几种插补方法,发现丢弃插补会产生假阳性基因-基因相关性(Andrews,T.和M.Hemberg,单细胞插补引起的假信号[第1版;同行评审:4人已批准,但有保留意见]。F1000Research,2018年,7(1740))。一些用于数据预处理具有代表性的scRNA-seq归一化/插补方法由于数据过度平滑或过度拟合而引入假性或夸大的相关性,从而对基因-基因相关性推断产生影响。这些方法可能为那些预计不会产生共表达的基因对引入相关性伪影。由于在数据处理过程中可能会引入假信号和相关性伪影,从这些方法中获得的具有最高相关性的基因对在蛋白-蛋白相互作用中的富集程度可能较弱。
在机器学习中,在某些条件下向数据添加噪声可通过减少过度拟合来提高结果的稳健性(Bishop,用噪声训练相当于吉洪诺夫正则化。神经计算杂志,1995年。7(1):第108页-第116页;Neelakantan等人,添加梯度噪声可改进深度网络的学习。arXiv预印本平台,arXiv:1511.06807,2015;Smilkov等人,Smoothgrad:通过添加噪声来消除噪声。arXivpreprint arXiv:1706.03825,2017)。
本发明通过提供利用新的噪声正则化方法处理scRNA-seq数据的方法和系统来提供满足上述需求的方法和系统,所述方法和系统可有效减少基因-基因相关性伪影,用于推断基因-基因相关性并进一步构建基因网络。应用本发明的噪声正则化方法后得出的基因-基因相关性可用于构建基因共表达网络。在多个层面验证由此产生的网络,确认构建网络的可靠性。使用蛋白-蛋白相互作用数据库中的已知相互作用来评估推断的生物网络的质量。
在某些示例性实施例中,本发明的噪声正则化方法通过添加相对于每个基因表达水平均匀分布的噪声来处理预处理的scRNA-seq数据。通过添加本发明的噪声正则化方法获得的基因-基因相关性可用于通过减少基因-基因相关性的伪影来重建基因共表达网络。在某些示例性实施例中,成功揭示了几种已知的细胞模块,例如免疫细胞模块,这些细胞模块在缺少本发明噪声正则化方法的情况下不可见。在某些示例性实施例中,当添加本发明的噪声正则化方法时,细胞类型标记基因在网络拓扑属性方面的评级较高(例如,度中心性和Pagerank值较高),明确了它们在各自细胞集群中的关键作用。本发明的噪声正则化方法通过减少过度平滑或过度拟合的表达数据,提高了数据处理的稳健性。
在某些示例性实施例中,本发明提供了一种用于改进基因-基因相关性数据处理的计算机实现方法,所述方法包括以下步骤:处理基因表达数据进行归一化或插补;将噪声正则化过程应用于归一化或插补的基因表达数据;以及应用基因-基因相关性计算过程获取相关基因对。在某些示例性实施例中,本发明提供了一种用于基因-基因相关性数据处理的计算机系统,包括:一个可存储指令的数据库;一个可存储指令的存储器;至少一个与存储器连接的处理器,其中,所述至少一个处理器可执行以下指令:检索基因表达数据,处理基因表达数据进行归一化或插补,将噪声正则化过程应用于归一化或插补的基因表达数据,应用基因-基因相关性计算过程获取相关基因对,以及根据相关基因对构建基因-基因相关性网络;以及一个用户界面,能够接收基因-基因相关性的查询,并显示相关基因对和构建的基因-基因相关网络的结果。
如图1所示,本发明用于基因-基因相关性数据处理的示例性计算机系统包括一个或多个数据库、一个由一个或多个处理器组成的中央处理单元(CPU)、一个与CPU连接用于存储指令的存储器和一个用户界面。在某些示例性实施例中,本发明中的计算机系统进一步包括数据归一化或插补的算法以及各种报告。在某些示例性实施例中,所述数据库包括基因表达数据、基因组数据或蛋白-蛋白相互作用数据。在某些示例性实施例中,所述用户界面可接收数据处理的查询、显示相关基因对或显示基因-基因相关性网络。
在某些示例性实施例中,通过以下方法确定所述随机噪声:(1)确定基因在表达矩阵所有细胞中的表达分布,(2)取基因表达水平的1个百分位作为最大噪声水平,(3)在均匀分布下生成从0到最大噪声水平的随机数,以及(4)向表达矩阵中细胞基因的表达值添加随机数,获得噪声正则化表达矩阵。
在某些示例性实施例中,细胞j基因i的表达值表示为V,,可通过以下方法确定随机噪声:(i)在应用各种数据预处理方法后计算基因i的表达分布,(ii)确定基因i表达值的1个百分位并表示为M,其中,M将用作最大噪声水平,以及(iii)生成从0到M的均匀分布随机数,并将此随机数添加到V。
在某些示例性实施例中,生成随机噪声并添加到V,例如,通过特定方法处理的表达矩阵中细胞j基因i的表达值,其中,通过以下方法确定所述随机噪声:(1)确定基因i在所有细胞中的表达分布,(2)取基因i表达的一个百分位作为最大噪声水平,并表示为M,(3)如果M等于零,使用0.1作为最大噪声水平,(4)在均匀分布的情况下生成0到M的随机数,以及(5)将随机数添加到V以获得噪声正则化的表达矩阵。
在某些示例性实施例中,所述噪声正则化过程包括获得经过特定scRNA-seq预处理方法处理的表达矩阵,其中,此表达矩阵包括m个细胞中n个基因的表达。假设V是细胞j中基因i的表达值,生成随机噪声并添加到V,其中,通过以下程序确定所述噪声:(1)确定基因i在所有细胞中的表达分布,(2)取基因i表达分布的第一个百分位作为基因i的最大噪声水平并表示为M,其中,如果M小于最小值m,则m将用作最大噪声水平,(3)在均匀分布下生成0到M的随机数,(4)将此随机数添加到V以获得噪声正则化表达值,以及(5)针对表达矩阵中每一项重复此程序,如图2中示例性流程图所示。
本发明公开的示例性实施例通过提供计算机实现方法来满足上述要求,此方法通过将噪声正则化过程应用于归一化或插补的基因表达数据来改进基因-基因相关性的数据表达处理。
在某些示例性实施例中,本发明提供的计算机实现方法通过对归一化或插补的基因表达数据应用噪声正则化过程,来改进基因-基因相关性的基因表达数据处理。这些方法满足了有效减少基因-基因相关性伪影以推断基因-基因相关性并进一步构建基因网络的长期需求。
术语“一个(a)”是指“至少一个”;术语“大约(about)”和“大约(approximately)”是指可使本领域普通技术人员理解的标准偏差;所提供的范围均包含端点。
本发明使用的术语“包括(include)”、“包括(includes)”和“包括(including)”是非限制性的,并分别理解为“包括(comprise)”、“包括(comprises)”和“包括(comprising)”。
在某些示例性实施例中,本发明提供了一种用于改进基因-基因相关性数据处理的计算机实现方法,包括以下步骤:处理基因表达数据进行归一化或插补;将噪声正则化过程应用于归一化或插补的基因表达数据;以及应用基因-基因相关性计算过程获取相关基因对。在某些示例性实施例中,在应用基因-基因相关性计算过程前,应用噪声正则化过程。在某些示例性实施例中,所述基因表达数据为单细胞基因表达数据。
在本发明中,术语“基因-基因相关性”是指在样品中显示相似表达模式的成对基因。当两个基因共表达时,这两个基因的表达水平同时上升和下降。共表达的基因通常涉及相同的生物通路,通常由相同的转录因子调控,或在功能上相关。
在本发明中,术语“归一化”是指组织数据集减少冗余并提高数据完整性的过程,包括增加调整,使调整后的值对齐或适合特定分布。归一化过程可消除系统的变化(例如实验条件、机器参数的变化),并允许在样品之间进行无偏差比较。
在本发明中,术语“插补”是指用替换值替换缺失数据的过程。缺失数据可能会导致问题,例如,通过降低效率引入大量的偏差,这可能会影响结果的代表性。插补包括用基于其他可用信息的估计值替换缺失数据的过程,这一过程可使用标准技术分析数据集。
示例性实施例
本发明公开的实施例通过将噪声正则化过程应用于归一化或插补的基因表达数据来改进基因-基因相关性的数据表达处理。
在某些示例性实施例中,本发明提供了一种改进数据处理降低基因-基因相关性伪影的方法,包括以下步骤:处理scRNA-seq数据进行归一化或插补;将噪声正则化过程应用于归一化或插补的基因表达数据;以及应用基因-基因相关性计算过程获取相关基因对,其中,所述噪声正则化过程包括向表达矩阵中细胞基因的表达值添加随机噪声。
在某些示例性实施例中,通过以下方法确定所述随机噪声:(1)确定基因在表达矩阵所有细胞中的表达分布,(2)取基因表达水平的约0.1-约20个百分位作为最大噪声水平,(3)在均匀分布下生成从0到最大噪声水平的随机数,以及(4)向表达矩阵中细胞基因的表达值添加随机数,获得噪声正则化表达矩阵。
在某些特定的示例性实施例中,通过以下方法确定所述随机噪声:(1)确定基因在表达矩阵所有细胞中的表达分布,(2)取基因表达水平的约0.1-约20个百分位、约0.1个百分位、约0.5个百分位、约1个百分位、约1.5个百分位、约2个百分位、约3个百分位、约4个百分位、约5个百分位、约7个百分位、约10个百分位、约15个百分位、约20个百分位或约25个百分位作为最大噪声水平,(3)在均匀分布下生成从0到最大噪声水平的随机数,以及(4)向表达矩阵中细胞基因的表达值添加随机数,获得噪声正则化表达矩阵,其中,本发明的计算机实现方法进一步包括根据相关基因对构建基因-基因相关性网络。
在某些示例性实施例中,本发明的计算机实现方法进一步包括使用基因基因相关性网络绘制分子间相互作用、指导实验室设计研究生物事件、发现生物标志物、指导比较网络分析、指导药物设计、通过比较细胞的健康和疾病状态识别基因-基因相互作用的变化、指导药物开发、预测基因的转录调控,提高药物效率、识别耐药因子、为进一步的下游分析提供指导、推导出新的分子相互作用生物假说、为癌症诊断提供统计度量、指导比较网络分析了解不同生理或疾病条件下基因-基因相互作用的变化、了解基因相互作用的变化分析不同条件下的特定表型、揭示量化基因转录的分化动态或者发现用于诊断、预测或预后目的的生物标志物。
应理解的是,所述方法或系统不限于上述改进基因-基因相关性基因表达数据处理的任何方法或系统。本发明所述方法步骤的数字和/或字母连续标记并不意味着将所述方法或任何实施例限制为特定显示顺序。本说明书引用了各种出版物,包括专利、专利申请、已发表的专利申请、登录号、技术文献和学术文献。这些参考文献通过本发明的整体引用,成为本发明的一部分。除非另有说明,否则本文所用的所有技术和科学术语均具有本发明所属领域普通技术人员公知的相同含义。
参考以下示例可更充分了解本发明,提供这些示例是为了更详细地描述本发明。这些示例旨在对本发明进行说明,不应视为限制本发明的范围。
示例
数据库和方法
获取scRNA-seq数据集
从人细胞图谱数据门户(https://preview.data.humancellatlas.org/)检索到骨髓scRNA-seq数据。检索到的数据集包含10X平台378,000个免疫细胞的剖析数据。为了减少计算负担,从原始数据集中随机采样50,000个细胞。随后,进一步过滤在少于100个细胞(0.2%)中表达的基因。在输出中,最终的基准数据集中留有12,600个基因。使用Seurat R包(第3.0版)进行单细胞分析,例如,集群或降维。
数据归一化或插补
在数据预处理步骤中应用了几种方法来实现数据归一化或插补,包括总唯一分子标识符归一化(NormUMI)、正则化负二项回归(NBR;Hafemeister等人,使用正则化负二项回归的单细胞RNA-seq数据的归一化和方差稳定化。bioRxiv,2019年:第576827页)、深度计数自动编码器网络(DCA)(Eraslan等人,使用深度计数自动编码器的单细胞RNA-seq去噪。自然通讯杂志,2019年。10(1):第390页)、基于马尔可夫亲和力的细胞图插补法(MAGIC;vanDijk等人,利用数据扩散从单细胞数据中恢复基因相互作用。细胞杂志,2018年。174(3):第716页-第729页,e27),或通过表达恢复进行单细胞分析(SAVER;Huang等人)。NBR、SAVER和DCA按照工具说明使用默认参数运行。用以下参数运行MAGIC:主成分数目npca=30,马尔可夫亲和力矩阵的幂t=6,最近邻的数目k=30。NormUMI和NBR为归一化方法。DCA、MAGIC和SAVER方法为插补方法。
基因-基因相关性计算
在每个集群的细胞内计算每个基因对的斯皮尔曼相关系数,例如,分别从集群0到集群9。如果一个基因在超过1%的细胞或该集群中的50个细胞中表达(以较大者为准),则将此基因视为在一个集群中表达。当两个基因都在集群中表达时,将一个集群中基因对的相关性视为有效相关性。将10个集群(集群0-9)中的最高有效相关性记录为给定基因对的最终相关性。
根据蛋白-蛋白相互作用的数据富集程度
从STRING数据库(http://string-db.org)检索人类蛋白-蛋白相互作用(PPI)数据(Szklarczyk等人,STRING v10:在生命树上集成的蛋白-蛋白相互作用网络。核酸研究杂志,2014年。43(D1):第D447页-第D452页)。采用斯皮尔曼相关系数对每种方法的基因对进行排序。然后取排序较高的基因对(前n个基因对),并统计出现在蛋白-蛋白相互作用数据库中基因对的分数。
噪声正则化
将噪声正则化应用于数据处理。将由基因表达水平确定的随机噪声添加到表达矩阵中,然后进行相关性计算。生成随机噪声并添加到V,例如,通过特定方法处理的表达矩阵中细胞j基因i的表达值。通过以下方法生成随机噪声:(1)确定基因i在所有细胞中的表达分布,(2)取基因i表达的一个百分位作为最大噪声水平,并表示为M,(3)如果M等于零,使用0.1作为最大噪声水平,(4)在均匀分布的情况下生成0到M的随机数,以及(5)将随机数添加到V以获得噪声正则化的表达矩阵。
网络构建
在每个集群的细胞内计算每个基因对的斯皮尔曼相关系数。在每个集群内,基因对按其斯皮尔曼相关系数进行排序。由于管家基因是基本细胞功能所必需的,无论组织类型或细胞类型如何,预计管家基因将在所有细胞中表达。为了构建细胞类型特定的相互作用模块,在网络构建中移除管家基因。移除的管家基因列表包括从Eisenberg等人处获得的管家基因列表(Eisenberg等人,人管家基因,重新修订。遗传学趋势杂志,2013年。29(10):第569页-第574页)。此外,在移除的管家基因列表中添加典型的管家基因,例如ACTB、B2M和Reactome的核糖体、TCA、细胞骨架基因,以及mtDNA编码基因。移除管家基因后,将每个集群中排序前1000个基因对放在一起构建草案网络。根据Csardi等人的观点,使用igraph R包通过度中心性和Pagerank的值来衡量网络中每个节点的重要性(Csardi等人,用于复杂网络研究的igraph软件包。InterJournal,复杂系统,2006年。1695(5):第1页-第9页)。随后,通过移除STRING数据库中不涉及蛋白-蛋白相互作用的链接来清理网络。根据Shannon等人的观点,使用Cytoscape对最终网络进行可视化处理。(Shannon等人,Cytoscape:生物分子相互作用网络集成模型的软件环境。基因组研究,2003年。13(11):第2498页-第2504页)以及根据Ono等人的R包RCy3。(Ono等人,CyREST:通过RESTful API加速外部工具的Cytoscape访问。F1000Research,2015年。4:第478页-第478页)。根据等人的观点,使用EntOptLayout Cytoscape插件生成网络布局。(等人,用于蛋白-蛋白相互作用和信号网络中主要蛋白复合物有效可视化的EntOptLayout Cytoscape插件。生物信息学杂志,2019年)。
示例1.使用代表性归一化/插补方法进行数据预处理
对几个代表性归一化/插补方法进行了基准测试,重点关注它们对基因-基因相关性推断的影响。全局缩放归一化方法通过将每个细胞的基因表达按总表达归一化来进行最小数据操作。因为对数转换和z得分缩放不会改变排序的相关性,所以通常在对数转换和z得分缩放之后采用这种方法;比较中只包括了总UMI归一化(称为NormUMI)。包括一个利用“正则化负二项回归”来归一化和稳定scRNA-seq数据方差的框架(称为NBR),它可消除技术噪声的影响,同时保留生物异质性。还包括代表不同插补方法类别的另外三种方法,例如,(i)MAGIC-一种数据平滑方法,它利用类似细胞的共享信息来消除噪声和填补丢弃值;(ii)SAVER-一种基于模型的方法,在负二项分布假设下对每个基因的表达进行建模,并输出真实表达的后验分布;以及(iii)DCA-一个基于深度学习的自动编码器,用于捕捉scRNA-seq数据的复杂性和非线性,并重建基因表达。
通过比较预处理方法得到的基因-基因相关性,将这五种示例性归一化/插补方法(例如,NormUMI、NBR、DCA、MAGIC和SAVER)应用于人细胞图谱项目的骨髓scRNA-seq数据(Regev等人,人细胞图谱。eLife,2017。6:第e27041页)。除NormUMI外,其他四种方法通过为基因对(预计不会产生共表达)引入相关性伪影,使基因-基因相关性明显膨胀。这些方法中相关性最高的基因对在蛋白-蛋白相互作用中的富集程度较弱,这表明在数据预处理中可能引入假信号和相关性伪影。由于过度平滑或过度拟合,数据预处理可能会引入假信号。
示例2.在单细胞中计算基因-基因相关性
将人细胞图谱预览数据集的真实骨髓scRNA-seq数据用作各种数据预处理方法的基准数据集(Regev等人)。如图3和表1所示,完整数据集包含378,000个骨髓细胞,这些细胞可分为21个细胞集群,覆盖所有主要的免疫细胞类型。从原始数据集中随机采样50,000个细胞。此子集排除了表达小于0.2%(100个细胞)的基因。最终数据集包含12,600个基因,并产生了超过7,900万个可能的基因对。
图4显示了基准框架的概述。将五种代表性数据预处理方法(例如,NormUMI、NBR、DCA、MAGIC和SAVER)应用于单细胞表达数据矩阵(例如,骨髓、单细胞表达数据),如图4所示。直接从结果矩阵计算出的基因-基因相关性(表示为方法1)。评估了蛋白-蛋白相互作用中得出的基因-基因相关性的富集程度和方法之间的一致性。人们发现,数据预处理程序可引入伪影相关性。引入噪声正则化步骤(表示为方法2),其中,将由基因表达水平(红色区域)确定的随机噪声应用于表达矩阵,然后再进行相关性计算。这种噪声正则化步骤可有效减少假性相关性,细化的基因-基因相关度量可用于构建基因共表达网络。
两个基因的表达在一种细胞类型中可能高度相关,但在其他细胞类型中却不相关。为了捕捉不同类型细胞之间的基因-基因相关性,在基准数据集中的10个最大集群内计算基因-基因斯皮尔曼相关性,例如每个集群大于500个细胞,其中包括CD4 T细胞、CD8 T细胞、天然杀伤细胞、B细胞、前B细胞、CD14+单核细胞、FCGR3A+单核细胞、红细胞、粒细胞-巨噬细胞祖细胞和造血干细胞(图3和图4)。对于每对基因,将10个集群中最高的相关性记录为最终相关性。
示例3.使用数据预处理方法观察伪影
将五种代表性数据预处理方法(例如,NormUMI、NBR、DCA、MAGIC和SAVER)应用于人细胞图谱项目的骨髓scRNA-seq数据。比较了通过不同方法处理的五个不同数据矩阵中整体基因-基因相关性的分布。由于大多数基因对没有任何关联,预计相关性分布的峰值为0。如图5A所示,NormUMI产生了一个峰值为0的相关性分布。但是,根据斯皮尔曼相关系数,其他四种方法的相关性中位数要高得多,如图5A所示,(NormUMIρ=0.023、NBRρ=0.839、MAGICρ=0.789、DCAρ=0.770、SAVERρ=0.166)。
在应用特定的数据预处理方法后,获取两个基因之间的相互作用,揭示更高的相关性是否反映了两个基因之间功能或物理相互作用的更高几率。与随机蛋白对相比,由共表达基因编码的蛋白更频繁地相互作用。如果产生的较高相关性是真实的,那么共表达基因在蛋白-蛋白相互作用数据库中应具有相对较高的富集程度,而假性相关性会稀释富集程度。STRING数据库(Szklarczyk等人)包含5,772,157个相互作用基因对,用于评估排序靠前的共表达基因对中蛋白-蛋白相互作用的富集程度。从每种方法中选出排序靠前的基因对(按相关性排序)。如图5B所示,计算出这些基因对中与STRING数据库重叠的分数。结果表明,在前100个和10,000个基因对中,NormUMI的蛋白相互作用的富集程度最高,分别与STRING重叠80%和47%。相比之下,使用NBR的排序靠前的基因对与STRING的重叠度低于预期(<2%),而使用MAGIC和DCA的蛋白-蛋白相互作用的富集程度相似,范围为11%-22%。SAVER显示出相对较好的结果,但富集程度仅为NormUMI的一半。
对于基因对进行随机采样,并将随机基因对与PPI重叠来估计背景富集水平(图5D)。估计的背景富集水平约为3.6%,表明NBR的PPI富集程度甚至低于背景富集程度。尽管这种直接的方法将物理相互作用与基因共表达直接联系起来,但鉴于所有这些方法均基于相同的假设,结果也提供了数据预处理方法之间的有用比较。
图5A-5C显示了在使用数据预处理方法处理基因表达数据时观察到伪影的结果,例如假性基因-基因相关性。如图5A所示,这些方法之间的相关性分布不同。NormUMI的分布中心接近于零,而NBR、DCA和MAGIC的相关性分布明显膨胀。直线表示中位数。图5B显示了每种方法的蛋白-蛋白相互作用中最相关基因对的富集情况。X轴表示前n个基因对。Y轴表示出现在STRING蛋白-蛋白相互作用数据库中n个基因对的分数。NormUMI具有最高的富集程度,其次是SAVER、MAGIC、DCA和NBR。图5C显示了在推断高度相关基因对方面,各方法之间的一致性较低。下三角表示这些方法之间前5,000个基因对的重叠情况。这种最大重叠发生在NormUMI和DCA之间。在这两种方法中,只有30个基因对排在前5,000位。上三角比较了不同方法之间共享基因对的确切排序,显示出一致性较低。
比较了从五个数据预处理程序中得出的高度相关基因对的一致性。对每种方法的前5,000个基因对进行了成对比较。结果表明,不同方法之间基因对的重叠程度极小。例如,在前5,000个基因对中,NormUMI和NBR只共享了1个基因对。重叠程度最高的是NormUMI和DCA,这两种方法仅有30个基因对共享(图5C中的下三角)。我们进一步比较了每种方法中重叠基因对的排序。结果表明,这些方法之间没有明确的关系(图5C中的上三角)。尽管这种方法没有提供一个完全定量的结果,但它表明从这些数据预处理方法中得出的高度相关性很可能是伪影。
示例4.不相关基因作为阴性对照基因对
使用阴性对照基因对来研究假性相关性的潜在原因。按以下标准定义阴性对照基因对:(i)在STRING数据库中,这两个基因不应作为相互作用的基因对出现;(ii)这两个基因不应共享任何基因本体(GO)术语(Ashburner等人,基因本体:生物学统一工具。基因本体协会。自然遗传学杂志,2000年。25(1):第25页-第29页;基因本体协会,基因本体资源:20年了,依然很强大。核酸研究杂志,2018年。47(D1):第D330页-第D338页);以及(iii)两个基因不应在同一染色体上。
图6是应用不同的数据预处理方法后,MB21D1和OGT基因对(例如,阴性基因对照对)表达值的散点图。目前还没有证据表明这两个基因的相关性。在集群2的6,534个细胞中,只有3个细胞在原始表达矩阵的两个基因中具有非零表达值。将五种代表性数据预处理方法(例如,NormUMI、NBR、DCA、MAGIC和SAVER)应用于分析。在应用NBR(ρ=0.843)、DCA(ρ=0.828)或MAGIC(ρ=0.739)处理方法后,其中一个阴性对照基因对MB21D1和OGT在细胞集群2中具有较高的相关性。可视化表明这些相关性伪影可能是由数据过度平滑造成的。
在五种方法中,NormUMI是唯一能从原始数据中保持零计数的方法。在使用NormUMI的分析中,6,534个细胞中有6,110个细胞(93.5%)在两个基因中均为零值,3个细胞(0.04%)在两个基因中均为非零值,而1.3%和5.2%的细胞在MB21D1和OGT中为非零值。其他四种方法明显改变了原始表达矩阵的零点。在应用这些程序后,所有处理过的数据均表现出了某种程度的过度平滑,特别是在原始数据中的“双零区域”,从而产生了相关性伪影,如图6所示。尽管NBR不是一种插补方法,而且只对零值进行了最低程度的移动,但由于每个细胞的调整幅度不同,还是引入了人为排序相关性。
示例5.应用噪声正则化方法减少假性相关性
采用噪声正则化方法减少假性相关性。对预处理方法(例如,NormUMI、NBR、DCA、MAGIC和SAVER)处理的表达矩阵中的每一项添加随机噪声。例如,细胞j基因i的表达值表示为V。按照以下步骤生成噪声:(i)在应用各种数据预处理方法后计算基因i的表达分布;(ii)确定基因i表达值的1个百分位并表示为M,M将用作最大噪声水平;以及(iii)生成从0到M的均匀分布随机数,并将此随机数添加到V。
对每种预处理方法应用这种噪声正则化方法后,重新计算基因-基因相关性。图7A显示了一个示例性实施例所述对每种方法应用噪声正则化后斯皮尔曼相关系数分析(例如,相关性分布)的结果。不同的颜色表示不同的方法。结果显示,在相关性分布方面,所有五种方法中的相关性中位数均向0偏移,如图7A所示,这表明由于应用噪声正则化,相关性膨胀有所减少。
图7B显示了一个示例性实施例所述在应用噪声正则化后,蛋白-蛋白相互作用中最相关基因对的富集程度。X轴表示前n个基因对。Y轴表示出现在STRING蛋白-蛋白相互作用数据库中n个基因对的分数。不同的颜色表示不同的方法。实线的误差条表示基于10次重复的99%置信区间。在所有方法中,最相关基因的蛋白-蛋白相互作用的富集程度均有明显改善。NBR之前在蛋白-蛋白相互作用方面的富集程度最低。然而,在应用噪声正则化方法后,NBR在蛋白-蛋白相互作用中富集程度最高。在NBR的前100、1,000和10,000个相关基因对中,可在蛋白-蛋白相互作用数据库中发现99.0%、96.8%和67.7%的基因对,分别提高99.0、50.9和31.6倍。在以前的结果中,DCA平均有大约12%的蛋白-蛋白相互作用富集程度。经过噪声正则化后,DCA在前100个基因对中的富集程度约为97.6%,在前10,000个基因对中的富集程度约为55.8%,相当于提高约5倍。之前表现出最高富集程度的NormUMI也有大约1.1-1.3倍的提高。为了测试这些噪声正则化的结果是否稳健以及是否可重复,我们采用不同的随机种子重复10次生成随机噪声。每次重复之间的蛋白-蛋白相互作用的富集性能稳定。NBR中大部分点的标准偏差均小于0.1%(图7B中的误差条表示99%的置信区间)。
图7C显示了在应用噪声正则化推断高度相关基因对后,方法之间的一致性。不同方法之间存在更多的重叠基因对。在前5,000个基因对中,NormUMI和NBR之间存在2,851(57%)个重叠基因对(图7C下三角),重叠基因对中存在明显的相关性(斯皮尔曼相关系数=0.50,P值=1.77e-181,图7C上三角)。其他方法也显示出一些一致性,特别是在排序靠前的基因之间。与图5C中没有应用噪声正则化情况下生成的结果相比,不同方法之间的一致性更高,如图7C所示。例如,在应用噪声正则化之后,NormUMI和NBR之间共享的基因对超过50%。
示例6.从scRNA-seq数据推断的基因-基因相关性网络
从scRNA-seq中发现的基因-基因相关性可用于重建揭示细胞类型特定模块的更全面网络,。如之前的示例所述,本发明的NBR和噪声正则化的组合在所有方法中产生了最高的蛋白-蛋白相互作用的富集程度。因此,将本发明的NBR和噪声正则化应用于之前示例中描述的scRNA-seq数据而得到的基因-基因相关性用于重建基因-基因相关性网络。
由于管家基因通常反映基本和一般的细胞功能,为了更关注细胞类型特定的相互作用,从网络构建中移除涉及链接的管家基因。从每个集群(集群0到集群9)中选取相关性最高的前1,000个基因来重建网络。图论中的两种算法,度中心性和Pagerank,用于测量每个基因在网络中的重要性。基因在网络中的度中心性值等于此基因具有的链接(相互作用)数量(Bondy等人,图论。2008:施普林格出版股份有限公司。654)。重要的基因往往与更多的基因连接,因此,重要基因应具有相对较高的度中心性值。除了链接数量外,Pagerank被认为是通过测量基因的整体流行程度来评估基因链接的质量(Page等人,PageRank引文排序:为网络带来秩序。1999年,斯坦福大学InfoLab)。
与未通过噪声正则化构建的网络相比,添加噪声正则化构建的网络能更好呈现拓扑结构中的生物功能。此外,度中心性或Pagerank值较高的基因也往往在免疫系统中具有重要功能。例如,LYZ、CD79B和NKG7分别是单核细胞、B细胞和天然杀伤细胞的重要标志基因。这三个基因在应用噪声正则化的网络中具有较高的Pagerank和度中心性值。相比之下,如果不应用噪声正则化,网络中根本不存在CD79B和NKG7,如图8A和8B所示。此外,使用已知的蛋白-蛋白相互作用信息进一步细化网络(Cheng等人,通过ChIP-芯片和敲除数据的最佳整合推断转录相互作用。生物信息学和生物学见解杂志,2009年。3:第129页-第140页;Sayyed-Ahmad等人,通过动力学建模、基因表达微阵列数据和信息论对转录调控网络进行细化和量化。BMC生物信息学杂志,2007年。8(1):第20页)。只有在STRING蛋白-蛋白相互作用数据库中可以找到的基因-基因相关性得到了保留。然后应用EntOptLayout(等人)。EntOptLayout是一种网络算法,它提供了网络中不同模块的有效可视化。
最终网络揭示了几个与基准数据集中细胞类型相匹配的细胞类型相关模块,如图8C所示。所述网络形成了清晰的免疫细胞类型相关模块。例如,右上角代表B细胞和前B细胞模块,CD78A和CD79B的Pagerank较高(节点大小如图8C所示)。同样,右下角代表天然杀伤细胞模块,右中区域代表T细胞以及从细胞毒性CD8 T细胞到天然杀伤细胞的过渡。结果表明,在应用噪声正则化后,可采用scRNA-seq数据来重建更好反应生物学中存在网络的基因-基因共表达网络。
图8A-8C显示了从scRNA-seq数据推断的基因-基因相关性网络。图8A和图8B显示了在应用噪声正则化前后构建的相关性网络中每个基因度中心性和Pagerank的比较。在一个网络中存在但在其他网络中缺失的基因,在不存在的网络中被赋予零值。细胞类型标志基因(例如,NKG7、CD79B或HBB)在应用噪声正则化后具有相对较高的度中心性和Pagerank。图8C显示了具有细化基因-基因相关性的网络构建。通过应用NBR和噪声正则化处理scRNA-seq数据。此外,移除蛋白-蛋白相互作用中不存在的链接。如图8C所示,节点大小与基因的Pagerank成正比。细胞类型标志基因(例如,CD79A、CD79B、NKG7、GNLY、LYZ或STMN1)具有较高的Pagerank,这表明它们在不同细胞类型中的重要性。细胞类型相关的基因还形成细胞类型特定的模块。图9显示了在应用噪声正则化前后,Reactome通路中最相关基因对的富集程度。X轴表示前n个基因对。Y轴表示Reactome数据库相同通路中出现的n个基因对的分数。虚线和实线分别表示噪声正则化前后。
示例7.确定最佳噪声水平
根据每个基因的表达水平,确定在噪声正则化过程中添加的最佳噪声水平。通过应用五种代表性数据预处理方法(例如,NormUMI、NBR、DCA、MAGIC和SAVER),测试每个基因表达水平不同的噪声水平(0.1、1、2、5、10或20个百分位)。结果表明,在所有五种方法中,1个百分位最可能产生最高的蛋白-蛋白相互作用富集程度,如图10所示。随后,在0-1个百分位的基因表达水平范围内生成随机噪声,并将其添加到表达矩阵中,如图11所示。这种噪声正则化过程通过生成更可靠的基因-基因关系,明显降低了排序靠前的基因对中的假性相关性。
如图11所示,噪声正则化过程包括获得经过特定scRNA-seq预处理方法处理的表达矩阵,其中,此表达矩阵包括m个细胞中n个基因的表达。假设V是细胞j中基因i的表达值,通过以下程序生成随机噪声并添加到V:(1)确定基因i在所有细胞中的表达分布;(2)取基因i表达分布的第一个百分位作为基因i的最大噪声水平并表示为M(如果M小于最小值m,则m将用作最大噪声水平);(3)在均匀分布下生成0到M的随机数;(4)将此随机数添加到V以获得噪声正则化表达值;以及(5)针对表达矩阵中每一项重复此程序。
Claims (35)
1.一种改进基因-基因相关性数据处理的方法,包括:
处理基因表达数据进行归一化或插补;
将噪声正则化过程应用于归一化或插补的基因表达数据;以及
应用基因-基因相关性计算过程获取相关基因对。
2.根据权利要求1所述的方法,其中,所述基因表达数据为单细胞基因表达数据。
3.根据权利要求1所述的方法,其中,所述噪声正则化过程包括向表达矩阵中细胞基因的表达值添加随机噪声。
4.根据权利要求3所述的方法,其中,由基因的表达水平确定所述随机噪声。
5.根据权利要求3所述的方法,其中,通过以下方法确定所述随机噪声:
确定基因在表达矩阵所有细胞中的表达分布;
取基因表达水平的约0.1-约20个百分位作为最大噪声水平;
在均匀分布下生成从0到最大噪声水平的随机数;以及
向表达矩阵中细胞基因的表达值添加随机数,获得噪声正则化表达矩阵。
6.根据权利要求3所述的方法,其中,通过以下方法确定所述随机噪声:
确定基因在表达矩阵所有细胞中的表达分布;
取基因表达水平的1个百分位作为最大噪声水平;
在均匀分布下生成从0到最大噪声水平的随机数;以及
向表达矩阵中细胞基因的表达值添加随机数,获得噪声正则化表达矩阵。
7.根据权利要求1所述的方法,其中,在细胞集群内进行所述基因-基因相关性计算过程。
8.根据权利要求1所述的方法,进一步包括富集与相关基因对有关的基因表达数据。
9.根据权利要求1、权利要求3、权利要求4、权利要求5或权利要求6所述的方法,其中,总唯一分子标识符归一化(NormUMI)、正则化负二项回归(NBR)、深度计数自动编码器网络(DCA)、基于马尔可夫亲和力的细胞图插补法(MAGIC)或通过表达恢复进行单细胞分析(SAVER)用于处理基因表达数据进行归一化或插补。
10.根据权利要求1、权利要求3、权利要求4、权利要求5或权利要求6所述的方法,进一步包括根据相关基因对构建基因-基因相关性网络。
11.根据权利要求10所述的方法,其中,所述基因-基因相关性网络具有细胞类型特异性。
12.根据权利要求10所述的方法,进一步包括使用基因-基因相关性网络绘制分子间相互作用、指导实验室设计研究生物事件、发现生物标志物、指导比较网络分析、指导药物设计、通过比较细胞的健康和疾病状态识别基因-基因相互作用的变化、指导药物开发、预测基因的转录调控、提高药物效率或识别耐药因子。
13.一种基因-基因相关性网络,其中,根据相关基因对构建所述网络,其中,使用权利要求1所述的方法获得所述相关基因对。
14.一种用于基因-基因相关性数据处理的计算机实现方法,包括:
检索基因表达数据;
处理所述基因表达数据进行归一化或插补;
将噪声正则化过程应用于归一化或插补的基因表达数据;
应用基因-基因相关性计算过程获取相关基因对,以及
根据相关基因对构建基因-基因相关性网络。
15.根据权利要求14所述的方法,其中,所述基因表达数据为单细胞基因表达数据。
16.根据权利要求14所述的方法,其中,所述噪声正则化过程包括向表达矩阵中细胞基因的表达值添加随机噪声。
17.根据权利要求16所述的方法,其中,由基因的表达水平确定所述随机噪声。
18.根据权利要求16所述的方法,其中,通过以下方法确定所述随机噪声:
确定基因在表达矩阵所有细胞中的表达分布;
取基因表达水平的约0.1-约20个百分位作为最大噪声水平;
在均匀分布下生成从0到最大噪声水平的随机数;以及
向表达矩阵中细胞基因的表达值添加随机数,获得噪声正则化表达矩阵。
19.根据权利要求16所述的方法,其中,通过以下方法确定所述随机噪声:
确定基因在表达矩阵所有细胞中的表达分布;
取基因表达水平的1个百分位作为最大噪声水平;
在均匀分布下生成从0到最大噪声水平的随机数;以及
向表达矩阵中细胞基因的表达值添加随机数,获得噪声正则化表达矩阵。
20.根据权利要求14所述的方法,其中,在细胞集群内进行所述基因-基因相关性计算过程。
21.根据权利要求14所述的方法,进一步包括富集与相关基因对有关的基因表达数据。
22.根据权利要求14、权利要求16、权利要求17、权利要求18或权利要求19所述的方法,其中,总唯一分子标识符归一化(NormUMI)、正则化负二项回归(NBR)、深度计数自动编码器网络(DCA)、基于马尔可夫亲和力的细胞图插补法(MAGIC)或通过表达恢复进行单细胞分析(SAVER)用于处理基因表达数据进行归一化或插补。
23.根据权利要求14所述的方法,其中,所述基因-基因相关性网络具有细胞类型特异性。
24.根据权利要求14、权利要求16、权利要求17、权利要求18或权利要求19所述的方法,进一步包括使用基因-基因相关性网络绘制分子间相互作用、指导实验室设计研究生物事件、发现生物标志物、指导比较网络分析、指导药物设计、通过比较细胞的健康和疾病状态识别基因-基因相互作用的变化、指导药物开发、预测基因的转录调控、提高药物效率或识别耐药因子。
25.一种生成基因-基因网络的系统,包括:
一个可存储基因表达数据的数据库;
一个可存储指令的存储器;
至少一个与存储器连接的处理器,其中,所述至少一个处理器可执行以下指令:
检索所述基因表达数据,
处理所述基因表达数据进行归一化或插补,
将噪声正则化过程应用于归一化或插补的基因表达数据,
应用基因-基因相关性计算过程获取相关基因对;以及
根据相关基因对构建基因-基因相关性网络;以及
一个与处理器连接的用户界面,能够接收基因-基因相关性的查询,并显示相关基因对和构建的基因-基因相关网络的结果。
26.根据权利要求25所述的系统,其中,所述基因表达数据为单细胞基因表达数据。
27.根据权利要求25所述的系统,其中,所述噪声正则化过程包括向表达矩阵中细胞基因的表达值添加随机噪声。
28.根据权利要求27所述的系统,其中,由基因的表达水平确定所述随机噪声。
29.根据权利要求27所述的系统,其中,通过以下方法确定所述随机噪声:
确定基因在表达矩阵所有细胞中的表达分布;
取基因表达水平的约0.1-约20个百分位作为最大噪声水平;
在均匀分布下生成从0到最大噪声水平的随机数;以及
向表达矩阵中细胞基因的表达值添加随机数,获得噪声正则化表达矩阵。
30.根据权利要求27所述的系统,其中,通过以下方法确定所述随机噪声:
确定基因在表达矩阵所有细胞中的表达分布;
取基因表达水平的1个百分位作为最大噪声水平;
在均匀分布下生成从0到最大噪声水平的随机数;以及
向表达矩阵中细胞基因的表达值添加随机数,获得噪声正则化表达矩阵。
31.根据权利要求25所述的系统,其中,在细胞集群内进行所述基因-基因相关性计算过程。
32.根据权利要求25所述的系统,其中,所述至少一个处理器可进一步富集与相关基因对有关的基因表达数据。
33.根据权利要求25、权利要求27、权利要求28、权利要求29或权利要求30所述的系统,其中,总唯一分子标识符归一化(NormUMI)、正则化负二项回归(NBR)、深度计数自动编码器网络(DCA)、基于马尔可夫亲和力的细胞图插补法(MAGIC)或通过表达恢复进行单细胞分析(SAVER)用于处理基因表达数据进行归一化或插补。
34.根据权利要求25所述的系统,其中,所述基因-基因相关性网络具有细胞类型特异性。
35.根据权利要求25、权利要求27、权利要求28、权利要求29或权利要求30所述的系统,其中,所述至少一个处理器可进一步利用基因-基因相关性网络绘制分子间相互作用、指导实验室设计研究生物事件、发现生物标志物、指导比较网络分析、指导药物设计、通过比较细胞的健康和疾病状态识别基因-基因相互作用的变化、指导药物开发、预测基因的转录调控、提高药物效率或识别耐药因子。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962905519P | 2019-09-25 | 2019-09-25 | |
US62/905,519 | 2019-09-25 | ||
PCT/US2020/052787 WO2021062198A1 (en) | 2019-09-25 | 2020-09-25 | Single cell rna-seq data processing |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114424287A true CN114424287A (zh) | 2022-04-29 |
Family
ID=72840639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080066402.5A Pending CN114424287A (zh) | 2019-09-25 | 2020-09-25 | 单细胞rna-seq数据处理 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20210090686A1 (zh) |
EP (1) | EP4035163A1 (zh) |
JP (1) | JP2022548960A (zh) |
KR (1) | KR20220069943A (zh) |
CN (1) | CN114424287A (zh) |
AU (1) | AU2020356582A1 (zh) |
CA (1) | CA3154621A1 (zh) |
WO (1) | WO2021062198A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115394358A (zh) * | 2022-08-31 | 2022-11-25 | 西安理工大学 | 基于深度学习的单细胞测序基因表达数据插补方法和系统 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20240145035A1 (en) * | 2022-11-01 | 2024-05-02 | BioLegend, Inc. | Analyzing per-cell co-expression of cellular constituents |
CN116864012B (zh) * | 2023-06-19 | 2024-02-27 | 杭州联川基因诊断技术有限公司 | 增强scRNA-seq数据基因表达相互作用的方法、设备和介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180251849A1 (en) * | 2017-03-03 | 2018-09-06 | General Electric Company | Method for identifying expression distinguishers in biological samples |
US20200176080A1 (en) * | 2017-07-21 | 2020-06-04 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and Methods for Analyzing Mixed Cell Populations |
-
2020
- 2020-09-25 US US17/032,848 patent/US20210090686A1/en active Pending
- 2020-09-25 CN CN202080066402.5A patent/CN114424287A/zh active Pending
- 2020-09-25 EP EP20790118.2A patent/EP4035163A1/en active Pending
- 2020-09-25 WO PCT/US2020/052787 patent/WO2021062198A1/en unknown
- 2020-09-25 JP JP2022517965A patent/JP2022548960A/ja active Pending
- 2020-09-25 AU AU2020356582A patent/AU2020356582A1/en active Pending
- 2020-09-25 CA CA3154621A patent/CA3154621A1/en active Pending
- 2020-09-25 KR KR1020227009239A patent/KR20220069943A/ko unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115394358A (zh) * | 2022-08-31 | 2022-11-25 | 西安理工大学 | 基于深度学习的单细胞测序基因表达数据插补方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
US20210090686A1 (en) | 2021-03-25 |
KR20220069943A (ko) | 2022-05-27 |
AU2020356582A1 (en) | 2022-04-07 |
JP2022548960A (ja) | 2022-11-22 |
WO2021062198A1 (en) | 2021-04-01 |
EP4035163A1 (en) | 2022-08-03 |
CA3154621A1 (en) | 2021-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Baran et al. | MetaCell: analysis of single-cell RNA-seq data using K-nn graph partitions | |
Wolock et al. | Scrublet: computational identification of cell doublets in single-cell transcriptomic data | |
de Matos Simoes et al. | Bagging statistical network inference from large-scale gene expression data | |
CN114424287A (zh) | 单细胞rna-seq数据处理 | |
Reeb et al. | Assessing dissimilarity measures for sample-based hierarchical clustering of RNA sequencing data using plasmode datasets | |
Heiser et al. | Automated quality control and cell identification of droplet-based single-cell data using dropkick | |
US20230395196A1 (en) | Method and system for quantifying cellular activity from high throughput sequencing data | |
Yu | A new dynamic correlation algorithm reveals novel functional aspects in single cell and bulk RNA-seq data | |
Espinoza et al. | Applications of weighted association networks applied to compositional data in biology | |
WO2019242445A1 (zh) | 病原体操作组的检测方法、装置、计算机设备和存储介质 | |
Burton et al. | CytoPy: an autonomous cytometry analysis framework | |
Pandey et al. | Improved downstream functional analysis of single-cell RNA-sequence data using DGAN | |
KR20110054926A (ko) | 생물학적 네트워크 분석을 이용한 마이크로어레이 실험 자료의 작용기작, 실험/처리 조건 특이적 네트워크 생성 및 실험/처리 조건 관계성 해석을 위한 알고리즘을 포함한 시스템 및 방법과 상기 방법을 수행하기 위한 프로그램을 갖는 기록매체 | |
Rahnavard et al. | Epidemiological associations with genomic variation in SARS-CoV-2 | |
Teisseyre et al. | Multilabel all-relevant feature selection using lower bounds of conditional mutual information | |
Barash et al. | Machine learning applications in forensic DNA profiling: A critical review | |
Yin et al. | From genome-scale data to models of infectious disease: a Bayesian network-based strategy to drive model development | |
Wagner | Monet: An open-source Python package for analyzing and integrating scRNA-Seq data using PCA-based latent spaces | |
Furat et al. | Tumor Type Detection Using Naïve Bayes Algorithm on Gene Expression Cancer RNA-Seq Data Set | |
Li et al. | Orthogonal outlier detection and dimension estimation for improved MDS embedding of biological datasets | |
Alganmi et al. | Evaluation of an optimized germline exomes pipeline using BWA-MEM2 and Dragen-GATK tools | |
Verma et al. | Session introduction-pattern recognition in biomedical data: challenges in putting big data to work | |
Kuijjer et al. | Reconstructing Sample-Specific Networks using LIONESS | |
West et al. | On the impact of data integration and edge enrichment in mining significant signals from biological networks | |
Andersen et al. | A supervised machine learning workflow for the reduction of highly dimensional biological data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |