CN115881232A

CN115881232A - 一种基于图神经网络和特征融合的scRNA-seq细胞类型注释方法

Info

Publication number: CN115881232A
Application number: CN202211605957.XA
Authority: CN
Inventors: 王树林; 李铮
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2023-03-31

Abstract

本发明涉及生物信息学中的数据挖掘，特别是涉及对scRNA‑seq数据的挖掘。具体涉及一种基于图神经网络和特征融合的scRNA‑seq细胞类型注释方法。其特点是融合基因互作网络的局部特征和scRNA‑seq数据的全局特征进行细胞类型注释，通过GCN提取基因与基因间的局部特征，基于ZINB自动编码器进行基因表达全局特征提取，最后融合两部分特征输入分类器，进而对细胞类型注释。相比于现有的细胞类型注释模型，本发明提出的模型有效的利用了基因互作网络的先验知识，在准确率上有明显提升。

Description

一种基于图神经网络和特征融合的scRNA-seq细胞类型注释方法

技术领域

本发明涉及生物信息学中的数据挖掘，特别是涉及对scRNA-seq数据的挖掘，具体涉及一种基于图神经网络和特征融合的scRNA-seq细胞类型注释方法。

背景技术

单细胞RNA测序(scRNA-seq)是在单个细胞分辨率下获取遗传信息的测序技术，这促使了我们对复杂组织中细胞表型及其组成的异质性的理解，并已成为不同生物学研究领域研究人员的有力工具。尽管scRNA-seq具有前所未有的强大功能，但处理单细胞数据本质上是困难的，尤其是考虑到scRNA-seq数据的高维性、技术噪声、批次效应等问题。对于scRNA-seq数据分析，一项关键任务是表征多细胞生物中的不同细胞类型及其谱系关系。了解细胞类型可以揭示不同组织、发育阶段和生物体的细胞异质性和多样性，并提供对健康和疾病中细胞与基因功能的更深入了解。

在scRNA-seq上进行准确的细胞类型注释对于生物学和医学研究至关重要。现有的细胞类型注释方法大致可分为三种类型：其一，利用标记基因的先验知识进行注释。其思想是通过基因表达的相似性将细胞无监督的聚类到相应的簇中，然后使用细胞类型特异性标记基因进行细胞类型注释。然而大多数细胞类型是由一组基因而不是单个标记基因决定的，如果没有合适的方法整合多个标记基因的表达信息，就难以保证每个簇统一且准确的细胞类型注释，进而极大的影响注释的准确性；其二，应用监督分类技术进行注释。随着越来越多的大规模、注释良好的scRNA-seq数据集可用，基于监督分类方法不断被提出。该方法通过识别基因表达模式，将标签从标记数据集转移到未标记数据集，从而摆脱了需要对先验知识的充分了解。但将数据输入分类器前要对scRNA-seq数据进行高度可变基因(HVG)选择和降维。HVG在不同批次和数据集中是可变的，阻碍了泛化能力；降维技术则可能会丢失高维信息以及基因水平的独立可解释性。其三，使用基于深度学习方法进行注释。深度学习能从数据中学习高级特征，不需要领域知识来选择特征便可自动进行细胞类型注释。尽管该类方法在细胞类型注释上取得了很大进展，但其通常专注于学习数据本身的特征表示，忽略了数据样本之间的结构关系，阻碍了细胞间潜在相似性的研究。

随着生物信息学领域的不断发展，越来越多的工具被开发用于scRNA-seq细胞类型注释，但scRNA-seq数据的高维性和高噪声仍是细胞类型注释的主要障碍。到目前为止，还没有任何工具可以完美、彻底地解决所有问题，对于提高scRNA-seq细胞类型注释工具的准确性和功能性的问题仍需不断深入探讨与研究。

发明内容

本发明针对以上方法存在的问题与scRNA-seq细胞类型注释的重要性，我们提出了一种基于图神经网络和特征融合的scRNA-seq细胞类型注释方法(scGZ)，该方法使用基因互作网络的先验知识提取基因间的局部特征，并将ZINB自动编码器捕获的基因表达的全局特征相结合，得到一个融合局部特征和全局特征的深度学习模型以用于细胞类型注释。所叙述方法的步骤包括：

1.数据收集

针对scRNA-seq数据批次效应的问题，现有的诸多细胞类型注释方法并未给出很好的解决方案，因此，我们收集了来自不同物种、不同组织、不同测序平台的四个scRNA-seq数据集来验证本发明方法的有效性。

具体来说，Zhang’s Tcells数据集是由SmartSeq2(SS2)测序平台生成的HomoSapiens(智人)的结直肠癌T细胞；Zhengsorted数据集是由10x Genomics(10X)测序平台生成的Homo Sapiens的外周血单核细胞；AMB数据集是由SmartSeq(SS)测序平台生成的Musmusculus(小家鼠)的脑部细胞；BaronMouse数据集是由inDrop测序平台生成的Musmusculus的胰腺细胞。

另外，本方法还涉及到基因互作网络的信息提取，所以我们收集了来自STRING数据库中Homo Sapiens和Mus musculus的PPI网络数据。

2.数据预处理

由于目前现有的scRNA-seq手段存在自身技术上的局限性，导致一些基因表达无法被检测到、部分低质量细胞未被剔除等问题，因此在实验分析前需要对数据进行预处理，尽量避免技术噪声对实验结果产生影响。

具体地，我们需要对收集到的四个scRNA-seq数据进行预处理。首先，我们删除各个原始数据中所有细胞表达值均为零的基因。然后，将每个细胞的基因表达值除以其总表达值并乘上比例因子10000，再使用log₂(1+C)对数化，以此来规范化每个细胞的基因表达数据，并通过过滤表达少于200个基因的细胞异常值进行质量控制。最后，将数据集划分为百分之八十的训练集、百分之十的验证集和百分之十的测试集。

3.构建特征融合的神经网络模型

本发明所构建的特征融合的神经网络模型，是由一个两层图卷积模块、ZINB自动编码器和特征融合模块组成。

(1)图卷积模块

考虑到需要结合基因互作网络和基因表达的先验知识，以及基因之间的相互作用关系可以自发地以图的形式呈现，我们引入图卷积网络来提取基因间的局部特征。在图卷积层中，每个节点代表一个基因，两个节点之间的边代表对应的两个基因的关系，并通过聚合相邻节点的信息来更新每个节点。具体来说，每一层特征定义为：

其中H^(l)为上层输出，W^(l)为权重矩阵，输入层H⁽⁰⁾＝X，X为scRNA-seq数据(基因表达)。

为了使GCN得到有效的训练，我们将基因互作网络矩阵A修改为：

其中I为单位矩阵，

D为

的对角矩阵。

由于我们的目标是节点级别而不是图级别上进行细胞类型注释，而图卷积层输出特征图的维度为N*F(N为基因数，F为特征数)，所以我们需要将得到的特征图进行展平，使GCN的输出是一个大小为32的向量。

(2)ZINB自动编码器

由于ZINB分布可以有效的对高度稀疏和过度分散的基因表达数据进行建模，同时为了模拟scRNA-seq数据的分布并提取基因表达的全局特征，我们采用ZINB自动编码器。基于自动编码器由编码器和解码器两部分组成，这里在编码器部分将scRNA-seq数据X映射到编码表示Z，解码器映射H到输入的重建X，其中利用潜在特征Z提取基因表达的全局特征，具体描述为：

其中W_(l)为权重参数，b_(l)为偏置向量。

不同于传统的自动编码器，ZINB自动编码器将三个独立的全连接层与解码层最后一层连接起来，用于估计ZINB的三个参数：缺失率π，离散度θ，均值μ。具体描述为：

π＝sigmoid(ω_πD)

θ＝exp(ω_θD)

μ＝diag(S_i)×exp(ω_μD)

其中D是解码层最后一层的输入，S_i是总细胞数与中位数S的比率。

(3)特征融合模块

GCN模块可以根据基因互作网络的先验知识提取基因间的局部特征，但是提取特征的质量取决于基因互作网络的完整性。ZINB自编码器可以表示基因表达的全局特征，却忽略了基因间的内部交互。因此，我们采用特征融合的方法，结合GCN提取的局部特征和ZINB自动编码器提取的全局特征进行细胞注释，从而克服了GCN和ZINB自动编码器彼此的局限性。具体描述为：

F＝αH+(1-α)Z

其中α为权重参数，H为GCN展平后特征表示，Z为ZINB模块特征表示。

4.模型训练与优化

首先我们使用训练集对模型进行训练，具体地，我们将预处理后的scRNA-seq数据和基因互作网络输入到GCN中提取基因间的局部特征，同时把scRNA-seq数据输入到ZINB自动编码器中提取基因表达的全局特征。然后，将得到的局部特征与全局特征进行融合，并以该特征输入到softmax分类器，输出为细胞所属类型的概率。最后，利用模型整体损失衡量预测细胞类型与真实细胞类型的差异，通过Adam优化器对模型参数进行调整，并对更新后的模型计算其在验证集上的损失，重复该过程直到损失停止下降。模型中参数正则化损失为

其中w_i为模型中涉及的每个参数。

scRNA-seq数据重构损失为：

l_zinb＝∑-log(ZINB(X|π,μ,θ))

细胞类型注释损失为：

l_pre＝-log(p_i)

其中p_i是细胞属于类型i的输出概率。

模型整体损失为：

l＝λ₁l_reg+λ₂l_zinb+λ₃l_pre

其中λ1，λ2和λ3是各部分损失权重，l_reg为参数正则化损失，l_zinb为数据重构损失，l_pre为预测损失。

5.细胞类型注释

我们将测试集和其对应的基因互作网络输入到训练好的模型中，通过分类器得到每个细胞对应的细胞类型概率数组，取其中概率值最大的类型对细胞进行注释，并使用准确率和F1分数为评价指标，对本发明实施的scRNA-seq细胞类型注释方法的效果进行评估。

本发明的有益效果如下：通过图卷积神经网络获得了基因间的局部特征，并结合ZINB自动编码器捕获基因表达的全局特征，进而得到了一个将两者特征融合的基因特征表示，在一定程度上克服了彼此表征的局限性，提高了细胞类型注释的准确率，本发明相较于现有的细胞类型注释模型，能够更准确的注释差异性较小的细胞类型。

附图说明

为了更清楚地说明本说明书实施例中的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1：基于图神经网络和特征融合的scRNA-seq细胞类型注释方法流程示意图

图2：本发明实施例所述方法(scGZ)与其他注释方法ACC对比图

图3：本发明实施例所述方法(scGZ)与其他注释方法F1-Score对比图

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实验，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

1.数据集概述

我们在来自不同测序平台的四个真实scRNA-seq数据集上评估了本发明实施例所述方法scGZ。本文使用的所有scRNA-seq数据集都是公开可用的，详细信息如表1所示：

表1本实验所使用的scRNA-seq数据集

另外，本发明实施所述方法还涉及到基因互作网络数据的使用，我们在STRING数据库中收集了scRNA-seq数据对应的物种基因互作网络数据，详细信息如表2所示：

表2本实验所使用的基因互作网络数据集(PPI网络)

2.实验环境及参数设置

硬件环境主要是一台PC主机。其中，PC主机的CPU为Intel(R)Core(TM)i9-10900CPU@2.80GHz 2.81GHz，内存为32GB RAM，64位操作系统。软件以Windows 11为平台，在Pycharm环境下用Python语言实现，python版本为3.6.5，PyTorch版本为1.4.0。

本方法中图卷积模块输入特征维度为细胞数，经过两层图卷积并展平后输出特征维度为32。ZINB自动编码器中两层的编码器特征维度为256和64，解码器结构则与编码器相反，特征维度为64和256，其中潜在空间特征维度为32。特征融合部分将GCN输出的32维特征与ZINB自动编码器潜在空间的32维特征相融合，从而得到融合特征维度为64。模型训练中minibatch设置为256，epoch设置为100，学习率设置为1e-4。

3.评价指标

对于细胞类型注释方法的评估，通常采用的性能度量指标为准确率(ACC)和F1分数(F1-Score)，两者的度量范围都是0-1之间，取值越靠近1说明注释效果越逼近真实结果。

准确率：用于衡量预测结果与真实结果之间的一致程度，计算公式如下：

F1分数：用来衡量模型的精确度，计算公式如下：

其中TP、FP、FN、TN分别是真阳性、假阳性、假阴性、真阴性的缩写。

4.实验结果分析

为了评估本发明方法scGZ在细胞类型注释上的有效性，这里将本发明所述方法与ACTINN(Ma,Feiyang；Pellegrini,Matteo.ACTINN:automated identification ofcelltypes in single cell RNA sequencing.)、SingleR(Dvir Aran,Agnieszka P Looney,Leqian Liu,and et al.Reference-based analysis of lung single-cell sequencingreveals a transitional profibrotic macrophage.)、CHETAH(de Kanter,Jurrian K,and et al.CHETAH:a selective,hierarchical cell type identification method forsingle-cell RNA sequencing.)共三种细胞类型注释方法在收集的四个scRNA-seq数据集中进行比较，使用ACC和F1-Score两个评价指标对细胞类型注释的效果进行评估。

通过实验对比分析，本发明方法scGZ在收集的所有scRNA-seq数据下所获得的注释准确率均由于其他方法，具体来说，在AMB和BaronMouse数据上多数方法已达到较好的注释准确性，而本发明方法在此基础上仍有2％左右的提升，对于异质性(部分细胞差异性较小导致难以区分)较强的数据Zhang’s Tcells和Zhengsorted，其他方法在注释准确率上都存在下降的趋势且彼此间差异性较大，本发明方法结合了基因互作网络的先验知识，将不同维度的基因特征进行融合，使得在异质性较强的数据上准确率也保持在较高水平，详细信息如表3所示：

表3scRNA-seq细胞类型注释准确率(ACC)比较

考虑到当数据集不平衡时，ACC并不能很好的评估模型，这里使用F1分数将本发明方法与其他三种方法进行比较，在Zhang’s Tcells、Zhengsorted和AMB上本发明方法均优于其他方法，在BaronMouse数据上F1分数也与ACTINN相当，总的来说，本发明方法在F1分数都显示出最佳或接近最佳的效果，详细信息如表4所示：

表4scRNA-seq细胞类型注释F1分数(F1-Score)比较

为了克服测序技术限制导致的scRNA-seq数据高维稀疏等问题，本发明设计的基于图神经网络和特征融合的细胞类型注释方法scGZ，通过基因互作网络的先验知识捕获基因间的局部特征，弥补了技术噪声、数据缺失产生的误差，使用ZINB自动编码器很好的模拟scRNA-seq数据分布，可以更加充分的提取基因表达的全局特征，将两个维度的基因特征进行融合，互补了彼此间的不足，通过具体实验对比分析表明，本发明实施例方法可以有效的提高细胞类型注释精度，为单细胞数据分析流程中的差异基因表达等下游分析提供更准确的数据。

Claims

1.一种基于图神经网络和特征融合的scRNA-seq细胞类型注释方法，其特征在于实施步骤：

(1)收集数据，主要包含来自不同物种、不同组织、不同测序平台的scRNA-seq数据集，以及相应物种所对应的基因互作网络数据集；

(2)数据预处理，对scRNA-seq数据进行对数归一化、质量控制，并划分出训练集、验证集、测试集；

(3)构建特征融合的神经网络模型，将图卷积神经网络和ZINB自动编码器构成特征融合的神经网络模型；

(4)模型训练与优化，以基因互作网络、scRNA-seq数据作为模型输入，将图卷积神经网络和ZINB自动编码器两部分的融合特征作为分类器输入，通过分类器得到细胞所属类型概率，使用Adam优化器更新模型初始化参数，并根据模型在验证集上的性能对参数进行调整；

(5)细胞类型注释，将需要注释的scRNA-seq数据以及对应的基因互作网络输入到训练好的模型中，得到各个细胞对应类型的概率数组，取概率值最大的类型对细胞进行注释。

2.根据权利要求1所属的基于图神经网络和特征融合的scRNA-seq细胞类型注释方法，其特征在于数据收集阶段：

(1)scRNA-seq数据涉及来自不同物种、不同组织、不同测序平台的四个数据集，分别是Zhang’s Tcells、Zhengsorted、AMB、BaronMouse；

(2)基因互作网络数据来自STRING数据库中的两个物种，分别是Homo Sapiens、Musmusculus。

3.根据权利要求1所属的基于图神经网络和特征融合的scRNA-seq细胞类型注释方法，其特征在于对scRNA-seq数据预处理阶段：

(1)去除原始数据集所有细胞中表达值为零的基因；

(2)使用10000的比例因子对每个细胞的基因表达值进行对数归一化；

(3)过滤表达少于200个基因的细胞异常值进行质量控制；

(4)将scRNA-seq数据集划分为百分之八十的训练集、百分之十的验证集和百分之十的测试集。

4.根据权利要求1所属的基于图神经网络和特征融合的scRNA-seq细胞类型注释方法，其特征在于构建特征融合的神经网络模型阶段：

(1)以基因互作网络和基因表达数据为输入，构建一个两层图卷积模块，用于提取基因与基因之间的局部特征，具体来说，每一层特征定义为：

其中H^(l)为上层输出，W^(l)为权重矩阵，输入层H⁽⁰⁾＝X，X为scRNA-seq数据(基因表达)；

为了使GCN得到有效训练，我们将基因互作网络矩阵A修改为：

其中I为单位矩阵，

D为

的对角矩阵；

(2)以基因表达数据为输入，构建ZINB自动编码器模块，编码器将scRNA-seq数据X映射到编码表示Z，解码器映射H到输入的重建

这里利用潜在特征Z提取基因表达的全局特征，具体描述为：

其中W_(l)为权重参数，b_(l)为偏置向量；

(3)将GCN提取的局部特征展平，并与ZINB自动编码器提取全局特征进行融合，以获得更丰富的特征表示，具体描述为：

F＝αH+(1-α)Z

5.根据权利要求1所属的基于图神经网络和特征融合的scRNA-seq细胞类型注释方法，其征在于模型训练与优化，首先用训练集来训练模型，将融合后的特征作为输入，使用softmax激活函数计算得到细胞所属类型概率，然后利用验证集测试模型，并根据模型在验证集上性能对参数进行调整，模型总体损失为：

l＝λ₁l_reg+λ₂l_zinb+λ₃l_pre

其中λ₁，λ₂和λ₃是各部分损失权重，l_reg为参数正则化损失，l_zinb为数据重构损失，l_pre为预测损失。

6.根据权利要求1所属的基于图神经网络和特征融合的scRNA-seq细胞类型注释方法，其特征在于对细胞类型进行准确的注释，我们将测试集和其对应的基因互作网络输入到训练好的模型中，通过最后的分类器得到每个细胞对应的细胞类型概率数组，取概率值最大的类型对细胞进行注释，并使用准确率和F1分数对注释效果进行评估。