CN116452910B

CN116452910B - 基于图神经网络的scRNA-seq数据特征表示和细胞类型识别方法

Info

Publication number: CN116452910B
Application number: CN202310314356.1A
Authority: CN
Inventors: 李培峦; 李沛谕; 张雨祺; 卢跃静; 韩李琴; 任婧
Original assignee: Henan University of Science and Technology
Current assignee: Henan University of Science and Technology
Priority date: 2023-03-28
Filing date: 2023-03-28
Publication date: 2023-11-28
Anticipated expiration: 2043-03-28
Also published as: CN116452910A

Abstract

本发明涉及基于图神经网络的scRNA‑seq数据特征表示和细胞类型识别方法，属于生物医学技术领域，所述方法以scRNA‑seq数据和基因相互作用网络作为模型输入，自动识别细胞类型；所述模型包括图表示模块、浅层特征提取模块、伪图像生成模块和分类模块。本发明通过整合基因表达数据和基因间的关联信息，并对特征向量进行伪图像的转化，使得其具有强大的抗噪能力，表现出优秀的识别性能。不仅如此，本算法还可以学习到其中重要基因相互作用关系。

Description

基于图神经网络的scRNA-seq数据特征表示和细胞类型识别方法

技术领域

本发明属于生物医学技术领域，具体涉及基于图神经网络的scRNA-seq数据特征表示和细胞类型识别方法。

背景技术

在过去的十年里，单细胞技术的快速发展为生物学研究的革命性变化提供了新的思路，这从单细胞水平的角度加强了我们对细胞分化、发育和调控的理解。单细胞RNA测序(scRNA-seq)是最常见的单细胞技术之一，它可以在一次实验中探测数千个细胞的转录状态。它能够在单个细胞中测量转录组范围内的基因表达，这对于识别细胞类型簇、根据轨迹拓扑、基因调控分析推断细胞群的排列至关重要(Yuan and Bar-Joseph，2019)。在近年来的生物医学领域，注释良好的生物测序数据集越来越多，生物技术(BT)和信息技术的融合涉及到许多必要的研究和应用任务。从scRNA-seq测量中识别细胞类型是一个基本和关键的问题。

在最近的生物医学研究中，机器学习(ML)方法在预测和分类方面显示出了巨大的能力。这些算法和训练有素的模型已被广泛应用，用于细胞类型的自动识别。在scRNA-seq数据中识别细胞类型的众多方法中，最常见的是无监督聚类，即基于先前识别的标记基因的人工注释。然而，这些方法也有其自身的缺点。一方面，集群的数量很少被提前知道。另一方面，这些方法通常是基于先前识别的标记基因进行人工注释。但是，这些方法的性能并不令人满意，在集成多个数据集进行后续分析时，样本/细胞分类的灵敏度较低，这种对样本/细胞的注释也相对主观，可能会在下游分析中引入分类偏差。

有监督的方法可以实现单元类型识别过程的自动化，避免了无监督方法的缺陷。有了丰富的注释和公开的scRNA-seq数据集，许多计算方法已经发展出来。越来越多的研究表明，有监督的深度学习技术在生物信息学研究中表现得非常好。scID使用线性判别分析模型来识别scRNA-seq数据集中的相关细胞类型。ACTINN使用一个具有三个隐藏层的神经网络来提取scRNA-seq数据的特征并识别细胞类型。Vec2图像将向量转换为伪图像，然后通过传统的神经网络(CNN)对生成的伪图像进行识别。netv2是一种新型的卷积神经网络，具有优异的训练速度和图像识别精度。此外，图表示学习对单细胞数据也有很好的效果。scGNN通过图神经网络积累细胞-细胞关系，用于基因插值。

发明内容

针对上述问题，本发明的目的一在于提供基于图神经网络的scRNA-seq数据特征表示和细胞类型识别方法，目的二在于提供所述方法在自动细胞分类中的应用。本发明方法在自动细胞分类中表现出良好的性能，同时具有强大的抗噪能力，在噪声较大时仍能保持较高的分类准确性。

为了实现上述目的，本发明采用的具体方案为：

第一方面，基于图神经网络的scRNA-seq数据特征表示和细胞类型识别方法，所述方法以scRNA-seq数据和基因相互作用网络作为模型输入，自动识别细胞类型；所述模型包括图表示模块、浅层特征提取模块、伪图像生成模块和分类模块；

所述图表示模块，使用改进的GraphSAGE卷积层，通过学习一个对邻居节点进行聚合表示的函数来产生中心节点的特征表示，以学习基因间的关联信息；；

所述浅层特征提取模块将图表示模块得到的特征表示进行降维提取；

所述伪图像生成模块，是将经浅层特征提取模块得到的特征转换为伪图像；

所述分类模块，是利用改进后的效率netv2的网络体系结构，将转换后的伪图像输入到网络中进行训练，输出分类结果。

作为对上述方法的进一步优化，所述图表示模块中，选择的聚合方式为平均聚合。计算公式如下：

其中表示节点v的第k层特征向量，N(v)表示节点v相邻节点，W表示可训练参数，σ(·)是非线性激活函数。

更进一步地，为每个边缘设计可训练的参数，公式表示为：其中/>是通过叠加特征向量/>构建的矩阵。每一列表示集合中的一个特征向量，S_v是图卷积层的边缘重要性得分向量，d是一个s型激活函数。

作为对上述方法的进一步优化，所述浅层特征提取模块中，每个基因在图形卷积运算后作为8D特征嵌入。每个基因的聚集基因特征首先通过具有12个和4个隐藏节点的两个线性层，然后压平并馈送到具有2048个和1024个隐藏节点在两个隐藏层的简单MLP中，同时我们在每个完全连接层之后使用校正的线性单位函数和归一化层。作为对上述方法的进一步优化，所述伪图像转换模块，在浅层特征提取模块中的特征提取之后，每个单元具有1024个特征，形成n行和1024列的矩阵，并转换矩阵；使用非线性降维方法将特征点从向量数据空间转换到潜在数据空间，并在二维潜在空间中获得视觉特征点；

接下来，通过凸包算法执行旋转，以水平或垂直地框定伪图像，并且将笛卡尔坐标转换为像素；

最后，将每个样本的表达式值映射到这些像素位置，作为详细的像素值；像素帧大小默认设置为400×400，每个像素的默认值设置为1；每个样本xi通过以下方式进行标准化：

其中，M为整个数据中全局最大值；如果多个特征在像素帧中获得相同位置，则将平均表达式值将作为像素的最终值。

第二方面，上述方法在自动细胞分类中的应用。

本发明相比于现有技术，具有以下有益效果：本发明提出了PIGNN，一个基于鲁棒的基于图神经网络的模型，用于特征表示和scRNA-seq数据的细胞类型识别。PIGNN能够在scRNA-seq中集成地执行特征工程、特征选择和分类器学习。从技术上讲，PIGNN的工作流程包括四个步骤：(i)图表示模块。我们使用改进的GraphSAGE卷积层来整合信息，并从基因相互作用网络和scRNA-seq中获得特征。(ii)浅层特征提取模块。这就降低了聚集基因特征的维度。(iii)伪图像生成模块。利用非线性降维方法将特征向量转换为伪图像。(iv)分类模块。我们使用改进的高效netv2网络架构对伪图像进行分类并输出分类结果。

与9种流行的方法相比，PIGNN取得了更突出的性能，并说明了其在细胞类型识别任务中的有效性。数值模拟结果表明，PIGNN在不同的噪声强度下具有良好的鲁棒性。在一个利用多个人胰岛scRNA-seq数据集对2型糖尿病(T2D)的案例研究中，PIGNN首先在T2D分类模型上表现出效率表现，然后训练PIGNN模型有效地对与T2D相关的特征基因进行排序，揭示了潜在的T2D细胞发病机制。此外，我们还进行了功能富集分析和细胞间通信，发现特征基因与T2D密切相关。同时，从群体共享和个体特异性的角度来看，特征基因也与T2D相关，可以更好地揭示细胞的异质性。

PIGNN有以下优点。首先，通过将从图中学习到的特征转换为伪图像，减少了原始数据的噪声对分类结果的影响，增强了鲁棒性。其次，我们利用图神经网络对每个基因的相邻基因的表达进行整合，获得更多有用的信息，在不同的分类任务上优于其他方法。同时，还可以学习基因相互作用网络中基因边缘的权值，得到用于下游分析的FGs。基于FGs的功能富集、细胞间通信和细胞异质性分析可以更好地揭示疾病的发展机制。

总之，PIGNN确实提供了一个全面和广泛适用的模型，用于分析不同的高通量scRNA-seq，结合基因-基因关联，更精确地自动识别细胞类型，并在数据集中获得重要的FGs。

附图说明

图1是本发明所述PIGNN流程图；

图2是Baron胰腺数据中四个批次中各类细胞数量统计；

图3是PIGNN提取三个平台胰腺数据特征的t-sne可视化；

图4是PIGNN对Segertolpe数据识别结果；

图5是PIGNN对Murao数据识别结果；

具体实施方式

下面将结合本发明实施例，对本发明的技术方案进行清楚、完整地描述。

一、材料和方法

1、基因表达数据

我们收集了6个公开可用的数据集来对我们的方法进行基准测试(见表1)。结直肠癌中的T细胞是通过SmartSeq2协议(GSE108989)生成的，该协议包含23459个基因和8350个标记的细胞。收集了两个人体组织数据集，包括一个胰腺数据集和一个肺数据集。胰腺数据集包括17499个基因和8569个细胞，并使用inDROP方法捕获，该方法是一种用于确定胰腺细胞转录组的单细胞RNA测序方法。肺数据集使用10x协议对肺癌组织进行了测序，并在主要细胞类型的水平上对细胞进行了注释。我们还收集了两个外周血单个核细胞(PBMCs)数据集，这些数据集都是通过10x协议生成的。此外，还收集了小鼠视觉皮层数据集(Allen小鼠大脑(AMB))，可以直接从Zenodo(https://doi.org/10.5281/zenodo.3357167)下载。

表1基因表达数据概述。

2、基因相互作用网络

PIGNN能够学习基因的相互作用网络，并利用基因间的相互作用关系，进一步提高细胞包埋和细胞识别性能。其中最著名的基因相互作用网络之一是字符串数据库。我们从字符串数据库(https://cn.string-db.org/)中收集并整合了两个PPI，包括一个人类基因网络和一个小鼠基因网络，它们具有来自多个资源的蛋白质关联信息(见表2)。

表2基因相互作用网络概述。

3、数据预处理

在基因表达数据预处理中，我们首先过滤出注释不清晰或注释为异常值的细胞。然后，通过将每个细胞的表达数据除以其总表达值并乘以比例因子106，将其归一化。我们假设基因表达读取计数遵循负二项分布，然后对每个缩放表达式值用log2转换，将离散程度很高的基因表达读取计数数据变得较为集中，当数据为零时，添加伪计数以避免无效的对数转换。

在对基因相互作用网络进行预处理时，我们认为基因相互作用网络是一个有向图,但是只有两个相互作用基因的对都出现在这个数据集中才会被保留，为了捕捉一对基因中的两个调控方向及其相应的强度，我们将它的每一条边视为一对边缘(即从a到B的边缘和从B到a的边缘)。我们还将每个基因的伪自相互作用对添加到基因相互作用网络中，以便在保留关于基因本身的表达信息的同时聚合来自其相邻基因的表达信息。

4、方法

PIGNN以数据和基因相互作用网络作为模型输入，自动识别细胞类型。它包括四个主要模块(图1A-D)：(i)图形表示模块；(ii)浅层特征提取模块；(iii)伪图像生成模块；以及(iv)分类模块。

(i)一个图形表示模块。在图中，每个节点代表一个基因，每条边代表基因之间的关系。我们在图表示模块中使用了一个改进的GraphSAGE卷积层，其核心思想是通过训练一个聚合邻居节点的模型来生成中心节点的特征表示。本文所选择的聚合方法为平均聚合，计算公式为：

在基因网络中，经常有一些特殊基因，其重要性与其它基因不同，因此，我们为每个边缘设计了一个可训练的参数，公式可以表示为：

其中是通过叠加特征向量/>构建的矩阵。每一列表示集合中的一个特征向量，S_v是图卷积层的边缘重要性得分向量，δ是一个s型激活函数，以确保不同边缘的边缘重要性得分被缩放并相互具有可比性。

(ii)浅层特征提取模块。每个基因在图形卷积运算后作为8D特征嵌入。每个基因的聚集基因特征首先通过具有12个和4个隐藏节点的两个线性层，然后压平并馈送到具有2048个和1024个隐藏节点在两个隐藏层的简单MLP中，同时我们在每个完全连接层之后使用校正的线性单位函数和归一化层。该模块减少了聚集基因特征的维度。最后，每个细胞具有1024个维度特征，并根据从训练中获得的基因交互网络中每个边缘的权重，选择重要的基因进行后续分析。

(iii)伪图像转换模块。在(ii)中的特征提取之后，每个单元具有1024个特征，形成n行和1024列的矩阵，并转换矩阵。我们使用非线性降维方法(t-分布随机邻居嵌入[t-SNE])将特征点从向量数据空间转换到潜在数据空间，并在二维潜在空间中获得视觉特征点。该算法保持了二维平面上特征的高维拓扑，并根据高维空间中特征之间的相似性保持了特征之间的局部关系。

接下来，通过凸包算法执行旋转，以水平或垂直地框定伪图像，并且将笛卡尔坐标转换为像素。最后，将每个样本的表达式值映射到这些像素位置，作为详细的像素值。像素帧大小默认设置为400×400，每个像素的默认值设置为1。每个样本xi通过以下方式进行标准化

其中，M为整个数据中全局最大值。如果多个特征在像素帧中获得相同位置，则将它们的平均表达式值将作为该像素的最终值。显然，这种归一化将保留所有特征的关联拓扑。

(iv)分类模块。高效网在图像识别领域具有突出的性能。与之前的CNN模型相比，高效网使用了Swish激活函数，而不是线性整流函数(ReLU)。效率网通过均匀缩放策略的深度，宽度和分辨率，实现了更有效的结果。效率netv2是对效率net的一种改进，因为它在训练速度和参数效率方面都优于之前的模型。在本文中，分类模块利用改进后的效率netv2的网络体系结构，将转换后的伪图像输入到该网络中进行训练。具体的参数设置见表3。

表3EfficientNetV2-s的具体参数

5、模型训练

交叉熵损失用于训练，可定义为：

式中，和为样本总数和单元类型；为二进制值，当第n个单元属于第m个单元类型时，为1，否则为0；为第n个样本属于第m个单元类型的预测概率。我们使用SGD(随机梯度下降)优化器来训练最终的分类模型，并将初始学习率设置为0.05，权值衰减设置为10-4。由于scRNA-seq数据集通常是不平衡的，我们对训练数据集中的少数样本进行数据增强，以减少数据不平衡的影响。

对罕见细胞类型的数据增强：为了减少罕见细胞类型不平衡的影响，我们在对错误图像进行分类时，只需对序列数据集中小于q个细胞的类别重复p次。然后q和p可以由用户根据细胞平衡来设置。

6、结果

首先，我们在均值-f1和准确性方面使用了5倍交叉验证，通过与9种基线方法的比较，显示了表4和表5中PIGNN的性能。

所述基线方法概述：本文采用9种基线方法进行比较，是以往研究中经典或更好的方法。其中，scGraph和ACTINN是最有效的方法。scGraph使用了一个图的神经元网络。ACTINN使用一个有三个隐藏层的神经网络来识别细胞类型，这三个感知器层分别有100、50和20个节点。线性描述网络和一个多层感知器来提取和分类基因交互分析(LDA)、最近平均分类器(NMC)、随机森林(RF)和支持向量机(SVM)的特征是一般的分类器。单细胞识别(scID)使用线性判别分析的框架来识别scRNA序列数据的细胞类型。层次分类(CHETAH)辅助的细胞类型表征从参考scRNA seq数据构建层次分类树，并使用分类树推断未分配类型和中间类型。SingleR基于与每个细胞的基因表达相关的转录组数据来推断细胞类型。

如表4所示，PIGNN在所有6个数据集中始终优于所有9种基线方法。在9种基线方法中，ACTINN和scGraph是最稳健和准确的。PIGNN优于ACTINN和scGraph，在平均F1方面平均提高了约10％和3％。值得注意的是，PIGNN的性能改进在复杂的细胞识别数据集中更为突出，如Zhang的T细胞数据集，其中包含20个T细胞亚型。在这个数据集中，尽管PIGNN需要更多的时间进行训练，但PIGNN优于scGraph和ACTINN，在平均F1方面分别提高了约3％和16％。从准确性的角度来看，PIGNN也优于其他9种方法。PIGNN的准确率平均比ACTINN和scGraph高出15％和2％。性能指标计算公式如下：

在Baron的胰腺数据上，我们应用t-SNE算法对中间提取的特征进行降维和可视化。此图如图2所示。可以看出，细胞按类别清晰地聚集在一起，说明PIGNN提取的细胞特征具有重要意义，可以为后期处理提供可靠的细胞特征。

表4六个数据集在不同方法上的均值-F1结果。

表5六个数据集在不同方法上的平均准确率结果。

7、鲁棒性研究

PIGNN在不同的噪声强度下表现良好首先，为了研究PIGNN的鲁棒性，我们对不同噪声强度下的Zhang的数据进行了实验；添加不同噪声的具体方法为：我们在Zhang的数据集上加入了标准差分别为0.01、0.05、0.05、0.2、0.5的高斯噪声，并对其进行了重新测试，以验证PIGNN的鲁棒性。结果见表6。显然，随着噪声强度的增加，平均f1的分类性能和精度略有下降。性能最低的算法约为0.820，仅比没有添加噪声的算法低约4％，且其精度仍高于上面所检验的算法。实验结果表明，PIGNN具有较强的鲁棒性。这些实验表明，PIGNN是一种稳健而有效的自动识别细胞类型的方法。

表6添加不同噪声对结果的影响

8、PIGNN可以准确地识别不同平台的细胞类型

批处理效应是scRNA-seq数据的细胞类型识别的一个大问题，特别是当scRNA-seq检测数据来自训练数据的不同来源或平台时。为了证明PIGNN能够准确识别来自不同测序平台的细胞类型，我们使用来自inDrop协议的Baron胰腺数据进行模型训练，此外，利用Smart-seq2协议产生的Segertolpe胰腺数据和CEL-seq2协议产生的Muraro胰腺数据集进行验证。PIGNN能够准确地识别塞格托尔普的胰腺数据集(图4)和Muraro胰腺数据集(图5)中的大多数细胞的细胞类型。例如，PIGNN对Segertolpe胰腺数据集分别识别了99.7％alpha细胞,100％beta细胞,100％ductal细胞,100％delta细胞和100％gamma细胞。对于Muraro胰腺数据集，PIGNN还分别恢复了99.9％alpha细胞,99.6％beta细胞,98.4％ductal细胞和98.4％delta细胞。

此外，我们执行t-sne可视化的高级特性提取从这两个数据集，如图2所示，我们可以看到细胞聚集的细胞类型而不是测序批，这表明PIGNN能够克服在不同实验条件下的变化和准确预测实验组的细胞类型。总的来说，scGraph能够适当地解决由不同的scRNA-seq协议和不同的实验室所带来的技术噪声。

需要说明的是，以上所述的实施方案应理解为说明性的，而非限制本发明的保护范围，本发明的保护范围以权利要求书为准。对于本领域技术人员而言，在不背离本发明实质和范围的前提下，对本发明作出的一些非本质的改进和调整仍属于本发明的保护范围。

Claims

1.基于图神经网络的scRNA-seq数据特征表示和细胞类型识别方法，其特征在于：所述方法以scRNA-seq数据和基因相互作用网络作为模型输入，自动识别细胞类型；所述模型包括图表示模块、浅层特征提取模块、伪图像生成模块和分类模块；

所述图表示模块，使用改进的GraphSAGE卷积层，通过学习一个对邻居节点进行聚合表示的函数来产生中心节点的特征表示，以学习基因间的关联信息；

所述分类模块，是利用改进后的效率netv2的网络体系结构，将转换后的伪图像输入到网络中进行训练，输出分类结果；

所述伪图像生成模块，在浅层特征提取模块中的特征提取之后，每个单元具有1024个特征，形成n行和1024列的矩阵，并转换矩阵；使用非线性降维方法将特征点从向量数据空间转换到潜在数据空间，并在二维潜在空间中获得视觉特征点；

2.根据权利要求1所述的方法，其特征在于：所述图表示模块中，选择的聚合方式为平均聚合，计算公式如下：

3.根据权利要求2所述的方法，其特征在于：为每个边缘设计可训练的参数，公式表示为：

其中是通过叠加特征向量/>构建的矩阵，每一列表示集合中的一个特征向量，S_v是图卷积层的边缘重要性得分向量，δ是一个s型激活函数。

4.根据权利要求1所述的方法，其特征在于：所述浅层特征提取模块中，每个基因在图形卷积运算后作为8D特征嵌入，每个基因的聚集基因特征首先通过具有12个和4个隐藏节点的两个线性层，然后压平并馈送到具有2048个和1024个隐藏节点在两个隐藏层的简单MLP中，同时我们在每个完全连接层之后使用校正的线性单位函数和归一化层。

5.根据权利要求1-4任意一种所述的方法在自动细胞分类中的应用。