CN117116356A

CN117116356A - 细胞亚群关联网络图的生成方法、存储介质和服务器

Info

Publication number: CN117116356A
Application number: CN202311385441.3A
Authority: CN
Inventors: 雷文; 陈西茜
Original assignee: Zhizaotonkang Guangzhou Biotechnology Co ltd
Current assignee: Zhizaotonkang Guangzhou Biotechnology Co ltd
Priority date: 2023-10-25
Filing date: 2023-10-25
Publication date: 2023-11-24
Anticipated expiration: 2043-10-25
Also published as: CN117116356B

Abstract

本发明公开了一种细胞亚群关联网络图的生成方法、存储介质和服务器。该方法为：S1、确定用户所查询的细胞亚群的关联细胞亚群；S2、为用户所查询的细胞亚群生成主细胞亚群节点；S3、在所生成的主细胞亚群节点的基础上，根据各个关联细胞亚群与用户所查询的细胞亚群之间的相似度依次为各个关联细胞亚群生成关联细胞亚群节点，从而构建得到用户所查询的细胞亚群的细胞亚群关联网络图。用户可以通过该细胞亚群关联网络图直观地看到其所查询的细胞亚群与其他细胞亚群之间的关联关系，便于用户进行不同细胞亚群之间的关联性分析。

Description

细胞亚群关联网络图的生成方法、存储介质和服务器

技术领域

本发明涉及单细胞数据库技术领域，尤其涉及一种细胞亚群关联网络图的生成方法、存储介质和单细胞数据库服务器。

背景技术

单细胞转录组测序技术极大地方便了人类对疾病发生机制的研究及理解。通过单细胞转录组测序技术，人类在按照传统的细胞类型划分的细胞类别中（即第一级分类），进一步划分出多种不同功能的细胞亚群（即在第一级分类下进行更细化的第二级分类）。这些细胞亚群虽然属于同一细胞类型但功能不同，在疾病的发展中可能扮演着截然不同的角色。划分不同功能的细胞亚群有助于提高靶点挖掘效率以及靶向药物的开发效率，便于医学者开发出更为精准的治疗方案。目前国内外有许多单位各自开发了单细胞数据库，这些单细胞数据库收录了大量的单细胞和细胞亚群数据，为研究人员提供了便利的查询平台。但是，现有的单细胞数据库功能较少，只是简单地提供单细胞、细胞亚群的信息查询功能，不便于用户进行不同细胞亚群之间的关联性分析。

发明内容

本发明所要解决的技术问题是如何便于用户进行不同细胞亚群之间的关联性分析。

为了解决上述技术问题，本发明提供了一种细胞亚群关联网络图的生成方法，其特征是，包括以下步骤：

S1、确定用户所查询的细胞亚群的关联细胞亚群；

S2、为用户所查询的细胞亚群生成主细胞亚群节点；

S3、在所生成的主细胞亚群节点的基础上，根据各个关联细胞亚群与用户所查询的细胞亚群之间的相似度依次为各个关联细胞亚群生成关联细胞亚群节点并连接主细胞亚群节点和关联细胞亚群节点，从而构建得到用户所查询的细胞亚群的细胞亚群关联网络图。

进一步地，该方法还包括以下步骤：

S4、获取用户所查询的细胞亚群及其关联细胞亚群的关键基因；

S5、确定每个关键基因所关联的至少一个细胞亚群节点；

S6、在上述所构建得到的细胞亚群关联网络图中，为每个关键基因生成基因节点，并根据关键基因与细胞亚群之间的关系，连接基因节点与细胞亚群节点的关系构建细胞亚群关联网络图。

进一步地，步骤S3具体地：对每个关联细胞亚群，根据该关联细胞亚群与用户所查询的细胞亚群之间的相似度，为该关联细胞亚群生成对应的关联细胞亚群节点并构建该关联细胞亚群节点与主细胞亚群节点之间的连接线，从而生成用户所查询的细胞亚群的关联网络图，其中，关联细胞亚群与用户所查询的细胞亚群之间的相似度越高，所对应的关联细胞亚群节点的尺寸则越大，所对应的关联细胞亚群节点的连接线则越粗。

进一步地，步骤S4具体地：对用户所查询的细胞亚群和所述各个关联细胞亚群，获取每个细胞亚群中的贡献度高于预设阈值的基因作为该细胞亚群的关键基因，并记录关键基因与细胞亚群的对应关系。

进一步地，所述预设阈值为[5,10]区间内的任一数值。

进一步地，步骤S5具体地：对所获取到的全部关键基因进行去重处理，根据所记录的关键基因与细胞亚群的对应关系，确定每个关键基因所关联的至少一个细胞亚群节点。

进一步地，步骤S6具体地：在用户所查询的细胞亚群的关联网络图中，为经过去重处理后的每个关键基因生成对应的基因节点，并为每个基因节点构建该基因节点与其所关联的细胞亚群节点之间的连线，其中，基因节点的尺寸与该基因节点所连接的细胞亚群节点数量正相关，基因节点所对应的关键基因在细胞亚群节点所对应的细胞亚群中的贡献度越高，该基因节点与该细胞亚群节点之间的连接线则越粗。

进一步地，该方法包括在步骤S1之前执行步骤S0、接收用户所发出的细胞亚群查询指令，该查询指令含有用户所查询的细胞亚群信息。

进一步地，该方法包括步骤S7、把细胞亚群关联网络图显示给用户。

进一步地，步骤S1具体地：根据用户所查询的细胞亚群与其他各个细胞亚群之间的相似度，从其他各个细胞亚群当中筛选出相似度高于预设程度的细胞亚群作为用户所查询的细胞亚群的关联细胞亚群。

进一步地，步骤S1具体地：以用户所查询的细胞亚群所属的关键细胞亚群类别中的细胞亚群作为所述关联细胞亚群。

进一步地，预先按照以下方式获得步骤S1中的关键细胞亚群类别：采用聚类算法对各个细胞亚群进行聚类分析，从而划分为多个关键细胞亚群类别。

进一步地，所述聚类算法为K-means算法或高斯混合模型算法。

进一步地，该方法包括步骤S8、若接收到用户发出的关联细胞亚群节点跳转指令，该跳转指令包含有用户所选中的关联细胞亚群节点信息，则以用户所选中的关联细胞亚群节点所对应的细胞亚群作为用户二次查询的细胞亚群，按照上述步骤S1~S6生成用户二次查询的细胞亚群关联网络图，然后跳转至该细胞亚群关联网络图。

进一步地，步骤S8中，所述跳转的方式具体是：对原先显示的关联网络图进行虚化处理，并在虚化后的关联网络图上面正常显示用户二次查询的细胞亚群关联网络图。

进一步地，该方法包括步骤S9、若监测到用户点击虚化后的关联网络图区域，则返回原先的细胞亚群关联网络图。

进一步地，用户点击细胞亚群关联网络图中的关联细胞亚群节点即可触发所述关联细胞亚群节点跳转指令。

进一步地，该方法包括步骤S10、若接收到用户所发出的基因节点跳转指令，该跳转指令包含有用户所选中的基因节点信息，则获取该基因节点所对应的基因的信息并跳转至基因信息显示页面。

进一步地，关联网络图中，主细胞亚群节点、关联细胞亚群节点、基因节点三者分别用不同颜色进行显示。

进一步地，关联网络图中，主细胞亚群节点、关联细胞亚群节点、基因节点分别标注有对应的节点名称，主细胞亚群和关联细胞亚群的节点名称为细胞亚群名称，基因节点的名称为基因名称。

进一步地，该方法包括在步骤S1之前执行如下步骤：

P1、获取多个单细胞数据集、每个单细胞数据集所对应的细胞亚群分类标签以及各个细胞亚群分类标签所分别对应的功能信息；

P2、把每个单细胞数据集内的各个单细胞按照该单细胞数据集的细胞亚群分类标签分别划归到对应的细胞亚群，并为每个细胞亚群关联其所属分类标签所对应的功能信息。

进一步地，该方法包括在步骤P2之后执行如下步骤：

P3、对每个细胞亚群，计算本细胞亚群与来自除本细胞亚群所属单细胞数据集以外的其他单细胞数据集的各个细胞亚群之间的相似度R。

进一步地，步骤P1具体是从多篇单细胞研究文献中获取单细胞数据集所对应的细胞亚群分类标签以及各个细胞亚群分类标签所分别对应的功能信息，并通过所述多篇单细胞研究文献所提供的单细胞数据集来源信息获取对应的单细胞数据集。

进一步地，该方法包括步骤S11、接收用户所发出的基因查询指令，展示该查询指令所查询的基因在细胞亚群里的分布情况和/或展示该查询指令所查询的基因在各实验设计组别中的差异表达情况。

进一步地，该方法应用于单细胞数据库中。

本发明还提供了一种单细胞数据库，所述单细胞数据库应用如上所述的方法生成细胞亚群关联网络图。

本发明还提供了一种计算机可读存储介质，其上存储有可执行的计算机程序，该计算机程序被执行时实现如上所述的细胞亚群关联网络图的生成方法。

本发明还提供了一种单细胞数据库服务器，包括处理器以及如上所述的计算机可读存储介质，该处理器执行该存储介质中的计算机程序从而实现如上所述的细胞亚群关联网络图的生成方法。

上述细胞亚群关联网络图生成方法通过步骤S1确定用户所查询的细胞亚群的关联细胞亚群（即是与用户所查询的细胞亚群相似度较高的细胞亚群），然后执行步骤S2、S3生成细胞亚群关联网络图，在关联网络图的关联细胞亚群节点根据关联细胞亚群与用户所查询的细胞亚群之间的相似度而生成，用户可以通过该细胞亚群关联网络图直观地看到其所查询的细胞亚群与其他细胞亚群之间的关联关系，便于用户进行不同细胞亚群之间的关联性分析。

附图说明

图1是细胞亚群关联网络图生成方法的流程示意图。

图2是细胞亚群关联网络图示意图一。

图3是细胞亚群关联网络图示意图二。

图4是基因信息显示页面示意图。

图5是基因在细胞亚群里的分布情况示意图。

图6是基因在在疾病组与对照组中的差异表达情况示意图。

具体实施方式

以下结合具体实施方式对本发明创造作进一步详细说明。

第一实施例

本实施例的单细胞数据库服务器包括处理器和计算机可读存储介质，该计算机可读存储介质中存储有可执行的计算机程序，该处理器执行该计算机程序从而实现如图1所示的细胞亚群关联网络图生成方法，下文通过具体实例来说明该方法的执行过程。

图1所示的细胞亚群关联网络图生成方法应用于单细胞数据库，因此，单细胞数据库服务器首先按照下述过程构建一个单细胞数据库：

业内有许多学者会对一些单细胞数据集进行研究，然后根据单细胞数据集中的各个单细胞的功能特性归纳出若干个细胞亚群分类标签，同时给定各个细胞亚群标签所分别对应的功能信息，据此撰写一篇单细胞研究文献，文献中会包含单细胞数据集的来源信息、该单细胞数据集的若干个细胞亚群分类标签以及各个细胞亚群分类标签所分别对应的功能信息。单细胞数据库服务器（下文简称为服务器）从已发表的单细胞研究文献中，下载单细胞测序原始数据，并从文献及其发布的相关信息中获取数据集元数据（metadata）收录到数据库中，从而构建得到单细胞数据库，具体地，服务器获取到单细胞研究文献后，从各篇单细胞研究文献中获取其所研究的单细胞数据集的来源信息，据此从单细胞数据集来源处下载单细胞数据集，同时从各篇单细胞研究文献中获取其所研究的单细胞数据集的细胞亚群分类标签以及各个细胞亚群分类标签所分别对应的功能信息；然后把每个单细胞数据集内的各个单细胞按照该单细胞数据集的细胞亚群分类标签分别划归到对应的细胞亚群，并为每个细胞亚群关联其所属分类标签所对应的功能信息，最后把上述各个单细胞数据中各个细胞亚群及其功能信息收录到一个空白的数据库中，如此就初步构建得到了一个单细胞数据库。

要实现如图1所示的细胞亚群关联网络图生成方法，就需要确定用户所查询的细胞亚群的关联细胞亚群。某一细胞亚群的关联细胞亚群具体是指与该某一细胞亚群具有相似性的其他细胞亚群。本实施例通过关键细胞亚群类别划分的方式来确定各个细胞亚群的关联细胞亚群，具体地，单细胞数据库服务器预先采用K-means算法或高斯混合模型算法（GMM）对单细胞数据库中全部细胞亚群进行聚类分析，从而划分为多个关键细胞亚群类别。单细胞数据库服务器把各个关键细胞亚群类别收录至单细胞数据库的关键细胞亚群类别列表中。技术人员可以预先在单细胞数据库服务器中设定所要划分的关键细胞亚群类别数量k。单细胞数据库服务器自动把所要划分的类别数量k输入到K-means算法中，同时把待划分的各个细胞亚群输入到K-means 算法中，如此K-means算法就可以自动把各个细胞亚群划分为 k个聚类，这些聚类满足以下条件：同一聚类中的细胞亚群相似度较高，而不同聚类中的细胞亚群相似度较小。由于K-means无法将两个均值相同（聚类中心点相同）的类进行聚类，而高斯混合模型（Gaussian Mixture Model, GMM）就是为了解决这一缺点而提出的。因此，其他实施例单细胞数据库服务器可以改为采用高斯混合模型来对各个细胞亚群进行聚类。高斯混合模型是通过选择成分最大化后验概率来完成聚类的，各数据点的后验概率表示属于各类的可能性，而不是判定它完全属于某个类，所以称为软聚类。其在各类尺寸不同、聚类间有相关关系的时候可能比k-means聚类更合适。

每个关键细胞亚群类别中的各个细胞亚群之间相似度较高，故一个关键细胞亚群类别内的各个细胞亚群互为对方的关联细胞亚群。

在得到关键细胞亚群类别后，单细胞数据库服务器就可以执行如图1所示的细胞亚群关联网络图生成方法了。用户想要了解某个细胞亚群时，在其客户端上进入单细胞数据库平台查询该细胞亚群。单细胞数据库服务器执行图1的步骤S0、接收用户所发出的查询指令，根据该查询指令确定用户所查询的细胞亚群的信息，然后执行步骤S1、从单细胞数据库中查询该细胞亚群所属的关键细胞亚群类别，以该细胞亚群所属的关键细胞亚群类别中的其他细胞亚群作为用户所查询的细胞亚群的关联细胞亚群。单细胞数据库服务器接着执行步骤S2、为用户所查询的细胞亚群生成主细胞亚群节点，然后执行步骤S3、对用户所查询的细胞亚群的每个关联细胞亚群，根据该关联细胞亚群与用户所查询的细胞亚群之间的相似度，为该关联细胞亚群生成对应的关联细胞亚群节点并构建该关联细胞亚群节点与主细胞亚群节点之间的连接线，从而生成用户所查询的细胞亚群的关联网络图，其中，关联细胞亚群与用户所查询的细胞亚群之间的相似度越高，所对应的关联细胞亚群节点的尺寸则越大，所对应的关联细胞亚群节点的连接线则越粗。

本实施例中，单细胞数据库服务器提前计算单细胞数据库中每个细胞亚群与来自除该细胞亚群所属单细胞数据集以外的其他单细胞数据集的各个细胞亚群之间的相似度R，并存储在单细胞数据库中。单细胞数据库服务器在生成细胞亚群关联网络图过程中，直接从单细胞数据库中的各个细胞亚群之间的相似度数据当中读取用户所查询的细胞亚群与其关联细胞亚群之间的相似度R。非优选地，其他实施例可以改为不提前计算单细胞数据库中每个细胞亚群与来自除该细胞亚群所属单细胞数据集以外的其他单细胞数据集的各个细胞亚群之间的相似度R，而是在每次生成细胞亚群关联网络图的过程中，实时计算用户所查询的细胞亚群与其关联细胞亚群之间的相似度R，据此生成细胞亚群关联网络图。

现有的单细胞数据库没有展示不同细胞亚群在基因表达上的相关性，不便于用户基于基因表达情况对不同细胞亚群进行关联性分析。为了便于用户基于基因表达情况对不同细胞亚群进行关联性分析，本实施例单细胞数据库服务器还按照图1的步骤S4、S5、S6在细胞亚群关联网络图中增加基因节点，具体地：

服务器先执行步骤S4、对用户所查询的细胞亚群和所述各个关联细胞亚群，获取每个细胞亚群中的贡献度高于5（即预设阈值为5）的基因作为该细胞亚群的关键基因，并记录关键基因与细胞亚群的对应关系。例如细胞亚群a的关键基因是G，就记录细胞亚群a与关键基因G的对应关系，细胞亚群b的关键基因也是G，就记录细胞亚群b与关键基因G的对应关系。本实施例以5作为基因贡献度的预设阈值，其他实施例可以把预设阈值改为[5,10]区间内的任一数值，例如，5、5.5、6、6.5、7、7.5、8、8.5、9、9.5、9.6、9.7、9.8、9.9、10。

由于不同细胞亚群可能具有相同的基因，即不同细胞亚群的关键基因可能相同，故单细胞数据库服务器执行步骤S5、对所获取到的全部关键基因进行去重处理，然后根据所记录的关键基因与细胞亚群的对应关系，确定每个关键基因所关联的至少一个细胞亚群节点，其中，细胞亚群节点指主细胞亚群节点和关联细胞亚群节点当中的任一节点。以关键基因G同时是细胞亚群a、b的关键基因为例，根据所记录的关键基因与细胞亚群的对应关系可以确定该关键基因G分别与细胞亚群a、b具有对应关系，故关键基因G所关联的细胞亚群是细胞亚群a、b，关键基因G所关联的细胞亚群节点是细胞亚群a、b在关联网络图中所对应的细胞亚群节点。单细胞数据库服务器确定各个关键基因所关联的细胞亚群节点之后，执行步骤S6、在用户所查询的细胞亚群的关联网络图中，为经过去重处理后的每个关键基因生成对应的基因节点，并为每个基因节点构建该基因节点与其所关联的细胞亚群节点之间的连线，其中，基因节点的尺寸与该基因节点所连接的细胞亚群节点数量正相关，基因节点所对应的关键基因在细胞亚群节点所对应的细胞亚群中的贡献度越高，该基因节点与该细胞亚群节点之间的连接线则越粗。

至此，单细胞数据库服务器生成了如图2所示的具有主细胞亚群节点、关联细胞亚群节点和基因节点的细胞亚群关联网络图。在该关联网络图中，主细胞亚群节点（即用户所查询的细胞亚群所对应的节点）为红色节点，关联细胞亚群节点为绿色节点，基因节点为黄色节点，以便用户快速区分不同类型的节点。各个节点旁边标注有该节点的名称，具体地，主细胞亚群和关联细胞亚群的节点名称为细胞亚群名称，基因节点的名称为基因名称。单细胞数据库服务器通过单细胞数据库平台把该细胞亚群关联网络图显示给用户（即步骤S7）。用户查看该细胞亚群关联网络图，可以直观地看到其所查询的细胞亚群与其他细胞亚群之间的关联关系，通过关联细胞亚群节点尺寸以及连接线的粗细即可确定该节点所对应的关联细胞亚群与用户所查询的细胞亚群之间的相似程度，便于用户进行不同细胞亚群之间的关联性分析。同时用户还可以直观看到各个细胞亚群中贡献度较高的关键基因是哪些，哪些细胞亚群之间具有相同的关键基因，便于用户分析不同细胞亚群之间的基因关联并基于基因关联来进行细胞亚群之间的关联性分析。

用户查看其所查询的细胞亚群的关联网络图后，对其中的某个关联细胞亚群感兴趣，那么就点击关联网络图中该关联细胞亚群所对应的关联细胞亚群节点，触发关联细胞亚群节点跳转指令。该跳转指令包含有用户所点击（即用户所选中）的关联细胞亚群节点信息。单细胞数据库服务器接收到用户发出关联细胞亚群节点跳转指令，就以用户所点击的关联细胞亚群节点所对应的细胞亚群作为用户二次查询的细胞亚群，同理参照图1中的步骤S1~S6生成用户二次查询的细胞亚群的关联网络图，然后跳转至该关联网络图。跳转过程具体是：对原先显示的关联网络图进行虚化处理，并在虚化后的关联网络图上面正常显示用户二次查询的细胞亚群的关联网络图，如图3所示。如此显示，用户既能够看到其所想要了解的关联细胞亚群的关联网络图，又能够看到原先查询的细胞亚群的关联网络图。用户如果想要返回到原先查询的细胞亚群的关联网络图，就点击虚化后的关联网络图区域。单细胞数据库服务器监测到用户点击虚化后的关联网络图区域，就返回原先的关联网络图，即不再显示二次查询的细胞亚群的关联网络图且取消原先显示的关联网络图的虚化处理。

用户如果想要查看细胞亚群关联网络图中的关键基因信息，就可以点击细胞亚群关联网络图中关键基因所对应的基因节点触发跳转指令，该跳转指令包含有用户所点击（即用户所选中）的基因节点信息。单细胞数据库服务器接收到跳转指令后，就获取该跳转指令中的基因节点所对应的基因的信息，并跳转至如图4所示的基因信息显示页面，显示用户所选中的基因节点所对应的基因的详细信息，供用户查看。

由于不定时就会新的单细胞研究文献发表，本实施例单细胞数据库服务器设置了定期获取任务，定期获取各大网站上的单细胞研究文献，从所获取到的文献中获取其所研究的单细胞数据集的来源信息，据此从单细胞数据集来源处下载单细胞数据集，同时从各篇单细胞研究文献中获取其所研究的单细胞数据集的细胞亚群分类标签以及各个细胞亚群分类标签所分别对应的功能信息；然后把每个单细胞数据集内的各个单细胞按照该单细胞数据集的细胞亚群分类标签分别划归到对应的细胞亚群，并为每个细胞亚群关联其所属分类标签所对应的功能信息，最后把上述各个单细胞数据中各个细胞亚群及其功能信息收录到已构建好的单细胞数据库中，实现单细胞数据库更新。单细胞数据库更新后，需要重新进行关键细胞亚群类别划分，故单细胞数据库服务器重新采用K-means算法或高斯混合模型算法对单细胞数据库中全部细胞亚群进行聚类分析，从而划分为多个关键细胞亚群类别，据此更新单细胞数据库的关键细胞亚群类别列表。

现有的单细胞数据库缺乏基因表达查询功能以及详细的临床表型信息，不便于临床研究人员明确与疾病相关的表达特征。针对该缺陷，本实施例的单细胞数据库提供了基因表达查询功能，该功能的实现过程如下：

用户如果需要了解基因的表达情况，就在单细胞数据库平台查询所要了解的基因。单细胞数据库服务器接收到用户所发出的基因查询指令后，就通过单细胞数据库平台向用户展示其所查询的基因在细胞亚群里的分布情况（见图5），以及向用户展示其所查询的基因在各实验设计组别（包括疾病组和对照组）中的差异表达情况（见图6）。非优选地，其他实施例可以改为只展示基因在细胞亚群里的分布情况或者只展示基因在各实验设计组别中的差异表达情况。这样一来，用户可以了解到基因在不同组织，不同疾病中的表达情况以及基因在疾病组与对照组中的差异表达情况。

第二实施例

本实施例与第一实施例大体上相同，下文仅描述本实施例的区别之处，相同之处请参考上文第一实施例，此处不再赘述。

第一实施例是通过关键细胞亚群类别划分的方式来确定各个细胞亚群的关联细胞亚群，本实施例改为根据各个细胞亚群之间的相似度来确定各个细胞亚群的关联细胞亚群。单细胞数据库服务器具体按照如下方式计算单细胞数据库中两两细胞亚群之间的相似度R：

一个单细胞数据集中所划分的不同细胞亚群之间肯定是不相似的，因此本实施例仅计算来自不同单细胞数据集的两两细胞亚群之间的相似度。单一算法计算出来的相似值可能存在一定的局限性，不一定完全准确，为此，本实施例分别采用四种算法分别计算本细胞亚群与来自除本细胞亚群所属单细胞数据集以外的其他单细胞数据集的各个细胞亚群之间的相似值，然后再根据四个相似值结果综合计算得出最终的相似度R，如此则可避免采用单一算法进行计算的局限性。这四种算法的计算过程见下文，为便于描述，下文把上述本细胞亚群记为目标细胞亚群，本细胞亚群所属单细胞数据集记为目标单细胞数据集。

（1）基于斯皮尔曼相关系数算法的相似值计算

P311、服务器首先采用主成分分析算法对各个细胞亚群的基因表达矩阵进行降维分析，从而得到每个细胞亚群的各个单细胞的各个主成分值以及每个单细胞中的每个基因的各个主成分值。

P312、服务器然后根据每个细胞亚群中各个单细胞的各个主成分值，按照如下公式计算得出每个细胞亚群中的各个主成分平均值：

其中，μ _n是细胞亚群中的第n个主成分平均值，Cell _pin是细胞亚群中第i个单细胞的第n个主成分值，m是细胞亚群中的单细胞个数，是细胞亚群中所有单细胞的第n个主成分值之和。

P313、服务器接着根据每个细胞亚群中各个主成分平均值以及该细胞亚群中每个基因的各个主成分值，按照如下公式计算得出每个细胞亚群中每个基因对细胞亚群的贡献度，据此形成每个细胞亚群的基因贡献度矩阵：

其中，Wx是细胞亚群中第x个基因对细胞亚群的贡献度，μ _i是细胞亚群中的第i个主成分平均值，Gene _pxi是细胞亚群中第x个基因的第i个主成分值，n是主成分的个数。

P314、服务器计算得出每个细胞亚群的基因贡献度矩阵之后，就采用斯皮尔曼相关系数算法，计算目标细胞亚群的基因贡献度矩阵与除目标单细胞数据集以外的其他单细胞数据集的各个细胞亚群的基因贡献度矩阵之间的斯皮尔曼相关系数R_e1。

斯皮尔曼相关系数也成为斯皮尔曼等级相关系数，是一种非参数统计方法，用于衡量两个变量之间的相关性。斯皮尔曼相关系数的计算方法是将两个变量的数据按照大小顺序排列，然后采用等级代替原始数据，最后计算等级之间的相关性。斯皮尔曼相关系数的取值范围为-1到1，其中，-1表示完全负相关，0表示无相关性，1表示完全正相关。斯皮尔曼相关系数计算公式如下：

其中，d_i是第i个数据对的等级差。

（2）基于XGBoost二项分类器的相似值计算

技术人员需要预先按照如下步骤为每个细胞亚群构建其所对应的二项分类器：

P321、技术人员预先采用XGBoost构建二项分类器的初始模型。

P322、二项分类器的初始模型需要经过训练之后才能使用，故服务器在单细胞数据库获得了单细胞数据集以及相应的细胞亚群数据之后，就构建每个细胞亚群所对应二项分类器所需的训练样本。以细胞亚群a为例，服务器自动把该细胞亚群a所属的单细胞数据集A中的一个单细胞的基因表达矩阵作为输入数据，以该单细胞是否属于细胞亚群a作为输出结果，组成一组用于训练细胞亚群a所对应的二项分类器的训练样本，单细胞数据集A的每个单细胞都可以用来构成用于训练细胞亚群a所对应的二项分类器的训练样本，如此则可以得到多组用于训练细胞亚群a所对应的二项分类器的训练样本。

P323、服务器接着为各个细胞亚群配置其所分别对应的二项分类器的初始模型，然后采用各个细胞亚群所分别对应的二项分类器所需的多组训练样本，对各个细胞亚群所分别对应的二项分类器的初始模型进行训练，从而使二项分类器具备根据单细胞的基因表达矩阵预测该单细胞是否属于本二项分类器所对应的细胞亚群的能力。

服务器自动训练好各个细胞亚群所分别对应的二项分类器之后，就采用目标细胞亚群所对应的二项分类器，计算目标细胞亚群与除目标单细胞数据集以外的其他单细胞数据集的每个细胞亚群的相似值R_e2。以细胞亚群a作为目标细胞亚群，计算细胞亚群a与细胞亚群b之间的相似值R_e2ab为例，细胞亚群a来自单细胞数据集A，细胞亚群b来自单细胞数据集B，服务器把细胞亚群b中各个单细胞的基因表达矩阵分别输入细胞亚群a所对应的已训练好的二项分类器，从而使该二项分类器对各个单细胞进行分类预测，得到预测结果，然后计算细胞亚群b中预测结果是属于细胞亚群a的单细胞数量占细胞亚群b的单细胞总数的百分比，以该百分比作为细胞亚群a与细胞亚群b之间的相似值R_e2ab。

（3）基于LASSO逻辑回归模型的相似值计算

技术人员需要预先按照如下步骤为每个细胞亚群构建其所对应的逻辑回归模型：

P331、技术人员预先采用LASSO构建逻辑回归模型。

P332、逻辑回归模型要经过训练之后才能使用，故服务器在单细胞数据库获得了单细胞数据集以及相应的细胞亚群数据之后，就构建每个细胞亚群所对应逻辑回归模型所需的训练样本。以细胞亚群a为例，服务器自动把该细胞亚群a所属的单细胞数据集A中的一个单细胞的基因表达矩阵作为输入数据，以该单细胞是否属于细胞亚群A作为输出结果，组成一组用于训练细胞亚群a所对应的逻辑回归模型的训练样本，单细胞数据集A的每个单细胞都可以用来构成用于训练细胞亚群a所对应的逻辑回归模型的训练样本，如此则可以得到多组用于训练细胞亚群a所对应的逻辑回归模型的训练样本。

P333、服务器接着为各个细胞亚群配置其所分别对应的逻辑回归模型，然后采用各个细胞亚群所分别对应的逻辑回归模型所需的训练样本，对各个细胞亚群所分别对应的逻辑回归模型进行训练，从而使逻辑回归模型具备根据单细胞的基因表达矩阵预测该单细胞是否属于本逻辑回归模型所对应的细胞亚群的能力。

服务器自动训练好各个细胞亚群所分别对应的逻辑回归模型之后，就采用目标细胞亚群所对应的逻辑回归模型，计算目标细胞亚群与目标单细胞数据集以外的其他单细胞数据集的每个细胞亚群的相似值R_e3。以细胞亚群a作为目标细胞亚群，计算细胞亚群a与细胞亚群b之间的相似值R_e3ab为例，细胞亚群a来自单细胞数据集A，细胞亚群b来自单细胞数据集B，服务器把细胞亚群b中各个单细胞的基因表达矩阵分别输入细胞亚群a所对应的已训练好的逻辑回归模型，从而使该逻辑回归模型对各个单细胞进行分类预测，得到预测结果，然后计算细胞亚群b中预测结果是属于细胞亚群a的单细胞数量占细胞亚群b的单细胞总数的百分比，以该百分比作为细胞亚群a与细胞亚群b之间的相似值R_e3ab。

（4）基于典型相关分析算法的相似值计算

典型相关分析（Canonical Correlation analysis）是研究两组变量（每组变量中都可能有多个指标）之间相关关系的一种多元统计方法，它能够揭示出两组变量之间的内在联系。单细胞数据分析软件Seurat中的FindTransferAnchors函数和TransferData函数的分析思路正是典型相关分析。故本实施例采用单细胞数据分析软件Seurat中的FindTransferAnchors函数和TransferData函数来进行相似值计算，具体地，服务器先采用单细胞数据分析软件Seurat中的FindTransferAnchors函数寻找目标细胞亚群所属目标单细胞数据集与其他单细胞数据集之间的锚点，然后根据各个锚点，采用单细胞数据分析软件Seurat中的TransferData函数对除了目标单细胞数据集以外的其他单细胞数据集的每个细胞亚群进行预测，得到该细胞亚群属于目标细胞亚群的概率值，以该概率值作为目标细胞亚群与该细胞亚群之间的相似值R_e4。同样以细胞亚群a作为目标细胞亚群，计算细胞亚群a与细胞亚群b之间的相似值R_e4ab为例，服务器采用单细胞数据分析软件Seurat中的FindTransferAnchors函数寻找细胞亚群a所属单细胞数据集A与细胞亚群b所属单细胞数据集B之间的锚点，然后根据所找到的各个锚点，采用单细胞数据分析软件Seurat中的TransferData函数对单细胞数据集B的细胞亚群b进行预测，得出细胞亚群b属于细胞亚群a的概率值，以该概率值作为细胞亚群a与细胞亚群b之间的相似值R_e4ab。

服务器按照上述四种算法计算得到目标细胞亚群与来自除了目标单细胞数据集以外的其他单细胞数据集的每个细胞亚群之间的相似值R_e1、R_e2、R_e3、R_e4之后，按照预设的线性回归模型计算得出目标细胞亚群与来自除了目标单细胞数据集以外的其他单细胞数据集的每个细胞亚群之间的相似度R，该线性回归模型如下：

其中，是所计算得出的第i个相似值，/>为/>所占的权重（由技术人员预先设定）。

以细胞亚群a作为目标细胞亚群为例，服务器按照上述四种算法计算得到细胞亚群a与细胞亚群b之间的相似值为R_e1ab、R_e2ab、R_e3ab、R_e4ab，细胞亚群a与细胞亚群c之间的相似值为R_e1ac、R_e2ac、R_e3ac、R_e4ac，细胞亚群a与细胞亚群d之间的相似值为R_e1ad、R_e2ad、R_e3ad、R_e4ad，那么细胞亚群a与细胞亚群b、c、d之间的相似度R分别为：

其中，W₁、W₂、W₃、W₄由技术人员设定，可以按照各相似值对相似度的作用设定，例如在一个实施例中可以将W₁、W₂、W₃、W₄分别设定为25%，或在另一个实施例中将W₁、W₂、W₃、W₄分别设定为20%、30%、30%、20%，等等。

本实施例采用上述四种算法计算得出相应的相似值后再据此综合计算得出最终的相似度R，非优选地，其他实施例可以改为只采用上述四种算法当中的至少两种计算得出相应的相似值，然后再把计算得出的相似值代入上述线性回归模型中，计算得出最终的相似度R。

单细胞数据库服务器按照上述方式计算得到来自不同单细胞数据集的两两细胞亚群之间的相似度后，将其存储在单细胞数据库中。

在得到来自不同单细胞数据集的两两细胞亚群之间的相似度数据之后，单细胞数据库服务器就可以执行如图1所示的细胞亚群关联网络图生成方法了。用户想要了解某个细胞亚群时，在其客户端上进入单细胞数据库平台查询该细胞亚群。单细胞数据库服务器执行图1的步骤S0、接收用户所发出的查询指令，根据该查询指令确定用户所查询的细胞亚群的信息，然后执行步骤S1、根据用户所查询的细胞亚群与其他各个细胞亚群之间的相似度R，从其他各个细胞亚群当中筛选出相似度R高于预设程度例如高于70%的细胞亚群作为用户所查询的细胞亚群的关联细胞亚群。非优选地，其他实施例可以把预设程度改为50%至100%区间内的任一数值，例如50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、100%。单细胞数据库服务器接着执行步骤S2、为用户所查询的细胞亚群生成主细胞亚群节点，然后执行步骤S3、对用户所查询的细胞亚群的每个关联细胞亚群，根据该关联细胞亚群与用户所查询的细胞亚群之间的相似度，为该关联细胞亚群生成对应的关联细胞亚群节点并构建该关联细胞亚群节点与主细胞亚群节点之间的连接线，从而生成用户所查询的细胞亚群的关联网络图。单细胞数据库接着执行图1的步骤S4、S5、S6在细胞亚群关联网络图中增加基因节点，然后通过步骤S7把细胞亚群关联网络图显示给用户，详细过程请参考第一实施例，此处不再赘述。

由于单细胞数据库服务器定期更新单细胞数据库，即细胞亚群的数据有所更新，需要针对所更新的细胞亚群进行相似度计算，具体计算过程参照上文，计算得到所更新的每个细胞亚群与来自除该细胞亚群所属单细胞数据集的其他单细胞数据集的各个细胞亚群之间的相似度之后，就把这部分相似度计算结果存储到单细胞数据库中。

本实施例是在生成细胞亚群关联网络图过程中来根据用户所查询的细胞亚群与其他细胞亚群之间的相似度来筛选出用户所查询的细胞亚群的关联细胞亚群。优选地，其他实施例可以改为，单细胞数据库服务器预先根据来自不同单细胞数据集的两两细胞亚群之间的相似度数据，对每个细胞亚群，把与该细胞亚群的相似度高于70%的细胞亚群设为该细胞亚群的关联细胞亚群，并存储在单细胞数据库中。这样一来，单细胞数据库服务器在生成细胞亚群关联网络图过程中，无需筛选用户所查询的细胞亚群的关联细胞亚群，直接从单细胞数据库中读取用户所查询的细胞亚群的关联细胞亚群信息即可，更加方便快速。

本发明创造实施例描述的实施例是为了更加清楚的说明本发明创造实施例的技术方案，并不构成对于本发明创造实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本发明创造实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图中示出的技术方案并不构成对本发明创造实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本发明创造中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。

在本发明创造所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明创造各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明创造的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明创造各个实施例的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，简称ROM)、随机存取存储器(RandomAccess Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

如上所述仅为本发明创造的实施方式，不以此限定专利保护范围。本领域技术人员在本发明创造的基础上作出非实质性的变化或替换，仍落入专利保护范围。

Claims

1.一种细胞亚群关联网络图的生成方法，其特征是，包括以下步骤：

S1、确定用户所查询的细胞亚群的关联细胞亚群；

S2、为用户所查询的细胞亚群生成主细胞亚群节点；

2.如权利要求1所述的细胞亚群关联网络图的生成方法，其特征是，还包括以下步骤：

S5、确定每个关键基因所关联的至少一个细胞亚群节点；

S6、在上述所构建得到的细胞亚群关联网络图中，为每个关键基因生成基因节点，并根据关键基因与细胞亚群之间的关系，连接基因节点与细胞亚群节点。

3.如权利要求1所述的细胞亚群关联网络图的生成方法，其特征是，步骤S3具体地：对每个关联细胞亚群，根据该关联细胞亚群与用户所查询的细胞亚群之间的相似度，为该关联细胞亚群生成对应的关联细胞亚群节点并构建该关联细胞亚群节点与主细胞亚群节点之间的连接线，从而生成用户所查询的细胞亚群的关联网络图，其中，关联细胞亚群与用户所查询的细胞亚群之间的相似度越高，所对应的关联细胞亚群节点的尺寸则越大，所对应的关联细胞亚群节点的连接线则越粗。

4.如权利要求2所述的细胞亚群关联网络图的生成方法，其特征是，步骤S4具体地：对用户所查询的细胞亚群和所述各个关联细胞亚群，获取每个细胞亚群中的贡献度高于预设阈值的基因作为该细胞亚群的关键基因，并记录关键基因与细胞亚群的对应关系。

5.如权利要求4所述的细胞亚群关联网络图的生成方法，其特征是，所述预设阈值为[5,10]区间内的任一数值。

6.如权利要求2所述的细胞亚群关联网络图的生成方法，其特征是，步骤S5具体地：对所获取到的全部关键基因进行去重处理，根据所记录的关键基因与细胞亚群的对应关系，确定每个关键基因所关联的至少一个细胞亚群节点。

7.如权利要求2所述的细胞亚群关联网络图的生成方法，其特征是，步骤S6具体地：在用户所查询的细胞亚群的关联网络图中，为经过去重处理后的每个关键基因生成对应的基因节点，并为每个基因节点构建该基因节点与其所关联的细胞亚群节点之间的连线，其中，基因节点的尺寸与该基因节点所连接的细胞亚群节点数量正相关，基因节点所对应的关键基因在细胞亚群节点所对应的细胞亚群中的贡献度越高，该基因节点与该细胞亚群节点之间的连接线则越粗。

8.如权利要求1所述的细胞亚群关联网络图的生成方法，其特征是，包括在步骤S1之前执行步骤S0、接收用户所发出的细胞亚群查询指令，该查询指令含有用户所查询的细胞亚群信息。

9.如权利要求1或2所述的细胞亚群关联网络图的生成方法，其特征是，包括步骤S7、把细胞亚群关联网络图显示给用户。

10.如权利要求1所述的细胞亚群关联网络图的生成方法，其特征是，步骤S1具体地：根据用户所查询的细胞亚群与其他各个细胞亚群之间的相似度，从其他各个细胞亚群当中筛选出相似度高于预设程度的细胞亚群作为用户所查询的细胞亚群的关联细胞亚群。

11.如权利要求1所述的细胞亚群关联网络图的生成方法，其特征是，步骤S1具体地：以用户所查询的细胞亚群所属的关键细胞亚群类别中的细胞亚群作为所述关联细胞亚群。

12.如权利要求11所述的细胞亚群关联网络图的生成方法，其特征是，预先按照以下方式获得步骤S1中的关键细胞亚群类别：采用聚类算法对各个细胞亚群进行聚类分析，从而划分为多个关键细胞亚群类别。

13.如权利要求12所述的细胞亚群关联网络图的生成方法，其特征是，所述聚类算法为K-means算法或高斯混合模型算法。

14.如权利要求9所述的细胞亚群关联网络图的生成方法，其特征是，包括步骤S8、若接收到用户发出的关联细胞亚群节点跳转指令，该跳转指令包含有用户所选中的关联细胞亚群节点信息，则以用户所选中的关联细胞亚群节点所对应的细胞亚群作为用户二次查询的细胞亚群，按照上述步骤S1~S6生成用户二次查询的细胞亚群关联网络图，然后跳转至该细胞亚群关联网络图。

15.如权利要求14所述的细胞亚群关联网络图的生成方法，其特征是，步骤S8中，所述跳转的方式具体是：对原先显示的关联网络图进行虚化处理，并在虚化后的关联网络图上面正常显示用户二次查询的细胞亚群关联网络图。

16.如权利要求15所述的细胞亚群关联网络图的生成方法，其特征是，包括步骤S9、若监测到用户点击虚化后的关联网络图区域，则返回原先的细胞亚群关联网络图。

17.如权利要求14所述的细胞亚群关联网络图的生成方法，其特征是，用户点击细胞亚群关联网络图中的关联细胞亚群节点即可触发所述关联细胞亚群节点跳转指令。

18.如权利要求14所述的细胞亚群关联网络图的生成方法，其特征是，包括步骤S10、若接收到用户所发出的基因节点跳转指令，该跳转指令包含有用户所选中的基因节点信息，则获取该基因节点所对应的基因的信息并跳转至基因信息显示页面。

19.如权利要求2所述的细胞亚群关联网络图的生成方法，其特征是，关联网络图中，主细胞亚群节点、关联细胞亚群节点、基因节点三者分别用不同颜色进行显示。

20.如权利要求2所述的细胞亚群关联网络图的生成方法，其特征是，关联网络图中，主细胞亚群节点、关联细胞亚群节点、基因节点分别标注有对应的节点名称，主细胞亚群和关联细胞亚群的节点名称为细胞亚群名称，基因节点的名称为基因名称。

21.如权利要求1所述的细胞亚群关联网络图的生成方法，其特征是，包括在步骤S1之前执行如下步骤：

22.如权利要求21所述的细胞亚群关联网络图的生成方法，其特征是，包括在步骤P2之后执行如下步骤：

23.如权利要求22所述的细胞亚群关联网络图的生成方法，其特征是，步骤P1具体是从多篇单细胞研究文献中获取单细胞数据集所对应的细胞亚群分类标签以及各个细胞亚群分类标签所分别对应的功能信息，并通过所述多篇单细胞研究文献所提供的单细胞数据集来源信息获取对应的单细胞数据集。

24.如权利要求1所述的细胞亚群关联网络图的生成方法，其特征是，包括步骤S11、接收用户所发出的基因查询指令，展示该查询指令所查询的基因在细胞亚群里的分布情况和/或展示该查询指令所查询的基因在各实验设计组别中的差异表达情况。

25.如权利要求1至8、10-13、15-24任一所述的细胞亚群关联网络图的生成方法，其特征是，该方法应用于单细胞数据库中。

26.一种单细胞数据库，其特征在于，所述单细胞数据库应用如权利要求1至25任一所述的方法生成细胞亚群关联网络图。

27.一种计算机可读存储介质，其上存储有可执行的计算机程序，其特征是，该计算机程序被执行时实现如权利要求1至25任一所述的细胞亚群关联网络图的生成方法。

28.一种单细胞数据库服务器，其特征是，包括处理器以及如权利要求27所述的计算机可读存储介质，该处理器执行该存储介质中的计算机程序从而实现如权利要求1至25任一所述的细胞亚群关联网络图的生成方法。