CN117854600B

CN117854600B - 基于多组学数据的细胞识别方法、装置、设备及存储介质

Info

Publication number: CN117854600B
Application number: CN202410259151.2A
Authority: CN
Inventors: 荣志炜
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2024-03-07
Filing date: 2024-03-07
Publication date: 2024-05-21
Anticipated expiration: 2044-03-07
Also published as: CN117854600A

Abstract

本发明涉及细胞组学技术领域，公开了一种基于多组学数据的细胞识别方法、装置、设备及存储介质，该方法包括：获取若干个单细胞样本对应的样本多组学数据；在样本多组学数据中存在目标细胞状态注释时，基于目标细胞状态注释，通过预设单细胞镶嵌集成模型确定单细胞样本中各单细胞的细胞类型注释；基于细胞类型注释确定单细胞样本对应的细胞类型识别结果。本发明可以在单细胞样本对应的样本多组学数据存在目标细胞状态注释时，通过预设单细胞镶嵌集成模型确定各单细胞的细胞类型注释，以获得细胞类型识别结果，解决了现有技术中通过单细胞转录组学数据整合方式对单细胞多组学数据进行整合以进行细胞识别时，细胞识别的准确度不高的技术问题。

Description

基于多组学数据的细胞识别方法、装置、设备及存储介质

技术领域

本发明涉及细胞组学技术领域，尤其涉及一种基于多组学数据的细胞识别方法、装置、设备及存储介质。

背景技术

随着高通量生物技术的快速发展，获取稳定可靠、数据量大的基因组、转录组和蛋白组等单细胞多组学数据已经变得越来越可行。每个组学中都包含了细胞的部分信息，整合多个组学可以为单细胞的研究提供一种系统的方法，使得可以进一步了解多种细胞类型。

现有的方案中通常采用单细胞转录组学数据整合方式对单细胞多组学数据进行整合，以对单细胞类型进行识别。但由于不同批次的实验环境、测序技术以及数据处理方式存在差异，通过该方案对单细胞多组学数据进行整合容易受到批次效应的影响，进而导致细胞识别的准确度不高。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供了一种基于多组学数据的细胞识别方法、装置、设备及存储介质，旨在解决现有技术中通过单细胞转录组学数据整合方式对单细胞多组学数据进行整合以进行细胞识别时，细胞识别的准确度不高的技术问题。

为实现上述目的，本发明提供了一种基于多组学数据的细胞识别方法，所述方法包括：

获取若干个单细胞样本对应的样本多组学数据，所述样本多组学数据包括：基因组学数据、转录组学数据、蛋白质组学数据；

判断所述样本多组学数据中是否存在目标细胞状态注释；

若存在，则基于所述目标细胞状态注释，通过预设单细胞镶嵌集成模型确定所述单细胞样本中各单细胞的细胞类型注释；

基于所述细胞类型注释确定所述单细胞样本对应的细胞类型识别结果。

可选地，所述基于所述目标细胞状态注释，通过预设单细胞镶嵌集成模型确定所述单细胞样本中各单细胞的细胞类型注释的步骤，包括：

通过预设单细胞镶嵌集成模型将样本组学组合对应的目标样本多组学数据映射至目标嵌入空间，获得映射后的目标样本多组学数据；

通过预设单细胞镶嵌集成模型基于所述目标细胞状态注释对所述映射后的目标样本多组学数据进行聚类处理，以确定所述单细胞样本中各单细胞的细胞类型注释。

可选地，所述通过预设单细胞镶嵌集成模型将样本组学组合对应的目标样本多组学数据映射至目标嵌入空间，获得映射后的目标样本多组学数据的步骤，包括：

通过预设单细胞镶嵌集成模型中的组学编码器将样本组学组合对应的目标样本多组学数据映射至目标嵌入空间，获得所述目标样本多组学数据对应的多组学融合特征；

通过预设单细胞镶嵌集成模型中的图形编码器将先验知识引导图转换为图形引导特征；

基于所述多组学融合特征和所述图形引导特征进行组学重建处理，获得映射后的目标样本多组学数据。

可选地，所述基于所述多组学融合特征和所述图形引导特征进行组学重建处理，获得映射后的目标样本多组学数据的步骤之前，还包括：

通过预设单细胞镶嵌集成模型中的鉴别器对所述多组学融合特征进行分布协调处理，获得批次分布信息；

所述基于所述多组学融合特征和所述图形引导特征进行组学重建处理，获得映射后的目标样本多组学数据的步骤，包括：

基于所述批次分布信息、所述多组学融合特征和所述图形引导特征进行组学重建处理，获得映射后的目标样本多组学数据。

可选地，所述通过预设单细胞镶嵌集成模型将样本组学组合对应的目标样本多组学数据映射至目标嵌入空间，获得映射后的目标样本多组学数据的步骤之前，还包括：

确定所述单细胞样本中的样本组学对应的组学组合方式；

根据所述组学组合方式对所述样本组学进行组学组合处理，获得样本组学组合。

可选地，所述通过预设单细胞镶嵌集成模型基于所述目标细胞状态注释对所述映射后的目标样本多组学数据进行聚类处理，以确定所述单细胞样本中各单细胞的细胞类型注释的步骤，包括：

通过预设单细胞镶嵌集成模型基于所述目标细胞状态注释对所述映射后的目标样本多组学数据进行聚类处理，获得聚类结果；

获取参考单细胞样本的细胞类别标签；

基于所述细胞类别标签和所述聚类结果对所述单细胞样本中各单细胞进行注释，以确定所述各单细胞的细胞类型注释。

可选地，所述通过预设单细胞镶嵌集成模型基于所述目标细胞状态注释对所述映射后的目标样本多组学数据进行聚类处理，以确定所述单细胞样本中各单细胞的细胞类型注释的步骤之后，还包括：

通过预设单细胞镶嵌集成模型对所述映射后的目标样本多组学数据进行重构，得到重构后的目标样本多组学数据；

确定所述映射后的目标样本多组学数据和所述重构后的目标样本多组学数据之间的均方误差；

根据所述均方误差构建重构损失函数，并基于所述重构损失函数对所述预设单细胞镶嵌集成模型进行更新。

此外，为实现上述目的，本发明还提出一种基于多组学数据的细胞识别装置，所述装置包括：

数据获取模块，用于获取若干个单细胞样本对应的样本多组学数据，所述样本多组学数据包括：基因组学数据、转录组学数据、蛋白质组学数据；

数据判断模块，用于判断所述样本多组学数据中是否存在目标细胞状态注释；

注释确定模块，用于若存在，则基于所述目标细胞状态注释，通过预设单细胞镶嵌集成模型确定所述单细胞样本中各单细胞的细胞类型注释；

识别结果确定模块，用于基于所述细胞类型注释确定所述单细胞样本对应的细胞类型识别结果。

此外，为实现上述目的，本发明还提出一种基于多组学数据的细胞识别设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于多组学数据的细胞识别程序，所述基于多组学数据的细胞识别程序配置为实现如上文所述的基于多组学数据的细胞识别方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有基于多组学数据的细胞识别程序，所述基于多组学数据的细胞识别程序被处理器执行时实现如上文所述的基于多组学数据的细胞识别方法的步骤。

在本发明中，公开了获取若干个单细胞样本对应的样本多组学数据，样本多组学数据包括：基因组学数据、转录组学数据、蛋白质组学数据；判断样本多组学数据中是否存在目标细胞状态注释；若存在，则基于目标细胞状态注释，通过预设单细胞镶嵌集成模型确定单细胞样本中各单细胞的细胞类型注释；基于细胞类型注释确定单细胞样本对应的细胞类型识别结果；相较于现有技术由于不同批次的实验环境、测序技术以及数据处理方式存在差异，通过单细胞转录组学数据整合方式对单细胞多组学数据进行整合容易受到批次效应的影响，进而导致细胞识别的准确度不高，由于本发明可以在单细胞样本对应的样本多组学数据存在目标细胞状态注释时，通过预设单细胞镶嵌集成模型确定各单细胞的细胞类型注释，以确定单细胞样本对应的细胞类型识别结果，从而解决了现有技术中通过单细胞转录组学数据整合方式对单细胞多组学数据进行整合以进行细胞识别时，细胞识别的准确度不高的技术问题。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的基于多组学数据的细胞识别设备的结构示意图；

图2为本发明基于多组学数据的细胞识别方法第一实施例的流程示意图；

图3为本发明基于多组学数据的细胞识别方法第一实施例中样本多组学数据的构建示意图；

图4为本发明基于多组学数据的细胞识别方法第二实施例的流程示意图；

图5为本发明基于多组学数据的细胞识别方法第二实施例多组学数据的映射示意图；

图6为本发明基于多组学数据的细胞识别方法中预设单细胞镶嵌集成模型的结构示意图；

图7为本发明基于多组学数据的细胞识别方法第三实施例的流程示意图；

图8为本发明基于多组学数据的细胞识别装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的基于多组学数据的细胞识别设备结构示意图。

如图1所示，该基于多组学数据的细胞识别设备可以包括：处理器1001，例如中央处理器（Central Processing Unit，CPU），通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏（Display）、输入单元比如键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如无线保真（Wireless-Fidelity，Wi-Fi）接口）。存储器1005可以是高速的随机存取存储器（RandomAccess Memory，RAM），也可以是稳定的非易失性存储器（Non-Volatile Memory，NVM），例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对基于多组学数据的细胞识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于多组学数据的细胞识别程序。

在图1所示的基于多组学数据的细胞识别设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明基于多组学数据的细胞识别设备中的处理器1001、存储器1005可以设置在基于多组学数据的细胞识别设备中，所述基于多组学数据的细胞识别设备通过处理器1001调用存储器1005中存储的基于多组学数据的细胞识别程序，并执行本发明实施例提供的基于多组学数据的细胞识别方法。

本发明实施例提供了一种基于多组学数据的细胞识别方法，参照图2，图2为本发明基于多组学数据的细胞识别方法第一实施例的流程示意图。

本实施例中，所述基于多组学数据的细胞识别方法包括以下步骤：

步骤S10：获取若干个单细胞样本对应的样本多组学数据，所述样本多组学数据包括：基因组学数据、转录组学数据、蛋白质组学数据。

需要说明的是，本实施例的方法的执行主体可以为根据单细胞不同模态的组学数据对单细胞的细胞类型进行识别的基于多组学数据的细胞识别设备，或者是其他能够实现相同或相似功能的、包含了该基于多组学数据的细胞识别设备的基于多组学数据的细胞识别系统。此处以基于多组学数据的细胞识别系统（以下简称系统）对本实施例和下述各实施例提供的基于多组学数据的细胞识别方法进行具体说明。

应当理解的是，上述单细胞样本可以为由不同类别的多个单细胞组成的样本，本实施例对单细胞样本中各单细胞的细胞类别不做限制。相应的，样本多组学数据可以为单细胞样本中各单细胞不同模态对应的组学数据，其具体可以包括：基因组学数据、转录组学数据、蛋白质组学数据。

在具体实现中，参照图3，图3为本发明基于多组学数据的细胞识别方法第一实施例中样本多组学数据的构建示意图。如图3所示，由于实际应用中通常会存在个体差异、实验环境差异和组织差异，故容易受到批次效应的影响，因此本实施例可以根据个体差异、实验环境差异和组织差异分批次获取单细胞样本中各单细胞对应的基因组学数据、转录组学数据和蛋白质组学数据，并将这些组学数据整合，获得上述样本多组学数据。

步骤S20：判断所述样本多组学数据中是否存在目标细胞状态注释。

应当说明的是，上述目标细胞状态注释可以为用于表征细胞类型的注释信息。实际应用中，单细胞样本对应的样本多组学数据中可能存在部分注释良好的细胞状态，后续系统可以利用这些注释良好的细胞状态进行细胞类型的识别。因此，系统在对单细胞样本中各单细胞进行类型识别前可以判断单细胞样本对应的样本多组学数据中是否存在注释良好的细胞状态，即是否存在上述目标细胞状态注释。

步骤S30：若存在，则基于所述目标细胞状态注释，通过预设单细胞镶嵌集成模型确定所述单细胞样本中各单细胞的细胞类型注释。

需要说明的是，上述预设单细胞镶嵌集成模型（mmAAVI）可以为一种用于所有可能的镶嵌集成场景的深度生成模型，本实施例中的预设单细胞镶嵌集成模型具体可以为基于变分自编码器（Variational Autoencoders，VAE）构建的用于整合不同模态的组学数据的生成模型。本实施例通过mmAAVI可以将细胞状态建模为通过变分自编码器学习到的低维细胞嵌入，通过使用全新的自动缩放自注意机制，mmAAVI可以将组学的任意组合映射到公共嵌入空间。

可以理解的是，上述细胞类型注释可以为用于表征细胞类型的注释。

在本实施例中，当样本多组学数据中存在高质量的细胞注释时，预设单细胞镶嵌集成模型可以利用这些数据进行半监督学习，从而执行细胞标记任务，此时可以对单细胞样本中各单细胞进行细胞状态分配，即对各单细胞执行细胞标记任务，从而可以获得各单细胞的细胞类型注释。

步骤S40：基于所述细胞类型注释确定所述单细胞样本对应的细胞类型识别结果。

应当理解的是，上述细胞类型识别结果可以为单细胞样本中所有单细胞的细胞类型的识别结果。

在本实施例中，在通过预设单细胞镶嵌集成模型对单细胞样本中各单细胞进行细胞状态分配后，预设单细胞镶嵌集成模型还可以对各单细胞进行细胞类型标记，此时可以获得各单细胞的细胞类型注释，从而后续系统可以直接根据各单细胞的细胞类型注释确定各单细胞对应的细胞类型，进而获得单细胞样本对应的细胞类型识别结果。

本实施例公开了获取若干个单细胞样本对应的样本多组学数据，样本多组学数据包括：基因组学数据、转录组学数据、蛋白质组学数据；判断样本多组学数据中是否存在目标细胞状态注释；若存在，则基于目标细胞状态注释，通过预设单细胞镶嵌集成模型确定单细胞样本中各单细胞的细胞类型注释；基于细胞类型注释确定单细胞样本对应的细胞类型识别结果；相较于现有技术由于不同批次的实验环境、测序技术以及数据处理方式存在差异，通过单细胞转录组学数据整合方式对单细胞多组学数据进行整合容易受到批次效应的影响，进而导致细胞识别的准确度不高，由于本实施例可以在单细胞样本对应的样本多组学数据存在目标细胞状态注释时，通过预设单细胞镶嵌集成模型确定各单细胞的细胞类型注释，以确定单细胞样本对应的细胞类型识别结果，从而解决了现有技术中通过单细胞转录组学数据整合方式对单细胞多组学数据进行整合以进行细胞识别时，细胞识别的准确度不高的技术问题。

参考图4，图4为本发明基于多组学数据的细胞识别方法第二实施例的流程示意图。

基于上述第一实施例，为了消除批次效应的影响，进而准确确定单细胞样本中各单细胞的细胞类型注释，本实施例中，所述步骤S30包括：

步骤S301：通过预设单细胞镶嵌集成模型将样本组学组合对应的目标样本多组学数据映射至目标嵌入空间，获得映射后的目标样本多组学数据。

需要说明的是，上述样本组学组合可以为单细胞样本中各单细胞的所有组学数据的任意组合。相应的，上述目标样本多组学数据可以为单细胞样本中各单细胞的所有组学数据中任意组合的多组学数据。

应当说明的是，上述目标嵌入空间可以为不同模态的组学数据公共的嵌入空间。相应的，上述映射后的目标样本多组学数据即映射至公共嵌入空间的目标样本多组学数据。

实际应用中，参照图5，图5为本发明基于多组学数据的细胞识别方法第二实施例多组学数据的映射示意图。如图5所示，本实施例中可以将目标样本多组学数据输入至预设单细胞镶嵌集成模型（mmAAVI）中，mmAAVI可以通过内部的编码器将单细胞的多组学数据转换为嵌入，即可以将样本组学组合对应的目标样本多组学数据映射至目标嵌入空间，从而可以实现低维空间映射，进而能够消除批次效应的影响，实现单个细胞的（多）组学数据的整合，获得映射后的目标样本多组学数据。

进一步地，所述步骤S301之前，所述方法还包括：确定所述单细胞样本中的样本组学对应的组学组合方式；根据所述组学组合方式对所述样本组学进行组学组合处理，获得样本组学组合。

应当理解的是，上述组学组合方式可以为对细胞的组学数据进行组合的方式，如：随机组合方式、顺序组合方式等，本实施例对此不加以限制。其中，本实施例可以采用随机组合方式对单细胞样本中的样本组学进行组学组合处理，即可以对单细胞样本中单细胞的组学数据进行随机组合，获得样本组学组合，以便于后续将该样本组学组合对应的多组学数据映射至公共嵌入空间对单细胞进行细胞类型标记。

步骤S302：通过预设单细胞镶嵌集成模型基于所述目标细胞状态注释对所述映射后的目标样本多组学数据进行聚类处理，以确定所述单细胞样本中各单细胞的细胞类型注释。

在本实施例中，预设单细胞镶嵌集成模型可以基于目标细胞状态注释对映射后的目标样本多组学数据进行聚类处理，从而可以将映射后的目标样本多组学数据中属于同一细胞类别的单细胞的多组学数据聚合在一起，同时，预设单细胞镶嵌集成模型还可以进行注释转移，即可以根据该目标细胞状态注释对单细胞样本中各单细胞的多组学数据进行注释，从而可以确定各单细胞的细胞类型注释。

进一步地，所述步骤S301包括：

步骤S301a：通过预设单细胞镶嵌集成模型中的组学编码器将样本组学组合对应的目标样本多组学数据映射至目标嵌入空间，获得所述目标样本多组学数据对应的多组学融合特征。

需要说明的是，上述组学编码器可以为用于对多组学数据进行编码，以提取多组学数据中的特征的编码器。同时，组学编码器可以对目标样本多组学数据进行编码处理，将目标样本多组学数据映射至组学数据公共的嵌入空间，并提取多组学数据中的特征。

应当理解的是，上述多组学融合特征可以为对目标样本多组学数据进行融合后获得的特征。本实施例中可以通过预设单细胞镶嵌集成模型中的注意力融合模块对公共嵌入空间的目标样本多组学数据的特征进行融合，获得一个全局特征，即多组学融合特征。

步骤S301b：通过预设单细胞镶嵌集成模型中的图形编码器将先验知识引导图转换为图形引导特征。

可以理解的是，上述图形编码器可以为对先验知识引导图进行编码，以提取先验知识引导图中的特征的编码器，其中，先验知识引导图可以为具有先验模态知识的引导图。相应的，上述图像引导特征即为先验知识引导图中的特征信息。

步骤S301c：基于所述多组学融合特征和所述图形引导特征进行组学重建处理，获得映射后的目标样本多组学数据。

在实际应用中，系统在获得先验知识引导图对应的图形引导特征，以及融合了单细胞的多组学数据对应的特征的多组学融合特征后，可以对图形引导特征和多组学融合特征进行融合处理，此时可以获得融合后的目标样本多组学数据，然后可以将该融合后的目标样本多组学数据映射至公共嵌入空间，从而获得上述映射后的目标样本多组学数据。

进一步地，所述步骤S301c之前，所述方法还包括：通过预设单细胞镶嵌集成模型中的鉴别器对所述多组学融合特征进行分布协调处理，获得批次分布信息；相应的，所述步骤S301c包括：基于所述批次分布信息、所述多组学融合特征和所述图形引导特征进行组学重建处理，获得映射后的目标样本多组学数据。

需要说明的是，上述分布协调处理可以为调整多组学融合特征在不同批次的多组学数据中的分布的处理。本实施例中系统为了调整多组学融合特征在不同批次的多组学数据中的分布，可以将多组学融合特征输入至预设单细胞镶嵌集成模型中的鉴别器，以实现对多组学融合特征的分布协调处理，然后再基于批次分布信息、多组学融合特征和图形引导特征进行组学重建处理，获得映射后的目标样本多组学数据，此时能够使得模型输出的重构特征的真实性更强，进而获得更真实的映射后的目标样本多组学数据。

在具体实现中，参照图6，图6为本发明基于多组学数据的细胞识别方法中预设单细胞镶嵌集成模型的结构示意图。如图6所示，系统将样本组学组合对应的目标样本多组学数据（如图6中的）输入至预设单细胞镶嵌集成模型中的组学编码器中，此时组学编码器可以将目标样本多组学数据映射至多组学数据的公共嵌入空间，并提取目标样本多组学数据对应的数据特征，然后可以通过预设单细胞镶嵌集成模型中的注意力融合模块对目标样本多组学数据对应的数据特征进行特征融合处理，获得目标样本多组学数据对应的多组学融合特征/>，其中，多组学融合特征/>是离散变量/>和连续变量/>的低维表示。此外，为了调整多组学融合特征在不同批次的多组学数据中的分布，可以将多组学融合特征/>输入至预设单细胞镶嵌集成模型中的鉴别器，获得批次分布信息/>。同时，系统还可以通过图形编码器将先验知识引导图（如图6中的/>）转换为图形引导特征V，最后，可以将多组学融合特征/>、批次分布信息/>和图形引导特征V同时输入至混合编码器对这些特征进行融合，并将融合后的特征映射至公共嵌入空间，获得上述映射后的目标样本多组学数据。此外，系统后续还可以根据混合编码器输出的特征对多组学数据进行重建。

本实施例通过预设单细胞镶嵌集成模型将样本组学组合对应的目标样本多组学数据映射至目标嵌入空间，获得映射后的目标样本多组学数据，并基于目标细胞状态注释对映射后的目标样本多组学数据进行聚类处理，以确定单细胞样本中各单细胞的细胞类型注释，从而可以消除批次效应的影响，进而准确确定单细胞样本中各单细胞的细胞类型注释。

参考图7，图7为本发明基于多组学数据的细胞识别方法第三实施例的流程示意图。

基于上述各实施例，为了准确确定单细胞样本中各单细胞的细胞类型注释，进而提高细胞识别精度，本实施例中，所述步骤S302包括：

步骤S3021：通过预设单细胞镶嵌集成模型基于所述目标细胞状态注释对所述映射后的目标样本多组学数据进行聚类处理，获得聚类结果。

步骤S3022：获取参考单细胞样本的细胞类别标签。

应当理解的是，上述参考单细胞样本可以为由标注有细胞类别的单细胞组成的样本。相应的，上述细胞类别标签可以为用于表征单细胞对应的细胞类别的标签。

步骤S3023：基于所述细胞类别标签和所述聚类结果对所述单细胞样本中各单细胞进行注释，以确定所述各单细胞的细胞类型注释。

在本实施例中，可以通过预设单细胞镶嵌集成模型基于目标细胞状态注释对映射后的目标样本多组学数据进行聚类处理，从而可以将映射后的目标样本多组学数据中具有相同特征的多组学数据聚到一起，获得聚类结果，然后，系统可以参考标注有细胞类别的单细胞样本中各单细胞的细胞类别标签对单细胞样本中各单细胞进行注释，进而确定各单细胞的细胞类型注释。

进一步地，为了提高预设单细胞镶嵌集成模型的预测精度，所述步骤S302之后，所述方法还包括：通过预设单细胞镶嵌集成模型对所述映射后的目标样本多组学数据进行重构，得到重构后的目标样本多组学数据；确定所述映射后的目标样本多组学数据和所述重构后的目标样本多组学数据之间的均方误差；根据所述均方误差构建重构损失函数，并基于所述重构损失函数对所述预设单细胞镶嵌集成模型进行更新。

应当说明的是，上述均方误差可以为用于表征映射后的目标样本多组学数据和重构后的目标样本多组学数据之间的差异的值。相应的，上述重构损失函数可以为用于评估预设单细胞镶嵌集成模型的预测结果与实际结果之间的误差程度的函数。

实际应用中，预设单细胞镶嵌集成模型可以对输入的多组学数据进行重构，故系统为了保证预设单细胞镶嵌集成模型的预测精度，可以将上述映射后的目标样本多组学数据输入至该预设单细胞镶嵌集成模型中，此时预设单细胞镶嵌集成模型可以对映射后的目标样本多组学数据进行重构，获得重构后的目标样本多组学数据，然后可以根据映射后的目标样本多组学数据和重构后的目标样本多组学数据之间的均方误差构建重构损失函数，以通过重构损失函数对预设单细胞镶嵌集成模型进行更新，从而提高了预设单细胞镶嵌集成模型的预测精度。

本实施例通过预设单细胞镶嵌集成模型基于目标细胞状态注释对映射后的目标样本多组学数据进行聚类处理，获得聚类结果，并根据参考单细胞样本的细胞类别标签和聚类结果对单细胞样本中各单细胞进行注释，以确定各单细胞的细胞类型注释，从而可以准确确定单细胞样本中各单细胞的细胞类型注释，进而提高细胞识别精度。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有基于多组学数据的细胞识别程序，所述基于多组学数据的细胞识别程序被处理器执行时实现如上文所述的基于多组学数据的细胞识别方法的步骤。

参照图8，图8为本发明基于多组学数据的细胞识别装置第一实施例的结构框图。

如图8所示，本发明实施例提出的基于多组学数据的细胞识别装置包括：

数据获取模块801，用于获取若干个单细胞样本对应的样本多组学数据，所述样本多组学数据包括：基因组学数据、转录组学数据、蛋白质组学数据；

数据判断模块802，用于判断所述样本多组学数据中是否存在目标细胞状态注释；

注释确定模块803，用于若存在，则基于所述目标细胞状态注释，通过预设单细胞镶嵌集成模型确定所述单细胞样本中各单细胞的细胞类型注释；

识别结果确定模块804，用于基于所述细胞类型注释确定所述单细胞样本对应的细胞类型识别结果。

本实施例的基于多组学数据的细胞识别装置公开了获取若干个单细胞样本对应的样本多组学数据，样本多组学数据包括：基因组学数据、转录组学数据、蛋白质组学数据；判断样本多组学数据中是否存在目标细胞状态注释；若存在，则基于目标细胞状态注释，通过预设单细胞镶嵌集成模型确定单细胞样本中各单细胞的细胞类型注释；基于细胞类型注释确定单细胞样本对应的细胞类型识别结果；相较于现有技术由于不同批次的实验环境、测序技术以及数据处理方式存在差异，通过单细胞转录组学数据整合方式对单细胞多组学数据进行整合容易受到批次效应的影响，进而导致细胞识别的准确度不高，由于本实施例可以在单细胞样本对应的样本多组学数据存在目标细胞状态注释时，通过预设单细胞镶嵌集成模型确定各单细胞的细胞类型注释，以确定单细胞样本对应的细胞类型识别结果，从而解决了现有技术中通过单细胞转录组学数据整合方式对单细胞多组学数据进行整合以进行细胞识别时，细胞识别的准确度不高的技术问题。

基于本发明上述基于多组学数据的细胞识别装置第一实施例，提出本发明基于多组学数据的细胞识别装置的第二实施例。

在本实施例中，所述注释确定模块803，还用于通过预设单细胞镶嵌集成模型将样本组学组合对应的目标样本多组学数据映射至目标嵌入空间，获得映射后的目标样本多组学数据；通过预设单细胞镶嵌集成模型基于所述目标细胞状态注释对所述映射后的目标样本多组学数据进行聚类处理，以确定所述单细胞样本中各单细胞的细胞类型注释。

进一步地，所述注释确定模块803，还用于通过预设单细胞镶嵌集成模型中的组学编码器将样本组学组合对应的目标样本多组学数据映射至目标嵌入空间，获得所述目标样本多组学数据对应的多组学融合特征；通过预设单细胞镶嵌集成模型中的图形编码器将先验知识引导图转换为图形引导特征；基于所述多组学融合特征和所述图形引导特征进行组学重建处理，获得映射后的目标样本多组学数据。

进一步地，所述注释确定模块803，还用于通过预设单细胞镶嵌集成模型中的鉴别器对所述多组学融合特征进行分布协调处理，获得批次分布信息；基于所述批次分布信息、所述多组学融合特征和所述图形引导特征进行组学重建处理，获得映射后的目标样本多组学数据。

进一步地，所述注释确定模块803，还用于确定所述单细胞样本中的样本组学对应的组学组合方式；根据所述组学组合方式对所述样本组学进行组学组合处理，获得样本组学组合。

基于上述各装置实施例，提出本发明基于多组学数据的细胞识别装置的第三实施例。

在本实施例中，所述注释确定模块803，还用于通过预设单细胞镶嵌集成模型基于所述目标细胞状态注释对所述映射后的目标样本多组学数据进行聚类处理，获得聚类结果；获取参考单细胞样本的细胞类别标签；基于所述细胞类别标签和所述聚类结果对所述单细胞样本中各单细胞进行注释，以确定所述各单细胞的细胞类型注释。

进一步地，所述注释确定模块803，还用于通过预设单细胞镶嵌集成模型对所述映射后的目标样本多组学数据进行重构，得到重构后的目标样本多组学数据；确定所述映射后的目标样本多组学数据和所述重构后的目标样本多组学数据之间的均方误差；根据所述均方误差构建重构损失函数，并基于所述重构损失函数对所述预设单细胞镶嵌集成模型进行更新。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如只读存储器/随机存取存储器、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于多组学数据的细胞识别方法，其特征在于，所述方法包括：

获取若干个单细胞样本对应的样本多组学数据，所述样本多组学数据包括：基因组学数据、转录组学数据和蛋白质组学数据；

判断所述样本多组学数据中是否存在目标细胞状态注释；其中，所述目标细胞状态注释为用于表征细胞类型的注释信息；

基于所述细胞类型注释确定所述单细胞样本对应的细胞类型识别结果；

所述基于所述目标细胞状态注释，通过预设单细胞镶嵌集成模型确定所述单细胞样本中各单细胞的细胞类型注释的步骤，包括：

通过预设单细胞镶嵌集成模型将样本组学组合对应的目标样本多组学数据映射至目标嵌入空间，获得映射后的目标样本多组学数据；其中，所述目标嵌入空间为不同模态的组学数据公共的嵌入空间；

通过预设单细胞镶嵌集成模型基于所述目标细胞状态注释对所述映射后的目标样本多组学数据进行聚类处理，以确定所述单细胞样本中各单细胞的细胞类型注释；

所述通过预设单细胞镶嵌集成模型将样本组学组合对应的目标样本多组学数据映射至目标嵌入空间，获得映射后的目标样本多组学数据的步骤，包括：

通过预设单细胞镶嵌集成模型中的组学编码器将样本组学组合对应的目标样本多组学数据映射至目标嵌入空间，获得所述目标样本多组学数据对应的多组学融合特征；其中，所述组学编码器用于对多组学数据进行编码以提取多组学数据中的特征；

通过预设单细胞镶嵌集成模型中的图形编码器将先验知识引导图转换为图形引导特征；其中，所述图形编码器用于对先验知识引导图进行编码以提取先验知识引导图中的特征，所述先验知识引导图为具有先验模态知识的引导图；

基于所述多组学融合特征和所述图形引导特征进行组学重建处理，获得映射后的目标样本多组学数据；

所述基于所述多组学融合特征和所述图形引导特征进行组学重建处理，获得映射后的目标样本多组学数据的步骤之前，还包括：

通过预设单细胞镶嵌集成模型中的鉴别器对所述多组学融合特征进行分布协调处理，获得批次分布信息；其中，所述分布协调处理为调整多组学融合特征在不同批次的多组学数据中的分布的处理；

基于所述批次分布信息、所述多组学融合特征和所述图形引导特征进行组学重建处理，获得映射后的目标样本多组学数据；

所述通过预设单细胞镶嵌集成模型基于所述目标细胞状态注释对所述映射后的目标样本多组学数据进行聚类处理，以确定所述单细胞样本中各单细胞的细胞类型注释的步骤，包括：

获取参考单细胞样本的细胞类别标签；

2.如权利要求1所述的方法，其特征在于，所述通过预设单细胞镶嵌集成模型将样本组学组合对应的目标样本多组学数据映射至目标嵌入空间，获得映射后的目标样本多组学数据的步骤之前，还包括：

确定所述单细胞样本中的样本组学对应的组学组合方式；

3.如权利要求1所述的方法，其特征在于，所述通过预设单细胞镶嵌集成模型基于所述目标细胞状态注释对所述映射后的目标样本多组学数据进行聚类处理，以确定所述单细胞样本中各单细胞的细胞类型注释的步骤之后，还包括：

4.一种基于多组学数据的细胞识别装置，用于实现如权利要求1所述的基于多组学数据的细胞识别方法，其特征在于，所述装置包括：

数据获取模块，用于获取若干个单细胞样本对应的样本多组学数据，所述样本多组学数据包括：基因组学数据、转录组学数据和蛋白质组学数据；

5.一种基于多组学数据的细胞识别设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并在所述处理器上运行的基于多组学数据的细胞识别程序，所述基于多组学数据的细胞识别程序配置为实现如权利要求1至3中任一项所述的方法的步骤。

6.一种存储介质，其特征在于，所述存储介质上存储有基于多组学数据的细胞识别程序，所述基于多组学数据的细胞识别程序被处理器执行时实现如权利要求1至3任一项所述的方法的步骤。