CN116978464A - 数据处理方法、装置、设备以及介质 - Google Patents

数据处理方法、装置、设备以及介质 Download PDF

Info

Publication number
CN116978464A
CN116978464A CN202310304040.4A CN202310304040A CN116978464A CN 116978464 A CN116978464 A CN 116978464A CN 202310304040 A CN202310304040 A CN 202310304040A CN 116978464 A CN116978464 A CN 116978464A
Authority
CN
China
Prior art keywords
gene expression
feature
spatial
gene
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310304040.4A
Other languages
English (en)
Inventor
沈荣波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202310304040.4A priority Critical patent/CN116978464A/zh
Publication of CN116978464A publication Critical patent/CN116978464A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本申请实施例提供了一种数据处理方法、装置、设备以及介质,用于提高空间转录组数据的预测准确性。该方法包括:获取参考数据集和空间转录组数据集,获取第一空间邻域图及其对应的第一基因表达特征,初始预测模型中的第一编码器将第一基因表达特征编码为第一基因编码特征,第二编码器将第一基因编码特征和第一空间邻域图编码为第二基因编码特征,第一解码器和第二解码器分别将由第一基因编码特征和第二基因编码特征组成的第一联合编码特征解码为基因表达重构特征和重构空间邻域图;根据基因表达重构特征、第一基因表达特征、重构空间邻域图、第一联合编码特征及对应的标签信息,训练初始预测模型,得到用于预测空间转录组数据的目标预测模型。

Description

数据处理方法、装置、设备以及介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种数据处理方法、装置、设备以及介质。
背景技术
细胞是生命的基本单位,构建细胞类型的图谱统一描绘每一种细胞类型(例如,神经细胞、肌肉细胞、免疫细胞等)的分子特征以及它们在体内的位置,可以改变人们对生物学和疾病的理解,并且可以导致疾病诊断和治疗方式的重大突破。
目前基因测序数据的分析过程往往是通过对基因测序数据中的基因表达谱进行分析,进而从分子层面确定细胞类型;如采用聚类方式对细胞基因表达谱进行分析,预测得到各个细胞的细胞类型。然而,由于细胞类型是由细胞的基因选择性表达、组织中多细胞间的相互作用来决定的,因此仅由基因测序数据中的细胞基因表达谱得到的预测结果的准确性过低。
发明内容
本申请实施例提供一种数据处理方法、装置、设备以及介质,可以提高空间转录组数据的预测准确性。
本申请实施例一方面提供了一种数据处理方法,包括:
获取参考数据集和空间转录组数据集,基于参考数据集和空间转录组数据集,获取包含候选细胞集合的第一空间邻域图;第一空间邻域图用于表征候选细胞集合中的细胞的空间位置信息,参考数据集包括携带标签信息的单细胞转录组数据;
获取候选细胞集合在参考数据集和空间转录组数据集中的第一基因表达特征,通过初始预测模型中的第一编码器对第一基因表达特征进行编码处理,得到第一基因编码特征;
通过初始预测模型中的第二编码器对第一基因编码特征和第一空间邻域图进行编码处理,得到第二基因编码特征,将第一基因编码特征和第二基因编码特征组合为第一联合编码特征;
通过初始预测模型中的第一解码器对第一联合编码特征进行解码处理,得到基因表达重构特征,通过初始预测模型中的第二解码器对第一联合编码特征进行解码处理,得到重构空间邻域图;
根据基因表达重构特征、第一基因表达特征、重构空间邻域图、第一空间邻域图、第一联合编码特征以及候选细胞集合在参考数据集中的标签信息,对初始预测模型的网络参数进行修正,得到目标预测模型;目标预测模型用于输出组织样本对应的空间转录组数据的基因空间分布预测结果或者细胞预测类型。
本申请实施例一方面提供了一种数据处理装置,包括:
邻域图获取模块,用于获取参考数据集和空间转录组数据集,基于参考数据集和空间转录组数据集,获取包含候选细胞集合的第一空间邻域图;第一空间邻域图用于表征候选细胞集合中的细胞的空间位置信息,参考数据集包括携带标签信息的单细胞转录组数据;
第一编码模块,用于获取候选细胞集合在参考数据集和空间转录组数据集中的第一基因表达特征,通过初始预测模型中的第一编码器对第一基因表达特征进行编码处理,得到第一基因编码特征;
第二编码模块,用于通过初始预测模型中的第二编码器对第一基因编码特征和第一空间邻域图进行编码处理,得到第二基因编码特征,将第一基因编码特征和第二基因编码特征组合为第一联合编码特征;
第一解码模块,用于通过初始预测模型中的第一解码器对第一联合编码特征进行解码处理,得到基因表达重构特征,通过初始预测模型中的第二解码器对第一联合编码特征进行解码处理,得到重构空间邻域图;
参数修正模块,用于根据基因表达重构特征、第一基因表达特征、重构空间邻域图、第一空间邻域图、第一联合编码特征以及候选细胞集合在参考数据集中的标签信息,对初始预测模型的网络参数进行修正,得到目标预测模型;目标预测模型用于输出组织样本对应的空间转录组数据的基因空间分布预测结果或者细胞预测类型。
其中,邻域图获取模块基于参考数据集和空间转录组数据集,获取包含候选细胞集合的第一空间邻域图,包括:
根据参考数据集中的相邻细胞之间的距离,以及参考数据集中的相邻细胞对应的基因表达特征之间的相似度,构建参考数据集对应的源域空间邻域图;
根据空间转录组数据集中的相邻细胞之间的距离,以及空间转录组数据集中的相邻细胞对应的基因表达特征之间的相似度,构建空间转录组数据对应的目标域空间邻域图;
在源域空间邻域图和目标域空间邻域中选取初始细胞子集,获取初始细胞子集中的细胞的一阶邻居细胞和二阶邻居细胞,将初始细胞子集、一阶邻居细胞以及二阶邻居细胞组合为候选细胞集合;
在源域空间邻域图和目标域空间邻域中,将候选细胞集合所包含的细胞之间的边,以及候选细胞集合所包含的细胞确定为第一空间邻域图。
其中,第一编码模块通过初始预测模型中的第一编码器对第一基因表达特征进行编码处理,得到第一基因编码特征,包括:
将第一基因表达特征输入至初始预测模型中的第一编码器,根据第一编码器中的全连接网络层对第一基因表达特征进行全连接处理,得到全连接输出特征;
对全连接输出特征进行归一化处理,得到归一化特征,根据第一编码器中的激活网络层对归一化特征进行变换处理,得到基因变换特征;
根据第一编码器中的正则网络层对基因变换特征进行正则化处理,得到第一基因编码特征。
其中,第二编码模块通过初始预测模型中的第二编码器对第一基因编码特征和第一空间邻域图进行编码处理,得到第二基因编码特征,包括:
将第一基因编码特征和第一空间邻域图输入至初始预测模型中的第二编码器,根据第二编码器中的第一图卷积网络层对第一基因编码特征和第一空间邻域图进行下采样处理,得到图卷积特征;
根据第二编码器中的第二图卷积网络层对图卷积特征进行卷积运算,得到候选细胞集合对应的均值特征和方差特征;
在标准高斯分布中获取采样参数,将采样参数和方差特征的乘积,以及均值特征之和确定为第二基因编码特征。
其中,初始预测模型还包括第一域分类器和第二域分类器;第一基因表达特征包括候选细胞集合在参考数据集和空间转录组数据集中的共有基因表达特征和初始化的目标基因表达特征;候选细胞集合对应的标签信息包括参考数据集中的共有基因表达特征和目标基因表达特征;
参数修正模块根据基因表达重构特征、第一基因表达特征、重构空间邻域图、第一空间邻域图、第一联合编码特征以及候选细胞集合在参考数据集中的标签信息,对初始预测模型的网络参数进行修正,得到目标预测模型,包括:
将基因表达重构特征和重构空间邻域图输入至第一域分类器,通过第一域分类器输出第一分类结果;
将第一联合编码特征输入至第二域分类器,通过第二域分类器输出第二分类结果;
根据第一分类结果、第二分类结果、基因表达重构特征、第一基因表达特征、重构空间邻域图、第一空间邻域图以及候选细胞集合对应的标签信息,对初始预测模型的网络参数进行修正,得到目标预测模型;目标预测模型用于输出组织样本对应的空间转录组数据的基因空间分布预测结果。
其中,参数修正模块根据第一分类结果、第二分类结果、基因表达重构特征、第一基因表达特征、重构空间邻域图、第一空间邻域图以及候选细胞集合对应的标签信息,对初始预测模型的网络参数进行修正,得到目标预测模型,包括:
根据第一分类结果确定第一域分类器对应的第一分类损失,根据第二分类结果和第一基因表达特征所属的数据集标签,确定第二域分类器对应的第二分类损失;
若第一基因表达特征属于参考数据集,则根据基因表达重构特征和候选细胞集合对应的标签信息之间的误差,以及重构空间邻域图和第一空间邻域图之间的误差,确定初始预测模型的第一重构损失;
若第一基因表达特征属于空间转录组数据集,则根据基因表达重构特征和第一基因表达特征之间的误差,以及重构空间邻域图和第一空间邻域图之间的误差,确定初始预测模型的第二重构损失;
根据第一分类损失、第二分类损失、第一重构损失以及第二重构损失,确定初始预测模型的模型总损失;
基于模型总损失对初始预测模型中的网络参数进行迭代训练,直至模型总损失满足训练结束条件时,停止训练并将训练结束时的初始预测模型中的第一编码器、第二编码器以及第一解码器确定为目标预测模型。
其中,初始预测模型还包括第二域分类器和特征分类器;第一基因表达特征包括候选细胞集合在参考数据集和空间转录组数据集中的共有基因表达特征;候选细胞集合对应的标签信息包括参考数据集中的细胞类型标签;
参数修正模块根据基因表达重构特征、第一基因表达特征、重构空间邻域图、第一空间邻域图、第一联合编码特征以及候选细胞集合在参考数据集中的标签信息,对初始预测模型的网络参数进行修正,得到目标预测模型,包括:
将第一联合编码特征依次输入至第二域分类器和特征分类器,通过第二域分类器输出第二分类结果,通过特征分类器对第一联合特征进行识别,得到细胞分类结果;
根据第二分类结果、细胞分类结果、基因表达重构特征、第一基因表达特征、重构空间邻域图、第一空间邻域图以及候选细胞集合对应的细胞类型标签,对初始预测模型的网络参数进行修正,得到目标预测模型;目标预测模型用于输出组织样本对应的空间转录组数据的细胞预测类型。
其中,根据第二分类结果、细胞分类结果、基因表达重构特征、第一基因表达特征、重构空间邻域图、第一空间邻域图以及候选细胞集合对应的细胞类型标签,对初始预测模型的网络参数进行修正,得到目标预测模型,包括:
根据第二分类结果和第一基因表达特征所属的数据集标签,确定第二域分类器对应的第二分类损失;
根据细胞分类结果和候选细胞集合对应的细胞类型标签,确定特征分类器对应的特征分类损失;
根据基因表达重构特征和第一基因表达特征之间的误差,以及重构空间邻域图和第一空间邻域图之间的误差,确定初始预测模型的第二重构损失;
根据第二分类损失、特征分类损失以及第二重构损失,确定初始预测模型对应的模型总损失;
基于模型总损失对初始预测模型中的网络参数进行迭代训练,直至模型总损失满足训练结束条件时,停止训练并将训练结束时的初始预测模型中的第一编码器、第二编码器以及特征分类器确定为目标预测模型。
其中,该装置还包括:
邻域图构建模块,用于获取组织样本对应的空间转录组数据,根据空间转录组数据所包含的空间位置信息和第二基因表达特征,构建组织样本中的细胞对应的第二空间邻域图;
第三编码模块,用于通过目标预测模型中的第一编码器对第二基因表达特征进行编码处理,得到空间转录组数据对应的第三基因编码特征;
第四编码模块,用于通过目标预测模型中的第二编码器对第二空间邻域图和第三基因编码特征进行编码处理,得到空间转录组数据对应的第四基因编码特征,将第三基因编码特征和第四基因编码特征组合为第二联合编码特征;
第二解码模块,用于通过目标预测模型中的第一解码器对第二联合编码特征进行解码处理,得到空间转录组数据对应的基因空间分布预测结果。
其中,该装置还包括:
邻域图构建模块,用于获取组织样本对应的空间转录组数据,根据空间转录组数据所包含的空间位置信息和第二基因表达特征,构建组织样本中的细胞对应的第二空间邻域图;
第三编码模块,用于通过目标预测模型中的第一编码器对第二基因表达特征进行编码处理,得到空间转录组数据对应的第三基因编码特征;
第四编码模块,用于通过目标预测模型中的第二编码器对第二空间邻域图和第三基因编码特征进行编码处理,得到空间转录组数据对应的第四基因编码特征,将第三基因编码特征和第四基因编码特征组合为第二联合编码特征;
特征分类模块,用于通过目标预测模型中的特征分类器对第二联合编码特征进行识别,得到组织样本中的细胞所对应的细胞预测类型。
本申请实施例一方面提供了一种计算机设备,包括存储器和处理器,存储器与处理器相连,存储器用于存储计算机程序,处理器用于调用计算机程序,以使得该计算机设备执行本申请实施例中上述一方面提供的方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序适于由处理器加载并执行,以使得具有处理器的计算机设备执行本申请实施例中上述一方面提供的方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述一方面提供的方法。
本申请实施例中,获取用于训练初始预测模型的参考数据集和空间转录组数据集,进而可以在参考数据集和空间转录组数据中确定候选细胞集合,获取该候选细胞集合对应的第一空间邻域图和第一基因表达特征。初始预测模型中的第一编码器和第二编码器可以实现第一基因表达特征和第一空间邻域图的特征集成,通过在初始预测模型中引入第一空间邻域图可以充分发掘细胞在空间背景下相邻细胞之间可能存在的交互关系,进而可以提升初始预测模型的整体性能。第一编码器输出的第一基因编码特征和第二编码器输出的第二基因编码特征组合成的第一联合编码特征可以依次输入至初始预测模型中的第一解码器和第二解码器,由第一解码器输出基因表达重构特征,由第二解码器输出重构空间邻域图;基于基因表达重构特征、第一基因表达特征、重构空间邻域图、第一空间邻域图以及候选细胞集合对应的标签信息,对初始预测模型中的网络参数进行修正,得到用于对组织样本对应的空间转录组数据进行预测分析的目标预测模型;也就是说,可以利用已标注的参考数据集和未标注的空间转录组数据集训练初始预测模型,即可以从参考数据集中迁移细胞的基因表达特征,由此训练得到的目标预测模型可以提高空间转录组数据的预测准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构的结构示意图;
图2是本申请实施例提供的一种数据处理方法的流程示意图一;
图3是本申请实施例提供的一种空间邻域图的构建示意图;
图4是本申请实施例提供的一种基于图挖掘的随机子图训练示意图;
图5是本申请实施例提供的一种图卷积网络模型的结构示意图;
图6是本申请实施例提供的一种数据处理方法的流程示意图二;
图7是本申请实施例提供的一种用于实现基因空间分布预测任务的初始预测模型的训练示意图;
图8a是本申请实施例提供的基于目标预测模型的基因空间分布预测结果示意图一;
图8b是本申请实施例提供的基于目标预测模型的基因空间分布预测结果示意图一;
图8c是本申请实施例提供的基于目标预测模型的基因空间分布预测结果示意图一;
图9是本申请实施例提供的一种数据处理方法的流程示意图三;
图10是本申请实施例提供的一种用于实现细胞类型注释任务的初始预测模型的训练示意图;
图11是本申请实施例提供的一种基于目标预测模型的细胞类型注释结果示意图;
图12是本申请实施例提供的一种数据处理方法的流程示意图四;
图13是本申请实施例提供的一种基于目标预测模型的基因空间分布预测示意图;
图14是本申请实施例提供的一种数据处理方法的流程示意图五;
图15是本申请实施例提供的一种基于目标预测模型的基因空间分布预测示意图;
图16是本申请实施例提供的一种数据处理装置的结构示意图;
图17是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
机器学习(Machine Learning,ML):机器学习作为人工智能(ArtificialIntelligence,AI)领域的重要技术,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
其中,本申请实施例可基于机器学习技术训练得到可用于对组织样本的基因组测序数据进行预测分析的基因预测模型。其中,组织样本也可以称为组织切片,可以认为是供光学显微镜或电子显微镜观察的动植物组织薄片。基因预测模型可以用于实现不同的空间转录组(Spatially Resolved Transcriptoms,SRT)任务,如细胞的基因空间分布预测任务、细胞类型注释(可以理解为细胞类型识别)任务等,本申请对此不做限定。举例来说,当基因预测模型用于实现基因空间分布任务时,可以利用基因预测模型的解码结果预测组织样本中的细胞的基因空间分布;当基因预测模型用于实现细胞类型注释任务时,可以利用基因预测模型的编码结果预测组织样本中的细胞类型。由基因预测模型确定的细胞类型以及基因空间分布可以适用于生物医学、细胞研究、病理分析等领域,如可以基于基因预测模型确定的基因空间分布和细胞类型,可以准确识别癌细胞,进而开发对应的靶向药物用于改善抗癌治疗。
为便于理解,下面先对本申请实施例涉及的名词术语进行描述:
单细胞转录组数据(也可以称为单细胞转录组测序数据):借助于组织样本的高倍成像技术(例如,病理组织切片成像、共聚焦荧光成像等),在不同时间点抽取细胞,并使用各种单细胞转录组测序技术对抽取到的细胞进行解析,解析得到的基因测序数据(或者可以称为基因表达特征)可以称为单细胞转录组数据。其中,单细胞转录组测序可以理解为mRNA(Messenger RibonucleicAcid,信使核糖核酸)测序,即细胞所表达的基因,也就是说,单细胞转录组可以理解为某一时刻单个细胞内所有mRNA总表达量,其表达量反映该细胞的总体特征。单细胞转录组测序技术可以包括但不限于:显微解剖技术、荧光原位杂交技术(fluorescence in situhybridization,FISH)以及原位捕获技术等,具体可基于实际应用场景需求确定,本申请对此不做限定。
空间转录组数据(也可以称为空间转录组测序数据):空间转录组数据是指采用现有的空间转录组测序技术所采集的测序数据;该空间转录组数据可以包括单个组织样本中的所有细胞的基因表达特征以及基因表达发生的空间位置信息。其中,本申请实施例涉及的空间转录组数据可以包括但不限于基于MERFISH(多重抗误差矫正荧光原位杂交技术)、seqFISH(sequential fluorescence in situ hybridization,连续荧光原位杂交)、seqFISH+、osmFISH(ouroboros单分子荧光原位杂交技术)、Slide-seq、Visium、STARmap(空间分辨转录放大读出图)、HDST(High Definition Spatial Transcriptomics,高清空间转录组学)、Stereo-seq(高分辨率时空组学技术)等技术得到的测序数据,具体可以基于实际应用场景需求确定,在此不做限定。
请参见图1,图1是本申请实施例提供的一种网络架构的结构示意图,该网络架构可以包括服务器10d和终端集群,该终端集群可以包括一个或者多个终端设备,这里不对终端集群所包含的终端设备的数量进行限制。如图1所示,该终端集群可以具体包括终端设备10a、终端设备10b以及终端设备10c等;终端集群中的所有终端设备(例如,可以包括终端设备10a、终端设备10b以及终端设备10c等)均可以与服务器10d进行网络连接,以便于各个终端设备均可以通过该网络连接与服务器10d之间进行数据交互。
终端集群的终端设备可以包括但不限于:智能手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,MID)、可穿戴设备(例如智能手表、智能手环等)、智能语音交互设备、智能家电(例如智能电视等)、车载设备、飞行器等电子设备,本申请对终端设备的类型不做限定。可以理解的是,如图1所示的终端集群中的每个终端设备均可以安装应用客户端(互联网平台),当该应用客户端运行于各终端设备中时,可以分别与上述图1所示的服务器10d之间进行数据交互。其中,各终端设备中运行的应用客户端可以为独立的客户端,也可以为集成在某个客户端中的嵌入式子客户端,本申请对此不做限定;各终端设备中运行的应用客户端可以调用已发布的基因预测模型(可以理解为训练完成的基因预测模型)实现空间转录组的基因空间分布预测和细胞类型注释等任务。
其中,服务器10d可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,本申请对服务器的类型不做限定。
图1所示的各个终端设备可以获取组织样本的空间转录组数据,进而可以利用训练完成的基因预测模型对空间转录组数据进行分析预测,得到组织样本对应的预测结果;例如,组织样本的预测结果可以为基因空间分布预测结果,或者可以为细胞预测类型等。可以理解的是,空间转录组数据的分析预测可以由图1所示的网络架构中的终端设备执行,也可以由服务器10d执行,本申请对此不做限定。
其中,本申请实施例所涉及的基因预测模型可以是以图卷积网络模型(graphconvolutional networks,GCN)为基线网络的算法模型,该图卷积网络模型可以由自编码器(autoencoder)和变分图自编码器(variational graph autoencoder,VGAE)构成;或者可以使用其他深度学习网络结构,如卷积神经网络和图自编码器(Graph Auto Encoder,GAE);或者还可以使用前述自编码器和变分图自编码器等网络结构的多种变体,包括但不限于不同的网络层数量,不同的激活函数等,本申请实施例对图卷积网络模型的网络结构不做限定。为便于理解,本申请实施例以图卷积网络模型由自编码器和变分图自编码器构成为例进行描述。
可以理解的是,一个组织样本对应的所有细胞具有相同的遗传DNA(Deoxyribonucleic acid,脱氧核糖核酸),单细胞转录组测序技术可以针对单个细胞的表达基因进行测序,通过对细胞的转录组测序数据进行分析,可从分子层面得知细胞的基因选择性表达,进而从分子层面对细胞进行分类,即细胞类型注释。近年来随着分子生物学和单细胞测序技术的进步,越来越多的研究表明,细胞的基因选择性表达不仅与细胞的起源相关,也与细胞在样本组织中的局部微环境相关;目前已在胚胎发育的基因表达研究中得到了最好的证明,细胞的空间协调和信号传递决定了组织微环境的动态发展过程,决定了胚胎细胞如何分化为神经细胞、肌肉细胞、免疫细胞等等。实际上,细胞在空间和微环境中的基因选择性表达可以适用于任何组织和生物过程。例如,在肿瘤微环境中,癌细胞、免疫细胞以及基质细胞之间也存在复杂的相互作用,利用细胞类型的基因选择性表达和细胞之间相互作用,以及细胞的空间位置信息,有助于识别癌细胞以及癌细胞所表达的基因,进而开发对应的靶向药物用于改善抗癌治疗。换言之,组织样本中的细胞的空间位置信息有助于识别细胞类型以及细胞的基因空间分布。
本申请实施例所涉及的基因预测模型可以使用域迁移和图卷积网络模型完成端到端的空间转录组的基因空间分布预测和细胞类型注释等任务;也就是说,本申请实施例可以利用图卷积网络模型实现多个不同的空间转录组任务。其中,域迁移可以从已有的单细胞转录组数据中迁移细胞的基因表达特征(本申请实施例中的基因表达特征可以为基因表达谱的形式,如可以表示为基因表达矩阵),并学习单细胞转录组数据的基因表达特征与空间转录组数据的基因表达特征之间的域差异;该域差异可能来自测序技术之间的差异、样本之间的批次效应或者测序过程中的噪声等。域迁移的实现过程可以包括:使用单细胞转录组数据和空间转录组数据之间的共有基因,并将共有基因的表达特征进行对齐;域迁移过程中可以将单细胞转录组数据和空间转录组数据的基因表达特征降维到相同的特征空间;进而可以对降维后的表达特征进行还原,使单细胞转录组数据和空间转录组数据的基因表达特征相似。
需要说明的是,基因预测模型可以理解为前述图卷积网络模型应用在不同空间转录组任务中的算法模型(为便于理解,该基因预测模型可以简称为DAGCN方法)。在基因预测模型的训练过程中,基因预测模型可以基于空间转录组任务的实际需求在图卷积网络模型的基础上额外增加其他网络结构(例如,域分类器、特征分类器等);在基因预测模型训练完成后,也可以基于空间转录组任务的实际需求选择完成训练的基因预测模型中的部分或全部网络结构来实现空间转录组数据的预测流程,本申请对此不做限定。其中,基因预测模型的训练过程和应用过程(预测流程)将在后续内容中进行详细描述。为便于理解,训练过程中的基因预测模型可以称为初始预测模型,用于实现空间转录组任务的训练完成的基因预测模型可以称为目标预测模型。
可以理解的是,基因预测模型的训练过程及应用过程可以由计算机设备执行,即本申请实施例提出的数据处理方法可以由计算机设备执行,该计算机设备可以为图1所示的网络架构中的服务器10d,或者为终端集群中的任一终端设备,或者可以为计算机程序(包括程序代码,例如,终端设备集成的应用客户端)等,本申请实施例对此不做限定。
请参见图2,图2是本申请实施例提供的一种数据处理方法的流程示意图一;可以理解地,该数据处理方法可以由计算机设备执行,该计算机设备可以为服务器,或者可以为终端设备,本申请对此不做限定。如图2所示,该数据处理方法可以包括以下步骤S101至步骤S105:
步骤S101,获取参考数据集和空间转录组数据集,基于参考数据集和空间转录组数据集,获取包含候选细胞集合的第一空间邻域图;第一空间邻域图用于表征候选细胞集合中的细胞的空间位置信息,参考数据集包括携带标签信息的单细胞转录组数据。
本申请实施例中,可以对初始预测模型(训练过程中的基因预测模型)端到端的训练过程进行描述。在初始预测模型的训练过程中,计算机设备可以获取用于训练该初始预测模型的参考数据集和空间转录组数据集。其中,参考数据集可以为已标注的单细胞转录组数据集(也可以称为单细胞测序数据集);例如,可以通过对采集到的所有组织样本依次进行单细胞转录组测序得到每一个组织样本对应的单细胞转录组数据(包括细胞基因表达特征),并对组织样本中的各个细胞的类型进行标注,得到组织样本中的各个细胞对应的细胞类型标签,进而可以将所有携带细胞类型标签的单细胞转录组数据作为参考数据集;或者可以获取现有的已标注单细胞转录组数据集作为参考数据集,本申请对参考数据集的来源不做限定。
空间转录组数据集可以包括大量组织样本对应的空间转录组数据,每一个组织样本对应的空间转录组数据均是采用现有的空间转录组测序技术采集得到的,可以包括该组织样本中的各个细胞的基因表达特征和细胞空间位置信息,空间转录组数据集不携带标签信息。可以理解的是,在初始预测模型的训练过程中,可以将参考数据集作为源域(SourceDomain),将空间转录组数据集作为目标域(Target Domain);目标域表示测试样本所在的领域,不携带标签信息或者只携带少量标签信息;源域表示与测试样本不同的领域,但是携带丰富的标签信息,利用信息丰富的源域样本(单细胞转录组数据)可以提升目标域模型(用于处理预测样本的模型)的性能。
可以理解的是,由于目前空间转录组测序技术的发展,空间转录组数据集的规模也越来越大,采用空间邻域图来表征空间转录组数据面临超大规模图结构的计算与存储问题,因此在初始预测模型的训练过程中,可以采用一种图结构数据的随机子图训练方式,进而可以在有限的计算资源下完成大规模图结构数据的训练和预测。换言之,在初始预测模型的训练过程中,可以从随机的一个细胞子集开始,利用图挖掘来生成源域空间邻域图(参考数据集对应的空间邻域图)的子图;该子图可以尽可能地保留细胞之间的边,此时的子图所包含的所有细胞可以作为候选细胞集合,而该子图可以称之为第一空间邻域图,该第一空间邻域图可以用于表征候选细胞集合中的细胞的空间位置信息;该第一空间邻域图可以用于训练初始预测模型,通过多次随机子图的训练,可以完成初始预测模型在整个源域空间邻域图结构数据上的训练。
其中,获取包含候选细胞集合的第一空间邻域图的过程可以包括:对于参考数据集和空间转录组数据集,都可以为其构建对应的空间邻域图;参考数据集中的单细胞转录组数据对应的空间邻域图可以称为源域空间邻域图;空间转录组数据集中的空间转录组数据对应的空间邻域图可以称为目标域空间邻域图。例如,可以根据参考数据集中的相邻细胞之间的距离,以及参考数据集中的相邻细胞对应的基因表达特征之间的相似度,构建参考数据集对应的源域空间邻域图;根据空间转录组数据集中的相邻细胞之间的距离,以及空间转录组数据集中的相邻细胞对应的基因表达特征之间的相似度,构建空间转录组数据对应的目标域空间邻域图。在源域空间邻域图和目标域空间邻域中选取初始细胞子集,获取初始细胞子集中的细胞的一阶邻居细胞和二阶邻居细胞,将初始细胞子集、一阶邻居细胞以及二阶邻居细胞组合为候选细胞集合;在源域空间邻域图和目标域空间邻域中,将候选细胞集合所包含的细胞之间的边,以及候选细胞集合所包含的细胞确定为第一空间邻域图。
可以理解的是,为了描述细胞的空间位置信息,可以通过构建空间邻域图来表示相邻细胞之间的关系,每一个空间邻域图都可以由节点和边组成,其中一个节点表示一个细胞,边代表一对相邻细胞之间的关系。由于在局部组织微环境中,单个细胞的行为是由配体-受体与邻近细胞的相互作用介导的,因此为了更好地描述相邻细胞之间的关系,空间邻域图中的边的权重可以通过计算相邻细胞之间的距离(例如,欧氏距离)以及相邻细胞对应的基因表达特征之间的相似度来确定。其中,相邻细胞之间的距离越近,表示相邻细胞之间的关系越密切;此外,基因表达特征更相似的相邻细胞,相对来说也会有更多的共有基因表达特征,即相邻细胞之间的关系越密切。其中,本申请实施例中的相邻细胞可以是指组织样本中距离小于预先设置的距离阈值(可以根据实际应用场景的具体需求进行设置,本申请对此不做限定)的两个细胞;相邻细胞的基因表达特征之间的相似度的计算方式可以包括但不限于:皮尔森相关系数(Pearson Correlation Coefficient)、余弦相似度、Tanimoto系数、曼哈顿距离(Manhattan Distance)、明可夫斯基距离(Minkowski distance)等算法,本申请对此不做限定。为便于理解,本申请实施例以余弦相似度为例进行描述。
对于前述源域空间邻域图和目标域空间邻域图,其构建方式是相同的,为便于理解,请参见图3,图3是本申请实施例提供的一种空间邻域图的构建示意图。如图3所示,假设空间转录组数据集中的组织样本包括细胞0,细胞1,……,细胞10等多个细胞(如图3中的区域20a所示),且细胞0与细胞1,细胞2,……,以及细胞10均为相邻细胞,那么可以依次计算细胞0的基因表达特征与各个相邻细胞的基因表达特征之间的相似度,该相似度的计算方式可以表示为:sim(u,v)=cos(fu,fv),其中u和v表示相邻细胞,fu表示细胞u对应的基因表达特征,fv表示细胞v对应的基因表达特征,sim(u,v)表示相邻的细胞u和细胞v之间的相似度。
如图3所示,通过计算相邻细胞对应的基因表达特征之间的余弦相似度,可以得到细胞0的基因表达特征与细胞1、细胞6的基因表达特征之间的相似度均为0.2(即sim1=sim6=0.2),细胞0的基因表达特征与细胞2、细胞5的基因表达特征之间的相似度均为1(即sim2=sim5=1),细胞0的基因表达特征与细胞3、细胞7的基因表达特征之间的相似度均为0.5(即sim3=sim7=0.5),细胞0的基因表达特征与细胞4的基因表达特征之间的相似度为0.4(即sim4=0.4),细胞0的基因表达特征与细胞8的基因表达特征之间的相似度为0.4(即sim8=0.8),细胞0的基因表达特征与细胞9的基因表达特征之间的相似度为0.3(即sim9=0.3),细胞0的基因表达特征与细胞10的基因表达特征之间的相似度为0.6(即sim10=0.6)。
进一步地,还可以根据各个细胞的空间位置信息,计算细胞1与各个相邻细胞之间的欧式距离,进而可以根据计算得到的欧氏距离以及相邻细胞的基因表达特征之间的相似度(余弦相似度),得到细胞0与各个相邻细胞之间的边权重,该边权重的计算方式可以表示为:其中,w(u,v)表示相邻的细胞u和细胞v之间的边权重,d(u,v)2表示相邻的细胞u和细胞v之间的距离。如图2所示,通过上述边权重的计算方式可以得到细胞0与细胞1之间的边权重可以为w1=0.14,细胞0与细胞2之间的边权重可以为w2=0.61,……,细胞0与细胞10之间的边权重可以为w10=0.17。在计算得到空间转录组数据集中的组织样本所包含的所有相邻细胞之间的边权重之后,可以得到空间转录组数据集对应的目标域空间邻域图,前述细胞0、细胞1、……、细胞10等细胞均可以作为目标域空间邻域图中的节点,相邻细胞之间的存在边,不同的相邻细胞之间的边权重可能不同。
基于图2所示的空间邻域图的构建方式,可以构建参考数据集对应的源域空间邻域图,以及空间转录组数据集对应的目标域空间邻域图,进而可以在源域空间邻域图和目标域邻域图中获取第一空间邻域图。换言之,第一空间邻域图可以为源域空间邻域图中的子图,或者可以为目标域空间邻域图中的子图。请参见图4,图4是本申请实施例提供的一种基于图挖掘的随机子图训练示意图。如图4所示的空间邻域图30a可以为源域空间邻域图或目标域空间邻域图,假设从空间邻域图30a中随机选取的初始细胞子集包括细胞1(此处的细胞1可以作为初始节点),那么可以对该细胞1进行第一阶段图挖掘,在空间邻域图30a中获取细胞1的一阶邻居细胞,如细胞2、细胞3、细胞4以及细胞5。
进一步地,可以继续对细胞1进行第二阶段图挖掘,在空间邻域图30a中获取细胞1的二阶邻居细胞,如细胞6、细胞7、细胞8、细胞9、细胞10以及细胞11,此时的细胞1、细胞2、……、细胞11可以作为候选细胞集合;进而可以将第一阶段图挖掘得到的一阶邻居细胞、第二阶段图挖掘得到的二阶邻居细胞、细胞1与一阶邻居细胞之间的边,以及一阶邻居细胞与二阶邻居细胞之间的边构成第一空间邻域图。
需要说明的是,第一空间邻域图可以由初始细胞子集以及两阶段图挖掘得到的一阶邻居细胞和二阶邻居细胞构成,或者可以由初始细胞子集和一阶段图挖掘得到的一阶邻居细胞构成,或者还可以由初始细胞子集以及两阶段图挖掘得到的一阶邻居细胞、二阶邻居细胞、三阶邻居细胞构成等,本申请对不做限定。通过采用基于图结构数据挖掘技术的随机子图训练方式,选择一批随机的细胞(初始细胞子集)之后,可以从初始细胞子集中的细胞触发,经过一个或多个阶段的图挖掘,可以得到一个随机子图(第一空间邻域图),这个随机子图可以保留相邻细胞之间的边,使用这些随机子图进行训练,可以充分使用图结构数据中的边信息,进而可以节省计算资源。
步骤S102,获取候选细胞集合在参考数据集和空间转录组数据集中的第一基因表达特征,通过初始预测模型中的第一编码器对第一基因表达特征进行编码处理,得到第一基因编码特征。
具体的,可以获取候选细胞集合中的细胞在参考数据集和空间转录组数据集中的第一基因表达特征。其中,初始预测模型是为了实现空间转录组任务构建的,空间转录组任务不同,输入初始预测模型的第一基因表达特征可能会存在一些差异,可以基于实际应用场景的具体需求确定,在此不做限定。例如,若初始预测模型是为了实现基因空间分布预测任务,则第一基因表达特征可以包括参考数据集和空间转录组数据集的共有基因表达特征和初始化的目标基因表达特征;共有基因表达特征表示参考数据集和空间转录组数据集的共有基因对应的基因表达特征,目标基因表达特征表示目标基因对应的基因表达特征;参考数据集中的单细胞转录组数据包括共有基因和目标基因的测量值(如通过单细胞转录组测序技术采集到了共有基因和目标基因的基因表达特征);空间转录组数据集包括共有基因的测量值,但一般不包含目标基因的测量值(如通过空间转录组测序技术采集到了共有基因的基因表达特征,而未采集到目标基因的基因表达特征),也就是说,目标基因可以理解为目标域中想要预测的基因。若初始预测模型是为了实现细胞类型注释任务,则第一基因表达特征可以为参考数据集和空间转录组数据集的共有基因表达特征等。
可以理解的是,初始预测模型是以图卷积网络模型为基线网络的算法模型,该图卷积网络可以包括至少两个编码器和至少两个解码器,一个编码器对应一个解码器。下面将以图卷积网络模型由自编码器和变分图自编码器构成为例进行详细描述;为便于理解,本申请实施例可以将自编码器的编码部分称为第一编码器,将自编码器的解码部分称为第一解码器,将变分图自编码器的编码部分称为第二编码器,将变分图自编码器的解码部分称为第二解码器。
在获取到候选细胞集合对应的第一空间邻域图和第一基因表达特征之后,可以将第一基因表达特征输入至初始预测模型中的第一编码器,根据第一编码器中的全连接网络层对第一基因表达特征进行全连接处理,得到全连接输出特征;对全连接输出特征进行归一化处理,得到归一化特征,即第一编码器中的归一化网络层输出的特征,根据第一编码器中的激活网络层对归一化特征进行变换处理,得到基因变换特征;根据第一编码器中的正则网络层对基因变换特征进行正则化处理,得到第一基因编码特征。
其中,第一编码器可以对输入的第一基因表达特征进行下采样处理(或者可以称为降维处理),即第一编码输出的第一基因编码特征的维度小于第一基因表达特征的维度,第一基因编码特征可以认为是对第一基因表达特征进行降维处理后的特征表达。第一编码器可以包括两个或两个以上堆叠的全连接层,每一个全连接层均可以按顺序连接一个归一化网络层(Batch Nornalization Layer)、一个激活网络层以及一个正则网络层(例如,dropout层)等,本申请对第一编码器的具体网络结构不做限定。其中,第一编码器中的激活网络层可以包括但不限于ELU层(一种非线性激活函数)、RELU层(一种非线性激活函数)、TanH层(一种非线性激活函数)等,可以根据实际应用场景的具体需求确定,此处不做限定。
可以理解的是,第一编码器中的最后一个网络层输出的特征可以称为第一基因编码特征。例如,第一编码器包括2个堆叠的全连接网络层,那么第一基因表达特征经过第一个全连接网络层,以及第一个全连接网络层后连接的归一化网络层、激活网络层、正则网络层后输出的特征,可以继续作为第二个全连接网络层的输入,进而经过第二个全连接网络层,以及第二个全连接网络层后连接的归一化网络层、激活网络层、正则网络层后输出的特征可以作为第一基因编码特征。
步骤S103,通过初始预测模型中的第二编码器对第一基因编码特征和第一空间邻域图进行编码处理,得到第二基因编码特征,将第一基因编码特征和第二基因编码特征组合为第一联合编码特征。
具体的,可以将第一基因编码特征和第一空间邻域图输入至初始预测模型中的第二编码器,根据第二编码器中的第一图卷积网络层对第一基因编码特征和第一空间邻域图进行下采样处理,得到图卷积特征;根据第二编码器中的第二图卷积网络层对图卷积特征进行卷积运算,得到候选细胞集合对应的均值特征和方差特征;在标准高斯分布中获取采样参数,将采样参数和方差特征的乘积,以及均值特征之和确定为第二基因编码特征。
其中,第二编码器的输入为第一编码器输出的第一基因编码特征和第一空间邻域图,通过第二编码器可以对输入的第一基因编码特征和第一空间邻域图进行图编码嵌入处理,得到空间嵌入的特征,即第二基因编码特征。第二编码器可以包括两个稀疏图卷积网络层(即前述第一图卷积网络层和第二图卷积网络层)、激活网络层(例如,RELU层,在此不做限定)以及正则网络层(例如,dropout层),每个稀疏图卷积网络层后都可以连接一个正则网络层。第一个稀疏图卷积网络层(第一图卷积网络层)可以用于生成低维特征矩阵,即前述图卷积特征;第二个稀疏图卷积网络层(第二图卷积网络层)可以分别生成均值特征和方差特征,进而可以对均值特征和方差特征进行处理后可以合成最终的隐藏特征表示,即第二基因编码特征。
可以理解的是,若均值特征记为μ,方差特征记为σ,那么第二基因编码特征可以记为S=μ+σ*τ,其中τ为符合标准高斯分布的随机数(即上述采样参数),即τ是从均值为0,方差为1的高斯分布(正态分布)中选取的随机数。进一步地,可以将第一编码器输出的第一基因编码特征与第二编码器输出的第二基因编码特征进行相加,得到第一联合编码特征。
步骤S104,通过初始预测模型中的第一解码器对第一联合编码特征进行解码处理,得到基因表达重构特征,通过初始预测模型中的第二解码器对第一联合编码特征进行解码处理,得到重构空间邻域图。
具体的,第一联合编码特征可以分别输入至第一解码器和第二解码器,通过第一解码器对第一联合编码特征进行解码处理,即基于第一联合编码特征对第一基因表达特征进行还原,得到基因表达重构特征(即重构的第一基因表达特征)。通过第二解码器对第一联合编码特征进行解码处理,即基于第一联合编码特征对第一空间邻域图进行还原,得到重构空间邻域图(即重构的第一空间邻域图)。
其中,第一解码器可以包括一个完全连接的网络层以及后面连接的一个归一化网络层、一个激活网络层以及一个正则网络层等,当然第一解码器也可以根据实际应用场景需求确定其网络结构,如是否需要连接激活网络层、归一化网络层等,是否需要增加全连接网络层的数量等,在此不做限定。第二解码器可以通过节点(细胞)间分布特征(例如,均值特征和方差特征)的内积判断两个节点是否相邻,进而输出重构空间邻域图,此处不对第二解码器的网络结构进行限定。
需要说明的是,由第一编码器和第一解码器组成的自编码器可以利用均方误差(Mean Square Erro,MSE)损失函数最大限度地提高第一解码器输出的基因表达重构特征与第一基因表达特征之间的相似性。由第二编码器和第二解码器组成的变分图自编码器(VGAE)可以用于处理嵌入的空间邻域图,其第二编码器-第二解码器结构的变分修改可以在潜在空间中引入正则化,从而改善空间嵌入的性能。
请参见图5,图5是本申请实施例提供的一种图卷积网络模型的结构示意图。如图5所示的图卷积网络模型40k为初始预测模型的基线模型,该图卷积网络模型40k可以由自编码器40a和变分图自编码器40b组成。基于参考数据集和空间转录组数据集可以获取第一空间邻域图40e和第一基因表达特征40c,第一基因表达特征40c经过第一编码器的降维处理后可以得到第一基因编码特征40d。进而可以将第一空间邻域图40e和第一基因编码特征40d输入至第二编码器,第一空间邻域图40e和第一基因编码特征40d经过第二编码器的图编码嵌入后可以输出均值特征40f和方差特征40g,进而可以将均值特征40f和方差特征40g合成为第二基因编码特征40h。
将第一基因编码特征40d和第二基因编码特征40h相加,得到第一联合编码特征40n,该第一联合编码特征40n可以表示为第一空间邻域图40e和第一基因表达特征40c的最终嵌入特征表达。第一联合编码特征40n可以分别输入至第一解码器和第二解码器,经过第一解码器的解码处理后输出基因表达重构特征40i,经过第二解码器的解码处理后输出重构空间邻域图40j。
需要说明的是,为便于描述,本申请实施例可以将图5所示的图卷积网络模型40k缩略为图卷积网络模型40m,图卷积网络模型40m中的编码组件包括第一编码器和第二编码器,图卷积网络模型40m中的解码组件包括第一解码器和第二解码器,图卷积网络模型40m中的特征Z表示前述第一联合编码特征40n。
步骤S105,根据基因表达重构特征、第一基因表达特征、重构空间邻域图、第一空间邻域图、第一联合编码特征以及候选细胞集合在参考数据集中的标签信息,对初始预测模型的网络参数进行修正,得到目标预测模型;目标预测模型用于输出组织样本对应的空间转录组数据的基因空间分布预测结果或者细胞预测类型。
具体的,初始预测模型想要实现的空间转录组任务不同,其对应的损失函数也会不同,因此初始预测模型的模型损失函数与其想要实现的空间转录任务相关。无论初始预测模型想要实现的空间转录组任务是什么,该初始预测模型的模型总损失都是基于基因表达重构特征、第一基因表达特征、重构空间邻域图、第一空间邻域图、第一联合编码特征以及候选细胞集合在参考数据集中的标签信息来确定的,在计算得到初始预测模型的模型总损失后,可以基于该模型总损失对初始预测模型的网络参数进行迭代训练,直至模型总损失达到训练结束条件时,停止训练并保存训练结束时的初始预测模型,根据训练结束时的初始预测模型确定目标预测模型。
其中,训练结束条件可以为模型总损失小于或等于预先设置的误差阈值,或者初始预测模型的训练次数达到预先设定的最大迭代次数等。初始预测模型的训练过程想要实现的空间转录组任务不同,那么训练得到的目标预测模型的网络结构也会有所差异,如初始预测模型的训练过程适用于实现基因空间分布预测任务时,训练得到的目标预测模型可以用于输出组织样本对应的空间转录组数据的基因空间分布预测结果;当初始预测模型的训练过程适用于实现细胞类型注释任务时,训练得到的目标预测模型可以用于输出组织样本对应的空间转录组数据的细胞预测类型。
本申请实施例中,空间转录组数据相比于单细胞转录组数据建立的细胞基因表达特征,还可以包括细胞的空间位置信息,细胞在空间上的排列可以表征为细胞之间存在的相互关系,初始预测模型可以利用细胞的空间位置信息(以空间邻域图的形式进行呈现,如第一空间邻域图),并引入细胞与相邻细胞之间的共有基因表达特征,由此训练得到的目标预测模型可以提高空间转录组数据的预测准确性;此外,由于参考数据集和空间转录组数据所对应的空间邻域图为大规模图结构数据,因此可以在初始预测模型的训练阶段采用随机子图训练策略,在完成大规模图结构数据的训练的情形下,可以节省计算资源。
需要说明的是,本申请实施例训练完成的目标预测模型(即前述DAGCN)可以充分利用基于单细胞转录组测序数据(也可以称为单细胞转录组数据,在DAGCN的训练过程中可以作为参考数据集)建立的细胞基因表达谱和细胞类别的先验知识,使用域迁移的方式将这些先验知识应用到空间转录组的基因空间分布预测和细胞类型注释过程中;此外,空间转录组相比于单细胞转录组还可以获得细胞的空间位置,细胞在空间上的排列可以用于表征细胞之间的相互关系,DAGCN方法可以利用细胞的空间位置信息嵌入(由随机子图训练方式得到的空间邻域图),获取细胞与相邻细胞之间的基因共表达特征,可以提升空间转录组的基因空间分布预测和细胞类型注释的性能。
下面将结合图6至图8c,对用于实现空间转录组数据的基因空间分布预测任务的初始预测模型的训练过程进行详细描述。
请参见图6,图6是本申请实施例提供的一种数据处理方法的流程示意图二;可以理解地,该数据处理方法可以由计算机设备执行,该计算机设备可以为服务器,或者可以为终端设备,本申请对此不做限定。如图6所示,该数据处理方法可以包括以下步骤S201至步骤S210:
步骤S201,获取参考数据集和空间转录组数据集,基于参考数据集和空间转录组数据集,获取包含候选细胞集合的第一空间邻域图;第一空间邻域图用于表征候选细胞集合中的细胞的空间位置信息,参考数据集包括携带标签信息的单细胞转录组数据。
步骤S202,获取候选细胞集合在参考数据集和空间转录组数据集中的第一基因表达特征,通过初始预测模型中的第一编码器对第一基因表达特征进行编码处理,得到第一基因编码特征。
步骤S203,通过初始预测模型中的第二编码器对第一基因编码特征和第一空间邻域图进行编码处理,得到第二基因编码特征,将第一基因编码特征和第二基因编码特征组合为第一联合编码特征。
步骤S204,通过初始预测模型中的第一解码器对第一联合编码特征进行解码处理,得到基因表达重构特征,通过初始预测模型中的第二解码器对第一联合编码特征进行解码处理,得到重构空间邻域图。
其中,步骤S201至步骤S204的具体实现过程可以参见前述图2所对应实施例中的步骤S101至步骤S104的描述,此处不再进行赘述。
步骤S205,将基因表达重构特征和重构空间邻域图输入至第一域分类器,通过第一域分类器输出第一分类结果;将第一联合编码特征输入至第二域分类器,通过第二域分类器输出第二分类结果。
本申请实施例中,为了实现空间转录组数据的基因空间分布预测任务,可以在图卷积网络模型的基础上增加两个额外的域分类器来实施参考数据集(源域)到空间转录组数据集(目标域)的域迁移训练。换言之,此时的初始预测模型除了包括前述第一编码器、第二编码器、第一解码器以及第二解码器之外,还可以包括第一域分类器Dc和第二域分类器Di;其中,第一域分类器Dc可以用于辅助训练参考数据集(源域)的图卷积网络模型对输入的第一基因表达特征和第一空间邻域图的还原过程;第二域分类器Di用于区分不同来源的数据集,即用于区分输入的第一基因表达特征和第一空间邻域图是来源于参考数据集(源域)还是来源于空间转录组数据集(目标域)。此时,初始预测模型的训练过程中,输入初始预测模型的第一基因表达特征包括候选细胞集合中的各个细胞在参考数据集和空间转录组数据集中的共有基因对应的基因表达特征(可以简称为共有基因表达特征),以及目标基因对应的初始化的基因表达特征(可以简称为初始化的目标基因表达特征);参考数据集所包含的关于候选细胞集合中各个细胞的共有基因和目标基因对应的基因表达特征可以作为训练初始预测模型的监督信息,即参考数据集中的共有基因表达特征和目标基因表达特征可以作为该候选细胞集合对应的标签信息。
需要说明的是,初始预测模型的训练过程可以包括三个阶段:第一个阶段仅将参考数据集作为初始预测模型的输入数据,此时输入初始预测模型的第一基因表达特征可以为参考数据集中的候选细胞集合的各个细胞对应的共有基因表达特征和初始化的目标基因表达特征;例如,初始化的目标基因表达特征可以是指将参考数据集中的目标基因表达特征进行置零后所得到的基因表达矩阵。第二个阶段仅将空间转录组数据集作为初始预测模型的输入数据,此时输入初始预测模型的第一基因表达特征可以为空间转录组数据集中的候选细胞集合的各个细胞对应的共有基因表达特征和初始化的目标基因表达特征;由于空间转录组数据集中没有目标基因的测量值,即空间转录组数据集不包含候选细胞集合中的目标基因对应的基因表达特征,那么此时初始化的目标基因表达特征可以为由随机数构成的基因表达矩阵,或者可以直接不输入目标基因表达特征,本申请对此不做限定。第三阶段可以将参考数据集和空间转录组数据集作为初始预测模型的输入数据,即可以同时输入参考数据集和空间转录组数据集,并使用第二域分类器Di区分不同数据集的输入数据,由此可以训练第二域分类器Di
请参见图7,图7是本申请实施例提供的一种用于实现基因空间分布预测任务的初始预测模型的训练示意图。如图7所示的数据集50a表示参考数据集,数据集50b表示空间转录组数据集。若候选细胞集合属于参考数据集中的组织样本50c,那么候选细胞集合在组织样本50c中的共有基因表达特征和目标基因表达特征作为标签信息Ms(监督信息);此时的第一基因表达特征可以记为Ma,Ma可以是指对标签信息Ms中的目标基因表达特征进行置零后的基因表达矩阵;此时的第一空间邻域图可以记为As,As表示候选细胞集合在组织样本50c中的空间位置信息。若候选细胞集合属于空间转录组数据集中的组织样本50d,该候选细胞集合在空间转录组数据集中不携带标签信息;此时的第一基因表达特征可以记为Mt,Mt可以表示候选细胞集合在组织样本50d中的共有基因表达特征和随机初始化的目标基因表达特征;此时的第一空间邻域图可以记为At,At表示候选细胞集合在组织样本50d中的空间位置信息。
在初始预测模型的训练过程中,将第一基因表达特征和第一空间邻域图输入至初始预测模型所包含的图卷积网络模型40m(具体结构可以如前述图5所示的图卷积网络模型40k)中的编码组件,通过该编码组件可以得到第一联合编码特征Z;进而可以将第一联合编码特征Z输入至图卷积网络模型40m中的解码组件,通过该解码组件可以得到基因表达重构特征和重构空间邻域图。进一步地,可以将解码组件输出的基因表达重构特征和重构空间邻域图输入至第一域分类器Dc,通过第一域分类器Dc可以输出第一分类结果。与此同时,也可以将第一联合编码特征Z输入至第二域分类器Di,通过该第二域分类器Di可以输出第二分类结果。
步骤S206,根据第一分类结果确定第一域分类器对应的第一分类损失,根据第二分类结果和第一基因表达特征所属的数据集标签,确定第二域分类器对应的第二分类损失。
具体的,如图7所示,可以根据第一域分类器Dc输出的第一分类结果,计算该第一域分类器Dc对应的第一分类损失Lc;其中,第一分类损失Lc可以用于辅助训练参考数据集中的初始预测模型对第一基因表达特征和第一空间邻域图的还原过程。
可选地,可以根据第二分类结果和第一基因表达特征所属的数据集标签,确定第二域分类器Di对应的第二分类损失Li。其中,第一基因表达特征所属的数据集标签(也可以称为域标签)可以用于确定第一基因表达特征属于参考数据集还是空间转录组数据集;当第一基因表达特征属于参考数据集时(第一基因表达特征为Ma),第一基因表达特征所属的数据集标签为源域标签,那么此时第二域分类器Di在训练时所使用的数据集标签为源域标签;当第一基因表达特征属于空间转录组数据集时(第一基因表达特征为Mt),第一基因表达特征所属的数据集标签为目标域标签,那么此时第二域分类器Di在训练时使用相反的数据集标签(即源域标签)。通过反向传播第一域分类器Dc的第一分类损失Lc以及第二域分类器Di的第二分类损失Li,可以用于更新图卷积网络模型40m的网络参数。
步骤S207,若第一基因表达特征属于参考数据集,则根据基因表达重构特征和候选细胞集合对应的标签信息之间的误差,以及重构空间邻域图和第一空间邻域图之间的误差,确定初始预测模型的第一重构损失。
具体的,如图7所示,若第一基因表达特征为Ma(属于参考数据集),则输入初始预测模型的第一空间邻域图为As,此时解码组件输出的基因表达重构特征为M′a、重构空间邻域图为A′s,此时可以根据基因表达重构特征M′a和候选细胞集合对应的标签信息Ms之间的误差,以及重构空间邻域图A′s和第一空间邻域图As之间的误差,确定初始预测模型的第一重构损失
步骤S208,若第一基因表达特征属于空间转录组数据集,则根据基因表达重构特征和第一基因表达特征之间的误差,以及重构空间邻域图和第一空间邻域图之间的误差,确定初始预测模型的第二重构损失。
具体的,如图7所示,若第一基因表达特征为Mt(属于空间转录组数据集),则输入初始预测模型的第一空间邻域图为At,此时解码组件输出的基因表达重构特征为M′t、重构空间邻域图为A′t,此时可以根据基因表达重构特征M′t和第一基因表达特征Mt之间的误差,以及重构空间邻域图A′t和第一空间邻域图At之间的误差,确定初始预测模型的第二重构损失
可选地,可以将基因表达重构特征M′t中的共有基因的还原值与输入的第一基因表达特征Mt之间的误差,以及重构空间邻域图A′t和第一空间邻域图At之间的误差,确定初始预测模型的第二重构损失可以理解的是,该第一重构损失和第二重构损失均可以为MSE损失,或者可以为其他损失函数类型,本申请对重构损失函数的类型不做限定。
步骤S209,根据第一分类损失、第二分类损失、第一重构损失以及第二重构损失,确定初始预测模型的模型总损失。
具体的,可以将第一分类损失Lc、第二分类损失Li、第一重构损失以及第二重构损失组合为初始预测模型的模型总损失。例如,可以对第一分类损失Lc、第二分类损失Li、第一重构损失以及第二重构损失进行加权求和,或者进行分段加权求和,以得到初始预测模型的模型总损失。
步骤S210,基于模型总损失对初始预测模型中的网络参数进行迭代训练,直至模型总损失满足训练结束条件时,停止训练并将训练结束时的初始预测模型中的第一编码器、第二编码器以及第一解码器确定为目标预测模型;目标预测模型用于输出组织样本对应的空间转录组数据的基因空间分布预测结果。
具体的,在计算得到初始预测模型的模型总损失后,可以基于该模型总损失对初始预测模型的网络参数进行迭代训练,直至模型总损失达到训练结束条件(模型总损失小于或等于预先设置的误差阈值,或者初始预测模型的训练次数达到预先设定的最大迭代次数等)时,可以停止训练并保存训练结束时的初始预测模型的所有网络参数,进而可以将训练结束时的第一编码器、第二编码器以及第一解码器,确定为用于输出组织样本对应的空间转录组数据的基因空间分布预测结果的目标预测模型。
可以理解的是,当本申请实施例训练完成的目标预测模型(可以简称为DAGCN方法)用于实现空间转录组的基因空间分布预测任务时,可以在不同的数据集中量化对比DAGCN方法与目前现有的多种基因空间分布预测方法的性能。具体的基因空间分布预测测试中,以4个空间转录组的数据集、7种现有的基因空间分布预测方法为例,对DAGCN方法与现有的基因空间分布预测方法的性能进行量化对比。其中,上述基因空间分布预测测试中所使用的4个空间转录组的数据集可以为不同生物器官标本切片的基因空间转录组数据集,基因空间转录组数据集可以包括但不限于:HPR数据集(小鼠下丘脑视前区数据集,可简称为数据集1)、MOp数据集(小鼠初级运动皮层数据集,可简称为数据集2)、VISp(主要视觉皮层)数据集(小鼠初级视觉皮层数据集,可简称为数据集3)以及Testis数据集(小鼠精囊细胞数据集,可简称为数据集4)。
基因空间分布预测测试中所使用的7种现有的基因空间分布预测方法可以包括但不限于:Tangram(一种采用非凸优化和深度学习的方法,可以简称为方法1),stPlus(一种提升空间转录组学准确性的方法,可简称为方法2),SpaGE(一种基于单细胞RNA测序的空间基因增强方法,可简称为方法3),gimVI(一种采用深度生成模型的方法,可简称为方法4),Seurat(一种采用典型相关分析的方法,可简称为方法5),MNN(一种采用互近邻搜索算法校正单细胞RNA测序批次效应的方法,可简称为方法6)和Liger(一种采用非负矩阵分解和共享因子邻域图的方法,可简称为方法7)等。
本申请实施例中,以斯皮尔曼相关系数(Spearman correlation coefficients,SCC)、均方根误差(Root Mean Square Error,RMSE)、模型运行时间(runtime)等指标来评估不同的基因空间分布预测方法的性能。其中,该SCC可以用于评估每个基因在空间转录组数据中的真实空间分布与预测空间分布之间的相关性,SCC越高表示该方法的性能越好;RMSE用于评估每个基因在空间转录组数据中的真实空间分布与预测空间分布之间的误差,RMSE越小表示该方法的性能越好。
请参见图8a至图8c,图8a、图8b、图8c依次为本申请实施例提供的基于目标预测模型的基因空间分布预测结果示意图一、示意图二以及示意图三。通过图8a所示的SCC指标可知,在4个不同的空间转录组的数据集中,相比于现有的7种基因空间分布预测方法,本申请提出的DAGCN方法取得了最优的SCC指标。通过图8b所示的RMSE指标可知,在4个不同的空间转录组的数据集中,相比于现有的7种基因空间分布预测方法,DAGCN方法取得了最低的RMSE指标,或者仅次于最低RMSE指标(如在数据集3和数据集4中测试的方法4)。通过图8c所示的运行时间可知,在4个不同的空间转录组的数据集中,相比于现有的7种基因空间分布预测方法,DAGCN方法的运行效率相对适中。总而言之,从SCC指标和RMSE指标来看,DAGCN方法相对于目前较为常用的7种基因空间分布预测方法,在运行效率相对适中的基础上,在基因空间分布预测任务中具有更好的性能;且通过可视化可以发现,DAGCN方法预测得到的基因空间分布(即基因空间分布预测结果)与真实的基因空间分布之间的相似度极高。
本申请实施例中,在初始预测模型的训练过程中,可以充分利用参考数据集中的单细胞转录组数据建立的细胞基因表达特征的先验知识,使用域迁移的方式将这些先验知识应用到空间转录组数据的基因空间分布预测过程中。其次,空间转录组数据相比于单细胞转录组数据建立的细胞基因表达特征,还可以包括细胞的空间位置信息,细胞在空间上的排列可以表征为细胞之间存在的相互关系,初始预测模型可以利用细胞的空间位置信息,并引入细胞与相邻细胞之间的共有基因表达特征,由此训练得到的目标预测模型可以提升空间转录组数据的基因空间分布预测的性能。此外,由于参考数据集和空间转录组数据所对应的空间邻域图为大规模图结构数据,因此可以在初始预测模型的训练阶段采用随机子图训练策略,在完成大规模图结构数据的训练的情形下,可以节省计算资源。
下面将结合图9至图11,对用于实现空间转录组数据的细胞类型注释任务的初始预测模型的训练过程进行详细描述。
请参见图9,图9是本申请实施例提供的一种数据处理方法的流程示意图三;可以理解地,该数据处理方法可以由计算机设备执行,该计算机设备可以为服务器,或者可以为终端设备,本申请对此不做限定。如图9所示,该数据处理方法可以包括以下步骤S301至步骤S309:
步骤S301,获取参考数据集和空间转录组数据集,基于参考数据集和空间转录组数据集,获取包含候选细胞集合的第一空间邻域图;第一空间邻域图用于表征候选细胞集合中的细胞的空间位置信息,参考数据集包括携带标签信息的单细胞转录组数据。
步骤S302,获取候选细胞集合在参考数据集和空间转录组数据集中的第一基因表达特征,通过初始预测模型中的第一编码器对第一基因表达特征进行编码处理,得到第一基因编码特征。
步骤S303,通过初始预测模型中的第二编码器对第一基因编码特征和第一空间邻域图进行编码处理,得到第二基因编码特征,将第一基因编码特征和第二基因编码特征组合为第一联合编码特征。
步骤S304,通过初始预测模型中的第一解码器对第一联合编码特征进行解码处理,得到基因表达重构特征,通过初始预测模型中的第二解码器对第一联合编码特征进行解码处理,得到重构空间邻域图。
其中,步骤S301至步骤S304的具体实现过程可以参见前述图2所对应实施例中的步骤S101至步骤S104的描述,此处不再进行赘述。
步骤S305,将第一联合编码特征依次输入至第二域分类器和特征分类器,通过第二域分类器输出第二分类结果,通过特征分类器对第一联合特征进行识别,得到细胞分类结果。
本申请实施例中,为了实现空间转录组数据的细胞类型注释任务,可以在图卷积网络模型的基础上增加一个额外的域分类器Di来实施参考数据集(源域)到空间转录组数据集(目标域)的域迁移训练,增加一个特征分类器CLS来实施第一联合编码特征Z的细胞类型预测。换言之,此时的初始预测模型除了包括前述第一编码器、第二编码器、第一解码器以及第二解码器之外,还可以包括特征分类器CLS和第二域分类器Di。此时,初始预测模型的训练过程中,输入初始预测模型的第一基因表达特征包括候选细胞集合中的各个细胞在参考数据集和空间转录组数据集中的共有基因对应的基因表达特征(共有基因表达特征);候选细胞集合对应的标签信息可以为候选细胞集合中的各个细胞在参考数据集中的细胞类型标签。
需要说明的是,此时初始预测模型的训练过程同样可以包括三个阶段:第一个阶段仅将参考数据集作为初始预测模型的输入数据,此时输入初始预测模型的第一基因表达特征可以为参考数据集中的候选细胞集合的各个细胞对应的共有基因表达特征。第二个阶段仅将空间转录组数据集作为初始预测模型的输入数据,此时输入初始预测模型的第一基因表达特征可以为空间转录组数据集中的候选细胞集合的各个细胞对应的共有基因表达特征。第三阶段可以将参考数据集和空间转录组数据集作为初始预测模型的输入数据,即可以同时输入参考数据集和空间转录组数据集,并使用第二域分类器Di区分不同数据集的输入数据,由此可以训练第二域分类器Di
请参见图10,图10是本申请实施例提供的一种用于实现细胞类型注释任务的初始预测模型的训练示意图。对于候选细胞集合所属的数据集的相关描述可以参见前述图7所对应实施例中的相关描述,此处不再进行赘述。在初始预测模型的训练过程中,通过图卷积网络模型40m中的编码组件可以得到第一联合编码特征Z,通过图卷积网络模型40m中的解码组件可以得到基因表达重构特征和重构空间邻域图。进一步地,可以将第一联合编码特征Z输入至特征分类器CLS,通过特征分类器CLS对第一联合编码特征Z进行识别处理可以得到细胞分类结果。该第一联合编码特征Z也可以输入至第二域分类器Di,通过该第二域分类器Di可以输出第二分类结果。
步骤S306,根据第二分类结果和第一基因表达特征所属的数据集标签,确定第二域分类器对应的第二分类损失;根据细胞分类结果和候选细胞集合对应的细胞类型标签,确定特征分类器对应的特征分类损失。
具体的,如图10所示,可以根据第二分类结果和第一基因表达特征所属的数据集标签(域标签),确定第二域分类器Di对应的第二分类损失Li。其中,第二分类损失Li的计算方式可以参见前述步骤S206中的相关描述,此处不再进行赘述;通过反向传播第二域分类器Di的第二分类损失Li,可以用于更新图卷积网络模型40m的网络参数。
根据细胞分类结果和候选细胞集合在参考数据集中的细胞类型标签之间的误差,计算特征分类器CLS对应的特征分类损失LFL(Ys,Yp);其中Ys表示候选细胞集合对应的细胞类型标签,Yp表示通过特征分类器CLS所预测得到的候选细胞集合中的各个细胞分别对应的细胞分类结果,参考数据集中的细胞类型标签Ys可以用于训练特征分类器CLS。
步骤S307,根据基因表达重构特征和第一基因表达特征之间的误差,以及重构空间邻域图和第一空间邻域图之间的误差,确定初始预测模型的第二重构损失。
具体的,如图10所示,若第一基因表达特征为Ma(属于参考数据集),则输入初始预测模型的第一空间邻域图为As,此时解码组件输出的基因表达重构特征为M′a、重构空间邻域图为A′s,此时可以根据基因表达重构特征M′a和第一基因表达特征Ma之间的误差,以及重构空间邻域图A′s和第一空间邻域图As之间的误差,确定初始预测模型的第二重构损失
可选地,若第一基因表达特征为Mt(属于空间转录组数据集),则输入初始预测模型的第一空间邻域图为At,此时解码组件输出的基因表达重构特征为M′t、重构空间邻域图为A′t,此时可以根据基因表达重构特征M′t和第一基因表达特征Mt之间的误差,以及重构空间邻域图A′t和第一空间邻域图At之间的误差,确定初始预测模型的第二重构损失
步骤S308,根据第二分类损失、特征分类损失以及第二重构损失,确定初始预测模型对应的模型总损失。
具体的,可以将第二分类损失Li、特征分类损失LFL(Ys,Yp)以及第二重构损失或者组合为初始预测模型的模型总损失。例如,可以对第二分类损失Li、特征分类损失LFL(Ys,Yp)以及第二重构损失或者进行加权求和,得到初始预测模型的模型总损失。
步骤S309,基于模型总损失对初始预测模型中的网络参数进行迭代训练,直至模型总损失满足训练结束条件时,停止训练并将训练结束时的初始预测模型中的第一编码器、第二编码器以及特征分类器确定为目标预测模型;目标预测模型用于输出组织样本对应的空间转录组数据的细胞预测类型。
具体的,在计算得到初始预测模型的模型总损失后,可以基于该模型总损失对初始预测模型的网络参数进行迭代训练,直至模型总损失达到训练结束条件(模型总损失小于或等于预先设置的误差阈值,或者初始预测模型的训练次数达到预先设定的最大迭代次数等)时,可以停止训练并保存训练结束时的初始预测模型的所有网络参数,进而可以将训练结束时的第一编码器、第二编码器以及特征分类器,确定为用于输出组织样本对应的空间转录组数据的细胞预测类型的目标预测模型。
可以理解的是,当本申请实施例训练完成的目标预测模型(DAGCN方法)用于实现空间转录组的细胞类型注释任务时,可以在不同的数据集中量化对比DAGCN方法与目前现有的多种细胞类型注释方法的性能。具体的细胞类型注释测试中,以3个空间转录组的数据集、10种现有的细胞类型注释方法为例,对DAGCN方法与现有的细胞类型注释方法的性能进行量化对比。其中,细胞类型注释测试中所使用的3个空间转录组的数据集可以为前述数据集1、数据集2以及数据集4。细胞类型注释测试中所使用的10种现有的细胞类型注释方法可以包括但不限于:Tangram(即前述方法1),Spatial-ID(一种通过迁移学习和空间嵌入进行空间高分辨转录组数据的细胞类型注释方法,可简称为方法8),DNN(Deep NeuralNetworks,深度神经网络,可简称为方法9),Cell-ID(一种基于细胞标识的单细胞水平基因特征提取和细胞类型注释方法,可简称为方法10),SciBet(一种可移植且快速的单细胞类型注释方法,可简称为方法11),Scmap(一种跨数据集的单细胞RNA测序的数据投影方法,可简称为方法12),ScNym(一种基于半监督对抗神经网络的单细胞分类方法,可简称为方法13),Seurat(即前述方法5),SingleR(一种单细胞测序细胞类型注释方法,可简称为方法14)和Cell2location(一种采用贝叶斯模型的方法,可简称为方法15)等。
本申请实施例中,以准确率(Accuracy,ACC)、F1分数(F1 score)等指标来评估不同的细胞类型注释方法的性能。其中,ACC可以用于表示细胞类型注释结果的准确性,即预测正确的样本数量除以总样本数量;F1分数是精确率(precision,也可以称为查准率)和召回率(recall,也可以称为查全率)的调和平均数,最大值为1,最小值为0;精确率是指预测为正样本的所有样本中预测正确的概率,召回率是指在原始样本的正样本中预测正确的概率;通常情况下,精确率高,召回率低,而召回率搞,精确率低;上述ACC指标和F1分数指标均是越大表示该方法的性能越好。可以理解的是,细胞类型注释测试中可以根据实际应用场景来选择F1分数的计算方式,如Micro-F1分数(计算所有类别的总体F1分数)、Macro-F1分数(计算各个类别的F1分数后求平均)、Weighted-F1(加权平均F1分数,计算各个类别的F1分数后进行加权平均),本申请实施例对F1分数的计算方式不做限定。
请参见图11,图11是本申请实施例提供的一种基于目标预测模型的细胞类型注释结果示意图。如图11所示,本申请提出的DAGCN方法和上述10种现有的细胞类型注释方法在数据集1、数据集2、数据集4上的ACC指标依次如柱状图60a、柱状图60c以及柱状图60e所示;DAGCN方法和上述10种现有的细胞类型注释方法在数据集1、数据集2、数据集4上的加权平均F1分数指标依次如柱状图60b、柱状图60d以及柱状图60f所示。通过图11所示的ACC指标和加权平均F1分数指标可知,在3个不同的空间转录组的数据集中,DAGCN方法相对于目前较为常用的10种细胞类型注释方法,具有更高的ACC指标和加权平均F1分数指标,即DAGCN方法在细胞类型注释任务中具有更好的性能;且通过可视化可以发现,DAGCN方法得到的细胞预测类型与细胞真实类型之间的相似度极高。
本申请实施例中,在初始预测模型的训练过程中,可以充分利用参考数据集中的单细胞转录组数据建立的细胞类型的先验知识,使用域迁移的方式将这些先验知识应用到空间转录组数据的细胞类型预测过程中。其次,空间转录组数据相比于单细胞转录组数据建立的细胞基因表达特征,还可以包括细胞的空间位置信息,细胞在空间上的排列可以表征为细胞之间存在的相互关系,初始预测模型可以利用细胞的空间位置信息(以空间邻域图的形式进行呈现),并引入细胞与相邻细胞之间的共有基因表达特征,由此训练得到的目标预测模型可以提升空间转录组数据的细胞类型注释的性能。此外,由于参考数据集和空间转录组数据所对应的空间邻域图为大规模图结构数据,因此可以在初始预测模型的训练阶段采用随机子图训练策略,在完成大规模图结构数据的训练的情形下,可以节省计算资源。
下面将结合图12和图13,对由前述图6至图8c所对应实施例训练得到的目标预测模型,在空间转录组的基因空间分布预测任务中的应用过程进行描述。
请参见图12,图12是本申请实施例提供的一种数据处理方法的流程示意图四;可以理解地,该数据处理方法可以由计算机设备执行,该计算机设备可以为服务器,或者可以为终端设备,本申请对此不做限定。如图12所示,该数据处理方法可以包括以下步骤S401至步骤S404:
步骤S401,获取组织样本对应的空间转录组数据,根据空间转录组数据所包含的空间位置信息和第二基因表达特征,构建组织样本中的细胞对应的第二空间邻域图。
步骤S402,通过目标预测模型中的第一编码器对第二基因表达特征进行编码处理,得到空间转录组数据对应的第三基因编码特征。
步骤S403,通过目标预测模型中的第二编码器对第二空间邻域图和第三基因编码特征进行编码处理,得到空间转录组数据对应的第四基因编码特征,将第三基因编码特征和第四基因编码特征组合为第二联合编码特征。
步骤S404,通过目标预测模型中的第一解码器对第二联合编码特征进行解码处理,得到空间转录组数据对应的基因空间分布预测结果。
本申请实施例中,目标预测模型可以包括训练完成的第一编码器、第二编码器以及第一解码器。在获取到待处理的组织样本对应的空间转录组数据后,可以根据空间转录组数据所包含的空间位置信息和第二基因表达特征,构建组织样本中的细胞对应的第二空间邻域图,该第二空间邻域图包括待处理的组织样本中的所有细胞。其中,目标预测模型对空间转录组数据的基因空间分布预测过程可以参见前述图2所对应实施例中的基因表达重建特征生成过程的相关描述,此处不再进行赘述。
请参见图13,图13是本申请实施例提供的一种基于目标预测模型的基因空间分布预测示意图。如图13所示,在获取到待处理的组织样本对应的空间转录组数据后,可以构建该空间转录组数据对应的第二空间邻域图70f。可以将空间转录组数据中的第二基因表达特征70d输入至目标预测模型70a中的第一编码器,经过第一编码器的降维处理后可以得到第三基因编码特征70e。进而可以将第二空间邻域图70f和第三基因编码特征70e输入至第二编码器,第二空间邻域图70f和第三基因编码特征70e经过第二编码器的图编码嵌入后可以输出均值特征70g和方差特征70h,进而可以将均值特征70g和方差特征70h合成为第四基因编码特征70i。
将第三基因编码特征70e和第四基因编码特征70i相加,得到第二联合编码特征70j,该第二联合编码特征70j可以表示为第二空间邻域图70f和第二基因表达特征70d的最终嵌入特征表达。第二联合编码特征70j可以输入至第一解码器,经过第一解码器的解码处理后输出基因空间分布预测结果。
本申请实施例中,空间转录组数据相比于单细胞转录组数据建立的细胞基因表达特征,还可以包括细胞的空间位置信息,细胞在空间上的排列可以表征为细胞之间存在的相互关系,利用细胞的空间位置信息,并引入细胞与相邻细胞之间的共有基因表达特征,由此训练得到的目标预测模型可以提高空间转录组数据的基因空间分布的预测准确性。
下面将结合图14和图15,对由前述图9至图11所对应实施例训练得到的目标预测模型,在空间转录组的细胞类型注释任务中的应用过程进行描述。
请参见图14,图14是本申请实施例提供的一种数据处理方法的流程示意图五;可以理解地,该数据处理方法可以由计算机设备执行,该计算机设备可以为服务器,或者可以为终端设备,本申请对此不做限定。如图14所示,该数据处理方法可以包括以下步骤S501至步骤S504:
步骤S501,获取组织样本对应的空间转录组数据,根据空间转录组数据所包含的空间位置信息和第二基因表达特征,构建组织样本中的细胞对应的第二空间邻域图。
步骤S502,通过目标预测模型中的第一编码器对第二基因表达特征进行编码处理,得到空间转录组数据对应的第三基因编码特征。
步骤S503,通过目标预测模型中的第二编码器对第二空间邻域图和第三基因编码特征进行编码处理,得到空间转录组数据对应的第四基因编码特征,将第三基因编码特征和第四基因编码特征组合为第二联合编码特征。
步骤S504,通过目标预测模型中的特征分类器对第二联合编码特征进行识别,得到组织样本中的细胞所对应的细胞预测类型。
本申请实施例中,目标预测模型可以包括训练完成的第一编码器、第二编码器以及特征分类器。在获取到待处理的组织样本对应的空间转录组数据后,可以根据空间转录组数据所包含的空间位置信息和第二基因表达特征,构建组织样本中的细胞对应的第二空间邻域图,该第二空间邻域图包括待处理的组织样本中的所有细胞。其中,目标预测模型对空间转录组数据的细胞类型预测过程可以参见前述图9所对应实施例中的细胞分类结果的生成过程的相关描述,此处不再进行赘述。
请参见图15,图15是本申请实施例提供的一种基于目标预测模型的基因空间分布预测示意图。如图15所示,在获取到待处理的组织样本对应的空间转录组数据后,可以构建该空间转录组数据对应的第二空间邻域图80f。可以将空间转录组数据中的第二基因表达特征80d输入至目标预测模型80a中的第一编码器,经过第一编码器的降维处理后可以得到第三基因编码特征80e。进而可以将第二空间邻域图80f和第三基因编码特征80e输入至第二编码器,第二空间邻域图80f和第三基因编码特征80e经过第二编码器的图编码嵌入后可以输出均值特征80g和方差特征80h,进而可以将均值特征80g和方差特征80h合成为第四基因编码特征80i。
将第三基因编码特征80e和第四基因编码特征80i相加,得到第二联合编码特征80j,该第二联合编码特征80j可以表示为第二空间邻域图80f和第二基因表达特征80d的最终嵌入特征表达。第二联合编码特征80j可以输入至特征分类器,经过特征分类器对第二联合编码特征80j进行识别处理,输出组织样本中的各个细胞对应的细胞预测类型。
本申请实施例中,空间转录组数据相比于单细胞转录组数据建立的细胞基因表达特征,还可以包括细胞的空间位置信息,细胞在空间上的排列可以表征为细胞之间存在的相互关系,利用细胞的空间位置信息,并引入细胞与相邻细胞之间的共有基因表达特征,由此训练得到的目标预测模型可以提高空间转录组数据的细胞预测类型的准确性。
可以理解的是,在本申请的具体实施方式中,可能涉及到用于医学研究的生物组织切片(人体组织切片),当本申请以上实施例运用到具体产品或技术中时,需要获得用户等对象的许可或同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
请参见图16,图16是本申请实施例提供的一种数据处理装置的结构示意图。如图16所示,该数据处理装置1包括:邻域图获取模块101,第一编码模块102,第二编码模块103,第一解码模块104,参数修正模块105;
邻域图获取模块101,用于获取参考数据集和空间转录组数据集,基于参考数据集和空间转录组数据集,获取包含候选细胞集合的第一空间邻域图;第一空间邻域图用于表征候选细胞集合中的细胞的空间位置信息,参考数据集包括携带标签信息的单细胞转录组数据;
第一编码模块102,用于获取候选细胞集合在参考数据集和空间转录组数据集中的第一基因表达特征,通过初始预测模型中的第一编码器对第一基因表达特征进行编码处理,得到第一基因编码特征;
第二编码模块103,用于通过初始预测模型中的第二编码器对第一基因编码特征和第一空间邻域图进行编码处理,得到第二基因编码特征,将第一基因编码特征和第二基因编码特征组合为第一联合编码特征;
第一解码模块104,用于通过初始预测模型中的第一解码器对第一联合编码特征进行解码处理,得到基因表达重构特征,通过初始预测模型中的第二解码器对第一联合编码特征进行解码处理,得到重构空间邻域图;
参数修正模块105,用于根据基因表达重构特征、第一基因表达特征、重构空间邻域图、第一空间邻域图、第一联合编码特征以及候选细胞集合在参考数据集中的标签信息,对初始预测模型的网络参数进行修正,得到目标预测模型;目标预测模型用于输出组织样本对应的空间转录组数据的基因空间分布预测结果或者细胞预测类型。
在一个或多个实施例中,邻域图获取模块101基于参考数据集和空间转录组数据集,获取包含候选细胞集合的第一空间邻域图,包括:
根据参考数据集中的相邻细胞之间的距离,以及参考数据集中的相邻细胞对应的基因表达特征之间的相似度,构建参考数据集对应的源域空间邻域图;
根据空间转录组数据集中的相邻细胞之间的距离,以及空间转录组数据集中的相邻细胞对应的基因表达特征之间的相似度,构建空间转录组数据对应的目标域空间邻域图;
在源域空间邻域图和目标域空间邻域中选取初始细胞子集,获取初始细胞子集中的细胞的一阶邻居细胞和二阶邻居细胞,将初始细胞子集、一阶邻居细胞以及二阶邻居细胞组合为候选细胞集合;
在源域空间邻域图和目标域空间邻域中,将候选细胞集合所包含的细胞之间的边,以及候选细胞集合所包含的细胞确定为第一空间邻域图。
在一个或多个实施例中,第一编码模块102通过初始预测模型中的第一编码器对第一基因表达特征进行编码处理,得到第一基因编码特征,包括:
将第一基因表达特征输入至初始预测模型中的第一编码器,根据第一编码器中的全连接网络层对第一基因表达特征进行全连接处理,得到全连接输出特征;
对全连接输出特征进行归一化处理,得到归一化特征,根据第一编码器中的激活网络层对归一化特征进行变换处理,得到基因变换特征;
根据第一编码器中的正则网络层对基因变换特征进行正则化处理,得到第一基因编码特征。
在一个或多个实施例中,第二编码模块103通过初始预测模型中的第二编码器对第一基因编码特征和第一空间邻域图进行编码处理,得到第二基因编码特征,包括:
将第一基因编码特征和第一空间邻域图输入至初始预测模型中的第二编码器,根据第二编码器中的第一图卷积网络层对第一基因编码特征和第一空间邻域图进行下采样处理,得到图卷积特征;
根据第二编码器中的第二图卷积网络层对图卷积特征进行卷积运算,得到候选细胞集合对应的均值特征和方差特征;
在标准高斯分布中获取采样参数,将采样参数和方差特征的乘积,以及均值特征之和确定为第二基因编码特征。
在一个或多个实施例中,初始预测模型还包括第一域分类器和第二域分类器;第一基因表达特征包括候选细胞集合在参考数据集和空间转录组数据集中的共有基因表达特征和初始化的目标基因表达特征;候选细胞集合对应的标签信息包括参考数据集中的共有基因表达特征和目标基因表达特征;
参数修正模块105根据基因表达重构特征、第一基因表达特征、重构空间邻域图、第一空间邻域图、第一联合编码特征以及候选细胞集合在参考数据集中的标签信息,对初始预测模型的网络参数进行修正,得到目标预测模型,包括:
将基因表达重构特征和重构空间邻域图输入至第一域分类器,通过第一域分类器输出第一分类结果;
将第一联合编码特征输入至第二域分类器,通过第二域分类器输出第二分类结果;
根据第一分类结果、第二分类结果、基因表达重构特征、第一基因表达特征、重构空间邻域图、第一空间邻域图以及候选细胞集合对应的标签信息,对初始预测模型的网络参数进行修正,得到目标预测模型;目标预测模型用于输出组织样本对应的空间转录组数据的基因空间分布预测结果。
在一个或多个实施例中,参数修正模块105根据第一分类结果、第二分类结果、基因表达重构特征、第一基因表达特征、重构空间邻域图、第一空间邻域图以及候选细胞集合对应的标签信息,对初始预测模型的网络参数进行修正,得到目标预测模型,包括:
根据第一分类结果确定第一域分类器对应的第一分类损失,根据第二分类结果和第一基因表达特征所属的数据集标签,确定第二域分类器对应的第二分类损失;
若第一基因表达特征属于参考数据集,则根据基因表达重构特征和候选细胞集合对应的标签信息之间的误差,以及重构空间邻域图和第一空间邻域图之间的误差,确定初始预测模型的第一重构损失;
若第一基因表达特征属于空间转录组数据集,则根据基因表达重构特征和第一基因表达特征之间的误差,以及重构空间邻域图和第一空间邻域图之间的误差,确定初始预测模型的第二重构损失;
根据第一分类损失、第二分类损失、第一重构损失以及第二重构损失,确定初始预测模型的模型总损失;
基于模型总损失对初始预测模型中的网络参数进行迭代训练,直至模型总损失满足训练结束条件时,停止训练并将训练结束时的初始预测模型中的第一编码器、第二编码器以及第一解码器确定为目标预测模型。
在一个或多个实施例中,初始预测模型还包括第二域分类器和特征分类器;第一基因表达特征包括候选细胞集合在参考数据集和空间转录组数据集中的共有基因表达特征;候选细胞集合对应的标签信息包括参考数据集中的细胞类型标签;
参数修正模块105根据基因表达重构特征、第一基因表达特征、重构空间邻域图、第一空间邻域图、第一联合编码特征以及候选细胞集合在参考数据集中的标签信息,对初始预测模型的网络参数进行修正,得到目标预测模型,包括:
将第一联合编码特征依次输入至第二域分类器和特征分类器,通过第二域分类器输出第二分类结果,通过特征分类器对第一联合特征进行识别,得到细胞分类结果;
根据第二分类结果、细胞分类结果、基因表达重构特征、第一基因表达特征、重构空间邻域图、第一空间邻域图以及候选细胞集合对应的细胞类型标签,对初始预测模型的网络参数进行修正,得到目标预测模型;目标预测模型用于输出组织样本对应的空间转录组数据的细胞预测类型。
在一个或多个实施例中,根据第二分类结果、细胞分类结果、基因表达重构特征、第一基因表达特征、重构空间邻域图、第一空间邻域图以及候选细胞集合对应的细胞类型标签,对初始预测模型的网络参数进行修正,得到目标预测模型,包括:
根据第二分类结果和第一基因表达特征所属的数据集标签,确定第二域分类器对应的第二分类损失;
根据细胞分类结果和候选细胞集合对应的细胞类型标签,确定特征分类器对应的特征分类损失;
根据基因表达重构特征和第一基因表达特征之间的误差,以及重构空间邻域图和第一空间邻域图之间的误差,确定初始预测模型的第二重构损失;
根据第二分类损失、特征分类损失以及第二重构损失,确定初始预测模型对应的模型总损失;
基于模型总损失对初始预测模型中的网络参数进行迭代训练,直至模型总损失满足训练结束条件时,停止训练并将训练结束时的初始预测模型中的第一编码器、第二编码器以及特征分类器确定为目标预测模型。
在一个或多个实施例中,该数据处理装置1还包括:
邻域图构建模块106,用于获取组织样本对应的空间转录组数据,根据空间转录组数据所包含的空间位置信息和第二基因表达特征,构建组织样本中的细胞对应的第二空间邻域图;
第三编码模块107,用于通过目标预测模型中的第一编码器对第二基因表达特征进行编码处理,得到空间转录组数据对应的第三基因编码特征;
第四编码模块108,用于通过目标预测模型中的第二编码器对第二空间邻域图和第三基因编码特征进行编码处理,得到空间转录组数据对应的第四基因编码特征,将第三基因编码特征和第四基因编码特征组合为第二联合编码特征;
第二解码模块109,用于通过目标预测模型中的第一解码器对第二联合编码特征进行解码处理,得到空间转录组数据对应的基因空间分布预测结果。
在一个或多个实施例中,该数据处理装置1还包括:
邻域图构建模块106,用于获取组织样本对应的空间转录组数据,根据空间转录组数据所包含的空间位置信息和第二基因表达特征,构建组织样本中的细胞对应的第二空间邻域图;
第三编码模块107,用于通过目标预测模型中的第一编码器对第二基因表达特征进行编码处理,得到空间转录组数据对应的第三基因编码特征;
第四编码模块108,用于通过目标预测模型中的第二编码器对第二空间邻域图和第三基因编码特征进行编码处理,得到空间转录组数据对应的第四基因编码特征,将第三基因编码特征和第四基因编码特征组合为第二联合编码特征;
特征分类模块110,用于通过目标预测模型中的特征分类器对第二联合编码特征进行识别,得到组织样本中的细胞所对应的细胞预测类型。
根据本申请的一种实施例,前文所示的数据处理方法所涉及的步骤可以由图16所示的数据处理装置1中的各个模块来执行。例如,图2所示的步骤S101可由图16所示的邻域图获取模块101来执行,图2所示的步骤S102可由图16所示的第一编码模块102来执行,图2所示的步骤S103可由图16所示的第二编码模块103来执行,图2所示的步骤S104可由图16所示的第一解码模块104来执行,图2所示的步骤S105可由图16所示的参数修正模块105来执行等。
根据本申请的一个实施例,图16所示的数据处理装置1中的各个模块可以分别或全部合并为一个或若干个单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的至少两个子单元,可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的,在实际应用中,一个模块的功能也可以由至少两个单元来实现,或者至少两个模块的功能由一个单元实现。在本申请的其它实施例中,数据处理装置1也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由至少两个单元协作实现。
本申请实施例中,在初始预测模型的训练过程中,可以充分利用参考数据集中的单细胞转录组数据建立的细胞基因表达特征和细胞类型的先验知识,使用域迁移的方式将这些先验知识应用到空间转录组数据的基因空间分布预测和细胞类型预测过程中。其次,空间转录组数据相比于单细胞转录组数据建立的细胞基因表达特征,还可以包括细胞的空间位置信息,细胞在空间上的排列可以表征为细胞之间存在的相互关系,初始预测模型可以利用细胞的空间位置信息(以空间邻域图的形式进行呈现),并引入细胞与相邻细胞之间的共有基因表达特征,由此训练得到的目标预测模型可以提高空间转录组数据的预测准确性;也就是说,可以提升空间转录组数据的基因空间分布预测和细胞类型注释的性能。此外,由于参考数据集和空间转录组数据所对应的空间邻域图为大规模图结构数据,因此可以在初始预测模型的训练阶段采用随机子图训练策略,在完成大规模图结构数据的训练的情形下,可以节省计算资源。
请参见图17,图17是本申请实施例提供的一种计算机设备的结构示意图。如图17所示,该计算机设备1000可以为终端设备,例如,上述图1所对应实施例中的终端设备10a,还可以为服务器,例如,上述图1所对应实施例中的服务器10d,这里将不对其进行限制。为便于理解,本申请以计算机设备为终端设备为例,该计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,该计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图17所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
其中,该计算机设备1000中的网络接口1004还可以提供网络通讯功能,且可选用户接口1003还可以包括显示屏(Display)、键盘(Keyboard)。在图17所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取参考数据集和空间转录组数据集,基于参考数据集和空间转录组数据集,获取包含候选细胞集合的第一空间邻域图;第一空间邻域图用于表征候选细胞集合中的细胞的空间位置信息,参考数据集包括携带标签信息的单细胞转录组数据;
获取候选细胞集合在参考数据集和空间转录组数据集中的第一基因表达特征,通过初始预测模型中的第一编码器对第一基因表达特征进行编码处理,得到第一基因编码特征;
通过初始预测模型中的第二编码器对第一基因编码特征和第一空间邻域图进行编码处理,得到第二基因编码特征,将第一基因编码特征和第二基因编码特征组合为第一联合编码特征;
通过初始预测模型中的第一解码器对第一联合编码特征进行解码处理,得到基因表达重构特征,通过初始预测模型中的第二解码器对第一联合编码特征进行解码处理,得到重构空间邻域图;
根据基因表达重构特征、第一基因表达特征、重构空间邻域图、第一空间邻域图、第一联合编码特征以及候选细胞集合在参考数据集中的标签信息,对初始预测模型的网络参数进行修正,得到目标预测模型;目标预测模型用于输出组织样本对应的空间转录组数据的基因空间分布预测结果或者细胞预测类型。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图2、图6、图9、图12以及图14中任一个实施例中对数据处理方法的描述,也可执行前文图16所对应实施例中对数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的数据处理装置1所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图2、图6、图9、图12以及图14中任一个实施例中对数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。其中,存储介质可以为磁碟、光盘、只读存储器(Read-Only Memory,ROM)或随机存储器(Random Access Memory,RAM)等。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行,分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。
此外,需要说明的是:本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或者计算机程序可以包括计算机指令,该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器可以执行该计算机指令,使得该计算机设备执行前文图2、图6、图9、图12以及图14中任一个实施例中对数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同媒体内容,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (14)

1.一种数据处理方法,其特征在于,包括:
获取参考数据集和空间转录组数据集,基于所述参考数据集和所述空间转录组数据集,获取包含候选细胞集合的第一空间邻域图;所述第一空间邻域图用于表征所述候选细胞集合中的细胞的空间位置信息,所述参考数据集包括携带标签信息的单细胞转录组数据;
获取所述候选细胞集合在所述参考数据集和所述空间转录组数据集中的第一基因表达特征,通过初始预测模型中的第一编码器对所述第一基因表达特征进行编码处理,得到第一基因编码特征;
通过所述初始预测模型中的第二编码器对所述第一基因编码特征和所述第一空间邻域图进行编码处理,得到第二基因编码特征,将所述第一基因编码特征和所述第二基因编码特征组合为第一联合编码特征;
通过所述初始预测模型中的第一解码器对所述第一联合编码特征进行解码处理,得到基因表达重构特征,通过所述初始预测模型中的第二解码器对所述第一联合编码特征进行解码处理,得到重构空间邻域图;
根据所述基因表达重构特征、所述第一基因表达特征、所述重构空间邻域图、所述第一空间邻域图、所述第一联合编码特征以及所述候选细胞集合在所述参考数据集中的标签信息,对所述初始预测模型的网络参数进行修正,得到目标预测模型;所述目标预测模型用于输出组织样本对应的空间转录组数据的基因空间分布预测结果或者细胞预测类型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述参考数据集和所述空间转录组数据集,获取包含候选细胞集合的第一空间邻域图,包括:
根据所述参考数据集中的相邻细胞之间的距离,以及所述参考数据集中的相邻细胞对应的基因表达特征之间的相似度,构建所述参考数据集对应的源域空间邻域图;
根据所述空间转录组数据集中的相邻细胞之间的距离,以及所述空间转录组数据集中的相邻细胞对应的基因表达特征之间的相似度,构建所述空间转录组数据对应的目标域空间邻域图;
在所述源域空间邻域图和所述目标域空间邻域中选取初始细胞子集,获取所述初始细胞子集中的细胞的一阶邻居细胞和二阶邻居细胞,将所述初始细胞子集、所述一阶邻居细胞以及所述二阶邻居细胞组合为候选细胞集合;
在所述源域空间邻域图和所述目标域空间邻域中,将所述候选细胞集合所包含的细胞之间的边,以及所述候选细胞集合所包含的细胞确定为所述第一空间邻域图。
3.根据权利要求1所述的方法,其特征在于,所述通过初始预测模型中的第一编码器对所述第一基因表达特征进行编码处理,得到第一基因编码特征,包括:
将所述第一基因表达特征输入至所述初始预测模型中的第一编码器,根据所述第一编码器中的全连接网络层对所述第一基因表达特征进行全连接处理,得到全连接输出特征;
对所述全连接输出特征进行归一化处理,得到归一化特征,根据所述第一编码器中的激活网络层对所述归一化特征进行变换处理,得到基因变换特征;
根据所述第一编码器中的正则网络层对所述基因变换特征进行正则化处理,得到第一基因编码特征。
4.根据权利要求1所述的方法,其特征在于,所述通过所述初始预测模型中的第二编码器对所述第一基因编码特征和所述第一空间邻域图进行编码处理,得到第二基因编码特征,包括:
将所述第一基因编码特征和所述第一空间邻域图输入至所述初始预测模型中的第二编码器,根据所述第二编码器中的第一图卷积网络层对所述第一基因编码特征和所述第一空间邻域图进行下采样处理,得到图卷积特征;
根据所述第二编码器中的第二图卷积网络层对所述图卷积特征进行卷积运算,得到所述候选细胞集合对应的均值特征和方差特征;
在标准高斯分布中获取采样参数,将所述采样参数和所述方差特征的乘积,以及所述均值特征之和确定为所述第二基因编码特征。
5.根据权利要求1所述的方法,其特征在于,所述初始预测模型还包括第一域分类器和第二域分类器;所述第一基因表达特征包括所述候选细胞集合在所述参考数据集和所述空间转录组数据集中的共有基因表达特征和初始化的目标基因表达特征;所述候选细胞集合对应的标签信息包括所述参考数据集中的共有基因表达特征和目标基因表达特征;
所述根据所述基因表达重构特征、所述第一基因表达特征、所述重构空间邻域图、所述第一空间邻域图、所述第一联合编码特征以及所述候选细胞集合在所述参考数据集中的标签信息,对所述初始预测模型的网络参数进行修正,得到目标预测模型,包括:
将所述基因表达重构特征和所述重构空间邻域图输入至所述第一域分类器,通过所述第一域分类器输出第一分类结果;
将所述第一联合编码特征输入至所述第二域分类器,通过所述第二域分类器输出第二分类结果;
根据所述第一分类结果、所述第二分类结果、所述基因表达重构特征、所述第一基因表达特征、所述重构空间邻域图、所述第一空间邻域图以及所述候选细胞集合对应的标签信息,对所述初始预测模型的网络参数进行修正,得到目标预测模型;所述目标预测模型用于输出组织样本对应的空间转录组数据的基因空间分布预测结果。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一分类结果、所述第二分类结果、所述基因表达重构特征、所述第一基因表达特征、所述重构空间邻域图、所述第一空间邻域图以及所述候选细胞集合对应的标签信息,对所述初始预测模型的网络参数进行修正,得到目标预测模型,包括:
根据所述第一分类结果确定所述第一域分类器对应的第一分类损失,根据所述第二分类结果和所述第一基因表达特征所属的数据集标签,确定所述第二域分类器对应的第二分类损失;
若所述第一基因表达特征属于所述参考数据集,则根据所述基因表达重构特征和所述候选细胞集合对应的标签信息之间的误差,以及所述重构空间邻域图和所述第一空间邻域图之间的误差,确定所述初始预测模型的第一重构损失;
若所述第一基因表达特征属于所述空间转录组数据集,则根据所述基因表达重构特征和所述第一基因表达特征之间的误差,以及所述重构空间邻域图和所述第一空间邻域图之间的误差,确定所述初始预测模型的第二重构损失;
根据所述第一分类损失、所述第二分类损失、所述第一重构损失以及所述第二重构损失,确定所述初始预测模型的模型总损失;
基于所述模型总损失对所述初始预测模型中的网络参数进行迭代训练,直至所述模型总损失满足训练结束条件时,停止训练并将训练结束时的初始预测模型中的第一编码器、第二编码器以及第一解码器确定为目标预测模型。
7.根据权利要求1所述的方法,其特征在于,所述初始预测模型还包括第二域分类器和特征分类器;所述第一基因表达特征包括所述候选细胞集合在所述参考数据集和所述空间转录组数据集中的共有基因表达特征;所述候选细胞集合对应的标签信息包括所述参考数据集中的细胞类型标签;
所述根据所述基因表达重构特征、所述第一基因表达特征、所述重构空间邻域图、所述第一空间邻域图、所述第一联合编码特征以及所述候选细胞集合在所述参考数据集中的标签信息,对所述初始预测模型的网络参数进行修正,得到目标预测模型,包括:
将所述第一联合编码特征依次输入至所述第二域分类器和所述特征分类器,通过所述第二域分类器输出第二分类结果,通过所述特征分类器对所述第一联合特征进行识别,得到细胞分类结果;
根据所述第二分类结果、所述细胞分类结果、所述基因表达重构特征、所述第一基因表达特征、所述重构空间邻域图、所述第一空间邻域图以及所述候选细胞集合对应的细胞类型标签,对所述初始预测模型的网络参数进行修正,得到目标预测模型;所述目标预测模型用于输出组织样本对应的空间转录组数据的细胞预测类型。
8.根据权利要求7所述的方法,其特征在于,所述根据所述第二分类结果、所述细胞分类结果、所述基因表达重构特征、所述第一基因表达特征、所述重构空间邻域图、所述第一空间邻域图以及所述候选细胞集合对应的细胞类型标签,对所述初始预测模型的网络参数进行修正,得到目标预测模型,包括:
根据所述第二分类结果和所述第一基因表达特征所属的数据集标签,确定所述第二域分类器对应的第二分类损失;
根据所述细胞分类结果和所述候选细胞集合对应的细胞类型标签,确定所述特征分类器对应的特征分类损失;
根据所述基因表达重构特征和所述第一基因表达特征之间的误差,以及所述重构空间邻域图和所述第一空间邻域图之间的误差,确定所述初始预测模型的第二重构损失;
根据所述第二分类损失、所述特征分类损失以及所述第二重构损失,确定所述初始预测模型对应的模型总损失;
基于所述模型总损失对所述初始预测模型中的网络参数进行迭代训练,直至所述模型总损失满足训练结束条件时,停止训练并将训练结束时的初始预测模型中的第一编码器、第二编码器以及特征分类器确定为目标预测模型。
9.根据权利要求5至6任一项所述的方法,其特征在于,所述方法还包括:
获取组织样本对应的空间转录组数据,根据所述空间转录组数据所包含的空间位置信息和第二基因表达特征,构建所述组织样本中的细胞对应的第二空间邻域图;
通过所述目标预测模型中的第一编码器对所述第二基因表达特征进行编码处理,得到所述空间转录组数据对应的第三基因编码特征;
通过所述目标预测模型中的第二编码器对所述第二空间邻域图和所述第三基因编码特征进行编码处理,得到所述空间转录组数据对应的第四基因编码特征,将所述第三基因编码特征和所述第四基因编码特征组合为第二联合编码特征;
通过所述目标预测模型中的第一解码器对所述第二联合编码特征进行解码处理,得到所述空间转录组数据对应的基因空间分布预测结果。
10.根据权利要求7至8任一项所述的方法,其特征在于,所述方法还包括:
获取组织样本对应的空间转录组数据,根据所述空间转录组数据所包含的空间位置信息和第二基因表达特征,构建所述组织样本中的细胞对应的第二空间邻域图;
通过所述目标预测模型中的第一编码器对所述第二基因表达特征进行编码处理,得到所述空间转录组数据对应的第三基因编码特征;
通过所述目标预测模型中的第二编码器对所述第二空间邻域图和所述第三基因编码特征进行编码处理,得到所述空间转录组数据对应的第四基因编码特征,将所述第三基因编码特征和所述第四基因编码特征组合为第二联合编码特征;
通过所述目标预测模型中的特征分类器对所述第二联合编码特征进行识别,得到所述组织样本中的细胞所对应的细胞预测类型。
11.一种数据处理装置,其特征在于,包括:
邻域图获取模块,用于获取参考数据集和空间转录组数据集,基于所述参考数据集和所述空间转录组数据集,获取包含候选细胞集合的第一空间邻域图;所述第一空间邻域图用于表征所述候选细胞集合中的细胞的空间位置信息,所述参考数据集包括携带标签信息的单细胞转录组数据;
第一编码模块,用于获取所述候选细胞集合在所述参考数据集和所述空间转录组数据集中的第一基因表达特征,通过初始预测模型中的第一编码器对所述第一基因表达特征进行编码处理,得到第一基因编码特征;
第二编码模块,用于通过所述初始预测模型中的第二编码器对所述第一基因编码特征和所述第一空间邻域图进行编码处理,得到第二基因编码特征,将所述第一基因编码特征和所述第二基因编码特征组合为第一联合编码特征;
第一解码模块,用于通过所述初始预测模型中的第一解码器对所述第一联合编码特征进行解码处理,得到基因表达重构特征,通过所述初始预测模型中的第二解码器对所述第一联合编码特征进行解码处理,得到重构空间邻域图;
参数修正模块,用于根据所述基因表达重构特征、所述第一基因表达特征、所述重构空间邻域图、所述第一空间邻域图、所述第一联合编码特征以及所述候选细胞集合在所述参考数据集中的标签信息,对所述初始预测模型的网络参数进行修正,得到目标预测模型;所述目标预测模型用于输出组织样本对应的空间转录组数据的基因空间分布预测结果或者细胞预测类型。
12.一种计算机设备,其特征在于,包括存储器和处理器;
所述存储器与所述处理器相连,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以使得所述计算机设备执行权利要求1至10任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序适于由处理器加载并执行,以使得具有所述处理器的计算机设备执行权利要求1至10任一项所述的方法。
14.一种计算机程序产品,其特征在于,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现权利要求1至10任一项所述的方法。
CN202310304040.4A 2023-03-17 2023-03-17 数据处理方法、装置、设备以及介质 Pending CN116978464A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310304040.4A CN116978464A (zh) 2023-03-17 2023-03-17 数据处理方法、装置、设备以及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310304040.4A CN116978464A (zh) 2023-03-17 2023-03-17 数据处理方法、装置、设备以及介质

Publications (1)

Publication Number Publication Date
CN116978464A true CN116978464A (zh) 2023-10-31

Family

ID=88478463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310304040.4A Pending CN116978464A (zh) 2023-03-17 2023-03-17 数据处理方法、装置、设备以及介质

Country Status (1)

Country Link
CN (1) CN116978464A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117746995A (zh) * 2024-02-21 2024-03-22 厦门大学 基于单细胞rna测序数据的细胞类型识别方法、装置及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117746995A (zh) * 2024-02-21 2024-03-22 厦门大学 基于单细胞rna测序数据的细胞类型识别方法、装置及设备
CN117746995B (zh) * 2024-02-21 2024-05-28 厦门大学 基于单细胞rna测序数据的细胞类型识别方法、装置及设备

Similar Documents

Publication Publication Date Title
CN113707235B (zh) 基于自监督学习的药物小分子性质预测方法、装置及设备
CN113327644B (zh) 一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法
CN106156003B (zh) 一种问答系统中的问句理解方法
CN112256828B (zh) 医学实体关系抽取方法、装置、计算机设备及可读存储介质
Gorospe et al. A generalization performance study using deep learning networks in embedded systems
CN111429977B (zh) 一种新的基于图结构注意力的分子相似性搜索算法
CN113571125A (zh) 基于多层网络与图编码的药物靶点相互作用预测方法
CN114496099A (zh) 细胞功能注释方法、装置、设备及介质
CN111370073A (zh) 一种基于深度学习的药物互作规则预测方法
D’Agaro Artificial intelligence used in genome analysis studies
CN113591955A (zh) 一种提取图数据的全局信息的方法、系统、设备及介质
CN113764037A (zh) 模型训练、抗体改造和结合位点预测的方法与装置
CN116978464A (zh) 数据处理方法、装置、设备以及介质
CN115526246A (zh) 一种基于深度学习模型的自监督分子分类方法
CN115995293A (zh) 一种环状rna和疾病关联预测方法
CN117976035A (zh) 一种融合特征的深度学习网络的蛋白质sno位点预测方法
CN113889181A (zh) 医学事件的分析方法及装置、计算机设备、存储介质
CN118155746A (zh) 一种预测分子性质的双通道对比模型
Patra et al. Deep learning methods for scientific and industrial research
US20230253076A1 (en) Local steps in latent space and descriptors-based molecules filtering for conditional molecular generation
CN116386725A (zh) 联合病理组学特征的肿瘤差异基因表达谱预测方法及系统
Wang et al. A systematic evaluation of computational methods for cell segmentation
CN115116549A (zh) 细胞数据注释方法、装置、设备及介质
CN115410642A (zh) 一种生物关系网络信息建模方法与系统
CN114678083A (zh) 一种化学品遗传毒性预测模型的训练方法及预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication