CN117476114A

CN117476114A - 一种基于生物多组学数据的模型构建方法与系统

Info

Publication number: CN117476114A
Application number: CN202311796758.6A
Authority: CN
Inventors: 郑冠涛; 丛蓉
Original assignee: Mezhuo Biotechnology Zhejiang Co ltd
Current assignee: Mezhuo Biotechnology Zhejiang Co ltd
Priority date: 2023-12-25
Filing date: 2023-12-25
Publication date: 2024-01-30
Anticipated expiration: 2043-12-25
Also published as: CN117476114B

Abstract

本发明涉及生物信息技术领域，尤其涉及一种基于生物多组学数据的模型构建方法与系统，包括：S1.样本数据获取与生物信息学分析；S2.输入嵌入：包括基因标记、表达值标记、知识标记、启动子标记、样本的组学类型标记、样本的批次数据标记和嵌入层；S3.模型的预训练：包括预训练框架和目标、注意力掩码；S4.模型的调整与应用。本发明引入了知识标记和启动子标记，使得模型能够理解生物学的专家知识；引入样本的组学类型标记和批次标记，原生支持多组学数据整合和批次效应去除，协助构建更合理的模型。

Description

一种基于生物多组学数据的模型构建方法与系统

技术领域

本发明涉及生物信息技术领域，尤其涉及一种基于生物多组学数据的模型构建方法与系统。

背景技术

近年来，随着单细胞测序技术的飞速发展，我们获得的单细胞数据量正在以前所未有的速度增长，其数量已经以亿计。这一增长不仅在生物学研究领域引起了广泛关注，也对数据处理和分析方法提出了新的挑战。单细胞数据的海量性、高度异质性和复杂性要求我们开发新的分析方法和工具，以从中提取有价值的生物学信息。

在这个背景下，生成式预训练模型成为了一个潜在的解决方案。这些模型，如在自然语言处理（NLP）和计算机视觉领域中的DALL-E3和GPT-4，通过在大规模多样化数据集上进行预训练，已经显示出在处理复杂和多样化的数据时的显著效能。这些模型不仅可以适应各种下游任务和场景，还在多个任务上展现了比专门为特定任务从头开始训练的模型更优越的性能。

单细胞领域的研究者正试图将这些先进的模型应用于单细胞数据，以解决当前分析方法面临的挑战。生成式预训练模型在单细胞生物学领域的应用旨在实现对单细胞数据的更深层次理解和更有效的分析。这些模型的灵活性和强大的学习能力使它们能够从数百万测序细胞中提取出有价值的生物学信息，这对于理解细胞间的复杂互动、发现新的生物标记物、以及促进精准医疗等方面具有重要意义。

然而，将生成式预训练模型应用于单细胞数据分析也面临着一系列挑战。首先，单细胞数据的非序列性和高度异质性要求模型能够适应这些特殊的数据特征。其次，由于单细胞数据的规模庞大，模型需要具有高效的计算能力以处理和分析这些数据。最后，由于单细胞数据的复杂性，模型需要能够准确地捕获细胞间的微妙差异，并从中提取出有意义的生物学模式。

在单细胞领域，近年来有几个关键的技术进展，特别是在生成式预训练模型的应用上。Geneformer是在这个领域引起广泛关注的模型。Geneformer 是一个基于大规模基因表达数据开发的基础模型，用于单细胞转录组。它能从数百万细胞的基因表达剖面中推断基因功能和相互关系，这需要大量数据整理和资源密集的训练。Geneformer 的方法包括平均加权基因表达水平的基因嵌入，或为每个细胞创建基于表达水平排序的基因名称的句子嵌入。

现有技术中记载了很多模型构建方法，然而大多都是针对单细胞转录组数据进行开发，并不适用目前的单细胞多组学技术，此外，现有技术基于经典的transformer框架构建预训练模型，对算力要求很高，推广仍然受限，还缺乏例如基因信号通路、基因功能等生物学知识有效融合，整体功能仍存在一定的局限性。

发明内容

本发明的第一个方面提供了一种基于生物多组学数据的模型构建方法，所述模型构建方法包括如下步骤：

S1.样本数据获取与生物信息学分析；

S2.输入嵌入：包括基因标记、表达值标记、知识标记、启动子标记、样本的组学类型标记、样本的批次数据标记和嵌入层；

S3.模型的预训练：包括预训练框架和目标、注意力掩码；

S4.模型的调整与应用。

在一些实施方式中，所述生物信息学分析包括如下步骤：

a)初步分析：针对每个样本数据测序得到的单细胞原始数据，使用相关软件进行分析，得到细胞-基因矩阵，其中/>表示第i个细胞中第j个基因的reads数或打分；

b)数据过滤：针对每个样本数据的打分矩阵，使用python语言的Scanpy包进行数据过滤；其中转录组将基因数小于200、大于7000或线粒体含量>20%的细胞过滤掉，将在不大于3个细胞中表达的基因过滤掉；ATAC/ChIP将peak数少于200大于5000的细胞过滤掉；

c)矩阵输出：使用值分箱技术，将所有表达计数转换为相对值；对于每个样本数据的打分矩阵先做log1p处理，然后基于最大值/>将表达量分为100份，其中第/>份的表达量区间为/>；则细胞/>中基因/>分箱转化后的打分为。

在一些实施方式中，所述基因标记的向量为，其中/>表示细胞/>中基因/>的名称，/>将每个基因名称转化为唯一整数值。

在一些实施方式中，所述表达值标记的向量为，其中/>表示细胞/>中基因/>的表达量。

在一些实施方式中，所述知识标记的向量为其中/>表示细胞i中基因j所属的通路编号。

在一些实施方式中，所述启动子标记的向量为其中表示基因/>的启动子区域序列。

在一些实施方式中，所述样本的组学类型标记是长度为1的向量是获取细胞/>的所属样本的组学类型，1表示转录组，2表示蛋白组，3表示ATAC。

在一些实施方式中，所述样本的批次数据标记是长度为1的向量是获取细胞/>的所属样本的批次信息，值表示样本的数字编号，预训练数据中，不同样本的编号要求不相同。

在一些实施方式中，所述嵌入层的特征向量，是4种基因信息的embedding和2种样本信息的整合。

在一些实施方式中，所述注意力掩码中的掩码规则为：仅允许“已知基因”的嵌入与查询基因本身之间的注意力计算；在每次生成迭代中，预测一组新基因的基因表达值，并在下一次迭代中将这些新基因作为“已知基因”。

本发明第二个方面提供了一种包含上述模型构建方法的系统，包括：

获取模块：用于获取样本数据并进行生物信息学分析；

输入嵌入模块：包括基因标记、表达值标记、知识标记和嵌入层；

预训练模块：包括预训练框架和目标、注意力掩码；

调整与应用模块：包括对模型进行参数调整与应用。

与现有技术相比，本发明具有以下有益效果：

1.本发明提出了一种可以结合单细胞多种组学数据的构建生成式预训练模型的方法。

2.本发明构建了一种新的embedding方式，引入样本的组学类型信息和批次信息，相对于现有技术，本发明原生支持多组学数据整合和批次效应去除。

3.本发明引入了knowledgetoken（知识标记）、promotertoken（启动子标记），相对于现有技术，本发明更能够理解生物学的专家知识，协助构建更合理的模型。

4.本发明引入Flash-attention模型，加速模型的构建和推理速度。

具体实施方式

一种基于生物多组学数据的模型构建方法，所述模型构建方法包括如下步骤：

S1.样本数据获取与生物信息学分析；

S3.模型的预训练：包括预训练框架和目标、注意力掩码；

S4.模型的调整与应用。

大规模基因表达数据的应用：Geneformer通过利用大量的单细胞基因表达数据进行训练，能够捕捉到基因之间的复杂相互关系和功能特性。这种大数据驱动的方法使得Geneformer能够在更广泛的生物学背景下有效地进行基因功能预测和细胞类型识别。

深度学习和转换器架构：Geneformer采用了深度学习技术，特别是基于转换器（Transformer）架构，来处理和分析基因表达数据。转换器架构的应用使得模型能够有效地处理序列数据，并在保持序列上下文信息的同时捕获长距离依赖关系。

自监督学习策略：Geneformer利用自监督学习策略进行预训练，这意味着它能够在没有明确标签的情况下学习基因表达数据的内在特征和结构。这种方法提高了模型对未见数据的适应性和泛化能力。

针对生物学任务的优化：Geneformer针对一系列生物学任务进行了优化，包括但不限于细胞类型的注释、基因功能的预测和细胞状态的分类。这使得Geneformer能够在多种生物医学研究和临床应用中发挥作用。

数据整合能力：Geneformer展现了在多组学整合方面的潜力，能够将来自不同技术平台和实验条件的数据融合在一起，从而提供更全面和准确的生物学洞察。

在一些实施方式中，所述样本数据获取包括：基于公共数据库，整理人源的单细胞转录组、表面蛋白组、ATAC等原始测序数据；样本数量不少于500例。

这些样本数据需要满足如下标准：

（1）样本数量不少于200例；

（2）样本类型尽可能覆盖多种组织类型，例如血液、肺、脑、肝、肠、胰腺等组织；

（3）样本类型需要做好标记；

（4）单细胞方案尽可能是10Xgenomics、BD、MobiDrop、Smart-seq2等技术平台产生的数据。

在一些实施方式中，所述生物信息学分析包括如下步骤：

a) 初步分析：针对每个样本数据测序得到的单细胞原始数据，使用相关软件进行分析，得到细胞-基因矩阵，其中 />表示第 i个细胞中第 j个基因的reads数或打分；表1是不同平台的数据使用的分析软件情况：表1

平台	数据类型	分析软件
			10X genomics	单细胞RNA	CellRanger
10X genomics	单细胞表面蛋白	CellRanger
			10X genomics	单细胞ATAC	CellRanger-ATAC
BD	单细胞RNA	bd rhapsody
			BD	单细胞表面蛋白	bd rhapsody
MobiDrop	单细胞RNA	MobiVision
			MobiDrop	单细胞表面蛋白	MobiVision
MobiDrop	单细胞ChIP	MobiVision
			Smart-seq2	单细胞转录组	传统bulk数据分析流程

b) 数据过滤：针对每个样本数据的打分矩阵，使用R语言的Seurat包进行数据过滤；其中转录组将基因数小于200、大于7000或线粒体含量>20%的细胞过滤掉，将在不大于3个细胞中表达的基因过滤掉；ATAC/ChIP将peak数少于200大于5000的细胞过滤掉；

c) 矩阵输出：使用值分箱技术，将所有表达计数转换为相对值。对于每个样本数据的打分矩阵应用log1p转换，然后基于最大值/>将表达量分为100份，其中第/>份的表达量区间为/>；/>中基因/>分箱转化后的打分为。

在一些实施方式中，每个基因被视为信息的最小单元，相当于自然语言生成（NLG）中的单词。基因名称被用作标记，并为细胞i中每个基因分配一个唯一的整数标识符,其中基因总表是所有样本的基因列表的并集。

进一步地，所述基因标记的向量为 M表示基因总数，id操作是获取基因/>的对应唯一编号。

在一些实施方式中，使用值分箱技术得到的相对表达量,那么细胞的输入基因表达值可以向量来表示；

进一步地，所述表达值标记的向量为，M表示基因总数，/>操作是细胞/>基因/>的分箱转化后的表达量。

在一些实施方式中，用来表示细胞i的每个基因所属的通路信息，其中/>表示细胞i中基因j所属的通路编号；

进一步地，所述知识标记的向量为，M表示基因总数，/>是获取细胞/>基因j的所属通路编号。

在一些实施方式中，用来表示细胞i的每个基因启动子信息，其中/>表示细胞i中基因j所属的启动子区域序列；

进一步地，所述启动子标记的向量为，M表示基因总数，/>是细胞/>基因/>的启动子区域序列(启动子包含2500个碱基，包括转录起始位点（TSS）前上游的500个碱基和TSS后下游的2000个碱基），该信息做embedding转化使用DNABert。

在一些实施方式中，用来表示细胞i所属的样本组学类型信息；

进一步地，所述组学类型数据标记是长度为1的向量是获取细胞/>的所属样本的组学类型，1表示转录组，2表示蛋白组，3表示ATAC等。

在一些实施方式中，用来表示细胞i所属的样本批次信息；

进一步地，所述样本批次数据标记为长度为1的向量是获取细胞/>的所属样本的批次信息，值表示样本的数字编号，预训练数据中，不同样本的编号要求不相同。

在一些实施方式中，使用传统的嵌入层、/>、/>、和/>分别用于基因标记、知识标记、启动子标记、组学标记和批次标记，以及全连接层/>用于分箱表达值，从而实现细胞/>的最终嵌入；

进一步地，所述嵌入层的表达向量为。

在一些实施方式中，所述S3.模型的预训练具体包括：

S301.基因表达预测基于已知基因表达生成未知基因表达值（即通过“基因提示”生成）。

a)目的：基因表达预测旨在通过自监督学习从已知标记中迭代预测未知标记的基因表达值。

b)方法：这个任务以自回归的方式执行，即模型逐步学习如何根据已知的基因表达模式预测未知基因的表达。这种方法类似于自然语言处理中的下一个词预测。

c)应用：基因表达预测使模型能够学习到基因之间的复杂相互作用和表达模式，为理解单细胞数据中的基因功能提供了强大的基础。

S302.注意力掩码：

a)应用：为非序列化的单细胞数据实施生成式预训练，引入了特殊的注意力掩码以支持生成和联合基因与细胞表示的学习。

b)掩码规则：仅允许“已知基因”的嵌入与查询基因本身之间的注意力计算。在每次生成迭代中，预测一组新基因的基因表达值，并在下一次迭代中将这些新基因作为“已知基因”。

S303.训练过程：

a)数据选择：在训练期间，随机选择一定比例的基因作为未知，以便在输入中省略它们的表达值。这些未知基因的查询只允许与已知基因以及查询基因本身进行注意力计算。

b)迭代预测：在每次迭代中，选择置信度最高的前 20个未知基因作为已知基因，包括在下一次迭代中。这种方法以自回归的方式逐步生成大量基因表达值，其中预测置信度最高的基因表达首先生成并用于帮助后续的生成轮次。

S304.训练参数

a)模型配置：预训练的基础模型包括24个堆叠的Flash-Transformer块，每个块包含8个注意力头。全连接层的隐藏尺寸为1024。相对于Transformer块，能够接受更大的input以及更快的执行效率。

b)数据划分：90%的数据用于训练，10%的数据用于验证。

c)生成比例：生成的基因比例从0.25、0.50和0.75中均匀抽样。

d)优化器和学习率：使用Adam优化器进行优化，学习率为0.0001。

e)批次大小和训练周期：使用64的小批次大小，总共训练4个周期。

在一些实施方式中，所述S4模型的调整与应用包括：

S401.微调的目的：微调阶段主要聚焦于提高模型在细胞类型鉴定任务上的性能。这通常涉及使用新的或特定的数据集来训练模型，以便它能够更准确地识别和分类不同的细胞类型。

S402.微调过程的配置：

a)调整transformer后的多层感知机(MLP),以细胞i的transformer输出作为特征，将该细胞的真实表达量/>作为目标，构建多层感知机(MLP)，MLP的层数3层，有输入层、1个隐藏层和输出层，其中隐藏层的维度是1024，输出层的维度是M(基因总数)。假设/>是细胞i的预测细胞类型，/>那么损失函数使用交叉熵损失函数，公式为以表示为：

；其中，/>是细胞真实标签，/>是细胞预测标签，/>是细胞数量；

b)模型配置：继承自预训练模型的配置，包括24个Transformer块，每个块有8个注意力头。

c)学习率：微调过程开始时的学习率设为0.0001，每个epoch后衰减到90%。

d)数据集分割：将数据集分为训练集和评估集，采用9:1的比例。

e)训练周期：固定为30个epoch。

f)性能评估：报告的结果对应于在验证集上表现最佳的模型。

S403.细胞类型鉴定的具体实现：在微调阶段，预训练模型被应用于特定的细胞类型鉴定任务。具体来说，模型被训练来识别和分类不同的细胞类型，这通常涉及使用额外的或专门的训练和验证数据集。这一阶段的重点是提高模型在细胞类型识别方面的准确性和可靠性。

本发明的第二个方面提供了一种包含上述模型构建方法的系统，包括：

获取模块：用于获取样本数据并进行生物信息学分析；

预训练模块：包括预训练框架和目标、注意力掩码；

调整与应用模块：包括对模型进行调整与应用。

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1

本实施例提供了一种基于生物多组学数据的模型构建方法，包括如下步骤：

（1）数据获取与预处理，

本实施例中，模型训练的数据集皆来自于公共数据库。共整理了人源的单细胞转录组数据集850套，包含约7500万个单细胞，涉及的人类各类器官和组织。下面表格是数据库来源：

数据库名称	数据库网址
		CELLxGENE	https://cellxgene.cziscience.com/datasets
GEO	https://www.ncbi.nlm.nih.gov/geo/
		Single Cell Portal	https://singlecell.broadinstitute.org/single_cell
HCA	https://data.humancellatlas.org/
		EMBL-EBI	https://www.ebi.ac.uk/

下载数据均通过scanpy等生信软件，处理成AnnData(v0.8)格式。

（2）生物信息学分析

针对每个样本数据的表达矩阵，使用python语言Scanpy包中的pp.filter_cell、pp.filter_genes进行数据过滤；其中转录组将基因数小于200、大于7000或线粒体含量>20%的细胞过滤掉，将在不大于3个细胞中表达的基因过滤掉，结果保存为AnnData(v0.8)格式。为了保证后续的模型分析，所有单细胞转录组的数据被合并，保存为1个单独的AnnData(v0.8)格式的数据。最终基因总数被统一为19783个。

（3）Embedding处理

针对基因名，设置一个固定的词表，保证每个基因名有唯一的转化ID，然后使用geng2vec进行embedding；针对基因知识，使用KEGG通路数据库词表，保证每个基因有唯一对应的通路编号，然后使用geng2vec进行embedding；针对基因启动子，首先提取每个基因TSS上游500，下游2000区域的序列，然后使用DNABert对这些序列进行1024维度的embedding；针对样本的组学类型和批次信息，分别使用gene2vec进行embedding处理。然后使用前面方法提到的组合embedding公式，将这些信息进行整合，从而实现了细胞i的最终嵌入生成：嵌入层的表达向量为

（4）模型训练

<1>数据划分：

90%（约6750万）的数据用于训练，10%（约75万）的数据用于验证。

<2>模型配置及超参数：

1）Transformer块类型及层数：预训练的基础模型包括24个堆叠的Flash-Transformer块，每个块包含8个注意力头。全连接层的隐藏尺寸为1024。相对于Transformer块，能够接受更大的input以及更快的执行效率。

2）词向量大小：1024

3）生成比例：生成的基因比例从0.25、0.50和0.75中均匀抽样。

4）优化器：使用Adam优化器进行优化，

5）学习率：0.0001，每个epoch之后进行0.9的权重衰减。

6）批次大小：使用64的批次大小。

7）训练周期：考虑到数据量较大，总共训练4个周期。

8）训练精度：混合精度。

<3>模型训练

1）训练设备：4台8卡Nvidia A100的服务器

2）训练时间：10天

3）生成结果：模型文件1.2GB

（5）模型的调整与应用

<1>细胞类型注释的微调数据集来自于CELLxGENE，这些数据都已经完成了细胞注释，数据展示如下：

器官	平台	下载链接
			adiposetissue	10x 3' v3	https://datasets.cellxgene.cziscience.com/967c90a9-d1e4-4f83-8289-ec674addfc9d.h5ad
bladderorgan	10x 3' v3	https://datasets.cellxgene.cziscience.com/ac7714f0-dce2-40ba-9912-324de6c9a77f.h5ad
			blood	10x 3' v3	https://datasets.cellxgene.cziscience.com/08fd9830-ee4d-4a7a-93e5-c17a477b697c.h5ad
bonemarrow	10x 3' v3	https://datasets.cellxgene.cziscience.com/8bceb84c-c716-490c-9c2f-683134a13b84.h5ad
			brain	10x 3' v3	https://datasets.cellxgene.cziscience.com/20436774-af76-4964-bb14-daca290b9b04.h5ad
breast	10x 3' v3	https://datasets.cellxgene.cziscience.com/29cf079b-e74c-4153-8090-632085c8d405.h5ad
			Esophagus	10x 3' v3	https://datasets.cellxgene.cziscience.com/0632e13c-a4d9-41d7-bdd8-22a20f745b07.h5ad
eye	10x 3' v3	https://datasets.cellxgene.cziscience.com/74233cea-da4e-48d7-9caf-00d1346d1e5e.h5ad
			Intesine	10x 3' v3	https://datasets.cellxgene.cziscience.com/04d653da-de2c-4dd4-8732-30becd8e2a8a.h5ad
Kidney	10x 3' v3	https://datasets.cellxgene.cziscience.com/9095392d-fa99-44a6-8c9d-f5848cf60458.h5ad
			liver	10x 3' v3	https://datasets.cellxgene.cziscience.com/5297a910-453f-4e3f-af16-e18fd5a79090.h5ad
lung	10x 3' v3	https://datasets.cellxgene.cziscience.com/a924d7ef-4364-475d-8fbc-063a2c0d5577.h5ad
			nose	10x 3' v3	https://datasets.cellxgene.cziscience.com/e4eeabe8-9852-48ef-ab5b-568c64634766.h5ad
ovary	10x 3' v3	https://datasets.cellxgene.cziscience.com/4f0e2839-4ee4-4ae7-9477-eeac226af408.h5ad
			pancreas	10x 3' v3	https://datasets.cellxgene.cziscience.com/0b29f4ce-5e72-4356-b74b-b54714979234.h5ad
spleen	10x 3' v3	https://datasets.cellxgene.cziscience.com/f89fa18f-c32b-4bae-9511-1a4d18f200e1.h5ad
			stomach	10x 3' v3	https://datasets.cellxgene.cziscience.com/f2b2af79-466e-4032-bfef-9128ca41c7f6.h5ad
tongue	10x 3' v3	https://datasets.cellxgene.cziscience.com/a14eaf68-1d69-46cb-9335-b549cc030e55.h5ad

<2>调整设置

1)Transformer块：继承自预训练模型的配置，包括24个Transformer块，每个块有8个注意力头。

2）学习率：微调过程开始时的学习率设为0.0001，每个epoch后衰减到90%。

3）数据集分割：将数据集分为训练集和评估集，采用9:1的比例。

4）训练周期：固定为30个epoch。

<3>调整执行

1）微调设备：1台8卡Nvidia A100的服务器

2）微调时间：3天

<4>测试：

1）选取了一套小鼠胰腺癌的数据进行细胞类型测试，该数据没有包含在模型的预训练中，该数据源于下面这篇文章：Bastidas-Ponce,A.etal.ComprehensivesinglecellmRNAprofilingrevealsadetailedroadmapforpancreaticendocrinogenesis.Development；

2）该数据通过标准的生信分析，共可以鉴定到18种细胞类型；

3）针对该数据，分别使用GeneFormer和本专利开发的方法进行细胞类型注释，我们对每种细胞类型进行了预测准确度评估，即每种细胞类型预测正确的细胞数与该细胞类型的细胞总数的比值。

细胞类型	GeneFormer (%)	当前工具 (%)
			Trunk	85.62	83.78
Fev+Epsilon	86.09	86.97
			Fev+Alpha	89.64	89.15
Epsilon	87.01	87.40
			Delta	82.18	86.08
Ductal	86.90	86.72
			Fev+Beta	83.21	85.25
Fev+Delta	83.62	89.39
			Beta	89.03	87.52
Ngn3 High late	84.84	91.43
			Prlf.Ductal	90.44	83.17
Alpha	89.67	82.03
			Mat.Acinar	83.47	82.56
Prlf.Acinar	82.00	83.48
			Prlf.Trunk	83.48	83.28
Ngn3 low EP	86.07	92.34
			Fev+Pyy	81.75	89.19

平均精确度：GeneFormer: 85.59%，当前工具: 86.46%。

（6）实施结论：

<1>目前已经实现了7500万细胞数据的预训练，覆盖了人类各种已发表单细胞数据所关联的组织。

<2>通过微调实现了预训练模型的细胞注释功能。

<3>目前细胞注释精确度相对于已发表的工具具有一定程度的提升。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于生物多组学数据的模型构建方法，其特征在于，所述模型构建方法包括如下步骤：

S1. 样本数据获取与生物信息学分析；

S2. 输入嵌入：包括基因标记、表达值标记、知识标记、启动子标记、样本的组学类型标记、样本的批次数据标记和嵌入层；

S3. 模型的预训练：包括预训练框架和目标、注意力掩码；

S4. 模型的调整与应用。

2.根据权利要求1所述的模型构建方法，其特征在于，所述生物信息学分析包括如下步骤：

a) 初步分析：针对每个样本数据测序得到的单细胞原始数据，使用相关软件进行分析，得到细胞-基因矩阵，其中/>表示第 i个细胞中第 j个基因的reads数或打分；

b) 数据过滤：针对每个样本数据的打分矩阵，使用python语言的Scanpy包进行数据过滤；其中转录组将基因数小于200、大于7000或线粒体含量>20%的细胞过滤掉，将在不大于3个细胞中表达的基因过滤掉；ATAC/ChIP将peak数少于200大于5000的细胞过滤掉；

c) 矩阵输出：使用值分箱技术，将所有表达计数转换为相对值；对于每个样本数据的打分矩阵先做log1p处理，然后基于最大值/>将表达量分为100份，其中第/>份的表达量区间为/>；则细胞/>中基因/>分箱转化后的打分为。

3.根据权利要求1所述的模型构建方法，其特征在于，所述基因标记的向量为，其中/>表示细胞/>中基因/>的名称，/>将每个基因名称转化为唯一整数值。

4.根据权利要求1所述的模型构建方法，其特征在于，所述表达值标记的向量为，其中/>表示细胞/>中基因/>的表达量。

5.根据权利要求1所述的模型构建方法，其特征在于，所述知识标记的向量为其中/>表示细胞/>中基因/>所属的通路编号。

6.根据权利要求1所述的模型构建方法，其特征在于，所述启动子标记的向量为其中/>表示基因/>的启动子区域序列。

7.根据权利要求1所述的模型构建方法，其特征在于，所述样本的组学类型标记是长度为1的向量是获取细胞/>的所属样本的组学类型，1表示转录组，2表示蛋白组，3表示ATAC。

8.根据权利要求1所述的模型构建方法，其特征在于，所述样本的批次数据标记是长度为1的向量是获取细胞/>的所属样本的批次信息，值表示样本的数字编号，预训练数据中，不同样本的编号要求不相同。

9.根据权利要求1所述的模型构建方法，其特征在于，所述嵌入层的特征向量，

是4种基因信息的embedding和2种样本信息的整合。

10.根据权利要求1所述的模型构建方法，其特征在于，所述注意力掩码中的掩码规则为：仅允许“已知基因”的嵌入与查询基因本身之间的注意力计算；在每次生成迭代中，预测一组新基因的基因表达值，并在下一次迭代中将这些新基因作为“已知基因”。

11.一种包含权利要求1所述的模型构建方法的系统，其特征在于，包括：

获取模块：用于获取样本数据并进行生物信息学分析；

预训练模块：包括预训练框架和目标、注意力掩码；

调整与应用模块：包括对模型进行参数调整与应用。