CN117476114A - 一种基于生物多组学数据的模型构建方法与系统 - Google Patents
一种基于生物多组学数据的模型构建方法与系统 Download PDFInfo
- Publication number
- CN117476114A CN117476114A CN202311796758.6A CN202311796758A CN117476114A CN 117476114 A CN117476114 A CN 117476114A CN 202311796758 A CN202311796758 A CN 202311796758A CN 117476114 A CN117476114 A CN 117476114A
- Authority
- CN
- China
- Prior art keywords
- gene
- data
- markers
- model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 15
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 74
- 230000014509 gene expression Effects 0.000 claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 48
- 238000003766 bioinformatics method Methods 0.000 claims abstract description 8
- 230000010354 integration Effects 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 34
- 239000013598 vector Substances 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 13
- 239000003550 marker Substances 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 8
- 101000804764 Homo sapiens Lymphotactin Proteins 0.000 claims description 7
- 102100035304 Lymphotactin Human genes 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000002438 mitochondrial effect Effects 0.000 claims description 4
- 108700039691 Genetic Promoter Regions Proteins 0.000 claims description 3
- 108010026552 Proteome Proteins 0.000 claims description 3
- 238000007622 bioinformatic analysis Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 101150033839 4 gene Proteins 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 210000004027 cell Anatomy 0.000 description 85
- 230000006870 function Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 102000018697 Membrane Proteins Human genes 0.000 description 4
- 108010052285 Membrane Proteins Proteins 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000037361 pathway Effects 0.000 description 3
- 210000001519 tissue Anatomy 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 101150036080 at gene Proteins 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000013604 expression vector Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 210000004185 liver Anatomy 0.000 description 2
- 210000004072 lung Anatomy 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 210000000496 pancreas Anatomy 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- GHOSNRCGJFBJIB-UHFFFAOYSA-N Candesartan cilexetil Chemical compound C=12N(CC=3C=CC(=CC=3)C=3C(=CC=CC=3)C3=NNN=N3)C(OCC)=NC2=CC=CC=1C(=O)OC(C)OC(=O)OC1CCCCC1 GHOSNRCGJFBJIB-UHFFFAOYSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 1
- 210000000577 adipose tissue Anatomy 0.000 description 1
- 229940058087 atacand Drugs 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 210000001185 bone marrow Anatomy 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 210000003238 esophagus Anatomy 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 210000000936 intestine Anatomy 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 210000001672 ovary Anatomy 0.000 description 1
- 201000002528 pancreatic cancer Diseases 0.000 description 1
- 208000008443 pancreatic carcinoma Diseases 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 210000000952 spleen Anatomy 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 230000005026 transcription initiation Effects 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/10—Ontologies; Annotations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Genetics & Genomics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Data Mining & Analysis (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及生物信息技术领域,尤其涉及一种基于生物多组学数据的模型构建方法与系统,包括:S1.样本数据获取与生物信息学分析;S2.输入嵌入:包括基因标记、表达值标记、知识标记、启动子标记、样本的组学类型标记、样本的批次数据标记和嵌入层;S3.模型的预训练:包括预训练框架和目标、注意力掩码;S4.模型的调整与应用。本发明引入了知识标记和启动子标记,使得模型能够理解生物学的专家知识;引入样本的组学类型标记和批次标记,原生支持多组学数据整合和批次效应去除,协助构建更合理的模型。
Description
技术领域
本发明涉及生物信息技术领域,尤其涉及一种基于生物多组学数据的模型构建方法与系统。
背景技术
近年来,随着单细胞测序技术的飞速发展,我们获得的单细胞数据量正在以前所未有的速度增长,其数量已经以亿计。这一增长不仅在生物学研究领域引起了广泛关注,也对数据处理和分析方法提出了新的挑战。单细胞数据的海量性、高度异质性和复杂性要求我们开发新的分析方法和工具,以从中提取有价值的生物学信息。
在这个背景下,生成式预训练模型成为了一个潜在的解决方案。这些模型,如在自然语言处理(NLP)和计算机视觉领域中的DALL-E3和GPT-4,通过在大规模多样化数据集上进行预训练,已经显示出在处理复杂和多样化的数据时的显著效能。这些模型不仅可以适应各种下游任务和场景,还在多个任务上展现了比专门为特定任务从头开始训练的模型更优越的性能。
单细胞领域的研究者正试图将这些先进的模型应用于单细胞数据,以解决当前分析方法面临的挑战。生成式预训练模型在单细胞生物学领域的应用旨在实现对单细胞数据的更深层次理解和更有效的分析。这些模型的灵活性和强大的学习能力使它们能够从数百万测序细胞中提取出有价值的生物学信息,这对于理解细胞间的复杂互动、发现新的生物标记物、以及促进精准医疗等方面具有重要意义。
然而,将生成式预训练模型应用于单细胞数据分析也面临着一系列挑战。首先,单细胞数据的非序列性和高度异质性要求模型能够适应这些特殊的数据特征。其次,由于单细胞数据的规模庞大,模型需要具有高效的计算能力以处理和分析这些数据。最后,由于单细胞数据的复杂性,模型需要能够准确地捕获细胞间的微妙差异,并从中提取出有意义的生物学模式。
在单细胞领域,近年来有几个关键的技术进展,特别是在生成式预训练模型的应用上。Geneformer是在这个领域引起广泛关注的模型。Geneformer 是一个基于大规模基因表达数据开发的基础模型,用于单细胞转录组。它能从数百万细胞的基因表达剖面中推断基因功能和相互关系,这需要大量数据整理和资源密集的训练。Geneformer 的方法包括平均加权基因表达水平的基因嵌入,或为每个细胞创建基于表达水平排序的基因名称的句子嵌入。
现有技术中记载了很多模型构建方法,然而大多都是针对单细胞转录组数据进行开发,并不适用目前的单细胞多组学技术,此外,现有技术基于经典的transformer框架构建预训练模型,对算力要求很高,推广仍然受限,还缺乏例如基因信号通路、基因功能等生物学知识有效融合,整体功能仍存在一定的局限性。
发明内容
本发明的第一个方面提供了一种基于生物多组学数据的模型构建方法,所述模型构建方法包括如下步骤:
S1.样本数据获取与生物信息学分析;
S2.输入嵌入:包括基因标记、表达值标记、知识标记、启动子标记、样本的组学类型标记、样本的批次数据标记和嵌入层;
S3.模型的预训练:包括预训练框架和目标、注意力掩码;
S4.模型的调整与应用。
在一些实施方式中,所述生物信息学分析包括如下步骤:
a)初步分析:针对每个样本数据测序得到的单细胞原始数据,使用相关软件进行分析,得到细胞-基因矩阵,其中/>表示第i个细胞中第j个基因的reads数或打分;
b)数据过滤:针对每个样本数据的打分矩阵,使用python语言的Scanpy包进行数据过滤;其中转录组将基因数小于200、大于7000或线粒体含量>20%的细胞过滤掉,将在不大于3个细胞中表达的基因过滤掉;ATAC/ChIP将peak数少于200大于5000的细胞过滤掉;
c)矩阵输出:使用值分箱技术,将所有表达计数转换为相对值;对于每个样本数据的打分矩阵先做log1p处理,然后基于最大值/>将表达量分为100份,其中第/>份的表达量区间为/>;则细胞/>中基因/>分箱转化后的打分为。
在一些实施方式中,所述基因标记的向量为,其中/>表示细胞/>中基因/>的名称,/>将每个基因名称转化为唯一整数值。
在一些实施方式中,所述表达值标记的向量为,其中/>表示细胞/>中基因/>的表达量。
在一些实施方式中,所述知识标记的向量为其中/>表示细胞i中基因j所属的通路编号。
在一些实施方式中,所述启动子标记的向量为其中表示基因/>的启动子区域序列。
在一些实施方式中,所述样本的组学类型标记是长度为1的向量是获取细胞/>的所属样本的组学类型,1表示转录组,2表示蛋白组,3表示ATAC。
在一些实施方式中,所述样本的批次数据标记是长度为1的向量是获取细胞/>的所属样本的批次信息,值表示样本的数字编号,预训练数据中,不同样本的编号要求不相同。
在一些实施方式中,所述嵌入层的特征向量,是4种基因信息的embedding和2种样本信息的整合。
在一些实施方式中,所述注意力掩码中的掩码规则为:仅允许“已知基因”的嵌入与查询基因本身之间的注意力计算;在每次生成迭代中,预测一组新基因的基因表达值,并在下一次迭代中将这些新基因作为“已知基因”。
本发明第二个方面提供了一种包含上述模型构建方法的系统,包括:
获取模块:用于获取样本数据并进行生物信息学分析;
输入嵌入模块:包括基因标记、表达值标记、知识标记和嵌入层;
预训练模块:包括预训练框架和目标、注意力掩码;
调整与应用模块:包括对模型进行参数调整与应用。
与现有技术相比,本发明具有以下有益效果:
1.本发明提出了一种可以结合单细胞多种组学数据的构建生成式预训练模型的方法。
2.本发明构建了一种新的embedding方式,引入样本的组学类型信息和批次信息,相对于现有技术,本发明原生支持多组学数据整合和批次效应去除。
3.本发明引入了knowledgetoken(知识标记)、promotertoken(启动子标记),相对于现有技术,本发明更能够理解生物学的专家知识,协助构建更合理的模型。
4.本发明引入Flash-attention模型,加速模型的构建和推理速度。
具体实施方式
一种基于生物多组学数据的模型构建方法,所述模型构建方法包括如下步骤:
S1.样本数据获取与生物信息学分析;
S2.输入嵌入:包括基因标记、表达值标记、知识标记、启动子标记、样本的组学类型标记、样本的批次数据标记和嵌入层;
S3.模型的预训练:包括预训练框架和目标、注意力掩码;
S4.模型的调整与应用。
大规模基因表达数据的应用:Geneformer通过利用大量的单细胞基因表达数据进行训练,能够捕捉到基因之间的复杂相互关系和功能特性。这种大数据驱动的方法使得Geneformer能够在更广泛的生物学背景下有效地进行基因功能预测和细胞类型识别。
深度学习和转换器架构:Geneformer采用了深度学习技术,特别是基于转换器(Transformer)架构,来处理和分析基因表达数据。转换器架构的应用使得模型能够有效地处理序列数据,并在保持序列上下文信息的同时捕获长距离依赖关系。
自监督学习策略:Geneformer利用自监督学习策略进行预训练,这意味着它能够在没有明确标签的情况下学习基因表达数据的内在特征和结构。这种方法提高了模型对未见数据的适应性和泛化能力。
针对生物学任务的优化:Geneformer针对一系列生物学任务进行了优化,包括但不限于细胞类型的注释、基因功能的预测和细胞状态的分类。这使得Geneformer能够在多种生物医学研究和临床应用中发挥作用。
数据整合能力:Geneformer展现了在多组学整合方面的潜力,能够将来自不同技术平台和实验条件的数据融合在一起,从而提供更全面和准确的生物学洞察。
在一些实施方式中,所述样本数据获取包括:基于公共数据库,整理人源的单细胞转录组、表面蛋白组、ATAC等原始测序数据;样本数量不少于500例。
这些样本数据需要满足如下标准:
(1)样本数量不少于200例;
(2)样本类型尽可能覆盖多种组织类型,例如血液、肺、脑、肝、肠、胰腺等组织;
(3)样本类型需要做好标记;
(4)单细胞方案尽可能是10Xgenomics、BD、MobiDrop、Smart-seq2等技术平台产生的数据。
在一些实施方式中,所述生物信息学分析包括如下步骤:
a) 初步分析:针对每个样本数据测序得到的单细胞原始数据,使用相关软件进行分析,得到细胞-基因矩阵,其中 />表示第 i个细胞中第 j个基因的reads数或打分;表1是不同平台的数据使用的分析软件情况:表1
平台 | 数据类型 | 分析软件 |
10X genomics | 单细胞RNA | CellRanger |
10X genomics | 单细胞表面蛋白 | CellRanger |
10X genomics | 单细胞ATAC | CellRanger-ATAC |
BD | 单细胞RNA | bd rhapsody |
BD | 单细胞表面蛋白 | bd rhapsody |
MobiDrop | 单细胞RNA | MobiVision |
MobiDrop | 单细胞表面蛋白 | MobiVision |
MobiDrop | 单细胞ChIP | MobiVision |
Smart-seq2 | 单细胞转录组 | 传统bulk数据分析流程 |
b) 数据过滤:针对每个样本数据的打分矩阵,使用R语言的Seurat包进行数据过滤;其中转录组将基因数小于200、大于7000或线粒体含量>20%的细胞过滤掉,将在不大于3个细胞中表达的基因过滤掉;ATAC/ChIP将peak数少于200大于5000的细胞过滤掉;
c) 矩阵输出:使用值分箱技术,将所有表达计数转换为相对值。对于每个样本数据的打分矩阵应用log1p转换,然后基于最大值/>将表达量分为100份,其中第/>份的表达量区间为/>;/>中基因/>分箱转化后的打分为。
在一些实施方式中,每个基因被视为信息的最小单元,相当于自然语言生成(NLG)中的单词。基因名称被用作标记,并为细胞i中每个基因分配一个唯一的整数标识符,其中基因总表是所有样本的基因列表的并集。
进一步地,所述基因标记的向量为 M表示基因总数,id操作是获取基因/>的对应唯一编号。
在一些实施方式中,使用值分箱技术得到的相对表达量,那么细胞的输入基因表达值可以向量来表示;
进一步地,所述表达值标记的向量为 ,M表示基因总数,/>操作是细胞/>基因/>的分箱转化后的表达量。
在一些实施方式中,用来表示细胞i的每个基因所属的通路信息,其中/>表示细胞i中基因j所属的通路编号;
进一步地,所述知识标记的向量为,M表示基因总数,/>是获取细胞/>基因j的所属通路编号。
在一些实施方式中,用来表示细胞i的每个基因启动子信息,其中/>表示细胞i中基因j所属的启动子区域序列;
进一步地,所述启动子标记的向量为,M表示基因总数,/>是细胞/>基因/>的启动子区域序列(启动子包含2500个碱基,包括转录起始位点(TSS)前上游的500个碱基和TSS后下游的2000个碱基),该信息做embedding转化使用DNABert。
在一些实施方式中,用来表示细胞i所属的样本组学类型信息;
进一步地,所述组学类型数据标记是长度为1的向量是获取细胞/>的所属样本的组学类型,1表示转录组,2表示蛋白组,3表示ATAC等。
在一些实施方式中,用来表示细胞i所属的样本批次信息;
进一步地,所述样本批次数据标记为长度为1的向量是获取细胞/>的所属样本的批次信息,值表示样本的数字编号,预训练数据中,不同样本的编号要求不相同。
在一些实施方式中,使用传统的嵌入层、/>、/>、和/>分别用于基因标记、知识标记、启动子标记、组学标记和批次标记,以及全连接层/>用于分箱表达值,从而实现细胞/>的最终嵌入;
进一步地,所述嵌入层的表达向量为。
在一些实施方式中,所述S3.模型的预训练具体包括:
S301.基因表达预测基于已知基因表达生成未知基因表达值(即通过“基因提示”生成)。
a)目的:基因表达预测旨在通过自监督学习从已知标记中迭代预测未知标记的基因表达值。
b)方法:这个任务以自回归的方式执行,即模型逐步学习如何根据已知的基因表达模式预测未知基因的表达。这种方法类似于自然语言处理中的下一个词预测。
c)应用:基因表达预测使模型能够学习到基因之间的复杂相互作用和表达模式,为理解单细胞数据中的基因功能提供了强大的基础。
S302.注意力掩码:
a)应用:为非序列化的单细胞数据实施生成式预训练,引入了特殊的注意力掩码以支持生成和联合基因与细胞表示的学习。
b)掩码规则:仅允许“已知基因”的嵌入与查询基因本身之间的注意力计算。在每次生成迭代中,预测一组新基因的基因表达值,并在下一次迭代中将这些新基因作为“已知基因”。
S303.训练过程:
a)数据选择:在训练期间,随机选择一定比例的基因作为未知,以便在输入中省略它们的表达值。这些未知基因的查询只允许与已知基因以及查询基因本身进行注意力计算。
b)迭代预测:在每次迭代中,选择置信度最高的前 20个未知基因作为已知基因,包括在下一次迭代中。这种方法以自回归的方式逐步生成大量基因表达值,其中预测置信度最高的基因表达首先生成并用于帮助后续的生成轮次。
S304.训练参数
a)模型配置:预训练的基础模型包括24个堆叠的Flash-Transformer块,每个块包含8个注意力头。全连接层的隐藏尺寸为1024。相对于Transformer块,能够接受更大的input以及更快的执行效率。
b)数据划分:90%的数据用于训练,10%的数据用于验证。
c)生成比例:生成的基因比例从0.25、0.50和0.75中均匀抽样。
d)优化器和学习率:使用Adam优化器进行优化,学习率为0.0001。
e)批次大小和训练周期:使用64的小批次大小,总共训练4个周期。
在一些实施方式中,所述S4模型的调整与应用包括:
S401.微调的目的:微调阶段主要聚焦于提高模型在细胞类型鉴定任务上的性能。这通常涉及使用新的或特定的数据集来训练模型,以便它能够更准确地识别和分类不同的细胞类型。
S402.微调过程的配置:
a)调整transformer后的多层感知机(MLP),以细胞i的transformer输出作为特征,将该细胞的真实表达量/>作为目标,构建多层感知机(MLP),MLP的层数3层,有输入层、1个隐藏层和输出层,其中隐藏层的维度是1024,输出层的维度是M(基因总数)。假设/>是细胞i的预测细胞类型,/>那么损失函数使用交叉熵损失函数,公式为以表示为:
;其中,/>是细胞真实标签,/>是细胞预测标签,/>是细胞数量;
b)模型配置:继承自预训练模型的配置,包括24个Transformer块,每个块有8个注意力头。
c)学习率:微调过程开始时的学习率设为0.0001,每个epoch后衰减到90%。
d)数据集分割:将数据集分为训练集和评估集,采用9:1的比例。
e)训练周期:固定为30个epoch。
f)性能评估:报告的结果对应于在验证集上表现最佳的模型。
S403.细胞类型鉴定的具体实现:在微调阶段,预训练模型被应用于特定的细胞类型鉴定任务。具体来说,模型被训练来识别和分类不同的细胞类型,这通常涉及使用额外的或专门的训练和验证数据集。这一阶段的重点是提高模型在细胞类型识别方面的准确性和可靠性。
本发明的第二个方面提供了一种包含上述模型构建方法的系统,包括:
获取模块:用于获取样本数据并进行生物信息学分析;
输入嵌入模块:包括基因标记、表达值标记、知识标记和嵌入层;
预训练模块:包括预训练框架和目标、注意力掩码;
调整与应用模块:包括对模型进行调整与应用。
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1
本实施例提供了一种基于生物多组学数据的模型构建方法,包括如下步骤:
(1)数据获取与预处理,
本实施例中,模型训练的数据集皆来自于公共数据库。共整理了人源的单细胞转录组数据集850套,包含约7500万个单细胞,涉及的人类各类器官和组织。下面表格是数据库来源:
数据库名称 | 数据库网址 |
CELLxGENE | https://cellxgene.cziscience.com/datasets |
GEO | https://www.ncbi.nlm.nih.gov/geo/ |
Single Cell Portal | https://singlecell.broadinstitute.org/single_cell |
HCA | https://data.humancellatlas.org/ |
EMBL-EBI | https://www.ebi.ac.uk/ |
下载数据均通过scanpy等生信软件,处理成AnnData(v0.8)格式。
(2)生物信息学分析
针对每个样本数据的表达矩阵,使用python语言Scanpy包中的pp.filter_cell、pp.filter_genes进行数据过滤;其中转录组将基因数小于200、大于7000或线粒体含量>20%的细胞过滤掉,将在不大于3个细胞中表达的基因过滤掉,结果保存为AnnData(v0.8)格式。为了保证后续的模型分析,所有单细胞转录组的数据被合并,保存为1个单独的AnnData(v0.8)格式的数据。最终基因总数被统一为19783个。
(3)Embedding处理
针对基因名,设置一个固定的词表,保证每个基因名有唯一的转化ID,然后使用geng2vec进行embedding;针对基因知识,使用KEGG通路数据库词表,保证每个基因有唯一对应的通路编号,然后使用geng2vec进行embedding;针对基因启动子,首先提取每个基因TSS上游500,下游2000区域的序列,然后使用DNABert对这些序列进行1024维度的embedding;针对样本的组学类型和批次信息,分别使用gene2vec进行embedding处理。然后使用前面方法提到的组合embedding公式,将这些信息进行整合,从而实现了细胞i的最终嵌入生成:嵌入层的表达向量为
(4)模型训练
<1>数据划分:
90%(约6750万)的数据用于训练,10%(约75万)的数据用于验证。
<2>模型配置及超参数:
1)Transformer块类型及层数:预训练的基础模型包括24个堆叠的Flash-Transformer块,每个块包含8个注意力头。全连接层的隐藏尺寸为1024。相对于Transformer块,能够接受更大的input以及更快的执行效率。
2)词向量大小:1024
3)生成比例:生成的基因比例从0.25、0.50和0.75中均匀抽样。
4)优化器:使用Adam优化器进行优化,
5)学习率:0.0001,每个epoch之后进行0.9的权重衰减。
6)批次大小:使用64的批次大小。
7)训练周期:考虑到数据量较大,总共训练4个周期。
8)训练精度:混合精度。
<3>模型训练
1)训练设备:4台8卡Nvidia A100的服务器
2)训练时间:10天
3)生成结果:模型文件1.2GB
(5)模型的调整与应用
<1>细胞类型注释的微调数据集来自于CELLxGENE,这些数据都已经完成了细胞注释,数据展示如下:
器官 | 平台 | 下载链接 |
adiposetissue | 10x 3' v3 | https://datasets.cellxgene.cziscience.com/967c90a9-d1e4-4f83-8289-ec674addfc9d.h5ad |
bladderorgan | 10x 3' v3 | https://datasets.cellxgene.cziscience.com/ac7714f0-dce2-40ba-9912-324de6c9a77f.h5ad |
blood | 10x 3' v3 | https://datasets.cellxgene.cziscience.com/08fd9830-ee4d-4a7a-93e5-c17a477b697c.h5ad |
bonemarrow | 10x 3' v3 | https://datasets.cellxgene.cziscience.com/8bceb84c-c716-490c-9c2f-683134a13b84.h5ad |
brain | 10x 3' v3 | https://datasets.cellxgene.cziscience.com/20436774-af76-4964-bb14-daca290b9b04.h5ad |
breast | 10x 3' v3 | https://datasets.cellxgene.cziscience.com/29cf079b-e74c-4153-8090-632085c8d405.h5ad |
Esophagus | 10x 3' v3 | https://datasets.cellxgene.cziscience.com/0632e13c-a4d9-41d7-bdd8-22a20f745b07.h5ad |
eye | 10x 3' v3 | https://datasets.cellxgene.cziscience.com/74233cea-da4e-48d7-9caf-00d1346d1e5e.h5ad |
Intesine | 10x 3' v3 | https://datasets.cellxgene.cziscience.com/04d653da-de2c-4dd4-8732-30becd8e2a8a.h5ad |
Kidney | 10x 3' v3 | https://datasets.cellxgene.cziscience.com/9095392d-fa99-44a6-8c9d-f5848cf60458.h5ad |
liver | 10x 3' v3 | https://datasets.cellxgene.cziscience.com/5297a910-453f-4e3f-af16-e18fd5a79090.h5ad |
lung | 10x 3' v3 | https://datasets.cellxgene.cziscience.com/a924d7ef-4364-475d-8fbc-063a2c0d5577.h5ad |
nose | 10x 3' v3 | https://datasets.cellxgene.cziscience.com/e4eeabe8-9852-48ef-ab5b-568c64634766.h5ad |
ovary | 10x 3' v3 | https://datasets.cellxgene.cziscience.com/4f0e2839-4ee4-4ae7-9477-eeac226af408.h5ad |
pancreas | 10x 3' v3 | https://datasets.cellxgene.cziscience.com/0b29f4ce-5e72-4356-b74b-b54714979234.h5ad |
spleen | 10x 3' v3 | https://datasets.cellxgene.cziscience.com/f89fa18f-c32b-4bae-9511-1a4d18f200e1.h5ad |
stomach | 10x 3' v3 | https://datasets.cellxgene.cziscience.com/f2b2af79-466e-4032-bfef-9128ca41c7f6.h5ad |
tongue | 10x 3' v3 | https://datasets.cellxgene.cziscience.com/a14eaf68-1d69-46cb-9335-b549cc030e55.h5ad |
<2>调整设置
1)Transformer块:继承自预训练模型的配置,包括24个Transformer块,每个块有8个注意力头。
2)学习率:微调过程开始时的学习率设为0.0001,每个epoch后衰减到90%。
3)数据集分割:将数据集分为训练集和评估集,采用9:1的比例。
4)训练周期:固定为30个epoch。
<3>调整执行
1)微调设备:1台8卡Nvidia A100的服务器
2)微调时间:3天
<4>测试:
1)选取了一套小鼠胰腺癌的数据进行细胞类型测试,该数据没有包含在模型的预训练中,该数据源于下面这篇文章:Bastidas-Ponce,A.etal.ComprehensivesinglecellmRNAprofilingrevealsadetailedroadmapforpancreaticendocrinogenesis.Development;
2)该数据通过标准的生信分析,共可以鉴定到18种细胞类型;
3)针对该数据,分别使用GeneFormer和本专利开发的方法进行细胞类型注释,我们对每种细胞类型进行了预测准确度评估,即每种细胞类型预测正确的细胞数与该细胞类型的细胞总数的比值。
细胞类型 | GeneFormer (%) | 当前工具 (%) |
Trunk | 85.62 | 83.78 |
Fev+Epsilon | 86.09 | 86.97 |
Fev+Alpha | 89.64 | 89.15 |
Epsilon | 87.01 | 87.40 |
Delta | 82.18 | 86.08 |
Ductal | 86.90 | 86.72 |
Fev+Beta | 83.21 | 85.25 |
Fev+Delta | 83.62 | 89.39 |
Beta | 89.03 | 87.52 |
Ngn3 High late | 84.84 | 91.43 |
Prlf.Ductal | 90.44 | 83.17 |
Alpha | 89.67 | 82.03 |
Mat.Acinar | 83.47 | 82.56 |
Prlf.Acinar | 82.00 | 83.48 |
Prlf.Trunk | 83.48 | 83.28 |
Ngn3 low EP | 86.07 | 92.34 |
Fev+Pyy | 81.75 | 89.19 |
平均精确度:GeneFormer: 85.59%,当前工具: 86.46%。
(6)实施结论:
<1>目前已经实现了7500万细胞数据的预训练,覆盖了人类各种已发表单细胞数据所关联的组织。
<2>通过微调实现了预训练模型的细胞注释功能。
<3>目前细胞注释精确度相对于已发表的工具具有一定程度的提升。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (11)
1.一种基于生物多组学数据的模型构建方法,其特征在于,所述模型构建方法包括如下步骤:
S1. 样本数据获取与生物信息学分析;
S2. 输入嵌入:包括基因标记、表达值标记、知识标记、启动子标记、样本的组学类型标记、样本的批次数据标记和嵌入层;
S3. 模型的预训练:包括预训练框架和目标、注意力掩码;
S4. 模型的调整与应用。
2.根据权利要求1所述的模型构建方法,其特征在于,所述生物信息学分析包括如下步骤:
a) 初步分析:针对每个样本数据测序得到的单细胞原始数据,使用相关软件进行分析,得到细胞-基因矩阵,其中/>表示第 i个细胞中第 j个基因的reads数或打分;
b) 数据过滤:针对每个样本数据的打分矩阵,使用python语言的Scanpy包进行数据过滤;其中转录组将基因数小于200、大于7000或线粒体含量>20%的细胞过滤掉,将在不大于3个细胞中表达的基因过滤掉;ATAC/ChIP将peak数少于200大于5000的细胞过滤掉;
c) 矩阵输出:使用值分箱技术,将所有表达计数转换为相对值;对于每个样本数据的打分矩阵先做log1p处理,然后基于最大值/>将表达量分为100份,其中第/>份的表达量区间为/>;则细胞/>中基因/>分箱转化后的打分为。
3.根据权利要求1所述的模型构建方法,其特征在于,所述基因标记的向量为,其中/>表示细胞/>中基因/>的名称,/>将每个基因名称转化为唯一整数值。
4.根据权利要求1所述的模型构建方法,其特征在于,所述表达值标记的向量为,其中/>表示细胞/>中基因/>的表达量。
5.根据权利要求1所述的模型构建方法,其特征在于,所述知识标记的向量为其中/>表示细胞/>中基因/>所属的通路编号。
6.根据权利要求1所述的模型构建方法,其特征在于,所述启动子标记的向量为其中/>表示基因/>的启动子区域序列。
7.根据权利要求1所述的模型构建方法,其特征在于,所述样本的组学类型标记是长度为1的向量是获取细胞/>的所属样本的组学类型,1表示转录组,2表示蛋白组,3表示ATAC。
8.根据权利要求1所述的模型构建方法,其特征在于,所述样本的批次数据标记是长度为1的向量是获取细胞/>的所属样本的批次信息,值表示样本的数字编号,预训练数据中,不同样本的编号要求不相同。
9.根据权利要求1所述的模型构建方法,其特征在于,所述嵌入层的特征向量,
是4种基因信息的embedding和2种样本信息的整合。
10.根据权利要求1所述的模型构建方法,其特征在于,所述注意力掩码中的掩码规则为:仅允许“已知基因”的嵌入与查询基因本身之间的注意力计算;在每次生成迭代中,预测一组新基因的基因表达值,并在下一次迭代中将这些新基因作为“已知基因”。
11.一种包含权利要求1所述的模型构建方法的系统,其特征在于,包括:
获取模块:用于获取样本数据并进行生物信息学分析;
输入嵌入模块:包括基因标记、表达值标记、知识标记和嵌入层;
预训练模块:包括预训练框架和目标、注意力掩码;
调整与应用模块:包括对模型进行参数调整与应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311796758.6A CN117476114B (zh) | 2023-12-25 | 2023-12-25 | 一种基于生物多组学数据的模型构建方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311796758.6A CN117476114B (zh) | 2023-12-25 | 2023-12-25 | 一种基于生物多组学数据的模型构建方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117476114A true CN117476114A (zh) | 2024-01-30 |
CN117476114B CN117476114B (zh) | 2024-04-05 |
Family
ID=89625953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311796758.6A Active CN117476114B (zh) | 2023-12-25 | 2023-12-25 | 一种基于生物多组学数据的模型构建方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117476114B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118072828A (zh) * | 2024-04-22 | 2024-05-24 | 北京百奥利盟软件技术有限公司 | 一种多组学实验过程数据的管理方法、系统和存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840843A (zh) * | 2019-01-07 | 2019-06-04 | 杭州排列科技有限公司 | 基于相似性合并的连续型特征自动分箱算法 |
CN110555782A (zh) * | 2019-07-06 | 2019-12-10 | 国网浙江省电力有限公司电力科学研究院 | 一种基于大数据的科学用电模型构建系统及方法 |
CN111710008A (zh) * | 2020-05-29 | 2020-09-25 | 北京百度网讯科技有限公司 | 人流密度的生成方法、装置、电子设备以及存储介质 |
CN115797495A (zh) * | 2023-02-07 | 2023-03-14 | 武汉理工大学 | 一种句子-字符语义空间融合感知的文本生成图像的方法 |
CN116629123A (zh) * | 2023-05-25 | 2023-08-22 | 南开大学 | 基于配对的单细胞多组学数据整合方法及系统 |
CN116825184A (zh) * | 2022-08-16 | 2023-09-29 | 浙江霍德生物工程有限公司 | 生物样本细胞组成检测方法、装置、设备及存储介质 |
CN116842996A (zh) * | 2023-05-08 | 2023-10-03 | 中国科学技术大学 | 一种基于深度压缩感知的空间转录组方法及装置 |
CN116864011A (zh) * | 2023-06-29 | 2023-10-10 | 哈尔滨星云生物信息技术开发有限公司 | 基于多组学数据的结直肠癌分子标志物识别方法及系统 |
CN117152804A (zh) * | 2022-05-18 | 2023-12-01 | 富士通株式会社 | 训练面部检测模型的方法和装置及面部检测方法 |
CN117153268A (zh) * | 2023-09-04 | 2023-12-01 | 南京航空航天大学 | 一种细胞类别确定方法及系统 |
CN117271878A (zh) * | 2022-12-06 | 2023-12-22 | 聚好看科技股份有限公司 | 序列推荐模型训练方法、媒资推荐方法及装置 |
-
2023
- 2023-12-25 CN CN202311796758.6A patent/CN117476114B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840843A (zh) * | 2019-01-07 | 2019-06-04 | 杭州排列科技有限公司 | 基于相似性合并的连续型特征自动分箱算法 |
CN110555782A (zh) * | 2019-07-06 | 2019-12-10 | 国网浙江省电力有限公司电力科学研究院 | 一种基于大数据的科学用电模型构建系统及方法 |
CN111710008A (zh) * | 2020-05-29 | 2020-09-25 | 北京百度网讯科技有限公司 | 人流密度的生成方法、装置、电子设备以及存储介质 |
CN117152804A (zh) * | 2022-05-18 | 2023-12-01 | 富士通株式会社 | 训练面部检测模型的方法和装置及面部检测方法 |
CN116825184A (zh) * | 2022-08-16 | 2023-09-29 | 浙江霍德生物工程有限公司 | 生物样本细胞组成检测方法、装置、设备及存储介质 |
CN117271878A (zh) * | 2022-12-06 | 2023-12-22 | 聚好看科技股份有限公司 | 序列推荐模型训练方法、媒资推荐方法及装置 |
CN115797495A (zh) * | 2023-02-07 | 2023-03-14 | 武汉理工大学 | 一种句子-字符语义空间融合感知的文本生成图像的方法 |
CN116842996A (zh) * | 2023-05-08 | 2023-10-03 | 中国科学技术大学 | 一种基于深度压缩感知的空间转录组方法及装置 |
CN116629123A (zh) * | 2023-05-25 | 2023-08-22 | 南开大学 | 基于配对的单细胞多组学数据整合方法及系统 |
CN116864011A (zh) * | 2023-06-29 | 2023-10-10 | 哈尔滨星云生物信息技术开发有限公司 | 基于多组学数据的结直肠癌分子标志物识别方法及系统 |
CN117153268A (zh) * | 2023-09-04 | 2023-12-01 | 南京航空航天大学 | 一种细胞类别确定方法及系统 |
Non-Patent Citations (1)
Title |
---|
SHANG WANG 等: "A Transformer-based Neural Architecture Search Method", 《GECCO \'23 COMPANION: PROCEEDINGS OF THE COMPANION CONFERENCE ON GENETIC AND EVOLUTIONARY COMPUTATION》, 24 July 2023 (2023-07-24), pages 691, XP059133202, DOI: 10.1145/3583133.3590735 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118072828A (zh) * | 2024-04-22 | 2024-05-24 | 北京百奥利盟软件技术有限公司 | 一种多组学实验过程数据的管理方法、系统和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117476114B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | DeepDSC: a deep learning method to predict drug sensitivity of cancer cell lines | |
CN117476114B (zh) | 一种基于生物多组学数据的模型构建方法与系统 | |
Ali et al. | Identification of functional piRNAs using a convolutional neural network | |
CN112599187B (zh) | 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法 | |
Titus et al. | A new dimension of breast cancer epigenetics | |
Zhou et al. | RNA Secondary Structure Prediction Using Transformer-Based Deep Learning Models | |
Morales et al. | Deep learning for the classification of genomic signals | |
CN113838536A (zh) | 翻译模型构建方法、产物预测模型构建方法及预测方法 | |
Liu et al. | Deep learning to predict the biosynthetic gene clusters in bacterial genomes | |
Dotan et al. | Effect of tokenization on transformers for biological sequences | |
Vashchenko et al. | AbBERT: learning antibody humanness via masked language modeling | |
Cheng et al. | Machine learning and related approaches in transcriptomics | |
CN114783519A (zh) | 一种利用宏基因组分析土壤生物复合污染的方法 | |
JPWO2018139361A1 (ja) | 情報処理システム、情報処理方法、及びプログラム | |
Krishnamurthy et al. | Artificial intelligence-based drug screening and drug repositioning tools and their application in the present scenario | |
Dounas et al. | Learning immune receptor representations with protein language models | |
Michelson | Assessing the impact of predictive biosimulation on drug discovery and development | |
Cheng et al. | Zero-shot prediction of mutation effects with multimodal deep representation learning guides protein engineering | |
Malik et al. | Trials, skills, and future standpoints of ai based research in bioinformatics | |
Jyoti et al. | Comprehensive evaluation of plant transcription factors binding sites discovery tools | |
Thanh-Hai et al. | Feature Selection Based on Shapley Additive Explanations on Metagenomic Data for Colorectal Cancer Diagnosis | |
van Beek | Channeling the data flood: handling large-scale biomolecular measurements in silico | |
KR20180090680A (ko) | 유전체 분석 시스템 | |
Lohitha Lakshmi et al. | An Evolutionary Optimization Methodology for Analyzing Breast Cancer Gene Sequences Using MSAPSO and MSADE | |
WO2010018882A1 (en) | Apparatus for visualizing and analyzing gene expression patterns using gene ontology tree and method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |