CN118230829B - 免疫年龄预测方法、装置、电子设备、存储介质 - Google Patents
免疫年龄预测方法、装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN118230829B CN118230829B CN202410647601.5A CN202410647601A CN118230829B CN 118230829 B CN118230829 B CN 118230829B CN 202410647601 A CN202410647601 A CN 202410647601A CN 118230829 B CN118230829 B CN 118230829B
- Authority
- CN
- China
- Prior art keywords
- sample
- rna
- seq
- gene set
- age
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 135
- 238000003559 RNA-seq method Methods 0.000 claims abstract description 77
- 238000012216 screening Methods 0.000 claims abstract description 35
- 210000003819 peripheral blood mononuclear cell Anatomy 0.000 claims abstract description 22
- 238000012360 testing method Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 16
- 230000014509 gene expression Effects 0.000 claims description 30
- 239000011159 matrix material Substances 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 18
- 210000004027 cell Anatomy 0.000 claims description 13
- 230000037361 pathway Effects 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 101150090421 GO gene Proteins 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 230000036039 immunity Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims 1
- 230000002776 aggregation Effects 0.000 claims 1
- 238000010200 validation analysis Methods 0.000 description 7
- 230000001052 transient effect Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 210000000987 immune system Anatomy 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 208000030090 Acute Disease Diseases 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241001270131 Agaricus moelleri Species 0.000 description 1
- 208000017667 Chronic Disease Diseases 0.000 description 1
- 101001121408 Homo sapiens L-amino-acid oxidase Proteins 0.000 description 1
- 101000827703 Homo sapiens Polyphosphoinositide phosphatase Proteins 0.000 description 1
- 102100026388 L-amino-acid oxidase Human genes 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 102100023591 Polyphosphoinositide phosphatase Human genes 0.000 description 1
- 101100012902 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FIG2 gene Proteins 0.000 description 1
- 101100233916 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) KAR5 gene Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000022913 anatomical structure regression Effects 0.000 description 1
- 230000003712 anti-aging effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 210000000649 b-lymphocyte subset Anatomy 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 210000002865 immune cell Anatomy 0.000 description 1
- 208000026278 immune system disease Diseases 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 244000052769 pathogen Species 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000007634 remodeling Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000000551 statistical hypothesis test Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 229960005486 vaccine Drugs 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Physiology (AREA)
- Chemical & Material Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提出了一种免疫年龄预测方法、装置、电子设备、存储介质,方法包括:获取各个年龄层的PBMCs中的RNA‑seq样本数据,其中,RNA‑seq样本数据表征健康的RNA‑seq样本数据;对RNA‑seq样本数据进行特征筛选,得到样本基因集;通过预设的富集算法对样本基因集进行富集评分,得到样本富集分数;输入所述样本富集分数到预设模型进行训练和测试,得到预测免疫年龄模型;获取待测RNA‑seq数据的待测富集分数;将所述待测富集分数输入到训练完成的预测免疫年龄模型,得到预测免疫年龄。从而提高免疫年龄预测的准确性。
Description
技术领域
本发明涉及免疫年龄预测技术领域,特别涉及一种免疫年龄预测方法、装置、电子设备、存储介质。
背景技术
免疫系统是机体抵御外界病原侵袭、维持内环境稳定的重要保护屏障,但随着年龄的增长,免疫系统也会经历一系列的变化,这一过程被称为免疫衰老。免疫衰老伴随着免疫器官结构的破坏和重塑机体,先天性和适应性免疫功能障碍,导致对感染和疫苗的应答能力下降,同时也增加了患上慢性疾病和肿瘤等的风险。因此早期预测异常的免疫衰老对抗衰的诊疗有重要意义,进行异常的免疫衰老预测的前提之一是对免疫年龄有准确的判断。
现有的从各组学数据预测年龄的衰老时钟模型精度不一,主要利用传统的机器学习方法(如线性回归)基于各组学数据的单个特征(如基因表达)进行建模。但直接利用基因表达值建模会损害模型的泛化能力。导致预测准确性降低。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种免疫年龄预测方法、装置、电子设备、存储介质,能够提高免疫年龄预测准确性。
第一方面,本发明实施例提供了一种免疫年龄预测方法,包括:
获取各个年龄层的PBMCs中的RNA-seq样本数据,其中,所述RNA-seq样本数据表征健康的RNA-seq样本数据;
对所述RNA-seq样本数据进行特征筛选,得到样本基因集;
通过预设的富集算法对所述样本基因集进行富集评分,得到样本富集分数;
输入所述样本富集分数到预设模型进行训练和测试,得到预测免疫年龄模型;
获取待测RNA-seq数据的待测富集分数;
将所述待测富集分数输入到训练完成的所述预测免疫年龄模型,得到预测免疫年龄。
在本发明的一些实施例中,所述对所述RNA-seq样本数据进行特征筛选,得到样本基因集,包括:
获取所述RNA-seq样本数据中与年龄相关的特征皮尔森相关系数;
将所述特征皮尔森相关系数中的多重共线性特征进行删除,得到样本基因集。
在本发明的一些实施例中,所述对所述RNA-seq样本数据进行特征筛选,得到样本基因集,包括:
对所述RNA-seq样本数据中的GO基因集和KEGG通路基因集进行富集评分,得到筛选富集分数;
将所述筛选富集分数与预设的第一筛选分数进行比较,从所述样本基因集中获取所述筛选富集分数大于所述第一筛选分数的筛选基因集;
对所述筛选基因集中的所述GO基因集进行去多重共线性处理,并结合细胞亚群特异性基因集,得到所述样本基因集。
在本发明的一些实施例中,所述通过预设的富集算法对所述样本基因集进行富集评分,得到样本富集分数,包括:
获取所述RNA-seq样本数据的基因表达矩阵;
对所述基因表达矩阵和所述样本基因集进行相同基因识别,得到第一基因集;
根据所述第一基因集的集合情况确定所述样本富集分数。
在本发明的一些实施例中,所述根据所述第一基因集的集合情况确定所述样本富集分数,包括:
如果所述第一基因集为空集,则;
如果所述第一基因集的基因数为1,对于每个所述RNA-seq样本数据,;
如果所述第一基因集的基因数大于1,对于每个所述RNA-seq样本数据,;
其中,为所述样本富集分数,为所述样本基因集,为同时在所述基因表达矩阵和基因集中的基因,j为样本标号,M为所述基因表达矩阵的个数,是的数目,k代表基因标号,rank(k,j)表示样本j中基因k的表达排名,表示样本j中基因的表达秩次排名。
在本发明的一些实施例中,在所述将所述待测富集分数输入到训练完成的所述预测免疫年龄模型,得到预测免疫年龄之后,包括:
对所述预测免疫年龄与真实年龄进行比较,得到年龄差值;
当所述年龄差值大于预设的年龄差阈值,则确定所述待测RNA-seq数据存在异常免疫。
在本发明的一些实施例中,所述获取各个年龄层的PBMCs中的RNA-seq样本数据,包括:
从预设数据库中获取第一样本数据,其中,所述第一样本数据为健康的RNA-seq数据;
对所述第一样本数据进行测序,得到第二样本数据;
将所述第一样本数据与所述第二样本数据进行结合,得到所述RNA-seq样本数据。
第二方面,本发明实施例提供了一种免疫年龄预测装置,包括少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如上述第一方面所述的免疫年龄预测方法。
第三方面,本发明实施例提供了一种电子设备,包括有如上述第二方面所述的免疫年龄预测装置。
第四方面,本发明实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如上述第一方面所述的免疫年龄预测方法。
根据本发明实施例的免疫年龄预测方法,至少具有如下有益效果:获取各个年龄层的PBMCs中的RNA-seq样本数据,其中,所述RNA-seq样本数据表征健康的RNA-seq样本数据;对所述RNA-seq样本数据进行特征筛选,得到样本基因集;通过预设的富集算法对所述样本基因集进行富集评分,得到样本富集分数;输入所述样本富集分数到预设模型进行训练和测试,得到预测免疫年龄模型;获取待测RNA-seq数据的待测富集分数;将所述待测富集分数输入到训练完成的所述预测免疫年龄模型,得到预测免疫年龄。利用PBMCs的RNA-seq数据,基于基因集富集算法及神经网络模型进行免疫年龄预测,从而准确地反应基因集的富集程度,进而提高免疫年龄预测准确性。
附图说明
图1是本发明一个实施例提供的免疫年龄预测方法的流程图;
图2是本发明一个实施例提供的预测免疫年龄的设计模式流程图;
图3是本发明一个实施例提供的验证集的模型预测的年龄与真实年龄的散点示意图;
图4是本发明一个实施例提供的测试集的模型预测的年龄与真实年龄的散点示意图:
图5是本发明一个实施例提供的不同来源的测试集数据真实年龄和预测年龄之间的PCC的示意图;
图6是本发明另一个实施例提供的免疫年龄预测装置的结构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
为了方便理解,对术语进行解释:
PBMCs:外周血单个核细胞。
RNA-seq:RNA测序(转录组测序),是一种重要的生物信息学资源,它能够揭示细胞在不同生理或病理状态下的基因表达模式。
下面基于附图,对本发明实施例的控制方法作进一步阐述。
参照图1,图1为本发明实施例提供的一种免疫年龄预测方法的流程图,该免疫年龄预测方法包括但不限于有以下步骤:
步骤S110,获取各个年龄层的PBMCs中的RNA-seq样本数据,其中,RNA-seq样本数据表征健康的RNA-seq样本数据;
步骤S120,对RNA-seq样本数据进行特征筛选,得到样本基因集;
步骤S130,通过预设的富集算法对样本基因集进行富集评分,得到样本富集分数;
步骤S140,输入样本富集分数到预设模型进行训练和测试,得到预测免疫年龄模型;
步骤S150,获取待测RNA-seq数据的待测富集分数;
步骤S160,将待测富集分数输入到训练完成的预测免疫年龄模型,得到预测免疫年龄。
需要说明的是,首先需要进行数据收集,得到多个健康的PBMCs的RNA-seq数据作为样本数据,示例性地,有覆盖181名健康个数的全年龄层PBMCs的RNA-seq数据集。划分为训练集(70%)、验证集(15%)和测试集(15%)。之后对RNA-seq样本数据进行特征筛选,得到样本基因集,要注意的是,样本基因集中包括GO(Gene Ontology)、KEGG(KyotoEncyclopedia of Genes and Genomes)通路和细胞亚群特异性基因集,其中特征筛选主要面向GO和KEGG通路基因。而细胞亚群特异性基因集的获取方式主要是:对外周血单核细胞PBMCs的RNA测序样本的每个样本的平均基因表达量进行富集评分,得到富集分数,其中,富集评分主要利用预设的Rank-enrichment算法。这些外周血单核细胞PBMCs的测序样本的基因集为图谱的A个细胞亚群特异性基因集,将这些特异性基因集的Rank-enrichment富集分数与测序样本的细胞亚群占比进行皮尔森相关系数计算,发现在A个亚型中有B个亚型的相关性显著(P<0.05),要说明的是相关性分析中p表示:反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P值,一般以P<0.05为显著。这B个细胞亚群特异性基因集即为样本基因集中的细胞亚群特异性基因集。此外,来自ssGSEA(一种目前生物信息学中常用的基因富集评分方法)的GO和KEGG通路基因集对健康RNA-seq数据的富集分数与Rank-enrichment分数显示出高相关性。这些结果共同证明了Rank-enrichment算法在基因集富集评分方面的准确性表现。之后使用Rank-enrichment算法对这些基因集进行富集评分作为预设模型的输入。预设模型为TabNet神经网络模型,是一个对表格数据敏感的神经网络,其通过Attentive Transformer层的设计从而具有了良好的可解释性。首先对模型进行了掩码式的自监督预训练,即对训练集的部分富集评分进行掩码(设置为空),然后将训练集的基因集的Rank-enrichment富集评分为输入,输入神经网络,神经网络进行预测掩码部分的数据从而预训练模型。然后进行年龄预测训练,具体而言以训练集的每个样本的基因集Rank-enrichment富集评分为输入,以真实生理年龄为基准真相,进行回归训练(惩罚函数为均方方差,优化器为Adam,学习率为2e-2)。模型在训练过程能学习到年龄与免疫细胞通路的潜在关联,因此完成的模型具有预测免疫年龄的功能。早停止机制防止模型过拟合。将完成训练的预设模型作为ImmunoRankAge模型,即预测免疫年龄模型,该模型在验证集及测试集的效能一致且高效,示例性地,根据实验,其中验证集的预测年龄与真实年龄之间的平均绝对误差(mean absolute error,MAE)为8.57,皮尔森相关系数(PCC)为0.93,决定系数(R2)0.86,而测试集的预测年龄与真实年龄之间的MAE、PCC及R2分别为7.47、0.93和0.86。此外,测试集中的自测数据及公开数据库数据的预测年龄与真实年龄直接的PCC分别为0.96和0.89,均提示了模型良好的鲁棒性及泛化性。模型的可解释性方面,GO、KEGG通路和细胞类型特异基因集(细胞亚群特异性基因集)的模型最重要的特征分别是“anatomicalstructure regression(解剖结构退化)”,“longevity-regulating pathway(寿命调节通路)”和“T_Naive(初始T细胞)”。从而使得模型具有良好的可解释性。因此,获取待测RNA-seq数据的待测富集分数;将待测富集分数输入到训练完成的预测免疫年龄模型,得到预测免疫年龄。准确且具有可解释性。
在另一实施例中,对RNA-seq样本数据进行特征筛选,得到样本基因集,包括:
获取RNA-seq样本数据中与年龄相关的特征皮尔森相关系数;
将特征皮尔森相关系数中的多重共线性特征进行删除,得到样本基因集。
在另一实施例中,对RNA-seq样本数据进行特征筛选,得到样本基因集,包括:
对RNA-seq样本数据中的GO基因集和KEGG通路基因集进行富集评分,得到筛选富集分数;
将筛选富集分数与预设的第一筛选分数进行比较,从样本基因集中获取筛选富集分数大于第一筛选分数的筛选基因集;
对筛选基因集中的GO基因集进行去多重共线性处理,并结合细胞亚群特异性基因集,得到样本基因集。
需要说明的是,保留与年龄相关的特征皮尔森相关系数(Pearson correlationcoefficient,PCC)>第一筛选分数,示例性地可以是0.4,并消除具有多重共线性的特征,即特征皮尔森相关系数PCC>第二筛选分数的,示例性地可以是0.7:具体而言,示例性地,首先在181个样本对应的训练集RNA-seq样本数据中筛选GO和KEGG通路基因Rank-enrichment集富集评分与样本的年龄相关性>0.4的基因集,接着对GO的基因集进行去多重共线性,即去除样本基因集评分间相关性>0.7的通路。结合细胞亚群特异性基因集。最后得到了样本基因集。
在另一实施例中,通过预设的富集算法对样本基因集进行富集评分,得到样本富集分数,包括:
获取RNA-seq样本数据的基因表达矩阵;
对基因表达矩阵和样本基因集进行相同基因识别,得到第一基因集;
根据第一基因集的集合情况确定样本富集分数。
更进一步地,在另一实施例中,根据第一基因集的集合情况确定样本富集分数,包括:
如果所述第一基因集为空集,则;
如果所述第一基因集的基因数为1,对于每个所述RNA-seq样本数据,;
如果所述第一基因集的基因数大于1,对于每个所述RNA-seq样本数据,;
其中,为所述样本富集分数,为所述样本基因集,为同时在所述基因表达矩阵和基因集中的基因,j为样本标号,M为所述基因表达矩阵的个数,是的数目,k代表基因标号,rank(k,j)表示样本j中基因k的表达排名,表示样本j中基因的表达秩次排名。
需要说明的是,富集评分采用Rank-enrichment算法:Rank-enrichment算法旨在基于给定的表达矩阵计算基因集的富集分数。对于每个样本,它通过一系列步骤计算基因集内基因的秩次,并将这些秩次转换为富集分数。给定包含N个样本和M个基因的表达矩阵X和一个特征基因集,并且表示样本j中基因k的表达排名。算法的步骤如下:
a. 识别在表达矩阵中同时也存在于特征基因集中的基因,定义为;
b. 如果是空集:;
c. 如果的基因数为1,对于每个样本j:;
d. 如果的基因数大于1,对于每个样本j:。
例如:对于一个特征基因集,其中A、B、C是表达矩阵中也存在的基因,则样本j的富集分数计算为:
;
该富集分数反映了样本j中基因集内基因的秩次及基因集的富集程度。Rank-enrichment算法在基因集富集评分方面具有高准确性,进而提高了预测免疫年龄的准确性。
在另一实施例中,在将待测富集分数输入到训练完成的预测免疫年龄模型,得到预测免疫年龄之后,包括:
对预测免疫年龄与真实年龄进行比较,得到年龄差值;
当年龄差值大于预设的年龄差阈值,则确定待测RNA-seq数据存在异常免疫。
需要说明的是,将完成训练的预设模型,即预测免疫年龄模型应用于患病队列,发现不同状态分组的患者的预测免疫年龄与真实年龄的差值均较健康个体(测试队列)显著增大,即当年龄差值大于预设的年龄差阈值,提示其具有潜在的预测异常免疫状态的功能。此外,该模型在中央处理器或图形处理器模式下均具有较高的运行速度,在不到10秒的时间内能够快速预测超过200个样本。
在另一实施例中,获取各个年龄层的PBMCs中的RNA-seq样本数据,包括:
从预设数据库中获取第一样本数据,其中,第一样本数据为健康个体的RNA-seq数据;
对第一样本数据进行测序,得到第二样本数据;
将第一样本数据与第二样本数据进行结合,得到RNA-seq样本数据。
需要说明的是,数据收集可以在经过授权后汇编了来自GEO数据库的健康个体和患病个体的数据示例性地,汇编93名健康个体和60名某类疾病的患者的PBMCs的RNA-seq数据。此外,还进行测序并产生来自88名健康个体PBMCs的新RNA-seq数据。这些数据集被合并以创建一个覆盖181名健康个体的全年龄层PBMCs的RNA-seq数据集。对于某类急病的患者,根据医学定义可以进一步进行不同患病阶段的划分,并将其用作疾病测试数据集。将健康个体的RNA-seq划分为训练集(70%)、验证集(15%)和测试集(15%)。
参考图2,图2是本发明一个实施例提供的预测免疫年龄的设计模式流程图;图中最左侧的上方是外周血单个核细胞,也就是PBMCs,最左侧的下方是转录组测序,也就是RNA测序(RNA-seq)。从这两个中得到基因表达矩阵,其中基因表达矩阵的行为不同基因,列为不同样本,之后从基因表达矩阵中得到细胞类型富集评分,和基因本体及京都基因与基因组百科全书通路富集评分,也就是GO和KEGG通路富集评分。将这两个输入到训练完成后的预设模型,预设模型采用的是表格神经网络,得到最终的预测的免疫年龄。也就是说,首先PBMCs的RNA-seq表达矩阵进行样本基因集的Rank-enrichment富集评分,计算得出的评分矩阵输入表格神经网络,对免疫年龄预测模型进行训练。之后输入待测PBMCs的RNA-seq到完成训练的表格神经网络模型进行预测,得到预测免疫年龄。
参考图3,图3为验证集的模型预测的年龄与真实年龄的散点图,根据实验,验证集的预测年龄(纵坐标)与真实年龄(横坐标)之间的平均绝对误差(MAE)为8.57,皮尔森相关系数(PCC)为0.93,决定系数(R2)为0.86,而图4为测试集的模型的预测年龄与真实年龄的散点图:测试集(test)的预测年龄与真实年龄之间的平均绝对误差(MAE)、皮尔森相关系数(PCC)及决定系数(R2)分别为7.47、0.93和0.86。图5为不同来源的测试集数据真实年龄和预测年龄之间的皮尔森相关系数(PCC)。不同灰度表示不同来源的RNA-seq数据集;可以看出测试集中的新产生数据及数据库数据的预测年龄与真实年龄之间的PCC(皮尔森相关系数)分别为0.96和0.89,均提示了模型良好的鲁棒性及泛化性。
如图6所示,图6是本发明一个实施例提供的免疫年龄预测装置的结构图。本发明还提供了一种免疫年龄预测装置,包括:
处理器701,可以采用通用的中央处理器(Central Processing Unit,CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案;
存储器702,可以采用只读存储器(Read Only Memory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory,RAM)等形式实现。存储器702可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器702中,并由处理器701来调用执行本申请实施例的免疫年龄预测方法;
输入/输出接口703,用于实现信息输入及输出;
通信接口704,用于实现本装置与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;
总线705,在设备的各个组件(例如处理器701、存储器702、输入/输出接口703和通信接口704)之间传输信息;
其中处理器701、存储器702、输入/输出接口703和通信接口704通过总线705实现彼此之间在设备内部的通信连接。
本申请实施例还提供了一种电子设备,包括如上所述的免疫年龄预测装置。
本申请实施例还提供了一种存储介质,存储介质为计算机可读存储介质,该存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述免疫年龄预测方法。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,实现了以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本发明权利要求所限定的范围内。
Claims (8)
1.一种免疫年龄预测方法,其特征在于,包括:
获取各个年龄层的PBMCs中的RNA-seq样本数据,其中,所述RNA-seq样本数据表征健康的RNA-seq样本数据;
对所述RNA-seq样本数据进行特征筛选,得到样本基因集;
通过预设的富集算法对所述样本基因集进行富集评分,得到样本富集分数;
输入所述样本富集分数到预设模型进行训练和测试,得到预测免疫年龄模型;
获取待测RNA-seq数据的待测富集分数;
将所述待测富集分数输入到训练完成的所述预测免疫年龄模型,得到预测免疫年龄;
所述通过预设的富集算法对所述样本基因集进行富集评分,得到样本富集分数,包括:
获取所述RNA-seq样本数据的基因表达矩阵;
对所述基因表达矩阵和所述样本基因集进行相同基因识别,得到第一基因集;
根据所述第一基因集的集合情况确定所述样本富集分数;
所述根据所述第一基因集的集合情况确定所述样本富集分数,包括:
如果所述第一基因集为空集,则;
如果所述第一基因集的基因数为1,对于每个所述RNA-seq样本数据,;
如果所述第一基因集的基因数大于1,对于每个所述RNA-seq样本数据,;
其中,为所述样本富集分数,为所述样本基因集,为同时在所述基因表达矩阵和基因集中的基因,j为样本标号,M为所述基因表达矩阵的个数,是的数目,k代表基因标号,rank(k,j)表示样本j中基因k的表达排名,表示样本j中基因的表达秩次排名。
2.根据权利要求1所述的免疫年龄预测方法,其特征在于,所述对所述RNA-seq样本数据进行特征筛选,得到样本基因集,包括:
获取所述RNA-seq样本数据中与年龄相关的特征皮尔森相关系数;
将所述特征皮尔森相关系数中的多重共线性特征进行删除,得到样本基因集。
3.根据权利要求2所述的免疫年龄预测方法,其特征在于,所述对所述RNA-seq样本数据进行特征筛选,得到样本基因集,包括:
对所述RNA-seq样本数据中的GO基因集和KEGG通路基因集进行富集评分,得到筛选富集分数;
将所述筛选富集分数与预设的第一筛选分数进行比较,从所述样本基因集中获取所述筛选富集分数大于所述第一筛选分数的筛选基因集;
对所述筛选基因集中的所述GO基因集进行去多重共线性处理,并结合细胞亚群特异性基因集,得到所述样本基因集。
4.根据权利要求1所述的免疫年龄预测方法,其特征在于,在所述将所述待测富集分数输入到训练完成的所述预测免疫年龄模型,得到预测免疫年龄之后,包括:
对所述预测免疫年龄与真实年龄进行比较,得到年龄差值;
当所述年龄差值大于预设的年龄差阈值,则确定所述待测RNA-seq数据存在异常免疫。
5.根据权利要求1所述的免疫年龄预测方法,其特征在于,所述获取各个年龄层的PBMCs中的RNA-seq样本数据,包括:
从预设数据库中获取第一样本数据,其中,所述第一样本数据为健康的RNA-seq数据;
对所述第一样本数据进行测序,得到第二样本数据;
将所述第一样本数据与所述第二样本数据进行结合,得到所述RNA-seq样本数据。
6.一种免疫年龄预测装置,其特征在于,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如权利要求1至5任一项所述的免疫年龄预测方法。
7.一种电子设备,其特征在于,包括权利要求6所述的免疫年龄预测装置。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至5任一项所述的免疫年龄预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410647601.5A CN118230829B (zh) | 2024-05-23 | 2024-05-23 | 免疫年龄预测方法、装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410647601.5A CN118230829B (zh) | 2024-05-23 | 2024-05-23 | 免疫年龄预测方法、装置、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118230829A CN118230829A (zh) | 2024-06-21 |
CN118230829B true CN118230829B (zh) | 2024-09-13 |
Family
ID=91507829
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410647601.5A Active CN118230829B (zh) | 2024-05-23 | 2024-05-23 | 免疫年龄预测方法、装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118230829B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116825195A (zh) * | 2023-06-30 | 2023-09-29 | 暨南大学 | 一种利用转录组评估免疫年龄和状态的方法和系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2419539A4 (en) * | 2009-04-14 | 2012-10-10 | Cardiodx Inc | PREDICTIVE MODELS AND AGE ESTIMATING METHOD |
CN113362894A (zh) * | 2021-06-15 | 2021-09-07 | 上海基绪康生物科技有限公司 | 一种对协同致死的癌症驱动基因进行预测的方法 |
CN116694602A (zh) * | 2022-03-01 | 2023-09-05 | 港大科桥有限公司 | 用于基因组编辑的cas9蛋白 |
CN115631857B (zh) * | 2022-04-01 | 2023-06-23 | 洛兮医疗科技(杭州)有限公司 | 甲状腺癌cd8+t细胞免疫相关基因预后预测模型 |
WO2024050119A1 (en) * | 2022-09-01 | 2024-03-07 | The Brigham And Women's Hospital, Inc. | Transcriptomic clocks of biological age and lifespan |
-
2024
- 2024-05-23 CN CN202410647601.5A patent/CN118230829B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116825195A (zh) * | 2023-06-30 | 2023-09-29 | 暨南大学 | 一种利用转录组评估免疫年龄和状态的方法和系统 |
Non-Patent Citations (1)
Title |
---|
基于转录组测序筛选黄牛低氧适应性相关差异基因;侯孟典;王会;钟金城;柴志欣;益西康珠;王吉坤;王嘉博;华北农学报;20200515(第2期);第221-231页 * |
Also Published As
Publication number | Publication date |
---|---|
CN118230829A (zh) | 2024-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10553318B2 (en) | Individual and cohort pharmacological phenotype prediction platform | |
JP7684287B2 (ja) | 単一細胞rna-seqデータ処理 | |
JP2022512829A (ja) | 疾患診断のための方法及び機械学習 | |
CN112951327B (zh) | 药物敏感预测方法、电子设备及计算机可读存储介质 | |
CN104584022A (zh) | 利用集成的双融合和广义模拟退火技术生成生物标记签名的系统及方法 | |
CN105740626A (zh) | 一种基于机器学习的药物活性预测方法 | |
CN112133367A (zh) | 药物与靶点间的相互作用关系预测方法及装置 | |
US20240249839A1 (en) | Systems, software, and methods for multiomic single cell classification and prediction and longitudinal trajectory analysis | |
CN118230829B (zh) | 免疫年龄预测方法、装置、电子设备、存储介质 | |
CN110462056B (zh) | 基于dna测序数据的样本来源检测方法、装置和存储介质 | |
CN112071439B (zh) | 药物副作用关系预测方法、系统、计算机设备和存储介质 | |
CN114373546A (zh) | 疾病风险评估方法、装置及存储介质 | |
CN114649071A (zh) | 一种基于真实世界数据的消化性溃疡治疗方案的预测系统 | |
CN117551760A (zh) | 用于预测进展性结核和非进展性结核的生物标志物及其应用 | |
CN111863135A (zh) | 一种假阳性结构变异过滤方法、存储介质及计算设备 | |
CN110459330A (zh) | 药物适应症预测方法及装置 | |
CN116312800A (zh) | 一种基于血浆中循环rna全转录组测序的肺癌特征识别方法、装置和存储介质 | |
CN113862371A (zh) | 一种酒精相关性肝细胞癌疾病进展和预后风险的预测装置及其预测模型的训练方法 | |
CN114822691B (zh) | 基于图卷积神经网络的临床事件预测装置 | |
CN114386530B (zh) | 基于深度学习的溃疡性结肠炎免疫分型的分类方法和系统 | |
Tsanakas et al. | An explainable machine learning model for COVID-19 severity prognosis at hospital admission | |
CN117790002B (zh) | 信息预警方法、装置、电子设备及存储介质 | |
KR102715713B1 (ko) | 세포 샘플 내 진양성 변이를 검출하기 위한 기계학습 모델을 학습시키는 방법 및 장치 | |
KR20220111847A (ko) | 복합 생체 표지 네트워크 기반 질병 위험도 진단 방법 | |
Du et al. | Causal differential expression analysis under unmeasured confounders with causarray |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |