CN114450750A - 人类生物性衰老的深度蛋白质组标志物和确定生物性衰老时钟的方法 - Google Patents

人类生物性衰老的深度蛋白质组标志物和确定生物性衰老时钟的方法 Download PDF

Info

Publication number
CN114450750A
CN114450750A CN202080050332.4A CN202080050332A CN114450750A CN 114450750 A CN114450750 A CN 114450750A CN 202080050332 A CN202080050332 A CN 202080050332A CN 114450750 A CN114450750 A CN 114450750A
Authority
CN
China
Prior art keywords
tissue
biological
organ
age
aging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080050332.4A
Other languages
English (en)
Inventor
A·M·艾力皮尔
E·普京
A·泽沃隆科夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yingke Intelligent Co ltd
Original Assignee
Yingke Intelligent Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US16/415,855 external-priority patent/US10665326B2/en
Application filed by Yingke Intelligent Co ltd filed Critical Yingke Intelligent Co ltd
Publication of CN114450750A publication Critical patent/CN114450750A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/60ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to nutrition control, e.g. diets
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Primary Health Care (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Pathology (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Nutrition Science (AREA)
  • Medicinal Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

为受试者创建生物性衰老时钟的方法,所述方法可以包括:(a)接收来自受试者组织或器官的蛋白质组特征;(b)根据蛋白质组特征创建输入向量;(c)将输入向量输入机器学习平台;(d)由机器学习平台根据输入向量生成组织或器官的预测生物性衰老时钟,其中所述生物性衰老时钟对组织或器官是特异性的;和(e)编制报告,所述报告包括鉴定组织或器官的预测生物学年龄的生物性衰老时钟。

Description

人类生物性衰老的深度蛋白质组标志物和确定生物性衰老时 钟的方法
交叉引用
本专利申请要求2019年5月17日提交的美国申请号16/415,855的优先权,该申请通过具体引用整体并入本文。
背景技术
虽然衰老可能是复杂的多因素过程,没有单一的原因或治疗方法,但衰老是否可归类为疾病这个问题引起了广泛的争论。人们已经提出了许多延长生物体寿命的策略,包括更换细胞和器官、修复累积损伤的综合策略、使用激素激活内源性修复过程、通过特定突变调节衰老过程、基因疗法和小分子药物。动物的生存很大程度上取决于其维持体内平衡的能力,体内平衡部分通过不同组织内部和之间的细胞内和细胞间通信来实现。
不同细胞和组织的寿命差异很大。尽管衰老会影响多个组织中的基因表达和蛋白质产生,但基因组具有高度的组织特异性,并取决于它们在组织中的功能,例如作为基因表达最终产物产生的蛋白质。由于再生率及其相关的基因表达和蛋白质产生模式各异,外部效应物(例如小分子)对不同组织有不同的影响。因此,基因表达和蛋白质产生可以提供组织特异性特征,可以对这些特征进行研究,寻找出干预信息,可以使组织、器官或人恢复到更年轻的状态,且不会对其他组织产生额外的不良影响。
直到最近,老化(senescence)逆转(衰老逆转)的治疗和疗法还很少见,主要是因为老化的潜在机制很复杂,并且缺乏了解和治疗老化的工具。老化保护(不是老化逆转)的药物开发的一个实例参见US 2017/0073735。正如本发明中将公开的那样,最近的生物信息学发展,例如深度神经网络,已经开启了基于老化组织与非老化组织的基因表达和/或蛋白质产生的对比,开发高度个性化老化逆转治疗的可能性。
目前,提出的老化治疗策略都没有提供快速筛选、验证和临床部署的路线图。目前,没有任何方法可以及时预测当前可用药物对人类寿命和健康寿命的影响。
已经提出了许多衰老的生物标志物,包括端粒长度、细胞内和细胞外聚集体、氨基酸外消旋化和遗传不稳定性。基因表达和DNA甲基化谱在衰老过程中会发生变化,也可以作为衰老的生物标志物。因此,从基因表达的mRNA翻译而来的蛋白质产生谱可以相应地作为衰老的生物标志物。许多对多种疾病活检的转录组或蛋白质组进行分析的研究表明,患者的年龄和性别对基因表达和随后的蛋白质产生具有显著影响,并且小鼠的基因表达随着年龄的增加发生明显变化,导致小鼠和人类的衰老基因表达数据库的发展。
果蝇和人类的产生蛋白质和基因表达的蛋白质-蛋白质相互作用的组合表明,衰老主要与少数可能优先攻击对网络稳定性很重要的关键调控节点的生物过程有关。
发明人等在各种实体瘤的基因表达和表观遗传学方面的工作提供了线索,表明映射到信号通路上的细胞转录谱可用于筛选和评价用于调控与衰老和寿命直接或间接相关的通路的靶向药物。先前的研究表明,通路组合(称为通路云)而不是通路的一个元素,或整个通路可能是细胞病理变化的原因。
老化反应导致细胞表型发生显著变化。人类衰老/老化导致细胞表型发生显著变化。根据(Campisi and d’Adda di Fagagna 2007),衰老表型由多种刺激诱导。有丝分裂感受态细胞通过细胞老化对各种应激原做出反应。这些应激原包括功能失调的端粒、非端粒DNA损伤、过多的有丝分裂信号(包括由致癌基因产生的信号(也会导致DNA损伤))、非遗传毒性应激(例如染色质组织的扰动),以及可能是病因尚不明确的应激。这些变化包括细胞增殖的本质上永久性停滞、细胞凋亡抗性的发展(某些细胞的死亡作为生物体生长或发育的正常和受控部分发生)以及基因表达和蛋白质产生模式的改变。此外,衰老相关标志物(例如老化相关的β-半乳糖苷酶、p16、老化相关DNA损伤灶(SDF)和老化相关异染色质灶(SAHF))的表达或出现既不是普遍的,也不是老化状态所独有的。
细胞老化被认为通过各种机制导致与年龄相关的组织和器官功能障碍以及各种与年龄相关的慢性疾病。老化的特点是持续增殖停滞,其中细胞显示出明显的促炎老化相关分泌表型(SASP)(Krimpenfort and Berns 2017)。虽然SASP在早期发育和伤口愈合期间发挥支持性旁分泌功能(Demaria et al.2014),但这些SASP因子的持续分泌对正常组织内稳态具有不利影响,并被认为对衰老具有显著影响(DiLoreto and Murphy 2015)。
老化以细胞自主方式消耗生物体中的各种循环细胞池,包括干细胞和祖细胞。通过这种方式,老化会干扰组织内稳态和再生,并为其涉及SASP的细胞非自主性有害行为奠定基础。至少有五种不同的旁分泌机制,通过此,老化细胞被认为促进组织功能障碍,包括干细胞微环境的扰动(导致干细胞功能障碍)、细胞外基质的破坏、诱导异常细胞分化(两者都会产生异常的组织结构)、刺激无菌组织炎症和诱导邻近细胞老化(旁分泌老化)。一个新出现但尚未经过检验的概念是,具有老化细胞关键特性的有丝分裂后终末分化细胞可能通过相同的旁分泌机制促进衰老及与年龄相关的疾病(van Deursen 2014)。
最近的一些观察结果支持老化是一个高度动态的多步骤过程的假设,在此过程期间,老化细胞的特性不断进化和多样化,与肿瘤发生非常类似,但没有细胞增殖作为驱动因素(De Cecco et al.2013;Wang et al.2011;Ivanov et al.2013)。这不仅包括老化细胞,还包括老化前阶段。这一事实也意味着,有机会将细胞向正常的非老化行为逆转。
一直存在逆转老化的需求,但直到最近特别是信息学和机器学习的发展,才能提供必要的工具用于开发和应用这种老化疗法和治疗。此外,甚至还一直缺少普遍接受的生物标志物和评估衰老的此类生物标志物的指标。
本领域中,至少存在两个通用的年龄概念。一个是“实足年龄”,它只是生物体或人类活着的实际日历时间。另一个称为“生物学年龄”或“生理学年龄”,这是本发明特别关注的重点,其与个体的生理健康及其无论是转录组学还是蛋白质组学的生物标志物有关。生物学年龄与身体的器官和调节系统的表现的良好程度以及生物体各个层面的总体稳态维持程度有关,因为这些功能通常会随着时间和年龄而下降。
生物体的任何生理过程的测量通常使用一组预定义的生物标志物来完成。生物标志物可以定义为作为正常生物过程、致病过程或对治疗干预的药理反应的指标客观测量和评估的特征。科学家选择生物标志物用于测量体内非常明确的过程。
鉴于在多细胞生物体中衰老是一个系统的过程,无法被单个一维或甚至几个指标轻易表征,因此开发准确且有用的生物学年龄测量方法(可以将其视为生物时钟)是一项特别的挑战。同样,此类生物标志物不仅必须是生物衰老过程的客观可量化且易于测量的特征,而且还必须能够考虑到衰老不是单个特定过程,而是多个生理系统的一系列变化。
换句话说,单一生物标志物既无法提供多细胞生物体准确的整体生物时钟年龄,亦无法提供单个细胞、组织或器官的生物学年龄,甚至采用多个生物标志物时,也无法提供生物体准确的整体生物学年龄。事实上,给生物体或人类分配多个生物时钟通常很有用,也就是说,可以给该生物体的不同细胞、组织或器官分配不同的生物学年龄,以及根据不同的一个或多个生物标志物分配不同的时钟。因此,可能有一个皮肤时钟,一个肝脏时钟,一个基于细胞、组织或器官端粒长度的时钟,及另一个基于不同生物标志物的时钟。
过去,人们曾多次尝试开发适合测量生物性衰老的生物标志物。然而,迄今为止,使用的生物标志物都专注于对已知直接参与身体衰老相关损伤的发生和传播的数量有限的过程进行监测。此类生物标志物的实例有端粒长度(Lehmann,2013)、细胞内和细胞外聚集体、氨基酸外消旋化和遗传不稳定性。正如以前表观遗传时钟所证明的那样(Horvath,2012,Horvath,2013),基因表达(Wolters,2013)和DNA甲基化谱(Horvath,2012,Horvath,2013,Mendelsohn,2013)在衰老过程中都会发生变化,可以作为衰老的生物标志物。许多对多种疾病活检的转录组进行分析的研究表明,患者的年龄和性别对基因表达具有显著影响(Chowers,2003),并且小鼠的基因表达随着年龄的增加而发生明显变化(Weindruch,2002,Park,2009),导致小鼠(Zahn,2007)和人类(Blalock,2003;Welle,2003;Park,2005;Hong,2008;de
Figure BDA0003463488580000031
J.P,2009)衰老基因表达数据库的发展。
附图说明
结合附图,从以下说明和所附权利要求中,本发明的前述和以下信息以及其他特征将变得更加清楚。应该理解的是,这些附图仅描述了本发明的几个实施例,因此不能视为对本发明范围的限制,本发明将通过使用附图,以附加的具体性和细节进行描述。
图1示出了应用于老化前、老化、纤维化病症或年龄相关疾病患者的年龄预测管道的实施例。
图2示出了用于选择个性化治疗的与iPANDA分析组合的年龄预测管道的实施例。
图3阐明了采用与本发明兼容的、基于血液转录组学谱的用于生物性衰老评估的深度转录组学时钟方法预测的年龄与验证集中健康个体的实际实足年龄的对比。
图4阐明了采用与本发明兼容的、基于肌肉转录组学谱的用于生物性衰老评估的转录组学时钟方法预测的年龄与验证和测试集中健康个体的实际实足年龄的对比。
图5阐明了采用与本发明兼容的、基于肌肉转录组学谱的用于生物性衰老评估的深度转录组学时钟方法预测的年龄与外部验证集中健康个体的实际实足年龄组的对比。
图6阐明了验证集中健康个体按年龄划分的样本数量分布。
图7阐明了健康个体的ε-预测准确性实例。
图8阐明了使用t-SNE聚类算法按健康个体的年龄进行聚类。
图9是由Borda计数算法选择的最重要的基因列表,这些基因应用于与本发明兼容的深度转录组学时钟和所述的其他机器学习模型分配的排序。
图10阐明了示出器官、细胞和体液及其特定靶数量的维恩图。
图11阐明了根据所述的示例性验证集,按健康人员年龄范围分组的Δ(delta)(分配的(预测的)生物学年龄和实际实足年龄之差)条形图。
图12示出了生物学年龄时钟,或其包含不同子组风险比的报告的实例。
图13示出了生物学年龄时钟或其报告的实例,用于比较各个子组的实际年龄和预测年龄,并示出了根据所述的示例性验证集按健康人员年龄范围分组的Δ(分配的(预测的)生物学年龄和实际实足年龄之差)条形图。
图14示出了可在一些实施例中布置用于执行本文所述方法(或其部分)的示例性计算设备600(例如,计算机)。
图15包括的几个图示出了服用胰岛素和降糖药两者(例如,第一组)、仅服用胰岛素(例如,第二组)、仅服用降糖药(例如,第三组)和什么都不服用(例如,第四组)的糖尿病患者的DNN预测的log 2衰老比(预测生物学年龄与实际年龄的log 2转换比)。
图16包括的图形示出了来自韩国、加拿大和东欧的健康个体的衰老比(例如,预测年龄/实际实足年龄),采用东欧人群训练的DNN预测生物学年龄。
图17包括预测年龄比实足年龄更小(<-5岁)和更大(>5)的个体以及在误差范围内的个体(-5:5)的Kaplan-Meier图实例。
图中的元件是根据本文所述实施例中的至少一个实施例布置的,并且所述布置可由本领域的普通技术人员根据本文的公开进行修改。
具体实施方式
在下面的具体实施方式中,参考了构成其一部分的附图。在附图中,除非上下文另外说明,否则相似的符号通常表示相似的部件。在具体实施方式、附图和权利要求中描述的说明性实施例并非旨在限制。在不背离本文提出的主题的精神或范围内,可以采用其他实施例,可以做出其他改变。容易理解的是,本发明的各个方面,正如本文通常描述的和附图中示出的那样,可以以多种不同的配置进行布置、替换、组合、分离和设计,本文对所有的这些都进行了明确的设想。
通常,本发明涉及人类生物性衰老的生物标志物。在一些方面,本发明涉及基于基因表达的生物标志物,也称为转录组学数据,其提供生物体(包括人类)的生物学年龄的度量和估计。在一些方面,本发明涉及基于作为基因表达的最终产物而产生的蛋白质的生物标志物(例如,蛋白质组学数据)。因此,基于此类生物标志物及其用途,提供转录组或蛋白质组衰老时钟。此外,采用机器学习和深度学习技术来评估转录组学数据和/或蛋白质组学数据以及人类生物性衰老的生物标志物。本发明提供可用于评估生物性衰老的方法(例如,对受试者的转录组学数据和/或蛋白质组学数据执行的计算机方法),然后治疗生物性衰老(例如,对受试者执行的治疗方法)。本发明包括执行以下功能的方法、系统、装置、计算机程序产品等。
在一些实施例中,提供为患者创建生物性衰老时钟的方法。所述方法包括接收来自患者组织或器官的转录组特征,这些特征可通过处理生物样本,确定转录组特征(例如生物标志物)而获得。根据转录组特征,所述方法可以包括向机器学习平台提供输入向量。机器学习平台处理输入向量,生成包括预测或确定的样本生物学年龄的输出,由此可以预测或确定受试者的生物学年龄。在一些方面,生物时钟对组织或器官是特异性的,或者对组织或器官的特征是特异性的。在一些方面,所述方法可以包括重复一个或多个步骤(例如,接收转录组特征和/或输入输入向量和/或产生输出),用于确定或创建第二生物性衰老时钟,例如针对同一受试者、细胞、器官或组织,或不同的受试者、细胞、器官或组织。在一些方面,将两个生物性衰老时钟组合,产生合成生物性衰老时钟,该时钟在组织、器官或生物体层面应对一个者或多个受试者的生物性衰老问题。在一些方面,所述方法可以包括多次重复一个或多个步骤,以创建多个生物性衰老时钟,例如针对受试者的两个或更多个器官,或针对两个或更多个受试者。在一些方面,转录组特征和/或输入向量和/或产生的输出来自患者或另一生物体的非老化组织或器官。
在一些实施例中,提供为患者创建生物性衰老时钟的方法。所述方法包括接收来自患者组织或器官的蛋白质组特征,这些特征可通过处理生物样本,确定蛋白质组特征(例如一组蛋白质的浓度)而获得。根据蛋白质组特征,所述方法可以包括向机器学习平台提供输入向量。机器学习平台处理输入向量,生成包括预测或确定的样本生物学年龄的输出,由此可以预测或确定受试者的生物学年龄。在一些方面,生物时钟对组织或器官是特异性的,或者对组织或器官的特征是特异性的。在一些方面,所述方法可以包括重复一个或多个步骤(例如,接收转录组特征和/或蛋白质组特征和/或输入输入向量和/或产生输出),用于确定或创建第二生物性衰老时钟,例如针对同一受试者、细胞、器官或组织,或不同的受试者、细胞、器官或组织。在一些方面,将两个生物性衰老时钟组合,产生合成生物性衰老时钟,该时钟在组织、器官或生物体层面应对一个或多个受试者的生物性衰老问题。在一些方面,所述方法可以包括多次重复一个或多个步骤,以创建多个生物性衰老时钟,例如针对受试者的两个或更多个器官,或针对两个或更多个受试者。在一些方面,转录组特征和/或蛋白质组特征和/或输入向量和/或产生的输出来自患者或另一生物体的非老化组织或器官。
在一些方面,机器学习平台包括一个或多个深度神经网络。在一些方面,机器学习平台包括一个或多个生成式对抗网络。在一些方面,机器学习平台包括对抗性自动编码器架构。在一些方面,机器学习平台包括特征重要性分析,用于根据基因或基因集在年龄预测中的重要性对它们进行排序。
在一些方面,选择基因或基因组的子集作为抗衰老疗法的靶标。这可以基于转录组特征和/或蛋白质组特征和/或输入向量和/或产生的输出。在一些方面,选择基因或基因组的子集作为衰老修复疗法的靶标,其中蛋白质或蛋白质组的子集对应于所选的基因或基因组的子集。
在一些方面,转录组和/或蛋白质组的特征基于信号通路激活特征。在一些方面,输入转录组特征谱来自于微阵列平台。在一些方面,输入转录组特征谱来自于RNA测序平台。在一些方面,生物时钟对组织或器官是特异性的,或者对组织或器官的特征是特异性的。在一些方面,输入蛋白质组特征谱来自于基于抗体的方法、ELISA、LC分离和MS数据采集、SOMAscan蛋白质测定、基于二辛可宁酸的测定、Lowry蛋白质测定和其他生化测定、UV光谱蛋白质测定、Bradford蛋白质测定、比色测定(包括白蛋白比色溴甲酚测定)、化学发光蛋白质与蛋白质印迹、氨基酸分析、凝胶电泳、流动性,一种方法和任何其他蛋白质浓度/表达测量技术。
在一些方面,所述方法可以包括将个体的预测生物学年龄与个体的实际实足年龄进行比较。在一些方面,所述方法可以包括将基因表达水平和/或蛋白质水平(例如,蛋白质表达、蛋白质浓度)与个体的预测生物学年龄相关联。在一些方面,所述方法包括将信号通路特征与个体的预测生物学年龄相关联。在一些方面,所述方法可以包括将个体的预测生物学年龄与个体的实际实足年龄进行比较,其中所述比较进一步包括预期寿命的预测。在一些方面,所述方法可以包括将个体的预测生物学年龄与个体的实际实足年龄进行比较,其中所述比较进一步包括在治疗期间预测患者的预期寿命和生存概率。在一些方面,所述方法可以包括将个体的预测生物学年龄与个体的实际实足年龄进行比较,其中所述比较包括治疗效果的结果测量。
在一些实施例中,方法可以包括根据输出开发药物疗法。在一些方面,方法可以包括根据产生的输出开发抗老化疗法。在一些方面,方法可以包括根据产生的输出开发老化修复疗法。
在某种程度上,由于所述方法包括一种或多种衰老生物标志物,因此其可用于跟踪抗衰老疗法,例如抗老化疗法和老化修复疗法的疗效。所述方法可以预测生存或预期寿命。抗衰老药物应增加预期寿命,这些方法可用于跟踪施用的药物是否增加预期寿命(例如,降低预测年龄/使人更年轻等)。
在一些方面,方法可以包括根据产生的输出开发基于个体的死亡率、存活率或发病率的精算风险评估。在一些方面,方法可以包括根据产生的输出使用死亡率和存活率分析、现有健康状况以及基于申请人个体是否吸烟来开发保险评估。
本发明还包括为患者创建生物性衰老时钟的方法,所述方法包括:(a)接收来自患者组织或器官的第一个转录组特征;(b)接收来自基线的第二个转录组特征;(c)计算(a)特征和(b)特征的预测年龄之差。
本发明还包括为患者创建生物性衰老时钟的方法,所述方法包括:(a)接收来自患者组织或器官的第一个蛋白质组特征;(b)接收来自基线的第二个蛋白质组特征;(c)计算(a)特征和(b)特征的预测年龄之差。
在一些方面,所述方法可以向机器学习平台提供输入向量,其中机器学习平台输出包括生物性衰老时钟分量的分类向量。
在一些实施例中,在其中包含计算机可读程序代码的有形的非瞬态计算机可读介质上提供计算机程序产品,所述程序代码可由计算机或计算系统的处理器执行,从而执行用于生成或确定患者的生物性衰老时钟的方法。所述方法可以包括接收来自患者组织或器官的转录组和/或蛋白质组特征(步骤(a))。所述方法可以包括根据转录组和/或蛋白质组特征创建输入向量。所述方法可以包括向机器学习平台提供输入向量(步骤(b))。所述方法可以包括机器学习平台产生包括来自患者组织或器官样本的预测生物学年龄的输出(步骤(c))。在一些方面,生物性衰老时钟对组织或器官是特异性的,或者对组织或器官的特征是特异性的。在一些方面,机器学习平台包括本文描述的或本领域已知的实例和其实施方式。生物性衰老时钟可以被认为是可以运行用来预测组织、器官或受试者的生物学年龄,然后将预测的生物学年龄与受试者的实际年龄进行比较的方法。
在一些实施例中,由计算机程序产品执行的方法可以包括重复步骤(a)、(b)和(c)中的任何步骤以创建第二生物性衰老时钟。在一些方面,将两个或更多个生物性衰老时钟组合,创建合成生物性衰老时钟,该时钟在组织、器官或生物体层面应对生物性衰老问题。在一些方面,所述方法可以包括多次重复步骤(a)和(b)以创建多个生物性衰老时钟。在一些方面,步骤(a)的转录组特征和/或蛋白质组特征和/或步骤(b)的特征来自患者或另一生物体的非老化组织或器官。在一些方面,选择基因或基因组的子集作为抗衰老疗法的靶标。在一些方面,选择基因或基因组的子集作为衰老修复疗法的靶标。在一些方面,转录组和/或蛋白质组的特征基于信号通路激活特征。在一些方面,输入转录组特征谱来自于微阵列平台。在一些方面,输入转录组特征谱来自于RNA测序平台。在一些方面,生物时钟对组织或器官是特异性的,或者对组织或器官的特征是特异性的。
已经使用不同的方法/不同的组织开发了生物性衰老时钟。在一些情况下,可以使用从血液图谱中摘录的转录组学数据并结合使用来自血液图谱的蛋白质组学数据开发的时钟或为皮肤组织和血液构建的时钟来开发生物性衰老时钟。在“合成”时钟的情况下,可以通过组合的多个生物性衰老时钟来预测生物学年龄。
在一些情况下,可以使用从血液图谱中摘录的蛋白质组学数据并结合使用来自血液图谱的蛋白质组学数据开发的时钟或为皮肤组织和血液构建的时钟来开发生物性衰老时钟。在“合成”时钟的情况下,可以通过组合的多个生物性衰老时钟来预测生物学年龄。
在一些实施例中,所述由计算机程序产品执行的方法可以包括将个体的预测生物学年龄与个体的实际实足年龄进行比较。在一些方面,所述方法可以包括将基因表达水平和/或蛋白质产生水平与个体的预测生物学年龄相关联。在一些方面,所述方法可以包括将信号通路特征与个体的预测生物学年龄相关联。在一些方面,所述方法可以包括将个体的预测生物学年龄与个体的实际实足年龄进行比较,其中所述比较进一步包括预期寿命的预测。在一些方面,所述方法可以包括将个体的预测生物学年龄与个体的实际实足年龄进行比较,其中所述比较进一步包括在治疗期间预测患者的预期寿命和生存概率。在一些方面,所述方法可以包括将个体的预测生物学年龄与个体的实际实足年龄进行比较,其中所述比较包括治疗效果的结果测量。
在一些实施例中,所述由计算机程序产品执行的方法可以包括根据输出开发药物疗法。在一些方面,所述方法可以包括根据输出开发抗老化疗法。在一些方面,所述方法可以包括根据输出开发老化修复疗法。在一些方面,所述方法可包括根据输出开发对个体的精算评估。在一些方面,所述方法可包括根据输出开发对个体的风险评估。在一些方面,所述方法可包括根据输出开发个体的保险评估。
在一些实施例中,提供为患者创建生物性衰老时钟的方法,所述方法可以包括:步骤(a)接收来自患者组织或器官的第一转录组特征和/或第一蛋白质组特征;步骤(b)接收来自基线的第二转录组特征和/或第二蛋白质组特征;和步骤(c)计算(a)的特征和(b)的特征之差(例如,比较转录组特征和比较蛋白质组特征)以确定输入向量。步骤(d)可以包括将输入向量输入到机器学习平台中。步骤(e)可以包括使用第一转录组特征和/或第一蛋白质组特征(a)和(b)的特征预测年龄以比较估计的年龄值。在一些方面,转录组特征和/或蛋白质组特征中的至少一种特征基于计算机信号通路激活网络分解,该分解是采用例如本文所述的或以其他方式已知或创建的机器学习平台执行的分解。在一些方面,生物时钟对组织或器官是特异性的,或者对组织或器官的特征是特异性的。在一些方面,所述方法可以包括重复步骤(a)、步骤(b)、步骤(c)、步骤(d)和/或步骤(e)中的任何一个或多个步骤以创建第二生物性衰老时钟。在一些方面,将两个生物性衰老时钟组合,创建合成生物性衰老时钟,该时钟在组织、器官或生物体层面应对生物性衰老问题。在一些方面,所述方法可以包括多次重复步骤(a)、步骤(b)、步骤(c)、步骤(d)和/或步骤(e)中的任何一个或多个步骤以创建多个生物性衰老时钟。在一些方面,步骤(a)和/或步骤(b)来自于患者或另一生物体的非老化组织或器官,优选步骤(b)。在一些情况下,转录组生物性衰老时钟与蛋白质组生物性衰老时钟相结合。
在一些实施例中,计算机程序产品可以包括在其中储存有计算机可读程序代码的有形的非瞬态计算机可读介质,所述程序代码由计算机或计算系统的处理器执行,从而执行患者的生物性衰老时钟的方法。所述方法可以是如本文所述的计算方法。所述计算方法可以包括:(a)接收来自患者组织或器官的第一转录组特征和/或第一蛋白质组特征的数据;(b)接收来自基线的第二转录组特征和/或蛋白质组特征的数据;和(c)计算步骤(a)的特征与步骤(b)的特征之差(例如,比较转录组与转录组或比较蛋白质组与蛋白质组)。步骤(c)可以包括计算(a)的特征和(b)的特征之差以确定输入向量。步骤(d)可以包括将输入向量输入到机器学习平台中。步骤(e)可以包括使机器学习平台产生包括生物性衰老时钟分量的输出分类向量。在一些方面,转录组特征和/或蛋白质组特征中的至少一种特征基于计算机信号通路激活网络分解,该分解是采用例如本文所述的或以其他方式已知或创建的机器学习平台执行的分解。所述计算方法可以包括本文所述的任何其他计算步骤。生物性时钟可以对组织或器官是特异性的,或者对组织或器官的特征是特异性的。
在一些方面,所述计算方法可以包括重复步骤(a)、步骤(b)、步骤(c)、步骤(d)和/或步骤(e)中的任何一个或多个步骤以创建第二生物性衰老时钟。在一些方面,将两个生物性衰老时钟(例如转录组和蛋白质组)组合,创建合成生物性衰老时钟,该时钟在组织、器官或生物体层面应对生物性衰老问题。在一些方面,所述计算方法可以包括多次重复步骤(a)、步骤(b)、步骤(c)、步骤(d)和/或步骤(e)中的任何一个或多个步骤以创建多个生物性衰老时钟。在一些方面,步骤(a)和/或步骤(b)来自于患者或另一生物体的非老化组织或器官,优选步骤(b)。
本发明还涉及用于治疗整个生物体(特别是人类个体)的老化(衰老)以及生物体的潜在细胞、组织和器官老化的多阶段疗法。本发明还涉及对这种疗法的疗效的评价。公开了用于应用这种治疗性治疗的方法和系统,以及用于开发治疗性治疗的信息学和其他工具。由于疾病和老化通常是相关的,因此本发明也适用于治疗疾病。可以根据本文所述方法中确定的生物性时钟来确定治疗。用于患者的生物性衰老时钟的方法还可以包括使用其输出来确定治疗。
治疗可以是本文所述的5R策略。
本发明提供用于选择性拯救老化前细胞、清除老化细胞、通过新的健康细胞补充和增强及重复该程序的5R(拯救、清除、补充、增强、重复)策略的组合物和方法,其中所述组合物包含一组抗老化药物(senolytics)及其衍生物。5R策略可以延缓衰老和/或治疗与年龄相关的疾病,尤其是主要发生在肺和肝脏的纤维化和老化性纤维化疾病。
这种5R方法可以延缓衰老和/或治疗与年龄相关的疾病,尤其是主要发生在肺、肝脏和皮肤的纤维化和老化性纤维化疾病。所述的5R策略适用于患有老化前、老化和纤维化病症等的患者。使用的药物包括老化修复剂、抗纤维化剂和抗老化药物。5R方法将导致诱导再生。一旦设计了治疗方案,药物再利用策略就可以成为治疗开发过程的一部分。
图1示出了应用于患有老化前、老化、年龄相关疾病的患者的年龄预测策略的实施例。以下步骤可以在本文所述的任何方法中执行:1.单次活检程序;2.样品制备和微阵列、RNA-seq谱提取;3.基因和基因集注释和表达值提取;4.衰老时钟分析;5.年龄预测;6.经过一个疗程的衰老治疗后,重复个体组织的单次活检程序;7.样品制备和微阵列、RNA-seq谱提取;8.基因和基因集注释和表达值提取;9.重复衰老时钟分析;10.年龄预测;及11.比较治疗前后的预测年龄值。这些步骤中的任何一个步骤可以单独执行或与本文所述的其他步骤组合执行。在一些情况下,所述方法可以包括获得数据和处理数据,从而获得推荐治疗方案。然后可以根据治疗方案的参数对患者实施推荐的治疗方案。也就是说,如果没有治疗方案的计算生成,在没有提供这样做的指令的情况下,治疗方案的各个方面就无法执行。因此,获得指令,例如药物和/或天然产品或特定药物和/或天然产品或药物和/或天然产品的组合的类型,对于执行治疗方案非常重要。类似的年龄预测策略可以使用蛋白质组学数据。
在一些情况下,治疗方案可以通过步骤1、2、3、4和/或5获得。其中一些步骤可以省略,例如当样品已经准备好时,步骤1、2可以省略。在一些情况下,可以获取来自步骤2的数据并将其提供到计算系统中用于步骤3和/或4。
在一些情况下,存在步骤3a,其中确定的治疗方案分别由步骤3和/或步骤4提供。确定的治疗方案可以包括针对步骤3和/或4之后每个治疗步骤的一种或多种药物和天然产品或治疗措施的列表。
本发明包括开发个性化药物治疗。
图2阐明了在个性化药物和/或天然产品治疗情况下的年龄预测策略,以下步骤可以在本文所述的任何方法中执行:1.单次活检程序;2.样品制备和微阵列、RNA-seq谱提取;3.基因和基因集注释和表达值提取;4.衰老时钟分析;5.年龄预测;6.iPANDA分析;7.个性化治疗方案预测;8.经过一个疗程的衰老治疗后,重复个体组织的单次活检程序;9.样品制备微阵列、RNA-seq谱提取;10.基因和基因集注释和表达值提取;9.重复衰老时钟分析;11.年龄预测;12.比较治疗前后的预测年龄值。类似的年龄预测策略可以使用蛋白质组学数据。
个性化治疗方案预测的方法可以包括:(a)接收来自患者组织或器官的第一转录组特征和/或第一蛋白质组特征;(b)接收来自基线的第二转录组特征和/或第二蛋白质组特征;(c)使用(a)的特征和(b)的特征,创建差分矩阵,例如在具有模型或神经网络或机器学习的计算机中;(d)接收细胞特征库;(e)接收药物治疗用途库;(f)使用(c)的矩阵、(d)的库和(e)的库向机器学习平台提供输入向量,其中机器学习平台输出关于一种或多种药物的分类向量,其中个性化药物治疗由各分类向量组成。
转录组特征和/或蛋白质组特征可以基于计算机上的特征信号通路激活网络分析。转录组特征和/或蛋白质组特征中的一种特征基于计算机信号通路激活网络分解。其中一种所述特征可以包括皮尔逊相关矩阵。个性化药物治疗可以包括对患者的老化治疗。(b)的特征—来自基线的第二第一转录组特征—可来自患者或另一受试者的非老化组织或器官。所述方法可以包括包含一个或多个深度神经网络的机器学习平台。所述方法可以包括包含至少两个生成式对抗网络且可以包含对抗性自动编码器架构的机器学习平台。个性化药物治疗可以通过以最低有效剂量分类向量鉴定的处方药物创建。
本发明包括利用计算机以计算方式为患者设计包含一种或多种药物的治疗方案的方法,所述方法包括:(a)鉴定患者的基因表达特征;(b)为取自一个或多个患者组织或器官的特征定义患者评分;(c)根据(a)和/或(b)选择药物;和(d)定义每种药物的最低有效组合。所述方法可以包括基于特征信号通路激活网络分析的基因表达特征,其中基因表达特征基于计算机信号通路激活网络分解,其中基因表达特征包括转录组皮尔逊相关矩阵。然后,所述方法可以包括使用一种或多种治疗药物的一个或多个治疗步骤或本文所述任何治疗方法的治疗步骤。另一方面,可以使用蛋白质表达特征代替基因表达特征或与基因表达特征组合。
所述方案可以是对患者的老化治疗。所述方法可以包括其中:使用具有适当算法或模型(例如神经网络)的计算机从患者或另一受试者的非老化组织或器官获得患者的基因表达特征和/或蛋白质表达特征,其中(b)和(c)在机器学习平台上进行,其中机器学习平台包括至少两个生成式对抗网络,其中机器学习平台包括对抗性自动编码器架构,其中机器学习平台包括一个或多个深度神经网络。
在一些实施例中,计算机程序产品可包括其中包含计算机可读程序代码的非瞬态计算机可读介质,所述产品由处理器执行,从而执行用于估计患者糖异生分数的方法,所述方法包括开发个性化药物治疗,包括:(a)接收来自患者组织或器官的第一转录组特征和/或第一蛋白质组特征;(b)接收来自基线的第二转录组特征和/或第二蛋白质组特征;(c)使用(a)的特征和(b)的特征,创建差分矩阵;(d)接收细胞特征库;(e)接收药物治疗用途库;(f)使用(c)的矩阵、(d)的库和(e)的库向机器学习平台提供输入向量,其中机器学习平台输出关于一种或多种药物的分类向量,其中个性化药物治疗由各分类向量组成。
代表组织或器官老化的转录组特征和/或蛋白质组特征可用于开发生物性衰老时钟,然后用于开发或鉴定本文所述治疗中使用的至少一种药物。转录组特征和/或蛋白质组特征可以是在具有本文所述模型的计算机上执行的信号通路激活网络分析。转录组特征可以以下列方式使用:作为信号通路激活网络分析,转录组特征作为输出药物分类的机器学习平台的输入。将转录组特征与代表患者组织或器官老化程度较低的基线转录组特征进行比较,并将转录组特征与由多个组织或器官转录组特征构建的基线转录组特征进行比较。类似的程序可以使用蛋白质组代替转录组或除转录组之外还使用蛋白质组。
计算机处理可以包括输入和/或处理老化生物化学的完整或部分示意图。其它信息可以在关于可以作为确定治疗的输入和处理(例如用于治疗的特定药物)的生物学通路的纳入的临时申请获得。因此,生物学通路可在本文所述的方法中使用。所述生物学通路在本文采用其计算机处理的一些实例进行描述,用于植入本文所述治疗方案的设计。
可以激活细胞老化程序的各种细胞内和细胞外应激可作为模拟或其他计算机处理的输入。已知的(例如文献中)的生物学通路可以针对所执行的特定生物步骤进行分析。调节生物步骤以增加活性或降低活性,导致响应调节活性的一系列级联事件。调节可以采用药物、物质、以及影响生物学通路调节的其他积极行动。这种调节可以针对定义的生物步骤进行测量。生物步骤和响应调节活性发生的变化可以作为计算机模型的输入,并且所述计算机模型可以在这些数据上训练。现在,随着人工智能和深度学习算法的增加,所述生物步骤、调节活性和变化的响应可以与此类计算机模型一起用于对生物学通路进行建模。这样可以确定一个或多个生物步骤的调节活性。这种调节活性可以是真实的和基于模拟,例如是真实的药物、物质或医疗行为。计算机模型的输出可以是用于引起调节活性的指令或其他信息,以获得特定类型的生物步骤调节,从而可以获得特定调节的生物学通路的最终目标。因此,本文所述或并入的参考文献和临时申请中所述的生物学通路可作为本文所述治疗方案的生物学通路。
在具体实例中,生物学通路可以与老化及其调节有关。
与老化有关的生物学通路可用于计算机模型。已知应激原会导致引发老化的生物学通路调节。例如,一些应激原会参与各种细胞信号级联反应,最终可以激活p53、p16Ink4a或两者。可以对一些通过DDR信号激活p53的应激类型进行分析和计算。这可以包括计算处理ROS,通过扰乱基因转录和DNA复制以及缩短端粒,引发DDR。计算机还可以计算诱导p21的激活p53的生物学通路,p21通过抑制细胞周期蛋白E-Cdk2诱导暂时的细胞周期停滞,这是可以处理的。计算机还可以分析p16Ink4a如何通过靶向细胞周期蛋白D-Cdk4和细胞周期蛋白D-Cdk6复合物来抑制细胞周期进程。p21和p16Ink4a都通过阻止Rb失活,从而导致对S期开始所需的E2F靶基因持续抑制而起作用。在建模和计算处理的严重压力下,可以确定通过目前尚未完全了解的机制转变为老化生长停滞的暂时停滞细胞。暴露于可以成功修复的轻度损伤的细胞可能会恢复正常的细胞周期进程。另一方面,暴露于慢性或留下永久性损伤的中等应激的细胞可能会通过依赖应激支持通路恢复增殖,并且此类信息可以包含在数据处理中。这种现象(称为辅助循环)是由p53介导的p21激活实现的,在计算确定治疗(例如药物治疗)时可以考虑这一点。因此,p53-p21通路可以在老化过程中对抗或协同p16Ink4a,这取决于计算处理中使用的应激类型和水平。BRAF(V600E)的不寻常之处在于它通过代谢效应通路建立老化。BRAF(V600E)通过诱导PDP2和抑制PDK1表达来激活PDH,促进从糖酵解到氧化磷酸化的转变,从而产生诱导老化的氧化还原应激,在计算处理中可以考虑这一点。无论衰老诱导应激如何,经历老化的细胞都会诱导炎症性转录组,并且在确定治疗时可以考虑这种炎症性转录组。此外,可以计算促进老化和防止老化的活动,并且可以相对它们的重要性进行加权。老化逆转机制可以作为过程的一部分被输入或建模或计算。
也可以输入和计算多步老化模型。该模型可以通过编程将细胞老化视为由表观遗传变化和遗传变化驱动的动态过程。初始步骤通过分析p16Ink4a和/或p53–p21通路的持续激活来计算从瞬态到稳定的细胞周期停滞的进程。该模型可以考虑通过下调核纤层蛋白B1,从而触发SASP产生基础的广泛的染色质重塑,由此导致早期老化细胞进入完全老化。该模型可以考虑SASP的某些高度保守的成分,而其他成分可能会因细胞类型、诱导老化的应激原的性质或染色质重塑中细胞间变异性而异。计算过程可以考虑可能由其它遗传变化和表观遗传变化驱动的深度或晚期老化进程,可以计算这些变化,包括染色质出芽、组蛋白水解和逆转录转座,驱动进一步的转录变化和SASP异质性。计算过程可以考虑免疫细胞处理老化细胞的效率,这可能取决于SASP的组成。SASP的促炎特征可能会由于特定microRNA在老化程序后期的表达而消失,从而可能允许逃避免疫清除,这一点也可以考虑。
在一些实施例中,可以计算概念模型,其中根据老化诱导动力学和功能将老化细胞细分为两个主要类别。概念模型可以考虑急性老化是通过针对组织中特定细胞群的细胞外刺激引起的。急性老化细胞通过吸引各种类型免疫细胞的SASP成分自我组织消除。可以对概念模型进行编程,考虑当滞留循环转变为稳定的细胞周期停滞时,在进行性细胞应激或大分子损伤之后发生慢性老化的诱导。概念模型可以考虑与年龄相关的免疫缺陷或较少促炎SASP的产生,免疫细胞可能无法有效地消除慢性老化细胞,从而允许多步老化的延续。例如,概念模型可以考虑在癌症治疗期间诱导的老化本质上可能最初是急性的,然后是慢性的。
可以对计算机模型进行编程并接收老化输入数据,以计算老化如何促进与年龄相关的组织功能障碍。老化导致组织再生潜力随着衰老而整体下降。可以采用BubR1早衰小鼠骨骼肌和脂肪组织中的祖细胞群极易发生细胞老化的这一观察现象,对计算机模型进行编程。老化细胞长期分泌的蛋白酶可能会通过切割膜结合受体、信号配体、细胞外基质蛋白或组织微环境中的其他成分来扰乱组织结构和组织,其可以影响本文所述的治疗方案。此外,可以考虑其他SASP成分,包括IL-6和IL-8,它们可以通过诱导EMT来刺激某些上皮组织中的组织纤维化。以巨噬细胞和淋巴细胞浸润、纤维化和细胞死亡为特征的慢性组织炎症与衰老有关,并且在各种年龄相关疾病的发展存在因果关系,在确定治疗时可以考虑这一点。
基质金属蛋白酶和促炎性SASP成分可以建模,并在确定治疗时可以考虑,因为它们能够创造促进肿瘤细胞存活、增殖和传播的组织微环境。可以对模型进行处理,以便可以对SASP建模,通过旁分泌老化增加与年龄相关的组织退化,在旁分泌老化中,老化细胞通过分泌IL-1b、TGFb和某些趋化因子配体将老化表型传播到健康的邻近细胞。通过基因表达分析或通路分析,可以通过计算区分老化前细胞和老化细胞的特征。
可以计算模型,考虑杀死老化细胞可以导致组织恢复活力。例如,可以考虑修饰的FOXO4-p53干扰肽,其会引起p53并诱导老化细胞(TASC)的靶向凋亡,从而中和阿霉素治疗对鼠肝脏的化学毒性。TASC可考虑用于恢复快速自然衰老小鼠的健康、头发密度和肾功能。
可以对模型进行处理,从而延迟老化甚至促进积累的抗凋亡老化细胞的死亡可以成为预防年龄相关疾病的策略。生育三烯酚(T3)和槲皮素(Q)可作为抗衰老药物(例如,可以选择性诱导老化细胞死亡的小分子)输入用于建模。这两种药物都能够杀死老化前细胞和老化细胞,可用于癌症的辅助治疗和预防性抗衰老策略,从而可用于本文的治疗。
计算模型还可以考虑纤维化和老化纤维化病症。术语纤维化描述了作为对伤害或损伤的修复反应的纤维结缔组织的发展,在计算治疗方案时可以考虑这一点。纤维化可以指作为正常愈合的一部分发生的结缔组织沉积或作为病理过程发生的过量组织沉积。术语老化纤维化描述了在老化细胞的影响下纤维结缔组织的发展,在计算治疗方案时可以考虑这一点。与复制激活的“正常”细胞相比,老化激活的细胞失去了它们的增殖和产生胶原蛋白的能力,并且具有增加的炎症特性,产生炎性细胞因子。计算模型可以专注于两种类型的纤维化和老化纤维化治疗:肺(IPF)和肝脏纤维化。
可以对模型进行处理,考虑纤维化是一种伤口愈合反应,它产生和沉积包括胶原纤维在内的细胞外基质(ECM)蛋白,从而导致组织瘢痕形成。肝脏通常在肝损伤后再生。然而,当肝损伤和炎症持续进行时,肝脏就不能正常再生,导致纤维化。肝星状细胞(HSC)是可在肝脏中产生细胞外基质的活化肌成纤维细胞的主要来源。进行性肝纤维化导致肝硬化,其中由于纤维疤痕和再生结节的形成以及肝脏血液供应减少,肝细胞无法正常运作。该模型可以执行此类模拟。该模型可以考虑肝纤维化的三个主要原因:酒精性脂肪病;非酒精性脂肪病;和病毒性肝炎。在每种情况下,不同的机制会导致纤维化组织的形成,可以处理这些机制以确定合适的方案。
该模型还可以考虑,静止的HSC储存含有维生素A的脂滴,HSC被激活时会失去脂滴。转化生长因子(TGF)-β和血小板衍生生长因子(PDGF)是两种主要的细胞因子,有助于HSC活化和增殖,从而激活为肌成纤维细胞。许多其他细胞因子、细胞内信号转导和转录因子都参与此过程,并且可以在计算过程中对它们加以考虑。
计算模型还可以考虑肝星状细胞的激活和退化。静止的肝星状细胞(HSC)储存含有维生素A的脂滴,当细胞激活时,会失去维生素A。肝上皮损伤,例如肝细胞和胆道上皮细胞的死亡,直接或通过免疫细胞(包括库普弗细胞、骨髓来源的单核细胞、Th17细胞和先天淋巴细胞(ILC))释放的细胞因子诱导HSC活化。转化生长因子-f(TGF-f)、血小板衍生生长因子(PDGF)、白细胞介素-1f(IL-1f)、IL-17和肠源性脂多糖(LPS)促进HSC活化。IL-33通过ILC2促进HSC活化。HSC中的自噬与HSC活化有关。活化的肌成纤维细胞池主要由活化的HSC构成,但胆道损伤诱导门静脉成纤维细胞分化为活化的肌成纤维细胞。然而,没有证据表明上皮-间质转化构成肌成纤维细胞池。肝损伤停止后,纤维化开始消退,活化的HSC诱导细胞凋亡或恢复到静止状态。HSC中的过氧化物酶体增殖物激活受体7(PPAR7)的表达与HSC逆转有关。一些活化的HSC会衰老,导致p53在其中发挥作用的促纤维化特性的丧失。此外,血管生成有助于纤维化的发展和消退。因此,在计算治疗方案时可以考虑这些中的每一个。
参与调节肝脏炎症的主要通路可分为(1)上调和(2)下调。参与HSC中细胞老化形成的主要通路可分为(1)上调和(2)下调。在计算治疗方案期间,可以考虑任何生物学通路(例如本文所述的那些)的上调和下调。
参与原代人肝细胞(PHH)中的细胞老化表型形成的主要通路。用于分析的数据取自LINC转录组学数据集,并如本文所述计算。甲磺酸盐是DNA损伤/老化诱导剂,可用于获取数据以训练模型。肝脏老化和肝纤维化特征在通路水平上具有共同特征(分析基于使用如下所述iPANDA的基因表达数据)。
参与原代人肝细胞(PHH)中的细胞老化表型形成的主要通路。用于分析的数据和用于确定治疗方案的模型计算可以取自LINC转录组学数据集。以下通路是上调的:BRCA1同源重组修复通路;JNK胰岛素信号通路;半胱氨酸蛋白酶活化组织谷氨酰胺转移酶级联通路;通过SMAD4、STAT4、HSF1、TP53、MAP2、DCX、ATF2、NFATC3、SPIRE1、MAP1B、TCF15、ELK1、BCL2、JUN、PXN和NFATC2的JNK基因表达、凋亡、炎症、肿瘤发生、细胞迁移通路;半胱氨酸蛋白酶DNA片段化级联通路;通过FOS和JUN的TRAF基因表达通路;通过JUN和CREB3的IF1Alpha基因表达通路;TNF凋亡信号通路;PTEN基因组稳定性通路;通过MAPK7的VEGF基因表达和细胞增殖通路;通过JUN、FOS和ELK1的ErbB家族基因表达通路;PTEN Ca2+信号通路;PTEN DNA修复通路;VEGF前列腺素产生通路;通过ATF2、JUN、ELK1、NFKB2和CREB3的MAPK家族基因表达通路;HIF1α通路;WNT通路;ATM细胞存活通路;和MAPK家族翻译通路。以下通路是下调的:Ras增加T细胞粘附通路;HGF细胞粘附和细胞迁移通路;IGF1R细胞迁移信号通路;ILK细胞迁移回退信号通路;ILK细胞周期增殖信号通路;ILK G2期阻滞信号通路;ILK细胞骨架粘附复合物信号通路;ILK闭合蛋白(Occludin)屏障功能丧失障碍信号通路;ATM细胞周期检查点控制通路;AR介导的细胞凋亡Akt信号通路;Akt凋亡信号通路;Akt细胞周期进程信号通路;和Akt葡萄糖输入升高信号通路。可以计算HSC老化在肝纤维化中的作用,并且使用来自体内肝纤维化实验模型的HSC细胞特异性遗传修饰的实验数据计算治疗方案。
目前还没有治疗肝纤维化的方法。避免肝纤维化的唯一方法是通过相应地拯救或杀死老化前和老化细胞来防止大规模炎症。肝脏老化和肝纤维化特征在通路水平上具有共同特征(分析基于使用iPANDA包的基因表达数据)。计算模型中可以考虑的参与调节肝纤维化(和肝硬化)的常见重要通路包括以下上调和下调通路。上调通路包括:ILK调理信号通路;ILK细胞粘附信号通路;ILK伤口愈合信号通路;AR介导的细胞凋亡Akt信号通路;TRAF通路;IL-10稳定性测定通路;EGF通路Rab5调节通路;通过FOS和JUN的TRAF基因表达通路;ILK肿瘤血管生成信号通路;NF-kB依赖性转录Akt信号通路;通过JUN和CREB3的基因表达HIF1α通路;趋化因子通路;STAT3生长阻滞和分化通路;TRAF凋亡通路;促红细胞生成素GPI水解和Ca2+输入通路;IL-10通路;通过STAT3的IL-10炎症细胞因子基因表达通路;通过FOS的ILK MMP2 MMP9基因表达组织侵入信号通路;通过JUN、FOS和ELK1的ErbB家族基因表达通路;Na+转运调控的Akt信号通路;PAK桩蛋白分解通路;ILK细胞骨架粘附复合物信号通路;cAMP糖原合成通路;和ILK细胞迁移回退信号通路。下调通路包括:STAT3抗细胞凋亡通路;细胞周期进程Akt信号通路;昼夜节律通路;蛋白合成生长激素信号通路;和PTEN迁移通路。
可以计算的参与细胞老化和肝纤维化形成的常见重要通路包括上调和下调通路。上调通路包括:通过JUN、FOS和ELK1的基因表达ErbB家族通路;通过JUN和CREB3的基因表达HIF1α通路;和通过FOS和JUN的基因表达TRAF通路。下调通路包括细胞周期进程Akt信号通路。参与调节IPF的常见重要通路包括上调或下调通路。上调通路包括:细胞凋亡通路;癌症KEGG胆碱代谢主要通路;KEGG前列腺癌主要通路;NCI CXCR4介导的信号转导事件主要通路;NCI多配体蛋白聚糖4介导的信号转导事件主要通路;NCI TRAIL信号主要通路;NCI验证的ΔNp63亚型转录靶主要通路;NCI验证的ΔNp63亚型转录靶通路(TP63降解通路);PTEN粘附或迁移通路;PTEN血管生成和肿瘤发生通路;Ca2+信号转导PTEN通路;反应组胶原生物合成和修饰酶主要通路;和反应组SMAD2、SMAD3和SMAD4异源三聚体调节转录主要通路。下调通路包括:通过SRF、ELK1、STAT5B、CEBPD、STAT1、STAT3的基因表达生长激素信号通路;和反应组Tie2信号转导主要通路。
参与肺组织细胞老化形成的常见重要通路可以包括上调和下调通路。上调通路包括:通过SRF、ELK1、STAT5B、CEBPD、STAT1、STAT3基因表达的生长激素信号通路;癌症KEGG胆碱代谢主要通路;KEGG前列腺癌主要通路;NCI CXCR4介导的信号转导事件主要通路;NCITRAIL信号转导主要通路;PTEN粘附或迁移通路;PTEN血管生成和肿瘤发生通路;Ca2+信号转导PTEN通路;反应组胶原生物合成和修饰酶主要通路;反应组SMAD2、SMAD3、SMAD4异源三聚体调节转录主要通路;和反应组Tie2信号转导主要通路。下调通路包括:细胞凋亡通路;NCI多配体蛋白聚糖4介导的信号转导事件主要通路;NCI验证的ΔNp63亚型转录靶主要通路;NCI验证的ΔNp63亚型转录靶通路(TP63降解通路)。
细胞老化会加速器官衰老,在与肺老化相关的肺部疾病中,慢性阻塞性肺疾病/肺气肿(COPD)和特发性肺纤维化(IPF)是最常见和最致命的疾病。COPD和IPF是严重的多因素肺部疾病,具有不同的临床和病理特征(“Global Strategy for the Diagnosis,Management,and Prevention of Chronic Obstructive Pulmonary Disease:GOLDExecutive Summary Updated 2003”2004;Noble et al.2011)。有关临床和病理特征的数据可用于为确定治疗方案而处理的计算模型中。
在所有已知类型的细胞老化中,包括复制性细胞老化、应激诱导的老化和癌基因诱导的老化,发生由p16INK4a和p21WAF1的表达介导的永久的细胞周期停滞状态,p16INK4a和p21WAF1是2种细胞周期抑制剂,也是体内研究这种机制的公认的标志物(Kim andSharpless2006;Campisi 2005;Mallette and Ferbeyre 2007;Ohtani et al.2004;Takeuchi et al.2010)。已在IPF中,证实了p16INK4a、p21WAF1和b-半乳糖苷酶(广泛使用的细胞老化组织化学标志物)的表达改变(Minagawa et al.2010;Kuwano et al.1996;Lomas et al.2012)。这些标志物在肺泡损伤部位和增生部位以及位于共表达层粘连蛋白5-g2链(LAM5g2)和热休克蛋白27(Hsp27)的细支气管基底细胞离散簇中的成纤维细胞灶中强烈表达(Chilosi et al.2006)。根据综述(Chilosi et al.2013),有几个因素导致肺部老化,对于特发性肺纤维化和慢性阻塞性肺病/肺气肿这两种类型的发病机理来说,它们是不同的。这些信息也可在计算模型中用于确定治疗方案。
应该认识到的是,除了转录组学数据之外,本文所述的方法还可以采用蛋白质组学数据进行,或采用蛋白质组学数据代替转录组学数据进行。
本文描述了老化药物治疗的开发方法,即药物、剂量和周期的选择。在本节中,我们概述了药物治疗本身,即在优选实施例中,个性化治疗一经设计好后即向患者施用。针对该患者,识别出将对其应用老化治疗的组织或器官。
在优选的实施例中,治疗的一个阶段涉及老化修复,即老化修复剂的药物方案,这些药物是恢复或增加老化前细胞(典型的或年轻的细胞,健康的组织或器官)数量的药物。治疗的另一个阶段涉及抗老化治疗,即涉及恢复或涉及清除或破坏目标组织或器官中的老化细胞的药物方案。
在另一个优选的实施例中,还存在抗纤维化阶段,即针对目标组织或器官中纤维化细胞的药物方案。抗纤维化可能涉及将老化细胞恢复到老化前的非纤维化状态,清除或破坏纤维化细胞,或兼具两者。
由于此类药物治疗方案具有高度特异性,并且基于本文所述分析的分类向量,因此它们可以采用多种形式。本领域中的方法,例如Seim et.al.,“Gene expressionsignatures of human cell and tissue longevity”,npj Aging and Mechanisms ofDisease,2,16014(2016),解决了与用于对药物方案进行分类的老化相关的转录组变化/差异。
为了考察支持人体内不同类型细胞寿命的基因表达策略,可以获得可用的RNA-seq数据集和各种体细胞类型和组织的问询转录组,并报告细胞更新,以及寿命估计,范围从2天(单核细胞)到有效的一生(神经元)。在不同的细胞谱系中,人们可以获得人类细胞和组织更新的基因表达特征。特别是,更新与能量消耗大的细胞周期和支持基因组稳定性的因素(这些因素是衰老相关病理的伴随风险因素)呈负相关。可以使用蛋白质组学数据执行类似的方案。
寿命长和寿命短的哺乳动物的比较转录组研究,以及考察一大群哺乳动物长寿特征的分析(逐个组织调查,重点关注大脑、肝脏和肾脏)表明了候选的长寿相关过程。可以使用由协会(例如人类蛋白质图谱(HPA)、基因型组织表达(GTEx)项目或癌症基因组图谱(TCGA)计划)生成的公开可利用的转录组数据集(例如,RNA-seq)。或由癌症基因组图谱(TCGA)计划或生物库数据集提供的蛋白质表达和浓度数据集,例如血液蛋白质测试,包括英国生物库或弗雷明汉心脏研究等生物库。它们提供了一个机会,可以了解基因表达和/或蛋白质表达程序如何与作为细胞寿命代理的细胞更新相关。在优选的实施例中,通常使用主成分分析(PCA)作为第一步来分析基因表达和/或蛋白质表达模式。
本发明涉及考察衰老的转录组和/或蛋白质组,其中对老年人和年轻人的转录基因和/或翻译蛋白进行对比,以定义相对于年轻人在老年人中更强烈表达(激活)的第一组基因和相对于年轻人在老年人中表达不那么强烈(被抑制)的第二组基因。本文描述了优选的实施例。
可采用评级方法对治疗的老化治疗特性进行排序,首先包括收集年轻和年老患者的转录组数据集,并将每种细胞和组织类型的数据标准化,评估每个单独通路的通路激活强度(PAS),构建通路云,筛选作用于通路云的一个或多个元素的药物或组合,最大限度地降低信号通路云干扰。药物和组合可以根据它们使信号通路激活模式回到更接近于年轻组织样本的能力进行评级。然后可以在体外和体内对人体细胞和模型生物(如啮齿动物、线虫和果蝇)进行测试,以验证筛选和评级算法。可以使用蛋白质组学数据执行类似的方案。
在老化治疗的优选实施例中,对药物进行排序的方法,所述方法包括:a.收集年轻受试者的一个物种的转录组数据和老年受试者的一个物种的转录组数据,以评估多个生物学通路的通路激活强度(PAS)和下调强度;b.将老年受试者样本相对于年轻受试者样本的多个生物学通路的激活强度和下调强度映射,以形成通路云图;和c.根据最大限度降低一个物种通路云图中信号通路云干扰(SPCD)的药物评级,为多种药物中的每一种药物提供评级,从而对这些药物进行排序。可以使用蛋白质组学数据执行类似的方案。
通路激活和通路激活网络分解分析(iPANDA)是本文所述方法的优选网络分析方法。虽然描述了基因表达数据,但对本领域技术人员显而易见的是,也可以使用蛋白质组学数据。因此,这些方案可适用于转录组学和/或蛋白质组学数据。
作者设想的老化治疗(特别是药物组合和方案)的开发与信号通路激活网络分析尤其兼容,信号通路激活网络分析为例如,US 62/401789(Ozerov,2016年9月提交,现在是US2018-0125865)和Ozerov et.al.,“In silico Pathway Activation NetworkDecomposition Analysis(iPANDA)as a method for biomarker development”,NatureCommunications,7:13427,2016描述的那些,这两篇文献通过具体引用整体并入本文。此类方法包括涉及计算机通路激活网络分解分析(iPANDA)的大规模转录组学数据分析。这种方法的功能适用于包含从基因表达综合数据库(GEO)等获得的数据的多个数据集。GEO中的数据集通过标识符或登录号访问,例如GSE5350。
此外,根据本发明的实施例,通路云图显示了老年受试者相对于年轻受试者的至少一个上调/激活通路和至少一个下调通路。此外,根据本发明的实施例,通路云图基于多个年轻受试者和多个老年受试者。重要的是,根据本发明的实施例,针对个体执行该方法,以确定适用于该个体的药物的优化排序。
此外,根据本发明的实施例,样本或活检样本是选自血液样本、尿液样本、活检样本、毛发样本、指甲样本、呼吸样本、唾液样本或皮肤样本中的一种或多种身体样本。
此外,根据本发明的实施例,通路激活强度通过将老年受试者样本中基因n的表达水平除以年轻受试者样本中该基因的表达水平进行计算。
另外,根据本发明的实施例,通路激活强度按照下式计算:
Figure BDA0003463488580000191
[RGEL]i是激活基因表达水平,[RGEL]j是阻遏基因表达水平,)分别是激活基因i和j的表达水平。
此外,根据本发明的实施例,涉及最大限度降低信号通路云干扰(SPCD)的药物或组合。另外,根据本发明的实施例,SPCD是激活基因#i表达水平[AGEL]i与阻遏基因#j表达水平[RGEL]j的比值,并且其中这是针对通路中的激活蛋白和阻遏蛋白计算的。
细胞网络分析和iPANDA
本领域存在众所周知的方法(参见,例如,US 8,623,592),采用预测细胞对治疗剂治疗的反应的方法来治疗患者。这些方法包括测量细胞样本中细胞网络的一种或多种成分的水平,然后使用细胞网络的计算模型计算细胞的网络激活状态(NAS)或网络抑制状态(NIS)。然后根据计算出的NAS或NIS值预测细胞对治疗的反应。本发明还包括细胞反应性的预测方法,其中将细胞(例如,老化细胞)的NAS或NIS值的计算与统计分类算法的使用相结合。现在描述iPANDA实施的优选方法。转录组学数据分析的方法,通常包括接收基因对照组的细胞转录组学数据(C)和基因研究组的细胞转录组学数据(S),计算该基因的倍数变化率(fc),对于多个基因重复步骤a和b,将共表达的基因在模块内分组,根据从多个模块映射的网络拓扑结构估计基因重要性因子,以获得计算机通路激活网络分解分析(iPANDA)值,iPANDA值的皮尔逊系数大于与用于操纵多个基因的对照细胞转录组学数据和多个基因的研究组的细胞转录组学数据的另一个平台相关联的皮尔逊系数。步骤还可以包括确定与上述模块中的至少一个模块相关的生物和计算机通路激活网络分解分析(iPANDA),提供用于药物对疾病的治疗反应预测的分类器,其中所述疾病选自老化和另一种疾病或病症,对fc值应用至少一个统计过滤检验和统计阈值检验,从患者获取增殖性身体样本和健康身体样本,将药物应用于患者,确定药物的有响应患者和无响应患者。该方法通常还包括比较通常与药物相关的至少一种所选信号通路和代谢通路的基因表达。
转录组学数据分析中最相关的其中一种挑战是基因网络相互作用固有的复杂性,这仍然是构建综合预测模型的重大障碍。此外,实验平台的高度多样性和来自各种设备的数据的不一致性也可能导致对潜在生物过程的错误解释。尽管近年来提出了许多数据标准化方法,但即使是从同一分析平台获得的一组独立数据集,也仍然难以获得稳健的结果。这可能由一系列生物学因素解释,例如基于群体的个体之间的广泛异质性、所用细胞的细胞周期阶段变化性或一组技术因素(例如样本制备或试剂批次变化)的变化性。
本发明的优选实施例与如本文所述的称为计算机通路激活网络分解分析(iPANDA)的大规模转录组学数据分析兼容。iPANDA是适用于转录组学数据中生物学相关降维的有用工具。
优选iPANDA实施例的概述
采用被调查样本中的基因表达水平与正常集内样本的平均表达水平的倍数变化作为iPANDA算法的输入数据。由于某些基因对通路激活的影响可能比其他基因更强,因此引入了基因重要性因子。在过去的几十年中,已经提出了几种基因重要性层级计算的方法。这些方法中的绝大多数旨在采用与给定研究最相关的特异性基因标志物来富集基于通路的模型。虽然其中一些方法使用几个特定代谢网络的详细动力学模型来推导重要因素,但在其他一些方法中,从对疾病病例和健康样本获得的基因表达数据进行统计分析得出基因重要性。
iPANDA方法同时利用统计和拓扑权重进行基因重要性估计,将上述不同的分析概念集成到单个网络模型中。将基于对两个对比组织样本组执行的t-检验的P值的平滑阈值应用于基因表达值。平滑阈值定义为从0到1的P值的连续函数。基因的统计权重也是在此过程中得出的。基因的拓扑权重在通路图分解期间获得。每个基因的拓扑权重与通过以有向图表示的通路基因网络的独立通路的数量成正比。
众所周知,多个基因在其表达水平上表现出相当大的相关性。大多数通路分析算法将基因表达水平视为自变量,尽管普遍认为,当应用基于拓扑的系数时,这并不合适。事实上,由于可交换性,通路激活值与拓扑权重在一组具有相关表达水平,从而具有相关倍数变化的共表达基因上的分布无关。因此,计算一组共表达基因的拓扑系数是无效的,除非将一组共表达基因视为一个单元。为了规避这一挑战,在iPANDA算法中引入了反映基因共表达的基因模块。采用人类样本基因共表达的广泛数据库COEXPRESdb和受各种转录因子控制的下游基因数据库将基因分到模块内的分组中。通过这种方式,将每个基因模块作为一个整体而不是模块内的单个基因来估计拓扑系数。
基因单元(包括基因模块和单个基因)对通路激活的贡献被作为它们的对数尺度倍数变化、拓扑和统计权重的乘积计算。然后将贡献乘以离散系数,在特定单元激活或抑制通路的情况下,离散系数分别等于-1或+1。最后,得到激活分数(我们将其称为iPANDA值),作为对通路激活/抑制有贡献的基因单元的线性组合计算分数。因此,iPANDA值代表显示通路激活强度和方向的带符号的分数。
通路质量指标和iPANDA
尽管目前有几个公开可用的管道可用于对转录组学数据分析算法进行基准测试,但我们的目标是概括基于通路的算法测试方法,并揭示可靠的基于通路的表达数据分析的共同特征。我们将这些特征称为“通路分析质量标志”。基于通路的转录组学数据分析的有效方法应能够显著降低输入数据的噪声,并将输出数据聚合为少量高信息特征(通路标志物)。
可扩展性(类似地处理少量或大量基因通路的能力)是设计可靠的通路分析方法时应考虑的另一个关键方面,因为不同大小的通路的通路激活值应该同样可信。确定的通路标志物列表应与特定的表型或医学病症相关,并且在与所研究的过程或生物状态相关的多个数据集上具有稳健性。计算时间应该合理,以允许对大型转录组学数据集进行高通量筛选。为了解决iPANDA算法在这些特征方面的问题并充分评估其真正的潜力和局限性,我们直接将iPANDA使用组织和微阵列分析质量控制(MAQC)-I数据集得到的结果与其他五个广泛使用的第三方可行替代方案(GSEA8、SPIA9、基因表达通路水平分析(PLAGE)26、单样本基因集富集分析(ssGSEA)和基于相关网络拓扑的去噪算法(DART))进行了比较。
iPANDA作为转录组学数据的降噪工具
开发新的转录组学数据分析算法时,应解决的其中一个主要问题是所提出方法在保留结果的生物学相关信息的同时降低噪声的能力。由于基于通路的分析算法被认为是降维技术,通路激活分数应该代表仅描述基因表达谱中生物学显著变化的集合变量。
为了估计iPANDA算法在保留生物相关特征的同时执行降噪的能力,我们对著名的MAQC数据集(GEO标识符GSE5350)进行了分析。该数据集包含使用各种转录组分析平台处理的相同细胞样本的数据。与使用基因集数据计算的相似度相比,令人满意的通路或网络分析算法应降低噪声水平,并证明各样本之间的相似度更高。
为了估计基因水平相似度,仅利用差异表达基因的倍数变化(t-检验P值<0.05)。选择皮尔逊相关性作为衡量各样本之间相似度的度量。获得了Affymetrix和Agilent平台上分析的相同样本的样本相关系数。使用通路激活值(iPANDA值)执行类似的程序。
值得注意的是,使用iPANDA算法生成的通路激活值计算的相似度明显超过使用差异表达基因的倍数变化计算的相似度(平均样本相关性分别超过0.88和0.79)。为了进一步验证我们的算法,我们直接将其降噪效果与其他常规使用的基于转录组的通路分析方法(例如SPIA、GSEA、ssGSEA、PLAGE和DART)的降噪效果进行了比较。
对于iPANDA,平台之间的平均样本相关性是0.88,相比之下,GSEA是0.53,SPIA是0.84,ssGSEA是0.69,PLAGE是0.67,DART是0.41。此外,使用iPANDA值获得的样本相关性分布缩小到0.79到0.94的范围,相比之下,GSEA、SPIA、ssGSEA、PLAGE和DART的范围分别是-0.08–0.80、0.60–0.92、0.61–0.74、0.45–0.75和-0.11–0.60。
在优选的实施例中,iPANDA通常确实为倾向于使用来自COEXPRESSdb数据库信息的可靠地共表达基因分配更多的权重。来自COEXPRESSdb的信息仅用于将基因分到模块内的各组中,因此在此评估中不会引入任何对iPANDA有利的偏离。即使将基因分组到模块的功能“关闭”,这意味着所有基因都被单独考虑并且没有使用来自COEXPRESSdb的信息,iPANDA分数显示使用各种分析平台获得的数据之间的样本相似度与在基因水平上计算的相似度相比更高。
生物标志物鉴定和相关性以及iPANDA
下一步,我们探讨iPANDA鉴定所研究表型的潜在生物标志物(或通路标志物)的能力。评估转录组学通路标志物区分两组样本的能力(例如,对治疗的抵抗力和敏感性)的其中一种常用方法是测量其受试者工作特征曲线下面积(AUC)值。生成大量具有高AUC值的生物标志物的能力是预测模型中使用的任何有前景的转录组学数据分析算法的主要要求。
iPANDA产生高度稳健的生物标志物集
现代通路分析方法的最重要的其中一个缺点是它们无法为同一生物学案例独立获得的不同数据集产生一致的结果。在本文,我们展示了应用于组织数据的iPANDA算法克服了这一缺陷,并在研究中使用的各数据集之间产生了高度一致的通路标志物集。与其他基于通路的方法相比,iPANDA算法是用于生物相关通路标志物开发的有利方法。
将通用标志物通路(CMP)指数应用于药物治疗反应数据,以估计生物标志物列表的稳健性。分析了四个独立数据集获得的通路标志物列表。通路激活分数的计算使用iPANDA算法进行及在iPANDA算法禁用基因分组和/或拓扑权重的条件下进行。拓扑系数的“关闭”状态意味着在计算过程中它们对于所有基因都等于1。此外,基因分组的“关闭”状态意味着所有基因都被视为单个基因。没有基于拓扑的系数的基因模块的应用降低了算法的稳健性以及数据集之间的通用通路标志物的总数。打开基于拓扑的系数只会略微增加算法的稳健性。而同时使用拓扑和基因模块可以显著改善这两种组织类型的这个参数。该结果意味着基因模块与基于拓扑的系数的组合实施可作为降低基因表达数据噪声的有效方法,并允许获得一组独立数据的稳定的通路激活分数。
PANDA生物标志物作为预测模型的分类器。所示通路标志物的高AUC值表明,iPANDA分数可以有效地作为生物状态预测挑战的分类器。
为了将样本分类为有响应者或无响应者,使用每个终点训练样本集获得的iPANDA分数开发了随机森林模型。随后,使用验证集测量这些模型的性能。采用马修相关系数(MCC)、特异性和敏感性指标评估这些模型的性能。选择MCC指标是为了易于计算,并且即使在两个类的分布高度偏斜时,它们的信息量也很大。使用其他通路分析算法(包括SPIA、GSEA、DART、ssGSEA和PLAGE)获得的通路激活(富集)分数,构建类似的随机森林模型。此外,为了全面评估基于iPANDA的紫杉醇敏感性预测模型的性能,我们在四个不同的基因表达子集上训练了类似的随机森林模型:所有基因的表达水平(logGE)、训练集和相应正常集之间所有基因的倍数变化(logFC)、大多数差异表达基因(t-检验P<0.05)的表达水平(logDGE),以及训练和相应正常乳腺组织数据集之间大多数差异表达基因(t-检验P<0.05)的表达水平的倍数变化(logDFC)。采用对数尺度训练基因水平模型。对于所使用的每个GEO数据集,所有通路水平和基因水平数据都分别经过Z-分数标准化。
在iPANDA中实施的通路激活测量的应用导致输入数据的噪声显著降低,因此增强了生成在多个转录组学数据集上获得的高度一致的生物相关生物标志物集的能力。该方法的另一个优点是计算速度快。从计算资源的角度来看,基因分组和拓扑权重是算法中要求最高的部分。幸运的是,这些步骤只在使用转录组学数据进行实际计算之前预先计算一次。在Intel(R)内核i3-3217U 1.8GHz CPU上,单个样本处理的计算时间等于B1.4 s(相比之下,SPIA是10分钟,DART是4分钟,ssGSEA、GSEA和PLAGE约10秒)。因此,iPANDA是对大型转录组学数据集进行高通量生物标志物筛选的有效工具。
仅使用微阵列数据进行通路激活分析具有众所周知的局限性,因为它无法应对基因序列中的个体差异,从而无法应对其产物的活性问题。例如,基因可能会突变而降低其产物的活性,但会通过负反馈回路提高其表达水平。因此,基因表达的升高不一定与其产物活性的增加相对应。
虽然iPANDA算法最初是为微阵列数据分析设计的,但它也可以很容易地应用于来自全基因组关联研究(GWAS)的数据。为此,可以将GWAS数据转换为适合iPANDA算法的形式。根据基因与阅读框的接近程度,将单点突变分配给基因。然后,每个单点突变都被赋予从GWAS数据统计分析得出的权重40。同时使用GWAS数据和微阵列数据可以改进iPANDA方法做出的预测。
生物医学数据分析中迅速崛起的其中一个领域是深度学习。最近,出现了几项使用各种深度学习方法对基因级数据进行微阵列数据分析的成功研究。使用通路激活分数可能是降低药物发现应用转录组学数据的维度,同时保持生物相关特征的有效方法。从实验的角度来看,基因调控网络通过激活或抑制一组特定的信号通路来控制。因此,使用iPANDA信号通路激活分数作为深度学习方法的输入,可以使结果更接近实验设置,并使它们更容易被实验室生物学家解释。多层感知器训练最困难的步骤之一是降维和特征选择程序,其目的是为进一步学习生成合适的输入。使用iPANDA的信号通路激活评分可能有助于在不失去生物学相关性的情况下降低表达数据的维度,并可作为深度学习方法的输入,尤其是对于药物发现应用。在分析来自多个来源的转录组学数据时,使用iPANDA值作为输入数据对于获得可重现的结果尤其有用。
来自不同数据集的基因表达数据使用GCRMA算法45进行预处理,并使用来自Brainarray存储库(版本18)的更新芯片定义文件对每个数据集独立进行汇总。
总之,与其他通路分析方法相比,iPANDA在降噪测试中表现出更好的性能,表明其作为转录组学数据分析降噪的强大工具的可信度。iPANDA具有很强的鉴定所研究表型的潜在生物标志物(或通路标志物)的能力。评估转录组学通路标志物区分两组样本的能力(例如,对治疗的抵抗力和敏感性)的其中一种常用方法是测量其受试者工作特征曲线下面积(AUC)值。生成大量具有高AUC值的生物标志物的能力是预测模型中使用的任何有前景的转录组学数据分析算法的主要要求。
存在几个广泛使用的信号通路集合,包括京都基因和基因组百科全书(KEGG)、QIAGEN和NCI通路交互数据库。在这项研究中,使用了与人类细胞中各种类型的恶性转化最密切相关的信号通路集合,这些信号通路来自SABiosciences集合(sabiosciences.com/pathwaycentral)。使用老化的特定通路数据库可用于确保所研究的特定条件存在多个通路标志物。每个通路都包含明确定义的以有向图表示的拓扑。每个节点对应一个基因或一组基因,而边缘描述节点中基因和/或其产物之间的生化相互作用。所有交互都被归类为下游节点的激活或抑制。单个通路中通路大小从大约二十个基因到超过六百个基因。
用于大规模转录组学数据分析的iPANDA方法根据预先计算的基因共表达数据将基因分组到模块内。每个基因模块代表在表达水平上具有显著协调性和/或受相同表达因子调控的一组基因。因此,根据提出的iPANDA算法计算通路p激活的实际函数由两项组成。第一项对应于不属于任何模块成员的单个基因的贡献,而第二项则考虑了基因模块的贡献。因此,得出通路p激活的iPANDA值的最终函数由单个基因i和基因模块j组成,具有以下分析形式:
Figure BDA0003463488580000251
单个基因(Gip)和基因模块(Mjp)的贡献是15,计算如下:
Figure BDA0003463488580000252
Figure BDA0003463488580000253
在本文中,fci是研究样本20中基因i的表达水平相对于正常水平(对照组的平均水平)的倍数变化。由于假设表达水平呈对数正态分布,并且为了将乘积倍数变化转换为总和,在最终方程中使用对数倍数变化。激活符号Aip是表明特定基因影响给定通路方向的离散系数。如果25个基因i的产物对通路激活有积极贡献,则其等于+1,如果有消极贡献,则等于-1。因子wiS和wipT是下式的统计和拓扑权重
Figure BDA0003463488580000254
Figure BDA0003463488580000255
基因i是0至1。这些因子的推导过程将在后续章节中详细描述。由于lg(fci)和Aip值可以为正也可以为负,因此通路的iPANDA值也可以具有不同的符号。因此,正或负iPANDA值分别对应于通路激活或抑制。
获得基因重要性因子
为了估计拓扑权重(wipT),在与通路图关联的有向图上计算通过基因网络的所有可能的遍历(walks)。图的节点代表基因或基因模块,而边缘对应生化相互作用。选择具有零入边的节点作为遍历的起点,选择具有零出边的节点作为最终点。在遍历计算期间禁止循环。针对每个基因计算通过包含基因i的通路p的遍历次数Nip。然后作为Nip与通路中所有基因的Njp最大值的比值,得到wipT:
Figure BDA0003463488580000261
统计权重取决于p值,p值是从每个基因的病例组和正常组样本的组t-检验计算得出的。称为p-20值阈值的方法通常用于过滤掉在组之间没有显著差异的假基因。然而,使用尖锐阈值函数的主要问题是其会在过滤的基因中引入不稳定性,从而导致数据集之间的通路激活分数不稳定。此外,通路激活值对截断值的任意选择变得敏感。为了解决这个问题,建议使用平滑阈值函数。在本研究中,利用对数尺度的余弦函数:
Figure BDA0003463488580000262
其中pmin和pmax是高阈值和低阈值。在本研究中,p值阈值分别等于10-7和10-1。对于给定阈值,超过58%的所有基因通过了调查数据的高阈值,大约12%也通过了调查数据的低阈值。因此,数据集中超过45%的基因接收中间wiS值。因此,使用这种方法可以在数据集之间获得更稳定的通路激活分数结果。
将基因分组到模块内
为了获得基因模块,使用两个独立的数据源:10人类共表达基因数据库COEXPRESdb18和人类序列特异性转录因子控制的下游基因数据库19。后者仅与来自所用通路数据库的基因交集,而来自COEXPRESdb的相关数据使用欧几里德距离矩阵进行聚类。
根据以下等式获得距离:
rij=1-corrij
其中corrij是基因i和j表达水平之间的相关性。采用DBScan和具有平均链接标准的层次聚类来鉴定聚类。仅考虑平均内部成对相关性高于0.3的聚类。从转录因子数据库和共表达数据库获得的聚类被递归合并以去除重复项。如果聚类之间的交集水平高于0.7,则在合并过程中将一对聚类合并为一个。结果,构建了一组169个基因模块,其中包括总共1021个独特基因。
iPANDA值的统计可信度
使用加权Fisher组合概率检验获得iPANDA通路激活分数的p值。
算法稳健性估计
为了定量估计数据集之间算法的稳健性,引入了通用标志物通路(CMP)指数。CMP15指数是被视为数据集之间通用标记物的通路数量的函数。当这些通路用作分类器时,它还取决于治疗反应预测的质量。CMP指数定义如下:
Figure BDA0003463488580000271
其中n是研究数据集的数量,Ni是通路i中基因的数量,AUCij是曲线下ROC面积值,它显示了当通路i用作第j个数据集的分类器时,对治疗有响应者和无响应者之间的分离质量。AUCR是随机分类器的AUC值,等于0.5。如果通路的AUC值高于0.8,则将其视为标志物。包含ln(Ni)项是为了增加较大通路的贡献,因为它们随机获得高AUC值的概率更小。CMP指数值较高,对应的是所研究数据集的通路标志物预测最稳健,而CMP指数为零值,对应的是获得的不同数据集的通路标志物列表为空交集。
数据样本聚类
为了将iPANDA应用于几个独立数据集的紫杉醇治疗反应预测,将每个数据集的通路激活值独立地标准化为Z-分数。用于Z-评分程序的预期值根据所研究数据集中的有响应者和无响应者的数量进行调整。用于进一步聚类的样本之间的成对距离矩阵采用下式获得:
Figure BDA0003463488580000272
在本文中,Dij是样本i和j之间的距离,N是用于距离计算的通路标志物的数量。iPANDAip和iPANDAip分别是样本i和j的通路p的标准化iPANDA值。将iPANDA值标准化为Z-分数意味着所有考虑的通路标志物对获得的距离都有相同的贡献。在聚类过程之前,所有距离都被转换为相似度(1-Dij)。对距离矩阵执行使用Ward链接的分层聚类以将样本分组。
转录组(基因表达)差异
在优选的实施例中,比较两个iPANDA转录组特征,其中一个特征来自待治疗的老化患者的组织或器官(或类似的代理特征),另一个特征代表靶标非老化的组织或器官,以观察转录组(基因表达)差异。通常采用主成分分析。正如本领域熟知的那样,也可以采用基因表达树、差分矩阵,例如采用本领域熟知的技术。在优选实施例中,差分矩阵为下述机器学习架构提供向量输入。虽然已使用转录组学数据对iPANDA进行了说明,但相同的方案中也可以使用蛋白质组学数据。
在优选的实施例中,对基因表达模式进行主成分分析(PCA)。在一个其中采集了许多而不仅仅是两个不同组织样本的实施例中,形成了几个聚类,表明了这些聚类的相关生物学功能。例如,胃肠组织、食道、直肠和结肠都聚在一起,造血组织(骨髓和脾脏)和单核细胞也聚在一起。由于功能相关细胞类型的转录组通常表现出真正的层次结构,因此可以根据平均基因表达水平生成相邻的基因表达树。与PCA结果相似,骨髓和脾脏与单核细胞聚在一起,而骨骼肌和心肌聚在一起,并与平滑肌不同。因此,对于任何给定的细胞类型,例如神经元,表观遗传标记反映了先前(例如,胚层和衍生细胞谱系中的状态)和当前的调控图谱。
细胞和组织的差异基因表达
在心脏和骨骼肌中,与其他细胞和组织相比,12044个基因中有455个基因差异表达(系统发育方差分析(ANOVA)P值≤0.01)。这些基因中大约44%与三羧酸(TCA)循环和呼吸有关,与这些组织的代谢组织和能量来源一致。
神经元对认知和运动功能至关重要,其细胞寿命可能超过生物体的寿命。将神经元与寿命较短的细胞和组织进行比较,在概念上类似于将寿命长的哺乳动物的基因表达与寿命短的相关物种进行比较,例如,将非洲鼹鼠与其他啮齿动物进行比较。15因此,除了指示神经元功能的模式外,神经元还应该具有与低更新/长寿命相关的基因表达特征。在12044个基因中,1438个基因在神经元中差异表达(P≤0.01),基因集富集分析显示与溶酶体、蛋白酶体、核糖体蛋白和细胞凋亡相关的功能富集。神经元表现出27种核糖体蛋白和多个20S蛋白酶体亚基基因的表达减少,这与微调自我更新和突触可塑性所需的不同蛋白质代谢一致。这组基因与细胞和组织更新无关,表明这种表达模式是寿命长的神经元所独有的。众所周知,饮食限制和其他干预措施可能会导致蛋白质代谢减少,这与许多模式生物的寿命延长有关。此外,肿瘤抑制因子p53(TP53)在神经元中的表达显著降低(P≤0.001),它在神经元中以细胞和组织更新的基因表达模式水平表达。
机器学习平台和iPANDA的输入
在优选实施例中,输出本发明药物分类的计算程序的一般设计分为四个连续步骤:1)转录组学相似度搜索,2)基于靶蛋白质的搜索,3)基于结构相似度的搜索,4)转录组学特征筛选,和5)基于深度神经网络的搜索。
关于(1)计算机通路激活网络分解分析(iPANDA),可应用于从基因表达综合数据库(GEO)获得的转录组学组织特异性衰老数据集,每个组织的样本总数不少于250。鉴定了组织特异性细胞老化通路标志物集。只有在老化细胞中受到严重干扰的通路(iPANDA生成的p值小于0.05的通路被认为是通路标志物)。iPANDA分数是为Broad研究所LINCS项目数据预先计算的,并用于计算转录组学化合物的相似度。采用相应组织的细胞系数据,计算了抗老化药物和其他目标化合物的iPANDA分数向量之间的欧几里德或其他相似度。仅使用先前鉴定的组织特异性通路标志物进行相似度计算。
关于2)使用敲除细胞系的LINCS项目数据,执行相同的程序来鉴定与先前鉴定的抗老化化合物D(达沙替尼)、N(那维克拉)和Q(槲皮素)作用有关的关键靶基因。使用STITCH人类药物-靶标相互作用数据库,通过可能与这些化合物相互作用的蛋白质富集靶基因列表。应用基于药效团的搜索和公开可用的对接算法来鉴定以最高亲和力与所鉴定靶特异性结合的化合物。
3)对已知具有抗老化特性的三种化合物(D、N、Q)进行结构相似性搜索。采用公开可用的分子对接算法定义了化学基团的重要性权重。这些信息用于基于QSAR的结构生成和过滤。也可以在类似程序中筛选来自pubchem数据库的化合物,以找到D、N和Q的结构类似物。
4)为了研究没有已知分子靶标的天然化合物的潜在影响,使用了GEO和LINCS项目基因表达数据。在这两个数据库中,都可以考察数据集,由采用多种不同化合物治疗前后细胞系的转录组组成。对于评分完全相同的衰老数据集,使用GEO数据集GSE66236、GSE69391、GSE18876、GSE21779、GSE38718、GSE59980、GSE52699、GSE4866。可以假设抗衰老化合物会影响衰老的转录组,使其进入“更年轻”的状态。从机制上讲,这反映了一个事实,即如果某个调控通路随着衰老而增加(或减少),其最终靶将随着衰老而增加(或减少)表达。通过寻找减少(或增加)这些最终靶表达的化合物,可以发现靶向这些衰老相关通路(一些其主要调控基因)的药物。
首先,发现了与衰老相关的差异表达基因,以及药物治疗后的差异表达基因。对于基于微阵列的转录组数据,使用差异基因表达的limma检验。每组差异表达的基因按照考虑了影响的幅度和统计显著性的以下衡量标准进行排序:FCmax(0,-log(p值)),其中PC是各组之间基因表达的倍数变化,p值代表limma检验的结果。
设计了估计化合物抗衰老能力的统计激励分数。显著上调或下调的基因定义为(多重检验校正后)FDR<0.01的基因。开展Fisher精确检验,测量每个基因两个特征的关联性:药物治疗后显著下调特征和衰老期间显著上调特征的关联性。反之亦然,对药物治疗后显著上调的基因与衰老过程中显著下调的基因开展相同的检验。将这两个检验的最佳p值作为给定药物抗衰老的分数。可以对所获得的研究的化合物数量的p值开展多次检验校正。相同的方法用于筛选LINCS转录组学数据库中与其他药物(如二甲双胍)作用相似的天然化合物。
5)基于深度神经网络的化合物药理类别分类器可以对多种化合物进行训练。训练数据包括结构数据(QSAR、SMILES)、基因水平和通路水平(iPANDA)的转录组学反应LINCS项目数据以及来自STITCH数据库的药物-靶相互作用网络。在训练期间,宣布特定类别的有前景的抗老化化合物。所述类别包括在研究步骤1、2、3中确定的化合物。
在测试1 0集的类别-平衡之后记录建立的分类器的准确度。扫描300000+化合物的数据库后,得到抗老化化合物的列表供进一步分析。在每个步骤中获得排名靠前的化合物,并独立寻找每个组织的交集。因此,这些化合物被鉴定为对组织具有最佳抗老化特性。根据步骤3中的程序获得一组结构类似物,它们具有相似的分子特性和可能的抗衰老特性。
6)寻找所需分子的结构类似物。另一个目的是找到蛋白质-配体相互作用的目标分子的结构类似物。这种方法对于提高与靶(蛋白质)结合的特异性非常有效。
第一步,我们对药物化合物的可能靶点进行分析。这可以通过两种方式完成:1)使用特定程序在数据库(例如STITCH)中搜索目标分子与蛋白质/基因的不同相互作用;2)论文实验数据分析。在分子的情况下,选择第二种方式,因为它有助于选择实验批准的蛋白质-配体相互作用的最佳变体。从文献分析中,根据以下参数选择n个靶:1)靶与药物的特异性结合;2)最低IC50;3)结构在蛋白质数据库中存在。
之后,对于所有结构,我们对所有可能的活性位点和其它结合口袋应用对接。选择药物在靶中的最佳位置,并在使用柔性链算法进行额外对接。
然后,根据算法分析靶的所有结构:1)氢键的数量,2)疏水/亲水相互作用,3)n-n相互作用的数量。这些信息进一步用于了解分子与靶特定位点结合的关键原则。根据这种分析,可以找到修改分子的规则,以便更好地与特定靶结合。随着软件的使用,根据分子的规则找到类似物。在此之后,开展计算机毒理学试验,选择无毒的类似物。将这些新的无毒类似物再次与相互作用分析靶的结合位点对接,那些表现出最佳分数结果的被选为最有前途和最有前景的类似物。可以从Pubchem数据库提取其他结构类似物和构象异构体。
在优选实施例中,采用与例如Aliper et.al.,“Deep learning applicationsfor predicting pharmacological properties of drugs and drug repurposing usingtranscriptomic data”,Mol Pharm,2016July 5;13(7):2524–2530,及Mamoshina et.al.,“Applications of Deep Learning in Biomedicine”,Mol Pharm,2016March 13(5)所述类似的深度神经网络,结合细胞特征数据库(例如LINCS数据库)和药物治疗用途数据库(如MeSH)作为DNN的输入,输出药物分类,制定治疗方案,在这种情况下,对老化药物或其他治疗方案进行分类和选择。LINCS是美国基于网络的细胞特征文库项目,旨在通过对细胞暴露于各种干扰剂时发生的基因表达的变化和其他细胞过程的变化进行编目,创建基于网络的生物学理解。MeSH(医学主题词表)是美国国家医学图书馆控制的主题词表,用于为PubMed的文章编制索引,PubMed是美国国家医学图书馆关于生命科学和生物医学主题的参考文献和摘要的免费搜索引擎。
AAE通过将聚合的后验(posterior)与先验(prior)匹配来工作,确保从先验空间任何部分生成都会产生有意义的样本。因此,对抗性自动编码器的解码器学习映射施加先验数据分布的深度生成模型。AAE可用于半监督分类、分离图像风格和内容、无监督聚类、降维和数据可视化等应用。例如,AAE用于生成式建模和半监督分类任务。因此,AAE将自动编码器变成了生成模型。AAE通常使用双重目标—传统的重构误差标准和对抗性训练标准进行训练,后者将自动编码器潜在表示的聚合后验分布与任意先验分布相匹配。
在来自Kadurin的优选实施例中,所述方法使用7-层AAE架构,其中潜在的中间层用作判别器。作为输入和输出,AAE使用二元指纹和分子浓度的向量。在潜在层中,我们还引入了负责生长抑制百分数的神经元,其中负值表示治疗后肿瘤细胞数量减少。为了训练AAE,我们使用细胞系分析数据来分析细胞系中的化合物。然后,AAE的输出可用于筛选药物化合物,例如PubChem中的7200万种化合物,然后选择具有潜在抗老化或特性的候选分子。
用于深度生成模型的最新一类非参数方法被称为生成式对抗网络(GAN)。在这个由Goodfellow最初提出的新框架中,生成模型通过对抗过程进行估计。在实践中,同时训练两个模型:捕获数据分布的生成模型G和估计样本来自训练数据而不是G的概率的判别模型D。G的训练过程是最大化D出错的概率。因此,这种框架不对应于标准优化问题,因为它基于一个模型寻求最大化而另一个模型寻求最小化的值函数。该过程终止于一个鞍点,该点对于一个模型的策略是最小值,而对于另一个模型的策略是最大值。因为GAN不需要似然的显式表示,所以既不需要近似推断也不需要马尔可夫链。因此,GAN为最大似然技术提供了有吸引力的替代方案。
深度对抗式网络技术的生成能力有助于克服当前数据驱动计算方法的几个局限性,提供了新的视角。例如,我们可以将GAN应用于转录组学数据,用于生成所需表型组的新样本,并将GAN应用于化学信息学中,用于预测分子的物理、化学或生物特性和结构。定量构效关系(QSAR)和定量结构-性质关系(QSPR)仍然被认为是预测新分子性质的现代标准。为此,已经开发了许多基于ML的方法来解决此类问题,但最近的结果表明,基于DL的方法与其他最先进的方法相当或更优秀,并展示了更好的预测性能、简约性和可解释性,并且在某些情况下可以使用基于网络的预测器。此外,基于卷积神经网络的新方法能够通过直接使用任意大小和形状的图形作为输入而不是固定特征向量来执行预测,人们可以期待看到更灵活的深度生成架构的发展,这些架构可以直接应用于其他结构化数据,例如序列、树、图形和3D结构。因此,深度对抗网络技术可用于提高准确性、生成能力和预测能力,并解决包括计算成本、每层计算有限和图上信息传播有限等几个问题。
通过分析结合亲和力和化学性质开展生物活性小化合物和分子的靶预测和映射是另一个研究领域,该研究领域广泛使用数据驱动的计算方法来优化现有存储库中可用数据的使用。尽管取得了有希望的结果,并且有各种网络平台可以通过计算确定未表征分子的新目标或已知分子的二级目标(例如SwissTargetPrediction),但总的来说,可用的方法对于系统结合预测来说仍然太不准确,物理实验仍然是结合测定最先进的方法。在该领域,基于DL的方法,例如最近发布的基于深度卷积神经网络的AtomNet方法,可以规避一些限制,并优于更传统的计算方法,包括RF、用于QSAR的SVM和基于配体的虚拟筛选法。可以预期,利用GAN框架的DL方法的开发还将导致预测准确性和预测能力显著提高。
在优选实施例中,对抗网络和自动编码器在两个阶段与SGD联合训练-重构阶段和正则化阶段-在每个小批量上执行。在重构阶段,自动编码器更新编码器和解码器,以将输入的重构误差最小化。在正则化阶段,对抗网络首先更新其判别网络以区分(使用先验生成的)真实样本和生成样本(自动编码器计算的隐藏代码)。然后,对抗网络更新其生成器(它也是自动编码器的编码器)以混淆判别网络。一旦训练过程完成,自动编码器的解码器将定义生成模型,该模型将p(z)的施加先验映射到数据分布。
在优选实施例中,输入层分为指纹部分和浓度输入神经元。在优选实施例中,将AAE训练为不仅编码和重构分子指纹,而且编码和重构实验浓度。编码器由分别具有128个和64个神经元的两个连续的层L1和L2组成。解码器由分别具有64个和128个神经元的两个层L’1和L’2组成。潜在层由5个神经元组成,其中一个是GI,其他四个以正态分布判别。由于我们训练编码器网络来预测潜在层单个神经元的“效率”与“老化”,我们将潜在向量分为两部分—“GI”和“表示”。所以我们在编码器成本函数中添加了回归项。此外,我们通过额外的“流形”成本限制我们的编码器将相同的指纹映射到相同的潜在向量,而不受输入浓度的影响。在本文中,我们通过所有数据集计算浓度的均值和方差,然后使用它们对“流形”步骤的浓度进行采样。在每个步骤中,我们从训练集中采集指纹样本,并从具有给定均值和方差的正态分布中抽取一批浓度。具有“流形”损失的训练网络通过最大化具有不同浓度的相似指纹的“表示”之间的余弦相似度执行。
所有这些变化导致了5步训练迭代,而不是AAE基本模型中的3步训练迭代:(a)经训练的判别器用于区分给定的潜在分布和编码“表示”;(b)经训练的编码器采用生成的“表示”混淆判别器;(c)编码器和解码器作为自动编码器联合训练;(d)经训练的编码器拟合潜在向量的“分数”部分;(e)用“流形”成本训练的编码器。
前两个步骤(a,b)像通常的对抗网络一样进行训练。自动编码器成本函数以指纹部分的对数损失(logloss)和浓度部分的均方误差(MSE)的总和计算,MSE还用作回归成本函数。优选AAE的示例代码可在github.com/spoilt333/onco-aae上获得。
实验/模拟/模型
1.单次活检(或现有的个人资料)。
根据nhlbi.hih.gov网站中描述的医疗中心的标准程序,对患者进行肝脏或肺的单次活检。对于肺活检,将从肺部多个位置采集少量肺组织样本。在显微镜下检查样本,还对转录组和基因表达谱和/或蛋白质组和蛋白质产生谱进行分析。此程序可以帮助排除其他病症,例如结节病、癌症或感染。肺活检还可以显示疾病的进展程度。
存在可用于获取肺组织样本的多种程序。
电视辅助胸腔镜检查。这是用于获取肺组织样本的最常用程序。通过肋骨之间的小切口,将内窥镜与附带的灯和摄像头一起插入胸部。内窥镜提供肺部的视频图像,并可以采集组织样本。该程序必须在医院进行。
支气管镜检查。对于支气管镜检查,将柔韧的细管子穿过鼻子或嘴巴,沿着喉咙向下进入气道。在管子的尖端有轻便的迷你摄像头。通过他们可以察看气管和气道。然后将镊子插入管中采集组织样本。
支气管肺泡灌洗。在支气管镜检查期间,将少量盐水(生理盐水)通过管子注入到肺部。这种液体清洗肺部,并帮助从肺泡周围区域带出细胞。在显微镜下检查这些细胞。
开胸手术。在此程序中,通过肋骨之间的胸壁切口去除几小块肺组织。开胸手术在医院进行。
对于肝活检,将从肝部多个位置采集少量肝组织样本。在显微镜下检查样本,还对转录组和基因表达谱进行分析。
存在可用于获取肝组织样本的多种程序。
经皮肝活检。医疗保健提供者轻敲腹部以定位肝脏,或使用以下成像技术之一:超声或计算机断层扫描(CT),并将用针采样。
经静脉肝活检。当一个人的血液凝结缓慢或有腹水(腹部积液)时,医疗保健提供者可以进行经静脉肝活检。医疗保健提供者在颈部的一侧应用局部麻醉剂,并在那里做一个小切口,将造影剂注入鞘中并拍摄X光片。之后,如果需要多个样本,多次插入和取出活检针。
腹腔镜肝活检。医疗保健提供者使用这种类型的活检从肝脏的特定区域或多个区域,或者在存在癌症或感染传播风险时获取组织样本。在因其他原因(包括肝脏手术)进行腹腔镜手术期间,医疗保健提供者可以采集肝组织样本。
2.通路特征测量
转录组学数据:
从GEO数据库(ncbi.nlm.nih.gov/geo/)下载数据集,这些数据集包含与IPF患者和作为参考的正常健康肺组织相关的基因表达数据(21个数据集)。来自不同数据集的IPF和正常数据使用GCRMA算法进行预处理,并使用来自Brainarray存储库的更新芯片定义文件对每个数据集独立进行汇总。
使用limma和deseq2算法计算差异基因以进行各组比较:IPF(IPFvs参考健康肺组织);老化(老年vs参考年轻健康肺组织);吸烟(现吸烟者vs参考非吸烟者);年龄状态数据可用于2个数据集,吸烟状态数据可用于1个数据集。
差异表达基因数据用作iPANDA算法的输入,以测量每个比较组的通路特征。或者,可以使用蛋白质组学数据。
通路数据库概述:
存在几个广泛使用的信号通路集合,包括京都基因和基因组百科全书、QIAGEN和NCI通路交互数据库。在这项研究中,我们使用了与人类细胞中各种类型的恶性转化最密切相关的信号通路集合,这些信号通路来自SABiosciences集合(sabiosciences.com/pathwaycentral)。
3.比较特征谱。
可以根据iPANDA p值截断(p值<=0.05)和不同数据集之间的共同重叠构建每个比较组的特征谱:IPF数据使用等于15的交集截断阈值,老化数据使用等于2的交集截断阈值,吸烟数据使用等于1的交集截断阈值。
4.个性化治疗。
DNN可作为预测活性化合物并生成具有所需疗效化合物的工具。基于DNN的模型的应用可用于个体患者的个性化化合物以及评估治疗效果和安全性。
机器学习方法提供了分析生物医学数据的工具,而无需事先假设这些数据的功能关系。而基于深度神经网络(DNN)的方法,例如多层前馈神经网络,能够拟合复杂且稀疏的生物医学数据,并在不修改目标特征的情况下学习原始数据的高度非线性依赖性。深度学习是从机器视觉到语言翻译的许多任务的最先进方法。但尽管生物医学进入了“大数据”时代,但生物医学数据集通常受到样本量的限制。特征空间的特征选择和降维通常会增加应用于生物医学领域的DNN的预测能力(Aliper,Plis,et al.2016)。
可以提供利用深度架构量化模型的系统,该系统能够基于患者个人资料根据化合物对个体患者的疗效对化合物进行分层。在某种程度上,个人资料可以包括采用量化模型分析的生物学通路。以下数据可用作系统的输入特征:基因表达谱和信号通路谱、血液检验(Putin et al.2016)、蛋白质表达谱、临床病史以及电子健康记录的深度表示(Miotto etal.2016)。
可以提供利用深度架构量化模型的系统,该系统能够通过对患者的健康状况(例如生物学年龄、预期寿命、生存概率)的定量评估来评估所提议治疗的疗效。以下数据可用作系统的输入特征:基因表达谱和信号通路谱、血液检验、蛋白质表达谱、临床病史以及电子健康记录的深层表示。
可以提供利用深度架构量化模型的系统,该系统能够预测治疗的潜在副作用。以下数据可用作系统的输入特征:基因表达谱和信号通路谱、血液检验、蛋白质表达谱、临床病史以及电子健康记录的深度表示。
可以提供基于具有深度架构的生成模型的系统(Kadurin et al.2017),该系统能够生成具有所需特性(例如高效、低毒性、高生物利用度等)的分子。生成的分子可以采用基于DNN的系统通过疗效和安全性预测进行评估。
因此,本文所述的5R策略可应用于患有老化前、老化和纤维化病症的患者。5R策略包括:拯救;清除;补充;增强;和重复
第1阶段.拯救
5R策略的第一步是拯救特定组织(包括肝脏和肺)中的老化前细胞。老化前表型被认为可能是可逆的。为了拯救表现出老化前表型的细胞,应采用特定的可能干预措施。这些干预措施包括采用本文列表中的一种老化修复化合物或多种老化修复化合物的组合进行治疗。老化修复化合物应该通过口服、注射、舌下、口腔、直肠、阴道、皮肤、经皮、眼部、耳部或鼻部或任何其他方式给药。
第2阶段.清除
执行此步骤以消除已经进入不可逆老化状态的细胞。如上所述,老化细胞丧失其功能,并对周围细胞具有持续的危险。消除此类细胞可防止周围细胞通过正向循环进入老化表型,并恢复正常组织功能。为了消除表现出老化表型的细胞,应采用特定的可能干预措施。这些干预措施包括采用此下表中的一种抗老化化合物或多种抗老化化合物的组合进行治疗。抗老化化合物应该通过口服、注射、舌下、口腔、直肠、阴道、皮肤、经皮、眼部、耳部或鼻部或任何其他方式给药。
第3阶段.补充
第二步导致群体中细胞全面恢复,但另一方面,导致总细胞计数减少。这允许进一步采用补充步骤用功能细胞使组织再增殖。因此,应激活特定组织中的干细胞/祖细胞池(包括肺、肝中的间充质和上皮干细胞)以补充组织。实现这一目标所需的可能干预措施包括使用下表中的一种特定化合物或多种化合物的组合进行治疗。重要的是,这些化合物应能够刺激干细胞增殖,但另一方面应可以防止与可能的不受控制的增殖和随后的恶性转化相关的不良影响。这些化合物应该通过口服、注射、舌下、口腔、直肠、阴道、皮肤、经皮、眼部、耳部或鼻部或其他方法给药。
第4阶段.增强
该步骤用于防止组织(或器官)的进一步潜在降解。它包括使用下表中的一种特定化合物或多种化合物的组合进行治疗。这些化合物应表现出以下其中一种活性:免疫调节以防止可能的恶性转化和衰老细胞的积累,细胞保护以保持组织的功能状态,刺激巨噬细胞以达到衰老自噬(senophagy)(特异性吞噬和消化衰老细胞的能力)的特定状态。这些化合物应该通过口服、注射、舌下、口腔、直肠、阴道、皮肤、经皮、眼部、耳部或鼻部或其他方法给药。
第5阶段.重复
以上整个多阶段长寿治疗管道(阶段1-4)可以反复应用。两次治疗之间的时间间隔根据组织(器官)特定的情况单独定义,可能从1个月到10年不等。
在实施例中,前四步拯救;清除;补充;增强可以用作多阶段长寿治疗管道,可以多次应用,并持续进行。两次治疗之间的时间间隔根据组织、器官和患者的具体情况单独定义,两次治疗之间的时间间隔可能从1个月到10年不等,或者某些或所有步骤可以基本上持续进行。
实例
本发明包括执行以下功能的方法、系统、药物、装置、计算机程序产品等。
图3说明了与本发明兼容的用于生物性衰老评估准确性的转录组学时钟方法。使用验证集的健康个体的实际实足年龄(x-轴)与预测年龄(y-轴)之间的相关性。灰线代表线性回归决策边界线。r、R2和p值的数值在图的顶部提供。请注意,此图和其他图中的术语疾病0仅表示将健康/对照受试者用于此类生物性衰老评估。
图4说明了年龄预测模型(A)的性能,深度特征选择模型(DFS)在验证和测试集上的实际实足年龄vs预测年龄。灰线代表线性回归决策边界线。R2和MAE的数值在图的底部提供。
图5说明了在RNAseq数据的外部验证集上对微阵列数据进行训练的年龄预测模型的性能。使用外部验证集的健康个体的实际实足年龄组(x-轴)与预测年龄(y-轴)之间的相关性。深度特征选择模型(DFS)的实际实足年龄组的的平均值vs预测年龄的平均值。
图6阐明了验证集中健康个体按年龄划分的样本数量分布。蓝色(较深)和绿色(较浅)值分别是实际实足年龄和分配的生物学年龄。对于相对健康的人来说,分配的生物学年龄接近实足年龄并不奇怪。
图7阐明了健康个体的ε-预测准确性示例。ε-预测准确性定义如下:
Figure BDA0003463488580000371
其中n是顶测值,lA是指示函数A∈[yi-ε;yi+ε]
例如,如果ε=0和yi=45,如果样本的预测属于区间,则DNN正确识别该样本。
图8阐明了使用t-SNE聚类算法按健康个体年龄进行聚类的图形。颜色柱表示样本的年龄。对于这个特定的实例,没有明确定义的按年龄划分的健康个体聚类。
实例1
年龄预测模型作为靶鉴定工具
图9说明了根据深度转录组学时钟和其他机器学习方法提供的重要性排序选择的靶列表。在本研究中,我们探索了几种方法来评估特征(基因)对年龄预测的重要性。基因采用四种方法排序:差异表达分析、弹性正则化线性回归(ElasticNet;基因按其模型回归系数的绝对值排序)、随机森林(每个基因的基尼(Gini)重要性值)。接下来,我们探索了深度特征选择模型分配给基因的相对重要性值,平均基因的重要性值用于五折交叉验证过程。
除了特征重要性排序之外,我们还探索了包装器方法,我们之前已经成功地将其应用于鉴定对年龄预测最重要的血液标志物(Putin et al.,2016;Mamoshina et al.,2018)。我们在本研究中应用了这种相同的技术,并进行了一些修改。在本文,我们探索了基因表达值向量的随机排列以及基因表达值增加(3的log2倍数变化)和减少(-3的log2倍数变化)。
在随机排列的情况下,x′i=rand(x)其中x是i基因的表达向量。
在直接增加或减少的情况下,x′i=x×2f,其中x是i基因的表达向量,f分别是3和-3的倍数变化。
因此,基因i的特征重要性值计算为
Figure BDA0003463488580000372
其中
Figure BDA0003463488580000373
是年龄预测值的向量和
Figure BDA0003463488580000374
是排列后年龄的向量预测值,k是交叉验证折数,在这种情况下,等于5。
我们使用支持向量机算法作为年龄预测模型。每个模型预测基因表达值修改后的年龄,并根据年龄预测的准确性为基因分配重要性系数。然后,将在验证集上获得的分数相加,并对每个与基因相关的重要性因子求平均值,得到最终值。
应用Borda计数算法对年龄预测模型得出的所有6个排序进行汇总,并通过差异表达分析得出的绝对log2倍数变化值对基因进行排序,得到基因的最终重要性排序。
表A提供了被确定为在优选实施例中对于按疾病和分子功能类别分组的年龄预测非常重要的49个基因。也可以使用从遗传材料翻译的相应蛋白质。
表A
Figure BDA0003463488580000381
表B列出了在优选实施例中用于转录组时钟分析的100个全部是人类基因的名称和缩写。也可以使用从遗传材料翻译的相应蛋白质。
表B
Figure BDA0003463488580000382
Figure BDA0003463488580000391
Figure BDA0003463488580000401
Figure BDA0003463488580000411
Figure BDA0003463488580000421
Figure BDA0003463488580000431
Figure BDA0003463488580000441
图10示出了选定基因列表重叠的维恩图。四维维恩图说明了所有一维、两维、三维和四维共享基因组。使用本文所述的深度转录组学衰老时钟选择基因列表。一组所有组织共有的基因可以被视为与衰老相关的通用靶,可用于开发治疗方法。
在环境因素和遗传特征的压力下,衰老的速度自然因人而异。因此,对于实足年龄相同的个体,其由生物标志物定义的生物学年龄通常并不同。生物衰老的生物标志物再次成为用于评估个人衰老率的组织和器官状况的客观生理指标。衰老当然与健康风险、无法维持体内平衡以及与年龄相关疾病的最终死亡预测有关。
本文所述的生物衰老的生物标志物可以评估抗衰老治疗的有效性。这一点很重要,因为全世界发达国家的人口正在迅速老龄化,而寻找和确定有效的抗衰老干预措施从未如此重要。
由于衰老是一个复杂的多因素过程,没有任何单一的原因或治疗(Zhavoronkov2011;Trindade,2013)会影响身体的大部分(如果不是全部的话)组织和器官,因此,本领域目前可用的生物标志物并不能准确地代表整个生物体或单个系统的健康状况,并且无法提供准确和有用的生物学年龄测量。此外,其中一些不容易测量。因此,仍然需要基于不仅可量化而且特征易测量的生物标志物。
通常,鉴定和开发生物标志物是一个多步骤过程,包括概念验证、实验验证和分析性能验证。尽管如此,也可以使用基于计算机方法的替代方法来改进和加速这些生物标志物的开发和验证过程。使用更有效的计算方法开发生物标志物受到两种技术趋势的青睐。首先,积累蛋白质组学、基因组学、化学蛋白质组学和表型组学等不同研究领域产生的高通量数据。第二个技术趋势是计算科学的进步,结合日益强大的计算资源,使得可以开发重新利用算法,也可以开发用于回顾性分析的软件以及维护收集和分类实验数据所需的基于网络的数据库(Lavecchia,2016)。使用这些计算资源,机器学习(ML)等各种技术可日常用于生物标志物的开发。
尽管深度学习(DL)方法最初是为处理模式、语音和图像识别等任务而开发的(Oquab2014),但它们也可用于提高应用于生物标志物鉴定的计算机技术的效率。基于深度学习的方法确实能够克服更传统的计算机技术目前的许多局限性。例如,用于集成复杂的生物医学数据。现代DL技术包括具有深度架构的强大方法,称为深度神经网络(DNN)。神经网络是无环图中连接的神经元(也称为单元)的集合。神经网络模型通常被组织成神经元不同的层。
对于大多数神经网络,最常见的层类型是全连接层,其中相邻两层之间的神经元完全成对连接,但单层内的神经元不共享连接。DNN的其中一个主要特征是神经元由非线性激活函数控制。这种非线性与深度架构相结合,使输入特征的更复杂组合成为可能,最终导致更广泛地理解它们之间的关系,从而获得更可靠的最终输出。DNN已经应用于多种类型的数据,从结构数据到化学描述符或转录组学数据(Mayr 2016,Wang 2014,Ma 2015)。由于DNN从大量数据中学习的这种灵活性和适应性,DNN现在被认为是解决许多当前生物医学相关问题的有趣的计算方法(Mamoshina 2016,Xu 2015,Hughes 2015)。
最近,Putin et al.(Putin,2016)已经发表了有希望的结果,证明了基于DNN的方法能够准确预测生物学年龄,并鉴定了一组最相关的生物标志物用于跟踪与衰老相关的生理过程。在他们的研究中,作为DNN输入的的特征-每个样本的一组41个生物标志物,是从常规体检患者的数万份血液生化样本中提取的。尽管本质上变化很大,但血液生化检验在实践中非常容易执行,并且被批准用于临床使用,因此被医生普遍使用。训练阶段(超参数拟合)使用了56177个样本,获得了有效的DNN结构,其余6242个样本用于验证。预测生物学年龄的有趣结果表明,基于DNN的方法优于许多传统的机器学习方法,包括GBM(梯度提升机)、RF(随机森林)、DT(决策树)、LR(线性回归)、kNN(k-最近邻算法)、弹性网络(ElasticNet)、SVM(支持向量机)。
此外,采用PFI(排列特征重要性)方法计算用于估计生物学年龄的每个生物标志物的相对重要性。这些信息可以通过两种方式使用。首先,由于每个生物标志物都旨在测量特定的生物机制,因此可以利用这种排序,针对被鉴定为在衰老的发生和发展中起关键作用的最重要的生物过程来优化抗衰老策略。其次,该列表可用于减少生成准确的生物学年龄预测所需的初始输入的数量。关于第二点,研究中显示的结果表明,尽管每个样本最初最多包含46个生物标志物,但输入仅包含前10个具有最高PFI分数的标志物时,DNN的性能仍然非常稳定。因此,PFI提供了生物标志物的排序列表,可用于选择最稳健可靠的特征来预测年龄。
越来越多关于模式生物延长寿命的实验数据证据表明,寻找促进人类长寿的干预措施是可行的(Moskalev A 2017)。然而,研究人类衰老的有限实验可能性和其他治疗领域从模型生物到人类临床的整体低转化率(Mak,Evaniew,and Ghert 2014)使寻找理想的抗衰老疗法变得复杂,只有少数防衰老剂、抗衰老分子在人体中显示出潜在的疗效(A.Aliperet al.2016;I.Thomas and Gregg 2017;A.M.Aliper et al.2015)。
在过去的几十年里,了解人类衰老的分子基础研究取得了重大进展。基因表达的变化与最有可能在衰老过程中发挥关键作用的许多生物过程、细胞反应和疾病状态有关。(de
Figure BDA0003463488580000461
Curado,and Church 2009)。
由于生物性衰老不是单一特征,而是在器官、组织、系统和生物体(包括人类)的其他粒度方面具有高度特异性,因此有效且有用的生物时钟必须利用来自许多组织和器官的许多生物标志物。下面是一些优选的实例。
能量代谢:
糖酵解、葡萄糖氧化、脂肪酸氧化是ATP产生的主要来源,ATP对于例如肌肉组织,尤其是心肌细胞等高能量需求组织的活力非常重要。衰老过程会引发代谢和能量稳态异常(Ma and Li 2015),能量代谢的特异性衰老生物标志物是本发明的主题。
高血压和缺氧:
前列腺素对于调节血管舒张和血管收缩以及维持血管稳态至关重要。血管舒张剂和血管收缩剂的平衡对于维持正常的血管功能很重要。衰老过程使平衡转向促收缩剂和高血压,高血压是老年人常见的血管并发症(Pinto 2007)。
不管通过与本发明兼容的生物性衰老评估来评估的特定生物标志物是什么,用于本发明和生物性衰老评估的深度学习计算方法的优选实施例如下。首先,使用标准反向传播算法在血液基因表达样本上训练一种称为深度特征选择(DFS)的特定类型的DNN。其次,使用不同的基于DNN的特征选择方法,通过遗传算法组合成一个集成模型,将DFS模型用于选择一组年龄相关的基因。
在第一步中,对DFS模型进行训练,例如,在从GEO(GSE33828)中提取的4000个健康人类血液基因表达样本上进行训练。DFS(Li et al.)是一种具有几个特定特征的神经网络类型。首先,DFS增加了特别隐藏的层,称为加权层,它将输入特征与加权层中的神经元进行一对一的桥接。然后,加权层中的神经元与深度前馈多层神经网络的第一正常隐藏层中的神经元一对多连接。其次,DFS在神经网络损失函数中引入了几个正则化项。示例性的最终损失函数表达式如下:
Figure BDA0003463488580000471
其中l(θ)是数据的对数似然,λ1,λ2,a1和a2是正则化项。K是隐藏层的数量。
Figure BDA0003463488580000472
和||w||1分别代表加权层中权重的l2和l1范数。||*||F代表Frobenius范数和||*||1代表矩阵范数。最后两项是基于弹性网络(ElasticNet)的项,用于控制加权层权重的平滑度/稀疏度。它们降低了模型复杂度,并加快了训练速度。DFS模型训练完成后,加权层中权重的绝对值可以作为输入特征(基因)的排序列表。
在第二步中,使用基于DNN的特征选择方法来选择与年龄相关的基因。每种方法都为每个基因生成相对重要性的排序列表。除了对DFS模型本身可用的输入特征进行排序之外,还应用了其他方法。这包括先前(Putin et al.)描述的排列特征重要性(PFI)方法、启发式变量选择(HVS)(Yacoub et al.)和基于输出导数的方法。这些方法的显著特点是它们可以应用于已经训练好的DNN。没有必要按照前向或后向特征选择方法的要求迭代重新训练DNN。
启发式变量选择(Yacoub et al.)是一种零一阶方法,旨在测量神经网络输入特征的相对重要性。该方法需要将与DNN结构相关的一组权重值和信息作为输入。在优选实施例中,每个给定输入特征的相对重要性计算如下:
Figure BDA0003463488580000481
其中I、H、O分别是输入层、隐藏层和输出层的数量。注意wji表示神经元j和i之间的权重。在DNN的训练和每个输入特征i的S计算之后,S值的集合可以组装成排序列表。
存在多种一阶方法可以衡量输入特征的相对重要性。这些方法使用误差的导数或神经网络关于此输入特征的输出来建立排序列表。基于导数的方法的有趣特性是它们可以应用于每个基于导数的方法特定的任何类型的可微分h。该过程用于计算输入特征的平均相关性以及如何包含导数项。在这里,我们考虑了(Dorizzi et al.),(Ruck et al.),(Refenes et al.),(Czernichow et al.)详细描述的长期研究的基于导数的方法。在下式中,
Figure BDA0003463488580000482
表示网络单元j对xi在xl处的输出导数,Fj(xl)是以u1为输入的网络输出,N为样本数。如果指定,M是网络的输出数量,var代表方差,q95或95%是百分位数。在下表中,输入特征i的相对重要性Si由方法表示。
以生物性衰老评估为例:
1)Ruck等人开发的如下模型:
Figure BDA0003463488580000483
2)Refenes等人开发了三种不同的模型:
Figure BDA0003463488580000491
Figure BDA0003463488580000492
Figure BDA0003463488580000493
3)Dorizzi等人的模型具有以下形式:
Figure BDA0003463488580000494
4)Czernichow等人的模型如下:
Figure BDA0003463488580000495
排序基因的最终列表是通过使用简单遗传算法(GA)组合上述不同列表而获得的。在优选实施例中,GA根据以下进行。
通过在DNN和DFS模型上应用上述特征选择算法获得的所有特征排序列表,对基因的初始种群进行初始化。在每次迭代中,GA在其种群之间执行35次交叉操作和15次变异操作,在此期间,在GA的训练中注入随机基因。因此,在每次迭代中,训练50个DNN。50个时代(epoch)后达到GA的收敛,并获得最终的基因排序列表。GA中最好的DNN模型在验证数据集上获得了0.79的决定系数和4.2的平均绝对误差。在图3中,可以看到DNN在预测健康个体年龄方面的性能(Rsq=0.79)。
细胞寿命、老化、组织特异性年龄预测,从而与本发明兼容的生物性衰老评估。
如上所述,不同的细胞和组织表现出不同的表达模式、不同的衰老模式和不同的寿命。这种巨大的变化意味着具有不同细胞、组织和器官特异性的衰老时钟是有用的(Seim,Ma,and Gladyshev 2016)。在优选实施例中,我们利用在12个组织上训练的基于DNN的年龄预测器和在单核全血部分的基因表达谱上训练的4个组织特异性的基于DNN的年龄预测器。
尽管与4个组织特异性深度衰老时钟相比,基于12个组织的通用预测器在具有更大样本量的数据集上训练,但其预测性能明显更差(最佳网络为11.2年,而基于血液、脑、肝脏和M.血液的预测器分别为6.4、8.2、7.8和8.3年)。
在优选实施例中,我们利用DFS算法进行特征排序,以鉴定在基于通用12个组织的年龄预测器以及4个组织特异性的年龄预测器的年龄预测中最重要的基因。
在该方法的实施中,与4个组织特异性的深度衰老时钟相比,基于12个组织的通用预测器在具有更大样本量的数据集上训练,但其预测性能明显更差(最佳网络为11.2年,而基于血液、脑、肝脏和M.血液的预测器分别为6.4、8.2、7.8和8.3年)。
采用GLP570微阵列平台上分析的至多51,139个样本数据训练和测试我们的DNN。GLP570 GEO登录号是指使用常见的Affymetrix人类基因组U133 Plus 2.0阵列生成的数据,该阵列涵盖约47,000个转录本,但研究中仅使用了12,328或12,428个转录本。数据以90:10的比例分为训练集和测试集,准确值在每个结果部分示出。
在成功且高度准确地使用我们的DNN对性别进行分类之后,我们尝试根据样本的年龄预测分类。如前所述,我们将年龄预测视为基于回归的问题。在优选的实施例中,使用了总共20,766个样本中的12,328个基因,18,261个样本用于训练,2,505个样本用于测试。我们基于DNN的年龄预测器得到的MAE为11.46年,这是相对标准机器学习模型的显著改进,k-NN最接近与DNN匹配,MAE为14.973年。对于1000个最相关的基因,在DFS之后观察到MAE的非常小的增加(0.085),这表明使用选定的基因表达数据集,DNN几乎没有额外的训练能力。
由于我们通过DNN看到了区分组织的明确能力,因此我们调查了年龄预测器的MAE是否会在调查组织特异性衰老时发生变化。在优选的实施例中,对来自全血1,853个样本(1,733个训练,120个测试)、大脑372个样本(278个训练、49个测试)、肝脏287个样本(228个训练、47个测试)和单核血组分267个样本(170个训练,97个测试)的12,428个基因进行分析;再次使用基于回归的模型。值得注意的是,在所有情况下,我们观察到,我们基于DNN的一般年龄预测器的MAE都有明显改善,全血表现特别好,产生的MAE为6.696。在DFS之后看到了进一步的改善,在脑样本中观察到MAE下降特别大(10.788vs 8.209)。在所有情况下,各种DNN都优于RF、k-NN和LR模型,通常产生的MAE小50%以上。总之,这些观察表明转录组学衰老时钟以组织特异性方式调控。
在优选实施例中,使用具有标准反向传播算法的多层(具有3或4个隐藏层)前馈神经网络。使用带有Theano后端的Keras库的Python实现来构建和训练神经网络,使用Scikit-learn库来构建和训练随机森林(RF)、K-最近邻(k-NN)和线性回归(LR)模型。采用网格搜索算法用于超参数优化,以达到最大的预测精度。
经过几轮优化,所有模型都选择了具有Nesterov动量和0.01学习率的Adam优化器。选择修正线性单元(ReLU)或指数线性单元(ELU)作为激活函数。平均绝对误差(MAE)损失函数用于年龄预测的回归任务。出于正则化的目的,模型在每层之后以20-50%的概率进行丢弃训练。在适当的情况下,将最佳DNN的性能与最佳(具有优化的超参数)RF和k-NN算法进行比较。在本研究中,我们将人类年龄的预测视为如前所述(Putin E 2017)的基于回归的问题,因此还将与年龄相关的实验与LR模型进行比较。所有实验均在具有128Gb RAM的NVIDIA GTC Titan Pascal上通过药物进行5折交叉验证进行。
毫不奇怪,本发明中公开的生物性衰老时钟是有用的,并且与老化治疗相容。下面是这样的一个实例。
Petkovich等人最近发表的论文涵盖了表观遗传时钟在评估抗衰老干预措施的有效性方面的应用,例如已知可延长寿命的热量限制和基因干预措施(生长激素敲除和Snell侏儒小鼠)(Petkovich et.al 2017)。首先,作者开发了表观遗传衰老时钟,并预测实施干预措施和匹配对照的动物的年龄。热量限制小鼠表明,与实际实足年龄相比,预测年龄降低,并与年龄匹配对照进行了比较。与匹配的对照相比,Snell侏儒小鼠的预测年龄下降幅度更大。生长激素敲除也表现出更年轻的预测生物学年龄。
不仅遗传、饮食干预措施,而且促进健康衰老和延长寿命的雷帕霉素、mTORC1和mTORC2抑制剂都同样显示出与年龄相关的DNA甲基化抑制变化(Cole et al.2017)。
mTORC1和mTORC2的联合抑制也可能提供有前景的策略来逆转近老化细胞中老化相关特征的发展(Walters,Deneka-Hannemann,and Cox 2016)。
为了拯救表现出老化前表型的细胞,应采用特定的可能干预措施。这些干预措施包括采用下面列表中的一种老化修复化合物或多种老化修复化合物的组合进行治疗。
PI3K激活剂:胰岛素受体底物(Tyr608)肽,该序列是本领域已建立和已知的,来自胰岛素受体底物-1(IRS-1),包括Tyr608(小鼠)-Tyr612(人)。它包含胰岛素受体酪氨酸激酶底物基序YMXM(Tyr-Met-X-Met)。这种肽已在磷酸纤维素结合测定中作为纯化胰岛素受体(Km=90μM)和其他酪氨酸激酶的底物。这种肽的酪氨酸磷酸化形式与磷脂酰肌醇3-激酶(PI 3-激酶)SH2结构域结合,激活该酶。
740Y-P:PI3K的细胞渗透性磷酸肽激活剂。PDGFR 740Y-P肽可刺激肌肉细胞中的促有丝分裂反应。740Y-P肽刺激有丝分裂的能力是高度特异性的,而不是细胞渗透性SH2结构域结合肽的一般特征。参见ncbi.nlm.nih.gov/pubmed/9790922。
mTORC1、mTORC2抑制剂:沙帕色替(sapanisertib)(Wise-Draper et al.2017;Moore et al.2018),达托里昔布(dactolisib)(Wise-Draper et al.2017)。
PDH抑制剂:GSK2334470(GlaxoSmithKline),MP7(默克公司)。(Emmanouilidi andFalasca 2017)。
根据实例1中描述的程序基于转录特征分析发现的化合物:醉茄素A、薰草菌素A、萝卜硫素。
老化修复化合物可以通过口服、注射、舌下、口腔、直肠、阴道、皮肤、经皮、眼部、耳部或鼻部或其他方法给药。
实例2
年龄预测器输出分析
图11阐明了根据所述的示例性验证集按健康人员年龄范围分组的Δ(delta)(分配的(预测的)生物学年龄和实际实足年龄之差)条形图。Δ表明实足年龄和预测年龄不一致。Δ值越大,模型预测的年龄值与个体实际实足年龄之间的差异越大。对于疾病患者、不健康的老年患者、正在接受治疗的患者,预测年龄可能与他们的实际实足年龄存在显著差异。
基因表达谱收集自公开可用的存储库基因表达综合数据库(ncbi.nlm.nih.gov/geo/)和ArrayExpress(ebi.ac.uk/arrayexpress/)。在本文,我们介绍了年龄预测器输出分析的案例研究和实例。此类年龄预测器还可用于研究由危险环境暴露或疾病引起的衰老加速。我们分析了2个数据集GSE10846、E-MTAB-4015。
我们首先分析了GSE10846数据集,其中包含412名接受化疗或化疗+利妥昔单抗治疗的弥漫性大B细胞淋巴瘤患者的生存、治疗信息和基因表达数据(例如,疾病分析)。模型预测年龄比实足年龄更年轻与良好的预后相关。
发现转录组学年龄(例如,模型预测年龄)比实足年龄大的患者死亡风险增加,反之亦然。因此,较年轻的血龄可能是健康老化干预措施的有用结果。
图12示出了生物学年龄时钟,或其报告的实例。为了研究深度转录组学衰老时钟(例如,生物性衰老时钟)对死亡率的预测能力,我们采用了实足年龄-和性别-调整的Cox回归模型。预测比实际年龄年轻的样本一致显示风险比降低(33%),而预测比实际年龄大的样本显示风险比显著增加(12%)。因此,风险比可用于本发明的方法中。
对211名慢性阻塞性肺病(COPD)和非COPD患者的吸烟状况和健康状况(例如生活方式分析)和基因表达数据的E-MTAB-4015数据集进行分析。吸烟对全世界的医疗保健系统造成巨大压力,因为它是许多慢性病的主要风险因素,也是过早衰老和死亡的潜在罪魁祸首。
图13示出了生物学年龄时钟,或其报告的实例。图中示出了现吸烟者、非吸烟者、前吸烟者和COPD患者的实际年龄和预测年龄。与现吸烟者和前吸烟者以及COPD患者相比,非吸烟者的预测年龄更低。非吸烟者的平均预测年龄是60岁,而现吸烟者的平均预测年龄是63岁,COPD患者的平均预测年龄是63岁(p值<0.05)。
应该认识到,虽然实例是使用转录组学数据提供的,但也可以使用蛋白质组学数据。
此外,生物学年龄的DNN预测器可以基于血液测试值,例如血液蛋白浓度。图15示出了生物学年龄时钟,或其报告的实例。为了研究深度蛋白质组学时钟对患者药物疗效的预测能力,我们探索了log2衰老比率。采用糖尿病患者组的血液样本预测他们的生物学年龄。一般来说,与实足年龄相比,所有糖尿病患者的预测生物学年龄往往更大。对于男性样本,同时服用胰岛素和降糖药的患者组和仅服用降糖药的患者组的预测年龄往往比实足年龄更年轻。同时服用胰岛素和降糖药的组(例如,第一组,最左侧)和仅服用胰岛素的组(例如,第二组,右中)之间的差异显著,并且第一组预测比第二组更年轻。与既不服用胰岛素也不服用降糖药的患者(例如,第三组,什么都不服用,最右侧)相比,第一组的预测生物学年龄也往往更年轻。仅服用降糖药的组(例如,第四组,左中)和仅服用胰岛素的组(例如,第二组)之间的差异显著,并且第四组预测比第二组更年轻。此外,与既不服用胰岛素也不服用降糖药的患者(例如,第三组)相比,第四组的预测生物学年龄也更年轻。
图16示出了生物学年龄时钟,或其报告的实例。为了研究深度蛋白质组学时钟区分不同人种衰老率的预测能力,我们使用在另一个人种(例如东欧人)上训练的深度蛋白质组学时钟来预测一个人种的样本的年龄。采用在预期寿命较低的东欧人种上训练的年龄预测器,对预期寿命较高的人种(韩国人)的样本进行预测,其预测年龄更年轻。在大约40岁之后,预测加拿大人将与东欧人大致相同。
图17示出了生物学年龄时钟,或其报告的实例。为了研究深度转录组学衰老时钟(例如,生物性衰老时钟)对死亡率的预测能力,我们采用了Kaplan-Meier分析。与预测年龄在误差范围内的个体(实际年龄和预测年龄的绝对差低于5岁;-5:5)和预测更年轻的个体(预测年龄比实际年龄低5岁或更多;<-5)相比,预测年龄比实际年龄大5岁(>5)的个体具有更低的生存概率。下表提供了支持图17的其他数据。
Δ组 风险人数 风险人数 风险人数 风险人数
>5 102 58 30 0
-5:5 2624 1611 714 0
<-5 4086 2666 1119 0
时间0 时间500 时间1000 时间1500
对于本文公开的这个和其他过程和方法,在这些过程和方法中执行的操作可以以不同的顺序实施。此外,所概述的操作仅作为示例提供,在不脱离所公开实施例的本质的情况下,某些操作可以任选、组合成更少的操作、省略、补充进一步的操作或扩展为其它操作。
本文提供的附图是报告的示例或可以包含在生物性衰老时钟的报告中。报告可以提供给受试者或医疗专业人员,例如受试者的医生。
本公开不限于本申请中描述的特定实施例,这些实施例旨在作为各个方面的说明。在不背离其精神和范围的情况下,可以进行许多修改和变化。除了本文列举的那些之外,从前面的描述中,在本发明范围内的功能等效的方法和装置是可能的。这些修改和变化都属于所附权利要求的范围。本发明仅受所附权利要求的条款以及这些权利要求所赋予的等效物的全部范围的限制。本文使用的术语仅仅是为了描述特定实施例,并不是用于限制。
在一个实施例中,本方法可以包括在计算系统上执行的各个方面。因此,计算系统可以包括执行所述方法的计算机可执行指令的存储装置。计算机可执行指令可以是计算机程序产品的一部分,所述计算机程序产品包括一种或多种执行任何权利要求所述的任何方法的算法。
在一个实施例中,可以响应存储在计算机可读介质上并且可由一个或多个处理器执行的计算机可读指令的执行,执行或促使执行本文所述的任何操作、过程或方法。计算机可读指令可以由来自台式计算系统、便携式计算系统、平板计算系统、手持式计算系统以及网络元件和/或任何其他计算设备的各种计算系统的处理器执行。计算机可读介质并非暂时性的。计算机可读介质是存储有计算机可读指令的物理介质,以便计算机/处理器可以从物理介质物理读取这些指令。
存在可以影响本文所述的过程和/或系统和/或其他技术的各种载体(例如,硬件、软件和/或固件),并且优选的载体可以依过程和/或系统和/或其他技术的部署环境而变化。例如,如果实施者确定速度和准确性最重要,则实施者可以选择主要是硬件和/或固件载体;如果灵活性最重要,实施者可以选择主要是软件实施;或者,再一次替代地,实施者可以选择硬件、软件和/或固件的某种组合。
本文描述的各种操作可以通过范围广泛的硬件、软件、固件或它们的几乎任何组合单独和/或共同实施。在一个实施例中,本文所述主题的几个部分可以通过专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或其他集成格式实施。然而,本文公开的实施例的一些方面整体或部分地可以在集成电路中等效地作为在一台或多台计算机上运行的一个或多个计算机程序(例如,作为在一个或多个计算机系统上运行的一个或多个程序),作为在一个或多个处理器上运行的一个或多个程序(例如,作为在一个或多个微处理器上运行的一个或多个程序),作为固件,或作为它们的几乎任何组合实施,而且根据本发明,设计电路和/或为软件和/或固件编写代码是可能的。此外,本文所述主题的机制能够以各种形式作为程序产品分发,并且无论用于实际执行分发的信号承载介质的特定类型如何,本文所述主题的说明性实施例都适用。物理信号承载介质的实例包括但不限于:可记录类型介质(例如软盘)、硬盘驱动器(HDD)、光盘(CD)、数字多功能光盘(DVD)、数字磁带、计算机存储器或任何其他非暂时性或传输性的物理介质。具有计算机可读指令的物理介质的实例省略了瞬态或传输类型介质,例如数字和/或模拟通信介质(例如,光缆、波导、有线通信链路、无线通信链路等)。
通常以本文所述的方式描述装置和/或过程,然后使用工程实践将所述的装置和/或过程集成到数据处理系统中。也就是说,本文所述装置和/或过程的至少一部分可以通过数量合理的实验集成到数据处理系统中。典型的数据处理系统通常包括以下中的一种或多种:系统单元外壳、视频显示设备、存储器(例如易失性和非易失性存储器)、处理器(例如微处理器和数字信号处理器)、计算实体(例如操作系统、驱动程序、图形用户界面和应用程序)、一个或多个交互设备(例如触摸板或屏幕),和/或控制系统,包括反馈回路和控制电机(例如,感测位置和/或速度的反馈;移动和/或调整部件和/或数量的控制电机)。典型的数据处理系统可以利用任何合适的商用部件实施,例如通常在数据计算/通信和/或网络计算/通信系统中发现的那些部件。
本文所述的主题有时说明包含在不同的其他组件内或与不同的其他组件连接的不同组件。所述架构仅仅是示例性的,事实上,可以实施许多其他架构来实现相同的功能。从概念上讲,实现相同功能的任何组件布置都是有效“连接”的,从而实现所需的功能。因此,本文组合以实现特定功能的任何两个组件可以被视为彼此“连接”,从而实现期望的功能,而不管架构或中间组件如何。同样,任何两个如此连接的组件也可以被视为彼此“可操作地连接”或“可操作地耦合”,以实现所需的功能,并且任何两个能够如此连接的组件也可以被视为彼此“可操作地耦合”,以实现所需的功能。可操作地耦合的具体示例包括但不限于:物理上可配合和/或物理交互组件和/或无线可交互和/或无线交互组件和/或逻辑交互和/或逻辑可交互组件。
图14示出了可在一些实施例中布置用于执行本文所述方法(或其部分)的示例性计算设备600(例如,计算机)。在非常基础的配置602中,计算设备600通常包括一个或多个处理器604和系统存储器606。存储器总线608可用于在处理器604和系统存储器606之间进行通信。
取决于期望的配置,处理器604可以是任何类型,包括但不限于:微处理器(μP)、微控制器(μC)、数字信号处理器(DSP)或其任何组合。处理器604可以包括一个或多个级别的缓存,例如一级缓存610和二级缓存612、处理器内核614和寄存器616。示例处理器内核614可以包括算术逻辑单元(ALU)、浮点单元(FPU)、数字信号处理内核(DSP内核)或其任何组合。示例存储器控制器618也可以与处理器604一起使用,或者在一些实施中,存储器控制器618可以是处理器604的内部部件。
取决于期望的配置,系统存储器606可以是任何类型,包括但不限于:易失性存储器(例如RAM)、非易失性存储器(例如ROM、闪存等)或其任何组合。系统存储器606可以包括操作系统620、一个或多个应用程序622和程序数据624。应用程序622可以包括测定应用程序626,该测定应用程序626被布置成执行本文所述的操作,包括关于本文所述的方法本文的那些操作。测定应用程序626可以获得数据,例如压力、流速和/或温度,然后测定系统的变化以改变压力、流速和/或温度。
计算设备600可以具有其它特征或功能以及其它接口以促进基础配置602与任何所需设备和接口之间的通信。例如,总线/接口控制器630可用于促进基础配置602和一个或多个数据存储设备632之间经由存储接口总线634的通信。数据存储设备632可以是可移动存储设备636、不可移动存储设备638或其组合。可移动存储和不可移动存储设备的实例包括:磁盘设备(例如软盘驱动器和硬盘驱动器(HDD))、光盘驱动器(例如光盘(CD)驱动器或数字多功能光盘(DVD)驱动器)、固态硬盘驱动器(SSD)和磁带驱动器等。示例计算机存储介质可以包括:以存储信息的任何方法或技术实施的易失性和非易失性、可移动和不可移动介质,例如计算机可读指令、数据结构、程序模块或其他数据。
系统存储器606、可移动存储设备636和不可移动存储设备638是计算机存储介质的示例。计算机存储介质包括但不限于:RAM、ROM、EEPROM、闪存或其他存储技术、CD-ROM、数字多功能光盘(DVD)或其他光存储、卡带、磁带、磁盘存储或其他磁存储设备,或可用于存储所需信息并且可由计算设备600访问的任何其它介质。任何此类计算机存储介质都可以是计算设备600的一部分。
计算设备600还可以包括接口总线640,用于促进从各种接口设备(例如,输出设备642、外围接口644和通信设备646)经由总线/接口控制器630到基础配置602的通信。示例输出设备642包括图形处理单元648和音频处理单元650,其可以被配置为经由一个或多个A/V端口652与各种外部设备(例如显示器或扬声器)通信。示例外围接口644包括串行接口控制器654或并行接口控制器656,其可以被配置为经由一个或多个I/O端口658与外部设备(例如输入设备,如键盘、鼠标、笔、语音输入设备、触摸式输入设备等)或其他外围设备(例如打印机、扫描仪等)通信。示例通信设备646包括网络控制器660,其可以被配置为促进经由一个或多个通信端口664在网络通信链路上与一个或多个其他计算设备662通信。
网络通信链路可以是通信介质的一个示例。通信介质的示例通常有计算机可读指令、数据结构、程序模块或调制数据信号中的其他数据,例如载波或其他传输机制,并且可以包括任何信息传递介质。“调制数据信号”可以是其一个或多个特征被设置或改变以在信号中编码信息的一种信号。作为示例而非限制,通信介质可以包括有线介质(例如有线网络或直接有线连接)和无线介质(例如声学、射频(RF)、微波、红外(IR)和其他无线介质)。本文使用的术语计算机可读介质可以包括存储介质和通信介质。
计算设备600可以作为小型便携式(或移动式)电子设备的一部分实施,例如手机、个人数字助理(PDA)、个人媒体播放器设备、无线网络监视设备、个人耳机设备、特定应用设备或包含上述任何功能的混合设备。计算设备600还可以作为个人计算机实施,包括膝上型计算机和非膝上型计算机配置。计算设备600还可以是任何类型的网络计算设备。计算设备600还可以是本文所述的自动化系统。
本文所述的实施例可以包括使用具有各种计算机硬件或软件模块的专用或通用计算机。
本发明范围内的实施例还包括用于承载或具有存储在其上的计算机可执行指令或数据结构的计算机可读介质。这种计算机可读介质可以是可由通用或专用计算机访问的任何可用介质。作为示例而非限制,这种计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储器、磁盘存储器或其他磁存储设备,或可用于携带或存储计算机可执行指令或数据结构形式的所需程序代码方法并且可由通用或专用计算机访问的任何其他介质。当信息通过网络或其他通信连接(硬连线、无线或硬连线或无线的组合)传输或提供给计算机时,计算机正确地将连接视为计算机可读介质。因此,任何此类连接都被恰当地称为计算机可读介质。上述的组合也应包括在计算机可读介质的范围内。
计算机可执行指令包括,例如使通用计算机、专用计算机或专用处理设备执行特定功能或功能组的指令和数据。虽然以结构特征与/或方法方案特有的语言描述了主题,但是,应该理解的是,权利要求中定义的主题并不一定限于上文所述的具体特征或方案。相反,上文所述公开的具体特征和方案是作为实施权利要求的示例形式。
关于本文基本上任何复数和/或单数术语的使用,本领域技术人员可以根据上下文和/或应用从复数转换为单数和/或从单数转换为复数。为了清楚起见,本文可能明确地阐明了各种单数/复数排列。
本领域技术人员将理解的是,一般来说,本文使用的术语,尤其是所附权利要求书(例如,所附权利要求书的主体)中使用的术语通常旨在作为“开放性”术语(例如,术语“包括”应解释为“包括但不限于”,术语“具有”应解释为“至少具有”,术语“包括”应解释为“包括但不限于”等)。本领域技术人员将进一步理解的是,如果要引入特定数量的权利要求陈述,则该意图将在权利要求中明确陈述,如果没有这样的陈述,则不存在这种意图。例如,为了帮助理解,以下所附权利要求可能包含使用介绍性短语“至少一个”和“一个或多个”来介绍权利要求的陈述。然而,此类短语的使用不应被解释为暗示通过不定冠词“一(a)”或“一(an)”引入权利要求陈述将包含此类引入权利要求陈述的任何特定权利要求限制为仅包含一个此类陈述的实施例,即使当同一权利要求包括介绍性短语“一个或多个”或“至少一个”和不定冠词,例如“一(a)”或“一(an)”(例如,“一(a)”和/或“一(an)”应解释为“至少一个”或“一个或多个”)时;这同样适用于使用定冠词来介绍权利要求陈述的情况。此外,即使明确陈述了引入的权利要求陈述的具体数量,本领域技术人员也将认识到,这种陈述应该被解释为至少表示陈述的数量(例如,没有其他修饰语的“两个陈述项”的裸陈述,表示至少两个陈述项,或两个或两个以上陈述项)。此外,在那些类似于“A、B和C等中的至少一个”的惯用法的情况下,一般来说,这样的结构意在本领域技术人员将理解该惯用法的含义(例如,“具有A、B和C中的至少一个的系统”将包括但不限于仅具有A、仅具有B、仅具有C、具有A和B、具有A和C、具有B和C,和/或具有A、B和C等的系统)。本领域技术人员将进一步理解的是,实际上任何呈现两个或多个替代项的转折词和/或短语,无论是在说明书、权利要求或附图中,都应理解为考虑包括这些项中一项、任一项或两项的可能性。例如,短语“A或B”将理解为包括“A”或“B”或“A和B”的可能性。
此外,在根据马库什组描述本发明的特征或方面的情况下,本领域技术人员将认识到本发明由此也根据马库什组的任何独立成员或成员子组进行描述。
正如本领域技术人员将理解的那样,对于任何以及所有目的,例如在提供书面说明书方面,本文公开的所有范围也包括其任何和全部可能的子范围和子范围的组合。人们很容易地认识到,任何列出的范围都充分地描述地同一范围并使同一范围分解为至少相等的一半、三分之一、四分之一、五分之一、十分之一等。作为非限制性示例,本文讨论的每个范围都可以很容易地分解为下三分之一、中三分之一和上三分之一等。正如本领域技术人员还将理解的是,例如“至多”、“至少”等所有语言包括所陈述的数量,并且指的是随后可以分解为如上所述子范围的范围。最后,正如本领域技术人员将理解的那样,范围包括每个单独的成员。因此,例如,具有1-3个单元的组是指具有1、2或3个单元的组。同样,具有1-5个单元的组是指具有1、2、3、4或5个单元的组等。
从上文可以理解的是,为了说明的目的,已经在此处描述了本发明的各种实施例,并且在不背离本发明的范围和精神的情况下可以进行各种修改。因此,本文公开的各种实施例并不旨在限制,真正的范围和精神由以下权利要求表示。
定义:
“活检”是涉及提取样本细胞或组织进行检查,并可以进行化学分析的医学检测。当仅取出组织样本并保留组织细胞的组织学结构时,该过程称为切取活检或穿刺活检。当用针取出组织或液体样本时,在不保留组织细胞的组织学结构的情况下取出细胞,该过程称为针吸活检。
“老化”是生物性衰老,即几乎所有生命形式的功能和能力逐渐退化,主要是在成熟之后,特别是多细胞生命。老化增加死亡率。老化是指细胞老化、组织老化、器官老化和整个生物体的老化。细胞老化在很大程度上是生物体老化的基础。生物体、组织和细胞的疾病和老化之间的界限可能具有两者的特征,因为疾病和老化通常相互关联。
“细胞老化”不是单个细胞的衰老,而是与老化程度较低的组织或生物体相比,细胞相对其组织或生物体老化的状态(基因表达)。细胞老化可能部分是会引发DNA损伤反应的端粒缩短细胞的结果。细胞也可以通过响应升高的活性氧、致癌基因的激活、细胞间融合和其他原因引发DNA损伤而被诱导老化。因此,细胞老化代表“细胞状态”的变化,而不是细胞“衰老”。在正常衰老过程中,组织中老化细胞的数量大幅增加。细胞也可能经历不能再分裂的“复制性老化”。存在与老化细胞相关的“老化相关分泌表型”(SASP),其与例如炎症细胞因子、生长因子和蛋白酶的增加有关。细胞老化会导致与年龄相关的疾病,例如动脉粥样硬化。
“纤维化”是器官或组织中过多纤维结缔细胞或其他类似僵硬的结构细胞(称为“纤维化细胞”)的积累。这种纤维化可能是修复过程(如疤痕形成)的正常功能部分,但也可能是病理性的。过度和不必要的纤维化与老化有关,通常会降低组织或器官的柔韧性和其他功能。纤维化细胞通常具有过量的造成它们僵硬的细胞外基质蛋白。
“抗老化药物)”是可以选择性诱导老化细胞死亡的其他治疗药物。
“老化修复剂”是可以恢复或增加老化前细胞或非老化细胞数量的其他治疗药物。
“机器学习”(ML)是使计算机能够在没有明确编程的情况下进行学习的计算机科学子领域。机器学习平台包括但不限于朴素贝叶斯分类器、支持向量机、决策树和神经网络。
“人工神经网络”,也称为“ANN”或简称为“神经网络”,基于大量连接的简单单元,这些简单单元称为人工神经元,大致类似于生物大脑中的轴突。如果组合的输入信号足够强大,神经元就会被激活,并且信号会传播到与其相连的其他神经元。此类神经元的激活函数通常(但不总是)以sigmoid函数表示。
“深度学习”(DL)(也称为深度结构化学习、分层学习或深度机器学习)是对包含多个神经元隐藏层的人工神经网络的研究。这样的神经网络被称为“深度神经网络”。“卷积神经网络”是一种连接模式受到动物视觉皮层组织启发的神经网络。
“主成分分析”(PCA)是一种统计程序,它使用正交变换将一组变量的观测值转换为一组称为主成分的线性不相关变量值。变换的定义方式是,第一个主成分具有最大的可能方差,而每个后续成分在与前面的成分正交的约束下依次具有可能的最大方差。
“生成式对抗网络”(GAN)是以对抗方式进行训练以生成模仿某种分布的数据的神经网络。判别模型是区分两个(或更多个)不同类别数据的模型,例如卷积神经网络,它被训练为在给定人脸图像的情况下输出1,否则输出0。相比之下,生成模型会生成适合训练数据分布的新数据。GAN在本领域是众所周知的,正如例如在(2)Goodfellow et.al.,“Generative Adversarial Networks”,arXiv:1406.2661v1,2014中所述的那样。
“自动编码器”是神经网络架构,通常用于高效编码的无监督学习。自动编码器学习一组数据的表示(编码),通常用于降维。“对抗性自动编码器”(AAE)是使用生成式对抗网络(GAN),通过将自动编码器的隐藏代码向量的聚合后验与任意先验分布相匹配来执行变分推断的自动编码器。AAE在本领域是众所周知的,正如例如在Makhzani et.al.,“Adversarial Autoencoders”,arXiv:1511.05644v2,2015中所述的那样。AAE在新分子(例如药物)开发中的应用也是本领域众所周知的,正如例如在Kadurin,et.al.,“Thecornucopia of meaningful leads:Applying deep adversarial autoencoders for newmolecule development in oncology”,Oncotarget,2017,Vol.8,(No.7),pp:10883-10890中所述的那样。
特征重要性是一种统计方法,用于评估输入特征对输出目标预测的重要性。主要特征重要性方法包括但不限于称为排列特征重要性(PFI)的基于集成的包装器方法。首先,在特征集上训练模型,然后随机打乱目标的特征向量,并用于训练相同的模型。然后比较随机打乱模型前后的分数,并为目标向量分配相对重要性分数。
深度特征选择(DFS)是2016年Wasserman et al.(Deep Feature Selection:Theory and Application to Identify Enhancers and Promoters.(Li Y1,Chen CY,Wasserman WW,J Comput Biol.2016May;23(5):322-36.doi:10.1089/cmb.2015.0189.Epub 2016Jan 22)提出的一种方法。该方法是基于深度神经网络,可以在神经网络的输入层选择特征。
支持向量机是判别分类器,其中给定标记的训练数据算法输出最佳超平面,对新数据点/实例进行分类。
本文和/或2017年7月25日提交的临时申请62/536,658和/或2017年8月17日提交的临时申请62/547,061中引用的所有参考文献通过具体引用整体并入本文中。
参考文献
Buzdin,et.al.,US 2017/0073735
Goodfellow et.al.,“Generative Adversarial Networks”,arXiv:1406.2661v1,2014.
Makhzani et.al.,“Adversarial Autoencoders”,arXiv:1511.05644v2,2015.
Kadurin,et.al.,“The cornucopia of meaningful leads:Applying deepadversarial autoencoders for new molecule development in oncology”,Oncotarget,2017,Vol.8,(No.7),pp:10883-10890.
Seim et.al.,“Gene expression signatures of human cell and tissuelongevity”,npj Aging and Mechanisms of Disease,2,16014(2016).
Ozerov,US 62/401789,filed Sept 2016.
Aliper et.al.,“Deep learning applications for predictingpharmacological properties of drugs and drug repurposing using transcriptomicdata”,Mol Pharm,2016July 5;13(7):2524–2530.
Mamoshina et.al.,“Applications of Deep Learning in Biomedicine”,MolPharm,2016March 13(5),
Ozerov et.al.,“In silico Pathway Activation Network DecompositionAnalysis(iPANDA)as a method for biomarker development”,Nature Communications,7:13427,2016.
Munoz-Espin,D.,&Serrano,M.(2014).Cellular senescence:from physiologyto pathology.Nature reviews Molecular cell biology,15(7),482-496.
Acosta,Juan Carlos,Ana Banito,Torsten Wuestefeld,Athena Georgilis,Peggy Janich,Jennifer P.Morton,Dimitris Athineos,et al.2013.“A ComplexSecretory Program Orchestrated by the Inflammasome Controls ParacrineSenescence.”Nature Cell Biology 15(8):978–90.
Baar,Marjolein P.,Renata M.C.Brandt,Diana A.Putavet,Julian D.D.Klein,Kasper W.J.Derks,Benjamin R.M.Bourgeois,Sarah Stryeck,et al.2017.“TargetedApoptosis of Senescent Cells Restores Tissue Homeostasis in Response toChemotoxicity and Aging.”Cell 169(1):132–47.e16.
Baker,Darren J.,Robbyn L.Weaver,and Jan M.van Deursen.2013.“p21 BothAttenuates and Drives Senescence and Aging in BubR1 Progeroid Mice.”CellReports 3(4):1164–74.
Campisi,Judith.2005.“Senescent Cells,Tumor Suppression,and OrganismalAging:Good Citizens,Bad Neighbors.”Cell 120(4):513–22.
Campisi J.Cellular senescence:putting the paradoxes inperspective.Current opinion in genetics&development.2011;21(1):107-112.doi:10.1016/j.gde.2010.10.005.
Campisi J.Aging,Cellular Senescence,and Cancer.Annual review ofphysiology.2013;75:685-705.doi:10.1146/annurev-physiol-030212-183653.Campisi,Judith,and Fabrizio d’Adda di Fagagna.2007.“Cellular Senescence:When BadThings Happen to Good Cells.”Nature Reviews.Molecular Cell Biology 8(9):729–40.
Chilosi,Marco,Angelo Carloni,Andrea Rossi,and Venerino Poletti.2013.“Premature Lung Aging and Cellular Senescence in the Pathogenesis ofIdiopathic Pulmonary Fibrosis and COPD/emphysema.”Translational Research:TheJournal of Laboratory and Clinical Medicine 162(3):156–73.
Chilosi,Marco,Alberto Zamò,Claudio Doglioni,Daniela Reghellin,Maurizio Lestani,Licia Montagna,Serena Pedron,et al.2006.“Migratory MarkerExpression in Fibroblast Foci of Idiopathic Pulmonary Fibrosis.”RespiratoryResearch 7(1).doi:10.1186/1465-9921-7-95.
Coppé,Jean-Philippe,Christopher K.Patil,Francis Rodier,Yu Sun,DeniseP.
Figure BDA0003463488580000611
Joshua Goldstein,Peter S.Nelson,Pierre-Yves Desprez,and JudithCampisi.2008.“Senescence-Associated Secretory Phenotypes Reveal Cell-Nonautonomous Functions of Oncogenic RAS and the p53 Tumor Suppressor.”PLoSBiology 6(12):2853–68.
De Cecco M,Criscione SW,Peckham EJ,et al.Genomes of replicativelysenescent cells undergo global epigenetic changes leading to gene silencingand activation of transposable elements.Aging cell.2013;12(2):247-256.doi:10.1111/acel.12047.
Demaria M,Ohtani N,Youssef SA,et al.An Essential Role for SenescentCells in Optimal Wound Healing through Secretion of PDGF-AA.Developmentalcell.2014;31(6):722-733.doi:10.1016/j.devcel.2014.11.012.
Deursen,Jan M.van.2014.“The Role of Senescent Cells in Ageing.”Nature509(7501):439–46.
DiLoreto,R.,and C.T.Murphy.2015.“The Cell Biology of Aging.”MolecularBiology of the Cell 26(25):4524–31.
Freund,Adam,Arturo V.Orjalo,Pierre-Yves Desprez,and JudithCampisi.2010.“Inflammatory Networks during Cellular Senescence:Causes andConsequences.”Trends in Molecular Medicine 16(5):238–46.
Vestbo,J.et al.Global strategy for the diagnosis,management,andprevention of chronic obstructive pulmonary disease:GOLD executivesummary.Am.J.Respir.Crit.Care Med.187,347–365(2013).
Hernandez Gea,Virginia,and Scott L.Friedman.2011.“Pathogenesis ofLiver Fibrosis.”Annual Review of Pathology:Mechanisms of Disease 6(1):425–56.
Ivanov,Andre,Jeff Pawlikowski,Indrani Manoharan,John van Tuyn,DavidM.Nelson,Taranjit Singh Rai,Parisha P.Shah,et al.2013.“Lysosome-MediatedProcessing of Chromatin in Senescence.”The Journal of Cell Biology 202(1):129–43.
Jun,Joon-Il,and Lester F.Lau.2010.“The Matricellular Protein CCN1Induces Fibroblast Senescence and Restricts Fibrosis in Cutaneous WoundHealing.”Nature Cell Biology 12(7):676–85.
Kim,William Y.,and Norman E.Sharpless.2006.“The Regulation of INK4/ARF in Cancer and Aging.”Cell 127(2):265–75.
Krimpenfort,Paul,and Anton Berns.2017.“Rejuvenation by TherapeuticElimination of Senescent Cells.”Cell 169(1):3–5.
Krishnamurthy,Janakiraman,Matthew R.Ramsey,Keith L.Ligon,ChadTorrice,Angela Koh,Susan Bonner-Weir,and Norman E.Sharpless.2006.“p16INK4aInduces an Age-Dependent Decline in Islet Regenerative Potential.”Nature 443(7110):453–57.
Krizhanovsky,Valery,Monica Yon,Ross A.Dickins,Stephen Hearn,JanelleSimon,Cornelius Miething,Herman Yee,Lars Zender,and Scott W.Lowe.2008.“Senescence of Activated Stellate Cells Limits Liver Fibrosis.”Cell 134(4):657–67.
Kuwano,K.,R.Kunitake,M.Kawasaki,Y.Nomoto,N.Hagimoto,Y.Nakanishi,andN.Hara.1996.“P21Waf1/Cip1/Sdi1 and p53 Expression in Association with DNAStrand Breaks in Idiopathic Pulmonary Fibrosis.”American Journal ofRespiratory and Critical Care Medicine 154(2 Pt 1):477–83.
Laberge,Remi-Martin,Pierre Awad,Judith Campisi,and Pierre-YvesDesprez.2012.“Epithelial-Mesenchymal Transition Induced by SenescentFibroblasts.”Cancer Microenvironment:Official Journal of the InternationalCancer Microenvironment Society 5(1):39–44.
Lomas,Nicola J.,Keira L.Watts,Khondoker M.Akram,Nicholas R.Forsyth,and Monica A.Spiteri.2012.“Idiopathic Pulmonary Fibrosis:ImmunohistochemicalAnalysis Provides Fresh Insights into Lung Tissue Remodelling withImplications for Novel Prognostic Markers.”International Journal of Clinicaland Experimental Pathology 5(1):58–71.
Malavolta,Marco,Elisa Pierpaoli,Robertina Giacconi,Laura Costarelli,Francesco Piacenza,Andrea Basso,Maurizio Cardelli,and Mauro Provinciali.2016.“Pleiotropic Effects of Tocotrienols and Quercetin on Cellular Senescence:Introducing the Perspective of
Senolytic Effects of Phytochemicals.”Current Drug Targets 17(4):447–59.
Mallette,Frédérick A.,and Gerardo Ferbeyre.2007.“The DNA DamageSignaling Pathway Connects Oncogenic Stress to Cellular Senescence.”CellCycle 6(15):1831–36.
Minagawa,S.,J.Araya,T.Numata,S.Nojiri,H.Hara,Y.Yumino,M.Kawaishi,etal.2010.“Accelerated Epithelial Cell Senescence in IPF and the InhibitoryRole of SIRT6 in TGF--Induced Senescence of Human Bronchial EpithelialCells.”AJP:Lung Cellular and Molecular Physiology 300(3):L391–401.
Figure BDA0003463488580000631
Daniel,Marta
Figure BDA0003463488580000632
Antonio Maraver,Gonzalo Gómez-López,Julio Contreras,Silvia Murillo-Cuesta,Alfonso Rodríguez-Baeza,et al.2013.“Programmed Cell Senescence during Mammalian Embryonic Development.”Cell 155(5):1104–18.
Polina Mamoshina,Kirill Kochetov,Evgeny Putin,Franco Cortese,Alexander Aliper,Won-Suk Lee,Sung-Min Ahn,Lee Uhn,Neil Skjodt,Olga Kovalchuk,Morten Scheibye-Knudsen,Alex Zhavoronkov;Population Specific Biomarkers ofHuman Aging:A Big Data Study Using South Korean,Canadian,and Eastern EuropeanPatient Populations,The Journals of Gerontology:Series A,,gly005,doi.org/10.1093/gerona/gly005
Nelson,Glyn,James Wordsworth,Chunfang Wang,Diana Jurk,Conor Lawless,Carmen Martin-Ruiz,and Thomas von Zglinicki.2012.“A Senescent Cell BystanderEffect:Senescence-Induced Senescence.”Aging Cell 11(2):345–49.
Nikolich-Zugich,Janko.2008.“Ageing and Life-Long Maintenance of T-Cell Subsets in the Face of Latent Persistent Infections.”NatureReviews.Immunology 8(7):512–22.
Noble,Paul W.,Carlo Albera,Williamson Z.Bradford,Ulrich Costabel,Marilyn K.Glassberg,David Kardatzke,Talmadge E.King Jr,et al.2011.“Pirfenidone in Patients with Idiopathic Pulmonary Fibrosis(CAPACITY):TwoRandomised Trials.”The Lancet 377(9779):1760–69.
Ohtani,Naoko,Kimi Yamakoshi,Akiko Takahashi,and Eiji Hara.2004.“Thep16INK4a-RB Pathway:Molecular Link between Cellular Senescence and TumorSuppression.”The Journal of Medical Investigation:JMI 51(3,4):146–53.
Ozerov,Ivan V.,Ksenia V.Lezhnina,Evgeny Izumchenko,Artem V.Artemov,Sergey Medintsev,Quentin Vanhaelen,Alexander Aliper,et al.2016.“In SilicoPathway Activation Network Decomposition Analysis(iPANDA)as a Method forBiomarker Development.”Nature Communications 7(November):13427.
Parrinello,Simona,Jean-Philippe Coppe,Ana Krtolica,and JudithCampisi.2005.“Stromal-Epithelial Interactions in Aging and Cancer:SenescentFibroblasts Alter Epithelial Cell Differentiation.”Journal of Cell Science118(Pt 3):485–96.
Seki,Ekihiro,and David A.Brenner.2015.“Recent Advancement ofMolecular Mechanisms of Liver Fibrosis.”Journal of Hepato-Biliary-PancreaticSciences 22(7):512–18.
Seki,Ekihiro,and Robert F.Schwabe.2015.“Hepatic Inflammation andFibrosis:Functional Links and Key Pathways.”Hepatology 61(3):1066–79.
Storer,Mekayla,Alba Mas,Alexandre Robert-Moreno,Matteo Pecoraro,M.Carmen Ortells,Valeria Di Giacomo,Reut Yosef,et al.2013.“Senescence Is aDevelopmental Mechanism That Contributes to Embryonic Growth and Patterning.”Cell 155(5):1119–30.
Takeuchi,Shinji,Akiko Takahashi,Noriko Motoi,Shin Yoshimoto,TomokoTajima,Kimi Yamakoshi,Atsushi Hirao,et al.2010.“Intrinsic Cooperation betweenp16INK4a and p21Waf1/Cip1 in the Onset of Cellular Senescence and TumorSuppression in Vivo.”Cancer Research 70(22):9381–90.
Wang,Jianrong,Glenn J.Geesman,Sirkka Liisa Hostikka,Michelle Atallah,Benjamin Blackwell,Elbert Lee,Peter J.Cook,et al.2011.“Inhibition ofActivated Pericentromeric SINE/Alu Repeat Transcription in Senescent HumanAdult Stem Cells Reinstates Self-Renewal.”Cell Cycle 10(17):3016–30.
Li,Yifeng,Chih-Yu Chen,and Wyeth W.Wasserman."Deep feature selection:Theory and application to identify enhancers and promoters."InternationalConference on Research in Computational Molecular Biology.SpringerInternational Publishing,2015.
Yacoub,Meziane,and Y.Bennani."HVS:A heuristic for variable selectionin multilayer artificial neural network classifier."Intelligent EngineeringSystems Through Artificial Neural Networks,St.Louis,Missouri.Vol.7.1997.
Dorizzi,B.,et al."Variable selection using generalized RBF networks:Application to the forecast of the French T-bonds."CESA'96 IMACSMulticonference:computational engineering in systems applications.1996.
Refenes,A.P.N.,A.D.Zapranis,and J.Utans."Neural model identificationvariable selection and model adequacy."Decision Technologies for FinancialEngineering,Proceedings of NNCM 96.1998.
Ruck,Dennis W.,Steven K.Rogers,and Matthew Kabrisky."Featureselection using a multilayer perceptron."Journal of Neural Network Computing2.2(1990):40-48.
Czernichow,Thomas."Architecture selection through statisticalsensitivity analysis."International Conference on Artificial NeuralNetworks.Springer Berlin Heidelberg,1996.
Lehmann,G.,Muradian,K.K.,&Fraifeld,V.E.(2013).Telomere length andbody temperature—independent determinants of mammalian longevity?.Frontiersin genetics,4.
Wolters,S.,&Schumacher,B.(2013).Genome maintenance and transcriptionintegrity in aging and disease.Frontiers in genetics,4.
Horvath,S.,Zhang,Y.,Langfelder,P.,Kahn,R.S.,Boks,M.P.,van Eijk,K.,.&Ophoff,R.A.(2012).Aging effects on DNA methylation modules in human brain andblood tissue.Genome Biol,13(10),R97.
Horvath,S.(2013).DNA methylation age of human tissues and celltypes.Genome biology,14(10),R115.
Mendelsohn,A.R.,&Larrick,J.W.(2013).The DNA Methylome as a biomarkerfor epigenetic instability and human aging.Rejuvenation research,16(1),74-77.
Chowers,I.,Liu,D.,Farkas,R.H.,Gunatilaka,T.L.,Hackam,A.S.,Bernstein,S.L.,...&Zack,D.J.(2003).Gene expression variation in the adult humanretina.Human molecular genetics,12(22),2881-2893.
Weindruch,R.,Kayo,T.,Lee,C.K.,&Prolla,T.A.(2002).Gene expressionprofiling of aging using DNA microarrays.Mechanisms of ageing anddevelopment,123(2),177-193.
Park,S.K.,Kim,K.,Page,G.P.,Allison,D.B.,Weindruch,R.,&Prolla,T.A.(2009).Gene expression profiling of aging in multiple mouse strains:identification of aging biomarkers andimpact of dietary antioxidants.Agingcell,8(4),484-495.
Zahn,J.M.,Poosala,S.,Owen,A.B.,Ingram,D.K.,Lustig,A.,Carter,A.,&Becker,K.G.(2007).AGEMAP:a gene expression database for aging in mice.PLoSgenetics,3(11),e201.
Blalock,E.M.,Chen,K.C.,Sharrow,K.,Herman,J.P.,Porter,N.M.,Foster,T.C.,&Landfield,P.W.(2003).Gene microarrays in hippocampal aging:statisticalprofiling identifies novel processes correlated with cognitive impairment.TheJournal of neuroscience,23(9),3807-3819.
Welle,S.,Brooks,A.I.,Delehanty,J.M.,Needler,N.,&Thornton,C.A.(2003).Gene expression profile of aging in human muscle.Physiological genomics,14(2),149-159.
Park,S.K.,&Prolla,T.A.(2005).Gene expression profiling studies ofaging in cardiac and skeletal muscles.Cardiovascular research,66(2),205-212.
Hong,M.G.,Myers,A.J.,Magnusson,P.K.,&Prince,J.A.(2008).Transcriptome-wide assessment of human brain and lymphocyte senescence.PLoS One,3(8),e3024.
de
Figure BDA0003463488580000661
J.P.,Curado,J.,&Church,G.M.(2009).Meta-analysis of age-related gene expression profiles identifies common signatures ofaging.Bioinformatics,25(7),875-881.
Zhavoronkov,A.,&Cantor,C.R.(2011).Methods for structuring scientificknowledge from many areas related to aging research.PloS one,6(7),e22597.
Trindade,L.S.,Aigaki,T.,Peixoto,A.A.,Balduino,A.,da Cruz,I.B.M.,&Heddle,J.G.(2013).A novel classification system for evolutionary agingtheories.Frontiers in genetics,4.
Putin,E.et al.(2016)Deep biomarkers of human aging:Application ofdeep neural networks to biomarker development.Aging 8(5):1021-1033.
Lavecchia,A.and Cerchia,C.(2016)In silico methods to addresspolypharmacology:current status,applications and future perspectives.DrugDiscov.Today 21(2):288-298.
Oquab,M.et al.(2014)Learning and Transferring Mid-level ImageRepresentations Using Convolutional Neural Networks.2014 IEEE Conference onComputer Vision and Pattern Recognition[Internet].IEEE.1717-24.doi:10.1109/CVPR.2014.222.
Ma,J.et al.(2015)Deep Neural Nets as a Method for QuantitativeStructure-Activity Relationships.J Chem Inf Model.55(2):263-74.
Wang,C.et al.(2014)Pairwise Input Neural Network for Target-LigandInteraction Prediction.Bioinformatics and Biomedicine(BIBM),2014 IEEEInternational Conference.67-70.
Xu,Y.et al.(2015)Deep Learning for Drug-Induced LiverInjury.J.Chem.Inf.Model.55(10):2085-2093.doi:10.1021/acs.jcim.5b00238
Hughes,T.B.et al.(2015)Modeling Epoxidation of Drug-like Moleculeswith a Deep Machine Learning Network.ACS Cent Sci.1(4):168-80.doi:abs/10.1021/acscentsci.5b00131
Mayr,A.et al.(2016)DeepTox:Toxicity Prediction using DeepLearning.Frontiers in Environmental Science.doi:10.3389/fenvs.2015.00080
Aliper,Alexander,Aleksey V.Belikov,Andrew Garazha,Leslie Jellen,ArtemArtemov,Maria Suntsova,Alena Ivanova,et al.2016.“In Search forGeroprotectors:In Silico Screening and in Vitro Validation of Signalome-LevelMimetics of Young Healthy State.”Aging 8(9):2127–52.
Aliper,Alexander M.,Antonei Benjamin Csoka,Anton Buzdin,Tomasz Jetka,Sergey Roumiantsev,Alexey Moskalev,and Alex Zhavoronkov.2015.“SignalingPathway Activation Drift during Aging:Hutchinson-Gilford Progeria SyndromeFibroblasts Are Comparable to Normal Middle-Age and Old-Age Cells.”Aging 7(1).Impact Journals,LLC:26.
Ansari,Habib R.,Ahmed Nadeem,M.A.Hassan Talukder,Shilpa Sakhalkar,andS.Jamal Mustafa.2007.“Evidence for the Involvement of Nitric Oxide in A2BReceptor-Mediated Vasorelaxation of Mouse Aorta.”American Journal ofPhysiology.Heart and Circulatory Physiology 292(1):H719–25.
Astarita,Giuseppe,Kwang-Mook Jung,Vitaly Vasilevko,NicholasV.Dipatrizio,Sarah K.Martin,David H.Cribbs,Elizabeth Head,Carl W.Cotman,andDaniele Piomelli.2011.“Elevated Stearoyl-CoA Desaturase in Brains of Patientswith Alzheimer’s Disease.”PloS One 6(10):e24777.
Campbell L,Saville CR,Murray PJ,Cruickshank SM,Hardman MJ.LocalArginase 1Activity Is Required for Cutaneous Wound Healing.The Journal ofInvestigative Dermatology.2013;133(10):2461-2470.doi:10.1038/jid.2013.164.
Cole JJ,Robertson NA,Rather MI,et al.Diverse interventions thatextend mouse lifespan suppress shared age-associated epigenetic changes atcritical gene regulatory regions.Genome Biology.2017;18:58.doi:10.1186/s13059-017-1185-3.
Colegio,Oscar R.,Ngoc-Quynh Chu,Alison L.Szabo,Thach Chu,Anne MarieRhebergen,Vikram Jairam,Nika Cyrus,et al.2014.“Functional Polarization ofTumour-Associated Macrophages by Tumour-Derived Lactic Acid.”Nature 513(7519):559–63.
Deignan,Joshua L.,Justin C.Livesay,Paul K.Yoo,Stephen I.Goodman,William E.O’Brien,Ramaswamy K.Iyer,Stephen D.Cederbaum,and WayneW.Grody.2006.“Ornithine Deficiency in the Arginase Double Knockout Mouse.”Molecular Genetics and Metabolism 89(1-2):87–96.
Douarre,Céline,Carole Sourbier,Ilaria Dalla Rosa,Benu Brata Das,Christophe E.Redon,Hongliang Zhang,Len Neckers,and Yves Pommier.2012.“Mitochondrial Topoisomerase I Is Critical for Mitochondrial Integrity andCellular Energy Metabolism.”PloS One 7(7).Public Library of Science.doi:10.1371/journal.pone.0041094.
Gosule,L.C.,and J.A.Schellman.1976.“Compact Form of DNA Induced bySpermidine.”Nature 259(5541):333–35.
Khiati,Salim,Simone A.Baechler,Valentina M.Factor,Hongliang Zhang,Shar-Yin N.Huang,Ilaria Dalla Rosa,Carole Sourbier,Leonard Neckers,SnorriS.Thorgeirsson,and Yves Pommier.2015.“Lack of Mitochondrial Topoisomerase I(TOP1mt)Impairs Liver Regeneration.”Proceedings of the National Academy ofSciences of the United States of America 112(36):11282–87.
Kunduri,S.S.,S.J.Mustafa,D.S.Ponnoth,G.M.Dick,and M.A.Nayeem.2013.“Adenosine A1 Receptors Link to Smooth Muscle Contraction via CYP4a,PKC-α,andERK1/2.”Journal of Cardiovascular Pharmacology 62(1).NIH Public Access:78.
Madauss,Kevin P.,William A.Burkhart,Thomas G.Consler,David J.Cowan,William K.Gottschalk,Aaron B.Miller,Steven A.Short,Thuy B.Tran,and ShawnP.Williams.2009.“The Human ACC2 CT-Domain C-Terminus Is Required for FullFunctionality and Has a Novel Twist.”Acta Crystallographica.Section D,Biological Crystallography 65(5):449–61.
Maesaka,John K.,Bali Sodam,Thomas Palaia,Louis Ragolia,VecihiBatuman,Nobuyuki Miyawaki,Shubha Shastry,Steven Youmans,and Marwan El-Sabban.2013.“Prostaglandin D2 Synthase:Apoptotic Factor in Alzheimer Plasma,Inducer of Reactive Oxygen Species,Inflammatory Cytokines and DialysisDementia.”Journal of Nephropathology 2(3):166–80.
Figure BDA0003463488580000691
Pedro de,
Figure BDA0003463488580000692
Curado,and George M.Church.2009.“Meta-Analysis of Age-Related Gene Expression Profiles Identifies Common Signaturesof Aging.”Bioinformatics 25(7):875–81.
Mak,Isabella Wy,Nathan Evaniew,and Michelle Ghert.2014.“Lost inTranslation:Animal Models and Clinical Trials in Cancer Treatment.”AmericanJournal of Translational Research 6(2):114–18.
Ma,Yina,and Ji Li.2015.“Metabolic Shifts during Aging and Pathology.”Comprehensive Physiology 5(2):667–86.
McKinnon,Peter J.2016.“Topoisomerases and the Regulation of NeuralFunction.”Nature Reviews.Neuroscience 17(11):673–79.
Moskalev A,Et al.2017.“Geroprotectors.org:A New,Structured andCurated Database of Current Therapeutic Interventions in Aging and Age-Related Disease.-PubMed-NCBI.”Accessed March 17.ncbi.nlm.nih.gov/pubmed/26342919.
Nozaki,Hiroaki,Taisuke Kato,Megumi Nihonmatsu,Yohei Saito,IkukoMizuta,Tomoko Noda,Ryoko Koike,et al.2016.“Distinct Molecular Mechanisms ofHTRA1 Mutants in Manifesting Heterozygotes with CARASIL.”Neurology 86(21):1964–74.
Ogneva,Irina V.,Nikolay S.Biryukov,Toomas A.Leinsoo,and IrinaM.Larina.2014.“Possible Role of Non-Muscle Alpha-Actinins in Muscle CellMechanosensitivity.”PloS One 9(4).Public Library of Science:e96395.
Petkovich DA,Podolskiy DI,Lobanov AV,Lee S-G,Miller RA,GladyshevVN.Using DNA methylation profiling to evaluate biological age and longevityinterventions.Cell metabolism.2017;25(4):954-960.e6.doi:10.1016/j.cmet.2017.03.016.
Phillips,Catherine M.,Louisa Goumidi,Sandrine Bertrais,MartynR.Field,L.Adrienne Cupples,Jose M.Ordovas,Jolene McMonagle,et al.2010.“ACC2Gene Polymorphisms,Metabolic Syndrome,and Gene-Nutrient Interactions withDietary Fat.”Journal of Lipid Research 51(12):3500–3507.
Pinto,Elisabete.2007.“Blood Pressure and Ageing.”Postgraduate MedicalJournal 83(976).BMJ Group:109.
Pledgie,Allison,Yi Huang,Amy Hacker,Zhe Zhang,Patrick M.Woster,NancyE.Davidson,and Robert A.Casero Jr.2005.“Spermine Oxidase SMO(PAOh1),Not N1-Acetylpolyamine Oxidase PAO,Is the Primary Source of Cytotoxic H2O2 inPolyamine Analogue-Treated Human Breast Cancer Cell Lines.”The Journal ofBiological Chemistry 280(48):39843–51.
Qian,Hao,Na Luo,and Yuling Chi.2012.“Aging-Shifted ProstaglandinProfile inEndothelium as a Factor in Cardiovascular Disorders.”Journal ofAging Research 2012(February).Hindawi Publishing Corporation.doi:10.1155/2012/121390.
Savolainen,Kalle,Tiina J.Kotti,Werner Schmitz,Teuvo I.Savolainen,Raija T.Sormunen,Mika Ilves,Seppo J.Vainio,Ernst Conzelmann,and J.KalervoHiltunen.2004.“A Mouse Model for Alpha-Methylacyl-CoA Racemase Deficiency:Adjustment of Bile Acid Synthesis and Intolerance to Dietary Methyl-BranchedLipids.”Human Molecular Genetics 13(9):955–65.
Figure BDA0003463488580000701
Eija M.,Remya R.Nair,Werner Schmitz,Ari-Pekka Kvist,MyriamBaes,J.Kalervo Hiltunen,and Kaija J.Autio.2015.“Phytol Is Lethal for Amacr-Deficient Mice.”Biochimica et Biophysica Acta 1851(10):1394–1405.
Sergio Solórzano-Vargas,R.,Diana Pacheco-Alvarez,and Alfonso León-Del-Río.2002.“Holocarboxylase Synthetase Is an Obligate Participant inBiotin-Mediated Regulation of Its Own Expression and of Biotin-DependentCarboxylases mRNA Levels in Human Cells.”Proceedings of the National Academyof Sciences of the United States of America 99(8).National Academy ofSciences:5325–30.
Suzuki,Yoichi,Xue Yang,Yoko Aoki,Shigeo Kure,and YoichiMatsubara.2005.“Mutations in the Holocarboxylase Synthetase Gene HLCS.”HumanMutation 26(4):285–90.
Tang,Eva H.C.,and Paul M.Vanhoutte.2008.“Gene Expression Changes ofProstanoid Synthases in Endothelial Cells and Prostanoid Receptors inVascular Smooth Muscle Cells Caused by Aging and Hypertension.”PhysiologicalGenomics 32(3):409–18.
Thomas,Inas,and Brigid Gregg.2017.“Metformin;a Review of Its Historyand Future:From Lilac to Longevity.”Pediatric Diabetes 18(1):10–16.
Thomas,T.,and T.J.Thomas.2017.“Polyamine Metabolism and Cancer.-PubMed-NCBI.”Accessed April 11.ncbi.nlm.nih.gov/pubmed/12927050.
Tong,Liang.2013.“Structure and Function of Biotin-DependentCarboxylases.”Cellular and Molecular Life Sciences:CMLS 70(5).NIH PublicAccess:863.
Unno,Keiko,Tomokazu Konishi,Aimi Nakagawa,Yoshie Narita,FumiyoTakabayashi,Hitomi Okamura,Ayane Hara,et al.2015.“Cognitive Dysfunction andAmyloidβAccumulation Are Ameliorated by the Ingestion of Green SoybeanExtract in Aged Mice.”Journal of Functional Foods 14:345–53.
Verdura E,Et al.2017.“Heterozygous HTRA1 Mutations Are Associatedwith Autosomal Dominant Cerebral Small Vessel Disease.-PubMed-NCBI.”AccessedApril 11.ncbi.nlm.nih.gov/pubmed/26063658.
Weller J,Et al.2017.“Age-Related Decrease of Adenosine-MediatedRelaxation in Rat Detrusor Is a Result of A2B Receptor Downregulation.-PubMed-NCBI.”Accessed April 17.ncbi.nlm.nih.gov/pubmed/25728851.
Zhang,Yongyou,Amar Desai,Sung Yeun Yang,Ki Beom Bae,Monika I.Antczak,Stephen P.Fink,Shruti Tiwari,et al.2015.“TISSUE REGENERATION.Inhibition ofthe Prostaglandin-Degrading Enzyme 15-PGDH Potentiates Tissue Regeneration.”Science 348(6240):aaa2340.
Seim,Inge,Siming Ma,and Vadim N.Gladyshev.2016.“Gene ExpressionSignatures of Human Cell and Tissue Longevity.”Npj Aging and Mechanisms ofDisease 2(1).doi:10.1038/npjamd.2016.14.

Claims (27)

1.一种为受试者创建生物性衰老时钟的方法,所述方法包括:
(a)接收来自受试者组织或器官的蛋白质组特征;
(b)根据蛋白质组特征创建输入向量;
(c)将输入向量输入机器学习平台;
(d)由机器学习平台根据输入向量生成组织或器官的预测生物性衰老时钟,其中所述生物性衰老时钟对所述组织或器官是特异性的;和
(e)编制报告,所述报告包括鉴定组织或器官的预测生物学年龄的生物性衰老时钟。
2.根据权利要求1所述的方法,进一步包括:
重复步骤(a)、(b)、(c)和/或(d)中的任何一个或多个步骤,创建至少第二生物性衰老时钟,其中第二生物性衰老时钟基于来自受试者组织或器官、受试者的不同组织或器官,或第二受试者的组织或器官的第二蛋白质组;和
任选地编制报告,所述报告包括鉴定受试者的组织或器官、受试者的不同组织或器官、或第二受试者的组织或器官的第二预测生物学年龄的第二生物性衰老时钟。
3.根据权利要求2所述的方法,进一步包括:
将生物性衰老时钟与第二生物性衰老时钟结合,创建合成生物性衰老时钟,其中合成生物性衰老时钟提供受试者的组织或器官的合成生物学年龄;和
任选地编制报告,所述报告包括鉴定受试者的组织或器官的合成生物学年龄的合成生物性衰老时钟。
4.根据权利要求3所述的方法,进一步包括以下一项或多项:
将组织或器官的预测生物学年龄与受试者的实际年龄进行比较;
将组织或器官的第二预测生物学年龄与受试者的实际年龄进行比较;
将组织或器官的合成生物学年龄与受试者的实际年龄进行比较,
其中所述方法进一步包括:
编制报告,比较结果及与受试者实际年龄的差异。
5.根据权利要求1所述的方法,其中所述报告包括以下一项或多项:
考虑受试者的实际年龄,基于预测的生物学年龄的治疗方案;
考虑受试者的实际年龄,基于预测的生物学年龄的饮食方案;
关于生活方式习惯的问卷;
接受和/或不接受治疗方案的预期寿命预测;
接受和/或不接受饮食方案的预期寿命预测;
治疗方案期间患者的生存概率预测;或
饮食方案期间患者的生存概率预测。
6.根据权利要求1所述的方法,其中所述组织或器官是:
患病的;
健康的;
确定为易患病的;
正在老化的;
老化前的;或
未老化的。
7.根据权利要求5所述的方法,其中所述治疗方案包括以下一项或多项:
对受试者施用老化修复药物治疗方案,以拯救受试者的一个或多个第一细胞;
对受试者施用抗老化药物治疗方案,以清除受试者的一个或多个第二细胞;
将干细胞引入受试者的组织和/或器官中,以使组织中的一种或多种组织细胞和/或器官中的一种或多种器官细胞恢复活力;
开展增强步骤,包括防止组织或器官进一步老化或退化的一种或多种措施;或
防止组织或器官进一步老化或退化的一种或多种措施来自对受试者组织或器官的计算蛋白质组分析。
8.根据权利要求7所述的方法,进一步包括:
使用蛋白质组学数据,开展特征重要性分析,根据基因或基因组在年龄预测中的重要性对其进行排序;
将基因表达水平与受试者的预测生物学年龄相关联;
将蛋白产生水平与受试者的预测生物学年龄相关联;
鉴定被选为治疗方案靶标的基因或基因组或其生物学通路的子集;或者
将生物信号通路特征与受试者的预测生物学年龄相关联。
9.根据权利要求1所述的方法,其中所述蛋白质组特征基于信号通路激活特征。
10.根据权利要求1所述的方法,在规定的时间段之后,
在第二迭代中执行步骤(a)、(b)、(c)、(d)和(e);和
将初始报告与第二迭代的报告进行比较;和
确定在限定时间段内预测的生物学年龄的变化。
11.根据权利要求1所述的方法,进一步包括:
在规定的时间段内执行治疗方案,
在第二迭代中执行步骤(a)、(b)、(c)、(d)和(e);和
将初始报告与第二迭代的报告进行比较;
确定在限定时间段内预测的生物学年龄的变化;和
确定:
治疗方案是否改变了预测的生物学年龄,
如果治疗方案改变了预测的生物学年龄,则确定是否:继续治疗方案、改变治疗方案或停止治疗方案,或
如果治疗方案并未改变预测的生物学年龄,则确定是否:继续治疗方案、改变治疗方案或停止治疗方案。
12.根据权利要求1所述的方法,进一步包括执行以下一项或多项:
考虑受试者的实际年龄,基于预测的生物学年龄的治疗方案;或
考虑受试者的实际年龄,基于预测的生物学年龄的饮食方案。
13.根据权利要求1所述的方法,进一步包括执行以下一项或多项:
基于预测的生物学年龄的受试者的精算评估;
基于预测的生物学年龄的风险评估;
基于预测的生物学年龄的保险评估。
14.根据权利要求1所述的方法,进一步包括:
(f)接收来自基线的第二蛋白质组特征,第二蛋白质组来自受试者的第二器官或组织或来自第二受试者,所述器官或组织与第二器官或组织相同或不同;和
计算(a)的特征与(f)的特征之间的差值,以向机器学习平台提供输入向量,其中机器学习平台输出包括生物性衰老时钟分量的分类向量。
15.根据权利要求14所述的方法,其中至少一个蛋白质组特征基于计算机信号通路激活网络分解。
16.根据权利要求1所述的方法,进一步包括:
(a1)接收来自受试者组织或器官的转录组特征;
(b1)根据蛋白质组特征和转录组特征创建输入向量;
(c1)将基于蛋白质组特征和转录组特征的输入向量输入机器学习平台;
(d1)由机器学习平台根据输入向量生成组织或器官的预测生物性衰老时钟,其中所述生物性衰老时钟对所述组织或器官是特异性的;和
(e1)编制报告,所述报告包括鉴定组织或器官的预测生物学年龄的生物性衰老时钟。
17.根据权利要求1所述的方法,进一步包括通过以下步骤创建至少第二生物性衰老时钟:
(a2)接收来自受试者组织或器官的转录组特征;
(b2)根据转录组特征创建第二输入向量;
(c2)将基于转录组特征的第二输入向量输入机器学习平台;
(d2)由机器学习平台根据第二输入向量生成组织或器官的第二预测生物性衰老时钟,其中所述第二预测生物性衰老时钟对所述组织或器官是特异性的;和
(e2)编制所述报告或第二份报告,其包括鉴定组织或器官的第二预测生物学年龄的第二生物性衰老时钟。
18.根据权利要求17所述的方法,进一步包括:
将生物性衰老时钟与第二生物性衰老时钟结合,创建合成生物性衰老时钟,其中合成生物性衰老时钟提供受试者的组织或器官的合成生物学年龄;和
任选地编制报告,所述报告包括鉴定受试者的组织或器官的合成生物学年龄的合成生物性衰老时钟。
19.一种计算机程序产品,包括在其中储存有计算机可读程序代码的有形的非瞬态计算机可读介质,所述代码可由处理器执行,从而执行患者生物性衰老时钟的方法,所述方法包括:
(a)接收来自受试者组织或器官的蛋白质组特征;
(b)根据蛋白质组特征创建输入向量;
(c)将输入向量输入机器学习平台;
(d)由机器学习平台根据输入向量生成组织或器官的预测生物性衰老时钟,其中所述生物性衰老时钟对所述组织或器官是特异性的;和
(e)编制报告,所述报告包括鉴定组织或器官的预测生物学年龄的生物性衰老时钟。
20.根据权利要求19所述的计算机程序产品,所述方法进一步包括:
重复步骤(a)、(b)、(c)和/或(d)中的任何一个或多个步骤,创建至少第二生物性衰老时钟,其中第二生物性衰老时钟基于来自受试者组织或器官、受试者的不同组织或器官,或第二受试者的组织或器官的第二蛋白质组;和
任选地编制报告,所述报告包括鉴定受试者的组织或器官、受试者的不同组织或器官、或第二受试者的组织或器官的第二预测生物学年龄的第二生物性衰老时钟。
21.根据权利要求20所述的计算机程序产品,所述方法进一步包括:
将生物性衰老时钟与第二生物性衰老时钟结合,创建合成生物性衰老时钟,其中合成生物性衰老时钟提供受试者的组织或器官的合成生物学年龄;和
任选地编制报告,所述报告包括鉴定受试者的组织、器官的合成生物学年龄的合成生物性衰老时钟。
22.根据权利要求19所述的计算机程序产品,所述方法进一步包括:
将组织或器官的预测生物学年龄与受试者的实际年龄进行比较;
将组织或器官的第二预测生物学年龄与受试者的实际年龄进行比较;
将组织或器官的合成生物学年龄与受试者的实际年龄进行比较,
其中所述方法进一步包括:
编制报告,比较结果与受试者实际年龄的差异。
23.根据权利要求19所述的计算机程序产品,所述方法进一步包括:
开展特征重要性分析,根据基因或基因组在年龄预测中的重要性对其进行排序;或
将蛋白产生水平与受试者的预测生物学年龄相关联;
将基因表达水平与受试者的预测生物学年龄相关联;
鉴定被选为治疗方案靶标的基因或基因组或其生物学通路的子集;或者
将生物信号通路特征与受试者的预测生物学年龄相关联。
24.根据权利要求19所述的计算机程序产品,所述方法进一步包括:
在限定时间后,
在第二迭代中执行步骤(a)、(b)、(c)、(d)和(e);和
将初始报告与第二迭代的报告进行比较;和
确定在限定时间段内预测的生物学年龄的变化。
25.根据权利要求19所述的计算机程序产品,所述方法进一步包括:
(a1)接收来自受试者组织或器官的转录组特征;
(b1)根据蛋白质组特征和转录组特征创建输入向量;
(c1)将基于蛋白质组特征和转录组特征的输入向量输入机器学习平台;
(d1)由机器学习平台根据输入向量生成组织或器官的预测生物性衰老时钟,其中所述生物性衰老时钟对所述组织或器官是特异性的;和
(e1)编制报告,所述报告包括鉴定组织或器官的预测生物学年龄的生物性衰老时钟。
26.根据权利要求19所述的计算机程序产品,所述方法进一步包括通过以下步骤创建至少第二生物性衰老时钟:
(a2)接收来自受试者组织或器官的转录组特征;
(b2)根据转录组特征创建第二输入向量;
(c2)将基于转录组特征的第二输入向量输入机器学习平台;
(d2)由机器学习平台根据第二输入向量生成组织或器官的第二预测生物性衰老时钟,其中所述第二预测生物性衰老时钟对所述组织或器官是特异性的;和
(e2)编制第二报告,其包括鉴定组织或器官的预测生物学年龄的第二生物性衰老时钟。
27.根据权利要求26所述的计算机程序产品,所述方法进一步包括:
将生物性衰老时钟与第二生物性衰老时钟结合,创建合成生物性衰老时钟,其中合成生物性衰老时钟提供受试者的组织或器官的合成生物学年龄;和
任选地编制报告,其包括鉴定受试者的组织或器官的合成生物学年龄的合成生物性衰老时钟。
CN202080050332.4A 2019-05-17 2020-05-15 人类生物性衰老的深度蛋白质组标志物和确定生物性衰老时钟的方法 Pending CN114450750A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/415,855 2019-05-17
US16/415,855 US10665326B2 (en) 2017-07-25 2019-05-17 Deep proteome markers of human biological aging and methods of determining a biological aging clock
PCT/IB2020/054644 WO2020234729A1 (en) 2019-05-17 2020-05-15 Deep proteome markers of human biological aging and methods of determining a biological aging clock

Publications (1)

Publication Number Publication Date
CN114450750A true CN114450750A (zh) 2022-05-06

Family

ID=73458392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080050332.4A Pending CN114450750A (zh) 2019-05-17 2020-05-15 人类生物性衰老的深度蛋白质组标志物和确定生物性衰老时钟的方法

Country Status (3)

Country Link
EP (1) EP3970150A4 (zh)
CN (1) CN114450750A (zh)
WO (1) WO2020234729A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114913938A (zh) * 2022-05-27 2022-08-16 中南大学 一种基于药效团模型的小分子生成方法、设备及介质
CN115762641A (zh) * 2023-01-10 2023-03-07 天津极智基因科技有限公司 一种指纹图谱构建方法及系统
CN116110509A (zh) * 2022-11-15 2023-05-12 浙江大学 基于组学一致性预训练的药物敏感性预测方法和装置
CN116343945A (zh) * 2023-03-28 2023-06-27 电子科技大学 一种基于分子指纹和机器学习的抗糖尿病药物预测方法
CN117789828A (zh) * 2024-02-28 2024-03-29 四川大学华西医院 基于单细胞测序及深度学习技术的抗衰老靶点检测系统

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB202102948D0 (en) * 2021-03-02 2021-04-14 Benevolentai Tech Limited Evaluation framework for target identification in precision medicine
EP4341701A1 (en) * 2021-05-20 2024-03-27 Clara Foods Co. Systems and methods for algorithmically estimating protein concentrations
EP4310858A1 (en) * 2022-07-18 2024-01-24 Leibniz-lnstitut Für Altersforschung A method to predict lifespan and healthspan

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1450170A (zh) * 2002-04-05 2003-10-22 北京科宇联合干细胞生物技术有限公司 一种检测端粒酶活性的方法
US20190034581A1 (en) * 2017-07-25 2019-01-31 Insilico Medicine. Inc. Deep transcriptomic markers of human biological aging and methods of determining a biological aging clock
US20190030078A1 (en) * 2017-07-25 2019-01-31 Insilico Medicine, Inc. Multi-stage personalized longevity therapeutics
US20190272890A1 (en) * 2017-07-25 2019-09-05 Insilico Medicine, Inc. Deep proteome markers of human biological aging and methods of determining a biological aging clock

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014011735A1 (en) * 2012-07-10 2014-01-16 Gigagen, Inc. Methods and kits for integrating genomic sequences with immune monitoring
CN108290059A (zh) * 2015-10-07 2018-07-17 乔尔·胡伊赞加 重设生物途径以防御和修复来自人类老化的退化
EP3445782A4 (en) * 2016-04-20 2020-01-15 Aelan Cell Technologies, Inc. H1.0 DIMETHYLATED K180 PROTEIN COMPOSITIONS AND METHODS

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1450170A (zh) * 2002-04-05 2003-10-22 北京科宇联合干细胞生物技术有限公司 一种检测端粒酶活性的方法
US20190034581A1 (en) * 2017-07-25 2019-01-31 Insilico Medicine. Inc. Deep transcriptomic markers of human biological aging and methods of determining a biological aging clock
US20190030078A1 (en) * 2017-07-25 2019-01-31 Insilico Medicine, Inc. Multi-stage personalized longevity therapeutics
US20190272890A1 (en) * 2017-07-25 2019-09-05 Insilico Medicine, Inc. Deep proteome markers of human biological aging and methods of determining a biological aging clock

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PUTIN E, MAMOSHINA P, ALIPER A, ET AL.: "Deep biomarkers of human aging: application of deep neural networks to biomarker development", AGING (ALBANY NY), vol. 8, no. 5, 31 December 2016 (2016-12-31), pages 1021, XP055527328 *
王志辉: "健康成人唾液中三种衰老标记物增龄性变化的研究", 中国优秀硕士学位论文全文数据库 医药卫生科技辑, vol. 2015, no. 12, 31 December 2015 (2015-12-31), pages 059 - 40 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114913938A (zh) * 2022-05-27 2022-08-16 中南大学 一种基于药效团模型的小分子生成方法、设备及介质
CN116110509A (zh) * 2022-11-15 2023-05-12 浙江大学 基于组学一致性预训练的药物敏感性预测方法和装置
CN116110509B (zh) * 2022-11-15 2023-08-04 浙江大学 基于组学一致性预训练的药物敏感性预测方法和装置
CN115762641A (zh) * 2023-01-10 2023-03-07 天津极智基因科技有限公司 一种指纹图谱构建方法及系统
CN115762641B (zh) * 2023-01-10 2023-04-07 天津极智基因科技有限公司 一种指纹图谱构建方法及系统
CN116343945A (zh) * 2023-03-28 2023-06-27 电子科技大学 一种基于分子指纹和机器学习的抗糖尿病药物预测方法
CN116343945B (zh) * 2023-03-28 2024-05-14 电子科技大学 一种基于分子指纹和机器学习的抗糖尿病药物预测方法
CN117789828A (zh) * 2024-02-28 2024-03-29 四川大学华西医院 基于单细胞测序及深度学习技术的抗衰老靶点检测系统
CN117789828B (zh) * 2024-02-28 2024-04-30 四川大学华西医院 基于单细胞测序及深度学习技术的抗衰老靶点检测系统

Also Published As

Publication number Publication date
EP3970150A4 (en) 2022-07-06
WO2020234729A1 (en) 2020-11-26
EP3970150A1 (en) 2022-03-23

Similar Documents

Publication Publication Date Title
US10325673B2 (en) Deep transcriptomic markers of human biological aging and methods of determining a biological aging clock
US10665326B2 (en) Deep proteome markers of human biological aging and methods of determining a biological aging clock
US20220152116A1 (en) Multi-stage personalized longevity therapeutics
US20200286625A1 (en) Biological data signatures of aging and methods of determining a biological aging clock
CN114450750A (zh) 人类生物性衰老的深度蛋白质组标志物和确定生物性衰老时钟的方法
US20220005552A1 (en) Methylation data signatures of aging and methods of determining a methylation aging clock
WO2022058980A1 (en) Methylation data signatures of aging and methods of determining a methylation aging clock
CN115362506A (zh) 分子设计
Pyatnitskiy et al. Clustering gene expression regulators: new approach to disease subtyping
JP2022511243A (ja) 転写因子プロファイリング
JP2019527894A (ja) ダサチニブ反応予測モデルおよびその方法
US20220310196A1 (en) Synthetic biological characteristic generator based on real biological data signatures
JP2023511658A (ja) 敗血症を患う個体における重症疾患の予測及び対処
RU2741703C1 (ru) Платформа анализа генетической информации oncobox
JP2024509576A (ja) 明細胞腎細胞がんを有する患者における治療に対する応答の予測
Chen et al. Identification of diagnostic biomarks and immune cell infiltration in ulcerative colitis
US20240203555A1 (en) Methods and systems for therapy monitoring and trial design
WO2021240263A1 (en) Biological data signatures of aging and methods of determining a biological aging clock
Naftchali et al. A multi-layered incremental feature selection algorithm for adjuvant chemotherapy effectiveness/futileness assessment in non-small cell lung cancer
CN118077008A (zh) 用于心血管疾病的患者特异性治疗建议的系统和方法
WO2022271717A1 (en) Methods and systems for personalized therapies
Chen et al. APIR: Aggregating Universal Proteomics Database Search Algorithms for Peptide Identification with FDR Control
Wang et al. The theranostic value of acetylation gene signatures in obstructive sleep apnea derived by machine learning
Kalyakulina et al. Obtaining Longevity Footprints in DNA Methylation Data Using Different Machine Learning Approaches
US20240071616A1 (en) Systems and methods to improve therapeutic outcomes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination