CN116844686A - 通过人工智能筛选药物的方法 - Google Patents

通过人工智能筛选药物的方法 Download PDF

Info

Publication number
CN116844686A
CN116844686A CN202210292040.2A CN202210292040A CN116844686A CN 116844686 A CN116844686 A CN 116844686A CN 202210292040 A CN202210292040 A CN 202210292040A CN 116844686 A CN116844686 A CN 116844686A
Authority
CN
China
Prior art keywords
drug
screening
artificial intelligence
cell
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210292040.2A
Other languages
English (en)
Inventor
刘博翔
刘钟栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cell Ecology Haihe Laboratory
Tianjin Qianxun Zhiyao Technology Co ltd
Original Assignee
Cell Ecology Haihe Laboratory
Tianjin Qianxun Zhiyao Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cell Ecology Haihe Laboratory, Tianjin Qianxun Zhiyao Technology Co ltd filed Critical Cell Ecology Haihe Laboratory
Priority to CN202210292040.2A priority Critical patent/CN116844686A/zh
Publication of CN116844686A publication Critical patent/CN116844686A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medicinal Chemistry (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开一种通过人工智能筛选药物的方法。根据本发明的方法,基于靶标细胞健康状况或人体疾病的基因与药物作用之间的关系,通过人工智能方式研判,来筛选药物。本发明的方法包括如下步骤:观察体外或离体靶标细胞健康状况或解析疾病的基因表型或特征,通过人工智能筛选广谱药物作用,比中至少一种特效药物;经由人工智能算法加快对细微的细胞改变进行药物筛选和效果分析;以及采用人工智能方式研判重组药物或成分与靶标细胞系统为基础的人类健康状态之间的关系,以指导药物作用的靶点重新定位和标识。

Description

通过人工智能筛选药物的方法
技术领域
本发明涉及药物筛选方法,更具体涉及一种通过人工智能研判方式来筛选药物的方法。
背景技术
几十年来,也称为反向药理学的基于靶标的未来/未知药物发现(TDD)在医学研究和制药行业中广受欢迎。鉴于对药物靶标、分子途径和作用机制(MOA)的了解不断增加以及对应药物筛选生物测定的快速发展,与基于靶标不可知前向药理学1,2的传统表型药物发现(PDD)相比较,TDD在合理设计和系统方法方面表现出优势。
利用人工智能(AI)的现代PDD方法的尚未受到应用3,4。直至最近,由TDD主导的药业界未能有效应对COVID-19的持续流行5,6。由于生理/基因靶标缺乏一种廉价且快速的关系标识,因此仅仅依靠TDD就有效控制疾病几乎不太可能,所以TDD中耗时 (平均每种药物10年至15年)且成本效率低下(每种新药物研发飙升至近30亿美元) 是治疗疾病的瓶颈问题,在突发传染病流行的应急期间,问题更加严重。例如,免疫学家和医学科学家寻求与SARS-CoV-2病毒作斗争的策略,这些策略包括加快疫苗开发的新技术7-9、分离并设计用于免疫治疗的中和抗体10、以及对经重构抗病毒药物应用大规模表型筛选11,12。虽然上述三种策略都会让药物获得美国食品和药物管理局(FDA)的批准8-10,13,但对于抗病毒筛选,PDD显示出优于TDD的优势12
众所周知,中药产品几乎完全是靶标不可知:临床使用的草药和提取物缺乏明确的MOA。
这些事实揭示了靶标不可知药物在医药中会发挥作用以及揭示PDD对未来药物的创新探索方法论的需求必要性,尤其是为了更好地理解TCM并且将其与西医(WM) 结合以应对未知的全球健康危机。由于药物的靶标不可知,那么,将研究样本转为细胞或基因,希望另辟蹊径,精准开发药物。
发明内容
本申请厘清了未来药物探索中对重构以细胞/基因表型分析为中心的人与药物的关系,并且发明了以AI研判的高通量方式筛选药物或尚未知药物的方法(参见图1),更快速,准确,低费用治疗疾病。
本申请的第一方面是一种基于靶标细胞健康状况或人体疾病的基因与药物作用之间的关系,通过AI方式研判,筛选药物的方法,所述方法包括如下步骤:(1)观察体外或离体靶标细胞健康状况或解析疾病的基因表型或特征,通过AI筛选广谱药物作用,比中至少一种特效药物;(2)经由AI算法加快对细微的细胞改变进行药物筛选和效果分析;以及(3)采用AI方式研判重组药物或成分与靶标细胞系统为基础的人类健康状态之间的关系,以指导药物作用的靶点重新定位和标识。
在步骤(1)中,靶标细胞可以直接从健康人体或患者中,按需要分离。靶标细胞可以被已知疾病相关因子修饰以重现健康状况或疾病的表型或特征。然后,靶标细胞培养,并且进行处理用于测定。在无需了解这些细胞中的药物作用靶标/基因的情况下,对阳性药物物质的筛选可基于以表型为关键判据的范式,该范式寻求经过药物治疗的靶标细胞的表型改变。测定可以包括但不限于荧光标记和高通量高内涵显微术。在基于显微镜的表型测定的情况下,可以获取大于106个高内涵图像用于筛选小于104个不可知作用靶标但有效的未来药物。
在步骤(2)中,为了加快表型测定数据分析和筛选过程,使用AI机器学习模型的通用数据集对进行预先训练,优化,然后用于使用表型测定产生的数据筛选出阳性药物物质。对于预先训练,AI机器神经网络主干可能包括但不限于ResNet、VGG、 DenseNet和Inception。对于优化,经过训练的AI模型可以使用优化器在若干个时期内就药物信息批量大小和学习率进行优化。批量大小可能介于16单位与256单位之间。学习率可能介于1e-6单位与1e-2单位之间。时期数目可以介于10单位与500单位之间。优化器可以包括但不限于Adam、SGD和RMSprop。AI算法可以如下工作:首先,通过特征提取和嵌入将药物效果测定表型产生的数据(集)变换为高维向量;其次,检测和/或分割和区分嵌入之间的细胞表型特征,比对每个嵌入表型特征可表示健康细胞状态、疾病细胞状态、或经过药物治疗的细胞状态;最后,采用各种格式报告比对结果以反映经过药物治疗的细胞状态与健康细胞状态或疾病细胞状态的差异程度。每个比对状况可以包括至少一个数据点,用于指导药物筛选。结果格式可包括但不限于基于药物的对应嵌入与表示健康细胞状态的嵌入相比的差异程度来对药物进行排名的数值、以及说明经过药物治疗的细胞状态与健康细胞状态的差异程度的视觉表型/表征呈现。数值可包括但不限于Son和Soff,该Son和Soff分别指示药物的有效性的程度和潜在副作用:
其中Xc,μ'h和μ'd分别指示表示经过药物治疗的细胞表型/表征状态、所有健康细胞状态排名数值的均值、以及通过异常程度过滤准则的所有疾病状态的均值。如果采用专用的降维方法的AI分析,可包括但不限于t分布随机邻域嵌入(t-SNE)和均匀流形近似和投影(UMAP)。
在步骤(3)中,通过累积AI报告的筛选结果,诸如每种药物物质或成分在影响靶标细胞表型方面的分数Son和Soff,可以建立连接所有可能影响药物和与健康状况或疾病有关的细胞的表型的网络。人和药物之间的这种细胞表型关系研判可以用于指导作用靶标不可知的未来药物的筛选、重新定位和区分,有效筛选出用于临床前和临床试验的先导药物。
本申请的第二方面提供一种计算机系统,用于筛选基于靶标细胞或疾病与药物之间与基因相关的治疗药物。所述系统包括至少一个处理器和存储器。所述存储器中存储有计算机程序。当所述计算机程序由所述处理器执行时,可实现如前所述的筛选药物的方法。
本申请的第三方面提供一种计算机可读介质,其上存储有可由处理器执行的指令,所述指令在被处理器执行时,使得处理器执行如前所述的筛选药物的方法。
本申请实际上提出了一种生物与自然之间的一般关系背后的以表型为中心的理论。该理论将指导系统方法的设计和开发,该系统方法将高通量高内涵数据丰富的生物实验与AI机器学习策略相结合,以便最大限度地发挥靶标不可知表型筛选作为以下方式的潜力:(1)用于从广谱的物质中有效标识药物,随后进行靶标/MOA解卷积;以及 (2)用于真正了解疾病与中西药理学之间联系的基础。
附图说明
本公开包括说明书附图,其应为视为包含在说明书中并且构成说明书的一部分,且与说明书一起示出了本公开的各种示例性实施例、特征和方面,并且用于解释本公开的原理。通过以下详细的描述并结合附图将更充分地理解本发明,其中相似的元件以相似的方式编号。其中:
图1示出了基于经重组的人与药物关系来对作用靶标不可知药物进行AI驱动的筛选。
图2示出了基于TDD的以作用靶标为中心的药物筛选范式。
图3示出了演示健康状态的高维量表的示例。
图4示出了演示标识疾病特异性靶标的低概率的示例。
图5示出了有利于有效筛选多成分药物的以细胞表型为基础的范式。
图6示出了演示对多成分药物进行细胞表型筛选的有利选项的示例。
图7示出了AI推动下一轮健康革命。
图8示出了基于揭示了药物物质与人类健康状态之间的药物作用靶标不可知关系的细胞表型来对抗SARS-CoV-2(或SARS2)药物进行AI驱动的筛选。
图9示出了演示AI而非人眼所标识的抗SARS-CoV-2药物的有效性的示例。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步详细的说明,但本发明不限于下面的实施例。
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其他实施例。
另外,为了更好地说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
本申请中的候选药物可能包括但不限于小分子、生物制品、药草药品、化学制品、化合物、盐、肽、蛋白质、细胞衍生物、细胞、天然产物、天然物质、药草、药草提取物、组合药物、复合药物。
根据本申请的优选实施例,可以构建创新性AI驱动的表型药物发现平台或管道。该平台可以是AI模型、计算机视觉算法或深度学习算法、数据分析软件、将AI与经验数据结合的系统实验设计、获取经验数据的实验仪器集合(例如,细胞培养箱和高通量高内涵显微镜)、执行生物实验的生物测定或协议、接待研究人员进行实验的自动化湿实验室。管道可以为用于药物筛选和发现的一些或所有上述平台的组合。使用该平台,人们可以进行干实验室实验和湿实验室实验来筛选候选药物,每种候选药物都有可以挽救细胞系统的表型扰动的目标物的不同数目的成分(不少于1)。扰动由疾病相关因子引起。
体外或离体细胞系统中的细胞可以模拟特定条件下的健康状态或疾病状态,并且表现出使用高内涵显微镜成像的不同表型。例如,公众可用的数据集RxRx19a (https://www.rxrx.ai/rxrx19a)包括经过受测化合物的治疗前或后未受SARS-CoV-2病毒感染的或受SARS-CoV-2病毒感染的细胞的305,520张图像(1024×1024)。使用公众可用的图像数据集对AI机器学习模型进行训练和优化。最佳模型用于从RxRx19a数据集中提取图像的嵌入,从而将高内涵图像变换为高维向量。计算并比较表示细胞表型的两个不同图像的两个向量之间的距离。如果经过化合物治疗的细胞状况产生更接近未受感染的细胞状况而非受SARS-CoV-2感染的细胞状况的载体,则认为该化合物有效抑制了 SARS-CoV-2感染。从未受感染的细胞状况指向受SARS-CoV-2感染的状况的向量也用于评估化合物是否可能含有副作用。为此,计算从未受感染的细胞的状况指向经过化合物治疗的细胞状况的向量,并且该向量用于进一步计算其到从未受感染的细胞状况指向受SARS-CoV-2感染的状况的向量方向上的投影和排斥分量。投影分量用于估计化合物在治疗使用细胞系统对其表型进行模拟的疾病方面的有效程度,而排斥分量用于估计副作用对患有这种疾病的患者的细胞的影响程度。通过使用这种类型的方法累加数据,将建立各种健康状况或疾病与各种药物物质之间的靶标不可知关系,从而使用以表型为中心的范式指导下游药物标识。
本申请提出了一种生物与自然之间的一般关系背后的以表型为中心的理论。该理论将指导系统方法的设计和开发,该系统方法将高通量高内涵数据丰富的生物实验与AI机器学习策略相结合,以便最大限度地发挥靶标不可知表型筛选作为以下方式的潜力:(1)用于从广谱的物质中有效标识药物,随后进行靶标/MOA解卷积;以及(2)用于真正了解疾病与中西药理学之间联系的基础。
图1示出了基于经重组的人与药物关系来对作用靶标不可知药物进行AI驱动的筛选。
1.从以靶标为中心的范式向更先进的以表型为中心的范式转变
自工业革命以来,现代医学培育了以MOA为中心(上世纪80年代后,以TDD为主导)的医学研究,该以MOA为中心的医学研究逐渐将药物发现从意外发现或经验转向系统评估和经验论证1,17,18(参见图7)。因此,医疗保健得益于不断增长的药物库以及对应发展的诊断、预防和治疗。然而,药物发现和生产仍然面临着如昂贵且低效的靶标/MOA标识过程19、脱靶和不良反应20以及耐药性21之类的挑战。与疾病复杂性交织在一起的这些挑战在很大程度上阻碍了进一步发现首创药物来治疗尚未满足的医疗需求。考虑到这些,发明人重新评估了关于自然与生物(例如,人类)之间关系的基本问题,并且使多节点网络概念化,该网络总结了管控生物的健康状态的所有可能因子以及能够在期望方向上调整健康状态的物质(图2)。该网络揭示了人类与药物之间的以目标为中心的关系。基于这个网络,发明人将演示TDD中的基本功效-毒性悖论。然后,发明人将验证用于解决TDD必须面对的悖论的备选策略,如现代PDD。
图2示出了基于TDD的以作用靶标为中心的药物筛选范式。生物通常表达基因集(G),该基因集(G)包含耐受或易感等位基因,这些基因决定了在各种环境(E)下可能有益或有害的不同健康状态。多细胞生物的每个健康状态表示与维持生命和生理功能的生理单位相关联的表型特征的加权集合。这些单位包括器官、组织和它们的基本操作部位(细胞)。示出了指示基因在环境中的主导或功能或功能障碍单位(U)对健康状态的贡献的一些代表性线。例如,在有害环境Eg+1下表达耐受G2基因等位基因和易感Ge+2基因等位基因(较粗的线表示较大的优势)的个体表现出不健康状态Hi+1,这主要归因于包括Ur+1(较粗的线表示较大的权重)、Ur+2(较低的权重)和Ur+3(较大的权重)在内的几个生理单位。对于人类疾病,TDD首先从这些功能障碍单位中标识靶标 (T)并且研究相关MOA,然后针对这些预先标识的靶标筛选小分子(有时为生物制品)。仅在功能障碍单位中发现的靶向特异性靶标(例如,Tu+2)的药物可能是有效且安全的;靶向非特异性靶标的其他药物可能具有毒性。TDD研究或工业中几乎不考虑传统药草药品,如天然药草(表示为N)。
2.TDD固有的功效-毒性悖论背后的依据
几乎毫无例外的是,地球上寿命有限的任何生物都会表现出有限数目(i+j)个健康 (H)状态,一些为健康状态或正常状态(H1、H2、H3、......Hi),而其他则为不健康状态或异常状态(Hi+1、Hi+2、Hi+3、…Hi+j)。每种健康状态所表现的表型由内部因果因子和外部因果因子(具体地,基因(G)和环境(E))共同决定。任何给定生物还必须包含有限数目(即,总共e+f个)的蛋白质编码基因并且受到有限数量数目(即,总共g+h个)的环境条件影响。人们可能会认为个体可能遗传了一些耐受基因等位基因 (G1、G2、G3、......Ge)和其余易感基因(Ge+1、Ge+2、Ge+3、.......Ge+f),所以这些基因都起源于其种类的物种。耐受等位基因在大多数环境条件下往往有助于健康状态,反之亦然,尽管一些环境因子对产生主要健康状态(E1、E2、E3、……Eg)的生物大多是友好或有益的,但其他并非是友好或有益的(Eg+1、Eg+2、Eg+3、......Eg+h)。基于这些一般概念,每个因果因子与生物的每个健康状态之间应当始终存在可以以数学方式追踪的某种联系。生物可以像单细胞生物一样简单,还可以像人类一样的多细胞生物较为复杂。发明人可以估计这种联系的复杂性,并且计算个体在其寿命中可能表现出的健康状态。例如(图3):(1)物种的个体表达十个(e+f)不同的基因,每个基因都具有两个 (a)等位基因,这两个(a)等位基因确定两个不同的表型性状,但没有任何其他内部基因型到表型的扰动(诸如转录修饰、翻译修饰、翻译后修饰和表观遗传修饰); (2)存在一百个(g+h)在时空上不同的环境,每个环境引入一个外部扰动来更改由一到十个基因编码的表型性状(这种改变可以直接施加在基因上);发明人可以得出以下结论:该个体在这些不同的环境下可能表现出总共约108 个健康状态。该数目随着变量(g、h、e、f和a)的增加而增加。该数目将乘以系数(c)以反映物种的健康状态的整体维度,该系数(c)等于种群数目。
图3是演示健康状态的高维量表的示例。该示例假设每个基因都有两个备选等位基因(G和G')。在每个环境(E)中,由个体中的基因等位基因集决定的表型形状集合将表现出健康状态(H)。灰色阴影指示环境有益结果的示例: G1G2G3……GeGe+1Ge+2……Ge+f确定有益环境E1下的健康状态H1。然而,该个体可能会在不利环境下患上疾病,从而表现出不健康的另一健康状态。携带相同或高度保守基因型的个体(例如,双胞胎)有可能在不同环境下发展出不同的健康状态或不健康状态。另一示例表明,基因G3具有对大多数环境都具有耐受性的两个等位基因:具有 G1G2G3……GeGe+1Ge+2……Ge+f和G1G2G'3……GeGe+1Ge+2……Ge+f的个体可能分别在有利环境E1和不利环境Eg+1下表现出健康状态H1和Hi。其他基因可能具有对某些环境敏感的等位基因,例如,携带Ge+2、G1G2G3……GeGe+1G'e+2……Ge+的备选等位基因的第一个体的亲属在Eg+2下表现出不健康状态Hi+2。然而,携带易感等位基因的个体在任何环境下都不一定表现出不健康状态,尽管它会带来风险。如果枚举每个遗传或环境扰动的健康状态,就可以确定总体健康状态。
鉴于遗传变异、不同类型的细胞内外的扰动、多细胞复杂性、以及环境的不确定性,人类的健康状态【截至2021年6月,对于人类,(e+f)为约2×104(参考文献 22)以及c为约7.9×109】将得出非常大的数目,这并不足为奇。然而,在所有健康状态之中,大多数为正常状态或健康状态(即,j<<i)。在研究机构和制药公司,尤其是后者中,人们可能会考虑的实际不健康/疾病状态可能少至一种。这种现象造成以下错觉:了解疾病的分子靶标和基础MOA对于发现有效的特异性药物简洁易懂且必不可少。TDD确实在某些疾病的管理方面取得了巨大成功,并且在过去几十年中极大地利用了发明人对疾病与药物相关性的了解1,18(参见图7)。然而,这些成就经由数百万研究人员的数十年的集体努力建立。换言之,整体发现效率相当低,否则由TDD主导的世界不会对COVID-19做出如此糟糕的响应。为了揭示TDD的基本问题,发明人估计了标识适当可被药物靶向的靶标的难度。
在多细胞生物中,每个健康状态表示与维持生命功能和生理功能的多个生理单位(U)相关联的表型性状的加权集合。这些单位可能包括器官、组织及其基本操作部位 (细胞)。不健康/疾病状态(即,Hi+i、Hi+2、Hi+3、......或Hi+j)必须由某些单位(即, Ur+1、Ur+2、Ur+3、…Ur+t)的功能障碍产生,而如果归因于功能失调单位的权重相对较小,则包含功能失调单位的状态不一定会变为疾病状态。例如,许多个体在没有两个肾脏中的一个肾脏的情况下依然过得很健康,除非超负荷导致另一肾脏出现故障。众所周知,细胞通常包含整个物种的遗传信息集,但表达指令蛋白质生产的选择性基因,这些基因和蛋白质均为如分子或盐之类的物质的潜在靶标(T),甚至为诸如UV和X射线(超出该估计)之类的物理影响。由于特定研究小组和工业公司总是专注于一种或几种疾病,所以发明人可以假设正在考虑的总是与一些异常生理单位(t<<r)相关联的少数的不健康状态(j<<i)。通过这个假设,发明人可以估计在给定条件下标识一个可被药物靶向的靶标的难度。本文中就有个示例(图4):(1)个体表现出十(i+j)个不同的健康状态,每个健康状态表示与十(r+t)个不同生理单位相关联的表型的加权集合,其中归因于高度加权的功能失调单位(r=9、t=1),一个状态已知为不健康状态 (i=9、j=1);(2)MOA中可能涉及十(v)个不同但相关的靶标,其中在十个生理单位中的一个生理单位中可以找到一到十个靶标。标识仅在功能失调单位中发现的可被药物靶向的靶标的概率(p)约为0.002%。概率随着r和/或v 的增加而减小。
图4是演示标识疾病特异性靶标的概率很低的示例。该示例假设存在i个健康状态H1至Hi和1个不健康状态Hi+1。每个状态可以视为归因于不同生理单位(U)的表型的加权集合。小写斜体u指示作为健康状态的函数的重量。ur+1(Hi+1)必须远大于u1(Hi+1)至 ur(Hi+1),并且ur+1(H1)至ur+1(Hi)可能小于其他单位到健康状态的权重。在标识仅存在于 Ur+1中从而对于不健康状态Hi+1具有特异性的靶标(T)的情况下,概率可以基于Ur+1中的1至v-1个靶标的可能性与所有可能性的商来确定。
尽管人类细胞高度分化或专门充当不同器官和组织的操作单位,但是每个细胞仍表达数千(如果并非全部,则为约20,000)个编码基因,这些编码基因携带产生蛋白质的指令;换言之,不仅标识适当靶标存在困难且效率低下(MOA可能极其复杂),而且标识仅在与功能失调单位和疾病状态相关的细胞中发现的靶标的机会极低。如果考虑到不同细胞中存在可以与相同药物或其衍生物相互作用的靶标同源物,则机会甚至更低。发明人可以预测,最终,要么没有发现基于靶标的研究,要么发现几乎肯定具有副作用的药物。一些效果在某些情况下对药物重新定位有益;如果药物可以靶向并干扰生理单位20的正常功能,则其他药物是有害的。
3.用于重组人与药物关系的必要性
使用上述示例(图2至图4),发明人表明TDD所面对的功效-毒性悖论为以目标 /MOA为中心的网络所固有。在没有范式转移的情况下,效率低和毒性不可避免持续存在。事实上,可以通过使用表型筛选进行药物发现1,2,18来跳过靶标标识步骤。现代技术使得能够基于原代细胞或诱导多能干细胞(iPSC)的衍生物的表型改变来筛选药物,这些iPSC与患者的正常组织、病变或功能失调器官分离2.23。其中许多体外或离体细胞系统已经证实重演一些(如果并非全部)疾病表型,并且已经获得经过FDA证明的药物1。另外,在没有显着影响药物筛选的通量的情况下,这些细胞系统仍在从较低维度和复杂性快速发展到较高维度和复杂性,例如,从单细胞培养到多类型细胞共培养再到组织类器官2,3。鉴于这些优势,现代PDD方法已经开始显示出优于TDD的优势。
靶标不可知筛选可以大大简化健康状态与药物物质之间的关系,同时对药物与靶标特异性略有折中。下一问题是是否存在策略以使在药物筛选阶段最大限度地减少引起毒性的机会最小。与TDD专注于靶向有限分子的相对较窄频谱的药物物质(主要为化合物)形成对照,PDD可以从直接针对多靶标生理单位的更广泛频谱的物质中进行选取,以便减轻疾病症状。药物靶标的独立性可能极大地鼓励研究人员筛选多成分药物,这些多成分药物包括WM角度的复方药剂或源自TCM的药草药品。尽管面临挑战和疑虑,但是传统药草药品的总体毒性较低16。一些天然药草(即,茶树油、银杏、姜黄、葡萄籽提取物)非常安全,无需临床试验即可以用于药物;其他天然药草(即,生姜、枸杞、木耳(黑木耳(Auricularia auricula-judae))等)甚至对健康有益,并且作为正常饮食或健康饮食的一部分食用。
图5是有利于有效筛选多成分药物的以细胞表型为基础的范式。表型段与以目标为中心的范式的表型段相似(参见图2),但无需标识靶标并确定因果因子。以表型为中心的网络在概念上相当简单。然而,这种简化得益于医学研究中不断增长的知识、快速发展的生物技术、以及新兴的人工智能。显示了总共(p+q)种多成分药物,每种多成分药物可以具有1至x种成分(另请参见图6)。
图6示出了演示对多成分药物进行细胞表型筛选的有利选项的示例。该示例假设存在i个健康状态H1至Hi和1个不健康状态Hi+1,与图4相同。靶标的独立性允许筛选有效缓解体外/离体细胞系统所重演的疾病表型的x成分药物。有效性是每种成分的效果的加权总和,其可以是有益的、中性的和有害的。示出了一些考虑因子和对应可能性,其可以用于确定找到有效且安全的x成分药物的概率(x可以为任何整数)。
本文中,发明人重组了网络(图5)并且演示了以表型为中心的理论在支持多成分药物筛选时的优势,该以表型为中心的理论为一种在TDD中不太可行的选项。图6示出了一个示例:(1)个体示出了十(i+j)个不同的健康状态,每个健康状态表示与十 (r+t)个不同生理单位相关联的表型的加权集合,其中经由与一个功能失调单位 (r=9、t=1)的链接,一个状态已知为不健康状态(i=9、j=1);(2)每个生理单位可以使用体外或离体细胞系统表示,该体外或离体细胞系统用于筛选由10(x)种成分组成的药物;(3)每种成分都可能对给定生理单位产生有益影响、中性影响或有害影响。如果假设当至少一种成分有益时,一个药物有效缓解功能失调单位,而当至少一个部位有益或部位无害时,该药物对其他九个单位而言是安全的,则该药物既有效又安全的概率(p)高达84%进一步地,这种概率随着x和/或r的增加而增加(单成分药物的p=0.86%),从而支持了在表型筛选的背景下多成分是有利的理念。考虑到经验数据可能不易于揭示有益成分少于有害成分的药物的积极结果,发明人可以做出另一相当保守的假设:当有益成分多于有害成分时,药物有效缓解功能失调单位;并且当有益成分不少于有害成分(包括所有中性成分条件)时,药物对于其他九个单位而言是安全的。药物既有效又安全的概率(p)变为约0.3%
这个假设排除了许多含有有益成分的药物,但概率仍然与在上述条件下筛选单成分药物(0.86%)的结果相当。可以合理假设大多数药用药草对健康状态无毒或低毒,因此,从药草药品中筛选出安全药物的实际概率大大高于WM所偏爱的复方药剂。然而,该理论支持包括各种成分来源的组合医学,而不管WM或TCM起源如何。筛选多成分药物的另一优点如下:与筛选单成分药物相比较,丢失有益成分的机会较低,因为在体外测定甚至动物测定中,由于假阴性读数,可以很容易地消除单成分药物,但该单成分药物用如果于人类试验,则实际上可能是有效的。多成分药物筛选时,有益成分可能存在于许多不同的药物中。
4.以表型为中心的网络的复杂性和AI的本质作用
以表型为中心的网络仍然很复杂,尽管与以目标为中心的网络相比较似乎没有那么复杂。为了理解以表型为中心的网络的复杂程度,发明人可以检查健康状态和药物物质的数量级(OOM)。人类疾病的OOM为约104。值得注意的是,如果每个人(c为约 7.9×109)在其寿命期间都会患上所有这些疾病,并且患有疾病的每个人表现出明显不同的症状,则实际疾病状态可能高达1013。然而,发明人了解事实并非如此,并且大多数疾病都可以使用通用药物而非精准药物来治疗。因此,发明人可以假设人类的疾病状态的OOM大约为105,而主要促成患有每种疾病的发展的功能失调生理单位的OOM可能相同。与疾病截然相反,健康状态的OOM明显更高,但大多数情况下可以视为一个整体。可以用于治疗或至少减轻疾病的症状的物质通常包括小分子(主要是化学制品)、包括大分子的生物制品(即,抑制剂、酶和抗体等)和细胞相关产物(包括血清)、以及天然植物和药草。化学空间的典型OOM为约1060。具有巨大多样性的大分子药物主要是抗体(Ab)及其衍生物,而细胞疗法主要考虑T细胞及其衍生物的多样性。Ab和 T细胞受体(TCR)都是对于抗原具有特异性的多态性蛋白24,25,因此,Ab和TCR 20 的变异性程度决定了生物制品的OOM。Ab或TCR的基本抗原特异性区域由约20个至 30个高度可变的残基组成,这些残基管控抗原结合基序25。因此,变异性OOM约为 2020至3020。换言之,生物制品的OOM约为1030。值得注意的是,大分子(即,肽、蛋白质和核酸)空间可以显着高于1030甚至高于化学空间。尽管仍有大量具有药用潜力的植物和药草未被发现,但是药用植物和药草与其他两个类别相比要少得多,OOM约为104
图7示出了AI推动下一轮健康革命。几千年来,基于偶然发现以及关于使用天然物质或药草药品(表示为N)的经验的传统PDD尚未在医学领域取得太大进展,在此期间,人们对人与药物关系知之甚少。工业革命、药物化学、分子克隆等技术对医学研究有重大投入,极大地利用了我们对人与药物关系的认识,更为重要的是,已经标识了用于TDD的疾病许多靶标(表示为T)和相关MOA以在最后几次衰变期间筛选并标识数千种有效药物(主要为小分子,表示为S)。然而,随着人工智能的兴起及其在PDD 中的应用,效率开始落后。我们以表型为中心的理论支持范式的根本转移,以便解决 TDD所固有的功效-毒性悖论。使用体内表型模拟细胞系统的AI驱动的现代PDD对于筛选多成分药物(包括复合药物和传统药草药品,表示为M)而言是最佳选择,这在 TDD中尚未受到重视。值得注意的是,PDD消除了靶标标识步骤,以满足我们深入了解人类与药物关系并且在可预见的未来与绝大多数目前无法治愈的疾病作斗争的冲动。相反,人与药物关系的大局使靶标解卷积以及因果关系的确定被充分理解。G、E、H、 U表示与图2至图6相同。度量是概念性的。
在尖端生物技术和AI机器学习的融合之前,从未有可能建立如此全面的疾病和药物相关网络26(图7)。在过去的几十年(人类历史的一小部分)中,发明人已经设想了开创性建立由生物学和计算方面的允诺研究所支持的以靶标/MOA为中心的网络4,26。为了克服限制了网络的进一步建立和完成的当前瓶颈(TDD所固有的功效-毒性悖论),必须进行范式转移(图7)。发明人演示了采用以表型为中心的理论来指导多成分药物筛选的可行性。在数据分析中部署AI机器学习至关重要,以使在可预见的未来建立连接疾病和药物的高OOM交互网络,并且该高OOM交互网络引领一场根本的健康革命。Al驱动的表型筛选继而经由通过传统生物测定实现靶标解卷积以及与靶标相互作用的WM或TCM药品中的实际成分的下游分离来进一步利用发明人的知识。
5.遵循以表型为中心的范式建立疾病与药物联系的实践
如之前所提及的,已经开发了许多体外或离体细胞系统来重演疾病的某些或所有表型信息。这些系统在生物测定中对于靶标不可知药物筛选而言是最佳选择。第一警告是疾病越复杂,细胞系统的发展就越困难。传染病和单基因缺陷的表型很容易使用单细胞培养物进行重演11,12,而重演肿瘤或器官功能障碍相关表型可能需要多细胞系统或3D 培养物和生物打印27。对于如自身免疫性疾病、心血管疾病和神经系统疾病之类的综合疾病,类器官的持续发展已显示出用于模拟体内功能障碍和对应异常微环境的前景27-29。第二警告是健康空间(甚至只考虑疾病状态)和药物空间的OOM都非常高,从而带来了限制传统PDD的广泛应用的两个挑战:(1)超出人类操作能力的数据集维度以及(2)超出人类辨别能力的密切相关细胞状态之间的细微表型差异。以下示例演示了成功部署AI驱动的PDD以规避这些阻碍。
6.通过AI驱动的PDD建立感染与药物联系
由微生物引起的疾病症状可以说是最容易转化为体外或离体细胞系统的表型。从理论上讲,只要抗菌药物或疗法可以将受感染的细胞恢复到正常状态,或可以防止微生物影响细胞,就可以声称这种治疗是有效的(至少对受试细胞类型而言)。因此,与 TDD相比较,PDD在筛选例如抗细菌的抗细菌剂、抗真菌的抗真菌剂、抗病毒的抗病毒剂和抗寄生虫的抗寄生虫剂以及建立疾病与药物联系方面具有很大优势。本文中,发明人使用公众可用的数据训练了发明人的AI机器学习模型,并且演示了AI遵循以表型为中心的范式对对抗SARS-CoV-2化合物进行快速筛选时不可或缺的作用(示意图参见图8)。
图8示出了基于揭示了药物物质与人类健康状态之间的药物作用靶标不可知关系的细胞表型来对抗SARS-CoV-2(或SARS2)药物进行AI驱动的筛选。
尽管SARS-CoV-2感染的确切机制和适当可被药物靶向的靶标仍在研究中,但已经建议SARS-CoV-2主要感染表达血管紧张素转化酶2(ACE2)作为病毒进入受体的人肺和支气管细胞,并且采用丝氨酸蛋白酶TMPRSS2来启动病毒纤突蛋白30。已经对许多 ACE2+和/或TMPRSS2+人类原代细胞及其衍生物进行了检查以模拟与SARS-CoV-2感染相关的体内表型的潜力。例如,公众可用的数据集RxRx19a (https://www.rxrx.ai/rxrx19a)包括受感染或未受感染和经过药物治疗或未经过药物治疗的人肾皮质上皮细胞(HRCE)的形态分布。为了在重复足够的情况下筛选大于103个不同浓度的经批准的化合物或参考化合物,已经使用尖端的高内涵细胞成像技术(即,细胞绘画(cell painting))获取了各自包含5个荧光通道的大于105张合成图像 (1024×1024)。这5个通道捕获细胞核(通过染色DNA)、内质网、细胞骨架(通过染色肌动蛋白)、核仁和细胞质(通过染色RNA)和高尔基复合体(也染色质膜)的形态信息。这些大量图像上HRCE细胞的形态分布大多彼此相似(代表性图像参见图 9),从而具有上述两个障碍。为了快速准确分析这些高内涵图像数据并且揭示细胞状态之间的潜在差异,必须应用计算机视觉和深度学习AI(图8)。
发明人的模型使用被称为预先训练的过程通过不与感兴趣疾病直接相关的数据集进行了训练。对于预先训练,发明人的AI可以使用许多架构,诸如ResNet (https://arxiv.org/abs/1512.03385)、VGG(https://arxiv.org/pdf/1409.1556.pdf)、 DenseNet(https://arxiv.org/pdf/1608.06993.pdf)、或Inception (https://arxiv.org/pdf/1512.00567.pdf)作为神经网络的骨干。为了实现对图像上细胞状态的无偏识别或检测,预先训练使用了数据增强方法,诸如旋转、翻转、缩放和移位。交叉熵损失用于对不同细胞状态之间的形态差异进行分类。还使用诸如Adam (https://arxiv.org/abs/1412.6980)、SGD和RMSprop(http://www.cs.toronto.edu/ tijmen/csc321/slides/lecture_slides_lec6.pdf)之类的优化器在10时期到500个时期内对经过训练的AI模型进行了优化,其中批量大小介于16与256之间并且学习率介于1e-6与 1e-2之间。把在经过预先训练的数据集上具有最低交叉熵损失的经过训练和优化的模型保存为最佳模型。
接着,最佳AI模型用于从RxRx19a显微图像中提取特征表示,即,嵌入。出于归一化的目的,输入合成图像的每个通道的像素值在特征提取之前减去128。RxRx19a的特征提取和数据变换在没有随机旋转或翻转的情况下执行,并且产生包含512维向量的输出嵌入。为了使实验间差异最小,通过从每个实验内的向量中减去每个维度的均值,在每个实验内进一步使512维嵌入(向量)归一化。对于每个实验,用于表示从实验内获取的合成图像变换而来的向量集,其中Xi表示512维向量,并且N表示图像或向量的数目。每个实验包括三种类型的复合图像:一种含有未受感染的细胞(健康状态),一种含有受SARS-CoV-2感染的和未经治疗的细胞(疾病状态),一种含有受 SARS-CoV-2感染的但经过药物治疗的细胞(经过药物治疗的状态)。因此,进一步分为三个向量集,其中其中Xh,Xd,和Xc分别表示从包含处于健康状态、疾病状态和经过药物治疗的状态的细胞的复制图像变换而来的512 维向量,并且Nh,Nd,和Nc分别表示包含处于健康状态、疾病状态和经过药物治疗的状态的细胞的图像的数目。嵌入后,AI使用以下不超过三个标准偏差准则消除两个向量集中的异常值:
其中
其中
其中,μhd和σhd分别表示Xh,Xd的均值和标准偏差。所有这些向量都具有512 个维度。X'h,X'd表示异常值过滤后的向量,并且μ'h,μ'd表示对应均值。
最后,AI计算了Son和Soff(表1),以对药物在抑制SARS-CoV-2感染方面的有效性和形态学副作用进行评分:
在如下的表1中,基于有效的抗SARS-CoV-2化合物的Son分数对它们进行排名。其中,10.0uM的所指示的化合物用于治疗受SARS-CoV-2感染的HRCE细胞。
表1
图9是演示由AI而非人眼标识的抗SARS-CoV-2药物的有效性的示例。
图9右半边(从上到下)示出了未受感染的细胞、受SARS-CoV-2感染的细胞在药物治疗前和后的形态分布的代表性细胞韧化(cell-patenting)图像。数据改编自公众可用的数据集RxRx19。药物:10.0uM的瑞德西韦。细胞:人肾皮质上皮细胞 (HRCE)。合成图像包括5个荧光信号通道:Hoechst 33342(细胞核)、Alexa Fluor 488伴刀豆球蛋白(Concanavalin)A(内质网)、SYTO14(核仁和细胞质RNA)、 Alexa Fluor 568鬼笔环肽(phalloidin)(F-肌动蛋白细胞骨架)和Alexa Fluor小麦胚芽凝集素(高尔基体和质膜)。
图9的左半边示出了在公众可用的经过预先训练的图像数据集上训练的深度学习算法用于分析RxRx19的高维图像嵌入。通过使用统一流形近似和投影(UMAP)技术降维后,分析结果显示在3维空间中。每个点表示从1536孔板上的复制孔中获取的图像数据,该复制孔包含处于以下状态中的一个状态下的荧光染色HRCE细胞:未受感染的细胞(紫色)、瑞德西韦治疗前受SARS-CoV-2感染的细胞(橙色)、以及瑞德西韦治疗后受SARS-CoV-2感染的细胞(绿色)。
尽管通用图像数据集包含与SARS-CoV-2感染无关的完全不同类型的细胞,但是在该数据集上训练的AI模型有效区分了处于受SARS-CoV-2感染的状态和未受感染的状态的HRCE细胞(图9)。非常重要的是,发明人的AI模型明确表明,经瑞德西韦 (remdesivir)治疗后的受SARS-CoV-2感染的细胞表现出的形态特征无法与处于未受感染的状态的细胞与处于受SARS-CoV-2感染的状态的细胞区分开(图9)。Son分数还指出瑞德西韦及其母体核苷GS-441524为高效药物(Son<<0.1,表1),而它们的Soff分数均相对较低,从而指示对如HRCE之类的人类细胞的形态学副作用较低。值得注意的是,最初开发用于治疗丙型肝炎的Veklury(瑞德西韦)是首个获得FDA批准的治疗 COVID-19的方法13,32
另外,发明人的AI模型发现,使用甲基强的松龙(methylprednisolone)(Soff略高)、法匹拉韦(favipiravir)或阿洛司他汀(aloxistatin)治疗HRCE细胞导致受 SARS-CoV-2感染的细胞的部分形态学改变(0.3<Son<0.7,表1)。法匹拉韦已在日本和俄罗斯等国家获得批准用于治疗COVID-1932,33。据报道,甲基强的松龙对患有 COVID-19的住院患者的皮质类固醇治疗有益34。阿洛司他汀(E64D)被认为是SARS- CoV-2病毒侵入的有效阻滞剂30,35。与FDA撤销氯喹和羟基氯喹的紧急使用授权的决定一致,发明人的AI模型发现,使用这两种化合物进行治疗对挽救受SARS-CoV-2感染的细胞(Son>2)的形态变化没有产生有益效果并且形态学副作用相对较高(Soff>2,表 1)。
发明人的AI模型已经演示了其能够深入分析一种细胞状态的每次重复之间以及不同细胞状态之间的重复之间的差异。这些细微变化可以教导AI,使得可以在远远超出人类能力的范围内对药物的功效和毒性进行数字评估。同时,可以以类似方式筛选复方药物或药草提取物,以最终建立完整的感染药物网络,以服务于未来药物筛选需求(图 8)。支持PDD成功标识多成分抗菌药物的可能性很大的证据包括屠呦呦博士从治疗疟疾的中草药中发现青蒿素和双氢青蒿素36,以及在流行病出现后立即使用中草药进行了相对较快的控制。反过来,AI驱动的PDD不仅可以确保传统药物筛选程序的高效性和安全性(值得注意的是,屠博士出于坚定的信念在自己体内测试了草药),而且还可以提供使用如果不能治愈传染病则用于缓解症状的天然植物和产物(尤其是中草药)的科学依据。
7.通过AI驱动的PDD建立遗传缺陷与药物联系
鉴于不断增长的全基因组关联研究(GWAS),发明人现在知道许多罕见的遗传疾病主要与一个或几个基因有关。与由单基因或寡基因遗传引起的疾病有关的表型可以转化为体外或离体细胞系统,只要表达这些基因突变体的细胞中存在表型性状的可检测扰动即可2。在这些情况下,尤其是在靶标标识极具挑战性的情况下,PDD表示TDD的理想备选方案,这对于大多数罕见疾病来说都是如此。
在应用AI驱动的PDD筛选用于治疗单基因缺陷的药物的许多示例中,一些示例在FDA批准的临床试验中前景看好。一种在II期临床试验中使用药物的疾病被称为脑海绵状血管瘤(CCM),这是一种常见血管异常,通常发生在中枢神经系统中,偶尔发生在视网膜中。CCM大多是散发性的,尽管20%的病例是家族性的,其中三个基因中的一个基因中存在已知的功能丧失突变:CCMI(KRIT1)、CCM2和CCM2(PDCD10) 37 , 38。最初的离体单细胞系统使用原代成人真皮微血管内皮细胞(HMVEC)开发37。野生型和CCM2突变的HMVEC显示出显着不同的结构表型,然后再用于超过两千多种药物的高通量筛选。数据采集 与如上文所提及的细胞绘制方法相似,数据分析由经验丰富的审阅者和AI完成。AI机器学习在标识>有效挽救CCM2突变的HMVEC的结构表型的30种化合物方面显示出更高的效率和相当的准确性。动物模型证实了胆钙化醇 (维生素D3)和tempol(超氧化物清除剂)的生物活性37。该示例极大地鼓励了学术界和工业界的研究人员追求基于AI驱动的PDD。值得注意的是,许多创新性基于图像的筛选技术正在开发中,以扩展生物测定在捕获高内涵数据方面的能力3,4。涵盖与各种遗传疾病有关的多参数表型的这些数据将策划深度学习算法,以完成它们将候选药物与遗传疾病相关联的使命。再次,复方药物和传统药草药品将成为正在被测试的下一候选药物集。
8.遵循以表型为中心的范式探索全面的人与药物关系
完成范式转移总是花费时间(参见图7);然而,发明人的理论预测,不可避免的是以表型为中心的范式取代TDD。AI驱动的PDD在上述两个疾病领域的出现反映了范式转移的第一步,因为其优势在很大程度上由于对应疾病模型的低复杂性而产生。在当前阶段,如果基础复杂性处于中等水平39或相对成熟的类器官系统用于生物测定,则类似PDD策略可能适用于治疗某些肿瘤或器官衰竭的药剂。例如,大脑或肠道类器官在重演大脑或肠道功能障碍方面前景看好,并且用于药物筛选27,28。在这些情况下,与可能面临靶标标识和选择挑战的TDD相比较,PDD通过基于成像的筛选结合AI驱动的数据分析将显示出巨大优势。简而言之,来自2D或3D培养物或共培养物3,27的表型扰动细胞可以通过各种光学方法3,4,31或非光学方法18对化学蛋白组学40或化学基因组学41的化合物库和/或复方药物(包括药草药品)进行活筛或固定18。深度学习AI可以快速区分开以表型方式挽救的细胞与非以表型方式挽救的细胞,从而基于它们已经挽救的细胞状态的程度标识有效药物并且对它们进行排名(参见图1和图8)。通常,深度学习模型通过特征化将经验数据转换为嵌入向量,使用计算方法(例如,用于在图像上进行细胞检测的语义、实例和全景分割)检测不同的细胞/亚细胞表型,并且使用降维技术 (例如,UMAP)报告在一个多个条件下分开的细胞状态(参见图9)。
以表型为中心的范式不仅指导发明人设计并开发创新性药物筛选方法,更重要的是激发人们重新评估有关人与药物关系的问题。这是个以表型为中心的问题,准确地说,问题是关于人与自然关系的,超越药物发现和靶标标识的事情。毕竟,药物(像小分子化合物一样简单,也像药草药品一样复杂)并非可以将人类个体的不健康状态调整到期望方向的全部药物。可以从介导、手术、医疗护理、物理疗法和其他管理(例如,基因疗法)中进行选择,或只是在确诊后改变原来的生活方式。
本领域技术人员应该理解,上述技术手段与步骤可以任意地进行组合来实现本发明的目的,除非逻辑上或物理上无法组合。
计算机程序、计算机系统和计算机可读介质
此外,本领域普通技术人员应该认识到,本公开的方法可以实现为计算机程序。如上结合附图所述,通过一个或多个程序执行上述实施例的方法,包括指令来使得计算机或处理器执行结合附图所述的算法。这些程序可以使用各种类型的非瞬时计算机可读介质存储并提供给计算机或处理器。非瞬时计算机可读介质包括各种类型的有形存贮介质。非瞬时计算机可读介质的示例包括磁性记录介质(诸如软盘、磁带和硬盘驱动器)、磁光记录介质(诸如磁光盘)、CD-ROM(紧凑盘只读存储器)、CD-R、CD- R/W以及半导体存储器(诸如ROM、PROM(可编程ROM)、EPROM(可擦写 PROM)、闪存ROM和RAM(随机存取存储器))。进一步,这些程序可以通过使用各种类型的瞬时计算机可读介质而提供给计算机。瞬时计算机可读介质的示例包括电信号、光信号和电磁波。瞬时计算机可读介质可以用于通过诸如电线和光纤的有线通信路径或无线通信路径提供程序给计算机。
例如,根据本公开的一个实施例,可以提供一种计算机系统,用于筛选基于靶标细胞或疾病与药物之间与基因相关的治疗药物。所述系统包括至少一个处理器和存储器。所述存储器中存储有计算机程序。当所述计算机程序由所述处理器执行时,可实现如前所述的筛选药物的方法。
因此,根据本公开,还可以提议一种计算机程序或一种计算机可读介质,其上存储有可由处理器执行的指令,所述指令在被处理器执行时,使得处理器执行如前所述的筛选药物的方法。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,本发明的范围并不限于上述实施例所述。在不偏离本发明的精神和范围的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。也就是说,本领域普通技术人员可以在形式和细节上对本发明做出各种改变和改进,而这些均被认为落入了本发明的保护范围。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的普通技术人员能理解本文披露的各实施例。
参考文献
1 Eder,J.,Sedrani,R.&Wiesmann,C.The discovery offirst-in-class drugs:origins and evolution.Nat Rev Drug Discov 13,577-587,doi:10.1038/nrd4336(2014).
2 Moffat,J.G.,Vincent,F.,Lee,J.A.,Eder,J.&Prunotto,M.Opportunitiesand challenges in phenotypic drug discovery:an industry perspective.Nat RevDrug Discov 16,531-543,doi:10.1038/nrd.2017.111(2017).
3 Lin,S.,Schorpp,K.,Rothenaigner,I.&Hadian,K.Image-based high-contentscreening in drug discovery.Drug Discov Today 25,1348-1361, doi:10.1016/j.drudis.2020.06.001(2020).
4 Chandrasekaran,S.N.,Ceulemans,H.,Boyd,J.D.&Carpenter,A.E.Image-based profiling for drug discovery:due for a machine-learning upgrade?Nat RevDrug Discov 20,145-159,doi:10.1038/s41573-020-00117-w(2021).
5 Asselah,T.,Durantel,D.,Pasmant,E.,Lau,G.&Schinazi,R.F.COVID-19:Discovery, diagnostics and drug development.J Hepatol 74,168-184, doi:10.1016/j.jhep.2020.09.031(2021).
6 von Delft,F.et al.A white-knuckle ride of open COVID drugdiscovery.Nature 594, 330-332,doi:10.1038/d41586-021-01571-1(2021).
7 Laczko,D.et al.A Single Immunization with Nucleoside-Modified mRNAVaccines Elicits Strong Cellular and Humoral Immune Responses against SARS-CoV-2 in Mice. Immunity 53,724-732e727,doi:10.1016/j.immuni.2020.07.019(2020).
8 Baden,L.R.et al.Efficacy and Safety of the mRNA-1273 SARS-CoV-2Vaccine.N Engl J Med384,403-416,doi:10.1056/NEJMoa2035389(2021).
9 Polack,F.P.et al.Safety and Efficacy of the BNT162b2 mRNA Covid-19Vaccine.N Engl J Med 383,2603-2615,doi:10.1056/NEJMoa2034577(2020).
10 Gottlieb,R.L.et al.Effect of Bamlanivimab as Monotherapy or inCombination With Etesevimab on Viral Load in Patients With Mild to ModerateCOVID-19:A Randomized Clinical Trial.JAMA 325,632-644,doi:10.1001/jama.2021.0202(2021).
11 Riva,L.et al.Discovery ofSARS-CoV-2 antiviral drugs through large-scale compound repurposing.Nature 586,113-119,doi:10.1038/s41586-020-2577-1(2020).
12 Mirabelli,C.et al.Morphological Cell Profiling ofSARS-CoV-2Infection Identifies Drug Repurposing Candidates for COVID-19.bioRxiv,doi:10.1101/2020.05.27.117184 (2020).
13 Beigel,J.H.et al.Remdesivir for the Treatment ofCovid-19-FinalReport.N Engl J Med383,1813-1826,doi:10.1056/NEJMoa2007764(2020).
14 Silveira,D.et al.COVID-19:Is There Evidence for the Use ofHerbalMedicines as Adjuvant Symptomatic Therapy?Front Pharmacol 11,581840, doi:10.3389/fphar.2020.581840(2020).
15 Nugraha,R.V.,Ridwansyah,H.,Ghozali,M.,Khairani,A.F.&Atik,N.Traditional Herbal Medicine Candidates as Complementary Treatments forCOVID-19:AReview of Their Mechanisms,Pros and Cons.Evid Based ComplementAlternat Med 2020, 2560645,doi:10.1155/2020/2560645(2020).
16 Capodice,J.L.&Chubak,B.M.Traditional Chinese herbal medicine-potential therapeutic application for the treatment of COVID-19.Chin Med 16,24, doi:10.1186/s13020-020-00419-6(2021).
17 Aulner,N.,Danckaert,A.,Ihm,J.,Shum,D.&Shorte,S.L.Next-GenerationPhenotypic Screening in Early Drug Discovery for Infectious Diseases.TrendsParasitol 35,559-570,doi:10.1016/j.pt.2019.05.004(2019).
18 Lage,O.M.et al.Current Screening Methodologies in Drug Discoveryfor Selected Human Diseases.MarDrugs 16,doi:10.3390/md16080279(2018).
19 DiMasi,J.A.,Grabowski,H.G.&Hansen,R.W.Innovation in thepharmaceutical industry:New estimates of R&D costs.J Health Econ 47,20-33,doi:10.1016/j.jhealeco.2016.01.012(2016).
20 Anighoro,A.,Bajorath,J.&Rastelli,G.Polypharmacology:challenges andopportunities in drug discovery.J Med Chem 57,7874-7887,doi:10.1021/jm5006463(2014).
21 Ahmadian,E.et al.Monitoring ofdrug resistance towards reducing thetoxicity of pharmaceutical compounds:Past,present and future.J Pharm BiomedAnal 186, 113265,doi:10.1016/j.jpba.2020.113265(2020).
22 Willyard,C.New human gene tally reignites debate.Nature 558,354-355, doi:10.1038/d41586-018-05462-w(2018).
23 Vincent,F.et al.Developing predictive assays:the phenotypicscreening"rule of 3".Sci Transl Med 7,293ps215,doi:10.1126/scitranslmed.aab1201(2015).
24 Boder,E.T.&Jiang,W.Engineering antibodies for cancer therapy.AnnuRev Chem Biomol Eng 2,53-75,doi:10.1146/annurev-chembioeng-061010-114142(2011).
25 Jiang,W.et al.In vivo clonal expansion and phenotypesofhypocretin-specific CD4(+) T cells in narcolepsy patients and controls.NatCommun 10,5247,doi:10.1038/s41467- 019-13234-x(2019).
26 Vamathevan,J.et al.Applications ofmachine learning in drugdiscovery and development.Nat Rev Drug Discov 18,463-477,doi:10.1038/s41573-019-0024-5 (2019).
27 Rodrigues,J.,Heinrich,M.A.,Teixeira,L.M.&Prakash,J.3D In VitroModel (R)evolution:Unveiling Tumor-Stroma Interactions.Trends Cancer 7,249-264, doi:10.1016/j.trecan.2020.10.009(2021).
28 Wosen,J.E.et al.Human Intestinal Enteroids Model MHC-II in the GutEpithelium. Front Immunol 10,1970,doi:10.3389/fimmu.2019.01970(2019).
29 Drakhlis,L.et al.Human heart-forming organoids recapitulate earlyheart and foregut development.Nat Biotechnol 39,737-746,doi:10.1038/s41587-021-00815-9(2021).
30 Hoffmann,M.et al.SARS-CoV-2 Cell Entry Depends on ACE2 and TMPRSS2and Is Blocked by a Clinically Proven Protease Inhibitor.Cell 181,271-280e278, doi:10.1016/j.cell.2020.02.052(2020).
31 Bray,M.A.et al.Cell Painting,a high-content image-based assay formorphological profiling using multiplexed fluorescent dyes.Nat Protoc 11,1757-1774, doi:10.1038/nprot.2016.105(2016).
32 Indari,O.,Jakhmola,S.,Manivannan,E.&Jha,H.C.An Update onAntiviralTherapy Against SARS-CoV-2:How Far Have We Come?Front Pharmacol 12,632677,doi:10.3389/fphar.2021.632677(2021).
33 Hassanipour,S.et al.The efficacy and safety of Favipiravir intreatment ofCOVID-19: a systematic review and meta-analysis of clinicaltrials.Sci Rep 11,11022, doi:10.1038/s41598-021-90551-6(2021).
34 Ranjbar,K.et al.Methylprednisolone or dexamethasone,which one issuperior corticosteroid in the treatment ofhospitalized COVID-19 patients:atriple-blinded randomized controlled trial.BMC Infect Dis 21,337,doi:10.1186/s12879-021-06045-3 (2021).
35 Zhao,M.M.et al.Cathepsin Lplays a key role in SARS-CoV-2 infectionin humans and humanized mice and is a promising target for new drugdevelopment.Signal Transduct Target Ther 6,134,doi:10.1038/s41392-021-00558-8(2021).
36 Miller,L.H.&Su,X.Artemisinin:discovery from the Chinese herbalgarden.Cell 146, 855-858,doi:10.1016/j.cell.2011.08.024(2011).
37 Gibson,C.C.et al.Strategy for identifying repurposed drugs for thetreatment of cerebral cavernous malformation.Circulation 131,289-299, doi:10.1161/CIRCULATIONAHA.114.010403(2015).
38 Nishimura,S.et al.Combined HMG-COAreductase andprenylationinhibition in treatment of CCM.Proc Natl Acad Sci U S A 114,5503-5508, doi:10.1073/pnas.1702942114(2017).
39 Snijder,B.et al.Image-based ex-vivo drug screening for patientswith aggressive haematological malignancies:interim results from a single-arm,open-label,pilot study. Lancet Haematol 4,e595-e606,doi:10.1016/S2352-3026(17)30208-9(2017).
40 Hall,S.E.Chemoproteomics-driven drug discovery:addressing highattrition rates. Drug Discov Today 11,495-502,doi:10.1016/j.drudis.2006.04.014(2006).
41 Jones,L.H.&Bunnage,M.E.Applications ofchemogenomic libraryscreening in drug discovery.Nat Rev Drug Discov 16,285-296,doi:10.1038/nrd.2016.244(2017).

Claims (20)

1.一种基于靶标细胞健康状况或人体疾病的基因与药物作用之间的关系,通过人工智能方式研判,筛选药物的方法,所述方法包括:
步骤1:观察体外或离体靶标细胞健康状况或解析疾病的基因表型或特征,通过人工智能筛选广谱药物作用,比中至少一种特效药物;
步骤2:经由人工智能算法加快对细微的细胞改变进行药物筛选和效果分析;以及
步骤3:采用人工智能方式研判重组药物或成分与靶标细胞系统为基础的人类健康状态之间的关系,以指导药物作用的靶点重新定位和标识。
2.根据权利要求1所述的方法,其特征在于,在步骤1中,通过人工智能筛选广谱药物作用时,基于以表型为关键判据的范式,该范式寻求经过药物治疗的靶标细胞的表型改变。
3.根据权利要求1所述的方法,其特征在于,步骤1进一步包括:靶标细胞分离、靶标细胞培养、靶标细胞处理和靶标细胞表型测定。
4.根据权利要求3所述的方法,其特征在于,靶标细胞表型测定进一步包括利用荧光标记和利用高通量高内涵显微术进行靶标细胞测定。
5.根据权利要求4所述的方法,其特征在于,在基于显微镜的表型测定的情况下,获取大于106个高内涵图像用于筛选大于104个不可知作用靶标但有效的未来药物。
6.根据权利要求1所述的方法,其特征在于,步骤2进一步包括:
使用人工智能机器学习模型的通用数据集对进行预先训练,
优化人工智能机器学习模型,
将人工智能机器学习模型用于使用表型测定产生的数据筛选出阳性药物物质。
7.根据权利要求6所述的方法,其特征在于,在预先训练步骤中,人工智能机器学习模型的神经网络主干包括ResNet、VGG、DenseNet和Inception中的至少一种。
8.根据权利要求6所述的方法,其特征在于,在优化步骤中,经过训练的人工智能机器学习模型可以使用优化器在若干个时期内就药物信息批量大小和学习率进行优化。
9.根据权利要求8所述的方法,其特征在于,所述批量大小为16单位至256单位,所述学习率为1e-6单位至1e-2单位,所述时期数目为10单位至500单位。
10.根据权利要求8所述的方法,其特征在于,所述优化器包括Adam、SGD和RMSprop中的至少一种。
11.根据权利要求6所述的方法,其特征在于,所述人工智能算法包括:
通过特征提取和嵌入将药物效果测定表型产生的数据或数据集变换为高维向量;
检测和/或分割和区分嵌入之间的细胞表型特征,比对每个嵌入表型特征表示健康细胞状态、疾病细胞状态、或经过药物治疗的细胞状态;
采用各种格式报告比对结果以反映经过药物治疗的细胞状态与健康细胞状态或疾病细胞状态的差异程度。
12.根据权利要求11所述的方法,其特征在于,每个比对状况包括至少一个数据点,用于指导药物筛选。
13.根据权利要求11所述的方法,其特征在于,所述结果的格式包括基于药物的对应嵌入与表示健康细胞状态的嵌入相比的差异程度来对药物进行排名的数值、以及说明经过药物治疗的细胞状态与健康细胞状态的差异程度的视觉表型/表征呈现。
14.根据权利要求13所述的方法,其特征在于,所述数值包括Son和Soff,该Son和Soff分别指示药物的有效性的程度和潜在副作用:
其中Xc,μ'h和μ'd分别指示表示经过药物治疗的细胞表型/表征状态、所有健康细胞状态排名数值的均值、以及通过异常程度过滤准则的所有疾病状态的均值。
15.根据权利要求6所述的方法,其特征在于,所述人工智能算法为专用的降维方法的人工智能分析,其包括t分布随机邻域嵌入(t-SNE)和均匀流形近似和投影(UMAP)中的至少一种。
16.根据权利要求14所述的方法,其特征在于,步骤3进一步包括:建立连接所有可能影响药物和与健康状况或疾病有关的细胞的表型的网络,该网络通过累积AI报告的筛选结果而建立。
17.根据根据权利要求16所述的方法,其特征在于,所述AI报告的筛选结果包括每种药物物质或成分在影响靶标细胞表型方面的分数Son和Soff,该Son和Soff分别指示药物的有效性的程度和潜在副作用:
其中Xc,μ'h和μ'd分别指示表示经过药物治疗的细胞表型/表征状态、所有健康细胞状态排名数值的均值、以及通过异常程度过滤准则的所有疾病状态的均值。
18.根据权利要求1所述的方法,其特征在于,人和药物之间的这种细胞表型关系研判用于指导作用靶标不可知的未来药物的筛选、重新定位和区分,筛选出用于临床前和临床试验的先导药物。
19.一种计算机系统,用于筛选基于靶标细胞或疾病与药物之间与基因相关的治疗药物,其中,所述系统包括至少一个处理器和存储器,所述存储器中存储有计算机程序,当所述计算机程序由所述处理器执行时,可实现如权利要求1所述的筛选药物的方法。
20.一种计算机可读介质,其上存储有可由处理器执行的指令,所述指令在被处理器执行时,使得处理器执行如权利要求1所述的筛选药物的方法。
CN202210292040.2A 2022-03-23 2022-03-23 通过人工智能筛选药物的方法 Pending CN116844686A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210292040.2A CN116844686A (zh) 2022-03-23 2022-03-23 通过人工智能筛选药物的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210292040.2A CN116844686A (zh) 2022-03-23 2022-03-23 通过人工智能筛选药物的方法

Publications (1)

Publication Number Publication Date
CN116844686A true CN116844686A (zh) 2023-10-03

Family

ID=88169340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210292040.2A Pending CN116844686A (zh) 2022-03-23 2022-03-23 通过人工智能筛选药物的方法

Country Status (1)

Country Link
CN (1) CN116844686A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11961622B1 (en) * 2022-10-21 2024-04-16 Realyze Intelligence, Inc. Application-specific processing of a disease-specific semantic model instance

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11961622B1 (en) * 2022-10-21 2024-04-16 Realyze Intelligence, Inc. Application-specific processing of a disease-specific semantic model instance
US20240136070A1 (en) * 2022-10-21 2024-04-25 Realyze Intelligence, Inc. Application-Specific Processing of a Disease-Specific Semantic Model Instance

Similar Documents

Publication Publication Date Title
Benton et al. The influence of evolutionary history on human health and disease
Cortese et al. Ultrastructural characterization of Zika virus replication factories
Mo et al. Epigenomic landscapes of retinal rods and cones
Hemani et al. Retracted article: Detection and replication of epistasis influencing transcription in humans
Lim et al. HTLV-I infection: a dynamic struggle between viral persistence and host immunity
Remmele et al. Integrated inference and evaluation of host–fungi interaction networks
US7324928B2 (en) Method and system for determining phenotype from genotype
Nakaya et al. Systems vaccinology: its promise and challenge for HIV vaccine development
Ortiz et al. How to become an apomixis model: The multifaceted case of Paspalum
Saunders et al. A single-cell atlas of cell types, states, and other transcriptional patterns from nine regions of the adult mouse brain
Zhang et al. Cytomegalovirus anterior uveitis: clinical manifestations, diagnosis, treatment, and immunological mechanisms
CN116844686A (zh) 通过人工智能筛选药物的方法
Schultz et al. Zika virus infection leads to demyelination and axonal injury in mature CNS cultures
Schmuck et al. Automated high content image analysis of dendritic arborization in primary mouse hippocampal and rat cortical neurons in culture
Tierney et al. Systems biology of host–fungus interactions: turning complexity into simplicity
Tak et al. Prediction of anticancer drug resistance using a 3D microfluidic bladder cancer model combined with convolutional neural network-based image analysis
Jayachandran et al. Decoding information on COVID–19: Ontological approach towards design possible therapeutics
Fagny et al. A network-based approach to eQTL interpretation and SNP functional characterization
Hu et al. Investigating the evolutionary importance of Denisovan introgressions in Papua New Guineans and Australians
Leng et al. DVsc: an automated framework for efficiently detecting viral infection from single-cell transcriptomics data
Barteri Impact of transposition on the generation of genetic variability in Prunus crop species
Hiroyasu et al. Algorithms for automatic extraction of feature values of corneal endothelial cells using genetic programming
Teufel et al. Uncovering modeling features of viral replication dynamics from high-throughput single-cell virology experiments
Adams et al. An automated method for segmenting highly convoluted mitochondrial inner membranes from electron microscopic tomograms
Chen et al. Quantitative Analysis of Interactive Behavior of Mitochondria and Lysosomes using Structured Illumination Microscopy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication