CN115315754A - 关注药物或该药物的等效物质的适应症的预测方法、预测装置和预测程序 - Google Patents

关注药物或该药物的等效物质的适应症的预测方法、预测装置和预测程序 Download PDF

Info

Publication number
CN115315754A
CN115315754A CN202180022106.XA CN202180022106A CN115315754A CN 115315754 A CN115315754 A CN 115315754A CN 202180022106 A CN202180022106 A CN 202180022106A CN 115315754 A CN115315754 A CN 115315754A
Authority
CN
China
Prior art keywords
drug
indication
prediction
artificial intelligence
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180022106.XA
Other languages
English (en)
Inventor
佐藤匠德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Infinite Biopharmaceutical Co
Original Assignee
Infinite Biopharmaceutical Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Infinite Biopharmaceutical Co filed Critical Infinite Biopharmaceutical Co
Publication of CN115315754A publication Critical patent/CN115315754A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12MAPPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
    • C12M1/00Apparatus for enzymology or microbiology
    • C12M1/34Measuring or testing with condition measuring or sensing means, e.g. colony counters
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/02Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving viable microorganisms
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/15Medicinal preparations ; Physical properties thereof, e.g. dissolubility
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Organic Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Zoology (AREA)
  • Biotechnology (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Analytical Chemistry (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Urology & Nephrology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Pathology (AREA)
  • Food Science & Technology (AREA)
  • Hematology (AREA)
  • Genetics & Genomics (AREA)
  • Toxicology (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)

Abstract

本发明的目的是基于不良事件和/或副作用来针对不良事件和/或副作用不确定的药物进行适应症的预测、药物再定位和/或药物再利用。该目的通过以下来实现:一种用于关注药物或其等效物质的适应症的预测方法,包括:将根据如下的数据集所估计的估计不良事件相关信息作为测试数据输入到预测用人工智能模型中,以预测所述关注药物或其等效物质的适应症,所述数据集表示从被施予了所述关注药物或其等效物质作为测试物质的非人类动物收集到的一个或多于一个器官中的生物标志物的行为。

Description

关注药物或该药物的等效物质的适应症的预测方法、预测装 置和预测程序
技术领域
本说明书公开了关注药物或其等效物质的适应症的预测方法、预测装置和预测程序。
背景技术
药物的发现和开发需要很长时间和大量金钱,并且在该过程中存在风险。据说新药的发现和开发平均需要12年并且需要约26亿美元的费用。尽管进行了如此巨大的努力,但据说仅13.8%的药物候选在临床试验中成功。为了避免这些问题,提出了数个策略和方法并投入实践。这些策略和方法其中之一是现有药物的再定位和再利用(DR)(非专利文献1)。
DR是探索临床批准的现有医药产品的(一个或多于一个)进一步治疗适应症(TI)的方法。在DR中,所需的开发时间短,并且费用不像新药开发的费用那么高。此外,这些医药产品已经被批准用于处置人类的至少一个疾病或症状。因此,对人类的毒性的担忧较少。因此,在DR中可以跳过I期临床试验并立即进入II期试验。另外,由于这些药物已被大规模生产以供人类使用,因此临床使用的生产过程已被优化。DR的这些特性可以使得大大节省开发和批准过程的时间和成本(非专利文献1)。
目前,存在两个主要类型的DR方法。这两个方法中的一个方法是通过彻底研究和理解各DR药物候选的生物学、药理学和/或结构性质来合理设计和筛选该DR药物候选的新适应症和/或应用的方法。另一方法是依赖于意外发现(偶然发现)的方法。换句话说,可能存在临床前试验、临床试验和/或现实世界中新药的监测期间偶然发现新适应症和/或新应用的情况。这些一般方法相对无效,并且是当前DR发现过程的瓶颈(非专利文献1)。
作为用于在新药的开发中辅助新药的候选物质的探索的方法,专利文献1公开了如下的方法,该方法包括:将从源自已被施予测试物质的个体的一个或多于一个器官的细胞或组织所获得的各器官中的器官相关指标因子的测试数据与初步确定的器官相关指标因子的相应标准数据进行比较,以获得用于计算器官相关指标因子的模式的相似度的模式相似度;以及使用器官相关指标因子的模式相似度作为指标来预测测试物质在一个或多于一个器官中和/或在除该一个或多于一个器官以外的器官中的功效或副作用。
此外,作为用于预测候选物质在新药的开发中的功效或副作用的方法,专利文献2和非专利文献2公开了一种人工智能模型,该人工智能模型用于根据与从已被施予测试物质以准备训练数据的非人类动物收集到的多个不同器官相同的多个不同器官中的转录组(transcriptome)的行为来预测测试物质对人类的一个或多于一个作用。该方法包括将表示从非人类动物(其中针对各个非人类动物单独施予了对人类的作用已知的多个已知药物)收集到的多个不同器官中的转录组的行为的数据集以及表示各已知药物对人类的已知作用的数据作为训练数据输入到人工智能模型中,以训练该人工智能模型。
现有技术文献
专利文献
专利文献1:WO2016/208776
专利文献2:日本专利6559850
非专利文献
非专利文献1:Pushpakom,S et al.,(2019):Nature reviews Drug discovery18,41-58。
非专利文献2:Kozawa,S et al.,(2020):iScience(DOI:10.1016/j.isci.2019.100791)。
非专利文献3:Li,J.,and Lu,Z.(2012):Proceedings(IEEE Int ConfBioinformatics Biomed)2012,1-4。
发明内容
发明要解决的问题
非专利文献3中描述的方法是从已知药物数据库获取与不良事件和/或副作用有关的信息和与适应症有关的信息以预测新适应症的方法。在这种情况下,必须预先知晓与期望探索新适应症的关注药物相关的不良事件和/或副作用。因此,该方法不适用于新药。
本发明的目的是基于不良事件和/或副作用来针对无已知不良事件和/或副作用的药物实现适应症的预测、药物再定位和/或药物再利用。
用于解决问题的方案
作为深入研究的结果,本发明人发现,使用基于公共数据库等中所登记的各个已知药物的与不良事件和/或副作用有关的信息以及与适应症有关的信息所训练的人工智能模型、以及专利文献2和非专利文献2中所描述的人工智能模型,可以针对无已知不良事件和/或副作用的药物实现适应症的预测、药物再定位和/或药物再利用。
本发明是基于该发现而做出的,并且包括以下方面。
项1.一种关注药物或其等效物质的适应症的预测方法,所述预测方法包括:将根据数据集所估计的估计不良事件相关信息作为测试数据输入到预测用人工智能模型中,以预测所述关注药物或其等效物质的适应症,所述数据集表示从被施予了所述关注药物或其等效物质作为测试物质的非人类动物收集到的一个或多于一个器官中的生物标志物的行为。
项2.项1所述的预测方法,其中,借助于训练数据集来训练所述预测用人工智能模型,以及其中,所述训练数据集是如下的数据,在该数据中,(i)针对各个已知药物报告的已报告不良事件相关信息和/或已报告副作用相关信息与(ii)针对所述已知药物报告的适应症数据链接。
项3.根据项1或2所述的预测方法,其中,所述预测用人工智能模型与一个适应症相对应。
项4.根据项1或2所述的预测方法,其中,所述预测用人工智能模型与多个适应症相对应。
项5.根据项1至4中任一项所述的预测方法,其中,所述估计不良事件相关信息和/或估计副作用相关信息是使用与所述预测用人工智能模型不同的估计用人工智能模型所生成的。
项6.根据项1至5中任一项所述的预测方法,其中,所述训练数据集是通过将表示所述已知药物的适应症的标签和与针对所述已知药物报告的不良事件有关的信息利用表示所述已知药物的名称的标签进行链接所生成的。
项7.根据项1至6中任一项所述的预测方法,其中,所述估计不良事件相关信息和/或估计副作用相关信息与(1)多个不良事件和/或副作用的有无、或者(2)多个不良事件和/或副作用的发生频率相对应。
项8.一种用于预测关注药物或其等效物质的适应症的装置,所述装置包括处理部,其中,所述处理部被配置为将根据数据集所估计的估计不良事件相关信息作为测试数据输入到预测用人工智能模型中,以预测所述关注药物或其等效物质的适应症,所述数据集表示从被施予了所述关注药物或其等效物质作为测试物质的非人类动物收集到的一个或多于一个器官中的生物标志物的行为。
项9.一种用于预测关注药物或其等效物质的适应症的计算机程序,所述计算机程序能够由计算机执行以使所述计算机执行以下步骤:将根据数据集所估计的估计不良事件相关信息作为测试数据输入到预测用人工智能模型中,以预测所述关注药物或其等效物质的适应症,所述数据集表示从被施予了所述关注药物或其等效物质作为测试物质的非人类动物收集到的一个或多于一个器官中的生物标志物的行为。
项10.一种用于估计测试物质在生物体中的作用机制的估计方法,包括:
基于通过根据项1至7中任一项所述的预测方法所预测的与适应症有关的预测结果,通过聚类来对表示在预测适应症时使用的一个或多于一个器官中的生物标志物的行为的数据集进行分层级;以及
对分层级后的表示生物标志物的行为的数据集进行途径分析,以获取与所述测试物质的作用机制有关的信息。
项11.一种用于估计测试物质在生物体中的作用机制的估计装置,所述估计装置包括处理部,
其中,所述处理部被配置为:基于通过根据项1至7中任一项所述的预测方法所预测的与适应症有关的预测结果,通过聚类来对表示在预测适应症时使用的一个或多于一个器官中的生物标志物的行为的数据集进行分层级;以及
对分层级后的表示生物标志物的行为的数据集进行途径分析,以获取与所述测试物质的作用机制有关的信息。
项12.一种用于估计测试物质在生物体中的作用机制的估计程序,所述估计程序能够由计算机执行以使所述计算机执行包括以下步骤的处理:
基于通过根据项1至7中任一项所述的预测方法所预测的与适应症有关的预测结果,通过聚类来对表示在预测适应症时使用的一个或多于一个器官中的生物标志物的行为的数据集进行分层级;以及
对分层级后的表示生物标志物的行为的数据集进行途径分析,以获取与所述测试物质的作用机制有关的信息。
发明的效果
本发明使得可以基于不良事件和/或副作用来针对无已知不良事件和/或副作用的药物实现适应症的预测、药物再定位和/或药物再利用。
附图说明
图1例示本说明书中所公开的用于预测适应症的方法的概述。
图2示出用于估计与用于生成测试数据的不良事件有关的信息的方法。
图3示出训练数据的示例。图3的(A)示出用于神经损伤的训练数据集的示例。图3的(B)示出用于2型糖尿病的训练数据集。
图4示出预测用训练装置10的硬件结构。
图5示出预测用训练处理的流程图。
图6示出表示生物标志物的行为的数据的示例。
图7示出所生成的第二训练数据的示例。
图8例示用于生成预测用测试数据的装置50的硬件结构。
图9示出利用估计用训练程序的处理的流程图。
图10示出利用估计程序的处理的流程图。
图11例示预测装置20的硬件结构。
图12示出预测处理的流程图。
图13例示用于估计作用机制的装置80的硬件结构。
图14示出利用分析程序的处理的流程图。
图15示出所有药物的准确率得分、召回率得分和精度得分的分布。
图16示出进行了适应症预测的药物中的准确率得分、精度得分和召回率得分全部为1.0的前50个药物的各个得分。
图17示出所有适应症的准确率得分、召回率得分和精度得分的分布。
图18示出所预测的适应症中的准确率得分、精度得分和召回率得分全部为1.0的前50个适应症的各个得分。
图19示出盲法评估的结果。
图20示出V-AE和R-AE之间的比较。
图21示出使用V-AE所获得的15种测试药物的适应症预测结果。图21的(A)示出混合基质的结果。图21的(B)示出使用V-AE所获得的15种测试药物的适应症预测结果与使用LP所获得的15个测试药物的适应症预测结果之间的准确率得分、精度得分和召回率得分的比较。
图22示出通过V-AE的适应症预测结果与通过使用R-AE的单类SVM的适应症预测结果之间的比较。上部示出TP的比较,并且下部示出FP的比较。
图23示出通过V-AE的适应症预测结果与通过使用R-AE的LP的适应症预测结果之间的比较。上部示出TP的比较,并且下部示出FP的比较。
图24的(A)是示出各测试药物的V-AE与各适应症之间的关系的树形图。图24的(B)是示出各测试药物的转录组谱与各适应症之间的关系的树形图。
图25示出用于骨质疏松症和精神分裂症的药物的作用机制之间的比较。图25的(A)示出V-AE的分布,并且图25的(B)示出转录组模式的分布。
图26示出使用REACTOME途径所预测的与药物对各器官中的骨质疏松症和精神分裂症的作用相关联的途径(pathway)之间的比较结果。
图27示出使用KEGG途径所预测的与药物对各器官中的骨质疏松症和精神分裂症的作用相关联的途径之间的比较结果。
具体实施方式
1.训练方法和预测方法的概述以及术语的说明
首先,概述作为本发明的某些实施例的用于训练人工智能的方法以及预测方法。预测方法预测关注药物或其等效物质的适应症(在本说明书中,药物及其等效物质可以被共同简称为“药物等”)。优选地,预测方法使用根据生物标志物的行为所估计的与不良事件(AE)相关的信息和/或与副作用(SE)相关的信息(其在下文中分别被称为“估计不良事件相关信息”和“估计副作用相关信息”)作为测试数据,该生物标志物的行为是通过将关注药物或其等效物质作为测试物质施予非人类动物、从被施予药物的非人类动物收集一个或多于一个器官、并从所收集的一个或多于一个器官获取表示生物标志物的行为的数据集所获得的。预测方法基于测试数据来预测关注药物或其等效物质的适应症(治疗适应症:TI)。该预测使用人工智能模型来实现。这里,为了方便起见,示出使用不良事件的示例。
(1)训练阶段
图1的上部示出训练阶段的概述。训练数据包括基于可从公共药物数据库获得的信息的、与针对已知药物报告的人类中的不良事件有关的信息(其在下文中也可以被称为“已报告不良事件相关信息”)和针对已知药物报告的适应症数据。作为图1中的示例,示出后面所述的FAERS,并且在该药物数据库中针对各药物登记在人类中报告和未报告的不良事件。换句话说,针对各药物登记与多种不良事件中的各不良事件是否已出现有关的信息。在本说明书中,将与针对一个药物是否出现了某个不良事件(某个不良事件的有无)有关的信息称为不良事件数据。不良事件数据与表示药物名称的标签相链接,其中药物名称表示不良事件数据属于哪个药物。在药物数据库中,针对各药物登记多个不良事件数据,并且这些不良事件数据构成不良事件数据集。因此,与不良事件有关的信息可以包括(i)针对一个药物所登记的不良事件数据集、或(ii)基于一个药物的不良事件数据集所计算出的各不良事件的发生频率数据集。发生频率数据与表示药物名称的标签相链接,其中药物名称表示发生频率数据属于哪个药物。
类似地,同样对于适应症,针对各药物登记适用的疾病或症状、以及尚未报告适用性的人类中的疾病或症状。换句话说,对于多种疾病或症状,针对各药物记录表示各疾病或症状是否是适应症的信息。在本说明书中,将表示一个药物是否可以适用于某个疾病或症状的信息称为“适应症数据”。适应症数据与表示药物名称的标签链接,其中药物名称表示适应症数据属于哪个药物。在药物数据库中,针对各药物登记了多个适应症数据,并且这些适应症数据构成适应症数据集。表示疾病或症状是否是包括在训练数据中的适应症的信息仅仅是登记在药物数据库中的信息,并且可以包括尚未通过实验确认药物是否实际适用的信息。
这里,术语“链接”仅旨在意味着附加标签、使得可以理解各数据与该数据所属于的药物之间的对应关系。没有向要输入到人工智能的与不良事件有关的信息以及适应症数据附加表示药物名称的标签。
在图1的上部,与针对各个已知药物(图1中的药物1、…)所报告的不良事件(图1中的AE1、AE2、AE3、AE4、…)有关的信息可以基于例如表示药物名称的标签,针对各药物与各适应症数据(适应症A:是、适应症B:否)相链接。
举例来说,图1示出使用不具有诸如随机森林(RF)等的神经网络结构的人工智能模型的示例。
在该示例中,针对一个适应症使用一个人工智能模型,并且针对各适应症训练人工智能模型。
因此,为了预测对预定适应症(例如,适应症A)的适用性,将与针对各个已知药物报告的不良事件(图1中的AE1、AE2、AE3、AE4、…)有关的信息和与各药物相对应的适应症数据(例如,适应症A:是)组合输入到一个人工智能模型中以训练该人工智能模型。类似地,为了预测对其他适应症(例如,适应症B)的适用性,将与针对各个已知药物报告的不良事件(图1中的AE1、AE2、AE3、AE4、…)有关的信息和与各药物相对应的适应症数据(例如,适应症B:否)组合输入到一个人工智能模型中以训练该人工智能模型。在该训练阶段中训练的人工智能模型是如后面说明的用于从预测用测试数据预测适应症的人工智能模型,并且被称为预测用人工智能模型。
药物可以包括或可以不包括获取到在预测阶段中使用的测试数据的药物。
(2)预测阶段
接着,使用经训练的人工智能模型来预测关注药物或其等效物质的适应症。优选地,预测人类中的适应症。更优选地,预测新适应症。新适应症是对于某个药物尚未知晓的适应症。
根据专利文献2和非专利文献2中描述的方法来生成预测用测试数据。具体地,使用与预测用人工智能模型不同的估计用人工智能模型来生成预测用测试数据。
图2示出用于训练估计用人工智能模型以生成预测用测试数据的方法以及用于使用估计用人工智能模型来生成预测用测试数据的方法的概述。
如图2所示,在估计用人工智能模型的训练阶段,例如,将已知药物A、B和C单独施予诸如小鼠等的非人类动物,并从各非人类动物收集器官或作为器官的一部分的组织。接着,分析所收集的器官或组织中的生物标志物的行为以生成反映生物标志物的行为的第一训练数据集。此外,从存储与针对已知药物报告的不良事件有关的信息的人类临床数据库(药物数据库)生成作为与不良事件有关的信息的第二训练数据。
通过使用第一训练数据集和第二训练数据训练估计用人工智能模型来生成估计用人工智能模型。估计阶段使用表示被施予了测试物质X的非人类动物的一个或多于一个器官中的生物标志物的行为的数据作为估计用测试数据,借助于经训练的估计用人工智能模型来预测人类中的与测试物质X相关的不良事件。具体地,从被施予了测试物质X的非人类动物单独收集一个或多于一个器官或者器官的一部分,以获取表示各器官中的生物标志物的行为的数据集。随后,将该数据集作为估计用测试数据输入到经训练的估计用人工智能模型中,以预测人类中的与测试物质X相关的不良事件的有无或其发生频率。从估计用人工智能模型输出的(A)与针对测试物质X所预测的不良事件有关的数据集或(B)与针对测试物质X所预测的各不良事件的发生频率有关的数据集用作针对测试物质X所估计的估计不良事件相关信息。与不良事件有关的数据集和与发生频率有关的数据与表示药物名称的标签链接,其中药物名称表示发生频率数据所属于的药物。这样,可以根据专利文献2和非专利文献2中描述的方法获取到各个数据,并且可以使用这些数据来针对在已知的药物数据库中没有登记不良事件的药物估计与不良事件有关的信息。
再次参考图1,说明使用预测用人工智能模型来预测关注药物等的适应症的预测阶段。在该预测阶段中,使用由估计用人工智能模型估计的估计不良事件相关信息作为测试数据。将该测试数据输入到如以上在第(1)节中所述训练的人工智能模型中以预测适应症。
图1的下部示出预测阶段的示例。这里,基于表示从被施予了期望预测适应症的药物(药物X)的非人类动物获取到的各器官中的生物标志物的行为的数据集,根据上述方法使用估计用人工智能模型来生成与估计不良事件有关的信息AE1、AE2、AE3、AE4、…。图1的下部中描述的“hMDB”旨在意味着在非专利文献2中报告的个体化人源化小鼠数据库即hMDB-i。将与估计的不良事件有关的信息AE1、AE2、AE3、AE4、…作为预测用测试数据分别输入到针对各适应症所训练的人工智能模型(图1中的针对适应症A的RF和针对适应症B的RF)中。在药物X对适应症A无效的情况下,从预测对适应症A的适用性的针对适应症A的RF输出表示没有适用性的标签“否”。另一方面,在药物X对适应症B有效的情况下,从针对适应症B的RF输出标签“是”。此时,适应症B可以被预测为药物X的适应症。在适应症B是针对药物X尚未知晓的适应症时,适应症B是药物X的新适应症。
这样,通过使用hMDB,可以基于与不良事件有关的信息针对在已知的药物数据库中没有登记不良事件的药物等来预测人类中的适应症。
此外,本实施例包括从所预测的适应症预测关注药物等的作用机制。
(3)术语的说明
在本发明中,术语“药物”包括医药产品、准医药产品、药妆产品、食品、特定保健用食品、具有功能声称的食品及其候选。此外,术语“药物”还包括在用于药物批准的临床前或临床试验期间停止或暂停测试的物质。此外,术语“药物”包括新药和已知药物。更具体地,术语“药物”例如可以包括:化合物;核酸;糖类;脂类;糖蛋白;糖脂;脂蛋白;氨基酸;多肽;蛋白质;多酚类;趋化因子(chemokines);选自包含上述物质的最终代谢物、中间代谢物和合成原料物质的组的至少一种代谢物质;金属离子;或微生物。这里,术语“药物”或其等效物质可以包括单个药物和组合了多种药物的伴生药物。
“关注药物”是期望预测适应症的药物。
“已知药物”不受限制,只要它是现有药物即可。优选地,已知药物是对人类的作用已知的药物。此外,术语“药物的等效物质”可以包括与现有药物具有类似结构和类似作用的药物。术语“类似作用”在这里旨在意味着具有与已知药物相同种类的作用,尽管作用的强度不同。
“不良事件”不受限制,只要它是被判断为对人类有害的作用即可。优选的示例包括在诸如FAERS(https://www.fda.gov/Drugs/GuidanceComplianceRegulatoryInformation/Surveillance/AdverseDrugEffects/ucm082193.htm)或clinicaltrials.gov(https://clinicaltrials.gov/)等的公共药物数据库中列出的不良事件。
术语“副作用”旨在意味着不限于不良事件的、除各药物的适应症以外的对人类的作用。副作用的示例包括在诸如SIDER4.1(http://sideeffects.embl.de)等的公共药物数据库中列出的副作用。
不良事件或副作用的发生频率可以通过以下方法来获得。表示不良事件的名称的单词或短语例如通过从如上所述的数据库(诸如clinicaltrials.gov、FAERS、或DAILYMED的所有药物标签等)中的文本提取来提取。所提取的一个单词或短语可以被计数为所报告的一个不良事件。当以不良事件为例时,对于一个已知药物,可以根据下式来获得发生频率:发生频率=(针对一个不良事件报告的病例数量)/(针对已知药物报告的不良事件的病例总数)。在将与作用相关的说明以文本形式登记在数据库中的情况下,可以在提取与作用相对应的文本之前通过自然语言处理对所登记的文本进行句法分析、分词或语义分析等。
“适应症”不受限制,只要它是应被减轻、处置、停止进行或预防的人类的疾患或症状即可。疾患或症状的示例包括诸如上述FAERS、DAILYMED的所有药物标签(https://dailymed.nlm.nih.gov/dailymed/spl-resources-all-drug-labels.cfm)、医学主题词表(Medical Subject Headings)(https://www.nlm.nih.gov/mesh/meshhome.html)、Drugs@FDA(https://www.accessdata.fda.gov/scripts/cder/daf/)或国际疾病分类(https://www.who.int/health-topics/international-classification-of-diseases)等的公共药物数据库中所列出的疾患或症状。更具体地,适应症的示例包括诸如血栓症、栓塞症和狭窄症(stenosis)等的缺血性疾患(特别是心脏、脑、肺、大肠等);诸如动脉瘤、静脉瘤、充血和出血等的循环障碍(主动脉、静脉、肺、肝脏、脾脏、视网膜等);诸如过敏性支气管炎和肾小球肾炎等的过敏性疾病;诸如阿尔茨海默型痴呆症等的痴呆症;诸如帕金森病、肌萎缩性侧索硬化症和重症肌无力症等的变性疾患(神经、骨骼肌等);肿瘤(良性上皮性肿瘤、良性上皮性肿瘤、恶性上皮性肿瘤、恶性非上皮性肿瘤);代谢性疾病(糖类代谢异常、脂类代谢异常、电解质失衡);传染病(细菌、病毒、立克次体(rickettsia)、衣原体、真菌、原虫、寄生虫等);以及诸如肾脏疾病、系统性红斑和多发性硬化等的与自身免疫性疾病等相关联的症状或疾病。
在本发明中,术语“人工智能模型”意味着可以从输入数据集输出感兴趣的结果的算法的单位。人工智能模型的示例可以包括随机森林(RF)、支持向量机(SVM)、相关向量机(RVM)、朴素贝叶斯、逻辑回归、前馈神经网络、深度学习、k近邻算法、Adaboost、bagging、C4.5、核近似、随机梯度下降(SGD)分类器、Lasso、岭回归、弹性网络、SGD回归、核回归、LOWESS回归、矩阵分形、非负矩阵分形、核矩阵分形、插值、核平滑器和协作过滤。
在本发明中,训练预测用人工智能模型和估计用人工智能模型可以包括验证和泛化等。验证和泛化的示例包括保持(holdout)法、交叉验证法、AIC(信息理论准则/Akaike信息准则)、MDL(最小描述长度)和WAIC(广泛适用的信息准则)。
在本发明中,非人类动物不受限制。示例包括诸如小鼠、大鼠、狗、猫、兔、牛、马、山羊、绵羊和猪等的哺乳动物以及诸如鸡等的鸟类。优选地,非人类动物是诸如小鼠、大鼠、狗、猫、牛、马和猪等的哺乳动物,更优选地是小鼠或大鼠等,并且再优选地是小鼠。非人类动物还包括这些动物的胎儿和雏等。
“器官”不受限制,只要它是存在于如上所述的哺乳动物或鸟类的身体中的器官即可。例如,在哺乳动物的情况下,器官是选自如下项中的至少一种:循环系统器官(心脏、动脉、静脉、淋巴管等)、呼吸系统器官(鼻腔、副鼻腔、喉头、气管、支气管、肺等)、消化系统器官(唇、颊部、颚、齿、牙龈、舌、唾液腺、咽、食道、胃、十二指肠、空肠、回肠、盲肠、阑尾、上行结肠、横结肠、S状结肠、直肠、肛门、肝脏、胆囊、胆管、胆道、胰腺、胰管等)、泌尿系统器官(尿道、膀胱、输尿管、肾脏)、神经系统器官(大脑、小脑、中脑、脑干、脊髓、末梢神经、自主神经等)、女性生殖系统器官(卵巢、输卵管、子宫、阴道等)、乳房、男性生殖系统器官(阴茎、前列腺、睾丸、附睾(epididymis)、输精管)、内分泌系统器官(下丘脑、脑垂体、松果体、甲状腺、副甲状腺、肾上腺等)、外皮系统器官(皮肤、毛发、指甲等)、造血系统器官(血液、骨髓、脾脏等)、免疫系统器官(淋巴结、扁桃体、胸腺等)、骨和软组织器官(骨、软骨、骨骼肌、结缔组织、韧带、腱、膈膜、腹膜、胸膜、脂肪组织(棕色脂肪、白色脂肪)等和感觉系统器官(眼球、眼睑、泪腺、外耳、中耳、内耳、耳蜗等)。优选地,“器官”是选自如下项中的至少一种:骨髓、胰腺、头盖骨、肝脏、皮肤、脑、脑垂体、肾上腺、甲状腺、脾脏、胸腺、心脏、肺、主动脉、骨骼肌、睾丸、附睾脂肪、眼球、回肠、胃、空肠、大肠、肾脏和腮腺。优选地,骨髓、胰腺、头盖骨、肝脏、皮肤、脑、脑垂体、肾上腺、甲状腺、脾脏、胸腺、心脏、肺、主动脉、骨骼肌、睾丸、附睾脂肪、眼球、回肠、胃、空肠、大肠、肾脏和腮腺均在根据本发明的预测中使用。术语“多个器官”不受限制,只要器官的数量是两个或多于两个即可。例如,多个器官可以选自2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或24个类型的器官。
术语“生物标志物”是指可根据物质的施予、在各器官的细胞或组织中和/或在体液中变化的生物物质。可用作“生物标志物”的生物物质的示例是选自以下项中的至少一种:核酸;糖类;脂类;糖蛋白;糖脂;脂蛋白;氨基酸、多肽;蛋白质;多酚类;趋化因子;选自包含上述物质的最终代谢物、中间代谢物和合成原料物质的组的至少一种代谢物质;以及金属离子等。更优选的是核酸。生物标志物优选是根据物质的施予在各器官的细胞或组织中和/或在体液中变化的生物物质的组。生物物质组的示例是选自以下项中的至少一种的组:核酸;糖类;脂类;糖蛋白;糖脂;脂蛋白;氨基酸、多肽;蛋白质;多酚类;趋化因子;选自包含上述物质的最终代谢物、中间代谢物和合成原料物质的组的至少一种代谢物质;以及金属离子等。
术语“核酸”优选是指包含在转录组中的RNA的组,诸如mRNA、非编码RNA和microRNA,更优选是指mRNA的组。RNA优选是可在上述器官的细胞或组织中或者在体液中的细胞中表达的mRNA、非编码RNA和/或microRNA,更优选是可通过RNA-Seq等检测到的mRNA、非编码RNA和/或microRNA
(https://www.ncbi.nlm.nih.gov/gene?LinkName=genome_gene&from_uid=52、http://jp.support.illumina.com/sequencing/sequencing_software/igenome.html)。优选地,将可以作为RNA-Seq进行分析的所有RNA都用于根据本发明的预测。
术语“表示生物标志物的行为的数据集”旨在意味着表示生物标志物响应于药物等的施予已经变化或没有变化的数据集。优选地,生物标志物的行为表示生物标志物已经响应于药物等的施予而变化。例如,可以通过以下方法获取数据。针对从已经被施予药物等的非人类动物收集到的某些器官由来的组织、细胞或体液等,测量各生物标志物的丰度或浓度,以获取已经被施予药物等的个体的各器官的测量值。另外,针对与获取了已施予药物等个体的测量值的器官相对应的器官由来的组织、细胞或体液等,从尚未被施予药物等的非人类动物以相同的方式测量各生物标志物的丰度或浓度,以获取非施予个体的测量值。将已施予药物等个体的各器官由来的各生物标志物的测量值同非施予个体中与已施予药物等个体中的生物标志物相对应的各器官的生物标志物的测量值进行比较,以获取表示其间的差的值作为数据。这里,术语“与…相对应”是指器官和生物标志物相同或是相同类型。优选地,所述差可以表示为从已施予药物等个体由来的相应生物标志物的测量值与非施予个体中与上述生物标志物相对应的生物标志物的测量值的比(诸如商等)。例如,数据包括将从已施予药物等个体由来的器官A中的生物标志物A的测量值除以从非施予个体由来的器官A中的生物标志物A的测量值而获得的商。
在生物标志物是转录组的情况下,可以使用可通过RNA-Seq分析的所有RNA。可替代地,可以分析RNA的表达,并使用例如WGCNA(https://labs.genetics.ucla.edu/horvath/CoexpressionNetwork/Rpackages/WGCNA/)将RNA分割为表示与器官名和基因名相关联的各RNA的行为的数据子集(模块)。对于通过WGCNA分割的各模块,可以针对各药物等计算具有K分之一表示的皮尔逊相关系数,以选择针对各药物等具有最高相关系数绝对值的模块,并且可以使用包括在所选择的模块中的各器官中的RNA作为生物标志物。
此外,在响应于药物等的施予的生物标志物是转录组的情况下,可以使用DESeq2分析来获得与尚未被施予药物等的动物的各器官中的转录组相比已经被施予药物等的动物的各器官中的转录组的变化。例如,通过htseq-count对从已经被施予药物等的动物收集到的各器官中的RNA的表达水平以及从尚未被施予药物等的动物收集到的各相应器官中的基因的表达水平进行量化,以获得各个器官的计数数据。然后,比较相应器官和相应器官中的相应基因的表达水平。作为比较的结果,对于各器官中的各基因,输出已经被施予药物等的动物中的基因表达的变化的log2(倍数(fold))值和用作各变化的概率的指标的p值。基于log2(倍数)值,可以判断是否存在诸如转录组等的生物标志物的行为。
术语“器官由来(organ-derived)”旨在意味着例如从器官收集,或从所收集到的器官的细胞、组织或体液培养。
术语“体液”包括例如血清、血浆、尿、脊髓液、腹水、胸腔积液、唾液、胃液、胰液、胆汁、乳汁、淋巴液和细胞间质液。
生物标志物的测量值可以通过已知方法获取。在生物标志物是核酸的情况下,可以通过诸如RNA-Seq等的测序或定量PCR等来获取测量值。在生物标志物是糖类、脂类、糖脂、氨基酸、多酚类;趋化因子;或选自包含上述物质的最终代谢物、中间代谢物和合成原料物质的组的至少一种代谢物质等的情况下,可以通过例如质谱分析来获取测量值。在生物标志物是糖蛋白、脂蛋白、多肽或蛋白质等的情况下,可以通过例如ELISA(酶联免疫吸附测定(Enzyme-Linked Immuno Sorbent Assay))方法来获取测量值。用于收集从用于测量的器官由来的组织、细胞或体液的方法以及用于测量生物标志物的预处理方法也是已知的。
“测试物质”是要评估其作用的物质。测试物质可以是药物或药物的等效物。测试物质可以是现有物质或新物质。在预测方法中,即使在尚未发现测试物质的作用与已知药物或已知药物的等效物的作用之间的关系的情况下,也可以预测测试物质对人类的作用。另一方面,在测试物质是选自已知药物或已知药物的等效物中的一种的情况下,可能发现已知药物或已知药物的等效物的至少一种未知作用。至少一种未知作用可以是一种作用或多种作用。至少一种未知作用优选是新适应症。通过预测人类中的测试物质的新适应症,也可以实现药物再定位。将测试物质施予非人类动物是已知的。此外,可以以与表示从已经被施予药物等的非人类动物收集到的一个或多于一个器官中的生物标志物的行为的数据相同的方式,获取表示从已经被施予测试物质等的非人类动物收集到的一个或多于一个器官中的生物标志物的行为的数据。
2.预测用人工智能模型的构建
使用不良事件作为示例来说明预测用人工智能模型的构建。
2-1.训练数据的生成
说明用于生成训练数据的方法。训练数据包括基于从公共药物数据库60可获取的信息生成的、已报告不良事件相关信息和针对已知药物报告的适应症数据。
对于术语“不良事件数据”、“与不良事件有关的信息”和“适应症数据”的定义,这里并入以上在第1.(1)节中的说明。
诸如FAERS等的一些药物数据库针对各药物基本上包括不良事件数据和适应症数据这两者。在这种情况下,可以从一个药物数据库获取针对已知药物报告的不良事件数据和针对已知药物报告的适应症数据。
另一方面,由于在例如clinicaltrials.gov等中仅描述与不良事件有关的信息,因此可以从另一药物数据库(诸如FAERS、DAILYMED的所有药物标签、医学主题词表、Drugs@FDA或国际疾病分类等)获得各药物的适应症。
如以上在第1.(1)节中所述,药物数据库中所登记的不良事件数据和适应症数据与表示药物名称的标签链接,使得可以理解各数据属于哪个药物。标签可以是药物名称本身,或者可以是药物的登记编号等。
图3示出训练数据的示例。图3的(A)示出用于神经损伤的训练数据集的示例,并且图3的(B)示出用于2型糖尿病的训练数据集。诸如神经损伤和2型糖尿病等的名称用作表示适应症名称的标签。在图3中,示出阿立哌唑和依帕列净(EMPA)作为已知药物的示例。阿立哌唑和EMPA用作表示药物名称的标签。在图3中,“真适应症”旨在意味着药物数据库中所登记的药物已被证明有效的适应症。例如,“真适应症”是图3的(A)中的神经损伤,并且“真适应症”是图3的(B)中的2型糖尿病。由于阿立哌唑是适用于神经损伤的药物,因此在图3的(A)中在“真适应症”的列中输入了“神经损伤:是”。由于EMPA是不适用于神经损伤的药物,因此在“真适应症”的列中输入了“神经损伤:否”。由于阿立哌唑是不适用于2型糖尿病的药物,因此在图3的(B)中在“真适应症”的列中输入了“2型糖尿病:否”。由于EMPA是适用于2型糖尿病的药物,因此在“真适应症”的列中输入了“2型糖尿病:是”。
“神经损伤:是”、“神经损伤:否”、“2型糖尿病:否”和“2型糖尿病:是”作为适应症数据。
药物数据库中所登记的表示药物对适应症是否有效的标签除了“是”和“否”之外,还可以是“Y”和“N”、“1”和“0”或者“1”和“-1”等。
如以上在第1.(1)节中所述,在药物数据库中针对各药物登记多个适应症数据,并且这些适应症数据构成适应症数据集。
在图3中,示出睡眠障碍和血糖下降作为不良事件的示例。在图3的(A)中,在阿立哌唑的行中包含“睡眠障碍:0.026”和“血糖下降:0.009”。值“0.026”和“0.009”表示各个不良事件的发生频率。因此,“睡眠障碍:0.026”和“血糖下降:0.009”用作各个不良事件的发生频率数据。因此,“睡眠障碍:0.026”和“血糖下降:0.009”构成与阿立哌唑有关的已报告不良事件相关信息。因此,在图3的(A)中的阿立哌唑的行中,作为适应症数据的“神经损伤:是”与作为已报告不良事件相关信息的“睡眠障碍:0.026”和“血糖下降:0.009”链接。换句话说,“神经损伤:是”和与其链接的“睡眠障碍:0.026”和“血糖下降:0.009”的组合(其可以被表示为[“神经损伤:是”_“睡眠障碍:0.026”+“血糖下降:0.009”])构成一个训练数据。
此外,在图3的(A)中,在EMPA的行中包含“睡眠障碍:0.007”和“血糖下降:0.141”。“睡眠障碍:0.007”和“血糖下降:0.141”构成与EMPA有关的已报告不良事件相关信息。因此,适应症数据“神经损伤:否”与这些已报告不良事件相关信息链接的组合(其可以被表示为[“神经损伤:否”_“睡眠障碍:0.007”+“血糖下降:0.141”])构成一个训练数据。
在图3的(B)中,在阿立哌唑的行中包含“睡眠障碍:0.026”和“血糖下降:0.009”作为已报告不良事件相关信息。在图3的(B)中,阿立哌唑的适应症数据是“2型糖尿病:否”。“2型糖尿病:否”与已报告不良事件相关信息的组合(其可以被表示为“2型糖尿病:否”_“睡眠障碍:0.026”+“血糖下降:0.009”)构成一个训练数据。
在图3的(B)中,在EMPA的行中包含“睡眠障碍:0.007”和“血糖下降:0.141”作为已报告不良事件相关信息。在图3的(B)中,阿立哌唑的适应症数据是“2型糖尿病:是”。“2型糖尿病:否”与已报告不良事件相关信息的组合(其可以被表示为“神经损伤:是”_“睡眠障碍:0.007”+“血糖下降:0.141”)构成一个训练数据。
在预测用人工智能模型是不具有诸如支持向量机(SVM)等的神经网络结构的人工智能模型的情况下,对于一个适应症使用一个人工智能模型,并且针对各适应症训练一个人工智能模型。因此,训练数据集包括[“神经损伤:是”_“睡眠障碍:0.026”+“血糖下降:0.009”]和[“神经损伤:否”_“睡眠障碍:0.007”+“血糖下降:0.141”]。
在预测用人工智能模型是具有神经网络结构的人工智能模型的情况下,针对多个适应症训练一个人工智能模型。换句话说,经训练的一个人工智能模型与多个适应症的预测相对应。因此,训练数据集包括[“神经损伤:是”+“神经损伤:否”_“睡眠障碍:0.026”+“血糖下降:0.009”]和[“2型糖尿病:否”+“2型糖尿病:是”_“睡眠障碍:0.026”+“血糖下降:0.009”]。具有神经网络结构的人工智能模型的训练数据集不受限制,只要与多个药物有关的已报告不良事件相关信息与多个药物的适应症数据集相关联即可。
为了方便起见,在图3中示出两种药物和两种不良事件作为示例,并且在图3的(A)和图3的(B)中分别示出两个适应症数据作为示例。为了增加可预测的适应症,优选使用尽可能多的药物和与这些药物相对应的不良事件数据和适应症数据。
药物不受限制,只要它是在如上所述的药物数据库中与不良事件数据和适应症数据链接的药物即可。药物数量优选为1000种或更多、2000种或更多、3000种或更多或者4000种或更多。上限是药物数据库中所登记的药物的数量。
针对各药物所登记的适应症数据的数量优选为1000种或更多、5000种或更多或者10000种或更多。上限是药物数据库中所登记的适应症数据的数量。
针对各药物所登记的不良事件数据的数量优选为1000种或更多、5000种或更多或者10000种或更多。上限是药物数据库中所登记的不良事件数据的数量。
为了从图4所示的药物数据库60获取不良事件数据或不良事件数据集,当训练装置10的处理部101接受来自操作者的用以获取数据的请求时,处理部101经由通信I/F 105开始获取。所获取到的不良事件数据或不良事件数据集由处理部101记录在辅助存储部104内所存储的不良事件数据库(DB)TR1中。此外,为了还从图4所示的药物数据库60获取适应症数据和适应症数据集,当训练装置10的处理部101接受来自操作者的用以获取数据的请求时,处理部101经由通信I/F 105开始获取。所获取到的适应症数据和适应症数据集由处理部101记录在图4所示的辅助存储部104的供适应症数据用的数据库(DB)TR2中。
2-2.用于训练预测用人工智能模型的装置
如上所述的预测用人工智能模型的训练可以使用例如训练装置10(其在下文中也被称为“装置10”)来实现。
在对装置10和装置10中的处理的说明中,对于与以上在第1节和第2-1节中描述的术语相同的术语,这里并入以上的说明。
图4例示装置10的硬件结构。装置10至少包括处理部101和存储部。存储部由主存储部102和/或辅助存储部104构成。装置10可以连接到输入部111、输出部112和存储介质113。此外,装置10可通信地连接到药物数据库60(诸如FAERS、DAILYMED的所有药物标签、医学主题词表、Drugs@FDA、国际疾病分类或clinicaltrials.gov等)。
在装置10中,处理部101、主存储部102、ROM(只读存储器)103、辅存储部104、通信接口(I/F)105、输入接口(I/F)106、输出接口(I/F)107和媒介接口(I/F)108通过总线109连接以进行互相数据通信。
处理部101由CPU、MPU或GPU等构成。处理部101执行辅助存储部104或ROM 103中所存储的计算机程序,并处理所获取到的数据,由此装置10起作用。处理部101使用如以上在第1节中所述的训练数据来训练预测用人工智能模型。
ROM 103由掩模ROM、PROM、EPROM或EEPROM等构成,并存储由处理部101执行的计算机程序以及由其使用的数据。ROM 103存储当装置10启动时由处理部101执行的引导程序以及与装置10的硬件的操作相关的程序和设置。
主存储部102由诸如SRAM或DRAM等的RAM(随机存取存储器)构成。主存储部102用于读出存储在ROM 103和辅存储部104中的计算机程序。当处理部101执行这些计算机程序时,主存储部102也用作工作空间。主存储部102暂时存储经由网络获取的训练数据等以及由辅存储部104读出的人工智能模型的功能等。
辅助存储部104由硬盘、诸如闪速存储器等的半导体存储元件、或者光盘等构成。在辅助存储部104中,存储诸如操作系统和应用程序等的将由处理部101执行的各种计算机程序、以及供在执行这些计算机程序时使用的各种设置数据。具体地,辅助存储部104以非易失性方式存储操作软件(OS)1041、预测用训练程序TP、供预测用人工智能模型用的数据库(DB)AI1、用于存储从药物数据库60获取到的药物的不良事件数据和/或不良事件的发生频率数据和与不良事件有关的信息的不良事件数据库(DB)TR1、以及用于存储从药物数据库60获取到的药物的适应症数据的供适应症数据用的数据库(DB)TR2。训练程序TP与操作软件(OS)1041协作进行如后面说明的用于训练人工智能模型的处理。在人工智能模型数据库AI1中,可以存储未经训练的人工智能模型和经训练的预测用人工智能模型。
通信I/F 105由诸如USB、IEEE1394或RS-232C等的串行接口、诸如SCSI、IDE或IEEE1284等的并行接口、以及由D/A转换器或A/D转换器等构成的模拟接口、以及网络接口控制器(NIC)等构成。通信I/F 105在处理部101的控制下从测量部30或其他外部装置接收数据,并且在必要时将存储在装置10中或由装置10生成的信息发送到测量部30或外部,或者显示该信息。通信I/F 105可以经由网络与测量部30或其他外部装置(未示出,例如其他计算机或云系统)通信。
输入I/F 106由诸如USB、IEEE1394或RS-232C等的串行接口、诸如SCSI、IDE或IEEE1284等的并行接口、以及由D/A转换器或A/D转换器等构成的模拟接口等构成。输入I/F106接受来自输入部111的字符输入、点击或声音输入等。所接受的输入存储在主存储部102或辅存储部104中。
输入部111由触摸面板、键盘、鼠标、手写板或麦克风等构成,并向装置10进行字符输入或声音输入。输入部111可以在外部连接到装置10,或者可以与装置10集成。
输出I/F 107例如由与输入I/F 106相同的接口构成。输出I/F 107将处理部101所生成的信息输出到输出部112。输出I/F 107将由处理部101生成并存储在辅存储部104中的信息输出到输出部112。
输出部112例如由显示器或打印机等构成,并显示从测量部30发送的测量结果、装置10中的各种操作窗口、各项训练数据和人工智能模型等。
媒介I/F 108读出例如存储在存储介质113中的应用软件等。所读出的应用软件等存储在主存储部102或辅存储部104中。另外,媒介I/F 108将处理部101所生成的信息写入存储介质113。媒介I/F 108将由处理部101生成并存储在辅存储部104中的信息写入存储介质113。
存储介质113由软盘、CD-ROM或DVD-ROM等构成。存储介质113通过软盘驱动器、CD-ROM驱动器或DVD-ROM驱动器等连接到媒介I/F 108。用于使计算机执行操作的应用程序等可以存储在存储介质113中。
处理部101可以经由网络获取装置10的控制所需的应用软件和各种设置,而不是从ROM 103或辅存储部104中读取它们。还可以将应用程序存储在网络上的服务器计算机的辅存储部中,并且装置10访问该服务器计算机以下载计算机程序并将其存储在ROM 103或辅存储部104中。
另外,在ROM 103或辅存储部104中,安装了提供图形用户界面环境的操作系统,诸如由美国微软公司制造和销售的Windows(商标)。训练程序TP将在操作系统上操作。换句话说,装置10可以是个人计算机等。
2-3.利用预测用训练程序的处理
参考图5,说明用于训练预测用人工智能模型的处理的流程。
处理部101接受操作者经由输入部111输入的用以开始处理的命令,并且在步骤S1中从辅助存储部104内所存储的数据库TR1和数据库TR2中分别读出各药物的不良事件数据集和适应症数据集。
在步骤S2中,在需要时,处理部101根据各药物的不良事件数据集生成发生频率的数据集。用于计算发生频率的方法如以上在第1.(3)节中所述。
在步骤S3中,处理部101根据以上在第2-1节中所述的方法针对各药物生成已报告不良事件相关信息。此外,处理部101从辅助存储部104内所存储的人工智能模型数据库AI1读出人工智能模型,并且将所生成的已报告不良事件相关信息和与所生成的不良事件链接的适应症数据集输入到人工智能模型中以训练人工智能模型。这里,在步骤S3中读出的人工智能模型可以是尚未训练的人工智能模型或已经训练的人工智能模型。
处理部101在步骤S4中将经训练的预测用人工智能模型记录到辅助存储部104中,并终止处理。
可以使用例如诸如Python等的软件来执行预测用人工智能模型的训练。
3.预测用测试数据的生成
使用不良事件作为示例来说明输入到预测用人工智能模型中的预测用测试数据的生成。
3-1.用于训练估计用人工智能模型的估计用训练数据的生成
(1)第一训练数据集的生成
第一训练数据集可以由表示一个器官或多个不同器官中的各器官中的生物标志物的行为的数据集构成。该一个器官或多个不同器官可以是从被单独施予了对人类效果已知的多个已知药物的各个非人类动物收集到的。第一训练数据集可以被存储为数据库。
表示各器官中的生物标志物的行为的各个数据可以同与所施予的已知药物的名称有关的信息、与所收集的器官的名称有关的信息、或者与生物标志物的名称有关的信息等相链接。术语“与名称有关的信息”可以是名称本身或缩写名称等的标签或者与各名称相对应的标签值。
表示生物标志物的行为的数据集中所包括的各个数据用作如后面所述的人工智能模型所用的第一训练数据集中的构成矩阵的元素。在生物标志物是转录组的情况下,各RNA的表达水平与数据相对应,并且用作构成第一训练数据集的矩阵的元素。例如,在生物标志物是转录组的情况下,可以使用通过DESeq2分析所获得的各已知药物的log2(倍数)值作为第一训练数据集的各元素。
图6示出在使用转录组作为生物标志物的情况下的第一训练数据集的示例的一部分。将表示生物标志物的行为的数据表示为矩阵,其中在该矩阵中,针对已知药物的名称的各标签(行方向),各自表示器官名称和基因名称的组合(其可以被表示为“器官-基因”)的标签在列方向上对齐。矩阵的各元素是从被施予了由行标签表示的已知药物的非人类动物收集到的、在列标签中表示的器官中的在列标签中表示的基因的表达水平。更具体地,在行方向上,附加了作为已知药物的阿立哌唑和EMPA的标签。在列方向上,附加了Heart_Alas2、Heart_Apod、ParotidG_Alas2、ParotidG_Apod等的标签。“Heart”、“ParotidG”等是表示诸如心脏、腮腺等的器官的标签,并且“Alas2”、“Apod”等是各自表示RNA由来的基因的名称的标签。换句话说,标签“Heart_Alas2”意味着“心脏中的Alas2基因的表达”。
表示生物标志物的行为的数据集可以被直接用作第一训练数据集,或者可以在被用作第一训练数据集之前经过标准化或降维等。标准化方法的示例例如可以是对表示表达差异的数据进行变换使得平均值为0且方差为1的方法。标准化中的平均值可以是各器官中的平均值、各基因中的平均值或所有数据的平均值。另外,可以通过诸如主成分分析等的统计处理来实现降维。进行统计处理情况下的母群体可以针对各器官、各基因或所有数据来设置。例如,在生物标志物是转录组的情况下,仅有具有相对于DESeq2分析所获得的各已知药物的log2(倍数)值不大于预定值的p值的基因才可以用作第一训练数据集的元素。例如,预定值可以是10-3或10-4。优选为10-4
可以响应于已知药物的更新或表示生物标志物的行为的新数据的添加来更新第一训练数据集。
(2)第二训练数据的生成
第二训练数据可以构成为与为了生成第一训练数据集而施予非人类动物的多个已知药物中的各已知药物所获取到的人类中的不良事件有关的信息。第二训练数据对应于与一个药物相关的不良事件(诸如“头痛”等)有关的信息。可以以与作为如上所述的预测用人工智能模型的训练数据所使用的已报告不良事件相关信息相同的方式,根据从药物数据库60等获取到的不良事件数据生成作为第二训练数据所使用的与不良事件有关的信息。
图7示出所生成的第二训练数据的示例。图7示出基于从FAERS下载的阿立哌唑和EMPA的不良事件数据所计算出的各不良事件的发生频率。作为不良事件的有无,与各药物相关的不良事件可以例如在观察到了某个不良事件的情况下表示为“1”、并且在尚未观察到不良事件的情况下表示为“0”或“-1”。
可以响应于已知药物的更新、已知数据库的更新等来更新第二训练数据。
当测试数据生成装置50的处理部501接受来自操作者的用以获取数据的请求时,处理部501经由通信I/F 505开始从图8所示的测量装置30获取生物标志物的测量值。所获取到的生物标志物的测量值由处理部501记录在图8所示的辅助存储部504中的供估计用第一训练数据用的数据库(DB)ETR1中。
当测试数据生成装置50的处理部501接受来自操作者的用以获取数据的请求时,处理部501经由通信I/F 505开始从图8所示的药物数据库60获取不良事件数据或不良事件数据集。所获取到的不良事件数据和不良事件数据集由处理部501存储在辅助存储部504内所存储的供估计用第二训练数据用的数据库(DB)ETR2中。
3-2.要输入到估计用人工智能模型中的估计用测试数据的生成
为了估计与关注药物相关的不良事件而输入到估计用人工智能模型中的估计用测试数据是表示被施予了关注药物等作为测试物质的非人类动物的一个或多于一个器官中的生物标志物的行为的数据集。估计用测试数据是以与第一训练数据相同的方式生成的,并被存储在图8所示的供估计用测试数据用的数据库(DB)ETS中。
3-3.估计用人工智能模型的训练和不良事件的估计
使用如上所述的第一训练数据集和第二训练数据或第二训练数据集来训练人工智能模型,以构建估计用人工智能模型。人工智能模型的构建可以包括训练未经训练的人工智能模型并再训练已被训练一次的人工智能模型。可以使用如上所述更新的第一训练数据集和/或第二训练数据来进行再训练。
将第一训练数据集和第二训练数据或第二训练数据集作为训练数据组合地输入到人工智能模型中。在估计用训练数据中,基于(i)第一训练数据集中所包括的、与各个器官中的生物标志物的行为的各个数据相链接的表示施予非人类动物的已知药物的名称的标签以及(ii)第二训练数据或第二训练数据集中所包括的、与同不良事件有关的信息相链接的表示施予非人类动物的各个已知药物的名称的标签,将第一训练数据集与第二训练数据集或第二训练数据集链接。基于表示施予非人类动物的各个已知药物的名称的标签,通过将表示各个器官中的生物标志物的行为的数据集和关于与施予非人类动物的已知药物相关的不良事件的正确的(或TRUE(真)或具有表示正确的标签“1”的)信息相关联,来训练人工智能模型。
这里,在为了预测各不良事件所训练的人工智能模型是一个人工智能模型的算法与一个作用(诸如“头痛”等)相对应的类型的人工智能模型(诸如随机森林、SVM、相关向量机(RVM)、朴素贝叶斯、AdaBoost、C4.5、随机梯度下降(SGD)分类器、Lasso、岭回归、弹性网络、SGD回归或核回归等)的情况下,一个第二训练数据与第一训练数据集链接。另一方面,在可以利用诸如前馈神经网络、深度学习或矩阵分解等的一个人工智能模型来预测多个作用(诸如“头痛”、“呕吐”、…等)的人工智能模型的情况下,第一训练数据与多个第二训练数据(换句话说,第二训练数据集)链接。
当以图6和图7为例进行说明时,示出图6所示的各已知药物的标签的各行分别与图7所示的各单元格链接,以生成要输入到人工智能模型中的一个集合的训练数据。换句话说,图6中所示的阿立哌唑的行和图7中所示的阿立哌唑的行中的“嗜睡-0.5”链接为一个数据集。此外,图6中所示的阿立哌唑的行和图7中所示的阿立哌唑的行中的“低血糖-0.0”链接为一个数据集。此外,图6中所示的EMPA的行和图7中所示的EMPA的行中的“嗜睡-0.01”链接为一个数据集。图6中所示的EMPA的行和图7中所示的EMPA的行中的“低血糖-0.12”链接为一个数据集。换句话说,根据图6和图7中的示例的数据,生成总共四个数据集作为训练数据。这里,图7中的0.5、0.0、0.01和0.12是不良事件的发生频率(最大值为1)。
3-4.用于生成预测用测试数据的装置
可以使用例如如以下所述的用于生成预测用测试数据的装置50来构建估计用人工智能模型。
在用于生成预测用测试数据的装置50和用于生成预测用测试数据的装置50的操作的说明中,对于与以上在“训练方法和预测方法的概述、以及术语的说明”和“用于训练估计用人工智能模型的估计用训练数据的生成”中描述的术语相同的术语,这里并入以上的说明。
用于生成预测用测试数据的装置50(其在下文中可以被称为“装置50”)至少包括处理部501和存储部。存储部由主存储部502和/或辅助存储部504构成。
图8示出装置50的硬件结构。装置50可以连接到输入部511、输出部512和存储介质513。此外,装置50可以连接到测量部30,该测量部30是下一代测序仪或质谱仪等。换句话说,装置50可以构成直接或经由网络等连接到测量部30的用于生成预测用测试数据的系统。
装置50基本上具有与训练装置10相同的硬件结构。因此,这里并入以上在第2-2节中的说明。在装置50中,处理部501、主存储部502和ROM(只读存储器)103、辅助存储部504、通信接口(I/F)505、输入接口(I/F)506、输出接口(I/F)507和媒介接口(I/F)508通过总线509连接以进行相互数据通信。
然而,代替操作软件(OS)1041、预测用训练程序TP、人工智能模型数据库(DB)AI1、不良事件数据库(DB)TR1和适应症数据数据库(DB)TR2,在辅助存储部504中存储有操作软件(OS)5041、估计用训练程序ETP、供估计用人工智能模型用的数据库(DB)EAI、供估计用第一训练数据用的数据库(DB)ETR1、供估计用第二训练数据用的数据库(DB)ETR2、供估计用测试数据用的数据库(DB)ETS、供预测用测试数据用的数据库(DB)PTS。供估计用人工智能模型用的数据库(DB)EAI存储未经训练的和经训练的人工智能模型。供估计用第一训练数据用的数据库(DB)ETR1将表示从被施予各已知药物的非人类动物收集到的各器官中的生物标志物的行为的数据集作为第一数据集与表示所施予的药物的名称的标签链接地存储。供估计用第二训练数据用的数据库(DB)ETR2将作为与施予非人类动物的各已知药物相对应的第二训练数据所使用的与不良事件有关的信息与表示药物名称的标签链接地存储。供估计用测试数据用的数据库(DB)ETS存储作为估计用测试数据所使用的、表示从被施予关注药物等作为测试物质的非人类动物收集到的各器官中的生物标志物的行为的数据。
3-5.利用估计用训练程序的处理
当处理部501将估计用训练程序ETP作为应用软件执行时,装置50提供训练功能。
参考图9,说明由估计用训练程序ETP执行的处理。
在步骤S11中,处理部501接受操作者通过输入部511输入的用以开始处理的请求,并将例如辅助存储部504中的供估计用人工智能模型用的数据库EAI内所存储的人工智能模型临时读出到主存储部502中。此外,处理部501接受操作者通过输入部511输入的用以获取训练数据的请求,并从供估计用第一训练数据用的数据库ETR1读出如以上在第3-1节中所述的从被施予各已知药物的非人类动物获取到的第一训练数据集。此外,处理部501从供估计用第二训练数据用的数据库ETR2读出与同所施予药物相对应的不良事件有关的信息或这种信息的集,作为第二训练数据或第二训练数据集。
在步骤S12中,处理部501借助于与第一训练数据集链接的表示施予非人类动物的已知药物的名称的标签和与第二训练数据链接的表示施予非人类动物的已知药物的名称的标签来链接在步骤S11中读出的第一训练数据集和第二训练数据或第二训练数据集,并将它们输入到人工智能模型中。
接着,在步骤S13中,处理部501计算诸如人工智能模型的函数中的权重等的参数以训练人工智能模型。
接着,在步骤S14中,处理部501将经训练的人工智能模型作为估计用人工智能模型存储在供估计用人工智能模型用的数据库EAI中。
可以使用例如诸如Python等的软件来进行训练处理。
3-6.利用估计程序的处理
当处理部501将估计程序EP作为应用软件执行时,装置50生成预测用测试数据。
参考图10,说明由估计程序ETP执行的处理。
处理部501接受操作者通过输入部511输入的用以开始处理的命令,并且在图10的步骤S31中,从辅助存储部504内所存储的供估计用测试数据用的数据库ETS读出估计用测试数据。此外,处理部501从辅助存储部504内所存储的供估计用人工智能模型用的数据库EAI读出经训练的估计用人工智能模型。
接着,处理部501接受操作者通过输入部511输入的用以开始预测的命令,并且在步骤S32中,将估计用测试数据输入到经训练的估计用人工智能模型中,以获取与同关注药物等相关的不良事件有关的估计结果。该估计结果可以被作为表示不良事件名称的标签和表示是否是不良事件的标签的组合而从经训练的人工智能模型输出。作为表示是否是不良事件的标签,在人工智能模型估计为关注药物等“具有”相应的不良事件的情况下,可以输出“1”,并且在人工智能模型估计为关注药物等“不具有”相应的不良事件的情况下,可以输出“0”或“-1”。例如,在不良事件是“嗜睡”的情况下,当估计为关注药物等具有嗜睡时,输出“嗜睡:1”作为估计结果。此外,当估计为关注药物等不具有嗜睡时,输出“嗜睡:0”或“嗜睡:-1”作为估计结果。
接着,处理部501接受操作者通过输入部511输入的用以记录估计结果的命令,并且在步骤S33中,将在步骤S32中估计的估计结果记录到辅助存储部504内的供预测用测试数据用的数据库PTS中。
接着,处理部501接受操作者通过输入部511输入的用以开始发生频率的计算的请求,并且在步骤S34中,计算与获取到了估计结果的关注药物等相对应的各不良事件的发生频率,并且将该发生频率作为与各药物相关的各不良事件的发生频率数据记录到辅助存储部504内的供预测用测试数据用的数据库PTS中。用于计算发生频率的方法如以上在第1节中所述。与各关注药物等相关的各不良事件的发生频率数据将是预测用测试数据。
在步骤S34之后,处理部501可以接受操作者通过输入部511输入的用以输出的命令,或者可以被步骤S34的完成触发以将估计结果输出到输出部512。
可以通过例如使用诸如Python等的软件来进行估计处理。
4.利用预测用人工智能模型的适应症的预测
使用不良事件作为示例来说明适应症的预测。
在对装置20和装置20的操作的说明中,对于与以上在第1节和第2-1节中描述的术语相同的术语,这里并入以上的说明。
4-1.测试数据和经训练的预测用人工智能模型的获取和记录
预测装置20可以经由网络或存储介质213从图4所述的装置10的辅助存储部104内所记录的人工智能数据库AI1获取经训练的预测用人工智能模型,并将其记录在预测装置20的辅助存储部204内的数据库TS1中。
由预测装置20经由网络或存储介质213从图8所述的用于生成预测用测试数据的装置50内所存储的供预测用测试数据用的数据库PTS中获取预测用测试数据,并且所获取到的预测用测试数据由处理部201记录到辅助存储部204内所存储的供测试数据用的数据库TS1(其下文中也可以被简称为“数据库TS1”)中。
4-2.用于预测适应症的装置
可以使用例如预测装置20(其在下文中可以被简称为“装置20”)来实现适应症的预测。
图11例示预测装置20(其在下文中也可以被称为“装置20”)的硬件结构。装置20至少包括处理部201和存储部。存储部由主存储部202和/或辅助存储部204构成。装置20可以连接到输入部211、输出部212和存储介质213。此外,装置20可通信地连接到药物数据库60(诸如FAERS、DAILYMED的所有药物标签、医学主题词表、Drugs@FDA、国际疾病分类或clinicaltrials.gov等)。此外,装置20可以经由网络可通信地连接到装置10和装置50。
在装置20中,处理部201、主存储部202、ROM(只读存储器)203、辅助存储部204、通信接口(I/F)205、输入接口(I/F)206、输出接口(I/F)207和媒介接口(I/F)208通过总线209连接以进行相互数据通信。
由于装置20具有与装置10相同的基本硬件结构,因此这里并入以上在第2-2节中的说明。
然而,代替操作软件(OS)1041、预测用训练程序TP、人工智能模型数据库AI1、不良事件数据数据库TR1和适应症数据数据库TR2,在装置20的辅助存储部204中,以非易失性方式存储操作软件(OS)2041、预测程序PP、用于存储经训练的人工智能模型的人工智能模型数据库AI2和用于存储预测用测试数据的数据库TS1。预测程序PP与操作软件(OS)2041协作进行如后面说明的用于预测适应症的处理。
4-3.用于预测适应症的处理
参考图12,说明用于预测适应症的处理的流程。
处理部201接受操作者通过输入部211输入的用以开始处理的命令,并且在图12的步骤S51中,从辅助存储部204内所存储的数据库TS1读出预测用测试数据。此外,处理部201从辅助存储部204内所存储的人工智能模型数据库AI2读出经训练的预测用人工智能模型。
接着,处理部201接受操作者通过输入部211输入的用以开始预测的命令,并且在步骤S52中,将预测用测试数据输入到经训练的预测用人工智能模型中,以获取与关注药物等的适应症有关的预测结果。预测结果可以作为表示适应症名称的标签与表示适应症是否是关注药物的适应症的标签的组合而从经训练的人工智能模型输出。作为表示适应症是否是关注药物等的适应症的标签,在通过人工智能模型预测出关注药物对相应的适应症“有效”的情况下,可以输出“1”,并且在预测出关注药物对相应的适应症“无效”的情况下,可以输出“0”或“-1”。例如,在适应症是“神经损伤”的情况下并且在预测出关注药物等对神经损伤有效的情况下,输出“神经损伤:1”作为预测结果。在预测出关注药物等对神经损伤无效的情况下,输出“神经损伤:0”或“神经损伤:-1”作为预测结果。处理部201将这些预测结果记录到辅助存储部204中。
接着,在测试物质是已知药物或已知药物的等效物质的情况下,处理部201接受操作者通过输入部211输入的用以分析预测结果的命令,并且在步骤S54中,对在步骤S53中获取到的预测结果进行混合矩阵分析,以判断针对各药物所输出的适应症的预测结果是真阳性(TP)还是假阳性(FP)。在结果为真阳性的情况下,例如向表示适应症名称的标签附加标签“1”。在结果为假阳性的情况下,例如向表示适应症名称的标签附加标签“0”。真阳性意味着该适应症被登记为针对药物数据库60中所登记的各药物的“适应症”(药物有效),并且在预测结果中也被预测为该药物的“适应症”。假阳性意味着该适应症未被登记为针对药物数据库60中所登记的各药物的“适应症”,但是在预测结果中被预测为“适应症”。被判断为假阳性的适应症将是关注药物等的新适应症。具体地,各药物的适应症数据附加有表示适应症名称的标签和表示各药物对适应症是否有效的标签。例如,在尽管适应症数据是“神经损伤:0”或“神经损伤:-1”、但预测结果是“神经损伤:1”的情况下,适应症也可以被判断为假阳性。在适应症数据是“神经损伤:1”并且预测结果是“神经损伤:1”的情况下,适应症是真阳性。对没有报告不良事件的药物不进行步骤S54。
接着,处理部201接受操作者通过输入部211输入的用以记录分析结果的命令,并且在步骤S55中,将在步骤S53中获取到的预测结果或在步骤S54中获取到的分析结果记录到辅助存储部204中,然后终止处理。
在步骤S55之后,处理部201可以接受操作者通过输入部211输入的用以输出的命令,或者可以被步骤S55的完成触发以将分析结果输出到输出部212。
可以使用例如诸如Python等的软件来执行预测处理。可以使用例如软件“R”来执行混合矩阵分析。
5.作用机制的机制估计
在开发新的且更有效的药物时,知晓各药物对针对各药物的新预测适应症有效的作用机制是重要的。
以上在第4节中使用的预测用测试数据是基于响应于将关注药物等作为测试物质施予非人类动物而引起的一个或多于一个器官中的生物标志物的行为所获取到的。各测试物质的预测用测试数据和与各关注药物等相对应的各适应症之间的关系可以由响应于各测试物质的施予而引起的多个器官中的生物标志物的行为与各适应症之间的关系代替。然后,通过执行已知的途径分析,可以将响应于各测试物质的施予而引起的一个或多于一个器官中的生物标志物的行为与各适应症之间的关系与生物反应链接。生物反应可以被表示为信息传递途径(其在下文中简称为“途径”)。途径分析的示例包括KEGG途径富集分析、REACTOME途径分析等。
5-1.用于估计作用机制的装置
图13示出用于估计作用机制的装置80(其在下文中也可以被称为“装置80”)的硬件结构。
由于装置80具有与装置10相同的基本硬件结构,因此这里并入以上在第2-2节中的说明。
装置80至少包括处理部801和存储部。存储部由主存储部802和/或辅助存储部804构成。装置80可以连接到输入部811、输出部812和存储介质813。此外,装置80可通信地连接到供KEGG途径富集分析、REACTOME途径分析等的途径数据库70。此外,装置80可以经由网络可通信地连接到装置10、装置20和装置50。
在装置80中,处理部801、主存储部802、ROM(只读存储器)803、辅助存储部804、通信接口(I/F)805、输入接口(I/F)806、输出接口(I/F)807和媒介接口(I/F)808通过总线809连接以进行相互数据通信。
然而,在装置80的辅助存储部804中,代替操作软件(OS)1041、预测用训练程序TP、人工智能模型数据库AI1、不良事件数据数据库TR1和适应症数据数据库TR2,存储操作软件(OS)8041、用于执行途径分析的分析程序AP、用于预测不良事件数据的数据库(DB)ADP、用于预测适应症数据的数据库(DB)IDB和生物标志物数据库(DB)BDB。
供预测不良事件数据用的数据库ADP将如以上在第3-5节中所述在步骤S32中获得的与各药物的不良事件有关的估计结果、或者在步骤S34中计算出的各药物的不良事件的发生频率数据与各药物的名称相关联地存储。与各药物的不良事件有关的估计结果可以由装置80经由通信I/F 805或存储介质813从装置50中所存储的供预测用测试数据用的数据库PTS获取,并记录在辅助存储部804的供预测不良事件数据用的数据库ADP中。
供预测适应症数据用的数据库IDB将如以上在第4-3节中所述的在步骤S52中获得的与各药物的适应症有关的预测结果与各药物的名称相关联地存储。与各药物的适应症有关的预测结果可以由装置80经由通信I/F 805或存储介质813从装置20的辅助存储部204获取,并记录在辅助存储部804的供预测适应症数据用的数据库IDB中。
生物标志物数据库BDB将如以上在第3-2节中所述的估计用预测数据与各药物的名称相关联地存储。估计用测试数据可以由装置80经由通信I/F 805或存储介质813从装置50中所存储的供估计用测试数据用的数据库ETS获取,并记录在辅助存储部804中的生物标志物数据库BDB中。
当进行例如KEGG途径富集分析时,分析程序AP可以包括软件R包“clusterProfiler”等。此外,当进行REACTOME途径分析时,分析程序AP可以包括用于访问https://reactome.org/的浏览器软件等。
5-2.利用分析程序的处理
参考图14,说明用于估计各药物作用于新适应症的机制的分析处理的流程。
处理部801接受操作者通过输入部811输入的用以开始数据获取的命令,并且在图14所示的步骤S71中,从供预测不良事件数据用的数据库ADP读出如以上在第3-5节中所述的在步骤S34中计算出的与各药物的不良事件的发生频率有关的数据。此外,处理部801从生物标志物数据库BDB读出与各药物相对应的估计用测试数据。
在步骤S72中,处理部801接受操作者通过输入部811输入的用以开始处理的命令,并且将在步骤S71中读出的与各药物的不良事件有关的估计结果和估计用测试数据转换成二值矩阵表示。可选地,处理部801可以对转换成二值矩阵表示的数据进行主成分分析等,以对该数据进行维度变换。处理部801对转换后的数据或者转换后且降维的数据进行分层聚类。该处理可以使用例如软件“R”来实现。通过该处理,可以估计对各药物的不良事件的预测做出贡献的生物标志物的行为。这些分析可以使用软件“R”等来执行。
在步骤S73中,处理部801接受操作者通过输入部811输入的用以开始途径分析的命令,并将在步骤S72中通过分层聚类估计为贡献度高的生物标志物的行为输入到供KEGG途径富集分析、REACTOME途径分析等用的途径数据库中,并从途径数据库获取关于涉及哪个生物信息传递途径的信息作为与各药物的作用机制有关的信息。
接着,处理部801接受操作者通过输入部811输入的用以记录预测结果的命令,并且在步骤S74中,在将步骤S73中获取到的结果记录在辅助存储部804中之后终止处理。
处理部801可以在步骤S74之后接受操作者通过输入部811输入的用以输出的命令,或者可以被步骤S74的完成触发以将所获取到的结果输出到输出部812。
6.计算机程序
6-1.预测用训练程序
预测用训练程序是使得计算机执行包括如结合第2节中的人工智能模型的训练所述的步骤S1至S4的处理以使该计算机用作训练装置10的计算机程序。
6-2.预测程序
预测程序是使计算机执行包括如第4节所述的步骤S51至S54的处理以使该计算机用作预测装置20的计算机程序。
6-3.用于生成预测用测试数据的程序
用于生成预测用测试数据的程序是使计算机执行包括如以上在第3节中所述的步骤S11至S14和步骤S31至S34的处理以使该计算机用作测试数据生成装置50的计算机程序。
6-4.机制估计程序
机制估计程序所用的程序是使计算机执行包括以上在第5节中所述的步骤S71至S74的处理以使该计算机用作作用机制估计装置80的计算机程序。
7.存储有计算机程序的存储介质
本发明涉及存储有如以上在第6节中所述的计算机程序的存储介质。计算机程序存储在例如硬盘、诸如闪速存储器等的半导体存储元件、或光盘等的存储介质中。此外,计算机程序可以存储在诸如云服务器等的可经由网络连接的存储介质中。计算机程序可以是可下载形式的或存储在存储介质中的程序产品。
存储介质中的程序的存储格式不受限制,只要如上所述的装置可以读取这些程序即可。在存储介质中的存储优选以非易失性方式。
8.变形例
在本说明书中,附加至硬件的相同附图标记表示相同的部分或相同的功能。
在以上的第2节和第4节中,示出训练装置10和预测装置20是不同计算机的实施例。然而,一个计算机可以进行人工智能模型的训练和预测。此外,人工智能模型数据库AI1可以存储在云上并且在进行训练和预测时被访问。
在以上的第3节中,测试数据生成装置50训练估计用人工智能模型,并且使用估计用人工智能模型来生成预测用测试数据。然而,估计用人工智能模型的训练和预测用测试数据的生成可以由不同的计算机进行。此外,预测用测试数据的生成、预测用训练数据的生成和适应症的预测可以由一个计算机进行。此外,人工智能模型数据库AI1和估计用人工智能模型的数据库EAI可以存储在云上,并且在进行训练和预测时被访问。
在以上的第1节至第4节中,使用与不良事件有关的信息来说明人工智能模型的训练和适应症预测。然而,代替不良事件,可以使用副作用。在这种情况下,除术语的定义以外,各装置、各处理和各方法中的术语“不良事件”可以由术语“副作用”代替。
9.人工智能模型的效果的核实
9-1.预测用人工智能模型的性能的评估
(1)人工智能模型的训练、以及经训练的人工智能模型的性能的评估(参考示例)
对于从2014年第三季度至2017年第四季度向美国食品和药物不良事件报告系统(FAERS)报告的所有药物,获取针对各药物所登记的不良事件的所有发生频率数据和所有适应症数据。存在11310种适应症。具体地,对于4885种药物,获取包括发生频率数据集和适应症数据集的数据集。
使用所有数据,根据如以上在第2-1节中所述的训练数据的生成来针对各适应症训练SVM,以生成经训练的人工智能模型。
单独计算针对FAERS中登记的4885种药物各自所登记的17155种不良事件的发生频率数据,以生成各药物的不良事件的发生频率数据集。将各个药物的不良事件的发生频率数据集作为测试数据单独输入到经训练的人工智能模型中以进行适应症的预测。
在图15至图18中示出结果。图15和图16示出表示能够多么准确地预测针对各个药物所报告的适应症的结果。
图15以柱状图示出所有药物的准确率得分、召回率得分和精度得分的分布,其中准确率得分表示预测的准确度,召回率得分表示在被预测为“适应症”的情况下的覆盖率,精度得分表示在被预测为“适应症”的情况下的可靠度。准确率得分和精度得分在更接近1.0时更准确。在召回率得分更接近1时,药物被报告为“有效”的适应症的正确性旨在接近100%。
这些图的纵轴示出在将范围为-0.1至1.0的得分成0.1的11个分位数时的属于各分位数的药物的数量。
对于作为测试数据输入到经训练的人工智能模型中的所有药物,适应症的预测结果的准确率得分对于4885个药物中的4764个药物(97.5%)高达不低于90%。
在4885个药物中,1790个药物(所有药物的36.6%)示出90%或更高的精度得分,3252个药物(所有药物的66.6%)示出70%或更高的精度得分,4238个药物(所有药物的86.8%)示出50%或更高的精度得分。
在4885个药物中,746个药物(所有药物的15.3%)示出50%或更高的召回率得分,1951个药物(所有药物的39.9%)示出30%或更高的召回率得分,并且4092个药物(所有药物的83.8%)示出10%或更高的召回率得分。
图16示出在4885个药物中的准确率得分、精度得分和召回率得分全部为1.0的前50个药物的各个得分。在图8中,TN表示真阴性,TP表示真阳性,FN表示假阴性,FP表示真阳性。真阴性表示“非适应症”能够被预测为“非适应症”的项目数,并且真阳性表示“是适应症”能够被预测为“是适应症”的项目数。假阴性表示“是适应症”被预测为“非适应症”的项目数,并且假阳性表示“非适应症”被预测为“是适应症”的项目数。F测量得分是精度得分和召回率得分之间的调和平均,并且是用于评估在整合精度得分和召回率得分时获得多少准确度的指标。
图17和图18示出从经训练的人工智能模型导出的适应症的预测结果预测(FAERS中登记的)所报告的各适应症的准确程度的结果。
图17以柱状图示出所有适应症的准确率得分、召回率得分和精度得分的分布。这些图的配置与图15相同。
关于所有报告的适应症,针对11310个适应症中的10929个适应症(96.6%),预测结果的准确率得分高达不低于90%。
在11310个适应症中,7230个适应症(所有TI的63.9%)示出90%或更高的精度得分,并且8016个适应症(所有TI的70.9%)示出80%或更高的精度得分。
在11310个适应症中,972个适应症(所有TI的8.6%)示出50%或更高的召回率得分,1786个适应症(所有TI的15.8%)示出30%或更高的召回率得分,并且4873个适应症(所有TI的43.1%)示出10%或更高的召回率得分。
图18示出在11310个适应症中的准确率得分、精度得分和召回率得分全部为1.0的前50个适应症的各个得分。图18中所使用的术语与图16中的术语相同。
此外,在本发明的具体实施方式的末尾,如图16示出所有适应症的TN、TP、FN、FP、准确率得分、精度得分、召回率得分和F测量得分。
上述评估结果表明,本说明书中公开的经训练的人工智能模型可以根据与不良事件有关的信息来预测适应症。
(2)使用训练后的人工智能模型的盲法评估
接着,评估是否可以使用未包括在训练数据集中的与不良事件有关的信息来进行准确预测。
上述第7.(1)节中的人工智能模型的训练所使用的药物包括从2017年至2019年由美国食品药品监督管理局(FDA)和/或医药品医疗器械综合机构(PMDA)批准的药物、以及由Perwitasari et al.,(2013):Pharmaceuticals(Basel)6,124-160通过再定位报告的61个药物。
因此,在人工智能模型的盲法评估中,使用不包括与不良事件有关的信息的训练数据集和61个药物的适应症数据集,以与以上在第7.(1)节中所述的相同方式训练SVM。
接着,将与同61个药物相关的不良事件有关的信息输入到经训练的人工智能模型中,并以与以上在第7.(1)节中所述的相同方式进行适应症的预测。
在图19中总结结果。图19中使用的术语具有与图16中的术语相同的含义。
在61个药物中,54个药物(88.5%的药物)示出90%或更高的准确率得分。在61个药物中,27个药物(44.3%)示出90%或更高的精度得分,44个药物(72.1%)示出70%或更高的精度得分,53个药物(86.9%)示出50%或更高的精度得分。在61个药物中,4个药物(6.6%)示出50%或更高的召回率得分,17个药物(27.9%)示出30%或更高的召回率得分,并且45个药物(73.8%)示出10%或更高的召回率得分。
这些结果表明,可以在保证准确度的情况下对未包括在训练数据集中的药物进行适应症的预测。
9-2.使用估计出的预测用测试数据的适应症预测
(1)通过交叉验证的评估
代替以上在第9-1节中使用的SVM,使用RF作为人工智能模型,以与第9-1节中相同的方式训练预测用人工智能模型。对于RF的训练,使用“RandomForestClassifier()”(Python包“scikit-learn”)。在“RandomForestClassifier()”中,设置了参数“n_estimator”以最小化泛化误差。其他参数被设置为默认。
根据以上在第3节中描述的方法(专利文献2和非专利文献2中描述的方法),生成了用于预测与15个类型的测试药物(阿仑膦酸盐、对乙酰氨基酚、阿立哌唑、阿塞那平、顺铂、氯氮平、多西环素、依帕列净、来那度胺、鲁拉西酮、奥氮平、依洛尤单抗、利塞膦酸、索非布韦和特立帕肽)相关的不良事件的测试数据。这里,预测用测试数据被称为“虚拟”AE(V-AE)。
对于这15个类型的测试药物,针对FAERS中所登记的所有不良事件计算发生频率,并将该发生频率与表示各药物的名称的标签链接。此外,对于所有15个类型的测试药物,针对FAERS中所登记的所有适应症获取适应症数据,并将该适应症数据与表示各药物的名称的标签链接。在FAERS中,报告了17155个不良事件和11310个适应症。这里,从药物数据库实际获取到的与同各药物相关的不良事件有关的信息被称为“真实”AE(R-AE)。
此外,通过根据非专利文献2中描述的方法向小鼠施予15个类型的测试药物来针对各药物获取估计用人工智能模型的第一训练数据。作为第二训练数据,使用与FAERS中所登记的各药物的所有不良事件的发生频率有关的数据集。
将第一训练数据和第二训练数据输入到人工智能模型RF中以训练该人工智能模型,由此生成估计用人工智能模型。
将第一训练数据中的表示生物标志物的行为的数据作为估计用测试数据输入到经训练的估计用人工智能模型中,以获取各药物的V-AE作为预测结果。
接着,比较V-AE和R-AE。通过获得皮尔逊相关系数和斯皮尔曼相关系数来比较这两个组。在图20中示出结果。针对许多药物观察到良好的相关性。
接着,通过将FAERS中所登记的与所有药物相关的所有不良事件的发生频率与所有药物的适应症数据链接来训练预测用人工智能模型。作为人工智能模型,使用RF。将V-AE输入到经训练的预测用人工智能模型中,以预测15个测试药物的适应症。该结果在图21的(A)中作为混合矩阵示出。使用软件“R”来进行混合矩阵分析。15个类型的药物全部表现出良好的准确率得分。
在非专利文献2中,描述了使用R-AE作为测试数据并使用链接预测(LP)作为人工智能模型来预测药物的适应症的方法。因此,在通过根据本实施例的使用V-AE的预测方法的预测的准确度与通过如非专利文献2中描述的使用LP的方法的预测的准确度之间进行比较。在图21的(B)中示出结果。
准确率得分和召回率得分对于使用V-AE的预测方法和使用LP的方法这两者都是良好的。另一方面,对于针对所有15个类型的测试药物的使用V-AE的预测方法,预测得分显著提高。这表明使用V-AE的预测方法更准确。
(2)与现有技术的比较
在通过使用V-AE的预测方法和使用R-AE的预测方法(非专利文献2中描述的单类SVM方法)的适应症的预测结果之间进行比较。首先,在通过V-AE的适应症的预测结果与通过R-AE的适应症的预测结果之间进行比较。在图22中示出结果。图22的上部示出通过这两个预测方法所预测的真阳性(TP)适应症的数量之间的比较结果。下部示出假阳性(FP)适应症(即,新适应症)的数量之间的比较结果。
对于所有测试药物,使用V-AE的TP适应症的预测结果涵盖通过使用R-AE的预测方法的结果。然而,对于2个类型的测试药物,使用R-AE的预测方法不能预测出TP适应症。这表明使用V-AE的预测方法在预测精度方面更高。
在FP适应症的比较中,使用V-AE的预测方法与使用R-AE的预测方法相比能够检测到多得多的FP适应症。这表明使用V-AE的预测方法可以探索的候选适应症不同于通过使用R-AE的预测方法可以探索的候选适应症。
接着,如非专利文献2中所述,在使用V-AE的预测方法和使用R-AE的预测方法之间进行适应症的预测结果的比较。首先,在基于V-AE的适应症的预测结果和基于R-AE的适应症的预测结果之间进行比较。在图23中示出结果。图23的上部示出通过这两个预测方法所预测的真阳性(TP)适应症的数量之间的比较结果。下部示出假阳性(FP)适应症的数量(换句话说,新适应症的数量)之间的比较结果。
对于13个类型的测试药物,使用V-AE的TP适应症的预测结果涵盖通过使用R-AE的预测方法的结果。然而,对于2个类型的测试药物,使用R-AE的预测方法不能预测出TP适应症。这表明使用V-AE的预测方法在预测精度方面更高。
在FP适应症的比较中,使用V-AE的预测方法能够检测到的FP适应症不同于通过使用R-AE的预测方法能够检测到的FP适应症。这表明使用V-AE的预测方法可以探索的候选适应症不同于通过使用R-AE的预测方法可以探索的候选适应症。
9-3.对适应症的作用机制的估计
通过检查与所估计的适应症相关联的生物标志物,可以估计药物作用于估计的适应症的机制。
基于响应于各测试药物的施予而引起的小鼠的一个或多于一个器官中的生物标志物的行为来预测各V-AE的发生频率。因此,对于对估计各药物的适应症而言重要的与各药物相对应的V-AE,估计对各V-AE的估计做出贡献的生物标志物的行为。
对于除瑞百安以外的14个类型的测试药物(瑞百安由于未包括在SIDER4.1中因此从15个类型的测试药物中排除),提取对于在FAERS和SIDER这两者中报告的3054个类型的适应症的估计而言重要的V-AE的特性。
通过主成分分析(PCA)进行特性的提取。对V-AE和与各适应症相对应的转录组的模式进行PCA。首先,对于各适应症,使用二值矩阵表示以将各V-AE的模式转换成转录组模式(1:重要的AE/器官基因,0:其他)。使用软件“R”来实现该处理。对二值矩阵进行PCA以针对各适应症获得两个主成分得分PC1和PC2。使用默认参数并使用软件“R”函数“prcomp”来进行PCA。对PCA的结果进行分层聚类。使用软件“R”函数“hclust”的默认来进行分层聚类(Yu etal.,2012,Omics:a journal of integrative biology 16,284-287)。
在树形图中示出进行了分层聚类的各测试药物的V-AE与各适应症之间的关系(图24的(A))。基于取决于各测试药物的施予的多个器官中的转录组谱来预测V-AE。因此,各测试药物的V-AE与各适应症之间的关系可以被转换成针对响应于各测试药物的施予引起的多个器官中的转录组谱与各适应症之间的关系的树形图(图24的(B))。然后,通过进行已知的途径分析,可以将响应于各测试药物的施予而引起的多个器官中的转录组谱与各适应症之间的关系与生物反应链接。
对于骨质疏松症和精神分裂症,对响应于各测试药物的施予而引起的多个器官中的转录组谱中的一些转录组谱进行途径分析。作为途径分析,进行KEGG途径富集分析和REACTOME途径分析。根据https://reactome.org/进行REACTOME途径分析。在REACTOME途径分析中,判断为在FDR值小于0.05时存在显著差异。使用R包“clusterProfiler”版本3.10.1进行KEGG途径富集分析。在KEGG途径富集分析中,判断为在p值小于0.05时存在显著差异。根据基于PCA结果的树形图被预测为适用于骨质疏松症和精神分裂症的处置的药物,可以预测针对各疾病的治疗机制。图25示出骨质疏松症和精神分裂症的V-AE和转录组模式的主成分1(PC1)和主成分2(PC2)的分布。图25的(A)示出V-AE的分布,并且图25的(B)示出转录组模式的分布。PCA分析之后的转录组分析的结果表明,药物对骨质疏松症和精神分裂症的作用机制非常相似。对于通过本节中的机制分析估计为与骨质疏松症和精神分裂症相关联的途径,在使用REACTOME途径进行的预测和使用KEGG途径进行的预测之间进行比较。图26示出在使用REACTOME途径的情况下的结果,并且图27示出在使用KEGG途径的情况下的结果。图26和图27以维恩图示出针对骨质疏松症和精神分裂症在各器官中所估计的途径的数量。重叠部分表示针对骨质疏松症和精神分裂症共同估计出的途径。图26和图27还表明用于处置骨质疏松症的途径和用于处置精神分裂症的途径非常相似。
附图标记说明
10:训练装置
20:预测装置
101:处理部
201:处理部

Claims (12)

1.一种关注药物或其等效物质的适应症的预测方法,所述预测方法包括:
将根据数据集所估计的估计不良事件相关信息作为测试数据输入到预测用人工智能模型中,以预测所述关注药物或其等效物质的适应症,所述数据集表示从被施予了所述关注药物或其等效物质作为测试物质的非人类动物收集到的一个或多于一个器官中的生物标志物的行为。
2.根据权利要求1所述的预测方法,
其中,借助于训练数据集来训练所述预测用人工智能模型,以及
其中,所述训练数据集是如下的数据,在该数据中,(i)针对各个已知药物报告的已报告不良事件相关信息和/或已报告副作用相关信息与(ii)针对所述已知药物报告的适应症数据链接。
3.根据权利要求1或2所述的预测方法,
其中,所述预测用人工智能模型与一个适应症相对应。
4.根据权利要求1或2所述的预测方法,
其中,所述预测用人工智能模型与多个适应症相对应。
5.根据权利要求1至4中任一项所述的预测方法,
其中,所述估计不良事件相关信息和/或估计副作用相关信息是使用与所述预测用人工智能模型不同的估计用人工智能模型所生成的。
6.根据权利要求1至5中任一项所述的预测方法,
其中,所述训练数据集是通过将表示所述已知药物的适应症的标签和与针对所述已知药物报告的不良事件有关的信息利用表示所述已知药物的名称的标签进行链接所生成的。
7.根据权利要求1至6中任一项所述的预测方法,
其中,所述估计不良事件相关信息和/或估计副作用相关信息与(1)多个不良事件和/或副作用的有无、或者(2)多个不良事件和/或副作用的发生频率相对应。
8.一种用于预测关注药物或其等效物质的适应症的装置,所述装置包括处理部,
其中,所述处理部被配置为将根据数据集所估计的估计不良事件相关信息作为测试数据输入到预测用人工智能模型中,以预测所述关注药物或其等效物质的适应症,所述数据集表示从被施予了所述关注药物或其等效物质作为测试物质的非人类动物收集到的一个或多于一个器官中的生物标志物的行为。
9.一种用于预测关注药物或其等效物质的适应症的计算机程序,所述计算机程序能够由计算机执行以使所述计算机执行以下步骤:将根据数据集所估计的估计不良事件相关信息作为测试数据输入到预测用人工智能模型中,以预测所述关注药物或其等效物质的适应症,所述数据集表示从被施予了所述关注药物或其等效物质作为测试物质的非人类动物收集到的一个或多于一个器官中的生物标志物的行为。
10.一种用于估计测试物质在生物体中的作用机制的估计方法,包括:
基于通过根据权利要求1至7中任一项所述的预测方法所预测的与适应症有关的预测结果,通过聚类来对表示在预测适应症时使用的一个或多于一个器官中的生物标志物的行为的数据集分层级;以及
对分层级后的表示生物标志物的行为的数据集进行途径分析,以获取与所述测试物质的作用机制有关的信息。
11.一种用于估计测试物质在生物体中的作用机制的估计装置,所述估计装置包括处理部,
其中,所述处理部被配置为:基于通过根据权利要求1至7中任一项所述的预测方法所预测的与适应症有关的预测结果,通过聚类来对表示在预测适应症时使用的一个或多于一个器官中的生物标志物的行为的数据集分层级;以及
对分层级后的表示生物标志物的行为的数据集进行途径分析,以获取与所述测试物质的作用机制有关的信息。
12.一种用于估计测试物质在生物体中的作用机制的估计程序,所述估计程序能够由计算机执行以使所述计算机执行包括以下步骤的处理:
基于通过根据权利要求1至7中任一项所述的预测方法所预测的与适应症有关的预测结果,通过聚类来对表示在预测适应症时使用的一个或多于一个器官中的生物标志物的行为的数据集分层级;以及
对分层级后的表示生物标志物的行为的数据集进行途径分析,以获取与所述测试物质的作用机制有关的信息。
CN202180022106.XA 2020-01-17 2021-01-15 关注药物或该药物的等效物质的适应症的预测方法、预测装置和预测程序 Pending CN115315754A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020-006304 2020-01-17
JP2020006304 2020-01-17
PCT/JP2021/001265 WO2021145434A1 (ja) 2020-01-17 2021-01-15 目的とする薬剤又はその等価物質の適応症の予測方法、予測装置、及び予測プログラム

Publications (1)

Publication Number Publication Date
CN115315754A true CN115315754A (zh) 2022-11-08

Family

ID=76863781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180022106.XA Pending CN115315754A (zh) 2020-01-17 2021-01-15 关注药物或该药物的等效物质的适应症的预测方法、预测装置和预测程序

Country Status (6)

Country Link
US (1) US20230066502A1 (zh)
JP (1) JPWO2021145434A1 (zh)
CN (1) CN115315754A (zh)
CA (1) CA3167902A1 (zh)
IL (1) IL294698A (zh)
WO (1) WO2021145434A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115486819A (zh) * 2022-11-15 2022-12-20 安徽星辰智跃科技有限责任公司 一种感知觉神经通路多级联检测量化的方法、系统和装置
WO2024178006A1 (en) * 2023-02-21 2024-08-29 Genentech, Inc. Deep learning enabled prediction of drug-induced liver injury

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6559850B1 (ja) 2018-07-27 2019-08-14 Karydo TherapeutiX株式会社 ヒトにおける被験物質の作用を予測するための人工知能モデル

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6338538A (ja) 1986-07-31 1988-02-19 Sumitomo Metal Mining Co Ltd ニツケル硫化物からのニツケルの回収方法
WO2002010746A2 (en) * 2000-07-28 2002-02-07 Lion Bioscience Ag Pharmacokinetic tool and method for predicting metabolism of a compound in a mammal
JP5083320B2 (ja) * 2007-08-22 2012-11-28 富士通株式会社 化合物の物性予測装置、物性予測方法およびその方法を実施するためのプログラム
JP5844715B2 (ja) * 2012-11-07 2016-01-20 学校法人沖縄科学技術大学院大学学園 データ通信システム、データ解析装置、データ通信方法、および、プログラム
EP3316159A4 (en) 2015-06-25 2019-08-14 Advanced Telecommunications Research Institute International PREDICTIVE EQUIPMENT BASED ON A SYSTEM ASSOCIATED WITH SEVERAL INSTITUTIONS AND PREDICTION PROGRAM
JP6559850B1 (ja) * 2018-07-27 2019-08-14 Karydo TherapeutiX株式会社 ヒトにおける被験物質の作用を予測するための人工知能モデル

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115486819A (zh) * 2022-11-15 2022-12-20 安徽星辰智跃科技有限责任公司 一种感知觉神经通路多级联检测量化的方法、系统和装置
WO2024178006A1 (en) * 2023-02-21 2024-08-29 Genentech, Inc. Deep learning enabled prediction of drug-induced liver injury

Also Published As

Publication number Publication date
US20230066502A1 (en) 2023-03-02
JPWO2021145434A1 (zh) 2021-07-22
WO2021145434A1 (ja) 2021-07-22
IL294698A (en) 2022-09-01
CA3167902A1 (en) 2021-07-22

Similar Documents

Publication Publication Date Title
US10867702B2 (en) Individual and cohort pharmacological phenotype prediction platform
JP7266899B2 (ja) ヒトにおける被験物質の作用を予測するための人工知能モデル
CN115315754A (zh) 关注药物或该药物的等效物质的适应症的预测方法、预测装置和预测程序
EP2864920B1 (en) Systems and methods for generating biomarker signatures with integrated bias correction and class prediction
US20140278130A1 (en) Method of predicting toxicity for chemical compounds
EP4260340A1 (en) Predicting fractional flow reserve from electrocardiograms and patient records
CN109155150A (zh) 从基因型测定表型
EP4047607A1 (en) Artificial intelligence model for predicting indications for test substances in humans
JP2022099245A (ja) 創薬標的タンパク質の予測方法、創薬標的タンパク質の予測システム
González-Martín et al. An Artificial Intelligence Prediction Model of Insulin Sensitivity, Insulin Resistance, and Diabetes Using Genes Obtained through Differential Expression
Raj et al. Artificial intelligence in bioinformatics
Khan Drug side-effect prediction using machine learning methods
US20230253115A1 (en) Methods and systems for predicting in-vivo response to drug therapies
US20230260656A1 (en) Cohort stratification into endotypes
Parvandeh Epistasis Network and Machine Learning Methods for the Analysis of Biological Large Data
US20240321448A1 (en) Artificial intelligence for identifying one or more predictive biomarkers
Liu Chemical Safety Through the Lens of Omics: Machine Learning Approaches for Pathway Analysis and Predictive Modelling
Burgun et al. Two approaches to integrating phenotype and clinical information
Morris et al. Toxicogenomics and RNA-seq
CN118507078A (zh) 一种基于网络药理学算法的中药不良反应风险预测方法
Fernández Multimodal Mechanistic Signatures for Neurodegenerative Diseases (NeuroMMSig): a web server for mechanism enrichment
Veeranki et al. Application of data science and bioinformatics in healthcare technologies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20221108