CN112368774A - 用于预测受试物质在人类中作用的人工智能模型 - Google Patents

用于预测受试物质在人类中作用的人工智能模型 Download PDF

Info

Publication number
CN112368774A
CN112368774A CN201980043930.6A CN201980043930A CN112368774A CN 112368774 A CN112368774 A CN 112368774A CN 201980043930 A CN201980043930 A CN 201980043930A CN 112368774 A CN112368774 A CN 112368774A
Authority
CN
China
Prior art keywords
artificial intelligence
intelligence model
data
training
substance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201980043930.6A
Other languages
English (en)
Inventor
佐藤匠德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Infinite Biopharmaceutical Co
Original Assignee
Infinite Biopharmaceutical Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Infinite Biopharmaceutical Co filed Critical Infinite Biopharmaceutical Co
Publication of CN112368774A publication Critical patent/CN112368774A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/15Medicinal preparations ; Physical properties thereof, e.g. dissolubility
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Immunology (AREA)
  • Analytical Chemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Pathology (AREA)
  • Medicinal Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Food Science & Technology (AREA)
  • Bioethics (AREA)
  • Organic Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)

Abstract

一种用于训练人工智能模型的方法,其包括通过将第一训练数据组与第二训练数据或第二训练数据组输入到人工智能模型来训练人工智能模型,其中第一训练数据组包含指示一个器官或多个不同器官中的每一个中一种以上的生物标志物的动力学的数据的组,该一个或多个不同器官收集自已经施用多种在人类中具有已知作用的现有物质的各非人类动物,并且第二训练数据包含与从施用于非人类动物的多种现有物质中获得的人类中已知作用有关的信息,其中所述人工智能模型从指示已经施用受试物质的非人类动物中的一个器官或多个不同器官中的每一个中的一种以上的生物标志物的动力学的数据的组预测受试物质在人类中的一种以上的作用,该一个器官或多个不同器官分别对应于在生成第一数据组时收集的一个器官或多个器官,并且所述人工智能模型使用利用所述训练方法训练的人工智能模型预测受试物质的效果和副作用等作用。

Description

用于预测受试物质在人类中作用的人工智能模型
技术领域
本公开涉及一种用于训练人工智能模型的方法,该方法使用指示从已经单独施用了在人类中具有已知作用的多种现有物质的非人类动物中收集的一个器官或多个不同器官的每一个中的一种以上的生物标志物的动力学的数据的组,来预测受试物质在人类中的一种以上的作用,并且还涉及训练装置、训练程序、用于预测受试物质在人类中的一种以上的作用的方法、预测装置、预测程序、和预测系统。
背景技术
专利文献1公开了一种用于预测受试物质的功效或副作用的方法,其包括通过比较关于已经施用受试物质的个体的一种以上的器官中的器官关联指数因子的受试数据与相应的器官关联指数因子的预定标准数据,计算受试数据和标准数据间的器官关联指数因子的模式相似度,来获得模式相似度的步骤,该受试数据源自来自一种以上的器官的细胞或组织;并且通过使用器官关联指数因子的模式相似度预测在一种以上的器官和/或该一种以上的器官以外的一种以上的器官中的受试物质的功效或副作用。
新药的开发从药物发现研究开始,以寻找新药的候选物质(发现阶段),然后是使用动物和培养细胞进行的临床前研究(阶段0)。然后,进行包括I~III期在内的人类临床试验,此后,只有通过临床试验的物质才能申请厚生劳动省(the Ministry of Health,Laborand Welfare)的授权获得生产和销售该物质作为药品的许可。即使这些物质已通过审查批准为药品并投放市场,也设定了观察期,以监测在开发和批准审查阶段无法预期的副作用和其它功效。因此,发射新药需要大量时间和金钱。但是,在发现阶段发现的物质最终被批准用于生产和销售的可能性约为1.6%。此外,仅通过临床前试验的物质的13.8%在临床试验期间(在临床前试验后直至第III期)显示出效果,且未显示副作用,因此可以申请授权。换句话说,超过80%的候选物质会在临床试验的I至III期退出。据认为,由于这种退出而造成的损失为每种物质1.5亿美元至2亿美元,这是巨大的。
现有技术文献
专利文献
专利文献1:WO2016/208776
发明内容
发明要解决的问题
如果可以在新药开发中尽早预测到诸如候选物质在人类中的效果和副作用等作用,则可以减少这种损失。如后述图2A所示,在常规方法中,通过例如基于诸如小鼠等的数据库、先前报道的病理机理和先前报道的临床数据推测生物反应的机理;将现有药物的结构和活性与推测的机理联系起来;进一步将结果与受试物质的结构和受试物质对非人类动物或培养细胞的活性联系起来,来预测受试物质在人类中的作用。然而,该方法需要大量的信息,因为该方法基于大量的信息来预测生物学机理。另外,生物反应机理本身是根据预测而逻辑构建的;因此,如果首先预测的生物反应机理不正确,则将错误地预测受试物质的作用。因此,目前很难有效地预测诸如候选物质在人类中的效果和副作用等作用。
本公开的目的是从受试物质在非人类动物中的作用有效地预测受试物质在人类中的一种以上的作用。
用于解决问题的方案
本发明人进行了广泛的研究,发现使用通过使用指示从已经施用现有物质的非人类动物中收集的多个不同组织中的一种以上的生物标志物的动力学的数据的组并使用多种现有物质在人类中的作用作为训练数据来训练的人工智能模型,可以根据已经施用受试物质的非人类动物中的多个不同器官中的一种以上的生物标志物的动力学来有效地预测受试物质在人类中诸如效果和副作用等作用。
本发明包括以下实施方案。
项1.
一种用于训练人工智能模型的方法,
所述方法包括将第一训练数据组和第二训练数据或第二训练数据组输入到人工智能模型中以训练人工智能模型,
其中所述第一训练数据组包含指示一个器官或多个不同器官的每一个中的一种以上的生物标志物的动力学的数据的组,
从各非人类动物中收集一个器官或多个不同器官,其中所述非人类动物已经单独施用多种在人类中具有已知作用的现有物质,
所述第二训练数据包含从施用于所述非人类动物的多种现有物质中的每一种中获得的有关于人类中已知作用的信息,和
所述人工智能模型根据以下数据组预测受试物质在人类中的一种以上的作用,所述数据组指示已经施用受试物质的非人类动物中的一个器官或多个不同器官中的每一个中的一种以上的生物标志物的动力学,所述一个器官或多个不同器官分别对应于第一训练数据组生成时收集的一个器官或多个不同器官。
项2.
根据项1的训练人工智能模型的方法,
其中指示所述一个器官或多个不同器官中的每一个中的一种以上的生物标志物的动力学的数据各自与有关于施用于非人类动物的多种现有物质之一的名称的信息、有关于收集的器官之一的名称的信息、以及有关于生物标志物之一的名称的信息相关联,
所述有关于人类中已知作用的信息与所述有关于施用于非人类动物的多种现有物质之一的名称的信息相关联,和
基于所述有关于施用于非人类动物的多种现有物质之一的名称的信息,指示所述一个器官或多个器官中的每一个中的一种以上的生物标志物的动力学的数据的组与各所述有关于人类中已知作用的信息相关联,以训练人工智能模型。
项3.
根据项1或2的训练人工智能模型的方法,
其中所述有关于人类中已知作用的信息包括作用的发生率的信息,和
所述人工智能模型输出预测结果作为对应于每种作用的关联程度的评分。
项4.
根据项3的训练人工智能模型的方法,其中所述评分由至少两个分位数表示。
项5.
根据项1至4中任一项所述的训练人工智能模型的方法,
其中所述有关于人类中已知作用的信息包括已经从中获得人类中已知作用的信息的个体人类的人口概况,和
根据人类的各人口概况对所述第二训练数据进行分层。
项6.
根据项5的训练人工智能模型的方法,其中所述个体人类的人口概况是年龄段和性别中的至少一个。
项7.
根据项5或6的训练人工智能模型的方法,
其中所述人工智能模型根据所述个体人类的人口概况预测所述受试物质在人类中的一种以上的作用。
项8.
根据项1至7中任一项所述的训练人工智能模型的方法,
其中一种以上的作用是选自由以下组成的组的至少一种:现有物质的副作用、现有物质的药代动力学、和现有物质的适应症。
项9.
根据项1至8中任一项所述的训练人工智能模型的方法,
其中所述受试物质不包括现有物质和现有物质的等价物质。
项10.
根据项1至8中任一项的训练人工智能模型的方法,
其中所述受试物质是选自由现有物质和现有物质的等价物质组成的组的一种。
项11.
根据项1至10中任一项所述的训练人工智能模型的方法,
其中所述一种以上的生物标志物是转录组。
项12.
根据项1至11中任一项所述的训练人工智能模型的方法,
其中所述人工智能模型是支持向量机(SVM)、相关向量机(RVM)、朴素贝叶斯、逻辑回归、随机森林、前馈神经网络、深度学习、K最近邻算法、AdaBoost、bagging、C4.5、核近似、随机梯度下降(SGD)分类器、lasso、岭回归、弹性网络、SGD回归、核回归、LOWESS回归、矩阵分解、非负矩阵分解、核矩阵分解、内插法、核平滑、或协同过滤。
项13.
一种预测受试物质在人类中的一种以上的作用的方法,所述方法包括以下步骤:
获得受试数据,所述受试数据包含指示从已经施用受试物质的非人类动物中收集的一个器官或多个器官中的一种以上的生物标志物的动力学的数据的组,和
将所述受试数据输入到通过根据项1至12中任一项所述的方法训练的人工智能模型中,并由经训练的人工智能模型基于输入的所述受试数据,预测所述受试物质在人类中的一种以上的作用。
项14.
根据项13所述的方法,其中所述受试物质是现有物质或现有物质的等价物质,并且所述一种以上的作用是所述现有物质的一个以上的新适应症。
项15.
一种用于预测受测物质在人类中的一种以上的作用的预测装置,所述装置包含处理单元,
所述处理单元配置为:
获得受试数据,
其中所述受试数据包含指示从已经施用受试物质的非人类动物中收集的一个器官或多个器官中的一种以上的生物标志物的动力学的数据的组,和
将所述受试数据的组输入到通过根据项1至12中任一项所述的方法训练的人工智能模型,和,
由经训练的人工智能模型基于输入的所述受试数据,预测所述受试物质在人类中的一种以上的作用。
项16.
一种用于预测受测物质在人类中的一种以上的作用的计算机程序,所述计算机程序使计算机执行包括以下步骤的处理:
获得受试数据,所述受试数据包含指示从已经施用受试物质的非人类动物中收集的一个器官或多个器官中的一种以上的生物标志物的动力学的数据的组,和
将所述受试数据输入到通过根据项1至12中任一项所述的方法训练的人工智能模型中,和,
由经训练的人工智能模型基于输入的所述受试数据,预测将所述受试物质在人类中的一种以上的作用。
项17.
一种用于预测受测物质在人类中的一种以上的作用的系统,所述系统包括:
用于发送受试数据的服务器装置,所述受试数据包含指示从已经施用受试物质的非人类动物中收集的一个器官或多个器官中的每一个中的一种以上的生物标志物的动力学的数据的组,和
用于预测所述受试物质在人类中的一种以上的作用的预测装置,所述预测装置通过网络连接到所述服务器装置,
其中所述服务器装置包括用于发送所述受试数据的通信单元,
所述预测装置包括处理单元和通信单元,
所述预测装置的通信单元接收从所述服务器装置发送的受试数据,和
所述处理单元将由所述预测装置的通信单元接收的受试数据输入到通过根据项1至12中任一项所述的方法训练的人工智能模型中,并且通过经训练的人工智能模型来预测所述受试物质在人类中的一种以上的作用。
项18.
一种用于构建用于预测受测物质在人类中的一种以上的作用的系统的方法,所述方法包括以下步骤:
准备用于发送所述受试数据的服务器装置,所述受试数据包含指示从已经施用受试物质的非人类动物中收集的一个器官或多个器官中的每一个中的一种以上的生物标志物的动力学的数据的组,和
准备用于预测所述受试物质在人类中的一种以上的作用的预测装置,所述预测装置通过网络连接到所述服务器装置,
其中所述服务器装置包括用于发送所述受试数据的通信单元,
所述预测装置包括处理单元和通信单元,
所述预测装置的通信单元接收从所述服务器装置发送的所述受试数据,
所述处理单元将由所述预测装置的通信单元接收的所述受试数据输入到通过根据项1至12中任一项所述的方法训练的人工智能模型中,并且通过经训练的人工智能模型来预测所述受试物质在人类中的一种以上的作用。
项19.
一种用于支持预测受试物质在人类中的一种以上的未知作用的方法,所述方法包括以下步骤:
将第一训练数据组和第二训练数据组输入到具有矩阵分解函数的人工智能模型中,
所述第一训练数据包含指示一个器官或多个不同器官中的每一个中的一种以上的生物标志物的动力学的数据的组,所述一个器官或多个不同器官中的每一个收集自已经单独施用了在人类中具有已知作用的多种现有物质的各非人类动物,
所述第二训练数据包含有关于人类中已知作用的信息,所述有关于人类中已知作用的信息从施用于非人类动物的多种现有物质中的每一种中获得;
构建新矩阵,其包含从所述人工智能模型输出的值作为新元素,所述值各自指示有关于现有物质之一的名称的信息与有关于已知作用的信息之间的关联度;和
当与受试物质相对应的关注区域中存在等于或大于阈值的元素时,提示与所述等于或大于阈值的元素相对应的有关于已知作用的信息;
其中所述受试物质是选自由现有物质和现有物质的等价物质组成的组的一种。
项20.
根据项19所述的方法,其用于药物重新定位。
项21.
一种支持预测受试物质在人类中的一种以上的未知作用的装置,所述装置包括处理单元,
其中所述处理单元执行以下处理:
将第一训练数据组和第二训练数据组输入到具有矩阵分解函数的人工智能模型中,
所述第一训练数据包含指示一个器官或多个不同器官中的每一个中的一种以上的生物标志物的动力学的数据的组,所述一个器官或多个不同器官中的每一个收集自已经单独施用了在人类中具有已知作用的多种现有物质的各非人类动物,和
所述第二训练数据包含有关于人类中已知作用的信息,所述有关于人类中已知作用的信息从施用于非人类动物的多种现有物质中的每一种中获得;
构建新矩阵,其包含从所述人工智能模型输出的值作为新元素,所述值各自指示有关于现有物质之一的名称的信息与有关于已知作用的信息之间的关联度;和
当与受试物质相对应的关注区域中存在等于或大于阈值的元素时,提示与所述等于或大于阈值的元素相对应的有关于已知作用的信息;
其中所述受试物质是选自由现有物质和现有物质的等价物质组成的组的一种。
项22.
根据项21所述的装置,其用于药物重新定位。
项23.
一种用于使用存储第一训练数据组的数据库和存储第二训练数据或第二训练数据组的数据库以训练人工智能模型的方法,
其中所述人工智能模型根据已经施用受试物质的非人类动物的一个器官或多个不同器官中的一种以上的生物标志物的动力学来预测受试物质在人类中的一种以上的作用,所述一个器官或多个不同器官分别对应于生成所述训练数据时收集的一个或多个器官,
通过有关于多种现有物质之一的名称的信息,将所述第一训练数据组与所述第二训练数据或第二训练数据组相关联,
所述第一训练数据组包含指示一个器官或多个不同器官中一种以上的生物标志物的动力学的数据的组,所述一个器官或多个不同器官收集自已经单独施用了在人类中具有已知作用的多种现有物质的非人类动物,和
所述第二训练数据包含有关于人类中已知作用的信息,所述有关于人类中已知作用的信息从施用于非人类动物的多种现有物质中的每一种中获得。
项24.
根据项1至14、19和20中的任一项的方法,其通过计算机实施。
项25.
一种计算机可读存储介质,其存储项16的预测程序。
发明的效果
可以有效地预测受试物质在人类中的作用。
附图说明
图1是说明根据本公开的预测方法的概要的图。
图2是示出常规方法和根据本公开的预测方法之间的比较的图。图2A概述了常规方法。图2B概述了根据本公开的预测方法。
图3示出可从FAERS收集的副作用的实例。图3还示出了副作用的实际发生率和副作用的预测发生率,以及它们之间的差值。
图4示出可从Drugs@FDA和DAILYMED收集的药代动力学的实例。
图5示出关于生物标志物的动力学的数据的实例。
图6示出关于在人类中作用的数据的实例。图6A示出所述作用是药代动力学的情况,图6B示出所述作用是副作用的情况,图6C示出所述作用是适应症的情况。
图7A说明训练装置的配置实例和预测装置的配置实例。图7B示出人工智能训练系统的配置实例。
图8示出训练装置的硬件的配置实例和预测装置的硬件的配置实例。
图9是示出用于训练人工智能模型的方法的流程的流程图。
图10是示出用于训练人工智能模型的方法的流程的流程图。
图11是示出用于更新经训练的人工智能模型的方法的流程的流程图。
图12是示出用于预测人类中的一种以上的作用的方法的流程的流程图。
图13是示出用于预测人类中的一种以上的作用的方法的流程的流程图。
图14是示出预测系统的操作流程的流程图。
图15是示出人类中副作用的预测结果与实际评分之差的图。
图16示出生物利用度的预测结果。
图17示出使用EMPA的药物分布的预测结果。
图18示出药物重新定位的实例。图18A示出已知的药物功效。图18B示出预测的药物功效。
图19示出基于使用SVM选择的三个器官的转录组的动力学的生物利用度预测结果。
图20示出取决于器官数目的预测效果的评价结果。
图21示出根据分层的预测效果的评价结果。
具体实施方式
1.预测方法概述和术语解释
首先,将参照图1描述预测方法的概要,并且将参照图2描述常规方法和本公开中包括的预测方法之间的差异。
该预测方法预测受试物质在人类中的一种以上的作用。优选地,所述预测方法基于已经施用了在人类中具有已知作用的个体现有物质的非人类动物中的一种以上的生物标志物的动力学和基于现有物质在人类中的已知作用,来预测受试物质在人类中的一种以上的作用。更优选地,使用人工智能模型来完成预测方法。
如图1所示,将例如药物A、B和C作为现有物质单独施用于诸如小鼠等非人类动物,并且从非人类动物中收集器官或组织(器官的一部分)。分析收集的器官或组织中一种以上的生物标志物的动力学,以生成第一训练数据组。第二训练数据是从人类临床数据库,例如现有物质的副作用、功效、药代动力学和适应症中生成的。
通过使用第一训练数据组和第二训练数据训练人工智能模型来生成人工智能模型。预测方法包括通过使用经训练的人工智能模型,根据已经施用受试物质X的非人类动物的一个器官或多个器官中的一种以上的生物标志物的动力学来预测受试物质X在人类中的一种以上的作用。具体地,分别从已经施用受试物质X的非人类动物中收集一个或多个器官或器官的一部分,并且获得指示每个器官中的一种以上的生物标志物的动力学的数据的组。随后,将数据组输入到经训练的人工智能模型中,以通过人工智能模型预测受试物质X在人类中的一种以上的作用。
如图2A所示,在常规方法中,还已经从现有物质中预测了受试物质X的功效和药代动力学。然而,常规方法例如根据小鼠的基因表达数据库、病理机理、临床数据和现有药物信息来预测关于哪种药物可以治疗目标疾病的治疗机理;然后基于预测机理预测将受试物质X施用于非人类动物时会产生什么作用。
相反,如图2B所示,本公开中包括的预测方法不受关于哪种药物可以治疗目标疾病的治疗机理的约束,并且该方法根据已经实际施用现有物质的非人类动物中的一种以上的生物标志物的动力学预测受试物质X在人类中的作用。
更具体地,在常规方法中,如果预测的机理不正确,则随后对受试物质X的预测也将不正确。然而,本公开中包括的预测方法不需要这种机理预测;无需考虑机理预测中涉及的风险。
另外,尽管这种常规方法中现有药物的作用机理通常使用计算机模拟药物发现系统(in silico drug discovery system)等基于药物的化学结构来预测,但是难以预测大分子药物,例如抗体的作用机理。然而,本公开中包括的预测方法可以对大分子受试物质进行预测。
在本公开中,非人类动物没有限制。实例包括哺乳动物,例如小鼠、大鼠、狗、猫、兔、牛、马、山羊、绵羊和猪;和鸟类,例如鸡。非人类动物优选哺乳动物,例如小鼠、大鼠、狗、猫、牛、马、和猪,更优选小鼠和大鼠,再更优选小鼠。非人类动物还包括这些动物的胎儿和雏。
在本公开中,术语“物质”包括,例如化合物;核酸;碳水化合物;脂质;糖蛋白;糖脂;脂蛋白;氨基酸;肽;蛋白质;多酚;趋化因子;选自由这些物质末端代谢物、这些物质的中间代谢物、和这些物质的合成原料组成的组的至少一种代谢物;金属离子;和微生物。物质可以是单一物质,也可以是两种以上物质的混合物。优选地,物质包括药品、准药物、药妆品、食品、用于特定健康用途的食品、具有功能要求的食品、以及这些产品的候选产品。物质还包括在临床前试验或临床试验中为了监管批准而停止或暂停试验的物质。
“现有物质”没有限制,只要该物质是现有物质即可。优选地,它是在人类中具有一种以上已知作用的物质。“现有物质的等价物质”可以包括与现有物质结构和作用类似的物质。在本说明书中,“作用类似”是指与现有物质具有同种作用的作用,而与作用强度的差异无关。
“作用”没有限制,只要该作用是物质对人类的影响即可。作用的实例包括功效、副作用和药代动力学。作用优选为功效和副作用,更优选副作用。
“副作用”没有限制,只要副作用是判断为对人类有害的影响即可。副作用的优选实例包括如图3所示的FAERS(https://www.fda.gov/Drugs/GuidanceComplianceRegulatoryInformation/Surveil lance/AdverseDrugEffects/ucm082193.htm)或clinicaltrials.gov(https://clinicaltrials.gov/)上列出的那些。
“功效”没有限制,只要功效是改善或治疗人类疾病或症状,或阻止或预防人类疾病或症状发展的作用既可。疾病和症状的实例包括在DailyMed的所有药物标签(https://dailymed.nlm.nih.gov/dailymed/spl-resources-all-drug-labels.cfm)、MedicalSubject Headings(https://www.nlm.nih.gov/mesh/meshhome.html)、Drugs@FDA(https://www.accessdata.fda.gov/scripts/cder/daf/)和InternationalClassification of Diseases(https://www.who.int/health-topics/international-classification-of-diseases)中公开的那些。更具体地,适应症包括与缺血性疾病,例如血栓形成、栓塞、和狭窄(尤其是心脏、脑、肺、大肠等);循环系统病况,例如动脉瘤、静脉曲张、充血和出血(主动脉、静脉、肺、肝脏、脾脏、视网膜等);过敏性疾病,例如过敏性支气管炎和肾小球肾炎;退行性疾病(神经、骨骼肌等),例如痴呆症,包括阿尔茨海默氏症、帕金森氏病、肌萎缩性侧索硬化症、和重症肌无力;肿瘤(良性上皮肿瘤、良性非上皮肿瘤、恶性上皮肿瘤和恶性非上皮肿瘤);代谢性疾病(碳水化合物代谢异常、脂质代谢异常和电解质失衡);以及自身免疫性疾病,例如传染病(细菌、病毒、立克次体、沙眼衣原体(Chlamydiatrachomatis)、真菌、原生动物、寄生虫等)、肾脏疾病、系统性红斑狼疮和多发性硬化症有关的症状和疾病。
副作用的发生率和功效可以通过以下方法确定。例如,表示副作用名称的单词是通过例如从Clinicaltrials.gov、FAERS、或DAILYMED的所有药品标签等数据库中提取文本来检索的。一个检索到的单词可以看作一个报告的副作用。对于单个的现有物质,副作用的发生率可以使用下式计算:发生率=(关于特定副作用的报告的件数)/(关于该现有物质副作用的报告的总件数)。也可以通过例如借助文本提取从数据库中检索功效的名称而不是副作用并使用下式来确定单个现有物质的功效发生率:(关于特定功效的报告的件数)/(关于该现有物质功效的报告总件数)。还可以通过检索表示功效的单词,以与副作用相同的方式来检索功效和其它效果。如果数据库包含以句子形式注册的作用的描述,则可以通过自然语言处理对注册的句子进行语法分析、分词、语义分析等,然后可以提取与该作用对应的文本。
“药代动力学”没有限制,只要它是上述物质在上述哺乳动物或鸟类体内的动力学即可。实例包括图4所示的动力学。
“器官”没有限制,只要它是上述哺乳动物或鸟类体内存在的器官即可。例如,哺乳动物的器官是选自循环器官(心脏、动脉、静脉、淋巴管等);呼吸器官(鼻腔、鼻窦、喉、气管、支气管、肺等);消化器官(嘴唇、颊部、上颚、牙齿、牙龈、舌头、唾液腺、咽、食道、胃、十二指肠、空肠、回肠、盲肠、阑尾、升结肠、横结肠、乙状结肠、直肠、肛门、肝脏、胆囊、胆管、胆道、胰腺、胰管等);泌尿器官(尿道、膀胱、输尿管、肾脏),神经系统器官(大脑、小脑、中脑、脑干、脊髓、末梢神经、自主神经等);女性生殖器官(卵巢、输卵管、子宫、阴道等),乳房;男性生殖器官(阴茎、前列腺、睾丸、附睾、输精管);内分泌器官(下丘脑、脑下垂体、松果体、甲状腺、副甲状腺、肾上腺等);外皮器官(皮肤、头发、指甲等);造血器官(血液、骨髓、脾脏等);免疫系统器官(淋巴结、扁桃体、胸腺等);骨骼和软组织器官(骨骼、软骨、骨骼肌、结缔组织、韧带、肌腱、横隔膜、腹膜、胸膜,脂肪组织(棕色脂肪,白色脂肪)等);和感觉器官(眼球、眼睑、泪腺、外耳、中耳、内耳、耳蜗等)中的至少一种。器官优选选自骨髓、胰腺、头骨、肝脏、皮肤、脑、脑下垂体、肾上腺、甲状腺、脾脏、胸腺、心脏、肺、主动脉、骨骼肌、睾丸、附睾脂肪、眼球、回肠、胃、空肠、大肠、肾脏和腮腺中的至少一种。优选地,骨髓、胰腺、头骨、肝脏、皮肤、脑、脑下垂体、肾上腺、甲状腺、脾脏、胸腺、心脏、肺、主动脉、骨骼肌、睾丸、附睾脂肪、眼球、回肠、胃、空肠、大肠、肾脏和腮腺都用于根据本公开的预测中。“多个器官”没有限制,只要器官的数目为两个以上即可。例如,多个器官可以选自2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或24个种类的器官。
“生物标志物”是指可以依赖于上述物质的施用而在器官的细胞或组织和/或体液中改变的生物物质。可以用作生物标志物的生物物质是,例如,选自核酸;碳水化合物;脂质;糖蛋白;糖脂;脂蛋白;氨基酸;肽;蛋白质;多酚;趋化因子;选自由这些物质的末端代谢物、这些物质的中间代谢物、和这些物质的合成原料组成的组的至少一种代谢物;和金属离子等中的至少一种。更优选地,可以用作生物标志物的生物物质是核酸。生物标志物物优选是可以依赖于上述物质的施用而在器官的细胞或组织和/或体液中改变的生物物质的组。生物物质的组为,例如,选自核酸;碳水化合物;脂质;糖蛋白;糖脂;脂蛋白;氨基酸;肽;蛋白质;多酚;趋化因子;选自由这些物质的末端代谢物、这些物质的中间代谢物、和这些物质的合成原料组成的组的至少一种代谢物;金属离子等中的至少一种的组。
“核酸”优选为转录组中包含的RNA,例如mRNA、未翻译的RNA、和微小RNA的组;并且更优选mRNA组。RNA优选为可以在器官的细胞或组织中或在体液中的细胞中表达的mRNA、未翻译的RNA、和/或微小RNA;更优选地,例如可以通过RNA-Seq(https://www.ncbi.nlm.nih.gov/gene?LinkName=genome_gene&from_uid=52,和http://jp.support.illumina.com/sequencing/sequencing_software/igenome.html)检测mRNA、未翻译的RNA、和/或微小RNA。优选地,可以使用RNA-Seq分析的所有RNA用于根据本公开的预测中。
“指示一种以上的生物标志物的动力学的数据的组”是指指示一种以上的生物标志物已改变或未改变的数据的组,这取决于现有物质的施用。优选地,一种以上的生物标志物的动力学是指一种以上的生物标志物响应于现有物质的施用而改变。例如,可以通过以下方法获得数据。测量源自从已经施用现有物质的非人类动物中收集的器官的组织、细胞、或体液等中各生物标志物的量或浓度,以获得已经施用现有物质的个体非人类动物的各器官的测定值。另外,以相同的方式测量源自未施用现有物质的非人类动物的器官(与从已经施用现有物质的个体中获得的测定值的器官相对应的器官),以获得未施用现有物质的各非人类动物的测定值。比较源自已经施用现有物质的个体的各器官的各生物标志物的测定值与源自与未施用现有物质的各非人类动物的各器官相对应的各器官的各生物标志物的测定值,以获得指示差异的值作为数据。如本文所用,术语“对应”是指器官或生物标志物是相同的或相同类型。优选地,所述差异可以通过源自已经施用现有物质的个体的生物标志物的测定值与未施用现有物质的非人类动物中对应的生物标志物的比(例如,除法值)表示。例如,该数据为通过将源自已经施用现有物质的个体的器官A中的生物标志物A的测定值除以源自未施用现有物质的个体的器官A中的生物标志物A的测定值获得的除法值。
当生物标志物为转录组时,可以使用可以用RNA-seq分析的总RNA。可选地,可以使用例如WGCNA(https://labs.genetics.ucla.edu/horvath/CoexpressionNetwork/Rpackages/WGCN A/)分析RNA的表达,并且结果可以分为指示与器官名称和基因名称相联的各RNA的动力学的数据子集(模块)。对于由WGCNA分割的各模块,计算1-of-K表示与各现有物质之间的皮尔森相关系数(Pearson's correlation coefficient),并为各现有物质选择具有最高相关系数绝对值的模块。所选模块中包含的各器官中的RNA可用作生物标志物。
另外,当生物标志物是响应于已有物质的施用的转录组时,已经施用现有物质的动物的各器官中转录组与未施用现有物质的动物的各器官中转录组相比,其变化可以使用DESeq2分析来测量。例如,通过htseq-count量化从已经施用现有物质的动物中收集的各器官中RNA的表达水平和从未施用现有物质的动物中收集的各相应器官中基因的表达水平,以获得每个的计数数据。比较各器官和各器官中基因的表达水平。作为比较结果,针对各器官、针对各基因输出已经施用现有物质的动物的基因表达水平变化的log2(倍数)值和用作表达水平变化概率指标的p值。可以基于log2(倍数)值确定是否存在生物标志物,例如转录组的动力学。
短语“源自器官”是指例如从器官收集,或从收集的器官的细胞、组织或体液中培养。
“体液”包括血清、血浆、尿液、脊髓液、腹水、胸腔积液、唾液、胃液、胰液、胆汁、乳汁、淋巴液、和间质液。
生物标志物的测定值可以通过已知方法获得。当生物标志物是核酸时,可以通过诸如RNA-Seq或定量PCR等测序来获得测定值。当生物标志物是例如碳水化合物、脂质、糖脂、氨基酸、多酚、趋化因子、或选自由这些物质的末端代谢物、这些物质的中间代谢物、以及这些物质的合成原料组成的组的至少一种代谢物时,可以通过例如质谱法获得测定值。当生物标志物是糖蛋白、脂蛋白、肽或蛋白质等时,可以通过例如ELISA(酶联免疫吸附测定)获得测定值。还已知用于收集用于测定的来自器官的组织、细胞或体液的方法以及用于测定生物标志物的预处理方法。
“受试物质”是指要评价其作用的物质。受试物质可以是现有物质,现有物质的等价物质,或新物质。即使该受试物质的作用与现有物质或现有物质的等价物质的作用之间的关系未知,该预测方法也可以预测受试物质的在人类中的一种以上的作用。当受试物质是选自现有物质和现有物质的等价物质中的一种时,可以发现现有物质或现有物质的等价物质的未知作用。未知作用可以是一种或多种作用。未知作用优选为新适应症。药物重新定位也可以通过预测受试物质在人类中的新适应症来进行。将受试物质施用于非人类动物是已知的。可以以指示从已经施用现有物质的非人类动物收集的一个器官或多个器官中一种以上的生物标志物的动力学的数据相同的方式获得指示从已经施用受试物质的非人类动物中收集的一个器官或多个器官中一种以上的生物标志物的动力学的数据。
2.人工智能模型的构建
2-1.训练数据的生成
(1)第一训练数据组的生成
第一训练数据组可以由指示在一个器官或多个不同器官中的每一个中的一种以上的生物标志物的动力学的数据的组组成。所述一个器官或多个不同器官可以从已经单独施用了在人类中具有已知作用的多种现有物质的非人类动物中收集。该第一训练数据组可以存储为数据库。
指示各器官中一种以上的生物标志物的动力学的数据各自都可以与有关于多种施用的现有物质之一的名称的信息、有关于所收集器官之一的名称的信息、有关于生物标志物之一的名称的信息等相关联。有关于名称的信息可以是名称本身、诸如缩写等标签、或与各名称相对应的标签值。
指示一种以上的生物标志物的动力学的数据的组中包括的数据的每一项,都用作构成稍后描述的人工智能模型的第一训练数据组中的矩阵的元素。当生物标志物是转录组时,各RNA的表达水平与数据相对应,并用作构成第一训练数据组的矩阵的元素。例如,当生物标志物是转录组时,可以将通过DESeq2分析获得的各现有物质的log2(倍数)值用作第一组训练数据组的元素。
图5示出在使用转录组作为生物标志物的情况下的第一训练数据组的实例的一部分。指示一种以上的生物标志物的动力学的数据以矩阵表示,其中针对现有物质的名称的各标签(行方向),在列方向排列各自代表器官名称和基因名称(可以表示为“器官-基因”)组合的标签。矩阵的每个元素显示从已经施用在行标签中指示的现有物质的非人类动物中收集的、在列标签中指示的器官中的、列标签中指示的基因的表达水平。更具体地,现有物质“阿立哌唑(Aripiprazole)”和“EMPA”是行方向的标签。在列方向上,显示诸如“Heart_Alas2”、“Heart_Apod”、“ParotidG_Alas2”和“ParotidG_Apod”等标签。“Heart”和“ParotidG”是指示诸如心脏和腮腺等器官的标签。“Alas2”和“Apod”指示RNA来源的基因的名称。换句话说,标签“Heart_Alas2”的意思是“Alas2基因在心脏中的表达”。
指示一种以上的生物标志物的动力学的数据的组可以直接用作第一训练数据组;可选地,指示一种以上的生物标志物的动力学的数据组可以进行归一化、降维等,然后用作第一训练数据组。归一化的实例包括以下方法:其中将指示表达差异的数据转换为平均值为0,方差为1。归一化中的平均值可以是每个器官的平均值、每个基因的平均值、或所有数据的平均值。降维可以通过统计处理,例如主成分分析进行。用于进行统计处理的群体可以是每个器官、每个基因、或总数据。例如,当生物标志物是转录组时,仅通过DESeq2分析获得的每种现有物质的log2(倍数)值的p值为预定值以下的基因可以用作第一训练数据组。预定值可以是例如10-3或10-4,并且优选地是10-4
可以通过更新现有物质或添加指示新生物标志物的动力学的数据来更新第一训练数据组。
(2)第二训练数据的生成
当生成第一训练数据组时,第二训练数据可以由从施用于非人类动物的多种现有物质中的每一种中获得的有关于人类中已知作用的信息组成。在第二训练数据中,当生成第一训练数据组时,施用于非人类动物的每一种现有物质的有关于人类中已知作用的信息对应于一个作用(例如,“头痛”)。第二训练数据可以作为现有物质的副作用、功效、药代动力学、或适应症从已知数据库中获得。一种现有物质中可以存在一种、两种或多种作用。当一种现有物质中有两种以上的作用时,多个作用构成第二训练数据组。在下面的描述中,根据需要可以将简单地描述为“第二训练数据”的部分替换为“第二训练数据组”。通过对存储在数据库中的数据组进行文本提取、自然语言处理、数字化处理、图像分析处理等,可以获得有关于人类中已知作用的信息。例如,当生成存储在数据库中的第一训练数据组时,与施用于非人类动物的每种现有物质相对应的每种作用的名称的信息例如可以通过文本提取而提取为有关于人类中已知作用的信息。优选地,有关于人类中已知作用的信息包括有关于生成第一训练数据组时施用于非人类动物的现有物质名称的信息,其中有关于人类中已知作用的信息与名称信息相关联。当关于作用的描述以句子形式登记在数据库中时,可以通过自然语言处理对句子进行语法分析、单词分割、语义分析等,然后可以提取与作用相对应的文本。
有关于人类中已知作用的信息可以包括有关于作用的发生率的信息。优选地,当作用是副作用时,有关于人类中已知作用的信息可以包括与现有物质相对应的有关于副作用的发生率的信息。当有关于人类中已知作用的信息包括有关于作用的发生率的信息时,可以根据作用的发生率对第二训练数据进行分层。对第二训练数据进行分层的分位数没有限制,只要是2以上既可。发生率的分位数可分为2、3、4或5个阶段,取决于将已经施用于非人类动物的现有物质施用于人类时每种作用的发生率。
有关于人类中已知作用的信息可以包括已经获得有关于人类中已知作用的信息的人类的人口概况的信息。人口概况的实例包括年龄段和性别。第二训练数据可以根据年龄段或性别进行分层。分层年龄段的分位数没有限制,只要是2以上既可。实例包括成人和非成人的划分;少年、工作年龄、早老和晚老的划分;以及按诸如20岁代际(20s)、30岁代际、40岁代际、50岁代际、60岁代际和70岁代际等年龄段的划分。
当通过根据已经获得每种现有物质的有关于人类中已知作用的信息(例如,年龄段和性别)的人类的人口概况对第二训练数据进行分层来训练人工智能模型时,有关于人类中已知作用的信息可以包括以下信息。
例如,在副作用的情况下,基于报告中所记载的指示特定副作用的单词,从如clinicaltrials.gov、FAERS、和DAILYMED的所有药物标签等数据库中提取副作用的报告。随后,从基于指示副作用的单词提取的报告中,提取包括指示性别的单词、或指示年龄或年龄段的数字或单词的报告。对于每种现有物质,副作用的发生率取决于性别、年龄段以及性别和年龄段的组合。随后,求解发生率与各组之间对应的多项式,例如近似线性函数(y=ax+b;a和b为系数)、二次函数(y=ax2+bx+c;a、b、和c为系数)、或三次函数(y=ax3+bx2+cx+d;a、b、c、和d为系数)。函数的系数可以通过将它们与副作用的发生率关联起来使用。对于功效而不是副作用,函数系数也可以以相同的方式与功效发生率组合使用。
图6A示出用作第二训练数据的人类作用的数据的实例。作用的实例为药代动力学(生物利用度和半衰期(h))。人类作用的数据由以下各行和各列组成:每行均由作为有关于施用于非人类动物的现有物质名称的信息的现有物质名称的标签表示;每列均由指示作为对应于现有物质名称的标签的有关于人类作用的信息的药代动力学项的标签表示。作为实例,每个细胞包含生物利用度或半衰期的特定值,其是元素。
图6B示出其中人类的作用是副作用的情况的实例。在图6B中,根据后述的表3所示的发生率,以1至4阶段对人类的副作用逐个评分。然而,不一定需要对副作用的发生率进行评分,并且可以将已经确认副作用的情况表示为“1”,并且没有确认副作用的情况可以表示为“0”。
可以通过更新现有物质、更新已知数据库等来更新第二训练数据。
2-2.人工智能模型
人工智能模型没有限制,只要该模型可以解决根据本发明的问题即可。实例包括类似于支持向量机(SVM)、相关性向量机(RVM)、朴素贝叶斯、逻辑回归、随机森林、前馈神经网络、深度学习、K最近邻算法、AdaBoost、bagging、C4.5、核逼近、随机梯度下降(SGD)分类器、lasso、岭回归、弹性网络,SGD回归、核回归、LOWESS回归、矩阵分解、非负矩阵分解、核矩阵分解、内插法、核平滑器、和协同过滤的技术。
用于预测副作用的优选人工智能模型的实例包括SVM、RVM、朴素贝叶斯、逻辑回归、随机森林、前馈神经网络、深度学习、K最近邻算法、AdaBoost,bagging、C4.5、核逼近、和SGD分类器。
用于预测药代动力学的优选人工智能模型的实例包括SVM、RVM、朴素贝叶斯、随机森林、前馈神经网络、深度学习、lasso、岭回归、弹性网络、SGD回归、核回归、和LOWESS回归。
用于预测适应症的优选人工智能模型的实例包括类似于矩阵分解、非负矩阵分解、核矩阵分解、内插法、核平滑、和协作过滤的技术。
具有执行矩阵分解(matrix decomposition),例如矩阵分解(matrixfactorization)、非负矩阵分解或核矩阵分解的函数的人工智能模型,在假设R≈PS的情况下,使用矩阵R和矩阵P来确定矩阵S。因此,该矩阵S可以被认为是特征。
前馈神经网络和深度学习等技术可以描述为一种通过在训练中深度学习来进行训练的人工智能模型。
2-3.人工智能模型的训练
使用上述的第一训练数据组和第二训练数据或第二训练数据组来训练人工智能模型,以构建人工智能模型。构建人工智能模型可以包括训练未经训练的人工智能模型和再训练已经训练过的人工智能模型。为了进行再训练,可以使用上述的更新的第一训练数据组和/或第二训练数据。
将第一训练数据组和第二训练数据或第二训练数据组组合并输入到人工智能模型中作为训练数据。在训练数据中,基于与指示第一训练数据组包含的各器官中一种以上的生物标志物的动力学的数据的各项关联的有关于施用于非人类动物的各现有物质的名称的信息、以及与第二训练数据或第二训练数据组包含的有关于人类中已知作用的信息相关联的有关于施用于非人类动物的各现有物质的名称的信息,将第一训练数据组与第二训练数据组相关联。指示各器官中一种以上的生物标志物的动力学的数据的组与数据组的各“正确”(或TRUE)的人类中已知作用的信息基于施用于非人类动物的现有物质之一的名称的信息而相关联,从而训练人工智能模型。
如果训练用于预测作用的人工智能模型是对应于一个作用(例如头痛)的单个人工智能模型的算法的类型,例如SVM、相关向量机(RVM)、朴素贝叶斯、随机森林、AdaBoost、C4.5、随机梯度下降(SGD)分类器、lasso、岭回归、弹性网络、SGD回归、或核回归,则第一训练数据组与第二训练数据的单个项相关联。如果经训练的人工智能模型属于单个人工智能模型可以预测多个作用(例如,头痛、呕吐)的类型,例如前馈神经网络、深度学习、或矩阵分解,则第一训练数据与多个第二训练数据项(即,第二训练数据组)相关联。
例如,参见图5和6。由现有物质的标签指示的图5的行逐个与图6A所示的各单元相关联,从而生成训练数据以输入到人工智能模型。具体地,图5所示的阿立哌唑行与图6A所示的阿立哌唑-生物利用度相关联,作为一个数据组。图5中所示的阿立哌唑行与阿立哌唑-半衰期相关,作为一个数据组。图5所示的EMPA行与EMPA-生物利用度相关联,作为一个数据组。图5所示的EMPA行与EMPA-半衰期相关联,作为一个数据组。总共生成4个数据组作为训练数据。
另外,使用基于矩阵分解例如矩阵分解的人工智能模型可以例如以图5中所示的矩阵作为矩阵P(第一训练数据)、以及如图6C所示的其中行指示现有物质的名称和列指示适应症的名称的矩阵R(第二训练数据组),生成训练数据。例如,在矩阵R中,报告现有物质的适应症标记为“1”,未报告适应症的标记为“0”。使用矩阵R的元素“1”和图5所示的矩阵P,可以分解矩阵R以使R≈PS来计算矩阵S。再次使用式R≈PS从计算出的矩阵S和矩阵P重构矩阵R,并评估与矩阵R的现有物质的未报告的适应症相对应的元素的值。换句话说,作为特征的矩阵S是使用矩阵R的元素“1”标记的有关于现有物质名称的信息和有关于适应症名称的信息作为第二训练数据组和矩阵P作为第一训练数据组来计算的。当基于矩阵分解进行分析时,受试物质可以是选自现有物质和现有物质的等价物质中的一种。
如果经过训练以预测一种以上的作用的人工智能模型属于对应于一种作用(例如头痛)的单个人工智能模型的类型,例如SVM、相关矢量机(RVM)、朴素贝叶斯、随机森林、AdaBoost、C4.5、随机梯度下降(SGD)分类器、lasso、岭回归、弹性网络、SGD回归、或核回归,并使用分层的第二训练数据,优选通过分层分位数来逐个训练人工智能模型。
为了通过对作用的发生率进行评分来进行预测,例如,对人工智能模型进行训练,使得如后述的表3和表4中所示当根据发生率的值对发生率进行评分时,该模型输出评分。将后述的受试数据输入到模型。通过对作用的发生率进行评分来进行预测的人工智能模型优选为SVM。
当使用分层的第二训练数据时,可以使用上述多项式的系数。第一训练数据组通过有关于施用于非人类动物的各现有物质的名称的信息而与多项式的系数相关联,以生成训练数据。换句话说,训练人工智能模型,使得当输入稍后描述的受试数据时,输出多项式的系数。预测各分层组的作用的人工智能模型优选随机森林。
2-4.人工智能模型的训练装置
可以使用例如以下训练装置10来构建上述人工智能模型。在装置10的描述和装置10的操作中,援用与以上“预测方法的概述和术语解释”节以及“训练数据的生成”节中所描述的那些术语相同的术语的解释。
训练装置10(以下可称为“装置10”)至少包括处理单元101和存储单元。存储单元包括主存储单元102和/或辅助存储单元104。优选地,装置10可以是用于启用根据项1至12的训练方法的装置。
图7A示出装置10的配置。装置10可以连接至输入单元111、输出单元112和存储介质113。装置10还可以连接至测定装置30,例如下一代测序仪或质谱仪。具体地,装置10可以构成例如直接或经由网络连接到测定装置30的人工智能训练系统50。
图8示出装置10的硬件的配置。在装置10中,处理单元101、主存储单元102、ROM(只读存储器)103、辅助存储单元104、通信接口(I/F)105、输入接口(I/F)106、输出接口(I/F)107、和媒体接口(I/F)108通过总线109可通信地相互连接。
处理单元101包括CPU、MPU或GPU。处理单元101执行存储在辅助存储单元104或ROM103中的计算机程序,并处理获得的数据,从而使装置10能够工作。处理单元101获得指示在上文第1节中描述的、从已经施用个体现有物质的非人类动物中收集的多个不同器官中的一种以上的生物标志物的动力学的数据的组、以及现有物质在人类中的已知作用作为训练数据。处理单元101还通过使用这两种类型的训练数据来训练人工智能模型。
ROM 103包括掩码ROM、PROM、EPROM或EEPROM等,并且存储由处理单元101执行的计算机程序和用于该程序的数据。ROM 103存储在装置10启动时由处理单元101执行的引导程序以及用于装置10的硬件的操作的程序和设置。
主存储单元102包括RAM(随机存取存储器),诸如SRAM或DRAM。主存储单元102用于读出保存在ROM 103和辅助存储单元104中的计算机程序。当处理单元101执行这些计算机程序时,主存储单元102用作工作空间。主存储单元102临时存储从辅助存储单元104读取的人工智能模型的函数,诸如经由网络获得的训练数据。
辅助存储单元104包括诸如硬盘和闪存等半导体存储装置或光盘。辅助存储单元104存储要由处理单元101执行的各种计算机程序,例如操作系统和应用程序,以及用于执行计算机程序的各种设置数据。具体地,辅助存储单元104以非易失性方式存储训练前的人工智能模型的函数和训练数据以及经训练的人工智能模型。
通信I/F 105包括串行接口如USB、IEEE 1394、或RS-232C;并行接口如SCSI、IDE或IEEE 1284;由D/A转换器或A/D转换器组成的模拟接口;或网络接口控制器(NIC)等。在处理单元101的控制下,通信I/F 105从测定装置30或其它外部装置接收数据,并发送或显示由装置10存储或生成的信息到测定装置30或必要时到外部。通信I/F 105可以经由网络与测定装置30或其它外部装置(未示出;例如,另一台计算机或云系统)通信。
输入I/F 106包括例如串行接口如USB、IEEE 1394、或RS-232C;并行接口如SCSI、IDE、或IEEE 1284;或由D/A转换器或A/D转换器组成的模拟接口。输入I/F 106从输入单元111接收例如字符输入、点击或语音输入。所接收的输入信息存储在主存储单元102或辅助存储单元104中。
输入单元111包括例如触摸屏、键盘、鼠标、写字板或麦克风,并且在装置10上执行字符输入或语音输入。输入单元111可以在外部连接到装置10或可以与装置10一体化。
输出I/F 107包括例如与输入I/F 106相同的接口。将由处理单元101生成的信息输出到输出单元112。输出I/F 107将由处理单元101生成的并且已经存储在辅助存储单元104中的信息输出到输出单元112。
输出单元112包括例如显示器或打印机等,并且显示从测定装置30发送的测定结果、装置10中的各种操作窗口、训练数据、和人工智能模型的函数等。
媒体I/F 108读取例如存储在存储介质113中的应用软件。读取的应用软件例如存储在主存储单元102或辅助存储单元104中。媒体I/F 108写入由在存储介质113上的处理单元101生成的信息。媒体I/F 108将由处理单元101生成的并且已经存储在辅助存储单元104中的信息写入存储介质113上。
存储介质113包括例如软盘、CD-ROM或DVD-ROM等。存储介质113通过软盘驱动器、CD-ROM驱动器或DVD-ROM驱动器等连接到媒体I/F 108。存储介质113可以存储用于计算机执行操作的应用程序。
处理单元101可以经由网络获得控制装置10所需的应用软件和各种设置,而不是从ROM 103或辅助存储单元104中读出它们。应用程序可以存储在网络上的服务器计算机中的辅助存储单元中。装置10可以访问服务器计算机以下载计算机程序并将计算机程序存储在ROM 103或辅助存储单元104中。
ROM103或辅助存储单元104安装有提供图形用户界面环境的操作系统如由美国Microsoft Corporation制造和销售的Windows(注册商标)。认为根据第二实施方案的应用程序在操作系统上运行。具体地,装置10可以为个人计算机等。
2-5.训练装置的操作1
训练装置10通过使处理单元执行后文描述为应用软件的计算机程序来实现其作为训练装置的功能。
参考图9,此处描述装置10的操作。图9说明在其中将第一训练数据组和第二训练数据输入到人工智能模型来训练人工智能模型的情况中的操作,如SVM中那样。
当用户从输入单元111接收处理开始的输入时,处理单元100临时地将例如存储在辅助存储单元104中的人工智能模型调用到主存储单元102中。可选地,处理单元100例如通过通信I/F 105从网络下载人工智能模型,并将下载的模型临时地存储在主存储单元102中。在另一个实施方案中,处理单元100可访问存储在云中的人工智能模型。
处理单元100获得指示一种以上的生物标志物的动力学的数据的组(其为说明人工智能模型的训练方法的第一训练数据组),和有关于现有物质在人类中一种以上的已知作用的信息(其为第二训练数据)(步骤S1)。将获得的第一训练数据组和第二训练数据通过处理单元100存储在辅助存储单元104或主存储单元102中。此时,处理单元100起到训练数据采集单元的功能。
处理单元100将步骤S1中获得的第一训练数据组和第二训练数据的一个集合与第一训练数据组中所包含的有关于施用于非人类动物的各现有物质的名称的信息和第二训练数据中所包含的有关于施用于非人类动物的各现有物质的名称的信息相关联,并将关联的数据输入到单个人工智能模型(例如,在SVM的情况中的一个函数集)(步骤S2)。此时,处理单元100起到训练数据输入单元的功能。当第二训练数据被分层时,处理单元100将第一训练数据组和第二训练数据的各层与各有关于施用于非人类动物的现有物质的名称的信息相关联。例如,当第二训练数据分层为第一分位数和第二分位数时,生成通过将第一训练数据组与第二训练数据的第一分位数相关联来获得的训练数据(“第一分位数训练数据”),并将第一分位数训练数据输入到单个人工智能模型。处理单元100还通过将第一训练数据组与第二训练数据的第二分位数的组相关联来生成训练数据(“第二分位数训练数据”),并将第二分位数训练数据输入到另一人工智能模型。向其输入第一分位数训练数据的人工智能模型和向其输入第二分位数训练数据的人工智能模型是相同类型的,但彼此独立地训练。
然后,处理单元100计算例如人工智能模型的函数的权重等参数,并训练人工智能模型(步骤S3)。训练人工智能模型可包括验证、泛化等。验证和泛化的实例包括保持法、交叉验证法、AIC(An Information Theoretical Criterion/Akaike InformationCriterion,赤池信息量准则)、MDL(Minimum Description Length,最小描述长度)、和WAIC(Widely Applicable Information Criterion,广泛应用的信息准则)。此时,处理单元100起到人工智能模型生成单元的功能。
然后,处理单元100确定是否已使用全部第二训练数据进行训练(步骤S4)。如果已对所有的作用进行判断(“是”的情况下),处理进行至步骤5,接着存储经训练的人工智能模型。然后将该存储的数据保存在装置10的辅助存储单元104中或在云中。在步骤S4中,如果未被用于训练的第二训练数据剩余(“否”的情况下),处理返回至步骤S1以获得新的第一训练数据组和第二训练数据,并重复步骤S1至S4直至处理全部第二训练数据。
用于训练装置的操作1的人工智能模型优选SMV或随机森林。
2-6.训练装置的操作2
另一个训练装置10的操作如图10中所示。图10说明在其中将第一训练数据组和第二训练数据组输入到例如深度学习等人工智能模型来训练模型的情况中的操作。类似于图9所示的操作,处理单元100接收用户从输入单元111的处理开始的输入,并将人工智能模型临时调用到主存储单元102中。
处理单元100获得指示一种以上的生物标志物的动力学的数据的组(其为说明人工智能模型的训练方法的第一训练数据组)和有关于人类中一种以上的已知作用的信息的组(其为第二训练数据组)(步骤S11)。将获得的第一训练数据组和第二训练数据组存储在辅助存储单元104或主存储单元102中。此时,处理单元100起到训练数据采集单元的功能。
然后,处理单元100将第一训练数据组和第二训练数据组输入到单个人工智能模型(例如,如果模型为深度学习,则是单个神经网络)(步骤S12)。如果人工智能模型为神经网络,则将第一训练数据组输入到输入层,并将第二训练数据组输入到输出层。此时,处理单元100起到训练数据输入单元的功能。
其后,处理单元100计算例如人工智能模型的函数的权重等参数,并构建经训练的人工智能模型(步骤S13)。训练人工智能模型可包括验证、泛化等。验证和泛化的实例包括保持法、交叉验证法、AIC(赤池信息量准则)、MDL(最小描述长度)、和WAIC(广泛应用的信息准则)。另外,当人工智能模型在其算法中包括矩阵分解时,通过使用上述2-2(1)节中所描述的矩阵P和矩阵R计算矩阵S的各元素使得满足R≈PS。此时,处理单元100起到人工智能模型生成单元的功能。
然后,处理单元100存储经训练的人工智能模型(步骤S14)。存储的模型保存在装置10的辅助存储单元104中或在云中。当人工智能模型在其算法中包括矩阵分解时,将矩阵S的各元素存储为人工智能模型。
用于训练装置的操作2的人工智能模型优选SVM或含有矩阵分解的函数的人工智能模型。
2-7.人工智能模型的更新处理
图11说明用于曾被训练的人工智能模型的更新处理。
当用户从输入单元111接收处理开始的输入时,处理单元100临时将例如存储在辅助存储单元104中的经训练的人工智能模型调用到主存储单元102中。可选地,处理单元100通过通信I/F 105从例如网络等下载人工智能模型,并将下载的模型临时地存储在主存储单元102中。在另一个实施方案中,处理单元100可访问存储在云中的人工智能模型。
处理单元100获得指示一种以上的生物标志物的动力学的数据的组(其为人工智能模型的训练节一节中所描述的更新的第一训练数据组),和有关于人类中一种以上的已知作用的信息(其为更新的第二训练数据)或有关于人类中一种以上的已知作用的信息的组(其为第二训练数据组)(步骤S31)。更新的第一训练数据组可以由指示在收集自已经施用了另外的不同现有物质的非人类动物的一个器官或多个不同器官的每一个中的一种以上的生物标志物的动力学的数据的组组成。更新的第二训练数据或更新的第二训练数据组可以由有关于人类中一种以上的已知作用的信息组成。
然后,与图9的步骤S2或图10的步骤12中相同的,处理单元100将第一训练数据组和/或第二训练数据或第二训练数据组输入到经训练的人工智能模型中(步骤S32)。
处理单元100重新计算例如人工智能模型的函数的权重等参数并更新人工智能模型(步骤S33)。更新人工智能模型可包括如上所述的验证、泛化等。步骤32至33可以是使用更新的第一训练数据组和更新的第二训练数据或更新的第二训练数据组,对经训练的人工智能模型的再训练。步骤32至33还可以是例如使用更新的第一训练数据组和更新的第二训练数据或更新的第二训练数据组的验证、泛化等。
在步骤S34中,处理单元100调查是否存在其它更新的数据。如果存在更新的数据(是),处理单元100返回至步骤31并再次进行更新处理。在步骤S33中,如果没有其它更新的数据(无),处理进行至步骤S35,并存储更新的人工智能模型。
3.受试物质在人类中的作用的预测
通过使用经训练的人工智能模型,从指示在已经施用受试物质的非人类动物的一个器官或多个不同器官中的每一个中的一种以上的生物标志物的动力学的数据组预测受试物质在人类中的一种以上的作用。
3-1.受试数据的生成
受试数据是指示已经施用受试物质的非人类动物中的一个器官或多个不同器官中的每一个中的一种以上的生物标志物的动力学的数据的组。受试物质的施用可根据各受试物质来安排。
指示用于生成受试数据的一种以上的生物标志物的动力学的数据获得自与生成第一训练数据组时收集的器官相对应的器官。用于生成第一训练数据组的非人类动物和用于生成受试数据的非人类动物优选为相同物种。用于生成受试数据的生物标志物的类型优选与用于生成第一训练数据组的生物标志物的类型相同。换言之,如果将转录组用于生成第一训练数据组,优选使用转录组作为受试数据中的生物标志物。用于获得指示一种以上的生物标志物的动力学的数据的方法优选在获得受试数据和获得第一训练数据二者中为相同的,或将能够获得等效数据的方法用于获得受试数据和获得第一训练数据。如果在第一训练数据组的生成中进行例如归一化和降维等处理,优选在受试数据的生成中进行相同的处理。另外,器官-基因组合在受试数据的列方向上的排列优选与训练数据中的为相同的。
3-2.受试物质的作用的预测
受试物质在人类中的一种以上的作用的预测包括获得受试数据并将受试数据输入到通过上文描述的人工智能模型的训练方法训练的人工智能模型,基于输入的受试数据,来预测已获得受试数据的受试物质的一种以上的作用。受试物质可以是现有物质或现有物质的等价物质。当现有物质或现有物质的等价物质用作受试物质时,预测方法可辅助预测现有物质或现有物质的等价物质的未知作用,优选预测新的适应症(药物重新定位)。
如果人工智能模型为,例如,SVM、相关矢量机(RVM)、朴素贝叶斯、随机森林、AdaBoost、C4.5、随机梯度下降(SGD)分类器、lasso、岭回归、弹性网络、SGD回归、或核回归,受试数据必须输入到单个经训练的人工智能模型来预测所有的作用;这是因为一个单个经训练的人工智能模型对应于一种作用。如果人工智能模型是基于神经网络、深度学习、或矩阵分解,通过将受试数据的一个项目输入到单个经训练的人工智能模型可预测多种作用。
为了通过评分预测作用的发生率,将受试数据输入到经训练的人工智能模型,并从人工智能模型输出评分。
当使用基于矩阵分解的人工智能模型时,由于矩阵R≈PS的关系成立,矩阵R的元素可使用通过训练计算出的矩阵S与矩阵P来预测,矩阵P为指示收集自已经施用受试物质的非人类动物的多个不同器官中一种以上的生物标志物的动力学的数据的组的矩阵数据。预测的矩阵R确定为矩阵R’。具有其中矩阵R’中的元素值为例如0.5以上、0.6以上、0.7以上、0.75以上、0.8以上、0.85以上、0.9以上、或0.95以上的列标签(column label)的适应症可估计为受试物质的适应症。
以下描述矩阵分解的具体实例。准备第二训练数据组的矩阵R。例如,如果疾病的名称在医药品的包装说明书的适应症中列出,对应元素为“1”,其它元素为“0”。在矩阵分解中,估计矩阵R的0的元素。这提示R的估计元素的值越大,对应于元素的现有物质越可能适用于具有较大值的疾病。
为了实际估计矩阵R的元素0,例如,可将矩阵分解(http://www.dtic.mil/docs/citations/ADA439541)应用于矩阵R。当应用矩阵分解时,使用R的元素0以外的元素生成满足R≈PS的矩阵P和矩阵S。将其中PS=R’的矩阵R’的元素的值确定为R的元素0的预测值。矩阵P为第一训练数据组且被认为是表示现有物质的性质的矩阵,和矩阵S被认为是表示疾病的性质的矩阵。在通常的矩阵分解中,矩阵P和矩阵S一起自矩阵R生成。然而,此处,通过使用第一训练数据组作为矩阵P仅可生成矩阵S。具体地,如果矩阵R、P、S的元素各自描述为Rij、Pik、Skj,对于接下来的非零元素Rij,计算最小化以下目标函数的矩阵S(Skj)的元素
Figure BDA0002866529910000331
为了最小化该函数,如果取Skj的梯度(gradient),结果如下:
Figure BDA0002866529910000332
因此,根据下式,可通过将
Figure BDA0002866529910000333
更新至
Figure BDA0002866529910000334
直至eij收敛来产生矩阵S:
Figure BDA0002866529910000335
另外,根据下式,使用矩阵P和生成的矩阵S重建矩阵R:
PS=R’
将重建的新矩阵R定义为矩阵R’。矩阵R’的各个元素是新计算的元素。矩阵R’的各个元素的值是对应的R的元素0的估计值。因此,矩阵R’的各个值是指示有关于现有物质的名称的信息和有关于已知作用的信息之间的关联的强度的新的值。矩阵R’可被认为是受试物质的新作用的预测,例如适应症的预测。
当进行药物重新定位时,优选使用具有矩阵分解作为其算法的人工智能模型。当预测副作用和药代动力学时,优选使用SVM。
当预测分层作用时,可将受试数据输入到逐层训练的人工智能模型,并且上文描述的多项式系数可从人工智能模型中输出。
3-3.预测装置
可使用例如以下预测装置20(其在下文可称为“装置20”)来进行受试物质在人类中的作用的预测。装置20包括至少处理单元201和存储单元。存储单元包括主存储单元202和/或辅助存储单元204。优选地,装置20可以是实现根据项13的预测方法的装置。图7A说明装置20的构造。图8说明装置20的硬件的构造。由于预测装置20的构造和硬件的构造与训练装置10的那些相同,援用参照图7A和8的训练装置10的描述。装置20和装置10可整合。装置20可构成例如直接地或通过网络等连接至测定装置30的预测系统51。
在本节中,通过将装置10读作装置20、处理单元101读作处理单元201、主存储单元102读作主存储单元202、ROM 103读作ROM 203、辅助存储单元104读作辅助存储单元204、通信接口(I/F)105读作通信接口(I/F)205、输入接口(I/F)106读作输入接口(I/F)206、输出接口(I/F)107读作输出接口(I/F)207、介质接口(I/F)108读作介质接口(I/F)208、总线(bus)109读作总线209、输入单元111读作输入单元211、输出单元112读作输出单元212、和存储介质113读作存储介质213,援用训练装置10的描述。
3-4.预测装置的操作1
预测装置20通过使处理单元执行作为应用软件的下文所描述的计算机程序来实现第一预测装置20的功能。参考图12的流程图,将描述用于进行预测的装置20的第一操作。
当用户从输入单元211接收处理开始的输入时,处理单元200例如临时地将存储辅助存储单元204中的经训练的人工智能模型调用到主存储单元202中。可选地,处理单元通过通信I/F 205从例如网络等下载经训练的人工智能模型,并将模型临时地存储在主存储单元202中。在另一个实施方案中,处理单元200可访问存储在云中的经训练的人工智能模型。
处理单元200获得指示当已将作为受试数据的受试物质施用至动物时观察到的一个器官或多个器官中的每一个中的一种以上的生物标志物的变化的数据的组(步骤S51)。将获得的受试数据存储在辅助存储单元204或主存储单元202中。此时,处理单元200起到受试数据采集单元的功能。受试数据直接地或通过网络等预先获得自测定装置30,并且可存储在例如辅助存储单元204、主存储单元202、或例如云中的服务器等存储装置中。受试数据还可在预测时直接地或通过网络等获得自测定装置30。
处理单元200将步骤S51中获得的受试数据输入到经训练的人工智能模型,经训练的人工智能模型预测受试物质在人类中的作用(步骤S52)。此时,处理单元200起到作用预测单元的功能。预测方法如上文受试物质的作用的预测中所描述的。
处理单元200在步骤S53中将预测结果输出至输出单元212。处理单元200可将预测结果存储在例如辅助存储单元204、主存储单元202中、或通过通信I/F 205或通过网络存储在例如云中的服务器等存储装置中。
3-5.预测装置的操作2
预测装置20实现用于通过使处理单元执行下文描述的作为应用软件的计算机程序来预测现有物质的一种以上的新作用的第二预测装置20的功能。预测装置20还可被认为是用于进行药物重新定位的装置。预测装置20还可起到用于辅助预测的装置的功能。
当用户从输入单元211接收处理开始的输入时,处理单元200临时地调用例如存储在辅助存储单元204中的人工智能模型到主存储单元202中。可选地,处理单元通过通信I/F205从网络等下载人工智能模型并将模型临时地存储在主存储单元202中。在另一个实施方案中,处理单元200可访问存储在云中的人工智能模型。人工智能模型优选包含矩阵分解的函数。包含矩阵分解的函数的人工智能模型如在上述节“人工智能模型的训练”中描述的。
处理单元200获得第一训练数据组和第二训练数据组(步骤S61)。此时,第一训练数据组包括受试数据,和第二训练数据组包括有关于受试物质在人类中的一种以上的已知作用的信息。将获得的第一训练数据组和第二训练数据组存储在辅助存储单元204或主存储单元202中。此时,处理单元200起到数据采集单元的功能。当存储第二训练数据组时,处理单元200构建并存储矩阵R。当存储第一训练数据组时,处理单元200还构建并存储矩阵P。
处理单元200接收由用户向输入单元211的处理开始的输入,并将步骤S61中存储的矩阵R和矩阵P输入到人工智能模型(步骤S62)。此时,处理单元200起到数据输入单元的功能。
然后,处理单元200根据R≈PS的关系通过矩阵分解由矩阵R和矩阵P计算矩阵S。矩阵S的列标签的阵列对应于矩阵R的列标签的阵列(步骤S63)。此外,从矩阵P和计算的矩阵S重建矩阵R,并将该重建的新矩阵设定为R’(步骤S64)。矩阵R’的各元素是指示有关于现有物质的名称的信息与有关于已知作用的信息之间的关联的强度的新的值。此时,处理单元200起到矩阵S和矩阵R’的计算单元的功能。
然后,处理单元200确定在矩阵R’的关注区域中的元素的值是否等于或大于阈值(步骤S65)。此处所用的关注区域是指矩阵R’的一些或全部,并且包括用户想要搜索新作用的物质(受试物质)的元素。优选地,关注区域是指其中并未赋值“1”的矩阵R的区域(“1”是指存在适应症)。此时,处理单元200起到值确定单元的功能。
在矩阵R’中,阈值为例如0.5以上、0.6以上、0.7以上、0.75以上、0.8以上、0.85以上、0.9以上、或0.95以上。
在步骤S65中,如果元素的值等于或大于阈值(“是”的情况下),处理单元200进行步骤S66。在步骤S66中,处理单元200提示超过阈值的一个或多个元素。由于矩阵R’的阵列对应于矩阵R的阵列,通过改变标签、单元格(cell)、和/或字符的颜色,例如当在输出单元(例如显示单元)中显示R’时,处理单元可提示其中矩阵R中未赋值“1”的部分和其中矩阵R’中元素等于或大于阈值的部分。此时,处理单元200起到元素提示单元(elementsuggestion unit)的功能。
尽管图中未显示,处理单元200可将其中元素在关注区域中且等于或大于阈值的单元格的列标签中显示的适应症输出为用于单元格的行标签中指示的物质的新适应症的候选。
在步骤S67中,处理单元200可以作为结果将步骤S66中提示的信息或适应症的候选输出至输出单元212,例如打印机。
如果元素的值没有等于或大于阈值(“否”的情况下),处理单元200可终止步骤S65中的处理,或可在步骤S67中输出没有元素的结果。
4.计算机程序
4-1.训练程序
计算机程序使计算机执行包括在上述节“人工智能模型的训练”中所描述的图9中步骤S1至S5和/或图10中步骤S11至S14的处理以使计算机实现训练装置10的功能。可选地,计算机程序使计算机执行包括计算机步骤S1至S5和步骤S31至35、或步骤S11至S14和步骤S31至35的处理以使计算机起到训练装置10的功能。
4-2.预测程序
计算机程序使计算机执行包括上述节“受试物质的作用的预测”中所描述的步骤S51至S53或步骤S61至67的处理以使计算机起到预测装置20的功能。
5.存储计算机程序的存储介质
本节涉及存储计算机程序的存储介质。计算机程序存储在存储介质上,例如硬盘、包括快闪存储器的半导体存储芯片、或光盘。计算机程序还可存储在通过网络可连接的存储介质上,例如云服务器。计算机程序可以是可下载的程序产品或存储在存储介质上的程序产品。
对存储介质上的程序的存储形式没有限制,只要上述装置可读取程序即可。在存储介质中的存储优选为非易失性的。
6.预测系统及其构造方法
如图7B中所示,训练装置10可以可通信地连接至服务器装置40,服务器装置40通过网络发送指示一种以上的生物标志物的动力学的数据的组以构成人工智能训练系统。如图7B中所示,预测装置20也可以可通信地连接至服务器装置40,服务器装置40通过网络发送指示一种以上的生物标志物的动力学的数据的组以构成预测系统。训练装置10、服务器装置40、和预测装置20可以通过网络可通信地连接以构成人工智能训练系统。人工智能训练系统和预测系统可设置有测定装置30。
6-1.服务器装置
图8说明装置40的硬件的构造。服务器装置40(其在下文可被称为“装置40”)包括至少处理单元401和存储单元。存储单元包括主存储单元402和/或辅助存储单元404。装置40可以是具有服务器功能的通用计算机。由于服务器装置40的构造和硬件的构造与训练装置10的那些相同,援用参照图7A和8的训练装置10的描述。装置40和装置10、装置40和装置10、或装置40、装置10、和装置20可一体化。装置40可以直接地或通过网络等连接至测定装置30。
在本节中,通过将装置10读作装置40、处理单元101读作处理单元401、主存储单元102读作主存储单元402、ROM 103读作ROM 403、和辅助存储单元104读作辅助存储单元404、通信接口(I/F)105读作通信接口(I/F)405、输入接口(I/F)106读作输入接口(I/F)406、输出接口(I/F)107读作输出接口(I/F)407、介质接口(I/F)108读作介质接口(I/F)408、总线109读作总线409、输入单元111读作输入单元411、输出单元112读作输出单元412、和存储介质113读作存储介质413,援用训练装置10的描述。
6-2.测定装置
测定装置30的实例包括转录组分析仪,例如下一代测序仪、和质谱仪。
6-3.系统操作
参考图14,此处将描述系统的操作。本节描述从通过测定装置30获得生物标志物的测定值直至预测结果的输出的流程。
在步骤S81中,测定装置30获得已经施用现有物质的非人类动物的各个器官中的生物标志物的测定值。通过测定装置30的测定值的获得可通过由操作员输入开始测定的指令来进行。在步骤S82中,测定装置30将获得的测定值发送至服务器装置40。发送处理可通过由操作员输入开始发送的指令来进行。
在步骤S83中,服务器装置40的处理单元401通过通信I/F 405获得测定值。此时,通信I/F 405起到通信单元的功能。
在步骤S84中,响应于作为由操作员从训练装置10的输入单元111输入的开始获得测定值的指令,训练装置10的处理单元100将开始发送测定值的信号从通信I/F 105发送至服务器装置40。服务器装置40的处理单元400通过通信I/F 405接收开始发送测定值的输入,并开始从通信I/F 405发送测定值。此时,通信I/F 105和通信I/F 405起到通信单元的作用。
在步骤S85中,训练装置10的处理单元100通过通信I/F 105从例如已知数据库获得有关于施用于非人类动物的现有物质在人类中的作用的信息。数据库可存储在服务器装置40以外的其它服务器中、或在服务器装置40的存储单元中。
在步骤S84中,训练装置10的处理单元100通过通信I/F 105获得发送自服务器装置40的测定值(步骤S86),并将获得的值存储在训练装置10的存储单元中。步骤S86可在步骤S85之前进行。
然后,训练装置10的处理单元100在图14所示步骤S87中、根据图9的步骤S1中所示的处理生成第一训练数据组和第二训练数据。援用图9中步骤S1的描述。
然后,训练装置10的处理单元100在图14中所示的步骤S88中、根据图9的步骤S2至S5中的处理将第一训练数据组和第二训练数据输入到人工智能模型,训练人工智能模型,并将经训练的人工智能模型存储在存储单元中。援用图9的步骤S2至S5的描述。
在从预测装置20接收开始发送人工智能模型的指令后,在图14的步骤S89中,训练装置10的处理单元100通过通信I/F105将经训练的人工智能模型发送至预测装置20。此时,通信I/F 105起到通信单元的作用。
然后,在步骤S91中,测定装置30获得已经施用受试物质的非人类动物的各个器官中的生物标志物的测定值。测定装置30中的测定值的获得可通过由操作员输入开始测定的指令来进行。在步骤S92中,测定装置30将获得的测定值发送至服务器装置40。发送处理可通过由操作员输入开始发送的指令来进行。
在步骤S93中,服务器装置40的处理单元401通过通信I/F 405获得测定值。此时,通信I/F 405起到通信单元的功能。
在步骤S94中,响应于来自预测装置20的输入单元211的由操作员输入的开始获得测定值的指令,预测装置20的处理单元100从通信I/F 205将开始发送测定值的信号发送至服务器装置40。服务器装置40的处理单元400通过通信I/F 405接收开始发送测定值的输入,并开始从通信I/F 405发送测定值。此时,通信I/F 205和通信I/F 405起到通信单元的功能。预测装置20的处理单元200通过通信I/F 205获得测定值并将获得的值存储在预测装置20的存储单元中。其后,预测装置20的处理单元200根据图12的步骤S51生成受试数据。援用图12的步骤S51的描述。
然后,在步骤S95中,预测装置20的处理单元200通过通信I/F 205将开始发送人工智能模型的指令发送至训练装置10。当训练装置10的处理单元100接收来自预测装置20的开始发送人工智能模型的指令时,处理单元100通过训练装置10的通信I/F 105将经训练的人工智能模型发送至预测装置20。预测装置20通过通信I/F 205获得经训练的人工智能模型。步骤S95可在步骤S94之前进行。
然后,在步骤S96中,预测装置20的处理单元200使用步骤S94中生成的受试数据和步骤S95中获得的经训练的人工智能模型,根据图12的步骤S52,预测该物质人类中的一种以上的作用。预测装置20的处理单元200在步骤S97中输出结果。可选地,在图14的步骤S94至S97中,预测装置10的处理单元200可进行图13中所描述的步骤S62至S67来预测关于现有物质的新适应症的预测结果。
6-4.系统构建方法
系统的构建方法,为了获得人工智能模型,可包括准备服务器装置40和准备训练装置10。系统的构建方法,为了预测受试物质在人类中的作用,可包括准备服务器装置40和准备预测装置20。援用关于各装置的构造、系统的构造、以及各装置和系统的操作的各节中的描述。
实施例
以下参考实施例描述本发明。然而,本发明不应解释为限制于实施例。
实验例I:药物施用小鼠中的基因表达分析
I-1.药物施用小鼠的准备和基因表达分析
(1)医药品的施用
阿立哌唑的施用
阿立哌唑购自Sigma-Aldrich。将10mg的阿立哌唑与200mL的0.5w/v%甲基纤维素(Wako)混合,并将所得溶液用于施用。
11周龄的雄性C57BL/6N小鼠接受阿立哌唑溶液的单次腹膜内注射(剂量为0.3mg/kg,施用体积为6mL/kg)。施用后2小时摘出器官或组织。
恩格列净的施用
恩格列净(EMPA)购自Toronto Research Chemicals。将50mg的恩格列净与25mL的0.5w/v%甲基纤维素混合,并将所得溶液用于施用。
10周龄的雄性C57BL/6N小鼠通过喂食针接受口服恩格列净溶液每天一次、每日、持续两周(剂量为10mg/kg,施用体积为10mL/kg)。初次施用后2周摘出器官或组织。
氯氮平的施用
氯氮平购自Sigma-Aldrich。
将25mg的氯氮平溶于1mL乙酸中。将120μL的溶有氯氮平的乙酸溶液与54mL生理盐水混合,并用1M NaOH将pH调节至6。所得溶液用于施用。
11周龄的雄性C57BL/6N小鼠接受氯氮平溶液的单次皮下注射(剂量为0.3mg/kg,施用体积为6mL/kg)。施用后2小时摘出器官或组织。
顺铂的施用
顺铂注射剂(Briplatin injection)(10mg/20mL)购自Bristol-Myers Squibb。
11周龄的雄性C57BL/6N小鼠接受顺铂注射剂的单次腹膜内注射(剂量为20mg/kg,施用体积为40mL/kg)。施用后第三天摘出器官或组织。
特立帕肽的施用
甲状旁腺激素片段1-24人(特立帕肽)购自Sigma-Aldrich。在将0.2mg的特立帕肽溶于200μL的超纯水(Thermo Fisher Scientific)后,将5μL的所得物分配于1.5-mL管中,并在-80℃保存。-80℃保存的5μL的特立帕肽在室温下溶解并与995μL的生理盐水混合。所得溶液用于施用。
10周龄的雄性C57BL/6N小鼠接受特立帕肽溶液的皮下注射,每天一次,每日,持续4周(剂量为40μg/kg,施用体积为8mL/kg)。初次施用后4周摘出器官或组织。
瑞百安的施用
瑞百安皮下注射(140mg/mL)购自Astellas Pharma Inc。将14.4μL的瑞百安皮下注射剂与985.6μL的生理盐水混合,所得溶液用于施用。
11周龄的雄性C57BL/6N小鼠接受瑞百安溶液的皮下注射,每10天一次,持续4周(剂量为10mg/kg,施用体积为5mL/kg)。初次施用后4周摘出器官或组织。
无医药品施用(野生型小鼠)
摘出11周龄的雄性C57BL/6N小鼠的器官或组织。
(2)器官或组织的摘出
在无麻醉下通过颈脱位安乐死施用期结束的小鼠,根据以下步骤摘出器官或组织。
70%乙醇喷射至已确认安乐死的各小鼠,并切断颈部。切开喉头部的皮肤,并摘出唾液腺。从唾液腺中除去舌下腺和颌下腺。将剩余的腮腺收集在1.5-mL管中并在液氮中冷冻。
摘出腮腺后,除去气管上的肌肉。将左右一对甲状腺收集在1.5-mL管中并在液氮中冷冻。
切开头部上部的皮肤以露出颅骨,摘出颅骨。在切掉附着至摘出的颅骨的组织和肌肉后,将颅骨收集在1.5-mL管中并在液氮中冷冻。
从头部摘出脑后,除去嗅球。将脑收集在1.5-mL管中并在液氮中冷冻。
用镊子小心取出残留在头部的脑下垂体以便不破坏脑下垂体,收集在1.5-mL管中,并在液氮中冷冻。
在取出左右眼球,并将视神经和肌肉除去后,将眼球收集在1.5-mL管中并在液氮中冷冻。
将腹部开腹后,快速摘出胰腺,并除去周围组织。其后,将胰腺收集在1.5-mL管中并在液氮中冷冻。
在摘出左右肾上腺后,除去周围脂肪。将肾上腺收集在1.5-mL管中并在液氮中冷冻。
在摘出左肾后,除去肾动静脉、周围脂肪和膜。将左肾收集在1.5-mL管中并在液氮中冷冻。
在摘出脾脏后,小心除去周围组织,特别是胰腺。其后,将脾脏收集在1.5-mL管中并在液氮中冷冻。
在将肝脏的左叶(最大叶)摘出并切成两半后,将左叶收集在1.5-mL管中并在液氮中冷冻。
从贲门部和幽门部摘出胃,并小心除去周围脂肪和胰腺。其后,用剪刀剪开胃以露出胃内部。通过在常温下用PBS清洗三次来除去胃内容物后,将胃收集在1.5-mL管中并在液氮中冷冻。
从胃幽门部摘出空肠(7cm),并除去幽门部正下方2-cm的部分。除去周围脂肪,并用剪刀切断空肠以露出肠内部。通过在常温下用PBS清洗三次来除去肠内容物后,将空肠收集在1.5-mL管中并在液氮中冷冻。
从盲肠侧摘出回肠(7cm),并除去周围脂肪。用剪刀切断回肠以露出肠内部。通过在常温下用PBS清洗三次来除去肠内容物后,将回肠收集在1.5-mL管中并在液氮中冷冻。
在从直肠侧摘出大肠(5cm)后,除去周围脂肪。用剪刀切断大肠以露出肠内部。通过在常温下用PBS清洗三次来除去肠内容物后,将大肠收集在1.5-mL管中并在液氮中冷冻。
将胸部开胸,并将胸腺、心脏和肺一起取出。摘出胸腺,并除去血液、周围组织和脂肪。其后,将胸腺收集在1.5-mL管中并在液氮中冷冻。
分离心脏和肺,并摘出心脏。除去心包膜、主动脉、腔静脉、肺动脉和肺静脉以便不切到成对的心耳。将心脏垂直切成两半后,除去心脏中的心耳和血液。然后将心脏收集在1.5-mL管中并在液氮中冷冻。
摘出肺的一个左叶,并除去气管、血管和血液。其后,将左叶收集在1.5-mL管中并在液氮中冷冻。
摘出降胸主动脉,并小心除去周围组织。其后,将降胸主动脉收集在1.5-mL管中并在液氮中冷冻。
从左股骨摘出四头肌(骨骼肌),并收集在1.5-mL管中并在液氮中冷冻。
取出左股骨,并用解剖刀刮去肌肉。用剪刀剪断股骨两端。
将细胞过滤器(孔径:40μm,Coring)置于50-mL管中。使用5-mL注射器和26G针,用3mL的PBS使骨髓从股骨的一端流出到细胞过滤器上。骨髓从两端的流出结束时,在4℃下将流出的骨髓在1.5mL管中离心5分钟。离心后,用移液管除去上清液。
添加500μL的冰上的PBS,通过移液搅拌混合物然后以1,500rpm在4℃下离心5分钟。离心后,除去上清液,添加1mL的TRIzol Reagent(TRIzol,Thermo FisherScientific),接着搅拌。然后将混合物转移至1.5-mL管并在液氮中冷冻。
将左侧的附睾脂肪收集在1.5-mL管中并在液氮中冷冻。
摘出左侧的睾丸,并除去周围脂肪。其后,将左侧的睾丸收集在1.5-mL管中并在液氮中冷冻。
将背侧(肩胛骨周围)剃毛后,摘出皮肤,并除去脂肪和肌肉。其后,将皮肤收集在1.5-mL管中并在液氮中冷冻。
摘出完成后,将24个器官或组织在-80℃下保存。
(3)RNA的提取
根据以下步骤从各冷冻保存的器官或组织提取RNA。
i.器官或组织的研磨
在液氮中用研钵研磨胰腺、颅骨、肝脏和皮肤。
将各研磨的样品立即转移至TRIzol并用PT10-35 GT Polytron均质化器(KINEMATICA)均质化。将脑转移至TRIzol并用Polytron均质化器均质化。
下表1示出用于研磨的TRIzol的量和用于提取的样品的量。
表1
器官名称 用于研磨的TRIzol的量 用于提取的样品的量
胰腺 8mL 1mL
颅骨 4 mL 4mL
肝脏 4 mL 1mL
皮肤 4 mL 4mL
4 mL 1mL
脑下垂体、肾上腺、甲状腺、脾脏、胸腺、心脏、肺、降胸主动脉、骨骼肌、睾丸、附睾脂肪、眼球、回肠、胃、空肠、大肠、肾脏和腮腺用氧化锆珠(Biomedical Science)研磨(参见下表)。
对于研磨,将1mL的TRIzol引入含有一种氧化锆珠(1.5mm珠50个)或三种氧化锆珠(1.5mm珠50个、3mm珠5个、5mm珠2个)的研磨用管中,并将管置于冰上。将各器官置于含有TRIzol和氧化锆珠的研磨用管中,并用Cell Destroyer PS2000(Biomedical Science)均质化(4,260rpm,4℃,45秒,两次)。研磨后,将某些器官中的TRIzol量按比例放大至2mL。在此类器官各自中,将研磨样品和珠转移至1.5-mL管,并将1mL的TRIzol加入其中,接着搅拌。
下表2示出用于研磨的TRIzol的量和用于提取的样品的量。
表2
Figure BDA0002866529910000451
Figure BDA0002866529910000461
将收集在TRIzol中的骨髓从-80℃冷冻库中取出并恢复到室温。
ii.RNA的提取
使TRIzol中均质化的各样品在室温下放置5分钟。每1mL的TRIzol加入0.2mL氯仿,并将混合物剧烈涡旋15秒。搅拌后,使混合物在室温下放置3分钟然后在4℃、12,000g下离心15分钟。离心后,将500μL的含RNA的水层收集在新管中,向其中加入等量(500μL)的70%乙醇并搅拌。使用RNeasy Mini Kit(Qiagen)根据手册从各样品提取RNA。通过使用NanoDrop(Thermo Fisher Scientific)来评价提取的RNA各自的浓度、纯度和产量。
(4)RNA-Seq数据的取得
使用RNA样品,根据以下步骤获得RNA-Seq数据。通过用Agilent 2100BioanalyzerG2939A(Agilent Technologies)测量浓度来评价品质。
(4)-1.文库的制备
使用通过质量检测的各总RNA作为模板,用SureSelect链特异性RNA文库制备试剂盒(Agilent Technologies)以下述方式制备下一代测序仪1500用文库。
(a)使用Oligo(dT)磁珠从总RNA中收集poly(A+)RNA(=mRNA)
(b)RNA的片段化
(c)cDNA合成
(d)双链cDNA合成
(e)末端修复、磷酸化、加A尾
(f)带指示的衔接子的连接
(g)13个循环的PCR
(h)用磁珠纯化
(4)-2.序列的读取
根据以下步骤,根据单读取法读取50bp碱基,使用HiSeq 1500、HiSeq2000和HiSeq2500(Illumina)获得核苷酸序列数据。
(a)测序试剂的添加
(b)单碱基延伸反应
(c)未反应碱基的除去
(d)荧光信号的引入
(e)保护基团和荧光的除去
重复HiSeq中的扩增(例如,循环2、循环3…),并运行50个循环。
(4)-3.一次数据分析
使用程序CASAVA ver.1.8.2(illumina),由所得读段建立FASTQ文件。
(4)-4.输出数据的二次分析
将使用Illumina HiSeq 1500、HiSeq 2000和HiSeq 2500获得的FASTQ文件上传本地服务器。其后,使用TopHat(https://ccb.jhu.edu/software/tophat/index.shtml)获得分析文件以将各序列映射至小鼠基因组图谱信息mm10。使用htseq-count(参数为-r pos和–s no;http://htseq.readthedocs.io/en/master/count.html)分析所得BAM文件以计算各转录本的注释数。
(5)基因表达水平的差异的分析
为了定量基因表达水平的差异,用DESeq2(Love,MI,Huber,W.and Anders,S.;Genome Biology 15,550,doi:10.1186/s13059-014-0550-8(2014))进行分析。使用htseq-count输出作为DESeq2的输入,比较医药品施用小鼠(n=1)与野生型小鼠(n=2)之间的表达差异。由于医药品施用小鼠中htseq-count的输出数据为2,以n为2作为DESeq2的输出,获得基因表达水平的变化的log2(倍数)值。
(6)医药品特异性器官-基因对的选择
使用WGCNA(https://labs.genetics.ucla.edu/horvath/CoexpressionNetwork/ Rpackages/WGCNA/)分析医药品单独施用的所有器官中总基因的RNA-Seq数据(log2(倍数)值),并将各基因的表达差异的数据组分成具有器官名称与基因名称相关联的值的子集(模块)。在各分出的模块中,计算各医药品中1-of-K表现与各基因的表达差异之间的皮尔森相关系数。选择各医药品的相关系数的绝对值最高的模块。包括在所选模块中的器官-基因组合用于后续处理。
实验例II:使用医药品施用小鼠的人类作用数据的预测
II-1.使用小鼠RNA-Seq数据和人类副作用数据的机器学习模型的构建和预测
(1)小鼠数据的生成以及训练用数据和测试用数据的分割
准备上述所有医药品的相对于由WGCNA选择的器官-基因的小鼠中基因表达水平变化(log2(倍数))的数据(各医药品n=2)。由于各器官具有两个数据组(n=2),且人们可以自由地选择使用哪个数据,因此由24个器官构成的数据项目数为224=16777216。其中,使用稍多于200个组合进行数据采样,并以矩阵形式获得具有(稍多于200个样品x 6医药品)x(由WGCNA选择的数万个器官-基因组合)的规模的数据。图5示出矩阵的实例。为了训练人工智能模型并定量其泛化性能(generalization performance),该矩阵分成两个矩阵,即,其中将特定的医药品施用至小鼠的数据(测试用数据)和其中将其它医药品单独施用至小鼠的数据(训练用数据)。
(2)人类副作用数据的收集
(2)-1.在Clinicaltrials.gov登记的副作用的预测
从在clinicaltrials.gov(https://clinicaltrials.gov/)登记的临床试验数据收集目标医药品的副作用的发生的信息。另外,对于施用至小鼠的各医药品,从临床试验数据中提取表示副作用名称的单词。一个提取的单词是指一个报告的副作用。各副作用的发生率通过使用下式来计算:(副作用发生数)/(接受医药品的患者数),并如表3中所示基于所得值给出评分。各副作用与发生率的评分相关并用作训练用数据。
表3
Figure BDA0002866529910000481
Figure BDA0002866529910000491
(2)-2.在FAERS登记的副作用的预测
从FAERS(https://www.fda.gov/Drugs/GuidanceComplianceRegulatoryInform ation/Surveillance/AdverseDrugEffects/ucm082193.htm)下载2014Q2~2018Q1的副作用报告数据。另外,对于施用至小鼠的各医药品,从报告数据中提取表示副作用名称的单词。一个提取的单词是指一个报告的副作用。各副作用的发生率通过使用下式来计算:(关于特定副作用的报告的件数)/(关于医药品的副作用的报告的总件数),并如表4中所示基于所得值给出评分。各副作用与评分的数值相关并用于训练。
表4
发生率 评分
30%以上 1
30%~10% 2
10%~0% 3
0% 4
(3)小鼠RNA-Seq数据的预处理
将第(1)项中所得训练用数据归一化以使平均值为0,且方差为1。根据下式进行归一化:(归一化值)=(x-m)/s,其中当医药品施用小鼠与野生型小鼠中的各基因的表达差异值为x,通过一个器官-基因组合中施用医药品而得的所有表达差异的平均值为m,标准差为s。所有归一化值通过主成分分析(PCA)降维。对测试用数据进行同样的处理。
(4)使用SVM的人工智能模型的构建和副作用的预测
人工智能模型的构建和预测使用“e1071”(https://www.rdocumentation.org/packages/e1071/versions/1.6-8),其为R库LibSVM的包装库(https://www.csie.ntu.edu.tw/~cjlin/libsvm/)。
使用第(3)项中预处理的训练用数据作为第一训练数据组、第(2)项中从在clinicaltrials.gov或FAERS登记的副作用的名称作成的人类副作用数据作为第二训练数据组,来训练SVM,从而构建人工智能模型。将已在第(3)项中预处理的测试用数据作为受试数据输入到经训练的人工智能模型中,并比较和定量输出预测评分和实际副作用评分。
(5)结果
对于各副作用,通过从(预测评分)中减去(实际评分)来得到减算值。图3示出当FAERS用作用于生成第二训练数据的数据库时得到的针对各医药品的各副作用的减算值。图15示出各医药品的实际副作用评分与预测评分之差(减算值)的比。图15的图示出显示相同减算值的副作用的件数与所有经预测的副作用的件数的比。在所有医药品中,(预测评分)与(实际评分)之差为1以下的副作用占95%以上。这表明,根据本公开的人工智能模型可以基于已单独施用有受试物质的非人类动物的多种器官中的生物标志物的动力学来实际预测受试物质在人类中的作用。
精确预测对于所有检测的医药品都是可行的;然而,关于具有相对高的发生率(实际评分为2或3)的副作用,对于阿立哌唑而言,可以以高精度预测腹泻、嗜睡、急性心肌梗塞、急性呼吸衰竭、哮喘、支气管炎、头晕、肌肉无力等;对于EMPA而言,可以以高精度预测急性肾脏损伤、心房纤颤、心脏衰竭、深静脉血栓形成、高血糖、高血压、骨质疏松症、胰腺炎等;对于特立帕肽而言,可以以高精度预测认知损害、抑郁症、糖尿病,缺血性中风、精神状态变化、肺纤维化、自杀意念、自杀企图等。
II-2.使用小鼠RNA-Seq数据和人类药代动力学数据的人工智能模型的构建和预
(1)小鼠数据的生成以及训练用数据和测试用数据的分割
准备所有医药品的相对于由WGCNA选择的器官-基因的小鼠中基因表达水平变化(log2(倍数))的数据(各医药品n=2)。由于各器官具有两个数据组(n=2),且人们可以自由地选择使用哪个数据,因此由24个器官构成的数据项目数为224=16777216。其中,使用稍多于200个组合进行数据采样,并以矩阵形式获得具有(稍多于200个样品x 6医药品)x(由WGCNA选择的数万个器官-基因组合)的规模的数据。为了训练人工智能模型并定量其泛化性能,将该矩阵分成两个矩阵,即,其中将特定的医药品施用至小鼠的数据(测试用数据)和其中将其它医药品单独施用至小鼠的数据(训练用数据)。
(2)人类药代动力学数据的取得
从Drugs@FDA(https://www.accessdata.fda.gov/scripts/cder/daf/)和DAILYMED(https://dailymed.nlm.nih.gov/dailymed/)获得医药品的包装说明书。收集包装说明书上列出的生物利用度、半衰期和达到最大血药浓度的时间(Tmax)作为药代动力学参数。
(3)小鼠RNA-Seq数据的预处理
根据实验例II-1(3)节描述的方法,将实验例II-2(1)中得到的训练用数据归一化以使平均值为0,方差为1,通过PCA降维。对测试用数据进行同样的处理。
(4)使用SVM的人工智能模型的构建和预测
使用实验例II-2(3)中作成的训练用数据作为第一训练数据组、实验例II-2(2)中获得的人类药代动力学参数作为第二训练数据,来训练SVM,从而构建人工智能模型。实验例II-2(3)中获得的测试用数据作为受试数据输入到经训练的人工智能模型中,将输出药代动力学值与实际值比较。此外,使用药代动力学参数预测方法例如pkCSM(http://biosig.unimelb.edu.au/pkcsm/)和SwissADME(http://www.swissadme.ch/)基于医药品的化学结构进行比较。
(5)使用SVM的人工智能模型的预测结果
图16示出生物利用度的预测结果。纵轴示出生物利用度的值换算为0~1的比例。黑条表示实际报告的生物利用度(实际)。白条表示本发明的预测结果(根据D-iOrgans预测)。底纹条表示pkCSM的预测结果(预测(pkCSM))。斜线条表示SwissADME的预测结果(预测(SWISSadme))。本发明的预测结果与实际报告的几乎相同。对于阿立哌唑,通过常规预测方法pkCSM获得的结果与实际报告的结果相似;但是,对于EMPA,预测精度降低。SwissADME显示对阿立哌唑和EMPA二者的低预测精度。这表明与常规方法相比,本发明的预测方法具有高预测精度,并且该预测精度没有根据医药品而显著变化。pkCSM和SwissADME都基于医药品的主要成分的化学结构预测药代动力学。因此,无法预测以例如瑞百安和特立帕肽等肽为骨架的医药品的药代动力学等。相反,该实验揭示了,本发明的预测方法可以预测药物动力学等,而与医药品的主要成分的骨架无关。
图17示出EMPA的药物分布的预测结果。纵轴表示药物分布值(L/kg)。黑条表示实际报告的药物分布(实际)。白条表示本发明的预测结果(根据D-iOrgans预测)。底纹条表示pkCSM的预测结果(预测(pkCSM))。根据本公开的预测方法显示出与实际报告几乎相同的结果;但是,pkCSM的预测结果与实际报告有显著差异。
根据该结果,认为本发明的预测方法可以高精度地预测药代动力学。
II-3.使用小鼠RNA-Seq数据和人类适应症的机器学习模型的构建、以及药物重新 定位
(1)RNA-Seq数据的预处理
准备所有医药品的相对于由WGCNA选择的器官-基因的小鼠中基因表达水平变化(log2(倍数))的数据(各医药品n=2),并获得样品间的平均值。具体而言,获得具有(6医药品)x(由WGCNA选择的数万个器官-基因组合)规模的矩阵。根据实验例II-1(3)节所述的方法将矩阵数据归一化以使平均值为0和方差为1,并通过PCA降维。将所得数据用作用于训练人工智能模型的数据(矩阵分解(matrix factorization))。
(2)各医药品的适应症的取得
从Drugs@FDA和DAILYMED获得施用至小鼠的医药品的包装说明书。获得作为适应症列出的疾病名称。
(3)人工智能模型的构建、药物功效预测和重新定位
基于第(2)项中获得的适应症列表,根据“人工智能模型的训练”节和“受试物质的作用的预测”节中所述的方法制备矩阵R(医药品数)×(疾病数)。在此情况下,当疾病名称列为医药品的包装说明书上的适应症时,对应元素确定为“1”,其它元素确定为“0”。定义为“0”的项目被认为尚未检查医药品是否应用于目标疾病。药物重新定位系统通过估计矩阵R中为零的元素来构建。R的估计元素的值越大,对应医药品可应用于对应疾病的可能性越大。
为了实际估计矩阵R中的元素0,将矩阵分解(http://www.dtic.mil/docs/ citations/ADA439541)应用于矩阵R。当应用矩阵分解时,满足R≈PS的矩阵P和矩阵S是使用R的元素0以外的元素生成的。矩阵R'的元素的值(其中PS=R'被确定为R的元素0的预测值)。矩阵P被认为是代表医药品性质的矩阵,矩阵S被认为是代表疾病性质的矩阵。在典型的矩阵分解中,矩阵P与矩阵S一起由矩阵R生成。但是,此处,使用在第(1)项中作成的输入数据作为P仅生成矩阵S。具体而言,根据“受试物质的作用的预测”节中所描述的方法生成矩阵。
(4)结果
图18示出结果。在图18A中,“1”表示已经报告了的药物功效。“0”表示尚未确认药物功效,或者,如果确认,则没有药物功效。图18B示出通过根据本公开的预测方法获得的预测结果。与图18A中指示“1”的列相对应的图18B的列显示出高于0.7的值。这表明根据本公开的预测方法可以高精度地预测已知药物功效。
相反,除一些例外,与图18A中指示“0”的列相对应的图18B的列示出小于0.5的值。但是,对于阿立哌唑,复发自杀动力学、自杀动力学和精神分裂性情感障碍的列显示为0.89。这表明阿立哌唑可能对迄今尚未报道应用阿立哌唑的其它疾病有效。
上述表明,本发明的预测方法用于选择药物重新定位的候选。
实验例III:对于各药代动力学参数的预测重要的器官的选择
使用SVM选择对人类中的作用的预测贡献高的非人类动物的器官。
(1)小鼠样品的复制以及训练用数据和测试用数据的分割
准备所有医药品的相对于由WGCNA选择的器官-基因的小鼠中基因表达水平变化(log2(倍数))的数据(各医药品n=2)。由于各器官具有两个数据组(n=2),且人们可以自由地选择使用哪个数据,因此由24个器官构成的数据项目数为224=16777216。其中,使用稍多于200个组合进行数据采样,并以矩阵形式获得具有(稍多于200个样品x 6医药品)x(由WGCNA选择的数万个器官-基因组合)的规模的数据。为了训练人工智能模型并定量其泛化性能,该矩阵分成两个矩阵,即,其中将特定的医药品施用至小鼠的数据(测试用数据)和其中将其它医药品单独施用至小鼠的数据(训练用数据)。
(2)人药代动力学数据的取得
从Drugs@FDA(https://www.accessdata.fda.gov/scripts/cder/daf/)和DAILYMED(https://dailymed.nlm.nih.gov/dailymed/)获得医药品的包装说明书。收集列于包装说明书上的药代动力学参数。
(3)候选器官的选择
对于训练用数据和测试用数据,仅提取对一个特定器官的数据。
(4)小鼠RNA-Seq数据的预处理
将实验例III(3)中提取的训练用数据归一化以使平均值为0,方差为1,并通过PCA降维。所得数据用作SVM的输入数据。对测试用数据进行同样的处理。
(5)使用SVM的训练和预测
使用已在实施例III(4)中预处理的训练用数据作为第一训练数据组、实施例III(2)中作成的人类药代动力学参数作为第二训练数据,来训练SVM,从而构建人工智能模型。实施例III(4)中预处理的测试用数据作为受试数据输入到经训练的人工智能模型中,定量输出预测评分与副作用的实际评分之间的误差。
(6)器官(组)的选择
对所有器官重复实验例III(3)~(5),选择具有最小误差的器官。随后,对已经选择的器官与非选择器官中的一个重复实验例III(3)~(5),并额外选择具有最小误差的器官。重复上述步骤直至无论添加何种器官误差都不减少。该分析揭示了最清楚反映药代动力学的器官为回肠、睾丸和脑。
(7)使用由SVM选择的器官中的转录组的人工智能模型的构建和预测
从实验例III(3)中作成的训练用数据提取回肠、睾丸和脑的数据。提取的训练用数据根据实验例III(4)预处理。通过使用预处理的数据作为第一训练数据组、实验例III(2)中作成的人类药代动力学参数作为第二训练数据,使SVM学习并构建人工智能模型。随后,从第(3)项中获得的测试用数据提取回肠、睾丸和脑的数据。提取的测试用数据根据实验例III(4)预处理。预处理的数据作为受试数据输入到经训练的人工智能模型中,并预测生物利用度。将预测的生物利用度与实际生物利用度相比较。
如图19所示,实际生物利用度值(实际)为0.87,而预测的生物利用度值(根据D-iOrgans预测)为0.785;获得优异的预测值。
这表明更适于预测的器官可通过根据本公开的预测方法训练的人工智能模型的分析缩小范围。结果显然表明并非总是需要使用所有24个器官的数据。
实验例IV:依赖于器官数预测的效果
为了证实可以从少数器官预测作用,使用阿立哌唑、EMPA、氯氮平、顺铂、特立帕肽和reparser与实验例II同样地作成第一训练数据组和第二训练数据组。如图20所示,用于作成第一训练数据组的器官数设为1~23。使用于获得受试数据的器官对应于用于生成第一训练数据组的器官。
图20示出可能预测的器官数和副作用的实例(阿立哌唑:A,EMPA:E,特立帕肽:T,瑞百安(reparser):R)。图20中,器官数用以下数值标记。
骨髓:1,胰腺:2,颅骨:3,肝脏:4,皮肤:5,脑:6,脑下垂体:7,肾上腺:8,甲状腺:9,脾脏:10,胸腺:11,心脏:12,肺:13,主动脉:14,骨骼肌:15,睾丸:16,左侧的附睾脂肪:17,眼球:18,回肠:19,胃:20,空肠:21,大肠:22,肾脏:23,和腮腺:24。
如从图20清楚地看出,甚至是当器官数为1~10和15或16时也预测副作用.尽管未显示,当器官数为1~10和15或16时也类似地预测氯氮平和顺铂的副作用。
结果表明人类中的受试物质的作用可以通过基于第二训练数据和从已施用了现有物质的非人类动物中收集的至少一个器官的一种或多种生物标志物的动力学训练的人工智能模型来预测。
实验例V:根据分层预测的效果
(1)小鼠RNA-Seq数据
根据实验例II的方法,从单独施用了14种医药品(对乙酰氨基酚、阿仑膦酸盐、阿立哌唑、阿塞那平、顺铂、氯氮平、多环霉素、恩格列净、瑞百安、鲁拉西酮、奥氮平、利塞膦酸盐、索非布韦和特立帕肽)的小鼠收集24个器官。获得各器官的RNA-Seq数据。对于各医药品,收集两种样品(n=2)。
(2)基因表达水平变化的定量
进行DESeq2分析以定量药物施用小鼠与野生型小鼠之间的基因表达水平变化。通过htseq-count定量的各小鼠的基因的计数数据用作DESeq2的输入。比较药物施用小鼠与野生型小鼠之间的计数数据。结果,针对各基因输出药物施用小鼠的基因表达水平变化的log2(倍数)值和用作各变化水平的概率的指标的p值。基于该log2(倍数)值进行分。
(3)小鼠数据的预处理
通过DESeq2输出的各医药品(n=14,各医药品n=1)的log2(倍数)数据使用PCA降维,并用作第一训练数据组。
(4)人类副作用数据的收集、分层和曲线近似
从FAERS(https://www.fda.gov/Drugs/GuidanceComplianceRegulatoryInform ation/Surveillance/AdverseDrugEffects/ucm082193.htm)下载数据,目标医药品的副作用(AE)报告信息基于指示副作用的单词获得。在这些信息中,提取包括性别或年龄在内的单词的报告。在提取的报告中,对于各医药品,已报告超过25次的性别-AE组合和年龄-AE组合根据性别或年龄进行分层。对于性别,提取男性,并将年龄段分为20岁代际、30岁代际、40岁代际、50岁代际、60岁代际和70岁代际。在每个组中,从报告数据中提取表示副作用的名称的单词。将一个提取的单词作为一个报告的副作用,使用(关于特定副作用的报告的件数)/(关于医药品的副作用的报告的总件数)计算各副作用的发生率。关于副作用发生率与年龄段之间的对应关系,使用线性函数或三次函数进行曲线近似。构成近似曲线的多项式(线性或三次)系数用作人工智能模型的输入数据。
(5)使用随机森林的人工智能模型的训练和预测
使用实验例V(3)中获得的小鼠中表达变化数据作为第一训练数据、实验例(4)中获得的人类副作用的发生率近似获得的多项式系数数据作为第二训练数据组,通过随机森林构建人工智能模型以便在输入第一训练数据时输出多项式系数。在此操作的过程中,小鼠数据和人类副作用数据独立地分成关于特定医药品的数据(受试数据)和关于除特定医药品以外的医药品的数据(训练数据)。使用训练数据构建人工智能模型,将受试数据输入到经训练的人工智能模型中。将由此输出的副作用发生率的预测曲线与实际的副作用发生率的近似曲线、或实际的副作用发生率进行比较。
(6)结果
图21示出结果的一个实例。关于失眠、低血压、肌肉无力、尿频和死亡的副作用,图21示出根据年龄分组的由经训练的人工智能模型预测的发生率(预测的)和实际的发生率(观察到的)。纵轴示出通过将从输入了受试数据的人工智能模型输出的系数输入到相应的多项式而获得的发生率。在横轴上,“2”、“3”、“4”、“5”、“6”和“7”分别代表20岁代际、30岁代际、40岁代际、50岁代际、60岁代际和70岁代际的个体。实线表示实际的发生率,虚线表示预测的发生率。在通过经训练的人工智能模型预测的失眠、低血压、肌肉无力、尿频或死亡的发生率与实际的发生率之间,所试验的医药品没有一种显示出显著差异。这表明本发明的人工智能模型可以预测每个分层组的作用。
附图文字说明
10 训练装置
100 处理单元
105 通信I/F
20 预测装置
200 处理单元
205 通信I/F

Claims (23)

1.一种用于训练人工智能模型的方法,
所述方法包括将第一训练数据组和第二训练数据或第二训练数据组输入到人工智能模型中以训练人工智能模型,
其中所述第一训练数据组包含指示一个器官或多个不同器官的每一个中的一种以上的生物标志物的动力学的数据的组,
从各非人类动物中收集一个器官或多个不同器官,其中所述非人类动物已经单独施用多种在人类中具有已知作用的现有物质,
所述第二训练数据包含从施用于所述非人类动物的多种现有物质中的每一种中获得的有关于人类中已知作用的信息,和
所述人工智能模型根据以下数据组预测受试物质在人类中的一种以上的作用,所述数据组指示已经施用受试物质的非人类动物中的一个器官或多个不同器官中的每一个中的一种以上的生物标志物的动力学,所述一个器官或多个不同器官分别对应于第一训练数据组生成时收集的一个器官或多个不同器官。
2.根据权利要求1所述的训练人工智能模型的方法,
其中指示所述一个器官或多个不同器官中的每一个中的一种以上的生物标志物的动力学的数据各自与有关于施用于非人类动物的多种现有物质之一的名称的信息、有关于收集的器官之一的名称的信息、以及有关于生物标志物之一的名称的信息相关联,
所述有关于人类中已知作用的信息与所述有关于施用于非人类动物的多种现有物质之一的名称的信息相关联,和
基于所述有关于施用于非人类动物的多种现有物质之一的名称的信息,指示所述一个器官或多个器官中的每一个中的一种以上的生物标志物的动力学的数据的组与各所述有关于人类中已知作用的信息相关联,以训练人工智能模型。
3.根据权利要求1或2所述的训练人工智能模型的方法,
其中所述有关于人类中已知作用的信息包括作用的发生率的信息,和
所述人工智能模型输出预测结果作为对应于每种作用的关联程度的评分。
4.根据权利要求3所述的训练人工智能模型的方法,其中所述评分由至少两个分位数表示。
5.根据权利要求1至4中任一项所述的训练人工智能模型的方法,
其中所述有关于人类中已知作用的信息包括已经从中获得有关于人类中已知作用的信息的个体人类的人口概况,和
根据人类的各人口概况对所述第二训练数据进行分层。
6.根据权利要求5所述的训练人工智能模型的方法,其中所述个体人类的人口概况是年龄段和性别中的至少一个。
7.根据权利要求5或6所述的训练人工智能模型的方法,
其中所述人工智能模型根据所述个体人类的人口概况预测所述受试物质在人类中的一种以上的作用。
8.根据权利要求1至7中任一项所述的训练人工智能模型的方法,
其中一种以上的作用是选自由以下组成的组的至少一种:现有物质的副作用、现有物质的药代动力学、和现有物质的适应症。
9.根据权利要求1至8中任一项所述的训练人工智能模型的方法,
其中所述受试物质不包括现有物质和现有物质的等价物质。
10.根据权利要求1至8中任一项的训练人工智能模型的方法,
其中所述受试物质是选自由现有物质和现有物质的等价物质组成的组的一种。
11.根据权利要求1至10中任一项所述的训练人工智能模型的方法,
其中所述一种以上的生物标志物是转录组。
12.根据权利要求1至11中任一项所述的训练人工智能模型的方法,
其中所述人工智能模型是支持向量机(SVM)、相关向量机(RVM)、朴素贝叶斯、逻辑回归、随机森林、前馈神经网络、深度学习、K最近邻算法、AdaBoost、bagging、C4.5、核近似、随机梯度下降(SGD)分类器、lasso、岭回归、弹性网络、SGD回归、核回归、LOWESS回归、矩阵分解、非负矩阵分解、核矩阵分解、内插法、核平滑、或协同过滤。
13.一种预测受试物质在人类中的一种以上的作用的方法,所述方法包括以下步骤:
获得受试数据,所述受试数据包含指示从已经施用受试物质的非人类动物中收集的一个器官或多个器官中的一种以上的生物标志物的动力学的数据的组,和
将所述受试数据输入到通过根据权利要求1至12中任一项所述的方法训练的人工智能模型中,并由经训练的人工智能模型基于输入的所述受试数据,预测所述受试物质在人类中的一种以上的作用。
14.根据权利要求13所述的方法,其中所述受试物质是现有物质或现有物质的等价物质,并且所述一种以上的作用是所述现有物质的一个以上的新适应症。
15.一种用于预测受测物质在人类中的一种以上的作用的预测装置,所述装置包含处理单元,
所述处理单元配置为:
获得受试数据,
其中所述受试数据包含指示从已经施用受试物质的非人类动物中收集的一个器官或多个器官中的一种以上的生物标志物的动力学的数据的组,和
将所述受试数据的组输入到通过根据权利要求1至12中任一项所述的方法训练的人工智能模型,和,
由经训练的人工智能模型基于输入的所述受试数据,预测所述受试物质在人类中的一种以上的作用。
16.一种用于预测受测物质在人类中的一种以上的作用的计算机程序,所述计算机程序使计算机执行包括以下步骤的处理:
获得受试数据,所述受试数据包含指示从已经施用受试物质的非人类动物中收集的一个器官或多个器官中的一种以上的生物标志物的动力学的数据的组,和
将所述受试数据输入到通过根据权利要求1至12中任一项所述的方法训练的人工智能模型中,和,
由经训练的人工智能模型基于输入的所述受试数据,预测将所述受试物质在人类中的一种以上的作用。
17.一种用于预测受测物质在人类中的一种以上的作用的系统,所述系统包括:
用于发送受试数据的服务器装置,所述受试数据包含指示从已经施用受试物质的非人类动物中收集的一个器官或多个器官中的每一个中的一种以上的生物标志物的动力学的数据的组,和
用于预测所述受试物质在人类中的一种以上的作用的预测装置,所述预测装置通过网络连接到所述服务器装置,
其中所述服务器装置包括用于发送所述受试数据的通信单元,
所述预测装置包括处理单元和通信单元,
所述预测装置的通信单元接收从所述服务器装置发送的受试数据,和
所述处理单元将由所述预测装置的通信单元接收的受试数据输入到通过根据权利要求1至12中任一项所述的方法训练的人工智能模型中,并且通过经训练的人工智能模型来预测所述受试物质在人类中的一种以上的作用。
18.一种用于构建用于预测受测物质在人类中的一种以上的作用的系统的方法,所述方法包括以下步骤:
准备用于发送所述受试数据的服务器装置,所述受试数据包含指示从已经施用受试物质的非人类动物中收集的一个器官或多个器官中的每一个中的一种以上的生物标志物的动力学的数据的组,和
准备用于预测所述受试物质在人类中的一种以上的作用的预测装置,所述预测装置通过网络连接到所述服务器装置,
其中所述服务器装置包括用于发送所述受试数据的通信单元,
所述预测装置包括处理单元和通信单元,
所述预测装置的通信单元接收从所述服务器装置发送的所述受试数据,
所述处理单元将由所述预测装置的通信单元接收的所述受试数据输入到通过根据权利要求1至12中任一项所述的方法训练的人工智能模型中,并且通过经训练的人工智能模型来预测所述受试物质在人类中的一种以上的作用。
19.一种用于支持预测受试物质在人类中的一种以上的未知作用的方法,所述方法包括以下步骤:
将第一训练数据组和第二训练数据组输入到具有矩阵分解函数的人工智能模型中,
所述第一训练数据包含指示一个器官或多个不同器官中的每一个中的一种以上的生物标志物的动力学的数据的组,所述一个器官或多个不同器官中的每一个收集自已经单独施用了在人类中具有已知作用的多种现有物质的各非人类动物,
所述第二训练数据包含有关于人类中已知作用的信息,所述有关于人类中已知作用的信息从施用于非人类动物的多种现有物质中的每一种中获得;
构建新矩阵,其包含从所述人工智能模型输出的值作为新元素,所述值各自指示有关于现有物质之一的名称的信息与有关于已知作用的信息之间的关联度;和
当与受试物质相对应的关注区域中存在等于或大于阈值的元素时,提示与所述等于或大于阈值的元素相对应的有关于已知作用的信息;
其中所述受试物质是选自由现有物质和现有物质的等价物质组成的组的一种。
20.根据权利要求19所述的方法,其用于药物重新定位。
21.一种支持预测受试物质在人类中的一种以上的未知作用的装置,所述装置包括处理单元,
其中所述处理单元执行以下处理:
将第一训练数据组和第二训练数据组输入到具有矩阵分解函数的人工智能模型中,
所述第一训练数据包含指示一个器官或多个不同器官中的每一个中的一种以上的生物标志物的动力学的数据的组,所述一个器官或多个不同器官中的每一个收集自已经单独施用了在人类中具有已知作用的多种现有物质的各非人类动物,和
所述第二训练数据包含有关于人类中已知作用的信息,所述有关于人类中已知作用的信息从施用于非人类动物的多种现有物质中的每一种中获得;
构建新矩阵,其包含从所述人工智能模型输出的值作为新元素,所述值各自指示有关于现有物质之一的名称的信息与有关于已知作用的信息之间的关联度;和
当与受试物质相对应的关注区域中存在等于或大于阈值的元素时,提示与所述等于或大于阈值的元素相对应的有关于已知作用的信息;
其中所述受试物质是选自由现有物质和现有物质的等价物质组成的组的一种。
22.根据权利要求21所述的装置,其用于药物重新定位。
23.一种用于使用存储第一训练数据组的数据库和存储第二训练数据或第二训练数据组的数据库以训练人工智能模型的方法,
其中所述人工智能模型根据已经施用受试物质的非人类动物的一个器官或多个不同器官中的一种以上的生物标志物的动力学来预测受试物质在人类中的一种以上的作用,所述一个器官或多个不同器官分别对应于生成所述训练数据时收集的一个或多个器官,
通过有关于多种现有物质之一的名称的信息,将所述第一训练数据组与所述第二训练数据或第二训练数据组相关联,
所述第一训练数据组包含指示一个器官或多个不同器官中一种以上的生物标志物的动力学的数据的组,所述一个器官或多个不同器官收集自已经单独施用了在人类中具有已知作用的多种现有物质的非人类动物,和
所述第二训练数据包含有关于人类中已知作用的信息,所述有关于人类中已知作用的信息从施用于非人类动物的多种现有物质中的每一种中获得。
CN201980043930.6A 2018-07-27 2019-05-31 用于预测受试物质在人类中作用的人工智能模型 Withdrawn CN112368774A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018141890A JP6559850B1 (ja) 2018-07-27 2018-07-27 ヒトにおける被験物質の作用を予測するための人工知能モデル
JP2018-141890 2018-07-27
PCT/JP2019/021735 WO2020021857A1 (ja) 2018-07-27 2019-05-31 ヒトにおける被験物質の作用を予測するための人工知能モデル

Publications (1)

Publication Number Publication Date
CN112368774A true CN112368774A (zh) 2021-02-12

Family

ID=67614815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980043930.6A Withdrawn CN112368774A (zh) 2018-07-27 2019-05-31 用于预测受试物质在人类中作用的人工智能模型

Country Status (7)

Country Link
US (1) US11676684B2 (zh)
EP (1) EP3832657A4 (zh)
JP (2) JP6559850B1 (zh)
CN (1) CN112368774A (zh)
CA (1) CA3065653A1 (zh)
IL (1) IL279837A (zh)
WO (1) WO2020021857A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6559850B1 (ja) 2018-07-27 2019-08-14 Karydo TherapeutiX株式会社 ヒトにおける被験物質の作用を予測するための人工知能モデル
US11928208B2 (en) * 2018-10-02 2024-03-12 Nippon Telegraph And Telephone Corporation Calculation device, calculation method, and calculation program
CA3158327A1 (en) * 2019-10-17 2021-04-22 Karydo Therapeutix, Inc. Artificial intelligence model for predicting indications for test substances in humans
CA3167902A1 (en) * 2020-01-17 2021-07-22 Karydo Therapeutix, Inc. Prediction method for indication of aimed drug or equivalent substance of drug, prediction apparatus, and prediction program
CN113837512A (zh) * 2020-06-23 2021-12-24 中国移动通信集团辽宁有限公司 异常用户的识别方法及装置
EP4002383A3 (en) * 2020-11-13 2022-08-03 Tokyo Institute of Technology Information processing device, information processing method, recording medium recording information processing program, and information processing system
CN112883056B (zh) * 2021-03-11 2023-08-11 杭州广立微电子股份有限公司 一种半导体测试数据处理方法及装置
CN113240180B (zh) * 2021-05-18 2022-08-05 国网河南省电力公司电力科学研究院 一种基于Bayes-Adaboost改进算法的输电线路舞动预警方法
WO2022244022A1 (en) * 2021-05-21 2022-11-24 Aizen Algo Private Limited Method and system for prediction of time points in pharmacokinetic studies
CN114021630B (zh) * 2021-10-28 2024-07-02 同济大学 一种面向类别不平衡数据集的序数回归问题解决方法
WO2023163171A1 (ja) * 2022-02-28 2023-08-31 武田薬品工業株式会社 推論装置、生成装置、推論プログラム及び生成プログラム
WO2024116360A1 (ja) * 2022-11-30 2024-06-06 Tres Alchemix株式会社 予測装置、予測方法、及び予測プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1764837A (zh) * 2003-03-24 2006-04-26 魏念之 从一群患者的生物学图谱中取样预测一个个体临床治疗结果的方法
JP2015507470A (ja) * 2011-11-11 2015-03-12 コールド スプリング ハーバー ラボラトリー,アン エデュケーションコーポレーション オブ ザ ステイト オブ ニュー ヨーク 薬物スクリーニング法およびその使用
CN104508671A (zh) * 2012-06-21 2015-04-08 菲利普莫里斯生产公司 用于通过集成的偏差校正和分类预测生成生物标记签名的系统和方法
JP6232689B2 (ja) * 2015-06-25 2017-11-22 株式会社国際電気通信基礎技術研究所 多器官連関システムを基盤とした予測装置、及び予測プログラム
WO2018124293A1 (ja) * 2016-12-28 2018-07-05 国立研究開発法人医薬基盤・健康・栄養研究所 トランスクリプトームによる医薬成分の特徴分析法および分類

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2416810A1 (en) 2000-07-28 2002-02-07 Lion Bioscience Ag Pharmacokinetic tool and method for predicting metabolism of a compound in a mammal
WO2009025045A1 (ja) 2007-08-22 2009-02-26 Fujitsu Limited 化合物の物性予測装置、物性予測方法およびその方法を実施するためのプログラム
WO2009114591A1 (en) * 2008-03-11 2009-09-17 Smithkline Beecham Corporation Method and apparatus for screening drugs for predictors of quantitatively measured events
GB2491795A (en) * 2010-04-06 2012-12-12 Massachusetts Inst Technology Gene-expression profiling with reduced numbers of transcript measurements
JP5844715B2 (ja) 2012-11-07 2016-01-20 学校法人沖縄科学技術大学院大学学園 データ通信システム、データ解析装置、データ通信方法、および、プログラム
US10262107B1 (en) * 2013-03-15 2019-04-16 Bao Tran Pharmacogenetic drug interaction management system
US20150371009A1 (en) 2014-06-19 2015-12-24 Jake Yue Chen Drug identification models and methods of using the same to identify compounds to treat disease
US10776712B2 (en) 2015-12-02 2020-09-15 Preferred Networks, Inc. Generative machine learning systems for drug design
EP3436625A4 (en) * 2016-03-28 2019-11-06 The Regents of The University of California METHOD AND SYSTEMS FOR PREDICTING ACTIVE-INDUCED EFFECTS IN SILICO
JP6559850B1 (ja) 2018-07-27 2019-08-14 Karydo TherapeutiX株式会社 ヒトにおける被験物質の作用を予測するための人工知能モデル
CA3158327A1 (en) 2019-10-17 2021-04-22 Karydo Therapeutix, Inc. Artificial intelligence model for predicting indications for test substances in humans
CA3167902A1 (en) 2020-01-17 2021-07-22 Karydo Therapeutix, Inc. Prediction method for indication of aimed drug or equivalent substance of drug, prediction apparatus, and prediction program
WO2021145436A1 (ja) 2020-01-17 2021-07-22 Karydo TherapeutiX株式会社 目的とする既知の薬剤又はその等価物質の新たな適応症の予測方法、予測装置、及び予測プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1764837A (zh) * 2003-03-24 2006-04-26 魏念之 从一群患者的生物学图谱中取样预测一个个体临床治疗结果的方法
JP2015507470A (ja) * 2011-11-11 2015-03-12 コールド スプリング ハーバー ラボラトリー,アン エデュケーションコーポレーション オブ ザ ステイト オブ ニュー ヨーク 薬物スクリーニング法およびその使用
CN104508671A (zh) * 2012-06-21 2015-04-08 菲利普莫里斯生产公司 用于通过集成的偏差校正和分类预测生成生物标记签名的系统和方法
JP6232689B2 (ja) * 2015-06-25 2017-11-22 株式会社国際電気通信基礎技術研究所 多器官連関システムを基盤とした予測装置、及び予測プログラム
WO2018124293A1 (ja) * 2016-12-28 2018-07-05 国立研究開発法人医薬基盤・健康・栄養研究所 トランスクリプトームによる医薬成分の特徴分析法および分類

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石乐明 等: "《生命科学前沿技术与中医药研究》", vol. 1, 上海交通大学出版社, pages: 314 - 21 *

Also Published As

Publication number Publication date
JP6559850B1 (ja) 2019-08-14
JP2020017239A (ja) 2020-01-30
WO2020021857A1 (ja) 2020-01-30
EP3832657A1 (en) 2021-06-09
EP3832657A4 (en) 2022-05-04
US11676684B2 (en) 2023-06-13
CA3065653A1 (en) 2020-01-27
JPWO2020021857A1 (ja) 2021-08-26
IL279837A (en) 2021-03-01
US20210327543A1 (en) 2021-10-21
JP7266899B2 (ja) 2023-05-01

Similar Documents

Publication Publication Date Title
CN112368774A (zh) 用于预测受试物质在人类中作用的人工智能模型
Wangler et al. Model organisms facilitate rare disease diagnosis and therapeutic research
US20140278130A1 (en) Method of predicting toxicity for chemical compounds
US11244760B2 (en) Prediction device based on inter-organ cross talk system
Biase Oocyte developmental competence: insights from cross-species differential gene expression and human oocyte-specific functional gene networks
WO2020210487A1 (en) Systems and methods for nutrigenomics and nutrigenetic analysis
WO2021145434A1 (ja) 目的とする薬剤又はその等価物質の適応症の予測方法、予測装置、及び予測プログラム
Behdani et al. Construction of an integrated gene regulatory network link to stress-related immune system in cattle
Liu et al. Using machine learning to identify biomarkers affecting fat deposition in pigs by integrating multisource transcriptome information
Burzynski et al. Systematic elucidation and in vivo validation of sequences enriched in hindbrain transcriptional control
Bayega et al. Transcriptome landscape of the developing olive fruit fly embryo delineated by Oxford Nanopore long-read RNA-Seq
EP4047607A1 (en) Artificial intelligence model for predicting indications for test substances in humans
Zhong et al. A Novel Single-Nucleotide Polymorphism in W NT4 Promoter Affects Its Transcription and Response to FSH in Chicken Follicles
Sundberg et al. Discovering and validating mouse models of human diseases: the Cinderella Effect
US20240153641A1 (en) Methods for genomic identification of phenotype risk
JP2024514780A (ja) 有効性の予測および反応者/非反応者情報に基づくスキンケア治療効果の向上
Fischer Statistical Methods and Analyses in Computational Genomics: Explorations of Eukaryotic Transcription
Burkhard The origins of acoustic variation in the songs of Neotropical singing mice
Burkett Network-based Insights to Learned Vocalization
CN117202840A (zh) 基于响应者/非响应者信息预测功效并改善皮肤护理处理结果
Drawid Physically interpretable machine learning methods for transcription factor binding site identification using principled energy thresholds and occupancy
Nye Multivariate Phenomics Approach to Inheritance of a Complex Trait
Michalski Aspects for implementation of data mining in gerontology and geriatrics
Villoslada et al. 82 CML–Multiple Sclerosis 2012 Vol 4 No 3
Fulton Computational prediction of regulatory element combinations and transcription factor cooperativity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40047964

Country of ref document: HK

WW01 Invention patent application withdrawn after publication

Application publication date: 20210212

WW01 Invention patent application withdrawn after publication