CN113711035A - 特征量计算方法、特征量计算程序、特征量计算装置、筛选方法、筛选程序及化合物创建方法 - Google Patents

特征量计算方法、特征量计算程序、特征量计算装置、筛选方法、筛选程序及化合物创建方法 Download PDF

Info

Publication number
CN113711035A
CN113711035A CN202080029018.8A CN202080029018A CN113711035A CN 113711035 A CN113711035 A CN 113711035A CN 202080029018 A CN202080029018 A CN 202080029018A CN 113711035 A CN113711035 A CN 113711035A
Authority
CN
China
Prior art keywords
compound
feature amount
target
compounds
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080029018.8A
Other languages
English (en)
Inventor
津村享佑
中林淳
大平诗野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Publication of CN113711035A publication Critical patent/CN113711035A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/15Medicinal preparations ; Physical properties thereof, e.g. dissolubility
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • G16C20/64Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Epidemiology (AREA)
  • Medicinal Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Primary Health Care (AREA)
  • Mathematical Physics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biotechnology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Toxicology (AREA)
  • Bioethics (AREA)
  • Pathology (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的在于,提供一种能够计算出准确表示对象结构体的化学性质的特征量的方法、程序及装置。并且,本发明的目的在于,提供一种能够使用特征量来有效进行医药候选化合物的筛选的方法及程序。并且,本发明的目的在于,提供一种能够使用特征量来有效创建医药候选化合物的立体结构的方法。在对象结构体彼此之间探针的聚集程度相似是表示这些对象结构体的化学性质相似。即,通过第1方式计算出的特征量相似的对象结构体显示出相似的化学性质。因此,通过第1方式,能够计算出准确表示对象结构体的化学性质的特征量。

Description

特征量计算方法、特征量计算程序、特征量计算装置、筛选方 法、筛选程序及化合物创建方法
技术领域
本发明涉及一种进行特征量的计算、化合物的筛选及化合物的立体结构的创建的方法、程序及装置,尤其涉及一种搜索医药候选化合物的技术。
背景技术
以往,使用了计算机的药物研发中,通过准备收集数万到十万左右的现有的化合物而成的库且提供化合物的结构式来调查相对于1个目标蛋白质的键合力,搜索医药候选化合物(以下,称为“命中(hit)”)。例如,在下述专利文献1中,提供化合物的结构式来预测键合力。并且,在专利文献2中,也记载有反复进行结构式的生成和键合力的预测来逐渐搜索具有所期望的键合力的化合物(反复试验)。
并且,在专利文献3中,记载有使用被称为“化合物指纹(指纹识别)”的描述符来进行搜索。“描述符”是指由化合物的结构式获得的信息,“化合物指纹”表示各种官能团的有无等信息。这种描述符的特征在于“若化合物的描述符相似,则化合物的骨架相似”。
以往技术文献
专利文献
专利文献1:美国专利第9373059号公报
专利文献2:日本专利第5946045号公报
专利文献3:日本专利第4564097号公报
发明内容
发明要解决的技术课题
近年来,需求高的目标蛋白质变得较复杂且高难度,仅通过库的筛选难以发现命中。另一方面,化合物的理论上的数量即使限制在分子量500以下的低分子也有(10的60次方)个,当扩大至分子量1,000左右的中分子时,其数量进一步增加,若考虑有史以来所合成的化合物为(10的9次方)个左右,则仍然有可能发现命中。但是,针对这种天文数字量的化合物整体调查键合力,不仅在实验中,即使在模拟中也几乎无法进行。即使在对于一部分的化合物调查键合力的情况下,如上所述专利文献1、2那样反复进行反复试验时效率也低。并且,在如专利文献3中所记载的指纹(Fingerprint)那样的现有的描述符(特征量)的情况下,即使为显示出相同药效的化合物,其特征量也并不一定相似,特征量未准确表示对象结构体的化学性质,因此使用了特征量的搜索的效率低。
如此,在现有的技术中,特征量未准确表示对象结构体的化学性质,因此使用了特征量的筛选及立体结构创建的效率低。
本发明是鉴于这种情况而完成的,其目的在于,提供一种能够计算出准确表示对象结构体的化学性质的特征量的特征量计算方法、特征量计算程序及特征量计算装置。并且,本发明的目的在于,提供一种能够使用特征量来有效进行医药候选化合物的筛选的筛选方法及筛选程序。并且,本发明的目的在于,提供一种能够使用特征量来有效创建医药候选化合物的立体结构的化合物创建方法。
用于解决技术课题的手段
为了达到上述目的,本发明的第1方式所涉及的特征量计算方法具有:对象结构体指定工序,指定由具有化学性质的多个单元结构体构成的对象结构体;及特征量计算工序,计算出在三维空间中对对象结构体的立体结构的周围的1种类以上的探针的聚集程度进行定量化而获得的特征量,并且使用通过机器学习构成的生成器由对象结构体计算出特征量,探针为具有实数电荷且产生范德华力的多个点分开配置而成的结构体。
对象结构体的化学性质被表示为对象结构体与其周围的1种类以上的探针之间的相互作用的结果,因此在对象结构体彼此之间探针的聚集程度相似是表示这些对象结构体的化学性质相似的情况。即,通过第1方式计算出的特征量相似的对象结构体显示出相似的化学性质。因此,通过第1方式,能够计算出准确表示对象结构体的化学性质的特征量。
在第1方式中,用于特征量的计算中的“生成器”(预测模型、已学习模型)例如能够通过“具有将『将针对多个化合物的、表示化合物的立体结构的信息(三维图像等)设为教师数据且将特征量设为解释变量的学习用数据集』输入至生成器并通过机器学习进行学习的学习处理工序的生成器的构建方法”来构建。可以使用分层神经网络构建生成器。
在第1方式中,构成探针的“点”与数学“点”不同而可以具有大小(实际的原子、离子等)。并且,可以将虚拟的点电荷(“点”的一方式)或偶极子等作为探针而不是实际的原子等。探针能够按照成为目标(对象结构体)的化合物进行选择。
另外,第1方式所涉及的特征量计算方法能够通过计算机或具备这种计算机的特征量计算装置、特征量计算系统等来执行,所述计算机使用1个以上的CPU(CentralProcessing Unit:中央处理器)等各种处理器来实现。对以下各方式所涉及的特征量计算方法、筛选方法及化合物创建方法也相同。
第2方式所涉及的特征量计算方法在第1方式中,在对象结构体指定工序中,指定化合物作为对象结构体,在特征量计算工序中,使用生成器计算出在三维空间中对化合物的立体结构的周围的、作为探针的氨基酸的聚集程度进行定量化而获得的特征量即第1特征量。在第2方式中,将第1方式中的“探针”设为氨基酸,将第1方式中的“对象结构体”设为化合物,将第1方式中的“多个单元结构体”设为多个原子。对聚集程度进行定量化的氨基酸并不限于1种类,可以为键合有2种类以上的氨基酸的肽。
与第1方式相同地,从局部来看,化合物的药效(例如,对于目标蛋白质的键合力)被表示为化合物与各氨基酸(探针的一方式)之间的相互作用的结果,因此只要在化合物之间氨基酸的聚集程度为相似,则表示这些化合物(与目标蛋白质的)键合力相似。即,第2方式所涉及的特征量(第1特征量)相似的化合物显示出相似的药效。因此,能够通过第2方式计算出准确表示化合物的化学性质的特征量。另外,在第2方式中,能够指定生物配体等已知对于立体结构及目标蛋白质的键合的化合物作为对象结构体。
第3方式所涉及的特征量计算方法在第1方式中,在对象结构体指定工序中,指定与目标蛋白质的活性部位即口袋键合的口袋结构体作为对象结构体,在特征量计算工序中,使用生成器计算出在三维空间中对基于多个虚拟球体的口袋结构体的立体结构的周围的、作为探针的氨基酸的聚集程度进行定量化而获得的特征量即第2特征量。在第3方式中,将第1方式中的“探针”设为氨基酸,将第1方式中的“对象结构体”设为口袋结构体,将第1方式中的“单元结构体”设为多个虚拟球体。目标蛋白质的“活性部位”是指通过口袋结构体键合而促进或抑制目标蛋白质的活性的部位,能够认为“虚拟球体”具有范德华半径、电荷等化学性质。
与第2方式的上述内容相同地,第3方式所涉及的特征量(第2特征量)相似的口袋结构体显示出相似的化学性质,因此能够通过第3方式计算出准确表示口袋结构体的化学性质的特征量。另外,口袋结构体对应于与目标蛋白质的口袋键合的化合物。并且,在第3方式中,能够将基于目标蛋白质的立体结构的实际测量结果、口袋的位置信息等的模拟用于第2特征量的计算中。另外,关于目标蛋白质的立体结构,只要为能够识别氨基酸的各残基的解像力的立体结构,则并不限定测定技术(X射线晶体结构、NMR结构(NMR:NuclearMagnetic Resonance:核磁共振)、低温TEM结构(TEM:Transmission ElectronMicroscopy:透射电子显微镜)等)。
第4方式所涉及的特征量计算方法在第1方式中,在对象结构体指定工序中,指定化合物作为对象结构体,在特征量计算工序中,使用生成器计算出在三维空间中对探针的如下聚集程度进行定量化而获得的特征量即第3特征量,所述聚集程度为化合物的立体结构的周围的探针的聚集程度,且将1种类以上的核酸碱基、1种类以上的脂质分子、1种类以上的单糖分子、水及由多个原子构成的1种类以上的离子中的1个以上作为探针的聚集程度。在第4方式中,将第1方式中的“探针”设为1种类以上的核酸碱基等(可以为任意种类、数量、组合),将第1方式中的“对象结构体”设为化合物,将第1方式中的“多个单元结构体”设为多个原子。
在本发明中,作为医药的目标,能够使用作为除了蛋白质以外的生物高分子(化合物)的DNA(Deoxyribonucleic Acid:脱氧核糖核酸)、RNA(Ribo nucleic Acid:核糖核酸)、细胞膜及多糖。第4方式规定针对这些目标化合物的特征量的计算方法,并将探针设成另一物质(各目标的结构单元)而不是氨基酸。具体而言,在目标为DNA、RNA、细胞膜及多糖的情况下,将探针分别设为1种类以上的核酸碱基、1种类以上的核酸碱基、1种类以上的脂质分子及1种类以上的单糖分子。并且,在将这些作为探针而对聚集程度进行定量化时,可以考虑水、由多个原子构成的1种类以上的离子。与第1至第3方式相同地,从局部来看,化合物的药效(对于DNA等目标的键合力)被表示为化合物与核酸碱基等(探针)之间的相互作用的结果,因此只要在化合物之间核酸碱基等的聚集程度为相似,则表示这些化合物与目标的键合力相似。即,第4方式所涉及的特征量(第3特征量)相似的化合物显示出相似的药效。因此,能够通过第4方式计算出准确表示化合物的化学性质的特征量。
在第1至第4方式中,可以设置不变量化工序,所述不变量化工序使特征量针对化合物的旋转及平移不变量化。通过这种不变量化,能够容易处理特征量且减小数据容量。关于特征量的不变量化,能够通过傅里叶变换、相关函数的角度积分等来进行。
为了达到上述目的,本发明的第5方式所涉及的特征量计算程序使计算机执行第1至第4方式中的任一个所涉及的特征量计算方法。关于第5方式中的“计算机”,能够使用1个以上的CPU(Central Processing Unit)等各种处理器来实现。该“计算机”可以为特征量计算装置、特征量计算系统中所具备的计算机。另外,也可以举出记录有第5方式所涉及的特征量计算程序的计算机能够读取的代码的非临时性记录介质来作为本发明的方式。
为了达到上述目的,本发明的第6方式所涉及的特征量计算装置具备:对象结构体指定部,指定由具有化学性质的多个单元结构体构成的对象结构体;及特征量计算部,计算出在三维空间中对对象结构体的立体结构的周围的1种类以上的探针的聚集程度进行定量化而获得的特征量,并且使用通过机器学习构成的生成器由对象结构体计算出特征量,探针为具有实数电荷且产生范德华力的多个点分开配置而成的结构体。根据第6方式,与第1方式相同地,能够计算出准确表示对象结构体的化学性质的特征量。另外,第6方式所涉及的特征量计算装置可以通过CPU等各种处理器读取本发明所涉及的特征量计算程序的代码来执行本发明所涉及的特征量计算方法。
为了达到上述目的,本发明的第7方式所涉及的筛选方法从多个化合物提取与目标蛋白质键合的目标化合物,所述筛选方法具有:存储工序,针对多个化合物的每一个,将基于多个原子的化合物的立体结构与使用第2方式所涉及的特征量计算方法计算出的针对化合物的立体结构的第1特征量建立关联并进行存储;特征量计算工序,使用第2方式所涉及的特征量计算方法计算出针对确认到与目标蛋白质的键合的化合物即配体的第1特征量;相似度计算工序,计算出针对多个化合物的第1特征量与针对配体的第1特征量的相似度;及化合物提取工序,根据相似度从多个化合物提取目标化合物。如第2方式的上述内容,若在配体和对象化合物之间第1特征量(以三维的方式定量化而获得的特征量)相似,则两者的药效相似。因此,根据第7方式,根据第1特征量提取与配体的药效相似的目标化合物而能够有效进行医药候选化合物的筛选。另外,在化合物提取工序中,可以提取相似度满足目标值(例如为阈值以上)的化合物,也可以以相似度高到低的顺序提取化合物。
为了达到上述目的,本发明的第8方式所涉及的筛选方法从多个化合物提取与目标蛋白质键合的目标化合物,所述筛选方法具有:存储工序,针对多个化合物的每一个,将基于多个原子的化合物的立体结构与使用第2方式所涉及的特征量计算方法计算出的第1特征量建立关联并进行存储;特征量计算工序,使用第3方式所涉及的特征量计算方法计算出针对目标蛋白质的口袋结构体的第2特征量;相似度计算工序,计算出针对多个化合物的第1特征量与针对口袋结构体的第2特征量的相似度;及化合物提取工序,根据相似度从多个化合物提取目标化合物。
如第3方式的上述内容,若在口袋结构体和对象化合物之间第2特征量相似,则两者的化学性质相似。因此,根据第8方式,提取与口袋结构体的化学性质相似的目标化合物并能够有效进行医药候选化合物的筛选。另外,口袋结构体对应于与目标蛋白质键合的化合物,因此能够将针对口袋结构体的特征量(第2特征量)和针对化合物的特征量(第1特征量)进行对比并能够计算出相似度。
为了达到上述目的,本发明的第9方式所涉及的筛选方法从多个化合物提取与除了蛋白质以外的目标生物高分子键合的目标化合物,所述筛选方法具有:存储工序,针对多个化合物的每一个,将基于多个原子的化合物的立体结构与使用第4方式所涉及的特征量计算方法计算出的针对化合物的立体结构的第3特征量建立关联并进行存储;特征量计算工序,使用第4方式所涉及的特征量计算方法计算出针对确认到与除了蛋白质以外的目标生物高分子键合的化合物即键合化合物的第3特征量;相似度计算工序,计算出针对多个化合物的第3特征量与针对键合化合物的第3特征量的相似度;及化合物提取工序,根据相似度从多个化合物提取目标化合物。如第4方式的上述内容,本发明能够使用作为除了蛋白质以外的目标生物高分子的DNA等,若与目标生物高分子键合的键合化合物和对象化合物之间第3特征量相似,则两者的药效相似。因此,根据第9方式,根据第3特征量提取与键合化合物的药效相似的目标化合物而能够有效进行医药候选化合物的筛选。
为了达到上述目的,本发明的第10方式所涉及的筛选方法具有:输入工序,针对多个化合物输入表示立体结构的信息;特征量计算工序,针对多个化合物的每一个,根据信息并通过第1至第4方式中的任一个所涉及的特征量计算方法计算出特征量;特性值计算工序,针对多个化合物的每一个,根据信息计算出表示物性的物性值和/或表示毒性的毒性值;及提取工序,从多个化合物提取特征量的相似度满足目标值且物性值和/或毒性值满足目标值的化合物。
根据本发明所涉及的特征量(通过第1至第4方式所涉及的特征量计算方法计算出的特征量),即使现有的化合物在物性或毒性的方面存在问题的情况下,通过改用与目标蛋白质等的键合力相同的(即,特征量相同的)新型化合物,骨架发生很大变化,从而能够提高克服物性或毒性的问题的可能性。然后,为了实现这种“维持键合力”和“避免物性或毒性的问题点”这两个,组合本发明所涉及的特征量和表示物性或毒性的指标是有效的。第10方式规定基于这种构思的筛选方法的一方式,使用第1至第4方式中的任一个所涉及的特征量计算方法从多个化合物提取特征量的相似度满足目标值且物性值和/或毒性值满足目标值的化合物,因此能够有效进行医药候选化合物的筛选。
另外,在第10方式中,优选在判断相似度的化合物之间,通过相同的方式计算出特征量(统一特征量计算方法)。在后述第11~第13方式中也相同。
为了达到上述目的,本发明的第11方式所涉及的筛选方法具有:输入工序,针对多个化合物输入表示立体结构的信息;第1特征量计算工序,针对多个化合物的每一个,根据信息并通过第1至第4方式中的任一个所涉及的特征量计算方法计算出特征量;第2特征量计算工序,针对多个化合物的每一个,根据信息计算出表示化合物的结构的结构特征量;及提取工序,从多个化合物中提取特征量的相似度满足目标值且结构特征量的相似度为阈值以下的化合物。
为了确保通过搜索而获得的新型化合物为与成为搜索的起点的原始的(现有的)化合物不同的骨架,在搜索化合物时,附加“与原始的化合物(本发明所涉及)的特征量相同,但是结构式不同”等条件是有效的。第11方式规定基于这种构思的筛选方法的一方式,使用第1至第4方式中的任一个所涉及的特征量计算方法从多个化合物中提取特征量的相似度满足目标值且结构特征量的相似度为阈值以下的化合物,因此能够有效进行医药候选化合物的筛选。另外,为了表示“结构式不同”,使用结构式中的相似性的指标是有效的,能够使用多个已提出的公知的指标作为这种指标。
为了达到上述目的,本发明的第12方式所涉及的筛选方法具有:输入工序,针对多个化合物输入表示立体结构的信息;特征量计算工序,针对多个化合物的每一个,根据信息并通过第1至第4方式中的任一个所涉及的特征量计算方法计算出特征量;预测工序,针对多个化合物的每一个,使用根据特征量输出与其他化合物的键合力的预测模型来预测键合力;及提取工序,从多个化合物中提取键合力满足目标值的化合物。第12方式所涉及的筛选方法通过将成为搜索的起点的信息仅从一个化合物的结构式变更为“基于本发明的特征量的键合力的预测模型”及“键合力的目标值(能够设定为高于现状值)”,能够有效提取键合力满足目标值的化合物(有效进行医药候选化合物的筛选)。
为了达到上述目的,本发明的第13方式所涉及的筛选方法具有:输入工序,针对多个化合物输入表示立体结构的信息;设定工序,设定与其他化合物的键合力的目标值;估计工序,使用预测模型来估计对应于目标值的特征量,所述预测模型根据通过第1至第4方式中的任一个所涉及的特征量计算方法计算出的特征量输出键合力;特征量计算工序,针对多个化合物的每一个,根据信息并通过第1至第4方式中的任一个所涉及的特征量计算方法计算出特征量;及提取工序,根据计算结果,从多个化合物中提取具有与估计的特征量的相似度为阈值以上的特征量的化合物。在上述第12方式中,使用“预测模型”来预测键合力,并提取满足“键合力的目标值”的化合物。相对于此,在第13方式所涉及的筛选方法中,针对“预测模型”,使用与第12方式相反的使用方法。具体而言,使用“预测模型”从“键合力的目标值”估计特征量(第1至第4方式中的任一个所涉及的特征量),并搜索具有所估计的特征量的化合物。通过这种方法,也能够与第12方式相同地有效进行医药候选化合物的筛选。
另外,在第12、13方式中,“键合力的预测模型”例如能够从多个键合化合物的结构式和其键合力的实验值的组生成。
为了达到上述目的,本发明的第14方式所涉及的筛选程序使计算机执行第7至第13方式中的任一个所涉及的筛选方法。关于第14方式中的“计算机”,能够使用1个以上的CPU等各种处理器来实现。该“计算机”可以为筛选装置、筛选系统中所具备的计算机。另外,也可以举出记录有第14方式所涉及的筛选程序的计算机能够读取的代码的非临时性记录介质来作为本发明的方式。
为了达到上述目的,本发明的第15方式所涉及的化合物创建方法从多个化合物创建出与目标蛋白质键合的目标化合物的立体结构,所述化合物创建方法具有:存储工序,针对多个化合物的每一个,将基于多个原子的化合物的立体结构与使用第2方式所涉及的特征量计算方法计算出的第1特征量建立关联并进行存储;特征量计算工序,使用第2方式所涉及的特征量计算方法计算出针对确认到与目标蛋白质的键合的化合物即配体的第1特征量;生成器构建工序,通过将多个化合物的立体结构设为教师数据且将第1特征量设为解释变量的机器学习来构建生成器;及化合物立体结构生成工序,使用生成器从配体的第1特征量生成目标化合物的立体结构。
在上述第7至第13方式所涉及的筛选方法中,从结构式已确定的(已被写下)多个化合物中发现与配体或目标蛋白质匹配的化合物。因此,采用在计算出化合物的特征量之后,根据与另外计算出的配体或目标蛋白质的口袋结构体的特征量的相似度提取化合物的方法即检索的方法。因此,只要预先记录化合物的结构式与特征量的对应关系,则能够发现相似度高的(或阈值以上)结构式。相对于此,在第15方式中,生成具有与配体的特征量(第1特征量)相似(因此,药效相似)的特征量的化合物的结构式而不进行检索。
关于在提供特征量的情况下的结构式的生成,能够使用通过机器学习构建的生成器来进行。具体而言,在第15方式中,通过将化合物的立体结构设为教师数据且将第1特征量设为解释变量的机器学习(学习方法并无特别限定)构建生成器,并使用该生成器,从配体的第1特征量生成目标化合物的立体结构。在第15方式中,由于不进行检索,因此即使在成为“基于筛选的检索的结果为无解”的情况下也能够生成化合物的立体结构,从而能够有效创建医药候选化合物的立体结构。另外,在第15方式中所生成的立体结构受到作为教师数据所提供的化合物的特征的影响。因此,通过选择作为教师数据所提供的化合物的特征,能够生成具有不同特征的立体结构的化合物。例如,通过提供容易合成的化合物作为教师数据,能够生成具有容易合成的立体结构的化合物。
为了达到上述目的,本发明的第16方式所涉及的化合物创建方法从多个化合物创建出与目标蛋白质键合的目标化合物的立体结构,所述化合物创建方法具有:存储工序,针对多个化合物的每一个,将与使用第2方式所涉及的特征量计算方法计算出的第1特征量建立关联并进行存储;特征量计算工序,使用第3方式所涉及的特征量计算方法计算出针对目标蛋白质的口袋结构体的第2特征量;生成器构建工序,通过将多个化合物的立体结构设为教师数据且将第1特征量设为解释变量的机器学习来构建生成器;及化合物立体结构生成工序,使用生成器从口袋结构体的第2特征量生成目标化合物的立体结构。根据第16方式,与第15方式相同地,生成具有与口袋结构体的特征量(第2特征量)相似(因此,药效相似)的特征量的化合物的结构式而不进行检索,因此能够有效创建医药候选化合物的立体结构。另外,与第15方式相同地,通过选择作为教师数据所提供的化合物的特征,能够生成具有不同特征的立体结构的化合物。
为了达到上述目的,本发明的第17方式所涉及的化合物创建方法从多个化合物创建出与除了蛋白质以外的目标生物高分子键合的目标化合物的立体结构,所述化合物创建方法具有:存储工序,针对多个化合物的每一个,将基于多个原子的化合物的立体结构与第3特征量建立关联并进行存储;特征量计算工序,使用第4方式所涉及的特征量计算方法计算出针对确认到与除了蛋白质以外的目标生物高分子的键合的化合物即键合化合物的第3特征量;生成器构建工序,通过将多个化合物的立体结构设为教师数据且将第3特征量设为解释变量的机器学习来构建生成器;及化合物立体结构生成工序,使用生成器从键合化合物的第3特征量生成目标化合物的立体结构。
根据第17方式,与第15、第16方式相同地,生成具有与键合化合物的特征量(第3特征量)相似(因此,药效相似)的特征量的化合物的结构式而不进行检索,因此能够有效创建医药候选化合物的立体结构。另外,与第15、第16方式相同地,通过选择作为教师数据所提供的化合物的特征,能够生成具有不同特征的立体结构的化合物。
发明效果
如上所述,根据本发明的特征量计算方法、特征量计算程序及特征量计算装置,能够计算出准确表示对象结构体的化学性质的特征量。并且,根据本发明的筛选方法及筛选程序,能够有效进行医药候选化合物的筛选。并且,根据本发明的化合物创建方法,能够有效创建医药候选化合物的立体结构。
附图说明
图1是表示第1实施方式所涉及的筛选装置的结构的框图。
图2是表示处理部的结构的框图。
图3是表示存储于存储部的信息的图。
图4是表示将化合物的结构信息与特征量建立关联而进行存储的状态的图。
图5是表示化合物的三维AAM特征量的计算步骤的流程图。
图6是表示结构式的三维化的例的图。
图7是表示三维AAM特征量的例的图。
图8是表示三维AAM特征量的例的表。
图9是表示针对口袋结构体的三维AAM描述符的步骤的流程图。
图10是表示针对口袋结构体的三维AAM描述符的状态的概念图。
图11是表示不变量化AAM描述符的例的图。
图12是表示不变量化AAM描述符相似的化合物的例的图。
图13是表示在使用了不变量化AAM描述符的情况下的命中的发现容易度的图。
图14是表示在使用了不变量化AAM描述符的情况下的命中的搜索时间的图。
图15是表示在使用了不变量化AAM描述符的情况下的命中的搜索时间的另一图。
图16是表示基于描述符的相似度的目标化合物的提取步骤的图。
图17是表示基于描述符的相似度的目标化合物的提取结果的例的表。
图18是表示基于描述符的相似度的目标化合物的提取步骤的另一图。
图19是表示基于描述符的相似度的目标化合物的提取结果的例的另一表。
图20是表示第2实施方式所涉及的化合物创建装置的结构的框图。
图21是表示处理部的结构的图。
图22是表示存储于存储部的信息的图。
图23是表示在输入配体的情况下的立体结构生成步骤的流程图。
图24是表示使用了机器学习的结果的立体结构生成的状态的图。
图25是表示中间层的数量与cos相似度的关系的图。
图26是表示立体结构的生成例的图。
图27是表示在输入目标蛋白质的情况下的立体结构生成步骤的图。
图28是表示第3实施方式所涉及的医药候选化合物搜索装置的结构的框图。
图29是表示处理部的结构的图。
图30是表示存储于存储部的信息的图。
图31是表示命中的发现容易度的比较结果的图。
图32是表示层次网络的结构例的图。
图33是表示在同时使用了本发明所涉及的特征量和其他特征量的情况下的筛选的处理的流程图。
图34是表示处理部的结构的另一例的图。
图35是表示同时使用本发明所涉及的特征量和物性值时的筛选的状态的图。
图36是表示同时使用本发明所涉及的特征量和物性值时的筛选的状态的另一图。
图37是表示同时使用本发明所涉及的特征量和物性值时的筛选的状态的又一图。
图38是表示在同时使用了本发明所涉及的特征量和其他特征量的情况下的筛选的处理的流程图。
图39是表示处理部的结构的另一例的图。
图40是表示同时使用本发明所涉及的特征量和结构特征量时的筛选的状态的图。
图41是表示同时使用本发明所涉及的特征量和结构特征量时的筛选的状态的另一图。
图42是表示同时使用本发明所涉及的特征量和结构特征量时的筛选的状态的又一图。
图43是表示在同时使用了本发明所涉及的特征量和其他特征量的情况下的输出例的图。
图44是表示在同时使用了本发明所涉及的特征量和其他特征量的情况下的输出例的另一图。
图45是表示在使用了本发明所涉及的特征量及预测模型的情况下的筛选的处理的另一流程图。
图46是表示处理部的结构的又一例的图。
图47是表示在使用了本发明所涉及的特征量及预测模型的情况下的筛选的处理的又一流程图。
图48是表示在同时使用了本发明所涉及的特征量和其他特征量的情况下的化合物创建的处理的流程图。
图49是表示在同时使用了本发明所涉及的特征量和其他特征量的情况下的化合物创建的处理的另一流程图。
图50是表示在同时使用了本发明所涉及的特征量和其他特征量的情况下的化合物创建的处理的又一流程图。
图51是表示在同时使用了本发明所涉及的特征量和其他特征量的情况下的化合物创建的处理的又一流程图。
图52是表示在同时使用了本发明所涉及的特征量和结构特征量的情况下的化合物创建的处理的流程图。
图53是表示在同时使用了本发明所涉及的特征量和结构特征量的情况下的化合物创建的处理的另一流程图。
图54是表示在同时使用了本发明所涉及的特征量和结构特征量的情况下的化合物创建的处理的又一流程图。
图55是表示在同时使用了本发明所涉及的特征量和结构特征量的情况下的化合物创建的处理的又一流程图。
图56是表示在使用了本发明所涉及的特征量及预测模型的情况下的化合物创建的处理的流程图。
图57是表示在使用了本发明所涉及的特征量及预测模型的情况下的化合物创建的处理的另一流程图。
图58是表示在使用了本发明所涉及的特征量及预测模型的情况下的化合物创建的处理的又一流程图。
图59是表示本发明所涉及的筛选的处理的流程图。
图60是表示本发明所涉及的化合物创建的处理的流程图。
图61是表示本发明所涉及的筛选的处理的另一流程图。
图62是表示本发明所涉及的化合物创建的处理的另一流程图。
图63是表示本发明所涉及的筛选的处理的又一流程图。
图64是表示本发明所涉及的化合物创建的处理的又一流程图。
图65是表示本发明所涉及的化合物信息处理的又一流程图。
图66是表示氨基酸的聚集程度的输出例的图。
图67是表示氨基酸的聚集程度的输出例的另一图。
图68是表示氨基酸的聚集程度的二维显示的例的图。
图69是表示氨基酸的聚集程度的二维显示的例的另一图。
图70是表示氨基酸的聚集程度的二维显示的例的又一图。
图71是表示氨基酸的聚集程度的图表显示的例的图。
图72是表示氨基酸的聚集程度的图表显示的例的另一图。
图73是表示特征量的伪三维显示的例的图。
图74是表示将氨基酸的聚集程度的差分表述为相似度的状态的图。
图75是表示键合力的预测模型的性能的输出例的图。
图76是表示本发明所涉及的化合物搜索系统的结构例的图。
图77是表示化合物搜索服务器的功能结构的例的图。
图78是表示客户端装置的功能结构的例的图。
图79是表示化合物创建服务器的功能结构的例的图。
图80是表示化合物搜索服务器的功能结构的另一例的图。
具体实施方式
以下,参考附图并对本发明的特征量计算方法、特征量计算程序、特征量计算装置、筛选方法、筛选程序及化合物创建装置的实施方式进行详细说明。
<第1实施方式>
图1是表示第1实施方式所涉及的筛选装置10(特征量计算装置、筛选装置)的结构的框图。筛选装置10为进行针对化合物(对象结构体)和/或口袋结构体(对象结构体)的特征量的计算及目标化合物的提取(筛选)的装置,并能够使用计算机来实现。如图1所示,筛选装置10具备处理部100、存储部200、显示部300及操作部400,并且相互连接而收发所需信息。针对这些构成要件能够采用各种设置方式,各构成要件可以设置于1处(1框体内、1室内等),也可以设置于隔开的位置而经由网络连接。并且,筛选装置10经由互联网等网络NW与外部服务器500及PDB(Protein Data Bank:大型数据库)等外部数据库510连接,并能够根据需要获取化合物的结构式、蛋白质的晶体结构等信息。
<处理部的结构>
图2是表示处理部100的结构的图。处理部100具备信息输入部110、特征量计算部120、相似度计算部130、化合物提取部140、显示控制部150、CPU160(CPU:CentralProcessing Unit)、ROM170(ROM:Read Only Memory:只读存储器)及RAM180(RAM:RandomAccess Memory:随机存取存储器)。
信息输入部110经由未图示的DVD驱动器、半导体存储器用端子等记录介质接口和/或网络NW输入化合物的结构式、目标蛋白质的X晶体结构及口袋位置等信息。特征量计算部120(对象结构体指定部、立体结构生成部、特征量计算部、不变量化部)计算出本发明所涉及的特征量。相似度计算部130(相似度计算部)计算出所计算的特征量彼此的相似度。化合物提取部140(化合物提取部)从多个化合物根据相似度提取目标化合物。显示控制部150控制所输入的信息及处理结果在监视器310上的显示。对使用了处理部100的这些功能的特征量计算及目标化合物的筛选的处理的详细内容将进行后述。另外,基于这些功能的处理在CPU160的控制下进行。
上述处理部100的各部的功能能够使用各种处理器(processor)来实现。在各种处理器中,例如包含有CPU,所述CPU为执行软件(程序)来实现各种功能的通用的处理器。并且,在上述各种处理器中,还包含有作为专门用于图像处理的处理器的GPU(GraphicsProcessing Unit:图形处理单元)、作为FPGA(Field Programmable Gate Array:现场可编程门阵列)等在制造后能够变更电路结构的处理器的可编程逻辑设备(ProgrammableLogic Device:PLD)。而且,作为ASIC(Application Specific Integrated Circuit:专用集成电路)等具有为了执行特定的处理而专门设计的电路结构的处理器的专用电路等也包含于上述各种处理器中。
各部的功能可以通过1个处理器来实现,也可以由相同种类或不同种类的多个处理器(例如,多个FPGA或CPU和FPGA的组合或CPU和GPU的组合)来实现。并且,可以由1个处理器实现多个功能。作为由1个处理器构成多个功能的例,第1有如下方式,即,如以客户端、服务器等计算机为代表,由1个以上的CPU和软件的组合构成1个处理器,并通过该处理器实现多个功能。第2有如下方式,即,如以片上系统(System On Chip:SoC)等为代表,使用由1个IC(Integrated Circuit:集成电路)芯片实现系统整体的功能的处理器。如此,使用1个以上的上述各种处理器来作为硬件结构来构成各种功能。而且,更具体而言,这些各种处理器的硬件结构为组合半导体元件等电路元件而成的电路(circuitry)。
在上述处理器或电路执行软件(程序)时,将欲执行的软件的计算机(例如,构成处理部100的各种处理器或电路和/或它们的组合)能够读取的代码预先存储于ROM170(参考图2)等非临时性记录介质中,从而处理器参考该软件。预先存储于非临时性记录介质的软件包含用于执行本发明所涉及的特征量计算方法及目标化合物的提取处理的程序(特征量计算程序及筛选程序)。也可以在各种光磁记录装置、半导体存储器等的非临时性记录介质中记录代码而不是在ROM170中。在进行使用了软件的处理时,例如将RAM180用作临时存储区域,并且也能够参考例如存储于未图示的EEPROM(Electronically Eras able andProgrammable Read Only Memory:电子可擦和可编程只读存储器)中的数据。
<存储部的结构>
存储部200由DVD(Digital Versatile Disk:数字通用光盘)、硬盘(Hard Disk)、各种半导体存储器等非临时性记录介质及其控制部构成,且存储有图3所示的图像及信息。结构信息210包含化合物的结构式、目标蛋白质的立体结构及口袋位置。立体结构信息220为从结构信息210生成的化合物和/或口袋结构体的立体结构的信息。三维AAM描述符230为在三维空间中对化合物或口袋结构体的立体结构的周围的1种类以上的氨基酸的聚集程度进行定量化而获得的特征量,并通过后述的特征量计算方法计算出。另外,“AAM”是指“氨基酸图谱(Amino Acid Mapping)”。不变量化AAM描述符240为使三维AAM描述符230针对化合物或口袋结构体的旋转及平移不变量化的特征量。相似度信息250为表示特征量彼此的相似度的信息,化合物提取结果260为表示根据相似度所提取的目标化合物的信息。
图4为表示使针对N个(N为2以上的整数)化合物的结构信息210、立体结构信息220、三维AAM描述符230及不变量化AAM描述符240建立关联而被存储于存储部200的状态的图。在图4中,例如能够将结构式设为结构信息210,并将被立体化的结构式(后述)设为立体结构信息220。并且,在图4中,对于各化合物,针对20种类的氨基酸的每一个,将三维AAM描述符230(记载为“ga(r)”;a是表示氨基酸的种类的下标)与对应于其三维AAM描述符230的不变量化AAM描述符240(记载为“Fab(s)”;a、b是表示氨基酸的种类的下标)建立关联并进行存储。关于三维AAM描述符230及不变量化AAM描述符240,可以按照用于筛选的描述符的数量来针对一部分的氨基酸进行存储而不是针对20种类的氨基酸整体。
在存储部200中,可以存储多个如图4所示那样的信息的组(库)。另外,图4中示出了针对化合物的信息的存储状态,但是针对目标蛋白质也能够以相同的结构存储信息。并且,对使用了这种结构信息及立体结构信息的三维AAM描述符和/或不变量化AAM描述符的计算方法将进行后述。
<显示部及操作部的结构>
显示部300具备监视器310(显示装置),并能够显示所输入的图像、存储于存储部200的图像及信息、基于处理部100的处理的结果等。操作部400包括作为输入设备和/或定点设备的键盘410及鼠标420,用户能够经由这些设备及监视器310的画面进行本发明所涉及的特征量计算方法的执行及目标化合物的提取中所需的操作(后述)。用户能够执行的操作中例如包含有处理模式、欲计算的描述符的种类、用于筛选的描述符、相对于相似度的阈值的指定等。
<筛选装置中的处理>
在上述结构的筛选装置10中,能够按照用户经由操作部400进行的指示进行特征量(描述符)的计算和/或目标化合物的提取。以下,对各处理的详细内容进行说明。
<特征量的计算>
筛选装置10能够按照用户经由操作部400进行的指示计算出三维AAM描述符和/或不变量化AAM描述符。
<相对于化合物的三维AAM描述符的计算>
图5是表示针对化合物(对象结构体)的三维AAM描述符的计算步骤的流程图。另外,配体为确认到与目标蛋白质的键合的化合物,能够以图5的步骤计算出三维AAM描述符。在步骤S100中,信息输入部110按照用户的操作输入化合物的结构式。由此,指定由所输入的化学式表示的化合物作为对象结构体(对象结构体指定工序)。
特征量计算部120对所输入的结构式进行三维化,从而生成基于多个原子(具有化学性质的多个单元结构体)的化合物的立体结构(步骤S102:立体结构生成工序)。结构式的三维化已知有各种方法,步骤S102中所使用的方法并无特别限定。图6表示结构式的立体化的例,图6(a)部分表示所输入的结构式,图6(b)部分表示被三维化的结构式。
特征量计算部120计算出氨基酸“a”(a为表示氨基酸的种类的数字;1至20)的各原子“μ”所感受到的自由能的空间分布ΔG(r)(步骤S104;特征量计算工序)。作为ΔG(r)的计算方法能够采用分子动力学方法(MD:Mole cular Dynamics),但是并不限定于此。计算出特征量的氨基酸可以为预定的种类,也可以按照用户的指示来确定(只要为1种类以上即可,也可以为多个种类)。
特征量计算部120根据ΔG(r)计算出氨基酸“a”的各原子“μ”的分布函数g(r)(步骤S106:特征量计算工序)。若将T设为室温且将KB设为玻尔兹曼常数,则g(r)由以下式(1)表示。
[数式1]
gaμ(r)=exp(-ΔG(r)/KRT)···(1)
特征量计算部120根据分布函数g(r)计算出氨基酸的重心的分布函数ga(r)(步骤S108:特征量计算工序)。为了计算,将g(r)对各原子“μ”进行几何平均。该分布函数ga(r)为在三维空间中对化合物的立体结构的周围的1种类以上的氨基酸“a”的聚集程度进行定量化而获得的三维AAM描述符。特征量计算部120将所计算的三维AAM描述符作为三维AAM描述符230与化合物的结构信息(结构信息210)、立体结构信息(立体结构信息220)建立关联并存储于存储部200(参考图4)。
图7是针对图6所示的化合物的三维AAM描述符的例。图7(a)部分表示针对丙氨酸的三维AAM描述符,图7(b)部分表示针对缬氨酸的三维AAM描述符。在图7中,颜色深的区域为氨基酸的聚集程度(存在几率)高的区域。图8是表示针对图6所示的化合物的三维AAM描述符的另一例的表,且表示针对分别不同的方向1、方向2、方向3(分别为表的第1段、第2段、第3段)的三维AAM描述符。表的左栏表示三维AAM描述符(相对于阈值的等高面),右栏表示三维AAM描述符(相对于阈值的等高面)及化合物的立体结构。
<相对于口袋结构体的三维AAM描述符的计算>
在筛选装置10中,能够指定与目标蛋白质键合的口袋结构体而不是化合物作为对象结构体,并计算出相对于该口袋结构体的特征量(三维AAM描述符)。口袋结构体为与目标蛋白质的活性部位即口袋键合的对象结构体,“活性部位”是指通过口袋结构体键合而促进或抑制目标蛋白质的活性的部位。图9是表示相对于口袋结构体的三维AAM描述符的计算步骤的流程图。并且,图10是表示相对于口袋结构体的三维AAM描述符的状态的概念图。
在图9的流程图中,信息输入部110输入目标蛋白质的立体结构的实际测量及口袋的位置信息(步骤S200:对象结构体指定工序)。图10(a)部分表示目标蛋白质TP中的口袋PO。通过步骤S200的处理,口袋结构体被指定为对象结构。
特征量计算部120在目标蛋白质的口袋上塞入多个虚拟球体(具有化学性质的多个单元结构体)(步骤S202:对象结构体指定工序、立体结构生成工序)。能够认为“虚拟球体”具有范德华半径、电荷等化学性质,“塞入虚拟球体”能够通过模拟(例如分子动力学方法)来进行。通过步骤S202,能够将所塞入的虚拟球体的集合(立体结构)作为口袋结构体(对象结构体)的立体结构而获得(步骤S204:立体结构生成工序)。图10(b)部分表示相对于目标蛋白质TP的口袋结构体PS的例。
特征量计算部120使用目标蛋白质的立体结构的实际测量,以三维的方式对在口袋结构体的周围的1种类以上的氨基酸的聚集程度进行定量化(步骤S206:特征量计算工序)。实际上,能够读出在口袋结构体的周围聚集有哪一种类的氨基酸。图10(c)部分表示在口袋结构体PS的周围聚集有3种类的氨基酸A1、A2、A3的状态。另外,对聚集程度进行定量化的氨基酸只要为1种类以上即可(也可以为多个种类)。并且,可以针对所预定的种类的氨基酸进行定量化,也可以针对按照用户的操作所设定的氨基酸进行定量化。特征量计算部120将所计算的三维AAM描述符作为三维AAM描述符230与化合物的结构信息(结构信息210)、立体结构信息(立体结构信息220)建立关联并存储于存储部200(参考图3、图4;存储工序)。在已计算出后述的不变量化AAM描述符的情况下,特征量计算部120将三维AAM描述符与不变量化AAM描述符建立关联。
<三维AAM描述符的不变量化>
上述三维AAM描述符表示氨基酸的三维的聚集程度,但是即使化合物相同若进行重心移动、旋转等则值会改变,并且由于是三维信息,因此数据容量大。因此,在第1实施方式所涉及的筛选装置10中,除了三维AAM描述符以外能够计算出“使三维AAM描述符对于化合物的旋转及平移不变量化的不变量化AAM描述符”或代替三维AAM描述符能够计算出“使三维AAM描述符针对化合物的旋转及平移不变量化的不变量化AAM描述符”(不变量化特征量)。另外,不管是化合物的情况,还是口袋结构体的情况,均能够以相同步骤进行不变量化。在使用了针对化合物的三维AAM描述符的情况下,可以获得针对化合物的不变量化AAM描述符,在使用了针对口袋结构体的三维AAM描述符的情况下,可以获得针对口袋结构体的不变量化AAM描述符。
特征量计算部120(不变量化部)如以下式(2)所示那样,使用傅里叶变换计算出fa(k)(不变量化工序)。如上所述,“a”是表示氨基酸的种类的下标(1~20)。并且,“i”是虚数单位。
[数式2]
fa(k)=∫d3r(ga(r)-1)eikr···(2)
特征量计算部120能够使用该fa(k)并通过以下式(3)计算出作为不变量化AAM描述符的Fab(s)(不变量化特征量)(不变量化工序)。式(3)中,使用针对2种类不同的氨基酸(由“a”、“b”表示)的三维AAM描述符(ga(r)、gb(r)),通过相关函数的角度积分计算出不变量化AAM描述符。另外,用于计算20种类的氨基酸中的不变量化AAM描述符的2种类的氨基酸的组合并无特别限定。
[数式3]
Fab(s)=∫d3kfa(-k)fb(+k)δ(k2-s)···(3)
式(3)中,在进行不变量化时使用三角函数,但是如以下式(4)所示,能够使用任意函数(h(k2-s))进行不变量化。
[数式4]
Fab(s)=∫d3kfa(-k)fb(+k)h(k2-s)···(4)
将以这种方式计算的不变量化AAM描述符的例示于图11中。图11(a)部分为作为不变量化AAM描述符的F12(s)(针对氨基酸1、氨基酸2的不变量化AAM描述符)的实部,图11(b)部分为虚部。如此,通过使用针对2种类不同的氨基酸的三维AAM描述符进行不变量化,能够在维持氨基酸的相互作用的信息的同时进行不变量化,并能够正确进行基于特征量(不变量化特征量)的化合物的比较(药效判定)。
特征量计算部120将所计算的不变量化AAM描述符作为不变量化AAM描述符240与化合物的结构信息(结构信息210)、立体结构信息(立体结构信息220)及原始的三维AAM描述符230建立关联并存储于存储部200(参考图3、图4;存储工序)。另外,在第1实施方式中,使用针对2种类不同的氨基酸的三维AAM描述符计算出不变量化AAM描述符,因此也能够具有多个三维AAM描述符与不变量化AAM描述符的建立关联。
<不变量化AAM描述符的有效性评价>
对通过上述处理计算出的不变量化AAM描述符的有效性进行说明。
<具有相似的不变量化AAM描述符的化合物的活性的例>
图12(a)部分表示相对于蛋白质ABL1(目标蛋白质的一例)的配体的结构式。该配体的键合力为IC50(50%抑制浓度)且为1μM级别。相对于此,图12(b)部分为具有与配体几乎相同的不变量化AAM描述符的化合物的结构式。若实际测量该化合物的活性,则与配体的级别相同。即,图11为表示不变量化AAM描述符相似的化合物具有相似的药效的例。如此,根据第1实施方式,能够获得准确表示对象结构体的化学性质的特征量(不变量化AAM描述符)。另外,表示键合力的强度的指标或单位能够分为两类。一个为键能,并且可以使用kJ/mol或kcal/mol作为单位。另一个为上述IC50或Kd(键合解离常数),并且单位可以使用浓度的M(=mol/L;Moller)。
<命中的发现容易度>
通过以下步骤1~5,对基于不变量化AAM描述符的命中的发现容易度进行了评价。
(步骤1)对于某一蛋白质(目标蛋白质),将X个命中化合物和Y个不是命中的化合物进行混合。
(步骤2)针对(X+Y)个化合物整体计算出不变量化AAM描述符。
(步骤3)计算出每一个描述符的相似度。
(步骤4)根据不变量化AAM描述符的相似度对(X+Y)个化合物进行分组。
(步骤5)检查是否机械生成命中所聚集的组。
通过上述步骤对相对于蛋白质ABL1(激酶)包含183个命中的10,933个化合物(命中含有率1.6%)进行分组,其结果,被分成221组。某一组包含16个命中和14个其他化合物,命中含有率为53.3%。并且该组包含图12(a)部分所示的化合物及图12(b)部分所示的化合物,但是在使用了作为以往的描述符的指纹的情况下,这些化合物的相似度为25%,本来是命中,却被识别为另一物质。如此,可知在上述组中,在使用了本发明的第1实施方式所涉及的不变量化AAM描述符的情况下,即使在指纹方式中未能够聚在一起的命中也属于同一组。
将针对上述221组求出每一组的命中的发现容易度(=期待值;命中数量×命中含有率)的结果示于图13中。为了比较,示出随机进行分组的情况及使用指纹进行分组的情况的结果。根据该结果,可知在对于上述化合物组使用了不变量化AAM描述符的情况下,生成比随机的分组或使用了指纹的分组包含更多的命中的组。另外,在图13中,组编号根据分组方法(随机、不变量化AAM描述符、指纹)而不同,因此分组的优劣是通过“是否包含有期待值高的(包含更多的命中)组”来进行判断而不是通过比较相同组编号中的期待值来进行判断。
<命中搜索时间(其1)>
图14是表示针对上述化合物组的Importance Sampling(重点采样)的模拟结果的图表。当使用了第1实施方式所涉及的不变量化AAM描述符时,与随机进行分组的情况相比,命中搜索时间(用于发现相同的命中数量的药效评价的次数)在50%搜索的情况下被缩短为约2分之1,在25%搜索的情况下被缩短为约4分之1。另一方面,在使用了指纹的分组的情况下,命中搜索时间未缩短。另外,其中的Importance Sampling(重点采样)的模拟是指,按每一组提供表示优先级的变量,在每一次测定中,一边以将出现命中的组的优先级提高而将未出现命中的组的优先级降低的方式更新变量一边以更少的测定次数聚集更多的命中的方法。图14中示出了对优先级的控制使用了作为机器学习方法的一种的NB法(NB:NaiveBayes:朴素贝叶斯)的例,但是无需限定于此。
<命中搜索时间(其2)>
针对相对于蛋白质AA2AR的32,464个化合物(包含483个命中)与(其1)相同地将Importance Sampling(重点采样)的模拟结果示于图15中。蛋白质AA2AR为难以获得X射线晶体结构的膜蛋白,但是即使为这种膜蛋白的情况下,命中搜索时间以50%搜索时也缩短至约2分之1。
根据上述不变量化AAM描述符,描述符相似的化合物显示出相似的药效(对于目标蛋白质的键合),因此准确表示对象结构体(化合物、口袋结构体)的化学性质。根据对三维AAM描述符进行不变量化的不变量化AAM描述符,通过使用针对2种类不同的氨基酸的三维AAM描述符进行不变量化,正确进行基于描述符的化合物的比较(药效判定)的同时,容易处理特征量且能够减少数据容量。而且,根据不变量化AAM描述符,容易发现命中而能够加快搜索。
<特征量计算方法及特征量计算程序的效果>
如上所述,在第1实施方式所涉及的筛选装置10中,使用本发明所涉及的特征量计算方法及特征量计算程序能够计算出准确表示对象结构体的化学性质的特征量(三维AAM描述符、不变量化AAM描述符)。
<目标化合物的提取(筛选)>
对使用了上述三维AAM描述符及不变量化AAM描述符的从多个化合物中的目标化合物(医药候选化合物)的提取进行说明。目标化合物的提取具有根据配体的描述符(三维AAM描述符、不变量化AAM描述符)进行提取的模式(第1模式)和根据目标蛋白质的口袋结构体的描述符(三维AAM描述符、不变量化AAM描述符)进行提取的模式(第2模式)。能够按照用户经由操作部400进行的操作来选择通过哪一个模式进行提取。
<配体输入的筛选>
图16是表示使用了配体的三维AAM描述符的筛选的步骤的流程图。若开始进行处理,则特征量计算部120计算出配体的三维AAM描述符(步骤S300:特征量计算工序)。另外,配体为确认到与目标蛋白质的键合的化合物,因此步骤S300中的三维AAM描述符的计算能够通过图5的流程图所示的步骤进行。
如图4的上述内容,在筛选装置10中,针对多个化合物的每一个,将基于多个原子的化合物的立体结构与对应于该立体结构的三维AAM描述符建立关联并存储于存储部200。相似度计算部130计算出针对化合物的三维AAM描述符与在步骤S300中所计算的配体的三维AAM描述符的相似度(步骤S302:相似度计算工序)。在计算出相似度之后,化合物提取部140根据相似度提取目标化合物(步骤S304:目标化合物提取工序)。如上所述,只要三维AAM描述符相似,则显示出相似的药效(对于目标蛋白质的键合),因此通过使用三维AAM描述符的相似度,能够提取具有与配体相似的药效的化合物(即,作为医药候选的目标化合物)。另外,具体而言,基于相似度的目标化合物的提取(步骤S304)能够通过“提取相似度为阈值以上的化合物”、“以相似度高到低的顺序提取化合物”等来进行。
在图16中,对使用了三维AAM描述符的筛选的步骤进行了说明,但是也能够以相同的步骤进行使用了不变量化AAM描述符的筛选。具体而言,特征量计算部120通过图5的步骤及上述式(2)、上述式(3)计算出配体的不变量化AAM描述符(不变量化特征量),并由相似度计算部130计算出与存储于存储部200的化合物的不变量化AAM描述符的相似度。在计算出相似度之后,由化合物提取部140根据相似度提取目标化合物。基于相似度的目标化合物的提取的具体方式能够与三维AAM描述符相同地进行。
图17是表示配体输入的筛选结果的例的表。图17(a)部分表示设为使用三维AAM描述符“提取相似度为阈值以上的化合物”的情况的结果,图17(b)部分表示设为使用不变量化AAM描述符“以相似度高到低的顺序提取化合物”的情况的结果。另外,在图17(a)部分中,根据针对氨基酸1的三维AAM描述符(g1(r))提取化合物,但是也可以根据针对其他氨基酸(氨基酸2~氨基酸20)的三维AAM描述符(例如,g2(r))提取化合物。并且,也可以分别计算出针对不同的氨基酸的多个三维AAM描述符(例如,g1(r)和g2(r))的相似度(g1(r)彼此的相似度和g2(r)彼此的相似度),并根据此提取化合物。用于化合物的提取的三维AAM描述符可以为1种类,但是通过使用多个种类的三维AAM描述符,能够正确进行基于相似度的化合物的提取。另外,在使用多个种类的三维AAM描述符的情况下,在这些描述符之间的氨基酸的组合并无特别限定(例如,可以为g1(r)和g2(r),也可以为g3(r)和g4(r))。
相同地,在图17(b)部分中,根据针对氨基酸1、氨基酸2的不变量化AAM描述符(F12(s))提取化合物,但是进行不变量化AAM描述符的计算的氨基酸可以为其他组合(例如,基于氨基酸3、氨基酸4的F34(s))。并且,可以根据氨基酸的组合不同的多个不变量化AAM描述符(例如,F12(s)和F34(s))进行化合物的提取(例如,使用F12(s)彼此的相似度和F34(s)彼此的相似度)。用于化合物的提取的不变量化AAM描述符可以为1种类,但是通过使用多个种类的不变量化AAM描述符,能够正确进行基于相似度的化合物的提取。另外,在使用多个种类的不变量化AAM描述符的情况下,在这些描述符之间的氨基酸的组合并无特别限定(例如,可以为F12(s)和F34(s),也可以为F12(s)和F13(s))。关于针对哪一个氨基酸计算出描述符及相似度,可以按照用户经由操作部400进行的指示而由处理部100(特征量计算部120、相似度计算部130、化合物提取部140)进行确定,也可以不按照用户的指示而由处理部100进行确定。
另外,在图17(a)部分中,将相似度的阈值设为80%,图17(b)部分中,将提取个数设为100个,但是这些值为例示,能够按照筛选的精度等条件设定阈值及提取个数。能够按照用户经由操作部400进行的输入来进行设定。并且,与图17相反地,可以在使用了三维AAM描述符的情况下,设为“以相似度高到低的顺序提取化合物”,在使用了不变量化AAM描述符的情况下,设为“提取相似度为阈值以上的化合物”。化合物提取部140将如图17所示那样的提取结果作为化合物提取结果260存储于存储部200(参考图3)。
<目标蛋白质输入的筛选>
图18是表示针对目标蛋白质的口袋结构体的使用了三维AAM描述符的筛选的步骤的流程图。若开始进行处理,则特征量计算部120计算出针对目标蛋白质的口袋结构体的三维AAM描述符(步骤S400:特征量计算工序)。步骤S400中的三维AAM描述符的计算能够通过图9的流程图所示的步骤进行。相似度计算部130计算出针对化合物的三维AAM描述符与在步骤S400中所计算的针对口袋结构体的三维AAM描述符的相似度(步骤S402:相似度计算工序)。在计算出相似度之后,化合物提取部140根据相似度提取目标化合物(步骤S404:目标化合物提取工序)。与上述配体输入的情况相同地,基于相似度的目标化合物的提取(步骤S404)具体能够通过“提取相似度为阈值以上的化合物”、“以相似度高到低的顺序提取化合物”等来进行。
在使用不变量化AAM描述符的情况下,也能够以与图18的流程图相同的步骤提取目标化合物。
图19是表示目标蛋白质输入的筛选结果的例的表。图19(a)部分表示设为使用三维AAM描述符“提取相似度为阈值以上的化合物”的情况的结果,图19(b)部分表示设为使用不变量化AAM描述符“以相似度高到低的顺序提取化合物”的情况的结果。能够按照筛选的精度等条件设定相似度的阈值及提取个数。能够按照用户经由操作部400进行的输入来进行设定。并且,与图19相反地,可以在使用了三维AAM描述符的情况下,设为“以相似度高到低的顺序提取化合物”,在使用了不变量化AAM描述符的情况下,设为“提取相似度为阈值以上的化合物”。
目标蛋白质输入的筛选的情况也与配体输入的筛选的情况(参考图17及其说明)相同地,可以改变氨基酸的种类,也可以使用针对不同的氨基酸的多个描述符(三维AAM描述符、不变量化AAM描述符)。用于化合物的提取的描述符可以为1种类,但是通过使用多个种类的描述符,能够正确进行基于相似度的化合物的提取。另外,在使用多个种类的描述符的情况下,在这些描述符之间的氨基酸的组合并无特别限定。关于针对哪一个氨基酸计算出描述符及相似度,可以按照用户经由操作部400进行的指示而由处理部100(特征量计算部120、相似度计算部130、化合物提取部140)进行确定,也可以不按照用户的指示而由处理部100进行确定。
化合物提取部140将如图19所示那样的提取结果作为化合物提取结果260存储于存储部200(参考图3)。
<筛选装置的效果>
如上所述,在第1实施方式所涉及的筛选装置10中,使用通过本发明所涉及的特征量计算方法及特征量计算程序计算出的特征量(三维AAM描述符、不变量化AAM描述符),并通过本发明所涉及的筛选方法及筛选程序,能够有效进行医药候选化合物的筛选。
<第2实施方式>
对本发明的第2实施方式所涉及的化合物创建装置进行说明。图20是表示化合物创建装置20(特征量计算装置、化合物创建装置)的结构的框图。另外,针对与第1实施方式相同的要件标注相同的参考符号,并省略详细的说明。
化合物创建装置20包含处理部101。处理部101构成为如图21那样,且包含信息输入部110、特征量计算部120(特征量计算部)、生成器构建部132(生成器构建部)、化合物立体结构生成部142(化合物立体结构生成部)、显示控制部150。信息输入部110、特征量计算部120、显示控制部150的功能分别与上述筛选装置10中的信息输入部110、特征量计算部120、显示控制部150相同。与筛选装置10的上述内容相同地,能够使用各种处理器(processor)来实现这些各部的功能。
图22是表示存储于存储部201的信息的图。在存储部201中,存储有筛选装置10中的立体结构生成结果270来代替化合物提取结果260。与图4的上述内容相同地,存储于存储部201的信息相互建立关联地存储。
<目标化合物的立体结构生成>
对使用了上述三维AAM描述符及不变量化AAM描述符的目标化合物(医药候选化合物)的立体结构生成进行说明。在基于化合物创建装置20的目标化合物的立体结构生成中,由于不进行检索,因此即使在成为“基于筛选的检索的结果为无解”的情况下也能够生成化合物的立体结构,从而能够有效创建医药候选化合物的立体结构。立体结构的生成具有根据配体的描述符(三维AAM描述符、不变量化AAM描述符)进行的模式和根据目标蛋白质的口袋结构体的描述符(三维AAM描述符、不变量化AAM描述符)进行的模式。能够按照用户经由操作部400进行的操作来选择通过哪一个模式进行立体结构的生成。
<输入配体时的立体结构生成>
图23是表示在输入配体的情况下的立体结构生成步骤的流程图。若开始进行处理,则特征量计算部120计算出配体的描述符(三维AAM描述符)(步骤S500:对象结构体指定工序、立体结构生成工序、特征量计算工序)。与第1实施方式相同地,步骤S500的处理能够使用本发明所涉及的特征量计算方法及特征量计算程序来进行(参考图5~图8及针对这些图的说明)。
在步骤S502中,生成器构建部132通过机器学习构建生成器(生成器构建工序)。以下,参考图24并对步骤S502的处理进行说明。(步骤1)特征量计算部120针对多个化合物计算出三维AAM描述符,并制作结构式(被立体化的结构式)和三维AAM描述符的配对(三维数据彼此)。(步骤2)生成器构建部132通过将化合物的立体结构设为教师数据且将三维AAM描述符设为解释变量的机器学习(深层学习)构建生成器。深层学习的方法并不限定于特定的方法,例如,可以为简单的全部结合的类神经网络,也可以为卷积类神经网络(CNN:Convolutional Neural Network)。然而,立体结构的生成精度取决于所使用的学习方法,因此优选按照立体结构的生成条件、要求精度等条件来选择学习方法。作为生成器构建方法,可以使用后述附录14、附录15中所记载的方法。
若上述步骤1、步骤2的处理结束,则返回到图23的流程图。化合物立体结构生成部142使用所构建的生成器从配体的三维AAM描述符生成目标化合物(命中)的立体结构(被立体化的结构式)(步骤S504:化合物立体结构生成工序)。由此,能够获得具有与配体相似的药效(与目标蛋白质的键合)的化合物即医药候选化合物的立体结构。另外,提供相同的三维AAM描述符的立体结构能够存在多个。化合物立体结构生成部142将所生成的立体结构作为立体结构生成结果270与三维AAM描述符(三维AAM描述符230)建立关联并存储于存储部201(参考图22)。按照用户经由操作部400进行的指示,显示控制部150可以将所生成的立体结构显示于监视器310。
另外,在上述步骤中,计算出用于机器学习的三维AAM描述符的氨基酸可以为1种类,也可以为多个种类。然而,通过计算出针对多个种类的氨基酸的三维AAM描述符并将其用于学习,能够提高所生成的立体结构的精度。另外,在使用氨基酸的种类不同的多个三维AAM描述符的情况下,在这些描述符之间的氨基酸的组合并无特别限定。关于针对哪一个氨基酸计算出三维AAM描述符并将其用于学习,可以按照用户经由操作部400进行的指示而由处理部100(特征量计算部120、相似度计算部130、化合物提取部140)进行确定,也可以不按照用户的指示而由处理部100进行确定。
<立体结构的生成例>
对使用通过机器学习所构建的生成器生成的立体结构的例进行说明。在该例中,使用简单的全部结合的类神经网络并通过上述方法对库化合物中的1,800个进行学习,且调查了剩余200个化合物的立体结构能够再现到哪一程度。其结果示于图25中。若增加类神经网络的中间层的数量,则平均cos相似度成为59%。图26是表示针对显示出这种相似度的例的从三维AAM描述符生成的立体结构(结构式)和正解结构式(分别为图26(a)部分、26(b)部分)的图。
<教师数据的特征与所生成的立体结构的关系>
通过上述步骤所生成的立体结构受到作为教师数据所提供的化合物的特征的影响。因此,通过选择作为教师数据所提供的化合物的特征,能够生成具有不同特征的立体结构的化合物。例如,通过提供具有容易合成的立体结构的化合物的三维AAM描述符作为教师数据,能够生成具有与配体相似的药效且具有容易合成的立体结构的化合物。关于提供针对哪一种化合物的三维AAM描述符作为教师数据,能够根据欲生成的化合物的特征来进行选择。
<使用了不变量化AAM描述符的立体结构的生成>
在图23~图26中,对使用了三维AAM描述符的立体结构的生成进行了说明。相对于此,在使用了不变量化AAM描述符(不变量化特征量)的情况下,也与使用三维AAM描述符的情况相同地,能够通过将不变量化AAM描述符设为教师数据且将立体结构(被立体化的结构式)设为解释变量的机器学习(深层学习)生成目标化合物的立体结构。
<输入目标蛋白质的立体结构生成>
在化合物创建装置20中,除了基于上述配体输入的立体结构生成以外,能够通过输入目标蛋白质来生成目标化合物的立体结构。此时,也与配体输入的情况相同地,能够进行使用了三维AAM描述符的立体结构生成和使用了不变量化AAM描述符的立体结构生成。
图27是表示在输入目标蛋白质的情况下(设为使用三维AAM描述符)的立体结构生成步骤的流程图。若开始进行处理,则特征量计算部120计算出目标蛋白质的口袋结构体的三维AAM描述符(步骤S600:对象结构体指定工序、立体结构生成工序、特征量计算工序)。与第1实施方式相同地,步骤S600的处理能够使用本发明所涉及的特征量计算方法来进行(参考图9、图10及针对这些图的说明)。
在步骤S602中,与配体输入的情况相同地,生成器构建部132通过机器学习(深层学习)构建生成器(生成器构建工序)。能够以与上述步骤1、步骤2相同的方式进行生成器的构建。化合物立体结构生成部142使用所构建的生成器从口袋结构体的三维AAM描述符生成目标化合物(命中)的立体结构(被立体化的结构式)(步骤S604:化合物立体结构生成工序)。由此,能够获得具有与口袋结构体相似的药效(与目标蛋白质的键合)的化合物即医药候选化合物的立体结构。另外,提供相同的三维AAM描述符的立体结构能够存在多个。化合物立体结构生成部142将所生成的立体结构作为立体结构生成结果270与三维AAM描述符(三维AAM描述符230)建立关联并存储于存储部201(参考图22)。按照用户经由操作部400进行的指示,显示控制部150可以将所生成的立体结构显示于监视器310。
<化合物创建装置的效果>
如上所述,在第2实施方式所涉及的化合物创建装置20中,使用通过本发明所涉及的特征量计算方法及特征量计算程序计算出的特征量(三维AAM描述符、不变量化AAM描述符),并通过本发明所涉及的化合物创建方法及化合物创建程序,能够有效创建医药候选化合物的立体结构。
<第3实施方式>
上述第1实施方式为进行特征量的计算及基于此的筛选的方式,第2实施方式为进行特征量的计算及基于此的目标化合物的立体结构创建的方式,但是除了特征量的计算以外,也可以进行筛选和目标化合物的立体结构创建这两个。因此,在第3实施方式所涉及的医药候选化合物搜索装置30(特征量计算装置、筛选装置、化合物创建装置;参考图28)中,具有图28所示的处理部102来代替图1所示的筛选装置10的处理部100或图20所示的化合物创建装置20的处理部101。如图29所示,处理部102具有特征量计算部120(特征量计算部、不变量化部)、相似度计算部130(相似度计算部)、生成器构建部132(生成器构建部)、化合物提取部140(化合物提取部)、化合物立体结构生成部142(化合物立体结构生成部),能够进行特征量的计算、筛选及化合物的立体结构创建。并且,医药候选化合物搜索装置30将与此相对应的信息存储于存储部202。具体而言,如图30所示,与存储于存储部200及存储部201的信息(参考图3、图22)相对应地存储于存储部202。
其他要件与图1所示的筛选装置10、图20所示的化合物创建装置20相同,因此标注相同的参考符号并省略详细的说明。
通过上述结构,在第3实施方式所涉及的医药候选化合物搜索装置30中,也与筛选装置10、化合物创建装置20相同地,能够计算出准确表示对象结构体的化学性质的特征量,且有效进行医药候选化合物的筛选,并有效创建医药候选化合物的立体结构。
以上,对本发明的实施方式进行了说明,但是本发明并不限定于上述方式,如以下所例示,在不脱离本发明的主旨的范围内能够进行各种变形。
<可处理的医药的目标>
在本发明中,作为医药的目标,除了蛋白质以外能够使用DNA(Deoxyrib onucleicAcid)、RNA(Ribonucleic Acid)、细胞膜、多糖。然而,在第1~第3实施方式中,需要将氨基酸变更为另一物质。具体而言,在DNA的情况下,将氨基酸变更为核酸碱基,在RNA的情况下,将氨基酸变更为核酸碱基,在细胞膜的情况下,将氨基酸变更为脂质分子,在多糖的情况下,将氨基酸变更为单糖分子。以下,对本发明中通过该变更也可处理DNA、RNA、细胞膜、多糖的原因进行说明。蛋白质、DNA、RNA、细胞膜、多糖统称为生物高分子,且由固有的结构单元组成。具体而言,蛋白质的结构单元为氨基酸,DNA的结构单元为核酸碱基,RNA的结构单元相同地为核酸碱基,细胞膜的结构单元为脂质分子,多糖的结构单元为单糖分子。与蛋白质相同地,作为除了蛋白质以外的生物高分子的DNA、RNA、细胞膜、多糖中也具有作为活性部位的口袋,因此在医药的目标(目标生物高分子)为DNA、RNA、细胞膜、多糖的情况下,本发明也能够通过将在蛋白质的情况下所示的第1~第3实施方式中的氨基酸变更为目标的结构单元来进行应对。另外,对在化合物或口袋结构体的周围的氨基酸、核酸碱基、脂质分子、单糖分子的聚集程度进行定量化时,也能够考虑水。
<可处理的活性>
在本发明中,除了“基于化合物的对目标生物分子的单独的活性”等通常的活性以外,还能够针对“基于化合物的除了目标生物分子以外对由其他生物分子组成的复合体的细胞的活性”进行使用。
<(变形例1)针对除了氨基酸以外的生物高分子的特征量及其利用>
<目标及探针>
在作为医药的目标(目标生物高分子)使用作为除了蛋白质以外的生物高分子(化合物)的DNA、RNA、细胞膜、多糖的情况下,在特征量的计算中,将探针设成不是氨基酸的另一物质(各目标的结构单元)。具体而言,在目标为“DNA、RNA、细胞膜及多糖”的情况下,将探针分别设为“1种类以上的核酸碱基、1种类以上的核酸碱基、1种类以上的脂质分子及1种类以上的单糖分子”。并且,在将这些作为探针而对聚集程度进行定量化时,可以考虑水、1种类以上的离子。并且,在目标由“DNA、RNA、细胞膜、多糖”中的多个种类的生物高分子构成的情况下,探针也能够按照目标的结构设为“1种类以上的核酸碱基、1种类以上的核酸碱基、1种类以上的脂质分子、1种类以上的单糖分子、水及1种类以上的离子”中的1个以上(可以为与目标的结构相对应的种类、数量及它们的组合)。构成探针的离子可以为单原子离子,也可以为多原子离子。另外,以所有的探针均产生范德华力为前提。
<特征量的计算及筛选>
进行特征量(变形例1所涉及的特征量)的计算及筛选的装置(特征量计算装置、筛选装置)的结构与第1实施方式相同(参考图1~图3)。然而,计算及存储变形例1所涉及的描述符来代替图3中的三维AAM描述符230,且计算及存储变形例1所涉及的不变量化特征量来代替不变量化AAM描述符240。特征量的计算及筛选步骤与第1实施方式相同,能够使用本发明的特征量计算方法、特征量计算程序、筛选方法及筛选程序。具体而言,将作为第1实施方式所涉及的特征量的计算(参考图5)中的探针的“氨基酸”设为“1种类以上的核酸碱基、1种类以上的脂质分子、1种类以上的单糖分子、水及1种类以上的离子中的1个以上(可以为任意种类、数量及组合)”并计算出分布函数(参考式(1)),根据该分布函数计算出变形例1所涉及的特征量并对变形例1所涉及的特征量进行傅里叶变换来计算出变形例1所涉及的不变量化特征量(参考式(2))。并且,可以使用针对2种类不同的探针(由1种类以上的核酸碱基、1种类以上的脂质分子、1种类以上的单糖分子、水及1种类以上的离子中的1个以上构成的第1探针和由1种类以上的核酸碱基、1种类以上的脂质分子、1种类以上的单糖分子、水及1种类以上的离子中的1个以上构成且与第1探针不同的第2探针)的变形例1所涉及的特征量,并通过相关函数的角度积分计算出变形例1所涉及的不变量化特征量(参考式(3)、式(4))。
并且,能够使用变形例1所涉及的特征量来代替第1实施方式中的三维AAM描述符,并根据针对多个化合物的变形例1所涉及的特征量和针对键合化合物的变形例1所涉及的特征量的相似度提取目标化合物。可以提取相似度为阈值以上的化合物,也可以以相似度高到低的顺序提取化合物。
<特征量的计算及化合物的创建>
进行特征量(变形例1所涉及的特征量)的计算及化合物的创建的装置(特征量计算装置、化合物创建装置)的结构与第2实施方式相同(参考图20~图22)。然而,计算及存储变形例1所涉及的描述符(变形例1所涉及的特征量)来代替图22中的三维AAM描述符230,且计算及存储变形例1所涉及的不变量化特征量来代替不变量化AAM描述符240。特征量的计算及化合物的创建步骤与第2实施方式相同,能够使用本发明的特征量计算方法、特征量计算程序、化合物创建方法及化合物创建程序。在变形例1中,通过将化合物的立体结构设为教师数据且将变形例1所涉及的特征量设为解释变量的机器学习(深层学习)构建生成器,并能够使用所构建的生成器,从针对键合化合物的变形例1所涉及的特征量生成目标生物高分子的立体结构,其中,所述键合化合物为确认到与目标生物高分子的键合的化合物。另外,与第1至第3实施方式相同地,通过选择作为教师数据所提供的化合物的特征,能够生成具有不同特征的立体结构的化合物。
与第1至第3实施方式的上述内容相同地,从局部来看,化合物的药效(对于DNA等目标的键合力)被表示为化合物与核酸碱基等(探针)之间的相互作用的结果,因此只要在化合物之间核酸碱基等的聚集程度为相似,则这些化合物与目标的键合力相似。即,变形例1所涉及的特征量相似的化合物显示出相似的药效。因此,在变形例1中,能够通过变形例1所涉及的特征量来准确表示化合物的化学性质。并且,若与目标生物高分子键合的键合化合物和对象化合物之间变形例1所涉及的特征量相似,则两者的药效相似。因此,根据变形例1,根据变形例1所涉及的特征量提取与键合化合物的药效相似的目标化合物而能够有效进行医药候选化合物的筛选。并且,根据变形例1,与上述实施方式相同地,生成具有与键合化合物的特征量(变形例1所涉及的特征量)相似(因此,药效相似)的特征量的化合物的结构式而不进行检索,因此能够有效创建医药候选化合物的立体结构。
另外,在进行特征量计算、筛选及化合物创建的情况(对应于第3实施方式)下,能够通过与图28~图30相同的结构来进行。
<(变形例2)针对除了氨基酸及氨基酸以外的特征量及其利用>
<目标及探针>
在变形例2中,将“蛋白质与除了蛋白质以外的生物高分子(DNA、RNA、细胞膜、多糖)的复合体”设为目标。并且,将“1种类以上的氨基酸”(第1探针)和“1种类以上的核酸碱基、1种类以上的核酸碱基、1种类以上的脂质分子、1种类以上的单糖分子、水及1种类以上的离子中的1个以上”(第2探针;可以为任意种类、数量、组合)设为探针。能够按照目标的结构设定第1、第2探针的结构(种类、数量及它们的组合)。构成探针的离子可以为单原子离子,也可以为多原子离子。另外,以所有的探针均产生范德华力为前提。
<特征量的计算及筛选>
进行特征量(变形例2所涉及的特征量)的计算及筛选的装置(特征量计算装置、筛选装置)的结构与第1实施方式相同(参考图1~图3)。然而,计算及存储变形例2所涉及的描述符(变形例2所涉及的特征量)来代替图3中的三维AAM描述符230,且计算及存储变形例2所涉及的不变量化特征量来代替不变量化AAM描述符240。特征量的计算及筛选步骤与第1实施方式相同,能够使用本发明的特征量计算方法、特征量计算程序、筛选方法及筛选程序。具体而言,将作为变形例2所涉及的特征量的计算(参考图5)中的探针的“氨基酸”设为“1种类以上的氨基酸”(第1探针)和“1种类以上的核酸碱基、1种类以上的脂质分子、水、1种类以上的单糖分子及1种类以上的离子中的1个以上”(第2探针;可以为任意种类、数量、组合)并计算出分布函数(参考式(1)),根据该分布函数计算出变形例2所涉及的特征量并对变形例2所涉及的特征量进行傅里叶变换来计算出变形例2所涉及的不变量化特征量(参考式(2))。并且,可以使用针对“1种类以上的氨基酸”(第1探针)和“1种类以上的核酸碱基、1种类以上的脂质分子、1种类以上的单糖分子、水及1种类以上的离子中的1个以上”(第2探针;可以为任意种类、数量、组合)中的至少一个不同的2种类的探针的变形例2所涉及的特征量,并通过相关函数的角度积分计算出变形例2所涉及的不变量化特征量(参考式(3)、式(4))。
并且,能够使用变形例2所涉及的特征量来代替第1实施方式中的三维AAM描述符,并根据针对多个化合物的变形例2所涉及的特征量和针对键合化合物的变形例2所涉及的特征量的相似度提取目标化合物。可以提取相似度为阈值以上的化合物,也可以以相似度高到低的顺序提取化合物。
<特征量的计算及化合物的创建>
进行特征量(变形例2所涉及的特征量)的计算及化合物的创建的装置(特征量计算装置、化合物创建装置)的结构与第2实施方式相同(参考图20~图22)。然而,计算及存储变形例2所涉及的描述符(变形例2所涉及的特征量)来代替图22中的三维AAM描述符230,且计算及存储变形例2所涉及的不变量化特征量来代替不变量化AAM描述符240。特征量的计算及化合物的创建步骤与第2实施方式相同,能够使用本发明的特征量计算方法、特征量计算程序、化合物创建方法及化合物创建程序。在变形例2中,通过将化合物的立体结构设为教师数据且将变形例2所涉及的特征量设为解释变量的机器学习(深层学习)构建生成器,并能够使用所构建的生成器,从针对键合化合物的变形例2所涉及的特征量生成目标生物高分子的立体结构,其中,所述键合化合物为确认到与目标生物高分子的键合的化合物。另外,与第1至第3实施方式及变形例1相同地,通过选择作为教师数据所提供的化合物的特征,能够生成具有不同特征的立体结构的化合物。
与第1至第3实施方式及变形例1的上述内容相同地,从局部来看,化合物的药效(对于目标的键合力)被表示为化合物与探针之间的相互作用的结果,因此只要在化合物之间探针的聚集程度为相似,则这些化合物与目标的键合力相似。即,变形例2所涉及的特征量相似的化合物显示出相似的药效。因此,在变形例2中,能够通过变形例2所涉及的特征量来准确表示化合物的化学性质。并且,若与目标生物高分子键合的键合化合物和对象化合物之间变形例2所涉及的特征量相似,则两者的药效相似。因此,根据变形例2,根据变形例2所涉及的特征量提取与键合化合物的药效相似的目标化合物而能够有效进行医药候选化合物的筛选。并且,根据变形例2,与上述实施方式及变形例1相同地,生成具有与键合化合物的特征量(变形例2所涉及的特征量)相似(因此,药效相似)的特征量的化合物的结构式而不进行检索,因此能够有效创建医药候选化合物的立体结构。
另外,在进行特征量计算、筛选及化合物创建的情况(对应于第3实施方式)下,能够通过与图28~图30相同的结构来进行。
<(变形例3)针对虚拟的点电荷等的特征量及其利用>
<目标及探针>
在变形例3中,将生物高分子(化合物)设为目标,并将“电荷为+1的第1点电荷、电荷为-1的第2点电荷、电荷为+0.1的第3点电荷、电荷为-0.1的第4点电荷及零电荷的第5点电荷中的1个以上(可以为任意种类、数量及它们的组合)”(具有实数电荷且产生范德华力的虚拟的点电荷)设为探针。这些点电荷为“单个点”的一例。
<特征量的计算及筛选>
进行特征量(变形例3所涉及的特征量;第2特征量、第2不变量化特征量)的计算及筛选的装置(特征量计算装置、筛选装置)的结构与第1实施方式相同(参考图1~图3)。然而,计算及存储第2描述符(第2特征量)来代替图3中的三维AAM描述符230,且计算及存储第2不变量化特征量来代替不变量化AAM描述符240。特征量的计算及筛选步骤与第1实施方式相同,能够使用本发明的特征量计算方法、特征量计算程序、筛选方法及筛选程序。具体而言,将作为第1实施方式所涉及的特征量的计算(参考图5)中的探针的“氨基酸”设为“电荷为+1的第1点电荷、电荷为-1的第2点电荷、电荷为+0.1的第3点电荷、电荷为-0.1的第4点电荷及零电荷的第5点电荷中的1个以上(可以为任意种类、数量及它们的组合)”并计算出分布函数(参考式(1)),根据该分布函数计算出第2特征量并对第2特征量进行傅里叶变换来计算出第2不变量化特征量(参考式(2))。并且,可以使用针对2种类不同的探针(由第1点电荷、第2点电荷、第3点电荷、第4点电荷及第5点电荷中的1个以上构成的第1探针和由第1点电荷、第2点电荷、第3点电荷、第4点电荷及第5点电荷中的1个以上构成且与第1探针不同的第2探针)的第2特征量,并通过相关函数的角度积分计算出第2不变量化特征量(参考式(3)、式(4))。
并且,能够使用第2特征量来代替第1实施方式中的三维AAM描述符,并根据针对多个化合物的第2特征量和针对键合化合物的第2特征量的相似度提取目标化合物。可以提取相似度为阈值以上的化合物,也可以以相似度高到低的顺序提取化合物。
<特征量的计算及化合物的创建>
进行特征量(第2特征量)的计算及化合物的创建的装置(特征量计算装置、化合物创建装置)的结构与第2实施方式相同(参考图20~图22)。然而,计算及存储第2描述符(第2特征量)来代替图22中的三维AAM描述符230,且计算及存储第2不变量化特征量来代替不变量化AAM描述符240。特征量的计算及化合物的创建步骤与第2实施方式相同,能够使用本发明的特征量计算方法、特征量计算程序、化合物创建方法及化合物创建程序。在变形例3中,通过将化合物的立体结构设为教师数据且将第2特征量设为解释变量的机器学习(深层学习)构建生成器,并能够使用所构建的生成器,从针对键合化合物的第2特征量生成目标生物高分子的立体结构,其中,所述键合化合物为确认到与目标生物高分子的键合的化合物。另外,与第1至第3实施方式及变形例1、变形例2相同地,通过选择作为教师数据所提供的化合物的特征,能够生成具有不同特征的立体结构的化合物。
与第1至第3实施方式及变形例1、变形例2的上述内容相同地,从局部来看,化合物的药效(对于目标的键合力)被表示为化合物与探针之间的相互作用的结果,因此只要在化合物之间探针的聚集程度为相似,则这些化合物与目标的键合力相似。即,第2特征量相似的化合物显示出相似的药效。因此,在变形例3中,能够通过第2特征量来准确表示化合物的化学性质。并且,若与目标生物高分子键合的键合化合物和对象化合物之间第2特征量相似,则两者的药效相似。因此,根据变形例3,根据第2特征量提取与键合化合物的药效相似的目标化合物而能够有效进行医药候选化合物的筛选。并且,根据变形例3,与第1至第3实施方式及变形例1、变形例2相同地,生成具有与键合化合物的特征量(第2特征量)相似(因此,药效相似)的特征量的化合物的结构式而不进行检索,因此能够有效创建医药候选化合物的立体结构。
另外,在进行特征量计算、筛选及化合物创建的情况(对应于第3实施方式)下,能够通过与图28~图30相同的结构来进行。
<(变形例4)针对氨基酸及虚拟的点电荷等的特征量及其利用>
<目标及探针>
在变形例4中,将生物高分子(化合物)设为目标,并将“1种类以上的氨基酸即第1探针和电荷为+1的第1点电荷、电荷为-1的第2点电荷、电荷为+0.1的第3点电荷、电荷为-0.1的第4点电荷、分开配置第1点电荷和第2点电荷的偶极子及零电荷的第5点电荷中的1个以上(可以为任意种类、数量及组合)即第2探针”设为探针。第2探针可以为除了偶极子以外的点电荷(第1~第5点电荷中的1个以上)。第1至第5点电荷为“单个点”的一例。
<特征量的计算及筛选>
进行特征量(变形例4所涉及的特征量)的计算及筛选的装置(特征量计算装置、筛选装置)的结构与第1实施方式相同(参考图1~图3)。然而,计算及存储变形例4所涉及的描述符(变形例4所涉及的特征量)来代替图3中的三维AAM描述符230,且计算及存储变形例4所涉及的不变量化特征量来代替不变量化AAM描述符240。特征量的计算及筛选步骤与第1实施方式相同,能够使用本发明的特征量计算方法、特征量计算程序、筛选方法及筛选程序。具体而言,将作为第1实施方式所涉及的特征量的计算(参考图5)中的探针的“氨基酸”设为“1种类以上的氨基酸即第1探针和电荷为+1的第1点电荷、电荷为-1的第2点电荷、电荷为+0.1的第3点电荷、电荷为-0.1的第4点电荷、分开配置第1点电荷和第2点电荷的偶极子及零电荷的第5点电荷中的1个以上(可以为任意种类、数量及组合)即第2探针”并计算出分布函数(参考式(1)),根据该分布函数计算出变形例4所涉及的特征量并对变形例4所涉及的特征量进行傅里叶变换来计算出变形例4所涉及的不变量化特征量(参考式(2))。第2探针可以为除了偶极子以外的点电荷(第1~第5点电荷中的1个以上)。并且,可以使用针对第1探针和第2探针中的至少一个不同的2种类的探针的变形例4所涉及的特征量,并通过相关函数的角度积分计算出变形例4所涉及的不变量化特征量(参考式(3)、式(4))。
并且,能够使用变形例4所涉及的特征量来代替第1实施方式中的三维AAM描述符,并根据针对多个化合物的变形例4所涉及的特征量和针对键合化合物的变形例4所涉及的特征量的相似度提取目标化合物。可以提取相似度为阈值以上的化合物,也可以以相似度高到低的顺序提取化合物。
<特征量的计算及化合物的创建>
进行特征量(变形例4所涉及的特征量)的计算及化合物的创建的装置(特征量计算装置、化合物创建装置)的结构与第2实施方式相同(参考图20~图22)。然而,计算及存储变形例4所涉及的描述符(变形例4所涉及的特征量)来代替图22中的三维AAM描述符230,且计算及存储变形例4所涉及的不变量化特征量来代替不变量化AAM描述符240。特征量的计算及化合物的创建步骤与第2实施方式相同,能够使用本发明的特征量计算方法、特征量计算程序、化合物创建方法及化合物创建程序。在变形例4中,通过将化合物的立体结构设为教师数据且将变形例4所涉及的特征量设为解释变量的机器学习(深层学习)构建生成器,并能够使用所构建的生成器,从针对键合化合物的变形例4所涉及的特征量生成目标生物高分子的立体结构,其中,所述键合化合物为确认到与目标生物高分子的键合的化合物。另外,与第1至第3实施方式相同地,通过选择作为教师数据所提供的化合物的特征,能够生成具有不同特征的立体结构的化合物。
与第1至第3实施方式的上述内容相同地,从局部来看,化合物的药效(对于目标的键合力)被表示为化合物与探针之间的相互作用的结果,因此只要在化合物之间探针的聚集程度为相似,则这些化合物与目标的键合力相似。即,变形例4所涉及的特征量相似的化合物显示出相似的药效。因此,在变形例4中,能够通过变形例4所涉及的特征量来准确表示化合物的化学性质。并且,若与目标生物高分子键合的键合化合物和对象化合物之间变形例4所涉及的特征量相似,则两者的药效相似。因此,根据变形例4,根据变形例4所涉及的特征量提取与键合化合物的药效相似的目标化合物而能够有效进行医药候选化合物的筛选。并且,根据变形例4,与上述实施方式相同地,生成具有与键合化合物的特征量(变形例4所涉及的特征量)相似(因此,药效相似)的特征量的化合物的结构式而不进行检索,因此能够有效创建医药候选化合物的立体结构。
另外,在进行特征量计算、筛选及化合物创建的情况(对应于第3实施方式)下,能够通过与图28~图30相同的结构来进行。
<(变形例5)针对核酸碱基等及虚拟的点电荷等的特征量及其利用>
<目标及探针>
在变形例5中,将生物高分子(化合物)设为目标,并将“1种类以上的核酸碱基、1种类以上的脂质分子、水、1种类以上的单糖分子及1种类以上的离子中的1个以上(可以为任意种类、数量及组合)”即第1探针和“电荷为+1的第1点电荷、电荷为-1的第2点电荷、电荷为+0.1的第3点电荷、电荷为-0.1的第4点电荷、分开配置第1点电荷和第2点电荷的偶极子及零电荷的第5点电荷中的1个以上(可以为任意种类、数量及组合)”即第2探针设为探针。可以将第1探针设为1种类以上的单原子离子且将第2探针设为点电荷(第1~第5点电荷中的1个以上)。“单原子离子”及“点电荷”为“单个点”的一例。
<特征量的计算及筛选>
进行特征量(变形例5所涉及的特征量;第3特征量、第3不变量化特征量)的计算及筛选的装置(特征量计算装置、筛选装置)的结构与第1实施方式相同(参考图1~图3)。然而,计算及存储第3描述符(第3特征量)来代替图3中的三维AAM描述符230,且计算及存储第3不变量化特征量来代替不变量化AAM描述符240。特征量的计算及筛选步骤与第1实施方式相同,能够使用本发明的特征量计算方法、特征量计算程序、筛选方法及筛选程序。具体而言,将作为第1实施方式所涉及的特征量的计算(参考图5)中的探针的“氨基酸”设为“1种类以上的核酸碱基、1种类以上的脂质分子、水、1种类以上的单糖分子及1种类以上的离子中的1个以上(可以为任意种类、数量及组合)”即第1探针和“电荷为+1的第1点电荷、电荷为-1的第2点电荷、电荷为+0.1的第3点电荷、电荷为-0.1的第4点电荷、分开配置第1点电荷和第2点电荷的偶极子及零电荷的第5点电荷中的1个以上(可以为任意种类、数量及组合)”即第2探针并计算出分布函数(参考式(1)),根据该分布函数计算出第3特征量并对第3特征量进行傅里叶变换来计算出第3不变量化特征量(参考式(2))。并且,可以使用针对第1探针和第2探针中的至少一个不同的2种类的探针的第3特征量,并通过相关函数的角度积分计算出第3不变量化特征量(参考式(3)、式(4))。如上所述,可以将第1探针设为1种类以上的单原子离子且将第2探针设为点电荷(第1~第5点电荷中的1个以上)。“单原子离子”及“点电荷”为“单个点”的一例。
并且,能够使用第3特征量来代替第1实施方式中的三维AAM描述符,并根据针对多个化合物的第3特征量和针对键合化合物的第3特征量的相似度提取目标化合物。可以提取相似度为阈值以上的化合物,也可以以相似度高到低的顺序提取化合物。
<特征量的计算及化合物的创建>
进行特征量(第3特征量)的计算及化合物的创建的装置(特征量计算装置、化合物创建装置)的结构与第2实施方式相同(参考图20~图22)。然而,计算及存储第3描述符(第3特征量)来代替图22中的三维AAM描述符230,且计算及存储第3不变量化特征量来代替不变量化AAM描述符240。特征量的计算及化合物的创建步骤与第2实施方式相同,能够使用本发明的特征量计算方法、特征量计算程序、化合物创建方法及化合物创建程序。在变形例5中,通过将化合物的立体结构设为教师数据且将第3特征量设为解释变量的机器学习(深层学习)构建生成器,并能够使用所构建的生成器,从针对键合化合物的第3特征量生成目标生物高分子的立体结构,其中,所述键合化合物为确认到与目标生物高分子的键合的化合物。另外,与第1至第3实施方式相同地,通过选择作为教师数据所提供的化合物的特征,能够生成具有不同特征的立体结构的化合物。
与第1至第3实施方式的上述内容相同地,从局部来看,化合物的药效(对于目标的键合力)被表示为化合物与探针之间的相互作用的结果,因此只要在化合物之间探针的聚集程度为相似,则这些化合物与目标的键合力相似。即,第3特征量相似的化合物显示出相似的药效。因此,在变形例5中,能够通过第3特征量来准确表示化合物的化学性质。并且,若与目标生物高分子键合的键合化合物和对象化合物之间第3特征量相似,则两者的药效相似。因此,根据变形例5,根据第3特征量提取与键合化合物的药效相似的目标化合物而能够有效进行医药候选化合物的筛选。并且,根据变形例5,与上述实施方式相同地,生成具有与键合化合物的特征量(第3特征量)相似(因此,药效相似)的特征量的化合物的结构式而不进行检索,因此能够有效创建医药候选化合物的立体结构。
另外,在进行特征量计算、筛选及化合物创建的情况(对应于第3实施方式)下,能够通过与图28~图30相同的结构来进行。
<(变形例6)针对氨基酸、核酸碱基等及虚拟的点电荷等的特征量及其利用>
<目标及探针>
在变形例6中,将生物高分子(化合物)设为目标,并将“1种类以上的氨基酸”即第1探针和“1种类以上的核酸碱基、1种类以上的脂质分子、水、1种类以上的单糖分子及1种类以上的离子中的1个以上(可以为任意种类、数量及组合)”即第2探针和“电荷为+1的第1点电荷、电荷为-1的第2点电荷、电荷为+0.1的第3点电荷、电荷为-0.1的第4点电荷、分开配置第1点电荷和第2点电荷的偶极子及零电荷的第5点电荷中的1个以上(可以为任意种类、数量及组合)”即第3探针设为探针。可以将第2探针设为1种类以上的单原子离子且将第3探针设为第1~第5点电荷中的1个以上。“单原子离子”及“点电荷”为“单个点”的一例。
<特征量的计算及筛选>
进行特征量(变形例6所涉及的特征量)的计算及筛选的装置(特征量计算装置、筛选装置)的结构与第1实施方式相同(参考图1~图3)。然而,计算及存储变形例6所涉及的描述符(变形例6所涉及的特征量)来代替图3中的三维AAM描述符230,且计算及存储变形例6所涉及的不变量化特征量来代替不变量化AAM描述符240。特征量的计算及筛选步骤与第1实施方式相同,能够使用本发明的特征量计算方法、特征量计算程序、筛选方法及筛选程序。具体而言,将作为第1实施方式所涉及的特征量的计算(参考图5)中的探针的“氨基酸”设为“1种类以上的氨基酸”即第1探针和“1种类以上的核酸碱基、1种类以上的脂质分子、水、1种类以上的单糖分子及1种类以上的离子中的1个以上(可以为任意种类、数量及组合)”即第2探针和“电荷为+1的第1点电荷、电荷为-1的第2点电荷、电荷为+0.1的第3点电荷、电荷为-0.1的第4点电荷、分开配置第1点电荷和第2点电荷的偶极子及零电荷的第5点电荷中的1个以上(可以为任意种类、数量及组合)”即第3探针并计算出分布函数(参考式(1)),根据该分布函数计算出变形例6所涉及的特征量并对变形例6所涉及的特征量进行傅里叶变换来计算出变形例6所涉及的不变量化特征量(参考式(2))。并且,可以使用针对第1探针、第2探针及第3探针中的至少一个不同的2种类的探针的变形例6所涉及的特征量,并通过相关函数的角度积分计算出变形例6所涉及的不变量化特征量(参考式(3)、式(4))。如上所述,可以将第2探针设为1种类以上的单原子离子且将第3探针设为第1~第5点电荷中的1个以上。
并且,能够使用变形例6所涉及的特征量来代替第1实施方式中的三维AAM描述符,并根据针对多个化合物的变形例6所涉及的特征量和针对键合化合物的变形例6所涉及的特征量的相似度提取目标化合物。可以提取相似度为阈值以上的化合物,也可以以相似度高到低的顺序提取化合物。
<特征量的计算及化合物的创建>
进行特征量(变形例6所涉及的特征量)的计算及化合物的创建的装置(特征量计算装置、化合物创建装置)的结构与第2实施方式相同(参考图20~图22)。然而,计算及存储变形例6所涉及的描述符(变形例6所涉及的特征量)来代替图22中的三维AAM描述符230,且计算及存储变形例6所涉及的不变量化特征量来代替不变量化AAM描述符240。特征量的计算及化合物的创建步骤与第2实施方式相同,能够使用本发明的特征量计算方法、特征量计算程序、化合物创建方法及化合物创建程序。在变形例6中,通过将化合物的立体结构设为教师数据且将变形例6所涉及的特征量设为解释变量的机器学习(深层学习)构建生成器,并能够使用所构建的生成器,从针对键合化合物的变形例6所涉及的特征量生成目标生物高分子的立体结构,其中,所述键合化合物为确认到与目标生物高分子的键合的化合物。另外,与第1至第3实施方式相同地,通过选择作为教师数据所提供的化合物的特征,能够生成具有不同特征的立体结构的化合物。
与第1至第3实施方式的上述内容相同地,从局部来看,化合物的药效(对于目标的键合力)被表示为化合物与探针之间的相互作用的结果,因此只要在化合物之间探针的聚集程度为相似,则这些化合物与目标的键合力相似。即,变形例6所涉及的特征量相似的化合物显示出相似的药效。因此,在变形例6中,能够通过变形例6所涉及的特征量来准确表示化合物的化学性质。并且,若与目标生物高分子键合的键合化合物和对象化合物之间变形例6所涉及的特征量相似,则两者的药效相似。因此,根据变形例6,根据变形例6所涉及的特征量提取与键合化合物的药效相似的目标化合物而能够有效进行医药候选化合物的筛选。并且,根据变形例6,与上述实施方式相同地,生成具有与键合化合物的特征量(变形例6所涉及的特征量)相似(因此,药效相似)的特征量的化合物的结构式而不进行检索,因此能够有效创建医药候选化合物的立体结构。
另外,在进行特征量计算、筛选及化合物创建的情况(对应于第3实施方式)下,能够通过与图28~图30相同的结构来进行。
<基于各特征量的命中数量的比较>
图31是表示针对与上述图13相同的系统(蛋白质ABL1)对将化合物作为对象结构体的基于不变量化特征量(将氨基酸作为探针的不变量化特征量及将除了氨基酸以外的物质作为探针的不变量化特征量)的命中的发现容易度进行比较评价的结果的一例的图。根据图31,可知尽管效果根据描述符(特征量)的种类(命中数量的期待值)存在差异,但是与随机的情况(参考图13)相比期待值提高。另外,图31是在(组数量=183)的情况下的分群的结果,因此针对“AAM”的命中数量与图13的情况(在组数=221的情况下的分群的结果)不同。如此,在使用将除了氨基酸以外的物质作为探针的不变量化特征量的情况下,也能够有效进行医药候选化合物的筛选。
<使用了生成器的特征量的计算>
在上述第1~第3实施方式及变形例1~变形例7中,通过具有“针对对象结构体(从结构式等)生成基于多个单元结构体的立体结构的立体结构生成工序”的特征量计算方法计算出特征量,但是在本发明中,可以使用“由机器学习构成且从立体结构计算出特征量的生成器”计算出特征量(特征量、第1~第3特征量)。生成器例如能够通过“具有将『将针对多个化合物的、表示化合物的立体结构的信息(三维图像等)设为教师数据且将特征量(例如,第1~第4方式所涉及的特征量中的任一个)设为解释变量的学习用数据集』输入至生成器并通过机器学习进行学习的学习处理工序的生成器的构建方法”来构建。
上述生成器(预测模型、已学习模型)可以接收三维图像作为表示化合物的立体结构的信息,并且可以具备层次网络。层次网络可以包括进行使用了三维滤波器的卷积运算以缩小特征图(从输入层获得的信息)的卷积层及进行使用了三维滤波器的逆卷积运算以放大特征图的逆卷积层。在学习处理工序中,层次网络可以接收由颜色的不同(例如,使用将红色、绿色、蓝色加权相加的组合)表述构成化合物的原子的种类的三维图像。可以将三维图像分为分别与不同颜色对应的多个通道(例如,红色、绿色、蓝色这3个通道)来接收。并且,在学习处理工序中,层次网络可以将三维图像分为分别与不同种类的原子对应的多个通道来接收。层次网络可以为卷积神经网络。
图32是表示使用层次网络而构成的“从立体结构计算出特征量的生成器”的例的图。图32(a)部分表示层次网络600为包括输入层610、中间层620及输出层630的卷积神经网络。中间层620具备第1中间层622及第2中间层624。第1中间层622包括进行卷积运算的卷积层及进行池化处理的池化层(在图32中,将这些2个层统称为层625),在靠近输入侧的层中进行低阶特征提取,并随着靠近输出侧进行高阶特征提取。在学习时,从输入层610向输出层630更新信息(各层的权重参数的值等)。
第2中间层624包括进行使用了三维滤波器的逆卷积运算的逆卷积层和进行逆池化处理的逆池化层(在图32(a)部分中,将这些2个层统称为层627)。在第1中间层622中,特征图通过卷积运算及池化处理被缩小,并且在第2中间层624中,特征图通过逆卷积运算及逆池化处理被放大。能够通过变更三维滤波器的尺寸等来调节缩小及放大的程度,从而能够获得与由此输入的三维图像相同尺寸的三维信息(在三维空间中对对象结构体的周围的探针的聚集程度进行定量化而获得的特征量)。另外,第1中间层622及第2中间层624中的层(卷积层、池化层、逆卷积层、逆池化层)的数量及组合并无特别限定(在图32中由虚线记载的箭头表示层被省略)。
在使用上述结构的层次网络600的情况下,在学习过程中,优选将输出层630所输出的结果与对图像集的识别(表示探针的聚集程度的特征量)的正解进行比较来计算损失(误差),并进行从输出侧的层向输入侧的层更新中间层620中的权重参数的处理(误差反向传播)以减少损失。另外,中间层620除了卷积层及池化层(以及逆卷积层及逆池化层)以外还可以包括进行批量标准化的层。批量标准化处理为以进行学习时的小批量为单位对数据的分布进行标准化的处理,并且发挥快速进行学习、降低对初始值的依赖性、抑制过度学习等作用。
若上述层次网络600的学习结束,则能够输入化合物的三维图像(表示立体结构的信息)来计算出本发明所涉及的特征量(特征量、第1~第3特征量)。此时,若将作为实际数据的立体结构信息代替作为学习数据的立体结构信息输入至输入层610,则从输入层610向输出层630(向图32(a)部分中的箭头的方向)更新各层的权重参数等信息,从输出层630输出特征量。
另外,在上述层次网络600中,通过使输入与输出相反(向输出层630输入特征量而从输入层610输出三维图像),根据特征量而能够创建出化合物的立体结构。此时,若将特征量输入至输出层630,则从输出层630向输入层610(向图32(b)部分中的箭头的方向)更新信息,从输入层610输出表示化合物的立体结构的三维图像。
<与其他特征量同时使用时的筛选>
<与物性值和/或毒性值同时使用>
图33是表示基于本发明所涉及的特征量和表示物性的物性值和/或表示毒性的毒性值的筛选的处理的流程图。关于该处理,能够通过与第1实施方式所涉及的筛选装置10(特征量计算装置、筛选装置)及第3实施方式所涉及的医药候选化合物搜索装置30(特征量计算装置、筛选装置、化合物创建装置)相同的装置来执行。在这些装置中,可以使用上述生成器计算出特征量。例如,在筛选装置10中,能够使用图34所示的结构的处理部103来代替处理部100进行筛选。
信息输入部110针对多个化合物输入表示立体结构的信息(例如,结构式、三维图像等)(步骤S310:输入工序),特征量计算部122(特征量计算部、生成器)针对多个化合物的每一个,根据所输入的信息计算出特征量(步骤S312:特征量计算工序)。在图34所示的处理部103中,特征量计算部122具备上述层次网络600等生成器,并且能够通过第1至第4方式中的任一个所涉及的特征量计算方法计算出特征量(特征量、第1~第3特征量)。并且,特性值计算部134(特性值计算部)针对多个化合物的每一个,根据所输入的信息计算出表示物性的物性值和/或表示毒性的毒性值(步骤S314:特性值计算工序)。特性值计算部134例如能够计算出简单的物性(分子量、logP、极性表面积、极化率)或复杂的物性(溶解性、膜渗透性)作为物性值。关于这些物性,能够通过公知的技术(通常市售的软件)来计算。关于logP等实验中所获得的物性值,可以使用ClogP等预测值。并且,特性值计算部134能够计算出“旋转键的数量(the number of rotatable bonds;RBN)”作为物性值。“旋转键的数量”例如能够定义为“单键且不包含在环中,也不与末端的重元素键合的键的数量”,如“http://www.talete.mi.it/help/dproperties_help/index.html?constitutional_descriptors.htm”中所记载。
并且,特性值计算部134例如能够计算出logBCF(化合物的鱼类生物富集性)、Ames(致突变性)或皮肤致敏性等作为毒性。关于这些毒性,例如在“修正化审法中的富集性预测方法活用,Sumitomo Chemical Co.,Ltd.的生物环境科学研究所,2006”(https://www.sumitomo-chem.co.jp/rd/report/files/docs/20060106_vpv.pdf)、“Mortelmans K&Zeiger E(2000):The Ames Salmonella/microsome mutagenicity assay.Mutat.Res.455(1-2),29-60.”或http://www.oyc-bio.jp/pages/reagent/ames/index、https://staff.aist.go.jp/yamane.t/RS/index.files/42RS-Kanazawa.pdf中有记载。并且,关于这些毒性,能够用公知的软件“DEREK”(http://ls.ctc-g.co.jp/products/lhasa/derek_nexus.html)或“OECD QSAR ToolBox”(https://www.nite.go.jp/data/000084383.pdf)进行计算。
若针对所有多个化合物计算出特征量、物性值和/或毒性值(在步骤S316中为“是”),则信息输入部110输入特征量、物性值和/或毒性值的目标值(步骤S318:目标值输入工序)。化合物提取部140判断特征量的相似度(成为基准的化合物的特征量与上述针对多个化合物的每一个的特征量之间的相似度)是否满足目标值或者物性值和/或毒性值是否满足目标值(步骤S320、S322:提取工序),并从多个化合物提取特征量的相似度满足目标值且物性值和/或毒性值满足目标值的化合物(步骤S324:提取工序)。若针对所有多个化合物的判断及提取结束,则化合物提取部140结束搜索(步骤S326)。通过这种处理,能够提取在维持键合力(与特征量对应)的同时物性和/或毒性得到改善的化合物。
<与物性值同时使用时的筛选的实施例>
对基于本发明所涉及的特征量和表示物性的物性值的筛选的实施例进行说明。其中,对如下情况进行说明:对于原始的化合物,从多个化合物(库化合物)中提取“本发明所涉及的特征量的相似度为基准值以下且物性值满足目标值的化合物”。如上所述,具有图34所示的结构的处理部103的筛选装置10能够执行这种筛选的处理。筛选装置10可以以图33的流程图所示的步骤进行处理,也可以如以下所说明那样以将该步骤在本发明的第10方式的范围内进行变更的步骤(例如,可以更换处理的顺序,也可以不是针对每个化合物反复进行提取工序,而是针对多个化合物一并进行提取工序)进行处理。
信息输入部110针对图35(a)部分所示的原始的化合物C0及图35(b)部分所示的多个化合物C1~C3(库化合物)输入表示立体结构的信息(结构式或三维图像等)(输入工序),特征量计算部122(特征量计算部、生成器)针对这些化合物,根据所输入的信息计算出本发明所涉及的特征量(特征量计算工序)。特征量计算部122在本实施例中将探针设为电荷中性的氨基酸,并使用第2方式所涉及的特征量计算方法计算出特征量(第2特征量)。然后,化合物提取部140计算出特征量的相似度(原始的化合物的特征量与针对库化合物的每一个的特征量之间的相似度)(图36(a)部分及图36(b)部分;提取工序)。在本实施例的情况下,化合物C0与化合物C1~C3之间的特征量的相似度如图36(b)部分所示。另外,图36中的“AAM相似度”表示原始的化合物C0与库的化合物C1~C3之间的、本发明所涉及的特征量的相似度(相似性距离)。
化合物提取部140针对库化合物的每一个,判断特征量的相似度是否满足目标值(提取工序)。其中,在将相对于相似度(相似性距离)的阈值设为100.0的情况下,针对化合物C1~C3中的化合物C2、C3,判断是肯定的。并且,特性值计算部134(特性值计算部)针对化合物C2、C3计算出ClogP(物性值的一例)(图36(c)部分及图36(d)部分;特性值计算工序)。计算结果如图36(d)部分所示。化合物提取部140针对化合物C2、C3判断ClogP是否满足目标值(其中,将阈值设为1.0以下)(提取工序),并提取满足目标值的化合物C2(图36(e)部分)。
以这种方式,在库中的化合物C1~C3的搜索中,能够骨架改变成特征量与原始的化合物C0相似(相似度为100.0以下)且ClogP低(1.0以下)的化合物C2(参考图37)。另外,ClogP低表示化合物的亲水性高且口服吸收性优异。
<与结构特征量同时使用>
与同时使用上述物性值和/或毒性值的情况相同地,如参考图38的流程图并在以下进行说明那样,也能够使用本发明所涉及的特征量和表示化合物的结构的特征量(结构特征量)来进行筛选。关于该处理,例如在筛选装置10中,能够使用图39所示的结构的处理部104来代替处理部100进行筛选。另外,关于图38的流程图,对与图33相同的处理标注相同的步骤编号,并省略详细说明。
针对所输入的化合物,特征量计算部122通过第1至第4方式中的任一个所涉及的特征量计算方法计算出特征量(步骤S312:第1特征量计算工序),结构特征量计算部136(结构特征量计算部)针对多个化合物的每一个,根据所输入的信息计算出表示化合物的结构的结构特征量(步骤S315:第2特征量计算工序)。结构特征量计算部136例如能够计算出指纹描述符(由0和1表述官能团或部分结构的有无的描述符)作为结构特征量。信息输入部110输入特征量的目标值及相对于结构特征量的阈值(步骤S319:目标值输入工序),化合物提取部140提取特征量的相似度(成为基准的化合物的特征量与上述针对多个化合物的每一个的特征量之间的相似度)满足目标值且结构特征量的相似度(成为基准的化合物的结构特征量与上述针对多个化合物的每一个的结构特征量之间的相似度)为阈值以下(在步骤S321及步骤S323中为“是”)的化合物(步骤S324:提取工序)。作为结构特征量的相似度,能够使用相对于指纹描述符的谷本系数(Tanimoto coefficient)。在提供要比较的2个化合物的指纹描述符时,谷本系数计算为0至1的实数,并且定义为越接近1,相似度越高。通过这种处理,能够提取在维持键合力(与特征量对应)的同时骨架不同的化合物。
<与结构特征量同时使用时的筛选的实施例>
对基于本发明所涉及的特征量和结构特征量的筛选的实施例进行说明。其中,对如下情况进行说明:对于图40(a)部分所示的原始的化合物C0,从多个化合物C4~C6(库化合物)中提取“本发明所涉及的特征量的相似度为基准值以下且与原始的化合物的结构特征量的相似度满足目标值的化合物”。如上所述,具有图39所示的结构的处理部104的筛选装置10能够执行筛选的处理。筛选装置10可以以图38的流程图所示的步骤进行处理,也可以如以下所说明那样以将该步骤在本发明的第11方式的范围内进行变更的步骤(例如,可以更换处理的顺序,也可以不是针对每个化合物反复进行提取工序,而是针对多个化合物一并进行提取工序)进行处理。
结构特征量计算部136(结构特征量计算部)针对化合物C4~C6的每一个,根据所输入的信息计算出表示化合物的结构的结构特征量(第2特征量计算工序)。在本实施例中,结构特征量计算部136计算出指纹描述符作为结构特征量。然后,化合物提取部140计算出原始的化合物C0与化合物C4~C6(库化合物)之间表示结构特征量的相似度的谷本系数(图41(a)部分及图41(b)部分;提取工序),并提取谷本系数成为0.2(阈值)以下的化合物(提取工序)。在本实施例中,如图41(c)部分所示,可以提取化合物C5、C6。
特征量计算部122针对用谷本系数提取的化合物C5、C6计算出本发明所涉及的特征量(特征量计算工序)。特征量计算部122在本实施例中将探针设为电荷中性的氨基酸,并使用第2方式所涉及的特征量计算方法计算出特征量(第2特征量)。化合物提取部140计算出原始的化合物C0与化合物C5、C6之间的特征量的相似度(图41(c)部分及图41(d)部分),并提取相似度(相似性距离)满足目标值(阈值:100.0以下)的化合物C6(图41(e))。另外,图41中的“AAM相似度”表示原始的化合物C0与库的化合物C4~C6之间的、本发明所涉及的特征量的相似度(相似性距离)。
以这种方式,在库的化合物C4~C6的搜索中,能够骨架改变成特征量与原始的化合物C0相似(相似度为100.0以下)且结构不同(谷本系数为0.2以下)的化合物C6(参考图42)。
<在同时使用了其他特征量的情况下的输出例>
图43是表示在使用了本发明所涉及的特征量和其他特征量(物性值、毒性值等)的情况下的输出例的图。图43(a)部分为针对情况1~3表示2个化合物(化合物A、B)的结构的图,图43(b)部分表示针对各情况的特征量的相似性距离及ClogP(logP的预测值;物性值的一例)。图中的“相似性距离(AAM描述符)”为表示在将20种类的氨基酸作为探针的情况下的、本发明所涉及的特征量(对于旋转、平移不变量化)的相似度的指标,并且能够将该值为100以下的内容作为“特征量是否相似”的基准。即,在图43所示的情况1~3中,可以说“化合物A、B的特征量相似(因此,键合力相同)”。并且,针对图43(b)部分所示的ClogP,可以说“若值相差1,则作为物性的差异大”(因此,情况1~3的化合物的物性的差异大)。根据以上可知,通过同时使用本发明所涉及的特征量和其他特征量,能够提取在维持键合力的同时物性和/或毒性得到改善的化合物。
另外,图44表示针对相似性距离大的化合物的物性值的例。图44(a)部分表示化合物的结构,图44(b)部分表示特征量的相似性距离及ClogP。
<键合力提高的化合物的筛选(例1)>
在图33、图38的上述方式(流程图)中,对于作为基准的化合物,提取维持键合力(与特征量对应)且物性值等满足目标值的化合物。相对于此,根据图45的流程图所示的处理,也能够进行键合力提高的化合物(键合力比作为基准的化合物更高的化合物)的筛选。关于这种处理,能够通过例如具备图46所示的处理部105来代替处理部100的筛选装置10(参考图1)进行。另外,关于图45的流程图,对与图33、图38相同的处理标注相同的步骤编号,并省略详细说明。
键合力预测部133使用“根据特征量输出与其他化合物的键合力的预测模型”(参考后述附录19)来预测化合物的键合力(步骤S313:预测工序)。关于附录19所涉及的预测模型,能够通过附录18中所记载的“预测模型生成方法”来生成。若针对所有化合物结束特征量的计算及键合力的预测(在步骤S316中为“是”),则信息输入部110通过用户经由操作部400(参考图1)进行的操作等输入键合力的目标值(步骤S317:提取工序)。化合物提取部140从多个化合物中提取键合力满足目标值的化合物(在步骤S317-2中为“是”的情况下,在步骤S324中提取化合物:提取工序)。通过这种处理,能够进行键合力提高的化合物的筛选。
<键合力提高的化合物的筛选(例2)>
图47是表示键合力提高的化合物的筛选的另一例的流程图。关于这些处理,能够通过具备与图46相同的处理部105的筛选装置10来进行。另外,在图47中,对与图33、图35、图39的流程图相同的处理标注相同的步骤编号,并省略详细说明。
键合力预测部133根据用户的操作等来设定键合力的目标值(步骤S310-2:设定工序)。此时,键合力预测部133能够设定比作为基准的化合物的键合力更高的目标值。然后,键合力预测部133使用上述预测模型来估计对应于键合力的目标值的特征量,并将所估计的特征量设为特征量的目标值(步骤S310-3:估计工序)。信息输入部110根据用户的操作等来输入特征量的目标值(步骤S310-4)。特征量计算部122通过第1至第4方式中的任一个所涉及的特征量计算方法计算出特征量(步骤S312:特征量计算工序),化合物提取部140提取具有与在步骤S310-3中所估计的特征量(即,特征量的目标值)的相似度为阈值以上的特征量的化合物(步骤S324:提取工序)。通过这种处理,能够提取具有对应于键合力的目标值的特征量的化合物,从而能够进行键合力提高的化合物的筛选。
如上所述,根据本发明的特征量计算方法、特征量计算程序及特征量计算装置,能够计算出准确表示对象结构体的化学性质的特征量。并且,根据本发明的筛选方法及筛选程序,能够使用特征量来有效进行医药候选化合物的筛选。并且,根据本发明所涉及的化合物创建方法,能够使用特征量来有效创建医药候选化合物的立体结构。
(附录)
除了上述方式以外,以下中所记载的内容也包含在本发明的范围内。另外,关于以下中所记载的方法、装置、程序等,能够通过与第1~第3实施方式相同的结构来实现。
(附录1)
附录1所涉及的化合物创建方法具有:输入工序,关于化合物输入表示立体结构的信息、针对第1至第4方式中的任一个所涉及的特征量的第1目标值、针对表示物性的物性特性值的第2目标值和/或针对表示毒性的毒性特性值的第3目标值;候选结构获取工序,改变立体结构而获得候选结构;特征量计算工序,通过第1至第4方式中的任一个所涉及的特征量计算方法计算出针对候选结构的特征量;特性值计算工序,计算出针对候选结构的物性特性值和/或毒性特性值;候选结构采用工序,采用或放弃候选结构,并且在计算出的特征量和计算出的物性特性值和/或毒性特性值满足第1目标值至第3目标值的情况下采用候选结构,在不满足第1目标值至第3目标值的情况下放弃候选结构;及控制工序,反复进行候选结构获取工序、特征量计算工序、特性值计算工序及候选结构采用工序中的处理,直至特征量和计算出的物性特性值和/或毒性特性值满足第1目标值至第3目标值。
图48是表示附录1所涉及的化合物创建方法的处理的流程图。如第10方式的上述内容,能够使用本发明所涉及的特征量和物性值和/或毒性值进行化合物的筛选,但是通过图48所示的处理,与筛选的情况相同地,能够创建出本发明所涉及的特征量满足目标值(第1目标值)且物性值和/或毒性值满足目标值(第2、第3目标值)的化合物。另外,作为物性值和/或毒性值,能够使用与“与其他特征量同时使用时的筛选”中所记载的内容相同的指标。并且,关于图48所示的处理,能够通过具备处理部101的化合物创建装置20(特征量计算装置、化合物创建装置;参考图20、图21)或具备处理部102的医药候选化合物搜索装置30(特征量计算装置、筛选装置、化合物创建装置;参考图28)或者具有与这些相同的结构的装置、系统来进行(对附录2至7所示的方式也相同)。
(附录2)
附录2所涉及的化合物创建方法具有:输入工序,关于化合物输入表示立体结构的信息、针对第1至第4方式中的任一个所涉及的特征量的第1目标值、针对表示物性的物性特性值的第2目标值和/或针对表示毒性的毒性特性值的第3目标值;候选结构获取工序,改变立体结构而获得候选结构;特征量计算工序,通过第1至第4方式中的任一个所涉及的特征量计算方法计算出针对候选结构的特征量;候选结构采用工序,采用或放弃候选结构,并且在计算出的特征量接近第1目标值的情况下采用候选结构,在计算出的特征量不接近第1目标值的情况下放弃候选结构;控制工序,反复进行候选结构获取工序、特征量计算工序及候选结构采用工序中的处理,直至特征量满足第1目标值;特性值计算工序,计算出针对特征量满足第1目标值的候选结构的物性特性值和/或毒性特性值;及提取工序,从对应于计算出物性特性值和/或毒性特性值的候选结构的化合物中提取物性特性值和/或毒性特性值满足第2目标值和/或第3目标值的化合物。
图49是表示附录2所涉及的化合物创建方法的处理的流程图。通过图49所示的处理,与附录1相同地,能够创建出本发明所涉及的特征量满足目标值(第1目标值)且物性值和/或毒性值满足目标值(第2、第3目标值)的化合物。
(附录3)
附录3所涉及的化合物创建方法具有:输入工序,关于化合物输入表示立体结构的信息、针对第1至第4方式中的任一个所涉及的特征量的第1目标值、针对表示物性的物性特性值的第2目标值和/或针对表示毒性的毒性特性值的第3目标值;候选结构获取工序,改变立体结构而获得候选结构;特性值计算工序,计算出针对候选结构的物性特性值和/或毒性特性值;候选结构采用工序,采用或放弃候选结构,并且在计算出的物性特性值和/或毒性特性值接近第2目标值和/或第3目标值的情况下采用候选结构,在计算出的物性特性值和/或毒性特性值不接近第2目标值和/或第3目标值的情况下放弃候选结构;控制工序,反复进行候选结构获取工序、特性值计算工序及候选结构采用工序中的处理,直至计算出的物性特性值和/或毒性特性值满足第2目标值和/或第3目标值;特征量计算工序,通过第1至第4方式中的任一个所涉及的特征量计算方法计算出针对对应于计算出的物性特性值和/或毒性特性值满足第2目标值和/或第3目标值的候选结构的化合物的特征量;及提取工序,从计算出特征量的化合物中提取特征量满足第1目标值的化合物。
图50是表示附录3所涉及的化合物创建方法的处理的流程图。通过图50所示的处理,与附录1、2相同地,能够创建出本发明所涉及的特征量满足目标值(第1目标值)且物性值和/或毒性值满足目标值(第2、第3目标值)的化合物。
(附录4)
附录4所涉及的化合物创建方法具有:输入工序,关于化合物输入针对第1至第4方式中的任一个所涉及的特征量的第1目标值、针对表示物性的物性特性值的第2目标值和/或针对表示毒性的毒性特性值的第3目标值;创建工序,根据第1目标值并通过第15至第17方式中的任一个所涉及的化合物创建方法创建出多个化合物;特性值计算工序,计算出针对多个化合物的物性特性值和/或毒性特性值;及提取工序,从多个化合物中提取物性特性值和/或毒性特性值满足第2目标值和/或第3目标值的化合物。
图51是表示附录4所涉及的化合物创建方法的处理的流程图。在附录4中,与通过改变候选结构来创建出化合物的附录1~3不同,在化合物的创建中使用第15至第17方式中的任一个所涉及的化合物创建方法。通过图51所示的处理,也与附录1~3相同地,能够创建出本发明所涉及的特征量满足目标值(第1目标值)且物性值和/或毒性值满足目标值(第2、第3目标值)的化合物。
(附录5)
附录5所涉及的化合物创建方法在附录1至3中的任一个所涉及的化合物创建方法中,其还具有第1选择工序,所述第1选择工序根据所输入的信息选择第1至第4方式所涉及的特征量计算方法中的任一个,并且在特征量计算工序中,通过所选择的特征量计算方法计算出特征量。具备处理部101的化合物创建装置20或具备处理部102的医药候选化合物搜索装置30或者具有与这些相同的结构的装置、系统能够按照用户的操作选择特征量计算方法。
(附录6)
附录6所涉及的化合物创建方法在附录1至5中的任一个所涉及的化合物创建方法中,其还具有第2选择工序,所述第2选择工序选择物性特性值的计算方法和/或毒性特性值的计算方法,并且在特性值计算工序中,通过所选择的计算方法计算出物性特性值和/或毒性特性值。具备处理部101的化合物创建装置20或具备处理部102的医药候选化合物搜索装置30或者具有与这些相同的结构的装置、系统能够按照用户的指示选择物性特性值的计算方法和/或毒性特性值的计算方法。
(附录7)
附录7所涉及的化合物创建方法在附录1至6中的任一个所涉及的化合物创建方法中,物性特性值为分子量、ClogP、极性表面积、极化率及旋转键的数量(RBN)中的1个以上。RBN的定义如“与物性值和/或毒性值同时使用”一项中所述那样。
(附录8)
附录8所涉及的化合物创建方法具有:输入工序,关于化合物输入表示立体结构的信息、针对第1至第4方式中的任一个所涉及的特征量的第1目标值和针对表示立体结构的结构特征量的第2目标值;候选结构获取工序,改变立体结构而获得候选结构;第1特征量计算工序,通过第1至第4方式中的任一个所涉及的特征量计算方法计算出针对候选结构的特征量;第2特征量计算工序,计算出针对候选结构的结构特征量;候选结构采用工序,采用或放弃候选结构,并且在计算出的特征量及计算出的结构特征量满足第1目标值及第2目标值的情况下采用候选结构,在不满足第1目标值及第2目标值的情况下放弃候选结构;及控制工序,反复进行候选结构获取工序、第1特征量计算工序、第2特征量计算工序及候选结构采用工序中的处理,直至特征量及结构特征量满足第1目标值及第2目标值。
图52是表示附录8所涉及的化合物创建方法的处理的流程图。如第11方式的上述内容,能够使用本发明所涉及的特征量和表示化合物的结构的特征量(结构特征量)进行筛选,但是与筛选的情况相同地,能够使用本发明所涉及的特征量和表示化合物的结构的特征量(结构特征量)进行化合物的创建。根据图52所示的处理,能够创建出在维持键合力(与特征量对应)的同时骨架不同的化合物。另外,关于图52所示的处理,能够通过具备处理部101的化合物创建装置20(特征量计算装置、化合物创建装置;参考图20、图21)或具备处理部102的医药候选化合物搜索装置30(特征量计算装置、筛选装置、化合物创建装置;参考图28)或者具有与这些相同的结构的装置、系统来进行(对附录9至14所示的方式也相同)。
(附录9)
附录9所涉及的化合物创建方法具有:输入工序,关于化合物输入表示立体结构的信息、针对第1至第4方式中的任一个所涉及的特征量的第1目标值和针对表示立体结构的结构特征量的第2目标值;候选结构获取工序,改变立体结构而获得候选结构;第1特征量计算工序,通过第1至第4方式中的任一个所涉及的特征量计算方法计算出针对候选结构的特征量;候选结构采用工序,采用或放弃候选结构,并且在计算出的特征量满足第1目标值的情况下采用候选结构,在计算出的特征量不满足第1目标值的情况下放弃候选结构;控制工序,反复进行候选结构获取工序、第1特征量计算工序及候选结构采用工序中的处理,直至特征量满足第1目标值;结构特征量计算工序,计算出针对特征量满足第1目标值的候选结构的结构特征量;及提取工序,从对应于计算出结构特征量的候选结构的化合物提取具有与第2目标值的相似度为阈值以下的结构特征量的化合物。
图53是表示附录9所涉及的化合物创建方法的处理的流程图。通过图53所示的处理,与附录8相同地,能够创建出在维持键合力(与特征量对应)的同时骨架不同的化合物。
(附录10)
附录10所涉及的化合物创建方法具有:输入工序,关于化合物输入表示立体结构的信息、针对第1至第4方式中的任一个所涉及的特征量的第1目标值和针对表示立体结构的结构特征量的第2目标值;候选结构获取工序,改变立体结构而获得候选结构;第2特征量计算工序,计算出针对候选结构的结构特征量;候选结构采用工序,采用或放弃候选结构,并且在计算出的结构特征量满足第2目标值的情况下采用候选结构,在计算出的结构特征量不满足第2目标值的情况下放弃候选结构;控制工序,反复进行候选结构获取工序、第2特征量计算工序及候选结构采用工序中的处理,直至结构特征量满足第2目标值;第1特征量计算工序,计算出针对结构特征量满足第2目标值的候选结构的特征量;提取工序,从对应于计算出特征量的候选结构的化合物提取具有与第1目标值的相似度为阈值以下的结构特征量的化合物。
图54是表示附录10所涉及的化合物创建方法的处理的流程图。通过图54所示的处理,与附录8、9相同地,能够创建出在维持键合力(与特征量对应)的同时骨架不同的化合物。
(附录11)
附录11所涉及的化合物创建方法具有:输入工序,关于化合物输入表示立体结构的信息、针对第1至第4方式中的任一个所涉及的特征量的第1目标值和针对表示立体结构的结构特征量的第2目标值;生成工序,通过第15至第17方式中的任一个所涉及的化合物创建方法生成特征量满足第1目标值的多个候选结构;计算工序,计算出针对多个候选结构的结构特征量;及提取工序,从多个候选结构提取结构特征量为阈值以下的化合物。
图55是表示附录11所涉及的化合物创建方法的处理的流程图。与通过改变候选结构来创建出化合物的附录8~10不同,在化合物的创建中使用第15至第17方式中的任一个所涉及的化合物创建方法。通过图55所示的处理,也与附录8至10相同地,能够创建出在维持键合力(与特征量对应)的同时骨架不同的化合物。
(附录12)
附录12所涉及的化合物创建方法在附录8至10中的任一个所涉及的化合物创建方法中,其还具有第1选择工序,所述第1选择工序根据信息选择第1至第4方式所涉及的特征量计算方法中的任一个,并且在第1特征量计算工序中,通过所选择的特征量计算方法计算出特征量。能够根据用户的指示来进行特征量计算方法的选择。
(附录13)
附录13所涉及的化合物创建方法在附录8至12中的任一个所涉及的化合物创建方法中,结构特征量为针对化合物的指纹(指纹描述符)。指纹描述符为由0和1表述特定的官能团或部分结构的有无的描述符。
(附录14)
附录14所涉及的化合物创建方法在附录12或13所涉及的化合物创建方法中,使用谷本系数作为表示结构特征量的相似度的指标。在提供要比较的2个化合物的指纹描述符时,谷本系数计算为0至1的实数,并且定义为越接近1,相似度越高。
(附录15)
附录15所涉及的化合物创建方法具有:输入工序,关于化合物输入表示立体结构的信息和键合力的目标值;候选结构获取工序,改变立体结构而获得候选结构;特征量计算工序,通过第1至第4方式中的任一个所涉及的特征量计算方法计算出针对候选结构的特征量;估计工序,使用根据第1至第4方式中的任一个所涉及的特征量输出键合力的预测模型来估计对应于计算出的特征量的候选结构的键合力;候选结构采用工序,采用或放弃候选结构,并且在所估计的键合力满足目标值的情况下采用候选结构,在所估计的键合力不满足目标值的情况下放弃候选结构;及控制工序,反复进行候选结构获取工序、特征量计算工序及候选结构采用工序中的处理,直至键合力满足目标值。
图56是表示附录15所涉及的化合物创建方法的处理的流程图。根据图56所示的处理,与上述“键合力提高的化合物的筛选(例1、2)”一项中所说明的“使用了预测模型的筛选”相同地,能够使用预测模型进行“键合力提高的化合物的创建”。关于附录15所涉及的化合物创建方法,能够通过化合物创建装置20、医药候选化合物搜索装置30等来执行。
(附录16)
附录16所涉及的化合物创建方法具有:输入工序,关于化合物输入键合力的目标值;估计工序,使用根据第1至第4方式中的任一个所涉及的特征量输出键合力的预测模型来估计满足目标值的特征量;候选结构获取工序,改变立体结构而获得候选结构;第1特征量计算工序,通过第1至第4方式中的任一个所涉及的特征量计算方法计算出针对候选结构的特征量;候选结构采用工序,采用或放弃候选结构,并且在计算出的特征量满足所估计的特征量的情况下采用候选结构,在计算出的特征量不满足所估计的特征量的情况下放弃候选结构;控制工序,反复进行候选结构获取工序、第1特征量计算工序及候选结构采用工序中的处理,直至计算出的特征量满足所估计的特征量。
图57是表示附录16所涉及的化合物创建方法的处理的流程图。通过图57所示的处理,与附录15相同地,能够使用预测模型进行“键合力提高的化合物的创建”。
(附录17)
附录17所涉及的化合物创建方法具有:输入工序,关于化合物输入键合力的目标值;估计工序,使用根据第1至第4方式中的任一个所涉及的特征量输出键合力的预测模型来估计满足目标值的特征量;及生成工序,根据所估计的特征量并通过第15至第17方式中的任一个所涉及的化合物创建方法生成对应于目标值的化合物的立体结构。
图58是表示附录17所涉及的化合物创建方法的处理的流程图。通过图58所示的处理,与附录15、16相同地,能够使用预测模型进行“键合力提高的化合物的创建”。
(附录18)
附录18所涉及的预测模型生成方法具有:输入工序,针对多个化合物输入表示立体结构的信息;特征量计算工序,针对多个化合物的每一个,使用第1至第4方式中的任一个所涉及的特征量计算方法计算出特征量;及通过将特征量设为解释变量且将对应于特征量的键合力设为教师数据的机器学习来生成化合物的键合力预测模型的工序。
(附录19)
附录19所涉及的预测模型使计算机根据化合物的特征量输出键合力,所述预测模型具备由将特征量设为解释变量且将键合力设为教师数据的机器学习构成的神经网络,对于所输入的特征量进行基于已学习的加权相加系数的演算并输出键合力。能够使用附录18所涉及的预测模型生成方法及附录19所涉及的预测模型进行“键合力提高的化合物的筛选(例1、2)”一项中所说明的筛选或附录15~17中所说明的化合物的创建。另外,与图32(b)部分的上述内容相同地,对于附录19所涉及的预测模型的神经网络向输出侧的层提供键合力而从输出层朝向输入层更新信息,从而从输入层输出化合物的特征量(例如,第1至第4方式中的任一个所涉及的特征量;取决于学习的方法)。由此,例如在附录16、17中,能够从键合力的目标值估计特征量。
<预测模型在毒性预测中的应用>
上述预测模型的生成方法及所生成的预测模型能够应用于毒性预测中。其中,作为“毒性”,例如可以举出hERG抑制(hERG:Human Ether-a-go-go Rel ated Gene:相关基因)、CYP抑制(CYP:Cytochrome P450:细胞色素P450)。由于hERG、CYP为生物高分子,因此通过使用将生物高分子设为目标的特征量,能够预测hERG抑制、CYP抑制。具体而言,关于由hERG抑制而引起的毒性的避免,能够通过“降低”(将键合力降低至比成为基准的化合物的键合力更低且比目标值更低等)与hERG的键合力来实现。对由CYP抑制而引起的毒性的避免也相同。这种毒性的预测能够在毒性低的化合物的筛选或创建中进行。
(附录20)
附录20所涉及的化合物创建程序使计算机执行第15至第17方式、附录1至17中的任一个所涉及的化合物创建方法。也可以举出记录有附录20所涉及的化合物创建程序中计算机能够读取的代码的非临时性记录介质来作为本发明的一方式。
(附录21)
附录21所涉及的特征量计算方法具有:对象结构体指定工序,指定由具有化学性质的多个单元结构体构成的对象结构体;立体结构生成工序,针对对象结构体生成基于多个单元结构体的立体结构;及特征量计算工序,计算出在三维空间中对立体结构的周围的1种类以上的探针的聚集程度进行定量化而获得的特征量,探针为分开配置具有实数电荷且产生范德华力的多个点的结构体。另外,在以下所说明的附录22至40中,可以使用附录21所涉及的特征量计算方法,也可以使用上述第1~第4方式所涉及的特征量计算方法。
(附录22)
附录22所涉及的筛选方法使用了附录21所涉及的特征量计算方法,其中,在对象结构体指定工序中,指定键合化合物的结构式和多个搜索对象化合物的结构式作为对象结构体,在立体结构生成工序中,指定从键合化合物的结构式生成键合化合物的立体结构的方法和从多个搜索对象化合物的结构式生成多个搜索对象化合物的立体结构的方法,在特征量计算工序中,指定探针的结构式、从探针的结构式生成探针的立体结构的方法和对探针的聚集程度进行定量化并计算出特征量的方法。附录22所涉及的筛选方法还具有:指定键合化合物的特征量与多个搜索对象化合物的特征量的相似度的计算方法的工序;指定相似度的阈值的工序;及根据键合化合物的立体结构从多个化合物提取特征量与针对键合化合物的特征量的相似度为阈值以上的化合物的工序。
图59是表示附录22所涉及的筛选方法的处理的流程图,通过这些处理,例如能够根据一个键合化合物的结构式,从现有的化合物组(多个搜索对象化合物)筛选与该键合化合物具有相同的键合力的化合物。关于图59所示的处理,能够通过第1、第3实施方式所涉及的装置(筛选装置10、第3实施方式所涉及的医药候选化合物搜索装置30)或具有与这些装置相同的结构的装置、系统来执行。这些装置或系统能够使用使装置或系统执行筛选方法的程序,并且在执行时,能够参考记录有该程序的计算机能够读取的代码的非临时性记录介质。对后述附录所涉及的筛选方法也相同。另外,这些装置或系统能够按照用户的选择操作等来指定生成立体结构的方法等(对后述附录也相同)。
另外,附录22为使用了键合化合物(确认到与除了蛋白质以外的目标生物高分子键合的化合物)的信息的筛选方法,但是也能够相同地进行使用了配体(确认到与目标蛋白质的键合的化合物)的信息的筛选。具体而言,在附录22中,通过将“键合化合物的结构式”、“键合化合物的立体结构”、“(针对)键合化合物的特征量”分别替换为“配体的结构式”、“配体的立体结构”、“(针对)配体的特征量”,能够进行使用了配体的信息的筛选(根据一个配体的结构式,从现有的化合物组筛选与该配体具有相同的键合力的化合物)。相同地,以下各“附录”中的其他筛选方法或化合物创建方法也能够使用键合化合物和配体的信息来进行。
(附录23)
附录23所涉及的化合物创建方法使用了附录21所涉及的特征量计算方法,其中,在对象结构体指定工序中,指定键合化合物的结构式作为对象结构体,在立体结构生成工序中,指定从键合化合物的结构式生成键合化合物的立体结构的方法和创建出的化合物的立体结构的生成方法,在特征量计算工序中,指定探针的结构式、从探针的结构式生成探针的立体结构的方法和对探针的聚集程度进行定量化并计算出键合化合物的特征量的方法。附录23所涉及的化合物创建方法还具有:指定键合化合物的特征量与其他化合物的特征量的相似度的计算方法的工序;指定相似度的阈值的工序;指定根据特征量生成化合物的立体结构时的条件的工序;及在生成方法及条件下,生成具有与键合化合物的特征量的相似度为阈值以上的特征量的化合物的立体结构的工序。
图60是表示附录23所涉及的化合物创建方法的处理的流程图,通过这些处理,例如能够根据一个键合化合物的结构式,通过解决逆向问题而新创建出具有与该键合化合物相同的键合力的化合物。关于图60所示的处理,能够通过第2、第3实施方式所涉及的装置(化合物创建装置20、医药候选化合物搜索装置30)或具有与这些装置相同的结构的装置、系统来执行。这些装置或系统能够使用使装置或系统执行筛选方法的程序,并且在执行时,能够参考记录有该程序的计算机能够读取的代码的非临时性记录介质。对后述附录所涉及的化合物创建方法也相同。另外,可以将“提供化合物的立体结构并求出特征量(例如,第1至第4方式中的任一个所涉及的特征量)”称为“正向问题”,并且可以将“求出具有所提供的特征量的立体结构”称为“逆向问题”。
(附录24)
附录24所涉及的筛选方法使用了附录21所涉及的特征量计算方法,其中,在对象结构体指定工序中,指定生物高分子的活性部位的立体结构和多个搜索对象化合物的结构式,在立体结构生成工序中,指定生成与活性部位键合的口袋结构体的立体结构的方法和从多个搜索对象化合物的结构式生成多个搜索对象化合物的立体结构的方法,在特征量计算工序中,指定探针的结构式、从探针的结构式生成探针的立体结构的方法、对探针相对于口袋结构体的聚集程度进行定量化的方法和根据聚集程度计算出特征量的方法。附录24所涉及的筛选方法还具有:指定口袋结构体的特征量与多个搜索对象化合物的特征量的相似度的计算方法的工序;指定相似度的阈值的工序;及根据生物高分子的活性部位的立体结构从多个搜索对象化合物提取特征量与针对生物高分子的特征量的相似度为阈值以上的化合物的工序。图61是表示附录24所涉及的筛选方法的处理的流程图,通过这些处理,例如能够根据生物高分子的活性部位的立体结构,从现有的化合物组(多个搜索对象化合物)筛选与该活性部位匹配的化合物。
(附录25)
附录25所涉及的化合物创建方法使用了附录21所涉及的特征量计算方法,其中,在对象结构体指定工序中,指定生物高分子的活性部位的结构式作为对象结构体,在立体结构生成工序中,指定生成与活性部位键合的口袋结构体的立体结构的方法和创建出的化合物的立体结构的生成方法,在特征量计算工序中,指定探针的结构式、从探针的结构式生成探针的立体结构的方法、对探针相对于口袋结构体的聚集程度进行定量化的方法和对探针的聚集程度进行定量化并计算出口袋结构体的特征量的方法。附录25所涉及的化合物创建方法还具有:指定口袋结构体的特征量与化合物的特征量的相似度的计算方法的工序;指定相似度的阈值的工序;指定根据特征量生成化合物的立体结构时的条件的工序;及在生成方法及条件下,生成具有与口袋结构体的特征量的相似度为阈值以上的特征量的化合物的立体结构的工序。图62是表示附录25所涉及的化合物创建方法的处理的流程图,通过这些处理,例如能够根据生物高分子的活性部位的立体结构,通过解决逆向问题而新创建出与该活性部位匹配的化合物。
(附录26)
附录26所涉及的筛选方法使用了附录21所涉及的特征量计算方法,其中,在对象结构体指定工序中,指定多个键合化合物的结构式和多个搜索对象化合物的结构式,在立体结构生成工序中,指定生成多个键合化合物的立体结构的方法和生成多个搜索对象化合物的立体结构的方法,在特征量计算工序中,指定探针的结构式、从探针的结构式生成探针的立体结构的方法、对探针相对于多个键合化合物的每一个的聚集程度进行定量化的方法和根据聚集程度计算出特征量的方法。附录26所涉及的筛选方法还具有:输入针对多个键合化合物的每一个的键合力的值的工序;指定从针对多个键合化合物的结构式与键合力的值的组生成化合物的键合力的预测模型的方法的工序;指定键合力的目标值的工序;及使用预测模型从多个搜索对象化合物提取具有目标值的键合力的化合物的工序。图63是表示附录26所涉及的筛选方法的处理的流程图,通过这些处理,例如能够使用多个化合物的结构式和键合力的值的组(set),从现有的化合物组(多个搜索对象化合物)筛选具有目标的键合力的化合物。另外,在附录26中,能够使用附录18、19所示的预测模型生成方法及预测模型。
(附录27)
附录27所涉及的化合物创建方法使用了附录21所涉及的特征量计算方法,其中,在对象结构体指定工序中,指定多个键合化合物的结构式,在立体结构生成工序中,指定生成多个键合化合物的立体结构的方法和创建出的化合物的立体结构的生成方法,在特征量计算工序中,指定探针的结构式、从探针的结构式生成探针的立体结构的方法、对探针的聚集程度进行定量化的方法和根据聚集程度计算出特征量的方法。附录27所涉及的化合物创建方法还具有:指定针对多个键合化合物的每一个的键合力的值的工序;指定从针对多个键合化合物的结构式与键合力的值的组生成化合物的键合力的预测模型的方法的工序;指定键合力的目标值的工序;指定根据特征量生成化合物的立体结构时的条件的工序;及在生成方法及条件下,生成键合力为目标值以上的化合物的立体结构的工序。图64是表示附录27所涉及的化合物创建方法的处理的流程图,通过这些处理,例如能够使用多个化合物的结构式和键合力的值的组(set),通过解决逆向问题而新创建出具有目标的键合力的化合物。另外,在附录27中,能够使用附录18、19所示的预测模型生成方法及预测模型。
(附录28)
附录28所涉及的筛选方法使用了附录21所涉及的特征量计算方法,其中,在对象结构体指定工序中,指定多个搜索对象化合物的结构式,在立体结构生成工序中,指定从多个搜索对象化合物的结构式生成多个搜索对象化合物的立体结构的方法,在特征量计算工序中,指定探针的结构式、从探针的结构式生成探针的立体结构的方法和对探针的聚集程度进行定量化并计算出特征量的方法。附录28所涉及的筛选方法还具有:输入表示键合化合物的立体结构的信息的工序;指定键合化合物的特征量与多个搜索对象化合物的特征量的相似度的计算方法的工序;指定相似度的阈值的工序;及根据键合化合物的立体结构从多个化合物提取特征量与针对键合化合物的特征量的相似度为阈值以上的化合物的工序。附录28所涉及的筛选方法对附录22所涉及的筛选方法进行了改变,输入键合化合物的立体结构来代替键合化合物的结构式。因此,在附录21所涉及的特征量计算方法的工序中,针对键合化合物,不需要用于生成立体结构的工序(对象结构体指定工序和立体结构生成工序)。通过附录28,也与附录22相同地,能够根据一个键合化合物的立体结构,从现有的化合物组(多个搜索对象化合物)筛选具有与该键合化合物相同的键合力的化合物。
(附录29)
附录29所涉及的化合物创建方法使用了特征量计算方法。附录29中所使用的特征量计算方法具有:立体结构生成工序,针对对象结构体生成基于多个单元结构体的立体结构;及特征量计算工序,计算出在三维空间中对立体结构的周围的1种类以上的探针的聚集程度进行定量化而获得的特征量,探针为分开配置具有实数电荷且产生范德华力的多个点的结构体。附录29所涉及的化合物创建方法还具有输入表示键合化合物的立体结构的信息的工序,在立体结构生成工序中,指定创建出的化合物的立体结构的生成方法,在特征量计算工序中,指定探针的结构式、从探针的结构式生成探针的立体结构的方法和对探针的聚集程度进行定量化并计算出键合化合物的特征量的方法。附录29所涉及的化合物创建方法还具有:指定键合化合物的特征量与其他化合物的特征量的相似度的计算方法的工序;指定相似度的阈值的工序;指定根据特征量生成化合物的立体结构时的条件的工序;及在生成方法及条件下,生成具有与键合化合物的特征量的相似度为阈值以上的特征量的化合物的立体结构的工序。附录29所涉及的化合物创建方法对附录23所涉及的化合物创建方法进行了改变,输入键合化合物的立体结构来代替键合化合物的结构式。因此,针对键合化合物,不需要用于生成立体结构的工序(对象结构体指定工序和立体结构生成工序)。通过附录29,也与附录23相同地,能够根据一个键合化合物的立体结构,通过解决逆向问题而新创建出具有与该键合化合物相同的键合力的化合物。
(附录30)
附录30所涉及的筛选方法使用了附录21所涉及的特征量计算方法,所述筛选方法具有:输入表示生物高分子的立体结构的信息的工序;及根据信息确定生物高分子的活性部位的工序,在对象结构体指定工序中,指定多个搜索对象化合物的结构式,在立体结构生成工序中,指定生成与活性部位键合的口袋结构体的立体结构的方法和从多个搜索对象化合物的结构式生成多个搜索对象化合物的立体结构的方法,在特征量计算工序中,指定探针的结构式、从探针的结构式生成探针的立体结构的方法、对探针相对于口袋结构体的聚集程度进行定量化的方法和根据聚集程度计算出特征量的方法。附录30所涉及的筛选方法还具有:指定口袋结构体的特征量与多个搜索对象化合物的特征量的相似度的计算方法的工序;指定相似度的阈值的工序;及根据生物高分子的活性部位的立体结构从多个搜索对象化合物提取特征量与针对生物高分子的特征量的相似度为阈值以上的化合物的工序。附录30所涉及的筛选方法对附录24所涉及的筛选方法进行了改变,输入生物高分子的立体结构来代替生物高分子的活性部位的立体结构。因此,附录30所涉及的筛选方法具有“根据表示生物高分子的立体结构的信息确定生物高分子的活性部位的工序”。通过附录30,也与附录24相同地,能够根据生物高分子的立体结构,从现有的化合物组(多个搜索对象化合物)筛选与该活性部位匹配的化合物。
(附录31)
附录31所涉及的化合物创建方法使用了附录21所涉及的特征量计算方法,所述化合物创建方法具有:输入表示生物高分子的立体结构的信息的工序;及根据信息确定生物高分子的活性部位的工序,在对象结构体指定工序中,指定生物高分子的活性部位的立体结构,在立体结构生成工序中,指定生成与活性部位键合的口袋结构体的立体结构的方法和创建出的化合物的立体结构的生成方法,在特征量计算工序中,指定探针的结构式、从探针的结构式生成探针的立体结构的方法、对探针相对于口袋结构体的聚集程度进行定量化的方法和对探针的聚集程度进行定量化并计算出口袋结构体的特征量的方法。附录31所涉及的化合物创建方法还具有:指定口袋结构体的特征量与化合物的特征量的相似度的计算方法的工序;指定相似度的阈值的工序;指定根据特征量生成化合物的立体结构时的条件的工序;及在生成方法及条件下,生成具有与口袋结构体的特征量的相似度为阈值以上的特征量的化合物的立体结构的工序。附录31所涉及的化合物创建方法对附录25所涉及的化合物创建方法进行了改变,输入生物高分子的立体结构来代替生物高分子的活性部位的立体结构。因此,附录31所涉及的化合物创建方法具有“根据表示生物高分子的立体结构的信息确定生物高分子的活性部位的工序”。通过附录31,也与附录25相同地,能够根据生物高分子的立体结构,通过解决逆向问题而新创建出与该活性部位匹配的化合物。
(附录32)
附录32所涉及的筛选方法使用了附录21所涉及的特征量计算方法,所述筛选方法具有:输入表示生物高分子的一次排列的信息的工序;根据信息生成生物高分子的立体结构的工序;及根据立体结构确定生物高分子的活性部位的工序,在对象结构体指定工序中,指定多个搜索对象化合物的结构式,在立体结构生成工序中,指定生成与活性部位键合的口袋结构体的立体结构的方法和从多个搜索对象化合物的结构式生成多个搜索对象化合物的立体结构的方法,在特征量计算工序中,指定探针的结构式、从探针的结构式生成探针的立体结构的方法、对探针相对于口袋结构体的聚集程度进行定量化的方法和根据聚集程度计算出特征量的方法。附录32所涉及的筛选方法还具有:指定口袋结构体的特征量与多个搜索对象化合物的特征量的相似度的计算方法的工序;指定相似度的阈值的工序;及根据生物高分子的活性部位的立体结构从多个搜索对象化合物提取特征量与针对生物高分子的特征量的相似度为阈值以上的化合物的工序。附录32所涉及的筛选方法对附录24所涉及的筛选方法进行了改变,输入生物高分子的一次排列来代替生物高分子的活性部位的立体结构。因此,附录32所涉及的筛选方法具有“根据表示生物高分子的一次排列的信息生成生物高分子的立体结构的工序”和“根据生物高分子的立体结构确定生物高分子的活性部位的工序”。通过附录32,也与附录24相同地,能够根据生物高分子的一次排列信息,从现有的化合物组(多个搜索对象化合物)筛选与该活性部位匹配的化合物。
(附录33)
在附录33所涉及的化合物创建方法中,使用特征量计算方法,所述特征量计算方法具有:立体结构生成工序,针对对象结构体生成立体结构;及特征量计算工序,计算出在三维空间中对立体结构的周围的1种类以上的探针的聚集程度进行定量化而获得的特征量,探针为分开配置具有实数电荷且产生范德华力的多个点的结构体。并且,附录33所涉及的化合物创建方法具有:输入表示生物高分子的一次排列的信息的工序;根据信息生成生物高分子的立体结构的工序;及根据立体结构确定生物高分子的活性部位的工序,在立体结构生成工序中,指定生成与活性部位键合的口袋结构体的立体结构的方法和创建出的化合物的立体结构的生成方法,在特征量计算工序中,指定探针的结构式、从探针的结构式生成探针的立体结构的方法、对探针相对于口袋结构体的聚集程度进行定量化的方法和对探针的聚集程度进行定量化并计算出口袋结构体的特征量的方法。附录33所涉及的化合物创建方法还具有:指定口袋结构体的特征量与化合物的特征量的相似度的计算方法的工序;指定相似度的阈值的工序;指定根据特征量生成化合物的立体结构时的条件的工序;及在生成方法及条件下,生成具有与口袋结构体的特征量的相似度为阈值以上的特征量的化合物的立体结构的工序。
附录33所涉及的化合物创建方法对附录25所涉及的化合物创建方法进行了改变,输入生物高分子的一次排列来代替生物高分子的活性部位的立体结构。因此,附录33所涉及的化合物创建方法具有“根据表示生物高分子的一次排列的信息生成生物高分子的立体结构的工序”和“根据生物高分子的立体结构确定生物高分子的活性部位的工序”。通过附录33,也与附录25相同地,能够根据生物高分子的一次排列,通过解决逆向问题而新创建出与该活性部位匹配的化合物。
(附录34)
附录34所涉及的筛选方法使用了附录21所涉及的特征量计算方法,所述筛选方法具有针对多个键合化合物输入立体结构的工序,在对象结构体指定工序中,指定多个搜索对象化合物的结构式,在立体结构生成工序中,指定生成多个搜索对象化合物的立体结构的方法,在特征量计算工序中,指定探针的结构式、从探针的结构式生成探针的立体结构的方法、对探针相对于多个键合化合物的每一个的聚集程度进行定量化的方法和根据聚集程度计算出特征量的方法。附录34所涉及的筛选方法还具有:指定针对多个键合化合物的每一个的键合力的值的工序;指定从针对多个键合化合物的立体结构与键合力的值的组生成化合物的键合力的预测模型的方法的工序;指定键合力的目标值的工序;及使用预测模型从多个搜索对象化合物提取具有目标值的键合力的化合物的工序。
附录34所涉及的筛选方法对附录26所涉及的筛选方法进行了改变,输入键合化合物的立体结构而不是键合化合物的结构式。因此,在附录21所涉及的特征量计算方法的工序中,针对键合化合物,不需要用于生成立体结构的工序(对象结构体指定工序和立体结构生成工序)。通过附录34所涉及的筛选方法,也与附录26相同地,能够根据多个化合物的立体结构和键合力的值的组(set),从现有的化合物组(多个搜索对象化合物)筛选具有目标的键合力的化合物。另外,在附录34中,也能够使用附录18、19所示的预测模型生成方法及预测模型。
(附录35)
在附录35所涉及的化合物创建方法中,使用特征量计算方法,所述特征量计算方法具有:立体结构生成工序,针对对象结构体生成立体结构;及特征量计算工序,计算出在三维空间中对立体结构的周围的1种类以上的探针的聚集程度进行定量化而获得的特征量,探针为分开配置具有实数电荷且产生范德华力的多个点的结构体。并且,附录35所涉及的化合物创建方法具有针对多个键合化合物的每一个输入表示立体结构的信息的工序,在立体结构生成工序中,指定创建出的化合物的立体结构的生成方法,在特征量计算工序中,指定探针的结构式、从探针的结构式生成探针的立体结构的方法、对探针的聚集程度进行定量化的方法和根据聚集程度计算出特征量的方法。附录35所涉及的化合物创建方法还具有:指定针对多个键合化合物的每一个的键合力的值的工序;指定从针对多个键合化合物的立体结构与键合力的值的组生成化合物的键合力的预测模型的方法的工序;指定键合力的目标值的工序;指定根据特征量生成化合物的立体结构时的条件的工序;及在生成方法及条件下,生成键合力为目标值以上的化合物的立体结构的工序。
附录35所涉及的化合物创建方法对附录27所涉及的化合物创建方法进行了改变,输入键合化合物的立体结构而不是键合化合物的结构式。因此,针对键合化合物,不需要用于生成立体结构的工序(对象结构体指定工序和立体结构生成工序)。通过附录35所涉及的化合物创建方法,也与附录27相同地,能够使用多个化合物的立体结构和键合力的值的组(set),通过解决逆向问题而新创建出具有目标的键合力的化合物。另外,在附录35中,也能够使用附录18、19所示的预测模型生成方法及预测模型。
(附录36)
附录36所涉及的筛选方法使用了附录21所涉及的特征量计算方法,所述筛选方法具有针对键合化合物输入特征量的工序,在对象结构体指定工序中,指定多个搜索对象化合物的结构式,在立体结构生成工序中,指定从多个搜索对象化合物的结构式生成多个搜索对象化合物的立体结构的方法,在特征量计算工序中,指定探针的结构式、从探针的结构式生成探针的立体结构的方法和对探针的聚集程度进行定量化并计算出特征量的方法。附录36所涉及的筛选方法还具有:指定键合化合物的特征量与多个搜索对象化合物的特征量的相似度的计算方法的工序;指定相似度的阈值的工序;及从多个化合物提取特征量与针对化合物的特征量的相似度为阈值以上的化合物的工序。附录36所涉及的筛选方法对附录22所涉及的筛选方法进行了改变,输入特征量而不是键合化合物的结构式。因此,针对键合化合物,不需要附录21所涉及的特征量计算方法的各工序(对象结构体指定工序、立体结构生成工序及特征量计算工序)。通过附录36所涉及的筛选方法,也与附录22相同地,能够根据一个键合化合物的特征量,从现有的化合物组(多个搜索对象化合物)筛选与该键合化合物具有相同的键合力的化合物。
(附录37)
在附录37所涉及的化合物创建方法中,使用特征量计算方法,所述特征量计算方法具有:立体结构生成工序,针对对象结构体生成立体结构;及特征量计算工序,计算出在三维空间中对立体结构的周围的1种类以上的探针的聚集程度进行定量化而获得的特征量,探针为分开配置具有实数电荷且产生范德华力的多个点的结构体。并且,附录37所涉及的化合物创建方法具有针对键合化合物输入特征量的工序,在立体结构生成工序中,指定创建出的化合物的立体结构的生成方法,在特征量计算工序中,指定探针的结构式、从探针的结构式生成探针的立体结构的方法和对探针的聚集程度进行定量化并计算出键合化合物的特征量的方法。附录37所涉及的化合物创建方法还具有:指定键合化合物的特征量与其他化合物的特征量的相似度的计算方法的工序;指定相似度的阈值的工序;指定根据特征量生成化合物的立体结构时的条件的工序;及在生成方法及条件下,生成具有与键合化合物的特征量的相似度为阈值以上的特征量的化合物的立体结构的工序。
附录37所涉及的化合物创建方法对附录23所涉及的化合物创建方法进行了改变,输入特征量而不是键合化合物的结构式。因此,针对键合化合物,不需要特征量计算方法的各工序(对象结构体指定工序、立体结构生成工序及特征量计算工序)。通过附录37所涉及的化合物创建方法,也与附录23相同地,能够根据一个键合化合物的特征量,通过解决逆向问题而新创建出具有与该键合化合物相同的键合力的化合物。
(附录38)
附录38所涉及的筛选方法使用了附录21所涉及的特征量计算方法,所述筛选方法具有输入针对键合化合物的特征量的工序,在对象结构体指定工序中,指定多个搜索对象化合物的结构式,在立体结构生成工序中,指定生成多个搜索对象化合物的立体结构的方法,在特征量计算工序中,指定探针的结构式和从探针的结构式生成探针的立体结构的方法。附录38所涉及的筛选方法还具有:指定针对多个键合化合物的每一个的键合力的值的工序;指定从针对多个键合化合物的特征量与键合力的值的组生成化合物的键合力的预测模型的方法的工序;指定键合力的目标值的工序;及使用预测模型从多个搜索对象化合物提取具有目标值的键合力的化合物的工序。
附录38所涉及的筛选方法对附录26所涉及的筛选方法进行了改变,输入特征量而不是键合化合物的结构式。因此,针对键合化合物,不需要附录21所涉及的特征量计算方法的各工序(对象结构体指定工序、立体结构生成工序及特征量计算工序)。通过附录38所涉及的筛选方法,也与附录26相同地,能够使用多个化合物的特征量和键合力的值的组(set),从现有的化合物组(多个搜索对象化合物)筛选具有目标的键合力的化合物。另外,在附录38中,也能够使用附录18、19所示的预测模型生成方法及预测模型。
(附录39)
附录39所涉及的化合物创建方法使用了附录21所涉及的特征量计算方法,所述化合物创建方法具有输入针对多个键合化合物的特征量的工序,在立体结构生成工序中,指定创建出的化合物的立体结构的生成方法。附录39所涉及的化合物创建方法还具有:指定针对多个键合化合物的每一个的特征量及键合力的值的工序;指定从针对多个键合化合物的特征量与键合力的值的组生成化合物的键合力的预测模型的方法的工序;指定键合力的目标值的工序;指定根据特征量生成化合物的立体结构时的条件的工序;及在生成方法及条件下,生成键合力为目标值以上的化合物的立体结构的工序。附录39所涉及的化合物创建方法对附录27所涉及的化合物创建方法进行了改变,输入特征量而不是键合化合物的结构式。因此,针对键合化合物,不需要附录21所涉及的特征量计算方法的各工序(对象结构体指定工序、立体结构生成工序及特征量计算工序)。通过附录39所涉及的化合物创建方法,也与附录27相同地,能够使用多个化合物的特征量和键合力的值的组(set),通过解决逆向问题而新创建出具有目标的键合力的化合物。另外,在附录39中,也能够使用附录18、19所示的预测模型生成方法及预测模型。
(附录40)
附录40所涉及的化合物信息处理方法使用了附录21所涉及的特征量计算方法,其中,在对象结构体指定工序中指定化合物作为对象结构体,在立体结构生成工序中生成基于多个原子的化合物的立体结构,在特征量计算工序中,计算出在三维空间中对立体结构生成工序中所生成的化合物的立体结构的周围的、作为探针的氨基酸的聚集程度进行定量化而获得的特征量即第1特征量。附录40所涉及的化合物信息处理方法还具有:将氨基酸相对于化合物的聚集程度与存储有表示针对多个蛋白质的立体结构的信息的数据库进行对照的工序;及根据对照从多个蛋白质提取化合物键合的目标蛋白质的候选且根据针对化合物的氨基酸的聚集程度与包含蛋白质的口袋的区域中的氨基酸的分布图案的匹配度提取目标蛋白质的候选的工序。作为蛋白质的数据库,例如能够使用PDB(Protein Data Bank),但是并不限定于该例。
在药物研发中,存在“要确定成为新型药剂的候选的化合物作用于哪一个蛋白质(目标蛋白质)”等需求。附录40所涉及的化合物信息处理方法对应于这种需求,通过图65的流程图所示的处理提取目标蛋白质的候选。可以输出(显示在显示装置上等)所提取的候选的名称或表示立体结构的信息。关于这种处理,例如能够通过第1~第3实施方式所涉及的装置(筛选装置10、化合物创建装置20、医药候选化合物搜索装置30)或具有与这些装置相同的结构的装置、系统来进行。另外,也可以举出使这些装置或系统进行图65的流程图所示的处理的程序及记录有这种程序的计算机能够读取的代码的非临时性记录介质作为本发明的方式。
<关于附录22~40的输出例>
(1)相对于1个化合物的信息的输出例
在附录22至27所涉及的筛选方法及化合物创建方法中,能够将各氨基酸的聚集程度与化合物的结构式或其他描述符(特征量)一起表示为图或数值。例如,如图66所示,与化合物的名称、结构式及立体结构对应地,能够三维地表示通过本发明所涉及的特征量计算方法计算出的各氨基酸的聚集程度。并且,如图67所示,能够针对选择原子组(在图67的右端列中由圆圈及箭头表示的部分)的份额显示各氨基酸的聚集程度。
如图66、图61所例示,聚集程度的显示方式可以为三维并写实的,也可以为二维和/或简单的。例如,如图68所示,在以作为对象的化合物为中心的虚拟的圆(在图68中,由虚线显示)的圆周上,能够由粗细及颜色不同的圆弧表示探针(氨基酸等)的聚集程度。在该方式中,例如能够由粗的红线显示聚集程度高的范围,并且由细的蓝线显示聚集程度低的范围。颜色可以使用多种颜色,也可以由单色的浓淡(例如,白色、灰色、黑色等)显示。并且,聚集程度非常低(或为零)的范围可以不设定线。另外,图68所示的圆弧的粗细及颜色与聚集程度的关系为例示。
在图68的方式中,表示了各氨基酸在聚集程度的整体中的份额的例为图69。图69(a)部分表示某个氨基酸的聚集程度,图69(b)部分表示另一个氨基酸的聚集程度。并且,如图70所示,可以显示选择部分(在图70中,由实线的圆圈及箭头表示的部分)在聚集程度中的份额。
图71是表示在二维图表中显示探针的聚集程度的状态的图。图71的横轴表示以指定方向为基准的角度,纵轴表示聚集程度。图71是表示探针整体(例如20种类的氨基酸)的聚集程度的图,将其分解成各探针(例如,每个氨基酸)并示出的图为图72。
图73是表示特征量的伪三维显示的例的图。在图73所示的例中,通过在世界地图的制作中所使用的摩尔威德投影二维地投影并示出探针在以对象化合物为中心的球面上的聚集程度。在图73(a)部分中,由对应于纬度和经度的线表示球面上的区域,在图73(b)部分中,与图68~图64相同地,使聚集程度的高低与颜色对应而示出。例如,能够由红色显示聚集程度高的区域(由虚线包围的区域等),并且由蓝色显示聚集程度低的区域。另外,图68~图67中的例概念性地表示显示方式,而不表示相对于实际化合物的聚集程度。
通过图66~图67所例示的方式,用户能够在视觉上容易掌握探针的聚集程度。关于这些图中的聚集程度等,例如能够由第1~第3方式所涉及的装置(筛选装置10、化合物创建装置20、医药候选化合物搜索装置30)的显示控制部150按照用户的操作显示在监视器310(显示装置)上(在变形例或附录中也相同)。
(2)关于维持键合力时的筛选、创建的信息的输出例
作为用于容易发现键合化合物或生物高分子的活性部位及成为筛选或创建的对象的化合物的差异的输出方式,可以考虑以下的例。例如,可以考虑“将各氨基酸的聚集程度的差分表述并出示为相似度”或“将各氨基酸的聚集程度的差分出示为图或数值”等方式。并且,也可以考虑“通过获取各氨基酸的聚集程度的差分,检测匹配的聚集程度的部分,并将其与每一个原子的份额的聚集程度进行对照,从而确定对应于匹配的聚集程度的部分的原子,并在结构式上出示该原子”等方式。并且,在通过解决逆向问题而创建出立体结构时,可以考虑除了化合物的结构式以外,还出示各氨基酸的聚集程度逐渐接近键合化合物或生物高分子的活性部位的聚集程度的状态。图74是表示对于目标化合物(图中的“lig001”)将筛选化合物(“lig002”等)的各氨基酸的聚集程度的差分表述为相似度的例的图。
(3)关于用于提高键合力的筛选、创建的信息的输出例
对从多个键合化合物和键合力的值的组的、关于用于提高键合力的筛选、创建的信息的输出进行说明。例如,如图75所示,可以考虑出示键合力的预测模型的性能(实际测量与预测的对应,R2等)。并且,可以考虑将对于键合力来说重要的因素出示为各氨基酸的聚集程度或结构式的部分。并且,也可以考虑输出化合物的键合力的预测值。
(4)将氨基酸进行分组的输出
通过上述(1)~(3)的方式,用户能够通过视觉容易掌握氨基酸(探针)的聚集程度或与其相关的信息,但是在输出时,可以考虑不是输出氨基酸的所有信息,而是将各氨基酸按亲水性或疏水性或者中性、碱性或酸性等素性进行分组,并输出将其分别平均化而获得的结果。
(附录41)
附录41所涉及的化合物搜索服务器具备:接收部,从客户端装置接收表示第1化合物的立体结构的第1信息和确定成为搜索对象的多个化合物的第2信息;提取部,根据通过第1至第4方式中的任一个所涉及的特征量计算方法计算出的针对第1化合物的特征量和针对多个化合物的特征量,从多个化合物提取具有与针对第1化合物的特征量的相似度在指定的范围内的目标特征量的目标化合物;及发送部,将表示目标化合物的立体结构的第3信息发送到客户端装置中。
(附录42)
附录42所涉及的客户端装置具备:发送部,将第1信息及第2信息发送到附录41所涉及的化合物搜索服务器中;接收部,从化合物搜索服务器接收第3信息;及输出部,输出第3信息。并且,也可以举出使计算机执行将第1信息及第2信息发送到附录41所涉及的化合物搜索服务器中的发送功能、从化合物搜索服务器接收第3信息的接收功能和输出第3信息的输出功能的程序或记录有该程序的计算机能够读取的代码的非临时性记录介质作为附录42的变形例。
(附录43)
附录43所涉及的化合物搜索系统包括附录41所涉及的化合物搜索服务器和附录42所涉及的客户端装置。
<附录41~43所涉及的化合物搜索系统的结构例>
图76是表示附录41~43所涉及的化合物搜索系统700(化合物搜索系统)的结构的图。化合物搜索系统700包括化合物搜索服务器710(化合物搜索服务器)及客户端装置730(客户端装置),这些通过网络NW连接而构成。化合物搜索服务器710具有数据库720,所述数据库720中存储有蛋白质或其他化合物的立体结构、特性(例如特征量、键合力、物性值、特性值)等。化合物搜索服务器710可以访问PDB等现有的数据库。并且,如图77的功能框图所示,化合物搜索服务器710具备接收部712(接收部)、提取部714(提取部)及发送部716(发送部)。另一方面,如图76、图72所示,客户端装置730的处理部740具备发送部742(发送部)、接收部744(接收部)及输出部(746)。如第1实施方式的上述内容,这些功能能够使用1个以上的CPU等处理器来实现,并且该处理器执行附录41所涉及的处理。对客户端装置730或后述其他附录也相同。
化合物搜索系统700可以由一个经营者拥有和/或使用这些构成要件。并且,例如化合物搜索服务的提供者可以拥有化合物搜索服务器710及数据库720而用户可以拥有和/或使用客户端装置730。此时,客户端装置730的用户通过操作操作部760等来指定1个以上的化合物的结构式(“第1信息”的一方式;可以为三维图像)及确定成为搜索对象的多个化合物的信息(“第2信息”的一方式),客户端装置730将这些信息经由处理部740的发送部742发送到化合物搜索服务器710中。用户可以指定各化合物的结构式或立体结构作为“确定成为搜索对象的多个化合物的信息”,也可以指定存储有化合物的立体结构等的数据库的名称(例如,PDB(Protein Data Bank)等)或在网络上的地址(URL(Uniform ResourceLocator:统一资源定位器)等)。
从客户端装置730接收了信息(第1信息及第2信息)的化合物搜索服务器710通过附录41的上述处理来提取目标化合物,并将表示目标化合物的立体结构的信息(结构式或三维图像;第3信息)发送到客户端装置730中。客户端装置730输出(显示在监视器772上等)从化合物搜索服务器710接收的信息(第3信息)。由此,客户端装置730的用户能够接收从自己指定的“成为搜索对象的多个化合物”提取的、与“1个以上的化合物”具有相同的键合力的另一个化合物的结构式或其键合力的值。化合物搜索服务器710的拥有者等服务提供者可以合成提供结构式等的化合物的实物(实际化合物)并提供给用户。
(附录44)
附录44所涉及的化合物创建服务器具备:接收部,从客户端装置接收表示第1化合物的立体结构的第1信息;计算部,根据第1信息并使用第1至第4方式中的任一个所涉及的特征量计算方法计算出针对第1化合物的特征量;生成部,根据特征量和附录15至17、23、25、27、29、31、33、35、37、39中的任一个所涉及的化合物创建方法生成表示第2化合物的立体结构的第2信息,所述第2化合物具有目标特征量且目标特征量在对于特征量所指定的范围内;及发送部,将第2信息发送到客户端装置中。
(附录45)
附录45所涉及的客户端装置具备:发送部,将表示第1化合物的立体结构的第1信息发送到附录44所涉及的化合物创建服务器中;接收部,从化合物创建服务器接收第2信息;输出部,输出第2信息。
(附录46)
附录46所涉及的化合物创建系统包括附录44所涉及的化合物创建服务器和附录45所涉及的客户端装置。
<附录44~46所涉及的化合物创建系统的结构例>
附录44~46所涉及的化合物创建系统能够采用与附录41~43所涉及的化合物搜索系统700(化合物搜索系统)相同的结构(服务器和客户端装置经由网络连接的结构;参考图76)。其中,如图79的功能框图所示,附录44所涉及的化合物创建服务器710A(化合物创建服务器)具有接收部712(接收部)、发送部716(发送部)、计算部717(计算部)及生成部718(生成部)。化合物创建系统中的客户端装置能够使用与图76所示的客户端装置730相同的结构。
在这种结构下,客户端装置730的用户通过操作操作部760等来指定1个以上的化合物的结构式(“第1信息”的一方式;可以为三维图像),客户端装置730将该信息经由处理部740的发送部742发送到化合物创建服务器710A中。客户端装置730可以一起发送目标特征量及特征量的范围。从客户端装置730接收了信息(第1信息)的化合物创建服务器710A通过附录44的上述处理来生成(创建出化合物)表示特征量在对于目标特征量所指定的范围内的化合物(第2化合物)的立体结构的信息(结构式或三维图像;第2信息),并将该信息发送到客户端装置730中。化合物创建服务器710A可以计算出针对第2化合物的键合力并将其一起发送。客户端装置730输出(显示在监视器772上等)从化合物创建服务器710A接收的信息(第2信息)。由此,客户端装置730的用户能够接收与自己指定的“1个以上的化合物”具有相同的键合力(特征量在对于目标特征量所指定的范围内)的现有或新型的化合物的结构式或其键合力的值。化合物创建服务器710A的拥有者等服务提供者可以合成提供结构式等的化合物的实物(实际化合物)并提供给用户。
(附录47)
附录47所涉及的化合物搜索服务器具有:接收部,从客户端装置接收表示针对多个化合物的立体结构的第1信息及表示键合力的第2信息和确定多个搜索对象化合物的立体结构的第3信息;生成部,从针对多个化合物的第1信息及第2信息生成预测模型,所述预测模型根据第1至第4方式中的任一个所涉及的特征量计算方法所涉及的特征量输出化合物的键合力;计算部,针对多个搜索对象化合物的每一个,根据第3信息并通过第1至第4方式中的任一个所涉及的特征量计算方法计算出特征量;估计部,针对多个搜索对象化合物的每一个,将计算出的特征量适用于预测模型中来估计键合力;提取部,从多个搜索对象化合物提取具有比针对多个化合物的键合力高的键合力的化合物;及发送部,将表示所提取的化合物的立体结构的信息及表示所提取的化合物的键合力的信息发送到客户端装置中。
(附录48)
附录48所涉及的客户端装置具备:发送部,将表示针对多个化合物的立体结构的第1信息及表示键合力的第2信息和确定多个搜索对象化合物的立体结构的第3信息发送到附录47所涉及的化合物搜索服务器中;接收部,从化合物搜索服务器接收由化合物搜索服务器提取的、表示化合物的立体结构的信息及表示所提取的化合物的键合力的信息;及输出部,输出表示化合物的立体结构的信息及表示所提取的化合物的键合力的信息。
(附录49)
附录49所涉及的化合物搜索系统包括附录47所涉及的化合物搜索服务器和附录48所涉及的客户端装置。
<附录47~49所涉及的化合物搜索系统的结构例>
附录47~49所涉及的化合物搜索系统能够采用与附录41~43所涉及的化合物搜索系统700(化合物搜索系统)相同的结构(服务器和客户端装置经由网络连接的结构;参考图76)。其中,如图80的功能框图所示,附录47所涉及的化合物搜索服务器710B(化合物搜索服务器)具有接收部712(接收部)、提取部714(提取部)、发送部716(发送部)、计算部717(计算部)、生成部718(生成部)及估计部719(估计部)。化合物搜索系统中的客户端装置能够使用与图76所示的客户端装置730相同的结构。
在这种结构下,客户端装置730的用户通过操作操作部760等来指定表示针对多个化合物的立体结构的第1信息(结构式、三维图像等)及表示键合力的第2信息和确定多个搜索对象化合物的立体结构的第3信息,客户端装置730将该信息经由处理部740的发送部742发送到化合物搜索服务器710B中。用户可以指定各化合物的结构式或立体结构作为“表示多个化合物的立体结构的信息”,也可以指定存储有化合物的立体结构等的数据库的名称(例如,PDB等)或在网络上的地址(URL等)。从客户端装置730接收了信息(第1~第3信息)的化合物搜索服务器710B通过附录47的上述处理来进行化合物的提取,并将表示该化合物的立体结构的信息及表示键合力的信息发送到客户端装置730中。客户端装置730输出(显示在监视器772上等)从化合物搜索服务器710B接收的信息。由此,客户端装置730的用户能够接收具有比自己指定的化合物更高的键合力的新型的化合物的结构式或其键合力的值。化合物搜索服务器710的拥有者等服务提供者可以合成提供结构式等的化合物的实物(实际化合物)并提供给用户。
(附录50)
附录50所涉及的化合物创建服务器具有:接收部,从客户端装置接收表示针对多个化合物的立体结构的第1信息及表示键合力的第2信息;生成部,从针对多个化合物的第1信息及第2信息生成预测模型,所述预测模型根据第1至第4方式中的任一个所涉及的特征量计算方法所涉及的特征量输出化合物的键合力;生成部,根据预测模型和附录15至17、23、25、27、29、31、33、35、37、39中的任一个所涉及的化合物创建方法生成表示具有比针对多个化合物的键合力高的键合力的化合物的立体结构的信息;及发送部,将所生成的信息及表示对应于所生成的信息的化合物的键合力的信息发送到客户端装置中。
(附录51)
附录51所涉及的客户端装置具备:发送部,将表示针对多个化合物的立体结构的第1信息及表示键合力的第2信息发送到附录50所涉及的化合物创建服务器中;接收部,从化合物创建服务器接收由化合物创建服务器生成的表示化合物的立体结构的信息及表示对应于所生成的信息的化合物的键合力的信息;输出部,输出从化合物创建服务器接收的表示立体结构的信息及表示键合力的信息。
(附录52)
附录52所涉及的化合物创建系统包括附录50所涉及的化合物创建服务器和附录51所涉及的客户端装置。
<附录50~52所涉及的化合物创建系统的结构例>
通过上述结构,附录50~52所涉及的化合物创建系统的客户端装置的用户能够接收具有比自己指定的化合物更高的键合力的现有或新型的化合物的结构式或其键合力的值。化合物搜索服务器710的拥有者等服务提供者可以合成提供结构式等的化合物的实物(实际化合物)并提供给用户。
符号说明
10-筛选装置,20-化合物创建装置,30-医药候选化合物搜索装置,100-处理部,101-处理部,102-处理部,103-处理部,104-处理部,105-处理部,110-信息输入部,120-特征量计算部,122-特征量计算部,130-相似度计算部,132-生成器构建部,133-键合力预测部,134-特性值计算部,136-结构特征量计算部,140-化合物提取部,142-化合物立体结构生成部,150-显示控制部,160-C PU,170-ROM,180-RAM,200-存储部,201-存储部,202-存储部,210-结构信息,220-立体结构信息,230-三维AAM描述符,240-不变量化AAM描述符,250-相似度信息,260-化合物提取结果,270-立体结构生成结果,300-显示部,310-监视器,400-操作部,410-键盘,420-鼠标,500-外部服务器,510-外部数据库,600-层次网络,610-输入层,620-中间层,622-第1中间层,624-第2中间层,625-层,627-层,630-输出层,700-化合物搜索系统,710-化合物搜索服务器,710A-化合物创建服务器,710B-化合物搜索服务器,712-接收部,714-提取部,716-发送部,717-计算部,718-生成部,719-估计部,720-数据库,730-客户端装置,740-处理部,742-发送部,744-接收部,750-存储部,760-操作部,762-键盘,764-鼠标,770-显示部,772-监视器,A1-氨基酸,A2-氨基酸,A3-氨基酸,AA2AR-蛋白质,ABL1-蛋白质,C0-化合物,C1-化合物,C2-化合物,C3-化合物,C4-化合物,C5-化合物,C6-化合物,NW-网络,PO-口袋,PS-口袋结构体,S100~S108-特征量计算方法的各步骤,S200~S206-特征量计算方法的各步骤,S300~S304-目标化合物提取方法的各步骤,S310~S326-筛选方法的各步骤,S400~S404-目标化合物提取方法的各步骤,S500~S504-立体结构创建方法的各步骤,S600~S604-立体结构创建方法的各步骤,TP-目标蛋白质。

Claims (19)

1.一种特征量计算方法,其具有:
对象结构体指定工序,指定由具有化学性质的多个单元结构体构成的对象结构体;及
特征量计算工序,计算出在三维空间中对所述对象结构体的立体结构的周围的1种类以上的探针的聚集程度进行定量化而获得的特征量,并且使用通过机器学习构成的生成器由所述对象结构体计算出所述特征量,
所述探针为具有实数电荷且产生范德华力的多个点分开配置而成的结构体。
2.根据权利要求1所述的特征量计算方法,其中,
在所述对象结构体指定工序中,指定化合物作为所述对象结构体,
在所述特征量计算工序中,使用所述生成器计算出在所述三维空间中对所述化合物的所述立体结构的周围的、作为所述探针的氨基酸的聚集程度进行定量化而获得的特征量即第1特征量。
3.根据权利要求1所述的特征量计算方法,其中,
在所述对象结构体指定工序中,指定与目标蛋白质的活性部位即口袋键合的口袋结构体作为所述对象结构体,
在所述特征量计算工序中,使用所述生成器计算出在所述三维空间中对基于多个虚拟球体的所述口袋结构体的立体结构的周围的、作为所述探针的氨基酸的聚集程度进行定量化而获得的特征量即第2特征量。
4.根据权利要求1所述的特征量计算方法,其中,
在所述对象结构体指定工序中,指定化合物作为所述对象结构体,
在所述特征量计算工序中,使用所述生成器计算出在所述三维空间中对探针的如下聚集程度进行定量化而获得的特征量即第3特征量,所述聚集程度为所述化合物的所述立体结构的周围的所述探针的聚集程度,且将1种类以上的核酸碱基、1种类以上的脂质分子、1种类以上的单糖分子、水及由多个原子构成的1种类以上的离子中的1个以上作为所述探针。
5.一种特征量计算程序,其使计算机执行权利要求1至4中任一项所述的特征量计算方法。
6.一种记录介质,其为非临时且计算机能够读取的记录介质,在存储于所述记录介质中的指令被计算机读取的情况下,使计算机执行权利要求5所述的特征量计算程序。
7.一种特征量计算装置,其具备:
对象结构体指定部,指定由具有化学性质的多个单元结构体构成的对象结构体;及
特征量计算部,计算出在三维空间中对所述对象结构体的立体结构的周围的1种类以上的探针的聚集程度进行定量化而获得的特征量,并且使用通过机器学习构成的生成器由所述对象结构体计算出所述特征量,
所述探针为具有实数电荷且产生范德华力的多个点分开配置而成的结构体。
8.一种筛选方法,其从多个化合物提取与目标蛋白质键合的目标化合物,所述筛选方法具有:
存储工序,针对所述多个化合物的每一个,将基于多个原子的化合物的立体结构与使用权利要求2所述的特征量计算方法针对所述化合物的所述立体结构计算出的所述第1特征量建立关联并进行存储;
特征量计算工序,针对确认到与所述目标蛋白质的键合的化合物即配体,使用权利要求2所述的特征量计算方法计算出所述第1特征量;
相似度计算工序,计算出针对所述多个化合物的所述第1特征量与针对所述配体的所述第1特征量的相似度;及
化合物提取工序,根据所述相似度从所述多个化合物中提取所述目标化合物。
9.一种筛选方法,其从多个化合物中提取与目标蛋白质键合的目标化合物,所述筛选方法具有:
存储工序,针对所述多个化合物的每一个,将基于多个原子的化合物的立体结构与使用权利要求2所述的特征量计算方法计算出的所述第1特征量建立关联并进行存储;
特征量计算工序,针对所述目标蛋白质的所述口袋结构体,使用权利要求3所述的特征量计算方法计算出所述第2特征量;
相似度计算工序,计算出针对所述多个化合物的所述第1特征量与针对所述口袋结构体的所述第2特征量的相似度;及
化合物提取工序,根据所述相似度从所述多个化合物中提取所述目标化合物。
10.一种筛选方法,其从多个化合物中提取与除了蛋白质以外的目标生物高分子键合的目标化合物,所述筛选方法具有:
存储工序,针对所述多个化合物的每一个,将基于多个原子的化合物的立体结构与使用权利要求4所述的特征量计算方法针对所述化合物的所述立体结构计算出的所述第3特征量建立关联并进行存储;
特征量计算工序,针对确认到与除了所述蛋白质以外的所述目标生物高分子键合的化合物即键合化合物,使用权利要求4所述的特征量计算方法计算出所述第3特征量;
相似度计算工序,计算出针对所述多个化合物的所述第3特征量与针对所述键合化合物的所述第3特征量的相似度;及
化合物提取工序,根据所述相似度从所述多个化合物中提取所述目标化合物。
11.一种筛选方法,其具有:
输入工序,针对多个化合物输入表示立体结构的信息;
特征量计算工序,针对所述多个化合物的每一个,根据所述信息并通过权利要求1至4中任一项所述的特征量计算方法计算出所述特征量;
特性值计算工序,针对所述多个化合物的每一个,根据所述信息计算出表示物性的物性值和/或表示毒性的毒性值;及
提取工序,从所述多个化合物中提取所述特征量的相似度满足目标值且所述物性值和/或所述毒性值满足目标值的化合物。
12.一种筛选方法,其具有:
输入工序,针对多个化合物输入表示立体结构的信息;
第1特征量计算工序,针对所述多个化合物的每一个,根据所述信息并通过权利要求1至4中任一项所述的特征量计算方法计算出所述特征量;
第2特征量计算工序,针对所述多个化合物的每一个,根据所述信息计算出表示化合物的结构的结构特征量;及
提取工序,从所述多个化合物中提取所述特征量的相似度满足目标值且所述结构特征量的相似度为阈值以下的化合物。
13.一种筛选方法,其具有:
输入工序,针对多个化合物输入表示立体结构的信息;
特征量计算工序,针对所述多个化合物的每一个,根据所述信息并通过权利要求1至4中任一项所述的特征量计算方法计算出所述特征量;
预测工序,针对所述多个化合物的每一个,使用根据所述特征量输出与其他化合物的键合力的预测模型来预测所述键合力;及
提取工序,从所述多个化合物中提取所述键合力满足目标值的化合物。
14.一种筛选方法,其具有:
输入工序,针对多个化合物输入表示立体结构的信息;
设定工序,设定与其他化合物的键合力的目标值;
估计工序,使用根据通过权利要求1至4中任一项所述的特征量计算方法计算出的特征量输出所述键合力的预测模型来估计对应于所述目标值的所述特征量;
特征量计算工序,针对所述多个化合物的每一个,根据所述信息并通过权利要求1至4中任一项所述的特征量计算方法计算出所述特征量;及
提取工序,根据所述计算的结果,从所述多个化合物中提取具有与所述估计的所述特征量的相似度为阈值以上的所述特征量的化合物。
15.一种筛选程序,其使计算机执行权利要求8至14中任一项所述的筛选方法。
16.一种记录介质,其为非临时且计算机能够读取的记录介质,在存储于所述记录介质中的指令被计算机读取的情况下,使计算机执行权利要求15所述的筛选程序。
17.一种化合物创建方法,其从多个化合物创建出与目标蛋白质键合的目标化合物的立体结构,所述化合物创建方法具有:
存储工序,针对多个化合物的每一个,将基于多个原子的化合物的立体结构与使用权利要求2所述的特征量计算方法计算出的所述第1特征量建立关联并进行存储;
特征量计算工序,针对确认到与所述目标蛋白质的键合的化合物即配体,使用权利要求2所述的特征量计算方法计算出所述第1特征量;
生成器构建工序,通过将所述多个化合物的所述立体结构设为教师数据且将所述第1特征量设为解释变量的机器学习来构建生成器;及
化合物立体结构生成工序,使用所述生成器从所述配体的所述第1特征量生成所述目标化合物的立体结构。
18.一种化合物创建方法,其从多个化合物创建出与目标蛋白质键合的目标化合物的立体结构,所述化合物创建方法具有:
存储工序,针对所述多个化合物的每一个,将与使用权利要求2所述的特征量计算方法计算出的所述第1特征量建立关联并进行存储;
特征量计算工序,针对所述目标蛋白质的所述口袋结构体,使用权利要求3所述的特征量计算方法计算出所述第2特征量;
生成器构建工序,通过将所述多个化合物的立体结构设为教师数据且将所述第1特征量设为解释变量的机器学习来构建生成器;及
化合物立体结构生成工序,使用所述生成器从所述口袋结构体的所述第2特征量生成所述目标化合物的立体结构。
19.一种化合物创建方法,其从多个化合物创建出与除了蛋白质以外的目标生物高分子键合的目标化合物的立体结构,所述化合物创建方法具有:
存储工序,针对多个化合物的每一个,将基于多个原子的化合物的立体结构与所述第3特征量建立关联并进行存储;
特征量计算工序,针对确认到与除了所述蛋白质以外的所述目标生物高分子的键合的化合物即键合化合物,使用权利要求4所述的特征量计算方法计算出所述第3特征量;
生成器构建工序,通过将所述多个化合物的所述立体结构设为教师数据且将所述第3特征量设为解释变量的机器学习来构建生成器;及
化合物立体结构生成工序,使用所述生成器从所述键合化合物的所述第3特征量生成所述目标化合物的立体结构。
CN202080029018.8A 2019-04-16 2020-04-02 特征量计算方法、特征量计算程序、特征量计算装置、筛选方法、筛选程序及化合物创建方法 Pending CN113711035A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019078090 2019-04-16
JP2019-078090 2019-04-16
PCT/JP2020/015198 WO2020213417A1 (ja) 2019-04-16 2020-04-02 特徴量算出方法、特徴量算出プログラム、特徴量算出装置、スクリーニング方法、スクリーニングプログラム、及び化合物創出方法

Publications (1)

Publication Number Publication Date
CN113711035A true CN113711035A (zh) 2021-11-26

Family

ID=72836826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080029018.8A Pending CN113711035A (zh) 2019-04-16 2020-04-02 特征量计算方法、特征量计算程序、特征量计算装置、筛选方法、筛选程序及化合物创建方法

Country Status (7)

Country Link
US (1) US20220028499A1 (zh)
EP (1) EP3957989A4 (zh)
JP (1) JP7297057B2 (zh)
CN (1) CN113711035A (zh)
CA (1) CA3136930A1 (zh)
SG (1) SG11202110812YA (zh)
WO (1) WO2020213417A1 (zh)

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5946045B2 (ja) 1976-08-10 1984-11-10 ソニー株式会社 磁気再生装置
JP4231922B2 (ja) * 2002-12-26 2009-03-04 独立行政法人産業技術総合研究所 タンパク質立体構造予測システム
JP2007213290A (ja) * 2006-02-09 2007-08-23 Pharma Design Inc Gpcrに対するペプチド性リガンド候補の予測方法
JP4564097B2 (ja) 2007-11-12 2010-10-20 株式会社インシリコサイエンス インシリコスクリーニング装置、および、インシリコスクリーニング方法
US20130046482A1 (en) * 2009-10-19 2013-02-21 Jørgen Ellegaard Andersen System and method for associating a moduli space with a molecule
EP2889791A4 (en) * 2012-08-27 2016-04-13 Kyoto Constella Technologies Co Ltd DEVICE FOR DESIGNING A CONNECTION PROCESS FOR THE DESIGN OF A CONNECTION AND COMPUTER PROGRAM
US9373059B1 (en) 2014-05-05 2016-06-21 Atomwise Inc. Systems and methods for applying a convolutional network to spatial data
WO2015168774A1 (en) * 2014-05-05 2015-11-12 Chematria Inc. Binding affinity prediction system and method
CA3010226C (en) * 2015-12-31 2023-02-14 Cyclica Inc. Methods for proteome docking to identify protein-ligand interactions
JP7048065B2 (ja) * 2017-08-02 2022-04-05 学校法人立命館 結合性予測方法、装置、プログラム、記録媒体、および機械学習アルゴリズムの学習方法
WO2019078006A1 (ja) * 2017-10-17 2019-04-25 富士フイルム株式会社 特徴量算出方法、特徴量算出プログラム、及び特徴量算出装置、スクリーニング方法、スクリーニングプログラム、及びスクリーニング装置、化合物創出方法、化合物創出プログラム、及び化合物創出装置

Also Published As

Publication number Publication date
SG11202110812YA (en) 2021-10-28
EP3957989A4 (en) 2022-10-12
EP3957989A1 (en) 2022-02-23
CA3136930A1 (en) 2020-10-22
JP7297057B2 (ja) 2023-06-23
JPWO2020213417A1 (zh) 2020-10-22
WO2020213417A1 (ja) 2020-10-22
US20220028499A1 (en) 2022-01-27

Similar Documents

Publication Publication Date Title
CN111279419B (zh) 特征量计算方法、筛选方法、以及化合物创建方法
Yu et al. Designing template-free predictor for targeting protein-ligand binding sites with classifier ensemble and spatial clustering
van Zundert et al. Integrative modeling of biomolecular complexes: HADDOCKing with cryo-electron microscopy data
WO2017196963A1 (en) Computational method for classifying and predicting protein side chain conformations
Ballester et al. Ultrafast shape recognition: evaluating a new ligand-based virtual screening technology
Buck et al. Toward the virtual cell: automated approaches to building models of subcellular organization “learned” from microscopy images
Guo et al. DeepPSP: a global–local information-based deep neural network for the prediction of protein phosphorylation sites
Gattani et al. StackCBPred: A stacking based prediction of protein-carbohydrate binding sites from sequence
Melquiond et al. Next challenges in protein–protein docking: from proteome to interactome and beyond
Sorzano et al. StructMap: elastic distance analysis of electron microscopy maps for studying conformational changes
Ding et al. Identification of protein-nucleotide binding residues via graph regularized k-local hyperplane distance nearest neighbor model
Scott et al. Classification of protein-binding sites using a spherical convolutional neural network
Zhang et al. Large-scale 3D chromatin reconstruction from chromosomal contacts
JP7317104B2 (ja) 特徴量算出方法、特徴量算出プログラム、非一時的記録媒体、及び特徴量算出装置、スクリーニング方法、スクリーニングプログラム、非一時的記録媒体、及びスクリーニング装置、化合物創出方法、化合物創出プログラム、記録媒体、及び化合物創出装置
Li et al. Measuring the shapes of macromolecules–and why it matters
CN113711035A (zh) 特征量计算方法、特征量计算程序、特征量计算装置、筛选方法、筛选程序及化合物创建方法
Ghanbarpour et al. On-the-fly prediction of protein hydration densities and free energies using deep learning
CN116157680A (zh) 特征量计算方法、筛选方法及化合物创建方法
Park et al. Statistical inference on three-dimensional structure of genome by truncated Poisson architecture model
Sánchez‐González et al. A beta‐complex statistical four body contact potential combined with a hydrogen bond statistical potential recognizes the correct native structure from protein decoy sets
Jaiswal et al. Deep Learning of Protein Structural Classes: Any Evidence for an ‘Urfold’?
Lin et al. Exploiting hierarchical interactions for protein surface learning
WO2024038700A1 (ja) 化合物探索装置、化合物探索方法、及び化合物探索プログラム
Singh Topological characterization of protein-protein interaction networks in human and mouse
Alber et al. Integrative structure determination of protein assemblies by satisfaction of spatial restraints

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination