CN115132292A - 信息处理程序、信息处理设备和信息处理方法 - Google Patents

信息处理程序、信息处理设备和信息处理方法 Download PDF

Info

Publication number
CN115132292A
CN115132292A CN202111673796.3A CN202111673796A CN115132292A CN 115132292 A CN115132292 A CN 115132292A CN 202111673796 A CN202111673796 A CN 202111673796A CN 115132292 A CN115132292 A CN 115132292A
Authority
CN
China
Prior art keywords
molecule
model
molecules
information processing
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111673796.3A
Other languages
English (en)
Inventor
实宝秀幸
丸尾昭人
上村泰纪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN115132292A publication Critical patent/CN115132292A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C10/00Computational theoretical chemistry, i.e. ICT specially adapted for theoretical aspects of quantum chemistry, molecular mechanics, molecular dynamics or the like
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N10/00Quantum computing, i.e. information processing based on quantum-mechanical phenomena
    • G06N10/60Quantum algorithms, e.g. based on quantum optimisation, quantum Fourier or Hadamard transforms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Biotechnology (AREA)
  • Computational Mathematics (AREA)
  • Condensed Matter Physics & Semiconductors (AREA)
  • Biophysics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stored Programmes (AREA)

Abstract

提供了信息处理程序、信息处理设备和信息处理方法。其中信息处理设备基于多个分子中的每个分子的特性数据分析与多个分子中的所有分子不同的第一分子的信息处理程序执行以下处理:指定结构描述符,该结构描述符是基于多个分子的结构中的每个结构的指标;以及基于结构描述符和多个分子的结构中的每个结构之间的相似度来生成用于分析第一分子的模型。

Description

信息处理程序、信息处理设备和信息处理方法
技术领域
本文讨论的实施方式涉及信息处理程序、信息处理设备和信息处理方法。
背景技术
通常,预期具有相似结构的化合物(分子)具有相似特性(性质)。例如,在通过预测化合物的性质来设计具有预定性质的化合物的情况下,或者在通过筛选化合物的数据库来搜索具有预定性质的化合物的情况下,广泛使用“相似化合物具有相似性质”的这种相似性质原理。
例如,当使用相似性质原理时,可以预测到:通过利用现有化合物作为查询化合物,从数据库检索到的具有相似度的化合物(具有与查询化合物的结构相似的结构的化合物)与查询化合物具有相同的功能(特性和物理性质)。
因此,例如,已经研究了以下技术:该技术用于基于其目标特性(生物活性、物理/化学物理性质值等)已知的分子来搜索和缩减具有与分子的物理性质接近的物理性质的分子(其特性未知的分子)。更具体地,例如,已经研究了以下技术:该技术通过基于关于其特性已知的分子的信息执行机器学习来生成和使用执行物理性质值的回归预测的模型(多元回归模型)、对分子进行分类的模型(类别分类器)等。
作为关于这样的技术的相关技术,例如,已经提出了以下技术:该技术基于其特性已知的材料与其特性未知的材料之间的结构相似度来预测其特性未知的材料的特性值。
然而,在这些现有技术的情况下,存在关于其特性未知的分子的分析准确度(预测准确度、分类准确度等)不足的情况(专利文献1)。
[引文列表]
[专利文献]
[专利文献1]日本公开特许公报第2020-194488号。
发明内容
[技术问题]
在一方面,本案的目的是提供一种信息处理程序、信息处理设备和信息处理方法,其可以生成可以以高准确度分析其预定特性的特性值(特性数据)未被指定的分子的模型。
[问题的解决方案]
根据一个实施方式,其中信息处理设备基于多个分子中的每个分子的特性数据分析与多个分子中的所有分子不同的第一分子的信息处理程序执行以下处理:指定结构描述符,该结构描述符是基于多个分子的结构中的每个结构的指标;以及基于结构描述符和多个分子的结构中的每个结构之间的相似度来生成用于分析第一分子的模型。
[本发明的有益效果]
在一个方面,本案可以提供一种信息处理程序、信息处理设备和信息处理方法,其可以生成可以以高准确度分析其预定特性的特性值(特性数据)未被指定的分子的模型。
附图说明
图1是示出当生成对物理性质值执行回归预测的模型并且通过回归预测来预测其物理性质值未知的分子的物理性质值时,其物理性质值已知的目标分子与其物理性质值未知的候选分子之间的理想关系的示例的图;
图2是示出当生成基于物理性质值执行分类的模型并且对其物理性质值未知的分子进行分类时,其物理性质值已知的目标分子与其物理性质值未知的候选分子之间的理想关系的示例的图;
图3是简单地示出当基于其特性值已知的分子与其特性值未知的分子之间的结构相似度来生成和分析用于分析其特性值未知的分子的模型时的流程的示例的流程图;
图4是示出在使用基于结构相似度执行分析的相关技术来执行分析的情况下,其物理性质值已知的目标分子与其物理性质值未知的候选分子之间的关系的示例的图;
图5是示出在使用本案中公开的用于基于结构相似度和结构描述符执行分析的技术的示例来执行分析的情况下,其物理性质值已知的目标分子与其物理性质值未知的候选分子之间的关系的示例的图;
图6是示出将乙酸和乙酸甲酯表示为图的状态的示例的图;
图7是示出在组合分子A和分子B中的相同元素并且形成冲突图的节点的情况下的组合的示例的图;
图8是示出用于创建冲突图中的边的规则的示例的图;
图9是示出分子A和分子B的冲突图的示例的图;
图10是示出图中的最大独立集的示例的图;
图11是示出在通过获得冲突图的最大独立集(通过求解最大独立集问题)来获得分子A与分子B之间的最大公共子结构的情况下的流程的示例的图;
图12是用于描述用于在其节点数目为六的图中搜索最大独立集的方法的示例的说明图;
图13是用于描述用于在其节点数目为六的图中搜索最大独立集的方法的示例的说明图;
图14是示出冲突图中的最大独立集的示例的图;
图15是示出基于通用AMBER力场(GAFF)的原子类型来将乙酸和乙酸甲酯表示为图的示例的图;
图16是示出基于GAFF原子类型从乙酸和乙酸甲酯的图创建冲突图的节点的示例的图;
图17是示出从图16示出的节点创建的冲突图的示例的图;
图18是示出本案中公开的信息处理设备的硬件结构示例的图;
图19是示出在本案中公开的信息处理设备的另一硬件结构示例的图;
图20是示出本案中公开的信息处理设备的功能结构示例的图;
图21是在本案中公开的技术的示例中生成用于分析非特定分子的模型时的流程图的示例;
图22是在本案中公开的技术的示例中生成用于分析非特定分子的模型时的流程图的另一示例;
图23是在本案中公开的技术的示例中通过使用生成的模型来分析非特定分子时的流程图的示例;
图24是示出用于退火法的退火机的功能配置的示例的图;
图25是示出转变控制单元的操作流程的示例的图;
图26是示出在第一实施方式中生成的分类模型的类型与每个分类模型中的准确度指标之间的关系的示例的图;
图27是示出在第一实施方式中生成的分类模型中的“k-折交叉验证(k=10)”的结果的示例的图;
图28是示出作为与第一实施方式对应的示例仅基于结构相似度而生成的分类模型中的“k-折交叉验证(k=10)”的结果的示例的图;
图29是示出作为与第一实施方式对应的示例仅基于结构描述符(九个特征量)而生成的分类模型中的“k-折交叉验证(k=10)”的结果的示例的图;
图30是示出使用在第一实施方式中生成的分类模型对其生物活性被假定为未知的七条测试数据进行分类的结果的示例的图;
图31是示出作为与第一实施方式对应的示例使用仅基于结构相似度而生成的分类模型对其生物活性被假定为未知的七条测试数据进行分类的结果的示例的图;
图32是示出通过使用指标“Snew”分析25条训练数据来以指标“Snew”的值的降序排列10个分子的结果的图,指标“Snew”使用特征量的相对误差的平均值和结构相似度;
图33是示出通过使用指标“SDA”分析25条训练数据来以指标“SDA”的值的降序排列10个分子的结果的图,指标“SDA”仅使用结构相似度;
图34是示出通过使用指标“1-Eave”分析25条训练数据来以指标“1-Eave”的值的降序排列10个分子的结果的图,指标“1-Eave”仅使用特征量的相对误差;
图35是示出在第二实施方式中生成的基于六个特征量的相对误差的平均值和结构相似度的分类模型中的“k-折交叉验证(k=10)”的结果的示例的图;
图36是示出基于六个特征量和结构相似度而生成的分类模型中的“k-折交叉验证(k=10)”的结果的示例的图;
图37是示出使用在第二实施方式中生成的基于特征量的相对误差的平均值和结构相似度的分类模型对其生物活性被假定为未知的七条测试数据进行分类的结果的示例的图;
图38是示出在第三实施方式中生成的分类模型的类型与每个分类模型中的准确度指标之间的关系的示例的图;
图39是示出在第三实施方式中生成的预测模型中的“k-折交叉验证(k=10)”的结果的示例的图;
图40是示出作为与第三实施方式对应的示例仅基于结构相似度而生成的预测模型中的“k-折交叉验证(k=10)”的结果的示例的图;
图41是示出作为与第三实施方式对应的示例仅基于结构描述符(14个特征量)而生成的预测模型中的“k-折交叉验证(k=10)”的结果的示例的图;
图42是示出使用在第三实施方式中生成的预测模型来预测其粘度被假定为未知的测试数据的粘度的结果的示例的图;
图43是示出作为与第三实施方式对应的示例使用仅基于结构相似度而生成的预测模型来预测其粘度被假定为未知的测试数据的粘度的结果的图;以及
图44是示出作为与第三实施方式对应的示例使用仅基于结构描述符(14个特征量)而生成的预测模型来预测其粘度被假定为未知的测试数据的粘度的结果的图。
具体实施方式
(信息处理程序)
本案中公开的技术是基于发明人的以下发现:存在利用相关技术无法生成可以以高准确度分析其预定特性的特性值(特性数据)未被指定的分子的模型的情况。因此,在描述本案中公开的技术的细节之前,将描述相关技术的问题等。
如上面描述的,当基于其目标特性值已知的分子来搜索和缩减具有接近分子的物理性质值的分子时,例如,可以使用通过基于关于其特性值已知的分子的信息来执行机器学习而生成的模型。更具体地,当从大量分子中缩减具有接近目标分子特性值的特性值的分子时,例如,可以使用对物理性质值执行回归预测的模型(多元回归模型)、对分子进行分类的模型(类别分类器)等。
此处,图1示出了当生成对物理性质值执行回归预测的模型并且通过回归预测来预测其物理性质值未知的分子的物理性质值时,其物理性质值已知的目标分子与其物理性质值未知的候选分子之间的理想关系的示例。在图1中,横轴指示表示分子特性的特征量,并且纵轴指示要缩减的物理性质值(目标物理性质值)。
如图1所示,例如,期望执行回归预测的模型(多元回归模型)能够通过预测每个候选分子CM的目标物理性质值并且指定其目标物理性质值接近目标分子QM的物理性质值的候选分子CM1来缩减候选分子CM。请注意,在图1中,候选分子CM2意指其目标物理性质值不接近目标分子QM的候选分子。
随后,图2示出了当生成基于物理性质值执行分类的模型并且对其物理性质值未知的分子进行分类时,其物理性质值已知的目标分子与其物理性质值未知的候选分子之间的理想关系的示例。
如图2所示,例如,期望执行分类的模型(分类模型、类别分类器)能够通过指定被分类到与目标分子QM相同类别的候选分子CM1来缩减候选分子CM。请注意,在图2中,候选分子CM2意指要被分类到不同于目标分子QM的类别的候选分子。
如上面描述的,在相关技术中,例如,基于其特性值已知的分子与其特性值未知的分子之间的结构相似度来生成当从要作为候选的大量分子中缩减具有接近目标分子的特性值的特性值的分子时使用的模型。
此处,图3简单地示出了当基于其特性值已知的分子与其特性值未知的分子之间的结构相似度来生成和分析用于分析其特性值未知的分子的模型时的流程的示例。
在图3所示的相关技术的示例中,首先,接收关于其特性值已知的分子的结构的信息的输入(S101)。
接下来,在图3所示的相关技术的示例中,基于关于分子的结构的信息来指定分子之间的结构相似度(S102)。更具体地,在S102中,指定其特性值已知的分子之间的结构相似度。
随后,在图3所示的相关技术的示例中,通过基于结构相似度和特性值的机器学习来生成用于分析的模型(S103)。更具体地,在S103中,通过学习结构相似度与特性值之间的关系来生成对物理性质值执行回归预测的模型(多元回归模型)、对分子进行分类的模型(类别分类器)等。
然后,在图3所示的相关技术的示例中,接收关于其特性值未知的分子的结构的信息的输入,将接收到的信息输入到模型,并且执行分析(S103)。更具体地,在S104中,将关于其特性值未知的分子的结构的信息输入到生成的模型,并且分析其特性值未知的分子(回归预测、分类等)。
在图3所示的相关技术的示例中,例如,如上面描述的,指定其特性值未知的分子的特性值与结构相似度之间的关系,并且搜索和缩减具有接近其物理性质值已知的分子的物理性质值的分子。
图4示出了在使用基于结构相似度执行分析的相关技术来执行分析的情况下,其物理性质值已知的目标分子与其物理性质值未知的候选分子之间的关系的示例。在图4中,横轴指示作为表示分子的特性的特征量的示例的与目标分子的结构相似度,并且纵轴指示要缩减的物理性质值(目标物理性质值)。
如图4所示,在基于结构相似度执行分析的相关技术的情况下,因为其目标物理性质值是优选值的目标分子QM与每个候选分子CM之间的结构相似度与目标特性值不充分相关,因此分析的准确度降低。即,例如,在相关技术的情况下,仅可以如图4所示的以低准确度执行分析,并且难以如图1和图2所示的以高准确度执行适当的分析。
如上面描述的,在相关技术中,例如,因为分子之间的结构相似度与目标物理性质值之间的相关性降低,因此例如,存在分析其特性未知的分子的模型的准确度降低的情况。
换句话说,例如,在相关技术中,存在以下情况:无法生成能够以高准确度分析其预定特性的特性值(特性数据)未被指定的分子的模型。
因此,本发明人反复研究了可以生成能够以高准确度分析其预定特性的特性值(特性数据)未被指定的分子的模型的程序等,并且已经获得了以下发现。
换句话说,例如,本发明人已经发现可以利用以下信息处理程序等生成能够以高准确度分析其预定特性的特性值(特性数据)未被指定的分子的模型。
作为在本案中公开的技术的示例的信息处理程序是以下信息处理程序:基于多个分子中的每个分子的特性数据来分析不同于多个分子的第一分子并且使计算机执行模型生成处理,该模型生成处理用于基于多个分子的相应结构之间的相似度和结构描述符来生成用于分析第一分子的模型,该结构描述符是基于多个分子的相应结构指定的指标。
在本案中公开的技术的示例中,如上面描述的,基于多个分子中的每个分子的特性数据来分析不同于所有多个分子的第一分子。更具体地,例如,基于包括其预定特性的特性值(特定数据)被指定的多个特定分子(其物理性质值已知的分子)的特定分子组的数据来分析其特性值未被指定的非特定分子(其物理性质值未知的分子)。即,例如,在本案中公开的技术的示例中,例如,基于多个分子中的每个分子的特性数据(特定分子的特性数据),生成分析不同于多个分子的第一分子(例如,其特性值未知的分子)的模型,并且执行分析。
在本案中公开的技术的示例中,通过使用生成的模型分析第一分子(非特定分子),例如,可以从大量第一分子之中选择其目标特性具有优选值的第一分子。以这种方式,在本案中公开的技术的示例中,例如,可以缩减其目标特性具有优选值的第一分子(其特性接近目标分子的候选分子)。
此处,在本案中公开的技术的示例中,基于多个分子的相应结构之间的相似度和结构描述符来生成用于分析第一分子的模型,该结构描述符是基于多个分子中的每个分子的结构而指定的指标。更具体地,例如,基于包括在特定分子组中的特定分子之间的结构相似度和结构描述符来生成用于分析非特定分子的模型,该结构描述符是基于包括在特定分子组中的特定分子中的结构而指定的指标。即,例如,在本案中公开的技术的示例中,例如,通过使用除了其特性数据已知的多个分子(特定分子)之间的结构相似度之外的作为基于特定分子的结构而指定的指标的结构描述符执行学习来生成模型。
结构描述符是可以通过基于关于结构的信息分析每个分子来计算的指标,并且迄今为止已经提出了大量类型的结构描述符。在本案中公开的技术的示例中,例如,多个分子(包括在特定分子组中的特定分子)的结构描述符中的至少一个用于生成模型。
以这种方式,在本案中公开的技术的示例中,使用多个分子的相应结构之间的相似度和多个分子中的每个分子的结构描述符二者来生成用于分析第一分子(非特定分子)的模型。换言之,例如,在本案中公开的技术的示例中,例如,基于包括结构相似度和结构描述符的两个指标来生成模型,结构相似度是根据两个分子的结构确定的指标,结构描述符是根据一个分子(每个分子)的结构确定的指标。
因此,在本案中公开的技术的示例中,即使在模型的准确度因相关技术而劣化的情况下,也可以基于适当的指标来生成模型。因此,可以生成准确度更高的模型。因此,在本案中公开的技术的示例中,例如,可以以高准确度从大量第一分子(非特定分子)中缩减其目标特性具有优选值的第一分子。
图5示出了在使用本案公开的用于基于结构相似度和结构描述符执行分析的技术的示例来执行分析的情况下,其物理性质值已知的目标分子与其物理性质值未知的候选分子之间的关系的示例。在图5中,横轴指示作为表示分子特性的特征量的示例的基于结构相似度和结构描述符的指标,并且纵轴指示要缩减的物理性质值(目标物理性质值)。
如图5所示,在本案中公开的技术的示例中,基于其目标物理性质值是优选值的目标分子QM与每个候选分子CM之间的结构相似度和结构描述符的指标与目标特性值充分相关,并且可以提高分析的准确度。即,例如,在本案中公开的技术的示例中,即使在分析(回归预测、分类等)的准确度因相关技术而劣化的情况下,也可以执行如图5所示的具有高准确度的分析。
以这种方式,在本案中公开的技术的示例中,基于多个分子的相应结构之间的相似度和多个分子中的每个分子的结构描述符来生成用于分析非特定分子的模型。因此,在本案中公开的技术的示例中,可以生成能够以高准确度分析其预定特性的特性值未被指定的分子(第一分子,非特定分子)的模型。
此外,当分析其特性值未知的第一分子(非特定分子)时,取决于分析目标和分析类型,哪种类型的模型具有高准确度成为各种原因导致的复杂问题。因此,难以预测哪种类型的模型具有较高准确度。即,例如,取决于分析目标和分析类型,可能存在以下情况:另一模型的准确度高于基于多个分子(特定分子)之间的结构相似度和多个分子(特定分子)的结构描述符的模型的准确度。
因此,在本案中公开的技术的示例中,除了使用基于结构相似度和结构描述符的模型的分析之外,还可以执行使用另一模型的分析。例如,还可以执行使用仅基于结构相似度的模型和仅基于结构描述符的模型的分析。以这种方式,在本案中公开的技术的示例中,即使在仅使用相关技术难以执行适当分析的情况下,也可以与分析目标和模型类型无关地毫无例外地执行精确分析。
在下文中,在本案中公开的信息处理程序的示例中,将详细描述要由计算机执行的每个处理。
在本案中公开的信息处理程序例如使计算机至少执行模型生成处理,并且进一步根据需要使计算机执行其他处理。
可以根据要使用的计算机系统的配置、操作系统的类型和版本等来使用各种已知的编程语言创建本案中公开的信息处理程序。
本案中公开的信息处理程序可以记录在诸如内置硬盘或外部附接硬盘的记录介质上,或者可以记录在诸如致密盘只读存储器(CD-ROM)、数字通用盘只读存储器(DVD-ROM)、磁光(MO)盘或通用串行总线(USB)存储器[USB闪存驱动器]的记录介质上。
此外,在将本案中公开的信息处理程序记录在上述记录介质上的情况下,根据需要,可以直接使用程序或者可以将程序安装至硬盘中,并且然后通过包括在计算机系统中的记录介质读取装置使用程序。此外,本案中公开的信息处理程序可以被记录在能够通过信息通信网络从计算机系统访问的外部存储区域(另一计算机等)上。在这种情况下,根据需要,被记录在外部存储区域中的本案中公开的信息处理程序可以被直接使用,或者可以被安装在硬盘中,并且然后通过信息通信网络从外部存储区域使用。
注意,本案中公开的信息处理程序可以针对任意处理中的每一个来被划分并且被记录在多个记录介质上。
此外,用于通过在本案中公开的信息处理程序执行每个处理的处理可以例如由中央处理单元(CPU)、图形处理单元(GPU)、稍后要描述的退火机的处理装置、这些的组合等来执行。
在本案中公开的信息处理程序是基于多个分子中的每个分子的特性数据来分析不同于多个分子的第一分子的程序。更具体地,信息处理程序可以是基于包括其预定特性的特性值被指定的多个特定分子的特定分子组的数据来分析其特性值未被指定的非特定分子的程序。
预定特性的特性值(特性数据的示例)没有特别限制,只要特性值是表示分子的特性(物理性质)的值即可,并且可以根据目的适当地选择。预定特性的特性值例如是物理特性值、化学特性值、生物特性值等。
物理或化学特性值例如是机械特性值(机械学特性值)、热特性值、电特性值、磁特性值、光学特性值等。更具体地,这些特性值是例如粘度、密度、介电常数、磁导率、磁化率、电导率、热导率、比热、线膨胀系数、沸点、熔点、弹性模量、玻璃化转变点、折射率等。
此外,生物特性值例如是用于分析定量构效关系(QSAR,quantitativestructure-activity relationship)、定量构性关系(QSPR,quantitative structure-property relationship)等的生物活性。此外,生物活性例如可以由包括“Active(活性的)”或“Inactive(无活性的)”的两个值表示,或者可以是表示活性强度的连续值。如上面描述的,预定特性的特性值可以是例如离散值或连续值。
此外,在本案中公开的技术的示例中,其特性值被指定的特定分子(目标分子,其特性数据已知的多个分子)没有特别限制,只要特定分子是其特性值被指定(特性值是已知的)的分子即可,并且可以根据目的适当地选择。
在本案中公开的技术的示例中,包括其特性值被指定的多个特定分子的特定分子组的数据(特性数据的示例)没有特别限制,只要该数据包括多个特定分子的数据即可,并且可以根据目的适当地选择。对于多个特定分子,特定分子组的数据可以是例如其中关于特定分子的特性值的信息和关于特定分子的结构的信息彼此相关联的数据。
包括在特定分子组中的特定分子(多个分子)的数目没有特别限制,只要该数目是多个即可,并且可以根据目的适当地选择。然而,例如,优选的是根据所需模型的准确度增加被包括在特定分子组中的特定分子(多个分子)的数目。在本案中公开的技术的示例中,例如,在生成模型时,使用特定分子组的数据作为训练数据(学习数据)来生成模型。因此,例如,通过基于包括大量特定分子的特定分子组的数据来训练(学习)模型,可以进一步提高模型的准确度。
在本案中公开的技术的示例中,第一分子没有特别限制,只要第一分子不同于多个分子即可,并且可以根据目的适当地选择。更具体地,第一分子(其特性值未被指定的非特定分子,目标分子)可以是其特性值未被指定(特性值未知)的分子。此外,“特性值未被指定(特性值未知)”意味着例如要使用模型分析的“预定特性(目标特性)未被指定”。
在本案中公开的技术的示例中,如上面描述的,例如,通过使用基于特定分子组的数据生成的模型分析非特定分子,可以执行关于非特定分子的特性值的回归预测、分类等。
此外,在本案中公开的技术的示例中,要分析的第一分子(非特定分子)的数目没有特别限制并且可以根据目的适当地选择。即,例如,在本案中公开的技术的示例中,可以分析多个非特定分子,并且例如可以从多个非特定分子之中选择(缩减)具有优选特性值的非特定分子。
<模型生成处理>
在根据本案中公开的技术的模型生成处理中,基于多个分子的相应结构之间的相似度和结构描述符来生成用于分析第一分子的模型,该结构描述符是基于多个分子中的每个分子的结构而指定的指标。更具体地,例如,基于被包括在特定分子组中的特定分子之间的结构相似度和结构描述符来生成用于分析非特定分子的模型,该结构描述符是基于包括在特定分子组中的特定分子中的结构而指定的指标。
<<结构相似度的计算>>
在模型生成处理中,用于生成模型的结构之间的相似度没有特别限制,只要该相似度是基于包括在多个分子(特定分子组)中的分子之间的每个分子的结构的相似度即可,并且可以根据目的适当地选择。
用于计算多个分子的相应结构之间的相似度的方法没有特别限制并且可以根据目的适当地选择。用于计算多个分子的相应结构之间的相似度的方法包括例如使用分析分子的结构的已知软件的方法、使用表示对其相似度进行计算的结构中的原子组合的“冲突图”的方法等。
在使用分析分子的结构的已知软件以便计算结构相似度的方法中,例如,可以使用称为“RDKit”的软件。“RDKit”是在化学信息学领域中使用的开源Python库。例如,“G.Landrum,RDKit:Open-Source Cheminformatics,(http://www.rdkit.org.)”描述了“RDKit”的详细信息。
在使用表示对其相似度进行计算的结构中的原子组合的“冲突图”以便计算结构相似度的方法中,例如,可以通过搜索最大独立集来获得相似度(求解最大独立集问题)。在本案中公开的技术的示例中,以这种方式,优选的是通过针对冲突图搜索最大独立集以指定每个结构共有的子结构来获得相似度。
下面将描述使用表示对其相似度进行计算的结构中的原子组合的冲突图以便计算结构相似度的方法的详细信息。
此处,当通过求解冲突图中的最大独立集问题来计算分子之间的结构相似度时,将分子表示为待处理的图。此处,将分子表示为图意味着通过使用例如关于分子中的原子(元素)的类型的信息和关于各个原子之间的键合状态的信息来表示分子的结构。
此外,在该示例中,分子的结构可以使用例如MOL格式或结构数据文件(SDF)格式的表达式来表示。通常,SDF格式意指通过收集以MOL格式表示的关于多个分子的结构信息而获得的单个文件。此外,除了MOL格式的结构信息之外,SDF格式文件还能够处理每个分子的附加信息(例如,目录号、化学文摘服务(CAS)编号、分子量等)。可以以逗号分隔值(CSV)格式将这些分子的这样的结构表示为图,在CSV格式中,例如,“原子1(名称)、原子2(名称)、原子1的元素信息、原子2的元素信息、原子1与原子2之间的键序”都被包含在单个行中。
下面将以创建乙酸(CH3COOH)和乙酸甲酯(CH3COOCH3)的冲突图的情况为例首先描述用于创建冲突图的方法,作为获得分子之间的相似度的示例。
首先,被表示为图的乙酸(在下文中可以称为“分子A”)和乙酸甲酯(在下文中可以称为“分子B”)如图6中所示。在图6中,形成乙酸的原子由A1、A2、A3和A5指示,并且形成乙酸甲酯的原子由B1至B5指示。此外,在图6中,A1、A2、B1、B2和B4指示碳,并且A3、A5、B3和B5指示氧,单键由细实线指示,并且双键由粗实线指示。
接下来,将被表示为图的分子A和分子B中的顶点(原子)彼此组合以创建冲突图的顶点(节点)。此时,例如,如图7所示,优选的是将分子A和分子B中的相同元素相互组合以创建冲突图的节点。在图7所示的示例中,采用表示碳的A1、A2、B1、B2和B4的组合以及表示氧的A3、A5、B3和B5的组合作为冲突图的节点。
随后,创建冲突图中的边(edge)(分支或侧边(side))。此时,比较两个节点,并且在节点由彼此处于不同状况(例如原子序数、键的有无、键序等)的原子构成的情况下,在这两个节点之间创建边。而在比较两个节点并且节点由处于相同状况的原子构成的情况下,在这两个节点之间不创建边。
此处,将参照图8描述用于创建冲突图中的边的规则。
首先,在图8所示的示例中,将描述是否在节点[A1B1]与节点[A2B2]之间创建边。从图8中被表示为图的分子A的结构可以看出,包括在节点[A1B1]中的分子A的碳A1和包括在节点[A2B2]中的分子A的碳A2彼此键合(单键键合)。同样,包括在节点[A1B1]中的分子B的碳B1和包括在节点[A2B2]中的分子B的碳B2彼此键合(单键键合)。换言之,例如,碳A1与碳A2之间的键合状况和碳B1与碳B2之间的键合状况彼此相同。
以这种方式,在图8的示例中,分子A中碳A1和碳A2的状况与分子B中碳B1和碳B2的状况彼此相同,并且节点[A1B1]和节点[A2B2]被认为是由彼此处于相同状况的原子构成的节点。因此,在图8所示的示例中,在节点[A1B1]与节点[A2B2]之间未创建边。
接下来,在图8所示的示例中,将描述是否在节点[A1B4]与节点[A2B2]之间创建边。从图8中被表示为图的分子A的结构可以看出,包括在节点[A1B4]中的分子A的碳A1和包括在节点[A2B2]中的分子A的碳A2相互键合(单键键合)。而如从被表示为图的分子B的结构可以看出,包括在节点[A1B4]中的分子B的碳B4和包括在节点[A2B2]中的分子B的碳B2具有夹在碳B4与碳B2之间的氧B3,并且不直接键合。换言之,例如,碳A1与碳A2之间的键合状况和碳B4与碳B2之间的键合状况彼此不同。
即,例如,在图8的示例中,分子A中碳A1和碳A2的状况与分子B中碳B4和碳B2的状况彼此不同,并且节点[A1B4]和节点[A2B2]被认为是由彼此处于不同状况的原子构成的节点。因此,在图8所示的示例中,在节点[A1B4]与节点[A2B2]之间创建边。
以这种方式,可以基于以下规则创建冲突图:在节点由处于不同状况的原子构成的情况下,在这些节点之间创建边,并且在节点由处于相同状况的原子构成的情况下,在这些节点之间不创建边。
图9是示出分子A和分子B的冲突图的示例的图。如图9所示,例如,在节点[A2B2]和节点[A5B5]中,分子A中碳A2与氧A5之间的键合状况与分子B中碳B2与碳B5之间的键合状况彼此相同。因此,节点[A2B2]和节点[A5B5]被认为是由彼此处于相同状况的原子构成的节点,并且因此在节点[A2B2]与节点[A5B5]之间不创建边。
接下来,将描述用于求解所创建的冲突图的最大独立集问题的方法的示例。
冲突图中的最大独立集(MIS)意指以下集合:该集合包括在构成冲突图的节点集合之中的节点之间不具有边的最大数目的节点。
换言之,例如,冲突图中的最大独立集意指由节点彼此之间不具有边的节点形成的集合之中具有最大大小(节点的数目)的集合。
图10是示出图中的最大独立集的示例的图。在图10中,包括在集合中的节点用附图标记“1”表示,并且未包括在任何集合中的节点用附图标记“0”表示;对于节点之间存在边的情况,节点由实线连接,而对于不存在边的情况,节点由虚线连接。注意,此处,如图10所示,为了简化说明,将节点数目为六的图作为示例进行描述。
在图10所示的示例中,在由节点之间没有边的节点构成的集合中,存在具有最大数目的节点的三个集合,并且这些集合的每一个中的节点的数目是三个。换句话说,例如,在图10所示的示例中,由交替的长短虚线包围的三个集合是图中的最大独立集。
此处,如上面描述的,基于以下规则创建冲突图:在节点由处于不同状况的原子构成的情况下,在这些节点之间创建边,并且在节点由处于相同状况的原子构成的情况下,在这些节点之间不创建边。因此,在冲突图中,获得由节点之间没有边的节点构成的集合之中的作为具有最大数目的节点的集合的最大独立集与获得两个分子公共的子结构之中的最大子结构同义。换句话说,例如,可以通过获得冲突图中的最大独立集来指定两个分子的最大公共子结构。
图11示出了在通过获得冲突图中的最大独立集(求解最大独立集问题)来获得分子A(乙酸)和分子B(乙酸甲酯)的最大公共子结构的情况下的流程的示例。如图11所示,冲突图以这样的方式创建:使得分子A和分子B各自被表示为图,相同的元素被组合并用作节点,并且根据构成节点的原子的状况来形成边。然后,通过获得创建的冲突图中的最大独立集,可以获得分子A和分子B的最大公共子结构。
此处,将描述用于获得(搜索)冲突图中的最大独立集的特定方法的示例。
例如,可以通过使用哈密顿函数(Hamiltonian)来搜索冲突图中的最大独立集,在哈密顿函数中最小化意指搜索最大独立集。更具体地,例如,可以通过使用由以下等式指示的哈密顿函数(H)来执行搜索。
[表达式1]
Figure BDA0003450227610000161
此处,在以上等式中,n指示冲突图中的节点的数目,并且bi是表示第i节点的偏差的数值。
此外,当在第i节点与第j节点之间存在边时,wij具有非零正数,并且当在第i节点与第j节点之间不存在边时,wij具有零。
此外,xi表示代表第i节点具有0或1的二进制变量,并且xj表示代表第j节点具有0或1的二进制变量。
注意,α和β为正数。
将更详细地描述由以上等式表示的哈密顿函数与对最大独立集的搜索之间的关系。以上等式是以二次无约束二进制优化(QUBO)格式表示伊辛模型方程的哈密顿函数。
在以上等式中,在xi为1的情况下,意味着第i节点被包括在作为最大独立集的候选的集合中,并且在xi为0的情况下,意味着第i节点没有被包括在作为最大独立集的候选的集合中。同样,在以上等式中,在xj为1的情况下,意味着第j节点被包括在作为最大独立集的候选的集合中,并且在xj为0的情况下,意味着第j节点没有被包括在作为最大独立集的候选的集合中。
因此,在以上等式中,通过在状态被指定为1(位被指定为1)的节点之间不存在边的约束下搜索其中尽可能多的节点具有状态1的组合,可以搜索到最大独立集。
此处,将描述以上等式中的每一项。
以上等式右侧的第一项(系数为-α的项)是其值随着其xi为1的i的数字增加(随着包括在作为最大独立集的候选的集合中的节点的数目增加)而变小的项。注意,以上等式右侧的第一项的值变小意味着给出较大的负数。即,例如,在以上等式中,由于右侧第一项的作用,当许多节点具有为1的位时,哈密顿函数(H)的值变小。
以上等式右侧的第二项(系数为β的项)是惩罚项,在位具有1的节点之间存在边的情况下(在wij具有非零正数的情况下),该惩罚项的值变大。换言之,例如,在位具有1的节点之间不存在边的情况下,以上等式右侧的第二项具有零,并且在其他情况下,以上等式右侧的第二项具有正数。即,例如,在以上等式中,由于右侧第二项的作用,当在位具有1的节点之间存在边时,哈密顿函数(H)的值变大。
如上面描述的,当许多节点具有为1的位时,以上等式具有较小值,以及当在位具有1的节点之间存在边时,以上等式具有较大值;并且因此,可以说,使以上等式最小化意味着搜索最大独立集。
此处,将参照附图使用示例来描述由以上等式表示的哈密顿函数与对最大独立集的搜索之间的关系。
将考虑如图12中所示的示例那样对节点数目为六的图中的每个节点的位进行设置的情况。在图12的示例中,如图10那样,对于在节点之间存在边的情况,节点由实线连接,而对于不存在边的情况,节点由虚线连接。
在图12的示例中,在假设在以上等式中当在第i节点与第j节点之间存在边时bi为1且wij为1的情况下,以上等式如下。
[表达式2]
H=-α(x0+x1+x2+x3+x4+x5)+β(λ01x0x102x0x203x0x304x0x405x0x5+…)
=-α(1+0+1+0+1+0)+β(1*1*0+0*1*1+0*1*0+0*1*1+0*1*0+…)
=-3α
以这种方式,在图12的示例中,在位具有1的节点之间不存在边的情况下(在作为独立集不矛盾的情况下),右侧第二项具有零,并且第一项的值就是哈密顿函数的值。
接下来,将考虑如图13所示的示例中那样对每个节点的位进行设置的情况。如在图12的示例中那样,在假设在以上等式中当在第i节点与第j节点之间存在边时bi为1且wij为1的情况下,以上等式如下。
[表达式3]
H=-α(x0+x1+x2+x3+x4+x5)
+β(λ01x0x102x0x203x0x304x0x405x0x5+…)
=-α(1+1+1+0+1+0)+β(1*1*1+0*1*1+0*1*0+0*1*1+0*1*0+…)
=-4α+5β
以这种方式,在图13的示例中,由于存在在位具有1的节点之间存在边的情况,因此右侧的第二项不具有0,并且哈密顿函数的值为右侧的两项之和。此处,在图12和图13所示的示例中,例如,在假设α>5β的情况下,满足-3α<-4α+5β,并且因此,图12的示例中的哈密顿函数的值比图13的示例中的哈密顿函数的值小。在图12的示例中,可以看出,可以通过搜索作为最大独立集不矛盾的节点的集合来检索到最大独立集,该节点的集合是以上等式(1)中哈密顿函数的值较小的节点的组合。
接下来,将描述用于基于搜索到的最大独立集计算分子之间的结构相似度的方法的示例。
可以例如使用以下等式计算分子之间的结构相似度。
[表达式4]
Figure BDA0003450227610000181
此处,在上述相似度等式中,S(GA,GB)表示被表示为图的第一分子(例如,分子A)与被表示为图的第二分子(例如,分子B)之间的相似度,被表示为0到1,并且意指值越接近1则相似度越高。
此外,VA表示被表示为图的第一分子的节点原子的总数目,以及Vc A表示被表示为图的第一分子的节点原子之中的被包括在冲突图的最大独立集中的节点原子的数目。注意,节点原子是指在被表示为图的分子的顶点处的原子。
此外,VB表示被表示为图的第二分子的节点原子的总数目,并且Vc B表示被表示为图的第二分子的节点原子之中的被包括在冲突图的最大独立集中的节点原子的数目。
δ是从零到一的数。
此外,在上述相似度等式中,max{A,B}意指从A和B中选择较大的值,并且min{A,B}意指从A和B中选择较小的值。
此处,如图6至图13所示的示例中那样,将使用乙酸(分子A)和乙酸甲酯(分子B)作为示例来描述用于计算相似度的方法。
在图14所示的冲突图中,最大独立集包括四个节点:节点[A1B1]、节点[A2B2]、节点[A3B3]和节点[A5B5]。即,例如,在图14的示例中,|VA|被设置为4,|Vc A|被设置为4,|VB|被设置为5,并且|Vc B|被设置为4。此外,在本示例中,当假设δ为0.5并且对第一分子和第二分子进行平均(第一分子和第二分子被相同地处理)时,上述相似度等式如下。
[表达式5]
Figure BDA0003450227610000191
以这种方式,在图14的示例中,基于上述相似度等式将分子之间的结构相似度计算为0.9。
上面已经详细描述了用于计算分子之间的相似度的方法。然而,在本案中公开的技术的示例中,可以使用上述方法获得被包括在特定分子组中的特定分子之间的结构相似度,该特定分子组包括其特性值被指定的多个特定分子。
换言之,例如,在本案中公开的技术的示例中,优选的是通过使用以下等式(1)基于包括在多个分子中的第二分子和第三分子的分子结构搜索最大独立集来获得相似度。
[表达式6]
Figure BDA0003450227610000192
其中,在等式(1)中,H是哈密顿函数,其意指最小化H是搜索最大独立集;n对应于被表示为图的第二分子和第三分子的冲突图的节点的数目;冲突图对应于基于以下规则创建的图:将包括在被表示为图的第二分子中的每个节点原子和包括在被表示为图的第三分子中的每个节点原子的组合设置为节点,比较多个节点并且在彼此不相同的节点之间创建边,以及比较多个节点并且在彼此相同的节点之间不创建边;bi是表示相对于第i节点的偏差的数值;当在第i节点与第j节点之间存在边时wij是不为零的正数,并且当在第i节点与第j节点之间不存在边时wij为零;xi是表示第i节点为0或1的二进制变量;xj是表示第j节点为0或1的二进制变量;并且α和β为正数。
此处,在本案中公开的技术的示例中,“多个节点被比较并且彼此相同”意味着:当多个节点被比较时,这些节点由彼此处于相同状况(键合状况)的节点原子构成。同样,在本案中公开的技术的示例中,“多个节点被比较并且彼此不相同”意味着:当多个节点被比较时,这些节点由彼此处于不同状况(键合状况)的节点原子构成。
在本案中公开的技术的示例中,在使用以上等式(1)执行对最大独立集的搜索的情况下,创建被表示为图的第二分子和第三分子的冲突图不是高度优先的,并且至少以上等式(1)可以被最小化就足够了。换言之,例如,在本案中公开的技术的示例中,搜索第二分子和第三分子的冲突图中的最大独立集被替换为其中最小化意指搜索最大独立集的哈密顿函数中的组合优化问题,并且问题被解决。此处,通过使用退火机等执行退火法(退火),可以在短时间内执行如以上等式(1)中的QUBO格式的伊辛模型等式所表示的哈密顿函数的最小化。
因此,在本案中公开的技术中,一方面,通过使用上述等式(1),可以通过使用退火机等的退火法来搜索最大独立集。因此,可以通过搜索最大独立集在更短的时间内分析非特定分子。换言之,例如,在本案中公开的技术中,一方面,通过利用退火法使以上等式(1)中的哈密顿函数(H)最小化以搜索最大独立集,可以在更短的时间内分析非特定分子。
用于搜索最大独立集的退火机的示例包括例如量子退火机、使用半导体技术的半导体退火机、通过使用中央处理单元(CPU)或图形处理单元(GPU)等执行通过软件执行的模拟退火的机器。此外,例如,数字退火器(注册商标)可以用作退火机。
注意,下面将描述使用退火机的退火法的详细信息。
此外,在本案中公开的技术的示例中,优选的是使用以下等式(2)获得搜索到的最大独立集的结构相似度。
[表达式7]
Figure BDA0003450227610000211
其中,在等式(2)中,GA表示被表示为图的第二分子;GB表示被表示为图的第三分子;S(GA,GB)表示被表示为图的第二分子与被表示为图的第三分子之间的相似度,由0到1表示,并且意指S(GA,GB)越接近1则相似度越高;VA表示被表示为图的第二分子的节点原子的总数目;Vc A表示被表示为图的第二分子的节点原子的冲突图的最大独立集中包括的节点原子的数目;VB表示被表示为图的第三分子的节点原子的总数目;Vc B表示被表示为图的第三分子的节点原子的冲突图的最大独立集中包括的节点原子的数目,并且δ为0到1的数。
一方面,在本案中公开的技术可以通过使用以上等式(2)获得搜索到的最大独立集的相似度,来基于根据以上等式(1)搜索到的最大独立集获得关于第二分子(第一特定分子)与第三分子(第二特定分子)之间的特性的相似度。此外,为了计算结构相似度,例如,可以适当地使用在以下非专利文献中公开的内容。
非专利文献:Maritza Hernandez,Arman Zaribafiyan,Maliheh Aramon,Mohammad Naghibi“A Novel Graph-based Approach for Determining MolecularSimilarity”.arXiv:1601.06693(https://arxiv.org/pdf/1601.06693.pdf)。
另外,在本案中公开的技术的示例中,优选的是,冲突图中的节点是第二分子与第三分子之间具有从元素种类细分出的相同原子类型的两个节点原子的组合。
以这种方式,在本案中公开的技术的示例中,例如,可以提高结构相似度的准确度,并且可以减少节点的数目(减少计算所需的位的数目)。
当冲突图的节点由第一特定分子与第二特定分子之间具有从元素种类细分出来的相同原子类型的两个原子的组合构成时,优选的是原子类型包括例如原子的最外层电子的杂化轨道、芳香性类型、化学环境类型等。
此外,例如,可以假设冲突图的多个节点可以是由第一特定分子与第二特定分子之间具有相同原子类型和相同键类型的两个原子的组合构成的节点。键类型包括例如有关组合是否被包括在芳香环中,以及有关组合是否具有配位键。
图15是示出将乙酸和乙酸甲酯表示为图的状态的示例的图。
在图15中,形成乙酸的原子由A1、A2、A3和A5指示,并且形成乙酸甲酯的原子由B1至B5指示。此外,在图15中,A1、A2、B1、B2和B4指示碳,并且A3、A5、B3和B5指示氧,而单键由细实线指示,并且双键由粗实线指示。注意,在图15所示的示例中,选择除氢以外的原子并且除氢以外的原子被表示为图。然而,当化合物被表示为图时,可以选择包括氢的所有原子并且将包括氢的所有原子表示为图。直到此时,该图与图6中所示的图相同。然而,在图15中,基于杂化轨道、芳香性和化学环境进一步细分碳和氧。在图15中,基于通用AMBER力场(GAFF)的原子类型来细分原子类型。GAFF原子类型例如在以下文献的表1等中进行了介绍。
文献:JUNMEI WANG,ROMAIN M.WOLF,JAMES W.CALDWELL,PETER A.KOLLMAN,DAVIDA.CASE,“Development and Testing of a General Amber Force Field”,Journal ofComputational Chemistry,第25卷,第9期。
此处,在图15中,“c3”表示sp3碳,“c2”表示脂族sp2碳,“o”表示C=O或COO-中的sp2氧,“oh”表示羟基中的sp3氧,并且“os”表示醚(ether)或酯(ester)中的sp3氧。
此外,可以例如通过使用作为包括在AMBER工具中的模块的“前室(antechamber)”来定义原子类型和键类型(键合状况)。
图15中乙酸的图和乙酸甲酯的图具有关于这些原子类型的信息。
接下来,将被表示为图的分子A和分子B的顶点(原子)组合以创建冲突图的顶点(节点)。此时,例如,如图16所示,分子A和分子B中的相同原子类型被组合并被用作冲突图的节点。在图16中所示的示例中,表示原子类型“c3”的A1、B1和B4的组合、表示原子类型“c2”的A2和B2的组合、以及表示原子类型“o”的A5和B5的组合被用作冲突图的节点。以这种方式,通过将不是相同元素而是具有相同原子类型(原子类型是从元素种类细分出来的)的原子的组合用作节点,可以抑制节点的数目,并且可以减少求解最大独立集问题所需的计算器的位的数目。
在图16中的示例中,从被表示为图的分子A和分子B创建的冲突图的节点的数目为四。基于这四个节点创建的冲突图如图17所示。以这种方式,通过采用具有相同原子类型的原子作为节点,可以提高结构相似度的准确度,并且可以减少节点的数目(减少计算所需的位的数目)。
此外,在本案中公开的技术的示例中,当获得分子之间的结构相似度时,可以选择要作为相似度参考的分子,并且可以针对其他分子中的每一个计算与该分子的相似度(一对多),或可以计算用于分析的分子的所有组合模式的相似度(多对多)。
在获得多个分子(特定分子)之间的结构相似度时计算与要作为参考的分子的相似度的情况下,可以适当地选择要作为参考的分子,例如,要作为参考的分子可以是具有特别优选的特性值(活性值等)的分子。然而,在获得特定分子之间的结构相似度时计算分子的所有组合模式的相似度的情况下,优选的是从大量计算的相似度之中指定有助于提高模型准确度的相似度并且将指定的相似度用于模型的学习。请注意,有助于提高模型准确度的相似度可以通过例如稍后要描述的“Boruta”来指定。
<<结构描述符的计算>>
在模型生成处理中,用于生成模型的结构描述符没有特别限制,只要结构描述符是基于多个分子中的每个分子的结构而指定的指标即可,并且可以根据目的适当地选择。
用于计算多个分子(特定分子)的结构描述符的方法没有特别限制并且可以根据目的适当地选择。用于计算多个分子(特定分子)的结构描述符的方法包括例如使用分析分子结构的已知软件等的方法。
在使用分析分子的结构的已知软件以便计算结构描述符的方法中,例如,可以使用称为“RDKit”的上述软件。
此外,如上面描述的,迄今为止已经提出了各种类型的结构描述符。例如,在“RDKit”中,可以针对零维到二维结构描述符计算208种类型的结构描述符。此外,在本案中公开的技术的示例中,可以使用基于分子(化合物)的三维结构计算的三维结构描述符和通过与其他分子的相互作用(例如相互作用能)确定的四维结构描述符。
在本案中公开的技术的示例中,优选的是针对多个分子(特定分子)的每个组获得多种类型的结构描述符。即,例如,在本案中公开的技术的示例中,例如,优选的是针对包括在特定分子组中的每个特定分子使用上述“RDKit”等获得208种类型的零维到二维结构描述符。
此外,在本案中公开的技术的示例中,所获得的所有多种类型的结构描述符均可以用于生成模型。然而,优选的是从多种类型的结构描述符之中选择和使用被认为有助于提高模型准确度的结构描述符。换言之,例如,在本案中公开的技术的示例中,在模型生成处理中,优选的是将多个结构描述符之中有助于提高模型准确度的结构描述符指定为特征量,并且基于相似度和特征量生成模型。
特征量例如可以是多种类型的结构描述符之中对模型准确度有贡献的结构描述符。在本案中公开的技术的示例中,通过基于结构相似度和特征量生成模型,可以进一步提高生成的模型的准确度。
例如,可以使用称为“Boruta”的方法作为用于从多种类型的结构描述符中指定(选择)有助于提高模型准确度的特征量的方法。
“Boruta”使用称为随机森林的机器学习方法假定被认为无助于提高模型准确度的“假特征量”,并且针对每个结构描述符验证相对于“假特征量”的重要性。然后,在“Boruta”中,其相对于“假特征量”的重要性被指定为高的结构描述符,即,对模型准确度有贡献的(重要的)结构描述符被指定。
此外,例如,“Kursa MB,Rudnicki WR(2010).“Feature Selection with theBoruta Package.”Journal of Statistical Software,36(11),1-13.(http://www.jstatsoft.org/v36/i11/.)”描述了“Boruta”的详细信息。
此外,当“Boruta”从结构描述符中选择特征量时,例如,可以设置上述相对于“假特征量”的重要性的阈值,并且可以选择其重要性高于阈值的结构描述符作为特征量。例如,当阈值设置得较低时,选择大量类型的结构描述符作为特征量,而当阈值设置得较高时,选择特别被认为对模型影响较大的少量结构描述符作为特征量。
优选的是,根据要分析的特性的类型、要生成的模型的类型等,通过使用训练数据(学习数据)执行验证等来将重要性的阈值(特征量的数目)适当地设置为适当的值。
此外,例如,可以使用称为“套索回归”的方法作为用于从多种类型的结构描述符中指定(选择)有助于提高模型准确度的特征量的方法。
例如,“Tibshirani,R.,“Regression shrinkage and selection via thelasso”,J.Roy.Statist.Soc.Ser.B,58,第267至288页,1996”描述了“套索回归”的详细信息。
此外,在本案中公开的技术的示例中,可以对使用“Boruta”等指定的特征量执行相关性分析,并且可以通过排除具有强相关性(彼此类似)的特征量来生成模型。换言之,在本案中公开的技术的示例中,在模型生成处理中,优选的是通过对多个特征量执行相关性分析来指定彼此相关的特征量并且不使用彼此相关的特征量中的至少一个以便生成模型。
以这种方式,在本案中公开的技术的示例中,因为可以减少具有相似含义的特征量(相似特征量)的数目,所以可以防止在学习模型时过度训练。换言之,例如,在本案中公开的技术的示例中,通过排除具有强相关性(彼此相似)的特征量来在生成模型时减少解释变量的数目,可以防止在学习模型时过度训练。
此外,可以使用已知软件、根据需要创建的程序等来执行特征量的相关性分析。
另外,在本申请中公开的技术的示例中,可以指定被包括在多个分子中的另一分子的特征量相对于被包括在多个分子中的一个分子的特征量的相对误差,并且可以使用利用相似度和相对误差的指标来执行分析。即,例如,关于从结构描述符中选择的特征量,可以获得要分析的非特定分子的特征量相对于要作为参考的特定分子的特征量的相对误差,并且可以使用利用结构相似度和相对误差的指标来执行分析。
换言之,例如,在模型生成处理中,可以指定被包括在多个分子中的另一分子的特征量相对于被包括在多个分子中的一个分子的特征量的相对误差,并且基于相似度和相对误差来生成模型。
即,例如,在本案中公开的技术的示例中,可以使用利用非特定分子(源分子、候选分子)的特征量相对于要作为参考的特定分子(查询分子)的特征量的相对误差的指标来执行分析。此外,当获得相对误差时,例如,优选的是使用各个特征量(结构描述符)的相对误差的平均值。
例如,可以使用以下等式计算各个特征量的相对误差的平均值。
[表达式8]
Figure BDA0003450227610000251
此处,在上述等式中,“Eave”意指相对误差的平均值,“xi s”意指非特定分子(源分子)中的第i结构描述符的值,并且“xi q”意指要作为参考的特定分子(查询分子)中的第i结构描述符的值。此外,在上述等式中,“n”意指特征量(选择的结构描述符)的总数目。
在上述等式中,例如,在特定分子(查询分子)中的结构描述符的值为“0”的情况下,从“xi q”中排除该结构描述符。
此外,例如,当获得特征量的相对误差时,优选的是通过对每个特征量进行加权(设置加权系数)来考虑每个特征量的重要性。换言之,例如,在模型生成处理中,优选的是根据对提高模型准确度的贡献度为多个特征量中的每一个设置权重,并且指定相对误差。
例如,可以通过适当地进行调整(调优)来设置每个特征量的加权系数,以提高模型准确度。
此外,在本案中公开的技术的示例中,可以使用利用上述特征量的相对误差的平均值和结构相似度的指标来执行分析。例如,可以使用以下等式中指示的指标作为使用特征量的相对误差的平均值和结构相似度的指标。
[表达式9]
Snew=αSDA+(1-α)(1-Eave)
此处,在上述等式中,“Snew”意指使用特征量的相对误差的平均值和结构相似度的指标,“SDA”意指结构相似度,“Eave”意指相对误差的平均值,并且“α”意指系数。
此外,例如,可以通过适当地调整(调节)来设置系数α以提高模型准确度,并且系数α例如可以设置为1/2。
例如,可以使用以下等式来计算每个特征量的相对误差。
[表达式10]
Figure BDA0003450227610000261
此处,在上述等式中,“ei”意指相对误差,“xi s”意指非特定分子(源分子)中的第i结构描述符的值,并且“xi q”意指要作为参考的特定分子(查询分子)中的第i结构描述符的值。此外,在上述等式中,min{A,B}意味着选择A和B中较小的一个。
另外,在本案中公开的技术的示例中,可以使用利用上述等式计算的相对误差和结构相似度来执行分析。例如,可以使用以下等式中指示的指标作为使用利用上述等式计算的相对误差和结构相似度的指标。
[表达式11]
Figure BDA0003450227610000271
此处,“Snew”意指使用特征量的相对误差和结构相似度的指标,“SDA”意指结构相似度,“ei”意指相对误差,“wi”意指权重,并且max{A,B}意指选择A和B中较大的一个。
此外,在上述等式中,例如,在“Snew”等于或小于零的情况下,“Snew”的值被设置为零。
<<模型生成>>
在本案中公开的技术的示例中,如上面描述的,基于多个分子的相应结构之间的相似度和结构描述符来生成用于分析第一分子的模型,该结构描述符是基于多个分子中的每个分子的结构而指定的指标。更具体地,例如,基于包括在特定分子组中的特定分子之间的结构相似度和包括在特定分子组中的特定分子中的结构描述符来生成用于分析非特定分子的模型。
在本案中公开的技术的示例中,生成的模型没有特别限制,只要该模型可以分析第一分子即可,并且可以根据目的适当地选择。生成的模型包括例如可以通过机器学习生成的模型(学习模型)、由数学公式表示的模型(指标)等。
例如,可以优选地使用对物理性质值执行回归预测的模型(多元回归模型)、将分子分类成类别的模型(类别分类器)等,作为可以通过机器学习生成的模型。换言之,例如,在本案中公开的技术的示例中,模型优选地是预测第一分子的特性值的预测模型或基于特性值对第一分子进行分类的分类模型。
以这种方式,在本案中公开的技术的示例中,基于其目标特性值已知的分子(特定分子)、使用预测模型或分类模型,可以搜索并且准确地缩减具有接近上述分子的物理性质值的物理性质值的分子。
此处,在本案中公开的技术的示例中,当基于结构相似度和结构描述符(特征量)来生成模型时,例如可以使用“PyCaret”,“PyCaret”是关于自动机器学习(AutoML)的Python库。
在“PyCaret”中,例如,通过输入学习数据并将要作为预测目标等的特性设置为目标变量并且将结构相似度和结构描述符(特征量)设置为解释变量,可以一并生成多种类型的模型。此外,在基于结构相似度和相对误差生成模型的情况下,例如,通过将结构相似度和相对误差设置为解释变量并将特性设置为目标变量来使用“PyCaret”执行计算,可以生成模型。
注意,例如,“PyCaret.org.PyCaret,2020年7月.URL(https://pycaret.org/about).PyCaret version 2.3.”描述了“PyCaret”的详细信息。
在本案中公开的技术的示例中,当验证生成的模型的准确度时,例如,可以使用称为“k-折交叉验证”的方法。在“k-折交叉验证”中,将训练数据(学习数据)划分成k组,并且根据剩下的一组的数据来对通过使用k组中的“k-1”组学习的模型进行验证。然后,在“k-折交叉验证”中,该验证随着改变用于学习和验证的组重复k次,以获得模型的准确度的平均值等。
“k-折交叉验证”可以例如通过上述“PyCaret”执行,并且在对分类模型(类别分类器)进行评估的情况下,可以获得关于模型准确度的指标,例如“准确度”、“AUC”或“召回率(Recall)”。另外,例如,在对预测模型(多元回归模型)进行评估的情况下,可以获得诸如“MAE”、“MSE”、“RMSE”或“R2(确定系数)”的指标。
此外,在本案中公开的技术的示例中,例如,当对分类模型进行评估时,可以在关注诸如“准确度”或“AUC”的指标时执行评估,特别地,对于执行二元分类的类别分类器,优选的是关注“AUC”。此外,当对预测模型进行评估时,例如,优选的是在关注“R2(确定系数)”的同时来执行评估。
在本案中公开的技术的示例中,当生成模型时,优选的是验证模型的准确度并且更新模型直到准确度变得等于或高于预定值。换言之,例如,在本案中公开的技术的示例中,在模型生成处理中,优选的是通过模型指定当执行使用特定分子的验证分析时的分析准确度,并且通过改变模型生成方法和参数中的至少一个来更新模型直到分析准确度变得等于或高于预定值。
分析准确度可以通过模型例如使用上述“k-折交叉验证”来指定。更具体地,例如,通过使用特定分子组的数据作为训练数据执行“k-折交叉验证”,可以指定当执行分析时的分析准确度以执行使用特定分子的验证。
此外,可以例如通过改变要使用上述“PyCaret”生成的模型的类型来改变模型生成方法。以这种方式,通过上述“PyCaret”,可以一并生成多种类型的模型。因此,通过从生成的模型之中选择准确度高的模型,可以提高模型的准确度。
另一方面,例如,可以通过由用户适当地改变和调整参数的值来改变模型的参数,或者在参数的值被随机改变并且模型的准确度被提高的情况下,可以通过采用参数的值来改变模型的参数。
<第一分子(非特定分子)的分析>
在本案中公开的技术的示例中,如上面描述的,通过使用生成的模型分析第一分子(非特定分子),例如,可以从大量第一分子之中选择其目标特性具有优选值的第一分子。
当使用生成的模型分析第一分子时,例如,通过将第一分子的数据输入到生成的模型中,可以执行诸如第一分子的特性值的预测或非特定分子的分类的分析。换言之,例如,在本案中公开的技术的示例中,优选的是通过将第一分子的数据输入到在模型生成处理中生成的模型中来分析第一分子。
此外,在本案中公开的技术的示例中,除了根据基于结构相似度和结构描述符(特征量)的模型的分析之外,还可以执行使用另一模型的分析。更具体地,例如,除了基于结构相似度和结构描述符的模型之外,还生成仅基于结构相似度的模型和仅基于结构描述符(特征量)的模型,并且可以从这些模型中选择高准确度的模型并使用该模型。
以这种方式,例如,即使在另一模型的准确度更高的情况下,也能够与分析目标和模型的类型无关地毫无例外地执行正确的分析。
注意,在本案中公开的技术的示例中,使用生成的模型分析非特定分子的处理可以被称为“分析处理”。
<其他处理>
其他处理没有特别限制并且可以根据目的适当地选择。
(信息处理方法)
在本案中公开的信息处理方法是用于利用计算机基于多个分子中的每个分子的特性数据来分析不同于多个分子的第一分子的信息处理方法,该方法包括模型生成处理,该模型生成处理用于基于多个分子的相应结构之间的相似度以及作为基于多个分子中的每个分子的结构而指定的指标的结构描述符来生成用于分析第一分子的模型。
例如,可以与例如在本案中公开的信息处理程序中的模型生成处理类似地执行在本案中公开的信息处理方法。此外,例如,在本案中公开的信息处理方法的优选模式可以类似于在本案中公开的信息处理程序中的模型生成处理的优选模式。
在本案中公开的信息处理方法可以是例如用于使用计算机执行模型生成处理的方法。
(信息处理设备)
在本案中公开的信息处理设备是基于多个分子中的每一个分子的特性数据来分析不同于多个分子的第一分子的信息处理设备,该信息处理设备包括模型生成单元,该模型生成单元基于多个分子的相应结构之间的相似度以及作为基于多个分子中的每一个分子的结构而指定的指标的结构描述符来生成用于分析第一分子的模型。
在本案中公开的信息处理设备包括模型生成单元,并且根据需要还包括其他单元(单元)。
信息处理设备包括例如存储器和处理器,并且根据需要还包括其他单元。作为处理器,可以优选地使用耦接至存储器的处理器来执行模型生成处理。
处理器可以是例如中央处理单元(CPU)、图形处理单元(GPU)或其组合。
如上所述,在本案中公开的信息处理设备可以是例如执行在本案中公开的信息处理程序的装置(计算机)。因此,在本案中公开的信息处理设备的优选模式可以类似于在本案中公开的信息处理程序的优选模式。
(计算机可读记录介质)
在本案中公开的计算机可读记录介质记录在本案中公开的信息处理程序。
对在本案中公开的计算机可读记录介质没有特别限制,并且可以根据目的适当地选择。例如,计算机可读记录介质的示例包括内置硬盘、外部附接硬盘、CD-ROM、DVD-ROM、MO盘、USB存储器等。
此外,在本案中公开的计算机可读记录介质可以是针对任意处理中的每一个处理划分和记录在本案中公开的信息处理程序的多个记录介质。
在下文中,将使用装置的配置示例、流程图等更详细地描述在本案中公开的技术示例。
图18示出了本案中公开的信息处理设备的硬件结构示例。
在信息处理设备100中,例如,控制单元101、主存储装置102、辅助存储装置103、输入输出(I/O)接口104、通信接口105、输入装置106、输出装置107和显示装置108经由系统总线109彼此连接。
控制单元101执行算术运算(四则算术运算、比较运算、退火法的算术运算等)、硬件和软件操作控制等。控制单元101可以是例如中央处理单元(CPU)、用于退火法的退火机的一部分、或它们的组合。
例如,控制单元101通过执行在主存储装置102等中读取的程序(例如,本案中公开的信息处理程序等)来实现各种功能。
由本案中公开的信息处理设备中的模型生成单元执行的处理可以由例如控制单元101执行。
主存储装置102存储各种程序和用于执行各种程序所需要的数据等。例如,可以使用具有只读存储器(ROM)和随机存取存储器(RAM)中的至少一个的装置作为主存储装置102。
例如,ROM存储诸如基本输入/输出系统(BIOS)等的各种程序。此外,ROM没有特别限制并且可以根据目的适当地选择。例如,可以例示出掩模ROM、可编程ROM(PROM)等。
例如,RAM用作当由控制单元101执行存储在ROM、辅助存储装置103等中的各种程序时扩展的工作范围。RAM没有特别限制并且可以根据目的适当地选择。例如,可以例示出动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)等。
辅助存储装置103没有特别限制,只要该装置可以存储各种类型的信息并且可以根据目的适当地选择。例如,可以例示出固态驱动器(SSD)、硬盘驱动器(HDD)等。此外,辅助存储装置103可以是便携式存储装置例如CD驱动器、DVD驱动器或蓝光(注册商标)盘(BD)驱动器。
此外,在本案中公开的信息处理程序例如存储在辅助存储装置103中、加载到主存储装置102的RAM(主存储器)中并且由控制单元101执行。
I/O接口104是用于连接各种外部装置的接口。I/O接口104可以向以下输入数据或者从以下输出数据:例如,致密盘ROM(CD-ROM)、数字多功能盘ROM(DVD-ROM)、磁光盘(MO盘)、通用串行总线(USB)存储器(USB闪存驱动器)等。
通信接口105没有特别限制,并且已知的通信接口可以适当地被使用。例如,可以例示出使用无线通信或有线通信等的通信装置。
输入装置106没有特别限制,只要该装置可以接收至信息处理设备100的各种请求和信息的输入,并且已知的装置可以适当地被使用。例如,可以例示出键盘、鼠标、触摸面板、麦克风等。此外,在输入装置106是触摸面板(触摸显示器)的情况下,输入装置106还可以用作显示装置108。
输出装置107没有特别限制,并且已知的装置可以适当地被使用。例如,可以例示出打印机等。
显示装置108没有特别限制,并且已知的装置可以适当地被使用。例如,可以例示出液晶显示器、有机EL显示器等。
图19是在本案中公开的信息处理设备的另一硬件结构示例。
在图19所示的示例中,信息处理设备100被分成执行用于计算结构描述符等的处理的计算机200和执行用于获得冲突图等的最大独立集以便计算结构相似度的处理的退火机300。此外,在图19所示的示例中,信息处理设备100中的计算机200和退火机300经由网络400连接。
在图19所示的示例中,例如,可以使用CPU等作为计算机200的控制单元101a,并且可以使用退火法(退火)中专用的装置作为退火机300的控制单元101b。
图20示出了本案中公开的信息处理设备的功能结构示例。
如图20中所示,信息处理设备100包括通信功能单元120、输入功能单元130、输出功能单元140、显示功能单元150、存储功能单元160以及控制功能单元170。
通信功能单元120将例如各种类型的数据发送至外部装置以及从外部装置接收例如各种类型的数据。通信功能单元120可以从外部装置接收例如多个分子中的每一个分子的特性数据、第一分子的数据等。
例如,输入功能单元130接收到信息处理设备100的各种指令。此外,输入功能单元130可以接收例如多个分子中的每一个分子的特性数据、第一分子的数据等的输入。
输出功能单元140打印并输出例如分析结果等的数据。
显示功能单元150在显示器上显示例如分析结果等的数据。
存储功能单元160存储例如各种程序、多个分子中的每一个分子的特性数据、第一分子的数据、分析结果的数据等。
控制功能单元170包括模型生成单元171和分析单元174。
例如,模型生成单元171执行用于基于多个分子的相应结构之间的相似度以及作为基于多个分子中的每一个分子的结构指定的指标的结构描述符来生成用于分析第一分子的模型的处理。
分析单元174根据由模型生成单元171生成的模型执行例如用于分析第一分子(非特定分子)的处理。
此外,模型生成单元171包括相似度指定单元172和结构描述符指定单元173。
相似度指定单元172执行例如用于指定(计算)多个分子的相应结构之间的相似度的处理。结构描述符指定单元173执行例如用于指定作为基于多个分子中的每一个分子的结构指定的指标的结构描述符、从结构描述符中选择特征量等的处理。
图21示出了在本案中公开的技术的示例中,当生成用于分析非特定分子的模型时的流程图的示例。
首先,模型生成单元171接收特定分子的关于结构的信息和关于特性值的信息的输入(S201)。换言之,例如,在S201中,模型生成单元171从多个分子中的每一个分子的特性数据(特定分子组的数据)获取例如每个特定分子的关于结构的信息和关于特性值的信息。
接下来,模型生成单元171基于特定分子的关于结构的信息获得特定分子之间的结构相似度(S202)。更具体地,例如,在S202中,模型生成单元171通过搜索冲突图的最大独立集或利用“RDKit”执行分析来指定多个分子的相应结构之间的相似度。
随后,模型生成单元171基于特定分子的关于结构的信息获得特定分子的结构描述符(S203)。更具体地,在S203中,例如,模型生成单元171通过利用“RDKit”执行分析来指定作为基于多个分子中的每一个分子的结构指定的指标的结构描述符。
接下来,模型生成单元171从多个结构描述符中指定有助于提高模型的准确度的结构描述符作为特征量(S204)。更具体地,在S204中,例如,模型生成单元171将特征量指定为假设使用“Boruta”指定为相对于“假特征量”具有高重要性的结构描述符是有助于模型的准确度的(重要)结构描述符。
然后,模型生成单元171基于结构相似度、特征量和特性值通过机器学习生成用于进行分析的模型(S205)。更具体地,在S205中,例如,模型生成单元171使用“PyCaret”将结构相似度和特征量设置为解释变量并且将特性值设置为目标变量来生成预测模型或分类模型。
接着,模型生成单元171使用特定分子执行用于验证的分析,并且指定分析准确度(S206)。更具体地,在S206中,例如,模型生成单元171针对所生成的模型关于多个分子中的每一个分子的特性数据执行“k折交叉验证”,以便验证模型的准确度。
随后,模型生成单元171确定分析准确度是否等于或高于预定值(S207)。更具体地,在S207中,在S206中指定的分析准确度低于预定值的情况下,模型生成单元171将处理进行到S208,并且在S206中指定的分析准确度等于或高于预定值的情况下,模型生成单元171结束处理。
接下来,模型生成单元171改变模型生成方法和参数中的至少之一(S208)。更具体地,在S208中,例如,模型生成单元171从生成的模型当中选择具有高准确度的模型,改变模型的参数值,并将处理返回到S205。
在图21所示的示例中,用于分析的模型是基于多个分子的相应结构之间的相似度与选自结构描述符的特征量生成的,所述结构描述符是基于多个分子中的每一个分子的结构指定的指标,并且更新模型直到模型的分析准确度达到等于或高于预定值的值。因此,在图21所示的示例中,可以生成具有较高准确度的模型。
图22示出了在本案中公开的技术的示例中,当生成用于分析非特定分子的模型时的流程图的另一示例。注意,因为图22中的S301和S302分别对应于图21中的S201和S202,图22中的S304和S305分别对应于图21中的S203和S204,并且图22中的S308至S310分别对应于图21中的S206至S208,所以将省略其描述。
在图22所示的示例中,在S303中,模型生成单元171从多个结构相似度中指定有助于提高模型的准确度的结构相似度。更具体地,在S303中,例如,模型生成单元171针对通过计算特定分子的组合的所有模式获得的结构相似度使用“Boruta”指定有助于模型的准确度的(重要的)结构相似度。
此外,在S306中,模型生成单元171获得另一分子的特征量相对于作为参考的分子的特征量的相对误差。更具体地,在S306中,例如,模型生成单元171获得非特定分子(源分子,候选分子)的特征量相对于作为参考的特定分子(查询分子)的特征量的相对误差的平均值。
然后,在S307中,模型生成单元171基于结构相似度、特征量的相对误差和特性值通过机器学习生成用于进行分析的模型。更具体地,在S307中,例如,模型生成单元171使用“PyCaret”将结构相似度和特征量的相对误差的平均值设置为解释变量并将特性值设置为目标变量来生成预测模型或分类模型。
这样,在图22所示的示例中,获得有助于提高模型的准确度的结构相似度,并且使用相似度的相对误差来生成模型,从而可以生成具有较高准确度的模型。
图23示出了在本案中公开的技术的示例中使用生成的模型分析非特定分子时的流程图的示例。
首先,分析单元174接收关于非特定分子的结构的信息的输入(S401)。换言之,例如,在S401中,分析单元174从包括多个第一分子(非特定分子)的数据中获取关于每个第一分子的结构的信息。
接下来,分析单元174基于关于非特定分子的结构的信息获得结构相似度(S402)。更具体地,在S402中,例如,分析单元174通过搜索冲突图的最大独立集或利用“RDKit”执行分析来指定特定分子与非特定分子(第一分子)之间的结构相似度以及非特定分子(第一分子)之间的结构相似度。
随后,分析单元174基于关于非特定分子的结构的信息获得非特定分子的与特征量相对应的结构描述符(S403)。更具体地,在S403中,例如,分析单元174通过利用“RDKit”分析非特定分子(第一分子)的与生成模型时指定的特征量相同类型的结构描述符来指定非特定分子的特征量的值。
然后,分析单元174将非特定分子的关于结构相似度和特征量的信息输入到生成的模型中并分析非特定分子(S404)。更具体地,在S404中,例如,分析单元174通过将关于非特定分子(第一分子)的结构相似度和特征量的信息输入到利用“PyCaret”生成的预测模型或分类模型中来分析非特定分子(第一分子)的特性值。此外,分析单元174可以将分析结果输出到显示器等。
然后,当非特定分子(第一分子)的分析完成时,分析单元174结束处理。
这样,在图23所示的示例中,因为使用基于结构相似度和结构描述符两者的模型来分析非特定分子(第一分子),所以可以以更高的准确度进行分析。
此外,在图21至图23中,已经根据特定顺序描述了在本案中公开的技术的示例中的处理的流程。然而,在本案中公开的技术中,可以在技术上可能的范围内适当地切换各个步骤的顺序。
此外,在本案中公开的技术中,多个步骤可以在技术上可能的范围内共同执行。例如,在图21所示的示例中,因为S202(结构相似度的计算)是独立于S203和S204(结构描述符的计算和特征量的指定)的处理,所以可以并行执行这两个处理,或者可以在S202之前执行S203和S204。
下面将描述退火法和退火机的示例。
退火法是使用随机数值和量子位的叠加来概率性地获得解的方法。下面以使要优化的评估函数的值最小化的问题为例进行描述。评估函数的值被称为能量。此外,在评估函数的值被最大化的情况下,仅需要改变评估函数的符号。
首先,从向每个变量分配离散值中的一个离散值的初始状态开始处理。针对当前状态(变量值的组合),选择接近当前状态的状态(例如,仅一个变量改变的状态),并且考虑这两个状态之间的状态转变。计算与状态转变相关的能量变化。根据该值,概率性地确定是采用状态转变以改变状态,还是不采用状态转变以保持原始状态。在能量减少情况下的采用概率被选择为大于能量增加情况下的采用概率的情况下,可以预期在能量平均减少的方向上会发生状态变化,并且随着时间的推移,将发生向更合适的状态的状态转变。因此,存在如下可能性:可以最终获得最优解或者给出接近最优值的能量的近似解。
如果在能量确定性减少的情况下采用状态转变,而在能量增加的情况下不采用状态转变,则能量变化在广义上相对于时间单调减少,但是在到达局部解时不会发生进一步的变化。如上所述,由于离散优化问题中存在非常大量的局部解,因此状态几乎肯定地陷入不太接近最优值的局部解中。因此,当求解离散优化问题时,概率性地确定是否采用该状态是重要的。
在退火法中,已经证明,通过如下确定状态转变的采用(允许)概率,状态在无限时间(迭代计数)的限制下达到最优解。
在下文中,将逐步描述用于使用退火法获得最优解的方法。
对于由于状态转变引起的能量变化(能量减少)值(-ΔE),状态转变的允许概率p由以下函数f()中的任何一个函数确定。
[表达式12]
p(ΔE,T)=f(-ΔE/T) (等式1-1)
[表达式13]
fmetro(x)=min(1,ex) (METROPOLIS法) (等式1-2)
[表达式14]
Figure BDA0003450227610000381
(Gibbs法) (等式1-3)
此处,T表示被称为温度值的参数,并且例如可以如下改变。
(2)如由以下等式所表示的,温度值T相对于迭代计数t对数地减小。
[表达式15]
Figure BDA0003450227610000382
这里,T0是初始温度值,并且根据问题,期望T0是足够大的值。
在使用由(1)中的等式表示的允许概率的情况下,如果状态在足够的迭代之后达到稳态,则对于热力学中的热平衡状态,每个状态的占有概率都遵循玻尔兹曼分布。
然后,当温度从高温逐渐降低时,低能量状态的占有概率增加。因此,认为当温度充分降低时获得低能量状态。由于该状态与当材料退火时引起的状态变化非常相似,因此该方法被称为退火法(或伪退火法)。注意,使能量增加的状态转变的概率发生对应于物理学中的热激发。
图24示出了执行退火法的退火机的功能配置的示例。然而,在以下描述中,还描述了生成多个状态转变候选的情况。然而,基本的退火法一次生成一个转变候选。
退火机300包括保持当前状态S(多个状态变量值)的状态保持单元111。此外,退火机300包括能量计算单元112,该能量计算单元112计算在由于多个状态变量值中的任何一个状态变量值的变化而发生从当前状态S的状态转变的情况下每个状态转变的能量变化值{-ΔEi}。另外,退火机300包括控制温度值T的温度控制单元113以及控制状态变化的转变控制单元114。注意,退火机300可以是以上描述的信息处理设备100的一部分。
转变控制单元114基于温度值T、能量变化值{-ΔEi}和随机数值,根据能量变化值{-ΔEi}与热激发能量之间的相对关系来概率性地确定是否接受多个状态转变中的任何一个。
在此,转变控制单元114包括:候选生成单元114a,其生成状态转变候选;以及可用性确定单元114b,其用于基于能量变化值{-ΔEi}和温度值T来概率性地确定是否允许针对各个候选的状态转变。此外,转变控制单元114包括:转变确定单元114c,其从已被允许的候选中确定要采用的候选;以及随机数生成单元114d,其生成随机变量。
退火机300在一次迭代中的操作如下。
首先,候选生成单元114a生成从保持在状态保持单元111中的当前状态S到下一状态的一个或多个状态转变候选(候选编号{Ni})。接下来,能量计算单元112通过使用当前状态S和状态转变候选来计算被列为候选的每个状态转变的能量变化值{-ΔEi}。可用性确定单元114b使用由温度控制单元113生成的温度值T和由随机数生成单元114d生成的随机变量(随机数值),根据每个状态转变的能量变化值{-ΔEi},以上述等式(1)的允许概率允许状态转变。
然后,可用性确定单元114b输出每个状态转变的可用性{fi}。在存在多个被允许的状态转变的情况下,转变确定单元114c使用随机数值随机地选择被允许的状态转变中的一个状态转变。然后,转变确定单元114c输出所选择的状态转变的转变编号N和转变可用性f。在存在被允许的状态转变的情况下,根据所采用的状态转变来更新存储在状态保持单元111中的状态变量值。
从初始状态开始,在温度控制单元113降低温度值的同时重复以上描述的迭代。当满足完成确定条件例如达到一定迭代计数或能量下降到一定值以下时,操作完成。退火机300输出的答案是操作完成时的状态。
图24所示的退火机300可以通过使用例如半导体集成电路来实现。例如,转变控制单元114可以包括用作随机数生成单元114d的随机数生成电路、用作可用性确定单元114b的至少一部分的比较电路、稍后要描述的噪声表等。
关于图24所示的转变控制单元114,将进一步描述以等式(1)中表示的允许概率允许状态转变的机制的细节。
通过在具有两个输入A和B、当满足A>B时输出1并且当满足A<B时输出0的比较器中针对输入A输入允许概率p并且针对输入B输入取区间[0,1)的值的均匀随机数,可以实现以允许概率p输出1并且以允许概率(1-p)输出0的电路。因此,如果将使用等式(1)基于能量变化值和温度值T计算出的允许概率p的值输入至该比较器的输入A,则可以实现上述功能。
换句话说,例如,利用当f(ΔE/T)大于u时输出1的电路可以实现以上描述的功能,其中,f是等式(1)中使用的函数,并且u是取区间[0,1)的值的均匀随机数。
此外,通过进行以下修改也可以实现与以上描述的功能相同的功能。
将相同的单调递增函数应用于两个数,不会改变大小关系。因此,即使将相同的单调递增函数应用于比较器的两个输入,也不会改变输出。如果采用f的反函数f-1作为该单调递增函数,则可以看出,可以采用当-ΔE/T大于f-1(u)时输出1的电路。此外,由于温度值T为正,因此可以看出,可以采用当-ΔE大于Tf-1(u)时输出1的电路。
图24的转变控制单元114可以包括噪声表,该噪声表是实现反函数f-1(u)并且针对作为离散化区间[0,1)的输入来输出下一函数的值的转换表。
[表达式16]
Figure BDA0003450227610000401
[表达式17]
Figure BDA0003450227610000402
图25是示出转变控制单元114的操作流程的示例的图。图25所示的操作流程包括:选择一个状态转变作为候选的步骤(S0001)、通过将针对状态转变的能量变化值与温度值和随机数值的乘积进行比较来确定状态转变的可用性的步骤(S0002)、以及当状态转变可用时采用状态转变并且当状态转变不可用时不采用状态转变的步骤(S0003)。
[实施方式]
在下文中,将描述本实施方式的具体实施方式和关于本实施方式的比较例。注意,本发明不限于这些实施方式。
(第一实施方式)
作为第一实施方式,使用在本案中公开的信息处理设备的示例,生成模型,并且验证生成的模型的准确度。在第一实施方式中,使用具有如图19所示的硬件结构和如图20所示的功能配置的信息处理设备。然后,在第一实施方式中,根据图21和图23中的流程图所示的流程,生成模型,并验证模型的准确度。
具体地,例如,在第一实施方式中,对于已知生物活性的32个分子(16个是活性的和16个是无活性的),使用25条数据作为训练数据(学习数据),并且使用7条数据作为测试数据。此外,作为已知其生物活性的32个分子,使用从“AID 1006(https://pubchem.ncbi.nlm.nih.gov/bioassay/1006)”中随机提取的32个分子。
在第一实施方式中,为了验证模型的准确度,将已知其生物活性的32个分子中的25个分子视为特定分子(多个分子中的每个分子的特性数据),七个分子被假设为非特定分子(第一分子)并进行分析,并将七个分子的分析结果与七个分子的实际生物活性进行比较。即,例如,在第一实施方式中,生成根据生物活性是“活性的”还是“无活性的”执行分类的二元分类模型(类别分类器),并验证其准确度。
首先,在第一实施方式中,将具有25条训练数据中的最佳生物活性值的分子设置为结构相似度的参考分子,并且获得另一分子相对于参考分子的结构相似度(一对多关系中的相似度)。具体而言,例如选择“PubChem CID603597(https://pubchem.ncbi.nlm.nih.gov/compound/603597)”作为结构相似度的参考分子。
此外,通过使用数字退火器(注册商标)搜索冲突图的最大独立集来计算结构相似度。此外,当搜索冲突图的最大独立集时,冲突图的节点被设置为基于GAFF的原子类型具有从元素种类中细分出的相同原子类型的两个原子的组合。
此外,在第一实施方式中,使用“RDKit”计算32个分子中的每一个分子的208种类型的结构描述符(从零维到二维)。
随后,在第一实施方式中,使用“Boruta”从208种类型的结构描述符中指定九个有助于分类的准确度的结构描述符作为特征量。
在第一实施方式中,被选择为特征量的九个结构描述符如下。
·MolWt
·HeavyAtomMolWt
·ExactMolWt
·BCUT2D_MWLOW
·BCUT2D_MRLOW
·Kappa2
·SlogP_VSA3
·SlogP_VSA5
·NumHeteroatoms
此外,被选择为以上描述的特征量的九个结构描述符的其含义明确的结构描述符如下。
·MolWt:平均分子权重
·HeavyAtomMolWt:不包括氢原子的分子权重
·ExactMolWt:精确的分子权重
·SlogP_VSA3和SlogP_VSA5:指在分子中具有落入预定范围内的LogP的原子组分的原子的表面积总和(分子的部分表面积)和表示SlogP_VSA1(亲水原子的表面积总和)至SlogP_VSA12(疏水原子的表面积总和)。
·NumHeteroatoms:杂原子的数量
随后,在第一实施方式中,使用“PyCaret”基于结构相似度和九个特征量生成分类模型(类别分类器)。此外,在第一实施方式中,利用“PyCaret”一起生成多种类型的分类模型,并且从生成的模型当中选择并使用具有高准确度的分类模型。
图26示出了在第一实施方式中生成的分类模型的类型与每个分类模型的准确度的指标之间的关系的示例。如图26所示,当比较各个分类模型(Model)的准确度的指标时,“Extra Trees分类器(Extra Trees Classifier)”具有较高的“准确度(Accuracy)”和“AUC”值,“准确度(Accuracy)”和“AUC”值在评估分类模型时很重要。因此,在第一实施方式中,“Extra Trees分类器”被用作分类模型。
注意,例如,“P.Geurts,D.Ernst和L.Wehenkel,“Extremely randomized trees”,Machine Learning,63(1),3至42,2006年”公开了“Extra Trees分类器”的细节。
然后,在第一实施方式中,对于生成的分类模型,通过使用25条训练数据执行“k折交叉验证(k=10)”来验证分类模型的准确度。
此外,为了比较分类模型的准确度,在根据以上描述的第一实施方式的方法中,仅基于结构相似度(不执行图21中的S203和S204)来生成分类模型。然后,对于仅基于结构相似度的分类模型,通过使用训练数据执行“k折交叉验证(k=10)”来验证和比较准确度。
此外,为了在根据以上描述的第一实施方式的方法中比较分类模型的准确度,仅基于结构描述符(九个特征量)(不执行图21中的S202)来生成分类模型。然后,对于仅基于结构描述符(九个特征量)的分类模型,通过使用训练数据执行“k折交叉验证(k=10)”来验证和比较准确度。
图27示出了在第一实施方式中生成的分类模型中的“k折交叉验证(k=10)”的结果的示例。
图28示出了作为与第一实施方式对应的示例的仅基于结构相似度生成的分类模型中的“k折交叉验证(k=10)”的结果的示例。
图29示出了作为与第一实施方式对应的示例的仅基于结构描述符(九个特征量)生成的分类模型中的“k折交叉验证(k=10)”的结果的示例。
如图27所示,对于在第一实施方式中生成的分类模型,表示分类的准确度的“准确度(Accuracy)”为“0.85(85%)”。另一方面,如图28和图29所示,仅基于结构相似度生成的分类模型的“准确度”为“0.50(50%)”,仅基于结构描述符(九个特征量)生成的分类模型的“准确度”为“0.80(80%)”。
这样,在第一实施方式中,可以验证基于结构相似度和结构描述符(九个特征量)的预测模型的准确度高于其他分类模型的准确度。
此外,在第一实施方式中,假设七条测试数据的生物活性未知,并且使用基于结构相似度和结构描述符(九个特征量)生成的分类模型执行分类。
图30示出了使用在第一实施方式中生成的分类模型的关于假设其生物活性未知的七条测试数据的分类结果的示例。此外,作为与第一实施方式对应的示例,图31示出了使用仅基于结构相似度生成的分类模型的关于假设其生物活性未知的七条测试数据的分类结果的示例。
在图30和图31中,在“Extra Trees分类器混淆矩阵(Extra Trees ClassifierConfusion Matrix)”中,纵轴表示测试数据的正确生物活性,横轴表示测试数据中利用分类模型分类的生物活性。此外,在图30和图31中,“1”表示“活性的(具有生物活性)”,“0”表示“无活性的(无生物活性)”。
因此,在图30和图31中,在可以利用分类模型正确执行分类的情况下,将测试数据分类到“Extra Trees分类器混淆矩阵”的左上方或右下方。另一方面,在图30和图31中,在利用分类模型执行错误分类的情况下,将测试数据分类到“Extra Trees分类器混淆矩阵”的左下方或右上方。
如图30所示,利用基于结构相似度和结构描述符(9个特征量)生成的第一实施方式中的分类模型,可以正确分类所有7条测试数据(准确度100%)。另一方面,如图31所示,利用仅基于结构相似度生成的分类模型,7条测试数据中的4条测试数据可以被正确分类,分类准确度为57%。
这样,在第一实施方式中,可以确认,利用基于结构相似度和结构描述符(9个特征量)的预测模型,可以以高准确度对其生物活性未知的分子进行分类(分类)。
(第二实施方式)
在第二实施方式中,与第一实施方式一样执行分析,不同之处在于,在以上描述的第一实施方式中,通过相关性分析,特征量的数量从九个减少到七个,获得关于特征量的相对误差的平均值,并基于相对误差的平均值和结构相似度生成分类模型。
具体地,例如,在第二实施方式中,通过关于9个特征量执行相关性分析指定具有强相关性(彼此相似)的特征量并且不使用具有强相关性的特征量中的一部分来生成分类模型,从而生成分类模型。
当在第二实施方式中对九个特征量执行相关性分析时,将以下三个结构描述符指定为具有强相关性(彼此相似)的特征量。
·MolWt:平均分子权重
·HeavyAtomMolWt:不包括氢原子的分子权重
·ExactMolWt:精确的分子权重
因此,在第二实施方式中,在以上描述的三个结构描述符中,排除“HeavyAtomMolWt”和“ExactMolWt”不用于生成分类模型,并且生成了分类模型。
此外,在第二实施方式中,使用以下等式获得关于特征量的相对误差的平均值。
[表达式18]
Figure BDA0003450227610000451
这里,在以上描述的等式中,“Eave”表示相对误差的平均值。此外,“xi s”表示包括在测试数据中的分子中第i个结构描述符的值,“xi q”表示作为参考的分子中第i个结构描述符的值(在第二实施例中,PubChem CID603597)。此外,在上述等式中,“n”表示特征量的总数。
在上述等式中,例如,计算被执行为从“xi q”中排除“SlogP_VSA3”,其中参考分子(PubChem CID603597)的结构描述符的值为“0”。
然后,在第二实施方式中,获得由以下等式表示的指标。
[表达式19]
Snew=αSDA+(1-α)(1-Eave)
这里,在以上描述的等式中,“Snew”表示使用特征量的相对误差的平均值和结构相似度的指标,“SDA”表示结构相似度,“Eave”表示相对误差的平均值,“α”表示系数(在第二实施方式中为1/2)。
此外,为了验证上述指标“Snew”的准确度,以与以上描述的方法类似的方式获得仅基于结构相似度(SDA)的指标(对应于上述等式中α=1的情况)。
此外,为了验证上述指标“Snew”的准确度,与以上描述的方法类似,仅基于特征量的相对误差的平均值(Eave)的指标(对应上式中α=0的情况)。
图32示出了通过使用利用特征量的相对误差的平均值和结构相似度的指标“Snew”分析25条训练数据以指标“Snew”的值的降序排列10个分子的结果。
图33示出了通过使用仅使用结构相似度的指标“SDA”分析25条训练数据以指标“SDA”的值的降序排列10个分子的结果。
图34示出了通过使用仅使用特征量的相对误差的指标“1-Eave”分析25条训练数据以指标“1-Eave”的值的降序排列10个分子的结果。
如图32所示,利用使用特征量的相对误差的平均值和结构相似度的指数“Snew”,具有指数“Snew”的大的值的10个分子中,9个分子与作为参考的分子(CID603597)具有相同的生物活性“Active”。另一方面,如图33和图34所示,利用仅使用结构相似度的指标“SDA”,十个分子中的五个分子具有生物活性“Active”,利用仅使用特征量的相对误差的指标“1-Eave”,十个分子中的十个分子具有生物活性“Active”。
如上所述,在第二实施方式中,仅使用特征量的相对误差的指标“Eave”的评估结果最高。在本案中公开的技术的示例中,例如在第二实施方式中,除了根据基于结构相似度和特征量(结构描述符)的指标的分析结果之外,可以呈现仅使用结构相似度的指标的分析结果和仅使用特征量(结构描述符)的指标的分析结果。
这样,无论分析目标或模型的类型如何,都可以毫无例外地执行正确的分析。
此外,在第二实施方式中,基于如以上描述计算的特征量(六个)的相对误差的平均值和结构相似度,与第一实施方式中一样,使用“PyCaret”利用“Extra Trees分类器”生成分类模型。然后,在第二实施方式中,对于生成的分类模型,通过使用25条训练数据执行“k折交叉验证(k=10)”来验证分类模型的准确度。
为了比较分类模型的准确度,与以上描述的方法类似,基于六个特征量和结构相似度生成分类模型。然后,使用训练数据对分类模型执行“k折交叉验证(k=10)”,并验证和比较准确度。
图35示出了在第二实施方式中生成的基于六个特征量的相对误差的平均值和结构相似度的分类模型中的“k折交叉验证(k=10)”的结果的示例。
图36示出了基于六个特征量和结构相似度生成的分类模型中的“k折交叉验证(k=10)”的结果的示例。
如图35所示,在基于六个特征量的相对误差的平均值和结构相似度的分类模型中,在二元分类中尤为重要的“AUC”为“0.85”。另一方面,如图36所示,基于六个特征量和结构相似度生成的分类模型的“AUC”为“0.80”。
这样,在第二实施方式中,使用基于特征量的相对误差的平均值和结构相似度的分类模型,可以验证分类模型的准确度可以进一步提高。
此外,在本案中公开的技术的示例中,如在第二实施方式中,例如,当验证模型的准确度时,可以根据分析目标、模型的类型等关注尤其重要的特定指标(在第二实施方式中为“AUC”)来验证准确度。
此外,在第二实施方式中,假设七条测试数据的生物活性未知,并使用基于特征量的相对误差的平均值和结构相似度的分类模型进行分类。
图37示出了使用在第二实施方式中生成的基于特征量的相对误差的平均值和结构相似度的分类模型对假设其生物活性未知的七条测试数据进行分类的结果的示例。此外,图37的格式类似于图30和图31的格式。
如图37所示,利用基于特征量的相对误差的平均值和结构相似度的第二实施方式中的分类模型,可以正确地对所有七条测试数据进行分类(准确度100%)。
这样,在第二实施方式中,可以确认,可以利用基于特征量的相对误差的平均值和结构相似度的预测模型,以高的准确度对其生物活性未知的分子进行分类(分类)。
(第三实施方式)
在第三实施方式中,使用化学手册中记载的其溶剂中使用的粘度是已知的83个分子中的80%作为训练数据(特定分子和多个分子中的每个分子的特性数据)并且使用83个分子中的20%作为测试数据(非特定分子、第一个分子)。然后,在第三实施方式中,生成预测测试数据中的粘度的预测模型(多元回归模型),并验证预测模型的准确度。注意,在第三实施方式中,除了下面描述的过程等之外的内容与第一实施方式中的内容类似地执行。此外,在第三实施方式中,每个分子的粘度被设置为对数值(通过取log获得的值)。
首先,在第三实施方式中,与第一实施方式不同,当获得分子之间的结构相似度时,获得83个分子的所有组合模式(83*83)的相似度。然后,在第三实施方式中,使用以上描述的“Boruta”指定有助于提高多元回归模型的准确度的五个相似度,并且使用这些相似度来生成多元回归模型。
在第三实施方式中,被指定为有助于提高多元回归模型的准确度的相似度的相似度如下。
·与PUBCHEM_CID 103的相似度
·与PUBCHEM_CID 174的相似度
·与PUBCHEM_CID 284的相似度
·与PUBCHEM_CID 753的相似度
·与PUBCHEM_CID 887的相似度
随后,在第三实施方式中,使用“RDKit”针对83个分子中的每一个分子计算208种类型的结构描述符,并使用“Boruta”从208种类型的结构描述符中指定有助于提高分类的准确度的14种结构描述符,并将其用作特征量。
在第三实施方式中,被选择为特征量的14个结构描述符如下。
·MinAbsEStateIndex
·BertzCT
·Chi1v
·Chi3v
·Ipc
·PEOE_VSA1
·TPSA
·EState_VSA2
·VSA_EState3
·NHOHCount
·NumHDonors
·MolLogP
·fr_Al_OH
·fr_Al_OH_noTert
此外,被选择为以上描述的特征量的14个结构描述符中的其含义明确的结构描述符如下。
·BertzCT:旨在量化分子复杂性的拓扑指数
·Ipc:关于分子图的邻接矩阵的特征多项式的系数的信息
·TPSA:关于分子图的邻接矩阵的特征多项式的系数的信息
·NHOHCount:关于分子图的邻接矩阵的特征多项式的系数的信息
·NumHDonors:关于分子图的邻接矩阵的特征多项式的系数的信息
·MolLogP:关于分子图的邻接矩阵的特征多项式的系数的信息
·fr_Al_OH:关于分子图的邻接矩阵的特征多项式的系数的信息
·fr_Al_OH_noTert:关于分子图的邻接矩阵的特征多项式的系数的信息
随后,在第三实施方式中,使用“PyCaret”基于五个结构相似度和14个特征量生成预测模型(多元回归模型)。此外,在第三实施方式中,利用“PyCaret”一起生成多种类型的预测模型,并且从生成的预测模型中选择并使用具有高准确度的预测模型。
图38示出了在第三实施方式中生成的分类模型的类型与每个分类模型的准确度的指标之间的关系的示例。如图38所示,当比较各个预测模型(Model)的准确度的指标时,对于“CatBoost回归量(Regressor)”,发现当评估预测模型时重要的“R2(确定系数)”的值高。因此,在第三实施方式中,“CatBoost回归量”被用作预测模型。
请注意,例如,“Liudmila Prokhorenkova、Gleb Gusev、Aleksandr Vorobev、AnnaVeronika Dorogush、Andrey Gulin、Bulat Ibragimov,arXiv:1706.09516”公开了“CatBoost回归量”的细节。
然后,在第三实施方式中,对于生成的预测模型,通过使用训练数据执行“k折交叉验证(k=10)”来验证预测模型的准确度。注意,在第三实施方式中,通过执行“k折交叉验证(k=10)”(100次网格搜索)来优化预测模型的参数。
此外,为了比较预测模型的准确度,在根据以上描述的第三实施方式的方法中,仅基于结构相似度(不执行图21中的S203和S204)来生成预测模型。然后,对于仅基于结构相似度的预测模型,通过使用训练数据执行“k折交叉验证(k=10)”来验证和比较准确度。
此外,为了比较根据以上描述的第三实施方式的方法中的预测模型的准确度,仅基于结构描述符(14个特征量)(不执行图21中的S202)来生成预测模型。然后,对于仅基于结构描述符(14个特征量)的预测模型,通过使用训练数据执行“k折交叉验证(k=10)”来验证和比较准确度。
图39示出了在第三实施方式中生成的预测模型中的“k折交叉验证(k=10)”的结果的示例。
图40示出了作为与第三实施方式对应的示例的仅基于结构相似度生成的预测模型中的“k折交叉验证(k=10)”的结果的示例。
图41示出作为与第三实施方式对应的示例的仅基于结构描述符(14个特征量)生成的预测模型中的“k折交叉验证(k=10)”的结果的示例。
如图39所示,在对在第三实施方式中生成的预测模型的预测模型评估时重要的“R2(确定系数)”为“0.4644”。另一方面,如图40和图41所示,仅基于结构相似度生成的预测模型的“R2(确定系数)”为“0.0993”,仅基于结构描述符(14个特征量)生成的预测模型的“R2”为“0.4751”。
此外,在第三实施方式中,假设测试数据的粘度未知,并且该粘度是使用基于结构相似度和结构描述符(14个特征量)生成的预测模型预测的。
图42示出了使用在第三实施方式中生成的预测模型来预测假设其粘度未知的测试数据的粘度的结果的示例。
图43示出了作为与第三实施方式对应的示例的使用仅基于结构相似度而生成的预测模型来预测假设其粘度未知的测试数据的粘度的结果。
图44示出了作为与第三实施方式对应的示例的使用仅基于结构描述符(14个特征量)而生成的预测模型来预测假设其粘度未知的测试数据的粘度的结果。
在图42至图44中,在曲线图(CatBoost回归量的预测误差)中,纵轴表示测试数据的正确粘度,而横轴表示测试数据中的由预测模型预测的粘度。
如图42所示,对于基于结构相似度和结构描述符(14个特征量)生成的预测模型,假设其粘度未知的测试数据的“R2”为“0.7165”。另一方面,如图43和图44所示,仅基于结构相似度生成的预测模型的测试数据的“R2”为“-0.1039”,仅基于结构描述符(14个特征量)生成的预测模型的“R2”为“0.7368”。
这样,在第三实施方式中,基于5个结构相似度和14个特征量生成的预测模型的评估结果和仅基于14个特征量生成的预测模型的评估结果高于仅基于5个结构相似度生成的预测模型的评估结果。在本案中公开的技术的示例中,在第三实施方式中,例如,除了基于结构相似度和特征量的预测模型的分析结果之外,可以呈现仅使用结构相似度的预测模型的分析结果和仅使用特征量(结构描述符)的预测模型的分析结果。
这样,即使在执行回归预测的情况下,无论分析目标或模型的类型如何,都可以毫无例外地执行正确的分析。

Claims (14)

1.一种信息处理程序,在所述信息处理程序中,信息处理设备基于多个分子中的每个分子的特性数据来分析与所述多个分子中的所有分子不同的第一分子,所述信息处理程序执行以下处理:
指定结构描述符,所述结构描述符是基于所述多个分子的结构中的每个结构的指标;以及
基于所述结构描述符和所述多个分子的结构中的每个结构之间的相似度来生成用于分析所述第一分子的模型。
2.根据权利要求1所述的信息处理程序,其中,
所述指定包括:将多个结构描述符之中有助于提高所述模型的准确度的结构描述符指定为特征量,以及
所述生成包括:基于所述相似度和所述特征量来生成所述模型。
3.根据权利要求1所述的信息处理程序,其中,
所述指定包括:通过关于多个特征量执行相关性分析来将多个结构描述符之中彼此相关的结构描述符指定为特征量,所述特征量中的至少一个不用于生成所述模型。
4.根据权利要求2所述的信息处理程序,其中,所述处理还包括:
指定被包括在所述多个分子中的另一分子的特征量相对于被包括在所述多个分子中的一个分子的特征量的相对误差,其中,
所述生成包括:基于所述相似度和所述相对误差来生成所述模型。
5.根据权利要求2所述的信息处理程序,其中,所述处理还包括:
根据对提高所述模型的准确度的贡献程度来向所述多个特征量中的每个特征量设置权重,其中,
所述相对误差基于所述权重来指定。
6.根据权利要求1至5中任一项所述的信息处理程序,所述处理还包括:
通过所述模型指定当执行使用所述多个分子的验证分析时的分析准确度,其中,
通过改变模型生成方法和参数中的至少一个来更新所述模型,直到所述分析准确度变得等于或高于预定值。
7.根据权利要求1至6中任一项所述的信息处理程序,其中,所述模型是预测所述第一分子的特性值的预测模型或者是基于所述特性值对所述第一分子进行分类的分类模型。
8.根据权利要求1至7中任一项所述的信息处理程序,其中,
所述相似度通过使用以下等式(1)基于被包括在所述多个分子中的第二分子和第三分子的分子结构来搜索最大独立集而获得,
Figure FDA0003450227600000021
其中,在所述等式(1)中,
所述H是哈密顿函数,意指最小化所述H是搜索所述最大独立集,
所述n对应于被表示为图的所述第二分子和所述第三分子的冲突图的节点的数目,
所述冲突图对应于基于规则创建的图,在所述规则中,将包括在被表示为图的所述第二分子中的每个节点原子和包括在被表示为图的所述第三分子中的每个节点原子的组合设置为所述节点,比较多个节点并且在彼此不相同的节点之间创建边,以及比较所述多个节点并且在彼此相同的节点之间不创建边,
所述bi是表示针对第i节点的偏差的数值,
当在所述第i节点与第j节点之间存在边时,所述wij是不为零的正数,并且
当在所述第i节点与所述第j节点之间不存在边时,所述wij为零,
所述xi是表示所述第i节点为0或1的二进制变量,
所述xj是表示所述第j节点为0或1的二进制变量,并且
所述α和所述β是正数。
9.根据权利要求8所述的信息处理程序,其中,
使用以下等式(2)获得搜索到的最大独立集的相似度,
Figure FDA0003450227600000031
其中,在所述等式(2)中,
所述GA表示被表示为图的所述第二分子,
所述GB表示被表示为图的所述第三分子,
所述S(GA,GB)表示被表示为图的所述第二分子与被表示为图的所述第三分子之间的相似度,用0到1表示,并且意指S(GA,GB)越接近1则所述相似度越高,
所述VA表示被表示为图的所述第二分子的节点原子的总数目,
所述Vc A表示被表示为图的所述第二分子的节点原子的冲突图的最大独立集中包括的节点原子的数目,
所述VB表示被表示为图的所述第三分子的节点原子的总数目,
所述Vc B表示被表示为图的所述第三分子的节点原子的冲突图的最大独立集中包括的节点原子的数目,并且
所述δ是0到1的数。
10.根据权利要求8或9所述的信息处理程序,其中,所述冲突图中的节点是所述第二分子与所述第三分子之间具有从元素种类细分出的相同原子类型的两个节点原子的组合。
11.根据权利要求8至10中任一项所述的信息处理程序,其中,
通过使用退火法最小化所述等式(1)中的所述哈密顿函数来搜索所述最大独立集。
12.根据权利要求1所述的信息处理程序,其中,通过将所述第一分子的数据输入到在模型生成处理中生成的模型中来分析所述第一分子。
13.一种信息处理设备,其基于多个分子中的每个分子的特性数据分析与所述多个分子中的所有分子不同的第一分子,所述信息处理设备包括:
存储器;以及
处理器,其耦接至所述存储器并且被配置成:
指定结构描述符,所述结构描述符是基于所述多个分子的结构中的每个结构的指标;以及
基于所述结构描述符和所述多个分子的结构中的每个结构之间的相似度来生成用于分析所述第一分子的模型。
14.一种信息处理方法,其由基于多个分子中的每个分子的特性数据分析与所述多个分子中的所有分子不同的第一分子的信息处理设备执行以执行处理,所述信息处理方法包括:
指定结构描述符,所述结构描述符是基于所述多个分子的结构中的每个结构的指标;以及
基于所述结构描述符和所述多个分子的结构中的每个结构之间的相似度来生成用于分析所述第一分子的模型。
CN202111673796.3A 2021-03-26 2021-12-31 信息处理程序、信息处理设备和信息处理方法 Pending CN115132292A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021052505A JP2022150078A (ja) 2021-03-26 2021-03-26 情報処理プログラム、情報処理装置、及び情報処理方法
JP2021-052505 2021-03-26

Publications (1)

Publication Number Publication Date
CN115132292A true CN115132292A (zh) 2022-09-30

Family

ID=78916939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111673796.3A Pending CN115132292A (zh) 2021-03-26 2021-12-31 信息处理程序、信息处理设备和信息处理方法

Country Status (4)

Country Link
US (1) US20220310211A1 (zh)
EP (1) EP4071764A3 (zh)
JP (1) JP2022150078A (zh)
CN (1) CN115132292A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115713986A (zh) * 2022-11-11 2023-02-24 中南大学 基于注意力机制的材料晶体属性预测方法
CN117828374A (zh) * 2024-03-06 2024-04-05 北京玻色量子科技有限公司 基于光量子计算机的分子相似性计算方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103650100A (zh) * 2011-04-28 2014-03-19 菲利普莫里斯生产公司 计算机辅助结构识别
US20200381085A1 (en) * 2019-05-30 2020-12-03 Fujitsu Limited Material characteristic prediction apparatus and material characteristic prediction method
CN112199884A (zh) * 2020-09-07 2021-01-08 深圳先进技术研究院 物品分子生成方法、装置、设备及存储介质
US20230154571A1 (en) * 2017-06-22 2023-05-18 Arianegroup Sas Method and device for selecting a subassembly of molecules for use in predicting at least one property of a molecular structure

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103650100A (zh) * 2011-04-28 2014-03-19 菲利普莫里斯生产公司 计算机辅助结构识别
US20230154571A1 (en) * 2017-06-22 2023-05-18 Arianegroup Sas Method and device for selecting a subassembly of molecules for use in predicting at least one property of a molecular structure
US20200381085A1 (en) * 2019-05-30 2020-12-03 Fujitsu Limited Material characteristic prediction apparatus and material characteristic prediction method
CN112199884A (zh) * 2020-09-07 2021-01-08 深圳先进技术研究院 物品分子生成方法、装置、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KURSA, MB: "Feature Selection with the Boruta Package", JOURNAL OF STATISTICAL SOFTWARE, vol. 36, no. 11, 1 September 2010 (2010-09-01), pages 1 - 3 *
RUIZ, IL: "Robust QSAR prediction models for volume of distribution at steady state in humans using relative distance measurements", SAR AND QSAR IN ENVIRONMENTAL RESEARCH, vol. 29, no. 7, 8 August 2018 (2018-08-08), pages 529 - 550, XP055694671, DOI: 10.1080/1062936X.2018.1494038 *
SATO, T: "In Silico Functional Profiling of Small Molecules and Its Applications", JOURNAL OF MEDCINAL CHENMISTRY, vol. 51, no. 42, 25 December 2008 (2008-12-25), pages 7705 - 7716, XP055093128, DOI: 10.1021/jm800504q *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115713986A (zh) * 2022-11-11 2023-02-24 中南大学 基于注意力机制的材料晶体属性预测方法
CN117828374A (zh) * 2024-03-06 2024-04-05 北京玻色量子科技有限公司 基于光量子计算机的分子相似性计算方法和装置
CN117828374B (zh) * 2024-03-06 2024-05-07 北京玻色量子科技有限公司 基于光量子计算机的分子相似性计算方法和装置

Also Published As

Publication number Publication date
JP2022150078A (ja) 2022-10-07
US20220310211A1 (en) 2022-09-29
EP4071764A2 (en) 2022-10-12
EP4071764A3 (en) 2022-10-26

Similar Documents

Publication Publication Date Title
Blaschke et al. Memory-assisted reinforcement learning for diverse molecular de novo design
Husic et al. Coarse graining molecular dynamics with graph neural networks
Asif et al. Identifying disease genes using machine learning and gene functional similarities, assessed through Gene Ontology
Zhang et al. Gene selection using support vector machines with non-convex penalty
Teixeira et al. Random forests for feature selection in QSPR Models-an application for predicting standard enthalpy of formation of hydrocarbons
CN115132292A (zh) 信息处理程序、信息处理设备和信息处理方法
JP6839342B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP7302297B2 (ja) 材料特性予測装置、材料特性予測方法、及び材料特性予測プログラム
US8010535B2 (en) Optimization of discontinuous rank metrics
JP6456667B2 (ja) 新規物質探索システム及びその探索方法
Li et al. Automated analysis and reannotation of subcellular locations in confocal images from the human protein atlas
Naylor et al. Quantifying explainability in nlp and analyzing algorithms for performance-explainability tradeoff
Kurban et al. Rapidly predicting Kohn–Sham total energy using data-centric AI
Eftimov et al. Personalizing performance regression models to black-box optimization problems
Zhao et al. AUC-based biomarker ensemble with an application on gene scores predicting low bone mineral density
Bowman A tutorial on building markov state models with MSMBuilder and coarse-graining them with BACE
Wang et al. Residue–residue contact can be a potential feature for the prediction of lysine crotonylation sites
CN113177568A (zh) 相似度计算装置、相似度计算方法和记录程序的记录介质
Sun et al. Bayesian non-linear support vector machine for high-dimensional data with incorporation of graph information on features
Sahmadi et al. Hybrid genetic algorithm with SVM for medical data classification
CN114743611A (zh) 晶体分析方法、晶体分析装置和晶体分析程序
Vahabi et al. Cox-smbpls: An algorithm for disease survival prediction and multi-omics module discovery incorporating cis-regulatory quantitative effects
CN116862078B (zh) 一种换电套餐用户逾期的预测方法、系统、装置及介质
WO2023181497A1 (ja) 評価装置、評価方法、およびプログラム
EP3982370A1 (en) Structure search program, structure search device, and structure search method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination