CN114175171A - 材料特性预测装置以及材料特性预测方法 - Google Patents

材料特性预测装置以及材料特性预测方法 Download PDF

Info

Publication number
CN114175171A
CN114175171A CN202080054445.1A CN202080054445A CN114175171A CN 114175171 A CN114175171 A CN 114175171A CN 202080054445 A CN202080054445 A CN 202080054445A CN 114175171 A CN114175171 A CN 114175171A
Authority
CN
China
Prior art keywords
database
case
material property
automatic encoder
structural information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080054445.1A
Other languages
English (en)
Inventor
金泽拓也
浅原彰规
林贵之
森田秀和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of CN114175171A publication Critical patent/CN114175171A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C60/00Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Abstract

本发明高效地生成反映了专家的见解的有效的化合物特征量,由此高精度地预测未知的化合物所具有的物性。本发明是使用存储有多个案件数据库的案件类别材料数据库来进行材料特性的预测的装置。案件数据库包含多个记录,该记录将与材料的构造相关的结构信息以及与材料的特性相关的材料特性关联起来进行了记录。该装置的特征在于,具有:化合物空间指定部,其受理至少一个案件数据库的指定;自动编码器学习部,其生成将与化合物空间指定部受理的案件数据库对应的结构信息转换为多变量的自动编码器;材料特性预测部,其使用自动编码器学习部生成的自动编码器所转换的多变量来预测材料特性。

Description

材料特性预测装置以及材料特性预测方法
技术领域
本发明涉及用于材料的物性预测的机器学习系统。
背景技术
以往,为了知道化合物的物性,需要通过合成实验而实际生成,并通过直接实验来测定。但是,现代随着蓄积大量的化合物物性数据,也进行通过利用机器学习算法对该数据进行处理来预测针对未知化合物的物性的尝试。
由于未知化合物的组合庞大,因此如果能够像这样不通过实验挑选具有期望性质的物质组,则有希望能够大幅提高材料开发的效率。为了实现这一点,需要机器学习的预测的高可靠性。但是,现状是将化合物的结构转换为适于机器学习的容易处理的特征量(描述符)的方法并不充分,因此还未实现具有高可靠性的化合物物性预测系统。
例如在非专利文献1中,公开了使用公知的变分自动编码器将化合物的结构信息转换为多变量矢量并用于物性预测的方法。
另外,在专利文献1中公开了通过多种指纹法来表示有机化合物的分子结构并用于物性预测的方法。在专利文献2中公开了一种将化合物的信息作为潜在变量,利用公知的自动编码器进行编码的药物设计用机器学习系统。
现有技术文献
专利文献
专利文献1:国际公开WO2019/048965A1
专利文献2:日本特表2019-502988号公报
非专利文献
非专利文献1:R.Gomez-Bombarelli,J.N.Wei,D.Duvenaud,J.M.Hernandez-Lobato,B.Sanchez-Lengeling,D.Sheberla,J.Aguilera-Iparraguirre,T.D.Hirzel,R.P.Adams,A.Aspuru-Guzik,“Automatic Chemical Design Using a Data-DrivenContinuous Representation of Molecules”,ACS Cent.Sci.2018,4,268-276.
发明内容
发明所要解决的课题
在想要通过机器学习法搜索具有某种特定物性的物质的状况下,要求根据化合物的结构式生成为了有效地表现其物性并使计算机准确地理解所需的充分的特征量(描述符)。
然而,在通过现有的方法、例如RDKit这样的自由软件根据结构式生成特征量的情况下,由于通用地生成一般的特征量的集合,因此对于期望的分析目的来说是冗余的。为了从化合物的冗余的特征量中仅筛选出对于期望的物性的预测而言重要的特征量,优选准备充分的量的训练数据(化合物与训练标签(期望的物性值)的对),在此基础上训练预测模型,提取判定为该预测模型有用的特征量。但是,这在未充分获得训练数据的状况下难以执行。
另外,在使用像公知的自动编码器那样能够将结构式转换为连续多变量矢量的机器学习单元时,一般在该模型(神经网络等)的学习中使用如ChEMBL那样的化合物的大规模开放数据库,在这样的数据集中除了具有特定物性的物质以外还包含大量的物质,因此,由此生成的连续多变量矢量对于所期望的分析目的而言未必是最佳的。
本发明是鉴于上述那样的课题而完成的,其目的在于,能够高效地生成反映了专家的见解的有效的化合物特征量(说明变量),由此高精度地预测未知的化合物所具有的物性。
用于解决课题的手段
本发明的优选的一个方面是用于使用存储有多个案件数据库的案件类别材料数据库来进行材料特性的预测的装置。案件数据库包含多个将与材料的构造相关的结构信息以及与材料的特性相关的材料特性关联起来进行了记录的记录。该装置具有:化合物空间指定部,其受理至少一个案件数据库的指定;自动编码器学习部,其生成将与化合物空间指定部受理的案件数据库对应的结构信息转换为多变量的自动编码器;材料特性预测部,其使用自动编码器学习部生成的自动编码器转换而得的多变量来预测材料特性。
本发明的优选的另一方面是一种材料特性预测方法,其执行:第一步骤,准备包含多个记录有与材料的结相关的结构信息的记录的第一数据库;第二步骤,从在第一步骤中准备的第一数据库中提取结构信息;第三步骤,使用在第二步骤中提取出的结构信息,训练将结构信息转换为多变量的自动编码器;第四步骤,准备包含多个将与材料的结构相关的结构信息以及与材料的特性相关的材料特性关联起来进行了记录的记录的第二数据库;第五步骤,从在第四步骤中准备的第二数据库中提取结构信息;第六步骤,使用自动编码器,将在第五步骤中提取出的结构信息转换为多变量;第七步骤,基于在第六步骤中转换而得的多变量来得到说明变量,基于从第二数据库提取出的材料特性来得到目标变量;第八步骤,使用说明变量和目标变量,生成根据说明变量推测目标变量的预测模型。
发明效果
根据本发明,能够高效地生成反映了专家的见解的有效的化合物特征量,由此能够高精度地预测未知的化合物所具有的物性。
附图说明
图1是表示实施例中的材料特性预测装置的功能结构的框图。
图2是实施例中的材料特性预测装置的处理的流程图。
图3是实施例中的实验数据受理部的显示画面的一例的示意图。
图4是实施例中的案件类别材料数据库的数据结构的一例的表。
图5是实施例中的化合物空间指定部的显示画面的一例的示意图。
图6是实施例中的从案件类别材料数据库向自动编码器学习部的输出的数据结构的一例的表。
图7是说明实施例中的自动编码器的结构的概念图。
图8是实施例中的材料特性预测受理部的显示画面的一例的示意图。
图9是实施例中的向材料特性预测受理部的输入的数据结构的一例的表。
图10是实施例中的材料特性预测部的处理的流程图。
图11是实施例中的显示部的显示画面的一例的示意图。
图12是说明实施例的使用示意图的概念图。
具体实施方式
以下,参照附图对本发明的实施例进行详细说明。但是,本发明并不限定解释为以下所示的实施方式的记载内容。在不脱离本发明的思想或主旨的范围内,本领域技术人员易于理解能够变更其具体结构。
在以下说明的发明的结构中,对于相同部分或具有同样功能的部分,有时在不同的附图间共通地使用相同的符号,并省略重复的说明。
在存在多个相同或具有同样功能的要素的情况下,有时对相同的标号标注不同的角标来进行说明。但是,在不需要区分多个要素的情况下,有时省略角标进行说明。
本说明书等中的“第一”、“第二”、“第三”等表述是为了识别结构要素而标注的,未必限定数量、顺序或其内容。另外,用于识别结构要素的编号被用于每种语境,在一种语境中使用的编号在其他语境中并不一定表示相同的结构。另外,以某个编号识别出的结构要素并不妨碍兼具以其他编号识别的结构要素的功能。
在附图等中所示的各结构的位置、大小、形状、范围等,为了容易理解发明,有时不表示实际的位置、大小、形状、范围等。因此,本发明不一定限定于附图等所公开的位置、大小、形状、范围等。
本说明书中引用的出版物、专利和专利申请,直接构成本说明书的说明的一部分。
在本说明书中,单数形式表示的结构要素,只要没有特别在上下文中明确表示,则包含多个。
[实施例1]
以下所说明的实施例的一个方式是用于进行材料特性的预测的装置,具有:案件类别材料数据库,其按案件类别将材料的结构式、实验条件和材料特性关联起来进行记录;化合物空间指定部,其从使用者受理单个或多个案件的指定;自动编码器学习部,其针对与化合物空间指定部受理的案件对应的结构式的集合,具有将结构式转换为多变量之后,生成具备能够根据多变量恢复结构式的性质的模型即自动编码器的功能;材料特性预测部,其使用自动编码器学习部生成的自动编码器生成说明变量并预测材料特性。
根据本实施例,能够提供一种即使在没有足够量的化合物训练数据的状况下也能够生成吸收了专家的见解的有效的特征量,并由此能够进行高精度的物性预测的分析系统。
图1是表示本实施例中的材料特性预测装置的功能结构的一例的功能结构框图。在图1中,材料特性预测装置101具备:实验数据受理部106,其从使用者102接收材料实验数据;案件类别材料数据库107,其用于按案件存储材料实验数据;化合物空间指定部103,其从使用者102接收化合物空间的指定;自动编码器学习部104,其执行自动编码器的生成和学习;材料特性预测受理部105,其从自动编码器108、使用者102接收预测对象的材料列表;材料特性预测部109,其进行材料特性的预测;显示部110,其将预测结果显示给使用者102。
此外,材料特性预测装置101作为硬件,通过作为一般的信息处理装置的具有处理器、存储器、存储装置和通信部(接口)的装置来实现。即,实验数据受理部106、化合物空间指定部103、材料特性预测受理部105通过通信部受理数据输入,案件类别材料数据库107将数据保存于存储装置。另外,自动编码器学习部104、自动编码器108和材料特性预测部109通过由处理器执行存储在存储器中的程序的软件处理来执行。另外,显示部110兼用一般使用的操作部和显示部,例如由显示器、键盘、鼠标等构成,另外,也可以是具有触摸面板的显示器。
图2是本实施例中的材料特性预测装置101的处理的流程图。在图2中,在步骤S201中,实验数据受理部106从使用者102接收材料实验数据。
图3表示实验数据受理部106的输入受理画面的例子。在典型的例子中,材料实验数据已经作为电子文件被存储在存储介质等中。如图3所示,使用者使用鼠标或键盘等指定材料实验数据的文件名并上传,通过按下确认(OK)按钮来确定。另外,通过取消按钮,能够订正输入。
返回图2,在步骤S202中,案件类别材料数据库107从实验数据受理部106取得材料实验数据,并按案件进行保存。
图4表示案件类别材料数据库107所保存的数据的形式。如图4所示,该数据包含案件编号401、序号402、化合物的结构式403、实验条件404以及405、材料特性值406以及407。化合物的结构式可以通过使用SMILES(Simplified molecular-input line-entrysystem)形式简便地表述,但未必限定于此,例如也可以用图表形式的数据来处理分子的结构。另外,实验条件可以不包含在数据中,材料特性值可以是多个,也可以是单一的。
如图4所示,按案件数据(案件数据库)分割并保存案件类别材料数据库107。在本实施例中,设为在一个案件数据中,包含对实验条件404以及405、材料特性值406以及407以相同的定义或者种类的数据进行了统一的多个记录。在该例子中,一个记录对应于一个材料构造。
各案件数据是作为对象的材料、材料特性的定义、材料的生成主体、材料的生成目的、材料的生成时期、材料的生成设备等中的至少一个不同的数据,例如是与不同的主题相关联地进行的实验结果的数据。因此,材料的结构、制造或实验条件、材料特性有时包含其定义、种类按每个案件而不同的情况。可以将数据的生成主体、生成目的、生成时期、生成设备、主题等附带的信息例如作为文本信息与案件数据关联起来进行存储,并能够由使用者参照或检索。在该情况下,化合物空间指定部103具备用于以关键词等对案件数据进行检索的GUI(Graphical User Interface:图形使用者界面)。使用者能够使用检索功能来提取所使用的案件数据。
返回图2,在步骤S203中,化合物空间指定部103从使用者102的输入取得化合物空间的指定。
图5表示化合物空间指定部103的输入受理画面的例子。如图5所示,使用者能够从案件类别材料数据库107中进行所使用的化合物案件数据的选择。
返回图2,在步骤S204中,自动编码器学习部104从化合物空间指定部103取得化合物空间的指定,从案件类别材料数据库107读出与之相应的材料实验数据,使用该材料实验数据进行自动编码器108的学习。
图6是自动编码器学习部104从案件类别材料数据库107接收的数据的构造。该数据包括案件编号601、指定化合物的序号602、化合物的结构式603。
图7是自动编码器108的结构及学习方法的说明。自动编码器是使用神经网络的公知的降维器。在自动编码器内部,被称为编码器的神经网络将高维的输入信息低维化,接收其的被称为解码器的其他神经网络将其恢复而进行接近最初的高元输入的输出。以使该输入输出的误差最小化的方式训练这些神经网络。
在结构式作为SMILES这样的字符信息而被输入输出的情况下,重构(递归型)神经网络适合作为编码器以及解码器。在本实施例中,自动编码器被训练为将自动编码器学习部104从案件类别材料数据库107读出的化合物的结构式信息转换为低维数值矢量。此外,在本实施例中使用了自动编码器,但也可以使用公知的变分自动编码器来代替。另外,图7所示的自动编码器的结构是一个例子,神经网络的内部结构(层的数量、单元的数量)并不限定于图7所示的结构。
返回图2,在步骤S205中材料特性预测受理部105从使用者102取得材料特性预测对象的材料列表。
图8是材料特性预测受理部105的输入受理画面的例子。使用者能够通过鼠标以及键盘操作来上传材料列表,通过按下确认(OK)按钮来确定输入,通过按下取消按钮能够订正输入。
图9是材料特性预测接受部105接收的材料列表的数据结构。如图9所示,该数据包含序号901和化合物的结构式信息902。
返回图2,在步骤S206中材料特性预测部109进行材料特性预测,并将预测结果输出到显示部110。
图10是在步骤S206中材料特性预测部109进行的处理的流程图。在图10中,首先,在步骤S1001中,材料特性预测单元109从材料特性预测受理部105接收所述图9中所示的结构的预测对象材料列表。
在步骤S1002中,材料特性预测部109从案件类别材料数据库107取得材料实验数据。该材料实验数据的构造如所述图4所示。
在步骤S1003中,材料特性预测部109向已学习的自动编码器108输入材料实验数据的结构式信息,由此生成化合物的特征量(描述符)。然后,材料特性预测部109将该特征量和材料实验数据的材料特性值(目标变量)输入机器学习模型来进行预测模型的训练。
该机器学习能够使用例如线性回归、决策树、支持向量机、神经网络、随机森林、高斯过程回归、梯度提升、逻辑回归、k最邻近算法等任意的机器学习算法。
在步骤S1004中,材料特性预测部109首先将预测对象材料列表内的结构式输入到自动编码器108来生成特征量(描述符),接着将其输入到在前步骤S1003中训练出的预测模型,进行针对预测对象材料的材料特性值的预测。在步骤S1005中,材料特性预测部109将预测模型输出的材料特性预测值输出到显示部110。
返回图2,在步骤S207中,显示部110向使用者102显示材料特性预测结果。
图11表示显示部110的结果显示画面的例子。在此,显示预测对象的化合物与其材料特性预测值的列表,使用者能够通过保存按钮保存结果,能够通过结束按钮结束。
图12是说明本实施例的使用示意图的概念图。本实施例的一个特征在于,在进行自动编码器108的学习时,使用符合使用者所选择的化合物空间的材料数据库而不是任意的材料数据库。
假设使用者的目的是搜索材料物性A高的材料。此时,被认为理想的是存在对于记述材料物性A高的材料集合而最有用的一组特征量,为了提高预测精度,最优选使用它们进行机器学习。
另外,假定过去有在其他案件中收集到的材料数据库X,此时的利用目的是搜索材料物性B高的材料。在此,如果根据专家知识,已知材料物性A和B存在相关性,则材料数据库X与材料物性A高的材料集合重叠的可能性高。因此,认为通过使用材料数据库X学习自动编码器并提取材料特征量,容易探索材料物性A高的材料。
因此,若说明本实施例中的具体的利用例,则如图12中的(a)所示,从案件类别材料数据库107中提取作为案件数据之一的材料数据库X1201,通过其结构式1202学习用于得到特征量1203的自动编码器108。
在案件类别材料数据库107中,也可以对每个案件数据附加文本形式的说明文、标签,使用者能够显示以及检索案件数据的目的、主题、材料的主成分或者所存储的材料特性等。另外,作为该案件数据的过去的利用履历,也可以存储并显示以及检索使用目的、使用者、其他信息。自动编码器108例如使用RNN(递归神经网络)或DNN(深度神经网络)。
在图12中的(a)中,示出了想要进行关于材料物性A的研究的使用者从案件类别材料数据库107中提取过去对材料物性B进行了研究的数据即材料数据库X1201的例子。具有专业知识的使用者知道材料物性A和B存在关系,使用上述的检索功能提取材料数据库X1201。材料数据库X1201例如包含结构式和材料物性B的数据。在自动编码器108的学习中使用其中的结构式1202。
这样,准备从结构式得到适当的特征量的自动编码器108后,学习用于推定材料物性A的预测模型。如图12中的(b)所示,作为训练数据1204,准备包含结构式和已测定的材料物性A的数据。训练数据1204既可以从案件类别材料数据库107中选择,也可以从案件类别材料数据库107以外取得新的数据。
从训练数据1204取得结构式1205并输入到自动编码器108,得到特征量1206。然后,使用特征量1206和材料物性A的数据1207的组作为训练数据,学习预测模型1208。材料物性A的数据也可以转换为适当的特征量。预测模型1208例如可以使用RNN或DNN,对于学习可以使用公知的有监督学习。
此外,在训练数据1204包含结构式和材料物性A的数据以外的数据(例如材料的制造条件)的情况下,也可以将其添加到训练数据中。这样,能够学习推定材料物性A的预测模型1208。预测模型1208被安装在材料特性预测部109中。
之后,如图12中的(c)所示,使用者准备想要推定材料物性A的材料的结构式1209。从材料特性预测受理部105输入结构式1209。将结构式输入到自动编码器108以获得特征量1210。将特征量1210输入到预测模型1208,得到推定出的材料物性A1211。
这样,不是使用没有制约的一般的开放数据等,而是通过灵活使用在与当前的材料分析的目的存在关联的过去的案件中收集到的材料数据库来生成特征量,从而能够进行高精度的推定。
在本实施例中,在自动编码器108的学习和材料特性预测部109中的预测模型的学习这两者中使用了同一案件类别材料数据库107,但这并不妨碍使用各自的数据库。即,也可以是如下方式:准备材料数据库A和材料数据库B,在自动编码器108的学习中使用材料数据库A,在预测模型的学习中使用材料数据库B。在该情况下,在材料数据库B中需要每个化合物的材料特性值的数据,但在材料数据库A中不需要该数据。另外,作为又一方式,也可以是在自动编码器108的学习中使用材料数据库A以及B双方,在预测模型的学习中仅使用材料数据库B的方式。
在实施例中生成的自动编码器108和预测模型也可以标注说明内容的文本数据并存储在存储装置中。这样,可以通过预先将过去的模型资料库化,根据需要进行再利用。
如上所述,使用者从收集了与分析目的有关联的材料数据的案件类别材料数据库中选择化合物空间,进行自动编码器的学习,由此生成与分析目的一致的有效的材料特征量,由此,材料特性的高精度的预测变得容易。
以上,对实施例进行了说明,但本发明并不限定于上述的实施例,包括各种变形例。例如,上述的实施例为了容易理解地说明本发明而详细地进行了说明,并不限定于必须具备所说明的全部结构。另外,能够将某实施例的结构的一部分置换为其他实施例的结构,另外,也能够在某实施例的结构中添加其他实施例的结构。另外,对于各实施例的结构的一部分,能够进行其他结构的追加、删除、置换。
附图标记说明
101:材料特性预测装置,103:化合物空间指定部,104:自动编码器学习部,105:材料特性预测受理部,106:实验数据受理部,107:案件类别材料数据库,108:自动编码器,109:材料特性预测部。

Claims (14)

1.一种材料特性预测装置,其是用于使用存储有多个案件数据库的案件类别材料数据库来进行材料特性的预测的装置,其特征在于,
所述案件数据库包含多个将与材料的结构相关的结构信息以及与材料的特性相关的材料特性关联起来进行了记录的记录,
所述材料特性预测装置具有:
化合物空间指定部,其接受至少一个案件数据库的指定;
自动编码器学习部,其生成将与所述化合物空间指定部受理的案件数据库对应的结构信息转换为多变量的自动编码器;以及
材料特性预测部,其使用所述自动编码器学习部生成的自动编码器转换而得的多变量来预测材料特性。
2.根据权利要求1所述的材料特性预测装置,其特征在于,
所述自动编码器是具有能够在将所述结构信息转换为多变量后,根据所述多变量恢复所述结构信息的性质的模型。
3.根据权利要求1所述的材料特性预测装置,其特征在于,
所述材料特性预测部将包含多个记录的训练数据作为输入,所述记录将与材料的结构相关的结构信息以及与材料的特性相关的材料特性关联起来进行了记录,将与所述训练数据对应的结构信息输入到所述自动编码器,转换为多变量并作为说明变量,将与所述训练数据对应的材料特性作为目标变量,使用所述说明变量和所述目标变量来训练预测模型。
4.根据权利要求3所述的材料特性预测装置,其特征在于,
所述材料特性预测装置具备:材料特性预测受理部,其受理与应预测特性的材料的结构相关的结构信息,
所述材料特性预测部将与应预测所述特性的材料的结构相关的结构信息输入到所述自动编码器,转换为多变量并作为说明变量,将所述说明变量输入所述预测模型来预测作为目标变量的特性。
5.根据权利要求1所述的材料特性预测装置,其特征在于,
上述化合物空间指定部具有以关键词搜索所述案件数据库的功能。
6.一种材料特性预测方法,其特征在于,执行以下步骤:
第一步骤,准备包含多个记录了与材料的结构相关的结构信息的记录的第一数据库;
第二步骤,从在所述第一步骤中准备的第一数据库中提取结构信息;
第三步骤,使用在所述第二步骤中提取出的结构信息,训练将结构信息转换为多变量的自动编码器;
第四步骤,准备包含多个将与材料的结构相关的结构信息以及与材料的特性相关的材料特性关联起来进行了记录的记录的第二数据库;
第五步骤,从在所述第四步骤中准备的第二数据库中提取结构信息;
第六步骤,使用所述自动编码器,将在所述第五步骤中提取的结构信息转换为多变量;
第七步骤,基于在所述第六步骤中转换而得的多变量而获得说明变量,并基于从所述第二数据库中提取出的材料特性来获得目标变量;以及
第八步骤,使用所述说明变量和所述目标变量,生成根据说明变量推定目标变量的预测模型。
7.根据权利要求6所述的材料特性预测方法,其特征在于,
在所述第一步骤中,使用存储有多个案件数据库的案件类别材料数据库,从该案件类别材料数据库中选择至少一个案件数据库作为所述第一数据库。
8.根据权利要求7所述的材料特性预测方法,其特征在于,
在所述案件类别材料数据库中,将文本信息与所述案件数据库关联起来进行存储,
在所述第一步骤中,使用者检索所述文本信息来选择至少一个案件数据库。
9.根据权利要求6所述的材料特性预测方法,其特征在于,
在所述第一步骤中,使用存储有多个案件数据库的案件类别材料数据库,所述案件数据库包含多个将与材料的结构相关的结构信息以及与材料的特性相关的材料特性关联起来进行了记录的记录,
在所述第一步骤中,从所述案件类别材料数据库中选择至少一个案件数据库来作为所述第一数据库,
在所述第四步骤中,从所述案件类别材料数据库中选择至少一个案件数据库来作为所述第二数据库。
10.根据权利要求9所述的材料特性预测方法,其特征在于,
所述第一数据库的记录所包含的材料特性与所述第二数据库的记录所包含的材料特性是不同定义的材料特性。
11.根据权利要求6所述的材料特性预测方法,其特征在于,
在所述自动编码器中使用具备能够在将所述结构信息转换为多变量之后,根据所述多变量恢复所述结构信息的性质的模型。
12.根据权利要求6所述的材料特性预测方法,其特征在于,
所述材料特性预测方法执行以下步骤:
第九步骤,准备与应预测特性的材料的结构相关的结构信息;
第十步骤,使用所述自动编码器,将在所述第九步骤中准备的结构信息转换为多变量;
第十一步骤,根据在所述第十步骤中转换而得的多变量得到说明变量;
第十二步骤,将在所述第十一步骤中得到的说明变量应用于所述预测模型,推定作为目标变量的材料特性。
13.根据权利要求6所述的材料特性预测方法,其特征在于,
将所述自动编码器和所述预测模型中的至少一个存储在存储装置中,进行再利用。
14.根据权利要求6所述的材料特性预测方法,其特征在于,
所述第一数据库以及所述第二数据库均包含多个将与材料的结构相关的结构信息以及与材料的特性相关的材料特性关联起来进行了记录的记录,但是关于材料特性,记录有不同定义或种类的数据。
CN202080054445.1A 2019-09-03 2020-08-19 材料特性预测装置以及材料特性预测方法 Pending CN114175171A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019-160261 2019-09-03
JP2019160261A JP7353874B2 (ja) 2019-09-03 2019-09-03 材料特性予測装置および材料特性予測方法
PCT/JP2020/031263 WO2021044846A1 (ja) 2019-09-03 2020-08-19 材料特性予測装置および材料特性予測方法

Publications (1)

Publication Number Publication Date
CN114175171A true CN114175171A (zh) 2022-03-11

Family

ID=74848626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080054445.1A Pending CN114175171A (zh) 2019-09-03 2020-08-19 材料特性预测装置以及材料特性预测方法

Country Status (5)

Country Link
US (1) US20220359047A1 (zh)
EP (1) EP4027295A4 (zh)
JP (1) JP7353874B2 (zh)
CN (1) CN114175171A (zh)
WO (1) WO2021044846A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11901045B2 (en) * 2019-01-15 2024-02-13 International Business Machines Corporation Machine learning framework for finding materials with desired properties
US20220189578A1 (en) * 2020-12-14 2022-06-16 International Business Machines Corporation Interpretable molecular generative models
US20230281443A1 (en) * 2022-03-01 2023-09-07 Insilico Medicine Ip Limited Structure-based deep generative model for binding site descriptors extraction and de novo molecular generation

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009025045A1 (ja) 2007-08-22 2009-02-26 Fujitsu Limited 化合物の物性予測装置、物性予測方法およびその方法を実施するためのプログラム
US10776712B2 (en) 2015-12-02 2020-09-15 Preferred Networks, Inc. Generative machine learning systems for drug design
KR20200051019A (ko) 2017-09-06 2020-05-12 가부시키가이샤 한도오따이 에네루기 켄큐쇼 물성 예측 방법 및 물성 예측 시스템

Also Published As

Publication number Publication date
JP7353874B2 (ja) 2023-10-02
EP4027295A4 (en) 2023-09-20
WO2021044846A1 (ja) 2021-03-11
US20220359047A1 (en) 2022-11-10
EP4027295A1 (en) 2022-07-13
JP2021039534A (ja) 2021-03-11

Similar Documents

Publication Publication Date Title
JP7216021B2 (ja) 機械学習モデルを迅速に構築し、管理し、共有するためのシステム及び方法
CN114175171A (zh) 材料特性预测装置以及材料特性预测方法
US8635197B2 (en) Systems and methods for efficient development of a rule-based system using crowd-sourcing
CN113544786A (zh) 使用机器学习预测分子嗅觉特性的系统和方法
Galhotra et al. Automated feature enhancement for predictive modeling using external knowledge
WO2021054026A1 (ja) 材料特性予測システムおよび材料特性予測方法
KR20240001238A (ko) 산업별 머신 러닝 애플리케이션들
Farahani et al. Time-series pattern recognition in Smart Manufacturing Systems: A literature review and ontology
Elouataoui et al. Data quality in the era of big data: a global review
Masini et al. Decline curve analysis using artificial intelligence
WO2022046759A1 (en) Hybrid machine learning
CN116861269A (zh) 工程领域的多源异构数据融合及分析方法
WO2023172541A1 (en) System and methods for monitoring related metrics
Kumar et al. Preprocessing and symbolic representation of stock data
CN110309273A (zh) 问答方法和装置
JP2008171282A (ja) 最適パラメータ探索プログラム、最適パラメータ探索装置および最適パラメータ探索方法
Asthana et al. ML Model Change Detection and Versioning Service
EP4300504A1 (en) System and method for processing material properties of structural materials
US20210406461A1 (en) Electronic data platform for a testing environment
EP4109297A2 (en) Automated classificaton and interpretation of life science documents
EP4310740A1 (en) System and method for generating candidate idea
KR101178968B1 (ko) 연구개발 정보 관리 시스템 및 그 방법
WO2023208379A1 (en) Method and system based on using a model collection for planation of machine learning results
Kasturi et al. Object Detection in Heritage Archives Using a Human-in-Loop Concept
Rodriguez et al. MWD Tools’ Electronic Components Data-Driven Failure Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination