CN114207729A - 材料特性预测系统以及材料特性预测方法 - Google Patents
材料特性预测系统以及材料特性预测方法 Download PDFInfo
- Publication number
- CN114207729A CN114207729A CN202080054391.9A CN202080054391A CN114207729A CN 114207729 A CN114207729 A CN 114207729A CN 202080054391 A CN202080054391 A CN 202080054391A CN 114207729 A CN114207729 A CN 114207729A
- Authority
- CN
- China
- Prior art keywords
- material property
- prediction
- data
- case
- case data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000000463 material Substances 0.000 title claims abstract description 281
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000000203 mixture Substances 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000003860 storage Methods 0.000 claims description 9
- 238000007637 random forest analysis Methods 0.000 claims description 6
- 238000004519 manufacturing process Methods 0.000 claims description 5
- 230000010365 information processing Effects 0.000 claims description 4
- 238000002474 experimental method Methods 0.000 description 39
- 230000006870 function Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 10
- 238000011161 development Methods 0.000 description 8
- 230000018109 developmental process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000000611 regression analysis Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 229910052755 nonmetal Inorganic materials 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000013077 target material Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C60/00—Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06315—Needs-based resource requirements planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/10—Geometric CAD
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/90—Programming languages; Computing architectures; Database systems; Data warehousing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Evolutionary Computation (AREA)
- Geometry (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种有效地利用过去数据使材料特性的预测精度提高的方法。一种用于对包含多个由材料组成、实验条件和材料特性构成的记录的案件数据进行处理来进行材料特性预测的系统。该系统具备材料特性预测提示部、案件相互特征量生成部和材料特性预测部。材料特性预测提示部受理第一案件数据的指定,该第一案件数据包含材料特性未知的记录,成为基于第一预测模型的材料特性的预测对象。案件相互特征量生成部使用第二预测模型,根据第一案件数据的材料组成来预测特征量。材料特性预测部使用第一案件数据的材料组成、实验条件、特征量和已知的材料特性,生成第一预测模型。另外,材料特性预测部将第一案件数据的材料特性未知的记录的材料组成、实验条件、特征量输入到第一预测模型,预测未知的材料特性。
Description
技术领域
本发明涉及对材料科学等的实验进行辅助的技术。
背景技术
随着数据分析涉及的统计处理技术的发展,在材料科学中也进行数据分析的需求不断提高。特别是在材料科学领域中,为了高效地进行新材料的开发,已知有基于已知的数据进行接下来的实验的候补的选定的被称为筛选的方法。
在专利文献1中,说明了无论材料种类如何都以相同概念对纳米级区域中的知识进行链接而构造化,并利用其而有助于不依赖于材料种类的新材料设计的设计辅助的方法。
在专利文献2中,对如下内容进行了说明:使用对构成反应系统的元素固有的量子热力学状态量在统计上进行处理而得到的量子统计值,仅选择构成反应系统的元素数或配合比不同而元素数相同的物质的相同物性值的情况,导出构成该物质的元素数或其以上的数量的多元联立一次方程式并求出其解,由此能够进行具有作为目标的物理化学特性和功能的金属和非金属物质的材料设计。
作为筛选的方法,将各种实验的数据输入信息系统并进行机器学习,构建实验结果的预测模型,进行基于模型的预测的筛选。在该预测中,已知有通过回归分析求出将与材料设计有关的各种参数作为自变量,返回材料的特性的函数的方法。
现有技术文献
专利文献
专利文献1:日本特开2003-178102号公报
专利文献2:日本特开2004-086892号公报
发明内容
发明所要解决的课题
在材料开发中,通过提高材料特性的预测的精度,能够更准确地评价针对新材料的候补的预见性,期待可以通过省略不必要的实验来进行高效的材料开发。
在回归分析中,将与函数的自变量相当的变量称为说明变量,将与函数的返回值相当的值称为目标变量,但在材料特性的预测中,以材料特性为目标变量,以能够预测该目标变量的方式选择表示材料的特征的说明变量。根据该说明变量如何选择,预测的精度上下浮动,因此以能够应对各种材料特性的预测的方式准备说明变量的变化尤为重要。
在专利文献1、专利文献2中,公开了利用过去的数据进行材料特性的预测的尝试。但是,在材料开发中,一般的过程是最初以特定的组成、制造工艺开始开发,对于得到了有效特性的材料,进一步以其关联的组成、制造工艺来执行措施。
即,在开发最初的阶段,存在案件初期能够使用的数据极少的问题。在利用过去数据的信息的情况下,作为目标的材料特性按每个案件而不同,因此材料特性一致的数据几乎仅是用于该案件的数据。另外,即使是以相同的特性为目标的实验,也存在计测方法不同的情况,多数情况下难以直接沿用。
本发明的课题在于提供一种有效地利用过去数据来提高材料特性的预测精度的方法。
用于解决课题的手段
本发明的优选的一个方面是用于对包含多个由材料组成、实验条件和材料特性构成的记录的案件数据进行处理来进行材料特性的预测的系统。该系统具备材料特性预测提示部、案件相互特征量生成部和材料特性预测部。材料特性预测提示部受理第一案件数据的指定,该第一案件数据包含材料特性未知的记录,并成为基于第一预测模型的材料特性的预测对象。案件相互特征量生成部使用第二预测模型,根据第一案件数据的材料组成来预测特征量。材料特性预测部使用第一案件数据的材料组成、实验条件、特征量和已知的材料特性,生成第一预测模型。另外,材料特性预测部将第一案件数据的材料特性未知的记录的材料组成、实验条件、特征量输入到第一预测模型来预测未知的材料特性。
材料组成至少为与材料的组成相关的信息,更优选为与材料的结构相关的信息,例如结构式。
本发明的优选的另一方面是通过包含输入装置、存储装置和处理器的信息处理装置来预测材料特性的方法。在该方法中,在生成用于根据包含第一特征量的第一数据预测第一材料特性的第一预测模型时,进行以下的步骤。即,执行:第一步骤,准备第二预测模型,该第二预测模型根据第一特征量预测与第一材料特性不同定义的第二材料特性;第二步骤,将第一数据应用于第二预测模型,预测第二材料特性;第三步骤,将第一特征量作为第一说明变量,将第二材料特性作为第二说明变量,将第一材料特性作为目标变量,生成第一预测模型。
发明效果
可以有效地利用过去数据,使材料特性的预测精度提高。
附图说明
图1是表示实施例的构成概略的例子的功能框图。
图2是表示实施例的物理实施的结构的例子的框图。
图3是表示实施例的使用步骤的例子的概念图。
图4是表示实施例的材料DB更新处理的例子的流程图。
图5是表示实施例的实验数据受理的画面显示的例子的示意图。
图6是表示实施例的实验数据的结构的例子的表。
图7是表示实施例的材料DB的实验数据表的例子的表。
图8是示出案件数据的例子的概念图。
图9是表示案件间相互特征量的概念的说明图。
图10是表示实施例的材料特性预测处理的例子的流程图。
图11是表示实施例的材料特性预测显示的例子的示意图。
图12是表示实施例的材料特性预测用数据的结构的例子的表。
具体实施方式
使用附图对实施方式进行详细说明。但是,本发明并不限定解释为以下所示的实施方式的记载内容。在不脱离本发明的思想或主旨的范围内,本领域技术人员能够容易地理解能够变更其具体结构。
在以下说明的发明的结构中,对于相同部分或具有同样功能的部分,有时在不同的附图间共通地使用相同的符号,并省略重复的说明。
在存在多个相同或具有同样功能的要素的情况下,有时对相同的标号标注不同的角标来进行说明。但是,在不需要区分多个要素的情况下,有时省略角标进行说明。
本说明书等中的“第一”、“第二”、“第三”等表述是为了识别结构要素而标注的,未必限定数量、顺序或其内容。另外,用于识别结构要素的编号被用于每种语境,在一种语境中使用的编号在其他语境中并不一定表示相同的结构。另外,以某个编号识别出的结构要素并不妨碍兼具以其他编号识别的结构要素的功能。
在附图等中所示的各结构的位置、大小、形状、范围等,为了容易理解发明,有时不表示实际的位置、大小、形状、范围等。因此,本发明不一定限定于附图等所公开的位置、大小、形状、范围等。
[实施例1]
<1.系统结构>
图1表示实施例1的材料特性预测装置的例子。本实施例的材料特性预测装置101是受理使用者102的操作的装置,具备从使用者接收实验数据的实验数据受理部111、存储有材料的特征及其特性的按案件区分的材料数据库(DB:Data Base)112。在此,案件是指用户能够自由定义的数据的集合,例如是根据生成主体、生成目的不同的实验、开发而得到的数据。
另外,材料特性预测装置101具备:材料特性预测部113,其生成预测材料特性的材料特性预测模型,另外,使用材料特性预测模型来预测未计测的材料特性;材料特性预测模型DB114,其存储材料特性预测模型。
材料特性预测部113使用从材料DB112的材料特性值已计测的数据得到的特征量和从案件间相互特征量生成部115得到的特征量,生成材料特性预测模型,预测未知的特性。案件间相互特征量生成部115根据材料DB112和材料特性预测模型DB114的数据生成新的特征量。材料特性预测提示部116将材料特性预测部113的预测结果提示给使用者102。
在本实施例中,材料特性预测装置101由包含输入装置、输出装置、存储装置、处理装置的服务器这样的信息处理装置构成。计算、控制等功能通过由处理装置执行存储在存储装置中的程序来与其他硬件协作实现所确定的处理。在图1中示出了功能块来代替信息处理装置的硬件结构。作为各功能块,有时将计算机等执行的程序、其功能或者实现其功能的单元称为“功能”、“手段”、“部”、“单元”、“模块”等。
图2表示实施例1的物理实施的结构的一例。材料特性预测装置101能够使用一般的计算机来实施。即,是包含具有运算性能的处理器201、作为能够高速读写的易失性临时存储区域的DRAM(Dynamic Random Access Memory:动态随机存取存储器)202、作为利用了HDD(硬盘装置)、闪存等的持久的存储区域的存储装置203、用于进行操作的鼠标或键盘等输入装置204、用于对使用者示出动作的监视器205、用于与外部进行通信的串行端口等接口206的装置。
图1的实验数据受理部111、材料特性预测部113、案件间相互特征量生成部115、材料特性预测提示部116能够通过处理器201执行记录在存储装置203中的程序来实现。材料DB112、材料特性预测模型DB114能够通过处理器201执行在存储装置203中进行数据的蓄积的程序来实现。
图2的结构可以由单体的计算机构成,或者,任意的部分也可以由通过网络连接的其他计算机构成。即,也可以由多个计算机构成同样的系统。
图3示意性地表示实施例1的系统的利用步骤。实施例1能够执行使用者输入关于材料特性预测的数据的材料数据输入(S310)和确认材料特性预测的结果的预测结果阅览(S320)这2个步骤。
材料数据输入(S310)是将存储有进行了实验的材料的数据、以及接下来要进行实验的材料的数据的数据集即实验数据600输入材料特性预测装置101的步骤,材料特性预测装置与其对应地执行材料DB更新处理(S311),由此对保存在内部的信息进行更新。
在预测结果阅览(S320)中,材料特性预测装置根据使用者102的需求而执行材料特性预测提示处理(S321),提示将材料特性预测的结果进行了可视化而得的画面即材料特性预测显示322。
<2.材料数据输入处理>
图4表示材料DB更新处理(S311)的处理步骤的例子。在材料DB更新处理(S311)中,最初实验数据接受部111从使用者102接收实验数据600,确定或附加案件ID(S401)。然后,按案件更新或追加材料DB112(S402)。
图5示出了为了在材料DB更新处理311的最初的步骤(S401)中从使用者102接收实验数据600而在监视器205上显示的画面的一例。在实施例1中,使用者102预先将实验数据存储在文件中,以在文本框501中指定该文件的位置的形式来交接实验数据600。在被交接的文件中,以公知的(Comma Separated Value)形式记述了表形式的数据,对其进行解释而成为表形式的结果被显示在表画面502中。
在图5中,例示了所记述的信息为实验的识别符即“ID”、表示实验时的温度的“Temp”、表示此时的水溶性的“SOL”、表示材料的结构式的字符串“SMILES”。在该例子中,水溶性是想要进行预测的材料特性,SOL栏为空白的数据表示未实验的条件。此外,该数据的交接是一个例子,作为能够转换为表形式的信息,只要是能够传递包含材料的结构式和材料特性的实验数据的方式,也可以是其他方法。信息显示在表画面502中,通过按钮503保存在材料DB112中。
图6表示该实验数据600的1个记录的结构例。1个记录对应于通过特定的组成和制备工艺得到的一种材料。在本例中,实验数据600是将材料特性601、例如SMILES形式等表示材料的结构式的信息即材料结构式602、表示温度、压力等实验时的条件的实验条件603的信息作为1个记录的信息,实验数据600是将该记录汇集1个或多个而成的数据。这些信息与图5的表画面502的各项目对应,在本实施例中,各项目与哪个要素对应,根据与预定的项目名的对应来判定。关于该对应关系,也可以让使用者102从画面输入等。另外,关于材料特性601,存储通过实验等判明的数值,在未实验的情况下存储为空白。在实验数据600中也可以附加其他案件名等信息。
在图4的材料DB更新处理(S311)的最初的步骤(S401)中,对上述实验数据600进行解释、整形,并存储为材料DB112的实验数据表。
图7表示实验数据表的1个记录的信息。该数据包含:以能够唯一地识别实验的方式通过连号等方式标号的实验ID701、来源于实验数据600的材料特性601的材料特性702、来源于实验数据600的材料结构式602的材料结构式703、来源于实验条件603的实验条件704。它们也可以对成为各来源的信息进行单位或形式的转换并转换为统一的表现。
案件ID700是唯一地确定案件的识别编号。在实施例1中,由于假定为1个文件1案件,因此案件ID与实质数据文件的文件名对应。案件ID700在向材料DB112登记时按连号进行附加即可。在文件与案件的对应未确定的情况下,也可以在向材料DB112登记时,提示用户“现在要上传的与哪个案件对应?”这一问题,输入对应而进行登记。实验数据表的形式需要与追加量和登录完成的形式相同。材料特性702、实验条件704能够由用户任意地定义,数量也能够自由地设定。
<3.案件间相互特征量>
本实施例的一个特征在于,通过利用已有案件的数据,即使在数据数少的状况下仍提高材料特性的预测精度。在材料的开发过程中,在初始阶段能够使用的数据极少。在说明具体的实施例之前,对本实施例的概念进行说明。
在图8中示出了在按案件区分的材料数据库112中存储的案件数据的例子。如图8所示,在使用其他案件的信息的情况下,通常成为目标的材料特性按每个案件而不同,因此材料特性一致的数据几乎仅是用于该案件的数据。另外,即使是以相同的特性为目的的实验,也存在计测方法不同的情况,多数情况下难以直接沿用。
在图8的例子中,过去案件A和过去案件B的实验条件的温度和湿度不同,材料特性在A和B中也不同,因此无法直接互相用于特性预测。在本实施例中,通过将过去的案件的数据用作“用于生成特征量的信息”,能够增加说明变量。在此,将新生成的特征量称为“案件间相互特征量”。
在图9中,对将与过去的案件相关的信息用作“用于生成特征量的信息”的过程进行说明。首先,使用过去案件A的数据901,将目标变量设为已知的材料特性A,将说明变量设为结构式,生成(学习)根据结构式预测材料特性A的预测模型902。这可以使用例如回归树、随机森林、支持向量回归、高斯过程回归、神经网络等,通过已知的有监督机器学习来生成。
接着,将过去案件B的数据903的结构式应用于预测模型902,预测材料特性A。将材料特性A添加到过去案件B的数据,生成新的数据集904。如果在过去案件A中有与过去案件B相同的结构式,则也可以将过去案件A的材料特性直接添加到新的数据集。该材料特性A相当于案件间相互特征量。
如果得到新的数据集904,则将其中材料特性B为已知的数据(项目编号1、2、3)作为训练数据,生成预测材料特性B的预测模型905。此时,说明变量为结构式、实验条件(湿度)、材料特性A,目标变量为材料特性B。预测模型905能够通过已知的有监督机器学习来生成。
对生成的预测模型905输入想要预测材料特性B的数据(项目编号4),得到材料特性B。通过追加材料特性A作为新的特征量(案件间相互特征量),与直接使用过去案件B的数据的情况相比,能够期待预测精度的提高。特别是在材料特性A和B具有相关性的情况下,被认为是有效的。
在理解上述概念的基础上,对具体的预测结果阅览处理的流程进行说明。
<4.预测结果阅览处理>
使用图10,对预测结果阅览(S320)时的材料特性预测提示处理(S321)进行说明。在说明中,与图9的概念的对应也引用图9的900系列的参照符号进行说明。
首先,材料特性预测提示部116向使用者102提示材料特性预测显示322来接受成为预测特性的对象的实验数据表的指定(S1001)。此时,使用案件ID指定存储在材料DB112中的实验数据表的内容。在此,假定实验数据已经存储在材料DB112中。
图11表示在监视器205上显示的、受理来自使用者102的指示的画面、以及将材料特性预测的结果进行了可视化而得的材料特性预测显示322的画面的例子。
图中下拉框1101中,实验数据表的内容被显示为候补。若指定案件ID并按下预测值更新的按钮1102,则材料特性预测提示部116向材料特性预测部113发送针对该实验数据表(图7)的记录中的材料特性702为空白的部分通过预测值来执行插值的指示,并将其结果显示于画面1103。在图11中,施加下划线的材料特性的数值表示对空白的数据进行了插值。
材料特性预测部113接收到执行材料特性预测提示部116的所述插值的指示时,从材料DB112取得由案件ID700指定的实验数据表的数据(S1002)。另外,在图11的画面1104中,选择为了生成案件间相互特征量而使用的其他案件。材料特性预测部113从材料特性预测模型DB114中取得所选择的其他案件的预测模型902(S1003)。
在图10的流程的说明中,在处理S1002中取得的数据相当于图9的过去案件B的数据903。另外,在处理S1003中取得的案件的预测模型相当于根据图9的过去案件A的数据901生成的预测模型902。
在以上的说明中,假设预测模型902已经生成完毕,通过案件ID700从材料特性预测模型DB114中调出。在没有符合材料特性预测模型DB114的预测模型902的情况下,如图9所示,将过去案件A的数据901的材料结构式作为说明变量,将已知的材料特性作为目标变量来学习并生成预测模型902即可。
接着,材料特性预测部113生成材料特性预测用数据(S1004)。该处理相当于将过去案件B的数据903的结构式应用于预测模型902,预测材料特性A,将材料特性A添加到过去案件B的数据,生成新的数据集904。此时,案件间相互特征量生成部115使用在处理S1003中取得的预测模型902来执行材料特性A(案件间相互特征量)的预测。
图12表示材料特性预测用数据的1个记录1500的构造。1个记录的内容继承过去案件B的数据903的实验数据表(图7)的案件ID700、实验ID701、材料特性702、实验条件704。还包含来源于结构式的特征量1201。来源于结构式的特征量根据材料结构式703进行计算。作为根据结构式计算特征量的方法,有指纹法等公知的方法。
材料特性预测用数据包含由其他案件的预测模型902生成的特征量1202、1203即案件间相互特征量。在图9的说明中,其他案件为过去案件A中的一件,案件间相互特征量为预测材料特性A中的一种。但是,在其他案件的预测模型902中生成的特征量既可以是一种,也可以是任意的多种。另外,也可以使用多个其他案件。
材料特性预测部113从材料特性预测用数据中除去材料特性702为未实测即空白的部分,将除案件ID700、实验ID701和材料特性702以外的项目作为说明变量,将材料特性702作为目标变量,执行公知的回归分析,得到预测函数,学习预测模型905(S1005)。所生成的预测模型905与生成了预测模型905的数据的案件ID一起存储在材料特性预测模型DB114中。
该步骤是指,若将预测函数写成y=f(x1,x2,···),则y为目标变量,x1,x2,···为说明变量,以若确定x1,x2,···则能够预测y的方式确定f的函数形式。在本实施例的情况下,在使用图12的材料特性预测用数据的情况下,设为[材料特性702]=f([来源于结构式的特征量1201],[实验条件704],[案件[1]的特征量1202],[案件[2]的特征量1203]······),从而学习回归分析来生成预测模型905。
该学习相当于图9的最下层的预测模型905的生成,在图9中,实验条件704为湿度这一种,但以存在数据为前提,实验条件的数量、种类是任意的。作为实验条件,例如有材料的制造条件,但在没有数据的情况下也可以省略。另外,如上所述,在图9中,案件间相互特征量仅表示了预测材料特性A中的一个,但也可以如上述那样存在多个。
回归分析的算法可以是公知的算法,可以使用回归树、LASSO、随机森林、高斯过程、支持向量回归、神经网络等。此外,在本实施例中,使说明变量增加,但在增加说明变量的情况下,相比于支持向量回归,优选回归树或随机森林。特别是能够通过非线性的随机森林来期待高精度的预测。
在这样生成预测模型905之后,材料特性预测部113选择材料特性702为未实测即空白的部分,并使用上述y=f(x1,x2,···)的预测函数计算材料特性702的预测值(S1006)。
通过材料特性预测提示部116,在监视器205的画面上如图11所示那样显示计算出的预测值(S1007)。此外,在本实施例中,作为说明变量,仅使用了空间构造特征量和实验条件,但实际上也可以导出其他的某些量(例如分子量、电荷)来使用。
在上述的实施例中,在生成其他案件的特征量时,使用了结构式,但只要是案件数据中通用的数据,则也可以使用组成以外的数据。另外,能够直接使用结构式进行预测的方法也是公知的,在该情况下,机制也是同样的。
根据以上说明的实施例,通过过去的其他案件中进行的材料特性预测时的数据,生成与本次的预测具有兼容性的模型,经由该模型增加说明变量,由此提高精度。例如,开始研究开发的最初的案件(图9的过去案件B)的数据数量少,但在本实施例中,例如能够利用研发完成且数据量丰富的过去案件(图9的过去案件A)的数据。由此,在进行材料特性预测时,能够克服数据少和精度低的问题。因此,在用于筛选实验计划的预测评价中,能够进行更高精度的预测。其结果是,制定实验计划变得容易,进而能够通过较少的实验次数开发优质材料。例如,能够调查预测特性变好的参数,优先推荐该实验条件。
附图标记说明
101材料特性预测装置、
102使用者、
111实验数据受理部、
112材料DB、
113材料特性预测部、
114材料特性预测模型DB、
115案件间相互特征量生成部、
116材料特性预测提示部。
Claims (15)
1.一种材料特性预测系统,其是用于对包含多个由材料组成、实验条件和材料特性构成的记录的案件数据进行处理来进行材料特性的预测的系统,其特征在于,
所述材料特性预测系统具备材料特性预测提示部、案件相互特征量生成部以及材料特性预测部,
所述材料特性预测提示部受理第一案件数据的指定,所述第一案件数据包含材料特性未知的记录,且成为基于第一预测模型的材料特性的预测对象,
所述案件相互特征量生成部使用第二预测模型,根据所述第一案件数据的材料组成来预测特征量,
所述材料特性预测部使用所述第一案件数据的所述材料组成、所述实验条件、所述特征量和已知的所述材料特性,生成所述第一预测模型,将所述第一案件数据的材料特性未知的记录的所述材料组成、所述实验条件、所述特征量输入到所述第一预测模型来预测未知的材料特性。
2.根据权利要求1所述的材料特性预测系统,其特征在于,
所述材料特性预测系统能够从材料数据库取得所述案件数据,
所述材料数据库存储多个案件数据,在所述案件数据之间,所述实验条件和所述材料特性包含不同定义的数据,
所述材料特性预测提示部受理与所述第一案件数据不同的第二案件数据的指定,
所述案件相互特征量生成部从所述材料数据库取得所述第二案件数据,使用所述第二案件数据的材料组成和已知的材料特性,生成所述第二预测模型,使用所述第二预测模型,根据所述第一案件数据的材料组成,预测基于由所述第二案件数据定义的材料特性的特征量。
3.根据权利要求2所述的材料特性预测系统,其特征在于,
所述材料特性预测系统包含所述材料数据库,在该材料数据库中存储有:
所述第一案件数据,其包含多个由材料组成、第一实验条件和第一材料特性构成的记录;
所述第二案件数据,其包含多个存储材料组成以及与所述第一实验条件不同定义的第二实验条件的记录。
4.根据权利要求2所述的材料特性预测系统,其特征在于,
所述材料特性预测系统包含所述材料数据库,在该材料数据库中存储有:
所述第一案件数据,其包含多个由材料组成、第一实验条件和第一材料特性构成的记录;
所述第二案件数据,其包含多个存储材料组成以及与所述第一材料特性不同定义的第二材料特性的记录。
5.根据权利要求2所述的材料特性预测系统,其特征在于,
所述材料特性预测系统具备存储所述第一预测模型和所述第二预测模型中的至少一个的材料特性预测模型数据库。
6.根据权利要求5所述的材料特性预测系统,其特征在于,
所述第二预测模型与所述第二案件数据对应地被管理。
7.根据权利要求1所述的材料特性预测系统,其特征在于,
所述第一预测模型通过随机森林构成。
8.一种材料特性预测方法,其是通过包含输入装置、存储装置和处理器的信息处理装置来预测材料特性的方法,其特征在于,
在生成用于根据包含第一特征量的第一数据预测第一材料特性的第一预测模型时,执行以下步骤:
第一步骤,准备第二预测模型,该第二预测模型根据所述第一特征量预测与所述第一材料特性不同定义的第二材料特性;
第二步骤,将所述第一数据应用于所述第二预测模型,预测所述第二材料特性;以及
第三步骤,将所述第一特征量作为第一说明变量,将所述第二材料特性作为第二说明变量,将所述第一材料特性作为目标变量,生成所述第一预测模型。
9.根据权利要求8所述的材料特性预测方法,其特征在于,
执行:第三步骤,使用所述第一预测模型和所述第一数据来预测所述第一材料特性。
10.根据权利要求8所述的材料特性预测方法,其特征在于,
所述第一特征量是基于材料的结构式的特征量。
11.根据权利要求8所述的材料特性预测方法,其特征在于,
所述第二预测模型是使用包含所述第一特征量和所述第二材料特性的第二数据进行学习而得的。
12.根据权利要求11所述的材料特性预测方法,其特征在于,
使用按案件区分的材料数据库,
在所述材料数据库中存储有与第一案件相关的第一案件数据以及与第二案件相关的第二案件数据,
所述第一案件数据具有包含与材料的构造相关的信息和所述第一材料特性的多个记录,
所述第二案件数据具有包含与材料的构造相关的信息和所述第二材料特性的多个记录,
根据与所述材料的构造相关的信息,生成所述第一特征量,
根据所述第一案件数据生成所述第一数据,
根据所述第二案件数据生成所述第二数据。
13.根据权利要求12所述的材料特性预测方法,其特征在于,
所述第一案件数据还包含与材料的制造条件相关的第一信息。
14.根据权利要求13所述的材料特性预测方法,其特征在于,
所述第二案件数据还包含第二信息,该第二信息的定义不同于与材料的制造条件相关的所述第一信息。
15.根据权利要求8所述的材料特性预测方法,其特征在于,
使用随机森林作为所述第一预测模型。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019-169651 | 2019-09-18 | ||
JP2019169651A JP7267883B2 (ja) | 2019-09-18 | 2019-09-18 | 材料特性予測システムおよび材料特性予測方法 |
PCT/JP2020/031267 WO2021054026A1 (ja) | 2019-09-18 | 2020-08-19 | 材料特性予測システムおよび材料特性予測方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114207729A true CN114207729A (zh) | 2022-03-18 |
Family
ID=74878515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080054391.9A Pending CN114207729A (zh) | 2019-09-18 | 2020-08-19 | 材料特性预测系统以及材料特性预测方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220358438A1 (zh) |
EP (1) | EP4033391A4 (zh) |
JP (1) | JP7267883B2 (zh) |
CN (1) | CN114207729A (zh) |
WO (1) | WO2021054026A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7188512B1 (ja) | 2021-08-05 | 2022-12-13 | 日立金属株式会社 | データベース、材料データ処理システム、およびデータベースの作成方法 |
CN113627036A (zh) * | 2021-09-15 | 2021-11-09 | 昆明理工大学 | 材料介电常数预测方法、装置、计算机设备及存储介质 |
JP7439872B1 (ja) | 2022-09-02 | 2024-02-28 | 株式会社プロテリアル | 複合材料の物性値予測装置、物性値予測プログラム及び物性値予測方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002059561A2 (en) * | 2001-01-26 | 2002-08-01 | Bioinformatics Dna Codes, Llc | Modular computational models for predicting the pharmaceutical properties of chemical compounds |
JP2010277328A (ja) * | 2009-05-28 | 2010-12-09 | Medibic:Kk | 配合設計用シミュレーションデータベース装置、配合設計用システム、方法およびプログラム |
US8311955B2 (en) * | 2007-10-30 | 2012-11-13 | Exxonmobil Research And Engineering Company | Bootstrap method for oil property prediction |
US20150088803A1 (en) * | 2013-09-26 | 2015-03-26 | Synopsys, Inc. | Characterizing target material properties based on properties of similar materials |
JP2016004525A (ja) * | 2014-06-19 | 2016-01-12 | 株式会社日立製作所 | データ分析システム及びデータ分析方法 |
JP2017091526A (ja) * | 2015-11-04 | 2017-05-25 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 新規物質探索方法および装置 |
US20170161635A1 (en) * | 2015-12-02 | 2017-06-08 | Preferred Networks, Inc. | Generative machine learning systems for drug design |
CN109523069A (zh) * | 2018-11-01 | 2019-03-26 | 中南大学 | 一种利用机器学习预测充填材料强度参数的方法 |
JP6509303B1 (ja) * | 2017-10-30 | 2019-05-08 | 日本システム開発株式会社 | 情報処理装置、方法、およびプログラム |
JP2019086817A (ja) * | 2017-11-01 | 2019-06-06 | 株式会社日立製作所 | 設計支援装置及び設計支援方法 |
WO2019172280A1 (ja) * | 2018-03-09 | 2019-09-12 | 昭和電工株式会社 | ポリマーの物性予測装置、記憶媒体、及びポリマーの物性予測方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MY107650A (en) * | 1990-10-12 | 1996-05-30 | Exxon Res & Engineering Company | Method of estimating property and / or composition data of a test sample |
JP4047581B2 (ja) | 2001-12-12 | 2008-02-13 | 社団法人化学工学会 | 材料設計支援方法ならびにそのシステム |
JP4009670B2 (ja) | 2002-08-02 | 2007-11-21 | 独立行政法人科学技術振興機構 | 成分配合設計方法、成分配合設計プログラム及びそのプログラムを記録した記録媒体 |
US7292958B2 (en) * | 2004-09-22 | 2007-11-06 | Massachusetts Institute Of Technology | Systems and methods for predicting materials properties |
US20090055270A1 (en) * | 2007-08-21 | 2009-02-26 | Malik Magdon-Ismail | Method and System for Delivering Targeted Advertising To Online Users During The Download of Electronic Objects. |
US20120281096A1 (en) * | 2011-05-02 | 2012-11-08 | Honeywell-Enraf B.V. | Storage tank inspection system and method |
US20160034614A1 (en) * | 2014-08-01 | 2016-02-04 | GM Global Technology Operations LLC | Materials property predictor for cast aluminum alloys |
US20210231558A1 (en) * | 2018-05-16 | 2021-07-29 | President And Fellows Of Harvard College | Volatile liquid analysis |
US20200020015A1 (en) * | 2018-07-10 | 2020-01-16 | International Business Machines Corporation | Ecommerce product-recommendation engine with recipient-based gift selection |
US11423196B2 (en) * | 2018-11-28 | 2022-08-23 | Toyota Research Institute, Inc. | Systems and methods for predicting responses of a particle to a stimulus |
US10515715B1 (en) * | 2019-06-25 | 2019-12-24 | Colgate-Palmolive Company | Systems and methods for evaluating compositions |
US11047832B2 (en) * | 2019-08-29 | 2021-06-29 | Endra Life Sciences Inc. | Method and system for determining at least one parameter of interest of a material |
-
2019
- 2019-09-18 JP JP2019169651A patent/JP7267883B2/ja active Active
-
2020
- 2020-08-19 WO PCT/JP2020/031267 patent/WO2021054026A1/ja unknown
- 2020-08-19 US US17/621,321 patent/US20220358438A1/en active Pending
- 2020-08-19 CN CN202080054391.9A patent/CN114207729A/zh active Pending
- 2020-08-19 EP EP20864840.2A patent/EP4033391A4/en active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002059561A2 (en) * | 2001-01-26 | 2002-08-01 | Bioinformatics Dna Codes, Llc | Modular computational models for predicting the pharmaceutical properties of chemical compounds |
US8311955B2 (en) * | 2007-10-30 | 2012-11-13 | Exxonmobil Research And Engineering Company | Bootstrap method for oil property prediction |
JP2010277328A (ja) * | 2009-05-28 | 2010-12-09 | Medibic:Kk | 配合設計用シミュレーションデータベース装置、配合設計用システム、方法およびプログラム |
US20150088803A1 (en) * | 2013-09-26 | 2015-03-26 | Synopsys, Inc. | Characterizing target material properties based on properties of similar materials |
JP2016004525A (ja) * | 2014-06-19 | 2016-01-12 | 株式会社日立製作所 | データ分析システム及びデータ分析方法 |
JP2017091526A (ja) * | 2015-11-04 | 2017-05-25 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 新規物質探索方法および装置 |
US20170161635A1 (en) * | 2015-12-02 | 2017-06-08 | Preferred Networks, Inc. | Generative machine learning systems for drug design |
JP6509303B1 (ja) * | 2017-10-30 | 2019-05-08 | 日本システム開発株式会社 | 情報処理装置、方法、およびプログラム |
JP2019086817A (ja) * | 2017-11-01 | 2019-06-06 | 株式会社日立製作所 | 設計支援装置及び設計支援方法 |
WO2019172280A1 (ja) * | 2018-03-09 | 2019-09-12 | 昭和電工株式会社 | ポリマーの物性予測装置、記憶媒体、及びポリマーの物性予測方法 |
CN109523069A (zh) * | 2018-11-01 | 2019-03-26 | 中南大学 | 一种利用机器学习预测充填材料强度参数的方法 |
Non-Patent Citations (1)
Title |
---|
ALEXANDRE VARNEK 等: "Inductive Transfer of Knowledge: Application of Multi-Task Learning and Feature Net Approaches to Model Tissue-Air Partition Coefficients", 《JOURNAL OF CHEMICAL INFORMATION AND MODELING》, vol. 49, no. 1, 6 January 2009 (2009-01-06), pages 133 - 144, XP093079742, DOI: 10.1021/ci8002914 * |
Also Published As
Publication number | Publication date |
---|---|
US20220358438A1 (en) | 2022-11-10 |
WO2021054026A1 (ja) | 2021-03-25 |
JP7267883B2 (ja) | 2023-05-02 |
EP4033391A1 (en) | 2022-07-27 |
EP4033391A4 (en) | 2023-10-18 |
JP2021047627A (ja) | 2021-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114207729A (zh) | 材料特性预测系统以及材料特性预测方法 | |
JP7061536B2 (ja) | 最適化装置、シミュレーションシステム及び最適化方法 | |
KR20210119479A (ko) | 기계 학습을 사용하여 분자의 후각 특성을 예측하기 위한 시스템 및 방법 | |
Guha | On exploring structure–activity relationships | |
JP7353874B2 (ja) | 材料特性予測装置および材料特性予測方法 | |
JP7063389B2 (ja) | 処理装置、処理方法、およびプログラム | |
JP7218274B2 (ja) | 化合物の性質を予測するための化合物性質予測装置、化合物性質予測プログラム及び化合物性質予測方法 | |
KR20240001238A (ko) | 산업별 머신 러닝 애플리케이션들 | |
WO2021044857A1 (ja) | 材料特性予測システムおよび情報処理方法 | |
JP2017146888A (ja) | 設計支援装置及び方法及びプログラム | |
KR20220092551A (ko) | 정보 처리 시스템, 정보 처리 방법, 및 정보 처리 프로그램 | |
Hanser et al. | Applicability domain: towards a more formal framework to express the applicability of a model and the confidence in individual predictions | |
Yerlikaya-Özkurt et al. | A review and new contribution on conic multivariate adaptive regression splines (CMARS): a powerful tool for predictive data mining | |
JP2012194741A (ja) | 行列形データの欠損値予測装置、欠損値予測計算方法および欠損値予測プログラム | |
WO2021220775A1 (ja) | 材料の特性値を推定するシステム | |
JP2021179668A (ja) | データ解析システム、データ解析方法及びデータ解析プログラム | |
WO2020065807A1 (ja) | 情報処理装置、処理装置、情報処理方法、処理方法、決定方法、およびプログラム | |
WO2021220776A1 (ja) | 材料の特性値を推定するシステム | |
CN118051780B (zh) | 智能体的训练方法、交互方法及相应系统 | |
WO2024070170A1 (ja) | 試作条件提案システム、試作条件提案方法 | |
Zou et al. | Sparse logistic regression with logical features | |
CN117392477A (zh) | 目标对象检测模型的训练、装置、计算机设备和存储介质 | |
JP2021077159A (ja) | 化学物質探索方法、化学物質探索装置、及び化学物質探索プログラム | |
KR20220092899A (ko) | 정보 처리 시스템, 정보 처리 방법, 및 정보 처리 프로그램 | |
JP2023072958A (ja) | モデル生成装置、モデル生成方法及びデータ推定装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |