CN118043826A - 预测模型制作方法、预测方法、预测模型制作装置、预测装置、预测模型制作程序、预测程序 - Google Patents
预测模型制作方法、预测方法、预测模型制作装置、预测装置、预测模型制作程序、预测程序 Download PDFInfo
- Publication number
- CN118043826A CN118043826A CN202280065867.8A CN202280065867A CN118043826A CN 118043826 A CN118043826 A CN 118043826A CN 202280065867 A CN202280065867 A CN 202280065867A CN 118043826 A CN118043826 A CN 118043826A
- Authority
- CN
- China
- Prior art keywords
- prediction
- cluster
- model
- clusters
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 106
- 238000004138 cluster model Methods 0.000 claims abstract description 39
- 239000000463 material Substances 0.000 claims abstract description 38
- 230000005484 gravity Effects 0.000 claims abstract description 23
- 238000004519 manufacturing process Methods 0.000 claims abstract description 20
- 230000006870 function Effects 0.000 claims description 15
- 230000009897 systematic effect Effects 0.000 claims description 5
- 238000013461 design Methods 0.000 description 24
- 238000007637 random forest analysis Methods 0.000 description 9
- 230000000052 comparative effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 230000000704 physical effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C60/00—Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Crystallography & Structural Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
通过使用被分类为学习完毕的聚类模型的簇来设定适当的权重,提高学习完毕的预测模型的预测精度。材料特性的预测模型制作方法,具有:取得学习用数据集的步骤;使用所述学习用数据集和聚类模型生成学习完毕聚类模型,并且将所述学习用数据集分类为N个簇的步骤;计算各所述簇的重心间的距离的步骤;使用所述簇的重心间的距离和表示所述学习用数据集的特征的参数,计算所述簇间的权重的步骤;以及对于每个所述簇,使用簇和所述权重生成学习完毕预测模型{Mi}1≤i≤N的步骤。
Description
技术领域
本申请主张2021年9月29日向日本特性厅提交的基础申请2021-159474号的优先权,通过参照将其全部内容引用于此。
本公开涉及考虑了聚类和权重的预测模型制作方法、预测方法、预测模型制作装置、预测装置、预测模型制作程序、预测程序。
背景技术
以往,材料的设计是通过重复基于材料开发人员的经验的试制来完成的。在这种情况下,需要进行大量实验以获得所希望的特性。因此,近年来,已经尝试在材料设计中应用机器学习。例如,可以收集试制时的设计条件和试制的材料的评价结果(材料的特性值等),作为学习用数据集进行模型的学习,使用得到的学习完毕模型对在新的设计条件下试制的材料的特性值进行预测。由此可以将获得所希望特性的实验抑制到最小次数。
【现有技术文献】
【专利文献】
【专利文献1】日本特开2020-187417号公报
发明内容
【发明所要解决的课题】
例如,在专利文献1中,公开了一种方法,对训练数据进行聚类,具有:使用位于各聚类中的代表矢量附近的第1规定数的训练数据来预测物性值的基础模型;和使用位于代表矢量附近的第2规定数的训练数据来预测每个基础模型的残差的相反数的修正模型,对于未知输入矢量,对与靠近未知输入矢量的代表矢量相关的基础模型及修正模型进行检索,计算基础模型的预测值及修正模型的预测值,通过基础模型的预测值与对修正模型的预测值乘以给定的常数得到的值之和来计算物性预测值。但是,在专利文献1所公开的物性预测方法的情况下,由于不包含在位于代表矢量附近的第1规定数和第2规定数中的训练数据没有用于模型的学习,因此有可能导致物性预测精度的降低,另外,还存在容易过度学习的问题。
本公开是鉴于以上几点而完成的,其目的在于提供一种毫无保留地使用训练数据来提高预测精度的预测模型制作方法。
【解决课题的手段】
本公开具有以下构成。
[1]一种材料特性的预测模型制作方法,具有:
取得学习用数据集的步骤;
使用所述学习用数据集和聚类模型生成学习完毕聚类模型,并且将所述学习用数据集分类为N个簇的步骤;
计算各所述簇的重心间的距离的步骤;
使用所述簇的重心间的距离和表示所述学习用数据集的特征的参数,计算所述簇间的权重的步骤;以及
对于每个所述簇,使用簇和所述权重生成学习完毕预测模型{Mi}1≤i≤N的步骤。
[2]一种材料特性的预测方法,接着前项1所述的预测模型制作方法进行,具有:
取得预测用数据的步骤;
使用所述学习完毕聚类模型,确定所述预测用数据属于被分类为N个的学习用数据集簇中的聚类p的步骤;
将所述预测用数据作为输入,使用与所述簇p对应的学习完毕预测模型Mp求出预测值的步骤。
[3]前项1所述的材料特性的预测模型制作方法,其中,
在构建前项1所述的聚类模型的步骤中,使用K-means法、Nearest Neighbor法、分层聚类法、混合高斯法、DBSCAN法、t-SNE法、自组织映射法中的任意一个或多个聚类方法。
[4]前项1所述的材料特性的预测模型制作方法,其中,
在计算前项1所述的簇的重心间的距离的步骤中,使用欧几里得距离法、曼哈顿距离法、马哈拉诺比斯距离法、明可夫斯基距离法、余弦距离法、最短距离法、最长距离法、重心法、群平均法、ward法、Kullback-Leibler散度、Jensen-Shannon散度、Dynamic timewarping、Earth mover’s distance中的任意一个或多个的组合来计算距离。
[5]前项1所述的材料特性的预测模型制作方法,其中,
作为表示所述学习用数据集的特征的参数,使用与所述学习用数据集的特性值相关的系统误差、标准偏差、方差、变动系数、分位数、峰度、畸变度中的任意一个或多个参数。
[6]前项1所述的材料特性的预测模型制作方法,其中,
在计算所述权重的步骤中,使用指数函数型、倒数型、倒数的幂型中的任意一个或多个权重函数。
[7]一种材料特性的预测模型制作装置,具有:
聚类模型,通过输入学习用数据集,生成学习完毕聚类模型,并且将所述学习用数据集分类为N个簇;
权重定义部,计算被分类的各所述簇的重心间的距离,使用计算出的各簇的重心间的距离和表示所述学习用数据集的特征的参数,计算所述各簇间的权重;以及
预测模型{Mi}1≤i≤N,其对每个所述簇使用簇和所述权重生成学习完毕预测模型。
[8]一种材料特性的预测装置,具有:
通过前项7所述的预测模型制作装置制作的学习完毕聚类模型,其通过输入预测用数据,确定所述预测用数据属于被分类为N个的聚类中的聚类p;
通过前项7所述的预测模型制作装置制作的学习完毕预测模型Mp,其与所确定的所述簇p对应,将预测用数据作为输入而求出预测值;以及
输出部,输出所求出的预测值。
[9]一种材料特性的预测模型制作程序,用于使计算机执行如下工序:
取得学习用数据集的工序;
使用所述学习用数据集和聚类模型生成学习完毕聚类模型,并且将所述学习用数据集分类为N个簇的工序;
计算各所述簇的重心间的距离的工序;
使用所述簇的重心间的距离和表示所述学习用数据集的特征的参数,计算所述簇间的权重的工序;以及
对于每个所述簇,使用簇和所述权重生成学习完毕预测模型{Mi}1≤i≤N的工序。
[10]一种材料特性的预测程序,用于使计算机执行如下工序:
取得预测用数据的工序;
使用由前项9所述的预测模型制作程序制作的学习完毕聚类模型,确定所述预测用数据属于被分类为N个的学习用数据集簇中的聚类p的工序;以及
将所述预测用数据作为输入,对应于确定的所述簇p,使用前项9所述的预测模型Mp求出预测值的工序。
【发明的效果】
使用本公开的预测模型制作方法制作的预测模型,通过毫无保留地使用训练数据来抑制因数据数不足而导致的过度学习,并且通过导入反映数据的倾向的权重,能够提高预测精度。
附图说明
图1是表示学习阶段中的预测模型制作装置以及预测阶段中的预测装置的功能构成的一例的图。
图2是表示预测模型制作装置以及预测装置的硬件构成的一例的图。
图3是表示学习处理的流程的流程图。
图4是表示预测处理的流程的流程图。
图5是根据本实施方式的预测模型制作方法中的要件设定画面的一例的示意图。
图6是表示比较例中的通常的随机森林的学习处理的流程的流程图。
图7是表示比较例中的通常的随机森林的预测处理的流程的流程图。
图8是表示预测精度的一例的图。
具体实施方式
以下,参照附图对各实施方式进行说明。另外,在本说明书和附图中,对具有实质上相同的功能构成的构成要素标注相同的符号,从而省略重复的说明。
<预测模型制作装置以及预测装置的功能构成>
首先,对预测模型制作装置以及预测装置的功能构成进行说明。预测模型制作装置,以使用包含试制时的设计条件和试制的材料的特性值的学习用数据集进行预测模型的生成的预测模型制作装置为例进行说明。另外,预测装置以使用在预测模型制作装置中制作的学习完毕预测模型对在新的设计条件下试制的材料的特性值进行预测的预测装置为例进行说明。
但是,根据实施方式的预测模型制作装置和预测装置并不限定于上述用途,也可以在材料的设计以外使用。
图1是表示学习阶段中的预测模型制作装置以及预测阶段中的预测装置的功能构成的一例的图。在预测模型制作装置120中安装有学习程序,通过执行该程序,预测模型制作装置120作为以下发挥功能:
·聚类模型121、
·权重定义部122、
·预测模型123。
(参见图1的(a))
预测模型制作装置120使用存储在材料数据存储部110中的学习用数据集111进行聚类模型121、预测模型123的学习,生成学习完毕聚类模型131以及学习完毕预测模型132。
如图1的(a)所示,在学习用数据集111中,作为信息的项目,包含“输入数据”和“正解数据”。另外,图1的(a)的例子,表示“设计条件1”~“设计条件n”被存储为“输入数据”,“特性值1”~“特性值n”被存储为“正解数据”的情况。
通过输入存储在学习用数据集111的“输入数据”中的“设计条件1”~“设计条件n”,聚类模型121输出学习用数据集簇作为输出数据。即,通过输入学习用数据集111来生成被分类为学习完毕聚类模型131和簇i的学习用数据集111。
在聚类模型121中生成的簇的数目被设置为N。
另外,预测模型制作装置120进行学习的聚类模型121设为是如下模型:作为学习方法,例如可以在“K-means法、Nearest Neighbor法、分层聚类法、混合高斯法、DBSCAN法、t-SNE法、自组织映射法”、中的某一个或多个学习方法下进行学习。
更具体地,聚类模型121将学习用数据集111的“输入数据”中存储的“设计条件1”~“设计条件n”分类为任意的簇i(1≤i≤N),并且输出簇i的重心坐标。
权重定义部122使用表示被分类的簇之间的距离和学习用数据集111的特征的参数,计算预测模型123中使用的权重{Wij}1≤i≤N,1≤j≤N。
被分类的聚类间的距离{lij}1≤i≤N,1≤j≤N,用上述的重心坐标间的距离表示,计算N(N-1)/2条。
另外,作为计算权重定义部122中使用的各簇间的距离的方法,例如可以使用“欧几里德距离法、曼哈顿距离法、马哈拉诺比斯距离法、明可夫斯基距离法、余弦距离法、最短距离法、最长距离法、重心法、群平均法、ward法、Kullback-Leibler散度、Jensen-Shannon散度、动态时间warping(Dynamic time warping)、地球超越距离(Earth mover’sdistance)”、中的任意一个或多个组合来计算距离。
作为表示在权重定义部122中使用的学习用数据集111的特征的参数,可以使用“正解数据”中存储的“特性值1”~“特性值n”的“系统误差、标准偏差、方差、变动系数、分位数、峰度、畸变度”中的任意一个或多个参数来定义。
使用表示被分类的簇间的距离和学习用数据集111的特征的参数计算出的权重用权重函数表示,作为权重函数,例如可以使用“指数函数型、倒数型、倒数的幂型”中的任意一个或多个来定义。
例如,作为权重函数Wij,可以用式(1)表示的波兹曼型那样的指数函数来定义。
【数1】
在此,lij是各簇间的距离,τ是表示学习用数据集的特征的参数,α是任意常数。
通过以输入将由聚类模型121输出的学习用数据集簇所包含的说明变量和由权重定义部122计算出的权重相乘得到的值、并将与输入中使用的说明变量(设计条件)对应的目的变量(特性值)作为输出数据输出特性值的方式进行学习,来生成预测模型123。
另外,预测模型制作装置120进行学习的预测模型,作为学习方法,可以使用“随机森林、决策树、梯度提升、自适应提升(Adaboost)、装袋(Bagging)、线性、偏最小二乘、拉索、线性脊、弹性网”中的任意一个或多个组合。
另外,当预测模型制作装置120进行预测模型123的学习时,设对于在聚类模型121中分类的N个簇,由预测模型123{Mi}1≤i≤N进行学习。即,对簇i进行应用了权重Wij的学习,分别生成学习完毕预测模型132{Mi}1≤i≤N。
作为应用了权重的学习的方法,作为一例,例如可以举出输入权重作为scikit-learn中存储的随机森林回归算法的fit函数内的参数的方法。
由此,预测模型制作装置120生成学习完毕聚类模型131以及学习完毕预测模型132。此外,预测模型制作装置120将所生成的学习完毕聚类模型131以及学习完毕预测模型132应用于预测装置130。
另一方面,在预测装置130中安装有预测程序,通过执行该程序,预测装置130作为如下发挥功能:
·学习完毕聚类模型131、
·学习完毕预测模型132、
·输出部133。
(参见图1的(b))
学习完毕聚类模型131,通过预测模型制作装置120使用学习用数据集111的“输入数据”中存储的“设计条件1”~“设计条件n”进行聚类模型121的学习而生成。
另外,学习完毕聚类模型131通过输入预测用数据(设计条件x),确定学习用数据集111属于被分类的N个簇中的簇p。
通过预测模型制作装置120使用学习用数据集111被分类的N个簇以及由权重定义部122计算出的权重进行预测模型123的学习,来生成学习完毕预测模型132。
另外,学习完毕预测模型132通过输入设计条件x和学习完毕聚类模型输出的簇的所属分类p,使用与所属分类p对应的学习完毕预测模型132Mp预测特性值y,输出部133将预测出的特性值作为预测数据而输出。
由此,根据预测装置130,通过使用利用设计条件x所属的簇及与其簇对应的权重而学习的学习完毕模型进行特性值的预测,能够得到充分的预测精度。即,根据本实施方式,能够在使用了学习完毕预测模型的预测装置中提高预测精度。
<预测模型制作装置以及预测装置的硬件构成>
接着,对预测模型制作装置120及预测装置130的硬件构成进行说明。另外,由于预测模型制作装置120和预测装置130具有同样的硬件构成,因此在此,使用图2汇总说明预测模型制作装置120和预测装置130的硬件构成。
图2是表示学习装置以及预测装置的硬件构成的一例的图。如图2所示,学习装置120以及预测装置130具有处理器201、存储器202、辅助存储装置203、I/F(接口)装置204、通信装置205、驱动装置206。此外,学习装置120和预测装置130的各硬件经由总线207相互连接。
处理器201具有CPU(Central Processing Unit)、GPU(Graphics ProcessingUnit)等各种运算设备。处理器201将各种程序(例如,学习程序、预测程序等)读出到存储器202上并执行。
存储器202包括ROM(Read Only Memory,只读存储器)和RAM(Random AccessMemory,随机存取存储器)等的主存储设备。处理器201和存储器202形成所谓的计算机,处理器201执行在存储器202上读出的各种程序,从而该计算机实现各种功能。
辅助存储装置203存储各种程序、各种程序由处理器201执行时使用的各种数据。
I/F装置204是连接到未图示的外部装置的连接设备。通信装置205是用于通过网络与外部装置(例如,材料数据存储部110)通信的通信设备。
驱动装置206是用于设置记录介质210的设备。这里所说的记录介质210包括像CD-ROM、软盘、光磁盘等那样以光学、电或磁方式记录信息的介质。另外,记录介质210也可以包括ROM、闪存等那样电记录信息的半导体存储器等。
另外,安装在辅助存储装置203中的各种程序,例如通过在驱动装置206中设置所分发的记录介质210、由驱动装置206读出记录在该记录介质210中的各种程序来进行安装。或者,也可以通过经由通信装置205从网络下载,来对安装在辅助存储装置203中的各种程序进行安装。
<学习处理的流程>
接下来,说明学习处理的流程。图3是表示学习处理的流程的流程图。
在步骤S301中,预测模型制作装置120取得学习用数据集111。
在步骤S302中,预测模型制作装置120使用所取得的学习用数据集111进行聚类模型121的学习,生成学习完毕聚类模型131并且得到各簇间的重心坐标以及簇分类为N个的学习用数据集簇。
在步骤S303中,权重定义部122针对学习用数据集簇i计算各簇间的重心间的距离{lij}1≤i≤N,1≤j≤N。
在步骤S304中,权重定义部122使用表示簇间的距离和学习用数据集111的特征的参数来计算预测模型123中使用的权重{Wij}1≤i≤N,1≤j≤N。
在步骤S305中,预测模型制作装置120判断是否对被簇分类为N个的学习用数据集111的全部的簇计算权重。在步骤S305中,在判定为存在未计算权重的簇的情况下(在步骤S305中为“否”的情况下),返回到步骤S304。
另一方面,在步骤S305中判定为没有未计算权重的簇的情况下(在步骤S305中为“是”的情况下),进入步骤S306。
在步骤S306中,预测模型制作装置120使用所述生成的学习用数据集簇及对应的权重的组合,进行预测模型123的学习,生成学习完毕预测模型132。
在步骤S307中,预测模型制作装置120判定是否对被簇分类为N个的学习用数据集111的全部簇进行了预测模型123的学习。当在步骤S306中判定为存在未生成学习完毕预测模型132的簇的情况下(在步骤S307中为“否”的情况下),返回到步骤S306。
另一方面,在步骤S307中,在判断为没有未生成学习完毕预测模型132的学习用数据集簇的情况下(在步骤S007中为“是”的情况下),结束学习处理。
<预测处理的流程>
接着,说明预测处理的流程。图4是表示预测处理的流程的流程图。
在步骤S401中,预测装置130取得预测用数据(设计条件x)。
在步骤S402中,预测装置130将所获取的预测用数据输入到学习完毕聚类模型131中,确定学习用数据簇中属于簇p的情况。
在步骤S403中,预测装置130取得与所确定的簇p对应的学习完毕预测模型132Mp,将所取得的预测用数据作为输入,预测特性值。
在步骤S404中,预测装置130将预测出的特性值作为针对预测对象的输入数据(设计条件x)的预测数据输出。
图5的画面500表示:在进行聚类模型121的生成时,进行簇数N的手动设定或基于拐点法的自动设定的选择、以及表示学习用数据集111的特征的参数的种类的选择的GUI(图形用户界面)。用户从画面中选择最佳的簇数的设定,并且选择系统误差、标准偏差、方差、变动系数、四分位数、峰度、畸变度等参数。例如,在图5中,表示了这样的示例:选择基于拐点法的自动设定作为簇数的设定方法,并且选择系统误差作为表示学习用数据集111的特征的参数。当在图5的状态下按下“预测”按钮时,预测模型制作装置120的聚类模型121以及权重定义部122、预测模型123,按照图3的流程图的步骤,生成学习完毕聚类模型131以及学习完毕预测模型132。
<归纳>
从以上的说明可知,根据实施方式的预测装置130:
·具有用于对输入数据进行聚类的学习完毕聚类模型131和与簇p对应的学习完毕预测模型132。
·在适当的权重下,将由学习完毕预测模型132预测的特性值作为预测数据输出。
由此,根据实施方式的预测装置130,在使用了学习完毕预测模型132的预测装置130中,能够提高预测精度。
[实施例]
使用公知的数据集说明本公开的预测方法的具体实施例。另外,根据本公开的特性预测并不局限于材料类领域,也可以适用于其他领域。
在对实施例的说明中,设材料数据存储部110存储有例如在scikit-learn的Toydatasets(https://scikit-learn.org/stable/datasets/toy_dataset.html)中公开的506个数据的与波士顿住房价格相关的数据集。
在使用该波士顿住房价格数据集进行预测模型制作处理以及预测处理的情况下,例如按照以下的步骤进行处理。
[学习步骤]
(1)步骤1
下面说明学习步骤。
将波士顿住房价格数据集以75%/25%的比例随机分为学习用数据集/预测用数据集。在波士顿住房价格数据集中,作为说明变量,使用:CRIM(不同城镇的“犯罪率”)、ZN(“大户型的比例”)、INDUS(不同城镇的“非零售业的比例”)、CHAS(“是不是河的旁边”))、NOX(“NOx浓度(0.1ppm单位)”)、RM(每1户的“平均房间数”)、AGE(“旧房子的比例”)、DIS(“与主要设施的距离”)、RAD(“对主要高速公路的可达性”)、TAX(“固定资产税率”)、PTRATIO(不同城镇的“学生和老师的比率”)、B(“每个城镇的黑人的比例”)、LSTAT(“低收入人口的比例”),作为目标变量使用MEDV(“住房价格”(1000美元单位)的中位数)。
(2)步骤2
利用步骤1中得到的学习用数据集,利用scikit-learn中存储的聚类算法即K―Means法进行学习,得到了学习完毕聚类模型。
(3)步骤3
使用在步骤2中学习的学习完毕聚类模型,通过输入学习用数据集,得到被簇分类为N个的学习用数据集簇。在这里,作为以拐点法实施的结果,获得了2个簇。
(4)步骤4
对于在步骤3中簇分类的学习用数据集簇,将各簇间的重心间的距离{lij}1≤i≤N,1≤j≤N计算出N(N-1)/2条。这里,作为各簇间的重心间的距离,使用欧几里得距离。
(5)步骤5
使用在步骤4中计算出的簇间的距离{lij}1≤i≤N,1≤j≤N和表示学习用数据集的特征的参数,计算出所述簇间的权重{Wij}1≤i≤N,1≤j≤N。在此,作为表示学习用数据集的特征的参数,使用了学习用数据集的MEDV的标准偏差。另外,作为簇间的权重,使用下式(1)所表示的权重函数。另外,作为任意常数,使用α=1.0。
【数2】
lij…在步骤4计算出的各簇间的距离
τ…表示数据集的特征的参数
α…任意常数
(6)步骤6
将scikit-learn中存储的随机森林回归算法用作预测模型,针对步骤2中生成的学习用数据集簇和步骤5中生成的各簇的权重,使预测模型Mi对各簇进行学习,得到2个学习完毕预测模型。另外,这里,作为应用权重的学习方法,在scikit-learn中存储的随机森林回归算法的fit函数内的参数中输入权重。
[预测步骤]
(7)步骤7
下面进行预测步骤的说明。
从步骤1中获得的预测用数据集获取预测用数据。接着,使用在步骤2中学习的学习完毕聚类模型,确定预测用数据是否属于步骤3中记载的簇中的簇p。
(8)步骤8
将预测用数据作为输入,使用在步骤6中制作的、与预测用数据所属的簇p对应的学习完毕预测模型Mp来预测特性值,将预测出的特性值作为预测数据输出。
对于预测用数据集的剩余的各预测用数据也同样地输出预测数据。
(9)步骤9
求出本发明的预测方法的预测精度。预测精度以由下式(2)定义的R2值作为评价指标。R2值越接近1,预测精度越高。
【数3】
…第i个预测用数据的预测值
yi…第i个预测用数据的实测值
…预测用数据的平均值
n…预测用数据的数据数
[比较例]
另一方面,作为比较例,除了不进行步骤2的聚类、不使用步骤5中的权重以外,如图6和图7的流程图所示,与实施例同样地进行预测模型的制作的预测,计算出R2值。
作为实施例的预测精度,得到R2=0.879。另一方面,作为比较例的预测精度,得到R2=0.868。
如图8所示,可知与通常的随机森林回归模型的情况相比,如本实施例那样进行簇分类并考虑了适当的权重的随机森林回归模型的预测精度,与比较例的预测精度相比更高。
这样,通过将预测用数据分类为适当的簇,构建对各簇考虑了适当的权重的模型,从而与比较例相比,能够更高精度地进行预测。
[其他的实施方式]
在上述各实施方式中,预测模型制作装置和预测装置作为分体的装置进行了说明。但是,预测模型制作装置和预测装置也可以由一体的装置构成。
另外,在上述的实施方式中,重心间的距离的计算方法使用欧几里得距离进行,没有提及其他的具体例。但是,重心间距离的计算方法,例如也可以是曼哈顿距离法、马哈拉诺比斯距离法、明可夫斯基距离法、余弦距离法、最短距离法、最长距离法、重心法、群平均法、ward法、Kullback-Leibler散度、Jensen-Shannon散度、Dynamic time warping、Earthmover’s distance等。
另外,在上述实施方式中,使用K―Means法和随机森林回归算法进行,没有提及其他学习方法的具体例。但是,进行聚类模型的学习时使用的学习方法,例如,也可以是Nearest Neighbor法、分层聚类法、混合高斯法、DBSCAN法、t-SNE法、自组织映射法等。
另一方面,在进行预测模型的学习时使用的学习方法,例如,也可以是决策树、梯度提升、自适应提升、装袋、线性、偏最小二乘、拉索、线性脊、弹性网等。
在本发明的一个实施方式中,也可以在制造中使用通过本发明的预测方法预测了特性的材料的设计条件。例如,制造材料的装置可以从预测装置130取得预测装置130预测了特性的材料的设计条件的信息,使用该取得的设计条件的信息来制造材料。
另外,可以对上述实施方式所列举的构成等组合其他的要素等,本发明并不现定于在此示出的构成。关于这些方面,可以在不脱离本发明的主旨的范围内进行变更,可以根据其应用方式适当地进行规定。
【符号的说明】
111:学习用数据集
120:预测模型制作装置
121:聚类模型
122:权重定义部
123:预测模型
130:预测装置
131:学习完毕聚类模型
132:学习完毕预测模型
133:输出部。
Claims (10)
1.一种材料特性的预测模型制作方法,具有:
取得学习用数据集的步骤;
使用所述学习用数据集和聚类模型生成学习完毕聚类模型,并且将所述学习用数据集分类为N个簇的步骤;
计算各所述簇的重心间的距离的步骤;
使用所述簇的重心间的距离和表示所述学习用数据集的特征的参数,计算所述簇间的权重的步骤;以及
对于每个所述簇,使用簇和所述权重生成学习完毕预测模型{Mi}1≤i≤N的步骤。
2.一种材料特性的预测方法,接着权利要求1所述的预测模型制作方法进行,具有:
取得预测用数据的步骤;
使用所述学习完毕聚类模型,确定所述预测用数据属于被分类为N个的学习用数据集簇中的聚类p的步骤;
将所述预测用数据作为输入,使用与所述簇p对应的学习完毕预测模型Mp求出预测值的步骤。
3.根据权利要求1所述的材料特性的预测模型制作方法,其中,
在权利要求1所述的构建聚类模型的步骤中,使用K-means法、Nearest Neighbor法、分层聚类法、混合高斯法、DBSCAN法、t-SNE法、自组织映射法中的任意一个或多个聚类方法。
4.根据权利要求1所述的材料特性的预测模型制作方法,其中,
在权利要求1所述的计算簇的重心间的距离的步骤中,使用欧几里得距离法、曼哈顿距离法、马哈拉诺比斯距离法、明可夫斯基距离法、余弦距离法、最短距离法、最长距离法、重心法、群平均法、ward法、Kullback-Leibler散度、Jensen-Shannon散度、Dynamic timewarping、Earth mover’s distance中的任意一个或多个的组合来计算距离。
5.根据权利要求1所述的材料特性的预测模型制作方法,其中,
作为表示所述学习用数据集的特征的参数,使用与所述学习用数据集的特性值相关的系统误差、标准偏差、方差、变动系数、分位数、峰度、畸变度中的任意一个或多个参数。
6.根据权利要求1所述的材料特性的预测模型制作方法,其中,
在计算所述权重的步骤中,使用指数函数型、倒数型、倒数的幂型中的任意一个或多个权重函数。
7.一种材料特性的预测模型制作装置,具有:
聚类模型,通过输入学习用数据集,生成学习完毕聚类模型,并且将所述学习用数据集分类为N个簇;
权重定义部,计算被分类的各所述簇的重心间的距离,使用计算出的各簇的重心间的距离和表示所述学习用数据集的特征的参数,计算所述各簇间的权重;以及
预测模型{Mi}1≤i≤N,其对每个所述簇使用簇和所述权重生成学习完毕预测模型。
8.一种材料特性的预测装置,具有:
通过权利要求7所述的预测模型制作装置制作的学习完毕聚类模型,其通过输入预测用数据,确定所述预测用数据属于被分类为N个的聚类中的聚类p;
通过权利要求7所述的预测模型制作装置制作的学习完毕预测模型Mp,其与所确定的所述簇p对应,将预测用数据作为输入而求出预测值;以及
输出部,输出所求出的预测值。
9.一种材料特性的预测模型制作程序,用于使计算机执行如下工序:
取得学习用数据集的工序;
使用所述学习用数据集和聚类模型生成学习完毕聚类模型,并且将所述学习用数据集分类为N个簇的工序;
计算各所述簇的重心间的距离的工序;
使用所述簇的重心间的距离和表示所述学习用数据集的特征的参数,计算所述簇间的权重的工序;以及
对于每个所述簇,使用簇和所述权重生成学习完毕预测模型{Mi}1≤i≤N的工序。
10.一种材料特性的预测程序,用于使计算机执行如下工序:
取得预测用数据的工序;
使用由权利要求9所述的预测模型制作程序制作的学习完毕聚类模型,确定所述预测用数据属于被分类为N个的学习用数据集簇中的聚类p的工序;以及
将所述预测用数据作为输入,对应于确定的所述簇p,使用权利要求9所述的预测模型Mp求出预测值的工序。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021-159474 | 2021-09-29 | ||
JP2021159474 | 2021-09-29 | ||
PCT/JP2022/034047 WO2023053918A1 (ja) | 2021-09-29 | 2022-09-12 | 予測モデル作成方法、予測方法、予測モデル作成装置、予測装置、予測モデル作成プログラム、予測プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118043826A true CN118043826A (zh) | 2024-05-14 |
Family
ID=85782400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280065867.8A Pending CN118043826A (zh) | 2021-09-29 | 2022-09-12 | 预测模型制作方法、预测方法、预测模型制作装置、预测装置、预测模型制作程序、预测程序 |
Country Status (3)
Country | Link |
---|---|
JP (2) | JP7384322B2 (zh) |
CN (1) | CN118043826A (zh) |
WO (1) | WO2023053918A1 (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004086896A (ja) * | 2002-08-06 | 2004-03-18 | Fuji Electric Holdings Co Ltd | 適応的予測モデル構築方法及び適応的予測モデル構築システム |
US20200311574A1 (en) * | 2017-09-29 | 2020-10-01 | Nec Corporation | Regression apparatus, regression method, and computer-readable storage medium |
JP7232122B2 (ja) | 2019-05-10 | 2023-03-02 | 株式会社日立製作所 | 物性予測装置及び物性予測方法 |
JP7294421B2 (ja) * | 2019-06-26 | 2023-06-20 | 日本電信電話株式会社 | 学習装置、予測装置、学習方法、予測方法、学習プログラム、及び予測プログラム |
JP7312409B2 (ja) | 2020-04-01 | 2023-07-21 | 株式会社大一商会 | 遊技機 |
-
2022
- 2022-09-12 CN CN202280065867.8A patent/CN118043826A/zh active Pending
- 2022-09-12 WO PCT/JP2022/034047 patent/WO2023053918A1/ja active Application Filing
- 2022-09-12 JP JP2023524840A patent/JP7384322B2/ja active Active
-
2023
- 2023-10-17 JP JP2023178718A patent/JP2023182783A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
JP7384322B2 (ja) | 2023-11-21 |
WO2023053918A1 (ja) | 2023-04-06 |
JPWO2023053918A1 (zh) | 2023-04-06 |
JP2023182783A (ja) | 2023-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110070141B (zh) | 一种网络入侵检测方法 | |
Nyathi et al. | Comparison of a genetic algorithm to grammatical evolution for automated design of genetic programming classification algorithms | |
CN107230108A (zh) | 业务数据的处理方法及装置 | |
JP6172317B2 (ja) | 混合モデル選択の方法及び装置 | |
CN116934385B (zh) | 用户流失预测模型的构建方法、用户流失预测方法及装置 | |
CN106021402A (zh) | 用于跨模态检索的多模态多类Boosting框架构建方法及装置 | |
JP7298825B2 (ja) | 学習支援装置、学習装置、学習支援方法及び学習支援プログラム | |
CN116187835A (zh) | 一种基于数据驱动的台区理论线损区间估算方法及系统 | |
CN110334720A (zh) | 业务数据的特征提取方法、装置、服务器和存储介质 | |
CN109493916A (zh) | 一种基于稀疏性因子分析的基因-基因交互作用识别方法 | |
CN115081515A (zh) | 能效评价模型构建方法、装置、终端及存储介质 | |
CN113253709B (zh) | 一种适用于轨道交通车辆健康诊断方法及装置 | |
Delima | An enhanced K-nearest neighbor predictive model through metaheuristic optimization | |
CN113869609A (zh) | 一种根因分析频繁子图置信度预测方法及系统 | |
Liu et al. | Residual useful life prognosis of equipment based on modified hidden semi-Markov model with a co-evolutional optimization method | |
Yang et al. | Automatic layout generation with applications in machine learning engine evaluation | |
CN117521063A (zh) | 基于残差神经网络并结合迁移学习的恶意软件检测方法及装置 | |
CN116208399A (zh) | 一种基于元图的网络恶意行为检测方法及设备 | |
CN114445716B (zh) | 关键点检测方法、装置、计算机设备、介质及程序产品 | |
CN115858388A (zh) | 基于变异模型映射图的测试用例优先级排序方法和装置 | |
CN118043826A (zh) | 预测模型制作方法、预测方法、预测模型制作装置、预测装置、预测模型制作程序、预测程序 | |
US20220366242A1 (en) | Information processing apparatus, information processing method, and storage medium | |
CN115587884A (zh) | 一种基于改进的极限学习机的用户贷款违约预测方法 | |
CN113191527A (zh) | 一种基于预测模型进行人口预测的预测方法及装置 | |
CN111108516B (zh) | 使用深度学习算法来评价输入数据 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |