CN115668236A - 分析数据管理系统的训练用数据生成方法 - Google Patents
分析数据管理系统的训练用数据生成方法 Download PDFInfo
- Publication number
- CN115668236A CN115668236A CN202180036156.3A CN202180036156A CN115668236A CN 115668236 A CN115668236 A CN 115668236A CN 202180036156 A CN202180036156 A CN 202180036156A CN 115668236 A CN115668236 A CN 115668236A
- Authority
- CN
- China
- Prior art keywords
- data
- sample
- training data
- analysis
- types
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Analysing Materials By The Use Of Radiation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
构建数据库,所述数据库针对一种或多种样本的各样本将样本识别标签与属于类别(1)、类别(2)及类别(3)中的至少两种类别的数据相关联地保存。从数据库中选择用作监督学习中的训练数据的数据。此时,从类别的一个类别中选择一个或多个数据的分类作为说明变量。并且,从类别的其它类别中选择一个或多个数据的分类作为目标变量。然后,生成训练数据,所述训练数据将与选择出的说明变量对应的数据作为输入、并将与选择出的目标变量对应的数据作为正解输出。类别(1)是与样本的制作方法相关的多种数据,类别(2)是作为由一种或多种分析装置对样本进行分析得到的结果的多种分析数据,类别(3)是作为表示样本的特性的信息的多种物理性质数据。
Description
技术领域
本发明涉及一种对多个样本进行分析/解析、管理其结果并且生成在机器学习中使用的训练用数据的方法。
背景技术
气相色谱装置、液相色谱装置、拉伸试验机、压缩试验机等分析装置具备专用的数据解析软件(解析软件),通过在解析软件上对分析结果、试验结果进行解析,从而获得在统计解析、机器学习关联的解析中使用的特征量。
例如专利文献1公开了如下方法:将对由多个构件构成的构造复合体进行破坏检查而获得的参数与通过非破坏性测定而获得的参数相互关联来进行统计解析,由此估计作为对象的构造复合体的多个性能,估计由这些多个性能表示的构造复合体的状态。
现有技术文献
专利文献
专利文献1:日本特开2018-036131号公报
发明内容
发明要解决的问题
关于从多个分析装置获得的特征量,由于其种类涉及多方面,因此需要重新选择由各分析装置生成的特征量中的每个样本所需的特征量并进行汇总以将特征量利用于AI解析、统计解析等,存在需要工夫和时间这一问题。
例如,在针对多种特征量构建SVM(Support Vector Machine:支持向量机)等学习完毕模型的情况下,适当地选择特征量的种类在生成高精度且收敛性高的模型的方面是重要的,但需要从每个分析装置的数据库分别提取数据来进行统计解析等,存在需要大量的工夫和劳力这一问题。
本发明的目的在于提供一种能够管理从多个分析装置获得的数据并且将生成在机器学习时使用的训练数据所需的时间、工夫缩短的分析数据管理系统的训练用数据生成方法,以解决上述的问题。
用于解决问题的方案
在本发明的例示性的分析数据管理系统的训练用数据生成方法中,首先,构建数据库,所述数据库针对一种或多种样本的各样本将样本识别标签与属于后述类别(1)、类别(2)及类别(3)中的至少两种类别的数据相关联地保存。
接着,从所述数据库中选择用作监督学习中的训练数据的数据。此时,从所述类别的一个类别中选择一个或多个数据的分类作为说明变量。并且,从所述类别的其它类别中选择一个或多个数据的分类作为目标变量。
然后,生成训练数据,所述训练数据将与选择出的所述说明变量对应的数据作为输入、并将与选择出的所述目标变量对应的数据作为正解输出。
类别(1)是与所述样本的制作方法相关的多种数据,类别(2)是作为由一种或多种分析装置对所述样本进行分析得到的结果的多种分析数据,类别(3)是作为表示所述样本的特性的信息的多种物理性质数据。
发明的效果
根据本发明,能够在单一软件上横向地解析由多个分析装置得到的多个样本的分析数据,汇总地获取每个样本的数据(与制作方法相关的数据、分析数据、物理性质数据等)来进行管理,并且仅选择在机器学习时所需的数据来生成训练数据,因此能够将生成训练数据及学习完毕模型所需的时间、工夫大幅缩短。
附图说明
图1是示出训练用数据生成系统的结构的一例的框图。
图2是示出训练用数据生成系统中的数据库的构建过程的流程图。
图3A是示出训练用数据生成系统中的学习模型的构建处理的一例的流程图。
图3B是示出训练用数据生成系统中的学习模型的构建处理的一例的流程图。
图4A是示出被输入了与样本的制作方法相关的信息的、数据库中的样本列表Ls的结构例的图。
图4B是示出被输入了物理性质数据的、数据库中的样本列表Ls的结构例的图。
图4C是示出被输入了分析数据的、数据库中的样本列表Ls的结构例的图。
图4D是示出被输入了特征量的、数据库中的样本列表Ls的结构例的图。
图5是示出特征量选择画面的显示例的图。
图6是示出训练数据表的预览画面显示的例子的图。
具体实施方式
以下,参照附图来对本发明的优选实施方式详细地进行说明。图1是示出本发明的实施方式所涉及的生成训练用数据的系统结构的一例的框图。
图1所示的训练用数据生成系统1具备数据处理装置10,该数据处理装置10执行规定的数据处理来获取基于由根据分析对象(样本)设置的多种分析装置3a…3n获取到的分析数据而生成的特征量,并进行基于该特征量的机器学习来构建学习完毕模型。
数据处理装置10的控制部15由控制装置整体的动作的CPU(Central ProcessingUnit:中央处理单元)构成,用于执行预先存储于ROM(Read Only Memory:只读存储器)等存储器21的规定的数据处理程序等。
《用于将信息保存于数据库的结构》
用户经由数据库操作软件(前端)向数据处理装置10的数据库11输入与样本相关的信息。与样本相关的信息是指用于识别样本的标签(名称、ID、Lot.等)以及与样本的制作方法相关的信息(混合量、混合工艺等)。
在数据库11中,与样本识别标签相关联地保存由分析装置3a…3n获取到的分析数据。既可以通过分析装置3a…3n的测定/解析用软件(未图示)将分析数据从分析装置保存于数据库11,也可以由用户经由数据库操作软件手动输入该分析数据。
在分析装置3a…3n中,分别利用专用的数据解析软件(解析软件)并基于被输入的分析条件来执行样本的分析,获取分析数据。
作为分析装置3a…3n,例如存在液相色谱装置(LC)、气相色谱装置(GC)、气相色谱质谱联用仪(GC-MS)、液相色谱质谱联用仪(LC-MS)、热裂解气相色谱质谱分析装置(Py-GC/MS)、液相色谱光电二极管阵列检测器(LC-PDA)、液相色谱串联质谱分析装置(LC/MS/MS)、气相色谱串联质谱分析装置(GC/MS/MS)、液相色谱离子阱飞行时间式质谱联用仪(LC/MS-IT-TOF)、近红外分光装置、拉伸试验机、压缩试验机、透射电子显微镜(TEM)、扫描电子显微镜(SEM)、核磁共振装置(NMR)、发射光谱分析装置(AES)、原子吸收分析装置(AAS/FL-AAS)、等离子体发射光谱分析装置(ICP-AES)、等离子体质谱分析装置(ICP-MS)、X射线荧光光谱分析装置(XRF)、有机元素分析装置、辉光放电质谱分析装置(GDMS)、粒子组分分析装置、微量总氮自动分析装置(TN)、高灵敏度氮碳分析装置(NC)、傅里叶变换红外分光光度计(FT-IP)、热分析装置等。
在数据库11中,与样本识别标签相关联地保存样本的物理性质数据。既可以利用控制部15直接将物理性质数据从物理性质数据获取装置4a…4n保存于数据库11,也可以由用户经由数据库操作软件输入该物理性质数据。
作为样本的物理性质数据,在样本为轮胎的情况下,例如可举出组分(丰度比、比重、膨胀率)、填料的粒径、填料的平均粒子间距离、介质损耗角正切、耐磨损性、拉伸强度(TB)、断裂伸长(EB)、拉伸应力(Mn)、弹簧硬度(HS)、损耗系数(tanδ)等。并不特别限定于这些,只要是在评价样本时使用的数据即可。在此,损耗系数是指成为能量散失的基准的损耗弹性模量与在系统中按原样储存能量的弹性模量分量之比。
如上所述,在样本为轮胎的情况下,物理性质数据获取装置4a…4n存在拉伸试验机、压缩试验机、粘弹性试验机、磨损试验机等。
数据处理装置10具有特征量提取部13,该特征量提取部13基于保存于数据库11的分析数据来生成特征量。
作为特征量,例如存在由SEM、TEM获取的电子显微镜图像、由GCMS、LCMS获取的色谱、MS谱、由FT-IR、NMR获取的谱等分析数据、或者根据这些分析数据、试验数据计算出的样本的组分、浓度、分子构造、分子数、分子式、分子量、聚合度、粒径、粒子面积、粒子数、粒子的分散度、峰强度、峰面积、峰的斜率、化合物浓度、化合物的物质的量、吸光度、反射率、透射率、样本的试验强度、杨氏模量、拉伸强度、变形量、应变量、断裂时间、平均粒子间距离、介质损耗角正切、伸长、弹簧硬度、损耗系数、玻璃化转变温度、热膨胀率等。
由特征量提取部13生成的特征量与样本识别标签相关联地保存于数据库11。
如上所述,在数据库11内,针对各样本,将与制作方法相关的信息、由多个不同的分析装置3a…3n获取到的分析数据、从该分析数据提取出的多种的特征量的数据、多种物理性质数据相对应地保存。
《用于生成训练数据的结构》
显示数据生成部25根据用户对操作部17进行操作而输入的信息,从数据库11中选择与样本识别标签相关联的特征量等的数据,生成能够在显示部19上显示的规定的显示形式的显示数据。
训练数据生成部27根据用户对操作部17进行操作而输入的信息,根据保存于数据库11的数据生成训练数据。
例如,生成将“分析数据或特征量”的数据作为输入、并将与同该特征量同样的样本识别标签相关联的“物理性质”的数据作为输出的训练数据。同样地,也可以生成将“与样本的制作方法相关的信息(例如混合率)”的数据作为输入、并将“物理性质”或者“分析数据或特征量”的数据作为输出的训练数据。另外,也可以将“物理性质”的数据作为输入,并将“分析数据或特征量”或者“与样本的制作方法相关的信息”的数据作为输出。并且,也可以将“分析数据或特征量”的数据作为输入,并将“与样本的制作方法相关的信息”的数据作为输出。
所生成的训练数据被输入到学习处理部29。也可以每当生成训练数据时将该训练数据保存于数据库11。由此,训练数据被蓄积于数据库11。
训练数据生成部27在将训练数据保存于数据库11之前,使用于确认是否将训练数据保存于数据库的确认画面显示于显示部19。训练数据生成部27基于由用户对该确认画面进行了用于保存训练数据的指示的情况,来将训练数据保存于数据库11。在没有这样的指示的情况下,训练数据生成部27丢弃训练数据。
由此,学习处理部29能够将多个特征量汇总并用于AI(人工智能)解析、统计解析等。
作为学习处理部29的机器学习的方法,没有特别限定,例如使用神经网络(NeuralNetwork:NN)、支持向量机(Support Vector Machine:SVM)等公知的机器学习。
《其它结构》
操作部17例如由键盘、鼠标、触摸面板等构成,用户使用操作部17进行与样本相关的信息的输入、数据的显示、对用于训练数据生成的数据的选择等各种操作。显示部19例如是由液晶显示器等构成的监视器。
上述的控制部15、数据库11、特征量提取部13、显示数据生成部25、训练数据生成部27、学习处理部29等经由数据总线8相互连接。
此外,也可以设为代替操作部17和显示部19而将例如台式的个人计算机(PC)、笔记本型PC、便携终端(平板终端、智能手机)等信息终端与控制部15连接的结构。
接着,作为分析对象的样本以轮胎为具体例、来说明本实施方式所涉及的训练用数据生成系统中的数据库的构建过程、特征量的输出处理过程、学习模型的构建过程等。
首先,参照图2所示的流程图来说明本实施方式所涉及的训练用数据生成系统中的数据库的构建过程。
在图2的步骤S1中,用户经由未图示的数据库操作软件(前端)向数据库11中的样本列表Ls输入作为测定对象样本的轮胎C的样本名“轮胎C”、与轮胎C的制作方法相关的信息(硫磺混合量“0.221”、二氧化硅混合量“0.589”、搅拌时间“10”)。
控制部15根据用户的与新样本相关的信息输入,来赋予作为样本识别标签的样本ID“A03”。
样本列表是指根据项目(project)、样本的种类而创建的汇总的数据集,其结构等没有特别限定。如上所述,被从用户输入了与样本的制作方法相关的信息的、数据库11中的样本列表Ls例如图4A那样构成。此外,图4A示出了样本ID“A01”、“A02”的信息已被登记的例子。
在图2的步骤S3中,用户经由未图示的数据库操作软件(前端)将轮胎C的物理性质数据与样本ID“A03”相关联地输入到数据库11。在此,基于由试验机测定的数据,输入拉伸强度(TB)“18.5”、断裂伸长(EB)“502”。并且,输入通过计算求出的高温状态下的损耗系数(tanδ高温)“0.245”、低温状态下的损耗系数(tanδ低温)“0.812”。
被输入了这些物理性质数据的、数据库11中的样本列表Ls如图4B那样构成。此外,物理性质数据的输入定时不限定于步骤S3的定时,也可以在其它定时输入。
另外,在此说明了用户经由数据库操作软件输入物理性质数据的例子,但不限于此。也可以利用控制部15直接将物理性质数据从物理性质数据获取装置4a…4n保存于数据库11。
在图2的步骤S5中,为了例如在热裂解气相色谱质谱分析装置(Py-GC/MS)、核磁共振装置(NMR)、扫描电子显微镜(SEM)、透射电子显微镜(TEM)这四种分析装置处利用解析软件对轮胎C进行分析从而获取分析数据,用户将作为测定对象样本的轮胎C的切片设置于Py-GC/MS、NMR、SEM、TEM,并且开始分析。此外,该分析所涉及的条件设定、操作既可以经由分析装置3a…3n的测定/解析用软件(未图示)来进行,也可以经由控制部15来进行。
在步骤S11中,接受到分析开始的指示的解析软件基于被输入的分析条件,分别使用Py-GC/MS、NMR、SEM、TEM对轮胎C进行分析。在Py-GC/MS中,在使用热裂解装置将轮胎切片裂解为微小粒子后,使用气相色谱装置(GC)所具备的柱进行分离,并使用质谱分析装置(MS)对分离出的成分进行检测,由此,获取质谱或总离子色谱(TIC)的波形数据。另外,在NMR中,通过对样本照射与共振频率相同频率的无线电波,从而获取NMR谱。
SEM利用聚焦透镜和物镜将由电子源产生并被电子枪加速后的电子束作为电子点聚焦到试样上,利用扫描线圈使作为探针(probe)的电子点在试样上移动来进行电子束扫描,利用检测器检测从试样的电子束照射点产生的信号电子,并将信号电子的量显示为各点的明亮度,由此获取SEM图像。
并且,SEM也能够通过入射电子束来检测从样本发出的X射线,从而获取X射线的能谱。
TEM通过对样本照射电子束,来检测透射了的电子束,并基于该电子束的强度来获取样本内的电子透射率的空间分布(TEM图像)。
在此,由Py-GC/MS获取的总离子色谱、由NMR获取的NMR谱、由SEM获取的能谱也可以以将各波形数据中强度最高的成分作为基峰并使相对强度成为100%的方式进行标准化。
由各分析装置获取到的分析数据文件与样本ID相关联地保存于数据库11。被输入了分析数据的、数据库11中的样本列表Ls如图4C那样构成。
此外,上述对进行测定的例子进行了说明,但不限于此。在步骤S11中,也可以从数据库11或者分析装置导入已经测定出的数据。
在步骤S13中,特征量提取部13从数据库11调出分析数据来提取特征量,并将该特征量保存于数据库11。
例如,针对轮胎C,解析由Py-GC/MS获取到的总离子色谱,来计算作为特征量的与规定的质量数对应的峰的面积值。另外,解析由NMR获取到的NMR谱,来计算作为特征量的天然橡胶(NR)、丁二烯橡胶(SBR+BR)、这些橡胶的几何异构体(Cis、Trans)的丰度比。
此外,在图1所示的例子中,特征量提取部13被包括于数据处理装置10,但不限于此。也可以是,各分析装置3a…3n具有特征量提取部。在该情况下,例如分析装置3a…3n的测定/解析用软件(未图示)作为特征量提取部发挥功能。
另外,在步骤S13中,解析由SEM获取到的SEM图像,来计算作为特征量的、存在于轮胎中的填料粒子的粒径和平均粒径。并且,解析由TEM获取到的TEM图像,来计算存在于轮胎中的填料粒子的粒径。
在此,基于利用NMR对作为测定对象的各轮胎进行分析而得到的NMR谱的波形数据以及存储于未图示的存储部的校准曲线数据来计算轮胎中所含有的各橡胶的丰度比。
校准曲线数据是表示定量值与丰度比的关系的关系式,该定量值是根据使用NMR对包括已知浓度的对象成分的试样进行分析而得到的NMR谱来计算的。
在本实施方式中,在开始分析前准备丰度比已知的包括天然橡胶(NR)、丁二烯橡胶(SBR+BR)、这些橡胶的几何异构体(Cis、Trans)在内的样本,计算根据使用NMR对这些试样进行分析而得到的谱计算出的定量值(峰的面积值或强度值),生成表示各橡胶的丰度比与定量值的关系的校准曲线数据,并将该校准曲线数据存储于未图示的存储部。
被输入了这样的特征量的、数据库11中的样本列表Ls例如图4D那样构成。
在步骤S15中,判断是否获取到上述的总离子色谱、NMR谱、SEM图像、TEM图像,而且判断作为特征量的各橡胶的丰度比、与各质量数对应的峰的面积值、根据SEM图像获取的粒径、平均粒子间距离、根据TEM图像获取的粒径的计算是否结束。
在上述的实施方式中,说明了针对一个样本(轮胎C)保存数据的例子,但不限于此。也可以针对多个样本获取分析数据、物理性质数据。
图3A和图3B是示出本实施方式所涉及的训练用数据生成系统中的训练数据表Tt的创建以及学习模型的构建处理的一例的流程图。
在图1所示的训练用数据生成系统1的显示部19中显示训练数据表Tt的创建所涉及的用户界面(UI)画面、处理结果等。训练用数据生成系统1的用户在指示开始创建训练数据表Tt的情况下,在图3A的步骤S20中对操作部17进行操作来选择(点击)显示部19上的UI画面中显示的期望的训练用数据生成应用程序的开始指示图标。
接受到上述的开始指示的控制部15在图3A的步骤S21中显示样本选择画面。样本选择画面是供用户选择用于创建训练数据的样本的画面。
样本选择画面也可以由如下的列表构成,该列表针对保存于数据库11的全部样本而包括样本名以及与样本的制作方法相关的信息等。
或者,也可以将保存于数据库11的多个样本列表的名称显示于样本选择画面。在该情况下,也可以构成为若选择了一个样本列表(例如Ls),则选择该样本列表所包含的全部样本(轮胎A、轮胎B、轮胎C)。
并且,在样本选择画面上例如显示与各个样本或样本列表对应的选择用图标。用户能够通过经由操作部17勾选该选择用图标,来选择任意的样本。
控制部15在步骤S22中判断用户对样本的选择是否完成。在样本选择完成的情况下,控制部15在步骤S23中提取所选择的行来生成选择样本提取表Ts。选择样本提取表Ts也可以构成为显示于显示部19以确认选择结果。
作为例子,说明用户选择了样本列表Ls(即,轮胎A~轮胎C)的情况。在该情况下,在选择样本提取表Ts中保存样本ID“A01”、“A02”、“A03”。
当上述的样本选择结束时,控制部15在步骤S24中显示说明变量选择画面和目标变量选择画面。说明变量选择画面和目标变量选择画面分别是供用户选择在训练数据的输入和输出中使用的数据的分类的画面。
此外,也可以按照作为监督学习的说明变量而使用的类别和作为监督学习的目标变量而使用的类别的每个集合准备训练用数据生成应用程序。在该情况下,仅通过选择训练用数据生成应用程序的操作,从而完成在训练数据的输入和输出中使用的数据的分类的选择。
在此,说明选择了如下的训练数据生成用的应用程序的例子,该应用程序将特征量的数据(权利要求书中的类别(2))“天然橡胶(NR)的丰度比”、“丁二烯橡胶(SBR+BR)的丰度比”、“几何异构体(Cis)的丰度比”、“几何异构体(Trans)的丰度比”作为输入、并将物理性质数据(权利要求书中的类别(3))“拉伸强度(TB)”作为输出。
首先,在说明变量选择画面(参照图5)中,用户对操作部17进行操作,来从显示于显示部19的特征量列表中选择多个特征量的数据分类(步骤S25)。在说明变量选择画面中,特征量列表Lc显示于左列。特征量列表Lc是从保存于数据库11的全部数据中的限定为仅是选择样本提取表Ts的样本的数据中、除去特征量的种类的重复而生成的。
另外,在说明变量选择画面中显示与特征量的种类对应的选择用图标。用户能够通过经由操作部17勾选该选择用图标,来选择特征量列表Lc的任意的特征量。
在本实施方式中,如图5所示,在特征量列表Lc中,作为特征量的种类,包含与特定的质量数对应的峰的面积值、天然橡胶(NR)的丰度比、丁二烯橡胶(SBR+BR)的丰度比、这些橡胶的几何异构体(Cis、Trans)的丰度比、根据SEM图像获取到的填料的粒径和平均粒子间距离、根据TEM图像获取的填料的粒径,这些特征量的种类被显示于特征量选择画面。
在图5所示的例子中,用户通过操作部17在特征量选择画面中选择了作为特征量的种类的“天然橡胶(NR)的丰度比”、“丁二烯橡胶(SBR+BR)的丰度比”、“几何异构体(Cis)的丰度比”、“几何异构体(Trans)的丰度比”,因此在复选栏中输入了复选标记(√)。这样,选择出的特征量的数据分类被保存于选择说明变量表Tc。
在接下来的步骤S26中,用户从目标变量选择画面(未图示)选择一个或多个目标变量(物理性质)。在目标变量选择画面中,作为物理性质数据,例如显示耐磨损性、拉伸强度(TB)、断裂伸长(EB)、拉伸应力(Mn)、弹簧硬度(Hs)、损耗系数(tanδ)等。
在此,与物理性质的种类(物理性质列表)对应的选择用图标被显示于目标变量选择画面。因此,用户能够通过经由操作部17勾选该选择用图标来选择任意的物理性质。这样,选择出的物理性质数据分类被保存于选择目标变量表Tx。
控制部15在步骤S27中判断用户对说明变量(特征量的数据分类)和目标变量(物理性质的数据分类)的选择是否完成。在选择完成的情况下,控制部15在步骤S28中从数据库11提取与选择样本提取表Ts、选择说明变量表Tc及选择目标变量表Tx一致的记录,来生成训练数据表Tt。然后,在步骤S29中,将训练数据表Tt显示于预览画面。
如图6所示,在预览画面中,在显示部19上沿垂直方向(行方向)显示在上述的步骤S21、S23等中选择出的样本名(轮胎A~轮胎C),在画面的上段部沿水平方向(列方向)显示在上述的步骤S24~S27等中选择出的说明变量(特征量的数据分类)以及目标变量(物理性质的数据分类)。
控制部15在步骤S31中判断有无用户的追加/修正请求,以使看到预览画面的用户能够进行样本、数据分类的追加或修正。
例如,在图6的例子中,已知轮胎B的拉伸强度(TB)的信息未被保存于数据库11。因此,认为用户要输入轮胎B的拉伸强度(TB)的数据或者要进行将轮胎B从选择样本表中排除等修正。
如上所述,若存在追加/修正请求,则在步骤S33中执行用于追加/修正的处理。控制部15根据修正内容,对选择样本提取表Ts、选择说明变量表Tc或选择目标变量表Tx执行信息追加、删除。这样,用户能够进行用于后述的机器学习的数据的筛选。
控制部15在步骤S35中等待来自用户的训练数据表Tt的创建指示。例如,当经由操作部17选择(点击)显示于UI画面的表创建指示用的图标时,转移到步骤S37的处理。
在步骤S37中,再次从数据库11中提取与选择样本提取表Ts、选择说明变量表Tc及选择目标变量表Tx一致的记录来生成训练数据表Tt。然后,在步骤S39中,显示数据生成部25将训练数据表Tt以表显示形式显示在显示部19上。
控制部15在图3B的步骤S41中判断是否存在由用户进行的上述的显示数据的输出形式的变更选择。输出形式的变更是指将在步骤S39中显示的各样本的特征量变更为例如CSV(Comma-Separated Values:逗号分隔值)形式、或者能够由其它AI软件、统计解析软件等关联软件显示的形式。
具体而言,在用户通过操作部17选择(点击)了显示于UI画面的输出形式的变更指示图标的情况下,控制部15在步骤S43中将变更了输出形式的数据保存于数据库11内,或者将变更了输出形式的数据经由未图示的接口例如LAN、WAN等输出到外部装置和外部的软件。
此外,在本实施方式中,选择作为根据由NMR获取到的NMR谱而生成的特征量的、天然橡胶(NR)的丰度比、丁二烯橡胶(SBR+BR)的丰度比、这些橡胶的几何异构体(Cis、Trans)的丰度比来创建训练数据表Tt,但也可以将作为分析数据的NMR谱、总离子色谱、由SEM获取的SEM图像、由TEM获取的TEM图像作为选择对象显示于特征量选择画面。
接着,在图3B的步骤S53中,通过训练数据生成部27基于由显示数据生成部25生成的训练数据表Tt来生成训练数据。训练数据生成部27生成如下的训练数据,该训练数据将由用户选择为说明变量的天然橡胶(NR)的丰度比、丁二烯橡胶(SBR+BR)的丰度比、这些橡胶的几何异构体(Cis、Trans)的丰度比作为输入、并将由用户选择为目标变量的拉伸强度(TB)作为输出。
在步骤S55中,学习处理部29将在步骤S53中生成的训练数据应用于学习模型来执行机器学习或统计解析。以下,作为学习方法的一例,说明使用支持向量机(SVM)的情况。
在接下来的步骤S57中,学习处理部29对通过将训练数据所包含的作为特征量的如下数据输入到SVM来从该SVM获得的轮胎的拉伸强度(TB)与训练数据中所包含的作为训练数据的拉伸强度(TB)进行比较,作为特征量的上述数据是天然橡胶(NR)的丰度比、丁二烯橡胶(SBR+BR)的丰度比、这些橡胶的几何异构体(Cis、Trans)的丰度比。
然后,学习处理部29以使从SVM输出的拉伸强度(TB)接近作为训练数据的拉伸强度(TB)的方式更新当前的SVM内的各种参数,来创建学习完毕模型。
此外,在断裂伸长(EB)、拉伸应力(Mn)、弹簧硬度(HS)、高温状态下的损耗系数(tanδ高温)、低温状态下的损耗系数(tanδ低温)等被用户选择为输出数据的情况下也是,学习处理部29进行与上述的拉伸强度(TB)的处理同样的处理,来创建针对各个数据的学习完毕模型。
在步骤S59中,判断训练数据的条件是否存在变更。如果存在变更,则反复进行步骤S55、S57的处理。通过这样反复进行机器学习,来提高学习的精度。
数据库11包含用于识别这样的学习模型的识别信息、学习模型的创建日期时间信息、用于识别作为学习模型的生成源的训练数据的识别信息、以及规定学习模型的识别对象的识别对象信息(未图示)等。
此外,也可以将上述的特征量的种类的选择设为基于计算机的自动选择,在学习完毕模型的生成工序中,基于学习的集中度动态地变更该自动选择。
如以上说明的那样,根据本实施方式所涉及的训练用数据生成系统(分析数据管理系统),能够在单一软件上横向解析由多个分析装置得到的多个样本的分析数据,汇总地获取每个样本的特征量来进行管理。同时,由于能够仅选择机器学习所需的训练数据来进行机器学习,因此能够大幅缩短机器学习所需的时间、工夫,能够大幅缩短通过改变训练数据的条件来生成多个学习机器所需的时间、工夫。
另外,在训练用数据生成系统中,能够在单一软件上按每个样本汇总与多个特征量的种类对应的特征量,能够大幅减少将这些特征量作为训练数据的机器学习、统计解析所需的劳力和时间。
<变形例>
在上述的实施方式所涉及的训练用数据生成系统中,设为通过分析装置3a…3n的测定/解析用软件(未图示)将分析数据从分析装置保存于数据库11的结构,但并不限定于此。例如,也可以不经由测定/解析用软件(未图示)而是利用控制部15直接将分析数据从分析装置保存于数据库11。
在上述的实施方式所涉及的训练用数据生成系统中,设为通过数据处理装置10中的特征量提取部13基于保存于数据库11的分析数据来生成特征量的结构,但并不限定于此。例如,也可以由用户向数据处理装置10输入特征量。或者,也可以使数据处理装置10读入由其它软件(分析装置3a…3n的测定/解析用软件等)生成的特征量。
在上述的实施方式所涉及的训练用数据生成系统中,设为用户能够经由UI画面进行样本的选择和特征量的种类的选择的结构,但并不限定于此。例如,也可以是,除了能够选择样本、特征量的种类的结构之外,还构成为能够选择与样本的数据解析关联的多种分析装置。
另外,设为在图3A所示的处理中由用户选择样本和说明变量及目标变量的数据分类的结构,但并不限定于此。例如,也可以使用户在显示由数据库11所包含的全部数据构成的特征量列表Lc的特征量选择画面上选择特征量的种类,将特征量的种类保存于特征量提取表,并从该特征量提取表提取与选择样本提取表Ts、选择说明变量表Tc、选择目标变量表Tx一致的记录,从而生成对应的样本以及训练数据表Tt。
另外,预先创建期望的数据的分类的组合集合也是有用的。在图3A所示的处理中,在步骤S21~23中结束样本选择之后,显示用于选择该集合的画面。然后,从期望的集合所包含的数据的分类中选择在训练数据的输入和输出中使用的数据的分类。通过这样构成,即使在存在庞大数量的数据的分类的情况下,也能够容易地生成训练用数据。
并且,例如也可以使用户仅选择样本,并以表形式显示选择出的样本以及与其对应的全部数据。
另一方面,在上述实施方式中,以二维的表形式显示了样本ID以及与其相关联的数据,但显示形式并不限定于此,也可以设为三维显示。
例如,也可以将由用户选择出的多个特征量的种类中的一个种类分配给x轴,将另一种类分配给y轴,将又一种类分配给z轴,并且在由x、y、z轴形成的三维空间内,分别沿x轴方向、y轴方向、z轴方向根据各特征量来配置用户选择出的样本。
由此,能够在三维空间内按每个样本进行一点的绘制,能够在视觉上识别多个样本彼此中的特征量的种类与特征量的关系的同时更迅速且容易地掌握该关系。
附图标记说明
1:训练用数据生成系统;3a…3n:分析装置;4a…4n:物理性质数据获取装置;8:数据总线;10:数据处理装置;11:数据库;13:特征量提取部;15:控制部;17:操作部;19:显示部;21:存储器;25:显示数据生成部;27:训练数据生成部;29:学习处理部。
Claims (7)
1.一种分析数据管理系统的训练用数据生成方法,所述训练用数据生成方法包括:
构建数据库的工序,所述数据库针对一种或多种样本的各样本将样本识别标签与属于后述类别(1)、类别(2)及类别(3)中的至少两种类别的数据相关联地保存,其中,类别(1)是与所述样本的制作方法相关的多种数据,类别(2)是作为由一种或多种分析装置对所述样本进行分析得到的结果的多种分析数据,类别(3)是作为表示所述样本的特性的信息的多种物理性质数据;
选择工序,从所述数据库中选择用作监督学习中的训练数据的数据,该选择工序包括从所述类别的一个类别中选择一个或多个数据的分类作为说明变量的工序、以及从所述类别的其它类别中选择一个或多个数据的分类作为目标变量的工序;以及
生成训练数据的工序,所述训练数据将与选择出的所述说明变量对应的数据作为输入、并将与选择出的所述目标变量对应的数据作为正解输出。
2.根据权利要求1所述的训练用数据生成方法,其中,
所述类别(2)包含从所述分析数据中提取出的一种或多种特征量数据。
3.根据权利要求1所述的训练用数据生成方法,其中,
还包括以下工序:通过基于所生成的所述训练数据进行规定的机器学习或统计解析来生成与所述训练数据对应的学习完毕模型。
4.根据权利要求1所述的训练用数据生成方法,其中,
还包括以下工序:以逗号分隔值即CSV形式输出所述训练数据。
5.根据权利要求2所述的训练用数据生成方法,其中,
所述分析装置至少包括气相色谱质谱联用仪、液相色谱质谱联用仪、傅里叶变换红外分光光度计以及拉伸试验机中的两种装置,
所述特征量数据包含色谱的峰面积、谱的峰面积、杨氏模量、拉伸强度、变形量、应变量以及断裂时间中的至少两种数据。
6.根据权利要求3所述的训练用数据生成方法,其中,
所述机器学习的算法是支持向量机即SVM。
7.一种训练用数据生成系统,具备:
输入部;
存储部,其存储数据库,所述数据库针对一种或多种样本的各样本将由所述输入部输入的样本识别标签与属于后述类别(1)、类别(2)及类别(3)中的至少两种类别的数据相关联地保存,其中,类别(1)是与所述样本的制作方法相关的多种数据,类别(2)是作为由一种或多种分析装置对所述样本进行分析得到的结果的多种分析数据,类别(3)是作为表示所述样本的特性的信息的多种物理性质数据;
操作部,其受理从所述数据库中对用作监督学习中的训练数据的数据的选择,该操作部受理从所述类别的一个类别中选择一个或多个数据的分类作为说明变量的操作,并且受理从所述类别的其它类别中选择一个或多个数据的分类作为目标变量的操作;以及
训练数据生成部,其生成将与选择出的所述说明变量对应的数据作为输入、并将与选择出的所述目标变量对应的数据作为正解输出的训练数据。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020088916 | 2020-05-21 | ||
JP2020-088916 | 2020-05-21 | ||
PCT/JP2021/013665 WO2021235111A1 (ja) | 2020-05-21 | 2021-03-30 | 分析データ管理システムにおける教師用データ生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115668236A true CN115668236A (zh) | 2023-01-31 |
Family
ID=78708446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180036156.3A Pending CN115668236A (zh) | 2020-05-21 | 2021-03-30 | 分析数据管理系统的训练用数据生成方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230186158A1 (zh) |
JP (1) | JP7419520B2 (zh) |
CN (1) | CN115668236A (zh) |
DE (1) | DE112021002401T5 (zh) |
WO (1) | WO2021235111A1 (zh) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7884318B2 (en) * | 2008-01-16 | 2011-02-08 | Metabolon, Inc. | Systems, methods, and computer-readable medium for determining composition of chemical constituents in a complex mixture |
JP6506201B2 (ja) * | 2016-03-22 | 2019-04-24 | 株式会社日立製作所 | 目的変数に対応する説明変数群を決定するシステム及び方法 |
WO2017203601A1 (ja) | 2016-05-24 | 2017-11-30 | 三井情報株式会社 | 情報処理装置、情報処理方法、情報処理システム及びプログラム |
-
2021
- 2021-03-30 US US17/926,450 patent/US20230186158A1/en active Pending
- 2021-03-30 DE DE112021002401.9T patent/DE112021002401T5/de active Pending
- 2021-03-30 WO PCT/JP2021/013665 patent/WO2021235111A1/ja active Application Filing
- 2021-03-30 JP JP2022524312A patent/JP7419520B2/ja active Active
- 2021-03-30 CN CN202180036156.3A patent/CN115668236A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230186158A1 (en) | 2023-06-15 |
JP7419520B2 (ja) | 2024-01-22 |
DE112021002401T5 (de) | 2023-02-23 |
JPWO2021235111A1 (zh) | 2021-11-25 |
WO2021235111A1 (ja) | 2021-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10107788B2 (en) | Multi-sensor analysis of complex geologic materials | |
US20130124108A1 (en) | System and method for determining the isotopic anatomy of organic and volatile molecules | |
Chiu et al. | Cosmological constraints from galaxy clusters and groups in the eROSITA final equatorial depth survey | |
CN106415558A (zh) | 数据处理装置和用于质谱法数据的评估的方法 | |
CN110214271B (zh) | 分析数据解析方法以及分析数据解析装置 | |
CN108062394A (zh) | 一种数据集的标注方法及相关装置 | |
CN103563044B (zh) | 使用tof‑msms数据的可变xic宽度确定srm分析中的背景干扰 | |
CN103959426A (zh) | 用于通过质谱术识别微生物的方法 | |
JP6355137B2 (ja) | 信号分析装置、信号分析方法及びコンピュータプログラム | |
CN107210181B (zh) | 在触发碎裂能量的同时迅速扫描宽四极rf窗 | |
CN115668236A (zh) | 分析数据管理系统的训练用数据生成方法 | |
US20190056361A1 (en) | Analysis information management system | |
US20230033480A1 (en) | Data processing apparatus and inference method | |
JP2018504709A (ja) | 自動定量的回帰 | |
CN117332240A (zh) | 岩爆预测模型构建方法、存储介质、岩爆预测方法及系统 | |
CN111721829A (zh) | 基于便携式质谱仪的检测方法 | |
CN114239627A (zh) | 质控品导入方法、装置、设备及计算机可读存储介质 | |
JP6295910B2 (ja) | 質量分析データ処理装置 | |
CN113588597A (zh) | 一种提升炉渣分析精度的方法 | |
JP7377970B2 (ja) | 複合計測統合ビューアおよびプログラム | |
US10274440B2 (en) | Method to facilitate investigation of chemical constituents in chemical analysis data | |
CN104798174A (zh) | 使用多个光谱以不同碰撞能量进行化合物识别 | |
US20230195279A1 (en) | Viewer for analysis, display system, display method, and display program | |
WO2019150574A1 (ja) | イメージング質量分析装置 | |
JP2023008857A (ja) | データ処理装置および推論方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |