CN114548417A

CN114548417A - 基于数据校正的机器学习模型训练方法及系统

Info

Publication number: CN114548417A
Application number: CN202011357745.5A
Authority: CN
Inventors: 温晓东; 刘晓彤; 张天釜; 郭文平; 周余伟
Original assignee: Shanxi Institute of Coal Chemistry of CAS
Current assignee: Shanxi Institute of Coal Chemistry of CAS
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2022-05-27

Abstract

本发明提出一种基于数据校正的机器学习模型训练方法及系统，包括：步骤1、对将各计算数据集和测量数据集划分为训练集、验证集和测试集，分别将训练集和验证集作为第一集合和第二集合；步骤2、使用第一集合训练指定机器学习模型对目标进行测量，并通过第二集合检测机器学习模型的训练效果，以停止训练并得到中间模型；步骤3、使用中间模型对目标进行测量，得到中间结果，使用中间结果对训练集进行数据校正作为第一集合，再次执行步骤2，直到中间模型的误差收敛或达到预设误差范围，停止训练，保存当前中间模型作为最终测试模型。

Description

基于数据校正的机器学习模型训练方法及系统

技术领域

本发明涉及量子化学领域和机器学习中的模型训练领域，并特别涉及一种基于数据校正的机器学习模型训练方法及系统。

背景技术

机器学习任务一般可分为两大类：分类与回归。本发明申请主要讨论回归问题。回归一般是指对某一函数已知数据进行拟合，进而预测某些数据。简单举例已知点(1，1)(2，2)(3，3)(4，4)使用y＝x进行拟合后，当遇到新的自变量5时，会给出相应的回归值5。这一技术在各种科研领域广泛使用。

目前常用的训练模型方法是将所有数据分为3个集合：训练集(training)、验证集(validation)和测试集(test)。使用训练集训练得到机器学习模型，使用验证集来判断机器学习模型的训练效果，决定何时停止训练，使用测试集最终评价机器学习模型的效果。整个训练过程中，测试集不能干扰训练。

在量子化学及其他相关领域，针对同一实验输入，会有多种不同的理论计算方法，他们有着不同的精度，即存在不同的系统误差。这里系统误差指理论计算的值与实际实验结果的差对于某类材料整体偏大或偏小。

针对已有专利，本发明得不同主要有：

CN104915411A是一个数据采集的系统，与本发明的模型训练属于不同类别，其内容中提到的校准是对采集到数据的校准，而不是对训练好模型的校准，目的不是为了进一步提高训练的模型性能，而是采集更精确的数据。

CN105868540B是对一种属性的预测，采用的模型是支持向量机。该发明属于机器学习中很常规的一类应用。本发明所说的方法实际上可以针对的属性也包括它提及的毒性，但它并没有用到本发明的关键点，使用初步训练好的模型对原始数据进行校正，之后再训练模型。

一个可能的原因是他的数据不存在不同精度的问题。本发明针对的是存在不同精度的多个数据集。低精度数据多，高精度数据少。我们用高精度初步训练的模型去校正低精度，让整体数据精度高的数据变多，帮助训练。

CN106951611B使用聚类方法进行优化。聚类算法本身属于一种无监督学习算法，而本发明针对的内容属于监督学习的范畴。无监督学习因为不涉及最终样本数据的标注，所以不存在数据精度和正确性的问题，这正是本发明要解决的问题。

CN107330254B发明与CN105868540B相类似，也是一种针对某一属性的预测方法。但同样，它并没有将本方法提及的数据校正纳入其中。详细差别会在下面发明目的的流程图部分加以介绍。简言之，我们相信本方法的提出可以让与这两种发明类似的一系列发明获得进一步的提高。

发明内容

针对现有技术的不足，本发明提出一种训练模型的方法，可以针对含有误差的多个训练集，进一步提高训练精度。具体来说本发明提出了一种基于数据校正的机器学习模型训练方法，其中包括：

步骤1、对目标进行测量，得到该目标属性的测量数据集，并依次使用多个模拟计算方法生成该目标属性的计算结果，集合每个模拟计算方法对应的计算结果，得到各模拟计算方法的计算数据集，并将各计算数据集和该测量数据集划分为训练集、验证集和测试集，分别将该训练集和验证集作为第一集合和第二集合；

步骤2、使用该第一集合训练指定机器学习模型对该目标进行测量，并通过该第二集合检测机器学习模型的训练效果，以停止训练并得到中间模型；

步骤3、使用该中间模型对该目标进行测量，得到中间结果，使用该中间结果对该训练集进行数据校正，并将校准后的训练集作为该第一集合，再次执行该步骤2，直到该中间模型的误差收敛或达到预设误差范围，停止训练，保存当前中间模型作为最终测试模型。

所述的基于数据校正的机器学习模型训练方法，其中该数据校正包括：使用该中间结果和训练集中所有数据的平均值作为新目标值更训练集；或使用该中间结果和训练集中部分数据的平均值作为新目标值更训练集；或将训练集中误差超过指定范围的数值直接用中间结果进行替换；或训练集中数据加上该中间模型的误差的平均值。

所述的基于数据校正的机器学习模型训练方法，其中该计算结果为目标物质的自由能或光学折射率或屈服强度或介电常数或禁带宽度。

所述的基于数据校正的机器学习模型训练方法，步骤2中训练采用对指定损失函数的常规梯度下降法，且步骤2包括使用测试集评价得到该中间模型的误差。

所述的基于数据校正的机器学习模型训练方法，该误差为数据集整体平均误差MAE或均方误差MSE。

本发明还提出了一种基于数据校正的机器学习模型训练系统，其中包括：

准备模块，用于对目标进行测量，得到该目标属性的测量数据集，并依次使用多个模拟计算方法生成该目标属性的计算结果，集合每个模拟计算方法对应的计算结果，得到各模拟计算方法的计算数据集，并将各计算数据集和该测量数据集划分为训练集、验证集和测试集，分别将该训练集和验证集作为第一集合和第二集合；

训练模块，用于使用该第一集合训练指定机器学习模型对该目标进行测量，并通过该第二集合检测机器学习模型的训练效果，以停止训练并得到中间模型，使用测试集评价该中间模型的误差；

校正模块，用于使用该中间模型对该目标进行测量，得到中间结果，使用该中间结果对该训练集进行数据校正，并将校准后的训练集作为该第一集合，再次调用该训练模块，直到该中间模型的误差收敛或达到预设误差范围，停止训练，保存当前中间模型作为最终测试模型。

所述的基于数据校正的机器学习模型训练系统，其中该数据校正包括：使用该中间结果和训练集中所有数据的平均值作为新目标值更训练集；或使用该中间结果和训练集中部分数据的平均值作为新目标值更训练集；或将训练集中误差超过指定范围的数值直接用中间结果进行替换；或训练集中数据加上该中间模型的误差的平均值。

所述的基于数据校正的机器学习模型训练系统，其中该计算结果为目标物质的自由能或光学折射率或屈服强度或介电常数或禁带宽度，且该训练模块包括使用测试集评价得到该中间模型的误差。

所述的基于数据校正的机器学习模型训练系统，训练模块中训练采用对指定损失函数的常规梯度下降法。

所述的基于数据校正的机器学习模型训练系统，该误差为数据集整体平均误差MAE或均方误差MSE。

由以上方案可知，本发明的优点在于通过对训练集不断校正，以提高最终模型精度。

附图说明

图1为本发明训练模型方法构思框架图；

图2为材料领域禁带宽度数据介绍图；

图3为现有方法的训练结果图；

图4为现有方法的训练结果的误差图；

图5a到d为#4号方法训练得到的模型分别对P、H、S、G数据集进行推理的结果图。

具体实施方式

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

假设有四种方法计算的某属性四个数据集A、B、C、D，对应误差分别为a<b<c<d，此处误差可指的是数据集整体平均误差MAEmeanabsoluteerror，同一个样本用不同计算方法计算的结果与实验值的误差，此处不采用精确测量的而采用模拟计算的原因是很多材料合成成本极高，并且测量由于难度大，因此得到的测量值数据量不足难以支撑训练模型，在实际应用中需要用计算方法模拟计算目标材料的属性，并将测量得到的数据和模拟得到数据混合一起作为训练数据，并且通过实际测量的精确值也可以得到各模拟计算方法的误差，目标材料的属性包括材料的自由能、光学(折射率等)、力学(屈服强度等)、电学(介电常数等)、磁通量等。如果只是将其简单混合作为训练集来训练模型，那么最终训练出的模型必定将系统误差也学习了进去，即训练集数据本身存在误差，导致预测结果较差。而对于系统误差，我们又很难提前评价，因为即使相同方法，对于不同类别的材料误差也有所不同。而且更关键的，往往没有那么多实验数据加以印证。一般来说，对于误差与数据量的关系，往往是误差越小的，单个实例需要计算的越久，总的数据越少。而实验数据因为首先需要合成材料，然后检验合成的纯度，然后再测试，往往比理论计算的数据还要少。这里面很容易想到的方法首先是给不同数据不同的误差权重，但这样的话必须人为提前指定权重，或者反复更改权重测试，耗时费力。

针对以上问题，本发明设计了一种训练模型的方法，可以针对含有误差的多个训练集，进一步提高训练精度。具体流程如图1所示。图中虚线框部分为传统的机器学习方法流程，可以初步理解为“一次通过”。本方法针对数据精度存在差别的情况加入了数据的清洗、修正，使得整个流程可以循环进行直至模型性能收敛，这就是与前文所述CN107330254B、CN105868540B类发明不同的地方，也是之所以说本方法可以对其进行进一步提升的原因。

简单总结我们的具体做法：与传统方法类似，我们先训练模型M1。训练M1的过程可以将各数据集分开一次训练，或整体训练逐步去除低精度数据集。由于M1的训练我们本身就是以最小化实验数据误差为目标的。那么之后我们使用M1对所有之前使用的理论数据集进行校准，根据得到的误差分布，采用不同方式对原计算数据集加以修正。之后使用修正后的数据集再次进行训练(可以在M1基础上继续训练，也可以从头开始训练)得到M2。我们可以根据具体需求判断是否有必要按照上述方法继续训练M3、M4直道精度满足要求。实践证明这种训练方式是真的有意义的。

以一个例子说明本申请的具体做法及结果。在对基于传统量化计算方法得到的禁带宽度数据以及实验得到的禁带宽度数据。进行材料领域禁带宽度预测的过程中，我们有五个数据集，分别来自于5种计算方法，分别是：PBE、HSE、GLLB、SCAN和EXP对应的数据如图2所示。首先使用几种常规的现有方法对其进行针对某一损失函数的常规梯度下降法，其中阶段即为梯度下降法训练中的多个训练阶段，其结果如图3所示，将E数据集等比例分为E1和E2两部分，E1用于训练和验证，E2用于测试，对应的与测试集进行测试后得出的训练误差如图4所示。

可以看到#4号方法得到的误差最低，随后我们使用#4号方法训练得到的模型分别对P、H、S、G数据集进行推理，发现在这些数据集上的误差如图5所示。

随后将原始数据集的目标值(例如原始数据是由一种材料的结构及对应的属性值组成，对应的属性值即为目标值)与模型的预测值取平均进行修正，例如数据集目标值1，训练的模型根据结构输入得到的推理值是2，那么我们就把平均值1.5当作新的目标值赋值给数据集，之后在原有模型的基础上继续训练，误差值从0.5153进一步降低至0.5049。上面是众多数据修正的方法之一，确实已经进一步将误差精度缩小。除了上述方法之外，我们还测试了其他的方法，包括：

1.数据处理方式为所有原始数据与对应的预测数据取平均当作该条数据的目标值。

2.数据处理方式为不为零原始数据与对应的预测数据取平均当作该条数据的目标值。

3.数据处理方式为所有数据加上预测误差(绝对误差)的平均值，即朴素的认为误差平均值即为系统误差。

4.数据处理方式为所有非零数据加上预测误差(绝对误差)的平均值，即认为系统误差只对非零数据有效。

5.数据处理方式为所有数据加上预测误差(百分比)的平均值，即朴素的认为误差平均值即为系统误差。

以下为与上述方法实施例对应的系统实施例，本实施系统可与上述实施方式互相配合实施。上述施方式中提到的相关技术细节在本实施系统中依然有效，为了减少重复，这里不再赘述。相应地，本实施系统中提到的相关技术细节也可应用在上述实施方式中。

Claims

1.一种基于数据校正的机器学习模型训练方法，其特征在于，包括：

2.如权利要求1所述的基于数据校正的机器学习模型训练方法，其特征在于，该数据校正包括：使用该中间结果和训练集中所有数据的平均值作为新目标值更训练集；或使用该中间结果和训练集中部分数据的平均值作为新目标值更训练集；或将训练集中误差超过指定范围的数值直接用中间结果进行替换；或训练集中数据加上该中间模型的误差的平均值。

3.如权利要求1所述的基于数据校正的机器学习模型训练方法，其特征在于，该计算结果为目标物质的自由能或光学折射率或屈服强度或介电常数或禁带宽度。

4.如权利要求1所述的基于数据校正的机器学习模型训练方法，其特征在于，步骤2中训练采用对指定损失函数的常规梯度下降法，且步骤2包括使用测试集评价得到该中间模型的误差。

5.如权利要求1所述的基于数据校正的机器学习模型训练方法，其特征在于，该误差为数据集整体平均误差MAE或均方误差MSE。

6.一种基于数据校正的机器学习模型训练系统，其特征在于，包括：

7.如权利要求6所述的基于数据校正的机器学习模型训练系统，其特征在于，该数据校正包括：使用该中间结果和训练集中所有数据的平均值作为新目标值更训练集；或使用该中间结果和训练集中部分数据的平均值作为新目标值更训练集；或将训练集中误差超过指定范围的数值直接用中间结果进行替换；或训练集中数据加上该中间模型的误差的平均值。

8.如权利要求6所述的基于数据校正的机器学习模型训练系统，其特征在于，该计算结果为目标物质的自由能或光学折射率或屈服强度或介电常数或禁带宽度，且该训练模块包括使用测试集评价得到该中间模型的误差。

9.如权利要求6所述的基于数据校正的机器学习模型训练系统，其特征在于，训练模块中训练采用对指定损失函数的常规梯度下降法。

10.如权利要求6所述的基于数据校正的机器学习模型训练系统，其特征在于，该误差为数据集整体平均误差MAE或均方误差MSE。