CN116402158A - 一种机器学习模型筛选方法 - Google Patents
一种机器学习模型筛选方法 Download PDFInfo
- Publication number
- CN116402158A CN116402158A CN202310318657.1A CN202310318657A CN116402158A CN 116402158 A CN116402158 A CN 116402158A CN 202310318657 A CN202310318657 A CN 202310318657A CN 116402158 A CN116402158 A CN 116402158A
- Authority
- CN
- China
- Prior art keywords
- data set
- machine learning
- final
- learning model
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 107
- 238000012216 screening Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000004519 manufacturing process Methods 0.000 claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 230000000875 corresponding effect Effects 0.000 claims description 40
- 238000001914 filtration Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000002596 correlated effect Effects 0.000 claims description 3
- 239000003245 coal Substances 0.000 description 11
- 238000010586 diagram Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000009776 industrial production Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Operations Research (AREA)
- Algebra (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种机器学习模型筛选方法,包括:获取待评测模型集合以及热电生产过程中预设时间段内的原始数据集,该待评测模型集合包括至少一个待评测机器学习模型;针对所述原始数据集进行预处理,获取最终数据集;将最终数据集中的最终的特征变量输入待评测模型集合中的任一待评测机器学习模型中,得到相应的目标变量预测值;基于最终的目标变量实际值和目标变量预测值,获取所述待测机器学习模型的误差评分和相似度评分;基于所述待测机器学习模型的误差评分和相似度评分,获取该待测机器学习模型的最终评分;基于每一待测机器学习模型的最终评分,筛选出最终的机器学习模型。
Description
技术领域
本发明涉及智能发电技术领域,尤其涉及一种机器学习模型筛选方法。
背景技术
热电生产过程控制中PID控制是常用的自动调节方式,但是PID控制容易导致系统出现“超调”、“震荡”等问题。对于热电生产过程中的设备控制,存在一种比传统的PID控制更快更精准的机器学习模型,这种模型是基于输入输出变量的变化量之间的对应关系建立的模型,主要用于当设备需要从一种状态调整至另一种目标状态时,模型能够根据输入的目标状态与当前状态的差距,直接输出在当前基础上需要进行的操作量。这种模型本质上是回归模型,但是使用常规的回归类模型的评价指标R2,MAE和MSE等对这种模型的质量无法进行准确的评价,评价结果经常出现与模型实际效果相悖的现象,这主要是由于工业生产过程数据存在延时、波动等问题,很多情况下机组运行过程中的测量数据不能真实地反映系统输入输出的关系,使得基于原始数据作差得到的变化量不是真实的变化量,再加上变化量数据量级一般很小,在0附近数据居多,进一步降低了变化量数据的信噪比。
在热电生产场景下,由于生产工况的不稳定,需要对机器学习模型进行持续有效的监测以实现机器学习模型的及时更新与选择,通过人为观察机器学习模型的拟合优度等常规评价指标决定机器学习模型是否可用,存在很大的主观性,不仅费时费力,而且对机器学习模型质量的评价不够直观和全面。因此不能筛选出最适合热电生产的机器学习模型。
发明内容
(一)要解决的技术问题
鉴于现有技术的上述缺点、不足,本发明提供一种机器学习模型筛选方法,其解决了现有技术中依赖人为观察导致的效率低下以及现有评价指标无法对模型进行有效的评估以至于不能筛选出最适合热电生产的机器学习模型的技术问题。
(二)技术方案
为了达到上述目的,本发明采用的主要技术方案包括:
本发明实施例提供一种机器学习模型筛选方法,所述机器学习模型是面向热电生产过程控制的,所述方法包括:
S1、获取待评测模型集合以及热电生产过程中预设时间段内的原始数据集,其中,该待评测模型集合包括至少一个待评测机器学习模型;
所述原始数据集包括在所述预设时间段内热电生产过程中以预先设定频率所采集的多条原始数据;其中,每条原始数据均包括与该条原始数据对应的时间戳、原始特征变量和原始目标变量;
S2、针对所述原始数据集进行预处理,获取最终数据集;所述最终数据集包括多对最终的特征变量和最终的目标变量实际值;
S3、将最终数据集中的最终的特征变量输入待评测模型集合中的任一待评测机器学习模型中,得到相应的目标变量预测值;
S4、基于最终的目标变量实际值和目标变量预测值,获取所述待测机器学习模型的误差评分和相似度评分;
S5、基于所述待测机器学习模型的误差评分和相似度评分,获取该待测机器学习模型的最终评分;
S6、基于每一待测机器学习模型的最终评分,筛选出最终的机器学习模型。
优选地,所述S2具体包括:
S21、针对所述原始数据集,筛选出平稳段数据集;
其中,任意两个平稳段数据集之间没有交集,且任一所述平稳段数据集Li满足Li=[l1i,l2i,...,lni];
Li为在所述原始数据集所筛选出的第i个平稳段数据集;
lni为第i个平稳段数据集中的第n条原始数据;
(lmi-x-l1i-x)/l1i-x≤3%,m≤n;;
(lmi-y-l1i-y)/l1i-y≤3%,m≤n;
lmi-x为第i个平稳段数据集中的第m条原始数据中的原始特征变量;
lmi-y为第i个平稳段数据集中的第m条原始数据中的原始目标变量;
其中,所述平稳段数据集Li所对应的第一时间满足预设时间范围;所述第一时间为Lmi所对应的时间戳的时间减去L1i所对应的时间戳的时间;
S22、针对所有平稳段数据集,获取每一平稳段数据集中原始特征变量的平均值和原始目标变量的平均值以及该平稳段数据集的起始时间和结束时间;
S23、基于每一平稳段数据集中原始特征变量的平均值和原始目标变量的平均值以及该平稳段数据集的起始时间和结束时间,获取第一数据集;
所述第一数据集包括分别与每一平稳段数据集一一对应的信息数据;
所述信息数据包括:与该条信息数据对应的平稳段数据集中原始特征变量的平均值和原始目标变量的平均值以及该平稳段数据集的起始时间、平稳段数据集的结束时间;
S24、对所述第一数据集中的所有信息数据按照信息数据中的起始时间由小到大的顺序进行排序,得到第二数据集;
S25、采用预先设定处理策略对所述第二数据集进行处理,得到最终数据集。
优选地,所述S25具体包括:
S251、针对基于所述第二数据集的任一信息数据中的原始特征变量的平均值,获取所述第二数据集中该信息数据之后的每一信息数据与该信息数据之间的相对信息,并将该第二数据集中的所有相对信息组成第三数据集;
其中,第二数据集中该信息数据之后的任一信息数据与该信息数据之间的相对信息包括:第一差值、第二差值、第一结束时间、第一起始时间、第二结束时间、第一时间差;
所述第一差值为第二数据集中该信息数据之后的任一信息数据中的原始特征变量的平均值减去该信息数据中的原始特征变量的平均值所得到的差值;
所述第二差值为第二数据集中该信息数据之后的任一信息数据中的原始目标变量的平均值减去该信息数据中的原始目标变量的平均值所得到的差值;
所述第一结束时间为该信息数据所对应的平稳段数据集的结束时间;
所述第一起始时间为第二数据集中该信息数据之后的任一信息数据所对应的平稳段数据集的起始时间;
所述第二结束时间为第二数据集中该信息数据之后的任一信息数据所对应的平稳段数据集的结束时间;
所述第一时间差为第一起始时间与第一结束时间的差值;
S252、根据第三数据集中的相对信息,按照预先设定过滤规则,对所述第三数据集进行过滤,得到第四数据集;
S253、针对所述第四数据集中的任一相对信息中的第一差值,按照预先设定取值方式进行取值处理,获取该相对信息所对应的新的第一差值;
S254、基于第四数据集中任一相对信息所对应的新的第一差值,对所述第四数据集进行分组,得到至少一组相对信息集合;
其中每一组相对信息集合中的所有相对信息所对应的新的第一差值相等;
S255、针对每一组相对信息集合,分别将第一时间差大于等于48小时的相对信息剔除,得到剔除后的相对信息集合;
S256、针对剔除后的相对信息集合,按照预先设定的排序方式进行排序,获取最终相对信息集合;
S257、提取每一最终相对信息集合中前10条相对信息,组成最终数据集;
其中,最终数据集中的每一相对信息中的第一差值作为最终的特征变量;最终数据集中的每一相对信息中的第二差值作为最终的目标变量实际值。
优选地,
所述预先设定过滤规则为:
如果原始特征变量和原始目标变量为负相关,删除第三数据集中的第一相对信息;
所述第一相对信息为第一差值和第二差值的乘积大于0的相对信息;
如果原始特征变量和原始目标变量为正相关,删除第三数据集中的第二相对信息;
所述第二相对信息为第一差值和第二差值的乘积小于0的相对信息。
优选地,
所述预先设定取值方式为:
当预先获取的第一有效数值小于1时,对所述第一差值保留1位有效数字得到新的第一差值;
当预先获取的第一有效数值大于等于1且小于10时,对所述第一差值保留1位小数得到新的第一差值;
当预先获取的第一有效数值大于等于10且小于100时,对所述第一差值取整得到新的第一差值;
当预先获取的第一有效数值大于等于100时,采用公式(1)得到新的第一差值;
所述公式(1)为:
其中,B为新的第一差值;
a为预先获取的第一有效数值的位数;
[]为取整符号;
第一有效数值为对原始数据集中原始特征变量的绝对值取均值后保留1位有效数字的值。
优选地,
所述预先设定排序方式为:首先按照第一时间差从小到大的顺序进行排序;当第一时间差相同时,针对第一时间差相同的相对信息按第二结束时间从大到小进行排序。
优选地,所述S4包括:
基于与该最终的目标变量实际值和最终的目标变量预测值,采用公式(2)获取所述待测机器学习模型的误差评分A1,以及采用公式(3)获取所述待测机器学习模型的相似度评分A2;
所述公式(2)为:
p为err值小于等于30%的相对信息在所述最终数据集中的占比;
其中,deltay为最终的目标变量实际值;pred·deltay为最终的目标变量预测值;
所述公式(3)为:
A2=1-|1-k|;
其中,k为回归模型拟合系数;
所述回归模型为预先利用机器学习一次多项式算法建立的,其一次多项式为deltay=k*pred·deltay。
优选地,所述S5具体包括:
基于所述待测机器学习模型的误差评分A1和相似度评分A2,采用公式(4)获取该待测机器学习模型的最终评分score;
所述公式(4)为:
score=(A1+A2)/2。
优选地,所述S6具体包括:
基于每一待测机器学习模型的最终评分score,筛选出最终评分score最高的待测机器学习模型作为最终的机器学习模型。
优选地,
所述预设时间段为从当前时间开始之前的20天;
所述预设时间范围为5min~360min。
(三)有益效果
本发明的有益效果是:本发明的一种机器学习模型筛选方法,由于通过原始数据集进行预处理,得到最终数据集,原始数据集包括在所述预设时间段内热电生产过程中以预先设定频率所采集的多条原始数据;其中,每条原始数据均包括与该条原始数据对应的时间戳、原始特征变量和原始目标变量;最终数据集包括多对最终的特征变量和最终的目标变量实际值,进一步,结合最终的目标变量实际值和最终的目标变量预测值之间的误差和相似度对应待测机器学习模型进行评价,通过待测机器学习模型的最终评分,筛选出最终的机器学习模型,现有技术而言,其可以对待测机器学习模型准备的评估,进一步筛选出的最终的机器学习模型性能更好。
附图说明
图1为本发明的一种机器学习模型筛选方法流程图;
图2为最终评分score为0.96待测机器学习模型预测误差分布图;
图3为最终评分score为0.3的待测机器学习模型预测误差分布图。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。
为了更好的理解上述技术方案,下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更清楚、透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
参见图1,本实施例提供一种机器学习模型筛选方法,所述机器学习模型是面向热电生产过程控制的,所述方法包括:
S1、获取待评测模型集合以及热电生产过程中预设时间段内的原始数据集,其中,该待评测模型集合包括至少一个待评测机器学习模型。
所述原始数据集包括在所述预设时间段内热电生产过程中以预先设定频率所采集的多条原始数据;其中,每条原始数据均包括与该条原始数据对应的时间戳、原始特征变量和原始目标变量。
其中,该待评测模型集合中的所有待评测机器学习模型均是用于根据原始特征变量预测与该原始特征变量所对应的原始目标变量的预测值,即该待评测模型集合中的任意一个待评测机器学习模型的输入是原始目标变量,输出是原始目标变量的预测值。
具体的,本实施例中预设时间段为20天,也就是说,获取热电生产过程中当前时间之前的20天的原始数据组成原始数据集;其中,每条原始数据包括与该条原始数据对应的时间戳、原始特征变量和原始目标变量,本实施例中的原始特征变量为给煤量,原始目标变量为给煤机频率,如表1所示的原始数据集中部分原始数据:
表1
序号 | time(时间戳) | 给煤量 | 给煤机频率 |
0 | 1641881890000 | 11.292 | 26.0 |
1 | 1641881900000 | 11.328 | 26.0 |
2 | 1641881910000 | 11.292 | 26.0 |
3 | 1641881920000 | 11.339 | 26.0 |
4 | 1641881930000 | 11.446 | 26.0 |
S2、针对所述原始数据集进行预处理,获取最终数据集;所述最终数据集包括多对最终的特征变量和最终的目标变量实际值。
S3、将最终数据集中的最终的特征变量输入待评测模型集合中的任一待评测机器学习模型中,得到相应的目标变量预测值。
S4、基于最终的目标变量实际值和目标变量预测值,获取所述待测机器学习模型的误差评分和相似度评分。
S5、基于所述待测机器学习模型的误差评分和相似度评分,获取该待测机器学习模型的最终评分。
S6、基于每一待测机器学习模型的最终评分,筛选出最终的机器学习模型。
具体的,在实际应用中,在热电生产过程,假如当前的给煤量(原始特征变量)的数值为10吨每小时,如果想要调整到给煤量的目标值12吨每小时,那么将2(给煤量的目标值-当前的给煤量)的值输入给所筛选出最终的机器学习模型之后,该最终的机器学习模型输出给煤机频率的调整值。那么此时,用户可以根据最终的机器学习模型输出给煤机频率的调整值对当前的给煤机频率进行调整。
在本实施例的实际应用中,所述S2具体包括:
S21、针对所述原始数据集,筛选出平稳段数据集。
其中,任意两个平稳段数据集之间没有交集,且任一所述平稳段数据集Li满足Li=[l1i,l2i,...,lni]。
Li为在所述原始数据集所筛选出的第i个平稳段数据集。
lni为第i个平稳段数据集中的第n条原始数据。
(lmi-x-l1i-x)/l1i-x≤3%,m≤n;。
(lmi-y-l1i-y)/l1i-y≤3%,m≤n;。
lmi-x为第i个平稳段数据集中的第m条原始数据中的原始特征变量;lmi-y为第i个平稳段数据集中的第m条原始数据中的原始目标变量。
其中,所述平稳段数据集Li所对应的第一时间满足预设时间范围;所述第一时间为Lmi所对应的时间戳的时间减去L1i所对应的时间戳的时间;也就是说,平稳段数据集中的数据原始数据中的原始特征变量变化率同时满足小于等于3%,且平稳段数据集的时间长度一般都是在5min~360min内。
S22、针对所有平稳段数据集,获取每一平稳段数据集中原始特征变量的平均值和原始目标变量的平均值以及该平稳段数据集的起始时间和结束时间。
本实施例中该平稳段数据集的起始时间是该平稳段数据集中第一条原始数据所对应的时间戳的时间,平稳段数据集的结束时间是该平稳段数据集中最后一条原始数据所对应的时间戳的时间。
S23、基于每一平稳段数据集中原始特征变量的平均值和原始目标变量的平均值以及该平稳段数据集的起始时间和结束时间,获取第一数据集。
所述第一数据集包括分别与每一平稳段数据集一一对应的信息数据。
所述信息数据包括:与该条信息数据对应的平稳段数据集中原始特征变量的平均值和原始目标变量的平均值以及该平稳段数据集的起始时间、平稳段数据集的结束时间。
S24、对所述第一数据集中的所有信息数据按照信息数据中的起始时间由小到大的顺序进行排序,得到第二数据集。
S25、采用预先设定处理策略对所述第二数据集进行处理,得到最终数据集。
本实施例中,所述S25具体包括:
S251、针对基于所述第二数据集的任一信息数据中的原始特征变量的平均值,获取所述第二数据集中该信息数据之后的每一信息数据与该信息数据之间的相对信息,并将该第二数据集中的所有相对信息组成第三数据集。
其中,第二数据集中该信息数据之后的任一信息数据与该信息数据之间的相对信息包括:第一差值、第二差值、第一结束时间、第一起始时间、第二结束时间、第一时间差。
所述第一差值为第二数据集中该信息数据之后的任一信息数据中的原始特征变量的平均值减去该信息数据中的原始特征变量的平均值所得到的差值。
所述第二差值为第二数据集中该信息数据之后的任一信息数据中的原始目标变量的平均值减去该信息数据中的原始目标变量的平均值所得到的差值。
所述第一结束时间为该信息数据所对应的平稳段数据集的结束时间。
所述第一起始时间为第二数据集中该信息数据之后的任一信息数据所对应的平稳段数据集的起始时间。
所述第二结束时间为第二数据集中该信息数据之后的任一信息数据所对应的平稳段数据集的结束时间。
所述第一时间差为第一起始时间与第一结束时间的差值。
S252、根据第三数据集中的相对信息,按照预先设定过滤规则,对所述第三数据集进行过滤,得到第四数据集;其中,所述预先设定过滤规则为:如果原始特征变量和原始目标变量为负相关,删除第三数据集中的第一相对信息;所述第一相对信息为第一差值和第二差值的乘积大于0的相对信息;如果原始特征变量和原始目标变量为正相关,删除第三数据集中的第二相对信息;所述第二相对信息为第一差值和第二差值的乘积小于0的相对信息。
S253、针对所述第四数据集中的任一相对信息中的第一差值,按照预先设定取值方式进行取值处理,获取该相对信息所对应的新的第一差值。
所述预先设定取值方式为:
当预先获取的第一有效数值小于1时,对所述第一差值保留1位有效数字得到新的第一差值。
当预先获取的第一有效数值大于等于1且小于10时,对所述第一差值保留1位小数得到新的第一差值。
当预先获取的第一有效数值大于等于10且小于100时,对所述第一差值取整得到新的第一差值。
当预先获取的第一有效数值大于等于100时,采用公式(1)得到新的第一差值。
所述公式(1)为:
其中,B为新的第一差值。
a为预先获取的第一有效数值的位数;举例说明,如果第一有效数值为111的话,那么a的值就等于3。
[]为取整符号。
第一有效数值为对原始数据集中原始特征变量的绝对值取均值后保留1位有效数字的值。
S254、基于第四数据集中任一相对信息所对应的新的第一差值,对所述第四数据集进行分组,得到至少一组相对信息集合。
其中每一组相对信息集合中的所有相对信息所对应的新的第一差值相等。
S255、针对每一组相对信息集合,分别将第一时间差大于等于48小时的相对信息剔除,得到剔除后的相对信息集合。
S256、针对剔除后的相对信息集合,按照预先设定的排序方式进行排序,获取最终相对信息集合。
所述预先设定排序方式为:首先按照第一时间差从小到大的顺序进行排序;当第一时间差相同时,针对第一时间差相同的相对信息按第二结束时间从大到小进行排序。
S257、提取每一最终相对信息集合中前10条相对信息,组成最终数据集。
其中,最终数据集中的每一相对信息中的第一差值作为最终的特征变量;最终数据集中的每一相对信息中的第二差值作为最终的目标变量实际值。
具体的,本实施例中所述S4包括:
基于与该最终的目标变量实际值和最终的目标变量预测值,采用公式(2)获取所述待测机器学习模型的误差评分A1,以及采用公式(3)获取所述待测机器学习模型的相似度评分A2。
所述公式(2)为:
p为err值小于等于30%的相对信息在所述最终数据集中的占比。
其中,deltay为最终的目标变量实际值;pred·deltay为最终的目标变量预测值。
所述公式(3)为:
A2=1-|1-k|;
其中,k为回归模型拟合系数。
所述回归模型为预先利用机器学习一次多项式算法建立的,其一次多项式为deltay=k*pred·deltay。
在本实施例的具体实施方式中,所述S5具体包括:
基于所述待测机器学习模型的误差评分A1和相似度评分A2,采用公式(4)获取该待测机器学习模型的最终评分score。
所述公式(4)为:
score=(A1+A2)/2。
本实施例中,所述S6具体包括:基于每一待测机器学习模型的最终评分score,筛选出最终评分score最高的待测机器学习模型作为最终的机器学习模型。举例说明,待测机器学习模型的最终评分score越高,其待测机器学习模型的误差分布区间越小,参见图2和图3,图2是最终评分score为0.96待测机器学习模型预测误差分布图,图3是最终评分score为0.3的待测机器学习模型预测误差分布图,图2和图3中横轴为预测误差,纵轴为误差出现的概率,通过对比可以发现最终评分score低的待测机器学习模型误差分布区间宽且误差更大,因此,待测机器学习模型的最终评分score符合预测的真实效果。
本实施例中的一种机器学习模型筛选方法,由于通过原始数据集进行预处理,得到最终数据集,原始数据集包括在所述预设时间段内热电生产过程中以预先设定频率所采集的多条原始数据;其中,每条原始数据均包括与该条原始数据对应的时间戳、原始特征变量和原始目标变量;最终数据集包括多对最终的特征变量和最终的目标变量实际值,进一步,结合最终的目标变量实际值和最终的目标变量预测值之间的误差和相似度对应待测机器学习模型进行评价,通过待测机器学习模型的最终评分,筛选出最终的机器学习模型,现有技术而言,其可以对待测机器学习模型准备的评估,进一步筛选出的最终的机器学习模型性能更好。
本实施例中还提供了一种机器学习模型筛选系统,包括:至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中,所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如上述实施例中的机器学习模型筛选方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。
应当注意的是,在权利要求中,不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的权利要求中,这些装置中的若干个可以是通过同一个硬件来具体体现。词语第一、第二、第三等的使用,仅是为了表述方便,而不表示任何顺序。可将这些词语理解为部件名称的一部分。
此外,需要说明的是,在本说明书的描述中,术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述,是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管已描述了本发明的优选实施例,但本领域的技术人员在得知了基本创造性概念后,则可对这些实施例作出另外的变更和修改。所以,权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也应该包含这些修改和变型在内。
Claims (10)
1.一种机器学习模型筛选方法,所述机器学习模型是面向热电生产过程控制的,其特征在于,所述方法包括:
S1、获取待评测模型集合以及热电生产过程中预设时间段内的原始数据集,其中,该待评测模型集合包括至少一个待评测机器学习模型;
所述原始数据集包括在所述预设时间段内热电生产过程中以预先设定频率所采集的多条原始数据;其中,每条原始数据均包括与该条原始数据对应的时间戳、原始特征变量和原始目标变量;
S2、针对所述原始数据集进行预处理,获取最终数据集;所述最终数据集包括多对最终的特征变量和最终的目标变量实际值;
S3、将最终数据集中的最终的特征变量输入待评测模型集合中的任一待评测机器学习模型中,得到相应的目标变量预测值;
S4、基于最终的目标变量实际值和目标变量预测值,获取所述待测机器学习模型的误差评分和相似度评分;
S5、基于所述待测机器学习模型的误差评分和相似度评分,获取该待测机器学习模型的最终评分;
S6、基于每一待测机器学习模型的最终评分,筛选出最终的机器学习模型。
2.根据权利要求1所述的机器学习模型筛选方法,其特征在于,所述S2具体包括:
S21、针对所述原始数据集,筛选出平稳段数据集;
其中,任意两个平稳段数据集之间没有交集,且任一所述平稳段数据集Li满足Li=[l1i,l2i,...,lni];
Li为在所述原始数据集所筛选出的第i个平稳段数据集;
lni为第i个平稳段数据集中的第n条原始数据;
(lmi-x-l1i-x)/lli-x≤3%,m≤n;;
(lmi-y-l1i-y)/l1i-y≤3%,m≤n;;
lmi-x为第i个平稳段数据集中的第m条原始数据中的原始特征变量;lmi-y为第i个平稳段数据集中的第m条原始数据中的原始目标变量;
其中,所述平稳段数据集Li所对应的第一时间满足预设时间范围;所述第一时间为Lmi所对应的时间戳的时间减去L1i所对应的时间戳的时间;
S22、针对所有平稳段数据集,获取每一平稳段数据集中原始特征变量的平均值和原始目标变量的平均值以及该平稳段数据集的起始时间和结束时间;
S23、基于每一平稳段数据集中原始特征变量的平均值和原始目标变量的平均值以及该平稳段数据集的起始时间和结束时间,获取第一数据集;
所述第一数据集包括分别与每一平稳段数据集一一对应的信息数据;
所述信息数据包括:与该条信息数据对应的平稳段数据集中原始特征变量的平均值和原始目标变量的平均值以及该平稳段数据集的起始时间、平稳段数据集的结束时间;
S24、对所述第一数据集中的所有信息数据按照信息数据中的起始时间由小到大的顺序进行排序,得到第二数据集;
S25、采用预先设定处理策略对所述第二数据集进行处理,得到最终数据集。
3.根据权利要求2所述的机器学习模型筛选方法,其特征在于,所述S25具体包括:
S251、针对基于所述第二数据集的任一信息数据中的原始特征变量的平均值,获取所述第二数据集中该信息数据之后的每一信息数据与该信息数据之间的相对信息,并将该第二数据集中的所有相对信息组成第三数据集;
其中,第二数据集中该信息数据之后的任一信息数据与该信息数据之间的相对信息包括:第一差值、第二差值、第一结束时间、第一起始时间、第二结束时间、第一时间差;
所述第一差值为第二数据集中该信息数据之后的任一信息数据中的原始特征变量的平均值减去该信息数据中的原始特征变量的平均值所得到的差值;
所述第二差值为第二数据集中该信息数据之后的任一信息数据中的原始目标变量的平均值减去该信息数据中的原始目标变量的平均值所得到的差值;
所述第一结束时间为该信息数据所对应的平稳段数据集的结束时间;
所述第一起始时间为第二数据集中该信息数据之后的任一信息数据所对应的平稳段数据集的起始时间;
所述第二结束时间为第二数据集中该信息数据之后的任一信息数据所对应的平稳段数据集的结束时间;
所述第一时间差为第一起始时间与第一结束时间的差值;
S252、根据第三数据集中的相对信息,按照预先设定过滤规则,对所述第三数据集进行过滤,得到第四数据集;
S253、针对所述第四数据集中的任一相对信息中的第一差值,按照预先设定取值方式进行取值处理,获取该相对信息所对应的新的第一差值;
S254、基于第四数据集中任一相对信息所对应的新的第一差值,对所述第四数据集进行分组,得到至少一组相对信息集合;
其中每一组相对信息集合中的所有相对信息所对应的新的第一差值相等;
S255、针对每一组相对信息集合,分别将第一时间差大于等于48小时的相对信息剔除,得到剔除后的相对信息集合;
S256、针对剔除后的相对信息集合,按照预先设定的排序方式进行排序,获取最终相对信息集合;
S257、提取每一最终相对信息集合中前10条相对信息,组成最终数据集;
其中,最终数据集中的每一相对信息中的第一差值作为最终的特征变量;最终数据集中的每一相对信息中的第二差值作为最终的目标变量实际值。
4.根据权利要求3所述的机器学习模型筛选方法,其特征在于,
所述预先设定过滤规则为:
如果原始特征变量和原始目标变量为负相关,删除第三数据集中的第一相对信息;
所述第一相对信息为第一差值和第二差值的乘积大于0的相对信息;
如果原始特征变量和原始目标变量为正相关,删除第三数据集中的第二相对信息;
所述第二相对信息为第一差值和第二差值的乘积小于0的相对信息。
5.根据权利要求4所述的机器学习模型筛选方法,其特征在于,
所述预先设定取值方式为:
当预先获取的第一有效数值小于1时,对所述第一差值保留1位有效数字得到新的第一差值;
当预先获取的第一有效数值大于等于1且小于10时,对所述第一差值保留1位小数得到新的第一差值;
当预先获取的第一有效数值大于等于10且小于100时,对所述第一差值取整得到新的第一差值;
当预先获取的第一有效数值大于等于100时,采用公式(1)得到新的第一差值;
所述公式(1)为:
其中,B为新的第一差值;
a为预先获取的第一有效数值的位数;
[]为取整符号;
第一有效数值为对原始数据集中原始特征变量的绝对值取均值后保留1位有效数字的值。
6.根据权利要求5所述的机器学习模型筛选方法,其特征在于,
所述预先设定排序方式为:首先按照第一时间差从小到大的顺序进行排序;当第一时间差相同时,针对第一时间差相同的相对信息按第二结束时间从大到小进行排序。
8.根据权利要求7所述的机器学习模型筛选方法,其特征在于,所述S5具体包括:
基于所述待测机器学习模型的误差评分A1和相似度评分A2,采用公式(4)获取该待测机器学习模型的最终评分score;
所述公式(4)为:
score=(A1+A2)/2。
9.根据权利要求8所述的机器学习模型筛选方法,其特征在于,所述S6具体包括:
基于每一待测机器学习模型的最终评分score,筛选出最终评分score最高的待测机器学习模型作为最终的机器学习模型。
10.根据权利要求9所述的机器学习模型筛选方法,其特征在于,
所述预设时间段为从当前时间开始之前的20天;
所述预设时间范围为5min~360min。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310318657.1A CN116402158A (zh) | 2023-03-28 | 2023-03-28 | 一种机器学习模型筛选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310318657.1A CN116402158A (zh) | 2023-03-28 | 2023-03-28 | 一种机器学习模型筛选方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116402158A true CN116402158A (zh) | 2023-07-07 |
Family
ID=87006813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310318657.1A Pending CN116402158A (zh) | 2023-03-28 | 2023-03-28 | 一种机器学习模型筛选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116402158A (zh) |
-
2023
- 2023-03-28 CN CN202310318657.1A patent/CN116402158A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11403535B2 (en) | Model-based machine learning system | |
CN110739031B (zh) | 一种冶金烧结过程的有监督预测方法、装置及存储介质 | |
CN110531722B (zh) | 基于数据采集的工艺参数推荐系统及方法 | |
CN109343489B (zh) | 烟草制丝工艺参数自愈控制方法及系统 | |
CN110991495B (zh) | 生产制造过程中产品质量预测方法、系统、介质及设备 | |
CN110513958B (zh) | 一种确定设备健康状况方法及装置 | |
CN113454661A (zh) | 产品不良成因分析的系统和方法、计算机可读介质 | |
CN109815855B (zh) | 一种基于机器学习的电子设备自动测试方法及系统 | |
CN111428329A (zh) | 基于模型的机器学习系统 | |
JP2005519394A (ja) | 実験の自動計画方法およびそのシステム | |
CN114416707A (zh) | 工业时序数据的自动化特征工程方法和装置 | |
KR20090046742A (ko) | 예측 서비스의 사용자-지정 구성 | |
CN116187650A (zh) | 针对产品零部件的自主机器学习需求预测方法及系统 | |
CN116402158A (zh) | 一种机器学习模型筛选方法 | |
Amiri et al. | Evaluating multi-objective economic-statistical design of attribute C control charts for monitoring the number of non-conformities | |
CN109884893B (zh) | 一种多工序变量间动态时滞估计方法 | |
CN114065460A (zh) | 火电发电系统中模型处理方法、存储介质和电子装置 | |
CN109543930B (zh) | 基于机台多级别稳态生产速率的派工方法及系统 | |
CN117273497B (zh) | 一种高强石膏的生产优化方法及系统 | |
CN110298588B (zh) | 基于统计分析的标准自动优化系统及方法 | |
Eidukas | Modeling of level of defects in electronics systems | |
CN118092362B (zh) | 烧结过程异常原因分析方法、装置及设备 | |
TWI826087B (zh) | 派工系統和派工方法 | |
CN109726850B (zh) | 一种成纱质量预测模型的建立方法 | |
CN116200813B (zh) | 一种晶体生长设备控制方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |