CN113569970A - 量化特征指标对标签影响的分析方法、系统、介质和终端 - Google Patents

量化特征指标对标签影响的分析方法、系统、介质和终端 Download PDF

Info

Publication number
CN113569970A
CN113569970A CN202110873685.0A CN202110873685A CN113569970A CN 113569970 A CN113569970 A CN 113569970A CN 202110873685 A CN202110873685 A CN 202110873685A CN 113569970 A CN113569970 A CN 113569970A
Authority
CN
China
Prior art keywords
influence
quantitative
model
data
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110873685.0A
Other languages
English (en)
Other versions
CN113569970B (zh
Inventor
张涛
汤槟
余鹏
毛尚伟
吴润宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CISDI Chongqing Information Technology Co Ltd
Original Assignee
CISDI Chongqing Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CISDI Chongqing Information Technology Co Ltd filed Critical CISDI Chongqing Information Technology Co Ltd
Publication of CN113569970A publication Critical patent/CN113569970A/zh
Application granted granted Critical
Publication of CN113569970B publication Critical patent/CN113569970B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种量化特征指标对标签影响的分析方法、系统、介质及终端,方法包括:获取样本数据,并对所述样本数据进行标定,根据标定后的样本数据建立量化影响模型,并对其进行训练;量化影响模型包括用于根据量化特征指标对标签影响进行回归预测的第一量化影响模型和用于数据匹配分析的第二量化影响模型;根据样本数据量和业务需求选择第一量化影响模型或第二量化影响模型,获取影响量化值,完成量化特征指标对标签影响的分析;本发明可以通过多种基础模型的扩充选择与综合评分系统的构建,能使预测结果更加准确,通过数据匹配分析,使分析结果更加直观与现实联系更加紧密,不限于异常的量化分析,具有普适性,有利于帮助使用者优化调控。

Description

量化特征指标对标签影响的分析方法、系统、介质和终端
技术领域
本发明涉及计算机技术领域,尤其涉及一种量化特征指标对标签影响的分析方法、系统、介质和终端。
背景技术
随着计算机技术的发展,网络数据增长迅速,在大数据时代背景下,对大数据的需求,对数据所代表含义的追逐,使得对数据的挖掘分析变得至关重要。目前,分析数据的方法很多,通过在计算机中输入相应算法,再代入数据,就可以实现得到数据间的关系。当产生实际需求时,通过算法相互组合、优化,又可以得到新的数据处理的方法。所以,算法不是一成不变的,可以根据具体需求而做出新的优化。
目前,在一个生产项目中,对历史数据的挖掘分析,再实时输入相应参数,能帮其优化调控,查找异常。对于特定指标,如能源损耗,温度控制等,有着巨大作用。但现有的分析方法,在面对多特征值的影响分析时,现有的方法并不能直接量化特征值对标签值的影响,甚至并不适用于单个特征值对标签值的影响。而一些量化影响的方法,在应用方面十分狭隘,只具备在特定领域有一定推广性,并不能适用于多种情景,无法具体量化特征指标对标签的影响,不利于使用者自主判断优化调控,。
发明内容
鉴于以上所述现有技术的缺点,本发明提供一种量化特征指标对标签影响的分析方法、系统、介质和终端,以解决上述技术问题。
本发明提供的量化特征指标对标签影响的分析方法,包括:
获取样本数据,并对所述样本数据进行标定,根据标定后的样本数据建立量化影响模型,并对其进行训练;所述量化影响模型包括用于根据量化特征指标对标签影响进行回归预测的第一量化影响模型和用于数据匹配分析的第二量化影响模型;
将待分析的实时数据输入至第一量化影响模型,所述第一量化影响模型包括多种不同基于机器学习的算法模型;对各算法模型进行评分,根据评分结果,获取最佳模型,通过最佳模型获取第一影响量化值;
或者,
将待分析的实时数据输入至所述第二量化影响模型,获取第二影响量化值;所述第二量化影响模型通过离散化使数据区间化,根据每个特征参数区间交集所包含的所有数据的标签值,获取交集区间的标签值,根据所述交集区间的标签值和预先获取的标准标签值,获取第二影响量化值;
根据样本数据量和业务需求选择第一量化影响模型或第二量化影响模型,获取影响量化值,完成量化特征指标对标签影响的分析。
于本发明的一实施例中,所述对所述第一量化影响模型中的各算法模型进行评分,包括设置多种评分方式,根据样本总量、符合标准数量、样本的真实值、样本的预测值、各评分方式的指标得分和指标权重,获取多个评分方式的综合评分,作为所述评分结果;所述多种不同基于机器学习的算法模型包括线性回归模型、SVR、神经网络回归模型、随机森林回归模型、Xgboost模型。
于本发明的一实施例中,所述通过最佳模型获取第一影响量化值包括
对所述待分析的实时数据进行处理;所述待分析的实时数据包括一特征参数和其他若干待分析特征参数,所述其他若干待分析特征参数由标准值替代;
获取第一模型输出结果,所述第一模型输出结果包括实时数据中的所述特征参数对应的标签值,根据所述标签值和预先获取的标准标签值,获取第一影响量化值。
于本发明的一实施例中,所述第二量化影响模型通过离散化使数据区间化包括:
根据等距等分划分区间、根据分位数等频划分区间,或者自定义划分区间;
划分区间后,对所述区间依次进行校验处理,所述校验处理包括:控制特定特征一个区间不变,改变其他特征区间,通过每次更改一个区间,直至所有特征的所有区间都被检验;如果一区间的方差大于预先设定的校验标准阈值,则将所述区间平分为两个区间。
于本发明的一实施例中,经过所述校验处理之后,获取历史数据离散化形式,并进行数据匹配,所述数据匹配包括:
获取待分析的实时数据,将所述待分析的实时数据的所有特征值与所述历史数据离散化形式进行比较,获取满足与所述分析的实时数据中所有特征值在同一区间内的数据,进而获取其所有的标签值,计算其平均值,并将所述平均值作为输出结果,即所述交集区间的标签值。
于本发明的一实施例中,当待分析的实时数据不在所述区间内时,切换至第一量化影响模型进行量化特征指标对标签影响的分析。
于本发明的一实施例中,所述样本数据包括历史数据,在对所述样本数据进行标定之前还包括第一预处理,所述第一预处理包括:去除特征值超过设定范围的数据,以及去除不在预设正态分布范围内的数据。
于本发明的一实施例中,将待分析的实时数据输入至第一量化影响模型或将待分析的实时数据输入至所述第二量化影响模型之前,还包括第二预处理,所述第二预处理包括:控制所述待分析的实时数据处于预设的规定范围内,若大于上限值则下调至上限值,若小于下限值则上拉至下限值。
本发明还提供一种量化特征指标对标签影响的分析系统,包括:
数据采集模块,用于获取样本数据;
标定模块,用于对所述样本数据进行标定,
模型建立模块,用于根据标定后的样本数据建立量化影响模型,并对其进行训练;所述量化影响模型包括用于根据量化特征指标对标签影响进行回归预测的第一量化影响模型和用于数据匹配分析的第二量化影响模型;
将待分析的实时数据输入至第一量化影响模型,获取第一影响量化值;其中,所述第一量化影响模型包括多种不同基于机器学习的算法模型,对所述第一量化影响模型中的各算法模型进行评分,根据评分结果,获取最佳模型,通过最佳模型对所述实时数据进行处理;所述实时数据包括一特征参数和其他若干待分析特征参数,所述其他若干待分析特征参数由标准值替代;
获取第一模型输出结果,所述第一模型输出结果包括实时数据中的所述特征参数对应的标签值,根据所述标签值和预先获取的标准标签值,获取第一影响量化值;
或者,
将待分析的实时数据输入至所述第二量化影响模型,获取第二影响量化值;所述第二量化影响模型通过离散化使数据区间化,根据每个特征参数区间交集所包含的所有数据的标签值,获取交集区间的标签值,根据所述交集区间的标签值和预先获取的标准标签值,获取第二影响量化值;
根据样本数据量和业务需求选择第一量化影响模型或第二量化影响模型,获取影响量化值,完成量化特征指标对标签影响的分析。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述中任一项所述方法。
本发明还提供一种电子终端,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行如上述任一项所述方法。
本发明的有益效果:本发明中的量化特征指标对标签影响的分析方法、系统、介质和终端,通过多种基础模型的扩充选择与综合评分系统的构建,能使预测结果更加准确,通过数据匹配分析,使分析结果更加直观与现实联系更加紧密,不限于异常的量化分析,具有普适性,有利于帮助使用者优化调控。
附图说明
图1是本发明实施例中量化特征指标对标签影响的分析方法的流程示意图。
图2是本发明实施例中量化特征指标对标签影响的分析方法的第一量化影响模型训练流程示意图。
图3是本发明实施例中量化特征指标对标签影响的分析方法的第二量化影响模型建立流程示意图。
图4是本发明实施例中量化特征指标对标签影响的分析方法的一实施例中轧钢行业中的流程示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
在下文描述中,探讨了大量细节,以提供对本发明实施例的更透彻的解释,然而,对本领域技术人员来说,可以在没有这些具体细节的情况下实施本发明的实施例是显而易见的,在其他实施例中,以方框图的形式而不是以细节的形式来示出公知的结构和设备,以避免使本发明的实施例难以理解。
如图1所示,本实施例中的量化特征指标对标签影响的分析方法,包括:
S101.获取样本数据,并对所述样本数据进行标定,根据标定后的样本数据建立量化影响模型,并对其进行训练;所述量化影响模型包括用于根据量化特征指标对标签影响进行回归预测的第一量化影响模型和用于数据匹配分析的第二量化影响模型;
S102.将待分析的实时数据输入至第一量化影响模型,所述第一量化影响模型包括多种不同基于机器学习的算法模型;对各算法模型进行评分,根据评分结果,获取最佳模型,通过最佳模型获取第一影响量化值;
或者,
S103.将待分析的实时数据输入至所述第二量化影响模型,获取第二影响量化值;所述第二量化影响模型通过离散化使数据区间化,根据每个特征参数区间交集所包含的所有数据的标签值,获取交集区间的标签值,根据所述交集区间的标签值和预先获取的标准标签值,获取第二影响量化值;
S104.根据样本数据量和业务需求选择第一量化影响模型或第二量化影响模型,获取影响量化值,完成量化特征指标对标签影响的分析。
在本实施例中,第一量化影响模型为基于机器学习的回归预测模型,第二量化影响模型为基于数据离散化的历史数据匹配分析模型,回归预测模型主要为模型筛选模块,对基础模型进行筛选,同时将数据带入多个基础模型,再用多种评分方法得综合评分,分析得出最佳适应得训练好的基础模型。可选的,本实施例中的基础模型包括:线性回归模型,SVR(Support Vector Regression,支持向量回归),神经网络回归模型,随机森林回归模型,Xgboost模型。
在本实施例中,对所述第一量化影响模型中的各算法模型进行评分,包括设置多种评分方式,根据样本总量、符合标准数量、样本的真实值、样本的预测值、各评分方式的指标得分和指标权重,获取多个评分方式的综合评分,作为所述评分结果。
具体的,本实施例中的多个评分方法包括:
Figure BDA0003189581930000051
其中,MSE为均方误差,m为所样本数量,yi为第i个样本的真实值,
Figure BDA0003189581930000052
为第i个样本的预测值;
Figure BDA0003189581930000053
其中,MAE为平均绝对误差,m为所样本数量,yi为第i个样本的真实值,
Figure BDA0003189581930000054
为第i个样本的预测值;
Figure BDA0003189581930000061
其中,m为样本数量,yi为第i个样本的真实值,
Figure BDA0003189581930000062
为第i个样本的预测值,
Figure BDA0003189581930000063
样本的平均值;
Figure BDA00031895819300000610
其中,MedAE为中位绝对误差,median为这一系列数据中的中位数,y1为第一个样本的真实值,
Figure BDA0003189581930000064
为第1个样本的预测值,yn为第一个样本的真实值,
Figure BDA0003189581930000065
为第n个样本的预测值,n为样本数量。
可选的,在本实施例中,根据事例自定义评价指标,包括但不限于,
Figure BDA0003189581930000066
其中,m为样本总量,num为符合标准数量,标准为
Figure BDA0003189581930000067
其中,n默认为5,yi为第i个样本的真实值,
Figure BDA0003189581930000068
为第i个样本的预测值。
本实施例中的综合评分方法是累加评分,其公式为:
Figure BDA0003189581930000069
其中,S_all为综合评分,si为相应指标得分,xi为相应指标权重或相应处理方式。
具体的,通过如下公式获取综合评分:
qua+R2+1/(MSE+1)+1/(MAE+1)+1/(MedAE+1)
综合评分越高,则代表算法模型更为适合。
在本实施例中,第二量化影响模型主要是对输入数据进行离散化和数据匹配,本实施例中的通过离散化使数据区间化包括:
根据等距等分划分区间、根据分位数等频划分区间,或者自定义划分区间;
划分区间后,对所述区间依次进行校验处理,所述校验处理包括:控制特定特征一个区间不变,改变其他特征区间,通过每次更改一个区间,直至所有特征的所有区间都被检验;如果一区间的方差大于预先设定的校验标准阈值,则将所述区间平分为两个区间。
在本实施例中,通过离散化获取历史数据离散化形式,获取待处理数据,将其所有特征值与历史数据离散化形式进行比较,找到满足与所获取数据所有特征值在同一区间内的数据,得其所有的标签值,求其平均数作为输出结果。
在本实施例中,针对历史数据,需要进行第一预处理,主要包括去除特征值超过设定范围的数据,去除不在给定正态分布范围内的数据。针对标准值获取,可以根据评判标准选择标签值较好的前n%(n取值范围1-100,默认50)对其特征值标签值分别求其平均数,储存作为标准值,或者用户自行规定。针对待分析数据,需要进行数据清洗,即第二预处理,主要包括使数据处于规定范围内,若大于上限值则下调至上限值,若小于下限值则上拉至下限值。
在本实施例中,针对影响量化值获取,只输入一个待处理数据中的特征值,而其他特征值被其标准值所顶替,得相应标签值,再减去标准标签值,作为该特征指标对标签值的影响量化值,将其与对应特征指标相匹配。当使用第二量化影响模型进行分析时,如果当待分析的实时数据不在所述区间内时,可以自动切换至第一量化影响模型进行量化特征指标对标签影响的分析。
实施例1
下面以轧钢燃耗工艺参数对轧钢燃耗影响量化作为具体应用场景,通过第一量化影响模型进行分析,进行举例说明:
S1101.首先,获取轧钢工艺参数历史数据进行处理。
在本实施例中,获取轧钢工艺参数历史数据的方式可以为从轧钢工艺数据库直接调用,而轧钢工艺数据库里的数据可从生产线实时获取累计,操作人员自主设定,系统自动周期性添加累计的实时数据等。例如,具体调用参数为:"加热段残氧值","均热段残氧值","预热段残氧量","加热段上方空燃比","加热段下方空燃比","均热段轧机侧上方空燃","均热段轧机侧下方空燃比","均热段非轧侧上方空燃比","均热段非轧侧下方空燃比","出炉温度","预热段上方炉气温度","预热段下方炉气温度","加热段上方炉气温度","加热段下方炉气温度","均热段上方炉气温度","均热段下方炉气温度","出钢节奏",上述参数所对应标签值为轧钢燃耗。
在本实施例中,对历史数据的处理,具体可以包括按照出炉时间参数对出炉时间进行排序;对调取的轧钢工艺数据进行缺失值补充,具体方法为填充其上条数据的值;去除参数超过设定范围的数据,这里的设定范围指的是,运用格拉布斯准测来消除误差值;去除不在给定正态分布范围内的数据,具体值的是去除3σ以外的数据,从而得到能带入模型的数据集;在符合之前筛选规则后,若工艺参数一致而标签值相异则求其平均值。在此数据集基础之上,计算得出系统所需的标准值,具体计算方法为:根据评判标准选择标签值较好的前50%对其特征值,标签值分别求其平均数,储存作为标准值。评判标准为能耗值较小的,即为标签值较小的。
S1102.选择通过已经处理过的数据集训练预设模型,通过多种评分方式下的综合评分,选出最优算法模型,从而得到能直接用的量化影响模型。
在本实施例中,可以在线性回归模型、SVR、神经网络回归模型、随机森林回归模型、Xgboost模型进行训练,选出其中最优的一种基础模型,具体地,可以选择10天的数据,将原始数值特征数据前7天的数据作为训练集,后3天的数据作为测试集。具体训练为再导入公式前,模型可以先对特征进行清洗与筛选,特征间关系错综复杂,可能是一些线性关系或者倍数关系,为帮助模型进行选择特征,可以增加一些特征的优先级,几个特征可以相互转换时,可以按优先级选择最想保留的,若相差不多,可以交给模型自主进行选择保留。
在本实施例中,具体保留优先级的评判,可以包括:是否对设备安全有所影响;是否有特殊性;是否人为易于操控而控制影响。具体保留留下来的特征为:"出炉温度","加热段上方炉气温度","加热段下方炉气温度","均热段上方炉气温度","均热段下方炉气温度","出钢节奏"。而将数据导入算法进行训练时有两个方法,其具体为,将整个处理好的整个历史数据代入模型进行训练,保留训练前所清洗筛选的特征;或者只将所清洗筛选出来的特征所涵盖的数据与其对应标签值,带入公式,训练模型,而因为减少了许多工艺参数,只导入了所清洗筛选出的这几种特征的数据,会出现参数一致而标签值相异的情况,所以要对数据重新清洗,再导入模型,本实施例中的清洗,是将参数一致而标签值相异的这些数据,求这些标签值的平均值,作为这一致参数下的新标签值作为一条新的数据导入模型。对各机器学习回归模型用训练集进行训练,然后用后3天的数据进行测试。然后通过上述实施例中的多种评分方式与综合评分选择。
在本实施例中,通过采用处理好的所有历史数据,并保留所清洗筛选后的特征工艺参数的方式进行模型训练。如图2所示。
S1103.导入实时数据并清洗。
在本实施例中,所需要导入的轧钢工艺参数具体为:"加热段残氧值","均热段残氧值","预热段残氧量","加热段上方空燃比","加热段下方空燃比","均热段轧机侧上方空燃","均热段轧机侧下方空燃比","均热段非轧侧上方空燃比","均热段非轧侧下方空燃比","出炉温度","预热段上方炉气温度","预热段下方炉气温度","加热段上方炉气温度","加热段下方炉气温度","均热段上方炉气温度","均热段下方炉气温度","出钢节奏",而相对应的标签值为轧钢燃耗对于这些参数的采集通过预先设定的规定值与传感器测定的实际值两种方式。
可选的,采集数据的方式可以包括,轧钢生产线运行20分钟采集一次数据,采集5次后求每个参数的平均数然后导入模型,对数据进行清洗。对数据的清洗指的是使数据处于规定范围内,若大于上限值则下调至上限值,若小于下限值则上拉至下限值。具体的上限值与下限值是通过通过特定情况设定。
S1104.选择特定参数进行分析。
在本实施例中,在轧钢工艺中所选择的进行分析的参数可以是人为操作的参数,具体为:"出炉温度","加热段上方炉气温度","加热段下方炉气温度","均热段上方炉气温度","均热段下方炉气温度","出钢节奏"。而具体带入模型的方式为:只输入一个实时数据中的特征参数值,而其他特征参数值被其标准值所顶替,得相应标签燃耗值,减去标准标签燃耗值,作为该特征指标对标签值的影响量化值,将其与对应特征参数相匹配。
S1105.模型返回运算结果。
在本实施例中,系统可以返回这些参数:"出炉温度","加热段上方炉气温度","加热段下方炉气温度","均热段上方炉气温度","均热段下方炉气温度","出钢节奏"中每一个对燃耗的影响量化值,从而使用户做出相应对策。
实施例2
下面以轧钢燃耗工艺参数对轧钢燃耗影响量化作为具体应用场景,通过第二量化影响模型进行分析,进行举例说明:
S1201.获取轧钢工艺参数历史数据进行处理。
在本实施例中,获取轧钢工艺参数历史数据的方式为从轧钢工艺数据库直接调用,而轧钢工艺数据库里的数据可从生产线实时获取累计,操作人员自主设定,系统自动周期性添加累计的实时数据等。具体调用参数为:"加热段残氧值","均热段残氧值","预热段残氧量","加热段上方空燃比","加热段下方空燃比","均热段轧机侧上方空燃","均热段轧机侧下方空燃比","均热段非轧侧上方空燃比","均热段非轧侧下方空燃比","出炉温度","预热段上方炉气温度","预热段下方炉气温度","加热段上方炉气温度","加热段下方炉气温度","均热段上方炉气温度","均热段下方炉气温度","出钢节奏",所对应标签值为轧钢燃耗。而对历史数据的处理,具体包括按照出炉时间参数对出炉时间进行排序;对调取的轧钢工艺数据进行缺失值补充,具体方法为填充其上条数据的值;去除参数超过设定范围的数据,这里的设定范围指的是,运用格拉布斯准测来消除误差值;去除不在给定正态分布范围内的数据,具体值的是去除3σ以外的数据,从而得到能带入模型的数据集;在符合之前筛选规则后,若工艺参数一致而标签值相异则求其平均值。在此数据集基础之上,计算得出系统所需的标准值,具体计算方法为:根据评判标准选择标签值较好的前50%对其特征值,标签值分别求其平均数,储存作为标准值。而评判标准为能耗值较小的,即为标签值较小的。
S1202.选择通过已经处理过的数据集建立匹配模型,通过将数据离散化得到新的数据表,从而得到第二量化影响模型。
在本实施例中,通过离散化使数据区间化,具体地,选择30天的数据,将原始数值特征数据作为训练集。模型不会对特征进行清洗与筛选,不需要处理特征间的关系。而离散化的具体方式为通过等距平分划分区间,对于每个特征参数区间交集所包含的所有数据的标签燃耗值,求其平均值作为此交集区间的燃耗值。从而得到初步的历史数据离散化,为进一步提高匹配模型的准确性,还应该对所划分区间进行检验。此检验方法具体为:,对每个区间依次检验,控制特定特征一个区间不变,改变其他特征区间一次更改一个区间,直至所有特征的所有区间都被检验,检验标准为其方差不能大于所设定标准,若大于此标准,则将此区间,平分为两个区间。而方差的设定标准具体可以为:0.5。如图3所示。
S1203.导入实时数据并清洗。
在本实施例中,,所需要导入的轧钢工艺参数具体为:"加热段残氧值","均热段残氧值","预热段残氧量","加热段上方空燃比","加热段下方空燃比","均热段轧机侧上方空燃","均热段轧机侧下方空燃比","均热段非轧侧上方空燃比","均热段非轧侧下方空燃比","出炉温度","预热段上方炉气温度","预热段下方炉气温度","加热段上方炉气温度","加热段下方炉气温度","均热段上方炉气温度","均热段下方炉气温度","出钢节奏",而相对应的标签值为轧钢燃耗对于这些参数的采集通过预先设定的规定值与传感器测定的实际值两种方式。采集数据的具体方式可以包括,轧钢生产线运行20分钟采集一次数据,采集5次后求每个参数的平均数然后导入模型,对数据进行清洗。对数据的清洗指的是使数据处于规定范围内,若大于上限值则下调至上限值,若小于下限值则上拉至下限值。具体的上限值与下限值是通过特定情况自主设定。
S1204.选择特定参数进行分析。
在本实施例中,在轧钢工艺中所选择的进行分析的参数为能人为操作的参数,具体为:"出炉温度","加热段上方炉气温度","加热段下方炉气温度","均热段上方炉气温度","均热段下方炉气温度","出钢节奏"。而具体带入模型的方式为:只输入一个实时数据中的特征参数值,而其他需分析特征参数值被其标准值所顶替,找到满足与所输入数据的所有特征值在同一区间内的数据,得其所有的标签值,求其平均数作为输出结果相应标签燃耗值,减去标准标签燃耗值,作为该特征指标对标签值的影响量化值,将其与对应特征参数相匹配。
S1205.模型返回运算结果。
在本实施例中,系统会返回这些参数:"出炉温度","加热段上方炉气温度","加热段下方炉气温度","均热段上方炉气温度","均热段下方炉气温度","出钢节奏"中每一个对燃耗的影响量化值,从而使用户做出相应对策。
在本实施例中,如图4所示,可以采用两种模型进行分析,根据数据统计发现,在历史数据较多时,第一量化影响模型更加精确,但更加耗时,而第二量化影响模型,精确度相对较低,但更加便捷省时且直观。而历史数据较少时,两种模型的精确度相差不多,但相对而言,而第二量化影响模型还是会更加省时。因此,可以根据样本数据量和业务需求选择第一量化影响模型或第二量化影响模型,获取影响量化值,完成量化特征指标对标签影响的分析。
相应的,本实施例还提供一种量化特征指标对标签影响的分析系统,包括:
数据采集模块,用于获取样本数据;
标定模块,用于对所述样本数据进行标定,
模型建立模块,用于根据标定后的样本数据建立量化影响模型,并对其进行训练;所述量化影响模型包括用于根据量化特征指标对标签影响进行回归预测的第一量化影响模型和用于数据匹配分析的第二量化影响模型;
将待分析的实时数据输入至第一量化影响模型,获取第一影响量化值;其中,所述第一量化影响模型包括多种不同基于机器学习的算法模型,对所述第一量化影响模型中的各算法模型进行评分,根据评分结果,获取最佳模型,通过最佳模型对所述实时数据进行处理;所述实时数据包括一特征参数和其他若干待分析特征参数,所述其他若干待分析特征参数由标准值替代;
获取第一模型输出结果,所述第一模型输出结果包括实时数据中的所述特征参数对应的标签值,根据所述标签值和预先获取的标准标签值,获取第一影响量化值;
或者,
将待分析的实时数据输入至所述第二量化影响模型,获取第二影响量化值;所述第二量化影响模型通过离散化使数据区间化,根据每个特征参数区间交集所包含的所有数据的标签值,获取交集区间的标签值,根据所述交集区间的标签值和预先获取的标准标签值,获取第二影响量化值;
根据样本数据量和业务需求选择第一量化影响模型或第二量化影响模型,获取影响量化值,完成量化特征指标对标签影响的分析。
本实施例中的量化特征指标对标签影响的分析系统,可以通过上述方法实施例中的方式,进行量化特征指标对标签影响的分析。
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本实施例中的任一项方法。
本实施例还提供一种电子终端,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行本实施例中任一项方法。
本实施例中的计算机可读存储介质,本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例提供的电子终端,包括处理器、存储器、收发器和通信接口,存储器和通信接口与处理器和收发器连接并完成相互间的通信,存储器用于存储计算机程序,通信接口用于进行通信,处理器和收发器用于运行计算机程序,使电子终端执行如上方法的各个步骤。
在本实施例中,存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在上述实施例中,除非另外规定,否则通过使用“第一”、“第二”等序号对共同的对象进行描述,只表示其指代相同对象的不同实例,而非是采用表示被描述的对象必须采用给定的顺序,无论是时间地、空间地、排序地或任何其他方式。在上述实施例中,说明书对“本实施例”、“一实施例”、“另一实施例”、或“其他实施例”的提及表示结合实施例说明的特定特征、结构或特性包括在至少一些实施例中,但不必是全部实施例。“本实施例”、“一实施例”、“另一实施例”的多次出现不一定全部都指代相同的实施例。
在上述实施例中,尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变形对本领域普通技术人员来说将是显而易见的。例如,其他存储结构(例如,动态RAM(DRAM))可以使用所讨论的实施例。本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
上述实施例仅示例性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (11)

1.一种量化特征指标对标签影响的分析方法,其特征在于,包括:
获取样本数据,并对所述样本数据进行标定,根据标定后的样本数据建立量化影响模型,并对其进行训练;所述量化影响模型包括用于根据量化特征指标对标签影响进行回归预测的第一量化影响模型和用于数据匹配分析的第二量化影响模型;
将待分析的实时数据输入至第一量化影响模型,所述第一量化影响模型包括多种不同基于机器学习的算法模型;对各算法模型进行评分,根据评分结果,获取最佳模型,通过最佳模型获取第一影响量化值;
或者,
将待分析的实时数据输入至所述第二量化影响模型,获取第二影响量化值;所述第二量化影响模型通过离散化使数据区间化,根据每个特征参数区间交集所包含的所有数据的标签值,获取交集区间的标签值,根据所述交集区间的标签值和预先获取的标准标签值,获取第二影响量化值;
根据样本数据量和业务需求选择第一量化影响模型或第二量化影响模型,获取影响量化值,完成量化特征指标对标签影响的分析。
2.根据权利要求1所述的量化特征指标对标签影响的分析方法,其特征在于,所述对所述第一量化影响模型中的各算法模型进行评分,包括设置多种评分方式,根据样本总量、符合标准数量、样本的真实值、样本的预测值、各评分方式的指标得分和指标权重,获取多个评分方式的综合评分,作为所述评分结果;所述多种不同基于机器学习的算法模型包括线性回归模型、SVR、神经网络回归模型、随机森林回归模型、Xgboost模型。
3.根据权利要求2所述的量化特征指标对标签影响的分析方法,其特征在于,所述通过最佳模型获取第一影响量化值包括
对所述待分析的实时数据进行处理;所述待分析的实时数据包括一特征参数和其他若干待分析特征参数,所述其他若干待分析特征参数由标准值替代;
获取第一模型输出结果,所述第一模型输出结果包括实时数据中的所述特征参数对应的标签值,根据所述标签值和预先获取的标准标签值,获取第一影响量化值。
4.根据权利要求1所述的量化特征指标对标签影响的分析方法,其特征在于,所述第二量化影响模型通过离散化使数据区间化包括:
根据等距等分划分区间、根据分位数等频划分区间,或者自定义划分区间;
划分区间后,对所述区间依次进行校验处理,所述校验处理包括:控制特定特征一个区间不变,改变其他特征区间,通过每次更改一个区间,直至所有特征的所有区间都被检验;如果一区间的方差大于预先设定的校验标准阈值,则将所述区间平分为两个区间。
5.根据权利要求4所述的量化特征指标对标签影响的分析方法,其特征在于,经过所述校验处理之后,获取历史数据离散化形式,并进行数据匹配,所述数据匹配包括:
获取待分析的实时数据,将所述待分析的实时数据的所有特征值与所述历史数据离散化形式进行比较,获取满足与所述分析的实时数据中所有特征值在同一区间内的数据,进而获取其所有的标签值,计算其平均值,并将所述平均值作为输出结果,即所述交集区间的标签值。
6.根据权利要求5所述的量化特征指标对标签影响的分析方法,其特征在于,当待分析的实时数据不在所述区间内时,切换至第一量化影响模型进行量化特征指标对标签影响的分析。
7.根据权利要求1-6任一所述的量化特征指标对标签影响的分析方法,其特征在于,所述样本数据包括历史数据,在对所述样本数据进行标定之前还包括第一预处理,所述第一预处理包括:去除特征值超过设定范围的数据,以及去除不在预设正态分布范围内的数据。
8.根据权利要求1-6任一所述的量化特征指标对标签影响的分析方法,其特征在于,将待分析的实时数据输入至第一量化影响模型或将待分析的实时数据输入至所述第二量化影响模型之前,还包括第二预处理,所述第二预处理包括:控制所述待分析的实时数据处于预设的规定范围内,若大于上限值则下调至上限值,若小于下限值则上拉至下限值。
9.一种量化特征指标对标签影响的分析系统,其特征在于,包括:
数据采集模块,用于获取样本数据;
标定模块,用于对所述样本数据进行标定,
模型建立模块,用于根据标定后的样本数据建立量化影响模型,并对其进行训练;所述量化影响模型包括用于根据量化特征指标对标签影响进行回归预测的第一量化影响模型和用于数据匹配分析的第二量化影响模型;
将待分析的实时数据输入至第一量化影响模型,获取第一影响量化值;其中,所述第一量化影响模型包括多种不同基于机器学习的算法模型,对所述第一量化影响模型中的各算法模型进行评分,根据评分结果,获取最佳模型,通过最佳模型对所述实时数据进行处理;所述实时数据包括一特征参数和其他若干待分析特征参数,所述其他若干待分析特征参数由标准值替代;
获取第一模型输出结果,所述第一模型输出结果包括实时数据中的所述特征参数对应的标签值,根据所述标签值和预先获取的标准标签值,获取第一影响量化值;
或者,
将待分析的实时数据输入至所述第二量化影响模型,获取第二影响量化值;所述第二量化影响模型通过离散化使数据区间化,根据每个特征参数区间交集所包含的所有数据的标签值,获取交集区间的标签值,根据所述交集区间的标签值和预先获取的标准标签值,获取第二影响量化值;
根据样本数据量和业务需求选择第一量化影响模型或第二量化影响模型,获取影响量化值,完成量化特征指标对标签影响的分析。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至8中任一项所述方法。
11.一种电子终端,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行如权利要求1至8中任一项所述方法。
CN202110873685.0A 2021-07-27 2021-07-30 量化特征指标对标签影响的分析方法、系统、介质和终端 Active CN113569970B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2021108508623 2021-07-27
CN202110850862 2021-07-27

Publications (2)

Publication Number Publication Date
CN113569970A true CN113569970A (zh) 2021-10-29
CN113569970B CN113569970B (zh) 2024-05-03

Family

ID=78169547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110873685.0A Active CN113569970B (zh) 2021-07-27 2021-07-30 量化特征指标对标签影响的分析方法、系统、介质和终端

Country Status (1)

Country Link
CN (1) CN113569970B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012035547A2 (en) * 2010-09-13 2012-03-22 Manufacturing System Insights (India) Pvt. Ltd. Apparatus that analyses attributes of diverse machine types and technically upgrades performance by applying operational intelligence and the process therefor
CN103413038A (zh) * 2013-08-01 2013-11-27 雷英杰 基于矢量量化的长期直觉模糊时间序列预测方法
CN103426121A (zh) * 2013-04-28 2013-12-04 中国南方电网有限责任公司 一种电网运行评估指标无量纲化的计算方法
US20170278116A1 (en) * 2016-03-28 2017-09-28 International Business Machines Corporation Forecast model calibration
CN108304974A (zh) * 2018-02-26 2018-07-20 中国民航信息网络股份有限公司 一种基于优化C5.0和Apriori的民航NOSHOW预测及强因子分析方法
CN110535864A (zh) * 2019-08-30 2019-12-03 北京达佳互联信息技术有限公司 服务异常检测方法、装置、设备及存储介质
CN112036085A (zh) * 2020-08-31 2020-12-04 中冶赛迪重庆信息技术有限公司 一种轧钢燃耗参数推荐方法、系统、介质及终端
CN112348101A (zh) * 2020-11-16 2021-02-09 中冶赛迪重庆信息技术有限公司 一种基于异常数据分析的轧钢燃耗预警方法及系统
CN112951004A (zh) * 2021-03-09 2021-06-11 东部机场集团有限公司 一种多目标多时段航班保障资源动态优化分配方法
CN113095608A (zh) * 2019-12-23 2021-07-09 中国移动通信集团上海有限公司 指标分析方法、装置、设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012035547A2 (en) * 2010-09-13 2012-03-22 Manufacturing System Insights (India) Pvt. Ltd. Apparatus that analyses attributes of diverse machine types and technically upgrades performance by applying operational intelligence and the process therefor
CN103426121A (zh) * 2013-04-28 2013-12-04 中国南方电网有限责任公司 一种电网运行评估指标无量纲化的计算方法
CN103413038A (zh) * 2013-08-01 2013-11-27 雷英杰 基于矢量量化的长期直觉模糊时间序列预测方法
US20170278116A1 (en) * 2016-03-28 2017-09-28 International Business Machines Corporation Forecast model calibration
CN108304974A (zh) * 2018-02-26 2018-07-20 中国民航信息网络股份有限公司 一种基于优化C5.0和Apriori的民航NOSHOW预测及强因子分析方法
CN110535864A (zh) * 2019-08-30 2019-12-03 北京达佳互联信息技术有限公司 服务异常检测方法、装置、设备及存储介质
CN113095608A (zh) * 2019-12-23 2021-07-09 中国移动通信集团上海有限公司 指标分析方法、装置、设备及存储介质
CN112036085A (zh) * 2020-08-31 2020-12-04 中冶赛迪重庆信息技术有限公司 一种轧钢燃耗参数推荐方法、系统、介质及终端
CN112348101A (zh) * 2020-11-16 2021-02-09 中冶赛迪重庆信息技术有限公司 一种基于异常数据分析的轧钢燃耗预警方法及系统
CN112951004A (zh) * 2021-03-09 2021-06-11 东部机场集团有限公司 一种多目标多时段航班保障资源动态优化分配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张雷;刘世荣;孙鹏森;王同立;: "气候变化对马尾松潜在分布影响预估的多模型比较", 植物生态学报, no. 11 *

Also Published As

Publication number Publication date
CN113569970B (zh) 2024-05-03

Similar Documents

Publication Publication Date Title
CN109242135B (zh) 一种模型运营方法、装置、及业务服务器
CN112036085B (zh) 一种轧钢燃耗参数推荐方法、系统、介质及终端
CN109523188B (zh) 面向人机界面显示的舰员认知特性工效测评方法及系统
CN110888625B (zh) 基于需求变更和项目风险对代码质量进行控制的方法
CN112348101B (zh) 一种基于异常数据分析的轧钢燃耗预警方法及系统
CN110991739A (zh) 一种行业电量需求预测模型的构建方法及预测方法
CN104462445A (zh) 网页访问数据的处理方法和装置
CN112016826A (zh) 变电站设备腐蚀程度确定方法、装置和计算机设备
CN116484269B (zh) 显示屏模组的参数处理方法、装置、设备及存储介质
CN113538370A (zh) 电网巡检方法、装置、计算机设备和存储介质
CN115878958A (zh) 一种变压器油温预测方法、装置、设备及存储介质
CN113723747A (zh) 分析报告生成方法、电子设备及可读存储介质
CN112365156A (zh) 一种数据处理方法、数据处理装置、终端及存储介质
CN113569970A (zh) 量化特征指标对标签影响的分析方法、系统、介质和终端
CN116628615A (zh) 数据异常检测方法、装置、设备以及存储介质
CN114387089A (zh) 客户信用风险评估方法、装置、设备及存储介质
CN114048925A (zh) 一种电网综合运营预警方法、装置及终端设备
CN111598418A (zh) 基于均衡度的项目排序方法、装置、设备和存储介质
CN111467729A (zh) 一种基于预测模型的跳绳计数方法
CN116403403B (zh) 一种基于大数据分析的交通预警方法、系统、设备及介质
CN113362179B (zh) 交易数据的预测方法、装置、设备、存储介质及程序产品
CN116882626A (zh) 结构健康监测方法、装置、设备及存储介质
CN115510097A (zh) 周期性指标判定方法、装置、设备及计算机可读存储介质
CN117557108A (zh) 电力作业风险智能识别模型的训练方法和装置
CN114386525A (zh) 一种评估标准的自适应调整方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 401329 No. 5-6, building 2, No. 66, Nongke Avenue, Baishiyi Town, Jiulongpo District, Chongqing

Applicant after: MCC CCID information technology (Chongqing) Co.,Ltd.

Address before: 20-24 / F, No.7 Longjing Road, North New District, Yubei District, Chongqing

Applicant before: CISDI CHONGQING INFORMATION TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant