CN114238665A

CN114238665A - 一种多主题对标分析方法及系统

Info

Publication number: CN114238665A
Application number: CN202111389076.4A
Authority: CN
Inventors: 张涛; 汤槟; 刘欣; 李士果; 刘秫宏; 吴霞; 鲁宏毅; 毛尚伟; 张晓辉; 王汶; 刘雨佳
Original assignee: CISDI Chongqing Information Technology Co Ltd
Current assignee: CISDI Chongqing Information Technology Co Ltd
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-03-25
Anticipated expiration: 2041-11-22

Abstract

本发明提出一种多主题对标分析方法及系统，包括：根据预设的时间增量从数据源加载数据，对本地数据集进行数据扩增；获取各对标主题对应的分析策略，根据所述分析策略从所述本地数据集获取对应的待分析数据，其中，所述分析策略包括：粒度处理方式、对标分析方式以及数据筛选方式；根据所述分析策略对所述待分析数据进行对标分析，通过数据粒度重组、数据规范化处理以及根因分析获取对标分析结果；根据所述对标分析结果调整对应生产参数；本发明针对数据差异的根因进行合理分析，可有效优化生产活动。

Description

一种多主题对标分析方法及系统

技术领域

本发明涉及智能大数据交互应用领域，尤其涉及一种多主题对标分析方法及系统。

背景技术

随着信息技术的发展，人们在生产生活中会产生大量的应用数据，如何从此应用数据中一目了然对比各种情况下的差异是一大痛点。目前更多的应用和工具有三大待优化的点：第一，它们只是简单的对比各个标的参数的差别，没有综合所有因素分析差异的原因；第二，如何对错综复杂的数据进行合理的划分成不同的标的进行分析，它们更多的是按照几个参数取值来划分，缺乏合理且针对性的数据划分方式，极大地影响对标分析的准确性；第三，如何对各标的参数合理的清晰的展示出它们的差异，也需要优化。

发明内容

鉴于以上现有技术存在的问题，本发明提出一种多主题对标分析方法及系统，主要解决现有的数据对标分析方法难以适应不同生产环境的实际应用需求，适用性和准确性不足的问题。

为了实现上述目的及其他目的，本发明采用的技术方案如下。

一种多主题对标分析方法，包括：

根据预设的时间增量从数据源加载数据，对本地数据集进行数据扩增；

获取各对标主题对应的分析策略，根据所述分析策略从所述本地数据集获取对应的待分析数据，其中，所述分析策略包括：粒度处理方式、对标分析方式以及数据筛选方式；

根据所述分析策略对所述待分析数据进行对标分析，通过数据粒度重组、数据规范化处理以及根因分析获取对标分析结果；

根据所述对标分析结果调整对应生产参数。

可选地，根据预设的时间增量从数据源加载数据，对本地数据集进行数据扩增，包括：

记录所述本地数据集最近一次加载数据的时间节点，根据所述时间节点和所述时间增量从对应的数据源中获取待加载数据，每次完成数据加载后更新所述时间节点。

可选地，所述数据粒度包括：时间粒度和参数组合粒度；

按时间粒度的所述粒度处理方式包括：分别以天、小时或分钟为单位对获取的对应待分析数据求均值，获取对应时间粒度的数据；

按参数组合粒度的所述粒度处理方式包括：记参数组合取值的初始状态为index_1，当所述参数组合取值为index_2时，将index_1至index_2之间的各参数求平均，然后将index_2作为下一个参数组合的初始状态取值，通过预先配置的各参数组合粒度的初始状态取值和结束状态取值，重复以上操作直至处理完全部数据。

可选地，所述对标分析方式包括：

按时间段对标分析，对预设时间段内的待分析数据对应的各参数求均值，获取各时间段内对应参数的差异值；

按班组对标分析，对各班组产生的所述待分析数据对应的各参数求均值，获取各班组对应参数的差异值；

按数据类别对标分析，对各待分析数据进行聚类，获取多个聚类类别，对每个所述聚类类别包含的待分析数据对应的各参数求均值，获取各聚类类别的差异值；

按最佳情况对标分析，获取预设评价指标对应的待分析数据中同一参数的不同粒度取值的最大值和最小值，计算不同粒度下同一参数的所述最大值的差异值和最小值的差异值。

可选地，所述数据规范化处理的方式包括：

其中，n表示预设的缩放值；v_max表示所述待分析数据对应参数的最大值；v_min表示所述待分析数据对应参数的最小值；v表示需要规范化的原始值；c表示规范化后的值；如果v是缺失值或0，不参与计算，c的值为0。

可选地，所述数据规范化处理的方式包括：

其中，n表示预设的缩放值；v_mean:表示所述待分析数据对应参数的均值；v_max表示所述待分析数据对应参数的最大值；v_min表示所述待分析数据对应参数的最小值；v表示需要规范化的原始值；c表示规范化后的值；如果v是缺失值或0，不参与计算，c的值为0。

可选地，所述数据规范化处理的方式包括：

可选地，所述根因分析包括：通过分析不同粒度下同一参数的对应取值对各粒度的影响，获取影响比例值；

若不同粒度下，同一参数的取值均为零，则所述影响比例值为0；

若不同粒度下，同一参数的取值均不为零，则所述影响比例值表示为：

rate＝|(c1-c2)/c2|

若不同粒度下，同一参数的取值不全为零，则所述影响比例值表示为：

rate＝|(|(c1-v_min)/(v_max-v_min)|-|(c2-v_min)/(v_max-v_min)|)|

其中，c1表示第一粒度下参数值，c2表示于c1相同的参数在第二粒度下的取值，v_max表示用于计算的参数在各粒度的最大值，v_min表示与v_max对应的同一参数在各粒度的最小值。

一种多主题对标分析系统，包括：

数据加载模块，用于根据预设的时间增量从数据源加载数据，对本地数据集进行数据扩增；

对标主题配置模块，获取各对标主题对应的分析策略，根据所述分析策略从所述本地数据集获取对应的待分析数据，其中，所述分析策略包括：粒度处理方式、对标分析方式以及数据筛选方式；

对标分析模块，用于根据所述分析策略对所述待分析数据进行对标分析，通过数据粒度重组、数据规范化处理以及根因分析获取对标分析结果；

生产导引模块，用于根据所述对标分析结果调整对应生产参数。

如上所述，本发明一种多主题对标分析方法及系统，具有以下有益效果。

自动从数据源加载待分析数据到本地，可适应不同场景需求进行数据源配置和加载，结合数据粒度处理，保障数据对标分析的准确性，有利于合理分析不同粒度数据差异的原因，及时调整对应的生产参数，为生产活动提供可靠的数据支撑。

附图说明

图1为本发明一实施例中多主题对标分析方法的流程图。

图2为本发明另一实施例中多主题对标分析方法的流程示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明提供种一种多主题对标分析方法，包括以下步骤。

根据所述对标分析结果调整对应生产参数。

具体地，请参阅图1，首先配置数据源以及所有的分析策略，连接数据源获取数据，选择需要分析的对标主题，通过对标主题进行对标数据筛选。进一步对筛选后的数据进行主题对标分析，主体对标分析包括数据粒度重组、参数规范化处理以及根因分析排行，根据根因排行结果进行主体对标数据展示，分析差异原因，指导优化生产参数。

在一实施例中，可使用的数据源包括但不限于：MySQL；Oracle；Hive；HBase；MongoDB；Neo4j；JanusGraph；HugeGraph。

在一实施例中，本地系统可配置独立的数据库，用于存储待分析数据。本地数据库可采用MySQL、Oracle或Hive等。可根据数据源适配本地数据库，这里不作限制。

在一实施例中，可记录所述本地数据集最近一次加载数据的时间节点，根据所述时间节点和所述时间增量从对应的数据源中获取待加载数据，每次完成数据加载后更新所述时间节点。具体地，可设置时间增量，用于更新本地数据库中数据集，具体地，可设置一个增量同步数据的时间字段date_name，然后根据设置的同步时间，从本地数据表中读取date_name字段的最大值max_date_local，从数据源的数据表读取date_name字段的最大值max_date_remote，将max_date_local到max_date_remote之间的数据从源数据库同步到本地数据库。

在一实施例中，在进行数据粒度重组时，可采用以下方式：

按时间粒度的所述粒度处理方式包括：分别以天、小时或分钟为单位对获取的对应待分析数据求均值，获取对应时间粒度的数据；具体地，(1)将N天的数据各参数值求平均；(2)将N小时的数据各参数值求平均；(3)将N分钟的数据各参数值求平均；其中N为正整数。

按参数组合粒度的所述粒度处理方式包括：记参数组合取值的初始状态为index_1，当所述参数组合取值为index_2时，将index_1至index_2之间的各参数求平均，然后将index_2作为下一个参数组合的初始状态取值，通过预先配置的各参数组合粒度的初始状态取值和结束状态取值，重复以上操作直至处理完全部数据。示例性地，设有参数a、b、c、d、e、f、g，第一个组合参数配置为{a，c}，第二个组合参数配置为{c，e}，第三个组合参数配置为{e，g}，从参数a开始依次从数据库中读取参数，当读取到c时，完成一个粒度的参数组合选取，计算a和b的均值作为第一粒度的组合参数均值，同样地，第二粒度的组合参数均值为c和d的均值，第三粒度的参数组合均值为e和f的均值，第四个粒度为g。这里仅示出其中一种参数组合粒度处理方式，不应视作对本发明的限制，也可采用其他方式进行参数组合划分，这里不作限制。

在一实施例中，在进行对标分析时，可采用以下几种对标分析方式，具体地，按时间段对标分析：选择记录时间的字段，并设置多个具体的时间段，然后将各个时间段各参数求均值，最后对标分析各个时间段各参数情况。

按班组对标分析：选择记录班组的字段，然后将不同班组取值的各参数求均值，最后对标分析各个班组各参数情况。

按智能聚类对标分析：选择需要聚类的参数，并设置聚类的类别数，然后根据设置将数据聚类出设置的类别数，对每个类别的各参数求均值，最后将各个类别进行对标分析。

按最佳情况对标分析：选择一个评价指标，然后选取出最大最小值对应的记录，最后将这两条数据进行对标分析。

在一实施例中，在进行数据筛选时，可根据设置的数据源，配置可以筛选的字段，当需要进行主题对标分析时，用户可以设置配置好的字段取值范围，筛选需要对标分析的数据。

在一实施例中，将主题对标分析结果进行展示，包括但不限于以下几部分：(1)主题类别，展示可选择全部配置的主题名，当前分析的对标主题加深展示；(2)粒度处理方法，可选择用户配置的所有粒度处理方法，展示当前对标分析所使用的粒度处理方法；(3)数据筛选项，可选择用户配置的数据筛选项目，展示当前主题对标分析所使用的数据；(4)各标的参数对比展示，将主题对标各标的的每个参数进行规范化后再展示；(5)各标的参数真实值展示，将主题对标各标的的每个参数具体值通过表格形式展示；(6)导致各标的区别的参数排行展示，通过根因排行算法计算导致各标的区别的参数比例，并从大到小进行展示前N个参数，N为正整数，取值范围为1至各标的总参数个数。

请参阅图2，下面以轧钢燃气单耗相关主题数据对标分析为例。

在步骤S1中，配置存储轧钢生产过程中的工艺参数的MySQL数据库源，获取数据到本地数据库。

在一实施例中，获取的轧钢生产工艺参数包括：“入口材料号”、“入炉时间”、“出炉时间”、“轧制开始时间”、“产线id”、“钢种”、“钢坯规格”、“成品规格”、“预热段出口钢坯温度”、“预热段上方炉气温度”、“预热段下方炉气温度”、“加热段出口钢坯温度”、“加热段上方炉气温度”、“加热段下方炉气温度”、“加热时间”、“出炉温度”、“均热段上方炉气温度”、“均热段下方炉气温度”、“均热时长”、“入炉温度”、“红送率”、“出钢节奏”、“断面温差”、“燃气单耗”、“在炉总时长”、“煤气热值”、“炉次号”、“班组”、“机架速度运行平均值”、“机架电流百分比平均值”、“机架头部电流百分比平均值”、“机架尾部电流百分比平均值”、“入炉温度<200°”、“入炉温度200°～300°”、“入炉温度300°～400°”、“入炉温度400°～500°”、“入炉温度500°～600°”、“入炉温度600°～700°”、“入炉温度700°～800°”，“入炉温度>800°”，“入炉温度>400°”。

在一实施例中，本地数据库的数据增量同步方式设置为：以数据源库表中入炉时间字段为准，每天0点增量同步源数据库比本系统数据库最大入炉时间多的数据。

在步骤S2中，主要包括设置粒度处理方式、对标分析方法、数据筛选方式、对标主题名。

在一实施例中，粒度处理方式设置的以出炉时间1小时、1天为粒度进行处理。

在一实施例中，对标方法设置的按出炉时间段对标、班组对标、产线对标、按照绩效指标对标。

在一实施例中，数据筛选方式设置了班组、钢种、钢坯规格、成品规格、出炉时间、入炉温度、煤气热值、产线id为筛选字段。

在步骤S3中对标主题有按时间对标、按班组对标、按产线对标、按外部条件对标、按绩效对标。

在一实施例中，时间主题对标按照时间长度设置三个标的，可以自行选择每个标的时间范围，本例中分别设置时间段1(2020-09-01至2020-10-01)，时间段2(2020-10-01至2020-11-01)，时间段3(2020-11-01至2020-12-01)。

在一实施例中，班组主题对标按照班组分标的，本实施例中共有4个班组(甲、乙、丙、丁)。

在一实施例中，产线主题对标按照产线分标的，本实施例中共有3条产线(1，2，3)。

在一实施例中，绩效指标主题对标，以燃气单耗字段为特征采用密度聚类将数据划分为3个标的。

在一实施例中，外部条件主题对标，以入炉温度、煤气热值字段为特征采用密度聚类将数据划分为3个标的。

在一实施例子，用户选择班组主题对标、选择粒度处理为1天，筛选数据的字段值分别设置为：班组可取值甲乙丙丁；钢种不限制；钢坯规格为170*170*11；成品规格可取值为22；出炉时间可取值为2020-09-01至2020-11-30；入炉温度为0至500°；煤气热值不限制；产线id可取值为3。

在步骤S4中，班组主题对标的结果对比中，柱状图采用以下规范化方法：

方法一：

n:缩放值默认为2；

v_max:此参数在各标的的最大值；

v_min:此参数在各标的的最小值；

v:需要规范化的原始值；

c:最后规范化的值；如果v是缺失值或0，不参与计算，c直接为0。

在一实施例中，班组主题对标中，甲乙丙丁各标的详细数据显示了按照出炉时间一天粒度处理后的“均热时长”、“入炉温度”、“红送率”、“出钢节奏”、“断面温差”、“燃气单耗”、“在炉总时长”、“煤气热值”、“入炉温度<200°”、“入炉温度200°～300°”、“入炉温度300°～400°”、“入炉温度400°～500°”、“入炉温度500°～600°”、“入炉温度600°～700°”、“入炉温度700°～800°”，“入炉温度>800°”，“入炉温度>400°”等字段数据。

在一实施例中，班组主题对标，对比各标的区别的根因排行算法为：

方法一：

通过分析不同粒度下同一参数的对应取值对各粒度的影响，获取影响比例值；

rate＝|(c1-c2)/c2|

rate＝|(|(c1-v_min)/(v_max-v_min)|-|(c2-v_min)/(v_max-v_min)|)|

在步骤S5中，通过班组主题对标分析及相关结果展示，再加上丁丙的根因排行结果，可以发现丁比丙燃气单耗低的原因主要是入炉温度较高，煤气热值高的原因。之后丙班生产可以调节上游相应的工艺，降低燃气单耗。

本实施例中还提供了一种多主题对标分析系统，用于执行前述方法实施例中所述的多主题对标分析方法。由于系统实施例的技术原理与前述方法实施例的技术原理相似，因而不再对同样的技术细节做重复性赘述。

在一实施例中，一种多主题对标分析系统，包括：数据加载模块，用于根据预设的时间增量从数据源加载数据，对本地数据集进行数据扩增；对标主题配置模块，获取各对标主题对应的分析策略，根据所述分析策略从所述本地数据集获取对应的待分析数据，其中，所述分析策略包括：粒度处理方式、对标分析方式以及数据筛选方式；对标分析模块，用于根据所述分析策略对所述待分析数据进行对标分析，通过数据粒度重组、数据规范化处理以及根因分析获取对标分析结果；生产导引模块，用于根据所述对标分析结果调整对应生产参数。

综上所述，本发明一种多主题对标分析方法及系统，具有普适性和鲁棒性，不只是局限于某一行业、某一领域使用；支持多种数据源，可以与多种场景融合，随意配置需要的数据粒度处理方法和主题对标分析方法，可视化呈现数据情况和各标的区别，帮助分析原因指导生产调控。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种多主题对标分析方法，其特征在于，包括：

根据所述对标分析结果调整对应生产参数。

2.根据权利要求1所述的多主题对标分析方法，其特征在于，根据预设的时间增量从数据源加载数据，对本地数据集进行数据扩增，包括：

3.根据权利要求1所述的多主题对标分析方法，其特征在于，所述数据粒度包括：时间粒度和参数组合粒度；

4.根据权利要求1所述的多主题对标分析方法，其特征在于，所述对标分析方式包括：

5.根据权利要求1所述的多主题对标分析方法，其特征在于，所述数据规范化处理的方式包括：

6.根据权利要求1所述的多主题对标分析方法，其特征在于，所述数据规范化处理的方式包括：

7.根据权利要求1所述的多主题对标分析方法，其特征在于，所述数据规范化处理的方式包括：

8.根据权利要求1所述的多主题对标分析方法，其特征在于，所述根因分析包括：通过分析不同粒度下同一参数的对应取值对各粒度的影响，获取影响比例值；

rate＝|(c1-c2)/c2|

rate＝|(|(c1-v_min)/(v_max-v_min)|-|(c2-v_min)/(v_max-v_min)|)|

9.一种多主题对标分析系统，其特征在于，包括：