CN109241077A

CN109241077A - 基于相似性的生产指标变化趋势可视化查询系统及方法

Info

Publication number: CN109241077A
Application number: CN201810999965.4A
Authority: CN
Inventors: 许美蓉; 于潇然; 丁进良; 徐泉; 初延刚
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2019-01-18

Abstract

本发明提供一种基于相似性的生产指标变化趋势可视化查询系统及方法，涉及执行制造系统的可视化分析技术领域。该系统包括指标管理模块、指标数据清洗模块、指标查询模块和指标可视化模块，实现对工业生产指标进行管理和可视查询。操作人员选取待查询的时间序列，与历史数据进行特征匹配，提取出相似的时间序列数据，并进行可视化，辅助用户洞察工业生产指标的历史数据之间的关系，最终达到辅助决策的目的。本发明的基于相似性的生产指标变化趋势可视化查询系统及方法，可以从历史数据中查找出与该时间序列相似的指标数据，显示给操作人员，帮助操作人员对各个生产指标进行可视分析，洞察数据之间的关系，辅助决策。

Description

基于相似性的生产指标变化趋势可视化查询系统及方法

技术领域

本发明涉及执行制造系统的可视化分析技术领域，尤其涉及一种基于相似性的生产指标变化趋势可视化查询系统及方法。

背景技术

工业生产过程一般具有流程长、工序多、设备多的特点，选矿生产过程中的工艺配置灵活多变。在生产过程中，为了更大效率的提高生产质量和效益，需对生产过程中的指标进行分析，在指标分析过程中，指标的历史数据中具有与待查询指标相似特征的历史数据对于分析指标特征具有重要作用，因此提取具有相似特征的指标历史数据进行对比分析，对指导生产指标的分析有着重要意义。此外，工业生产过程中的工序具有典型多输入多输出的特性，当分析工序的输入对输出影响关系时，往往需要对多维的输入指标进行分析，而提取具有相似特征的该多维输入指标历史数据是进行多维指标分析的一个重要环节，具有相似特征的历史数据可以很好的辅助用户对生产指标进行分析和决策，对于提升工业生产指标监控和分析有着重要作用。所以，对工业生产指标进行可视化查询，对辅助用户进行生产决策和优化分析，保证产品质量和提高经济效益有重要意义。

目前在可视化查询领域有一定的专利，如“201710427410.8(一种数据库的可视化查询方法及系统)”通过生成可视化图形界面，构建分析任务可视化模块；对可视化模块进行语句翻译，以生成的目标查询语言语句序列；根据所述目标查询语言语句序列对数据库进行查询。“201510309621.2(基于可视化时间筛选器的查询时间相关数据的方法)”在首次查询时，缓存查询条件，方便后继在操作时间筛选器时可对查询条件进行快速修改，将查询条件进行临时保存，以达到能够快速地利用相似的查询条件进行查询，提高了多次重复操作的效率。“201711283037.X(一种选矿生产指标可视化分析系统与方法)”实现对选矿生产指标的配置管理、可视化分析和异常处理，提高了选矿重要生产指标可视化分析效果。上述专利主要针对数据可视化和数据查询，而缺乏1)工业生产过程中通过指标数据形状特征是否相似的判断来进行指标数据的相似性查询；2)对工业生产指标中的多维指标数据进行多维相似性可视化查询。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于相似性的生产指标变化趋势可视化查询系统及方法，实现对工业生产过程中的生产指标进行实时管理和可视查询。

一方面，本发明提供一种基于相似性的生产指标变化趋势可视化查询系统，包括指标管理模块、指标数据清洗模块、指标查询模块和指标可视化模块；

所述指标管理模块对选矿生产指标进行管理，提供工业生产指标数据的添加、删除、修改和查询功能；

所述指标数据清洗模块对指标数据中的残缺数据、重复数据和偶然脉冲型数据进行处理；

所述指标查询模块采用相似性算法将用户选取的待查询的时间序列与历史数据匹配，从历史数据中提取出与待查询时间序列相似的时间序列数据，辅助用户洞察工业生产指标历史数据之间的关系，达到辅助决策的目的；

所述相似性算法是指在查询模块中根据相似性定义进行特征匹配的算法，通过DTW算法进行指标时间序列的特征匹配，实现指标的相似性查询；

所述相似性定义是指在指标时间序列查询过程中，两段时间序列指标趋势相似的定义；通过计算当忽略不变量时待查询时间序列与历史数据的匹配程度来对相似性进行评价，提取出需要的相似性数据；

所述不变量是指在数据查询过程中，操作人员认为可忽略的指标序列的属性，即忽略该不变量之后的匹配认为是相似的；

所述指标可视化模块包括工业生产过程的生产指标数据的可视化显示和可视化交互；所述可视化显示包括生产指标数据的实时显示以及历史数据查询结果显示；所述可视化交互包括生产指标数据曲线的区域缩放以及时间序列的选取。

优选地，所述指标管理模块的数据来源为从数据库中读取的DCS(DistributedControl System，即分布式控制系统)采集的数据、ERP(Enterprise Resource Planning，即企业资源计划)数据以及手动录入的数据；所述对工业生产指标进行管理用于对工业生产指标进行实时监控，并通过曲线显示的方式直观反映指标数据的变化趋势；所述工业生产指标数据添加功能用于添加数据库中没有采集到的工业生产指标以及对现有生产指标信息进行添加补全；所述工业生产指标数据删除功能用于删除工业生产指标某时刻的数据、删除工业生产指标某时间段内的数据，以及删除工业生产指标的全部数据；所述工业生产指标数据修改功能用于修改指标数据值；所述工业生产指标数据的查询功能用于对某一指标或多个指标的某一时段的历史数据的查询。

优选地，所述残缺数据处理用于对生产指标中读入的缺少信息的残缺数据的处理以及未读入的某时段的数据的处理；所述对读入的缺少信息的残缺数据进行处理的方法为，在指标管理模块中进行手动添加和修改；所述对未读入数据进行处理的方法为，采用均值插补的方法，处理随机缺失的数据，估计出待插补的值，由于同一指标数据采样频率相同，所以采用该数据前后各若干个采样点的数据的平均值来填补该缺失点的数据；所述对重复数据进行处理的方法为，对于生产指标中出现的重复数据进行处理，提取出待可视化数据后，删除重复的数据；所述对偶然脉冲型数据进行处理的方法为，在生产指标数据中出现的偶然单次脉冲信号，通过先删除，再用均值插补的方法进行插补；

优选地，所述指标查询模块包括针对某一个指标进行分析时的单维指标数据查询，以及针对某一个工序分析其输入指标与输出指标之间的关系时，对多维指标进行特征匹配时的多维指标数据查询。

优选地，所述指标曲线区域缩放具体为：操作人员通过在浏览器端滑动鼠标滚轮实现曲线在可视化显示区域的缩小和放大，便于观察指标趋势和指标细节数据；所述时间序列选取具体为：操作人员在浏览器端通过刷选或拖动方式手动选取一段待查询的指标时间序列趋势图；对于不同的指标、工序或不同的异常情况，能反映指标趋势情况的时间序列的长度有所不同，所以允许操作人员在刷选指标趋势时，根据实际情况选择待查询时间序列的长度。

优选地，所述单维指标数据查询用于在生产过程中，操作人员在分析某一指标的某一段数据与历史数据的关系时，通过在指标曲线上刷选出待查询的时间序列，采用相似性算法将待查询的时间序列数据与历史数据进行特征匹配，在历史数据中提取出与待查询的时间序列数据相似的指标时间序列数据，显示给操作人员，便于操作人员分析数据，洞察数据之间的关系。

优选地，所述多维指标查询用于当操作人员需要通过查询历史数据中的相似数据来分析输入指标数据对输出指标数据的影响时，选择工业生产指标中影响某工序的某一输出指标的多个输入指标的相似数据，对其进行分析；当该输出指标数据出现异常时，对影响该输出指标的多个输入指标进行相似性查询，分析指标的联系。

另一方面，本发明还提供一种采用本发明的基于相似性的生产指标变化趋势可视化查询系统进行查询的方法，包括以下步骤：

步骤1、通过从数据库读取和手动输入数据的方式来获取工业生产过程的指标数据，并以报表的形式形成指标管理模块；并通过指标管理模块实现生产指标的添加、删除和修改；

步骤2、采用模块对工业生产指标数据中的残缺数据、重复数据和偶然脉冲型数据进行处理；

步骤3、通过指标可视化模块将工业生产指标的各采样点数据以曲线形式进行可视化显不；

步骤4、使用者在浏览器端操作，从历史数据中选取待查询的时间段的指标数据；

步骤5、将待查询时间段内的时间序列作为参考模板R，将该模板与历史数据匹配，提取出在相似度较高范围内的时间序列；当操作人员需要分析任一指标的任一段数据与历史数据的关系时，采用单维指标数据查询；当操作人员需要通过查询历史数据中的相似数据来分析输入指标对输出指标的影响时，采用多维指标查询；

所述单维指标数据查询的具体方法为：

S1、将用户通过浏览器端选取的待查询的时间序列作为参考模板R；

S2、判断历史数据是否遍历完毕，若没有遍历完毕，则执行S3，若历史数据遍历完毕，则结束匹配，执行S7；

S3、确定与参考模板进行匹配的测试模板T；读取在该参考模板之前半年的历史数据，从该段数据中选取与参考模板进行匹配的时间序列作为测试模板，从该段数据的第一个采样点开始，提取出一个与参考模板长度相同的测试模板，将其与参考模板匹配；再次执行该步骤时，通过滑动窗口的方式，以步长为1的距离，抽取与参考模板相同采样点个数的下一个时间序列作为测试模板；

S4、采用DTW(Dynamic Time Warping，即动态时间规整)算法计算参考模板R与测试模板T之间的匹配程度，计算两个模板之间的DTW值；

所述采用DTW算法对参考模板和测试模板进行特征匹配的具体方法为：

S4.1，计算参考模板R与测试模板T之间的距离；计算参考模板R中每个分量和测试模板T中每个分量之间的距离d，该距离采用欧式距离；各个分量之间的欧式距离构成一个匹配距离矩阵，矩阵的行数为参考模板R的长度，列数为测试模板T的长度；

S4.2，通过匹配距离矩阵元素形成的网格的若干格点的路径为匹配路径，根据每个元素的代价来寻找最短路径的距离；所述匹配距离矩阵中任一元素的代价为该元素的值+min{来自下、左、斜下这三个方向的值}，得到代价最小的路径即为最短路径；

S4.3，求参考模板R和测试模板T之间的最短路径的直接距离，该距离即为两个模板的最短路径的距离；匹配距离矩阵形成的网格满足如下的约束：当从一个方格((a-1，b-1)或者(a-1，b)或者(a，b-1))中到下一个方格(a，b)，如果是横着或者竖着的话其距离为d(a，b)，如果是斜着对角线过来的则是2d(a，b)，其约束条件为：

其中，g(a，b)表示参考模板R和测试模板T均从起始分量逐次匹配，已经到了R中的a分量和T中的b分量，匹配到此步是两个模板之间的距离，并且都是在前一次匹配的结果上加d(a，b)或者2d(a，b)，然后取最小值；从起点匹配到终点时，计算出的最小值即为两个模板之间的DTW值；

S5、操作人员根据经验选择与参考模板相似的相似模板，计算参考模板与相似模板之间的DTW值作为经验值；

S6、判断计算出的DTW值是否小于经验值；若小于，则判定参考模板R与测试模板T相似，并返回S2，继续选择测试模板进行匹配，否则，直接返回S2；

S7、将提取出的工业生产指标的历史数据中与待查询时间序列相似的数据分别显示在不同的二维坐标中，按照相似度强弱依次从大到小横向排列，显示给操作人员；

所述多维指标数据查询的具体方法为：

C1、将指标原始数据进行归一化处理，以便将多维数据同时显示在二维坐标中；

C2、将多维指标数据进行可视化显示；由于不同指标之间量纲不同，所以多维指标显示时，每一维指标使用一个二维坐标表示，其中X轴表示时间，Y轴表示指标的数据，将这些二维坐标按横坐标进行对齐，通过指标二维坐标的组合实现对多维指标的可视化，简称协同二维坐标；操作人员在浏览器端选择要查询的指标，确定工业生产过程的工艺输入和输出，操作人员从工业生产某工序的多个输出指标中确定一个核心指标，确定影响该输出指标的p个输入指标；在指标可视化模块选择要查询的指标，系统只对这些指标的原始数据进行显示；

C3、确定出输入指标的多维数据后，当输出指标出现异常情况时，操作人员通过人机交互的方式，在影响该输出指标的多维输入指标曲线上刷选出现异常的时间序列，确定为参考模板，将这些参考模板的时间序列分别记为：X₁，X₂，…X_j，…X_p，其中，X_j为第j个指标在此时间序列下的数值，j＝1、2、…、p；

C4、采用Pearson相关系数分别计算每个输入指标与该输出指标之间的相关性系数，并根据经验确定相关性系数的经验值，相关性系数小于该经验值的输入指标视为与输出相关性较弱，将其剔除，保留N个指标，进一步降低指标维数；输入指标与输出指标的相关性系数分别为：r₁，r₂，…r_j，…r_p，其中，r_j为第j个输入指标与输出指标的相关性系数，如下公式所示：

其中，x_i为任一输入指标的第i个分量，为该输入指标的各个分量的平均值，y_i为输出指标的第i个分量，表示输出指标的各个分量的平均值，n为输入指标和输出指标中分量个数；

C5、将各个输入指标和输出指标之间的相关性系数按比例缩放，得到各个输入指标对于输出指标的影响的占比，记为λ₁，λ₂，…λ_j′，…λ_N，其中，为第j′个输入指标对输出指标的影响的占比，j′＝1，2，…，N；

C6、将选取的多维指标的异常情况下的时间序列与历史数据进行特征匹配，提取出相似的多维指标时间序列，具体方法为：

C6.1、确定参考模板，即输出指标出现异常情况时，操作人员通过人机交互的方式在指标曲线上刷选出多个指标的时间序列X₁，X₂，…X_j′，…X_N；

C6.2、判断在该参考模板之前半年的历史数据是否遍历完毕，若没有遍历完毕，则执行C6.3，若历史数据遍历完毕，则结束匹配，执行C7；

C6.3、从多维输入指标的历史数据中同时提取与参考模板长度相同，采样点数量相等的相同时间段相同指标的时间序列作为测试模板，读取在该参考模板之前半年的历史数据，从该段数据的第一个采样点开始，提取测试模板，再次执行该步骤时，通过滑动窗口的方式，以步长为1的距离，抽取与参考模板相同采样点个数的下一个时间序列作为测试模板；一次选取的多维指标的时间序列分别为C₁，C₂，…C_j′，…C_N；

C6.4、采用DTW算法，对原始数据归一化后的参考模板和测试模板进行匹配，消除指标量纲对于DTW值贡献程度的影响；分别将测试模板与参考模板匹配，采用DTW算法分别计算每个指标的参考模板和测试模板归一化后的数据匹配后的DTW值，记为g₁，g₂，…g_j′，…g_N；C6.5、计算出每个指标匹配后的DTW值之后，采用相关性系数对各个指标匹配后的DTW值进行加权平均，得多维指标的综合评价值；即多维指标相似性匹配的综合评价值P＝g₁*λ₁+g₂*λ₂+…+g_j′*λ_j′+…+g_N*λ_N；

C6.6、操作人员在历史数据曲线上通过刷选的方式，根据经验选取与参考模板相似的指标时间序列，计算该时间序列与参考模板采用DTW算法匹配后的综合评价值，作为经验值X；

C6.7、判断多维指标相似性匹配的综合评价值P与经验值X的大小，若P＜X，则判定从历史数据中提取的多维指标的时间序列与参考模板相似，并返回C6.2，继续选择测试模板进行匹配，否则，直接返回C6.2；

C7、完成匹配后将从历史数据中提取的多维指标数据作为历史数据查询结果进行显示，将查询结果显示给操作人员；

步骤6、查询匹配后，将提取出的工业生产指标的历史数据中与待查询时间序列相似的数据曲线显示，帮助用户分析数据间的关系，辅助决策；将提取出的多个相似数据按照相似度的强弱依次从大到小横向排列。

采用上述技术方案所产生的有益效果在于：本发明提供的基于相似性的生产指标变化趋势可视化查询系统及方法，在工业生产过程中，在对指标数据可视化显示的基础上，提供一种可视化查询方法，操作人员在指标曲线上刷选待查询的时间序列，可以从历史数据中查找出与该时间序列相似的指标数据，显示给操作人员，帮助操作人员对各个生产指标进行可视分析，洞察数据之间的关系，辅助决策。同时，在工业生产过程中，分析某工序或设备的输入指标与输出指标之间的关系时，当需要同时查询多个指标时，采用多维指标查询方法，能够进行某些多维输入指标的查询，帮助操作人员更好的分析数据之间的关系，更加符合企业的实际生产过程针对工序中多指标共同分析时的实际需求。

附图说明

图1为本发明实施例提供的一种基于相似性的生产指标变化趋势可视化查询系统的结构框图；

图2为本发明实施例提供的采用基于相似性的生产指标变化趋势可视化查询系统进行可视化查询方法的流程图；

图3为本发明实施例提供的2018年5月30日的选矿综精产量(湿重)指标数据；

图4为本发明实施例提供的单维指标数据可视化查询方法的流程图；

图5为本发明实施例提供的部分单维指标数据查询的结果图，其中，(a)为提取的相似时间序列结果中相似度最高的时间序列，(b)为提取的相似时间序列的结果中相似度较(a)次之的时间序列；

图6为本发明实施例提供的多维指标数据可视化查询方法的流程图；

图7为本发明实施例提供的可视化显示的多维指标原始数据，其中，(a)为燃烧室温度指标的原始数据，(b)为还原煤气流量的原始数据，(c)为搬出时间的原始数据，(d)为燃烧煤气热值的原始数据，(e)为水封池温度的原始数据；

图8为本发明实施例提供的多维指标算法匹配流程图；

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施例以选矿过程为例，使用本发明的基于相似性的生产指标变化趋势可视化查询系统及方法对选矿过程的生产指标数据进行管理查询。

基于相似性的生产指标变化趋势可视化查询系统，如图1所示，包括指标管理模块、指标数据清洗模块、指标查询模块和指标可视化模块；

指标管理模块对选矿生产指标进行管理，提供工业生产指标数据的添加、删除、修改和查询功能；

指标管理模块的数据来源为从数据库中读取的DCS(Distributed ControlSystem，即分布式控制系统)采集的数据、ERP(Enterprise Resource Planning，即企业资源计划)数据以及手动录入的数据；对工业生产指标进行管理用于对工业生产指标进行实时监控，并通过曲线显示的方式直观反映指标数据的变化趋势；工业生产指标数据添加功能用于添加数据库中没有采集到的工业生产指标以及对现有生产指标信息进行添加补全；工业生产指标数据删除功能用于删除工业生产指标某时刻的数据、删除工业生产指标某时间段内的数据，以及删除工业生产指标的全部数据；工业生产指标数据修改功能用于修改指标数据值；工业生产指标数据的查询功能用于对某一指标或多个指标的某一时段的历史数据的查询。

指标数据清洗模块对指标数据中的残缺数据、重复数据和偶然脉冲型数据进行处理；

残缺数据处理用于对生产指标中读入的缺少信息的残缺数据的处理以及未读入的某时段的数据的处理；对读入的缺少信息的残缺数据进行处理的方法为，在指标管理模块中进行手动添加和修改；对未读入数据进行处理的方法为，采用均值插补的方法，处理随机缺失的数据，估计出待插补的值，由于同一指标数据采样频率相同，所以采用该数据前后各若干个采样点的数据的平均值来填补该缺失点的数据；对重复数据进行处理的方法为，对于生产指标中出现的重复数据进行处理，提取出待可视化数据后，删除重复的数据；对偶然脉冲型数据进行处理的方法为，在生产指标数据中出现的偶然单次脉冲信号，通过先删除，再用均值插补的方法进行插补；

指标查询模块采用相似性算法将用户选取的待查询的时间序列与历史数据匹配，从历史数据中提取出与待查询时间序列相似的时间序列数据，辅助用户洞察工业生产指标历史数据之间的关系，达到辅助决策的目的；

相似性算法是指在查询模块中根据相似性定义进行特征匹配的算法，通过DTW(Dynamic Time Warping，即动态时间规整)算法进行指标时间序列的特征匹配，实现指标的相似性查询。

相似性定义是指在指标时间序列查询过程中，可认为两段时间序列指标趋势相似的定义。通过计算当忽略不变量时待查询时间序列与历史数据的匹配程度来对相似性进行评价，提取出需要的相似性数据。

不变量是指在数据查询过程中，操作人员认为可以忽略的指标序列的属性，即忽略该不变量之后的匹配认为是相似的。

指标查询模块包括针对某一个指标进行分析时的单维指标数据查询，以及针对某一个工序分析其输入指标与输出指标之间的关系时，对多维指标进行特征匹配时的多维指标数据查询。

指标可视化模块包括工业生产过程的生产指标数据的可视化显示和可视化交互；可视化显示包括生产指标数据的实时显示以及历史数据查询结果显示；可视化交互包括生产指标数据曲线的区域缩放以及时间序列的选取。

指标曲线区域缩放具体为：操作人员通过在浏览器端滑动鼠标滚轮实现曲线在可视化显示区域的缩小和放大，便于观察指标趋势和指标细节数据；时间序列选取具体为：操作人员在浏览器端通过刷选或拖动方式手动选取一段待查询的指标时间序列趋势图；对于不同的指标、工序或不同的异常情况，能反映指标趋势情况的时间序列的长度有所不同，所以允许操作人员在刷选指标趋势时，根据实际情况选择待查询时间序列的长度。

单维指标数据查询用于在生产过程中，操作人员在分析某一指标的某一段数据与历史数据的关系时，通过在指标曲线上刷选出待查询的时间序列，采用相似性算法将待查询的时间序列数据与历史数据进行特征匹配，在历史数据中提取出与待查询的时间序列数据相似的指标时间序列数据，显示给操作人员，便于操作人员分析数据，洞察数据之间的关系。操作人员在系统允许的区间范围内刷选其认为合适的时间序列的长度。

多维指标查询用于当操作人员需要通过查询历史数据中的相似数据来分析输入指标数据对输出指标数据的影响时，选择工业生产指标中影响某工序的某一输出指标的多个输入指标的相似数据，对其进行分析；当该输出指标数据出现异常时，对影响该输出指标的多个输入指标进行相似性查询，分析指标的联系。

采用本发明的基于相似性的生产指标变化趋势可视化查询系统进行查询的方法，如图2所示，包括以下步骤：

本实施例中，从数据库的对应表中读取选矿综精产量(湿重)指标，将其呈现在报表中，并通过添加、删除和修改功能对选矿综精产量的数据进行添加、删除和修改操作。

步骤2、采用数据清洗模块对工业生产指标数据中的残缺数据、重复数据和偶然脉冲型数据进行处理；

本实施例中，选矿综精产量(湿重)的2018年5月30日13时的数据缺失选矿综精产量(湿重)的指标值，则在指标管理模块手动添加该指标值。对于未采集到的残缺数据，如图3所示，通过插补的方法添加，计算缺失点前后各8个，共16个采样点的数据的平均值288.2，该平均值即为该点的指标数据值。

选矿精综产量(湿重)2017年10月20日16时的数据存在两个，则通过操作数据库来去除重复数据。

步骤3、通过指标可视化模块将工业生产指标的各采样点数据以曲线形式进行可视化显示；

本实施例以选矿过程为例，采用如图4所示的单维指标数据查询方法进行单维指标数据查询。

本实施例以表1中2018年6月1日的选矿综精产量(湿重)指标在1:00-15:00时间段内的15个点的时间序列数据做为参考模板R：

R＝{308，288，297，288，257，266，347，222，309，300，281，241，222，277，213}；

表1 2018年6月1日选矿综精产量(湿重)指标数据

本实施例中，选取2018年1月1日至2018年5月31日时间范围内，每天的时间段为1:00-15:00、2:00-16:00等滑动长度为1，且起始时间不同、长度相同的时间序列的选矿综精产量(湿重)指标时间序列数据为测试模板，构成测试模板T1、T2、……。

本实施例以参考模板和第一个测试模板T1为例计算参考模板与测试模板之间的距离。测试模板T1如表2所示，为2018年1月1日1:00-15:00时间序列的数据：T1＝{183，300，284，277，283，289，287，258，289，289，289，289，261，293，249}；

采用欧式距离计算参考模板R中每个分量和T1中每个分量之间的距离，例如参考模板R中第一个分量和T1中第一个分量之间的距离所有欧式距离组合形成一个15*15的矩阵，矩阵行数为标准参考模板R的长度，列数为测试模板T1的长度。

表2 2018年1月1日选矿综精产量(湿重)指标数据：

指标名称	采样时刻	指标数据
			选矿综精产量(湿重)	2018/1/1 1:00	183
选矿综精产量(湿重)	2018/1/1 2:00	300
			选矿综精产量(湿重)	2018/1/1 3:00	284
选矿综精产量(湿重)	2018/1/1 4:00	277
			选矿综精产量(湿重)	2018/1/1 5:00	283
选矿综精产量(湿重)	2018/1/1 6:00	289
			选矿综精产量(湿重)	2018/1/1 7:00	287
选矿综精产量(湿重)	2018/1/1 8:00	258
			选矿综精产量(湿重)	2018/1/1 9:00	289
选矿综精产量(湿重)	2018/1/1 10:00	289
			选矿综精产量(湿重)	2018/1/1 11:00	289
选矿综精产量(湿重)	2018/1/1 12:00	289
			选矿综精产量(湿重)	2018/1/1 13:00	261
选矿综精产量(湿重)	2018/1/1 14:00	293
			选矿综精产量(湿重)	2018/1/1 15:00	249
选矿综精产量(湿重)	2018/1/1 16:00	198
			选矿综精产量(湿重)	2018/1/1 17:00	212
选矿综精产量(湿重)	2018/1/1 18:00	207
			选矿综精产量(湿重)	2018/1/1 19:00	153
选矿综精产量(湿重)	2018/1/1 20:00	160
			选矿综精产量(湿重)	2018/1/1 21:00	242
选矿综精产量(湿重)	2018/1/1 22:00	296
			选矿综精产量(湿重)	2018/1/1 23:00	206
选矿综精产量(湿重)	2018/1/2 0:00	193

本实施例中，以匹配距离矩阵形成的网格中的(1，1)点为起始点，(1，2)，(2，3)，(2，4)，(2，5)，(3，6)，(4，7)，(5，8)……点为路径，计算得参考模板R和测试模板T1之间的直接距离为446，该距离即为两个模板的最短路径的距离。

S5、操作人员根据经验选择与参考模板相似的相似模板，计算参考模板与相似模板之间的DTW值作为经验值；本实施例中，计算得到的DTW值的经验值为300.

本实施例中，计算的DTW值为446，大于经验值300，所以，测试模板T1和参考模板不相似，需要直接返回S2，重新从历史数据中选择测试模板。

本实施例中，对单维选矿综精产量(湿重)指标的查询结果如图5所示。

本实施例以竖炉焙烧过程为例，采用如图6所示的多维指标数据查询方法进行多维指标数据查询。

C1、将指标原始数据进行归一化处理，以便将多维数据同时显示在二维坐标中；本实施例采用的归一化方法为：其中，x为指标数据分量，x(max)为该指标的最大值，x(min)为该指标数据的最小值。

本实施例以竖炉焙烧工序中的燃烧室温度指标为例，刷选出2018年6月1日数据中的15个数据点组成的时间序列，其原始数据为：

{1091，1001，1120，906，900，856，849，846，835，806，819，1009，1160，1160，1069}

归一化后数据为：

{0.805084746，0.550847458，0.88700565，0.282485876，0.265536723，0.141242938，0.121468927，0.11299435，0.081920904，0，0.036723164，0.573446328，1，1，0.742937853}

类似地，对指标的竖炉焙烧过程的所有原始数据做归一化处理。

本实施例中，输出指标为一次溢出回收率，输入指标为燃烧室温度、还原煤气流量、搬出时间、燃烧煤气热值、水封池温度这5个指标。这5个指标的原始数据可视化显示如图7所示。

本实施例中，当输出指标出现异常情况时，操作人员通过浏览器在5个输入指标数据中刷选出异常数据区域，得到一组时间相同、采样点数相同的多维指标时间序列，确定为参考模板，参考模板数据如表3-表7所示：

表3刷选的燃烧室温度指标数据

表4刷选的搬出时间指标数据

指标名称	采样时间	指标数据/s	归一化数据
				搬出时间	2018/6/1 1:00	433	0.662393162
搬出时间	2018/6/1 2:00	435	0.670940171
				搬出时间	2018/6/1 3:00	512	1
搬出时间	2018/6/1 4:00	411	0.568376068
				搬出时间	2018/6/1 5:00	346	0.290598291
搬出时间	2018/6/1 6:00	319	0.175213675
				搬出时间	2018/6/1 7:00	293	0.064102564
搬出时间	2018/6/1 8:00	288	0.042735043
				搬出时间	2018/6/1 9:00	279	0.004273504
搬出时间	2018/6/110:00	278	0
				搬出时间	2018/6/1 11:00	278	0
搬出时间	2018/6/1 12:00	385	0.457264957
				搬出时间	2018/6/1 13:00	385	0.457264957
搬出时间	2018/6/1 14:00	391	0.482905983
				搬出时间	2018/6/1 15:00	411	0.568376068

表5刷选的还原煤气流量指标数据

指标名称	采样时间	指标数据(m<sup>3</sup>/h)	归一化数据
				还原煤气流量	2018/6/1 1:00	2150	0.874213836
还原煤气流量	2018/6/1 2:00	2210	1
				还原煤气流量	2018/6/1 3:00	2191	0.960167715
还原煤气流量	2018/6/1 4:00	1892	0.333333333
				还原煤气流量	2018/6/1 5:00	2013	0.587002096
还原煤气流量	2018/6/1 6:00	1820	0.182389937
				还原煤气流量	2018/6/1 7:00	1823	0.188679245
还原煤气流量	2018/6/1 8:00	1860	0.266247379
				还原煤气流量	2018/6/1 9:00	1756	0.048218029
还原煤气流量	2018/6/1 10:00	1733	0
				还原煤气流量	2018/6/1 11:00	1902	0.354297694
还原煤气流量	2018/6/1 12:00	1899	0.348008386
				还原煤气流量	2018/6/1 13:00	2132	0.836477987
还原煤气流量	2018/6/1 14:00	2109	0.788259958
				还原煤气流量	2018/6/1 15:00	2201	0.981132075

表6刷选的燃烧煤气热值指标数据

表7刷选的水封池温度指标数据

指标名称	采样时间	指标数据/℃	归一化数据
				水封池温度	2018/6/1 1:00	45	0.421052632
水封池温度	2018/6/1 2:00	46	0.473684211
				水封池温度	2018/6/1 3:00	45	0.421052632
水封池温度	2018/6/1 4:00	56	1
				水封池温度	2018/6/1 5:00	42	0.263157895
水封池温度	2018/6/1 6:00	52	0.789473684
				水封池温度	2018/6/1 7:00	39	0.105263158
水封池温度	2018/6/1 8:00	38	0.052631579
				水封池温度	2018/6/1 9:00	38	0.052631579
水封池温度	2018/6/1 10:00	48	0.578947368
				水封池温度	2018/6/1 11:00	49	0.631578947
水封池温度	2018/6/1 12:00	51	0.736842105
				水封池温度	2018/6/1 13:00	52	0.789473684
水封池温度	2018/6/1 14:00	49	0.631578947
				水封池温度	2018/6/1 15:00	37	0

本实施例中，采用Pearson相关系数分别计算参考模板中五个输入指标燃烧室温度、还原煤气流量、搬出时间、燃烧煤气热值、水封池温度与表8所示的输出指标之间的相关性系数，分别为：

r₁＝0.7684，r₂＝0.6386，r₃＝0.5952，r₄＝-0.2462，r₅＝0.2757

根据经验确定的Pearson相关系数的经验值为0.5，因此选取前三个输入指标作为主要指标进行分析，即燃烧室温度、还原煤气流量、搬出时间三个指标。燃烧煤气热值、水封池温度与输出指标相关性较弱，不作考虑。

表8刷选的输出指标一次溢流回收率数据

\|指标名称	采样时间	指标数据	归一化数据
				一次溢流回收率	2018/6/1 1:00	86.30％	1
一次溢流回收率	2018/6/1 2:00	80.00％	0.786440678
				一次溢流回收率	2018/6/1 3:00	75.20％	0.623728814
一次溢流回收率	2018/6/1 4:00	74.90％	0.613559322
				一次溢流回收率	2018/6/1 5:00	71.50％	0.498305085
一次溢流回收率	2018/6/1 6:00	68.90％	0.410169492
				一次溢流回收率	2018/6/1 7:00	65.70％	0.301694915
一次溢流回收率	2018/6/1 8:00	63.70％	0.233898305
				一次溢流回收率	2018/6/1 9:00	61.90％	0.172881356
一次溢流回收率	2018/6/1 10:00	80.60％	0.806779661
				一次溢流回收率	2018/6/1 11:00	56.80％	0
一次溢流回收率	2018/6/1 12:00	85.60％	0.976271186
				一次溢流回收率	2018/6/1 13:00	85.90％	0.986440678
一次溢流回收率	2018/6/1 14:00	84.90％	0.952542373
				一次溢流回收率	2018/6/1 15:00	86.20％	0.996610169

本实施例中，计算得到的燃烧室温度、还原煤气流量、搬出时间三个输入指标对于输出指标影响的占比分别为：λ₁＝0.3838，λ₂＝0.3189，λ₃＝0.2973。

C6、将选取的多维指标的异常情况下的时间序列与历史数据进行特征匹配，提取出相似的多维指标时间序列，如图8所示，具体方法为：

本实施例中，刷选出的时间序列的指标数据如表3-表5所示。

C6.3、从多维输入指标的历史数据中同时提取与参考模板长度相同，采样点数量相等的相同时间段相同指标的时间序列作为测试模板，读取在该参考模板之前半年的历史数据，从该段数据的第一个采样点开始，提取测试模板，再次执行该步骤时，通过滑动窗口的方式，以步长为1的距离，抽取与参考模板相同采样点个数的下一个时间序列作为测试模板；一次选取的多维指标的时间序列分别为C₁，C₂，…C_i′，…C_N；

本实施例中，测试模板为竖炉焙烧过程中2018年1月2日至2018年6月1日时间范围内，时间段为1:00-15:00、2:00-16:00等滑动长度为1，且起始时间不同、长度相同的时间序列的多维指标数据。表9-表11中所列数据为一组测试模板序列。

表9燃烧室温度指标从历史数据中第一次提取的测试模板数据

指标名称	采样时间	指标数据/℃	归一化数据
				燃烧室温度	2018/1/1 1:00	1120	0.93373494
燃烧室温度	2018/1/1 2:00	1106	0.84939759
				燃烧室温度	2018/1/1 3:00	1068	0.620481928
燃烧室温度	2018/1/1 4:00	1062	0.584337349
				燃烧室温度	2018/1/1 5:00	996	0.186746988
燃烧室温度	2018/1/1 6:00	985	0.120481928
				燃烧室温度	2018/1/1 7:00	1131	1
燃烧室温度	2018/1/1 8:00	1069	0.626506024
				燃烧室温度	2018/1/1 9:00	1106	0.84939759
燃烧室温度	2018/1/1 10:00	965	0
				燃烧室温度	2018/1/1 11:00	1035	0.421686747
燃烧室温度	2018/1/1 12:00	1088	0.740963855
				燃烧室温度	2018/1/1 13:00	1043	0.469879518
燃烧室温度	2018/1/1 14:00	1131	1
				燃烧室温度	2018/1/1 15:00	1076	0.668674699

表10搬出时间指标从历史数据中第一次提取的测试模板数据

表11还原煤气流量指标从历史数据中第一次提取的测试模板数据

指标名称	采样时间	指标数据(m<sup>3</sup>/h)	归一化数据
				还原煤气流量	2018/1/1 1:00	2203	0.502487562
还原煤气流量	2018/1/1 2:00	2106	0.381840796
				还原煤气流量	2018/1/1 3:00	2156	0.444029851
还原煤气流量	2018/1/1 4:00	2189	0.485074627
				还原煤气流量	2018/1/1 5:00	2230	0.536069652
还原煤气流量	2018/1/1 6:00	2533	0.912935323
				还原煤气流量	2018/1/1 7:00	2603	1
还原煤气流量	2018/1/1 8:00	2142	0.426616915
				还原煤气流量	2018/1/1 9:00	1966	0.207711443
还原煤气流量	2018/1/1 10:00	1799	0
				还原煤气流量	2018/1/1 11:00	1964	0.205223881
还原煤气流量	2018/1/1 12:00	1890	0.11318408
				还原煤气流量	2018/1/1 13:00	1932	0.165422886
还原煤气流量	2018/1/1 14:00	1960	0.200248756
				还原煤气流量	2018/1/1 15:00	1936	0.17039801

C6.4、采用DTW算法，对原始数据归一化后的参考模板和测试模板进行匹配，消除指标量纲对于DTW值贡献程度的影响；分别将测试模板与参考模板匹配，采用DTW算法分别计算每个指标的参考模板和测试模板归一化后的数据匹配后的DTW值，记为g₁，g₂，…g_j′，…g_N；

本实施例中，计算得到的DTW值分别为：g₁＝2.817950，g₂＝4.088071，g₃＝2.817950。

C6.5、计算出每个指标匹配后的DTW值之后，采用相关性系数对各个指标匹配后的DTW值进行加权平均，得多维指标的综合评价值；即多维指标相似性匹配的综合评价值P＝g₁*λ₁+g₂*λ₂+…+g_j′*λ_j′+…+g_N*λ_N；

本实施例中，计算得到的多维指标相似性匹配的综合评价值为：

p＝g₁*λ₁+g₂*λ₂+g₃*λ₃

＝2.817950*0.3838+4.088071*0.3189+2.817950*0.2973

＝3.222992

C6.6、操作人员在历史数据曲线上通过刷选的方式，根据经验选取与参考模板相似的指标时间序列，计算该时间序列与参考模板采用DTW算法匹配后的综合评价值的经验值X。

本实施例中，综合评价值的经验值X＝2。

本实施例中，计算出的多维指标相似性匹配的综合评价值大于综合评价值的经验值，故该指标序列的时间序列不是与待查询趋势相似的时间序列，则返回C6.2继续提取测试模板进行匹配。直到多维指标相似性匹配的综合评价值小于经验值，则此时该测试模板即为相似数据。

本实施例中，将相似指标时间序列归一化之前的原始数据输出，其中每一个指标使用一个二维坐标进行显示，将所有指标的二维坐标按横坐标对齐，以显示多维指标给操作人员。查询匹配后，系统将提取出的燃烧室温度、搬出时间、还原煤气流量三个指标的历史数据中与待查询时间序列相似的数据采用上述原始数据可视化的方式进行可视化显示，同样匹配程度的三个指标作为一组多维指标时间序列数据，在一组数据中，采用协同二维坐标的方法，每一维指标显示在一个二维坐标中，将三个二维坐标按横坐标进行对齐，由上到下依次排列显示。将这几组多维指标的相似数据按照相似程度的强弱从左到右依次横向排列，显示给操作人员。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于相似性的生产指标变化趋势可视化查询系统，其特征在于：包括指标管理模块、指标数据清洗模块、指标查询模块和指标可视化模块；

2.根据权利要求1所述的基于相似性的生产指标变化趋势可视化查询系统，其特征在于：所述指标管理模块的数据来源为从数据库中读取的DCS采集的数据、ERP数据以及手动录入的数据；所述对工业生产指标进行管理用于对工业生产指标进行实时监控，并通过曲线显示的方式直观反映指标数据的变化趋势；所述工业生产指标数据添加功能用于添加数据库中没有采集到的工业生产指标以及对现有生产指标信息进行添加补全；所述工业生产指标数据删除功能用于删除工业生产指标某时刻的数据、删除工业生产指标某时间段内的数据，以及删除工业生产指标的全部数据；所述工业生产指标数据修改功能用于修改指标数据值；所述工业生产指标数据的查询功能用于对某一指标或多个指标的某一时段的历史数据的查询。

3.根据权利要求1所述的基于相似性的生产指标变化趋势可视化查询系统，其特征在于：所述残缺数据处理用于对生产指标中读入的缺少信息的残缺数据的处理以及未读入的某时段的数据的处理；所述对读入的缺少信息的残缺数据进行处理的方法为，在指标管理模块中进行手动添加和修改；所述对未读入数据进行处理的方法为，采用均值插补的方法，处理随机缺失的数据，估计出待插补的值，由于同一指标数据采样频率相同，所以采用该数据前后各若干个采样点的数据的平均值来填补该缺失点的数据；所述对重复数据进行处理的方法为，对于生产指标中出现的重复数据进行处理，提取出待可视化数据后，删除重复的数据；所述对偶然脉冲型数据进行处理的方法为，在生产指标数据中出现的偶然单次脉冲信号，通过先删除，再用均值插补的方法进行插补。

4.根据权利要求1所述的基于相似性的生产指标变化趋势可视化查询系统，其特征在于：所述指标查询模块包括针对某一个指标进行分析时的单维指标数据查询，以及针对某一个工序分析其输入指标与输出指标之间的关系时，对多维指标进行特征匹配时的多维指标数据查询。

5.根据权利要求4所述的基于相似性的生产指标变化趋势可视化查询系统，其特征在于：所述单维指标数据查询用于在生产过程中，操作人员在分析某一指标的某一段数据与历史数据的关系时，通过在指标曲线上刷选出待查询的时间序列，采用相似性算法将待查询的时间序列数据与历史数据进行特征匹配，在历史数据中提取出与待查询的时间序列数据相似的指标时间序列数据，显示给操作人员，便于操作人员分析数据，洞察数据之间的关系。

6.根据权利要求4所述的基于相似性的生产指标变化趋势可视化查询系统，其特征在于：所述多维指标查询用于当操作人员需要通过查询历史数据中的相似数据来分析输入指标数据对输出指标数据的影响时，选择工业生产指标中影响某工序的某一输出指标的多个输入指标的相似数据，对其进行分析；当该输出指标数据出现异常时，对影响该输出指标的多个输入指标进行相似性查询，分析指标的联系。

7.根据权利要求1所述的基于相似性的生产指标变化趋势可视化查询系统，其特征在于：所述指标曲线区域缩放具体为：操作人员通过在浏览器端滑动鼠标滚轮实现曲线在可视化显示区域的缩小和放大，便于观察指标趋势和指标细节数据；所述时间序列选取具体为：操作人员在浏览器端通过刷选或拖动方式手动选取一段待查询的指标时间序列趋势图；对于不同的指标、工序或不同的异常情况，能反映指标趋势情况的时间序列的长度有所不同，所以允许操作人员在刷选指标趋势时，根据实际情况选择待查询时间序列的长度。

8.采用权利要求1所述的基于相似性的生产指标变化趋势可视化查询系统进行查询的方法，包括以下步骤：

9.根据权利要求8所述的基于相似性的生产指标变化趋势可视化查询方法，其特征在于：所述单维指标数据查询的具体方法为：

S7、将提取出的工业生产指标的历史数据中与待查询时间序列相似的数据分别显示在不同的二维坐标中，按照相似度强弱依次从大到小横向排列，显示给操作人员。

10.根据权利要求9所述的基于相似性的生产指标变化趋势可视化查询方法，其特征在于：所述多维指标数据查询的具体方法为：

C7、完成匹配后将从历史数据中提取的多维指标数据作为历史数据查询结果进行显示，将查询结果显示给操作人员。