CN111930782A

CN111930782A - 两种基于阈值的历史数据采样方法

Info

Publication number: CN111930782A
Application number: CN202010801094.8A
Authority: CN
Inventors: 李佑文; 褚红健; 蔡一磊; 周金国; 俞铭; 葛淼
Original assignee: Nanjing Sac Rail Traffic Engineering Co ltd
Current assignee: Nanjing Sac Rail Traffic Engineering Co ltd
Priority date: 2020-08-11
Filing date: 2020-08-11
Publication date: 2020-11-13
Anticipated expiration: 2040-08-11
Also published as: CN111930782B

Abstract

本发明的两种基于阈值的历史数据采样方法，在综合监控系统中，采用面向对象的数据建模方式，数据点均以对象的形式存在实时库中，经由历史数据处理模块处理后将历史数据存入关系型数据库中；各数据对象点上与历史存储相关的配置属性设计一种面向数据对象的历史存储配置表；其特征在于：固定阈值采样策略只保存那些有显著变化的数值，而忽略那些变化较小的数值；对于配置为固定阈值采样策略的数据点，同时需要配置参数“固定阈值”FixedThreshold的值；动态阈值采样策略也是保存那些有显著变化的数值，而忽略那些变化较小的数值；动态阈值法不需要设置阈值，该阈值由历史数据处理模块计算并动态调整，直到满足采样结束为止。

Description

两种基于阈值的历史数据采样方法

技术领域

本发明涉及监控软件系统专业领域，尤其涉及大型监控系统中与历史数据采样、压缩、存储相关的技术手段。涵盖综合监控、电力监控、环境与设备监控系统、火灾监控、煤矿、冶金、石油等自动化工业监控行业。

背景技术

在大型综合监控系统中，接入了大量的传感器、控制器等过程控制设备，这些设备在实际生产过程中，将会产生大量的数据。若监控系统将这些变化频度高、时间持续长的所有实时变化的数据都存储下来，显然会使得历史数据急剧膨胀，而且无实际价值。因此，通常在监控系统中会先将设备采集的实时数据存入系统实时库中，然后再利用历史数据处理模块将实时库中保存的数据进行压缩采样，即过滤掉部分对拟合无太大影响的数据点，再将数据点进行存储，并供历史应用使用。

在常规的监控系统中，通常使用的数据采样存储策略分别是：

1)数据变化采样策略：即不存在采样过滤，直接将每次变化的数据值和时间进行存储。该方法属于无损存储，数据精度最高，历史数据可以完整还原实时记录。但是在动辄数百万点的大型综合监控系统中，这种方式对存储要求太高，数据处理和数据检索的效率都很低，在实际生产中一般仅对极其重要的少数点使用这种方式进行历史数据存储。

2)定时存储策略：在达到定时点时，存储当前的数据值和时间。该方法优点是实现简单、定时间隔可配置、存储时刻点可预计、存储空间易计算。缺点是定时间隔若太长，则采样过于稀疏，可能正好避开数据变化的时刻，导致数据无意义，无法还原数据变化过程；若采样间隔太短，则又可能导致存储大量相同未变化的数据，使得存储空间要求更高，甚至超过变化存储法的要求。

3)定时+数据变化存储策略：在定时存储间隔时间内仅存储第一次变化的数据，若定时时间内无数据变化，则不存储。该方法优点是可以节省数据存储空间，缺点是对比变化的数据记录过于稀疏，若在一个定时周期类变化频繁，则无法还原真实数据变化过程。

发明内容

针对现有技术中存在的问题，对比上述常用策略，配置合理的历史数据采样存储策略，不仅可以兼顾数据对存储和数据检索的时间要求，而且还可以最真实的还原数据变化的过程。申请人的综合监控系统除了实现以上三种基础策略以外，基于系统面向数据对象的历史存储配置表，还额外提供了两种基于阈值进行过滤的高级策略，都能够达到更优的效果。

为了实现上述发明目的，本发明采用的技术方案为：

两种基于阈值的历史数据采样方法，在综合监控系统中，采用面向对象的数据建模方式，数据点均以对象的形式存在实时库中，经由历史数据处理模块处理后将历史数据存入关系型数据库中；各数据对象点上与历史存储相关的配置属性设计一种面向数据对象的历史存储配置表；其特征在于：

固定阈值采样策略：

固定阈值采样策略在于只保存那些有显著变化的数值，而忽略那些变化较小的数值；对于配置为固定阈值采样策略的数据点，同时需要配置参数“固定阈值”FixedThreshold的值，只有在阈值FixedThreshold范围之外的数据变化才会被采样；固定阈值采样策略总是记录第一个数据变化，然后设置采样范围为第一个数据值±FixedThreshold之外并继续搜索，直到搜索到满足条件的下一个记录点，然后再次调整搜索范围为该数据值±FixedThreshold之外并继续搜索；

固定阈值采样策略具体的步骤如下：

步骤一、配置各个需要采用“固定阈值采样策略”的数据点“对象配置属性表”中StorageMethod为“4-固定阈值采样策略，以及各个数据点的FixedThreshold属性(该值的大小，可根据经验值以及对历史数据存储变化精度的要求进行配置，若该值配置为0，则效果会等同于“数据变化采样策略”，即将每次数据变化都存历史数据库)；

步骤二、记录并存储每个“固定阈值采样策略”的数据点的第一个数据变化值；

步骤三、针对每个数据点的下一个数据变化值，判断其与上一个数据值的偏差(二者做差的绝对值)是否小于FixedThreshold，若是，则不存储该次数据变化(即不存历史数据库)；若否，则记录该次数据变化(即存历史数据库)；

步骤四、循环执行步骤三。

动态阈值采样策略：

动态阈值采样策略也是保存那些有显著变化的数值，而忽略那些变化较小的数值；动态阈值法不需要设置阈值，该阈值由历史数据处理模块计算并动态调整，直到满足采样结束为止；动态阈值采样策略需配置参数“动态阈值时间范围(单位：小时)DynamicThresholdTimeInterval”和“期望的采样目标点数DynamicThresholdPointsNum”。

该算法的核心在于使用二分法不断迭代寻找最合适的阈值，从原始数据集合(由“动态阈值时间范围DynamicThresholdTimeInterval”内的变化记录组成)中筛选出用户设定数目的采样结果集。阈值的动态调整范围最小值为0，最大为输入原始数据集中的“最大值-最小值”。参照上述固定阈值采样策略，在阈值设置为0时所有原始数据集合中的点均被采样，而阈值设置为“最大值-最小值”时所有原始数据集合中的点均不被采样，显然不合理，因此需要动态调整阈值，直至满足采样点数为“期望的采样目标点数DynamicThresholdPointsNum”。

动态阈值采样策略从最小阈值开始筛选采样结果集，如果结果集数目大于“期望的采样目标点数DynamicThresholdPointsNum”参数设定的目标，就按照一定规则增大阈值，重新进行筛选；如果结果集数目小于“期望的采样目标点数DynamicThresholdPointsNum”参数设定的目标，就按照一定规则减小阈值，重新进行筛选，直到满足以下条件之一：

(1)该算法找到一个阈值，该阈值可成功返回“期望的采样目标点数DynamicThresholdPointsNum”。

(2)历史记录循环了1000次迭代仍未满足要求时，返回第1000次的采样结果集。

阈值动态调的整规则如下：

1)最小阈值0(一般设定为0.00001)；

2)最大阈值＝最大值-最小值；

3)如果结果集多余设定目标，应增加阈值，使采样数据变少：新阈值＝当前阈值+0.5*(最大阈值-当前阈值)；

4)如果结果集少于设定目标，应减少阈值，使采样数据变多：新阈值＝当前阈值-0.5*(当前阈值-上一个阈值)。

动态阈值采样策略具体的步骤如下：

步骤一、配置各个需要采用“动定阈值采样策略”的数据点“对象配置属性表”中StorageMethod为“5-动态阈值采样策略，以及各个数据点的“动态阈值时间范围(单位：小时)DynamicThresholdTimeInterval”和“期望的采样目标点数DynamicThresholdPointsNum”；

步骤二、针对一个采用“动定阈值采样策略”的数据点，在各自的每次“动态阈值时间范围”定时点到达后，将这段时间内该数据点记录在缓存中的各次变化的值取出，记做集合PvList；

步骤三、设置最小阈值为0，最大阈值为PvList中最大值与最小值之差；

步骤四、设置当前阈值为0，在PvList中进行采样，即所有点被采样，如果采样点数大于“期望的采样目标点数DynamicThresholdPointsNum”，则认为担负起阈值设置偏小，更新当前阈值为“当前阈值+0.5*(最大阈值-当前阈值)”；

步骤五、利用更新后的当前阈值，在PvList中进行采样，记录采样结果点数，并与“期望的采样目标点数DynamicThresholdPointsNum”比较，若采样结果点数大于“期望的采样目标点数DynamicThresholdPointsNum”，则更新当前阈值为“当前阈值+0.5*(最大阈值-当前阈值)”；若采样结果点数小于“期望的采样目标点数DynamicThresholdPointsNum”，则更新当前阈值为“当前阈值-0.5*(当前阈值-上一个阈值)”；若步骤5采样结果点数与“期望的采样目标点数DynamicThresholdPointsNum”相等，则返回该采样结果数据集并存入历史数据库；

步骤六、重复步骤五，直至步骤五可以返回采样结果数据集时停止，否则在重复到1000次后，返回第1000次的采样结果集并存入历史数据库；

步骤七、针对下一个点重复步骤二。

本发明的有益效果：

综合监控系统额外提供的固定阈值采样策略、动态阈值采样策略，不仅可以降低系统历史数据对存储空间的要求、提高数据处理的效率、减少历史应用对数据的检索时间，而且可以极大地还原真实的数据变化过程。

附图说明

图1为本发明实施例的数据点对象配置属性表1。

图2为本发明实施例的固定阈值采样过程演示图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。

本实施例的两种基于阈值的历史数据采样方法，

首先，设计一种面向数据对象的历史存储配置表：

在大型综合监控系统中，接入的数据点可能高达上百万，而并非所有数据点均需要记录历史数据，综合监控系统采用面向对象的数据建模方式，数据点均以对象的形式存在实时库中，经由历史数据处理模块处理后将历史数据存入关系型数据库中。各数据对象点上与历史存储相关的配置属性表设计如图1所示：数据点对象配置属性表1。

(一)固定阈值采样策略

固定阈值采样策略的目的在于只保存那些有显著变化的数值，而忽略那些变化较小的数值。对于配置为固定阈值采样策略的数据点，同时需要配置参数“固定阈值”FixedThreshold的值，其核心在于虽然阈值FixedThreshold固定，但是其搜索范围却会更新，只有在范围之外的数据变化才会被采样。固定阈值采样策略总是记录第一个数据变化，然后设置采样范围为第一个数据值±FixedThreshold之外并继续搜索，直到搜索到满足条件的下一个记录点，然后再次调整搜索范围为该数据值±FixedThreshold之外并继续搜索。

固定阈值采样策略具体的步骤如下：

1)配置各个需要采用“固定阈值采样策略”的数据点“对象配置属性表”中StorageMethod为“4-固定阈值采样策略，以及各个数据点的FixedThreshold属性(该值的大小，可根据经验值以及对历史数据存储变化精度的要求进行配置，若该值配置为0，则效果会等同于“数据变化采样策略”，即将每次数据变化都存历史数据库)

2)记录并存储每个“固定阈值采样策略”的数据点的第一个数据变化值

3)针对每个数据点的下一个数据变化值，判断其与上一个数据值的偏差(二者做差的绝对值)是否小于FixedThreshold，若是，则不存储该次数据变化(即不存历史数据库)；若否，则记录该次数据变化(即存历史数据库)

4)循环执行步骤3。

历史数据处理模块利用该策略进行采样并存储的伪代码如下：

图2举例演示了一个使用“固定阈值采样策略”数据点的具体过程，其中AEFJ变化被记录，其余变化不被记录：

1)假定该点配置的“固定阈值”FixedThreshold＝1.5；

2)采样开始后，不论该点的第一个数据值是多少，都将第一个值采样记录,即图1中A＝-1被记录，后续采样搜索范围为A±1.5之外，即(-∞，-2.5)U(0.5，∞)；

3)继续读取该点后续变化值B＝0，从图中容易发现B在A±1.5的区间之内，即B不被记录；

4)继续读取该点后续变化值C＝-0.2，从图中容易发现C在A±1.5的区间之内，即C不被记录；

5)继续读取该点后续变化值D＝-1.3，从图中容易发现D在A±1.5的区间之内，即D不被记录；

6)继续读取该点后续变化值E＝0.9，从图中容易发现E不在A±1.5的区间之内，即E被记录；调整搜索范围为E±1.5之外，即(-∞，-0.6)U(2.4，∞)；

7)继续读取该点后续变化值F＝-1.2，从图中容易发现F不在E±1.5的区间之内，即F被记录；调整搜索范围为F±1.5之外，即(-∞，-2.7)U(0.3，∞)；

8)继续读取该点后续变化值G＝-0.5，H＝-2.4，I＝0，均在F±1.5的区间之内，即G、H、I都不被记录；

9)继续读取该点后续变化值J＝3.5，从图中容易发现J不在F±1.5的区间之内，即J被记录；调整搜索范围为J±1.5之外，即(-∞，2.0)U(5，∞)；

10)继续读取后续变化记录……。

(二)动态阈值采样策略

动态阈值采样策略的目的与固定阈值采样策略类似，也是保存那些有显著变化的数值，而忽略那些变化较小的数值。不同的是固定阈值策略的阈值参数是配置员设定的，而动态阈值法不需要设置阈值，该阈值由历史数据处理模块计算并动态调整，直到满足采样结束为止。动态阈值采样策略需配置参数“动态阈值时间范围(单位：小时)DynamicThresholdTimeInterval”和“期望的采样目标点数DynamicThresholdPointsNum”。

1)该算法找到一个阈值，该阈值可成功返回“期望的采样目标点数DynamicThresholdPointsNum”。

2)历史记录循环了1000次迭代仍未满足要求时，返回第1000次的采样结果集。

阈值动态调的整规则如下：

1)最小阈值0(一般设定为0.00001)；

2)最大阈值＝最大值-最小值；

动态阈值采样策略具体的步骤如下：

1)配置各个需要采用“动定阈值采样策略”的数据点“对象配置属性表”中StorageMethod为“5-动态阈值采样策略，以及各个数据点的“动态阈值时间范围(单位：小时)DynamicThresholdTimeInterval”和“期望的采样目标点数DynamicThresholdPointsNum”；

2)针对一个采用“动定阈值采样策略”的数据点，在各自的每次“动态阈值时间范围”定时点到达后，将这段时间内该数据点记录在缓存中的各次变化的值取出，记做集合PvList；

3)设置最小阈值为0，最大阈值为PvList中最大值与最小值之差；

4)设置当前阈值为0，在PvList中进行采样，即所有点被采样，如果采样点数大于“期望的采样目标点数DynamicThresholdPointsNum”，则认为担负起阈值设置偏小，更新当前阈值为“当前阈值+0.5*(最大阈值-当前阈值)”；

5)利用更新后的当前阈值，在PvList中进行采样，记录采样结果点数，并与“期望的采样目标点数DynamicThresholdPointsNum”比较，若采样结果点数大于“期望的采样目标点数DynamicThresholdPointsNum”，则更新当前阈值为“当前阈值+0.5*(最大阈值-当前阈值)”；若采样结果点数小于“期望的采样目标点数DynamicThresholdPointsNum”，则更新当前阈值为“当前阈值-0.5*(当前阈值-上一个阈值)”；若步骤5采样结果点数与“期望的采样目标点数DynamicThresholdPointsNum”相等，则返回该采样结果数据集并存入历史数据库；

6)重复步骤5，直至步骤5可以返回采样结果数据集时停止，否则在重复到1000次后，返回第1000次的采样结果集并存入历史数据库；

7)针对下一个点重复步骤2。

动态阈值采样策略不便于使用类似图2中的方式进行演示，但是发明人利用计算机程序对一个数据点进行随机变化，生成数据变化集，然后在变化结果集上利用动态阈值采样策略进行了仿真，并计算了每次仿真的结果集与原始数据变化集之间的相似度，结果证明该采样策略能够在最大程度上还原数据的变化记录。

比较固定阈值采样策略、动态阈值采样策略不难发现固定阈值采样策略会实时记录选中的点到历史数据库，而动态阈值采样策略需要在每个“动态阈值时间范围(单位：小时)DynamicThresholdTimeInterval”定点时间到后才存该段时间内被选中的点到历史数据库。

典型应用：

此发明所设计的两种历史数据采样存储策略已在申请人城市轨道交通综合监控系统中实现，经统计，这两种策略在工程中配比极高，后期针对历史数据的处理、应用也都证明了策略的有效性。

虽然本发明已以较佳实施例公开如上，但它们并不是用来限定本发明，任何熟悉此技艺者，在不脱离本发明之精神和范围内，自当可作各种变化或润饰，因此本发明的保护范围应当以本申请的权利要求保护范围所界定的为准。

Claims

1.两种基于阈值的历史数据采样方法，在综合监控系统中，采用面向对象的数据建模方式，数据点均以对象的形式存在实时库中，经由历史数据处理模块处理后将历史数据存入关系型数据库中；各数据对象点上与历史存储相关的配置属性设计一种面向数据对象的历史存储配置表；其特征在于：

固定阈值采样策略：

动态阈值采样策略：

2.根据权利要求1所述的两种基于阈值的历史数据采样方法，其特征在于：

所述固定阈值采样策略具体的步骤如下：

步骤一、配置各个需要采用“固定阈值采样策略”的数据点“对象配置属性表”中StorageMethod为“4-固定阈值采样策略，以及各个数据点的FixedThreshold属性；

步骤三、针对每个数据点的下一个数据变化值，判断其与上一个数据值的偏差是否小于FixedThreshold，若是，则不存储该次数据变化；若否，则记录该次数据变化；

步骤四、循环执行步骤三。

3.根据权利要求1所述的两种基于阈值的历史数据采样方法，其特征在于：

所述动态阈值采样策略使用二分法不断迭代寻找最合适的阈值，从原始数据集合中筛选出用户设定数目的采样结果集；阈值的动态调整范围最小值为0，最大为输入原始数据集中的“最大值-最小值”。

4.根据权利要求3所述的两种基于阈值的历史数据采样方法，其特征在于：

所述动态阈值采样策略从最小阈值开始筛选采样结果集，如果结果集数目大于“期望的采样目标点数DynamicThresholdPointsNum”参数设定的目标，就按照一定规则增大阈值，重新进行筛选；如果结果集数目小于“期望的采样目标点数DynamicThresholdPointsNum”参数设定的目标，就按照一定规则减小阈值，重新进行筛选，直到满足以下条件之一：

(1)该算法找到一个阈值，该阈值可成功返回“期望的采样目标点数DynamicThresholdPointsNum”；

5.根据权利要求4所述的两种基于阈值的历史数据采样方法，其特征在于：

阈值动态调的整规则如下：

1)最小阈值0；

2)最大阈值＝最大值-最小值；

6.根据权利要求1至5之一所述的两种基于阈值的历史数据采样方法，其特征在于：

所述动态阈值采样策略具体的步骤如下：

步骤一、配置各个需要采用“动定阈值采样策略”的数据点“对象配置属性表”中StorageMethod为“5-动态阈值采样策略，以及各个数据点的“动态阈值时间范围DynamicThresholdTimeInterval”和“期望的采样目标点数DynamicThresholdPointsNum”；

步骤七、针对下一个点重复步骤二。