CN109033125B

CN109033125B - 时序数据支配集信息提取方法

Info

Publication number: CN109033125B
Application number: CN201810548299.2A
Authority: CN
Inventors: 伍一
Original assignee: Heilongjiang University
Current assignee: Harbin Keshang Technology Co ltd
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2022-05-13
Anticipated expiration: 2038-05-31
Also published as: CN109033125A

Abstract

时序数据支配集信息提取方法，属于互联网、物联网信息提取领域。解决了现有时序数据提取方法难于满足大规模存储以及高实时性的信息提取需求的问题。首先，在海量用户大数据中选定具有支配能力的用户，其它用户作为具有支配能力的用户的关联用户，建立支配用户到关联用户的变换函数I；然后，面对持续采集的用户时序数据，存储作为小数据的支配用户数据，并对变换函数I进行动态更新；通过支配用户数据以及更新后的变换函数I，提取满足用户要求的关联用户的数据信息，从而实现在支配用户数据所代表的小数据中，提取关联用户数据所代表的大数据信息。主要应用在互联网、物联网等信息提取相关领域。

Description

时序数据支配集信息提取方法

技术领域

本发明属于互联网、物联网信息提取领域。

背景技术

目前以大规模实时数据为基础的时序数据处理逐渐成为互联网、物联网等信息技术领域的关键问题，其处理过程为时序数据采集、存储以及信息提取，具体参见图1。面对持续到达的海量时序数据,数据处理系统必须快速对其进行响应并及时提取信息，才能保证信息服务质量。

时序数据信息提取涉及到气象、环保监测，供电、供水、供热系统的信息采集，股票、期货市场的交易信息分析系统，以及工业过程检测应用系统等国民经济诸多行业与相关领域，已成为各相关行业大数据信息处理的突出问题。

传统处理方法是采集并存储全部用户的时序数据，根据请求提取用户信息。但是，难于满足大规模存储以及高实时性的信息提取的需求。因此，上述问题亟需解决。

发明内容

本发明是为了解决现有时序数据提取方法难于满足大规模存储以及高实时性的信息提取需求的问题，本发明提供了一种时序数据支配集信息提取方法。

时序数据支配集信息提取方法，该方法包括如下过程：

首先，在海量用户大数据中选定具有支配能力的用户，其它用户作为具有支配能力的用户的关联用户，建立支配用户到关联用户的变换函数I；其中，支配用户为具有支配能力的用户；

然后，面对持续采集的用户时序数据，存储作为小数据的支配用户数据，并对变换函数I进行动态更新；

最后，通过支配用户数据以及更新后的变换函数I，提取满足用户要求的关联用户的数据信息，从而实现在支配用户数据所代表的小数据中，提取关联用户数据所代表的大数据信息。

优选的是，在海量用户大数据中选定具有支配能力的用户的具体过程是通过时序数据向量之间的线性相关性来实现具有支配能力的用户的选定。

优选的是，建立支配用户到关联用户的变换函数I的具体过程为：

步骤一，在n个用户的时序数据集合X中，按顺序依次选定线性独立的支配用户样本向量λ，并根据支配用户样本向量λ获得支配用户序偶向量ρ；

其中，ρ＝(u,λ)，且u为公共用户样本向量；

步骤二，通过约束条件

遍历作为目标对象的时序数据集合X，识别时序数据集合X中符合约束条件

的关联用户样本向量s；

其中，δ＝(u,s)，且δ为关联用户序偶向量；

步骤三，根据支配用户样本向量λ及关联用户样本向量s形成对应变换函数I的变换矩阵(A，B)；

其中，A为系数矩阵；B为偏差矩阵；

步骤四，根据变换矩阵(A，B)及支配用户序偶向量ρ获得变换函数I，变换函数I为δ＝Aρ+B。

步骤一中，按顺序依次选定线性独立的支配用户样本向量λ的具体过程，采用允许误差ε作为约束条件，在仿射线性相关性测度或最小二乘线性相关性测度下，实现支配用户样本向量λ的信息提取。

多用户的海量数据虽然体量大，但是往往同类用户之间存在较大的相关性，可以选取同类用户中选择具备代表性的支配用户，将海量用户数据处理问题，包括存储、信息提取等，转换为小规模的支配用户数据处理问题。

本发明带来的有益效果是，本发明的目的是根据用户数据处理需求,转换大规模时序数据处理问题为小规模数据问题，要解决的问题是在海量时序数据采集中，抽取具有代表性的少量数据作为支配数据集,然后以支配集数据完成时序数据存储、信息提取。

本发明要达到的性能与指标：

●小规模，采集远远小于系统用户规模的小规模支配用户时序数据在线存储；

●准确性，满足全体用户时序数据的信息提取精度指标；

●实时性，保证信息采集与数据处理(包括存储、信息提取)的实时性。

本发明时序数据信息提取应用到气象、环保监测，供电、供水、供热系统的信息采集，股票、期货市场的交易信息分析系统，以及工业过程检测应用系统等国民经济诸多行业与相关领域。

附图说明

图1为时序数据采集、存储以及信息提取的原理示意图；

图2为本发明所述时序数据支配集信息提取方法的流程图。

具体实施方式

具体实施方式一：参见图2说明本实施方式，本实施方式所述时序数据支配集信息提取方法，该方法包括如下过程：

本实施方式中，支配用户的信息可直接在存储器上提取；关联用户的信息，根据支配用户到关联用户的变换函数I直接计算提取信息。

本发明方法在时序数据处理中，可以大大减少数据存储规模，满足信息提取的准确性，不影响实时性代价。

本实施方式中，对变换函数I进行动态更新，可通过现有技术实现，例如：本发明对于n个用户m个时间戳的时序数据集X_m×n,随着时间的延续，则m＞＞n。利用仿射线性关系建立递推函数F(I_m)，实现线性变换函数I的动态更新计算I_m+1＝F(I_m)。本发明信息提取的变换函数I的计算，和变换函数I更新的计算都是常数级时间复杂度O(1)，所以不增加计算负担，不影响实时性。

本发明中，大数据和小数据二者是相对而言。

具体实施方式二：参见图2说明本实施方式，本实施方式与具体实施方式一所述的时序数据支配集信息提取方法的区别在于，在海量用户大数据中选定具有支配能力的用户的具体过程是通过时序数据向量之间的线性相关性来实现具有支配能力的用户的选定。

具体实施方式三：参见图2说明本实施方式，本实施方式与具体实施方式一所述的时序数据支配集信息提取方法的区别在于，所述支配用户到关联用户的变换函数I为：

I:δ＝Aρ+B；

其中，ρ＝(u,λ)，且ρ为支配用户序偶向量；

δ＝(u,s)，且δ为关联用户序偶向量；

A为系数矩阵；

B为偏差矩阵；

u为公共用户样本向量；

λ为支配用户样本向量；

s为关联用户样本向量。

具体实施方式四：参见图2说明本实施方式，本实施方式与具体实施方式二所述的时序数据支配集信息提取方法的区别在于，建立支配用户到关联用户的变换函数I的具体过程为：

其中，ρ＝(u,λ)，且u为公共用户样本向量；

步骤二，通过约束条件

的关联用户样本向量s；

其中，δ＝(u,s)，且δ为关联用户序偶向量；

其中，A为系数矩阵；B为偏差矩阵；

具体实施方式五：参见图2说明本实施方式，本实施方式与具体实施方式四述的时序数据支配集信息提取方法的区别在于，步骤一中，按顺序依次选定线性独立的支配用户样本向量λ的具体过程，采用允许误差ε作为约束条件，在仿射线性相关性测度或最小二乘线性相关性测度下，实现支配用户样本向量λ的信息提取。

本发明通过用电量监测真实数据集合上的实验，分析所提出的支配集的选择以及信息提取方法的有效性和性能。通过实验来分析采用允许误差ε作为约束条件，在仿射线性相关性测度或最小二乘线性相关性测度下，实现支配集信息提取。

具体应用：

1.实验用python语言在Anaconda Navigator平台设计方法的代码。在一台联想台式机上执行，机器配置是64为Windows 7sp1旗舰版操作系统，3.40GHz i7-6770CPU，4G内存，800G硬盘。

实验数据来源于2013年7月份某地采集的用电量时序数据样本，用户数量600多万，每个用户有21天的用电量时序数据信息。用电量数据信息包括时标、用户编号、台区编号、供电局编号、用电量等属性。

实验数据的时序数据属性：时标为时间戳，用户编号、台区编号、供电局编号定义为用户ID(即目标对象的编号)，用电量。分别在不同供电局台区中选取DS0、DS1、DS2、DS3、DS4五个数据集时序数据样本，其中DS1至DS4的数据集是递增的关系(参见下表1)。

表1：实验数据集X

为了评估支配集选择方法的有效性，本文关注的实验效果：结合本发明提出2个线性相关性距离测度，选择的支配集大小是否可以通过约束条件控制数量，令支配集P的数量k与用户数据集X的数量n之比称为支配集用户数量占比，记为DSN_ratio＝k/n(％)，通过误差ε与支配集用户数量占比DSN_ratio分析实验结果。

2.实验结果与分析

●误差变化对支配集规模的影响

分别在仿射线性相关性测度(AFF)、最小二乘线性相关性测度(LS)下两种支配集选择方法，选同不同的误差ε在1％、3％、5％、8％、10％变化时，观察DS0数据集合中选取的支配集用户数量占比DSN_ratio变化情况。

满足ε误差约束条件下的支配集用户数量k是实验的重要指标，观察表2可以看到，对于每个误差ε，支配用户集P的用电量用户数量k小于用户集X的数量n。随着允许误差ε的增加，用户之间符合相关性条件的规模在增加，DSN_ratio值减小，支配用户集P的用户规模k在减小。对于任何一个误差ε，仿射线性相关性测度(AFF)优于最小二乘线性相关性测度(LS)。本实验也选取其它供电局用户用电量样本数据做实验，虽然不同区域的用户用电量样本之间相关性有所区别，得到的支配集数量占比例有所不同，但是，实验结论是一致的。

表2：误差变化对支配集规模的影响

●数据规模对支配集选择的影响

表3中选取数据集合DS1、DS2、DS3、DS4，由表1可知目标对象用电量用户样本规模n可知，这四个数据集是按比例递增关系，误差ε约束为5％，观察表3可知，随着样本规模的增长支配集用户数量占比DSN_ratio在减少，仿射线性相关性测度(AFF)好于最小二乘线性相关性测度(LS)。说明时序数据目标对象n的规模越大，目标对象之间存在线性相关性的可能性增加了，满足约束条件的中心点对应的样本点数量增加了，提高了支配集对样本的代表能力，支配用户集规模相对降低。

表3：数据集规模变化对支配集的影响

上述实验内容，我们抽取若干组其它供电局用电量用户数据，构建本文实验数据集DS0、DS1、DS2、DS3、DS4相同规模的数据集合样本。这些实验的数据集合样本向量之间的线性相关性有所不同，但是，实验数据分析后会得出相同的实验结果，因此，本实验结论具有代表性。

本发明所述时序数据支配集信息提取方法的过程不局限于上述各实施方式所记载的具体步骤，还可以是上述各实施方式所记载的技术特征的合理组合。

Claims

1.时序数据支配集信息提取方法，其特征在于，该方法包括如下过程：

最后，通过支配用户数据以及更新后的变换函数I，提取满足用户要求的关联用户的数据信息，从而实现在支配用户数据所代表的小数据中，提取关联用户数据所代表的大数据信息；

其中，在海量用户大数据中选定具有支配能力的用户的具体过程是通过时序数据向量之间的线性相关性来实现具有支配能力的用户的选定；

所述支配用户到关联用户的变换函数I为：I:δ＝Aρ+B；

其中，ρ＝(u,λ)，且ρ为支配用户序偶向量；

δ＝(u,s)，且δ为关联用户序偶向量；

A为系数矩阵；

B为偏差矩阵；

u为公共用户样本向量；

λ为支配用户样本向量；

s为关联用户样本向量；

建立支配用户到关联用户的变换函数I的具体过程为：

其中，ρ＝(u,λ)，且u为公共用户样本向量；

步骤二，通过约束条件

的关联用户样本向量s；

其中，δ＝(u,s)，且δ为关联用户序偶向量；

其中，A为系数矩阵；B为偏差矩阵；

2.根据权利要求1所述的时序数据支配集信息提取方法，其特征在于，步骤一中，按顺序依次选定线性独立的支配用户样本向量λ的具体过程，采用允许误差ε作为约束条件，在仿射线性相关性测度或最小二乘线性相关性测度下，实现支配用户样本向量λ的信息提取。