CN109033125B - 时序数据支配集信息提取方法 - Google Patents

时序数据支配集信息提取方法 Download PDF

Info

Publication number
CN109033125B
CN109033125B CN201810548299.2A CN201810548299A CN109033125B CN 109033125 B CN109033125 B CN 109033125B CN 201810548299 A CN201810548299 A CN 201810548299A CN 109033125 B CN109033125 B CN 109033125B
Authority
CN
China
Prior art keywords
user
data
dominant
transformation function
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810548299.2A
Other languages
English (en)
Other versions
CN109033125A (zh
Inventor
伍一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Keshang Technology Co ltd
Original Assignee
Heilongjiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Heilongjiang University filed Critical Heilongjiang University
Priority to CN201810548299.2A priority Critical patent/CN109033125B/zh
Publication of CN109033125A publication Critical patent/CN109033125A/zh
Application granted granted Critical
Publication of CN109033125B publication Critical patent/CN109033125B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

时序数据支配集信息提取方法,属于互联网、物联网信息提取领域。解决了现有时序数据提取方法难于满足大规模存储以及高实时性的信息提取需求的问题。首先,在海量用户大数据中选定具有支配能力的用户,其它用户作为具有支配能力的用户的关联用户,建立支配用户到关联用户的变换函数I;然后,面对持续采集的用户时序数据,存储作为小数据的支配用户数据,并对变换函数I进行动态更新;通过支配用户数据以及更新后的变换函数I,提取满足用户要求的关联用户的数据信息,从而实现在支配用户数据所代表的小数据中,提取关联用户数据所代表的大数据信息。主要应用在互联网、物联网等信息提取相关领域。

Description

时序数据支配集信息提取方法
技术领域
本发明属于互联网、物联网信息提取领域。
背景技术
目前以大规模实时数据为基础的时序数据处理逐渐成为互联网、物联网等信息技术领域的关键问题,其处理过程为时序数据采集、存储以及信息提取,具体参见图1。面对持续到达的海量时序数据,数据处理系统必须快速对其进行响应并及时提取信息,才能保证信息服务质量。
时序数据信息提取涉及到气象、环保监测,供电、供水、供热系统的信息采集,股票、期货市场的交易信息分析系统,以及工业过程检测应用系统等国民经济诸多行业与相关领域,已成为各相关行业大数据信息处理的突出问题。
传统处理方法是采集并存储全部用户的时序数据,根据请求提取用户信息。但是,难于满足大规模存储以及高实时性的信息提取的需求。因此,上述问题亟需解决。
发明内容
本发明是为了解决现有时序数据提取方法难于满足大规模存储以及高实时性的信息提取需求的问题,本发明提供了一种时序数据支配集信息提取方法。
时序数据支配集信息提取方法,该方法包括如下过程:
首先,在海量用户大数据中选定具有支配能力的用户,其它用户作为具有支配能力的用户的关联用户,建立支配用户到关联用户的变换函数I;其中,支配用户为具有支配能力的用户;
然后,面对持续采集的用户时序数据,存储作为小数据的支配用户数据,并对变换函数I进行动态更新;
最后,通过支配用户数据以及更新后的变换函数I,提取满足用户要求的关联用户的数据信息,从而实现在支配用户数据所代表的小数据中,提取关联用户数据所代表的大数据信息。
优选的是,在海量用户大数据中选定具有支配能力的用户的具体过程是通过时序数据向量之间的线性相关性来实现具有支配能力的用户的选定。
优选的是,建立支配用户到关联用户的变换函数I的具体过程为:
步骤一,在n个用户的时序数据集合X中,按顺序依次选定线性独立的支配用户样本向量λ,并根据支配用户样本向量λ获得支配用户序偶向量ρ;
其中,ρ=(u,λ),且u为公共用户样本向量;
步骤二,通过约束条件
Figure BDA0001679840820000021
遍历作为目标对象的时序数据集合X,识别时序数据集合X中符合约束条件
Figure BDA0001679840820000022
的关联用户样本向量s;
其中,δ=(u,s),且δ为关联用户序偶向量;
步骤三,根据支配用户样本向量λ及关联用户样本向量s形成对应变换函数I的变换矩阵(A,B);
其中,A为系数矩阵;B为偏差矩阵;
步骤四,根据变换矩阵(A,B)及支配用户序偶向量ρ获得变换函数I,变换函数I为δ=Aρ+B。
步骤一中,按顺序依次选定线性独立的支配用户样本向量λ的具体过程,采用允许误差ε作为约束条件,在仿射线性相关性测度或最小二乘线性相关性测度下,实现支配用户样本向量λ的信息提取。
多用户的海量数据虽然体量大,但是往往同类用户之间存在较大的相关性,可以选取同类用户中选择具备代表性的支配用户,将海量用户数据处理问题,包括存储、信息提取等,转换为小规模的支配用户数据处理问题。
本发明带来的有益效果是,本发明的目的是根据用户数据处理需求,转换大规模时序数据处理问题为小规模数据问题,要解决的问题是在海量时序数据采集中,抽取具有代表性的少量数据作为支配数据集,然后以支配集数据完成时序数据存储、信息提取。
本发明要达到的性能与指标:
●小规模,采集远远小于系统用户规模的小规模支配用户时序数据在线存储;
●准确性,满足全体用户时序数据的信息提取精度指标;
●实时性,保证信息采集与数据处理(包括存储、信息提取)的实时性。
本发明时序数据信息提取应用到气象、环保监测,供电、供水、供热系统的信息采集,股票、期货市场的交易信息分析系统,以及工业过程检测应用系统等国民经济诸多行业与相关领域。
附图说明
图1为时序数据采集、存储以及信息提取的原理示意图;
图2为本发明所述时序数据支配集信息提取方法的流程图。
具体实施方式
具体实施方式一:参见图2说明本实施方式,本实施方式所述时序数据支配集信息提取方法,该方法包括如下过程:
首先,在海量用户大数据中选定具有支配能力的用户,其它用户作为具有支配能力的用户的关联用户,建立支配用户到关联用户的变换函数I;其中,支配用户为具有支配能力的用户;
然后,面对持续采集的用户时序数据,存储作为小数据的支配用户数据,并对变换函数I进行动态更新;
最后,通过支配用户数据以及更新后的变换函数I,提取满足用户要求的关联用户的数据信息,从而实现在支配用户数据所代表的小数据中,提取关联用户数据所代表的大数据信息。
本实施方式中,支配用户的信息可直接在存储器上提取;关联用户的信息,根据支配用户到关联用户的变换函数I直接计算提取信息。
本发明方法在时序数据处理中,可以大大减少数据存储规模,满足信息提取的准确性,不影响实时性代价。
本实施方式中,对变换函数I进行动态更新,可通过现有技术实现,例如:本发明对于n个用户m个时间戳的时序数据集Xm×n,随着时间的延续,则m>>n。利用仿射线性关系建立递推函数F(Im),实现线性变换函数I的动态更新计算Im+1=F(Im)。本发明信息提取的变换函数I的计算,和变换函数I更新的计算都是常数级时间复杂度O(1),所以不增加计算负担,不影响实时性。
本发明中,大数据和小数据二者是相对而言。
具体实施方式二:参见图2说明本实施方式,本实施方式与具体实施方式一所述的时序数据支配集信息提取方法的区别在于,在海量用户大数据中选定具有支配能力的用户的具体过程是通过时序数据向量之间的线性相关性来实现具有支配能力的用户的选定。
具体实施方式三:参见图2说明本实施方式,本实施方式与具体实施方式一所述的时序数据支配集信息提取方法的区别在于,所述支配用户到关联用户的变换函数I为:
I:δ=Aρ+B;
其中,ρ=(u,λ),且ρ为支配用户序偶向量;
δ=(u,s),且δ为关联用户序偶向量;
A为系数矩阵;
B为偏差矩阵;
u为公共用户样本向量;
λ为支配用户样本向量;
s为关联用户样本向量。
具体实施方式四:参见图2说明本实施方式,本实施方式与具体实施方式二所述的时序数据支配集信息提取方法的区别在于,建立支配用户到关联用户的变换函数I的具体过程为:
步骤一,在n个用户的时序数据集合X中,按顺序依次选定线性独立的支配用户样本向量λ,并根据支配用户样本向量λ获得支配用户序偶向量ρ;
其中,ρ=(u,λ),且u为公共用户样本向量;
步骤二,通过约束条件
Figure BDA0001679840820000041
遍历作为目标对象的时序数据集合X,识别时序数据集合X中符合约束条件
Figure BDA0001679840820000042
的关联用户样本向量s;
其中,δ=(u,s),且δ为关联用户序偶向量;
步骤三,根据支配用户样本向量λ及关联用户样本向量s形成对应变换函数I的变换矩阵(A,B);
其中,A为系数矩阵;B为偏差矩阵;
步骤四,根据变换矩阵(A,B)及支配用户序偶向量ρ获得变换函数I,变换函数I为δ=Aρ+B。
具体实施方式五:参见图2说明本实施方式,本实施方式与具体实施方式四述的时序数据支配集信息提取方法的区别在于,步骤一中,按顺序依次选定线性独立的支配用户样本向量λ的具体过程,采用允许误差ε作为约束条件,在仿射线性相关性测度或最小二乘线性相关性测度下,实现支配用户样本向量λ的信息提取。
本发明通过用电量监测真实数据集合上的实验,分析所提出的支配集的选择以及信息提取方法的有效性和性能。通过实验来分析采用允许误差ε作为约束条件,在仿射线性相关性测度或最小二乘线性相关性测度下,实现支配集信息提取。
具体应用:
1.实验用python语言在Anaconda Navigator平台设计方法的代码。在一台联想台式机上执行,机器配置是64为Windows 7sp1旗舰版操作系统,3.40GHz i7-6770CPU,4G内存,800G硬盘。
实验数据来源于2013年7月份某地采集的用电量时序数据样本,用户数量600多万,每个用户有21天的用电量时序数据信息。用电量数据信息包括时标、用户编号、台区编号、供电局编号、用电量等属性。
实验数据的时序数据属性:时标为时间戳,用户编号、台区编号、供电局编号定义为用户ID(即目标对象的编号),用电量。分别在不同供电局台区中选取DS0、DS1、DS2、DS3、DS4五个数据集时序数据样本,其中DS1至DS4的数据集是递增的关系(参见下表1)。
表1:实验数据集X
Figure BDA0001679840820000051
为了评估支配集选择方法的有效性,本文关注的实验效果:结合本发明提出2个线性相关性距离测度,选择的支配集大小是否可以通过约束条件控制数量,令支配集P的数量k与用户数据集X的数量n之比称为支配集用户数量占比,记为DSN_ratio=k/n(%),通过误差ε与支配集用户数量占比DSN_ratio分析实验结果。
2.实验结果与分析
●误差变化对支配集规模的影响
分别在仿射线性相关性测度(AFF)、最小二乘线性相关性测度(LS)下两种支配集选择方法,选同不同的误差ε在1%、3%、5%、8%、10%变化时,观察DS0数据集合中选取的支配集用户数量占比DSN_ratio变化情况。
满足ε误差约束条件下的支配集用户数量k是实验的重要指标,观察表2可以看到,对于每个误差ε,支配用户集P的用电量用户数量k小于用户集X的数量n。随着允许误差ε的增加,用户之间符合相关性条件的规模在增加,DSN_ratio值减小,支配用户集P的用户规模k在减小。对于任何一个误差ε,仿射线性相关性测度(AFF)优于最小二乘线性相关性测度(LS)。本实验也选取其它供电局用户用电量样本数据做实验,虽然不同区域的用户用电量样本之间相关性有所区别,得到的支配集数量占比例有所不同,但是,实验结论是一致的。
表2:误差变化对支配集规模的影响
Figure BDA0001679840820000061
●数据规模对支配集选择的影响
表3中选取数据集合DS1、DS2、DS3、DS4,由表1可知目标对象用电量用户样本规模n可知,这四个数据集是按比例递增关系,误差ε约束为5%,观察表3可知,随着样本规模的增长支配集用户数量占比DSN_ratio在减少,仿射线性相关性测度(AFF)好于最小二乘线性相关性测度(LS)。说明时序数据目标对象n的规模越大,目标对象之间存在线性相关性的可能性增加了,满足约束条件的中心点对应的样本点数量增加了,提高了支配集对样本的代表能力,支配用户集规模相对降低。
表3:数据集规模变化对支配集的影响
Figure BDA0001679840820000062
上述实验内容,我们抽取若干组其它供电局用电量用户数据,构建本文实验数据集DS0、DS1、DS2、DS3、DS4相同规模的数据集合样本。这些实验的数据集合样本向量之间的线性相关性有所不同,但是,实验数据分析后会得出相同的实验结果,因此,本实验结论具有代表性。
本发明所述时序数据支配集信息提取方法的过程不局限于上述各实施方式所记载的具体步骤,还可以是上述各实施方式所记载的技术特征的合理组合。

Claims (2)

1.时序数据支配集信息提取方法,其特征在于,该方法包括如下过程:
首先,在海量用户大数据中选定具有支配能力的用户,其它用户作为具有支配能力的用户的关联用户,建立支配用户到关联用户的变换函数I;其中,支配用户为具有支配能力的用户;
然后,面对持续采集的用户时序数据,存储作为小数据的支配用户数据,并对变换函数I进行动态更新;
最后,通过支配用户数据以及更新后的变换函数I,提取满足用户要求的关联用户的数据信息,从而实现在支配用户数据所代表的小数据中,提取关联用户数据所代表的大数据信息;
其中,在海量用户大数据中选定具有支配能力的用户的具体过程是通过时序数据向量之间的线性相关性来实现具有支配能力的用户的选定;
所述支配用户到关联用户的变换函数I为:I:δ=Aρ+B;
其中,ρ=(u,λ),且ρ为支配用户序偶向量;
δ=(u,s),且δ为关联用户序偶向量;
A为系数矩阵;
B为偏差矩阵;
u为公共用户样本向量;
λ为支配用户样本向量;
s为关联用户样本向量;
建立支配用户到关联用户的变换函数I的具体过程为:
步骤一,在n个用户的时序数据集合X中,按顺序依次选定线性独立的支配用户样本向量λ,并根据支配用户样本向量λ获得支配用户序偶向量ρ;
其中,ρ=(u,λ),且u为公共用户样本向量;
步骤二,通过约束条件
Figure FDA0003581322410000011
遍历作为目标对象的时序数据集合X,识别时序数据集合X中符合约束条件
Figure FDA0003581322410000012
的关联用户样本向量s;
其中,δ=(u,s),且δ为关联用户序偶向量;
步骤三,根据支配用户样本向量λ及关联用户样本向量s形成对应变换函数I的变换矩阵(A,B);
其中,A为系数矩阵;B为偏差矩阵;
步骤四,根据变换矩阵(A,B)及支配用户序偶向量ρ获得变换函数I,变换函数I为δ=Aρ+B。
2.根据权利要求1所述的时序数据支配集信息提取方法,其特征在于,步骤一中,按顺序依次选定线性独立的支配用户样本向量λ的具体过程,采用允许误差ε作为约束条件,在仿射线性相关性测度或最小二乘线性相关性测度下,实现支配用户样本向量λ的信息提取。
CN201810548299.2A 2018-05-31 2018-05-31 时序数据支配集信息提取方法 Active CN109033125B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810548299.2A CN109033125B (zh) 2018-05-31 2018-05-31 时序数据支配集信息提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810548299.2A CN109033125B (zh) 2018-05-31 2018-05-31 时序数据支配集信息提取方法

Publications (2)

Publication Number Publication Date
CN109033125A CN109033125A (zh) 2018-12-18
CN109033125B true CN109033125B (zh) 2022-05-13

Family

ID=64611981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810548299.2A Active CN109033125B (zh) 2018-05-31 2018-05-31 时序数据支配集信息提取方法

Country Status (1)

Country Link
CN (1) CN109033125B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111770514B (zh) * 2020-06-28 2022-07-08 湖北工业大学 一种无线自组网主干网优化生成方法
CN112632127B (zh) * 2020-12-29 2022-07-15 国华卫星数据科技有限公司 设备运行实时数据采集及时序的数据处理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102685861A (zh) * 2012-05-11 2012-09-19 北京邮电大学 一种无线传感器网络sink节点收集数据的方法及装置
CN106055697A (zh) * 2016-06-15 2016-10-26 安徽天枢信息科技有限公司 一种非结构化事件日志数据的划分和存储的方法与装置
CN106211256A (zh) * 2016-07-08 2016-12-07 西北大学 一种基于数据关键性节点的无人机数据收集方法
CN106937089A (zh) * 2017-04-01 2017-07-07 罗旗舞 一种视频采集设备及方法
CN107480213A (zh) * 2017-07-27 2017-12-15 上海交通大学 基于时序文本网络的社区检测与用户关系预测方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7286480B2 (en) * 2004-01-30 2007-10-23 Telcordia Technologies, Inc. Method and system for design and routing in transparent optical networks
US8855011B2 (en) * 2010-07-12 2014-10-07 University Of Southern California Distributed transforms for efficient data gathering in sensor networks
US8724516B2 (en) * 2011-10-06 2014-05-13 Rockwell Collins, Inc. Unifying connected dominating set using localized two hop information with a flexible dominating factor
CN103309907B (zh) * 2012-03-16 2017-02-01 上海安捷力信息系统有限公司 对不同来源的业务数据进行规范化处理的方法及系统
CN103632313B (zh) * 2013-12-05 2016-09-21 国家电网公司 一种基于pmu数据的电网动态可观方法
CN106570581B (zh) * 2016-10-26 2019-06-28 东北电力大学 能源互联网环境下基于属性关联的负荷预测系统及其方法
CN107196910B (zh) * 2017-04-18 2019-09-10 国网山东省电力公司电力科学研究院 基于大数据分析的威胁预警监测系统、方法及部署架构

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102685861A (zh) * 2012-05-11 2012-09-19 北京邮电大学 一种无线传感器网络sink节点收集数据的方法及装置
CN106055697A (zh) * 2016-06-15 2016-10-26 安徽天枢信息科技有限公司 一种非结构化事件日志数据的划分和存储的方法与装置
CN106211256A (zh) * 2016-07-08 2016-12-07 西北大学 一种基于数据关键性节点的无人机数据收集方法
CN106937089A (zh) * 2017-04-01 2017-07-07 罗旗舞 一种视频采集设备及方法
CN107480213A (zh) * 2017-07-27 2017-12-15 上海交通大学 基于时序文本网络的社区检测与用户关系预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
传感器网络中一种能量高效的数据收集方法;杨靖 等;《系统工程与电子技术》;20110315;第33卷(第3期);650-653 *
基于仿射变换的时序数据信息处理方法研究;籍姣荣 等;《中国优秀硕士学位论文全文数据库 信息科技辑》;20181015(第10期);I138-416 *

Also Published As

Publication number Publication date
CN109033125A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
Kim et al. Introducing EzAAI: a pipeline for high throughput calculations of prokaryotic average amino acid identity
Erisoglu et al. A new algorithm for initial cluster centers in k-means algorithm
CN111199016A (zh) 一种基于DTW的改进K-means的日负荷曲线聚类方法
Wilson Activity patterns in space and time: calculating representative Hagerstrand trajectories
Fortin et al. Chironomid-environment relations in northern North America
CN111126865B (zh) 一种基于科技大数据的技术成熟度判断方法和系统
van Dam et al. Correspondence analysis, spectral clustering and graph embedding: applications to ecology and economic complexity
CN109033125B (zh) 时序数据支配集信息提取方法
Valledor et al. Standardization of data processing and statistical analysis in comparative plant proteomics experiment
Chen et al. Hyperspectral data clustering based on density analysis ensemble
Mukhametzyanov ReS-algorithm for converting normalized values of cost criteria into benefit criteria in MCDM tasks
Wang et al. Principal component analysis for compositional data vectors
CN113724195B (zh) 基于免疫荧光图像的蛋白质的定量分析模型和建立方法
Wang et al. Graph-based peak alignment algorithms for multiple liquid chromatography-mass spectrometry datasets
Khoo et al. Using one EWMA chart to jointly monitor the process mean and variance
CN114239962A (zh) 一种基于开源信息的精细化空间负荷预测方法
CN111325235B (zh) 面向多语种的通用地名语义相似度计算方法及其应用
Matsumoto et al. Capturing corporate attributes in a new perspective through fuzzy clustering
CN115238965A (zh) 基于专利信息的技术趋势预测方法、装置、设备及介质
Sun et al. Improved k-means clustering based on Efros distance for longitudinal data
Zhu et al. Dynamic fusion algorithm of building surface data in heterogeneous environment
CN114372835A (zh) 综合能源服务潜力客户识别方法、系统及计算机设备
CN108346287A (zh) 基于影响因素分析的交通流量序列模式匹配方法
Kulkarni et al. Multivariate statistical techniques for prediction of tree and shrub species plantation using soil parameters
Ompusunggu et al. Implementation of Data Mining To Predict the Value of Indonesian Oil and Non-Oil and Gas Import Exports Using the Linear Regression Method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240629

Address after: Room B509-127, Building 19, Innovation and Entrepreneurship Square, Science and Technology Innovation City, High tech Industrial Development Zone, Harbin City, Heilongjiang Province, 150000 yuan (No. 699 Chuangxin Road)

Patentee after: Harbin Keshang Technology Co.,Ltd.

Country or region after: China

Address before: 150080 No. 74, Xuefu Road, Nangang District, Heilongjiang, Harbin

Patentee before: Heilongjiang University

Country or region before: China