CN107844602B - 一种基于时空属性关联规则的预测方法 - Google Patents

一种基于时空属性关联规则的预测方法 Download PDF

Info

Publication number
CN107844602B
CN107844602B CN201711195365.4A CN201711195365A CN107844602B CN 107844602 B CN107844602 B CN 107844602B CN 201711195365 A CN201711195365 A CN 201711195365A CN 107844602 B CN107844602 B CN 107844602B
Authority
CN
China
Prior art keywords
attribute
prediction function
sequence
access request
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711195365.4A
Other languages
English (en)
Other versions
CN107844602A (zh
Inventor
陶洋
邓行
杨飞跃
潘蕾娜
许湘扬
梅思梦
章思青
代建建
谢金辉
李朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201711195365.4A priority Critical patent/CN107844602B/zh
Publication of CN107844602A publication Critical patent/CN107844602A/zh
Application granted granted Critical
Publication of CN107844602B publication Critical patent/CN107844602B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Operations Research (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于时空属性关联规则的预测方法,属于计算机技术领域。本发明分析智能城市中时空数据的特点,参数化用户访问请求的历史数据,将用户访问请求的历史数据映射到时空属性域,提取时空属性。根据用户访问的空间局部性和时间平稳性,在时空属性域中使用区域网格划分,关联规则和自回归积分滑动平均(ARIMA)模型进行相关分析和识别转换规则,挖掘用户访问模式,确定用户访问请求的历史变化规律,构建预测用户下一次访问请求的预测函数,以实现对用户时空数据的预测。本发明有利于发展高效的海量时空数据预测机制。

Description

一种基于时空属性关联规则的预测方法
技术领域
本发明属于计算机技术领域,涉及一种基于时空属性关联规则的预测方法。
背景技术
基于云计算和物联网的智慧城市的发展,产生了大量的时空数据,包括气象数据、水文数据、自然灾害数据和遥感图像,具有三个基本属性,即位置,时间和类型。这些数据具有种类繁多、数量大、冗余度高、随时间动态增长的特点。智能城市可以快速、方便地为用户提供丰富的预先定义的应用程序。该应用程序建立在用户所需求的时空数据服务上。这些服务包括数据可视化、时空相关分析、时间的急救和海量信息检索。
从现有的研究中可以看出,在网络环境下,一种典型的数据预测方案是基于当前/历史用户访问信息的。它利用用户访问连续性,空间局部性,流行性,对象之间的关联规则以及其他方法来分析和处理访问请求或数据级别的信息,以挖掘用户访问模式。然后,根据这些模式预测用户访问请求。
然而,我们注意到,用户访问时空数据通常在智慧城市时空特征明显。一般方法在访问请求或数据级别上挖掘用户访问模式,结果只能间接地反映这一特征,他们都不利于发展高效的海量时空数据预测机制。但是如果在时空属性层次上对用户访问信息进行分析和处理,则可以发现隐藏的时空相关性和过渡规则,从而可以开发出更具针对性的预测方案。
发明内容
有鉴于此,本发明的目的在于提供一种基于时空属性关联规则的预测方法。
为达到上述目的,本发明提供如下技术方案:
一种基于时空属性关联规则的预测方法,该方法包括以下步骤:
S1:构造预测函数,预测函数包括独立属性预测函数和联合属性预测函数;独立属性预测函数包括位置属性预测函数、类型属性预测函数和时间属性预测函数;
S2:基于构建好的独立属性预测函数和联合属性预测函数,预测访问请求。
进一步,所述S1具体为:
预测函数由独立属性预测函数Pre'(p,s,t)={Pre(p),Pre(s),Pre(t)}和联合属性预测函数Pre”(p,s,t)组成;
独立属性预测函数的构造:
1)位置属性预测函数的构造;位置属性预测函数Pre(p)的关键方面是空间域中的访问请求的相关性,利用关联规则算法从位置属性序列pn=<p1,p2,p3,...,pn>中挖掘关联项pi→pj,并根据关联规则集构造位置属性预测函数;
(a)区域网格划分
时空数据的位置属性表示智慧城市中数据源的地理位置,以纬度和经度坐标p=(x,y)表示,利用区域网格划分整个区域,既允许规则的早期解决,也允许细胞区域中的关联规则的后期更新,从而为关联规则提供局部和递增的解决方案;
设地理区域是智慧城市中的二维欧几里德矩形空间[0,X][0,Y];把它分成行×列,即row×col的矩形单元格进行编码,其中ith行jth列所覆盖的区域公式为gij=j+col·(i-1);那么,对于地理区域中的任何位置属性坐标点pk=(xk,yk),如果它满足以下等式,则它属于单元gij
Figure GDA0002891992500000021
Figure GDA0002891992500000022
(b)预测函数的构造
通过区域网格划分,使用关联规则算法从位置属性序列Pn=<p1,p2,p3,...,pn>中挖掘每个单元的关联项,并根据关联规则集构造位置属性预测函数Pre(p);
A.计算单元gij及其邻居单元中包含的位置坐标集
Figure GDA0002891992500000023
B.统计每个坐标点
Figure GDA0002891992500000024
出现在位置属性序列中的次数,即支持度,并将其与预定义的支持阈值δp进行比较,以找到频繁1项集;通过在频繁项集之间连接和切割遍历位置属性序列,找到频繁2项集、频繁3项集等,直到频繁m项集,2≤m≤n;
C.计算每个频繁m项集及其子频繁m-1项集的置信度;置信度为关联规则算法中,大家公认的一种算法度量指标,给定一个交易数据库D,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是D中事务已经包含X的情况下,包含Y的百分比,即条件概率。如果满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值是根据挖掘需要人为设定。
在置信度值大于置信度阈值Φp的关联项集上生成关联规则
Figure GDA0002891992500000025
然后,形成单元格gij的关联规则集
Figure GDA0002891992500000026
D.循环遍历地理区域中的每个单元,以计算位置属性关联规则集并合并它们以形成整个地理区域的关联规则集R(pijij)=Ui,jR(gijij);然后,构造位置属性预测函数:
Pre(p)=Match(p,R(pijij))
其中Match(.)是规则匹配函数,其输出是与位置属性p匹配成功的关联规则;
2)类型属性预测函数的构造
类型属性预测函数Pre(s)的关键方面是类型域中的访问请求的相关性,使用关联规则算法从类型属性Sn=<s1,s2,s3,...,sn>的序列中挖掘关联项si→sj,并根据关联规则集构造类型属性预测函数,具体步骤如下:
(a)统计每个坐标点si,sj∈S出现在位置属性序列中的次数,即支持度,并将其与预定义的支持阈值δs进行比较,以找到频繁1项集;通过在频繁项集之间连接和切割遍历类型属性序列,可以找到频繁2项集、频繁3项集等,直到频繁m项集,2≤m≤n;
(b)计算每个频繁m项集及其子频繁m-1项集的置信度,在置信度值大于置信度阈值Φs的关联项集上生成关联规则(si,si+1,...,si+m-1)→(si+mi,i+m);然后,形成单元格gij的关联规则集R(gijij)=Um((si,si+1,...,si+m-1)→(si+mi,i+m)),然后构造类型属性预测函数:
Pre(s)=Match(s,R(sijij))
3)时间属性预测函数的构造
时间属性预测函数Pre(t)的关键方面是时域中访问请求的相关性,分析时间序列的属性Tn=<t1,t2,t3,...,tn>,建立一个模型来描述这种潜在的相关性;分段表示时间属性序列,并进行差分处理以实现局部平稳;然后,建立ARIMA模型,构建时间属性预测函数;
(a)时间属性序列的分段表示
使用基于斜率变化的极值点检测和根据序列中局部极值,即每条曲线的起始和结束值的时间属性序列的分段表示;计算由序列值ti,1<i<n,形成的线段与其邻居点ti-1,ti+1的斜率差值||ti-ti-1|-|tt+1-ti||/ΔT,其中ΔT为访问请求的时间间隔;然后,将斜率差异与预定义的阈值进行比较,如果它大于或等于预定义的阈值,设m是一个局部极值,最后,通过使用局部极值,分段表示时间属性序列:
T={(t1L,t1R),(t2L,t2R),...,(tkL,tkR)}
其中tiL是i,i∈k,段的起始值,tiR是i,i∈k,段的最终值,k是分段的数量;
(b)预测函数的构造
通过上述分段表示和差分处理,实现时间属性序列的局部平稳性,构建ARIMA构造时间属性预测函数Pre(t),通过引入k步滞后算子
Figure GDA0002891992500000041
和d阶差分
Figure GDA0002891992500000042
标准ARIMA(p,d,q)模型表示如下:
Figure GDA0002891992500000043
其中wn=Δdtn=(1-B)dtn是差分阶数,
Figure GDA0002891992500000044
是自回归参数,θ12,...,θq是移动平均参数,δ是指示序列是非零均值的常数,ut是白噪声序列;
设j,1<j<k,的右、左局部极值为分段tjL=tm,tjR=tn;然后,分段表示为(tjL,tjR)=tm,tm+1,...,tn,,并且通过d阶差分处理,
Figure GDA0002891992500000045
同时,访问请求的时间属性序列不受外部随机干扰的影响,参数为ut=0,q=0;
最后,建立ARIMA(1,d,0)为wn=wn-1;结合滞后算子
Figure GDA0002891992500000046
和d阶差分,将时间属性预测函数Pre(t)表示为:
Figure GDA0002891992500000047
(2)联合属性预测函数的构造
由于时空属性互相关的访问请求只占请求总数的很小一部分,难以共同分析属性;因此,只分析时空属性具有特殊互相关性的访问请求,即如果位置属性序列Pl=<pi,pi+1,...,pi+l>和类型属性序列Sl=<si+1,si+2,...,si+l>保持不变并且长度达到最小阈值l=3,表示为:
pi+1=pi+2=...=pi+l,
si+1=si+2=...=si+l,
l≥3
然后,设位置属性和类型属性在下一个访问请求中保持不变,并且时间属性由Pre(t)预测;最后,联合属性预测函数Pre”(p,s,t)被构造为
Figure GDA0002891992500000048
进一步,所述S2具体为:使用预测函数根据当前的用户请求来预测用户的下一个访问请求;
设当前的用户访问请求表示为序列B=<b1,b2,b3,...,bm>,时空属性序列为B=<(p1,s1,t1),(p2,s2,t2),...,(pm,sm,tm)>={Pm,Sm,Tm},每个bi=(pi,si,ti),bi∈B,表示一个用户访问请求;首先对其进行参数化并提取时空属性,形成时空属性序列;然后,根据访问请求预测函数Pre'(p,s,t)和Pre”(p,s,t),将时空属性序列作为输入,并将输出
Figure GDA0002891992500000051
预测为访问请求;
定义一个初始大小为w的滑动自适应观测窗口,将属于观测窗口的时空属性序列{Pw,Sw,Tw}作为预测函数的输入;然后,判断{Pw,Sw,Tw}是否满足公式
Figure GDA0002891992500000052
如果满足,使用联合预测函数,否则,使用独立属性预测函数;则有:
Pw=(pm-w+1,pm-w+2,...,pm)
Sw=(sm-w+1,sm-w+2,...,sm)
Tw=(tm-w+1,tm-w+2,...,tm)。
(1)独立属性预测函数
对于不满足公式
Figure GDA0002891992500000053
的访问请求,根据公式Pre'(p,s,t)={Pre(p),Pre(s),Pre(t)}预测时空属性,从而形成预测访问请求
Figure GDA0002891992500000054
1)位置属性预测;由于整个地理区域采用区域网格划分,所以在预测之前,需要根据公式
Figure GDA0002891992500000055
判断坐标点是属于同一个小区还是邻居小区;如果这些点属于同一个单元格,触发预测;否则,放弃预测;
w'是最小观测窗口,R'(sijij)是存储匹配的相关项目和置信度的临时规则集,PW-1=<pm-w+2,pm-w+3,...,pm>是具有一位持续时间观察窗口的位置属性序列;Match(PW,R(gijij))为规则匹配函数,其输出为与pw匹配成功的关联规则项,匹配失败时输出为NULL;如果pw的坐标点属于同一个小区gij或邻居小区,使用规则匹配函数Match(PW,R(gijij))扫描关联规则集R(gijij)为三个匹配的关联项:
(p1,p2,...,pm)→(p'm+11)
(p1,p2,...,pm)→(p”m+12)
(p1,p2,...,pm)→(p”'m+13),
置信度满足φ123=1;如果φ1=max(φ123),预测的访问请求的位置属性是
Figure GDA0002891992500000065
2)类型属性预测
类型属性预测类似于位置属性预测;根据预测功能Pre(s)扫描关联规则集R(sijij);在当前观察窗口中查找与类型属性序列匹配的关联规则;然后,选择置信度最高的置信度作为输出结果;设(s1,s2,...,sm)→(s'm+11)是与SW成功匹配的关联规则,φ1是最大的;则预测的访问请求的类型属性为
Figure GDA0002891992500000061
3)时间属性预测
时间属性预测基于预测函数Pre(t);首先,对TW进行d阶差分处理以实现平稳性;然后,使用ARIMA来计算预测访问请求的时间属性,结果由
Figure GDA0002891992500000062
(2)联合属性预测函数
对于不满足公
Figure GDA0002891992500000063
的访问请求,根据公式Pre'(p,s,t)={Pre(p),Pre(s),Pre(t)}预测时空属性,从而形成预测访问请求:
Figure GDA0002891992500000064
本发明的有益效果在于:本发明有利于发展高效的海量时空数据预测机制,在时空属性层次上对用户访问信息进行分析和处理,可以发现隐藏的时空相关性和过渡规则,从而可以开发出更具针对性的预测方案。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为本发明流程图;
图2为本发明所述的区域网格划分中显示地理矩形区域分为4×5个小区和网格单元编码。
图3为本发明所述的区域网格划分中显示所有的小区gij相邻小区。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述。
假设智能城市的用户访问请求历史可以表示为序列A=<a1,a2,a3,...,an>,其中每个ai,1≤i≤n包含以下信息:位置属性p,类型属性s,时间属性t,用户IP和会话时间。为了对时空域的访问序列进行分析和处理,我们对信息进行参数化并提取时空属性,形成时空属性序列:
A=<(p1,s1,t1),(p2,s2,t2),...,(pn,sn,tn)> (1)
其中ai=(pi,si,ti)代表一个具有时空属性提取结果的参数化请求。具体来说,pn=<p1,p2,p3,...,pn>表示位置属性的序列,Sn=<s1,s2,s3,...,sn>表示类型属性的序列,Tn=<t1,t2,t3,...,tn>表示时间属性的序列。
由于时空属性序列{Pn,Sn,Tn}包含三种时空属性,因此找到隐藏的时空相关性和变化规则是非常困难的。然而,我们观察到,在智能城市中,当大多数用户请求访问时空数据时,请求的时空属性具有强自相关性,而互相关性弱。也就是说,任何两个连续的访问请求,ai,ai+1,在位置属性pi和类型属性si+1之间具有较弱的相关性,但在pi和pi+1之间具有非常强的相关性。例如,当用户检查区域A的当前温度时,他很有可能进一步查询区域A的风速和PM2.5,而不是其他区域的水质。
如图1所示,本发明分两步实施。第一步是离线挖掘用户访问模式来构建预测功能,第二步是在线访问请求预测。
1.预测函数的构造
预测函数由独立属性预测函数Pre'(p,s,t)={Pre(p),Pre(s),Pre(t)}和联合属性预测函数Pre”(p,s,t)组成。
独立属性预测函数的构造
1)位置属性预测函数的构造。位置属性预测函数Pre(p)的关键方面是空间域中的访问请求的相关性。因此,可以利用关联规则算法从位置属性序列pn=<p1,p2,p3,...,pn>中挖掘关联项pi→pj,并根据关联规则集构造位置属性预测函数。
(a)区域网格划分。
时空数据的位置属性表示智慧城市中数据源的地理位置,通常以纬度和经度坐标p=(x,y)表示。然而,直接求解位置属性坐标点的关联规则需要大量的计算。此外,对位置属性进行更新,修改,添加或删除操作将需要重新计算整个区域。因此,利用区域网格划分整个区域,既允许规则的早期解决,也允许细胞区域中的关联规则的后期更新,从而为关联规则提供局部和递增的解决方案,并大大减少计算量。
假设地理区域是智慧城市中的二维欧几里德矩形空间[0,X][0,Y]。把它分成行×列的矩形的单元格进行编码,其中ith行jth列所覆盖的区域公式为gij=j+col·(i-1)。那么,对于地理区域中的任何位置属性坐标点pk=(xk,yk),如果它满足以下等式,则假定它属于单元gij
Figure GDA0002891992500000081
(b)预测函数的构造。
通过区域网格划分,可以使用关联规则算法从位置属性序列Pn=<p1,p2,p3,...,pn>中挖掘每个单元的关联项,并根据关联规则集构造位置属性预测函数Pre(p)。
A.计算单元gij及其邻居单元中包含的位置坐标集
Figure GDA0002891992500000082
如图2所示。
B.统计每个坐标点
Figure GDA0002891992500000083
出现在位置属性序列中的次数,即支持度,并将其与预定义的支持阈值δp进行比较,以找到频繁1项集。通过在频繁项集之间连接和切割遍历位置属性序列,我们可以找到频繁2项集、频繁3项集等,直到频繁m项集,2≤m≤n。
C.计算每个频繁m项集及其子频繁m-1项集的置信度。在置信度值大于置信度阈值Φp的关联项集上生成关联规则
Figure GDA0002891992500000084
然后,形成单元格gij的关联规则集
Figure GDA0002891992500000085
D.循环遍历地理区域中的每个单元,以计算位置属性关联规则集并合并它们以形成整个地理区域的关联规则集R(pijij)=Ui,jR(gijij)。然后,构造位置属性预测函数,
Pre(p)=Match(p,R(pijij)) (3)
其中Match(.)是规则匹配函数,其输出是与位置属性p匹配成功的关联规则。
2)类型属性预测函数的构造。
类型属性预测函数Pre(s)的关键方面是类型域中的访问请求的相关性。因此,我们可以使用关联规则算法从类型属性Sn=<s1,s2,s3,...,sn>的序列中挖掘关联项si→sj,并根据关联规则集构造类型属性预测函数。具体步骤如下:
(a)统计每个坐标点si,sj∈S出现在位置属性序列中的次数,即支持度,并将其与预定义的支持阈值δs进行比较,以找到频繁1项集。通过在频繁项集之间连接和切割遍历类型属性序列,我们可以找到频繁2项集、频繁3项集等,直到频繁m项集,2≤m≤n。
(b)计算每个频繁m项集及其子频繁m-1项集的置信度。在置信度值大于置信度阈值Φs的关联项集上生成关联规则(si,si+1,...,si+m-1)→(si+mi,i+m)。然后,形成单元格gij的关联规则集R(gijij)=Um((si,si+1,...,si+m-1)→(si+mi,i+m))。然后构造类型属性预测函数
Pre(s)=Match(s,R(sijij)) (4)
3)时间属性预测函数的构造。
时间属性预测函数Pre(t)的关键方面是时域中访问请求的相关性。因此,可以分析时间序列的属性Tn=<t1,t2,t3,...,tn>,建立一个模型来描述这种潜在的相关性。
用户访问请求的时间属性序列是一个典型的非平稳序列,受预定义应用程序的影响,在局部范围内具有明显的趋势。ARIMA模型是一种重要且应用广泛的短期时间序列预测模型。它可以根据序列的当前和历史值来预测未来的值,但它需要序列是平稳的。为此,我们可以分段表示时间属性序列,并进行差分处理以实现局部平稳。然后,建立ARIMA模型,构建时间属性预测函数。
(a)时间属性序列的分段表示。
我们使用基于斜率变化的极值点检测和根据序列中局部极值(每条曲线的起始和结束值)的时间属性序列的分段表示。该方法计算由序列值ti,1<i<n,形成的线段与其邻居点ti-1,ti+1的斜率差值||ti-ti-1|-|tt+1-ti||/ΔT,其中ΔT为访问请求的时间间隔。然后,我们将斜率差异与预定义的阈值进行比较。如果它大于或等于预定义的阈值,我们假设m是一个局部极值。最后,通过使用局部极值,我们可以分段表示时间属性序列如下:
T={(t1L,t1R),(t2L,t2R),...,(tkL,tkR)} (5)
其中tiL是i,i∈k,段的起始值,tiR是i,i∈k,段的最终值,k是分段的数量。
(b)预测函数的构造。
通过上述分段表示和差分处理,可以实现时间属性序列的局部平稳性,构建ARIMA构造时间属性预测函数Pre(t)。通过引入k步滞后算子
Figure GDA0002891992500000091
和d阶差分
Figure GDA0002891992500000092
标准ARIMA(p,d,q)模型可以表示如下:
Figure GDA0002891992500000101
其中wn=Δdtn=(1-B)dtn是差分阶数,
Figure GDA0002891992500000102
是自回归参数,θ12,...,θq是移动平均参数,δ是指示序列是非零均值的常数,ut是白噪声序列。
假设j,1<j<k,的右、左局部极值为分段tjL=tm,tjR=tn。然后,根据公式(5)可以分段表示为(tjL,tjR)=tm,tm+1,...,tn,并且通过d阶差分处理,它可以是平稳的。从用户访问受限于预定义应用的角度来看,时间属性序列的变化趋势只能是线性的和规则的,这意味着它在循环和步长上不变,所以参数是
Figure GDA0002891992500000103
同时,访问请求的时间属性序列不受外部随机干扰的影响,所以参数为ut=0,q=0。
最后,可以建立ARIMA(1,d,0)为wn=wn-1。结合滞后算子
Figure GDA0002891992500000104
和d阶差分,可以将时间属性预测函数Pre(t)表示为:
Figure GDA0002891992500000105
(2)联合属性预测函数的构造。
由于时空属性互相关的访问请求只占请求总数的很小一部分,难以共同分析属性。因此,我们只分析时空属性具有特殊互相关性的访问请求,即如果位置属性序列Pl=<pi,pi+1,...,pi+l>和类型属性序列Sl=<si+1,si+2,...,si+l>保持不变并且长度达到最小阈值l=3,表示为以下等式:
Figure GDA0002891992500000107
然后,我们假设位置属性和类型属性在下一个访问请求中保持不变,并且时间属性可以由Pre(t)预测。最后,联合属性预测函数Pre”(p,s,t)可以被构造为
Figure GDA0002891992500000106
2.访问请求的预测方法。
本节的目的是展示如何使用预测函数根据当前的用户请求来预测用户的下一个访问请求。
假设当前的用户访问请求可以表示为序列B=<b1,b2,b3,...,bm>,时空属性序列为B=<(p1,s1,t1),(p2,s2,t2),...,(pm,sm,tm)>={Pm,Sm,Tm},每个bi=(pi,si,ti),bi∈B,表示一个用户访问请求。首先对其进行参数化并提取时空属性,形成时空属性序列。然后,根据访问请求预测函数Pre'(p,s,t)和Pre”(p,s,t),将时空属性序列作为输入,并将输出
Figure GDA0002891992500000111
预测为访问请求。
我们定义了一个初始大小为w的滑动自适应观测窗口,将属于观测窗口的时空属性序列{Pw,Sw,Tw}作为预测函数的输入。然后,我们判断{Pw,Sw,Tw}是否满足公式(8)。如果它满足(8),我们使用联合预测函数,否则,我们使用独立属性预测函数。因此,
Figure GDA0002891992500000112
Figure GDA0002891992500000113
可以预测。
Figure GDA0002891992500000117
(1)独立属性预测函数
对于不满足公式(8)的访问请求,我们根据公式Pre'(p,s,t)={Pre(p),Pre(s),Pre(t)}预测时空属性,从而形成预测访问请求
Figure GDA0002891992500000114
1)位置属性预测。如图3所示,由于整个地理区域采用区域网格划分,所以在预测之前,需要根据公式(2)判断坐标点是属于同一个小区还是邻居小区。如果这些点属于同一个单元格,我们触发预测;否则,我们放弃预测。
这里,w'是最小观测窗口,R'(sijij)是存储匹配的相关项目和置信度的临时规则集,PW-1=<pm-w+2,pm-w+3,...,pm>是具有一位持续时间观察窗口的位置属性序列。Match(PW,R(gijij))为规则匹配函数,其输出为与pw匹配成功的关联规则项,匹配失败时输出为NULL。例如,如果pw的坐标点属于同一个小区gij或邻居小区,我们使用规则匹配函数Match(PW,R(gijij))扫描关联规则集R(gijij)为三个匹配的关联项:
Figure GDA0002891992500000116
置信度满足φ123=1。如果φ1=max(φ123),预测的访问请求的位置属性是
Figure GDA0002891992500000115
2)类型属性预测。
类型属性预测类似于位置属性预测。根据预测功能Pre(s)扫描关联规则集R(sijij)。在当前观察窗口中查找与类型属性序列匹配的关联规则。然后,选择置信度最高的置信度作为输出结果。假设(s1,s2,...,sm)→(s'm+11)是与SW成功匹配的关联规则,φ1是最大的;则预测的访问请求的类型属性为
Figure GDA0002891992500000121
3)时间属性预测。
时间属性预测基于预测函数Pre(t)。首先,我们对TW进行d阶差分处理以实现平稳性。然后,我们使用ARIMA来计算预测访问请求的时间属性,结果由
Figure GDA0002891992500000122
(2)联合属性预测函数。
对于不满足公式(8)的访问请求,我们根据公式Pre'(p,s,t)={Pre(p),Pre(s),Pre(t)}预测时空属性,从而形成预测访问请求:
Figure GDA0002891992500000123
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。

Claims (1)

1.一种基于时空属性关联规则的预测方法,其特征在于:该方法包括以下步骤:
S1:构造预测函数,预测函数包括独立属性预测函数和联合属性预测函数;独立属性预测函数包括位置属性预测函数、类型属性预测函数和时间属性预测函数;
S2:基于构建好的独立属性预测函数和联合属性预测函数,预测访问请求;
所述S1具体为:
预测函数由独立属性预测函数Pre'(p,s,t)={Pre(p),Pre(s),Pre(t)}和联合属性预测函数Pre”(p,s,t)组成;
独立属性预测函数的构造:
1)位置属性预测函数的构造;位置属性预测函数Pre(p)的关键方面是空间域中的访问请求的相关性,利用关联规则算法从位置属性序列pn=<p1,p2,p3,...,pn>中挖掘关联项pi→pj,并根据关联规则集构造位置属性预测函数;
(a)区域网格划分
时空数据的位置属性表示智慧城市中数据源的地理位置,以纬度和经度坐标p=(x,y)表示,利用区域网格划分整个区域,既允许规则的早期解决,也允许细胞区域中的关联规则的后期更新,从而为关联规则提供局部和递增的解决方案;
设地理区域是智慧城市中的二维欧几里德矩形空间[0,X][0,Y];把它分成行×列,即row×col的矩形单元格进行编码,其中ith行jth列所覆盖的区域公式为gij=j+col·(i-1);那么,对于地理区域中的任何位置属性坐标点pk=(xk,yk),如果它满足以下等式,则它属于单元gij
Figure FDA0002891992490000011
Figure FDA0002891992490000012
(b)预测函数的构造
通过区域网格划分,使用关联规则算法从位置属性序列Pn=<p1,p2,p3,...,pn>中挖掘每个单元的关联项,并根据关联规则集构造位置属性预测函数Pre(p);
A.计算单元gij及其邻居单元中包含的位置坐标集
Figure FDA0002891992490000013
B.统计每个坐标点
Figure FDA0002891992490000014
出现在位置属性序列中的次数,即支持度,并将其与预定义的支持阈值δp进行比较,以找到频繁1项集;通过在频繁项集之间连接和切割遍历位置属性序列,找到频繁2项集、频繁3项集等,直到频繁m项集,2≤m≤n;
C.计算每个频繁m项集及其子频繁m-1项集的置信度;在置信度值大于置信度阈值Φp的关联项集上生成关联规则
Figure FDA0002891992490000021
然后,形成单元格gij的关联规则集
Figure FDA0002891992490000022
D.循环遍历地理区域中的每个单元,以计算位置属性关联规则集并合并它们以形成整个地理区域的关联规则集R(pijij)=Ui,jR(gijij);然后,构造位置属性预测函数:
Pre(p)=Match(p,R(pijij))
其中Match(.)是规则匹配函数,其输出是与位置属性p匹配成功的关联规则;
2)类型属性预测函数的构造
类型属性预测函数Pre(s)的关键方面是类型域中的访问请求的相关性,使用关联规则算法从类型属性Sn=<s1,s2,s3,...,sn>的序列中挖掘关联项si→sj,并根据关联规则集构造类型属性预测函数,具体步骤如下:
(a)统计每个坐标点si,sj∈S出现在位置属性序列中的次数,即支持度,并将其与预定义的支持阈值δs进行比较,以找到频繁1项集;通过在频繁项集之间连接和切割遍历类型属性序列,找到频繁2项集、频繁3项集等,直到频繁m项集,2≤m≤n;
(b)计算每个频繁m项集及其子频繁m-1项集的置信度,在置信度值大于置信度阈值Φs的关联项集上生成关联规则(si,si+1,...,si+m-1)→(si+mi,i+m);然后,形成单元格gij的关联规则集R(gijij)=Um((si,si+1,...,si+m-1)→(si+mi,i+m)),然后构造类型属性预测函数:
Pre(s)=Match(s,R(sijij))
3)时间属性预测函数的构造
时间属性预测函数Pre(t)的关键方面是时域中访问请求的相关性,分析时间序列的属性Tn=<t1,t2,t3,...,tn>,建立一个模型来描述这种潜在的相关性;分段表示时间属性序列,并进行差分处理以实现局部平稳;然后,建立ARIMA模型,构建时间属性预测函数;
(a)时间属性序列的分段表示
使用基于斜率变化的极值点检测和根据序列中局部极值,即每条曲线的起始和结束值的时间属性序列的分段表示;计算由序列值ti,1<i<n,形成的线段与其邻居点ti-1,ti+1的斜率差值||ti-ti-1|-|tt+1-ti||/ΔT,其中ΔT为访问请求的时间间隔;然后,将斜率差异与预定义的阈值进行比较,如果它大于或等于预定义的阈值,设m是一个局部极值,最后,通过使用局部极值,分段表示时间属性序列:
T={(t1L,t1R),(t2L,t2R),...,(tkL,tkR)}
其中tiL是i,i∈k,段的起始值,tiR是i,i∈k,段的最终值,k是分段的数量;
(b)预测函数的构造
通过上述分段表示和差分处理,实现时间属性序列的局部平稳性,构建ARIMA构造时间属性预测函数Pre(t),通过引入k步滞后算子
Figure FDA0002891992490000031
和d阶差分
Figure FDA0002891992490000032
标准ARIMA(p,d,q)模型表示如下:
Figure FDA0002891992490000033
其中wn=Δdtn=(1-B)dtn是差分阶数,
Figure FDA0002891992490000034
是自回归参数,θ12,...,θq是移动平均参数,δ是指示序列是非零均值的常数,ut是白噪声序列;
设j,1<j<k,的右、左局部极值为分段tjL=tm,tjR=tn;然后,分段表示为(tjL,tjR)=tm,tm+1,...,tn,并且通过d阶差分处理,p=1,
Figure FDA0002891992490000035
同时,访问请求的时间属性序列不受外部随机干扰的影响,参数为ut=0,q=0;
最后,建立ARIMA(1,d,0)为wn=wn-1;结合滞后算子
Figure FDA0002891992490000036
和d阶差分,将时间属性预测函数Pre(t)表示为:
Figure FDA0002891992490000037
(2)联合属性预测函数的构造
由于时空属性互相关的访问请求只占请求总数的很小一部分,难以共同分析属性;因此,只分析时空属性具有特殊互相关性的访问请求,即如果位置属性序列Pl=<pi,pi+1,...,pi+l>和类型属性序列Sl=<si+1,si+2,...,si+l>保持不变并且长度达到最小阈值l=3,表示为:
pi+1=pi+2=...=pi+l,
si+1=si+2=...=si+l,
l≥3
然后,设位置属性和类型属性在下一个访问请求中保持不变,并且时间属性由Pre(t)预测;最后,联合属性预测函数Pre”(p,s,t)被构造为
Figure FDA0002891992490000038
所述S2具体为:使用预测函数根据当前的用户请求来预测用户的下一个访问请求;
设当前的用户访问请求表示为序列B=<b1,b2,b3,...,bm>,时空属性序列为B=<(p1,s1,t1),(p2,s2,t2),...,(pm,sm,tm)>={Pm,Sm,Tm},每个bi=(pi,si,ti),bi∈B,表示一个用户访问请求;首先对其进行参数化并提取时空属性,形成时空属性序列;然后,根据访问请求预测函数Pre'(p,s,t)和Pre”(p,s,t),将时空属性序列作为输入,并将输出
Figure FDA0002891992490000041
预测为访问请求;
定义一个初始大小为w的滑动自适应观测窗口,将属于观测窗口的时空属性序列{Pw,Sw,Tw}作为预测函数的输入;然后,判断{Pw,Sw,Tw}是否满足公式
Figure FDA0002891992490000042
如果满足,使用联合预测函数,否则,使用独立属性预测函数;则有:
Pw=(pm-w+1,pm-w+2,...,pm)
Sw=(sm-w+1,sm-w+2,...,sm)
Tw=(tm-w+1,tm-w+2,...,tm)
(1)独立属性预测函数
对于不满足公式
Figure FDA0002891992490000043
的访问请求,根据公式Pre'(p,s,t)={Pre(p),Pre(s),Pre(t)}预测时空属性,从而形成预测访问请求
Figure FDA0002891992490000044
1)位置属性预测;由于整个地理区域采用区域网格划分,所以在预测之前,需要根据公式
Figure FDA0002891992490000045
判断坐标点是属于同一个小区还是邻居小区;如果这些点属于同一个单元格,触发预测;否则,放弃预测;
w'是最小观测窗口,R'(sijij)是存储匹配的相关项目和置信度的临时规则集,PW-1=<pm-w+2,pm-w+3,...,pm>是具有一位持续时间观察窗口的位置属性序列;Match(PW,R(gijij))为规则匹配函数,其输出为与pw匹配成功的关联规则项,匹配失败时输出为NULL;如果pw的坐标点属于同一个小区gij或邻居小区,使用规则匹配函数Match(PW,R(gijij))扫描关联规则集R(gijij)为三个匹配的关联项:
(p1,p2,...,pm)→(p'm+11)
(p1,p2,...,pm)→(p”m+12)
(p1,p2,...,pm)→(p”'m+13)
置信度满足φ123=1;如果φ1=max(φ123),预测的访问请求的位置属性是
Figure FDA0002891992490000051
2)类型属性预测
类型属性预测类似于位置属性预测;根据预测功能Pre(s)扫描关联规则集R(sijij);在当前观察窗口中查找与类型属性序列匹配的关联规则;然后,选择置信度最高的置信度作为输出结果;设(s1,s2,...,sm)→(s'm+11)是与SW成功匹配的关联规则,φ1是最大的;则预测的访问请求的类型属性为
Figure FDA0002891992490000052
3)时间属性预测
时间属性预测基于预测函数Pre(t);首先,对TW进行d阶差分处理以实现平稳性;然后,使用ARIMA来计算预测访问请求的时间属性,结果由
Figure FDA0002891992490000053
(2)联合属性预测函数
对于不满足公
Figure FDA0002891992490000054
的访问请求,根据公式Pre'(p,s,t)={Pre(p),Pre(s),Pre(t)}预测时空属性,从而形成预测访问请求:
Figure FDA0002891992490000055
CN201711195365.4A 2017-11-24 2017-11-24 一种基于时空属性关联规则的预测方法 Active CN107844602B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711195365.4A CN107844602B (zh) 2017-11-24 2017-11-24 一种基于时空属性关联规则的预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711195365.4A CN107844602B (zh) 2017-11-24 2017-11-24 一种基于时空属性关联规则的预测方法

Publications (2)

Publication Number Publication Date
CN107844602A CN107844602A (zh) 2018-03-27
CN107844602B true CN107844602B (zh) 2021-03-16

Family

ID=61680290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711195365.4A Active CN107844602B (zh) 2017-11-24 2017-11-24 一种基于时空属性关联规则的预测方法

Country Status (1)

Country Link
CN (1) CN107844602B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111008223B (zh) * 2019-10-21 2023-11-14 北京交通大学 一种基于时空关联规则的区域交通拥堵相关性计算方法
CN111159247B (zh) * 2019-11-20 2024-01-12 北京交通大学 一种区域交通拥堵传播轨迹挖掘方法
CN114257490B (zh) * 2020-09-22 2023-08-15 中国移动通信集团设计院有限公司 无线网络性能告警分析方法及装置
CN115860179B (zh) * 2022-11-01 2024-07-16 清华大学 轨迹预测方法、装置、设备、存储介质及程序产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102473247A (zh) * 2009-06-30 2012-05-23 陶氏益农公司 用于在包含分子遗传标志物的植物和动物数据集中挖掘关联规则,继而利用由这些关联规则创建的特征进行分类或预测的机器学习方法的应用
CN106408139A (zh) * 2016-12-20 2017-02-15 中国人民解放军空军装备研究院雷达与电子对抗研究所 机场到达率预测方法及装置
CN107147110A (zh) * 2017-05-17 2017-09-08 山东大学 考虑多风场预测误差时空相关性的储能容量优化配置方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160034323A1 (en) * 2014-08-04 2016-02-04 International Business Machines Corporation Characterizing relationships among spatio-temporal events
US20160275151A1 (en) * 2015-03-18 2016-09-22 Alfredo Lovati Method and System for Dashboard for Event Management

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102473247A (zh) * 2009-06-30 2012-05-23 陶氏益农公司 用于在包含分子遗传标志物的植物和动物数据集中挖掘关联规则,继而利用由这些关联规则创建的特征进行分类或预测的机器学习方法的应用
CN106408139A (zh) * 2016-12-20 2017-02-15 中国人民解放军空军装备研究院雷达与电子对抗研究所 机场到达率预测方法及装置
CN107147110A (zh) * 2017-05-17 2017-09-08 山东大学 考虑多风场预测误差时空相关性的储能容量优化配置方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A study on time based association rule mining on spatial-temporal data for intelligent transportation applications;Swathi Lanka,等;《2014 First International Conference on Networks & Soft Computing (ICNSC2014)》;20140925;第395-399页 *
基于时空关联规则的标绘数据挖掘研究;许思莹;《中国优秀硕士学位论文全文数据库信息科技辑》;20160315;第11-45页 *

Also Published As

Publication number Publication date
CN107844602A (zh) 2018-03-27

Similar Documents

Publication Publication Date Title
CN107844602B (zh) 一种基于时空属性关联规则的预测方法
Kong et al. Integrated generative model for industrial anomaly detection via bidirectional LSTM and attention mechanism
AU2017206289B2 (en) Improved patch match convergence using metropolis-hastings
Singh et al. Filters for spatial point processes
KR20220042356A (ko) 타깃 재식별 방법, 장치, 기기, 저장 매체 및 프로그램 제품
CN114357105B (zh) 地理预训练模型的预训练方法及模型微调方法
CN108629979A (zh) 一种基于历史和周边路口数据的拥堵预测算法
Yang et al. Fast wireless sensor for anomaly detection based on data stream in an edge-computing-enabled smart greenhouse
CN116206453B (zh) 一种基于迁移学习的交通流预测方法、装置及相关设备
CN109492027B (zh) 一种基于弱可信数据的跨社群潜在人物关系分析方法
CN111292356A (zh) 运动轨迹与道路的匹配方法及装置
CN114492763A (zh) 一种融合全局上下文信息注意力增强的图神经网络方法
CN104063555B (zh) 面向遥感信息智能分发的用户模型建模方法
Elgazzar et al. Evolutionary clustering and community detection algorithms for social media health surveillance
CN108173876B (zh) 基于最大频繁模式的动态规则库构建方法
Mason et al. Learning nearest neighbor graphs from noisy distance samples
CN117971858A (zh) 一种多目标时空轨迹伴随行为识别方法
CN109785302B (zh) 一种空谱联合特征学习网络及多光谱变化检测方法
Sinha et al. Image retrieval using landmark indexing for indoor navigation
Dehbi et al. Identification and modelling of translational and axial symmetries and their hierarchical structures in building footprints by formal grammars
JP2017076196A (ja) パターン抽出装置、方法、及びプログラム
CN114758285A (zh) 基于锚自由和长时注意力感知的视频交互动作检测方法
KR20220147315A (ko) 에지 컴퓨팅 환경에서의 IoT 누락데이터 관리 방법 및 장치
Wu et al. Mining geographic episode association patterns of abnormal events in global earth science data
Yang et al. Adaptive density peak clustering for determinging cluster center

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant