CN107844602B - 一种基于时空属性关联规则的预测方法 - Google Patents
一种基于时空属性关联规则的预测方法 Download PDFInfo
- Publication number
- CN107844602B CN107844602B CN201711195365.4A CN201711195365A CN107844602B CN 107844602 B CN107844602 B CN 107844602B CN 201711195365 A CN201711195365 A CN 201711195365A CN 107844602 B CN107844602 B CN 107844602B
- Authority
- CN
- China
- Prior art keywords
- attribute
- prediction function
- sequence
- access request
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 230000008859 change Effects 0.000 claims abstract description 4
- 230000002123 temporal effect Effects 0.000 claims description 18
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 claims description 16
- 238000010276 construction Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 11
- 238000005065 mining Methods 0.000 claims description 9
- 230000001413 cellular effect Effects 0.000 claims description 3
- 230000002596 correlated effect Effects 0.000 claims description 2
- 101100460704 Aspergillus sp. (strain MF297-2) notI gene Proteins 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 5
- 230000007246 mechanism Effects 0.000 abstract description 3
- 238000010219 correlation analysis Methods 0.000 abstract description 2
- 238000006243 chemical reaction Methods 0.000 abstract 1
- 239000000284 extract Substances 0.000 abstract 1
- 238000005192 partition Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Computational Linguistics (AREA)
- Operations Research (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于时空属性关联规则的预测方法,属于计算机技术领域。本发明分析智能城市中时空数据的特点,参数化用户访问请求的历史数据,将用户访问请求的历史数据映射到时空属性域,提取时空属性。根据用户访问的空间局部性和时间平稳性,在时空属性域中使用区域网格划分,关联规则和自回归积分滑动平均(ARIMA)模型进行相关分析和识别转换规则,挖掘用户访问模式,确定用户访问请求的历史变化规律,构建预测用户下一次访问请求的预测函数,以实现对用户时空数据的预测。本发明有利于发展高效的海量时空数据预测机制。
Description
技术领域
本发明属于计算机技术领域,涉及一种基于时空属性关联规则的预测方法。
背景技术
基于云计算和物联网的智慧城市的发展,产生了大量的时空数据,包括气象数据、水文数据、自然灾害数据和遥感图像,具有三个基本属性,即位置,时间和类型。这些数据具有种类繁多、数量大、冗余度高、随时间动态增长的特点。智能城市可以快速、方便地为用户提供丰富的预先定义的应用程序。该应用程序建立在用户所需求的时空数据服务上。这些服务包括数据可视化、时空相关分析、时间的急救和海量信息检索。
从现有的研究中可以看出,在网络环境下,一种典型的数据预测方案是基于当前/历史用户访问信息的。它利用用户访问连续性,空间局部性,流行性,对象之间的关联规则以及其他方法来分析和处理访问请求或数据级别的信息,以挖掘用户访问模式。然后,根据这些模式预测用户访问请求。
然而,我们注意到,用户访问时空数据通常在智慧城市时空特征明显。一般方法在访问请求或数据级别上挖掘用户访问模式,结果只能间接地反映这一特征,他们都不利于发展高效的海量时空数据预测机制。但是如果在时空属性层次上对用户访问信息进行分析和处理,则可以发现隐藏的时空相关性和过渡规则,从而可以开发出更具针对性的预测方案。
发明内容
有鉴于此,本发明的目的在于提供一种基于时空属性关联规则的预测方法。
为达到上述目的,本发明提供如下技术方案:
一种基于时空属性关联规则的预测方法,该方法包括以下步骤:
S1:构造预测函数,预测函数包括独立属性预测函数和联合属性预测函数;独立属性预测函数包括位置属性预测函数、类型属性预测函数和时间属性预测函数;
S2:基于构建好的独立属性预测函数和联合属性预测函数,预测访问请求。
进一步,所述S1具体为:
预测函数由独立属性预测函数Pre'(p,s,t)={Pre(p),Pre(s),Pre(t)}和联合属性预测函数Pre”(p,s,t)组成;
独立属性预测函数的构造:
1)位置属性预测函数的构造;位置属性预测函数Pre(p)的关键方面是空间域中的访问请求的相关性,利用关联规则算法从位置属性序列pn=<p1,p2,p3,...,pn>中挖掘关联项pi→pj,并根据关联规则集构造位置属性预测函数;
(a)区域网格划分
时空数据的位置属性表示智慧城市中数据源的地理位置,以纬度和经度坐标p=(x,y)表示,利用区域网格划分整个区域,既允许规则的早期解决,也允许细胞区域中的关联规则的后期更新,从而为关联规则提供局部和递增的解决方案;
设地理区域是智慧城市中的二维欧几里德矩形空间[0,X][0,Y];把它分成行×列,即row×col的矩形单元格进行编码,其中ith行jth列所覆盖的区域公式为gij=j+col·(i-1);那么,对于地理区域中的任何位置属性坐标点pk=(xk,yk),如果它满足以下等式,则它属于单元gij:
(b)预测函数的构造
通过区域网格划分,使用关联规则算法从位置属性序列Pn=<p1,p2,p3,...,pn>中挖掘每个单元的关联项,并根据关联规则集构造位置属性预测函数Pre(p);
B.统计每个坐标点出现在位置属性序列中的次数,即支持度,并将其与预定义的支持阈值δp进行比较,以找到频繁1项集;通过在频繁项集之间连接和切割遍历位置属性序列,找到频繁2项集、频繁3项集等,直到频繁m项集,2≤m≤n;
C.计算每个频繁m项集及其子频繁m-1项集的置信度;置信度为关联规则算法中,大家公认的一种算法度量指标,给定一个交易数据库D,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是D中事务已经包含X的情况下,包含Y的百分比,即条件概率。如果满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值是根据挖掘需要人为设定。
D.循环遍历地理区域中的每个单元,以计算位置属性关联规则集并合并它们以形成整个地理区域的关联规则集R(pij,Φij)=Ui,jR(gij,Φij);然后,构造位置属性预测函数:
Pre(p)=Match(p,R(pij,Φij))
其中Match(.)是规则匹配函数,其输出是与位置属性p匹配成功的关联规则;
2)类型属性预测函数的构造
类型属性预测函数Pre(s)的关键方面是类型域中的访问请求的相关性,使用关联规则算法从类型属性Sn=<s1,s2,s3,...,sn>的序列中挖掘关联项si→sj,并根据关联规则集构造类型属性预测函数,具体步骤如下:
(a)统计每个坐标点si,sj∈S出现在位置属性序列中的次数,即支持度,并将其与预定义的支持阈值δs进行比较,以找到频繁1项集;通过在频繁项集之间连接和切割遍历类型属性序列,可以找到频繁2项集、频繁3项集等,直到频繁m项集,2≤m≤n;
(b)计算每个频繁m项集及其子频繁m-1项集的置信度,在置信度值大于置信度阈值Φs的关联项集上生成关联规则(si,si+1,...,si+m-1)→(si+m,Φi,i+m);然后,形成单元格gij的关联规则集R(gij,Φij)=Um((si,si+1,...,si+m-1)→(si+m,Φi,i+m)),然后构造类型属性预测函数:
Pre(s)=Match(s,R(sij,Φij))
3)时间属性预测函数的构造
时间属性预测函数Pre(t)的关键方面是时域中访问请求的相关性,分析时间序列的属性Tn=<t1,t2,t3,...,tn>,建立一个模型来描述这种潜在的相关性;分段表示时间属性序列,并进行差分处理以实现局部平稳;然后,建立ARIMA模型,构建时间属性预测函数;
(a)时间属性序列的分段表示
使用基于斜率变化的极值点检测和根据序列中局部极值,即每条曲线的起始和结束值的时间属性序列的分段表示;计算由序列值ti,1<i<n,形成的线段与其邻居点ti-1,ti+1的斜率差值||ti-ti-1|-|tt+1-ti||/ΔT,其中ΔT为访问请求的时间间隔;然后,将斜率差异与预定义的阈值进行比较,如果它大于或等于预定义的阈值,设m是一个局部极值,最后,通过使用局部极值,分段表示时间属性序列:
T={(t1L,t1R),(t2L,t2R),...,(tkL,tkR)}
其中tiL是i,i∈k,段的起始值,tiR是i,i∈k,段的最终值,k是分段的数量;
(b)预测函数的构造
设j,1<j<k,的右、左局部极值为分段tjL=tm,tjR=tn;然后,分段表示为(tjL,tjR)=tm,tm+1,...,tn,,并且通过d阶差分处理,同时,访问请求的时间属性序列不受外部随机干扰的影响,参数为ut=0,q=0;
(2)联合属性预测函数的构造
由于时空属性互相关的访问请求只占请求总数的很小一部分,难以共同分析属性;因此,只分析时空属性具有特殊互相关性的访问请求,即如果位置属性序列Pl=<pi,pi+1,...,pi+l>和类型属性序列Sl=<si+1,si+2,...,si+l>保持不变并且长度达到最小阈值l=3,表示为:
pi+1=pi+2=...=pi+l,
si+1=si+2=...=si+l,
l≥3
然后,设位置属性和类型属性在下一个访问请求中保持不变,并且时间属性由Pre(t)预测;最后,联合属性预测函数Pre”(p,s,t)被构造为
进一步,所述S2具体为:使用预测函数根据当前的用户请求来预测用户的下一个访问请求;
设当前的用户访问请求表示为序列B=<b1,b2,b3,...,bm>,时空属性序列为B=<(p1,s1,t1),(p2,s2,t2),...,(pm,sm,tm)>={Pm,Sm,Tm},每个bi=(pi,si,ti),bi∈B,表示一个用户访问请求;首先对其进行参数化并提取时空属性,形成时空属性序列;然后,根据访问请求预测函数Pre'(p,s,t)和Pre”(p,s,t),将时空属性序列作为输入,并将输出预测为访问请求;
定义一个初始大小为w的滑动自适应观测窗口,将属于观测窗口的时空属性序列{Pw,Sw,Tw}作为预测函数的输入;然后,判断{Pw,Sw,Tw}是否满足公式如果满足,使用联合预测函数,否则,使用独立属性预测函数;则有:
Pw=(pm-w+1,pm-w+2,...,pm)
Sw=(sm-w+1,sm-w+2,...,sm)
Tw=(tm-w+1,tm-w+2,...,tm)。
(1)独立属性预测函数
w'是最小观测窗口,R'(sij,φij)是存储匹配的相关项目和置信度的临时规则集,PW-1=<pm-w+2,pm-w+3,...,pm>是具有一位持续时间观察窗口的位置属性序列;Match(PW,R(gij,φij))为规则匹配函数,其输出为与pw匹配成功的关联规则项,匹配失败时输出为NULL;如果pw的坐标点属于同一个小区gij或邻居小区,使用规则匹配函数Match(PW,R(gij,φij))扫描关联规则集R(gij,φij)为三个匹配的关联项:
(p1,p2,...,pm)→(p'm+1,φ1)
(p1,p2,...,pm)→(p”m+1,φ2)
(p1,p2,...,pm)→(p”'m+1,φ3),
2)类型属性预测
类型属性预测类似于位置属性预测;根据预测功能Pre(s)扫描关联规则集R(sij,φij);在当前观察窗口中查找与类型属性序列匹配的关联规则;然后,选择置信度最高的置信度作为输出结果;设(s1,s2,...,sm)→(s'm+1,φ1)是与SW成功匹配的关联规则,φ1是最大的;则预测的访问请求的类型属性为
3)时间属性预测
时间属性预测基于预测函数Pre(t);首先,对TW进行d阶差分处理以实现平稳性;然后,使用ARIMA来计算预测访问请求的时间属性,结果由
(2)联合属性预测函数
本发明的有益效果在于:本发明有利于发展高效的海量时空数据预测机制,在时空属性层次上对用户访问信息进行分析和处理,可以发现隐藏的时空相关性和过渡规则,从而可以开发出更具针对性的预测方案。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为本发明流程图;
图2为本发明所述的区域网格划分中显示地理矩形区域分为4×5个小区和网格单元编码。
图3为本发明所述的区域网格划分中显示所有的小区gij相邻小区。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述。
假设智能城市的用户访问请求历史可以表示为序列A=<a1,a2,a3,...,an>,其中每个ai,1≤i≤n包含以下信息:位置属性p,类型属性s,时间属性t,用户IP和会话时间。为了对时空域的访问序列进行分析和处理,我们对信息进行参数化并提取时空属性,形成时空属性序列:
A=<(p1,s1,t1),(p2,s2,t2),...,(pn,sn,tn)> (1)
其中ai=(pi,si,ti)代表一个具有时空属性提取结果的参数化请求。具体来说,pn=<p1,p2,p3,...,pn>表示位置属性的序列,Sn=<s1,s2,s3,...,sn>表示类型属性的序列,Tn=<t1,t2,t3,...,tn>表示时间属性的序列。
由于时空属性序列{Pn,Sn,Tn}包含三种时空属性,因此找到隐藏的时空相关性和变化规则是非常困难的。然而,我们观察到,在智能城市中,当大多数用户请求访问时空数据时,请求的时空属性具有强自相关性,而互相关性弱。也就是说,任何两个连续的访问请求,ai,ai+1,在位置属性pi和类型属性si+1之间具有较弱的相关性,但在pi和pi+1之间具有非常强的相关性。例如,当用户检查区域A的当前温度时,他很有可能进一步查询区域A的风速和PM2.5,而不是其他区域的水质。
如图1所示,本发明分两步实施。第一步是离线挖掘用户访问模式来构建预测功能,第二步是在线访问请求预测。
1.预测函数的构造
预测函数由独立属性预测函数Pre'(p,s,t)={Pre(p),Pre(s),Pre(t)}和联合属性预测函数Pre”(p,s,t)组成。
独立属性预测函数的构造
1)位置属性预测函数的构造。位置属性预测函数Pre(p)的关键方面是空间域中的访问请求的相关性。因此,可以利用关联规则算法从位置属性序列pn=<p1,p2,p3,...,pn>中挖掘关联项pi→pj,并根据关联规则集构造位置属性预测函数。
(a)区域网格划分。
时空数据的位置属性表示智慧城市中数据源的地理位置,通常以纬度和经度坐标p=(x,y)表示。然而,直接求解位置属性坐标点的关联规则需要大量的计算。此外,对位置属性进行更新,修改,添加或删除操作将需要重新计算整个区域。因此,利用区域网格划分整个区域,既允许规则的早期解决,也允许细胞区域中的关联规则的后期更新,从而为关联规则提供局部和递增的解决方案,并大大减少计算量。
假设地理区域是智慧城市中的二维欧几里德矩形空间[0,X][0,Y]。把它分成行×列的矩形的单元格进行编码,其中ith行jth列所覆盖的区域公式为gij=j+col·(i-1)。那么,对于地理区域中的任何位置属性坐标点pk=(xk,yk),如果它满足以下等式,则假定它属于单元gij:
(b)预测函数的构造。
通过区域网格划分,可以使用关联规则算法从位置属性序列Pn=<p1,p2,p3,...,pn>中挖掘每个单元的关联项,并根据关联规则集构造位置属性预测函数Pre(p)。
B.统计每个坐标点出现在位置属性序列中的次数,即支持度,并将其与预定义的支持阈值δp进行比较,以找到频繁1项集。通过在频繁项集之间连接和切割遍历位置属性序列,我们可以找到频繁2项集、频繁3项集等,直到频繁m项集,2≤m≤n。
D.循环遍历地理区域中的每个单元,以计算位置属性关联规则集并合并它们以形成整个地理区域的关联规则集R(pij,Φij)=Ui,jR(gij,Φij)。然后,构造位置属性预测函数,
Pre(p)=Match(p,R(pij,Φij)) (3)
其中Match(.)是规则匹配函数,其输出是与位置属性p匹配成功的关联规则。
2)类型属性预测函数的构造。
类型属性预测函数Pre(s)的关键方面是类型域中的访问请求的相关性。因此,我们可以使用关联规则算法从类型属性Sn=<s1,s2,s3,...,sn>的序列中挖掘关联项si→sj,并根据关联规则集构造类型属性预测函数。具体步骤如下:
(a)统计每个坐标点si,sj∈S出现在位置属性序列中的次数,即支持度,并将其与预定义的支持阈值δs进行比较,以找到频繁1项集。通过在频繁项集之间连接和切割遍历类型属性序列,我们可以找到频繁2项集、频繁3项集等,直到频繁m项集,2≤m≤n。
(b)计算每个频繁m项集及其子频繁m-1项集的置信度。在置信度值大于置信度阈值Φs的关联项集上生成关联规则(si,si+1,...,si+m-1)→(si+m,Φi,i+m)。然后,形成单元格gij的关联规则集R(gij,Φij)=Um((si,si+1,...,si+m-1)→(si+m,Φi,i+m))。然后构造类型属性预测函数
Pre(s)=Match(s,R(sij,Φij)) (4)
3)时间属性预测函数的构造。
时间属性预测函数Pre(t)的关键方面是时域中访问请求的相关性。因此,可以分析时间序列的属性Tn=<t1,t2,t3,...,tn>,建立一个模型来描述这种潜在的相关性。
用户访问请求的时间属性序列是一个典型的非平稳序列,受预定义应用程序的影响,在局部范围内具有明显的趋势。ARIMA模型是一种重要且应用广泛的短期时间序列预测模型。它可以根据序列的当前和历史值来预测未来的值,但它需要序列是平稳的。为此,我们可以分段表示时间属性序列,并进行差分处理以实现局部平稳。然后,建立ARIMA模型,构建时间属性预测函数。
(a)时间属性序列的分段表示。
我们使用基于斜率变化的极值点检测和根据序列中局部极值(每条曲线的起始和结束值)的时间属性序列的分段表示。该方法计算由序列值ti,1<i<n,形成的线段与其邻居点ti-1,ti+1的斜率差值||ti-ti-1|-|tt+1-ti||/ΔT,其中ΔT为访问请求的时间间隔。然后,我们将斜率差异与预定义的阈值进行比较。如果它大于或等于预定义的阈值,我们假设m是一个局部极值。最后,通过使用局部极值,我们可以分段表示时间属性序列如下:
T={(t1L,t1R),(t2L,t2R),...,(tkL,tkR)} (5)
其中tiL是i,i∈k,段的起始值,tiR是i,i∈k,段的最终值,k是分段的数量。
(b)预测函数的构造。
假设j,1<j<k,的右、左局部极值为分段tjL=tm,tjR=tn。然后,根据公式(5)可以分段表示为(tjL,tjR)=tm,tm+1,...,tn,并且通过d阶差分处理,它可以是平稳的。从用户访问受限于预定义应用的角度来看,时间属性序列的变化趋势只能是线性的和规则的,这意味着它在循环和步长上不变,所以参数是同时,访问请求的时间属性序列不受外部随机干扰的影响,所以参数为ut=0,q=0。
(2)联合属性预测函数的构造。
由于时空属性互相关的访问请求只占请求总数的很小一部分,难以共同分析属性。因此,我们只分析时空属性具有特殊互相关性的访问请求,即如果位置属性序列Pl=<pi,pi+1,...,pi+l>和类型属性序列Sl=<si+1,si+2,...,si+l>保持不变并且长度达到最小阈值l=3,表示为以下等式:
然后,我们假设位置属性和类型属性在下一个访问请求中保持不变,并且时间属性可以由Pre(t)预测。最后,联合属性预测函数Pre”(p,s,t)可以被构造为
2.访问请求的预测方法。
本节的目的是展示如何使用预测函数根据当前的用户请求来预测用户的下一个访问请求。
假设当前的用户访问请求可以表示为序列B=<b1,b2,b3,...,bm>,时空属性序列为B=<(p1,s1,t1),(p2,s2,t2),...,(pm,sm,tm)>={Pm,Sm,Tm},每个bi=(pi,si,ti),bi∈B,表示一个用户访问请求。首先对其进行参数化并提取时空属性,形成时空属性序列。然后,根据访问请求预测函数Pre'(p,s,t)和Pre”(p,s,t),将时空属性序列作为输入,并将输出预测为访问请求。
我们定义了一个初始大小为w的滑动自适应观测窗口,将属于观测窗口的时空属性序列{Pw,Sw,Tw}作为预测函数的输入。然后,我们判断{Pw,Sw,Tw}是否满足公式(8)。如果它满足(8),我们使用联合预测函数,否则,我们使用独立属性预测函数。因此,和可以预测。
(1)独立属性预测函数
1)位置属性预测。如图3所示,由于整个地理区域采用区域网格划分,所以在预测之前,需要根据公式(2)判断坐标点是属于同一个小区还是邻居小区。如果这些点属于同一个单元格,我们触发预测;否则,我们放弃预测。
这里,w'是最小观测窗口,R'(sij,φij)是存储匹配的相关项目和置信度的临时规则集,PW-1=<pm-w+2,pm-w+3,...,pm>是具有一位持续时间观察窗口的位置属性序列。Match(PW,R(gij,φij))为规则匹配函数,其输出为与pw匹配成功的关联规则项,匹配失败时输出为NULL。例如,如果pw的坐标点属于同一个小区gij或邻居小区,我们使用规则匹配函数Match(PW,R(gij,φij))扫描关联规则集R(gij,φij)为三个匹配的关联项:
2)类型属性预测。
类型属性预测类似于位置属性预测。根据预测功能Pre(s)扫描关联规则集R(sij,φij)。在当前观察窗口中查找与类型属性序列匹配的关联规则。然后,选择置信度最高的置信度作为输出结果。假设(s1,s2,...,sm)→(s'm+1,φ1)是与SW成功匹配的关联规则,φ1是最大的;则预测的访问请求的类型属性为
3)时间属性预测。
时间属性预测基于预测函数Pre(t)。首先,我们对TW进行d阶差分处理以实现平稳性。然后,我们使用ARIMA来计算预测访问请求的时间属性,结果由
(2)联合属性预测函数。
对于不满足公式(8)的访问请求,我们根据公式Pre'(p,s,t)={Pre(p),Pre(s),Pre(t)}预测时空属性,从而形成预测访问请求:
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。
Claims (1)
1.一种基于时空属性关联规则的预测方法,其特征在于:该方法包括以下步骤:
S1:构造预测函数,预测函数包括独立属性预测函数和联合属性预测函数;独立属性预测函数包括位置属性预测函数、类型属性预测函数和时间属性预测函数;
S2:基于构建好的独立属性预测函数和联合属性预测函数,预测访问请求;
所述S1具体为:
预测函数由独立属性预测函数Pre'(p,s,t)={Pre(p),Pre(s),Pre(t)}和联合属性预测函数Pre”(p,s,t)组成;
独立属性预测函数的构造:
1)位置属性预测函数的构造;位置属性预测函数Pre(p)的关键方面是空间域中的访问请求的相关性,利用关联规则算法从位置属性序列pn=<p1,p2,p3,...,pn>中挖掘关联项pi→pj,并根据关联规则集构造位置属性预测函数;
(a)区域网格划分
时空数据的位置属性表示智慧城市中数据源的地理位置,以纬度和经度坐标p=(x,y)表示,利用区域网格划分整个区域,既允许规则的早期解决,也允许细胞区域中的关联规则的后期更新,从而为关联规则提供局部和递增的解决方案;
设地理区域是智慧城市中的二维欧几里德矩形空间[0,X][0,Y];把它分成行×列,即row×col的矩形单元格进行编码,其中ith行jth列所覆盖的区域公式为gij=j+col·(i-1);那么,对于地理区域中的任何位置属性坐标点pk=(xk,yk),如果它满足以下等式,则它属于单元gij:
(b)预测函数的构造
通过区域网格划分,使用关联规则算法从位置属性序列Pn=<p1,p2,p3,...,pn>中挖掘每个单元的关联项,并根据关联规则集构造位置属性预测函数Pre(p);
B.统计每个坐标点出现在位置属性序列中的次数,即支持度,并将其与预定义的支持阈值δp进行比较,以找到频繁1项集;通过在频繁项集之间连接和切割遍历位置属性序列,找到频繁2项集、频繁3项集等,直到频繁m项集,2≤m≤n;
D.循环遍历地理区域中的每个单元,以计算位置属性关联规则集并合并它们以形成整个地理区域的关联规则集R(pij,Φij)=Ui,jR(gij,Φij);然后,构造位置属性预测函数:
Pre(p)=Match(p,R(pij,Φij))
其中Match(.)是规则匹配函数,其输出是与位置属性p匹配成功的关联规则;
2)类型属性预测函数的构造
类型属性预测函数Pre(s)的关键方面是类型域中的访问请求的相关性,使用关联规则算法从类型属性Sn=<s1,s2,s3,...,sn>的序列中挖掘关联项si→sj,并根据关联规则集构造类型属性预测函数,具体步骤如下:
(a)统计每个坐标点si,sj∈S出现在位置属性序列中的次数,即支持度,并将其与预定义的支持阈值δs进行比较,以找到频繁1项集;通过在频繁项集之间连接和切割遍历类型属性序列,找到频繁2项集、频繁3项集等,直到频繁m项集,2≤m≤n;
(b)计算每个频繁m项集及其子频繁m-1项集的置信度,在置信度值大于置信度阈值Φs的关联项集上生成关联规则(si,si+1,...,si+m-1)→(si+m,Φi,i+m);然后,形成单元格gij的关联规则集R(gij,Φij)=Um((si,si+1,...,si+m-1)→(si+m,Φi,i+m)),然后构造类型属性预测函数:
Pre(s)=Match(s,R(sij,Φij))
3)时间属性预测函数的构造
时间属性预测函数Pre(t)的关键方面是时域中访问请求的相关性,分析时间序列的属性Tn=<t1,t2,t3,...,tn>,建立一个模型来描述这种潜在的相关性;分段表示时间属性序列,并进行差分处理以实现局部平稳;然后,建立ARIMA模型,构建时间属性预测函数;
(a)时间属性序列的分段表示
使用基于斜率变化的极值点检测和根据序列中局部极值,即每条曲线的起始和结束值的时间属性序列的分段表示;计算由序列值ti,1<i<n,形成的线段与其邻居点ti-1,ti+1的斜率差值||ti-ti-1|-|tt+1-ti||/ΔT,其中ΔT为访问请求的时间间隔;然后,将斜率差异与预定义的阈值进行比较,如果它大于或等于预定义的阈值,设m是一个局部极值,最后,通过使用局部极值,分段表示时间属性序列:
T={(t1L,t1R),(t2L,t2R),...,(tkL,tkR)}
其中tiL是i,i∈k,段的起始值,tiR是i,i∈k,段的最终值,k是分段的数量;
(b)预测函数的构造
设j,1<j<k,的右、左局部极值为分段tjL=tm,tjR=tn;然后,分段表示为(tjL,tjR)=tm,tm+1,...,tn,并且通过d阶差分处理,p=1,同时,访问请求的时间属性序列不受外部随机干扰的影响,参数为ut=0,q=0;
(2)联合属性预测函数的构造
由于时空属性互相关的访问请求只占请求总数的很小一部分,难以共同分析属性;因此,只分析时空属性具有特殊互相关性的访问请求,即如果位置属性序列Pl=<pi,pi+1,...,pi+l>和类型属性序列Sl=<si+1,si+2,...,si+l>保持不变并且长度达到最小阈值l=3,表示为:
pi+1=pi+2=...=pi+l,
si+1=si+2=...=si+l,
l≥3
然后,设位置属性和类型属性在下一个访问请求中保持不变,并且时间属性由Pre(t)预测;最后,联合属性预测函数Pre”(p,s,t)被构造为
所述S2具体为:使用预测函数根据当前的用户请求来预测用户的下一个访问请求;
设当前的用户访问请求表示为序列B=<b1,b2,b3,...,bm>,时空属性序列为B=<(p1,s1,t1),(p2,s2,t2),...,(pm,sm,tm)>={Pm,Sm,Tm},每个bi=(pi,si,ti),bi∈B,表示一个用户访问请求;首先对其进行参数化并提取时空属性,形成时空属性序列;然后,根据访问请求预测函数Pre'(p,s,t)和Pre”(p,s,t),将时空属性序列作为输入,并将输出预测为访问请求;
定义一个初始大小为w的滑动自适应观测窗口,将属于观测窗口的时空属性序列{Pw,Sw,Tw}作为预测函数的输入;然后,判断{Pw,Sw,Tw}是否满足公式如果满足,使用联合预测函数,否则,使用独立属性预测函数;则有:
Pw=(pm-w+1,pm-w+2,...,pm)
Sw=(sm-w+1,sm-w+2,...,sm)
Tw=(tm-w+1,tm-w+2,...,tm)
(1)独立属性预测函数
w'是最小观测窗口,R'(sij,φij)是存储匹配的相关项目和置信度的临时规则集,PW-1=<pm-w+2,pm-w+3,...,pm>是具有一位持续时间观察窗口的位置属性序列;Match(PW,R(gij,φij))为规则匹配函数,其输出为与pw匹配成功的关联规则项,匹配失败时输出为NULL;如果pw的坐标点属于同一个小区gij或邻居小区,使用规则匹配函数Match(PW,R(gij,φij))扫描关联规则集R(gij,φij)为三个匹配的关联项:
(p1,p2,...,pm)→(p'm+1,φ1)
(p1,p2,...,pm)→(p”m+1,φ2)
(p1,p2,...,pm)→(p”'m+1,φ3)
2)类型属性预测
类型属性预测类似于位置属性预测;根据预测功能Pre(s)扫描关联规则集R(sij,φij);在当前观察窗口中查找与类型属性序列匹配的关联规则;然后,选择置信度最高的置信度作为输出结果;设(s1,s2,...,sm)→(s'm+1,φ1)是与SW成功匹配的关联规则,φ1是最大的;则预测的访问请求的类型属性为
3)时间属性预测
时间属性预测基于预测函数Pre(t);首先,对TW进行d阶差分处理以实现平稳性;然后,使用ARIMA来计算预测访问请求的时间属性,结果由
(2)联合属性预测函数
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711195365.4A CN107844602B (zh) | 2017-11-24 | 2017-11-24 | 一种基于时空属性关联规则的预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711195365.4A CN107844602B (zh) | 2017-11-24 | 2017-11-24 | 一种基于时空属性关联规则的预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107844602A CN107844602A (zh) | 2018-03-27 |
CN107844602B true CN107844602B (zh) | 2021-03-16 |
Family
ID=61680290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711195365.4A Active CN107844602B (zh) | 2017-11-24 | 2017-11-24 | 一种基于时空属性关联规则的预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107844602B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008223B (zh) * | 2019-10-21 | 2023-11-14 | 北京交通大学 | 一种基于时空关联规则的区域交通拥堵相关性计算方法 |
CN111159247B (zh) * | 2019-11-20 | 2024-01-12 | 北京交通大学 | 一种区域交通拥堵传播轨迹挖掘方法 |
CN114257490B (zh) * | 2020-09-22 | 2023-08-15 | 中国移动通信集团设计院有限公司 | 无线网络性能告警分析方法及装置 |
CN115860179B (zh) * | 2022-11-01 | 2024-07-16 | 清华大学 | 轨迹预测方法、装置、设备、存储介质及程序产品 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102473247A (zh) * | 2009-06-30 | 2012-05-23 | 陶氏益农公司 | 用于在包含分子遗传标志物的植物和动物数据集中挖掘关联规则,继而利用由这些关联规则创建的特征进行分类或预测的机器学习方法的应用 |
CN106408139A (zh) * | 2016-12-20 | 2017-02-15 | 中国人民解放军空军装备研究院雷达与电子对抗研究所 | 机场到达率预测方法及装置 |
CN107147110A (zh) * | 2017-05-17 | 2017-09-08 | 山东大学 | 考虑多风场预测误差时空相关性的储能容量优化配置方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160034323A1 (en) * | 2014-08-04 | 2016-02-04 | International Business Machines Corporation | Characterizing relationships among spatio-temporal events |
US20160275151A1 (en) * | 2015-03-18 | 2016-09-22 | Alfredo Lovati | Method and System for Dashboard for Event Management |
-
2017
- 2017-11-24 CN CN201711195365.4A patent/CN107844602B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102473247A (zh) * | 2009-06-30 | 2012-05-23 | 陶氏益农公司 | 用于在包含分子遗传标志物的植物和动物数据集中挖掘关联规则,继而利用由这些关联规则创建的特征进行分类或预测的机器学习方法的应用 |
CN106408139A (zh) * | 2016-12-20 | 2017-02-15 | 中国人民解放军空军装备研究院雷达与电子对抗研究所 | 机场到达率预测方法及装置 |
CN107147110A (zh) * | 2017-05-17 | 2017-09-08 | 山东大学 | 考虑多风场预测误差时空相关性的储能容量优化配置方法 |
Non-Patent Citations (2)
Title |
---|
A study on time based association rule mining on spatial-temporal data for intelligent transportation applications;Swathi Lanka,等;《2014 First International Conference on Networks & Soft Computing (ICNSC2014)》;20140925;第395-399页 * |
基于时空关联规则的标绘数据挖掘研究;许思莹;《中国优秀硕士学位论文全文数据库信息科技辑》;20160315;第11-45页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107844602A (zh) | 2018-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107844602B (zh) | 一种基于时空属性关联规则的预测方法 | |
Kong et al. | Integrated generative model for industrial anomaly detection via bidirectional LSTM and attention mechanism | |
AU2017206289B2 (en) | Improved patch match convergence using metropolis-hastings | |
Singh et al. | Filters for spatial point processes | |
KR20220042356A (ko) | 타깃 재식별 방법, 장치, 기기, 저장 매체 및 프로그램 제품 | |
CN114357105B (zh) | 地理预训练模型的预训练方法及模型微调方法 | |
CN108629979A (zh) | 一种基于历史和周边路口数据的拥堵预测算法 | |
Yang et al. | Fast wireless sensor for anomaly detection based on data stream in an edge-computing-enabled smart greenhouse | |
CN116206453B (zh) | 一种基于迁移学习的交通流预测方法、装置及相关设备 | |
CN109492027B (zh) | 一种基于弱可信数据的跨社群潜在人物关系分析方法 | |
CN111292356A (zh) | 运动轨迹与道路的匹配方法及装置 | |
CN114492763A (zh) | 一种融合全局上下文信息注意力增强的图神经网络方法 | |
CN104063555B (zh) | 面向遥感信息智能分发的用户模型建模方法 | |
Elgazzar et al. | Evolutionary clustering and community detection algorithms for social media health surveillance | |
CN108173876B (zh) | 基于最大频繁模式的动态规则库构建方法 | |
Mason et al. | Learning nearest neighbor graphs from noisy distance samples | |
CN117971858A (zh) | 一种多目标时空轨迹伴随行为识别方法 | |
CN109785302B (zh) | 一种空谱联合特征学习网络及多光谱变化检测方法 | |
Sinha et al. | Image retrieval using landmark indexing for indoor navigation | |
Dehbi et al. | Identification and modelling of translational and axial symmetries and their hierarchical structures in building footprints by formal grammars | |
JP2017076196A (ja) | パターン抽出装置、方法、及びプログラム | |
CN114758285A (zh) | 基于锚自由和长时注意力感知的视频交互动作检测方法 | |
KR20220147315A (ko) | 에지 컴퓨팅 환경에서의 IoT 누락데이터 관리 방법 및 장치 | |
Wu et al. | Mining geographic episode association patterns of abnormal events in global earth science data | |
Yang et al. | Adaptive density peak clustering for determinging cluster center |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |