CN105912456B - 一种基于用户兴趣迁移的大数据集仿真生成方法 - Google Patents
一种基于用户兴趣迁移的大数据集仿真生成方法 Download PDFInfo
- Publication number
- CN105912456B CN105912456B CN201610305500.5A CN201610305500A CN105912456B CN 105912456 B CN105912456 B CN 105912456B CN 201610305500 A CN201610305500 A CN 201610305500A CN 105912456 B CN105912456 B CN 105912456B
- Authority
- CN
- China
- Prior art keywords
- user
- file
- sequence
- web
- connected reference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000005012 migration Effects 0.000 title claims abstract description 15
- 238000013508 migration Methods 0.000 title claims abstract description 15
- 238000004088 simulation Methods 0.000 title claims abstract description 15
- 235000010894 Artemisia argyi Nutrition 0.000 claims description 9
- 244000030166 artemisia Species 0.000 claims description 9
- 230000001186 cumulative effect Effects 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 238000003780 insertion Methods 0.000 claims description 3
- 230000037431 insertion Effects 0.000 claims description 3
- 230000036461 convulsion Effects 0.000 claims 1
- 230000002596 correlated effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 230000036962 time dependent Effects 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 101150039072 INSA gene Proteins 0.000 description 2
- 241001255830 Thema Species 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 101150059057 BET1 gene Proteins 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3457—Performance evaluation by simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于用户兴趣迁移的大数据集仿真生成方法,包括以下步骤:生成用户集合和Web文件集合,然后关联用户和Web文件形成原始请求序列R,将原始请求序列R变成由多个用户请求序列构成的用户集合,每个用户形成一个用户请求序列R u ,遍历每一个用户u,并基于用户兴趣的影响,将用户请求序列R u 重新组合为新的序列R u ’。该方法能够提高自相似性,从而较好的模拟真实Web日志。
Description
技术领域
本发明涉及大数据集仿真生成技术领域,特别涉及一种基于用户兴趣迁移的大数据集仿真生成方法,可以有效地应用于Web日志的仿真生成。
背景技术
随着大数据规模的大幅扩大,给数据处理的服务平台带来不可预知的后果。如在2012年美国总统选举时,Twitter因无法承受着有史以来最大的访问量而崩溃。对Web服务日志的分析,不仅能够帮助服务平台有效预防网络异常的产生,也能对服务平台进行压力测试分析,有利于提升服务平台的可靠性。然而Web日志中包含用户隐私信息,企业及政府等机构极少愿意公开日志供研究人员使用;同时,现已公开的Web日志数据年代久远,其特征不符合当前大数据时代特征。如何仿真生成逼真的Web日志,是学术界的热点问题。
以中科院的BDGS为代表的Web日志生成器不仅能够用于Web服务器压力测试和性能研究,而且具有很高的扩展性。但有一个显著的缺点是:Web日志的时间依赖性表达能力很弱;以ProWGen为代表的日志生成器能较好的以时间局部性拟合Web文件特征,却是采用静态分布模型。当前随着应用需求的日益扩大,要求生成器的仿真性能较高,这给Web日志生成方法带来了严重的挑战;另外,当前大数据的各种应用,对生成Web日志的自相似性要求也越来越高。事实上,当出现热点时,数据会表现为突发性地围绕热点动态变化。但当前已有的Web日志生成器的主要是基于静态数据分布设计的,忽略了分布的动态性和用户行为的复杂性,虽然引入了Web文件的时间局部性,却没有站在时间角度来衡量Web文件的时间局部性。
发明内容
本发明的目的在于提供一种基于用户兴趣迁移的大数据集仿真生成方法,该方法能够提高自相似性,从而较好的模拟真实Web日志。
为实现上述目的,本发明的技术方案是:一种基于用户兴趣迁移的大数据集仿真生成方法,包括以下步骤:
步骤1~2:生成每个用户的属性并形成用户集合U={u 1, u 2, ……, u n },n表示用户数,u n 表示第n个用户;生成每个Web文件的属性并形成Web文件集合I={i 1, i 2, ……, i m },m表示Web文件数,u m 表示第m个Web文件;
步骤3:关联用户和Web文件形成原始请求序列R={r 1, r 2, ……, r q },q表示原始请求序列中Web日志数量,r q 表示第q条Web日志;
步骤4:将原始请求序列变成由多个用户请求序列构成的用户集合R={R 1, R 2, …,R u , …, R n },其中n表示用户总数量,每个用户形成一个用户请求序列R u ={r u1, r u2, ……,r uk },k表示集合R u 的总序列长度,r uk 表示用户u访问的第k个文件,也即一个用户u对应k个文件,所述k个文件中可以存在重复文件;遍历每一个用户u,并记录遍历开始的时间currentTime,用于序列R u 的时间分配;
步骤5:判断遍历是否结束,是则本方法结束,否则转步骤6;
步骤6:计算用户u的到达时间currentTime = currentTime + ∆T,∆T由威布尔分布计算得到;
步骤7:寻找用户u的连续访问序列长度s,并判断是否找到用户u的连续访问序列长度s,是则转步骤15,否则转步骤8;
步骤8:计算用户u当前的总序列长度k = R u .length,R u .length表示集合R u 的长度,即集合R u 中的文件数量;
步骤9:判断用户u的总序列长度k是否超过1,是则转步骤10,否则转步骤14;
步骤10~12:利用齐普夫分布计算用户u的连续访问序列长度s,判断连续访问概率p是否大于随机值的小数部分,是则转步骤13,否则转步骤8;
步骤13:找到用户u的连续访问序列长度s,转步骤7;
步骤14:不存在连续访问,用户u至少访问一个文件,找到的连续访问序列长度s=1,转步骤7;
步骤15:遍历用户u的用户请求序列R u 中的每个文件,利用艾宾浩斯遗忘函数计算用户对其序列中每个文件的兴趣度W ui ;
步骤16:按照兴趣度重新降序排序用户请求序列R u ;
步骤17:取出用户请求序列R u 中用户最感兴趣的前s个文件,组成连续访问序列Seq uj ={r u1’, r u2’, …, r us ’},r us ’表示用户u本次访问最感兴趣的第s个文件,Seq uj 表示用户u第j次访问的连续访问序列;
步骤18:将连续访问序列Seq uj 放入到当前用户被调整过的新序列R u ’中,其中R u ’={Seq u1, Seq u2, …, Seq uj };
步骤19:将连续访问序列Seq uj 从当前用户未被调整的序列R u 中删除,并转步骤5。
进一步的,在步骤1、2、3中,所述用户的属性包括用户ID和用户活跃度,所述Web文件的属性包括文件ID、文件流行度、文件大小和文件路径,其中,用户ID和文件ID是主键,所述日志包括用户ID、文件ID、文件大小和文件路径。
进一步的,在步骤3中,将用户活跃度的累积概率和文件流行度的累积概率进行负相关,以关联用户和Web文件,形成原始请求序列R。
进一步的,在步骤15中,遍历用户u的用户请求序列R u 中的每个文件,时间复杂度O(k)为用户u的活跃度大小k,以最坏的情况考虑,每个用户访问相同数量的文件,则平均时间复杂度为O(a)=O(q/n)。
进一步的,在步骤16中,降序排序用户对文件的兴趣度,使用堆排序,时间复杂度为O(alog2(a))。
进一步的,在步骤18和19中,对链表的尾端插入和首端删除,复杂度为1,则总体时间复杂度为O(n*(2a+ alog2(a))),在最坏情况下,总体时间复杂度为O(q*(2+log2(q/n))),其中q为请求序列总数量,算法复杂度随着要生成数据集的量级增大而增大。
本发明的有益效果是针对传统Web日志仿真算法无法从时间上更客观地模拟Web日志的缺陷,提出了一种与已有方法完全不同的基于用户兴趣迁移的Web日志仿真生成方法,使得Web日志在时间序列条件下自相似性更加符合实际应用。该方法通过用户的兴趣迁移,改变用户的访问序列,能够较好的模拟真实Web日志,可以有效地应用于Web日志的仿真生成。
附图说明
图1是本发明实施例的实现流程图。
图2是本发明实施例中用户到达模式分布情况图。
图3是本发明实施例中用户到达的时间间隔累积分布情况图。
图4是本发明实施例中用户请求序列结构图。
图5是本发明实施例中艾宾浩斯遗忘曲线图。
具体实施方式
本发明提供一种基于用户兴趣迁移的大数据集仿真生成方法,如图1所示,包括以下步骤:
步骤1~2:生成每个用户的属性并形成用户集合U={u 1, u 2, ……, u n },n表示用户数,u n 表示第n个用户;生成每个Web文件的属性并形成Web文件集合I={i 1, i 2, ……, i m },m表示Web文件数,u m 表示第m个Web文件。
步骤3:将用户活跃度的累积概率和文件流行度的累积概率进行负相关,以关联用户和Web文件,形成原始请求序列R={r 1, r 2, ……, r q },q表示原始请求序列中Web日志数量,r q 表示第q条Web日志。
在步骤1、2、3中,所述用户的属性包括用户ID和用户活跃度,所述Web文件的属性包括文件ID、文件流行度、文件大小和文件路径,其中,用户ID和文件ID是主键,所述日志包括用户ID、文件ID、文件大小和文件路径。
步骤4:将原始请求序列变成由多个用户请求序列构成的用户集合R={R 1, R 2, …,R u , …, R n },其中n表示用户总数量,每个用户形成一个用户请求序列R u ={r u1, r u2, ……,r uk },k表示集合R u 的总序列长度,r uk 表示用户u访问的第k个文件,也即一个用户u对应k个文件,所述k个文件中可以存在重复文件;遍历每一个用户u,并记录遍历开始的时间currentTime,用于序列R u 的时间分配。
步骤5:判断遍历是否结束,是则本方法结束,否则转步骤6。
步骤6:计算用户u的到达时间currentTime = currentTime + ∆T,∆T由威布尔分布计算得到。
步骤7:寻找用户u的连续访问序列长度s,并判断是否找到用户u的连续访问序列长度s,是则转步骤15,否则转步骤8。其中,寻找用户u的连续访问序列长度,根据分布来看,在连续访问1~4之间的概率超过50%,因此其复杂度在k/4到k之间,这里取最坏情况k。
步骤8:计算用户u当前的总序列长度k = R u .length,R u .length表示集合R u 的长度,即集合R u 中的文件数量。
步骤9:判断用户u的总序列长度k是否超过1,是则转步骤10,否则转步骤14。
步骤10~12:利用齐普夫分布计算用户u的连续访问序列长度s,判断连续访问概率p是否大于随机值的小数部分,是则转步骤13,否则转步骤8。
步骤13:找到用户u的连续访问序列长度s,转步骤7。
步骤14:不存在连续访问,用户u至少访问一个文件,找到的连续访问序列长度s=1,转步骤7。
步骤15:遍历用户u的用户请求序列R u 中的每个文件,利用艾宾浩斯遗忘函数计算用户对其序列中每个文件的兴趣度W ui 。其中,遍历用户u的用户请求序列R u 中的每个文件,时间复杂度O(k)为用户u的活跃度大小k,以最坏的情况考虑,每个用户访问相同数量的文件,则平均时间复杂度为O(a)=O(q/n)。
步骤16:按照兴趣度重新降序排序用户请求序列R u 。其中,降序排序用户对文件的兴趣度,使用堆排序,时间复杂度为O(alog2(a))。
步骤17:取出用户请求序列R u 中用户最感兴趣的前s个文件,组成连续访问序列Seq uj ={r u1’, r u2’, …, r us ’},r us ’表示用户u本次访问最感兴趣的第s个文件,Seq uj 表示用户u第j次访问的连续访问序列。
步骤18:将连续访问序列Seq uj 放入到当前用户被调整过的新序列R u ’中,其中R u ’={Seq u1, Seq u2, …, Seq uj }。
步骤19:将连续访问序列Seq uj 从当前用户未被调整的序列R u 中删除,并转步骤5。
在步骤18和19中,对链表的尾端插入和首端删除,复杂度为1,则总体时间复杂度为O(n*(2a+ alog2(a))),在最坏情况下,总体时间复杂度为O(q*(2+log2(q/n))),其中q为请求序列总数量,算法复杂度随着要生成数据集的量级增大而增大。
下面对本发明涉及的相关内容作进一步的说明。
1 Web日志分布特征
1.1 日志数据中的重尾分布
通过分析各种真实网络日志数据,发现重尾分布与网络流量自相似特性有很大关联,服从重尾分布的随机变量特点是:随机变量X的抽样值中,小抽样值的数量较多,大抽样值的数量较少,这就形成了重尾现象。其概率密度函数为p(x)=1-(k/x) a 。其中参数a称为重尾度索引,它决定分布的重尾度。参数k决定重尾分布的尾起始点。
在Web日志中Pareto分布可以用于描述时间间隔和文件数量的关系。当用户请求文件时,服务器发送文件时存在延迟传输问题,因此,用户请求动作与访问动作之间的时间间隔服从重尾分布以概率p作为参数来求时间间隔∆t。如公式(1)所示:
(1)
公式(1)中∆t也能表示Web服务器主动OFF时间。通过设置主动OFF时间,很久之前被访问的文件,当其OFF时间到达时,依然能在下一刻获得被访问的机会,这就能使序列更加均衡。
1.2 用户日志中的威布尔分布
设服务器的用户请求序列为R={r 1, r 2, ……, r n },请求序列按照用户访问的时间先后排序,可以将请求序列划分成多个用户的访问序列。对95年美国国家航天航空局网站的八月份1569898条请求序列进行统计,如图2所示,横坐标为两个用户之间的时间间隔(单位:100毫秒),纵坐标为时间间隔内到达的用户数量。可以看出少部分用户都是在很短的时间间隔内到达,而大部分用户是相隔很长一段时间才能到达。其累积概率分布如图3所示,横坐标为用户到达的时间间隔(单位:100毫秒),纵坐标为累积概率。拟合结果表明,用户到达模式近似服从威布尔分布,其累计概率分布函数为p(x)=1-exp[-(x/λ) k ],其中参数k和参数λ的拟合结果分别为0.29和7。以概率p作为参数可以得到时间间隔∆T。
(2)
公式(2)中∆T也能表示Web服务器被动OFF时间。通过设置主动OFF时间,就可以将请求序列变为用户请求序列。而用户的先后到达顺序可以由Web文件的时间局部性决定[2]。
1.3 用户日志中的齐普夫分布
当用户点击Web服务器某链接发起请求时,浏览器展示给用户的页面是由多种类型的Web文件构成,包括商标图片,flash动画,广告链接等一系列内容构成Web对象[9]。在分析日志中用户行为的时候会发现用户在极短时间内连续访问多个文件的现象,显然现有的Web日志生成器没有考虑这个现象。将此现象模拟成用户发送连续请求,通过对NASA网站数据分析发现,用户发出连续动作次数概率服从齐普夫分布[8]。在Web对象中,用户连续访问2个以上文件的概率超过73%,而用户连续访问12个以上文件的概率已经非常接近0。假设用户u的总请求序列是R u ={r u1, r u2, ……, r uk },其中r uk 为用户u访问的第k个Web文件。则第k个Web文件被访问的概率为p(i uk )=k ω ,利用最小二乘法拟合可得ω=-0.964。
2 基于遗忘曲线的用户兴趣与时间依赖的ITDF模型
为了更好的理解用户兴趣与时间依赖,以OFF时间来构建用户请求序列,如图4所示,t0时刻为用户u k 到达时间,u k 向Web服务器发送连续请求,每次请求之间存在服务器主动OFF时间∆t,u k 的连续请求构成一个Web对象,u k 本次访问结束时刻为t1。在第k+1名用户u k+1到来之前服务器处于等待状态,也即服务器被动OFF时间∆T,u k+1在t2时刻开始向Web服务器发送请求。为了使OFF时间更加合理,考虑请求序列的负载均衡我们改进OFF时间,具体做法如下:
对于流行度高的Web文件的OFF时间间隔会很短,这样会造成短时间内同一个Web文件被频繁访问,因此我们对流行度高的Web文件的∆t加入惩罚因子1/ln(1+Popi),其中Pop i 表示文件i的流行度。改进公式(1)为公式(3);同理,对活跃度高的用户的∆T加入惩罚因子1/ln(1+Actu),其中Act u 表示用户u的活跃度。改进公式(2)为公式(4)。
(3)
(4)
接着将用户和Web文件利用时间局部性关联,根据时间局部性定义:“最近刚刚访问过的文件比很久以前访问的文件更有可能在不久的将来被再次访问”[2],这里也由局部性特征而带来一个缺陷,即如果最近访问的是用户不感兴趣的Web文件,那么再次被访问的可能性会降低。同种数据在不同时刻的关系是符合艾宾浩斯遗忘曲线。在本文中提到的用户与Web文件的兴趣同样也和艾宾浩斯遗忘曲线相似,不是简单的逐步衰减,而是非线性的先快后慢。用户在短期内的兴趣度会有大幅度下降,而在长期中却能保持一个稳定的兴趣。
艾宾浩斯遗忘曲线描述了人们在学习时遗忘的过程是不均衡的,呈先快后慢的变化规律。如图5所示,图中横坐标表示经过的天数,纵坐标表示用户的记忆量百分比。可以发现在第一天内记忆量就从100%迅速下降到33.7%,之后缓慢的下降。我们用R语言中的nls函数来模拟艾宾浩斯遗忘曲线,如图4所示,其模拟函数如公式(5)所示,其中a=31.75,b=0.1306。
(5)
用户的兴趣度和记忆量变化极为相似,因此本文基于艾宾浩斯遗忘曲线, 构建的用户兴趣迁移与时间依赖关系的模型ITDF(user Interest transferring and Time-Depending based on Forgetting curve, ITDF)可以用来控制用户的兴趣漂移。用公式(5)中的W ui 表示用户u对文件i的兴趣度,t表示用户u当前访问文件i的时间与上次访问的时间间隔。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (6)
1.一种基于用户兴趣迁移的大数据集仿真生成方法,其特征在于,包括以下步骤:
步骤1:生成每个用户的属性并形成用户集合U={u1, u2, ……, un},n表示用户数,un表示第n个用户;
步骤2:生成每个Web文件的属性并形成Web文件集合I={i1, i2, ……, im},m表示Web文件数,im表示第m个Web文件;
步骤3:关联用户和Web文件形成原始请求序列R={r1, r2, ……, rq},q表示原始请求序列中Web日志数量,rq表示第q条Web日志;
步骤4:将原始请求序列变成由多个用户请求序列构成的用户集合R={R1, R2, …, Ru,…, Rn},其中n表示用户总数量,每个用户形成一个用户请求序列Ru={ru1, ru2, ……,ruk},k表示集合Ru的总序列长度,ruk表示用户u访问的第k个文件,也即一个用户u对应k个文件,所述k个文件中可以存在重复文件;遍历每一个用户u,并记录遍历开始的时间currentTime,用于序列Ru的时间分配;
步骤5:判断遍历是否结束,是则本方法结束,否则转步骤6;
步骤6:计算用户u的到达时间currentTime = currentTime + ∆T,∆T由威布尔分布计算得到;
步骤7:寻找用户u的连续访问序列长度s,并判断是否找到用户u的连续访问序列长度s,是则转步骤13,否则转步骤8;
步骤8:计算用户u当前的总序列长度k = Ru.length,Ru.length表示集合Ru的长度,即集合Ru中的文件数量;
步骤9:判断用户u的总序列长度k是否超过1,是则转步骤10,否则转步骤12;
步骤10:利用齐普夫分布计算用户u的连续访问序列长度s,判断连续访问概率p是否大于随机值的小数部分,是则转步骤11,否则转步骤8;
步骤11:找到用户u的连续访问序列长度s,转步骤7;
步骤12:不存在连续访问,用户u至少访问一个文件,找到的连续访问序列长度s=1,转步骤7;
步骤13:遍历用户u的用户请求序列Ru中的每个文件,利用艾宾浩斯遗忘函数计算用户对其序列中每个文件的兴趣度Wui;
步骤14:按照兴趣度重新降序排序用户请求序列Ru;
步骤15:取出用户请求序列Ru中用户最感兴趣的前s个文件,组成连续访问序列Sequj ={ru1’, ru2’, …, rus’},rus’表示用户u本次访问最感兴趣的第s个文件,Sequj表示用户u第j次访问的连续访问序列;
步骤16:将连续访问序列Sequj放入到当前用户被调整过的新序列Ru’中,其中Ru’={Sequ1, Sequ2, …, Sequj};
步骤17:将连续访问序列Sequj从当前用户未被调整的序列Ru中删除,并转步骤5。
2.根据权利要求1所述的一种基于用户兴趣迁移的大数据集仿真生成方法,其特征在于,在步骤1、2、3中,所述用户的属性包括用户ID和用户活跃度,所述Web文件的属性包括文件ID、文件流行度、文件大小和文件路径,其中,用户ID和文件ID是主键,所述日志包括用户ID、文件ID、文件大小和文件路径。
3.根据权利要求2所述的一种基于用户兴趣迁移的大数据集仿真生成方法,其特征在于,在步骤3中,将用户活跃度的累积概率和文件流行度的累积概率进行负相关,以关联用户和Web文件,形成原始请求序列R。
4.根据权利要求3所述的一种基于用户兴趣迁移的大数据集仿真生成方法,其特征在于,在步骤13中,遍历用户u的用户请求序列Ru中的每个文件,时间复杂度O(y)为用户u的活跃度大小y,以最坏的情况考虑,每个用户访问相同数量的文件,则平均时间复杂度为O(a)=O(q/n)。
5.根据权利要求4所述的一种基于用户兴趣迁移的大数据集仿真生成方法,其特征在于,在步骤14中,降序排序用户对文件的兴趣度,使用堆排序,时间复杂度为O(alog2(a))。
6.根据权利要求5所述的一种基于用户兴趣迁移的大数据集仿真生成方法,其特征在于,在步骤16和17中,对链表的尾端插入和首端删除,复杂度为1,则总体时间复杂度为O(n*(2a+ alog2(a))),在最坏情况下,总体时间复杂度为O(q*(2+log2(q/n))),其中q为请求序列总数量,算法复杂度随着要生成数据集的量级增大而增大。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610305500.5A CN105912456B (zh) | 2016-05-10 | 2016-05-10 | 一种基于用户兴趣迁移的大数据集仿真生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610305500.5A CN105912456B (zh) | 2016-05-10 | 2016-05-10 | 一种基于用户兴趣迁移的大数据集仿真生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105912456A CN105912456A (zh) | 2016-08-31 |
CN105912456B true CN105912456B (zh) | 2019-01-22 |
Family
ID=56748724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610305500.5A Expired - Fee Related CN105912456B (zh) | 2016-05-10 | 2016-05-10 | 一种基于用户兴趣迁移的大数据集仿真生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105912456B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106940731A (zh) * | 2017-03-30 | 2017-07-11 | 福建师范大学 | 一种基于非时间属性关联的数据逼真生成方法 |
US10956453B2 (en) * | 2017-05-24 | 2021-03-23 | International Business Machines Corporation | Method to estimate the deletability of data objects |
CN109460392B (zh) * | 2018-10-10 | 2020-11-06 | 东软集团股份有限公司 | 日志文件采集方法、装置、可读存储介质及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102103636A (zh) * | 2011-01-18 | 2011-06-22 | 南京信息工程大学 | 一种面向深层网页的增量信息获取方法 |
CN102694799A (zh) * | 2012-05-18 | 2012-09-26 | 北京邮电大学 | 一种p2p流媒体系统仿真平台及性能评价方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7203909B1 (en) * | 2002-04-04 | 2007-04-10 | Microsoft Corporation | System and methods for constructing personalized context-sensitive portal pages or views by analyzing patterns of users' information access activities |
-
2016
- 2016-05-10 CN CN201610305500.5A patent/CN105912456B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102103636A (zh) * | 2011-01-18 | 2011-06-22 | 南京信息工程大学 | 一种面向深层网页的增量信息获取方法 |
CN102694799A (zh) * | 2012-05-18 | 2012-09-26 | 北京邮电大学 | 一种p2p流媒体系统仿真平台及性能评价方法 |
Non-Patent Citations (2)
Title |
---|
分布式Web用户兴趣迁移模式挖掘研究;金玮;《计算机工程》;20061220;第32卷(第24期);44-47 |
基于区域特征分布式Web用户兴趣迁移模式;张克君 等;《系统工程与电子技术》;20081015;第30卷(第10期);1995-1998 |
Also Published As
Publication number | Publication date |
---|---|
CN105912456A (zh) | 2016-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105912456B (zh) | 一种基于用户兴趣迁移的大数据集仿真生成方法 | |
US20150026212A1 (en) | Third party search applications for a search system | |
CN107040422A (zh) | 一种基于物化缓存的网络大数据可视化方法 | |
CN104253855A (zh) | 一种面向内容中心网络中基于内容分类的类别流行度缓存替换方法 | |
CN101641695A (zh) | 资源接入过滤系统及供与资源接入过滤系统一起使用的数据库结构 | |
CN100458784C (zh) | 在数字图书馆中所采用的检索系统和检索方法 | |
CN106528608B (zh) | 一种云架构下的电网gis数据冷热存储方法和系统 | |
CN104869009A (zh) | 网站数据统计的系统和方法 | |
CN1996316A (zh) | 基于网页相关性的搜索引擎搜索方法 | |
CN102355502B (zh) | 存储系统远程接入桌面操作系统的远程接入方法 | |
CN104536908B (zh) | 一种面向单机的海量小记录高效存储管理方法 | |
CN103198361A (zh) | 基于多种优化机制的xacml策略评估引擎系统 | |
CN107679193A (zh) | 一种用于分布式文件系统的热度统计方法和系统 | |
CN101615197A (zh) | 一种基于网络连接速度的个性化网络资源推荐方法 | |
Shangguan et al. | Big spatial data processing with Apache Spark | |
CN102541924A (zh) | 一种检索信息的缓存方法和搜索引擎系统 | |
CN103744882A (zh) | 一种基于键值对的目录片段表示方法及装置 | |
Paltoglou et al. | Collection-integral source selection for uncooperative distributed information retrieval environments | |
CN109325266A (zh) | 面向在线云服务的响应时间分布预测方法 | |
Anusha et al. | Big data techniques for efficient storage and processing of weather data | |
CN103442000B (zh) | Web缓存置换方法及装置、http代理服务器 | |
Zhao et al. | LS-AMS: An adaptive indexing structure for realtime search on microblogs | |
CN109634779A (zh) | 一种基于数据热度自学习的数据增量备份方法 | |
Oshino et al. | Time graph pattern mining for Web analysis and information retrieval | |
Jiang et al. | A personalized search engine model based on RSS User's interest |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190122 |