CN110442616B

CN110442616B - 一种针对大数据量的页面访问路径分析方法与系统

Info

Publication number: CN110442616B
Application number: CN201810410306.2A
Authority: CN
Inventors: 党寿江; 颜川力; 刘学
Original assignee: Zhengzhou Xinrand Network Technology Co ltd
Current assignee: Zhengzhou Xinrand Network Technology Co ltd
Priority date: 2018-05-02
Filing date: 2018-05-02
Publication date: 2022-10-14
Anticipated expiration: 2038-05-02
Also published as: CN110442616A

Abstract

本发明公开了一种针对大数据量的页面访问路径分析方法与系统，所述方法包括：步骤1)将页面访问日志记录中的数据处理为由前驱页面组成的一项集与由前驱页面和当前页面组成的二项集；步骤2)计算二项集中的各元素对组成的访问路径的支持度；步骤3)通过二项集的访问路径的支持度与其前驱页面出现的概率计算访问路径的置信度；步骤4)通过计算得到的访问路径的置信度生成带权重值的访问路径有向图；步骤5)根据带权重的访问路径有向图计算访问路径的关联度；步骤6)根据访问路径关联规则实施页面访问路径分析。本发明的方法有效解决Apriori算法无法应用于访问路径分析的问题，适用于大数据量数据集，在不降低计算精确度前提下具有更快的计算效率。

Description

一种针对大数据量的页面访问路径分析方法与系统

技术领域

本发明涉及计算机应用技术领域，特别涉及一种针对大数据量的页面访问路径分析方法与系统。

背景技术

目前，已经进入了大数据时代。在用户使用各种软件系统的过程中，会产生大量的行为数据。对用户的访问路径数据进行挖掘分析，可以帮助系统运营人员掌握用户的访问习惯和系统存在的缺陷，从而完善系统。因此，访问路径分析具有极其重要的地位。另外，在大数据时代中，巨大的数据量对数据的存储和数据的运算提出了新挑战。Spark作为当下最热门的大数据处理平台，有着极其优秀的性能，同时也吸引着行业内众多公司以其作为计算框架。Spark平台中的各种组件，如Spark Core，Spark SQL，Spark Streaming，MLlib等使得Spark的功能更加的全面，能够适应各种计算情景。

在访问路径分析中，主要是对页面节点进行关联规则分析，传统的关联规则分析算法最著名的就是Apriori算法。但是对于目前的访问路径分析，直接使用传统的Apriori算法并不适合。原因有二，其一，Apriori算法需要多次扫描数据集，因此当数据量变得非常巨大时，传统的Apriori算法的效率会变得非常低下；其二，Apriori算法中计算关联度的算法中使用的概率是项目出现在整个数据集中的概率。但是在访问路径分析中，有着前驱节点和当前节点之分，也就是访问是有向的路径，而传统的Apriori算法中的包含两个元素的项目集中的两个元素并没有时间先后的区别。

此外，现有的直接使用Apriori算法的访问路径分析方法，由于项目没有出现时间先后的区别，导致只能对访问日志记录中一起出现的页面节点之间的关联度进行简单计算，无法对具有多次跳转的长路径进行分析，也就无法进行关键路径选择，终点预测等维度的分析。

发明内容

本发明的目的在于解决Apriori算法不能直接应用到大数据量数据的访问路径分析中的缺陷，从而提供了一种针对大数据量的页面访问路径快速分析方法。

为了实现上述目的，本发明提供了一种针对大数据量的页面访问路径分析方法，所述方法包括：

步骤1)将页面访问日志记录中的数据处理为由前驱页面组成的一项集与由前驱页面和当前页面组成的二项集；

步骤2)计算二项集中的各元素对组成的访问路径的支持度；

步骤3)通过得到的二项集的访问路径的支持度与其前驱页面出现的概率计算访问路径的置信度；

步骤4)通过计算得到的访问路径的置信度生成带权重值的访问路径有向图；

步骤5)根据带权重的访问路径有向图计算访问路径的关联度；

步骤6)根据访问路径的关联度实施页面访问路径分析。

作为上述方法的一种改进，所述步骤1)具体包括：

步骤1-1)将访问日志记录处理为包含<前驱页面>的集合作为一项集，使用Spark的RDD1进行存储，统计RDD1中不同的元素出现的个数；

步骤1-2)将访问日志记录处理为包含<前驱页面、当前页面>的有向二项集，即二项集中的<前驱页面、当前页面>和<当前页面、前驱页面>作为不同的有向二项集对象，使用Spark的RDD2进行存储，统计RDD2中不同的元素出现的个数。

作为上述方法的一种改进，所述步骤2)的二项集的元素<A、B>的支持度为其在RDD2中出现的个数。

作为上述方法的一种改进，所述步骤3)具体为：

二项集的元素<A、B>的置信度为：

N(A->B)/N(A)

其中，N(A->B)为根据步骤2)得到的访问路径<A、B>的支持度，N(A)为页面节点A在RDD1中所出现的次数。

作为上述方法的一种改进，所述步骤5)的计算访问路径的关联度，具体为：

对于只包含前驱页面和当前页面的短路径，该路径上的权重值就是该路径的关联度；对于包含若干个页面的长路径，该长路径上所有段路径权重的乘积为该长路径上从首页面到尾页面的关联度。

作为上述方法的一种改进，所述步骤6)具体包括：

步骤6-1)根据步骤5)中得到的页面节点间的关联度，对短路径下一跳路径和访问终点路径进行预测；预测的依据为关联度大的页面节点更有可能成为下一跳路径和访问终点路径；

步骤6-2)根据步骤5)中得到的页面节点间的关联度进行页面节点关联分析，前驱页面节点与当前页面节点的关联度越大，则后续更有可能访问到；对于首尾页面节点间跳转次数很多，但是关联度又很大的页面节点，对页面安排进行调整，以减少关联度大的页面间的跳转次数；

步骤6-3)根据相同首节点与尾节点的路径之间可能存在不同的路径进行路径的选择，其中，当用户访问到该首节点时，更容易通过关联度较大的路径访问到尾节点；在后续页面调整中，根据关联度将关联度大的路径上的页面跳转链接安排得更加明显；

步骤6-4)根据步骤5)中计算得到的关联度进行关键路径选择，对于关联度很大的长路径，视为关键路径或频繁访问路径，在关键路径上安排一些重要的推广信息。

本发明还提供了一种针对大数据量的页面访问路径快速分析系统，包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述方法的步骤。

本发明的优点在于：

1、通过本发明所提供的针对大数据量的页面访问路径分析方法，对关联规则的挖掘做了有向处理，使得Apriori算法适用于访问路径分析；能够有效解决传统Apriori算法无法直接应用于访问路径分析的问题；

2、本发明的方法对频繁集的发现过程，根据访问路径分析的特殊性，只发现到二项频繁集，并且只需两次扫描数据集，从而减少了很多无用的计算，极大的提升了计算速度；

3、本发明的方法中所有的计算实现于Spark平台，能够适应大数据量数据集；通过生成带权重的访问路径有向图，来生成关联规则，并且在不降低计算精确度的情况下具有更快的计算效率。

附图说明

图1为本发明的针对大数据量的页面访问路径分析方法的一种应用场景架构图；

图2为本发明的针对大数据量的页面访问路径分析方法的步骤流程图；

图3为根据访问记录数据生成的访问路径有向图，其中节点代表每个页面节点，边代表一条访问路径，边上的数值表示该条路径所出现的次数；

图4为计算后置信度后的访问路径有向图；其中节点表示每个页面节点，边代表一条访问路径，边上的数值表示该条路径的首尾节点的关联置信度，即权重；加粗的边代表强关联规则。

具体实施方式

为了便于理解，首先对本发明中所涉及的多个概念做统一描述：

访问路径：在页面访问数据中，每一次访问会记录两个数据，一个是访问前停留的页面，另一个是访问后到达的页面；由这两个数据构成的访问过程称为访问路径。

前驱页面节点：访问路径中页面发生跳转之前所停留的页面。

现页面节点：访问路径中页面发生跳转之后所停留的页面。

最小支持度：节点成为频繁项所需满足的最小概率。

最小置信度：路径成为强关联规则所需满足的最小条件概率。

现结合附图和具体实施例对本发明作进一步的描述。

如图1所示，在运算之前，需要利用Sqoop工具将访问路径数据从数据库中导入到Hive中，如果需要，可以在Hive中对数据进行数据清洗。Hive和Spark框架都是运行于计算集群之上的。当Hive中有数据了之后，在浏览器上的访问页面上向代理服务器Nginx进行访问请求，代理服务器接收到了浏览器发来的请求后，向Spark框架提交计算任务。运行于计算集群上的Spark框架利用Spark SQL将Hive中的数据导入到框架中，使用Spark Core进行计算。计算完成后，将计算结果返回到代理服务器Nginx，Nginx将数据组织处理后，将展示页面返回到浏览器页面进行渲染显示。

如图2所示，本发明提出的一种针对大数据量的页面访问路径分析方法，包括以下步骤：

步骤1)、将页面访问日志记录中的数据处理为由前驱页面组成的一项集与由前驱页面和当前页面组成的二项集；

步骤2)、对二项集中的各元素对组成的访问路径计算其支持度；

步骤3)、通过计算后得出的二项集中的访问路径的支持度与一项集中前驱页面出现的概率来计算访问路径的置信度；

步骤4)、通过计算得出的访问路径置信度生成带权重值的访问路径有向图；

步骤5)、根据带权重的访问路径有向图，生成访问路径关联规则；

步骤6)、根据访问路径关联规则实施页面访问路径分析。

下面对本发明方法中的步骤做进一步说明。

在步骤1)中，需要将在App或者Web端采集的数据处理为前驱页面名称，现页面名称和用户账号的格式。每一条数据便代表着一次从前驱页面到现页面的访问路径。之所以加上用户账号数据，是为了便于在Hive中做ETL。本实例中处理后的数据如下表1所示：

表1：访问路径数据表

表中第一列为前驱页面节点名称，第2列为现页面节点名称，第3列为用户ID。每一行为一个用户的一次访问行为。在表中的名称分别为preView，nowView，userId，表名称为accessRoute。

需要利用Spark SQL将Hive数据导入到Spark框架中，生成包含所有前驱页面节点的RDD(Resilient Distributed Datasets，容错分布式数据集)，和所有访问路径的RDD，并计算数据总数。

由于数据目前是存储在Hive中的，需要使用Spark SQL将Hive中的数据导入到Spark框架中。首先要利用SparkContext初始化HiveContext，在Scala中的方式为：

val sc＝new SparkContext(…)

val hiveCtx＝new HiveContext(sc)

初始化之后需要将导入数据成为DataFrame，再进行两个RDD的生成。在Scala中的实现方式为：

val originDF＝hiveCtx.sql(“select preview,nowView from accessRoute”)

val preRDD＝originDF.map(row＝>row.getString(0))

val routeRDD＝originDF.map(row＝>(row.getString(0),row.getString(1)))

val count＝preRDD.count()

其中，因为preRDD和routeRDD的元素数量一定是相同的，因此总数只需统计其中一个即可。

在本实例中，经过映射，preRDD为：

{MainView,MainView,MainView,MainView,PlayView,PlayView,MainView,MainView,LiveView,MainView LiveView,PlayView}；

routeRDD为：

{(MainView,LiveView),(MainView,PlayView),(MainView,LiveView),(MainView,Pla yView),(PlayView,CommentView),(PlayView,DownLoad),(MainView,LiveView),(MainVi ew,PlayView),(LiveView,CommentView),(MainView,PlayView),(LiveView,CommentVie w),(PlayView CommentView)}。Count的值为12。

步骤2)中，需要统计两个RDD中不同的元素所出现的个数(统计的每个key的个数不是支持度，但是可以当作支持度来用。因为置信度计算公式中会把分母约掉，实际计算时用到的就是这两个数值。)，为后续置信度的计算做准备；需要先对每个元素进行map操作，再进行reduceByKey操作。在Scala中的实现方式为：

val prePairRDD＝preRDD.map(x＝>(x,1)).reduceByKey((x,y)＝>x+y)

val routePairRDD＝routeRDD.map(x＝>(x,1)).reduceByKey((x,y)＝>x+y)

其中，prePairRDD为前驱页面节点元素统计RDD，键为每个不同的前驱页面节点，值为该键的个数统计数值；routePairRDD为路径元素统计RDD，键为每个不同的访问路径，值为该路径的个数统计数值。在Apriori算法中，prePairRDD相当于一项集，而routePairRDD相当于二项集。在关联规则挖掘的计算中，Apriori算法要通过K项集来发现K+1项集，需要不断的扫描数据集，因此在大规模数据集的情景下，Apriori的算法效率很低。而访问路径分析的关联规则计算比较特殊，它不同于商品购买记录，它的每一条数据记录只有前驱页面和现页面两个项，因此在计算中只需发现到二项集即可。本发明将其应用于Spark平台上时，利用RDD来代替存储项目集的哈希树或布隆过滤器。

图3为根据页面访问数据抽象出的访问路径图。每个节点表示每个页面节点，每条边代表首尾节点组成的访问路径，边上的数据表示该条路径所出现的次数。如图3所示，MainView到LiveView的路径次数为3次，MainView到PlayView的路径次数为4次，LivewView到CommentView的路径次数为2次，PlayView到CommentView的路径次数为2次，PlayView到DownLoadView的路径次数为1次。

在本实例中，由preRDD经过map操作映射形成的RDD为：

{(MainView,1),(MainView,1),(MainView,1),(MainView,1),(PlayView,1),(PlayView,1),(MainView,1),(MainView,1),(LiveView,1),(MainView,1),(LiveView,1),(PlayView,1)}；

再经过reduceByKey操作形成的prePairRDD为：

{(MainView,7),(PlayView,3),(LiveView,2)}；

由routeRDD经过map操作映射形成的RDD为：

{((MainView,LiveView),1),((MainView,PlayView),1),((MainView,LiveView),1),((M ainView,PlayView),1),((PlayView,CommentView),1),((PlayView,DownLoad),1),((MainVi ew,LiveView),1),((MainView,PlayView),1),((LiveView,CommentView),1),((MainView,Pl ayView),1),((LiveView,CommentView),1),((PlayView,CommentView),1)}

再经过reduceByKey操作形成的routePairRDD为：

{((MainView,LiveView),3),((MainView,PlayView),4),((LiveView,CommentView),2),((PlayView,CommentView),2),((PlayView,DownLoad),1)}；

在步骤3)中，需要先过滤出两个RDD中的键所出现的个数大于最小支持度乘以元素总数的键。在Scala中使用filter()函数来进行过滤；

方式如下：

val frequentPrePairRDD＝prePairRDD.filter(x＝>x._2>count*minSupport)

val frequentRoutePairRDD＝routePairRDD.filter(x＝>x._2>count*minSupport)

在本实例中，count的值为12,minSupport取值为0.2，因此要过滤出prePariRDD和routePairRDD中值大于12*0.2＝2.4的键。因此，frequentPrePairRDD为：

{(MainView,7),(PlayView,3)}；

FrequentRoutePairRDD为：

{((MainView,LiveView),3),((MainView,PlayView),4)}；

这个过滤步骤是为了方便在展示时将频繁集与非频繁集区分开。

通过调整后的有向关联度计算方法来计算关联度，并过滤出其值大于最小置信度的所有键来区分显示强关联规则和弱关联规则。

由于在传统的Apriori的计算中，元素出现的概率是元素在整个数据集中所出现的概率，但是并没有出现时间先后的区别。因此对于置信度的计算上是使用的元素在整个数据集上所出现的概率。但是在访问路径分析中，路径是有向的。例如(A,B)和(B,A)在传统Apriori算法中，是相同的，但在访问路径分析中是不同的。因此，传统的Apriori算法中计算置信度的公式在访问路径分析中变得不适用了。本发明对此进行了改进。置信度本质上是一个条件概率。本法明置信度的计算方式改进为：

P(A->B)/P(A)。其中P(A->B)为路径(A,B)在所有路径数据中出现的概率；P(A)为页面节点A在前驱节点数据中出现的概率。经过归约化简后变为：N(A->B)/N(A)，其中N(A->B)为步骤2)中得出的routePairRDD中的键为(A,B)的所对应的值，也就是(A,B)在路径数据集中所出现的次数；N(A)为步骤2)中得出的prePairRDD中键为A的所对应的值，也就是页面节点A在前驱节点RDD中所出现的次数。

在Scala中的步骤如下：

Val routeResultRDD＝routePairRDD.map{case(key,value)＝>(key,value/(prePairRDD.lookup(key)))}

val strongResultRDD＝routeResultRDD.filter(case(key,value)＝>values>minConfidence)

所得到的routeResultRDD为有向处理后的路径与置信度的键值对RDD，键为访问路径，值为其对应的置信度；strongResultRDD为routeResultRDD中置信度大于最小置信度的所有键值对组成的RDD。

在本实例中，经过map操作，routeResultRDD中的每个键值对需要将值除以所对应的键在prePairRDD中的值。PrePairRDD为：

{(MainView,7),(PlayView,3),(LiveView,2)}；

因此，本实例中的由routePairRDD映射为的routeResultRDD为：

{((MainView,LiveView),0.429),((MainView,PlayView),0.571),((LiveView,Comment View),1),((PlayView,CommentView),0.667),((PlayView,DownLoad),0.333)}；

本实例中所预先设定的minConfidence为0.5，因此经过filter操作所过滤出的strongResultRDD为：

{((MainView,PlayView),0.571),((LiveView,CommentView),1),((PlayView,CommentView),0.667)}。

因此，MainView到PlayView，LiveView到CommentView，PlayView到CommentView这三条路径是强关联的。

在步骤4)中，需要通过计算得出的访问路径置信度来生成带权重值得访问路径有向图，其中每条访问路径的权重为步骤3)中计算得出该访问路径的置信度。

如图4所示，MainView到LiveView的关联度为0.429，MainView到PlayView的关联度为0.571，LiveView到CommentView的关联度为1，PlayView到CommentView的关联度为0.667，PlayView到DownLoadView的关联度为0.333。其中，因为选取的最小置信度minConfidence为0.5，因此MainView到PlayView，LiveView到CommentView，PlayView到CommentView这三条路径为强关联规则，路径用加粗的箭头表示。

在步骤5)中，根据带权重的访问路径有向图生成访问路径关联规则，方式为对于只包含前驱页面和当前页面的短路径来说，该路径上的权重值就是该访问路径的关联规则；对于包含若干个页面的长路径来说，该长路径上所有段路径权重的乘积即为该长路径上从首页面到尾页面的关联规则。

在本实例中，如图4所示，其中只包含由前驱页面到当前页面的一次跳转短路径的有5条，分别是(MainView,LiveView)，权重为0.429；(MainView,PlayView)，权重为0.571；(LiveView,CommentView)，权重为1；(PlayView,CommentView)，权重为0.667；(PlayView,DownLoad)，权重为0.333。长路径有3条，其中MainView到CommentView有两条路径，MainView到DownLoadView有1条长路径。对于MainView到DownLoadView来说，其关联度为：(MainView，PlayView)的权重0.571乘以(PlayView，DownLoadView)的权重0.333，结果为0.19；MainView到CommentView有两条路径，分别是(MainView，LiveView，CommentView)和(MainView，PlayView，DownLoadView)。其权重计算结果为：(MainView，LiveView，CommentView)的权重，0.429乘以1的结果0.429，再加上(MainView，PlayView，CommentView)的权重，0.571乘以0.667的结果0.38，所以最终MainView到CommentView的关联度为0.38加上0.429，结果为0.81。

在步骤6)中要根据步骤5)中计算得到的访问路径关联规则来实施分析策略。分析维度如下：

(1)访问路径预测。策略为：根据步骤5)中得到的页面节点间的关联度，可以对短路径下一跳路径和访问终点路径进行预测。预测的依据为关联度大的页面节点更有可能成为下一跳路径和访问终点路径。

在本实例中，以MainView为例进行分析.MainView的下一跳节点有两个，分别为LiveView和PlayView。与LiveView的关联度0.429小于与PlayView的关联度0.571，因此下一跳预测为PlayView；在MainView的后续页面节点中，关联度最大的为(MainView，CommentView)的0.81，因此，当用户访问到MainView时，后续预测会访问到CommentView。

(2)页面节点关联分析。策略为：根据步骤5)中得到的页面节点间的关联度，前驱页面节点与当前页面节点的关联度越大，则后续更有可能访问到。对于首尾页面节点间跳转次数很多，但是关联度又很大的页面节点，可以在产品升级中对页面安排进行调整，以减少关联度大的页面间的跳转次数。

在本实例中，以MainView为例进行分析。其余四个页面节点与MainView都有关联规则。而其中(MainView,LiveView)的关联度为0.429，(MainView,PlayView)的关联度为0.571，(MainView，CommentView)的关联度为0.81，(MainView,DownloadView)的关联度为0.19，因此，当用户浏览到MainView时，之后最可能浏览到CommentView，其余节点关联度越大的可能性越大。从MainView开始，后续最可能到达的节点是CommentView，因此可以在页面的安排上让从LiveView和PlayView跳转到CommentView的链接安排得更加显眼。

(3)路径选择分析。策略为：相同首节点与尾节点的路径之间可能存在不同的路径。其中，当用户访问到该首节点时，更容易通过关联度较大的路径访问到尾节点。在后续页面调整中，可以根据关联度将关联度大的路径上的页面跳转链接安排得更加明显。

在本实例中，以(MainView，CommentView)节点对为例进行分析。从MainView到CoomentView的路径有两条，分别为(MainView，LiveView，CommentView)和(MainView，PlayView，CommentView)。其中(MainView，LiveView，CommentView)的关联度为0.429，(MainView，PlayView，CommentView)的关联度为0.38.因此，当用户访问到MainView时，更可能通过(MainView，LiveView，CommentView)这条路径访问到CommentView。在长路径中，(MainView，LiveView，CommentView)的关联度最大，为0.429。因此可被视作关键路径。可在这条路径上安排广告，产品信息推荐等。

(4)关键路径分析。策略为：根据步骤5)中计算得到的关联度，对于关联度很大的长路径，可以视为关键路径或频繁访问路径，根据产品需要可以在关键路径上安排一些重要的推广信息，如广告，产品推荐等。

在本实例中，所有长路径中关联度最大的为(MainView，LiveView，CommentView)，关联度为0.429。因此可以视为关键路径，可以在路径上安排广告，产品推荐，节目推荐等。

(5)对于关联度评估分析，策略为：通过步骤5)中计算得到的关联度，对页面进行针对性分析。在页面设计上，设计者希望关联程度很高的节点，可以通过计算得到的关联度评估是否达到期望数值。如果未达标，则在后续升级中对页面进行调整。

在本实例中，以(MainView，DownloadView)为例，路径为(MainView，PlayView，DownloadView)。假设设计者希望用户在访问了MainView之后，最终去访问DownloadView。但是经过计算，MainView与DownLoadView之间的关联度只有0.19，说明小概率会访问到。因此在后续产品升级中，需要对页面的安排做出调整。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种针对大数据量的页面访问路径分析方法，所述方法包括：

所述步骤1)具体包括：

步骤1-2)将访问日志记录处理为包含<前驱页面、当前页面>的有向二项集，即二项集中的<前驱页面、当前页面>和<当前页面、前驱页面>作为不同的有向二项集对象，使用Spark的RDD2进行存储，统计RDD2中不同的元素出现的个数；

步骤2)计算二项集中的各元素对组成的访问路径的支持度；所述步骤2)的二项集的元素<A、B>的支持度为其在RDD2中出现的个数；

所述步骤3)具体为：

二项集的元素<A、B>的置信度为：

N(A->B)/N(A)

其中，N(A->B)为根据步骤2)得到的访问路径<A、B>的支持度，N(A)为页面节点A在RDD1中所出现的次数；

所述步骤5)的计算访问路径的关联度，具体为：

对于只包含前驱页面和当前页面的短路径，该路径上的权重值就是该路径的关联度；对于包含若干个页面的长路径，该长路径上所有段路径权重的乘积为该长路径上从首页面到尾页面的关联度；

步骤6)根据访问路径的关联度实施页面访问路径分析。

2.根据权利要求1所述的针对大数据量的页面访问路径分析方法，其特征在于，所述步骤6)具体包括：

3.一种针对大数据量的页面访问路径快速分析系统，包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1～2之一所述方法的步骤。