CN109299417B

CN109299417B - 查询访问路径的方法及装置

Info

Publication number: CN109299417B
Application number: CN201710608367.5A
Authority: CN
Inventors: 刘芳铭
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2017-07-24
Filing date: 2017-07-24
Publication date: 2022-04-08
Anticipated expiration: 2037-07-24
Also published as: CN109299417A

Abstract

本发明公开了查询访问路径的方法及装置，涉及数据处理技术领域，提高了查询访问路径的工作效率，本发明的主要技术方案为：确定接收的第一访问路径对应的访问序列，所述访问序列是按照页面访问顺序而排列的页面序列，所述第一访问路径是以其对应的访问序列为前缀的路径信息；判断预先存储的路径信息对照表中是否存在所述第一访问路径对应的访问序列，其中，所述路径信息对照表中包含用于存储访问序列的序列目录以及每个所述访问序列关联的路径信息；若存在，则根据所述第一访问路径对应的访问序列所关联的路径信息提取第二访问路径，所述第二访问路径是以所述第一访问路径为前缀的路径信息。本发明主要用于查询访问路径。

Description

查询访问路径的方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种查询访问路径的方法及装置。

背景技术

随着互联网技术的迅速发展，人们的日常生活已经越来越离不开互联网，比如人们可以通过互联网实现购物、理财、阅读等等消费行为，具体的，在这些人与互联网的互动活动中，人们通过访问网站获取数据信息或者享受网络服务，据此，网站可以基于访问路径数据来分析人们的消费行为，用于合理地规划网站布局。

目前，网站在分析人们的消费行为时，需要遍历网站中存储的所有访问路径数据，并对所有遍历的数据做相关运算，获得路径信息数据。然而，当网站中存储的访问路径数据的数据量很大时，遍历所有访问路径数据需要的工作量是很大的，并且对所有遍历的数据做相关运算时需要的运算量也是很大的，上述如此大的遍历数据工作量和数据运算量，导致服务器需要占用大量的处理资源，从而降低了服务器的处理速度，最终导致降低了查询访问路径数据的工作效率。

发明内容

有鉴于此，本发明提供一种查询访问路径的方法及装置，主要目的在于优化访问路径数据的查询方式，以提高查询访问路径数据的工作效率。

为了解决上述问题，本发明主要提供如下技术方案：

一方面，本发明提供了一种查询访问路径的方法，该方法包括：

确定接收的第一访问路径对应的访问序列，所述访问序列是按照页面访问顺序而排列的页面序列，所述第一访问路径是以其对应的访问序列为前缀的路径信息；

判断预先存储的路径信息对照表中是否存在所述第一访问路径对应的访问序列，其中，所述路径信息对照表中包含用于存储访问序列的序列目录以及每个所述访问序列关联的路径信息；

若存在，则根据所述第一访问路径对应的访问序列所关联的路径信息提取第二访问路径，所述第二访问路径是以所述第一访问路径为前缀的路径信息。

进一步的，所述方法还包括：

若所述路径信息对照表中不存在所述第一访问路径对应的访问序列，则在路径数据库中提取所述第二访问路径，所述路径数据库用于存储用户访问网站时产生的访问路径信息。

进一步的，所述根据所述第一访问路径对应的访问序列所关联的路径信息提取第二访问路径包括：

在所述路径信息对照表中获取所述第一访问路径对应的访问序列所关联的路径信息；

判断所述路径信息中是否存在以所述第一访问路径为前缀的路径信息；

若存在，则将以所述第一访问路径为前缀的路径信息确定为第二访问路径，并提取所述第二访问路径；

若不存在，则在路径数据库中提取第二访问路径。

进一步的，当提取到所述第二访问路径之后，所述方法还包括：

将所述第一访问路径确定为新增访问序列；

将所述新增访问序列添加入所述路径信息对照表中的序列目录中；

将所述第二访问路径添加入所述路径信息对照表；

建立所述新增访问序列与所述第二访问路径的关联关系。

进一步的，所述确定接收的第一访问路径对应的访问序列包括：

接收第一访问路径；

将所述第一访问路径去尾处理得到其对应的访问序列。

进一步的，所述将所述第一访问路径去尾处理得到其对应的访问序列包括：

依次删除所述第一访问路径中剩余元素中的最末位元素，直至仅剩余一个元素时为止；

将每次删除所述第一访问路径中的最末位元素后得到的剩余元素确定为所述第一访问路径对应的一个访问序列。

删除所述第一访问路径的末位元素得到其对应的第一个访问序列；

若所述路径对照表的序列目录中不存在所述第一访问路径对应的第一个访问序列时，再次删除所述第一个访问序列的末位元素，得到所述第一访问路径对应的第二个访问序列；

重复上述步骤，直至所述路径对照表中存在第一访问路径对应的访问序列或所述第一访问路径对应的访问序列无法执行去尾处理。

为了实现上述目的，根据本发明的另一方面，提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述所述的查询访问路径的方法。

为了实现上述目的，根据本发明的另一方面，提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述所述的查询访问路径的方法。

另一方面，本发明还提供了一种查询访问路径的装置，该装置包括：

确定单元，用于确定接收的第一访问路径对应的访问序列，所述访问序列是按照页面访问顺序而排列的页面序列，所述第一访问路径是以其对应的访问序列为前缀的路径信息；

判断单元，用于判断预先存储的路径信息对照表中是否存在所述确定单元确定的第一访问路径对应的访问序列，其中，所述路径信息对照表中包含用于存储访问序列的序列目录以及每个所述访问序列关联的路径信息；

提取单元，用于当所述判断单元判断所述路径信息对照表中存在所述第一访问路径对应的访问序列时，根据所述第一访问路径对应的访问序列所关联的路径信息提取第二访问路径，所述第二访问路径是以所述第一访问路径为前缀的路径信息。

进一步的，所述提取单元还用于，

当所述判断单元判断所述路径信息对照表中不存在所述第一访问路径对应的访问序列时，则在路径数据库中提取所述第二访问路径，所述路径数据库用于存储用户访问网站时产生的访问路径信息。

进一步的，所述提取单元包括：

获取模块，用于在所述路径信息对照表中获取所述第一访问路径对应的访问序列所关联的路径信息；

判断模块，用于判断所述获取模块获取的路径信息中是否存在以所述第一访问路径为前缀的路径信息；

确定模块，用于当所述判断模块判断所述路径信息中存在以所述第一访问路径为前缀的路径信息时，将以所述第一访问路径为前缀的路径信息确定为第二访问路径；

第一提取模块，用于提取所述确定模块确定的第二访问路径；

第二提取模块，用于当所述判断模块判断所述路径信息中不存在以所述第一访问路径为前缀的路径信息时，在路径数据库中提取所述第二访问路径。

进一步的，所述装置还包括：

所述确定单元，还用于将所述第一访问路径确定为新增访问序列；

第一添加单元，用于将所述确定单元确定的新增访问序列添加入所述路径信息对照表中的序列目录中；

第二添加单元，用于将所述第二访问路径添加入所述路径信息对照表；

建立单元，用于建立所述第一添加单元添加的新增访问序列与所述第二添加单元添加的第二访问路径的关联关系。

进一步的，所述确定单元包括：

接收模块，用于接收第一访问路径；

处理模块，用于将所述接收模块接收的第一访问路径去尾处理得到其对应的访问序列。

进一步的，所述处理模块包括：

第一删除子模块，用于依次删除所述第一访问路径中剩余元素中的最末位元素，直至仅剩余一个元素时为止；

确定子模块，用于将每次所述第一删除子模块删除所述第一访问路径中的最末位元素后得到的剩余元素作为所述第一访问路径对应的一个访问序列。

进一步的，所述处理模块包括：

第二删除子模块，删除所述第一访问路径的末位元素得到其对应的第一个访问序列；

所述第二删除子模块，还用于当所述路径对照表的序列目录中不存在所述第一访问路径对应的第一个访问序列时，再次删除所述第一个访问序列的末位元素，得到所述第一访问路径对应的第二个访问序列；

所述第二删除子模块，还用于重复上述步骤，直至所述路径对照表中存在第一访问路径对应的访问序列或所述第一访问路径对应的访问序列无法执行去尾处理。

借由上述技术方案，本发明提供的技术方案至少具有下列优点：

本发明提供的一种查询访问路径的方法及装置，相较于现有技术中查询用户浏览网站的路径信息数据时，需要遍历网站中存储的全部访问路径数据，本发明通过查询存储区域中的路径信息对照表，获取访问路径对应的访问序列关联的路径信息，可以过滤掉大量无关查询数据，同时减少查询访问路径的工作量，再基于获取的路径信息进行相关运算，减少了服务器的运算量，节约了服务器的处理资源，提高了查询访问路径的工作效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例提供的一种查询访问路径的方法流程图；

图2为本发明实施例提供的另一种查询访问路径的方法流程图；

图3为本发明实施例提供的查询访问路径的工作原理流程图；

图4为本发明实施例提供的一种查询访问路径的装置的组成框图；

图5为本发明实施例提供的另一种查询访问路径的装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种查询访问路径的方法，如图1所示，该方法是通过查询路径信息对照表中的访问序列以及访问序列关联的路径信息，从而减少遍历网站中存储的访问路径数据的数据量，实现优化查询访问路径数据的方式，以提高查询访问路径的工作效率，对此本发明实施例提供以下具体步骤：

101、确定接收的第一访问路径对应的访问序列。

其中，访问序列是按照页面访问顺序而排列的页面序列，在用户访问网站的过程中，会依次发生多个页面跳转事件，按照用户浏览页面的顺序，可以将多个页面组成页面序列，并且页面序列的初始元素是用户访问网站的初始浏览页面，则该页面序列是用户在本次浏览网页时的访问序列。

例如，用户在访问网站的过程中，当依次浏览页面A→C→D时，其中页面A是用户访问网站的初始浏览页面，按照浏览页面的顺序，页面A、C以及D组成页面序列A-C-D，那么该页面序列是用户在浏览网页时的访问序列。

其中，第一访问路径是以一定的访问序列为前缀的路径信息。在用户与网站建立的一次访问会话期间，用户依次浏览页面A→B→D→C→B，然后停止访问网站并退出，那么在这一次访问会话期间，用户访问网站的访问路径是A→B→D→C→B。此外，在这一次访问会话期间，存在多个以初始浏览页面A作为初始元素的访问序列A-B-D-C、A-B-D以及A-B，据此，上述访问路径的路径信息包含多个访问序列A-B-D-C、A-B-D以及A-B，并且多个访问序列与上述访问路径对应的页面序列A-B-D-C-B相比较，位于页面序列A-B-D-C-B的前缀位置，所以访问路径A→B→D→C→B是以访问序列A-B-D-C或者A-B-D或者A-B为前缀的路径信息。本发明实施例中，第一访问路径是用户所要查询的路径信息，根据该路径信息可以提取出多个以该路径信息初始页面开头的访问序列，定义这些访问序列为第一访问路径的前缀，而通过从这些前缀所对应的路径信息中查找符合第一访问路径的路径信息将大幅减少从访问路径数据库中查找路径信息的数据量。

102、判断预先存储的路径信息对照表中是否存在第一访问路径对应的访问序列。

其中，路径信息对照表是预先保存在存储区域中，该存储区域可以是处理器缓存或者存储器中的存储区域，用于存储已进行的访问路径查询所对应的查询结果，需要说明的是，在查询初始状态，所述对照表中没有对应的相关数据，此时，查询将直接从路径数据库中查询，而网站的路径数据库用于存储用户访问网站时产生的访问路径信息。

此外，路径信息对照表中包含序列目录以及访问序列关联的路径信息，序列目录用于存储访问序列，访问序列关联的路径信息是以访问序列为前缀的访问路径。

例如，路径信息对照表，如表一所示，路径信息对照表中存储序列目录以及访问序列关联的路径信息，其中，序列目录中存储的访问序列信息包括访问序列H-J和H-K，对于一个访问序列H-J，其关联的路径信息是访问路径H→J→K和H→J→K→I，并且访问路径H→J→K和H→J→K→I分别都是以访问序列H-J为前缀的路径信息。同理分析，在表一中，访问序列H-K关联路径信息H→K→L和H→K→M，并且访问路径H→K→L和H→K→M分别是以访问序列H-K为前缀的路径信息。

表一

对于本发明实施例，判断路径信息对照表中是否存在第一访问路径对应的访问序列，即查询路径信息对照表的序列目录中是否存在第一访问路径对应的访问序列，目的是获得第一访问路径对应的访问序列在路径信息对照表中关联的路径信息。

例如，如果第一访问路径为H→J→K→I，则其路径信息中包含的访问序列H-J和H-J-K。当查询路径信息对照表时，如表一所示，序列目录中存在访问序列H-J，但不存在访问序列H-J-K，基于访问序列H-J，可以确定其关联的路径信息H→J→K和H→J→K→I。

103、若路径信息对照表中存在第一访问路径对应的访问序列，则根据第一访问路径对应的访问序列所关联的路径信息提取第二访问路径。

其中，第二访问路径是以第一访问路径为前缀的路径信息。

例如，第一访问路径是A→B→M，其对应的页面序列是A-B-M，则第二访问路径是以页面序列A-B-M为前缀的路径信息，比如A→B→M→D或者A→B→M→E或者A→B→M→D→F等等。

在本发明实施例中，若路径信息对照表的序列目录中存在第一访问路径对应的访问序列，则根据访问序列所关联的路径信息提取第二访问路径。

例如，路径信息对照表，如表二所示，当确定第一访问路径为A→B→D时，其路径信息包含的访问序列为A-B，在路径信息对照表的序列目录中存在访问序列A-B，那么查询访问序列A-B关联的路径信息，可以获得访问路径信息包括访问路径A→B→M、A→B→M→C、A→B→D→M以及A→B→D→C，其中，以第一访问路径为前缀的路径信息包括访问路径A→B→D→M、A→B→D→C，确定其为第二访问路径，并提取访问路径A→B→D→M、A→B→D→C。

表二

本发明实施例提供的一种查询访问路径的方法，相较于现有技术中当查询用户浏览网站的访问路径时，需要遍历网站中存储的全部访问路径数据的方法，本发明实施例通过查询存储区域中的路径信息对照表，获取访问路径对应的访问序列关联的路径信息，可以过滤掉大量无关查询数据，同时减少查询访问路径的工作量，再基于获取的路径信息进行相关运算，减少了服务器的运算量，节约了服务器的处理资源，提高了查询访问路径的工作效率。

基于对上述实施例中各步骤的具体实现方式，本发明实施例提供了另一种查询访问路径的方法，如图2所示，该方法是通过基于每一次的查询结果在路径信息对照表中建立访问序列与路径信息的关联关系，以便下一次查询访问路径时，可以首先查询路径信息对照表，从而减少查询工作量，实现优化查询访问路径数据的方式，提高了查询访问路径的工作效率，对此本发明实施例提供以下具体步骤：

201、确定接收的第一访问路径对应的访问序列。

在本发明实施例中，服务器接收查询第一访问路径的查询指令，将第一访问路径去尾处理，用于确定第一访问路径对应的访问序列，具体的，将第一访问路径去尾处理得到其对应的访问序列，可以存在两种方式，包括：

其中，一种方式是依次删除第一访问路径中剩余元素中的最末位元素，直至仅剩余一个元素时为止，将每次删除第一访问路径中的最末位元素后得到的剩余元素确定为第一访问路径对应的一个访问序列。

需要说明的是，在本发明实施例中，基于上述方式获得的第一访问路径对应的访问序列可以存在多个。

例如，确定第一访问路径对应的包含全部页面跳转事件的页面序列，从页面序列的末位对该页面序列进行去尾处理，依次删除该页面序列中的末位元素，即依次删除第一访问路径对应的页面序列中的末位页面，直至仅剩余一个页面为止，而后确定第一访问路径对应的多个访问序列，并按照去尾处理的执行顺序，为清晰阐述多个访问序列之间的关系，依次对确定的多个访问序列标记序号。

例如，第一访问路径是A→B→M→D→F，则访问路径所包含的全部页面跳转事件的页面序列是A-B-M-D-F，当对页面序列A-B-M-D-F进行去尾处理时，依次删除页面序列中的末位页面，确定多个访问序列A-B-M-D、A-B-M、A-B，按照去尾处理的先后顺序，依次对上述确定的访问序列标记序号，得到第一个访问序列A-B-M-D、第二个访问序列A-B-M、第三个访问序列A-B以及仅剩余一个页面A。

其中，另一种方式是删除第一访问路径的末位元素得到其对应的第一个访问序列，若路径对照表的序列目录中不存在第一访问路径对应的第一个访问序列时，再次删除第一个访问序列的末位元素，得到第一访问路径对应的第二个访问序列，重复上述步骤，直至路径对照表中存在第一访问路径对应的访问序列或第一访问路径对应的访问序列无法执行去尾处理。

例如，第一访问路径是A→B→M→D→F，则对其进行一次去尾处理得到访问序列A-B-M-D，将其与路径信息对照表的序列目录中存储的访问序列进行比照，若序列目录中存在访问序列A-B-M-D，则停止对第一访问路径的去尾处理操作，并将访问序列A-B-M-D确定为第一访问路径A→B→M→D→F对应的访问序列。若序列目录中不存在访问序列A-B-M-D，则再对访问序列A-B-M-D进行二次去尾处理而得到访问序列A-B-M，并继续将其与序列目录中存储的访问序列进行比照，判断序列目录中是否存在访问序列A-B-M，若存在，则将访问序列A-B-M确定为第一访问路径对应的访问序列。若序列目录中不存在访问序列A-B-M，则重复上述去尾处理以及将去尾处理的访问序列与路径信息对照表的序列目录中存储的访问序列比照是否存在相同的访问序列的操作，即再次对访问序列A-B-M去尾处理，直至序列目录中存在对第一访问路径进行多次去尾处理而得到的访问序列或者直至无法执行去尾处理而序列目录中仍不存在相同的访问序列，则停止去尾处理操作。

在本发明实施例中，基于上述另一种方式实现的确定第一访问路径对应的访问序列，通过将步骤201与202相结合，当得到第一访问路径对应的访问序列时，则不必再对第一访问路径进行多次重复的去尾处理，即确定第一访问路径对应的访问序列是一个而不是多个。

202、判断预先存储的路径信息对照表中是否存在第一访问路径对应的访问序列。

在本发明实施例中，当确定第一访问路径对应的访问序列后，则将其与路径信息对照表的序列目录中存储的访问序列比照，判断是否存在相同的访问序列，从而实现判断路径信息对照表中是否存在第一访问路径对应的访问序列。

203a、若路径信息对照表中存在第一访问路径对应的访问序列，则根据第一访问路径对应的访问序列所关联的路径信息提取第二访问路径。

在本发明实施例中，基于上述步骤201中将第一访问路径去尾处理得到其对应的访问序列，存在的两种方式，本步骤中当路径信息对照表中存在第一访问路径对应的访问序列时，并根据第一访问路径对应的访问序列所关联的路径信息提取第二访问路径，具体的，获取第二访问路径存在两种情况，陈述如下：

其中，一种情况是基于上述步骤201中将第一访问路径去尾处理得到其对应的访问序列的一种方式，当第一访问路径对应的访问序列为多个时，则需要将多个访问序列与路径信息对照表的序列目录中存储的访问序列比照，当序列目录中存在多个第一访问路径对应的访问序列时，则在多个访问序列关联的路径信息中提取以第一访问路径为前缀的第二访问路径。

例如，路径信息对照表，如表三所示。当接收的第一访问路径是H→A→B→D时，则根据依次删除第一访问路径中最末位元素的顺序，得到第一个访问序列H-A-B以及第二个访问序列H-A，同时表三的序列目录中存在访问序列H-A-B、H-A，当在访问序列H-A-B和访问序列H-A关联的路径信息中分别提取以第一访问路径H→A→B→D为前缀的路径信息时，则提取的第二访问路径是H→A→B→D、H→A→B→D→C以及H→A→B→D→A。

需要说明的是，对于上述表三的例举作进一步分析，对于路径信息对照表中存储的访问序列及其关联的路径信息，因为当每次根据第一访问路径对应的访问序列提取了第二访问路径后，就将第一访问路径确定为新增访问序列，并将该新增访问序列和其对应的第二访问路径存储在路径信息对照表中，即当在路径信息对照表中该新增访问序列关联的路径信息是其对应的第二访问路径时，第一访问路径对应的访问序列关联的路径信息中包含了该新增访问序列关联的路径信息。

例如，在表三中，访问序列H-A-B关联的路径信息是从访问序列H-A中提取出来的，同理分析，所以，当第一访问路径对应的访问序列为多个，并且在路径信息对照表的序列目录中存在多个第一访问路径对应的访问序列时，则可以根据对第一访问路径中末位元素去尾处理的顺序，从在先被去尾处理的访问序列关联的路径信息中提取第二访问路径即可，减少了在其他访问序列关联的路径信息中提取第二访问路径的重复操作。比如，上述的例举，当接收的第一访问路径是H→A→B→D时，则根据依次删除第一访问路径中最末位元素的顺序，得到第一个访问序列H-A-B以及第二个访问序列H-A，如表三所示，为了获取以第一访问路径为前缀的第二访问路径，则可以直接从第一个访问序列H-A-B关联的路径信息中提取第二访问路径即可。

表三

其中，另一种情况是基于上述步骤201中将第一访问路径去尾处理得到其对应的访问序列的另一种方式，当第一访问路径对应的访问序列为一个时，则将其与路径信息对照表的序列目录中存储的访问序列比照，当序列目录中存在该访问序列，则在该访问序列关联的路径信息中提取以第一访问路径为前缀的第二访问路径。

例如，路径信息对照表，如表四所示。当接收的第一访问路径是H→A→B→D→A，将第一访问路径去尾处理确定对应的访问序列，通过判断路径信息对照表中是否存在对应访问序列，即当删除第一访问路径中末位元素得到的第一个访问序列H-A-B-D不存在表四的序列目录中时，需要对第一个访问序列H-A-B-D进行二次删除末位元素处理，即得到第二个访问序列H-A-B，并且确定访问序列H-A-B存在于表四的序列目录中。当从访问序列H-A-B关联的路径信息中提取以第一访问路径为前缀的第二访问路径时，获取的第二访问路径是H→A→B→D→A→J、H→A→B→D→A→K以及H→A→B→D→A→L。

表四

203b、若路径信息对照表中不存在第一访问路径对应的访问序列，则在路径数据库中提取第二访问路径。

在本发明实施例中，路径信息对照表中若不存在第一访问路径对应的访问序列，则在路径数据库中获取以第一访问路径为前缀的访问路径，将其确定为第二访问路径，并提取第二访问路径。

例如，在本发明实施例中，当确定第一访问路径为A→H→D→M时，其路径信息包含的访问序列为A-H和A-H-D，则比照路径信息对照表，如表四所示，序列目录中不存在访问序列A-H和A-H-D，据此，说明在之前查询路径数据库中的访问路径信息时，未查询过访问序列A-H和A-H-D，那么需要查询路径数据库，获取以第一访问路径为前缀的路径信息，确定其为第二访问路径，并提取第二访问路径。

204、将第一访问路径确定为新增访问序列。

在本发明实施例中，当在路径对照表中的路径信息中或者在路径数据库中确定存在以第一访问路径为前缀的第二访问路径时，将第一访问路径包含的全部页面跳转事件的页面序列，确定为新增访问序列。

例如，当接收的第一访问路径是H→A→B→D时，第一访问路径所对应的包含全部页面跳转事件的页面序列是H-A-B-D，则将页面序列H-A-B-D确定为新增的访问序列。

205、将新增访问序列添加入路径信息对照表中的序列目录中。

在本发明实施例中，基于上述步骤中的例举中将页面序列H-A-B-D确定为新增的访问序列，则将新增访问序列加入路径信息对照表的序列目录中。

206、将第二访问路径添加入路径信息对照表。

在本步骤之前，提取的第二访问路径是通过两种方式获得的，具体包括：一种方式，若路径信息对照表中存在第一访问路径对应的访问序列，则根据访问序列关联的路径信息提取第二访问路径；另一种方式，若路径信息对照表中不存在第一访问路径对应的访问序列，则在路径数据库中提取第二访问路径。在上述两种方式中，第二访问路径都是以第一访问路径为前缀的路径信息，但是提取的范围不同，具体的，一种方式的提取第二访问路径的范围是路径信息对照表，而另一种方式提取第二访问路径的范围是路径数据库。对于本发明实施例，将根据上述两种情况，对将第二访问路径添加入路径信息对照表的方式做具体的例举。

其中，若路径信息对照表中存在第一访问路径对应的访问序列，则根据访问序列关联的路径信息提取第二访问路径，将第二访问路径添加入路径信息对照表。

例如，路径信息对照表，如表四所示，当接收的第一访问路径是H→A→B→D时，则可以确定路径信息对照表中存在第一访问路径对应的访问序列以及其关联的路径信息，通过上述步骤，确定的新增访问序列是H-A-B-D，则在访问序列H-A-B关联的路径信息中，查询以访问序列H-A-B-D为前缀的路径信息，得到访问路径H→A→B→D→Q、H→A→B→D→C以及H→A→B→D→A，将其确定为以第一访问路径为前缀的第二访问路径，并提取第二访问路径H→A→B→D→Q、H→A→B→D→C以及H→A→B→D→A，将其加入路径信息对照表中的路径信息中。

其中，若路径信息对照表中不存在第一访问路径对应的访问序列，则在路径数据库中提取第二访问路径，将第二访问路径添加入路径信息对照表。

例如，路径信息对照表，如表四所示，当接收的第一访问路径是H→Q→M时，则可以确定路径信息对照表中不存在第一访问路径对应的访问序列以及其关联的路径信息，通过上述步骤，确定新增访问序列是H-Q-M，则查询路径数据库中是否存在以该访问序列为前缀的路径信息。当路径数据库中存在以访问序列H-Q-A为前缀的访问路径，则获取该访问路径，比如访问路径H-Q-M-A、H-Q-M-A-Q、H-Q-M-B等等，为方便陈述，在本发明实施例中，限定路径数据库中存在以访问序列H-Q-M为前缀的访问路径仅仅为访问路径H-Q-M-A、H-Q-M-A-Q、H-Q-M-B，则将其确定为以第一访问路径为前缀的第二访问路径，并提取访问路径H-Q-M-A、H-Q-M-A-Q、H-Q-M-B，将其加入路径信息对照表中。

207、建立新增访问序列与第二访问路径的关联关系。

在本发明实施例中，当确定新增访问序列和第二访问路径后，需要再路径信息对照表中建立两者的关联关系。

例如，路径信息对照表，如表四所示，将上述步骤中确定的新增访问序列H→A→B→D及其关联的路径信息加入路径信息对照表，并将访问序列与其关联的路径信息作出对应关系，则更新表四，得到表五，如表五所示。

表五

再例如，路径信息对照表，如表五所示，将上述步骤中确定的新增访问序列H-Q-M及其关联的路径信息加入路径信息对照表，并将访问序列与其关联的路径信息作出对应关系，则更新表五，得到表六，如表六所示。

表六

需要说明的是，在本发明实施例中，查询到新增访问序列关联的路径信息中存在访问路径对应的页面序列与新增访问序列相同时，则提取该访问路径，并将其确定为新增访问序列关联的一条路径信息，加入路径信息对照表中的路径信息中。

例如，路径信息对照表，如表七所示，当确定的第一访问路径是A→B→D→E时，且确定该访问路径的对应的访问序列A→B→D存在于表七中的序列目录中，更新表七，将新增访问序列A→B→D→E及其关联的第二访问路径添加入表七，并且将访问路径A→B→D→E也加入新增访问序列关联的路径信息中，得到表七被更新后的路径信息表，如表八所示。

表七

表八

在本发明实施例中，通过上述方法，可以实现更新路径信息对照表，从而实现了将上一次的查询结果保存在路径信息对照表中，并可以基于该上一次查询结果数据，减少下一次查询访问路径的数据量。

基于本发明实施例提供的另一种查询访问路径的方法，本发明实施例还提出查询访问路径的工作原理流程图，如图3所示，根据接收的第一访问路径查询存储区域中的路径信息对照表中是否存在第一访问路径对应的访问序列，即在先是否在路径数据库中查询过以该访问序列为前缀的访问路径，其中，访问序列是基于第一访问路径的末位元素做去尾的处理后获得的，当判断若存在时，即查询存储区域命中，即通过在先的查询结果可以过滤大量无关查询数据，再通过相关运算在该访问序列关联的路径信息中提取第二访问路径；当判断若不存在时，即查询存储区域未命中，则以该第一访问路径为访问序列，查询路径数据库，当路径数据库中存在以该访问序列为前缀的访问路径时，将第一访问路径确定为新增访问序列通过相关运算，提取以第一访问路径为前缀的第二访问路径。通过该工作原理流程图可以实现优化访问路径的查询方式，减少查询访问路径的工作量，通过过滤掉大量无关查询数据，减少后续相关运算的计算量，节约服务器处理资源，提高了查询访问路径的工作效率。

为了实现上述目的，根据本发明的另一方面，本发明实施例还提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述所述的查询访问路径的方法。

为了实现上述目的，根据本发明的另一方面，本发明实施例还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述所述的查询访问路径的方法。

进一步的，作为对上述图1、图2所示方法的实现，本发明另一实施例还提供了一种查询访问路径的装置。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置应用于实现优化查询访问路径的方式，具体如图4所示，该装置包括：

确定单元31，用于确定接收的第一访问路径对应的访问序列，所述访问序列是按照页面访问顺序而排列的页面序列，所述第一访问路径是以其对应的访问序列为前缀的路径信息；

判断单元32，用于判断预先存储的路径信息对照表中是否存在所述确定单元31确定的第一访问路径对应的访问序列，其中，所述路径信息对照表中包含用于存储访问序列的序列目录以及每个所述访问序列关联的路径信息；

提取单元33，用于当所述判断单元32判断所述路径信息对照表中存在所述第一访问路径对应的访问序列时，根据所述第一访问路径对应的访问序列所关联的路径信息提取第二访问路径，所述第二访问路径是以所述第一访问路径为前缀的路径信息。

进一步的，如图5所示，所述提取单元33还用于，

当所述判断单元32判断所述路径信息对照表中不存在所述第一访问路径对应的访问序列时，则在路径数据库中提取所述第二访问路径，所述路径数据库用于存储用户访问网站时产生的访问路径信息。

进一步的，如图5所示，所述提取单元33包括：

获取模块331，用于在所述路径信息对照表中获取所述第一访问路径对应的访问序列所关联的路径信息；

判断模块332，用于判断所述获取模块331获取的路径信息中是否存在以所述第一访问路径为前缀的路径信息；

确定模块333，用于当所述判断模块332判断所述路径信息中存在以所述第一访问路径为前缀的路径信息时，将以所述第一访问路径为前缀的路径信息确定为第二访问路径；

第一提取模块334，用于提取所述确定模块333确定的第二访问路径；

第二提取模块335，用于当所述判断模块332判断所述路径信息中不存在以所述第一访问路径为前缀的路径信息时，在路径数据库中提取所述第二访问路径。

进一步的，如图5所示，所述装置还包括：

所述确定单元31，还用于将所述第一访问路径确定为新增访问序列；

第一添加单元34，用于将所述确定单元31确定的新增访问序列添加入所述路径信息对照表中的序列目录中；

第二添加单元35，用于将所述第二访问路径添加入所述路径信息对照表；

建立单元36，用于建立所述第一添加单元34添加的的新增访问序列与所述第二添加单元35添加的第二访问路径的关联关系。

进一步的，如图5所示，所述确定单元31包括：

接收模块311，用于接收第一访问路径；

处理模块312，用于将所述接收模块311接收的第一访问路径去尾处理得到其对应的访问序列。

进一步的，如图5所示，所述处理模块312包括：

第一删除子模块3121，用于依次删除所述第一访问路径中剩余元素中的最末位元素，直至仅剩余一个元素时为止；

确定子模块3122，用于将每次所述第一删除子模块3121删除所述第一访问路径中的最末位元素后得到的剩余元素确定为所述第一访问路径对应的一个访问序列。

进一步的，如图5所示，所述处理模块312包括：

第二删除子模块3123，删除所述第一访问路径的末位元素得到其对应的第一个访问序列；

所述第二删除子模块3123，用于当所述路径对照表的序列目录中不存在所述第一访问路径对应的第一个访问序列时，再次删除所述第一个访问序列的末位元素，得到所述第一访问路径对应的第二个访问序列；

所述第二删除子模块3123，还用于重复上述步骤，直至所述路径对照表中存在第一访问路径对应的访问序列或所述第一访问路径对应的访问序列无法执行去尾处理。

综上所述，本发明实施例所采用的一种查询访问路径的方法及装置，本发明通过查询存储区域中的路径信息对照表，获取访问路径对应的访问序列关联的路径信息，可以过滤掉大量无关查询数据，同时减少查询访问路径的工作量，并且在获取的关联路径信息中提取以访问路径为前缀的更多访问路径，存储在路径信息对照表中，用于更新路径信息对照表，以便可以基于上一次查询结果，减少下一次查询的工作来量，据此，当路径信息对照表中不存在查询的访问路径对应的访问序列时，则查询路径数据库，并将查询结果存储在路径信息对照表中，以便下一次的查询，并且在基于获取的路径信息进行相关运算，减少了服务器的运算量，基于上述优化的查询访问数据的方式，减少查询工作量，并且减少了服务器的相关运算量，提高了查询访问路径的工作效率。

所述查询访问路径的装置包括处理器和存储器，上述确定单元、判断单元和提取单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来提高了查询访问路径的工作效率。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述的查询访问路径的方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述的查询访问路径的方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

一种查询访问路径的方法，所述方法包括：确定接收的第一访问路径对应的访问序列，所述访问序列是按照页面访问顺序而排列的页面序列，所述第一访问路径是以其对应的访问序列为前缀的路径信息；判断预先存储的路径信息对照表中是否存在所述第一访问路径对应的访问序列，其中，所述路径信息对照表中包含用于存储访问序列的序列目录以及每个所述访问序列关联的路径信息；若存在，则根据所述第一访问路径对应的访问序列所关联的路径信息提取第二访问路径，所述第二访问路径是以所述第一访问路径为前缀的路径信息。

进一步的，所述方法还包括：若所述路径信息对照表中不存在所述第一访问路径对应的访问序列，则在路径数据库中提取所述第二访问路径，所述路径数据库用于存储用户访问网站时产生的访问路径信息。

进一步的，所述根据所述第一访问路径对应的访问序列所关联的路径信息提取第二访问路径包括：在所述路径信息对照表中获取所述第一访问路径对应的访问序列所关联的路径信息；判断所述路径信息中是否存在以所述第一访问路径为前缀的路径信息；若存在，则将以所述第一访问路径为前缀的路径信息确定为第二访问路径，并提取所述第二访问路径；若不存在，则在路径数据库中提取第二访问路径。

进一步的，当提取到所述第二访问路径之后，所述方法还包括：将所述第一访问路径确定为新增访问序列；将所述新增访问序列添加入所述路径信息对照表中的序列目录中；将所述第二访问路径添加入所述路径信息对照表；建立所述新增访问序列与所述第二访问路径的关联关系。

进一步的，所述确定接收的第一访问路径对应的访问序列包括：接收第一访问路径；将所述第一访问路径去尾处理得到其对应的访问序列。

进一步的，所述将所述第一访问路径去尾处理得到其对应的访问序列包括：依次删除所述第一访问路径中剩余元素中的最末位元素，直至仅剩余一个元素时为止；将每次删除所述第一访问路径中的最末位元素后得到的剩余元素确定为所述第一访问路径对应的一个访问序列。

进一步的，所述将所述第一访问路径去尾处理得到其对应的访问序列包括：删除所述第一访问路径的末位元素得到其对应的第一个访问序列；若所述路径对照表的序列目录中不存在所述第一访问路径对应的第一个访问序列时，再次删除所述第一个访问序列的末位元素，得到所述第一访问路径对应的第二个访问序列；重复上述步骤，直至所述路径对照表中存在第一访问路径对应的访问序列或所述第一访问路径对应的访问序列无法执行去尾处理。

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：确定接收的第一访问路径对应的访问序列，所述访问序列是按照页面访问顺序而排列的页面序列，所述第一访问路径是以其对应的访问序列为前缀的路径信息；判断预先存储的路径信息对照表中是否存在所述第一访问路径对应的访问序列，其中，所述路径信息对照表中包含用于存储访问序列的序列目录以及每个所述访问序列关联的路径信息；若存在，则根据所述第一访问路径对应的访问序列所关联的路径信息提取第二访问路径，所述第二访问路径是以所述第一访问路径为前缀的路径信息。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种查询访问路径的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一访问路径对应的访问序列所关联的路径信息提取第二访问路径包括：

若不存在，则在路径数据库中提取第二访问路径。

4.根据权利要求1-3中任一项所述的方法，其特征在于，当提取到所述第二访问路径之后，所述方法还包括：

将所述第一访问路径确定为新增访问序列；

将所述第二访问路径添加入所述路径信息对照表；

建立所述新增访问序列与所述第二访问路径的关联关系。

5.根据权利要求1所述的方法，其特征在于，所述确定接收的第一访问路径对应的访问序列包括：

接收第一访问路径；

将所述第一访问路径去尾处理得到其对应的访问序列。

6.根据权利要求5所述的方法，其特征在于，所述将所述第一访问路径去尾处理得到其对应的访问序列包括：

7.根据权利要求5所述的方法，其特征在于，所述将所述第一访问路径去尾处理得到其对应的访问序列包括：

若所述路径信息对照表的序列目录中不存在所述第一访问路径对应的第一个访问序列时，再次删除所述第一个访问序列的末位元素，得到所述第一访问路径对应的第二个访问序列；

重复上述步骤，直至所述路径信息对照表中存在第一访问路径对应的访问序列或所述第一访问路径对应的访问序列无法执行去尾处理。

8.一种查询访问路径的装置，其特征在于，所述装置包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如权利要求1-7中任一项所述的查询访问路径的方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行如权利要求1-7中任一项所述的查询访问路径的方法。