CN106897297A - 网站栏目间访问路径的确定方法及装置 - Google Patents

网站栏目间访问路径的确定方法及装置 Download PDF

Info

Publication number
CN106897297A
CN106897297A CN201510958360.7A CN201510958360A CN106897297A CN 106897297 A CN106897297 A CN 106897297A CN 201510958360 A CN201510958360 A CN 201510958360A CN 106897297 A CN106897297 A CN 106897297A
Authority
CN
China
Prior art keywords
access
column
original
target
access path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510958360.7A
Other languages
English (en)
Other versions
CN106897297B (zh
Inventor
李新国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510958360.7A priority Critical patent/CN106897297B/zh
Publication of CN106897297A publication Critical patent/CN106897297A/zh
Application granted granted Critical
Publication of CN106897297B publication Critical patent/CN106897297B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种网站栏目间访问路径的确定方法及装置。该方法包括:获取访问日志;按照预设匹配规则与访问日志中每个被访问页面的URL进行匹配,得到每个被访问页面对应的网站栏目;根据访问日志中对每个被访问页面的访问顺序确定对每个被访问页面对应的网站栏目的访问顺序,得到原始栏目间原始访问路径;对原始栏目间原始访问路径进行过滤处理,得到目标栏目间原始访问路径;以及去除目标栏目间原始访问路径中的环路,并根据访问日志在去除环路后的目标栏目间原始访问路径中确定目标栏目间目标访问路径。通过本申请,解决了相关技术中无法获知用户在网站上重要栏目间的真实访问路径的问题。

Description

网站栏目间访问路径的确定方法及装置
技术领域
本申请涉及互联网领域,具体而言,涉及一种网站栏目间访问路径的确定方法及装置。
背景技术
目前,在对网站数据进行分析时,通常需要获知用户在网站的指定的几个重要栏目间最常使用的访问路径。例如,网站中有A、B、C、D四个重要栏目,预期用户会按照A->B->C->D栏目间的顺序进行访问(忽略中间访问了其它栏目),而且A->B->C->D这个路径也跟网站的具体业务处理路径相符合。然而,用户在重要栏目间真实的访问路径不一定与网站预期的访问路径相同,而相关技术中无法获知用户在网站上重要栏目间的真实访问路径。
针对相关技术中无法获知用户在网站上重要栏目间的真实访问路径的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种网站栏目间访问路径的确定方法及装置,以解决相关技术中无法获知用户在网站上重要栏目间的真实访问路径的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种网站栏目间访问路径的确定方法。该方法包括:获取访问日志,其中,访问日志为根据目标网站的访问信息生成的日志,访问日志中包括多个被访问页面的统一资源定位符URL;按照预设匹配规则与访问日志中每个被访问页面的URL进行匹配,得到每个被访问页面对应的网站栏目;根据访问日志中对每个被访问页面的访问顺序确定对每个被访问页面对应的网站栏目的访问顺序,得到原始栏目间原始访问路径;对原始栏目间原始访问路径进行过滤处理,得到目标栏目间原始访问路径;以及去除目标栏目间原始访问路径中的环路,并根据访问日志在去除环路后的目标栏目间原始访问路径中确定目标栏目间目标访问路径。
进一步地,去除目标栏目间原始访问路径中的环路,并根据访问日志在去除环路后的目标栏目间原始访问路径中确定目标栏目间目标访问路径包括:按照访问顺序遍历目标栏目间原始访问路径,对目标栏目间原始访问路径中的环路进行切分,得到目标栏目间原始访问子路径集合;在目标栏目间原始访问子路径集合中,删除包含在其他子路径中的子路径,得到删除后的目标栏目间原始访问子路径集合;根据访问日志分别统计删除后的目标栏目间原始访问子路径集合中每条目标栏目间原始访问子路径包含的会话数量;根据会话数量对删除后的目标栏目间原始访问子路径集合中每条目标栏目间原始访问子路径进行排序处理;以及从排序后的目标栏目间原始访问子路径中确定目标栏目间目标访问路径。
进一步地,对原始栏目间原始访问路径进行过滤处理,得到目标栏目间原始访问路径包括:确定预先设置的目标栏目;根据预先设置的目标栏目对原始栏目间原始访问路径中的非目标栏目进行过滤处理;以及将过滤处理后的原始栏目间原始访问路径作为目标栏目间原始访问路径。
进一步地,根据访问日志中对每个被访问页面的访问顺序确定对每个被访问页面对应的网站栏目的访问顺序,得到原始栏目间原始访问路径包括:从访问日志中确定访问过目标被访问页面的所有会话,得到至少一个目标会话,其中,目标被访问页面为与预先设置的目标栏目匹配的页面;分别确定每个目标会话中对每个被访问页面的访问顺序,得到原始页面间原始访问路径;以及根据原始页面间原始访问路径确定对每个被访问页面对应的网站栏目的访问顺序,得到原始栏目间原始访问路径。
进一步地,在获取访问日志之前,该方法还包括:根据预设脚本代码采集目标网站的访问信息;发送目标网站的访问信息至目标地址;以及在目标地址上根据目标网站的访问信息生成访问日志。
进一步地,预设匹配规则包括多个匹配规则,按照预设匹配规则与访问日志中每个被访问页面的URL进行匹配,得到每个被访问页面对应的网站栏目包括:确定目标网站上每个栏目的匹配规则,得到多个匹配规则;以及访问日志中每个被访问页面的URL与多个匹配规则中每个匹配规则逐一进行匹配,确定每个被访问页面对应的网站栏目。
为了实现上述目的,根据本申请的另一方面,提供了一种网站栏目间访问路径的确定装置。该装置包括:第一获取单元,用于获取访问日志,其中,访问日志为根据目标网站的访问信息生成的日志,访问日志中包括多个被访问页面的统一资源定位符URL;第二获取单元,用于按照预设匹配规则与访问日志中每个被访问页面的URL进行匹配,得到每个被访问页面对应的网站栏目;第一确定单元,用于根据访问日志中对每个被访问页面的访问顺序确定对每个被访问页面对应的网站栏目的访问顺序,得到原始栏目间原始访问路径;处理单元,用于对原始栏目间原始访问路径进行过滤处理,得到目标栏目间原始访问路径;以及第二确定单元,用于去除目标栏目间原始访问路径中的环路,并根据访问日志在去除环路后的目标栏目间原始访问路径中确定目标栏目间目标访问路径。
进一步地,第二确定单元包括:切分模块,用于按照访问顺序遍历目标栏目间原始访问路径,对目标栏目间原始访问路径中的环路进行切分,得到目标栏目间原始访问子路径集合;删除模块,用于在目标栏目间原始访问子路径集合中,删除包含在其他子路径中的子路径,得到删除后的目标栏目间原始访问子路径集合;统计模块,用于根据访问日志分别统计删除后的目标栏目间原始访问子路径集合中每条目标栏目间原始访问子路径包含的会话数量;第一处理模块,用于根据会话数量对删除后的目标栏目间原始访问子路径集合中每条目标栏目间原始访问子路径进行排序处理;以及第一确定模块,用于从排序后的目标栏目间原始访问子路径中确定目标栏目间目标访问路径。
进一步地,处理单元包括:第二确定模块,用于确定预先设置的目标栏目;第二处理模块,用于根据预先设置的目标栏目对原始栏目间原始访问路径中的非目标栏目进行过滤处理;以及第三确定模块,用于将过滤处理后的原始栏目间原始访问路径作为目标栏目间原始访问路径。
进一步地,第一确定单元包括:第四确定模块,用于从访问日志中确定访问过目标被访问页面的所有会话,得到至少一个目标会话,其中,目标被访问页面为与预先设置的目标栏目匹配的页面;第五确定模块,用于分别确定每个目标会话中对每个被访问页面的访问顺序,得到原始页面间原始访问路径;以及第六确定模块,用于根据原始页面间原始访问路径确定对每个被访问页面对应的网站栏目的访问顺序,得到原始栏目间原始访问路径。
通过本申请,采用以下步骤:获取访问日志;按照预设匹配规则与访问日志中每个被访问页面的URL进行匹配,得到每个被访问页面对应的网站栏目;根据访问日志中对每个被访问页面的访问顺序确定对每个被访问页面对应的网站栏目的访问顺序,得到原始栏目间原始访问路径;对原始栏目间原始访问路径进行过滤处理,得到目标栏目间原始访问路径;以及去除目标栏目间原始访问路径中的环路,并根据访问日志在去除环路后的目标栏目间原始访问路径中确定目标栏目间目标访问路径,解决了相关技术中无法获知用户在网站上重要栏目间的真实访问路径的问题。通过将用户访问的页面映射到相应的栏目中按照预设条件去除非重要栏目,得到目标栏目间原始访问路径,然后对目标栏目间原始访问路径进行切分,最后统计出目标栏目间目标访问路径,进而达到了能够获知用户在网站上重要栏目间的真实访问路径的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的网站栏目间访问路径的确定方法的流程图;以及
图2是根据本申请实施例的网站栏目间访问路径的确定装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,以下对本申请实施例涉及的部分术语进行说明:
统一资源定位符(Uniform Resource Locator,简称URL)也被称为网页地址,是因特网上标准的资源的地址。通俗地说,URL是Internet上用来描述信息资源的字符串,主要用在各种WWW客户程序和服务器程序上,特别是著名的Mosaic。采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。URL的格式由下列三部分组成:第一部分是协议(或称为服务方式);第二部分是存有该资源的主机IP地址(有时也包括端口号);第三部分是主机资源的具体地址,例如目录和文件名等。第一部分和第二部分之间用“://”符号隔开,第二部分和第三部分用“/”符号隔开。第一部分和第二部分是不可缺少的,第三部分有时可以省略。
根据本申请的实施例,提供了一种网站栏目间访问路径的确定方法。
图1是根据本申请实施例的网站栏目间访问路径的确定方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,获取访问日志,其中,访问日志为根据目标网站的访问信息生成的日志,访问日志中包括多个被访问页面的统一资源定位符URL。
可选地,在本申请实施例提供的网站栏目间访问路径的确定方法中,在获取访问日志之前,该方法还包括:根据预设脚本代码采集目标网站的访问信息;发送目标网站的访问信息至目标地址;以及在目标地址上根据目标网站的访问信息生成访问日志。
在目标网站上部署Tracker(JS脚本),部署完成之后,用户在该网站的所有访问数据都会被发送到指定服务器,在指定服务器上根据目标网站的访问信息生成访问日志,获取目标时间段内的访问日志,其中,目标时间是用户希望在具体哪段时间内确定网站栏目间访问路径的时间。
步骤S102,按照预设匹配规则与访问日志中每个被访问页面的URL进行匹配,得到每个被访问页面对应的网站栏目。
可选地,在本申请实施例提供的网站栏目间访问路径的确定方法中,预设匹配规则包括多个匹配规则,按照预设匹配规则与访问日志中每个被访问页面的URL进行匹配,得到每个被访问页面对应的网站栏目包括:确定目标网站上每个栏目的匹配规则,得到多个匹配规则;以及访问日志中每个被访问页面的URL与多个匹配规则中每个匹配规则逐一进行匹配,确定每个被访问页面对应的网站栏目。
例如,预先设置各个栏目的匹配规则和名称,将此配置信息保存在配置文件或者数据库中。配置信息中包含的内容有:当前规则ID,规则名称,匹配类型(可能有左匹配,右匹配,包含,正则匹配等),匹配内容(一个字符串,或者正则表达式)。例如,根据需要可以将左匹配为http://www.gov.cn/guowuyuan的URL作为栏目“国务院”,而左匹配为http://www.gov.cn/guowuyuan/gwy_hy的URL则作为栏目“国务院会议”。
根据多个匹配规则中每个匹配规则与访问日志中每个被访问页面的URL逐一进行匹配,确定每个被访问页面对应的网站栏目。
步骤S103,根据访问日志中对每个被访问页面的访问顺序确定对每个被访问页面对应的网站栏目的访问顺序,得到原始栏目间原始访问路径。
可选地,在本申请实施例提供的网站栏目间访问路径的确定方法中,根据访问日志中对每个被访问页面的访问顺序确定对每个被访问页面对应的网站栏目的访问顺序,得到原始栏目间原始访问路径包括:从访问日志中确定访问过目标被访问页面的所有会话,得到至少一个目标会话,其中,目标被访问页面为与预先设置的目标栏目匹配的页面;分别确定每个目标会话中对每个被访问页面的访问顺序,得到原始页面间原始访问路径;以及根据原始页面间原始访问路径确定对每个被访问页面对应的网站栏目的访问顺序,得到原始栏目间原始访问路径。
例如,预先设置的目标栏目为客户想要统计的重要栏目,如c1,c2,c3,c4四个栏目,从访问日志中的所有会话中,筛选访问过与预先设置的目标栏目匹配的页面,并将其作为目标会话。某个目标会话访问的对被访问页面的访问顺序(即原始页面间原始访问路径)为p1-p2-p3-p4-p5-p6-p7-p8-p9-p10-p11,通过匹配规则匹配到栏目访问路径(即原始栏目间原始访问路径)为c5-c1-c3-c7-c6-c4-c1-c9-c3-c2-c8。需要说明的是,栏目是某类页面的集合,如果出现某个页面找不到匹配的栏目,忽略该页面。
步骤S104,对原始栏目间原始访问路径进行过滤处理,得到目标栏目间原始访问路径。
可选地,在本申请实施例提供的网站栏目间访问路径的确定方法中,对原始栏目间原始访问路径进行过滤处理,得到目标栏目间原始访问路径包括:确定预先设置的目标栏目;根据预先设置的目标栏目对原始栏目间原始访问路径中的非目标栏目进行过滤处理;以及将过滤处理后的原始栏目间原始访问路径作为目标栏目间原始访问路径。
例如,预先设置的目标栏目为客户想要统计的重要栏目,如c1,c2,c3,c4四个目标栏目,如果通过匹配规则匹配到栏目访问路径(即原始栏目间原始访问路径)为c5-c1-c3-c7-c6-c4-c1-c9-c3-c2-c8,根据c1,c2,c3,c4四个目标栏目对c5-c1-c3-c7-c6-c4-c1-c9-c3-c2-c8中的非目标栏目进行过滤处理,得到路径为:c1-c3-c4-c1-c3-c2(即目标栏目间原始访问路径)。
步骤S105,去除目标栏目间原始访问路径中的环路,并根据访问日志在去除环路后的目标栏目间原始访问路径中确定目标栏目间目标访问路径。
例如,去除c1-c3-c4-c1-c3-c2中的环路,并根据访问日志在去除环路后的目标栏目间原始访问路径中确定目标栏目间目标访问路径。
可选地,在本申请实施例提供的网站栏目间访问路径的确定方法中,去除目标栏目间原始访问路径中的环路,并根据访问日志在去除环路后的目标栏目间原始访问路径中确定目标栏目间目标访问路径包括:按照访问顺序遍历目标栏目间原始访问路径,对目标栏目间原始访问路径中的环路进行切分,得到目标栏目间原始访问子路径集合;在目标栏目间原始访问子路径集合中,删除包含在其他子路径中的子路径,得到删除后的目标栏目间原始访问子路径集合;根据访问日志分别统计删除后的目标栏目间原始访问子路径集合中每条目标栏目间原始访问子路径包含的会话数量;根据会话数量对删除后的目标栏目间原始访问子路径集合中每条目标栏目间原始访问子路径进行排序处理;以及从排序后的目标栏目间原始访问子路径中确定目标栏目间目标访问路径。
具体地,对上述取出的路径c1-c3-c4-c1-c3-c2进行切分,切分的目的是从c1-c3-c4-c1-c3-c2路径中去除环路,从路径中第一个元素开始依次寻找最长无环路径,例如对c1-c3-c4-c1-c3-c2,先从第一个开始,找到c1-c3-c4,然后从第二个元素开始找得到c3-c4-c1,然后从第三个元素开始找得到c4-c1-c3-c2,一直找到路径的末尾。最后对得到的路径进行去重合并。即假设最终得到的路径中既有c4-c1-c3-c2又有c3-c2,因为前者包含后者,则将后者舍去。解析目标时间段内访问日志中的所有访问信息,得到此段时间的所有访问路径,并统计各个路径包含的会话数,根据会话数对各个路径进行排名,根据排名结果得到目标栏目间目标访问路径。
综上所述,以上步骤通过在目标网站添加Tracker(即预设脚本代码),收集用户在目标网站的访问信息,统计每个用户在网站中的访问行为,根据预先设置的栏目(即重要栏目)匹配规则,将用户访问的页面映射到相应的栏目中,去除会话中的非重要栏目,然后对会话中包含的环进行切分,最后统计出会话中包含的栏目间的访问路径,解决了无法获知用户在网站上重要栏目间的真实访问路径的问题,通过本申请的方案实现了能够获知用户在网站上重要栏目间的真实访问路径。
本申请实施例提供的网站栏目间访问路径的确定方法,通过获取访问日志,其中,访问日志为根据目标网站的访问信息生成的日志,访问日志中包括多个被访问页面的统一资源定位符URL;按照预设匹配规则与访问日志中每个被访问页面的URL进行匹配,得到每个被访问页面对应的网站栏目;根据访问日志中对每个被访问页面的访问顺序确定对每个被访问页面对应的网站栏目的访问顺序,得到原始栏目间原始访问路径;按照预设条件对原始栏目间原始访问路径进行处理,得到目标栏目间原始访问路径;以及根据目标栏目间原始访问路径确定目标栏目间目标访问路径,解决了相关技术中无法获知用户在网站上重要栏目间的真实访问路径的问题。通过将用户访问的页面映射到相应的栏目中按照预设条件,去除非重要栏目,得到目标栏目间原始访问路径,然后对目标栏目间原始访问路径进行切分,最后统计出目标栏目间目标访问路径,进而达到了能够获知用户在网站上重要栏目间的真实访问路径的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种网站栏目间访问路径的确定装置,需要说明的是,本申请实施例的网站栏目间访问路径的确定装置可以用于执行本申请实施例所提供的用于网站栏目间访问路径的确定方法。以下对本申请实施例提供的网站栏目间访问路径的确定装置进行介绍。
图2是根据本申请实施例的网站栏目间访问路径的确定装置的示意图。如图2所示,该装置包括:第一获取单元10、第二获取单元20、第一确定单元30、处理单元40和第二确定单元50。
第一获取单元10,用于获取访问日志,其中,访问日志为根据目标网站的访问信息生成的日志,访问日志中包括多个被访问页面的统一资源定位符URL。
第二获取单元20,用于按照预设匹配规则与访问日志中每个被访问页面的URL进行匹配,得到每个被访问页面对应的网站栏目。
第一确定单元30,用于根据访问日志中对每个被访问页面的访问顺序确定对每个被访问页面对应的网站栏目的访问顺序,得到原始栏目间原始访问路径。
处理单元40,用于对原始栏目间原始访问路径进行过滤处理,得到目标栏目间原始访问路径。
第二确定单元50,用于去除目标栏目间原始访问路径中的环路,并根据访问日志在去除环路后的目标栏目间原始访问路径中确定目标栏目间目标访问路径。
本申请实施例提供的网站栏目间访问路径的确定装置,通过第一获取单元10获取访问日志,其中,访问日志为根据目标网站的访问信息生成的日志,访问日志中包括多个被访问页面的统一资源定位符URL;第二获取单元20按照预设匹配规则与访问日志中每个被访问页面的URL进行匹配,得到每个被访问页面对应的网站栏目;第一确定单元30根据访问日志中对每个被访问页面的访问顺序确定对每个被访问页面对应的网站栏目的访问顺序,得到原始栏目间原始访问路径;处理单元40对原始栏目间原始访问路径进行过滤处理,得到目标栏目间原始访问路径;以及第二确定单元50去除目标栏目间原始访问路径中的环路,并根据访问日志在去除环路后的目标栏目间原始访问路径中确定目标栏目间目标访问路径,解决了相关技术中无法获知用户在网站上重要栏目间的真实访问路径的问题,通过将用户访问的页面映射到相应的栏目中按照预设条件,去除非重要栏目,得到目标栏目间原始访问路径,然后对目标栏目间原始访问路径进行切分,最后统计出目标栏目间目标访问路径,进而达到了能够获知用户在网站上重要栏目间的真实访问路径的效果。
可选地,在本申请实施例提供的网站栏目间访问路径的确定装置中,第二确定单元50包括:切分模块,用于按照访问顺序遍历目标栏目间原始访问路径,对目标栏目间原始访问路径中的环路进行切分,得到目标栏目间原始访问子路径集合;删除模块,用于在目标栏目间原始访问子路径集合中,删除包含在其他子路径中的子路径,得到删除后的目标栏目间原始访问子路径集合;统计模块,用于根据访问日志分别统计删除后的目标栏目间原始访问子路径集合中每条目标栏目间原始访问子路径包含的会话数量;第一处理模块,用于根据会话数量对删除后的目标栏目间原始访问子路径集合中每条目标栏目间原始访问子路径进行排序处理;以及第一确定模块,用于从排序后的目标栏目间原始访问子路径中确定目标栏目间目标访问路径。
可选地,在本申请实施例提供的网站栏目间访问路径的确定装置中,处理单元40包括:第二确定模块,用于确定预先设置的目标栏目;第二处理模块,用于根据预先设置的目标栏目对原始栏目间原始访问路径中的非目标栏目进行过滤处理;以及第三确定模块,用于将过滤处理后的原始栏目间原始访问路径作为目标栏目间原始访问路径。
可选地,在本申请实施例提供的网站栏目间访问路径的确定装置中,第一确定单元30包括:第四确定模块,用于从访问日志中确定访问过目标被访问页面的所有会话,得到至少一个目标会话,其中,目标被访问页面为与预先设置的目标栏目匹配的页面;第五确定模块,用于分别确定每个目标会话中对每个被访问页面的访问顺序,得到原始页面间原始访问路径;以及第六确定模块,用于根据原始页面间原始访问路径确定对每个被访问页面对应的网站栏目的访问顺序,得到原始栏目间原始访问路径。
所述网站栏目间访问路径的确定装置包括处理器和存储器,上述第一获取单元、第二获取单元、第一确定单元、处理单元和第二确定单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元实现相应功能。上述预设匹配规则、预设条件、预设切分规则和预设脚本代码等都可以存储在存储器中。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数确定网站栏目间的访问路径。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取访问日志,其中,访问日志为根据目标网站的访问信息生成的日志,访问日志中包括多个被访问页面的统一资源定位符URL;按照预设匹配规则与访问日志中每个被访问页面的URL进行匹配,得到每个被访问页面对应的网站栏目;根据访问日志中对每个被访问页面的访问顺序确定对每个被访问页面对应的网站栏目的访问顺序,得到原始栏目间原始访问路径;按照预设条件对原始栏目间原始访问路径进行处理,得到目标栏目间原始访问路径;以及根据目标栏目间原始访问路径确定目标栏目间目标访问路径。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种网站栏目间访问路径的确定方法,其特征在于,包括:
获取访问日志,其中,所述访问日志为根据目标网站的访问信息生成的日志,所述访问日志中包括多个被访问页面的统一资源定位符URL;
按照预设匹配规则与所述访问日志中每个被访问页面的URL进行匹配,得到每个被访问页面对应的网站栏目;
根据所述访问日志中对每个被访问页面的访问顺序确定对所述每个被访问页面对应的网站栏目的访问顺序,得到原始栏目间原始访问路径;
对所述原始栏目间原始访问路径进行过滤处理,得到目标栏目间原始访问路径;以及
去除所述目标栏目间原始访问路径中的环路,并根据所述访问日志在去除环路后的目标栏目间原始访问路径中确定目标栏目间目标访问路径。
2.根据权利要求1所述的方法,其特征在于,去除所述目标栏目间原始访问路径中的环路,并根据所述访问日志在去除环路后的目标栏目间原始访问路径中确定目标栏目间目标访问路径包括:
按照访问顺序遍历所述目标栏目间原始访问路径,对所述目标栏目间原始访问路径中的环路进行切分,得到目标栏目间原始访问子路径集合;
在所述目标栏目间原始访问子路径集合中,删除包含在其他子路径中的子路径,得到删除后的目标栏目间原始访问子路径集合;
根据所述访问日志分别统计所述删除后的目标栏目间原始访问子路径集合中每条目标栏目间原始访问子路径包含的会话数量;
根据所述会话数量对所述删除后的目标栏目间原始访问子路径集合中每条目标栏目间原始访问子路径进行排序处理;以及
从排序后的目标栏目间原始访问子路径中确定目标栏目间目标访问路径。
3.根据权利要求1所述的方法,其特征在于,对所述原始栏目间原始访问路径进行过滤处理,得到目标栏目间原始访问路径包括:
确定预先设置的目标栏目;
根据所述预先设置的目标栏目对所述原始栏目间原始访问路径中的非目标栏目进行过滤处理;以及
将过滤处理后的所述原始栏目间原始访问路径作为所述目标栏目间原始访问路径。
4.根据权利要求1所述的方法,其特征在于,根据所述访问日志中对每个被访问页面的访问顺序确定对所述每个被访问页面对应的网站栏目的访问顺序,得到原始栏目间原始访问路径包括:
从所述访问日志中确定访问过目标被访问页面的所有会话,得到至少一个目标会话,其中,所述目标被访问页面为与预先设置的目标栏目匹配的页面;
分别确定每个目标会话中对所述每个被访问页面的访问顺序,得到原始页面间原始访问路径;以及
根据所述原始页面间原始访问路径确定对所述每个被访问页面对应的网站栏目的访问顺序,得到原始栏目间原始访问路径。
5.根据权利要求1所述的方法,其特征在于,在获取访问日志之前,所述方法还包括:
根据预设脚本代码采集所述目标网站的访问信息;
发送所述目标网站的访问信息至目标地址;以及
在所述目标地址上根据所述目标网站的访问信息生成所述访问日志。
6.根据权利要求1所述的方法,其特征在于,所述预设匹配规则包括多个匹配规则,按照预设匹配规则与所述访问日志中每个被访问页面的URL进行匹配,得到每个被访问页面对应的网站栏目包括:
确定所述目标网站上每个栏目的匹配规则,得到多个匹配规则;以及
所述访问日志中每个被访问页面的URL与所述多个匹配规则中每个匹配规则逐一进行匹配,确定每个被访问页面对应的网站栏目。
7.一种网站栏目间访问路径的确定装置,其特征在于,包括:
第一获取单元,用于获取访问日志,其中,所述访问日志为根据目标网站的访问信息生成的日志,所述访问日志中包括多个被访问页面的统一资源定位符URL;
第二获取单元,用于按照预设匹配规则与所述访问日志中每个被访问页面的URL进行匹配,得到每个被访问页面对应的网站栏目;
第一确定单元,用于根据所述访问日志中对每个被访问页面的访问顺序确定对所述每个被访问页面对应的网站栏目的访问顺序,得到原始栏目间原始访问路径;
处理单元,用于对所述原始栏目间原始访问路径进行过滤处理,得到目标栏目间原始访问路径;以及
第二确定单元,用于去除所述目标栏目间原始访问路径中的环路,并根据所述访问日志在去除环路后的目标栏目间原始访问路径中确定目标栏目间目标访问路径。
8.根据权利要求7所述的装置,其特征在于,所述第二确定单元包括:
切分模块,用于按照访问顺序遍历所述目标栏目间原始访问路径,对所述目标栏目间原始访问路径中的环路进行切分,得到目标栏目间原始访问子路径集合;
删除模块,用于在所述目标栏目间原始访问子路径集合中,删除包含在其他子路径中的子路径,得到删除后的目标栏目间原始访问子路径集合;
统计模块,用于根据所述访问日志分别统计所述删除后的目标栏目间原始访问子路径集合中每条目标栏目间原始访问子路径包含的会话数量;
第一处理模块,用于根据所述会话数量对所述删除后的目标栏目间原始访问子路径集合中每条目标栏目间原始访问子路径进行排序处理;以及
第一确定模块,用于从排序后的目标栏目间原始访问子路径中确定目标栏目间目标访问路径。
9.根据权利要求7所述的装置,其特征在于,所述处理单元包括:
第二确定模块,用于确定预先设置的目标栏目;
第二处理模块,用于根据所述预先设置的目标栏目对所述原始栏目间原始访问路径中的非目标栏目进行过滤处理;以及
第三确定模块,用于将过滤处理后的所述原始栏目间原始访问路径作为所述目标栏目间原始访问路径。
10.根据权利要求7所述的装置,其特征在于,所述第一确定单元包括:
第四确定模块,用于从所述访问日志中确定访问过目标被访问页面的所有会话,得到至少一个目标会话,其中,所述目标被访问页面为与预先设置的目标栏目匹配的页面;
第五确定模块,用于分别确定每个目标会话中对所述每个被访问页面的访问顺序,得到原始页面间原始访问路径;以及
第六确定模块,用于根据所述原始页面间原始访问路径确定对所述每个被访问页面对应的网站栏目的访问顺序,得到原始栏目间原始访问路径。
CN201510958360.7A 2015-12-17 2015-12-17 网站栏目间访问路径的确定方法及装置 Active CN106897297B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510958360.7A CN106897297B (zh) 2015-12-17 2015-12-17 网站栏目间访问路径的确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510958360.7A CN106897297B (zh) 2015-12-17 2015-12-17 网站栏目间访问路径的确定方法及装置

Publications (2)

Publication Number Publication Date
CN106897297A true CN106897297A (zh) 2017-06-27
CN106897297B CN106897297B (zh) 2019-12-24

Family

ID=59189153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510958360.7A Active CN106897297B (zh) 2015-12-17 2015-12-17 网站栏目间访问路径的确定方法及装置

Country Status (1)

Country Link
CN (1) CN106897297B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284450A (zh) * 2018-08-22 2019-01-29 中国平安人寿保险股份有限公司 订单成单路径的确定方法及装置、存储介质、电子设备
CN110020036A (zh) * 2017-07-18 2019-07-16 北京国双科技有限公司 一种网站列表路径生成方法及装置
CN111488541A (zh) * 2019-01-29 2020-08-04 深圳市茁壮网络股份有限公司 一种专区生成、实体请求方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001117818A (ja) * 1999-10-20 2001-04-27 Nec Corp メモリ管理装置及び管理方法並びに管理プログラムを記録した記録媒体
US7685191B1 (en) * 2005-06-16 2010-03-23 Enquisite, Inc. Selection of advertisements to present on a web page or other destination based on search activities of users who selected the destination
CN102122291A (zh) * 2011-01-18 2011-07-13 浙江大学 一种基于树形日志模式分析的博客好友推荐方法
CN102957712A (zh) * 2011-08-17 2013-03-06 阿里巴巴集团控股有限公司 网站资源加载方法和系统
CN103312785A (zh) * 2013-05-16 2013-09-18 新浪网技术(中国)有限公司 一种访问关系的确定方法及装置
CN103631828A (zh) * 2012-08-28 2014-03-12 阿里巴巴集团控股有限公司 确定访问路径的方法和装置、确定页面流失率的方法和系统
CN103684823A (zh) * 2012-09-12 2014-03-26 阿里巴巴集团控股有限公司 网络日志记录方法、网络访问路径确定方法及相关装置
CN103823883A (zh) * 2014-03-06 2014-05-28 焦点科技股份有限公司 一种网站用户访问路径的分析方法及系统
CN104731807A (zh) * 2013-12-20 2015-06-24 北京风行在线技术有限公司 一种统计和分析页面跳转数据的方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001117818A (ja) * 1999-10-20 2001-04-27 Nec Corp メモリ管理装置及び管理方法並びに管理プログラムを記録した記録媒体
US7685191B1 (en) * 2005-06-16 2010-03-23 Enquisite, Inc. Selection of advertisements to present on a web page or other destination based on search activities of users who selected the destination
CN102122291A (zh) * 2011-01-18 2011-07-13 浙江大学 一种基于树形日志模式分析的博客好友推荐方法
CN102957712A (zh) * 2011-08-17 2013-03-06 阿里巴巴集团控股有限公司 网站资源加载方法和系统
CN103631828A (zh) * 2012-08-28 2014-03-12 阿里巴巴集团控股有限公司 确定访问路径的方法和装置、确定页面流失率的方法和系统
CN103684823A (zh) * 2012-09-12 2014-03-26 阿里巴巴集团控股有限公司 网络日志记录方法、网络访问路径确定方法及相关装置
CN103312785A (zh) * 2013-05-16 2013-09-18 新浪网技术(中国)有限公司 一种访问关系的确定方法及装置
CN104731807A (zh) * 2013-12-20 2015-06-24 北京风行在线技术有限公司 一种统计和分析页面跳转数据的方法及装置
CN103823883A (zh) * 2014-03-06 2014-05-28 焦点科技股份有限公司 一种网站用户访问路径的分析方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020036A (zh) * 2017-07-18 2019-07-16 北京国双科技有限公司 一种网站列表路径生成方法及装置
CN110020036B (zh) * 2017-07-18 2021-06-08 北京国双科技有限公司 一种网站列表路径生成方法及装置
CN109284450A (zh) * 2018-08-22 2019-01-29 中国平安人寿保险股份有限公司 订单成单路径的确定方法及装置、存储介质、电子设备
CN109284450B (zh) * 2018-08-22 2023-06-20 中国平安人寿保险股份有限公司 订单成单路径的确定方法及装置、存储介质、电子设备
CN111488541A (zh) * 2019-01-29 2020-08-04 深圳市茁壮网络股份有限公司 一种专区生成、实体请求方法及装置
CN111488541B (zh) * 2019-01-29 2024-03-15 深圳市茁壮网络股份有限公司 一种专区生成、实体请求方法及装置

Also Published As

Publication number Publication date
CN106897297B (zh) 2019-12-24

Similar Documents

Publication Publication Date Title
CN106897196B (zh) 网站页面间访问路径的确定方法及装置
CN110519298B (zh) 一种基于机器学习的Tor流量识别方法及装置
EP1724992B1 (en) Method for processing data related to activity on a network
Losarwar et al. Data preprocessing in web usage mining
CN107885777A (zh) 一种基于协作式爬虫的抓取网页数据的控制方法及系统
US20120271941A1 (en) Method and system for efficient and exhaustive url categorization
Chitraa et al. A novel technique for sessions identification in web usage mining preprocessing
US20090024748A1 (en) Website monitoring and cookie setting
CN107341160A (zh) 一种拦截爬虫的方法及装置
WO2013044564A1 (zh) 一种用户网络行为分析方法、装置和系统
US11790016B2 (en) Method, device and computer program for collecting data from multi-domain
CN106708841B (zh) 网站访问路径的聚合方法和装置
CN109359263B (zh) 一种用户行为特征提取方法及系统
CN108875091A (zh) 一种统一管理的分布式网络爬虫系统
CN106897297A (zh) 网站栏目间访问路径的确定方法及装置
CN108173781A (zh) Https流量识别方法、装置、终端设备及存储介质
CN108322495A (zh) 资源访问请求的处理方法、装置和系统
CN105354249A (zh) 多账号关联方法、装置及电子设备
CN110020237A (zh) 网页跳转方法及装置
CN106815248A (zh) 网站分析方法及装置
CN108108381B (zh) 页面的监测方法及装置
CN106815247B (zh) 统一资源定位符获取方法及装置
CN109670097B (zh) 招投标相关网页爬取任务调度方法及系统
CN110275998B (zh) 网页属性数据的确定方法及装置
CN111756679A (zh) 一种日志分析方法、装置、存储介质和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant