CN106547761A - 数据处理方法及装置 - Google Patents

数据处理方法及装置 Download PDF

Info

Publication number
CN106547761A
CN106547761A CN201510599017.8A CN201510599017A CN106547761A CN 106547761 A CN106547761 A CN 106547761A CN 201510599017 A CN201510599017 A CN 201510599017A CN 106547761 A CN106547761 A CN 106547761A
Authority
CN
China
Prior art keywords
path
node
website visitation
analyzed
segments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510599017.8A
Other languages
English (en)
Other versions
CN106547761B (zh
Inventor
詹晓强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510599017.8A priority Critical patent/CN106547761B/zh
Publication of CN106547761A publication Critical patent/CN106547761A/zh
Application granted granted Critical
Publication of CN106547761B publication Critical patent/CN106547761B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Abstract

本发明公开了一种数据处理方法及装置,涉及互联网技术领域,主要目的是提高数据处理效率。本发明的主要技术方案为:首先根据待分析的网站访问路径获取起始路径节点集合和路径片段集合,然后根据所述起始路径节点集合和所述路径片段集合生成热点网站访问路径集合,最后根据所述热点网站访问路径集合对网站访问数据进行分析。本发明主要用于分析网站访问数据。

Description

数据处理方法及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种数据处理方法及装置。
背景技术
随着互联网技术的迅猛发展,为分析用户在互联网上的访问行为,通常需要对用户的网站访问路径进行分析,其中,用户的网站访问路径是一个非常有价值的数据,用户的行为可以归结为用户的网站访问路径,通过分析用户的网站访问路径,从中能够发现用户的访问行为,并将这些访问行为作为网站布局或是网站营销的指导。
目前,在对网站访问路径进行分析时,分析的过程主要针对的是每个用户的网站访问路径,然后将各个用户的网站访问路径的分析结果进行聚合,统计得出群体用户路径的一些信息。通过上述方式可以在一定程度上分析用户的群体行为。
但是,由于用户的差异性以及网站复杂性导致的网站访问路径的数目迅速膨胀,增加了群体用户的网站访问路径的分析时间,从而根据现有的网站访问路径处理数据的效率较低。
发明内容
有鉴于此,本发明实施例提供一种数据处理方法及装置,主要目的是提高数据处理效率。
为达到上述目的,本发明主要提供如下技术方案:
一方面,本发明实施例提供了一种数据处理方法,该方法包括:
根据待分析的网站访问路径获取起始路径节点集合和路径片段集合,所述起始路径节点集合中的节点是待分析的网站访问路径中去重后的首节点,所述路径片段是根据去重后的待分析的网站访问路径划分而成的包括至少两个路径节点的访问路径,所述路径片段集合中包含有所述起始路径节点集合中的各个节点;
根据所述起始路径节点集合和所述路径片段集合生成热点网站访问路径集合;
根据所述热点网站访问路径集合对网站访问数据进行分析。
另一方面,本发明实施例还提供一种数据处理装置,该装置包括:
获取单元,用于根据待分析的网站访问路径获取起始路径节点集合和路径片段集合,所述起始路径节点集合中的节点是待分析的网站访问路径中去重后的首节点,所述路径片段是根据去重后的待分析的网站访问路径划分而成的包括至少两个路径节点的访问路径,所述路径片段集合中包含有所述起始路径节点集合中的各个节点;
生成单元,用于根据所述起始路径节点集合和所述路径片段集合生成热点网站访问路径集合;
分析单元,用于根据所述热点网站访问路径集合对网站访问数据进行分析。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明实施例提供了一种数据处理方法及装置,首先根据待分析的网站访问路径获取起始路径节点集合和路径片段集合,然后根据所述起始路径节点集合和所述路径片段集合生成热点网站访问路径集合,最后根据所述热点网站访问路径集合对网站访问数据进行分析。与目前根据各个用户的网站访问路径的分析结果统计得出群体用户的网站访问数据相比,本发明实施例首先根据待分析的网站访问路径获取起始路径节点集合和路径片段集合,然后根据所述起始路径节点集合和所述路径片段集合生成热点网站访问路径集合,由于生成的热点网站访问路径集合中的热点网站访问路数量大大少于待分析的网站访问路径的数量,因此通过热点网站访问路径集合对网站访问数据进行分析,可以提高数据处理效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种数据处理方法流程图;
图2为本发明实施例提供的另一种数据处理方法流程图;
图3为本发明实施例提供的一种数据处理装置的组成框图;
图4为本发明实施例提供的另一种数据处理装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为使本发明技术方案的优点更加清楚,下面结合附图和实施例对本发明作详细说明。
本发明实施例提供了一种数据处理方法,如图1所示,所述方法包括:
101、根据待分析的网站访问路径获取起始路径节点集合和路径片段集合。
其中,所述起始路径节点集合中的节点是待分析的网站访问路径中去重后的首节点,所述路径片段是根据去重后的待分析的网站访问路径划分而成的包括至少两个路径节点的访问路径,所述路径片段集合中包含有所述起始路径节点集合中的各个节点。
需要说明的是,由于路径片段集合中的路径片段是由去重后的待分析网站访问路径划分而成的,因此所述路径片段集合中包含有待分析网站访问路径的首节点。而所述起始路径节点集合中的节点是待分析网站访问路径中的首节点,因此所述路径片段集合中包含有所述起始路径节点集合中的各个节点。
对于本发明实施例,所述待分析的网站访问路径可以是预定时间段内的网站访问路径,所述预定时间段可以按用户需求进行配置,也可以按系统默认配置,本发明实施例不做限定。所述待分析的网站访问路径也可以为用户进行网络访问时所完成的特定行为的事件后的网站访问路径,特定行为的事件具体可以为用户在网站上停留了一定的时间;也可以为用户浏览了网站上的注册页面;还可以为用户在网站上完成注册或提交购物订单;还可以为用户在网站上完成订阅或下载资料。由于不同的用户群体的访问习惯和关注的目标并不相同,为了准确的根据分析访问路径得到的分析结果制定信息推广计划或者网站优化方案,还可以选择关注的用户群体进行分析,本发明实施例不做具体限定。
需要说明的是,所述待分析的网站访问路径的属性可以为访问路径中各个节点对应属性,具体可以为浏览器、操作系统、流量来源类型、广告渠道等。例如,单个属性的访问路径可以为基于广告渠道属性的访问路径,具体可以为sina->sohu->360->sohu->self->iqiyi,上述单个属性的访问路径中的用户访问过程为从新浪网站中的页面到达搜狐网站中的页面,再到达奇虎360网站中的页面,以此类推最终到达爱奇艺网站中的页面;而两个属性的访问路径可以为基于操作系统和浏览器属性的访问路径,具体可以为Android/chrome->Android/QQBrower->Android/BaiduBrowser->Windows/IE->IOS/safari,上述两个属性的访问路径中的用户访问过程为从安卓操作系统的谷歌浏览器中的页面到达安卓操作系统的腾讯浏览器中的页面,再到达安卓操作系统的百度浏览器中的页面,然后到达Windows操作系统的IE(InternetExplorer,微软公司的网页浏览器)浏览器中的页面,最终到达IOS(I OperationSystem,苹果公司的移动操作系统)操作系统的safari浏览器中的页面。
对于本发明实施例,所述起始路径节点集合中的节点是待分析的网站访问路径中去重后的首节点。例如,待分析的网站访问路为基于广告渠道路径,分别为:sina->sohu->360->sohu->iqiyi、sina->sohu->360、sina->sohu、360->sohu->iqiyi、sohu->360->sohu,则根据上述访问路径获取到各个访问路径的起始节点分别为:sina、sina、sina、360、sohu,然后对获取到的起始路径节点进行去重,得到起始路径节点集合为{sina,360,sohu}。所述路径片段是根据去重后的待分析的网站访问路径划分而成的包括至少两个路径节点的访问路径,其中所述去重的待分析的网站访问路径是从待分析的网站访问路径中提取相邻并重复访问的节点,然后将相邻并重复访问的节点进行合并为一个访问节点。例如,待分析的网站访问路为sina->sohu->sohu->sina->baidu-baidu,去重后的待分析的网站访问路径变为sina->sohu->sina->baidu。对于本发明实施例,一个待分析的网站访问路径中可能出现连续的访问节点,对连续的访问节点进行合并,使得多个重复的访问节点归为一个访问节点,以减少路径中重复访问节点的干扰。去除生成的访问路径中的干扰项,简化了待分析的网站访问路径,使得分析结果更加准确,也就在解决了现有技术中访问路径无法准确分析用户的访问行为的同时,使得分析得到的分析结果更加准确。
对于本发明实施例,所述路径片段是在保持去重后的待分析的网站访问路径中路径节点原有前后序关系的前提下,将路径分解为预置片段长度的路径片段,所述预置片段长度具体可以为2、3、4,本发明实施例不做具体限定。例如,当所述预置片段长度为2时,待分析的网站访问路径为sina->sohu->360->sohu->iqiyi,则根据预置片段长度和待分析的网站访问路径,划分的路径片段为{sina->sohu,sohu->360,360->sohu,sohu->iqiyi}。需要说明的是,所述路径片段集合中的路径片段是唯一且不重复的。如果根据去重后的待分析的网站访问路径,划分的路径片段中包含重复的路径片段,则将重复的路径片段进行合并,以此保证路径片段集合中的路径片段的唯一性。
102、根据所述起始路径节点集合和所述路径片段集合生成热点网站访问路径集合。
其中,所述热点网站访问路径集合中包括至少一条热点网站访问路径,所述热点网站访问路径更能体现群体用户访问网站的共性,并且生成的热点网站访问路径的数量将大大少于待分析网站访问路径的数量。在本发明实施例中,根据起始路径节点集合和所述路径片段集合生热点网站访问路径集合,具体的生成热点网站访问路径过程可以为,通过起始路径节点集合中的起始路径节点作为构建热点网站访问路径的起始节点,然后针对每个起始路径节点去路径片段集合中查找以该节点为起始的路径片段,然后连接起来,如果找到多个路径片段即形成多条路径,可以为多叉树的形式组织,依次循环构建热点访问路径直到热点访问路径的路径长度达到预置阈值。
需要说明的是,所述预置阈值可以根据实际需求进行设置,也可以由系统默认配置,本发明实施例不做具体限定。
例如,起始路径节点为sina,从路径片段集合中找到以sina开始的路径片段,只有一个sina->sohu,所以连接起来即为sina->sohu,然后继续在路径片段集合查找以sohu开始的路径片段,通过在路径片段集合中的查找,发现两条路径片段分别为:sohu->360,sohu->iqiyi,所以连接后形成sina->sohu->360和sina->sohu->iqiyi,以此类推,直到生成的热点网站访问路径的路径长度到达预置阈值为止。
103、根据所述热点网站访问路径集合对网站访问数据进行分析。
对于本发明实施例,首先根据待分析的网站访问路径获取起始路径节点集合和路径片段集合,然后根据所述起始路径节点集合和所述路径片段集合生成热点网站访问路径集合,从而可以在保持路径节点的前后序关系的前提下,从海量的待分析的网站访问路径中构建出热点网站访问路径,通过热点网站访问路径发现群体用户的行为共性和访问模式,最后根据所述热点网站访问路径集合对网站访问数据进行分析,从而可以提高处理数据的效率。
本发明实施例提供了一种数据处理方法,首先根据待分析的网站访问路径获取起始路径节点集合和路径片段集合,然后根据所述起始路径节点集合和所述路径片段集合生成热点网站访问路径集合,最后根据所述热点网站访问路径集合对网站访问数据进行分析。与目前根据各个用户的网站访问路径的分析结果统计得出群体用户的网站访问数据相比,本发明实施例首先根据待分析的网站访问路径获取起始路径节点集合和路径片段集合,然后根据所述起始路径节点集合和所述路径片段集合生成热点网站访问路径集合,由于生成的热点网站访问路径集合中的热点网站访问路数量大大少于待分析的网站访问路径的数量,因此通过热点网站访问路径集合对网站访问数据进行分析,可以提高数据处理效率。
本发明实施例提供了另一种数据处理方法,如图2所示,所述方法包括:
201、根据待分析的网站访问路径获取起始路径节点集合和路径片段集合。
其中,所述起始路径节点集合中的节点是待分析的网站访问路径中去重后的首节点,所述路径片段是根据去重后的待分析的网站访问路径划分而成的包括至少两个路径节点的访问路径,所述路径片段集合中包含有所述起始路径节点集合中的各个节点。
需要说明的是,由于路径片段集合中的路径片段是由去重后的待分析网站访问路径划分而成的,因此所述路径片段集合中包含有待分析网站访问路径的首节点。而所述起始路径节点集合中的节点是待分析网站访问路径中的首节点,因此所述路径片段集合中包含有所述起始路径节点集合中的各个节点。
对于本发明实施例,所述待分析的网站访问路径可以是预定时间段内的网站访问路径,所述预定时间段可以按用户需求进行配置,也可以按系统默认配置,本发明实施例不做限定。所述待分析的网站访问路径也可以为用户进行网络访问时所完成的特定行为的事件后的网站访问路径,特定行为的事件具体可以为用户在网站上停留了一定的时间;也可以为用户浏览了网站上的注册页面;还可以为用户在网站上完成注册或提交购物订单;还可以为用户在网站上完成订阅或下载资料。由于不同的用户群体的访问习惯和关注的目标并不相同,为了准确的根据分析访问路径得到的分析结果制定信息推广计划或者网站优化方案,还可以选择关注的用户群体进行分析,本发明实施例不做具体限定。
需要说明的是,所述待分析的网站访问路径的属性可以为访问路径中各个节点对应属性,具体可以为浏览器、操作系统、流量来源类型、广告渠道等。对于本发明实施例,所述起始路径节点集合中的节点是待分析的网站访问路径中去重后的首节点。所述路径片段是根据去重后的待分析的网站访问路径划分而成的包括至少两个路径节点的访问路径,其中所述去重的待分析的网站访问路径是从待分析的网站访问路径中提取相邻并重复访问的节点,然后将相邻并重复访问的节点进行合并为一个访问节点。对于本发明实施例,一个待分析的网站访问路径中可能出现连续的访问节点,对连续的访问节点进行合并,使得多个重复的访问节点归为一个访问节点,以减少路径中重复访问节点的干扰。去除生成的访问路径中的干扰项,简化了待分析的网站访问路径,使得分析结果更加准确,也就在解决了现有技术中访问路径无法准确分析用户的访问行为的同时,使得分析得到的分析结果更加准确。
对于本发明实施例,所述路径片段是在保持去重后的待分析的网站访问路径中路径节点原有前后序关系的前提下,将路径分解为预置片段长度的路径片段,所述预置片段长度具体可以为2、3、4,本发明实施例不做具体限定。需要说明的是,所述路径片段集合中的路径片段是唯一且不重复的。如果根据去重后的待分析的网站访问路径,划分的路径片段中包含重复的路径片段,则将重复的路径片段进行合并,以此保证路径片段集合中的路径片段的唯一性。
对于本发明实施例,所述根据待分析的网站访问路径获取起始路径节点集合和路径片段集合之后,还包括:统计所述各个起始路径节点分别在所述待分析的网站访问路径中出现的次数,和所述各个路径片段分别在所述去重后的待分析的网站访问路径中出现的次数。其中,统计起始路径节点在所述待分析的网站访问路径中出现的次数,是指对统计各个起始路径节点分别在所有待分析的网络访问路径中作为第一个路径节点的出现次数。例如,起始路径节点集合为{sina,sohu},待分析的网站访问路径分别为:sina->sohu,sina->sohu->360,sohu->iqiyi,sohu->360->sohu->iqiyi,sohu->360。则经过统计得出,起始路径节点sina出现的次数为2,起始路径节点sohu出现的次数为3。统计各个路径片段分别在所述去重后的待分析的网站访问路径中出现的次数,具体过程可以为:首先将去重后的各个待分析的网站访问路径划分成多个路径片段,然后根据划分成的路径片段,统计路径片段中内容相同的路径片段分别对应出现的次数。例如,根据去重后的各个待分析的网站访问路划分成的路径片段为:{sina->sohu,sohu->360,360->sohu,sohu->iqiyi,sohu->360},则经过统计可以得出,路径片段sina->sohu对应出现的次数为1、路径片段sohu->360对应出现的次数为2、路径片段360->sohu对应出现的次数为1、路径片段sohu->iqiyi对应出现的次数为1。
202、统计所述去重后的待分析的网站访问路径分别对应的路径长度。
其中,所述路径长度为去重后的待分析的网站访问路径中对应的节点个数。进一步地,还可以根据路径长度的统计结果统计得出路径长度分布率。在本发明实施例中,除了统计去重后的待分析的网站访问路径对应的路径长度,还可以统计去重后的待分析的网站访问路径的路径耗时,路径出现的次数,路径耗时分布等信息,本发明实施例不做具体限定。例如,统计去重后的待分析的网站访问路径分别对应的路径长度具体可以为7、8、9、10;统计去重后的待分析的网站访问路径的路径长度分布率具体可以为:路径长度为10的分布率为20%,路径长度为9的分布率为50%,路径长度为7的分布率为30%。
在本发明实施例中,统计去重后的待分析的网站访问路径分别对应的路径长度,可以在后续步骤中获取到热点网站访问路径的长度阈值,并且所述热点网站访问路径的长度阈值为大部分待分析网站访问路径的长度,因此所述长度阈值可表示热点路径的长度范围。在生成热点网站访问路径的过程中,若获取的路径片段满足热点网站访问路径的长度阈值,则根据获取的路径片段生成热点网站访问路径,从而提高获取热点网站访问路径的效率。
203、根据所述路径长度生成热点网站访问路径的长度阈值。
其中,所述热点网站访问路径的长度阈值可代表大部分用户的网站访问路径的路径长度,在本发明实施例中,可以根据所述路径长度生成热点网站访问路径的长度阈值,还可以根据路径长度的分布率生成热点网站访问路径的长度阈值,本发明实施例不做具体限定。例如,若统计的路径长度中90%的用户的路径长度为10,则可将热点网站访问路径的长度阈值设置为10。需要说明的是,热点网站访问路径的长度阈值具体数值还可以根据实际情况进行设置,本发明实施例不做具体限定。
在本发明实施例中,所述热点网站访问路径的长度阈值为大部分待分析网站访问路径的长度,因此所述长度阈值可表示热点路径的长度范围。在生成热点网站访问路径的过程中,若获取的路径片段满足热点网站访问路径的长度阈值,则根据获取的路径片段生成热点网站访问路径,从而提高获取热点网站访问路径的效率。
204、根据所述起始路径节点集合和所述路径片段集合生成热点网站访问路径集合。
其中,所述热点网站访问路径集合中包括至少一条热点网站访问路径,所述热点网站访问路径更能体现群体用户访问网站的共性,并且生成的热点网站访问路径的数量将大大少于待分析网站访问路径的数量。在本发明实施例中,根据起始路径节点集合和所述路径片段集合生热点网站访问路径集合,具体的生成热点网站访问路径可以为,通过起始路径节点集合中的起始路径节点作为构建热点网站访问路径的起始节点,然后针对每个起始路径节点去路径片段集合中查找以该节点为起始的路径片段,然后连接起来,如果找到多个路径片段即形成多条路径,可以为多叉树的形式组织,依次循环构建热点访问路径直到热点访问路径的路径长度达到预置阈值。需要说明的是,所述预置阈值可以根据实际需求进行设置,也可以由系统默认配置,本发明实施例不做具体限定。
对于本发明实施例,所述根据所述起始路径节点集合和所述路径片段集合生成热点网站访问路径集合包括:从所述路径片段集合中获取以所述各个起始路径节点中的任意一个节点为首节点的第一路径片段;从所述路径片段集合中,获取以所述第一路径片段的末尾节点为起始节点的第二路径片段;判断所述第一路径片段与所述第二路径片段包含的路径节点总数是否大于或等于所述长度阈值;若大于或等于,则根据所述第一路径片段与所述第二路径片段生成所述热点网站访问路径。
例如,起始路径节点为sina,从所述路径片段集合中获取以sina为首节点的第一路径片段为sina->sohu,然后再从所述路径片段集合中,获取以所述第一路径片段的末尾节点sohu,为起始节点的第二路径片段,第二路径片段为sohu->360、sohu->iqiyi,判断所述第一路径片段与所述第二路径片段包含的路径节点总数是否大于或等于所述长度阈值,若大于或等于,则根据所述第一路径片段与所述第二路径片段生成所述热点网站访问路径;若小于,则根据最后获取的路径片段的末尾节点为起始节点继续查找路径片段,直到获取到的路径片段中包含的路径节点总数是否大于或等于所述长度阈值。对于本发明实施例,不难发现针对每个热点网站访问路径的起始节点,可以使用一棵多叉树来表示生成的路径。
在本发明实施例中,根据所述起始路径节点集合和所述路径片段集合生成热点网站访问路径集合,在保持路径节点的前后序关系的前提下,可以把海量待分析的网站访问路径降阶为较为少量的访问路径,从而提高了分析网站访问数据的效率。
205、根据所述各个起始路径节点分别在所述待分析的网站访问路径中出现的次数和所述各个路径片段分别在所述去重的网站访问路径中出现的次数,对所述热点网站访问路径集合进行过滤。
在本发明实施例中,可以根据热点网站访问路径中的起始路径节点对应出现的次数和路径片段对应出现的次数的高低,对所述热点网站访问路径集合进行过滤。具体的,可以将热点网站访问路径集合中起始路径节点和路径片段对应出现的次数较低的热点网站访问路径过滤掉。
对于本发明实施例,所述根据所述各个起始路径节点分别在所述待分析的网站访问路径中出现的次数和所述各个路径片段分别在所述去重的网站访问路径中出现的次数,对所述热点网站访问路径集合进行过滤包括:获取各个热点网站访问路径分别对应的转换次数,所述转换次数为所述热点网站访问路径中起始路径节点出现的次数和各个路径片段分别对应的出现的次数之和;从所述热点网站访问路径集合中获取转换次数大于或等于预置阈值的热点网站访问路径。其中,所述预置阈值可以根据实际需求进行设置,也可以由系统默认设置,本发明实施例不做具体限定。需要说明的是,若所述热点网站访问路径为树形结构的路径,则从所述树形结构的路径中获取路径分支中最小的转换次数,以最小的转换次数确定该条树形结构的路径的转换次数。
206、根据所述热点网站访问路径集合对网站访问数据进行分析。
对于本发明实施例,首先根据待分析的网站访问路径获取起始路径节点集合和路径片段集合,然后根据所述起始路径节点集合和所述路径片段集合生成热点网站访问路径集合,从而可以在保持路径节点的前后序关系的前提下,从海量的待分析的网站访问路径中构建出热点网站访问路径,最后根据所述热点网站访问路径集合对网站访问数据进行分析。通过热点网站访问路径发现群体用户的行为共性和访问模式,从而可以提高数据处理效率。
对于本发明实施例,可以应用的场景如下所述,但不仅限于此,包括,根据待分析的网站访问路径获取起始路径节点集合和路径片段集合分别为:{sina,sohu},{sina->sohu,sohu->360,360->iqiyi},则根据起始路径节点sina,可从路径片段集合中获取到以sina为起始节点的路径片段sina->sohu,然后再从路径片段集合中获取以sohu为起始节点的路径片段sohu->360,判断获取的路径片段中的节点数据是否大于或等于长度阈值,若大于或等于,则根据获取的路径片段生成热点网站访问路径,在本应用场景中,若长度阈值为3,则生成的热点网站访问路径为sina->sohu->360。同上述生成热点网站访问路径的方式相同,起始路径节点sohu对应生成的热点路径为sohu->360->iqiyi。本发明实施例首先根据待分析的网站访问路径获取起始路径节点集合和路径片段集合,然后根据所述起始路径节点集合和所述路径片段集合生成热点网站访问路径集合,由于生成的热点网站访问路径集合中的热点网站访问路数量大大少于待分析的网站访问路径的数量,因此通过热点网站访问路径集合对网站访问数据进行分析,可以提高数据处理效率。
本发明实施例提供了另一种数据处理方法,首先根据待分析的网站访问路径获取起始路径节点集合和路径片段集合,然后根据所述起始路径节点集合和所述路径片段集合生成热点网站访问路径集合,最后根据所述热点网站访问路径集合对网站访问数据进行分析。与目前根据各个用户的网站访问路径的分析结果统计得出群体用户的网站访问数据相比,本发明实施例首先根据待分析的网站访问路径获取起始路径节点集合和路径片段集合,然后根据所述起始路径节点集合和所述路径片段集合生成热点网站访问路径集合,由于生成的热点网站访问路径集合中的热点网站访问路数量大大少于待分析的网站访问路径的数量,因此通过热点网站访问路径集合对网站访问数据进行分析,可以提高数据处理效率。
进一步地,本发明实施例提供一种数据处理装置,如图3所示,所述装置包括:获取单元31、生成单元32、分析单元33。
获取单元31,用于根据待分析的网站访问路径获取起始路径节点集合和路径片段集合,所述起始路径节点集合中的节点是待分析的网站访问路径中去重后的首节点,所述路径片段是根据去重后的待分析的网站访问路径划分而成的包括至少两个路径节点的访问路径,所述路径片段集合中包含有所述起始路径节点集合中的各个节点。
生成单元32,用于根据所述起始路径节点集合和所述路径片段集合生成热点网站访问路径集合。
分析单元33,用于根据所述热点网站访问路径集合对网站访问数据进行分析。
需要说明的是,本发明实施例提供的一种数据处理装置所涉及各功能单元的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
本发明实施例提供了一种数据处理装置,首先根据待分析的网站访问路径获取起始路径节点集合和路径片段集合,然后根据所述起始路径节点集合和所述路径片段集合生成热点网站访问路径集合,最后根据所述热点网站访问路径集合对网站访问数据进行分析。与目前根据各个用户的网站访问路径的分析结果统计得出群体用户的网站访问数据相比,本发明实施例首先根据待分析的网站访问路径获取起始路径节点集合和路径片段集合,然后根据所述起始路径节点集合和所述路径片段集合生成热点网站访问路径集合,由于生成的热点网站访问路径集合中的热点网站访问路数量大大少于待分析的网站访问路径的数量,因此通过热点网站访问路径集合对网站访问数据进行分析,可以提高数据处理效率。
进一步地,本发明实施例提供另一种数据处理装置,如图4所示,所述装置包括:获取单元41、生成单元42、分析单元43。
获取单元41,用于根据待分析的网站访问路径获取起始路径节点集合和路径片段集合,所述起始路径节点集合中的节点是待分析的网站访问路径中去重后的首节点,所述路径片段是根据去重后的待分析的网站访问路径划分而成的包括至少两个路径节点的访问路径,所述路径片段集合中包含有所述起始路径节点集合中的各个节点。
生成单元42,用于根据所述起始路径节点集合和所述路径片段集合生成热点网站访问路径集合。
分析单元43,用于根据所述热点网站访问路径集合对网站访问数据进行分析。
进一步地,所述装置还包括:统计单元44。
所述统计单元44,用于统计所述去重后的待分析的网站访问路径分别对应的路径长度;
所述生成单元42,还用于根据所述路径长度生成热点网站访问路径的长度阈值。
进一步地,所述生成单元42包括:
获取模块421,用于从所述路径片段集合中获取以所述各个起始路径节点中的任意一个节点为首节点的第一路径片段。
所述获取模块421,还用于从所述路径片段集合中,获取以所述第一路径片段的末尾节点为起始节点的第二路径片段。
判断模块422,用于判断所述第一路径片段与所述第二路径片段包含的路径节点总数是否大于或等于所述长度阈值。
生成模块423,用于若大于或等于所述长度阈值,则根据所述第一路径片段与所述第二路径片段生成所述热点网站访问路径。
进一步地,所述装置还包括:过滤单元45。
所述统计单元44,还用统计所述各个起始路径节点分别在所述待分析的网站访问路径中出现的次数
和所述各个路径片段分别在所述去重后的待分析的网站访问路径中出现的次数。
所述过滤单元45,用于根据所述各个起始路径节点分别在所述待分析的网站访问路径中出现的次数和所述各个路径片段分别在所述去重的网站访问路径中出现的次数,对所述热点网站访问路径集合进行过滤。
进一步地,所述过滤单元45包括:
获取模块451,用于获取各个热点网站访问路径分别对应的转换次数,所述转换次数为所述热点网站访问路径中起始路径节点出现的次数和各个路径片段分别对应的出现的次数之和;
所述获取模块451,还用于从所述热点网站访问路径集合中获取转换次数大于或等于预置阈值的热点网站访问路径。
需要说明的是,本发明实施例提供的另一种数据处理装置所涉及各功能单元的其他相应描述,可以参考图2所示方法的对应描述,在此不再赘述。
本发明实施例提供了另一种数据处理装置,首先根据待分析的网站访问路径获取起始路径节点集合和路径片段集合,然后根据所述起始路径节点集合和所述路径片段集合生成热点网站访问路径集合,最后根据所述热点网站访问路径集合对网站访问数据进行分析。与目前根据各个用户的网站访问路径的分析结果统计得出群体用户的网站访问数据相比,本发明实施例首先根据待分析的网站访问路径获取起始路径节点集合和路径片段集合,然后根据所述起始路径节点集合和所述路径片段集合生成热点网站访问路径集合,由于生成的热点网站访问路径集合中的热点网站访问路数量大大少于待分析的网站访问路径的数量,因此通过热点网站访问路径集合对网站访问数据进行分析,可以提高数据处理效率。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
根据待分析的网站访问路径获取起始路径节点集合和路径片段集合,所述起始路径节点集合中的节点是待分析的网站访问路径中去重后的首节点,所述路径片段是根据去重后的待分析的网站访问路径划分而成的包括至少两个路径节点的访问路径,所述路径片段集合中包含有所述起始路径节点集合中的各个节点;
根据所述起始路径节点集合和所述路径片段集合生成热点网站访问路径集合;
根据所述热点网站访问路径集合对网站访问数据进行分析。
2.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述起始路径节点集合和所述路径片段集合生成热点网站访问路径集合之前,还包括:
统计所述去重后的待分析的网站访问路径分别对应的路径长度;
根据所述路径长度生成热点网站访问路径的长度阈值。
3.根据权利要求2所述的数据处理方法,其特征在于,所述根据所述起始路径节点集合和所述路径片段集合生成热点网站访问路径集合包括:
从所述路径片段集合中获取以所述各个起始路径节点中的任意一个节点为首节点的第一路径片段;
从所述路径片段集合中,获取以所述第一路径片段的末尾节点为起始节点的第二路径片段;
判断所述第一路径片段与所述第二路径片段包含的路径节点总数是否大于或等于所述长度阈值;
若大于或等于,则根据所述第一路径片段与所述第二路径片段生成所述热点网站访问路径。
4.根据权利要求3所述的数据处理方法,其特征在于,所述根据待分析的网站访问路径获取起始路径节点集合和路径片段集合之后,还包括:
统计所述各个起始路径节点分别在所述待分析的网站访问路径中出现的次数
和所述各个路径片段分别在所述去重后的待分析的网站访问路径中出现的次数;
所述根据所述起始路径节点集合和所述路径片段集合生成热点网站访问路径集合之后,所述方法还包括:
根据所述各个起始路径节点分别在所述待分析的网站访问路径中出现的次数和所述各个路径片段分别在所述去重的网站访问路径中出现的次数,对所述热点网站访问路径集合进行过滤。
5.根据权利要求4所述的数据处理方法,其特征在于,所述根据所述各个起始路径节点分别在所述待分析的网站访问路径中出现的次数和所述各个路径片段分别在所述去重的网站访问路径中出现的次数,对所述热点网站访问路径集合进行过滤包括:
获取各个热点网站访问路径分别对应的转换次数,所述转换次数为所述热点网站访问路径中起始路径节点出现的次数和各个路径片段分别对应的出现的次数之和;
从所述热点网站访问路径集合中获取转换次数大于或等于预置阈值的热点网站访问路径。
6.一种数据处理装置,其特征在于,包括:
获取单元,用于根据待分析的网站访问路径获取起始路径节点集合和路径片段集合,所述起始路径节点集合中的节点是待分析的网站访问路径中去重后的首节点,所述路径片段是根据去重后的待分析的网站访问路径划分而成的包括至少两个路径节点的访问路径,所述路径片段集合中包含有所述起始路径节点集合中的各个节点;
生成单元,用于根据所述起始路径节点集合和所述路径片段集合生成热点网站访问路径集合;
分析单元,用于根据所述热点网站访问路径集合对网站访问数据进行分析。
7.根据权利要求6所述的数据处理装置,其特征在于,所述装置还包括:统计单元,
所述统计单元,用于统计所述去重后的待分析的网站访问路径分别对应的路径长度;
所述生成单元,还用于根据所述路径长度生成热点网站访问路径的长度阈值。
8.根据权利要求7所述的数据处理装置,其特征在于,所述生成单元包括:
获取模块,用于从所述路径片段集合中获取以所述各个起始路径节点中的任意一个节点为首节点的第一路径片段;
所述获取模块,还用于从所述路径片段集合中,获取以所述第一路径片段的末尾节点为起始节点的第二路径片段;
判断模块,用于判断所述第一路径片段与所述第二路径片段包含的路径节点总数是否大于或等于所述长度阈值;
生成模块,用于若大于或等于所述长度阈值,则根据所述第一路径片段与所述第二路径片段生成所述热点网站访问路径。
9.根据权利要求8所述的数据处理装置,其特征在于,所述装置还包括:过滤单元,
所述统计单元,还用统计所述各个起始路径节点分别在所述待分析的网站访问路径中出现的次数
和所述各个路径片段分别在所述去重后的待分析的网站访问路径中出现的次数;
所述过滤单元,用于根据所述各个起始路径节点分别在所述待分析的网站访问路径中出现的次数和所述各个路径片段分别在所述去重的网站访问路径中出现的次数,对所述热点网站访问路径集合进行过滤。
10.根据权利要求9所述的数据处理装置,其特征在于,所述过滤单元包括:
获取模块,用于获取各个热点网站访问路径分别对应的转换次数,所述转换次数为所述热点网站访问路径中起始路径节点出现的次数和各个路径片段分别对应的出现的次数之和;
所述获取模块,还用于从所述热点网站访问路径集合中获取转换次数大于或等于预置阈值的热点网站访问路径。
CN201510599017.8A 2015-09-18 2015-09-18 数据处理方法及装置 Active CN106547761B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510599017.8A CN106547761B (zh) 2015-09-18 2015-09-18 数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510599017.8A CN106547761B (zh) 2015-09-18 2015-09-18 数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN106547761A true CN106547761A (zh) 2017-03-29
CN106547761B CN106547761B (zh) 2020-01-07

Family

ID=58363023

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510599017.8A Active CN106547761B (zh) 2015-09-18 2015-09-18 数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN106547761B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111001157A (zh) * 2019-11-29 2020-04-14 腾讯科技(深圳)有限公司 引用信息的生成方法和装置、存储介质及电子装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120124030A1 (en) * 2010-11-12 2012-05-17 Yahoo! Inc. Methods and Systems For Pathing Analysis
CN102760150A (zh) * 2012-04-05 2012-10-31 中国人民解放军国防科学技术大学 基于属性重现和标签路径的网页抽取方法
CN103377231A (zh) * 2012-04-25 2013-10-30 腾讯科技(北京)有限公司 一种数据分析方法、装置及系统
CN103605745A (zh) * 2013-11-20 2014-02-26 北京国双科技有限公司 转化路径的处理方法、装置及系统
CN103810184A (zh) * 2012-11-07 2014-05-21 阿里巴巴集团控股有限公司 确定网站页面地址流转率的方法、优化方法及其装置
CN103823883A (zh) * 2014-03-06 2014-05-28 焦点科技股份有限公司 一种网站用户访问路径的分析方法及系统
CN104462156A (zh) * 2013-09-25 2015-03-25 阿里巴巴集团控股有限公司 一种基于用户行为的特征提取、个性化推荐方法和系统
CN104504153A (zh) * 2015-01-12 2015-04-08 北京国双科技有限公司 热点路径标记的生成方法和装置
CN104504136A (zh) * 2014-12-31 2015-04-08 北京国双科技有限公司 网站的访问路径的分析方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120124030A1 (en) * 2010-11-12 2012-05-17 Yahoo! Inc. Methods and Systems For Pathing Analysis
CN102760150A (zh) * 2012-04-05 2012-10-31 中国人民解放军国防科学技术大学 基于属性重现和标签路径的网页抽取方法
CN103377231A (zh) * 2012-04-25 2013-10-30 腾讯科技(北京)有限公司 一种数据分析方法、装置及系统
CN103810184A (zh) * 2012-11-07 2014-05-21 阿里巴巴集团控股有限公司 确定网站页面地址流转率的方法、优化方法及其装置
CN104462156A (zh) * 2013-09-25 2015-03-25 阿里巴巴集团控股有限公司 一种基于用户行为的特征提取、个性化推荐方法和系统
CN103605745A (zh) * 2013-11-20 2014-02-26 北京国双科技有限公司 转化路径的处理方法、装置及系统
CN103823883A (zh) * 2014-03-06 2014-05-28 焦点科技股份有限公司 一种网站用户访问路径的分析方法及系统
CN104504136A (zh) * 2014-12-31 2015-04-08 北京国双科技有限公司 网站的访问路径的分析方法和装置
CN104504153A (zh) * 2015-01-12 2015-04-08 北京国双科技有限公司 热点路径标记的生成方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111001157A (zh) * 2019-11-29 2020-04-14 腾讯科技(深圳)有限公司 引用信息的生成方法和装置、存储介质及电子装置
CN111001157B (zh) * 2019-11-29 2021-09-28 腾讯科技(深圳)有限公司 引用信息的生成方法和装置、存储介质及电子装置

Also Published As

Publication number Publication date
CN106547761B (zh) 2020-01-07

Similar Documents

Publication Publication Date Title
CN104504136B (zh) 网站的访问路径的分析方法和装置
CN103886068B (zh) 用于互联网用户行为分析的数据处理方法和装置
CN103902653B (zh) 一种构建数据仓库表血缘关系图的方法和装置
CN102339320B (zh) 恶意网页的识别方法以及识别装置
CN104731807B (zh) 一种统计和分析页面跳转数据的方法及装置
CN107526807A (zh) 信息推荐方法及装置
CN103530365B (zh) 获取资源的下载链接的方法及系统
CN108664480A (zh) 一种多数据源用户信息整合方法和装置
CN106708841B (zh) 网站访问路径的聚合方法和装置
CN106651416A (zh) 应用程序推广信息的分析方法及装置
CN105095211A (zh) 多媒体数据的获取方法和装置
CN104268064A (zh) 产品日志的异常诊断方法和装置
CN108287668A (zh) 设备数据的处理方法及装置、计算机装置及可读存储介质
CN106294815B (zh) 一种url的聚类方法及装置
CN112632446A (zh) 页面访问路径的构建方法及系统
CN103605736A (zh) 转化数据的处理方法及装置
CN109409940A (zh) 基于路径的浏览处理方法、装置、设备和存储介质
CN106909454A (zh) 一种规则处理方法和设备
CN106484746A (zh) 网站转化事件的分析方法及装置
CN106547761A (zh) 数据处理方法及装置
CN105357118A (zh) 一种基于规则的流量分类方法和系统
CN105989019B (zh) 一种清洗数据的方法及装置
CN107092650A (zh) 一种网络日志分析方法及装置
CN110138720A (zh) 网络流量的异常分类检测方法、装置、存储介质和处理器
CN104536800B (zh) 一种虚拟机放置方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant