CN103617198B - 页面归并方法及装置 - Google Patents

页面归并方法及装置 Download PDF

Info

Publication number
CN103617198B
CN103617198B CN201310566565.1A CN201310566565A CN103617198B CN 103617198 B CN103617198 B CN 103617198B CN 201310566565 A CN201310566565 A CN 201310566565A CN 103617198 B CN103617198 B CN 103617198B
Authority
CN
China
Prior art keywords
page
sequence
numbering
browsed
numbered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310566565.1A
Other languages
English (en)
Other versions
CN103617198A (zh
Inventor
洪超
杨基彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201310566565.1A priority Critical patent/CN103617198B/zh
Publication of CN103617198A publication Critical patent/CN103617198A/zh
Application granted granted Critical
Publication of CN103617198B publication Critical patent/CN103617198B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本发明提供了一种页面归并方法及装置,该方法包括:对浏览过的页面进行排序;根据所述第一规则对排序之后的页面进行第一次编号得到第一编号序列;根据第二规则对排序之后的页面进行第二次编号得到第二编号序列;比较所述第一编号序列和所述第二编号序列确定所述浏览过的页面中的重复刷新的页面;根据所述重复刷新的页面从所述浏览过的页面中进行去重处理。通过本发明解决了现有技术中在出现连续相同的浏览页面时,去重效率低的问题,进而提高了操作效率。

Description

页面归并方法及装置
技术领域
本发明涉及网络领域,具体而言,涉及一种页面归并方法及装置。
背景技术
路径归并:指我们要从用户的页面浏览转化为路径浏览,页面浏览是指用户的每一个页面的访问,路径浏览是指用户浏览网站的路径,即先看了什么再看了什么,中间刷新的重复页面访问会被认为是同一路径。举例说明:用户浏览页面顺序为a-->b->b->b->c->b->b->d,由浏览页面最终归并的路径浏览为:a->b>c->b->d。注:数字代表在此路径上用户的页面浏览数量。
关于上面的路径去重,传统的方法一般采用页面浏览数据表,先根据浏览时间在各会话内部进行排序,即会话内的页面访问顺序(AccessOrder),再根据AccessOrder进行页面浏览数据表的自已和自己的表连接,条件为表1的AccessOrder+1=表2的AccessOrder,即通过表连接庞大的开销来找到该页面的下一个页面访问,若判断是一样的,则进行去重,当然这样表连接一次,只能对路径重复去重一次,像上面示例的路径访问里,存在连续的3个b页面的访问,故而需要两次重复上面的表连接操作,去掉2个重复的b。可以看出这样通过递归循环计算的方式性能很糟糕,且循环的次数为最大的路径重复页面数减一次。且每次都需要做整个表连接和去重操作。性能很不稳定,且很低效。
针对相关技术中的在出现连续相同的浏览页面时,去重效率低的问题,目前尚未提出有效的解决方案。
发明内容
针对现有技术中在出现连续相同的浏览页面时,去重效率低的问题,本发明提供了页面归并方法及装置,以至少解决上述问题。
根据本发明的一个方面,提供了一种页面归并方法,包括:对浏览过的页面进行排序;根据所述第一规则对排序之后的页面进行第一次编号得到第一编号序列;根据第二规则对排序之后的页面进行第二次编号得到第二编号序列;比较所述第一编号序列和所述第二编号序列确定所述浏览过的页面中的重复刷新的页面;根据所述重复刷新的页面从所述浏览过的页面中进行去重处理。
优选地,根据所述第一规则对排序之后的页面进行第一次编号得到第一编号序列包括:根据用户浏览的时间顺序对所述浏览过的页面进行第一次编号得到所述第一编号序列。
优选地,根据所述第二规则对浏览过的页面进行排序包括:根据页面标识对所述浏览过的页面进行所述第二次编号得到所述第二编号序列,其中,根据所述页面标识进行排序包括:按照页面标识出现的次序对页面标识对应页面进行编号,对于同一页面标识对应的多个页面编号完毕之后再对下一出现的页面标识对应的页面进行编号。
优选地,比较所述第一编号序列和所述第二编号序列确定所述浏览过的页面中的重复刷新的页面包括:将所述第一编号序列和所述第二编号序列相减,对于同一页面标识的页面存在连续的n个相同的差值,则说明具有n个重复刷新的页面。
优选地,根据所述重复刷新的页面从所述浏览过的页面中进行去重处理包括:对于多个重复刷新的页面仅保留一个,并标示出所述多个重复刷新的页面的数量。
根据本发明的另一方面,提供了一种页面归并装置,包括:排序模块,用于对浏览过的页面进行排序;第一编号模块,用于根据所述第一规则对排序之后的页面进行第一次编号得到第一编号序列;第二编号模块,用于根据第二规则对排序之后的页面进行第二次编号得到第二编号序列;确定模块,用于比较所述第一编号序列和所述第二编号序列确定所述浏览过的页面中的重复刷新的页面;处理模块,用于根据所述重复刷新的页面从所述浏览过的页面中进行去重处理。
优选地,所述第一编号模块用于根据用户浏览的时间顺序对所述浏览过的页面进行第一次编号得到所述第一编号序列。
优选地,所述第二编号模块用于根据页面标识对所述浏览过的页面进行所述第二次编号得到所述第二编号序列,其中,根据所述页面标识进行排序包括:按照页面标识出现的次序对页面标识对应页面进行编号,对于同一页面标识对应的多个页面编号完毕之后再对下一出现的页面标识对应的页面进行编号。
优选地,所述确定模块用于将所述第一编号序列和所述第二编号序列相减,对于同一页面标识的页面存在连续的n个相同的差值,则说明具有n个重复刷新的页面。
优选地,所述处理模块用于对于多个重复刷新的页面仅保留一个,并标示出所述多个重复刷新的页面的数量。
通过本发明,采用对浏览过的页面进行排序,然后根据第一规则对排序之后的页面进行第一次编号得到第一编号序列以及根据第二规则对排序之后的页面进行第二次编号得到第二编号序列,再通过比较第一编号序列和第二编号序列确定所述浏览过的页面中的重复刷新的页面,将重复刷新的页面从浏览过的页面中进行去重处理,解决了现有技术中在出现连续相同的浏览页面时,去重效率低的问题,进而提高了操作效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的页面归并装置的流程图;
图2是根据本发明实施例的页面归并装置的结构示意图;
图3是根据本发明优选实施例的页面归并装置的流程图;
图4是根据本发明优选实施例的页面归并装置的结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本实施例中,提供了一种页面归并方法,图1是根据本发明实施例的页面归并方法的流程图,如图1所示,该方法的步骤包括:
步骤S102:对浏览过的页面进行排序。
步骤S104:根据第一规则对排序之后的页面进行第一次编号得到第一编号序列。
步骤S106:根据第二规则对排序之后的页面进行第二次编号得到第二编号序列。
步骤S108:比较第一编号序列和第二编号序列确定浏览过的页面中的重复刷新的页面。
步骤S110:根据所述重复刷新的页面从浏览过的页面中进行去重处理。
通过上述实施例的方法,通过两次不同的编号方式进行编号进而通过第一编号序列和第二编号序列的比较可以一次性的找到重复的页面,进而进行去重处理,因此,解决了现有技术中在出现连续相同的浏览页面时去重效率低的问题,进而提高了操作效率。
上述步骤S104和步骤S106中的第一规则和第二规则可以有很多种方式,本实施例中提供了两种优选的方式,这种优选实施方式可以单独实施也可以结合使用。下面对这两种优选实施方式进行说明。
优选实施方式一,可以根据用户浏览的时间顺序对浏览过的页面进行第一次编号得到第一编号序列。
优选实施方式二,可以根据页面标识对浏览过的页面进行第二次编号得到第二编号序列,其中,根据页面标识进行排序包括:按照页面标识出现的次序对页面标识对应页面进行编号,对于同一页面标识对应的多个页面编号完毕之后再对下一出现的页面标识对应的页面进行编号。例如,用户浏览了首先浏览了a页面,然后浏览了两次b页面,然后浏览了两次c页面,最后浏览了一次b页面,那么,a页面可以编号为0;一共浏览了三次b页面,可以编号为1、2、3,浏览了两次c页面,可以编号为4、5。因此,得到的序列为0、1、2、4、5、3。
在上述图1示出的步骤以及上述两种优选的实施方式中,可以采用相减的方式来得到重复刷新的页面。即优选地,上述步骤S108可以包括:将第一编号序列和第二编号序列相减,对于同一页面标识的页面存在连续的n个相同的差值,则说明具有n个重复刷新的页面。
作为另一种优选的实施方式,在去重处理之后,还可以显示一下重复刷新的页面的数量。即优选地,上述步骤S110可以包括:对于多个重复刷新的页面仅保留一个,并标示出多个重复刷新的页面的数量。
本实施例还提供了一种页面归并装置,该装置用于实现上述页面归并方法,该装置实施例中的功能实现在上述方法实施例中已经进行过详细的说明,在此将不再赘述。
本发明还提供了一种页面归并装置,图2是根据本发明实施例的页面归并装置的结构示意图。如图2所示,该装置包括:排序模块202,用于对浏览过的页面进行排序;第一编号模块204,用于根据第一规则对排序之后的页面进行第一次编号得到第一编号序列;第二编号模块206,用于根据第二规则对排序之后的页面进行第二次编号得到第二编号序列;确定模块208,用于比较第一编号序列和第二编号序列确定浏览过的页面中的重复刷新的页面;处理模块210,用于根据重复刷新的页面从浏览过的页面中进行去重处理。
优选地,第一编号模块204还用于根据用户浏览的时间顺序对浏览过的页面进行第一次编号得到第一编号序列。
优选地,第二编号模块206用于根据页面标识对浏览过的页面进行第二次编号得到第二编号序列,其中,根据页面标识进行排序包括:按照页面标识出现的次序对页面标识对应页面进行编号,对于同一页面标识对应的多个页面编号完毕之后再对下一出现的页面标识对应的页面进行编号。
优选地,确定模块208用于将第一编号序列和第二编号序列相减,对于同一页面标识的页面存在连续的n个相同的差值,则说明具有n个重复刷新的页面。
优选地,处理模块210用于对于多个重复刷新的页面仅保留一个,并标示出多个重复刷新的页面的数量。
在本实施例中,首先,对页面的排序,以及第一编号模块204对排序后的页面进行编号得到第一编号序列,第二编号模块205对排序后的页面进行编号得到第二编号序列,然后,通过确定模块208比较第一编号序列和第二编号序列确定浏览过的页面中的重复刷新的页面,最后,处理模块210将据重复刷新的页面从浏览过的页面中进行去重处理。解决了现有技术中在出现连续相同的浏览页面时,不能一次性去重的问题,进而提高了性能稳定性和操作效率。
下面结合优选实施例进行描述和说明。
本优选实施例提供了一种页面归并方法,图3是根据本发明优选实施例的页面归并装置的流程图,如图3所示,结合以下具体举例应用场景,本优选实施例方法包括:
步骤S1:接收并读取所有原页面浏览数据;
其中,浏览数据至少包括:会话标识SessionKey,页面访问标识pageKey,访问时间VisitTime。
步骤S2:根据各SessionKey进行分组,并按VisitTime时间进行排序得到各会话内页面访问顺序的派生列AccessOrder。
其中,用户浏览页面顺序为a-->b->b->b->c->b->b->d,经过访问时间进行分组排序之后得到派生列AccessOrder,如表1所示:
表1
步骤S3:根据PageKey进行分组,组内按AccessOrder进行排序,得到pageAccessOrder的派生列;
其中,pageAccessOrder的派生列,如表1所示。
步骤S4:根据PageKey以及AccessOrder-pageAccessOrder的值进行分组,得到每个页面连续访问的分组;
其中,将PageKey和AccessOrder-pageAccessOrder作为分组因子,即可得到不连续的两次访问的b路径,如表2所示:表2中AccessOrder-pageAccessOrder的值中标粗的两段为不连续的两次访问的b路径。
表2
步骤S5:对连续的分组进行去重;
其中,得到的去重结果为:a->b>c->b->d。
步骤S6:将去重的结果进行输出。
本发明优选实施例还提供另一种页面归并装置,图4是根据本发明优选实施例的页面归并装置的结构示意图,如图4所示,该装置包括:输入装置42,用于接收并读取所有源页面浏览的数据;去重装置44(实现了上述排序模块202、第一编号模块204、第二编号模块206、确定模块208、处理模块210的功能),用于根据访问时间顺序,会话标识对源页面进行分组,并对分组进行去重;输出装置46,用于将去重的结果进行输出。
通过本发明优选实施例的页面归并方法,对所有原有页面的数据根据访问的时间顺序以及会话标识进行排序,将排序后的结果进行路径的去重。解决了现有技术传统方式里得循环连表并去重操作的问题,从而只需要批量式的进行一次流式处理即可得出想要的结果。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种页面归并方法,其特征在于,包括:
对浏览过的页面进行排序;
根据第一规则对排序之后的页面进行第一次编号得到第一编号序列;
根据第二规则对排序之后的页面进行第二次编号得到第二编号序列;
比较所述第一编号序列和所述第二编号序列确定所述浏览过的页面中的重复刷新的页面;
根据所述重复刷新的页面从所述浏览过的页面中进行去重处理;
其中,根据所述重复刷新的页面从所述浏览过的页面中进行去重处理包括:对于多个重复刷新的页面仅保留一个,并标示出所述多个重复刷新的页面的数量。
2.根据权利要求1所述的方法,其特征在于,根据所述第一规则对排序之后的页面进行第一次编号得到第一编号序列包括:
根据用户浏览的时间顺序对所述浏览过的页面进行第一次编号得到所述第一编号序列。
3.根据权利要求1或2所述的方法,其特征在于,根据所述第二规则对浏览过的页面进行排序包括:
根据页面标识对所述浏览过的页面进行所述第二次编号得到所述第二编号序列,其中,根据所述页面标识进行排序包括:按照页面标识出现的次序对页面标识对应页面进行编号,对于同一页面标识对应的多个页面编号完毕之后再对下一出现的页面标识对应的页面进行编号。
4.根据权利要求3所述的方法,其特征在于,比较所述第一编号序列和所述第二编号序列确定所述浏览过的页面中的重复刷新的页面包括:
将所述第一编号序列和所述第二编号序列相减,对于同一页面标识的页面存在连续的n个相同的差值,则说明具有n个重复刷新的页面。
5.一种页面归并装置,其特征在于,包括:
排序模块,用于对浏览过的页面进行排序;
第一编号模块,用于根据第一规则对排序之后的页面进行第一次编号得到第一编号序列;
第二编号模块,用于根据第二规则对排序之后的页面进行第二次编号得到第二编号序列;
确定模块,用于比较所述第一编号序列和所述第二编号序列确定所述浏览过的页面中的重复刷新的页面;
处理模块,用于根据所述重复刷新的页面从所述浏览过的页面中进行去重处理;
其中,所述处理模块用于对于多个重复刷新的页面仅保留一个,并标示出所述多个重复刷新的页面的数量。
6.根据权利要求5所述的装置,其特征在于,所述第一编号模块用于根据用户浏览的时间顺序对所述浏览过的页面进行第一次编号得到所述第一编号序列。
7.根据权利要求5或6所述的装置,其特征在于,所述第二编号模块用于根据页面标识对所述浏览过的页面进行所述第二次编号得到所述第二编号序列,其中,根据所述页面标识进行排序包括:按照页面标识出现的次序对页面标识对应页面进行编号,对于同一页面标识对应的多个页面编号完毕之后再对下一出现的页面标识对应的页面进行编号。
8.根据权利要求7所述的装置,其特征在于,所述确定模块用于将所述第一编号序列和所述第二编号序列相减,对于同一页面标识的页面存在连续的n个相同的差值,则说明具有n个重复刷新的页面。
CN201310566565.1A 2013-11-14 2013-11-14 页面归并方法及装置 Active CN103617198B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310566565.1A CN103617198B (zh) 2013-11-14 2013-11-14 页面归并方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310566565.1A CN103617198B (zh) 2013-11-14 2013-11-14 页面归并方法及装置

Publications (2)

Publication Number Publication Date
CN103617198A CN103617198A (zh) 2014-03-05
CN103617198B true CN103617198B (zh) 2017-10-27

Family

ID=50167901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310566565.1A Active CN103617198B (zh) 2013-11-14 2013-11-14 页面归并方法及装置

Country Status (1)

Country Link
CN (1) CN103617198B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823891B (zh) * 2014-03-10 2017-03-22 北京国双科技有限公司 用于计算机历史行为分析的数据处理方法和装置
CN106484746B (zh) * 2015-09-02 2020-03-27 北京国双科技有限公司 网站转化事件的分析方法及装置
CN106201549A (zh) * 2016-07-22 2016-12-07 北京金山安全软件有限公司 应用程序中信息的控制方法、装置以及终端设备
CN112437148B (zh) * 2020-11-20 2023-03-07 北京奇艺世纪科技有限公司 业务请求的处理方法、装置、业务服务器及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262635A (zh) * 2010-05-25 2011-11-30 北京启明星辰信息技术股份有限公司 一种网页爬虫系统及方法
CN102750334A (zh) * 2012-06-01 2012-10-24 北京市农林科学院农业科技信息研究所 一种基于dm的农业信息精准推送的方法
CN103020194A (zh) * 2012-12-03 2013-04-03 北京奇虎科技有限公司 用于浏览文件的方法及装置
CN103377260A (zh) * 2012-04-28 2013-10-30 阿里巴巴集团控股有限公司 一种网络日志url 的分析方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060059225A1 (en) * 2004-09-14 2006-03-16 A9.Com, Inc. Methods and apparatus for automatic generation of recommended links

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262635A (zh) * 2010-05-25 2011-11-30 北京启明星辰信息技术股份有限公司 一种网页爬虫系统及方法
CN103377260A (zh) * 2012-04-28 2013-10-30 阿里巴巴集团控股有限公司 一种网络日志url 的分析方法及装置
CN102750334A (zh) * 2012-06-01 2012-10-24 北京市农林科学院农业科技信息研究所 一种基于dm的农业信息精准推送的方法
CN103020194A (zh) * 2012-12-03 2013-04-03 北京奇虎科技有限公司 用于浏览文件的方法及装置

Also Published As

Publication number Publication date
CN103617198A (zh) 2014-03-05

Similar Documents

Publication Publication Date Title
CN103617198B (zh) 页面归并方法及装置
Liu et al. Multi-constrained graph pattern matching in large-scale contextual social graphs
Morozov et al. Distributed contour trees
Xuan et al. Voronoi-based multi-level range search in mobile navigation
CN105320702B (zh) 一种用户行为数据的分析方法、装置及智能电视
US9245056B2 (en) Structured relevance—a mechanism to reveal why data is related
CN110362563A (zh) 数据表的处理方法及装置、存储介质、电子装置
CN109901987A (zh) 一种生成测试数据的方法和装置
CN109324796A (zh) 界面布局方法及装置
CN106779791A (zh) 一种搭配对象图片组合的生成方法及装置
CN109710542A (zh) 一种满n叉树构建方法及装置
CN107256224B (zh) 一种要素知识结构的生成方法,搜索方法,装置及系统
CN110020171A (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN106909354A (zh) 图片显示方法及装置
CN104408183B (zh) 数据系统的数据导入方法和装置
CN103514224B (zh) 数据库中的数据处理方法、数据查询方法和相应装置
CN116522844A (zh) 电路划分方法、电路节点电压计算方法、终端及存储介质
CN105260317B (zh) 一种测试用例的选取方法
AbouEisha et al. Decision trees with minimum average depth for sorting eight elements
Vershik et al. Four drafts on the representation theory of the group of infinite matrices over a finite field
Yelmewad et al. Parallel iterative hill climbing algorithm to solve TSP on GPU
CN108182222A (zh) 一种文本匹配方法及装置
Mondal et al. An efficient reachability query based pruning algorithm in e-health scenario
CN105515818B (zh) 一种网络拓扑布局中拆分环状结构的方法及系统
CN103823891A (zh) 用于计算机历史行为分析的数据处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Page merging method and page merging device

Effective date of registration: 20190531

Granted publication date: 20171027

Pledgee: Shenzhen Black Horse World Investment Consulting Co., Ltd.

Pledgor: Beijing Guoshuang Technology Co.,Ltd.

Registration number: 2019990000503

CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Patentee after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Patentee before: Beijing Guoshuang Technology Co.,Ltd.