CN103902596B - 高频页面内容聚类方法和系统 - Google Patents

高频页面内容聚类方法和系统 Download PDF

Info

Publication number
CN103902596B
CN103902596B CN201210581457.7A CN201210581457A CN103902596B CN 103902596 B CN103902596 B CN 103902596B CN 201210581457 A CN201210581457 A CN 201210581457A CN 103902596 B CN103902596 B CN 103902596B
Authority
CN
China
Prior art keywords
page
high frequency
focus
pages
frequency vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210581457.7A
Other languages
English (en)
Other versions
CN103902596A (zh
Inventor
甘玉珏
郝颖
杨杰
王爱宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN201210581457.7A priority Critical patent/CN103902596B/zh
Publication of CN103902596A publication Critical patent/CN103902596A/zh
Application granted granted Critical
Publication of CN103902596B publication Critical patent/CN103902596B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Abstract

本发明公开了一种高频页面内容聚类方法和系统,涉及移动互联网页面处理技术领域。针对现有基于手机的热点发掘技术只能分析出热点网站网址,没有自动通过文本提取算法获知该页面内所包含热点事件的内容等问题,提出了通过对所有待分析页面根据页面的不同访问特征,将页面集合划分为多个子集合,然后文本提取和词频分析,得出页面关键词,再基于关键词对页面聚类,发现存在于多个相关联页面间的热点事件,并根据系统中设置的特征偏好设置信息,如地域、用户爱好、消费人群等,整合热点事件的相关信息,可扩展性强。同时,算法对距离的定义简单实用,聚类过程计算复杂度低。

Description

高频页面内容聚类方法和系统
技术领域
本发明涉及移动互联网页面处理技术领域,特别涉及一种高频页面内容聚类方法和系统。
背景技术
随着移动互联网应用的快速发展,移动互联网的内容信息越来越丰富。运营商具有各种网元设备可以记录用户访问日志。同时页面分割重排成为当今的技术热点之一。
目前的热点分析主要是通过分析互联网服务日志,目前基于移动互联网网页的热点事件挖掘和获取技术还不成熟,相关技术方案较少,且现有的网页分析只得出热点网页的网址,没有自动通过文本提取算法获知该页面内所包含热点事件的内容。
发明内容
本发明的发明人发现上述现有技术中存在问题,并因此针对所述问题中的至少一个问题提出了一种新的技术方案。
本发明的一个目的是提供一种用于高频页面内容聚类的技术方案。
根据本发明的第一方面,提供了一种高频页面内容聚类方法,包括:
获取用户访问日志内的页面,根据页面的访问特征划分为多个特征页面集合;
通过对每一个特征页面集合进行词频分析获得各个特征页面集合出现频率最高的特征高频词汇,获得特征高频词汇集合;
在特征页面集合内检索包含特征高频词汇集合中任意一个或多个特征高频词汇的页面,得到所有这些页面组成的高频词汇页面集合;
在高频词汇页面集合中,选择用户访问量最高的页面定义为热点锚页面,以热点锚页面为基准对高频词汇页面集合进行聚类得到热点页面集合;每一个热点页面集合对应一个热点事件,热点事件的标题和正文分别用热点页面集合对应的热点锚页面的标题和正文来表示;
将高频词汇页面集合中的所有页面都进行分类,得到每一个特征页面集合的热点事件集合,直到高频词汇页面集合内页面都被分类为止。
可选地,该方法还包括:将两个或者多个特征页面集合的热点事件集合进行合并得到合并后的热点集合;或者将所有特征页面集合的热点事件集合进行合并得到合并后的热点集合。
可选地,将两个或者多个特征页面集合的热点事件集合进行合并得到合并后的热点集合包括:
将两个或者多个特征页面集合的热点事件进行合并,记为H={H1,H2,...Hm};
判断H中重复的热点事件,如果热点集合Ha和Hb满足ma=mb或ma∈Hb或mb∈Ha,则确定热点集合Ha和Hb是重复的;
将重复热点集合Ha和Hb合并为新热点集合Hc,其中Hc={p|p∈Ha或p∈Hb},其对应的热点锚页面mc为Hc中访问次数最多的页面。
可选地,在高频词汇页面集合中选择用户访问量最高的页面定义为热点锚页面、以热点锚页面为基准对高频词汇页面集合进行聚类得到热点页面集合包括:
i.记高频词汇页面集合为P0,记特征高频词汇集合为C,对P0进行聚类:定义页面a与页面b之间的距离D(a,b)为:
其中代表特征高频词汇i出现在页面a中的次数,代表特征高频词汇i出现在页面b中的次数;设n=0,进行下面的处理:
ii.取Pn中用户访问次数最多的页面,定义该页面为第n个热点锚页”,记为mn;
iii.找到与mn距离小于经验值d的热点页面集合Hn
Hn={p|D(mn,p)<d,p∈pn};
iv.获得剩余高频词汇页面集合Pn+1=Pn-Hn
v.判断剩余高频词汇页面集合pn+1是否为空,如果剩余高频词汇页面集合Pn+1不为空,重复步骤ii和步骤iv的工作;
如果剩余高频词汇页面集合Pn+1为空,则终止聚类过程,得到n个热点事件及其热点锚页面。
可选地,页面的访问特征包括:时间段、地理位置、消费水平、和/或手机类型。
根据本发明的另一方面,提供一种高频页面内容聚类系统,包括:
特征页面划分模块,用于获取用户访问日志内的页面,根据页面的访问特征划分为多个特征页面集合;
高频词汇获得模块,用于通过对每一个特征页面集合进行词频分析获得各个特征页面集合出现频率最高的特征高频词汇,获得特征高频词汇集合;
词汇页面获得模块,用于在特征页面集合内检索包含特征高频词汇集合中任意一个或多个特征高频词汇的页面,得到所有这些页面组成的高频词汇页面集合;
热点页面获得模块,用于在高频词汇页面集合中,选择用户访问量最高的页面定义为热点锚页面,以热点锚页面为基准对高频词汇页面集合进行聚类得到热点页面集合;每一个热点页面集合对应一个热点事件,热点事件的标题和正文分别用热点页面集合对应的热点锚页面的标题和正文来表示;将高频词汇页面集合中的所有页面都进行分类,得到每一个特征页面集合的热点事件集合,直到高频词汇页面集合内页面都被分类为止。
可选地,该系统还包括:热点页面合并模块,用于将两个或者多个特征页面集合的热点事件集合进行合并得到合并后的热点集合;或者将所有特征页面集合的热点事件集合进行合并得到合并后的热点集合。
可选地,热点页面合并模块将两个或者多个特征页面集合的热点事件进行合并,记为H={H1,H2,...Hm};判断H中重复的热点事件,如果热点集合Ha和Hb满足ma=mb或ma∈Hb或mb∈Ha,则确定热点集合Ha和Hb是重复的;将重复热点集合Ha和Hb合并为新热点集合Hc,其中Hc={p|p∈Ha或p∈Hb},其对应的热点锚页面mc为Hc中访问次数最多的页面。
可选地,热点页面获得模块执行如下操作:
i.记高频词汇页面集合为P0,记特征高频词汇集合为C,对P0进行聚类:定义页面a与页面b之间的距离D(a,b)为:
其中代表特征高频词汇i出现在页面a中的次数,代表特征高频词汇i出现在页面b中的次数;设n=0,进行下面的处理:
ii.取Pn中用户访问次数最多的页面,定义该页面为第n个热点锚页”,记为mn;
iii.找到与mn距离小于经验值d的热点页面集合Hn
Hn={p|D(mn,p)<d,p∈pn};
iv.获得剩余高频词汇页面集合Pn+1=Pn-Hn
v.判断剩余高频词汇页面集合pn+1是否为空,如果剩余高频词汇页面集合Pn+1不为空,重复步骤ii和步骤iv的工作;
如果剩余高频词汇页面集合Pn+1为空,则终止聚类过程,得到n个热点事件及其热点锚页面。
可选地,页面的访问特征包括:时间段、地理位置、消费水平、和/或手机类型。
本发明的一个优点在于,通过对所有待分析页面根据页面的不同访问特征,将页面集合划分为多个子集合,然后文本提取和词频分析,得出页面关键词,再基于关键词对页面聚类,发现存在于多个相关联页面间的热点事件,可扩展性强。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
构成说明书的一部分的附图描述了本发明的实施例,并且连同说明书一起用于解释本发明的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
图1示出根据本发明的基于页面分析的高频页面内容聚类方法的一个实施例的流程图。
图2示出根据本发明的一个实施例中基于页面分析的热点事件发现方法的热点事件及其热点锚页面生成流程图。
图3示出本发明的一个实施例中基于页面分析的热点事件发现方法的热点事件集合的合并生成流程图。
图4示出根据本发明的高频页面内容聚类系统的一个实施例的结构图。
图5示出根据本发明的高频页面内容聚类系统的另一个实施例的结构图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1示出本发明一种基于页面分析的热点事件发现方法的流程示意图。
如图1所示,该实施例中包括以下步骤:
步骤101:系统对用户访问日志内的所有页面,根据页面的不同访问特征,将页面集合划分为多个子集合,即特征页面集合。例如,作为子集合划分依据的页面的访问特征,可以包含但不局限于时间段、地理位置、消费水平和手机类型。
步骤102:对每一个特征页面集合进行词频分析,统计出该特征页面集合出现频率最高的词汇(即特征高频词汇,也称为“热词”)的集合,获得特征高频词汇集合(或者称为“特征热词集合”)。此处的出现频率最高的词汇指出现频率最高的一个或者多个词汇,或者是出现频率最高的Nbest词汇。
步骤103:在特征页面集合内检索包含特征高频词汇集合中任意一个或多个特征高频词汇的页面,得到所有这些页面组成的集合,即高频词汇页面集合(或者称为“热词页面集合”)。
步骤104:在高频词汇页面集合中选择用户访问量最高的页面作为热点锚页面,以热点锚页面为基准对高频词汇页面集合进行聚类,得到若干热点页面集合;每一个热点页面集合代表一个热点事件,该热点事件的标题和正文分别用“热点页面集合”对应的“热点锚页面”的标题和正文来表示。
步骤105:判断高频词汇页面集里的所有页面是否都被分类。如果高频词汇页面集合里的还有页面没被分类,则重复上面步骤101到步骤104;如果高频词汇页面集合里的所有页面都被分类,则得到每一个特征页面集合的热点事件集合,直到高频词汇页面集合内所有页面都被分类为止;每一个特征页面集合的热点事件集合代表了具有某一特征的人群的热点话题;
步骤106:根据需要,将两个或者多个特征页面集合的热点事件集合进行合并,得到合并后的热点集合;合并后的热点事件集合可以代表具有某两个或者多个特征的人群的热点话题;将所有“特征页面集合”的热点事件集合进行合并,得到合并后的热点集合可以被表示普遍意义的热点,代表所有用户群的热点话题。
上述实施例中,通过对所有待分析的页面内容进行关键词分析与页面聚类,从而发现存在于多个相关联页面间的热点事件,以便其他平台基于这些业务数据拓展增值业务。
图2示出本发明的一个实施例中基于页面分析的热点事件发现方法的特征页面集合生成流程示意图。
如图2所示,该实施例中包括以下步骤:
步骤201:记“热词页面集合”为P0,记“特征热词集合”为C,对P0进行聚类:定义页面a与页面b之间的距离D(a,b)为:
其中代表特征高频词汇(或称为热点词)i出现在页面a中的次数,代表特征高频词汇i出现在页面b中的次数;
设n=0,进行下面的处理:
步骤202:取Pn中用户访问次数最多的页面,定义该页面为第n个“热点锚页面”,记为mn;
步骤203:找到与mn距离小于经验值d的热点页面集合Hn
Hn={p|D(mn,p)<d,p∈pn}(2);
这样获得一个热点事件,用集合Hn表示;
步骤204:获得剩余高频词汇页面集合Pn+1=Pn-Hn
步骤205:判断剩余高频词汇页面集合pn+1是否为空,如果热点页面集合Pn+1不为空,n=n+1,重复步骤202至步骤204的操作。
步骤206:如果剩余热词页面集合Pn+1为空,则终止聚类过程,得到n个热点事件及其热点锚页面。
图3示出本发明的一个实施例中基于页面分析的热点事件发现方法的热点事件集合的合并生成流程示意图。
如图3所示,该实施例包括以下步骤:
步骤301:首先将两个或者多个“特征页面集合”的热点事件进行合并,记为H={H1,H2,...Hm};
步骤302-304:判断H中重复的热点事件,具体实现为:如果热点集合Ha和Hb满足ma=mb或ma∈Hb或mb∈Ha,则认为热点集合Ha和Hb是重复的;否则,确定热点集合Ha和Hb不重复(步骤306)。
步骤305:将重复热点集合Ha和Hb合并为新热点集合Hc,其中Hc={p|p∈Ha或p∈Hb},其对应的热点锚页面mc为Hc中访问次数最多的页面。
在一个实施例中,“特征页面集合”的划分过程中,系统支持把页面访问人群的“时间段”,分为最近1月到最近1周前、最近1周到最近1天前和最近1天三个类别;页面访问人群的“消费水平”按月消费额,分为高(>200元/月)、中(100~200元/月)、低(<100元/月)三档;页面访问人群的地理位置按国家行政区划分原则,分为34个行政区。根据上述划分原则,本方法能将用户访问的页面,按以上访问特征划分为多个“特征页面集合”,每个“特征页面集合”代表了某时间段内、某行政区、某消费水平的用户访问的页面集合。
本文中提出一种基于页面分析的热点事件发现技术方案,通过对所有待分析页面进行文本提取,再进行关键词分析与页面聚类,发现存在于多个相关联页面间的热点事件,并根据系统中设置的特征偏好设置信息(如地域、用户爱好、消费人群等)整合热点事件的相关信息,可扩展性强。同时,算法对距离的定义简单实用,聚类过程计算复杂度低。
图4示出根据本发明的高频页面内容聚类系统的一个实施例的结构图。如图4所示,该系统包括:特征页面划分模块41,用于获取用户访问日志内的页面,根据页面的访问特征划分为多个特征页面集合;高频词汇获得模块42,用于通过对每一个特征页面集合进行词频分析获得各个特征页面集合出现频率最高的特征高频词汇,获得特征高频词汇集合;词汇页面获得模块43,用于在特征页面集合内检索包含特征高频词汇集合中任意一个或多个特征高频词汇的页面,得到所有这些页面组成的高频词汇页面集合;热点页面获得模块44,用于在高频词汇页面集合中,选择用户访问量最高的页面定义为热点锚页面,以热点锚页面为基准对高频词汇页面集合进行聚类得到热点页面集合;每一个热点页面集合对应一个热点事件,热点事件的标题和正文分别用热点页面集合对应的热点锚页面的标题和正文来表示;将高频词汇页面集合中的所有页面都进行分类,得到每一个特征页面集合的热点事件集合,直到高频词汇页面集合内页面都被分类为止。页面的访问特征例如包括:时间段、地理位置、消费水平、和/或手机类型。
图5示出根据本发明的高频页面内容聚类系统的另一个实施例的结构图。该系统还包括热点页面合并模块55,用于将两个或者多个特征页面集合的热点事件集合进行合并得到合并后的热点集合;或者将所有特征页面集合的热点事件集合进行合并得到合并后的热点集合。
在一个实施例中,热点页面合并模块55将两个或者多个特征页面集合的热点事件进行合并,记为H={H1,H2,...Hm};判断H中重复的热点事件,如果热点集合Ha和Hb满足ma=mb或ma∈Hb或mb∈Ha,则确定热点集合Ha和Hb是重复的;将重复热点集合Ha和Hb合并为新热点集合Hc,其中Hc={p|p∈Ha或p∈Hb},其对应的热点锚页面mc为Hc中访问次数最多的页面。
在一个实施例中,热点页面获得模块执行如下操作:
i.记高频词汇页面集合为P0,记特征高频词汇集合为C,对P0进行聚类:定义页面a与页面b之间的距离D(a,b)为:
其中代表特征高频词汇i出现在页面a中的次数,代表特征高频词汇i出现在页面b中的次数;设n=0,进行下面的处理:
ii.取Pn中用户访问次数最多的页面,定义该页面为第n个热点锚页”,记为mn;
iii.找到与mn距离小于经验值d的热点页面集合Hn
Hn={p|D(mn,p)<d,p∈pn};
iv.获得剩余高频词汇页面集合Pn+1=Pn-Hn
v.判断剩余高频词汇页面集合pn+1是否为空,如果剩余高频词汇页面集合Pn+1不为空,重复步骤ii和步骤iv的工作;
如果剩余高频词汇页面集合Pn+1为空,则终止聚类过程,得到n个热点事件及其热点锚页面。
至此,已经详细描述了根据本发明的海量网页高频内容提取方法和系统。为了避免遮蔽本发明的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本发明的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员应该理解,可在不脱离本发明的范围和精神的情况下,对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims (10)

1.一种高频页面内容聚类方法,其特征在于,包括:
获取用户访问日志内的页面,根据页面的访问特征划分为多个特征页面集合;
通过对每一个特征页面集合进行词频分析获得各个特征页面集合出现频率最高的特征高频词汇,获得特征高频词汇集合;
在特征页面集合内检索包含特征高频词汇集合中任意一个或多个特征高频词汇的页面,得到所有这些页面组成的高频词汇页面集合;
在高频词汇页面集合中,选择用户访问量最高的页面定义为热点锚页面,以热点锚页面为基准利用基于距离的聚类算法对高频词汇页面集合进行聚类得到热点页面集合;每一个热点页面集合对应一个热点事件,热点事件的标题和正文分别用热点页面集合对应的热点锚页面的标题和正文来表示;
将高频词汇页面集合中的所有页面都进行分类,得到每一个特征页面集合的热点事件集合,直到高频词汇页面集合内页面都被分类为止。
2.根据权利要求1所述的方法,其特征在于,还包括:
将两个或者多个特征页面集合的热点事件集合进行合并得到合并后的热点集合;
或者
将所有特征页面集合的热点事件集合进行合并得到合并后的热点集合。
3.根据权利要求2所述的方法,其特征在于,所述将两个或者多个特征页面集合的热点事件集合进行合并得到合并后的热点集合包括:
将两个或者多个特征页面集合的热点事件进行合并,记为H={H1,H2,…Hm},H1,H2,…Hm表示各个特征页面集合的热点集合;
判断H中重复的热点事件,如果热点集合Ha和Hb满足ma=mb或ma∈Hb或mb∈Ha,则确定热点集合Ha和Hb是重复的;
将重复热点集合Ha和Hb合并为新热点集合Hc,其中Hc= {p|p∈Ha或p∈Hb},其对应的热点锚页面mc为Hc中访问次数最多的页面。
4.根据权利要求1所述的方法,其特征在于,所述在高频词汇页面集合中选择用户访问量最高的页面定义为热点锚页面、以热点锚页面为基准利用基于距离的聚类算法对高频词汇页面集合进行聚类得到热点页面集合包括:
i.记高频词汇页面集合为P0,记特征高频词汇集合为C,对P0进行聚类:定义页面a与页面b之间的距离D(a,b)为:
其中代表特征高频词汇i出现在页面a中的次数,代表特征高频词汇i出现在页面b中的次数;设n=0,进行下面的处理:
ii.取Pn中用户访问次数最多的页面,定义该页面为第n个热点锚页,记为mn
iii.找到与mn距离小于经验值d的热点页面集合Hn
Hn={p|D(mn,p)<d,p∈pn};
iv.获得剩余高频词汇页面集合Pn+1=Pn-Hn
v.判断剩余高频词汇页面集合pn+1是否为空,如果剩余高频词汇页面集合pn+1不为空,n=n+1,重复步骤ii和步骤iv的工作;
如果剩余高频词汇页面集合Pn+1为空,则终止聚类过程,得到n个热点事件及其热点锚页面。
5.根据权利要求1所述的方法,其特征在于,所述页面的访问特征包括:时间段、地理位置、消费水平、和/或手机类型。
6.一种高频页面内容聚类系统,其特征在于,包括:
特征页面划分模块,用于获取用户访问日志内的页面,根据页面的访问特征划分为多个特征页面集合;
高频词汇获得模块,用于通过对每一个特征页面集合进行词频分析获得各个特征页面集合出现频率最高的特征高频词汇,获得特征高频词汇集合;
词汇页面获得模块,用于在特征页面集合内检索包含特征高频词汇集合中任意一个或多个特征高频词汇的页面,得到所有这些页面组成的高频词汇页面集合;
热点页面获得模块,用于在高频词汇页面集合中,选择用户访问量最高的页面定义为热点锚页面,以热点锚页面为基准利用基于距离的聚类算法对高频词汇页面集合进行聚类得到热点页面集合;每一个热点页面集合对应一个热点事件,热点事件的标题和正文分别用热点页面集合对应的热点锚页面的标题和正文来表示;将高频词汇页面集合中的所有页面都进行分类,得到每一个特征页面集合的热点事件集合,直到高频词汇页面集合内页面都被分类为止。
7.根据权利要求6所述的系统,其特征在于,还包括:
热点页面合并模块,用于将两个或者多个特征页面集合的热点事件集合进行合并得到合并后的热点集合;或者将所有特征页面集合的热点事件集合进行合并得到合并后的热点集合。
8.根据权利要求7所述的系统,其特征在于,所述热点页面合并模块将两个或者多个特征页面集合的热点事件进行合并,记为H={H1,H2,…Hm},H1,H2,…Hm表示各个特征页面集合的热点集合;判断H中重复的热点事件,如果热点集合Ha和Hb满足ma=mb或ma∈Hb或mb∈Ha,则确定热点集合Ha和Hb是重复的;将重复热点集合Ha和Hb合并为新热点集合Hc,其中Hc={p|p∈Ha或p∈Hb},其对应的热点锚页面mc为Hc中访问次数最多的页面。
9.根据权利要求6所述的系统,其特征在于,所述热点页面获得模块执行如下操作:
i.记高频词汇页面集合为P0,记特征高频词汇集合为C,对P0进行聚类:定义页面a与页面b之间的距离D(a,b)为:
其中代表特征高频词汇i出现在页面a中的次数,代表特征高频词汇i出现在页面b中的次数;设n=0,进行下面的处理:
ii.取Pn中用户访问次数最多的页面,定义该页面为第n个热点锚页,记为mn
iii.找到与mn距离小于经验值d的热点页面集合Hn
Hn={p|D(mn,p)<d,p∈pn};
iv.获得剩余高频词汇页面集合Pn+1=Pn-Hn
v.判断剩余高频词汇页面集合pn+1是否为空,如果剩余高频词汇页面集合Pn+1不为空,n=n+1,重复步骤ii和步骤iv的工作;
如果剩余高频词汇页面集合Pn+1为空,则终止聚类过程,得到n个热点事件及其热点锚页面。
10.根据权利要求6所述的系统,其特征在于,所述页面的访问特征包括:时间段、地理位置、消费水平、和/或手机类型。
CN201210581457.7A 2012-12-28 2012-12-28 高频页面内容聚类方法和系统 Active CN103902596B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210581457.7A CN103902596B (zh) 2012-12-28 2012-12-28 高频页面内容聚类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210581457.7A CN103902596B (zh) 2012-12-28 2012-12-28 高频页面内容聚类方法和系统

Publications (2)

Publication Number Publication Date
CN103902596A CN103902596A (zh) 2014-07-02
CN103902596B true CN103902596B (zh) 2017-10-20

Family

ID=50993924

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210581457.7A Active CN103902596B (zh) 2012-12-28 2012-12-28 高频页面内容聚类方法和系统

Country Status (1)

Country Link
CN (1) CN103902596B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11120004B2 (en) 2014-11-25 2021-09-14 Verizon Media Inc. Method and system for analyzing a user agent string
WO2016082094A1 (en) 2014-11-25 2016-06-02 Yahoo! Inc. Method and system for providing a user agent string database
CN105608225B (zh) * 2016-01-20 2019-08-30 北京京东尚科信息技术有限公司 网页自动布局方法和装置
CN107992478A (zh) * 2017-11-30 2018-05-04 百度在线网络技术(北京)有限公司 确定热点事件的方法和装置
CN110162356B (zh) * 2018-05-14 2021-09-28 腾讯科技(深圳)有限公司 页面的融合方法、装置、存储介质及电子装置
CN111368170B (zh) * 2020-02-11 2023-03-31 口碑(上海)信息技术有限公司 页面数据的巡检方法、装置及设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6598054B2 (en) * 1999-01-26 2003-07-22 Xerox Corporation System and method for clustering data objects in a collection
US20090070346A1 (en) * 2007-09-06 2009-03-12 Antonio Savona Systems and methods for clustering information
CN102004792B (zh) * 2010-12-07 2012-10-10 百度在线网络技术(北京)有限公司 一种热搜词生成方法及系统
CN102831248B (zh) * 2012-09-18 2016-05-11 北京奇虎科技有限公司 网络热点挖掘方法及装置

Also Published As

Publication number Publication date
CN103902596A (zh) 2014-07-02

Similar Documents

Publication Publication Date Title
CN103902596B (zh) 高频页面内容聚类方法和系统
CN106682144B (zh) 页面展示方法和装置
CN106528894B (zh) 设置标签信息的方法及装置
CN109299271B (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN101000627B (zh) 一种相关信息的发布方法和装置
CN108062375A (zh) 一种用户画像的处理方法、装置、终端和存储介质
CN106504099A (zh) 一种构建用户画像的系统
CN107894998B (zh) 视频推荐方法及装置
CN110457577B (zh) 数据处理方法、装置、设备和计算机存储介质
CN106326391A (zh) 多媒体资源推荐方法及装置
CN104008184A (zh) 信息的推送方法和装置
CN103064880B (zh) 一种基于搜索信息向用户提供网站选择的方法、装置和系统
CN102591942A (zh) 一种应用自动推荐的方法及装置
CN103488788A (zh) 一种应用自动推荐的方法及装置
CN108595461A (zh) 兴趣探索方法、存储介质、电子设备及系统
CN105094775B (zh) 网页生成方法和装置
CN101446962A (zh) 一种数据转换方法、装置及数据处理系统
CN102890698A (zh) 微博话题标签自动化描述方法
CN106326297B (zh) 一种应用程序推荐方法及装置
CN104077415A (zh) 搜索方法及装置
CN102193946A (zh) 为媒体文件添加标签方法和使用该方法的系统
CN102567534B (zh) 互动产品用户生成内容拦截系统及其拦截方法
CN104077723A (zh) 一种社交网络推荐系统及方法
CN105408894B (zh) 一种用户身份类别确定方法以及装置
CN104484435A (zh) 交叉分析用户行为的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant