CN103279527B - 一种用户兴趣网址挖掘方法及装置 - Google Patents
一种用户兴趣网址挖掘方法及装置 Download PDFInfo
- Publication number
- CN103279527B CN103279527B CN201310208358.9A CN201310208358A CN103279527B CN 103279527 B CN103279527 B CN 103279527B CN 201310208358 A CN201310208358 A CN 201310208358A CN 103279527 B CN103279527 B CN 103279527B
- Authority
- CN
- China
- Prior art keywords
- information
- network address
- behavior
- user
- website
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种用户兴趣网址挖掘方法及装置。其中一种用户兴趣网址挖掘方法包括:从用户的实时浏览行为中,提取行为特征信息;利用所提取的所述行为特征信息与预设浏览行为集合中元素的属性值进行匹配;如果所述行为特征信息与所述预设浏览行为集合中元素的属性值匹配成功,则提取匹配成功的所述元素对应的网址信息。也就是说本发明提供的用户兴趣网址挖掘方法可以提取实时浏览行为中的行为特征信息,进一步可以对行为特征信息与属性值进行实时匹配,从匹配结果中实时提取网址信息,相对于通过记录一段时间内用户所使用的网址来进行网址挖掘的现有技术来说,缩短延迟时间,提高挖掘的实时性。
Description
技术领域
本发明涉及互联网应用技术领域,特别是涉及一种用户兴趣网址挖掘方法及装置。
背景技术
导航网站呈现给用户的热门网址通常是经过提供方编辑的热门网址,然而单个用户实际使用的热门网址有限,并且单个用户常用的网址可能并不是大众意义上的热门网址。因此对于单个用户而言,其需要的是自身感兴趣的网址,用户兴趣网址挖掘方法正是从海量的用户上网记录中,快速解析出用户感兴趣的网址,并利用网址平台,将用户感兴趣的网址在导航网站中推荐给用户,从而在单个用户使用的浏览器的导航网站中仅存储用户感兴趣的网址。
现有的网址挖掘方案,是通过记录一段时间内用户所使用的网址来进行网址挖掘:如果用户多天内总是使用同一网址,则判定该网址为用户感兴趣的网址,并且将该网址推送至导航网站中。由于历史行为能够体现出用户在最近一段时间的使用习惯,因此这种挖掘方案具有一定的准确性。但是这种方案的缺点在于:需要搜集多天的用户行为记录作为挖掘依据,因此从开始搜集数据到得出结果的过程存在数天的延迟,导致挖掘的实时性较差。
发明内容
为解决上述技术问题,本发明实施例提供一种用户兴趣网址挖掘方法及装置,以解决现有用户兴趣网址挖掘方法中从开始搜集数据到得出结果的过程存在数天延迟导致的挖掘实时性较差的问题,技术方案如下:
本发明实施例提供一种用户兴趣网址挖掘方法,包括:
从用户的实时浏览行为中,提取行为特征信息;
利用所提取的所述行为特征信息与预设浏览行为集合中元素的属性值进行匹配;
如果所述行为特征信息与所述预设浏览行为集合中元素的属性值匹配成功,则提取匹配成功的所述元素对应的网址信息。
在本发明的一种具体实施方式中,所述行为特征信息包括:名称信息、题目信息和/或统一资源定位符信息;
所述利用所提取的所述行为特征信息与预设浏览行为集合中元素的属性值进行匹配,包括:
利用所述名称信息与所述预设浏览行为集合中元素的名称属性值进行匹配;
和/或
利用所述题目信息与所述预设浏览行为集合中元素的名称属性值进行匹配;
和/或
利用所述统一资源定位符信息与所述预设浏览行为集合中元素的统一资源定位符属性值进行匹配。
在本发明的一种具体实施方式中,所述行为特征信息还包括:网址类型信息;
所述利用所提取的所述行为特征信息与预设浏览行为集合中元素的属性值进行匹配还包括:利用所述网址类型信息与所述预设浏览行为集合中元素的类型属性值进行匹配。
在本发明的一种具体实施方式中,所述提取匹配成功的所述元素对应的网址信息,包括:
当所述元素对应的网址信息的个数为一个时,直接提取匹配成功的所述元素对应的网址信息。
在本发明的一种具体实施方式中,所述提取匹配成功的所述元素对应的网址信息,包括:
当所述元素对应的网址信息的个数大于一个时,获取元素的网页浏览时间属性值;
提取与所述实时浏览行为的发生时间最接近的网页浏览时间属性值对应的网址信息。
在本发明的一种具体实施方式中,所述提取匹配成功的所述元素对应的网址信息,包括:
判断所述元素对应的网址信息的是否为已被操作过的网址信息,其中所述操作包括删除操作、添加操作和/或推送操作;
根据判断结果,提取未被操作过的网址信息。
本发明实施例还提供一种用户兴趣网址挖掘装置,该装置包括:
第一提取单元,用于从用户的实时浏览行为中,提取行为特征信息;
匹配单元,用于利用所提取的所述行为特征信息与预设浏览行为集合中元素的属性值进行匹配;
第二提取单元,用于在所述行为特征信息与所述预设浏览行为集合中元素的属性值匹配成功的情况下,提取匹配成功的所述元素对应的网址信息。
在本发明的一种具体实施方式中,所述行为特征信息包括:名称信息、题目信息和/或统一资源定位符信息;
所述匹配单元具体用于:
利用所述名称信息与所述预设浏览行为集合中元素的名称属性值进行匹配;
和/或
利用所述题目信息与所述预设浏览行为集合中元素的名称属性值进行匹配;
和/或
利用所述统一资源定位符信息与所述预设浏览行为集合中元素的统一资源定位符属性值进行匹配。
在本发明的一种具体实施方式中,所述行为特征信息还包括:网址类型信息;
所述匹配单元进一步用于利用所述网址类型信息与所述预设浏览行为集合中元素的类型属性值进行匹配。
在本发明的一种具体实施方式中,所述第二提取单元包括:
第一判断子单元,用于判断所述元素对应的网址信息的个数是否为一个;
第一提取子单元,用于当所述元素对应的网址信息的个数为一个时,直接提取匹配成功的所述元素对应的网址信息;
获取子单元,用于当所述元素对应的网址信息的个数大于一个时,获取元素的网页浏览时间属性值;
第二提取子单元,用于提取与所述实时浏览行为的发生时间最接近的网页浏览时间属性值对应的网址信息。
在本发明的一种具体实施方式中,所述第二提取单元具体用于:
判断所述元素对应的网址信息的是否为已被操作过的网址信息,其中所述操作包括删除操作、添加操作和/或推送操作;
根据判断结果,提取未被操作过的网址信息。
本发明提供的用户兴趣网址挖掘方法可以从用户的实时浏览行为中提取行为特征信息,利用所提取的所述行为特征信息可以与预设浏览行为集合中元素的属性值进行匹配,再从匹配成功的元素对应的匹配结果中提取网址信息。也就是说本发明提供的用户兴趣网址挖掘方法可以提取实时浏览行为中的行为特征信息,进一步可以对行为特征信息与属性值进行实时匹配,从匹配结果中实时提取网址信息,相对于通过记录一段时间内用户所使用的网址来进行网址挖掘的现有技术来说,缩短延迟时间,提高挖掘的实时性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例的挖掘体系结构示意图;
图2为本发明实施例提供的一种用户兴趣网址挖掘方法的一种流程图;
图3为本发明实施例提供的一种用户兴趣网址挖掘方法的第二种流程图;
图4为本发明实施例提供的一种用户兴趣网址挖掘方法的第三种流程图;
图5为本发明实施例提供的一种用户兴趣网址挖掘方法的第四种流程图;
图6为本发明实施例提供的用户兴趣网址挖掘装置的结构示意图;
图7为本发明实施例提供的用户兴趣网址挖掘装置中第二提取单元的一种结构示意图。
具体实施方式
首先对本发明所提供的一种用户兴趣网址挖掘方法进行说明,该方法可以包括以下步骤:
从用户的实时浏览行为中,提取行为特征信息;
利用所提取的所述行为特征信息与预设浏览行为集合中元素的属性值进行匹配;
如果所述行为特征信息与所述预设浏览行为集合中元素的属性值匹配成功,则从匹配成功的所述元素对应的匹配结果中提取网址信息。上述步骤的执行主体,可以是一个能够与客户端进行通信的挖掘装置,图1所示为根据本发明实施例的挖掘体系结构示意图,其中挖掘装置100是针对客户端200设置,目的是截获客户端200发送至服务器300的数据流,对客户端使用的网址进行自动挖掘,并将挖掘到的网址信息推送到导航网站中显示,其中数据流由用户在浏览网址时的行为特征信息组成。
在实际应用中,挖掘装置100可以位于服务器300内,当然挖掘装置100也可以作为一个独立装置连接在客户端200和服务器300之间,例如,采用一独立的挖掘终端对客户端200所使用的网址进行自动挖掘,该挖掘终端与客户端200可以直接连接或通过网络进行连接。
本发明实施例所提供的用户兴趣网址挖掘方法可以提取实时浏览行为中的行为特征信息,进一步可以对行为特征信息与属性值进行实时匹配,从匹配结果中实时提取网址信息,相对于通过记录一段时间内用户所使用的网址来进行网址挖掘的现有技术来说,缩短延迟时间,提高挖掘的实时性。
为了使本领域技术人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明保护的范围。
请参阅图2,其示出了本发明实施例提供的一种用户兴趣网址挖掘方法的一种流程图,可以包括以下步骤:
步骤101:从用户的实时浏览行为中,提取行为特征信息。
在本实施例中,用户的实时浏览行为可以是用户实时查询资料或者是实时观看影视节目等行为。当用户进行上述实时浏览行为时,可以将所查询的内容和网址对应的URL(Uniform Resource Locator,统一资源定位符)等信息作为行为特征信息。
其中行为特征信息可以包括名称信息、URL信息、UID(User Identifier,用户标识符)信息、cookie(储存在用户本地终端上的数据)信息和题目信息中的任意一种信息,当然也可以包括上述几种信息,对此本实施例不加以限制。
例如cookie为X时,用户使用浏览器搜索“天下无双”这一电视剧时,提取到的行为特征信息可以包括以下几个方面:
名称信息(QUERY):天下无双;
URL信息:http://www.youku.com/show_page/id_zcbfbbef2962411de83b1.html;
UID信息:空,当UID信息为空时,表明进行节目搜索的用户未登陆至服务器上;
cookie信息:X;
题目信息(TITLE):《天下无双》35集全—港剧—电视剧—优酷网。
在本实施例中,行为特征信息的信息格式请参阅表1所示。
表1行为特征信息的信息格式表
步骤102:利用所提取的所述行为特征信息与预设浏览行为集合中元素的属性值进行匹配。
所述预设浏览行为集合可以是通过对用户之前访问的网址进行分析,得到用户所浏览网址的相关内容的集合,其中一个元素的属性值可以对应某一个网址的相关内容。在本实施例中预设浏览行为集合可以通过人工配置,也可以通过其他分析器分析网址自动生成。并且对于不同类型的网址,预设浏览行为集合中元素的属性值也可以不同。
例如对于寻址类和资源类网址来说,预设浏览行为集合中元素的属性值可以包括名称属性值和URL属性值,如表2所示。
表2预设浏览行为集合的信息表
在本实施例中,行为特征信息包括名称信息一种信息时,利用所提取的所述行为特征信息与预设浏览行为集合中元素的属性值进行匹配可以是:利用行为特征信息中的名称信息与预设浏览行为集合中的名称属性值进行匹配。
当行为特征信息包括题目信息这一种信息时,利用所提取的所述行为特征信息与预设浏览行为集合中元素的属性值进行匹配可以是:利用所述题目信息与预设浏览行为集合中元素的名称属性值进行匹配。
当行为特征信息包括URL信息这一种信息时,利用所提取的所述行为特征信息与预设浏览行为集合中元素的属性值进行匹配可以是:利用所述URL信息与预设浏览行为集合中元素的URL属性值进行匹配。
在本实施例中,名称信息、题目信息和URL信息可以分别独立使用,当然也可以相互结合使用。例如行为特征信息也可以同时包括名称信息和URL信息,利用所提取的所述行为特征信息与预设浏览行为集合中元素的属性值进行匹配则可以是:利用行为特征信息中的所述名称信息与所述预设浏览行为集合中元素的名称属性值、行为特征信息中的URL信息与所述预设浏览行为集合中元素的URL属性值进行匹配。
当然行为特征信息也可以同时包括题目信息和URL信息,或者同时包括题目信息和名称信息,或者同时包括名称信息、题目信息和URL信息,那么利用所提取的所述行为特征信息与预设浏览行为集合中元素的属性值进行匹配则可以是行为特征信息包括的多个信息分别对应预设浏览行为集合中元素的某个属性值进行匹配。
其中信息与属性值的匹配可以是完全匹配,也可以是不完全匹配。完全匹配是指信息对应的所有内容与属性值对应的所有内容进行匹配,不完全匹配是指信息对应的部分内容与属性值对应的部分内容进行匹配。以表1和表2为例,名称信息和名称属性值的完全匹配是“天下无双”和“天下无双”的匹配,题目信息和名称属性值的不完全匹配可以是“《天下无双》35集全”和“天下无双”的匹配。
需要说明的是:本实施例列举了以表1所示的行为特征信息与以表2所示的元素的属性值进行匹配的实现方式,对于其他格式的行为特征信息和元素的属性值进行匹配的方式也适用于本实施例阐述的用户兴趣网址挖掘方法。例如URL属性值可以是具体的页面,也可以是页面路径。此外,本实施例阐述的用户兴趣网址挖掘方法并不适用于挖掘仅使用一次的网址,而普遍适用于寻址类和资源类网址的挖掘。
步骤103:如果所述行为特征信息与所述预设浏览行为集合中元素的属性值匹配成功,则提取匹配成功的所述元素对应的网址信息。
其中,行为特征信息与预设浏览行为集合中元素的属性值匹配成功是指行为特征信息和元素的属性值具有相同内容。例如名称信息和名称属性值的匹配是“天下无双”与“天下无双”的匹配时,表明匹配成功。当匹配成功时,提取匹配成功的所述元素对应的网址信息。
由于预设浏览行为集合可以包括大量元素,每个元素对应一个网址信息,所以本实施例提供的用户兴趣网址挖掘方法通过行为特征信息与预设浏览行为集合中元素的属性值进行匹配可以去除与行为特征信息匹配不成功的元素,进而过滤掉匹配不成功的元素对应的网址信息,降低挖掘数量,提高挖掘实时性。
在本实施例中预设浏览行为集合中可以同时包括多个用户所浏览网址的相关内容,并且多个用户可以浏览同一网址,每个用户浏览每个网址的相关内容对应预设浏览行为集合中的每个元素的属性值,所以匹配成功的元素对应的网址信息可以包括多个用户浏览的网址信息,进而在提取网址信息时可以同时提取多个用户浏览的网址信息。当然在提取网址信息时也可以提取某个用户浏览的网址信息,此处的某个用户可以是行为特征信息对应的用户,即提取同一个用户浏览的网址信息,当然某个用户也可以是行为特征信息对应的用户所不同的用户,即提取不同用户浏览的网址信息。
在本实施例中,提取同一个用户浏览的网址信息可以通过用户的UID信息实现。当用户登陆到网址对应的服务器后浏览网址时,服务器会记录用户的UID信息,预设浏览行为集合中每个元素的属性值对应一个用户浏览网页的相关内容,所以通过用户的UID信息可以确定与行为特征信息具有相同用户的UID信息对应的元素,进一步提取具有相同用户的UID信息对应的元素所对应的网址信息。
当用户未登陆到网址对应的服务器浏览网址时,服务器可以依据cookie和UID的映射关系,得到UID信息,进而提取具有相同用户的UID信息对应的元素所对应的网址信息。仍以表1所对应的行为特征信息为例,依据cookie和UID的映射关系,得到UID信息是11111,该UID信息对应的网址信息是http://www.youku.com/show_page/id_zcbfbbef2962411de83b1.html。
当然预设浏览行为集合也可以仅包括一个用户所浏览网址的相关内容,所以匹配成功的元素对应的网址信息必然是一个用户浏览的网址信息,进而所提取的网址信息与行为特征信息对应同一个用户。
应用上述技术方案,本发明实施例提供的用户兴趣网址挖掘方法可以从用户的实时浏览行为中提取行为特征信息,利用所提取的所述行为特征信息可以与预设浏览行为集合中元素的属性值进行匹配,再从匹配成功的元素对应的匹配结果中提取网址信息。也就是说本发明提供的用户兴趣网址挖掘方法可以提取实时浏览行为中的行为特征信息,进一步可以对行为特征信息与属性值进行实时匹配,从匹配结果中实时提取网址信息,相对于通过记录一段时间内用户所使用的网址来进行网址挖掘的现有技术来说,缩短延迟时间,提高挖掘的实时性。
上述图2所示的用户兴趣网址挖掘方法虽然可以提高挖掘的实时性,但是提取到的网址信息有可能与用户浏览的网址信息不属于同一类型,挖掘的准确度降低。为了解决该问题,本发明实施例还提供了一种用户兴趣网址挖掘方法的第二种流程图,请参阅图3所示。
本发明实施例提供的用户兴趣网址挖掘方法可以包括以下步骤:
步骤201:从用户的实时浏览行为中,提取行为特征信息。
在本实施例中,步骤201的具体过程可以参阅步骤101中的详细说明,对此本实施例不再加以介绍。
步骤202:利用所提取的所述行为特征信息中的名称信息和/或题目信息与预设浏览行为集合中元素的名称属性值进行匹配。
当然,在利用所提取的行为特征信息中的名称信息和/或题目信息与预设浏览行为集合中元素的名称属性值进行匹配时,还可以同时利用所提取的行为特征信息中的URL信息与预设浏览行为集合中元素的URL属性值进行匹配。匹配的具体过程可以参阅步骤102中的详细说明,对此本实施例不再加以阐述。
步骤203:利用所述行为特征信息中的网址类型信息与所述预设浏览行为集合中元素的类型属性值进行匹配。
在本实施例中,预设浏览行为集合中元素的属性值增加了类型属性值,该预设浏览行为集合的信息表可以参阅表3所示。
表3预设浏览信息集合的信息表
名称属性值 | 类型属性值 | URL属性值 |
天下无双 | 电视剧 | http://www.funshion.com/subject/90406/ |
天下无双 | 小说 | http://www.qidian.com/Book/1491481.aspx |
天下无双 | 游戏 | http://bdtg.37wan.com/s/1/296/3286.html |
其中,元素的类型属性值标识元素对应的网址信息的网址类型,所述网址类型信息也标识了用户浏览的网址类型。通过网址类型信息与元素的类型属性值进行匹配,可以保证最终提取到的网址信息与用户浏览的网址属于同一种类型的网址,提高挖掘的准确度。
仍以表1所示的行为特征信息为基础,表1中行为特征信息中的网址类型信息是:电视剧,该网址类型信息可以与元素的类型属性值对应的一列数值分别进行匹配。
需要说明的是:利用行为特征信息中的网址类型信息与预设浏览行为集合中元素的类型属性值进行匹配可以同步骤202同时执行,即同时将行为特征信息中的多个信息分别与预设浏览行为集合中元素的多个属性值进行匹配。当然也可以在步骤202匹配成功后,执行步骤203,对此本实施例并不限定步骤202和步骤203的执行顺序。
步骤204:如果所述行为特征信息与所述预设浏览行为集合中元素的属性值匹配成功,则提取匹配成功的所述元素对应的网址信息。
其中,行为特征信息与预设浏览行为集合中元素的属性值匹配成功是指行为特征信息和元素的属性值具有相同内容。例如网址类型信息和类型属性值的匹配是“电视剧”与“电视剧”的匹配时,表明匹配成功,并且表明两个网址属于同一类型的网址。当匹配成功时,提取匹配成功的所述元素对应的网址信息。其中提取的网址信息可以是与实时浏览行为对应的同一用户浏览过的网址信息,也可以是不同用户浏览过的网址信息,具体原因以及提取过程请参阅步骤103中的详细说明。
应用上述技术方案,本发明提供的用户兴趣网址挖掘方法可以提取实时浏览行为中的行为特征信息,进一步可以对行为特征信息与属性值进行实时匹配,从匹配结果中实时提取网址信息,相对于通过记录一段时间内用户所使用的网址来进行网址挖掘的现有技术来说,缩短延迟时间,提高挖掘的实时性。并且通过网址类型信息与元素的类型属性值进行匹配,可以保证最终提取到的网址信息与用户浏览的网址属于同一种类型的网址,提高挖掘的准确度。
当元素对应的网址信息数量不同时,提取方式也可以不同,具体可以参阅图4和图5所示,其示出了本发明实施例提供的用户兴趣网址挖掘方法的对网址信息提取的方式。
请参阅图4,其示出了本发明实施例提供的一种用户兴趣网址挖掘方法的第三种流程图,可以包括以下步骤:
步骤301:从用户的实时浏览行为中,提取行为特征信息。
步骤302:利用所提取的所述行为特征信息与预设浏览行为集合中元素的属性值进行匹配。
在本实施例中,步骤301和步骤302的具体过程可以参阅步骤101和步骤102的具体过程,当然也可以参阅步骤201至步骤203的具体过程,对此本实施例不再加以详细说明。
步骤303:如果所述行为特征信息与所述预设浏览行为集合中元素的属性值匹配成功,判断匹配成功的元素对一个的网址信息个数是否为一个,如果是,执行步骤304,如果否,执行步骤305。
步骤304:当所述元素对应的网址信息的个数为一个时,直接提取匹配成功的所述元素对应的网址信息。
其中,提取的网址信息可以是与实时浏览行为对应的同一用户浏览过的网址信息,也可以是不同用户浏览过的网址信息,具体原因以及提取过程请参阅步骤103中的详细说明。
步骤305:当所述元素对应的网址信息的个数大于一个时,获取元素的网页浏览时间属性值。
在本实施例中,网页浏览时间属性值表明元素对应的网址信息的浏览时间,例如网页浏览时间属性值可以是3013-2-1716:40。
步骤306:提取与所述实时浏览行为的发生时间最接近的网页浏览时间属性值对应的网址信息。
实时浏览行为的发生时间是指用户浏览网址的时间。由于元素对应的网址信息较多,有的网址信息可能是用户很久之前浏览过的网址信息,而该网址信息距离当前用户浏览的网址时间较长,有可能不是用户感兴趣的网址,所以在提取时优先滤除与实时浏览行为的发生时间距离较远的网址信息,优选提取与所述实时浏览行为的发生时间最接近的网页浏览时间属性值对应的网址信息。
例如实时浏览行为的发生时间为2013-2-18,网页浏览时间属性值分别为2013-2-1716:40、2013-2-1715:00,则发生时间2013-2-18与2013-2-1716:40最接近,进而提取该时间对应的网址信息。
在本实施例中,提取的网址信息的网页浏览时间属性值与时浏览行为的发生时间最接近,该网页浏览时间属性值对应的网址信息是用户近期浏览过的网址信息,相对于用户很久之前浏览过的网址信息,用户近期浏览过的网址信息更有可能是用户感兴趣的网址,所以提取用户近期浏览过的网址信息可以进一步提高挖掘的准确度。
请参阅图5,其示出了本发明实施例提供的一种用户兴趣网址挖掘方法的第四种流程图,可以包括以下步骤:
步骤401:从用户的实时浏览行为中,提取行为特征信息。
步骤402:利用所提取的所述行为特征信息与预设浏览行为集合中元素的属性值进行匹配。
在本实施例中,步骤401和步骤402的具体过程可以参阅步骤101和步骤102的具体过程,当然也可以参阅步骤201至步骤203的具体过程,对此本实施例不再加以详细说明。
步骤403:如果所述行为特征信息与所述预设浏览行为集合中元素的属性值匹配成功,则判断所述元素对应的网址信息的是否为已被操作过的网址信息;
步骤404:根据判断结果,提取未被操作过的网址信息。
其中,提取的网址信息可以是与实时浏览行为对应的同一用户浏览过的网址信息,也可以是不同用户浏览过的网址信息,具体原因以及提取过程请参阅步骤103中的详细说明。
在本实施例中,已被操作过的网址信息是指在所述导航网站中出现过的网址信息。其中操作可以是删除、添加和/或推送操作,也就是说,对于曾经被用户添加过的网址、曾经被用户删除过的网址,或者曾经被系统推送过的网址,都不会被提取。
在本实施例中,通过对网址信息是否是已被操作过的网址信息来提取,可以避免已被操作过的网址信息的再次提取,从而提高挖掘时效性和准确度。
在上述所有方法实施例中,提取到网址信息后,还可以实时推送该网址信息到导航网站中,推荐给用户使用。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必须的。
与上述图2所示的方法实施例相对应,本发明实施例还提供一种用户兴趣网址挖掘装置,其结构示意图请参阅图6所示,可以包括:第一提取单元11、匹配单元12和第二提取单元13。
第一提取单元11,用于从用户的实时浏览行为中,提取行为特征信息。
其中,行为特征信息可以包括名称信息、URL信息、UID信息、cookie信息和题目信息中的任意一种信息,当然也可以包括上述几种信息,对此本实施例不加以限制。
匹配单元12,用于利用所提取的所述行为特征信息与预设浏览行为集合中元素的属性值进行匹配。
在本实施例中,匹配单元12可以利用上述行为特征信息中的一种信息与预设浏览行为集合中元素的属性值进行匹配。具体可以是:匹配单元12具体用于利用所述名称信息与所述预设浏览行为集合中元素的名称属性值进行匹配或者利用所述题目信息与所述预设浏览行为集合中元素的名称属性值进行匹配或者利用URL信息与所述预设浏览行为集合中元素的URL属性值进行匹配。
当然,匹配单元12还可以利用上述行为特征信息中的名称信息、题目信息和URL信息的结合使用与预设浏览行为集合中元素的属性值进行匹配。例如:匹配单元12具体用于利用所述名称信息与所述预设浏览行为集合中元素的名称属性值、利用所述题目信息与所述预设浏览行为集合中元素的名称属性值进行匹配。或者匹配单元12具体用于利用所述名称信息与所述预设浏览行为集合中元素的名称属性值、利用URL信息与预设浏览行为集合中元素的URL属性值进行匹配。
在本实施例中匹配单元12具体将上述几种信息结合使用进行匹配,本实施例并不加以限制。
第二提取单元13,用于在所述行为特征信息与所述预设浏览行为集合中元素的属性值匹配成功的情况下,提取匹配成功的所述元素对应的网址信息。
其中,行为特征信息与预设浏览行为集合中元素的属性值匹配成功是指行为特征信息和元素的属性值具有相同内容。例如名称信息和名称属性值的匹配是“天下无双”与“天下无双”的匹配时,表明匹配成功。当匹配成功时,提取匹配成功的所述元素对应的网址信息。其中第二提取单元13提取的网址信息可以是与实时浏览行为对应的同一用户浏览过的网址信息,也可以是不同用户浏览过的网址信息,具体原因以及提取过程请参阅步骤103中的详细说明。
本发明实施例提供的用户兴趣网址挖掘装置中,第一提取单元11可以从用户的实时浏览行为中提取行为特征信息,匹配单元12利用所提取的所述行为特征信息可以与预设浏览行为集合中元素的属性值进行匹配,再由第二提取单元13从匹配成功的元素对应的匹配结果中提取网址信息。也就是说本发明提供的用户兴趣网址挖掘方法可以提取实时浏览行为中的行为特征信息,进一步可以对行为特征信息与属性值进行实时匹配,从匹配结果中实时提取网址信息,相对于通过记录一段时间内用户所使用的网址来进行网址挖掘的现有技术来说,缩短延迟时间,提高挖掘的实时性。
目前网址类型多种多样,例如包括影视类、小说类和游戏类,而不同类型的网址所对应的元素的属性值可以相同,因此提取到的网址信息可能与用户浏览的网址不是同一类型的网址,造成挖掘准确度降低。为了解决该问题,本发明实施例提供的用户兴趣网址挖掘装置中,所述行为特征信息还包括:网址类型信息。匹配单元12进一步用于利用所述网址类型信息与所述预设浏览行为集合中元素的类型属性值进行匹配。
其中,元素的类型属性值标识元素对应的网址信息的网址类型,所述网址类型信息也标识了用户浏览的网址类型。通过网址类型信息与元素的类型属性值进行匹配,可以保证最终提取到的网址信息与用户浏览的网址属于同一种类型的网址,提高挖掘的准确度。
本发明实施例提供的用户兴趣网址挖掘装置中,匹配成功的元素对应的网址信息数量不同时,第二提取单元13可以采用不同的提取方式提取。
请参阅图7,其示出了本发明实施例提供的用户兴趣网址挖掘装置中第二提取单元的一种结构示意图,可以包括:第一判断子单元131、第一提取子单元132、获取子单元133和第二提取子单元134。
第一判断子单元131,用于判断所述元素对应的网址信息的个数是否为一个。
第一提取子单元132,用于当所述元素对应的网址信息的个数为一个时,直接提取匹配成功的所述元素对应的网址信息。
获取子单元133,用于当所述元素对应的网址信息的个数大于一个时,获取元素的网页浏览时间属性值。在本实施例中,网页浏览时间属性值表明元素对应的网址信息的浏览时间,例如网页浏览时间属性值可以是3013-2-1716:40。
第二提取子单元134,用于提取与所述实时浏览行为的发生时间最接近的网页浏览时间属性值对应的网址信息。
实时浏览行为的发生时间是指用户浏览网址的时间。由于元素对应的网址信息较多,有的网址信息可能是用户很久之前浏览过的网址信息,而该网址信息距离当前用户浏览的网址时间较长,有可能不是用户感兴趣的网址,所以第二提取子单元134在提取时优先滤除与实时浏览行为的发生时间距离较远的网址信息,优选提取与所述实时浏览行为的发生时间最接近的网页浏览时间属性值对应的网址信息。
例如实时浏览行为的发生时间为2013-2-18,网页浏览时间属性值分别为2013-2-1716:40、2013-2-1715:00,则发生时间2013-2-18与2013-2-1716:40最接近,进而第二提取子单元134提取该时间对应的网址信息。
在本实施例中,提取的网址信息的网页浏览时间属性值与时浏览行为的发生时间最接近,该网页浏览时间属性值对应的网址信息是用户近期浏览过的网址信息,相对于用户很久之前浏览过的网址信息,用户近期浏览过的网址信息更有可能是用户感兴趣的网址,所以提取用户近期浏览过的网址信息可以进一步提高挖掘的准确度。
在本发明的另一种实施方式中,第二提取单元还可以用于判断所述元素对应的网址信息的是否为已被操作过的网址信息,并且根据判断结果,提取未被操作过的网址信息。
其中,已被操作过的网址信息是指在所述导航网站中出现过的网址信息。其中操作可以是删除、添加和/或推送操作,也就是说,对于曾经被用户添加过的网址、曾经被用户删除过的网址,或者曾经被系统推送过的网址,都不会被提取。
在本实施例中,通过对网址信息是否是已被操作过的网址信息来提取,可以避免已被操作过的网址信息的再次提取,从而提高挖掘时效性和准确度。
在上述所有装置实施例中,提取到网址信息后,还可以实时推送该网址信息到导航网站中,推荐给用户使用。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (11)
1.一种用户兴趣网址挖掘方法,其特征在于,包括:
从用户的实时浏览行为中,提取行为特征信息;
利用所提取的所述行为特征信息与预设浏览行为集合中元素的属性值进行匹配,所述预设浏览行为集合是对所述用户之前访问的网址进行分析而得到的所述用户所浏览网址的相关内容的集合,其中一个元素的属性值对应某一个网址的相关内容;
如果所述行为特征信息与所述预设浏览行为集合中元素的属性值匹配成功,则提取匹配成功的所述元素对应的网址信息。
2.根据权利要求1所述的用户兴趣网址挖掘方法,其特征在于,所述行为特征信息包括:名称信息、题目信息和/或统一资源定位符信息;
所述利用所提取的所述行为特征信息与预设浏览行为集合中元素的属性值进行匹配,包括:
利用所述名称信息与所述预设浏览行为集合中元素的名称属性值进行匹配;
和/或
利用所述题目信息与所述预设浏览行为集合中元素的名称属性值进行匹配;
和/或
利用所述统一资源定位符信息与所述预设浏览行为集合中元素的统一资源定位符属性值进行匹配。
3.根据权利要求2所述的用户兴趣网址挖掘方法,其特征在于,所述行为特征信息还包括:网址类型信息;
所述利用所提取的所述行为特征信息与预设浏览行为集合中元素的属性值进行匹配还包括:利用所述网址类型信息与所述预设浏览行为集合中元素的类型属性值进行匹配。
4.根据权利要求1至3任意一项所述的用户兴趣网址挖掘方法,其特征在于,所述提取匹配成功的所述元素对应的网址信息,包括:
当所述元素对应的网址信息的个数为一个时,直接提取匹配成功的所述元素对应的网址信息。
5.根据权利要求4所述的用户兴趣网址挖掘方法,其特征在于,所述提取匹配成功的所述元素对应的网址信息,包括:
当所述元素对应的网址信息的个数大于一个时,获取元素的网页浏览时间属性值;
提取与所述实时浏览行为的发生时间最接近的网页浏览时间属性值对应的网址信息。
6.根据权利要求1至3任意一项所述的用户兴趣网址挖掘方法,其特征在于,所述提取匹配成功的所述元素对应的网址信息,包括:
判断所述元素对应的网址信息的是否为已被操作过的网址信息,其中所述操作包括删除操作、添加操作和/或推送操作;
根据判断结果,提取未被操作过的网址信息。
7.一种用户兴趣网址挖掘装置,其特征在于,包括:
第一提取单元,用于从用户的实时浏览行为中,提取行为特征信息;
匹配单元,用于利用所提取的所述行为特征信息与预设浏览行为集合中元素的属性值进行匹配,所述预设浏览行为集合是对所述用户之前访问的网址进行分析而得到的所述用户所浏览网址的相关内容的集合,其中一个元素的属性值对应某一个网址的相关内容;
第二提取单元,用于在所述行为特征信息与所述预设浏览行为集合中元素的属性值匹配成功的情况下,提取匹配成功的所述元素对应的网址信息。
8.根据权利要求7所述的用户兴趣网址挖掘装置,其特征在于,所述行为特征信息包括:名称信息、题目信息和/或统一资源定位符信息;
所述匹配单元具体用于:
利用所述名称信息与所述预设浏览行为集合中元素的名称属性值进行匹配;
和/或
利用所述题目信息与所述预设浏览行为集合中元素的名称属性值进行匹配;
和/或
利用所述统一资源定位符信息与所述预设浏览行为集合中元素的统一资源定位符属性值进行匹配。
9.根据权利要求8所述的用户兴趣网址挖掘装置,其特征在于,所述行为特征信息还包括:网址类型信息;
所述匹配单元进一步用于利用所述网址类型信息与所述预设浏览行为集合中元素的类型属性值进行匹配。
10.根据权利要求7至9任意一项所述的用户兴趣网址挖掘装置,其特征在于,所述第二提取单元包括:
第一判断子单元,用于判断所述元素对应的网址信息的个数是否为一个;
第一提取子单元,用于当所述元素对应的网址信息的个数为一个时,直接提取匹配成功的所述元素对应的网址信息;
获取子单元,用于当所述元素对应的网址信息的个数大于一个时,获取元素的网页浏览时间属性值;
第二提取子单元,用于提取与所述实时浏览行为的发生时间最接近的网页浏览时间属性值对应的网址信息。
11.根据权利要求7至9任意一项所述的用户兴趣网址挖掘装置,其特征在于,所述第二提取单元具体用于:
判断所述元素对应的网址信息的是否为已被操作过的网址信息,其中所述操作包括删除操作、添加操作和/或推送操作;
根据判断结果,提取未被操作过的网址信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310208358.9A CN103279527B (zh) | 2013-05-30 | 2013-05-30 | 一种用户兴趣网址挖掘方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310208358.9A CN103279527B (zh) | 2013-05-30 | 2013-05-30 | 一种用户兴趣网址挖掘方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103279527A CN103279527A (zh) | 2013-09-04 |
CN103279527B true CN103279527B (zh) | 2019-04-26 |
Family
ID=49062046
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310208358.9A Active CN103279527B (zh) | 2013-05-30 | 2013-05-30 | 一种用户兴趣网址挖掘方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103279527B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105224547A (zh) * | 2014-06-05 | 2016-01-06 | 阿里巴巴集团控股有限公司 | 对象集合及其满意度的处理方法及装置 |
CN110297995B (zh) * | 2019-07-04 | 2022-06-14 | 百度在线网络技术(北京)有限公司 | 用于收藏信息的方法和装置 |
CN110650212B (zh) * | 2019-10-17 | 2020-12-08 | 国科元科技(北京)有限公司 | 一种以大数据流式技术实现网络数据包的分析方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101452453A (zh) * | 2007-11-29 | 2009-06-10 | 北京搜狗科技发展有限公司 | 一种输入法网址导航的方法和一种输入法系统 |
CN101562538A (zh) * | 2009-04-15 | 2009-10-21 | 计世在线网络技术(北京)有限公司 | 一种网站访问分析的系统 |
CN101968802A (zh) * | 2010-09-30 | 2011-02-09 | 百度在线网络技术(北京)有限公司 | 一种基于用户浏览行为进行互联网内容推荐的方法与设备 |
CN102567533A (zh) * | 2011-12-30 | 2012-07-11 | 奇智软件(北京)有限公司 | 网页信息添加方法及系统 |
-
2013
- 2013-05-30 CN CN201310208358.9A patent/CN103279527B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101452453A (zh) * | 2007-11-29 | 2009-06-10 | 北京搜狗科技发展有限公司 | 一种输入法网址导航的方法和一种输入法系统 |
CN101562538A (zh) * | 2009-04-15 | 2009-10-21 | 计世在线网络技术(北京)有限公司 | 一种网站访问分析的系统 |
CN101968802A (zh) * | 2010-09-30 | 2011-02-09 | 百度在线网络技术(北京)有限公司 | 一种基于用户浏览行为进行互联网内容推荐的方法与设备 |
CN102567533A (zh) * | 2011-12-30 | 2012-07-11 | 奇智软件(北京)有限公司 | 网页信息添加方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103279527A (zh) | 2013-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104615627B (zh) | 一种基于微博平台的事件舆情信息提取方法及系统 | |
CN104216921B (zh) | 一种实现浏览器中快速链接的添加提示方法、装置及系统 | |
CN102708174B (zh) | 一种浏览器中的富媒体信息的展示方法和装置 | |
CN102567407B (zh) | 一种论坛回帖增量采集方法及系统 | |
CN103744856B (zh) | 联动性扩展搜索方法及装置、系统 | |
Chitraa et al. | A novel technique for sessions identification in web usage mining preprocessing | |
CN103294732B (zh) | 网页抓取方法及爬虫 | |
CN104182482B (zh) | 一种新闻列表页判断方法及筛选新闻列表页的方法 | |
CN101833570A (zh) | 一种移动终端页面推送优化的方法和装置 | |
JP2000040046A (ja) | ネットワ―ク・ユ―ザによるウェブ・サイトの使用パタ―ンの特性を記述し視覚化する方法 | |
CN103399861B (zh) | 一种网址导航中的网址推荐方法、装置和系统 | |
CN102521251A (zh) | 个性化搜索直达的方法、实现该方法的装置和搜索服务器 | |
CA2552791A1 (en) | Method and system for recording search trails across one or more search engines in a communications network | |
CN106484828A (zh) | 一种分布式互联网数据快速采集系统及采集方法 | |
CN106021418B (zh) | 新闻事件的聚类方法及装置 | |
CN104391978B (zh) | 用于浏览器的网页收藏处理方法及装置 | |
CN107688568A (zh) | 基于网页访问行为记录的采集方法及装置 | |
JP2008181186A (ja) | クエリーログを利用したキーワードとサイトの関連度を求める方法 | |
CN103279527B (zh) | 一种用户兴趣网址挖掘方法及装置 | |
CN105302876A (zh) | 基于正则表达式的url过滤方法 | |
CN103077217A (zh) | 用于提供与查询序列相匹配的结果附加信息的方法、装置与设备 | |
CN104991904A (zh) | 一种动态网页的页面数据采集方法 | |
Reddy et al. | Preprocessing the web server logs: an illustrative approach for effective usage mining | |
CN104239472A (zh) | 对象信息的提供方法和装置 | |
CN106874502A (zh) | 一种视频搜索的方法、装置及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |