CN105912736A - 一种统一资源定位符url分类方法及装置 - Google Patents

一种统一资源定位符url分类方法及装置 Download PDF

Info

Publication number
CN105912736A
CN105912736A CN201610488352.5A CN201610488352A CN105912736A CN 105912736 A CN105912736 A CN 105912736A CN 201610488352 A CN201610488352 A CN 201610488352A CN 105912736 A CN105912736 A CN 105912736A
Authority
CN
China
Prior art keywords
url
user
along sort
tag along
feature database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610488352.5A
Other languages
English (en)
Inventor
朱臣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Maipu Communication Technology Co Ltd
Original Assignee
Maipu Communication Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Maipu Communication Technology Co Ltd filed Critical Maipu Communication Technology Co Ltd
Priority to CN201610488352.5A priority Critical patent/CN105912736A/zh
Publication of CN105912736A publication Critical patent/CN105912736A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明的实施例提供一种统一资源定位符URL分类方法及装置,涉及互联网技术领域,能够根据访问URL的用户的分类标签获取URL的分类标签。包括:获取访问用户的用户分类标签,访问用户为访问目标URL的用户;根据访问用户的用户分类标签获取目标URL的分类标签。本发明用于统一资源定位符URL分类。

Description

一种统一资源定位符URL分类方法及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种统一资源定位符URL分类方法及装置。
背景技术
随着网络的迅速发展,万维网(英文全称:World Wide Web)成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。资源定位符(英文全称:Uniform Resource Locator,英文简称:URL)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址,可以用来标示网络资源。在对网络进行访问的过程中,经常需要对URL进行分类,以便于根据用户的需求提供特定类型的网络资源。由于网络资源以网页为主,而网页通常以文字信息为主,因此可以通过抽取URL对应网页中的文字信息,并由人工识别所抽取文字信息的类型,从而对URL进行分类。
近年来由于网络技术的进一步发展,网络中网络资源刷新的速度越来越快,需要进行分类的URL的数量也越来越多,在这种情况下,人工识别的方式进行URL分类的方法成本与用时增加较多,效率极大降低,已无法满足现有需求。为了解决上述问题,一般通过网络爬虫(英文全称:web crawler)技术对特定主题的网络资源进行抓取,并进一步对所抓取网络资源按照预设策略进行分析与处理,从而获取网络资源对应URL的分类,如获取所抓取网络资源的关键字,并按照一定算法根据关键字获取该网络资源的对应URL的分类。如附图1所示,本发明的实施例提供了一种统一资源定位符URL分类方法,包括:
101、通过网络爬虫技术对特定主题的网络资源进行抓取。
102、根据预置算法过滤与特定主题无关的网络资源。
103、按照预设策略分析并处理经过滤的网络资源以获取对应URL的分类。
但在上述过程中,由于通过网络爬虫技术对URL进行分类的工作流程较为复杂,此外需要搭建爬虫服务器,并且在对特定主题的网络资源进行抓取后,需要根据预置算法处理所抓取的网络资源,以过滤与特定主题无关的网络资源,之后还需要按照预设策略分析并处理经过滤的网络资源,从而获取网络资源对应URL的分类,因此上述技术方案中对URL进行分类的方法需要对与URL对应的网络资源进行过滤、分析及处理,消耗了较多的处理资源,从而提高了对URL进行分类的成本。
发明内容
本申请提供一种统一资源定位符URL分类方法及装置,能够根据访问URL的用户的分类标签获取URL的分类标签,从而降低了对URL进行分类的成本。
第一方面,本发明的实施例提供了一种统一资源定位符URL分类方法,包括:获取访问用户的用户分类标签,访问用户为访问目标URL的用户;根据访问用户的用户分类标签获取目标URL的分类标签。
第二方面,本发明的实施例提供了一种统一资源定位符URL分类装置,包括:调用模块,用于获取目标URL,并根据目标URL获取访问用户的用户分类标签,访问用户为访问目标URL的用户;分析模块,用于根据访问用户的用户分类标签获取目标URL的分类标签。
本发明实施例所提供的一种统一资源定位符URL分类方法及装置,通过获取访问目标URL的用户即访问用户的用户分类标签,从而获取访问目标URL用户对具有哪些分类标签,并根据该用户分类标签获取目标URL的分类标签,即根据访问用户具有的选定分类标签的URL存在访问倾向,获取该用户请求访问的目标URL的分类标签,从而对该目标URL进行分类。因此本发明实施例所提供的一种统一资源定位符URL分类方法在无需对URL对应的网络资源进行分析或处理的前提下,能够根据访问目标URL的用户的分类标签获取该目标URL的分类标签,达到对该URL进行分类的目的,从而降低了对URL进行分类的成本,改善了用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术提供的一种统一资源定位符URL分类方法的示意性流程图;
图2为本发明的另一实施例所提供的一种统一资源定位符URL分类方法的示意性流程图;
图3为本发明的另一实施例所提供的一种统一资源定位符URL分类方法的示意性流程图;
图4为本发明的实施例所提供的一种统一资源定位符URL分类装置的示意性结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了便于清楚描述本发明实施例的技术方案,在本发明的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不是在对数量和执行次序进行限定。
针对上述问题,如附图2所示,本发明的实施例提供了一种统一资源定位符URL分类方法,包括:
201、获取访问用户的用户分类标签。
其中,访问用户为访问目标URL的用户。
具体的,通过监听用户访问目标URL的请求获取访问用户待访问的目标URL,也可以从其他装置中系统中获取待分类的目标URL,目标URL为需要进行分类的URL,访问用户可以为正在访问目标URL的用户,也可以为存在对目标URL访问记录的用户。用户分类标签与用户相对应,并且与用户对应的用户分类标签可以是根据用户访问过URL的分类标签来获取,也可以是根据用户从系统提供的喜好(或者关注订阅)选项的选择结果得到。
关于用户对应的用户分类标签可以是根据用户访问过URL的分类标签来获取,示例性的,第一用户与第二用户均有访问URL的记录。第一用户分类标签包括第一用户访问过的URL的分类标签,第一用户分类标签包括:财经、体育、影视、购物、汽车。第二用户分类标签包括第二用户访问过的URL的分类标签,第二用户分类标签包括:财经、体育、影视、出游、团购。
202、根据访问用户的用户分类标签获取目标URL的分类标签。
其中,根据访问用户的用户分类标签获取目标URL的分类标签,可以为直接将访问用户的用户分类标签所标识的分类标签作为目标URL的分类标签,也可以按照预置规则从目标URL的访问用户的用户分类标签中选取一个或多个分类标签作为目标URL的分类标签。示例性的,根据访问用户的用户分类标签所指示的分类标签集合中筛选出计数值最高的前M个分类标签或单位时间内访问频率最高的前M个分类标签。
本发明实施例所提供的一种统一资源定位符URL分类方法,通过获取访问目标URL的用户即访问用户的用户分类标签,并根据该用户分类标签获取目标URL的分类标签。因此本发明实施例所提供的一种统一资源定位符URL分类方法在无需对URL对应的网络资源进行分析或处理的前提下,能够根据访问URL的用户的分类标签获取URL的分类标签,达到对URL进行分类的目的,从而降低了对URL进行分类的成本,改善了用户体验。
具体的,如附图3所示,本发明的实施例提供了一种统一资源定位符URL分类方法,包括:
301、获取访问用户的用户分类标签,所述访问用户为访问目标URL的用户。
参照上述实施例中步骤201,在此不再赘述。
302、判断URL特征基础库是否包括目标URL。
其中,URL特征基础库包括URL以及与URL对应的分类标签,获取URL特征基础库可以通过人工识别或从其他装置处获取指定的URL以及与该指定的URL对应的分类标签,并根据指定的URL以及与该指定的URL对应的分类标签生成URL特征基础库。
当确定URL特征基础库包括目标URL,执行步骤303;
当确定URL特征基础库不包括目标URL,执行步骤305。
303、根据URL特征基础库以及目标URL获取目标URL的分类标签。
当URL特征基础库包括目标URL时,指URL特征基础库已记录有该目标URL的分类标签信息,从而直接达到对目标URL分类的目的。
304、根据目标URL的分类标签更新访问用户的用户分类标签。
根据步骤303中获取的目标URL的分类标签,更新访问目标URL的用户即访问用户的用户分类标签。
305、判断URL特征库是否包括目标URL。
具体的,URL特征库包括URL、与URL对应的分类标签以及与URL的分类标签对应的计数值。URL特征库可以根据访问URL用户的用户分类标签所获取,也可以从其他装置处获取。其中URL特征库中的URL可以为用户访问过的一个URL,该用户可以为访问用户,与URL对应的分类标签可以为访问过该URL用户的用户分类标签的集合,与URL的分类标签对应的计数值可以为访问过该URL的用户对应分类标签重叠次数的计数值。
示例性的,第一用户与第二用户访问过第一URL。第一用户的用户分类标签包括:财经、体育、影视、购物、汽车。第二用户的用户分类标签包括:财经、体育、影视、出游、团购。如下表所示,根据访问第一URL用户的用户分类标签,URL特征库可以为:
当确定URL特征库存在并包括目标URL时执行步骤306;当确定URL特征库不包括目标URL即确定URL特征库不存在或URL特征库存在但该URL特征库中不包括目标URL时,执行步骤307。
306、根据访问用户的用户分类标签更新URL特征库,即在URL特征库中更新目标URL的分类标签以及与目标URL的分类标签对应的计数值,以获取更新后的URL特征库。
其中,当确定URL特征库存在并包括目标URL时,URL特征库中包括目标URL、与目标URL对应的分类标签以及与目标URL的分类标签对应的计数值,根据访问用户的用户分类标签在URL特征库中更新目标URL的分类标签以及与目标URL的分类标签对应的计数值。
具体的,可以根据访问用户的用户分类标签按照预设计数长度在URL特征库中更新与目标URL的分类标签对应的计数值。
示例性的,目标用户的用户分类标签包括:财经、体育、影视、购物、汽车。URL特征库中目标URL的分类标签及与目标URL的分类标签对应的计数值如下表所示
根据目标用户的用户分类标签对URL特征库进行更新,更新后的URL特征库中目标URL的分类标签及与目标URL的分类标签对应的计数值如下表所示:
307、根据访问用户的用户分类标签在URL特征库中添加目标URL,将目标URL的分类标签设置为访问用户的用户分类标签,并将URL特征库中与目标URL的分类标签对应的计数值设置为初始值。
具体的,当确定URL特征库不存在时,或确定URL特征库存在但该URL特征库中不包括目标URL时,根据访问用户的用户分类标签在URL特征库中添加目标URL、目标URL的分类标签以及与目标URL的分类标签对应的计数值,其中将与目标URL的分类标签对应的计数值设置为初始值,以获取更新后的URL特征库,从而将具有访问用户的用户分类标签的用户对目标URL的访问记录在更新后的URL特征库中。
308、根据更新后的URL特征库获取URL选定分类标签。
其中,URL选定分类标签包括访问用户访问过的URL的分类标签中计数值最多的前M个分类标签,M为大于0的自然数。
具体的,当URL特征库中URL对应的分类标签过多时,会造成URL特征库过大或根据URL特征库所获取的目标URL对应的分类标签超出对URL分类需求,从而在对目标URL分类过程中消耗过多的储存资源与处理资源,因此在更新后的URL特征库中取访问用户访问过的URL的分类标签中计数值最多的前M个分类标签作为URL选定分类标签,从而在能够体现访问对应URL的用户的访问倾向的前提下,降低目标URL分类过程中对储存资源与处理资源的消耗。
优选的,当访问用户访问过的URL的分类标签的数量为N,则0<M≤N,其中M的值根据系统或用户需要可以自由设定。
需要说明的是,当更新后的URL特征库中包括K个计数值相同的分类标签且该K个分类标签计数值最多,且K>M时,按照预置的优先顺序从K个计数值相同的分类标签中取M个分类标签作为URL选定分类标签。
优选的,M=1。
309、将URL选定分类标签作为目标URL的分类标签。
具体的,将在步骤308中获取的URL选定分类标签作为目标URL的分类标签,从而完成对目标URL的分类。
本发明实施例所提供的一种统一资源定位符URL分类方法,通过获取目标URL,并根据目标URL获取访问目标URL的用户即访问用户的用户分类标签,从而获取访问目标URL用户对具有哪些分类标签的URL存在访问记录;在URL特征基础库包括目标URL时,根据URL特征基础库以及目标URL获取目标URL的分类标签,并根据目标URL的分类标签更新访问用户的用户分类标签,从而通过更新用户分类标签标识更新对应用户的访问记录,在URL特征基础库不包括目标URL时,确定URL特征库是否包括目标URL,并确定URL特征库存在并包括目标URL时根据访问用户的用户分类标签在URL特征库中更新目标URL的分类标签以及与目标URL的分类标签对应的计数值,从而将具有访问用户的用户分类标签的用户对目标URL的访问记录在更新后的URL特征库中;确定URL特征库不存在或URL特征库存在但该URL特征库中不包括目标URL时根据访问用户的用户分类标签在URL特征库中添加目标URL、目标URL的分类标签以及与目标URL的分类标签对应的计数值,从而将具有访问用户的用户分类标签的用户对目标URL的访问记录在更新后的URL特征库中,之后根据更新后的URL特征库获取URL选定分类标签,从而在能够体现访问对应URL的用户的访问倾向的前提下,降低目标URL分类过程中对储存资源与处理资源的消耗。最后根据URL选定分类标签获取目标URL的分类标签,从而根据访问用户对具有哪些分类标签的URL存在访问倾向获取目标URL的分类标签,从而对目标URL进行分类。因此本发明实施例所提供的一种统一资源定位符URL分类方法在无需对URL对应的网络资源进行分析或处理的前提下,能够根据访问URL的用户的分类标签获取URL的分类标签,达到对URL进行分类的目的,从而降低了对URL进行分类的成本,改善了用户体验。
如附图4所示,本发明的实施例提供了一种统一资源定位符URL分类装置401,包括:
调用模块411,用于获取访问用户的用户分类标签。
其中,访问用户为访问目标URL的用户。
具体的,目标URL为需要进行分类的URL,访问用户可以为正在访问目标URL的用户,也可以为存在对目标URL访问记录的用户。获取目标URL可以通过监听用户访问目标URL的请求,也可以从其他装置中系统中获取,用户分类标签与用户相对应,并且与用户对应的用户分类标签包括该用户访问过URL的分类标签,其中该用户访问过URL的分类标签可以包括该用户访问过的URL对应的分类标签的集合,用户访问过URL的分类标签也可以包括该用户访问过的URL对应的分类标签以及对应分类标签的计数值,该用户访问过URL的分类标签也可以包括该用户访问过的URL对应的分类标签以及对应分类标签的单位时间内访问频率;
分析模块412,用于根据访问用户的用户分类标签获取目标URL的分类标签。
其中,根据访问用户的用户分类标签获取目标URL的分类标签,可以为直接将访问用户的用户分类标签所标识的分类标签作为目标URL的分类标签,也可以按照预置规则从访问用户的用户分类标签所表示的分类标签中选取一个或多个分类标签作为目标URL的分类标签。
本发明实施例所提供的一种统一资源定位符URL分类装置,通过调用模块获取获取访问目标URL的用户即访问用户的用户分类标签,从而获取访问目标URL用户对具有哪些分类标签的URL存在访问记录,并通过分析模块根据该用户分类标签获取目标URL的分类标签,即根据访问用户具有的选定分类标签的URL存在访问倾向,获取该用户请求访问的目标URL的分类标签,从而对目标URL进行分类。因此本发明实施例所提供的一种统一资源定位符URL分类装置在无需对URL对应的网络资源进行分析或处理的前提下,能够根据访问URL的用户的分类标签获取URL的分类标签,达到对URL进行分类的目的,从而降低了对URL进行分类的成本,改善了用户体验。
具体的,分析模块412具体用于判断URL特征基础库是否包括目标URL。
其中,URL特征基础库包括URL以及与URL对应的分类标签,获取URL特征基础库可以通过人工识别或从其他装置处获取指定的URL以及与该指定的URL对应的分类标签,并根据指定的URL以及与该指定的URL对应的分类标签生成URL特征基础库。
当确定URL特征基础库包括目标URL,分析模块412根据URL特征基础库以及目标URL获取目标URL的分类标签,并根据目标URL的分类标签更新访问用户的用户分类标签。
当URL特征基础库包括目标URL时,指URL特征基础库已记录有该目标URL的分类信息,因此可以根据URL特征基础库以及目标URL获取目标URL的分类标签,从而达到对目标URL分类的目的。之后根据获取的目标URL的分类标签,更新访问目标URL的用户即访问用户的用户分类标签,从而在访问用户的用户分类标签中体现访问用户对具有目标URL的分类标签的URL进行过访问。
当确定URL特征基础库不包括目标URL,分析模块412判断URL特征库是否包括目标URL。
具体的,URL特征库包括URL、与URL对应的分类标签以及与URL的分类标签对应的计数值。URL特征库可以根据访问URL用户的用户分类标签所获取,也可以从其他装置处获取。其中URL特征库中的URL可以为用户访问过的一个URL,该用户可以为访问用户,与URL对应的分类标签可以为访问过该URL用户的用户分类标签的集合,与URL的分类标签对应的计数值可以为用户访问过对应分类标签的URL的计数值。
示例性的,第一用户与第二用户访问过第一URL。第一用户的用户分类标签包括:财经、体育、影视、购物、汽车。第二用户的用户分类标签包括:财经、体育、影视、出游、团购。如下表所示,根据访问第一URL用户的用户分类标签,URL特征库中包括的第一URL信息可以为:
URL特征库可以为预先设置,也可以在确定不存在URL特征库后根据访问用户的用户分类标签生成。
当确定URL特征库存在并包括目标URL时,根据访问用户的用户分类标签更新URL特征库,即在URL特征库中更新目标URL的分类标签以及与目标URL的分类标签对应的计数值,以获取更新后的URL特征库。
其中,当确定URL特征库存在并包括目标URL时,URL特征库中包括目标URL、与目标URL对应的分类标签以及与目标URL的分类标签对应的计数值,即URL特征库中已记载访问过目标URL用户的用户分类标签,以及与访问过目标URL用户的分类标签对应的计数值。因此根据访问用户的用户分类标签在URL特征库中更新目标URL的分类标签以及与目标URL的分类标签对应的计数值,从而将具有访问用户的用户分类标签的用户对目标URL的访问记录在更新后的URL特征库中。
具体的,可以根据访问用户的用户分类标签按照预设计数长度在URL特征库中更新与目标URL的分类标签对应的计数值。
示例性的,目标用户的用户分类标签包括:财经、体育、影视、购物、汽车。URL特征库中目标URL的分类标签及与目标URL的分类标签对应的计数值如下表所示
根据目标用户的用户分类标签对URL特征库进行更新,更新后的URL特征库中目标URL的分类标签及与目标URL的分类标签对应的计数值如下表所示:
当确定URL特征库不包括目标URL即确定URL特征库不存在或URL特征库存在但该URL特征库中不包括目标URL时,根据访问用户的用户分类标签在URL特征库中添加目标URL、目标URL的分类标签以及与目标URL的分类标签对应的计数值,以获取更新后的URL特征库。
具体的,当确定URL特征库中不包括目标URL时,在URL特征库中添加目标URL,并且将访问用户的用户分类标签设置为目标URL的分类标签,其中将与目标URL的分类标签对应的计数值设置为初始值(例如1,,也可以是2或者3,具体不作限定),以获取更新后的URL特征库。
分析模块412根据更新后的URL特征库获取URL选定分类标签,并将URL选定分类标签作为目标URL的分类标签,从而完成对目标URL的分类。
其中,URL选定分类标签包括所述URL特征库中所述目标URL的分类标签中计数值最高的前M个分类标签,M为大于0的自然数。
具体的,当URL特征库中URL对应的分类标签过多时,会造成URL特征库过大或根据URL特征库所获取的目标URL对应的分类标签超出对URL分类需求,从而在对目标URL分类过程中消耗过多的储存资源与处理资源,因此在更新后的URL特征库中取访问用户访问过的URL的分类标签中计数值最多的前M个分类标签作为URL选定分类标签,从而在能够体现访问对应URL的用户的访问倾向的前提下,降低目标URL分类过程中对储存资源与处理资源的消耗。
优选的,当访问用户访问过的URL的分类标签的数量为N,则且0<M≤N,其中M的值根据系统或用户需要可以自由设定;
需要说明的是,当更新后的URL特征库中包括K个计数值相同的分类标签且该K个分类标签计数值最多,且K>M时,按照预置的优先顺序从K个计数值相同的分类标签中取M个分类标签作为URL选定分类标签。
优选的,M=1。
本发明实施例所提供的一种统一资源定位符URL分类装置,通过调用模块获取访问目标URL的用户即访问用户的用户分类标签,通过分析模块确定URL特征库是否包括目标URL,并在确定URL特征库存在并包括目标URL时通过分析模块根据访问用户的用户分类标签在URL特征库中更新目标URL的分类标签以及与目标URL的分类标签对应的计数值,从而将具有访问用户的用户分类标签的用户对目标URL的访问记录在更新后的URL特征库中;在确定URL特征库不存在或URL特征库存在但该URL特征库中不包括目标URL时,通过分析模块根据访问用户的用户分类标签在URL特征库中添加目标URL、目标URL的分类标签以及与目标URL的分类标签对应的计数值,从而将具有访问用户的用户分类标签的用户对目标URL的访问倾向在更新后的URL特征库中,之后根据更新后的URL特征库获取URL选定分类标签,从而在能够体现访问对应URL的用户的访问倾向的前提下,降低目标URL分类过程中对储存资源与处理资源的消耗。最后通过分析模块根据URL选定分类标签获取目标URL的分类标签,从而根据访问用户对具有哪些分类标签的URL存在访问倾向获取目标URL的分类标签,从而对目标URL进行分类。因此本发明实施例所提供的一种统一资源定位符URL分类装置在无需对URL对应的网络资源进行分析或处理的前提下,能够根据访问URL的用户的分类标签获取URL的分类标签,达到对URL进行分类的目的,从而降低了对URL进行分类的成本,改善了用户体验。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可以用硬件实现,或固件实现,或它们的组合方式来实现。当使用软件实现时,可以将上述功能存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。以此为例但不限于:计算机可读介质可以包括随机存储器(英文全称:Random Access Memory,英文简称:RAM)、只读存储器(英文全称:Read Only Memory,英文简称:ROM)、电可擦可编程只读存储器(英文全称:Electrically Erasable Programmable Read Only Memory,英文简称:EEPROM)、只读光盘(英文全称:Compact Disc Read Only Memory,英文简称:CD-ROM)或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。此外。任何连接可以适当的成为计算机可读介质。例如,如果软件是使用同轴电缆、光纤光缆、双绞线、数字用户专线(英文全称:Digital Subscriber Line,英文简称:DSL)或者诸如红外线、无线电和微波之类的无线技术从网站、服务器或者其他远程源传输的,那么同轴电缆、光纤光缆、双绞线、DSL或者诸如红外线、无线和微波之类的无线技术包括在计算机可读介质的定义中。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,当以软件方式实现本发明时,可以将用于执行上述方法的指令或代码存储在计算机可读介质中或通过计算机可读介质进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。以此为例但不限于:计算机可读介质可以包括RAM、ROM、电可擦可编程只读存储器(全称:electrically erasable programmableread-only memory,简称:EEPROM)、光盘、磁盘或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种统一资源定位符URL分类方法,其特征在于,包括:
获取访问用户的用户分类标签,所述访问用户为访问目标URL的用户;
根据所述访问用户的用户分类标签获取所述目标URL的分类标签。
2.根据权利要求1所述的URL分类方法,其特征在于,所述根据所述访问用户的用户分类标签获取所述目标URL的分类标签,包括:
根据所述访问用户的用户分类标签更新URL特征库,所述URL特征库包括URL、URL的分类标签以及与URL的分类标签对应的计数值;
从更新后的URL特征库获取所述目标URL的分类标签。
3.根据权利要求2所述的URL分类方法,其特征在于,根据所述访问用户的用户分类标签获取URL特征库,包括:
当所述URL特征库包括所述目标URL时,根据所述访问用户的用户分类标签更新所述URL特征库中所述目标URL的分类标签,并更新所述URL特征库中与所述目标URL的分类标签对应的计数值;
当所述URL特征库不包括所述目标URL时,在所述URL特征库中添加所述目标URL,将所述目标URL的分类标签设置为所述访问用户的用户分类标签,并将所述URL特征库中与所述目标URL的分类标签对应的计数值设置为初始值。
4.根据权利要求2或3所述的URL分类方法,其特征在于,所述从更新后的URL用户特征库获取所述目标URL的分类标签,包括:
根据所述更新后的URL特征库获取所述目标URL的选定分类标签,所述目标URL的选定分类标签包括所述URL特征库中所述目标URL的分类标签中计数值最高的前M个分类标签,M为大于0的自然数;
将所述URL选定分类标签作为所述目标URL的分类标签。
5.根据权利要求4所述的URL分类方法,其特征在于:
当所述更新后的URL特征库中访问用户访问过的目标URL的分类标签的数量为N时,则0<M≤N。
6.一种统一资源定位符URL分类装置,其特征在于,包括:
调用模块,用于获取访问用户的用户分类标签,所述访问用户为访问目标URL的用户;
分析模块,用于根据所述访问用户的用户分类标签获取所述目标URL的分类标签。
7.根据权利要求6所述的URL分类装置,其特征在于,所述分析模块具体用于:
根据所述访问用户的用户分类标签更新URL特征库,所述URL特征库包括URL、URL的分类标签以及与URL的分类标签对应的计数值;
从更新后的URL特征库获取所述目标URL的分类标签。
8.根据权利要求7所述的URL分类装置,其特征在于,所述分析模块具体用于:
当所述URL特征库包括所述目标URL时,根据所述访问用户的用户分类标签更新所述URL特征库中所述目标URL的分类标签,并更新所述URL特征库中与所述目标URL的分类标签对应的计数值;
当所述URL特征库不包括所述目标URL时,在所述URL特征库中添加所述目标URL,将所述目标URL的分类标签设置为所述访问用户的用户分类标签,并将所述URL特征库中与所述目标URL的分类标签对应的计数值设置为初始值。
9.根据权利要求7或8所述的URL分类装置,其特征在于,所述分析模块具体用于:
根据所述更新后的URL特征库获取所述目标URL的选定分类标签,所述目标URL的选定分类标签包括所述URL特征库中所述目标URL的分类标签中计数值最高的前M个分类标签,M为大于0的自然数;
将所述URL选定分类标签作为所述目标URL的分类标签。
10.根据权利要求9所述的URL分类装置,其特征在于:
当所述更新后的URL特征库中访问用户访问过的目标URL的分类标签的数量为N时,则0<M≤N。
CN201610488352.5A 2016-06-28 2016-06-28 一种统一资源定位符url分类方法及装置 Pending CN105912736A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610488352.5A CN105912736A (zh) 2016-06-28 2016-06-28 一种统一资源定位符url分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610488352.5A CN105912736A (zh) 2016-06-28 2016-06-28 一种统一资源定位符url分类方法及装置

Publications (1)

Publication Number Publication Date
CN105912736A true CN105912736A (zh) 2016-08-31

Family

ID=56759854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610488352.5A Pending CN105912736A (zh) 2016-06-28 2016-06-28 一种统一资源定位符url分类方法及装置

Country Status (1)

Country Link
CN (1) CN105912736A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112445987A (zh) * 2020-11-30 2021-03-05 建信金融科技有限责任公司 网页更新方法、装置和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929963A (zh) * 2012-10-11 2013-02-13 北京百度网讯科技有限公司 一种网址类型的设置方法及系统
CN102955810A (zh) * 2011-08-26 2013-03-06 中国移动通信集团公司 一种网页分类方法和设备
CN102970377A (zh) * 2012-12-12 2013-03-13 北京奇虎科技有限公司 消息推送系统和方法
CN103927325A (zh) * 2014-03-13 2014-07-16 中国联合网络通信集团有限公司 一种对url进行分类的方法及装置
CN105591997A (zh) * 2014-10-20 2016-05-18 杭州迪普科技有限公司 一种url分类过滤方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955810A (zh) * 2011-08-26 2013-03-06 中国移动通信集团公司 一种网页分类方法和设备
CN102929963A (zh) * 2012-10-11 2013-02-13 北京百度网讯科技有限公司 一种网址类型的设置方法及系统
CN102970377A (zh) * 2012-12-12 2013-03-13 北京奇虎科技有限公司 消息推送系统和方法
CN103927325A (zh) * 2014-03-13 2014-07-16 中国联合网络通信集团有限公司 一种对url进行分类的方法及装置
CN105591997A (zh) * 2014-10-20 2016-05-18 杭州迪普科技有限公司 一种url分类过滤方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112445987A (zh) * 2020-11-30 2021-03-05 建信金融科技有限责任公司 网页更新方法、装置和系统
CN112445987B (zh) * 2020-11-30 2022-11-01 建信金融科技有限责任公司 网页更新方法、装置和系统

Similar Documents

Publication Publication Date Title
CN108121795B (zh) 用户行为预测方法及装置
US10572565B2 (en) User behavior models based on source domain
EP3037991A1 (en) Systems and user interfaces for dynamic and interactive investigation of bad actor behavior based on automatic clustering of related data in various data structures
US9305302B2 (en) Weighting sentiment information
CN106951925A (zh) 数据处理方法、装置、服务器及系统
CN108345642A (zh) 采用代理ip爬取网站数据的方法、存储介质和服务器
WO2019080662A1 (zh) 信息推荐方法及装置、设备
CN104750754A (zh) 网站所属行业的分类方法和服务器
CN105183873A (zh) 恶意点击行为检测方法及装置
CN111859076B (zh) 数据爬取方法、装置、计算机设备及计算机可读存储介质
CN107977678A (zh) 用于输出信息的方法和装置
CN110515896A (zh) 模型资源管理方法、模型文件制作方法、装置和系统
CN106899750A (zh) 基于卡片的信息展示方法、信息展示业务的处理方法及装置
CN105117434A (zh) 一种网页分类方法和系统
CN112561565A (zh) 一种基于行为日志的用户需求识别方法
CN106897313B (zh) 一种海量用户业务偏好评估方法和装置
CN111444447A (zh) 内容推荐页面的展现方法及装置
CN107368500A (zh) 数据抽取方法及系统
CN116089732B (zh) 基于广告点击数据的用户偏好识别方法及系统
CN107480189A (zh) 一种多维度实时分析系统及方法
CN108268488A (zh) 网页主图识别方法和装置
CN105912736A (zh) 一种统一资源定位符url分类方法及装置
CN109769027A (zh) 一种消息推送方法、装置及设备
CN116955777A (zh) 内容的审核方法、装置、设备、介质及计算机程序产品
CN109033210A (zh) 一种挖掘地图兴趣点poi的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160831