CN106874340B - 一种网页地址分类方法及装置 - Google Patents

一种网页地址分类方法及装置 Download PDF

Info

Publication number
CN106874340B
CN106874340B CN201611199522.4A CN201611199522A CN106874340B CN 106874340 B CN106874340 B CN 106874340B CN 201611199522 A CN201611199522 A CN 201611199522A CN 106874340 B CN106874340 B CN 106874340B
Authority
CN
China
Prior art keywords
address
webpage
group
classified
authoritative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611199522.4A
Other languages
English (en)
Other versions
CN106874340A (zh
Inventor
张惊申
鲁广平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou H3C Technologies Co Ltd
Original Assignee
Hangzhou H3C Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou H3C Technologies Co Ltd filed Critical Hangzhou H3C Technologies Co Ltd
Priority to CN201611199522.4A priority Critical patent/CN106874340B/zh
Publication of CN106874340A publication Critical patent/CN106874340A/zh
Application granted granted Critical
Publication of CN106874340B publication Critical patent/CN106874340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例提供了一种网页地址分类方法及装置。该方法应用于电子设备,包括:获得待分类网页地址;确定第一地址组,该地址组包括目标网页地址,该地址为第二地址组中存在于权威数据库的网页地址,第二地址组中包括待分类网页地址对应的网页中的正向链接,权威数据库中具有类型互不相同的权威信息组,每个信息组中具有权威网页地址与权重值的对应关系;基于各信息组中分布的目标网页地址对应的权重值、其在第一地址组中出现的次数及得分计算公式,确定各信息组与待分类网页地址的匹配得分;将得分最高的信息组的类型确定为待分类网页地址的类型。可见,本方案可以对网页地址的类型进行科学地识别。

Description

一种网页地址分类方法及装置
技术领域
本发明涉及网络通信技术领域,特别是涉及一种网页地址分类方法及装置。
背景技术
随着网络通信技术的迅速发展,互联网中的网页数目异常庞大。容易理解的是,按照不同的分类依据,这些网页对应的网页地址会被分成不同的类型。具体地,在一种分类方式中,这些网页地址被分为新闻类的、体育类的、购物类的等;在另一种分类方式中,这些网页地址被分为与工作相关的或者与工作无关的。
对于现有技术而言,当对网页地址进行分类时,一般需要依赖于对样本网页地址的挑选和字典的生成。一般而言,当该网页地址对应的网页中的内容较少时,依靠上述分类方法根本无法得出该网页地址的明确分类。因此,如何对网页地址的分类进行科学地识别对于本领域技术人员而言是一个亟待解决的问题。
发明内容
本发明实施例的目的在于提供一种网页地址分类方法及装置,以对网页地址的分类进行科学地识别。
本发明实施例提供了一种网页地址分类方法,应用于电子设备中,所述方法包括:
获得待分类网页地址;
确定第一地址组,所述第一地址组中包括目标网页地址,所述目标网页地址为第二地址组中的、存在于权威数据库中的网页地址,所述第二地址组中包括所述待分类网页地址对应的网页中的各正向链接,所述权威数据库中存储有类型互不相同的多个权威信息组,每个权威信息组中存储有权威网页地址与权重值之间的对应关系;
基于各权威信息组中所分布的每个目标网页地址对应的权重值、该目标网页地址在所述第一地址组中出现的次数,以及预设的匹配得分计算公式,确定各权威信息组与所述待分类网页地址的匹配得分;
将与所述待分类网页地址的匹配得分最高的权威信息组的类型确定为所述待分类网页地址的类型。
本发明实施例提供了一种网页地址分类装置,应用于电子设备中,所述装置包括:
获得模块,用于获得待分类网页地址;
地址组确定模块,用于确定第一地址组,所述第一地址组中包括目标网页地址,所述目标网页地址为第二地址组中的、存在于权威数据库中的网页地址,所述第二地址组中包括所述待分类网页地址对应的网页中的各正向链接,所述权威数据库中存储有类型互不相同的多个权威信息组,每个权威信息组中存储有权威网页地址与权重值之间的对应关系;
匹配得分确定模块,用于基于各权威信息组中所分布的每个目标网页地址对应的权重值、该目标网页地址在所述第一地址组中出现的次数,以及预设的匹配得分计算公式,确定各权威信息组与所述待分类网页地址的匹配得分;
分类模块,用于将与所述待分类网页地址的匹配得分最高的权威信息组的类型确定为所述待分类网页地址的类型。
本方案中,当电子设备获得待分类网页地址后,电子设备会对该待分类网页地址的类型进行识别。在类型识别过程中,电子设备需要先确定待分类网页地址对应的网页中的各正向链接组成的第二地址组,接下来,电子设备会确定第二地址组中的、存在于权威数据库中的各目标网页地址组成的第一地址组。之后,基于各权威信息组中所分布的每个目标网页地址对应的权重值、该目标网页地址在第一地址组中出现的次数,以及预设的匹配得分计算公式,电子设备可以非常容易地确定出各权威信息组与待分类网页地址的匹配得分。最终,电子设备可以将与待分类网页地址的匹配得分最高的权威信息组的类型确定为该待分类网页地址的类型。容易看出,在本方案中,电子设备对待分类网页地址的类型的识别仅仅依赖于待分类网页地址对应的网页中的各正向链接和权威数据库,电子设备无需利用其它的信息,故即使在待分类网页地址对应的网页中的内容较少时,电子设备也能够对待分类网页地址的类型进行科学地识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的一种网页地址分类方法的流程图;
图2为本发明实施例所提供的一种网页地址分类方法的又一流程图;
图3为本发明实施例所提供的一种网页地址分类方法的再一流程图;
图4为网页1、网页2和网页3的指向关系图;
图5为本发明实施例所提供的一种网页地址分类装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决现有技术存在的问题,本发明实施例提供了一种网页地址分类方法及装置。
下面首先对本发明实施例所提供的一种网页地址分类方法进行说明。
需要说明的是,本发明实施例所提供的一种网页地址分类方法应用于电子设备。具体地,该电子设备可以为防火墙设备,当然,该电子设备的类型并不局限于此,具体可以根据实际情况来确定,在此不再一一赘述。
参见图1,图中示出了本发明实施例所提供的一种网页地址分类方法的流程图。如图1所示,该方法可以包括如下步骤:
S101,获得待分类网页地址。
S102,确定第一地址组,第一地址组中包括目标网页地址,目标网页地址为第二地址组中的、存在于权威数据库中的网页地址,第二地址组中包括待分类网页地址对应的网页中的各正向链接,权威数据库中存储有类型互不相同的多个权威信息组,每个权威信息组中存储有权威网页地址与权重值之间的对应关系。
需要说明的是,权威数据库存在着两种部署方式。一种部署方式中,权威数据库可以位于该电子设备上,这样,在获得待分类网页地址后,该电子设备可以直接利用自身的该权威数据库来执行S102。另一种部署方式中,权威数据库可以位于能够与该电子设备进行信息交互的另一电子设备上,这样,在获得待分类网页地址后,该电子设备可以通过通信接口对位于另一电子设备上的权威数据库进行访问,以执行S102。
可以理解的是,权威网页是指与某个领域或者某个话题相关的高质量网页。举例而言,在搜索引擎领域,Google、Baidu、bing、sogou和soso首页为该领域的高质量网页,故Google、Baidu、bing、sogou和soso首页为搜索引擎领域的权威网页;在视频领域,优酷和土豆首页为该领域的高质量网页,故优酷和土豆首页为视频领域的权威网页。需要指出的是,权威网页地址即为权威网页的地址,权威信息组为包括了权威网页地址与权重值之间的对应关系的信息组,而权威数据库则为包括了多个类型互不相同的权威信息组的数据库。
需要强调的是,电子设备确定权威网页地址对应的权重值的具体实现形式多样,为了布局清楚,后续进行举例介绍。
容易看出,权威数据库的各权威信息组中的每个网页地址均为权威网页地址,这样,第一地址组中的每个目标网页地址也应当是权威网页地址,电子设备后续计算匹配得分时利用的也是与权威网页地址相关的信息,相应地,后续得到的匹配得分的权威性能够得到较好地保证。
对于电子设备而言,在获得待分类网页地址之后,其可以利用爬虫对待分类网页地址对应的网页进行访问,以得到待分类网页地址对应的网页中的各正向链接,这些正向链接的集合构成了第二地址组。接下来,电子设备可以将第二地址组中的各正向链接与权威数据库中的所有权威网页地址进行遍历比较,以确定第二地址组中的、存在于权威数据库中的网页地址,即目标网页地址,进而得到由这些目标网页地址的集合构成的第一地址组。
需要说明的是,爬虫是一种自动获取网页内容的程序,其是搜索引擎的重要组成部分,爬虫可以为搜索引擎从万维网上下载网页。
需要说明的是,正向链接是指某一网页内容中包括的指向其他网页的链接。举例而言,mall.1141a.com这个购物网站中就包含很多指向tmall.com的正向链接。可以理解的是,该其他网页既可以是与该正向链接所在的网页属于同一站点的网页,也可以是与该正向链接所在的网页属于不同站点的网页。
S103,基于各权威信息组中所分布的每个目标网页地址对应的权重值、该目标网页地址在第一地址组中出现的次数,以及预设的匹配得分计算公式,确定各权威信息组与待分类网页地址的匹配得分。
需要说明的是,电子设备确定各权威信息组与待分类网页地址的匹配得分的具体实现形式多样,为了布局清楚,后续进行举例介绍。
S104,将与待分类网页地址的匹配得分最高的权威信息组的类型确定为待分类网页地址的类型。
容易理解的是,若待分类网页地址与某一权威信息组的匹配得分最高,这说明待分类网页地址与该权威信息组的匹配度是最高的,待分类网页地址的类型与该权威信息组的类型应当是一致的,因此,电子设备可以将该权威信息组的类型确定为待分类网页地址的类型。
本方案中,当电子设备获得待分类网页地址后,电子设备会对该待分类网页地址的类型进行识别。在类型识别过程中,电子设备需要先确定待分类网页地址对应的网页中的各正向链接组成的第二地址组,接下来,电子设备会确定第二地址组中的、存在于权威数据库中的各目标网页地址组成的第一地址组。之后,基于各权威信息组中所分布的每个目标网页地址对应的权重值、该目标网页地址在第一地址组中出现的次数,以及预设的匹配得分计算公式,电子设备可以非常容易地确定出各权威信息组与待分类网页地址的匹配得分。最终,电子设备可以将与待分类网页地址的匹配得分最高的权威信息组的类型确定为该待分类网页地址的类型。
容易看出,在本方案中,电子设备对待分类网页地址的类型的识别仅仅依赖于待分类网页地址对应的网页中的各正向链接和权威数据库,电子设备无需利用其它的信息,故即使在待分类网页地址对应的网页中的内容较少时,电子设备也能够对待分类网页地址的类型进行科学地识别。
需要说明的是,对于电子设备而言,若其直接利用各目标网页地址在第一地址组中出现的次数进行匹配得分的计算,那么,在后续计算过程中,目标网页地址在第一地址组中出现的次数对计算结果的影响非常显著。假设权威数据库中仅存在着两个权威信息组,一权威信息组的类型为A类型,另一权威信息组的类型为B类型,此时存在着一种可能的情况:待分类网页地址的类型为A类型,但是,由于类型为B类型的权威信息组中所分布的某些目标网页地址在第一地址组中出现的次数较多,最终计算匹配得分时,类型为A类型的权威信息组与待分类网页地址的匹配得分小于类型为B类型的权威信息组与待分类网页地址的匹配得分,这样,电子设备最终会确定待分类网页地址的类型为B类型,这与实际情况是不相符的。
为了避免出现上述问题,本实施例中,基于各权威信息组中所分布的每个目标网页地址对应的权重值、该目标网页地址在第一地址组中出现的次数,以及预设的匹配得分计算公式,确定各权威信息组与待分类网页地址的匹配得分,可以包括:
对各权威信息组中所分布的每个目标网页地址在第一地址组中出现的次数进行校准,以确定相应的校准次数。
在本发明实施例的一种具体实施方式中,电子设备对各权威信息组中的所分布的每个目标网页地址在第一地址组中出现的次数进行校准,以确定相应的校准次数利用的公式可以为:
ScientificMatchTime=MatchTime(1/M) (1)
其中,ScientificMatchTime为校准次数,MatchTime为任一目标网页地址在第一地址组中出现的次数,M为预设的开方次数,M大于或等于2。
其中,M的取值可以为2、3、4或5,在本发明的一个优选实施例中,M的取值可以为2。当然,M的取值并不局限上述列举出的几种情况,具体可以根据实际情况来确定,本实施例对此不做任何限定。
基于各权威信息组中分布的每个目标网页地址对应的权重值、该目标网页地址对应的校准次数,以及预设的匹配得分计算公式,确定各权威信息组与待分类网页地址的匹配得分。
电子设备计算任一权威信息组与待分类网页地址的匹配得分利用的公式可以为:
Figure BDA0001188785300000071
其中,TypeScore为该权威信息组与待分类网页地址的匹配得分,n为该权威信息组中所分布的目标网页地址的个数,ScientificMatchTime(n)为该权威信息组中所分布的第n个目标网页地址对应的校准次数,Weight(n)为该权威信息组中所分布的第n个目标网页地址对应的权重值。
容易理解的是,当电子设备确定相应的校准次数利用的为公式(1)时,公式(2)可以变形为:
Figure BDA0001188785300000072
容易看出,当利用公式(3)来计算匹配得分时,电子设备对各目标网页地址在第一地址组中出现的次数进行了校准,即进行了开方处理。这样,在后续计算匹配得分的过程中,目标网页地址在第一地址组中出现的次数对计算结果的影响将会降低,相应地,电子设备最终确定出的待分类网页地址的类型的准确性能够得到较好地保证。
下面以M的取值为2的情况为例,对电子设备计算各权威信息组与待分类网页地址的匹配得分的具体实施过程进行说明。
假设权威数据库中存储的权威信息组的数量为三个,分别为权威信息组1、权威信息组2和权威信息组3,其中,权威信息组1的类型为新闻,权威信息组2的类型为体育,权威信息组3的类型为金融。
当电子设备获得待分类网页地址后,电子设备可以利用爬虫对待分类网页地址对应的网页进行访问,假设待分类网页地址对应的网页中包含20个正向链接,电子设备会得到这20个正向链接。接下来,电子设备会以遍历的方式将这20个正向链接与权威数据库中的各权威网页地址进行比较,以确定第一地址组,第一地址组中包括这20个正向链接中的、存在于权威数据库中的目标网页地址。具体地,假设第一地址组中的目标网页地址的数量为15个,并且,这15个目标网页地址在各权威信息组中的分布情况为:
权威信息组1中分布有2个目标网页地址(即电子设备经过遍历比较,发现权威信息组1中存储有第一地址组中的2个目标网页地址,分别为X1和X2,X1在第一地址组中出现的次数为2次,X2在第一地址组中出现的次数为1次,并且,根据权威信息组1中的对应关系,电子设备确定出X1对应的权重值为Y1,X2对应的权重值为Y2;
权威信息组2中分布有3个目标网页地址(即电子设备经过遍历比较,发现权威信息组2中存储有第一地址组中的3个目标网页地址),分别为X3、X4和X5,其中,X3在第一地址组中出现的次数为4次,X4在第一地址组中出现的次数为3次,X5在第一地址组中出现的次数为3次,并且,根据权威信息组2中的对应关系,电子设备确定出X3对应的权重值为Y3,X4对应的权重值为Y4,X5对应的权重值为Y5;
权威信息组3中分布有1个目标网页地址(即电子设备经过遍历比较,发现权威信息组3中存储第一地址组中的1个目标网页地址),该目标网页地址为X6,X6在第一地址组中出现的次数为2次,并且,根据权威信息组3中的对应关系,电子设备确定出X6对应的权重值为Y6。
之后,电子设备就可以对各权威信息组与待分类网页地址的匹配得分进行计算了。
(1)权威信息组1与待分类网页地址的匹配得分为:
Figure BDA0001188785300000081
Figure BDA0001188785300000082
(2)权威信息组2与待分类网页地址的匹配得分为:
Figure BDA0001188785300000083
Figure BDA0001188785300000084
(3)权威信息组3与待分类网页地址的匹配得分为:
Figure BDA0001188785300000085
假设TypeScore2>TypeScore1>TypeScore3,即与待分类网页地址的匹配得分最高的是权威信息组2,也就是说,待分类网页地址与权威信息组2的匹配度是最高的,故电子设备会将权威信息组2的类型,即体育确定为该待分类网页地址的类型。
容易看出,本实施例中,电子设备可以较为容易地识别出待分类网页地址的类型,并且,通过对各目标网页地址在第一地址组中出现的次数进行校准,本实施例降低了各目标网页地址在第一地址组中出现的次数对匹配得分计算结果的影响,从而保证了待分类网页地址的类型识别结果的准确性。
参见图2,图中示出了本发明实施例所提供的一种网页地址分类方法的又一流程图。如图2所示,该方法可以包括如下步骤:
S201,获得待分类网页地址。
S202,判断待分类网页地址是否存在于网页数据库的任一网页地址分组中,其中,网页数据库中存储有类型互不相同的多个网页地址分组;若为否,执行S203。
S203,确定第一地址组,第一地址组中包括目标网页地址,目标网页地址为第二地址组中的、存在于权威数据库中的网页地址,第二地址组中包括待分类网页地址对应的网页中的各正向链接,权威数据库中存储有类型互不相同的多个权威信息组,每个权威信息组中存储有权威网页地址与权重值之间的对应关系。
S204,基于各权威信息组中所分布的每个目标网页地址对应的权重值、该目标网页地址在第一地址组中出现的次数,以及预设的匹配得分计算公式,确定各权威信息组与待分类网页地址的匹配得分。
S205,将与待分类网页地址的匹配得分最高的权威信息组的类型确定为待分类网页地址的类型。
需要说明的是,与权威数据库类似的是,网页数据库也存在着两种部署方式。一种部署方式中,网页数据库可以位于该电子设备上,这样,在获得待分类网页地址后,该电子设备可以直接利用自身的该网页数据库来执行S202。另一种部署方式中,网页数据库可以位于能够与该电子设备进行信息交互的另一电子设备上,这样,在获得待分类网页地址后,该电子设备可以通过通信接口来对位于另一电子设备上的网页数据库进行访问,以执行S202。
容易理解的是,网页地址分组与类型之间是一一对应的关系。具体地,网页地址分组的数量可以为三个,分别为网页地址分组1、网页地址分组2和网页地址分组3,其中,网页地址分组1的类型可以是新闻,网页地址分组2的类型可以是体育,网页地址分组3的类型可以是金融。当然,网页地址分组的数量并不局限于3个,具体可以根据实际情况来确定,本实施例对此不做任何限定。
需要强调的是,对于每个网页地址分组而言,其还可以进行进一步地分类。具体地,对于网页地址分组3,即类型为金融的网页地址分组而言,其还可以具有银行、证券、基金等子分类。类似地,银行、证券、基金等分类也可以被进一步地细分。
容易理解的是,当电子设备获得任一待分类网页地址之后,电子设备可以先去判断该待分类网页地址是否存在于网页数据库的任一网页地址分组中。如果经过判断,电子设备发现该待分类网页地址存在于某一网页地址分组中,此时电子设备就可以确定该待分类网页地址的类型为其所在的网页地址分组的类型,故该待分类网页地址的类型是已知的,电子设备无需执行后续的对待分类网页地址的类型进行识别的步骤,以有效地节省电子设备上的系统资源。如果经过判断,电子设备发现该待分类网页地址并不存在于任一网页地址分组中,这说明该待分类网页地址的类型是未知的,故电子设备会执行后续的对待分类网页地址的类型进行识别的步骤。
参见图3,图中示出了本发明实施例所提供的一种网页地址分类方法的再一流程图。如图3所示,该方法包括如下步骤:
S301,获得待分类网页地址。
S302,判断待分类网页地址是否存在于网页数据库的任一网页地址分组中,其中,网页数据库中存储有类型互不相同的多个网页地址分组;若为否,执行S303。
S303,确定第一地址组,第一地址组中包括目标网页地址,目标网页地址为第二地址组中的、存在于权威数据库中的网页地址,第二地址组中包括待分类网页地址对应的网页中的各正向链接,权威数据库中存储有类型互不相同的多个权威信息组,每个权威信息组中存储有权威网页地址与权重值之间的对应关系。
S304,基于各权威信息组中所分布的每个目标网页地址对应的权重值、该目标网页地址在第一地址组中出现的次数,以及预设的匹配得分计算公式,确定各权威信息组与待分类网页地址的匹配得分。
S305,将与待分类网页地址的匹配得分最高的权威信息组的类型确定为待分类网页地址的类型。
S306,将待分类网页地址存储至类型为待分类网页地址的类型的网页地址分组中。
容易理解的是,由于确定出待分类网页地址的类型后,电子设备将该待分类网页地址存储至了类型为所确定的类型的网页地址分组中,因此,当电子设备再次获得该待分类网页地址时,电子设备可以直接将再次获得的该待分类网页地址所在的网页地址分组的类型确定为再次获得的该待分类网页地址的类型,电子设备无需执行后续的对待分类网页地址的类型进行识别的步骤,这样可以较好地节省电子设备上的系统资源。
下面对电子设备建立权威数据库的过程进行说明。
在本发明实施例的一种具体实施方式中,确定第一地址组之前,该方法还可以包括:
确定多个不同的类型,创建包括有多个权威信息组的权威数据库,其中,权威信息组与类型一一对应;
针对每个类型,确定对应的网页地址集合,其中,每个网页地址集合中包括第一预设数量个权威网页地址;
确定每个类型对应的根集,其中,每个根集中包括该根集的类型对应的网页地址集合中的第二预设数量个权威网页地址;
确定每个类型对应的扩展集合,其中,每个扩展集合中包括该扩展集合的类型对应的根集中的各权威网页地址对应的网页中的正向链接;
基于每个类型对应的根集、扩展集合,以及HITS(Hypertext-induced TopicSearch,超文本敏感标题搜索)算法,计算每个类型对应的根集中的各权威网页地址所对应的权重值;
将计算得到的每个权威网页地址对应的权重值与该权威网页地址之间的对应关系存储至该权威网页地址的类型对应的权威信息组中。
需要说明的是,第一预设数量和第二预设数量均可以根据实际情况来确定,本实施例对此不做任何限定。
可以理解的是,HITS算法是搜索引擎领域常用的链接分析方法。对于HITS算法而言,Hub页面和Authority页面是最基本的两个定义。具体地,Authority页面是指与某个领域或某个话题相关的高质量网页(例如视频领域中的优酷和土豆首页,或者搜索引擎领域的baidu和google首页),Hub页面是指包含了很多指向高质量Authority页面链接的网页(例如hao123首页)。一般来说,一个好的Authority页面会被佷多好的Hub页面指向,一个好的Hub页面常常会指向佷多好的Authority页面,即两者之间存在着相互补强关系。
下面对HITS算法的基本原理进行简要介绍。
如图4所示,图中有3个网页,分别是网页1、网页2和网页3,网页1和网页2指向网页3。初始状态下,可以将每个网页的初始hub值和初始authority值均设置为1,假设将h(p)记为网页p的hub值,将a(p)记为网页p的authority值,那么,在初始状态下:
h(1)=h(2)=h(3)=1,a(1)=a(2)=a(3)=1
下面可以利用HITS算法进行第一轮迭代计算。
在第一轮迭代计算中,由于没有网页指向网页1和网页2,所以a(1)=a(2)=0;由于网页1和网页2均指向网页3,所以a(3)=h(1)+h(2)=2,h(1)=a(3)=2,h(2)=a(3)=2;由于网页3没有指向任何网页,所以h(3)=0。
容易看出,经过第一轮迭代后,最终的结果为:
h(1)=2,h(2)=2,h(3)=0,a(1)=0,a(2)=0,a(3)=2
下面可以利用HITS算法进行第二轮迭代计算。
在第二轮迭代计算中,由于没有网页指向网页1和网页2,所以a(1)=a(2)=0;由于网页1和网页2均指向网页3,所以a(3)=h(1)+h(2)=4,h(1)=a(3)=4,h(2)=a(3)=4,由于网页3中没有指向任何网页,所以h(3)=0。
容易看出,经过第二轮迭代后,最终的结果为:
h(1)=4,h(2)=4,h(3)=0,a(1)=0,a(2)=0,a(3)=4。
后续迭代计算过程与上述计算过程类似,在此不再赘述。
下面以一个具体的例子对实施例的具体实施过程进行详细说明。
对于电子设备而言,其可以先确定权威信息组的分类标准,并根据该分类标准,确定出多个不同的类型,假设电子设备确定出的类型的数量为4个,分别为购物、新闻、体育和金融。接下来,电子设备可以在自身内部创建包括有4个权威信息组的权威数据库,这4个权威信息组分别为:权威信息组A、权威信息组B、权威信息组C和权威信息组D,其中,权威信息组A的类型为购物,权威信息组B的类型为新闻、权威信息组C的类型为体育、权威信息组D的类型为金融。
接下来,电子设备可以针对每个类型,确定对应的网页地址集合。具体地,假设第一预设数量为30,那么每个网页地址集合中的权威网页地址的数量均为30个。在网页地址集合确定好之后,电子设备可以根据用户对各个权威网页地址对应的权威页面的访问量、权威网页地址对应的权威页面中的内容,以及权威网页地址对应的权威页面的流行度进行打分,这样,每个网页地址集合中的每个权威网页地址都会有一个对应的得分。假设第二预设数量为3,那么,电子设备可以针对每个类型对应的网页地址集合,从中选取得分最高的3个权威网页地址,以将包含有所选取的3个权威网页地址的集合作为该类型对应的根集。在每个类型对应的根集均确定之后,电子设备可以利用爬虫对各根集中的每个权威网页地址对应的网页进行访问,以得到各权威网页地址对应的网页中的所有正向链接。
具体地,假设购物对应的根集中包括淘宝的网页地址(后续描述中称为P1)、京东的网页地址(后续描述中称为P2)和唯品会的网页地址(后续描述中称为P3),那么购物对应的扩展集合中就包括P1、P2以及P3对应的网页中的各正向链接。接下来,电子设备可以将P1、P2和P3,以及购物对应的扩展集合中的每个正向链接的初始hub值和初始authority值均设置为1。容易看出,P1、P2和P3相当于图4中的网页1和网页2,购物对应的扩展集合中的每个正向链接相当于图4中的网页3,电子设备可以利用HITS算法,对P1、P2和P3,以及购物对应的根集中的每个正向链接的hub值和authority值进行迭代计算。当迭代计算的次数达到一定量时,P1、P2和P3,以及购物对应的根集中的每个正向链接的hub值和authority值均趋于稳定,即不再发生明显的变化。假设此时P1的authority值为Z1,P2的authority值为Z2,P3的authority值为Z3,那么,电子设备可以将Z1作为淘宝的网页地址的权重值,并将Z1与淘宝的网页地址的对应关系存储至权威信息组A中;电子设备还可以将Z2作为京东的网页地址的权重值,并将Z2与京东的网页地址的对应关系存储至权威信息组A中;电子设备还可以将Z3作为唯品会的网页地址的权重值,并将Z3与唯品会的网页地址的对应关系存储至权威信息组A中。容易理解的是,当各类型对应的根集中的各权威网页地址的权重值均确定,且各权威网页地址与权重值之间的对应关系均成功存储至相应权威信息组中之后,最终的权威数据库就成功建立了。在后续过程中,电子设备依据该权威数据库可以对待分类网页地址的类型进行科学地识别。
容易看出,本实施例利用了HITS算法来建立最终的权威数据库,故权威数据库较为精准,这样可以较好地保证电子设备对待分类网页地址的类型识别结果的准确性。
综上,本实施例中,电子设备能够对待分类网页地址的类型进行科学地识别。
下面对本发明实施例所提供的一种网页地址分类装置进行说明。
需要说明的是,本发明实施例所提供的一种网页地址分类装置可以应用于电子设备。
参见图5,图中示出了本发明实施例所提供的一种网页地址分类装置的结构框图。如图5所示,该装置可以包括:
获得模块51,用于获得待分类网页地址;
地址组确定模块52,用于确定第一地址组,第一地址组中包括目标网页地址,目标网页地址为第二地址组中的、存在于权威数据库中的网页地址,第二地址组中包括待分类网页地址对应的网页中的各正向链接,权威数据库中存储有类型互不相同的多个权威信息组,每个权威信息组中存储有权威网页地址与权重值之间的对应关系;
匹配得分确定模块53,用于基于各权威信息组中所分布的每个目标网页地址对应的权重值、该目标网页地址在第一地址组中出现的次数,以及预设的匹配得分计算公式,确定各权威信息组与待分类网页地址的匹配得分;
分类模块54,用于将与待分类网页地址的匹配得分最高的权威信息组的类型确定为待分类网页地址的类型。
容易看出,在本方案中,电子设备对待分类网页地址的类型的识别仅仅依赖于待分类网页地址对应的网页中的各正向链接和权威数据库,电子设备无需利用其它的信息,故即使在待分类网页地址对应的网页中的内容较少时,电子设备也能够对待分类网页地址的类型进行科学地识别。
在本发明实施例的一种具体实施方式中,匹配得分确定模块,可以包括:
校准次数确定单元,用于对各权威信息组中所分布的每个目标网页地址在第一地址组中出现的次数进行校准,以确定相应的校准次数;
匹配得分确定单元,用于基于各权威信息组中分布的每个目标网页地址对应的权重值、该目标网页地址对应的校准次数,以及预设的匹配得分计算公式,确定各权威信息组与待分类网页地址的匹配得分。
在本发明实施例的一种具体实施方式中,对各权威信息组中所分布的每个目标网页地址在第一地址组中出现的次数进行校准,以确定相应的校准次数利用的公式为:
ScientificMatchTime=MatchTime(1/M)
其中,ScientificMatchTime为校准次数,MatchTime为任一目标网页地址在第一地址组中出现的次数,M为预设的开方次数。
在本发明实施例的一种具体实施方式中,计算任一权威信息组与待分类网页地址的匹配得分时利用的匹配得分计算公式为:
Figure BDA0001188785300000161
其中,TypeScore为该权威信息组与待分类网页地址的匹配得分,n为该权威信息组中所分布的目标网页地址的个数,ScientificMatchTime(n)为该权威信息组中所分布的第n个目标网页地址对应的校准次数,Weight(n)为该权威信息组中所分布的第n个目标网页地址对应的权重值。
在本发明实施例的一种具体实施方式中,该装置还可以包括:
地址存储模块,用于在将与待分类网页地址的匹配得分最高的权威信息组的类型确定为待分类网页地址的类型后,将待分类网页地址存储至类型为待分类网页地址的类型的网页地址分组中。
在本发明实施例的一种具体实施方式中,该装置还可以包括:
判断模块,用于在确定第一地址组之前,判断待分类网页地址是否存在于网页数据库的任一网页地址分组中,其中,网页数据库中存储有类型互不相同的多个网页地址分组;若为否,触发地址组确定模块。
在本发明实施例的一种具体实施方式中,该装置还可以包括:
创建模块,用于在确定第一地址组之间,确定多个不同的类型,创建包括有多个权威信息组的权威数据库,其中,权威信息组与类型一一对应;
集合确定模块,用于针对每个类型,确定对应的网页地址集合,其中,每个网页地址集合中包括第一预设数量个权威网页地址;
根集确定模块,用于确定每个类型对应的根集,其中,每个根集中包括该根集的类型对应的网页地址集合中的第二预设数量个权威网页地址;
扩展集合确定模块,用于确定每个类型对应的扩展集合,其中,每个扩展集合中包括该扩展集合的类型对应的根集中的各权威网页地址对应的网页中的正向链接;
权重值计算模块,用于基于每个类型对应的根集、扩展集合,以及HITS(Hypertext-induced Topic Search,超文本敏感标题搜索)算法,计算每个类型对应的根集中的各权威网页地址所对应的权重值;
对应关系存储模块,用于将计算得到的每个权威网页地址对应的权重值与该权威网页地址之间的对应关系存储至该权威网页地址的类型对应的权威信息组中。
综上,本实施例中,电子设备能够对待分类网页地址的类型进行有效地识别。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (14)

1.一种网页地址分类方法,其特征在于,应用于电子设备中,所述方法包括:
获得待分类网页地址;
确定第一地址组,所述第一地址组中包括目标网页地址,所述目标网页地址为第二地址组中的、存在于权威数据库中的网页地址,所述第二地址组中包括所述待分类网页地址对应的网页中的各正向链接,所述权威数据库中存储有类型互不相同的多个权威信息组,每个权威信息组中存储有权威网页地址与权重值之间的对应关系;
基于各权威信息组中所分布的每个目标网页地址对应的权重值、该目标网页地址在所述第一地址组中出现的次数,以及预设的匹配得分计算公式,确定各权威信息组与所述待分类网页地址的匹配得分;
将与所述待分类网页地址的匹配得分最高的权威信息组的类型确定为所述待分类网页地址的类型。
2.根据权利要求1所述的方法,其特征在于,所述基于各权威信息组中所分布的每个目标网页地址对应的权重值、该目标网页地址在所述第一地址组中出现的次数,以及预设的匹配得分计算公式,确定各权威信息组与所述待分类网页地址的匹配得分,包括:
对各所述权威信息组中所分布的每个目标网页地址在所述第一地址组中出现的次数进行校准,以确定相应的校准次数;
基于各权威信息组中分布的每个目标网页地址对应的权重值、该目标网页地址对应的校准次数,以及预设的匹配得分计算公式,确定各权威信息组与所述待分类网页地址的匹配得分。
3.根据权利要求2所述的方法,其特征在于,对各所述权威信息组中所分布的每个目标网页地址在所述第一地址组中出现的次数进行校准,以确定相应的校准次数利用的公式为:
ScientificMatchTime=MatchTime(1/M)
其中,ScientificMatchTime为校准次数,MatchTime为任一目标网页地址在所述第一地址组中出现的次数,M为预设的开方次数,M大于或等于2。
4.根据权利要求2所述的方法,其特征在于,计算任一权威信息组与所述待分类网页地址的匹配得分时利用的匹配得分计算公式为:
Figure FDA0001188785290000021
其中,TypeScore为该权威信息组与所述待分类网页地址的匹配得分,n为该权威信息组中所分布的目标网页地址的个数,ScientificMatchTime(n)为该权威信息组中所分布的第n个目标网页地址对应的校准次数,Weight(n)为该权威信息组中所分布的第n个目标网页地址对应的权重值。
5.根据权利要求1所述的方法,其特征在于,所述确定第一地址组之前,所述方法还包括:
判断所述待分类网页地址是否存在于网页数据库的任一网页地址分组中,其中,所述网页数据库中存储有类型互不相同的多个网页地址分组;
若为否,执行所述确定第一地址组的步骤。
6.根据权利要求5所述的方法,其特征在于,所述将与所述待分类网页地址的匹配得分最高的权威信息组的类型确定为所述待分类网页地址的类型后,所述方法还包括:
将所述待分类网页地址存储至类型为所述待分类网页地址的类型的网页地址分组中。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述确定第一地址组之前,所述方法还包括:
确定多个不同的类型,并创建包括有多个权威信息组的权威数据库,其中,所述权威信息组与所述类型一一对应;
针对每个类型,确定对应的网页地址集合,其中,每个网页地址集合中包括第一预设数量个权威网页地址;
确定每个类型对应的根集,其中,每个根集中包括该根集的类型对应的网页地址集合中的第二预设数量个权威网页地址;
确定每个类型对应的扩展集合,其中,每个扩展集合中包括该扩展集合的类型对应的根集中的各权威网页地址对应的网页中的正向链接;
基于每个类型对应的根集、扩展集合,以及超文本敏感标题搜索HITS算法,计算每个类型对应的根集中的各权威网页地址所对应的权重值;
将计算得到的每个权威网页地址对应的权重值与该权威网页地址之间的对应关系存储至该权威网页地址的类型对应的权威信息组中。
8.一种网页地址分类装置,其特征在于,应用于电子设备中,所述装置包括:
获得模块,用于获得待分类网页地址;
地址组确定模块,用于确定第一地址组,所述第一地址组中包括目标网页地址,所述目标网页地址为第二地址组中的、存在于权威数据库中的网页地址,所述第二地址组中包括所述待分类网页地址对应的网页中的各正向链接,所述权威数据库中存储有类型互不相同的多个权威信息组,每个权威信息组中存储有权威网页地址与权重值之间的对应关系;
匹配得分确定模块,用于基于各权威信息组中所分布的每个目标网页地址对应的权重值、该目标网页地址在所述第一地址组中出现的次数,以及预设的匹配得分计算公式,确定各权威信息组与所述待分类网页地址的匹配得分;
分类模块,用于将与所述待分类网页地址的匹配得分最高的权威信息组的类型确定为所述待分类网页地址的类型。
9.根据权利要求8所述的装置,其特征在于,所述匹配得分确定模块,包括:
校准次数确定单元,用于对各所述权威信息组中所分布的每个目标网页地址在所述第一地址组中出现的次数进行校准,以确定相应的校准次数;
匹配得分确定单元,用于基于各权威信息组中分布的每个目标网页地址对应的权重值、该目标网页地址对应的校准次数,以及预设的匹配得分计算公式,确定各权威信息组与所述待分类网页地址的匹配得分。
10.根据权利要求9所述的装置,其特征在于,对各所述权威信息组中所分布的每个目标网页地址在所述第一地址组中出现的次数进行校准,以确定相应的校准次数利用的公式为:
ScientificMatchTime=MatchTime(1/M)
其中,ScientificMatchTime为校准次数,MatchTime为任一目标网页地址在所述第一地址组中出现的次数,M为预设的开方次数,M大于或等于2。
11.根据权利要求9所述的装置,其特征在于,计算任一权威信息组与所述待分类网页地址的匹配得分时利用的匹配得分计算公式为:
Figure FDA0001188785290000041
其中,TypeScore为该权威信息组与所述待分类网页地址的匹配得分,n为该权威信息组中所分布的目标网页地址的个数,ScientificMatchTime(n)为该权威信息组中所分布的第n个目标网页地址对应的校准次数,Weight(n)为该权威信息组中所分布的第n个目标网页地址对应的权重值。
12.根据权利要求8所述的装置,其特征在于,所述装置还包括:
判断模块,用于在确定第一地址组之前,判断所述待分类网页地址是否存在于网页数据库的任一网页地址分组中,其中,所述网页数据库中存储有类型互不相同的多个网页地址分组;若为否,触发所述地址组确定模块。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括:
地址存储模块,用于在将与所述待分类网页地址的匹配得分最高的权威信息组的类型确定为所述待分类网页地址的类型后,将所述待分类网页地址存储至类型为所述待分类网页地址的类型的网页地址分组中。
14.根据权利要求8-13中任一项所述的装置,其特征在于,所述装置还包括:
创建模块,用于在确定所述第一地址组之间,确定多个不同的类型,创建包括有多个权威信息组的权威数据库,其中,所述权威信息组与所述类型一一对应;
集合确定模块,用于针对每个类型,确定对应的网页地址集合,其中,每个网页地址集合中包括第一预设数量个权威网页地址;
根集确定模块,用于确定每个类型对应的根集,其中,每个根集中包括该根集的类型对应的网页地址集合中的第二预设数量个权威网页地址;
扩展集合确定模块,用于确定每个类型对应的扩展集合,其中,每个扩展集合中包括该扩展集合的类型对应的根集中的各权威网页地址对应的网页中的正向链接;
权重值计算模块,用于基于每个类型对应的根集、扩展集合,以及超文本敏感标题搜索HITS算法,计算每个类型对应的根集中的各权威网页地址所对应的权重值;
对应关系存储模块,用于将计算得到的每个权威网页地址对应的权重值与该权威网页地址之间的对应关系存储至该权威网页地址的类型对应的权威信息组中。
CN201611199522.4A 2016-12-22 2016-12-22 一种网页地址分类方法及装置 Active CN106874340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611199522.4A CN106874340B (zh) 2016-12-22 2016-12-22 一种网页地址分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611199522.4A CN106874340B (zh) 2016-12-22 2016-12-22 一种网页地址分类方法及装置

Publications (2)

Publication Number Publication Date
CN106874340A CN106874340A (zh) 2017-06-20
CN106874340B true CN106874340B (zh) 2020-12-18

Family

ID=59163851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611199522.4A Active CN106874340B (zh) 2016-12-22 2016-12-22 一种网页地址分类方法及装置

Country Status (1)

Country Link
CN (1) CN106874340B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378172B (zh) * 2020-02-25 2023-12-29 奇安信科技集团股份有限公司 用于识别敏感网页的方法、装置、计算机系统和介质
CN111831874B (zh) * 2020-07-16 2022-08-19 深圳赛安特技术服务有限公司 网页数据信息获取方法、装置、计算机设备及存储介质
CN111914201B (zh) * 2020-08-07 2023-11-07 腾讯科技(深圳)有限公司 网络页面的处理方法及装置
CN113518132B (zh) * 2021-05-18 2023-03-24 北京天融信网络安全技术有限公司 网络地址的类别识别方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750754A (zh) * 2013-12-31 2015-07-01 北龙中网(北京)科技有限责任公司 网站所属行业的分类方法和服务器
CN105117434A (zh) * 2015-08-07 2015-12-02 北京品友互动信息技术有限公司 一种网页分类方法和系统
CN105574047A (zh) * 2014-10-17 2016-05-11 任子行网络技术股份有限公司 一种基于网站主页特征分析的中文网站分类方法和系统
CN106168968A (zh) * 2016-06-29 2016-11-30 杭州华三通信技术有限公司 一种网站分类方法及装置
WO2016200627A1 (en) * 2015-06-09 2016-12-15 Children's Hospital Medical Center Dosing algorithm for complement inhibitor

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750754A (zh) * 2013-12-31 2015-07-01 北龙中网(北京)科技有限责任公司 网站所属行业的分类方法和服务器
CN105574047A (zh) * 2014-10-17 2016-05-11 任子行网络技术股份有限公司 一种基于网站主页特征分析的中文网站分类方法和系统
WO2016200627A1 (en) * 2015-06-09 2016-12-15 Children's Hospital Medical Center Dosing algorithm for complement inhibitor
CN105117434A (zh) * 2015-08-07 2015-12-02 北京品友互动信息技术有限公司 一种网页分类方法和系统
CN106168968A (zh) * 2016-06-29 2016-11-30 杭州华三通信技术有限公司 一种网站分类方法及装置

Also Published As

Publication number Publication date
CN106874340A (zh) 2017-06-20

Similar Documents

Publication Publication Date Title
CN106874340B (zh) 一种网页地址分类方法及装置
CN110311902B (zh) 一种异常行为的识别方法、装置及电子设备
US11449570B2 (en) Data caching method and apparatus
CN104317938B (zh) 网页链接有效性验证方法及装置
US10216848B2 (en) Method and system for recommending cloud websites based on terminal access statistics
US11212297B2 (en) Access classification device, access classification method, and recording medium
CN107239701B (zh) 识别恶意网站的方法及装置
JP2009505292A5 (zh)
US20180131708A1 (en) Identifying Fraudulent and Malicious Websites, Domain and Sub-domain Names
CN106992981B (zh) 一种网站后门检测方法、装置和计算设备
CN109086377B (zh) 设备画像的生成方法、装置及计算设备
CN109948122B (zh) 输入文本的纠错方法、装置及电子设备
CN108353083A (zh) 用于检测域产生算法(dga)恶意软件的系统及方法
CN110515631B (zh) 应用安装数据包的生成方法、服务器及计算机存储介质
CN109815112B (zh) 基于功能测试的数据调试方法、装置及终端设备
JP5389739B2 (ja) 解析システム、解析装置、解析方法及び解析プログラム
JP2018194919A (ja) 学習プログラム、学習方法及び学習装置
CN103577547B (zh) 网页类型识别方法及装置
CN111177719A (zh) 地址类别判定方法、装置、计算机可读存储介质及设备
CN107784107B (zh) 基于逃逸行为分析的暗链检测方法及装置
CN114880641A (zh) Api资产探测方法、装置、设备和介质
CN107786529B (zh) 网站的检测方法、装置及系统
CN113691489A (zh) 一种恶意域名检测特征处理方法、装置和电子设备
CN105653540B (zh) 文件属性信息的处理方法和装置
JP7175148B2 (ja) 判定装置及び判定方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant