CN104750704A

CN104750704A - 一种网页url地址分类识别方法及装置

Info

Publication number: CN104750704A
Application number: CN201310739676.8A
Authority: CN
Inventors: 崔洪涛; 李明; 李�远; 邵杰; 黄伟; 张�杰
Original assignee: China Mobile Group Henan Co Ltd
Current assignee: China Mobile Group Henan Co Ltd
Priority date: 2013-12-26
Filing date: 2013-12-26
Publication date: 2015-07-01
Anticipated expiration: 2033-12-26
Also published as: CN104750704B

Abstract

本发明公开了一种网页URL地址分类识别方法及装置，用以在尽量减小URL分类所需的数据量的前提下，提高URL分类的准确率以及深度，提高效率。该方法为：解析多个具体相同域名的URL地址，确定所述URL地址包含的主路径以及各级子路径，按照确定的所述主路径以及各级子路径作为各级目录构建目录树；按照所述URL地址包含的全路径将每个所述URL地址划分至所述目录树中相应的目录下；针对所述目录树中的任一级目录，分别确定包含的各URL地址对应的网页中的关键词，确定具有相同的第一关键词的网页与所述目录中的网页总数的比值高于设定阈值时，将所述第一关键词所属的类别确定为所述目录下的各URL地址的类别。

Description

一种网页URL地址分类识别方法及装置

技术领域

本发明涉及网络技术领域，尤其涉及一种网页URL地址分类识别方法及装置。

背景技术

随着互联网的迅速发展，网络数据量急剧增长，面对数量庞大的网页信息资源，需要对数量庞大的网页信息进行分类整理。

目前，按照网页的统一资源定位符（URL）对网页进行分类是比较常见的网页分类整理方法之一。

传统的URL分类识别主要有以下几种方法：

第一种，在获取网页的URL地址后，采用网页爬虫技术按照该URL地址爬取网页内容，对网页的标题和正文进行语义分析后确定出现频率较高的设定个数的关键词（Keywords），根据确定的关键词确定该网页所属的类别。该方法受到硬件条件限制不可能爬取所有的互联网页面，再者该方法难以对网页进行准确分类，只能够给出该网页可能归属的几个类别（即关键词）。

第二种，将获取的网页的URL地址与设定的正则表达式进行匹配，若匹配成功则将该网页归于该正则表达式所对应的类别，例如，将获取的URL地址的后缀与设定的正则表达式后缀为“.XX.com”或“.XX.cn”进行比较，将凡是以“.XX.com”或“.XX.cn”结尾的URL地址均归属为XX网站。该方法需要针对每个待分类网站进行大量的URL地址分析，人工梳理得到URL地址的规律，人工梳理的难度高，工作量大。

第三种，将获取的网页的URL地址中包含的域名与设定的域名进行匹配，若匹配成功，将该URL地址归于该域名对应的类别。采用域名匹配的方法可以将有限的人力资源用到对热点网站的分类识别上，并且能够保证匹配的覆盖度，以及保证匹配的准确率。但是，域名匹配的匹配深度低，一般智能识别出该URL网址时域哪个网站，具体该URL属于该网站的哪一频道或者哪一类别无法确定。

第四种，将获取的网页的URL地址与预设的目录进行匹配，若匹配成功，将该URL地址归于该目录对应的类别，该方法能够保证匹配的准确率，但是预设的目录需要人工分析梳理大量的URL地址后得到，对目录进行维护的工作量大，且人工梳理获得目录的方式也难以保证匹配的覆盖度。

综上所述，需要寻求一种网页的URL地址分类识别的方法，能够尽量减小数据量的前提下，提高URL分类的准确率以及深度，提高处理效率。

发明内容

本发明提供一种网页URL地址分类识别方法及装置，用以在尽量减小URL分类所需的数据量的前提下，提高URL分类的准确率以及深度，提高处理效率。

本发明实施例提供的具体技术方案如下：

一种网页统一资源定位符URL地址分类识别方法，包括：

解析多个具体相同域名的URL地址，确定所述URL地址包含的主路径以及各级子路径，按照确定的所述主路径以及各级子路径作为各级目录构建目录树；

按照所述URL地址包含的全路径将每个所述URL地址划分至所述目录树中相应的目录下；

针对所述目录树中的任一级目录，分别确定包含的各URL地址对应的网页中的关键词，确定具有相同的第一关键词的网页与所述目录中的网页总数的比值高于设定阈值时，将所述第一关键词所属的类别确定为所述目录下的各URL地址的类别。

一种网页统一资源定位符URL地址分类识别装置，包括：

构建单元，用于解析多个具体相同域名的URL地址，确定所述URL地址中包含的主路径以及各级子路径，按照确定的所述主路径以及各级子路径作为各级目录构建目录树；

分类单元，用于按照所述URL地址包含的全路径将每个所述URL地址划分至所述目录树中相应的目录下；

处理单元，用于针对所述目录树中的任一级目录，分别确定包含的各URL地址对应的网页中的关键词，确定具有相同的第一关键词的网页与所述目录中的网页总数的比值高于设定阈值时，将所述第一关键词所属的类别确定为所述目录下的各URL地址的类别。

基于上述技术方案，本发明实施例中，通过解析多个具有相同域名的URL地址构建目录树，按照URL地址的全路径将各URL地址划分至目录树中相应的目录下，针对任一目录确定该目录，分别确定包含的各URL地址对应的网页的关键词，确定具有相同的第一关键词的网页与目录中的网页总数的比例高于设定阈值时，将第一关键词所属的类别确定为该目录下的URL地址的类别，从而能够自动构建目录树并确定目录树中各目录的类别，无需人工梳理，且根据同一目录下的各URL地址确定的网页的关键词的散列程度，确定相应目录所属的类别，从而可以按照目录树对URL地址进行分类并确定其类别，保证URL地址分类的准确度以及深度，并且可以避免在每次获取到URL地址时均需要爬取相应的网页内容确定关键词，降低了所需存储的数据量，并且提高了处理效率。

附图说明

图1为本发明实施例中对网页URL地址进行分类识别的方法流程图；

图2为本发明实施例中对网页URL地址进行分类识别的装置结构示意图。

具体实施方式

为了尽量减小URL地址分类所需的数据量的前提下，提高URL分类的准确率以及分类深度，提高处理效率，本发明实施例提供了一种网页URL地址分类识别方法及装置。

其中，URL地址一般的组成部分包括：采用的传输协议（例如，http、ftp等）、主机域名（host）和路径。路径为由零个或多个“/”符号分割的字符串，一般表示服务器上的一个目录或文件的地址。

例如，在URL地址：http://www.ceocio.com.cn/net/中，www.ceocio.com.cn为主机域名，也就是网页的服务器域名，net为该网页的服务器的一个目录。

下面结合附图对本发明优选的实施方式进行详细说明。

如附图1所示，本发明实施例中，提供了一种网页URL地址分类识别方法，该方法的具体过程如下：

步骤101：解析多个具体相同域名的URL地址，确定URL地址包含的主路径以及各级子路径，按照确定的所述主路径以及各级子路径作为各级目录构建目录树。

具体地，构建目录树时，将主路径作为目录树的根目录，将各级子路径依次作为根目录下的各级子目录。

实际应用中，URL地址可以仅包括主路径，也可以是包括主路径和子路径，以一个包括主路径和子路径的URL地址为例，按照次数该URL地址包括的路径有主路径、一级子路径、二级子路径….N级子路径和叶子。

例如，以URL地址1“http://www.ceocio.com.cn/net/moving/2013.10.17/xxx.htm”为例，其中，主路径为ceocio.com.cn，一级子路径为net，二级子路径为moving，三级子路径为2013.10.17，叶子为xxx.htm，构建目录树如下：

根目录为：http://www.ceocio.com.cn/；

一级子目录为：http://www.ceocio.com.cn/net/；

二级子目录为：http://www.ceocio.com.cn/net/moving/；

三级子目录为：http://www.ceocio.com.cn/net/moving/2013.10.17/。

优选地，在构建目录树后，解析再次获取的URL地址，若再次获取的URL的域名与构建目录树的URL的域名相同，且再次获取的URL地址中包含的各级子路径与所述目录树中各级目录对应的各子路径都不相同，则将与目录树中各级目录对应的各子路径都不相同的、再次获取的URL地址中的子路径，构建为所述目录树中相应等级的子目录。该过程为对目录树的修正补充过程，能够使得构建的目录树完整。

例如，接上例，在以URL地址1“http://www.ceocio.com.cn/net/moving/2013.10.17/xxx.htm”构建目录树后，获取到URL地址2“http://www.ceocio.com.cn/net/sports/xxxx.htm”，该URL地址2中包含子路径sports为URL地址1中不包含的子路径，则在目录树的一级子目录http://www.ceocio.com.cn/net下，增加一个二级子目录http://www.ceocio.com.cn/net/sport，与原有的二级子目录并列。

步骤102：按照URL地址包含的全路径将每个URL地址划分至目录树中相应的目录下。

具体地，在构建目录树时，将主路径作为目录树的根目录，将各级子路径依次作为根目录下的各级子目录。

优选地，每个URL地址划分至目录树中相应的目录下时，从目录树中的最后一级目录开始，将URL地址中的全路径依次与目录树中的各级目录进行匹配，直至匹配成功时，将该URL地址归于匹配成功的目录下。

步骤103：针对目录树中的任一目录，分别确定包含的各URL地址对应的网页中的关键词，确定具有相同的第一关键词的网页与该目录中的网页总数的比值高于设定阈值时，将第一关键词所属的类别确定为该目录下的各URL地址的类别。

优选地，将第一关键词所属的类别确定为所述目录下的各URL地址的类别后，还包括：

判断连续未对该目录下的各URL地址的类别进行修正的次数是否达到设定次数；

若未达到设定次数，按照目录树对再次获取的多个URL地址进行分类达到设定时长后，再次确定该目录包含的各URL地址对应的网页的关键词，确定具有相同的第二关键词的网页与该目录中的网页总数的比值高于设定阈值后，判断第二关键词与第一关键词是否相同；若相同，将连续未对该目录下的各URL地址的类别进行修正的次数增加设定值；否则，将该目录下的各URL地址所属的类别修正为第二关键词确定的类别，并将连续未对该目录下的各URL地址的类别进行修正的次数置为初始值，重复上述判断过程；

若达到设定次数，不再对该目录下的各URL地址的类别进行修正。

优选地，按照目录树对再次获取的多个URL地址进行分类的同时，可以根据再次获取的URL地址解析获得的各主路径以及各级子路径构建新的目录树，或者，对已构建的目录树进行补充修正，具体为：

再次获取URL地址后，将该URL地址中的主路径分别与已构建的各目录树的根目录进行匹配；

若不存在相匹配的根目录，则解析该URL地址获取其包括的主路径以及各级子路径，按照该主路径以及各级子路径构建新的目录树；

若存在相匹配的根目录，则解析该URL地址获取其包括的主路径以及各级子路径，判断获取的各子路径是否在相匹配的目录树中存在相应的子目录，若不存在，则在该相匹配的目录树中构建与URL地址中包含的、在目录树中不存在相应子目录的子路径相应等级的子目录；若存在，则按照该URL地址中包含的全路径将该URL地址归至相匹配的目录树的相应子目录中。

优选地，在确定目录树中的各级目录下的URL地址所属的类别时，从最末一级目录开始，顺次确定各级子目录对应的类别，直至主目录。

本发明实施例中，确定网页的关键词为对网页内容进行语义分析后确定，语义分析是采用概念识别算法识别网页中的各概念，具体可以对网页内容进行切词分析后，将切词分析获得各概念词与预设的词典库进行比较，若词典库中存在，将该概念词作为一个关键词，本发明实施例中，确定网页的关键词可以采用现有的语义分析算法实现，此处不再详述。

例如，接上例，首先按照三级子目录下的各URL地址获取网页，并分别确定各网页的关键词，若确定超过80%的网页的关键词中都有“移动互联网”、“移动”和“互联网”，符合散列程度低的要求，则根据该三个关键词可将该目录所属的类别确定为移动互联网。

基于相同的原理，如附图2所示，本发明实施例还提供了一种URL地址分类识别装置，该装置的具体实施可参见上述方法部分的实施，重复之处不再赘述，该装置主要包括：

构建单元201，用于解析多个具体相同域名的URL地址，确定所述URL地址包含的主路径以及各级子路径，按照确定的所述主路径以及各级子路径作为各级目录构建目录树；

分类单元202，用于按照所述URL地址包含的全路径将每个所述URL地址划分至所述目录树中相应的目录下；

处理单元203，用于针对所述目录树中的任一级目录，分别确定包含的各URL地址对应的网页中的关键词，确定具有相同的第一关键词的网页与所述目录中的网页总数的比值高于设定阈值时，将所述第一关键词所属的类别确定为所述目录下的各URL地址的类别。

其中，构建单元201具体用于：

将所述主路径作为所述目录树的根目录，将所述各级子路径依次作为所述根目录下的各级子目录。

优选地，分类单元202具体用于：

从所述目录树中的最后一级目录开始，将所述全路径依次与所述目录树中的各级目录进行匹配，直至匹配成功时，将所述URL地址归于匹配成功的目录下。

优选地，处理单元203还用于：

将所述第一关键词所属的类别确定为所述目录下的各URL地址的类别后，判断连续未对所述目录下的各URL地址的类别进行修正的次数是否达到设定次数；

若未达到设定次数，在所述分类单元按照所述目录树对再次获取的多个URL地址进行分类达到设定时长后，再次确定所述目录包含的各URL地址对应的网页的关键词，确定具有相同的第二关键词的网页与所述目录中的网页总数的比值高于设定阈值后，判断所述第二关键词与所述第一关键词是否相同；若相同，将连续未对所述目录下的各URL地址的类别进行修正的次数增加设定值；否则，将所述目录下的各URL地址所属的类别修正为所述第二关键词确定的类别，并将连续未对所述目录下的各URL地址的类别进行修正的次数置为初始值；

若达到设定次数，不再对所述目录下的各URL地址的类别进行修正。

较佳地，构建单元201还用于：

按照确定的所述主路径以及各级子路径构建目录树之前，将所述URL地址的域名与已有的目录树的根目录进行匹配，且确定不存在相匹配的根目录。

基于上述技术方案，本发明实施例中，通过解析多个具有相同域名的URL地址构建目录树，按照URL地址的全路径将各URL地址划分至目录树中相应的目录下，针对任一目录确定该目录，分别确定包含的各URL地址对应的网页的关键词，确定具有相同的第一关键词的网页与目录中的网页总数的比例高于设定阈值时，将第一关键词所属的类别确定为该目录下的URL地址的类别，从而能够自动构建目录树并确定目录树中各目录的类别，无需人工梳理，且根据同一目录下的各URL地址确定的网页的关键词的散列程度，确定相应目录所属的类别，从而可以按照目录树对URL地址进行分类并确定其类别，提高了URL地址分类的准确度以及分类深度，并且可以避免在每次获取到URL地址时均需要爬取相应的网页内容确定关键词，降低了所需存储的数据量，并且提高了处理效率。

并且，本发明实施例中，采用自学习的方式对构建的目录树进行修正，以及采用自学习的方式对确定的目录树中各级目录的类别进行多次修正，进一步提高了URL地址分类的准确性。

同时，本发明实施例提供的URL地址分类的方式不需要人工参与，节省了人力资源成本，同时在确定目录树以及目录树中各级目录的类别后，便无需再对网页进行语义分析确定关键词，在保证分类准确性和分类深度的前提下，降低了处理的数据量，进一步可以减少硬件投资。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种网页统一资源定位符URL地址分类识别方法，其特征在于，包括：

针对所述目录树中的任一目录，分别确定包含的各URL地址对应的网页中的关键词，确定具有相同的第一关键词的网页与所述目录中的网页总数的比值高于设定阈值时，将所述第一关键词所属的类别确定为所述目录下的各URL地址的类别。

2.如权利要求1所述的方法，其特征在于，将所述主路径以及各级子路径作为各级目录构建目录树，包括：

3.如权利要求2所述的方法，其特征在于，按照所述URL地址包含的全路径将每个所述URL地址划分至所述目录树中相应的目录下，包括：

4.如权利要求1、2或3所述的方法，其特征在于，将所述第一关键词所属的类别确定为所述目录下的各URL地址的类别后，还包括：

判断连续未对所述目录下的各URL地址的类别进行修正的次数是否达到设定次数；

若未达到设定次数，按照所述目录树对再次获取的多个URL地址进行分类达到设定时长后，再次确定所述目录包含的各URL地址对应的网页的关键词，确定具有相同的第二关键词的网页与所述目录中的网页总数的比值高于设定阈值后，判断所述第二关键词与所述第一关键词是否相同；若相同，将连续未对所述目录下的各URL地址的类别进行修正的次数增加设定值；否则，将所述目录下的各URL地址所属的类别修正为所述第二关键词确定的类别，并将连续未对所述目录下的各URL地址的类别进行修正的次数置为初始值；

5.如权利要求4所述的方法，其特征在于，按照确定的所述主路径以及各级子路径构建目录树之前，包括：

将所述URL地址的域名与已有的目录树的根目录进行匹配，且确定不存在相匹配的根目录。

6.一种网页统一资源定位符URL地址分类识别装置，其特征在于，包括：

构建单元，用于解析多个具体相同域名的URL地址，确定所述URL地址包含的主路径以及各级子路径，按照确定的所述主路径以及各级子路径作为各级目录构建目录树；

7.如权利要求6所述的装置，其特征在于，所述构建单元具体用于：

8.如权利要求7所述的装置，其特征在于，所述分类单元具体用于：

9.如权利要求6、7或8所述的装置，其特征在于，所述处理单元还用于：

10.如权利要求9所述的装置，其特征在于，所述构建单元还用于：