CN105956002A

CN105956002A - 一种基于url分析的网页分类方法及装置

Info

Publication number: CN105956002A
Application number: CN201610248482.1A
Authority: CN
Inventors: 潘宇翔; 李青海; 简宋全; 侯大勇
Original assignee: Guangzhou Jing Dian Computing Machine Science And Technology Ltd
Current assignee: Guangzhou Jing Dian Computing Machine Science And Technology Ltd
Priority date: 2016-04-20
Filing date: 2016-04-20
Publication date: 2016-09-21

Abstract

本发明提供了一种基于URL分析的网页分类方法及装置，该装置包括网页粗分类模块、网页文本分类模块和存储模块。与现有技术比较本发明的有益效果在于：本发明提供的一种基于URL分析的网页分类方法及装置，通过在进行网页文本分类之前增加URL分析，根据URL分析结果，对网页先进行一个粗分类，然后将无法粗分类的网页进行网页文本分类，从而实现对所有网页的快速有效分类，以帮助用户筛选出他们想要内容的网页。

Description

一种基于URL分析的网页分类方法及装置

技术领域

本发明涉及网页分类技术领域，尤其涉及一种基于URL分析的网页分类方法及装置。

背景技术

随着互联网2.0的到来，网页数量显海量级增长。面对Internet上日益膨胀的信息，如何快速、准确地从浩瀚的信息资源中寻找想要的内容成为一项重大问题。文本分类作为一项具有较大实用价值的关键技术可以有效解决以上问题，但是由于网页不仅仅包含文本，决定了网页分类方法比文本分类方法要更加丰富。现有的网页分类方法对网页的分类速度慢。

鉴于上述缺陷，本发明创作者经过长时间的研究和试验,最终获得了本发明。

发明内容

本发明的目的在于提供一种基于URL分析的网页分类方法及装置用以克服上述技术缺陷。

为实现上述目的，本发明采用的技术方案在于：

一方面提供了一种基于URL分析的网页分类方法，该方法包括以下步骤：

步骤S1，对完整的URL进行分块处理，并根据URL字典从URL块中筛选出特征词，根据所述URL字典和所述特征词对所述URL进行粗分类，得到可以粗分类的网页及其对应的类别；

步骤S2，对无法粗分类的网页中的网页文本进行预处理并转换成向量模型后，通过分类器进行分类，得到无法粗分类的网页及其对应的类别；

步骤S3，将所述完整的URL、所述可以粗分类的网页及其对应的类别和所述无法分类的网页及其对应的类别进行存储。

较佳的，所述步骤S1具体包括以下步骤：

步骤S11，对数据源传递过来的完整的URL，根据符号和数字将所述URL进行分块处理，形成URL块，去除对分类没有作用的URL块；

步骤S12，对照已建立好的URL字典，从URL块中筛选出对分类有意义的特征词，根据所述URL字典和这些筛选出的特征词URL进行粗分类，得到可以粗分类的网页及其对应的类别。

较佳的，所述步骤S2具体包括以下步骤：

步骤S21，对所述无法粗分类的网页的文本进行中文分词和去停用词；

步骤S22，根据一个已经被标注的训练文本集合，对该训练文本进行中文分词和去停用词后，从该训练文本中提取关键词并进行降维，然后将该训练文本转换为结构化的计算机可识别处理的空间向量模型，通过Rocchio算法找到文本特征和文本类别之间的分类器；

步骤S23，将已经进行中文分词和去停用词的无法粗分类的网页的文本表示成向量模型；

步骤S24，利用分类器将已经文本表示后的无法粗分类的网页进行分类，得到无法粗分类的网页及其对应的类别。

较佳的，所述中文分词采用最大匹配方法进行分词。

又一方面提供了一种基于URL分析的网页分类装置，该装置包括：

网页粗分类模块，用于对完整的URL进行分块处理，并根据URL字典从URL块中筛选出特征词，根据URL字典和特征词对URL进行粗分类，得到可以粗分类的网页及其对应的类别；

网页文本分类模块，用于对无法粗分类的网页中的网页文本进行预处理并转换成向量模型后，通过生成好的分类器进行分类，得到无法粗分类的网页及其对应的类别；

存储模块，用于存储完整的URL、可以粗分类的网页及其对应的类别和无法分类的网页及其对应的类别。

较佳的，所述网页粗分类模块包括：

URL预处理单元，用于对数据源传递过来的完整的URL，根据符号和数字将URL进行分块处理，形成URL块，去除对分类没有作用的URL块；

URL分析单元，对照已建立好的URL字典，从URL块中筛选出对分类有意义的特征词，根据URL字典和这些筛选出的特征词URL进行粗分类，得到可以粗分类的网页及其对应的类别。

较佳的，网页文本分类模块包括：

文本预处理单元，用于对无法粗分类的网页的文本进行中文分词和去停用词；

分类器生成单元，用于根据一个已经被标注的训练文本集合，对该训练文本进行中文分词和去停用词后，从该训练文本中提取关键词并进行降维，然后将该训练文本转换为结构化的计算机可识别处理的空间向量模型，通过Rocchio算法找到文本特征和文本类别之间的分类器；

文本表示单元，用于将已经进行中文分词和去停用词的无法粗分类的网页的文本表示成向量模型；

分类单元，用于利用分类器将已经文本表示后的无法粗分类的网页进行分类，得到无法粗分类的网页及其对应的类别。

较佳的，所述中文分词采用最大匹配方法进行分词。

与现有技术比较本发明的有益效果在于：本发明提供的一种基于URL分析的网页分类方法及装置，通过在进行网页文本分类之前增加URL分析，根据URL分析结果，对网页先进行一个粗分类，然后将无法粗分类的网页进行网页文本分类，从而实现对所有网页的快速有效分类，以帮助用户筛选出他们想要内容的网页。

附图说明

图1为本发明提供的一种基于URL分析的网页分类方法的流程图；

图2为步骤S1的流程示意图；

图3为步骤S2的流程示意图；

图4为本发明提供的一种基于URL分析的网页分类装置的功能框图；

图5为网页粗分类模块的功能框图；

图6为网页文本分类模块的功能框图。

具体实施方式

为便于进一步理解本发明的技术内容，下面结合附图对本发明作进一步说明。

实施例一

如图1所示，为本发明提供的一种基于URL分析的网页分类方法的流程图，该方法包括以下步骤：

步骤S1，对完整的URL进行分块处理，并根据URL字典从URL块中筛选出特征词，根据URL字典和特征词对URL进行粗分类，得到可以粗分类的网页及其对应的类别。

步骤S2，对无法粗分类的网页中的网页文本进行预处理并转换成向量模型后，通过生成好的分类器进行分类，得到无法粗分类的网页及其对应的类别。

步骤S3，将完整的URL、可以粗分类的网页及其对应的类别和无法分类的网页及其对应的类别进行存储。

如图2所示，为步骤S1的流程示意图，步骤S1具体包括以下步骤：

步骤S11，对数据源传递过来的完整的URL，根据符号和数字将URL进行分块处理，形成URL块，去除对分类没有作用的URL块。

步骤S12，对照已建立好的URL字典，从URL块中筛选出对分类有意义的特征词，根据URL字典和这些筛选出的特征词URL进行粗分类，得到可以粗分类的网页及其对应的类别。

例如：完整的一个URL：http://www.bilibili.com/video/av3431247/，按照：、//、.、/等符号对该URL进行分块，结果得到http、www、bilibili、com、video、av3431247等URL块；然后再去除http、www这些对分类没有作用的URL块；对照字典URL后筛选出的特征词是bilibili、video、av3431247；然后根据URL字典和这些筛选出的特征词，我们可以对该URL归类为教育类。

如图3所示，为步骤S2的流程示意图，步骤S2具体包括以下步骤：

步骤S21，对无法粗分类的网页的文本进行中文分词和去停用词。

具体的，中文分词采用最大匹配方法进行分词，即按照最大匹配的策略将待分析的字符串与一个机器词典中的词条进行匹配，若从词典中找到某个字符串，则匹配成功。

步骤S22，根据一个已经被标注的训练文本集合，对该训练文本进行中文分词和去停用词后，从该训练文本中提取关键词并进行降维，然后将该训练文本转换为结构化的计算机可识别处理的空间向量模型，通过Rocchio算法找到文本特征和文本类别之间的分类器。

其中，Rocchio算法，即类中心最近距离判别算法，它的基本思路是用简单的算术平均为每类中的训练集生成一个代表该类向量的中心向量，然后计算测试新向量与每类中心向量之间的相识度，最后判断文本属于与它最相似的类。

步骤S23，将已经进行中文分词和去停用词的无法粗分类的网页的文本表示成向量模型。

其中，向量空间模型基于如下假设：文章中词条出现的顺序无关紧要，它们之间是相互独立的而忽略其依赖性，把文本看作一系列无序词条的集合。在该模型中，每篇文本表示为特征空间的一个向量，向量中的每一维对应于文本中的一个词条，每一个词条称为一个特征项，每一个特征词的值为该向量维对应的特征在文本集中的权值。

实施例二

如图4所示，为本发明提供的一种基于URL分析的网页分类装置的功能框图，该装置包括：

网页粗分类模块10，用于对完整的URL进行分块处理，并根据URL字典从URL块中筛选出特征词，根据URL字典和特征词对URL进行粗分类，得到可以粗分类的网页及其对应的类别。

网页文本分类模块20，用于对无法粗分类的网页中的网页文本进行预处理并转换成向量模型后，通过生成好的分类器进行分类，得到无法粗分类的网页及其对应的类别。

存储模块30，用于存储完整的URL、可以粗分类的网页及其对应的类别和无法分类的网页及其对应的类别。

如图5所示，为网页粗分类模块的功能框图，网页粗分类模块10包括：URL预处理单元101和URL分析单元102。

URL预处理单元101，用于对数据源传递过来的完整的URL，根据符号和数字将URL进行分块处理，形成URL块，去除对分类没有作用的URL块。

URL分析单元102，对照已建立好的URL字典，从URL块中筛选出对分类有意义的特征词，根据URL字典和这些筛选出的特征词URL进行粗分类，得到可以粗分类的网页及其对应的类别。

如图6所示，为网页文本分类模块的功能框图，网页文本分类模块20包括：文本预处理单元201、分类器生成单元202、文本表示单元203和分类单元204。

文本预处理单元201，用于对无法粗分类的网页的文本进行中文分词和去停用词。中文分词采用最大匹配方法进行分词，即按照最大匹配的策略将待分析的字符串与一个机器词典中的词条进行匹配，若从词典中找到某个字符串，则匹配成功。

分类器生成单元202，用于根据一个已经被标注的训练文本集合，对该训练文本进行中文分词和去停用词后，从该训练文本中提取关键词并进行降维，然后将该训练文本转换为结构化的计算机可识别处理的空间向量模型，通过Rocchio算法找到文本特征和文本类别之间的分类器。Rocchio算法，即类中心最近距离判别算法，它的基本思路是用简单的算术平均为每类中的训练集生成一个代表该类向量的中心向量，然后计算测试新向量与每类中心向量之间的相识度，最后判断文本属于与它最相似的类。

文本表示单元203，用于将已经进行中文分词和去停用词的无法粗分类的网页的文本表示成向量模型。向量空间模型基于如下假设：文章中词条出现的顺序无关紧要，它们之间是相互独立的而忽略其依赖性，把文本看作一系列无序词条的集合。在该模型中，每篇文本表示为特征空间的一个向量，向量中的每一维对应于文本中的一个词条，每一个词条称为一个特征项，每一个特征词的值为该向量维对应的特征在文本集中的权值。

分类单元204，用于利用分类器将已经文本表示后的无法粗分类的网页进行分类，得到无法粗分类的网页及其对应的类别。

本发明提供的一种基于URL分析的网页分类方法及装置，通过在进行网页文本分类之前增加URL分析，根据URL分析结果，对网页先进行一个粗分类，然后将无法粗分类的网页进行网页文本分类，从而实现对所有网页的快速有效分类，以帮助用户筛选出他们想要内容的网页。

以上所述仅为本发明的较佳实施例，对本发明而言仅仅是说明性的，而非限制性的。本专业技术人员理解，在本发明权利要求所限定的精神和范围内可对其进行许多改变，修改，甚至等效，但都将落入本发明的保护范围内。

Claims

1.一种基于URL分析的网页分类方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种基于URL分析的网页分类方法，其特征在于，所述步骤S1具体包括以下步骤：

3.根据权利要求1所述的一种基于URL分析的网页分类方法，其特征在于，所述步骤S2具体包括以下步骤：

4.根据权利要求3所述的一种基于URL分析的网页分类方法，其特征在于，所述中文分词采用最大匹配方法进行分词。

5.一种基于URL分析的网页分类装置，其特征在于，该装置包括：

6.根据权利要求5所述的一种基于URL分析的网页分类装置，其特征在于，所述网页粗分类模块包括：

7.根据权利要求5所述的一种基于URL分析的网页分类装置，其特征在于，网页文本分类模块包括：

8.根据权利要求7所述的一种基于URL分析的网页分类装置，其特征在于，所述中文分词采用最大匹配方法进行分词。