CN108984706A

CN108984706A - 一种基于深度学习融合文本和结构特征的网页分类方法

Info

Publication number: CN108984706A
Application number: CN201810737086.4A
Authority: CN
Inventors: 沈继忠; 邓立; 杜歆
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-07-06
Filing date: 2018-07-06
Publication date: 2018-12-11

Abstract

本发明提供一种基于深度学习融合文本和结构特征的网页分类方法，首先用爬虫获得网页的HTML(HyperText Markup Language)文档，提取标题、meta、超链接等关键文本信息，并将文本词汇转化为向量(word2vec)，表示文本特征；然后遍历HTML标签，并转化为向量，表示网页结构特征；最后将向量输入长短期记忆网络(LSTM)中，通过神经网络将异构的网页文本特征和网页结构特征融合起来训练模型，进行分类。该方法综合有区分度的特征更全面地表示网页，提高分类准确率。

Description

一种基于深度学习融合文本和结构特征的网页分类方法

技术领域

本发明涉及网页分类领域，尤其涉及一种基于深度学习融合文本和结构特征的网页分类方法。

背景技术

网络上有着丰富的信息资源，并且随着时间的推移，网上的信息量爆炸式地增长。网页的分类有助于对网页信息检索和管理，例如开发和维护网页目录、改进搜索引擎质量、过滤网页内容等等。网页分类的一个研究内容是把网页分到事先定义好的类别中，是一种有监督的方法。网页是一种非结构化的数据，不同的网页的内容和结构不太一样，而且网页上有广告、版权声明等噪声信息，给网页的分类带来了挑战。同时，网页上的信息是动态变化的，更新很快，这对算法的泛化性能也提出了很高的要求。

目前，网页分类可以分为主题分类、功能分类、情感分类等。主题分类是指分为艺术、体育、商业、科学等类别；功能分类是指这个网页提供了什么功能，例如分为博客、论坛、新闻等类别；情感分类是指按照观点和态度分类，例如正面的情感和负面的情感。在信息检索、维护网页目录、改进搜索引擎中，网页的主题分类应用最多最广。

网页分类的方法主要包括根据网页文本的特征进行分类、根据视觉上网页的结构特征进行分类、根据网页与网页之间的关系特征进行分类等。然而，单一的特征是片面的，例如有的网页文本信息比较少，那么根据文本特征很难对这个网页准确分类。

发明内容

针对上述不足，本发明提供一种基于深度学习融合文本和结构特征的网页分类方法，解决了单一网页文本特征分类正确率不够高的问题。

为了达到上述目的，本发明所采用的技术方案如下：一种基于深度学习融合文本和结构特征的网页分类方法，该方法包括如下步骤：

步骤(1)，用爬虫获得网页的HTML文档；

步骤(2)，从HTML标签<title>、<meta>、<Hn>、<a>、<b>、<p>中提取关键文本信息，并将文本信息中的词汇转化为向量，表示文本特征；

步骤(3)，遍历HTML标签，并转化为向量，表示网页结构特征；

步骤(4)，将向量输入长短期记忆网络中，通过神经网络将异构的网页文本特征和网页结构特征融合起来训练模型，进行分类。

进一步的，所述步骤(1)具体为：

输入网页的URL，scrapy爬虫获得网页的HTML文档。

进一步的，所述步骤(2)具体为：

首先，从HTML标签<title>、<meta>、<Hn>、<a>、<b>、<p>中提取文本信息，然后对获得的文本进行预处理，最后，将文本用word2vec转化为向量，代表文本特征。word2vec是一个将单词转换成向量形式的工具。

进一步的，所述预处理为统一小写、去除乱码、去除缩写和数字、去除停用词。

进一步的，所述步骤(3)具体为：

构建n维的向量来代表n个标签，遍历HTML标签输出向量作为网页结构特征。

进一步的，所述步骤(4)具体为：

将步骤(2)、(3)中的文本和结构特征向量输入长短期记忆网络中，输入是一个m·n的矩阵，m是每个特征输入向量的维度，n是特征的数量；由于文本特征和结构特征向量维度不同，在所有向量输入构成矩阵后，需要统一维度；在神经网络中，将抽象化的特征组合起来训练模型，把需要分类的数据转化为向量形式输入神经网络进行分类。

进一步的，所述训练模型中选用交叉熵为损失函数：

式(1)中，y_i是输出向量第i个维度的真实值，y_{i_predicted}是输出向量第i个维度的预测值。

本发明的有益效果是：该算法通过word2vec将<title>、<meta>等HTML标签中的关键文本转化为向量，用词向量表示文本特征，并遍历树状结构的HTML标签转化为向量，表示网页结构特征，然后通过神经网络将异构的网页文本特征和网页结构特征融合起来，对网页进行主题分类。实验结果表明，融合文本和结构特征的分类更加全面和有效，比单一文本特征准确率提高了4.5％，比单一结构特征准确率提高了7.0％。在DMOZ数据集验证取得了90.3％的准确率，相比同类网页分类算法准确率高。

附图说明

图1是本发明的流程图；

图2是word2vec的神经网络训练模型图；

图3是HTML标签树状图。

具体实施方式

以下结合附图进一步说明本发明。

如图1所示，一种基于深度学习融合文本和结构特征的网页分类方法，其特征在于，该方法包括如下步骤：

(1)获得网页信息

输入网页的URL，scrapy爬虫获得网页的HTML文档，存储到MongoDB数据库中。

(2)提取网页文本特征

首先，从HTML标签<title>、<meta>、<Hn>、<a>、<b>、<p>中提取文本信息，这几个标签代表了网页的标题、元信息、各级标题、超链接等，包含了网页的主要信息。然后对获得的文本进行预处理，统一小写、去除乱码、去除缩写和数字、去除停用词。停用词是一些频繁出现的对于分类没有太大作用的词，根据停用词表去除文本中出现的停用词。最后，将文本用word2vec转化为向量，每一个文本在word2vec的词向量库中会对应一个300维的向量，代表文本特征。word2vec是把自然语言中的每一个词，表示成一个统一意义统一维度的向量。如图2所示，word2vec的训练模型是具有一个隐含层的神经元网络，训练完成后，获得每个词到隐含层每个维度的权重，就是每个词的向量。word2vec用低维度的向量表示词汇，解决了向量稀疏的问题，通过这种方式得到的词向量具有语义特征，相似词语词向量空间上距离近，给分类提供了语义信息。

(3)提取网页结构特征

在网页中，HTML标签按照一种树状的结构排列。例如，以下是一个HTML的文档。

<html><head><title>Example</title></head>

<body>

<p class＝"title"><b>Example</b></p>

<p class＝"description">There are three examples:

<a href＝"http://example.com/1"class＝"example"id＝"link1">Example1</a>,

<a href＝"http://example.com/2"class＝"example"id＝"link2">Example2</a>and

<a href＝"http://example.com/3class＝"example"id＝"link3">Example3</a>.</p>

</body></html>

将其中的HTML标签画出树状图如图3所示：

HTML标签的分布反映了网页的结构特征，统计<a>、<div>、<li>、<span>、<img>、<td>、<p>、<ul>、<option>、<meta>、<tr>、<link>、<input>、<table>、<tbody>、<dd>、<h2>、<h3>、<hr>、<dt>20个标签，在所有HTML标签中，这20个标签占了95％的比例，构建20维的向量来代表这些标签，遍历HTML标签输出向量作为网页结构特征。例如，表示图3中网页结构的向量为：

[0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0]

[1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]

(4)LSTM网络训练模型进行分类

将步骤(2)、(3)中的文本和结构特征向量输入长短期记忆网络(LSTM)中，输入是一个m·n的矩阵，m是每个特征输入向量的维度，n是特征的数量。由于文本特征和结构特征向量维度不同，在所有向量输入构成矩阵后，需要通过numpy.reshape函数调整维度，统一为300维的向量。在神经网络中，将抽象化的特征组合起来训练模型，把需要分类的数据转化为向量形式输入神经网络进行分类。这里，我们选用交叉熵为损失函数，交叉熵损失函数训练速度较快，分类效果好。

式(1)中y_i是输出向量第i个维度的真实值，y_{i_predicted}是输出向量第i个维度的预测值。

长短期记忆(LSTM)网络是循环神经网络(RNN)的一种特殊类型，可以学习长期依赖的信息。在LSTM中，通过门来判断信息是否有用，与普通RNN相比，LSTM多了3个控制门(Gate)：输入门、输出门、遗忘门。当新的输入来临，模型要忘掉不再需要的长期记忆信息，然后学习输入中需要的部分，保存在长期记忆中，并且决定对当前输出而言哪些信息是有用的。

实验结果与分析

1、DBpedia数据集测试验证

DBpedia数据集是一个来源于Wikipedia的纯文本数据集，包括14个不重叠类别的数据，训练集为56万条，测试集7万条。类别包括Company、EducationalInstitution、Artist、Athlete、OfficeHolder、MeanOfTransportation、Building、NaturalPlace、VillageAnimal、Plant、Album、Film、WrittenWork。

分类准确率ACC为：

式(2)中TP是正样本分类为正样本的数量，TN是负样本分类为负样本的数量，FP是负样本分类为正样本的数量，FN为正样本分类为负样本的数量。

我们的算法及相关文献算法在DBpedia数据集上的测试结果如表1所示，文献1(Zhang X,Zhao J,LeCun Y.Character-level convolutional networks for textclassification[C]//Advances in Neural Information Processing Systems.2015:649-657.)采用字符级的卷积神经网络，取得了98.7％的准确率。文献2(Dai AM,Le QV.Semi-supervised sequence learning[C]//Advances in Neural InformationProcessing Systems.2015:3079-3087.)采用了半监督的序列学习方法，准确率为98.8％。可以看出，在同样的DBpedia数据集上，我们的算法在纯文本上取得了同样优异的性能。

表1 DBpedia数据集测试结果

2、Amazon数据集测试验证

为了进一步验证算法的有效性，我们从Amazon的Alexa网站中获得了按标签分类的网页URL，构成数据集。数据集中共有10个类别，分别是arts、business、computers、health、recreation、reference、science、shopping、society、sports，数据量12万。

我们的算法在Amazon数据集上的测试结果如表2所示，同时我们采用了支持向量机(SVM)的方法作为对比，SVM泛化错误率低，计算开销较小，分类性能优异。

表2 Amazon数据集测试准确率

从表2可以看出，我们采用单一的网页文本特征和结构特征有一定的分类效果，但是融合文本和结构特征的方法更加全面和有效，比单一文本特征准确率提高了4.5％，比单一结构特征准确率提高了7.0％。在纯文本特征上，SVM比LSTM效果要好；但融合网页文本和结构特征以后，LSTM比SVM的准确率要更高。

3、DMOZ数据集测试验证

DMOZ网站是一个著名的开放式分类目录(Open DirectoryProject)，由世界各地志愿者建设和维护。DMOZ-50数据集从DMOZ网站获得，分为50个小的数据集，每一个数据集的类别从3-10不等。这个数据集经过了预处理，当时网页上的主要信息被提取保存了下来。

表3给出了基于同样DMOZ网页数据集的测试结果，文献3(Onan A.Classifier andfeature set ensembles for web page classification[J].Journal of InformationScience,2016,42(2):150-165.)结合了多种特征选择算法与分类算法，其中效果最好的是结合AdaBoost、naive Bayes、consistency-based feature selection的方法，准确率为88.1％。我们用LSTM和word2vec的方法取得了90.3％的准确率，对比同类网页分类算法准确率更高。

表3 DMOZ数据集测试结果

Claims

1.一种基于深度学习融合文本和结构特征的网页分类方法，其特征在于，该方法包括如下步骤：

步骤(1)，用爬虫获得网页的HTML文档；

步骤(3)，遍历HTML标签，并转化为向量，表示网页结构特征。

2.根据权利要求1所述的一种基于深度学习融合文本和结构特征的网页分类方法，其特征在于，所述步骤(1)具体为：

输入网页的URL，scrapy爬虫获得网页的HTML文档。

3.根据权利要求1所述的一种基于深度学习融合文本和结构特征的网页分类方法，其特征在于，所述步骤(2)具体为：

首先，从HTML标签<title>、<meta>、<Hn>、<a>、<b>、<p>中提取文本信息，然后对获得的文本进行预处理，最后，将文本用word2vec(word to vector)转化为向量，代表文本特征。

4.根据权利要求1所述的一种基于深度学习融合文本和结构特征的网页分类方法，其特征在于，所述预处理为统一小写、去除乱码、去除缩写和数字、去除停用词。

5.根据权利要求1所述的一种基于深度学习融合文本和结构特征的网页分类方法，其特征在于，所述步骤(3)具体为：

6.根据权利要求1所述的一种基于深度学习融合文本和结构特征的网页分类方法，其特征在于，所述步骤(4)具体为：

7.根据权利要求6所述的一种基于深度学习融合文本和结构特征的网页分类方法，其特征在于，所述训练模型中选用交叉熵为损失函数：