CN108984706A - 一种基于深度学习融合文本和结构特征的网页分类方法 - Google Patents

一种基于深度学习融合文本和结构特征的网页分类方法 Download PDF

Info

Publication number
CN108984706A
CN108984706A CN201810737086.4A CN201810737086A CN108984706A CN 108984706 A CN108984706 A CN 108984706A CN 201810737086 A CN201810737086 A CN 201810737086A CN 108984706 A CN108984706 A CN 108984706A
Authority
CN
China
Prior art keywords
text
feature
web page
vector
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810737086.4A
Other languages
English (en)
Inventor
沈继忠
邓立
杜歆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201810737086.4A priority Critical patent/CN108984706A/zh
Publication of CN108984706A publication Critical patent/CN108984706A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于深度学习融合文本和结构特征的网页分类方法,首先用爬虫获得网页的HTML(HyperText Markup Language)文档,提取标题、meta、超链接等关键文本信息,并将文本词汇转化为向量(word2vec),表示文本特征;然后遍历HTML标签,并转化为向量,表示网页结构特征;最后将向量输入长短期记忆网络(LSTM)中,通过神经网络将异构的网页文本特征和网页结构特征融合起来训练模型,进行分类。该方法综合有区分度的特征更全面地表示网页,提高分类准确率。

Description

一种基于深度学习融合文本和结构特征的网页分类方法
技术领域
本发明涉及网页分类领域,尤其涉及一种基于深度学习融合文本和结构特征的网页分类方法。
背景技术
网络上有着丰富的信息资源,并且随着时间的推移,网上的信息量爆炸式地增长。网页的分类有助于对网页信息检索和管理,例如开发和维护网页目录、改进搜索引擎质量、过滤网页内容等等。网页分类的一个研究内容是把网页分到事先定义好的类别中,是一种有监督的方法。网页是一种非结构化的数据,不同的网页的内容和结构不太一样,而且网页上有广告、版权声明等噪声信息,给网页的分类带来了挑战。同时,网页上的信息是动态变化的,更新很快,这对算法的泛化性能也提出了很高的要求。
目前,网页分类可以分为主题分类、功能分类、情感分类等。主题分类是指分为艺术、体育、商业、科学等类别;功能分类是指这个网页提供了什么功能,例如分为博客、论坛、新闻等类别;情感分类是指按照观点和态度分类,例如正面的情感和负面的情感。在信息检索、维护网页目录、改进搜索引擎中,网页的主题分类应用最多最广。
网页分类的方法主要包括根据网页文本的特征进行分类、根据视觉上网页的结构特征进行分类、根据网页与网页之间的关系特征进行分类等。然而,单一的特征是片面的,例如有的网页文本信息比较少,那么根据文本特征很难对这个网页准确分类。
发明内容
针对上述不足,本发明提供一种基于深度学习融合文本和结构特征的网页分类方法,解决了单一网页文本特征分类正确率不够高的问题。
为了达到上述目的,本发明所采用的技术方案如下:一种基于深度学习融合文本和结构特征的网页分类方法,该方法包括如下步骤:
步骤(1),用爬虫获得网页的HTML文档;
步骤(2),从HTML标签<title>、<meta>、<Hn>、<a>、<b>、<p>中提取关键文本信息,并将文本信息中的词汇转化为向量,表示文本特征;
步骤(3),遍历HTML标签,并转化为向量,表示网页结构特征;
步骤(4),将向量输入长短期记忆网络中,通过神经网络将异构的网页文本特征和网页结构特征融合起来训练模型,进行分类。
进一步的,所述步骤(1)具体为:
输入网页的URL,scrapy爬虫获得网页的HTML文档。
进一步的,所述步骤(2)具体为:
首先,从HTML标签<title>、<meta>、<Hn>、<a>、<b>、<p>中提取文本信息,然后对获得的文本进行预处理,最后,将文本用word2vec转化为向量,代表文本特征。word2vec是一个将单词转换成向量形式的工具。
进一步的,所述预处理为统一小写、去除乱码、去除缩写和数字、去除停用词。
进一步的,所述步骤(3)具体为:
构建n维的向量来代表n个标签,遍历HTML标签输出向量作为网页结构特征。
进一步的,所述步骤(4)具体为:
将步骤(2)、(3)中的文本和结构特征向量输入长短期记忆网络中,输入是一个m·n的矩阵,m是每个特征输入向量的维度,n是特征的数量;由于文本特征和结构特征向量维度不同,在所有向量输入构成矩阵后,需要统一维度;在神经网络中,将抽象化的特征组合起来训练模型,把需要分类的数据转化为向量形式输入神经网络进行分类。
进一步的,所述训练模型中选用交叉熵为损失函数:
式(1)中,yi是输出向量第i个维度的真实值,yi_predicted是输出向量第i个维度的预测值。
本发明的有益效果是:该算法通过word2vec将<title>、<meta>等HTML标签中的关键文本转化为向量,用词向量表示文本特征,并遍历树状结构的HTML标签转化为向量,表示网页结构特征,然后通过神经网络将异构的网页文本特征和网页结构特征融合起来,对网页进行主题分类。实验结果表明,融合文本和结构特征的分类更加全面和有效,比单一文本特征准确率提高了4.5%,比单一结构特征准确率提高了7.0%。在DMOZ数据集验证取得了90.3%的准确率,相比同类网页分类算法准确率高。
附图说明
图1是本发明的流程图;
图2是word2vec的神经网络训练模型图;
图3是HTML标签树状图。
具体实施方式
以下结合附图进一步说明本发明。
如图1所示,一种基于深度学习融合文本和结构特征的网页分类方法,其特征在于,该方法包括如下步骤:
(1)获得网页信息
输入网页的URL,scrapy爬虫获得网页的HTML文档,存储到MongoDB数据库中。
(2)提取网页文本特征
首先,从HTML标签<title>、<meta>、<Hn>、<a>、<b>、<p>中提取文本信息,这几个标签代表了网页的标题、元信息、各级标题、超链接等,包含了网页的主要信息。然后对获得的文本进行预处理,统一小写、去除乱码、去除缩写和数字、去除停用词。停用词是一些频繁出现的对于分类没有太大作用的词,根据停用词表去除文本中出现的停用词。最后,将文本用word2vec转化为向量,每一个文本在word2vec的词向量库中会对应一个300维的向量,代表文本特征。word2vec是把自然语言中的每一个词,表示成一个统一意义统一维度的向量。如图2所示,word2vec的训练模型是具有一个隐含层的神经元网络,训练完成后,获得每个词到隐含层每个维度的权重,就是每个词的向量。word2vec用低维度的向量表示词汇,解决了向量稀疏的问题,通过这种方式得到的词向量具有语义特征,相似词语词向量空间上距离近,给分类提供了语义信息。
(3)提取网页结构特征
在网页中,HTML标签按照一种树状的结构排列。例如,以下是一个HTML的文档。
<html><head><title>Example</title></head>
<body>
<p class="title"><b>Example</b></p>
<p class="description">There are three examples:
<a href="http://example.com/1"class="example"id="link1">Example1</a>,
<a href="http://example.com/2"class="example"id="link2">Example2</a>and
<a href="http://example.com/3class="example"id="link3">Example3</a>.</p>
</body></html>
将其中的HTML标签画出树状图如图3所示:
HTML标签的分布反映了网页的结构特征,统计<a>、<div>、<li>、<span>、<img>、<td>、<p>、<ul>、<option>、<meta>、<tr>、<link>、<input>、<table>、<tbody>、<dd>、<h2>、<h3>、<hr>、<dt>20个标签,在所有HTML标签中,这20个标签占了95%的比例,构建20维的向量来代表这些标签,遍历HTML标签输出向量作为网页结构特征。例如,表示图3中网页结构的向量为:
[0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0]
[0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0]
[1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
[1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
[1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
(4)LSTM网络训练模型进行分类
将步骤(2)、(3)中的文本和结构特征向量输入长短期记忆网络(LSTM)中,输入是一个m·n的矩阵,m是每个特征输入向量的维度,n是特征的数量。由于文本特征和结构特征向量维度不同,在所有向量输入构成矩阵后,需要通过numpy.reshape函数调整维度,统一为300维的向量。在神经网络中,将抽象化的特征组合起来训练模型,把需要分类的数据转化为向量形式输入神经网络进行分类。这里,我们选用交叉熵为损失函数,交叉熵损失函数训练速度较快,分类效果好。
式(1)中yi是输出向量第i个维度的真实值,yi_predicted是输出向量第i个维度的预测值。
长短期记忆(LSTM)网络是循环神经网络(RNN)的一种特殊类型,可以学习长期依赖的信息。在LSTM中,通过门来判断信息是否有用,与普通RNN相比,LSTM多了3个控制门(Gate):输入门、输出门、遗忘门。当新的输入来临,模型要忘掉不再需要的长期记忆信息,然后学习输入中需要的部分,保存在长期记忆中,并且决定对当前输出而言哪些信息是有用的。
实验结果与分析
1、DBpedia数据集测试验证
DBpedia数据集是一个来源于Wikipedia的纯文本数据集,包括14个不重叠类别的数据,训练集为56万条,测试集7万条。类别包括Company、EducationalInstitution、Artist、Athlete、OfficeHolder、MeanOfTransportation、Building、NaturalPlace、VillageAnimal、Plant、Album、Film、WrittenWork。
分类准确率ACC为:
式(2)中TP是正样本分类为正样本的数量,TN是负样本分类为负样本的数量,FP是负样本分类为正样本的数量,FN为正样本分类为负样本的数量。
我们的算法及相关文献算法在DBpedia数据集上的测试结果如表1所示,文献1(Zhang X,Zhao J,LeCun Y.Character-level convolutional networks for textclassification[C]//Advances in Neural Information Processing Systems.2015:649-657.)采用字符级的卷积神经网络,取得了98.7%的准确率。文献2(Dai AM,Le QV.Semi-supervised sequence learning[C]//Advances in Neural InformationProcessing Systems.2015:3079-3087.)采用了半监督的序列学习方法,准确率为98.8%。可以看出,在同样的DBpedia数据集上,我们的算法在纯文本上取得了同样优异的性能。
表1 DBpedia数据集测试结果
2、Amazon数据集测试验证
为了进一步验证算法的有效性,我们从Amazon的Alexa网站中获得了按标签分类的网页URL,构成数据集。数据集中共有10个类别,分别是arts、business、computers、health、recreation、reference、science、shopping、society、sports,数据量12万。
我们的算法在Amazon数据集上的测试结果如表2所示,同时我们采用了支持向量机(SVM)的方法作为对比,SVM泛化错误率低,计算开销较小,分类性能优异。
表2 Amazon数据集测试准确率
从表2可以看出,我们采用单一的网页文本特征和结构特征有一定的分类效果,但是融合文本和结构特征的方法更加全面和有效,比单一文本特征准确率提高了4.5%,比单一结构特征准确率提高了7.0%。在纯文本特征上,SVM比LSTM效果要好;但融合网页文本和结构特征以后,LSTM比SVM的准确率要更高。
3、DMOZ数据集测试验证
DMOZ网站是一个著名的开放式分类目录(Open DirectoryProject),由世界各地志愿者建设和维护。DMOZ-50数据集从DMOZ网站获得,分为50个小的数据集,每一个数据集的类别从3-10不等。这个数据集经过了预处理,当时网页上的主要信息被提取保存了下来。
表3给出了基于同样DMOZ网页数据集的测试结果,文献3(Onan A.Classifier andfeature set ensembles for web page classification[J].Journal of InformationScience,2016,42(2):150-165.)结合了多种特征选择算法与分类算法,其中效果最好的是结合AdaBoost、naive Bayes、consistency-based feature selection的方法,准确率为88.1%。我们用LSTM和word2vec的方法取得了90.3%的准确率,对比同类网页分类算法准确率更高。
表3 DMOZ数据集测试结果

Claims (7)

1.一种基于深度学习融合文本和结构特征的网页分类方法,其特征在于,该方法包括如下步骤:
步骤(1),用爬虫获得网页的HTML文档;
步骤(2),从HTML标签<title>、<meta>、<Hn>、<a>、<b>、<p>中提取关键文本信息,并将文本信息中的词汇转化为向量,表示文本特征;
步骤(3),遍历HTML标签,并转化为向量,表示网页结构特征。
步骤(4),将向量输入长短期记忆网络中,通过神经网络将异构的网页文本特征和网页结构特征融合起来训练模型,进行分类。
2.根据权利要求1所述的一种基于深度学习融合文本和结构特征的网页分类方法,其特征在于,所述步骤(1)具体为:
输入网页的URL,scrapy爬虫获得网页的HTML文档。
3.根据权利要求1所述的一种基于深度学习融合文本和结构特征的网页分类方法,其特征在于,所述步骤(2)具体为:
首先,从HTML标签<title>、<meta>、<Hn>、<a>、<b>、<p>中提取文本信息,然后对获得的文本进行预处理,最后,将文本用word2vec(word to vector)转化为向量,代表文本特征。
4.根据权利要求1所述的一种基于深度学习融合文本和结构特征的网页分类方法,其特征在于,所述预处理为统一小写、去除乱码、去除缩写和数字、去除停用词。
5.根据权利要求1所述的一种基于深度学习融合文本和结构特征的网页分类方法,其特征在于,所述步骤(3)具体为:
构建n维的向量来代表n个标签,遍历HTML标签输出向量作为网页结构特征。
6.根据权利要求1所述的一种基于深度学习融合文本和结构特征的网页分类方法,其特征在于,所述步骤(4)具体为:
将步骤(2)、(3)中的文本和结构特征向量输入长短期记忆网络中,输入是一个m·n的矩阵,m是每个特征输入向量的维度,n是特征的数量;由于文本特征和结构特征向量维度不同,在所有向量输入构成矩阵后,需要统一维度;在神经网络中,将抽象化的特征组合起来训练模型,把需要分类的数据转化为向量形式输入神经网络进行分类。
7.根据权利要求6所述的一种基于深度学习融合文本和结构特征的网页分类方法,其特征在于,所述训练模型中选用交叉熵为损失函数:
式(1)中,yi是输出向量第i个维度的真实值,yi_predicted是输出向量第i个维度的预测值。
CN201810737086.4A 2018-07-06 2018-07-06 一种基于深度学习融合文本和结构特征的网页分类方法 Pending CN108984706A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810737086.4A CN108984706A (zh) 2018-07-06 2018-07-06 一种基于深度学习融合文本和结构特征的网页分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810737086.4A CN108984706A (zh) 2018-07-06 2018-07-06 一种基于深度学习融合文本和结构特征的网页分类方法

Publications (1)

Publication Number Publication Date
CN108984706A true CN108984706A (zh) 2018-12-11

Family

ID=64536374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810737086.4A Pending CN108984706A (zh) 2018-07-06 2018-07-06 一种基于深度学习融合文本和结构特征的网页分类方法

Country Status (1)

Country Link
CN (1) CN108984706A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110175288A (zh) * 2019-05-23 2019-08-27 中国搜索信息科技股份有限公司 一种面向青少年群体的文字和图像数据的过滤方法及系统
CN110287409A (zh) * 2019-06-05 2019-09-27 新华三信息安全技术有限公司 一种网页类型识别方法及装置
CN110298338A (zh) * 2019-06-20 2019-10-01 北京易道博识科技有限公司 一种文档图像分类方法及装置
CN110377810A (zh) * 2019-06-25 2019-10-25 浙江大学 一种移动端网页的分类方法
CN110472122A (zh) * 2019-07-31 2019-11-19 重庆古扬科技有限公司 一种多通道动态分布式学术资源采集方法
CN110532448A (zh) * 2019-07-04 2019-12-03 平安科技(深圳)有限公司 基于神经网络的文档分类方法、装置、设备及存储介质
CN112214558A (zh) * 2020-11-18 2021-01-12 国家计算机网络与信息安全管理中心 一种主题相关度判别方法及装置
CN112528190A (zh) * 2020-12-23 2021-03-19 中移(杭州)信息技术有限公司 基于片化结构与内容的网页篡改评判方法、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101715118B1 (ko) * 2016-10-26 2017-03-10 가천대학교 산학협력단 문서 감정 분류용 딥러닝 인코딩 장치 및 방법.
CN106933804A (zh) * 2017-03-10 2017-07-07 上海数眼科技发展有限公司 一种基于深度学习的结构化信息抽取方法
CN107577783A (zh) * 2017-09-15 2018-01-12 电子科技大学 基于Web结构特征挖掘的网页类型自动识别方法
CN107832400A (zh) * 2017-11-01 2018-03-23 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN107885853A (zh) * 2017-11-14 2018-04-06 同济大学 一种基于深度学习的组合式文本分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101715118B1 (ko) * 2016-10-26 2017-03-10 가천대학교 산학협력단 문서 감정 분류용 딥러닝 인코딩 장치 및 방법.
CN106933804A (zh) * 2017-03-10 2017-07-07 上海数眼科技发展有限公司 一种基于深度学习的结构化信息抽取方法
CN107577783A (zh) * 2017-09-15 2018-01-12 电子科技大学 基于Web结构特征挖掘的网页类型自动识别方法
CN107832400A (zh) * 2017-11-01 2018-03-23 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN107885853A (zh) * 2017-11-14 2018-04-06 同济大学 一种基于深度学习的组合式文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
顾敏 等: "基于结构和文本特征的网页分类技术研究", 《中国科学技术大学学报》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110175288B (zh) * 2019-05-23 2020-05-19 中国搜索信息科技股份有限公司 一种面向青少年群体的文字和图像数据的过滤方法及系统
CN110175288A (zh) * 2019-05-23 2019-08-27 中国搜索信息科技股份有限公司 一种面向青少年群体的文字和图像数据的过滤方法及系统
CN110287409A (zh) * 2019-06-05 2019-09-27 新华三信息安全技术有限公司 一种网页类型识别方法及装置
CN110287409B (zh) * 2019-06-05 2022-07-22 新华三信息安全技术有限公司 一种网页类型识别方法及装置
CN110298338A (zh) * 2019-06-20 2019-10-01 北京易道博识科技有限公司 一种文档图像分类方法及装置
CN110298338B (zh) * 2019-06-20 2021-08-24 北京易道博识科技有限公司 一种文档图像分类方法及装置
CN110377810A (zh) * 2019-06-25 2019-10-25 浙江大学 一种移动端网页的分类方法
CN110377810B (zh) * 2019-06-25 2022-04-08 浙江大学 一种移动端网页的分类方法
WO2021000411A1 (zh) * 2019-07-04 2021-01-07 平安科技(深圳)有限公司 基于神经网络的文档分类方法、装置、设备及存储介质
CN110532448A (zh) * 2019-07-04 2019-12-03 平安科技(深圳)有限公司 基于神经网络的文档分类方法、装置、设备及存储介质
CN110472122A (zh) * 2019-07-31 2019-11-19 重庆古扬科技有限公司 一种多通道动态分布式学术资源采集方法
CN112214558A (zh) * 2020-11-18 2021-01-12 国家计算机网络与信息安全管理中心 一种主题相关度判别方法及装置
CN112214558B (zh) * 2020-11-18 2023-08-15 国家计算机网络与信息安全管理中心 一种主题相关度判别方法及装置
CN112528190A (zh) * 2020-12-23 2021-03-19 中移(杭州)信息技术有限公司 基于片化结构与内容的网页篡改评判方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN108984706A (zh) 一种基于深度学习融合文本和结构特征的网页分类方法
CN110866117B (zh) 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN110609897B (zh) 一种融合全局和局部特征的多类别中文文本分类方法
CN104933164B (zh) 互联网海量数据中命名实体间关系提取方法及其系统
CN106844349B (zh) 基于协同训练的垃圾评论识别方法
CN110134757A (zh) 一种基于多头注意力机制的事件论元角色抽取方法
CN106294324B (zh) 一种基于自然语言句法分析树的机器学习情感分析器
WO2016058267A1 (zh) 一种基于网站主页特征分析的中文网站分类方法和系统
CN110489523B (zh) 一种基于网购评价的细粒度情感分析方法
Zhou et al. Conceptlearner: Discovering visual concepts from weakly labeled image collections
CN107590219A (zh) 网页人物主题相关信息提取方法
CN103605794A (zh) 一种网站分类方法
CN113673254B (zh) 基于相似度保持的知识蒸馏的立场检测方法
CN110990564A (zh) 一种基于情感计算与多头注意力机制的负面新闻识别方法
CN104408153A (zh) 一种基于多粒度主题模型的短文本哈希学习方法
CN111522908A (zh) 一种基于BiGRU和注意力机制的多标签文本分类方法
CN113516198B (zh) 一种基于记忆网络和图神经网络的文化资源文本分类方法
Yanmei et al. Research on Chinese micro-blog sentiment analysis based on deep learning
CN110263169A (zh) 一种基于卷积神经网络和关键词聚类的热点事件检测方法
CN109492105A (zh) 一种基于多特征集成学习的文本情感分类方法
CN114936266A (zh) 基于门控机制的多模态融合谣言早期检测方法及系统
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN113987175A (zh) 一种基于医学主题词表增强表征的文本多标签分类方法
CN116955818A (zh) 一种基于深度学习的推荐系统
CN113780832B (zh) 舆情文本评分方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181211