CN105302884B

CN105302884B - 基于深度学习的网页模式识别方法及视觉结构学习方法

Info

Publication number: CN105302884B
Application number: CN201510670711.4A
Authority: CN
Inventors: 李志杰; 刘丽丽; 张作职
Original assignee: Tianjin Mass Information Technology Ltd By Share Ltd
Current assignee: Tianjin Mass Information Technology Ltd By Share Ltd
Priority date: 2015-10-19
Filing date: 2015-10-19
Publication date: 2019-02-19
Anticipated expiration: 2035-10-19
Also published as: CN105302884A

Abstract

一种基于深度学习的网页模式识别方法，包括以下步骤：以非格式化文本，网页的超文本标记语言的Text源码作为算法输入；将上述源码进行分词；设计堆叠降噪自动编码器，作为网页的特征学习算法；采用神经网络语言模型对SDAE的输入进行初始化；采用分类算法对通过SDAE学习到的文本特征向量进行分类；将上述分类结果进行输出。一种网页视觉结构学习方法，用机器学习的方法学习HTML的Text源码的结构，并以此学习网页的视觉结构。本发明用自然语言处理的方法处理人工语言，用深度学习的方法及神经网络语言模型对HTML的Text源码进行特征学习，通过本发明可对各类型网站，如博客、论坛、资讯等的网页模式进行精确识别。

Description

基于深度学习的网页模式识别方法及视觉结构学习方法

技术领域

本发明涉及互联网的技术领域，具体说是一种基于深度学习的网页模式识别方法及视觉结构学习方法。

背景技术

网页识别是数据采集系统及搜索引擎中的关键步骤。目前，对网页识别大多采取如下方法：人工设定识别规则对网页进行识别或者基于其他非深度学习的机器学习方法对网页进行识别。

但出于自然语言具有高度抽象性，机器对纯文本的模式识别难以获得理想的识别效果。

发明内容

本发明要解决的技术问题是提供一种基于深度学习的网页模式识别方法及视觉结构学习方法。

本发明为解决公知技术中存在的技术问题所采取的技术方案是:

本发明的基于深度学习的网页模式识别方法，包括以下步骤：

A、非格式化文本，以网页HTML的Text源码作为算法输入；

B、将上述网页HTML的Text源码进行预处理；

C、设计堆叠降噪自动编码器SDAE，作为网页特征的深度学习算法；采用神经网络语言模型对堆叠降噪自动编码器SDAE的输入进行初始化，上一步骤中得到的输出作为本步骤中神经网络语言模型的输入，得到Text源码的初始特征向量输出，并将此初始特征向量作为堆叠降噪自动编码器SDAE的输入，得到相应网页的特征向量；

D、采用Softmax回归对通过堆叠降噪自动编码器SDAE学习到的文本特征向量进行分类，特征向量的分类结果即为相应网页的识别结果；

E、将上述分类结果进行输出。

本发明还可以采用以下技术措施：

步骤B中，使用Text源码中的HTML语言标签作为原始文本进行机器学习。

步骤B中，使用包含所有自然语言内容及HTML语言标签的Text源码作为原始文本进行机器学习时，对Text源码进行分词处理。

步骤B中，使用包含自然语言内容及部分HTML语言标签的Text源码作为原始文本进行机器学习时，对Text源码进行分词处理。

步骤B中，使用Text源码的自然语言内容作为原始文本进行机器学习时，对Text源码进行分词处理。

采用海量分词算法对网页HTML的Text源码进行分词。

采用结巴分词算法对网页HTML的Text源码进行分词。

步骤C中，采用神经网络语言模型的文段转向量算法Paragraph2Vec对堆叠降噪自动编码器SDAE的输入向量进行初始化。

步骤D中采用L2正则随机梯度下降逻辑回归分类器对通过堆叠降噪自动编码器SDAE学习到的特征向量进行分类。

本发明的基于深度学习的网页视觉结构学习方法，用机器学习的方法学习HTML的Text源码的结构，并以此学习网页的视觉结构。

本发明具有的优点和积极效果是:

本发明的基于深度学习的网页模式识别方法及视觉结构学习方法中，用自然语言处理的方法处理Text源码，更为关注网页HTML的Text源码的结构而非内容，用深度学习的方法进行文本特征学习，对深度算法SDAE初始化方法的改进：使用Paragraph2Vec算法作为SDAE输入向量的初始化算法，从而取代SDAE惯用的随机初始化方法。从而可以最大化保留文本特征，减少特征丢失，有利于避免SDAE进入局部最优解，有效地保证SDAE的收敛。

本发明用自然语言处理（Natural Language Processing，简称NLP）的方法处理人工语言（Artificial Language，简称AL），用深度学习（Deep Learning，DL）的方法及神经网络语言模型对HTML的Text源码进行特征学习，通过本发明的方法可对各类型网站，如博客、论坛、资讯等的网页模式进行精确识别，识别准确率达99.99%-100%，识别率达全球顶尖水平。

具体实施方式

以下对本技术方案进行详细说明：

A、非格式化文本，以网页超文本语言（Hypertext Markup Language）即HTML的Text源码作为算法输入；

B、将上述网页HTML的Text源码进行预处理；

C、设计堆叠降噪自动编码器（Stacking Denoising Autoencoders）, 简称SDAE，作为网页特征的深度学习算法；采用神经网络语言模型(Neural Network LanguageModel)，简称NNLM，对堆叠降噪自动编码器SDAE的输入进行初始化，上一步骤中得到的输出作为神经网络语言模型NNLM的输入，得到Text源码的初始特征向量输出，并将此初始特征向量作为堆叠降噪自动编码器SDAE的输入，得到相应网页的特征向量；

E、将上述分类结果进行输出。

在保留自然语言内容的预处理步骤中，需要使用分词，而在仅保留HTML语言标签时，无需分词。

步骤B中，使用Text源码中的HTML语言标签作为原始文本进行机器学习，此时无需分词，无需使用分词算法。

采用海量分词算法对网页HTML的Text源码进行分词。

采用结巴分词算法对网页HTML的Text源码进行分词。

选用海量分词算法或结巴分词算法对最终结果影响不大。

步骤C中，采用神经网络语言模型NNLM的文段转向量算法Paragraph2Vec对堆叠降噪自动编码器SDAE的输入向量进行初始化。

步骤D中采用L2正则随机梯度下降逻辑回归分类器（L2-Stochastic GradientDescent Logistic Regression）对通过堆叠降噪自动编码器SDAE学习到的特征向量进行分类。上述逻辑回归分类器是Softmax回归（n分类）分类中当n=2时的特殊形式。

步骤D中设置为二分类模式，两种类别分别对应于网页是导航页或非导航页。如果是多分类模式，如论坛页面/资讯页面/微博页面等等，则采用Softmax回归进行多类别分类。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例公开如上，然而，并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当然会利用揭示的技术内容作出些许更动或修饰，成为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.一种基于深度学习的网页模式识别方法，包括以下步骤：

A、采用非格式化文本，以网页HTML的Text源码作为算法输入；

B、将上述网页HTML的Text源码进行预处理；

C、设计堆叠降噪自动编码器SDAE作为网页特征的深度学习算法；采用神经网络语言模型对堆叠降噪自动编码器SDAE的输入进行初始化，将对网页HTML的Text源码进行预处理的结果作为本步骤中神经网络语言模型的输入，得到Text源码的初始特征向量输出，并将此初始特征向量作为堆叠降噪自动编码器SDAE的输入，得到相应网页的特征向量；其中，采用神经网络语言模型的文段转向量算法Paragraph2Vec对堆叠降噪自动编码器SDAE的输入向量进行初始化；

E、将上述分类结果进行输出。

2.根据权利要求1所述的基于深度学习的网页模式识别方法，其特征在于：步骤B中，使用Text源码中的HTML语言标签作为原始文本进行机器学习。

3.根据权利要求1所述的基于深度学习的网页模式识别方法，其特征在于：步骤B中，使用包含所有自然语言内容及HTML语言标签的Text源码作为原始文本进行机器学习时，对Text源码进行分词处理。

4.根据权利要求1所述的基于深度学习的网页模式识别方法，其特征在于：步骤B中，使用包含自然语言内容及部分HTML语言标签的Text源码作为原始文本进行机器学习时，对Text源码进行分词处理。

5.根据权利要求1所述的基于深度学习的网页模式识别方法，其特征在于：步骤B中，使用Text源码的自然语言内容作为原始文本进行机器学习时，对Text源码进行分词处理。

6.根据权利要求3、4或5所述的基于深度学习的网页模式识别方法，其特征在于：采用海量分词算法对网页HTML的Text源码进行分词。

7.根据权利要求3、4或5所述的基于深度学习的网页模式识别方法，其特征在于：采用结巴分词算法对网页HTML的Text源码进行分词。

8.根据权利要求1所述的基于深度学习的网页模式识别方法，其特征在于：步骤D中采用L2正则随机梯度下降逻辑回归分类器对通过堆叠降噪自动编码器SDAE学习到的特征向量进行分类。