CN105550278A

CN105550278A - 基于深度学习的网页区域识别算法

Info

Publication number: CN105550278A
Application number: CN201510910397.2A
Authority: CN
Inventors: 李志杰; 周祖胜
Original assignee: TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD
Current assignee: TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD
Priority date: 2015-12-10
Filing date: 2015-12-10
Publication date: 2016-05-04

Abstract

一种基于深度学习的网页区域识别算法，包括以下步骤：A、以格式化文本，网页的超文本标记语言HTML的源码作为算法输入；B、通过HTML2XML算法提取出网页区域的视觉特征向量；C、通过HTML2XML算法提取出网页区域的文本内容，并通过神经网络语言模型学习出文本特征向量；D、以堆叠降噪自动编码器SDAE作为特征学习方法，将上述特征向量作为SDAE的输入向量；E、使用分类算法对SDAE的输出向量进行分类，对向量的分类结果即为该向量所对应的网页区域的识别结果。通过本发明可对网页内的标题区、正文区、导航区等视觉区域进行准确识别，识别准确率达99.99%-100%。

Description

基于深度学习的网页区域识别算法

技术领域

本发明涉及互联网信息采集的技术领域，具体说是一种基于深度学习的网页区域识别算法。

背景技术

网页区域识别对搜索引擎构建、网络信息检索、网络数据采集及网络知识发现至关重要。目前，网页区域识别通常采取如下方法：人工设定识别规则对网页区域进行识别或者基于其他非深度学习的机器学习方法对网页区域进行识别。

对网页区域识别而言，区域内文本的视觉特征（文字的大小、颜色、是否加粗等）及区域本身的视觉特征（位置、底色、是否有边框等）至关重要。纯文本无法反映这些视觉特征，且自然语言具有高度抽象性，仅对纯文本进行特征提取及模式识别，难以提取出足够的特征，获得理想的识别效果。

发明内容

本发明要解决的技术问题是提供一种基于深度学习的网页区域识别算法。

本发明为解决公知技术中存在的技术问题所采取的技术方案是:

本发明的基于深度学习的网页区域识别算法，包括以下步骤：

A、格式化文本：以网页的HTML源码作为算法输入；

B、视觉特征处理：

将HTML转化为XML，提取网页内不同区域的视觉特征；选择上述视觉特征，得到视觉特征向量；将视觉特征向量进行归一化，得到归一化后的视觉特征向量；

C、文本特征处理：

将HTML转化为XML，提取网页区域内的文本；通过分词算法将文本特征序列化；通过神经网络语言模型学习出文本特征向量；

D、将堆叠降噪自动编码器SDAE作为特征学习方法，将上述处理后的特征向量作为输入向量；

E、将堆叠降噪自动编码器SDAE的输出向量作为分类算法的输入，使用分类算法对上述输出向量进行分类，对向量的分类结果即为该特征向量所对应的网页区域的识别结果。

本发明还可以采用以下技术措施：

步骤B中，通过选择全部视觉特征，得到未经归一化的视觉特征向量。

步骤B中，通过选择部分视觉特征，得到未经归一化的视觉特征向量。

使用Min-MaxNormalization的归一化方法对视觉特征向量进行归一化，得到归一化后的视觉特征向量。

步骤C中，通过海量分词算法对文本进行分词。

步骤C中，通过结巴分词算法对文本进行分词。

步骤C中，通过Paragraph2Vec算法学习出文本特征向量。

步骤D中，将视觉特征向量作为堆叠降噪自动编码器SDAE的输入向量。

步骤D中，将视觉特征向量与文本特征向量拼接后作为堆叠降噪自动编码器SDAE的输入向量，对拼接后的向量选择性进行归一化处理。

步骤E中，使用分类算法SoftmaxRegression对学习到的特征向量进行分类。

本发明具有的优点和积极效果是:

本发明的基于深度学习的网页区域识别算法中，以网页的HTML源码作为算法输入，并将HTML转化为XML，提取视觉特征和文本内容，并对相应的视觉特征进行归一化处理、对文本内容通过神经网络语言模型进行特征学习，分别得到初步的视觉特征向量和文本特征向量，通过堆叠降噪自动编码器SDAE对初步的视觉特征向量和文本特征向量进行进一步的学习，得到代表相应网页区域的网页区域特征向量，并通过分类算法对网页区域特征向量进行分类处理，即得到网页区域的识别结果。本发明可对网页内的标题区、正文区、导航区等视觉区域进行准确识别，识别准确率达99.99%-100%。

具体实施方式

以下通过具体实施例对本发明进行详细说明。

A、格式化文本：以网页的HTML源码作为算法输入；

B、视觉特征处理：

将HTML转化为XML，提取网页内不同区域的视觉特征，视觉特征包括区域坐标、区域底色、区域边框粗细、区域文字密度、区域文字字体、区域文字大小、区域文字颜色等；通过选择全部或部分视觉特征，得到未经归一化的视觉特征向量；使用Min-MaxNormalization的归一化方法对视觉特征向量进行归一化，得到归一化后的视觉特征向量；

C、文本特征处理：

将HTML转化为XML，提取网页区域内的文本；通过海量分词算法或者结巴分词算法对文本进行分词；通过神经网络语言模型的Paragraph2Vec算法学习出文本特征向量；

D、将堆叠降噪自动编码器SDAE作为特征学习方法，将上述处理后的特征向量作为输入向量，其中SDAE的输入向量由视觉特征向量与文本特征向量拼接而成，或仅使用视觉特征向量充当输入向量，而对拼接后的向量进行或不进行归一化处理；

E、将堆叠降噪自动编码器SDAE的输出向量作为分类算法的输入，使用分类算法SoftmaxRegression对上述输出向量进行分类，对向量的分类结果即为该特征向量所对应的网页区域的识别结果。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例公开如上，然而，并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当然会利用揭示的技术内容作出些许更动或修饰，成为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.一种基于深度学习的网页区域识别算法，包括以下步骤：

A、格式化文本：以网页的HTML源码作为算法输入；

B、视觉特征处理：

C、文本特征处理：

将HTML转化为XML，提取网页区域内的文本；对文本进行分词；通过神经网络语言模型学习出文本特征向量；

D、以堆叠降噪自动编码器SDAE作为特征学习算法，将上述处理后的特征向量作为SDAE的输入向量；

E、使用分类算法对堆叠降噪自动编码器SDAE学习得到的特征向量进行分类，对向量的分类结果即为该特征向量所对应的网页区域的识别结果。

2.根据权利要求1所述的基于深度学习的网页区域识别算法，其特征在于：步骤B中，通过选择全部视觉特征，得到未经归一化的视觉特征向量。

3.根据权利要求1所述的基于深度学习的网页区域识别算法，其特征在于：步骤B中，通过选择部分视觉特征，得到未经归一化的视觉特征向量。

4.根据权利要求2或3所述的基于深度学习的网页区域识别算法，其特征在于：使用Min-MaxNormalization的归一化方法对视觉特征向量进行归一化，得到归一化后的视觉特征向量。

5.根据权利要求4所述的基于深度学习的网页区域识别算法，其特征在于：步骤C中，通过海量分词算法对文本进行分词。

6.根据权利要求4所述的基于深度学习的网页区域识别算法，其特征在于：步骤C中，通过结巴分词算法对文本进行分词。

7.根据权利要求5或6所述的基于深度学习的网页区域识别算法，其特征在于：步骤C中，通过Paragraph2Vec算法学习出文本特征向量。

8.根据权利要求5或6所述的基于深度学习的网页区域识别算法，其特征在于：步骤D中，将视觉特征向量作为堆叠降噪自动编码器SDAE的输入向量。

9.根据权利要求5或6所述的基于深度学习的网页区域识别算法，其特征在于：步骤D中，将视觉特征向量与文本特征向量拼接后作为堆叠降噪自动编码器SDAE的输入向量，对拼接后的向量选择性进行归一化处理。

10.根据权利要求1所述的基于深度学习的网页区域识别算法，其特征在于：步骤E中，使用分类算法SoftmaxRegression对学习到的特征向量进行分类。