CN111625702A

CN111625702A - 一种基于深度学习的页面结构识别抽取方法

Info

Publication number: CN111625702A
Application number: CN202010456536.XA
Authority: CN
Inventors: 董昊辰; 方仁贵; 高晓辉; 郭路路; 何晓刚; 何召阳; 李克萌; 刘兵; 王欣宇; 郗朝旭; 谢鑫; 赵岱翀; 周欢; 朱伟光
Original assignee: Beijing Moyun Technology Co ltd
Current assignee: Beijing Moyun Technology Co ltd
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-09-04

Abstract

本发明公开了一种基于深度学习的页面结构识别抽取方法，包含以下步骤：A、页面数据获取；B、进行特征工程；C、自然语言处理；D、对文本节点内容进行学习训练；E、对节点序列进行学习训练；F、进入Softmax层进行分类，本发明的有益效果是：1、提高了页面结构识别的准确度；2、无需编写规则，减轻相关人员工作压力；3、对于不规整的页面也可以进行识别；4、方便灵活，实时快捷；5、使用城本低。

Description

一种基于深度学习的页面结构识别抽取方法

技术领域

本发明涉及计算机技术领域，具体是一种基于深度学习的页面结构识别抽取方法。

背景技术

随着计算机的普及以及使用人数和频率的的增加，海量的信息数据随着互联网时代的飞速发展不断注入到Web当中，因此从Web中准确低获取所需信息的重要性也日益凸出。

我们传统的方法是利用手工别写规则进行信息抽取。但是手工编写规则的方式适用于结构较为规整、规律性强的文档，如编写正则表达式来进行文本匹配。这种方式的的优点是提取结果高效而准确，但同时弊端也非常明显，针对一种领域编写的规则通常难以应用到其他情况中去，我们无法免去为每个领域单独制定信息获取规则的步骤。对于页面不规整、没有规律的文档，提取结果十分不理想，使得抽取程序的利用率和使用范围非常低。另一方面，手工编写规则的方式还存在着依赖于有一定经验知识的语言专家的手工劳动的弊端，容易遭遇所谓的“知识瓶颈”问题。

发明内容

本发明的目的在于提供一种基于深度学习的页面结构识别抽取方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于深度学习的页面结构识别抽取方法，包含以下步骤：

A、页面数据获取；

B、进行特征工程；

C、自然语言处理；

D、对文本节点内容进行学习训练；

E、对节点序列进行学习训练；

F、进入Softmax层进行分类。

作为本发明的进一步技术方案：所述步骤A具体是：采用网页解析和渲染技术，获取不同页面中的关键信息均已某种相近格式嵌于HTML标签中，然后对指定的关键目标信息进行标记。

作为本发明的进一步技术方案：所述步骤B具体是：对获取的数数据进行清洗脏数据，对缺失值进行补全、降维等操作，并把数据整理成统一格式。

作为本发明的进一步技术方案：所述步骤C使用神经网络来进行自然语言处理，通常是创建一个词库表，并采用词进行编码，其中每个词编成的号成为这个词的词向量，首先应为网页中的信息简历词库表，然后把词库表生成词向量，随着训练的进行，词向量模型中逐渐聚集语义功能相近的字，缩短近义词之间的向量空间距离，将其逐渐拟合。

作为本发明的进一步技术方案：所述步骤D将网页中文本节点的每个字生成相应的词向量之后便可以建立针对文本节点的循环神经网络，循环神经网络进入了定向循环，使得它具有处理序列化数据的能力。

作为本发明的进一步技术方案：所述步骤E具体是：为了掌握节点序列赋予节点的信息，在网页爬取过程中精确地获取目标信息，需要以上层循环神经网络输出的文本节点的n维向量组成的序列作为新的输入，再次构建针对节点序列的循环神经网络网络，不同于文本节点循环神经网络的只产生一个输出，节点序列循环神经网络的每个节点都产生输出，但每个节点的输出依赖于序列中当前节点之前的若干个节点的输出作为输入。

作为本发明的进一步技术方案：所述步骤F具体是：步骤E中节点序列循环神经网络的输出经Softmax函数运算后可得到节点对所有目标信息的概率分布，模型中获取分类的数目为所有人工标记过的目标信息种类数目+1，即Sotfmax函数的运算结果能够判别处当前输入模型的文本节点是否为目标信息，若是，则输出目标信息的种类。

与现有技术相比，本发明的有益效果是：1、提高了页面结构识别的准确度；2、无需编写规则，减轻相关人员工作压力；3、对于不规整的页面也可以进行识别；4、方便灵活，实时快捷；5、使用城本低。

附图说明

图1为基于深度学习的页面结构识别抽取方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，一种基于深度学习的页面结构识别抽取方法，包含以下步骤：

A、页面数据获取；

B、进行特征工程；

C、自然语言处理；

D、对文本节点内容进行学习训练；

E、对节点序列进行学习训练；

F、进入Softmax层进行分类。

在上述第一步中，采用网页解析和渲染技术，获取不同页面中的关键信息均已某种相近格式嵌于HTML标签中，然后对指定的关键目标信息进行标记。

第二步对获取的数数据进行清洗脏数据，对缺失值进行补全、降维等操作，并把数据整理成统一格式。

第三步使用神经网络来进行自然语言处理，通常第一步都是创建一个词库表，并采用某种方式将词进行编码。其中每个词以某种方式编成的号成为这个词的词向量，词向量对于语义理解、获取词之间相连性有着重要的作用。首先应为网页中的信息简历词库表，然后采用相关技术把词库表生成词向量。随着训练的进行，词向量模型中逐渐聚集语义功能相近的字，缩短近义词之间的向量空间距离，将其逐渐拟合。

第四步将网页中文本节点的每个字生成相应的词向量之后便可以建立针对文本节点的循环神经网络.不同于传统的前馈神经网络，循环神经网络进入了定向循环，使得它具有处理序列化数据的能力，在网页文本节点中，每个字所代表词向量的前后关系对于理解文本内容有着重要的作用。

第五步为了掌握节点序列赋予节点的信息，在网页爬取过程中精确地获取目标信息，需要以上层循环神经网络输出的文本节点的n维向量组成的序列作为新的输入，再次构建针对节点序列的循环神经网络网络，不同于文本节点循环神经网络的只产生一个输出，节点序列循环神经网络的每个节点都产生输出，但每个节点的输出依赖于序列中当前节点之前的若干个节点的输出作为输入。

第六步Softmax方法常用于神经网络中的最后一层对输出结果进行多类别的分类。鉴于网页中的目标信息类别数目不固定，所以使用Softmax函数来进行多目标分类事最理想的方式。第五步中节点序列循环神经网络的输出经Softmax函数运算后可得到节点对所有目标信息的概率分布，模型中获取分类的数目为所有人工标记过的目标信息种类数目+1，即Sotfmax函数的运算结果能够判别处当前输入模型的文本节点是否为目标信息（非目标信息作为一类）若是，则输出目标信息的种类。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于深度学习的页面结构识别抽取方法，其特征在于，包含以下步骤：

A、页面数据获取；

B、进行特征工程；

C、自然语言处理；

D、对文本节点内容进行学习训练；

E、对节点序列进行学习训练；

F、进入Softmax层进行分类。

2.根据权利要求1所述的一种基于深度学习的页面结构识别抽取方法，其特征在于，所述步骤A具体是：采用网页解析和渲染技术，获取不同页面中的关键信息均已某种相近格式嵌于HTML标签中，然后对指定的关键目标信息进行标记。

3.根据权利要求1所述的一种基于深度学习的页面结构识别抽取方法，其特征在于，所述步骤B具体是：对获取的数数据进行清洗脏数据，对缺失值进行补全、降维等操作，并把数据整理成统一格式。

4.根据权利要求1所述的一种基于深度学习的页面结构识别抽取方法，其特征在于，所述步骤C使用神经网络来进行自然语言处理，通常是创建一个词库表，并采用词进行编码，其中每个词编成的号成为这个词的词向量，首先应为网页中的信息简历词库表，然后把词库表生成词向量，随着训练的进行，词向量模型中逐渐聚集语义功能相近的字，缩短近义词之间的向量空间距离，将其逐渐拟合。

5.根据权利要求1所述的一种基于深度学习的页面结构识别抽取方法，其特征在于，所述步骤D将网页中文本节点的每个字生成相应的词向量之后便可以建立针对文本节点的循环神经网络，循环神经网络进入了定向循环，使得它具有处理序列化数据的能力。

6.根据权利要求1所述的一种基于深度学习的页面结构识别抽取方法，其特征在于，所述步骤E具体是：为了掌握节点序列赋予节点的信息，在网页爬取过程中精确地获取目标信息，需要以上层循环神经网络输出的文本节点的n维向量组成的序列作为新的输入，再次构建针对节点序列的循环神经网络网络，不同于文本节点循环神经网络的只产生一个输出，节点序列循环神经网络的每个节点都产生输出，但每个节点的输出依赖于序列中当前节点之前的若干个节点的输出作为输入。

7.根据权利要求1-6任一所述的一种基于深度学习的页面结构识别抽取方法，其特征在于，所述步骤F具体是：步骤E中节点序列循环神经网络的输出经Softmax函数运算后可得到节点对所有目标信息的概率分布，模型中获取分类的数目为所有人工标记过的目标信息种类数目+1，即Sotfmax函数的运算结果能够判别处当前输入模型的文本节点是否为目标信息，若是，则输出目标信息的种类。