CN111625702A - 一种基于深度学习的页面结构识别抽取方法 - Google Patents

一种基于深度学习的页面结构识别抽取方法 Download PDF

Info

Publication number
CN111625702A
CN111625702A CN202010456536.XA CN202010456536A CN111625702A CN 111625702 A CN111625702 A CN 111625702A CN 202010456536 A CN202010456536 A CN 202010456536A CN 111625702 A CN111625702 A CN 111625702A
Authority
CN
China
Prior art keywords
node
word
neural network
deep learning
page structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010456536.XA
Other languages
English (en)
Inventor
董昊辰
方仁贵
高晓辉
郭路路
何晓刚
何召阳
李克萌
刘兵
王欣宇
郗朝旭
谢鑫
赵岱翀
周欢
朱伟光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Moyun Technology Co ltd
Original Assignee
Beijing Moyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Moyun Technology Co ltd filed Critical Beijing Moyun Technology Co ltd
Priority to CN202010456536.XA priority Critical patent/CN111625702A/zh
Publication of CN111625702A publication Critical patent/CN111625702A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度学习的页面结构识别抽取方法,包含以下步骤:A、页面数据获取;B、进行特征工程;C、自然语言处理;D、对文本节点内容进行学习训练;E、对节点序列进行学习训练;F、进入Softmax层进行分类,本发明的有益效果是:1、提高了页面结构识别的准确度;2、无需编写规则,减轻相关人员工作压力;3、对于不规整的页面也可以进行识别;4、方便灵活,实时快捷;5、使用城本低。

Description

一种基于深度学习的页面结构识别抽取方法
技术领域
本发明涉及计算机技术领域,具体是一种基于深度学习的页面结构识别抽取方法。
背景技术
随着计算机的普及以及使用人数和频率的的增加,海量的信息数据随着互联网时代的飞速发展不断注入到Web当中,因此从Web中准确低获取所需信息的重要性也日益凸出。
我们传统的方法是利用手工别写规则进行信息抽取。但是手工编写规则的方式适用于结构较为规整、规律性强的文档,如编写正则表达式来进行文本匹配。这种方式的的优点是提取结果高效而准确,但同时弊端也非常明显,针对一种领域编写的规则通常难以应用到其他情况中去,我们无法免去为每个领域单独制定信息获取规则的步骤。对于页面不规整、没有规律的文档,提取结果十分不理想,使得抽取程序的利用率和使用范围非常低。另一方面,手工编写规则的方式还存在着依赖于有一定经验知识的语言专家的手工劳动的弊端,容易遭遇所谓的“知识瓶颈”问题。
发明内容
本发明的目的在于提供一种基于深度学习的页面结构识别抽取方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于深度学习的页面结构识别抽取方法,包含以下步骤:
A、页面数据获取;
B、进行特征工程;
C、自然语言处理;
D、对文本节点内容进行学习训练;
E、对节点序列进行学习训练;
F、进入Softmax层进行分类。
作为本发明的进一步技术方案:所述步骤A具体是:采用网页解析和渲染技术,获取不同页面中的关键信息均已某种相近格式嵌于HTML标签中,然后对指定的关键目标信息进行标记。
作为本发明的进一步技术方案:所述步骤B具体是:对获取的数数据进行清洗脏数据,对缺失值进行补全、降维等操作,并把数据整理成统一格式。
作为本发明的进一步技术方案:所述步骤C使用神经网络来进行自然语言处理,通常是创建一个词库表,并采用词进行编码,其中每个词编成的号成为这个词的词向量,首先应为网页中的信息简历词库表,然后把词库表生成词向量,随着训练的进行,词向量模型中逐渐聚集语义功能相近的字,缩短近义词之间的向量空间距离,将其逐渐拟合。
作为本发明的进一步技术方案:所述步骤D将网页中文本节点的每个字生成相应的词向量之后便可以建立针对文本节点的循环神经网络,循环神经网络进入了定向循环,使得它具有处理序列化数据的能力。
作为本发明的进一步技术方案:所述步骤E具体是:为了掌握节点序列赋予节点的信息,在网页爬取过程中精确地获取目标信息,需要以上层循环神经网络输出的文本节点的n维向量组成的序列作为新的输入,再次构建针对节点序列的循环神经网络网络,不同于文本节点循环神经网络的只产生一个输出,节点序列循环神经网络的每个节点都产生输出,但每个节点的输出依赖于序列中当前节点之前的若干个节点的输出作为输入。
作为本发明的进一步技术方案:所述步骤F具体是:步骤E中节点序列循环神经网络的输出经Softmax函数运算后可得到节点对所有目标信息的概率分布,模型中获取分类的数目为所有人工标记过的目标信息种类数目+1,即Sotfmax函数的运算结果能够判别处当前输入模型的文本节点是否为目标信息,若是,则输出目标信息的种类。
与现有技术相比,本发明的有益效果是:1、提高了页面结构识别的准确度;2、无需编写规则,减轻相关人员工作压力;3、对于不规整的页面也可以进行识别;4、方便灵活,实时快捷;5、使用城本低。
附图说明
图1为基于深度学习的页面结构识别抽取方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,一种基于深度学习的页面结构识别抽取方法,包含以下步骤:
A、页面数据获取;
B、进行特征工程;
C、自然语言处理;
D、对文本节点内容进行学习训练;
E、对节点序列进行学习训练;
F、进入Softmax层进行分类。
在上述第一步中,采用网页解析和渲染技术,获取不同页面中的关键信息均已某种相近格式嵌于HTML标签中,然后对指定的关键目标信息进行标记。
第二步对获取的数数据进行清洗脏数据,对缺失值进行补全、降维等操作,并把数据整理成统一格式。
第三步使用神经网络来进行自然语言处理,通常第一步都是创建一个词库表,并采用某种方式将词进行编码。其中每个词以某种方式编成的号成为这个词的词向量,词向量对于语义理解、获取词之间相连性有着重要的作用。首先应为网页中的信息简历词库表,然后采用相关技术把词库表生成词向量。随着训练的进行,词向量模型中逐渐聚集语义功能相近的字,缩短近义词之间的向量空间距离,将其逐渐拟合。
第四步将网页中文本节点的每个字生成相应的词向量之后便可以建立针对文本节点的循环神经网络.不同于传统的前馈神经网络,循环神经网络进入了定向循环,使得它具有处理序列化数据的能力,在网页文本节点中,每个字所代表词向量的前后关系对于理解文本内容有着重要的作用。
第五步为了掌握节点序列赋予节点的信息,在网页爬取过程中精确地获取目标信息,需要以上层循环神经网络输出的文本节点的n维向量组成的序列作为新的输入,再次构建针对节点序列的循环神经网络网络,不同于文本节点循环神经网络的只产生一个输出,节点序列循环神经网络的每个节点都产生输出,但每个节点的输出依赖于序列中当前节点之前的若干个节点的输出作为输入。
第六步Softmax方法常用于神经网络中的最后一层对输出结果进行多类别的分类。鉴于网页中的目标信息类别数目不固定,所以使用Softmax函数来进行多目标分类事最理想的方式。第五步中节点序列循环神经网络的输出经Softmax函数运算后可得到节点对所有目标信息的概率分布,模型中获取分类的数目为所有人工标记过的目标信息种类数目+1,即Sotfmax函数的运算结果能够判别处当前输入模型的文本节点是否为目标信息(非目标信息作为一类)若是,则输出目标信息的种类。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (7)

1.一种基于深度学习的页面结构识别抽取方法,其特征在于,包含以下步骤:
A、页面数据获取;
B、进行特征工程;
C、自然语言处理;
D、对文本节点内容进行学习训练;
E、对节点序列进行学习训练;
F、进入Softmax层进行分类。
2.根据权利要求1所述的一种基于深度学习的页面结构识别抽取方法,其特征在于,所述步骤A具体是:采用网页解析和渲染技术,获取不同页面中的关键信息均已某种相近格式嵌于HTML标签中,然后对指定的关键目标信息进行标记。
3.根据权利要求1所述的一种基于深度学习的页面结构识别抽取方法,其特征在于,所述步骤B具体是:对获取的数数据进行清洗脏数据,对缺失值进行补全、降维等操作,并把数据整理成统一格式。
4.根据权利要求1所述的一种基于深度学习的页面结构识别抽取方法,其特征在于,所述步骤C使用神经网络来进行自然语言处理,通常是创建一个词库表,并采用词进行编码,其中每个词编成的号成为这个词的词向量,首先应为网页中的信息简历词库表,然后把词库表生成词向量,随着训练的进行,词向量模型中逐渐聚集语义功能相近的字,缩短近义词之间的向量空间距离,将其逐渐拟合。
5.根据权利要求1所述的一种基于深度学习的页面结构识别抽取方法,其特征在于,所述步骤D将网页中文本节点的每个字生成相应的词向量之后便可以建立针对文本节点的循环神经网络,循环神经网络进入了定向循环,使得它具有处理序列化数据的能力。
6.根据权利要求1所述的一种基于深度学习的页面结构识别抽取方法,其特征在于,所述步骤E具体是:为了掌握节点序列赋予节点的信息,在网页爬取过程中精确地获取目标信息,需要以上层循环神经网络输出的文本节点的n维向量组成的序列作为新的输入,再次构建针对节点序列的循环神经网络网络,不同于文本节点循环神经网络的只产生一个输出,节点序列循环神经网络的每个节点都产生输出,但每个节点的输出依赖于序列中当前节点之前的若干个节点的输出作为输入。
7.根据权利要求1-6任一所述的一种基于深度学习的页面结构识别抽取方法,其特征在于,所述步骤F具体是:步骤E中节点序列循环神经网络的输出经Softmax函数运算后可得到节点对所有目标信息的概率分布,模型中获取分类的数目为所有人工标记过的目标信息种类数目+1,即Sotfmax函数的运算结果能够判别处当前输入模型的文本节点是否为目标信息,若是,则输出目标信息的种类。
CN202010456536.XA 2020-05-26 2020-05-26 一种基于深度学习的页面结构识别抽取方法 Pending CN111625702A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010456536.XA CN111625702A (zh) 2020-05-26 2020-05-26 一种基于深度学习的页面结构识别抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010456536.XA CN111625702A (zh) 2020-05-26 2020-05-26 一种基于深度学习的页面结构识别抽取方法

Publications (1)

Publication Number Publication Date
CN111625702A true CN111625702A (zh) 2020-09-04

Family

ID=72271135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010456536.XA Pending CN111625702A (zh) 2020-05-26 2020-05-26 一种基于深度学习的页面结构识别抽取方法

Country Status (1)

Country Link
CN (1) CN111625702A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372058A (zh) * 2016-08-29 2017-02-01 中译语通科技(北京)有限公司 一种基于深度学习的短文本情感要素抽取方法及装置
CN109241383A (zh) * 2018-07-20 2019-01-18 北京开普云信息科技有限公司 一种基于深度学习的网页类型智能识别方法及系统
CN109657135A (zh) * 2018-11-13 2019-04-19 华南理工大学 一种基于神经网络的学者用户画像信息抽取方法及模型

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372058A (zh) * 2016-08-29 2017-02-01 中译语通科技(北京)有限公司 一种基于深度学习的短文本情感要素抽取方法及装置
CN109241383A (zh) * 2018-07-20 2019-01-18 北京开普云信息科技有限公司 一种基于深度学习的网页类型智能识别方法及系统
CN109657135A (zh) * 2018-11-13 2019-04-19 华南理工大学 一种基于神经网络的学者用户画像信息抽取方法及模型

Similar Documents

Publication Publication Date Title
CN108182295B (zh) 一种企业知识图谱属性抽取方法及系统
CN111783394B (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN112241481A (zh) 基于图神经网络的跨模态新闻事件分类方法及系统
CN112417891B (zh) 一种基于开放式信息抽取的文本关系自动标注方法
CN113010683B (zh) 基于改进图注意力网络的实体关系识别方法及系统
CN111309910A (zh) 文本信息挖掘方法及装置
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及系统
CN103559199A (zh) 网页信息抽取方法和装置
CN113841168A (zh) 包括由分布式轻量级实时边缘引擎支持的主引擎的分层机器学习架构
CN111625838A (zh) 一种基于深度学习的漏洞场景识别方法
CN112101014B (zh) 一种混合特征融合的中文化工文献分词方法
CN114239574A (zh) 一种基于实体和关系联合学习的矿工违规行为知识抽取方法
CN113743119A (zh) 中文命名实体识别模块、方法、装置及电子设备
CN116383399A (zh) 一种事件舆情风险预测方法及系统
CN115510180A (zh) 一种面向多领域的复杂事件要素抽取方法
CN115292568B (zh) 一种基于联合模型的民生新闻事件抽取方法
CN115391570A (zh) 一种基于方面的情感知识图谱构建方法及装置
CN114218940B (zh) 文本信息处理、模型训练方法、装置、设备及存储介质
CN113505207B (zh) 一种金融舆情研报的机器阅读理解方法及系统
CN111625702A (zh) 一种基于深度学习的页面结构识别抽取方法
CN113342982B (zh) 融合RoBERTa和外部知识库的企业行业分类方法
CN115391519A (zh) 一种基于nlp技术的企业自动打标签模型生成方法、系统、设备以及存储介质
CN115017144A (zh) 一种基于图神经网络的司法文书案情要素实体识别方法
CN114911933A (zh) 基于图内图间联合信息传播的假新闻检测方法及系统
CN111339303B (zh) 一种基于聚类与自动摘要的文本意图归纳方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200904