CN113312568A - 一种基于HTML源代码和网页快照的Web信息抽取方法与系统 - Google Patents

一种基于HTML源代码和网页快照的Web信息抽取方法与系统 Download PDF

Info

Publication number
CN113312568A
CN113312568A CN202110322096.3A CN202110322096A CN113312568A CN 113312568 A CN113312568 A CN 113312568A CN 202110322096 A CN202110322096 A CN 202110322096A CN 113312568 A CN113312568 A CN 113312568A
Authority
CN
China
Prior art keywords
snapshot
source code
html source
training data
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110322096.3A
Other languages
English (en)
Other versions
CN113312568B (zh
Inventor
蔡振华
吴俊�
江文涛
张翔
陈延艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ropt Technology Group Co ltd
Ropt Xiamen Big Data Group Co ltd
Original Assignee
Lop Xiamen System Integration Co ltd
Ropt Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lop Xiamen System Integration Co ltd, Ropt Technology Group Co ltd filed Critical Lop Xiamen System Integration Co ltd
Priority to CN202110322096.3A priority Critical patent/CN113312568B/zh
Publication of CN113312568A publication Critical patent/CN113312568A/zh
Application granted granted Critical
Publication of CN113312568B publication Critical patent/CN113312568B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明给出了一种基于HTML源代码和网页快照的Web信息抽取方法与系统,包括通过收集网页快照训练数据,在网页快照训练数据中标注表征网页快照训练数据的类别的标签,得到标注后的网页快照训练数据;将标注后的网页快照训练数据输入混合CNN和BERT的神经网络架构进行模型训练,获取用于抽取网页信息的神经网络模型;最后基于神经网络模型对网络上的标签未知的网页快照数据进行抽取输出标签未知的网页快照数据对应的标签。通过搜集足够数量的网页极其快照,选择具有多样性布局和内容的网页,提高了后续生成的模型的泛化能力,并且将网页快照部分和HTML源代码部分分别输入CNN和BERT,充分利用了文本和网页快照的信息,提升了Web信息抽取的精度。

Description

一种基于HTML源代码和网页快照的Web信息抽取方法与系统
技术领域
本发明涉及网页信息抽取技术领域,尤其是一种基于HTML源代码和网页 快照的Web信息抽取方法与系统。
背景技术
Web信息抽取即从网页中抽取出有价值的网页主体信息。目前较为成熟 的信息抽取方法主要有基于模板的方法、基于统计的方法、基于视觉分块的 方法。
(1)基于模板的信息抽取方法:早期的手工构建模板的方法主要用来 解决特定网站的信息抽取问题。使用该类方法不需要构建数据集,但是需要 大量的人工分析且不同的站点需要不同的模板,费时费力且通用性较差。于 是大量研究集中于如何自动生成模板的方法上。
(2)基于统计的网页信息抽取算法:目前基于统计的方法主要有统计 文本密度、标签密度和行块分布等方法。基于统计的方法大多是针对网页正 文抽取进行的研究,难以抽取如发布时间、来源等其他新闻关键信息。
(3)基于视觉的信息抽取方法:先对网页进行渲染分析,再结合视觉 信息,进行信息抽取工作。这一类方法由于需要先进行页面渲染会耗费较多 资源。
目前,大部分网页信息抽取方法都是基于HTML源码或者基于将源码解 析后生成的DOM树,使用网页的文本特征或结构特征进行抽取。近些年来, 已有学者提出了一些基于视觉特征的抽取算法,这类方法不依赖于具体的网 页编程语言,且更加契合HTML这种帮助表现和展示的语言。但是,大多数 方法是基于视觉特征,使用启发式规则对网页进行分块,但由于网页的形式 是十分多样化的,这些方法并不是十分通用。
发明内容
本发明提出了一种基于HTML源代码和网页快照的Web信息抽取方法与 系统,以解决上文提到的现有技术的缺陷。
在一个方面,本发明提出了一种基于HTML源代码和网页快照的Web信 息抽取方法,该方法包括以下步骤:
S1:收集包括网页快照训练数据和HTML源代码训练数据在内的网页抽 取训练数据,在所述网页快照训练数据中标注表征所述网页快照训练数据的 类别的标签,得到标注后的网页快照训练数据;
S2:将所述标注后的网页快照训练数据和HTML源代码训练数据分别输 入混合CNN和BERT的神经网络架构进行模型训练,获取用于抽取网页信息 的神经网络模型;
S3:基于所述神经网络模型对网络上的标签未知的网页快照数据进行抽 取输出所述标签未知的网页快照数据对应的标签。
以上方法通过搜集足够数量的网页极其快照,选择具有多样性布局和内 容的网页,提高了后续生成的模型的泛化能力,模型训练阶段采用了混合CNN 和BERT的神经网络架构,将网页快照部分和HTML源代码部分分别输入CNN 和BERT,充分利用了文本和网页快照的信息,提升了Web信息抽取的精度。
在具体的实施例中,所述标签根据所述收集网页快照训练数据的具体的 网站类型和应用需求进行定义,且所述标签包括:时间、标题和正文。
在具体的实施例中,所述标注后的网页快照训练数据包括HTML源代码、 所述HTML源代码对应的网页快照图片和对应的标签。
在具体的实施例中,所述HTML源代码中的词被对应类型的所述标签所 标注,用于表征所述HTML源代码中的词所属的类别。
在具体的实施例中,所述HTML源代码对应的网页快照图片被对应类型 的所述标签所标注,用于表征所述HTML源代码对应的网页快照图片所属的 类别。
在具体的实施例中,所述网页快照图片利用所述网页快照图片的左上角 坐标和右下角坐标拼接成向量来标识。
在具体的实施例中,所述S2具体包括:
将所述HTML源代码对应的网页快照图片输入CNN模型中得到网页快照 输出,并将所述HTML源代码输入BERT模型中得到所述HTML源代码中的词 对应的各个标签的概率;
将所述网页快照输出和所述HTML源代码中的词对应的各个标签的概率 同时输入一个三层的全连接层,再通过一个softmax层进行分类获得用于抽 取网页信息的神经网络模型。
在具体的实施例中,所述CNN模型具体包括:
第一个阶段:包含2个卷积层,最后再加一个池化操作;
第二个阶段;包含2个卷积层,最后再加一个池化操作;
第三个阶段:包含3个卷积层,最后再加一个池化操作;
第四个阶段:包含3个卷积层,最后再加一个池化操作;
第五个阶段:包含3个卷积层,最后再加一个池化操作;
第六个阶段:包含3个全连接层,最后再加一个softmax分类。
在具体的实施例中,将所述HTML源代码输入BERT模型中得到所述HTML 源代码中的词对应的各个标签的概率,具体步骤包括:
在所述BERT模型中由若干个编码器和解码器堆叠而构成Transforme r;
将所述HTML源代码中的词编码到低维稠密空间形成对应的向量,再将 所述对应的向量输入所述Transformer;
计算所述HTML源代码对应的网页快照图片属于各个标签的概率作为输 出。
在具体的实施例中,所述S3具体包括:
将所述标签未知的网页快照数据中的HTML源代码输入所述BERT模型;
同时将所述标签未知的网页快照数据中的HTML源代码对应的网页快照 图片输入所述CNN模型;
基于所述神经网络模型对所述标签未知的网页快照数据属于各个标签 的概率进行计算,将对应概率最大的那个标签作为所述标签未知的网页快照 数据所属的结果标签。
根据本发明的第二方面,提出了一种计算机可读存储介质,其上存储有 计算机程序,该计算机程序被计算机处理器执行时实施上述方法。
根据本发明的第三方面,提出一种基于HTML源代码和网页快照的Web 信息抽取系统,该系统包括:
网页快照训练数据标注模块:配置用于收集包括网页快照训练数据和 HTML源代码训练数据在内的网页抽取训练数据,在所述网页快照训练数据中 标注表征所述网页快照训练数据的类别的标签,得到标注后的网页快照训练 数据;
混合CNN和BERT的神经网络模型训练模块:配置用于将所述标注后的 网页快照训练数据和HTML源代码训练数据分别输入混合CNN和BERT的神经 网络架构进行模型训练,获取用于抽取网页信息的神经网络模型;
网页快照数据标签识别模块:配置用于基于所述神经网络模型对网络上 的标签未知的网页快照数据进行抽取输出所述标签未知的网页快照数据对 应的标签。
本发明通过收集包括网页快照训练数据和HTML源代码训练数据在内的 网页抽取训练数据,在所述网页快照训练数据中标注表征所述网页快照训练 数据的类别的标签,得到标注后的网页快照训练数据;将所述标注后的网页 快照训练数据和HTML源代码训练数据分别输入混合CNN和BERT的神经网络 架构进行模型训练,获取用于抽取网页信息的神经网络模型;最后基于所述 神经网络模型对网络上的标签未知的网页快照数据进行抽取输出所述标签 未知的网页快照数据对应的标签。通过搜集足够数量的网页极其快照,选择具有多样性布局和内容的网页,提高了后续生成的模型的泛化能力,模型训 练阶段采用了混合CNN和BERT的神经网络架构,将网页快照部分和HTML源 代码部分分别输入CNN和BERT,充分利用了文本和网页快照的信息,提升了 Web信息抽取的精度。
附图说明
包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并 且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发 明的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引 用以下详细描述,它们变得被更好地理解。通过阅读参照以下附图所作的对 非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得 更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是本发明的一个实施例的一种基于HTML源代码和网页快照的Web 信息抽取方法的流程图;
图3是本发明的一个实施例的一种基于HTML源代码和网页快照的Web 信息抽取系统的框架图;
图4是适于用来实现本申请实施例的电子设备的计算机系统的结构示意 图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是, 此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另 外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特 征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请实施例的一种基于HTML源代码和网页快照 的Web信息抽取方法的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104 和服务器105。网络104用以在终端设备101、102、103和服务器105之间 提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通 信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互, 以接收或发送消息等。终端设备101、102、103上可以安装有各种应用,例 如数据处理类应用、数据可视化类应用、网页浏览器应用等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、 102、103为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电 脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软 件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件 模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软 件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、 103上展示的HTML源代码提供支持的后台信息处理服务器。后台信息处理服 务器可以对获取的网页快照数据进行处理,并生成处理结果(例如对应的标 签)。
需要说明的是,本申请实施例所提供的方法可以由服务器105执行,也 可以由终端设备101、102、103执行,相应的装置一般设置于服务器105中, 也可以设置于终端设备101、102、103中。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时, 可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。 当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式 服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具 体限定。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。 根据实现需要,可以具有任意数目的终端设备、网络和服务器。
根据本发明的一个实施例的一种基于HTML源代码和网页快照的Web信 息抽取方法,图2示出了根据本发明的实施例的一种基于HTML源代码和网 页快照的Web信息抽取方法的流程图。如图2所示,该方法包括以下步骤:
S201:收集包括网页快照训练数据和HTML源代码训练数据在内的网页 抽取训练数据,在所述网页快照训练数据中标注表征所述网页快照训练数据 的类别的标签,得到标注后的网页快照训练数据。
在具体的实施例中,所述标签根据所述收集网页快照训练数据的具体的 网站类型和应用需求进行定义,且所述标签包括:时间、标题和正文。
在具体的实施例中,所述标注后的网页快照训练数据包括HTML源代码、 所述HTML源代码对应的网页快照图片和对应的标签。
在具体的实施例中,所述HTML源代码中的词被对应类型的所述标签所 标注,用于表征所述HTML源代码中的词所属的类别。
在具体的实施例中,所述HTML源代码对应的网页快照图片被对应类型 的所述标签所标注,用于表征所述HTML源代码对应的网页快照图片所属的 类别。
在具体的实施例中,所述网页快照图片利用所述网页快照图片的左上角 坐标和右下角坐标拼接成向量来标识。
S202:将所述标注后的网页快照训练数据和HTML源代码训练数据分别 输入混合CNN和BERT的神经网络架构进行模型训练,获取用于抽取网页信 息的神经网络模型。
在具体的实施例中,所述S202具体包括:
将所述HTML源代码对应的网页快照图片输入CNN模型中得到网页快照 输出,并将所述HTML源代码输入BERT模型中得到所述HTML源代码中的词 对应的各个标签的概率;
将所述网页快照输出和所述HTML源代码中的词对应的各个标签的概率 同时输入一个三层的全连接层,再通过一个softmax层进行分类获得用于抽 取网页信息的神经网络模型。
在具体的实施例中,所述CNN模型具体包括:
第一个阶段:包含2个卷积层,最后再加一个池化操作;
第二个阶段;包含2个卷积层,最后再加一个池化操作;
第三个阶段:包含3个卷积层,最后再加一个池化操作;
第四个阶段:包含3个卷积层,最后再加一个池化操作;
第五个阶段:包含3个卷积层,最后再加一个池化操作;
第六个阶段:包含3个全连接层,最后再加一个softmax分类。
在具体的实施例中,将所述HTML源代码输入BERT模型中得到所述HTML 源代码中的词对应的各个标签的概率,具体步骤包括:
在所述BERT模型中由若干个编码器和解码器堆叠而构成Transforme r;
将所述HTML源代码中的词编码到低维稠密空间形成对应的向量,再将 所述对应的向量输入所述Transformer;
计算所述HTML源代码对应的网页快照图片属于各个标签的概率作为输 出。
S203:基于所述神经网络模型对网络上的标签未知的网页快照数据进行 抽取输出所述标签未知的网页快照数据对应的标签。
在具体的实施例中,所述S203具体包括:
将所述标签未知的网页快照数据中的HTML源代码输入所述BERT模型;
同时将所述标签未知的网页快照数据中的HTML源代码对应的网页快照 图片输入所述CNN模型;
基于所述神经网络模型对所述标签未知的网页快照数据属于各个标签 的概率进行计算,将对应概率最大的那个标签作为所述标签未知的网页快照 数据所属的结果标签。
图3示出了本发明的一个实施例的一种基于HTML源代码和网页快照的 Web信息抽取系统的框架图。该系统包括网页快照训练数据标注模块301、 混合CNN和BERT的神经网络模型训练模块302和网页快照数据标签识别模 块303。
在具体的实施例中,网页快照训练数据标注模块301被配置用于收集包 括网页快照训练数据和HTML源代码训练数据在内的网页抽取训练数据,在 所述网页快照训练数据中标注表征所述网页快照训练数据的类别的标签,得 到标注后的网页快照训练数据;混合CNN和BERT的神经网络模型训练模块 302被配置用于将所述标注后的网页快照训练数据和HTML源代码训练数据 分别输入混合CNN和BERT的神经网络架构进行模型训练,获取用于抽取网 页信息的神经网络模型;网页快照数据标签识别模块303被配置用于基于所 述神经网络模型对网络上的标签未知的网页快照数据进行抽取输出所述标 签未知的网页快照数据对应的标签。本系统通过搜集足够数量的网页极其快 照,选择具有多样性布局和内容的网页,提高了后续生成的模型的泛化能力, 模型训练阶段采用了混合CNN和BERT的神经网络架构,将网页快照部分和 HTML源代码部分分别输入CNN和BERT,充分利用了文本和网页快照的信息, 提升了Web信息抽取的精度。
下面参考图4,其示出了适于用来实现本申请实施例的电子设备的计算 机系统400的结构示意图。图4示出的电子设备仅仅是一个示例,不应对本 申请实施例的功能和使用范围带来任何限制。
如图4所示,计算机系统400包括中央处理单元(CPU)401,其可以根 据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访 问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403 中,还存储有系统400操作所需的各种程序和数据。CPU 401、ROM 402以及 RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线 404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包 括诸如液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存 储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分 409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根 据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、 半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计 算机程序根据需要被安装入存储部分408。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现 为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包 括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行 流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过 通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在 该计算机程序被中央处理单元(CPU)401执行时,执行本申请的方法中限定 的上述功能。需要说明的是,本申请所述的计算机可读存储介质可以是计算 机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算 机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、 或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质 的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式 计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可 编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算 机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令 执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可 读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中 承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包 括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号 介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算 机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器 件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可 以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或 者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操 作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸 如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C” 语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部 分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机 上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉 及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域 网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机 (例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和 计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或 框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、 程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行 指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以 以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可 以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能 而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程 图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统 来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可 以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,并且这些 单元的名称在某种情况下并不构成对该单元本身的限定。
本发明的实施例还涉及一种计算机可读存储介质,其上存储有计算机程 序,该计算机程序被计算机处理器执行时实施上文中的方法。该计算机程序 包含用于执行流程图所示的方法的程序代码。需要说明的是,本申请的计算 机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两 者的任意组合。
本发明通过收集包括网页快照训练数据和HTML源代码训练数据在内的 网页抽取训练数据,在所述网页快照训练数据中标注表征所述网页快照训练 数据的类别的标签,得到标注后的网页快照训练数据;将所述标注后的网页 快照训练数据和HTML源代码训练数据分别输入混合CNN和BERT的神经网络 架构进行模型训练,获取用于抽取网页信息的神经网络模型;最后基于所述 神经网络模型对网络上的标签未知的网页快照数据进行抽取输出所述标签 未知的网页快照数据对应的标签。通过搜集足够数量的网页极其快照,选择具有多样性布局和内容的网页,提高了后续生成的模型的泛化能力,模型训 练阶段采用了混合CNN和BERT的神经网络架构,将网页快照部分和HTML源 代码部分分别输入CNN和BERT,充分利用了文本和网页快照的信息,提升了 Web信息抽取的精度。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领 域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征 的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下, 由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上 述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替 换而形成的技术方案。

Claims (12)

1.一种基于HTML源代码和网页快照的Web信息抽取方法,其特征在于,包括以下步骤:
S1:收集包括网页快照训练数据和HTML源代码训练数据在内的网页抽取训练数据,在所述网页快照训练数据中标注表征所述网页快照训练数据的类别的标签,得到标注后的网页快照训练数据;
S2:将所述标注后的网页快照训练数据和HTML源代码训练数据分别输入混合CNN和BERT的神经网络架构进行模型训练,获取用于抽取网页信息的神经网络模型;
S3:基于所述神经网络模型对网络上的标签未知的网页快照数据进行抽取输出所述标签未知的网页快照数据对应的标签。
2.根据权利要求1所述的方法,其特征在于,所述标签根据所述收集网页快照训练数据的具体的网站类型和应用需求进行定义,且所述标签包括:时间、标题和正文。
3.根据权利要求1所述的方法,其特征在于,所述标注后的网页快照训练数据包括HTML源代码、所述HTML源代码对应的网页快照图片和对应的标签。
4.根据权利要求3所述的方法,其特征在于,所述HTML源代码中的词被对应类型的所述标签所标注,用于表征所述HTML源代码中的词所属的类别。
5.根据权利要求3所述的方法,其特征在于,所述HTML源代码对应的网页快照图片被对应类型的所述标签所标注,用于表征所述HTML源代码对应的网页快照图片所属的类别。
6.根据权利要求3所述的方法,其特征在于,所述网页快照图片利用所述网页快照图片的左上角坐标和右下角坐标拼接成向量来标识。
7.根据权利要求3所述的方法,其特征在于,所述S2具体包括:
将所述HTML源代码对应的网页快照图片输入CNN模型中得到网页快照输出,并将所述HTML源代码输入BERT模型中得到所述HTML源代码中的词对应的各个标签的概率;
将所述网页快照输出和所述HTML源代码中的词对应的各个标签的概率同时输入一个三层的全连接层,再通过一个softmax层进行分类获得用于抽取网页信息的神经网络模型。
8.根据权利要求7所述的方法,其特征在于,所述CNN模型具体包括:
第一个阶段:包含2个卷积层,最后再加一个池化操作;
第二个阶段;包含2个卷积层,最后再加一个池化操作;
第三个阶段:包含3个卷积层,最后再加一个池化操作;
第四个阶段:包含3个卷积层,最后再加一个池化操作;
第五个阶段:包含3个卷积层,最后再加一个池化操作;
第六个阶段:包含3个全连接层,最后再加一个softmax分类。
9.根据权利要求7所述的方法,其特征在于,将所述HTML源代码输入BERT模型中得到所述HTML源代码中的词对应的各个标签的概率,具体步骤包括:
在所述BERT模型中由若干个编码器和解码器堆叠而构成Transformer;
将所述HTML源代码中的词编码到低维稠密空间形成对应的向量,再将所述对应的向量输入所述Transformer;
计算所述HTML源代码对应的网页快照图片属于各个标签的概率作为输出。
10.根据权利要求7所述的方法,其特征在于,所述S3具体包括:
将所述标签未知的网页快照数据中的HTML源代码输入所述BERT模型;
同时将所述标签未知的网页快照数据中的HTML源代码对应的网页快照图片输入所述CNN模型;
基于所述神经网络模型对所述标签未知的网页快照数据属于各个标签的概率进行计算,将对应概率最大的那个标签作为所述标签未知的网页快照数据所属的结果标签。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被计算机处理器执行时实施权利要求1至10中任一项所述的方法。
12.一种基于HTML源代码和网页快照的Web信息抽取系统,其特征在于,包括:
网页快照训练数据标注模块:配置用于收集包括网页快照训练数据和HTML源代码训练数据在内的网页抽取训练数据,在所述网页快照训练数据中标注表征所述网页快照训练数据的类别的标签,得到标注后的网页快照训练数据;
混合CNN和BERT的神经网络模型训练模块:配置用于将所述标注后的网页快照训练数据和HTML源代码训练数据分别输入混合CNN和BERT的神经网络架构进行模型训练,获取用于抽取网页信息的神经网络模型;
网页快照数据标签识别模块:配置用于基于所述神经网络模型对网络上的标签未知的网页快照数据进行抽取输出所述标签未知的网页快照数据对应的标签。
CN202110322096.3A 2021-03-25 2021-03-25 一种基于HTML源代码和网页快照的Web信息抽取方法与系统 Active CN113312568B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110322096.3A CN113312568B (zh) 2021-03-25 2021-03-25 一种基于HTML源代码和网页快照的Web信息抽取方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110322096.3A CN113312568B (zh) 2021-03-25 2021-03-25 一种基于HTML源代码和网页快照的Web信息抽取方法与系统

Publications (2)

Publication Number Publication Date
CN113312568A true CN113312568A (zh) 2021-08-27
CN113312568B CN113312568B (zh) 2022-06-17

Family

ID=77372120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110322096.3A Active CN113312568B (zh) 2021-03-25 2021-03-25 一种基于HTML源代码和网页快照的Web信息抽取方法与系统

Country Status (1)

Country Link
CN (1) CN113312568B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975410A (zh) * 2023-09-22 2023-10-31 北京中关村科金技术有限公司 网页数据采集方法、装置、电子设备及可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052523A (zh) * 2017-11-03 2018-05-18 中国互联网络信息中心 基于卷积神经网络的赌博网站识别方法和系统
CN110825998A (zh) * 2019-08-09 2020-02-21 国家计算机网络与信息安全管理中心 一种网站识别方法及可读存储介质
CN111177376A (zh) * 2019-12-17 2020-05-19 东华大学 一种基于bert与cnn层级连接的中文文本分类方法
CN111563551A (zh) * 2020-04-30 2020-08-21 支付宝(杭州)信息技术有限公司 一种多模态信息融合方法、装置及电子设备
CN111581476A (zh) * 2020-04-28 2020-08-25 深圳合纵数据科技有限公司 基于bert跟lstm的一种智能化网页信息抽取方法
US20200372116A1 (en) * 2019-05-21 2020-11-26 Salesforce.Com, Inc. Weakly Supervised Natural Language Localization Networks
CN112347244A (zh) * 2019-08-08 2021-02-09 四川大学 基于混合特征分析的涉黄、涉赌网站检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052523A (zh) * 2017-11-03 2018-05-18 中国互联网络信息中心 基于卷积神经网络的赌博网站识别方法和系统
US20200372116A1 (en) * 2019-05-21 2020-11-26 Salesforce.Com, Inc. Weakly Supervised Natural Language Localization Networks
CN112347244A (zh) * 2019-08-08 2021-02-09 四川大学 基于混合特征分析的涉黄、涉赌网站检测方法
CN110825998A (zh) * 2019-08-09 2020-02-21 国家计算机网络与信息安全管理中心 一种网站识别方法及可读存储介质
CN111177376A (zh) * 2019-12-17 2020-05-19 东华大学 一种基于bert与cnn层级连接的中文文本分类方法
CN111581476A (zh) * 2020-04-28 2020-08-25 深圳合纵数据科技有限公司 基于bert跟lstm的一种智能化网页信息抽取方法
CN111563551A (zh) * 2020-04-30 2020-08-21 支付宝(杭州)信息技术有限公司 一种多模态信息融合方法、装置及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975410A (zh) * 2023-09-22 2023-10-31 北京中关村科金技术有限公司 网页数据采集方法、装置、电子设备及可读存储介质
CN116975410B (zh) * 2023-09-22 2023-12-19 北京中关村科金技术有限公司 网页数据采集方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN113312568B (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
CN111274760B (zh) 富文本数据处理方法、装置、电子设备及计算机存储介质
US20150227276A1 (en) Method and system for providing an interactive user guide on a webpage
CN113158101B (zh) 一种可视化页面渲染方法、装置、设备及存储介质
CN105426508A (zh) 网页生成方法和装置
CN109325197B (zh) 用于提取信息的方法和装置
CN110309457B (zh) 网页数据处理方法、装置、计算机设备和存储介质
CN112650905A (zh) 基于标签的反爬虫方法、装置、计算机设备及存储介质
CN113052262A (zh) 表单生成方法、装置、计算机设备及存储介质
CN107590288B (zh) 用于抽取网页图文块的方法和装置
CN116644213A (zh) Xml文件读取方法、装置、设备及存储介质
CN113312568B (zh) 一种基于HTML源代码和网页快照的Web信息抽取方法与系统
CN108664511B (zh) 获取网页信息方法和装置
CN116774973A (zh) 数据渲染方法、装置、计算机设备及存储介质
CN113220381A (zh) 一种点击数据展示方法和装置
CN107423271B (zh) 文档生成方法和装置
CN116453125A (zh) 基于人工智能的数据录入方法、装置、设备及存储介质
CN115730603A (zh) 基于人工智能的信息提取方法、装置、设备及存储介质
US10910014B2 (en) Method and apparatus for generating video
CN114222317A (zh) 数据处理方法及装置、电子设备和存储介质
CN113076254A (zh) 一种测试用例集的生成方法和装置
CN113239670A (zh) 一种业务模板上传的方法、装置、计算机设备及存储介质
CN112579080A (zh) 一种生成用户界面代码的方法和装置
CN110796137A (zh) 一种识别图像的方法和装置
CN112860259B (zh) 界面处理方法、装置、电子设备、存储介质
CN111061971B (zh) 用于抽取信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 361000 unit 102, No. 59, erhaihai Road, software park, Siming District, Xiamen City, Fujian Province

Patentee after: ROPT TECHNOLOGY GROUP Co.,Ltd.

Country or region after: China

Patentee after: ROPT (Xiamen) Big Data Group Co.,Ltd.

Address before: 361000 unit 102, No. 59, erhaihai Road, software park, Siming District, Xiamen City, Fujian Province

Patentee before: ROPT TECHNOLOGY GROUP Co.,Ltd.

Country or region before: China

Patentee before: Lop (Xiamen) system integration Co.,Ltd.