CN115023710B - 用于从Web文档的结构化数据提取的可转移神经架构 - Google Patents
用于从Web文档的结构化数据提取的可转移神经架构 Download PDFInfo
- Publication number
- CN115023710B CN115023710B CN202080095203.7A CN202080095203A CN115023710B CN 115023710 B CN115023710 B CN 115023710B CN 202080095203 A CN202080095203 A CN 202080095203A CN 115023710 B CN115023710 B CN 115023710B
- Authority
- CN
- China
- Prior art keywords
- node
- nodes
- sequence
- generating
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001537 neural effect Effects 0.000 title description 3
- 238000013075 data extraction Methods 0.000 title description 2
- 238000000034 method Methods 0.000 claims abstract description 72
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000013528 artificial neural network Methods 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims description 202
- 230000015654 memory Effects 0.000 claims description 24
- 238000013527 convolutional neural network Methods 0.000 claims description 15
- 239000002131 composite material Substances 0.000 claims description 13
- 239000003550 marker Substances 0.000 claims description 8
- 230000006403 short-term memory Effects 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 238000009877 rendering Methods 0.000 description 5
- 238000013515 script Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000010410 layer Substances 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241001632422 Radiola linoides Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- HDKLIZDXVUCLHQ-UHFFFAOYSA-N non-3-en-2-one Chemical compound CCCCCC=CC(C)=O HDKLIZDXVUCLHQ-UHFFFAOYSA-N 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
提供了用于从web文档中有效地识别和提取机器可动作的结构化数据的系统和方法。该技术采用神经网络架构,其处理一组种子网站的原始HTML内容以创建关于感兴趣信息的可转移模型。然后能够将这些模型应用于其他网站的原始HTML以识别感兴趣的类似信息。因此,能够以允许处理系统进一步使用的功能、结构化形式跨多个网站提取数据。
Description
背景技术
自从互联网出现以来,存在对于收集、组织和呈现来自多个网站的信息使得用户能够可以有效且高效地找到他们正在寻找的内容的系统和方法的需要。这能够在搜索引擎和算法的持续发展中看到,搜索引擎和算法允许用户识别和访问包含感兴趣信息的网站。此外,随着基于人工智能的推荐系统和自动化数字助理的引入,在没有个人访问源网站的情况下获得信息已经变得可能。随着互联网上可用的信息量持续增长,计算系统有效地解析和编目相关信息变得越来越困难。
发明内容
本技术涉及用于从web文档有效地提取机器可动作的结构化数据的系统和方法。使用各种神经网络架构,该技术能够利用较小集合的种子网站的原始超文本标记语言(“HTML”)内容来创建关于感兴趣信息的可转移模型。然后这些模型能够被应用于其他网站的原始HTML,以在没有进一步的人类输入的情况下识别类似的感兴趣信息,并将其提取为结构化数据以供系统和/或其他系统进一步使用。因此,与依赖于视觉渲染的系统和方法相比,该技术的计算成本更低,并且能够提供针对感兴趣信息定制的改进结果。另外,与需要为每个领域构建特定提取程序的其他基于文本的方法不同,本技术通过生成能够跨多个领域使用的模型来提供增强的技术益处,以使得能够以能够由另外的系统使用的功能形式提取机器可动作的结构化数据。
在一个方面,本公开描述了一种提取机器可动作数据的计算机实现的方法。所述方法包括:由处理系统的一个或多个处理器为第一网站的第一页面生成文档对象模型树,其中,文档对象模型树包括多个节点,并且多个节点中的每个节点包括XML路径(“XPath”)和内容;由一个或多个处理器识别多个节点中的第一节点,其中,第一节点的内容包括字词的第一序列,并且第一序列中的每个字词包括一个或多个字符;由一个或多个处理器识别多个节点中的第二节点,其中,第二节点的内容包括字词的第二序列,第二序列中的每个字词包括一个或多个字符,并且第二序列在第一页面上在第一序列之前;由一个或多个处理器生成与第一序列和第二序列的每个字词相对应的字词级向量;由一个或多个处理器生成与第一序列和第二序列的每个词相对应的字符级字词向量;由一个或多个处理器基于与第一序列相对应的字词级向量和字符级字词向量来生成序列级向量;由一个或多个处理器基于与第二序列相对应的字词级向量和字符级字词向量来生成序列级向量;由一个或多个处理器生成与第一节点的内容中的一个或多个预定义特征相对应的离散特征向量;由一个或多个处理器将与第一序列对应的序列级向量、与第二序列对应的序列级向量和离散特征向量级联,以获得第一节点的综合向量;由一个或多个处理器基于第一节点的综合向量生成第一节点的节点标记;以及由一个或多个处理器从第一节点提取结构化数据,其中,所述结构化数据将第一节点的内容与第一节点的节点标记相关联。在一些方面中,生成与第一序列和第二序列中的每个词相对应的字符级字词向量包括:对于第一序列中的每个字词,使用卷积神经网络对与一个或多个字符中的每一个相对应的字符向量进行编码,并且对于第二序列中的每个字词,使用卷积神经网络对与一个或多个字符中的每一个相对应的字符向量进行编码。在一些方面,基于与第一序列相对应的字词级向量和字符级字词向量来生成序列级向量包括使用双向长短期记忆神经网络对第一序列的每个字词的字符级字词向量和字词级向量进行编码。在一些方面,基于与第二序列相对应的字词级向量和字符级字词向量来生成序列级向量包括使用双向长短期记忆神经网络对第二序列的每个字词的字符级字词向量和字词级向量进行编码。在一些方面,基于第一节点的综合向量生成第一节点的节点标记包括使用多层感知神经网络对第一节点的综合向量进行编码以获得第一节点的分类。在一些方面,第一节点的节点标记对应于多个感兴趣字段中的一个。该方法还可以包括:由一个或多个处理器为第一网站的第二页面生成第二文档对象模型树,其中,第二文档对象模型树包括第二多个节点,并且第二多个节点中的每个节点包括XPath和内容;以及由一个或多个处理器从第二多个节点提取结构化数据的第二集合,其中,结构化数据的第二集合将第二多个节点中的每个节点的内容与第二多个节点中的每个节点的节点标记相关联。此外,该方法还可以包括:由一个或多个处理器为第二网站的页面生成第三文档对象模型树,其中,第三文档对象模型树包括第三多个节点,并且第三多个节点中的每个节点包括XPath和内容;以及由一个或多个处理器从第三多个节点提取结构化数据的第三集合,其中,结构化数据的第三集合将第三多个节点中的每个节点的内容与第三多个节点中的每个节点的节点标记相关联。
在另一方面,本公开描述了一种提取数据的计算机实现的方法,包括:由处理系统的一个或多个处理器为第一网站的第一页面生成文档对象模型树,其中,文档对象模型树包括第一多个节点,并且第一多个节点中的每个节点包括XML路径(“XPath”)和内容;由一个或多个处理器为第一多个节点中的每个节点生成关于所述节点是否与多个感兴趣字段中的一个相关的预测;由一个或多个处理器从第一多个节点生成多个节点对,其中,多个节点对中的每个节点对包括头节点和尾节点;由一个或多个处理器生成与每个头节点和每个尾节点相对应的综合向量;由一个或多个处理器生成与每个头节点和每个尾节点相对应的XPath向量;由一个或多个处理器至少部分地基于每个头节点和每个尾节点相对于第一多个节点中的至少一个其他节点的位置来生成与每个头节点和每个尾节点相对应的位置向量;对于每个节点对,由一个或多个处理器将与节点对的头节点和尾节点相对应的综合向量、位置向量和XPath向量级联,以获得对级向量;由一个或多个处理器基于节点对的对级向量为每个节点对生成对标记;由一个或多个处理器基于节点对的对标记或头节点的预测,为每个节点对的头节点生成节点标记;由一个或多个处理器基于节点对的对标记或尾节点的预测,为每个节点对的尾节点生成节点标记;以及由一个或多个处理器从第一多个节点中的一个或多个节点提取结构化数据,其中,所述结构化数据将所述一个或多个节点中的每一个的内容与所述一个或多个节点中的每一个的节点标记相关联。在一些方面,生成与每个头节点和每个尾节点相对应的XPath向量包括使用长短期记忆神经网络对每个头节点和每个尾节点的XPath进行编码。在一些方面,生成与每个头节点和每个尾节点相对应的综合向量包括:对于每个头节点,级联与头节点中的字词序列相对应的序列级向量、与头节点之前的节点中的字词序列相对应的序列级向量、以及与头节点的内容中的一个或多个预定义特征相对应的离散特征向量;以及对于每个尾节点,级联与尾节点中的字词序列相对应的序列级向量、与尾节点之前的节点中的字词序列相对应的序列级向量、以及与尾节点的内容中的一个或多个预定义特征相对应的离散特征向量。在一些方面,基于对级向量为每个节点对生成对标记包括:使用多层感知神经网络对每个节点对的对级向量进行编码,以获得每个节点对的分类。在一些方面,节点标记与多个感兴趣字段中的一个或空标识符对应。所述方法还可以包括:由一个或多个处理器为第一网站的第二页面生成第二文档对象模型树,其中,第二文档对象模型树包括第二多个节点,并且第二多个节点中的每个节点包括XPath和内容;以及由一个或多个处理器从第二多个节点提取结构化数据的第二集合,其中,结构化数据的第二集合将第二多个节点中的每个节点的内容与第二多个节点中的每个节点的节点标记相关联。此外,所述方法还可以包括:由一个或多个处理器为第二网站的页面生成第三文档对象模型树,其中,第三文档对象模型树包括第三多个节点,并且第三多个节点中的每个节点包括XPath和内容;以及由一个或多个处理器从第三多个节点提取结构化数据的第三集合,其中,结构化数据的第三集合将第三多个节点中的每个节点的内容与第三多个节点中的每个节点的节点标记相关联。该方法还可以包括:由一个或多个处理器为第一网站的第二页面生成第二文档对象模型树,其中,第二文档对象模型树包括第二多个节点,并且第二多个节点中的每个节点包括XPath和内容;由一个或多个处理器为第二多个节点中的每个节点生成节点标记;由一个或多个处理器从第一多个节点和第二多个节点中识别节点的类,其中,所述类的节点中的每个节点的节点标记是相同的;由一个或多个处理器识别作为该类节点中的最常见XPath的第一XPath;以及由一个或多个处理器从第一多个节点和第二多个节点中的具有第一XPath的每个节点提取结构化数据的第二集合,结构化数据的第二集合将所述节点的内容与所述节点的节点标记相关联。
在另一方面,本公开描述了一种用于提取机器可动作数据的处理系统。所述处理系统包括存储器和一个或多个处理器,所述一个或多个处理器耦接到存储器并且被配置为:为第一网站的第一页面生成文档对象模型树,其中,所述文档对象模型树包括多个节点,并且多个节点中的每个节点包括XML路径(“XPath”)和内容;识别多个节点中的第一节点,其中,第一节点的内容包括字词的第一序列,并且第一序列中的每个字词包括一个或多个字符;识别多个节点中的第二节点,其中,第二节点的内容包括字词的第二序列,第二序列中的每个字词包括一个或多个字符,并且第二序列在第一页面上在第一序列之前;生成与第一序列和第二序列的每个字词相对应的字词级向量;生成与第一序列和第二序列的每个字词相对应的字符级字词向量;基于与第一序列相对应的字词级向量和字符级字词向量来生成序列级向量;基于与第二序列相对应的字词级向量和字符级字词向量来生成序列级向量;生成与第一节点的内容中的一个或多个预定义特征相对应的离散特征向量;将与第一序列对应的序列级向量、与第二序列对应的序列级向量和离散特征向量级联,以获得第一节点的综合向量;基于第一节点的综合向量生成第一节点的节点标记;以及从第一节点提取结构化数据,其中,所述结构化数据将第一节点的内容与第一节点的节点标记相关联。在一些方面,第一节点的节点标记对应于多个感兴趣字段中的一个。
在另一方面,本公开描述了一种用于提取机器可动作数据的处理系统,包括存储器和一个或多个处理器,一个或多个处理器耦接到存储器并且被配置为:为第一网站的第一页面生成文档对象模型树,其中,所述文档对象模型树包括第一多个节点,并且第一多个节点中的每个节点包括XML路径(“XPath”)和内容;为第一多个节点中的每个节点生成关于节点是否与多个感兴趣字段中的一个相关的预测;从第一多个节点生成多个节点对,其中,多个节点对中的每个节点对包括头节点和尾节点;生成与每个头节点和每个尾节点相对应的综合向量;生成与每个头节点和每个尾节点相对应的XPath向量;至少部分地基于每个头节点和每个尾节点相对于第一多个节点中的至少一个其他节点的位置来生成与每个头节点和每个尾节点相对应的位置向量;对于每个节点对,级联与节点对的头节点和尾节点相对应的综合向量、位置向量和XPath向量,以获得对级向量;基于节点对的对级向量为每个节点对生成对标记;基于节点对的对标记或头节点的预测,为每个节点对的头节点生成节点标记;基于节点对的对标记或尾节点的预测,为每个节点对的尾节点生成节点标记;以及从第一多个节点中的一个或多个节点提取结构化数据,其中,所述结构化数据将所述一个或多个节点中的每一个的内容与所述一个或多个节点中的每一个的节点标记相关联。在一些方面,节点标记对应于多个感兴趣字段中的一个或空值。
附图说明
图1是根据本公开的各方面的示例系统的功能图。
图2是示出可以如何将HTML的一部分表示为DOM树的示图。
图3是根据本公开的各方面的示例性方法的流程图。
图4是根据本公开的各方面的示例性方法的流程图。
图5是根据本公开的各方面的示例性方法的流程图。
图6是示出了根据本公开内容的各方面,可以如何处理示例性短语的示图。
图7是根据本公开的各方面的示例性方法的流程图。
图8是根据本公开内容的各方面的示例性方法的流程图。
图9是根据本公开内容的各方面的示例性方法的流程图。
图10是根据本公开内容的各方面的示例性方法的流程图。
图11是根据本公开内容的各方面的示例性方法的流程图。
图12是根据本公开内容的各方面的示例性方法的流程图。
图13是根据本公开内容的各方面的示例性方法的流程图。
具体实施方式
现在将关于以下示例性系统和方法来描述本技术。
示例系统
图1示意性地示出了具有用于执行本文描述的方法的示例性处理系统102的布置100。处理系统102包括一个或多个处理器104以及存储指令和数据的存储器106。另外,一个或多个处理器104可以包括本文描述的各种模块,并且指令和数据可以包括本文描述的各种神经网络。处理系统102被示出为通过一个或多个网络108与各种网站(包括网站110和118)通信。示例性网站110和118均分别包括一个或多个服务器112a-112n和120a-n。服务器112a-112n和120a-n中的每一个可以具有一个或多个处理器(例如,114和122)以及存储指令和数据(包括一个或多个网页的HTML)的相关联的存储器(例如,116和124)。然而,各种其他拓扑也是可能的。例如,处理系统102可以不与网站直接通信,并且可以替代地处理要处理的网站的HTML的存储版本。
处理系统102可以在不同类型的计算设备(诸如任何类型的通用计算设备、服务器或其集合)上实现,并且还可以包括通常存在于通用计算设备或服务器中的其他组件。存储器106存储可由一个或多个处理器104访问的信息,包括可由处理器104执行或以其他方式使用的指令和数据。存储器可以是能够存储可由处理器104访问的信息的任何非暂时性类型。例如,存储器可以包括非暂时性介质,诸如硬盘驱动器、存储卡、光盘、固态存储器、磁带存储器等。适合于本文描述的角色的计算设备可以包括前述的不同组合,由此指令和数据的不同部分存储在不同类型的介质上。
在所有情况下,本文描述的计算设备还可以包括通常与诸如用户接口子系统的计算设备结合使用的任何其他组件。用户接口子系统可以包括一个或多个用户输入(例如,鼠标、键盘、触摸屏和/或麦克风)和一个或多个电子显示器(例如,具有屏幕的监视器或可操作以显示信息的任何其他电气设备)。除了电子显示器之外的输出设备(诸如扬声器、灯以及振动、脉冲或触觉元件)也可以包括在本文描述的计算设备中。
包括在每个计算设备中的一个或多个处理器可以是任何常规处理器,诸如市售的中央处理单元(“CPU”)、张量处理单元(“TPU”)等。或者,一个或多个处理器可以是专用设备,诸如ASIC或其他基于硬件的处理器。每个处理器可以具有能够并行操作的多个核心。单个计算设备的处理器、存储器和其他元件可以存储在单个物理外壳内,或者可以分布在两个或更多个外壳之间。类似地,计算设备的存储器可以包括位于与处理器的外壳不同的外壳中(诸如在外部数据库或联网存储设备中)的硬盘驱动器或其他存储介质。因此,对处理器或计算设备的引用将被理解为包括对可以并行操作或可以不并行操作的处理器或计算设备或存储器的集合以及负载平衡服务器群或基于云的系统的一个或多个服务器的引用。
本文描述的计算设备可以存储能够由处理器直接执行(诸如机器代码)或间接执行(诸如脚本)的指令。计算设备还可以存储数据,该数据可以由一个或多个处理器根据指令来检索、存储或修改。指令可以作为计算设备代码存储在计算设备可读介质上。在这方面,术语“指令”和“程序”在本文中可以互换使用。指令还可以以目标代码格式存储以供处理器直接处理,或者以任何其他计算设备语言存储,包括按需解释或预先编译的独立源代码模块的脚本或集合。作为示例,编程语言可以是C#、C++、JAVA或另一种计算机编程语言。类似地,指令或程序的任何组件可以以计算机脚本语言实现,诸如JavaScript、PHP、ASP或任何其他计算机脚本语言。此外,可以使用计算机编程语言和计算机脚本语言的组合来实现这些组件中的任何一个。
示例方法
除了上述和附图中所示的系统之外,现在将描述各种操作。在这方面,存在处理系统102可以被配置为从网站提取结构化数据的多种方式。例如,处理系统102可以被配置为针对要从其提取数据的每个网站使用站点特定提取程序或“包装器”。然而,站点特定方法通常要求人类分析站点并创建要由提取程序使用的包装器,或者要求网站的页面被足够好地注释,使得提取程序能够在没有人类输入的情况下准确地识别预选的感兴趣字段。在任一种情况下,为一个站点创建的包装器将不能转移到不同的站点。感兴趣字段可以是被选择用于提取的任何类别的信息。例如,对于与汽车有关的网站,感兴趣字段可以包括型号名称、车辆类型、汽油里程、发动机尺寸、发动机功率、发动机扭矩等。
在其他情况下,能够在一组渲染的网页上训练神经网络,以使用各种视觉提示来识别感兴趣信息。然而,虽然视觉渲染方法能够生成允许从其他网站识别和提取感兴趣字段的模型,但是它们需要利用领域特定知识进行仔细的特征工程以便生成模型,并且由于渲染而在计算上是昂贵的。
鉴于这些缺点,本技术提供了神经网络架构,其能够使用种子网站集合的文本来创建可转移的提取模型,而具有最少人类输入或没有人类输入,并且不需要渲染。然后,这些提取模型能够被用于识别和提取附加网站的文本中的感兴趣信息,而不需要任何网页渲染。
在这方面,在根据本技术的各方面的示例性方法中,处理系统首先将节点级模块应用于所选择的种子网站的集合。可以基于各种属性来选择种子网站。例如,一些网站将已经包括标识各种感兴趣字段的注释。在这方面,在示例性汽车网站上,每个车辆的页面可以具有表格,该表格具有标注“型号”并随后列出型号名称的行、标注“引擎”并随后列出引擎大小的行、标注“汽油里程”并随后列出汽油里程等的行。具有与预选的感兴趣字段相关的一个或多个注释的站点作为种子网站可能是有帮助的,因为它们可以允许神经网络生成能够更准确地识别具有较少注释的其他网站中的感兴趣字段的模型。节点级模块将每个种子网站的每个页面的原始HTML解析为文档对象模型(“DOM”)树。这将每个页面转换为树结构,其中,每个分支在节点结束,并且每个节点包括XML路径(“XPath”)及其相关联的HTML内容。例如,图2的图示200示出可以如何将HTML 202的一部分表示为DOM树204。虽然DOM树204的节点在图2中被示出为空圆圈,但是实际上它们将包括与每个节点相关联的HTML内容。
节点级模块接下来识别包含文本的所有节点,并且过滤所有这样的文本节点的列表以移除不太可能传达感兴趣信息的那些节点。这能够例如通过收集给定网站中的文本节点的所有可能的XPath(节点标识符),按照与每个XPath相关联的不同文本值的数量对XPath进行排名,并且将具有两个或更多个不同值的那些的一些子集识别为感兴趣节点来完成。图3包括示出该示例性过滤方法的流程图300。在这方面,在步骤302处,节点级模块将网页的原始HTML解析为DOM树。在步骤304处,节点级模块识别DOM树中包含文本的所有节点。在步骤306处,节点级模块识别与DOM树的文本节点相关联的所有XPath。在步骤308处,节点级模块根据有多少不同的文本值与每个这样的XPath相关联来对所有XPath进行排名。在步骤310中,节点级模块将具有两个或更多个不同文本值的前N个XPath识别为“感兴趣节点”。因此,在一些示例中,节点级模块可以按照与XPath相关联的不同值的数量对XPath进行排名,并且选择具有至少两个不同值的前500个XPath(或更多或更少)。以这种方式过滤将移除跨多个页面具有共同值的大多数节点,并且因此更可能表示该网站中的页面的通用文本,诸如网站的名称、导航文本、页眉、页脚、版权信息等。
节点级模块接下来使用每个节点的文本、每个节点之前的文本以及一个或多个离散特征(例如,原始HTML中可能有助于识别感兴趣字段的内容)对过滤的文本节点集合(“感兴趣节点”)进行编码。如下面将关于图4-9进一步详细描述的,这些编码过程中的每一个利用不同的神经网络。
在这方面,如图4的方法400的步骤402所示,当基于每个节点的文本进行编码时,节点级模块将每个节点的文本分解成由{w1,w2,...,w|n|}组成的字词序列W。字词序列{w1,w2,...,w|n|}可以是节点的原始文本,或者可以是对原始文本进行词汇分析的结果,例如通过使用自然语言工具包(“NLTK”)对原始文本进行标记化和词法化。因此,对于每个节点,每个字词wi能够根据下面的等式1被表示为W的元素。如本文所使用的,“字词”不需要由字母组成,并且因此能够包括由数字和/或符号组成的文本,例如“$1,000”。
wi∈W (1)
如步骤404所示,节点级模块还将每个字词wi分解成由{c1,c2,...,c|w|}i组成的字符序列C。因此,对于节点的给定字词wi,每个字符cj能够根据等式2被表示为C的元素。
cj∈C (2)
如步骤406所示,字符嵌入查找表Ec也被初始化。步骤406可以在步骤402和/或404之前进行。字符嵌入查找表Ec根据等式3定义,其中,dimc是表示字符嵌入向量的维度的超参数,并且是表示所有实数的符号。因此,字符嵌入查找表Ec是形状为|C|x dimc的矩阵,并且矩阵中的每个元素是实数。Ec的字符嵌入向量被随机初始化,然后在模型训练期间通过后向传播进行更新。字符嵌入向量的维度可以是任何合适的数字,诸如100(或更多或更少)。
如步骤408所示,对于每个字词wi,使用字符嵌入查找表Ec为每个字符cj生成字符嵌入向量。接下来,在步骤410中,卷积神经网络(“CNN”)用于对每个字词wi的字符嵌入向量的整个序列进行编码,然后将它们池化以创建与字词wi相对应的字符级字词向量ci。因此,字符级字词向量ci能够根据下面的等式4来表示。这些步骤也在图6中图示地表示,其中,示例性短语“city25hwy 32”被处理以创建每个词602a-602d的单独的字符嵌入向量。然后,每个字词的每个字符嵌入向量集合被馈送到CNN 606中并被池化以创建对应的字符级字词向量608a-608d。CNN可以用任何合适的参数来实现。例如,CNN可以采用3(或更大或更小)的核大小、50(或更大或更小)的滤波器大小,并且可以应用最大池化以从所得矩阵的每一行选择最大值且因此将每一行减小到单个值。
ci=CNN({c1,c2,…,c|w|}) (4)
另外,如步骤412所示,还为每个词wi初始化字词级向量查找表Ew。这里,步骤412也可以在步骤402-410中的任何一个或全部之前发生。字词级向量查找表Ew根据下面的等式5来定义,其中,dimw是表示字词级向量的维度的超参数。Ew中的字词级向量可以从各种已知算法生成,诸如斯坦福手套(Stanford’s GloVe)。因此,字词级向量查找表Ew是形状为|W|xdimw的矩阵,并且矩阵中的每个元素是实数。字符嵌入向量的维度可以是任何合适的数字,诸如100(或更多或更少)。
如步骤414所示,使用字词级向量查找表Ew生成每个字词wi的字词级向量wi。然后,如步骤416所示,对于每个字词wi,将字词级向量wi与由CNN创建的字符级字词向量ci级联,以为每个节点中的每个字词wi创建级联的字词向量ti。这在下面的等式6中示出,其中,[·⊙·]表示级联操作。这些步骤也在图6中图示地表示,其中,短语“city 25hwy 32”的每个字词604a-604d被处理以创建对应的字词级向量610a-610d。然后,那些字词级向量610a-610d与相关联的字符级字词向量608a-608d被级联以形成级联的字词向量612a-612d。
ti=[wi⊙ci] (6)
作为上述的结果,对于给定节点中的所有字词W的集合,将存在由{t1,t2,…,t|n|}组成的级联字词向量的集合。接下来,如图5和图6所示,长短期记忆(“LSTM”)神经网络用于对该级联字词向量的集合从前向和后向二者进行上下文编码。换句话说,LSTM网络将对集合{t1,t2,…,t|n|}以及逆集合{t|n|,t|n|-1,…,t1}进行编码。这些过程分别在图5中的流程500的步骤502和504中描述。前向和后向LSTM编码步骤也分别由图6的虚线614和616图形地示出。因为LSTM网络在两个方向上对集合进行编码,所以它也能够被称为双向长短期记忆神经网络。虽然LSTM网络在两个方向上将具有相同的结构,但是对于前向和后向编码操作,参数将是不同的。LSTM网络可以采用任何合适数量的单元,诸如100个(或更多或更少)。然后,前向和后向LSTM编码操作的结果将经历均值池化,以到达该节点的文本的最终表示nnode_text,如图5的步骤506所示。这能够如等式7所示来表示,其中,AVG[·⊙·]表示平均或均值池化操作,并且,其中,LSTMf和LSTMb分别表示前向和后向方向上的LSTM操作。这也在图6中图示地示出,其中,前向和后向LSTM编码操作的输出由虚线618和620表示,其中,那些输出的均值池化在元素622中示出,并且,其中该文本的最终向量表示在元素624中示出。
nnode_text=AVG[LSTMf({t1,t2,…,t|n|})⊙LSTMb({t|n|,t|n|-1,…,t1})] (7)
如上所述对每个节点的文本的字词和字符两者进行编码使得节点级模块能够识别跨节点共享的模式,即使在给定节点的各个字词可能未知(例如,拼写错误、缩写等)的情况下,或者在节点的文本包括数字或特殊字符的情况下。例如,在关于汽车的网站的情境中,节点可以包含诸如图6所示的“city25hwy 32”的文本,但是来自该网站的另一页面的节点可以包含用于另一汽车的类似文本,诸如“city 25hwy 28”。仅跟踪字词,节点级模块可以仅确定这些节点共享字词“city”和“hwy”,后者甚至可能不被识别为字词,因为它仅仅是缩写。但是通过如上所述组合字符级CNN和字词级LSTM操作的结果,节点级模块能够识别这些节点实际上共享“city##hwy##”的模式。重要的是,节点级模块能够在不需要人工输入的情况下这样做。
如上所述,并且分别如图7和图8的流程700和800所示,节点级模块也对每个感兴趣节点之前的文本进行编码。可以对某个固定量的先前文本执行该编码。节点级模块以与上面关于图4-6描述的相同的方式处理前面的文本,从而产生第二向量nprev_text。图4和图5的步骤不需要在图7和图8的步骤之前发生。相反,节点级模块可以在其对节点文本的处理之前、之后或同时处理先前的文本。
因此,如图7的步骤702所示,节点级模块将感兴趣节点之前的文本分解为X个字词的序列。X可以是任何数量,诸如10个字词(或更多或更少的字词)。另外,如上面关于图4的步骤402所描述的,X个字词的序列可以是在感兴趣节点之前的原始文本,或者可以是使该在前文本经历词汇分析的结果,诸如通过使用NLTK工具包对其进行标记化和词形化。在步骤704处,节点级模块以与上面关于图4的步骤404描述的相同的方式将X个字词中的每一个分解成字符序列。在步骤706处,节点级模块以与上面关于图4的步骤406描述的相同的方式初始化字符嵌入查找表。与图4的步骤的情况一样,图7的步骤706可以在步骤702和/或704之前发生。此外,在这方面,节点级模块可以将相同的字符嵌入查找表用于图4和图7的过程,在这种情况下,步骤406和706将均描述初始化字符嵌入查找表的单个实例。在步骤708处,节点级模块使用字符嵌入查找表对X个字词中的每一个的字符进行编码,以与上面关于图4的步骤408描述的方式相同的方式创建对应的字符嵌入向量。在步骤710处,对于X个字词中的每一个,节点级模块使用CNN对字符嵌入向量的对应序列进行编码,然后以与上面关于图4的步骤410描述的方式相同的方式对它们进行池化以创建每个字词的字符级字词向量。步骤710可以使用结合图4的步骤410使用的相同CNN,或可以使用单独的CNN。在步骤712处,节点级模块以上面关于图4的步骤412描述的相同方式初始化字词级向量查找表。这里,图7的步骤712也可以在图7的步骤702-710中的任何一个或全部之前发生。此外,在这方面,节点级模块可以将相同的字词级向量查找表用于图4和7的过程,在这种情况下,步骤412和712将均描述初始化字词级向量查找表的单个实例。在步骤714处,对于X个字词中的每一个,节点级模块使用字词级向量查找表对字词进行编码,以与上面关于图4的步骤414描述的方式相同的方式创建对应的字词级向量。在步骤716中,对于X个字词中的每一个,节点级模块以与上面关于图4的步骤416描述的相同的方式级联对应的字词级向量和字符级字词向量,以创建字词的级联字词表示。
同样地,在图8的步骤802和804中,对于X个字词的序列,节点级模块分别以上面关于图5的步骤502和504描述的相同方式,使用LSTM网络在前向和后向两个方向上对对应的级联字词表示(在图7的步骤716中创建的)进行编码。这里,步骤802和804也可以使用与步骤502和504结合使用的相同的LSTM网络,或者可以使用单独的LSTM网络。最后,在步骤806处,前向和后向LSTM编码操作的结果经历均值池化,以与上面关于在图5的步骤506中生成nnode_text描述的方式相同的方式到达感兴趣节点的先前文本的最终表示nprev_text。
如上所述对每个节点的先前文本进行编码能够进一步帮助区分相似内容的节点。例如,在关于汽车的网站中,节点级模块可以被编程为识别每个页面上的汽油里程值。因此,给定页面可以包括具有文本“25”的第一节点和具有文本“32”的第二节点。这两个节点的文本可能不单独地包含足够的信息来确定任一个是否表示汽油里程值。然而,在许多情况下,这些节点之前的文本将包含描述性字词,诸如“汽油里程”、“燃料经济性”、“每加仑里程”、“高速公路里程”或加强或减弱该推断的一些其他文本。
如上所述,节点级模块也针对预选离散特征的集合来检查每个节点的文本,如图9的流程900所示。这得到第三向量ndis_feat。这里,图4-8的步骤也不需要在图9的步骤之前发生。相反,节点级模块可以在其对节点文本和/或在前文本的处理之前、之后或同时检查离散特征。
因此,如图9的步骤902所示,节点级模块初始化包含感兴趣的离散特征的预选集合的离散特征查找表Ed。这些离散特征可以是原始HTML中被确定为有助于识别感兴趣字段的任何内容。例如,在许多情况下,节点的叶标签类型(例如,<h1>,<div>,<li>,<span>)将有助于对页面上的信息分类。在这方面,<h1>节点通常更可能包括关键信息,诸如正在页面上显示的车辆的型号名称。类似地,诸如NLTK工具包中的字符串类型检查器之类的已知算法可以用于确定给定节点的文本是否包括可能有帮助的所选类型的信息,诸如日期、邮政编码或URL链接。被认为感兴趣的这些和任何其他离散特征可以被包括在离散特征查找表Ed中。因此,根据下面的等式8定义离散特征查找表Ed,其中,D是所有识别的离散特征的集合,并且dimd是表示离散特征向量的维度的超参数。离散特征向量的维度可以是任何合适的数量,诸如30(或更多或更少)。
在图9的步骤904中,节点级模块然后生成向量d,其中,针对给定节点存在的预选离散特征中的每一个被表示为非负整数。例如,如果给定网站集合的预选离散特征是{汽油里程,日期,邮政编码},并且感兴趣节点具有两个汽油里程值、一个日期、并且没有邮政编码,则该节点的向量d将具有值{2,1,0}。因此,向量d根据下面的等式9定义,其中,是表示所有非负整数的符号。
在图9的步骤906中,对于每个感兴趣节点,节点级模块使用根据下面的等式10的矩阵乘法将表示离散特征的向量d与离散特征查找表Ed相乘。这得到单个向量ndis_feat,其是存在于感兴趣节点中的离散特征的最终表示。
ndis_feat=dEd (10)
一旦已经执行了三个编码过程,节点级模块就使用每个节点的所得nnode_text、nprev _text和ndis_feat向量来生成节点是否与预定义感兴趣字段的集合中的一个对应的预测。例如,对于汽车网站,感兴趣字段可以包括型号名称、车辆类型、发动机和汽油里程,并且节点级模块将使用为每个节点生成的最终向量来预测该节点是否对应于那些感兴趣字段中的任何一个。如果是,则将根据其对应的感兴趣字段来标记节点。如果不是,则将用诸如“无”或“空”的某个空标识符来标记该节点。下面参考图10的流程1000进一步详细阐述该过程。
在这方面,在图10的步骤1002处,节点级模块将感兴趣节点的文本的最终表示(nnode_text)、感兴趣节点之前的文本的最终表示(nprev_text)和存在于感兴趣节点中的离散特征的最终表示(ndis_feat)级联,以创建单个向量n,其是每个节点的综合表示。因此,根据下面的等式11描述向量n。
n=[nnode_text⊙nprev_text⊙ndis_feat] (11)
在图10的步骤1004处,节点级模块经由Softmax函数将向量n连接到用于多类分类的多层感知器(MLP)神经网络。如步骤1006所示,基于多类分类,节点级模块将预测每个感兴趣节点的标记l。由于标记l能够是数量为K个预定义字段中的任何一个,或者是空标识符(例如,“无(none)”、“空(null)”等),因此l有K+1个可能的值。因此,能够根据下面的等式12和13描述Softmax归一化,其中,标记l将是集合{f1,…,fK,none}中的一个。该MLP网络可以用任何合适的参数来实现。例如,MLP网络可以是包含K+1个节点的单层密集神经网络,使得输出h是长度为K+1的向量。
h=MLP(n),其中
其中i∈{f1,…,fK,none} (13)
如上所述,节点级模块能够仅基于节点的文本、其先前文本和节点的所选离散特征来预测每个感兴趣节点的标记l。然而,因为节点级模块的预测均是针对单个感兴趣节点分离进行的,所以它们不考虑已经针对其他节点进行了什么预测。在一些情况下,这会导致节点级模块将相同的标记分配给页面上的多个节点,而未能向页面上的任何节点分配其他标记。因此,为了进一步改进每个感兴趣节点的预测,该技术也能够采用通过关系神经网络处理节点对的第二阶段模块,如图11的流程1100所示。
在这方面,第二阶段模块可以处理给定网页上的每个可能的节点对或其某个子集,在这种情况下,处理将从图11的步骤1110开始。然而,这可能不是在所有情况下都可行。例如,如果节点级模块识别并编码页面上的300个节点,则第二阶段模块将有89,700个节点对要处理(即,300×299,因为头节点和尾节点的顺序在该情境中很重要),这可能在计算上太昂贵。因此,在本技术的一些方面中,第二阶段模块可以替代地将感兴趣子段划分为两个组,如图11的步骤1102和1104所示。因此,在步骤1102处,第二阶段模块识别节点级模块对其预测至少一个节点的所有字段,这在今后将被称为“确定字段”。同样,在步骤1104处,第二阶段模块识别节点级模块无法对其预测任何节点的所有字段,这在今后将被称为“不确定字段”。然后,在步骤1108处,第二阶段模块将从接下来的节点集合创建所有可能的节点对。对于每个确定字段,第二阶段模块将使用针对该字段预测的节点。对于每个不确定字段,如步骤1106所示,第二阶段模块将根据由节点级模块根据上面的等式12和13为该字段生成的hi分数来使用前m个节点(例如,m可以在5和20之间,或者更多或更少)。这将得到三种类型的节点对。每个确定字段的节点将与所有其他确定字段的节点配对。因此,如果存在T个确定字段,则将存在完全由两个确定字段的节点组成的T(T-1)个节点对。此外,每个确定字段的节点将与为每个不确定字段识别的前m个节点配对。因此,如果总共有K个字段,则这导致额外的2T(m(K-T))个这样的节点对,因为头节点和尾节点的顺序在该情境中很重要。最后,为每个不确定字段识别的前m个节点将与为所有其他不确定字段识别的前m个节点配对。这导致额外的m2(K-T)(K-T-1)个这样的节点对。因此,作为图11的步骤1108的结果而生成的节点对的总数能够根据下面的等式14来表示。
node_pairs=(T(T-1)+2T(m(K-T))+m2(K-T)(K-T-1)) (14)
然后,第二阶段模块通过关系神经网络处理每个节点对(nhead,ntail),以便预测对标记(lhead,ltail)。为此,第二阶段模块基于彼此更接近的两个节点更可能彼此相似的假设,以两种方式处理节点对。
在一种情况下,如步骤1110所示,第二阶段模块根据头节点和尾节点的XPath来处理每个节点对。在这方面,每个XPath能够被视为HTML标签的序列,诸如“<html>”、“<body>”、“<div>”、“<ul>”和“<li>”。第二阶段模块为所有可能的HTML标签维护嵌入矩阵,其中,每个标签被表示为向量。然后,LSTM网络(其可以是与由节点级模块使用的LSTM网络不同的网络)使用该矩阵基于它们的XPath对每个节点对进行编码,如下面的等式15所示。这分别得到头节点和尾节点的向量和/>LSTM网络可以采用任何合适数量的单元,例如100个(或更多或更少)。
nxpath=LSTM([tag1,tag2,...]) (15)
在另一种情况下,如步骤1112和1114所示,第二阶段模块根据每个节点对在原始HTML页面上相对于其他节点的位置来处理每个节点对。在这方面,如步骤1112所示,页面上的每个感兴趣节点将基于其相对于感兴趣节点的总数的顺序而被分配位置值。例如,对于具有500个感兴趣节点的页面,第五节点可以被分配值5。作为另一示例,可以向第五节点分配诸如5/500=0.01的缩放值。如步骤1112中进一步所示,第二阶段模块然后将初始化根据每个位置值编索引的位置嵌入查找表Epos,其中,每个位置值与位置嵌入向量相关联。Epos的位置嵌入向量被随机初始化,然后在模型训练期间通过后向传播进行更新。然后,如步骤1114所示,第二阶段模块使用位置嵌入查找表Epos来分别获得每个节点对的头节点和尾节点的位置的向量和/>
除了上述之外,第二阶段模块还利用由节点级模块针对每个头节点和尾节点生成的综合节点向量n,即,根据上述等式11生成的n个向量。因此,在步骤1116中,第二阶段模块将综合节点向量nhead和ntail与向量和/>(来自等式15)以及/>和/>级联,以到达单个综合节点对向量r,如下面的等式16所示。
如图12的流程1200的步骤1202所示,对于每个节点对,第二阶段模块然后经由Softmax函数将综合节点对向量r与用于多类分类的MLP网络(其可以是与节点级模块使用的MLP网络不同的网络)连接。该MLP网络可以用任何合适的参数来实现。例如,MLP网络可以是包含四个节点的单层密集神经网络,使得输出是1×4向量。然后通过Softmax函数对由MLP输出的向量进行归一化。基于该分类,在步骤1204中,第二阶段模块将归一化标记分配给每个节点对。归一化标记选自{“无-无”、“无-值”、“值-无”、“值-值”}的集合。
如步骤1206所示,对于每个确定字段,第二阶段模块利用由第一阶段模块预测的节点作为该字段的最终预测(或多个)。如步骤1208所示,对于每个不确定字段,第二阶段模块确定最初被标识为该字段的候选的m个节点中的任何一个是否已经被分类为已经包括它们的任何节点对中的“值”。如果是,则在步骤1210处,第二阶段模块使用该字段作为该节点的最终预测。例如,对于字段F和候选节点y(其是最初被标识为字段F的候选的m个节点中的一个),可能存在涉及节点y的四个节点对。如果节点y在这些对中的三个对中接收到“无”的标记,并且在这些对中的一个对中接收到“值”的标记,则节点y的最终预测将是它对应于字段F。最后,如步骤1212所示,基于这些最终预测,处理系统从每个种子网站的每个页面的每个识别的节点提取结构化数据。重要的是,该技术允许处理系统以结构化形式提取该web数据,该结构化形式保留数据与其预测的感兴趣字段之间的关联。例如,提取的数据可以包括关于具有四个感兴趣字段的汽车提取的数据,其中,数据与这些字段中的每一个的标记相关联,例如{型号名称|328xi,车辆类型|Coupe,发动机|3.0L直列6缸,汽油里程|17/25mpg}。这产生功能数据。也就是说,数据是机器可动作的结构化形式,允许其用于控制处理系统和/或其他系统的操作以用于各种目的。例如,结构化数据能够用于提高搜索引擎中的搜索结果,或者从不同的数据源创建数据库。在另一示例中,来自网站或基于HTML的电子邮件或消息的结构化数据可以由自动化助理用来提供对问题的回答,或者自动地将事件添加到用户的日历。当然,这些示例不旨在是限制性的。
除了上述之外,如图13的流程1300所示,第二阶段模块也可以利用附加的启发式方法来改进模型的预测。在这方面,对于一些网站,与特定字段相关联的节点可以具有跨各个页面的相对少量的XPath。因此,如图13的步骤1302中所示,在第二阶段模块已经生成其第一预测集合之后,针对每个感兴趣字段fk,它能够对XPath跨所有页面有多频繁对该字段被预测进行排名。然后,如步骤1304所示,对于每个感兴趣字段fk,第二阶段模块能够从该字段的最常预测的XPath中提取数据。除了从由该字段的第一预测集合指示的任何节点(或多个)提取数据之外,还能够进行该提取,如上面关于图12所述。
最后,一旦处理系统已经如上所述为所有种子网站的所有页面生成了最终预测,处理系统就能够执行相同的处理步骤以生成针对非种子网站的附加集合的最终预测。然后,这些附加的最终预测能够用于以与上述相同的方式从那些非种子网站提取进一步的结构化数据。在这方面,作为首先将神经网络暴露给具有关于更多注释、组织、当前和/或完整的感兴趣字段的数据的种子网站的结果,由神经网络构建的模型将更准确地能够识别可能具有没有同样注释、组织、当前和/或完整的数据的非种子网站中的感兴趣字段。因此,本技术使得能够在很少或没有人类输入的情况下生成模型,然后可以转移这些模型,使得可以跨多个领域有效地提取结构化的功能数据。
除非另有说明,否则前述替代示例不是相互排斥的,而是可以以各种组合来实现以实现独特的优点。由于能够在不脱离由权利要求限定的主题的情况下利用上面讨论的特征的这些和其他变化和组合,因此示例性系统和方法的前述描述应该作为说明而不是限制由权利要求限定的主题。另外,本文描述的示例的提供以及措辞为“诸如”、“包括”、“包含”等的条款不应被解释为将权利要求的主题限制于具体示例;相反,这些示例仅旨在说明许多可能的实施例中的一些实施例。此外,不同附图中的相同附图标记能够标识相同或相似的元件。
Claims (20)
1.一种提取机器可动作数据的计算机实现的方法,包括:
由处理系统的一个或多个处理器为第一网站的第一页面生成文档对象模型树,其中,文档对象模型树包括多个节点,并且多个节点中的每个节点包括XML路径XPath和内容;
由一个或多个处理器识别多个节点中的第一节点,其中,第一节点的内容包括字词的第一序列,并且第一序列中的每个字词包括一个或多个字符;
由一个或多个处理器识别多个节点中的第二节点,其中,第二节点的内容包括字词的第二序列,第二序列中的每个字词包括一个或多个字符,并且第二序列在第一页面上在第一序列之前;
由一个或多个处理器生成与第一序列和第二序列的每个字词相对应的字词级向量;
由一个或多个处理器生成与第一序列和第二序列的每个字词相对应的字符级字词向量;
由一个或多个处理器基于与第一序列相对应的字词级向量和字符级字词向量来生成序列级向量;
由一个或多个处理器基于与第二序列相对应的字词级向量和字符级字词向量来生成序列级向量;
由一个或多个处理器生成与第一节点的内容中的一个或多个预定义特征相对应的离散特征向量;
由一个或多个处理器将与第一序列对应的序列级向量、与第二序列对应的序列级向量和离散特征向量级联,以获得第一节点的综合向量;
由一个或多个处理器基于第一节点的综合向量生成第一节点的节点标记;以及
由一个或多个处理器从第一节点提取结构化数据,其中,结构化数据将第一节点的内容与第一节点的节点标记相关联。
2.根据权利要求1所述的方法,其中,生成与第一序列和第二序列的每个字词相对应的字符级字词向量包括:
对于第一序列中的每个字词,使用卷积神经网络对与一个或多个字符中的每一个相对应的字符向量进行编码;以及
对于第二序列中的每个字词,使用卷积神经网络对与一个或多个字符中的每一个相对应的字符向量进行编码。
3.根据权利要求1或2所述的方法,其中,基于与第一序列相对应的字词级向量和字符级字词向量来生成序列级向量包括:
使用双向长短期记忆神经网络对第一序列的每个字词的字符级字词向量和字词级向量进行编码。
4.根据权利要求1或2所述的方法,其中,基于与第二序列相对应的字词级向量和字符级字词向量来生成序列级向量包括:
使用双向长短期记忆神经网络对第二序列的每个字词的字符级字词向量和字词级向量进行编码。
5.根据权利要求1或2所述的方法,其中,基于第一节点的综合向量生成第一节点的节点标记包括:
使用多层感知神经网络对第一节点的综合向量进行编码,以获得第一节点的分类。
6.根据权利要求1或2所述的方法,其中,第一节点的节点标记对应于多个感兴趣字段中的一个。
7.根据权利要求1或2所述的方法,还包括:
由一个或多个处理器为第一网站的第二页面生成第二文档对象模型树,其中,第二文档对象模型树包括第二多个节点,并且第二多个节点中的每个节点包括XPath和内容;以及
由一个或多个处理器从第二多个节点提取结构化数据的第二集合,其中,结构化数据的第二集合将第二多个节点中的每个节点的内容与第二多个节点中的每个节点的节点标记相关联。
8.根据权利要求7所述的方法,还包括:
由一个或多个处理器为第二网站的页面生成第三文档对象模型树,其中,第三文档对象模型树包括第三多个节点,并且第三多个节点中的每个节点包括XPath和内容;以及
由一个或多个处理器从第三多个节点提取结构化数据的第三集合,其中,结构化数据的第三集合将第三多个节点中的每个节点的内容与第三多个节点中的每个节点的节点标记相关联。
9.一种提取数据的计算机实现的方法,包括:
由处理系统的一个或多个处理器为第一网站的第一页面生成文档对象模型树,其中,文档对象模型树包括第一多个节点,并且第一多个节点中的每个节点包括XML路径XPath和内容;
由一个或多个处理器为第一多个节点中的每个节点生成关于所述节点是否与多个感兴趣字段中的一个相关的预测;
由一个或多个处理器从第一多个节点生成多个节点对,其中,多个节点对中的每个节点对包括头节点和尾节点;
由一个或多个处理器生成与每个头节点和每个尾节点相对应的综合向量;
由一个或多个处理器生成与每个头节点和每个尾节点相对应的XPath向量;
由一个或多个处理器至少部分地基于每个头节点和每个尾节点相对于第一多个节点中的至少一个其他节点的位置来生成与每个头节点和每个尾节点相对应的位置向量;
对于每个节点对,由一个或多个处理器将与节点对的头节点和尾节点相对应的综合向量、位置向量和XPath向量级联,以获得对级向量;
由一个或多个处理器基于节点对的对级向量为每个节点对生成对标记;
由一个或多个处理器基于节点对的对标记或头节点的预测,为每个节点对的头节点生成节点标记;
由一个或多个处理器基于节点对的对标记或尾节点的预测,为每个节点对的尾节点生成节点标记;以及
由一个或多个处理器从第一多个节点中的一个或多个节点提取结构化数据,结构化数据将所述一个或多个节点中的每一个的内容与一个或多个节点中的每一个的节点标记相关联。
10.根据权利要求9所述的方法,其中,生成与每个头节点和每个尾节点相对应的XPath向量包括:
使用长短期记忆神经网络对每个头节点和每个尾节点的XPath进行编码。
11.根据权利要求9或权利要求10所述的方法,其中,生成与每个头节点和每个尾节点相对应的综合向量包括:
对于每个头节点,将与头节点中的字词序列相对应的序列级向量、与头节点之前的节点中的字词序列相对应的序列级向量、以及与头节点的内容中的一个或多个预定义特征相对应的离散特征向量级联;以及
对于每个尾节点,将与尾节点中的字词序列相对应的序列级向量、与尾节点之前的节点中的字词序列相对应的序列级向量、以及与尾节点的内容中的一个或多个预定义特征相对应的离散特征向量级联。
12.根据权利要求9或权利要求10所述的方法,其中,基于对级向量为每个节点对生成对标记包括:
使用多层感知神经网络对每个节点对的对级向量进行编码,以获得每个节点对的分类。
13.根据权利要求9或权利要求10所述的方法,其中,所述节点标记与多个感兴趣字段中的一个或空标识符相对应。
14.根据权利要求9或权利要求10所述的方法,还包括:
由一个或多个处理器为第一网站的第二页面生成第二文档对象模型树,其中第二文档对象模型树包括第二多个节点,并且第二多个节点中的每个节点包括XPath和内容;以及
由一个或多个处理器从第二多个节点提取结构化数据的第二集合,其中,结构化数据的第二集合将第二多个节点中的每个节点的内容与第二多个节点中的每个节点的节点标记相关联。
15.根据权利要求14所述的方法,还包括:
由一个或多个处理器为第二网站的页面生成第三文档对象模型树,其中第三文档对象模型树包括第三多个节点,并且第三多个节点中的每个节点包括XPath和内容;以及
由一个或多个处理器从第三多个节点提取结构化数据的第三集合,其中,结构化数据的第三集合将第三多个节点中的每个节点的内容与第三多个节点中的每个节点的节点标记相关联。
16.根据权利要求9或权利要求10所述的方法,还包括:
由一个或多个处理器为第一网站的第二页面生成第二文档对象模型树,其中第二文档对象模型树包括第二多个节点,并且第二多个节点中的每个节点包括XPath和内容;
由一个或多个处理器为第二多个节点中的每个节点生成节点标记;
由一个或多个处理器从第一多个节点和第二多个节点中识别节点的类,其中,所述类的节点中的每个节点的节点标记是相同的;
由一个或多个处理器识别作为所述类的节点中的最常见XPath的第一XPath;以及
由一个或多个处理器从第一多个节点和第二多个节点中的具有第一XPath的每个节点提取结构化数据的第二集合,所述结构化数据的第二集合将所述节点的内容与所述节点的节点标记相关联。
17.一种用于提取机器可动作数据的处理系统,包括:
存储器;以及
一个或多个处理器,耦接到存储器并且被配置为:
为第一网站的第一页面生成文档对象模型树,其中,文档对象模型树包括多个节点,并且多个节点中的每个节点包括XML路径XPath和内容;
识别多个节点中的第一节点,其中,第一节点的内容包括字词的第一序列,并且第一序列中的每个字词包括一个或多个字符;
识别多个节点中的第二节点,其中,第二节点的内容包括字词的第二序列,第二序列中的每个字词包括一个或多个字符,并且第二序列在第一页面上在第一序列之前;
生成与第一序列和第二序列的每个字词相对应的字词级向量;
生成与第一序列和第二序列的每个字词相对应的字符级字词向量;
基于与第一序列相对应的字词级向量和字符级字词向量来生成序列级向量;
基于与第二序列相对应的字词级向量和字符级字词向量来生成序列级向量;
生成与第一节点的内容中的一个或多个预定义特征相对应的离散特征向量;
将与第一序列对应的序列级向量、与第二序列对应的序列级向量和离散特征向量级联,以获得第一节点的综合向量;
基于第一节点的综合向量生成第一节点的节点标记;以及
从第一节点提取结构化数据,其中,结构化数据将第一节点的内容与第一节点的节点标记相关联。
18.根据权利要求17所述的系统,其中,第一节点的节点标记与多个感兴趣字段中的一个相对应。
19.一种用于提取机器可动作数据的处理系统,包括:
存储器;以及
一个或多个处理器,耦接到存储器并且被配置为:
为第一网站的第一页面生成文档对象模型树,其中,文档对象模型树包括第一多个节点,并且第一多个节点中的每个节点包括XML路径XPath和内容;
为第一多个节点中的每个节点生成关于节点是否与多个感兴趣字段中的一个相关的预测;
从第一多个节点生成多个节点对,其中,多个节点对中的每个节点对包括头节点和尾节点;
生成与每个头节点和每个尾节点相对应的综合向量;
生成与每个头节点和每个尾节点相对应的XPath向量;
至少部分地基于每个头节点和每个尾节点相对于第一多个节点中的至少一个其他节点的位置来生成与每个头节点和每个尾节点相对应的位置向量;
对于每个节点对,将与节点对的头节点和尾节点相对应的综合向量、位置向量和XPath向量级联,以获得对级向量;
基于节点对的对级向量为每个节点对生成对标记;
基于节点对的对标记或头节点的预测,为每个节点对的头节点生成节点标记;
基于节点对的对标记或尾节点的预测,为每个节点对的尾节点生成节点标记;以及
从第一多个节点中的一个或多个节点提取结构化数据,其中,所述结构化数据将所述一个或多个节点中的每一个的内容与所述一个或多个节点中的每一个节点的节点标记相关联。
20.根据权利要求19所述的系统,其中,节点标记与多个感兴趣字段中的一个或空值相对应。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311184681.7A CN117313853A (zh) | 2020-01-29 | 2020-01-29 | 用于从Web文档的结构化数据提取的可转移神经架构 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2020/015602 WO2021154238A1 (en) | 2020-01-29 | 2020-01-29 | A transferrable neural architecture for structured data extraction from web documents |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311184681.7A Division CN117313853A (zh) | 2020-01-29 | 2020-01-29 | 用于从Web文档的结构化数据提取的可转移神经架构 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115023710A CN115023710A (zh) | 2022-09-06 |
CN115023710B true CN115023710B (zh) | 2023-09-29 |
Family
ID=77079642
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311184681.7A Pending CN117313853A (zh) | 2020-01-29 | 2020-01-29 | 用于从Web文档的结构化数据提取的可转移神经架构 |
CN202080095203.7A Active CN115023710B (zh) | 2020-01-29 | 2020-01-29 | 用于从Web文档的结构化数据提取的可转移神经架构 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311184681.7A Pending CN117313853A (zh) | 2020-01-29 | 2020-01-29 | 用于从Web文档的结构化数据提取的可转移神经架构 |
Country Status (4)
Country | Link |
---|---|
US (2) | US11886533B2 (zh) |
EP (1) | EP4078467A4 (zh) |
CN (2) | CN117313853A (zh) |
WO (1) | WO2021154238A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230161596A1 (en) * | 2021-11-22 | 2023-05-25 | Oracle Financial Services Software Limited | Unified pipeline flow with common and phase-specific paths |
US12008064B1 (en) * | 2022-11-28 | 2024-06-11 | Sav.com, LLC | Systems and methods for a website generator that utilizes artificial intelligence |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106462626A (zh) * | 2014-06-13 | 2017-02-22 | 微软技术许可有限责任公司 | 利用深度神经网络对兴趣度建模 |
JP2018112853A (ja) * | 2017-01-11 | 2018-07-19 | 日本放送協会 | 話題分類装置およびそのプログラム |
CN109271477A (zh) * | 2018-09-05 | 2019-01-25 | 杭州数湾信息科技有限公司 | 一种借助互联网构建分类语料库的方法及系统 |
CN109657135A (zh) * | 2018-11-13 | 2019-04-19 | 华南理工大学 | 一种基于神经网络的学者用户画像信息抽取方法及模型 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7694216B2 (en) * | 2000-12-19 | 2010-04-06 | International Business Machines Corporation | Automatic assignment of field labels |
WO2012061983A1 (en) * | 2010-11-10 | 2012-05-18 | Hewlett-Packard Development Company, L.P. | Seed set expansion |
US8239425B1 (en) * | 2011-02-28 | 2012-08-07 | Battelle Memorial Institute | Isolating desired content, metadata, or both from social media |
US9268749B2 (en) * | 2013-10-07 | 2016-02-23 | Xerox Corporation | Incremental computation of repeats |
KR20180077690A (ko) * | 2016-12-29 | 2018-07-09 | 주식회사 엔씨소프트 | 문서의 내러티브 학습 장치 및 방법, 문서의 내러티브 생성 장치 및 방법 |
TWI695277B (zh) * | 2018-06-29 | 2020-06-01 | 國立臺灣師範大學 | 自動化網站資料蒐集方法 |
CN109445784B (zh) * | 2018-09-29 | 2020-08-14 | Oppo广东移动通信有限公司 | 结构数据的处理方法、装置、存储介质及电子设备 |
-
2020
- 2020-01-29 CN CN202311184681.7A patent/CN117313853A/zh active Pending
- 2020-01-29 US US17/792,788 patent/US11886533B2/en active Active
- 2020-01-29 EP EP20917151.1A patent/EP4078467A4/en active Pending
- 2020-01-29 CN CN202080095203.7A patent/CN115023710B/zh active Active
- 2020-01-29 WO PCT/US2020/015602 patent/WO2021154238A1/en unknown
-
2023
- 2023-12-13 US US18/538,584 patent/US20240126827A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106462626A (zh) * | 2014-06-13 | 2017-02-22 | 微软技术许可有限责任公司 | 利用深度神经网络对兴趣度建模 |
JP2018112853A (ja) * | 2017-01-11 | 2018-07-19 | 日本放送協会 | 話題分類装置およびそのプログラム |
CN109271477A (zh) * | 2018-09-05 | 2019-01-25 | 杭州数湾信息科技有限公司 | 一种借助互联网构建分类语料库的方法及系统 |
CN109657135A (zh) * | 2018-11-13 | 2019-04-19 | 华南理工大学 | 一种基于神经网络的学者用户画像信息抽取方法及模型 |
Also Published As
Publication number | Publication date |
---|---|
WO2021154238A1 (en) | 2021-08-05 |
US20240126827A1 (en) | 2024-04-18 |
CN117313853A (zh) | 2023-12-29 |
CN115023710A (zh) | 2022-09-06 |
US11886533B2 (en) | 2024-01-30 |
EP4078467A4 (en) | 2023-04-26 |
US20230014465A1 (en) | 2023-01-19 |
EP4078467A1 (en) | 2022-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444320B (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
Huang et al. | Identifying disaster related social media for rapid response: a visual-textual fused CNN architecture | |
US20240126827A1 (en) | Transferable Neural Architecture for Structured Data Extraction From Web Documents | |
CN108959566B (zh) | 一种基于Stacking集成学习的医疗文本去隐私方法和系统 | |
CN112100401B (zh) | 面向科技服务的知识图谱构建方法、装置、设备及存储介质 | |
CN112667940B (zh) | 基于深度学习的网页正文抽取方法 | |
CN113168499A (zh) | 检索专利文档的方法 | |
Shen et al. | A joint model for multimodal document quality assessment | |
CN113468887A (zh) | 基于边界与片段分类的学者信息关系抽取方法和系统 | |
CN114416995A (zh) | 信息推荐方法、装置及设备 | |
Aladakatti et al. | Exploring natural language processing techniques to extract semantics from unstructured dataset which will aid in effective semantic interlinking | |
Dong et al. | Joint multi-label attention networks for social text annotation | |
Pirovani et al. | Studying the adaptation of Portuguese NER for different textual genres | |
Raghavendra Nayaka et al. | An efficient framework for algorithmic metadata extraction over scholarly documents using deep neural networks | |
Shafiq et al. | Abstractive text summarization of low-resourced languages using deep learning | |
CN113609866A (zh) | 文本标记方法、装置、设备及存储介质 | |
CN111966828B (zh) | 一种基于文本上下文结构和属性信息叠加网络的报刊新闻分类方法 | |
CN113255498A (zh) | 基于区块链技术的财务报销发票管理方法 | |
CN112149413A (zh) | 基于神经网络识别互联网网站所属业态的方法、装置以及计算机可读存储介质 | |
US11755837B1 (en) | Extracting content from freeform text samples into custom fields in a software application | |
Gokhale et al. | AbhAS: A novel realistic image splicing forensics dataset | |
Wang et al. | CA-CD: context-aware clickbait detection using new Chinese clickbait dataset with transfer learning method | |
Enkhsaikhan | Geological knowledge graph construction from Mineral Exploration text | |
CN114281934A (zh) | 文本识别方法、装置、设备及存储介质 | |
Najeeb | A Hidden Markov Model‐Based Tagging Approach for Arabic Isnads of Hadiths |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |