CN107766477A - 页面结构化数据提取方法、终端设备及存储介质 - Google Patents

页面结构化数据提取方法、终端设备及存储介质 Download PDF

Info

Publication number
CN107766477A
CN107766477A CN201710940542.0A CN201710940542A CN107766477A CN 107766477 A CN107766477 A CN 107766477A CN 201710940542 A CN201710940542 A CN 201710940542A CN 107766477 A CN107766477 A CN 107766477A
Authority
CN
China
Prior art keywords
text sequence
message
page
html
html pages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710940542.0A
Other languages
English (en)
Inventor
王黎
李骏宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Hansi Information Technology LLC
Original Assignee
Wuhan Hansi Information Technology LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Hansi Information Technology LLC filed Critical Wuhan Hansi Information Technology LLC
Priority to CN201710940542.0A priority Critical patent/CN107766477A/zh
Publication of CN107766477A publication Critical patent/CN107766477A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Abstract

本发明公开了一种页面结构化数据提取方法、终端设备及存储介质。所述方法包括以下步骤:接收html页面报文;对所述html页面报文进行预处理,获得文本序列;对所述文本序列进行分段处理;从分段处理后的文本序列中提取所需文本作为结构化数据。本发明基于页面展示效果进行解析,而非基于html语法结构进行解析,有效解决了结构化算法对目标页面的依赖性,在获取页面展示需求时,即可开始进行结构化配置,增加了目标页面的数据搜集方式的灵活性,页面说明、照片等材料均可提供有效配置依据,有效提升了结构化配置效率,并降低了后期维护成本。

Description

页面结构化数据提取方法、终端设备及存储介质
技术领域
本发明涉及页面处理技术领域,尤其涉及一种页面结构化数据提取方法、终端设备及存储介质。
背景技术
目前一般通过对html标签的解析实现对页面展示内容的提取,但是由于目标页面动态生成,导致并不能及时获取目标页面的实际代码结构,由此基于html标签的提取技术存在以下问题:
1、无法在获取目标页面结构说明时就进行调整,必须获取到真实页面以后才可以。
2、由于html结构的复杂性和随意性,即便进行配置,配置量也很庞大,导致硬编码可能成本更低,由此调试和修改周期大大延长。
3、算法同提取逻辑高度耦合,维护成本高。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种页面结构化数据提取方法、终端设备及存储介质,旨在解决现有技术中页面结构化数据提取不及时、调试和修改周期延长、以及维护成本高的技术问题。
为实现上述目的,本发明提供一种页面结构化数据提取方法,所述方法包括以下步骤:
接收html页面报文;
对所述html页面报文进行预处理,获得文本序列;
对所述文本序列进行分段处理;
从分段处理后的文本序列中提取所需文本作为结构化数据。
优选地,所述对所述html页面报文进行预处理,获得文本序列,具体包括:
通过结构化配置对所述html页面报文进行预处理,获得文本序列。
优选地,所述通过结构化配置对所述html页面报文进行预处理,获得文本序列,具体包括:
通过所述结构化配置去除所述html页面报文中的注释;
通过所述结构化配置去除所述html页面报文的报文头;
将所述html页面报文中的预设标签替换为空白字符;
对所述html页面报文中的空白字符进行去重处理;
通过html标签对所述html页面报文进行切割,获得字符串数组;
取出所述字符串数组中仅含有空白字符的元素;
去除所述字符串数组中的非空白元素的空白字符,获得文本序列。
优选地,所述从分段处理后的文本序列中提取所需文本作为结构化数据,具体包括:
根据本段落关键字及下一段落关键字配置,从所述分段处理后的文本序列中提取待结构化分段;
根据各待结构化分段的偏移量配置,从各待结构化分段中获取对应的数据信息;
从各待结构化分段中通过列宽度循环提取列表数据;
从各待结构化分段中根据预设关键字列为基准提取带合并单元格的列表;
将提取的数据信息、列表数据及带合并单元格的列表作为所述结构化数据。
此外,为实现上述目的,本发明还提供一种终端设备,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的页面结构化数据提取程序,所述页面结构化数据提取程序配置为实现如上所述的页面结构化数据提取方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有页面结构化数据提取程序,所述页面结构化数据提取程序被处理器执行时实现如上所述的页面结构化数据提取方法的步骤。
本发明基于页面展示效果进行解析,而非基于html语法结构进行解析,有效解决了结构化算法对目标页面的依赖性,在获取页面展示需求时,即可开始进行结构化配置,增加了目标页面的数据搜集方式的灵活性,页面说明、照片等材料均可提供有效配置依据,有效提升了结构化配置效率,并降低了后期维护成本。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的终端设备结构示意图;
图2为本发明一种实施例的页面结构化数据提取方法的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的终端设备的结构示意图。
如图1所示,该终端设备可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如按键或触摸屏。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及页面结构化数据提取程序。
在图1所示的终端设备中,网络接口1004主要用于与外网进行数据通信;用户接口1003主要用于接收用户输入的操作指令;所述终端设备通过处理器1001调用存储器1005中存储的页面结构化数据提取程序,并执行以下操作:
接收html页面报文;
对所述html页面报文进行预处理,获得文本序列;
对所述文本序列进行分段处理;
从分段处理后的文本序列中提取所需文本作为结构化数据。
进一步地,处理器1001可以调用存储器1005中存储的页面结构化数据提取程序,还执行以下操作:
通过结构化配置对所述html页面报文进行预处理,获得文本序列。
进一步地,处理器1001可以调用存储器1005中存储的页面结构化数据提取程序,还执行以下操作:
通过所述结构化配置去除所述html页面报文中的注释;
通过所述结构化配置去除所述html页面报文的报文头;
将所述html页面报文中的预设标签替换为空白字符;
对所述html页面报文中的空白字符进行去重处理;
通过html标签对所述html页面报文进行切割,获得字符串数组;
取出所述字符串数组中仅含有空白字符的元素;
去除所述字符串数组中的非空白元素的空白字符,获得文本序列。
进一步地,处理器1001可以调用存储器1005中存储的页面结构化数据提取程序,还执行以下操作:
根据本段落关键字及下一段落关键字配置,从所述分段处理后的文本序列中提取待结构化分段;
根据各待结构化分段的偏移量配置,从各待结构化分段中获取对应的数据信息;
从各待结构化分段中通过列宽度循环提取列表数据;
从各待结构化分段中根据预设关键字列为基准提取带合并单元格的列表;
将提取的数据信息、列表数据及带合并单元格的列表作为所述结构化数据。
本实施例通过上述方案,基于页面展示效果进行解析,而非基于html语法结构进行解析,有效解决了结构化算法对目标页面的依赖性,在获取页面展示需求时,即可开始进行结构化配置,增加了目标页面的数据搜集方式的灵活性,页面说明、照片等材料均可提供有效配置依据,有效提升了结构化配置效率,并降低了后期维护成本。
基于上述硬件结构,提出本发明页面结构化数据提取方法实施例。
参照图2,图2为本发明页面结构化数据提取方法第一实施例的流程示意图。
在第一实施例中,所述页面结构化数据提取方法包括以下步骤:
S10:接收html页面报文;
S20:对所述html页面报文进行预处理,获得文本序列;
可理解的是,为便于对所述html页面报文进行预处理,可通过结构化配置对所述html页面报文进行预处理。
在具体实现中,所述结构化配置可如下表所示:
在具体实现中,通过结构化配置对所述html页面报文进行预处理,获得文本序列,可具体包括以下步骤(1)~步骤(7):
(1)、通过所述结构化配置去除所述html页面报文中的注释;这是由于通常html页面报文中存在大量注释,但这些注释对html页面展示没有帮助,需要去除;
(2)、通过所述结构化配置去除所述html页面报文的报文头;这是由于html页面报文的报文头对报文结构化没有意义,需要去除;
(3)、将所述html页面报文中的预设标签替换为空白字符;这是由于<br>、&nbsp;等标签需要替换为空白字符,作为空白字符处理;
(4)、对所述html页面报文中的空白字符进行去重处理;这是由于html对空白字符的显示同实际报文文本不一致,需要将报文文本中多余的空白字符替换掉;
(5)、通过html标签对所述html页面报文进行切割,获得字符串数组;
(6)、取出所述字符串数组中仅含有空白字符的元素;这是由于切割后生成的字符串数组中,将存在大量仅含有空白字符的元素,需要去除。
(7)、去除所述字符串数组中的非空白元素的空白字符,获得文本序列;这是由于剩余的非空白元素中,仍然存在前后的空白字符,需要去除。
S30:对所述文本序列进行分段处理;
S40:从分段处理后的文本序列中提取所需文本作为结构化数据。
在具体实现中,从分段处理后的文本序列中提取所需文本作为结构化数据,可具体包括以下步骤(1)~步骤(5):
(1)、根据本段落关键字及下一段落关键字配置,从所述分段处理后的文本序列中提取待结构化分段;
(2)、根据各待结构化分段的偏移量配置,从各待结构化分段中获取对应的数据信息;
(3)、从各待结构化分段中通过列宽度循环提取列表数据;
(4)、从各待结构化分段中根据预设关键字列为基准提取带合并单元格的列表;
(5)、将提取的数据信息、列表数据及带合并单元格的列表作为所述结构化数据。
本发明基于页面展示效果进行解析,而非基于html语法结构进行解析,有效解决了结构化算法对目标页面的依赖性,在获取页面展示需求时,即可开始进行结构化配置,增加了目标页面的数据搜集方式的灵活性,页面说明、照片等材料均可提供有效配置依据,有效提升了结构化配置效率,并降低了后期维护成本。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有页面结构化数据提取程序,所述页面结构化数据提取程序被处理器执行时实现如下操作:
接收html页面报文;
对所述html页面报文进行预处理,获得文本序列;
对所述文本序列进行分段处理;
从分段处理后的文本序列中提取所需文本作为结构化数据。
进一步地,所述页面结构化数据提取程序被处理器执行时还实现如下操作:
通过结构化配置对所述html页面报文进行预处理,获得文本序列。
进一步地,所述页面结构化数据提取程序被处理器执行时还实现如下操作:
通过所述结构化配置去除所述html页面报文中的注释;
通过所述结构化配置去除所述html页面报文的报文头;
将所述html页面报文中的预设标签替换为空白字符;
对所述html页面报文中的空白字符进行去重处理;
通过html标签对所述html页面报文进行切割,获得字符串数组;
取出所述字符串数组中仅含有空白字符的元素;
去除所述字符串数组中的非空白元素的空白字符,获得文本序列。
进一步地,所述页面结构化数据提取程序被处理器执行时还实现如下操作:
根据本段落关键字及下一段落关键字配置,从所述分段处理后的文本序列中提取待结构化分段;
根据各待结构化分段的偏移量配置,从各待结构化分段中获取对应的数据信息;
从各待结构化分段中通过列宽度循环提取列表数据;
从各待结构化分段中根据预设关键字列为基准提取带合并单元格的列表;
将提取的数据信息、列表数据及带合并单元格的列表作为所述结构化数据。
本实施例通过上述方案,基于页面展示效果进行解析,而非基于html语法结构进行解析,有效解决了结构化算法对目标页面的依赖性,在获取页面展示需求时,即可开始进行结构化配置,增加了目标页面的数据搜集方式的灵活性,页面说明、照片等材料均可提供有效配置依据,有效提升了结构化配置效率,并降低了后期维护成本。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,终端设备,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.一种页面结构化数据提取方法,其特征在于,所述方法包括以下步骤:
接收html页面报文;
对所述html页面报文进行预处理,获得文本序列;
对所述文本序列进行分段处理;
从分段处理后的文本序列中提取所需文本作为结构化数据。
2.如权利要求1所述的方法,其特征在于,所述对所述html页面报文进行预处理,获得文本序列,具体包括:
通过结构化配置对所述html页面报文进行预处理,获得文本序列。
3.如权利要求2所述的方法,其特征在于,所述通过结构化配置对所述html页面报文进行预处理,获得文本序列,具体包括:
通过所述结构化配置去除所述html页面报文中的注释;
通过所述结构化配置去除所述html页面报文的报文头;
将所述html页面报文中的预设标签替换为空白字符;
对所述html页面报文中的空白字符进行去重处理;
通过html标签对所述html页面报文进行切割,获得字符串数组;
取出所述字符串数组中仅含有空白字符的元素;
去除所述字符串数组中的非空白元素的空白字符,获得文本序列。
4.如权利要求3所述的方法,其特征在于,所述从分段处理后的文本序列中提取所需文本作为结构化数据,具体包括:
根据本段落关键字及下一段落关键字配置,从所述分段处理后的文本序列中提取待结构化分段;
根据各待结构化分段的偏移量配置,从各待结构化分段中获取对应的数据信息;
从各待结构化分段中通过列宽度循环提取列表数据;
从各待结构化分段中根据预设关键字列为基准提取带合并单元格的列表;
将提取的数据信息、列表数据及带合并单元格的列表作为所述结构化数据。
5.一种终端设备,其特征在于,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的页面结构化数据提取程序,所述页面结构化数据提取程序配置为实现如权利要求1至4中任一项所述的页面结构化数据提取方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有页面结构化数据提取程序,所述页面结构化数据提取程序被处理器执行时实现如权利要求1至4中任一项所述的页面结构化数据提取方法的步骤。
CN201710940542.0A 2017-09-30 2017-09-30 页面结构化数据提取方法、终端设备及存储介质 Pending CN107766477A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710940542.0A CN107766477A (zh) 2017-09-30 2017-09-30 页面结构化数据提取方法、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710940542.0A CN107766477A (zh) 2017-09-30 2017-09-30 页面结构化数据提取方法、终端设备及存储介质

Publications (1)

Publication Number Publication Date
CN107766477A true CN107766477A (zh) 2018-03-06

Family

ID=61267144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710940542.0A Pending CN107766477A (zh) 2017-09-30 2017-09-30 页面结构化数据提取方法、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN107766477A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110874428A (zh) * 2019-11-11 2020-03-10 汉口北进出口服务有限公司 电商页面的结构化数据提取装置、方法及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102103605A (zh) * 2009-12-18 2011-06-22 北大方正集团有限公司 一种智能提取文档结构的方法及系统
CN103389972A (zh) * 2013-07-26 2013-11-13 Tcl集团股份有限公司 一种基于简易信息聚合获取正文的方法及装置
US20140101530A1 (en) * 2012-10-04 2014-04-10 Lim Yong Tah Bryan Web browsing system for content browsing
CN105740355A (zh) * 2016-01-26 2016-07-06 中国人民解放军国防科学技术大学 基于聚集文本密度的网页正文提取方法及装置
CN106446072A (zh) * 2016-09-07 2017-02-22 百度在线网络技术(北京)有限公司 网页内容的处理方法和装置
CN106484767A (zh) * 2016-09-08 2017-03-08 中国科学院信息工程研究所 一种跨媒体的事件抽取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102103605A (zh) * 2009-12-18 2011-06-22 北大方正集团有限公司 一种智能提取文档结构的方法及系统
US20140101530A1 (en) * 2012-10-04 2014-04-10 Lim Yong Tah Bryan Web browsing system for content browsing
CN103389972A (zh) * 2013-07-26 2013-11-13 Tcl集团股份有限公司 一种基于简易信息聚合获取正文的方法及装置
CN105740355A (zh) * 2016-01-26 2016-07-06 中国人民解放军国防科学技术大学 基于聚集文本密度的网页正文提取方法及装置
CN106446072A (zh) * 2016-09-07 2017-02-22 百度在线网络技术(北京)有限公司 网页内容的处理方法和装置
CN106484767A (zh) * 2016-09-08 2017-03-08 中国科学院信息工程研究所 一种跨媒体的事件抽取方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110874428A (zh) * 2019-11-11 2020-03-10 汉口北进出口服务有限公司 电商页面的结构化数据提取装置、方法及可读存储介质

Similar Documents

Publication Publication Date Title
CN102200971B (zh) 一种实现网页内容预览的方法和设备
US8910036B1 (en) Web based copy protection
CN104461412B (zh) web网页指定区域打印方法和系统
US20080244381A1 (en) Document processing for mobile devices
CN105630459A (zh) 一种将ppt转换为html页面的方法
CN103853806A (zh) 一种表格转换方法及装置
CN103455475A (zh) 排版方法、设备及系统
CN105204860A (zh) 一种快速生成自定义静态Web页面的方法及装置
CN110515951A (zh) 一种bom标准化方法、系统及电子设备和存储介质
CN105320734A (zh) 一种网页核心内容提取方法
US11687704B2 (en) Method, apparatus and electronic device for annotating information of structured document
CN102970596A (zh) 一种实现机顶盒多语言字体显示的方法、系统及机顶盒
CN105550165A (zh) 可将网页文章导入网页文本编辑器的插件及方法
CN106599016A (zh) 一种基于虚拟dom的前端元素维护方法
CN111079408A (zh) 一种语种识别方法、装置、设备及存储介质
CN108038093A (zh) Pdf文字提取方法和装置
CN112016290A (zh) 一种文档自动排版方法、装置、设备及存储介质
CN104881298A (zh) 用于在线显示文档的方法和装置
CN106446116A (zh) 应用于规则引擎中的业务规则参数交互方法及装置
CN105260459A (zh) 搜索方法和装置
CN107766477A (zh) 页面结构化数据提取方法、终端设备及存储介质
CN113887442A (zh) Ocr训练数据生成方法、装置、设备及介质
CN107783946A (zh) 文本显示方法及文本显示设备
CN104536947A (zh) 版式文档的处理方法及装置
CN105786987A (zh) 一种页面配置方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180306

WD01 Invention patent application deemed withdrawn after publication