CN110837614A - 一种高效地生成网页信息抽取规则的方法及系统 - Google Patents
一种高效地生成网页信息抽取规则的方法及系统 Download PDFInfo
- Publication number
- CN110837614A CN110837614A CN201911061674.1A CN201911061674A CN110837614A CN 110837614 A CN110837614 A CN 110837614A CN 201911061674 A CN201911061674 A CN 201911061674A CN 110837614 A CN110837614 A CN 110837614A
- Authority
- CN
- China
- Prior art keywords
- page
- extraction
- json
- scheme
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9577—Optimising the visualization of content, e.g. distillation of HTML documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种高效地生成网页信息抽取规则的方法及系统,具体包括以下步骤:S1、页面结构自动识别以及Html结构与Json结构的判定:首先通过网页信息采集技术获取该网页的源码,分析其结构是通用的Html结构还是Json结构,Html结构与Json结构的判定是通过Html标签来判断Html结构,通过开源Json解析器解析Json结构,考虑到自动解析可能存在误判,该步骤支持人工纠错;该高效地生成网页信息抽取规则的方法及系统,可以克服纯人工配置抽取规则的低效问题,避免纯自动化抽取的精准度下降的问题,满足了企业级系统应用对精度及工作效率的要求,在不影响抽取精度的前提下,又提高了自动化程度,大大提高了网页信息抽取工作的效率以及实用性。
Description
技术领域
本发明涉及计算机网页采集技术领域,具体为一种高效地生成网页信息抽取规则的方法及系统。
背景技术
网页是构成网站的基本元素,是承载各种网站应用的平台,通俗地说,网站就是由网页组成的,如果只有域名和虚拟主机而没有制作任何网页的话,使用者将无法访问网站,也无法通过人机会话来实现其使用意图。
网页是一个包含HTML标签的纯文本文件,它可以存放在世界某个角落的某一台计算机中,是万维网中的一“页”,是超文本标记语言格式,网页通常用图像档来提供图画,文字与图片是构成一个网页的两个最基本的元素,可以简单地理解为:文字就是网页的内容,图片就是网页的美观,除此之外,网页的元素还包括动画、音乐、程序等,网页需要通过网页浏览器来完成人与计算机的信息交互。
传统的生成网页信息抽取规则的技术方案主要有两种:第一种方案是由技术人员通过对网页结构的观察,使用专用的计算机语言或软件工具,自行编写、生成抽取规则。比较常见的专用计算机语言有:正则表达式,比较常见的软件工具有:xpath和css选择器。采用这种技术方案所能够达到的效果,很大程度上依赖于编写规则的技术人员的专业水平,即:对网页结构的理解程度以及对正则表达式、xpath和css选择器等技术的掌握程度。不同网站的网页结构不同,不同技术人员的专业度也不相同,导致该技术方案受主观因素影响成分较多,工作效率和质量偏差较大,不能有效地产生技术成果;第二种方案是技术人员通过软件工具,将网页抽象成文档结构树(DOM-Tree)的形式,结合概率统计学知识,计算文档结构树(DOM-Tree)中所有节点的相似概率,得到符合文本密度特征的文档结构树(DOM-Tree)节点,采用这种基于概率模型生成网页信息抽取规则的方案,所产生的技术成果不能够满足抽取精度的要求。
在企业级的系统应用中,以单“日”为级别的网页采集数量通常为在万、十万以上。上述两种技术方案在企业级的系统应用中均存在致命缺陷,第一种方案的效率与质量难以保证,第二种方案的精度难以保证。在此技术背景下,急需发明一种高效地生成网页信息抽取规则的方法及系统,来同时满足效率与精度的要求,本发明应运而生。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种高效地生成网页信息抽取规则的方法及系统,解决了纯人工生成网页信息抽取规则的低效以及纯自动化生成网页信息抽取规则的精度难以保证的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种高效地生成网页信息抽取规则的方法及系统,具体包括以下步骤:
S1、页面结构自动识别以及Html结构与Json结构的判定:首先通过网页信息采集技术获取该网页的源码,分析其结构是通用的Html结构还是Json 结构,Html结构与Json结构的判定是通过Html标签来判断Html结构,通过开源Json解析器解析Json结构,考虑到自动解析可能存在误判,该步骤支持人工纠错;
S2、列表类型页面与正文类型页面的判定:由S1中得出该页面结构若是 Html结构,还需判定该页面是列表类型页面或正文类型页面,将Html结构网页转化成Dom树结构,自动解析Dom树中的叶子节点,若存在<a>标签,则认为该网页为列表类型页面,否则该页面为正文类型页面,考虑到自动解析可能存在误判,该步骤支持人工纠错;
S3、Json抽取方案:由S1中得出该页面结构若是Json结构,系统将自动解析Json网页结构,并可视化呈现在页面中,用户只需点击页面中的字段信息,系统即可根据用户的点击生成相应的抽取规则,考虑到本方案可能存在误判,该步骤支持人工纠错;
S4、Jsoup抽取方案:由S2中得出该页面结构若是列表类型页面,系统将自动解析列表类型网页结构,将其解析成Dom树结构,并可视化呈现在页面中,用户只需点击页面中任意字段信息,系统即可根据用户的点击生成相应的抽取规则,并高亮该字段与其相关字段,考虑到本方案可能存在误判,该步骤支持人工纠错;
S5、正文自动抽取方案:由S2中得出该页面结构若是正文类型页面,系统将自动解析正文类型网页结构,将其解析成Dom树结构,并以文本密度最大的节点作为正文,考虑到本方案可能存在误判,该步骤支持人工纠错;
S6、正则表达式抽取方案:是S3、S4和S5的人工纠错方法之一,当S3、 S4和S5这三种抽取方案均无法满足抽取精度的要求时,可以使用本方案。
优选的,所述S4中的Jsoup抽取方案是一种半自动化地、可视化地抽取规则生成方案,专门针对列表类型网页的抽取规则生成而设计。
优选的,所述S3中的Json抽取方案是一种半自动化地、可视化地抽取规则生成方案,专门针对Json类型网页的抽取规则生成而设计。
优选的,所述S5中的正文自动抽取方案是一种基于对文本密度进行概率统计的抽取规则生成方案,专门针对正文类型网页而设计。
优选的,所述S5中的文本密度是一种表示正文节点的特征,其算法为Dom 节点中纯文本字符串长度或该节点的字符串长度。
优选的,所述S6中的正则表达式抽取方案是为了提高抽取精度,进行人工纠错,并当S3、S4和S5这三种抽取方案均无法满足精度要求而设计。
(三)有益效果
本发明提供了一种高效地生成网页信息抽取规则的方法及系统。具备以下有益效果:该高效地生成网页信息抽取规则的方法及系统,通过S1、页面结构自动识别以及Html结构与Json结构的判定:首先通过网页信息采集技术获取该网页的源码,分析其结构是通用的Html结构还是Json结构,Html 结构与Json结构的判定是通过Html标签来判断Html结构,通过开源Json 解析器解析Json结构,考虑到自动解析可能存在误判,该步骤支持人工纠错; S2、列表类型页面与正文类型页面的判定:由S1中得出该页面结构若是Html 结构,还需判定该页面是列表类型页面或正文类型页面,将Html结构网页转化成Dom树结构,自动解析Dom树中的叶子节点,若存在<a>标签,则认为该网页为列表类型页面,否则该页面为正文类型页面,考虑到自动解析可能存在误判,该步骤支持人工纠错;S3、Json抽取方案:由S1中得出该页面结构若是Json结构,系统将自动解析Json网页结构,并可视化呈现在页面中,用户只需点击页面中的字段信息,系统即可根据用户的点击生成相应的抽取规则,考虑到本方案可能存在误判,该步骤支持人工纠错;S4、Jsoup抽取方案:由S2中得出该页面结构若是列表类型页面,系统将自动解析列表类型网页结构,将其解析成Dom树结构,并可视化呈现在页面中,用户只需点击页面中任意字段信息,系统即可根据用户的点击生成相应的抽取规则,并高亮该字段与其相关字段,考虑到本方案可能存在误判,该步骤支持人工纠错;S5、正文自动抽取方案:由S2中得出该页面结构若是正文类型页面,系统将自动解析正文类型网页结构,将其解析成Dom树结构,并以文本密度最大的节点作为正文,考虑到本方案可能存在误判,该步骤支持人工纠错;S6、正则表达式抽取方案:是S3、S4和S5的人工纠错方法之一,当S3、S4和S5 这三种抽取方案均无法满足抽取精度的要求时,可以使用本方案,可实现克服了纯人工配置抽取规则的低效问题,可避免纯自动化抽取精度难以保证的问题,同时满足了企业级应用的精度要求,在不影响抽取精度的原则下,尽量提高了自动化程度,大大提高了该网页信息抽取的工作效率以及实用性。
附图说明
图1为本发明结构的流程图;
图2为本发明的页面结构自动识别以及Html结构与Json结构的判定的流程图;
图3为本发明的列表类型页面与正文类型页面的判定的流程图;
图4为本发明的Json抽取方案的判定的流程图;
图5为本发明的Jsoup抽取方案的判定的流程图;
图6为本发明的正文自动抽取方案的判定的流程图;
图7为本发明的正则表达式抽取方案的判定的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例提供一种技术方案:一种高效地网页信息抽取规则生成方案,具体包括以下步骤:
S1、页面结构自动识别以及Html结构与Json结构的判定:首先通过网页信息采集技术获取该网页的源码,分析其结构是通用的Html结构还是Json 结构,Html结构与Json结构的判定是通过Html标签来判断Html结构,通过开源Json解析器解析Json结构,考虑到自动解析可能存在误判,该步骤支持人工纠错。
S2、列表类型页面与正文类型页面的判定:由S1中得出该页面结构若是 Html结构,还需判定该页面是列表类型页面或正文类型页面,将Html结构网页转化成Dom树结构,自动解析Dom树中的叶子节点,若存在<a>标签,则认为该网页为列表类型页面,否则该页面为正文类型页面,考虑到自动解析可能存在误判,该步骤支持人工纠错。
S3、Json抽取方案:由S1中得出该页面结构若是Json结构,系统将自动解析Json网页结构,并可视化呈现在页面中,用户只需点击页面中的字段信息,系统即可根据用户的点击生成相应的抽取规则,考虑到本方案可能存在误判,该步骤支持人工纠错。Json是一种轻量级的数据交换格式,它基于 ECMAScript的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据,简洁和清晰的层次结构使得Json成为理想的数据交换语言,易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。
S4、Jsoup抽取方案:由S2中得出该页面结构若是列表类型页面,系统将自动解析列表类型网页结构,将其解析成Dom树结构,并可视化呈现在页面中,用户只需点击页面中任意字段信息,系统即可根据用户的点击生成相应的抽取规则,并高亮该字段与其相关字段,考虑到本方案可能存在误判,该步骤支持人工纠错。Jsoup是一款Java的Html解析器,可直接解析某个 URL地址、HTML文本内容,它提供了一套非常省力的API,可通过DOM、CSS 以及类似于jQuery的操作方法来取出和操作数据。
S5、正文自动抽取方案:由S2中得出该页面结构若是正文类型页面,系统将自动解析正文类型网页结构,将其解析成Dom树结构,并以文本密度最大的节点作为正文,考虑到本方案可能存在误判,该步骤支持人工纠错。
S6、正则表达式抽取方案:是S3、S4和S5的人工纠错方法之一,当S3、 S4和S5这三种抽取方案均无法满足抽取精度的要求时,可以使用本方案。
本发明中,S4中的Jsoup抽取方案是一种半自动可视化地抽取规则生成方案,专门针对列表类型网页的抽取规则生成而设计。
本发明中,S3中的Json抽取方案是一种半自动可视化地抽取规则生成方案,专门针对Json类型网页的抽取规则生成而设计。
本发明中,S5中的正文自动抽取方案是一种基于对文本密度进行概率统计的抽取规则生成方案,专门针对正文类型网页而设计。
本发明中,S5中的文本密度是一种表示正文节点的特征,其算法为Dom 节点中纯文本字符串长度或该节点的字符串长度。
本发明中,S6中的正则表达式抽取方案是为了提高抽取精度,进行人工纠错,并当S3、S4和S5这三种抽取方案均无法满足精度要求而设计。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅用来区别一个“实体”或“操作”与另一个“实体”或“操作”,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (6)
1.一种高效地生成网页信息抽取规则的方法及系统,其特征在于:具体包括以下步骤:
S1、页面结构自动识别以及Html结构与Json结构的判定:首先通过网页信息采集技术获取该网页的源码,分析其结构是通用的Html结构还是Json结构,Html结构与Json结构的判定是通过Html标签来判断Html结构,通过开源Json解析器解析Json结构,考虑到自动解析可能存在误判,该步骤支持人工纠错;
S2、列表类型页面与正文类型页面的判定:由S1中得出该页面结构若是Html结构,还需判定该页面是列表类型页面或正文类型页面,将Html结构网页转化成Dom树结构,自动解析Dom树中的叶子节点,若存在<a>标签,则认为该网页为列表类型页面,否则该页面为正文类型页面,考虑到自动解析可能存在误判,该步骤支持人工纠错;
S3、Json抽取方案:由S1中得出该页面结构若是Json结构,系统将自动解析Json网页结构,并可视化呈现在页面中,用户只需点击页面中的字段信息,系统即可根据用户的点击生成相应的抽取规则,考虑到本方案可能存在误判,该步骤支持人工纠错;
S4、Jsoup抽取方案:由S2中得出该页面结构若是列表类型页面,系统将自动解析列表类型网页结构,将其解析成Dom树结构,并可视化呈现在页面中,用户只需点击页面中任意字段信息,系统即可根据用户的点击生成相应的抽取规则,并高亮该字段与其相关字段,考虑到本方案可能存在误判,该步骤支持人工纠错;
S5、正文自动抽取方案:由S2中得出该页面结构若是正文类型页面,系统将自动解析正文类型网页结构,将其解析成Dom树结构,并以文本密度最大的节点作为正文,考虑到本方案可能存在误判,该步骤支持人工纠错;
S6、正则表达式抽取方案:是S3、S4和S5的人工纠错方法之一,当S3、S4和S5这三种抽取方案均无法满足抽取精度的要求时,可以使用本方案。
2.根据权利要求1所述的一种高效地生成网页信息抽取规则的方法及系统,其特征在于:所述S4中的Jsoup抽取方案是一种半自动化的、可视化的抽取规则生成方案,专门针对列表类型网页的抽取规则生成而设计。
3.根据权利要求1所述的一种高效地生成网页信息抽取规则的方法及系统,其特征在于:所述S3中的Json抽取方案是一种半自动化地、可视化地抽取规则生成方案,专门针对Json类型网页的抽取规则生成而设计。
4.根据权利要求1所述的一种高效地生成网页信息抽取规则的方法及系统,其特征在于:所述S5中的正文自动抽取方案是一种基于对文本密度进行概率统计的抽取规则生成方案,专门针对正文类型网页而设计。
5.根据权利要求1所述的一种高效地生成网页信息抽取规则的方法及系统,其特征在于:所述S5中的文本密度是一种表示正文节点的特征,其算法为Dom节点中纯文本字符串长度或该节点的字符串长度。
6.根据权利要求1所述的一种高效地生成网页信息抽取规则的方法及系统,其特征在于:所述S6中的正则表达式抽取方案是为了提高抽取精度,进行人工纠错,并当S3、S4和S5这三种抽取方案均无法满足精度要求而设计。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911061674.1A CN110837614A (zh) | 2019-11-05 | 2019-11-05 | 一种高效地生成网页信息抽取规则的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911061674.1A CN110837614A (zh) | 2019-11-05 | 2019-11-05 | 一种高效地生成网页信息抽取规则的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110837614A true CN110837614A (zh) | 2020-02-25 |
Family
ID=69576015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911061674.1A Pending CN110837614A (zh) | 2019-11-05 | 2019-11-05 | 一种高效地生成网页信息抽取规则的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110837614A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111966901A (zh) * | 2020-08-17 | 2020-11-20 | 山东亿云信息技术有限公司 | 政策类网页正文提取方法、系统、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101196918A (zh) * | 2007-12-27 | 2008-06-11 | 腾讯科技(深圳)有限公司 | 一种分页方法及分页装置 |
CN102270206A (zh) * | 2010-06-03 | 2011-12-07 | 北京迅捷英翔网络科技有限公司 | 一种有效网页内容的抓取方法及装置 |
CN103294732A (zh) * | 2012-03-05 | 2013-09-11 | 富士通株式会社 | 网页抓取方法及爬虫 |
CN103678511A (zh) * | 2013-11-25 | 2014-03-26 | 北京奇虎科技有限公司 | 根据可视化模板进行网页内容抽取的方法及装置 |
WO2014175148A1 (ja) * | 2013-04-26 | 2014-10-30 | ソニー株式会社 | 受信装置、受信装置における情報処理方法、送信装置、情報処理装置および情報処理方法 |
CN105022803A (zh) * | 2015-07-01 | 2015-11-04 | 广州市万隆证券咨询顾问有限公司 | 一种提取网页正文内容的方法及系统 |
CN108733813A (zh) * | 2018-05-21 | 2018-11-02 | 山东管理学院 | 面向bbs论坛网页内容的信息提取方法、系统及介质 |
CN109543086A (zh) * | 2018-11-23 | 2019-03-29 | 北京信息科技大学 | 一种面向多数据源的网络数据采集与展示方法 |
CN110390037A (zh) * | 2019-07-25 | 2019-10-29 | 中南民族大学 | 基于dom树的信息分类方法、装置、设备及存储介质 |
-
2019
- 2019-11-05 CN CN201911061674.1A patent/CN110837614A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101196918A (zh) * | 2007-12-27 | 2008-06-11 | 腾讯科技(深圳)有限公司 | 一种分页方法及分页装置 |
CN102270206A (zh) * | 2010-06-03 | 2011-12-07 | 北京迅捷英翔网络科技有限公司 | 一种有效网页内容的抓取方法及装置 |
CN103294732A (zh) * | 2012-03-05 | 2013-09-11 | 富士通株式会社 | 网页抓取方法及爬虫 |
WO2014175148A1 (ja) * | 2013-04-26 | 2014-10-30 | ソニー株式会社 | 受信装置、受信装置における情報処理方法、送信装置、情報処理装置および情報処理方法 |
CN103678511A (zh) * | 2013-11-25 | 2014-03-26 | 北京奇虎科技有限公司 | 根据可视化模板进行网页内容抽取的方法及装置 |
CN105022803A (zh) * | 2015-07-01 | 2015-11-04 | 广州市万隆证券咨询顾问有限公司 | 一种提取网页正文内容的方法及系统 |
CN108733813A (zh) * | 2018-05-21 | 2018-11-02 | 山东管理学院 | 面向bbs论坛网页内容的信息提取方法、系统及介质 |
CN109543086A (zh) * | 2018-11-23 | 2019-03-29 | 北京信息科技大学 | 一种面向多数据源的网络数据采集与展示方法 |
CN110390037A (zh) * | 2019-07-25 | 2019-10-29 | 中南民族大学 | 基于dom树的信息分类方法、装置、设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111966901A (zh) * | 2020-08-17 | 2020-11-20 | 山东亿云信息技术有限公司 | 政策类网页正文提取方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20100083095A1 (en) | Method for Extracting Data from Web Pages | |
CN105022803B (zh) | 一种提取网页正文内容的方法及系统 | |
CN102662969B (zh) | 一种基于网页结构语义的互联网信息对象定位方法 | |
CN101609399B (zh) | 基于建模的智能化网站开发系统及方法 | |
CN106446072B (zh) | 网页内容的处理方法和装置 | |
US20110191381A1 (en) | Interactive System for Extracting Data from a Website | |
CN101872350A (zh) | 网页正文抽取方法和装置 | |
CN111737623A (zh) | 网页信息提取方法及相关设备 | |
CN109165373B (zh) | 一种数据处理方法及装置 | |
US20090083300A1 (en) | Document processing device and document processing method | |
CN113868568A (zh) | 一种网页关键字高亮方法、装置、设备及存储介质 | |
CN106570133A (zh) | 一种可视化的网页信息提取规则的构建方法和装置 | |
CN114970502A (zh) | 一种应用于数字政府的文本纠错方法 | |
CN110837614A (zh) | 一种高效地生成网页信息抽取规则的方法及系统 | |
EP1830274A1 (en) | Server device and name space issuing method | |
Liu et al. | An XML-enabled data extraction toolkit for web sources | |
CN112667208A (zh) | 翻译错误识别方法、装置、计算机设备及可读存储介质 | |
CN116244476A (zh) | 基于富文本的预标注前端可视化实现方法及系统 | |
CN113392354B (zh) | 一种网页正文解析方法、系统、介质及电子设备 | |
CN114973798A (zh) | 一种单词学习卡生成方法及装置 | |
CN108959248A (zh) | 一种实体标注方法和装置、计算机可读存储介质 | |
CN115238078A (zh) | 一种网页信息抽取方法、装置、设备及存储介质 | |
CN108132919A (zh) | 一种网页内容抽取的方法 | |
CN107766384A (zh) | 一种确定页面发布时间的方法和装置 | |
CN111966881A (zh) | 一种网页信息提取方法及系统、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200225 |