CN101561802A - 网页结构化数据提取方法与系统 - Google Patents
网页结构化数据提取方法与系统 Download PDFInfo
- Publication number
- CN101561802A CN101561802A CNA2008100362685A CN200810036268A CN101561802A CN 101561802 A CN101561802 A CN 101561802A CN A2008100362685 A CNA2008100362685 A CN A2008100362685A CN 200810036268 A CN200810036268 A CN 200810036268A CN 101561802 A CN101561802 A CN 101561802A
- Authority
- CN
- China
- Prior art keywords
- structural data
- web page
- webpage
- training
- regular expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
一种网页结构化数据提取方法,其特征在于包括以下步骤:选择训练网页内容集并提取目标结构化数据;训练所述训练网页内容集获得与所述目标结构化数据匹配的正则表达式;将所述正则表达式写入配置模板;利用所述配置模板采集网页;从所述采集网页中提取结构化数据。依据本发明所提出的网页结构化数据提取方法与系统,可以实现对静态网页和动态网页的结构化数据提取,适用于获取任何类型的网站信息内容并提取结构化数据。
Description
技术领域
本发明是一种网络信息采集技术,具体涉及一种网页结构化数据提取的系统和方法,属于网络信息技术领域。
背景技术
随着网络信息技术的发展,网站、论坛、博克等网页信息越来越大,搜索引擎、内容分析、舆情分析等技术都是对这些信息进行某种分析处理的,它们都用到了网络爬虫这一种技术。网络爬虫,又名网络蜘蛛,是一种对网页连接进行自动分析,并自动获取信息存储到本地的数据采集方法。目前,不仅仅搜索引擎,还有很多的应用将网络爬虫作为数据采集的主要来源,如网络内容智能化分析;不仅仅需要传统的关键词检索,还需要多种页面上结构化数据/非结构化数据的挖掘分析。因此,传统的仅仅下载网页的网络爬虫已经越来越不适合发展的需要了,需要开发新的能够自动提取网络结构化数据/非结构化数据的网络爬虫。
目前,对网页结构化数据进行提取的功能在很多网络爬虫系统和产品中都出现过,但是,在方法和技术上都有一定的局限性,导致在实际的应用上遇到了一些困难:
1.对结构化数据的提取直接在程序内设定某个网站或者某类页面字段规则,从而提取出结构化数据。这样的做法限制了网页结构化数据提取的应用范围,只能局限在类似的网页内进行。
2.对某类字段,如时间,按照网页一般放置的区域,设定查询的半径范围来进行结构化数据提取。这种方法具有一定的自适应性,但是,网页的数据结构是千变万化的,不仅仅同类字段的放置区域、半径范围很难统一起来,而且绝大部分的字段是很难用这种方法来实现的。
3.直接采用模板配置的方式。一些网络爬虫通过读取外部的配置文件,从而减少对不同类型的网站都需要制作不同的应用程序的麻烦。但是,这些配置文件的制作,往往需要非常熟悉网页设计的人员来制作,这就对用户的计算机软件知识提出了要求,限制了用户范围。
4.不同网站的频道、版块、深度、广告、用户关注信息等网站结构是不同的,针对这种情况,目前还没有网络爬虫开发让用户自主的选择后,再进行相关页面自动采集的方法;
5.大量的javascript脚本语言在网页上被采用,针对如何提取由javascript所控制的机构化数据,目前的网络爬虫仍然缺乏行之有效的方法。
由此可见,在网络爬虫应用范围不断扩大的情况下,对网页的结构化数据提取提出了更高的要求,而现有的网络爬虫技术和产品还无法完全满足更高的智能化的数据采集要求。
发明内容
本发明的目的主要是针对现有网络爬虫在结构化数据提取中存在的缺陷,提出一种网页结构化数据提取方法与系统,它主要是通过对同类网页相同字段的正则表达式训练自动制作配置模板,使得用户不需要掌握专业的计算机知识就可以实现数据采集,扩展了现有网络爬虫的应用范围,提升了网络爬虫的整体效能。
为实现上述目的,本发明提供一种网页结构化数据提取方法,其特征在于包括以下步骤:
选择训练网页内容集并提取目标结构化数据;
训练所述训练网页内容集获得与所述目标结构化数据匹配的正则表达式;
将所述正则表达式写入配置模板;
利用所述配置模板采集网页;
从所述采集网页中提取结构化数据。
所述的网页结构化数据提取方法,其特征在于所述训练所述训练网页内容集获得与所述目标结构化数据匹配的正则表达式的步骤包括以下步骤:
第一步,提取出所述训练网页内容集内各页面内的所述目标结构化数据的位置;
第二步,利用字符串处理方法,得出所述目标结构化数据的前后紧邻第一个字符,形成界定所述目标结构化数据的正则表达式;
第三步,利用所述正则表达式,在所述训练网页集内提取结构化数据;
第四步,如果所述结构化数据与所述目标结构化数据一致,转下一步骤;否则,继续加入前后字符,返回至第二步;
第五步,增加测试网页,利用所述正则表达式在所述测试网页内提取测试网页结构化数据,如果所述测试网页结构化数据与所述目标结构化数据一致,则所述正则表达式与所述目标结构化数据匹配;否则,将所述测试网页添加至所述训练网页内容集,返回至第一步。
为了支持从含有JavaScript脚本语言的网页提取结构化数据,所述的网页结构化数据提取方法,其特征还在于所述训练所述训练网页内容集获得与所述目标结构化数据匹配的正则表达式的步骤还可以利用JavaScript解析库生成URL超链接。
为了支持从含有JavaScript脚本语言的网页提取结构化数据,所述的网页结构化数据提取方法,其特征在于所述利用所述配置模板采集网页的步骤还可以利用JavaScript解析库生成URL超链接。
本发明还提供了一种网页结构化数据提取系统,其特征在于包括:
人机交互模块,用于选择训练网页内容集并提取目标结构化数据;
正则表达式训练模块,用于训练所述训练网页内容集获得与所述目标结构化数据匹配的正则表达式,并将所述正则表达式写入配置模板;
网页获取模块,用于利用所述配置模板采集网页;
结构化数据提取模块,用于从所述采集网页中提取结构化数据。
所述的网页结构化数据提取系统,其特征在于还包括感兴趣版面记录模块,记录已访问网页的页面路径,并供所述人机交互模块调用。
所述的网页结构化数据提取系统,其特征在于所述网页获取模块采用socket仿http协议,实现多线程的网页采集。
所述的网页结构化数据提取系统,其特征在于还包括代理调度模块,根据所述网页获取模块的需要轮换选择所需的代理服务器。
所述的网页结构化数据提取系统,其特征在于还包括JavaScript解析模块,利用JavaScript解析库,对网页内的JavaScript代码进行解析,为所述正则表达式训练模块和所述网页获取模块提供网页超链接。
所述的网页结构化数据提取系统,其特征在于还包括数据入库模块,将所述结构化数据提取模块提取的所述结构化数据存储至本地数据库。
本发明提出的网页结构化数据提取方法与系统,实现了对静态网页和动态网页的结构化数据提取,充分利用了正则表达式训练和JavaScript解析的技术,有效地解决了网站数据结构千变万化的问题,适用于获取任何类型的网站信息内容,并提取结构化数据。
附图说明
图1是本发明一实施方式网页结构化数据提取系统的结构流程图;
图2是图1中人机交互模块的流程图;
图3是图1中正则表达式训练模块的流程图;
图4是图1中JavaScript解析模块的流程图;
图5是图1中结构化数据提取模块的流程图。
具体实施方式
下面结合附图对本发明的实施方式进行详细说明。
如图1所示,是整个系统的模块框图。其中人机交互模块与感兴趣版面记录模块相连,用户通过人机交互模块调用感兴趣版面记录模块;人机交互模块又与正则表达式训练模块相连;正则表达式训练模块与javascript解析模块相连,当训练网页内有javascript脚本时,正则表达式训练模块调用javascript解析模块;网页获取模块与代理调度模块相连,当网页采集需要通过代理时,网页获取模块调用代理调度模块;网页获取模块又与结构化数据提取模块相连,网页获取模块得到的数据递交给结构化数据提取模块。结构化数据提取模块与javascript解析模块相连,当网页内有javascript脚本时,结构化数据模块调用javascript解析模块;结构化数据提取模块提取完结构化数据后,递交给数据入库模块,存入本地数据库系统;系统管理模块管理整个系统的运行。
如图2所示,是人机交互模块流程图。从图中我们可以看到,人机交互模块主要和需要人工参与的功能相关,这里主要是采集网站和版面的选择,以及配置模板的训练。人机交互模块的主要操作有:用户从用户界面登陆到系统,输入需要采集的网站url,选定感兴趣版面,然后选择内容训练集,人工提取训练集结构化数据,再进行训练,通过测试新的网页对训练结果进行评估,如果测试评估正确,直接输出配置文件;如果测试评估不正确,加入测试也到训练集中,进行新一轮的训练。
如图3所示,是正则表达式训练模块流程图。人工准备好的训练集输入训练,首先训练模块定位出每个训练页面相关结构化数据的位置集{POS},如果位置为空,说明是javascript输出,调用javascript解析模块进行解析;如果位置不为空,进入下一步。求出每个结构化数据所在位置前后紧邻相同字符串集{PREV,NEXT},得到正则表达式,然后用新球到的正则表达式在训练文档中试提取结构化数据,如果具有不同于目标结构化数据的元素,即继续转到训练步骤,扩大前后紧邻相同字符串,直到得出的正则表达式唯一的确定出结构化数据。进入训练结构测试阶段,选择新的同类网页进行测试,如果测试错误,将新的训练网页加入训练集,重新训练;如果测试成功,生成最终的正则表达式,从而生成最终的配置模板。
如图4所示,描述了javascript解析模块流程。该模块用于url提取、正则表达式训练模块和结构化数据提取模块。首先,将含有javascript脚本的网页内容输入,提取出所有javascript代码和相关的html,然后调用javasript解析器对javascript代码进行解析,最终生成完整的字符串。
如图5所示,描述了结构化数据提取模块流程。输入测试网页,调用配置模板,提取出正则表达式,如果遇到有javascript的网页,还要调用javascript解析模块进行解析,然后用正则表达式提取出结构化数据,进行数据抽取,最后调用数据入库模块,将提取出的结构化数据写入本地数据库系统。
从上述实施过程可以看出,本发明通过采用正则表达式训练+javascript解析+感兴趣版面记录+人性化交互的技术,有效地实现了针对各种类型网站的数据采集和结构化数据提取,具有普遍的适用性,为网络信息智能化分析提供了数据采集的可靠方法。
本发明具有实质性特点和显著进步:(1)采用正则表达式训练的方法自动提取网站的配置模板,大大提高了网络爬虫的适应性,扩展了网络爬虫的应用范围;(2)通过对javascript的解析,能够提取动态生成的字段,使得整个爬虫系统基本上对任何类型的网站,普遍具有通用性;(3)系统考虑了人机结合的方式,大大方便了用户的使用,更加自动化的模板制作提高了系统的稳定性。
虽然以上描述了本发明的具体实施方式,但是本技术领域内的熟练人员应当理解,这些仅是举例说明,可以对这些实施方式做出多种变更或修改,而不背离本发明的原理和实质。本发明的范围仅有所附权利要求书限定。
Claims (10)
1.一种网页结构化数据提取方法,其特征在于包括以下步骤:
选择训练网页内容集并提取目标结构化数据;
训练所述训练网页内容集获得与所述目标结构化数据匹配的正则表达式;
将所述正则表达式写入配置模板;
利用所述配置模板采集网页;
从所述采集网页中提取结构化数据。
2.根据权利要求1所述的网页结构化数据提取方法,其特征在于所述训练所述训练网页内容集获得与所述目标结构化数据匹配的正则表达式的步骤包括以下步骤:
第一步,提取出所述训练网页内容集内各页面内的所述目标结构化数据的位置;
第二步,利用字符串处理方法,得出所述目标结构化数据的前后紧邻第一个字符,形成界定所述目标结构化数据的正则表达式;
第三步,利用所述正则表达式,在所述训练网页集内提取结构化数据;
第四步,如果所述结构化数据与所述目标结构化数据一致,转下一步骤;否则,继续加入前后字符,返回至第二步;
第五步,增加测试网页,利用所述正则表达式在所述测试网页内提取测试网页结构化数据,如果所述测试网页结构化数据与所述目标结构化数据一致,则所述正则表达式与所述目标结构化数据匹配;否则,将所述测试网页添加至所述训练网页内容集,返回至第一步。
3.根据权利要求1或2所述的网页结构化数据提取方法,其特征在于所述训练所述训练网页内容集获得与所述目标结构化数据匹配的正则表达式的步骤还可以利用JavaScript解析库生成URL超链接。
4.根据权利要求1或2所述的网页结构化数据提取方法,其特征在于所述利用所述配置模板采集网页的步骤还可以利用JavaScript解析库生成URL超链接。
5.一种网页结构化数据提取系统,其特征在于包括:
人机交互模块,用于选择训练网页内容集并提取目标结构化数据;
正则表达式训练模块,用于训练所述训练网页内容集获得与所述目标结构化数据匹配的正则表达式,并将所述正则表达式写入配置模板;
网页获取模块,用于利用所述配置模板采集网页;
结构化数据提取模块,用于从所述采集网页中提取结构化数据。
6.根据权利要求5所述的网页结构化数据提取系统,其特征在于还包括感兴趣版面记录模块,记录已访问网页的页面路径,并供所述人机交互模块调用。
7.根据权利要求5所述的网页结构化数据提取系统,其特征在于所述网页获取模块采用socket仿http协议,实现多线程的网页采集。
8.根据权利要求5所述的网页结构化数据提取系统,其特征在于还包括代理调度模块,根据所述网页获取模块的需要轮换选择所需的代理服务器。
9.根据权利要求5所述的网页结构化数据提取系统,其特征在于还包括JavaScript解析模块,利用javascript解析库,对网页内的javascript代码进行解析,为所述正则表达式训练模块和所述网页获取模块提供网页超链接。
10.根据权利要求5所述的网页结构化数据提取系统,其特征在于还包括数据入库模块,将所述结构化数据提取模块提取的所述结构化数据存储至本地数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008100362685A CN101561802A (zh) | 2008-04-18 | 2008-04-18 | 网页结构化数据提取方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008100362685A CN101561802A (zh) | 2008-04-18 | 2008-04-18 | 网页结构化数据提取方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101561802A true CN101561802A (zh) | 2009-10-21 |
Family
ID=41220609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2008100362685A Pending CN101561802A (zh) | 2008-04-18 | 2008-04-18 | 网页结构化数据提取方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101561802A (zh) |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101957866A (zh) * | 2010-10-25 | 2011-01-26 | 中国农业大学 | 网络文本信息集成方法和装置 |
CN101976261A (zh) * | 2010-11-04 | 2011-02-16 | 上海银杏界信息科技有限公司 | 网页数据存储与搜索方法 |
WO2011050545A1 (zh) * | 2009-10-30 | 2011-05-05 | 中山大学 | 一种未知应用层协议自动分析方法 |
CN102073670A (zh) * | 2010-10-26 | 2011-05-25 | 百度在线网络技术(北京)有限公司 | 一种用于调试在线网页模板的方法、设备及系统 |
CN102103612A (zh) * | 2009-12-22 | 2011-06-22 | 北大方正集团有限公司 | 一种信息提取方法及装置 |
CN102682109A (zh) * | 2012-05-09 | 2012-09-19 | 北京彼速信息技术有限公司 | 一种专利信息解析方法和装置 |
CN102750372A (zh) * | 2012-06-15 | 2012-10-24 | 翁时锋 | 自动获取网页结构化信息的分析方法 |
CN103034631A (zh) * | 2011-09-30 | 2013-04-10 | 姚亚平 | 基于静态网页的分析方法 |
CN103092817A (zh) * | 2013-01-18 | 2013-05-08 | 五八同城信息技术有限公司 | 一种基于脚本引擎的数据采集方法和装置 |
CN103313289A (zh) * | 2012-03-09 | 2013-09-18 | 腾讯科技(深圳)有限公司 | Wap系统自动化测试系统和方法 |
CN103810091A (zh) * | 2012-11-12 | 2014-05-21 | 百度在线网络技术(北京)有限公司 | 一种用于实现页面测试的方法和设备 |
CN103927367A (zh) * | 2014-04-22 | 2014-07-16 | 上海数据分析与处理技术研究所 | 基于事件的微博采集系统及方法 |
CN104050281A (zh) * | 2014-06-26 | 2014-09-17 | 北京思特奇信息技术股份有限公司 | 一种基于http协议的网页信息提取方法及装置 |
CN104252532A (zh) * | 2014-09-11 | 2014-12-31 | 北京优特捷信息技术有限公司 | 一种统计网站信息的方法及装置 |
CN104462547A (zh) * | 2014-12-25 | 2015-03-25 | 深圳联友科技有限公司 | 一种可配置的网页数据采集的方法及系统 |
CN104462140A (zh) * | 2013-09-24 | 2015-03-25 | 北大方正集团有限公司 | 网页数据采集方法及装置 |
CN104915334A (zh) * | 2015-05-29 | 2015-09-16 | 浪潮软件集团有限公司 | 一种基于语义分析的招投标项目关键信息自动化提取方法 |
CN105138531A (zh) * | 2015-06-26 | 2015-12-09 | 毛富华 | 一种微视名片使用方法 |
CN105574086A (zh) * | 2015-12-10 | 2016-05-11 | 天津海量信息技术有限公司 | 对互联网非结构化数据字段的人工智能萃取方法 |
CN105654022A (zh) * | 2014-11-12 | 2016-06-08 | 北大方正集团有限公司 | 一种提取文档结构化信息的方法及装置 |
CN105718580A (zh) * | 2016-01-25 | 2016-06-29 | 江苏国泰新点软件有限公司 | 一种提供招投标信息搜索服务的方法和装置 |
CN105989167A (zh) * | 2015-03-04 | 2016-10-05 | 北大方正集团有限公司 | 基于新闻客户端的数据采集方法及装置 |
CN103902578B (zh) * | 2012-12-27 | 2017-05-31 | 中国移动通信集团四川有限公司 | 一种网页信息抽取方法和装置 |
CN106874495A (zh) * | 2017-02-23 | 2017-06-20 | 山东浪潮云服务信息科技有限公司 | 基于机器学习建模抽取网页结构的方法 |
CN107085610A (zh) * | 2017-04-26 | 2017-08-22 | 温州市鹿城区中津先进科技研究院 | 一种智能化非结构化数据处理方法 |
CN107239891A (zh) * | 2017-05-26 | 2017-10-10 | 山东省科学院情报研究所 | 一种基于大数据的招投标审核方法 |
CN107256274A (zh) * | 2017-06-29 | 2017-10-17 | 麦格创科技(深圳)有限公司 | 网页的智能采集方法及系统 |
CN107577788A (zh) * | 2017-09-15 | 2018-01-12 | 广东技术师范学院 | 一种自动结构化数据的电商网站主题爬虫方法 |
CN107918674A (zh) * | 2017-12-12 | 2018-04-17 | 携程旅游网络技术(上海)有限公司 | 网页数据的采集方法及其系统、存储介质、电子设备 |
CN108062422A (zh) * | 2018-01-22 | 2018-05-22 | 中国平安人寿保险股份有限公司 | 一种分页查询的排序方法、智能终端、系统及存储介质 |
CN108664535A (zh) * | 2017-04-01 | 2018-10-16 | 北京京东尚科信息技术有限公司 | 信息输出方法和装置 |
WO2019000303A1 (zh) * | 2017-06-29 | 2019-01-03 | 麦格创科技(深圳)有限公司 | 网页的智能采集方法及系统 |
CN109885610A (zh) * | 2019-02-13 | 2019-06-14 | 北京百度网讯科技有限公司 | 一种结构化数据的抽取方法、装置、电子设备及存储介质 |
CN110019441A (zh) * | 2017-08-31 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 一种将网页中数据导出的方法和装置 |
CN113254751A (zh) * | 2021-06-24 | 2021-08-13 | 北森云计算有限公司 | 一种复杂网页结构化信息精确提取方法、设备及存储介质 |
-
2008
- 2008-04-18 CN CNA2008100362685A patent/CN101561802A/zh active Pending
Cited By (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011050545A1 (zh) * | 2009-10-30 | 2011-05-05 | 中山大学 | 一种未知应用层协议自动分析方法 |
CN102103612A (zh) * | 2009-12-22 | 2011-06-22 | 北大方正集团有限公司 | 一种信息提取方法及装置 |
CN101957866A (zh) * | 2010-10-25 | 2011-01-26 | 中国农业大学 | 网络文本信息集成方法和装置 |
CN102073670A (zh) * | 2010-10-26 | 2011-05-25 | 百度在线网络技术(北京)有限公司 | 一种用于调试在线网页模板的方法、设备及系统 |
CN102073670B (zh) * | 2010-10-26 | 2013-01-16 | 百度在线网络技术(北京)有限公司 | 一种用于调试在线网页模板的方法、设备及系统 |
CN101976261A (zh) * | 2010-11-04 | 2011-02-16 | 上海银杏界信息科技有限公司 | 网页数据存储与搜索方法 |
CN103034631A (zh) * | 2011-09-30 | 2013-04-10 | 姚亚平 | 基于静态网页的分析方法 |
CN103313289B (zh) * | 2012-03-09 | 2016-05-11 | 腾讯科技(深圳)有限公司 | Wap系统自动化测试系统和方法 |
CN103313289A (zh) * | 2012-03-09 | 2013-09-18 | 腾讯科技(深圳)有限公司 | Wap系统自动化测试系统和方法 |
CN102682109B (zh) * | 2012-05-09 | 2014-07-16 | 北京彼速信息技术有限公司 | 一种专利信息解析方法和装置 |
CN102682109A (zh) * | 2012-05-09 | 2012-09-19 | 北京彼速信息技术有限公司 | 一种专利信息解析方法和装置 |
CN102750372A (zh) * | 2012-06-15 | 2012-10-24 | 翁时锋 | 自动获取网页结构化信息的分析方法 |
CN103810091A (zh) * | 2012-11-12 | 2014-05-21 | 百度在线网络技术(北京)有限公司 | 一种用于实现页面测试的方法和设备 |
CN103810091B (zh) * | 2012-11-12 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 一种用于实现页面测试的方法和设备 |
CN103902578B (zh) * | 2012-12-27 | 2017-05-31 | 中国移动通信集团四川有限公司 | 一种网页信息抽取方法和装置 |
CN103092817A (zh) * | 2013-01-18 | 2013-05-08 | 五八同城信息技术有限公司 | 一种基于脚本引擎的数据采集方法和装置 |
CN104462140A (zh) * | 2013-09-24 | 2015-03-25 | 北大方正集团有限公司 | 网页数据采集方法及装置 |
CN103927367A (zh) * | 2014-04-22 | 2014-07-16 | 上海数据分析与处理技术研究所 | 基于事件的微博采集系统及方法 |
CN104050281A (zh) * | 2014-06-26 | 2014-09-17 | 北京思特奇信息技术股份有限公司 | 一种基于http协议的网页信息提取方法及装置 |
CN104252532A (zh) * | 2014-09-11 | 2014-12-31 | 北京优特捷信息技术有限公司 | 一种统计网站信息的方法及装置 |
CN105654022A (zh) * | 2014-11-12 | 2016-06-08 | 北大方正集团有限公司 | 一种提取文档结构化信息的方法及装置 |
CN104462547B (zh) * | 2014-12-25 | 2019-04-02 | 深圳联友科技有限公司 | 一种可配置的网页数据采集的方法及系统 |
CN104462547A (zh) * | 2014-12-25 | 2015-03-25 | 深圳联友科技有限公司 | 一种可配置的网页数据采集的方法及系统 |
CN105989167A (zh) * | 2015-03-04 | 2016-10-05 | 北大方正集团有限公司 | 基于新闻客户端的数据采集方法及装置 |
CN104915334A (zh) * | 2015-05-29 | 2015-09-16 | 浪潮软件集团有限公司 | 一种基于语义分析的招投标项目关键信息自动化提取方法 |
CN105138531A (zh) * | 2015-06-26 | 2015-12-09 | 毛富华 | 一种微视名片使用方法 |
CN105574086A (zh) * | 2015-12-10 | 2016-05-11 | 天津海量信息技术有限公司 | 对互联网非结构化数据字段的人工智能萃取方法 |
CN105718580A (zh) * | 2016-01-25 | 2016-06-29 | 江苏国泰新点软件有限公司 | 一种提供招投标信息搜索服务的方法和装置 |
CN106874495A (zh) * | 2017-02-23 | 2017-06-20 | 山东浪潮云服务信息科技有限公司 | 基于机器学习建模抽取网页结构的方法 |
CN108664535A (zh) * | 2017-04-01 | 2018-10-16 | 北京京东尚科信息技术有限公司 | 信息输出方法和装置 |
CN107085610A (zh) * | 2017-04-26 | 2017-08-22 | 温州市鹿城区中津先进科技研究院 | 一种智能化非结构化数据处理方法 |
CN107239891A (zh) * | 2017-05-26 | 2017-10-10 | 山东省科学院情报研究所 | 一种基于大数据的招投标审核方法 |
CN107239891B (zh) * | 2017-05-26 | 2021-06-15 | 山东省科学院情报研究所 | 一种基于大数据的招投标审核方法 |
CN107256274A (zh) * | 2017-06-29 | 2017-10-17 | 麦格创科技(深圳)有限公司 | 网页的智能采集方法及系统 |
WO2019000303A1 (zh) * | 2017-06-29 | 2019-01-03 | 麦格创科技(深圳)有限公司 | 网页的智能采集方法及系统 |
CN110019441A (zh) * | 2017-08-31 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 一种将网页中数据导出的方法和装置 |
CN107577788A (zh) * | 2017-09-15 | 2018-01-12 | 广东技术师范学院 | 一种自动结构化数据的电商网站主题爬虫方法 |
CN107918674A (zh) * | 2017-12-12 | 2018-04-17 | 携程旅游网络技术(上海)有限公司 | 网页数据的采集方法及其系统、存储介质、电子设备 |
CN108062422A (zh) * | 2018-01-22 | 2018-05-22 | 中国平安人寿保险股份有限公司 | 一种分页查询的排序方法、智能终端、系统及存储介质 |
CN108062422B (zh) * | 2018-01-22 | 2020-06-26 | 中国平安人寿保险股份有限公司 | 一种分页查询的排序方法、智能终端、系统及存储介质 |
CN109885610A (zh) * | 2019-02-13 | 2019-06-14 | 北京百度网讯科技有限公司 | 一种结构化数据的抽取方法、装置、电子设备及存储介质 |
CN113254751A (zh) * | 2021-06-24 | 2021-08-13 | 北森云计算有限公司 | 一种复杂网页结构化信息精确提取方法、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101561802A (zh) | 网页结构化数据提取方法与系统 | |
CN100442283C (zh) | 面向领域基于样本的互联网结构化数据抽取方法及其系统 | |
CN101609399B (zh) | 基于建模的智能化网站开发系统及方法 | |
CN101299217B (zh) | 一种地图信息处理的方法、装置和系统 | |
CN102567407B (zh) | 一种论坛回帖增量采集方法及系统 | |
CN101501684A (zh) | 包装器生成和模板检测的联合优化 | |
CN103443786A (zh) | 识别网络浏览器中的并行布局的独立任务的机器学习方法 | |
CN103023714A (zh) | 基于网络话题的活跃度与集群结构分析系统及方法 | |
CN103279567A (zh) | 一种基于AJAX的Web数据采集方法及系统 | |
CN104182506A (zh) | 日志管理方法 | |
CN102737021B (zh) | 搜索引擎及其实现方法 | |
CN101794277B (zh) | 一种网络文字信息中嵌入地理标签的方法及系统 | |
CN103309884A (zh) | 用户行为数据采集方法及系统 | |
CN104699841A (zh) | 提供搜索结果的列表摘要信息的方法和装置 | |
CN102970348A (zh) | 网络应用推送方法、系统和网络应用服务器 | |
CN102968451A (zh) | 浏览器格式页面中加载网址数据的方法和客户端 | |
CN104615748A (zh) | 基于Watir的物联网Web事件处理方法 | |
CN103577566A (zh) | 一种网页阅读内容加载方法和装置 | |
CN104991904A (zh) | 一种动态网页的页面数据采集方法 | |
CN102664925A (zh) | 一种展现搜索结果的方法及装置 | |
CN106294885A (zh) | 一种面向异构网页的数据收集与标注方法 | |
CN105721578A (zh) | 一种用户行为数据采集方法和系统 | |
CN103838862A (zh) | 一种视频搜索的方法、装置及终端 | |
CN101763432A (zh) | 一种轻量级网页动态视图快速构建方法 | |
CN100485690C (zh) | 一种策略导向的面向领域的互联网信息采集方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20091021 |