CN105468664A - 一种信息采集方法及装置 - Google Patents
一种信息采集方法及装置 Download PDFInfo
- Publication number
- CN105468664A CN105468664A CN201510239833.8A CN201510239833A CN105468664A CN 105468664 A CN105468664 A CN 105468664A CN 201510239833 A CN201510239833 A CN 201510239833A CN 105468664 A CN105468664 A CN 105468664A
- Authority
- CN
- China
- Prior art keywords
- information
- collection
- website
- information source
- source website
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种信息采集方法及装置,用于克服现有技术中的上述技术问题。方法包括:获取信息源网站,对所述信息源网站进行分析,根据对所述信息源网站的分析结果定制对应的信息采集规则;根据定制的采集规则以及采集执行参数设置,调度信息采集请求,以从所述信息源网站的地址中抓取非结构化的目标信息并进行结构化处理,从而避免了现有技术中注入政府采购信息更多的依赖于人工采集和整理后进行结构化恢复导致采集或者收集政府采购信息的过程繁琐,成本较高等问题。
Description
技术领域
本申请属于信息采集技术领域,具体地说,涉及一种信息采集方法及装置。
背景技术
政府采购(GovernmentProcurement)是指国家各级政府为从事日常的政务活动或为了满足公共服务的目的,利用国家财政性资金和政府借款购买货物、工程和服务的行为。
政府采购信息通常以招投标公告和附件的非结构化文本、文件形式公开在网页等渠道中,这些文本或者文件一般都是由人工维护编写。而且政府采购信息的发布渠道来源非常多和杂,可能会在相关的各级省市区县地的政府网站、商业网站、其他机构等网站上发布。发布站点经常是综合站,甚至有些采购信息发布的栏目也会同时发布其他综合信息。同时,发布中会经常出现一则采购公告信息,该采购公告信息可能会在在多级政府站点上多次发布,且不同发布站点上发送的内容格式还可能存在差异。
上述政府采购信息更多的依赖于人工采集和整理后进行结构化恢复。但是,一方面,由于发布的公文由人工维护编写,经常会出现疏漏错误,公文格式没有统一的规范,公文有可能受限于发布网站的技术限制通常会直接用图片展现文件;另外一方面,由于发布的渠道多而杂。上述这两方面导致采集或者收集政府采购信息的过程繁琐,成本较高。
发明内容
本申请所要解决的技术问题是提供一种信息采集方法及装置,用于克服现有技术中的上述技术问题。
为了解决上述技术问题,本申请提供了一种信息采集方法,其包括:
获取信息源网站,对所述信息源网站进行分析,根据对所述信息源网站的分析结果定制对应的信息采集规则;
根据定制的采集规则以及采集执行参数设置,调度信息采集请求,以从所述信息源网站的地址中抓取非结构化的目标信息并进行结构化处理。
优选地,在本发明的一实施例中,所述获取信息源网站,对所述信息源网站进行分析包括:
获取所述信息源网站的起始页面、网页结构以及包含有所述目标信息的最终url地址以及访问所述最终URL地址所需迭代采集的次数。
优选地,在本发明的一实施例中,所述信息采集规则包括:其中的一种或任意组合:站点结构设置、采集区域及栏目设置、采集链路逻辑设置、模拟http请求数据设置、具体信息采集设置;所述站点结构设置用于设置站点采集的起始页面或起始页面规则;所述采集区域及栏目设置以及采集链路逻辑设置用于分析网页结构,迭代逐层获取到所述目标信息的最终url地址;所述采集链路用于控制迭代采集的次数;所述模拟http请求数据设置用于配置访问所述信息源网站的请求;所述具体信息采集设置用于针对需要的信息项定制的页面获取逻辑,获取初步结构化的目标信息。
优选地,在本发明的一实施例中,所述采集规则还包括网址模式匹配和排除规则和附件处理规则,所述网址模式匹配和排除规则用于使用urlpattern模式限制采集的范围,所述附件处理设置用于针对需要信息源网站中目标信息包括的附件的采集设置。
优选地,在本发明的一实施例中,所述采集执行参数设置包括时间设置和任务设置,所述时间设置用于控制所述信息采集规则在匹配的时间进行运行,所述任务设置于对不同的信息采集请求进行优先级排序。
优选地,在本发明的一实施例中,所述采集执行参数设置还包括:模拟登录设置、代理ip设置、特殊验证信息处理接口。
优选地,在本发明的一实施例中,还包括:设计监控规则,根据所述监控规则对所述信息采集规则进行监控,以确定每一条所述信息采集规则的异常。
优选地,在本发明的一实施例中,所述根据对所述信息源网站的分析结果定制对应的信息采集规则包括:通过图形化配置页面定制对应的信息采集规则。
为了解决上述技术问题,本申请提供了一种信息采集装置,其包括:
规则配置单元,用于获取信息源网站,对所述信息源网站进行分析,根据对所述信息源网站的分析结果定制对应的信息采集规则;
采集单元,用于根据定制的采集规则以及采集执行参数设置,调度信息采集请求,以从所述信息源网站的地址中抓取非结构化的目标信息并进行结构化处理。
优选地,在本发明的一实施例中,还包括:调度模块,用于调度信息采集请求;抓取单元,用于从所述信息源网站的地址中抓取非结构化的目标信息;处理单元,用于对所述非结构信息进行结构化处理。
与现有的方案相比,本申请所获得的技术效果:首先,获取信息源网站,对所述信息源网站进行分析,根据对所述信息源网站的分析结果定制对应的信息采集规则;其次,根据定制的采集规则以及采集执行参数设置,调度信息采集请求,以从所述信息源网站的地址中抓取非结构化的目标信息并进行结构化处理,从而避免了现有技术中注入政府采购信息更多的依赖于人工采集和整理后进行结构化恢复导致采集或者收集政府采购信息的过程繁琐,成本较高等问题。
附图说明
图1为本申请实施例一信息采集方法的流程示意图;
图2为本申请实施例二信息采集方法的流程示意图;
图3为本申请实施例三信息采集方法的流程示意图;
图4为本申请实施例四信息采集方法的流程示意图。
具体实施方式
以下将配合图式及实施例来详细说明本申请的实施方式,藉此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
下述本申请实施例中,通过获取信息源网站,对所述信息源网站进行分析,根据对所述信息源网站的分析结果定制对应的信息采集规则;其次,根据定制的采集规则以及采集执行参数设置,调度信息采集请求,以从所述信息源网站的地址中抓取非结构化的目标信息并进行结构化处理,从而避免了现有技术中注入政府采购信息更多的依赖于人工采集和整理后进行结构化恢复导致采集或者收集政府采购信息的过程繁琐,成本较高等问题。
图1为本申请实施例一信息采集方法的流程示意图;如图1所示,其可以包括:
S101、获取信息源网站,对所述信息源网站进行分析,根据对所述信息源网站的分析结果定制对应的信息采集规则;
本实施例中,步骤S101中,所述获取信息源网站,对所述信息源网站进行分析具体可以包括:
获取所述信息源网站的起始页面、网页结构以及包含有所述目标信息的最终url地址以及访问所述最终URL地址所需迭代采集的次数。
起始页面一般是指站点的主页,主页是一个网站的开始,一般主页的名称是固定的index.htm或index.html等。对于网页结构来说就是一个一个的页面之间用超级链接组合起来,一般一个站点有一个主页面,然后就分级别逐层向下,不断链接。目标信息可能存在于3级页面之下,因此,通常需要一个列表打开后还有一个列表页,如此3层才是最终的内容页。所谓迭代采集的次数是指一起始页面开始,打开几层次级页面才能最终发现目标信息。
因此,所述信息采集规则包括其中的一种或任意组合:站点结构设置、采集区域及栏目设置、采集链路逻辑设置、模拟http请求数据设置、具体信息采集设置;所述站点结构设置用于设置站点采集的起始页面或起始页面规则;所述采集区域及栏目设置以及采集链路逻辑设置用于分析网页结构,比如从主页到“招标”、“中标”等栏目,再从这些栏目的列表页面到公告内容明细页;所述采集链路用于控制迭代采集的次数,与采集区域及栏目设置操作和采集链路逻辑设置配合一起完成迭代逐层获取到所述目标信息的最终url地址。采集区域包括页面展现中哪部分区域是有效的url产生区域,根据这个区域中url获取再次迭代的url部分;所述模拟http请求数据设置用于配置访问所述信息源网站的请求,即实现模拟登录,该模拟登陆过程主要是用程序模拟在浏览器页面上填写用户名、密码等信息,完成登录过程的操作;所述具体信息采集设置用于针对需要的信息项定制的页面获取逻辑,获取初步结构化的目标信息。
所述采集规则还包括网址模式匹配和排除规则和附件处理规则,所述网址模式匹配和排除规则用于使用urlpattern模式限制采集的范围。网址模式匹配和排除主要方便简化设置复杂度,用urlpattern模式限制范围,可以限制采集链路中任何一个环节的。比如可以限制url必须是http://www.xxx.com/id/1234这种模式的,或者url中不能包含test文本等。所述附件处理设置用于针对需要信息源网站中目标信息包括的附件的采集设置。附件包括网页中的图片、网页中的附件。附件处理设置会包括图片附件下载异步进行、下载验证、下载文件的保存方式等,避免和采集网页同时进行会比较慢,干扰正常流量,下载之后如zip,rar压缩文件的处理等。
本实施例中,所述根据对所述信息源网站的分析结果定制对应的信息采集规则包括:通过图形化配置页面定制对应的信息采集规则,通过可视化的操作界面,实现方便快速地配置针对具体网站信息采集的规则配置过程。
S102、根据定制的采集规则以及采集执行参数设置,调度信息采集请求,以从所述信息源网站的地址中抓取非结构化的目标信息并进行结构化处理。
本实施例中,所述采集执行参数设置包括时间设置和任务设置,所述时间设置用于控制所述信息采集规则在匹配的时间进行运行,所述时间设置包括间隔、周期、触发等。所述任务设置用于对不同的信息采集请求进行优先级排序。所述任务设置还用于重试、差异识别等设置。重试是指采集任务发生失败,重新提交采集任务。差异识别是指根据历史采集记录发现从同一站点采集的内容大小以及信息条数出现异常。
优选地,在本发明的一实施例中,所述采集执行参数设置还包括:模拟登录设置、代理ip设置、特殊验证信息处理接口以及流量设置。由于信息源网站可能有访问流量的限制,因此为了防止过多的访问信息源网站进行了流量设置,即当信息采集的流量超过预设的限额,则不再访问信息源网站。
由于较多网站需要验证当前访问者的用户身份后服务器才能正常使用,模拟登录的过程主要是用程序模拟在浏览器页面上填写用户名、密码等信息,完成登录过程的操作。主要通过模拟点击“登录”后与服务器交互的请求进行。一些网站的登录比较复杂,会进行多次请求才能完成登录。
代理ip设置可以达到通过变化代理ip确定更快访问网站的方式。
特殊验证信息处理接口主要用于验证码的识别,短信或者语音验证等。
优选地,在本发明的一实施例中,还包括:设计监控规则,根据所述监控规则对所述信息采集规则进行监控,以确定每一条所述信息采集规则的异常。使用预警监控来保证能够尽快发现由于采集规则不当引起的采集过程中出现的问题。当规则运行发生异常或者整体运行情况不符合规律时,预警监控设置的采集规则,有限提醒管理维护人员,尽快进行跟进和修改,避免问题的持续影响。在监控过程中,可以建立一存疑任务列表,经异常任务添加到该列表中。比如非法格式,数据内容为空,异常任务等,添加到存疑任务列表中,以便进行二次提取以及人工审核。
当检测到任务发送错误时(包括异常数据,任务中断等情况),自动把异常任务添加到存疑任务列表,然后根据机器使用情况,在合适的时间把异常任务重新添加到主要任务队列中。
对于发生错误的任务,根据错误类型、错误次数,会按照设定规则进行后续多种处理,包括自动重试、更改参数重试、添加到存疑任务列表人工接入、忽略等等。
图2为本发明实施例二信息采集方法流程图;如图2所示,其包括:
S201、获取信息源网站,对所述信息源网站进行分析,根据对所述信息源网站的分析结果定制对应的信息采集规则;
本实施例中,信息采集规则可以包括上述实施例一中的站点结构设置、采集区域及栏目设置、采集链路逻辑设置、模拟http请求数据设置、具体信息采集设置、网址模式匹配和排除规则和附件处理规则。在此不再赘述。
S202、根据定制的采集规则以及采集执行参数设置,调度信息采集请求;
当完成不同任务的时间、性能开销存在较大差异时,资源利用会存在空闲等等,任务本身在采集规则定义时可实现自然拆分,在执行任务的流程中,通过调度发送任务相关信息给具体执行者(worker),执行者本身是通用的进程/线程,根据要求完成后反馈调度,重新获取新任务。调度可以根据某个类型子任务的待完成数量情况自动调整分配优先级。
S203、从所述信息源网站的地址中抓取非结构化的目标信息;
本实施例中,抓取是根据上述采集规则来对信息源网站完成网站解析、获取到发布有目标信息的最终url。
S204、对抓取到的非结构化的目标信息进行结构化处理。
本实施例中,结构化处理包括从最终url页面中提取目标信息,比如如果是政府采购信息的话,包括:常规的“标题”、“发布时间”、“正文”,以及其他能够比较方便直接提取的信息。
图3为本发明实施例三信息采集装置的结构示意图;如图3所示,其包括:规则配置单元301以及采集单元302;其中:
规则配置单元301用于获取信息源网站,对所述信息源网站进行分析,根据对所述信息源网站的分析结果定制对应的信息采集规则;
采集单元302用于根据定制的采集规则以及采集执行参数设置,调度信息采集请求,以从所述信息源网站的地址中抓取非结构化的目标信息并进行结构化处理。
图4为本发明实施例四信息采集装置的结构示意图;如图4所示,其包括上述规则配置单元301以及采集单元302,还包括调度模块304、抓取单元305以及处理单元306;所述调度模块304用于调度信息采集请求;所述抓取单元305用于从所述信息源网站的地址中抓取非结构化的目标信息;所述处理单元306用于对所述非结构信息进行结构化处理。
调度模块304、抓取单元305可以进行分布式部署。
本申请的实施例所提供的装置可通过计算机程序实现。本领域技术人员应该能够理解,上述的单元以及模块划分方式仅是众多划分方式中的一种,如果划分为其他单元或模块或不划分块,只要信息对象的具有上述功能,都应该在本申请的保护范围之内。
需要说明的是,上述实施例中的目标信息可以是政府采购信息,信息源网站可以是发布有政府采购信息的所有政府网站。
本技术领域普通技术人员在上述实施例的启发下,无须创造性劳动也可以将上述本发明的技术方案应用到其他信息的采集,详细不再赘述。
本领域的技术人员应明白,本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种信息采集方法,其特征在于,包括:
获取信息源网站,对所述信息源网站进行分析,根据对所述信息源网站的分析结果定制对应的信息采集规则;
根据定制的采集规则以及采集执行参数设置,调度信息采集请求,以从所述信息源网站的地址中抓取非结构化的目标信息并进行结构化处理。
2.根据权利要求1所述的方法,其特征在于,所述获取信息源网站,对所述信息源网站进行分析包括:
获取所述信息源网站的起始页面、网页结构以及包含有所述目标信息的最终url地址以及访问所述最终URL地址所需迭代采集的次数。
3.根据权利要求1所述的方法,其特征在于,所述信息采集规则包括:其中的一种或任意组合:站点结构设置、采集区域及栏目设置、采集链路逻辑设置、模拟http请求数据设置、具体信息采集设置;所述站点结构设置用于设置站点采集的起始页面或起始页面规则;所述采集区域及栏目设置以及采集链路逻辑设置用于分析网页结构,迭代逐层获取到所述目标信息的最终url地址;所述采集链路用于控制迭代采集的次数;所述模拟http请求数据设置用于配置访问所述信息源网站的请求;所述具体信息采集设置用于针对需要的信息项定制的页面获取逻辑,获取初步结构化的目标信息。
4.根据权利要求1所述的方法,其特征在于,所述采集规则还包括网址模式匹配和排除规则和附件处理规则,所述网址模式匹配和排除规则用于使用urlpattern模式限制采集的范围,所述附件处理设置用于针对需要信息源网站中目标信息包括的附件的采集设置。
5.根据权利要求1所述的方法,其特征在于,所述采集执行参数设置包括时间设置和任务设置,所述时间设置用于控制所述信息采集规则在匹配的时间进行运行,所述任务设置于对不同的信息采集请求进行优先级排序。
6.根据权利要求5所述的方法,其特征在于,所述采集执行参数设置还包括:模拟登录设置、代理ip设置、特殊验证信息处理接口。
7.根据权利要求1所述的方法,其特征在于,还包括:设计监控规则,根据所述监控规则对所述信息采集规则进行监控,以确定每一条所述信息采集规则的异常。
8.根据权利要求1所述的方法,其特征在于,所述根据对所述信息源网站的分析结果定制对应的信息采集规则包括:通过图形化配置页面定制对应的信息采集规则。
9.一种信息采集装置,其特征在于,包括:
规则配置单元,用于获取信息源网站,对所述信息源网站进行分析,根据对所述信息源网站的分析结果定制对应的信息采集规则;
采集单元,用于根据定制的采集规则以及采集执行参数设置,调度信息采集请求,以从所述信息源网站的地址中抓取非结构化的目标信息并进行结构化处理。
10.根据权利要求9所述的采集装置,其特征在于,还包括:调度模块,用于调度信息采集请求;抓取单元,用于从所述信息源网站的地址中抓取非结构化的目标信息;处理单元,用于对所述非结构信息进行结构化处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510239833.8A CN105468664A (zh) | 2015-05-12 | 2015-05-12 | 一种信息采集方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510239833.8A CN105468664A (zh) | 2015-05-12 | 2015-05-12 | 一种信息采集方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105468664A true CN105468664A (zh) | 2016-04-06 |
Family
ID=55606367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510239833.8A Pending CN105468664A (zh) | 2015-05-12 | 2015-05-12 | 一种信息采集方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105468664A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956936A (zh) * | 2016-05-10 | 2016-09-21 | 国网浙江省电力公司丽水供电公司 | 基于条件检索模拟操作获取数据的事件预警系统及方法 |
CN106126688A (zh) * | 2016-06-29 | 2016-11-16 | 厦门趣处网络科技有限公司 | 基于web内容和结构挖掘的智能网络信息采集系统、方法 |
CN107256274A (zh) * | 2017-06-29 | 2017-10-17 | 麦格创科技(深圳)有限公司 | 网页的智能采集方法及系统 |
CN107545059A (zh) * | 2017-08-30 | 2018-01-05 | 武汉创信博达信息技术有限公司 | 政府网站服务信息监控方法 |
CN107577748A (zh) * | 2017-08-30 | 2018-01-12 | 成都中建科联网络科技有限公司 | 基于大数据的建筑行业信息采集系统及其方法 |
CN107844601A (zh) * | 2017-11-23 | 2018-03-27 | 四川长虹电器股份有限公司 | 基于网络爬虫的招投标信息筛选系统与方法 |
CN108959539A (zh) * | 2018-06-30 | 2018-12-07 | 成都信息工程大学 | 一种基于规则可配置的网页数据解析方法 |
WO2019000303A1 (zh) * | 2017-06-29 | 2019-01-03 | 麦格创科技(深圳)有限公司 | 网页的智能采集方法及系统 |
CN109510777A (zh) * | 2018-11-09 | 2019-03-22 | 迈普通信技术股份有限公司 | 流表编排方法、装置及sdn控制器 |
CN111405033A (zh) * | 2020-03-13 | 2020-07-10 | 深圳前海环融联易信息科技服务有限公司 | 数据采集方法、装置、计算机设备及存储介质 |
CN111506795A (zh) * | 2020-04-20 | 2020-08-07 | 北京中电普华信息技术有限公司 | 一种招标信息获取方法及装置 |
CN112818201A (zh) * | 2021-02-07 | 2021-05-18 | 四川封面传媒有限责任公司 | 一种网络数据采集方法、装置、计算机设备及存储介质 |
CN116361594A (zh) * | 2023-06-01 | 2023-06-30 | 北京拓普丰联信息科技股份有限公司 | 一种招投标信息发布平台挖掘方法、装置、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101441629A (zh) * | 2007-11-19 | 2009-05-27 | 上海新纳广告传媒有限公司 | 一种非结构化网页信息的自动采集方法 |
CN101957866A (zh) * | 2010-10-25 | 2011-01-26 | 中国农业大学 | 网络文本信息集成方法和装置 |
US20110087966A1 (en) * | 2009-10-13 | 2011-04-14 | Yaniv Leviathan | Internet customization system |
CN103927367A (zh) * | 2014-04-22 | 2014-07-16 | 上海数据分析与处理技术研究所 | 基于事件的微博采集系统及方法 |
CN104361061A (zh) * | 2014-11-03 | 2015-02-18 | 烽火通信科技股份有限公司 | 一种web页面信息感知采集方法 |
CN104408101A (zh) * | 2014-11-19 | 2015-03-11 | 南京大学 | 一种全程化Web信息抽取集成方法 |
-
2015
- 2015-05-12 CN CN201510239833.8A patent/CN105468664A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101441629A (zh) * | 2007-11-19 | 2009-05-27 | 上海新纳广告传媒有限公司 | 一种非结构化网页信息的自动采集方法 |
US20110087966A1 (en) * | 2009-10-13 | 2011-04-14 | Yaniv Leviathan | Internet customization system |
CN101957866A (zh) * | 2010-10-25 | 2011-01-26 | 中国农业大学 | 网络文本信息集成方法和装置 |
CN103927367A (zh) * | 2014-04-22 | 2014-07-16 | 上海数据分析与处理技术研究所 | 基于事件的微博采集系统及方法 |
CN104361061A (zh) * | 2014-11-03 | 2015-02-18 | 烽火通信科技股份有限公司 | 一种web页面信息感知采集方法 |
CN104408101A (zh) * | 2014-11-19 | 2015-03-11 | 南京大学 | 一种全程化Web信息抽取集成方法 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956936A (zh) * | 2016-05-10 | 2016-09-21 | 国网浙江省电力公司丽水供电公司 | 基于条件检索模拟操作获取数据的事件预警系统及方法 |
CN106126688A (zh) * | 2016-06-29 | 2016-11-16 | 厦门趣处网络科技有限公司 | 基于web内容和结构挖掘的智能网络信息采集系统、方法 |
CN106126688B (zh) * | 2016-06-29 | 2020-03-24 | 厦门趣处网络科技有限公司 | 基于web内容和结构挖掘的智能网络信息采集系统、方法 |
CN107256274A (zh) * | 2017-06-29 | 2017-10-17 | 麦格创科技(深圳)有限公司 | 网页的智能采集方法及系统 |
WO2019000303A1 (zh) * | 2017-06-29 | 2019-01-03 | 麦格创科技(深圳)有限公司 | 网页的智能采集方法及系统 |
CN107545059A (zh) * | 2017-08-30 | 2018-01-05 | 武汉创信博达信息技术有限公司 | 政府网站服务信息监控方法 |
CN107577748A (zh) * | 2017-08-30 | 2018-01-12 | 成都中建科联网络科技有限公司 | 基于大数据的建筑行业信息采集系统及其方法 |
CN107844601A (zh) * | 2017-11-23 | 2018-03-27 | 四川长虹电器股份有限公司 | 基于网络爬虫的招投标信息筛选系统与方法 |
CN108959539B (zh) * | 2018-06-30 | 2021-09-21 | 成都信息工程大学 | 一种基于规则可配置的网页数据解析方法 |
CN108959539A (zh) * | 2018-06-30 | 2018-12-07 | 成都信息工程大学 | 一种基于规则可配置的网页数据解析方法 |
CN109510777A (zh) * | 2018-11-09 | 2019-03-22 | 迈普通信技术股份有限公司 | 流表编排方法、装置及sdn控制器 |
CN109510777B (zh) * | 2018-11-09 | 2022-02-22 | 迈普通信技术股份有限公司 | 流表编排方法、装置及sdn控制器 |
CN111405033A (zh) * | 2020-03-13 | 2020-07-10 | 深圳前海环融联易信息科技服务有限公司 | 数据采集方法、装置、计算机设备及存储介质 |
CN111506795A (zh) * | 2020-04-20 | 2020-08-07 | 北京中电普华信息技术有限公司 | 一种招标信息获取方法及装置 |
CN111506795B (zh) * | 2020-04-20 | 2023-09-15 | 北京中电普华信息技术有限公司 | 一种招标信息获取方法及装置 |
CN112818201A (zh) * | 2021-02-07 | 2021-05-18 | 四川封面传媒有限责任公司 | 一种网络数据采集方法、装置、计算机设备及存储介质 |
CN116361594A (zh) * | 2023-06-01 | 2023-06-30 | 北京拓普丰联信息科技股份有限公司 | 一种招投标信息发布平台挖掘方法、装置、设备及介质 |
CN116361594B (zh) * | 2023-06-01 | 2023-08-25 | 北京拓普丰联信息科技股份有限公司 | 一种招投标信息发布平台挖掘方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105468664A (zh) | 一种信息采集方法及装置 | |
CN108628741B (zh) | 网页页面测试方法、装置、电子设备和介质 | |
CN108039959A (zh) | 一种数据的态势感知方法、系统及相关装置 | |
WO2009078023A2 (en) | Maintenance assistance and control system method and apparatus | |
CN110275822A (zh) | 应用程序接口的性能测试方法、装置、设备及存储介质 | |
CN108763091A (zh) | 用于回归测试的方法、装置及系统 | |
CN102541723A (zh) | 用于软件测试的自动化测试装置 | |
CN109669976A (zh) | 基于etl的数据服务方法及设备 | |
JP6324534B2 (ja) | プロモーション状況データの監視方法、装置、デバイス及び非発揮性コンピューター記憶媒体 | |
CN107239563A (zh) | 舆情信息动态监控方法 | |
KR20180080535A (ko) | 웹 데이터 수집 장치 및 방법 | |
CN104765592A (zh) | 一种面向网页采集任务的插件管理方法及其装置 | |
US9558092B2 (en) | Runtime-agnostic management of applications | |
CN104410671A (zh) | 一种快照抓取方法和数据监控工具 | |
CN106897607A (zh) | 一种应用程序监控方法及装置 | |
CN106547538A (zh) | 一种基于Django的智能运维管理系统 | |
CN107154968A (zh) | 一种数据处理方法及设备 | |
CN107430590B (zh) | 用于数据比较的系统和方法 | |
CN110442819A (zh) | 数据处理方法、装置、存储介质及终端 | |
CN109446441A (zh) | 一种通用的网络社区可信分布式采集存储系统 | |
US10644971B2 (en) | Graph search in structured query language style query | |
US20180314765A1 (en) | Field name recommendation | |
CN113132760B (zh) | 视频数据的获取方法、装置、电子设备及存储介质 | |
JP6642024B2 (ja) | 管理装置,管理方法および管理プログラム | |
CN115454673A (zh) | 一种基板管理控制器的数据收集方法、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160406 |
|
RJ01 | Rejection of invention patent application after publication |