CN115225719A - 一种分布式定向网络数据采集解析方法 - Google Patents
一种分布式定向网络数据采集解析方法 Download PDFInfo
- Publication number
- CN115225719A CN115225719A CN202211060355.0A CN202211060355A CN115225719A CN 115225719 A CN115225719 A CN 115225719A CN 202211060355 A CN202211060355 A CN 202211060355A CN 115225719 A CN115225719 A CN 115225719A
- Authority
- CN
- China
- Prior art keywords
- task
- sub
- data
- analysis
- configuration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/02—Standardisation; Integration
- H04L41/0246—Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/22—Parsing or analysis of headers
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种分布式定向网络数据采集解析方法,包括启动分布式数据采集节点并建立其与中央控制器通信;中央控制器获取定向网络数据采集的任务;中央控制器选取任务量较少的采集节点,将任务分发到采集节点上;采集节点接收任务并向对应目标网站发送请求,同时目标网站返回响应内容;采集节点读取对应的解析配置数据;数据解析模块获取响应内容和解析配置数据,解析任务数据包和子任务;重复步骤S1至步骤S6,直至最终任务执行完成。本发明通过分布式数据采集节点,使中央控制器可实时感知数据采集节点任务执行情况,合理任务调度,充分发挥分布式计算机协同数据采集的能力;针对每个定向采集任务,无需定制化编写计算机应用程序。
Description
技术领域
本发明属于计算机技术领域,具体涉及一种分布式定向网络数据采集解析方法。
背景技术
对于一些中小型企业,迫切需要掌握行业内相关业务数据,以此来对企业业务发展方向进行判断,做出优化决策,提高自身竞争力,让业务能够得到更好、更快速的发展。但随着互联网的发展,网络数据指数级增长,企业从庞大的网络数据中筛选出有价值的数据,时间成本、人力成本巨大,因此通过一种自动化进行大规模定向网络数据采集解析势在必行。
现有网络数据采集解析常见的方式有:没有中央控制器的单节点任务采集单节点任务采集;对于采集后的原始数据,通过定制化编写特定的解析程序进行数据提炼;搜索引擎全网采集等。其中第一种方式的单机单节点任务采集,采集效率低;第二种方式针对每个特定的定向数据采集,都需要定制化编写计算机应用程序,对于一般用户而言门槛高,同时也不具备通用性;第三种方式的搜索引擎全网采集,采集任务广,不具备行业特性,同时仅采集网页源码,提供分词搜索,无法对数据进行解析提炼,对企业自身发展无参考价值。
因此,本发明提供了一种分布式定向网络数据采集解析方法,以至少解决上述部分技术问题。
发明内容
本发明要解决的技术问题是:提供一种分布式定向网络数据采集解析方法,以至少解决上述部分技术问题。
为实现上述目的,本发明采用的技术方案如下:
一种分布式定向网络数据采集解析方法包括以下步骤:
步骤S1、启动分布式数据采集节点、建立分布式数据采集节点与中央控制器通信;
步骤S2、拉取待采集任务,中央控制器获取定向网络数据采集的任务T1;
步骤S3、中央控制器从分布式数据采集节点的列表中选取任务量较少的采集节点N1,将任务T1分发到采集节点N1上;
步骤S4、采集节点N1接收任务T1,并向该任务所在的目标网站发送请求,同时目标网站返回响应内容C1;
步骤S5、采集节点N1从任务缓存数据库中读取任务T1对应的解析配置数据P10;
步骤S6、数据解析模块获取响应内容C1和解析配置数据P10,对任务T1数据包和子任务执行解析;
步骤S7、重复步骤S1至步骤S6递归循环采集,直至最终任务执行完成,采集结束。
进一步地,所述任务T1包含目标网址URL地址、请求方式、请求头、请求参数、HTTP响应报文所对应的任务解析器唯一标识P1、数据包D1和任务标识F1。
进一步地,所述步骤S5中,采集节点N1根据任务T1的任务解析器唯一标识P1,从任务缓存数据库中读取任务解析器唯一标识P1对应的解析配置数据P10。
进一步地,所述解析配置数据P10包含数据包解析配置P11、子任务HTTP请求URL解析配置P12、子任务HTTP请求头解析配置P13、子任务HTTP请求参数解析配置P14和子任务任务标识P15,所述子任务HTTP请求URL解析配置P12包含解析具备规律URL的循环规则。
对于一些POST方式请求,请求URL地址相同,而分页页码在请求参数中,因此子任务HTTP请求参数解析配置P14也包含解析具备规律URL的循环规则。
进一步地,所述数据包解析配置P11、子任务HTTP请求URL解析配置P12、子任务HTTP请求头解析配置P13和子任务HTTP请求参数解析配置P14均包含字段名P101和规则集合P102,所述规则集合P102包含但不限于常量值、Selector选择器表达式、Xpath表达式、正则表达式、字符串截取表达式、字符串替换表达式和JavaScript脚本。
进一步地,数据包解析方法为:获取数据包解析配置P11,按照其内部的规则集合P102的顺序依次对任务T1数据包执行解析,响应内容C1经规则集合P102的第一个规则执行后得到响应内容C2,响应内容C2经规则集合P102的第二个规则执行后得到响应内容C3,以此类推,直到执行完规则集合P102的最后一个规则得到Cn,将规则集合P102解析的结构化数据存放至数据包D1中。
进一步地,子任务解析方法为:获取子任务HTTP请求URL解析配置P12、子任务HTTP请求头解析配置P13和子任务HTTP请求参数解析配置P14,按照其内部的规则集合P102的顺序依次对任务T1子任务待解析值的变量值执行解析并替换其变量部分,解析后得到新的子任务T2、T3、...、Tn,同时赋予每个新的子任务对应的解析器唯一标识。
进一步地,子任务解析包括HTTP请求地址解析、HTTP请求头解析、HTTP请求参数解析和最终任务标识标记。
进一步地,所述步骤S7为:重复步骤S1至步骤S6递归循环采集,直至任务T1不再生成子任务Tn,采集结束。
进一步地,所述步骤S4中,采集节点N1按照任务T1的任务内容,组装标准的HTTP请求报文,并向目标网站发送请求。
与现有技术相比,本发明具有以下有益效果:
本发明具备协同性,通过分布式数据采集节点,使中央控制器可实时感知数据采集节点的任务执行情况,合理进行任务调度,充分发挥分布式计算机协同数据采集的能力;本发明具备通用性,针对每个定向采集任务,无需定制化编写计算机应用程序,即使不具备相关专业能力的用户,也能通过配置完成数据采集、数据提炼,提高效率。
附图说明
图1为本发明方法流程图。
具体实施方式
术语解释:
URL为统一资源定位系统;
HTTP为超文本传输协议;
JSON为是一种轻量级的数据交换格式;
DOM(Document Object Model)为文档对象模型。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进一步详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供的一种分布式定向网络数据采集解析方法,包括以下步骤:
步骤S1、启动分布式数据采集节点、建立分布式数据采集节点与中央控制器通信;
步骤S2、拉取待采集任务,中央控制器获取定向网络数据采集的任务T1;
步骤S3、中央控制器从分布式数据采集节点的列表中选取任务量较少的采集节点N1,将任务T1分发到采集节点N1上;
步骤S4、采集节点N1接收任务T1,并向该任务所在的目标网站发送请求,同时目标网站返回响应内容C1;
步骤S5、采集节点N1从任务缓存数据库中读取任务T1对应的解析配置数据P10;
步骤S6、数据解析模块获取响应内容C1和解析配置数据P10,对任务T1数据包和子任务执行解析;
步骤S7、重复步骤S1至步骤S6递归循环采集,直至最终任务执行完成,采集结束。
本发明具备协同性,通过分布式数据采集节点,使中央控制器可实时感知数据采集节点的任务执行情况,合理进行任务调度,充分发挥分布式计算机协同数据采集的能力;本发明具备通用性,针对每个定向采集任务,无需定制化编写计算机应用程序,即使不具备相关专业能力的用户,也能通过配置完成数据采集、数据提炼,提高效率。
所述步骤S1中,分布式数据采集节点启动后,与对应的中央控制器建立通信,如此,分布式数据采集节点自身任务的执行情况会同步给中央控制器,便于中央控制器做出任务分发决策。
所述步骤S2中,任务仓储层的定时任务按照特定频率拉取待采集任务,中央中控制器获取到定向网络数据采集的任务T1。所述任务T1包含目标网址URL地址、请求方式、请求头、请求参数、HTTP响应报文所对应的任务解析器唯一标识P1、数据包D1和任务标识F1。所述数据包D1是由键(key)和值(value)组合而成的结构化数据,由后续解析操作的每层任务解析得到,并将随着任务向下层任务传递,直到最终任务解析完成后,将数据包D1写入非关系型数据库中。
所述步骤S3中,中央控制器从本地缓存的分布式数据采集节点的列表中,根据每个节点任务执行情况,选取出任务量较少的采集节点N1,将任务T1分发到采集节点N1上。
所述步骤S4中,采集节点N1接收到任务T1,按照任务内容,组装标准的HTTP请求报文,向该任务所在的目标网站发送请求,同时目标网站返回响应内容C1。
所述步骤S5中,采集节点N1根据该任务T1的HTTP响应报文所对应的任务解析器唯一标识P1,从任务缓存数据库中读取任务T1对应的解析配置数据P10。所述解析配置数据P10是具备解析提炼同一类型网页源码的JSON格式数据,同一类型网页源码具备结构相同的DOM树,填充不同的特性内容,如商品详情页,对于不同的商品网页结构DOM树相同,商品内容不同,因此同一个解析配置,能够解析出不同的商品数据。所述解析配置可根据某一特定的网页数据,基于DOM树解析技术,从网页中选出需要提取的字段,自动分析出特定字段所处DOM树中的位置。所述解析配置数据P10包含数据包解析配置P11、子任务HTTP请求URL解析配置P12、子任务HTTP请求头解析配置P13、子任务HTTP请求参数解析配置P14和子任务任务标识P15,所述子任务HTTP请求URL解析配置P12包含解析具备规律URL的循环规则。所述数据包解析配置P11、子任务HTTP请求URL解析配置P12、子任务HTTP请求头解析配置P13和子任务HTTP请求参数解析配置P14均包含字段名P101和规则集合P102;所述规则集合P102按一定顺序组合而成,包含但不限于常量值、Selector选择器表达式、Xpath表达式、正则表达式、字符串截取表达式、字符串替换表达式和JavaScript脚本。
所述步骤S6中,数据解析模块获取响应内容C1和解析配置数据P10,对任务T1数据包和子任务执行解析。
所述数据包解析方法为:获取数据包解析配置P11,按照其内部的规则集合P102的顺序依次对任务T1数据包执行解析,响应内容C1经规则集合P102的第一个规则执行后得到响应内容C2,响应内容C2经规则集合P102的第二个规则执行后得到响应内容C3,以此类推,直到执行完规则集合P102的最后一个规则得到Cn,将规则集合P102解析的结构化数据存放至数据包D1中。其中逐层解析出的键(key)为字段名P101、逐层解析出的值(value)为Cn。根据实际业务场景,若存在多个需要解析的数据,重复以上步骤,若任务标识F1为最终任务,数据包中所存放的数据即为由每一层任务追加生成得到的结构化数据,存放于非关系型数据库中,供消费者使用。
所述子任务解析方法为:获取子任务HTTP请求URL解析配置P12、子任务HTTP请求头解析配置P13和子任务HTTP请求参数解析配置P14,按照其内部的规则集合P102的顺序依次对任务T1子任务待解析值的变量值执行解析并替换其变量部分,例如变量用${key}的方式表示,其中key表示变量名,解析后得到新的子任务T2、T3、...、Tn,同时赋予每个新的子任务对应的解析器唯一标识。若待解析值包含多个变量,按照数据包解析方法执行解析,解析完所有变量值并替换变量部分,得到完整的期望值。其中子任务HTTP请求URL解析配置P12包含解析具备规律URL的循环规则,可用于解析具备一定规律的URL,由此可批量生成多个URL地址。子任务解析包括HTTP请求地址解析、HTTP请求头解析、HTTP请求参数解析和最终任务标识标记。完成四个部分解析后,组合得到新的子任务T2、T3、...、Tn,同时赋予每个任务对应的解析器唯一标识。
所述步骤S7中,子任务重复步骤S1至步骤S6递归循环采集,直至任务T1不再生成子任务Tn,即最终任务执行完成后,采集结束。
最后应说明的是:以上各实施例仅仅为本发明的较优实施例用以说明本发明的技术方案,而非对其限制,当然更不是限制本发明的专利范围;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围;也就是说,但凡在本发明的主体设计思想和精神上作出的毫无实质意义的改动或润色,其所解决的技术问题仍然与本发明一致的,均应当包含在本发明的保护范围之内;另外,将本发明的技术方案直接或间接的运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种分布式定向网络数据采集解析方法,其特征在于,包括以下步骤:
步骤S1、启动分布式数据采集节点、建立分布式数据采集节点与中央控制器通信;
步骤S2、拉取待采集任务,中央控制器获取定向网络数据采集的任务T1;
步骤S3、中央控制器从分布式数据采集节点的列表中选取任务量较少的采集节点N1,将任务T1分发到采集节点N1上;
步骤S4、采集节点N1接收任务T1,并向该任务所在的目标网站发送请求,同时目标网站返回响应内容C1;
步骤S5、采集节点N1从任务缓存数据库中读取任务T1对应的解析配置数据P10;
步骤S6、数据解析模块获取响应内容C1和解析配置数据P10,对任务T1数据包和子任务执行解析;
步骤S7、重复步骤S1至步骤S6递归循环采集,直至最终任务执行完成,采集结束。
2.根据权利要求1所述的一种分布式定向网络数据采集解析方法,其特征在于,所述任务T1包含目标网址URL地址、请求方式、请求头、请求参数、HTTP响应报文所对应的任务解析器唯一标识P1、数据包D1和任务标识F1。
3.根据权利要求2所述的一种分布式定向网络数据采集解析方法,其特征在于,所述步骤S5中,采集节点N1根据任务T1的任务解析器唯一标识P1,从任务缓存数据库中读取任务解析器唯一标识P1对应的解析配置数据P10。
4.根据权利要求3所述的一种分布式定向网络数据采集解析方法,其特征在于,所述解析配置数据P10包含数据包解析配置P11、子任务HTTP请求URL解析配置P12、子任务HTTP请求头解析配置P13、子任务HTTP请求参数解析配置P14和子任务任务标识P15,所述子任务HTTP请求URL解析配置P12包含解析具备规律URL的循环规则。
5.根据权利要求4所述的一种分布式定向网络数据采集解析方法,其特征在于,所述数据包解析配置P11、子任务HTTP请求URL解析配置P12、子任务HTTP请求头解析配置P13和子任务HTTP请求参数解析配置P14均包含字段名P101和规则集合P102,所述规则集合P102包含但不限于常量值、Selector选择器表达式、Xpath表达式、正则表达式、字符串截取表达式、字符串替换表达式和JavaScript脚本。
6.根据权利要求5所述的一种分布式定向网络数据采集解析方法,其特征在于,数据包解析方法为:获取数据包解析配置P11,按照其内部的规则集合P102的顺序依次对任务T1数据包执行解析,响应内容C1经规则集合P102的第一个规则执行后得到响应内容C2,响应内容C2经规则集合P102的第二个规则执行后得到响应内容C3,以此类推,直到执行完规则集合P102的最后一个规则得到Cn,将规则集合P102解析的结构化数据存放至数据包D1中。
7.根据权利要求6所述的一种分布式定向网络数据采集解析方法,其特征在于,子任务解析方法为:获取子任务HTTP请求URL解析配置P12、子任务HTTP请求头解析配置P13和子任务HTTP请求参数解析配置P14,按照其内部的规则集合P102的顺序依次对任务T1子任务待解析值的变量值执行解析并替换其变量部分,解析后得到新的子任务T2、T3、...、Tn,同时赋予每个新的子任务对应的解析器唯一标识。
8.根据权利要求7所述的一种分布式定向网络数据采集解析方法,其特征在于,子任务解析包括HTTP请求地址解析、HTTP请求头解析、HTTP请求参数解析和最终任务标识标记。
9.根据权利要求7所述的一种分布式定向网络数据采集解析方法,其特征在于,所述步骤S7为:重复步骤S1至步骤S6递归循环采集,直至任务T1不再生成子任务Tn,采集结束。
10.根据权利要求1所述的一种分布式定向网络数据采集解析方法,其特征在于,所述步骤S4中,采集节点N1按照任务T1的任务内容,组装标准的HTTP请求报文,并向目标网站发送请求。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211060355.0A CN115225719B (zh) | 2022-08-31 | 2022-08-31 | 一种分布式定向网络数据采集解析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211060355.0A CN115225719B (zh) | 2022-08-31 | 2022-08-31 | 一种分布式定向网络数据采集解析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115225719A true CN115225719A (zh) | 2022-10-21 |
CN115225719B CN115225719B (zh) | 2023-01-10 |
Family
ID=83617078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211060355.0A Active CN115225719B (zh) | 2022-08-31 | 2022-08-31 | 一种分布式定向网络数据采集解析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115225719B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115470217A (zh) * | 2022-11-14 | 2022-12-13 | 云筑信息科技(成都)有限公司 | 一种实时解决数仓模型变化响应问题的方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020152305A1 (en) * | 2000-03-03 | 2002-10-17 | Jackson Gregory J. | Systems and methods for resource utilization analysis in information management environments |
CN102375837A (zh) * | 2010-08-19 | 2012-03-14 | 中国移动通信集团公司 | 数据采集系统和方法 |
CN104735138A (zh) * | 2015-03-09 | 2015-06-24 | 中国科学院计算技术研究所 | 一种面向用户生成内容的分布式采集方法与系统 |
CN105608220A (zh) * | 2016-01-08 | 2016-05-25 | 浪潮软件集团有限公司 | 一种基于分布式消息系统的采集方法及装置 |
CN107317724A (zh) * | 2017-06-06 | 2017-11-03 | 中证信用增进股份有限公司 | 基于云计算技术的数据采集系统及方法 |
CN107704265A (zh) * | 2017-09-30 | 2018-02-16 | 电子科技大学 | 一种面向业务流可配置的规则生成方法 |
CN109740038A (zh) * | 2019-01-02 | 2019-05-10 | 安徽芃睿科技有限公司 | 网络数据分布式采集系统及方法 |
CN110073301A (zh) * | 2017-08-02 | 2019-07-30 | 强力物联网投资组合2016有限公司 | 工业物联网中具有大数据集的数据收集环境下的检测方法和系统 |
CN110224896A (zh) * | 2019-06-24 | 2019-09-10 | 深圳前海桔子信息技术有限公司 | 一种网络性能数据采集方法、装置、服务器及存储介质 |
CN113254747A (zh) * | 2021-06-09 | 2021-08-13 | 南京北斗创新应用科技研究院有限公司 | 基于分布式网络爬虫的地理空间数据获取系统及方法 |
CN113918793A (zh) * | 2021-12-10 | 2022-01-11 | 江苏宝和数据股份有限公司 | 一种多源科创资源数据采集方法 |
CN114595457A (zh) * | 2020-12-04 | 2022-06-07 | 腾讯科技(深圳)有限公司 | 任务处理方法、装置、计算机设备和存储介质 |
-
2022
- 2022-08-31 CN CN202211060355.0A patent/CN115225719B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020152305A1 (en) * | 2000-03-03 | 2002-10-17 | Jackson Gregory J. | Systems and methods for resource utilization analysis in information management environments |
CN102375837A (zh) * | 2010-08-19 | 2012-03-14 | 中国移动通信集团公司 | 数据采集系统和方法 |
CN104735138A (zh) * | 2015-03-09 | 2015-06-24 | 中国科学院计算技术研究所 | 一种面向用户生成内容的分布式采集方法与系统 |
CN105608220A (zh) * | 2016-01-08 | 2016-05-25 | 浪潮软件集团有限公司 | 一种基于分布式消息系统的采集方法及装置 |
CN107317724A (zh) * | 2017-06-06 | 2017-11-03 | 中证信用增进股份有限公司 | 基于云计算技术的数据采集系统及方法 |
CN110073301A (zh) * | 2017-08-02 | 2019-07-30 | 强力物联网投资组合2016有限公司 | 工业物联网中具有大数据集的数据收集环境下的检测方法和系统 |
CN107704265A (zh) * | 2017-09-30 | 2018-02-16 | 电子科技大学 | 一种面向业务流可配置的规则生成方法 |
CN109740038A (zh) * | 2019-01-02 | 2019-05-10 | 安徽芃睿科技有限公司 | 网络数据分布式采集系统及方法 |
CN110224896A (zh) * | 2019-06-24 | 2019-09-10 | 深圳前海桔子信息技术有限公司 | 一种网络性能数据采集方法、装置、服务器及存储介质 |
CN114595457A (zh) * | 2020-12-04 | 2022-06-07 | 腾讯科技(深圳)有限公司 | 任务处理方法、装置、计算机设备和存储介质 |
CN113254747A (zh) * | 2021-06-09 | 2021-08-13 | 南京北斗创新应用科技研究院有限公司 | 基于分布式网络爬虫的地理空间数据获取系统及方法 |
CN113918793A (zh) * | 2021-12-10 | 2022-01-11 | 江苏宝和数据股份有限公司 | 一种多源科创资源数据采集方法 |
Non-Patent Citations (2)
Title |
---|
A.H. ALHUSAINI, V.K. PRASANNA, C.S. RAGHAVENDRA: ""A unified resource scheduling framework for heterogeneous computing environments"", 《IEEE》 * |
李航等: ""异构网络设备配置采集与解析"", 《电脑知识与技术》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115470217A (zh) * | 2022-11-14 | 2022-12-13 | 云筑信息科技(成都)有限公司 | 一种实时解决数仓模型变化响应问题的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115225719B (zh) | 2023-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101079768B (zh) | 一种统计网页链接点击数据的方法 | |
CN100504879C (zh) | 动态网页的分块方法 | |
JP4437918B2 (ja) | 選択的に情報を検索しその後その情報の表示を可能にする装置および方法 | |
US8554805B2 (en) | Methods and systems for importing source data | |
CN101370024B (zh) | 信息的分布式采集方法及系统 | |
CN102857493B (zh) | 内容过滤方法和装置 | |
JP2005228343A (ja) | 決定理論的ウェブクローリングおよびウェブページ変更予測 | |
CN102184184A (zh) | 一种网页动态信息获取方法 | |
CN115225719B (zh) | 一种分布式定向网络数据采集解析方法 | |
CN101441629A (zh) | 一种非结构化网页信息的自动采集方法 | |
CN111953766A (zh) | 一种网络数据采集的方法及其系统 | |
CN112882974A (zh) | 一种json数据转换方法、装置、计算机设备和存储介质 | |
Nigam et al. | Web scraping: from tools to related legislation and implementation using python | |
CN100483397C (zh) | 一种电子数据表的函数收集方法和装置 | |
CN108268468A (zh) | 一种大数据的分析方法及系统 | |
CN109766488B (zh) | 一种基于Scrapy的数据采集方法 | |
CN104731606A (zh) | 基于识别抓取技术实现企业应用集成管理的系统及方法 | |
CN102486731B (zh) | 增强软件的软件调用栈的可视化的方法、设备和系统 | |
CN117076727A (zh) | 一种查询语句解析方法、装置、设备和存储介质 | |
CN116450246A (zh) | 一种基于状态机的事件流转可配置方法 | |
CN115018624A (zh) | 基于风控策略的决策引擎及方法 | |
CN110362305A (zh) | 一种表单组件状态切换方法及装置 | |
CN113407803A (zh) | 一种一步式采集互联网数据的方法 | |
CN114356403A (zh) | 一种基于低代码应用开发的组态数据处理方法、装置和系统 | |
CN114490679A (zh) | 一种基于标识解析的数据治理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |