CN112597373B - 一种基于分布式爬虫引擎的数据采集方法 - Google Patents
一种基于分布式爬虫引擎的数据采集方法 Download PDFInfo
- Publication number
- CN112597373B CN112597373B CN202011591563.4A CN202011591563A CN112597373B CN 112597373 B CN112597373 B CN 112597373B CN 202011591563 A CN202011591563 A CN 202011591563A CN 112597373 B CN112597373 B CN 112597373B
- Authority
- CN
- China
- Prior art keywords
- data
- crawler
- data acquisition
- url
- page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于分布式爬虫引擎的数据采集方法,其包括以下步骤:S1、获取用户的任务创建请求并创建对应的数据采集任务;S2、构建分布式爬虫系统,对数据采集任务进行调度并触发任务执行,通过分布式爬虫系统分解数据采集任务,并分配给多个爬虫线程;S3、启动爬虫线程,分布式爬虫系统从队列资源获取URL,根据数据采集任务指定的目标网站爬取URL对应的页面,下载并获取页面数据;S4、对获取的页面数据进行整理清洗,生成与数据采集任务匹配的格式化数据集,并通过持久化处理后存储入数据库;本发明通过分布式部署爬虫集群的爬虫引擎,爬取目标网站的定向数据,提高了爬取效率及数据的精确度。
Description
技术领域
本发明涉及数据采集技术领域,尤其涉及一种基于分布式爬虫引擎的数据采集方法。
背景技术
信息网络技术的高速更新发展,带来了网络信息量的爆炸增长,在网络信息量如此庞大的时代,如何快速、针对性获取用户所需的网络信息成了人们所关注的问题并促使了搜索引擎的诞生,如爬虫。
搜索引擎就是根据用户需求与一定算法,运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术,对信息进行组织和处理后提供给用户。爬虫引擎是一种自动浏览网络,分析网页内容的一种搜索引擎,但是爬虫引擎采集的数据通常为单机爬取,对于大量的网络信息量进行采集效率过低,传统爬虫采集回来的数据存储在数据库中,数据库量小,难以满足用户的使用需求。
发明内容
本发明的目的在于提供一种基于分布式爬虫引擎的数据采集方法,通过分布式部署爬虫集群的爬虫引擎,爬取目标网站的定向数据,提高了爬取效率及数据的精确度。
为实现上述目的,本发明采用以下技术方案:
一种基于分布式爬虫引擎的数据采集方法,包括以下步骤:
S1、获取用户的任务创建请求并创建对应的数据采集任务;
S2、构建分布式爬虫系统,对数据采集任务进行调度并触发任务执行,通过分布式爬虫系统分解数据采集任务,并分配给多个爬虫线程;
S3、启动爬虫线程,分布式爬虫系统从队列资源获取URL,根据数据采集任务指定的目标网站爬取URL对应的页面,下载并获取页面数据;
S4、对获取的页面数据进行整理清洗,生成与数据采集任务匹配的格式化数据集,并通过持久化处理后存储入数据库。
进一步地,所述分布式爬虫系统包括队列资源模块、下载模块、数据解析模块及数据存储模块;
所述队列资源模块,用于根据数据采集任务生成队列资源到redis中并从中获取目标网站的URL;
所述下载模块,用于将所述URL发送至下载模块,以使下载模块下载URL对应的页面数据;
所述数据解析模块,用于解析页面数据并生成与数据采集任务匹配的格式化数据集;
所述数据存储模块,用于持久化处理格式化数据集并存储在数据库。
进一步地,所述数据采集任务生成队列资源到redis中并从中获取目标网站的URL,具体包括:
所述分布式爬虫系统通过调度器读取数据采集任务的爬虫任务及爬虫资源;
所述队列资源存储在数据库中,分布式爬虫系统通过分页排序查询数据库,生成队列资源并分批次放入redis用于集群爬虫消费。
进一步地,所述redis中的队列资源经过集群爬虫消费后再次放入redis,通过单线程操作队列资源,并对放入redis的队列资源进行用于防止队列资源重复放入的加锁。
进一步地,所述调度器采用quartz调度器,通过所述quartz调度器周期性或手动地触发爬虫任务并生成调度日志。
进一步地,所述URL发送至下载模块,以使下载模块下载URL对应的页面数据,具体包括:
所述下载模块通过phantomjs无头浏览器配合多个代理IP根据URL爬取目标网站的页面,通过httpclient请求下载相应的页面数据,得到html页面。
进一步地,所述步骤S3中的页面数据为非标签化数据,通过步骤S4数据存储模块对非标签化数据进行整理清洗,具体包括:
获取字典库;
将分布式爬虫系统获取的页面数据录入字典库;
分别对页面数据依次进行文本纠错、词法分析、关键词提取及词义相似度分析,将相似度超过阈值的页面数据归为同一类,匹配相似度高的字典数据并存入数据库;
相似度不超过阈值则生成新的字典数据,并将新的字典数据存在字典库,页面数据存入数据库。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:
本发明通过分布式爬虫系统根据数据采集任务从队列资源获取URL,启动线程,通过集群爬虫根据URL爬取目标网站的页面数据,对获取到的页面数据进行整理清洗,得到持久化的格式化数据集并存入数据库;通过分布式部署爬虫集群的爬虫引擎,爬取目标网站的定向数据,提高了爬取效率及数据的精确度。
附图说明
图1为本发明工作流程示意图;
图2为本发明具体工作流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
配合图1及图2所示,本发明公开了一种基于分布式爬虫引擎的数据采集方法,包括以下步骤:
S1、获取用户的任务创建请求并创建对应的数据采集任务。
S2、构建分布式爬虫系统,对数据采集任务进行调度并触发任务执行,通过分布式爬虫系统分解数据采集任务,并分配给多个爬虫线程。
S3、启动爬虫线程,分布式爬虫系统从队列资源获取URL,根据数据采集任务指定的目标网站爬取URL对应的页面,下载并获取页面数据。
S4、对获取的页面数据进行整理清洗,生成与数据采集任务匹配的格式化数据集,并通过持久化处理后存储入数据库。
分布式爬虫系统包括队列资源模块、下载模块、数据解析模块及数据存储模块。
分布式爬虫系统基于分布式爬虫引擎去爬取网页信息,爬虫采用Selenium+ChromeDriver框架模拟浏览器操作行为,实现特定网站的数据采集。
Selenium是一个开源的自动化测试工具,基于标准的WebDriver语法规范,它主要是用于Web应用程序的自动化测试,不只局限于此,同时支持所有基于web的管理任务自动化。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样,支持的浏览器包括IE(7,8,9,10,11),Mozilla Firefox,Safari,Google Chrome,Opera等,支持主流的编程语言,包括:Java、Python、C#、PHP、Ruby、JavaScript等。
WebDriver是一个开源工具,用于在许多浏览器上自动测试webapps。它提供了导航到网页,用户输入,JavaScript执行等功能。
ChromeDriver是Google为网站开发人员提供的自动化测试接口,是一个独立的服务,它为Chromium实现WebDriver的JsonWireProtocol协议。它是Selenium和Chrome浏览器进行通信的桥梁。Selenium通过JsonWireProtocol协议和ChromeDriver进行通信,Selenium实质上是对这套协议的底层封装,同时提供外部WebDriver的上层调用类库。
队列资源模块,用于根据数据采集任务生成队列资源到redis中并从中获取目标网站的URL。
下载模块,用于将URL发送至下载模块,以使下载模块下载URL对应的页面数据。
数据解析模块,用于解析页面数据并生成与数据采集任务匹配的格式化数据集。
数据存储模块,用于持久化处理格式化数据集并存储在数据库。
数据采集任务生成队列资源到redis中并从中获取目标网站的URL,具体包括:
分布式爬虫系统通过调度模块的调度器读取数据采集任务的爬虫任务及爬虫资源,由运维人员通过web应用进行定义调度任务,调度模块的触发通过运维人员的手动触发或者系统的定时触发,将爬虫任务进行分解多个爬虫作业并进行分发给不同的爬虫引擎;调度器从ZooKeeper&Redis获取元数据&可利用资源。
队列资源存储在数据库中,分布式爬虫系统通过分页排序查询数据库,生成队列资源并分批次放入redis用于集群爬虫消费。
redis中的队列资源经过集群爬虫消费后再次放入redis,通过单线程操作队列资源,并对放入redis的队列资源进行用于防止队列资源重复放入的加锁。
调度器采用quartz调度器,通过quartz调度器周期性或手动地触发爬虫任务并生成调度日志。
URL发送至下载模块,以使下载模块下载URL对应的页面数据,具体包括:爬虫启动时,从队列资源中获取到并转换成URL后调用的模块,根据URL模拟浏览器浏览行为爬取URL对应的页面,下载模块通过phantomjs无头浏览器配合多个代理IP,如图2所示的IP1-IP3,根据URL爬取目标网站的页面,进行请求数据后接受返回数据,通过httpclient请求下载相应的页面数据,得到html页面;该模块具有代理防屏蔽功能,通过多个代理避免了固定代理所带来的问题。
数据解析模块在页面数据下载完成后,需要对html页面进行数据解析,生成任务需要的格式化数据集,根据不同的任务,需要编写不同数据解析处理器进行数据解析,因此,对任务进行扩展,该部分模块随之会变大。
数据存储模块,在数据解析格式化后,需要把格式化后的数据持久化,供任务分析使用,数据格式化及持久化的方式为常用技术手段,本实施例在此不再赘述,根据不同持久化需求,实现该模块持久化相应代码,能做到存储格式化数据到不同的数据仓库。
步骤S3中的页面数据为非标签化数据,通过步骤S4数据存储模块对非标签化数据进行整理清洗,具体包括:
获取字典库;预先对需要标准化的数据维度创建好字典数据,字典库支持手动维护。
将分布式爬虫系统获取的页面数据录入字典库;录入字典库的方式具有3种方式,第一种是选择字典方式,从字典库获取字典信息,如果要录入的信息在字典库里面,直接选择字典,数据直接存入数据库,录入结束;第二种是手动录入方式,在字典库里面没有的数据,直接手动填入,然后进行标准化处理;第三种是通过分布式爬虫系统获取数据,然后进行标准化处理。
通过分布式爬虫系统获取数据,然后进行标准化处理,分别对页面数据依次进行文本纠错、词法分析、关键词提取及词义相似度分析,将相似度超过阈值的页面数据归为同一类,匹配相似度高的字典数据并存入数据库。
文本纠错为识别输入文本中有错误的片段,并提示错误,在录入的时候先过滤纠错,避免出现文字录错的情况;词法分析。主要包括分词、词性标注、专名识别分词,能够识别出文本串中的基本词汇(分词),对这些词汇进行重组、标注组合后词汇的词性,并进一步识别出命名实体;通过对文本内容进行深度分析,提取出文本内容中的关键信息,为用户实现诸如新闻内容关键词自动提取、评论关键词提取等提供基础服务;相似度不超过阈值则生成新的字典数据,并将新的字典数据存在字典库,页面数据存入数据库。
对数据进行整理清洗,主要是对数据进行标准化处理,包括过滤、校验等处理。主要是针对所属行业、技术指标、技术来源等需要进行统计分析的指标等数据进行标准化。主要用到NLP(自然语言)技术,包括分词、词性标注、关键词提取、相似度等,以第三方自然语言处理开放接口(如百度AI开放平台、腾讯文智、Bosonnlp等)、开源自然语言处理库(如HanLP、jieba、Ansj等)实现。
本实施例通过分布式爬虫系统根据数据采集任务从队列资源获取URL,启动线程,通过集群爬虫根据URL爬取目标网站的页面数据,对获取到的页面数据进行整理清洗,得到持久化的格式化数据集并存入数据库;通过分布式部署爬虫集群的爬虫引擎,爬取目标网站的定向数据,提高了爬取效率及数据的精确度。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (3)
1.一种基于分布式爬虫引擎的数据采集方法,其特征在于,包括以下步骤:
S1、获取用户的任务创建请求并创建对应的数据采集任务;
S2、构建分布式爬虫系统,对数据采集任务进行调度并触发任务执行,通过分布式爬虫系统分解数据采集任务,并分配给多个爬虫线程;
S3、启动爬虫线程,分布式爬虫系统从队列资源获取URL,根据数据采集任务指定的目标网站爬取URL对应的页面,下载并获取页面数据;
S4、对获取的页面数据进行整理清洗,生成与数据采集任务匹配的格式化数据集,并通过持久化处理后存储入数据库;
所述步骤S3中的页面数据为非标签化数据,通过步骤S4数据存储模块对非标签化数据进行整理清洗,具体包括:
获取字典库;
将分布式爬虫系统获取的页面数据录入字典库;
分别对页面数据依次进行文本纠错、词法分析、关键词提取及词义相似度分析,将相似度超过阈值的页面数据归为同一类,匹配相似度高的字典数据并存入数据库;
相似度不超过阈值则生成新的字典数据,并将新的字典数据存在字典库,页面数据存入数据库;
所述分布式爬虫系统包括队列资源模块、下载模块、数据解析模块及数据存储模块;
所述队列资源模块,用于根据数据采集任务生成队列资源到redis中并从中获取目标网站的URL;
所述下载模块,用于将所述URL发送至下载模块,以使下载模块下载URL对应的页面数据;
所述数据解析模块,用于解析页面数据并生成与数据采集任务匹配的格式化数据集;
所述数据存储模块,用于持久化处理格式化数据集并存储在数据库;
所述数据采集任务生成队列资源到redis中并从中获取目标网站的URL,具体包括:
所述分布式爬虫系统通过调度器读取数据采集任务的爬虫任务及爬虫资源;
所述队列资源存储在数据库中,分布式爬虫系统通过分页排序查询数据库,生成队列资源并分批次放入redis用于集群爬虫消费;
所述redis中的队列资源经过集群爬虫消费后再次放入redis,通过单线程操作队列资源,并对放入redis的队列资源进行用于防止队列资源重复放入的加锁。
2.如权利要求1所述的一种基于分布式爬虫引擎的数据采集方法,其特征在于:所述调度器采用quartz调度器,通过所述quartz调度器周期性或手动地触发爬虫任务并生成调度日志。
3.如权利要求1所述的一种基于分布式爬虫引擎的数据采集方法,其特征在于:所述URL发送至下载模块,以使下载模块下载URL对应的页面数据,具体包括:
所述下载模块通过phantomjs无头浏览器配合多个代理IP根据URL爬取目标网站的页面,通过httpclient请求下载相应的页面数据,得到html页面。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011591563.4A CN112597373B (zh) | 2020-12-29 | 2020-12-29 | 一种基于分布式爬虫引擎的数据采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011591563.4A CN112597373B (zh) | 2020-12-29 | 2020-12-29 | 一种基于分布式爬虫引擎的数据采集方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112597373A CN112597373A (zh) | 2021-04-02 |
CN112597373B true CN112597373B (zh) | 2023-09-15 |
Family
ID=75203831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011591563.4A Active CN112597373B (zh) | 2020-12-29 | 2020-12-29 | 一种基于分布式爬虫引擎的数据采集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112597373B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113157730A (zh) * | 2021-04-26 | 2021-07-23 | 中国人民解放军军事科学院国防科技创新研究院 | 一种军民融合政策信息系统 |
CN113297449A (zh) * | 2021-05-21 | 2021-08-24 | 南京大学 | 一种流式爬虫实现方法及系统 |
CN113254747B (zh) * | 2021-06-09 | 2021-10-15 | 南京北斗创新应用科技研究院有限公司 | 基于分布式网络爬虫的地理空间数据获取系统及方法 |
CN113111078B (zh) * | 2021-06-15 | 2021-10-29 | 深圳华锐金融技术股份有限公司 | 资源数据处理方法、装置、计算机设备和存储介质 |
CN113946294A (zh) * | 2021-10-29 | 2022-01-18 | 蜂巢科技(南通)有限公司 | 一种分布式储存系统及其数据处理方法 |
CN114428635A (zh) * | 2022-04-06 | 2022-05-03 | 杭州未名信科科技有限公司 | 一种数据采集方法、装置、电子设备及存储介质 |
CN116244486A (zh) * | 2023-03-06 | 2023-06-09 | 深圳开源互联网安全技术有限公司 | 基于数据流的爬取数据处理方法及系统 |
CN117278599B (zh) * | 2023-11-21 | 2024-03-08 | 深圳万物安全科技有限公司 | 北向接口提供方法、设备及可读存储介质 |
CN117633329A (zh) * | 2024-01-26 | 2024-03-01 | 中国人民解放军军事科学院系统工程研究院 | 一种面向多数据源的数据采集方法与系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107577668A (zh) * | 2017-09-15 | 2018-01-12 | 电子科技大学 | 基于语义的社交媒体非规范词纠正方法 |
CN107895009A (zh) * | 2017-11-10 | 2018-04-10 | 北京国信宏数科技有限责任公司 | 一种基于分布式的互联网数据采集方法及系统 |
CN107943991A (zh) * | 2017-12-01 | 2018-04-20 | 成都嗨翻屋文化传播有限公司 | 一种基于内存数据库的分布式爬虫框架及实现方法 |
CN108877946A (zh) * | 2018-05-04 | 2018-11-23 | 浙江工业大学 | 一种基于网络特征的医生专家推荐方法 |
CN111078639A (zh) * | 2019-12-03 | 2020-04-28 | 望海康信(北京)科技股份公司 | 数据标准化方法、装置以及电子设备 |
CN111488508A (zh) * | 2020-04-10 | 2020-08-04 | 长春博立电子科技有限公司 | 一种支持多协议分布式高并发的互联网信息采集系统及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170185678A1 (en) * | 2015-12-28 | 2017-06-29 | Le Holdings (Beijing) Co., Ltd. | Crawler system and method |
-
2020
- 2020-12-29 CN CN202011591563.4A patent/CN112597373B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107577668A (zh) * | 2017-09-15 | 2018-01-12 | 电子科技大学 | 基于语义的社交媒体非规范词纠正方法 |
CN107895009A (zh) * | 2017-11-10 | 2018-04-10 | 北京国信宏数科技有限责任公司 | 一种基于分布式的互联网数据采集方法及系统 |
CN107943991A (zh) * | 2017-12-01 | 2018-04-20 | 成都嗨翻屋文化传播有限公司 | 一种基于内存数据库的分布式爬虫框架及实现方法 |
CN108877946A (zh) * | 2018-05-04 | 2018-11-23 | 浙江工业大学 | 一种基于网络特征的医生专家推荐方法 |
CN111078639A (zh) * | 2019-12-03 | 2020-04-28 | 望海康信(北京)科技股份公司 | 数据标准化方法、装置以及电子设备 |
CN111488508A (zh) * | 2020-04-10 | 2020-08-04 | 长春博立电子科技有限公司 | 一种支持多协议分布式高并发的互联网信息采集系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112597373A (zh) | 2021-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112597373B (zh) | 一种基于分布式爬虫引擎的数据采集方法 | |
US10705809B2 (en) | Pruning engine | |
US10162610B2 (en) | Method and apparatus for migration of application source code | |
CN106104533B (zh) | 处理大型数据储存库中的数据集 | |
CN105094889B (zh) | 一种应用程序插件加载方法及装置 | |
EP3679482A1 (en) | Automating identification of code snippets for library suggestion models | |
CN112749284B (zh) | 知识图谱构建方法、装置、设备及存储介质 | |
EP3679481A1 (en) | Automating generation of library suggestion engine models | |
CN112394942B (zh) | 基于云计算的分布式软件开发编译方法及软件开发平台 | |
US10210211B2 (en) | Code searching and ranking | |
CN109308254B (zh) | 一种测试方法、装置及测试设备 | |
CN109840298B (zh) | 大规模网络数据的多信息来源采集方法和系统 | |
CN112131295A (zh) | 基于Elasticsearch的数据处理方法及设备 | |
CN109753596B (zh) | 用于大规模网络数据采集的信源管理与配置方法和系统 | |
CN112363953B (zh) | 基于爬虫技术和规则引擎的接口测试用例生成方法及系统 | |
CN112163017B (zh) | 一种知识挖掘系统及方法 | |
Shah et al. | Towards benchmarking feature type inference for automl platforms | |
US8489643B1 (en) | System and method for automated content aggregation using knowledge base construction | |
CN111368167A (zh) | 基于网络爬虫技术的中文文献数据自动化获取方法 | |
CN114117242A (zh) | 数据查询方法和装置、计算机设备、存储介质 | |
CN113869789A (zh) | 一种风险监控的方法、装置、计算机设备及存储介质 | |
CN112667873A (zh) | 一种适用于多数网站通用采集数据的爬虫系统及方法 | |
KR20240020166A (ko) | Esg 보조 툴을 이용하여 정형화된 esg 데이터로 기계학습 모델을 학습하는 방법 및 기계학습 모델로 자동완성된 esg 문서를 생성하는 서비스 서버 | |
CN107368464B (zh) | 一种获取招标产品信息的方法及装置 | |
CN113312485B (zh) | 日志自动化分类方法及装置、计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |