CN107025296A - 基于科技服务信息智能抓取系统数据收集方法 - Google Patents
基于科技服务信息智能抓取系统数据收集方法 Download PDFInfo
- Publication number
- CN107025296A CN107025296A CN201710247626.6A CN201710247626A CN107025296A CN 107025296 A CN107025296 A CN 107025296A CN 201710247626 A CN201710247626 A CN 201710247626A CN 107025296 A CN107025296 A CN 107025296A
- Authority
- CN
- China
- Prior art keywords
- page
- crawl
- data
- captured
- parsing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (7)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710247626.6A CN107025296B (zh) | 2017-04-17 | 2017-04-17 | 基于科技服务信息智能抓取系统数据收集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710247626.6A CN107025296B (zh) | 2017-04-17 | 2017-04-17 | 基于科技服务信息智能抓取系统数据收集方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107025296A true CN107025296A (zh) | 2017-08-08 |
CN107025296B CN107025296B (zh) | 2018-11-06 |
Family
ID=59527964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710247626.6A Active CN107025296B (zh) | 2017-04-17 | 2017-04-17 | 基于科技服务信息智能抓取系统数据收集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107025296B (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391757A (zh) * | 2017-08-23 | 2017-11-24 | 绵阳美菱软件技术有限公司 | 一种家电数据采集方法和装置 |
CN107832136A (zh) * | 2017-11-28 | 2018-03-23 | 广州启生信息技术有限公司 | 一种网络爬虫程序的管理方法及装置 |
CN108153595A (zh) * | 2018-01-18 | 2018-06-12 | 成都无糖信息技术有限公司 | 一种基于python的大数据分布式任务处理装置 |
CN108334379A (zh) * | 2018-01-05 | 2018-07-27 | 北京明略软件系统有限公司 | 一种页面扩展功能的实现方法及实现装置 |
CN108549678A (zh) * | 2018-04-02 | 2018-09-18 | 北京今朝在线科技有限公司 | 信息采集系统 |
CN108959539A (zh) * | 2018-06-30 | 2018-12-07 | 成都信息工程大学 | 一种基于规则可配置的网页数据解析方法 |
CN109299392A (zh) * | 2018-11-21 | 2019-02-01 | 安徽云融信息技术有限公司 | 一种网络爬虫抓取数据的优化方法 |
CN109327533A (zh) * | 2018-11-06 | 2019-02-12 | 深圳市东宝信息技术有限公司 | 一种基于任务机制的简历数据推送方法及系统 |
CN109597952A (zh) * | 2018-12-10 | 2019-04-09 | 江苏满运软件科技有限公司 | 网页信息处理方法、系统、电子设备和存储介质 |
CN109729044A (zh) * | 2017-10-30 | 2019-05-07 | 北京宸瑞科技股份有限公司 | 一种通用的互联网数据采集反反爬系统及方法 |
CN109918557A (zh) * | 2019-03-12 | 2019-06-21 | 厦门商集网络科技有限责任公司 | 一种网页数据爬取合并方法及计算机可读存储介质 |
CN110188259A (zh) * | 2019-05-27 | 2019-08-30 | 厦门商集网络科技有限责任公司 | 一种可配置化的数据抓取方法和装置 |
CN110390558A (zh) * | 2019-06-19 | 2019-10-29 | 平安银行股份有限公司 | 图片自动检核方法、装置、终端及可读存储介质 |
CN110851678A (zh) * | 2018-07-24 | 2020-02-28 | 北京京东金融科技控股有限公司 | 一种爬取数据的方法和装置 |
CN111339388A (zh) * | 2019-06-13 | 2020-06-26 | 海通证券股份有限公司 | 一种信息爬取系统 |
CN112685619A (zh) * | 2020-12-29 | 2021-04-20 | 江苏乐道胡巴投资管理有限公司 | 一种网页表格数据通用抓取方法 |
CN113934912A (zh) * | 2021-11-11 | 2022-01-14 | 北京搜房科技发展有限公司 | 数据爬取方法及装置、存储介质及电子设备 |
CN114390035A (zh) * | 2022-01-12 | 2022-04-22 | 国家计算机网络与信息安全管理中心陕西分中心 | 一种以太坊智能合约应用态势感知系统 |
CN115238210A (zh) * | 2022-09-21 | 2022-10-25 | 云账户技术(天津)有限公司 | 一种网站链接可用性检查方法及装置、存储介质、终端 |
CN115730150A (zh) * | 2022-12-09 | 2023-03-03 | 广州富莱星科技有限公司 | 一种数据抓取方法、系统、设备及可存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101996196A (zh) * | 2009-08-28 | 2011-03-30 | 中国移动通信集团公司 | 一种动态网页的采集方法及装置 |
CN103714149A (zh) * | 2013-12-26 | 2014-04-09 | 华中科技大学 | 一种自适应增量式的深层网络数据源发现方法 |
CN104317948A (zh) * | 2014-11-05 | 2015-01-28 | 北京中科辅龙信息技术有限公司 | 页面数据抓取方法和系统 |
CN104346328A (zh) * | 2013-07-23 | 2015-02-11 | 同程网络科技股份有限公司 | 基于网页数据抓取的垂直智能爬虫数据收集方法 |
CN106484775A (zh) * | 2016-09-12 | 2017-03-08 | 北京量科邦信息技术有限公司 | 一种基于selenium的爬虫抓取方法及系统 |
-
2017
- 2017-04-17 CN CN201710247626.6A patent/CN107025296B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101996196A (zh) * | 2009-08-28 | 2011-03-30 | 中国移动通信集团公司 | 一种动态网页的采集方法及装置 |
CN104346328A (zh) * | 2013-07-23 | 2015-02-11 | 同程网络科技股份有限公司 | 基于网页数据抓取的垂直智能爬虫数据收集方法 |
CN103714149A (zh) * | 2013-12-26 | 2014-04-09 | 华中科技大学 | 一种自适应增量式的深层网络数据源发现方法 |
CN104317948A (zh) * | 2014-11-05 | 2015-01-28 | 北京中科辅龙信息技术有限公司 | 页面数据抓取方法和系统 |
CN106484775A (zh) * | 2016-09-12 | 2017-03-08 | 北京量科邦信息技术有限公司 | 一种基于selenium的爬虫抓取方法及系统 |
Non-Patent Citations (3)
Title |
---|
CMS站长网: "搜索引擎如何去抓取页面 宽度优先抓取策略", 《A5创业网,HTTP://WWW.ADMIN5.COM/ARTICLE/20121207/476699.SHTML》 * |
刘嫚: "面向博客的主题爬虫设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
大白痴: "大白痴学习webmagic", 《开源中国社区博客,HTTPS://MY.OSCHINA.NET/JIANQIANGXING/BLOG/213605》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391757A (zh) * | 2017-08-23 | 2017-11-24 | 绵阳美菱软件技术有限公司 | 一种家电数据采集方法和装置 |
CN109729044A (zh) * | 2017-10-30 | 2019-05-07 | 北京宸瑞科技股份有限公司 | 一种通用的互联网数据采集反反爬系统及方法 |
CN107832136A (zh) * | 2017-11-28 | 2018-03-23 | 广州启生信息技术有限公司 | 一种网络爬虫程序的管理方法及装置 |
CN108334379A (zh) * | 2018-01-05 | 2018-07-27 | 北京明略软件系统有限公司 | 一种页面扩展功能的实现方法及实现装置 |
CN108153595A (zh) * | 2018-01-18 | 2018-06-12 | 成都无糖信息技术有限公司 | 一种基于python的大数据分布式任务处理装置 |
CN108549678A (zh) * | 2018-04-02 | 2018-09-18 | 北京今朝在线科技有限公司 | 信息采集系统 |
CN108549678B (zh) * | 2018-04-02 | 2020-06-19 | 北京今朝在线科技有限公司 | 信息采集系统 |
CN108959539A (zh) * | 2018-06-30 | 2018-12-07 | 成都信息工程大学 | 一种基于规则可配置的网页数据解析方法 |
CN108959539B (zh) * | 2018-06-30 | 2021-09-21 | 成都信息工程大学 | 一种基于规则可配置的网页数据解析方法 |
CN110851678B (zh) * | 2018-07-24 | 2024-02-02 | 京东科技控股股份有限公司 | 一种爬取数据的方法和装置 |
CN110851678A (zh) * | 2018-07-24 | 2020-02-28 | 北京京东金融科技控股有限公司 | 一种爬取数据的方法和装置 |
CN109327533A (zh) * | 2018-11-06 | 2019-02-12 | 深圳市东宝信息技术有限公司 | 一种基于任务机制的简历数据推送方法及系统 |
CN109299392A (zh) * | 2018-11-21 | 2019-02-01 | 安徽云融信息技术有限公司 | 一种网络爬虫抓取数据的优化方法 |
CN109597952A (zh) * | 2018-12-10 | 2019-04-09 | 江苏满运软件科技有限公司 | 网页信息处理方法、系统、电子设备和存储介质 |
CN109918557A (zh) * | 2019-03-12 | 2019-06-21 | 厦门商集网络科技有限责任公司 | 一种网页数据爬取合并方法及计算机可读存储介质 |
CN110188259A (zh) * | 2019-05-27 | 2019-08-30 | 厦门商集网络科技有限责任公司 | 一种可配置化的数据抓取方法和装置 |
CN111339388A (zh) * | 2019-06-13 | 2020-06-26 | 海通证券股份有限公司 | 一种信息爬取系统 |
CN110390558A (zh) * | 2019-06-19 | 2019-10-29 | 平安银行股份有限公司 | 图片自动检核方法、装置、终端及可读存储介质 |
CN112685619A (zh) * | 2020-12-29 | 2021-04-20 | 江苏乐道胡巴投资管理有限公司 | 一种网页表格数据通用抓取方法 |
CN113934912A (zh) * | 2021-11-11 | 2022-01-14 | 北京搜房科技发展有限公司 | 数据爬取方法及装置、存储介质及电子设备 |
CN114390035A (zh) * | 2022-01-12 | 2022-04-22 | 国家计算机网络与信息安全管理中心陕西分中心 | 一种以太坊智能合约应用态势感知系统 |
CN115238210A (zh) * | 2022-09-21 | 2022-10-25 | 云账户技术(天津)有限公司 | 一种网站链接可用性检查方法及装置、存储介质、终端 |
CN115730150A (zh) * | 2022-12-09 | 2023-03-03 | 广州富莱星科技有限公司 | 一种数据抓取方法、系统、设备及可存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107025296B (zh) | 2018-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107025296B (zh) | 基于科技服务信息智能抓取系统数据收集方法 | |
CN104077402B (zh) | 数据处理方法和数据处理系统 | |
CN102646129B (zh) | 一种主题相关的分布式网络爬虫系统 | |
CN107895009A (zh) | 一种基于分布式的互联网数据采集方法及系统 | |
Reddy et al. | An effective data preprocessing method for Web Usage Mining | |
CN107729564A (zh) | 一种分布式的聚焦网络爬虫网页爬取方法及系统 | |
CN105893583A (zh) | 基于人工智能的数据采集方法及系统 | |
CN103927370A (zh) | 一种组合文字和图片信息的网络资讯批量采集方法 | |
CN103020043A (zh) | 一种面向web双语平行语料资源的分布式采集系统 | |
CN108876058B (zh) | 一种基于微博的新闻事件影响力预测方法 | |
CN105718590A (zh) | 面向多租户的SaaS舆情监控系统及方法 | |
CN105224691B (zh) | 一种信息处理方法及装置 | |
CN104679825A (zh) | 基于网络文本的地震宏观异常信息获取与筛选方法 | |
CN109729044A (zh) | 一种通用的互联网数据采集反反爬系统及方法 | |
CN106649362A (zh) | 网页爬取方法和装置 | |
Avarikioti et al. | Structure and content of the visible Darknet | |
CN107807937A (zh) | 一种网站seo处理方法、装置及系统 | |
CN106649357A (zh) | 用于爬虫程序的数据处理方法及装置 | |
CN103810283A (zh) | 一种基于用户关联关系的微博数据采集方法 | |
Di Giovanni et al. | VaccinEU: COVID-19 vaccine conversations on Twitter in French, German and Italian | |
CN104967698B (zh) | 一种爬取网络数据的方法和装置 | |
Yang et al. | Penny for your thoughts: Searching for the 50 cent party on sina weibo | |
CN106708803A (zh) | 一种特征提取方法及装置 | |
CN107832344A (zh) | 一种基于storm流计算框架的食品安全网络舆情分析方法 | |
CN107784054B (zh) | 一种页面发布方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Chen Wenhai Inventor after: Chen Jinfeng Inventor after: She Wenwen Inventor after: Ma Xiao Inventor after: Bai Daofei Inventor before: Chen Wenhai Inventor before: Yan Binbin Inventor before: Bai Daofei Inventor before: Zhang Jun Inventor before: Cheng Huajuan Inventor before: Huo Yingxia Inventor before: Ding Ping Inventor before: Huang Meizhen Inventor before: Chen Jinfeng Inventor before: Yao Yun Inventor before: She Wenwen Inventor before: Ma Xiao Inventor before: Jia Xu |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |