CN111767450A - 浏览器数据采集系统及方法 - Google Patents
浏览器数据采集系统及方法 Download PDFInfo
- Publication number
- CN111767450A CN111767450A CN202010732497.1A CN202010732497A CN111767450A CN 111767450 A CN111767450 A CN 111767450A CN 202010732497 A CN202010732497 A CN 202010732497A CN 111767450 A CN111767450 A CN 111767450A
- Authority
- CN
- China
- Prior art keywords
- module
- browser
- browser data
- script
- data acquisition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 235000014510 cooky Nutrition 0.000 claims abstract description 4
- 230000000007 visual effect Effects 0.000 claims abstract description 4
- 238000013480 data collection Methods 0.000 claims description 16
- 230000009286 beneficial effect Effects 0.000 abstract description 5
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/904—Browsing; Visualisation therefor
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及浏览器数据采集技术领域,尤其涉及一种浏览器数据采集系统,包括界面模块及采集模块,所述界面模块用于展示浏览器可视化的界面;所述采集模块用于采集浏览器上的数据。本发明还提供一种浏览器数据采集方法,包括如下步骤:步骤S1:执行脚本;步骤S2:设置cookie,及打开浏览器;步骤S3:设置代理并读取操作配置文件;步骤S4:设置代理并通过脚本点击操作。本发明的浏览器数据采集系统及方法具有数据及时采集、存储的优点,利于满足用户的需求。
Description
【技术领域】
本发明涉及浏览器数据采集技术领域,尤其涉及一种浏览器数据采集系统及方法。
【背景技术】
在网络时代,程序均处于高速运转之中。每分每秒都有无数的新信息产生,在第一时间获取全面、准确的信息对于与信息密切相关的各行各业来说,都已成为越业越迫切的需求。随着网络信息资源的急剧增长,人们越来越多地关注如何开发和利用这些资源。
然而,目前中英文搜索引擎均存在查准率、查全率不高的现象,这种现状无法适应用户对高质量的网络信息服务的需求;同时电子商务以及各种网络信息服务迅速兴起,原有的网络信息处理与组织技术无法赶上这样的发展趋势,网络信息挖掘就是在这样一种环境下应运而生的,并迅速成为网络信息检索、信息服务领域的热点之一。网上信息采编系统可以实现对网上信息的实时监控、收集、存储以及实时更新搜索数据库,提供包括最新信息在内的全文检索,可充分满足各类复杂苛刻的信息服务需求。
因此,现有技术存在不足,需要改进。
【发明内容】
为克服上述的技术问题,本发明提供了一种浏览器数据采集系统及方法。
本发明解决技术问题的方案是提供一种浏览器数据采集系统,包括界面模块及采集模块,
所述界面模块用于展示浏览器可视化的界面;
所述采集模块用于采集浏览器上的数据。
优选地,所述界面模块包括用于展示功能的工具模块、列表栏,
所述工具模块设置有用于新增、删除或修改功能的按键模块;所述浏览器数据采集系统还包括脚本模块,
所述列表栏包括脚本编辑区,所述脚本编辑区用于对脚本模块进行增加、删除、修改的操作。
优选地,所述浏览器数据采集系统还包括代理模块,所述代理模块用于在IP受限时访问浏览器网站。
优选地,所述浏览器数据采集系统还包括数据库模块,所述数据库模块用于存储采集模块所采集的数据及代理模块运行的一部分数据。
优选地,所述浏览器数据采集系统还包括自定义变量模块,所述自定义变量模块的值从数据库模块中或文本中导入获取,所述代理模块运行的另一部分数据存储在自定义变量模块中。
优选地,所述数据库模块的类型为access型、sqlite型、mysql型或sqlserver型。
优选地,所述浏览器数据采集系统支持CEF内核。
本发明还提供一种浏览器数据采集方法,其采用上述的浏览器数据采集系统,包括如下步骤:
步骤S1:执行脚本;
步骤S2:设置cookie,及打开浏览器;
步骤S3:设置代理并读取操作配置文件;
步骤S4:设置代理并通过脚本点击操作。
优选地,所述步骤S4还包括如下步骤:
步骤S41:模拟鼠标操作;
步骤S42:自动抓取数据;
步骤S43:模拟键盘操作并进行自动下载。
优选地,所述浏览器数据采集方法还包括如下步骤:
步骤S5:返回步骤S4并进行批量操作。
相对于现有技术,本发明的具有如下优点:
本发明可对浏览器上的数据进行采集,有利于满足人们对数据收集的需求;提供功能模块,显示所具备的功能,提供脚本编辑区,便于对脚本模块的增加、删除及修改;数据库模块可对所采集的数据进行存储,有利于后续人们对数据的收集及分析;用户可通过自定义变量模块实现脚本模块的灵活使用;数据库模块用于对数据进行存储,本发明中优选数据库模块的类型为sqlite型,可存储少量数据的同时不需要数据库安装环境,较为便捷;本发明的浏览器数据采集系统支持CEF内核,稳定程度较高。
【附图说明】
图1是本发明浏览器数据采集系统的具体模块结构示意图。
图2是本发明浏览器数据采集方法的具体流程结构示意图。
附图标记说明:
10、浏览器数据采集系统;11、界面模块;12、采集模块;13、脚本模块;14、代理模块;15、数据库模块;16、自定义变量模块;17、工具模块;18、列表栏;19、按键模块;20、脚本编辑区。
【具体实施方式】
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施实例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
请参阅图1,本发明提供一种浏览器数据采集系统10,包括界面模块11、采集模块12、脚本模块13、代理模块14、数据库模块15及自定义变量模块16,界面模块11用于展示浏览器可视化的界面,采集模块12用于采集浏览器上的数据。
优选地,本发明的浏览器数据采集系统10支持CEF内核,具有较高的稳定程度。
界面模块11包括工具模块17与列表栏18,工具模块17用于展示功能,列表栏18用于对脚本模块13进行选取。
工具模块17包括按键模块19,按键模块19用于对功能进行新增、删除或修改。
列表栏18包括脚本编辑区20,用户可通过操作脚本编辑区20对脚本模块13进行增加、删除、修改的操作。
代理模块14用于在IP受限时通过代理的方式对浏览器网站进行访问。当http请求使用代理时,以通过http请求访问网页,需要在请求头信息中加入:proxy:ip:port。
数据库模块15用于存储采集模块12采集的数据及代理模块14运行的一部分数据。
优选地,数据库模块15的类型为access型、sqlite型、mysql型或sqlserver型。具体地,本发明中的数据库模块15的类型为sqlite型,sqlite型的数据库对安装数据库的环境无要求,还可保存一定量的数据,较为便捷。
进一步优选,数据库模块15可同时支持ANSI和UTF-8编码,具有较佳的兼容性。
自定义变量模块16的值从数据库模块15中或文本中导入获取,其中代理模块14运行的另一部分数据也存储于自定义变量模块16中。脚本模块13部分可应用变量。自定义变量模块16的设置使得脚本模块13的使用更为灵活,较为便利。
请参阅图2,本发明还提供一种浏览器数据采集方法,包括如下步骤:
步骤S1:执行脚本;
步骤S2:设置cookie,及打开浏览器;
步骤S3:设置代理并读取操作配置文件;
步骤S4:设置代理并通过脚本点击操作。
此为单个IP的数据采集方法,在步骤S1中先执行脚本模块13,在步骤S3中再进行设置代理模块14,以及在步骤S4中设置代理模块14的同时通过脚本模块13进行点击操作。
优选地,步骤S4还包括如下步骤:
步骤S41:模拟鼠标操作;
步骤S42:自动抓取数据;
步骤S43:模拟键盘操作并进行自动下载。
即通过模拟鼠标操作来进行数据的自动抓取,通过模拟键盘操作进行自动下载,即完成数据的抓取及下载。
优选地,本发明的浏览器数据采集方法还包括如下步骤:
步骤S5:返回步骤S4并进行批量操作。
此步骤针对多个IP时的方法。当IP为多个时即需要通过步骤S5来进行操作。
本发明可对浏览器上的数据进行采集,有利于满足人们对数据收集的需求;提供功能模块,显示所具备的功能,提供脚本编辑区,便于对脚本模块的增加、删除及修改;数据库模块可对所采集的数据进行存储,有利于后续人们对数据的收集及分析;用户可通过自定义变量模块实现脚本模块的灵活使用;数据库模块用于对数据进行存储,本发明中优选数据库模块的类型为sqlite型,可存储少量数据的同时不需要数据库安装环境,较为便捷;本发明的浏览器数据采集系统支持CEF内核,稳定程度较高。
以上所述仅为本发明的较佳实施例,并非因此限制本发明的专利范围,凡是在本发明的构思之内所作的任何修改,等同替换和改进等均应包含在本发明的专利保护范围内。
Claims (10)
1.一种浏览器数据采集系统,其特征在于:所述浏览器数据采集系统包括界面模块及采集模块,
所述界面模块用于展示浏览器可视化的界面;
所述采集模块用于采集浏览器上的数据。
2.如权利要求1所述的浏览器数据采集系统,其特征在于:所述界面模块包括用于展示功能的工具模块、列表栏,
所述工具模块设置有用于新增、删除或修改功能的按键模块;所述浏览器数据采集系统还包括脚本模块,
所述列表栏包括脚本编辑区,所述脚本编辑区用于对脚本模块进行增加、删除、修改的操作。
3.如权利要求1所述的浏览器数据采集系统,其特征在于:所述浏览器数据采集系统还包括代理模块,所述代理模块用于在IP受限时访问浏览器网站。
4.如权利要求3所述的浏览器数据采集系统,其特征在于:所述浏览器数据采集系统还包括数据库模块,所述数据库模块用于存储采集模块所采集的数据及代理模块运行的一部分数据。
5.如权利要求4所述的浏览器数据采集系统,其特征在于:所述浏览器数据采集系统还包括自定义变量模块,所述自定义变量模块的值从数据库模块中或文本中导入获取,所述代理模块运行的另一部分数据存储在自定义变量模块中。
6.如权利要求4所述的浏览器数据采集系统,其特征在于:所述数据库模块的类型为access型、sqlite型、mysql型或sqlserver型。
7.如权利要求1所述的浏览器数据采集系统,其特征在于:所述浏览器数据采集系统支持CEF内核。
8.一种浏览器数据采集方法,其采用如权利要求1-8任一项所述的浏览器数据采集系统,其特征在于:包括如下步骤:
步骤S1:执行脚本;
步骤S2:设置cookie,及打开浏览器;
步骤S3:设置代理并读取操作配置文件;
步骤S4:设置代理并通过脚本点击操作。
9.如权利要求8所述的浏览器数据采集方法,其特征在于:所述步骤S4还包括如下步骤:
步骤S41:模拟鼠标操作;
步骤S42:自动抓取数据;
步骤S43:模拟键盘操作并进行自动下载。
10.如权利要求8所述的浏览器数据采集方法,其特征在于:所述浏览器数据采集方法还包括如下步骤:
步骤S5:返回步骤S4并进行批量操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010732497.1A CN111767450A (zh) | 2020-07-27 | 2020-07-27 | 浏览器数据采集系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010732497.1A CN111767450A (zh) | 2020-07-27 | 2020-07-27 | 浏览器数据采集系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111767450A true CN111767450A (zh) | 2020-10-13 |
Family
ID=72727394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010732497.1A Pending CN111767450A (zh) | 2020-07-27 | 2020-07-27 | 浏览器数据采集系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111767450A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114428635A (zh) * | 2022-04-06 | 2022-05-03 | 杭州未名信科科技有限公司 | 一种数据采集方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080313648A1 (en) * | 2007-06-14 | 2008-12-18 | Microsoft Corporation | Protection and communication abstractions for web browsers |
CN101533409A (zh) * | 2009-04-23 | 2009-09-16 | 北京时代沃华传媒科技发展有限公司 | 一种网络浏览器系统和控制方法 |
CN104714989A (zh) * | 2013-12-12 | 2015-06-17 | 南宁市磁汇科技有限公司 | 在浏览器中动态存取和可视化编辑web页面的方法 |
CN105335511A (zh) * | 2015-10-30 | 2016-02-17 | 百度在线网络技术(北京)有限公司 | 网页的访问方法及装置 |
CN110457565A (zh) * | 2019-08-08 | 2019-11-15 | 上海富数科技有限公司 | 基于浏览器集群技术的数据采集系统及其控制方法 |
CN110909229A (zh) * | 2019-11-27 | 2020-03-24 | 佛山科学技术学院 | 一种基于模拟浏览器访问的网页数据获取和存储的系统 |
-
2020
- 2020-07-27 CN CN202010732497.1A patent/CN111767450A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080313648A1 (en) * | 2007-06-14 | 2008-12-18 | Microsoft Corporation | Protection and communication abstractions for web browsers |
CN101533409A (zh) * | 2009-04-23 | 2009-09-16 | 北京时代沃华传媒科技发展有限公司 | 一种网络浏览器系统和控制方法 |
CN104714989A (zh) * | 2013-12-12 | 2015-06-17 | 南宁市磁汇科技有限公司 | 在浏览器中动态存取和可视化编辑web页面的方法 |
CN105335511A (zh) * | 2015-10-30 | 2016-02-17 | 百度在线网络技术(北京)有限公司 | 网页的访问方法及装置 |
CN110457565A (zh) * | 2019-08-08 | 2019-11-15 | 上海富数科技有限公司 | 基于浏览器集群技术的数据采集系统及其控制方法 |
CN110909229A (zh) * | 2019-11-27 | 2020-03-24 | 佛山科学技术学院 | 一种基于模拟浏览器访问的网页数据获取和存储的系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114428635A (zh) * | 2022-04-06 | 2022-05-03 | 杭州未名信科科技有限公司 | 一种数据采集方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10783318B2 (en) | Facilitating modification of an extracted field | |
CA2462415C (en) | Computer searching with associations | |
US20180267947A1 (en) | Refining extraction rules based on selected text within events | |
US7865815B2 (en) | Integration and presentation of current and historic versions of document and annotations thereon | |
US8095534B1 (en) | Selection and sharing of verified search results | |
US20150149879A1 (en) | Advanced field extractor with multiple positive examples | |
US20120197855A1 (en) | Method and Apparatus of Generating Internet Navigation Page | |
US11138191B1 (en) | Multi-field search query of result data set generated from event data | |
CN105138312B (zh) | 一种表格生成方法及装置 | |
US8606726B2 (en) | Detecting correlations between data representing information | |
US11790623B1 (en) | Manipulation of virtual object position within a plane of an extended reality environment | |
CN112162965B (zh) | 一种日志数据处理的方法、装置、计算机设备及存储介质 | |
CN107735785B (zh) | 自动信息检索 | |
CN114201615B (zh) | 基于数据快照的科研数据变动回顾方法及服务器 | |
CN111767450A (zh) | 浏览器数据采集系统及方法 | |
CN112817817A (zh) | 埋点信息查询方法、装置、计算机设备和存储介质 | |
CN112667218A (zh) | 一种处理方法、装置、设备及存储介质 | |
CN111428117A (zh) | 应用程序的数据获取方法和装置 | |
CN112966029A (zh) | 一种信息显示和发送方法、装置、设备和可读介质 | |
CN110569430A (zh) | 一种移动端网络爬虫系统 | |
US20240054174A1 (en) | Methods and systems for obtaining and storing web pages | |
Han et al. | Homepage live: automatic block tracing for web personalization | |
CN106909493A (zh) | 一种在基于windows平台的刀片服务器中实时显示bmc日志的方法 | |
KR20040100857A (ko) | 검색 시스템에서의 데이터베이스 작성 방법 및 작성된데이터베이스를 포함하는 검색 시스템 | |
WO2023274806A1 (en) | E-commerce toolkit infrastructure |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201013 |