CN111767450A - 浏览器数据采集系统及方法 - Google Patents

浏览器数据采集系统及方法 Download PDF

Info

Publication number
CN111767450A
CN111767450A CN202010732497.1A CN202010732497A CN111767450A CN 111767450 A CN111767450 A CN 111767450A CN 202010732497 A CN202010732497 A CN 202010732497A CN 111767450 A CN111767450 A CN 111767450A
Authority
CN
China
Prior art keywords
module
browser
browser data
script
data acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010732497.1A
Other languages
English (en)
Inventor
柳齐
李金良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Kuaiyue Education Technology Co ltd
Original Assignee
Shenzhen Kuaiyue Education Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Kuaiyue Education Technology Co ltd filed Critical Shenzhen Kuaiyue Education Technology Co ltd
Priority to CN202010732497.1A priority Critical patent/CN111767450A/zh
Publication of CN111767450A publication Critical patent/CN111767450A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及浏览器数据采集技术领域,尤其涉及一种浏览器数据采集系统,包括界面模块及采集模块,所述界面模块用于展示浏览器可视化的界面;所述采集模块用于采集浏览器上的数据。本发明还提供一种浏览器数据采集方法,包括如下步骤:步骤S1:执行脚本;步骤S2:设置cookie,及打开浏览器;步骤S3:设置代理并读取操作配置文件;步骤S4:设置代理并通过脚本点击操作。本发明的浏览器数据采集系统及方法具有数据及时采集、存储的优点,利于满足用户的需求。

Description

浏览器数据采集系统及方法
【技术领域】
本发明涉及浏览器数据采集技术领域,尤其涉及一种浏览器数据采集系统及方法。
【背景技术】
在网络时代,程序均处于高速运转之中。每分每秒都有无数的新信息产生,在第一时间获取全面、准确的信息对于与信息密切相关的各行各业来说,都已成为越业越迫切的需求。随着网络信息资源的急剧增长,人们越来越多地关注如何开发和利用这些资源。
然而,目前中英文搜索引擎均存在查准率、查全率不高的现象,这种现状无法适应用户对高质量的网络信息服务的需求;同时电子商务以及各种网络信息服务迅速兴起,原有的网络信息处理与组织技术无法赶上这样的发展趋势,网络信息挖掘就是在这样一种环境下应运而生的,并迅速成为网络信息检索、信息服务领域的热点之一。网上信息采编系统可以实现对网上信息的实时监控、收集、存储以及实时更新搜索数据库,提供包括最新信息在内的全文检索,可充分满足各类复杂苛刻的信息服务需求。
因此,现有技术存在不足,需要改进。
【发明内容】
为克服上述的技术问题,本发明提供了一种浏览器数据采集系统及方法。
本发明解决技术问题的方案是提供一种浏览器数据采集系统,包括界面模块及采集模块,
所述界面模块用于展示浏览器可视化的界面;
所述采集模块用于采集浏览器上的数据。
优选地,所述界面模块包括用于展示功能的工具模块、列表栏,
所述工具模块设置有用于新增、删除或修改功能的按键模块;所述浏览器数据采集系统还包括脚本模块,
所述列表栏包括脚本编辑区,所述脚本编辑区用于对脚本模块进行增加、删除、修改的操作。
优选地,所述浏览器数据采集系统还包括代理模块,所述代理模块用于在IP受限时访问浏览器网站。
优选地,所述浏览器数据采集系统还包括数据库模块,所述数据库模块用于存储采集模块所采集的数据及代理模块运行的一部分数据。
优选地,所述浏览器数据采集系统还包括自定义变量模块,所述自定义变量模块的值从数据库模块中或文本中导入获取,所述代理模块运行的另一部分数据存储在自定义变量模块中。
优选地,所述数据库模块的类型为access型、sqlite型、mysql型或sqlserver型。
优选地,所述浏览器数据采集系统支持CEF内核。
本发明还提供一种浏览器数据采集方法,其采用上述的浏览器数据采集系统,包括如下步骤:
步骤S1:执行脚本;
步骤S2:设置cookie,及打开浏览器;
步骤S3:设置代理并读取操作配置文件;
步骤S4:设置代理并通过脚本点击操作。
优选地,所述步骤S4还包括如下步骤:
步骤S41:模拟鼠标操作;
步骤S42:自动抓取数据;
步骤S43:模拟键盘操作并进行自动下载。
优选地,所述浏览器数据采集方法还包括如下步骤:
步骤S5:返回步骤S4并进行批量操作。
相对于现有技术,本发明的具有如下优点:
本发明可对浏览器上的数据进行采集,有利于满足人们对数据收集的需求;提供功能模块,显示所具备的功能,提供脚本编辑区,便于对脚本模块的增加、删除及修改;数据库模块可对所采集的数据进行存储,有利于后续人们对数据的收集及分析;用户可通过自定义变量模块实现脚本模块的灵活使用;数据库模块用于对数据进行存储,本发明中优选数据库模块的类型为sqlite型,可存储少量数据的同时不需要数据库安装环境,较为便捷;本发明的浏览器数据采集系统支持CEF内核,稳定程度较高。
【附图说明】
图1是本发明浏览器数据采集系统的具体模块结构示意图。
图2是本发明浏览器数据采集方法的具体流程结构示意图。
附图标记说明:
10、浏览器数据采集系统;11、界面模块;12、采集模块;13、脚本模块;14、代理模块;15、数据库模块;16、自定义变量模块;17、工具模块;18、列表栏;19、按键模块;20、脚本编辑区。
【具体实施方式】
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施实例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
请参阅图1,本发明提供一种浏览器数据采集系统10,包括界面模块11、采集模块12、脚本模块13、代理模块14、数据库模块15及自定义变量模块16,界面模块11用于展示浏览器可视化的界面,采集模块12用于采集浏览器上的数据。
优选地,本发明的浏览器数据采集系统10支持CEF内核,具有较高的稳定程度。
界面模块11包括工具模块17与列表栏18,工具模块17用于展示功能,列表栏18用于对脚本模块13进行选取。
工具模块17包括按键模块19,按键模块19用于对功能进行新增、删除或修改。
列表栏18包括脚本编辑区20,用户可通过操作脚本编辑区20对脚本模块13进行增加、删除、修改的操作。
代理模块14用于在IP受限时通过代理的方式对浏览器网站进行访问。当http请求使用代理时,以通过http请求访问网页,需要在请求头信息中加入:proxy:ip:port。
数据库模块15用于存储采集模块12采集的数据及代理模块14运行的一部分数据。
优选地,数据库模块15的类型为access型、sqlite型、mysql型或sqlserver型。具体地,本发明中的数据库模块15的类型为sqlite型,sqlite型的数据库对安装数据库的环境无要求,还可保存一定量的数据,较为便捷。
进一步优选,数据库模块15可同时支持ANSI和UTF-8编码,具有较佳的兼容性。
自定义变量模块16的值从数据库模块15中或文本中导入获取,其中代理模块14运行的另一部分数据也存储于自定义变量模块16中。脚本模块13部分可应用变量。自定义变量模块16的设置使得脚本模块13的使用更为灵活,较为便利。
请参阅图2,本发明还提供一种浏览器数据采集方法,包括如下步骤:
步骤S1:执行脚本;
步骤S2:设置cookie,及打开浏览器;
步骤S3:设置代理并读取操作配置文件;
步骤S4:设置代理并通过脚本点击操作。
此为单个IP的数据采集方法,在步骤S1中先执行脚本模块13,在步骤S3中再进行设置代理模块14,以及在步骤S4中设置代理模块14的同时通过脚本模块13进行点击操作。
优选地,步骤S4还包括如下步骤:
步骤S41:模拟鼠标操作;
步骤S42:自动抓取数据;
步骤S43:模拟键盘操作并进行自动下载。
即通过模拟鼠标操作来进行数据的自动抓取,通过模拟键盘操作进行自动下载,即完成数据的抓取及下载。
优选地,本发明的浏览器数据采集方法还包括如下步骤:
步骤S5:返回步骤S4并进行批量操作。
此步骤针对多个IP时的方法。当IP为多个时即需要通过步骤S5来进行操作。
本发明可对浏览器上的数据进行采集,有利于满足人们对数据收集的需求;提供功能模块,显示所具备的功能,提供脚本编辑区,便于对脚本模块的增加、删除及修改;数据库模块可对所采集的数据进行存储,有利于后续人们对数据的收集及分析;用户可通过自定义变量模块实现脚本模块的灵活使用;数据库模块用于对数据进行存储,本发明中优选数据库模块的类型为sqlite型,可存储少量数据的同时不需要数据库安装环境,较为便捷;本发明的浏览器数据采集系统支持CEF内核,稳定程度较高。
以上所述仅为本发明的较佳实施例,并非因此限制本发明的专利范围,凡是在本发明的构思之内所作的任何修改,等同替换和改进等均应包含在本发明的专利保护范围内。

Claims (10)

1.一种浏览器数据采集系统,其特征在于:所述浏览器数据采集系统包括界面模块及采集模块,
所述界面模块用于展示浏览器可视化的界面;
所述采集模块用于采集浏览器上的数据。
2.如权利要求1所述的浏览器数据采集系统,其特征在于:所述界面模块包括用于展示功能的工具模块、列表栏,
所述工具模块设置有用于新增、删除或修改功能的按键模块;所述浏览器数据采集系统还包括脚本模块,
所述列表栏包括脚本编辑区,所述脚本编辑区用于对脚本模块进行增加、删除、修改的操作。
3.如权利要求1所述的浏览器数据采集系统,其特征在于:所述浏览器数据采集系统还包括代理模块,所述代理模块用于在IP受限时访问浏览器网站。
4.如权利要求3所述的浏览器数据采集系统,其特征在于:所述浏览器数据采集系统还包括数据库模块,所述数据库模块用于存储采集模块所采集的数据及代理模块运行的一部分数据。
5.如权利要求4所述的浏览器数据采集系统,其特征在于:所述浏览器数据采集系统还包括自定义变量模块,所述自定义变量模块的值从数据库模块中或文本中导入获取,所述代理模块运行的另一部分数据存储在自定义变量模块中。
6.如权利要求4所述的浏览器数据采集系统,其特征在于:所述数据库模块的类型为access型、sqlite型、mysql型或sqlserver型。
7.如权利要求1所述的浏览器数据采集系统,其特征在于:所述浏览器数据采集系统支持CEF内核。
8.一种浏览器数据采集方法,其采用如权利要求1-8任一项所述的浏览器数据采集系统,其特征在于:包括如下步骤:
步骤S1:执行脚本;
步骤S2:设置cookie,及打开浏览器;
步骤S3:设置代理并读取操作配置文件;
步骤S4:设置代理并通过脚本点击操作。
9.如权利要求8所述的浏览器数据采集方法,其特征在于:所述步骤S4还包括如下步骤:
步骤S41:模拟鼠标操作;
步骤S42:自动抓取数据;
步骤S43:模拟键盘操作并进行自动下载。
10.如权利要求8所述的浏览器数据采集方法,其特征在于:所述浏览器数据采集方法还包括如下步骤:
步骤S5:返回步骤S4并进行批量操作。
CN202010732497.1A 2020-07-27 2020-07-27 浏览器数据采集系统及方法 Pending CN111767450A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010732497.1A CN111767450A (zh) 2020-07-27 2020-07-27 浏览器数据采集系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010732497.1A CN111767450A (zh) 2020-07-27 2020-07-27 浏览器数据采集系统及方法

Publications (1)

Publication Number Publication Date
CN111767450A true CN111767450A (zh) 2020-10-13

Family

ID=72727394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010732497.1A Pending CN111767450A (zh) 2020-07-27 2020-07-27 浏览器数据采集系统及方法

Country Status (1)

Country Link
CN (1) CN111767450A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114428635A (zh) * 2022-04-06 2022-05-03 杭州未名信科科技有限公司 一种数据采集方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080313648A1 (en) * 2007-06-14 2008-12-18 Microsoft Corporation Protection and communication abstractions for web browsers
CN101533409A (zh) * 2009-04-23 2009-09-16 北京时代沃华传媒科技发展有限公司 一种网络浏览器系统和控制方法
CN104714989A (zh) * 2013-12-12 2015-06-17 南宁市磁汇科技有限公司 在浏览器中动态存取和可视化编辑web页面的方法
CN105335511A (zh) * 2015-10-30 2016-02-17 百度在线网络技术(北京)有限公司 网页的访问方法及装置
CN110457565A (zh) * 2019-08-08 2019-11-15 上海富数科技有限公司 基于浏览器集群技术的数据采集系统及其控制方法
CN110909229A (zh) * 2019-11-27 2020-03-24 佛山科学技术学院 一种基于模拟浏览器访问的网页数据获取和存储的系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080313648A1 (en) * 2007-06-14 2008-12-18 Microsoft Corporation Protection and communication abstractions for web browsers
CN101533409A (zh) * 2009-04-23 2009-09-16 北京时代沃华传媒科技发展有限公司 一种网络浏览器系统和控制方法
CN104714989A (zh) * 2013-12-12 2015-06-17 南宁市磁汇科技有限公司 在浏览器中动态存取和可视化编辑web页面的方法
CN105335511A (zh) * 2015-10-30 2016-02-17 百度在线网络技术(北京)有限公司 网页的访问方法及装置
CN110457565A (zh) * 2019-08-08 2019-11-15 上海富数科技有限公司 基于浏览器集群技术的数据采集系统及其控制方法
CN110909229A (zh) * 2019-11-27 2020-03-24 佛山科学技术学院 一种基于模拟浏览器访问的网页数据获取和存储的系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114428635A (zh) * 2022-04-06 2022-05-03 杭州未名信科科技有限公司 一种数据采集方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US10783318B2 (en) Facilitating modification of an extracted field
CA2462415C (en) Computer searching with associations
US20180267947A1 (en) Refining extraction rules based on selected text within events
US7865815B2 (en) Integration and presentation of current and historic versions of document and annotations thereon
US8095534B1 (en) Selection and sharing of verified search results
US20150149879A1 (en) Advanced field extractor with multiple positive examples
US20120197855A1 (en) Method and Apparatus of Generating Internet Navigation Page
US11138191B1 (en) Multi-field search query of result data set generated from event data
CN105138312B (zh) 一种表格生成方法及装置
US8606726B2 (en) Detecting correlations between data representing information
US11790623B1 (en) Manipulation of virtual object position within a plane of an extended reality environment
CN112162965B (zh) 一种日志数据处理的方法、装置、计算机设备及存储介质
CN107735785B (zh) 自动信息检索
CN114201615B (zh) 基于数据快照的科研数据变动回顾方法及服务器
CN111767450A (zh) 浏览器数据采集系统及方法
CN112817817A (zh) 埋点信息查询方法、装置、计算机设备和存储介质
CN112667218A (zh) 一种处理方法、装置、设备及存储介质
CN111428117A (zh) 应用程序的数据获取方法和装置
CN112966029A (zh) 一种信息显示和发送方法、装置、设备和可读介质
CN110569430A (zh) 一种移动端网络爬虫系统
US20240054174A1 (en) Methods and systems for obtaining and storing web pages
Han et al. Homepage live: automatic block tracing for web personalization
CN106909493A (zh) 一种在基于windows平台的刀片服务器中实时显示bmc日志的方法
KR20040100857A (ko) 검색 시스템에서의 데이터베이스 작성 방법 및 작성된데이터베이스를 포함하는 검색 시스템
WO2023274806A1 (en) E-commerce toolkit infrastructure

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201013