CN106981005A - 一种用于电子商务平台的数据采集系统 - Google Patents

一种用于电子商务平台的数据采集系统 Download PDF

Info

Publication number
CN106981005A
CN106981005A CN201710079119.6A CN201710079119A CN106981005A CN 106981005 A CN106981005 A CN 106981005A CN 201710079119 A CN201710079119 A CN 201710079119A CN 106981005 A CN106981005 A CN 106981005A
Authority
CN
China
Prior art keywords
data
module
user
task
commerce platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710079119.6A
Other languages
English (en)
Inventor
刘鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiuyi Furui (beijing) Technology Co Ltd
Original Assignee
Jiuyi Furui (beijing) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiuyi Furui (beijing) Technology Co Ltd filed Critical Jiuyi Furui (beijing) Technology Co Ltd
Priority to CN201710079119.6A priority Critical patent/CN106981005A/zh
Publication of CN106981005A publication Critical patent/CN106981005A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • G06Q30/0629Directed, with specific intent or strategy for generating comparisons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2425Iterative querying; Query formulation based on the results of a preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Accounting & Taxation (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Security & Cryptography (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种用于电子商务平台的数据采集系统,包括爬取模块、入库模块、定时任务模块和数据下载模块,所述爬取模块根据定时任务模块定义的时间定时爬取网站数据,并将爬取数据传输到入库模块,所述入库模块向数据库存入爬取数据;所述数据下载模块用于将数据放到网站供用户下载,可以采集同类型商品在其他购物平台中的价格、质量等信息,从而实现电子商务平台中的商品与其他平台的商品做横向对比,进而更好的提升用户购物体验,满足用户购物需求。

Description

一种用于电子商务平台的数据采集系统
技术领域
本发明涉及数据采集领域,具体涉及一种用于电子商务平台的数据采集系统。
背景技术
随着信息技术应用和经济发展需求的推动,电子商务成为对社会发展具有重要引领作用的新型产业。电子商务平台在其中扮演了重要的角色,其通过在网上为用户和卖家建立一个沟通平台,不受地理空间及时间限制,可以随时进行各种商业和贸易活动,但是目前电子商务平台侧重点在于根据用户请求对产品进行搜索排序,例如公开号为CN106296347的发明专利申请,公开了一种电子商务交易平台,其通过接受用户端的搜索请求,检索与之匹配的产品,并进行排序等等,其缺点在于仅能对电子商务平台内数据进行排序并结果显示,鉴于目前电子商务的迅猛发展,各种电子商务平台迅速出现,各个平台之间的数据缺少比对,用户使用时难以对整个网络横向的数据进行整体把握,例如同类型商品的价格比较难以实现,用户购物体验欠佳。
发明内容
针对现有技术的缺点,本发明提供一种用于电子商务平台的数据采集系统,针对目前网上购物平台中,客户较多关注的是同类型商品的性价比的特点,本发明可以采集同类型商品在其他购物平台中的价格、质量等信息,从而实现电子商务平台中的商品与其他平台的商品做横向对比,进而更好的提升用户购物体验,满足用户购物需求。
其具体技术方案如下:
一种用于电子商务平台的数据采集系统,包括爬取模块、入库模块、定时任务模块和数据下载模块,所述爬取模块根据定时任务模块定义的时间定时爬取网站数据,并将爬取数据传输到入库模块,所述入库模块向数据库存入爬取数据;所述数据下载模块用于将数据放到网站供用户下载。
进一步的,所述的爬取模块包括数据采集规则获取模块,用于获取用户的数据采集规则;数据采集规则配置模块,用于将数据采集规则配置到数据采集系统当中;数据采集任务创建模块,用于根据配置的数据采集规则创建数据采集任务;数据采集任务展示模块,用于展示出用户创建的任务,并展示出任务状态;数据查看和导出模块,以任务列表为入口查看采集到的数据,用户可以将采集到的数据导出为excel、xml、html、txt、zip或rar格式;数据加密模块,用于对采集到的数据进行加密;
进一步的,所述数据采集规则分为两种模式,一是向导模式,适用于以下场景:1)单网页采集;2)列表采集;3)翻页采集,其查询结果分布展示,每页采集规则相同;二是自定义模式,用于多种网页数据采集,支持用户导出、导入多个数据采集规则;
进一步的,所述数据采集任务状态分为:未执行、运行中、已暂停、已完成;对于未执行状态的任务,用户可以启动任务,进行数据采集;对于运行中的任务,用户可进行定暂停/取消操作;对于已暂停的任务,用户可以查看当前已采集到的数据,也可以继续运行任务;对于已完成的任务,用户可以查看采集到的数据;
进一步的,所述数据采集任务创建根据用户权限,分为单机采集、单机多线程采集、多机分布式采集、云服务器采集;
进一步的,所述数据加密模块支持MD5、Base64两种加密方式;
进一步的,所述数据采集规则配置分为两种方式,一是向导模式,用户按照向导提示输入信息进行相应的操作,完成数据采集规则的配置;二是自定义模式,用户输入目标url,采集器通过获取页面数据分析出页面包含的筛选条件及采集数据的属性,并将筛选条件和采集数据的属性展示给用户,供用户进行自定义设定,以便采集用户的目标数据;
进一步的,所述入库模块存入爬取数据的方式有两种,一是向用户提供数据API接口,用户通过调用数据API接口获取采集数据;二是向用户提供数据库信息配置功能,待用户配置好数据库信息后,点击执行,自行将采集的数据导入到用户数据库中;
进一步的,用户数据库类型可以为Access、MySQL、Sqlite、Oracle或mongodb;
进一步的,所述数据下载模块支持加密狗或短信验证码两种加密方式;
本发明的优点在于:可以采集同类型商品在其他购物平台中的数据信息,诸如价格、质量等信息,从而实现电子商务平台中的商品与其他平台的商品做对比,进而更好的提升用户购物体验,满足用户购物需求。
附图说明
图1为本发明的原理示意图;
具体实施方式
以下将根据附图所示的优选实施例,对本发明进行详细解释,然而本发明不限于该实施例。
如图1所示:
一种用于电子商务平台的数据采集系统,包括爬取模块、入库模块、定时任务模块和数据下载模块,所述爬取模块根据定时任务模块定义的时间定时爬取网站数据,并将爬取数据传输到入库模块,所述入库模块向数据库存入爬取数据;所述数据下载模块用于将数据放到网站供用户下载。
进一步的,所述的爬取模块包括数据采集规则获取模块,用于获取用户的数据采集规则;数据采集规则配置模块,用于将数据采集规则配置到数据采集系统当中;数据采集任务创建模块,用于根据配置的数据采集规则创建数据采集任务;数据采集任务展示模块,用于展示出用户创建的任务,并展示出任务状态;数据查看和导出模块,以任务列表为入口查看采集到的数据,用户可以将采集到的数据导出为excel、xml、html、txt、zip或rar格式;数据加密模块,用于对采集到的数据进行加密;
进一步的,所述数据采集规则分为两种模式,一是向导模式,适用于以下场景:1)单网页采集;2)列表采集;3)翻页采集,其查询结果分布展示,每页采集规则相同;二是自定义模式,用于多种网页数据采集,支持用户导出、导入多个数据采集规则;
进一步的,所述数据采集任务状态分为:未执行、运行中、已暂停、已完成;对于未执行状态的任务,用户可以启动任务,进行数据采集;对于运行中的任务,用户可进行定暂停/取消操作;对于已暂停的任务,用户可以查看当前已采集到的数据,也可以继续运行任务;对于已完成的任务,用户可以查看采集到的数据;
进一步的,所述数据采集任务创建根据用户权限,分为单机采集、单机多线程采集、多机分布式采集、云服务器采集;
进一步的,所述数据加密模块支持MD5、Base64两种加密方式;
进一步的,所述数据采集规则配置分为两种方式,一是向导模式,用户按照向导提示输入信息进行相应的操作,完成数据采集规则的配置;二是自定义模式,用户输入目标url,采集器通过获取页面数据分析出页面包含的筛选条件及采集数据的属性,并将筛选条件和采集数据的属性展示给用户,供用户进行自定义设定,以便采集用户的目标数据;
进一步的,所述入库模块存入爬取数据的方式有两种,一是向用户提供数据API接口,用户通过调用数据API接口获取采集数据;二是向用户提供数据库信息配置功能,待用户配置好数据库信息后,点击执行,自行将采集的数据导入到用户数据库中;
进一步的,用户数据库类型可以为Access、MySQL、Sqlite、Oracle或mongodb;
进一步的,所述数据下载模块支持加密狗或短信验证码两种加密方式;
本发明的优点在于:可以采集同类型商品在其他购物平台中的数据信息,诸如价格、质量等信息,从而实现电子商务平台中的商品与其他平台的商品做对比,进而更好的提升用户购物体验,满足用户购物需求。
本发明通过创建一种数据采集系统,可以供用户对不同电子商务平台的数据进行抓取,并比对,提高了购物体验,进一步满足了用户的购物需求。
以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照实例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种用于电子商务平台的数据采集系统,其特征在于:包括爬取模块、入库模块、定时任务模块和数据下载模块,所述爬取模块根据定时任务模块定义的时间定时爬取网站数据,并将爬取数据传输到入库模块,所述入库模块向数据库存入爬取数据;所述数据下载模块用于将数据放到网站供用户下载。
2.根据权利要求1所述的用于电子商务平台的数据采集系统,其特征在于:所述的爬取模块包括数据采集规则获取模块,用于获取用户的数据采集规则;数据采集规则配置模块,用于将数据采集规则配置到数据采集系统当中;数据采集任务创建模块,用于根据配置的数据采集规则创建数据采集任务;数据采集任务展示模块,用于展示出用户创建的任务,并展示出任务状态;数据查看和导出模块,以任务列表为入口查看采集到的数据,用户可以将采集到的数据导出为excel、xml、html、txt、zip或rar格式;数据加密模块,用于对采集到的数据进行加密。
3.根据权利要求2所述的用于电子商务平台的数据采集系统,其特征在于:所述数据采集规则分为两种模式,一是向导模式,适用于以下场景:1)单网页采集;2)列表采集;3)翻页采集,其查询结果分布展示,每页采集规则相同;二是自定义模式,用于多种网页数据采集,支持用户导出、导入多个数据采集规则。
4.根据权利要求2所述的用于电子商务平台的数据采集系统,其特征在于:所述数据采集任务状态分为:未执行、运行中、已暂停、已完成;对于未执行状态的任务,用户可以启动任务,进行数据采集;对于运行中的任务,用户可进行定暂停/取消操作;对于已暂停的任务,用户可以查看当前已采集到的数据,也可以继续运行任务;对于已完成的任务,用户可以查看采集到的数据。
5.根据权利要求2所述的用于电子商务平台的数据采集系统,其特征在于:所述数据采集任务创建根据用户权限,分为单机采集、单机多线程采集、多机分布式采集、云服务器采集。
6.根据权利要求2所述的用于电子商务平台的数据采集系统,其特征在于:所述数据加密模块支持MD5、Base64两种加密方式。
7.根据权利要求2所述的用于电子商务平台的数据采集系统,其特征在于:所述数据采集规则配置分为两种方式,一是向导模式,用户按照向导提示输入信息进行相应的操作,完成数据采集规则的配置;二是自定义模式,用户输入目标url,采集器通过获取页面数据分析出页面包含的筛选条件及采集数据的属性,并将筛选条件和采集数据的属性展示给用户,供用户进行自定义设定,以便采集用户的目标数据。
8.根据权利要求1所述的用于电子商务平台的数据采集系统,其特征在于:所述入库模块存入爬取数据的方式有两种,一是向用户提供数据API接口,用户通过调用数据API接口获取采集数据;二是向用户提供数据库信息配置功能,待用户配置好数据库信息后,点击执行,自行将采集的数据导入到用户数据库中。
9.根据权利要求8所述的用于电子商务平台的数据采集系统,其特征在于:用户数据库类型可以为Access、MySQL、Sqlite、Oracle或mongodb。
10.根据权利要求1所述的用于电子商务平台的数据采集系统,其特征在于:所述数据下载模块支持加密狗或短信验证码两种加密方式。
CN201710079119.6A 2017-02-14 2017-02-14 一种用于电子商务平台的数据采集系统 Pending CN106981005A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710079119.6A CN106981005A (zh) 2017-02-14 2017-02-14 一种用于电子商务平台的数据采集系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710079119.6A CN106981005A (zh) 2017-02-14 2017-02-14 一种用于电子商务平台的数据采集系统

Publications (1)

Publication Number Publication Date
CN106981005A true CN106981005A (zh) 2017-07-25

Family

ID=59338508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710079119.6A Pending CN106981005A (zh) 2017-02-14 2017-02-14 一种用于电子商务平台的数据采集系统

Country Status (1)

Country Link
CN (1) CN106981005A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110443663A (zh) * 2018-05-03 2019-11-12 阿里巴巴集团控股有限公司 信息处理方法、装置及计算设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833723A (zh) * 2010-02-04 2010-09-15 重庆索伦互联网信息服务有限公司 基于3g移动网络的比价方法
US8255291B1 (en) * 2000-08-18 2012-08-28 Tensilrus Capital Nv Llc System, method and apparatus for interactive and comparative shopping

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8255291B1 (en) * 2000-08-18 2012-08-28 Tensilrus Capital Nv Llc System, method and apparatus for interactive and comparative shopping
CN101833723A (zh) * 2010-02-04 2010-09-15 重庆索伦互联网信息服务有限公司 基于3g移动网络的比价方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨颂: "面向电子商务网站的增量爬虫设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
飞翔: "淘淘搜:图片搜索及导购平台 已获阿里巴巴投资", 《网易科技报道(TECH.163.COM/10/1104/21/6KM76PR9000938EN.HTML#)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110443663A (zh) * 2018-05-03 2019-11-12 阿里巴巴集团控股有限公司 信息处理方法、装置及计算设备

Similar Documents

Publication Publication Date Title
USRE49486E1 (en) System and method for tracking web interactions with real time analytics
US10521446B2 (en) System and method for dynamically refactoring business data objects
Preibusch et al. Shopping for privacy: Purchase details leaked to PayPal
CN109997126A (zh) 事件驱动提取、变换、加载(etl)处理
US20120233173A1 (en) Determining preferred categories based on user access attribute values
CN105095970B (zh) 第三方应用的执行方法及系统
US10318546B2 (en) System and method for test data management
CN107851267A (zh) 用于经由动态分配的虚拟电话号码来同步与语音呼叫相关的数据的系统和方法
GB2559521A (en) Platform for the delivery of content and services to networked connected computing devices
US11308445B2 (en) Systems and methods for electronic platform for transactions of wearable items
JP6976207B2 (ja) 情報処理装置、情報処理方法、およびプログラム
Jiang et al. Who's the Guinea Pig? Investigating online A/B/n tests in-the-wild
CN107798558A (zh) 用户行为数据分析方法及服务器
US10453091B2 (en) System and method to build external facing information platform to generate target list of entities
CN108109021A (zh) 一种农产品电子商务系统
US20160019573A1 (en) Discount deals for positive social media communications
CN106981005A (zh) 一种用于电子商务平台的数据采集系统
US20220351237A1 (en) A computer implemented platform for advertisement campaigns and method thereof
CN107609020A (zh) 一种基于标注的日志分类的方法和装置
CN110827044A (zh) 提取用户兴趣模式的方法和装置
Lee et al. Design an online shopping store based on opencart
CN108022115A (zh) 信息处理方法、装置和设备
CN103886493A (zh) 网上书店系统
CN110032703A (zh) 一种企业网站托管方法及系统
KR102474654B1 (ko) 교차검증을 이용한 쇼핑몰 실시간 가격비교 서비스 제공 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170725