CN106934683A - 一种自动比价方法及其机器人装置 - Google Patents

一种自动比价方法及其机器人装置 Download PDF

Info

Publication number
CN106934683A
CN106934683A CN201710041196.2A CN201710041196A CN106934683A CN 106934683 A CN106934683 A CN 106934683A CN 201710041196 A CN201710041196 A CN 201710041196A CN 106934683 A CN106934683 A CN 106934683A
Authority
CN
China
Prior art keywords
price
title
automatic
extracting
crawl
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710041196.2A
Other languages
English (en)
Inventor
纪江霖
吴勇谋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Qianhai Yyd Robot Co Ltd
Original Assignee
Shenzhen Qianhai Yyd Robot Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Qianhai Yyd Robot Co Ltd filed Critical Shenzhen Qianhai Yyd Robot Co Ltd
Priority to CN201710041196.2A priority Critical patent/CN106934683A/zh
Publication of CN106934683A publication Critical patent/CN106934683A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • G06Q30/0629Directed, with specific intent or strategy for generating comparisons

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种自动比价方法及其机器人装置,至少包括以下步骤:获取购物网站信息,指定初始种子连接以及抓取深度抓取相关网页;采用正则表达式抽取导航栏连接,并对网页进行去噪,抽取标题和价格;存储抽取的标题以及价格;根据用户的查询,按照标题对各价格进行对比,生成价格比对信息。

Description

一种自动比价方法及其机器人装置
技术领域
本发明涉及信息检索技术领域,尤其涉及一种自动比价方法及其机器人装置。
背景技术
在互联网的网购时代,如天猫,淘宝,京东,国美,苏宁等等网店纷纷通过烧钱低价,优惠券,好友红包分享的方式大打价格战,吸引更多的用户进行购物消费。而用户在使用这些网上购物资源的时候,常常很难对价格进行比对,通常只能是分别到各大网站去检索相同的产品,而这个过程是很浪费时间的,并且也常常会因为耗费了检索的时间,造成同产品中价格最便宜的会出现售罄的情况,使用户即浪费了时间也没有买到想要的产品,因此急需一种能够对相同或者类似产品进行价格统一把握的技术来解决有技术中存在的问题。
发明内容
本发明目的是提供一种自动比价方法及其机器人装置,可以解决现有技术中无法对同一或者类似产品价格统一把握的问题。
本发明解决技术问题采用如下技术方案:
一种自动比价方法,其特征在于,至少包括以下步骤:
获取购物网站信息,指定初始种子连接以及抓取深度抓取相关网页;
采用正则表达式抽取导航栏连接,并对网页进行去噪,抽取标题和价格;
存储抽取的标题以及价格;
根据用户的查询,按照标题对各价格进行对比,生成价格比对信息。
其中,使用开源工具nutch进行相关网页抓取。
其中,使用开源工具BoilerPipe进行网页去噪。
其中,所述抽取的标题以及价格存储在数据库Redis中。
本发明还一种自动比价机器人装置,至少包括:
购物网站获取单元,用于获取购物网站信息,指定初始种子连接以及抓取深度抓取相关网页;
价格抽取单元,用于采用正则表达式抽取导航栏连接,并对网页进行去噪,抽取标题和价格;
价格信息存储单元,用于存储抽取的标题以及价格;
价格比对单元,根据用户的查询,按照标题对各价格进行对比,生成价格比对信息。
本发明具有如下有益效果:用户可以统一把握相同或者类似商品的价格,选择最优的网站进行购买,获得最佳的选择。
附图说明
图1为本发明的自动比价方法的简易流程图;
图2为本发明的自动比价的机器人装置的结构框图。
具体实施方式
下面结合实施例及附图对本发明的技术方案作进一步阐述。
一种自动比价方法,至少包括以下步骤:
获取购物网站信息,指定初始种子连接以及抓取深度抓取相关网页;
采用正则表达式抽取导航栏连接,并对网页进行去噪,抽取标题和价格;
存储抽取的标题以及价格;
根据用户的查询,按照标题对各价格进行对比,生成价格比对信息。
本发明的比价方法可以对各种产品进行网络比价,基于原理相同,在本实施例中,仅以针对图书类产品进行说明,因此在本实施例中提供一种能针对图书进行自动抓取和进行自动比价的网络爬虫机器人。以为两个购物网站京东和天猫为例,本发明的方法首先使用开源工具nutch对京东和天猫的图书类别进行抓取网页,然后进行网页去噪,抽取出图书名和价格名出来,使用数据库Redis进行存储,对同一本书,给出价格上的对比,从而帮助用户做出更好的选择。
参考图1所示,以及以下步骤:
1、采集购物网页,本实施例中为天猫和京东。指定初始种子链接和抓取深度,即检索例如“lonely planet China”所有卖家的相同图书,使用开源工具nutch抓取相关网页,其中Nutch是一个开源的搜索引擎,它提供了我们运行自己搜索引擎的全部工具,包括全文搜索和web爬虫,鉴于该搜索引擎为现有的工具因此具体技术细节不再进行赘述;
2、使用正则表达式抽取导航栏链接,使用开源工具BoilerPipe进行网页去噪的处理部分,根据正则表达式,抽取出标题和价格,也就是该书的标题和价格。BoilerPipe是一个开源的Java类库,能从html中将广告和其他的附加信息剔除;
3、将抽取的标题和价格存储到数据库redis之中,方便用户进行查询。Redis是一个开源的,key-value的高性能的数据库存储。
4、在本实施例中,使用html5进行用户的页面的查询,给出对比后的价格。
在本发明中,还提供一种自动比价机器人装置,参考图2所示,至少包括:
购物网站获取单元,用于获取购物网站信息,指定初始种子连接以及抓取深度抓取相关网页;
价格抽取单元,用于采用正则表达式抽取导航栏连接,并对网页进行去噪,抽取标题和价格;
价格信息存储单元,用于存储抽取的标题以及价格;
价格比对单元,根据用户的查询,按照标题对各价格进行对比,生成价格比对信息。
基于本发明的自动比价机器人装置应用上述方法进行价格比对,因此在此不再进行赘述。
采用本发明的方案,用户可以统一把握相同或者类似商品的价格,选择最优的网站进行购买,获得最佳的选择。
以上实施例的先后顺序仅为便于描述,不代表实施例的优劣。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (5)

1.一种自动比价方法,其特征在于,至少包括以下步骤:
获取购物网站信息,指定初始种子连接以及抓取深度抓取相关网页;
采用正则表达式抽取导航栏连接,并对网页进行去噪,抽取标题和价格;
存储抽取的标题以及价格;
根据用户的查询,按照标题对各价格进行对比,生成价格比对信息。
2.根据权利要求1所述的自动比价方法,其特征在于,使用开源工具nutch进行相关网页抓取。
3.根据权利要求1所述的自动比价方法,其特征在于,使用开源工具BoilerPipe进行网页去噪。
4.根据权利要求1所述的自动比价方法,其特征在于,所述抽取的标题以及价格存储在数据库Redis中。
5.一种自动比价机器人装置,其特征在于,至少包括:
购物网站获取单元,用于获取购物网站信息,指定初始种子连接以及抓取深度抓取相关网页;
价格抽取单元,用于采用正则表达式抽取导航栏连接,并对网页进行去噪,抽取标题和价格;
价格信息存储单元,用于存储抽取的标题以及价格;
价格比对单元,根据用户的查询,按照标题对各价格进行对比,生成价格比对信息。
CN201710041196.2A 2017-01-20 2017-01-20 一种自动比价方法及其机器人装置 Pending CN106934683A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710041196.2A CN106934683A (zh) 2017-01-20 2017-01-20 一种自动比价方法及其机器人装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710041196.2A CN106934683A (zh) 2017-01-20 2017-01-20 一种自动比价方法及其机器人装置

Publications (1)

Publication Number Publication Date
CN106934683A true CN106934683A (zh) 2017-07-07

Family

ID=59422922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710041196.2A Pending CN106934683A (zh) 2017-01-20 2017-01-20 一种自动比价方法及其机器人装置

Country Status (1)

Country Link
CN (1) CN106934683A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107492019A (zh) * 2017-08-24 2017-12-19 上海与德通讯技术有限公司 一种基于机器人的购物方法及系统
CN108429789A (zh) * 2018-02-02 2018-08-21 广州云印信息科技有限公司 一种基于自动售货机的移动无线网络通信系统及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205686A (zh) * 2015-08-18 2015-12-30 浪潮软件集团有限公司 一种获取产品价格信息的方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205686A (zh) * 2015-08-18 2015-12-30 浪潮软件集团有限公司 一种获取产品价格信息的方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107492019A (zh) * 2017-08-24 2017-12-19 上海与德通讯技术有限公司 一种基于机器人的购物方法及系统
CN108429789A (zh) * 2018-02-02 2018-08-21 广州云印信息科技有限公司 一种基于自动售货机的移动无线网络通信系统及方法

Similar Documents

Publication Publication Date Title
CN108595494B (zh) 答复信息的获取方法及装置
CN104866484B (zh) 一种数据处理方法和装置
Rust Parents and children shopping together: A new approach to the qualitative analysis of observational data
Etemad et al. Internationalization of SMEs: toward a new paradigm
US20130290344A1 (en) Updating a search index used to facilitate application searches
CN105573966A (zh) 电子表格中所呈现的内容的自适应修改
JP7387432B2 (ja) ネットワーク化環境における不正コンテンツに関連するデータを収集するためのシステムおよび方法
CN107729475A (zh) 网页元素采集方法、装置、终端与计算机可读存储介质
CN106776860A (zh) 一种搜索摘要生成方法及装置
CN106033415A (zh) 文本内容推荐方法及装置
CN108255999A (zh) 内容推荐方法及装置
CN106899549A (zh) 一种网络安全检测方法及装置
CN108334508A (zh) 网页信息的提取方法和装置
US20180336279A1 (en) Computer-implemented methods of website analysis
CN111767458A (zh) 信息推送方法、装置、系统及存储介质
CN106934683A (zh) 一种自动比价方法及其机器人装置
Fiol-Roig et al. Data mining techniques for web page classification
Hossain et al. Evaluating the utilization of technological factors to promote e-commerce adoption in small and medium enterprises
CN111444447A (zh) 内容推荐页面的展现方法及装置
CN102270204A (zh) 一种基于矩阵分解对在线论坛用户影响力进行计算的方法
Zhao et al. Handbook of Research on Technologies and Systems for E-Collaboration During Global Crises
CN107423382A (zh) 网络爬取方法和装置
Orekhov et al. Virtual promotion knowledge management technology
CN106612336A (zh) 图片预加载方法和装置
Dey et al. Automatic skimming of web pages on a single click efficiently

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 518126 Guangdong, Shenzhen, Baoan District, Baoan District Air Town Street Development Area, 2A, building 4 and 4, 4

Applicant after: SHENZHEN YYD ROBO Co.,Ltd.

Address before: 518061 1002E room, building C, 5 software industry base, Xuefu Road, Shenzhen, Guangdong, Nanshan District

Applicant before: SHENZHEN QIANHAI YONGYIDA ROBOT Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170707