CN106934683A - 一种自动比价方法及其机器人装置 - Google Patents
一种自动比价方法及其机器人装置 Download PDFInfo
- Publication number
- CN106934683A CN106934683A CN201710041196.2A CN201710041196A CN106934683A CN 106934683 A CN106934683 A CN 106934683A CN 201710041196 A CN201710041196 A CN 201710041196A CN 106934683 A CN106934683 A CN 106934683A
- Authority
- CN
- China
- Prior art keywords
- price
- title
- automatic
- extracting
- crawl
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 239000000284 extract Substances 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 2
- 241000282326 Felis catus Species 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 206010037660 Pyrexia Diseases 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
- G06Q30/0629—Directed, with specific intent or strategy for generating comparisons
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种自动比价方法及其机器人装置,至少包括以下步骤:获取购物网站信息,指定初始种子连接以及抓取深度抓取相关网页;采用正则表达式抽取导航栏连接,并对网页进行去噪,抽取标题和价格;存储抽取的标题以及价格;根据用户的查询,按照标题对各价格进行对比,生成价格比对信息。
Description
技术领域
本发明涉及信息检索技术领域,尤其涉及一种自动比价方法及其机器人装置。
背景技术
在互联网的网购时代,如天猫,淘宝,京东,国美,苏宁等等网店纷纷通过烧钱低价,优惠券,好友红包分享的方式大打价格战,吸引更多的用户进行购物消费。而用户在使用这些网上购物资源的时候,常常很难对价格进行比对,通常只能是分别到各大网站去检索相同的产品,而这个过程是很浪费时间的,并且也常常会因为耗费了检索的时间,造成同产品中价格最便宜的会出现售罄的情况,使用户即浪费了时间也没有买到想要的产品,因此急需一种能够对相同或者类似产品进行价格统一把握的技术来解决有技术中存在的问题。
发明内容
本发明目的是提供一种自动比价方法及其机器人装置,可以解决现有技术中无法对同一或者类似产品价格统一把握的问题。
本发明解决技术问题采用如下技术方案:
一种自动比价方法,其特征在于,至少包括以下步骤:
获取购物网站信息,指定初始种子连接以及抓取深度抓取相关网页;
采用正则表达式抽取导航栏连接,并对网页进行去噪,抽取标题和价格;
存储抽取的标题以及价格;
根据用户的查询,按照标题对各价格进行对比,生成价格比对信息。
其中,使用开源工具nutch进行相关网页抓取。
其中,使用开源工具BoilerPipe进行网页去噪。
其中,所述抽取的标题以及价格存储在数据库Redis中。
本发明还一种自动比价机器人装置,至少包括:
购物网站获取单元,用于获取购物网站信息,指定初始种子连接以及抓取深度抓取相关网页;
价格抽取单元,用于采用正则表达式抽取导航栏连接,并对网页进行去噪,抽取标题和价格;
价格信息存储单元,用于存储抽取的标题以及价格;
价格比对单元,根据用户的查询,按照标题对各价格进行对比,生成价格比对信息。
本发明具有如下有益效果:用户可以统一把握相同或者类似商品的价格,选择最优的网站进行购买,获得最佳的选择。
附图说明
图1为本发明的自动比价方法的简易流程图;
图2为本发明的自动比价的机器人装置的结构框图。
具体实施方式
下面结合实施例及附图对本发明的技术方案作进一步阐述。
一种自动比价方法,至少包括以下步骤:
获取购物网站信息,指定初始种子连接以及抓取深度抓取相关网页;
采用正则表达式抽取导航栏连接,并对网页进行去噪,抽取标题和价格;
存储抽取的标题以及价格;
根据用户的查询,按照标题对各价格进行对比,生成价格比对信息。
本发明的比价方法可以对各种产品进行网络比价,基于原理相同,在本实施例中,仅以针对图书类产品进行说明,因此在本实施例中提供一种能针对图书进行自动抓取和进行自动比价的网络爬虫机器人。以为两个购物网站京东和天猫为例,本发明的方法首先使用开源工具nutch对京东和天猫的图书类别进行抓取网页,然后进行网页去噪,抽取出图书名和价格名出来,使用数据库Redis进行存储,对同一本书,给出价格上的对比,从而帮助用户做出更好的选择。
参考图1所示,以及以下步骤:
1、采集购物网页,本实施例中为天猫和京东。指定初始种子链接和抓取深度,即检索例如“lonely planet China”所有卖家的相同图书,使用开源工具nutch抓取相关网页,其中Nutch是一个开源的搜索引擎,它提供了我们运行自己搜索引擎的全部工具,包括全文搜索和web爬虫,鉴于该搜索引擎为现有的工具因此具体技术细节不再进行赘述;
2、使用正则表达式抽取导航栏链接,使用开源工具BoilerPipe进行网页去噪的处理部分,根据正则表达式,抽取出标题和价格,也就是该书的标题和价格。BoilerPipe是一个开源的Java类库,能从html中将广告和其他的附加信息剔除;
3、将抽取的标题和价格存储到数据库redis之中,方便用户进行查询。Redis是一个开源的,key-value的高性能的数据库存储。
4、在本实施例中,使用html5进行用户的页面的查询,给出对比后的价格。
在本发明中,还提供一种自动比价机器人装置,参考图2所示,至少包括:
购物网站获取单元,用于获取购物网站信息,指定初始种子连接以及抓取深度抓取相关网页;
价格抽取单元,用于采用正则表达式抽取导航栏连接,并对网页进行去噪,抽取标题和价格;
价格信息存储单元,用于存储抽取的标题以及价格;
价格比对单元,根据用户的查询,按照标题对各价格进行对比,生成价格比对信息。
基于本发明的自动比价机器人装置应用上述方法进行价格比对,因此在此不再进行赘述。
采用本发明的方案,用户可以统一把握相同或者类似商品的价格,选择最优的网站进行购买,获得最佳的选择。
以上实施例的先后顺序仅为便于描述,不代表实施例的优劣。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种自动比价方法,其特征在于,至少包括以下步骤:
获取购物网站信息,指定初始种子连接以及抓取深度抓取相关网页;
采用正则表达式抽取导航栏连接,并对网页进行去噪,抽取标题和价格;
存储抽取的标题以及价格;
根据用户的查询,按照标题对各价格进行对比,生成价格比对信息。
2.根据权利要求1所述的自动比价方法,其特征在于,使用开源工具nutch进行相关网页抓取。
3.根据权利要求1所述的自动比价方法,其特征在于,使用开源工具BoilerPipe进行网页去噪。
4.根据权利要求1所述的自动比价方法,其特征在于,所述抽取的标题以及价格存储在数据库Redis中。
5.一种自动比价机器人装置,其特征在于,至少包括:
购物网站获取单元,用于获取购物网站信息,指定初始种子连接以及抓取深度抓取相关网页;
价格抽取单元,用于采用正则表达式抽取导航栏连接,并对网页进行去噪,抽取标题和价格;
价格信息存储单元,用于存储抽取的标题以及价格;
价格比对单元,根据用户的查询,按照标题对各价格进行对比,生成价格比对信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710041196.2A CN106934683A (zh) | 2017-01-20 | 2017-01-20 | 一种自动比价方法及其机器人装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710041196.2A CN106934683A (zh) | 2017-01-20 | 2017-01-20 | 一种自动比价方法及其机器人装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106934683A true CN106934683A (zh) | 2017-07-07 |
Family
ID=59422922
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710041196.2A Pending CN106934683A (zh) | 2017-01-20 | 2017-01-20 | 一种自动比价方法及其机器人装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106934683A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107492019A (zh) * | 2017-08-24 | 2017-12-19 | 上海与德通讯技术有限公司 | 一种基于机器人的购物方法及系统 |
CN108429789A (zh) * | 2018-02-02 | 2018-08-21 | 广州云印信息科技有限公司 | 一种基于自动售货机的移动无线网络通信系统及方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205686A (zh) * | 2015-08-18 | 2015-12-30 | 浪潮软件集团有限公司 | 一种获取产品价格信息的方法及系统 |
-
2017
- 2017-01-20 CN CN201710041196.2A patent/CN106934683A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205686A (zh) * | 2015-08-18 | 2015-12-30 | 浪潮软件集团有限公司 | 一种获取产品价格信息的方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107492019A (zh) * | 2017-08-24 | 2017-12-19 | 上海与德通讯技术有限公司 | 一种基于机器人的购物方法及系统 |
CN108429789A (zh) * | 2018-02-02 | 2018-08-21 | 广州云印信息科技有限公司 | 一种基于自动售货机的移动无线网络通信系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108595494B (zh) | 答复信息的获取方法及装置 | |
CN104866484B (zh) | 一种数据处理方法和装置 | |
Rust | Parents and children shopping together: A new approach to the qualitative analysis of observational data | |
Etemad et al. | Internationalization of SMEs: toward a new paradigm | |
US20130290344A1 (en) | Updating a search index used to facilitate application searches | |
CN105573966A (zh) | 电子表格中所呈现的内容的自适应修改 | |
JP7387432B2 (ja) | ネットワーク化環境における不正コンテンツに関連するデータを収集するためのシステムおよび方法 | |
CN107729475A (zh) | 网页元素采集方法、装置、终端与计算机可读存储介质 | |
CN106776860A (zh) | 一种搜索摘要生成方法及装置 | |
CN106033415A (zh) | 文本内容推荐方法及装置 | |
CN108255999A (zh) | 内容推荐方法及装置 | |
CN106899549A (zh) | 一种网络安全检测方法及装置 | |
CN108334508A (zh) | 网页信息的提取方法和装置 | |
US20180336279A1 (en) | Computer-implemented methods of website analysis | |
CN111767458A (zh) | 信息推送方法、装置、系统及存储介质 | |
CN106934683A (zh) | 一种自动比价方法及其机器人装置 | |
Fiol-Roig et al. | Data mining techniques for web page classification | |
Hossain et al. | Evaluating the utilization of technological factors to promote e-commerce adoption in small and medium enterprises | |
CN111444447A (zh) | 内容推荐页面的展现方法及装置 | |
CN102270204A (zh) | 一种基于矩阵分解对在线论坛用户影响力进行计算的方法 | |
Zhao et al. | Handbook of Research on Technologies and Systems for E-Collaboration During Global Crises | |
CN107423382A (zh) | 网络爬取方法和装置 | |
Orekhov et al. | Virtual promotion knowledge management technology | |
CN106612336A (zh) | 图片预加载方法和装置 | |
Dey et al. | Automatic skimming of web pages on a single click efficiently |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 518126 Guangdong, Shenzhen, Baoan District, Baoan District Air Town Street Development Area, 2A, building 4 and 4, 4 Applicant after: SHENZHEN YYD ROBO Co.,Ltd. Address before: 518061 1002E room, building C, 5 software industry base, Xuefu Road, Shenzhen, Guangdong, Nanshan District Applicant before: SHENZHEN QIANHAI YONGYIDA ROBOT Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170707 |