CN106126697A - 一种基于Web动态信息抓取技术的详情页面自动生成方法 - Google Patents

一种基于Web动态信息抓取技术的详情页面自动生成方法 Download PDF

Info

Publication number
CN106126697A
CN106126697A CN201610502449.7A CN201610502449A CN106126697A CN 106126697 A CN106126697 A CN 106126697A CN 201610502449 A CN201610502449 A CN 201610502449A CN 106126697 A CN106126697 A CN 106126697A
Authority
CN
China
Prior art keywords
commodity
web
sing
technology
details page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610502449.7A
Other languages
English (en)
Inventor
陈样新
毛涌泉
罗超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Haoxuan Software Technology Co Ltd
Original Assignee
Guangzhou Haoxuan Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Haoxuan Software Technology Co Ltd filed Critical Guangzhou Haoxuan Software Technology Co Ltd
Priority to CN201610502449.7A priority Critical patent/CN106126697A/zh
Publication of CN106126697A publication Critical patent/CN106126697A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开一种基于Web动态信息抓取技术的详情页面自动生成方法,包括以下步骤:1)抓取程序模块启动浏览器;2)模仿人的操作打开商品的详情页;3)抓取页面内的信息,并下载关联的图片;4)人工审核;该基于Web动态信息抓取技术的详情页面自动生成方法效率高。

Description

一种基于Web动态信息抓取技术的详情页面自动生成方法
技术领域
本发明涉及一种基于Web动态信息抓取技术的详情页面自动生成方法。
背景技术
目前国内主流爬虫都是直接使用http协议,下载指定url的静态html内容,并对内容进行分析和抽取。此方法在搜索引擎、舆情监控、垂直门户网站等领域得到了大规模应用。
但在电子商务领域,出于安全性、加载速度、页面静态化等因素的考虑,大部分网站的商品页面中的价格、商品规格、图文详情等都是通过js以及ajax加载的动态html内容。这使得传统的网络爬虫系统,根本无法有效的自动获取商品信息。
随着互联网的发展,国内大量线下零售企业均开始建设自有电商平台,如广百百货的广百荟、广州友谊商场的网上商城,以实现商品线上线下一体售卖。但是传统零售企业如果想把自己大量的商品在线上售卖,就需要对每个商品录制详细的商品图文信息,工作量十分巨大。以大家电为例,仅冰箱、洗衣机、彩电、空调四大类商品,常用的型号就有8千到1万,如果按照5个人的录入团队,1个人平均每小时录入4个PC版商品+4个移动版的图文详情介绍,则需要3-4个月的时间,效率低。
发明内容
本发明要解决的技术问题是提供一种效率高的基于Web动态信息抓取技术的详情页面自动生成方法。
为解决上述问题,本发明采用如下技术方案:
一种基于Web动态信息抓取技术的详情页面自动生成方法,包括以下步骤:
1)抓取程序模块启动浏览器;
2)模仿人的操作打开商品的详情页;
3)抓取页面内的信息,并下载关联的图片;
4)人工审核。
作为优选,所述抓取程序模块由Selenium测试工具和爬虫程序搭建。
作为优选,所述步骤1)的具体步骤包括:
1.1)在抓取程序模块上输入商品的基本信息和目标商城;
1.2)抓取程序模块基于Selenium测试工具的功能实现模仿人的操作启动浏览器;
1.3)登录商城;
1.4)通过步骤1.1)预设的关键字,在目标网站进行搜索,找到对应的商品。
作为优选,所述步骤2)的具体步骤包括:
2.2)打开商品的详情页;
2.3)等待浏览器加载完静态和动态内容。
作为优选,所述步骤3)的具体步骤包括:
3.1)基于爬虫程序的功能实现自动抓取该页面内的商品价格、规格参数和商品详情信息,并下载关联的图片;
3.2)将抓取到的图文信息的格式进行转化。
作为优选,所述步骤1.4)若找不到对应的商品则重新返回到步骤1.1)重新输入商品的基本信息和目标商城。
本发明的有益效果为:通过模仿人在浏览器发起鼠标点击、键盘输入等操作,并可监控操作后浏览器内容的变化,再结合网络爬虫的抓取的信息功能,完全模拟一个真实的用户在浏览器的浏览操作,因此抓取的信息和真实用户看到的图文信息是完全一致的。相比于传统的网络爬虫产品兼容性好、速度快、数据抓取准确等特点。
具体实施方式
一种基于Web动态信息抓取技术的详情页面自动生成方法,包括以下步骤:
1)抓取程序模块启动浏览器;
2)模仿人的操作打开商品的详情页;
3)抓取页面内的信息,并下载关联的图片;
4)商城管理人员查看已抓取的商品信息,对存在问题的内容进行快速修改,通过审核后信息开始应用于自己的商城。
本发明的有益效果为:通过模仿人在浏览器发起鼠标点击、键盘输入等操作,并可监控操作后浏览器内容的变化,再结合网络爬虫的抓取的信息功能,完全模拟一个真实的用户在浏览器的浏览操作,因此抓取的信息和真实用户看到的图文信息是完全一致的。相比于传统的网络爬虫产品兼容性好、速度快、数据抓取准确等特点。
实施例2
一种基于Web动态信息抓取技术的详情页面自动生成方法,包括以下步骤:
1.在抓取程序模块上输入商品的基本信息和目标商城;抓取程序模块基于Selenium测试工具的功能实现模仿人的操作启动浏览器,登录商城;通过预设的关键字,在目标网站进行搜索,找到对应的商品,若找不到对应的商品则重新输入商品的基本信息和目标商城;
2)打开商品的详情页,等待浏览器加载完静态和动态内容;
3)基于爬虫程序的功能实现自动抓取该页面内的商品价格、规格参数和商品详情信息,并下载关联的图片;然后将抓取到的图文信息转化为我方商城的商品数据格式;
4)商城管理人员查看已抓取的商品信息,对存在问题的内容进行快速修改,通过审核后信息开始应用于自己的商城。
所述抓取程序模块由Selenium测试工具和爬虫程序搭建,基于Selenium技术和网络爬虫技术实现信息自动抓取程序,具有可以控制浏览器的行为,模仿人在浏览器发起鼠标点击、键盘输入等操作,并可监控操作后浏览器内容的变化,模仿一个商城会员的操作:打开浏览器->登录目标商城->查找目标商品->打开商品详情页面->等待浏览器加载完静态和动态内容,然后再抽取商品名称、价格、图文详情等内容,操作完全模拟一个真实的用户在浏览器的浏览操作,因此抓取的信息和真实用户看到的图文信息是完全一致的。
本发明的有益效果为:采用Selenium技术和网络爬虫技术通过模仿人在浏览器发起鼠标点击、键盘输入等操作,并可监控操作后浏览器内容的变化,再结合网络爬虫的抓取的信息功能,完全模拟一个真实的用户在浏览器的浏览操作,因此抓取的信息和真实用户看到的图文信息是完全一致的。相比于传统的网络爬虫产品兼容性好、速度快、数据抓取准确等特点。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何不经过创造性劳动想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种基于Web动态信息抓取技术的详情页面自动生成方法,其特征在于,包括以下步骤:
1)抓取程序模块启动浏览器;
2)模仿人的操作打开商品的详情页;
3)抓取页面内的信息,并下载关联的图片;
4)人工审核。
2.根据权利要求1所述的基于Web动态信息抓取技术的详情页面自动生成方法,其特征在于:所述抓取程序模块由Selenium测试工具和爬虫程序搭建。
3.根据权利要求2所述的基于Web动态信息抓取技术的详情页面自动生成方法,其特征在于:所述步骤1)的具体步骤包括:
1.1)在抓取程序模块上输入商品的基本信息和目标商城;
1.2)抓取程序模块基于Selenium测试工具的功能实现模仿人的操作启动浏览器;
1.3)登录商城;
1.4)通过步骤1.1)预设的关键字,在目标网站进行搜索,找到对应的商品。
4.根据权利要求3所述的基于Web动态信息抓取技术的详情页面自动生成方法,其特征在于:所述步骤2)的具体步骤包括:
2.2)打开商品的详情页;
2.3)等待浏览器加载完静态和动态内容。
5.根据权利要求4所述的基于Web动态信息抓取技术的详情页面自动生成方法,其特征在于:所述步骤3)的具体步骤包括:
3.1)基于爬虫程序的功能实现自动抓取该页面内的商品价格、规格参数和商品详情信息,并下载关联的图片;
3.2)将抓取到的图文信息的格式进行转化。
6.根据权利要求5所述的基于Web动态信息抓取技术的详情页面自动生成方法,其特征在于:所述步骤1.4)若找不到对应的商品则重新返回到步骤1.1)重新输入商品的基本信息和目标商城。
CN201610502449.7A 2016-06-30 2016-06-30 一种基于Web动态信息抓取技术的详情页面自动生成方法 Pending CN106126697A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610502449.7A CN106126697A (zh) 2016-06-30 2016-06-30 一种基于Web动态信息抓取技术的详情页面自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610502449.7A CN106126697A (zh) 2016-06-30 2016-06-30 一种基于Web动态信息抓取技术的详情页面自动生成方法

Publications (1)

Publication Number Publication Date
CN106126697A true CN106126697A (zh) 2016-11-16

Family

ID=57285969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610502449.7A Pending CN106126697A (zh) 2016-06-30 2016-06-30 一种基于Web动态信息抓取技术的详情页面自动生成方法

Country Status (1)

Country Link
CN (1) CN106126697A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844522A (zh) * 2016-12-29 2017-06-13 北京市天元网络技术股份有限公司 一种网络数据爬取方法和装置
CN106991188A (zh) * 2017-04-11 2017-07-28 焦点科技股份有限公司 一种高效的互联网动态数据自动筛选与抓取方法及系统
CN108762850A (zh) * 2018-05-31 2018-11-06 广州市美聚商盟文化发展有限公司 网页商品的动态加载方法与系统
CN109919721A (zh) * 2019-02-27 2019-06-21 上海宝尊电子商务有限公司 一种实时自动生成商品描述文本的方法
CN111179010A (zh) * 2019-09-27 2020-05-19 任我游(厦门)科技发展有限公司 不合理价格产品的在线公证方法、系统、设备和介质
CN112163139A (zh) * 2020-10-14 2021-01-01 深兰科技(上海)有限公司 图像数据的处理方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129632A (zh) * 2010-01-13 2011-07-20 阿里巴巴集团控股有限公司 一种抓取网页信息的方法、装置及系统
CN103761669A (zh) * 2013-12-31 2014-04-30 上海伯释信息科技有限公司 网络爬虫技术应用在网购上的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129632A (zh) * 2010-01-13 2011-07-20 阿里巴巴集团控股有限公司 一种抓取网页信息的方法、装置及系统
CN103761669A (zh) * 2013-12-31 2014-04-30 上海伯释信息科技有限公司 网络爬虫技术应用在网购上的方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844522A (zh) * 2016-12-29 2017-06-13 北京市天元网络技术股份有限公司 一种网络数据爬取方法和装置
CN106844522B (zh) * 2016-12-29 2019-11-22 北京天元创新科技有限公司 一种网络数据爬取方法和装置
CN106991188A (zh) * 2017-04-11 2017-07-28 焦点科技股份有限公司 一种高效的互联网动态数据自动筛选与抓取方法及系统
CN108762850A (zh) * 2018-05-31 2018-11-06 广州市美聚商盟文化发展有限公司 网页商品的动态加载方法与系统
CN109919721A (zh) * 2019-02-27 2019-06-21 上海宝尊电子商务有限公司 一种实时自动生成商品描述文本的方法
CN111179010A (zh) * 2019-09-27 2020-05-19 任我游(厦门)科技发展有限公司 不合理价格产品的在线公证方法、系统、设备和介质
CN112163139A (zh) * 2020-10-14 2021-01-01 深兰科技(上海)有限公司 图像数据的处理方法和装置

Similar Documents

Publication Publication Date Title
CN106126697A (zh) 一种基于Web动态信息抓取技术的详情页面自动生成方法
US10755300B2 (en) Optimization of online advertising assets
US20210081487A1 (en) Website creation system for creating websites having at least one series of directional webpages and related methods
CN104054055B (zh) 以标识符之间的关联为基础来管理联网设备的系统和方法
CN109191240A (zh) 一种进行商品推荐的方法和装置
US9898771B2 (en) System and method for facilitating the purchase of products determined to be useful in the performance of a task
Leitner et al. Collaborative shopping networks: Sharing the wisdom of crowds in E-commerce environments
US20140173031A1 (en) Information providing apparatus, information providing method, and network system
CN106157099A (zh) 一种基于大数据的用户点击信息奖励方法
CN103810216B (zh) 物品显示标识排序方法及服务器
CN105740481A (zh) 搜索推荐方法和装置
CN106339898A (zh) 一种基于互联网大数据的产品创新方法
CN107346505A (zh) 信息推送方法和装置
CN101124594A (zh) 基于因特网的品牌管理和营销传播网络
KR20100123134A (ko) 인터넷 블로그를 이용한 쇼핑 정보 공유 시스템 및 공유 방법
AU2013288913A1 (en) Website monitoring
Zhang et al. The challenges of online meal ordering platforms: website design and credibility, customers’ trust, and food safety
CN104050174B (zh) 一种个性化页面生成方法及装置
KR101919955B1 (ko) 애드쇼를 이용한 온라인 광고 제공 방법
CN112669086B (zh) 多平台商品属性匹配处理方法及系统
Zhou et al. The Study on the Influence Mechanism of Website Features on Consumer Purchase Intention
Shrimal et al. E-Commerce Website Using Web Development
Tian Digintelligent Brands
Abuaysha et al. Development of secure e-commerce system supported with ECRM services
Leitner et al. Customer generated content: Embedding interactive collaboration tools into E-shops

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161116