CN106126697A - 一种基于Web动态信息抓取技术的详情页面自动生成方法 - Google Patents
一种基于Web动态信息抓取技术的详情页面自动生成方法 Download PDFInfo
- Publication number
- CN106126697A CN106126697A CN201610502449.7A CN201610502449A CN106126697A CN 106126697 A CN106126697 A CN 106126697A CN 201610502449 A CN201610502449 A CN 201610502449A CN 106126697 A CN106126697 A CN 106126697A
- Authority
- CN
- China
- Prior art keywords
- commodity
- web
- sing
- technology
- details page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开一种基于Web动态信息抓取技术的详情页面自动生成方法,包括以下步骤:1)抓取程序模块启动浏览器;2)模仿人的操作打开商品的详情页;3)抓取页面内的信息,并下载关联的图片;4)人工审核;该基于Web动态信息抓取技术的详情页面自动生成方法效率高。
Description
技术领域
本发明涉及一种基于Web动态信息抓取技术的详情页面自动生成方法。
背景技术
目前国内主流爬虫都是直接使用http协议,下载指定url的静态html内容,并对内容进行分析和抽取。此方法在搜索引擎、舆情监控、垂直门户网站等领域得到了大规模应用。
但在电子商务领域,出于安全性、加载速度、页面静态化等因素的考虑,大部分网站的商品页面中的价格、商品规格、图文详情等都是通过js以及ajax加载的动态html内容。这使得传统的网络爬虫系统,根本无法有效的自动获取商品信息。
随着互联网的发展,国内大量线下零售企业均开始建设自有电商平台,如广百百货的广百荟、广州友谊商场的网上商城,以实现商品线上线下一体售卖。但是传统零售企业如果想把自己大量的商品在线上售卖,就需要对每个商品录制详细的商品图文信息,工作量十分巨大。以大家电为例,仅冰箱、洗衣机、彩电、空调四大类商品,常用的型号就有8千到1万,如果按照5个人的录入团队,1个人平均每小时录入4个PC版商品+4个移动版的图文详情介绍,则需要3-4个月的时间,效率低。
发明内容
本发明要解决的技术问题是提供一种效率高的基于Web动态信息抓取技术的详情页面自动生成方法。
为解决上述问题,本发明采用如下技术方案:
一种基于Web动态信息抓取技术的详情页面自动生成方法,包括以下步骤:
1)抓取程序模块启动浏览器;
2)模仿人的操作打开商品的详情页;
3)抓取页面内的信息,并下载关联的图片;
4)人工审核。
作为优选,所述抓取程序模块由Selenium测试工具和爬虫程序搭建。
作为优选,所述步骤1)的具体步骤包括:
1.1)在抓取程序模块上输入商品的基本信息和目标商城;
1.2)抓取程序模块基于Selenium测试工具的功能实现模仿人的操作启动浏览器;
1.3)登录商城;
1.4)通过步骤1.1)预设的关键字,在目标网站进行搜索,找到对应的商品。
作为优选,所述步骤2)的具体步骤包括:
2.2)打开商品的详情页;
2.3)等待浏览器加载完静态和动态内容。
作为优选,所述步骤3)的具体步骤包括:
3.1)基于爬虫程序的功能实现自动抓取该页面内的商品价格、规格参数和商品详情信息,并下载关联的图片;
3.2)将抓取到的图文信息的格式进行转化。
作为优选,所述步骤1.4)若找不到对应的商品则重新返回到步骤1.1)重新输入商品的基本信息和目标商城。
本发明的有益效果为:通过模仿人在浏览器发起鼠标点击、键盘输入等操作,并可监控操作后浏览器内容的变化,再结合网络爬虫的抓取的信息功能,完全模拟一个真实的用户在浏览器的浏览操作,因此抓取的信息和真实用户看到的图文信息是完全一致的。相比于传统的网络爬虫产品兼容性好、速度快、数据抓取准确等特点。
具体实施方式
一种基于Web动态信息抓取技术的详情页面自动生成方法,包括以下步骤:
1)抓取程序模块启动浏览器;
2)模仿人的操作打开商品的详情页;
3)抓取页面内的信息,并下载关联的图片;
4)商城管理人员查看已抓取的商品信息,对存在问题的内容进行快速修改,通过审核后信息开始应用于自己的商城。
本发明的有益效果为:通过模仿人在浏览器发起鼠标点击、键盘输入等操作,并可监控操作后浏览器内容的变化,再结合网络爬虫的抓取的信息功能,完全模拟一个真实的用户在浏览器的浏览操作,因此抓取的信息和真实用户看到的图文信息是完全一致的。相比于传统的网络爬虫产品兼容性好、速度快、数据抓取准确等特点。
实施例2
一种基于Web动态信息抓取技术的详情页面自动生成方法,包括以下步骤:
1.在抓取程序模块上输入商品的基本信息和目标商城;抓取程序模块基于Selenium测试工具的功能实现模仿人的操作启动浏览器,登录商城;通过预设的关键字,在目标网站进行搜索,找到对应的商品,若找不到对应的商品则重新输入商品的基本信息和目标商城;
2)打开商品的详情页,等待浏览器加载完静态和动态内容;
3)基于爬虫程序的功能实现自动抓取该页面内的商品价格、规格参数和商品详情信息,并下载关联的图片;然后将抓取到的图文信息转化为我方商城的商品数据格式;
4)商城管理人员查看已抓取的商品信息,对存在问题的内容进行快速修改,通过审核后信息开始应用于自己的商城。
所述抓取程序模块由Selenium测试工具和爬虫程序搭建,基于Selenium技术和网络爬虫技术实现信息自动抓取程序,具有可以控制浏览器的行为,模仿人在浏览器发起鼠标点击、键盘输入等操作,并可监控操作后浏览器内容的变化,模仿一个商城会员的操作:打开浏览器->登录目标商城->查找目标商品->打开商品详情页面->等待浏览器加载完静态和动态内容,然后再抽取商品名称、价格、图文详情等内容,操作完全模拟一个真实的用户在浏览器的浏览操作,因此抓取的信息和真实用户看到的图文信息是完全一致的。
本发明的有益效果为:采用Selenium技术和网络爬虫技术通过模仿人在浏览器发起鼠标点击、键盘输入等操作,并可监控操作后浏览器内容的变化,再结合网络爬虫的抓取的信息功能,完全模拟一个真实的用户在浏览器的浏览操作,因此抓取的信息和真实用户看到的图文信息是完全一致的。相比于传统的网络爬虫产品兼容性好、速度快、数据抓取准确等特点。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何不经过创造性劳动想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (6)
1.一种基于Web动态信息抓取技术的详情页面自动生成方法,其特征在于,包括以下步骤:
1)抓取程序模块启动浏览器;
2)模仿人的操作打开商品的详情页;
3)抓取页面内的信息,并下载关联的图片;
4)人工审核。
2.根据权利要求1所述的基于Web动态信息抓取技术的详情页面自动生成方法,其特征在于:所述抓取程序模块由Selenium测试工具和爬虫程序搭建。
3.根据权利要求2所述的基于Web动态信息抓取技术的详情页面自动生成方法,其特征在于:所述步骤1)的具体步骤包括:
1.1)在抓取程序模块上输入商品的基本信息和目标商城;
1.2)抓取程序模块基于Selenium测试工具的功能实现模仿人的操作启动浏览器;
1.3)登录商城;
1.4)通过步骤1.1)预设的关键字,在目标网站进行搜索,找到对应的商品。
4.根据权利要求3所述的基于Web动态信息抓取技术的详情页面自动生成方法,其特征在于:所述步骤2)的具体步骤包括:
2.2)打开商品的详情页;
2.3)等待浏览器加载完静态和动态内容。
5.根据权利要求4所述的基于Web动态信息抓取技术的详情页面自动生成方法,其特征在于:所述步骤3)的具体步骤包括:
3.1)基于爬虫程序的功能实现自动抓取该页面内的商品价格、规格参数和商品详情信息,并下载关联的图片;
3.2)将抓取到的图文信息的格式进行转化。
6.根据权利要求5所述的基于Web动态信息抓取技术的详情页面自动生成方法,其特征在于:所述步骤1.4)若找不到对应的商品则重新返回到步骤1.1)重新输入商品的基本信息和目标商城。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610502449.7A CN106126697A (zh) | 2016-06-30 | 2016-06-30 | 一种基于Web动态信息抓取技术的详情页面自动生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610502449.7A CN106126697A (zh) | 2016-06-30 | 2016-06-30 | 一种基于Web动态信息抓取技术的详情页面自动生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106126697A true CN106126697A (zh) | 2016-11-16 |
Family
ID=57285969
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610502449.7A Pending CN106126697A (zh) | 2016-06-30 | 2016-06-30 | 一种基于Web动态信息抓取技术的详情页面自动生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106126697A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844522A (zh) * | 2016-12-29 | 2017-06-13 | 北京市天元网络技术股份有限公司 | 一种网络数据爬取方法和装置 |
CN106991188A (zh) * | 2017-04-11 | 2017-07-28 | 焦点科技股份有限公司 | 一种高效的互联网动态数据自动筛选与抓取方法及系统 |
CN108762850A (zh) * | 2018-05-31 | 2018-11-06 | 广州市美聚商盟文化发展有限公司 | 网页商品的动态加载方法与系统 |
CN109919721A (zh) * | 2019-02-27 | 2019-06-21 | 上海宝尊电子商务有限公司 | 一种实时自动生成商品描述文本的方法 |
CN111179010A (zh) * | 2019-09-27 | 2020-05-19 | 任我游(厦门)科技发展有限公司 | 不合理价格产品的在线公证方法、系统、设备和介质 |
CN112163139A (zh) * | 2020-10-14 | 2021-01-01 | 深兰科技(上海)有限公司 | 图像数据的处理方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102129632A (zh) * | 2010-01-13 | 2011-07-20 | 阿里巴巴集团控股有限公司 | 一种抓取网页信息的方法、装置及系统 |
CN103761669A (zh) * | 2013-12-31 | 2014-04-30 | 上海伯释信息科技有限公司 | 网络爬虫技术应用在网购上的方法 |
-
2016
- 2016-06-30 CN CN201610502449.7A patent/CN106126697A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102129632A (zh) * | 2010-01-13 | 2011-07-20 | 阿里巴巴集团控股有限公司 | 一种抓取网页信息的方法、装置及系统 |
CN103761669A (zh) * | 2013-12-31 | 2014-04-30 | 上海伯释信息科技有限公司 | 网络爬虫技术应用在网购上的方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844522A (zh) * | 2016-12-29 | 2017-06-13 | 北京市天元网络技术股份有限公司 | 一种网络数据爬取方法和装置 |
CN106844522B (zh) * | 2016-12-29 | 2019-11-22 | 北京天元创新科技有限公司 | 一种网络数据爬取方法和装置 |
CN106991188A (zh) * | 2017-04-11 | 2017-07-28 | 焦点科技股份有限公司 | 一种高效的互联网动态数据自动筛选与抓取方法及系统 |
CN108762850A (zh) * | 2018-05-31 | 2018-11-06 | 广州市美聚商盟文化发展有限公司 | 网页商品的动态加载方法与系统 |
CN109919721A (zh) * | 2019-02-27 | 2019-06-21 | 上海宝尊电子商务有限公司 | 一种实时自动生成商品描述文本的方法 |
CN111179010A (zh) * | 2019-09-27 | 2020-05-19 | 任我游(厦门)科技发展有限公司 | 不合理价格产品的在线公证方法、系统、设备和介质 |
CN112163139A (zh) * | 2020-10-14 | 2021-01-01 | 深兰科技(上海)有限公司 | 图像数据的处理方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106126697A (zh) | 一种基于Web动态信息抓取技术的详情页面自动生成方法 | |
US10755300B2 (en) | Optimization of online advertising assets | |
US20210081487A1 (en) | Website creation system for creating websites having at least one series of directional webpages and related methods | |
CN104054055B (zh) | 以标识符之间的关联为基础来管理联网设备的系统和方法 | |
CN109191240A (zh) | 一种进行商品推荐的方法和装置 | |
US9898771B2 (en) | System and method for facilitating the purchase of products determined to be useful in the performance of a task | |
Leitner et al. | Collaborative shopping networks: Sharing the wisdom of crowds in E-commerce environments | |
US20140173031A1 (en) | Information providing apparatus, information providing method, and network system | |
CN106157099A (zh) | 一种基于大数据的用户点击信息奖励方法 | |
CN103810216B (zh) | 物品显示标识排序方法及服务器 | |
CN105740481A (zh) | 搜索推荐方法和装置 | |
CN106339898A (zh) | 一种基于互联网大数据的产品创新方法 | |
CN107346505A (zh) | 信息推送方法和装置 | |
CN101124594A (zh) | 基于因特网的品牌管理和营销传播网络 | |
KR20100123134A (ko) | 인터넷 블로그를 이용한 쇼핑 정보 공유 시스템 및 공유 방법 | |
AU2013288913A1 (en) | Website monitoring | |
Zhang et al. | The challenges of online meal ordering platforms: website design and credibility, customers’ trust, and food safety | |
CN104050174B (zh) | 一种个性化页面生成方法及装置 | |
KR101919955B1 (ko) | 애드쇼를 이용한 온라인 광고 제공 방법 | |
CN112669086B (zh) | 多平台商品属性匹配处理方法及系统 | |
Zhou et al. | The Study on the Influence Mechanism of Website Features on Consumer Purchase Intention | |
Shrimal et al. | E-Commerce Website Using Web Development | |
Tian | Digintelligent Brands | |
Abuaysha et al. | Development of secure e-commerce system supported with ECRM services | |
Leitner et al. | Customer generated content: Embedding interactive collaboration tools into E-shops |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161116 |