CN110189189A - 一站式网络购物引导方法、装置、计算机设备和存储介质 - Google Patents
一站式网络购物引导方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110189189A CN110189189A CN201910319459.0A CN201910319459A CN110189189A CN 110189189 A CN110189189 A CN 110189189A CN 201910319459 A CN201910319459 A CN 201910319459A CN 110189189 A CN110189189 A CN 110189189A
- Authority
- CN
- China
- Prior art keywords
- shopping
- commodity
- page
- database
- platform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 230000008569 process Effects 0.000 claims abstract description 37
- 239000000284 extract Substances 0.000 claims abstract description 17
- 230000004044 response Effects 0.000 claims abstract description 9
- 230000008859 change Effects 0.000 claims description 25
- 230000009193 crawling Effects 0.000 claims description 13
- 241001269238 Data Species 0.000 claims description 6
- 239000012141 concentrate Substances 0.000 claims description 5
- 230000029058 respiratory gaseous exchange Effects 0.000 claims 1
- 239000003795 chemical substances by application Substances 0.000 description 9
- 238000004590 computer program Methods 0.000 description 6
- 239000012634 fragment Substances 0.000 description 6
- 235000004237 Crocus Nutrition 0.000 description 4
- 241000596148 Crocus Species 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 235000015170 shellfish Nutrition 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 210000002445 nipple Anatomy 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- 241000675108 Citrus tangerina Species 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000009194 climbing Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 235000014510 cooky Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000699 topical effect Effects 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
- G06Q30/0629—Directed, with specific intent or strategy for generating comparisons
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0641—Shopping interfaces
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种一站式网络购物引导方法、装置、计算机设备和存储介质,方法包括:响应于在预设页面上对一商品的比价操作,获取商品的属性信息;在预先构建的第一数据库中查找与属性信息相匹配的商品数据;提取并展示每一条与属性信息相匹配的商品数据中的购物平台和商品在该购物平台上的价格;其中,第一数据库的预先构建过程包括:对预设的多个购物平台分别采用预先配置的对应的网络开源爬虫进行全量爬取,得到多条商品数据,将多条商品数据存储至第一数据库中;采用增量式网络爬虫对多个购物平台分别进行增量爬取,以对第一数据库中的商品数据进行更新。本申请可以节省时间和人力。
Description
技术领域
本发明涉及大数据处理技术领域,特别是涉及一种一站式网络购物引导方法、装置、计算机设备和存储介质。
背景技术
目前,网络购物平台有很多,同样的产品在不同的网络购物平台上的价格也略有差别,用户想找到价格比较低的心仪产品需要登陆很多网络购物平台进行比价,耗时耗力。
发明内容
本申请实施例提供一种一站式网络购物引导方法、装置、计算机设备和存储介质,可以节省时间和人力,提高购物效率。
本申请实施例提供一种一站式网络购物引导方法,所述方法包括:
响应于在预设页面上对一商品的比价操作,获取所述商品的属性信息;
在预先构建的第一数据库中查找与所述属性信息相匹配的商品数据;
提取并展示每一条与所述属性信息相匹配的商品数据中的购物平台和所述商品在该购物平台上的价格;
其中,所述第一数据库的预先构建过程包括:
对预设的多个购物平台分别采用预先配置的对应的网络开源爬虫进行全量爬取,得到多条商品数据,将所述多条商品数据存储至第一数据库中;其中,所述网络开源爬虫与购物平台一一对应,每一条商品数据至少包括对应商品的所在购物平台、对应商品的属性信息以及对应商品在所述所在购物平台上的价格;采用增量式网络爬虫对所述多个购物平台分别进行增量爬取,以对所述第一数据库中的商品数据进行更新;
其中,预设的每一购物平台所对应的网络开源爬虫的预先配置过程包括:根据爬取要求,从预先构建的第二数据库中选择所需的代码块;并根据选择出的各个代码块的执行顺序,对选择出的各个代码块进行排序,得到对应的代码块序列;根据所述代码块序列,对该购物平台对应的网络开源爬虫进行配置;其中,所述第二数据库中包括多个代码块;所述第二数据库的预先构建过程包括:对预设的多个购物平台分别进行数据爬取,并将数据爬取过程中的每一个爬取步骤所对应的计算机代码作为一个代码块。
在一些实施例中,所述根据所述代码块序列,对该购物平台对应的网络开源爬虫进行配置,包括:根据所述代码块序列和预设的说明文档,确定该购物平台对应的网络开源爬虫的配置文件;其中,所述说明文档中存储有用于生成所述配置文件的说明信息。
在一些实施例中,所述预设的多个购物平台分别进行数据爬取,包括:对所述预设的多个购物平台分别编写对应的所述计算机代码,并采用每一购物平台对应的所述计算机代码对该网站进行数据爬取。
在一些实施例中,所述采用增量式网络爬虫对所述多个购物平台分别进行增量爬取,包括:采用所述增量式网络爬虫以预设相同频率对本地页面集中的各个页面进行增量爬取;或者,采用所述增量式网络爬虫根据本地页面集中的各个页面各自的改变频率分别对各个页面进行增量爬取;或者,采用所述增量式网络爬虫以预设的第一频率对第一页面子集进行增量爬取,且以预设的第二频率对第二页面子集进行增量爬取;其中,所述第一频率高于所述第二频率;所述本地页面集为各个网络开源爬虫在所述多个购物平台上访问过的页面的集合;所述第一页面子集和所述第二页面子集为根据页面的改变频率对所述本地页面集进行划分而得到的两个子集,所述第一页面子集中任意一页面的改变频率高于所述第二页面子集中任意一页面的改变频率。
在一些实施例中,所述展示每一条与所述属性信息相匹配的商品数据中的购物平台和所述商品在该购物平台上的价格,包括:按照价格从低到高的顺序展示各条与所述属性信息相匹配的商品数据中的购物平台和所述商品在该购物平台上的价格,并对最低的价格对应的购物平台进行标示。
在一些实施例中,所述方法还包括:根据各条与所述属性信息相匹配的商品数据中的价格,提供购买建议信息。
在一些实施例中,所述获取并展示每一条与所述属性信息相匹配的商品数据中的购物平台和所述商品在该购物平台上的价格之前,所述方法还包括:若所述第一数据库中不存在与所述属性信息相匹配的商品数据,则对预设的每一个购物平台采用预先配置的对应的网络开源爬虫进行爬取,以获取与所述属性信息相匹配的商品数据。
本申请实施例还提供一种一站式网络购物引导装置,所述装置包括:
属性获取模块,用于响应于在购物页面上对一商品的比价操作,获取所述商品的属性信息;
数据查找模块,用于在预先构建的第一数据库中查找与所述属性信息相匹配的商品数据;
提取展示模块,用于提取并展示每一条与所述属性信息相匹配的商品数据中的购物平台和所述商品在该购物平台上的价格;
第一数据库构建模块,用于预先构建所述第一数据库;
其中,所述第一数据库构建模块包括:
第一爬取单元,用于对预设的多个购物平台分别采用预先配置的对应的网络开源爬虫进行全量爬取,得到多条商品数据,将所述多条商品数据存储至第一数据库中;其中,所述网络开源爬虫与购物平台一一对应,每一条商品数据至少包括对应商品的所在购物平台、对应商品的属性信息以及对应商品在所述所在购物平台上的价格;
第二爬取单元,用于采用增量式网络爬虫对所述多个购物平台分别进行增量爬取,以对所述第一数据库中的商品数据进行更新。
爬虫配置单元,用于对预设的每一购物平台所对应的网络开源爬虫进行预先配置,具体用于:根据爬取要求,从预先构建的第二数据库中选择所需的代码块;并根据选择出的各个代码块的执行顺序,对选择出的各个代码块进行排序,得到对应的代码块序列;根据所述代码块序列,对该购物平台对应的网络开源爬虫进行配置;其中,所述第二数据库中包括多个代码块;
第二数据库构建单元,用于对所述第二数据库进行预先构建,具体用于:对预设的多个购物平台分别进行数据爬取,并将数据爬取过程中的每一个爬取步骤所对应的计算机代码作为一个代码块。
本申请实施例还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述一站式网络购物引导方法的步骤。
本申请实施例提供的一站式网络购物引导方法、装置、计算机设备和存储介质,首先获取属性信息,然后在预先构建的第一数据库中查找与属性信息相匹配的商品数据,进而提取相匹配的商品数据中的购物平台和价格进行展示,可见本申请实施例可以对多个购物平台上的同款商品的价格进行汇总,进而便于用户进行选择购买,不需要用户分别在各个购物平台上搜索、比价等繁琐的操作,能够大大节省时间和人力,提高购物效率。而且,第一数据库是通过网络开源爬虫进行全量爬取来进行第一数据库构建并通过增量式网络爬虫进行增量爬取来进行第一数据库更新的,从而可以保证第一数据库中的商品数据比较全面且是最新商品数据,以保证比价的全面性和有效性。
附图说明
图1为一个实施例中计算机设备的内部结构框图;
图2为一个实施例中一站式网络购物引导方法的流程图;
图3为一个实施例中一站式网络购物引导装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。
图1为本申请一个实施例中计算机设备的结构示意图。如图1所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种一站式网络购物引导方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种一站式网络购物引导方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。可理解的是,这里的数据库与下文中的第一数据库、第二数据库不同。
本申请实施例提供一种一站式网络购物引导方法,该方法可以应用于图1所示出的计算机设备中,该方法包括:
S21、响应于在预设页面上对一商品的比价操作,获取所述商品的属性信息;
可理解的是,上述预设页面可以是购物平台上的购物页面或者独立于各个购物平台的购物引导平台上的一个页面,当然还可以是其他页面。下面对具体场景进行举例说明:
例如,本申请实施例提供的购物引导方法对应的计算机程序被嵌入各个购物平台上,当用户在某一购物平台上浏览商品时,想要对购物页面上的某一商品进行比价,则点击购物页面上的比价按钮(例如,PC端用户将光标移到比价按钮上并点击),或者执行某种指定的手势操作,进而触发了本申请实施例提供的购物引导方法。可见,此时的预设页面是购物平台上的购物页面。
再例如,本申请实施例提供的购物引导方法对应的计算机程序被构架成一个独立的购物引导平台,爬取到的商品数据都会显示在购物引导平台上。用户登陆购物引导平台,并在购物引导平台的购物引导页面上输入或找到想要的商品的相关信息,并点击购物引导页面上的比价按钮,进而触发本申请实施例提供的购物引导方法。可见,此时的预设页面是独立于各个购物平台的购物引导平台上的页面。
可理解的是,上述比价操作的具体形式也有多种,例如,在移动终端上点击比价按钮,在PC端将光标移至比价按钮上并点击,或者,执行某种手势操作等。
其中,属性信息,可以包括尺寸、颜色、品牌、容量、型号、名称、材质等。
举例来说,用户想要购买一款奶瓶,在购物引导平台的购物引导界面上输入品牌为贝亲、容量为240ml、颜色为橘黄色的宽口径奶瓶,并点击了相应的比价按钮,进而获取奶瓶的属性信息,获取到的属性信息可包括:贝亲、240ml、橘黄色、宽口径奶瓶。可见本申请实施例是基于待比价的商品的属性信息进行购物平台和价格汇总的,因此可以减少一些无意义或不明确的参数对用户的错误引导。
S22、在预先构建的第一数据库中查找与所述属性信息相匹配的商品数据;
可理解的是,第一数据库是预先构建的,每次在进行购物引导时使用即可。
其中,所述第一数据库的预先构建过程包括:
S201、对预设的多个购物平台分别采用预先配置的对应的网络开源爬虫进行全量爬取,得到多条商品数据,将所述多条商品数据存储至第一数据库中;其中,所述网络开源爬虫与购物平台一一对应,每一条商品数据至少包括对应商品的所在购物平台、对应商品的属性信息以及对应商品在所述所在购物平台上的价格;
可理解的是,这里利用网络开源爬虫进行的全量爬取为初级阶段的数据爬取,考虑到第一次爬取的数据量较大,可以对爬取的类别进行设置,例如,先只爬取一部分的类别,其他的类别可以以后再进行爬取。也就是说,分为多次爬取,每次只爬取一部分类别,避免一次性爬取的数据量过大造成网络拥堵等问题。
可理解的是,上述多个购物平台可以为目前主流的一些购物平台,例如,淘宝、京东、唯品会、拼多多、1号店等。可以预先存储这些购物平台的网址,在构建第一数据库时提取使用。
可理解的是,针对每一个购物平台,预先构建一个一一对应的网络开源爬虫,并采用对应的网络开源爬虫对该购物平台进行全量爬取。下面对预设的每一购物平台所对应的网络开源爬虫的预先配置过程进行介绍:
S2011、根据爬取要求,从预先构建的第二数据库中选择所需的代码块;根据选择出的各个代码块的执行顺序,对选择出的各个代码块进行排序,得到对应的代码块序列;
其中,所述第二数据库中包括多个代码块;所述第二数据库的预先构建过程包括:对预设的多个购物平台分别进行数据爬取,并将数据爬取过程中的每一个爬取步骤所对应的计算机代码作为一个代码块。可理解的是,上述计算机代码为爬取步骤对应的代码,可以简称为爬取代码。
可理解的是,第二数据库中的代码块不仅仅可以包括对不同的购物平台爬取商品数据的代码块,还可以实现其他功能的代码块,例如,在新闻网站中爬取视频格式的新闻内容的代码块,这样第二数据库不仅可以用于配置购物网站对应的爬虫,还可以配置其他类型网站对应的爬虫,用于实现其他的爬取任务。
在实际应用中,爬取要求包括对哪种购物平台进行爬取、爬取何种内容。另外,不同的购物平台对商品的分类方式、类别层级等可能不同,也就是说,不同购物平台的分类特点不同,进而对数据爬取的要求不同。例如,在某些平台中,奶瓶属于婴童类别下的餐具类别,而在另一些平台上,奶瓶属于母婴类别下的喂养用品类别,即两者分类方式不同。再例如,购物平台A和B的大类别一般包括食品、生鲜、数码、母婴等;在平台A上,母婴这一大类别所包括的中间类别有婴儿用品、孕产妇用品,中间类别婴儿用品又包括婴儿喂养用品、婴儿洗护用品、玩具用品、尿裤纸巾等小类别。而平台B上母婴这一大类别包括婴儿喂养用品、婴儿洗护用品、孕产妇用品等小类别,可见两个平台的分类层级不同,而爬取的类别层级应当与购物平台的类别层级保持一致,因此爬取的类别层级也是不同的,也就是说,两个平台的爬取要求是不一样的。可见,爬取要求还包括所要进行爬取的购物平台的分类特点等。
可理解的是,在第二数据库构建过程中,将每一个爬取步骤对应的代码作为一个代码块,一个代码块也可以称之为一个组件,也就是说,一个步骤对应一个代码块或一个组件。所谓的步骤,例如,爬取网页时的登陆的步骤、进入列表的步骤、翻页的步骤、下拉翻滚的步骤等。可见,将每一个步骤对应的计算机代码作为一个代码块保存至第二数据库中,相当于将每一个步骤作为一个单独的组件保存下来。
在实际应用中,上述对预设的多个购物平台分别进行数据爬取的过程可以包括:对所述预设的多个购物平台分别编写对应的计算机代码,并采用每一网站对应的计算机代码对该网站进行数据爬取。
也就是说,针对每一个预设的购物平台先编写计算机代码,这样可以得到适合爬取该网站的爬虫,然后采用每一个预设的购物平台对应的计算机代码(即每一个预设的购物平台对应的爬虫)进行数据爬取,将爬取过程中的每一个步骤对应的代码作为一个代码块(也可以称之为一个组件)保存至第二数据库中。这种针对每一个预设的购物平台编写计算机代码的方式,能够得到非常适合该购物平台的爬虫,以便使得在数据爬取过程中各个步骤能够非常有效的完成爬取工作。
举例来说,通过上述过程构建的第二数据库中的多个代码块所对应的多个步骤可以包括:(1)登录记录cookie;(2)进入列表页爬取网络地址URL;(3)进入文章页爬取用户ID;(4)点击next翻到下一页继续执行;(5)进入文章页爬取文章内容;(6)下拉滚动条出现下一页内容;(7)搜索框输入内容搜索;(8)进入文章页爬取大类别的分类信息;(9)进入文章页爬取中间类别的分类信息;(10)进入文章页爬取小类别中的商品数据。
可理解的是,本申请实施例根据数据爬取要求从第二数据库中选择出所需要的各个代码块,由于不同的代码块对应不同的步骤,也就是说,各个代码块的执行顺序对应各个步骤的执行顺序,因此需要对各个代码块进行排序,相当于按照执行顺序对各个步骤进行排序。
例如,用户想要爬取购物平台A的内容,根据这一购物平台A的类别层级,可以知道爬取要求为按照大类别-中间类别-小类别的顺序逐层爬取,具体的爬取步骤为:登录-搜索热词-爬取用户ID-爬取大类别的分类信息-爬取中间类别的分类信息-爬取小类别中的商品数据--翻页,可见依据上文举例,其步骤顺序大致是(1)-(7)-(3)-(8)-(9)-(10)-(4),因此需要从第二数据库中选择出步骤(1)、(3)-(4)-(7)-(8)-(9)-(10)对应的代码块,然后将这四个代码块按照执行顺序(1)-(7)-(3)-(8)-(9)-(10)-(4)进行排序,得到对应的代码块序列。
S2012、根据所述代码块序列,对该购物平台对应的网络开源爬虫进行配置;
可理解的是,对所述所需爬虫进行配置的过程实际上是生成配置文件的过程,得到配置文件后所需爬虫即配置完成。因此上述步骤S2012的具体过程可以包括:根据所述代码块序列和预设的说明文档,确定所述所需爬虫的配置文件。其中,说明文档中可以存储有一些说明信息,这些说明信息可以辅助用户生成配置文件,例如,生成配置文件的流程步骤,在每一步骤中需要那些信息等。
在实际应用中,可以通过可扩展标记语言XML的形式进行配置,也就是说,配置文件中的代码可以采用XML的形式,可以提高上述所需爬虫的通用性。
可理解的是,数据爬取要求不仅仅包括爬取是哪个网站、爬取何种内容,还可以包括是全量爬取还是增量爬取、爬取javascript网页内容还是非javascript网页内容、从第几级网页开始抓取内容、翻页模式是不是下拉滑动、所要抓取字段有何属性等。此时,生成的配置文件中的片段代码包括如下内容:
可理解的是,上述片段代码的大致思路是:
首先是seed(即种子,顾名思义是以种子为引进而发散抓取内容)–>url(即配置种子的地址,例如,http://www.chinanews.com/business/gd.shtml)–>fully(即是否为全量爬取,1为是,0为否)->javascript(即是否为javascript网页,1为是,0为否)->keyword(关键字,在上述片段代码中未设置关键字)->seedArea(即种子所在区域,如若不填则将全网页的URL地址全部取下,在上述片段代码中种子所在区域为![CDATA[#content_right>div.content_list]])->start(即从第几级网页开始抓取内容,例如,上述片段代码是从第2级网页开始抓取)->turning(即翻页模式,slider为下拉滑动)–>meta(即需要抓取字段的属性,例如,field即领域、site即地址、tag即标签、index即索引、pic即图片)。
从上述片段代码可知,可以选择javascript网页或非javascript网页,也就是说可以实现javascript网页抓取和非javascript页面抓取。当选择javascript网页时,可以精确解释javascript代码,进而转变为正常的带标签的html代码。可理解的是,javascript网页即为动态生成的页面,非javascript网页即为静态生成的页面。
由于本申请实施例中可以根据数据爬取要求对不同的代码块进行组合排序(即对各种步骤进行任意组合配置),并按照排序得到的代码块序列进行爬虫配置,因此配置得到的爬虫可以实现完整页面下载,也可以实现精准抓取,例如,只抓取图片。当然,通过对数据爬取需求的设置,还可以实现集群分布式爬取,以提高爬取速度。
可理解的是,上述网络开源爬虫是网络上开源的爬虫,例如,可以是聚焦网络爬虫。聚焦网络爬虫(Focused Crawler),又称主题网络爬虫(Topical Crawler),是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。和通用网络爬虫(也即全网爬虫)相比,聚焦网络爬虫只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快。
在实际应用中,当采用聚焦网络爬虫进行全量爬取时,具体的爬取过程可以包括如下步骤:
a1、根据所述多个购物平台各自的网址,采用所述聚焦网络爬虫分别登陆所述多个购物平台;
这里,利用聚焦网络爬虫进行平台登陆。在登陆时可以会遇到购物平台的反爬机制,所谓的反爬机制是指一个IP地址对一个网站进行频繁访问,该网站就会对该IP地址进行访问限制。此时可以通过代理地址来实现登陆。也就是说,登陆购物平台的过程可以包括:通过聚焦网络爬虫向每一个购物平台的服务器发送平台登陆请求,所述平台登陆请求中携带有代理地址,且周期性通过所述聚焦网络爬虫对所述代理地址进行修改或者在遇到访问受限或访问错误时通过所述聚焦网络爬虫对所述代理地址进行修改。当代理地址被修改后,购物平台的服务器就不会进行拦截。例如,聚焦网络爬虫每隔半小时修改一次代理地址,再将修改后的代理地址存储起来,在需要访问购物平台时,提取修改后的代理地址即可。再例如,当聚焦网络爬虫向购物平台的服务器发送平台登陆请求后收到访问受限或者访问错误的反馈信息,此时聚焦网络爬虫对平台登陆请求中的代理地址进行修改,然后发送携带有修改后的代理地址的平台登陆请求,这样就会成功登陆购物网站。
a2、在登陆每一个购物平台后,采用所述聚焦网络爬虫按照类别从大到小的方式逐层爬取,得到多条商品数据。
例如,商品的类别有大类别、中间类别、小类别等多个类别层级,按照类别从大到小的方式可以理解为先爬取商品大类别,然后爬取商品中间类别,再爬取商品小类别,最后爬取具体商品。按照类别从大到小的方式逐层爬取的过程也是按照类别从大到小的方式逐层剥取的过程。剥取的过程实际上聚焦网络爬虫在模拟用户进行模拟点击从而能够进入到点击按键链接的页面。
可理解的是,每一条商品数据至少包括对应商品的所在购物平台、对应商品的属性信息以及对应商品在所述所在购物平台上的价格,当然,在每一条商品数据中还可以包括对应商品的所属类别。所属类别、购物平台、价格、属性均为商品的相关信息。按照类别从大到小的方式爬取到的关于奶瓶奶嘴的多条商品数据如下表1所示:
表1 关于奶瓶奶嘴的商品数据表
可理解的是,上述多级类别是根据爬虫的爬取情况来存储的,根据商品的划分不同,类别的级别名称可能不同。
可理解的是,上述一级类别、二级类别和三级类别均为商品的所属类别,四级类别~七级类别均为商品属性,可见在一条商品数据中可以包括商品属性、所属类别、购物平台和价格。
参见上述序号为1的商品数据,可知爬取路径:母婴-喂养用品-奶瓶奶嘴-贝亲-宽口径奶瓶-160ml-绿色,即可爬取到贝亲160ml绿色宽口径奶瓶。可见爬取路径中包含了商品的所属类别和商品的属性信息。
可理解的是,在步骤S22中查找与商品的属性信息相匹配的商品数据,实际上是在第一数据库中存储的商品数据中查找与商品的属性信息相同的属性信息。例如,在上表1中查找是否存在与待比价的商品的属性信息相同的四级类别~七级类别。
可理解的是,所谓的比价是指同款商品之间的比价,即具有相同属性信息的商品之间的比价,否则比价是没有意义的。
S202、采用增量式网络爬虫对所述多个购物平台分别进行增量爬取,以对所述第一数据库中的商品数据进行更新。
可理解的是,增量式网络爬虫(Incremental Web Crawler)是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫,它能够在一定程度上保证所爬行的页面是尽可能新的页面。与周期性爬行和刷新页面的网络爬虫相比,增量式爬虫只会在需要的时候爬行新产生或发生更新的页面,并不重新下载没有发生变化的页面,可有效减少数据下载量,及时更新已爬行的网页,减小时间和空间上的耗费。简而言之,增量式网络爬虫的目标是保持本地页面集中存储的页面为最新页面。为实现这一目标,增量式网络爬虫需要通过重新访问本地页面集中页面,以更新页面内容,进而更新第一数据库中存储的商品数据。
在实际应用中,采用增量式网络爬虫对所述多个购物平台分别进行增量爬取的具体过程可以包括:(1)采用所述增量式网络爬虫以预设相同频率对本地页面集中的各个页面进行增量爬取;或者,(2)采用所述增量式网络爬虫根据本地页面集中的各个页面各自的改变频率分别对各个页面进行增量爬取;或者,(3)采用所述增量式网络爬虫以预设的第一频率对第一页面子集进行增量爬取,且以预设的第二频率对第二页面子集进行增量爬取。其中,所述第一频率高于所述第二频率;所述本地页面集为各个网络开源爬虫在所述多个购物平台上访问过的页面的集合;所述第一页面子集和所述第二页面子集为根据页面的改变频率对所述本地页面集进行划分而得到的两个子集,所述第一页面子集中任意一页面的改变频率高于所述第二页面子集中任意一页面的改变频率。
可理解的是,上文提供了三种采用增量式网络爬虫进行增量爬取的具体方式,当然还可以采用其他方式。上述第(1)种方式针对所有页面均以同一种频率进行增量爬取,比较简单,容易实现,但是没有考虑到不同页面的改频频率之间的差异性。上述第(2)种方式根据不同页面的改变频率分别对不同页面进行增量爬取,这种方式考虑到不同页面的改频频率之间的差异性,但是比较复杂,尤其是页面比较多时,会大大增加增量爬取的复杂度。上述第(3)中方式均衡了上述两种方式的优缺点,将本地页面集分为两部分,一部分是第一页面子集,第二部分是第二页面子集,第一页面子集为改变频率较快的页面形成的集合,第二页面子集为改变频率较慢的页面形成的集合。对于改变频率较快的第一页面子集,以较大的第一频率进行增量爬取;对于改变频率较慢的第二页面子集,以较小的第二频率进行增量爬取。可见第(3)种方式在一定程度上考虑了不同页面的改频频率之间的差异性,增量爬取的过程也比较简单。
当采用增量式网络爬虫进行增量爬取之后,便可以根据爬取到的新的数据对第一数据库中的商品数据进行更新。
可见,本申请实施例是通过网络开源爬虫进行全量爬取来进行第一数据库构建,从而可以保证第一数据库中的商品数据比较全面,进而保证比价的全面性。而且本申请实施例是通过增量式网络爬虫进行增量爬取来进行第一数据库更新的,进而可以保证第一数据库中的商品数据为最新商品数据,进而保证比价的有效性。
S23、提取并展示每一条与所述属性信息相匹配的商品数据中的购物平台和所述商品在该购物平台上的价格;
可理解的是,步骤S23首先从与所述属性信息相匹配的多条商品数据中提取出购物平台和价格,然后展示所提取到的购物平台和价格。
举例来说,用户想要购买一款奶瓶,在购物引导平台上浏览到一款品牌为贝亲、容量为240ml、颜色为橘黄色的宽口径奶瓶时点击相应的比价按钮,然后购物引导平台便会确定其属性信息,进而在上述表1中查找相匹配的商品数据,可知序号为2和3的商品数据中的四级类别~七级类别与待比价的商品的属性信息相同,因此提取序号为2和3的商品数据中的购物平台和价格,进而展示给用户。例如,将淘宝-142元、京东-150元展示给用户。当然,在展示给用户时还可以附带上商品的属性信息,例如,将淘宝-贝亲-宽口径奶瓶-240ML-橘黄色142元、京东-贝亲-宽口径奶瓶-240ML-橘黄色-150元展示给用户。
在实际应用中,当有多条商品数据与待比价的商品的属性信息相匹配时,还可以将需要展示的信息以表格的形式展示在页面上。无论以何种形式进行展示,都可以对各条需要展示的信息进行排序,按照一定的顺序进行展示。举例来说,按照价格从低到高的顺序展示各条与所述属性信息相匹配的商品数据中的购物平台和所述商品在该购物平台上的价格,并对最低的价格对应的购物平台进行标示。按照价格从低到高的顺序将各条相匹配的商品数据中的购物平台的和价格进行展示,以及对最低价格对应的购物平台进行展示,都是为了使用户能够第一眼就看到这条数据。
在实际应用时,除了展示购物平台和价格等信息之外,还可以根据各条与所述属性信息相匹配的商品数据中的价格,提供购买建议信息。
举例来说,待比价的商品在购物平台B上的价格最低,则提供建议用户去购物平台B上购买的信息。
在一些实施例中,在步骤S23之前,若所述第一数据库中不存在与所述属性信息相匹配的商品数据,则对预设的每一个购物平台采用预先配置的对应的网络开源爬虫进行爬取,以获取与所述属性信息相匹配的商品数据。
也就是说,在预先构建的第一数据库中不存在与待比价的商品的属性信息相匹配的商品数据,则认为没有之前爬取到待比价的商品的相关信息,此时利用网络开源爬虫重新进行爬取,进而提取并展示购物平台和价格等信息。
上述网络开源爬虫有多种,例如,WebMagic等。
本申请实施例提供的一站式网络购物引导方法,首先获取属性信息,然后在预先构建的第一数据库中查找与属性信息相匹配的商品数据,进而提取相匹配的商品数据中的购物平台和价格进行展示,可见本申请实施例可以对多个购物平台上的同款商品的价格进行汇总,进而便于用户进行选择购买,不需要用户分别在各个购物平台上搜索、比价等繁琐的操作,能够大大节省时间和人力,提高购物效率。而且,第一数据库是通过网络开源爬虫进行全量爬取来进行第一数据库构建并通过增量式网络爬虫进行增量爬取来进行第一数据库更新的,从而可以保证第一数据库中的商品数据比较全面且是最新商品数据,以保证比价的全面性和有效性。
另外,由于本申请实施例是基于待比价的商品的属性信息进行购物平台和价格汇总的,因此可以减少一些无意义或不明确的参数对用户的错误引导。
如图3所示,在一个实施例中,提供了一种一站式网络购物引导装置30,该装置30可理解为上文中的购物引导平台,该装置30可以集成于上述的计算机设备中,具体可以包括:
属性获取模块32,用于响应于在购物页面上对一商品的比价操作,获取所述商品的属性信息;
数据查找模块33,用于在预先构建的第一数据库中查找与所述属性信息相匹配的商品数据;
提取展示模块34,用于提取并展示每一条与所述属性信息相匹配的商品数据中的购物平台和所述商品在该购物平台上的价格;
第一数据库构建模块31,用于预先构建所述第一数据库;所述第一数据库构建模块包括:
第一爬取单元,用于对预设的多个购物平台分别采用预先配置的对应的网络开源爬虫进行全量爬取,得到多条商品数据,将所述多条商品数据存储至第一数据库中;其中,所述网络开源爬虫与购物平台一一对应,每一条商品数据至少包括对应商品的所在购物平台、对应商品的属性信息以及对应商品在所述所在购物平台上的价格;
第二爬取单元,用于采用增量式网络爬虫对所述多个购物平台分别进行增量爬取,以对所述第一数据库中的商品数据进行更新;
爬虫配置单元,用于对预设的每一购物平台所对应的网络开源爬虫进行预先配置,具体用于:根据爬取要求,从预先构建的第二数据库中选择所需的代码块;并根据选择出的各个代码块的执行顺序,对选择出的各个代码块进行排序,得到对应的代码块序列;根据所述代码块序列,对该购物平台对应的网络开源爬虫进行配置;其中,所述第二数据库中包括多个代码块;
第二数据库构建单元,用于对所述第二数据库进行预先构建,具体用于:对预设的多个购物平台分别进行数据爬取,并将数据爬取过程中的每一个爬取步骤所对应的计算机代码作为一个代码块。
在一些实施例中,爬虫配置单元对该购物平台对应的网络开源爬虫进行配置的过程包括:根据所述代码块序列和预设的说明文档,确定该购物平台对应的网络开源爬虫的配置文件;其中,所述说明文档中存储有用于生成所述配置文件的说明信息。
在一些实施例中,第二数据库构建单元对预设的多个购物平台分别进行数据爬取的过程包括:对所述预设的多个购物平台分别编写对应的所述计算机代码,并采用每一购物平台对应的所述计算机代码对该网站进行数据爬取。
在一些实施例中,第二爬取单元具体用于:采用所述增量式网络爬虫以预设相同频率对本地页面集中的各个页面进行增量爬取;或者,采用所述增量式网络爬虫根据本地页面集中的各个页面各自的改变频率分别对各个页面进行增量爬取;或者,采用所述增量式网络爬虫以预设的第一频率对第一页面子集进行增量爬取,且以预设的第二频率对第二页面子集进行增量爬取;其中,所述第一频率高于所述第二频率;所述本地页面集为各个网络开源爬虫在所述多个购物平台上访问过的页面的集合;所述第一页面子集和所述第二页面子集为根据页面的改变频率对所述本地页面集进行划分而得到的两个子集,所述第一页面子集中任意一页面的改变频率高于所述第二页面子集中任意一页面的改变频率。
在一些实施例中,提取展示模块具体用于:按照价格从低到高的顺序展示各条与所述属性信息相匹配的商品数据中的购物平台和所述商品在该购物平台上的价格,并对最低的价格对应的购物平台进行标示。
在一些实施例中,所述装置还包括:
建议提供模块,用于根据各条与所述属性信息相匹配的商品数据中的价格,提供购买建议信息。
在一些实施例中,所述装置还包括:
数据爬取模块,用于在所述提取展示模块获取并展示每一条与所述属性信息相匹配的商品数据中的购物平台和所述商品在该购物平台上的价格之前,若所述第一数据库中不存在与所述属性信息相匹配的商品数据,则对预设的每一个购物平台采用预先配置的对应的网络开源爬虫进行爬取,以获取与所述属性信息相匹配的商品数据。
本申请提供的一站式网络购物引导装置,首先属性获取模块获取属性信息,然后数据查找模块在预先构建的第一数据库中查找与属性信息相匹配的商品数据,进而提取展示模块提取相匹配的商品数据中的购物平台和价格进行展示,可见本申请实施例可以对多个购物平台上的同款商品的价格进行汇总,进而便于用户进行选择购买,不需要用户分别在各个购物平台上搜索、比价等繁琐的操作,能够大大节省时间和人力,提高购物效率。而且,第一数据库是通过网络开源爬虫进行全量爬取来进行第一数据库构建并通过增量式网络爬虫进行增量爬取来进行第一数据库更新的,从而可以保证第一数据库中的商品数据比较全面且是最新商品数据,以保证比价的全面性和有效性。
在一些实施例中,提出了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
响应于在预设页面上对一商品的比价操作,获取所述商品的属性信息;
在预先构建的第一数据库中查找与所述属性信息相匹配的商品数据;
提取并展示每一条与所述属性信息相匹配的商品数据中的购物平台和所述商品在该购物平台上的价格;
其中,所述第一数据库的预先构建过程包括:对预设的多个购物平台分别采用预先配置的对应的网络开源爬虫进行全量爬取,得到多条商品数据,将所述多条商品数据存储至第一数据库中;其中,所述网络开源爬虫与购物平台一一对应,每一条商品数据至少包括对应商品的所在购物平台、对应商品的属性信息以及对应商品在所述所在购物平台上的价格;采用增量式网络爬虫对所述多个购物平台分别进行增量爬取,以对所述第一数据库中的商品数据进行更新;其中,预设的每一购物平台所对应的网络开源爬虫的预先配置过程包括:根据爬取要求,从预先构建的第二数据库中选择所需的代码块;并根据选择出的各个代码块的执行顺序,对选择出的各个代码块进行排序,得到对应的代码块序列;根据所述代码块序列,对该购物平台对应的网络开源爬虫进行配置;其中,所述第二数据库中包括多个代码块;所述第二数据库的预先构建过程包括:对预设的多个购物平台分别进行数据爬取,并将数据爬取过程中的每一个爬取步骤所对应的计算机代码作为一个代码块。
在一些实施例中,所述处理器执行的所述根据所述代码块序列,对该购物平台对应的网络开源爬虫进行配置包括:根据所述代码块序列和预设的说明文档,确定该购物平台对应的网络开源爬虫的配置文件;其中,所述说明文档中存储有用于生成所述配置文件的说明信息。
在一些实施例中,所述处理器执行的所述预设的多个购物平台分别进行数据爬取,包括:对所述预设的多个购物平台分别编写对应的所述计算机代码,并采用每一购物平台对应的所述计算机代码对该网站进行数据爬取。
在一些实施例中,所述处理器执行的所述采用增量式网络爬虫对所述多个购物平台分别进行增量爬取,包括:采用所述增量式网络爬虫以预设相同频率对本地页面集中的各个页面进行增量爬取;或者,采用所述增量式网络爬虫根据本地页面集中的各个页面各自的改变频率分别对各个页面进行增量爬取;或者,采用所述增量式网络爬虫以预设的第一频率对第一页面子集进行增量爬取,且以预设的第二频率对第二页面子集进行增量爬取;其中,所述第一频率高于所述第二频率;所述本地页面集为各个网络开源爬虫在所述多个购物平台上访问过的页面的集合;所述第一页面子集和所述第二页面子集为根据页面的改变频率对所述本地页面集进行划分而得到的两个子集,所述第一页面子集中任意一页面的改变频率高于所述第二页面子集中任意一页面的改变频率。
在一些实施例中,所述处理器执行的所述展示每一条与所述属性信息相匹配的商品数据中的购物平台和所述商品在该购物平台上的价格,包括:按照价格从低到高的顺序展示各条与所述属性信息相匹配的商品数据中的购物平台和所述商品在该购物平台上的价格,并对最低的价格对应的购物平台进行标示。
在一些实施例中,所述处理器执行所述计算机程序时还实现以下步骤:根据各条与所述属性信息相匹配的商品数据中的价格,提供购买建议信息。
在一些实施例中,所述处理器执行的所述获取并展示每一条与所述属性信息相匹配的商品数据中的购物平台和所述商品在该购物平台上的价格之前,还实现以下步骤:若所述第一数据库中不存在与所述属性信息相匹配的商品数据,则对预设的每一个购物平台采用预先配置的对应的网络开源爬虫进行爬取,以获取与所述属性信息相匹配的商品数据。
本申请提供的计算机设备的有益效果与上述一站式网络购物引导方法和装置相同,这里不再赘述。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:
响应于在预设页面上对一商品的比价操作,获取所述商品的属性信息;
在预先构建的第一数据库中查找与所述属性信息相匹配的商品数据;
提取并展示每一条与所述属性信息相匹配的商品数据中的购物平台和所述商品在该购物平台上的价格;
其中,所述第一数据库的预先构建过程包括:对预设的多个购物平台分别采用预先配置的对应的网络开源爬虫进行全量爬取,得到多条商品数据,将所述多条商品数据存储至第一数据库中;其中,所述网络开源爬虫与购物平台一一对应,每一条商品数据至少包括对应商品的所在购物平台、对应商品的属性信息以及对应商品在所述所在购物平台上的价格;采用增量式网络爬虫对所述多个购物平台分别进行增量爬取,以对所述第一数据库中的商品数据进行更新;其中,预设的每一购物平台所对应的网络开源爬虫的预先配置过程包括:根据爬取要求,从预先构建的第二数据库中选择所需的代码块;并根据选择出的各个代码块的执行顺序,对选择出的各个代码块进行排序,得到对应的代码块序列;根据所述代码块序列,对该购物平台对应的网络开源爬虫进行配置;其中,所述第二数据库中包括多个代码块;所述第二数据库的预先构建过程包括:对预设的多个购物平台分别进行数据爬取,并将数据爬取过程中的每一个爬取步骤所对应的计算机代码作为一个代码块。
在一些实施例中,所述一个或多个处理器执行的所述根据所述代码块序列,对该购物平台对应的网络开源爬虫进行配置包括:根据所述代码块序列和预设的说明文档,确定该购物平台对应的网络开源爬虫的配置文件;其中,所述说明文档中存储有用于生成所述配置文件的说明信息。
在一些实施例中,所述一个或多个处理器执行的所述预设的多个购物平台分别进行数据爬取,包括:对所述预设的多个购物平台分别编写对应的所述计算机代码,并采用每一购物平台对应的所述计算机代码对该网站进行数据爬取。
在一些实施例中,所述一个或多个处理器执行的所述采用增量式网络爬虫对所述多个购物平台分别进行增量爬取,包括:采用所述增量式网络爬虫以预设相同频率对本地页面集中的各个页面进行增量爬取;或者,采用所述增量式网络爬虫根据本地页面集中的各个页面各自的改变频率分别对各个页面进行增量爬取;或者,采用所述增量式网络爬虫以预设的第一频率对第一页面子集进行增量爬取,且以预设的第二频率对第二页面子集进行增量爬取;其中,所述第一频率高于所述第二频率;所述本地页面集为各个网络开源爬虫在所述多个购物平台上访问过的页面的集合;所述第一页面子集和所述第二页面子集为根据页面的改变频率对所述本地页面集进行划分而得到的两个子集,所述第一页面子集中任意一页面的改变频率高于所述第二页面子集中任意一页面的改变频率。
在一些实施例中,所述一个或多个处理器执行的所述展示每一条与所述属性信息相匹配的商品数据中的购物平台和所述商品在该购物平台上的价格,包括:按照价格从低到高的顺序展示各条与所述属性信息相匹配的商品数据中的购物平台和所述商品在该购物平台上的价格,并对最低的价格对应的购物平台进行标示。
在一些实施例中,所述一个或多个处理器执行所述计算机程序时还实现以下步骤:根据各条与所述属性信息相匹配的商品数据中的价格,提供购买建议信息。
在一些实施例中,所述一个或多个处理器执行的所述获取并展示每一条与所述属性信息相匹配的商品数据中的购物平台和所述商品在该购物平台上的价格之前,还实现以下步骤:若所述第一数据库中不存在与所述属性信息相匹配的商品数据,则对预设的每一个购物平台采用预先配置的对应的网络开源爬虫进行爬取,以获取与所述属性信息相匹配的商品数据。
本申请提供的存储介质的有益效果与一站式网络购物引导方法和装置相同,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种一站式网络购物引导方法,其特征在于,所述方法包括:
响应于在预设页面上对一商品的比价操作,获取所述商品的属性信息;
在预先构建的第一数据库中查找与所述属性信息相匹配的商品数据;
提取并展示每一条与所述属性信息相匹配的商品数据中的购物平台和所述商品在该购物平台上的价格;
其中,所述第一数据库的预先构建过程包括:
对预设的多个购物平台分别采用预先配置的对应的网络开源爬虫进行全量爬取,得到多条商品数据,将所述多条商品数据存储至第一数据库中;其中,所述网络开源爬虫与所述购物平台一一对应,每一条商品数据至少包括对应商品的所在购物平台、对应商品的属性信息以及对应商品在所述所在购物平台上的价格;采用增量式网络爬虫对所述多个购物平台分别进行增量爬取,以对所述第一数据库中的商品数据进行更新;
其中,预设的每一购物平台所对应的网络开源爬虫的预先配置过程包括:根据爬取要求,从预先构建的第二数据库中选择所需的代码块;并根据选择出的各个代码块的执行顺序,对选择出的各个代码块进行排序,得到对应的代码块序列;根据所述代码块序列,对该购物平台对应的网络开源爬虫进行配置;其中,所述第二数据库中包括多个代码块;所述第二数据库的预先构建过程包括:对预设的多个购物平台分别进行数据爬取,并将数据爬取过程中的每一个爬取步骤所对应的计算机代码作为一个代码块。
2.根据权利要求1所述的方法,其特征在于,所述根据所述代码块序列,对该购物平台对应的网络开源爬虫进行配置,包括:根据所述代码块序列和预设的说明文档,确定该购物平台对应的网络开源爬虫的配置文件;其中,所述说明文档中存储有用于生成所述配置文件的说明信息。
3.根据权利要求1所述的方法,其特征在于,所述预设的多个购物平台分别进行数据爬取,包括:对所述预设的多个购物平台分别编写对应的所述计算机代码,并采用每一购物平台对应的所述计算机代码对该网站进行数据爬取。
4.根据权利要求1所述的方法,其特征在于,所述采用增量式网络爬虫对所述多个购物平台分别进行增量爬取,包括:
采用所述增量式网络爬虫以预设相同频率对本地页面集中的各个页面进行增量爬取;或者,采用所述增量式网络爬虫根据本地页面集中的各个页面各自的改变频率分别对各个页面进行增量爬取;或者,采用所述增量式网络爬虫以预设的第一频率对第一页面子集进行增量爬取,且以预设的第二频率对第二页面子集进行增量爬取;其中,所述第一频率高于所述第二频率;所述本地页面集为各个网络开源爬虫在所述多个购物平台上访问过的页面的集合;所述第一页面子集和所述第二页面子集为根据页面的改变频率对所述本地页面集进行划分而得到的两个子集,所述第一页面子集中任意一页面的改变频率高于所述第二页面子集中任意一页面的改变频率。
5.根据权利要求1~4任一项所述的方法,其特征在于,所述展示每一条与所述属性信息相匹配的商品数据中的购物平台和所述商品在该购物平台上的价格,包括:
按照价格从低到高的顺序展示各条与所述属性信息相匹配的商品数据中的购物平台和所述商品在该购物平台上的价格,并对最低的价格对应的购物平台进行标示。
6.根据权利要求1~4任一项所述的方法,其特征在于,所述方法还包括:
根据各条与所述属性信息相匹配的商品数据中的价格,提供购买建议信息。
7.根据权利要求1~4任一项所述的方法,其特征在于,所述获取并展示每一条与所述属性信息相匹配的商品数据中的购物平台和所述商品在该购物平台上的价格之前,所述方法还包括:
若所述第一数据库中不存在与所述属性信息相匹配的商品数据,则对预设的每一个购物平台采用预先配置的对应的网络开源爬虫进行爬取,以获取与所述属性信息相匹配的商品数据。
8.一种一站式网络购物引导装置,其特征在于,所述装置包括:
属性获取模块,用于响应于在购物页面上对一商品的比价操作,获取所述商品的属性信息;
数据查找模块,用于在预先构建的第一数据库中查找与所述属性信息相匹配的商品数据;
提取展示模块,用于提取并展示每一条与所述属性信息相匹配的商品数据中的购物平台和所述商品在该购物平台上的价格;
第一数据库构建模块,用于预先构建所述第一数据库;
其中,所述第一数据库构建模块包括:
第一爬取单元,用于对预设的多个购物平台分别采用预先配置的对应的网络开源爬虫进行全量爬取,得到多条商品数据,将所述多条商品数据存储至第一数据库中;其中,所述网络开源爬虫与购物平台一一对应,每一条商品数据至少包括对应商品的所在购物平台、对应商品的属性信息以及对应商品在所述所在购物平台上的价格;
第二爬取单元,用于采用增量式网络爬虫对所述多个购物平台分别进行增量爬取,以对所述第一数据库中的商品数据进行更新;
爬虫配置单元,用于对预设的每一购物平台所对应的网络开源爬虫进行预先配置,具体用于:根据爬取要求,从预先构建的第二数据库中选择所需的代码块;并根据选择出的各个代码块的执行顺序,对选择出的各个代码块进行排序,得到对应的代码块序列;根据所述代码块序列,对该购物平台对应的网络开源爬虫进行配置;其中,所述第二数据库中包括多个代码块;
第二数据库构建单元,用于对所述第二数据库进行预先构建,具体用于:对预设的多个购物平台分别进行数据爬取,并将数据爬取过程中的每一个爬取步骤所对应的计算机代码作为一个代码块。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述一站式网络购物引导方法的步骤。
10.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述一站式网络购物引导方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910319459.0A CN110189189A (zh) | 2019-04-19 | 2019-04-19 | 一站式网络购物引导方法、装置、计算机设备和存储介质 |
PCT/CN2019/103201 WO2020211249A1 (zh) | 2019-04-19 | 2019-08-29 | 基于数据爬数的网络购物引导方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910319459.0A CN110189189A (zh) | 2019-04-19 | 2019-04-19 | 一站式网络购物引导方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110189189A true CN110189189A (zh) | 2019-08-30 |
Family
ID=67714885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910319459.0A Pending CN110189189A (zh) | 2019-04-19 | 2019-04-19 | 一站式网络购物引导方法、装置、计算机设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110189189A (zh) |
WO (1) | WO2020211249A1 (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569416A (zh) * | 2019-09-04 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 基于数据爬取的app控件的处理方法及相关产品 |
CN110716916A (zh) * | 2019-09-02 | 2020-01-21 | 深圳壹账通智能科技有限公司 | 资源在线管理方法、装置、计算机设备和存储介质 |
CN111192105A (zh) * | 2019-11-26 | 2020-05-22 | 深圳壹账通智能科技有限公司 | 产品页面展示方法、装置、计算机设备和存储介质 |
CN111400345A (zh) * | 2020-02-21 | 2020-07-10 | 北京九州云动科技有限公司 | 支持多平台的商品搜索方法和装置 |
WO2020211367A1 (zh) * | 2019-04-19 | 2020-10-22 | 平安科技(深圳)有限公司 | 数据爬取方法、装置、计算机设备和存储介质 |
CN112381603A (zh) * | 2020-11-05 | 2021-02-19 | 深圳创维-Rgb电子有限公司 | 一种电视购物比价处理方法、装置、智能终端及存储介质 |
CN112598476A (zh) * | 2020-12-28 | 2021-04-02 | 上海安畅网络科技股份有限公司 | 一种产品价格输出的方法、装置、设备及存储介质 |
CN113724029A (zh) * | 2020-05-26 | 2021-11-30 | 北京润天恒业科技发展有限公司 | 一种基于电子网上商城的购物方法及系统 |
CN114969529A (zh) * | 2022-05-30 | 2022-08-30 | 平安科技(深圳)有限公司 | 预订查询结果输出方法、装置、设备及存储介质 |
CN115982442A (zh) * | 2023-02-27 | 2023-04-18 | 毛茸茸(西安)智能科技有限公司 | 大数据分析的网络信息数据采集方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101944221A (zh) * | 2010-09-07 | 2011-01-12 | 上海腾唐数码科技有限公司 | 网络比价购物系统及方法 |
CN102867266A (zh) * | 2012-08-27 | 2013-01-09 | 北京联时空网络通信设备有限公司 | 一种讯价方法及装置 |
WO2013051005A2 (en) * | 2011-07-06 | 2013-04-11 | Kanani Hirenkumar Nathalal | A method of a web based product crawler for products offering |
CN105205686A (zh) * | 2015-08-18 | 2015-12-30 | 浪潮软件集团有限公司 | 一种获取产品价格信息的方法及系统 |
CN105354770A (zh) * | 2015-11-16 | 2016-02-24 | 南京途牛科技有限公司 | 一种线路类旅游产品的实时比价方法 |
CN107729508A (zh) * | 2017-10-23 | 2018-02-23 | 北京京东金融科技控股有限公司 | 信息爬取方法与装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968495B (zh) * | 2012-11-29 | 2015-11-18 | 河海大学 | 搜索对比关联购物信息的垂直搜索引擎及方法 |
CN104965904B (zh) * | 2015-06-30 | 2019-06-04 | 北京奇虎科技有限公司 | 一种多平台数据的抓取方法和装置 |
CN108334585A (zh) * | 2018-01-29 | 2018-07-27 | 湖北省楚天云有限公司 | 一种网页爬虫方法、装置以及电子设备 |
-
2019
- 2019-04-19 CN CN201910319459.0A patent/CN110189189A/zh active Pending
- 2019-08-29 WO PCT/CN2019/103201 patent/WO2020211249A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101944221A (zh) * | 2010-09-07 | 2011-01-12 | 上海腾唐数码科技有限公司 | 网络比价购物系统及方法 |
WO2013051005A2 (en) * | 2011-07-06 | 2013-04-11 | Kanani Hirenkumar Nathalal | A method of a web based product crawler for products offering |
CN102867266A (zh) * | 2012-08-27 | 2013-01-09 | 北京联时空网络通信设备有限公司 | 一种讯价方法及装置 |
CN105205686A (zh) * | 2015-08-18 | 2015-12-30 | 浪潮软件集团有限公司 | 一种获取产品价格信息的方法及系统 |
CN105354770A (zh) * | 2015-11-16 | 2016-02-24 | 南京途牛科技有限公司 | 一种线路类旅游产品的实时比价方法 |
CN107729508A (zh) * | 2017-10-23 | 2018-02-23 | 北京京东金融科技控股有限公司 | 信息爬取方法与装置 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020211367A1 (zh) * | 2019-04-19 | 2020-10-22 | 平安科技(深圳)有限公司 | 数据爬取方法、装置、计算机设备和存储介质 |
CN110716916A (zh) * | 2019-09-02 | 2020-01-21 | 深圳壹账通智能科技有限公司 | 资源在线管理方法、装置、计算机设备和存储介质 |
CN110569416A (zh) * | 2019-09-04 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 基于数据爬取的app控件的处理方法及相关产品 |
CN110569416B (zh) * | 2019-09-04 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 基于数据爬取的app控件的处理方法及相关产品 |
CN111192105A (zh) * | 2019-11-26 | 2020-05-22 | 深圳壹账通智能科技有限公司 | 产品页面展示方法、装置、计算机设备和存储介质 |
CN111400345A (zh) * | 2020-02-21 | 2020-07-10 | 北京九州云动科技有限公司 | 支持多平台的商品搜索方法和装置 |
CN113724029A (zh) * | 2020-05-26 | 2021-11-30 | 北京润天恒业科技发展有限公司 | 一种基于电子网上商城的购物方法及系统 |
CN112381603A (zh) * | 2020-11-05 | 2021-02-19 | 深圳创维-Rgb电子有限公司 | 一种电视购物比价处理方法、装置、智能终端及存储介质 |
CN112598476A (zh) * | 2020-12-28 | 2021-04-02 | 上海安畅网络科技股份有限公司 | 一种产品价格输出的方法、装置、设备及存储介质 |
CN114969529A (zh) * | 2022-05-30 | 2022-08-30 | 平安科技(深圳)有限公司 | 预订查询结果输出方法、装置、设备及存储介质 |
CN115982442A (zh) * | 2023-02-27 | 2023-04-18 | 毛茸茸(西安)智能科技有限公司 | 大数据分析的网络信息数据采集方法 |
CN115982442B (zh) * | 2023-02-27 | 2023-07-25 | 毛茸茸(西安)智能科技有限公司 | 大数据分析的网络信息数据采集方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2020211249A1 (zh) | 2020-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110189189A (zh) | 一站式网络购物引导方法、装置、计算机设备和存储介质 | |
US11977542B2 (en) | In-line editing of search refinements | |
CN103699576B (zh) | 一种用于提供搜索结果的方法与设备 | |
US9245294B1 (en) | Providing separate views for items | |
CN104142940B (zh) | 信息推荐处理方法及装置 | |
US7953730B1 (en) | System and method for presenting a search history | |
CN100422997C (zh) | 网页加入可搜索的深标签及浏览器插件和脚本结合的方法 | |
US20070276811A1 (en) | Graphical User Interface for Displaying and Organizing Search Results | |
CN104050568A (zh) | 一种商品图片展现的方法和系统 | |
US20060129906A1 (en) | Component models | |
CN102831148B (zh) | 一种基于浏览器的推荐数据加载方法和装置 | |
US20160062960A1 (en) | Systems and methods of publishing content from one or more sources | |
CN106202516A (zh) | 一种根据时间节点的电子商务平台商品展示方法 | |
CN101788994A (zh) | 一种数据展示模型建立方法、数据展示方法及装置 | |
CN110209909A (zh) | 数据爬取方法、装置、计算机设备和存储介质 | |
US20120216107A1 (en) | Characteristic content determination program, characteristic content determination device, characteristic content determination method, recording medium, content generation device, and related content insertion device | |
CN109308337A (zh) | 页面分享方法和装置 | |
CN106407371A (zh) | 用户的评论数据展现方法、系统、服务器和客户端 | |
US11625448B2 (en) | System for superimposed communication by object oriented resource manipulation on a data network | |
CN110175895A (zh) | 一种物品推荐方法及装置 | |
CN109582898A (zh) | 一种新闻网页页面的生成方法及装置 | |
CN107765938A (zh) | 一种图片交互方法与装置 | |
CN106528851A (zh) | 一种智能推荐方法及装置 | |
CN101957825A (zh) | 基于网页中图像、视频内容的图像搜索方法 | |
Nadee et al. | Towards data extraction of dynamic content from JavaScript Web applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190830 |