CN110175277B

CN110175277B - 面向电商平台的农药信息采集方法

Info

Publication number: CN110175277B
Application number: CN201910374714.1A
Authority: CN
Inventors: 蔡地; 孙知信; 宫婧; 赵学健; 孙哲
Original assignee: Nupt Institute Of Big Data Research At Yancheng; Nanjing University of Posts and Telecommunications
Current assignee: Nupt Institute Of Big Data Research At Yancheng; Nanjing University of Posts and Telecommunications
Priority date: 2019-05-07
Filing date: 2019-05-07
Publication date: 2023-07-07
Anticipated expiration: 2039-05-07
Also published as: CN110175277A

Abstract

本发明揭示了一种面向电商平台的农药信息采集方法，包括如下步骤：S1、从电商平台的页面中获取农药商品页面的URL作为爬虫条目URL队列，启动爬虫程序；S2、对所爬取的数据进行解析，然后使用URL过滤算法对URL进行初步过滤，将过滤后的URL存储在URL队列中；S3、将经过解析后的数据临时存储在系统缓存中，随后对URL进行二次过滤；S4、将前序步骤中获取的全部农药商品信息进行整合、归纳到一个完整的农药对象中，并将其存储在系统数据库中；S5、对系统数据库中的数据进行展示。本发明使用爬虫技术对指定的电商平台内的农药信息进行采集，通过归一化处理为判断农药产品的性价比提供了依据，方便了农民朋友的线上农药交易操作。

Description

面向电商平台的农药信息采集方法

技术领域

本发明涉及一种信息采集方法，具体涉及一种运用爬虫技术实现的面向电商平台的农药信息采集方法，属于计算机数据挖掘以及信息处理技术领域。

背景技术

随着互联网技术的迅猛发展和广泛普及，利用互联网调研来获取农业大数据也逐渐成为大势所趋。农药作为农业生产过程中不可缺少的要素，在农业生产中发挥着重要的作用。在电商平台上购买农药无疑会更加方便实惠、并且选择更多，同时，农民朋友也有通过网络了解一些使用效果好、价格实惠的农药的实际需求。但是目前，电商市场上仍然充斥着大量假冒、劣质的农药，由于农药的特殊性和重要性，一旦选用了这些劣质农药，将会给给农民用户带来不可挽回的巨大损失。也正是由于这一原因，目前关于农药的线上贸易进程发展缓慢。因此，如何满足农民朋友在线上对买真药、买好药的需要是全社会都需要正视的一个问题。

Web Magic是一种简单而灵活的Java爬虫框架。它具有简单的API(ApplicationProgramming Interface,应用程序编程接口)，学习成本低。同时，它还具备模块化的功能结构，可以轻松扩展。Web Magic可提供多线程和分布式支持，基于这一框架，技术人员能够快速开发出高效且可维护的爬虫。

也正是由于上述技术条件，如何在现有技术的基础上提出一种运用爬虫技术实现的面向电商平台的农药信息采集方法，为农民朋友的线上农药交易提供便利，满足农民朋友买真药、买好药的需求，也就成为了本领域内技术人员共同的研究目标。

发明内容

鉴于现有技术存在上述缺陷，本发明的目的是提出一种面向电商平台的农药信息采集方法，包括如下步骤：

S1、从电商平台的页面中获取农药商品页面的URL作为爬虫条目URL队列，启动爬虫程序；

S2、对爬虫程序所爬取的数据进行解析，然后使用爬虫调度程序中的URL过滤算法对农药商品页面的URL进行初步过滤，将过滤后的农药商品页面的URL存储在URL队列中；

S3、将经过解析后的数据临时存储在系统缓存中，随后对农药商品页面的URL进行二次过滤；

S4、以批准证号为唯一标志，将前序步骤中获取的全部农药商品信息进行整合、归纳到一个完整的农药对象中，并将其存储在系统数据库中；

S5、对系统数据库中的数据进行展示。

优选地，S2中所述爬虫程序所爬取的数据包括：农药品名、厂家、批准证号、单价、销量以及好评数量。

优选地，S2中所述使用爬虫调度程序中的URL过滤算法对农药商品页面的URL进行初步过滤，具体包括：

初始化URL过滤器中的URL列表，所述URL过滤器中包含待访问的URL列表VisitList以及已访问的URL列表VisitedList；

判断系统数据库总是否存在所需要爬取的农药商品页面的URL，若存在，则按重复次数对URL进行降序排序，以初始化VisitList，若不存在，则使用电商平台的索引页初始化VisitList。

优选地，S3中所述对农药商品页面的URL进行二次过滤，具体包括：

S31、对于经过S2中初步过滤后的农药商品页面的URL，在VisitList中查找所述URL是否存在，若存在，则标记相关URL并对其重复数量进行加一，随后流程结束，若不存在，则按序进入下一流程；

S32、在VisitedList中查找所述URL是否存在，若存在，则标记相关URL并对其重复数量进行加一，随后流程结束，若不存在，则按序进入下一流程；

S33、在数据库中查找所述URL是否存在，若存在，则按序进入下一流程，若不存在，则将所述URL视为一个新的URL，并将其添加到VisitList中；

S34、判断所述URL是否已被访问过，若是，则将其添加到VisitedList中并对其重复数量进行加一，随后流程结束，若否，则将其添加到VisitList中并对其重复数量进行加一，随后流程结束。

优选地，S4中所述完整的农药对象包括前序步骤中获取的全部农药商品信息。

优选地，S5具体包括：

S51、对系统数据库中的数据进行汇总统计，并针对各类数据进行归一化处理；

S52、根据S51中所得的归一化处理结果，以农药批准号为唯一标识，以推荐度为标注、降序依次展示所采集的农药信息。

优选地，S51具体包括：

S511、对农药价格进行归一化处理，处理公式如下，

其中，x为选定农药价格的归一化结果，v为农药每毫升单价，v_min是所有采集的农药中每毫升单价最小值，v_max为所采集农药中每毫升单价最大值；

S512、对好评率进行归一化处理，处理公式如下，

其中，l为选定农药的好评率归一化结果，s为选定农药的好评率，其为所有电商平台上同一农药的所有好评数量与销量的比值，s_min为所有农药中好评率的最小值，s_max为所有农药中好评率的最大值；

S513、计算农药加权推荐度，计算公式如下，

d＝n*x+(1-n)*l，

其中，n为提前设置好的在推荐度中农药价格的权重。

与现有技术相比，本发明的优点主要体现在以下几个方面：

本发明所提出的一种面向电商平台的农药信息采集方法，使用爬虫技术对指定的电商平台内的农药信息进行采集，通过对农药商品的价格和好评数量的归一化处理为判断农药产品的性价比提供了依据，方便了农民朋友的线上农药交易操作，满足了农民朋友买真药、买好药的需求。

同时，本发明还提出了一种能够显著提高数据爬取效率的URL过滤方法，最大限度上缩短了方法整体的处理时间，提高了方法整体的处理效率。

此外，本发明也为同领域内的其他相关问题提供了参考，可以以此为依据进行拓展延伸，运用于计算机数据挖掘及信息处理领域内的其他相关技术方案中，具有十分广阔的应用前景。

以下便结合实施例附图，对本发明的具体实施方式作进一步的详述，以使本发明技术方案更易于理解、掌握。

附图说明

图1为本发明的方法流程示意图；

图2为本发明中二次过滤的方法流程示意图。

具体实施方式

本发明针对目前电商市场上仍然充斥着大量假冒、劣质的农药的现状，提出了一种基于爬虫的农药信息采集方法。具体如下。

如图1所示，本发明揭示了一种面向电商平台的农药信息采集方法，包括如下步骤：

S1、从电商平台的页面中获取农药商品页面的URL作为爬虫条目URL队列，启动爬虫程序。

S2、对爬虫程序所爬取的数据进行解析，然后使用爬虫调度程序中的URL过滤算法对农药商品页面的URL进行初步过滤，将过滤后的农药商品页面的URL存储在URL队列中。

所述爬虫程序所爬取的数据包括农药品名、厂家、批准证号、单价、销量以及好评数量等。

所述使用爬虫调度程序中的URL过滤算法对农药商品页面的URL进行初步过滤，具体包括：

初始化URL过滤器中的URL列表，所述URL过滤器中包含待访问的URL列表VisitList以及已访问的URL列表VisitedList。判断系统数据库总是否存在所需要爬取的农药商品页面的URL，若存在，则按重复次数对URL进行降序排序，以初始化VisitList，若不存在，则使用电商平台的索引页初始化VisitList。

S3、将经过解析后的数据临时存储在系统缓存中，随后对农药商品页面的URL进行二次过滤。

如图2所示，所述对农药商品页面的URL进行二次过滤，具体包括如下步骤：

S31、对于经过S2中初步过滤后的农药商品页面的URL，在VisitList中查找所述URL是否存在；若存在，则标记相关URL并对其重复数量进行加一，随后流程结束，若不存在，则按序进入下一流程。

S32、在VisitedList中查找所述URL是否存在，若存在，则标记相关URL并对其重复数量进行加一，随后流程结束；若不存在，则按序进入下一流程。

S33、在数据库中查找所述URL是否存在，若存在，则按序进入下一流程；若不存在，则将所述URL视为一个新的URL，并将其添加到VisitList中。

S34、判断所述URL是否已被访问过，若是，则将其添加到VisitedList中并对其重复数量进行加一，随后流程结束；若否，则将其添加到VisitList中并对其重复数量进行加一，随后流程结束。

S4、以批准证号为唯一标志，将前序步骤中获取的全部农药商品信息进行整合、归纳到一个完整的农药对象中，并将其存储在系统数据库中。此处所述完整的农药对象包括前序步骤中获取的全部农药商品信息。

S5、对系统数据库中的数据进行展示，具体包括：

S51、对系统数据库中的数据进行汇总统计，并针对各类数据进行归一化处理。

上述S51具体包括：

S511、对农药价格进行归一化处理，处理公式如下，

其中，x为选定农药价格的归一化结果，v为农药每毫升单价，v_min是所有采集的农药中每毫升单价最小值，v_max为所采集农药中每毫升单价最大值。

S512、对好评率进行归一化处理，处理公式如下，

其中，l为选定农药的好评率归一化结果，s为选定农药的好评率，其为所有电商平台上同一农药的所有好评数量与销量的比值，s_min为所有农药中好评率的最小值，s_max为所有农药中好评率的最大值。

S513、计算农药加权推荐度，计算公式如下，

d＝n*x+(1-n)*l，

其中，n为提前设置好的在推荐度中农药价格的权重。

针对本发明的方法，本发明还提出了一种基于本方法步骤运行的系统。本系统包含两个模块：爬虫模块、数据展示模块。

在爬虫模块具体包括下载器、页面处理器、爬虫调度程序、存储通道以及配置中心。

其中，下载器用于下载URL队列中待下载的页面。页面处理器用于解析下载的电商页面从中提取农药价格以及好评数量并查找新的链接。爬虫调度程序负责管理已下载的URL地址以及页面处理器查找到的新链接。存储通道用于已爬数据的存储和处理。配置中心存储了上述四个模块的配置参数。其中，爬虫调度程序中使用URL过滤算法对需要放入下载器的URL进行过滤。具体的过滤过程即如上所述。

而所述数据展示模块的功能则如上所述，数据展示模块内的数据归一化处理过程可以根据使用者的实际操作需要而进行适当调整，在此不做赘述。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神和基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种面向电商平台的农药信息采集方法，其特征在于，包括如下步骤：

所述初步过滤具体包括：

判断系统数据库总是否存在所需要爬取的农药商品页面的URL，若存在，则按重复次数对URL进行降序排序，以初始化VisitList，若不存在，则使用电商平台的索引页初始化VisitList；

所述二次过滤具体包括：

S34、判断所述URL是否已被访问过，若是，则将其添加到VisitedList中并对其重复数量进行加一，随后流程结束，若否，则将其添加到VisitList中并对其重复数量进行加一，随后流程结束；

S5、对系统数据库中的数据进行展示。

2.根据权利要求1所述的面向电商平台的农药信息采集方法，其特征在于，S2中所述爬虫程序所爬取的数据包括：农药品名、厂家、批准证号、单价、销量以及好评数量。

3.根据权利要求1所述的面向电商平台的农药信息采集方法，其特征在于：S4中所述完整的农药对象包括前序步骤中获取的全部农药商品信息。

4.根据权利要求1所述的面向电商平台的农药信息采集方法，其特征在于，S5具体包括：

5.根据权利要求4所述的面向电商平台的农药信息采集方法，其特征在于，S51具体包括：

S511、对农药价格进行归一化处理，处理公式如下，

S512、对好评率进行归一化处理，处理公式如下，

S513、计算农药加权推荐度，计算公式如下，

d＝n*x+(1-n)*l，

其中，n为提前设置好的在推荐度中农药价格的权重。