CN110175277B - 面向电商平台的农药信息采集方法 - Google Patents

面向电商平台的农药信息采集方法 Download PDF

Info

Publication number
CN110175277B
CN110175277B CN201910374714.1A CN201910374714A CN110175277B CN 110175277 B CN110175277 B CN 110175277B CN 201910374714 A CN201910374714 A CN 201910374714A CN 110175277 B CN110175277 B CN 110175277B
Authority
CN
China
Prior art keywords
pesticide
url
commerce platform
crawler
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910374714.1A
Other languages
English (en)
Other versions
CN110175277A (zh
Inventor
蔡地
孙知信
宫婧
赵学健
孙哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nupt Institute Of Big Data Research At Yancheng
Nanjing University of Posts and Telecommunications
Original Assignee
Nupt Institute Of Big Data Research At Yancheng
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nupt Institute Of Big Data Research At Yancheng, Nanjing University of Posts and Telecommunications filed Critical Nupt Institute Of Big Data Research At Yancheng
Priority to CN201910374714.1A priority Critical patent/CN110175277B/zh
Publication of CN110175277A publication Critical patent/CN110175277A/zh
Application granted granted Critical
Publication of CN110175277B publication Critical patent/CN110175277B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明揭示了一种面向电商平台的农药信息采集方法,包括如下步骤:S1、从电商平台的页面中获取农药商品页面的URL作为爬虫条目URL队列,启动爬虫程序;S2、对所爬取的数据进行解析,然后使用URL过滤算法对URL进行初步过滤,将过滤后的URL存储在URL队列中;S3、将经过解析后的数据临时存储在系统缓存中,随后对URL进行二次过滤;S4、将前序步骤中获取的全部农药商品信息进行整合、归纳到一个完整的农药对象中,并将其存储在系统数据库中;S5、对系统数据库中的数据进行展示。本发明使用爬虫技术对指定的电商平台内的农药信息进行采集,通过归一化处理为判断农药产品的性价比提供了依据,方便了农民朋友的线上农药交易操作。

Description

面向电商平台的农药信息采集方法
技术领域
本发明涉及一种信息采集方法,具体涉及一种运用爬虫技术实现的面向电商平台的农药信息采集方法,属于计算机数据挖掘以及信息处理技术领域。
背景技术
随着互联网技术的迅猛发展和广泛普及,利用互联网调研来获取农业大数据也逐渐成为大势所趋。农药作为农业生产过程中不可缺少的要素,在农业生产中发挥着重要的作用。在电商平台上购买农药无疑会更加方便实惠、并且选择更多,同时,农民朋友也有通过网络了解一些使用效果好、价格实惠的农药的实际需求。但是目前,电商市场上仍然充斥着大量假冒、劣质的农药,由于农药的特殊性和重要性,一旦选用了这些劣质农药,将会给给农民用户带来不可挽回的巨大损失。也正是由于这一原因,目前关于农药的线上贸易进程发展缓慢。因此,如何满足农民朋友在线上对买真药、买好药的需要是全社会都需要正视的一个问题。
Web Magic是一种简单而灵活的Java爬虫框架。它具有简单的API(ApplicationProgramming Interface,应用程序编程接口),学习成本低。同时,它还具备模块化的功能结构,可以轻松扩展。Web Magic可提供多线程和分布式支持,基于这一框架,技术人员能够快速开发出高效且可维护的爬虫。
也正是由于上述技术条件,如何在现有技术的基础上提出一种运用爬虫技术实现的面向电商平台的农药信息采集方法,为农民朋友的线上农药交易提供便利,满足农民朋友买真药、买好药的需求,也就成为了本领域内技术人员共同的研究目标。
发明内容
鉴于现有技术存在上述缺陷,本发明的目的是提出一种面向电商平台的农药信息采集方法,包括如下步骤:
S1、从电商平台的页面中获取农药商品页面的URL作为爬虫条目URL队列,启动爬虫程序;
S2、对爬虫程序所爬取的数据进行解析,然后使用爬虫调度程序中的URL过滤算法对农药商品页面的URL进行初步过滤,将过滤后的农药商品页面的URL存储在URL队列中;
S3、将经过解析后的数据临时存储在系统缓存中,随后对农药商品页面的URL进行二次过滤;
S4、以批准证号为唯一标志,将前序步骤中获取的全部农药商品信息进行整合、归纳到一个完整的农药对象中,并将其存储在系统数据库中;
S5、对系统数据库中的数据进行展示。
优选地,S2中所述爬虫程序所爬取的数据包括:农药品名、厂家、批准证号、单价、销量以及好评数量。
优选地,S2中所述使用爬虫调度程序中的URL过滤算法对农药商品页面的URL进行初步过滤,具体包括:
初始化URL过滤器中的URL列表,所述URL过滤器中包含待访问的URL列表VisitList以及已访问的URL列表VisitedList;
判断系统数据库总是否存在所需要爬取的农药商品页面的URL,若存在,则按重复次数对URL进行降序排序,以初始化VisitList,若不存在,则使用电商平台的索引页初始化VisitList。
优选地,S3中所述对农药商品页面的URL进行二次过滤,具体包括:
S31、对于经过S2中初步过滤后的农药商品页面的URL,在VisitList中查找所述URL是否存在,若存在,则标记相关URL并对其重复数量进行加一,随后流程结束,若不存在,则按序进入下一流程;
S32、在VisitedList中查找所述URL是否存在,若存在,则标记相关URL并对其重复数量进行加一,随后流程结束,若不存在,则按序进入下一流程;
S33、在数据库中查找所述URL是否存在,若存在,则按序进入下一流程,若不存在,则将所述URL视为一个新的URL,并将其添加到VisitList中;
S34、判断所述URL是否已被访问过,若是,则将其添加到VisitedList中并对其重复数量进行加一,随后流程结束,若否,则将其添加到VisitList中并对其重复数量进行加一,随后流程结束。
优选地,S4中所述完整的农药对象包括前序步骤中获取的全部农药商品信息。
优选地,S5具体包括:
S51、对系统数据库中的数据进行汇总统计,并针对各类数据进行归一化处理;
S52、根据S51中所得的归一化处理结果,以农药批准号为唯一标识,以推荐度为标注、降序依次展示所采集的农药信息。
优选地,S51具体包括:
S511、对农药价格进行归一化处理,处理公式如下,
Figure BDA0002051245580000041
其中,x为选定农药价格的归一化结果,v为农药每毫升单价,vmin是所有采集的农药中每毫升单价最小值,vmax为所采集农药中每毫升单价最大值;
S512、对好评率进行归一化处理,处理公式如下,
Figure BDA0002051245580000042
其中,l为选定农药的好评率归一化结果,s为选定农药的好评率,其为所有电商平台上同一农药的所有好评数量与销量的比值,smin为所有农药中好评率的最小值,smax为所有农药中好评率的最大值;
S513、计算农药加权推荐度,计算公式如下,
d=n*x+(1-n)*l,
其中,n为提前设置好的在推荐度中农药价格的权重。
与现有技术相比,本发明的优点主要体现在以下几个方面:
本发明所提出的一种面向电商平台的农药信息采集方法,使用爬虫技术对指定的电商平台内的农药信息进行采集,通过对农药商品的价格和好评数量的归一化处理为判断农药产品的性价比提供了依据,方便了农民朋友的线上农药交易操作,满足了农民朋友买真药、买好药的需求。
同时,本发明还提出了一种能够显著提高数据爬取效率的URL过滤方法,最大限度上缩短了方法整体的处理时间,提高了方法整体的处理效率。
此外,本发明也为同领域内的其他相关问题提供了参考,可以以此为依据进行拓展延伸,运用于计算机数据挖掘及信息处理领域内的其他相关技术方案中,具有十分广阔的应用前景。
以下便结合实施例附图,对本发明的具体实施方式作进一步的详述,以使本发明技术方案更易于理解、掌握。
附图说明
图1为本发明的方法流程示意图;
图2为本发明中二次过滤的方法流程示意图。
具体实施方式
本发明针对目前电商市场上仍然充斥着大量假冒、劣质的农药的现状,提出了一种基于爬虫的农药信息采集方法。具体如下。
如图1所示,本发明揭示了一种面向电商平台的农药信息采集方法,包括如下步骤:
S1、从电商平台的页面中获取农药商品页面的URL作为爬虫条目URL队列,启动爬虫程序。
S2、对爬虫程序所爬取的数据进行解析,然后使用爬虫调度程序中的URL过滤算法对农药商品页面的URL进行初步过滤,将过滤后的农药商品页面的URL存储在URL队列中。
所述爬虫程序所爬取的数据包括农药品名、厂家、批准证号、单价、销量以及好评数量等。
所述使用爬虫调度程序中的URL过滤算法对农药商品页面的URL进行初步过滤,具体包括:
初始化URL过滤器中的URL列表,所述URL过滤器中包含待访问的URL列表VisitList以及已访问的URL列表VisitedList。判断系统数据库总是否存在所需要爬取的农药商品页面的URL,若存在,则按重复次数对URL进行降序排序,以初始化VisitList,若不存在,则使用电商平台的索引页初始化VisitList。
S3、将经过解析后的数据临时存储在系统缓存中,随后对农药商品页面的URL进行二次过滤。
如图2所示,所述对农药商品页面的URL进行二次过滤,具体包括如下步骤:
S31、对于经过S2中初步过滤后的农药商品页面的URL,在VisitList中查找所述URL是否存在;若存在,则标记相关URL并对其重复数量进行加一,随后流程结束,若不存在,则按序进入下一流程。
S32、在VisitedList中查找所述URL是否存在,若存在,则标记相关URL并对其重复数量进行加一,随后流程结束;若不存在,则按序进入下一流程。
S33、在数据库中查找所述URL是否存在,若存在,则按序进入下一流程;若不存在,则将所述URL视为一个新的URL,并将其添加到VisitList中。
S34、判断所述URL是否已被访问过,若是,则将其添加到VisitedList中并对其重复数量进行加一,随后流程结束;若否,则将其添加到VisitList中并对其重复数量进行加一,随后流程结束。
S4、以批准证号为唯一标志,将前序步骤中获取的全部农药商品信息进行整合、归纳到一个完整的农药对象中,并将其存储在系统数据库中。此处所述完整的农药对象包括前序步骤中获取的全部农药商品信息。
S5、对系统数据库中的数据进行展示,具体包括:
S51、对系统数据库中的数据进行汇总统计,并针对各类数据进行归一化处理。
S52、根据S51中所得的归一化处理结果,以农药批准号为唯一标识,以推荐度为标注、降序依次展示所采集的农药信息。
上述S51具体包括:
S511、对农药价格进行归一化处理,处理公式如下,
Figure BDA0002051245580000071
其中,x为选定农药价格的归一化结果,v为农药每毫升单价,vmin是所有采集的农药中每毫升单价最小值,vmax为所采集农药中每毫升单价最大值。
S512、对好评率进行归一化处理,处理公式如下,
Figure BDA0002051245580000081
其中,l为选定农药的好评率归一化结果,s为选定农药的好评率,其为所有电商平台上同一农药的所有好评数量与销量的比值,smin为所有农药中好评率的最小值,smax为所有农药中好评率的最大值。
S513、计算农药加权推荐度,计算公式如下,
d=n*x+(1-n)*l,
其中,n为提前设置好的在推荐度中农药价格的权重。
针对本发明的方法,本发明还提出了一种基于本方法步骤运行的系统。本系统包含两个模块:爬虫模块、数据展示模块。
在爬虫模块具体包括下载器、页面处理器、爬虫调度程序、存储通道以及配置中心。
其中,下载器用于下载URL队列中待下载的页面。页面处理器用于解析下载的电商页面从中提取农药价格以及好评数量并查找新的链接。爬虫调度程序负责管理已下载的URL地址以及页面处理器查找到的新链接。存储通道用于已爬数据的存储和处理。配置中心存储了上述四个模块的配置参数。其中,爬虫调度程序中使用URL过滤算法对需要放入下载器的URL进行过滤。具体的过滤过程即如上所述。
而所述数据展示模块的功能则如上所述,数据展示模块内的数据归一化处理过程可以根据使用者的实际操作需要而进行适当调整,在此不做赘述。
本发明所提出的一种面向电商平台的农药信息采集方法,使用爬虫技术对指定的电商平台内的农药信息进行采集,通过对农药商品的价格和好评数量的归一化处理为判断农药产品的性价比提供了依据,方便了农民朋友的线上农药交易操作,满足了农民朋友买真药、买好药的需求。
同时,本发明还提出了一种能够显著提高数据爬取效率的URL过滤方法,最大限度上缩短了方法整体的处理时间,提高了方法整体的处理效率。
此外,本发明也为同领域内的其他相关问题提供了参考,可以以此为依据进行拓展延伸,运用于计算机数据挖掘及信息处理领域内的其他相关技术方案中,具有十分广阔的应用前景。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神和基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (5)

1.一种面向电商平台的农药信息采集方法,其特征在于,包括如下步骤:
S1、从电商平台的页面中获取农药商品页面的URL作为爬虫条目URL队列,启动爬虫程序;
S2、对爬虫程序所爬取的数据进行解析,然后使用爬虫调度程序中的URL过滤算法对农药商品页面的URL进行初步过滤,将过滤后的农药商品页面的URL存储在URL队列中;
所述初步过滤具体包括:
初始化URL过滤器中的URL列表,所述URL过滤器中包含待访问的URL列表VisitList以及已访问的URL列表VisitedList;
判断系统数据库总是否存在所需要爬取的农药商品页面的URL,若存在,则按重复次数对URL进行降序排序,以初始化VisitList,若不存在,则使用电商平台的索引页初始化VisitList;
S3、将经过解析后的数据临时存储在系统缓存中,随后对农药商品页面的URL进行二次过滤;
所述二次过滤具体包括:
S31、对于经过S2中初步过滤后的农药商品页面的URL,在VisitList中查找所述URL是否存在,若存在,则标记相关URL并对其重复数量进行加一,随后流程结束,若不存在,则按序进入下一流程;
S32、在VisitedList中查找所述URL是否存在,若存在,则标记相关URL并对其重复数量进行加一,随后流程结束,若不存在,则按序进入下一流程;
S33、在数据库中查找所述URL是否存在,若存在,则按序进入下一流程,若不存在,则将所述URL视为一个新的URL,并将其添加到VisitList中;
S34、判断所述URL是否已被访问过,若是,则将其添加到VisitedList中并对其重复数量进行加一,随后流程结束,若否,则将其添加到VisitList中并对其重复数量进行加一,随后流程结束;
S4、以批准证号为唯一标志,将前序步骤中获取的全部农药商品信息进行整合、归纳到一个完整的农药对象中,并将其存储在系统数据库中;
S5、对系统数据库中的数据进行展示。
2.根据权利要求1所述的面向电商平台的农药信息采集方法,其特征在于,S2中所述爬虫程序所爬取的数据包括:农药品名、厂家、批准证号、单价、销量以及好评数量。
3.根据权利要求1所述的面向电商平台的农药信息采集方法,其特征在于:S4中所述完整的农药对象包括前序步骤中获取的全部农药商品信息。
4.根据权利要求1所述的面向电商平台的农药信息采集方法,其特征在于,S5具体包括:
S51、对系统数据库中的数据进行汇总统计,并针对各类数据进行归一化处理;
S52、根据S51中所得的归一化处理结果,以农药批准号为唯一标识,以推荐度为标注、降序依次展示所采集的农药信息。
5.根据权利要求4所述的面向电商平台的农药信息采集方法,其特征在于,S51具体包括:
S511、对农药价格进行归一化处理,处理公式如下,
Figure FDA0004195776640000021
其中,x为选定农药价格的归一化结果,v为农药每毫升单价,vmin是所有采集的农药中每毫升单价最小值,vmax为所采集农药中每毫升单价最大值;
S512、对好评率进行归一化处理,处理公式如下,
Figure FDA0004195776640000031
其中,l为选定农药的好评率归一化结果,s为选定农药的好评率,其为所有电商平台上同一农药的所有好评数量与销量的比值,smin为所有农药中好评率的最小值,smax为所有农药中好评率的最大值;
S513、计算农药加权推荐度,计算公式如下,
d=n*x+(1-n)*l,
其中,n为提前设置好的在推荐度中农药价格的权重。
CN201910374714.1A 2019-05-07 2019-05-07 面向电商平台的农药信息采集方法 Active CN110175277B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910374714.1A CN110175277B (zh) 2019-05-07 2019-05-07 面向电商平台的农药信息采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910374714.1A CN110175277B (zh) 2019-05-07 2019-05-07 面向电商平台的农药信息采集方法

Publications (2)

Publication Number Publication Date
CN110175277A CN110175277A (zh) 2019-08-27
CN110175277B true CN110175277B (zh) 2023-07-07

Family

ID=67691301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910374714.1A Active CN110175277B (zh) 2019-05-07 2019-05-07 面向电商平台的农药信息采集方法

Country Status (1)

Country Link
CN (1) CN110175277B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112650903B (zh) * 2020-08-28 2024-03-29 武汉市可伴信息技术有限公司 基于多融合模式下的商品集采平台
CN112256802A (zh) * 2020-10-20 2021-01-22 威海上和软件科技有限公司 一种海洋微生物信息的自动采集方法和设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050037A (zh) * 2014-06-13 2014-09-17 淮阴工学院 一种基于指定电子商务网站的定向爬虫的实现方法
CN104978408A (zh) * 2015-08-05 2015-10-14 许昌学院 基于Berkeley DB数据库的主题爬虫系统
CN108415941A (zh) * 2018-01-29 2018-08-17 湖北省楚天云有限公司 一种网页爬虫方法、装置以及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050037A (zh) * 2014-06-13 2014-09-17 淮阴工学院 一种基于指定电子商务网站的定向爬虫的实现方法
CN104978408A (zh) * 2015-08-05 2015-10-14 许昌学院 基于Berkeley DB数据库的主题爬虫系统
CN108415941A (zh) * 2018-01-29 2018-08-17 湖北省楚天云有限公司 一种网页爬虫方法、装置以及电子设备

Also Published As

Publication number Publication date
CN110175277A (zh) 2019-08-27

Similar Documents

Publication Publication Date Title
US20130339350A1 (en) Ranking Search Results Based on Click Through Rates
US8880498B2 (en) System and method for aggregating and ranking data from a plurality of web sites
TWI772673B (zh) 行業識別模型確定方法和裝置
CN109829108B (zh) 信息推荐方法、装置、电子设备及可读存储介质
CN107730389A (zh) 电子装置、保险产品推荐方法及计算机可读存储介质
RU2012127417A (ru) Системы, устройства и способы использования контекстной информации
CN102314654B (zh) 一种信息推送方法及信息推送服务器
US20210035126A1 (en) Data processing method, system and computer device based on electronic payment behaviors
CN112035742A (zh) 用户画像生成方法、装置、设备及存储介质
US10025807B2 (en) Dynamic data acquisition method and system
CN103714084A (zh) 推荐信息的方法和装置
WO2005057359A2 (en) Transparent search engine
CN106295832A (zh) 产品信息推送方法及装置
CN110175277B (zh) 面向电商平台的农药信息采集方法
CN106445954B (zh) 一种业务对象的展示方法和装置
EP2729888A2 (en) A method of a web based product crawler for products offering
CN110033331A (zh) 一种优惠券的发放方法、系统及终端设备
CN110852785B (zh) 用户分级方法、装置及计算机可读存储介质
WO2015186253A1 (ja) 情報処理装置、情報処理方法、プログラム、記憶媒体
CN103425705B (zh) 一种否定关键词的获取方法及装置和搜索方法及装置
CN107346505A (zh) 信息推送方法和装置
US10013699B1 (en) Reverse associate website discovery
CN107622409A (zh) 购车能力的预测方法和预测装置
CN110009397A (zh) 一种精准营销的方法及装置
Wang et al. Package ‘WebGestaltR’

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant