CN109658164B - 一种计算从网页爬取的餐饮外卖店铺数据销售额的方法 - Google Patents

一种计算从网页爬取的餐饮外卖店铺数据销售额的方法 Download PDF

Info

Publication number
CN109658164B
CN109658164B CN201910129664.0A CN201910129664A CN109658164B CN 109658164 B CN109658164 B CN 109658164B CN 201910129664 A CN201910129664 A CN 201910129664A CN 109658164 B CN109658164 B CN 109658164B
Authority
CN
China
Prior art keywords
data
commodity
shop
store
sales
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910129664.0A
Other languages
English (en)
Other versions
CN109658164A (zh
Inventor
赵阳光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Original Assignee
Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chaozhou Zhuoshu Big Data Industry Development Co Ltd filed Critical Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority to CN201910129664.0A priority Critical patent/CN109658164B/zh
Publication of CN109658164A publication Critical patent/CN109658164A/zh
Application granted granted Critical
Publication of CN109658164B publication Critical patent/CN109658164B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种计算从网页爬取的餐饮外卖店铺数据销售额的方法,涉及数据爬取及统计分析技术领域;采用采集数据中店铺配送费的众数作为店铺配送费,相较于采用配送费平均值、最小值计算店铺销售额,采用配送费众数是有优势:采用配送费平均值计算,由于在距离较远的商圈也会采集到某一店铺的信息,其配送费非常高,销售量非常小,但是会对该店铺的配送费平均值有很大的影响,因此配送费平均值计算,店铺销售额会偏大;采用配送费最小值计算,由于在相邻的商圈范围内也会有较大的销售量,因此基于配送费最小值计算,店铺销售额会偏小。而采用配送费众数计算,得出店铺销售额介于两者之间,既保持了数据统计的可操作性又提高了准确性。

Description

一种计算从网页爬取的餐饮外卖店铺数据销售额的方法
技术领域
本发明公开一种计算从网页爬取的餐饮外卖店铺数据销售额的方法,涉及数据爬取及统计分析技术领域。
背景技术
随着生活习惯和技术的进步,餐饮外卖市场近些年得到了迅速的发展,因此对于餐饮外卖行业的分析就显得十分重要,而其中销售数据的统计是其中的关键,但餐饮外卖数据有其统计上的难点,本发明提供一种计算从网页爬取的餐饮外卖店铺数据销售额的方法,采用了店铺配送费众数作为商品配送费来统计店铺销售额,既保持了数据统计的可操作性又提高了准确性。
数据爬取采用网络爬虫技术,它是一个自动提取网页的程序,为搜索引擎从万维网上下载网页,传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列,然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
发明内容
本发明针对现有技术的问题,提供一种计算从网页爬取的餐饮外卖店铺数据销售额的方法,使获得的外卖店铺数据销售额更加准确,以便进一步分析外卖店铺的整体数据,为改进服务提供帮助。
本发明提出的具体方案是:
一种计算从网页爬取的餐饮外卖店铺数据销售额的方法,采集店铺数据及商品数据信息,处理采集的店铺数据及商品数据,分别给商品数据和店铺数据附上标签,汇总出标签齐全的数据内容,
处理商品数据标签,计算出餐饮外卖商品的商品价格和商品销售量,并对商品数据基于商品ID进行去重;
处理店铺数据标签,将采集的店铺数据中店铺配送费的众数作为店铺配送费,对店铺数据基于店铺ID进行去重;
基于店铺ID,将店铺数据与商品数据进行关联,商品配送费等于店铺配送费;
利用商品价格、商品配送费及商品销售量计算商品销售额;
基于店铺ID,利用店铺内商品销售额计算店铺销售额。
所述的方法中店铺数据包括店铺ID数据、店铺名称数据、店铺地址数据及店铺配送费数据。
所述的方法中商品数据包括所在店铺ID数据、商品ID数据、商品名称数据、商品价格数据、商品折扣价格数据及商品销售量数据。
所述的方法中去掉采集的店铺数据及商品数据中的无效及空值数据,并对其中的异常数据进行处理。
所述的方法中处理商品数据标签时,计算出餐饮外卖商品的商品折扣价格作为商品价格,商品销售量是指同一段时间内的商品销售量。
所述的方法中利用公式商品价格与商品配送费之和乘以商品销售量,计算得到商品销售额。
所述的方法中利用公式店铺内商品销售额的和,计算得到店铺销售额。
所述的方法中具体步骤为:
步骤1:采集店铺数据及商品数据信息,以外卖平台上划定的商圈为采集入口,采集商圈内的店铺数据以及店铺内的商品数据信息;
步骤2:处理采集的店铺数据及商品数据,去掉采集数据中的无效、空值数据,并对其中的异常数据进行处理,分别给处理后商品数据和店铺数据附上标签,汇总出标签齐全的数据内容;
步骤3:处理商品数据标签,使用采集的商品数据标签中的商品折扣价格计算出餐饮外卖商品的商品价格,餐饮外卖平台的累计一定天数的销售量作为商品销售量,并对商品数据基于商品ID进行去重;
步骤4:处理店铺数据标签,将采集店铺数据中店铺配送费的众数作为店铺配送费,对店铺数据基于店铺ID进行去重;
步骤5:确定商品配送费,基于店铺ID标签,将店铺数据与商品数据进行关联,商品配送费等于店铺配送费;
步骤6:计算商品销售额,公式为商品销售额=(商品价格+商品配送费)*商品销售量;
步骤7:计算店铺销售额,公式为店铺销售额=∑店内商品销售额。
本发明的有益之处是:
本发明提供一种计算从网页爬取的餐饮外卖店铺数据销售额的方法,采用采集数据中店铺配送费的众数作为店铺配送费,相较于采用配送费平均值、最小值计算店铺销售额,采用配送费众数是有优势的,原因是:1)采用配送费平均值计算,由于在距离较远的商圈也会采集到某一店铺的信息,其配送费非常高,销售量非常小,但是会对该店铺的配送费平均值有很大的影响,因此配送费平均值计算,店铺销售额会偏大;2)采用配送费最小值计算,由于在相邻的商圈范围内也会有较大的销售量,因此基于配送费最小值计算,店铺销售额会偏小。而采用配送费众数计算,得出店铺销售额介于两者之间,既保持了数据统计的可操作性又提高了准确性。
附图说明
图1是本发明方流程示意图。
具体实施方式
本发明提供一种计算从网页爬取的餐饮外卖店铺数据销售额的方法,采集店铺数据及商品数据信息,处理采集的店铺数据及商品数据,分别给商品数据和店铺数据附上标签,汇总出标签齐全的数据内容,
处理商品数据标签,计算出餐饮外卖商品的商品价格和商品销售量,并对商品数据基于商品ID进行去重;
处理店铺数据标签,将采集的店铺数据中店铺配送费的众数作为店铺配送费,对店铺数据基于店铺ID进行去重;
基于店铺ID,将店铺数据与商品数据进行关联,商品配送费等于店铺配送费;
利用商品价格、商品配送费及商品销售量计算商品销售额;
基于店铺ID,利用店铺内商品销售额计算店铺销售额。
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
利用本发明方法对某一外卖平台的商圈外卖店铺进行销售额的计算,具体的步骤为:
步骤1:采集店铺数据及商品数据信息,以外卖平台上划定的商圈为采集入口,进入商圈后,采集商圈内的店铺以及店铺内的商品数据信息,采集平台上展列的所有信息,
可采集到的有效信息包括店铺数据信息和商品数据信息,店铺数据信息包括店铺ID、店铺名称、店铺地址、店铺配送费等,
商品数据信息包括所在店铺ID、商品ID、商品名称、商品价格、商品折扣价格、商品销售量等;
步骤2:处理采集的店铺数据及商品数据,去掉采集数据中的无效、空值数据等,并对其中的异常数据进行处理,分别给处理后商品数据和店铺数据附上标签,汇总出标签齐全的数据内容;
步骤3:处理商品数据标签,计算出餐饮外卖商品的商品价格,本方法使用采集的商品数据标签中的商品折扣价格,
计算商品销售量,比如餐饮外卖平台的商品销售量为近30天累计销售量,对商品数据基于商品ID进行去重;
步骤4:处理店铺数据标签,以不同商圈为入口采集数据会发生同一家店铺被重复采集的情况,采集到的店铺配送费不唯一,采集店铺数据中店铺配送费的众数作为店铺配送费,确定好店铺配送费后,对店铺数据基于店铺ID进行去重;
步骤5:确定商品配送费,基于店铺ID标签,将店铺数据与商品数据进行关联,商品配送费等于店铺配送费;
步骤6:计算商品销售额,商品销售额=(商品价格+商品配送费)*商品销售量;
步骤7:计算店铺销售额,店铺销售额=∑店内商品销售额。
本发明使用了众数理论,众数是样本观测值在频数分布表中频数最多的那一组的组中值,是在一组数据中,出现次数最多的数据,是一组数据中的原数据,而不是相应的次数。如数据2、-1、2、1、3中,2出现了两次,是这组数据中的众数。而采用配送费众数计算,得出店铺销售额介于配送费平均值和配送费最小值的两者之间,既保持了数据统计的可操作性又提高了准确性。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (3)

1.一种计算从网页爬取的餐饮外卖店铺数据销售额的方法,其特征是:
所述方法的具体步骤为:
步骤1:采集店铺数据及商品数据信息,以外卖平台上划定的商圈为采集入口,采集商圈内的店铺数据以及店铺内的商品数据信息;
步骤2:处理采集的店铺数据及商品数据,去掉采集数据中的无效、空值数据,并对其中的异常数据进行处理,分别给处理后商品数据和店铺数据附上标签,汇总出标签齐全的数据内容;
步骤3:处理商品数据标签,使用采集的商品数据标签中的商品折扣价格计算出餐饮外卖商品的商品价格,餐饮外卖平台的累计30天数的销售量作为商品销售量,并对商品数据基于商品ID进行去重;
步骤4:处理店铺数据标签,将采集店铺数据中店铺配送费的众数作为店铺配送费,对店铺数据基于店铺ID进行去重;
步骤5:确定商品配送费,基于店铺ID标签,将店铺数据与商品数据进行关联,商品配送费等于店铺配送费;
步骤6:计算商品销售额,公式为商品销售额=(商品价格+商品配送费)*商品销售量;
步骤7:计算店铺销售额,公式为店铺销售额=∑店内商品销售额。
2.根据权利要求1所述的方法,其特征是:店铺数据包括店铺ID数据、店铺名称数据、店铺地址数据及店铺配送费数据。
3.根据权利要求1或2所述的方法,其特征是:商品数据包括所在店铺ID数据、商品ID数据、商品名称数据、商品价格数据、商品折扣价格数据及商品销售量数据。
CN201910129664.0A 2019-02-21 2019-02-21 一种计算从网页爬取的餐饮外卖店铺数据销售额的方法 Active CN109658164B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910129664.0A CN109658164B (zh) 2019-02-21 2019-02-21 一种计算从网页爬取的餐饮外卖店铺数据销售额的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910129664.0A CN109658164B (zh) 2019-02-21 2019-02-21 一种计算从网页爬取的餐饮外卖店铺数据销售额的方法

Publications (2)

Publication Number Publication Date
CN109658164A CN109658164A (zh) 2019-04-19
CN109658164B true CN109658164B (zh) 2023-02-03

Family

ID=66123616

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910129664.0A Active CN109658164B (zh) 2019-02-21 2019-02-21 一种计算从网页爬取的餐饮外卖店铺数据销售额的方法

Country Status (1)

Country Link
CN (1) CN109658164B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110009433A (zh) * 2019-04-26 2019-07-12 阿里巴巴集团控股有限公司 评估产品价格的方法及装置
CN111311439A (zh) * 2019-07-10 2020-06-19 浙江商安信息科技有限公司 基于网络订餐平台筛选订餐商铺的方法、系统及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101107624A (zh) * 2005-01-21 2008-01-16 株式会社资生堂 化妆品销售中的信息管理系统
CN105788109A (zh) * 2015-01-09 2016-07-20 精工爱普生株式会社 控制装置、控制装置的控制方法以及控制系统
CN106528611A (zh) * 2016-09-28 2017-03-22 西南交通大学 一种基于互联网点评数据的分析方法
CN108932648A (zh) * 2017-07-24 2018-12-04 上海宏原信息科技有限公司 一种预测商品属性数据及训练其模型的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101107624A (zh) * 2005-01-21 2008-01-16 株式会社资生堂 化妆品销售中的信息管理系统
CN105788109A (zh) * 2015-01-09 2016-07-20 精工爱普生株式会社 控制装置、控制装置的控制方法以及控制系统
CN106528611A (zh) * 2016-09-28 2017-03-22 西南交通大学 一种基于互联网点评数据的分析方法
CN108932648A (zh) * 2017-07-24 2018-12-04 上海宏原信息科技有限公司 一种预测商品属性数据及训练其模型的方法和装置

Also Published As

Publication number Publication date
CN109658164A (zh) 2019-04-19

Similar Documents

Publication Publication Date Title
US9767166B2 (en) System and method for predicting user behaviors based on phrase connections
Cheng et al. Personalized click prediction in sponsored search
JP5542812B2 (ja) クエリ識別および関連付け
CN105447186B (zh) 一种基于大数据平台的用户行为分析系统
CN108805598B (zh) 相似度信息确定方法、服务器及计算机可读存储介质
CN103226618B (zh) 基于数据集市挖掘的相关词提取方法及系统
CN105069654A (zh) 一种基于用户识别的网站实时/非实时营销投放方法及系统
WO2005084234A3 (en) Method of and system for obtaining data from multiple sources and raking documents based on meta data obtained through collaborative filtering and other matching techniques
CN110570233A (zh) 用于电商平台的用户回购时间预测方法及装置
CN105095223A (zh) 文本分类方法及服务器
CN108417274A (zh) 流行病预测方法、系统及设备
CN102841946A (zh) 商品数据检索排序及商品推荐方法和系统
CN109658164B (zh) 一种计算从网页爬取的餐饮外卖店铺数据销售额的方法
CN108932291B (zh) 电网舆情评价方法、存储介质及计算机
CN104718547A (zh) 顾客数据解析系统
CN102682046A (zh) 社交网络的节点搜索和分析方法及搜索系统
CN103646078A (zh) 一种实现互联网宣传监测目标评估的方法及装置
CN111861507A (zh) 一种用于实时分析网络餐饮店铺风险的识别方法及系统
Gopal et al. Machine learning based classification of online news data for disaster management
Li et al. Multi-classes feature engineering with sliding window for purchase prediction in mobile commerce
CN104036008A (zh) 关键词竞争分析方法及装置
CN104133913B (zh) 一种基于视频分析与搜索聚合的城市商铺信息库自动构建系统及方法
CN103646342A (zh) 一种搜索引擎消费数据和回报数据的拼接方法和平台
CN101807183A (zh) 关键词汇实时扩展方法、系统及其计算机可擦写记录媒体
JP2012008900A (ja) 関連語句抽出方法、関連語句抽出装置及び関連語句抽出プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20190709

Address after: 214029 No. 999 Gaolang East Road, Binhu District, Wuxi City, Jiangsu Province (Software Development Building) 707

Applicant after: Chaozhou Zhuoshu Big Data Industry Development Co.,Ltd.

Address before: 250100 S06 tower, 1036, Chao Lu Road, hi tech Zone, Ji'nan, Shandong.

Applicant before: SHANDONG INSPUR CLOUD INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant