CN111275294B - 一种商品信息批量处理分析方法、装置和设备 - Google Patents

一种商品信息批量处理分析方法、装置和设备 Download PDF

Info

Publication number
CN111275294B
CN111275294B CN202010023001.3A CN202010023001A CN111275294B CN 111275294 B CN111275294 B CN 111275294B CN 202010023001 A CN202010023001 A CN 202010023001A CN 111275294 B CN111275294 B CN 111275294B
Authority
CN
China
Prior art keywords
information
data
sku
commodity
spu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010023001.3A
Other languages
English (en)
Other versions
CN111275294A (zh
Inventor
张向丽
李知之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chuangyou Digital Technology Guangdong Co Ltd
Original Assignee
Chuangyou Digital Technology Guangdong Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chuangyou Digital Technology Guangdong Co Ltd filed Critical Chuangyou Digital Technology Guangdong Co Ltd
Priority to CN202010023001.3A priority Critical patent/CN111275294B/zh
Publication of CN111275294A publication Critical patent/CN111275294A/zh
Application granted granted Critical
Publication of CN111275294B publication Critical patent/CN111275294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Accounting & Taxation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • General Engineering & Computer Science (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种商品信息批量处理分析方法、装置和设备,基于爬虫爬取品类数据,利用预置数据维护规则和阈值品类清洗码表对获取到的预置商品数据进行维护和清洗,基于SPU下不同SKU数量类型的匹配规则,在保证数据丢失率在可控范围内,将数据处理对象落地到SKU量级,计算品类核心指标,并对目标商品数据进行清洗和优化输出,解决了现有的品类分析需要借助人工清洗、分拣及归类,及专业分析师的经验判断来输出对应的属性分析结果,不仅成本高,耗时长,且无法即时获取数据信息结果,数据的精确度不能满足研发策略对数据高契合度高精准度要求的技术问题。

Description

一种商品信息批量处理分析方法、装置和设备
技术领域
本申请涉及互联网商品信息处理技术领域,尤其涉及一种商品信息批量处理分析方法、装置和设备。
背景技术
随着互联网的快速发展,人们已经可以很便捷地通过计算机、智能手机和平板电脑等网络设备途径购买商品并对商品进行评价。关于商家的商品,通常通过SPU和SKU来进行描述,SPU(Standard Product Unit,标准化产品单元)是商品信息聚合的最小单位,是一组可复用、易检索的标准化信息的集合,该集合描述了一个产品的特性。SKU(Stockkeeping Unit,库存保有单位)是对每一个产品和服务的唯一标示符。不同品类的数据属性和指标维度会存在差异,目前涉及品类分析特别是非标品的分析更多需要借助人工清洗、分拣及归类,及专业分析师的经验判断来输出对应的属性分析结果,不仅成本高,耗时长,且无法即时获取数据信息结果,数据的精确度不能满足研发策略对数据高契合度高精准度要求。
发明内容
本申请提供了一种商品信息批量处理分析方法、装置和设备,用于解决现有的品类分析需要借助人工清洗、分拣及归类,及专业分析师的经验判断来输出对应的属性分析结果,不仅成本高,耗时长,且无法即时获取数据信息结果,数据的精确度不能满足研发策略对数据高契合度高精准度要求的技术问题。
有鉴于此,本申请第一方面提供了一种商品信息批量处理分析方法,包括:
通过网络爬虫爬取预置商品数据,所述预置商品数据包括预置商品的SPU信息和SKU评论信息;
根据预置数据维护规则和预置品类清洗码表对所述预置商品数据进行数据维护和第一数据清洗,得到目标商品数据;
提取所述目标商品数据中的SPU信息和SKU评论信息,将所述SPU信息与所述SKU评论信息进行匹配关联;
当品类内所有SKU总销量与SPU总销量的匹配率超过阈值时,根据所述SPU信息和所述SKU评论信息进行品类核心指标计算;
根据预置商品属性码表对所述目标商品数据进行第二数据清洗,所述预置商品属性码表包括所述SPU信息、SKU信息和所述品类核心指标;
将完成所述第二数据清洗后的目标商品数据按预置输出方式输出。
可选地,所述提取所述目标商品数据中的SPU信息和SKU评论信息,将所述SPU信息与所述SKU评论信息进行匹配关联,包括:
提取所述目标商品数据中的SPU信息和SKU评论信息;
根据所述SKU评论信息中的SKU名称将所述SKU评论信息与所述SPU信息进行匹配关联。
可选地,所述当品类内所有SKU总销量与SPU总销量的匹配率超过阈值时,根据所述SPU信息和所述SKU评论信息进行品类核心指标计算,之前还包括:
若所述SPU信息下的所述SKU评论信息的数量不超过预置数量,则品类SPU总销量等于SKU总销量;
若所述SPU信息下的所述SKU评论信息的数量超过所述预置数量,则计算所述品类内所有SKU总销量与SPU总销量的匹配率。
可选地,所述阈值为70%。
可选地,所述预置数据维护规则包括:
SPU更新频次为每周一次;
各品类销量排名前20的SPU评论保持每天更新一次,排名20后的SPU评论保持每周更新一次;
保留当前数据节点往前递推3个月内的SKU评论信息。
可选地,所述核心指标包括品类的规格价格和规格销售量;
所述规格价格=SKU价格/SKU规格值*单位数;
所述规格销售量=SKU销售量*SKU规格值。
本申请第二方面提供了一种商品信息批量处理分析装置,包括:
数据获取模块,用于通过网络爬虫爬取预置商品数据,所述预置商品数据包括预置商品的SPU信息和SKU评论信息;
第一数据清洗模块,用于根据预置数据维护规则和预置品类清洗码表对所述预置商品数据进行数据维护和第一数据清洗,得到目标商品数据;
关联模块,用于提取所述目标商品数据中的SPU信息和SKU评论信息,将所述SPU信息与所述SKU评论信息进行匹配关联;
指标计算模块,用于当品类内所有SKU总销量与SPU总销量的匹配率超过阈值时,根据所述SPU信息和所述SKU评论信息进行品类核心指标计算;
第二数据清洗模块,用于根据预置商品属性码表对所述目标商品数据进行第二数据清洗,所述预置商品属性码表包括所述SPU信息、SKU信息和所述品类核心指标;
输出模块,用于将完成所述第二数据清洗后的目标商品数据按预置输出方式输出。
可选地,所述关联模块具体用于:
提取所述目标商品数据中的SPU信息和SKU评论信息;
根据所述SKU评论信息中的SKU名称将所述SKU评论信息与所述SPU信息进行匹配关联。
可选地,还包括判断模块;
所述判断模块,用于:
若所述SPU信息下的所述SKU评论信息的数量不超过预置数量,则品类SPU总销量等于SKU总销量;
若所述SPU信息下的所述SKU评论信息的数量超过所述预置数量,则计算所述品类内所有SKU总销量与SPU总销量的匹配率。
本申请第三方面提供了一种商品信息批量处理分析设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面任一种所述的商品信息批量处理分析方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请中,提供了一种商品信息批量处理分析方法,包括:通过网络爬虫爬取预置商品数据,预置商品数据包括预置商品的SPU信息和SKU评论信息;根据预置数据维护规则和预置品类清洗码表对预置商品数据进行数据维护和第一数据清洗,得到目标商品数据;提取目标商品数据中的SPU信息和SKU评论信息,将SPU信息与SKU评论信息进行匹配关联;当品类内所有SKU总销量与SPU总销量的匹配率超过阈值时,根据SPU信息和SKU评论信息进行品类核心指标计算;根据预置商品属性码表对目标商品数据进行第二数据清洗,预置商品属性码表包括SPU信息、SKU信息和品类核心指标;将完成第二数据清洗后的目标商品数据按预置输出方式输出。本申请提供的商品信息批量处理分析方法,基于爬虫爬取品类数据,利用预置数据维护规则和阈值品类清洗码表对获取到的预置商品数据进行维护和清洗,基于SPU下不同SKU数量类型的匹配规则,在保证数据丢失率在可控范围内,将数据处理对象落地到SKU量级,计算品类核心指标,并对目标商品数据进行清洗和优化输出,解决了现有的品类分析需要借助人工清洗、分拣及归类,及专业分析师的经验判断来输出对应的属性分析结果,不仅成本高,耗时长,且无法即时获取数据信息结果,数据的精确度不能满足研发策略对数据高契合度高精准度要求的技术问题。
附图说明
图1为本申请实施例中提供的一种商品信息批量处理分析方法是一个流程示意图;
图2为本申请实施例中的一种目标商品数据输出方式的示意图;
图3为本申请实施例中提供的一种商品信息批量处理分析装置的一个结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,本申请提供的一种商品信息批量处理分析方法的一个实施例,包括:
步骤101、通过网络爬虫爬取预置商品数据,预置商品数据包括预置商品的SPU信息和SKU评论信息。
需要说明的是,本申请实施例中可以通过网络爬虫的方式来爬取网络上的预置商品的数据,包括商品的SPU信息数据、SKU信息数据和评论信息数据。
步骤102、根据预置数据维护规则和预置品类清洗码表对预置商品数据进行数据维护和第一数据清洗,得到目标商品数据。
需要说明的是,爬取到的数据可能包含了脏数据,也可能存在失效的数据,因此,为了保证数据分析的有效性和准确性,需要对爬取到的数据进行数据维护和数据清洗,预设数据维护规则对数据进行维护,预设品类清洗码表对数据进行清洗。
预设数据维护规则可以包括:1、数据定时更新:为了减少季节性因素的影响,SPU信息更新频次为每周一次;个品类销量TOP20前的SPU评论保持每天更新一次,TOP20之外的SPU评论保持每周更新一次,以减少数据段反馈的信息时滞性;2、数据匹配失效限制:选择当前数据节点往前递推3个月内的评论做匹配,比如提供的是5月30日的SKU详情表数据,则需要使用这些产品3月1日-5月31日共计3个月的数据与SKU详情表匹配,既能保证一定的匹配率,又减少使用所有评论计算导致数据时滞影响。
预设品类清洗码表主要是将SPU信息表中的脏数据清洗干净,具体的脏数据类型主要为不相关的信息,比如化妆扑中的化妆扑清洗剂、销量以下航信息,比如销量排名第一的产品月销十万级,但累积评论只有百位数以下等。
通过数据维护和数据清洗之后,可以获得在品类统计口径内、有时效性的目标商品数据。
步骤103、提取目标商品数据中的SPU信息和SKU评论信息,将SPU信息与SKU评论信息进行匹配关联。
需要说明的是,当把SPU销量转换为旗下的各SKU销量时,通过SKU名称字段进行SPU信息和SKU评论信息的匹配关联。匹配关联结果可能是SPU信息下SKU评论数量在预置数量以下、SPU信息下有超过预置数量的SKU评论信息,若SPU信息下SKU评论数量在预置数量以下,则直接使SKU销量等于SPU销量,评论不参与计算,可以减少以SPUid与SKU名称关联时,SKU信息不一样,评论为0导致SPU销量未计入的无匹配问题;SPU信息下有超过预置数量的SKU评论信息,则按匹配上的SKU评论总数中的占比计算SKU销量。
步骤104、当品类内所有SKU总销量与SPU总销量的匹配率超过阈值时,根据SPU信息和SKU评论信息进行品类核心指标计算。
需要说明的是,为保证数据的准确性和有效可用,需要在品类内所有SKU总销量与SPU总销量的匹配率超过一定阈值时才能将品类匹配数据作为可用数据,经检验,阈值取值为70%。当品类内所有SKU总销量与SPU总销量的匹配率超过70%,则可根据SPU信息和SKU评论信息进行品类核心指标计算。品类核心指标可以包括规格价格、规格销售量等,规格价格=SKU价格/SKU规格值*单位数,规格销售量=SKU销售量*SKU规格值。以袜子为例具体说明,如表1所示。
表1
袜类 SKU1 SKU2 SKU3
原信息:SKU名称 3双 2双 5双
原信息:SKU价格 15元 20元 40元
原信息:SKU月销量 10件 5件 3件
计算后:规格价格(单双计的价格) 5元/双 10元/双 8元/双
计算后:规格销售量(单双计的销量) 30双 10双 15双
步骤105、根据预置商品属性码表对目标商品数据进行第二数据清洗,预置商品属性码表包括SPU信息、SKU信息和品类核心指标。
需要说明的是,进行核心指标计算之后,需要根据预置商品属性码表对目标商品数据进行第二数据清洗。目标商品数据的来源可以是商品详情、SKU名称、SPU和价格段,商品详情、SKU名称和SPU主要用于除价格段以外的常规维度值的提取。常规维度值的提取若只从一个数据来源里提取,有可能会出现维度值中其他占比过高的情况,为保证数据的质量,有些品类的常规维度需要从商品详情、SKU名称和SPU中任两个或三个中来取数,如果取数来源在2个以上的,取数的优先顺序为SKU名称>商品详情>SPU。
步骤106、将完成第二数据清洗后的目标商品数据按预置输出方式输出。
需要说明的是,对完成第二数据清洗后的目标商品数据可以按照预设的输出方式进行输出,如图2所示。
本申请实施例提供的商品信息批量处理分析方法,基于爬虫爬取品类数据,利用预置数据维护规则和阈值品类清洗码表对获取到的预置商品数据进行维护和清洗,基于SPU下不同SKU数量类型的匹配规则,在保证数据丢失率在可控范围内,将数据处理对象落地到SKU量级,计算品类核心指标,并对目标商品数据进行清洗和优化输出,解决了现有的品类分析需要借助人工清洗、分拣及归类,及专业分析师的经验判断来输出对应的属性分析结果,不仅成本高,耗时长,且无法即时获取数据信息结果,数据的精确度不能满足研发策略对数据高契合度高精准度要求的技术问题。
为了便于理解,请参阅图3,本申请中提供了一种商品信息批量处理分析装置的实施例,包括:
数据获取模块,用于通过网络爬虫爬取预置商品数据,预置商品数据包括预置商品的SPU信息和SKU评论信息。
第一数据清洗模块,用于根据预置数据维护规则和预置品类清洗码表对预置商品数据进行数据维护和第一数据清洗,得到目标商品数据。
关联模块,用于提取目标商品数据中的SPU信息和SKU评论信息,将SPU信息与SKU评论信息进行匹配关联。
指标计算模块,用于当品类内所有SKU总销量与SPU总销量的匹配率超过阈值时,根据SPU信息和SKU评论信息进行品类核心指标计算。
第二数据清洗模块,用于根据预置商品属性码表对目标商品数据进行第二数据清洗,预置商品属性码表包括SPU信息、SKU信息和品类核心指标。
输出模块,用于将完成第二数据清洗后的目标商品数据按预置输出方式输出。
进一步地,关联模块具体可以用于:
提取目标商品数据中的SPU信息和SKU评论信息;
根据SKU评论信息中的SKU名称将SKU评论信息与SPU信息进行匹配关联。
进一步地,商品信息批量处理分析装置还包括判断模块;
判断模块,用于判断SPU信息下的SKU评论信息的数量是否超过预置数量;
若SPU信息下的SKU评论信息的数量不超过预置数量,则品类SPU总销量等于SKU总销量;
若SPU信息下的SKU评论信息的数量超过预置数量,则计算品类内所有SKU总销量与SPU总销量的匹配率。
本申请中提供了一种商品信息批量处理分析设备,设备包括处理器以及存储器;
存储器用于存储程序代码,并将程度代码传输给处理器;
处理器用于根据程序代码中的指令执行前述商品信息批量处理分析方法实施例中的商品信息批量处理分析方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机系统(可以是个人计算机,服务器,或者网络系统等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种商品信息批量处理分析方法,其特征在于,包括:
通过网络爬虫爬取预置商品数据,所述预置商品数据包括预置商品的SPU信息和SKU评论信息;
根据预置数据维护规则和预置品类清洗码表对所述预置商品数据进行数据维护和第一数据清洗,得到目标商品数据;
提取所述目标商品数据中的SPU信息和SKU评论信息,将所述SPU信息与所述SKU评论信息进行匹配关联;
当品类内所有SKU总销量与SPU总销量的匹配率超过阈值时,根据所述SPU信息和所述SKU评论信息进行品类核心指标计算;
根据预置商品属性码表对所述目标商品数据进行第二数据清洗,所述预置商品属性码表包括所述SPU信息、SKU信息和所述品类核心指标;
将完成所述第二数据清洗后的目标商品数据按预置输出方式输出。
2.根据权利要求1所述的商品信息批量处理分析方法,其特征在于,所述提取所述目标商品数据中的SPU信息和SKU评论信息,将所述SPU信息与所述SKU评论信息进行匹配关联,包括:
提取所述目标商品数据中的SPU信息和SKU评论信息;
根据所述SKU评论信息中的SKU名称将所述SKU评论信息与所述SPU信息进行匹配关联。
3.根据权利要求2所述的商品信息批量处理分析方法,其特征在于,所述当品类内所有SKU总销量与SPU总销量的匹配率超过阈值时,根据所述SPU信息和所述SKU评论信息进行品类核心指标计算,之前还包括:
若所述SPU信息下的所述SKU评论信息的数量不超过预置数量,则品类SPU总销量等于SKU总销量;
若所述SPU信息下的所述SKU评论信息的数量超过所述预置数量,则计算所述品类内所有SKU总销量与SPU总销量的匹配率。
4.根据权利要求1所述的商品信息批量处理分析方法,其特征在于,所述阈值为70%。
5.根据权利要求1所述的商品信息批量处理分析方法,其特征在于,所述预置数据维护规则包括:
SPU更新频次为每周一次;
各品类销量排名前20的SPU评论保持每天更新一次,排名20后的SPU评论保持每周更新一次;
保留当前数据节点往前递推3个月内的SKU评论信息。
6.根据权利要求1所述的商品信息批量处理分析方法,其特征在于,所述核心指标包括品类的规格价格和规格销售量;
所述规格价格=SKU价格/SKU规格值*单位数;
所述规格销售量=SKU销售量*SKU规格值。
7.一种商品信息批量处理分析装置,其特征在于,包括:
数据获取模块,用于通过网络爬虫爬取预置商品数据,所述预置商品数据包括预置商品的SPU信息和SKU评论信息;
第一数据清洗模块,用于根据预置数据维护规则和预置品类清洗码表对所述预置商品数据进行数据维护和第一数据清洗,得到目标商品数据;
关联模块,用于提取所述目标商品数据中的SPU信息和SKU评论信息,将所述SPU信息与所述SKU评论信息进行匹配关联;
指标计算模块,用于当品类内所有SKU总销量与SPU总销量的匹配率超过阈值时,根据所述SPU信息和所述SKU评论信息进行品类核心指标计算;
第二数据清洗模块,用于根据预置商品属性码表对所述目标商品数据进行第二数据清洗,所述预置商品属性码表包括所述SPU信息、SKU信息和所述品类核心指标;
输出模块,用于将完成所述第二数据清洗后的目标商品数据按预置输出方式输出。
8.根据权利要求7所述的商品信息批量处理分析装置,其特征在于,所述关联模块具体用于:
提取所述目标商品数据中的SPU信息和SKU评论信息;
根据所述SKU评论信息中的SKU名称将所述SKU评论信息与所述SPU信息进行匹配关联。
9.根据权利要求8所述的商品信息批量处理分析装置,其特征在于,还包括判断模块;
所述判断模块,用于:
若所述SPU信息下的所述SKU评论信息的数量不超过预置数量,则品类SPU总销量等于SKU总销量;
若所述SPU信息下的所述SKU评论信息的数量超过所述预置数量,则计算所述品类内所有SKU总销量与SPU总销量的匹配率。
10.一种商品信息批量处理分析设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-6任一项所述的商品信息批量处理分析方法。
CN202010023001.3A 2020-01-09 2020-01-09 一种商品信息批量处理分析方法、装置和设备 Active CN111275294B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010023001.3A CN111275294B (zh) 2020-01-09 2020-01-09 一种商品信息批量处理分析方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010023001.3A CN111275294B (zh) 2020-01-09 2020-01-09 一种商品信息批量处理分析方法、装置和设备

Publications (2)

Publication Number Publication Date
CN111275294A CN111275294A (zh) 2020-06-12
CN111275294B true CN111275294B (zh) 2023-04-21

Family

ID=71001594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010023001.3A Active CN111275294B (zh) 2020-01-09 2020-01-09 一种商品信息批量处理分析方法、装置和设备

Country Status (1)

Country Link
CN (1) CN111275294B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111915391A (zh) * 2020-06-16 2020-11-10 北京迈格威科技有限公司 商品数据的处理方法、装置及电子设备
CN112732998A (zh) * 2021-01-20 2021-04-30 政采云有限公司 一种标准化商品单元数据生成方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104134108A (zh) * 2014-06-25 2014-11-05 上海艾瑞市场咨询有限公司 电子商务网站销售数据分析方法
CN106570573A (zh) * 2015-10-13 2017-04-19 阿里巴巴集团控股有限公司 预测包裹属性信息的方法及装置
CN107767219A (zh) * 2017-10-24 2018-03-06 广州市万表科技股份有限公司 一种三层架构商品管理方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI533245B (zh) * 2014-11-24 2016-05-11 財團法人資訊工業策進會 商品銷量預測系統、商品銷量預測方法及其非暫態電腦可讀取記錄媒體

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104134108A (zh) * 2014-06-25 2014-11-05 上海艾瑞市场咨询有限公司 电子商务网站销售数据分析方法
CN106570573A (zh) * 2015-10-13 2017-04-19 阿里巴巴集团控股有限公司 预测包裹属性信息的方法及装置
CN107767219A (zh) * 2017-10-24 2018-03-06 广州市万表科技股份有限公司 一种三层架构商品管理方法和系统

Also Published As

Publication number Publication date
CN111275294A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN107239891B (zh) 一种基于大数据的招投标审核方法
CN103164804A (zh) 一种个性化的信息推送方法及装置
CN102663626A (zh) 基于区域特征的协同过滤推荐方法
CN110009502B (zh) 理财数据分析方法、装置、计算机设备和存储介质
CN111275294B (zh) 一种商品信息批量处理分析方法、装置和设备
US20150220983A1 (en) Systems and Methods of Determining Predictors Based on Transaction Data and Social Network Data
CN107833063A (zh) 药店会员流失预警和智能干预系统及方法
WO2017119952A1 (en) Consumer decision tree generation system
CN110084643A (zh) 一种基于历史交易分布的商品定价方法及装置
CN109711484A (zh) 一种顾客的分类方法及系统
WO2014107517A1 (en) Priority-weighted quota cell selection to match a panelist to a market research project
CN113610521A (zh) 用于检测行为数据的异常的方法和设备
US20140188941A1 (en) Using a Graph Database to Match Entities by Evaluating Boolean Expressions
CN106952055A (zh) 顾客价值的细分方法、系统及具有该系统的电子设备
CN111915344A (zh) 一种基于医疗大数据的新会员催熟方法和装置
RU2480828C1 (ru) Способ прогноза целевого показателя событий по неограниченному количеству характеристик
US11954232B2 (en) Information processing system, information processing apparatus, information processing method and program
CN108537654B (zh) 客户关系网络图的渲染方法、装置、终端设备及介质
CN107093103A (zh) 基于大数据统计分析的品牌价值评价方法及系统
CN111311331A (zh) 一种rfm分析方法
US20220215129A1 (en) Information processing apparatus, information processing method and program
JP2020107293A (ja) 情報提供装置、情報提供方法、および情報提供プログラム
US10013481B2 (en) Using a graph database to match entities by evaluating boolean expressions
CN107633422A (zh) 一种基于用户行为的市场预测方法及装置
WO2014107521A2 (en) Quota cell priority determination to match a panelist to a market research project

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201120

Address after: Room 011, first floor, no.2429, Xingang East Road, Haizhu District, Guangzhou City, Guangdong Province (office only)

Applicant after: CHUANGYOU digital technology (Guangdong) Co.,Ltd.

Address before: Room 205, 2f office, No.156, nanshanzui Road, Hengqin, Zhuhai City, Guangdong Province

Applicant before: MINISO (HENGQIN) ENTERPRISE MANAGEMENT Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant