CN114358879A - 一种基于大数据的物价实时监测方法和系统 - Google Patents

一种基于大数据的物价实时监测方法和系统 Download PDF

Info

Publication number
CN114358879A
CN114358879A CN202111670800.0A CN202111670800A CN114358879A CN 114358879 A CN114358879 A CN 114358879A CN 202111670800 A CN202111670800 A CN 202111670800A CN 114358879 A CN114358879 A CN 114358879A
Authority
CN
China
Prior art keywords
commodity
data
commodities
price
platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111670800.0A
Other languages
English (en)
Inventor
刘涛雄
汤珂
许斌
姜婷凤
程火兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202111670800.0A priority Critical patent/CN114358879A/zh
Publication of CN114358879A publication Critical patent/CN114358879A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于大数据的物价实时监测方法和系统,涉及人工智能和数据库技术领域,该方法首先对多个平台中的相同类型商品进行自动匹配,以获得出现在至少两个平台上的相同类型商品;其次将匹配结果保存至标准文档中,并将匹配结果中的各个相同类型商品归类至物价变化指数下设的多个子类中,再对标准文档中的商品进行异常监控,以确定处于异常状态的商品数据;接着,将标准文档中的所述处于异常状态的目标商品的商品数据去除,再根据标准文档中的剩余商品的商品数据以及所述相同类型商品所属的目标子类,生成目标子类在不同周期粒度下的物价变化指数,以此实现了一种基于互联网在线数据的居民消费价格指数的实时监测、生成方案。

Description

一种基于大数据的物价实时监测方法和系统
技术领域
本发明涉及人工智能和数据库技术领域,具体涉及一种基于大数据的物价实时监测方法和系统。
背景技术
现有的物价监测主要是统计局通过调动大量基层调查人员进行定时(例如每个月5号或15号)定点(例如商场)采集价格,并通过县、市、省、国家逐级上报汇总,再通过数据汇总计算得到物价指数(如消费者物价指数,Consumer Price Index,CPI)。目前统计局在每月中旬发布上月的物价指数,数据颗粒度为月度。价格客观上是每天每时不断变动的,由于线下统计调查过程需要耗费大量时间和人力物力成本,现有技术还只是针对传统方法,没有结合在线价格大数据,不能实时地对数据采集加工处理,尚未解决实时监测物价的问题。
发明内容
本发明实施例提供一种基于大数据的物价实时监测方法和系统,以克服上述技术问题。
为了解决上述问题,从一方面,本发明实施例公开了一种基于大数据的物价实时监测方法,所述方法包括:
对多个平台中的相同类型商品进行自动匹配,并将匹配结果保存至标准文档中,以及将所述匹配结果中的各个所述相同类型商品归类至物价变化指数下设的多个子类中,其中,所述匹配结果包括出现在所述多个平台中的至少两个平台上的所述相同类型商品;
对所述标准文档中的商品进行异常监控,以确定处于异常状态的目标商品;
将所述标准文档中的所述处于异常状态的目标商品的商品数据去除,再根据所述标准文档中的剩余商品的商品数据以及所述相同类型商品所属的目标子类,生成所述目标子类在不同周期粒度下的物价变化指数。
进一步的,对多个平台中的相同类型商品进行自动匹配,包括:
获取多个平台中的同类型商品的批量数据,并对所述批量数据中的每个商品数据进行分词预处理,获得商品特征数据集,其中,所述商品数据包括商品描述、商品价格、采集时间、商品数量、销售状态、商家信息、商品链接以及平台数据,所述商品描述包括商品名称、品牌名称、商品型号、商品规格;
根据商品名称、品牌名称以及平台数据,将所述商品特征数据集进行品牌和平台归类,得到同平台且同品牌的平台-商品特征数据集;
将针对所述多个平台得到的所述平台-商品特征数据集进行重组,对重组后的数据中的商品描述和商品价格进行标准化描述处理,得到标准化平台-商品特征向量数据集;
对所述标准化平台-商品特征向量数据集进行聚类分析,并根据聚类分析的结果进行判断,以获得出现在所述多个平台中的至少两个平台上的所述相同类型商品。
进一步的,根据商品名称、品牌名称以及平台数据,将所述商品特征数据集进行品牌和平台归类,得到同平台且同品牌的平台-商品特征数据集,包括:
遍历所述商品特征数据集中的品牌名称,构建得到品牌词频库;其中,所述品牌词频库包括多个品牌关键词和所述品牌关键词对应的频次;
将所述商品特征数据集中的商品描述进行分词,之后遍历商品描述中的所有词语,并将所述所有词语与所述品牌词频库进行对比,以品牌名称为归类粒度,得到同品牌的商品特征数据集;
遍历所述同品牌的商品特征数据集中的平台数据,将同平台且同品牌的商品特征数据集进行归类,得到同平台且同品牌的平台-商品特征数据集。
进一步的,对所述标准化平台-商品特征向量数据集进行聚类分析,并根据聚类分析的结果进行判断,以获得出现在所述多个平台中的至少两个平台上的所述相同类型商品,包括:
通过聚类算法将所述标准化平台-商品特征向量数据集按所述属性分为K个聚类类别数,K的表达式为:
Figure BDA0003449434120000031
其中,m表示同商品名称同品牌名称的商品数量,[]表示取整数;
从所述标准化平台-商品特征向量数据集中随机选取K个数据点作为质心:
分别计算所述标准化平台-商品特征向量数据集中的每一个数据点距离K个质心中的每一个质心的欧式距离,并根据当前数据点的所有欧式距离中最短的欧式距离对应的目标质心,将当前数据点划分至所述目标质心所属集合中;
当所述标准化平台-商品特征向量数据集中的每个数据点均被划分至其各自目标质心所属集合后,重新计算所有集合中每一个集合的新质心K′,所述新质心K′的表达式为:
Figure BDA0003449434120000032
其中,n表示数据点的总数,xi表示第i个数据点;
将新质心K′与原质心之间的距离和预设阈值进行比较:
其中,在新质心K′与原质心之间的距离小于所述预设阈值的情况下,将所述新质心K′赋值给所述原质心并终止聚类;在新质心K′与原质心之间的距离大于所述预设阈值的情况下,从计算所述标准化平台-商品特征向量数据集中的每一个数据点距离K个质心中的每一个质心的欧式距离起开始迭代,直至计算所得的所有新质心均小于所述预设阈值并终止聚类;
将聚合完成后的相同类型商品整合为一个集合,之后判断集合中的平台数量,当平台数量大于等于2时,则保留所述集合中的当前商品并输出匹配结果,以获得出现在所述多个平台中的至少两个平台上的所述相同类型商品。
进一步的,对所述标准文档中的商品进行异常监控,以确定处于异常状态的目标商品,包括:
从所述标准文档中提取单个商品的昨日价格和前日价格,判断当前商品的所述昨日价格是否为有效价格,其中,当昨日价格变化在预定价格范围外时,则确定所述昨日价格为异常价格,并将该商品纳入异常价格记录;当所述昨日价格变化在预定价格范围内时,则确定所述昨日价格为有效价格;
判断该商品纳入有效价格的计算周期是否达到预定周期,其中,当所述计算周期小于所述预定周期时,则发出针对该商品的待观察信号;当所述计算周期等于或大于所述预定周期时,则将该商品写入异常监控文档;
对所述异常监控文档中的该商品的销售状态、商品名称以及商品规格进行核查;
在该商品的销售状态为已售罄或已下架的情况下,或该商品的商品名称、商品规格任一发生变更的情况下,将该商品从所述异常监控文档中删除,同时将该商品从所述标准文档中删除;
在该商品的销售状态、商品名称以及商品规格均未发生变更的情况下,确定该商品为处于异常状态的目标商品;
所述方法还包括:对所述目标商品发出商品异常报警。
进一步的,对所述标准文档中的商品进行异常监控,以确定处于异常状态的目标商品,包括:
根据所述标准文档,从抓取的原始数据中提取所有商品的昨日商品数据;
使用正则表达式对所述昨日商品数据中的预设商品字段进行筛选;其中,所述预设商品字段包括下架、已下柜、商品已删除、售馨、商品不存在、无货、商品已售完、页面无法打开;
根据所述预设商品字段,对所述昨日商品数据中的每个商品是否已失效进行判断;
当确定某一商品已失效的情况下,对该商品标记已失效标签,并将标记有已失效标签的商品的商品数据从所述昨日商品数据中清除;
调取标记有已失效标签的商品的历史记录,并根据所述历史记录,判断该商品是否连续预设天数均标记为已失效标签;
在该商品连续预设天数均标记为已失效标签的情况下,确定该商品为处于异常状态的目标商品。
进一步的,所述方法还包括:
从所述标准文档中提取所有商品的昨日商品数据和前日商品数据;
分别确定所述昨日商品数据和所述前日商品数据中的有效商品数量,并将所述有效商品数量进行平台归类,得到每个平台的昨日商品数量和前日商品数量,以及将所述有效商品数量进行子类归类,得到各个子类下的昨日商品数量和前日商品数量;
将同一平台的昨日商品数量和前日商品数量进行比较,以及将同一子类的昨日商品数量和前日商品数量进行比较;
在同一平台或同一子类的昨日商品数量小于前日商品数量,且所述昨日商品数量较所述前日商品数量减少的比例超过预定比例的情况下,发出针对该平台或该子类的异常警告。
进一步的,所述方法还包括:
针对所有已发出异常警告的平台的异常信息,生成平台异常记录文档;
在同一平台的昨日商品数量大于前日商品数量的情况下,或在同一平台的昨日商品数量小于前日商品数量且昨日商品数量较前日商品数量减少的比例未超过预定比例的情况下,统计该平台的两日商品数据,其中,所述两日商品数据包括平台名称,昨日商品数量,前日商品数量,两日数量变化数,两日数量变化比例;
将所述标准文档中的所有平台的两日商品数据写入数量变化文档,并将所述平台异常记录文档和所述数量变化文档传输给预设接收终端,所述预设接收终端用于根据所述平台异常记录文档,解除对相应平台的异常警告;
或,
针对所有已发出异常警告的子类的异常信息,生成子类异常记录文档;
在同一子类的昨日商品数量大于前日商品数量的情况下,或在同一子类的昨日商品数量小于前日商品数量且昨日商品数量较前日商品数量减少的比例未超过预定比例的情况下,统计该子类的两日商品数据,其中,所述两日商品数据包括子类名称,昨日商品数量,前日商品数量,两日数量变化数,两日数量变化比例;
将所述标准文档中的所有子类的两日商品数据写入数量变化文档,将所述子类异常记录文档和所述数量变化文档传输给预设接收终端,所述预设接收终端用于根据所述子类异常记录文档,解除对相应子类的异常警告。
进一步的,在将所述标准文档中的所述处于异常状态的目标商品的商品数据去除后,所述方法还包括:
将所述标准文档中的剩余商品的商品数据进行清洗,并将清洗后的商品数据再进行子类归类,以获得各个子类的商品子类集合;
针对任一子类,将该子类下的商品子类集合设为A集合,将A集合中的商品随机分为均等的B集合、C集合,其中,满足A=B∪C,
Figure BDA0003449434120000061
card(B)≈card(C);
根据B集合、C集合中的商品价格变化,分别计算B集合的子类指数RB、C集合的子类指数RC,其中,所述RB与所述RC属于同一周期粒度下的指数;
根据所述RB、所述RC,判断该子类的数据质量是否异常;其中,在(RB-1)(RC-1)>0且|RB-RC|>T的情况下,或者(RB-1)(RC-1)<0的情况下,确定该子类的数据质量异常,并发出针对该子类的数据质量异常信号,T表示指数阈值;在(RB-1)(RC-1)>0且|RB-RC|<T的情况下,确定该子类的数据质量无异常;
所述根据所述标准文档中的剩余商品的商品数据以及所述相同类型商品所属的目标子类,生成所述目标子类在不同周期粒度下的物价变化指数的步骤包括:
在确定所述相同类型商品所属的目标子类的数据质量无异常的情况下,根据所述标准文档中的剩余商品的商品数据以及所述目标子类下的A集合,生成所述目标子类在不同周期粒度下的物价变化指数。
基于同一发明构思,本申请实施例还提供了一种基于大数据的物价实时监测系统,所述系统包括:
跨平台商品匹配模块,用于对多个平台中的相同类型商品进行自动匹配,并将匹配结果保存至标准文档中,以及将所述匹配结果中的各个所述相同类型商品归类至物价变化指数下设的多个子类中,其中,所述匹配结果包括出现在所述多个平台中的至少两个平台上的所述相同类型商品;
日常监测模块,用于对所述标准文档中的商品进行异常监控,以确定处于异常状态的目标商品;
物价指数生成模块,用于将所述标准文档中的所述处于异常状态的目标商品的商品数据去除,再根据所述标准文档中的剩余商品的商品数据以及所述相同类型商品所属的目标子类,生成所述目标子类在不同周期粒度下的物价变化指数。
本发明实施例包括以下优点:
本发明首先结合在线价格大数据,对多个平台中的相同类型商品进行自动匹配,以获得出现在多个平台中的至少两个平台上的所述相同类型商品,由此解决了通过人工手动匹配商品、效率低下的问题,并大幅提升了商品匹配效率;其次将匹配结果保存至标准文档中,并同时将所述匹配结果中的各个该相同类型商品分类至物价变化指数下设的多个子类中,再对标准文档中的商品进行异常监控,以确定处于异常状态的商品数据;接着,将所述标准文档中的所述处于异常状态的目标商品的商品数据去除,以此能保证计算所得到的物价变化指数的准确性;再根据标准文档中的剩余商品的商品数据以及该相同类型商品所属的目标子类,生成目标子类在不同周期粒度下的物价变化指数,如日指数、周指数和月指数,如此,本发明能实时捕捉特殊时期的物价波动,从而达到了细颗粒度的监测效果,可以提高数据发布频率,解决物价指数发布的滞后性问题。
附图说明
图1是本发明一实施例基于大数据的物价实时监测方法的步骤流程图;
图2是本发明实施例基于大数据的物价实时监测系统的功能模块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
受惠于电商市场及配套物流体系的快速发展,针对本发明的技术问题,考虑到目前网购已成为民众购物形式的主流之一,线上市场商品种类丰富程度远超线下市场,从统计意义上在线上市场进行物价采集在可达到在线下采集的同样效果,在线价格大数据使得实时监测物价成为可能。
为此,当前急需一种能够解决线上实时采集大数据、加工处理清洗数据、计算生成发布iCPI指数(英文全称Internet-based Consumer Price Index,iCPI指数为基于互联网在线数据的居民消费价格指数,也称物价变化指数)这一系列问题的方案。
基于此,本发明实施例提出了一种基于大数据的物价实时监测方法和系统,该方法和系统具体针对性地解决了以下几个子问题:1)如何从海量价格数据中选取需要跟踪的商品;2)如何高频采集所需商品;3)如何把所获取的海量杂乱非结构化的信息实时转化为可用信息并保证数据质量;4)如何计算并生成物价变化指数用于实时监测物价。
具体而言,参考图1,图1示出了本发明一实施例基于大数据的物价实时监测方法的步骤流程图,如图1所示,该方法可以包括以下步骤:
步骤S100:对多个平台中的相同类型商品进行自动匹配,并将匹配结果保存至标准文档中,以及将所述匹配结果中的各个所述相同类型商品归类至物价变化指数下设的多个子类中,其中,所述匹配结果包括出现在所述多个平台中的至少两个平台上的所述相同类型商品;
其中,平台指现有技术中可网购的一些电商平台,如天猫、京东、当当、苏宁、国美、淘宝、携程、优酷、腾讯视频、爱奇艺、美团和饿了么等平台。
其中,相同类型商品指商品之间的商品名称、品牌名称、商品型号以及商品规格均完全一致。
物价变化指数下设8个大类、27个中类、94个小类、262个子类。如8大类中的某一大类为“交通和通信”,27个中类中的某一中类为“通信”,94个小类中的某一小类为“通信工具”,262个子类中的某一子类为“移动电话机”。
步骤S200:对所述标准文档中的商品进行异常监控,以确定处于异常状态的目标商品;
其中,异常可以指价格异常、销售的商品数量异常、销售状态异常等,销售状态异常可以为下架等。
步骤S300:将所述标准文档中的所述处于异常状态的目标商品的商品数据去除,再根据所述标准文档中的剩余商品的商品数据以及所述相同类型商品所属的目标子类,生成所述目标子类在不同周期粒度下的物价变化指数。
其中,周期粒度可以分为日、周、月等。即本发明可以根据出现在至少两个平台上的某一相同类型商品的剩余商品数据,生成该相同类型商品的日指数、周指数、月指数等不同周期粒度下的物价变化指数。
其中,步骤S300的某一周期粒度下的指数的计算方法可参考相关现有技术,其不属于本申请的发明重点,在此不一一举例。例如针对目标子类(如“移动电话机”)在日周期粒度下的物价变化指数(即日指数),可以采取几何平均法与逐级加权算术平均法相结合的方法:第一步,计算目标子类下的各个商品价格变化;第二步,计算目标子类变化幅度,即取该目标子类下各商品价格变化的几何平均作为该目标子类的价格变化;第三步,计算目标子类所属的目标小类的价格变化,根据目标小类下各子类的权重,对各子类的价格变化进行加权算术平均,合成该目标小类的价格变化;第四步,计算目标小类所属目标中类的价格变化,根据目标中类下各小类的权重,对各小类的价格变化进行加权算术平均,合成该目标中类的价格变化;第五步,计算目标中类所属目标大类的价格变化,根据目标大类下各中类的权重,对各中类的价格变化进行加权算术平均,合成该目标大类的价格变化;第六步,根据8大类的权重,对各8大类的价格变化进行加权算术平均,合成总的日指数。
本发明通过步骤S100~步骤S300,能结合在线价格大数据,实时地对数据采集加工处理,对多个电商平台的相同类型商品进行自动匹配,由此解决了通过人工手动匹配商品、效率低下的问题,并大幅提升了商品匹配效率。同时能在计算物价变化指数之前,自动找出处于异常状态的商品数据,并将该处于异常状态的商品数据去除,能保证计算所得到的物价变化指数的准确性。通过该方法,本发明能分别计算各层次类别的日指数、周指数计算功能和月指数,可用于实时捕捉特殊时期的物价波动,从而达到了细颗粒度的监测效果,可以提高数据发布频率,解决物价指数发布的滞后性问题。
在本发明一实施例中,步骤S100可以通过以下步骤实现:
步骤S101:获取多个平台中的同类型商品的批量数据,并对所述批量数据中的每个商品数据进行分词预处理,获得商品特征数据集,其中,所述商品数据包括商品描述、商品价格、采集时间、商品数量、销售状态、商家信息、商品链接以及平台数据,所述商品描述包括商品名称、品牌名称、商品型号、商品规格;
其中,销售状态可以为在售、已下架、已售罄、无货和商品已删除等。平台数据可以包括平台名称、统一资源定位器(URL)。商品数据还可以包括评论数等。
本发明可以通过爬虫和聚类算法采集线上平台众多商品的每日商品数据和定价数据等批量数据。具体实现时,由于电商网站种类繁多、网页结构多变,因此在采集批量数据之前,可以对要采集的数据进行定义,以确定采集规则,然后按照该采集规则采集批量数据。例如,商品数据可以包括“2021/10/01 AM:8:25:15京东自营20台在售2180元华为畅享20SE【现货当天发】全网通智能手机幻夜黑8G+128G送碎屏险具体的商品链接(由于字符过长本发明未具体显示)”。其中,“华为畅享20SE【现货当天发】全网通智能手机幻夜黑8G+128G送碎屏险”为商品描述,“手机”为名称,“华为”为品牌名称,“畅享20SE”为商品型号,“全网通幻夜黑8G+128G”为商品规格,“现货当天发”“智能手机”和“送碎屏险”等为商品描述中的广告词;“在售”为销售状态,“2021/10/01 AM:8:25:15”为采集时间,“20台”为商品数量,“2180元”为商品价格,“自营”为商家信息,“京东”为平台数据中的平台名称。
在一实施例中,对所述批量数据中的每个商品数据进行分词预处理可以是对一个或多个商品数据进行分词预处理,包括通过正则表达式过滤去除其中的特殊符号。例如可以使用正则表达式符号对商品描述进行分割,之后去掉分割后所有字符串数组中的空元素,如商品描述“华为畅享20SE【现货当天发】全网通智能手机幻夜黑8G+128G送碎屏险”可以通过正则表达式去除上述的“()【】”以及空格等特殊符号。
在去除特殊符号之后,将正则化处理后的数据进行分词,之后将分词得到的字符串与停用词表进行对比以去除该数据中的停用词,例如广告词或其它冗余词,以避免影响后续数据分析。在一个示例中,分词可以采用词典分词法、通过规则分词、通过字标注的分词以及通过人工智能技术分词(例如语义分词)。在一个示例中,采用的是基于词典的分词方法,采用jieba分词工具。在一个示例中,“华为畅享20SE【现货当天发】全网通智能手机幻夜黑8G+128G送碎屏险”通过THULAC分析工具包进行中文分词后,与停用词表进行对比去除了其中的停用词(例如【现货当天发】、送碎屏险)。
在对商品数据进行分词预处理后,可以得到商品特征数据集。即该商品特征数据集中包括多个经过分词预处理后的同类型商品数据。
步骤S102:根据商品名称、品牌名称以及平台数据,将所述商品特征数据集进行品牌和平台归类,得到同平台且同品牌的平台-商品特征数据集;
在一实施例中,步骤S102可以通过以下子步骤实现:
子步骤S102-1:遍历所述商品特征数据集中的品牌名称,构建得到品牌词频库;其中,所述品牌词频库包括多个品牌关键词和所述品牌关键词对应的频次;
在本实施例中,商品名称和品牌名称不同,品牌关键词也不同。例如,手机的品牌名称有华为、小米、OPPO等,品牌关键词可以对应为华为、小米、OPPO。
子步骤S102-2:将所述商品特征数据集中的商品描述进行分词,之后遍历商品描述中的所有词语,并将所述所有词语与所述品牌词频库进行对比,以品牌名称为归类粒度,得到同品牌的商品特征数据集;
在本实施例中,商品描述分词后可以分为商品名称、品牌名称、商品型号、商品规格这些词语(为本发明所指的所有词语),例如商品描述“华为畅享20SE全网通智能手机幻夜黑8G+128G”分词后可以为“手机”、“华为”“畅享20SE”、“全网通幻夜黑8G+128G”。然后将商品名称、品牌名称、商品型号、商品规格这些词语与品牌词频库中的品牌关键词进行对比,可以从中找出同品牌的商品描述,然后得到同品牌的商品特征数据集。其中同品牌的商品特征数据集可以表示为:品牌名称-商品特征数据集。
子步骤S102-3:遍历所述同品牌的商品特征数据集中的平台数据,将同平台且同品牌的商品特征数据集进行归类,得到同平台且同品牌的平台-商品特征数据集。
在本实施例中,对品牌名称-商品特征数据集继续归类,以平台数据中的平台名称或URL为归类粒度,得到同平台且同品牌的平台-商品特征数据集,具体可以表示为:平台-品牌名称-商品特征数据集。
步骤S103:将针对所述多个平台得到的所述平台-商品特征数据集进行重组,对重组后的数据中的商品描述和商品价格进行标准化描述处理,得到标准化平台-商品特征向量数据集;
在本实施例中,将针对所述多个平台得到的所述平台-商品特征数据集进行重组,然后通过对重组后的数据中的商品描述和商品价格进行标准化描述处理,可以使得平台-品牌特征数据集中的特征更加标准,以利于后期信息的提取与计算。
其中,对商品描述和商品价格进行标准化描述处理可以通过过滤去除多余的字段,提取上述信息中的关键字,然后将其描述标准化来实现。在一个示例中,对于商品价格这一信息而言,可以读取商品价格中的价格字段,例如将价格字段中的打折价格字段保留至商品特征数据集中的价格信息处,去除原价价格字段。接着,将其描述标准化的过程可以是:将商品价格中的浮点型数据转化为整型数据,或将商品价格分布通过用数字表示,例如1000~1599用数字区间内的价格用1表示,1600~2199区间内的价格用2表示,以此类推,以便于对商品价格进行监控。在一个示例中,对商品描述进行其描述标准化的过程可以是将商品描述中的英文文本大写转化为小写。
步骤S104:对所述标准化平台-商品特征向量数据集进行聚类分析,并根据聚类分析的结果进行判断,以获得出现在所述多个平台中的至少两个平台上的所述相同类型商品。
其中,步骤S104可以通过以下子步骤实现:
子步骤S104-1:通过聚类算法将所述标准化平台-商品特征向量数据集按所述属性分为K个聚类类别数,K的表达式为:
Figure BDA0003449434120000131
其中,m表示同商品名称同品牌名称的商品数量,[]表示取整数;
例如:华为手机Mate40与华为畅享20SE为同商品名称(即均为手机)且同品牌名称(即均为华为)的商品,数量为2,即m=2,因此K=2。
子步骤S104-2:从所述标准化平台-商品特征向量数据集中随机选取K个数据点作为质心;
子步骤S104-3:分别计算所述标准化平台-商品特征向量数据集中的每一个数据点距离K个质心中的每一个质心的欧式距离,并根据当前数据点的所有欧式距离中最短的欧式距离对应的目标质心,将当前数据点划分至所述目标质心所属集合中;
在本实施例中,可以令当前数据点的坐标为(x1,y1),第i个质心的坐标(xi,yi),欧式距离d的表达式为:
Figure BDA0003449434120000132
子步骤S104-4:当所述标准化平台-商品特征向量数据集中的每个数据点均被划分至其各自目标质心所属集合后,重新计算所有集合中每一个集合的新质心K′,所述新质心K′的表达式为:
Figure BDA0003449434120000133
其中,n表示数据点的总数,xi表示第i个数据点;
子步骤S104-5:将新质心K′与原质心之间的距离和预设阈值进行比较:
其中,在新质心K′与原质心之间的距离小于所述预设阈值的情况下,表示重新计算的质心的位置变化不大,趋于稳定,或者说收敛,因此可以认为聚类已经达到期望的结果,算法终止,因此可将所述新质心K′赋值给所述原质心并终止聚类;当新质心K′与原质心之间的距离大于所述预设阈值时,从计算所述标准化平台-商品特征向量数据集中的每一个数据点距离K个质心中的每一个质心的欧式距离起开始迭代,即迭代子步骤S104-3-子步骤S104-5,直至计算所得的所有新质心均小于所述预设阈值并终止聚类;
在本实施例中,可以令第i个新质心K′的坐标为(zi,ri),对应地,第i个原质心的坐标(ui,oi),因此,新质心K′与原质心的距离的表达式可以表示为:
Figure BDA0003449434120000141
在一实施例中,预设阈值可以为0.9-1.1。
子步骤S104-6:将聚合完成后的相同类型商品整合为一个集合,之后判断集合中的平台数量,当平台数量大于等于2时,则保留所述集合中的当前商品并输出匹配结果,以获得出现在所述多个平台中的至少两个平台上的所述相同类型商品。
其中,匹配结果包括多个不同的出现在多个平台中的至少两个平台上的该相同类型商品。
综上,本发明实施例对步骤S100的实现过程进行了详细介绍,有针对性地解决了如何从海量价格数据中选取需要跟踪的商品以及如何高频采集所需商品,本发明实施例能有针对性的对多个电商平台的相同类型商品进行自动匹配,由此解决了通过人工手动匹配商品、效率低下的问题。
在本发明一实施例中,步骤S200可以通过以下步骤实现:
步骤S201:从所述标准文档中提取单个商品的昨日价格和前日价格,判断当前商品的所述昨日价格是否为有效价格,其中,当昨日价格变化在预定价格范围外时,则确定所述昨日价格为异常价格,并将该商品纳入异常价格记录;当所述昨日价格变化在预定价格范围内时,则确定所述昨日价格为有效价格;
在一个示例中,令采集的前日价格P1为有效价格,之后将昨日价格P2除以前日价格P1计算得到昨日价格变化Vi。在当前商品的昨日价格变化Vi在[0.5,1.5]内时,则确定所述昨日价格P2为有效价格,否则判断为异常价格。
步骤S202:判断该商品纳入有效价格的计算周期是否达到预定周期,其中,当所述计算周期小于所述预定周期时,则发出针对该商品的待观察信号;当所述计算周期等于或大于所述预定周期时,则将该商品写入异常监控文档;
在一个示例中,预定周期可以为20~60天,具体可以为25天、30天、40天或者50天,优选地为30天。例如当纳入有效价格的计算周期未达到30天,则发出商品待观察信号;若纳入有效价格的计算周期达到30天,则该商品纳入商品异常监控,即写入异常监控文档。若该商品30天内商品异常价格记录大于2次或30天内商品有效价格保持不变(即变化Vi为0),则发出商品异常信号,即写入异常监控文档,否则发出商品正常信号。
步骤S203:对所述异常监控文档中的该商品的销售状态、商品名称以及商品规格进行核查;
步骤S204:在该商品的销售状态为已售罄或已下架的情况下,或该商品的商品名称、商品规格任一发生变更的情况下,将该商品从所述异常监控文档中删除,同时将该商品从所述标准文档中删除;
步骤S205:在该商品的销售状态、商品名称以及商品规格均未发生变更的情况下,确定该商品为处于异常状态的目标商品;
所述方法还包括:
对所述目标商品发出商品异常报警。
通过本发明实施例,可以对商品价格异常进行预警。同时,通过子步骤S203~子步骤S205,能避免指数计算中,加入了无效数据,影响后续指数计算的准确度。
在本发明一实施例中,步骤S200还可以通过以下步骤实现:
步骤S206:根据标准文档,从抓取的原始数据中提取所有商品的昨日商品数据;
步骤S207:使用正则表达式对昨日商品数据中的预设商品字段进行筛选;其中,所述预设商品字段包括下架、已下柜、商品已删除、售馨、商品不存在、无货、商品已售完、页面无法打开;
步骤S208:根据所述预设商品字段,对所述昨日商品数据中的每个商品是否已失效进行判断;
步骤S209:当确定某一商品已失效的情况下,对该商品标记已失效标签,并将标记有已失效标签的商品的商品数据从所述昨日商品数据中清除;
步骤S210:调取标记有已失效标签的商品的历史记录,并根据所述历史记录,判断该商品是否连续预设天数均标记为已失效标签;
步骤S211:在该商品连续预设天数均标记为已失效标签的情况下,确定该商品为处于异常状态的目标商品。
通过本实施例,可以自动判断商品是否失效,并对商品失效进行预警,以及避免影响物价变化指数计算的正确性。其中,失效可以理解为下架、已下柜、商品已删除、售馨、商品不存在、无货、商品已售完、页面无法打开中的任一种。预设天数可选为15天。
在本申请一实施例中,还提供了以下方法:
步骤A1:从所述标准文档中提取所有商品的昨日商品数据和前日商品数据;
步骤A2:分别确定所述昨日商品数据和所述前日商品数据中的有效商品数量,并将所述有效商品数量进行平台归类,得到每个平台的昨日商品数量和前日商品数量,以及将所述有效商品数量进行子类归类,得到各个子类下的昨日商品数量和前日商品数量;
在本发明中,分别确定所述昨日商品数据和所述前日商品数据中的有效商品数据是通过以下方法实现的:对标准文档中的昨日、前日全部商品进行处理,去掉其中无效商品(包括下架商品,未抓取到价格商品),然后按照平台类别或子类统计有效商品数量。
步骤A3:将同一平台的昨日商品数量和前日商品数量进行比较,以及将同一子类的昨日商品数量和前日商品数量进行比较;
步骤A4:在同一平台或同一子类的昨日商品数量小于前日商品数量,且所述昨日商品数量较所述前日商品数量减少的比例超过预定比例的情况下,发出针对该平台或该子类的异常警告。
在本发明中,预定比例的范围为20%~40%,例如25%、30%、35%,优选为30%。通过步骤A1-步骤A4,本发明可以通过自动化程序及时发现平台商品数量异常的情况或子类商品数量异常的情况,并将异常的平台或子类及时向管理者报告。
进一步的,在步骤A1-步骤A4的基础上,在本申请一实施例中,还提供了以下方法:
步骤A5:针对所有已发出异常警告的平台的异常信息,生成平台异常记录文档;
步骤A6:在同一平台的昨日商品数量大于前日商品数量的情况下,或在同一平台的昨日商品数量小于前日商品数量且昨日商品数量较前日商品数量减少的比例未超过预定比例的情况下,统计该平台的两日商品数据,其中,所述两日商品数据包括平台名称,昨日商品数量,前日商品数量,两日数量变化数,两日数量变化比例;
步骤A7:将所述标准文档中的所有平台的两日商品数据写入数量变化文档,并将所述平台异常记录文档和所述数量变化文档传输给预设接收终端,所述预设接收终端用于根据所述平台异常记录文档,解除对相应平台的异常警告。或
步骤A8:针对所有已发出异常警告的子类的异常信息,生成子类异常记录文档;
步骤A9:在同一子类的昨日商品数量大于前日商品数量的情况下,或在同一子类的昨日商品数量小于前日商品数量且昨日商品数量较前日商品数量减少的比例未超过预定比例的情况下,统计该子类的两日商品数据,其中,所述两日商品数据包括子类名称,昨日商品数量,前日商品数量,两日数量变化数,两日数量变化比例;
步骤A10:将所述标准文档中的所有子类的两日商品数据写入数量变化文档,将所述子类异常记录文档和所述数量变化文档传输给预设接收终端,所述预设接收终端用于根据所述子类异常记录文档,解除对相应子类的异常警告。
在本发明中,异常信息可以包括丢失的商品信息,如商品名称、URL、前日是否丢失等。在本发明中,步骤A7或A10具体实现时,可以通过邮件实现,如将异常平台或子类写入邮件正文,并将数量变化文档及平台异常记录文档或子类异常记录文档自动加入附件,通过邮件发送系统自动发送,释放平台异常警告或子类异常警告。
进一步的,在本发明一实施例中,在将所述标准文档中的所述处于异常状态的目标商品的商品数据去除后,还可以提供以下方案:
步骤B1:将所述标准文档中的剩余商品的商品数据进行清洗,并将清洗后的商品数据再进行子类归类,以获得各个子类的商品子类集合;
步骤B2:针对任一子类,将该子类下的商品子类集合设为A集合,将A集合中的商品随机分为均等的B集合、C集合,其中,满足A=B∪C,
Figure BDA0003449434120000181
card(B)≈card(C);
步骤B3:根据B集合、C集合中的商品价格变化,分别计算B集合的子类指数RB、C集合的子类指数RC,其中,RB与RC属于同一周期粒度下的指数;子类指数计算公式为:
Figure BDA0003449434120000182
其中,n为商品数量,ri为商品价格变化比;
步骤B4:根据子类指数RB、RC,判断该子类的数据质量是否异常,其中:在(RB-1)(RC-1)>0且|RB-RC|>T的情况下,或者(RB-1)(RC-1)<0的情况下,确定该子类的数据质量异常,并发出针对该子类的数据质量异常信号,T表示指数阈值;在(RB-1)(RC-1)>0且|RB-RC|<T的情况下,确定该子类的数据质量无异常;
因此,步骤S300的实现方式可以为:在确定目标子类的数据质量无异常的情况下,可以根据标准文档中的剩余商品的商品数据以及所述目标子类下的A集合,生成目标子类在不同周期粒度下的物价变化指数。
依据上述步骤B1~步骤B4可知,本发明通过将同一子类的所有商品分为两组数据(如上述B集合和C集合)进行比对,可对该子类下的所有商品数据(如上述A集合)是否异常进行检验,保障了计算目标子类在不同周期粒度下的物价变化指数的准确性。之后,本发明实施例还可以将步骤4中数据质量异常的子类的全部商品数据从数据库中调出,并标明所属商品集合(B或C),形成数据质量异常的子类记录文档,自动发送至预设接受终端,释放数据质量异常信号。
综上,本发明作为一套利用爬虫和聚类算法采集线上市场众多商品每日定价数据、利用机器学习算法形成数据清洗标准、利用云计算技术进行实时分布计算并在网站每日凌晨自动更新前一日物价指数的价格信号处理和物价实时监测方法,采用了多种技术手段,可达到的技术效果有:
1)本发明可将原有统计局需耗费大量人工、各级系统逐级上报、每月中上旬发布且粗颗粒度(月度)的消费者物价指数提升到无需人工、计算机自动处理、每日凌晨发布且细颗粒度(日度)水平,实现了对物价的实时监测,大幅地缩短了物价监测的时滞,有效地提高了物价监测的时效性。
2)本发明实时采集大数据、加工清洗处理数据、计算生成发布物价变化指数这一系统过程均由计算机自动进行,实现过程中没有人工干预,样本量相较于传统方法明显扩大,而且由于大数据样本不受个别样本“噪音”或人的主观因素影响,物价指数具有很好的代表性,其准确性显著提升。
3)这套大数据时代的实时高频的物价监测方法如同宏观经济学家的“显微镜”,使得每天实时地观察到宏观物价的微小变化成为可能,进而能用于精准捕捉典型事件影响、实时监测宏观经济形势,正如生物学家利用显微镜观看细胞,是数据科学技术的典型应用,具有重要科学意义和应用价值。
基于同一发明构思,本发明实施例还提供了一种基于大数据的物价实时监测系统,图2示出了本发明实施例基于大数据的物价实时监测系统的功能模块示意图,该系统可以包括:
跨平台商品匹配模块21,用于对多个平台中的相同类型商品进行自动匹配,并将匹配结果保存至标准文档中,以及将所述匹配结果中的各个所述相同类型商品归类至物价变化指数下设的多个子类中,其中,所述匹配结果包括出现在所述多个平台中的至少两个平台上的所述相同类型商品;
日常监测模块22,用于对所述标准文档中的商品进行异常监控,以确定处于异常状态的目标商品;
物价指数生成模块23,用于将所述标准文档中的所述处于异常状态的目标商品的商品数据去除,再根据所述标准文档中的剩余商品的商品数据以及所述相同类型商品所属的目标子类,生成所述目标子类在不同周期粒度下的物价变化指数。
在本发明一实施例中,跨平台商品匹配模块21,可以包括:
商品数据处理子模块,用于获取多个平台中的同类型商品的批量数据,并对所述批量数据中的每个商品数据进行分词预处理,获得商品特征数据集,其中,所述商品数据包括商品描述、商品价格、采集时间、商品数量、销售状态、商家信息、商品链接以及平台数据,所述商品描述包括商品名称、品牌名称、商品型号、商品规格;
品牌平台归类子模块,用于根据商品名称、品牌名称以及平台数据,将所述商品特征数据集进行品牌和平台归类,得到同平台且同品牌的平台-商品特征数据集;
标准化描述子模块,用于将针对所述多个平台得到的所述平台-商品特征数据集进行重组,对重组后的数据中的商品描述和商品价格进行标准化描述处理,得到标准化平台-商品特征向量数据集;
聚类分析子模块,用于对所述标准化平台-商品特征向量数据集进行聚类分析,并根据聚类分析的结果进行判断,以获得出现在所述多个平台中的至少两个平台上的所述相同类型商品。
在本发明一实施例中,品牌平台归类子模块,包括:
品牌词频库构建单元,用于遍历所述商品特征数据集中的品牌名称,构建得到品牌词频库;其中,所述品牌词频库包括多个品牌关键词和所述品牌关键词对应的频次;
品牌归类单元,用于将所述商品特征数据集中的商品描述进行分词,之后遍历商品描述中的所有词语,并将所述所有词语与所述品牌词频库进行对比,以品牌名称为归类粒度,得到同品牌的商品特征数据集;
平台归类单元,用于遍历所述同品牌的商品特征数据集中的平台数据,将同平台且同品牌的商品特征数据集进行归类,得到同平台且同品牌的平台-商品特征数据集。
在本发明一实施例中,聚类分析子模块,包括:
聚类拆分单元,用于通过聚类算法将所述标准化平台-商品特征向量数据集按所述属性分为K个聚类类别数,K的表达式为:
Figure BDA0003449434120000211
其中,m表示同商品名称同品牌名称的商品数量,[]表示取整数;
质心选取单元,用于从所述标准化平台-商品特征向量数据集中随机选取K个数据点作为质心;
数据点划分单元,用于分别计算所述标准化平台-商品特征向量数据集中的每一个数据点距离K个质心中的每一个质心的欧式距离,并根据当前数据点的所有欧式距离中最短的欧式距离对应的目标质心,将当前数据点划分至所述目标质心所属集合中;
新质心确定单元,用于在所述标准化平台-商品特征向量数据集中的每个数据点均被划分至其各自目标质心所属集合后,重新计算所有集合中每一个集合的新质心K′,所述新质心K′的表达式为:
Figure BDA0003449434120000212
其中,n表示数据点的总数,xi表示第i个数据点;
质心比较单元,用于将新质心K′与原质心之间的距离和预设阈值进行比较:其中,在新质心K′与原质心之间的距离小于所述预设阈值的情况下,将所述新质心K′赋值给所述原质心并终止聚类;在新质心K′与原质心之间的距离大于所述预设阈值的情况下,从计算所述标准化平台-商品特征向量数据集中的每一个数据点距离K个质心中的每一个质心的欧式距离起开始迭代,直至计算所得的所有新质心均小于所述预设阈值并终止聚类;
匹配结果输出单元,用于将聚合完成后的相同类型商品整合为一个集合,之后判断集合中的平台数量,当平台数量大于等于2时,则保留所述集合中的当前商品并输出匹配结果,以获得出现在所述多个平台中的至少两个平台上的所述相同类型商品。
在本发明一实施例中,日常监测模块22,包括:
商品价格监测子模块,用于从所述标准文档中提取单个商品的昨日价格和前日价格,判断当前商品的所述昨日价格是否为有效价格,其中,当昨日价格变化在预定价格范围外时,则确定所述昨日价格为异常价格,并将该商品纳入异常价格记录;当所述昨日价格变化在预定价格范围内时,则确定所述昨日价格为有效价格;
商品异常写入子模块,用于判断该商品纳入有效价格的计算周期是否达到预定周期,其中,当所述计算周期小于所述预定周期时,则发出针对该商品的待观察信号;当所述计算周期等于或大于所述预定周期时,则将该商品写入异常监控文档;
核查子模块,用于对所述异常监控文档中的该商品的销售状态、商品名称以及商品规格进行核查;
异常监控文档删除子模块,用于在该商品的销售状态为已售罄或已下架的情况下,或该商品的商品名称、商品规格任一发生变更的情况下,将该商品从所述异常监控文档中删除,同时将该商品从所述标准文档中删除;
目标商品第一确定子模块,用于在该商品的销售状态、商品名称以及商品规格均未发生变更的情况下,确定该商品为处于异常状态的目标商品;
所述装置还包括:
商品异常报警模块,用于对所述目标商品发出商品异常报警。
在本发明一实施例中,日常监测模块22还包括:
标准文档第一提取子模块,用于根据所述标准文档,从抓取的原始数据中提取所有商品的昨日商品数据;
商品字段筛选子模块,用于使用正则表达式对所述昨日商品数据中的预设商品字段进行筛选;其中,所述预设商品字段包括下架、已下柜、商品已删除、售馨、商品不存在、无货、商品已售完、页面无法打开;
商品失效判断子模块,用于根据所述预设商品字段,对所述昨日商品数据中的每个商品是否已失效进行判断;
昨日商品数据清除子模块,用于在确定某一商品已失效的情况下,对该商品标记已失效标签,并将标记有已失效标签的商品的商品数据从所述昨日商品数据中清除;
历史记录提取子模块,用于调取标记有已失效标签的商品的历史记录,并根据所述历史记录,判断该商品是否连续预设天数均标记为已失效标签;
目标商品第二确定子模块,用于在该商品连续预设天数均标记为已失效标签的情况下,确定该商品为处于异常状态的目标商品。
在本发明一实施例中,所述装置还包括:
标准文档第二提取子模块,用于从所述标准文档中提取所有商品的昨日商品数据和前日商品数据;
有效商品数量确定模块,用于分别确定所述昨日商品数据和所述前日商品数据中的有效商品数量,并将所述有效商品数量进行平台归类,得到每个平台的昨日商品数量和前日商品数量,以及将所述有效商品数量进行子类归类,得到各个子类下的昨日商品数量和前日商品数量;
两日商品数量比较模块,用于将同一平台的昨日商品数量和前日商品数量进行比较,以及将同一子类的昨日商品数量和前日商品数量进行比较;
平台异常警告模块,用于在同一平台或同一子类的昨日商品数量小于前日商品数量,且所述昨日商品数量较所述前日商品数量减少的比例超过预定比例的情况下,发出针对该平台或该子类的异常警告。
在本发明一实施例中,所述装置还包括:
平台异常记录文档生成模块,用于针对所有已发出异常警告的平台的异常信息,生成平台异常记录文档;
平台两日商品数据统计模块,用于在同一平台的昨日商品数量大于前日商品数量的情况下,或在同一平台的昨日商品数量小于前日商品数量且昨日商品数量较前日商品数量减少的比例未超过预定比例的情况下,统计该平台的两日商品数据,其中,所述两日商品数据包括平台名称,昨日商品数量,前日商品数量,两日数量变化数,两日数量变化比例;
平台异常传输模块,用于将所述标准文档中的所有平台的两日商品数据写入数量变化文档,并将所述平台异常记录文档和所述数量变化文档传输给预设接收终端,所述预设接收终端用于根据所述平台异常记录文档,解除对相应平台的异常警告。
或,
子类异常记录文档生成模块,用于针对所有已发出异常警告的子类的异常信息,生成子类异常记录文档;
子类两日商品数据统计模块,用于在同一子类的昨日商品数量大于前日商品数量的情况下,或在同一子类的昨日商品数量小于前日商品数量且昨日商品数量较前日商品数量减少的比例未超过预定比例的情况下,统计该子类的两日商品数据,其中,所述两日商品数据包括子类名称,昨日商品数量,前日商品数量,两日数量变化数,两日数量变化比例;
子类异常传输模块,用于将所述标准文档中的所有子类的两日商品数据写入数量变化文档,将所述子类异常记录文档和所述数量变化文档传输给预设接收终端,所述预设接收终端用于根据所述子类异常记录文档,解除对相应子类的异常警告。
在本发明一实施例中,所述装置还包括:
数据清洗模块,用于将所述标准文档中的剩余商品的商品数据进行清洗,并将清洗后的商品数据再进行子类归类,以获得各个子类的商品子类集合;
子类集合拆分模块,用于针对任一子类,将该子类下的商品子类集合设为A集合,将A集合中的商品随机分为均等的B集合、C集合,其中,满足A=B∪C,
Figure BDA0003449434120000241
card(B)≈card(C);
子类指数计算模块,用于根据B集合、C集合中的商品价格变化,分别计算B集合的子类指数RB、C集合的子类指数RC,其中,所述RB与所述RC属于同一周期粒度下的指数;
数据质量判断模块,用于根据所述RB、所述RC,判断该子类的数据质量是否异常;其中,在(RB-1)(RC-1)>0且|RB-RC|>T的情况下,或者(RB-1)(RC-1)<0的情况下,确定该子类的数据质量异常,并发出针对该子类的数据质量异常信号,T表示指数阈值;在(RB-1)(RC-1)>0且|RB-RC|<T的情况下,确定该子类的数据质量无异常;
物价指数生成模块23具体用于在确定所述相同类型商品所属的目标子类的数据质量无异常的情况下,根据所述标准文档中的剩余商品的商品数据以及所述目标子类下的所述A集合,生成所述目标子类在不同周期粒度下的物价变化指数。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。“和/或”表示可以选择两者之中的任意一个,也可以两者都选择。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种基于大数据的物价实时监测方法和系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于大数据的物价实时监测方法,其特征在于,所述方法包括:
对多个平台中的相同类型商品进行自动匹配,并将匹配结果保存至标准文档中,以及将所述匹配结果中的各个所述相同类型商品归类至物价变化指数下设的多个子类中,其中,所述匹配结果包括出现在所述多个平台中的至少两个平台上的所述相同类型商品;
对所述标准文档中的商品进行异常监控,以确定处于异常状态的目标商品;
将所述标准文档中的所述处于异常状态的目标商品的商品数据去除,再根据所述标准文档中的剩余商品的商品数据以及所述相同类型商品所属的目标子类,生成所述目标子类在不同周期粒度下的物价变化指数。
2.根据权利要求1所述的基于大数据的物价实时监测方法,其特征在于,对多个平台中的相同类型商品进行自动匹配,包括:
获取多个平台中的同类型商品的批量数据,并对所述批量数据中的每个商品数据进行分词预处理,获得商品特征数据集,其中,所述商品数据包括商品描述、商品价格、采集时间、商品数量、销售状态、商家信息、商品链接以及平台数据,所述商品描述包括商品名称、品牌名称、商品型号、商品规格;
根据商品名称、品牌名称以及平台数据,将所述商品特征数据集进行品牌和平台归类,得到同平台且同品牌的平台-商品特征数据集;
将针对所述多个平台得到的所述平台-商品特征数据集进行重组,对重组后的数据中的商品描述和商品价格进行标准化描述处理,得到标准化平台-商品特征向量数据集;
对所述标准化平台-商品特征向量数据集进行聚类分析,并根据聚类分析的结果进行判断,以获得出现在所述多个平台中的至少两个平台上的所述相同类型商品。
3.根据权利要求1所述的基于大数据的物价实时监测方法,其特征在于,根据商品名称、品牌名称以及平台数据,将所述商品特征数据集进行品牌和平台归类,得到同平台且同品牌的平台-商品特征数据集,包括:
遍历所述商品特征数据集中的品牌名称,构建得到品牌词频库;其中,所述品牌词频库包括多个品牌关键词和所述品牌关键词对应的频次;
将所述商品特征数据集中的商品描述进行分词,之后遍历商品描述中的所有词语,并将所述所有词语与所述品牌词频库进行对比,以品牌名称为归类粒度,得到同品牌的商品特征数据集;
遍历所述同品牌的商品特征数据集中的平台数据,将同平台且同品牌的商品特征数据集进行归类,得到同平台且同品牌的平台-商品特征数据集。
4.根据权利要求1所述的基于大数据的物价实时监测方法,其特征在于,对所述标准化平台-商品特征向量数据集进行聚类分析,并根据聚类分析的结果进行判断,以获得出现在所述多个平台中的至少两个平台上的所述相同类型商品,包括:
通过聚类算法将所述标准化平台-商品特征向量数据集按所述属性分为K个聚类类别数,K的表达式为:
Figure FDA0003449434110000021
其中,m表示同商品名称同品牌名称的商品数量,[]表示取整数;
从所述标准化平台-商品特征向量数据集中随机选取K个数据点作为质心;
分别计算所述标准化平台-商品特征向量数据集中的每一个数据点距离K个质心中的每一个质心的欧式距离,并根据当前数据点的所有欧式距离中最短的欧式距离对应的目标质心,将当前数据点划分至所述目标质心所属集合中;
当所述标准化平台-商品特征向量数据集中的每个数据点均被划分至其各自目标质心所属集合后,重新计算所有集合中每一个集合的新质心K′,所述新质心K′的表达式为:
Figure FDA0003449434110000031
其中,n表示数据点的总数,xi表示第i个数据点;
将新质心K′与原质心之间的距离和预设阈值进行比较:
其中,在新质心K′与原质心之间的距离小于所述预设阈值的情况下,将所述新质心K′赋值给所述原质心并终止聚类;在新质心K′与原质心之间的距离大于所述预设阈值的情况下,从计算所述标准化平台-商品特征向量数据集中的每一个数据点距离K个质心中的每一个质心的欧式距离起开始迭代,直至计算所得的所有新质心均小于所述预设阈值并终止聚类;
将聚合完成后的相同类型商品整合为一个集合,之后判断集合中的平台数量,当平台数量大于等于2时,则保留所述集合中的当前商品并输出匹配结果,以获得出现在所述多个平台中的至少两个平台上的所述相同类型商品。
5.根据权利要求1所述的基于大数据的物价实时监测方法,其特征在于,对所述标准文档中的商品进行异常监控,以确定处于异常状态的目标商品,包括:
从所述标准文档中提取单个商品的昨日价格和前日价格,判断当前商品的所述昨日价格是否为有效价格,其中,当昨日价格变化在预定价格范围外时,则确定所述昨日价格为异常价格,并将该商品纳入异常价格记录;当所述昨日价格变化在预定价格范围内时,则确定所述昨日价格为有效价格;
判断该商品纳入有效价格的计算周期是否达到预定周期,其中,当所述计算周期小于所述预定周期时,则发出针对该商品的待观察信号;当所述计算周期等于或大于所述预定周期时,则将该商品写入异常监控文档;
对所述异常监控文档中的该商品的销售状态、商品名称以及商品规格进行核查;
在该商品的销售状态为已售罄或已下架的情况下,或该商品的商品名称、商品规格任一发生变更的情况下,将该商品从所述异常监控文档中删除,同时将该商品从所述标准文档中删除;
在该商品的销售状态、商品名称以及商品规格均未发生变更的情况下,确定该商品为处于异常状态的目标商品;
所述方法还包括:对所述目标商品发出商品异常报警。
6.根据权利要求1所述的基于大数据的物价实时监测方法,其特征在于,对所述标准文档中的商品进行异常监控,以确定处于异常状态的目标商品,包括:
根据所述标准文档,从抓取的原始数据中提取所有商品的昨日商品数据;
使用正则表达式对所述昨日商品数据中的预设商品字段进行筛选;其中,所述预设商品字段包括下架、已下柜、商品已删除、售馨、商品不存在、无货、商品已售完、页面无法打开;
根据所述预设商品字段,对所述昨日商品数据中的每个商品是否已失效进行判断;
当确定某一商品已失效的情况下,对该商品标记已失效标签,并将标记有已失效标签的商品的商品数据从所述昨日商品数据中清除;
调取标记有已失效标签的商品的历史记录,并根据所述历史记录,判断该商品是否连续预设天数均标记为已失效标签;
在该商品连续预设天数均标记为已失效标签的情况下,确定该商品为处于异常状态的目标商品。
7.根据权利要求1所述的基于大数据的物价实时监测方法,其特征在于,所述方法还包括:
从所述标准文档中提取所有商品的昨日商品数据和前日商品数据;
分别确定所述昨日商品数据和所述前日商品数据中的有效商品数量,并将所述有效商品数量进行平台归类,得到每个平台的昨日商品数量和前日商品数量,以及将所述有效商品数量进行子类归类,得到各个子类下的昨日商品数量和前日商品数量;
将同一平台的昨日商品数量和前日商品数量进行比较,以及将同一子类的昨日商品数量和前日商品数量进行比较;
在同一平台或同一子类的昨日商品数量小于前日商品数量,且所述昨日商品数量较所述前日商品数量减少的比例超过预定比例的情况下,发出针对该平台或该子类的异常警告。
8.根据权利要求7所述的基于大数据的物价实时监测方法,其特征在于,所述方法还包括:
针对所有已发出异常警告的平台的异常信息,生成平台异常记录文档;
在同一平台的昨日商品数量大于前日商品数量的情况下,或在同一平台的昨日商品数量小于前日商品数量且昨日商品数量较前日商品数量减少的比例未超过预定比例的情况下,统计该平台的两日商品数据,其中,所述两日商品数据包括平台名称,昨日商品数量,前日商品数量,两日数量变化数,两日数量变化比例;
将所述标准文档中的所有平台的两日商品数据写入数量变化文档,并将所述平台异常记录文档和所述数量变化文档传输给预设接收终端,所述预设接收终端用于根据所述平台异常记录文档,解除对相应平台的异常警告;
或,
针对所有已发出异常警告的子类的异常信息,生成子类异常记录文档;
在同一子类的昨日商品数量大于前日商品数量的情况下,或在同一子类的昨日商品数量小于前日商品数量且昨日商品数量较前日商品数量减少的比例未超过预定比例的情况下,统计该子类的两日商品数据,其中,所述两日商品数据包括子类名称,昨日商品数量,前日商品数量,两日数量变化数,两日数量变化比例;
将所述标准文档中的所有子类的两日商品数据写入数量变化文档,将所述子类异常记录文档和所述数量变化文档传输给预设接收终端,所述预设接收终端用于根据所述子类异常记录文档,解除对相应子类的异常警告。
9.根据权利要求1所述的基于大数据的物价实时监测方法,其特征在于,在将所述标准文档中的所述处于异常状态的目标商品的商品数据去除后,所述方法还包括:
将所述标准文档中的剩余商品的商品数据进行清洗,并将清洗后的商品数据再进行子类归类,以获得各个子类的商品子类集合;
针对任一子类,将该子类下的商品子类集合设为A集合,将A集合中的商品随机分为均等的B集合、C集合,其中,满足A=B∪C,
Figure FDA0003449434110000061
card(B)≈card(C);
根据B集合、C集合中的商品价格变化,分别计算B集合的子类指数RB、C集合的子类指数RC,其中,所述RB与所述RC属于同一周期粒度下的指数;
根据所述RB、所述RC,判断该子类的数据质量是否异常;其中,在(RB-1)(RC-1)>0且|RB-RC|>T的情况下,或者(RB-1)(RC-1)<0的情况下,确定该子类的数据质量异常,并发出针对该子类的数据质量异常信号,T表示指数阈值;在(RB-1)(RC-1)>0且|RB-RC|<T的情况下,确定该子类的数据质量无异常;
所述根据所述标准文档中的剩余商品的商品数据以及所述相同类型商品所属的目标子类,生成所述目标子类在不同周期粒度下的物价变化指数的步骤包括:
在确定所述相同类型商品所属的目标子类的数据质量无异常的情况下,根据所述标准文档中的剩余商品的商品数据以及所述目标子类下的所述A集合,生成所述目标子类在不同周期粒度下的物价变化指数。
10.一种基于大数据的物价实时监测系统,其特征在于,所述系统包括:
跨平台商品匹配模块,用于对多个平台中的相同类型商品进行自动匹配,并将匹配结果保存至标准文档中,以及将所述匹配结果中的各个所述相同类型商品归类至物价变化指数下设的多个子类中,其中,所述匹配结果包括出现在所述多个平台中的至少两个平台上的所述相同类型商品;
日常监测模块,用于对所述标准文档中的商品进行异常监控,以确定处于异常状态的目标商品;
物价指数生成模块,用于将所述标准文档中的所述处于异常状态的目标商品的商品数据去除,再根据所述标准文档中的剩余商品的商品数据以及所述相同类型商品所属的目标子类,生成所述目标子类在不同周期粒度下的物价变化指数。
CN202111670800.0A 2021-12-31 2021-12-31 一种基于大数据的物价实时监测方法和系统 Pending CN114358879A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111670800.0A CN114358879A (zh) 2021-12-31 2021-12-31 一种基于大数据的物价实时监测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111670800.0A CN114358879A (zh) 2021-12-31 2021-12-31 一种基于大数据的物价实时监测方法和系统

Publications (1)

Publication Number Publication Date
CN114358879A true CN114358879A (zh) 2022-04-15

Family

ID=81105635

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111670800.0A Pending CN114358879A (zh) 2021-12-31 2021-12-31 一种基于大数据的物价实时监测方法和系统

Country Status (1)

Country Link
CN (1) CN114358879A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116911914A (zh) * 2023-09-08 2023-10-20 杭州联海网络科技有限公司 一种基于可视化终端的营销管理方法与系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116911914A (zh) * 2023-09-08 2023-10-20 杭州联海网络科技有限公司 一种基于可视化终端的营销管理方法与系统

Similar Documents

Publication Publication Date Title
CN111797210A (zh) 基于用户画像的信息推荐方法、装置、设备及存储介质
CN112785397A (zh) 一种产品推荐方法、装置及存储介质
EP3686756A1 (en) Method and apparatus for grouping data records
US20190114711A1 (en) Financial analysis system and method for unstructured text data
CN110111167A (zh) 一种确定推荐对象的方法和装置
CN116308684B (zh) 一种网购平台店铺信息推送方法及系统
CN111666275A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN114297509A (zh) 用户兴趣向量生成方法、产品推荐方法、装置、设备、介质
CN115422028A (zh) 标签画像体系的可信度评估方法、装置、电子设备及介质
CN114358879A (zh) 一种基于大数据的物价实时监测方法和系统
CN114357184A (zh) 事项推荐方法及相关装置、电子设备和存储介质
CN113392920A (zh) 生成作弊预测模型的方法、装置、设备、介质及程序产品
CN116823410A (zh) 数据处理方法、对象处理方法、推荐方法及计算设备
CN112667770A (zh) 一种对物品进行分类的方法和装置
CN116186541A (zh) 一种推荐模型的训练方法及装置
CN115827994A (zh) 一种数据处理方法、装置、设备、存储介质
CN114429384B (zh) 基于电商平台的产品智能推荐方法及系统
CN110796505A (zh) 一种业务对象推荐方法以及装置
CN114169418A (zh) 标签推荐模型训练方法及装置、标签获取方法及装置
CN114139798A (zh) 企业风险预测方法、装置及电子设备
CN108985811A (zh) 用于精准营销的方法、装置及电子设备
CN113327145A (zh) 一种物品推荐方法和装置
CN113052222A (zh) 特征分箱方法、电子设备及存储介质
CN112598185A (zh) 农业舆情分析方法、装置、设备及存储介质
CN114021788B (zh) 预测方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination