CN113393245A - 基于电商运营数据识别刷单店铺的预警方法及系统 - Google Patents

基于电商运营数据识别刷单店铺的预警方法及系统 Download PDF

Info

Publication number
CN113393245A
CN113393245A CN202110683402.6A CN202110683402A CN113393245A CN 113393245 A CN113393245 A CN 113393245A CN 202110683402 A CN202110683402 A CN 202110683402A CN 113393245 A CN113393245 A CN 113393245A
Authority
CN
China
Prior art keywords
shop
data
commodity
brushing
early warning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110683402.6A
Other languages
English (en)
Inventor
贾晓萌
谢传家
姚民伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Original Assignee
Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chaozhou Zhuoshu Big Data Industry Development Co Ltd filed Critical Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority to CN202110683402.6A priority Critical patent/CN113393245A/zh
Publication of CN113393245A publication Critical patent/CN113393245A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Accounting & Taxation (AREA)
  • Medical Informatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于电商运营数据识别刷单店铺的预警方法及系统,属于电商平台信息技术领域,本发明要解决的技术问题为如何及时向消费者提醒店铺经营者是否对店铺内商品进行了刷单行为,降低消费者的交易风险,采用的技术方案为:该方法是通过采集电子商务平台的商品及店铺的综合信息,通过对店铺top商品进行集中分析,识别页面展示的商品销量是否为真实销量,并根据识别结果进行刷单预警;具体如下:信息爬取:通过对主流电商平台的店铺及商品信息进行爬取,获取店铺唯一标识id、商品id及商品销量的信息;筛选店铺:通过制定的筛选规则,并借助数据库工具缩小刷单店铺的检查范围;建立店铺刷单预警模型。

Description

基于电商运营数据识别刷单店铺的预警方法及系统
技术领域
本发明涉及电商平台信息技术领域,具体地说是一种基于电商运营数据识别刷单店铺的预警方法及系统。
背景技术
电商与人们的生活密切相关,为了节省购物时间和人力成本,以及得到其它消费者的评价参考,越来越多的消费者选择在电商平台内购物。在商品搜索列表页中,平台通常会按照销量降序排列来向消费者展示商品,这是一种非常合理的做法,因为受到更多消费者青睐的商品可能在品质、价格等方面都比较有优势。与此同时,这种按照销量降序推荐的方法也让很多店铺经营者看到了“作弊”的可能性——刷单。为了更好的吸引顾客,部分卖家会通过刷单来提高自己网店的销量和排名,使得部分网购经验不丰富的消费者掉入销量陷阱,造成不好的购物体验,损害了消费者的合法权益。因此如果消费者能提前知道店铺是否存在刷单行为,进而在购物时提高警惕是非常必要的。电子商务经营者应当全面、真实、准确、及时地披露商品或者服务信息,不得以虚构交易、编造用户评价等方式进行虚假或者引人误解的商业宣传,欺骗、误导消费者。也就是说,卖家应展示商品的真实销量、商品评价等信息,刷单是一种违法行为。
网络购物正凭借其方便快捷、选择性多等特点被越来越多人所接受,足不出户便可享受到购物的乐趣。然而网络购物中存在着很多陷阱,消费者稍不注意就可能导致自身权益受到损害。比如说,当消费者使用搜索功能查找商品时,在搜索列表页,平台默认的排序规则是按照商品相关度和商品销量降序排列,假如有两家店铺同时经营同种类型的商品,那么此时销量高的店铺的商品将排在更前面的位置,更容易被消费者看到。由于这种排序规则的存在,许多卖家会通过人为的刷单将自己店铺中商品的销量提高使其排在搜索列表页的前面,如果该店的商品质量不过关或者存在其它任何问题,许多缺乏经验的消费者就会以错误的排名做参考,购买到名不副实的商品。当前的技术,主要集中在依据评价对消费者推荐店铺层面,缺乏对经营者的关注。
综上所述,如何及时向消费者提醒店铺经营者是否对店铺内商品进行了刷单行为,降低消费者的交易风险是目前亟待解决的技术问题。
发明内容
本发明的技术任务是提供一种基于电商运营数据识别刷单店铺的预警方法及系统,来解决如何及时向消费者提醒店铺经营者是否对店铺内商品进行了刷单行为,降低消费者的交易风险的问题。
本发明的技术任务是按以下方式实现的,一种基于电商运营数据识别刷单店铺的预警方法,该方法是通过采集电子商务平台的商品及店铺的综合信息,通过对店铺top商品进行集中分析,识别页面展示的商品销量是否为真实销量,并根据识别结果进行刷单预警;具体如下:
信息爬取:通过对主流电商平台的店铺及商品信息进行爬取,获取店铺唯一标识id、商品id及商品销量的信息;
筛选店铺:通过制定的筛选规则,并借助数据库工具缩小刷单店铺的检查范围;
建立店铺刷单预警模型(随机森林分类模型):通过建立店铺刷单预警模型对检查范围内店铺中的高销量商品进行判定,输出对应店铺的高销量商品是否为刷单商品以及对应店铺是否为刷单店铺,并将结果提供给消费者参考。
作为优选,信息爬取具体如下:
利用爬虫技术,获取既定周期内电商平台的商品经营数据;其中,商品经营数据包括商品id、商品名称、商品销量及商品销售额;
利用爬虫技术获取到商品与店铺的唯一对应关系以及单个商品销量与店铺内最高销量的比值,并存储到数据库中。
作为优选,筛选店铺具体如下:
利用分布式数据处理和过滤技术,将所有可能存在刷单行为的商品提取出来;
通过商品和店铺的对应关系得到所有可能存在刷单行为的店铺,将店铺信息存储到数据库中。
更优地,筛选店铺过程中排除如下两个情况:
(1)、排除零部件和/或材料批发店铺:某些小零件,比如螺母、轴承等通常都由工厂批发,且容易与其他零部件捆绑购买,造成销量过高以及销量极其近似的情况,其他材料商品比如塑料、纸板等会出现相同情况,因此将这类店铺排除在外;
(2)、排除低销量店铺:月度总销量低于5000的店铺不予以考虑:排除零部件/材料批发店铺是因为该类店铺在不刷单的情况下依然可能造成销量过高以及销量极其近似的情况,我们不必过多关注;排除低销量店铺是因为通常店铺刷单的数量都会大于10000件,月度总销量小于5000的店铺我们默认不存在刷单情况;销量相似的商品数越多的店铺存在刷单行为的风险越大,消费者需要多加关注,对于实在难以通过现有数据判断是否刷单的店铺,需结合阿里妈妈接口返回的真实成交量来进行判断。
作为优选,建立店铺刷单预警模型具体如下:
数据集预处理;
构建店铺刷单预警模型;
数据分割及店铺刷单预警模型调优。
更优地,数据集预处理具体如下:
去除掉数据集中的索引维度,即暂时去掉user_id字段、shop_name字段及shop_url字段;
对数据集存在的空值进行补充:出现空值的字段由开店时长、店铺三项评分以及使用字段平均值对空值进行补充;
使用哑变量对数据集中存在非数值型的字段进行转换,将数据集中非数值型变量转换为数值型变量。
更优地,店铺刷单预警模型构建过程中采用随机森林来进行分类及预测任务,具体如下:
采用放回抽样的方式从数据集中抽取独立的店铺top商品数据;
随机从所有维度中抽取几个店铺top商品数据完成数据的自身构建。
更优地,数据分割及店铺刷单预警模型调优具体如下:
随机选择n个属性进行学习,使得OOBerror最小的属性个数n,在保证每个数据的OOBerror最小的同时,使得整个数据集的误差最小;其中,在放回抽样过程中未被抽取的数据称为袋外数据;使用袋外数据实时监测对应店铺top数据的误差,即OutOfBagError袋外误差,简称为OOBerror;
确定数据的数量m,确保数量m确定后,OOBerror不会再降低;
确定好参数m后,对随机森林进行训练,获取训练结果。
一种基于电商运营数据识别刷单店铺的预警系统,该系统包括,
爬取单元,用于通过对主流电商平台的店铺及商品信息进行爬取,获取店铺唯一标识id、商品id及商品销量的信息;
筛选单元,用于通过制定的筛选规则,并借助数据库工具缩小刷单店铺的检查范围;
模型建立单元,用于通过建立店铺刷单预警模型对检查范围内店铺中的高销量商品进行判定,输出对应店铺的高销量商品是否为刷单商品以及对应店铺是否为刷单店铺,并将结果提供给消费者参考;模型建立单元包括,
预处理模块,用于去除掉数据集中的索引维度,即暂时去掉user_id字段、shop_name字段及shop_url字段,并对数据集存在的空值进行补充:出现空值的字段由开店时长、店铺三项评分以及使用字段平均值对空值进行补充;同时使用哑变量对数据集中存在非数值型的字段进行转换,将数据集中非数值型变量转换为数值型变量;
构建模块,用于采用随机森林来进行分类及预测任务,具体是采用放回抽样的方式从数据集中抽取独立的店铺top商品数据;并随机从所有维度中抽取几个店铺top商品数据完成数据的自身构建;
调优模块,用于对随机森林进行训练,获取训练结果。
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行时,实现如上述的基于电商运营数据识别刷单店铺的预警方法。
本发明的基于电商运营数据识别刷单店铺的预警方法及系统具有以下优点:
(一)本发明通过采集到电子商务平台的商品及店铺的综合信息,比如销量、店铺id等等,使用店铺top5商品的销量、商品的真实成交量等数据,建立判别模型,对店铺经营者是否对店铺内top商品进行了刷单做出判断,消费者可以将模型判别结果作为购物参考,进一步提高购物体验,以免上当受骗;
(二)本发明应用于电商店铺刷单行为预警,及时向消费者提醒店铺经营者是否对店铺内商品进行了刷单,从而降低交易风险;
(三)本发明的目的是为消费者进行网络购物的时候,提醒该店铺是否为疑似刷单店铺,避免消费者因店铺经营者刷单导致的店铺排名过高而上当受骗,买到以次充好或者假冒伪劣的商品;
(四)本发明利用店铺类型、店铺销量、店铺主营类型、店铺内top商品销量及销量相似度等信息,通过建立随机森林分类模型,判断给定店铺是否存在刷单行为的可能性,为消费者购买商品提供店铺经营层面的参考。
附图说明
下面结合附图对本发明进一步说明。
附图1为基于电商运营数据识别刷单店铺的预警方法的流程框图;
附图2为学习参数n取值的示意图;
附图3为参数m取值的示意图;
附图4为实施例2的商品详情页截图;
附图5为实施例2的店铺页截图。
具体实施方式
参照说明书附图和具体实施例对本发明的基于电商运营数据识别刷单店铺的预警方法及系统作以下详细地说明。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接连接,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例:
如附图1所示,本发明的基于电商运营数据识别刷单店铺的预警方法,该方法是通过采集电子商务平台的商品及店铺的综合信息,通过对店铺top商品进行集中分析,识别页面展示的商品销量是否为真实销量,并根据识别结果进行刷单预警;具体如下:
S1、信息爬取:通过对主流电商平台的店铺及商品信息进行爬取,获取店铺唯一标识id、商品id及商品销量的信息;
S2、筛选店铺:通过制定的筛选规则,并借助数据库工具缩小刷单店铺的检查范围;
S3、建立店铺刷单预警模型(随机森林分类模型):通过建立店铺刷单预警模型对检查范围内店铺中的高销量商品进行判定,输出对应店铺的高销量商品是否为刷单商品以及对应店铺是否为刷单店铺,并将结果提供给消费者参考。
本实施例中步骤S1的信息爬取具体如下:
S101、利用爬虫技术,获取既定周期内电商平台的商品经营数据;其中,商品经营数据包括商品id、商品名称、商品销量及商品销售额;
S102、利用爬虫技术获取到商品与店铺的唯一对应关系以及单个商品销量与店铺内最高销量的比值,并存储到数据库中。
本实施例中步骤S2的筛选店铺具体如下:
S201、利用分布式数据处理和过滤技术,将所有可能存在刷单行为的商品提取出来;
S202、通过商品和店铺的对应关系得到所有可能存在刷单行为的店铺,将店铺信息存储到数据库中。
本实施例中步骤S2的筛选店铺过程中排除如下两个情况:
(1)、排除零部件和/或材料批发店铺:某些小零件,比如螺母、轴承等通常都由工厂批发,且容易与其他零部件捆绑购买,造成销量过高以及销量极其近似的情况,其他材料商品比如塑料、纸板等会出现相同情况,因此将这类店铺排除在外;
(2)、排除低销量店铺:月度总销量低于5000的店铺不予以考虑:排除零部件/材料批发店铺是因为该类店铺在不刷单的情况下依然可能造成销量过高以及销量极其近似的情况,我们不必过多关注;排除低销量店铺是因为通常店铺刷单的数量都会大于10000件,月度总销量小于5000的店铺我们默认不存在刷单情况;销量相似的商品数越多的店铺存在刷单行为的风险越大,消费者需要多加关注,对于实在难以通过现有数据判断是否刷单的店铺,需结合阿里妈妈接口返回的真实成交量来进行判断。
本实施例中步骤S3的建立店铺刷单预警模型具体如下:
S301、数据集预处理;
S302、构建店铺刷单预警模型;
S303、数据分割及店铺刷单预警模型调优。
本实施例中步骤S301的数据集预处理具体如下:
S30101、本发明使用数据集数据量较小,约包含3000条电商运营数据,数据维度为21维,去除掉数据集中的索引维度,即暂时去掉user_id字段、shop_name字段及shop_url字段;
S30102、对数据集存在的空值进行补充:出现空值的字段由开店时长、店铺三项评分以及使用字段平均值对空值进行补充;
S30103、使用哑变量对数据集中存在非数值型的字段进行转换,将数据集中非数值型变量转换为数值型变量。
本实施例中步骤S302的店铺刷单预警模型构建过程中采用随机森林来进行分类及预测任务,具体如下:
S30201、采用放回抽样的方式从数据集中抽取独立的店铺top商品数据;
S30202、随机从所有维度中抽取几个店铺top商品数据完成数据的自身构建。
由于尝试数据量较小、数据维度适中,大多数机器学习算法都能完成此次任务,又由于随机森林具有性能高、可解释性强、调优方便等特点,因此采用随机森林来进行此次分类/预测任务。
随机森林算法,顾名思义其具有“随机”的特点,并且由许多棵“树”构成一个森林。“随机”包含两层含义:①每棵“树”都会从总数据集中抽取独立的数据,采用放回抽样的方法,因此,总数据集中的数据可能被抽取很多次,也可能从未被当前“树”所采用,该部分未被采用的数据我们称之为袋外数据,后续在参数调优的时候袋外数据将用来实时监测本棵“树”的误差,即OutOfBagError袋外误差,在后文中我们简称为OOBerror。②每棵“树”在生成的时候并没有选用所有的数据维度,而是随机的从所有维度中抽取少量几个来完成自身的构建。经过上述的两个随机抽取过程,我们可以有效地保证数据的随机性,防止由于各个分类器对相同数据学习太多次而造成过拟合。“森林”的含义则十分简单,在每棵单独的“树”生成判定结果之后,“森林”会统计所有判定结果,并通过简单随机投票的方法来输出最后结果。
本实施例中步骤S303的数据分割及店铺刷单预警模型调优具体如下:
S30301、随机选择n个属性进行学习,使得OOBerror最小的属性个数n,在保证每个数据的OOBerror最小的同时,使得整个数据集的误差最小;其中,在放回抽样过程中未被抽取的数据称为袋外数据;使用袋外数据实时监测对应店铺top数据的误差,即OutOfBagError袋外误差,简称为OOBerror;
S30302、确定数据的数量m,确保数量m确定后,OOBerror不会再降低;
S303003、确定好参数m后,对随机森林进行训练,获取训练结果。
在本次任务中,我们将训练集与测试集比例定为7∶3。
接下来是随机森林算法的参数调优过程,之前已经提到过,每棵“树”(分类器)在生成之前会随机选择n个属性进行学习,我们要找到使得OOBerror最小的属性个数n,在保证每棵“树”的OOBerror最小的同时,使得整个森林的误差最小,如附图2所示。
除此之外,整个森林包含的“树”的棵数m也是一个重要的参数,通常来讲在m到达一定值之后,整个算法的OOBerror不会再降低,继续增加森林的复杂程度只会白白消耗时间和算力,因此要选择合适的m值,如附图3所示。
确定好参数之后,我们就可以对随机森林进行训练,训练结果如下:
Figure BDA0003123609070000071
可以看到,当前的分类器对正常店铺的识别精度接近99%,而对异常刷单店铺的识别精度达到了93.3%,性能比较优异,且符合我们的预期。
实施例2:
以某宝店铺为例,具体步骤如下:
(1)、数据搜集:通过商品详情页,进一步收集到上述所需店铺信息,如附图4所示;
(2)、全量月度店铺筛选:通过分布式数据处理技术,筛选出疑似存在刷单行为的店铺;
注:主要是通过店铺中top商品的销量来判断。如附图5所示,在销量极大的情况下,如果某店铺中头部商品的销量十分接近,则认为该店铺有刷单行为。
(3)、算法预测输出结果:数据准备工作完成,模型参数调优完毕之后,将准备好的数据导入我们的模型,让其自动学习正常店铺与异常刷单店铺的显著特点,以后在面对新的店铺数据时可以做到精准识别。
实施例3:
本发明的基于电商运营数据识别刷单店铺的预警系统,该系统包括,
爬取单元,用于通过对主流电商平台的店铺及商品信息进行爬取,获取店铺唯一标识id、商品id及商品销量的信息;
筛选单元,用于通过制定的筛选规则,并借助数据库工具缩小刷单店铺的检查范围;
模型建立单元,用于通过建立店铺刷单预警模型对检查范围内店铺中的高销量商品进行判定,输出对应店铺的高销量商品是否为刷单商品以及对应店铺是否为刷单店铺,并将结果提供给消费者参考;模型建立单元包括,
预处理模块,用于去除掉数据集中的索引维度,即暂时去掉user_id字段、shop_name字段及shop_url字段,并对数据集存在的空值进行补充:出现空值的字段由开店时长、店铺三项评分以及使用字段平均值对空值进行补充;同时使用哑变量对数据集中存在非数值型的字段进行转换,将数据集中非数值型变量转换为数值型变量;
构建模块,用于采用随机森林来进行分类及预测任务,具体是采用放回抽样的方式从数据集中抽取独立的店铺top商品数据;并随机从所有维度中抽取几个店铺top商品数据完成数据的自身构建;
调优模块,用于对随机森林进行训练,获取训练结果。
实施例4:
本发明实施例还提供了一种计算机可读存储介质,其中存储有多条指令,指令由处理器加载,使处理器执行本发明任一实施例中的基于电商运营数据识别刷单店铺的预警方法。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于电商运营数据识别刷单店铺的预警方法,其特征在于,该方法是通过采集电子商务平台的商品及店铺的综合信息,通过对店铺top商品进行集中分析,识别页面展示的商品销量是否为真实销量,并根据识别结果进行刷单预警;具体如下:
信息爬取:通过对主流电商平台的店铺及商品信息进行爬取,获取店铺唯一标识id、商品id及商品销量的信息;
筛选店铺:通过制定的筛选规则,并借助数据库工具缩小刷单店铺的检查范围;
建立店铺刷单预警模型:通过建立店铺刷单预警模型对检查范围内店铺中的高销量商品进行判定,输出对应店铺的高销量商品是否为刷单商品以及对应店铺是否为刷单店铺,并将结果提供给消费者参考。
2.根据权利要求1所述的基于电商运营数据识别刷单店铺的预警方法,其特征在于,信息爬取具体如下:
利用爬虫技术,获取既定周期内电商平台的商品经营数据;其中,商品经营数据包括商品id、商品名称、商品销量及商品销售额;
利用爬虫技术获取到商品与店铺的唯一对应关系以及单个商品销量与店铺内最高销量的比值,并存储到数据库中。
3.根据权利要求1所述的基于电商运营数据识别刷单店铺的预警方法,其特征在于,筛选店铺具体如下:
利用分布式数据处理和过滤技术,将所有可能存在刷单行为的商品提取出来;
通过商品和店铺的对应关系得到所有可能存在刷单行为的店铺,将店铺信息存储到数据库中。
4.根据权利要求3所述的基于电商运营数据识别刷单店铺的预警方法,其特征在于,筛选店铺过程中排除如下两个情况:
(1)、排除零部件和/或材料批发店铺;
(2)、排除低销量店铺:月度总销量低于5000的店铺不予以考虑。
5.根据权利要求1所述的基于电商运营数据识别刷单店铺的预警方法,其特征在于,建立店铺刷单预警模型具体如下:
数据集预处理;
构建店铺刷单预警模型;
数据分割及店铺刷单预警模型调优。
6.根据权利要求5所述的基于电商运营数据识别刷单店铺的预警方法,其特征在于,数据集预处理具体如下:
去除掉数据集中的索引维度,即暂时去掉user_id字段、shop_name字段及shop_url字段;
对数据集存在的空值进行补充:出现空值的字段由开店时长、店铺三项评分以及使用字段平均值对空值进行补充;
使用哑变量对数据集中存在非数值型的字段进行转换,将数据集中非数值型变量转换为数值型变量。
7.根据权利要求5所述的基于电商运营数据识别刷单店铺的预警方法,其特征在于,店铺刷单预警模型构建过程中采用随机森林来进行分类及预测任务,具体如下:
采用放回抽样的方式从数据集中抽取独立的店铺top商品数据;
随机从所有维度中抽取几个店铺top商品数据完成数据的自身构建。
8.根据权利要求5所述的基于电商运营数据识别刷单店铺的预警方法,其特征在于,数据分割及店铺刷单预警模型调优具体如下:
随机选择n个属性进行学习,使得OOBerror最小的属性个数n,在保证每个数据的OOBerror最小的同时,使得整个数据集的误差最小;其中,在放回抽样过程中未被抽取的数据称为袋外数据;使用袋外数据实时监测对应店铺top数据的误差,即OutOfBagError袋外误差,简称为OOBerror;
确定数据的数量m,确保数量m确定后,OOBerror不会再降低;
确定好参数m后,对随机森林进行训练,获取训练结果。
9.一种基于电商运营数据识别刷单店铺的预警系统,其特征在于,该系统包括,
爬取单元,用于通过对主流电商平台的店铺及商品信息进行爬取,获取店铺唯一标识id、商品id及商品销量的信息;
筛选单元,用于通过制定的筛选规则,并借助数据库工具缩小刷单店铺的检查范围;
模型建立单元,用于通过建立店铺刷单预警模型对检查范围内店铺中的高销量商品进行判定,输出对应店铺的高销量商品是否为刷单商品以及对应店铺是否为刷单店铺,并将结果提供给消费者参考;模型建立单元包括,
预处理模块,用于去除掉数据集中的索引维度,即暂时去掉user_id字段、shop_name字段及shop_url字段,并对数据集存在的空值进行补充:出现空值的字段由开店时长、店铺三项评分以及使用字段平均值对空值进行补充;同时使用哑变量对数据集中存在非数值型的字段进行转换,将数据集中非数值型变量转换为数值型变量;
构建模块,用于采用随机森林来进行分类及预测任务,具体是采用放回抽样的方式从数据集中抽取独立的店铺top商品数据;并随机从所有维度中抽取几个店铺top商品数据完成数据的自身构建;
调优模块,用于对随机森林进行训练,获取训练结果。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行时,实现如权利要求1至8中任一所述的基于电商运营数据识别刷单店铺的预警方法。
CN202110683402.6A 2021-06-21 2021-06-21 基于电商运营数据识别刷单店铺的预警方法及系统 Withdrawn CN113393245A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110683402.6A CN113393245A (zh) 2021-06-21 2021-06-21 基于电商运营数据识别刷单店铺的预警方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110683402.6A CN113393245A (zh) 2021-06-21 2021-06-21 基于电商运营数据识别刷单店铺的预警方法及系统

Publications (1)

Publication Number Publication Date
CN113393245A true CN113393245A (zh) 2021-09-14

Family

ID=77623090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110683402.6A Withdrawn CN113393245A (zh) 2021-06-21 2021-06-21 基于电商运营数据识别刷单店铺的预警方法及系统

Country Status (1)

Country Link
CN (1) CN113393245A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114358882A (zh) * 2022-01-06 2022-04-15 安徽易商数码科技有限公司 一种农村电商运营数据处理方法
CN114626885A (zh) * 2022-03-17 2022-06-14 华院分析技术(上海)有限公司 一种基于大数据的零售管理方法和系统
CN115131070A (zh) * 2022-07-12 2022-09-30 浪潮卓数大数据产业发展有限公司 一种在线商品预定量虚标的识别及处理方法及装置
CN117993738A (zh) * 2024-04-03 2024-05-07 深圳美云集网络科技有限责任公司 一种用于多场景的电商运营预警方法和系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114358882A (zh) * 2022-01-06 2022-04-15 安徽易商数码科技有限公司 一种农村电商运营数据处理方法
CN114626885A (zh) * 2022-03-17 2022-06-14 华院分析技术(上海)有限公司 一种基于大数据的零售管理方法和系统
CN115131070A (zh) * 2022-07-12 2022-09-30 浪潮卓数大数据产业发展有限公司 一种在线商品预定量虚标的识别及处理方法及装置
CN115131070B (zh) * 2022-07-12 2023-07-18 浪潮卓数大数据产业发展有限公司 一种在线商品预定量虚标的识别及处理方法及装置
CN117993738A (zh) * 2024-04-03 2024-05-07 深圳美云集网络科技有限责任公司 一种用于多场景的电商运营预警方法和系统

Similar Documents

Publication Publication Date Title
CN110222272B (zh) 一种潜在客户挖掘与推荐方法
Olson et al. Advanced data mining techniques
CN108573432B (zh) 用于电子商务的交易监管系统和方法
CN113393245A (zh) 基于电商运营数据识别刷单店铺的预警方法及系统
US10860634B2 (en) Artificial intelligence system and method for generating a hierarchical data structure
US20150332414A1 (en) System and method for predicting items purchased based on transaction data
CN108921602B (zh) 一种基于集成神经网络的用户购买行为预测方法
CN110347924A (zh) 果蔬商城管理系统及果蔬信息推送方法
Gangurde et al. Building prediction model using market basket analysis
CN111882420A (zh) 响应率的生成方法、营销方法、模型训练方法及装置
CN115409577A (zh) 基于用户行为及环境信息的智能货柜复购预测方法及系统
CN117350766A (zh) 一种基于私域电商平台的数据处理方法、系统及存储介质
CN116611796B (zh) 一种店铺交易数据的异常检测方法及装置
CN111275480B (zh) 面向多维稀疏销售数据仓库的欺诈行为挖掘方法
CN114971083A (zh) 一种货物购买预测出售的方法
CN114266594A (zh) 一种基于东南亚跨境电商平台的大数据分析方法
CN111143575B (zh) 一种店铺商品结构的优化方法及系统
JP6064963B2 (ja) 売上管理装置及びプログラム
CN117236996B (zh) 一种基于大数据分析的用户行为预测方法和系统
Weng et al. The study and verification of mathematical modeling for customer purchasing behavior
Praveen et al. Big Mart Sales using Hybrid Learning Framework with Data Analysis
US20230245152A1 (en) Local trend and influencer identification using machine learning predictive models
KR102483987B1 (ko) 오픈마켓 내 타겟 제품 및 타겟 시장에 대한 자동화 분석 방법 및 시스템
CN117035947B (zh) 基于大数据处理的农产品数据分析方法及云平台
Gerdelius et al. Detecting Fraudulent User Behaviour: A Study of User Behaviour and Machine Learning in Fraud Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210914