CN107146089A - 一种刷单识别方法及装置,电子设备 - Google Patents

一种刷单识别方法及装置,电子设备 Download PDF

Info

Publication number
CN107146089A
CN107146089A CN201710199149.0A CN201710199149A CN107146089A CN 107146089 A CN107146089 A CN 107146089A CN 201710199149 A CN201710199149 A CN 201710199149A CN 107146089 A CN107146089 A CN 107146089A
Authority
CN
China
Prior art keywords
behavior
user
default
feature
trade company
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710199149.0A
Other languages
English (en)
Other versions
CN107146089B (zh
Inventor
曾轲
李露
龚能
王翰森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201710199149.0A priority Critical patent/CN107146089B/zh
Publication of CN107146089A publication Critical patent/CN107146089A/zh
Application granted granted Critical
Publication of CN107146089B publication Critical patent/CN107146089B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud

Landscapes

  • Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种刷单识别方法,属于计算机技术领域,用于解决现有技术中对刷单行为的识别覆盖面有限,识别准确率低的问题。所述方法包括:获取商户的用户行为特征;通过预先训练的刷单识别模型,基于所述用户行为特征对所述商户进行刷单识别;其中,所述用户行为特征至少包括用户群体行为特征。本申请公开的方法,通过基于群体用户行为特征对刷单商户进行识别,充分考虑了刷单商户的用户行为的群体趋同性和协同性,相对于基于用户身份信息或地理位置、评论内容一致性等信息对刷单商户进行识别具有更高的准确率。

Description

一种刷单识别方法及装置,电子设备
技术领域
本申请涉及计算机技术领域,特别是涉及一种刷单识别方法及装置,电子设备。
背景技术
刷单是商户付款请人假扮顾客或商户自己,用以假乱真的购物方式提高网店的排名和销量获取销量及好评吸引顾客的一种方法。由于商户的刷单的行为会提高商户排名,导致普通用户获取到的商户信息不真实,因此,急需对刷单行为进行检测,并采取相应处理方式。现有技术中,对刷单行为检测的方法主要包括:Agent-Based发帖机器人检测与识别和基于用户可信身份(如:电话、银行账号、支付宝等)的账户识别。AgentBased适用于IP地址、地理位置、发送内容雷同、信息集中等特性的刷单行为,如刷单机器人。而基于可信用评估的方法对于专业刷单的个体用户识别效果较好,而对于商户自主刷单的行为识别准确度较差,对于商户雇佣草根用户(Grass Root)的进行刷单行为识别准确度也较差。
可见,现有技术中的刷单识别方法至少存在:对刷单行为的识别覆盖面有限,识别准确率低的问题。
发明内容
本申请提供一种刷单识别方法,解决现有技术中对刷单行为的识别覆盖面有限,识别准确率低的问题。
为了解决上述问题,第一方面,本申请实施例提供了一种刷单识别方法,包括:
获取商户的用户行为特征;
通过预先训练的刷单识别模型,基于所述用户行为特征对所述商户进行刷单识别;
其中,所述用户行为特征至少包括用户群体行为特征。
第二方面,本申请实施例提供了一种刷单识别装置,包括:
特征获取模块,用于获取商户的用户行为特征;
识别模块,用于通过预先训练的刷单识别模型,基于所述用户行为特征对所述商户进行刷单识别;
其中,所述用户行为特征至少包括用户群体行为特征。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现本申请实施例所述的刷单识别方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本申请实施例所述刷单识别方法的步骤。
本申请实施例公开的刷单识别方法,通过获取商户的用户行为特征,然后,通过预先训练的刷单识别模型,基于所述用户行为特征对所述商户进行刷单识别,其中,所述用户行为特征至少包括用户群体行为特征,解决了现有技术中对刷单行为的识别覆盖面有限,识别准确率低的问题。通过基于群体用户行为特征对刷单商户进行识别,充分考虑了刷单商户的用户行为的群体趋同性和协同性,相对于基于用户身份信息或地理位置、评论内容一致性等信息对刷单商户进行识别具有更高的准确率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一刷单识别方法的流程图;
图2是本申请实施例二刷单识别方法的流程图;
图3是本申请实施例三刷单识别方法的流程图;
图4是本申请实施例四刷单识别装置的结构图之一;
图5是本申请实施例四刷单识别装置的结构图之二;
图6是本申请实施例四刷单识别装置的结构图之三。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
本申请公开的一种刷单识别方法,如图1所示,该方法包括:步骤100和步骤110。
步骤100,获取商户的用户行为特征。
具体实施时,可以根据一段时间内待识别商户的所有用户的行为日志获取待识别商户的用户行为特征。所述用户行为特征可以只包括:用户群体行为特征,其中,所述用户群体行为特征可以只包括:行为模式特征或者评论维度分布特征,还可以既包括行为模式特征,又包括评论维度分布特征。其中,所述行为模式特征为描述预设第一行为的描述值的分布概率;所述评论维度分布特征为评论维度的分布概率。
步骤110,通过预先训练的刷单识别模型,基于所述用户行为特征对所述商户进行刷单识别。
将获取的某一商户的用户行为特征输入至预先训练好的刷单识别模型,对所述商户的行为模式特征进行刷单识别,即可以确定该商户是否为刷单商户。
所述刷单识别模型根据从一定数量的刷单行为样本和正常行为样本提取的用户行为特征训练得到。从所述样本中提取的用户行为特征的结构与提取的待识别商户的用户行为特征的结构相同;从所述样本中提取用户行为特征的方法,与提取待识别商户的用户行为特征的方法相同。根据从所述样本中提取的用户行为特征训练刷单识别模型的具体方法可以参考现有技术。
本申请实施例公开的刷单识别方法,通过获取商户的用户行为特征,然后通过预先训练的刷单识别模型,基于所述用户行为特征对所述商户进行刷单识别,其中,所述用户行为特征至少包括用户群体行为特征,解决了现有技术中对刷单行为的识别覆盖面有限,识别准确率低的问题。通过基于群体用户行为特征对刷单商户进行识别,充分考虑了刷单商户的用户行为的群体趋同性和协同性,相对于基于用户身份信息或地理位置、评论内容一致性等信息对刷单商户进行识别具有更高的准确率。
实施例二
本实施例公开的一种刷单识别方法,如图2所示,该方法包括:步骤200至步骤230。
步骤200,基于训练样本获取每个商户的用户行为特征。
其中,所述训练样本包括:正常行为样本和刷单行为样本。
具体实施时,预先选择一定数量的用户行为样本,并对所述样本进行手工标定,设置刷单行为标签或正常行为标签。选择的样本可以为一段时间内某一品类下所有商户的所有用户的用户行为日志,也可以为一段时间内某一品类下某一个或某几个商户的所有用户的用户行为日志。为了训练得到的识别模型更准确,优选的,选择的样本为一段时间内某一品类下所有商户的所有用户的用户行为日志。日志涉及的用户行为包括:注册、搜索、筛选、下单、支付、验证、评论中的至少一项。优选的,日志涉及的用户行为涵盖:注册、搜索、筛选、下单、支付、验证、评论中的所有项。
在训练刷单识别模型之前,首先需要获取每个商户的用户行为特征。所述用户行为特征包括:用户群体行为特征,其中,所述用户群体行为特征包括:行为模式特征和/或评论维度分布特征。群体行为特征用于表示群体趋同性和协同性行为。例如,对于刷单商户,其刷单用户的商户访问入口、订单操作路径、搜索关键词、页面访问时间间隔、评论信息等,都具有趋同性和协同性。具体实施时,所述用户群体行为特征可以只包括:行为模式特征或者评论维度分布特征,还可以既包括行为模式特征,又包括评论维度分布特征。本实施例以所述用户群体行为特征既包括行为模式特征,又包括评论维度分布特征为例,说明用户群体行为特征的获取方法。
以O2O平台为例,O2O是垂直类信息网站,用户对于商户的寻找和发现,往往依赖了搜索引擎、筛选、推荐和其他模块入口。为了购买商品或消费,用户的行为往往表现出差异化的入口特性和选购路径;例如:用户A:打开APP→点击“美食频道”模块→选择对应商圈(地理限制条件)→进入到第二页→选择某商户P→完成下单;用户B:打开APP→输入搜索关键字“Term”→选择某个排序位置为N的商户信息→完成下单。对于某个商户而言,正常消费用户并非对商户的进入路径存在多样性(差异性)。但对于刷单用户而言,商户需告知其访问路径,因此较容易造成刷单用户的局部路径相似(如:访问入口拥堵)的涌现特性。因此,对于刷单用户群体,可提取用户在查找商户、进入商户页面、设置筛选条件、搜索、翻页、下单等行为的特征,对用户的行为进行描述。具体实施时,首先根据用户在某一品类商户页面的可能行为定义预设第一行为,如:预设第一行为包括:翻页。针对不同的预设第一行为,根据实际需求确定该预设第一行为的描述值。如第一预设行为“翻页”的描述值为:不翻页、翻1页、翻2页、翻2页以上。
具体实施时,若所述用户群体行为特征包括行为模式特征,则所述获取商户的用户行为特征包括:确定训练样本中该商户的每条用户行为日志所记录的所有预设第一行为;对于每条用户行为日志所记录的所有预设第一行为,将每种预设第一行为的描述值的分布概率作为相应预设第一行为的分布概率;对于每种预设第一行为,根据所有所述用户行为日志所记录的该预设第一行为的分布概率,确定该预设第一行为的总体分布概率;将每种所述预设第一行为的总体分布概率作为该商户的行为模式特征相应维度的特征值;其中,每种预设第一行为对应至少一个描述值,每种预设第一行为对应的描述值根据实际需求确定,每种预设第一行为的每个描述值的分布概率为通过对训练样本进行分析获得。
具体实施时,首先根据实际需求,穷举所有用户的行为,如“搜索”,“翻页”,“点击排在第N位的项目”,“筛选条件”等。用户在商户页面的行为存在多种,行为的步骤也是多种多样,在本申请中,以用户的预设第一行为包括:“搜索”,“翻页”,“点击排位”,“筛选条件”为例说明访问路径分布频率的提取过程。
对于“搜索”行为,其主要关联因素为搜索关键词。如对于海底捞商户,经常被搜索的关键词为“海底捞”,“海底捞火锅”,“知名火锅”等,因此,可以将“搜索”行为的描述值设置为“海底捞”,“海底捞火锅”,“知名火锅”。基于用户行为日志样本,对这些描述值的出现频次进行统计,并除以所有“搜索”行为的总次数,则可以得到:“海底捞”搜索占比为0.35,“海底捞火锅”占比为0.43,”知名火锅”占比为0.12,其他搜索关键词都划分为单独的一类,作为第四类描述值,占比为:0.10。所有类别的占比总和为1。则“搜索”行为的描述值的分布概率,例如:{0.35,0.43,0.12,0.10}。
对于“翻页”行为,其主要关联因素为翻页的次数与频度,即用户进入商户的页面之后到下单为止翻页的次数,因此确定“翻页”行为的描述值为:不翻页、翻1页、翻2页、翻2页以上。对于所有用户,根据用户行为日志样本中的日志统计用户翻页行为的次数,可以得到不翻页的用户占比,和翻页的用户占比。例如:不翻页的用户占比为0.3,翻一页的用户占比为0.33,翻两页的用户占比为0.23,翻页次数多过2页的用户的占比为0.15。因此,“翻页”这一行为的特征分布概率,例如:{0.3,0.33,0.23,0.15}。
对于“点击排位”行为,其主要关联因素为点击某一排位的次数。因为页面中存在的商户条目有限,通常是10个或15个左右,本实施例中以页面显示5个条目为例,说明“点击排位”行为的特征提取过程,因此,将“点击排位”行为的描述值确定为:点击第1位、点击第2位、点击第3位、点击第4位、点击第5位。基于用户行为日志样本,分别获取用户点击排位为1至5的搜索结果的次数,然后,将每个点击次数除以总点击次数,可以得到用户分别点击排位在第1位到第5位的搜索结果的点击概率分布,例如:{0.5,0.25,0.14,0.09,0.02}。
对于“筛选条件”行为,筛选条件是指用户选择了哪些约束条目,例如“按照评分排序”,“3公里范围内”,“按照购买数量排序”等,本实施例中以这三个条目为例,不符合这三个条目的条件都标记为第四类。因此,将“筛选条件”行为的描述值确定为:“按照评分排序”、“3公里范围内”、“按照购买数量排序”和其他。由此,基于用户行为日志样本,可以获得所有筛选条件的点击次数,并除以用户下单的次数,则可以得到第一类到第四类筛选条件的点击概率分布,例如:{0.4,0.2,0.1,0.3}。
然后,通过前述获得的每种预设第一行为对应的描述值,确定每一条用户行为日志中所记录的第一预设行为的描述值。例如,某个用户的用户行为日志为:搜索“海底捞”,翻了两页,点击了排位第三的搜索结果,无其他筛选条件,最后下单。则提取到该条用户行为日志的记录的第一预设行为包括:搜索,搜索行为的描述值为:海底捞;翻页,翻页行为的描述值为:翻页2次;点击排位,点击排位行为的描述值为:点击的排位为第3位。则得到该条用户行为日志所记录的所有预设第一行为的分布概率,例如:{0.35,0.23,0.14,0.00}。
根据某个时间段内某一商户的所有用户的用户行为日志确定该商户的行为模式特征。将每种所述预设第一行为的总体分布概率作为该商户的行为模式特征相应维度的特征值。具体实施时,对于每一个商户,该商户的所有用户的每一条用户行为日志中相应第一预设行为的分布概率进行累加,得到该商户的相应第一预设行为的总体分布概率。以某一商户一天内总共有2个用户为例,一个用户的行为样本为:搜索“海底捞”,翻了两页,点击了排位第三的搜索结果,无其他筛选条件,最后下单,则该条用户行为日志所记录的所有预设第一行为的分布概率为:{0.35,0.23,0.14,0.00};另一个用户只有搜索没有其他行为,搜索关键词为“知名火锅”,则该条用户行为日志所记录的所有预设第一行为的分布概率为:{0.12,0.0,0.0,0.0}。将2条用户行为日志相应预设第一行为的分布概率累加,得到该商户相应预设第一行为的总体分布概率,例如:{0.47,0.23,0.14,0.00}。将每种所述预设第一行为的总体分布概率作为该商户的行为模式特征相应维度的特征值,以本实施例的得到的数据为例,商户的行为模式特征为一个4维特征向量,将0.47作为商户的行为模式特征的第一维特征值、将0.23作为商户的行为模式特征的第二维特征值、将0.14作为商户的行为模式特征的第三维特征值、将0.00作为商户的行为模式特征的第一维特征值,可以得到该商户的行为模式特征为:{0.47,0.23,0.14,0.00}。
采用上述方法,获取训练样本内每个商户的行为模式特征以及待识别商户的行为模式特征。具体实施时,基于此思想,还可以采用现有技术中以及后续发展的技术中的其他方法获取商户的某一行为的分布概率,本申请在此不再赘述。商户的评论维度分布特征将作为群体用户行为特征的一部分。
商户的行为模式特征将作为群体用户行为特征的一部分。
现有技术中,基于评论内容的刷单检测方法通常是利用评论内容的“有限集”特征,然而在实际O2O环境中,刷单用户更多表现为真实人,用户的评论内容往往难以探测和排查。因此,本申请具体实施时,提取的评论维度分布特征包括评论维度和各评论维度对应的分布概率。所述评论维度分布特征为评论维度的分布概率。若所述用户群体行为特征包括评论维度分布特征,则所述获取商户的用户行为特征包括:确定训练样本中该商户的每条评论涉及的评论维度,以及所述评论维度的分布概率,其中,所述评论维度的分布概率为通过对训练样本进行分析获得;对于涉及的每个评论维度,根据所有评论在该评论维度的分布概率确定该评论维度的总体分布概率;将每个评论维度的总体分布概率作为该商户的评论维度分布特征相应维度的特征值。确定商户的每条评论涉及的评论维度,以及所述评论维度的分布概率,包括:将每条评论涉及的评论维度的分布概率设置为预先通过对训练样本进行分析获得的相应评论维度的分布概率;将每条评论不涉及的评论维度的分布概率设置为零。所述评论维度可以根据商户所在品类人为确定,也可以通过对训练样本进行聚类获得。
以通过对训练样本进行聚类获得评论维度为例,首先,获取训练样本中某一品类下所有商户的所有用户的评论内容作为聚类数据,通过现有技术中的点聚类方法对所述聚类数据进行聚类,获取多个聚类中心,每个聚类中心对应一个评论维度。以评论内容为:口味不错,环境很好,服务态度好,上菜速度快,菜量也很大为例,聚类运算后,将得到:口味、环境、服务态度和速度四个评论维度。
对所述训练样本进行分析,确定每个所述评论维度的分布概率时,将训练样本中某一某品类下所有商户的所有用户的评论分别进行分析,统计聚类得到的各个评论维度出现的次数,并进一步得出聚类得到的各评论维度出现的概率,即各个评论维度的分布概率。例如:所有评论口味的评论内容的出现概率为0.73,评论环境的评论内容出现的概率为0.43,评论服务的评论内容出现的概率为0.21,评论速度的评论内容出现的概率为0.10。则可以得到该品类的评论维度的分布概率为:{口味:0.73,环境:0.43,服务:0.21,速度:0.10}。
然后,初始化每条评论涉及的维度与聚类得到的评论维度相同,并初始化各评论维度的初始值为0。然后,确定每条所述评论涉及的评论维度,对于该条评论涉及的评论维度,将该评论维度的分布概率设置为预先统计分析得到的该评论维度的分布概率。以评论内容为:口味不错,环境很好,服务态度好为例,该条评论涉及的评论维度包括:口味、环境和服务,则该条评论的评论维度分布概率为:{口味:0.73,环境:0.43,服务:0.21,速度:0}。具体实施时,评论维度分布概率还可以表示为按照有一定的评论维度顺序排列的一组分布概率,如:{0.73,0.43,0.21,0}。
最后,将某一商户一段时间内所有评论的单一评论维度分布概率的平均值作为该商户的相应评论维度的评论维度分布概率。如某商户1天内有两条评论,通过以上方法对该商户的两条评论分别确定各评论维度的分布概率。第一条评论涉及到了口味和环境,则第一条评论的评论维度的分布概率为:{0.73,0.43,0.00,0.00};第二条评论涉及到了服务态度两次,则第二条评论的评论维度的分布概率为:{0.00,0.00,0.42,0.00}。然后将每个评论维度的分布概率求均值,则得到了对应这个商户的该评论维度的总体分布概率,在本实施例中,该商户的评论维度的总体分布概率为:{0.73/2,0.43/2,0.42/2,0.00/2},即该商户的评论维度的总体分布概率为{0.365,0.215,0.21,0.00}。将每个评论维度的总体分布概率作为该商户的评论维度分布特征相应维度的特征值。以本实施例的得到的数据为例,商户的评论维度分布特征为一个4维特征向量,将0.365作为商户的评论维度分布特征的第一维特征值。
采用上述方法,获取训练样本内每个商户的评论维度分布特征以及待识别商户的评论维度分布特征。具体实施时,基于此思想,还可以采用现有技术中以及后续发展的技术中的其他方法获取商户的评论维度分布概率,本申请在此不再赘述。商户的评论维度分布特征将作为群体用户行为特征的一部分。
步骤210,基于获取的所述用户行为特征训练刷单识别模型。
具体实施时,用户训练刷单识别模型的用户行为特征包括:行为模式特征和/或评论维度分布特征。
将通过前述步骤提取的训练样本中某一品类下所有商户的用户行为特征分别组成一条N维特征向量,作为训练SVM分类器、LR模型或者GBDT模型的输入数据,训练刷单识别模型。如果某一品类下有1000个商户的训练样本,则本步骤中可以获取1000条N维特征向量。训练样本中包含正样本(即刷单商户样本)和负样本(即非刷单商户样本),不同特征向量还需要设置样本标签。具体实施时,得到的特征向量通常包括:样本标签、特征编码和特征值对,格式举例如下:
1 1:0.25,2:0.20,3:0.30,4:0.25,5:0.30,6:0.10,…,16:0.0;
0 1:0.0,2:0.00,3:0.00,4:0.00,5:0.00,6:0.00,…,16:0.00。
其中,第一列的1或0用户表示本条特征向量是正样本(即刷单用户样本)还是负样本(即非刷单用户样本),第二列为N对特征向量编码和向量值。具体实施时,可以预设N个维度特征的排列顺序,每条特征向量的格式可以简化为第一列为样本标签,第二列为特征值序列,格式如下:
1 0.25,0.20,0.30,0.25,0.30,0.10,…,0.0;
0 0.0,0.00,0.00,0.00,0.00,0.00,…,0.00。
其中,N个维度的特征可以为:N维行为模式特征,或N维评论维度分布特征,或A维行为模式特征和B维评论维度分布特征,其中,A+B=N。
根据多条特征向量训练刷单识别模型的具体方法参见现有技术,此处不再赘述。
步骤220,获取待识别商户的用户行为特征。
在对商户进行识别时,获取某一商户一段时间内,如近1周的所有用户的用户行为日志,所述用户行为日志包括评论日志。
具体实施时,获取商户的所有用户行为特征包括:获取商户的行为模式特征;和/或获取商户的评论维度分布特征。获取商户的行为模式特征包括:确定预设时间段内该商户的每条用户行为日志所记录的所有预设第一行为;对于每条用户行为日志所记录的所有预设第一行为,将每种预设第一行为的描述值的分布概率作为相应预设第一行为的分布概率;对于每种预设第一行为,根据所有所述用户行为日志所记录的该预设第一行为的分布概率,确定该预设第一行为的总体分布概率;将每种所述预设第一行为的总体分布概率作为该商户的行为模式特征相应维度的特征值;其中,每种预设第一行为对应至少一个描述值,每种预设第一行为对应的描述值根据实际需求确定,每种预设第一行为的每个描述值的分布概率为通过对训练样本进行分析获得。
具体实施时,获取商户的评论维度分布特征包括:确定预设时间段内该商户的每条评论涉及的评论维度,以及所述评论维度的分布概率,其中,所述评论维度的分布概率为通过对训练样本进行分析获得;对于涉及的每个评论维度,根据所有评论在该评论维度的分布概率确定该评论维度的总体分布概率;将每个评论维度的总体分布概率作为该商户的评论维度分布特征相应维度的特征值。
基于获取的所述用户行为日志,按照获取训练样本的用户行为特征相同的方法,获取待识别商户的用户行为特征,具体参见步骤200,此处不再赘述。
步骤230,通过所述刷单识别模型,对所述待识别商户的行为模式特征进行刷单识别。
将获取的某一商户的用户行为特征输入至预先训练好的刷单识别模型,对所述商户的行为模式特征进行刷单识别,即可以确定该商户是否为刷单商户。
本申请实施例公开的刷单识别方法,通过基于训练样本获取每个商户的用户行为特征,然后基于获取的所述用户行为特征训练刷单识别模型,并通过所述刷单识别模型,对获取的所述商户的行为模式特征进行刷单识别,解决了现有技术中对刷单行为的识别覆盖面有限,识别准确率低的问题。通过基于群体用户行为特征对刷单商户进行识别,充分考虑了刷单商户的用户行为的群体趋同性和协同性,相对于基于用户身份信息或地理位置、评论内容一致性等信息对刷单商户进行识别具有更高的准确率。通过确定预设第一行为,并基于预设第一行为的行为提取部分行为模式特征,使得针对不同品类选择有代表性的用户行为进行特征提取,可以有效提高识别准确率。通过对训练样本进行聚类以确定需要关注的评论维度,既保证了评论维度的覆盖度,又不增加运算量。
实施例三
本实施例公开的一种刷单识别方法,如图3所示,该方法包括:步骤300至步骤340。
步骤300,基于训练样本获取商户的用户群体行为特征。
其中,所述训练样本包括:正常行为样本和刷单行为样本。
具体实施时,预先选择一定数量的用户行为样本,并对所述样本进行手工标定,设置刷单行为标签或正常行为标签。选择的样本可以为一段时间内某一品类下所有商户的所有用户的用户行为日志,也可以为一段时间内某一品类下某一个或某几个商户的所有用户的用户行为日志。为了训练得到的识别模型更准确,优选的,选择的样本为一段时间内某一品类下所有商户的所有用户的用户行为日志。日志涉及的用户行为包括:注册、搜索、筛选、下单、支付、验证、评论中的至少一项。优选的,日志涉及的用户行为包括:注册、搜索、筛选、下单、支付、验证、评论中的所有项。
在训练刷单识别模型之前,首先需要获取商户的用户行为特征。所述用户行为特征包括:用户群体行为特征,其中,所述用户群体行为特征包括:行为模式特征和/或评论维度分布特征。群体行为特征用于表示群体趋同性和协同性行为。例如,对于刷单商户,其刷单用户的商户访问入口、订单操作路径、页面访问时间间隔、评论信息等,都具有趋同性和协同性。
获取用户群体行为特征的具体方法参见实施例二,此处不再赘述。
步骤310,基于所述训练样本获取商户的用户个体行为特征。
所述用户个体行为特征描述用户预设第二行为的时间和空间分布特征,可以体现表示商户的用户被预测为刷单用户的概率。基于所述训练样本获取商户的用户个体行为特征包括子步骤S1至S4。
S1,基于所述训练样本获取每个用户的预设第二行为的时间分布概率和空间分布概率,作为个体行为时空特征。
对于每个品类的训练样本,基于所述训练样本获取每个用户的预设第二行为的时间分布概率,包括:基于训练样本,分别确定所有用户的每个预设第二行为的时间分布区间及每个所述时间分布区间的分布概率;对于每个用户,将该用户的行为分别映射到确定的所述每个预设第二行为的时间分布区间;确定映射成功的所述预设第二行为的时间分布区间的分布概率为当前用户的相应行为的时间分布概率。
鉴于同品类的商户的用户消费行为存在相似的时间分布特性,因此,选取某一品类(C)下商户的所有商户(P)的用户的训练样本进行特征提取。确定某一个用户与商户的关联行为,即预设第二行为,并构建用户行为随时间变化的函数FP=fb(t),其中,t为时间变量,可选特定时间间隔(如半小时或一小时)计算每日0时到24时对应用户行为的频率分布。所述预设第二行为包括:注册、搜索、筛选、下单、支付、验证、评论。通常,对于某特定品类的商户而言,他们的用户行为如售卖、点击等存在一定时间特征,如:外卖在中午集中,电影查询高峰发生于下午4-5点左右。因此,用户行为随时间变化的函数反映了用户行为在不同时间的分布趋势。具体实施时,所述预设第二行为至少包括:分别针对该品类(如:餐饮、娱乐)下的每个商户,如p1,对所有在该商户页面的当日内的消费用户构建相应的用户行为随时间变化的函数
下面以用户的下单行为为例,具体说明预设第二行为的时间分布概率的获取过程。
首先,基于训练样本,分别确定某一品类下所有用户的每个预设第二行为的时间分布区间及每个所述时间分布区间的分布概率。以下单行为为例,首先收集某品类下所有商户的所有用户的预设第二行为(“下单”)的时间;然后,将每日24时划分为均等N个时间片段,分别对不同时间片段统计“下单”行为的频次,并将该频次除以总次数,获得每个时间片段内的“下单”行为分布概率。其中,N个时间片段对应N个时间分布区间;每个时间片段内的“下单”行为分布概率为所述时间分布区间的分布概率。得到的时间分布区间及每个所述时间分布区间的分布概率举例如下:T下单={(时段1,分布概率1),(时段2,分布概率2),…(时段N,分布概率n)}。其中,得到的不同时段的分布概率的和为1。按照前述方法,分别得到某一品类下所有用户的注册、搜索、筛选、下单、支付、验证、评论行为的时间分布区间及每个所述时间分布区间的分布概率T注册、T搜索、T筛选、T下单、T支付、T验证、T评论
然后,对于每个用户,将该用户的行为分别映射到确定的所述每个预设第二行为的时间分布区间,并确定映射成功的所述预设第二行为的时间分布区间的分布概率为当前用户的相应行为的分布概率。以当前用户的“下单”时间为9点为例,首先确定当前用户的“下单”时间对应的时间分布区间。若当前用户的“下单”时间对应在第二个时间段内,则当前用户的“下单”时间对应的时间分布区间2,当前用户的“下单”行为的时间分布概率为时间分布区间2的下单行为分布概率,即分布概率2。若当前用户的“支付”行为发生在第N个时间段,则可以得到当前用户的“支付”行为的时间分布概率为分布概率n。对于当前用户没有发生的行为,如“注册”、“搜索”、“筛选”、“验证”、“评论”,则当前用户的该行为的时间分布概率为0。按照前述方法,分别得到每个用户的预设第二行为的时间分布概率,举例如下:{注册:0.15,搜索:0.05,筛选:0.30,下单:0.10,支付:0.20,验证:0.74,评论:0.43}。具体实施时,可以将各预设第二行为以不同的编码代替。或者,预设各预设第二行为的排列顺序,以顺序号作为不同预设第二行为的标识。
经过前述操作,将提取到每个用户的预设第二行为的时间分布概率。
O2O领域中,每个商户由于主营的业务特性,往往会导致其对应的消费呈现出局部时间高峰、其他时间平缓甚至趋零的特性。例如,餐饮类别的商户,每天中午12和晚上6点处于下单高峰期;电影主要集中在下午4点以后到晚上8点;酒店和其它品类的商户也存在自由的一些时间分布特性。相反,刷单行为,往往通过发帖、群公告或其他的媒体平台进行宣传,刷单用户的购买、消费以及评论时间往往未能进行有效的约束,特别是刷单行为本身具有“抢单”特性(即:水军个体为了更快的获得回报,往往不会也不愿遵循商户适宜的消费区间)。因此,刷单用户则较容易表现出违背常规的购买、查询和消费时间,通过对用户行为的时间特征进行分析,可以有效地识别刷单用户。
对于每个品类的训练样本,基于所述训练样本获取每个用户的预设第二行为的空间分布概率,包括:基于训练样本,分别确定所有用户的每个预设第二行为的空间分布区间及每个所述空间分布区间的分布概率;对于每个用户,将该用户的行为分别映射到确定的所述每个预设第二行为的空间分布区间;确定映射成功的所述预设第二行为的空间分布区间的分布概率为当前用户的相应行为的分布概率。
设全体用户集合可表示为设商户P的消费群体的由两部分用户构成,分别是:a)定向消费居民区的用户Uc(p);b)距离商户地理位置间隔为Ud(p,n),n∈R+的用户,Ud(p,n)表示以P为中心周边n距离内的出现过的用户;令U(p)为商户的全部消费用户,则
S.t.DM=argmax(|Lt(u)-L(p)|),
其中,σ表示少量异地消费和帮助他人买单的用户;Lt(u)表示用户t时刻的地理位置,L(p)表示商户坐标;故DM为消费用户的相对最大距离范围。因此,每个商户的消费群体,包含的三部分为定向居民区域用户,周边DM范围内用户和其他用户。基于统计结果,大多品类的下商户的σ的占比<<0.05,在训练模型时可以忽略不计。通过对DM设置约束,对用户和商户的最大距离进行求和或积分,可使得所有最大消费距离内的用户行为都能够包含。
以下单行为为例,首先收集某品类(C)下所有商户的所有用户的预设第二行为(“下单”)的地点与该商户之间的最大消费距离划分为M个距离区间,如划分为6个距离区间,分别为:500m,1km,3km,5km,10km,以上,并分别对不同距离区间统计“下单”行为的频次,并将该频次除以总次数,获得每个距离区间内的“下单”行为分布概率。其中,M个距离区间对应M个空间分布区间;每个距离区间内的“下单”行为分布概率为对应的空间分布区间的分布概率。得到的空间分布区间及每个所述空间分布区间的分布概率举例如下:D下单={(距离区间1,分布概率1),(距离区间2,分布概率2),…(距离区间N,分布概率n)}。其中,得到的不同距离区间分布概率的和为1。按照前述方法,分别得到某一品类下所有用户的注册、搜索、筛选、下单、支付、验证、评论行为的空间分布区间及每个所述空间分布区间的分布概率D注册、D搜索、D筛选、D下单、D支付、D验证、D评论
然后,对于每个用户,将该用户的行为分别映射到确定的所述每个预设第二行为的空间分布区间,并确定映射成功的所述预设第二行为的空间分布区间的分布概率为当前用户的相应行为的空间分布概率。以当前用户的“下单”地点距离商户1Km为例,首先确定当前用户的“下单”地点对应的空间分布区间。若当前用户的“下单”地点对应在第二个距离区间内,则当前用户的“下单”地点对应的距离区间2,当前用户的“下单”行为的空间分布概率为距离区间2的下单行为分布概率,即分布概率2。若当前用户的“支付”行为发生在第N个距离区间,则可以得到当前用户的“支付”行为的空间分布概率为分布概率n。对于当前用户没有发生的行为,如“注册”、“搜索”、“筛选”、“验证”、“评论”,则当前用户的该行为的空间分布概率为0。按照前述方法,分别得到每个用户的预设第二行为的空间分布概率,举例如下:{注册:0.10,搜索:0.15,筛选:0.10,下单:0.15,支付:0.05,验证:0.45,评论:0.0}。具体实施时,可以将各预设第二行为以不同的编码代替。或者,预设各预设第二行为的排列顺序,以顺序号作为不同预设第二行为的标识。
经过前述操作,将提取到每个用户的预设第二行为的空间分布概率。
在O2O环境下,用户的消费是线上线下的联动行为,受限于一定的活动能力;同时,对于个体商户而言,其适用的消费群体也存在一定的地理区域的约束,如每个用户的常驻小区和工作区域。其中,虽有一些例外,如帮助家人购买和消费的情况,但是,从总体而言,单个商户适用的消费人群还是存在一定地域的局限和相对稳定的距离分布。因此,通过对用户行为的空间特征进行分析,可以有效地识别刷单用户。
具体实施时,还可以采用现有技术中以及后续发展的其他技术确定每个用户的预设第二行为的时间分布概率和空间分布概率,本申请对此不作限定。
S2,基于所述每个用户的预设第二行为的时间分布概率和空间分布概率训练个体刷单预测模型。
将每个用户的预设第二行为的时间分布概率和空间分布概率按照一定的顺序进行排列,构成一个多维的特征向量,作为个体行为时空特征,将获得的每个用户的作为个体行为时空特征作为个体刷单预测模型的训练数据。最后,采用训练SVM、LR模型或DT模型的方法训练个体刷单预测模型。其中,多维的特征向量的维度数量等于预设第二行为数量的二倍。
基于所述每个用户的作为个体行为时空特征训练个体刷单预测模型可以采用现有技术,此处不再赘述。
S3,通过所述个体刷单预测模型对每个用户的作为个体行为时空特征,获得每个用户的预测得分。
将每个用户的预设第二行为的作为个体行为时空特征,即时间分布概率和空间分布概率,输入至训练好的个体刷单预测模型进行刷单用户预测,可以得到每个用户是刷单用户的预测得分。
S4,对于每个商户,对所述每个用户的预测得分进行分布概率计算,得到用户个体行为特征。
根据所述商户的所有用户的预测得分,获取该商户的用户个体行为特征包括:对所有用户的预测得分进行归一化之后,将归一化后的预测得分平均划分为预设数量的得分级别;对于每个商户,将该商户的用户归一化后的预测得分在每个得分级别的分布比例作为该商户的用户个体行为特征。例如:可将所有用户的预测结果的分数归一化后,落入0-1的闭集区间内,由此可将0-1按照0.1为步长,划分为10个得分级别。然后,将某个商户的所有用户或某天的用户或某一时段的用户的预测得分对应落入相应得分级别,得到每个得分级别的用户数量,每个得分级别的用户数量除以所有得分级别的用户数量综合的结果作为每个得分等级的分布比例。将所有得分级别的分布比例作为该商户的用户个体行为特征。以得分等级为10为例,商户的用户个体行为特征表现如下:
{1:0.10,2:0.08,3:0.01,4:0.02,5:0.05,6:0.04,7:0.20,8:0.31,9:0.09,10:0.10},其中,“:”前的数字1至10表示得分等级,“:”后的数字表示该得分等级的分布比例,各得分等级的分布比例求和后数值应为1。具体实施时,用户个体行为特征还可以通过按照一定顺序排列的得分等级的分布比例表示,如:{0.10,0.08,0.01,0.02,0.05,0.04,0.20,0.31,0.09,0.10}。
具体实施时,还可以采用其他方法根据所述商户的所有用户的预测得分,获取该商户的用户个体行为特征,用户个体行为特征的维度的数量也可以设定为其他数值,本申请对此不作限定。
步骤320,基于获取的所述用户群体行为特征和用户个体行为特征训练刷单识别模型。
将每个商户的用户群体行为特征和用户个体行为特征按照一定顺序进行排列后,作为一条训练数据,用于训练刷单识别模型。如果训练样本中有1000个商户的数据,则本步骤将生成1000条训练数据用于训练刷单识别模型。
基于获取的所述用户群体行为特征和用户个体行为特征训练刷单识别模型的具体实施方式参见现有技术,此处不再赘述。
步骤330,分别获取待识别商户的用户群体行为特征和用户个体行为特征。
在对商户进行识别时,获取待识别商户一段时间内,如近1周的所有用户的用户行为日志。按照获取训练样本的个体用户行为特征相同的方法,获取商户的用户行为特征,包括:分别根据预设时间段内该商户的每个用户的用户行为日志,确定所述每个用户的预设第二行为的时间分布概率和空间分布概率,作为个体行为时空特征;通过预先训练的刷单用户预测模型对每个用户的个体行为时空特征进行识别,得到每个用户的预测得分;对所述每个用户的预测得分进行分布概率计算,得到用户个体行为特征。
按照获取训练样本的用户群体行为特征相同的方法,获取该商户的行为模式特征和评论维度分布特征,作为该商户的用户群体行为特征。
具体实施时,获取商户的行为模式特征包括:确定预设时间段内该商户的每条用户行为日志所记录的所有预设第一行为;对于每条用户行为日志所记录的所有预设第一行为,将每种预设第一行为的描述值的分布概率作为相应预设第一行为的分布概率;对于每种预设第一行为,根据所有所述用户行为日志所记录的该预设第一行为的分布概率,确定该预设第一行为的总体分布概率;将每种所述预设第一行为的总体分布概率作为该商户的行为模式特征相应维度的特征值;其中,每种预设第一行为对应至少一个描述值,每种预设第一行为对应的描述值根据实际需求确定,每种预设第一行为的每个描述值的分布概率为通过对训练样本进行分析获得。
具体实施时,获取商户的评论维度分布特征包括:确定预设时间段内该商户的每条评论涉及的评论维度,以及所述评论维度的分布概率,其中,所述评论维度的分布概率为通过对训练样本进行分析获得;对于涉及的每个评论维度,根据所有评论在该评论维度的分布概率确定该评论维度的总体分布概率;将每个评论维度的总体分布概率作为该商户的评论维度分布特征相应维度的特征值。
获取商户的评论维度分布特征和行为模式特征的具体方法参见实施例二的相关步骤,此处不再赘述。
步骤340,通过所述刷单识别模型,基于获取的所述待识别商户的用户群体行为特征和用户个体行为特征,对所述待识别商户进行刷单识别。
将获取的某一商户的一段时间内的用户群体行为特征和用户个体行为特征输入至预先训练好的刷单识别模型,对所述商户的行为模式进行刷单识别,即可以确定该商户是否为刷单商户。
本申请实施例公开的刷单识别方法,通过基于所述训练样本获取商户的用户群体行为特征和用户个体行为特征,基于获取的所述用户群体行为特征和用户个体行为特征训练刷单识别模型,分别获取待识别商户的用户群体行为特征和用户个体行为特征,通过所述刷单识别模型,基于获取的所述待识别商户的用户群体行为特征和用户个体行为特征,对所述待识别商户进行刷单识别,解决了现有技术中对刷单行为的识别覆盖面有限,识别准确率低的问题。通过基于群体用户行为特征对刷单商户进行识别,充分考虑了刷单商户的用户行为的群体趋同性和协同性,相对于基于用户身份信息或地理位置、评论内容一致性等信息对刷单商户进行识别具有更高的准确率。通过确定预设第一行为,并基于预设第一行为的行为提取部分行为模式特征,使得针对不同品类选择有代表性的用户行为进行特征提取,可以有效提高识别准确率。通过对训练样本进行聚类以确定需要关注的评论维度,既保证了评论维度的覆盖度,又不增加运算量。通过结合群体用户行为特征和各体用户行为特征对商户的行为进行识别,进一步提高了识别准确率。
实施例四
本实施例公开的一种刷单识别装置,如图4所示,所述装置包括:
特征获取模块400,用于获取商户的用户行为特征;
识别模块410,用于通过预先训练的刷单识别模型,基于所述用户行为特征对所述商户进行刷单识别;
其中,所述用户行为特征至少包括用户群体行为特征。
具体实施时,所述用户群体行为特征包括:行为模式特征和/或评论维度分布特征,其中,所述行为模式特征为描述预设第一行为的描述值的分布概率;所述评论维度分布特征为评论维度的分布概率。
可选的,若所述用户群体行为特征包括行为模式特征,如图5所示,则所述特征获取模块400包括:
用户行为确定单元4001,用于确定预设时间段内该商户的每条用户行为日志所记录的所有预设第一行为;
行为分布概率确定单元4002,用于对于每条用户行为日志所记录的所有预设第一行为,将每种预设第一行为的描述值的分布概率作为相应预设第一行为的分布概率;
第一总体分布概率确定单元4003,用于对于每种预设第一行为,根据所有所述用户行为日志所记录的该预设第一行为的分布概率,确定该预设第一行为的总体分布概率;
行为模式特征确定单元4004,用于将每种所述预设第一行为的总体分布概率作为该商户的行为模式特征相应维度的特征值;
其中,每种预设第一行为对应至少一个描述值,每种预设第一行为对应的描述值根据实际需求确定,每种预设第一行为的每个描述值的分布概率为通过对训练样本进行分析获得。
可选的,所述预设第一行为至少包括:翻页。
可选的,若所述用户群体行为特征包括评论维度分布特征,则所述特征获取模块400包括:
评论维度及概率确定单元4005,用于确定预设时间段内该商户的每条评论涉及的评论维度,以及所述评论维度的分布概率,其中,所述评论维度的分布概率为通过对训练样本进行分析获得;
第二总体分布概率确定单元4006,用于对于涉及的每个评论维度,根据所有评论在该评论维度的分布概率确定该评论维度的总体分布概率;
评论维度分布特征确定单元4007,用于将每个评论维度的总体分布概率作为该商户的评论维度分布特征相应维度的特征值。
可选的,所述用户行为特征还包括:用户个体行为特征,所述用户个体行为特征为描述用户预设第二行为的时间和空间分布特征。
可选的,如图6所示,所述特征获取模块400还包括:
个体时空特征获取单元4008,用于分别根据预设时间段内该商户的每个用户的用户行为日志,确定所述每个用户的预设第二行为的时间分布概率和空间分布概率,作为个体行为时空特征;
预测得分获取单元4009,用于通过预先训练的刷单用户预测模型对每个用户的个体行为时空特征进行识别,得到每个用户的预测得分;
用户个体行为特征生成单元4010,用于对所述每个用户的预测得分进行分布概率计算,得到用户个体行为特征。
可选的,所述预设第二行为包括以下至少一项:注册、搜索、筛选、下单、支付、验证、评论。
本申请实施例公开的刷单检测装置,通过获取商户的用户行为特征,然后通过预先训练的刷单识别模型,基于所述用户行为特征对所述商户进行刷单识别,其中,所述用户行为特征至少包括用户群体行为特征,解决了现有技术中对刷单行为的识别覆盖面有限,识别准确率低的问题。通过基于群体用户行为特征对刷单商户进行识别,充分考虑了刷单商户的用户行为的群体趋同性和协同性,相对于基于用户身份信息或地理位置、评论内容一致性等信息对刷单商户进行识别具有更高的准确率。通过确定预设第一行为,并基于预设第一行为的行为提取部分行为模式特征,使得针对不同品类选择有代表性的用户行为进行特征提取,可以有效提高识别准确率。通过对训练样本进行聚类以确定需要关注的评论维度,既保证了评论维度的覆盖度,又不增加运算量。通过结合群体用户行为特征和各体用户行为特征对商户的行为进行识别,进一步提高了识别准确率。
相应的,本申请还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例一至实施例三所述的刷单识别方法。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。
本申请还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例一至实施例三所述的刷单识别方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请提供的一种刷单识别方法、装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

Claims (17)

1.一种刷单识别方法,其特征在于,包括:
获取商户的用户行为特征;
通过预先训练的刷单识别模型,基于所述用户行为特征对所述商户进行刷单识别;
其中,所述用户行为特征至少包括用户群体行为特征。
2.根据权利要求1所述的方法,其特征在于,所述用户群体行为特征包括:行为模式特征和/或评论维度分布特征,其中,所述行为模式特征为描述预设第一行为的描述值的分布概率;所述评论维度分布特征为评论维度的分布概率。
3.根据权利要求2所述的方法,其特征在于,若所述用户群体行为特征包括行为模式特征,则所述获取商户的用户行为特征的步骤包括:
确定预设时间段内该商户的每条用户行为日志所记录的所有预设第一行为;
对于每条用户行为日志所记录的所有预设第一行为,将每种预设第一行为的描述值的分布概率作为相应预设第一行为的分布概率;
对于每种预设第一行为,根据所有所述用户行为日志所记录的该预设第一行为的分布概率,确定该预设第一行为的总体分布概率;
将每种所述预设第一行为的总体分布概率作为该商户的行为模式特征相应维度的特征值;
其中,每种预设第一行为对应至少一个描述值,每种预设第一行为对应的描述值根据实际需求确定,每种预设第一行为的每个描述值的分布概率为通过对训练样本进行分析获得。
4.根据权利要求3所述的方法,其特征在于,所述预设第一行为至少包括:翻页。
5.根据权利要求2所述的方法,其特征在于,若所述用户群体行为特征包括评论维度分布特征,则所述获取商户的用户行为特征的步骤包括:
确定预设时间段内该商户的每条评论涉及的评论维度,以及所述评论维度的分布概率,其中,所述评论维度的分布概率为通过对训练样本进行分析获得;
对于涉及的每个评论维度,根据所有评论在该评论维度的分布概率确定该评论维度的总体分布概率;
将每个评论维度的总体分布概率作为该商户的评论维度分布特征相应维度的特征值。
6.根据权利要求1所述的方法,其特征在于,所述用户行为特征还包括:用户个体行为特征,所述用户个体行为特征为描述用户预设第二行为的时间和空间分布特征。
7.根据权利要求6所述的方法,其特征在于,所述获取商户的用户行为特征的步骤,还包括:
分别根据预设时间段内该商户的每个用户的用户行为日志,确定所述每个用户的预设第二行为的时间分布概率和空间分布概率,作为个体行为时空特征;
通过预先训练的刷单用户预测模型对每个用户的个体行为时空特征进行识别,得到每个用户的预测得分;
对所述每个用户的预测得分进行分布概率计算,得到用户个体行为特征。
8.根据权利要求7所述的方法,其特征在于,所述预设第二行为包括以下至少一项:注册、搜索、筛选、下单、支付、验证、评论。
9.一种刷单识别装置,其特征在于,包括:
特征获取模块,用于获取商户的用户行为特征;
识别模块,用于通过预先训练的刷单识别模型,基于所述用户行为特征对所述商户进行刷单识别;
其中,所述用户行为特征至少包括用户群体行为特征。
10.根据权利要求9所述的装置,其特征在于,所述用户群体行为特征包括:行为模式特征和/或评论维度分布特征,其中,所述行为模式特征为描述预设第一行为的描述值的分布概率;所述评论维度分布特征为评论维度的分布概率。
11.根据权利要求10所述的装置,其特征在于,若所述用户群体行为特征包括行为模式特征,则所述特征获取模块包括:
用户行为确定单元,用于确定预设时间段内该商户的每条用户行为日志所记录的所有预设第一行为;
行为分布概率确定单元,用于对于每条用户行为日志所记录的所有预设第一行为,将每种预设第一行为的描述值的分布概率作为相应预设第一行为的分布概率;
第一总体分布概率确定单元,用于对于每种预设第一行为,根据所有所述用户行为日志所记录的该预设第一行为的分布概率,确定该预设第一行为的总体分布概率;
行为模式特征确定单元,用于将每种所述预设第一行为的总体分布概率作为该商户的行为模式特征相应维度的特征值;
其中,每种预设第一行为对应至少一个描述值,每种预设第一行为对应的描述值根据实际需求确定,每种预设第一行为的每个描述值的分布概率为通过对训练样本进行分析获得。
12.根据权利要求10所述的装置,其特征在于,若所述用户群体行为特征包括评论维度分布特征,则所述特征获取模块包括:
评论维度及概率确定单元,用于确定预设时间段内该商户的每条评论涉及的评论维度,以及所述评论维度的分布概率,其中,所述评论维度的分布概率为通过对训练样本进行分析获得;
第二总体分布概率确定单元,用于对于涉及的每个评论维度,根据所有评论在该评论维度的分布概率确定该评论维度的总体分布概率;
评论维度分布特征确定单元,用于将每个评论维度的总体分布概率作为该商户的评论维度分布特征相应维度的特征值。
13.根据权利要求9所述的装置,其特征在于,所述用户行为特征还包括:用户个体行为特征,所述用户个体行为特征为描述用户预设第二行为的时间和空间分布特征。
14.根据权利要求13所述的装置,其特征在于,所述特征获取模块还包括:
个体时空特征获取单元,用于分别根据预设时间段内该商户的每个用户的用户行为日志,确定所述每个用户的预设第二行为的时间分布概率和空间分布概率,作为个体行为时空特征;
预测得分获取单元,用于通过预先训练的刷单用户预测模型对每个用户的个体行为时空特征进行识别,得到每个用户的预测得分;
用户个体行为特征生成单元,用于对所述每个用户的预测得分进行分布概率计算,得到用户个体行为特征。
15.根据权利要求14所述的装置,其特征在于,所述预设第二行为包括以下至少一项:注册、搜索、筛选、下单、支付、验证、评论。
16.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8任意一项权利要求所述的刷单识别方法。
17.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至8任意一项所述刷单识别方法的步骤。
CN201710199149.0A 2017-03-29 2017-03-29 一种刷单识别方法及装置,电子设备 Active CN107146089B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710199149.0A CN107146089B (zh) 2017-03-29 2017-03-29 一种刷单识别方法及装置,电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710199149.0A CN107146089B (zh) 2017-03-29 2017-03-29 一种刷单识别方法及装置,电子设备

Publications (2)

Publication Number Publication Date
CN107146089A true CN107146089A (zh) 2017-09-08
CN107146089B CN107146089B (zh) 2020-11-13

Family

ID=59783891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710199149.0A Active CN107146089B (zh) 2017-03-29 2017-03-29 一种刷单识别方法及装置,电子设备

Country Status (1)

Country Link
CN (1) CN107146089B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107633326A (zh) * 2017-09-14 2018-01-26 北京拉勾科技有限公司 一种用户投递意愿模型的构建方法和计算设备
CN107679870A (zh) * 2017-09-22 2018-02-09 广东欧珀移动通信有限公司 刷量资源确定方法及装置
CN108038696A (zh) * 2017-12-01 2018-05-15 杭州呯嘭智能技术有限公司 基于设备标识码和社交群组信息的刷单检测方法及系统
CN108182587A (zh) * 2018-01-29 2018-06-19 北京信息科技大学 一种电商平台刷单行为检测方法及系统
CN108230007A (zh) * 2017-11-28 2018-06-29 北京三快在线科技有限公司 一种用户意图的识别方法、装置、电子设备及存储介质
CN108243191A (zh) * 2018-01-10 2018-07-03 武汉斗鱼网络科技有限公司 风险行为识别方法、存储介质、设备及系统
CN108921581A (zh) * 2018-07-18 2018-11-30 北京三快在线科技有限公司 一种刷单操作识别方法、装置及计算机可读存储介质
CN109345332A (zh) * 2018-08-27 2019-02-15 中国民航信息网络股份有限公司 一种航空订票恶意行为的智能检测方法
CN109685536A (zh) * 2017-10-18 2019-04-26 北京京东尚科信息技术有限公司 用于输出信息的方法和装置
WO2019165697A1 (zh) * 2018-02-28 2019-09-06 武汉斗鱼网络科技有限公司 刷人气用户的识别方法、装置、终端设备及储存介质
CN110599292A (zh) * 2019-08-14 2019-12-20 北京三快在线科技有限公司 逃单识别方法、装置、电子设备及可读存储介质
CN110610365A (zh) * 2019-09-17 2019-12-24 中国建设银行股份有限公司 一种识别交易请求的方法和装置
CN111080305A (zh) * 2019-12-16 2020-04-28 中国建设银行股份有限公司 一种风险识别方法、装置及电子设备
CN111126629A (zh) * 2019-12-25 2020-05-08 上海携程国际旅行社有限公司 模型的生成方法、刷单行为识别方法、系统、设备和介质
CN111291972A (zh) * 2020-01-17 2020-06-16 深圳大圆影业有限公司 一种基于大数据的全产业链的电影评价方法及系统
CN111325419A (zh) * 2018-12-13 2020-06-23 北京沃东天骏信息技术有限公司 一种识别黑名单用户的方法和装置
CN111507377A (zh) * 2020-03-24 2020-08-07 微梦创科网络科技(中国)有限公司 一种养号帐号批量识别方法及装置
CN112734508A (zh) * 2021-03-24 2021-04-30 于淼 一种基于云平台的电商交易数据分析系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105392113A (zh) * 2015-12-02 2016-03-09 百度在线网络技术(北京)有限公司 用车刷单作弊的识别方法和装置
US20160070709A1 (en) * 2014-09-09 2016-03-10 Stc.Unm Online review assessment using multiple sources
CN105447740A (zh) * 2015-11-17 2016-03-30 北京齐尔布莱特科技有限公司 基于Golang的反刷单方法
CN105657659A (zh) * 2016-01-29 2016-06-08 北京邮电大学 一种识别打车业务中刷单用户的方法和系统
CN105741161A (zh) * 2016-01-29 2016-07-06 北京邮电大学 基于司机信用的识别打车业务中刷单用户的方法和系统
CN105809451A (zh) * 2016-02-29 2016-07-27 江苏大学 一种大数据电商网购评价分析预测方法及系统
CN106059847A (zh) * 2016-04-08 2016-10-26 久远谦长(北京)技术服务有限公司 一种用户刷单行为检测方法和装置
CN106096974A (zh) * 2016-06-02 2016-11-09 中国联合网络通信集团有限公司 一种针对网络购物的反作弊方法及系统
CN106127505A (zh) * 2016-06-14 2016-11-16 北京众成汇通信息技术有限公司 一种刷单识别方法及装置
CN106204157A (zh) * 2016-07-24 2016-12-07 广东聚联电子商务股份有限公司 一种基于大数据采集与分析的刷单评价行为处理方法
CN106384273A (zh) * 2016-10-08 2017-02-08 江苏通付盾科技有限公司 恶意刷单检测系统及方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160070709A1 (en) * 2014-09-09 2016-03-10 Stc.Unm Online review assessment using multiple sources
CN105447740A (zh) * 2015-11-17 2016-03-30 北京齐尔布莱特科技有限公司 基于Golang的反刷单方法
CN105392113A (zh) * 2015-12-02 2016-03-09 百度在线网络技术(北京)有限公司 用车刷单作弊的识别方法和装置
CN105657659A (zh) * 2016-01-29 2016-06-08 北京邮电大学 一种识别打车业务中刷单用户的方法和系统
CN105741161A (zh) * 2016-01-29 2016-07-06 北京邮电大学 基于司机信用的识别打车业务中刷单用户的方法和系统
CN105809451A (zh) * 2016-02-29 2016-07-27 江苏大学 一种大数据电商网购评价分析预测方法及系统
CN106059847A (zh) * 2016-04-08 2016-10-26 久远谦长(北京)技术服务有限公司 一种用户刷单行为检测方法和装置
CN106096974A (zh) * 2016-06-02 2016-11-09 中国联合网络通信集团有限公司 一种针对网络购物的反作弊方法及系统
CN106127505A (zh) * 2016-06-14 2016-11-16 北京众成汇通信息技术有限公司 一种刷单识别方法及装置
CN106204157A (zh) * 2016-07-24 2016-12-07 广东聚联电子商务股份有限公司 一种基于大数据采集与分析的刷单评价行为处理方法
CN106384273A (zh) * 2016-10-08 2017-02-08 江苏通付盾科技有限公司 恶意刷单检测系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王忠群等: "基于模板用户信息搜索行为和统计分析的共谋销量欺诈识别", 《现代图书情报技术》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107633326A (zh) * 2017-09-14 2018-01-26 北京拉勾科技有限公司 一种用户投递意愿模型的构建方法和计算设备
CN107679870A (zh) * 2017-09-22 2018-02-09 广东欧珀移动通信有限公司 刷量资源确定方法及装置
CN109685536A (zh) * 2017-10-18 2019-04-26 北京京东尚科信息技术有限公司 用于输出信息的方法和装置
CN109685536B (zh) * 2017-10-18 2021-01-26 北京京东尚科信息技术有限公司 用于输出信息的方法和装置
CN108230007A (zh) * 2017-11-28 2018-06-29 北京三快在线科技有限公司 一种用户意图的识别方法、装置、电子设备及存储介质
CN108038696A (zh) * 2017-12-01 2018-05-15 杭州呯嘭智能技术有限公司 基于设备标识码和社交群组信息的刷单检测方法及系统
CN108038696B (zh) * 2017-12-01 2020-12-01 杭州乒乓智能技术股份有限公司 基于设备标识码和社交群组信息的刷单检测方法及系统
WO2019136850A1 (zh) * 2018-01-10 2019-07-18 武汉斗鱼网络科技有限公司 风险行为识别方法、存储介质、设备及系统
CN108243191B (zh) * 2018-01-10 2019-08-23 武汉斗鱼网络科技有限公司 风险行为识别方法、存储介质、设备及系统
CN108243191A (zh) * 2018-01-10 2018-07-03 武汉斗鱼网络科技有限公司 风险行为识别方法、存储介质、设备及系统
CN108182587A (zh) * 2018-01-29 2018-06-19 北京信息科技大学 一种电商平台刷单行为检测方法及系统
WO2019165697A1 (zh) * 2018-02-28 2019-09-06 武汉斗鱼网络科技有限公司 刷人气用户的识别方法、装置、终端设备及储存介质
CN108921581B (zh) * 2018-07-18 2021-07-02 北京三快在线科技有限公司 一种刷单操作识别方法、装置及计算机可读存储介质
CN108921581A (zh) * 2018-07-18 2018-11-30 北京三快在线科技有限公司 一种刷单操作识别方法、装置及计算机可读存储介质
CN109345332A (zh) * 2018-08-27 2019-02-15 中国民航信息网络股份有限公司 一种航空订票恶意行为的智能检测方法
CN111325419A (zh) * 2018-12-13 2020-06-23 北京沃东天骏信息技术有限公司 一种识别黑名单用户的方法和装置
CN110599292A (zh) * 2019-08-14 2019-12-20 北京三快在线科技有限公司 逃单识别方法、装置、电子设备及可读存储介质
CN110610365A (zh) * 2019-09-17 2019-12-24 中国建设银行股份有限公司 一种识别交易请求的方法和装置
CN111080305A (zh) * 2019-12-16 2020-04-28 中国建设银行股份有限公司 一种风险识别方法、装置及电子设备
CN111126629A (zh) * 2019-12-25 2020-05-08 上海携程国际旅行社有限公司 模型的生成方法、刷单行为识别方法、系统、设备和介质
CN111126629B (zh) * 2019-12-25 2023-09-19 上海携程国际旅行社有限公司 模型的生成方法、刷单行为识别方法、系统、设备和介质
CN111291972A (zh) * 2020-01-17 2020-06-16 深圳大圆影业有限公司 一种基于大数据的全产业链的电影评价方法及系统
CN111507377A (zh) * 2020-03-24 2020-08-07 微梦创科网络科技(中国)有限公司 一种养号帐号批量识别方法及装置
CN111507377B (zh) * 2020-03-24 2023-08-11 微梦创科网络科技(中国)有限公司 一种养号帐号批量识别方法及装置
CN112734508A (zh) * 2021-03-24 2021-04-30 于淼 一种基于云平台的电商交易数据分析系统

Also Published As

Publication number Publication date
CN107146089B (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
CN107146089A (zh) 一种刷单识别方法及装置,电子设备
CN106372249B (zh) 一种点击率预估方法、装置及电子设备
CN109189904A (zh) 个性化搜索方法及系统
CN109285075A (zh) 一种理赔风险评估方法、装置及服务器
CN103198161A (zh) 微博水军识别方法与设备
CN105931068A (zh) 一种持卡人消费画像的生成方法及装置
US20130124448A1 (en) Method and system for selecting a target with respect to a behavior in a population of communicating entities
Dong et al. Brand purchase prediction based on time‐evolving user behaviors in e‐commerce
CN107153656A (zh) 一种信息搜索方法和装置
CN105978729B (zh) 一种基于用户上网日志及位置的手机信息推送系统及方法
CN115496566B (zh) 基于大数据的地区特产推荐方法及系统
CN111078997B (zh) 一种资讯推荐方法及装置
Bhambri Data mining as a tool to predict churn behavior of customers
CN110992111A (zh) 基于大数据的投保人用户画像挖掘方法
CN110019774A (zh) 标签分配方法、装置、存储介质及电子装置
Wang et al. A reliable location design of unmanned vending machines based on customer satisfaction
Wagh et al. Customer churn prediction in telecom sector using machine learning techniques
CN109829593B (zh) 目标对象的信用度确定方法、装置、存储介质及电子装置
WO2014107517A1 (en) Priority-weighted quota cell selection to match a panelist to a market research project
CN115204881A (zh) 一种数据处理方法、装置、设备及存储介质
Sun et al. Predictive modeling of potential customers based on the customers clickstream data: A field study
CN108460630B (zh) 基于用户数据进行分类分析的方法和装置
CN109902129A (zh) 基于大数据分析的保险代理人归类方法及相关设备
CN110210884A (zh) 确定用户特征数据的方法、装置、计算机设备及存储介质
CN115168700A (zh) 一种基于预训练算法的信息流推荐方法、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant