CN114092141A - 羊毛党识别方法、装置、设备及存储介质 - Google Patents

羊毛党识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114092141A
CN114092141A CN202111358128.1A CN202111358128A CN114092141A CN 114092141 A CN114092141 A CN 114092141A CN 202111358128 A CN202111358128 A CN 202111358128A CN 114092141 A CN114092141 A CN 114092141A
Authority
CN
China
Prior art keywords
information
user
geocode
character string
longitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111358128.1A
Other languages
English (en)
Inventor
李萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202111358128.1A priority Critical patent/CN114092141A/zh
Publication of CN114092141A publication Critical patent/CN114092141A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Remote Sensing (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请涉及关系网络分析领域,具体公开了一种羊毛党识别方法、装置、设备及存储介质,所述方法包括:获取参与活动事件多个用户的用户信息,所述用户信息包括所述用户的经纬度信息、基本信息和活动信息;对所述经纬度信息进行编码,得到所述经纬度信息对应的地理编码字符串;根据所述地理编码字符串对应用户的所述基本信息和所述活动信息,确定所述地理编码字符串的自变量;利用预设的拟合函数,根据所述自变量得到所述地理编码字符串的因变量;根据所述因变量,确定所述地理编码字符串对应用户是否为羊毛党用户。基于所述方法,能够准确地识别出参与活动的用户是否为羊毛党用户。

Description

羊毛党识别方法、装置、设备及存储介质
技术领域
本申请涉及关系网络分析领域,尤其涉及一种羊毛党识别方法、装置、设备及存储介质。
背景技术
目前,羊毛党利用虚假身份信息或自动化工具参与各类营销活动,营销活动包括但不限于折扣、返现、抽奖、满减、拉新红包、助力红包等形式,并以此牟利的黑产,这些异常流量不能给活动平台带来实际的活跃用户或订单交易,却会给活动举办方造成巨大损失。传统的羊毛党识别主要是通过设置规则模型限制用户参加活动次数、中奖次数、中奖金额、每日访问频率等来阻止羊毛党薅羊毛,但这些规则很容易被羊毛党发现并绕过,从而升级攻击手段,有时攻击者还会通过各种工具伪装相应的流量特征。因此,目前很难识别这些异常流量特征且识别准确性不高。
发明内容
本申请提供一种羊毛党识别方法、装置、设备及存储介质,用于准确地识别出参与活动的用户是否为羊毛党用户。
第一方面,本申请提供一种羊毛党识别方法,所述方法包括:
获取参与活动事件多个用户的用户信息,所述用户信息包括所述用户的经纬度信息、基本信息和活动信息;
对所述经纬度信息进行编码,得到所述经纬度信息对应的地理编码字符串;
根据所述地理编码字符串对应用户的所述基本信息和所述活动信息,确定所述地理编码字符串的自变量;
利用预设的拟合函数,根据所述自变量得到所述地理编码字符串的因变量;
根据所述因变量,确定所述地理编码字符串对应用户是否为羊毛党用户。
在一些实施例中,所述方法还包括:
获取样本数据,所述样本数据包括多个样本,每个所述样本包括用户信息以及用户标签,所述用户信息包括用户的经纬度信息、基本信息和活动信息,所述用户标签用于表示用户是否为羊毛党用户;
将所述样本数据作为样本集,对所述样本集中每个所述样本的所述经纬度信息进行编码,得到所述经纬度信息对应的所述地理编码字符串;
以所述地理编码字符串为主键,根据每个所述样本的基本信息和活动信息确定每个所述地理编码字符串对应的自变量和因变量;
根据每个所述地理编码字符串对应的所述自变量和所述因变量,拟合从所述自变量到所述因变量的函数,得到所述拟合函数。
第二方面,本申请还提供了一种羊毛党识别装置,所述羊毛党识别装置包括:
信息获取模块,用于获取参与活动事件的多个用户的用户信息,所述用户信息包括所述用户的经纬度信息、基本信息和活动信息;
数据编码模块,用于对所述经纬度信息进行编码,得到所述经纬度信息对应的地理编码字符串;
变量分析模块,用于根据所述地理编码字符串对应用户的所述基本信息和所述活动信息,确定所述地理编码字符串的自变量;
变量计算模块,用于利用预设的拟合函数,根据所述自变量得到所述地理编码字符串的因变量;
结果输出模块,用于根据所述因变量,确定所述地理编码字符串对应用户是否为羊毛党用户。
第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如本申请实施例中提供的任意一种羊毛党识别方法。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如本申请实施例中提供的任意一种羊毛党识别方法。
本申请公开了一种羊毛党识别方法、装置、设备及存储介质,该方法包括:获取参与活动事件多个用户的用户信息,用户信息包括用户的经纬度信息、基本信息和活动信息;对经纬度信息进行编码,得到经纬度信息对应的地理编码字符串;根据地理编码字符串对应用户的基本信息和活动信息,确定地理编码字符串的自变量;利用预设的拟合函数,根据自变量得到地理编码字符串的因变量;根据因变量,确定地理编码字符串对应用户是否为羊毛党用户。通过上述方法,将二维的经纬度信息转换成了一维的地理编码字符串,并以此为主键,从不同维度重新挖掘计算样本集的自变量,以及依据地理编码字符串聚集用户属性重新定义因变量,充分考虑到了羊毛党产业的聚集性和关联性特点;然后再结合预设的拟合函数得到能够识别羊毛党用户的自变量权重值,按照规则对用户进行判断。基于本申请提供的羊毛党识别方法,能够准确地识别出参与活动的用户是否为羊毛党用户。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种羊毛党识别方法的应用场景框图;
图2是本申请实施例提供的一种羊毛党识别方法的示意流程图;
图3是本申请实施例提供的一种拟合函数获取方法的示意流程图;
图4是本申请实施例提供的一种地理编码算法的示意性框图;
图5是本申请实施例提供的一种羊毛党识别装置的示意性框图;
图6是本申请实施例提供的一种计算机设备的结构示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
为了准确地识别出羊毛党用户,减少活动举办方的经济损失,本申请提供了一种羊毛党识别方法、装置、设备及存储介质。
下面结合结合附图,对本申请的实施例作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
所述羊毛党识别方法的具体应用场景如图1所示,所述方法可以应用于服务器中,具体地应用于活动事件应用程序的服务端,该服务端运行在服务器中,用于获取n个用户通过活动事件应用程序的客户端上传的用户信息,客户端运行在用户使用的终端设备中。
商家通过活动平台发布各类营销活动,比如发布折扣、返现、抽奖、满减、拉新红包或助力红包等,活动平台具体可以为应用程序,该应用程序包括客户端和服务端,客户端安装在终端设备中供用户使用,服务端安装在服务器中,终端设备与服务器通过网络通信连接,终端设备包括手机、平板电脑、笔记本电脑或台式电脑等。
商家通过活动平台发布各类营销活动,即各类营销活动对应的活动事件,用户可以参与该活动事件,在参与这些活动事件的用户中可能存在羊毛党,其中,参与活动的羊毛党具有聚集性和关联性等特点,因此可以利用这些特点来准确定识别出哪些用户是羊毛党。
在终端设备中安装该活动事件应用程序时需要终端设备授权相应的权限。比如可以获取GPS信息、用户的手机号、基本属性信息、设备号、网络信息、中奖次数和中奖金额等信息的权限。
需要说明的是,本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。比如基于预设的拟合函数对羊毛党用户进行识别,其中,人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
请参阅图2,请参阅图2,图2是本申请实施例提供的一种羊毛党识别方法的示意流程图。该羊毛党识别方法从不同维度重新挖掘计算样本集的自变量,以及依据地理编码字符串聚集用户属性重新定义因变量,再结合预设的拟合函数确定地理编码字符串对应用户是否为羊毛党用户,能够减少由于简单的筛选规则指标被羊毛党用户规避的情况,提高羊毛党用户的识别率。
为了获取预设的拟合函数,本申请还提供一种拟合函数获取方法,如图3所示,该拟合函数获取方法,具体包括:步骤S201至步骤S204。
S201、获取样本数据,所述样本数据包括多个样本,每个所述样本包括用户信息以及用户标签,所述用户信息包括用户的经纬度信息、基本信息和活动信息,所述用户标签用于表示用户是否为羊毛党用户。
具体地,在活动事件进行的过程中,获取相关的活动事件的数据,所述数据包括参与活动的用户的用户信息和用户标签,根据参与活动事件的访问流量监测结果,选取多个在访问流量达到峰值的时间段的样本数据,根据人工审核结果获取样本数据中用户对应的数据标签,并将所述数据标签和对应的用户进行绑定。
用户的经纬度信息可以通过用户的终端设备的GPS进行采集,具体包括经度信息和纬度信息。发布活动事件的应用程序需要用户的终端授权一些权限,比如位置权限等,因此在用户使用终端设备参与该活动事件,可以通过授权的位置权限获取用户的当前位置信息,即经纬度信息。
用户的基本信息包括用户的手机号、基本属性信息、设备号、网络信息(比如Ip地址)等,活动信息包括中奖次数和中奖金额等信息。用户在参与活动事件时需要填写自己的手机号以及基本属性信息,同时还可以获取用户的终端设备的设备号,上网所使用的IP地址以及相应的网络信息。
在一些实施例中,用户标签包括第一标签和第二标签,其中,第一标签表示用户为羊毛党用户,第二标签表示用户为正常用户。
在一些实施例中,在获取样本数据之前,还可以先对该样本数据进行预处理,得到处理后的样本集,其中,该预处理用于滤除该样本数据中信息不全的用户信息。
示例性的,比如参与该活动事件的用户有1000个,则对应有1000个样本,即对应有1000个用户信息,其中1000个样本中可能存在不满足条件的用户信息,不满足条件的用户信息具体为信息不全的用户信息,比如缺失经纬度信息,或者缺少手机号等。
其中预处理,具体可以按照经纬度信息是否为空、手机号是否正常、是否为特定网络WiFi名称、缺失率是否大于设定阈值等筛选掉不满足条件的样本,得到预处理后的样本集。手机号是否正常,具体比如手机号不是常用的号段;缺失率比如为基本信息中多项信息中缺失项除以全部项数,举例而言,比如基本信息包括5项信息,如果基本信息中的5项信息中有3项为空值,即缺失率为3/5,即为60%,设定阈值可以根据实际进行设定,比如设置50%。
S202、将所述样本数据作为样本集,对所述样本集中每个所述样本的所述经纬度信息进行编码,得到所述经纬度信息对应的所述地理编码字符串。
具体地,可以利用地理编码算法对预处理后的样本集中每个所述用户信息的经纬度信息进行编码,得到所述经纬度信息对应的地理编码字符串,其中,该地理编码算法包括:base32编码算法。
需要说明的是,所述地理编码算法为:将地理实体的描述(例如位置名称或纬度/经度坐标)转换为规范化数据并将其编码为地理编码的算法。
在一些实施例中,地理编码算法就是将整个地图或者某个分割所得的区域进行一次划分,由于采用的是base32编码算法,即地理编码字符串中的每一个字符或者数字都是由5bits组成,这5bits可以有32种不同的组合(0~31),这样可以将整个地图区域分为32个区域,通过00000~11111来标识这32个区域,5bits对应的32种不同组合及编码如图4所示。
将经纬度信息转换为地理编码字符串大体可以分为三步:
步骤①、将纬度(-90,90)平均分成两个区间,分别为第一区间(-90,0)和第二区间(0,90),如果坐标位置的纬度值在第一区间,则编码是0,否则编码是1。以纬度39.918118举例说明,由于39.918118属于(0,90),所以编码是1,然后继续将(0,90)分为(0,45),(45,90)两个区间,而39.918118位于(0,45),所以编码是0,依次类推,可以进行20次拆分,最后计算39.918118的纬度编码是10111000110001011011;经度的处理也是类似,只是经度的范围是(-180,180),经度116.40382的编码是11010010110001101010。
步骤②、将经纬度信息的编码合并,从0开始,在合并的编码中奇数位是纬度,偶数位是经度,得到的编码是:1110011101001000111100000011100111001101。
步骤③、对合并后的编码,根据base32编码算法进行编码,最终得到的地理编码字符串。
S203、以所述地理编码字符串为主键,根据每个所述样本的基本信息和活动信息确定每个所述地理编码字符串对应的自变量和因变量。
具体地,将经纬度转换成地理编码字符串后,以地理编码字符串为主键,从用户的基本信息和活动信息,具体从用户的手机号、基本属性信息、设备号、网络信息(比如Ip地址)、中奖次数和中奖金额等几个维度重新计算样本集的自变量和因变量。
在一些实施例中,所述地理编码字符串对应的自变量包括:用户的手机号、基本属性信息、设备号、网络信息、中奖次数和中奖金额中的一个或多个。对于同一地理编码字符串,计算得到的自变量可能包括多个用户的基本信息和活动信息,因为羊毛党具有聚集性和关联性。
在一些实施例中,所述地理编码字符串的因变量的获取方法包括:获取所述地理编码字符串对应的用户的用户数量;根据所述用户标签确定所述用户数量中包括的羊毛党用户数量;根据所述羊毛党用户数量和所述用户数量,计算所述地理编码字符串对应的羊毛党用户比值,得到的所述羊毛党用户比值作为所述地理编码字符串对应的因变量。
示例性的,获取任一样本数据中的地理编码字符串,获取该样本地理编码字符串的对应的用户数量,比如该用户数量为20个,在该20个用户当中,被标识为第一标签的羊毛党用户的数量是16个,被标识为第二标签的正常用户的数量是4个,则所述地理编码字符串对应的羊毛党用户比值为16/20,根据所述羊毛党用户比值,将所述地理编码字符串对应因变量设置为16/20。
S204、根据每个所述地理编码字符串对应的所述自变量和所述因变量,拟合从所述自变量到所述因变量的函数,得到所述拟合函数。
在一些实施例中,可以使用逻辑斯蒂函数拟合从自变量到因变量的函数,当然也可以采用其他函数进行拟合,在此不做限定。
逻辑斯蒂函数具体为:
Figure BDA0003358037210000081
z=θ01x(1)+…+θpx(p)=θTx
x=(1,x(1),…,x(p))T,θ=(θ0,…,θp)T
其中,f(x,θ)表示因变量,x=(1,x(1),…,x(p))T是自变量,θ0,…,θp是自变量的权重。
基于上述过程提供的拟合函数获取方法,最终得到拟合函数,拟合函数主要是用于获取自变量的权重,以便在实际使用过程中,根据自变量和权重计算每个地理编码字符串对应的因变量,通过该因变量确定该地理编码字符串对应的用户是否为羊毛党。
上述过程是为了根据样本数据得到最终的拟合函数,以下将介绍基于该拟合函数的实际应用,即确定参与活动事件的多个用户是否包括羊毛党。
如图2所示,该羊毛党识别方法,具体包括:步骤S101至步骤S105。
S101、获取参与活动事件多个用户的用户信息,所述用户信息包括所述用户的经纬度信息、基本信息和活动信息。
示例性的,商家在某个产品发布时,推出关于该产品的营销活动,即活动事件,以便用户参与。为了防止羊毛党薅羊毛,可以通过获取参与活动事件用户的用户信息,确定参与该活动事件的用户中是否存在羊毛党,以及哪些用户是羊毛党。
示例性的,根据参与活动事件的访问流量监测结果,选取多个在访问流量达到峰值的时间段的用户信息,所述用户信息包括:所述用户的经纬度信息、基本信息和活动信息。用户的基本信息包括:用户的手机号、基本属性信息、设备号、网络信息(比如Ip地址),用户的活动信息包括:中奖次数和中奖金额。
示例性的,还可以根据用户的访问行为,选取多个可能存在异常的访问行为的用户的用户信息。例如,检测用户访问步骤,根据检测结果,获取多个访问步骤完全相同的用户的用户信息。
在一些实施例中,在获取用户信息之前,还可以先对初始的用户信息进行预处理,得到处理后的用户信息,其中,该预处理用于滤除初始的用户信息中信息不全的用户信息。
S102、对所述经纬度信息进行编码,得到所述经纬度信息对应的地理编码字符串。
在一些实施例中,对经纬度信息进行编码,得到经纬度信息对应的地理编码字符串,包括:利用地理编码算法对每个所述用户的所述经纬度信息进行编码,得到所述经纬度信息对应的地理编码字符串,其中,所述地理编码算法包括:base32编码算法。
S103、根据所述地理编码字符串对应用户的所述基本信息和所述活动信息,确定所述地理编码字符串的自变量。
具体地,对于同一地理编码字符串,计算得的自变量可能包括多个用户的基本信息和活动信息,因为羊毛党具有聚集性和关联性。
在一些实施例中,所述地理编码字符串对应的自变量包括:用户的手机号、基本属性信息、设备号、网络信息、中奖次数和中奖金额中的一个或多个。
S104、利用预设的拟合函数,根据所述自变量得到所述地理编码字符串的因变量。
需要说明的是,每个地理编码字符串对应的自变量和因变量存在一种对应关系,即因变量的大小是有自变量确定的。具体地,每个自变量均对应一个权重,可以计算每个自变量与其权重的乘积,再计算所有自变量的乘积之和,即可以得到因变量。
具体地,根据拟合函数中自变量的权重,确定地理编码字符串对应自变量的加权和,该加权和即为地理编码字符对应的因变量,由此可以根据因变量确定所述地理编码字符串是否为异常地址。
在一些实施例中,可以使用逻辑斯蒂函数确定拟合函数,逻辑斯蒂函数具体为:
Figure BDA0003358037210000101
z=θ01x(1)+…+θpx(p)=θTx
x=(1,x(1),…,x(o))T,θ=(θ0,…,θp)T
其中,f(x,θ)表示因变量,x=(1,x(1),…,x(p))T是自变量,θ0,…,θp是自变量的权重。
S105、根据所述因变量,确定所述地理编码字符串对应用户是否为羊毛党用户。
具体地,获取所述因变量,获取所述地理编码字符串对应的预设阈值,并判断所述因变量是否大于或等于所述预设阈值;若所述因变量大于或等于所述预设阈值,则确定所述地理编码字符串对应的地址为异常地址,所述地理编码字符串对应用户为羊毛党用户。若所述因变量小于所述预设阈值则被识别为正常地址,被定位到该地址的用户被识别为正常用户。
在一些实施例中,获取预设阈值,包括:获取所述地理编码字符串对应的用户的用户数量,根据所述用户数量确定对应的预设阈值。例如,若所述地理编码字符串对应用户数量为20,则将所述地理编码字符串对应的预设阈值设置为0.85;若所述地理编码字符串对应用户数量为40,则将所述地理编码字符串对应的预设阈值设置为0.75。
在一些实施例中,在确定地理编码字符串为异常地址后,获取该为异常地址的地理编码字符串对应的用户的基本信息,将该用户的基本信息标记为羊毛党用户,输出提示信息以提醒商家用户该用户为羊毛党。
上述实施例提供的羊毛党识别方法,将二维的经纬度信息转换成了一维的地理编码字符串,并以此为主键,从不同维度重新挖掘计算样本集的自变量,以及依据地理编码字符串聚集用户属性重新定义因变量,充分考虑到了羊毛党黑产的聚集性和关联性特点;然后再结合预设的拟合函数得到能够识别羊毛党用户的自变量权重值,按照规则对用户进行判断。基于上述羊毛党识别方法,能够准确地识别出参与活动的用户是否为羊毛党用户。
请参阅图5,图5是本申请的实施例还提供一种羊毛党识别装置的示意性框图,该羊毛党识别装置300用于执行前述的羊毛党识别方法。其中,该羊毛党识别装置可以配置于服务器或终端中。
其中,服务器可以为独立的服务器,也可以为服务器集群,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)以及大数据和人工智能平台等基础云计算服务的云服务器。该终端可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。
如图5所示,羊毛党识别装置300包括:信息获取模块301、数据编码模块302、变量分析模块303、变量计算模块304、结果输出模块305。
信息获取模块301,用于获取参与活动事件的多个用户的用户信息,所述用户信息包括所述用户的经纬度信息、基本信息和活动信息。
其中,所述地理编码字符串对应的自变量包括:用户的手机号、基本属性信息、设备号、网络信息、中奖次数和中奖金额中的一个或多个。
其中,信息获取模块301,具体还可以用于在获取用户信息之前,对未处理的用户信息进行预处理,得到处理后的用户信息,其中,该预处理用于滤除未处理的用户信息中信息不全的用户信息。
数据编码模块302,用于对所述经纬度信息进行编码,得到所述经纬度信息对应的地理编码字符串。
其中,数据编码模块302,具体还可以用于利用地理编码算法对每个所述用户的所述经纬度信息进行编码,得到所述经纬度信息对应的地理编码字符串,其中,所述地理编码算法包括:base32编码算法。
变量分析模块303,用于根据所述地理编码字符串对应用户的所述基本信息和所述活动信息,确定所述地理编码字符串的自变量用于利用预设的拟合函数,根据所述自变量得到所述地理编码字符串的因变量。
变量计算模块304,用于利用预设的拟合函数,根据所述自变量得到所述地理编码字符串的因变量。
其中,变量计算模块304,具体还可以用于计算每个自变量与其权重的乘积,再计算所有自变量的乘积之和,得到因变量。
结果输出模块305,用于根据所述因变量,确定所述地理编码字符串对应用户是否为羊毛党用户。
其中,结果输出模块305,具体还可以用于获取预设阈值,判断所述因变量是否大于或等于所述预设阈值;若所述因变量大于或等于所述预设阈值,则确定所述地理编码字符串对应的地址为异常地址,所述地理编码字符串对应用户为羊毛党用户。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的各模块的具体工作过程,可以参考前述羊毛党识别方法实施例中的对应过程,在此不再赘述。
上述的羊毛党识别装置可以实现为一种计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。
请参阅图6,图6是本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器或终端。
参阅图6,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行本申请实施例提供的任意一种羊毛党识别方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行本申请实施例提供的任意一种羊毛党识别方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
示例性的,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取参与活动事件多个用户的用户信息,所述用户信息包括所述用户的经纬度信息、基本信息和活动信息;
对所述经纬度信息进行编码,得到所述经纬度信息对应的地理编码字符串;
根据所述地理编码字符串对应用户的所述基本信息和所述活动信息,确定所述地理编码字符串的自变量;
利用预设的拟合函数,根据所述自变量得到所述地理编码字符串的因变量;
根据所述因变量,确定所述地理编码字符串对应用户是否为羊毛党用户。
在一个实施例中,所述处理器还用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取样本数据,所述样本数据包括多个样本,每个所述样本包括用户信息以及用户标签,所述用户信息包括用户的经纬度信息、基本信息和活动信息,所述用户标签用于表示用户是否为羊毛党用户;
将所述样本数据作为样本集,对所述样本集中每个所述样本的所述经纬度信息进行编码,得到所述经纬度信息对应的所述地理编码字符串;
以所述地理编码字符串为主键,根据每个所述样本的基本信息和活动信息确定每个所述地理编码字符串对应的自变量和因变量;
根据每个所述地理编码字符串对应的所述自变量和所述因变量,拟合从所述自变量到所述因变量的函数,得到所述拟合函数。
在一些实施例中,所述地理编码字符串对应的自变量包括:用户的手机号、基本属性信息、设备号、网络信息、中奖次数和中奖金额中的一个或多个。
在一些实施例中,所述处理器还用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取所述地理编码字符串对应的用户的用户数量;
根据所述用户标签确定所述用户数量中包括的羊毛党用户数量;
根据所述羊毛党用户数量和所述用户数量,计算所述地理编码字符串对应的羊毛党用户比值,得到的所述羊毛党用户比值作为所述地理编码字符串对应的因变量。
在一些实施例中,所述处理器在实现对所述经纬度信息进行编码,得到所述经纬度信息对应的地理编码字符串时,具体用于实现:
利用地理编码算法对每个所述用户的所述经纬度信息进行编码,得到所述经纬度信息对应的地理编码字符串,其中,所述地理编码算法包括:base32编码算法。
在一些实施例中,所述处理器在实现根据所述因变量,确定所述地理编码字符串对应用户是否为羊毛党用户时,具体用于实现:
获取预设阈值,判断所述因变量是否大于或等于所述预设阈值;
若所述因变量大于或等于所述预设阈值,则确定所述地理编码字符串对应的地址为异常地址,所述地理编码字符串对应用户为羊毛党用户。
在一些实施例中,所述处理器在用于获取样本数据之前,还具体用于实现:
先对该样本数据进行预处理,得到处理后的样本集,其中,该预处理用于滤除该样本数据中信息不全的用户信息。
本申请的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请实施例提供的任一项羊毛党识别方法,或者实现本申请实施例提供的任一项拟合函数获取方法。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘、智能存储卡(SmartMedia Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种羊毛党识别方法,其特征在于,所述方法包括:
获取参与活动事件多个用户的用户信息,所述用户信息包括所述用户的经纬度信息、基本信息和活动信息;
对所述经纬度信息进行编码,得到所述经纬度信息对应的地理编码字符串;
根据所述地理编码字符串对应用户的所述基本信息和所述活动信息,确定所述地理编码字符串的自变量;
利用预设的拟合函数,根据所述自变量得到所述地理编码字符串的因变量;
根据所述因变量,确定所述地理编码字符串对应用户是否为羊毛党用户。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取样本数据,所述样本数据包括多个样本,每个所述样本包括用户信息以及用户标签,所述用户信息包括用户的经纬度信息、基本信息和活动信息,所述用户标签用于表示用户是否为羊毛党用户;
将所述样本数据作为样本集,对所述样本集中每个所述样本的所述经纬度信息进行编码,得到所述经纬度信息对应的所述地理编码字符串;
以所述地理编码字符串为主键,根据每个所述样本的基本信息和活动信息确定每个所述地理编码字符串对应的自变量和因变量;
根据每个所述地理编码字符串对应的所述自变量和所述因变量,拟合从所述自变量到所述因变量的函数,得到所述拟合函数。
3.根据权利要求2所述的方法,其特征在于,所述地理编码字符串对应的自变量包括:用户的手机号、基本属性信息、设备号、网络信息、中奖次数和中奖金额中的一个或多个。
4.根据权利要求2所述的方法,其特征在于,所述方法包括:
获取所述地理编码字符串对应的用户的用户数量;
根据所述用户标签确定所述用户数量中包括的羊毛党用户数量;
根据所述羊毛党用户数量和所述用户数量,计算所述地理编码字符串对应的羊毛党用户比值,得到的所述羊毛党用户比值作为所述地理编码字符串对应的因变量。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述对所述经纬度信息进行编码,得到所述经纬度信息对应的地理编码字符串,包括:
利用地理编码算法对每个所述用户的所述经纬度信息进行编码,得到所述经纬度信息对应的地理编码字符串,其中,所述地理编码算法包括:base32编码算法。
6.根据权利要求1所述的方法,其特征在于,所述根据所述因变量,确定所述地理编码字符串对应用户是否为羊毛党用户,包括:
获取预设阈值,判断所述因变量是否大于或等于所述预设阈值;
若所述因变量大于或等于所述预设阈值,则确定所述地理编码字符串对应的地址为异常地址,所述地理编码字符串对应用户为羊毛党用户。
7.根据权利要求2所述的方法,其特征在于,所述方法还包括:在获取样本数据之前,还可以先对该样本数据进行预处理,得到处理后的样本集,其中,该预处理用于滤除该样本数据中信息不全的用户信息。
8.一种羊毛党识别装置,其特征在于,包括:
信息获取模块,用于获取参与活动事件的多个用户的用户信息,所述用户信息包括所述用户的经纬度信息、基本信息和活动信息;
数据编码模块,用于对所述经纬度信息进行编码,得到所述经纬度信息对应的地理编码字符串;
变量分析模块,用于根据所述地理编码字符串对应用户的所述基本信息和所述活动信息,确定所述地理编码字符串的自变量;
变量计算模块,用于利用预设的拟合函数,根据所述自变量得到所述地理编码字符串的因变量;
结果输出模块,用于根据所述因变量,确定所述地理编码字符串对应用户是否为羊毛党用户。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至7中任一项所述的羊毛党识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的羊毛党识别方法。
CN202111358128.1A 2021-11-16 2021-11-16 羊毛党识别方法、装置、设备及存储介质 Pending CN114092141A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111358128.1A CN114092141A (zh) 2021-11-16 2021-11-16 羊毛党识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111358128.1A CN114092141A (zh) 2021-11-16 2021-11-16 羊毛党识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114092141A true CN114092141A (zh) 2022-02-25

Family

ID=80301102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111358128.1A Pending CN114092141A (zh) 2021-11-16 2021-11-16 羊毛党识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114092141A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114782061A (zh) * 2022-05-12 2022-07-22 中国平安财产保险股份有限公司 风险管控方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114782061A (zh) * 2022-05-12 2022-07-22 中国平安财产保险股份有限公司 风险管控方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US20210035126A1 (en) Data processing method, system and computer device based on electronic payment behaviors
CN106874253A (zh) 识别敏感信息的方法及装置
CN112148987A (zh) 基于目标对象活跃度的消息推送方法及相关设备
CN113947215A (zh) 联邦学习管理方法、装置、计算机设备及存储介质
CN108280644B (zh) 群组成员关系数据可视化方法及系统
CN114693192A (zh) 风控决策方法、装置、计算机设备和存储介质
CN111639700A (zh) 目标相似度识别方法、装置、计算机设备及可读存储介质
CN112488163A (zh) 一种异常账号的识别方法、装置、计算机设备及存储介质
CN117557331A (zh) 一种产品推荐方法、装置、计算机设备及存储介质
CN114092141A (zh) 羊毛党识别方法、装置、设备及存储介质
CN114219664A (zh) 产品推荐方法、装置、计算机设备及存储介质
CN117951341A (zh) 基于区块链的业务处理方法、装置、设备、介质及产品
WO2019095569A1 (zh) 基于微博财经事件的金融分析方法、应用服务器及计算机可读存储介质
CN115982654B (zh) 一种基于自监督图神经网络的节点分类方法及装置
CN117009670A (zh) 基于用户画像的综合推荐方法、装置、设备及存储介质
CN114495137B (zh) 票据异常检测模型生成方法与票据异常检测方法
CN116263761A (zh) 一种操作日志审计方法、装置、计算设备和存储介质
CN115661472A (zh) 图像查重方法、装置、计算机设备及存储介质
CN112053236B (zh) 风险信息识别方法、装置、计算设备和介质
CN113094595A (zh) 对象识别方法、装置、计算机系统及可读存储介质
CN114048330A (zh) 风险传导概率知识图谱生成方法、装置、设备及存储介质
CN114218453A (zh) 数据展示方法、装置、设备及可读存储介质
CN112950222A (zh) 资源处理异常检测方法、装置、电子设备及存储介质
CN117314756B (zh) 基于遥感图像的验保方法、装置、计算机设备及存储介质
CN113779274B (zh) 指标模拟仿真方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination