CN111984695A - 一种基于Spark确定黑分群的方法及系统 - Google Patents
一种基于Spark确定黑分群的方法及系统 Download PDFInfo
- Publication number
- CN111984695A CN111984695A CN202010706723.9A CN202010706723A CN111984695A CN 111984695 A CN111984695 A CN 111984695A CN 202010706723 A CN202010706723 A CN 202010706723A CN 111984695 A CN111984695 A CN 111984695A
- Authority
- CN
- China
- Prior art keywords
- newly
- user group
- built user
- group
- built
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000000694 effects Effects 0.000 claims abstract description 44
- 238000012545 processing Methods 0.000 claims description 28
- 230000001680 brushing effect Effects 0.000 claims description 9
- 238000003491 array Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 abstract description 8
- 238000005065 mining Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 18
- 239000002131 composite material Substances 0.000 description 6
- 238000007405 data analysis Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 101000932776 Homo sapiens Uncharacterized protein C1orf115 Proteins 0.000 description 3
- 102100025480 Uncharacterized protein C1orf115 Human genes 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/02—Details
- H04L12/16—Arrangements for providing special services to substations
- H04L12/18—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
- H04L12/185—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast with management of multicast group membership
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种基于Spark确定黑分群的方法及系统,包括:计算引擎Spark周期性自数据库获取前一周期内新建用户群的群号,形成第一弹性数据集;根据第一弹性数据集内各新建用户群的群号获取每个新建用户群内的成员信息、以及每个新建用户群内所有成员在前一周期参与活动得到的总积分,形成第二弹性数据集;针对第二弹性数据集内的每个新建用户群,根据该新建用户群的成员信息、以及该新建用户群内所有成员在前一周期参与活动得到的总积分,判断该新建用户群是否为黑分群。采用Spark对黑分群的挖掘,能够对大型互联网平台一段时间内所有的新建群进行是否为黑分群的数据分析、统计和异常认证。
Description
技术领域
本发明涉及数据分析领域,具体涉及一种基于Spark确定黑分群的方法及系统。
背景技术
在互联网社交平台上,经常有某活动的规则是在群里某一人得到积分则所有人都会得到同样多的积分。其本意是鼓励用户们进行社交活动。但一些不法分子会批量注册小号然后建立许多群,然后互相刷分或者给某大号刷分,这种行为不仅损害了正常用户的利益而且会使平台受到较大损失,这样的群就叫黑分群。现在目的是把这些黑分群都找出来。
在实现本发明过程中,申请人发现现有技术中至少存在如下问题:
如果使用普通的分析方法将每个群全部分析完,工作量非常大、且与建黑分群的速度不匹配,比如预计是30天才能分析完1天内新建的所有群,而此时不法分子早已成功拿到了剩下29天的积分。所以现在只能是抽样调查,取一部分群,计算其总积分,然后按分数排序,分数超过一定值的群和其群员认定为异常。目前没有能特别好的解决问题的方法来分析所有的群并找出黑分群。
发明内容
本发明实施例提供一种基于Spark确定黑分群的方法及系统,通过采用Spark能够对黑分群进行批量,批量挖掘使得能够对大型互联网平台一段时间内所有的新建用户群及其群员进行数据分析、统计、异常认证,从而可以判断新建用户群是否为黑分群。
为达上述目的,一方面,本发明实施例提供一种基于Spark确定黑分群的方法,包括:
计算引擎Spark周期性自数据库获取前一周期内新建用户群的群号,形成第一弹性数据集;
根据第一弹性数据集内各新建用户群的群号获取每个新建用户群内的成员信息、以及每个新建用户群内所有成员在前一周期参与活动得到的总积分,形成第二弹性数据集;
针对第二弹性数据集内的每个新建用户群,根据该新建用户群的成员信息、以及该新建用户群内所有成员在前一周期参与活动得到的总积分,判断该新建用户群是否为黑分群,所述黑分群是指参与活动时违规刷积分的用户群。
另一方面,本发明实施例提供一种基于Spark确定黑分群的系统,包括:
数据库,用于收集并保存与新建用户群所产生的相关数据;
计算引擎Spark,用于根据第一弹性数据集内各新建用户群的群号获取每个新建用户群内的成员信息、以及每个新建用户群内所有成员在前一周期参与活动得到的总积分,形成第二弹性数据集;
针对第二弹性数据集内的每个新建用户群,根据该新建用户群的成员信息、以及该新建用户群内所有成员在前一周期参与活动得到的总积分,判断该新建用户群是否为黑分群,所述黑分群是指参与活动时违规刷积分的用户群。
上述技术方案具有如下有益效果:Spark处理的速度要快于数据产生的速度,那么可通过采用Spark能够对黑分群进行批量,批量挖掘使得能够对大型互联网平台一段时间内所有的新建用户群及其群员进行数据分析、统计、异常认证,从而可以判断新建用户群是否为黑分群,从而可以为组织黑分群违规刷分提供技术支撑,净化网络环境。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种基于Spark确定黑分群的方法的流程图;
图2是本发明实施例的一种基于Spark确定黑分群的系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,结合本发明的实施例,提供一种基于Spark确定黑分群的方法,包括:
S101:算引擎Spark周期性自数据库获取前一周期内新建用户群的群号,形成第一弹性数据集;
S102:根据第一弹性数据集内各新建用户群的群号获取每个新建用户群内的成员信息、以及每个新建用户群内所有成员在前一周期参与活动得到的总积分,形成第二弹性数据集;
S103:针对第二弹性数据集内的每个新建用户群,根据该新建用户群的成员信息、以及该新建用户群内所有成员在前一周期参与活动得到的总积分,判断该新建用户群是否为黑分群,所述黑分群是指参与活动时违规刷积分的用户群。
优选地,新建用户群内的成员信息包括成员账号列表;
步骤102具体包括:
S1021:针对每个新建用户群,根据第一弹性数据集内新建用户群的群号,自数据库获取新建用户群内的各成员账号,形成新建用户群的成员账号列表;
S1022:根据新建用户群的成员账号列表获取新建用户群内每个成员在前一周期参与活动得到的积分,通过求和确定新建群内所有成员在前一周期参与活动得到的总积分;以及
S1023:将新建用户群的成员账号列表、该新建用户群内所有成员在前一周期参与活动得到的总积分形成二元数组;
S1024:排列各新建用户群相应的二元数组形成该新建用户群的第二弹性数据集。
优选地,所述步骤1021具体包括:
所述新建用户群的成员账号列表采用键值对形式表示,其中,新建用户群的群号为键,成员账号列表为值。
优选地,所述新建用户群内的成员信息还包括:每个成员的账号注册时间差、每个成员的登录次数;所述账号注册时间差是指成员的账号注册时间距离前一周期起始点的时间差值;
步骤102具体包括:
S1025:针对每个新建用户群,将新建用户群内的每个成员的账号注册时间差、每个成员的登录次数加入到其对应的二元数组内,形成该新建用户群的多元数组;
S1026:排列各新建用户群相应的多元数组更新第二弹性数据集。
优选地,步骤103具体包括:
S1031:针对每个新建用户群根据每个成员的账号注册时间差计算得到该新建用户群内成员的账号注册时间差的平均值,以及根据每个成员的登录次数计算得到该新建用户群内成员的平均登录次数。
S1032:当该新建用户群内所有成员在前一周期参与活动得到的总积分大于预设积分阈值,且该新建用户群内成员的账号注册时间差的平均值小于预设时间阈值、该新建用户群内成员的平均登录次数小于预设次数阈值时,判定该新建用户群为黑分群;否则,判定该新建用户群为正常群。
如图2所示,结合本发明的实施例,提供一种基于Spark确定黑分群的系统,包括:
数据库21,用于收集并保存与新建用户群所产生的相关数据;
计算引擎Spark22,用于根据第一弹性数据集内各新建用户群的群号获取每个新建用户群内的成员信息、以及每个新建用户群内所有成员在前一周期参与活动得到的总积分,形成第二弹性数据集;
针对第二弹性数据集内的每个新建用户群,根据该新建用户群的成员信息、以及该新建用户群内所有成员在前一周期参与活动得到的总积分,判断该新建用户群是否为黑分群,所述黑分群是指参与活动时违规刷积分的用户群。
优选地,新建用户群内的成员信息包括成员账号列表;所述计算引擎Spark22包括:
第一数据处理单元221,用于针对每个新建用户群,根据第一弹性数据集内新建用户群的群号,自数据库获取新建用户群内的各成员账号,形成新建用户群的成员账号列表;
第二数据处理单元222,用于根据新建用户群的成员账号列表获取新建用户群内每个成员在前一周期参与活动得到的积分,通过求和确定新建群内所有成员在前一周期参与活动得到的总积分;以及
第三数据处理单元223,用于将新建用户群的成员账号列表、该新建用户群内所有成员在前一周期参与活动得到的总积分形成二元数组;
数据合成单元224,用于排列各新建用户群相应的二元数组形成该新建用户群的第二弹性数据集。
优选地,所述第一数据处理单元221具体用于:
所述新建用户群的成员账号列表采用键值对形式表示,其中,新建用户群的群号为键,成员账号列表为值。
优选地,所述新建用户群内的成员信息还包括:每个成员的账号注册时间差、每个成员的登录次数;所述账号注册时间差是指成员的账号注册时间距离前一周期起始点的时间差值;
所述计算引擎Spark22还包括:
第四数据处理单元225,用于针对每个新建用户群,将新建用户群内的每个成员的账号注册时间差、每个成员的登录次数加入到其对应的二元数组内,形成该新建用户群的多元数组;
数据更新单元226,用于排列各新建用户群相应的多元数组更新第二弹性数据集。
优选地,所述计算引擎Spark22还包括:
第五数据处理单元227,用于针对每个新建用户群,根据每个成员的账号注册时间差计算得到该新建用户群内成员的账号注册时间差的平均值,以及根据每个成员的登录次数计算得到该新建用户群内成员的平均登录次数;
判定单元228,用于当该新建用户群内所有成员在前一周期参与活动得到的总积分大于预设积分阈值,且该新建用户群内成员的账号注册时间差的平均值小于预设时间阈值、该新建用户群内成员的平均登录次数小于预设次数阈值时,判定该新建用户群为黑分群;否则,判定该新建用户群为正常群。
本发明所取得的有益效果为:
Spark处理的速度要快于数据产生的速度,那么可通过采用Spark能够对黑分群进行批量,批量挖掘使得能够对大型互联网平台一段时间内所有的新建用户群及其群员进行数据分析、统计、异常认证,从而可以判断新建用户群是否为黑分群,从而可以为组织黑分群违规刷分提供技术支撑,净化网络环境。
下面结合具体的应用实例对本发明实施例上述技术方案进行详细说明,实施过程中没有介绍到的技术细节,可以参考前文的相关描述。
本发明涉及的缩略语和关键术语定义如下:
黑分群:在互联网社交平台上,经常有某活动的规则是在群里某一人得到积分则所有人都会得到同样多的积分。其本意是鼓励用户们进行社交活动。但一些不法分子会批量注册小号然后建立许多群,然后互相刷分或者给某大号刷分,这种行为不仅损害了正常用户的利益而且会使平台受到较大损失,这样的群就叫黑分群。
Spark:Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是一个通用引擎,可用它来完成各种各样的运算,包括SQL查询、文本处理、机器学习等,功能强大。
RDD:resilient distributed datase。是Spark的标准数据格式,中文叫做弹性分布式数据集。这个数据集实际上是分布在Spark集群的许多计算机上的,但是Spark可以简单统一方便的操作它们。
发明为一种基于Spark的黑分群的批量挖掘流程,用以解决的问题是:如何对一个大型互联网平台一段时间内所有的群及其群员进行数据分析、统计和异常认证,且前述涉及的各处理动作的速度要快于数据产生的速度。
Spark是专为大规模数据处理而设计的快速通用的计算引擎.能够想对一个大型互联网平台一段时间内所有的群进行数据分析,能够应对现有大型互联网平台群的数量级和群成员的数量级非常大的情况,避免采用单个机器处理不过来、效率低、速度慢的问题。而且这个系统处理的速度要快于数据产生的速度。以及Spark能进行分布式运算且操作上比较简单。
本发明的技术方案为:
1.每天(周期)执行一次:使用Spark-hive查询最近一天内新建的群的群号,得到第一弹性数据集RDD1(分布式设于集群内):[g1,g2,g3…],g1、g2、g3表示新建群的群号,Spark为计算引擎,为分布式集群设置;hive是数据库。
2.通过第一处理单元使用Spark的mapToPair函数,将RDD1转化为第一中间数据集RDD2(分布式设于集群内):{g1:[u1-1,u1-2…],g2:[u2-1,u2-2…]…},也就是KV对,一个新建群的群号对应一个群员的列表。群号查群员列表得出,g1:[u1-1,u1-2…]表示群号g1包括成员u1-1、u1-2等,u1-1、u1-2分别表示成员账号。
3.通过第三处理单元,将新建用户群的成员账号列表、该新建用户群内所有成员在前一周期参与活动得到的总积分形成二元数组,使用Spark的mapToPair函数(数据合成单元),将RDD2转化为第二中间数据集RDD3(分布式设于集群内):{g1:D1,g2:D2…Di…},其中Di是复合数据{users:[ui-1,ui-2…],totalscore:S},总分可以通过第三处理单元经Spark-hive查询得到,输入的查询条件为当天、该群、分数的总和;即:RDD3内任一新建群包含的数据为:某群号:(群内所有成员账号、该群所有成员共获得的总分)。
4.通过第四处理单元,任一新建用户群内的每个成员的账号注册时间差、每个成员的登录次数加入到其对应的二元数组内,形成该新建用户群的多元数组;使用Spark的mapToPair函数(数据更新单元),将RDD3转化为第二数据集RDD4(分布式设于集群内):{g1:D1,g2:D2…},
其中Di是复合数据{users:[ui-1,ui-2…],totalscore:S,userregister:[ri-1,ri-2…],userlogin:[Li-1,Li-2…]},其中userregister里但ri-j是第i个群里的第j个成员的注册时间距离现在的时间差。账号的注册时间可以由账号查询获得;同理还有userlogin指第i个群的第j个用户的累积登陆次数。即:RDD4内任一群包含的数据为:某群号:(群内所有成员账号、该群所有成员共获得的总分、群里每个成员注册时间距离现在的时间差、每个成员的登录次数)。
5.通过第五处理单元,使用Spark的mapToPair函数,将RDD4转化为第五数据集RDD5(分布式设于集群内):{g1:D1,g2:D2…}其中Di是复合数据{users:[ui-1,ui-2…],totalscore:S,registeraverage:R,loginaverage:L},registeraverage是由RDD4中的userregister求平均得到,loginaverage是由RDD4的userlogin求平均得到。即:RDD5内任一群包含的数据为:某群号:(群内所有成员账号、该群所有成功共获得的总分、新建群成员的账号注册时间距离时间差的平均值R、成员的平均登录次数)
5.判定单元:使用Spark的filter函数和collect函数,filter提供的过滤器f为:若总分S>S0,且新建群成员的账号注册时间距离时间差的平均值R<R0,且成员的平均登录次数L<L0则返回真值。将RDD5经过Spark的filter函数和collect函数得到一个数组A,里面所有的群号都是有问题的群号。这些群的所有成员都是有问题的。
本发明的具体的实例为:
1.每天执行一次:使用Spark-hive查询最近一天内新建的群的群号,得到RDD1:[1,2,3…]。
2.使用Spark的mapToPair,将RDD1转化为RDD2:{1:[11,12…],2:[21,22…]…},也就是KV对,一个群号对应一个群员的列表。群号查群员列表得出。
3.使用Spark的mapToPair函数,将RDD2转化为RDD3:{1:D1,,2:D2…}其中Di是复合数据{users:[ui-1,ui-2…],totalscore:S},总分可以通过Spark-hive查询得到,查询条件为当天、该群、分数的总和。
现在RDD3:{1:{Users:[11,12…],totalscore:50},2:{users:[21,22…],totalscore:3}…}
4.使用Spark的mapToPair函数,将RDD3转化为RDD4:{g1:D1,g2:D2…}其中Di是复合数据{users:[ui-1,ui-2…],totalscore:S,userregister:[ri-1,ri-2…],userlogin:[Li-1,Li-2…]},其中userregister里但ri-j是第i个群里的第j个成员的注册时间距离现在的时间差。账号的注册时间可以由账号查询获得。同理还有userlogin指第i个群的第j个用户的累积登陆次数。
现在RDD4:{1:{Users:[11,12…],totalscore:50,userregister:[30,30…],userlogin:[1,1]},2:{users:[21,22…],totalscore:3,userregister:[20000,30000,…],userlogin:[360,460]…}
4.使用Spark的mapToPair函数,将RDD4转化为RDD5:{g1:D1,g2:D2…}其中Di是复合数据{users:[ui-1,ui-2…],totalscore:S,registeraverage:R,loginaverage:L},registeraverage是由RDD4中的userregister求平均得到,loginaverage是由RDD4的userlogin求平均得到。
现在RDD4:{1:{Users:[11,12…],totalscore:50,registeraverage:30,loginaverage:1},2:{users:[21,22…],totalscore:3,registeraverage:25000,loginaverage:410…}
5.使用Spark的filter函数和collect函数,filter提供的过滤器f为:若S>S0,且R<R0,且L<L0则返回真值。将RDD5经过Spark的filter函数和collect函数得到一个数组A,里面所有的群号都是有问题的群号。这些群的所有成员都是有问题的。
这一步的意义在于,黑分群的大部分账号都是新注册的,而且登录次数都并不太多,并且该群的总分很多。在filter函数中,对于例子来说,1号群:totalscore>30(S0=30),registeraverage<1000(R0=1000),loginaverage<30(L0=30)则认为1号群为黑分群,其所有群成员都认定为异常。而同理可知2号群三个条件都不满足,则认为2号群不是黑分群。
本发明所取得的有益效果为:
Spark处理的速度要快于数据产生的速度,那么可通过采用Spark能够对黑分群进行批量,批量挖掘使得能够对大型互联网平台一段时间内所有的新建用户群及其群员进行数据分析、统计、异常认证,从而可以判断新建用户群是否为黑分群,从而可以为组织黑分群违规刷分提供技术支撑,净化网络环境。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于Spark确定黑分群的方法,其特征在于,包括:
计算引擎Spark周期性自数据库获取前一周期内新建用户群的群号,形成第一弹性数据集;
根据第一弹性数据集内各新建用户群的群号获取每个新建用户群内的成员信息、以及每个新建用户群内所有成员在前一周期参与活动得到的总积分,形成第二弹性数据集;
针对第二弹性数据集内的每个新建用户群,根据该新建用户群的成员信息、以及该新建用户群内所有成员在前一周期参与活动得到的总积分,判断该新建用户群是否为黑分群,所述黑分群是指参与活动时违规刷积分的用户群。
2.根据权利要求1所述的基于Spark确定黑分群的方法,其特征在于,新建用户群内的成员信息包括成员账号列表;
所述根据第一弹性数据集内各新建用户群的群号获取每个新建用户群内的成员信息、以及每个新建用户群内各用户在前一周期参与活动得到的总积分,形成第二弹性数据集,具体包括:
针对每个新建用户群,根据第一弹性数据集内新建用户群的群号,自数据库获取新建用户群内的各成员账号,形成新建用户群的成员账号列表;
根据新建用户群的成员账号列表获取新建用户群内每个成员在前一周期参与活动得到的积分,通过求和确定新建群内所有成员在前一周期参与活动得到的总积分;以及
将新建用户群的成员账号列表、该新建用户群内所有成员在前一周期参与活动得到的总积分形成该新建用户群的二元数组;
排列各新建用户群相应的二元数组形成第二弹性数据集。
3.根据权利要求2所述的基于Spark确定黑分群的方法,其特征在于,所述新建用户群的成员账号列表采用键值对形式表示,其中,新建用户群的群号为键,成员账号列表为值。
4.根据权利要求2所述的基于Spark确定黑分群的方法,其特征在于,所述新建用户群内的成员信息还包括:每个成员的账号注册时间差、每个成员的登录次数;所述账号注册时间差是指成员的账号注册时间距离前一周期起始点的时间差值;
所述根据第一弹性数据集内各新建用户群的群号获取每个新建用户群内的成员信息、以及每个新建用户群内各用户在前一周期参与活动得到的总积分,形成第二弹性数据集,还包括:
针对每个新建用户群,将新建用户群内的每个成员的账号注册时间差、每个成员的登录次数加入到其对应的二元数组内,形成该新建用户群的多元数组;
排列各新建用户群相应的多元数组更新第二弹性数据集。
5.根据权利要求4所述的基于Spark确定黑分群的方法,其特征在于,所述针对第二弹性数据集内的每个新建用户群,根据该新建用户群的成员信息、以及该新建用户群内所有成员在前一周期参与活动得到的总积分,判断该新建用户群是否为黑分群,具体包括:
针对每个新建用户群,根据每个成员的账号注册时间差计算得到该新建用户群内成员的账号注册时间差的平均值,以及根据每个成员的登录次数计算得到该新建用户群内成员的平均登录次数;
当该新建用户群内所有成员在前一周期参与活动得到的总积分大于预设积分阈值,且该新建用户群内成员的账号注册时间差的平均值小于预设时间阈值、该新建用户群内成员的平均登录次数小于预设次数阈值时,判定该新建用户群为黑分群;否则,判定该新建用户群为正常群。
6.一种基于Spark确定黑分群的系统,其特征在于,包括:
数据库,用于收集并保存与新建用户群所产生的相关数据;
计算引擎Spark,用于根据第一弹性数据集内各新建用户群的群号获取每个新建用户群内的成员信息、以及每个新建用户群内所有成员在前一周期参与活动得到的总积分,形成第二弹性数据集;
针对第二弹性数据集内的每个新建用户群,根据该新建用户群的成员信息、以及该新建用户群内所有成员在前一周期参与活动得到的总积分,判断该新建用户群是否为黑分群,所述黑分群是指参与活动时违规刷积分的用户群。
7.根据权利要求6所述的基于Spark确定黑分群的系统,其特征在于,新建用户群内的成员信息包括成员账号列表;
所述计算引擎Spark包括:
第一数据处理单元,用于针对每个新建用户群,根据第一弹性数据集内新建用户群的群号,自数据库获取新建用户群内的各成员账号,形成新建用户群的成员账号列表;
第二数据处理单元,用于根据新建用户群的成员账号列表获取新建用户群内每个成员在前一周期参与活动得到的积分,通过求和确定新建群内所有成员在前一周期参与活动得到的总积分;以及
第三数据处理单元,用于将新建用户群的成员账号列表、该新建用户群内所有成员在前一周期参与活动得到的总积分形成该新建用户群的二元数组;
数据合成单元,用于排列各新建用户群相应的二元数组形成第二弹性数据集。
8.根据权利要求7所述的基于Spark确定黑分群的系统,其特征在于,所述第一数据处理单元具体用于:
所述新建用户群的成员账号列表采用键值对形式表示,其中,新建用户群的群号为键,成员账号列表为值。
9.根据权利要求7所述的基于Spark确定黑分群的系统,其特征在于,
所述新建用户群内的成员信息还包括:每个成员的账号注册时间差、每个成员的登录次数;所述账号注册时间差是指成员的账号注册时间距离前一周期起始点的时间差值;
所述计算引擎Spark还包括:
第四数据处理单元,用于针对每个新建用户群,将新建用户群内的每个成员的账号注册时间差、每个成员的登录次数加入到其对应的二元数组内,形成该新建用户群的多元数组;
数据更新单元,用于排列各新建用户群相应的多元数组更新第二弹性数据集。
10.根据权利要求9所述的基于Spark确定黑分群的系统,其特征在于,所述计算引擎Spark还包括:
第五数据处理单元,用于针对每个新建用户群,根据每个成员的账号注册时间差计算得到该新建用户群内成员的账号注册时间差的平均值,以及根据每个成员的登录次数计算得到该新建用户群内成员的平均登录次数;
判定单元,用于当该新建用户群内所有成员在前一周期参与活动得到的总积分大于预设积分阈值,且该新建用户群内成员的账号注册时间差的平均值小于预设时间阈值、该新建用户群内成员的平均登录次数小于预设次数阈值时,判定该新建用户群为黑分群;否则,判定该新建用户群为正常群。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010706723.9A CN111984695B (zh) | 2020-07-21 | 2020-07-21 | 一种基于Spark确定黑分群的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010706723.9A CN111984695B (zh) | 2020-07-21 | 2020-07-21 | 一种基于Spark确定黑分群的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111984695A true CN111984695A (zh) | 2020-11-24 |
CN111984695B CN111984695B (zh) | 2024-02-20 |
Family
ID=73438422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010706723.9A Active CN111984695B (zh) | 2020-07-21 | 2020-07-21 | 一种基于Spark确定黑分群的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111984695B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861128A (zh) * | 2021-01-21 | 2021-05-28 | 微梦创科网络科技(中国)有限公司 | 一种批量识别机器账号的方法及系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102553687A (zh) * | 2012-01-09 | 2012-07-11 | 山东理工大学 | 球石群动态分布检测系统及方法 |
CN102654890A (zh) * | 2011-01-24 | 2012-09-05 | 阮刚 | 一种新型的诊病和调节健康平台的方法、流程及装置 |
US20170206268A1 (en) * | 2016-01-20 | 2017-07-20 | International Business Machines Corporation | Visualization of graphical representations of log files |
CN107274229A (zh) * | 2017-06-28 | 2017-10-20 | 北京地球城电子商务有限公司 | 消费数据处理方法及装置 |
CN107315818A (zh) * | 2017-06-30 | 2017-11-03 | 江西博瑞彤芸科技有限公司 | 基于体征数据的积分处理方法 |
CN107528734A (zh) * | 2017-08-31 | 2017-12-29 | 叶晓鸣 | 一种基于动态图的异常主机群检测方法 |
CN108537542A (zh) * | 2018-04-02 | 2018-09-14 | 北京天材科技有限公司 | 用于社交网络的数据处理方法 |
CN109663364A (zh) * | 2017-10-13 | 2019-04-23 | 腾讯科技(深圳)有限公司 | 虚拟奖品发放控制方法及装置、电子设备 |
US20190124104A1 (en) * | 2017-01-30 | 2019-04-25 | Splunk Inc. | Graph-Based Network Anomaly Detection Across Time and Entities |
CN110197207A (zh) * | 2019-05-13 | 2019-09-03 | 腾讯科技(深圳)有限公司 | 对未归类用户群进行归类的方法及相关装置 |
CN110428291A (zh) * | 2019-08-07 | 2019-11-08 | 上海观安信息技术股份有限公司 | 一种利用有向无环图识别黑产团伙的方法 |
CN110620770A (zh) * | 2019-09-19 | 2019-12-27 | 微梦创科网络科技(中国)有限公司 | 一种分析网络黑产账号的方法及装置 |
CN111213349A (zh) * | 2017-08-15 | 2020-05-29 | 康格南特有限责任公司 | 用于检测客户端设备上的欺诈行为的系统和方法 |
CN111427926A (zh) * | 2020-03-23 | 2020-07-17 | 平安医疗健康管理股份有限公司 | 异常医保群组识别方法、装置、计算机设备及存储介质 |
-
2020
- 2020-07-21 CN CN202010706723.9A patent/CN111984695B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102654890A (zh) * | 2011-01-24 | 2012-09-05 | 阮刚 | 一种新型的诊病和调节健康平台的方法、流程及装置 |
CN102553687A (zh) * | 2012-01-09 | 2012-07-11 | 山东理工大学 | 球石群动态分布检测系统及方法 |
US20170206268A1 (en) * | 2016-01-20 | 2017-07-20 | International Business Machines Corporation | Visualization of graphical representations of log files |
US20190124104A1 (en) * | 2017-01-30 | 2019-04-25 | Splunk Inc. | Graph-Based Network Anomaly Detection Across Time and Entities |
CN107274229A (zh) * | 2017-06-28 | 2017-10-20 | 北京地球城电子商务有限公司 | 消费数据处理方法及装置 |
CN107315818A (zh) * | 2017-06-30 | 2017-11-03 | 江西博瑞彤芸科技有限公司 | 基于体征数据的积分处理方法 |
CN111213349A (zh) * | 2017-08-15 | 2020-05-29 | 康格南特有限责任公司 | 用于检测客户端设备上的欺诈行为的系统和方法 |
CN107528734A (zh) * | 2017-08-31 | 2017-12-29 | 叶晓鸣 | 一种基于动态图的异常主机群检测方法 |
CN109663364A (zh) * | 2017-10-13 | 2019-04-23 | 腾讯科技(深圳)有限公司 | 虚拟奖品发放控制方法及装置、电子设备 |
CN108537542A (zh) * | 2018-04-02 | 2018-09-14 | 北京天材科技有限公司 | 用于社交网络的数据处理方法 |
CN110197207A (zh) * | 2019-05-13 | 2019-09-03 | 腾讯科技(深圳)有限公司 | 对未归类用户群进行归类的方法及相关装置 |
CN110428291A (zh) * | 2019-08-07 | 2019-11-08 | 上海观安信息技术股份有限公司 | 一种利用有向无环图识别黑产团伙的方法 |
CN110620770A (zh) * | 2019-09-19 | 2019-12-27 | 微梦创科网络科技(中国)有限公司 | 一种分析网络黑产账号的方法及装置 |
CN111427926A (zh) * | 2020-03-23 | 2020-07-17 | 平安医疗健康管理股份有限公司 | 异常医保群组识别方法、装置、计算机设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
JUNLI LI 等: "Feature grouping-based parallel outlier mining of categorical data using spark", 《INFORMATION SCIENCES》, vol. 504, pages 1 - 19, XP085759268, DOI: 10.1016/j.ins.2019.07.045 * |
周晓盈: "基于电商平台视角的商家刷单行为监管策略研究", 《中国优秀硕士学位论文全文数据库 经济与管理科学辑》, no. 01, pages 157 - 545 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861128A (zh) * | 2021-01-21 | 2021-05-28 | 微梦创科网络科技(中国)有限公司 | 一种批量识别机器账号的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111984695B (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10963541B2 (en) | Systems, methods, and apparatuses for implementing a related command with a predictive query interface | |
US8583649B2 (en) | Method and system for clustering data points | |
US10007718B2 (en) | Managing data within a temporal relational database management system | |
CN110705683B (zh) | 随机森林模型的构造方法、装置、电子设备及存储介质 | |
US11232122B2 (en) | Method for data retrieval and dispersement using an eligibility engine | |
CN109710413B (zh) | 一种半结构化文本数据的规则引擎系统的整体计算方法 | |
WO2019187358A1 (ja) | 評価装置 | |
CN108304432B (zh) | 信息推送处理方法、信息推送处理装置及存储介质 | |
US20160232548A1 (en) | Adaptive pricing analytics | |
US20190080248A1 (en) | System and method for facilitating model-based classification of transactions | |
CN113127746A (zh) | 基于用户聊天内容分析的信息推送方法及其相关设备 | |
CN109978575B (zh) | 一种挖掘用户流量经营场景的方法及装置 | |
CN111984695A (zh) | 一种基于Spark确定黑分群的方法及系统 | |
WO2017201905A1 (zh) | 资料分发方法、装置和存储介质 | |
US20140195462A1 (en) | Data management system and tool | |
US10460242B1 (en) | System and method for clustering interest patterns based on a plurality of priority values | |
CN112348041A (zh) | 日志分类、日志分类训练方法及装置、设备、存储介质 | |
US11782918B2 (en) | Selecting access flow path in complex queries | |
CN112148947B (zh) | 一种批量挖掘刷评用户的方法及系统 | |
CN113377604B (zh) | 一种数据处理方法、装置、设备和存储介质 | |
CN113901046A (zh) | 虚拟维度表构建方法及装置 | |
CN112000711A (zh) | 一种基于Spark确定刷评用户的方法及系统 | |
Wang | User online behavior based on big data distributed clustering algorithm | |
CN115114295B (zh) | 用于确定复合索引的方法和装置 | |
CN112559859B (zh) | 资源推荐方法、装置、电子设备及机器可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |