CN114650239A - 一种数据的刷量识别方法、存储介质和电子设备 - Google Patents

一种数据的刷量识别方法、存储介质和电子设备 Download PDF

Info

Publication number
CN114650239A
CN114650239A CN202210290071.4A CN202210290071A CN114650239A CN 114650239 A CN114650239 A CN 114650239A CN 202210290071 A CN202210290071 A CN 202210290071A CN 114650239 A CN114650239 A CN 114650239A
Authority
CN
China
Prior art keywords
playing
amount
head
score
target data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210290071.4A
Other languages
English (en)
Other versions
CN114650239B (zh
Inventor
李永建
赵明月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN202210290071.4A priority Critical patent/CN114650239B/zh
Publication of CN114650239A publication Critical patent/CN114650239A/zh
Application granted granted Critical
Publication of CN114650239B publication Critical patent/CN114650239B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种数据的刷量识别方法,包括:获取播放目标数据的播放设备、播放账号和播放量;根据播放目标数据的播放量大于第一预设播放量的设备数确定目标数据的播放设备分数;根据播放目标数据的播放量大于第二预设播放量的账号数确定目标数据的播放账号分数;根据所述头部账号播放占比、头部设备播放占比和头部IP地址播放占比确定所述目标数据的播放数据分数;若播放设备分数、播放账号分数和播放数据分数满足预设刷量条件,确定目标数据存在刷量行为。本申请有效提升了刷量召回率和刷量识别精度,降低了刷量识别误差。本申请还提供一种计算机可读存储介质和电子设备,具有上述有益效果。

Description

一种数据的刷量识别方法、存储介质和电子设备
技术领域
本申请涉及计算机技术领域,特别涉及一种数据的刷量识别方法、存储介质和电子设备。
背景技术
当前,平台会按照播放量去定义数据的热度,包括歌曲,短视频,新闻信息等,进而影响数据的排行榜,甚至影响上述数据的推荐、曝光。因此催生了黑灰产基于不同目的的不同刷量行为。刷量行为除了影响结算、推荐曝光、排行榜,还会增加平台的服务器压力,因此识别刷量对于平台的健康发展、稳定运营非常重要。
当前针对于刷量检测,仅仅以单纯的频率阈值划分,定一个明显的异常值,检测到超过这个阈值即视为刷量,而针对复杂刷量情况难以识别、存在误伤,使得刷量的播放量难以被召回。
因此,如何提高数据的刷量识别精度是本领域技术人员亟需解决的技术问题。
发明内容
本申请的目的是提供一种数据的刷量识别方法、存储介质和电子设备,能够提高刷量数据的识别精度。
为解决上述技术问题,本申请提供一种数据的刷量识别方法,具体技术方案如下:
获取播放目标数据的播放设备、播放账号和播放量;
根据播放所述目标数据的播放量大于第一预设播放量的设备数确定所述目标数据的播放设备分数;
根据播放所述目标数据的播放量大于第二预设播放量的账号数确定所述目标数据的播放账号分数;
根据播放所述目标数据的播放量的头部数据占比确定所述目标数据的播放数据分数;其中,所述头部账号播放占比为播放量高于账号播放均值的账号播放占比,所述头部设备播放占比为播放量高于设备播放均值的设备播放占比,所述头部IP地址播放占比为播放量高于IP地址播放均值的IP地址播放占比;
若所述播放设备分数、所述播放账号分数和所述播放数据分数满足预设刷量条件,确定所述目标数据存在刷量行为。
可选的,根据所述头部账号播放占比、头部设备播放占比和头部IP地址播放占比确定所述目标数据的播放数据分数之前,还包括:
将播放所述目标数据的播放量大于第一预设播放量的账号作为头部账号,所述头部账号播放占比为所述头部账号播放所述目标数据的播放总量占所述目标数据的总播放量的比值;
将播放所述目标数据的播放量大于第二预设播放量的设备作为头部设备,所述头部设备播放占比为所述头部设备播放所述目标数据的播放总量占所述目标数据的总播放量的比值;
将播放所述目标数据的播放量大于第三预设播放量的IP地址作为头部IP地址,所述头部IP地址播放占比为确定所述头部IP地址播放所述目标数据的播放总量占所述目标数据的总播放量的比值。
可选的,根据头部账号播放占比、头部设备播放占比和头部IP地址播放占比确定播放数据分数包括:
将所述头部账号播放占比、所述头部设备播放占比和所述头部IP地址播放占比中比例最高值对应的分数作为所述目标数据的播放数据分数。
可选的,所述根据头部账号播放占比、头部设备播放占比和头部IP地址播放占比确定播放数据分数包括:
根据所述头部账号播放占比、头部设备播放占比、头部IP播放占比和所述疑似播放占比确定所述目标数据的播放数据分数。
可选的,还包括:
将歌曲总播放量大于预设播放上限值的设备作为疑似刷量设备;
根据所述疑似刷量设备播放所述目标数据的疑似播放量与所述目标数据的总播放量的比值作为所述目标数据的疑似播放占比。
可选的,根据所述头部账号播放占比、所述头部设备播放占比、所述头部IP播放占比和所述疑似播放占比确定所述目标数据的播放数据分数包括:
确定所述目标数据的总播放量;
根据所述总播放量确定所述目标数据对应的阈值区间;
根据所述头部账号播放占比、头部设备播放占比、头部IP播放占比和所述疑似播放占比中最大值对应的阈值区间确定所述播放数据分数。
可选的,所若所述播放设备分数、所述播放账号分数和所述播放数据分数满足预设刷量条件,确定所述目标数据存在刷量行为包括:
若所述播放设备分数与所述播放账号分数的最大值大于第一阈值且所述播放数据分数不小于第二阈值,或,所述播放设备分数与所述播放账号分数的最大值不小于第一阈值且所述播放数据分数大于第二阈值,确定所述目标数据存在刷量行为。
可选的,确定所述目标数据存在刷量行为之后,还包括:
根据播放所述目标数据的播放量大于第一预设播放量的设备、播放所述目标数据的播放量大于第二预设播放量的账号和所述头部数据确定所述目标数据的刷量播放量;
召回所述刷量播放量。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法的步骤。
本申请还提供一种电子设备,包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如上所述的方法的步骤。
本申请提供一种数据的刷量识别方法,包括:获取播放目标数据的播放设备、播放账号和播放量;根据播放所述目标数据的播放量大于第一预设播放量的设备数确定所述目标数据的播放设备分数;根据播放所述目标数据的播放量大于第二预设播放量的账号数确定所述目标数据的播放账号分数根据所述头部账号播放占比、头部设备播放占比和头部IP地址播放占比确定所述目标数据的播放数据分数;其中,所述头部账号播放占比为播放量高于账号播放均值的账号播放占比,所述头部设备播放占比为播放量高于设备播放均值的设备播放占比,所述头部IP地址播放占比为播放量高于IP地址播放均值的IP地址播放占比;若所述播放设备分数、所述播放账号分数和所述播放数据分数满足预设刷量条件,确定所述目标数据存在刷量行为。
本申请通过对目标数据的分别进行播放设备分数、播放账号分数和播放数据分数的分析计算,从设备刷量、账号刷量和数据播放量三个角度综合分析识别刷量行为,使得恶意刷量行为难以绕过本申请的多层次多角度刷量检测,有效提升了刷量召回率和刷量识别精度,降低了刷量识别误差。
本申请还提供一种计算机可读存储介质和电子设备,具有上述有益效果,此处不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种数据的刷量识别方法的流程图;
图2为本申请实施例所提供的正常歌曲播放分布图;
图3为本申请实施例所提供的刷量歌曲播放分布图:
图4为本申请实施例所提供的另一种数据的刷量识别方法的流程图;
图5为本申请实施例所提供的又一种数据的刷量识别方法的流程图;
图6为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,图1为本申请实施例所提供的一种数据的刷量识别方法的流程图,该方法包括:
S101:获取播放目标数据的播放设备、播放账号和播放量;
本步骤旨在获取目标数据的播放设备、播放账号和播放量,需要注意的是,单个设备上单个账户播放一次目标数据视为一次播放量,通常播放时长超过一定时长即视为一次播放,例如播放超过30秒即可作为一个播放量。
此外,本步骤对于如何获取目标数据的播放设备、播放账号和播放量不作具体限定,可以直接通过数据播放平台的后台数据调取相应的播放数据,从而确定播放目标数据的播放设备、播放账号和播放量等,例如可以从音乐播放平台获取歌曲的播放数据。其中,在确定播放设备时,可以根据设备的IMEI号等具有唯一识别功能的信息对播放设备进行区分识别。而各播放账号可以根据账号名称或者账号对应的唯一识别号加以区分识别。
S102:根据所述播放设备播放所述目标数据的播放量确定播放设备分数;
本步骤旨在将播放量大于第一预设播放量的设备数确定所述目标数据的播放设备分数。首先,本步骤对于第一预设播放量不作限定,目的是确定超过第一预设播放量的播放设备数量。需要注意的是,本实施例中步骤102至S104中在计算播放设备分数、账户风险等级和播放数据分数时,均默认采用相同的统计周期,例如一天等。容易理解的是,正常设备在每个统计周期内播放次数应存在相应的正常播放量,例如正常设备播放同一首歌的次数通常为几次,若存在酷爱该歌曲的用户实现单曲循环,以每天为例,其单循环时间不可能为24小时。换言之,可以事先统计用户正常播放量,并将其作为第一预设播放量,从而确定播放目标数据的播放量大于第一预设播放量的设备数。
在确定播放目标数据的播放量大于第一预设播放量的设备数后,需要进一步根据该设备数确定相应的播放设备分数。在此对于如何确定播放设备分数不作具体限定,可以实现配置设备数与播放设备分数之间的映射关系或者换算关系,例如事先配置播放设备分数对应的设备数区间,则在得到设备数之后可以直接确定对照设备数区间,以得到播放设备分数。还可以采用换算公式,直接将上文得到的设备数代入换算公式,以得到播放设备分数。需要说明的是,播放设备分数的等级划分可由本领域技术人员根据刷量识别精度需求自行设定,通常至少包含两个播放设备分数级别,也可以设置三个、六个甚至更多。
S103:根据头部账号播放占比、头部设备播放占比和头部IP地址播放占比确定播放数据分数;
同理,通常每个账号对于目标数据的播放量亦存在相应正常播放量。本步骤中的第二预设播放量同样不作具体限定。需要注意的是,受限于版权、音乐平台等因素,不同歌曲对应的账号正常播放量存在一定的差异,而设备对于目标数据的播放量通常不受限于版权等因素影响。因此,在确定第二预设播放量时,可以针对不同的目标数据设定不同的值。
在此对于如何确定播放账号分数不作具体限定,同样可以实现配置账号数与播放账号分数之间的映射关系或者换算关系,例如事先配置播放账号分数对应的账号数区间,则在得到账号数之后可以直接确定对照账号数区间,以得到播放账号分数。还可以采用换算公式,直接将上文统计得到的账号数代入换算公式,以得到播放账号分数。
S104:根据头部账号播放占比、头部设备播放占比和头部IP地址播放占比确定播放数据分数;
本步骤旨在确定头部数据占比,头部数据为播放量高于播放均值的账号、设备和IP地址所播放的数据。只要存在刷量行为,刷量最终会集中到数据上,受限于账号/设备/IP地址等资源的成本,刷量行为都会不同程度的表现到歌曲的账号、设备和IP地址的头部播放聚集上。其中,头部账号播放占比为播放量高于账号播放均值的账号播放占比,头部设备播放占比为播放量高于设备播放均值的设备播放占比,头部IP地址播放占比为播放量高于IP地址播放均值的IP地址播放占比。
以歌曲作为一种待检测的刷量数据为例,参见图2和图3,图2为本申请实施例所提供的正常歌曲播放分布图,图3为本申请实施例所提供的刷量歌曲播放分布图,图2和图3的横轴表示设备编号,纵轴表示播放量,其中的每个点均表示一个设备。则对于图2,可以看出,仅有少数设备播放量较高,这可能是由于部分用户单循环所致。而图3可以看出,其余图2歌曲的总播放量相近,正常歌曲大多数设备每天只播放几次,只有少数设备会播放量超过几十,几乎没有设备突破几百的播放量。而刷量歌曲会出现部分设备播放量畸高的情况,如图3歌曲多个设备播放量超过几百甚至上千。
在执行本步骤时,可以根据头部账号播放占比、头部设备播放占比和头部IP地址播放占比确定目标数据的播放数据分数。
具体的,将播放所述目标数据的播放量大于第一预设播放量的账号作为头部账号,所述头部账号播放占比为所述头部账号播放所述目标数据的播放总量占所述目标数据的总播放量的比值;
将播放所述目标数据的播放量大于第二预设播放量的设备作为头部设备,所述头部设备播放占比为所述头部设备播放所述目标数据的播放总量占所述目标数据的总播放量的比值;
将播放所述目标数据的播放量大于第三预设播放量的IP地址作为头部IP地址,所述头部IP地址播放占比为所述头部IP地址播放所述目标数据的播放总量占所述目标数据的总播放量的比值。
在此对于第一预设播放量、第二预设播放量和第三预设播放量均不作限定,可由本领域技术人员根据目标数据的实际播放分布图或者播放量加以确定。
在得到头部账号播放占比、头部设备播放占比和头部IP地址播放占比后,可进一步得到播放数据分数。在此对于如何根据头部账号播放占比、头部设备播放占比和头部IP地址播放占比得到播放数据分数不作限定,可以针对头部账号播放占比、头部设备播放占比和头部IP地址播放占比分别赋权,从而计算最后的整体比值,根据整体比值的大小确定对应的播放数据分数。还可以直接将头部账号播放占比、头部设备播放占比和头部IP地址播放占比中比例最高值对应的数值作为所述目标数据的播放数据分数。容易理解的是,各种占比均为小于1的比值,为此,可以实现针对播放数据分数设置相应的阈值区间,从而直接比对占比和阈值区间,得到播放数据分数。
作为本步骤的一种优选的执行方式,可以先确定目标数据的总播放量,再根据总播放量确定目标数据对应的阈值区间。以歌曲为例,由于不同歌曲的流行度不同,对于部分歌曲其总播放量较小,且存在单设备或者单账号较多的播放量,这可能是由于个人爱好该歌曲的人处于单循环状态。例如,若存在A歌曲总播放量只有200,而存在某一账号的播放量达到150,由于总播放量较低,此时并不适合认为A歌曲存在刷量行为。因此,针对不同总播放量的目标数据,可以设置不同的阈值区间。
S105:若所述播放设备分数、所述播放账号分数和所述播放数据分数满足预设刷量条件,确定所述目标数据存在刷量行为。
在上述步骤得到播放设备分数、播放账号分数和播放数据分数后,本步骤进一步针对三者判断是否满足预设刷量条件,一旦满足,可以确定存在刷量行为。
在此对于预设刷量条件不作限定,可以综合考虑播放设备分数、播放账号分数和播放数据分数。
下文为本实施例提供的一种可行的预设刷量条件,即若播放设备分数与播放账号分数的最大值大于第一阈值且播放数据分数不小于第二阈值,或,播放设备分数与播放账号分数的最大值不小于第一阈值且播放数据分数大于第二阈值,确定目标数据存在刷量行为。在此对于第一阈值和第二阈值不作限定,具体应参考已设定的刷量等级。若设播放账号分数为score_u,播放设备分数为score_d,播放数据分数为score_s,第一阈值为M,第二阈值为N,则上文的预设刷量条件可以为max(score_u,score_d)>=M且score_s>=N,或者,max(score_u,score_d)>=M且score_s>=N。
在此对于具体预设刷量条件不作限定,通常而言,播放设备分数、播放账号分数和播放数据分数任一数值越高,其即存在一定的刷量风险,但并不代表一定存在刷量行为。例如对于播放设备分数而言,以歌曲为例,在B歌曲播放设备分数较高时,表明存在设备单曲循环B歌曲较多次,但这有可能为寺庙单曲循环播放宗教音乐,或者幼儿园等场所反复播放包含B歌曲的歌单等,显然,这并不宜视为恶意刷量行为。同理对于单一账号,亦可能存在上述行为。通过将播放设备分数和播放账号分数均进行计算和分析,能够有效识别同一设备登录多个账号进行刷量,或者同一账号在多个设备登录进行刷量的行为。
本实施例中,关于播放设备分数、账户风险等级和播放数据分数的是计算顺序如上所示,而容易理解的是,步骤S102-S104对应的执行过程也可以为并列执行关系,其可以不存在既定的顺序关系,即在本申请的其他实施例中,关于播放设备分数、账户风险等级和播放数据分数的先后计算顺序可以采用其他顺序,而并不必须按照关于播放设备分数→账户风险等级→播放数据分数的计算顺序,例如可以按照账户风险等级→播放设备分数→播放数据分数,或者播放数据分数→播放设备分数→账户风险等级等顺序执行,只要在执行对于预设刷量条件的判断过程前均计算完毕即可。
本申请实施例通过对目标数据的分别进行播放设备分数、播放账号分数和播放数据分数的分析计算,从设备刷量、账号刷量和歌曲播放量三个角度综合分析识别刷量行为,使得恶意刷量行为难以绕过本申请的多层次多角度刷量检测,有效提升了刷量召回率和刷量识别精度,降低了刷量识别误差。
在上述实施例的基础上,作为优选的实施例,在执行播放数据分数的计算时,还可以根据头部账号播放占比、头部设备播放占比、头部IP播放占比和疑似播放占比确定目标数据的播放数据分数。
具体的,事先可以将歌曲总播放量大于预设播放上限值的设备作为疑似刷量设备,根据疑似刷量设备播放目标数据的播放次数与目标数据的播放总次数的比值作为目标数据的疑似播放占比。
当前存在一种情况,在执行刷量时,若需针对100首歌进行批量刷量,每首歌每天刷量1万次的大订单,众包到团伙下的真人进行有组织的刷量,为了避免歌曲的头部聚集,该团伙500个人列表循环播放这100首歌,每天每人播放每首歌20次,达到了每人每天播放2000次的刷量播放,虽然会命中上述实施例中的账号/设备高播放刷量风险,即播放账号分数和播放设备分数较高,但成功避免了歌曲维度的账号/设备/ip头部聚集,容易造成识别错误。
为此,本申请实施例引入疑似播放占比的概念来解决这个问题。首先找出总播放量畸高的设备作为疑似刷量设备,该总播放量畸高可以播放量大于2000等。由于正常用户很少会播放量这么高,因此这部分设备中,有相当比例的刷量设备。然后从播放数据分数的统计角度,统计出每首歌的总播放量里来自于疑似刷量设备的播放量比例,即歌曲的疑似播放占比=疑似刷量设备播放目标数据的疑似播放量与目标数据的总播放量的比值。同理,也可以将按照上述思路确定疑似刷量账号,将疑似刷量账号和疑似刷量设备作为疑似刷量种子,则歌曲的疑似播放占比=疑似刷量种子播放目标数据的疑似播放量与目标数据的总播放量的比值。
则在确定播放数据分数过程中,可以同时参考头部账号播放占比、头部设备播放占比、头部IP播放占比和疑似播放占比四个占比,以确定最终的播放数据分数。
下文为一种可行的确定播放数据分数的方式:
第一步、确定目标数据的总播放量;
第二步、根据总播放量确定目标数据对应的阈值区间;
第三步、根据头部账号播放占比、头部设备播放占比、头部IP播放占比和疑似播放占比中最大值对应的阈值区间确定播放数据分数。
则参考图4,图4为本申请实施例所提供的另一种数据的刷量识别方法的流程图,此时本实施例对应的执行过程可以如下:
S401:获取播放目标数据的播放设备、播放账号和播放量;
S402:根据所述播放设备播放所述目标数据的播放量确定播放设备分数;
S403:根据所述播放账号播放所述目标数据的播放量确定播放账号分数;
S404:根据头部账号播放占比、头部设备播放占比、头部IP播放占比和疑似播放占比确定目标数据的播放数据分数;
S405:若播放设备分数、播放账号分数和播放数据分数满足预设刷量条件,确定目标数据存在刷量行为。
在上述实施例的基础上,作为优选的实施例,在确定目标数据存在刷量行为之后,还可以根据播放目标数据的播放量大于第一预设播放量的设备、播放目标数据的播放量大于第二预设播放量的账号和头部数据确定目标数据的刷量播放量,从而召回刷量播放量。
由于本申请可以确定播放量畸高的刷量设备、刷量账号和刷量数据,在召回刷量播放量时,可以召回刷量设备对应的所有刷量播放量和刷量账号对应的刷量播放,和目标数据的总播放量中的全部刷量播放量,实现刷量行为的精准识别。
参见图5,图5为本申请实施例所提供的又一种数据的刷量识别方法的流程图,此时本实施例对应的执行过程可以如下;
S501:获取播放目标数据的播放设备、播放账号和播放量;
S502:根据所述播放设备播放所述目标数据的播放量确定播放设备分数;
S503:根据所述播放账号播放所述目标数据的播放量确定播放账号分数;
S504:根据头部账号播放占比、头部设备播放占比和头部IP地址播放占比确定播放数据分数;
S505:若所述播放设备分数、所述播放账号分数和所述播放数据分数满足预设刷量条件,确定所述目标数据存在刷量行为;
S506:根据播放目标数据的播放量大于第一预设播放量的设备、播放目标数据的播放量大于第二预设播放量的账号和头部数据确定目标数据的刷量播放量,并召回刷量播放量。
下文以歌曲作为数据的刷量检测为例,对本申请提供的一种数据的刷量识别方法进行说明:
账号或设备的风险等级直接根据账号或设备的播放次数来划定,根据正常账号或设备的播放量分布得到一个正常的播放量范围,超出这个播放量的账号或设备标记为不同刷量风险等级,具体的打分规则如下,其中Cnt为账号或设备的单日播放量,score_u为播放账号分数,score_d为播放设备分数:
Cnt取值>=4000,score_u,score_d=5;
Cnt取值范围[2000,4000),score_u,score_d=4;
Cnt取值范围[1400,2000),score_u,score_d=3;
Cnt取值范围[1000,1400),score_u,score_d=2;
Cnt取值范围[200,1000),score_u,score_d=1;
Cnt取值<200,score_u,score_d=0。
在此过程中,对于播放账号分数和播放设备分数配置相同的风险等级和相同风险风机划分方式。即第一预设播放量和第二预设播放量相同。而在本申请的其他应用过程中,第一预设播放量和第二预设播放量也可以不同。
播放数据分数由两部分组成。第一部分是从歌曲的角度,取歌曲的头部播放作为疑似刷量种子,进而计算得到头部播放占比的指标;第二部分是从账号和设备的角度,取播放量畸高的账号和设备作为疑似刷量种子,去计算每首歌的疑似播放占比。
定义歌曲头部设备超过1000播放占比(cntr1k_d)为:该歌曲的设备播放量超过1000次的播放量总和/该歌曲的总播放量;
同理,可以得到歌曲的头部账号1000播放占比(cntr1k_u)、头部设备2000播放占比(cntr2k_d)、头部IP地址的500播放占比(cntr5b_ip)、头部IP地址的2000播放占比cntr2k_ip、头部账号的2000播放占比cntr2k_u等等;
以图3为例,上述各指标如下:
Cntr5b_ip=0.98;cntr2k_ip=0.25;
Cntr1k_u=0;cntr2k_u=0;
Cntr1k_d=0.5;cntr2k_d=0.13;
而图2未刷量的正常歌曲,以上几个指标均为0。
对于疑似播放占比,首先找出总播放量大于2000的账号和设备作为疑似刷量种子,即歌曲的疑似播放占比(cntr2k_ud)=疑似刷量种子播放该歌曲的次数/该歌曲的总播放量。
至此,可以得到cntr1k_u,cntr2k_u,cntr1k_d,cntr2k_d,cntr5b_ip,cntr2k_ip,cntr2k_ud等指标来标识歌曲的刷量情况。由于部分歌曲存在“适度刷量”的情况,且不同播放量级的歌曲在这些指标上的正常值范围不同,因此将所有歌曲按播放量级分成了以下几个类别:
[500,2000),[2千,1万),[1万,10万),[10万,100万),[100万,1000万)。
针对不同类别,应用不同的指标条件组合将歌曲归类到以下6个刷量风险等级:
5-超高刷量风险
4-高刷量风险
3-中高刷量风险
2-中低刷量风险
1-低刷量风险
0-无刷量风险
此时可以设预设刷量条件为满足max(score_u,score_d)>=4且score_s>=1,或者,max(score_u,score_d)>=1且score_s>=4时,则判定目标数据存在刷量行为。
本申请还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的数据的刷量识别方法的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请还提供了一种电子设备,可以包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实现上述实施例所提供的数据的刷量识别方法的步骤。当然所述电子设备还可以包括各种网络接口,电源等组件。请参见图6,图6为本申请实施例所提供的一种电子设备的结构示意图,本实施例的电子设备可以包括:处理器2101和存储器2102。
可选的,该电子设备还可以包括通信接口2103、输入单元2104和显示器2105和通信总线2106。
处理器2101、存储器2102、通信接口2103、输入单元2104、显示器2105、均通过通信总线2106完成相互间的通信。
在本申请实施例中,该处理器2101,可以为中央处理器(CentralProcessingUnit,CPU),特定应用集成电路,数字信号处理器、现成可编程门阵列或者其他可编程逻辑器件等。
该处理器可以调用存储器2102中存储的程序。具体的,处理器可以执行上文的实施例中电子设备所执行的操作。
存储器2102中用于存放一个或者一个以上程序,程序可以包括程序代码,所述程序代码包括计算机操作指令,在本申请实施例中,该存储器中至少存储有用于实现以下功能的程序:
获取播放目标数据的播放设备、播放账号和播放量;
根据所述播放设备播放所述目标数据的播放量确定播放设备分数;
根据所述播放账号播放所述目标数据的播放量确定播放账号分数;
根据头部账号播放占比、头部设备播放占比和头部IP地址播放占比确定播放数据分数;其中,头部账号播放占比为播放量高于账号播放均值的账号播放占比,头部设备播放占比为播放量高于设备播放均值的设备播放占比,头部IP地址播放占比为播放量高于IP地址播放均值的IP地址播放占比。
若所述播放设备分数、所述播放账号分数和所述播放数据分数满足预设刷量条件,确定所述目标数据存在刷量行为。
在一种可能的实现方式中,该存储器2102可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、以及至少一个功能(比如话题检测功能等)所需的应用程序等;存储数据区可存储根据计算机的使用过程中所创建的数据。
此外,存储器2102可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。
该通信接口2103可以为通信模块的接口,如GSM模块的接口。
本申请还可以包括显示器2105和输入单元2104等等。
图6所示的电子设备的结构并不构成对本申请实施例中电子设备的限定,在实际应用中电子设备可以包括比图6所示的更多或更少的部件,或者组合某些部件。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言,由于其与实施例提供的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种数据的刷量识别方法,其特征在于,包括:
获取播放目标数据的播放设备、播放账号和播放量;
根据所述播放设备播放所述目标数据的播放量确定播放设备分数;
根据所述播放账号播放所述目标数据的播放量确定播放账号分数;
根据头部账号播放占比、头部设备播放占比和头部IP地址播放占比确定播放数据分数;其中,所述头部账号播放占比为播放量高于账号播放均值的账号播放占比,所述头部设备播放占比为播放量高于设备播放均值的设备播放占比,所述头部IP地址播放占比为播放量高于IP地址播放均值的IP地址播放占比;
若所述播放设备分数、所述播放账号分数和所述播放数据分数满足预设刷量条件,确定所述目标数据存在刷量行为。
2.根据权利要求1所述的刷量识别方法,其特征在于,根据头部账号播放占比、头部设备播放占比和头部IP地址播放占比确定播放数据分数之前,还包括:
将播放所述目标数据的播放量大于第一预设播放量的账号作为头部账号,所述头部账号播放占比为所述头部账号播放所述目标数据的播放总量占所述目标数据的总播放量的比值;
将播放所述目标数据的播放量大于第二预设播放量的设备作为头部设备,所述头部设备播放占比为所述头部设备播放所述目标数据的播放总量占所述目标数据的总播放量的比值;
将播放所述目标数据的播放量大于第三预设播放量的IP地址作为头部IP地址,所述头部IP地址播放占比为所述头部IP地址播放所述目标数据的播放总量占所述目标数据的总播放量的比值。
3.根据权利要求1所述的刷量识别方法,其特征在于,根据头部账号播放占比、头部设备播放占比和头部IP地址播放占比确定播放数据分数包括:
将所述头部账号播放占比、所述头部设备播放占比和所述头部IP地址播放占比中比例最高值对应的分数作为所述目标数据的播放数据分数。
4.根据权利要求1所述的刷量识别方法,其特征在于,所述根据头部账号播放占比、头部设备播放占比和头部IP地址播放占比确定播放数据分数包括:
根据所述头部账号播放占比、头部设备播放占比、头部IP播放占比和所述疑似播放占比确定所述目标数据的播放数据分数。
5.根据权利要求4所述的刷量识别方法,其特征在于,还包括:
将歌曲总播放量大于预设播放上限值的设备作为疑似刷量设备;
根据所述疑似刷量设备播放所述目标数据的疑似播放量与所述目标数据的总播放量的比值作为所述目标数据的疑似播放占比。
6.根据权利要求5所述的刷量识别方法,其特征在于,根据所述头部账号播放占比、所述头部设备播放占比、所述头部IP播放占比和所述疑似播放占比确定所述目标数据的播放数据分数包括:
确定所述目标数据的总播放量;
根据所述总播放量确定所述目标数据对应的阈值区间;
根据所述头部账号播放占比、头部设备播放占比、头部IP播放占比和所述疑似播放占比中最大值对应的阈值区间确定所述播放数据分数。
7.根据权利要求1-6任一项所述的刷量识别方法,其特征在于,若所述播放设备分数、所述播放账号分数和所述播放数据分数满足预设刷量条件,确定所述目标数据存在刷量行为包括:
若所述播放设备分数与所述播放账号分数的最大值大于第一阈值且所述播放数据分数不小于第二阈值,或,所述播放设备分数与所述播放账号分数的最大值不小于第一阈值且所述播放数据分数大于第二阈值,确定所述目标数据存在刷量行为。
8.根据权利要求1所述的刷量识别方法,其特征在于,确定所述目标数据存在刷量行为之后,还包括:
根据播放所述目标数据的播放量大于第一预设播放量的设备、播放所述目标数据的播放量大于第二预设播放量的账号和所述头部数据确定所述目标数据的刷量播放量;
召回所述刷量播放量。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8任一项所述的数据的刷量识别方法的步骤。
10.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如权利要求1-8任一项所述的数据的刷量识别方法的步骤。
CN202210290071.4A 2022-03-23 2022-03-23 一种数据的刷量识别方法、存储介质和电子设备 Active CN114650239B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210290071.4A CN114650239B (zh) 2022-03-23 2022-03-23 一种数据的刷量识别方法、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210290071.4A CN114650239B (zh) 2022-03-23 2022-03-23 一种数据的刷量识别方法、存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN114650239A true CN114650239A (zh) 2022-06-21
CN114650239B CN114650239B (zh) 2024-02-23

Family

ID=81996375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210290071.4A Active CN114650239B (zh) 2022-03-23 2022-03-23 一种数据的刷量识别方法、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN114650239B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116170618A (zh) * 2022-12-29 2023-05-26 北京奇树有鱼文化传媒有限公司 播放量计算的方法、装置、电子设备及可读存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100227678A1 (en) * 2006-02-16 2010-09-09 Kazuma Konishi Game Terminal Device, Game Management System and Game Management Method
KR101481527B1 (ko) * 2014-10-07 2015-01-14 주식회사 포인트시스템 Pos단말기에서의 cctv카메라 촬영 영상 재생 시스템 및 방법
CN105491448A (zh) * 2015-12-07 2016-04-13 广州华多网络科技有限公司 一种动画数据播放方法以及装置
CN106603554A (zh) * 2016-12-29 2017-04-26 北京奇艺世纪科技有限公司 一种自适应实时视频数据的反作弊方法及装置
WO2017161755A1 (zh) * 2016-03-21 2017-09-28 乐视控股(北京)有限公司 基于在线播放的多媒体数据流量自动调整的方法及装置
CN107566897A (zh) * 2017-07-19 2018-01-09 北京奇艺世纪科技有限公司 一种视频刷量的鉴别方法、装置及电子设备
CN110072122A (zh) * 2019-04-19 2019-07-30 华为技术有限公司 一种视频播放方法及相关设备
WO2019179028A1 (zh) * 2018-03-21 2019-09-26 平安科技(深圳)有限公司 电子装置、基于动态图片的用户验证方法及存储介质
CN110290400A (zh) * 2019-07-29 2019-09-27 北京奇艺世纪科技有限公司 可疑刷量视频的识别方法、真实播放量预估方法及装置
CN110519263A (zh) * 2019-08-26 2019-11-29 北京百度网讯科技有限公司 防刷量方法、装置、设备及计算机可读存储介质
WO2020257988A1 (zh) * 2019-06-24 2020-12-30 深圳市欢太科技有限公司 刷量用户识别方法及相关产品
CN113068052A (zh) * 2021-03-15 2021-07-02 上海哔哩哔哩科技有限公司 确定直播间刷量的方法、直播方法以及数据处理方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100227678A1 (en) * 2006-02-16 2010-09-09 Kazuma Konishi Game Terminal Device, Game Management System and Game Management Method
KR101481527B1 (ko) * 2014-10-07 2015-01-14 주식회사 포인트시스템 Pos단말기에서의 cctv카메라 촬영 영상 재생 시스템 및 방법
CN105491448A (zh) * 2015-12-07 2016-04-13 广州华多网络科技有限公司 一种动画数据播放方法以及装置
WO2017161755A1 (zh) * 2016-03-21 2017-09-28 乐视控股(北京)有限公司 基于在线播放的多媒体数据流量自动调整的方法及装置
CN106603554A (zh) * 2016-12-29 2017-04-26 北京奇艺世纪科技有限公司 一种自适应实时视频数据的反作弊方法及装置
CN107566897A (zh) * 2017-07-19 2018-01-09 北京奇艺世纪科技有限公司 一种视频刷量的鉴别方法、装置及电子设备
WO2019179028A1 (zh) * 2018-03-21 2019-09-26 平安科技(深圳)有限公司 电子装置、基于动态图片的用户验证方法及存储介质
CN110072122A (zh) * 2019-04-19 2019-07-30 华为技术有限公司 一种视频播放方法及相关设备
WO2020257988A1 (zh) * 2019-06-24 2020-12-30 深圳市欢太科技有限公司 刷量用户识别方法及相关产品
CN110290400A (zh) * 2019-07-29 2019-09-27 北京奇艺世纪科技有限公司 可疑刷量视频的识别方法、真实播放量预估方法及装置
CN110519263A (zh) * 2019-08-26 2019-11-29 北京百度网讯科技有限公司 防刷量方法、装置、设备及计算机可读存储介质
CN113068052A (zh) * 2021-03-15 2021-07-02 上海哔哩哔哩科技有限公司 确定直播间刷量的方法、直播方法以及数据处理方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"别让电商数据成为"皇帝的新衣"", 发明与创新(大科技), no. 11 *
朱大伟;陈瑞;袁;赵兰博;: "平滑自适应视频播放技术的研究", 计算机应用与软件, no. 09 *
杨哲;: "网民不够用了?网络视听播放量统计标准如何规范", 中国广播影视, no. 01 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116170618A (zh) * 2022-12-29 2023-05-26 北京奇树有鱼文化传媒有限公司 播放量计算的方法、装置、电子设备及可读存储介质
CN116170618B (zh) * 2022-12-29 2023-11-14 北京奇树有鱼文化传媒有限公司 播放量计算的方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN114650239B (zh) 2024-02-23

Similar Documents

Publication Publication Date Title
CN108304426B (zh) 标识的获取方法及装置
CN109165691B (zh) 用于识别作弊用户的模型的训练方法、装置及电子设备
CN105095411B (zh) 一种基于app质量的app排名预测方法及系统
CN108366012B (zh) 一种社交关系建立方法、装置及电子设备
CN109460775B (zh) 一种基于信息熵的数据填充方法及装置
US10104428B2 (en) Video playing detection method and apparatus
WO2019165697A1 (zh) 刷人气用户的识别方法、装置、终端设备及储存介质
CN110704677B (zh) 一种节目推荐方法、装置、可读存储介质及终端设备
CN110866767A (zh) 电信用户满意度的预测方法、装置、设备及介质
CN109508405B (zh) 一种推荐视频的确定方法、装置、电子设备及存储介质
CN111144941A (zh) 商户评分的生成方法、装置、设备及可读存储介质
CN110222312A (zh) 用户评价数据的处理方法、装置及服务器
CN114650239A (zh) 一种数据的刷量识别方法、存储介质和电子设备
CN113254918A (zh) 信息处理方法、电子设备和计算机可读存储介质
CN110929285B (zh) 一种隐私数据的处理方法及装置
CN116932549A (zh) 基于智能模型的平台数据存储方法、系统、介质及设备
CN111327609A (zh) 数据审核方法及装置
CN103577543A (zh) 应用程序的排名欺诈检测方法和排名欺诈检测系统
CN110674632A (zh) 一种确定安全级别的方法及装置、存储介质和设备
CN110868622B (zh) 一种卡顿分析方法、装置、电子设备及存储介质
CN108629610B (zh) 推广信息曝光量的确定方法和装置
CN112667906A (zh) 一种up主的推荐方法、装置及电子设备
CN109213937B (zh) 智能搜索方法及装置
CN110458707B (zh) 基于分类模型的行为评估方法、装置及终端设备
CN106933912B (zh) 关键词的获取方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant