CN107016062B - 一种试听作弊行为识别方法及系统 - Google Patents

一种试听作弊行为识别方法及系统 Download PDF

Info

Publication number
CN107016062B
CN107016062B CN201710155368.9A CN201710155368A CN107016062B CN 107016062 B CN107016062 B CN 107016062B CN 201710155368 A CN201710155368 A CN 201710155368A CN 107016062 B CN107016062 B CN 107016062B
Authority
CN
China
Prior art keywords
audition
event
songs
song
independent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710155368.9A
Other languages
English (en)
Other versions
CN107016062A (zh
Inventor
陈韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Corp Ltd Guangdong Branch
Original Assignee
China United Network Communications Corp Ltd Guangdong Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Corp Ltd Guangdong Branch filed Critical China United Network Communications Corp Ltd Guangdong Branch
Priority to CN201710155368.9A priority Critical patent/CN107016062B/zh
Publication of CN107016062A publication Critical patent/CN107016062A/zh
Application granted granted Critical
Publication of CN107016062B publication Critical patent/CN107016062B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种音乐试听作弊行为识别方法:用户独立试听事件的试听行为数据的采集和互联网热门排行数据的采集;对采集到独立试听事件中的用户试听行为数据进行疑似违规歌曲的挖掘:对采集互联网热门排行数据参照评价基准进行分数的计算和评价;对挖掘的疑似违规歌曲以及进行评价后的互联网热门排行数据进行独立试听事件违规事件指标的评分判定:根据评分判定后的结果,所有歌曲试听事件中若某一事件得分总和超过限定值H,则判定该试听事件判定为试听作弊事件,并输出所述作弊事件相关指标信息。本发明提高了用户歌曲试听情况判断的准确性,并根据用户的试听行为合理准确地为客户推荐歌曲。

Description

一种试听作弊行为识别方法及系统
技术领域
本发明涉及音乐试听系统领域,具体涉及一种试听作弊行为识别方法及系统。
背景技术
目前歌曲供应商通过作弊手段,模拟用户编码进行试听,以推高自己所提供歌曲的排名,影响到对用户真实歌曲试听行为的判断,导致无法合理的为用户推荐歌曲。
现有规则多从用户行为特点进行判断,如短时间内频繁试听等,判断用户是否作弊。缺乏对试听歌曲本身热门程度,以及对歌曲背后歌曲供应商批量违规行为的判断。
因此有待提供一种对用户歌曲试听情况判断更加准确的试听作弊行为识别方法及系统。
发明内容
本发明的目的在于克服现有技术的不足,提供一种对用户歌曲试听情况判断更加准确的试听作弊行为识别方法。
本发明的另一目的是提供一种对用户歌曲试听情况判断更加准确的试听作弊行为识别系统。
为达到上述目的,本发明采用的技术方案如下:一种试听作弊行为识别方法,其包括以下步骤:
S1:首先进行用户独立试听事件的试听行为数据的采集和独立试听事件中互联网热门排行数据的采集;
S2:对采集到独立试听事件中的用户试听行为数据进行疑似违规歌曲的挖掘:
S2-1:疑似歌曲判定;
S2-2:构建疑似违规歌曲集;
S2-3:判断独立试听事件是否属于某个违规歌曲集;
S3:对采集的独立试听事件中互联网热门排行数据参照评价基准进行分数的计算和评价;
S4:对步骤S2挖掘的疑似违规歌曲以及步骤S3进行评价后的互联网热门排行数据进行独立试听事件违规事件指标的评分判定:
1)当天作弊事件次数评分:同一天内,属于同一违规歌曲集的独立试听事件数量为m1次及m1以下记A1分,m1(不含)至m2次记A2分,m2(不含)至m3次记A3分,m3次以上记A4分,其中m1<m2<m3,A1<A2<A3<A4;
2)同时间段评分:某一段试听时间开始前后1小时范围内,属于同一违规歌曲集的独立试听事件数量n1次及n1以下记B1分,n1(不含)至n2记B2分,n2(不含)至n3记B3分,n3次以上记B4分,其中n1<n2<n3,且B1<B2<B3<B4;
3)一分钟试听次数评分:一分钟内试听次数超过P次的分钟数,占某次试听总分钟数比例为p1及p1以下记C1分,p1(不含)至p2记C2分,p2以上记C3分,其中p1<p2<p3<1,C1<C2<C3;
4)疑似违规歌曲占比评分:该项得分D=D’*d,其中D’为某一固定分数,d为该试听事件中在任意疑似违规歌曲集中出现的歌曲的总数量占该试听事件全部歌曲数量的百分比;
5)试听事件中供应商权重均值评分:将事件中所有歌曲所属供应商权重得分之和除以事件歌曲数量得到该事件的供应商权重均值,均值得分最高的事件记E分,之后按某事件均值与最高均值事件的均值比例乘以E计算每个事件得分;
6)试听事件中歌曲权重均值评分:将事件中所有歌曲分级得分之和除以事件歌曲数量,得到试听事件歌曲权重均值,均值得分最高的事件记F分,之后按某事件均值与最高均值事件的均值比例乘以F计算每个事件得分。
S5:根据步骤S4评分判定后的结果,所有歌曲试听事件中某一试听事件总得分超过限定值H,则判定该试听事件判定为试听作弊事件,并输出所述作弊事件相关指标信息。
优选地,所述独立试听事件的判定步骤包括:
a.从用户某次试听事件开始计算,后一次试听开始时间与前一次试听开始时间的间隔小于等于特定时长M分钟的,将后一次试听行为并入上一次试听行为所属的试听事件中,并记为一次独立试听事件;
b.当后一次试听开始时间与后一次试听开始时间间隔大于特定时长M分钟时,将后一次试听行为作为下一个独立试听事件的起始行为,然后重复步骤a来继续判定独立试听事件。
优选地,所述步骤S2-1中疑似歌曲判定包括:
将每次独立试听事件中的歌曲,进行关联规则挖掘:通过对不同试听事件中出现的歌曲进行统计,计算当某一试听事件中,出现某一首歌或某几首歌时,其他一首或几首歌曲也出现的可能性;几首同时出现在多个试听事件中的歌曲构成一个频繁项集;该频繁项集内全部歌曲定义为为疑似违规歌曲,且将每一组符合上述条件的疑似违规频繁项集定义为a1,a2……an(n为自然数)。
其中,当包含某个频繁项集的试听事件数量单日超过T个,或超过当天全部独立试听事件数量1%,且频繁项集内的歌曲提升度(即在某首歌曲A(或多首歌曲组合A’)出现的独立试听事件中出现B歌曲的概率,与含有B歌曲(或多首歌曲组合B’)的独立试听事件数量在当日全部独立试听事件的概率只比)大于特定值X时,定义该频繁项集为疑似违规频繁项集。
优选地,所述步骤S2-2中构建疑似违规歌曲集包括步骤:
(1)当两个疑似违规频繁项集ai,aj(i、j为大于等于1小于等于n的自然数,且i<>j)中有一首或以上相同歌曲时,对上述两个项集进行合并,形成疑似违规歌曲集Ai(i为小于n的自然数);
(2)将其他疑似违规频繁项集ap(p<=n,且p<>i,p<>j)与Ai进行比对,只要有一首或以上歌曲与Ai中歌曲相同的,将该疑似违规频繁项集ap中歌曲并入Ai;
(3)当没有其他疑似违规频繁项集aq中的歌曲与Ai中歌曲相同时,则将aq建立为新的疑似违规歌曲集Aj(j为小于n的自然数,且i<>j)
(4)参考步骤(2),将没有合并到Ai的疑似违规频繁项集ax与Aj进行对比合并,当没有相同歌曲时,重复步骤(3),新建新的疑似违规歌曲集Ak(i为小于n的自然数,且k<>i,k<>j)
(5)重复以上步骤(1)-(5),直到全部疑似频繁项集都归入疑似违规歌曲集,得到疑似违规歌曲集A1~Am(m为小于等于n的自然数)。
优选地,所述步骤S2-3中判断独立试听事件是否属于某个违规歌曲集包括:
当某次独立试听事件中,将试听歌曲与某个疑似违规歌曲集进行匹配,匹配到的歌曲,占该次独立试听事件的歌曲比例超过特定比例值Y时,判断该次试听事件,属于该违规歌曲集。
一种试听作弊行为识别系统,包括以下模块:
试听数据采集模块:首先进行用户独立试听事件的试听行为数据的采集和独立试听事件中互联网热门排行数据的采集;
挖掘模块:对采集到独立试听事件中的用户试听行为数据进行疑似违规歌曲的挖掘:包括疑似歌曲判定,构建疑似违规歌曲集,判断独立试听事件是否属于某个违规歌曲集。
计算模块:对采集的独立试听事件中互联网热门排行数据参照评价基准进行分数的计算和评价;
评分模块:对所述挖掘模块挖掘的疑似违规歌曲以及所述计算模块进行评价后的互联网热门排行数据进行独立试听事件违规事件指标的评分判定:
1)当天作弊事件次数评分:同一天内,属于同一违规歌曲集的独立试听事件数量为m1次及以下记A1分,m1(不含)至m2次记A2分,m2(不含)至m3次记A3分,m3次以上记A4分,其中m1<m2<m3,A1<A2<A3<A4;
2)同时间段评分:某一段试听时间开始前后1小时范围内,属于同一违规歌曲集的独立试听事件数量n1次及以下记B1分,n1(不含)至n2记B2分,n2(不含)至n3记B3分,n3次以上记B4分,其中n1<n2<n3,且B1<B2<B3<B4;
3)一分钟试听次数评分:一分钟内试听次数超过P次的分钟数,占某次试听总分钟数比例为p1及以下记C1分,p1(不含)至p2记C2分,p2以上记C3分,其中p1<p2<p3<1,C1<C2<C3;
4)疑似违规歌曲占比评分:该项得分D=D’*d,其中D’为某一固定分数,d为该试听事件中在任意疑似违规歌曲集中出现的歌曲的总数量占该试听事件全部歌曲数量的百分比;
5)试听事件中供应商权重均值评分:将事件中所有歌曲所属供应商权重得分之和除以事件歌曲数量得到该事件的供应商权重均值,均值得分最高的事件记E分,之后按某事件均值与最高均值事件的均值比例乘以E计算每个事件得分;
6)试听事件中歌曲权重均值评分:将事件中所有歌曲分级得分之和除以事件歌曲数量,得到试听事件歌曲权重均值,均值得分最高的事件记F分,之后按某事件均值与最高均值事件的均值比例乘以F计算每个事件得分。
判定模块:根据评分模块评分判定后的结果,所有歌曲试听事件中某一试听事件总得分超过限定值H,则判定该试听事件判定为试听作弊事件,并输出所述作弊事件相关指标信息。
所述试听数据采集模块、挖掘模块、计算模块、评分模块和判定模块通过电信号顺序连接。
优选地,所述独立试听事件的判定步骤包括:
a.从用户某次试听事件开始计算,后一次试听开始时间与前一次试听开始时间的间隔小于等于特定时长M分钟的,将后一次试听行为并入上一次试听行为所属的试听事件中,并记为一次独立试听事件;
b.当后一次试听开始时间与后一次试听开始时间间隔大于特定时长M分钟时,将后一次试听行为作为下一个独立试听事件的起始行为,然后重复步骤a来继续判定独立试听事件。
将每次独立试听事件中的歌曲,进行关联规则挖掘:通过对不同试听事件中出现的歌曲进行统计,计算当某一试听事件中,出现某一首歌或某几首歌时,其他一首或几首歌曲也出现的可能性;几首同时出现在多个试听事件中的歌曲构成一个频繁项集;该频繁项集内全部歌曲定义为为疑似违规歌曲,且将每一组符合上述条件的疑似违规频繁项集定义为a1,a2……an(n为自然数)。
其中,当包含某个频繁项集的试听事件数量单日超过T个,或超过当天全部独立试听事件数量1%,且频繁项集内的歌曲提升度(即在某首歌曲A(或多首歌曲组合A’)出现的独立试听事件中出现B歌曲的概率,与含有B歌曲(或多首歌曲组合B’)的独立试听事件数量在当日全部独立试听事件的概率只比)大于特定值X时,定义该频繁项集为疑似违规频繁项集。
优选地,所述挖掘模块中构建疑似违规歌曲集包括步骤:
(1)当两个疑似违规频繁项集ai,aj(i、j为大于等于1小于等于n的自然数,且i<>j)中有一首或以上相同歌曲时,对上述两个项集进行合并,形成疑似违规歌曲集Ai(i为小于n的自然数);
(2)将其他疑似违规频繁项集ap(p<=n,且p<>i,p<>j)与Ai进行比对,只要有一首或以上歌曲与Ai中歌曲相同的,将该疑似违规频繁项集ap中歌曲并入Ai;
(3)当没有其他疑似违规频繁项集aq中的歌曲与Ai中歌曲相同时,则将aq建立为新的疑似违规歌曲集Aj(j为小于n的自然数,且i<>j)
(4)参考步骤(2),将没有合并到Ai的疑似违规频繁项集ax与Aj进行对比合并,当没有相同歌曲时,重复步骤(3),新建新的疑似违规歌曲集Ak(i为小于n的自然数,且k<>i,k<>j)
(5)重复以上步骤(1)-(5),直到全部疑似频繁项集都归入疑似违规歌曲集,得到疑似违规歌曲集A1~Am(m为小于等于n的自然数)。
优选地,所述挖掘模块中判断独立试听事件是否属于某个违规歌曲集包括:
当某次独立试听事件中,将试听歌曲与某个疑似违规歌曲集进行匹配,匹配到的歌曲,占该次独立试听事件的歌曲比例超过特定比例值Y时,判断该次试听事件,属于该违规歌曲集。
本发明的有益效果:本发明通过采集主流歌曲排行,对试听歌曲本身热门程度,对歌曲背后歌曲供应商批量违规行为的判断,利用算法,找出具有明显相关性的风险高违规歌曲,同时结合用户行为特征构建对于每次试行事件的判断,提高了用户歌曲试听情况判断的准确性,并根据用户的试听行为合理准确地为客户推荐歌曲。
附图说明
图1是本发明一种试听作弊行为识别方法操作流程图;
图2是本发明一种试听作弊行为识别系统的原理框图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明。
如图1所示,一种试听作弊行为识别方法,包括以下步骤:
S1:首先进行用户独立试听事件的试听行为数据的采集和独立试听事件中互联网热门排行数据的采集;
其中,用户独立试听事件的试听行为数据的采集包括:用户号码编码、用户试听开始时间、试听歌曲名称、歌手名称和歌曲供应商;互联网热门排行数据的采集包括:中国之声musicradio、中国台湾hito、香港电台RTHK、酷狗音乐、QQ音乐、百度音乐、虾米音乐、和音悦台等。
所述户独立试听事件的评判标准是:
a.从用户某次试听事件开始计算,后一次试听开始时间与前一次试听开始时间的间隔小于等于10分钟的,将后一次试听行为并入上一次试听行为所属的试听事件中,并记为一次独立试听事件;
b.当后一次试听开始时间与后一次试听开始时间间隔大于10分钟时,将后一次试听行为作为下一个独立试听事件的起始行为,然后重复步骤a来继续判定独立试听事件。
S2:对采集到独立试听事件中的用户试听行为数据进行疑似违规歌曲的挖掘,具体包括以下操作:
S2-1:疑似歌曲判定:将每次独立试听事件中的歌曲,进行关联规则挖掘:通过对不同试听事件中出现的歌曲进行统计,计算当某一试听事件中,出现某一首歌或某几首歌时,其他一首或几首歌曲也出现的可能性;几首同时出现在多个试听事件中的歌曲构成一个频繁项集;该频繁项集内全部歌曲定义为为疑似违规歌曲,且将每一组符合上述条件的疑似违规频繁项集定义为a1,a2……an(n为自然数)。
其中,当包含某个频繁项集的试听事件数量单日超过2000个,或超过当天全部独立试听事件数量1%,且频繁项集内的歌曲提升度(即在某首歌曲A出现独立试听事件中出现B歌曲的概率,与含有B歌曲的独立试听事件数量在当日全部独立试听事件的概率只比)大于5时定义该频繁项集为疑似违规频繁项集。
S2-2:构建疑似违规歌曲集:(1)当两个疑似违规频繁项集ai,aj(i、j为大于等于1小于等于n的自然数,且i<>j)中有任一相同歌曲时,对上述两个项集进行合并,形成疑似违规歌曲集Ai(i为小于n的自然数);
(2)将其他疑似违规频繁项集ap(p<=n,且p<>i,p<>j)与Ai进行比对,只要有任意一首歌曲与Ai中歌曲相同的,将该疑似违规频繁项集ap中歌曲并入Ai;
(3)当没有其他疑似违规频繁项集aq中的歌曲与Ai中歌曲相同时,则将aq建立为新的疑似违规歌曲集Aj(j为小于n的自然数,且i<>j)
(4)参考步骤(2),将没有合并到Ai的疑似违规频繁项集ax与Aj进行对比合并,当没有相同歌曲时,重复步骤(3),新建新的疑似违规歌曲集Ak(i为小于n的自然数,且k<>i,k<>j)
(5)重复以上步骤(1)-(5),直到全部疑似频繁项集都归入疑似违规歌曲集,得到疑似违规歌曲集A1~Am(m为小于等于n的自然数)。
S2-3:判断独立试听事件是否属于某个违规歌曲集:当某次独立试听事件中,将试听歌曲与某个疑似违规歌曲集进行匹配,匹配到的歌曲,占该次独立试听事件的歌曲比例超过50%的,判断该次试听事件,属于该违规歌曲集。
S3:对采集的独立试听事件中互联网热门排行数据参照评价基准进行分数的计算和评价:供应商分级:将供应商所提供歌曲,匹配近1年各大排行歌曲后,将能匹配到排行歌曲的供应商,按匹配到的歌曲数量排序,排名第一的供应商记为100分,完全未匹配上的供应商记为1分,中间按匹配到的歌曲数量排名线性评分;歌曲分级:将歌曲匹配互联网排行,可匹配上的5分,匹配不到的2分;试听开始时间分级:00:00:00-4:59:59区间试听的1分;5:00:00-6:59:59期间2分;其余时间段3分。
S4:对步骤S2挖掘的疑似违规歌曲以及步骤S3进行评价后的互联网热门排行数据进行独立试听事件违规事件指标的评分判定:
1)当天作弊事件次数评分:同一天内,属于同一违规歌曲集的独立试听事件数量为100次及以下记A1分,101-500次记A2分,501次~1000次记A3分,1000次以上记A4分,其中A1<A2<A3<A4;
2)同时间段评分:某一段试听时间开始前后1小时范围内,属于同一违规歌曲集的独立试听事件数量50次及以下记B1分,51-100次记B2分,101次~500次记B3分,500次以上记B4分,其中B1<B2<B3<B4;
3)一分钟试听次数评分:一分钟内试听次数超过10次的分钟数,占某次试听总分钟数比例为20%及以下记C1分,20%~50%记C2分,50%以上记C3分,其中C1<C2<C3;
4)疑似违规歌曲占比评分:该项得分D=D’*d,其中D’为某一固定分数,d为该试听事件中在任意疑似违规歌曲集中出现的歌曲的总数量占该试听事件全部歌曲数量的百分比;
5)试听事件中供应商权重均值评分:将事件中所有歌曲所属供应商权重得分之和除以事件歌曲数量得到该事件的供应商权重均值,均值得分最高的事件记E分,之后按某事件均值与最高均值事件的均值比例乘以E计算每个事件得分:
即最高供应商权重均值为max,某事件X供应商权重均值为x(x<=max)时,X事件的评分为e=E*x/max;
6)试听事件中歌曲权重均值评分:将事件中所有歌曲分级得分之和除以事件歌曲数量,得到试听事件歌曲权重均值,均值得分最高的事件记F分,之后按某事件均值与最高均值事件的均值比例乘以F计算每个事件得分:
即歌曲权重均值为max,某事件X歌曲权重均值为x(x<=max)时,X事件的评分为f=F*x/max;
S5:根据步骤S4评分判定后的结果,所有歌曲试听事件中某一试听事件总得分超过限定值H,则判定该试听事件判定为试听作弊事件,并输出所述作弊事件相关指标信息。
具体地,本实施例中对步骤S2挖掘的疑似违规歌曲以及步骤S3进行评价后的互联网热门排行数据进行独立试听事件违规事件指标的评分判定的实施例数据为:
1、当天作弊事件次数集中评分(10分):同一天内,属于同一违规歌曲集的独立试听事件数量评分,100次及以下1分,101-500次3分,501次~1000次7分,1000次以上10分。
2、同时间段评分(10分):该试听时间开始前后1小时范围内,属于同一违规歌曲集的独立试听事件数量评分,50次及以下1分,51-100次3分,101次~500次7分,500次以上10分。
3、一分钟试听次数(10分):事件中,一分钟试听次数超过10次的分钟数,占该次试听总分钟数比例。20%及以下记3分,20%~50%(含50%)记7分,50%(不含)以上记10分
4、事件中疑似违规歌曲占比(30分):按30分乘以事件中违规歌曲百分比计算该项得分
5、事件中供应商权重均值评分(20分):将事件中所有歌曲所属供应商权重得分之和除以事件歌曲数量得到该事件的供应商权重均值,均值得分最高的事件记20分,之后按某事件均值与最高均值事件的均值比例乘以20计算每个事件得分。
6、事件中歌曲权重均值(20分):将事件中所有歌曲分级得分之和除以事件歌曲数量,得到试听事件歌曲权重均值,均值得分最高的事件记20分,之后按某事件均值与最高均值事件的均值比例乘以20计算每个事件得分。
本实施例中,限定值H为60,即针对上述事件评分,大于60分的事件判定为试听作弊事件,输出事件相关指标信息。
本实施例方案中所提及的参数指标均应理解为为了理解该方法所列举的优选值。具体参数可以根据实际业务发展情况进行修改。
如图2所示,一种试听作弊行为识别系统,包括以下模块:
试听数据采集模块:首先进行用户独立试听事件的试听行为数据的采集和独立试听事件中互联网热门排行数据的采集;
其中,用户独立试听事件的试听行为数据的采集包括:用户号码编码、用户试听开始时间、试听歌曲名称、歌手名称和歌曲供应商;互联网热门排行数据的采集包括:中国之声musicradio、中国台湾hito、香港电台RTHK、酷狗音乐、QQ音乐、百度音乐、虾米音乐、和音悦台等。
所述户独立试听事件的评判标准是:
a.从用户某次试听事件开始计算,后一次试听开始时间与前一次试听开始时间的间隔小于等于10分钟的,将后一次试听行为并入上一次试听行为所属的试听事件中,并记为一次独立试听事件;
b.当后一次试听开始时间与后一次试听开始时间间隔大于10分钟时,将后一次试听行为作为下一个独立试听事件的起始行为,然后重复步骤a来继续判定独立试听事件。
挖掘模块:对采集到独立试听事件中的用户试听行为数据进行疑似违规歌曲的挖掘:包括疑似歌曲判定,构建疑似违规歌曲集,判断独立试听事件是否属于某个违规歌曲集。
计算模块:对采集的独立试听事件中互联网热门排行数据参照评价基准进行分数的计算和评价:供应商分级:将供应商所提供歌曲,匹配近1年各大排行歌曲后,将能匹配到排行歌曲的供应商,按匹配到的歌曲数量排序,排名第一的供应商记为100分,完全未匹配上的供应商记为1分,中间按匹配到的歌曲数量排名线性评分;歌曲分级:将歌曲匹配互联网排行,可匹配上的5分,匹配不到的2分;试听开始时间分级:00:00:00-4:59:59区间试听的1分;5:00:00-6:59:59期间2分;其余时间段3分。
评分模块:对所述挖掘模块挖掘的疑似违规歌曲以及计算模块进行评价后的互联网热门排行数据进行独立试听事件违规事件指标的评分判定:
1)当天作弊事件次数评分:同一天内,属于同一违规歌曲集的独立试听事件数量为100次及以下记A1分,101-500次记A2分,501次~1000次记A3分,1000次以上记A4分,其中A1<A2<A3<A4;
2)同时间段评分:某一段试听时间开始前后1小时范围内,属于同一违规歌曲集的独立试听事件数量50次及以下记B1分,51-100次记B2分,101次~500次记B3分,500次以上记B4分,其中B1<B2<B3<B4;
3)一分钟试听次数评分:一分钟内试听次数超过10次的分钟数,占某次试听总分钟数比例为20%及以下记C1分,20%~50%记C2分,50%以上记C3分,其中C1<C2<C3;
4)疑似违规歌曲占比评分:该项得分D=D’*d,其中D’为某一固定分数,d为该试听事件中在任意疑似违规歌曲集中出现的歌曲的总数量占该试听事件全部歌曲数量的百分比;
5)试听事件中供应商权重均值评分:将事件中所有歌曲所属供应商权重得分之和除以事件歌曲数量得到该事件的供应商权重均值,均值得分最高的事件记E分,之后按某事件均值与最高均值事件的均值比例乘以E计算每个事件得分;
6)试听事件中歌曲权重均值评分:将事件中所有歌曲分级得分之和除以事件歌曲数量,得到试听事件歌曲权重均值,均值得分最高的事件记F分,之后按某事件均值与最高均值事件的均值比例乘以F计算每个事件得分。
判定模块:根据评分模块评分判定后的结果,所有歌曲试听事件中某一试听事件总得分超过限定值H,则判定该试听事件判定为试听作弊事件,并输出所述作弊事件相关指标信息;
所述试听数据采集模块、挖掘模块、计算模块、评分模块和判定模块通过电信号顺序连接。
所述独立试听事件的判定步骤包括:
a.从用户某次试听事件开始计算,后一次试听开始时间与前一次试听开始时间的间隔小于等于10分钟的,将后一次试听行为并入上一次试听行为所属的试听事件中,并记为一次独立试听事件;
b.当后一次试听开始时间与后一次试听开始时间间隔大于10分钟时,将后一次试听行为作为下一个独立试听事件的起始行为,然后重复步骤a来继续判定独立试听事件。
挖掘模块中疑似歌曲判定包括:
将每次独立试听事件中的歌曲,进行关联规则挖掘:通过对不同试听事件中出现的歌曲进行统计,计算当某一试听事件中,出现某一首歌或某几首歌时,其他一首或几首歌曲也出现的可能性;几首同时出现在多个试听事件中的歌曲构成一个频繁项集;该频繁项集内全部歌曲定义为疑似违规歌曲,且将每一组符合上述条件的疑似违规频繁项集定义为a1,a2……an(n为自然数);
其中当包含某个频繁项集的试听事件数量单日超过2000个,或超过当天全部独立试听事件数量1%,且频繁项集内的歌曲提升度(即在某首歌曲A出现独立试听事件中出现B歌曲的概率,与含有B歌曲的独立试听事件数量在当日全部独立试听事件的概率只比)大于5时定义该频繁项集为疑似违规频繁项集。
步骤挖掘模块中构建疑似违规歌曲集包括步骤:
(1)当两个疑似违规频繁项集ai,aj(i、j为大于等于1小于等于n的自然数,且i<>j)中有任一相同歌曲时,对上述两个项集进行合并,形成疑似违规歌曲集Ai(i为小于n的自然数);
(2)将其他疑似违规频繁项集ap(p<=n,且p<>i,p<>j)与Ai进行比对,只要有任意一首歌曲与Ai中歌曲相同的,将该疑似违规频繁项集ap中歌曲并入Ai;
(3)当没有其他疑似违规频繁项集aq中的歌曲与Ai中歌曲相同时,则将aq建立为新的疑似违规歌曲集Aj(j为小于n的自然数,且i<>j)
(4)参考步骤(2),将没有合并到Ai的疑似违规频繁项集ax与Aj进行对比合并,当没有相同歌曲时,重复步骤(3),新建新的疑似违规歌曲集Ak(i为小于n的自然数,且k<>i,k<>j)
(5)重复以上步骤(1)-(5),直到全部疑似频繁项集都归入疑似违规歌曲集,得到疑似违规歌曲集A1~Am(m为小于等于n的自然数)。
所述步骤挖掘模块中判断独立试听事件是否属于某个违规歌曲集包括:
当某次独立试听事件中,将试听歌曲与某个疑似违规歌曲集进行匹配,匹配到的歌曲,占该次独立试听事件的歌曲比例超过50%的,判断该次试听事件,属于该违规歌曲集。
本发明通过采集主流歌曲排行,对试听歌曲本身热门程度,对歌曲背后歌曲供应商批量违规行为的判断,利用算法,找出具有明显相关性的风险高违规歌曲,同时结合用户行为特征构建对于每次试行事件的判断,提高了用户歌曲试听情况判断的准确性,并根据用户的试听行为合理准确地为客户推荐歌曲。
根据上述说明书的揭示和教导,本发明所属领域的技术人员还可以对上述实施方式进行变更和修改。因此,本发明并不局限于上面揭示和描述的具体实施方式,对发明的一些修改和变更也应当落入本发明的权利要求的保护范围内。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本发明构成任何限制。

Claims (10)

1.一种试听作弊行为识别方法,其特征在于,包括以下步骤:
S1:首先进行用户独立试听事件的试听行为数据的采集和互联网热门排行数据的采集;
S2:对采集到独立试听事件中的用户试听行为数据进行疑似违规歌曲的挖掘:
S2-1:疑似歌曲判定;
S2-2:构建疑似违规歌曲集;
S2-3:判断独立试听事件是否属于某个违规歌曲集;
S3:对采集的互联网热门排行数据参照评价基准进行分数的计算和评价,具体计算和评价如下:
供应商分级:将供应商所提供歌曲,匹配近1年各大排行歌曲后,将能匹配到排行歌曲的供应商,按匹配到的歌曲数量排序,排名第一的供应商记为100分,完全未匹配上的供应商记为1分,中间按匹配到的歌曲数量排名线性评分;歌曲分级:将歌曲匹配互联网排行,可匹配上的5分,匹配不到的2分;试听开始时间分级:00:00:00-4:59:59区间试听的1分;5:00:00-6:59:59期间2分;其余时间段3分;
S4:对步骤S2挖掘的疑似违规歌曲以及步骤S3进行评价后的互联网热门排行数据进行独立试听事件违规事件指标的评分判定:
1)当天作弊事件次数评分:同一天内,属于同一违规歌曲集的独立试听事件数量为m1次及m1以下记A1分,m1至m2次记A2分,m2至m3次记A3分,m3次以上记A4分,其中m1<m2<m3,A1<A2<A3<A4;
2)同时间段评分:某一段试听时间开始前后1小时范围内,属于同一违规歌曲集的独立试听事件数量n1次及n1次以下记B1分,n1至n2次记B2分,n2至n3次记B3分,n3次以上记B4分,其中n1<n2<n3,且B1<B2<B3<B4;
3)一分钟试听次数评分:一分钟内试听次数超过P次的分钟数,占某次试听总分钟数比例为p1次及p1次以下记C1分,p1至p2次记C2分,p2次以上记C3分,其中p1<p2<p3<1,C1<C2<C3;
4)疑似违规歌曲占比评分:该项得分D=D’*d,其中D’为某一固定分数,d为该试听事件中在任意疑似违规歌曲集中出现的歌曲的总数量占该试听事件全部歌曲数量的百分比;
5)试听事件中供应商权重均值评分:将事件中所有歌曲所属供应商权重得分之和除以事件歌曲数量得到该事件的供应商权重均值,均值得分最高的事件记E分,之后按某事件均值与最高均值事件的均值比例乘以E计算每个事件得分;
6)试听事件中歌曲权重均值评分:将事件中所有歌曲分级得分之和除以事件歌曲数量,得到试听事件歌曲权重均值,均值得分最高的事件记F分,之后按某事件均值与最高均值事件的均值比例乘以F计算每个事件得分;
S5:根据步骤S4评分判定后的结果,所有歌曲试听事件中某一试听事件总得分超过限定值H,则判定该试听事件判定为试听作弊事件,并输出所述作弊事件相关指标信息。
2.如权利要求1所述的一种试听作弊行为识别方法,其特征在于,所述独立试听事件的判定步骤包括:
a.从用户某次试听事件开始计算,后一次试听开始时间与前一次试听开始时间的间隔小于等于特定时长M分钟的,将后一次试听行为并入上一次试听行为所属的试听事件中,并记为一次独立试听事件;
b.当后一次试听开始时间与后一次试听开始时间间隔大于特定时长M分钟时,将后一次试听行为作为下一个独立试听事件的起始行为,然后重复步骤a来继续判定独立试听事件。
3.如权利要求1所述的一种试听作弊行为识别方法,其特征在于,所述S2-1中疑似歌曲判定包括:
将每次独立试听事件中的歌曲,进行关联规则挖掘:通过对不同试听事件中出现的歌曲进行统计,计算当某一试听事件中,出现某一首歌或某几首歌时,其他一首或几首歌曲也出现的可能性;几首同时出现在多个试听事件中的歌曲构成一个频繁项集;该频繁项集内全部歌曲定义为疑似违规歌曲,且将每一组符合上述条件的疑似违规频繁项集定义为a1,a2……an;
其中,当包含某个频繁项集的试听事件数量单日超过T个,或超过当天全部独立试听事件数量1%,且频繁项集内的歌曲提升度大于特定值X时,定义该频繁项集为疑似违规频繁项集。
4.如权利要求3所述的一种试听作弊行为识别方法,其特征在于,所述步骤S2-2中构建疑似违规歌曲集包括步骤:
(1)当两个疑似违规频繁项集ai,aj,中有一首或以上相同歌曲时,对上述两个项集进行合并,形成疑似违规歌曲集Ai;其中,ai,aj中的i、j为大于等于1小于等于n的自然数,且i<>j;Ai中的i为小于n的自然数;
(2)将其他疑似违规频繁项集ap,p<=n,且p<>i,p<>j与Ai进行比对,只要有一首或以上歌曲与Ai中歌曲相同的,将该疑似违规频繁项集ap中歌曲并入Ai;
(3)当没有其他疑似违规频繁项集aq中的歌曲与Ai中歌曲相同时,则将aq建立为新的疑似违规歌曲集Aj,j为小于n的自然数,且i<>j;
(4)参考步骤(2),将没有合并到Ai的疑似违规频繁项集ax与Aj进行对比合并,当没有相同歌曲时,重复步骤(3),新建新的疑似违规歌曲集Ak,i为小于n的自然数,且k<>i,k<>j;
(5)重复以上步骤(1)-(4),直到全部疑似频繁项集都归入疑似违规歌曲集,得到疑似违规歌曲集A1~Am,m为小于等于n的自然数。
5.如权利要求4所述的一种试听作弊行为识别方法,其特征在于,所述步骤S2-3中判断独立试听事件是否属于某个疑似违规歌曲集包括:
当某次独立试听事件中,将试听歌曲与某个疑似违规歌曲集进行匹配,匹配到的歌曲,占该次独立试听事件的歌曲比例超过特定比例值Y时,判断该次试听事件,属于该违规歌曲集。
6.一种试听作弊行为识别系统,其特征在于,包括以下模块:
试听数据采集模块:首先进行用户独立试听事件的试听行为数据的采集和互联网热门排行数据的采集;
挖掘模块:对采集到独立试听事件中的用户试听行为数据进行疑似违规歌曲的挖掘:包括疑似歌曲判定,构建疑似违规歌曲集,判断独立试听事件是否属于某个疑似违规歌曲集;
计算模块:对采集的独立试听事件中互联网热门排行数据参照评价基准进行分数的计算和评价;
具体计算和评价如下:
供应商分级:将供应商所提供歌曲,匹配近1年各大排行歌曲后,将能匹配到排行歌曲的供应商,按匹配到的歌曲数量排序,排名第一的供应商记为100分,完全未匹配上的供应商记为1分,中间按匹配到的歌曲数量排名线性评分;歌曲分级:将歌曲匹配互联网排行,可匹配上的5分,匹配不到的2分;试听开始时间分级:00:00:00-4:59:59区间试听的1分;5:00:00-6:59:59期间2分;其余时间段3分;
评分模块:对所述挖掘模块挖掘的疑似违规歌曲以及所述计算模块进行评价后的互联网热门排行数据进行独立试听事件违规事件指标的评分判定:
1)当天作弊事件次数评分:同一天内,属于同一违规歌曲集的独立试听事件数量为m1次及以下记A1分,m1至m2次记A2分,不含m1;m2至m3次记A3分,不含m2;m3次以上记A4分,其中m1<m2<m3,A1<A2<A3<A4;
2)同时间段评分:某一段试听时间开始前后1小时范围内,属于同一违规歌曲集的独立试听事件数量n1次及以下记B1分,n1至n2记B2分,不含n1;n2至n3记B3分,不含n2;n3次以上记B4分,其中n1<n2<n3,且B1<B2<B3<B4;
3)一分钟试听次数评分:一分钟内试听次数超过P次的分钟数,占某次试听总分钟数比例为p1及以下记C1分,p1至p2记C2分,不含p1;p2以上记C3分,其中p1<p2<p3<1,C1<C2<C3;
4)试听事件中歌曲权重均值评分:将事件中所有歌曲分级得分之和除以事件歌曲数量,得到试听事件歌曲权重均值,均值得分最高的事件记F分,之后按某事件均值与最高均值事件的均值比例乘以F计算每个事件得分;
判定模块:根据评分模块判定后的结果,所有歌曲试听事件中某一试听事件总得分超过限定值H,则判定该试听事件判定为试听作弊事件,并输出所述作弊事件相关指标信息;
所述试听数据采集模块、挖掘模块、计算模块、评分模块和判定模块通过电信号顺序连接。
7.如权利要求6所述的一种试听作弊行为识别系统,其特征在于,所述独立试听事件的判定步骤包括:
a.从用户某次试听事件开始计算,后一次试听开始时间与前一次试听开始时间的间隔小于等于特定时长M分钟的,将后一次试听行为并入上一次试听行为所属的试听事件中,并记为一次独立试听事件;
b.当后一次试听开始时间与后一次试听开始时间间隔大于特定时长M分钟时,将后一次试听行为作为下一个独立试听事件的起始行为,然后重复步骤a来继续判定独立试听事件。
8.如权利要求7所述的一种试听作弊行为识别系统,其特征在于,所述挖掘模块中疑似歌曲判定包括:
将每次独立试听事件中的歌曲,进行关联规则挖掘:通过对不同试听事件中出现的歌曲进行统计,计算当某一试听事件中,出现某一首歌或某几首歌时,其他一首或几首歌曲也出现的可能性;几首同时出现在多个试听事件中的歌曲构成一个频繁项集;该频繁项集内全部歌曲定义为疑似违规歌曲,且将每一组符合上述条件的疑似违规频繁项集定义为a1,a2……an,n为自然数;
其中,当包含某个频繁项集的试听事件数量单日超过T个,或超过当天全部独立试听事件数量1%,且频繁项集内的歌曲提升度大于特定值X时,定义该频繁项集为疑似违规频繁项集。
9.如权利要求6所述的一种试听作弊行为识别系统,其特征在于,所述挖掘模块中构建疑似违规歌曲集包括步骤:
(1)当两个疑似违规频繁项集ai,aj中有一首或以上相同歌曲时,对上述两个项集进行合并,形成疑似违规歌曲集Ai;其中,ai,aj中的i、j为大于等于1小于等于n的自然数,且i<>j;Ai中的i为小于n的自然数;
(2)将其他疑似违规频繁项集ap,p<=n,且p<>i,p<>j;与Ai进行比对,只要有一首或以上歌曲与Ai中歌曲相同的,将该疑似违规频繁项集ap中歌曲并入Ai;
(3)当没有其他疑似违规频繁项集aq中的歌曲与Ai中歌曲相同时,则将aq建立为新的疑似违规歌曲集Aj,j为小于n的自然数,且i<>j;
(4)参考步骤(2),将没有合并到Ai的疑似违规频繁项集ax与Aj进行对比合并,当没有相同歌曲时,重复步骤(3),新建新的疑似违规歌曲集Ak,i为小于n的自然数,且k<>i,k<>j;
(5)重复以上步骤(1)-(4),直到全部疑似频繁项集都归入疑似违规歌曲集,得到疑似违规歌曲集A1~Am,m为小于等于n的自然数。
10.如权利要求9所述的一种试听作弊行为识别系统,其特征在于,所述挖掘模块中判断独立试听事件是否属于某个违规歌曲集包括:
当某次独立试听事件中,将试听歌曲与某个疑似违规歌曲集进行匹配,匹配到的歌曲,占该次独立试听事件的歌曲比例超过特定比例值Y时,判断该次试听事件,属于该违规歌曲集。
CN201710155368.9A 2017-03-16 2017-03-16 一种试听作弊行为识别方法及系统 Active CN107016062B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710155368.9A CN107016062B (zh) 2017-03-16 2017-03-16 一种试听作弊行为识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710155368.9A CN107016062B (zh) 2017-03-16 2017-03-16 一种试听作弊行为识别方法及系统

Publications (2)

Publication Number Publication Date
CN107016062A CN107016062A (zh) 2017-08-04
CN107016062B true CN107016062B (zh) 2021-02-26

Family

ID=59439939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710155368.9A Active CN107016062B (zh) 2017-03-16 2017-03-16 一种试听作弊行为识别方法及系统

Country Status (1)

Country Link
CN (1) CN107016062B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102890713A (zh) * 2012-09-20 2013-01-23 浙江大学 一种基于用户当前地理位置和物理环境的音乐推荐方法
US8639706B1 (en) * 2011-07-01 2014-01-28 Google Inc. Shared metadata for media files
CN103632025A (zh) * 2012-08-27 2014-03-12 北京百度网讯科技有限公司 试听反作弊的方法及系统
US9037278B2 (en) * 2013-03-12 2015-05-19 Jeffrey Scott Smith System and method of predicting user audio file preferences
CN104991900A (zh) * 2015-06-09 2015-10-21 腾讯科技(深圳)有限公司 一种音乐数据推送方法及装置
CN106126577A (zh) * 2016-06-17 2016-11-16 北京理工大学 一种基于数据源划分矩阵的加权关联规则挖掘方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8639706B1 (en) * 2011-07-01 2014-01-28 Google Inc. Shared metadata for media files
CN103632025A (zh) * 2012-08-27 2014-03-12 北京百度网讯科技有限公司 试听反作弊的方法及系统
CN102890713A (zh) * 2012-09-20 2013-01-23 浙江大学 一种基于用户当前地理位置和物理环境的音乐推荐方法
US9037278B2 (en) * 2013-03-12 2015-05-19 Jeffrey Scott Smith System and method of predicting user audio file preferences
CN104991900A (zh) * 2015-06-09 2015-10-21 腾讯科技(深圳)有限公司 一种音乐数据推送方法及装置
CN106126577A (zh) * 2016-06-17 2016-11-16 北京理工大学 一种基于数据源划分矩阵的加权关联规则挖掘方法

Also Published As

Publication number Publication date
CN107016062A (zh) 2017-08-04

Similar Documents

Publication Publication Date Title
CN109325691B (zh) 异常行为分析方法、电子设备及计算机程序产品
CN107657486A (zh) 一种广告投放方法及装置
CN105279674A (zh) 移动广告投放设备作弊行为的判断方法和装置
CN108492132B (zh) 一种利用音频特征识别的广告监播投放系统及方法
CN106327230B (zh) 一种异常用户检测方法及设备
CN112396211B (zh) 一种数据预测方法及装置、设备和计算机存储介质
CN113435627A (zh) 基于工单轨迹信息的电力客户投诉预测方法及装置
CN116384947B (zh) 一种基于大数据的出版物发行监测管理系统及方法
CN105824806A (zh) 一种公众账号的质量评价方法和装置
CN114912510A (zh) 一种线上调研样本质量评估系统
CN110163683B (zh) 价值用户关键指标确定方法、广告投放方法及装置
CN113254918B (zh) 信息处理方法、电子设备和计算机可读存储介质
CN110610415A (zh) 一种模型更新的方法和装置
CN111325255B (zh) 特定人群圈定方法、装置、电子设备及存储介质
CN107016062B (zh) 一种试听作弊行为识别方法及系统
CN111325572B (zh) 一种数据处理方法及装置
CN108363789B (zh) 一种工商业用户用电表码数据短期缺失修补方法及装置
CN111222033A (zh) 一种基于海量数据监管网络餐饮企业的方法和系统
CN115293275A (zh) 数据识别方法、装置、电子设备和存储介质
KR20120103310A (ko) 데이터베이스 분석을 통한 낙찰 금액 산출 시스템 및 그 산출 방법
CN106663110A (zh) 音频序列对准的概率评分的导出
CN112926664B (zh) 基于进化算法的特征选择与cart森林的短时强降水预报方法
CN112632364A (zh) 新闻传播速度测评方法和系统
CN110458707B (zh) 基于分类模型的行为评估方法、装置及终端设备
CN103970727A (zh) 基于话题的反作弊方法、装置和服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant