CN112667961A - 一种识别广告弹幕发布者的方法及系统 - Google Patents
一种识别广告弹幕发布者的方法及系统 Download PDFInfo
- Publication number
- CN112667961A CN112667961A CN201910982059.8A CN201910982059A CN112667961A CN 112667961 A CN112667961 A CN 112667961A CN 201910982059 A CN201910982059 A CN 201910982059A CN 112667961 A CN112667961 A CN 112667961A
- Authority
- CN
- China
- Prior art keywords
- target
- bullet screen
- closeness
- nickname
- advertisement bullet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000011159 matrix material Substances 0.000 claims description 39
- 238000004590 computer program Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000000903 blocking effect Effects 0.000 description 3
- 238000013515 script Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 206010027146 Melanoderma Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 235000021167 banquet Nutrition 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种识别广告弹幕发布者的方法,根据过去的历史数据获得目标紧密度,并通过紧密度获得目标的发送广告弹幕次数期望,发送广告弹幕次数期望可反映目标发送广告弹幕的概率,并与设置的次数阈值进行比较后,识别出最有可能发送广告弹幕的目标,可对还未发送广告弹幕,但发送广告弹幕次数期望较高的目标识别出来,做到了对广告弹幕发布者的事前识别;且该方法的紧密度考虑了目标IP、设备和昵称因素,获得的紧密度更准确,因此,发送广告弹幕次数期望也更准确,事前识别结果准确率更高,可有效降低广告弹幕出现的概率,从而显著减少直播屏幕的卡顿。
Description
技术领域
本发明涉及无线局域网技术领域,尤其涉及一种识别广告弹幕发布者的方法及系统。
背景技术
在网络直播平台上,一种常见的恶意行为是在弹幕中发送广告,这些广告常常是大批量的出现,可能造成直播屏幕的卡顿,且影响用户观看直播,因此,需要拦截这些恶意的广告弹幕。
为了拦截广告弹幕,需要对广告弹幕的发布者进行识别,然后才能进行有效的拦截。现有的识别广告弹幕发布者的方法有以下几种:第一种是在发布者发了广告弹幕之后,根据当前的广告弹幕,去追踪识别,这种方法虽然可以快速准确识别广告弹幕发布者,但是当前弹幕广播已经发出去,由于该发布者在发送广告弹幕之前,无法进行识别,因此没有做到事前拦截,还是不可避免对直播屏幕造成卡顿;第二种是通过一些IP等规则(如在1个小时内限制某个IP使其无法发送弹幕),做事前的限制,这种方法可以拦截的恶意用户覆盖不够,还是会在直播中出现较多的广告弹幕,因此,也无法解决对直播屏幕造成卡顿的问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的识别广告弹幕发布者的方法及系统。
一方面,本申请通过本申请的一实施例提供如下技术方案:
一种识别广告弹幕发布者的方法,所述方法包括:
获取过去预设时间段内的目标基础标识数据,其中,所述目标基础标识数据包括目标IP信息、设备信息和目标昵称信息;
基于所述目标IP信息、设备信息和目标昵称信息,获得目标间的IP紧密度、设备紧密度和昵称紧密度;
基于所述目标间的IP紧密度、设备紧密度和昵称紧密度,获得所述目标间的紧密度;
基于所述目标间的紧密度,获得所述目标的发送广告弹幕次数期望;
判断所述目标的发送广告弹幕次数期望是否大于次数阈值以及所述目标是否发送过广告弹幕;
若所述目标的发送广告弹幕次数期望大于次数阈值,且所述目标未发送过广告弹幕,则将广告弹幕次数期望高于次数阈值且未发送过广告弹幕的目标识别为广告弹幕的发布者。
可选的,所述基于所述目标IP信息、设备信息和发布者昵称信息,获得目标间的IP紧密度、设备紧密度和昵称紧密度,具体包括:
基于所述目标IP信息,获得目标u与目标v的IP紧密度;其中,所述IP紧密度包括:
sim_ip(IPu,IPv)=0,表示目标u与目标v共用过0个IP;
sim_ip(IPu,IPv)=0.5,表示目标u与目标v共用过一个IP;
sim_ip(IPu,IPv)=1,表示目标u与目标v共用过两个或两个以上IP;
sim_ip(IPu,IPv)表示目标u与目标v的IP紧密度;
基于所述设备信息,获得目标u与目标v的设备紧密度;其中,所述设备紧密度包括:
sim_did(Du,Dv)=0,表示目标u与目标v共用过0个设备;
sim_did(Du,Dv)=1,表示目标u与目标v共用过一个或一个以上设备;
sim_did(Du,Dv)表示目标u与目标v间的设备紧密度;
基于所述目标昵称信息,获得目标u与目标v的昵称紧密度,包括:
将所述目标昵称中相同的字符类型转换成同一英文字母,获得昵称模式;其中,不同的字符类型转换成不同的英文字母;
基于所述昵称模式,获得昵称紧密度,所述昵称紧密度包括:
其中:
sim_nick(u,v)表示目标u与目标v的昵称紧密度;
levenstein(nicku,nickv)是目标u与目标v的昵称模式编辑距离;
length(nicku)是目标u的昵称模式字符串长度,length(nickv)是目标v的昵称模式字符串长度。
可选的,所述基于所述目标间的IP紧密度、设备紧密度和昵称紧密度,获得所述目标间的紧密度,具体包括:
通过所述目标u与目标v的IP紧密度、设备紧密度和昵称紧密度,获得所述目标u与目标v的紧密度,所述目标u与目标v的紧密度包括:
sim(u,v)=w1sim_ip(u,v)+w2sim_did(u,v)+w3sim_nick(u,v),
其中:
sim(u,v)是目标u与目标v的紧密度;
可选的,所述基于所述目标间的紧密度,获得所述目标的发送广告弹幕次数期望,具体包括:
基于所述目标间的紧密度,获得所述目标的紧密度矩阵;
基于所述紧密度矩阵,获得发送广告弹幕次数期望矩阵,其中,所述发送广告弹幕次数期望矩阵中包括目标的发送广告弹幕次数期望值;
所述发送广告弹幕次数期望矩阵包括:
其中:
P是所述目标在过去一个时间窗口内发送的广告弹幕次数矩阵,其维度是1*N,N表示所述过去一个时间窗口内发送过广告弹幕的目标总数;
E是发送广告弹幕次数期望矩阵,其维度是1*N;
S是目标的紧密度矩阵,其维度是N*N;
Sk是矩阵乘法,代表矩阵S的k次方;
k的取值范围为1~C,C为常数,取值范围为1~4。
可选的,所述常数C的确定方法为:
基于所述目标间的IP紧密度、设备紧密度和昵称紧密度,获得所述目标间的平均紧密度;
基于所述目标间的平均紧密度,获得所有目标的平均紧密度;
基于所述所有目标的平均紧密度,确定所述常数C。
可选的,在所述获取过去预设时间段内的目标基础标识数据之后,所述方法还包括:
基于所述目标基础标识数据,获得在过去一个时间窗口内目标平均发送广告弹幕次数;
基于所述目标平均发送广告弹幕次数,获得所述次数阈值。
可选的,在所述判断所述目标的发送广告弹幕次数期望是否大于次数阈值以及所述目标是否发送过广告弹幕之后,所述方法还包括:
若所述目标的发送广告弹幕次数期望小于等于次数阈值,且所述目标未发送过广告弹幕,则将广告弹幕次数期望小于等于所述次数阈值且未发送过广告弹幕的目标识别为正常目标。
另一方面,本申请通过本申请的另一实施例提供一种识别广告弹幕发布者的系统,所述系统包括:
第一获取模块,用于获取过去预设时间段内的目标基础标识数据,其中,所述目标基础标识数据包括目标IP信息、设备信息和目标昵称信息;
第一获得模块,用于基于所述目标IP信息、设备信息和目标昵称信息,获得目标间的IP紧密度、设备紧密度和昵称紧密度;
第二获得模块,用于基于所述目标间的IP紧密度、设备紧密度和昵称紧密度,获得所述目标间的紧密度;
第三获得模块,用于基于所述目标间的紧密度,获得所述目标的发送广告弹幕次数期望;
判断模块,用于判断所述目标的发送广告弹幕次数期望是否高于次数阈值以及所述目标是否发送过广告弹幕;
识别模块,用于所述目标的发送广告弹幕次数期望高于次数阈值,且所述目标未发送过广告弹幕,则将广告弹幕次数期望高于次数阈值且未发送过广告弹幕的目标识别为广告弹幕的发布者。
本发明公开了一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
本发明公开了一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述方法的步骤。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本发明的方法,获取过去预设时间段内的目标基础标识数据,其中,所述目标基础标识数据包括目标IP信息、设备信息和发布者昵称信息;基于所述目标IP信息、设备信息和发布者昵称信息,获得目标间的IP紧密度、设备紧密度和昵称紧密度;基于所述目标间的IP紧密度、设备紧密度和昵称紧密度,获得所述目标间的紧密度;基于所述目标间的紧密度,获得所述目标的发送广告弹幕次数期望;判断所述目标的发送广告弹幕次数期望是否大于次数阈值以及所述目标是否发送过广告弹幕;若所述目标的发送广告弹幕次数期望大于次数阈值,且所述目标未发送过广告弹幕,则将广告弹幕次数期望高于次数阈值且未发送过广告弹幕的目标识别为广告弹幕的发布者。由于本发明的方法根据过去的历史数据获得目标紧密度,并通过紧密度获得目标的发送广告弹幕次数期望,发送广告弹幕次数期望可反映目标发送广告弹幕的概率,并与设置的次数阈值进行比较后,识别出最有可能发送广告弹幕的广告弹幕的发布者,可对还未发送广告弹幕,但发送广告弹幕次数期望较高的目标识别出来,做到了对广告弹幕发布者的事前识别;且该方法的紧密度考虑了目标IP、设备和昵称因素,获得的紧密度更准确,因此,发送广告弹幕次数期望也更准确,事前识别结果准确率更高,可有效降低广告弹幕出现的概率,从而显著减少直播屏幕的卡顿。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明一种实施例中的识别广告弹幕发布者的方法流程图;
图2是本发明一种实施例中的识别广告弹幕发布者的系统构架图。
具体实施方式
本申请实施例通过提供一种识别广告弹幕发布者的方法及系统,解决了现有的因频繁的广告弹幕而导致直播屏幕卡顿的技术问题。
本申请实施例的技术方案为解决上述技术问题,总体思路如下:
一种识别广告弹幕发布者的方法,包括:获取过去预设时间段内的目标基础标识数据,其中,所述目标基础标识数据包括目标IP信息、设备信息和发布者昵称信息;基于所述目标IP信息、设备信息和发布者昵称信息,获得目标间的IP紧密度、设备紧密度和昵称紧密度;基于所述目标间的IP紧密度、设备紧密度和昵称紧密度,获得所述目标间的紧密度;基于所述目标间的紧密度,获得所述目标的发送广告弹幕次数期望;判断所述目标的发送广告弹幕次数期望是否大于次数阈值以及所述目标是否发送过广告弹幕;若所述目标的发送广告弹幕次数期望大于次数阈值,且所述目标未发送过广告弹幕,则将广告弹幕次数期望高于次数阈值且未发送过广告弹幕的目标识别为广告弹幕的发布者。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
首先说明,本文中出现的术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
在直播平台上,一种常见的恶意行为是在弹幕中发送广告,这些广告常常是大批量的出现。通过对直播平台上发广告行为的分析,可以发现这些目标会使用相同的IP或者设备,由于通常是批量注册因此在昵称上也具有非常相似的模式。这是由于发送这些弹幕的网络黑产在资源或者成本上的限制,因此黑产常常在资源(IP、设备、账号)上进行多次使用,于是通过重复使用行为可以去度量账号之间的关联性。有了这样的关联性之后,可以结合已经发现的发批量广告弹幕的目标,对其他潜在风险目标进行事前防范。
下面以具体的实施例进行详细的解释说明。
实施例一
本实施提供了一种识别广告弹幕发布者的方法,参见图1,所述方法包括:
S101、获取过去预设时间段内的目标基础标识数据,其中,所述目标基础标识数据包括目标IP信息、设备信息和目标昵称信息;
S102、基于所述目标IP信息、设备信息和目标昵称信息,获得目标间的IP紧密度、设备紧密度和昵称紧密度;
S103、基于所述目标间的IP紧密度、设备紧密度和昵称紧密度,获得所述目标间的紧密度;
S104、基于所述目标间的紧密度,获得所述目标的发送广告弹幕次数期望;
S105、判断所述目标的发送广告弹幕次数期望是否大于次数阈值以及所述目标是否发送过广告弹幕;
S106、若所述目标的发送广告弹幕次数期望大于次数阈值,且所述目标未发送过广告弹幕,则将广告弹幕次数期望高于次数阈值且未发送过广告弹幕的目标识别为广告弹幕的发布者。
其中,该目标可以是观看直播的用户,也可以是观看直播的电子设备,如智能机器人等。
下面参照图1,对本实施中各步骤进行详细的解释说明。
首先,执行步骤S101,获取过去预设时间段内的目标基础标识数据,其中,所述目标基础标识数据包括目标IP信息、设备信息和目标昵称信息。
需要说明的是,过去预设时间段可以是过去一周、一个月,目标基础标识数据包括观看直播的所有目标的IP信息、设备信息和目标昵称信息,其中,目标包括正常的观看直播的目标,也包括网络黑产目标。且对于当前时间节点,网络黑产目标可能已经在历史时间发送过广告弹幕,也可能还未来得及发送广告弹幕,而这些未来得及发送广告弹幕的恶意目标就是本发明要识别的对象。
为了获得更准确的目标紧密度,选取了目标IP信息、设备信息和目标昵称信息,理论根据如下:
本发明实施例中,之所以选取IP信息参数,是因为黑产在发弹幕的时候需要使用网络,因此会采集其网络的IP信息,例如IP地址。由于黑产账号通常是在一个网络环境下进行操作的,因此,如果两个账号之间使用的IP地址相同,那么可以说明其网络环境以及地理位置非常接近,其紧密度就会比较高,可见,IP信息参数是获得更准确的目标紧密度所必不可少的核心参数之一。
本发明实施例中,之所以选取设备信息参数,是因为黑产在发弹幕的时候需要设备作为操作载体,这里的设备包含电脑、手机等。由于成本的考虑,黑产会在同一个设备上登录不同账号,在同一设备上使用不同账号是同一个自然人操作的可能性非常大。因此如果发现两个账号之间使用的设备相同,那么账号之间的紧密度就会非常高。相同的,设备信息参数也是获得更准确的目标紧密度所必不可少的核心参数之一。
本发明实施例中,之所以选取IP信息参数,是因为黑产为了大规模发广告弹幕需要很多账号,因为账号发了广告弹幕之后就会被封禁,因此采用注册机或者注册脚本进行批量的账号注册。而这些批量注册软件或者脚本通常都会批量生成目标昵称,由于生成规则是一致的因此采用同样批量注册软件或者脚本的账号昵称非常相似。所以如果发现两个账号之间的昵称非常相似,那么账号之间的紧密度就会比较高。相同的,目标昵称信息也是获得更准确的目标紧密度所必不可少的核心参数之一。
基于此,本领域技术人员显然可以理解,在本发明实施例步骤S101中选取的目标IP信息、设备信息、目标昵称信息这三个参数均是是解决技术问题所必不可少的信息参数,并非人为主观因素的选取,而是为了解决技术问题必须对上述目标IP信息、设备信息和目标昵称信息进行获取(也即符合自然规律的选取),以为下述S102提供数据基础。
接下来,执行S102,基于所述目标IP信息、设备信息和目标昵称信息,获得目标间的IP紧密度、设备紧密度和昵称紧密度。
基于S101中的理论,对目标间的IP紧密度、设备紧密度和昵称紧密度进行定义。需要说明的是,目标间即指任意两两目标之间,例如目标u与目标v之间,但目标u与目标v都不特殊指代哪个目标。
作为一种可选的实施方式,所述基于所述目标IP信息、设备信息和发布者昵称信息,获得目标间的IP紧密度、设备紧密度和昵称紧密度,具体包括:
第一,基于所述目标IP信息,获得目标u与目标v的IP紧密度;其中,所述IP紧密度包括:
sim_ip(IPu,IPv)=0,表示目标u与目标v共用过0个IP;
sim_ip(IPu,IPv)=0.5,表示目标u与目标v共用过一个IP;
sim_ip(IPu,IPv)=1,表示目标u与目标v共用过两个或两个以上IP;
sim_ip(IPu,IPv)表示目标u与目标v的IP紧密度;
需要说明的是,IP相同说明两个目标在同一个网络环境中,于是紧密度会比较高。但是如果目标因为公共场所或IP出口的原因使用了相同的IP,他们之间的紧密度不应该那么高。因此,公用过一个IP时的紧密度设置为0.5;公用过二个及以上IP时才会将紧密度设置为1。
第二,基于所述设备信息,获得目标u与目标v的设备紧密度;其中,所述设备紧密度包括:
sim_did(Du,Dv)=0,表示目标u与目标v共用过0个设备;
sim_did(Du,Dv)=1,表示目标u与目标v共用过一个或一个以上设备;
sim_did(Du,Dv)表示目标u与目标v间的设备紧密度;
需要说明的是,设备的关联强度要高于IP,公用了同样设备的两个账号关联性非常强。因此只要目标公用了至少一个设备,那么在该方面的紧密度就应该取到最大值1。
第三,基于所述目标昵称信息,获得目标u与目标v的昵称紧密度,包括:
第一步,将所述目标昵称中相同的字符类型转换成同一英文字母,获得昵称模式;其中,不同的字符类型转换成不同的英文字母;
举例来说,如果昵称字符串是一个数字(0-9),那么用符号D表示;
如果昵称字符串是一个英文字母(a-z,A-Z),那么用符号E表示;
如果昵称字符串是一个中文汉字,那么用符号C表示;
如果昵称字符串是一个特殊符号,那么用符号S表示;
如果昵称字符串是一个不属于上面的其他符号,那么用符号O表示
第二步,基于所述昵称模式,获得昵称紧密度,所述昵称紧密度包括:
其中:
sim_nick(u,v)表示目标u与目标v的昵称紧密度;
levenstein(nicku,nickv)是目标u与目标v的昵称模式编辑距离;
length(nicku)是目标u的昵称模式字符串长度,length(nickv)是目标v的昵称模式字符串长度。
其中,编辑距离是指两个字符串的差异程度的量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。
需要说明的是,编辑距离衡量的是两个字符串之间的距离,为了标准化该距离,将编辑距离除以两个字符串中最大的字符长度可以实现这样的标准化。除以两个字符串中最大的字符长度原因是若字符串长度较短那么编辑距离相应的也会短,这样的处理消除了因为字符串长度造成的距离度量不准确。计算得到距离之后,该值在0到1之间,用1去减这个距离就可以得到最终的昵称模式紧密度。
下面举例说明昵称紧密度的计算方法:
目标u的昵称:abc1234
目标v的昵称:大cd555
首先转化成昵称模式,abc1234的昵称模式是EEEDDDD,大cd555的昵称模式是CEEDDD;计算昵称模式的编辑距离是2(即需要2步编辑才能完成),目标u的昵称模式长度是7,目标v的昵称模式长度是6,于是目标u和目标v昵称紧密度是1-2/7=0.71。
该计算方法的优点在于由于目标昵称的形式是五花八门的,因此直接去计算昵称的紧密度是不可行的。由于有嫌疑的目标昵称大多是通过脚本软件批量注册的,因此具有固定的模式,通过这一特点对昵称进行模式变化,通过编辑距离就可以很好的衡量昵称之间的紧密度。
接下来,执行S103、基于所述目标间的IP紧密度、设备紧密度和昵称紧密度,获得所述目标间的紧密度;
需要说明的是,S103中获得目标间的紧密度,可以有多种方法,例如平均、加权平均等。
作为一种可选的实施方式,所述目标u与目标v的紧密度为:
sim(u,v)=w1sim_ip(u,v)+w2sim_did(u,v)+w3sim_nick(u,v),
其中:
sim(u,v)是目标u与目标v的紧密度;
在本实施例中,目标(即用户)间的IP紧密度、设备紧密度和昵称紧密度这三个变量的权重值之和为1。各权重的大小可以基于历史数据进行预先设置。由于历史数据获得的IP平均紧密度、设备平均紧密度和昵称的平均紧密度是根据已发出广告弹幕的用户之间的IP、设备和昵称关系获得的,其值越高,则表明弹幕发布者之间具备此紧密关系的概率越大,因而该紧密度的重要程度越高,其对于总的紧密度的贡献越大。因此,将IP平均紧密度、设备平均紧密度和昵称的平均紧密度归一化后,获得与其成正比的三个权重系数,可相应的反应IP紧密度、设备紧密度和昵称紧密度的重要性,即平均紧密度越大,权重系数越高。例如,历史数据反应设备平均紧密度较高时,则证明弹幕发布者使用统一设备的概率较高,在紧密度计算时自然应该有较大的权重值,这样也可以使紧密度的计算结果更准确。具体的,根据已识别到的广告弹幕发布者(主要识别手段是基于关键词匹配规则和用户举报),计算这些广告弹幕发布者之间在IP平均紧密度、设备平均紧密度和昵称的平均紧密度,并将它们进行归一化后,作为IP紧密度、设备紧密度和昵称紧密度对应的三个权重系数。举例来说,计算得到的IP平均紧密度、设备平均紧密度和昵称平均紧密度分别为0.1,0.25,0.15,因此,同时放大两倍后,得到相加为1的三个系数0.2,0.5,0.3,则将0.2,0.5,0.3作为IP紧密度、设备紧密度和昵称紧密度对应的三个权重系数。
接下来,执行S104,基于所述目标间的紧密度,获得所述目标的发送广告弹幕次数期望。
具体的,S104包括:
基于所述目标间的紧密度,获得所述目标的紧密度矩阵;
基于所述紧密度矩阵,获得发送广告弹幕次数期望矩阵,其中,所述发送广告弹幕次数期望矩阵中包括目标的发送广告弹幕次数期望值;
所述发送广告弹幕次数期望矩阵包括:
其中:
P是所述目标在过去一个时间窗口内发送的广告弹幕次数矩阵,其维度是1*N,N表示所述过去一个时间窗口内发送过广告弹幕的目标总数;
E是发送广告弹幕次数期望矩阵,其维度是1*N;
S是目标的紧密度矩阵,其维度是N*N;
Sk是矩阵乘法,代表矩阵S的k次方;
k的取值范围为1~C,C为常数,取值范围为1~4。
发送广告弹幕次数期望矩阵公式的原理如下:
首先考虑各节点的一阶邻居,对于各节点事前发弹幕的期望次数可以根据邻居节点在近一个时间窗口内发送的广告弹幕次数进行估计,估计的方法是邻居在近一个时间窗口内发送的广告弹幕次数乘以与邻居之间的紧密度,上述计算方法可以用矩阵表示:E(N=1)=PS;
由于一阶邻居的影响是最直接的,因此对最终的贡献权重为1,即:
w(N=1)=1
然后继续考虑各节点的二阶邻居,二阶邻居对节点的影响是间接的,因此二阶邻居对节点的紧密度需要通过当前节点和一阶邻居、一阶邻居和二阶邻居之间的紧密度进行传导。上述思想用矩阵表示为:
E(N=2)=PS2
由于二阶邻居的影响相比于一阶邻居要略小,为了让贡献权重与考虑的邻居阶数相挂钩,并且是一个递减的分布,因此:
于是,若考虑1阶邻居一直到C阶邻居对节点期望的影响,那么最终的期望次数是:
其中,是一个逐步递减的概率分布,设计的好处是对于一个目标,其邻居对它的影响是不同的,离它越近的邻居(k越小)影响越大。因此,可反映出各用户发生事件的概率大小,结合P,可获得各用户发布弹幕次数的期望,根据期望与阈值的比较,就可筛选出较大可能发送广告弹幕的用户。
具体的,所述常数C的确定方法为:
基于所述目标间的IP紧密度、设备紧密度和昵称紧密度,获得所述目标间的平均紧密度;
基于所述目标间的平均紧密度,获得所有目标的平均紧密度;
基于所述所有目标的平均紧密度,确定所述常数C。
具体的,所有目标的平均紧密度值越大说明目标之间的紧密程度越大,因此需要考虑更远的邻居,此时C应该更大。
接下来,执行S105,判断所述目标的发送广告弹幕次数期望是否大于次数阈值以及所述目标是否发送过广告弹幕。
作为一种可选的实施方式,在所述获取过去预设时间段内的目标基础标识数据之后,所述方法还包括:
基于所述目标基础标识数据,获得在过去一个时间窗口内目标平均发送广告弹幕次数;
基于所述目标平均发送广告弹幕次数,获得所述次数阈值。
具体的,目标平均发送广告弹幕次数越大,则次数阈值越大,因此次数阈值可反映送广告弹幕次数的标准。目标的发送广告弹幕次数期望反映出目标发送广告弹幕的概率,通过判断是否大于次数阈值,可区分是否为弹幕嫌疑目标。
接下来,执行S106,若所述目标的发送广告弹幕次数期望大于次数阈值,且所述目标未发送过广告弹幕,则将广告弹幕次数期望高于次数阈值且未发送过广告弹幕的目标识别为广告弹幕的发布者。
本申请的目的就是识别出还未发送过广告弹幕的发布者。
作为另一种可选的情况,在所述判断所述目标的发送广告弹幕次数期望是否大于次数阈值以及所述目标是否发送过广告弹幕之后,所述方法还包括:
若所述目标的发送广告弹幕次数期望小于等于次数阈值,且所述目标未发送过广告弹幕,则将广告弹幕次数期望小于等于所述次数阈值且未发送过广告弹幕的目标识别为正常目标。
在清楚了本发明的整体技术方案后,下面以一个具体的实例来进行再次说明。
现有三个目标:目标U1、目标U2和U3,
计算得到它们两两之间的紧密度是:
sim(U1,U2)=0.1
sim(U1,U3)=0.8
sim(U2,U3)=0.2,
在近一周内目标U3发的弹幕条数是5,U2和U1没有发过,于是:
P=(0 0 5)
取C=2,于是:
E=P(S+0.5S2)=(8.5 2.2 9.2)。
设置阈值6,可以发现U1对应的广告弹幕次数期望为8.5,高于这个阈值,因此U1为广告弹幕嫌疑目标(即识别为广告弹幕的发布者);而U2对应的广告弹幕次数期望为2.2,低于这个阈值,因此U2不是广告弹幕嫌疑目标。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
本实施例的方法,获取过去预设时间段内的目标基础标识数据,其中,所述目标基础标识数据包括目标IP信息、设备信息和发布者昵称信息;基于所述目标IP信息、设备信息和发布者昵称信息,获得目标间的IP紧密度、设备紧密度和昵称紧密度;基于所述目标间的IP紧密度、设备紧密度和昵称紧密度,获得所述目标间的紧密度;基于所述目标间的紧密度,获得所述目标的发送广告弹幕次数期望;判断所述目标的发送广告弹幕次数期望是否大于次数阈值以及所述目标是否发送过广告弹幕;若所述目标的发送广告弹幕次数期望大于次数阈值,且所述目标未发送过广告弹幕,则将广告弹幕次数期望高于次数阈值且未发送过广告弹幕的目标识别为广告弹幕的发布者。由于本发明的方法根据过去的历史数据获得目标紧密度,并通过紧密度获得目标的发送广告弹幕次数期望,发送广告弹幕次数期望可反映目标发送广告弹幕的概率,并与设置的次数阈值进行比较后,识别出最有可能发送广告弹幕的广告弹幕的发布者,可对还未发送广告弹幕,但发送广告弹幕次数期望较高的目标识别出来,做到了对广告弹幕发布者的事前识别;且该方法的紧密度考虑了目标IP、设备和昵称因素,获得的紧密度更准确,因此,发送广告弹幕次数期望也更准确,事前识别结果准确率更高,可有效降低广告弹幕出现的概率,从而显著减少直播屏幕的卡顿。
实施例二
基于与实施例一同样的发明构思,本实施例提供一种识别广告弹幕发布者的系统,参见图2,所述系统包括:
第一获取模块,用于获取过去预设时间段内的目标基础标识数据,其中,所述目标基础标识数据包括目标IP信息、设备信息和目标昵称信息;
第一获得模块,用于基于所述目标IP信息、设备信息和目标昵称信息,获得目标间的IP紧密度、设备紧密度和昵称紧密度;
第二获得模块,用于基于所述目标间的IP紧密度、设备紧密度和昵称紧密度,获得所述目标间的紧密度;
第三获得模块,用于基于所述目标间的紧密度,获得所述目标的发送广告弹幕次数期望;
判断模块,用于判断所述目标的发送广告弹幕次数期望是否高于次数阈值以及所述目标是否发送过广告弹幕;
识别模块,用于所述目标的发送广告弹幕次数期望高于次数阈值,且所述目标未发送过广告弹幕,则将广告弹幕次数期望高于次数阈值且未发送过广告弹幕的目标识别为广告弹幕的发布者。
由于本实施例所介绍的识别广告弹幕发布者的系统为实现本申请实施例一种识别广告弹幕发布者的方法所采用的系统,故而基于本申请实施例一中所介绍的识别广告弹幕发布者的方法,本领域所属技术人员能够了解本实施例的系统的具体实施方式以及其各种变化形式,所以在此对于如何利用本中的系统实现实施例一中的方法不再详细介绍。只要本领域所属技术人员用于实现本申请实施例中识别广告弹幕发布者的方法所采用的系统,都属于本申请所欲保护的范围。
基于与前述实施例中同样的发明构思,本发明实施例还提供一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文任一所述方法的步骤。
基于与前述实施例中同样的发明构思,本发明实施例还提供一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现前文任一所述方法的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种识别广告弹幕发布者的方法,其特征在于,所述方法包括:
获取过去预设时间段内的目标基础标识数据,其中,所述目标基础标识数据包括目标IP信息、设备信息和目标昵称信息;
基于所述目标IP信息、设备信息和目标昵称信息,获得目标间的IP紧密度、设备紧密度和昵称紧密度;
基于所述目标间的IP紧密度、设备紧密度和昵称紧密度,获得所述目标间的紧密度;
基于所述目标间的紧密度,获得所述目标的发送广告弹幕次数期望;
判断所述目标的发送广告弹幕次数期望是否大于次数阈值以及所述目标是否发送过广告弹幕;
若所述目标的发送广告弹幕次数期望大于次数阈值,且所述目标未发送过广告弹幕,则将广告弹幕次数期望高于次数阈值且未发送过广告弹幕的目标识别为广告弹幕的发布者。
2.如权利要求1所述的方法,其特征在于,所述基于所述目标IP信息、设备信息和目标昵称信息,获得目标间的IP紧密度、设备紧密度和昵称紧密度,具体包括:
基于所述目标IP信息,获得目标u与目标v的IP紧密度;其中,所述IP紧密度包括:
sim_ip(IPu,IPv)=0,表示目标u与目标v共用过0个IP;
sim_ip(IPu,IPv)=0.5,表示目标u与目标v共用过一个IP;
sim_ip(IPu,IPv)=1,表示目标u与目标v共用过两个或两个以上IP;
sim_ip(IPu,IPv)表示目标u与目标v的IP紧密度;
基于所述设备信息,获得目标u与目标v的设备紧密度;其中,所述设备紧密度包括:
sim_did(Du,Dv)=0,表示目标u与目标v共用过0个设备;
sim_did(Du,Dv)=1,表示目标u与目标v共用过一个或一个以上设备;
sim_did(Du,Dv)表示目标u与目标v间的设备紧密度;
基于所述目标昵称信息,获得目标u与目标v的昵称紧密度,包括:
将所述目标昵称中相同的字符类型转换成同一英文字母,获得昵称模式;其中,不同的字符类型转换成不同的英文字母;
基于所述昵称模式,获得昵称紧密度,所述昵称紧密度包括:
其中:
sim_nick(u,v)表示目标u与目标v的昵称紧密度;
levenstein(nicku,nickv)是目标u与目标v的昵称模式编辑距离;
length(nicku)是目标u的昵称模式字符串长度,length(nickv)是目标v的昵称模式字符串长度。
4.如权利要求3所述的方法,其特征在于,所述基于所述目标间的紧密度,获得所述目标的发送广告弹幕次数期望,具体包括:
基于所述目标间的紧密度,获得所述目标的紧密度矩阵;
基于所述紧密度矩阵,获得发送广告弹幕次数期望矩阵,其中,所述发送广告弹幕次数期望矩阵中包括目标的发送广告弹幕次数期望值;
所述发送广告弹幕次数期望矩阵包括:
其中:
P是所述目标在过去一个时间窗口内发送的广告弹幕次数矩阵,其维度是1*N,N表示所述过去一个时间窗口内发送过广告弹幕的目标总数;
E是发送广告弹幕次数期望矩阵,其维度是1*N;
S是目标的紧密度矩阵,其维度是N*N;
Sk是矩阵乘法,代表矩阵S的k次方;
k的取值范围为1~C,C为常数,取值范围为1~4。
5.如权利要求4所述的方法,其特征在于,所述常数C的确定方法为:
基于所述目标间的IP紧密度、设备紧密度和昵称紧密度,获得所述目标间的平均紧密度;
基于所述目标间的平均紧密度,获得所有目标的平均紧密度;
基于所述所有目标的平均紧密度,确定所述常数C。
6.如权利要求1所述的方法,其特征在于,在所述获取过去预设时间段内的目标基础标识数据之后,所述方法还包括:
基于所述目标基础标识数据,获得在过去一个时间窗口内目标平均发送广告弹幕次数;
基于所述目标平均发送广告弹幕次数,获得所述次数阈值。
7.如权利要求1所述的方法,其特征在于,在所述判断所述目标的发送广告弹幕次数期望是否大于次数阈值以及所述目标是否发送过广告弹幕之后,所述方法还包括:
若所述目标的发送广告弹幕次数期望小于等于次数阈值,且所述目标未发送过广告弹幕,则将广告弹幕次数期望小于等于所述次数阈值且未发送过广告弹幕的目标识别为正常目标。
8.一种识别广告弹幕发布者的系统,其特征在于,所述系统包括:
第一获取模块,用于获取过去预设时间段内的目标基础标识数据,其中,所述目标基础标识数据包括目标IP信息、设备信息和目标昵称信息;
第一获得模块,用于基于所述目标IP信息、设备信息和目标昵称信息,获得目标间的IP紧密度、设备紧密度和昵称紧密度;
第二获得模块,用于基于所述目标间的IP紧密度、设备紧密度和昵称紧密度,获得所述目标间的紧密度;
第三获得模块,用于基于所述目标间的紧密度,获得所述目标的发送广告弹幕次数期望;
判断模块,用于判断所述目标的发送广告弹幕次数期望是否高于次数阈值以及所述目标是否发送过广告弹幕;
识别模块,用于所述目标的发送广告弹幕次数期望高于次数阈值,且所述目标未发送过广告弹幕,则将广告弹幕次数期望高于次数阈值且未发送过广告弹幕的目标识别为广告弹幕的发布者。
9.一种可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。
10.一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910982059.8A CN112667961A (zh) | 2019-10-16 | 2019-10-16 | 一种识别广告弹幕发布者的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910982059.8A CN112667961A (zh) | 2019-10-16 | 2019-10-16 | 一种识别广告弹幕发布者的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112667961A true CN112667961A (zh) | 2021-04-16 |
Family
ID=75400258
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910982059.8A Pending CN112667961A (zh) | 2019-10-16 | 2019-10-16 | 一种识别广告弹幕发布者的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112667961A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113518262A (zh) * | 2021-07-09 | 2021-10-19 | 珠海云迈网络科技有限公司 | 广告弹幕发布者识别方法、装置、计算机设备及其存储介质 |
CN113536786A (zh) * | 2021-06-22 | 2021-10-22 | 深圳价值在线信息科技股份有限公司 | 混淆汉字的生成方法、终端设备及计算机可读存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005078372A (ja) * | 2003-08-29 | 2005-03-24 | It Service:Kk | コンテンツ配信装置及びコンテンツ配信方法 |
US20170140051A1 (en) * | 2015-11-16 | 2017-05-18 | Facebook, Inc. | Ranking and Filtering Comments Based on Labelling |
CN108174296A (zh) * | 2018-01-02 | 2018-06-15 | 武汉斗鱼网络科技有限公司 | 恶意用户识别方法及装置 |
CN108701038A (zh) * | 2017-01-24 | 2018-10-23 | 华为技术有限公司 | 一种终端展示广告的方法、终端及广告投放系统 |
CN109086422A (zh) * | 2018-08-08 | 2018-12-25 | 武汉斗鱼网络科技有限公司 | 一种机器弹幕用户的识别方法、装置、服务器和存储介质 |
CN109218838A (zh) * | 2017-06-30 | 2019-01-15 | 武汉斗鱼网络科技有限公司 | 一种提高弹幕信息安全性的方法、服务器及计算机设备 |
CN109450920A (zh) * | 2018-11-29 | 2019-03-08 | 北京奇艺世纪科技有限公司 | 一种异常账号检测方法及装置 |
CN109729436A (zh) * | 2017-10-31 | 2019-05-07 | 腾讯科技(深圳)有限公司 | 广告弹幕处理方法和装置 |
CN110113651A (zh) * | 2019-04-12 | 2019-08-09 | 北京奇艺世纪科技有限公司 | 一种弹幕回复方法、装置及电子设备 |
-
2019
- 2019-10-16 CN CN201910982059.8A patent/CN112667961A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005078372A (ja) * | 2003-08-29 | 2005-03-24 | It Service:Kk | コンテンツ配信装置及びコンテンツ配信方法 |
US20170140051A1 (en) * | 2015-11-16 | 2017-05-18 | Facebook, Inc. | Ranking and Filtering Comments Based on Labelling |
CN108701038A (zh) * | 2017-01-24 | 2018-10-23 | 华为技术有限公司 | 一种终端展示广告的方法、终端及广告投放系统 |
CN109218838A (zh) * | 2017-06-30 | 2019-01-15 | 武汉斗鱼网络科技有限公司 | 一种提高弹幕信息安全性的方法、服务器及计算机设备 |
CN109729436A (zh) * | 2017-10-31 | 2019-05-07 | 腾讯科技(深圳)有限公司 | 广告弹幕处理方法和装置 |
WO2019085948A1 (zh) * | 2017-10-31 | 2019-05-09 | 腾讯科技(深圳)有限公司 | 广告弹幕处理方法和装置 |
CN108174296A (zh) * | 2018-01-02 | 2018-06-15 | 武汉斗鱼网络科技有限公司 | 恶意用户识别方法及装置 |
CN109086422A (zh) * | 2018-08-08 | 2018-12-25 | 武汉斗鱼网络科技有限公司 | 一种机器弹幕用户的识别方法、装置、服务器和存储介质 |
CN109450920A (zh) * | 2018-11-29 | 2019-03-08 | 北京奇艺世纪科技有限公司 | 一种异常账号检测方法及装置 |
CN110113651A (zh) * | 2019-04-12 | 2019-08-09 | 北京奇艺世纪科技有限公司 | 一种弹幕回复方法、装置及电子设备 |
Non-Patent Citations (7)
Title |
---|
刘晓宇,王璐 等: "互联网+背景下网络视频直播发展模式探究", 声屏世界, vol. 2, pages 63 - 65 * |
张玉清;吕少卿;范丹;: "在线社交网络中异常帐号检测方法研究", 计算机学报, no. 10, pages 107 - 123 * |
张艳梅;黄莹莹;甘世杰;丁熠;马志龙;: "基于贝叶斯模型的微博网络水军识别算法研究", 通信学报, no. 01, pages 48 - 57 * |
李涛;王渔樵;肖智婕;: "社交网络水军识别的特征发现", 计算机工程与设计, no. 05, pages 22 - 25 * |
李金兰;: "有效进行直播平台的弹幕管理", 有线电视技术, no. 03, pages 98 - 100 * |
汤天甜;陈卓;: "弹幕的传播效果及其影响研究", 重庆大学学报(社会科学版), no. 05, pages 179 - 184 * |
芦天亮;: "互联网流量安全问题分析与对策", 中国人民公安大学学报(自然科学版), no. 02, pages 55 - 60 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113536786A (zh) * | 2021-06-22 | 2021-10-22 | 深圳价值在线信息科技股份有限公司 | 混淆汉字的生成方法、终端设备及计算机可读存储介质 |
CN113518262A (zh) * | 2021-07-09 | 2021-10-19 | 珠海云迈网络科技有限公司 | 广告弹幕发布者识别方法、装置、计算机设备及其存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108009915B (zh) | 一种欺诈用户社区的标记方法及相关装置 | |
US10135788B1 (en) | Using hypergraphs to determine suspicious user activities | |
US11373205B2 (en) | Identifying and punishing cheating terminals that generate inflated hit rates | |
CN106651458B (zh) | 一种广告反作弊方法和装置 | |
US20110296009A1 (en) | System and method for wavelets-based adaptive mobile advertising fraud detection | |
US9027127B1 (en) | Methods for detecting machine-generated attacks based on the IP address size | |
Xu et al. | Click fraud detection on the advertiser side | |
US20090012853A1 (en) | Inferring legitimacy of advertisement calls | |
CN112733045B (zh) | 用户行为的分析方法、装置及电子设备 | |
CN105260913A (zh) | 用于互联网广告投放的ctr预估方法、dsp服务器、系统 | |
CN112667961A (zh) | 一种识别广告弹幕发布者的方法及系统 | |
CN103248677A (zh) | 互联网行为分析系统及其工作方法 | |
Soldo et al. | Traffic anomaly detection based on the IP size distribution | |
CN110445772B (zh) | 一种基于主机关系的互联网主机扫描方法及系统 | |
US8719934B2 (en) | Methods, systems and media for detecting non-intended traffic using co-visitation information | |
CN110035053B (zh) | 用于检测欺诈性的用户-内容提供者对的方法和系统 | |
CN107612946B (zh) | Ip地址的检测方法、检测装置和电子设备 | |
CN108804501A (zh) | 一种检测有效信息的方法及装置 | |
CN106779899B (zh) | 恶意订单识别方法及装置 | |
CN109587248B (zh) | 用户识别方法、装置、服务器及存储介质 | |
CN110222297B (zh) | 一种标签用户的识别方法以及相关设备 | |
KR20150111027A (ko) | 광고 제공 장치 및 방법 | |
CN111369281A (zh) | 线上消息处理方法、装置、设备及可读存储介质 | |
CN110324339A (zh) | 基于信息熵的DDoS攻击检测方法、装置和电子设备 | |
US11620675B2 (en) | Detector, detection method, and detection program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |