CN110366045B

CN110366045B - 机器弹幕用户识别方法、存储介质、电子设备及系统

Info

Publication number: CN110366045B
Application number: CN201810311309.0A
Authority: CN
Inventors: 王璐; 陈少杰; 张文明
Original assignee: Wuhan Douyu Network Technology Co Ltd
Current assignee: Wuhan Douyu Network Technology Co Ltd
Priority date: 2018-04-09
Filing date: 2018-04-09
Publication date: 2021-07-23
Anticipated expiration: 2038-04-09
Also published as: CN110366045A

Abstract

本发明公开了一种机器弹幕用户识别方法、存储介质、电子设备及系统，涉及大数据风控领域，该方法包括基于刷弹幕风控业务经验确定用户的划分属性，并将相同划分属性的用户划分至同一子空间；对弹幕发送用户间的相似性进行度量；对用户的刷弹幕可疑程度进行计算；对用户是否为机器弹幕用户进行判断。本发明通过行为聚集性找到那些潜在的风险用户，判断方式简单且准确性高，有效避免误判情况的产生。

Description

机器弹幕用户识别方法、存储介质、电子设备及系统

技术领域

本发明涉及大数据风控领域，具体涉及一种机器弹幕用户识别方法、存储介质、电子设备及系统。

背景技术

在直播平台上，往往存在使用机器手段刷弹幕的舞弊行为，这种虚假的发弹幕行为严重影响了直播平台的正常秩序。而这些机器弹幕从内容上看和正常弹幕相比并没有什么异常，机器会模仿正常用户的弹幕文本，因此识别这些机器弹幕行为存在一定的难度。采用脚本由机器自动发送的弹幕文本为机器弹幕。

一般识别异常发弹幕行为的方法是采用一些强规则，这些规则是通过一些较为明显的异常进行识别的，比如：多个设备公用一个账号发送弹幕，那么这个账号肯定是有较大作弊嫌疑的。采用强规则的方法虽然可以识别出一些风险用户，但是在实际操作的过程中，为了避免误杀会将规则设置的非常严格，因此强规则手段只能找到那些具有明显特征的作弊用户，而容易遗漏那些特征不明显的嫌疑用户，识别准确率较低。

发明内容

针对现有技术中存在的缺陷，本发明的目的在于提供一种机器弹幕用户识别方法，通过行为聚集性找到那些潜在的风险用户，判断方式简单且准确性高，有效避免误判情况的产生。

为达到以上目的，本发明采取的技术方案是，包括：

基于刷弹幕风控业务经验确定用户的划分属性，并将相同划分属性的用户划分至同一子空间；

对弹幕发送用户间的相似性进行度量，计算公式为：

其中，w_uv是用户u和用户v之间的相似度得分，R_u是用户u发送过弹幕的直播间集合，R_v是用户v发送过弹幕的直播间集合，I_u是用户u使用过的登录IP地址集合，I_v是用户v使用过的登录IP地址集合，D_u是用户u发送弹幕使用过的设备集合，D_v是用户v发送弹幕使用过的设备集合，x_ui是用户u发送弹幕时的第i个特征，x_vi是用户v发送弹幕时的第i个特征，N是用户u和用户v发送弹幕时总的特征数，w_i(i＝1,2,3,4)是权重系数，取值范围为0～1，且满足

对用户u的刷弹幕可疑程度S_u进行计算，计算公式为：

其中，当w_ui≥ξ时，u和v属于E，ξ为设定的可疑程度计算阈值；

若NormS_u≥η，则用户u为机器弹幕用户，其中η为设定的机器弹幕判断阈值。

在上述技术方案的基础上，所述划分属性为机器弹幕用户发送弹幕时的相关特征。

在上述技术方案的基础上，机器弹幕用户发送弹幕时的相关特征包括：弹幕内容为纯数字、用户名为纯数字、用户名为纯字母、用户名为数字和字母的组合以及弹幕内容文本。

在上述技术方案的基础上，用户发送弹幕时的特征包括登陆地、登陆设备、弹幕文本长度和弹幕文本内容。

在上述技术方案的基础上，弹幕发送相似性进行度量的两用户属于同一子空间。

本发明还提供一种存储介质，该存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的方法。

本发明还提供一种电子设备，包括存储器和处理器，存储器上储存有在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述所述的方法。

本发明还提供一种机器弹幕用户识别系统，包括：

划分模块，其用于基于刷弹幕风控业务经验确定用户的划分属性，并将相同划分属性的用户划分至同一子空间；

相似性计算模块，其用于对弹幕发送用户间的相似性进行度量，计算公式为：

可疑程度计算模块，其用于对用户u的刷弹幕可疑程度S_u进行计算，计算公式为：

判断模块，其用于当NormS_u≥η时，则判断用户u为机器弹幕用户，其中η为设定的机器弹幕用户判断阈值。

与现有技术相比，本发明的优点在于：基于刷弹幕风控业务经验确定用户的划分属性，将相同划分属性的用户划分至同一子空间，然后对弹幕发送用户间的相似性进行度量，对用户的刷弹幕可疑程度进行计算并判断，通过行为聚集性找到那些潜在的风险用户，判断方式简单且准确性高，有效避免误判情况的产生。

附图说明

图1为本发明实施例中一种机器弹幕用户识别方法的流程图；

图2为本发明实施例中一种电子设备的结构示意图。

具体实施方式

以下结合附图及实施例对本发明作进一步详细说明。

参见图1所示，本发明实施例提供一种机器弹幕用户识别方法，基于子空间划分的方式对机器弹幕用户进行识别，因刷弹幕的非法用户的某些行为特征具有一定的聚集性，通过子空间划分可以通过关键属性对用户做一个初步的分组，然后根据用户之间的相似性确定嫌疑用户。本发明实施例的机器弹幕用户识别方法具体包括：

S1：基于刷弹幕风控业务经验确定用户的划分属性，并将相同划分属性的用户划分至同一子空间。划分属性为机器弹幕用户发送弹幕时的相关特征，机器弹幕用户发送弹幕时的相关特征包括：弹幕内容为纯数字、用户名为纯数字、用户名为纯字母、用户名为数字和字母的组合以及弹幕内容文本。根据直播平台以往对机器弹幕用户特征的收集形成划分属性，然后基于划分属性对平台的所有用户进行分组。

S2：对弹幕发送用户间的相似性进行度量，计算公式为：

其中，w_uv是用户u和用户v之间的相似度得分，弹幕发送相似性进行度量的两用户属于同一子空间，R_u是用户u发送过弹幕的直播间集合，R_v是用户v发送过弹幕的直播间集合，I_u是用户u使用过的登录IP地址集合，I_v是用户v使用过的登录IP地址集合，D_u是用户u发送弹幕使用过的设备集合，D_v是用户v发送弹幕使用过的设备集合，x_ui是用户u发送弹幕时的第i个特征，x_vi是用户v发送弹幕时的第i个特征，N是用户u和用户v发送弹幕时总的特征数，用户发送弹幕时的特征包括登陆地、登陆设备、弹幕文本长度和弹幕文本内容等等，凡是与弹幕相关的特征均属于用户发送弹幕时的特征，w_i(i＝1,2,3,4)是权重系数，取值范围为0～1，且满足

S3：对用户u的刷弹幕可疑程度S_u进行计算，计算公式为：

其中，当w_ui≥ξ时，u和v属于E，ξ为设定的可疑程度计算阈值，用于找出属于E的u和v，方便对用户u的刷弹幕可疑程度S_u进行计算，ξ的值根据实际情景灵活设定。

S5：若NormS_u≥η，则用户u为机器弹幕用户，否则，用户u不为机器弹幕用户，其中η为设定的机器弹幕用户判断阈值，η的值也是根据实际情景和实际工作经验灵活设定。

本发明实施例的机器弹幕用户识别方法，基于刷弹幕风控业务经验确定用户的划分属性，将相同划分属性的用户划分至同一子空间，然后对弹幕发送用户间的相似性进行度量，对用户的刷弹幕可疑程度进行计算并判断，通过行为聚集性找到那些潜在的风险用户，判断方式简单且准确性高，有效避免误判情况的产生。

另外，对应上述机器弹幕用户识别方法，本发明还提供一种存储介质，存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述各实施例所述的机器弹幕用户识别方法的步骤。需要说明的是，所述存储介质包括U盘、移动硬盘、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、磁碟或者光盘等各种可以存储程序代码的介质。

参见图2所示，对应上述机器弹幕用户识别方法，本发明还提供一种电子设备，包括存储器和处理器，存储器上储存有在处理器上运行的计算机程序，处理器执行计算机程序时实现上述各实施例的机器弹幕用户识别方法。

本发明还提供一种基于上述机器弹幕用户识别方法的机器弹幕用户识别系统，包括划分模块、相似性计算模块、可疑程度计算模块和判断模块。

划分模块用于基于刷弹幕风控业务经验确定用户的划分属性，并将相同划分属性的用户划分至同一子空间；相似性计算模块用于对弹幕发送用户间的相似性进行度量，计算公式为：

可疑程度计算模块用于对用户u的刷弹幕可疑程度S_u进行计算，计算公式为：

判断模块用于当NormS_u≥η时，则判断用户u为机器弹幕用户，其中η为设定的机器弹幕用户判断阈值。

划分属性为机器弹幕用户发送弹幕时的相关特征。弹幕发送相似性进行度量的两用户属于同一子空间弹幕发送相似性进行度量的两用户属于同一子空间。

本发明实施例的机器弹幕用户识别系统，划分模块基于刷弹幕风控业务经验确定用户的划分属性，将相同划分属性的用户划分至同一子空间，然后相似性计算模块对弹幕发送用户间的相似性进行度量，对用户的刷弹幕可疑程度进行计算并判断，通过行为聚集性找到那些潜在的风险用户，判断方式简单且准确性高，有效避免误判情况的产生。

本发明不局限于上述实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种机器弹幕用户识别方法，其特征在于，包括以下步骤：

对弹幕发送用户间的相似性进行度量，计算公式为：

对用户u的刷弹幕可疑程度S_u进行计算，计算公式为：

其中，当w_ui≥ξ时，u和v属于E，ξ为设定的可疑程度计算阈值，弹幕发送相似性进行度量的两用户属于同一子空间，E表示子空间，u和v属于E用于表示用户u和用户v属于同一子空间；

若NormS_u≥η，则用户u为机器弹幕用户，其中η为设定的机器弹幕用户判断阈值。

2.如权利要求1所述的一种机器弹幕用户识别方法，其特征在于：所述划分属性为机器弹幕用户发送弹幕时的相关特征，所述相关特征包括：弹幕内容为纯数字、用户名为纯数字、用户名为纯字母、用户名为数字和字母的组合以及弹幕内容文本。

3.如权利要求1所述的一种机器弹幕用户识别方法，其特征在于：用户发送弹幕时的特征包括登陆地、登陆设备、弹幕文本长度和弹幕文本内容。

4.一种存储介质，该存储介质上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至3任一项所述的方法。

5.一种电子设备，包括存储器和处理器，存储器上储存有在处理器上运行的计算机程序，其特征在于：所述处理器执行所述计算机程序时实现权利要求1至3任一项所述的方法。

6.一种机器弹幕用户识别系统，其特征在于，包括：

7.如权利要求6所述的一种机器弹幕用户识别系统，其特征在于：所述划分属性为机器弹幕用户发送弹幕时的相关特征，所述相关特征包括：弹幕内容为纯数字、用户名为纯数字、用户名为纯字母、用户名为数字和字母的组合以及弹幕内容文本。