CN110366045B - 机器弹幕用户识别方法、存储介质、电子设备及系统 - Google Patents
机器弹幕用户识别方法、存储介质、电子设备及系统 Download PDFInfo
- Publication number
- CN110366045B CN110366045B CN201810311309.0A CN201810311309A CN110366045B CN 110366045 B CN110366045 B CN 110366045B CN 201810311309 A CN201810311309 A CN 201810311309A CN 110366045 B CN110366045 B CN 110366045B
- Authority
- CN
- China
- Prior art keywords
- user
- bullet screen
- barrage
- machine
- bullet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/478—Supplemental services, e.g. displaying phone caller identification, shopping application
- H04N21/4788—Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种机器弹幕用户识别方法、存储介质、电子设备及系统,涉及大数据风控领域,该方法包括基于刷弹幕风控业务经验确定用户的划分属性,并将相同划分属性的用户划分至同一子空间;对弹幕发送用户间的相似性进行度量;对用户的刷弹幕可疑程度进行计算;对用户是否为机器弹幕用户进行判断。本发明通过行为聚集性找到那些潜在的风险用户,判断方式简单且准确性高,有效避免误判情况的产生。
Description
技术领域
本发明涉及大数据风控领域,具体涉及一种机器弹幕用户识别方法、存储介质、电子设备及系统。
背景技术
在直播平台上,往往存在使用机器手段刷弹幕的舞弊行为,这种虚假的发弹幕行为严重影响了直播平台的正常秩序。而这些机器弹幕从内容上看和正常弹幕相比并没有什么异常,机器会模仿正常用户的弹幕文本,因此识别这些机器弹幕行为存在一定的难度。采用脚本由机器自动发送的弹幕文本为机器弹幕。
一般识别异常发弹幕行为的方法是采用一些强规则,这些规则是通过一些较为明显的异常进行识别的,比如:多个设备公用一个账号发送弹幕,那么这个账号肯定是有较大作弊嫌疑的。采用强规则的方法虽然可以识别出一些风险用户,但是在实际操作的过程中,为了避免误杀会将规则设置的非常严格,因此强规则手段只能找到那些具有明显特征的作弊用户,而容易遗漏那些特征不明显的嫌疑用户,识别准确率较低。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种机器弹幕用户识别方法,通过行为聚集性找到那些潜在的风险用户,判断方式简单且准确性高,有效避免误判情况的产生。
为达到以上目的,本发明采取的技术方案是,包括:
基于刷弹幕风控业务经验确定用户的划分属性,并将相同划分属性的用户划分至同一子空间;
对弹幕发送用户间的相似性进行度量,计算公式为:
其中,wuv是用户u和用户v之间的相似度得分,Ru是用户u发送过弹幕的直播间集合,Rv是用户v发送过弹幕的直播间集合,Iu是用户u使用过的登录IP地址集合,Iv是用户v使用过的登录IP地址集合,Du是用户u发送弹幕使用过的设备集合,Dv是用户v发送弹幕使用过的设备集合,xui是用户u发送弹幕时的第i个特征,xvi是用户v发送弹幕时的第i个特征,N是用户u和用户v发送弹幕时总的特征数,wi(i=1,2,3,4)是权重系数,取值范围为0~1,且满足
对用户u的刷弹幕可疑程度Su进行计算,计算公式为:
其中,当wui≥ξ时,u和v属于E,ξ为设定的可疑程度计算阈值;
若NormSu≥η,则用户u为机器弹幕用户,其中η为设定的机器弹幕判断阈值。
在上述技术方案的基础上,所述划分属性为机器弹幕用户发送弹幕时的相关特征。
在上述技术方案的基础上,机器弹幕用户发送弹幕时的相关特征包括:弹幕内容为纯数字、用户名为纯数字、用户名为纯字母、用户名为数字和字母的组合以及弹幕内容文本。
在上述技术方案的基础上,用户发送弹幕时的特征包括登陆地、登陆设备、弹幕文本长度和弹幕文本内容。
在上述技术方案的基础上,弹幕发送相似性进行度量的两用户属于同一子空间。
本发明还提供一种存储介质,该存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的方法。
本发明还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述所述的方法。
本发明还提供一种机器弹幕用户识别系统,包括:
划分模块,其用于基于刷弹幕风控业务经验确定用户的划分属性,并将相同划分属性的用户划分至同一子空间;
相似性计算模块,其用于对弹幕发送用户间的相似性进行度量,计算公式为:
其中,wuv是用户u和用户v之间的相似度得分,Ru是用户u发送过弹幕的直播间集合,Rv是用户v发送过弹幕的直播间集合,Iu是用户u使用过的登录IP地址集合,Iv是用户v使用过的登录IP地址集合,Du是用户u发送弹幕使用过的设备集合,Dv是用户v发送弹幕使用过的设备集合,xui是用户u发送弹幕时的第i个特征,xvi是用户v发送弹幕时的第i个特征,N是用户u和用户v发送弹幕时总的特征数,wi(i=1,2,3,4)是权重系数,取值范围为0~1,且满足
可疑程度计算模块,其用于对用户u的刷弹幕可疑程度Su进行计算,计算公式为:
其中,当wui≥ξ时,u和v属于E,ξ为设定的可疑程度计算阈值;
判断模块,其用于当NormSu≥η时,则判断用户u为机器弹幕用户,其中η为设定的机器弹幕用户判断阈值。
在上述技术方案的基础上,所述划分属性为机器弹幕用户发送弹幕时的相关特征。
在上述技术方案的基础上,弹幕发送相似性进行度量的两用户属于同一子空间。
与现有技术相比,本发明的优点在于:基于刷弹幕风控业务经验确定用户的划分属性,将相同划分属性的用户划分至同一子空间,然后对弹幕发送用户间的相似性进行度量,对用户的刷弹幕可疑程度进行计算并判断,通过行为聚集性找到那些潜在的风险用户,判断方式简单且准确性高,有效避免误判情况的产生。
附图说明
图1为本发明实施例中一种机器弹幕用户识别方法的流程图;
图2为本发明实施例中一种电子设备的结构示意图。
具体实施方式
以下结合附图及实施例对本发明作进一步详细说明。
参见图1所示,本发明实施例提供一种机器弹幕用户识别方法,基于子空间划分的方式对机器弹幕用户进行识别,因刷弹幕的非法用户的某些行为特征具有一定的聚集性,通过子空间划分可以通过关键属性对用户做一个初步的分组,然后根据用户之间的相似性确定嫌疑用户。本发明实施例的机器弹幕用户识别方法具体包括:
S1:基于刷弹幕风控业务经验确定用户的划分属性,并将相同划分属性的用户划分至同一子空间。划分属性为机器弹幕用户发送弹幕时的相关特征,机器弹幕用户发送弹幕时的相关特征包括:弹幕内容为纯数字、用户名为纯数字、用户名为纯字母、用户名为数字和字母的组合以及弹幕内容文本。根据直播平台以往对机器弹幕用户特征的收集形成划分属性,然后基于划分属性对平台的所有用户进行分组。
S2:对弹幕发送用户间的相似性进行度量,计算公式为:
其中,wuv是用户u和用户v之间的相似度得分,弹幕发送相似性进行度量的两用户属于同一子空间,Ru是用户u发送过弹幕的直播间集合,Rv是用户v发送过弹幕的直播间集合,Iu是用户u使用过的登录IP地址集合,Iv是用户v使用过的登录IP地址集合,Du是用户u发送弹幕使用过的设备集合,Dv是用户v发送弹幕使用过的设备集合,xui是用户u发送弹幕时的第i个特征,xvi是用户v发送弹幕时的第i个特征,N是用户u和用户v发送弹幕时总的特征数,用户发送弹幕时的特征包括登陆地、登陆设备、弹幕文本长度和弹幕文本内容等等,凡是与弹幕相关的特征均属于用户发送弹幕时的特征,wi(i=1,2,3,4)是权重系数,取值范围为0~1,且满足
S3:对用户u的刷弹幕可疑程度Su进行计算,计算公式为:
其中,当wui≥ξ时,u和v属于E,ξ为设定的可疑程度计算阈值,用于找出属于E的u和v,方便对用户u的刷弹幕可疑程度Su进行计算,ξ的值根据实际情景灵活设定。
S5:若NormSu≥η,则用户u为机器弹幕用户,否则,用户u不为机器弹幕用户,其中η为设定的机器弹幕用户判断阈值,η的值也是根据实际情景和实际工作经验灵活设定。
本发明实施例的机器弹幕用户识别方法,基于刷弹幕风控业务经验确定用户的划分属性,将相同划分属性的用户划分至同一子空间,然后对弹幕发送用户间的相似性进行度量,对用户的刷弹幕可疑程度进行计算并判断,通过行为聚集性找到那些潜在的风险用户,判断方式简单且准确性高,有效避免误判情况的产生。
另外,对应上述机器弹幕用户识别方法,本发明还提供一种存储介质,存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述各实施例所述的机器弹幕用户识别方法的步骤。需要说明的是,所述存储介质包括U盘、移动硬盘、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、磁碟或者光盘等各种可以存储程序代码的介质。
参见图2所示,对应上述机器弹幕用户识别方法,本发明还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,处理器执行计算机程序时实现上述各实施例的机器弹幕用户识别方法。
本发明还提供一种基于上述机器弹幕用户识别方法的机器弹幕用户识别系统,包括划分模块、相似性计算模块、可疑程度计算模块和判断模块。
划分模块用于基于刷弹幕风控业务经验确定用户的划分属性,并将相同划分属性的用户划分至同一子空间;相似性计算模块用于对弹幕发送用户间的相似性进行度量,计算公式为:
其中,wuv是用户u和用户v之间的相似度得分,Ru是用户u发送过弹幕的直播间集合,Rv是用户v发送过弹幕的直播间集合,Iu是用户u使用过的登录IP地址集合,Iv是用户v使用过的登录IP地址集合,Du是用户u发送弹幕使用过的设备集合,Dv是用户v发送弹幕使用过的设备集合,xui是用户u发送弹幕时的第i个特征,xvi是用户v发送弹幕时的第i个特征,N是用户u和用户v发送弹幕时总的特征数,wi(i=1,2,3,4)是权重系数,取值范围为0~1,且满足
可疑程度计算模块用于对用户u的刷弹幕可疑程度Su进行计算,计算公式为:
其中,当wui≥ξ时,u和v属于E,ξ为设定的可疑程度计算阈值;
判断模块用于当NormSu≥η时,则判断用户u为机器弹幕用户,其中η为设定的机器弹幕用户判断阈值。
划分属性为机器弹幕用户发送弹幕时的相关特征。弹幕发送相似性进行度量的两用户属于同一子空间弹幕发送相似性进行度量的两用户属于同一子空间。
本发明实施例的机器弹幕用户识别系统,划分模块基于刷弹幕风控业务经验确定用户的划分属性,将相同划分属性的用户划分至同一子空间,然后相似性计算模块对弹幕发送用户间的相似性进行度量,对用户的刷弹幕可疑程度进行计算并判断,通过行为聚集性找到那些潜在的风险用户,判断方式简单且准确性高,有效避免误判情况的产生。
本发明不局限于上述实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
Claims (7)
1.一种机器弹幕用户识别方法,其特征在于,包括以下步骤:
基于刷弹幕风控业务经验确定用户的划分属性,并将相同划分属性的用户划分至同一子空间;
对弹幕发送用户间的相似性进行度量,计算公式为:
其中,wuv是用户u和用户v之间的相似度得分,Ru是用户u发送过弹幕的直播间集合,Rv是用户v发送过弹幕的直播间集合,Iu是用户u使用过的登录IP地址集合,Iv是用户v使用过的登录IP地址集合,Du是用户u发送弹幕使用过的设备集合,Dv是用户v发送弹幕使用过的设备集合,xui是用户u发送弹幕时的第i个特征,xvi是用户v发送弹幕时的第i个特征,N是用户u和用户v发送弹幕时总的特征数,wi(i=1,2,3,4)是权重系数,取值范围为0~1,且满足
对用户u的刷弹幕可疑程度Su进行计算,计算公式为:
其中,当wui≥ξ时,u和v属于E,ξ为设定的可疑程度计算阈值,弹幕发送相似性进行度量的两用户属于同一子空间,E表示子空间,u和v属于E用于表示用户u和用户v属于同一子空间;
若NormSu≥η,则用户u为机器弹幕用户,其中η为设定的机器弹幕用户判断阈值。
2.如权利要求1所述的一种机器弹幕用户识别方法,其特征在于:所述划分属性为机器弹幕用户发送弹幕时的相关特征,所述相关特征包括:弹幕内容为纯数字、用户名为纯数字、用户名为纯字母、用户名为数字和字母的组合以及弹幕内容文本。
3.如权利要求1所述的一种机器弹幕用户识别方法,其特征在于:用户发送弹幕时的特征包括登陆地、登陆设备、弹幕文本长度和弹幕文本内容。
4.一种存储介质,该存储介质上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至3任一项所述的方法。
5.一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1至3任一项所述的方法。
6.一种机器弹幕用户识别系统,其特征在于,包括:
划分模块,其用于基于刷弹幕风控业务经验确定用户的划分属性,并将相同划分属性的用户划分至同一子空间;
相似性计算模块,其用于对弹幕发送用户间的相似性进行度量,计算公式为:
其中,wuv是用户u和用户v之间的相似度得分,Ru是用户u发送过弹幕的直播间集合,Rv是用户v发送过弹幕的直播间集合,Iu是用户u使用过的登录IP地址集合,Iv是用户v使用过的登录IP地址集合,Du是用户u发送弹幕使用过的设备集合,Dv是用户v发送弹幕使用过的设备集合,xui是用户u发送弹幕时的第i个特征,xvi是用户v发送弹幕时的第i个特征,N是用户u和用户v发送弹幕时总的特征数,wi(i=1,2,3,4)是权重系数,取值范围为0~1,且满足
可疑程度计算模块,其用于对用户u的刷弹幕可疑程度Su进行计算,计算公式为:
其中,当wui≥ξ时,u和v属于E,ξ为设定的可疑程度计算阈值,弹幕发送相似性进行度量的两用户属于同一子空间,E表示子空间,u和v属于E用于表示用户u和用户v属于同一子空间;
判断模块,其用于当NormSu≥η时,则判断用户u为机器弹幕用户,其中η为设定的机器弹幕用户判断阈值。
7.如权利要求6所述的一种机器弹幕用户识别系统,其特征在于:所述划分属性为机器弹幕用户发送弹幕时的相关特征,所述相关特征包括:弹幕内容为纯数字、用户名为纯数字、用户名为纯字母、用户名为数字和字母的组合以及弹幕内容文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810311309.0A CN110366045B (zh) | 2018-04-09 | 2018-04-09 | 机器弹幕用户识别方法、存储介质、电子设备及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810311309.0A CN110366045B (zh) | 2018-04-09 | 2018-04-09 | 机器弹幕用户识别方法、存储介质、电子设备及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110366045A CN110366045A (zh) | 2019-10-22 |
CN110366045B true CN110366045B (zh) | 2021-07-23 |
Family
ID=68212047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810311309.0A Active CN110366045B (zh) | 2018-04-09 | 2018-04-09 | 机器弹幕用户识别方法、存储介质、电子设备及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110366045B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113472627B (zh) * | 2020-03-31 | 2023-04-25 | 阿里巴巴集团控股有限公司 | 电子邮件处理方法、装置及设备 |
CN114302216B (zh) * | 2021-08-25 | 2024-03-22 | 上海哔哩哔哩科技有限公司 | 一种弹幕处理方法、装置、设备及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105657475A (zh) * | 2016-03-15 | 2016-06-08 | 武汉斗鱼网络科技有限公司 | 一种直播网站中将用户进行分组的方法及装置 |
CN105791255A (zh) * | 2014-12-23 | 2016-07-20 | 阿里巴巴集团控股有限公司 | 基于账户聚类的计算机风险识别方法及其系统 |
CN106022826A (zh) * | 2016-05-18 | 2016-10-12 | 武汉斗鱼网络科技有限公司 | 一种网络直播平台中的作弊用户识别方法与系统 |
CN107222780A (zh) * | 2017-06-23 | 2017-09-29 | 中国地质大学(武汉) | 一种直播平台综合状态感知和内容实时监管方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060015904A1 (en) * | 2000-09-08 | 2006-01-19 | Dwight Marcus | Method and apparatus for creation, distribution, assembly and verification of media |
-
2018
- 2018-04-09 CN CN201810311309.0A patent/CN110366045B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105791255A (zh) * | 2014-12-23 | 2016-07-20 | 阿里巴巴集团控股有限公司 | 基于账户聚类的计算机风险识别方法及其系统 |
CN105657475A (zh) * | 2016-03-15 | 2016-06-08 | 武汉斗鱼网络科技有限公司 | 一种直播网站中将用户进行分组的方法及装置 |
CN106022826A (zh) * | 2016-05-18 | 2016-10-12 | 武汉斗鱼网络科技有限公司 | 一种网络直播平台中的作弊用户识别方法与系统 |
CN107222780A (zh) * | 2017-06-23 | 2017-09-29 | 中国地质大学(武汉) | 一种直播平台综合状态感知和内容实时监管方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110366045A (zh) | 2019-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10785241B2 (en) | URL attack detection method and apparatus, and electronic device | |
CN110177094B (zh) | 一种用户团体识别方法、装置、电子设备及存储介质 | |
WO2019136850A1 (zh) | 风险行为识别方法、存储介质、设备及系统 | |
CN110099059B (zh) | 一种域名识别方法、装置及存储介质 | |
CN110851835A (zh) | 图像模型检测方法、装置、电子设备及存储介质 | |
GB2581741A (en) | Cognitive virtual detector | |
JP6697123B2 (ja) | プロファイル生成装置、攻撃検知装置、プロファイル生成方法、および、プロファイル生成プログラム | |
US20140243077A1 (en) | Apparatus and method of analyzing game characteristics/attributes for cheating user detection using game characteristics/attributes | |
WO2019057048A1 (zh) | 一种低频爬虫识别方法、装置、可读存储介质及设备 | |
CN105224600B (zh) | 一种样本相似度的检测方法及装置 | |
CN110362996B (zh) | 一种离线检测PowerShell恶意软件的方法与系统 | |
CN109995750B (zh) | 网络攻击的防御方法及电子设备 | |
CN110366045B (zh) | 机器弹幕用户识别方法、存储介质、电子设备及系统 | |
CN111787002B (zh) | 一种业务数据网络安全分析的方法及系统 | |
CN107426136B (zh) | 一种网络攻击的识别方法和装置 | |
CN112468487B (zh) | 实现模型训练的方法、装置、实现节点检测的方法及装置 | |
CN110798463A (zh) | 基于信息熵的网络隐蔽信道的检测方法及装置 | |
CN106301979B (zh) | 检测异常渠道的方法和系统 | |
US20220400133A1 (en) | Information leakage detection method and device using the same | |
CN112882797A (zh) | 一种基于机器学习的容器安全检测方法 | |
CN113204974A (zh) | 对抗文本的生成方法、装置、设备及存储介质 | |
CN116015703A (zh) | 模型训练方法、攻击检测方法及相关装置 | |
CN111885011A (zh) | 一种业务数据网络安全分析挖掘的方法及系统 | |
US11956256B2 (en) | Priority determination apparatus, priority determination method, and computer readable medium | |
CN115664868A (zh) | 安全等级确定方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |