CN106341703A

CN106341703A - 弹幕处理方法及装置

Info

Publication number: CN106341703A
Application number: CN201610786302.5A
Authority: CN
Inventors: 刘健
Original assignee: LeTV Holding Beijing Co Ltd; LeTV Sports Culture Develop Beijing Co Ltd
Current assignee: LeTV Holding Beijing Co Ltd; LeTV Sports Culture Develop Beijing Co Ltd
Priority date: 2016-08-30
Filing date: 2016-08-30
Publication date: 2017-01-18

Abstract

本发明提供的一种弹幕处理方法及装置，涉及网络技术领域，在处理垃圾弹幕的过程中，可以提高垃圾弹幕清理的效率和准确性。所述方法包括：获取预置时间段内用户发布的第一弹幕数据；从所述第一弹幕数据中提取符合预设条件的用户发布的第二弹幕数据；检测所述第二弹幕数据中弹幕信息之间的平均相似度是否大于或等于预设阈值；若所述平均相似度大于或等于所述预设阈值，则对与所述第二弹幕数据对应的用户进行封禁。

Description

弹幕处理方法及装置

技术领域

本发明涉及网络技术领域，尤其涉及一种弹幕处理方法及装置。

背景技术

随着网络技术的发展，用户可以在视频播放过程中发送弹幕，弹幕是指大量以字幕形式显示的评论同时出现的现象。然而随着弹幕的普及，垃圾弹幕也越来越多，垃圾弹幕主要包括广告、骂人和无意义的刷屏等弹幕，垃圾弹幕严重影响了正常用户的互动。为了让观众可以更好的进行互动，就需要对垃圾弹幕进行清理。

目前在清理垃圾弹幕的过程中，可以通过人工封禁方式进行垃圾弹幕清理。然而，发明人在实现发明的过程中发现了当垃圾弹幕数量庞大时，通过上述人工封禁的方式，往往难以迅速封禁垃圾弹幕，会造成清理垃圾弹幕的效率较低，并且人工封禁容易出现误操作，进而影响了垃圾弹幕清理的准确性。

发明内容

有鉴于此，本发明实施例提供了一种弹幕处理方法及装置，用以解决现有技术中当垃圾弹幕数量庞大时，通过人工封禁方式，会造成清理垃圾弹幕的效率和准确性较低的问题。

针对现有技术存在的问题，本发明实施例提供了一种弹幕处理方法，包括：

获取预置时间段内用户发布的第一弹幕数据；

从所述第一弹幕数据中提取符合预设条件的用户发布的第二弹幕数据；

检测所述第二弹幕数据中弹幕信息之间的平均相似度是否大于或等于预设阈值；

若所述平均相似度大于或等于所述预设阈值，则对与所述第二弹幕数据对应的用户进行封禁。

本发明实施例提供了一种弹幕处理装置，包括：

获取单元，用于获取预置时间段内用户发布的第一弹幕数据；

提取单元，用于从所述第一弹幕数据中提取符合预设条件的用户发布的第二弹幕数据

检测单元，用于检测所述第二弹幕数据中弹幕信息之间的平均相似度是否大于或等于预设阈值；

封禁单元，用于若所述平均相似度大于或等于所述预设阈值，则对与所述第二弹幕数据对应的用户进行封禁。

本发明实施例提供的一种弹幕处理方法及装置，首先获取预置时间段内用户发布的第一弹幕数据，然后从所述第一弹幕数据中提取符合预设条件的用户发布的第二弹幕数据，再检测所述第二弹幕数据中弹幕信息之间的平均相似度是否大于或等于预设阈值，若所述平均相似度大于或等于所述预设阈值，则对与所述第二弹幕数据对应的用户进行封禁。与目前通过人工方式进行封禁弹幕相比，本发明实施例在清理垃圾弹幕的过程中，通过获取预置时间段内用户发布的第一弹幕数据，筛选出符合预设条件的用户发布的第二数据，通过检测第二弹幕数据中弹幕信息之间的平均相似度是否超过预设阈值，进而判断是否对与所述第二弹幕数据对应的用户进行封禁，从而可以实现自动进行垃圾弹幕的清理，提高了垃圾弹幕清理的效率和准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种弹幕处理方法流程示意图；

图2为本发明实施例提供的另一种弹幕处理方法流程示意图；

图3为本发明实施例提供的一种弹幕处理装置结构示意图；

图4为本发明实施例提供的一种弹幕处理装置的实体结构示意图；

图5为本发明实施例提供的另一种弹幕处理装置结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种弹幕处理方法，可以提高垃圾弹幕清理的效率和准确性，如图1所示，所述方法包括：

101、获取预置时间段内用户发布的第一弹幕数据。

其中，所述弹幕可以为直播视频弹幕、网络点播视频弹幕、游戏弹幕等，本发明实施例不做限定。所述预置时间段可以根据不同情况进行设定，具体可以根据弹幕数量确定，所述第一弹幕数据可以为预置时间段内所有用户发布的全部弹幕，具体可以为中文、符号、英文等弹幕。

需要说明的是，对于本发明实施例的执行主体可以为配置在网络服务器中用于清理垃圾弹幕的弹幕处理装置，对网络服务器中接收到的弹幕信息进行监控，确定需要封禁的用户并及时进行封禁处理，清理垃圾弹幕，以便提高用户的观看体验。

例如，某直播游戏平台每分钟会收到500条弹幕信息，预置时间段的时长可以设定为30秒，当弹幕处理装置需要对平台接收到的弹幕数据进行分析，确定需要封禁的用户时，可以获取最近30秒内平台接收到的所有用户的弹幕数据。

102、从所述第一弹幕数据中提取符合预设条件的用户发布的第二弹幕数据。

其中，所述预设条件可以根据不同情况进行设定，具体可以为弹幕内容、字符长度、发送弹幕频率等条件，本发明实施例不做限定。所述第二弹幕数据可以为符合预设条件的单个用户在预置时间段内发布的弹幕数据。

例如，通过弹幕处理装置对游戏视频平台接收到的弹幕信息进行监控，预设条件可以设定为1分钟内发布10条以上弹幕信息，且发布的这10条以上弹幕信息的字符数都大于或等于10；在弹幕处理的过程中，该弹幕处理装置获取最近1分钟内平台接收到的所有用户的弹幕数据，并从该弹幕数据中确定这1分钟内发布了15条弹幕信息，且发布的这15条弹幕信息的字符数都大于或等于10的用户a，获取用户a这1分钟内发布的这15条弹幕信息。

103、检测所述第二弹幕数据中弹幕信息之间的平均相似度是否大于或等于预设阈值。

其中，所述相似度根据类编辑距离进行计算，类编辑距离是指两个字符串之间，由一个转换成另一个所需的最少编辑操作次数。所述预设阈值可以根据实际情况进行设置，例如可以设置为0.5、0.8、0.95等。所述平均相似度可以为第二弹幕数据中每两条弹幕信息之间的相似度的平均值。

例如，从第一弹幕数据中提取符合预设条件的第二弹幕数据，为用户b在一分钟内所发送的5条弹幕数据，该5条弹幕数据中每两条弹幕的相似度分别为0.93、0.84、0.82、0.91、0.95、0.87、0.93、0.88、0.91、0.86，将所得10个相似度值相加并除以10得到的平均值0.89，即为第二弹幕数据中弹幕信息之间的平均相似度。

104、若所述平均相似度大于或等于所述预设阈值，则对与所述第二弹幕数据对应的用户进行封禁。

其中，所述封禁可以为有限封禁，如1天、3天、一个月等，也可以为无限期封禁，本发明实施例不做限定。

例如，获取45s内用户发布的第一弹幕数据，预设条件为45s内发布4条以上弹幕信息，且发布的这4条以上弹幕信息的字符数都大于或等于8，此时从该第一弹幕数据中提取符合预设条件的第二弹幕数据，为用户c发布的6条弹幕消息且这6条弹幕消息的字符数都大于8，检测到这6条弹幕信息之间的平均相似度为0.95，大于预设阈值0.92，此时对用户c进行封禁，以便其他用户看不到用户c发布的弹幕内容。

本发明实施例提供的一种弹幕处理方法，首先获取预置时间段内用户发布的第一弹幕数据，然后从所述第一弹幕数据中提取符合预设条件的用户发布的第二弹幕数据，再检测所述第二弹幕数据中弹幕信息之间的平均相似度是否大于或等于预设阈值，若所述平均相似度大于或等于所述预设阈值，则对与所述第二弹幕数据对应的用户进行封禁。与目前通过人工方式进行封禁弹幕相比，本发明实施例在清理垃圾弹幕的过程中，通过获取预置时间段内用户发布的第一弹幕数据，筛选出符合预设条件的用户发布的第二数据，通过检测第二弹幕数据中弹幕信息之间的平均相似度是否超过预设阈值，进而判断是否对与所述第二弹幕数据对应的用户进行封禁，从而可以实现自动进行垃圾弹幕的清理，提高了垃圾弹幕清理的效率和准确性。

为了更好的对上述图1所示的方法进行理解，作为对上述实施方式的细化和扩展，本发明实施例提供了另一种弹幕处理方法，如图2所示，所述方法包括：

201、获取预置时间段内用户发布的第一弹幕数据。

其中，所述预置时间段、第一弹幕数据的概念解释可以参考步骤101中相应描述，在此不再赘述。

202、从所述第一弹幕数据中确定弹幕发布次数大于或等于预设次数阈值的用户对应的标识信息。

其中，所述预设次数阈值可以根据实际情况进行设定，可以为3次、5次、10次等，本发明实施例不做限定。所述用户对应的标识信息是指每个用户唯一对应的UID(UserIdentification，用户识别)。

例如，第一弹幕数据中含有用户1发布的三条“加油啊”、“快点跟上去”、“有没有要组队的”、“为什么你们都这么厉害呢”弹幕，用户2发布的一条“膜拜”弹幕，用户3发布的两条“学习”、“小心后方”弹幕，预设次数阈值为3次，所以用户1发布弹幕4次大于3次，则从第一弹幕数据中确定与该用户1对应的标识信息。

203、当与所述标识信息对应的第二弹幕数据中存在的预定比例条数弹幕信息的弹幕内容长度都大于或等于预定长度阈值时，提取所述第二弹幕数据。

其中，所述预定比例条数可以根据具体情况进行设定，可以为用户发布总弹幕数量的二分之一、三分之一等。所述预设长度阈值可以根据实际情况设置，可以为5个字符、10个字符等。例如，用户a对应的第二弹幕数据为“每天大神带队杀庄//”、“每天大神带队杀庄{{”、“每天大神带队杀庄++”、“每天大神带队杀庄％％”、“来啊”，共五条弹幕，预设长度阈值为5个字符，预订比例为五分之二，则用户a对应的第二弹幕数据中存在四条超过预定长度阈值的弹幕，此时提取用户a对应的第二弹幕数据。

对于本发明实施例，首先从提取到的第一弹幕数据中检测发布弹幕频率较高的用户，然后检测与所提取的用户对应的第二弹幕数据，若第二弹幕数据中存在的预定比例条数弹幕信息的弹幕内容长度都大于或等于预定长度阈值，说明该用户发布的大部分弹幕信息内容都比较长，该用户可能为连续发送垃圾弹幕的用户，需要提取与该用户相应的第二弹幕数据进行检测分析，以便进一步确定该用户是否为发送垃圾弹幕的用户。

204、计算所述第二弹幕数据中任意两条弹幕信息之间的相似度。

具体地，通过预设类编辑距离相似度函数，计算所述第二弹幕数据中任意两条弹幕信息之间的相似度。其中，所述预设类编辑距离相似度函数可以由技术人员根据类编辑距离相似度算法进行编写配置。所述类编辑距离是指两个字符串之间，由一个转换成另一个所需的最少编辑操作次数。

所述类编辑距离相似度算法具体是指：将一个字符替换成另一个字符的类编辑距离为2；插入一个字符的类编辑距离为1；删除一个字符的类编辑距离为1。所述相似度的计算方法具体是指通过相似度计算公式r＝(sum-ldist)/sum进行计算，其中sum是指字符串1和字符串2长度总和，ldist是类编辑距离。

例如，字符串sitting和kitten之间，类编辑距离ldist为5，字符串长度总和sum为13,则字符串sitting和kitten之间的相似度为r＝(13-5)/13＝8/13。

对于本发明实施例，可以由技术人员根据类编辑距离的计算方法进行预先编写配置，当接收到所提取的第二弹幕数据时，根据所述预先编写配置的类编辑距离的计算方法计算所述第二弹幕数据中任意两条弹幕信息之间的相似度。

205、将计算得到的相似度进行求和并除以相似度个数，得到所述第二弹幕数据中弹幕信息之间的平均相似度。

其中，所述相似度均可以通过类编辑距离相似度计算方法进行计算。例如，第二弹幕数据中共有4条弹幕消息，分别为天天快飞咕噜噜、天天快飞咕噜噜[[、天天快飞咕噜噜\\、天天快飞咕噜噜￥，通过类编辑距离相似度计算方法分别计算出每两条弹幕之间的相似度为0.875、0.875、0.933、0.778、0.824、0.875，将得到的六个相似度相加并除以6，得到该第二弹幕数据中弹幕信息之间的平均相似度为0.860。

206、检测计算得到的所述平均相似度是否大于或等于预设阈值。

例如，通过计算得到第二数据的平均相似度为0.75，预设阈值为0.83，检测计算得到的平均相似度小于预设阈值。

207、若所述平均相似度大于或等于所述预设阈值，则对与所述第二弹幕数据对应的用户进行封禁。

通常垃圾弹幕往往具有以下特点：1、发送频率非常高(大量)；2、大部分弹幕的意义相同。例如，一个用户会在一段时间内发送大量意义相同的弹幕。针对垃圾弹幕的特点，在本发明实施例中，从提取的预置时间段内的第一弹幕数据中，筛选发送弹幕频繁的用户并检测筛选出的用户发送的弹幕内容的相似度，根据计算出的相似度确定是否对用户进行封禁，可以通过用户频繁发送弹幕且发送弹幕内容相似两个方面确认用户发送的弹幕为垃圾弹幕，从而可以确保垃圾弹幕清理的准确性。

进一步地，为了告警临近被封禁的用户，让该用户放弃发送垃圾弹幕行为，所述方法还可以包括：检测所述第二弹幕数据中弹幕信息之间的平均相似度是否大于或等于预定告警阈值且小于所述预设阈值。

其中，所述预定告警阈值可以根据具体情况进行设定，为小于所述预设阈值的数值。例如，第二弹幕数据中弹幕信息之间的平均相似度的预设阈值为0.85，则可以设定预定告警阈值为0.8。

若所述平均相似度大于或等于所述预定告警阈值且小于所述预设阈值，则对与所述第二弹幕数据对应的用户客户端发送告警信息。其中，所述告警信息可以为文字告警信息、图片告警信息、音频告警信息、视屏告警信息等，本发明实施例不做限定。例如，检测到第二弹幕数据中弹幕信息之间的平均相似度为0.89，预定告警阈值为0.86，预设阈值为0.9，则该第二弹幕信息之间的平均相似度大于预定告警阈值且小于预设阈值，则对与该第二弹幕数据对应的用户客户端发送告警信息。

对于本发明实施例，当用户发送的弹幕消息频繁且发送弹幕内容相似度较高时，通过对用户所发送的弹幕内容进行检测，并及时向用户发出告警信息，此时若为正常用户发送的弹幕消息，可以在收到告警信息时及时调整弹幕消息，从而可以避免因误发垃圾弹幕而被封禁，进而可以提高垃圾弹幕清理的准确性。

本发明实施例提供的另一种弹幕处理方法，获取预置时间段内用户发布的第一弹幕数据；从所述第一弹幕数据中确定弹幕发布次数大于或等于预设次数阈值的用户对应的标识信息，当与所述标识信息对应的第二弹幕数据中存在的预定比例条数弹幕信息的弹幕内容长度都大于或等于预定长度阈值时，提取所述第二弹幕数据；计算所述第二弹幕数据中弹幕信息之间的平均相似度，若所述平均相似度大于或等于所述预定告警阈值且小于所述预设阈值，则对与所述第二弹幕数据对应的用户客户端发送告警信息；若所述平均相似度大于或等于所述预设阈值，则对与所述第二弹幕数据对应的用户进行封禁。与目前通过人工方式进行封禁弹幕相比，本发明实施例在清理垃圾弹幕的过程中，通过获取预置时间段内用户发布的第一弹幕数据，筛选出符合预设条件的用户发布的第二数据，通过检测第二弹幕数据中弹幕信息之间的平均相似度是否超过预设阈值，进而判断是否对与所述第二弹幕数据对应的用户进行封禁，从而可以实现自动进行垃圾弹幕的清理，提高了垃圾弹幕清理的效率和准确性。

进一步地，作为图1所述方法的具体实现，本发明实施例提供了一种弹幕处理装置，如图3所示，所述装置包括：获取单元31、提取单元32、检测单元33、封禁单元34。

所述获取单元31，可以用于获取预置时间段内用户发布的第一弹幕数据。所述获取单元31为本装置中获取弹幕数据的主要功能模块。

所述提取单元32，可以用于从所述第一弹幕数据中提取符合预设条件的用户发布的第二弹幕数据。所述提取单元32为本装置中提取第二弹幕数据的主要功能模块，并触发检测单元33进行相关工作。

所述检测单元33，可以用于检测所述第二弹幕数据中弹幕信息之间的平均相似度是否大于或等于预设阈值。所述检测单元33为本装置中用于检测提取单元32提取的第二弹幕数据的主要功能模块。

所述封禁单元34，可以用于若所述平均相似度大于或等于所述预设阈值，则对与所述第二弹幕数据对应的用户进行封禁。所述封禁单元34为本装置中用于封禁发送垃圾弹幕的用户的主要功能模块。

需要说明的是，本发明实施例提供的一种弹幕处理装置所涉及各功能单元的其他相应描述，可以参考图1中的对应描述，在此不再赘述。本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。

示例性的，如图4所示，图4示出了本发明实施例提供的一种弹幕处理装置的实体结构示意图，该弹幕处理装置可以包括：处理器(processor)41、通信接口(CommunicationsInterface)42、存储器(memory)43和总线44，其中，处理器41、通信接口42、存储器43通过总线44完成相互间的通信。通信接口42可以用于服务器与客户端之间的信息传输。处理器41可以调用存储器43中的逻辑指令，以执行如下方法：获取预置时间段内用户发布的第一弹幕数据；从所述第一弹幕数据中提取符合预设条件的用户发布的第二弹幕数据；检测所述第二弹幕数据中弹幕信息之间的平均相似度是否大于或等于预设阈值；若所述平均相似度大于或等于所述预设阈值，则对与所述第二弹幕数据对应的用户进行封禁。

此外，上述的存储器43中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例提供的一种弹幕处理装置，可以配置在网络终端设备中，具体包括获取单元、提取单元、检测单元、封禁单元，获取预置时间段内用户发布的第一弹幕数据；从所述第一弹幕数据中提取符合预设条件的用户发布的第二弹幕数据；检测所述第二弹幕数据中弹幕信息之间的平均相似度是否大于或等于预设阈值；若所述平均相似度大于或等于所述预设阈值，则对与所述第二弹幕数据对应的用户进行封禁。与目前通过人工方式进行封禁弹幕相比，本发明实施例在清理垃圾弹幕的过程中，通过获取预置时间段内用户发布的第一弹幕数据，筛选出符合预设条件的用户发布的第二数据，通过检测第二弹幕数据中弹幕信息之间的平均相似度是否超过预设阈值，进而判断是否对与所述第二弹幕数据对应的用户进行封禁，从而可以实现自动进行垃圾弹幕的清理，提高了垃圾弹幕清理的效率和准确性。

进一步地，作为图2所述方法的具体实现，本发明实施例提供了另一种弹幕处理装置，如图5所示，所述装置包括：获取单元51、提取单元52、检测单元53、封禁单元54。

所述获取单元51，可以用于获取预置时间段内用户发布的第一弹幕数据。所述获取单元51为本装置中获取弹幕数据的主要功能模块。

所述提取单元52，可以用于从所述第一弹幕数据中提取符合预设条件的用户发布的第二弹幕数据。所述提取单元52为本装置中提取第二弹幕数据的主要功能模块，并触发检测单元53进行相关工作。

所述检测单元53，可以用于检测所述第二弹幕数据中弹幕信息之间的平均相似度是否大于或等于预设阈值。所述检测单元53为本装置中用于检测提取单元52提取的第二弹幕数据的主要功能模块。

所述封禁单元54，可以用于若所述平均相似度大于或等于所述预设阈值，则对与所述第二弹幕数据对应的用户进行封禁。所述封禁单元54为本装置中用于封禁发送垃圾弹幕的用户的主要功能模块。

具体地，所述提取单元52包括：确定模块5201、提取模块5202。

所述确定模块5201，可以用于从所述第一弹幕数据中确定弹幕发布次数大于或等于预设次数阈值的用户对应的标识信息；

所述提取模块5202，可以用于当与所述标识信息对应的第二弹幕数据中存在的预定比例条数弹幕信息的弹幕内容长度都大于或等于预定长度阈值时，提取所述第二弹幕数据。

进一步地，所述装置还包括：计算单元55。

所述计算单元55，可以用于计算所述第二弹幕数据中任意两条弹幕信息之间的相似度。

具体地，将计算得到的相似度进行求和并除以相似度个数，得到所述第二弹幕数据中弹幕信息之间的平均相似度。

进一步地，所述检测单元53，具体用于检测计算得到的所述平均相似度是否大于或等于预设阈值；

所述封禁单元54，具体用于若所述平均相似度大于或等于所述预设阈值，则对与所述第二弹幕数据对应的用户进行封禁。

进一步地，所述装置还包括：发送单元56。

所述检测单元53，还可以用于检测所述第二弹幕数据中弹幕信息之间的平均相似度是否大于或等于预定告警阈值且小于所述预设阈值；

所述发送单元56，可以用于若所述平均相似度大于或等于所述预定告警阈值且小于所述预设阈值，则对与所述第二弹幕数据对应的用户客户端发送告警信息。

需要说明的是，本发明实施例提供的另一种弹幕处理装置所涉及各功能单元的其他相应描述，可以参考图2中的对应描述，在此不再赘述。本发明实施例中可以通过硬件处理器来实现相关功能模块。

本发明实施例提供的另一种弹幕处理装置，可以配置在虚拟现实设备中，具体包括获取单元、提取单元、检测单元、封禁单元、计算单元、发送单元等。获取预置时间段内用户发布的第一弹幕数据；从所述第一弹幕数据中确定弹幕发布次数大于或等于预设次数阈值的用户对应的标识信息，当与所述标识信息对应的第二弹幕数据中存在的预定比例条数弹幕信息的弹幕内容长度都大于或等于预定长度阈值时，提取所述第二弹幕数据；计算所述第二弹幕数据中弹幕信息之间的平均相似度，若所述平均相似度大于或等于所述预定告警阈值且小于所述预设阈值，则对与所述第二弹幕数据对应的用户客户端发送告警信息；若所述平均相似度大于或等于所述预设阈值，则对与所述第二弹幕数据对应的用户进行封禁。与目前通过人工方式进行封禁弹幕相比，本发明实施例在清理垃圾弹幕的过程中，通过获取预置时间段内用户发布的第一弹幕数据，筛选出符合预设条件的用户发布的第二数据，通过检测第二弹幕数据中弹幕信息之间的平均相似度是否超过预设阈值，进而判断是否对与所述第二弹幕数据对应的用户进行封禁，从而可以实现自动进行垃圾弹幕的清理，提高了垃圾弹幕清理的效率和准确性。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种弹幕处理方法，其特征在于，包括：

获取预置时间段内用户发布的第一弹幕数据；

2.根据权利要求1所述的弹幕处理方法，其特征在于，所述从所述第一弹幕数据中提取符合预设条件的用户发布的第二弹幕数据，具体包括：

从所述第一弹幕数据中确定弹幕发布次数大于或等于预设次数阈值的用户对应的标识信息；

当与所述标识信息对应的第二弹幕数据中存在的预定比例条数弹幕信息的弹幕内容长度都大于或等于预定长度阈值时，提取所述第二弹幕数据。

3.根据权利要求1所述的弹幕处理方法，所述检测所述第二弹幕数据中弹幕信息之间的平均相似度是否大于或等于预设阈值之前，所述方法还包括：

计算所述第二弹幕数据中任意两条弹幕信息之间的相似度；

将计算得到的相似度进行求和并除以相似度个数，得到所述第二弹幕数据中弹幕信息之间的平均相似度；

所述检测所述第二弹幕数据中弹幕信息之间的平均相似度是否大于或等于预设阈值，具体包括：

检测计算得到的所述平均相似度是否大于或等于预设阈值。

4.根据权利要求3所述的弹幕处理方法，所述计算所述第二弹幕数据中任意两条弹幕信息之间的相似度，具体包括：

通过预设类编辑距离相似度函数，计算所述第二弹幕数据中任意两条弹幕信息之间的相似度。

5.根据权利要求1所述的弹幕处理方法，所述方法还包括：

检测所述第二弹幕数据中弹幕信息之间的平均相似度是否大于或等于预定告警阈值且小于所述预设阈值；

若所述平均相似度大于或等于所述预定告警阈值且小于所述预设阈值，则对与所述第二弹幕数据对应的用户客户端发送告警信息。

6.一种弹幕处理装置，其特征在于，包括：

提取单元，用于从所述第一弹幕数据中提取符合预设条件的用户发布的第二弹幕数据；

7.根据权利要求6所述的弹幕处理装置，其特征在于，所述提取单元包括：

确定模块，用于从所述第一弹幕数据中确定弹幕发布次数大于或等于预设次数阈值的用户对应的标识信息；

提取模块，用于当与所述标识信息对应的第二弹幕数据中存在的预定比例条数弹幕信息的弹幕内容长度都大于或等于预定长度阈值时，提取所述第二弹幕数据。

8.根据权利要求6所述的弹幕处理装置，其特征在于，所述装置还包括：计算单元；

所述计算单元，用于计算所述第二弹幕数据中任意两条弹幕信息之间的相似度；

所述检测单元，具体用于检测计算得到的所述平均相似度是否大于或等于预设阈值。

9.根据权利要求8所述的弹幕处理装置，其特征在于，

所述计算单元，具体用于通过预设类编辑距离相似度函数，计算所述第二弹幕数据中任意两条弹幕信息之间的相似度。

10.根据权利要求6所述的弹幕处理装置，其特征在于，所述装置还包括：发送单元；

所述检测单元，还用于检测所述第二弹幕数据中弹幕信息之间的平均相似度是否大于或等于预定告警阈值且小于所述预设阈值；

所述发送单元，用于若所述平均相似度大于或等于所述预定告警阈值且小于所述预设阈值，则对与所述第二弹幕数据对应的用户客户端发送告警信息。