CN110166847B

CN110166847B - 弹幕处理方法和装置

Info

Publication number: CN110166847B
Application number: CN201910567655.XA
Authority: CN
Inventors: 单斌
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2021-07-23
Anticipated expiration: 2039-06-27
Also published as: CN110166847A

Abstract

本申请公开了一种弹幕处理方法和装置，该方法包括：从视频关联的多条弹幕中，确定待分析的目标弹幕及该目标弹幕在该视频中的弹出时刻；依据该目标弹幕的弹出时刻，确定该视频中待分析的时间区间；获取该视频中处于该时间区间内的字幕文本；确定该目标弹幕与该字幕文本的相似性；结合该相似性，确定该目标弹幕的质量等级，该质量等级用于表征该目标弹幕能够用于辅助分析该视频的可用程度表达视频的内容的准确程度。本申请的方案有利于于从视频关联的大量弹幕中识别出高质量的弹幕。

Description

弹幕处理方法和装置

技术领域

本申请涉及视频分析技术领域，尤其涉及一种弹幕处理方法和装置。

背景技术

弹幕是指在网络上观看视频时弹出的评论性字幕。

由于弹幕可以反映出用户对于所观看的视频的观点，因此，通过分析视频关联的弹幕，可以实现更为全面、精准的视频分析。如，结合视频关联的弹幕，总结视频的标题或者概括视频的内容等等。

然而，虽然视频关联的弹幕的数量较大，但是并不是所有的弹幕都属于可用于分析视频的高质量弹幕。如，有些弹幕的内容可能是与视频完全无关的内容，那么利用这些弹幕来分析视频则可能会导致视频分析结果存在误差。可见，如何从视频关联的大量弹幕中选取出高质量的弹幕是本领域技术人员迫切需要解决的技术问题。

发明内容

有鉴于此，本申请提供了一种弹幕处理方法和装置，以有利于从视频关联的大量弹幕中识别出高质量的弹幕。

为实现上述目的，一方面，本申请提供了一种弹幕处理方法，包括：

从视频关联的多条弹幕中，确定待分析的目标弹幕及所述目标弹幕在所述视频中的弹出时刻；

依据所述目标弹幕的弹出时刻，确定所述视频中待分析的时间区间；

获取所述视频中处于所述时间区间内的字幕文本；

确定所述目标弹幕与所述字幕文本的相似性；

结合参数，确定所述目标弹幕的质量等级，所述参数至少包括所述相似性，所述质量等级用于表征所述目标弹幕能够表达所述视频的内容的准确程度。

优选的，在确定所述目标弹幕的质量等级之前，还包括：

获取所述视频中处于所述时间区间内的弹幕集合，所述时间区间包括所述弹出时刻，所述弹幕集合包括所述目标弹幕；

基于所述弹幕集合中每条弹幕的弹幕语义，对所述弹幕集合中的弹幕进行聚类，得到聚类出的至少一个聚类组；

根据所述弹幕集合中包含的弹幕的总数量以及所述目标弹幕所在的聚类组中包含的弹幕的弹幕数量，确定所述目标弹幕所在的聚类组对应的话题量，所述目标弹幕所在的聚类组属于所述至少一个聚类组；

所述参数还包括：所述目标弹幕所在的聚类组对应的话题量。

优选的，所述根据所述弹幕集合中包含的弹幕的总数量以及所述目标弹幕所在的聚类组中包含的弹幕的弹幕数量，确定所述目标弹幕所在的聚类组对应的话题量，包括：

依据所述弹幕集合中包含的弹幕的总数量以及目标弹幕所在的聚类组中包含的弹幕的弹幕数量，计算所述目标弹幕所在的聚类组的信息熵；

依据所述目标弹幕所在聚类组的信息熵，确定所述目标弹幕所在聚类组对应的话题量。

优选的，在所述确定所述目标弹幕的质量等级之前，还包括：

基于所述目标弹幕的文本，确定所述目标弹幕的至少一种语言学特征，所述至少一种语言学特征包括：语言丰富度、词汇量、通顺度、合理性、合规性和热度，其中，所述词汇量为所述目标弹幕中属于预置词库中的目标词对应的出现频率；所述通顺度为利用预先训练得到的语言模型得到，且用于评价所述目标弹幕中各个字符之间顺序关系的评价分数；所述合理性为基于所述目标弹幕中属于预置的不合理词库中的词的数量得到；所述合规性为基于所述目标弹幕中属于设定的敏感词汇的数量得到；热度为基于所述目标弹幕中出现的热点词汇的数量得到；

根据所述目标弹幕的至少一种语言学特征，确定所述目标弹幕的语言学特征评分；

所述参数还包括：所述目标弹幕的语言学特征评分。

优选的，在所述参数包括所述相似性、所述目标弹幕所在的聚类组对应的话题量以及所述目标弹幕的语言学特征评分的情况下，所述结合所述参数，确定所述目标弹幕的质量等级，包括：

按照设定的相似性的加权系数、话题量的加权系数以及语言学特征评分的加权系数，对所述相似性、所述目标弹幕所在的聚类组对应的话题量以及所述目标弹幕的语言学特征评分进行加权求和，得到所述目标弹幕的质量评分。

优选的，还包括：

存储所述目标弹幕的质量等级；

接收弹幕查询请求，所述弹幕查询请求用于请求获取与所述视频关联的且能够用于分析所述视频的弹幕；

响应于所述弹幕查询请求，依据视频中各条弹幕的质量等级，获取所述视频关联的且质量等级不低于设定等级的弹幕。

又一方面，本申请还提供了一种弹幕处理装置，包括：

目标确定单元，用于从视频关联的多条弹幕中，确定待分析的目标弹幕及所述目标弹幕在所述视频中的弹出时刻；

区间确定单元，用于依据所述目标弹幕的弹出时刻，确定所述视频中待分析的时间区间；

文本获取单元，用于获取所述视频中处于所述时间区间内的字幕文本；

相似性匹配单元，用于确定所述目标弹幕与所述字幕文本的相似性；

等级确定单元，用于结合参数，确定所述目标弹幕的质量等级，所述参数至少包括：所述相似性；所述质量等级用于表征所述目标弹幕能够表达所述视频的内容的准确程度。

优选的，该装置还可以包括：

集合获取单元，用于在所述等级确定单元确定所述目标弹幕的质量等级之前，获取所述视频中处于所述时间区间内的弹幕集合，所述时间区间包括所述弹出时刻，所述弹幕集合包括所述目标弹幕；

弹幕聚类单元，用于基于所述弹幕集合中每条弹幕的弹幕语义，对所述弹幕集合中的弹幕进行聚类，得到聚类出的至少一个聚类组；

话题确定单元，用于根据所述弹幕集合中包含的弹幕的总数量以及所述目标弹幕所在的聚类组中包含的弹幕的弹幕数量，确定所述目标弹幕所在的聚类组对应的话题量，所述目标弹幕所在的聚类组属于所述至少一个聚类组；

所述等级确定单元中所述参数还包括：所述目标弹幕所在的聚类组对应的话题量。

优选的，所述话题确定单元，包括：

熵计算子单元，用于依据该弹幕集合中包含的弹幕的总数量以及目标弹幕所在的聚类组中包含的弹幕的弹幕数量，计算所述目标弹幕所在的聚类组的信息熵；

话题确定子单元，用于依据所述目标弹幕所在聚类组的信息熵，确定所述目标弹幕所在的聚类组对应的话题量。

优选的，该装置还可以包括：

语言特征确定单元，用于在所述等级确定单元确定所述目标弹幕的质量等级之前，基于所述目标弹幕的文本，确定所述目标弹幕的至少一种语言学特征，所述至少一种语言学特征包括：语言丰富度、词汇量、通顺度、合理性、合规性和热度，其中，所述词汇量为所述目标弹幕中属于预置词库中的目标词对应的出现频率；所述通顺度为利用预先训练得到的语言模型得到，且用于评价所述目标弹幕中各个字符之间顺序关系的评价分数；所述合理性为基于所述目标弹幕中属于预置的不合理词库中的词的数量得到；所述合规性为基于所述目标弹幕中属于设定的敏感词汇的数量得到；热度为基于所述目标弹幕中出现的热点词汇的数量得到；

语言特征评分单元，用于根据所述目标弹幕的至少一种语言学特征，确定所述目标弹幕的语言学特征评分；

所述等级确定单元中所述参数还包括：所述目标弹幕的语言学特征评分。

可见，在本申请实施例中，会根据弹幕的弹出时刻，确定视频中与该弹幕相关的时间区间，并获取视频中处于该时间区间内的字幕文本，然后基于该弹幕与该字幕文本的相似性，由于视频中字幕文本可以反映出视频的内容，因此，弹幕与该字幕文本的相似性可以表征该弹幕与该视频中内容的关联程度。在此基础上，结合该相似性确定出的该目标弹幕的质量等级便可以反映出该目标弹幕能够准确表达视频的程度，也就可以反映弹幕能够用于分析视频的可用程度，因此，依据弹幕的质量等级便可以有利于识别出视频中高质量的弹幕，从而有利于基于高质量弹幕提高视频分析的可靠性和精准度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本申请一种弹幕处理方法的一种流程示意图；

图2为本申请一种弹幕处理方法的又一种流程示意图；

图3为本申请一种弹幕处理方法的又一种流程示意图；

图4为本申请一种弹幕处理装置的一种组成结构示意图。

具体实施方式

本申请的方案适用于分析视频关联的弹幕的质量，以有利于选取出高质量的弹幕，从而有利于结合高质量弹幕进行视频分析，进而提升计算机设备结合弹幕对视频的理解。

为了便于理解，以本申请的一种应用场景进行介绍。

在需要对视频(尤其是长视频)进行文字性总结时，如结合视频内容确定视频标题或者概括视频内容。为了能够较为全面反映视频的内容，需要进行较为细粒度的概括总结。而由于视频的弹幕是对用户在观看视频的过程中，所表达的观点，其可以表达用户对于视频内容的概括和评价，因此，结合弹幕可以实现对视频更为细粒度的概率总结。

在此基础上，通过本申请的方案可以从视频关联的大量弹幕中，选取出质量等级较高的弹幕。其中，高质量的弹幕与视频的关联性更高，更能够准确反映视频的内容及对视频内容的评价，从而更为有利于对视频的概括总结。

当然，以上仅仅是以基于弹幕对视频分析的一种应用场景为例说明，在实际应用中，还可以基于弹幕分析视频精彩度等等，本申请对此不加限制。

本申请的方案适用于任意具有数据处理能力的计算机设备，如笔记本电脑、台式电脑以及服务器等等。

下面结合附图对本申请实施例的方案进行介绍。

如图1，其示出了本申请一种弹幕处理方法的一种流程示意图，本实施例的方法可以包括：

S101，从视频关联的多条弹幕中，确定待分析的目标弹幕及该目标弹幕在该视频中的弹出时刻。

其中，视频关联的弹幕是指收集到的该视频播放过程中所弹出的弹幕。如，通过收集不同网站服务器历史播放该视频过程中所播放的弹幕的数据，便可以得到该视频关联的所有弹幕。

可以理解的是，为了分析出视频关联的弹幕中的高质量弹幕，需要对视频关联的所有弹幕分别分析。在实际应用中，可以逐条分析各条弹幕，也可以是并行分析多条弹幕，具体可以根据需要设定。为了便于区分，本申请将视频关联的弹幕中，当前待分析的弹幕称为目标弹幕。

可选的，在获取到视频关联的多条弹幕之后，还可以对多条弹幕进行过滤，以过滤到一些时长过短或者仅仅包含表情符号而并未包含文字的弹幕等。

其中，弹幕的弹出时刻是指在视频播放过程中，弹幕被输出到该视频上显示时所对应的视频播放时刻，可见，弹幕对应的弹出时刻对应了播放该弹幕时，该视频播放到的时刻。如，视频播放到第15分30秒时，在该视频的上层弹出了用户输入的一条弹幕，则该弹幕在视频中的播放时刻为该视频的第15分30秒。

可以理解的是，在用户通过网站服务器浏览视频的过程中，用户可以向网站服务器发送文字，并由网站服务器作为弹幕显示在视频图像的上层，因此，每条弹幕对应的弹出时刻对应了该视频当前播放到的时刻点。在此基础上，可以获取到视频中输出的各条弹幕与该视频中播放的时刻点之间的对应关系。

S102，依据该目标弹幕的弹出时刻，确定该视频中待分析的时间区间。

其中，该待分析的时间区间为基于该目标弹幕的弹出时刻，从视频对应的时长中确定出的一个时长区间。为了能够更为合理的分析目标弹幕与视频的关联程度，该时间区间可以包括该目标弹幕的弹出时刻。

其中，该时间区间的确定方式可以有多种。

如，在一种可能的情况下，该时间区间可以为视频中该目标弹幕的弹出时刻以及视频中处于该目标弹幕的弹出时刻之前指定时长内的时间区间。

又如，在又一种可能的情况下，该时间区间可以为视频中该目标弹幕的弹出时刻之前且距离该弹出时刻指定时长的第一时刻点与该目标弹幕的弹出时刻之后且距离该弹出时刻指定时长的第二时刻点之间的时间区间。如，时间区间可以为弹出时刻之前5秒以及之后5秒所组成的时间区间，例如，假设目标弹幕的弹出时刻为视频中的第30分00秒，则该时间区间可以为从视频中的第29分31秒到第30分30秒的时间区间。

S103，获取该视频中处于该时间区间内的字幕文本。

其中，字幕文本为视频中播放出的演员的台词、插曲歌词等等字幕的文本。

处于该时间区间内的字幕文本为视频中在该时间区间内拨出的字幕文本。如，时间区间为视频中第10分00秒到第10分59秒，则可以获取视频中在该第10分00秒到第10分59秒之间输出的所有字幕。

其中，处于该时间区间内的字幕文本可以是多条字幕文本也可以是一条字幕文本，具体根据时间区间的不同以及视频的不同会有所差别。

S104，确定该目标弹幕与该字幕文本的相似性。

其中，由于弹幕以及字幕都是文本，因此，计算二者的相似性可以采用现有的任意确定文本相似性的方式。

为了便于理解，以一种方式为例说明。可以先确定目标弹幕的语义向量，并确定字幕文本的语义向量，然后计算目标弹幕的语义向量与字幕文本的语义向量之间的相似度。其中，文本(目标弹幕或者字幕文本)的语义向量可以基于不同词与词向量的映射关系，分别确定文本中各个词对应的词向量，然后将文本中各个词的词向量组成为该文本的语义向量。

S105，结合参数，确定所述目标弹幕的质量等级，该参数至少包括该相似性。

其中，质量等级用于表征目标弹幕能够表达所述视频的内容的准确程度，可以理解的是，目标弹幕能够准确表达该视频内容的准确程度越高，那么一句该目标弹幕对视频分析所得到的视频分析结果也越准确，因此，该质量等级也可以表示该目标弹幕能够用于分析视频的可用程度。

其中，弹幕对应的相似性越高，该弹幕的质量等级也越高。

其中，相似性与质量等级之间的转换方式可以有多种：

如，可以设定不同相似性所对应的质量等级，从而得到该相似性对应的质量等级。

又如，可以按照相似性与质量等级的转换函数，并基于该转换函数，计算出用于表征质量等级的数值。例如，转换函数可以为将相似性与设定系数相乘，然后再取整。

在本申请实施例中，该质量等级可以通过不同优先级或者级别来表示，也可以直接通过分数来表示。可选的，该质量等级可以为质量评分，质量评分越高，质量等级就越高。相应的，目标弹幕与字幕文本的相似性越高，该目标字幕的质量评分就越高。

可以理解的是，在确定出视频中各条弹幕的质量等级之后，还可以筛选出符合要求的弹幕，以用于辅助分析该视频。在此基础上，为了后续可以筛选出用于分析视频的弹幕，本申请还可以存储该目标弹幕的质量等级，如，将目标弹幕的质量等级与目标弹幕关联存储。

相应的，该计算机设备还可以接收弹幕查询请求，该弹幕查询请求用于请求获取与视频关联的且能够用于分析该视频的弹幕，该弹幕查询请求可以是由其他设备发出，也可以是用户向该计算机设备输入的请求。响应于该弹幕查询请求，计算机设备可以依据视频中各条弹幕的质量等级，获取视频关联的质量等级不低于设定等级的弹幕。如，质量等级为质量评分的情况下，可以从视频关联的弹幕中，获取质量评分不低于设定阈值的弹幕。筛选出质量较高的弹幕之后，可以基于筛选出的弹幕对视频内容进行概括总结或者进行其他形式的视频分析。

在本申请实施例中，会根据弹幕的弹出时刻，确定视频中与该弹幕相关的时间区间，并获取视频中处于该时间区间内的字幕文本，然后基于该弹幕与该字幕文本的相似性，由于视频中字幕文本可以反映出视频的内容，因此，弹幕与该字幕文本的相似性可以表征该弹幕与该视频中内容的关联程度。在此基础上，结合该相似性确定出的该目标弹幕的质量等级便可以反映出该目标弹幕能够用于辅助分析视频的可用程度，因此，依据弹幕的质量等级便可以有利于识别出视频中高质量的弹幕，从而有利于基于高质量弹幕提高视频分析的可靠性和精准度。

可以理解的是，如果视频中某些弹幕属于讨论用一话题的弹幕，且该话题的讨论量较高，则该类弹幕更能反映大部分用户对于视频的观点，从而对于视频的有用性也会更高。基于此，本申请除了结合弹幕与视频中相应时间段的字幕文本来分析弹幕的质量等级之外，还可以结合弹幕的话题量来分析弹幕的质量等级。如，参见图2，其示出了本申请一种弹幕处理方法又一个实施例的流程示意图，本实施例的方法可以包括：

S201，从视频关联的多条弹幕中，确定待分析的目标弹幕及该目标弹幕在该视频中的弹出时刻。

S202，依据该目标弹幕的弹出时刻，确定该视频中待分析的时间区间。

其中，该时间区间包括该目标弹幕的弹出时刻。

S203，获取该视频中处于该时间区间内的字幕文本。

S204，确定该目标弹幕与该字幕文本的相似性。

以上步骤S201到S204可以参见前面实施例的相关描述，在此不再赘述。

S205，获取该视频中处于该时间区间内的弹幕集合。

处于该时间区间内的弹幕集合为由弹出时间属于该时间区间内的各个弹幕所组成的弹幕集合。

可以理解的是，由于该时间区间包含了该目标弹幕的弹出时刻，因此，处于该时间区间内的弹幕集合包括该目标弹幕。

S206，基于弹幕集合中每条弹幕的弹幕语义，对该弹幕集合中的弹幕进行聚类，得到聚类结果。

该聚类结果包括聚类出的至少一个聚类组。

其中，该目标弹幕所属的聚类组属于该至少一个聚类组，即该目标弹幕被聚类到该至少一个聚类组中的某个聚类组。

可以理解的是，在对弹幕集合中各条弹幕进行聚类之后，可以得到至少一个聚类组，每个聚类组包括至少一条弹幕，且每条弹幕仅仅属于一个聚类组。基于各个聚类组所包含的弹幕可以确定出该目标弹幕所归属的聚类组。

如，聚类出5个聚类组，分别为聚类组1、聚类组2、聚类组3、聚类组4和聚类组5，每个聚类组中都包括一条或多条弹幕。其中，目标弹幕被聚类到聚类组2，则该目标弹幕所归属的聚类组为聚类组2。

其中，该步骤S205和S206的顺序并不限于图2实施例所示，如在实际应用中，还可以在执行步骤S203和S204的同时，执行该步骤S205和S206。

S207，根据弹幕集合中包含的弹幕的总数量，确定该目标弹幕所在的聚类组对应的话题量。

其中，为了便于区分，将弹幕集合中包含的弹幕的数量称为总数量，而将后续目标弹幕所在聚类组中包含的弹幕的数量称为弹幕数量。

如，该话题量可以反映该目标弹幕所在的聚类组中弹幕的数量，与该弹幕集合中所包含的总数量的比例。

具体的，依据该弹幕集合中包含的弹幕的总数量以及目标弹幕所在的聚类组中包含的弹幕的弹幕数量，计算该目标弹幕所在聚类组的信息熵；然后，依据该目标弹幕所在的聚类组对应的信息熵，确定该目标弹幕所在的聚类组对应的话题量。

其中，计算信息熵的方式可以有多种可能，为了便于理解，举例说明：

目标弹幕所在聚类组的信息熵可以通过如下公式计算得到：

信息熵＝(弹幕数量/总数量)*log₂(弹幕数量/总数量)

其中，弹幕数量表示该目标弹幕所在弹幕组中弹幕的数量；总数量为该弹幕集合中包含的弹幕的总数量。

例如，弹幕集合中包含2000条弹幕，而该目标弹幕所在的聚类组中包含600条，则该目标弹幕所在弹幕组的信息熵可以为(600/2000)*log₂(600/2000)。

可以理解的是，计算任意一个聚类组的信息熵时，需要结合该聚类组中弹幕的数量，以及所有聚类组中弹幕的总数量(即弹幕集合中所有弹幕的总数)，这样，该信息熵可以反映出该聚类组中包含的弹幕的数量在弹幕的总数量的占比。因此，通过聚类组的信息熵可以反映出该聚类组中弹幕所表征的一个话题在总弹幕中的占比，而该占比就可以反映出该聚类组对应的话题量的情况。

如，在一种情况中，可以将该聚类组对应的信息熵确定为该聚类组对应的话题量。

在又一种可能的情况下，还可以设置该信息熵与话题量的转换函数，基于该转换函数以及该聚类组对应的信息熵，可以得到该聚类组的话题量。

S208，结合相似性和目标弹幕所在的聚类组对应的话题量，确定该目标弹幕的质量等级。

可见，在本实施例中，确定目标弹幕的质量等级所依据的参数除了包括如上提到的相似性之外，还可以包括：该目标弹幕所在的聚类组对应的话题量。

可以理解的是，如果弹幕本身的语句存在表述问题、弹幕的文本为无用字符或者弹幕包含敏感词汇等，也使得弹幕的文本无法被用户理解或者无法被机器解析，从而使得弹幕无法用于准确分析视频。由此可见，弹幕自身的语言学特征同样会影响到弹幕的质量。其中，弹幕的语言学特征可以包括：弹幕的语言丰富度、弹幕的通顺度、弹幕的词汇量、弹幕的合理性、弹幕的合规性和弹幕的热度这几个特征维度中的一种或者多种。相应的，除了结合弹幕与字幕文本的相似性评价弹幕的质量等级之外，还可以结合弹幕的语言学特征分析弹幕的质量等级。即，确定目标弹幕的质量等级所依据的参数除了包括如上提到的相似性之外，还可以包括：目标弹幕的语言学特征评分。

特别的，在基于弹幕对视频的内容进行概括总结的情况下，如，结合弹幕分析视频的标题，那么弹幕本身的语言学特征是否存在问题，则会直接影响到弹幕是否可以作为视频的标题。如，弹幕的文本不通顺或者存在敏感词汇等，则不适合将该弹幕作为视频的标题或者结合该弹幕对视频进行标题总结或者内容概括。

可以理解的是，在实际应用中，为了提高确定弹幕的质量等级的精准度，可以结合以上的相似性、目标弹幕的语言学特征评分以及该目标弹幕所在的聚类组对应的话题量，来综合确定目标弹幕的质量等级。当然，结合相似性、目标弹幕的语言学特征评分以及该目标弹幕所在的聚类组对应的话题量中任意两个，来确定该目标弹幕的质量等级也同样适用于本申请。

为了便于理解，下面以结合弹幕与视频的字幕文本的相似度、弹幕所在聚类组的话题量以及弹幕的语言学特征，来确定弹幕的质量等级为例，对本申请实施例中方案进行介绍。

如，参见图3，其示出了本申请一种弹幕处理方法又一个实施例的流程示意图，本实施例的方法可以包括：

S301，从视频关联的多条弹幕中，确定待分析的目标弹幕及该目标弹幕在该视频中的弹出时刻。

S302，依据该目标弹幕的弹出时刻，确定该视频中待分析的时间区间。

其中，该时间区间包括该目标弹幕的弹出时刻。

S303，获取该视频中处于该时间区间内的字幕文本。

S304，确定该目标弹幕与该字幕文本的相似性。

S305，获取所述视频中处于所述时间区间内的弹幕集合。

其中，该弹幕集合包括该目标弹幕。

S306，基于弹幕集合中每条弹幕的弹幕语义，对该弹幕集合中的弹幕进行聚类，得到聚类结果。

其中，该聚类结果包括聚类出的至少一个聚类组以及该目标弹幕所属的聚类组。

S307，根据弹幕集合中包含的弹幕的总数量，确定该目标弹幕所在的聚类组对应的话题量。

该步骤S306和S307可以参见前面实施例的相关介绍。

S308，依据设定的语言学特征评价规则，确定该目标弹幕的语言学特征评分。

该目标弹幕的语言学特征可以有多种，如，可以包括：语言丰富度、词汇量、通顺度、合理性、合规性和热度中的一种或者多种。相应的，语言学特征评价规则可以包括不同种语言学特征对应的评价规则。

其中，目标弹幕的语言丰富度为目标弹幕中内容词汇与语法词汇的比例，语法词汇为介词、代词等，内容词汇为动词、名词、形容词等强化内容表达的词。其中，目标弹幕中的内容词越多，语言丰富度越高。其中，由于目标弹幕为一文本，因此，确定目标弹幕的语言丰富度的方式可以采用现有的任意确定文本的语言丰富度的方式，对此本申请不加限制。

目标弹幕的词汇量为目标弹幕中属于预置词库中的目标词对应的出现频率。其中，该预置词库为预先统计出的信息量较高的词(也称为高级词)组成的词库。在该预置词库中每个词对应一统计出的出现概率，该出现概率为词在不同文章、网页等出现的频率。

目标弹幕的通顺度为利用预先训练得到的语言模型得到。该通顺度为用于评价该目标弹幕中各个字符之间顺序关系的评价分数。其中，该语言模型为利用筛选出的多个通顺度符合要求的语句样本训练出的语言模型。如，该语言模型可以为基于N元(n-gram)统计语言模型的多模型融合得到的，例如，基于2，3，4元词统计语言模型和2,3,4元词性统计语言模型共同构建一个整体的语言模型。训练出的该语言模型可以计算出输入的语句文本的困惑度，该困惑度越大，则语言越不通顺，通顺度的值越低；反之，困惑度越小，则语言越通顺，通顺度越高。

目标弹幕的合理性是基于目标弹幕中属于不合理词库中词的数量得到的。其中，不合理词库为预置的存储不合理词的词库，不合理词为预先统计出的词结构存在问题的词或者存在合理性问题的词。目标弹幕中属于不合理词库中的词的数量越多，其合理性越低。如，合理性可以为目标弹幕中不属于不合理词库中的词与属于不合理词库中的词的占比。

目标弹幕的合规性为基于目标弹幕中属于设定的敏感词汇的数量得到。如，目标弹幕中属于敏感词汇的比例越高，该目标弹幕的合规性越低。其中，敏感词汇可以根据需要设定，在不同视频分析场景中，敏感词汇也会有所不同。

目标弹幕的热度为基于目标弹幕中出现的热点词汇的数量得到。热点词汇为统计出的网络流行词汇或者目前使用频率较高的热点词。如，目标弹幕的热度与目标弹幕中热点词汇的占比有关，例如热点词汇的占比越高，目标弹幕的热度越高。

可以理解的是，在本申请以上确定出的几种语言学特征均可以认为是一种特征评分，如通顺度可以为目标弹幕的通顺度评分；合规性可以为目标弹幕的合规性评分。

相应的，根据该目标弹幕的至少一种语言学特征，确定该目标弹幕的语言学特征评分。如，至少一种语言学特征包括上面提到的六种语言学特征的情况下，则可以先设定每种语言学特征的加权系数，对这两种语言学特征的评分进行加权，得到该目标弹幕的语言学特征评分。其中，该语言学特征评分可以表征该目标弹幕存在语言逻辑问题、不合理词或者敏感词汇的风险，语言学特征评分越高，则表征该目标弹幕的语言描述与表达质量越高。

S309，结合该相似性、目标弹幕所在的聚类组对应的话题量以及该目标弹幕的语言学特征评分，确定该目标弹幕的质量等级。

在本申请实施例中，该质量等级同样可以为质量评分。

可选的，可以按照设定的相似性的加权系数、话题量的加权系数以及语言学特征评分的加权系数，对该相似性、该目标弹幕所在的聚类组对应的话题量以及该目标弹幕的语言学特征评分进行加权求和，得到该目标弹幕的质量评分。

可以理解的是，在得到目标弹幕的质量评分之后，同样可以存储该目标弹幕的质量评分。相应的，在接收到弹幕查询请求之后，可以依据存储的视频中各条弹幕的质量评分，获取该视频关联的质量评分不低于设定阈值的弹幕，以便基于获取到的弹幕进行视频的标题提取或者内容概括等。

对应本申请的一种弹幕处理方法，本申请还提供了一种弹幕处理装置。

如图4所示，其示出了本申请一种弹幕处理装置的一种组成结构示意图，本实施例的装置可以包括：

目标确定单元401，用于从视频关联的多条弹幕中，确定待分析的目标弹幕及所述目标弹幕在所述视频中的弹出时刻；

区间确定单元402，用于依据所述目标弹幕的弹出时刻，确定所述视频中待分析的时间区间；

文本获取单元403，用于获取所述视频中处于所述时间区间内的字幕文本；

相似性匹配单元404，用于确定所述目标弹幕与所述字幕文本的相似性；

等级确定单元405，用于结合参数，确定所述目标弹幕的质量等级，所述参数至少包括：所述相似性，所述质量等级用于表征所述目标弹幕能够表达所述视频的内容的准确程度。

在一种可能的实现方式中，该装置还可以包括：

话题确定单元，用于根据所述弹幕集合中包含的弹幕的总数量，确定所述目标弹幕所在的聚类组对应的话题量，其中，所述目标弹幕所属的聚类组属于所述至少一个聚类组；

相应的，该等级确定单元中所述参数还包括：所述目标弹幕所在的聚类组对应的话题量。

可选的，所述话题确定单元，包括：

在又一种可能的实现方式中，以上任意一个装置中还可以包括：

所述等级确定单元中的参数还包括：所述目标弹幕的语言学特征评分。

可选的，在所述等级确定单元中的所述参数包括：所述相似性、所述目标弹幕的语言学特征评分以及所述目标弹幕所在的聚类组对应的话题量的情况下，该等级确定单元具体为，用于按照设定的相似性的加权系数、话题量的加权系数以及语言学特征评分的加权系数，对所述相似性、所述目标弹幕所在的聚类组对应的话题量以及所述目标弹幕的语言学特征评分进行加权求和，得到所述目标弹幕的质量评分。

可选的，以上装置的实施例中，该装置还可以包括：

等级存储单元，用于存储所述目标弹幕的质量等级；

请求接收单元，用于接收弹幕查询请求，所述弹幕查询请求用于请求获取与所述视频关联的且能够用于分析所述视频的弹幕；

弹幕获取单元，用于响应于所述弹幕查询请求，依据视频中各条弹幕的质量等级，获取所述视频关联的且质量等级不低于设定等级的弹幕。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种弹幕处理方法，其特征在于，包括：

获取所述视频中处于所述时间区间内的字幕文本；

确定所述目标弹幕与所述字幕文本的相似性；

2.根据权利要求1所述的弹幕处理方法，其特征在于，在所述确定所述目标弹幕的质量等级之前，还包括：

3.根据权利要求2所述的弹幕处理方法，其特征在于，所述根据所述弹幕集合中包含的弹幕的总数量以及所述目标弹幕所在的聚类组中包含的弹幕的弹幕数量，确定所述目标弹幕所在的聚类组对应的话题量，包括：

4.根据权利要求1或2所述的弹幕处理方法，其特征在于，在所述确定所述目标弹幕的质量等级之前，还包括：

所述参数还包括：所述目标弹幕的语言学特征评分。

5.根据权利要求4所述的弹幕处理方法，其特征在于，在所述参数包括所述相似性、所述目标弹幕所在的聚类组对应的话题量以及所述目标弹幕的语言学特征评分的情况下，结合所述参数，确定所述目标弹幕的质量等级，包括：

6.根据权利要求1至3任一项所述的弹幕处理方法，其特征在于，还包括：

存储所述目标弹幕的质量等级；

7.一种弹幕处理装置，其特征在于，包括：

8.根据权利要求7所述的弹幕处理装置，其特征在于，还包括：

9.根据权利要求8所述的弹幕处理装置，其特征在于，所述话题确定单元，包括：

10.根据权利要求7或8所述的弹幕处理装置，其特征在于，还包括：