CN111930943A

CN111930943A - 一种剧透弹幕检测方法及装置

Info

Publication number: CN111930943A
Application number: CN202010805836.4A
Authority: CN
Inventors: 陈欢欢; 程进
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2020-11-13
Anticipated expiration: 2040-08-12
Also published as: CN111930943B

Abstract

本发明公开了一种剧透弹幕检测方法及装置，将获取的待检测弹幕文本转换为词向量集合，将该词向量集合输入基于神经网络构建的文本分类模型，得到待检测弹幕文本为剧透弹幕的概率值，当该概率值大于概率阈值时，将待检测弹幕文本确定为剧透弹幕。本发明采用基于神经网络的文本分类方法对弹幕是否为剧透弹幕进行了分类，并省去了人工构建复杂规则和特征的步骤，从而在一定程度上节省了人力资源，具有较高的实用价值。

Description

一种剧透弹幕检测方法及装置

技术领域

本发明涉及自然语言处理技术领域，更具体的说，涉及一种剧透弹幕检测方法及装置。

背景技术

目前，互联网应用十分普及，各种网络视频应用层出不穷，视频弹幕作为一种新的文化，十分受欢迎。好的弹幕环境能够提升用户的观看体验，反之则会影响用户的观看体验，例如辱骂型弹幕、刷屏型弹幕、剧透型弹幕等。其中，剧透型弹幕具有多样性特点，该多样性包括：结构多样性和内容多样性，因此使得剧透型弹幕极难处理，但又极易降低用户的观看体验，特别是在用户观看推理剧和悬疑剧时，剧透型弹幕容易剧透凶手是谁等情况，从而大大降低了用户的观看体验。

由于弹幕的形式为自然语言表述的文本，由此可将剧透弹幕的自动检测视为自然语言处理领域中文本分类的一种应用场景。应用现有的自然语言处理方法，可以在一定程度上实现自动弹幕的检测，但是由于剧透弹幕的多样性，导致目前尚难以准确辨别出剧透弹幕。主要问题如下：(1)基于规则方式很难实施。由于弹幕属于网络语言，常出现省略句式，网络用语等，具有结构多样性的特点，因此导致规则的构建十分困难。(2)基于传统学习方法。需要人工构建特征。由于剧透弹幕的多样性，包括内容多样性和结构多样性，使得特征构建十分困难，学习很难达到较好的效果。

综上，如何提供一种剧透弹幕检测方法，以便准确辨别出剧透弹幕成为了本领域技术人员亟需解决的技术问题。

发明内容

有鉴于此，本发明公开一种剧透弹幕检测方法及装置，采用基于神经网络的文本分类方法对弹幕是否为剧透弹幕进行了分类，并省去人工构建复杂规则和特征的步骤，从而在一定程度上节省人力资源，具有较高的实用价值。

一种剧透弹幕检测方法，包括：

获取待检测弹幕文本，并将所述待检测弹幕文本转换为词向量集合；

将所述待检测弹幕文本对应的所述词向量集合输入至基于神经网络构建的文本分类模型，得到所述待检测弹幕文本为剧透弹幕的概率值；

判断所述概率值是否大于概率阈值；

如果是，则将所述待检测弹幕文本确定为剧透弹幕。

可选的，所述文本分类模型的构建过程包括：

采集不同视频中的剧透弹幕文本和非剧透弹幕文本，构成二分类训练数据集；

对所述二分类训练数据集进行训练，构建基于神经网络的所述文本分类模型。

可选的，所述判断所述概率值是否大于概率阈值，具体包括：

基于剧透弹幕的时序特点和内容关联性，对所述待检测弹幕文本为剧透弹幕的概率值进行修正，得到修正概率值；

判断所述修正概率值是否大于所述概率阈值。

可选的，所述基于剧透弹幕的时序特点和内容关联性，对所述待检测弹幕文本为剧透弹幕的概率值进行修正，得到修正概率值，具体包括：

获取所述待检测弹幕文本的弹幕时间戳前后预设时间段内所有的弹幕，得到与所述待检测弹幕文本时序相关的弹幕集合；

统计所述弹幕集合中与预先构建的剧透相关弹幕检测规则集合中的检测规则匹配的弹幕数量，其中，所述剧透相关弹幕检测规则集合中的每条检测规则，用于判断一条弹幕是否与剧透弹幕存在关联；

基于匹配得到的所述弹幕数量，采用如下公式所示的线性模型，对所述待检测弹幕文本为剧透弹幕的所述概率值进行修正，得到所述修正概率值，线性模型的表达式如下：

P＝P₀+λC；

式中，P为所述修正概率值，P₀为所述待检测弹幕文本为剧透弹幕的所述概率值，λ为一个超参数，C为匹配得到的所述弹幕数量。

一种剧透弹幕检测装置，包括：

获取单元，用于获取待检测弹幕文本，并将所述待检测弹幕文本转换为词向量集合；

概率值确定单元，用于将所述待检测弹幕文本对应的所述词向量集合输入至基于神经网络构建的文本分类模型，得到所述待检测弹幕文本为剧透弹幕的概率值；

判断单元，用于判断所述概率值是否大于概率阈值；

剧透弹幕确定单元，用于在所述判断单元判断为是的情况下，将所述待检测弹幕文本确定为剧透弹幕。

可选的，还包括：

构建单元，用于构建所述文本分类模型；

所述构建单元具体用于：

可选的，所述判断单元具体包括：

修正子单元，用于基于剧透弹幕的时序特点和内容关联性，对所述待检测弹幕文本为剧透弹幕的概率值进行修正，得到修正概率值；

判断子单元，用于判断所述修正概率值是否大于所述概率阈值。

可选的，所述修正子单元具体用于：

P＝P₀+λC；

从上述的技术方案可知，本发明公开了一种剧透弹幕检测方法及装置，将获取的待检测弹幕文本转换为词向量集合，将该词向量集合输入基于神经网络构建的文本分类模型，得到待检测弹幕文本为剧透弹幕的概率值，当该概率值大于概率阈值时，将待检测弹幕文本确定为剧透弹幕。本发明采用基于神经网络的文本分类方法对弹幕是否为剧透弹幕进行了分类，并省去了人工构建复杂规则和特征的步骤，从而在一定程度上节省了人力资源，具有较高的实用价值。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据公开的附图获得其他的附图。

图1为本发明实施例公开的一种剧透弹幕检测方法流程图；

图2为本发明实施例公开的一种文本分类模型的构建方法流程图；

图3为本发明实施例公开的一种对待检测弹幕文本为剧透弹幕的概率值进行修正的方法流程图；

图4为本发明实施例公开的一种剧透弹幕检测装置的结果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种剧透弹幕检测方法及装置，将获取的待检测弹幕文本转换为词向量集合，将该词向量集合输入基于神经网络构建的文本分类模型，得到待检测弹幕文本为剧透弹幕的概率值，当该概率值大于概率阈值时，将待检测弹幕文本确定为剧透弹幕。本发明采用基于神经网络的文本分类方法对弹幕是否为剧透弹幕进行了分类，并省去了人工构建复杂规则和特征的步骤，从而在一定程度上节省了人力资源，具有较高的实用价值。

参见图1，本发明一实施例公开的一种剧透弹幕检测方法流程图，该方法包括：

步骤S101、获取待检测弹幕文本，并将所述待检测弹幕文本转换为词向量集合；

在实际应用中，首先将待检测弹幕文本分词，得到多个词，然后将每个词转换成对应的词向量，得到待检测弹幕文本对应的词向量集合。

步骤S102、将所述待检测弹幕文本对应的所述词向量集合输入至基于神经网络构建的文本分类模型，得到所述待检测弹幕文本为剧透弹幕的概率值；

具体的，参见图2，本发明实施例公开的一种文本分类模型的构建方法流程图，包括：

步骤S201、采集不同视频中的剧透弹幕文本和非剧透弹幕文本，构成二分类训练数据集；

需要说明的是，本实施例中所述的不同视频可以为同一视频应用中的不同视频，或者，不同视频应用中的不同视频。

其中，用于采集剧透弹幕文本和非剧透弹幕文本的视频优选以悬疑推理为主的视频。

可以理解，通常一个视频中可能有很多非剧透弹幕文本，在实际应用中，可以从视频中随机采样非剧透弹幕文本。

本实施例中采集的剧透弹幕文本的主要来源是各个视频应用中用户举报的弹幕及部分人工标注弹幕。

步骤S202、对二分类训练数据集进行训练，构建基于神经网络的文本分类模型。

其中，文本分类模型的输入为弹幕文本，文本分类模型的输出为弹幕文本为剧透弹幕的概率值P₀(0<＝P₀<＝1)。

本实施例所采用的神经网络可以为LSTM(Long Short-Term Memory，长短期记忆网络)。

步骤S103、判断所述概率值是否大于概率阈值，如果是，则执行步骤S104；

其中，概率阈值的取值范围为(0，1)，具体数值依据实际需要而定，本发明在此不做限定。

当待检测弹幕文本为剧透弹幕的概率值大于概率阈值时，表明待检测弹幕文本为剧透弹幕的概率比较大，此时将待检测弹幕文本确定为剧透弹幕；反之，当待检测弹幕文本为剧透弹幕的概率值不大于概率阈值时，表明待检测弹幕文本为剧透弹幕的概率比较小，此时将待检测弹幕文本布确定为非剧透弹幕。

步骤S104、将所述待检测弹幕文本确定为剧透弹幕。

综上可知，本发明公开的剧透弹幕检测方法，将获取的待检测弹幕文本转换为词向量集合，将该词向量集合输入基于神经网络构建的文本分类模型，得到待检测弹幕文本为剧透弹幕的概率值，当该概率值大于概率阈值时，将待检测弹幕文本确定为剧透弹幕。本发明采用基于神经网络的文本分类方法对弹幕是否为剧透弹幕进行了分类，并省去了人工构建复杂规则和特征的步骤，从而在一定程度上节省了人力资源，具有较高的实用价值。

由于剧透弹幕具有多样性的特点，该多样性包括：内容多样性和结构多样性，且剧透弹幕与视频内容和用户个体相关联，因此，剧透弹幕具有时序特点和内容关联性，因此，本发明为提高对剧透弹幕检测的准确性，利用剧透弹幕的时序特点和内容关联性，对步骤S102得到的剧透弹幕的概率值进行了修正。

因此，步骤S103具体可以包括：

基于剧透弹幕的时序特点和内容关联性，对待检测弹幕文本为剧透弹幕的概率值进行修正，得到修正概率值；

判断所述修正概率值是否大于所述概率阈值，如果是，则执行步骤S104。

具体的，参见图3，本发明实施例公开的一种对待检测弹幕文本为剧透弹幕的概率值进行修正的方法流程图，该方法包括：

步骤S301、获取所述待检测弹幕文本的弹幕时间戳前后预设时间段内所有的弹幕，得到与所述待检测弹幕文本时序相关的弹幕集合；

在实际应用中，可以通过待检测弹幕文本前后弹幕的弹幕时间戳，与待检测弹幕文本的弹幕时间戳的绝对差值，获取与待检测弹幕文本时序相关的弹幕集合。

步骤S302、统计所述弹幕集合中与预先构建的剧透相关弹幕检测规则集合中的检测规则匹配的弹幕数量；

其中，剧透相关弹幕检测规则集合中的每条检测规则，用于判断一条弹幕是否与剧透弹幕存在关联。每条检测规则包含的具体内容可依据实际需要而定，本发明在此不做限定。

剧透相关弹幕检测规则集合的输入是弹幕文本字符串，输出是0或1，0表示待检测弹幕与剧透弹幕不存在关联，1表示待检测弹幕与剧透弹幕存在关联，例如，被预测弹幕文本为“前方有剧透，请关闭弹幕食用”就是一条与剧透弹幕相关联的弹幕，在该条弹幕的后面，可以预见出现剧透弹幕的可能性较高。

步骤S303、基于匹配得到的所述弹幕数量，采用公式(1)所示的线性模型，对待检测弹幕文本为剧透弹幕的概率值进行修正，得到待检测弹幕文本为剧透弹幕的修正概率值，公式(1)如下：

P＝P₀+λC(1)；

式中，P为修正概率值，P₀为待检测弹幕文本为剧透弹幕的概率值，λ为一个超参数，取值根据实际需要而定，C为匹配得到的所述弹幕数量。

为便于理解本发明所要保护的剧透弹幕检测方法，本发明提供了一个具体实施例，如下：

假设待检测弹幕为“JR是局长”，检测“JR是局长”是否为剧透弹幕的过程如下：

将预先构建的文本分类模型用F表示，F的输入是词向量集合，输出为概率值；

剧透相关弹幕检测规则集合用R表示，R的输入是文本字符串，输出是0 或1。

首先将“JR是局长”转换为一个词向量集合V，然后将词向量集合V输入文本分类模型，得到初步预测的概率值P₀＝F(V)，这里假设P₀＝0.48。

获取“JR是局长”这条弹幕前后各一分钟内的弹幕，即从13到15之间的弹幕集合S，例如弹幕中包含“剧透”关键字。

统计弹幕集合S中与剧透相关弹幕检测规则集合R中的检测规则匹配的弹幕数量C＝∑_t∈sR(t)，这里假设C＝3。

弹幕数量C修正概率值P₀，得到修正概率值P＝P₀+λC，这里假设λ＝0.01，则P＝0.48+0.01x 3＝0.51。

假设概率阈值P_t＝0.5，则P＝0.51>P_t，由此判断“JR是局长”这条弹幕属于剧透弹幕。

综上可知，本发明根据剧透弹幕的时序特点和内容关联性，通过利用待检测弹幕文本的弹幕时间戳前后预设时间段内所有的弹幕，来对待检测弹幕文本为剧透弹幕的概率值进行修正，得到修正概率值，并根据修正概率值对待检测弹幕文本是否为剧透弹幕进行判定，因此，本发明提高了剧透弹幕的检测准确率，在一定程度上提高了视频应用用户的观看体验，使得整个剧透弹幕检测方法具有更高的实际应用价值。

与上述方法实施例相对应，本发明还公开了一种剧透弹幕检测装置。

参见图4，本发明实施例公开的一种剧透弹幕检测装置的结构示意图，该装置包括：

获取单元401，用于获取待检测弹幕文本，并将所述待检测弹幕文本转换为词向量集合；

概率值确定单元402，用于将所述待检测弹幕文本对应的所述词向量集合输入至基于神经网络构建的文本分类模型，得到所述待检测弹幕文本为剧透弹幕的概率值；

判断单元403，用于判断所述概率值是否大于概率阈值；

剧透弹幕确定单元404，用于在所述判断单元403判断为是的情况下，将所述待检测弹幕文本确定为剧透弹幕。

综上可知，本发明公开的剧透弹幕检测装置，将获取的待检测弹幕文本转换为词向量集合，将该词向量集合输入基于神经网络构建的文本分类模型，得到待检测弹幕文本为剧透弹幕的概率值，当该概率值大于概率阈值时，将待检测弹幕文本确定为剧透弹幕。本发明采用基于神经网络的文本分类方法对弹幕是否为剧透弹幕进行了分类，并省去了人工构建复杂规则和特征的步骤，从而在一定程度上节省了人力资源，具有较高的实用价值。

为进一步优化上述实施例，剧透弹幕检测装置还可以包括：

构建单元，用于构建文本分类模型；

所述构建单元具体用于：

其中，构建单元的具体工作原理，请参见图2所示实施例。

判断单元403具体可以包括：

在实际应用中，修正子单元具体可以用于：

P＝P₀+λC(1)；

需要说明的是，装置实施例中各组成部分的具体工作原理，请参见方法实施例对应部分，此处不再赘述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种剧透弹幕检测方法，其特征在于，包括：

判断所述概率值是否大于概率阈值；

如果是，则将所述待检测弹幕文本确定为剧透弹幕。

2.根据权利要求1所述的剧透弹幕检测方法，其特征在于，所述文本分类模型的构建过程包括：

3.根据权利要求1所述的剧透弹幕检测方法，其特征在于，所述判断所述概率值是否大于概率阈值，具体包括：

判断所述修正概率值是否大于所述概率阈值。

4.根据权利要求3所述的剧透弹幕检测方法，其特征在于，所述基于剧透弹幕的时序特点和内容关联性，对所述待检测弹幕文本为剧透弹幕的概率值进行修正，得到修正概率值，具体包括：

P＝P₀+λC；

5.一种剧透弹幕检测装置，其特征在于，包括：

判断单元，用于判断所述概率值是否大于概率阈值；

6.根据权利要求5所述的剧透弹幕检测装置，其特征在于，还包括：

构建单元，用于构建所述文本分类模型；

所述构建单元具体用于：

7.根据权利要求5所述的剧透弹幕检测装置，其特征在于，所述判断单元具体包括：

8.根据权利要求7所述的剧透弹幕检测装置，其特征在于，所述修正子单元具体用于：

P＝P₀+λC；