CN114998880A

CN114998880A - 基于lstm技术的暴力低俗弹幕检测方法

Info

Publication number: CN114998880A
Application number: CN202210550668.8A
Authority: CN
Inventors: 于艺春; 余丹; 兰雨晴; 王丹星
Original assignee: China Standard Intelligent Security Technology Co Ltd
Current assignee: China Standard Intelligent Security Technology Co Ltd
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-09-02
Anticipated expiration: 2042-05-18
Also published as: CN114998880B

Abstract

本发明提供了基于LSTM技术的暴力低俗弹幕检测方法，其从直播平台当前的直播视频影像中提取得到直播弹幕信息，并识别其中包含的弹幕文本内容；将弹幕文本内容进行文本词语预处理，转换得到文本词汇向量；利用LSTM神经网络模型对文本词汇向量进行分类处理，判断弹幕文本内容是否存在违规的暴力低俗信息，并且对存在违规的暴力低俗信息的弹幕文本内容进行屏蔽处理；上述检测方法对直播平台的直播视频影像出现的所有直播弹幕信息进行文本词汇的转换，得到与LSTM神经网络模型相匹配的文本词汇向量，这样能够对每条直播弹幕信息进行自动分类识别，减少对弹幕信息进行人工检测审核的工作量，避免弹幕信息的遗漏识别，改善直播平台的直播环境健康性。

Description

基于LSTM技术的暴力低俗弹幕检测方法

技术领域

本发明涉及视频监控管理的技术领域，特别涉及基于LSTM技术的暴力低俗弹幕检测方法。

背景技术

用户通过智能手机等终端在特定直播平台上观看直播视频时，通常会向直播视频上输出相应的弹幕信息。为了保证直播平台的直播环境健康，直播平台会通过人工审查的方式对直播视频画面上的弹幕信息进行检查，但是在一些热门直播平台上直播视频的弹幕信息数量较多，审查人员无法全面和准确地对每一条弹幕信息进行审核，从而不可避免发生暴力低俗弹幕信息的遗漏，影响直播平台的直播环境健康性。

发明内容

针对现有技术存在的缺陷，本发明提供基于LSTM技术的暴力低俗弹幕检测方法，其从直播平台当前的直播视频影像中提取得到直播弹幕信息，并识别其中包含的弹幕文本内容；将弹幕文本内容进行文本词语预处理，转换得到文本词汇向量；利用LSTM神经网络模型对文本词汇向量进行分类处理，判断弹幕文本内容是否存在违规的暴力低俗信息，并且对存在违规的暴力低俗信息的弹幕文本内容进行屏蔽处理；上述检测方法对直播平台的直播视频影像出现的所有直播弹幕信息进行文本词汇的转换，得到与LSTM神经网络模型相匹配的文本词汇向量，这样能够对每条直播弹幕信息进行自动分类识别，减少对弹幕信息进行人工检测审核的工作量，避免弹幕信息的遗漏识别，改善直播平台的直播环境健康性。

本发明提供基于LSTM技术的暴力低俗弹幕检测方法，其包括如下步骤：

步骤S1，获取直播平台当前的直播视频影像，从所述直播视频影像中提取得到直播弹幕信息；并从所述直播弹幕信息中区分识别其中包含的弹幕文本内容；

步骤S2，对所述弹幕文本内容进行文本词语预处理，从而将所述弹幕文本内容转换为文本词汇向量；

步骤S3，利用LSTM神经网络模型对所述文本词汇向量进行分类处理，判断所述弹幕文本内容是否存在违规的暴力低俗信息；

步骤S4，根据上述判断结果，对存在违规的暴力低俗信息的弹幕文本内容进行屏蔽处理。

进一步，在所述步骤S1中，获取直播平台当前的直播视频影像，从所述直播视频影像中提取得到直播弹幕信息具体包括：

对直播平台进行实时录屏，以此获取直播平台当前的直播视频影像；

按照直播平台的直播时间顺序，从所述直播视频影像中依次提取得到若干直播图片；

对所述直播图片进行识别处理，得到所述直播图片的画面内对应存在的直播弹幕信息及其弹幕信息发送来源。

进一步，在所述步骤S2中，对所述直播图片进行识别处理，得到所述直播图片的画面内对应存在的直播弹幕信息具体包括：

从所述直播图片中提取得到直播内容图层和直播弹幕图层，并对所述直播内容图层进行图像模糊化处理，以及对所述直播弹幕图层进行图像像素锐化处理；

再从所述直播弹幕图层中识别提取得到所述直播弹幕图层画面范围内存在的直播弹幕信息。

进一步，在所述步骤S1中，从所述直播弹幕信息中区分识别其中包含的弹幕文本内容具体包括：

从所述直播弹幕信息中获取其包括的所有信息符号的符号轮廓形状特征；

根据所述符号轮廓形状特征，将所述直播弹幕信息包括的每个信息符号区分为文本信息符号和非文本信息符号；

按照所有文本信息符号在所述直播弹幕信息中的原有排列顺序，将所有文本信息符号排列组成为弹幕文本内容。

进一步，在所述步骤S2中，对所述弹幕文本内容进行文本词语预处理，从而将所述弹幕文本内容转换为文本词汇向量具体包括：

根据所述弹幕文本内容的文本语义，对所述弹幕文本内容进行文本分词处理，得到若干弹幕文本分词；再将所述弹幕文本分词转换为文本词汇向量。

进一步，在所述步骤S3中，利用LSTM神经网络模型对所述文本词汇向量进行分类处理，判断所述弹幕文本内容是否存在违规的暴力低俗信息具体包括：

将所述文本词汇向量输入到已完成训练的LSTM神经网络模型中进行分类处理，从而确定所述文本词汇向量对应的弹幕文本分词是否属于违规的暴力低俗文本词汇；

若属于，则确定所述弹幕文本内容存在违规的暴力低俗信息；若不属于，则确定所述弹幕文本内容不存在违规的暴力低俗信息。

进一步，在所述步骤S4中，根据上述判断结果，对存在违规的暴力低俗信息的弹幕文本内容进行屏蔽处理具体包括：

若所述弹幕文本内容存在违规的暴力低俗信息，则根据所述弹幕文本内容在所述直播视频影像的画面存在的位置，对所述弹幕文本内容进行视觉透明化的屏蔽处理。

进一步，在所述步骤S4中，还包括：

若所述弹幕文本内容存在违规的暴力低俗信息，则指示直播平台终端向对应弹幕信息发送来源的用户终端进行禁止弹幕输出操作。

进一步，在所述步骤S4，还包括：

若所述弹幕文本内容不存在违规的暴力低俗信息，则根据所述弹幕信息发送来源的用户终端历史以往被禁止弹幕输出操作的次数，控制当前发送的弹幕信息的弹幕文本内容的透明度，以及实时监测直播平台的弹幕显示区域内的颜色变化情况，还根据所述弹幕信息发送来源的用户终端历史以往被禁止弹幕输出操作的次数，控制弹幕信息的显示颜色，还根据所述弹幕信息的长度，调整所述弹幕信息在直播平台上显示的速度，其具体过程为：

步骤S401，利用下面公式(1)，根据所述弹幕信息发送来源的用户终端历史以往被禁止弹幕输出操作的次数，控制当前发送的弹幕信息的弹幕文本内容的透明度，

在上述公式(1)中，E(i、)表示第i个不存在违规的暴力低俗信息的弹幕文本内容的透明度；E₀表示预先设定的弹幕文本内容的基准透明度；N(i)表示第i个不存在违规的暴力低俗信息的弹幕文本内容所对应的发送来源的用户终端历史以往发送弹幕信息的总次数；n表示预设的排查次数；D(i、)表示第i个不存在违规的暴力低俗信息的弹幕文本内容所对应的发送来源的用户终端历史以往被禁止弹幕输出操作的次数；int{}表示对括号内的数值取整；

步骤S402，利用下面公式(2)，根据所述弹幕信息发送来源的用户终端历史以往被禁止弹幕输出操作的次数，控制弹幕信息的显示颜色，

在上述公式(2)中，[R(i)，G(i)，B(i)]表示第i个不存在违规的暴力低俗信息的弹幕文本内容的显示颜色RGB值；(R₀，G₀，B₀)表示预先设定的弹幕文本内容的显示颜色RGB值；t表示当前时刻；[R(a_t)，G(a_t)，B(a_t)]表示；m表示当前时刻实时监测的直播平台弹幕显示区域内的显示颜色中显示的第a个颜色的RGB值；m表示当前时刻实时监测的直播平台弹幕显示区域内显示的颜色总数；

步骤S403，利用下面公式(3)，根据所述弹幕信息的长度，调整所述弹幕信息在直播平台上显示的速度，

在上述公式(3)，V(i)表示第i个不存在违规的暴力低俗信息的弹幕文本内容在平台上显示的速度；V₀表示预先设定的弹幕信息在直播平台上显示的基准速度；L(i)表示第i个不存在违规的暴力低俗信息的弹幕文本内容的文字总长度；S表示观看直播者所使用的终端设备的画面显示长度。

相比于现有技术，该基于LSTM技术的暴力低俗弹幕检测方法从直播平台当前的直播视频影像中提取得到直播弹幕信息，并识别其中包含的弹幕文本内容；将弹幕文本内容进行文本词语预处理，转换得到文本词汇向量；利用LSTM神经网络模型对文本词汇向量进行分类处理，判断弹幕文本内容是否存在违规的暴力低俗信息，并且对存在违规的暴力低俗信息的弹幕文本内容进行屏蔽处理；上述检测方法对直播平台的直播视频影像出现的所有直播弹幕信息进行文本词汇的转换，得到与LSTM神经网络模型相匹配的文本词汇向量，这样能够对每条直播弹幕信息进行自动分类识别，减少对弹幕信息进行人工检测审核的工作量，避免弹幕信息的遗漏识别，改善直播平台的直播环境健康性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的基于LSTM技术的暴力低俗弹幕检测方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1，为本发明实施例提供的基于LSTM技术的暴力低俗弹幕检测方法的流程示意图。该基于LSTM技术的暴力低俗弹幕检测方法包括如下步骤：

步骤S1，获取直播平台当前的直播视频影像，从该直播视频影像中提取得到直播弹幕信息；并从该直播弹幕信息中区分识别其中包含的弹幕文本内容；

步骤S2，对该弹幕文本内容进行文本词语预处理，从而将该弹幕文本内容转换为文本词汇向量；

步骤S3，利用LSTM神经网络模型对该文本词汇向量进行分类处理，判断该弹幕文本内容是否存在违规的暴力低俗信息；

上述技术方案的有益效果为：该基于LSTM技术的暴力低俗弹幕检测方法从直播平台当前的直播视频影像中提取得到直播弹幕信息，并识别其中包含的弹幕文本内容；将弹幕文本内容进行文本词语预处理，转换得到文本词汇向量；利用LSTM神经网络模型对文本词汇向量进行分类处理，判断弹幕文本内容是否存在违规的暴力低俗信息，并且对存在违规的暴力低俗信息的弹幕文本内容进行屏蔽处理；上述检测方法对直播平台的直播视频影像出现的所有直播弹幕信息进行文本词汇的转换，得到与LSTM神经网络模型相匹配的文本词汇向量，这样能够对每条直播弹幕信息进行自动分类识别，减少对弹幕信息进行人工检测审核的工作量，避免弹幕信息的遗漏识别，改善直播平台的直播环境健康性。

优选地，在该步骤S1中，获取直播平台当前的直播视频影像，从该直播视频影像中提取得到直播弹幕信息具体包括：

按照直播平台的直播时间顺序，从该直播视频影像中依次提取得到若干直播图片；

对该直播图片进行识别处理，得到该直播图片的画面内对应存在的直播弹幕信息及其弹幕信息发送来源。

上述技术方案的有益效果为：当直播平台的特性直播房间进行直播过程中实施实时录屏，获得相应的直播视频影像，并按照直播时间顺序，依次提取得到直播视频影像包含的若干直播图片，这样能够保证每个直播图片包含观众在观看直播过程中通过用户终端发送的直播弹幕信息。接着，对每个直播图片进行识别处理，得到其画面内包含的直播弹幕信息内容及其对应发送的用户终端，这样能够全面地抓取得到所有直播弹幕信息，有效避免直播弹幕信息遗漏检测的情况。

优选地，在该步骤S2中，对该直播图片进行识别处理，得到该直播图片的画面内对应存在的直播弹幕信息具体包括：

从该直播图片中提取得到直播内容图层和直播弹幕图层，并对该直播内容图层进行图像模糊化处理，以及对该直播弹幕图层进行图像像素锐化处理；

再从该直播弹幕图层中识别提取得到该直播弹幕图层画面范围内存在的直播弹幕信息。

上述技术方案的有益效果为：直播平台在进行直播过程中，其通过直播内容图层显示相应的直播视频影像以及通过直播弹幕图层显示相应的直播弹幕信息，这样能够防止直播视频影像与直播弹幕信息之间发生干扰。对该直播内容图层进行图像模糊化处理，以及对该直播弹幕图层进行图像像素锐化处理，这样能够保证后续在直播弹幕图层的整个画面范围全面准确地识别其中存在的直播弹幕信息。

优选地，在该步骤S1中，从该直播弹幕信息中区分识别其中包含的弹幕文本内容具体包括：

从该直播弹幕信息中获取其包括的所有信息符号的符号轮廓形状特征；

根据该符号轮廓形状特征，将该直播弹幕信息包括的每个信息符号区分为文本信息符号和非文本信息符号；

按照所有文本信息符号在该直播弹幕信息中的原有排列顺序，将所有文本信息符号排列组成为弹幕文本内容。

上述技术方案的有益效果为：观众通过用户终端发送的直播弹幕信息可包括文字类的文本弹幕信息和符号类的非文本弹幕信息，其中只有文字类的文本弹幕信息会存在暴利低俗内容的风险。通过对直播弹幕信息包括的所有信息符号的符号轮廓形状特征，将直播弹幕信息包括的每个信息符号区分为文本信息符号和非文本信息符号，能够保证后续只对文本信息符号进行进一步的内容审核，有效降低弹幕信息审核的工作量和提高弹幕信息的审核速度。

优选地，在该步骤S2中，对该弹幕文本内容进行文本词语预处理，从而将该弹幕文本内容转换为文本词汇向量具体包括：

根据该弹幕文本内容的文本语义，对该弹幕文本内容进行文本分词处理，得到若干弹幕文本分词；再将该弹幕文本分词转换为文本词汇向量。

上述技术方案的有益效果为：先通过对该弹幕文本内容进行文本语义识别，确定该弹幕文本内容整体的文本语义，这样能够对该弹幕文本内容进行具有不同文本语义的文本分词切割，确保对该弹幕文本内容所有词汇分词进行独立化的区分，便于将该弹幕文本分词转换为神经网络模型可识别的文本词汇向量。

优选地，在该步骤S3中，利用LSTM神经网络模型对该文本词汇向量进行分类处理，判断该弹幕文本内容是否存在违规的暴力低俗信息具体包括：

将该文本词汇向量输入到已完成训练的LSTM神经网络模型中进行分类处理，从而确定该文本词汇向量对应的弹幕文本分词是否属于违规的暴力低俗文本词汇；

若属于，则确定该弹幕文本内容存在违规的暴力低俗信息；若不属于，则确定该弹幕文本内容不存在违规的暴力低俗信息。

上述技术方案的有益效果为：利用已完成训练的LSTM神经网络模型对该文本词汇向量进行分类处理，这样能够对该文本词汇向量包含的多个词汇元素进行同步分类，以提高判断弹幕文本分词是否属于违规的暴力低俗文本词汇的效率和可靠性。

优选地，在该步骤S4中，根据上述判断结果，对存在违规的暴力低俗信息的弹幕文本内容进行屏蔽处理具体包括：

若该弹幕文本内容存在违规的暴力低俗信息，则根据该弹幕文本内容在该直播视频影像的画面存在的位置，对该弹幕文本内容进行视觉透明化的屏蔽处理。

上述技术方案的有益效果为：由于直播弹幕消息通常是以水平滑动的方式动态显示与直播视频影像中，当确定该弹幕文本内容存在违规的暴力低俗信息，根据该弹幕文本内容在该直播视频影像的画面存在的位置，对该弹幕文本内容进行视觉透明化的屏蔽处理，这样能够保证该弹幕文本内容进行动态匹配的遮蔽，防止直播视频影像中存在违规的内容信息。

优选地，在该步骤S4中，还包括：

若该弹幕文本内容存在违规的暴力低俗信息，则指示直播平台终端向对应弹幕信息发送来源的用户终端进行禁止弹幕输出操作。

上述技术方案的有益效果为：当该弹幕文本内容存在违规的暴力低俗信息，则指示直播平台终端向对应弹幕信息发送来源的用户终端进行禁止弹幕输出操作，这样能够对发出暴力低俗弹幕的用户终端进行禁言惩罚，有效避免用户终端继续发出违规弹幕。

优选地，在该步骤S4，还包括：

若该弹幕文本内容不存在违规的暴力低俗信息，则根据该弹幕信息发送来源的用户终端历史以往被禁止弹幕输出操作的次数，控制当前发送的弹幕信息的弹幕文本内容的透明度，以及实时监测直播平台的弹幕显示区域内的颜色变化情况，还根据该弹幕信息发送来源的用户终端历史以往被禁止弹幕输出操作的次数，控制弹幕信息的显示颜色，还根据该弹幕信息的长度，调整该弹幕信息在直播平台上显示的速度，其具体过程为：

步骤S401，利用下面公式(1)，根据该弹幕信息发送来源的用户终端历史以往被禁止弹幕输出操作的次数，控制当前发送的弹幕信息的弹幕文本内容的透明度，

在上述公式(1)中，E(i、)表示第i个不存在违规的暴力低俗信息的弹幕文本内容的透明度；E₀表示预先设定的弹幕文本内容的基准透明度；N(i)表示第i个不存在违规的暴力低俗信息的弹幕文本内容所对应的发送来源的用户终端历史以往发送弹幕信息的总次数；n表示预设的排查次数；D(i)表示第i个不存在违规的暴力低俗信息的弹幕文本内容所对应的发送来源的用户终端历史以往被禁止弹幕输出操作的次数；int{}表示对括号内的数值取整；

步骤S402，利用下面公式(2)，根据该弹幕信息发送来源的用户终端历史以往被禁止弹幕输出操作的次数，控制弹幕信息的显示颜色，

步骤S403，利用下面公式(3)，根据该弹幕信息的长度，调整该弹幕信息在直播平台上显示的速度，

上述技术方案的有益效果为：利用上述公式(1)根据所述弹幕信息发送来源的用户终端历史近几次被直播平台终端禁止的次数控制所述弹幕文本内容的透明度，从而让用户吸取前几次被封禁的教训，降低透明度来提醒用户谨慎发言；然后利用上述公式(2)根据弹幕信息发送来源的用户终端历史被直播平台终端禁止的次数以及实时监测直播平台弹幕显示区域内的颜色变换情况控制所述弹幕的显示颜色，从而根据历史禁止次数来与实时监测直播平台弹幕显示区域内的颜色相融合，进而避免该用户再次发送违规的暴力低俗信息未被检测出来时的预警操作；最后利用上述公式(3)根据弹幕信息发送来源的用户终端历史近几次被直播平台终端禁止的次数以及弹幕信息的长度和当前正常弹幕的显示速度控制所述弹幕信息的在平台上显示的速度，从而使历史存在被禁止的用户发送的较长弹幕以较快速的进行显示，防止长弹幕中存在未被检测出来的违规的暴力低俗信息，最大程度以及最人性化的屏蔽所述暴力低俗信息。

从上述实施例的内容可知，该基于LSTM技术的暴力低俗弹幕检测方法从直播平台当前的直播视频影像中提取得到直播弹幕信息，并识别其中包含的弹幕文本内容；将弹幕文本内容进行文本词语预处理，转换得到文本词汇向量；利用LSTM神经网络模型对文本词汇向量进行分类处理，判断弹幕文本内容是否存在违规的暴力低俗信息，并且对存在违规的暴力低俗信息的弹幕文本内容进行屏蔽处理；上述检测方法对直播平台的直播视频影像出现的所有直播弹幕信息进行文本词汇的转换，得到与LSTM神经网络模型相匹配的文本词汇向量，这样能够对每条直播弹幕信息进行自动分类识别，减少对弹幕信息进行人工检测审核的工作量，避免弹幕信息的遗漏识别，改善直播平台的直播环境健康性。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.基于LSTM技术的暴力低俗弹幕检测方法，其特征在于，其包括如下步骤：

2.如权利要求1所述的基于LSTM技术的暴力低俗弹幕检测方法，其特征在于：

在所述步骤S1中，获取直播平台当前的直播视频影像，从所述直播视频影像中提取得到直播弹幕信息具体包括：

对直播平台进行实时录屏，以此获取直播平台当前的直播视频影像；按照直播平台的直播时间顺序，从所述直播视频影像中依次提取得到若干直播图片；

3.如权利要求2所述的基于LSTM技术的暴力低俗弹幕检测方法，其特征在于：

在所述步骤S2中，对所述直播图片进行识别处理，得到所述直播图片的画面内对应存在的直播弹幕信息具体包括：

4.如权利要求3所述的基于LSTM技术的暴力低俗弹幕检测方法，其特征在于：

在所述步骤S1中，从所述直播弹幕信息中区分识别其中包含的弹幕文本内容具体包括：

5.如权利要求4所述的基于LSTM技术的暴力低俗弹幕检测方法，其特征在于：

在所述步骤S2中，对所述弹幕文本内容进行文本词语预处理，从而将所述弹幕文本内容转换为文本词汇向量具体包括：

6.如权利要求5所述的基于LSTM技术的暴力低俗弹幕检测方法，其特征在于：

在所述步骤S3中，利用LSTM神经网络模型对所述文本词汇向量进行分类处理，判断所述弹幕文本内容是否存在违规的暴力低俗信息具体包括：

7.如权利要求6所述的基于LSTM技术的暴力低俗弹幕检测方法，其特征在于：

在所述步骤S4中，根据上述判断结果，对存在违规的暴力低俗信息的弹幕文本内容进行屏蔽处理具体包括：

8.如权利要求7所述的基于LSTM技术的暴力低俗弹幕检测方法，其特征在于：

在所述步骤S4中，还包括：

9.如权利要求8所述的基于LSTM技术的暴力低俗弹幕检测方法，其特征在于：

在所述步骤S4，还包括：

在上述公式(1)中，E(i)表示第i个不存在违规的暴力低俗信息的弹幕文本内容的透明度；E₀表示预先设定的弹幕文本内容的基准透明度；N(i)表示第i个不存在违规的暴力低俗信息的弹幕文本内容所对应的发送来源的用户终端历史以往发送弹幕信息的总次数；n表示预设的排查次数；D(i)表示第i个不存在违规的暴力低俗信息的弹幕文本内容所对应的发送来源的用户终端历史以往被禁止弹幕输出操作的次数；int{}表示对括号内的数值取整；

在上述公式(2)中，[R(i),G(i),B(i)]表示第i个不存在违规的暴力低俗信息的弹幕文本内容的显示颜色RGB值；(R₀,G₀,B₀)表示预先设定的弹幕文本内容的显示颜色RGB值；t表示当前时刻；[R(a_t),G(a_t),B(a_t)]表示；m表示当前时刻实时监测的直播平台弹幕显示区域内的显示颜色中显示的第a个颜色的RGB值；m表示当前时刻实时监测的直播平台弹幕显示区域内显示的颜色总数；