CN110198453A

CN110198453A - 基于弹幕的直播内容过滤方法、存储介质、设备及系统

Info

Publication number: CN110198453A
Application number: CN201910435266.1A
Authority: CN
Inventors: 肖源
Original assignee: Wuhan Ouyue Netvision Co Ltd
Current assignee: Wuhan Ouyue Netvision Co Ltd
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2019-09-03

Abstract

本发明公开了一种基于弹幕的直播内容过滤方法、存储介质、设备及系统，涉及互联网直播领域，该方法包括获取合规直播间和被封禁直播间的历史弹幕，作为训练样本，其中，正常直播间的历史弹幕作为正样本，被封禁直播间的历史弹幕作为负样本；将所述训练样本输入分类器，执行分类器算法，得到分类模型；直播间当前弹幕作为测试样本输入分类模型，得到输出；基于分类模型对测试样本中每条弹幕的输出结果，若当前直播间设定时间段内输出结果为负例的弹幕条数，相较于该时间段内当前直播间的总弹幕条数的占比超过设定百分比，则封禁当前直播间。本发明基于直播间弹幕以对直播间直播内容进行监测，识别效率高。

Description

基于弹幕的直播内容过滤方法、存储介质、设备及系统

技术领域

本发明涉及互联网直播领域，具体涉及一种基于弹幕的直播内容过滤方法、存储介质、设备及系统。

背景技术

随着互联网技术的飞速发展，人们获取信息的方式也越来越方便，娱乐的方式也朝向多样化趋势发展。在移动互联网时代，直播已成为人们打发时间的一种常见方式，在直播领域，主播作为发起者，通过表演节目或才艺吸引观众前来观看，当观众达到一定数目时即可获取一定收入，同时也可通过观众打赏礼物的方式来获取额外的收入，观众数的多少是主播经济收入的一个重要评判标准，在这种情况下，某些主播为了吸引观众，增加直播间的观众数，以表演低俗节目的方式来吸引观众，此类节目伤害人们身心健康，影响青少年的健康成长，为了响应国家的净网号召，需要对此类主播的直播间进行及时封禁或永久关闭。

现有阶段，直播平台对于直播间直播内容的审查通常是采用人工核查和图像识别的方式，但人工审查需要人工对每个直播间进行审查，费时费力；图像识别方式需要对直播间的直播画面进行截取，按帧识别，但直播中图像的帧数较多，导致识别速度较慢。

发明内容

针对现有技术中存在的缺陷，本发明的目的在于提供一种基于弹幕的直播内容过滤方法、存储介质、设备及系统，基于直播间弹幕以对直播间直播内容进行监测，识别效率高。

本发明第一方面提供一种基于弹幕的直播内容过滤方法，包括以下步骤：

获取合规直播间和被封禁直播间的历史弹幕，作为训练样本，其中，正常直播间的历史弹幕作为正样本，被封禁直播间的历史弹幕作为负样本；

将所述训练样本输入分类器，执行分类器算法，得到分类模型；

直播间当前弹幕作为测试样本输入分类模型，得到输出；

基于分类模型对测试样本中每条弹幕的输出结果，若当前直播间设定时间段内输出结果为负例的弹幕条数，相较于该时间段内当前直播间的总弹幕条数的占比超过设定百分比，则封禁当前直播间。

结合第一方面，在第一种可能的实现方式中，

所述训练样本输入分类器前，还包括：采用分词算法将训练样本中的每条弹幕进行分词，得到词项；

所述测试样本输入分类模型前，还包括：采用分词算法将测试样本中的每条弹幕进行分词，得到词项。

结合第一方面的第一种可能实现方式，在第二种可能的实现方式中，

所述分类器为三层神经网络分类器；

所述执行分类器算法，得到分类模型，具体步骤包括：

将训练样本分词后得到的每个词项进行向量化表示；

以每条弹幕为单位，向量化表示的词项输入到隐藏层进行求和，其中，隐藏层的神经元个数与当前弹幕词项的维度数m相同，维度数m等于当前弹幕分词后的词项数；

对隐藏层的m维向量进行二分类求值。

结合第一方面的第二种可能实现方式，在第三种可能的实现方式中：所述向量化表示的词项输入到隐藏层进行求和，所使用的公式为

其中，h_i表示隐藏层第i个神经元的值，w_i表示当前弹幕分词后第i个向量化表示的词项，表示当前弹幕分词后第i个向量化表示的词项的权重，n表示当前弹幕分词后得到的词项数。

结合第一方面的第三种可能实现方式，在第四种可能的实现方式中：所述对隐藏层的m维向量进行二分类求值，所使用的公式为

其中，label表示二分类求值后得到的值，sign表示符号函数。

结合第一方面，在第五种可能的实现方式中：

所述合规直播间和被封禁直播间的类别均包括游戏直播间、才艺表演直播间和户外直播间；

所述训练样本中的弹幕包括游戏直播间、才艺表演直播间和户外直播间的弹幕，且字数小于设定值的弹幕不作为训练样本。

结合第一方面，在第六种可能的实现方式中：

对于签约主播的直播间，则按照预设比例随机抽取直播间的当前弹幕作为测试样本，输入分类模型；

对于非签约主播的直播间，则将直播间的当前所有弹幕作为测试样本，输入分类模型。

本发明第二方面提供一种存储介质，该存储介质上存储有计算机程序：所述计算机程序被处理器执行时实现以下步骤：

直播间当前弹幕作为测试样本输入分类模型，得到输出；

本发明第三方面提供一种电子设备，所述电子设备包括：

样本获取单元，其用于获取合规直播间和被封禁直播间的历史弹幕，作为训练样本，其中，正常直播间的历史弹幕作为正样本，被封禁直播间的历史弹幕作为负样本；

训练单元，其用于将所述训练样本输入分类器，执行分类器算法，得到分类模型；

输入单元，其用于将直播间当前弹幕作为测试样本输入分类模型，得到输出；

判断单元，其用于基于分类模型对测试样本中每条弹幕的输出结果，若当前直播间设定时间段内输出结果为负例的弹幕条数，相较于该时间段内当前直播间的总弹幕条数的占比超过设定百分比，则封禁当前直播间。

本发明第四方面提供一种基于弹幕的直播内容过滤系统，包括：

样本获取模块，其用于获取合规直播间和被封禁直播间的历史弹幕，作为训练样本，其中，正常直播间的历史弹幕作为正样本，被封禁直播间的历史弹幕作为负样本；

训练模块，其用于将所述训练样本输入分类器，执行分类器算法，得到分类模型；

输入模块，其用于将直播间当前弹幕作为测试样本输入分类模型，得到输出；

判断模块，其用于基于分类模型对测试样本中每条弹幕的输出结果，若当前直播间设定时间段内输出结果为负例的弹幕条数，相较于该时间段内当前直播间的总弹幕条数的占比超过设定百分比，则封禁当前直播间。

与现有技术相比，本发明的优点在于：通过获取历史弹幕作为训练样本，输入分类器进行训练，以得到分类模型，进而使用得到的分类模型对直播间的当前弹幕进行检测，间接实现对于直播间内容的监测，当直播间设定时间段内输出结果为负例的弹幕条数，相较于该时间段内直播间的总弹幕条数的占比超过设定百分比，则封禁直播间，能够快速定位违法违纪的直播间并进行处理，增加了净网效率，并降低了人力成本，且基于文本类的弹幕进行监测识别，识别效率高，速度快。

附图说明

图1为本发明实施例中一种基于弹幕的直播内容过滤方法的流程图；

图2为本发明实施例中一种电子设备的结构示意图。

具体实施方式

本发明实施例提供一种基于弹幕的直播内容过滤方法，对用户所发弹幕进行监测判断，以对直播间直播内容监测，从而及时封禁违法直播间。本发明还相应的提供了一种存储介质、电子设备和基于弹幕的直播内容过滤系统。

参见图1所示，本发明实施例提供的一种基于弹幕的直播内容过滤方法的一实施例包括：

S1：获取合规直播间和被封禁直播间的历史弹幕，作为训练样本，其中，正常直播间的历史弹幕作为正样本，被封禁直播间的历史弹幕作为负样本。

本发明实施例中，合规直播间指的是直播内容合法合规，符合正常价值观，被封禁直播间中的直播内容为低俗、色情、暴力等违法违规的内容，当直播间直播内容中出现低俗、色情、暴力等违法违规内容，该类直播间便会被立马封禁，成为被封禁直播间。直播间中用户所发的弹幕与直播内容相关，合规直播间的直播内容为积极向上内容，故合规直播间中的用户所发弹幕也为积极向长、合法合规、不涉及低俗、色情、暴力等方面的正常词语，因此取合规直播间中的历史弹幕作为正样本；被封禁直播间的直播内容为低俗、色情、暴力等违法违规内容，故被封禁直播间中的用户所发弹幕也通常为低俗、色情、暴力等方面的内容，故取被封禁直播间的历史弹幕作为负样本，从而完成正负语料的准备。

本发明实施例中，合规直播间和被封禁直播间的类别均包括游戏直播间、才艺表演直播间和户外直播间，训练样本中的弹幕包括游戏直播间、才艺表演直播间和户外直播间的弹幕，且字数小于设定值的弹幕不作为训练样本，即直播间的分类会包括多种类型，每个类型下的直播间在直播过程中均有可能产生违法直播内容，进而被封禁，成为被封禁直播间，因此为保证分类模型训练的全面性，去多种类型直播间的历史弹幕作为训练样本，以便于后续分类模型的训练。

进一步的，为保证训练的精度，对于所取训练样本中的弹幕，若弹幕中不含汉字、弹幕内容文字仅为含有一个汉字的叠词(如哈哈、呵呵等)以及弹幕的文字字数小于3，则舍弃该条弹幕，以免影响分类模型效果。

本发明实施例步骤S1的实现方式中，针对直播场景，选取直播间的历史弹幕作为训练样本，正常直播间的历史弹幕作为正样本，被封禁直播间的历史弹幕作为负样本，在直播领域，某些词汇为直播场景下的专有词汇，通过使用历史弹幕作为训练样本，使得后续训练出的分类模型能够针对直播领域的专有词汇进行分类，从而有效提升分类模型针对直播领域词汇分类的精确性。

S2：将所述训练样本输入分类器，执行分类器算法，得到分类模型。分类器为三层神经网络分类器，包括输入层、隐藏层和输出层。

本发明实施例中，分类是数据挖掘的一种方法，是在已有数据的基础上学会一个分类函数或构造出一个分类模型(即分类器)，该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个，从而可以应用于数据预测，分类器是数据挖掘中对样本进行分类的方法的统称，分类器算法包括包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。通过对分类器的训练，使得得到的分类器模型能够对直播中的弹幕进行分类，输出正例和负例，正例则表示当前弹幕的含义为积极向上，合法合规的意思，负例则表示当前弹幕含义为低俗、色情、暴力等违法违规的意思。

本发明实施例步骤S2的实现方式中，通过将训练样本输入分类器，对分类器进行训练，后续便可使用训练得到的分类模型直接对直播间当前弹幕进行分类，自动化程度高，且分类精确。

S3：直播间当前弹幕作为测试样本输入分类模型，得到输出。输出结果包括正例和负例，若弹幕所含词语在训练样本的正样本中多次出现，则该弹幕最终让分类模型输出的结果为正例，若弹幕所含词语在训练样本的负样本中多次出现，则该弹幕最终让分类模型输出的结果为负例。例如弹幕为AA(积极向上词语，如加油)，AA在正样本中出现次数超过一定值，则该弹幕最终让分类模型输出的结果为正例，若弹幕为BB(低俗、色情、暴力词语)，则该弹幕最终让分类模型输出的结果为负例。

本发明实施例步骤S3的实现方式中，将直播间当前弹幕作为测试样本输入分类模型，分类模型相应输出结果，弹幕具有很强的导向性，故基于弹幕的输出结果即可判断出当前直播间是否在进行违法违规内容的直播，分类模型输出的结果为直播间内容的判断过滤提供有效依据。

S4：基于分类模型对测试样本中每条弹幕的输出结果，若当前直播间设定时间段内输出结果为负例的弹幕条数，相较于该时间段内当前直播间的总弹幕条数的占比超过设定百分比，则封禁当前直播间。例如在一时间段内，某直播间总共有1000条弹幕，其中输出结果为负例的弹幕条数超过400条，则封禁该直播间，因为直播间的弹幕文字内容是与直播内容相关的，故当某直播间的弹幕经分类模型输出后，输出的结果大量为负例，则说明该直播间正在进行违法违纪的直播内容直播，需要及时封禁该直播间，实现对于违法违纪直播间的过滤，以免造成不好的负面影响，有效保证积极向上的直播氛围。

本发明实施例的基于弹幕的直播内容过滤方法，通过获取历史弹幕作为训练样本，输入分类器进行训练，以得到分类模型，进而使用得到的分类模型对直播间的当前弹幕进行检测，间接实现对于直播间内容的监测，当直播间设定时间段内输出结果为负例的弹幕条数，相较于该时间段内直播间的总弹幕条数的占比超过设定百分比，则封禁直播间，能够快速定位违法违纪的直播间并进行处理，增加了净网效率，并降低了人力成本，且基于文本类的弹幕进行监测识别，识别效率高，速度快。

可选地，在上述图1对应实施例的基础上，本发明实施例提供的一种基于弹幕的直播内容过滤方法的第一个可选实施例中，训练样本输入分类器前，还包括：采用分词算法将训练样本中的每条弹幕进行分词，得到词项；测试样本输入分类模型前，还包括：采用分词算法将测试样本中的每条弹幕进行分词，得到词项。分词算法采用现有技术中常见的即可，对于弹幕的分词，例如某条弹幕为“主播加油”，则分词后得到的词项为“主播”和“加油”两个词项。

测试样本输入分类模型前，还包括：采用分词算法将测试样本中的每条弹幕进行分词，得到词项。

执行分类器算法，得到分类模型，具体步骤包括：

S201：将训练样本分词后得到的每个词项进行向量化表示。对于每个词项的向量化表示，可以使用梯度下降法进行求解，对词项进行word-embeding(词嵌入向量)，将每条弹幕的每个词项都变成向量化表示形式，比如：

词项“主播”的向量化表示为(1,0.4,0,0.8,0.6,0.5,0,0,0,0.99)

词项“加油”的向量化表示为(0.6,0.2,1,0.4,0.6,0.5,0,0,0,0.34)。

S202：以每条弹幕为单位，向量化表示的词项输入到隐藏层进行求和，即每条弹幕为一个整体，每一次进行求和时，单条弹幕的所有向量化表示的词项输入到隐藏层进行求和。隐藏层的神经元个数与当前弹幕词项的维度数m相同，维度数m等于当前弹幕分词后的词项数；

S203：对隐藏层的m维向量进行二分类求值，得到的值即为输出层的输出。

在一种可能的实现方式中，训练样本也可以使用弹幕中的表情和符号，不只是单纯的使用文本类弹幕作为训练样本，表情和符号也代表有含义，也能够反映出直播间的当前直播内容，当使用表情和符号作为训练样本时，表情和符号的向量化表示时，其向量无需设置过长，设置在50以内即可。

可选地，在上述一种基于弹幕的直播内容过滤方法第一个可选实施例的基础上，本发明实施例提供的一种基于弹幕的直播内容过滤方法的第二个可选实施例中，向量化表示的词项输入到隐藏层进行求和，所使用的公式为

对隐藏层的m维向量进行二分类求值，所使用的公式为

其中，label表示二分类求值后得到的值，sign表示符号函数。

可选地，在上述一种基于弹幕的直播内容过滤方法第二个可选实施例的基础上，本发明实施例提供的第三个可选实施例中，为一步缩短弹幕分类识别的时间，提升直播内容过滤效率。

签约主播的直播内容一般为直播平台所认可的，经过直播平台考核认证，从而和主播进行签约，签约主播的直播内容一般为积极向上的内容，不会出现违法违纪内容，故对于此类主播的直播间可以减少监控力度，以节省资源去监控其它直播间，故随机抽取弹幕作为测试样本输入分类模型即可，减少弹幕分类量，将更多的硬件资源分配给非签约主播直播间的弹幕分类。

本发明实施例提供的一种存储介质的一实施例包括，该存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

直播间当前弹幕作为测试样本输入分类模型，得到输出；

可选地，在上述存储介质实施例的基础上，本发明实施例提供的一种存储介质的第一个可选实施例中，存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可选地，在上述存储介质的实施例及第一个可选实施例的基础上，本发明实施例提供的一种存储介质的第二个可选实施例中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可选地，在上述存储介质的实施例及第一、第二个可选实施例的基础上，本发明实施例提供的一种存储介质的第三个可选实施例中，可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本发明实施例提供的一种电子设备，包括：

本发明实施例提供的一种基于弹幕的直播内容过滤系统，包括：

分类器为三层神经网络分类器。执行分类器算法，得到分类模型，具体步骤包括：

将训练样本分词后得到的每个词项进行向量化表示；

对隐藏层的m维向量进行二分类求值。

向量化表示的词项输入到隐藏层进行求和，所使用的公式为

对隐藏层的m维向量进行二分类求值，所使用的公式为

其中，label表示二分类求值后得到的值，sign表示符号函数。

本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

本发明不局限于上述实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于弹幕的直播内容过滤方法，其特征在于，包括以下步骤：

直播间当前弹幕作为测试样本输入分类模型，得到输出；

2.如权利要求1所述的一种基于弹幕的直播内容过滤方法，其特征在于，

3.如权利要求2所述的一种基于弹幕的直播内容过滤方法，其特征在于，

所述分类器为三层神经网络分类器；

所述执行分类器算法，得到分类模型，具体步骤包括：

将训练样本分词后得到的每个词项进行向量化表示；

对隐藏层的m维向量进行二分类求值。

4.如权利要求3所述的一种基于弹幕的直播内容过滤方法，其特征在于：所述向量化表示的词项输入到隐藏层进行求和，所使用的公式为

5.如权利要求4所述的一种基于弹幕的直播内容过滤方法，其特征在于：所述对隐藏层的m维向量进行二分类求值，所使用的公式为

其中，label表示二分类求值后得到的值，sign表示符号函数。

6.如权利要求1所述的一种基于弹幕的直播内容过滤方法，其特征在于：

7.如权利要求1所述的一种基于弹幕的直播内容过滤方法，其特征在于：

8.一种存储介质，该存储介质上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现以下步骤：

直播间当前弹幕作为测试样本输入分类模型，得到输出；

9.一种电子设备，其特征在于，所述电子设备包括：

10.一种基于弹幕的直播内容过滤系统，其特征在于，包括：