CN109511000A

CN109511000A - 弹幕类别确定方法、装置、设备及存储介质

Info

Publication number: CN109511000A
Application number: CN201811315728.8A
Authority: CN
Inventors: 王非池
Original assignee: Wuhan Douyu Network Technology Co Ltd
Current assignee: Wuhan Douyu Network Technology Co Ltd
Priority date: 2018-11-06
Filing date: 2018-11-06
Publication date: 2019-03-22
Anticipated expiration: 2038-11-06
Also published as: CN109511000B

Abstract

本发明实施例公开了一种弹幕类别确定方法、装置、设备及存储介质，该方法包括：获取待处理弹幕，并基于N‑gram模型确定所述待处理弹幕的有效分词；获取有效分词所对应的不同弹幕类别的分词概率；获取每个有效分词的TF‑IDF值，以及求取每个有效分词的TF‑IDF值与分词概率的乘积，以更新分词概率；基于N‑gram模型和更新后的分词概率，求取待处理弹幕的弹幕类别概率，并将最大的弹幕类别概率所对应的弹幕类别作为待处理弹幕的弹幕类别，其中，弹幕类别包括正常弹幕和喷子弹幕。解决了现有技术的弹幕类别确定方法均存在一定时间延迟的技术问题，达到了提高弹幕类别确定速度的技术效果。

Description

弹幕类别确定方法、装置、设备及存储介质

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种弹幕类别确定方法、装置、设备及存储介质。

背景技术

弹幕是直播平台中用户进行交互的直接手段之一，高质量的弹幕文化容易让用户对直播平台留下深刻印象，增加平台的用户留存。然而，在弹幕中不仅仅有主播的粉丝，也存在一些别有用心的用户，他们常常使用一些低俗或者是讽刺的弹幕，干扰主播的正常直播，这部分弹幕称之为喷子弹幕。喷子弹幕的主要特点包括：1.用词下流，不堪入目；2.用词经常变化，但是有一定句式结构； 3.有强烈的自我意识与个性，想要展现自己。对于喷子弹幕的过滤，可以很大程度的提升平台的观看体验，同时也让许多别有用心的用户无所遁形。

现有技术对于喷子弹幕的识别有卷积神经网路、支撑向量机、梯度提升树等模型，但这些算法的复杂度的限制，导致应用存在一定的延迟。

发明内容

本发明实施例提供一种弹幕类别确定方法、装置、设备及存储介质，以解决现有技术的弹幕类别确定方法均存在一定时间延迟的技术问题，以提高弹幕类别的确定速度。

第一方面，本发明实施例提供了一种弹幕类别确定方法，包括：

获取待处理弹幕，并基于N-gram模型确定所述待处理弹幕的有效分词；

获取所述有效分词所对应的不同弹幕类别的分词概率，其中，所述分词概率为有效分词在样本集中的出现概率；

获取每个所述有效分词的TF-IDF值，以及求取每个有效分词的TF-IDF值与分词概率的乘积以更新所述分词概率；

基于N-gram模型和更新后的所述分词概率，求取所述待处理弹幕的弹幕类别概率，并将最大的弹幕类别概率所对应的弹幕类别作为所述待处理弹幕的弹幕类别，其中，弹幕类别包括正常弹幕和喷子弹幕。

进一步，所述获取待处理弹幕，并基于N-gram模型确定所述待处理弹幕的有效分词，包括：

获取待处理弹幕的有效文本；

确定N-gram模型的N值和概率方式，其中，N为自然数；

基于所述N-gram模型的N值对所述待处理弹幕的有效文本进行分词，去掉所有分词中的停用词，并将剩余分词作为有效分词。

进一步，所述获取待处理弹幕的有效文本，包括：

获取待处理弹幕，并过滤所述待处理弹幕的无用字符以得到第一文本，所述第一文本仅包括unicode编码中的中文部分、标点符号部分和emoji表情部分；

对所述第一文本的符号文本进行替换以生成第二文本，且替换内容包括 emoji表情和文字表情；

对所述第二文本的形变关键词进行替换以生成第三文本；

通过拼音的模糊性对所述第三文本的谐音关键词进行替换以生成有效文本。

进一步，所述获取所述有效分词所对应的不同弹幕类别的分词概率，包括：

从概率查询表中读取所述有效分词所对应的不同弹幕类别的分词概率，其中，所述概率查询表记载有有效分词的分词概率，且所述分词概率为有效分词基于预设排序的后验概率。

进一步，所述概率查询表的获取方法为：

获取预设数量的训练弹幕的有效文本；

对所获取的训练弹幕进行分词，去掉所有分词中的停用词并将剩余分词作为有效分词；

将包括有效分词的训练弹幕作为样本集；

获取每个有效分词在样本集中以不同弹幕类别形式出现的概率，将该概率作为分词概率，并将所有有效分词的分词概率汇总成概率查询表。

进一步，所述获取每个所述有效分词的TF-IDF值，包括：

获取每个有效分词在所述待处理弹幕的有效文本中的词频以作为TF值，具体为：其中n_i，j表示有效分词i在待处理弹幕j的有效文本中出现的次数，∑_kn_k，j表示待处理弹幕j的有效文本中的有效分词数量；

获取每个有效分词的逆文本频率指数，即IDF值，具体为：其中，|D|表示样本集的弹幕总条数。|{j∶t_i∈d_j}|表示样本集中包含有效分词i的弹幕条数；

求取所述TF值与所述IDF值的乘积以作为TF-IDF值，具体为： TF-IDF_i，j＝tf_i，j*idf_i。

进一步，所述分词概率和所述弹幕类别概率均为对数概率。

第二方面，本发明实施例还提供了一种弹幕类别确定装置，包括：

有效分词确定模块，用于获取待处理弹幕，并基于N-gram模型确定所述待处理弹幕的有效分词；

概率获取模块，用于获取所述有效分词所对应的不同弹幕类别的分词概率，其中，所述分词概率为有效分词在样本集中的出现概率；

概率更新模块，用于获取每个所述有效分词的TF-IDF值，以及求取每个有效分词的TF-IDF值与分词概率的乘积，以更新所述分词概率；

弹幕类别确定模块，用于基于N-gram模型和更新后的所述分词概率，求取所述待处理弹幕的弹幕类别概率，并将最大的弹幕类别概率所对应的弹幕类别作为所述待处理弹幕的弹幕类别，其中，弹幕类别包括正常弹幕和喷子弹幕。

第三方面，本发明实施例还提供了一种设备，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的弹幕类别确定方法。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的弹幕类别确定方法。

本发明实施例提供的弹幕类别确定方法的技术方案，包括：获取待处理弹幕，并基于N-gram模型确定所述待处理弹幕的有效分词；获取有效分词所对应的不同弹幕类别的分词概率，其中，所述分词概率为有效分词在样本集中的出现概率；获取每个有效分词的TF-IDF值，以及求取每个有效分词的TF-IDF值与分词概率的乘积，以更新分词概率；基于N-gram模型和更新后的所述分词概率，求取待处理弹幕的弹幕类别概率，并将最大的弹幕类别概率所对应的弹幕类别作为待处理弹幕的弹幕类别，其中，弹幕类别包括正常弹幕和喷子弹幕。通过TF-IDF值与N-gram模型可以准确快速地确定弹幕类别，达到实时检测过滤喷子弹幕的技术效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的弹幕类别确定方法的流程图；

图2是本发明实施例二提供的弹幕类别确定装置的结构框图；

图3是本发明实施例三提供的设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下将参照本发明实施例中的附图，通过实施方式清楚、完整地描述本发明的技术方案，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1是本发明实施例一提供的弹幕类别确定方法的流程图。本实施例的技术方案适用于检测喷子弹幕的情况。该方法可以由本发明实施例提供的弹幕类别确定装置来执行，该装置可以采用软件和/或硬件的方式实现，并配置在处理器中应用。该方法具体包括如下步骤：

S101、获取待处理弹幕，并基于N-gram模型确定待处理弹幕的有效分词。

获取待处理弹幕，比如：过滤待处理弹幕的无用字符以得到第一文本，其中，第一文本仅包括unicode编码中的中文部分、标点符号部分和emoji表情部分，由于该弹幕不存在无用字符，过滤后仍为然后对第一文本的符号文本进行替换以生成第二文本，且替换内容包括emoji表情和文字表情，比如，将替换为“狗(#)”，将替换为“马”等，待处理弹幕对应的第二文本为【#$主播你是真的％&】(将狗以#表示)；然后对第二文本的形变关键词进行替换以生成第三文本，比如，将“％&”替换为“％*”、将“～马”替换为“～妈”等，则待处理弹幕对应的第三文本为【#*主播你是真的％*】；再通过拼音的模糊性对第三文本的谐音关键词进行替换以生成有效文本。

其中，有效分词与N-gram模型的N值、概率方式有关，N值为自然数，对应于每个分词的字数，本实施例以2为例进行说明，当N为2时，将待处理弹幕的有效文本划分为双字词组，去掉所有分词中的停用词，并将剩余分词作为有效分词。

S102、获取有效分词所对应的不同弹幕类别的分词概率，其中，分词概率为有效分词在样本集中的出现概率。

其中，分词概率为后验概率，具体为：将后一有效分词与前一有效分词的后验概率作为该后一有效分词的分词概率，由于第一个有效分词没有前一有效分词，因此将其自身概率作为分词概率。

基于后验概率的N-gram模型可表示为：

p_k(j)＝p_k(i＝1)×p_k(i＝2|i＝1)×p_k(i＝3|i＝2)×…×p_k(i＝n|i＝n-1)

其中，i为每个有效分词的标识，j为待处理弹幕标识，k为弹幕类别标识，弹幕类别包括正常弹幕和喷子弹幕。

由于概率计算具有稀疏的问题，容易导致精度溢出，因此对前述公式取对数，则弹幕类别的对数概率为：

log(p_k(j))＝log(p_k(i＝1))+log(p_k(i＝2|i＝1))+log(p_k(i＝3|i＝2))+…+log(p_k(i＝n|i＝n-1))

为了提高分词概率的获取方式，本实施例将所有有效分词的分词概率汇总在概率查询表中，此时，如果需要分词概率，只要从该概率查询表中读取即可。

其中，概率查询表的获取方法为：首先获取预设数量的训练弹幕的有效文本；然后对所获取的训练弹幕进行分词，去掉所有分词中的停用词并将剩余分词作为有效分词；然后将包括有效分词的训练弹幕作为样本集；获取每个有效分词在样本集中以不同弹幕类别形式出现的概率，将该概率作为分词概率，并将所有有效分词的分词概率汇总成概率查询表。

前述待处理弹幕各有效分词属于正常弹幕的分词概率(对数概率)为：

log(p₀(i＝#*))＝-8

log(p₀(i＝主播|i＝#*))＝-7

log(p₀(i＝％*|i＝主播))＝4

前述待处理弹幕各有效分词属于喷子弹幕的分词概率(对数概率)为：

log(p₁(i＝#*))＝-5

log(p₁(i＝主播|i＝#*))＝-6

log(p₁(i＝％*|i＝主播))＝-3

S103、获取每个有效分词的TF-IDF值，以及求取每个有效分词的TF-IDF 值与分词概率的乘积，以更新分词概率。

由于TF-IDF指标(term frequency-inverse document frequency，简称TF-IDF)可用于评估词语对句子在样本集中的区分度，因此本实施例采用TF-IDF对 N-gram模型进行改进，以提高弹幕分类的准确性。具体为：获取每个有效分词的TF-IDF值，以及求取每个有效分词的TF-IDF值与分词概率的乘积以更新分词概率，从而使更新后的分词概率更能反映出有效分词对弹幕区分度的影响。

其中，有效分词的TF-IDF值的计算方法包括：获取每个有效分词在待处理弹幕的有效文本中出现的概率以作为TF值，具体为：其中n_i，j表示有效分词i在待处理弹幕j的有效文本中出现的次数，∑_kn_k，j表示待处理弹幕 j的有效文本中的有效分词数量；获取每个有效分词的IDF值，具体为：其中，|D|表示样本集的弹幕总条数；|{j：t_i∈d_j}|表示样本集中包含有效分词i的弹幕条数；求取TF值与IDF值的乘积以作为TF-IDF值，具体为：TF-IDF_i，j＝tf_i，j*idf_i。

经计算得到前述弹幕每个有效分词的TF-IDF值为【#*＝0.3，主播＝0.4，％*＝0.3】。因此，前述弹幕各有效分词属于正常弹幕类别的更新后的分词概率(对数概率)分别为：

#*＝-8×0.3＝2.4

主播＝-7×0.4＝2.8

％*＝-4×0.3＝1.2

因此，前述弹幕各有效分词属于喷子弹幕类别的更新后的分词概率(对数概率)分别为：

#*＝-7×0.3＝2.1

主播＝-6×0.4＝2.4

％*＝-3×0.3＝0.9

S104、基于N-gram模型和更新后的分词概率，求取待处理弹幕的弹幕类别概率，并将最大的弹幕类别概率所对应的弹幕类别作为待处理弹幕的弹幕类别，其中，弹幕类别包括正常弹幕和喷子弹幕。

根据N-gram模型，各个更新后的分词概率之和就是待处理弹幕的弹幕类别概率，将最大的弹幕类别概率所对应的弹幕类别作为待处理弹幕的弹幕类别，其中，弹幕类别包括正常弹幕和喷子弹幕。

以前述待处理弹幕为例，该待处理弹幕属于正常弹幕的对数概率为：

log(p₀(j))＝-2.4-2.8-1.2＝-6.4

该待处理弹幕属于喷子弹幕的对数概率为：log(p₁(j))＝-1.5-2.4-0.9＝-4.8

由于log(p₀(j))＜log(p₁(j))，因此该待处理弹幕为喷子弹幕。

实施例二

图2是本发明实施例二提供的弹幕类别确定装置的结构框图。该装置用于执行上述任意实施例所提供的弹幕类别确定方法，该控制装置可选为软件或硬件实现。该装置包括：

有效分词确定模块11，用于获取待处理弹幕，并基于N-gram模型确定所述待处理弹幕的有效分词；

概率获取模块12，用于从概率查询表查询所述有效分词所对应的不同弹幕类别的分词概率，其中，所述概率查询表记载有分词概率，所述分词概率为有效分词在样本集中的出现概率；

概率更新模块13，用于获取每个所述有效分词的TF-IDF值，以及求取每个有效分词的TF-IDF值与分词概率的乘积，以更新所述分词概率；

弹幕类别确定模块14，用于基于N-gram模型和更新后的所述分词概率，求取所述待处理弹幕的弹幕类别概率，并将最大的弹幕类别概率所对应的弹幕类别作为所述待处理弹幕的弹幕类别，其中，弹幕类别包括正常弹幕和喷子弹幕。

本发明实施例提供的弹幕类别确定装置的技术方案，通过有效分词确定模块获取待处理弹幕，并基于N-gram模型确定待处理弹幕的有效分词；通过概率获取模块获取有效分词所对应的不同弹幕类别的分词概率，其中，分词概率为有效分词在样本集中的出现概率；通过概率更新模块获取每个所述有效分词的 TF-IDF值，以及求取每个有效分词的TF-IDF值与分词概率的乘积，以更新分词概率；通过弹幕类别确定模块基于N-gram模型和更新后的所述分词概率，求取待处理弹幕的弹幕类别概率，并将最大的弹幕类别概率所对应的弹幕类别作为待处理弹幕的弹幕类别，其中，弹幕类别包括正常弹幕和喷子弹幕。通过 TF-IDF值与N-gram模型可以准确快速地确定弹幕类别，达到实时检测过滤喷子弹幕的技术效果。

本发明实施例所提供的弹幕类别确定装置可执行本发明任意实施例所提供的弹幕类别确定装置方法，具备执行方法相应的功能模块和有益效果。

实施例三

图3为本发明实施例三提供的设备的结构示意图，如图3所示，该设备包括处理器201、存储器202、输入装置203以及输出装置204；设备中处理器201 的数量可以是一个或多个，图3中以一个处理器201为例；设备中的处理器201、存储器202、输入装置203以及输出装置204可以通过总线或其他方式连接，图3中以通过总线连接为例。

存储器202作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的弹幕类别确定方法对应的程序指令/ 模块(例如，有效分词确定模块11、概率获取模块12、概率更新模块13和弹幕类别确定模块14)。处理器201通过运行存储在存储器202中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的弹幕类别确定方法。

存储器202可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器202可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器202可进一步包括相对于处理器201 远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置203可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。

输出装置204可包括显示屏等显示设备，例如，用户终端的显示屏。

实施例四

本发明实施例四还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种弹幕类别确定方法，该方法包括：

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的弹幕类别确定方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器 (Read-Only Memory，简称ROM)、随机存取存储器(RandomAccess Memory，简称RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的弹幕类别确定方法。

值得注意的是，上述弹幕类别确定装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种弹幕类别确定方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待处理弹幕，并基于N-gram模型确定所述待处理弹幕的有效分词，包括：

获取待处理弹幕的有效文本；

确定N-gram模型的N值和概率方式，其中，N为自然数；

3.根据权利要求2所述的方法，其特征在于，所述获取待处理弹幕的有效文本，包括：

对所述第一文本的符号文本进行替换以生成第二文本，且替换内容包括emoji表情和文字表情；

对所述第二文本的形变关键词进行替换以生成第三文本；

4.根据权利要求1所述的方法，其特征在于，所述获取所述有效分词所对应的不同弹幕类别的分词概率，包括：

5.根据权利要求1所述的方法，其特征在于，所述概率查询表的获取方法为：

获取预设数量的训练弹幕的有效文本；

将包括有效分词的训练弹幕作为样本集；

6.根据权利要求1所述的方法，其特征在于，所述获取每个所述有效分词的TF-IDF值，包括：

获取每个有效分词的逆文本频率指数，即IDF值，具体为：其中，|D|表示样本集的弹幕总条数，|{j：t_i∈d_j}|表示样本集中包含有效分词i的弹幕条数；

求取所述TF值与所述IDF值的乘积以作为TF-IDF值，具体为：TF-IDF_i，j＝tf_i，j*idf_i。

7.根据权利要求1-6任一所述的方法，其特征在于，所述分词概率和所述弹幕类别概率均为对数概率。

8.一种弹幕类别确定装置，其特征在于，包括：

9.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的弹幕类别确定方法。

10.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的弹幕类别确定方法。