CN109766435A

CN109766435A - 弹幕类别识别方法、装置、设备及存储介质

Info

Publication number: CN109766435A
Application number: CN201811310439.9A
Authority: CN
Inventors: 王非池
Original assignee: Wuhan Douyu Network Technology Co Ltd
Current assignee: Wuhan Douyu Network Technology Co Ltd
Priority date: 2018-11-06
Filing date: 2018-11-06
Publication date: 2019-05-17

Abstract

本发明实施例公开了一种弹幕类别识别方法、装置、设备及存储介质，该方法包括：获取待处理弹幕的文本特征的特征值；获取用户行为特征的统计值；将所述文本特征的特征值和所述行为特征的统计值输入已训练的逻辑回归模型，并根据该已训练的逻辑回归模型的输出值与阈值的大小关系确定所述待处理弹幕的弹幕类别，其中，所述弹幕类别包括正常弹幕和喷子弹幕。将文本特征的文本特征与用户的行为特征融合，结合逻辑回归模型来识别讽刺弹幕，有效地提取了文本信息中的情绪信息，从而显著地提高讽刺弹幕识别的敏感性。

Description

弹幕类别识别方法、装置、设备及存储介质

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种弹幕类别识别方法、装置、设备及存储介质。

背景技术

弹幕是直播平台中用户进行交互的直接手段之一，高质量的弹幕文化容易让用户对直播平台留下深刻印象，增加平台的用户留存；而讽刺、带有攻击性的弹幕会对平台造成了许多负面的影响，比如影响主播的直播体验，减少主播的直播欲望。如果在直播过程中，可以对这些弹幕进行过滤，只保留对直播有正面影响的弹幕，直播平台的观看体验会有一定的提升。现有技术往往直接利用文本识别方法来识别讽刺弹幕，但识别效果较差，导致讽刺弹幕的过滤效果并不理想。

发明内容

本发明实施例提供一种弹幕类别识别方法、装置、设备及存储介质，以解决现有技术的弹幕类别识别方法的识别效果较差的技术问题，以提高弹幕类别的确定速度。

第一方面，本发明实施例提供了一种弹幕类别识别方法，包括：

获取待处理弹幕的文本特征的特征值；

获取用户行为特征的统计值；

将所述文本特征的特征值和所述行为特征的统计值输入已训练的逻辑回归模型，并根据该已训练的逻辑回归模型的输出值与阈值的大小关系确定所述待处理弹幕的弹幕类别，其中，所述弹幕类别包括正常弹幕和喷子弹幕。

进一步，所述待处理弹幕的文本特征的特征值，包括：

所述待处理弹幕的预设标点符号特征的特征值、预设表情特征的特征值和预设负面词语特征的特征值，以及所述待处理弹幕的有效分词的TF-IDF值。

进一步，所述预设标点符号特征的特征值为：若待处理弹幕存在预设标点符号特征，则该预设标点符号特征的特征值为1，否则为0；

所述预设表情特征的特征值为：若待处理弹幕存在预设表情特征，则该预设表情特征的特征值为1，否则为0；

所述预设负面词语特征的特征值为：若待处理弹幕存在预设负面词语特征，则该预设词语特征的特征值为1，否则为0。

进一步，求取所述待处理弹幕的有效分词的TF-IDF值，包括：

获取每个有效分词在所述待处理弹幕中的词频以作为TF值，具体为：其中n_i，j表示有效分词i在待处理弹幕j中出现的次数，∑_kn_k，j表示待处理弹幕j的有效分词数量；

获取每个有效分词的逆文本频率指数，即IDF值，具体为：其中，|D|表示样本集的弹幕总条数，|{j：t_i∈d_j}|表示样本集中包含有效分词i的弹幕条数；

求取所述TF值与所述IDF值的乘积以作为TF-IDF值，具体为： TF-IDF_i，j＝tf_i，j*idf_i。

进一步，所述文本特征包括预设标点符号特征、预设表情特征和预设负面词语特征，相应的，提取待处理弹幕的文本特征，包括：

基于正则化匹配法提取所述待处理弹幕的预设标点符号特征、预设表情特征和预设负面词语特征。

进一步，所述行为特征的统计值包括：

预设统计时间内，与当前弹幕相同的弹幕的出现次数、与当前弹幕具有相同负面词语的弹幕条数，以及与当前弹幕具有相同负面表情的弹幕条数。

进一步，所述行为特征的统计值还包括：

预设统计时间内，发送当前弹幕的IP所发送的弹幕条数，以及发送当前弹幕的设备所发送的弹幕条数。

第二方面，本发明实施例还提供了一种弹幕类别识别方法，包括：

特征值获取模块，用于获取待处理弹幕的文本特征的特征值；

统计值获取模块，用于获取用户行为特征的统计值；

识别模块，用于将所述文本特征的特征值和所述行为特征的统计值输入已训练的逻辑回归模型，并根据该已训练的逻辑回归模型的输出值与阈值的大小关系确定所述待处理弹幕的弹幕类别，其中，所述弹幕类别包括正常弹幕和喷子弹幕。

第三方面，本发明实施例还提供了一种设备，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的弹幕类别识别方法。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的弹幕类别识别方法。

本发明实施例提供的弹幕类别识别方法的技术方案，包括：获取待处理弹幕的文本特征的特征值；获取用户行为特征的统计值；将文本特征的特征值和行为特征的统计值输入已训练的逻辑回归模型，并根据该已训练的逻辑回归模型的输出值与阈值的大小关系确定待处理弹幕的弹幕类别，其中，弹幕类别包括正常弹幕和喷子弹幕。将文本特征的文本特征与用户的行为特征融合，结合逻辑回归模型来识别讽刺弹幕，有效地提取了文本信息中的情绪信息，从而显著地提高讽刺弹幕识别的敏感性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的弹幕类别识别方法的流程图；

图2是本发明实施例二提供的弹幕类别识别装置的结构框图；

图3是本发明实施例三提供的设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下将参照本发明实施例中的附图，通过实施方式清楚、完整地描述本发明的技术方案，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1是本发明实施例一提供的弹幕类别识别方法的流程图。本实施例的技术方案适用于识别讽刺弹幕的情况。该方法可以由本发明实施例提供的弹幕类别识别装置来执行，该装置可以采用软件和/或硬件的方式实现，并配置在处理器中应用。该方法具体包括如下步骤：

S101、获取待处理弹幕的文本特征的特征值。

获取待处理弹幕，然后提取该待处理弹幕的预设标点符号特征，比如，是否包含“！？～”等情绪标点符号，以及是否包含“，。”等陈述句符号，对于预设情绪标点符号特征和陈述句预设标点符号特征，若有，则特征值为1，若无，则特征值为0。然后提取该待处理弹幕的预设表情特征，比如是否包含正面预设表情特征等，是否包含负面预设表情特征“(-″-)”，其中，对于正面预设表情特征和负面预设表情特征，若有，则为1，若无，则为0。另外，对于emoji表情，我们构建了emoji词表，将emoji表情映射为对应的文字特征进行处理。然后提取预设负面词语特征，比如是否包含反讽词语：“哈哈”“别逗了”“活在梦里”等，以及是否包含侮辱性词语，对于预设负面词语特征，若有，则其特征值为1，若无，则其特征值为0。需要说明的是，以上特征均可基于正则化匹配的方法计算得到，本实施例在此不予赘述，另外，前述特征的提取顺序仅是示例性说明，本实施例不对特征的提取顺序进行限定。

示例性的，以待处理弹幕【呵呵，这技术，％&#$呢！】为例，文本特征包含情绪标点符号(“！”)、包含陈述句符号(“，”)、不包含表情、不包含emojji、包含负面词语(“呵呵”、“#$”)，有效分词为(呵呵、技术、#$)，即文本特征为(预设情绪标点符号特征1、陈述句符号特征1、正面预设表情特征0、负面预设表情特征0、负面词特征1、“呵呵”0.2、“技术”0.4、“#$”0.4)。

由于TF-IDF指标(term frequency-inverse document frequency，简称TF-IDF)可用于评估词语对句子在样本集中的区分度，因此本实施例在文本特征获取后，计算各文本特征的TF-IDF值，具体为：获取每个有效分词在待处理弹幕中的出现概率以作为TF值，具体为：其中n_i，j表示有效分词i在待处理弹幕j中的出现次数，∑_kn_k，j表示待处理弹幕j的有效分词数量；获取每个有效分词的IDF值，具体为：其中，|D|表示样本集的弹幕总条数；|{j：t_i∈d_j}|表示样本集中包含有效分词i的弹幕条数；求取TF值与IDF值的乘积以作为TF-IDF值，具体为：TF-IDF_i，j＝tf_i，j*idf_i。经计算，前述待处理弹幕有效文本的TF-IDF值为“呵呵”0.2、“技术”0.4、“#$”0.4，则文本特征为(预设情绪标点符号特征1、陈述句符号特征1、正面预设表情特征0、负面预设表情特征0、负面词特征1、“呵呵”0.2、“技术”0.4、“#$”0.4)，具体可表示为(1，1，0，0，1，0.2，0.4，0.4)。

S102、获取用户行为特征的统计值。

讽刺弹幕通常具有复杂的情绪信息，难以直接通过文本识别算法识别。而且讽刺弹幕由于用户不同的目的，或者是观看爱好，往往存在一定的行为聚集性，因此本实施例通过行为特征去辅助挖掘弹幕信息，将文本特征与行为特征融合。

用户行为特征的统计值具体包括：预设统计时间内，与当前弹幕相同的弹幕的出现次数、与当前弹幕具有相同负面词语的弹幕条数，以及与当前弹幕具有相同负面表情的弹幕条数；以及预设统计时间内，发送当前弹幕的IP所发送的弹幕条数和发送当前弹幕的设备所发送的弹幕条数。

示例性的，预设统计时间为1小时，该时间段内，与待处理弹幕相同的弹幕条数为9；与当前弹幕具有相同负面词语的弹幕条数为15；与当前弹幕具有相同负面表情的弹幕条数为25；发送当前弹幕的IP所发送的弹幕条数为20；发送当前弹幕的设备所发送的弹幕条数为15，则行为特征可表示为(9，15， 25，20，15)

S103、将文本特征的特征值和行为特征的统计值输入已训练的逻辑回归模型，并根据该已训练的逻辑回归模型的输出值与阈值的大小关系确定待处理弹幕的弹幕类别，其中，弹幕类别包括正常弹幕和喷子弹幕。

逻辑回归模型在模式识别领域中有广泛应用，对于稀疏的特征数据具有很强的适应能力。而且，逻辑回归可以利用模型参数的自动寻优，对不同类型的特征进行融合，共同对样本进行判别。

其中，逻辑回归模型的训练方法为：假设训练集中的样本为x，对应的特征为{x₁，x₂，x₃，...，x_m}，逻辑回归模型如下：

其中，e为自然常数，θ_i为标识为i的文本特征或行为特征对应的系数权重， x_i为标识为i的文本特征或行为特征，m为文本特征和行为特征的总数。该模型在线性回归的基础上，对输出进行sigmoid函数处理，使得模型最终的输出值为0-1之间的连续值。利用极大似然估计的方法，定义训练模型的损失函数为模型的似然概率：

该似然函数的对数形式为：

其中，为弹幕样本i的预测标签，y_i表示弹幕样本i的真实标签，n为样本总数。对于该模型的求解往往采用梯度上升法，将f(x)代入损失函数然后对损失函数求导，取梯度上升方向，进行参数迭代，直到收敛。

在逻辑回归模型训练完毕后，即可用于预测。将待处理样本的文本特征的特征值和行为特征的统计值代入该已训练完的逻辑回归模型，其中，文本特征的特征整和行为特征的统计值作为x_i进行逻辑回归处理，可以得到0-1之间的一个数值，将该数值与阈值比较，即可得到该样本的类别。对于阈值，在实际使用过程中可以灵活地给定。

实施例二

图2是本发明实施例二提供的弹幕类别识别装置的结构框图。该装置用于执行上述任意实施例所提供的弹幕类别识别方法，该装置可选为软件或硬件实现。该装置包括：

特征值获取模块11，用于获取待处理弹幕的文本特征的特征值；

统计值获取模块12，用于获取用户行为特征的统计值；

识别模块13，用于将所述文本特征的TF-IDF值和所述行为特征的统计值输入已训练的逻辑回归模型，并根据该已训练的逻辑回归模型的输出值与阈值的大小关系确定所述待处理弹幕的弹幕类别，其中，所述弹幕类别包括正常弹幕和喷子弹幕。

本发明实施例提供的弹幕类别识别装置的技术方案，通过特征值获取模块获取待处理弹幕的文本特征的特征值；通过统计值获取模块获取用户行为特征的统计值；通过识别模块将文本特征的特征值和行为特征的统计值输入已训练的逻辑回归模型，并根据该已训练的逻辑回归模型的输出值与阈值的大小关系确定待处理弹幕的弹幕类别，其中，弹幕类别包括正常弹幕和喷子弹幕。将文本特征的文本特征与用户的行为特征融合，结合逻辑回归模型来识别讽刺弹幕，有效地提取了文本信息中的情绪信息，从而显著地提高讽刺弹幕识别的敏感性。

本发明实施例所提供的弹幕类别识别装置可执行本发明任意实施例所提供的弹幕类别识别装置方法，具备执行方法相应的功能模块和有益效果。

实施例三

图3为本发明实施例三提供的设备的结构示意图，如图3所示，该设备包括处理器201、存储器202、输入装置203以及输出装置204；设备中处理器201 的数量可以是一个或多个，图3中以一个处理器201为例；设备中的处理器201、存储器202、输入装置203以及输出装置204可以通过总线或其他方式连接，图3中以通过总线连接为例。

存储器202作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的弹幕类别识别方法对应的程序指令/ 模块(例如，特征值获取模块11、统计值获取模块12和识别模块13)。处理器 201通过运行存储在存储器202中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即可实现前述弹幕类别识别方法。

存储器202可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器202可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器202可进一步包括相对于处理器201 远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置203可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。

输出装置204可包括显示屏等显示设备，例如，用户终端的显示屏。

实施例四

本发明实施例四还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种弹幕类别识别方法，该方法包括：

获取待处理弹幕的文本特征的特征值；

获取用户行为特征的统计值；

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的弹幕类别识别方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器 (Read-Only Memory，简称ROM)、随机存取存储器(RandomAccess Memory，简称RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的弹幕类别识别方法。

值得注意的是，上述弹幕类别识别装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种弹幕类别识别方法，其特征在于，包括：

获取待处理弹幕的文本特征的特征值；

获取用户行为特征的统计值；

2.根据权利要求1所述的方法，其特征在于，所述待处理弹幕的文本特征的特征值，包括：

3.根据权利要求2所述的方法，其特征在于，所述预设标点符号特征的特征值为：若待处理弹幕存在预设标点符号特征，则该预设标点符号特征的特征值为1，否则为0；

4.根据权利要求2所述的方法，其特征在于，求取所述待处理弹幕的有效分词的TF-IDF值，包括：

求取所述TF值与所述IDF值的乘积以作为TF-IDF值，具体为：TF-IDF_i，j＝＝tf_i，j*idf_i。

5.根据权利要求2所述的方法，其特征在于，所述文本特征包括预设标点符号特征、预设表情特征和预设负面词语特征，相应的，提取待处理弹幕的文本特征，包括：

6.根据权利要求1所述的方法，其特征在于，所述行为特征的统计值包括：

7.根据权利要求6所述的方法，其特征在于，所述行为特征的统计值还包括：

8.一种弹幕类别识别方法，其特征在于，包括：

统计值获取模块，用于获取用户行为特征的统计值；

9.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的弹幕类别识别方法。

10.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的弹幕类别识别方法。