CN112100371B

CN112100371B - 一种基于XLNet和BLS的弹幕情感分类方法

Info

Publication number: CN112100371B
Application number: CN202010808842.5A
Authority: CN
Inventors: 刘瑞军; 张伦; 王向上
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2023-10-03
Anticipated expiration: 2040-08-12
Also published as: CN112100371A

Abstract

弹幕是目前年轻人常用的互动方式，其中承载了丰富的情感信息。基于此本申请提出一种基于XLNet和BLS弹幕情感分类方法，包括：一、获取弹幕数据并预处理，构建数据集；二、对弹幕进行分词，使用词典编码器对句子进行标记；三、利用XLNet模型进行学习来更新深空间中的任务特定参数；四、将序列G(x)放入广义学习系统中，在广义空间中搜索额外的特征，根据实际的情绪分析任务随机生成映射特征和增强特征，并连接在一起计算样本的标签；五、用训练好的网络对测试样本做情感分类。

Description

一种基于XLNet和BLS的弹幕情感分类方法

技术领域

本申请属于文本情感分析处理技术领域，特别涉及一种基于深度学习模型XLNet与广义学习系统(BLS)的弹幕情感分类方法。

背景技术

情感分析又称意见挖掘，是自然语言处理领域中一项重要而复杂的工作。它主要通过大量的文本数据来分析产品、服务、品牌所反映的意见、情感、态度。由于其广泛的应用，学术界和业界都在努力在几乎所有可能的领域开展相应的研究。近年来，电子商务和社交媒体在全球迅猛发展，理解和提取其中所包含的主观信息是一项繁琐的任务。因此，建立一个自动处理情绪分析任务的系统是非常必要的。

2017年6月，Google团队提出了一种完全基于注意力机制的网络模块Transformer，它可以学习文本中长距离依赖关系和全局特性。次年完全基于Transformer构建的Bert(Bidirectional Encoder Representations from Transformers)

横空出世，横扫各大排行榜，并引领一股预训练加微调的迁移学习热潮。但是在语言建模中仍然受到固定长度上下文的限制。针对此问题，Dai等人引入了段间循环机制，并将绝对位置编码改为相对位置编码,提出了Transformer-XL。实验表明，Transformer-XL可以学习到比RNN多80％，比Transformer多450％的距离依赖关系，而且速度更是Transformer的1800多倍。随后，基于Transformer-XL构建的XLNet在各项任务的表现都超越了Bert，成为了目前性能最好的自然语言处理模型。

广义学习系统(BLS)，通过提取特征来处理高维数据。在深度和广阔的空间。首先将输入数据映射到特征节点上，然后对其进行增强节点补充，形成非线性结构。它非常灵活和动态地支持探索图结构数据的更深层次信息。

发明内容

本申请所要解决的技术问题在是弹幕情感分类问题，由于目前的方法主要还是通过使用情感词典和卷积神经网络来对文本进行情感分析，并且XLNet模型在其他领域使用获得的效果均好于传统模型。受上述启发，提出一种基于XLNe与BLS弹幕情感分类方法，获取弹幕数据并对弹幕进行预处理，构建训练集T；对处理后的弹幕进行分词，使用词典编码器对句子进行标记；利用XLNet模型进行学习来更新深空间中的任务特定参数；将表示G(x)放入广义学习系统(BLS)中，在广义空间中搜索额外的特征；根据实际的情绪分析任务随机生成映射特征和增强特征，并连接在一起计算样本的标签，最终得到分类结果。本方法对弹幕情感分类的结果具有较好的准确性，具有一定的实用价值。

根据本申请的一个方面，提出一种基于XLNet与BLS弹幕情感分类方法,所述方法包括：

S1、获取弹幕数据并对弹幕进行预处理，构建弹幕数据集；

S2、对处理后的弹幕进行分词，使用词典编码器对句子进行标记，在句子开头连接[CLS]标记，在辅助句与原句之间加入[SEP]标记，生成输入序列G(x)，具体为：[CLS]原句序列[SEP]辅助句序列[SEP]；

S3、利用XLNet模型进行学习来更新深空间中的任务特定参数；

S4、将序列G(x)放入广义学习系统(BLS)中，在广义空间中搜索额外的特征。根据实际的情绪分析任务随机生成映射特征和增强特征，并连接在一起计算样本的标签。

S5、用训练好的网络对测试样本进行情感分类。

具体的，步骤S1中，将表情等特殊字符转义成文字。并按9比1的比率将数据集分成训练集和测试集。

具体的，步骤S2中，词典D中每一行为一个词或字符。

具体的，步骤S3具体为：

S301、XLNet模型的训练过程。采用置换语言建模方法学习Transformer-XL编码器的参数，使语言模型能够获取通用信息和表征。

S302、使用公开发布的预训练过的casexlnet-base 2模型。它有12层Transformer-XL块，隐藏层大小768和12self-attention head。

S303、在微调阶段，我们设置最大序列长度为128，预热步骤为120。

具体的，步骤S4具体为：

S401、正则化参数的拟合也起着重要的作用。广义学习系统的正则化参数的最优值将在2范围内的不同节点数下进行调整。

S402、由于不同的映射节点和增强节点数量可能会导致分类精度的性能略有变化。根据以往的经验，将广义学习系统的映射节点设置为10个，增强节点设置为110个。

与现有技术相比，本发明的有益效果是：主要包括以下几个方面：

一、本方法所使用的XLNet模型在Google提出时，已经在大量的文本数据集上预训练过，相比于CNN，RNN，LSTM等模型，可以减少预训练的步骤，减少繁琐的工作量；

二、模型结合了BLS和XLNet，同时利用了这两点广义自回归训练前语言模，可以从大规模的无标记语料库中转移通用的语言知识。

三、可以在深度表示有限的情况下在广阔的空间中搜索更多的特征。模型可以随机生成映射和增强节点，同时查找所需的连接权重。

四、实验证明模型在情绪分析中的鲁棒性更好。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请一个实施例的一种弹幕情感分类方法的示意性流程图；

图2是根据本申请一个实施例的示例效果图；

具体实施方式

实施过程主要包括两个步骤：用预处理好的弹幕数据训练网络；然后使用训练好的模型对测试数据进行测试。

S1、获取弹幕数据并对弹幕进行预处理，构建弹幕数据集；

S3、利用XLNet模型进行学习来更新深空间中的任务特定参数；

S5、用训练好的网络对测试样本进行情感分类。

具体的，步骤S2中，词典D中每一行为一个词或字符。

具体的，步骤S3具体为：

S301、XLNet模型的训练过程。采用置换语言建模方法学习Transformer-XL

编码器的参数，使语言模型能够获取通用信息和序列。

具体的，步骤S4具体为：

进一步的，步骤S302中self-attention的计算公式如下：

在self-attention中，Q＝V＝K，均是attention机制的输入矩阵，WQ、WK、WV是对应于Q、K、V的三个权重矩阵，是需要模型学习的权重参数。dk指的是输入矩阵行向量的维度，目的是为了控制分母的内积结果不要太大。

其中，多头attention的计算公式如下：

multihead(Q,K,V)＝concat(head1,head2,...,headh)Wo

concat()目的是实现矩阵进行行向量的拼接；headi指的多头attention中的第i个self-attention的计算结果；WO指的是多头attention的输出与下一层连接的权重参数。

进一步的，步骤S402中，设X∈RN×M为输入数据集，由N个样本组成，每个样本特征维数为M。Y∈RN×C为输出矩阵，其中C为类。首先将X放入BLS中，随机生成n个节点的映射特征。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于XLNet和BLS的弹幕情感分类方法，包括：

S1、获取弹幕数据并对弹幕进行预处理，构建弹幕数据集；

S3、利用XLNet模型进行学习来更新深空间中的任务特定参数；

S4、将序列G(x)放入广义学习系统(BLS)中，在广义空间中搜索额外的特征，根据实际的情绪分析任务随机生成映射特征和增强特征，并连接在一起计算样本的标签；

S5、用训练好的网络对测试样本进行情感分类。

2.根据权利要求1所述的基于XLNet和BLS的弹幕情感分类方法，其特征在于，步骤S1中，将表情等特殊字符转义成文字，并按9比1的比率将数据集分成训练集和测试集。

3.根据权利要求1所述的基于XLNet和BLS的弹幕情感分类方法，其特征在于，步骤S2中，词典D中每一行为一个词或字符。

4.根据权利要求1所述的基于XLNet和BLS的弹幕情感分类方法，其特征在于，步骤S3具体为：

S301、XLNet模型的训练过程，采用置换语言建模方法学习Transformer-XL编码器的参数，使语言模型能够获取通用信息和表征；

S302、使用公开发布的预训练过的casexlnet-base 2模型，它有12层Transformer-XL块，隐藏层大小768和12self-attention head；

5.根据权利要求1所述的基于XLNet和BLS的弹幕情感分类方法，其特征在于，步骤S4具体为：

S401、正则化参数的拟合也起着重要的作用，广义学习系统的正则化参数的最优值将在2范围内的不同节点数下进行调整；

S402、由于不同的映射节点和增强节点数量可能会导致分类精度的性能略有变化，根据以往的经验，将广义学习系统的映射节点设置为10个，增强节点设置为110个。