CN112100371B - 一种基于XLNet和BLS的弹幕情感分类方法 - Google Patents
一种基于XLNet和BLS的弹幕情感分类方法 Download PDFInfo
- Publication number
- CN112100371B CN112100371B CN202010808842.5A CN202010808842A CN112100371B CN 112100371 B CN112100371 B CN 112100371B CN 202010808842 A CN202010808842 A CN 202010808842A CN 112100371 B CN112100371 B CN 112100371B
- Authority
- CN
- China
- Prior art keywords
- xlnet
- barrage
- bls
- features
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
弹幕是目前年轻人常用的互动方式,其中承载了丰富的情感信息。基于此本申请提出一种基于XLNet和BLS弹幕情感分类方法,包括:一、获取弹幕数据并预处理,构建数据集;二、对弹幕进行分词,使用词典编码器对句子进行标记;三、利用XLNet模型进行学习来更新深空间中的任务特定参数;四、将序列G(x)放入广义学习系统中,在广义空间中搜索额外的特征,根据实际的情绪分析任务随机生成映射特征和增强特征,并连接在一起计算样本的标签;五、用训练好的网络对测试样本做情感分类。
Description
技术领域
本申请属于文本情感分析处理技术领域,特别涉及一种基于深度学习模型XLNet与广义学习系统(BLS)的弹幕情感分类方法。
背景技术
情感分析又称意见挖掘,是自然语言处理领域中一项重要而复杂的工作。它主要通过大量的文本数据来分析产品、服务、品牌所反映的意见、情感、态度。由于其广泛的应用,学术界和业界都在努力在几乎所有可能的领域开展相应的研究。近年来,电子商务和社交媒体在全球迅猛发展,理解和提取其中所包含的主观信息是一项繁琐的任务。因此,建立一个自动处理情绪分析任务的系统是非常必要的。
2017年6月,Google团队提出了一种完全基于注意力机制的网络模块Transformer,它可以学习文本中长距离依赖关系和全局特性。次年完全基于Transformer构建的Bert(Bidirectional Encoder Representations from Transformers)
横空出世,横扫各大排行榜,并引领一股预训练加微调的迁移学习热潮。但是在语言建模中仍然受到固定长度上下文的限制。针对此问题,Dai等人引入了段间循环机制,并将绝对位置编码改为相对位置编码,提出了Transformer-XL。实验表明,Transformer-XL可以学习到比RNN多80%,比Transformer多450%的距离依赖关系,而且速度更是Transformer的1800多倍。随后,基于Transformer-XL构建的XLNet在各项任务的表现都超越了Bert,成为了目前性能最好的自然语言处理模型。
广义学习系统(BLS),通过提取特征来处理高维数据。在深度和广阔的空间。首先将输入数据映射到特征节点上,然后对其进行增强节点补充,形成非线性结构。它非常灵活和动态地支持探索图结构数据的更深层次信息。
发明内容
本申请所要解决的技术问题在是弹幕情感分类问题,由于目前的方法主要还是通过使用情感词典和卷积神经网络来对文本进行情感分析,并且XLNet模型在其他领域使用获得的效果均好于传统模型。受上述启发,提出一种基于XLNe与BLS弹幕情感分类方法,获取弹幕数据并对弹幕进行预处理,构建训练集T;对处理后的弹幕进行分词,使用词典编码器对句子进行标记;利用XLNet模型进行学习来更新深空间中的任务特定参数;将表示G(x)放入广义学习系统(BLS)中,在广义空间中搜索额外的特征;根据实际的情绪分析任务随机生成映射特征和增强特征,并连接在一起计算样本的标签,最终得到分类结果。本方法对弹幕情感分类的结果具有较好的准确性,具有一定的实用价值。
根据本申请的一个方面,提出一种基于XLNet与BLS弹幕情感分类方法,所述方法包括:
S1、获取弹幕数据并对弹幕进行预处理,构建弹幕数据集;
S2、对处理后的弹幕进行分词,使用词典编码器对句子进行标记,在句子开头连接[CLS]标记,在辅助句与原句之间加入[SEP]标记,生成输入序列G(x),具体为:[CLS]原句序列[SEP]辅助句序列[SEP];
S3、利用XLNet模型进行学习来更新深空间中的任务特定参数;
S4、将序列G(x)放入广义学习系统(BLS)中,在广义空间中搜索额外的特征。根据实际的情绪分析任务随机生成映射特征和增强特征,并连接在一起计算样本的标签。
S5、用训练好的网络对测试样本进行情感分类。
具体的,步骤S1中,将表情等特殊字符转义成文字。并按9比1的比率将数据集分成训练集和测试集。
具体的,步骤S2中,词典D中每一行为一个词或字符。
具体的,步骤S3具体为:
S301、XLNet模型的训练过程。采用置换语言建模方法学习Transformer-XL编码器的参数,使语言模型能够获取通用信息和表征。
S302、使用公开发布的预训练过的casexlnet-base 2模型。它有12层Transformer-XL块,隐藏层大小768和12self-attention head。
S303、在微调阶段,我们设置最大序列长度为128,预热步骤为120。
具体的,步骤S4具体为:
S401、正则化参数的拟合也起着重要的作用。广义学习系统的正则化参数的最优值将在2范围内的不同节点数下进行调整。
S402、由于不同的映射节点和增强节点数量可能会导致分类精度的性能略有变化。根据以往的经验,将广义学习系统的映射节点设置为10个,增强节点设置为110个。
与现有技术相比,本发明的有益效果是:主要包括以下几个方面:
一、本方法所使用的XLNet模型在Google提出时,已经在大量的文本数据集上预训练过,相比于CNN,RNN,LSTM等模型,可以减少预训练的步骤,减少繁琐的工作量;
二、模型结合了BLS和XLNet,同时利用了这两点广义自回归训练前语言模,可以从大规模的无标记语料库中转移通用的语言知识。
三、可以在深度表示有限的情况下在广阔的空间中搜索更多的特征。模型可以随机生成映射和增强节点,同时查找所需的连接权重。
四、实验证明模型在情绪分析中的鲁棒性更好。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1是根据本申请一个实施例的一种弹幕情感分类方法的示意性流程图;
图2是根据本申请一个实施例的示例效果图;
具体实施方式
实施过程主要包括两个步骤:用预处理好的弹幕数据训练网络;然后使用训练好的模型对测试数据进行测试。
S1、获取弹幕数据并对弹幕进行预处理,构建弹幕数据集;
S2、对处理后的弹幕进行分词,使用词典编码器对句子进行标记,在句子开头连接[CLS]标记,在辅助句与原句之间加入[SEP]标记,生成输入序列G(x),具体为:[CLS]原句序列[SEP]辅助句序列[SEP];
S3、利用XLNet模型进行学习来更新深空间中的任务特定参数;
S4、将序列G(x)放入广义学习系统(BLS)中,在广义空间中搜索额外的特征。根据实际的情绪分析任务随机生成映射特征和增强特征,并连接在一起计算样本的标签。
S5、用训练好的网络对测试样本进行情感分类。
具体的,步骤S1中,将表情等特殊字符转义成文字。并按9比1的比率将数据集分成训练集和测试集。
具体的,步骤S2中,词典D中每一行为一个词或字符。
具体的,步骤S3具体为:
S301、XLNet模型的训练过程。采用置换语言建模方法学习Transformer-XL
编码器的参数,使语言模型能够获取通用信息和序列。
S302、使用公开发布的预训练过的casexlnet-base 2模型。它有12层Transformer-XL块,隐藏层大小768和12self-attention head。
S303、在微调阶段,我们设置最大序列长度为128,预热步骤为120。
具体的,步骤S4具体为:
S401、正则化参数的拟合也起着重要的作用。广义学习系统的正则化参数的最优值将在2范围内的不同节点数下进行调整。
S402、由于不同的映射节点和增强节点数量可能会导致分类精度的性能略有变化。根据以往的经验,将广义学习系统的映射节点设置为10个,增强节点设置为110个。
进一步的,步骤S302中self-attention的计算公式如下:
在self-attention中,Q=V=K,均是attention机制的输入矩阵,WQ、WK、WV是对应于Q、K、V的三个权重矩阵,是需要模型学习的权重参数。dk指的是输入矩阵行向量的维度,目的是为了控制分母的内积结果不要太大。
其中,多头attention的计算公式如下:
multihead(Q,K,V)=concat(head1,head2,...,headh)Wo
concat()目的是实现矩阵进行行向量的拼接;headi指的多头attention中的第i个self-attention的计算结果;WO指的是多头attention的输出与下一层连接的权重参数。
进一步的,步骤S402中,设X∈RN×M为输入数据集,由N个样本组成,每个样本特征维数为M。Y∈RN×C为输出矩阵,其中C为类。首先将X放入BLS中,随机生成n个节点的映射特征。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。
Claims (5)
1.一种基于XLNet和BLS的弹幕情感分类方法,包括:
S1、获取弹幕数据并对弹幕进行预处理,构建弹幕数据集;
S2、对处理后的弹幕进行分词,使用词典编码器对句子进行标记,在句子开头连接[CLS]标记,在辅助句与原句之间加入[SEP]标记,生成输入序列G(x),具体为:[CLS]原句序列[SEP]辅助句序列[SEP];
S3、利用XLNet模型进行学习来更新深空间中的任务特定参数;
S4、将序列G(x)放入广义学习系统(BLS)中,在广义空间中搜索额外的特征,根据实际的情绪分析任务随机生成映射特征和增强特征,并连接在一起计算样本的标签;
S5、用训练好的网络对测试样本进行情感分类。
2.根据权利要求1所述的基于XLNet和BLS的弹幕情感分类方法,其特征在于,步骤S1中,将表情等特殊字符转义成文字,并按9比1的比率将数据集分成训练集和测试集。
3.根据权利要求1所述的基于XLNet和BLS的弹幕情感分类方法,其特征在于,步骤S2中,词典D中每一行为一个词或字符。
4.根据权利要求1所述的基于XLNet和BLS的弹幕情感分类方法,其特征在于,步骤S3具体为:
S301、XLNet模型的训练过程,采用置换语言建模方法学习Transformer-XL编码器的参数,使语言模型能够获取通用信息和表征;
S302、使用公开发布的预训练过的casexlnet-base 2模型,它有12层Transformer-XL块,隐藏层大小768和12self-attention head;
S303、在微调阶段,我们设置最大序列长度为128,预热步骤为120。
5.根据权利要求1所述的基于XLNet和BLS的弹幕情感分类方法,其特征在于,步骤S4具体为:
S401、正则化参数的拟合也起着重要的作用,广义学习系统的正则化参数的最优值将在2范围内的不同节点数下进行调整;
S402、由于不同的映射节点和增强节点数量可能会导致分类精度的性能略有变化,根据以往的经验,将广义学习系统的映射节点设置为10个,增强节点设置为110个。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010808842.5A CN112100371B (zh) | 2020-08-12 | 2020-08-12 | 一种基于XLNet和BLS的弹幕情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010808842.5A CN112100371B (zh) | 2020-08-12 | 2020-08-12 | 一种基于XLNet和BLS的弹幕情感分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112100371A CN112100371A (zh) | 2020-12-18 |
CN112100371B true CN112100371B (zh) | 2023-10-03 |
Family
ID=73753631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010808842.5A Active CN112100371B (zh) | 2020-08-12 | 2020-08-12 | 一种基于XLNet和BLS的弹幕情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112100371B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012134180A2 (ko) * | 2011-03-28 | 2012-10-04 | 가톨릭대학교 산학협력단 | 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법 |
CN111144448A (zh) * | 2019-12-09 | 2020-05-12 | 江南大学 | 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 |
CN111209401A (zh) * | 2020-01-03 | 2020-05-29 | 西安电子科技大学 | 网络舆情文本信息情感极性分类处理系统及方法 |
-
2020
- 2020-08-12 CN CN202010808842.5A patent/CN112100371B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012134180A2 (ko) * | 2011-03-28 | 2012-10-04 | 가톨릭대학교 산학협력단 | 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법 |
CN111144448A (zh) * | 2019-12-09 | 2020-05-12 | 江南大学 | 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 |
CN111209401A (zh) * | 2020-01-03 | 2020-05-29 | 西安电子科技大学 | 网络舆情文本信息情感极性分类处理系统及方法 |
Non-Patent Citations (1)
Title |
---|
基于BERT的文本情感分析方法的研究;方英兰;孙吉祥;韩兵;;信息技术与信息化(02);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112100371A (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110929030B (zh) | 一种文本摘要和情感分类联合训练方法 | |
CN111444320B (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
CN110532554B (zh) | 一种中文摘要生成方法、系统及存储介质 | |
US11210470B2 (en) | Automatic text segmentation based on relevant context | |
CN106383816B (zh) | 基于深度学习的中文少数民族地区地名的识别方法 | |
CN104598611B (zh) | 对搜索条目进行排序的方法及系统 | |
CN110196913A (zh) | 基于文本生成式的多实体关系联合抽取方法和装置 | |
CN104978587B (zh) | 一种基于文档类型的实体识别合作学习算法 | |
CN111061861B (zh) | 一种基于XLNet的文本摘要自动生成方法 | |
CN108765383A (zh) | 基于深度迁移学习的视频描述方法 | |
CN110334186A (zh) | 数据查询方法、装置、计算机设备及计算机可读存储介质 | |
CN113486645A (zh) | 一种基于深度学习的文本相似度检测方法 | |
CN114528398A (zh) | 一种基于交互双重图卷积网络的情感预测方法及系统 | |
CN113822054A (zh) | 基于数据增强的中文语法纠错方法及装置 | |
CN111680169A (zh) | 一种基于bert模型技术的电力科技成果数据抽取方法 | |
CN114048314A (zh) | 一种自然语言隐写分析方法 | |
CN111507101B (zh) | 一种基于多层次语义胶囊路由的反讽检测方法 | |
CN112100371B (zh) | 一种基于XLNet和BLS的弹幕情感分类方法 | |
CN114896450B (zh) | 一种基于深度学习的视频时刻检索方法与系统 | |
CN114169447B (zh) | 基于自注意力卷积双向门控循环单元网络的事件检测方法 | |
US20240104353A1 (en) | Sequence-to sequence neural network systems using look ahead tree search | |
CN114330375A (zh) | 一种基于固定范式的术语翻译方法及系统 | |
CN110162629B (zh) | 一种基于多基模型框架的文本分类方法 | |
Li et al. | Multilingual toxic text classification model based on deep learning | |
CN114547287B (zh) | 一种生成式文本摘要方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |