CN113779252A - 一种基于electra+atten+BiLSTM的针对中文短文本情感分类方法 - Google Patents
一种基于electra+atten+BiLSTM的针对中文短文本情感分类方法 Download PDFInfo
- Publication number
- CN113779252A CN113779252A CN202111056556.9A CN202111056556A CN113779252A CN 113779252 A CN113779252 A CN 113779252A CN 202111056556 A CN202111056556 A CN 202111056556A CN 113779252 A CN113779252 A CN 113779252A
- Authority
- CN
- China
- Prior art keywords
- model
- training
- bilstm
- short text
- atten
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种基于electra+atten+BiLSTM的针对中文短文本情感分类方法,该方法包括:在嵌入层用electra预训练模型替换bert模型,减少文本情感分析方法中对分词准确性的依赖程度,避免传统预训练模型在遮盖训练和微调过程过程的不一致问题,通过注意力机制获取上下文信息,通过BiLSTM获取语料的双向时序信息,训练模型,最后对中文短文本评论语料的情感倾向做出分类。本发明的方案旨在提供一种有关中文短文本情感分类的新的组合模型,经过简单的模型训练,就能表现出准确率更高的效果。
Description
技术领域
本发明涉及文本分析技术领域,具体是一种基于electra+atten+BiLSTM的针对中文短文本情感分类方法。
背景技术
文本情感分析可以帮助我们从文本中挖掘用户情感信息,自动识别文本的情感极性。近些年,深度学习技术被广泛的应用于文本情感分析任务中。神经网络模型是深度学习技术常用的技术手段。典型的神经网络模型包括卷积神经网络(CNN),循环神经网络(RNN),长短期记忆神经网络(LSTM),LSTM的变体GRU网络模型,以及时序卷积神经网络TCN。因CNN不具备联想上下文信息的能力,RNN被更多的用于文本序列处理过程。LSTM不仅可以对词汇的时序关系进行学习,还可以解决RNN存在的梯度消失和梯度爆炸问题。双向长短期记忆网络(BiLSTM)可以弥补单向LSTM无法有效联系上下文信息的缺陷,所以本方法将BiLSTM与注意力机制(attention)作为模型的一部分。
传统的网络模型需要对文本语料分词嵌入,这就会带来分词准确性的依赖程度问题。而使用预训练模型可以在一定程度上解决这个问题。从2016年开始,大多数的研究都开始重视长时的上下文语义在词嵌入中的作用和语言模型在大规模语料上提前预训练这两个核心观点。经典的预训练模型包括ELMo,GPT,BERT,以及基于BERT的改进模型,例如ERNIE、SpanBERT、RoBERTa、ALBERT等。由于electra预训练模型可以避免传统预训练模型在MASK预训练和fine-tune(微调)过程的不一致问题,进一步减低文本情感分析对分词准确性的依赖程度,并提高训练速度,所以本方法使用electra预训练模型替换Bert模型作为整体模型的嵌入层。
为了解决传统方法中存在的一些问题,并降低模型的训练成本,综合上述方法的优点,本发明提出一种基于electra+atten+BiLSTM的针对中文短文本情感分类方法。
发明内容
本发明的目的是提供一种基于electra+atten+BiLSTM的针对中文短文本情感分类方法;该方法提出结合electra预训练模型,注意力机制,双向长短期记忆神经网络,构建文本评论语料情感分类模型。
本发明实现发明目的采用如下技术方案:
本发明提供的一种基于electra+atten+BiLSTM的针对中文短文本情感分类方法,其特征在于:在嵌入层用electra预训练模型替换bert模型,减少文本情感分析方法中对分词准确性的依赖程度,避免传统预训练模型在遮盖训练和微调过程过程的不一致问题,通过注意力机制获取上下文信息,通过BiLSTM获取语料的双向时序信息,训练模型,最后对中文短文本评论语料的情感倾向做出分类。
本发明与现有技术相比,其有益效果体现在:提出一种的新的组合模型以减少文本情感分析方法中对词向量化过程中分词准确性的依赖程度,解决传统预训练模型在MASK预训练和微调过程过程的不一致问题,获取评论文本更细粒度的语义表示信息,节约模型的训练成本,经过简单的迭代训练就能训练出准确率更高的模型。
附图说明
图1是本方法的总体结构图;
图2是Electra替换遮盖检测方式图;
图3是self-attention权重计算方式图;
图4是BiLSTM结构图;
图5是实验数据设置图。
图6是数据集1上各模型的准确率对比图
图7是数据集2上各模型的准确率对比图
具体实施方式
以下结合附图与具体实施步骤从设计与实验对本发明做进一步解释说明,如图1所示,本发明的总体结构包括三个组成部分:Electra模型,注意力机制,BiLSTM。
其中,在嵌入层,用Electra模型替换一般方法中的Bert模型,以提高整体模型的训练效果。Electra模型主要训练两个神经网络,分别是一个生成器和一个判定器。一个编码器组成一个神经网络,将输入序列映射成对应的向量。计算对于每一个给定的位置,生成器输出生成的遮罩对应的可能性。其替换遮盖检测方式如图2所示。
由于本文的目标语料为中文短句,需要的是获取句子内部的依赖关系和内部结构,所以本文选择transform中的self-attention注意力机制作为模型的组成部分。self-attention是注意力机制的一种,它加强的是句子内部的权重。例如,“我是一名学生。”这句话,它加强的是“学生”的权重。计算自注意力权值的过程是使用一个Query,计算它和每个key的相似程度,然后对所有的Value进行加权求和。它的权重计算方式如图3所示。
BiLSTM是由前向LSTM和后向LSTM组合而成,因此可以更好的捕捉双向的语义依赖。例如,“这家店的差不行,没有隔壁好”,这里的“不行”是对“差”的一种程度修饰。通过BiLSTM可以捕捉这种从后往前的语义依赖关系。如图4所示,对于情感分类任务来说,BiLSTM会从两个方向获取句子各成分间的语义和结构信息,最后进行拼接。
以下是本方法的实验验证。
本实验包括两组实验数据,都是网上的开源数据集。其中,数据集1是餐饮外卖用户评论的数据语料。它分为训练集和测试集,其中训练集一共有9600条短评语料,测试集有2386条语料数据。训练集中积极的语料评论3200条,消极语料评论6400条,正负比为1:2。数据集2为汽车销售的用户评论语料,其中,训练集包含56700条评论语料,测试集包含6299条评论语料。它的训练集语料中包括28425条积极的数据评论和28275条消极的数据评论,测试集语料中包括3156条积极的数据评论,3143条消极的数据评论。数据集1为实验设计的小规模数据测试,测试本文提出的新的组合模型在小规模数据集上的应用效果。数据集2为实验设计的中等偏大规模数据测试,测试本文提出的新的组合模型在中等偏大规模数据集上的应用效果。实验数据集的设置如图5所示。
本方法选择python开发环境,通过Anaconda下载torch,sklearn等工具包。并调节Bert以及Electra的预训练权重。其中Bert的注意力概率下降率为0.1,激活函数为gelu,隐藏层dropout下降率为0.1,隐藏层下降率为0.1,隐藏层大小设为768,初始化范围为0.02,升维维度为3072,词典词数大小为21128。相对应的,Electra的相关参数设置与Bert尽可能的保持了一致。
文本实验在相同的环境下设置了4组对照实验,验证本文提出的这种新的Electra+atten+BiLSTM组合模型的优越性。
通过自然语言预训练模型Bert和Electra与LSTM,BiLSTM的组合可以得到4种组合模型
(1)Bert+atten+BiLSTM
(2)Bert+atten+LSTM
(3)Electra+atten+LSTM
(4)Electra+atten+BiLSTM
其中,Electra+atten+BiLSTM为本文提出的模型。每种模型分别经过10轮的神经网络迭代训练,以此验证各个模型分别在小规模,中大规模数据集上表现出的效果。每轮迭代训练后,会通过测试集测试计算该轮训练出的模型的准确率。使用数据集1餐饮外卖用户评论语料,几种模型训练出的准确率如图6所示。从图中可以看出,经过各模型神经网络的迭代训练,其准确率呈现不断上升的趋势。但是,本文提出的Electra+atten+BiLSTM模型始终位于各模型的上方。于此同时,可以看出基于Electra和LSTM的模型在节省自然语言处理文本情感分析领域训练资源代价同时,也可以取得比基于Bert和LSTM的模型更好的准确率。
为了更好的探索各种组合模型在不同数据集上的实验效果,验证本文提出的模型的有效性,本文设计了在数据集2汽车销售评论数据集上的实验研究。考虑到数据集1餐饮外卖评论语料集中正负语料比例为1:2,数据集2的正负语料比例设为1:1,由此排除可能存在的正负评论语料的不平衡问题对各模型预测效果的影响。
数据集2汽车销售用户评论上,各个模型经过10轮神经网络迭代训练,每轮训练出的模型准确率如图7所示。通过比较10轮迭代训练下来各模型准确率的大小,可以看出本文提出的Electra+atten+BiLSTM模型在面对中大规模数据集时,模型准确率上仍然占有优越。故本发明提出的这种新的组合模型方式是真实有效的。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (1)
1.一种基于electra+atten+BiLSTM的针对中文短文本情感分类方法,其特征在于:在嵌入层用electra预训练模型替换bert模型,减少文本情感分析方法中对分词准确性的依赖程度,避免传统预训练模型在遮盖训练和微调过程过程的不一致问题,通过注意力机制获取上下文信息,通过BiLSTM获取语料的双向时序信息,训练模型,最后对中文短文本评论语料的情感倾向做出分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111056556.9A CN113779252A (zh) | 2021-09-09 | 2021-09-09 | 一种基于electra+atten+BiLSTM的针对中文短文本情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111056556.9A CN113779252A (zh) | 2021-09-09 | 2021-09-09 | 一种基于electra+atten+BiLSTM的针对中文短文本情感分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113779252A true CN113779252A (zh) | 2021-12-10 |
Family
ID=78842114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111056556.9A Pending CN113779252A (zh) | 2021-09-09 | 2021-09-09 | 一种基于electra+atten+BiLSTM的针对中文短文本情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113779252A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114528407A (zh) * | 2022-02-23 | 2022-05-24 | 安徽理工大学 | 一种基于正交投影的bi-lstm-cnn的情感特征抽取方法 |
CN116070629A (zh) * | 2023-04-06 | 2023-05-05 | 北京蜜度信息技术有限公司 | 中文文本词序校对方法、系统、存储介质及电子设备 |
CN116756624A (zh) * | 2023-08-17 | 2023-09-15 | 中国民用航空飞行学院 | 一种面向民航监管事项检查记录处理的文本分类方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190251431A1 (en) * | 2018-02-09 | 2019-08-15 | Salesforce.Com, Inc. | Multitask Learning As Question Answering |
CN111209401A (zh) * | 2020-01-03 | 2020-05-29 | 西安电子科技大学 | 网络舆情文本信息情感极性分类处理系统及方法 |
CN112347766A (zh) * | 2020-11-27 | 2021-02-09 | 北京工业大学 | 一种处理微博文本认知歪曲的多标签分类方法 |
-
2021
- 2021-09-09 CN CN202111056556.9A patent/CN113779252A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190251431A1 (en) * | 2018-02-09 | 2019-08-15 | Salesforce.Com, Inc. | Multitask Learning As Question Answering |
CN111209401A (zh) * | 2020-01-03 | 2020-05-29 | 西安电子科技大学 | 网络舆情文本信息情感极性分类处理系统及方法 |
CN112347766A (zh) * | 2020-11-27 | 2021-02-09 | 北京工业大学 | 一种处理微博文本认知歪曲的多标签分类方法 |
Non-Patent Citations (1)
Title |
---|
KEVIN CLARK ET AL.: "ELECTRA:Pre-training Text Encoders as Discriminators Rather Than Generators", 《ICLR 2020》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114528407A (zh) * | 2022-02-23 | 2022-05-24 | 安徽理工大学 | 一种基于正交投影的bi-lstm-cnn的情感特征抽取方法 |
CN116070629A (zh) * | 2023-04-06 | 2023-05-05 | 北京蜜度信息技术有限公司 | 中文文本词序校对方法、系统、存储介质及电子设备 |
CN116756624A (zh) * | 2023-08-17 | 2023-09-15 | 中国民用航空飞行学院 | 一种面向民航监管事项检查记录处理的文本分类方法 |
CN116756624B (zh) * | 2023-08-17 | 2023-12-12 | 中国民用航空飞行学院 | 一种面向民航监管事项检查记录处理的文本分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109885670A (zh) | 一种面向话题文本的交互注意力编码情感分析方法 | |
CN113779252A (zh) | 一种基于electra+atten+BiLSTM的针对中文短文本情感分类方法 | |
CN110427461B (zh) | 智能问答信息处理方法、电子设备及计算机可读存储介质 | |
CN109739370B (zh) | 一种语言模型训练方法、汉语拼音输入方法及装置 | |
CN108846017A (zh) | 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法 | |
Oh et al. | Multi-column convolutional neural networks with causality-attention for why-question answering | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
Xie et al. | Attention-based dense LSTM for speech emotion recognition | |
CN110532554A (zh) | 一种中文摘要生成方法、系统及存储介质 | |
CN110222178A (zh) | 文本情感分类方法、装置、电子设备及可读存储介质 | |
CN111143563A (zh) | 基于bert与lstm及cnn融合的文本分类方法 | |
CN112232053B (zh) | 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质 | |
CN107577662A (zh) | 面向中文文本的语义理解系统及方法 | |
CN115393692A (zh) | 基于生成式预训练语言模型的联想文本到图像生成方法 | |
CN112905795A (zh) | 文本意图分类的方法、装置和可读介质 | |
CN112925904B (zh) | 一种基于Tucker分解的轻量级文本分类方法 | |
CN109948159B (zh) | 一种文本数据生成方法、装置、设备及可读存储介质 | |
CN107679225A (zh) | 一种基于关键词的回复生成方法 | |
CN110489554B (zh) | 基于位置感知互注意力网络模型的属性级情感分类方法 | |
CN110162789A (zh) | 一种基于汉语拼音的词表征方法及装置 | |
CN111125333A (zh) | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 | |
Li et al. | Cm-gen: A neural framework for chinese metaphor generation with explicit context modelling | |
CN113408619B (zh) | 语言模型预训练方法、装置 | |
CN112100342A (zh) | 一种基于知识表示学习技术的知识图谱问答方法 | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20211210 |