CN111026847B - 一种基于注意力网络和长短期记忆网络的文本情感识别方法 - Google Patents

一种基于注意力网络和长短期记忆网络的文本情感识别方法 Download PDF

Info

Publication number
CN111026847B
CN111026847B CN201911251502.0A CN201911251502A CN111026847B CN 111026847 B CN111026847 B CN 111026847B CN 201911251502 A CN201911251502 A CN 201911251502A CN 111026847 B CN111026847 B CN 111026847B
Authority
CN
China
Prior art keywords
network
attention
layer
long
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911251502.0A
Other languages
English (en)
Other versions
CN111026847A (zh
Inventor
周锋
盖志勇
石华峰
李小勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201911251502.0A priority Critical patent/CN111026847B/zh
Publication of CN111026847A publication Critical patent/CN111026847A/zh
Application granted granted Critical
Publication of CN111026847B publication Critical patent/CN111026847B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一个基于注意力网络和长短期记忆网络的文本情感识别方法。包括以下步骤:步骤101,将文本数据划分为训练集和测试集,每条数据包含一段话和对应类别代码。步骤102,嵌入层中存储了每个汉字对应的向量,将文本数据经过嵌入层转变为字向量。步骤103,将字符统一变为长度512个字,并进行遮罩操作。步骤104,将每个类别用两个字构成的词表示,拼接对应字向量得到该类别的类别向量。步骤105,构造3层结构长短期记忆网络和12层注意力网络。步骤106,结合长短期记忆网络和注意力网络的输出,得到最终预测结果。步骤107,根据损失函数,测量网络预测值和真实值的误差。步骤108,根据误差和学习率对网络进行梯度下降。

Description

一种基于注意力网络和长短期记忆网络的文本情感识别方法
技术领域
本发明涉及注意力网络和长短期记忆网络(LSTM)的模型集成领域,特别是涉及一种基于注意力网络(BERT)的文本情感识别方法。
背景技术
神经网络是一种基于机器学习方法,网络由若干层神经单元组成,每层神经单元对上一层输入进行矩阵乘法操作后,再经过激活函数得到非线性输出作为下一层的输入。
长短期记忆网络(LSTM)是循环神经网络(RNN)的一种,用来处理长度不一致的文本数据,可以解决训练神经网络过程中的梯度消失和梯度爆炸问题。相比传统神经网络,长短期记忆网络在更长的文本数据中有更好的表现。长短期记忆网络每个神经单元输入和输出都是双通道,隐状态通道和记忆细胞通道。神经单元内部由3个门运算构成,分别代表忘记、记忆选择和输出选择。由于比其他神经单元多了一个通道,所以使得文本中的关键信息可以保留更长的时间,提升了网络在长文本中的处理效果。
注意力网络(BERT)是基于注意力机制的神经网络,相比循环神经网络,注意力网络运算速度更快,网络层数和神经单元数量是循环神经网络的十多倍,可以捕捉更深更复杂的语义信息。注意力网络每层由三个模块组成,键模块、值模块和查询模块。上一层输入经过三个模块得到三个矩阵,键矩阵和查询矩阵经过矩阵乘法得到注意力向量,值矩阵乘以注意力向量得到输出作为下一层的输入。这种计算机制也叫注意力机制,注意力机制从本质上讲和人类的选择性视觉注意力机制类似,核心目标是从众多信息中选择出对当前任务目标更关键的信息。
文本情感识别属于多分类标签(multi-label)任务,可以同时识别一段文本中的多种情感倾向,此类任务已经取得良好的成果。但在情感类别相近时,语言表述和所用词汇比较接近,传统方法的识别率比较低。这是因为单凭长短期记忆网络或传统机器学习方法,难以捕捉高层语义信息,也就难以识别一些细微情感和曲折表述。目前的识别方法中还没有同时利用长短期记忆网络和注意力网络,同时提取文本的低层语义和高层语义,用于文本情感识别。目前情况下,由于缺乏处理高层语义信息,如果情感类别比较相近,面临识别准确率低的问题。
发明内容
本发明设计了一种基于注意力网络和长短期记忆网络的情感识别方法
1、步骤概述
步骤101,输入文本数据并划分为训练样本和测试样本;
步骤102,对文本数据进行文本清洗和字粒度划分,将每个字映射为多维度字向量;
步骤103,字向量序列经过填充(padding)和遮罩(mask),分别进入长短期记忆网络和注意力网络;
步骤104,将每个分类表示简化为两个字构成的词,拼接对应字向量得到每个类别的类别向量;
步骤105,建立长短期记忆网络结构和注意力网络的多标签任务分类层;
步骤106,对注意力网络输出y1和长短期记忆网络输出y2结果进行加权线性组合y=0.9*y1+0.1*y2,得到最后的输出结果y;
步骤107,设定损失函数(lossFunction)为交叉熵公式,根据预测值和真实值,使用交叉熵公式计算损失值(loss);
步骤108,确定网络学习率变化方式,根据学习率和损失值对网络进行梯度更新。
步骤103中,将文本数据通过填充特定字符或过长截断,统一变为512个字的文本长度;遮罩操作指,对每个文本向量构造一个长为512的向量,向量由0或1组成,1代表该位置是文本字符,0代表该位置是填充字符,在计算注意力向量时,填充字符位置的对应数值为0,也就避免了分配注意力给填充字符。
步骤105中长短期记忆网络整体为3层结构,每层都是双向神经单元。提取每层最后时间步的输出进行拼接作为句向量,句向量经过全连接层得到分类概率1,将最后一层各时间步输出乘以类别向量得到分类概率2,将分类概率1和分类概率2经过全连接层,得到网络最终输出。
步骤105中注意力网络整体为12层结构,每层由一个自注意力层和两个全连接层构成,每个全连接层有512*1024个神经元,而自注意力层由键矩阵、值矩阵和查询矩阵组成,共3*256*512个神经单元;查询矩阵的输出和键矩阵的输出进行矩阵乘法得到注意力向量,注意力向量和值矩阵的输出得到自注意力层输出。
步骤105中文本数据进过12层得到句子向量表示后,进入注意力网络任务层,任务层和任务类型相关,本任务层是一个全连接层,输入是512,输出是情感类别数量,所有全连接层输出都要经过数据归一化(batchNorm)、随机丢失操作(dropout)和激活函数,数据归一化是指将输出数据均值归0,方差归1,随机丢失操作是指以一定概率(通常是10%)将数据输出置0。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本发明的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。本发明的目标及特征考虑到如下结合附图的描述将更加明显,附图中:
图1为根据本发明的一种基于注意力网络和长短期记忆网络的文本情感识别方法的训练流程图。
图2为根据本发明的注意力网络结构图。
图3为根据本发明的长短期记忆网络结构图
具体实施方式
为了更好地解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。为了更好的理解本发明实施例的方案,以下对本发明实施例的装置进行概述说明。
本发明提供了一个基于注意力网络和长短期记忆网络的文本情感识别方法。包括以下步骤:步骤101,将文本数据划分为训练集和测试集,每条数据包含一段话和对应类别代码。步骤102,嵌入层中存储了每个汉字对应的向量,将文本数据经过嵌入层转变为字向量。步骤103,将字符统一变为长度512个字,并进行遮罩操作。步骤104,将每个类别用两个字构成的词表示,拼接对应字向量得到该类别的类别向量。步骤105,构造3层结构长短期记忆网络和12层注意力网络。步骤106,结合长短期记忆网络和注意力网络的输出,得到最终预测结果。步骤107,根据损失函数,测量网络预测值和真实值的误差。步骤108,根据误差和学习率对网络进行梯度下降。
本操作中采用了反向传播算法来训练神经网络,所述反向传播算法包括正向传播和反向传播过程组成。正向传播过程中,训练数据通过嵌入层经过注意力网络和长短期记忆网络,逐层处理传到输出层。如果在输出层中输出的预测值和实际的真实值不同,则根据损失函数计算误差,转入反向传播。按照与输入相反的方向,从输出层开始,逐层计算损失函数相对于各个神经元权值的偏导数,构成损失函数对权值向量的梯度,作为修改权值的依据,网络的学习即是指不断的进行权值修改,直到损失函数的值达到期望范围内,此时网络学习结束,得到对文本情感识别的注意力网络和长短期记忆网络结构。
图2展示了注意力网络的自注意力层结构图,自注意力层由键矩阵、值矩阵和查询矩阵组成,共3*256*512个神经单元。查询矩阵输出和键矩阵输出进行矩阵乘法得到注意力向量,注意力向量和值矩阵输出得到自注意力层输出。
本操作中涉及的全连接层均使用了数据归一化(batchNorm)、随机丢失操作(dropout)和激活函数。数据归一化将输出数据均值归0,方差归1,有助于减缓梯度遗忘和梯度爆炸现象,使网络层数可以比较多,捕捉更高层的语义信息。随机丢失操作,有助于提高网络在验证集上的表现,提高网络的泛化性能。激活函数是一种非线性的函数,用于获取非线性输出,可以更灵活获取文本的特征表示。本实施中,每层均使用ReLU函数作为激活函数。
图3展示了长短期记忆网络的神经元内部结构。双通道输入输出,包括隐状态通道和记忆细胞通道。神经单元内部由3个门运算构成,分别代表忘记、记忆选择和输出选择。由于比其他神经单元多了一个通道,所以使得文本中的关键信息可以保留更长的时间,提升了网络在长文本中的处理效果。其中
σ(x)=1/(1+e-x)
tanh(x)=(ex-e-x)/(ex+e-x)
虽然本发明已经参考特定的说明性实施例进行了描述,但是不会受到这些实施例的限定而仅仅受到附加权利要求的限定。本领域技术人员应当理解可以在不偏离本发明的保护范围和精神的情况下对本发明的实施例能够进行改动和修改。

Claims (5)

1.一种基于注意力网络和长短期记忆网络的情感识别方法,其特征在于包括如下步骤:
步骤101,输入文本数据并划分为训练样本和测试样本;
步骤102,对文本数据进行文本清洗和字粒度划分,将每个字映射为多维度字向量;
步骤103,字向量序列经过填充(padding)和遮罩(mask),分别进入长短期记忆网络和注意力网络;
遮罩操作指,对每个文本向量构造一个长为512的向量,向量由0或1组成,1代表该位置是文本字符,0代表该位置是填充字符,在计算注意力向量时,填充字符位置的对应数值为0,也就避免了分配注意力给填充字符;
步骤104,将每个分类表示简化为两个字构成的词,拼接对应字向量得到每个类别的类别向量;
步骤105,建立长短期记忆网络结构和注意力网络的多标签任务分类层;
步骤106,对注意力网络输出y1和长短期记忆网络输出y2结果进行加权线性组合y=0.9×y1+0.1×y2,得到最后的输出结果y;
步骤107,设定损失函数(lossFunction)为交叉熵公式,根据预测值和真实值,使用交叉熵公式计算损失值(loss);
步骤108,确定网络学习率变化方式,根据学习率和损失值对网络进行梯度更新。
2.根据权利要求1所述的一种基于注意力网络和长短期记忆网络的情感识别方法,其特征在于步骤103中将文本数据通过填充特定字符或过长截断,统一变为512个字的文本长度。
3.根据权利要求1所述的一种基于注意力网络和长短期记忆网络的情感识别方法,其特征在于步骤105中构建长短期记忆网络的具体方法为:长短期记忆网络整体为3层结构,每层都是双向神经单元; 提取每层最后时间步的输出进行拼接作为句向量,句向量经过全连接层得到分类概率1,将最后一层各时间步输出乘以类别向量得到分类概率2,将分类概率1和分类概率2经过全连接层,得到网络最终输出。
4.根据权利要求1所述的一种基于注意力网络和长短期记忆网络的情感识别方法,其特征在于步骤105中构建注意力网络的具体方法为:注意力网络整体为12层结构,每层由一个自注意力层和两个全连接层构成,每个全连接层有512*1024个神经元,而自注意力层由键矩阵、值矩阵和查询矩阵组成,共3*256*512个神经单元;查询矩阵的输出和键矩阵的输出进行矩阵乘法得到注意力向量,注意力向量和值矩阵的输出得到自注意力层输出。
5.根据权利要求1所述的一种基于注意力网络和长短期记忆网络的情感识别方法,其特征在于步骤105中构建注意力网络任务层的具体方法为:文本数据经过12层得到句子向量表示后,进入注意力网络任务层,任务层和任务类型相关,本任务层是一个全连接层,输入是512,输出是情感类别数量,所有全连接层输出都要经过数据归一化(batchNorm)、随机丢失操作(dropout)和激活函数,数据归一化是指将输出数据均值归0,方差归1,随机丢失操作是指以10%概率将数据输出置0。
CN201911251502.0A 2019-12-09 2019-12-09 一种基于注意力网络和长短期记忆网络的文本情感识别方法 Active CN111026847B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911251502.0A CN111026847B (zh) 2019-12-09 2019-12-09 一种基于注意力网络和长短期记忆网络的文本情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911251502.0A CN111026847B (zh) 2019-12-09 2019-12-09 一种基于注意力网络和长短期记忆网络的文本情感识别方法

Publications (2)

Publication Number Publication Date
CN111026847A CN111026847A (zh) 2020-04-17
CN111026847B true CN111026847B (zh) 2022-04-26

Family

ID=70208780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911251502.0A Active CN111026847B (zh) 2019-12-09 2019-12-09 一种基于注意力网络和长短期记忆网络的文本情感识别方法

Country Status (1)

Country Link
CN (1) CN111026847B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553295B (zh) * 2020-05-01 2023-05-09 北京邮电大学 基于自注意力机制的多模态情感识别方法
CN111586071B (zh) * 2020-05-19 2022-05-20 上海飞旗网络技术股份有限公司 一种基于循环神经网络模型的加密攻击检测方法及装置
CN111680601A (zh) * 2020-06-01 2020-09-18 浙江工业大学 一种适用于基于长短期记忆网络的无线信号调制分类器可视化方法
CN112184431A (zh) * 2020-11-09 2021-01-05 上海优扬新媒信息技术有限公司 用户风险确定方法和装置
CN112259228B (zh) * 2020-11-12 2023-06-02 湖北理工学院 一种动态注意力网络非负矩阵分解的抑郁症筛选方法
CN112182231B (zh) * 2020-12-01 2021-03-09 佰聆数据股份有限公司 基于句向量预训练模型的文本处理方法、系统及存储介质
CN112597841B (zh) * 2020-12-14 2023-04-18 之江实验室 一种基于门机制多模态融合的情感分析方法
CN113159122B (zh) * 2021-03-16 2022-03-15 重庆市地理信息和遥感应用中心 基于社交媒体图像数据的城市风貌分析方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446275A (zh) * 2018-03-21 2018-08-24 北京理工大学 基于注意力双层lstm的长文本情感倾向性分析方法
CN110147452A (zh) * 2019-05-17 2019-08-20 北京理工大学 一种基于层级bert神经网络的粗粒度情感分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446275A (zh) * 2018-03-21 2018-08-24 北京理工大学 基于注意力双层lstm的长文本情感倾向性分析方法
CN110147452A (zh) * 2019-05-17 2019-08-20 北京理工大学 一种基于层级bert神经网络的粗粒度情感分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于双层注意力和Bi-LSTM的公共安全事件微博情感分析;曾子明等;《情报科学》;20190530(第06期);全文 *
基于多注意力的中文命名实体识别;顾凌云;《信息与电脑(理论版)》;20190515(第09期);全文 *

Also Published As

Publication number Publication date
CN111026847A (zh) 2020-04-17

Similar Documents

Publication Publication Date Title
CN111026847B (zh) 一种基于注意力网络和长短期记忆网络的文本情感识别方法
CN111198937B (zh) 对话生成及装置、计算机可读存储介质、电子设备
CN107943784B (zh) 基于生成对抗网络的关系抽取方法
CN110032630B (zh) 话术推荐设备、方法及模型训练设备
CN111966800B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN110457718B (zh) 一种文本生成方法、装置、计算机设备及存储介质
CN111625634B (zh) 词槽识别方法及装置、计算机可读存储介质、电子设备
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN111191457B (zh) 自然语言语义识别方法、装置、计算机设备和存储介质
CN106910497A (zh) 一种中文词语发音预测方法及装置
CN113987179A (zh) 基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质
CN111382573A (zh) 用于答案质量评估的方法、装置、设备和存储介质
CN110245353B (zh) 自然语言表示方法、装置、设备及存储介质
CN110516070A (zh) 一种基于文本纠错与神经网络的中文问句分类方法
CN112183085A (zh) 机器阅读理解方法、装置、电子设备及计算机存储介质
CN116049387A (zh) 一种基于图卷积的短文本分类方法、装置、介质
CN113761883A (zh) 一种文本信息识别方法、装置、电子设备及存储介质
Yao Attention-based BiLSTM neural networks for sentiment classification of short texts
CN112199503B (zh) 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法
CN114491289A (zh) 一种双向门控卷积网络的社交内容抑郁检测方法
CN111723572B (zh) 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法
CN112560440A (zh) 一种基于深度学习的面向方面级情感分析的句法依赖方法
CN110334204B (zh) 一种基于用户记录的习题相似度计算推荐方法
Wakchaure et al. A scheme of answer selection in community question answering using machine learning techniques
CN110929516A (zh) 文本的情感分析方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant