CN113177111A - 中文文本情感分析方法、装置、计算机设备和存储介质 - Google Patents

中文文本情感分析方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113177111A
CN113177111A CN202110594523.3A CN202110594523A CN113177111A CN 113177111 A CN113177111 A CN 113177111A CN 202110594523 A CN202110594523 A CN 202110594523A CN 113177111 A CN113177111 A CN 113177111A
Authority
CN
China
Prior art keywords
text
layer
chinese text
classification
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110594523.3A
Other languages
English (en)
Other versions
CN113177111B (zh
Inventor
胡艳丽
童谭骞
李川
左浩
谭立君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202110594523.3A priority Critical patent/CN113177111B/zh
Publication of CN113177111A publication Critical patent/CN113177111A/zh
Application granted granted Critical
Publication of CN113177111B publication Critical patent/CN113177111B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种中文文本情感分析方法、装置、计算机设备和存储介质。所述方法包括:获取中文文本,并对其进行预处理得到训练样本;构建中文文本情感分析网络,采用训练样本对该网络进行训练,得到训练好的中文文本情感分析模型;将待测样本输入到中文文本情感分析模型中,得到情感极性分类。本模型采用双向门控循环单元提取文本序列特征,然后采用自注意机制结合全局信息对特征进行初步筛选,通过不同大小的卷积核对局部特征多粒度的提取,充分挖掘文本内部结构关系,再用自注意力机制取代传统的池化方法,提高关键局部向量的提取保留能力,提高模型的判断准确性。本模型较目前主流方法,在情感极性预测的准确性上有一定提高。

Description

中文文本情感分析方法、装置、计算机设备和存储介质
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种中文文本情感分析方法、装置、计算机设备和存储介质。
背景技术
互联网的高速发展和社交网络的无孔不入带来了文本信息爆炸式增长。其中线上评论文本如时事新闻评论、网上购物评论、书评影评等因其具有的针对性强、价值密度较高的特点受到学术界的普遍关注。中国互联网信息中心(CNNIC)2020年9月份的统计报告显示,我国网民规模已达9.4亿,占全球总数的1/5。中文语料环境下的情感分析能起到跟踪社情舆论、提高交易质量、反馈读者满意度等作用,具有较强的研究价值。情感极性分析是情感分类的一种方法,将文本的情感分为正极性和负极性,如满意、兴奋、认可等积极情感被归为正极性情感,而悲伤、失落、怨恨等归为负极性情感。
现有的研究中大部分基于词向量的循环神经网络与卷积神经网络模型对于文本特征的提取和保留能力不足,导致与情感极性相关的特征被丢弃,影响分类的准确性。
发明内容
基于此,有必要针对上述技术问题,提供一种中文文本情感分析方法、装置、计算机设备和存储介质。
一种中文文本情感分析方法,所述方法包括:
获取中文文本,并对所述中文文本进行预处理得到训练样本。
构建中文文本情感分析网络;所述中文文本情感分析网络包括词嵌入层、特征提取网络及分类网络;所述特征提取网络包括双向门限循环单元层、自注意力层、多粒度卷积层及基于自注意力的池化层;所述词嵌入层用于采用分词模块将所述训练样本转化为词向量序列;所述特征提取网络用于通过所述双向门限循环单元层学习所述词向量序列的文本序列化特征,通过所述自注意力层对所述文本序列化特征进行特征筛选得到新文本特征,通过所述多粒度卷积层提取所述新文本特征中不同尺度的局部特征得到文本数据特征图,并通过基于自注意力的池化层对所述文本数据特征图进行特征提取得到局部特征序列;所述分类网络用于将所述局部特征序列进行特征融合,并进行情感极性分类。
将所述训练样本输入到所述中文文本情感分析网络中进行训练,得到训练好的中文文本情感分析模型。
获取待测中文文本,并对所述待测中文文本进行预处理得到待测样本。
将所述待测样本输入到所述中文文本情感分析模型中,得到情感极性分类。
在其中一个实施例中,获取中文文本,并对所述中文文本进行预处理得到训练样本,包括:
获取中文文本。
对所述中文文本进行繁简体统一处理,并剔除标点等特殊字符,得到训练样本。
在其中一个实施例中,将所述训练样本输入到所述中文文本情感分析网络中进行训练,得到训练好的中文文本情感分析模型,包括:
将所述训练样本输入到所述词嵌入层中,采用分词模块将所述训练样本转化为词序列,并通过预训练词向量模型对词序列进行词向量映射,得到所述词向量序列。
将所述词向量序列输入到所述双向门限循环单元层中,得到所述文本序列化特征。
将所述文本序列化特征输入到自注意力层中,得到所述新文本特征。
将所述新文本特征输入到多粒度卷积层中,得到所述文本数据特征图。
将所述文本数据特征图输入到所述基于自注意力的池化层中,得到对情感分类影响最大的局部特征序列。
将所述局部特征序列输入到分类网络中,得到情感极性预分类,并根据所述情感极性预分类和所述训练样本对所述中文文本情感分析网络进行反向训练,得到训练好的中文文本情感分析模型。
在其中一个实施例中,将所述文本序列化特征输入到自注意力层中,得到所述新文本特征,包括:
根据预定的全局信息,计算得到词语的权重值。
将每个所述词语的权重与对应时刻的文本序列化特征进行加权求和,得到突出重点的所述新文本特征。
在其中一个实施例中,所述多粒度卷积层包括多个大小不同的卷积核。
将所述新文本特征输入到多粒度卷积层中,得到所述文本数据特征图,包括:
采用所述不同大小的卷积核对所述新文本特征进行特征提取,并采用Relu激活函数,得到包含局部特征的所述文本数据特征图。
在其中一个实施例中,将所述文本数据特征图输入到所述基于自注意力的池化层中,得到对情感分类影响最大的局部特征序列,包括:
将所述文本数据特征图输入到所述基于自注意力的池化层中,采用基于自注意力机制,对所述文本数据特征图进行加权求和,得到对情感分类影响最大的局部特征序列。
在其中一个实施例中,分类网络包括全连接层和分类层;将所述局部特征序列输入到分类网络中,得到情感极性预分类,并根据所述情感极性预分类和所述训练样本对所述中文文本情感分析网络进行反向训练,得到训练好的中文文本情感分析模型,包括:
将所述局部特征序列输入到所述全连接层中,对所述局部特征序列输入进行特征融合,得到融合特征序列。
将所述融合特征序列输入到所述分类层中,采用Softmax逻辑回归模型进行分类,得到情感极性预分类。
根据所述情感极性预分类和所述训练样本对所述中文文本情感分析网络进行反向训练,得到训练好的中文文本情感分析模型。
一种中文文本情感分析装置,所述装置包括:
训练样本获取模块,用于获取中文文本,并对所述中文文本进行预处理得到训练样本。
中文文本情感分析网络构建模块,用于构建中文文本情感分析网络;所述中文文本情感分析网络包括词嵌入层、特征提取网络及分类网络;所述特征提取网络包括双向门限循环单元层、自注意力层、多粒度卷积层及基于自注意力的池化层;所述词嵌入层用于采用分词模块将所述训练样本转化为词向量序列;所述特征提取网络用于通过所述双向门限循环单元层学习所述词向量序列的文本序列化特征,通过所述自注意力层对所述文本序列化特征进行特征筛选得到新文本特征,通过所述多粒度卷积层提取所述新文本特征中不同尺度的局部特征得到文本数据特征图,并通过基于自注意力的池化层对所述文本数据特征图进行特征提取得到局部特征序列;所述分类网络用于将所述局部特征序列进行特征融合,并进行情感极性分类。
中文文本情感分析模型训练模块,用于将所述训练样本输入到所述中文文本情感分析网络中进行训练,得到训练好的中文文本情感分析模型。
情感极性分类确定模块,用于获取待测中文文本,并对所述待测中文文本进行预处理得到待测样本;将所述待测样本输入到所述中文文本情感分析模型中,得到情感极性分类。
上述中文文本情感分析方法、装置、计算机设备和存储介质,获取中文文本,并对中文文本进行预处理得到训练样本;构建中文文本情感分析网络;采用训练样本对该网络进行训练,得到训练好的中文文本情感分析模型,获取待测中文文本并进行处理,将处理得到的待测样本输入到中文文本情感分析模型中,得到情感极性分类。中文文本情感分析模型采用双向门控循环单元提取文本序列特征,然后采用自注意机制结合全局信息对特征进行初步筛选,通过不同大小的卷积核对局部特征多粒度的提取,充分挖掘文本内部结构关系,再用自注意力机制取代传统的池化方法,提高关键局部向量的提取保留能力,突出情感极性相关度高的特征,提高模型的判断准确性。本模型较目前主流方法,在情感极性预测的准确性上有一定提高。
附图说明
图1为一个实施例中中文文本情感分析方法的流程示意图;
图2为一个实施例中基于层次自注意力的双向门控循环单元与多粒度卷积神经网络模型整体结构示意图;
图3为一个实施例中中文文本情感分析装置的结构框图;
图4为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
情感分析(Sentiment Analysis),也被称为情感倾向性分析,最早由Li等人提出,逐渐成为自然语言处理(Natural Language Processing,NLP)的热门领域,而情感极性分析是情感分析的一个方向。情感极性分析的任务可以理解为特殊的二分类问题,即将情感分为正倾向和负倾向。正倾向包含如满意、兴奋、赞叹等积极情感,而悲伤、失落、怨恨等归为负倾性。
在一个实施例中,如图1所示,提供了一种中文文本情感分析方法,该方法包括以下步骤:
步骤100:获取中文文本,并对中文文本进行预处理得到训练样本。
中文文本是从网络上下载的语料库、word格式的文件、excel格式的文件或者其他格式的文件中提取的。
预处理过程包括文件规范编码处理、过滤非法字符、中文分词处理以及去除停用词等步骤。
文本是一种非结构化的数据,由大量字符构成,计算机无法直接处理字符类型的数据,因此需要将普通文本的内容转变为计算机能够读懂的数据形式,即将文本进行形式化表示。本发明采用向量空间模型来表示文本。
步骤102:构建中文文本情感分析网络。
中文文本情感分析网络包括词嵌入层、特征提取网络及分类网络。
特征提取网络包括双向门限循环单元层(Bidirectional Gated RecurrentUnit,BGRU)、自注意力层、多粒度卷积层及基于自注意力的池化层。
词嵌入层用于采用分词模块将训练样本转化为词向量序列;特征提取网络用于通过双向门限循环单元层学习词向量序列的文本序列化特征,通过自注意力层对文本序列化特征进行特征筛选得到新文本特征,通过多粒度卷积层提取新文本特征中不同尺度的局部特征得到文本数据特征图,并通过基于自注意力的池化层对文本数据特征图进行特征提取得到局部特征序列;分类网络用于将局部特征序列进行特征融合,并进行情感极性分类。
注意力机制(Attention)源自对于人类视觉处理机制的研究,其机理可理解为结合内外部信息以加速提取稀疏数据的重要特征。自注意力机制是注意力机制的一种改进,它降低了对于外部信息的依赖程度,提高了对数据特征的内部相关性的捕捉能力。
中文文本情感分析网络中在BGRU和多粒度卷积层后加入自注意力机制,提高对于文本情感极性相关特征的关注度,进而提高分类准确性。
门控制循环单元(GRU)模型中包含两种门:更新门和重置门。重置门决定了如何将新的输入信息与前面的记忆相结合,更新门定义了前面记忆保存到当前时间步的量。因采用了更加精简的结构,GRU模型参数较LSTM更少,在训练速度上有一定提升,能够更好地对文本表征建模。
中文文本情感分析网络中采用双向门控制循环单元对数据进行提取,充分考虑词汇的上下文信息,提高情感判断的准确性。
卷积神经网络(CNN)最初应用于计算机视觉领域,是典型的多层次前反馈神经网络。因其具有出色的局部特征抽取能力,近年来在NLP领域受到广泛应用。一般来说,CNN基本功能模块可分为卷积层和池化层两部分,其中卷积层用以学习输入数据的局部特征,池化层用于对其中重要特征的提取保留。在卷积层中使用多种尺度的卷积核可以挖掘文本不同粒度的特征;常见的池化层处理方法有最大值池化(Max-Pooling)、平均值池化(Ave-Pooling)等,本发明采用自注意力结构来代替传统池化策略,在卷积层中使用多尺度卷积核挖掘文本不同粒度的特征,在结合全局信息的基础上对特征进行重要性判别和提取保留。
步骤104:将训练样本输入到中文文本情感分析网络中进行训练,得到训练好的中文文本情感分析模型。
步骤106:获取待测中文文本,并对待测中文文本进行预处理得到待测样本。
步骤108:将待测样本输入到中文文本情感分析模型中,得到情感极性分类。
上述中文文本情感分析方法中,通过获取中文文本,并对中文文本进行预处理得到训练样本;构建中文文本情感分析网络;采用训练样本对该网络进行训练,得到训练好的中文文本情感分析模型,获取待测中文文本并进行处理,将处理得到的待测样本输入到中文文本情感分析模型中,得到情感极性分类。中文文本情感分析模型采用双向门控循环单元提取文本序列特征,然后采用自注意机制结合全局信息对特征进行初步筛选,通过不同大小的卷积核对局部特征多粒度的提取,充分挖掘文本内部结构关系,再用自注意力机制取代传统的池化方法,提高关键局部向量的提取保留能力,突出情感极性相关度高的特征,提高模型的判断准确性。本模型较目前主流方法,在情感极性预测的准确性上有一定提高。
在其中一个实施例中,步骤100还包括:获取中文文本;对中文文本进行繁简体统一处理,并剔除标点等特殊字符,得到训练样本。
在其中一个实施例中,步骤104还包括:将训练样本输入到词嵌入层中,采用分词模块将训练样本转化为词序列,并通过预训练词向量模型对词序列进行词向量映射,得到词向量序列;将词向量序列输入到双向门限循环单元层中,得到文本序列化特征;将文本序列化特征输入到自注意力层中,得到新文本特征;将新文本特征输入到多粒度卷积层中,得到文本数据特征图;将文本数据特征图输入到基于自注意力的池化层中,得到对情感分类影响最大的局部特征序列;将局部特征序列输入到分类网络中,得到情感极性预分类,并根据情感极性预分类和训练样本对中文文本情感分析网络进行反向训练,得到训练好的中文文本情感分析模型。
在其中一个实施例中,步骤104还包括:根据预定的全局信息,计算得到词语的权重值;将每个词语的权重与对应时刻的文本序列化特征进行加权求和,得到突出重点的新文本特征。
在其中一个实施例中,多粒度卷积层包括多个大小不同的卷积核;步骤104还包括:采用不同大小的卷积核对新文本特征进行特征提取,并采用Relu激活函数,得到包含局部特征的文本数据特征图。
在其中一个实施例中,步骤104还包括:将文本数据特征图输入到基于自注意力的池化层中,采用基于自注意力机制,对文本数据特征图进行加权求和,得到对情感分类影响最大的局部特征序列。
在其中一个实施例中,分类网络包括全连接层和分类层;步骤104还包括:将局部特征序列输入到全连接层中,对局部特征序列输入进行特征融合,得到融合特征序列;将融合特征序列输入到分类层中,采用Softmax逻辑回归模型进行分类,得到情感极性预分类;根据情感极性预分类和训练样本对中文文本情感分析网络进行反向训练,得到训练好的中文文本情感分析模型。
在其中一个实施例中,如图2所示,给出了一个基于层次自注意力的双向门控循环单元与多粒度卷积神经网络模型的整体结构示意。该模型主要分为词嵌入层,BGRU层,自注意力层,多粒度卷积层,基于自注意力的池化层,全连接与分类层等6个层次。
该模型先使用分词模块对文本进行分词,再经word2vec预训练词向量映射将中文词语转化为实数向量。基于层次自注意力的双向门控循环单元与多粒度卷积神经网络模型使用BGRU先对文本序列特征进行分析,获得语句内部结构信息,通过自注意力层对特征进行动态赋权,突出关键特征。再将特征序列导入多粒度卷积层,提取不同尺度的局部特征。在卷积层后再次加入注意力机制,保留强调与情感极性判断相关性高的特征,最后分类器得到情感极性分类结果。具体的处理流程包括:
设文本输入为D,经文本预处理步骤,对文本数据进行繁简体统一,并剔除标点等特殊字符,得到输出D'。
在词嵌入层中:使用分词模块将训练样本D'转化为词序列。设该序列由L个词组成,即将输入表示为{w1,w2,w3,···,wi,···,wL},其中wi表示第i个词;然后通过预训练词向量模型对词序列进行词向量映射,转化为词向量序{v1,v2,v3,···,vi,···,vL},其中vi∈Rd,vi表示第i个词向量,d表示每个词的维度。
在BGRU层中,将词向量序列输入双向门限循环单元中,学习文本序列化特征,获得文本内部体系结构。该步骤的运算过程可表示为:分别经一个正向GRU和一个反向GRU,然后对输出再进行组合,计算过程为公式(1)-(3):
Figure BDA0003090446740000091
Figure BDA0003090446740000092
Figure BDA0003090446740000093
其中,
Figure BDA0003090446740000094
表示t时刻经正向GRU得到的特征向量,
Figure BDA0003090446740000095
表示经反向的特征向量,二者连接得到突出重点的新文本特征ht,f正向GRU(·)表示正向GRU的映射函数,f反向GRU(·)表示反向GRU的映射函数。
在自注意力层中,自注意力机制主要作用是对序列分析后的特征进行初步筛选,突出和保留与任务相关性更高的特征。具体表现形式为:通过考虑全局信息,计算得到词语的权重值α,然后将各词的权重与各时刻的特征输出表示进行加权求和,得到突出重点的新的特征表示Ht。过程如式(4)所示:
Ht=∑αtht (4)
其中:αt表示特征权重,且满足∑αi=1,ht表示BGRU层输出的新文本特征。
在多粒度卷积层中,接收自注意力层输出的新文本特征,选取不同大小的卷积核对文本特征进一步提取,并采用Relu激活函数。相较于早期的Sigmoid函数,Relu能加快模型训练收敛的速度,同时可以更加有效率的做到梯度下降和反向传播,避免了梯度爆炸和梯度消失问题。抽取特征的过程如(5)式所示:
ci=frelu(w·xi:i+h-1+b) (5)
其中:w∈Rh×m表示卷积核的权重,h×m表示卷积核窗口的粒度,b表示偏置量,frelu为激活函数;ci表示包含局部特征的文本数据的特征图。
在基于自注意力的池化层中,为了进一步从中寻找对最终情感极性分类影响结果最大的因素,一般会采用池化层来解决。如Max-Pooling、Ave-Pooling等池化方法的作用可理解为一种形式的降采样,同时使用局部最大值或者局部均值来代表采样部分,降低训练数据量和模型参数。本发明提出使用自注意力(self-Attention)机制来取代传统的池化层,以提高特征提取能力,同时也可以起到降维约参的作用,降低计算消耗。本层计算示意如下式(6)
Pt=∑α'tct (6)
其中:α't表示特征权重,且满足∑α'i=1,ct表示多粒度卷积层输出的包含局部特征的文本数据的特征图,Pt表示对情感分类影响最大的局部特征序列。
在全连接与分类层中,将对情感分类影响最大的局部特征序列输入全连接层进行特征融合,再通过分类层进行情感极性分类。运算过程为:情感分类影响最大的局部特征序列经全连接层处理融合,得到融合特征序列Dfinal;分类层再使用Softmax逻辑回归模型对所有的局部特征进行综合分析,将输入Dfinal转化为两种情感极性的概率分布,计算表示如下式(7)。
pi=Softmax(W·Dfinal+b) (7)
其中,pi为情感极性的概率分布,W为Softmax权重矩阵,b为偏移量,Dfinal表示融合特征序列。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种中文文本情感分析装置,该装置包括:训练样本获取模块、中文文本情感分析网络构建模块、中文文本情感分析模型训练模块以及情感极性分类确定模块,其中:
训练样本获取模块,用于获取中文文本,并对中文文本进行预处理得到训练样本。
中文文本情感分析网络构建模块,用于构建中文文本情感分析网络;中文文本情感分析网络包括词嵌入层、特征提取网络及分类网络;特征提取网络包括双向门限循环单元层、自注意力层、多粒度卷积层及基于自注意力的池化层;词嵌入层用于采用分词模块将训练样本转化为词向量序列;特征提取网络用于通过双向门限循环单元层学习词向量序列的文本序列化特征,通过自注意力层对文本序列化特征进行特征筛选得到新文本特征,通过多粒度卷积层提取新文本特征中不同尺度的局部特征得到文本数据特征图,并通过基于自注意力的池化层对文本数据特征图进行特征提取得到局部特征序列;分类网络用于将局部特征序列进行特征融合,并进行情感极性分类。
中文文本情感分析模型训练模块,用于将训练样本输入到中文文本情感分析网络中进行训练,得到训练好的中文文本情感分析模型。
情感极性分类确定模块,用于获取待测中文文本,并对待测中文文本进行预处理得到待测样本;将待测样本输入到中文文本情感分析模型中,得到情感极性分类。
在其中一个实施例中,训练样本获取模块,还用于获取中文文本;对中文文本进行繁简体统一处理,并剔除标点等特殊字符,得到训练样本。
在其中一个实施例中,中文文本情感分析模型训练模块,还用于将训练样本输入到词嵌入层中,采用分词模块将训练样本转化为词序列,并通过预训练词向量模型对词序列进行词向量映射,得到词向量序列;将词向量序列输入到双向门限循环单元层中,得到文本序列化特征;将文本序列化特征输入到自注意力层中,得到新文本特征;将新文本特征输入到多粒度卷积层中,得到文本数据特征图;将文本数据特征图输入到基于自注意力的池化层中,得到对情感分类影响最大的局部特征序列;将局部特征序列输入到分类网络中,得到情感极性预分类,并根据情感极性预分类和训练样本对中文文本情感分析网络进行反向训练,得到训练好的中文文本情感分析模型。
在其中一个实施例中,中文文本情感分析模型训练模块,还用于根据预定的全局信息,计算得到词语的权重值;将每个词语的权重与对应时刻的文本序列化特征进行加权求和,得到突出重点的新文本特征。
在其中一个实施例中,多粒度卷积层包括多个大小不同的卷积核;中文文本情感分析模型训练模块,还用于采用不同大小的卷积核对新文本特征进行特征提取,并采用Relu激活函数,得到包含局部特征的文本数据特征图。
在其中一个实施例中,中文文本情感分析模型训练模块,还用于将文本数据特征图输入到基于自注意力的池化层中,采用基于自注意力机制,对文本数据特征图进行加权求和,得到对情感分类影响最大的局部特征序列。
在其中一个实施例中,分类网络包括全连接层和分类层;中文文本情感分析模型训练模块,还用于将局部特征序列输入到全连接层中,对局部特征序列输入进行特征融合,得到融合特征序列;将融合特征序列输入到分类层中,采用逻辑回归模型进行分类,得到情感极性预分类;根据情感极性预分类和训练样本对中文文本情感分析网络进行反向训练,得到训练好的中文文本情感分析模型。
关于中文文本情感分析装置的具体限定可以参见上文中对于中文文本情感分析方法的限定,在此不再赘述。上述中文文本情感分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种中文文本情感分析方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种中文文本情感分析方法,其特征在于,所述方法包括:
获取中文文本,并对所述中文文本进行预处理得到训练样本;
构建中文文本情感分析网络;所述中文文本情感分析网络包括词嵌入层、特征提取网络及分类网络;所述特征提取网络包括双向门限循环单元层、自注意力层、多粒度卷积层及基于自注意力的池化层;所述词嵌入层用于采用分词模块将所述训练样本转化为词向量序列;所述特征提取网络用于通过所述双向门限循环单元层学习所述词向量序列的文本序列化特征,通过所述自注意力层对所述文本序列化特征进行特征筛选得到新文本特征,通过所述多粒度卷积层提取所述新文本特征中不同尺度的局部特征得到文本数据特征图,并通过基于自注意力的池化层对所述文本数据特征图进行特征提取得到局部特征序列;所述分类网络用于将所述局部特征序列进行特征融合,并进行情感极性分类;
将所述训练样本输入到所述中文文本情感分析网络中进行训练,得到训练好的中文文本情感分析模型;
获取待测中文文本,并对所述待测中文文本进行预处理得到待测样本;
将所述待测样本输入到所述中文文本情感分析模型中,得到情感极性分类。
2.根据权利要求1所述的方法,其特征在于,获取中文文本,并对所述中文文本进行预处理得到训练样本,包括:
获取中文文本;
对所述中文文本进行繁简体统一处理,并剔除标点等特殊字符,得到训练样本。
3.根据权利要求1所述的方法,其特征在于,将所述训练样本输入到所述中文文本情感分析网络中进行训练,得到训练好的中文文本情感分析模型,包括:
将所述训练样本输入到所述词嵌入层中,采用分词模块将所述训练样本转化为词序列,并通过预训练词向量模型对词序列进行词向量映射,得到所述词向量序列;
将所述词向量序列输入到所述双向门限循环单元层中,得到所述文本序列化特征;
将所述文本序列化特征输入到自注意力层中,得到所述新文本特征;
将所述新文本特征输入到多粒度卷积层中,得到所述文本数据特征图;
将所述文本数据特征图输入到所述基于自注意力的池化层中,得到对情感分类影响最大的局部特征序列;
将所述局部特征序列输入到分类网络中,得到情感极性预分类,并根据所述情感极性预分类和所述训练样本对所述中文文本情感分析网络进行反向训练,得到训练好的中文文本情感分析模型。
4.根据权利要求3所述的方法,其特征在于,将所述文本序列化特征输入到自注意力层中,得到所述新文本特征,包括:
根据预定的全局信息,计算得到词语的权重值;
将每个所述词语的权重与对应时刻的文本序列化特征进行加权求和,得到突出重点的所述新文本特征。
5.根据权利要求3所述的方法,其特征在于,所述多粒度卷积层包括多个大小不同的卷积核;
将所述新文本特征输入到多粒度卷积层中,得到所述文本数据特征图,包括:
采用所述不同大小的卷积核对所述新文本特征进行特征提取,并采用Relu激活函数,得到包含局部特征的所述文本数据特征图。
6.根据权利要求3所述的方法,其特征在于,将所述文本数据特征图输入到所述基于自注意力的池化层中,得到对情感分类影响最大的局部特征序列,包括:
将所述文本数据特征图输入到所述基于自注意力的池化层中,采用基于自注意力机制,对所述文本数据特征图进行加权求和,得到对情感分类影响最大的局部特征序列。
7.根据权利要求3所述的方法,其特征在于,分类网络包括全连接层和分类层;
将所述局部特征序列输入到分类网络中,得到情感极性预分类,并根据所述情感极性预分类和所述训练样本对所述中文文本情感分析网络进行反向训练,得到训练好的中文文本情感分析模型,包括:
将所述局部特征序列输入到所述全连接层中,对所述局部特征序列输入进行特征融合,得到融合特征序列;
将所述融合特征序列输入到所述分类层中,采用Softmax逻辑回归模型进行分类,得到情感极性预分类;
根据所述情感极性预分类和所述训练样本对所述中文文本情感分析网络进行反向训练,得到训练好的中文文本情感分析模型。
8.一种中文文本情感分析装置,其特征在于,所述装置包括:
训练样本获取模块,用于获取中文文本,并对所述中文文本进行预处理得到训练样本;
中文文本情感分析网络构建模块,用于构建中文文本情感分析网络;所述中文文本情感分析网络包括词嵌入层、特征提取网络及分类网络;所述特征提取网络包括双向门限循环单元层、自注意力层、多粒度卷积层及基于自注意力的池化层;所述词嵌入层用于采用分词模块将所述训练样本转化为词向量序列;所述特征提取网络用于通过所述双向门限循环单元层学习所述词向量序列的文本序列化特征,通过所述自注意力层对所述文本序列化特征进行特征筛选得到新文本特征,通过所述多粒度卷积层提取所述新文本特征中不同尺度的局部特征得到文本数据特征图,并通过基于自注意力的池化层对所述文本数据特征图进行特征提取得到局部特征序列;所述分类网络用于将所述局部特征序列进行特征融合,并进行情感极性分类;
中文文本情感分析模型训练模块,用于将所述训练样本输入到所述中文文本情感分析网络中进行训练,得到训练好的中文文本情感分析模型;
情感极性分类确定模块,用于获取待测中文文本,并对所述待测中文文本进行预处理得到待测样本;将所述待测样本输入到所述中文文本情感分析模型中,得到情感极性分类。
9.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202110594523.3A 2021-05-28 2021-05-28 中文文本情感分析方法、装置、计算机设备和存储介质 Active CN113177111B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110594523.3A CN113177111B (zh) 2021-05-28 2021-05-28 中文文本情感分析方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110594523.3A CN113177111B (zh) 2021-05-28 2021-05-28 中文文本情感分析方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN113177111A true CN113177111A (zh) 2021-07-27
CN113177111B CN113177111B (zh) 2022-09-16

Family

ID=76927140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110594523.3A Active CN113177111B (zh) 2021-05-28 2021-05-28 中文文本情感分析方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113177111B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287320A (zh) * 2019-06-25 2019-09-27 北京工业大学 一种结合注意力机制的深度学习多分类情感分析模型
CN110472052A (zh) * 2019-07-31 2019-11-19 西安理工大学 一种基于深度学习的中文社交平台情感分析方法
CN110852368A (zh) * 2019-11-05 2020-02-28 南京邮电大学 全局与局部特征嵌入及图文融合的情感分析方法与系统
CN111881262A (zh) * 2020-08-06 2020-11-03 重庆邮电大学 基于多通道神经网络的文本情感分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287320A (zh) * 2019-06-25 2019-09-27 北京工业大学 一种结合注意力机制的深度学习多分类情感分析模型
CN110472052A (zh) * 2019-07-31 2019-11-19 西安理工大学 一种基于深度学习的中文社交平台情感分析方法
CN110852368A (zh) * 2019-11-05 2020-02-28 南京邮电大学 全局与局部特征嵌入及图文融合的情感分析方法与系统
CN111881262A (zh) * 2020-08-06 2020-11-03 重庆邮电大学 基于多通道神经网络的文本情感分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
崔昕阳等: "基于并行双向门控循环单元与自注意力机制的中文文本情感分类", 《北京化工大学学报(自然科学版)》 *
王盛玉等: "基于词注意力卷积神经网络模型的情感分析研究", 《中文信息学报》 *

Also Published As

Publication number Publication date
CN113177111B (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
CN109597891B (zh) 基于双向长短时记忆神经网络的文本情感分析方法
KR102304673B1 (ko) 키워드 추출 방법, 컴퓨터 장치, 및 저장 매체
US20210200961A1 (en) Context-based multi-turn dialogue method and storage medium
CN110083833B (zh) 中文字词向量和方面词向量联合嵌入情感分析方法
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN109614611B (zh) 一种融合生成非对抗网络与卷积神经网络的情感分析方法
Wu et al. Optimized deep learning framework for water distribution data-driven modeling
CN110674636A (zh) 一种用电行为分析方法
CN113051887A (zh) 一种公告信息元素抽取方法、系统及装置
CN113240510A (zh) 异常用户预测方法、装置、设备及存储介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN112347245A (zh) 面向投融资领域机构的观点挖掘方法、装置和电子设备
CN115630156A (zh) 一种融合Prompt和SRU的蒙古语情感分析方法与系统
CN111241271B (zh) 文本情感分类方法、装置及电子设备
CN113177111B (zh) 中文文本情感分析方法、装置、计算机设备和存储介质
CN111723572A (zh) 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法
CN111783688A (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN116089605A (zh) 基于迁移学习和改进词袋模型的文本情感分析方法
Xia Label oriented hierarchical attention neural network for short text classification
CN116257601A (zh) 一种基于深度学习的违法词库构建方法及系统
CN113177110B (zh) 一种虚假新闻检测方法、装置、计算机设备和存储介质
CN113821571B (zh) 基于bert和改进pcnn的食品安全关系抽取方法
CN111476035B (zh) 中文开放关系预测方法、装置、计算机设备和存储介质
CN115309862A (zh) 基于图卷积网络和对比学习的因果关系识别方法及装置
CN115017894A (zh) 一种舆情风险识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant