CN112861524A - 一种基于深度学习的多层次中文细粒度情感分析方法 - Google Patents
一种基于深度学习的多层次中文细粒度情感分析方法 Download PDFInfo
- Publication number
- CN112861524A CN112861524A CN202110373336.2A CN202110373336A CN112861524A CN 112861524 A CN112861524 A CN 112861524A CN 202110373336 A CN202110373336 A CN 202110373336A CN 112861524 A CN112861524 A CN 112861524A
- Authority
- CN
- China
- Prior art keywords
- fine
- text
- deep learning
- chinese
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种基于深度学习的多层次中文细粒度情感分析方法,此方法可以通过快速准确地识别中文文本中细粒度的情感类别,从而更加精细化地理解用户的主观感受,从而预测用户行为并改善用户体验。其主要包括:步骤1,构建训练集,采用回译数据增强以及同义词替换的方式增加文本情感标签的均衡性及多样性;步骤2,使用BERT模型微调对输入文本进行字嵌入表示以及使用word2vec技术对输入文本进行词嵌入表示;步骤3,设计多层次卷积神经网络模型(Multi‑LevelConvolutionalNeuralNetwork,MLCNN),使用双卷积通道分别抽取字向量和词向量两个层面的特征表示;步骤4,在每个卷积通道后都构建chunk‑max‑pooling模块抽取局部max特征值并保留相对顺序信息;步骤5,将两个通道池化后的特征向量拼接并输入全连接层使用softmax模块进行细粒度情感分类。
Description
技术领域
本发明涉及自然语言处理的文本情感分析领域,具体地说,是涉及基于深度学习的多层次中文细粒度情感分析方法。
背景技术
情感分析技术(Emotion analysis technology)又称意见挖掘、倾向性分析等,是将文本中包含用户主观色彩的偏好或倾向识别出来的过程,并根据识别出来的结果根据后续不同的任务进一步获取有用的信息,从而发现潜在的问题用于改进或预测。现阶段情感极性分析(粗粒度情感分析)的研究已经有了成熟的研究体系,但是人类情感无法仅用两类来完全概括,细粒度情感分析的研究因此被提出。细粒度情感分析需要更加深入地挖掘文本中包含的情感信息,并由此更加精细化地理解用户的主观感受,从而预测用户行为并改善用户体验。目前,最精确的细粒度情感分析方法就是人工识别,但是人工识别的方法在数据量大的情况下不适用,除此之外较普遍的方法是基于情绪规则,但该方法依赖前期情绪词典的构建,若文本中情绪词不明显将会难以分析出真实情感。本发明将深度学习技术应用于细粒度情感分析中,首先构建了包含各类情感的中文文本的数据集,并提出了一种使用字嵌入及词嵌入双通道输入的文本向量表示方法,然后基于双通道输入提出了基于深度学习的多层次卷积神经网络模型(Multi-Level Convolutional Neural Network,MLCNN)来识别中文文本的细粒度情感,该模型不需要人工制定情绪词典和规则,并且还可以根据多层面的文本向量更好地分析出文本中包含的细粒度情感。
发明内容
基于中文细粒度情感分类困难的现状,本发明针对目前现有技术,提出了一种基于深度学习的多层次中文短文本细粒度情感分析方法,用来提高中文细粒度情感分析的效率和准确性。
本发明提出了一种基于深度学习的多层次中文细粒度情感分析方法,其主要包括以下步骤:
步骤1:构建训练集,采用回译数据增强以及同义词替换的方式增加文本情感标签的均衡性及多样性;
步骤2:使用BERT模型微调对输入文本进行字嵌入表示以及使用word2vec技术对输入文本进行词嵌入表示;
步骤3:设计多层次卷积神经网络模型(Multi-Level ConvolutionalNeuralNetwork,MLCNN),使用双卷积通道分别抽取字向量和词向量两个层面的特征表示;
步骤4:在每个卷积通道后都构建chunk-max-pooling模块抽取局部max特征值并保留相对顺序信息;
步骤5:将两个通道池化后的特征向量拼接并输入全连接层使用softmax模块进行细粒度情感分类。
附图说明
为了更加清晰明确地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要用到的附图进行简单的介绍。
图1是本发明提供的基于深度学习的多层次中文细粒度情感分析方法的整体架构;
图2是本发明提供的双通道文本向量表示示例图;
图3是本发明提供的多层次卷积神经网络模型框架图;
图4是本发明提供的chunk-max-pooling池化方法及池化后向量拼接分类的过程示例图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不限定本发明。
图1示出了本发明中所述的多层次中文细粒度情感分析方法(不包含细粒度情感分析数据集的构建流程),步骤如下:
步骤1:构建训练集,采用回译数据增强以及同义词替换的方式增加文本情感标签的均衡性及多样性;
步骤2:使用BERT模型微调对输入文本进行字嵌入表示以及使用word2vec技术对输入文本进行词嵌入表示;
步骤3:设计双卷积通道分别抽取字向量和词向量两个层面的特征表示;
步骤4:在每个卷积层后都构建chunk-max-pooling模块抽取局部max特征值并保留相对顺序信息;
步骤5:将两个通道池化后的特征向量拼接并输入全连接层使用softmax模块进行细粒度情感分类。
一、中文情感分类数据集构建
如步骤1所示,通过对不同来源中文文本数据集的比较,选取数据量大且情绪丰富的微博文本作为训练集的主体,其中包含无标签数据和有标签数据,无标签数据主要用于预训练任务以及对文本向量表示模型的微调,含情感标签数据用于对主题模型的参数调整训练。
有标签数据中标签分布不均衡,本发明采用百度翻译API调用对文本进行回译数据增强,同时使用pyltp分词技术以及哈工大的同义词词林对文本进行同义词替换,目的是在保留语义信息的基础上增强文本数据的多样性。由于回译和同义词替换的方法可能会影响部分文本的表达准确性,影响后续训练任务,还需对生成文本进行人工审阅并修正部分文本。
二、双通道文本向量表示方法
图2示出了双通道文本向量表示的方法示例图,体现在本方法的步骤2中。
首先是对BERT模型微调并使用微调后的模型进行带上下文语境的文本字向量表示,其具体流程如下:
1)对数据集中文本进行中文字符层面上的嵌入表示,而嵌入表示需要相应的字表征、段表征以及位置表征进行求和来构造,即输入嵌入是字向量、段向量以及位置向量的总和,如式1所示。
其中n表示句子中字符数量。
2)BERT模型总共有12层编码层,每一层编码层都会产生一个输出,总共十二个不同的特征图M1,M2,...,M12,本方法根据对比每一层输出字向量的语义表示准确性,选取了第十一层编码层的输出去掉[CLS]和[SEP]标志位构成字向量层面的特征向量,然后将其作为后续模型的输入,字向量通道的文本表征向量
对于词向量通道,进行word2vec模型的训练,获取文本的词向量表示,其具体流程如下:
考虑到BERT模型只能够生成中文字向量,即使对上下文语义的学习相对其他模型更有优势,但中文层面是以词为基本单位进行表达,只使用字向量进行文本嵌入对整体情感的挖掘不够充分。因此为了能够符合中文的表达习惯以及增添不同层面的特征挖掘,增加一个词向量文本嵌入通道,词向量通道生成的文本表征向量将其和BERT生成的文本字向量表示组合起来成为文本不同层面的双通道输入向量。
三、多层次卷积模块
图3示出了多层次CNN模块的具体框架图。其具体流程如下:
卷积核的大小filtersize和个数Filters以及移动步长Stride一般由实验者自己确定,在NLP领域卷积核尺寸大小一般在2、3、4、5中选择,每种尺寸的卷积核个数根据实验目的确定,移动步长Stride一般设置为1,激活函数使用ReLU。卷积后分别得到两个输入通道的特征图,由于使用了多个尺寸的卷积核,所以两个特征图都包含向量的不同长度组合,抽取了不同边界信息的特征表示,再将两个特征图分别输入池化层。
3)池化层(chunk-max-pooling):图4示出了chunk-max-pooling池化的具体过程,chunk的尺寸一般由实验者自己确定,切分好每个通道经过卷积处理的向量之后,对每个划分的块进行最大池化处理并固定向量长度,由于是先划分Chunk再分别取Max值,所以保留了比较粗粒度的模糊的位置信息,同时也能有效地捕获局部强特征,对chunk-max-pooling的计算过程如式6:
U={max(Vec1,...,Veci),max(Veci+1,...,Vecj),...,max(Veck+1,...,Vecn)} (式6)
四、全连接及softmax分类模块
为了利用好字向量层面和词向量层面的特征,将两个通道池化后的向量进行拼接,组成全连接层的输入,拼接后的向量包含了多层面的特征,全连接层将这些特征进行有效连接然后将输出值送给softmax分类器,根据提取的最优卷积特征计算出最大概率的情感粒度,完成中文文本的情感细粒度分类。softmax分类计算过程如下:
结合图1至图4的叙述,下面步骤示出基于深度学习的多层次中文细粒度情感分析方法的实施方式,所述实施方式的步骤如下:
步骤1:构建训练集,采用回译数据增强以及同义词替换的方式增加文本情感标签的均衡性及多样性;
步骤2:使用BERT模型微调对输入文本进行字嵌入表示以及使用word2vec技术对输入文本进行词嵌入表示;
步骤3:设计多层次卷积神经网络模型(Multi-Level Convolutional NeuralNetwork,MLCNN),使用双卷积通道分别抽取字向量和词向量两个层面的特征表示;
步骤4:在每个卷积通道后都构建chunk-max-pooling模块抽取局部max特征值并保留相对顺序信息;
步骤5:将两个通道池化后的特征向量拼接并输入全连接层使用softmax模块进行细粒度情感分类。
Claims (5)
1.一种基于深度学习的多层次中文细粒度情感分析方法,其特征在于:构建一种基于BERT模型生成的动态字向量以及word2vec方法生成的静态词向量的双通道输入,结合中文字向量和词向量两个层面从而获取更丰富的特征,并使用深度学习的方法进行中文细粒度情感分析,所述方法包括以下步骤:
步骤1:构建训练集,采用回译数据增强以及同义词替换的方式增加文本情感标签的均衡性及多样性;
步骤2:使用BERT模型微调对输入文本进行字嵌入表示以及使用word2vec技术对输入文本进行词嵌入表示;
步骤3:设计双卷积通道分别抽取字向量和词向量两个层面的特征表示;
步骤4:在每个卷积通道后都构建chunk-max-pooling模块抽取局部max特征值并保留相对顺序信息;
步骤5:将两个通道池化后的特征向量拼接并输入全连接层使用softmax模块进行细粒度情感分类。
2.据权利要求1所述的基于深度学习的多层次中文细粒度情感分析方法,其特征在于:步骤1中首先分析训练集标签样本的分布情况,然后使用回译数据增强以及同义词替换增加文本数据的多样性。
3.据权利要求1所述的基于深度学习的多层次中文细粒度情感分析方法,其特征在于:步骤2中使用预训练的BERT模型对目标预料进行微调,然后对输入文本进行字层面的嵌入,得到动态字向量,以word2vec为基础,对输入文本进行词层面的嵌入,得到静态词向量;上述两步得到模型的双通道输入,分别输入后续的CNN网络中。
4.据权利要求1所述的基于深度学习的多层次中文细粒度情感分析方法,其特征在于:步骤3中每个卷积通道都使用多个大小不同的卷积核进行计算以获取不同长度的字向量组合信息以及词向量组合信息;步骤4中使用chunk-max-pooling池化方法保留多个局部max特征值的相对顺序信息,从而提取并突出局部语义信息。
5.据权利要求1所述的基于深度学习的多层次中文细粒度情感分析方法,其特征在于:步骤5中将双通道中池化后的向量拼接在一起,组成多层次的特征图,并通过全连接层经由softmax完成细粒度情感分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110373336.2A CN112861524A (zh) | 2021-04-07 | 2021-04-07 | 一种基于深度学习的多层次中文细粒度情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110373336.2A CN112861524A (zh) | 2021-04-07 | 2021-04-07 | 一种基于深度学习的多层次中文细粒度情感分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112861524A true CN112861524A (zh) | 2021-05-28 |
Family
ID=75992253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110373336.2A Withdrawn CN112861524A (zh) | 2021-04-07 | 2021-04-07 | 一种基于深度学习的多层次中文细粒度情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112861524A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113468324A (zh) * | 2021-06-03 | 2021-10-01 | 上海交通大学 | 基于bert预训练模型和卷积网络的文本分类方法和系统 |
CN113688236A (zh) * | 2021-08-03 | 2021-11-23 | 东北大学秦皇岛分校 | 基于微博评论构建公民接种新冠疫苗的情感分类方法 |
CN113806548A (zh) * | 2021-11-19 | 2021-12-17 | 北京北大软件工程股份有限公司 | 基于深度学习模型的信访要素抽取方法及抽取系统 |
CN115099234A (zh) * | 2022-07-15 | 2022-09-23 | 哈尔滨工业大学 | 一种基于图神经网络的中文多模态细粒度情感分析方法 |
CN116108859A (zh) * | 2023-03-17 | 2023-05-12 | 美云智数科技有限公司 | 情感倾向确定、样本构建、模型训练方法、装置及设备 |
CN116524240A (zh) * | 2023-03-30 | 2023-08-01 | 国网智能电网研究院有限公司 | 电力作业场景违章行为识别模型、方法、装置及存储介质 |
-
2021
- 2021-04-07 CN CN202110373336.2A patent/CN112861524A/zh not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113468324A (zh) * | 2021-06-03 | 2021-10-01 | 上海交通大学 | 基于bert预训练模型和卷积网络的文本分类方法和系统 |
CN113688236A (zh) * | 2021-08-03 | 2021-11-23 | 东北大学秦皇岛分校 | 基于微博评论构建公民接种新冠疫苗的情感分类方法 |
CN113806548A (zh) * | 2021-11-19 | 2021-12-17 | 北京北大软件工程股份有限公司 | 基于深度学习模型的信访要素抽取方法及抽取系统 |
CN115099234A (zh) * | 2022-07-15 | 2022-09-23 | 哈尔滨工业大学 | 一种基于图神经网络的中文多模态细粒度情感分析方法 |
CN116108859A (zh) * | 2023-03-17 | 2023-05-12 | 美云智数科技有限公司 | 情感倾向确定、样本构建、模型训练方法、装置及设备 |
CN116524240A (zh) * | 2023-03-30 | 2023-08-01 | 国网智能电网研究院有限公司 | 电力作业场景违章行为识别模型、方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112861524A (zh) | 一种基于深度学习的多层次中文细粒度情感分析方法 | |
CN108664589B (zh) | 基于领域自适应的文本信息提取方法、装置、系统及介质 | |
CN112199956B (zh) | 一种基于深度表示学习的实体情感分析方法 | |
CN110750635B (zh) | 一种基于联合深度学习模型的法条推荐方法 | |
CN113094578B (zh) | 基于深度学习的内容推荐方法、装置、设备及存储介质 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN112905795A (zh) | 文本意图分类的方法、装置和可读介质 | |
CN111858878B (zh) | 从自然语言文本中自动提取答案的方法、系统及存储介质 | |
CN110851594A (zh) | 一种基于多通道深度学习模型的文本分类方法及其装置 | |
CN109918507B (zh) | 一种基于TextCNN改进的文本分类方法 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN113435211A (zh) | 一种结合外部知识的文本隐式情感分析方法 | |
CN113051887A (zh) | 一种公告信息元素抽取方法、系统及装置 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN113988079A (zh) | 一种面向低数据的动态增强多跳文本阅读识别处理方法 | |
CN113326374A (zh) | 基于特征增强的短文本情感分类方法及系统 | |
CN114065848A (zh) | 一种基于预训练情感嵌入的中文方面级别情感分类方法 | |
CN112988970A (zh) | 一种服务于智能问答系统的文本匹配算法 | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN115168590A (zh) | 文本特征提取方法、模型训练方法、装置、设备及介质 | |
CN114742047A (zh) | 基于最大概率填充和多头注意力机制的文本情感识别方法 | |
CN112818698B (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN110610006B (zh) | 基于笔画和字形的形态学双通道中文词嵌入方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210528 |
|
WW01 | Invention patent application withdrawn after publication |