CN110083833B - 中文字词向量和方面词向量联合嵌入情感分析方法 - Google Patents
中文字词向量和方面词向量联合嵌入情感分析方法 Download PDFInfo
- Publication number
- CN110083833B CN110083833B CN201910312290.6A CN201910312290A CN110083833B CN 110083833 B CN110083833 B CN 110083833B CN 201910312290 A CN201910312290 A CN 201910312290A CN 110083833 B CN110083833 B CN 110083833B
- Authority
- CN
- China
- Prior art keywords
- word
- vector
- words
- neural network
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种中文字词向量和方面词向量联合嵌入CNN‑LSTM情感分析模型。包括:字词向量联合嵌入表示,词向量和方面词联合嵌入表示,卷积神经网络整合句子特征和方面词特征,句子特征和方面词特征联合输入LSTM神经网络,利用LSTM的时序记忆功能对文本特征进行排序,并且添加基于方面词的注意力机制,最后用全连接层与soft‑max函数判断情感类别。由于词语中的汉字对词语的意思具有一定的表征作用,中文字词向量结合嵌入可以使共享汉字的词语之间产生了联系。方面词和评论中的词向量组合输入神经网络训练,可以提高评论内容主题情感判断的准确度。卷积神经网络将二者特征融合,进一步提高情感分析模型的准确度。
Description
技术领域
本发明涉及一种中文字词向量和方面词向量联合嵌入CNN-LSTM情感分析方法。
背景技术
近年来,越来越多的用户习惯在网络上发自己对某一事物的看法与评论。如何快速,准确地从互联网海量评论信息中分析所包含的用户情感已经成为当前信息科学与技术领域研究的热点。用户评论情感分析中最基本的任务是对用户的情感倾向进行分类,其中包括二元情感分类和多元情感分类。
在自然语言处理领域,深度学习方法首先将文本转化为一组向量序列表示,然后将该向量序列输入神经网络模型提取特征,最后将特征输入分类器进行情感分类。当前大部分的词向量模型针对一个单词只能生成一个向量,由于单词的多义性,使用同一个向量表达不同语境下的同一个单词是不准确的。对于神经网络训练手段,基于卷积神经网络的特征提取方法使用一个滑动窗口来提取输入的局部特征,并通过池化技术将这些局部特征组合起来;而基于循环神经网络的LSTM 神经网络的特征提取方法将输入编码为一个定长的特征,可以有选择地保存和遗忘信息来存储文本中的重要的信息。
然而,近年来随着深度学习技术发展而产生的基于深度神经网络的方法大多停留在使用单一网络或网络的简单变体的阶段,采用复杂结构进行长文本情感倾向性分析的研究相对较少。
发明内容
本发明的目的是:将卷积神经网络和LSTM网络组合,并且改变以往词向量嵌入模型,有效改善情感分析判断的准确度。
为了达到上述目的,本发明的技术方案是提供了一种中文字词向量和方面词向量联合嵌入情感分析方法,其特征在于,包括如下步骤:
步骤一、载入中文商品评论语料库,并将语料库按比例进行分割,分为训练集和测试集;
步骤二、利用jieba分词工具对训练集和测试集分别进行分词处理;
步骤三、利用神经网络模型进行字词向量联合预训练,得到词语的初始化词向量和汉字的初始化字向量表示,即得到字词向量联合嵌入表示;
步骤四、利用LDA模型对主题aspects进行建模,提取商品评论中的方面词,并且线性的将方面词与词向量结合,得到词向量和方面词联合嵌入表示;
步骤五、将步骤三中得到的字词向量联合嵌入表示输入到卷积神经网络一提取出不同维度的特征,然后经过池化操作得到字词向量联合嵌入表示的低维特征向量;
步骤六、将步骤四中得到的词向量和方面词联合嵌入表示输入到卷积神经网络二提取出不同维度的特征,然后经过池化操作得到词向量和方面词联合嵌入表示的低维特征向量;
步骤七、将步骤五得到的低维特征向量和步骤六得到的低维特征向量组合加权,即分别将两个卷积神经网络得到的字词向量和方面词向量进行拼接建模,得到拼接建模向量;
步骤八、利用LSTM神经网络,将步骤七得到的字词向量和方面词向量的拼接建模向量输入到LSTM中,利用LSTM的时序记忆功能对文本的特征进行排序,得到隐藏层当前的隐状态H;
步骤九、LSTM输出的隐层表示与主题aspects向量拼接后作为输入,经过一层神经网络得到的新的隐层表示,给当前的隐状态添加注意力机制,通过自动加权的方式决定输入文本需要关注的部分,分别得到句子向量的概率分布;
步骤十、最终的句子向量经过softmax函数判断情感类别的概率,得到情感结果。
优选地,步骤三中,在进行词向量训练的时候,将词语中把组成词语的汉字单独抽取出来和词语一起进行训练,使那些共享汉字的词语之间产生了联系,词语中的汉字对词语的意思具有一定的表征作用。
本发明主要是利用两种新型的向量嵌入,分别是:(1)字词向量联合嵌入表示,(2)词向量和方面词联合嵌入表示。并且将二者同时输入卷积神经网络获取主要特征向量,利用LSTM的时序记忆功能对文本特征进行排序,并且添加基于方面词的注意力机制进一步提高情感分类的准确率。属于自然语言处理与人工智能交叉领域。
附图说明
图1为本发明实施的流程算法;
图2为本发明实施深度神经网络模型。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明提供的一种中文字词向量和方面词向量联合嵌入情感分析方法包括如下步骤:
步骤一:载入中文商品评论语料库,并将语料库按比例进行分割,分为训练集和测试集。
步骤二:利用jieba分词工具对训练集和测试集分别进行分词处理。
步骤三:利用神经网络模型进行字词向量联合预训练,得到词语的初始化词向量和汉字的初始化字向量表示,即得到字词向量联合嵌入表示。在进行词向量训练的时候,将词语中把组成词语的汉字单独抽取出来,和词语一起进行训练。这样就使那些共享汉字的词语之间产生了联系,词语中的汉字对词语的意思具有一定的表征作用。
步骤四:利用LDA模型对主题(aspects)进行建模,提取商品评论中的方面词,并且线性的将方面词与词向量结合,得到词向量和方面词联合嵌入表示。应用主题模型算法(LDA)抽取评论分布的主题特征,得到主题特征,即此时需要的方面词。并将方面词和评论中的词向量线性组合,一起输入神经网络训练,这样方面词可能提高此时评论内容主题情感判断的准确度。
步骤五:将步骤三中得到的字词向量联合嵌入输入到卷积神经网络提取出不同维度的特征,然后经过池化操作得到字词向量联合嵌入低维特征向量。采用卷积神经网络通过不同的滤波操作得到特征信息,通过权值共享和最大池化操作,可以将这些复杂的特征信息充分的提取出来,也可以为接下来情感分类步骤有效的减少计算量。
步骤六:将步骤四中得到的词向量和方面词联合嵌入输入到卷积神经网络提取出不同维度的特征,然后经过池化操作得到词向量和方面词联合嵌入低维特征向量。采用卷积神经网络通过不同的滤波操作得到特征信息,通过权值共享和最大池化操作,可以将这些复杂的特征信息充分的提取出来。此时方面词信息作为最大的特征信息,已经有效的通过卷积神经网络提取出来,为接下来步骤中融入 attention机制铺垫,有效的提升情感极性分类的准确度。
步骤七:将步骤五得到的字词向量联合嵌入低维特征向量和步骤六得到的词向量和方面词联合嵌入低维特征向量组合加权。即分别将两个卷积神经网络得到的字词向量和方面词向量进行拼接建模。建模完成后作为输入层输入到LSTM神经网络中。
步骤八:利用LSTM神经网络,将步骤七得到的字词向量和方面词向量进行拼接建模向量输入到LSTM中,利用LSTM的时序记忆功能对文本的特征进行排序,得到隐藏层当前的隐状态H。标准的LSTM无法检测句子每个部分的重要程度,通过加入attention机制,可以捕捉句子的关键部分。
LSTM是循环神经网络的一种,是一种具有链状结构的特殊的循环神经网络,和普通的循环神经网络相比,LSTM的重复循环模块具有不同的结构,主要有四层神经网络组成,网络层之间的交互是复杂的。LSTM网络的核心是由每个传输单元的状态决定。LSTM的另一个优势就是可以对单元状态中信息的传输进行控制,并通过门限结构管理信息,门限的作用就是对信息进行选择,使其有选择性地通过。阈值的组成主要有sigmoid神经网络层和逐点乘法组成。输出表示信息传递的选择程度,0表示不允许任何信息通过,1表示都可以通过。LSTM一共有三个门限,分别为:输入门、遗忘门和输出门。通过这三种门限结构对单元状态进行控制和保护。
步骤九:LSTM输出的隐层表示与aspect向量拼接后作为输入,经过一层神经网络得到的新的隐层表示,给当前的隐状态添加注意力机制,通过自动加权的方式决定输入文本需要关注的部分,分别得到句向量的概率分布。
步骤十:最终的句子向量经过softmax函数判断情感类别的概率,得到情感结果。
Claims (2)
1.一种中文字词向量和方面词向量联合嵌入情感分析方法,其特征在于,包括如下步骤:
步骤一、载入中文商品评论语料库,并将语料库按比例进行分割,分为训练集和测试集;
步骤二、利用jieba分词工具对训练集和测试集分别进行分词处理;
步骤三、利用神经网络模型进行字词向量联合预训练,得到词语的初始化词向量和汉字的初始化字向量表示,即得到字词向量联合嵌入表示;
步骤四、利用LDA模型对主题aspects进行建模,提取商品评论中的方面词,并且线性的将方面词与词向量结合,得到词向量和方面词联合嵌入表示;
步骤五、将步骤三中得到的字词向量联合嵌入表示输入到卷积神经网络一提取出不同维度的特征,然后经过池化操作得到字词向量联合嵌入表示的低维特征向量;
步骤六、将步骤四中得到的词向量和方面词联合嵌入表示输入到卷积神经网络二提取出不同维度的特征,然后经过池化操作得到词向量和方面词联合嵌入表示的低维特征向量;
步骤七、将步骤五得到的低维特征向量和步骤六得到的低维特征向量组合加权,即分别将两个卷积神经网络得到的字词向量和方面词向量进行拼接建模,得到拼接建模向量;
步骤八、利用LSTM神经网络,将步骤七得到的字词向量和方面词向量的拼接建模向量输入到LSTM中,利用LSTM的时序记忆功能对文本的特征进行排序,得到隐藏层当前的隐状态H;
步骤九、LSTM输出的隐层表示与主题aspects向量拼接后作为输入,经过一层神经网络得到的新的隐层表示,给当前的隐状态添加注意力机制,通过自动加权的方式决定输入文本需要关注的部分,分别得到句子向量的概率分布;
步骤十、最终的句子向量经过softmax函数判断情感类别的概率,得到情感结果。
2.如权利要求1所述的一种中文字词向量和方面词向量联合嵌入情感分析方法,其特征在于,步骤三中,在进行词向量训练的时候,将词语中把组成词语的汉字单独抽取出来和词语一起进行训练,使那些共享汉字的词语之间产生了联系,词语中的汉字对词语的意思具有一定的表征作用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910312290.6A CN110083833B (zh) | 2019-04-18 | 2019-04-18 | 中文字词向量和方面词向量联合嵌入情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910312290.6A CN110083833B (zh) | 2019-04-18 | 2019-04-18 | 中文字词向量和方面词向量联合嵌入情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110083833A CN110083833A (zh) | 2019-08-02 |
CN110083833B true CN110083833B (zh) | 2022-12-06 |
Family
ID=67415550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910312290.6A Active CN110083833B (zh) | 2019-04-18 | 2019-04-18 | 中文字词向量和方面词向量联合嵌入情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110083833B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502757B (zh) * | 2019-08-29 | 2023-01-10 | 西安邮电大学 | 一种自然语言情感分析方法 |
CN110990531B (zh) * | 2019-11-28 | 2024-04-02 | 北京声智科技有限公司 | 一种文本情感识别方法及装置 |
CN111160037B (zh) * | 2019-12-02 | 2021-10-26 | 广州大学 | 一种支持跨语言迁移的细粒度情感分析方法 |
CN111291189B (zh) * | 2020-03-10 | 2020-12-04 | 北京芯盾时代科技有限公司 | 一种文本处理方法、设备及计算机可读存储介质 |
CN111651593A (zh) * | 2020-05-08 | 2020-09-11 | 河南理工大学 | 基于词向量和字向量混合模型的文本情感分析方法 |
CN112329474B (zh) * | 2020-11-02 | 2022-10-04 | 山东师范大学 | 融合注意力的方面级用户评论文本情感分析方法及系统 |
CN112527966B (zh) * | 2020-12-18 | 2022-09-20 | 重庆邮电大学 | 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法 |
CN112926311B (zh) * | 2021-02-03 | 2022-08-02 | 昆明理工大学 | 一种结合序列和主题信息的无监督方面词提取方法 |
CN113761910A (zh) * | 2021-03-17 | 2021-12-07 | 中科天玑数据科技股份有限公司 | 一种融合情感特征的评论文本细粒度情感分析方法 |
CN113032570A (zh) * | 2021-04-12 | 2021-06-25 | 武汉工程大学 | 一种基于ATAE-BiGRU的文本方面情感分类方法及系统 |
CN112948588B (zh) * | 2021-05-11 | 2021-07-30 | 中国人民解放军国防科技大学 | 一种用于情报快速整编的中文文本分类方法 |
CN113688236A (zh) * | 2021-08-03 | 2021-11-23 | 东北大学秦皇岛分校 | 基于微博评论构建公民接种新冠疫苗的情感分类方法 |
CN114580397A (zh) * | 2022-03-14 | 2022-06-03 | 中国工商银行股份有限公司 | 一种谩骂评论的检测方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107526819A (zh) * | 2017-08-29 | 2017-12-29 | 江苏飞搏软件股份有限公司 | 一种面向短文本主题模型的大数据舆情分析方法 |
CN107977361A (zh) * | 2017-12-06 | 2018-05-01 | 哈尔滨工业大学深圳研究生院 | 基于深度语义信息表示的中文临床医疗实体识别方法 |
CN109597997A (zh) * | 2018-12-07 | 2019-04-09 | 上海宏原信息科技有限公司 | 基于评论实体、方面级情感分类方法和装置及其模型训练 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180053107A1 (en) * | 2016-08-19 | 2018-02-22 | Sap Se | Aspect-based sentiment analysis |
-
2019
- 2019-04-18 CN CN201910312290.6A patent/CN110083833B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107526819A (zh) * | 2017-08-29 | 2017-12-29 | 江苏飞搏软件股份有限公司 | 一种面向短文本主题模型的大数据舆情分析方法 |
CN107977361A (zh) * | 2017-12-06 | 2018-05-01 | 哈尔滨工业大学深圳研究生院 | 基于深度语义信息表示的中文临床医疗实体识别方法 |
CN109597997A (zh) * | 2018-12-07 | 2019-04-09 | 上海宏原信息科技有限公司 | 基于评论实体、方面级情感分类方法和装置及其模型训练 |
Non-Patent Citations (1)
Title |
---|
杨河彬 ; 贺樑 ; 杨静.一种融入用户点击模型Word2Vec查询词聚类.《小型微型计算机系统》.2016, * |
Also Published As
Publication number | Publication date |
---|---|
CN110083833A (zh) | 2019-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110083833B (zh) | 中文字词向量和方面词向量联合嵌入情感分析方法 | |
CN107609009B (zh) | 文本情感分析方法、装置、存储介质和计算机设备 | |
CN110162636B (zh) | 基于d-lstm的情绪原因识别方法 | |
CN110069778B (zh) | 中文融入嵌入词位置感知的商品情感分析方法 | |
CN111061843B (zh) | 一种知识图谱引导的假新闻检测方法 | |
CN110083700A (zh) | 一种基于卷积神经网络的企业舆情情感分类方法及系统 | |
CN111881262B (zh) | 基于多通道神经网络的文本情感分析方法 | |
CN112667818B (zh) | 融合gcn与多粒度注意力的用户评论情感分析方法及系统 | |
CN110287320A (zh) | 一种结合注意力机制的深度学习多分类情感分析模型 | |
CN113051916B (zh) | 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法 | |
CN111651593A (zh) | 基于词向量和字向量混合模型的文本情感分析方法 | |
CN110929034A (zh) | 一种基于改进lstm的商品评论细粒度情感分类方法 | |
CN113254637B (zh) | 一种融合语法的方面级文本情感分类方法及系统 | |
CN107818084B (zh) | 一种融合点评配图的情感分析方法 | |
CN112487189B (zh) | 一种图卷积网络增强的隐式篇章文本关系分类方法 | |
CN107688576B (zh) | 一种cnn-svm模型的构建及倾向性分类方法 | |
CN110415071B (zh) | 一种基于观点挖掘分析的汽车竞品对比方法 | |
CN110750648A (zh) | 一种基于深度学习和特征融合的文本情感分类方法 | |
CN112199504B (zh) | 一种融合外部知识与交互注意力机制的视角级文本情感分类方法及系统 | |
CN110472245B (zh) | 一种基于层次化卷积神经网络的多标记情绪强度预测方法 | |
CN112561718A (zh) | 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法 | |
Zhang et al. | A BERT fine-tuning model for targeted sentiment analysis of Chinese online course reviews | |
CN111428481A (zh) | 一种基于深度学习的实体关系抽取方法 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN109670164B (zh) | 基于深层多词嵌入Bi-LSTM残差网络的健康舆情分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |