CN113159831A - 一种基于改进的胶囊网络的评论文本情感分析方法 - Google Patents

一种基于改进的胶囊网络的评论文本情感分析方法 Download PDF

Info

Publication number
CN113159831A
CN113159831A CN202110315537.7A CN202110315537A CN113159831A CN 113159831 A CN113159831 A CN 113159831A CN 202110315537 A CN202110315537 A CN 202110315537A CN 113159831 A CN113159831 A CN 113159831A
Authority
CN
China
Prior art keywords
capsule
text
layer
improved
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110315537.7A
Other languages
English (en)
Inventor
杨科华
杨祝武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202110315537.7A priority Critical patent/CN113159831A/zh
Publication of CN113159831A publication Critical patent/CN113159831A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/12Hotels or restaurants

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Tourism & Hospitality (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及自然语言处理技术领域,公开了一种基于改进的胶囊网络的评论文本情感分析方法,包括评论文本搜集、评论文本预处理、文本建模将评论文本转为向量数据,利用改进的胶囊网络提取局部特征,并通过构建LSTM模型,提取文本上下文信息,最后通过softmax函数进行文本情感分类。与现有技术相比,本发明首先改进了胶囊网络的squash方法与dynamic‑Routing方法,与原有的方法相比更具有分辨性,具有更优的性能。然后基于改进的CapsNet‑LSTM模型进行评论文本的情感分析,有效的提高了评论文本情感分析的准确率,提高了情感分类的精度,该方法在酒店评论文本情感分析实验中相较于其他方法都具有较明显的优势。

Description

一种基于改进的胶囊网络的评论文本情感分析方法
技术领域
本发明涉及自然语言处理技术,具体涉及一种基于改进的胶囊网络的评论文本情感分析方法。
背景技术
随着互联网技术的飞速发展,尤其是4G、5G通信技术的成熟,带动了移动互联网时代的到来。电子商务、通信技术的发展以及普及,使得网民不再是单纯的信息接收者,更是网络数据信息的主要制造者。信息时代的便利,越来越多的网民选择在网络上评论自己对某件事情的看法。例如,在网上对住宿的酒店进行评价,这些评论往往包含了对商品质量以及服务体验的一些观点,表明用户的情感立场。在电子商务的使用场景中,其他用户的评论是用户选择该商品或者服务的重要依据,一般而言,用户在购买某项服务或某种商品前,会参考其他用户的评论来了解该商品的真实情况,从而作出自己的决定。与此同时,商家也会基于用户的评论来了解用户需求,以便于更好地制定营销策略,获取更大的利润。
评论文本情感分析方法主要有以下两种,一是基于情感词典的情感分析,二是基于机器学习的情感分析。基于情感词典的方法主要通过计算词库中标注的词语极性来计算文本的总体情感倾向,基于机器学习的情感分析主要是通过构建文本的特征向量,使用机器学习中的分类算法模型来进行评论文本的情感倾向分类。Kim等人在2014年提出卷积神经网络模型,并将其用于英文情感分类。Siwei Lai等人提出的RCNN模型,综合考虑了CNN与RNN的优点,该模型先是使用双向循环神经网络得到上下文表示,再经过卷积、池化操作后输出分类结果。总的来说,在大部分情感分类任务中,基于深度学习的分类模型比基于机器学习的分类模型有着更好的表现。但CNN模型存在的局限性仍无法避免,CNN中的卷积计算是通过低级特征的加权和来表示的,因此,它很难描述高级复杂对象的多个特征,卷积计算计算量非常大,CNN模型编码效率低。尽管CNN使用池化层来处理这些问题,但池化操作同样存在些许不足。虽然池化操作可以降低卷积计算的复杂度,但池化操作更像是一种静态路由,在池化过程中特征间的上下文信息会丢失,无法反映出特征的部分-整体这一映射关系。
胶囊网络(Capsule network)采用胶囊来表示特征,使用动态路由机制来代替CNN中的池化操作,动态路由对提取到的所有特征进行加权平均,而不像CNN最大池化那样只将最好的特征传递给上层,从一定程度上克服了CNN的弊端。胶囊网络在图像识别方向的研究较多,在自然语言处理方向的应用较少。本发明针对文本情感分类特性,提出了一种适用于情感分析的胶囊网络模型。
发明内容
发明目的:针对现有技术中存在的不足问题,本发明提供了一种基于改进的胶囊网络的评论文本情感分析方法,改进了胶囊网络的squash方法、dynamic-Routing方法,以及提出了一种基于改进后的胶囊网络的CapsNet-LSTM模型来进行情感分析,该模型有效的提高了短文本情感分析分类的准确率。
技术方案:本发明提供了一种基于改进后的胶囊网络的评论文本情感分析分类方法,包括如下步骤:
步骤1:获取酒店评论数据集,并进行数据预处理,包括数据清洗,设置标签,保留情感语义词;
步骤2:对预处理后的评论文本使用word2vec进行词嵌入向量化建模,将文本转化为包含特征的词向量;
步骤3:对步骤2中所述文档词向量利用胶囊网络构建局部语义特征提取模型,进行局部语义特征提取,所述局部语义提取模型包括一层卷积层,两层胶囊层,卷积层通过卷积操作来提取各个位置的局部特征,胶囊层使用动态路由进行特征聚类;
步骤4:根据步骤3中输出的特征信息,构建LSTM模型,对步骤3中输出的文本特征向量进行上下文信息提取;
步骤5:通过softmax函数进行文本分类。
进一步地,所述步骤1中获取酒店评论数据集包括:
(1)获取要爬取数据的酒店ID;
(2)获取相应的COOKIE,HEADER参数;
(3)运行爬虫程序,数据自动保存在txt文件中。
进一步地,所述步骤1中数据预处理包括:
(1)过滤数据中的标点符号、emijo表情、英文字母、特殊字符;
(2)使用jieba分词对其进行分词,使用停词表去除无意义的词语;
(3)使用word2vec将文本转化为向量。
进一步地,所述步骤3中语义特征提取模型包括标准的卷积层、主胶囊层以及附胶囊层。标准的卷积层通过多个不同的卷积核在文本句子的不同位置提取特征;卷积胶囊层将卷积操作中的标量输出替换为矢量输出,保留词向量的空间位置特征关系;主胶囊层通过与变换矩阵相乘来计算子胶囊关于父胶囊的预测向量,然后与耦合系数相乘得到胶囊层的总输入,最后通过动态路由算法来输出父胶囊。
进一步地,所述步骤3中局部语义特征提取模型进行特征提取的详细步骤包括:
1)标准的卷积层
该层卷积层通过卷积在文本的不同位置提取N-gram特征,若X为文本中的一条文本,其长度为L,词嵌入大小为V,即X的维度大小为L×V,Xi为文本X中的第i个词语,Xi的维度为V;设N-gram滑动大小为K1,Wα为卷积运算操作的滤波器,则Wα的维度为K1×V,滤波器每次移动的单词窗口为Xi至Xi+K1-1产生的特征为mα,其维度为L-K1+1,则每个单词特征mi的特征如下:
Figure BDA0002991032220000021
其中,b0为偏置项,f()为非线性激活函数,若有B个滤波器,即α=1,2,...B,则所得的特征M的维度为(L-K1+1)×B;
2)卷积胶囊层
设胶囊的维度为d,pi为N-gram产生的实例化参数,Mi为每个滑动窗口的向量其维度B,Wb表示为不同的滑动窗口的共享滤波器,其维度为B×d;生成胶囊P的维度为(L-K1+1)×d,则Pi的表示如下:
pi=g(WbMi+b1)
其中,g()表示非线性压缩函数,b1为胶囊的偏置项,对于所有的滤波器C来说,胶囊特征P可以表示为如下所述:
Figure BDA0002991032220000022
其中,P的维度为(L-K1+1)×d×C
3)主胶囊层
主胶囊层通过与变换矩阵相乘来计算子胶囊关于父胶囊的预测向量,然后与耦合系数相乘得到胶囊层的总输入,最后通过动态路由算法来输出父胶囊。
进一步地,所述步骤3中改进的胶囊网络模型的具体内容包括:
1)改进了CapsuleNet的squash方法:
Figure BDA0002991032220000031
改进后的函数在胶囊模长很小时也能起到放大作用,而不像原来的函数那样全局都压缩,实验证明改进后的函数具有更优的性能。
2)改进了CasuleNet的dynamic-Routing方法:
初始化bij=0
迭代r次:
cj←leaky-softmax(bi);
Figure BDA0002991032220000032
vj←squash(sj);
Figure BDA0002991032220000033
返回vj
改进后的dynamic-Routing方法使用leak-softmax()方法,以及使用
Figure BDA0002991032220000034
来更新bij,在模型训练时比原路由算法的准确率更高。
进一步地,所述步骤3中标准的卷积层采用滤波器为3×100,4×100,5×100大小滤波器各128个,进行卷积运算。
进一步地,所述步骤4中LSTM模型以将胶囊网络提取的局部特征作为输入,设置32层隐藏层,激活函数为sigmoid,通过隐藏层提取上下文信息。
进一步地,将LSTM层提取的上下文信息使用softmax函数进行分类。
有益效果:
本发明提供一种改进胶囊网络的CapsNet-LSTM混合模型进行评论文本情感分析分类,该方法首先改进了胶囊网络的squash方法和动态路由算法,使得改进后的胶囊网络具有更优越的性能,然后针对自然语言处理任务的特殊性设置了适合情感分析任务的CaspsNet-LSTM模型,实验证明,改进的动态路由算法在评论文本情感分析任务中比原有路由算法的准确率更高,与其他模型相比,CapsNet-LSTM模型的分类效果也比较好。
附图说明
图1为改进的胶囊网络用与文本分类模型结构图;
图2为CapsNet-LSTM混合模型框图;
图3为卷积操作工作原理示意图;
图4为LSTM模型图;
图5为基于改进的CapsNet-LSTM混合模型情感分析流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明公开了一种基于改进胶囊网络的评论文本情感分析分类方法,包括如下步骤:
步骤1:使用预置配置信息爬虫获得评论文本数据并设定文本标签,进行数据预处理,去除噪声,保留具有语义特征的词汇。去除噪声主要包括:
(1)过滤数据中的标点符号、emijo表情、英文字母、特殊字符;
(2)使用jieba分词工具对其进行分词;
(3)将所述文本数据使用停词表去除没有具体语义的停用词;
(4)将所述文本标签数据转化为数值型数据。
步骤2:对去除了噪声的文本数据进行文本建模,将文本数据中的词汇转化成词向量,本发明通过Word2vec将文本中的词汇转化成词向量,Word2vec将每个词映射到一个高维向量中,训练所得的向量可以表示词对词之间的关系。Word2Vec主要依赖词袋模型(Continues Bagof Words,CBOW)或跳字模型(Skip-gram)将不可计算的非结构化的文本词汇转化成可计算的结构化的高维实数向量。
通过Word2vec将文本中的词汇转化成词向量,设置文本预处理词向量维度为300,然后将词向量进行拼接,形成文档向量,如下所示:
Figure BDA0002991032220000041
其中,W(i)表示词语,V(W(i))表示词语对应的词向量。Sij表示词向量矩阵,
Figure BDA0002991032220000042
表示词向量的拼接操作。
步骤3:对步骤2中词向量利用改进的胶囊网络构建局部语义特征提取模型,进行语义特征提取,语义特征提取模型包括一层卷积层和两层胶囊层,卷积层通过卷积操作来提取各个位置的局部特征,胶囊层使用动态路由操作对卷积层提取到的特征进行聚类耦合,输出特征的聚类中心。
语义特征提取模型包括标准的卷积层、主胶囊层以及卷积胶囊层,标准的卷积层通过多个不同的卷积核在文本句子的不同位置提取特征,卷积胶囊层将卷积操作中的标量输出替换为矢量输出,保留了词向量的空间位置特征关系,主胶囊层通过与变换矩阵相乘来计算子胶囊关于父胶囊的预测向量,然后与耦合系数相乘得到胶囊层的总输入,最后通过动态路由算法来输出父胶囊。
1)标准的卷积层
该层卷积层通过卷积在文本的不同位置提取N-gram特征,若X为文本中的一条文本,其长度为L,词嵌入大小为V,即X的维度大小为L×V,Xi为文本X中的第i个词语,Xi的维度为V;设N-gram滑动大小为K1,Wα为卷积运算操作的滤波器,则Wα的维度为K1×V,滤波器每次移动的单词窗口为Xi至Xi+K1-1产生的特征为mα,其维度为L-K1+1,则每个单词特征mi的特征如下:
Figure BDA0002991032220000051
其中,b0为偏置项,f()为非线性激活函数,若有B个滤波器,即α=1,2,...B,则所得的特征M的维度为(L-K1+1)×B;
2)卷积胶囊层
设胶囊的维度为d,pi为N-gram产生的实例化参数,Mi为每个滑动窗口的向量其维度B,Wb表示为不同的滑动窗口的共享滤波器,其维度为B×d;生成胶囊P的维度为(L-K1+1)×d,则Pi的表示如下:
pi=g(WbMi+b1)
其中,g()表示非线性压缩函数,b1为胶囊的偏置项,对于所有的滤波器C来说,胶囊特征P可以表示为如下所述:
Figure BDA0002991032220000052
其中,P的维度为(L-K1+1)×d×C。
3)主胶囊层
主胶囊层的胶囊维度与文本分类的词向量特征相关,每一层都代表了实体包含特征的概率,主胶囊层通过与变换矩阵相乘来计算子胶囊关于父胶囊的预测向量,然后与耦合系数相乘得到胶囊层的总输入,最后通过动态路由算法来输出父胶囊。
本发明中,卷积层采用滤波器为3×100,4×100,5×100大小滤波器各128个,进行卷积运算,通过卷积操作来提取各个位置的局部特征。
Oij=Conv(Sij)
其中,Oij表示Conv层的输出。使用动态路由代替池化操作,进行两次胶囊层的特征提取。
gij=CapsNet(Oij)
其中,gij表示CapsNet的输出。
步骤4:使用步骤3中CapsNet的输出构建LSTM模型,设置32层隐藏层,激活函数为sigmoid,提取上下文信息。
步骤5:将步骤4中LSTM层提取到的上下文信息softmax函数进行情感分类。
以下结合一个具体的酒店评论文本情感分析过程的例子来说明本发明基于改进的胶囊网络的CapsNet-LSTM模型进行情感分析的优势。实验采用的数据集为某网站上爬取的24000条酒店评论数据。
实验开发平台环境如下:操作系统为Ubuntu18.04.5 LTS 64位,CPU为Intel Corei5-7300HQ,GPU为GeForce GTX1050Ti,开发工具为PyCharm,开发语言为python,使用Keras框架。
词向量取300维,文本长度取固定长度300,选用Adam作为优化函数,损失函数使用Categorical_crossentropy。具体模型参数设置如表1所示。
表1.模型参数设置
参数 设置值
词向量 300
文本长度 300
LSTM隐藏层节点 32
CapsNet隐藏节点 64
CapsNet节点个数 32
Loss Categorical_crossentropy
Optimzer Adam
Batch_size 10
Dropout 0.2
实验一共对比了5组模型,其中包括卷积神经网络(Convolutional NeuralNetwork,CNN)、LSTM、BiLSTM、CapsuleNetwork、和本文提出的CapsNet-LSTM模型。从准确率、精确率、召回率和F1值四个评价指标进行比较。实验结果如表2所示。
表2.粗粒度情感分析结果
模型 准确率 精确率 召回率 F1
CNN 0.8933 0.8915 0.8921 0.8951
LSTM 0.9580 0.9533 0.9517 0.9521
BiLSTM 0.9657 0.9681 0.9608 0.9621
CapsuleNetwork 0.9510 0.9503 0.9322 0.9461
CapsNet-LSTM 0.9775 0.9712 0.9633 0.9
从表2中可知,本文提出的模型在进行粗粒度情感分析的实验时相对于其他模型在各项评价指标中都达到了最好的结果。
上述实施方式只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰,都应涵盖在本发明的保护范围之内。

Claims (9)

1.一种基于改进胶囊网络的评论文本情感分类方法,其特征在于,包括如下步骤:
步骤1:使用爬虫技术获取评论数据并设置相对应的标签,进行数据清洗等预处理,去除噪声信息,保留具有情感语义特征等词汇;
步骤2:对步骤1中预处理后的评论文本数据进行词嵌入建模,形成词向量;
步骤3:对步骤2中所述文档词向量利用改进对胶囊网络构建局部语义特征提取模型,进行局部语义特征提取,所述局部语义特征提取模型包括一层卷积层、两层胶囊层,卷积层通过卷积操作来提取各个位置的局部特征,胶囊层使用动态路由进行特征聚类;
步骤4:构建LSTM模型,对所述步骤3中胶囊网络输出的文本向量进行上下文信息提取;
步骤5:通过softmax函数进行分本分类。
2.根据权利要求1所述的基于改进的胶囊网络的酒店评论文本情感分析方法,其特征在于,所述步骤1中数据获取包括:
(1)酒店评论获取的相关技术;
(2)爬虫过程中所用到的相应配置信息。
3.根据权利要求1所述的基于改进的胶囊网络的酒店评论文本情感分析方法,其特征在于,所述步骤1中数据预处理包括:
(1)数据清洗时删除掉数据中的标点符号、特殊字符、英文字母以及emoji表情;
(2)由于中文文本的特殊性,使用jieba分词工具进行分词,并且在哈工大停词表的基础上构建酒店行业相关的特殊停词表,在分词时使用;
(3)使用word2dev算法将预处理后的评论文本数据转化为包含文本特征的词向量模型。
4.根据权利要求1中所述基于改进的胶囊网络的酒店评论文本情感分析分类方法,其特征在于,包括标准的卷积层、卷积胶囊层以及主胶囊层,标准的卷积层通过多个不同的卷积核在文本句子的不同位置提取特征;卷积胶囊层将卷积操作中的标量输出替换为矢量输出,保留词向量的空间位置特征关系;主胶囊层通过与变换矩阵相乘来计算子胶囊关于父胶囊的预测向量,然后与耦合系数相乘得到胶囊层的总输入,最后通过动态路由算法来输出父胶囊。
5.根据权利要求1中所述的基于改进的胶囊网络的酒店评论文本情感分析分类方法,其特征在于改进了胶囊网络原有的squash方法,使其模长很接近于0时起到放大作用,而不像原来的函数那样全局都压缩,实验结果证明改进后的squash方法可以取得更高的效果。
6.根据权利要求1中所述的基于改进的胶囊网络的酒店评论文本情感分析分类方法,其特征在于改进了胶囊网络(CapsNet)的动态路由(dynamic-Routing)方法,使其具有更优的性能。
7.根据权利要求4所述的基于改进胶囊网络的文本分类方法,其特征在于,所述局部语义特征提取模型进行特征提取的详细步骤包括:
(1)标准的卷积层
该层卷积层通过卷积在文本的不同位置提取N-gram特征,若X为文本中的一条文本,其长度为L,词嵌入大小为V,即X的维度大小为L×V,Xi为文本X中的第i个词语,Xi的维度为V;设N-gram滑动大小为K1,Wa为卷积运算操作的滤波器,则Wa的维度为K1×V,滤波器每次移动的单词窗口为Xi
Figure RE-FDA0003089115940000012
产生的特征为ma,其维度为L-K1+1,则每个单词特征mi的表示如下:
Figure RE-FDA0003089115940000011
其中,b0为偏置项,f()为非线性激活函数,若有B个滤波器,即a=l,2,...B,则所得的特征M的维度为(L-K1+l)×B;
(2)卷积胶囊层
设胶囊的维度为d,pi为N-gram产生的实例化参数,Mi为每个滑动窗口的向量其维度B,Wb表示为不同的滑动窗口的共享滤波器,其维度为B×d,生成胶囊P的维度为(L-K1+1)×d,则pi的表示如下:
pi=g(WbMi+b1)
其中,g()表示非线性压缩函数,b1为胶囊的偏置项,对于所有的滤波器C来说,胶囊特征P可以表示为如下所述:
Figure RE-FDA0003089115940000021
其中,P的维度为(L-K1+1)×d×C;
(3)主胶囊层
主胶囊层通过与变换矩阵相乘来计算子胶囊关于父胶囊的预测向量,然后与耦合系数相乘得到胶囊层的总输入,最后通过动态路由算法来输出父胶囊。
8.根据权利要求1所述的基于改进的胶囊网络的酒店评论文本情感分析分类方法,其特征在于,使用了32个胶囊来提取特征,每个胶囊的维度为64维。
9.根据权利要求1至5任一所述的基于改进胶囊网络的文本分类方法,其特征在于,所述LSTM模型以将局部语义特征提取模型的输出作为输入,设置隐藏层,激活函数为sigmoid,通过所述32层隐藏层提取文本的上下文信息。
CN202110315537.7A 2021-03-24 2021-03-24 一种基于改进的胶囊网络的评论文本情感分析方法 Pending CN113159831A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110315537.7A CN113159831A (zh) 2021-03-24 2021-03-24 一种基于改进的胶囊网络的评论文本情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110315537.7A CN113159831A (zh) 2021-03-24 2021-03-24 一种基于改进的胶囊网络的评论文本情感分析方法

Publications (1)

Publication Number Publication Date
CN113159831A true CN113159831A (zh) 2021-07-23

Family

ID=76884738

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110315537.7A Pending CN113159831A (zh) 2021-03-24 2021-03-24 一种基于改进的胶囊网络的评论文本情感分析方法

Country Status (1)

Country Link
CN (1) CN113159831A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114791951A (zh) * 2022-05-13 2022-07-26 青岛文达通科技股份有限公司 基于胶囊网络的情感分类方法及系统
WO2023204759A1 (en) * 2022-04-22 2023-10-26 Lemon Inc. Attribute and rating co-extraction

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391483A (zh) * 2017-07-13 2017-11-24 武汉大学 一种基于卷积神经网络的商品评论数据情感分类方法
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN108427670A (zh) * 2018-04-08 2018-08-21 重庆邮电大学 一种基于语境词向量和深度学习的情感分析方法
CN108984523A (zh) * 2018-06-29 2018-12-11 重庆邮电大学 一种基于深度学习模型的商品评论情感分析方法
CN109284506A (zh) * 2018-11-29 2019-01-29 重庆邮电大学 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN109410917A (zh) * 2018-09-26 2019-03-01 河海大学常州校区 基于改进型胶囊网络的语音数据分类方法
CN110472052A (zh) * 2019-07-31 2019-11-19 西安理工大学 一种基于深度学习的中文社交平台情感分析方法
CN110929034A (zh) * 2019-11-26 2020-03-27 北京工商大学 一种基于改进lstm的商品评论细粒度情感分类方法
CN111709514A (zh) * 2020-05-08 2020-09-25 北京百度网讯科技有限公司 神经网络模型的处理方法和装置
CN112183056A (zh) * 2020-08-19 2021-01-05 合肥工业大学 基于CNN-BiLSTM框架的上下文依赖的多分类情感分析方法和系统
CN112231477A (zh) * 2020-10-20 2021-01-15 淮阴工学院 一种基于改进胶囊网络的文本分类方法
CN112261169A (zh) * 2020-10-16 2021-01-22 重庆理工大学 利用胶囊网络和k-means的DGA域名Botnet识别判断方法
CN112287106A (zh) * 2020-10-28 2021-01-29 中国计量大学 一种基于双通道混合神经网络的在线评论情感分类方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391483A (zh) * 2017-07-13 2017-11-24 武汉大学 一种基于卷积神经网络的商品评论数据情感分类方法
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN108427670A (zh) * 2018-04-08 2018-08-21 重庆邮电大学 一种基于语境词向量和深度学习的情感分析方法
CN108984523A (zh) * 2018-06-29 2018-12-11 重庆邮电大学 一种基于深度学习模型的商品评论情感分析方法
CN109410917A (zh) * 2018-09-26 2019-03-01 河海大学常州校区 基于改进型胶囊网络的语音数据分类方法
CN109284506A (zh) * 2018-11-29 2019-01-29 重庆邮电大学 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN110472052A (zh) * 2019-07-31 2019-11-19 西安理工大学 一种基于深度学习的中文社交平台情感分析方法
CN110929034A (zh) * 2019-11-26 2020-03-27 北京工商大学 一种基于改进lstm的商品评论细粒度情感分类方法
CN111709514A (zh) * 2020-05-08 2020-09-25 北京百度网讯科技有限公司 神经网络模型的处理方法和装置
CN112183056A (zh) * 2020-08-19 2021-01-05 合肥工业大学 基于CNN-BiLSTM框架的上下文依赖的多分类情感分析方法和系统
CN112261169A (zh) * 2020-10-16 2021-01-22 重庆理工大学 利用胶囊网络和k-means的DGA域名Botnet识别判断方法
CN112231477A (zh) * 2020-10-20 2021-01-15 淮阴工学院 一种基于改进胶囊网络的文本分类方法
CN112287106A (zh) * 2020-10-28 2021-01-29 中国计量大学 一种基于双通道混合神经网络的在线评论情感分类方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023204759A1 (en) * 2022-04-22 2023-10-26 Lemon Inc. Attribute and rating co-extraction
CN114791951A (zh) * 2022-05-13 2022-07-26 青岛文达通科技股份有限公司 基于胶囊网络的情感分类方法及系统

Similar Documents

Publication Publication Date Title
CN109241255B (zh) 一种基于深度学习的意图识别方法
CN110059188B (zh) 一种基于双向时间卷积网络的中文情感分析方法
CN110287320B (zh) 一种结合注意力机制的深度学习多分类情感分析模型
CN112000791B (zh) 一种电机故障知识抽取系统及方法
CN107608956B (zh) 一种基于cnn-grnn的读者情绪分布预测算法
CN106997375B (zh) 基于深度学习的客服回复推荐方法
CN109165294B (zh) 一种基于贝叶斯分类的短文本分类方法
CN110765260A (zh) 一种基于卷积神经网络与联合注意力机制的信息推荐方法
Li et al. Improving convolutional neural network for text classification by recursive data pruning
CN110472042B (zh) 一种细粒度情感分类方法
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN108363695B (zh) 一种基于双向依赖语法树表征的用户评论属性抽取方法
CN111414476A (zh) 一种基于多任务学习的属性级情感分析方法
CN112667818B (zh) 融合gcn与多粒度注意力的用户评论情感分析方法及系统
CN110929034A (zh) 一种基于改进lstm的商品评论细粒度情感分类方法
CN108388554B (zh) 基于协同过滤注意力机制的文本情感识别系统
CN114238577B (zh) 融合多头注意力机制的多任务学习情感分类方法
CN110717330A (zh) 基于深度学习的词句级短文本分类方法
CN110046356B (zh) 标签嵌入的微博文本情绪多标签分类方法
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN112183056A (zh) 基于CNN-BiLSTM框架的上下文依赖的多分类情感分析方法和系统
CN112231477A (zh) 一种基于改进胶囊网络的文本分类方法
CN111966827A (zh) 基于异构二部图的对话情感分析方法
CN111259153A (zh) 一种完全注意力机制的属性级情感分析方法
CN113159831A (zh) 一种基于改进的胶囊网络的评论文本情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination