CN109977413B - 一种基于改进cnn-lda的情感分析方法 - Google Patents
一种基于改进cnn-lda的情感分析方法 Download PDFInfo
- Publication number
- CN109977413B CN109977413B CN201910248424.2A CN201910248424A CN109977413B CN 109977413 B CN109977413 B CN 109977413B CN 201910248424 A CN201910248424 A CN 201910248424A CN 109977413 B CN109977413 B CN 109977413B
- Authority
- CN
- China
- Prior art keywords
- emotion
- word
- topic
- distribution
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 144
- 238000004458 analytical method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 108
- 238000011156 evaluation Methods 0.000 claims abstract description 54
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 18
- 235000010627 Phaseolus vulgaris Nutrition 0.000 claims abstract description 13
- 244000046052 Phaseolus vulgaris Species 0.000 claims abstract description 13
- 238000012360 testing method Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims abstract description 8
- 238000009826 distribution Methods 0.000 claims description 84
- 238000013527 convolutional neural network Methods 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 12
- 239000000463 material Substances 0.000 claims description 7
- 238000012512 characterization method Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000021615 conjugation Effects 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 230000007935 neutral effect Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 2
- 241000270322 Lepidosauria Species 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于改进CNN‑LDA的情感分析方法,包括:爬虫豆瓣影评数据进行预处理;采用Word2vec获得语料集词向量;利用情感词典添加情感倾向权重;将Word2vec得到的词向量与情感倾向权重向量机获得情感倾向词向量;采用LDA主题生成模型获得语料集主题向量;将情感倾向词向量与主题向量叠加得到语料集的输入表征;将训练集词向量表征输入CNN模型以建立情感分析模型;最后将测试集词向量表征输入已训练网络进行分类评估。本发明提供了一种基于改进CNN‑LDA的情感分析方法,将情感倾向词向量与主题向量相结合,同时考虑了包含文本情感信息的词粒度和文本粒度层面的信息,从而可以在训练过程中更好的利用文本信息,提高文本情感分析的准确度。
Description
技术领域
本发明涉及一种基于改进CNN-LDA的情感分析方法,属于木文本情感分析领域。
背景技术
情感分析是一种常见的自然语言处理方法的应用,特别是在以提取文本的情感内容为目标的分类方法中。而文本情感分析是对带有感情色彩的主观性文本进行分析、处理、归纳、和推理的过程,如从评论文本中分析用户对某个电影的“画面、音效、剧情、演员阵容”等属性的情感倾向。目前,情感分析技术被广泛地应用于在线翻译、用户评价分析和观点挖掘等互联网应用中。对商家而言,快速的获取用户评论的情感倾向可以为广告投放和热点话题推送等提供便利;对用户而言,准确的获取其他用户评论的情感倾向可以为作出选择和决策提供帮助。从目前市场需求和技术发展水平考虑,对情感分析技术进行研究和革新具有很大的价值和提升空间。
常见的情感分类方法主要可分为两大类:第一种是基于情感词典的方法;第二种是基于机器学习的方法。前者需要用到情感词典,通过分析词语的情感极性来决定句子的情感倾向;后者则是将词语编码为向量,通过提取句子的特征进行分类。
目前,对情感倾向分析的研究大多都着眼于语句本身,从文本、语法等挖掘能描述情感倾向的特征。卷积神经网络(CNN)可以很好的提取输入的词向量包含的特征信息,然而CNN却不能有效的“考虑”一个句子或是文本整体所包含的特征信息。在使用CNN对文本分类的过程中,受到卷积核大小的限制,往往只能提取词粒度层面的词向量矩阵,从而忽略了文本粒度层面整体语义特征的表达,虽然达到了较好的情感分类效果,但是并没有挖掘文本的深层语义信息。
发明内容
本发明要解决的技术问题是,克服单一卷积神经网络的缺陷,提供一种将LDA主题生成模型与卷积神经网络进行结合,能够对文本的深层语义信息进行挖掘,提高文本情感分析的准确度的基于改进CNN-LDA的情感分析方法。
为解决上述技术问题,本发明采用的技术方案为:
一种基于改进CNN-LDA的情感分析方法,包括以下步骤:
S01,从豆瓣平台采集豆瓣影评数据并进行预处理,豆瓣影评数据包括评论人ID、影评评论具体内容和影评星级评价,对影评评论内容中的语料进行情感分类标注,并将语料分为训练集和测试集两个集合;
S02,使用Word2Vec算法训练S01获取的影评评论内容的语料集,将语句中的单词映射为多维度的连续向量,构建词向量矩阵;
S03:构建情感词典,包括正向情感词、负向情感词、程度副词和否定副词,根据情感词典获取每条影评评论内容的正向情感词、负向情感词、程度副词和否定副词,将语料中词向量集合和情感词典作为输入,依次将语料中的词向量与词典集合中的情感词比较,计算相似度,并选取最优值作为该词向量的权值,输出词向量的情感倾向权重集合;
S04:采用向量机的方式,结合S02得到的词向量矩阵与S03得到的情感倾向权重集合,对词向量赋予不同的权重,得到情感加权词向量表征;
S05:利用LDA主题生成模型提取评论数据语料集主题特征,通过LDA训练S01获取的评论语料集,获得LDA主题分布概率,输出文本—主题、主题—词语矩阵,确定恰当个数的主题类别,将每条影评所属主题类别作为电影情感分析的主题特征,模型训练结束输出语料库任意文本的主题分布矩阵,得到主题向量表征;
S06:采用向量拼接的方式,将S04得到的情感加权词向量表征与S05得到的主题向量表征叠加在一起,形成新的词向量表征,即同时包含词义特征和整体语义特征,并且加入情感倾向关注度;
S07:将S06得到的训练集的新的词向量表征作为卷积神经网络的输入,训练模型;
S08:将S06得到的测试集的新的词向量表征输入S07中已被训练的情感分析模型,进行情感分类,并计算其准确率。
S01中,通过爬虫工具获取豆瓣影评数据,豆瓣影评数据预处理过程去除英文评价,排除同一用户可能性的多次刷评,并按照影评星级对影评打标签:1~2星标注为消极,4~5星标注为积极,3星标注为中性;通过人工筛选,将语料集划分为positive和negative两个集合,并按照7:3的比例划分训练集和测试集。
S01中,在对语料进行情感分类标注以及划分之后对语料进行文本预处理,具体为采用基于Python的结巴分词工具的精确模式对语料分词,利用正则式去除分词结果中的标点符号,采用Stopword.txt停用词表去除分词结果中的停用词。
S02中,使用python中的gensim库,对S01获取的评论语料进行训练,得到包含上下文信息和语义信息的特征向量。
S03中,使用知网HowNet融合网络流行词汇构建情感词典,包括正向情感词、负向情感词、程度副词、否定副词。情感倾向关注度算法具体实现如下:
输入:语料中词向量集合T={t1,t2…,tn}、t1到tn代表词向量,情感词典集合S={s1,s2,…,sm},s1到sm代表情感词;
按照语序选取词向量集合T中第i个词向量,同时选取情感词典集合S中的第j个情感词,计算其相似度Simij:
并保存到集合Simi={simi1,simi2,…,simim},Simi代表词向量ti对应的相似度集合;选择集合Simi的最优值Simimax作为词向量ti的权值,构建情感倾向权重集合W={w1,w2,…,wn},wi即代表词向量ti的最优权重;归一化权重,得到情感倾向关注度矩阵。
S04中,我们采用S02中word2vec算法将句子中的单词映射为多维度的连续向量以及S03中由情感词典相似度计算而获取的情感倾向权重,使用向量积的形式对词向量赋予不同的关注度,情感加成的词向量表征为:x={wet1,wet2,…,wetn}。
S05中,LDA假设电影评论文档和主题满足Dirichlet先验分布,并假设电影主题与词也满足Dirichlet先验分布,计算公式如下:
对于影评数据中任一文档d的第n个词,其主题编号zdn的分布可表示如下:
zdn=multi(θd) (4)
对于该主题编号,词wdn的概率分布可表示如下:
wdn=multi(βzdn) (5)
其中,θd是任一影评文档d的主题分布;zdn是任一影评文档d的第n个词的主题编号;βzdn是任一影评文档d的第n个词的主题编号zdn下的词分布;wdn是任一文档d的第n个词的词分布;
其中,是影评文档中第k个主题中v个词相应的每个词的个数的集合;利用Dirichlet-multi共轭,得到后验分布/>采用Gibbs采样算法对此模型进行求解,可设置模型迭代次数,模型训练结束输出语料库任意文本的主题分布矩阵。
S06中,我们将S04中得到的情感加权词向量以及S05中得到的主题向量拼接在一起,拼接的方式可以选择直接拼接或是向量叠加,而在本发明中更倾向于使用直接拼接的方式,形成新的输入表征,即既包含情感关注的词义特征,又包含整体语义特征。
S07中,卷积神经网络的网络结构由输入层、卷积层、池化层和全连接层组成,卷积层选用多通道的方式,即选择多个滤波器进行特征提取;池化层对经过卷积层获取的特征进行下采样,采用最大池化方式,选取其中局部最优特征;全连接层对经过卷积层和池化层的特征进行平化和连接。
本发明的有益效果:本发明提供的一种基于改进CNN-LDA的情感分析方法,先通过word2vec将语料集转化为词向量,并利用情感词典,将得到的带有明确“情感信息”的特征权重对词向量进行加权处理。再是通过LDA主题生成模型深度挖掘语义特征,获取文档主题向量,主题分布体现文本的整体语义信息,丰富神经网络特征提取,为分类器提供更加准确的分类特征。将两者结合作为卷积神经网络的输入,这就意味着构造的特征同时考虑了包含文本情感信息的词粒度和文本粒度层面的信息,从而可以在训练过程中更好的利用文本信息,提高文本情感分析的准确度。
附图说明
图1为本发明一种基于改进CNN-LDA的情感分析方法的流程示意图;
图2为本发明一种基于改进CNN-LDA的情感分析方法的模型结构图。
具体实施方式
下面结合附图对本发明作进一步描述,以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1和图2所示,本发明提供的一种基于改进CNN-LDA的情感分析方法,将CNN以及LDA结合运用在情感分析任务上,主要包括以下步骤:
步骤一:通过爬虫工具的手段从豆瓣电影平台采集豆瓣影评数据,包括某部电影的评论人ID、影评评论具体内容以及影评星级评价。对影评数据进行处理,去除英文评价,排除同一用户可能性的多次刷评,并按照影评星级对影评星级评价打标签:1~2星标注为消极,4~5星标注为积极,3星标注为中性。
对影评评论内容中的语料进行情感分类标注,将做好情感标记的语料集分为训练集和测试集,训练集和测试集的划分的比例为7:3,训练集用来训练情感分类的模型,测试集用来测试模型分类的效果。
对语料进行文本预处理:我们将采用基于Python的结巴分词工具的精确模式对语料分词,可以根据句法和语法高效切分词语,保证词语完整性和原子性,分词结果包含原句中的标点符号,符号本身不具有任何词项含义,利用正则式去除分词结果中的标点符号;停用词往往会造成数据冗余,导致分类模型偏差,我们将采用Stopword.txt停用词表去除分词结果中的停用词。
步骤二:使用Word2Vec算法训练步骤一获取的评论语料集,将语句中的单词映射为多维度的连续向量,构建词向量矩阵。Word2vec能快速构建词语的词向量形式,词向量每一维的值代表一个具有一定的语义和语法上解释的特征,其核心框架包括CBOW和Skip-gram两种训练模式。我们可以直接使用python中的gensim库,对评论语料进行训练,得到包含上下文信息和语义信息的特征向量。
步骤三:构建情感词典,情感词作为文本情感分析的关键影响因素,极大程度的决定最终合成语义的分类效果。我们使用知网HowNet和融合网络流行词汇构建情感词典,包括正向情感词、负向情感词、程度副词和否定副词。情感倾向关注度(权重)算法具体实现如下:输入:语料中词向量集合T={t1,t2…,tn}、t1到tn代表词向量,情感词典集合S={s1,s2,…,sm},s1到sm代表情感词;
按照语序选取词向量集合T中第i个词向量,同时选取情感词典集合S中的第j个情感词,计算其相似度Simij:
并保存到集合Simi={simi1,simi2,…,simim},Simi代表词向量ti对应的相似度集合;选择集合Simi的最优值Simimax作为词向量ti的权值,构建情感倾向权重集合W={w1,w2,…,wn},wi即代表词向量ti的最优权重;归一化权重,则可得到我们所需要的情感倾向关注度矩阵。
步骤四:步骤二中,我们采用word2vec将句子中的单词映射为多维度的连续向量;步骤三中,我们采用情感词典获取情感倾向权重,使用向量积的形式对词向量赋予不同的关注度,情感加成的词向量表征为:x={wet1,wet2,…,wetn}。
步骤五:利用LDA主题生成模型提取评论数据语料集主题特征,通过LDA训练S01获取的评论语料集,获得LDA主题分布概率,输出文本—主题、主题—词语矩阵,确定恰当个数的主题类别,将每条影评所属主题类别作为电影情感分析的主题特征,模型训练结束输出语料库任意文本的主题分布矩阵。LDA是多层的贝叶斯网络模型,包含文档、主题、词三层,其主要思想是将每个文档看作所有主题的混合概率分布,将其中的每个主题看作在词上的概率分布,能将电影评论文档的“文档—词”的高维空间映射到“文档—主题”和“主题—词”的低维空间,具有强大的降维能力。
LDA假设电影评论文档和主题满足Dirichlet先验分布,并假设电影主题与词也满足Dirichlet先验分布,计算公式如下:
对于影评数据中任一文档d的第n个词,其主题编号zdn的分布可表示如下:
zdn=multi(θd) (4)
对于该主题编号,词wdn的概率分布可表示如下:
wdn=multi(βzdn) (5)
其中,θd是任一影评文档d的主题分布;zdn是任一影评文档d的第n个词的主题编号;βzdn是任一影评文档d的第n个词的主题编号zdn下的词分布;wdn是任一文档d的第n个词的词分布;
根据贝叶斯统计理论,当后验分布与先验分布属于同类型分布时,则二者为共轭分布。LDA主题生成模型中,有M个文档主题的Dirichlet分布,则对应于有M个主题编号的多项分布,这样组成Dirichlet-multi共轭,这里α是先验分布,一个K维的超参,θd是任一影评文档d的主题分布;而/>是根据上述推论得到的K维词分布。使用贝叶斯推断的方法即可得到基于Dirichlet分布的文档主题后验分布;
主题—词的分布由所有影评文档统计而来,统计的是所有文档的全局信息。构建完成LDA主题生成模型,采用Gibbs采样算法对模型求解,可设置模型迭代次数。LDA模型在初始化时,可选取主题维数K为100,先验分布超参数α和β分别设定为50/K、0.01,迭代过后,模型训练结束,将输出语料库任意文本的主题分布矩阵。
步骤六:将步骤四中得到的情感加权词向量与步骤五中得到的主题向量拼接在一起,可以选择直接拼接或是向量叠加,形成新的输入表征,即同时包含词义特征和整体语义特征,并且加入情感倾向关注度。
步骤七:将步骤六中得到的词向量表征作为卷积神经网络(CNN)的输入,训练模型。CNN的网络结构主要由输入层、卷积层、池化层、全连接层组成,具体实现过程如下:
卷积层主要是为了学习文本句子的局部特征,采用不同的卷积核大小,可以提取到输入信息中不同的特征。选用多通道的方式,即选择多个滤波器进行特征提取,一般设置为[2,3,4],得到不同卷积核的卷积序列,设置激活函数tanh,用于对卷积结果作平滑。
池化层是对高维的特征集合进行降采样操作,防止过度拟合,以及提高计算性能。对经过卷积层获取的特征进行下采样,采用最大池化方式,选取其中局部最优特征。通过池化层可以减少训练参数的数量,池化在每一个通道独立完成,因此输入矩阵的纵深保持不变;
在全连接层,对经过卷积层和池化层的特征进行平滑和连接。选择ReLU作为激活函数;选择交叉熵作为损失函数,并通过反向传播优化网络内参数;为防止过拟合,设置Dropout为0.5;选择softmax函数作为分类标准,输出分类结果。经过多轮迭代后,当准确率趋于稳定时,完成模型训练。
步骤八:将步骤六中得到的测试语料集的词向量输入步骤七中已被训练的情感分析模型,进行情感分类,并计算其准确率。
本发明将情感倾向词向量与主题向量相结合,既包含词义特征和整体语义特征。将其作为卷积神经网络的输入,这就意味着构造的特征同时考虑了包含文本情感信息的词粒度和文本粒度层面的信息,从而可以在训练过程中更好的利用文本信息,提高文本情感分析的准确度。
以上仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种基于改进CNN-LDA的情感分析方法,其特征在于:包括以下步骤:
S01,从豆瓣平台采集豆瓣影评数据并进行预处理,豆瓣影评数据包括评论人ID,评论内容和影评星级评价,对影评评论内容中的语料进行情感分类标注,并将语料分为训练集和测试集两个集合;
S02,使用Word2Vec算法训练S01获取的影评评论内容的语料集,将语句中的单词映射为多维度的连续向量,构建词向量矩阵;
S03:构建情感词典,包括正向情感词、负向情感词、程度副词和否定副词,根据情感词典获取每条影评评论内容的正向情感词、负向情感词、程度副词和否定副词,将语料中词向量集合和情感词典作为输入,依次将语料中的词向量与词典集合中的情感词比较,计算相似度,并选取最优值作为该词向量的权值,输出词向量的情感倾向权重集合;
S04:采用向量机的方式,结合S02得到的词向量矩阵与S03得到的情感倾向权重集合,对词向量赋予不同的权重,得到情感加权词向量表征;
S05:利用LDA主题生成模型提取评论数据语料集主题特征,通过LDA训练S01获取的评论语料集,获得LDA主题分布概率,输出文本—主题、主题—词语矩阵,确定恰当个数的主题类别,将每条影评所属主题类别作为电影情感分析的主题特征,模型训练结束输出语料库任意文本的主题分布矩阵,得到主题向量表征;
S06:采用向量拼接的方式,将S04得到的情感加权词向量表征与S05得到的主题向量表征叠加在一起,形成新的词向量表征,即同时包含词义特征和整体语义特征,并且加入情感倾向关注度;
S07:将S06得到的训练集的新的词向量表征作为卷积神经网络的输入,训练模型;
S08:将S06得到的测试集的新的词向量表征输入S07中已被训练的情感分析模型,进行情感分类,并计算其准确率。
2.根据权利要求1所述的基于改进CNN-LDA的情感分析方法,其特征在于:S01中,通过爬虫工具获取豆瓣影评数据,豆瓣影评数据预处理过程去除英文评价,排除同一用户可能性的多次刷评,并按照影评星级对影评打标签:1~2星标注为消极,4~5星标注为积极,3星标注为中性;通过人工筛选,将语料集划分为positive和negative两个集合,并按照7:3的比例划分训练集和测试集。
3.根据权利要求2所述的基于改进CNN-LDA的情感分析方法,其特征在于:S01中,在对语料进行情感分类标注以及划分之后对语料进行文本预处理,具体为采用基于Python的结巴分词工具的精确模式对语料分词,利用正则式去除分词结果中的标点符号,采用Stopword.txt停用词表去除分词结果中的停用词。
4.根据权利要求1所述的基于改进CNN-LDA的情感分析方法,其特征在于:S02中,获得Word2Vec词向量输入表征需要使用python中的gensim库,对S01获取的评论语料进行训练,得到包含上下文信息和语义信息的特征向量。
5.根据权利要求1所述的基于改进CNN-LDA的情感分析方法,其特征在于:S03中,所述情感词典由知网HowNet融合网络流行词所构建,情感倾向关注度算法具体实现如下:
输入:语料中词向量集合T={t1,t2…,tn},t1到tn代表词向量;情感词典集合S={s1,s2,…,sm},s1到sm代表情感词;
按照语序选取词向量集合T中第i个词向量,同时选取情感词典集合S中的第j个情感词,计算其相似度Simij:
并保存到集合Simi={simi1,simi2,…,simim},Simi代表词向量ti对应的相似度集合;选择集合Simi的最优值Simimax作为词向量ti的权值,构建情感倾向权重集合W={w1,w2,…,wn},wi即代表词向量ti的最优权重;归一化权重,得到情感倾向关注度矩阵。
6.根据权利要求1所述的基于改进CNN-LDA的情感分析方法,其特征在于:S05中,LDA假设电影评论文档和主题满足Dirichlet先验分布,并假设电影主题与词也满足Dirichlet先验分布,计算公式如下:
对于影评数据中任一文档d的第n个词,其主题编号zdn的分布可表示如下:
zdn=multi(θd) (4)
对于该主题编号,词wdn的概率分布可表示如下:
wdn=multi(βzdn) (5)
其中,θd是任一影评文档d的主题分布;zdn是任一影评文档d的第n个词的主题编号;βzdn是任一影评文档d的第n个词的主题编号zdn下的词分布;wdn是任一文档d的第n个词的词分布;
LDA主题生成模型中,有M个文档主题的Dirichlet分布,则对应于有M个主题编号的多项分布,这样组成Dirichlet-multi共轭,使用贝叶斯推断的方法即可得到基于Dirichlet分布的文档主题后验分布;
构建完成LDA主题生成模型,采用Gibbs采样算法对模型求解,可设置模型迭代次数;迭代过后,模型训练结束,将输出语料库任意文本的主题分布矩阵。
7.根据权利要求1所述的基于改进CNN-LDA的情感分析方法,其特征在于:S07中,卷积神经网络的网络结构由输入层、卷积层、池化层和全连接层组成,卷积层选用多通道的方式,即选择多个滤波器进行特征提取;池化层对经过卷积层获取的特征进行下采样,采用最大池化方式,选取其中局部最优特征;全连接层对经过卷积层和池化层的特征进行平化和连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910248424.2A CN109977413B (zh) | 2019-03-29 | 2019-03-29 | 一种基于改进cnn-lda的情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910248424.2A CN109977413B (zh) | 2019-03-29 | 2019-03-29 | 一种基于改进cnn-lda的情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109977413A CN109977413A (zh) | 2019-07-05 |
CN109977413B true CN109977413B (zh) | 2023-06-06 |
Family
ID=67081564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910248424.2A Active CN109977413B (zh) | 2019-03-29 | 2019-03-29 | 一种基于改进cnn-lda的情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109977413B (zh) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705303A (zh) * | 2019-07-23 | 2020-01-17 | 广东数鼎科技有限公司 | 一种基于大数据的产品形象效果评估系统 |
CN110472053A (zh) * | 2019-08-05 | 2019-11-19 | 广联达科技股份有限公司 | 一种面向公共资源招投标公告数据的自动分类方法及其系统 |
CN110569377B (zh) * | 2019-09-11 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 一种媒体文件的处理方法和装置 |
CN110807315A (zh) * | 2019-10-15 | 2020-02-18 | 上海大学 | 一种基于主题模型的在线评论情感挖掘方法 |
CN110750699B (zh) * | 2019-10-18 | 2021-12-17 | 四川大学 | 一种面向票房预测的影评情感可视化方法 |
CN110837740B (zh) * | 2019-10-31 | 2021-04-20 | 华中科技大学 | 一种基于词典改进lda模型的评论方面观点级挖掘方法 |
CN110909167B (zh) * | 2019-11-29 | 2022-07-01 | 重庆邮电大学 | 一种微博文本分类系统 |
CN111160037B (zh) * | 2019-12-02 | 2021-10-26 | 广州大学 | 一种支持跨语言迁移的细粒度情感分析方法 |
CN111079377B (zh) * | 2019-12-03 | 2022-12-13 | 哈尔滨工程大学 | 一种面向中文医疗文本命名实体识别的方法 |
CN112988921A (zh) * | 2019-12-13 | 2021-06-18 | 北京四维图新科技股份有限公司 | 地图信息变化的识别方法和装置 |
CN111143567B (zh) * | 2019-12-30 | 2023-04-07 | 成都数之联科技股份有限公司 | 一种基于改进神经网络的评论情感分析方法 |
CN111309859B (zh) * | 2020-01-21 | 2023-07-07 | 上饶市中科院云计算中心大数据研究院 | 一种景区网络口碑情感分析方法及装置 |
CN113449087B (zh) * | 2020-03-25 | 2024-03-08 | 阿里巴巴集团控股有限公司 | 信息处理方法、装置、设备及计算机可读存储介质 |
CN111488432A (zh) * | 2020-04-14 | 2020-08-04 | 广东科徕尼智能科技有限公司 | 基于用户评论的情感分析方法、设备、存储介质 |
CN111581962B (zh) * | 2020-05-14 | 2023-02-21 | 福州大学 | 一种基于主题词向量与混合神经网络的文本表示方法 |
CN111538766B (zh) * | 2020-05-19 | 2023-06-30 | 支付宝(杭州)信息技术有限公司 | 一种文本分类方法、装置、处理设备和票据分类系统 |
CN111985532B (zh) * | 2020-07-10 | 2021-11-09 | 西安理工大学 | 一种场景级上下文感知的情感识别深度网络方法 |
CN112084788B (zh) * | 2020-08-19 | 2024-05-14 | 北京影谱科技股份有限公司 | 一种影像字幕隐式情感倾向自动标注方法及系统 |
CN111985247B (zh) * | 2020-08-31 | 2022-08-26 | 华侨大学 | 一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统 |
CN112270185A (zh) * | 2020-10-29 | 2021-01-26 | 山西大学 | 一种基于主题模型的文本表示方法 |
CN112541080B (zh) * | 2020-12-18 | 2023-05-26 | 北京清博智能科技有限公司 | 基于深度学习的新媒体账号标签智能校验方法 |
CN112434516B (zh) * | 2020-12-18 | 2024-04-26 | 安徽商信政通信息技术股份有限公司 | 一种融合正文文本信息的自适应评论情感分析系统及方法 |
CN112699240A (zh) * | 2020-12-31 | 2021-04-23 | 荆门汇易佳信息科技有限公司 | 中文情感特征词智能动态发掘和归类方法 |
CN112800184B (zh) * | 2021-01-13 | 2021-08-06 | 华东师范大学 | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 |
CN112883720A (zh) * | 2021-01-25 | 2021-06-01 | 北京瑞友科技股份有限公司 | 一种基于双模型的文本情感分类系统及方法 |
CN113051367B (zh) * | 2021-03-22 | 2023-11-21 | 北京智慧星光信息技术有限公司 | 基于语义特征强化的深度学习预警方法、系统及电子设备 |
CN113535891A (zh) * | 2021-06-07 | 2021-10-22 | 广东东华发思特软件有限公司 | 互联网短文本主题特征与情感倾向分析方法、系统及介质 |
CN113255340B (zh) * | 2021-07-09 | 2021-11-02 | 北京邮电大学 | 面向科技需求的主题提取方法、装置和存储介质 |
CN113641788B (zh) * | 2021-08-06 | 2024-02-23 | 人民网股份有限公司 | 一种基于无监督的长短影评细粒度观点挖掘方法 |
CN114153952A (zh) * | 2021-12-22 | 2022-03-08 | 南京智浩软件科技有限公司 | 一种面试考官管理系统及评分质量监测分析方法 |
CN114881029B (zh) * | 2022-06-09 | 2024-03-01 | 合肥工业大学 | 基于混合神经网络的中文文本可读性评价方法 |
CN115563284B (zh) * | 2022-10-24 | 2023-06-23 | 重庆理工大学 | 一种基于语义的深度多实例弱监督文本分类方法 |
CN118312797B (zh) * | 2024-06-06 | 2024-08-13 | 浙江大华技术股份有限公司 | 一种相似度确定方法、装置和设备及计算机存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647219A (zh) * | 2018-03-15 | 2018-10-12 | 中山大学 | 一种结合情感词典的卷积神经网络文本情感分析方法 |
CN109271634B (zh) * | 2018-09-17 | 2022-07-01 | 重庆理工大学 | 一种基于用户情感倾向感知的微博文本情感极性分析方法 |
-
2019
- 2019-03-29 CN CN201910248424.2A patent/CN109977413B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109977413A (zh) | 2019-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109977413B (zh) | 一种基于改进cnn-lda的情感分析方法 | |
CN112001185B (zh) | 一种结合中文句法和图卷积神经网络的情感分类方法 | |
CN111767741B (zh) | 一种基于深度学习和tfidf算法的文本情感分析方法 | |
CN110390103B (zh) | 基于双编码器的短文本自动摘要方法及系统 | |
CN109241424B (zh) | 一种推荐方法 | |
CN112001187B (zh) | 一种基于中文句法和图卷积神经网络的情感分类系统 | |
CN109933664B (zh) | 一种基于情感词嵌入的细粒度情绪分析改进方法 | |
CN108363725B (zh) | 一种用户评论观点提取和观点标签生成的方法 | |
CN106844632B (zh) | 基于改进支持向量机的产品评论情感分类方法及装置 | |
CN112001186A (zh) | 一种利用图卷积神经网络和中文句法的情感分类方法 | |
CN112328900A (zh) | 一种融合评分矩阵和评论文本的深度学习推荐方法 | |
CN110046250A (zh) | 三嵌入卷积神经网络模型及其文本多分类方法 | |
CN107122349A (zh) | 一种基于word2vec‑LDA模型的文本主题词提取方法 | |
CN107357793A (zh) | 信息推荐方法和装置 | |
CN111368088A (zh) | 一种基于深度学习的文本情感分类方法 | |
CN113326374B (zh) | 基于特征增强的短文本情感分类方法及系统 | |
CN110825850B (zh) | 一种自然语言主题分类方法及装置 | |
CN111078833A (zh) | 一种基于神经网络的文本分类方法 | |
Chen et al. | Deep neural networks for multi-class sentiment classification | |
Miao et al. | Application of CNN-BiGRU Model in Chinese short text sentiment analysis | |
Jotheeswaran et al. | Feature selection using random forest method for sentiment analysis | |
CN114077661A (zh) | 信息处理装置、信息处理方法和计算机可读介质 | |
CN116467443A (zh) | 基于主题识别的网络舆情文本分类方法 | |
CN117236338A (zh) | 一种稠密实体文本的命名实体识别模型及其训练方法 | |
CN114328899A (zh) | 一种文本纪要生成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |