CN115062229B

CN115062229B - 基于新闻评论的过滤以及情感分析方法

Info

Publication number: CN115062229B
Application number: CN202210971146.5A
Authority: CN
Inventors: 张翔; 陈平华
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2022-08-15
Filing date: 2022-08-15
Publication date: 2022-11-11
Anticipated expiration: 2042-08-15
Also published as: CN115062229A

Abstract

本发明提供了基于新闻评论的过滤以及情感分析方法，包括：对新闻评论进行过滤，获取有效评论集合；其中，所述有效评论集合中包括新闻与所述新闻评论的方面词集合；构建情感分析模型，将所述有效评论集合与所述方面词集合输入至所述情感分析模型中，获取情感倾向结果。本发明通过设置有效的筛选机制，能够过滤无效的用户评论数据，搭建了更加精确有效的模型可以针对文本的特定方面进行定向的情感倾向分析，获得精准的用户情感倾向结果。

Description

基于新闻评论的过滤以及情感分析方法

技术领域

本发明属于文本情感分析技术领域，尤其涉及基于新闻评论的过滤以及情感分析方法。

背景技术

随着信息全球化的到来，互联网上充斥着大量的信息，其中文本就是传递信息的重要载体之一。对于即时新闻软件公司而言，面对大量的用户交互信息往往容易迷失在其中，很难快速的直接的从里面找到用户产生的有效的数据以增强用户粘性，对用户进行更加精准的消息推送，同时也很难了解当前社会的热点问题捕捉社会舆论的大方向，以采取相应的措施。用户的评论往往都会直接的表示用户的情感倾向，因此对用户评论进行精确的情感倾向分析变得尤为重要。

当前基于深度学习的模型在文本上进行情感倾向分析已经取得了非常好的效果，一般都是采用训练好的词嵌入向量将文本转换成富含丰富语义的高维向量，再使用CNN、RNN等神经网络对整个文本的词嵌入矩阵进行语义特征提取形成特征表示，CNN主要是通过卷积算子对文本进行局部的特征提取，遍历文本全局后进行特征选取作为更高维的特征表示；RNN是将文本作为时间序列进行处理，一次处理一个文字的嵌入矩阵的输入，同时上一时刻的输出也作为当前时刻的输入从而达到长期记忆功能，最终得到文本全局的高维特征表示。最后送去分类器进行分类。

现有模型的情感倾向捕捉大多数是基于文本全局的情感倾向分析，而没有进行更加精确更加细粒度的情感倾向分析。例如“针对该事件我觉得A做的对，我也支持B的做法，但我唯独讨厌C！”这么一条用户评论，包含了用户对“A”，“B”，“C”三个人的带有情感倾向的观点，而且还不完全相同。因此需要更精确的情感倾向分析精确到“A”，“B”，“C”三个方面，若人工的对“方面”制作相应的数据库则在面对即时性新闻，如新产品的发布，在此之前是没有的，所以在词库中是找不到相应的标签。

针对真实环境下的用户评论数据，往往存在着一定的无效数据，如与该新闻无关的评论或者是刷的水评论。这些数据在训练中会严重影响到模型的训练；而在实际应用中则会影响评估当前社会对于该新闻事件的舆论评估导向。因此对于评论数据的过滤操作也是非常必要的。

发明内容

为解决上述技术问题，本发明提出了基于新闻评论的过滤以及情感分析方法，设置了有效的筛选机制用以过滤无效的用户评论数据，搭建了一个更加精确有效的模型可以针对文本的特定方面进行细粒度的情感倾向分析。

为实现上述目的，本发明提供了基于新闻评论的过滤以及情感分析方法，包括：

对新闻评论进行过滤，获取有效评论集合；其中，所述有效评论集合中包括新闻与所述新闻评论的方面词集合；

构建情感分析模型，将所述有效评论集合与所述方面词集合输入至所述情感分析模型中，获取情感倾向结果。

可选地，对新闻评论进行过滤包括：

提取新闻与所述新闻评论中的方面词集合，筛选出含有方面词集合的新闻评论，与不含方面词集合的新闻评论；

提取所述新闻的中心句；

采用Bert模型提取所述不含方面词集合的新闻评论的句意和所述中心句的句意，预设相似度阈值，比较所述不含方面词集合的新闻评论的句意和所述中心句的句意的相似度，将达到所述相似度阈值的所述不含方面词集合的新闻评论进行召回；

将所述含有方面词集合的新闻评论，与达到所述相似度阈值的所述不含方面词集合的新闻评论进行结合，获得所述有效评论集合。

可选地，提取新闻与所述新闻评论中的方面词集合包括：使用jieba分词中的搜索引擎模式，对所述新闻与所述新闻评论进行分词，获取文本最小单位的所述方面词结合。

可选地，提取所述新闻的中心句包括：

获取所述新闻中所述方面词的词频-逆文件频率；

将所述新闻中每个句子中的每个方面词的词频-逆文件频率相加除以方面词数得到该句子的词频-逆文件频率，将词频-逆文件频率最大的句子作为所述新闻的所述中心句。

可选地，获取所述新闻中所述方面词的词频-逆文件频率包括：

计算所述方面词在当前新闻以及全部新闻中的概率，获取词频；

计算新闻集合总数与所述方面词在除当前新闻外的其它新闻中是否出现的数量之比，获取逆文件频率；

基于所述词频与所述逆文件频率组合成所述词频-逆文件频率。

可选地，Bert模型采用Transformer的Encoder模块，多层堆积将文本提取成包含语义的高维特征向量，在高维特征向量之间做相似度的计算；

所述Bert模型对文本生成对应的高维特征向量的方式为：

将所述中心句和所述不含方面词集合的新闻评论按词语为单位，用训练好的嵌入矩阵映射成高维向量，将两个taken序列拼接起来，两个序列之间用分割token作为分开两个句子的标识并在序列开头拼接相似度token，再将各个位置的词嵌入向量与对应的位置嵌入向量进行相加作为输入进入Transformer Encoder模块，在所述Transformer Encoder模块中进行self-attention计算各个token的加权和，再进入全连接层，经过若干所述Transformer Encoder模块最后得到的相似度token就能衡量中心句与目标评论的语义相似度。

可选地，所述情感分析模型包括：词嵌入层、一维卷积层、方面词卷积层和分类器。

可选地，将所述有效评论集合输入至所述情感分析模型中，获取情感倾向结果包括：

将所述有效评论集合输入至所述词嵌入层，对所述有效评论集合进行词嵌入转换，获取所述有效评论集合的特征矩阵；

所述特征矩阵进入所述一维卷积层，进行反复叠加卷积、池化操作，获取高阶局部特征矩阵；

所述高阶局部特征矩阵进入所述方面词卷积层，利用方面词特征向量生成卷积核对所述高阶局部特征进行卷积处理，获取特征值拼接成的高阶特征向量；

所述高阶特征向量进入所述分类器，进行地位映射并压缩，在通过激活函数，得到最终的情感倾向概率输出。

可选地，所述分类器包括：全连接层、dropout层和激活函数。

与现有技术相比，本发明具有如下优点和技术效果：

本发明技术方案是细粒度的情感倾向分析，是针对用户具体的某个方面的情感倾向分析，从而是对整个评论的多方面情感倾向分析。这样更有利于统计市场大众的舆情走向；有利于对用户进行更加精准的新闻推荐、与用户有更加良好的交互。同时，结合机器学习和深度学习的优势，建立了更加高效的用户评论筛选机制，无需经过复杂训练的过滤机制，能够获得更为精准地情感倾向分析结果。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例的基于新闻评论的过滤以及情感分析方法流程示意图；

图2为本发明实施例的评论过滤流程示意图；

图3为本发明实施例的针对方面词的情感分析示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例1

如图1所示，本实施例提供了基于新闻评论的过滤以及情感分析方法，包括：

进一步地，对新闻评论进行过滤包括：

提取所述新闻的中心句；

进一步地，提取新闻与所述新闻评论中的方面词集合包括：使用jieba分词中的搜索引擎模式，对所述新闻与所述新闻评论进行分词，获取文本最小单位的所述方面词结合。

进一步地，提取所述新闻的中心句包括：

获取所述新闻中所述方面词的词频-逆文件频率；

进一步地，获取所述新闻中所述方面词的词频-逆文件频率包括：

进一步地，Bert模型采用Transformer的Encoder模块，多层堆积将文本提取成包含语义的高维特征向量，在高维特征向量之间做相似度的计算；

所述Bert模型对文本生成对应的高维特征向量的方式为：

进一步地，所述情感分析模型包括：词嵌入层、一维卷积层、方面词卷积层和分类器。

进一步地，将所述有效评论集合输入至所述情感分析模型中，获取情感倾向结果包括：

将所述有效评论集合及对应的所述方面词集合输入至所述词嵌入层，对所述有效评论集合及方面词集合进行词嵌入转换，获取所述有效评论集合的特征矩阵和方面词特征向量；

所述高阶局部特征矩阵进入所述方面词卷积层，通过方面词特征向量生成卷积核对所述高阶局部特征进行卷积处理，获取特征值拼接成的高阶特征向量；

进一步地，所述分类器包括：全连接层、dropout层和激活函数。

本实施例的技术方案主要分为两个部分：评论数据过滤部分与“方面”词精确情感分析部分。该技术方案的主要步骤如下：

1.使用机器学习的方法分别提取出新闻和对应评论中可能成为“方面”的词。根据新闻与对应评论的从属关系对其进行筛选。

2.使用机器学习的方法提取新闻的主题句，使用Bert模型提取第一步中被过滤掉的评论的句意和当前新闻的主题句句意，设置阈值将那些具有高度语义相关度的评论进行召回。与第一步得到的评论数据合起来就是过滤后的有效评论集合。

3.将过滤得到的有效评论送入模型进行精确的“方面”的情感倾向分析。

例如“针对该事件我觉得A做的对，我也支持B的做法，但我唯独讨厌C！”这么一条用户评论，包含了用户对“A”，“B”，“C”三个人的带有情感倾向的观点，而且还不完全相同。里面A、B、C就是方面词，对每个方面词都有不同的情感倾向。

本实施例的技术方案的详细技术步骤为：

一、评论过滤部分，如图2所示；

1.提取新闻与评论部分的可能的方面词集合：

提取新闻与评论部分的可能的方面词集合。显而易见，如果用户对新闻的某一方面做出评论，那么这一评论一定是新闻中所有的，A新闻下的一个有效评论所评论的方面一定是本身就在A中存在的，而不会是在B中存在而A中没有的。根据该特点的包含关系去取交集从而达到过滤的目的。针对新闻的热点词、重要词汇等一般为名词、动名词等使用jieba分词对新闻以及评论部分进行分词。结巴分词是一种概率语言模型，它是在所有的切分结果中选择对应需求中概率最大的那一种方案。

jieba分词本身具有三种分词模式：全模式、精确模式、搜索引擎模式。全模式是把文本中所有的可以成词的词语都扫描出来；精确模式是把文本最精确的切开；搜索引擎模式是在精确模式的基础上对长词再次切分。根据我们的需求，新闻与评论其联系的部分即“方面词”往往可能是一个词、人名之类的因此我们选择的是jieba分词的搜索引擎模式，这样可以得到文本最小单位的方面词。

jieba分词的搜索引擎模式下的分词首先是基于前缀字典实现的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图。jieba里自带了一个有大量语料库得到的词典，输入文本会根据该词典得到trie树同时把每个词出现的评论转换成频率；再基于动态规划查找最大概率路径，找出基于词频的最大切分组合。对当前切分方案的词语查找相应频率，如果找不到则用已知存在于字典中的最小频率来替代。找到所有的词语对应频率后对句子从右往左计算最大概率得到该方案的概率。

2.提取新闻部分的中心句：

当新闻讲述的是某一事件而非针对某一人或物即不能用一个名词概括是这时对于新闻的概括我们采用的是新闻的中心句。中心句也可以看作是对于新闻的摘要。在这里采用的是TF-IDF（Term Frequency Inverse Document Frequency，词频-逆文件频率）。这是一种抽取式摘要生成方式即所得到的摘要是从输入文本中截取的。这样做的优点是我们所得到的摘要一定是该新闻的内容而不会偏离新闻本身。对于一堆新闻中的某个特定新闻能够代表该新闻的内容一定是在其它新闻中出现次数少甚至没有出现的；而在各个文章中都有出现的内容则不能具有代表性去作为某个新闻区别于其它新闻的内容。

提取中心句我们只使用切分好的词，过滤掉停用词等，计算它们在当前文本出现的频率以及在所有新闻中的概率：

此外还计算逆向文件频率，即新闻集合总数与目标词语在除当前新闻外的其它新闻中是否出现的数量之比：

最后对于将每个句子中的每个词语的tf-idf频率相加除以词语数得到该句子的tf-idf频率从而可以得到该新闻下tf-idf频率最大的句子作为该新闻的摘要即中心句。

3.Bert语义比较进行召回：

在对评论的过滤召回部分，针对的是评论中不存在新闻所提到的方面词语，但是评论中使用了其它的代词或者修饰去指代同一个事物，即在语义表达上是与新闻相关的。该类评论会在方面词交集筛选中被筛掉所以我们要针对这部分的有效评论做一个召回。用评论文本与该新闻的中心句文本做语义的相似度匹配，设置阈值对相似度达到一定程度的评论认作为有效评论并召回。

比较中心句与被筛评论的语义相似度我们采用的是Bert模型。Bert模型使用了Transformer的Encoder模块，多层堆积将文本提取成包含语义的高维特征向量，在高维特征向量之间做相似度的计算。

Bert模型包括：输入层，隐藏层，输出层；其中，输入层与输出层：就是token；隐藏层（也就是Transformer的Encoder模块）：多个模块堆积而成。每个模块包括（多头自注意力+归一化层+残差结构+归一化层）。

Bert的对文本生成对应的高维特征向量的流程为：将切分好的中心句以及目标评论按词语为单位用训练好的词嵌入矩阵映射成高维向量，将两个taken序列拼接起来，两个序列之间用分割token作为分开两个句子的标识并在序列开头拼接相似度token，再将各个位置的词嵌入向量与对应的位置嵌入向量进行相加作为输入进入Transformer Encoder模块，在Transformer Encoder模块中进行self-attention计算各个token的加权和，再进入全连接层。经过多个Transformer Encoder模块最后得到的相似度token就可以衡量中心句与目标评论的语义相似度。

二、“方面”词精确情感分析部分，如图3所示：

1.词嵌入层

词嵌入层的作用是将自然语言转换为能理解的语言即向量。词嵌入层就好比是两个使用不同语言的人们之间交流的翻译器，a要对b讲的话通过翻译器转化为b使用的语言给b，同一句话虽然语言载体不同，但是传达的意思是一样的，词嵌入层正是自然语言与计算机之间的一个翻译器。

b想要理解a的话首先要理解b的话里每个字的意思才能理解总的整句话的意思。基于我们的需求，我们是将新闻以词语为单位进行词嵌入转换，将去除停用词且切分好的词语一个一个的转化为高维向量。要翻译首先必须得有现成的词典，而训练好的词嵌入矩阵就是自然语言与计算机之间的字典。这样就能索引查找对应的词向量。词向量都是具有相同长度的高维向量，将文本的词嵌入向量都拼接起来就是该文本的特征矩阵，作为文本的一个初始特征进入网络模型提取高阶语义特征。

2.一维卷积层

一维卷积层是深度学习中常用的架构，通过可训练参数构成的卷积核即矩阵参数在输入的矩阵上进行滑动计算。卷积对文本的高阶特征提取是利用卷积核提取局部特征，通过滑动得到全文的各个部分的局部特征，再通过池化操作选取突出特征。反复叠加卷积、池化操作从而得到高阶局部特征。卷积核的计算是卷积核与其当前输入矩阵被覆盖位置的部分对应相乘再求和得到当前部分位置的一个特征值。然后卷积核再向下平移对新覆盖的区域进行特征值计算然后继续滑动直到走完全部输入。

此外，由于文本词向量的性质，对文本的一维卷积核默认宽为词向量维度大小；另外由于卷积核内参数的不同，它与卷积部分的计算得到的特征值不同，我们可以将其视为是对不同特征的一个侧重提取。因此我们往往使用多个卷积核对同一输入进行计算得到不同的特征值使得提取到的高阶特征更加的丰富。

3.“方面”词卷积层

一维卷积在对文本进行特征提取时卷积核往往是随机初始化的，而它具体提取的是哪一种特征也是由模型自动学习得到的，我们无从准确的知道。因此我们在这里针对我们的需求先要知道评论具体针对某个方面而做出的评价，从而产生的情感倾向。由方面词去得到专门提取该方面词的卷积核去对文本的特征矩阵做卷积。

将方面词的词嵌入向量乘以一个可训练参数矩阵，经过矩阵变换生成一个固定形状的卷积核，该卷积核就是基于特定方面词下生成的卷积核，它所提取的就是针对该方面词下的局部特征。这样子对于有多少个方面词就可以生成多少个卷积核和与之对应的提取到的高阶特征。对于每一个方面词我们也可以用不同的初始化可训练参数矩阵得到多个卷积核，最后将同一方面词得到的多个卷积核所计算得到的特征值拼接成特征向量进入模型后续的计算。

4.分类器

分类器的作用是将经过模型的特征提取操作后对得到的高阶特征进行地位映射并压缩到0至1之间计算概率。分类器主要的结构是全连接层加dropout层加激活函数。全连接层是利用特定个神经元个数（即输出的个数）对输入进行可训练参数的加权求和并加上偏置，再通过激活函数得到最终的一个概率输出。针对我们的需求我们选择softmax激活函数：

其中

表示当前y位置的值，

表示c位置的值。最后得到的一定是在（0，1）范围内的值。Dropout是为了防止训练时过拟合导致模型参数泛化能力较低而加入的机制。让模型中被加入的网络层随机选取部分神经元在该次训练中停止工作，目的是为了让模型在只使用部分神经元时也能够达到准确分别的效果，加强模型的泛化能力。

现有技术基于新闻客户端对用户评论进行情感分析的操作很少，有的也只是针对用户整条评论进行情感倾向分析，是粗粒度的情感倾向分析。本发明技术方案是细粒的情感倾向分析，是针对用户具体的某个方面的情感倾向分析，从而是对整个评论的多方面情感倾向分析。这样更有利于公司统计市场大众的舆情走向；有利于对用户进行更加精准的新闻推荐、与用户有更加良好的交互。同时，结合机器学习和深度学习的优势，建立了更加高效的用户评论筛选机制。

以上，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.基于新闻评论的过滤以及情感分析方法，其特征在于，包括：

构建情感分析模型，将所述有效评论集合与所述方面词集合输入至所述情感分析模型中，获取情感倾向结果；

获取有效评论集合包括：

提取新闻与所述新闻评论中的所述方面词集合，筛选出含有方面词集合的新闻评论，与不含方面词集合的新闻评论；

提取所述新闻的中心句；

将所述含有方面词集合的新闻评论，与达到所述相似度阈值的所述不含方面词集合的新闻评论进行结合，获得所述有效评论集合；

所述情感分析模型包括：词嵌入层、一维卷积层、方面词卷积层和分类器；

Bert模型采用Transformer的Encoder模块，多层堆积将文本提取成包含语义的高维特征向量，在高维特征向量之间做相似度的计算；

所述Bert模型对文本生成对应的高维特征向量的方式为：

将所述中心句和所述不含方面词集合的新闻评论按词语为单位，用训练好的嵌入矩阵映射成高维向量，将两个taken序列拼接起来，两个序列之间用分割token作为分开两个句子的标识并在序列开头拼接相似度token，再将各个位置的词嵌入向量与对应的位置嵌入向量进行相加作为输入进入Transformer Encoder模块，在所述Transformer Encoder模块中进行self-attention计算各个token的加权和，再进入全连接层以及残差结构，经过若干所述Transformer Encoder模块最后得到的相似度token就能衡量中心句与目标评论的语义相似度；

将所述有效评论集合输入至所述情感分析模型中，获取情感倾向结果包括：

将所述有效评论集合及对应的所述方面词集合输入至所述词嵌入层，对所述有效评论集合及所述方面词集合进行词嵌入转换，获取所述有效评论集合的特征矩阵及方面词向量；

所述高阶局部特征矩阵进入所述方面词卷积层，由方面词向量生成对应卷积核对所述高阶局部特征进行卷积处理，获取特征值拼接成的高阶特征向量；

所述高阶特征向量进入所述分类器，进行低维映射并压缩，在通过激活函数，得到最终方面词对应的情感倾向概率输出。

2.根据权利要求1所述的基于新闻评论的过滤以及情感分析方法，其特征在于，提取新闻与所述新闻评论中的所述方面词集合包括：使用jieba分词中的搜索引擎模式，对所述新闻与所述新闻评论进行分词，获取文本最小单位的所述方面词集合。

3.根据权利要求2所述的基于新闻评论的过滤以及情感分析方法，其特征在于，提取所述新闻的中心句包括：

获取所述新闻中所述方面词的词频-逆文件频率；

4.根据权利要求3所述的基于新闻评论的过滤以及情感分析方法，其特征在于，获取所述新闻中所述方面词的词频-逆文件频率包括：

5.根据权利要求1所述的基于新闻评论的过滤以及情感分析方法，其特征在于，所述分类器包括：全连接层、dropout层和激活函数。