CN111428492A

CN111428492A - 一种情境感知的深度学习算法

Info

Publication number: CN111428492A
Application number: CN202010027050.4A
Authority: CN
Inventors: 谭旭; 曹自强; 高凯; 吕欣
Original assignee: Shenzhen Institute of Information Technology
Current assignee: Shenzhen Institute of Information Technology
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2020-07-17
Anticipated expiration: 2040-01-10
Also published as: CN111428492B

Abstract

一种情境感知的深度学习算法，针对现有医疗舆情情感分析方法不足以区分复杂情感中细粒度的目标指向的问题，提出一种情境感知的深度学习算法——CAN‑LSTM，用于识别医疗舆情中不同认知层次的情感：首先利用LDA主题模型从大量的负面评论中挖掘民众在医疗事件中的不同认知层次；然后在各层次情境中不同评论的影响力的条件下，利用LSTM进行训练情感分析预测模型。本发明的有益效果在于：1.有效识别了医疗舆情中不同认知层次的情感；2.三种加权的CAN‑LSTM模型预测的准确率优于主流的LSTM算法。

Description

一种情境感知的深度学习算法

技术领域

本发明涉及一种算法，具体涉及一种情境感知的深度学习算法及模型。

背景技术

文本情感分析(简称SA)是指利用自然语言处理和文本挖掘的技术，对包含个人情感、喜好、观点等主观性文本进行分析、挖掘的过程。当前情感分析的方法主要包括基于词典规则的方法和基于机器学习的方法。基于词典规则的方法首先需要构建情感词典，在此基础上提取出情感关键词，分析文本中的积极、消极情感词频，判断文本的情感倾向。基于机器学习的方法首先需要人工标注句子的情感类别，然后选择文本中的情感词，并将其矩阵化，用机器学习的算法对其进行分类。

但上述两种方法都存在明显不足，一方面，基于词典的情感识别算法需要构建特定领域的情感词典，这使得为每个领域注释大量数据的成本十分高昂，已成为构建高质量系统的瓶颈；另一方面，基于机器学习的情感识别算法也在很大程度上依赖于人工特征选择。因此，这两类方法对于复杂文本数据的情感识别效果并不理想。而且在医疗事件的网络舆情中，负面倾向通常占据主导地位，而现有两种方法却不足以区分复杂情感中细粒度的目标指向。如何设计出精准预警的医疗舆情算法是目前医疗预警面临的一个主要挑战，吸引了学者的广泛关注。

针对现有医疗舆情情感分析方法不足以区分复杂情感中细粒度的目标指向的问题，提出一种情境感知的深度学习算法——CAN-LSTM，用于识别医疗舆情中不同认知层次的情感。

发明内容

本申请首先利用LDA主题模型从大量的负面评论中挖掘民众在医疗事件中的不同认知层次；然后在各层次情境中不同评论的影响力的条件下，利用LSTM 进行训练情感分析预测模型。

LDA主题模型的基本思想是将文档表示为若干主题的随机组合，而每个主题又表示为若干词条的概率分布。给定文档集

其中 d_t(i＝1，2，…，N)为若干词条组成的文本。假设主题集

词条集

则LDA主题模型中的“文本-主题”概率分布θ_d和“主题-词条”概率分布

分别满足以α和β为超参数的Dirichlet分布，如式(1)和式(2) 所示。

其中，Γ(·)为Gamma函数，θ_d，f表示主题t_j在文本d中的概率分布，且满足

表示词条w_k在主题t_j中的概率分布，且满足

对于文档集

中的每篇文档，LDA定义了基本的主题生成过程，分为以下步骤：

(i)对于每一篇文档d_t(i＝1，2，…，N)，生成L个主题的概率分布 θ_d＝(θ_d，1，θ_d，2，…，θ_d，L)，使得θ_d～P(·|α)；

(ii)对于每一个主题t_i(i＝1，2，…，L)，生成K个词条的概率分布

使得

(iii)重复遍历文本d_i中的每一个词条w_k(k＝1，2，…，K)，生成主题 w_i(i＝1，2，…，L)的概率分布，以及词条w_k(k＝1，2，…，K)的概率分布。

在此基础上，利用Gibbs采样算法，分别求得“文本-主题”概率θ_d，f和“主题-词条”概率

如式(3)和式(4)所示。

其中，

表示词条w被分配给主题t_j的频数，

表示文本d分配给主题t_j的词条数。

由此，我们可以分别得到“文本-主题”概率矩阵和“主题-词条”概率矩阵。

利用LDA得到每个主题中对应的敏感词出现的概率，然后对训练数据进行多种方式的权重分配，分别记为W_base、W_partial和W_total，其核心思想是借助过采样含有主题特征的样本来实现权重分配。三种权重分配方式分别为：

(i)W_base：把敏感词出现的概率值都相应的扩大100倍，然后向下取整，把该值作为含有敏感词的句子采样的倍数。W_base加权的数据集可以表示为：

其中

表示敏感词在“主题-词条”概率分布中的概率，SWT表示主题中含有敏感词的句子，

表示原始数据集。

(ii)W_partial：按敏感词在该主题的所有词汇中所占的比例进行加权，敏感词在其主题中出现的概率可以表示为：

其中分子表示敏感词在该主题出现的次数，分母表示该主题包含的所有词汇之和。W_partial：加权数据集可以表示为

其中SWT表示主题中含有敏感词的句子。

(iii)W_total：依据该敏感词占文挡d中所有词汇的比例进行加权，敏感词在其文本d中出现的概率可以表示为：

其中分子表示敏感词在该文本 d中出现的次数，分母表示文本的所有词汇之和。W_total：加权数据集可以表示为

其中SWT表示主题中含有敏感词的句子。

在得到W_base、W_partial和W_total三种数据集之后便可构建三种加权的CAN-LSTM模型，将其送入LSTM网络中学习，反复迭代，直至收敛，得到认知情感识别模型

即可对测试数据集进行预测。

本发明的有益效果在于：1.有效识别了医疗舆情中不同认知层次的情感；2.三种加权的CAN-LSTM模型预测的准确率优于主流的LSTM算法。

附图说明

图1为算法流程图；

图2实施例中的“主题-敏感词”分布图；

图3 CAN-LSTM算法与LSTM算法预测准确率的比较。

具体实施方式

请参照图1的算法流程图，Step 1.文本集

预处理，包括分词，去停用词，删除无意义文本；

Step 2.给定处理后文本数据集，利用LDA模型求得K个主题下的“主题 -词”概率分布矩阵，依据各主题中出现概率较大的词汇，构建包含K个认知情感的集合

Step 3.利用LDA模型的“文本-主题”概率分布矩阵，分别输出K个认知情感下的相应文本数据集

Step 4.分别为K个认知情感构建相应的敏感词集合

Step 5.构建三种CAN-LSTM加权数据集，即CAN-LSTM(W_base)、CAN-LSTM(W_partial) 和CAN-LSTM(W_total)。(1)CAN-LSTM(W_base)：对于

中的每一个敏感词sw，依据其在“主题-词条”概率分布矩阵出现的概率

构建新的训练集

增加含有关键词的句子的权重。(2) CAN-LSTM(W_partial)：依据敏感词在该主题中出现的概率 tf_t构造新的训练集

(3)CAN-LSTM(W_total)：依据敏感词在该文档中出现的概率df，构造新的训练集

Step 6.利用三个加权后的训练数据集

分别执行CAN-LSTM 训练，前向传播，将三个加权数据集中的数据按照不同的认知层次分别输入多层感知器；

Step 7.反向传播，先迭代计算每个时刻的误差项E，然后用梯度下降算法更新权重W；

Step 8迭代构建认知情感识别模型

Step 9.利用模型

对舆情文本测试集

进行情感识别预测，并计算输出预测结果及相应指标。

我们以2018年7月“XXX假疫苗事件”为实证案例。该事件曾在网上引起广大网民关注，网民通过新闻跟帖、微博评论等方式积极发声，一些微博参与讨论数达数十万，跟帖数万条。本文分别在新浪微博、新闻媒体(新浪网，搜狐网，今日头条)、百度贴吧上爬取了1万2千多条数据，经过数据预处理后得到11422条数据，其中训练数据10465条和测试数据957条。

实验环境及配置如表1所示。

表1实验环境及配置

在实验中，我们设置K＝3，Base＝100。本文实验的具体内容分为以下几个操作流程：

(1)由于医药造假事件舆情大多体现为负面情感，因而我们考虑从公众认知的不同层次对其进行情感分析。首先用LDA主题提取算法聚焦舆情分析的三个认知层次，并据此对相应文本数据进行不同认知情感的标注；

(2)利用LDA主题提取算法得到的先验知识，赋予LSTM的训练数据不同的权重值，改善LSTM深度学习算法的训练。

(3)用三种加权的CAN-LSTM模型对测试数据集进行预测，比较与LSTM算法的实验结果。

通过实验，我们提取出了3个认知层次的情感主题，分别为“监管情感主题”、“企业罚款赔偿”、“个人刑法处置”。并在每个主题中选择出现概率排在前十位的敏感词以可视化的形式展示出来。每个主题中敏感词的概率分布如图2 所示。

根据得到的主题及敏感词的概率分布，我们分别构建三种加权的 CAN-LSTM模型。

W_base模型的构建过程如下：首先将LDA模型得到的“监管情感主题”、“企业罚款赔偿”、“个人刑法处置”三个主题下的三十个敏感词的概率分别扩大100 倍，并把该值作为原始数据中包含三十个敏感词的句子采样的倍数，然后将采样之后的句子加到原始数据中去，最终构成新的W_base加权数据集。

W_partial模型的构建过程如下：首先根据LDA模型得到的三个主题模型，将原始数据集划分为相应的三个子数据集，这三个子数据集分别对应“监管情感主题”、“企业罚款赔偿”、“个人刑法处置”三个主题。然后在每一个子数据集中，分别求出包含敏感词的词条数占子数据集中总词条数的比例，并将该值作为子数据集中包含敏感词的句子采样的倍数，最后将采样之后的句子与原始数据共同构成新的W_partial加权数据集。

W_total模型的构建与W_partial模型的构建类似，但与W_partial模型不同的是，W_total模型不需要划分子数据集，直接求出包含敏感词的词条数占原始数据集中总词条数的比例，并、然后将该值作为原始数据集中包含敏感词的句子采样的倍数，最后将采样之后的句子与原始数据共同构成新的W_total加权数据集。

构建好加权数据集之后，我们对比了不同权重分配下的准确率如图3所示，分析结果如下：

(1)LSTM预测的准确率随着训练次数的增加有个先增后减的过程。准确率最终稳定在84％～86％之间。

(2)W_base的准确率随着训练次数的增加有很大幅度的提高，并且比LSTM的准确率高。在第13轮训练中准确率最高，达到了89.92％。

(3)W_partial的准确率比较稳定，准确率和LSTM相差无几，但比LSTM的准确率波动小。

(4)W_total的准确率随着训练次数的增加有着缓慢的提升且优于LSTM。

从全局来看三种加权的CAN-LSTM在总体上比LSTM的准确率要高，且W_base的加权方法效果更加显著。因此，通过加权的情景感知方法可有效提高情感识别的准确率。