CN111046172B

CN111046172B - 一种舆情分析方法、装置、设备和存储介质

Info

Publication number: CN111046172B
Application number: CN201911048193.7A
Authority: CN
Inventors: 苏耘; 胡晓亮; 卢欣
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2024-04-12
Anticipated expiration: 2039-10-30
Also published as: CN111046172A

Abstract

本发明公开了一种舆情分析方法、装置、设备和存储介质。该方法包括：获取多个舆情信息；在所述多个舆情信息中，查询包含目标实体信息的舆情信息；确定所述包含目标实体信息的舆情信息针对所述目标实体信息的情绪类别。在本发明中，查询舆情信息包含的目标实体信息，并确定针对目标实体信息的情绪所属的情绪类别，进而可以利用针对目标实体信息的情绪类别，进行针对该目标实体信息的舆情分析，从而实现了自动化的舆情分析。

Description

一种舆情分析方法、装置、设备和存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种舆情分析方法、装置、设备和存储介质。

背景技术

目前，视频类互联网企业会制作和播放大量的视频。制作和播放的视频包括：长视频剧集和短视频。长视频例如是：电视剧，电影，综艺等。短视频例如是时长在5分钟之内的视频。

用户在观看视频后，可以通过各种方式表达着自己的情绪和观点。对视频内容的热议，对演员或者角色的喜爱和吐槽等，都归属于舆情的内容。通过对相关舆情的分析和挖掘，会更加直观和清晰地显示用户对视频的关注度和主观感受，可以帮助视频播放或者制作方理解用户感受，辅助营销，改进后续剧集创作等。

传统的舆情分析是通过专业人员根据经验对用户发表的文本进行人工总结，这种人工总结的方式过于依赖专业人员的认知，并且会耗费大量的人力物力。为了解决传统舆情分析的缺点，出现了基于深度学习模型的舆情分析方法，虽然深度学习模型可以有效降低人力成本，但是深度学习模型仅能判断文本整体的情绪倾向，如果文本中出现多种情绪倾向，例如：“喜欢角色A，厌恶角色B”，深度学习模型将不能给出准确的情绪倾向，只能将多种情绪倾向笼统地判定为“其他”，导致舆情分析准确性较低。

发明内容

本发明的主要目的在于提供一种舆情分析方法、装置、设备和存储介质，以解决现有基于深度学习模型的舆情分析方式只能判断文本整体的情绪倾向，导致舆情分析准确性较低的问题。

针对上述技术问题，本发明是通过以下技术方案来解决的：

本发明提供了一种舆情分析方法，包括：获取多个舆情信息；在所述多个舆情信息中，查询包含目标实体信息的舆情信息；确定所述包含目标实体信息的舆情信息针对所述目标实体信息的情绪类别。

其中，在所述多个舆情信息中，查询包含目标实体信息的舆情信息，包括：在所述多个舆情信息中，分别对每个所述舆情信息进行分词处理；在分词处理后的每个所述舆情信息中，利用预设的实体信息识别方法，识别每个所述舆情信息中包含的实体信息；在每个所述舆情信息包含的实体信息中，查询目标实体信息，以便确定包含目标实体信息的舆情信息。

其中，确定所述包含目标实体信息的舆情信息针对所述目标实体信息的情绪类别，包括：利用预设的情绪类别词典，在所述包含目标实体信息的舆情信息中，识别针对所述目标实体信息的情绪表达词，并确定所述情绪表达词所属的情绪类别；其中，在所述情绪类别词典中记录了多个情绪表达词以及每个情绪表达词对应的情绪类别。

其中，所述在所述包含目标实体信息的舆情信息中，识别针对所述目标实体信息的情绪表达词，包括：如果在所述包含目标实体信息的舆情信息中包含多个目标实体信息，则对所述舆情信息进行语义片段划分；针对每个包含目标实体信息的语义片段，如果所述语义片段包括一个目标实体信息，则将所述语义片段中出现的情绪表达词作为针对所述目标实体信息的情绪表达词；如果所述语义片段包括多个目标实体信息，则针对每个所述目标实体信息，确定所述目标实体信息与所述语义片段中出现的每个情绪表达词的距离；比较所述目标实体信息与所述每个情绪表达词的距离的大小；将距离最小的情绪表达词作为针对所述目标实体信息的情绪表达词。

其中，确定所述包含目标实体信息的舆情信息针对所述目标实体信息的情绪类别，包括：将所述包含目标实体信息的舆情信息输入预先训练的情绪分类模型，通过所述情绪分类模型确定所述包含目标实体信息的舆情信息针对所述目标实体信息的情绪类别。

其中，所述情绪分类模型为门控的实体信息级的长短期记忆网络GATED-TD-LSTM模型。

其中，所述情绪分类模型确定所述包含目标实体信息的舆情信息针对所述目标实体信息的情绪类别，包括：将所述舆情信息划分为三个信息片段，并且以多维向量表示每个所述信息片段；其中，第一信息片段是位于所述目标实体信息前面的信息，第二信息片段是所述目标实体信息，第三信息片段是位于所述目标实体信息后面的信息；通过LSMT层将三个以多维向量表示的信息片段分别转化为隐层向量；调用门控函数，使所述门控函数根据三个所述隐层向量计算临时向量；通过全连接层调整所述临时向量的维度数量，使所述维度数量与情绪类别的种类数量相同；利用归一化Softmax函数确定所述临时向量属于每种情绪类别的概率；将概率值最大的情绪类别作为所述舆情信息针对目标实体信息的情绪类别。

本发明提供了一种舆情分析装置，包括：获取模块，用于获取多个舆情信息；查询模块，用于在所述多个舆情信息中，查询包含目标实体信息的舆情信息；确定模块，用于确定所述包含目标实体信息的舆情信息针对所述目标实体信息的情绪类别。

其中，所述查询模块，用于：在所述多个舆情信息中，分别对每个所述舆情信息进行分词处理；在分词处理后的每个所述舆情信息中，利用预设的实体信息识别装置，识别每个所述舆情信息中包含的实体信息；在每个所述舆情信息包含的实体信息中，查询目标实体信息，以便确定包含目标实体信息的舆情信息。

其中，所述确定模块，用于：利用预设的情绪类别词典，在所述包含目标实体信息的舆情信息中，识别针对所述目标实体信息的情绪表达词，并确定所述情绪表达词所属的情绪类别；其中，在所述情绪类别词典中记录了多个情绪表达词以及每个情绪表达词对应的情绪类别。

其中，所述确定模块具体用于：如果在所述包含目标实体信息的舆情信息中包含多个目标实体信息，则对所述舆情信息进行语义片段划分；针对每个包含目标实体信息的语义片段，如果所述语义片段包括一个目标实体信息，则将所述语义片段中出现的情绪表达词作为针对所述目标实体信息的情绪表达词；如果所述语义片段包括多个目标实体信息，则针对每个所述目标实体信息，确定所述目标实体信息与所述语义片段中出现的每个情绪表达词的距离；比较所述目标实体信息与所述每个情绪表达词的距离的大小；将距离最小的情绪表达词作为针对所述目标实体信息的情绪表达词。

其中，所述确定模块，用于：将所述包含目标实体信息的舆情信息输入预先训练的情绪分类模型，通过所述情绪分类模型确定所述包含目标实体信息的舆情信息针对所述目标实体信息的情绪类别。

其中，所述确定模块，包括所述情绪分类模块；所述情绪分类模型，具体用于：将所述舆情信息划分为三个信息片段，并且以多维向量表示每个所述信息片段；其中，第一信息片段是位于所述目标实体信息前面的信息，第二信息片段是所述目标实体信息，第三信息片段是位于所述目标实体信息后面的信息；通过LSMT层将三个以多维向量表示的信息片段分别转化为隐层向量；调用门控函数，使所述门控函数根据三个所述隐层向量计算临时向量；通过全连接层调整所述临时向量的维度数量，使所述维度数量与情绪类别的种类数量相同；利用归一化Softmax函数确定所述临时向量属于每种情绪类别的概率；将概率值最大的情绪类别作为所述舆情信息针对目标实体信息的情绪类别。

本发明提供了一种舆情分析设备，所述舆情分析设备包括处理器、存储器；所述处理器用于执行所述存储器中存储的舆情分析程序，以实现上述的舆情分析方法。

本发明提供了一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述的舆情分析方法。

本发明有益效果如下：

在本发明中，查询舆情信息包含的目标实体信息，并确定针对目标实体信息的情绪所属的情绪类别，进而可以利用针对目标实体信息的情绪类别，进行针对该目标实体信息的舆情分析，从而实现了自动化的舆情分析且舆情分析准确性高。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一片段，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明一实施例的舆情分析方法的流程图；

图2是根据本发明一实施例的查询包含目标实体信息的舆情信息的步骤流程图；

图3是根据本发明一实施例的情绪分类模型确定情绪类别的步骤流程图；

图4是根据本发明一实施例的舆情分析装置的结构图；

图5是根据本发明一实施例的舆情分析设备的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合附图及具体实施例，对本发明作进一步地详细说明。

根据本发明的实施例，提供了一种舆情分析方法。如图1所示，为根据本发明一实施例的舆情分析方法的流程图。

步骤S110，获取多个舆情信息。

具体而言，可以获取分析对象对应的多个舆情信息。

分析对象，是指舆情分析的信息主体。分析对象，包括但不限于：视频，新闻和微博。

视频包括：视频剧集和短视频。视频剧集包括：电视剧、电影、综艺节目、纪录片等。短视频是时长一般在5分钟以内的视频。

舆情信息，是指用于表达用户的情绪和观点的信息。在本实施例中，舆情信息可以文本信息。

舆情信息，包括：弹幕信息和评论信息。弹幕信息是指观看视频时弹出的评论性字幕。

具体的，从多个数据源头，分别获取分析对象对应的多个舆情信息。进一步地，可以利用网络爬取技术，从多个数据源头，分别获取分析对象对应的多个舆情信息。例如：利用网络爬取技术，从网络中爬取数据资源和/或从视频服务商内部爬取数据资源，提取视频剧集(分析对象)相关的信息，对提取的信息并进行数据清洗，获取文本评论信息(舆情信息)并进行结构化存储，如：影人信息，角色信息，剧情信息等。其中，数据清洗用于清除信息中的无用信息，无用信息的类别可以根据具体需求而设置。如，广告信息。

在本实施例中，多个数据源头获取的舆情信息，可以相互弥补和验证，用于校正数据的准确性和数据的补全。

步骤S120，在所述多个舆情信息中，查询包含目标实体信息的舆情信息。

目标实体信息，是指待分析的实体信息。

实体是可相互区别的事物。实体可以是具体的人、事、物，也可以是抽象的概念或联系。例如：实体是专有名词，实体信息为A演员和B角色。又如：实体是一场球赛，实体信息为比赛结果。

具体的，可以在多个舆情信息中，查询包含一个或者多个目标实体信息的舆情信息。也即是说，舆情信息中可以包含一个目标实体信息或者多个目标实体信息。

步骤S130，确定所述包含目标实体信息的舆情信息针对所述目标实体信息的情绪类别。

情绪类别，是对情绪的分类。其中，情绪类别的种类可以根据需求而定。例如：情绪类别的种类包括但不限于：喜、怒、哀和乐。当然，情绪类别的种类还可以包括：正向、中性和负向。

由于舆情信息中可能包含多个目标实体信息，并且用户对每个目标实体信息的情绪表达不同，所以本实施例在舆情信息中如果包含多个目标实体信息，则确定该舆情信息针对每个目标实体信息的情绪类别。

下面提供两种确定针对目标实体信息的情绪类别的方式，但是本领域技术人员应当知道的是，以下两种方式仅用于说明本发明，而不用于限定本发明。

方式一，利用预设的情绪类别词典，在所述包含目标实体信息的舆情信息中，识别针对所述目标实体信息的情绪表达词，并确定所述情绪表达词所属的情绪类别。其中，在所述情绪类别词典中记录了多个情绪表达词以及每个情绪表达词对应的情绪类别。

识别针对所述目标实体信息的情绪表达词，包括：如果在该包含目标实体信息的舆情信息中包含多个目标实体信息，则对该舆情信息进行语义片段划分，在每个包含目标实体信息的语义片段中，识别针对该目标实体信息的情绪表达词，进而可以确定针对该目标实体信息的情绪类别。可以根据标点符号来对该舆情信息进行语义片段划分。

如果所述语义片段包括一个目标实体信息，则将所述语义片段中出现的情绪表达词作为针对所述目标实体信息的情绪表达词；如果所述语义片段包括多个目标实体信息，则针对每个目标实体信息执行以下步骤：确定该目标实体信息与所述语义片段中出现的每个情绪表达词的距离；比较该目标实体信息与每个情绪表达词的距离的大小；将距离最小的情绪表达词作为针对该目标实体信息的情绪表达词。目标实体信息与情绪表达词的距离可以是目标实体信息与情绪表达词间隔的字符数。进一步地，如果目标实体信息C与两个情绪表达词的距离相同，则确定该两个情绪表达词中每个情绪表达词与其他目标实体信息的距离，将该两个情绪表达词中与其他目标实体信息的距离大的情绪表达词作为针对该目标实体信息C的情绪表达词。

例如：“喜欢演员A不喜欢角色B”，目标实体信息“演员A”与情绪表达词“喜欢”和“不喜欢”的距离都为0，“喜欢”与其他目标实体信息“角色B”间隔了“演员A不喜欢”这6个字符(可以根据设置将英文字母作为一个字符)，即“喜欢”与其他目标实体信息“角色B”距离为6，“不喜欢”与其他目标实体信息“角色B”的距离为0，那么将距离其他目标实体信息较远的“喜欢”作为针对“演员A”的情绪表达词。

方式二，将包含目标实体信息的舆情信息输入预先训练的情绪分类模型，通过情绪分类模型确定所述包含目标实体信息的舆情信息针对所述目标实体信息的情绪类别。进一步地，该情绪分类模型，用于根据输入的包含目标实体信息的舆情信息，确定该包含目标实体信息的舆情信息针对该目标实体信息的情绪类别。该情绪分类模型为门控的实体信息级的长短期记忆网络GATED-TD-LSTM模型。针对通过情绪分类模型确定针对目标实体信息的情绪类别的步骤，将在后面进行描述，在此不做赘述。

在本实施例中，在确定所述包含目标实体信息的舆情信息针对所述目标实体信息的情绪类别之后，还包括：展示所述包含目标实体信息的舆情信息针对所述目标实体信息的情绪类别。

可以针对每个舆情信息，展示该舆情信息针对目标实体信息的情绪类别。进一步地，如果该舆情信息包括多个目标实体信息，则展示该舆情信息针对每个目标实体信息的情绪类别。

可以针对多个舆情信息，展示该多个舆情信息针对相同目标实体信息的情绪类别。进一步地，如果该多个舆情信息针对相同目标实体信息的情绪类别不同，则以对比图标的形式，展示该多个舆情信息针对相同目标实体信息的情绪类别。例如：以饼形图或者柱状图，展示该多个舆情信息针对相同目标实体信息的情绪类别，这样可以直观的看到针对相同目标实体信息的每种情绪类别的占比，如：在饼形图中可以看到，100个包含A角色的舆情信息中，针对A角色表达愤怒的情绪类别占70％，针对A角色表达同情的情绪类别占30％。

在本实施例中，查询舆情信息包含的目标实体信息，并确定针对目标实体信息的情绪所属的情绪类别，进而可以利用针对目标实体信息的情绪类别，进行针对该目标实体信息的舆情分析，从而实现了自动化的舆情分析且舆情分析准确性高。

本实施例不是确定舆情信息整体表达的情绪所属的情绪类别，而是确定针对目标实体信息的情绪所属的情绪类别，有助于分析用户对目标实体信息(如人物，演员，剧情)等特定方面的情绪表达，从而可以提炼出用户所要表达的更多的细致情绪信息。如图分析对象为剧集视频，则本实施例的舆情分析可以帮助者制作方理解用户情绪，辅助营销，改进后续剧集创作方向等。

本实施例提出的舆情分析方法可以对舆情信息中出现的每个目标实体信息进行情绪判断，即本实施例可以分析出文本中出现的多种情绪倾向。例如：针对舆情信息“喜欢角色A，厌恶角色B”，本实施例可以判断出针对“角色A”的情绪类别为喜欢，针对“角色B”的情绪类别为厌恶，不会因为舆情信息中存在多种情绪倾向而不能准确判断舆情信息的情绪类别的问题，也不会将舆情信息的情绪类别归类为“其他”。

下面对查询包含目标实体信息的舆情信息进行进一步地描述。

如图2所示，为根据本发明一实施例的查询包含目标实体信息的舆情信息的步骤流程图。

步骤S210，在多个舆情信息中，分别对每个舆情信息进行分词处理。

利用预设的分词方法，在多个舆情信息中，分别对每个舆情信息进行分词处理。该分词方式可以是自然语言处理(Natural Language Processing，NLP)技术中的基于条件随机场(conditional random field，简称CRF)和序列标注的中文分词方法。

分词处理可以将舆情信息的整句话分割为多个单词(分词)组成的序列。例如：舆情信息为“有个苏大强这样的爹也是够了，就不能惯着，看他还怎么作”，分词处理可以得到：“有_/v个_/q苏大强_/nr这样_/r的_/u爹_/n也_/d是_/v够_/v了_/y就_/d不_/d能_/v惯_/v着_/u看_/v他_/r还_/d怎么_/r作_/v”。

步骤S220，在分词处理后的每个所述舆情信息中，利用预设的实体信息识别方法，识别每个所述舆情信息中包含的实体信息。

在分词处理后的每个所述舆情信息中，利用自然语言处理技术中的实体信息识别方法，识别每个所述舆情信息中包含的实体信息。进一步地，该实体信息识别方法可以是基于条件随机场和序列标注的实体信息识别方法。

步骤S230，在每个所述舆情信息包含的实体信息中，查询目标实体信息，以便确定包含目标实体信息的舆情信息。

利用预设的目标实体信息词典，在每个所述舆情信息包含的实体信息中，查询目标实体信息，以便确定包含目标实体信息的舆情信息。如果舆情信息中包含的实体信息为目标实体信息，则确定该舆情信息为包含目标实体信息的舆情信息。

在目标实体信息词典中记录的信息，包括但不限于：多个目标实体信息。该目标实体信息词典还可以包括每个目标实体信息的信息。

进一步地，可以利用网络爬取技术，从网络中爬取数据资源和/或从视频服务商内部爬取数据资源，在爬取的数据资源中提取目标实体信息以及目标实体信息的信息，形成目标实体信息词典。

例如：目标实体信息词典中记录的信息如表1所示。本领域技术人员应当知道的是表1中的内容仅用于说明本发明，而不用于限定本发明。

目标实体信息	目标实体信息的信息
		姚晨	艺人名字
倪大红	艺人名字
		郭京飞	艺人名字
苏明玉	角色名字
		苏大强	角色名字
苏明成	角色名字

表1

下面对确定针对所述目标实体信息的情绪类别进行进一步地说明。

在本实施例中，情绪分类模型可以为门控实体信息级的长短期记忆网络(GatedTarget Dependented Long Short Term Memory Network，简称GATED-TD-LSTM)模型。

在该情绪分类模型包括：Embedding层、LSMT层、门控函数、全连接层(又称：线性模块)和归一化(Softmax)函数。

Embedding层，又称词嵌入层，用于实现文本信息到多维向量的映射。Embedding层由预设的CBOW(Continuous Bag-of-Words)方法实现。

LSTM层，用于将多维向量表示的信息片段转化为隐层向量。

门控函数，用于根据多个隐层向量计算临时向量。

全连接层，用于调整临时向量的维度，使得临时向量的维度数量和情绪类别的种类数量相同。

归一化函数，用于将一个含有任意实数的多维向量压缩到另一个多维向量中，压缩后的多维向量中的每个元素的范围在(0，1)之间，并且所有元素的和为1，从而得到临时向量属于每种情绪类别的概率。

在使用情绪分类模型确定舆情信息针对目标实体信息的情绪类别之前，需要对情绪分类模型进行训练，待情绪分类模型收敛之后，使用情绪分类模型确定舆情信息针对目标实体信息的情绪类别。具体步骤如下：

步骤S1，预先设置样本训练集和目标实体信息词典。该样本训练集中包括多个舆情信息，每个舆情信息中包括一个或者多个目标实体信息，舆情信息针对每个目标实体信息的情绪类别已知。

步骤S2，将目标实体信息词典输入情绪分类模型，以便情绪分类模型根据目标实体信息词典进行目标实体信息识别。

步骤S3，将样本训练集中的舆情信息输入情绪分类模型，获取情绪分类模型输出的舆情信息针对每个目标实体信息的情绪类别。

步骤S4，判断舆情信息针对每个目标实体信息的情绪类别与对应的已知情绪类别是否相同；如果是，则执行步骤S5；如果否，则执行步骤S6。

步骤S5，如果舆情信息针对每个目标实体信息的情绪类别与对应的已知情绪类别相同，则确定情绪分类模型收敛。

步骤S6，如果舆情信息针对每个目标实体信息的情绪类别与对应的已知情绪类别不同，则调整情绪分类模型中的参数，跳转到步骤S2，继续对情绪分类模型进行训练。

在情绪分类模型收敛之后，使用情绪分类模型确定舆情信息针对目标实体信息的情绪类别。如图3所示，为情绪分类模型确定情绪类别的步骤流程图。

步骤S310，将舆情信息划分为三个信息片段，并且以多维向量表示每个所述信息片段。

情绪分类模型对舆情信息进行分词处理；利用目标实体信息词典，在该舆情信息中识别目标实体信息；在识别出目标实体信息之后，根据该目标实体信息在该舆情信息中的位置，将该舆情信息划分为三个信息片段。其中，第一信息片段是位于所述目标实体信息前面的信息(content_left)，第二信息片段是所述目标实体信息(content_target)，第三信息片段是位于所述目标实体信息后面的信息(content_right)。

例如：分词处理后的舆情信息为：“有_/v个_/q苏大强_/nr这样_/r的_/u爹_/n也_/d是_/v够_/v了_/y就_/d不_/d能_/v惯_/v着_/u看_/v他_/r还_/d怎么_/r作_/v”，“苏大强”被识别为目标实体信息，则第一信息片段为“有_/v个_/q”，第二信息片段为“苏大强_/nr”，第三信息片段为“这样_/r的_/u爹_/n也_/d是_/v够_/v了_/y就_/d不_/d能_/v惯_/v着_/u看_/v他_/r还_/d怎么_/r作_/v”。

情绪分类模型在将该舆情信息划分为三个信息片段之后，针对每个信息片段执行以下处理：将该信息片段中的每个分词转化为多维向量，例如：将每个分词转化为200维向量。这样，每个信息片段为多组多维向量的集合。

进一步地，通过所述情绪分类模型的词嵌入层(Embedding层)，将每个信息片段中的每个分词转化为多维向量。

本实施例的情绪分类模型也可以用于查询包含目标实体信息的舆情信息。

步骤S320，通过LSMT层将三个以多维向量表示的信息片段分别转化为隐层向量。

分别将每个以多维向量表示的信息片段输入LSMT层，获取LSMT层输出的该信息片段对应的隐层向量。进一步地，将以多维向量表示的第一信息片段(content_left)对应第一隐层向量(h_l)，将以多维向量表示的第二信息片段(content_target)对应第二隐层向量(h_t)，将以多维向量表示的第三信息片段(content_right)对应第三隐层向量(h_r)。

步骤S330，调用门控函数，使所述门控函数根据三个所述隐层向量计算临时向量。

在本实施例中，根据三个隐层向量计算临时向量，包括：根据第二隐层向量(h_t)和第一隐层向量(h_l)，确定第一权重(z_l)；根据第二隐层向量(h_t)和第三隐层向量(h_r)，确定第二权重(z_r)；其中，第一权重(z_l)和第二权重(z_r)的和为1；计算第一权重(z_l)与第一隐层向量(h_l)的乘积与第二权重(z_r)与第三隐层向量(h_r)的乘积的和，作为临时向量(M)。

例如：计算临时向量h_lr的公式可以为：

M＝z_l×h_l+z_r×h_r；

z_l＝W_l×h_l+U_l×h_t+b_l；

z_r＝W_r×h_r+U_r×h_r+b_r；

z_l+z_r＝1；

其中，W_l、U_l、b_l、W_r、U_r和b_r都为情绪分类模型中的参数，在训练情绪分类模型阶段，可以通过调整参数W_l、U_l、b_l、W_r、U_r和b_r来使情绪分类模型收敛，在情绪分类模型收敛之后，固定参数W_l、U_l、b_l、W_r、U_r和b_r。

步骤S340，通过全连接层调整所述临时向量的维度数量，使所述维度数量与情绪类别的种类数量相同。

例如：情绪类别的种类，包括但不限于：喜、怒、哀和乐。那么全连接层将临时向量的维度数量调整为四维。

步骤S350，利用Softmax函数确定临时向量属于每种情绪类别的概率。

将K维向量的临时向量M压缩到另一个K维实向量δ(M)

例如：该Softmax函数的计算公式可以为：

其中，j＝1，……，K；

其中，m_j表示M中的第j个元素，K为临时向量和实向量的维度。

步骤S360，将概率值最大的情绪类别作为所述舆情信息针对目标实体信息的情绪类别。

如果情绪分离模型识别出舆情信息中包括多个目标实体信息，则情绪分类模型针对每个目标实体信息执行一次图3所示的步骤流程。

本实施例通过自然语言处理的方法，可以分析用户对特定人物，演员，剧情等目标实体信息的情绪表达。进一步地，本实施例利用情绪分类模型来分析用户对目标实体信息的情绪类别，加快了分析过程，可以节省大量的人力物力。本实施例的情绪分类模型针对目标实体信息进行情绪类别分析，从而可以提炼出更多用户所表达的细致情绪信息，使得用户关注度，主观感受，和情绪表达更加直观。

下面提供一种舆情分析装置。如图4所示，为根据本发明一实施例的舆情分析装置的结构图。

该舆情分析装置，包括：获取模块410，查询模块420和确定模型430。

获取模块410，用于获取多个舆情信息。

查询模块420，用于在所述多个舆情信息中，查询包含目标实体信息的舆情信息。

确定模块430，用于确定所述包含目标实体信息的舆情信息针对所述目标实体信息的情绪类别。

其中，所述查询模块420，用于：在所述多个舆情信息中，分别对每个所述舆情信息进行分词处理；在分词处理后的每个所述舆情信息中，利用预设的实体信息识别装置，识别每个所述舆情信息中包含的实体信息；在每个所述舆情信息包含的实体信息中，查询目标实体信息，以便确定包含目标实体信息的舆情信息。

其中，所述确定模块430，用于：利用预设的情绪类别词典，在所述包含目标实体信息的舆情信息中，识别针对所述目标实体信息的情绪表达词，并确定所述情绪表达词所属的情绪类别；其中，在所述情绪类别词典中记录了多个情绪表达词以及每个情绪表达词对应的情绪类别。

其中，所述确定模块430具体用于：如果在所述包含目标实体信息的舆情信息中包含多个目标实体信息，则对所述舆情信息进行语义片段划分；针对每个包含目标实体信息的语义片段，如果所述语义片段包括一个目标实体信息，则将所述语义片段中出现的情绪表达词作为针对所述目标实体信息的情绪表达词；如果所述语义片段包括多个目标实体信息，则针对每个所述目标实体信息，确定所述目标实体信息与所述语义片段中出现的每个情绪表达词的距离；比较所述目标实体信息与所述每个情绪表达词的距离的大小；将距离最小的情绪表达词作为针对所述目标实体信息的情绪表达词。

其中，所述确定模块430，用于：将所述包含目标实体信息的舆情信息输入预先训练的情绪分类模型，通过所述情绪分类模型确定所述包含目标实体信息的舆情信息针对所述目标实体信息的情绪类别。

其中，所述确定模块430，包括所述情绪分类模块；所述情绪分类模型，具体用于：将所述舆情信息划分为三个信息片段，并且以多维向量表示每个所述信息片段；其中，第一信息片段是位于所述目标实体信息前面的信息，第二信息片段是所述目标实体信息，第三信息片段是位于所述目标实体信息后面的信息；通过LSMT层将三个以多维向量表示的信息片段分别转化为隐层向量；调用门控函数，使所述门控函数根据三个所述隐层向量计算临时向量；通过全连接层调整所述临时向量的维度数量，使所述维度数量与情绪类别的种类数量相同；利用归一化Softmax函数确定所述临时向量属于每种情绪类别的概率；将概率值最大的情绪类别作为所述舆情信息针对目标实体信息的情绪类别。

其中，所述确定模块430，还用于：在确定所述包含目标实体信息的舆情信息针对所述目标实体信息的情绪类别之后，展示所述包含目标实体信息的舆情信息针对所述目标实体信息的情绪类别。

本发明所述的装置的功能已经在图1～图3所示的方法实施例中进行了描述，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此不做赘述。

本实施例提供一种舆情分析设备。如图5所示，为根据本发明一实施例的舆情分析设备的结构图。

在本实施例中，所述舆情分析设备，包括但不限于：处理器510、存储器520。

所述处理器510用于执行存储器520中存储的舆情分析程序，以实现上述的舆情分析方法。

具体而言，所述处理器510用于执行存储器520中存储的舆情分析程序，以实现以下步骤：获取多个舆情信息；在所述多个舆情信息中，查询包含目标实体信息的舆情信息；确定所述包含目标实体信息的舆情信息针对所述目标实体信息的情绪类别。

其中，在确定所述包含目标实体信息的舆情信息针对所述目标实体信息的情绪类别之后，还包括：展示所述包含目标实体信息的舆情信息针对所述目标实体信息的情绪类别。

本发明实施例还提供了一种存储介质。这里的存储介质存储有一个或者多个程序。其中，存储介质可以包括易失性存储器，例如随机存取存储器；存储器也可以包括非易失性存储器，例如只读存储器、快闪存储器、硬盘或固态硬盘；存储器还可以包括上述种类的存储器的组合。

当存储介质中一个或者多个程序可被一个或者多个处理器执行，以实现上述的舆情分析方法。

具体而言，所述处理器用于执行存储器中存储的舆情分析程序，以实现以下步骤：获取多个舆情信息；在所述多个舆情信息中，查询包含目标实体信息的舆情信息；确定所述包含目标实体信息的舆情信息针对所述目标实体信息的情绪类别。

以上所述仅为本发明的实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种舆情分析方法，其特征在于，包括：

获取多个舆情信息；

在所述多个舆情信息中，查询包含目标实体信息的舆情信息；

确定所述包含目标实体信息的舆情信息针对所述目标实体信息的情绪类别；

确定所述包含目标实体信息的舆情信息针对所述目标实体信息的情绪类别，包括：

将所述包含目标实体信息的舆情信息输入预先训练的情绪分类模型，通过所述情绪分类模型确定所述包含目标实体信息的舆情信息针对所述目标实体信息的情绪类别；

所述情绪分类模型确定所述包含目标实体信息的舆情信息针对所述目标实体信息的情绪类别，包括：

将所述舆情信息划分为三个信息片段，并且以多维向量表示每个所述信息片段；其中，第一信息片段是位于所述目标实体信息前面的信息，第二信息片段是所述目标实体信息，第三信息片段是位于所述目标实体信息后面的信息；

通过LSMT层将三个以多维向量表示的信息片段分别转化为隐层向量；

调用门控函数，使所述门控函数根据三个所述隐层向量计算临时向量；

通过全连接层调整所述临时向量的维度数量，使所述维度数量与情绪类别的种类数量相同；

利用归一化Softmax函数确定所述临时向量属于每种情绪类别的概率；

将概率值最大的情绪类别作为所述舆情信息针对目标实体信息的情绪类别；

利用预设的情绪类别词典，在所述包含目标实体信息的舆情信息中，识别针对所述目标实体信息的情绪表达词，并确定所述情绪表达词所属的情绪类别；

其中，在所述情绪类别词典中记录了多个情绪表达词以及每个情绪表达词对应的情绪类别；

所述在所述包含目标实体信息的舆情信息中，识别针对所述目标实体信息的情绪表达词，包括：

如果在所述包含目标实体信息的舆情信息中包含多个目标实体信息，则对所述舆情信息进行语义片段划分；

针对每个包含目标实体信息的语义片段，如果所述语义片段包括一个目标实体信息，则将所述语义片段中出现的情绪表达词作为针对所述目标实体信息的情绪表达词；如果所述语义片段包括多个目标实体信息，则针对每个所述目标实体信息，确定所述目标实体信息与所述语义片段中出现的每个情绪表达词的距离；比较所述目标实体信息与所述每个情绪表达词的距离的大小；将距离最小的情绪表达词作为针对所述目标实体信息的情绪表达词。

2.根据权利要求1所述的方法，其特征在于，在所述多个舆情信息中，查询包含目标实体信息的舆情信息，包括：

在所述多个舆情信息中，分别对每个所述舆情信息进行分词处理；

在分词处理后的每个所述舆情信息中，利用预设的实体信息识别方法，识别每个所述舆情信息中包含的实体信息；

在每个所述舆情信息包含的实体信息中，查询目标实体信息，以便确定包含目标实体信息的舆情信息。

3.根据权利要求1所述的方法，其特征在于，所述情绪分类模型为门控的实体信息级的长短期记忆网络GATED-TD-LSTM模型。

4.一种舆情分析装置，其特征在于，包括：

获取模块，用于获取多个舆情信息；

查询模块，用于在所述多个舆情信息中，查询包含目标实体信息的舆情信息；

确定模块，用于确定所述包含目标实体信息的舆情信息针对所述目标实体信息的情绪类别；

其中，确定所述包含目标实体信息的舆情信息针对所述目标实体信息的情绪类别，包括：

5.一种舆情分析设备，其特征在于，所述舆情分析设备包括处理器、存储器；所述处理器用于执行所述存储器中存储的舆情分析程序，以实现权利要求1～3中任一项所述的舆情分析方法。

6.一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1～3中任一项所述的舆情分析方法。