CN112711705B

CN112711705B - 舆情数据处理方法、设备及存储介质

Info

Publication number: CN112711705B
Application number: CN202011371348.3A
Authority: CN
Inventors: 高桐; 付庆岩; 何荣荣
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2023-05-09
Anticipated expiration: 2040-11-30
Also published as: CN112711705A

Abstract

本发明实施例提供一种舆情数据处理方法、设备及存储介质，通过根据知识图谱进行信息获取，可以应对数量级庞大的信息，且对能够为后续舆情数据处理提供基础；根据情感倾向信息、话题演化信息以及历史舆情数据三个维度确定待处理舆情数据的评级参数，可以准确的掌握和评价舆情数据的风险程度，保证舆情监控、舆论引导、负面信息处理的质量和效率，并且在根据评级参数确定待处理舆情数据具有舆论风险时，对待处理舆情数据进行展示处理，以便于对负面舆情及时预警，降低舆论风险，提升品牌形象，而对正面舆情可以进行搜集和正面引导。

Description

舆情数据处理方法、设备及存储介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种舆情数据处理方法、设备及存储介质。

背景技术

舆情是由各种社会群体构成的公众在一定的社会空间内，针对热点事件、特定议题和社会现象所持有的多种情绪、态度和意见交错的总和。舆情是围绕特定话题产生的，舆情的演化往往随着话题的发展而变化。借助数据分析的手段发现其话题的变化来预测未来舆情的发展变化，对其进行追踪分析，便于预防突发性事件的发生。

现有的舆情数据处理方法通常包括信息获取、信息分析、信息处理几个阶段，通过爬虫等技术根据关键字、标签等进行信息获取，并通过K-Means聚类和层次聚类等方式对信息进行整合，进而通过权重、关键词等方式对信息进行分析和预警。

现有的舆情数据处理方法对舆情数据处理效果不好，无法保证舆情监控、舆论引导、负面信息处理的质量和效率，需要较多的人工干预，浪费人力和技术资源。

发明内容

本发明实施例提供一种舆情数据处理方法、设备及存储介质，以在使用较少人力和技术资源的情况下，有效保证舆情监控、舆论引导、负面信息处理的质量和效率。

本发明实施例的第一方面是提供一种舆情数据处理方法，包括：

根据预设知识图谱，对待处理舆情数据获取目标相关信息；

根据所述目标相关信息获取所述待处理舆情数据的情感倾向信息以及话题演化信息，并从预设历史训练集中获取与所述待处理舆情数据相似的历史舆情数据；

根据所述情感倾向信息、所述话题演化信息以及所述历史舆情数据，确定所述待处理舆情数据的评级参数；

根据所述评级参数以及第一预设阈值，获取所述待处理舆情数据的评价结果，并根据所述评价结果在对应界面中展示所述评价结果、以及展示所述情感倾向信息、所述话题演化信息和所述历史舆情数据中的至少一项。

在一种可能的实施方式中，所述根据所述情感倾向信息、所述话题演化信息以及所述历史舆情数据，确定所述待处理舆情数据的评级参数，包括：

根据所述情感倾向信息、所述话题演化信息以及所述历史舆情数据构建所述待处理舆情数据的损失函数；

根据所述损失函数得到所述待处理舆情数据的风险函数，所述风险函数为所述损失函数的期望值；

根据所述风险函数确定所述待处理舆情数据的评级参数。

在一种可能的实施方式中，所述方法还包括：

根据预设历史训练集构建经验风险最小化模型；

根据所述经验风险最小化模型，确定所述第一预设阈值。

在一种可能的实施方式中，所述根据所述评价结果在对应界面中展示所述评价结果后，还包括：

若所述评级参数高于第一预设阈值，则确定所述待处理舆情数据具有舆论风险；

提取所述待处理舆情数据对应的涉事主体，并在所述界面中展示所述涉事主体，所述涉事主体包括图片、视频、音频、文本中至少一项；

接收用户在所述界面中输入的删除操作指令，根据所述删除操作指令直接对所述涉事主体进行逻辑删除或物理删除；或者，从所述涉事主体中确定与所述待处理舆情数据相关度高于第二预设阈值的部分内容，并对所述部分内容进行逻辑删除或物理删除；和/或

接收用户在所述界面中输入的预警发送指令，根据所述预警发送指令输出预警信息。

在一种可能的实施方式中，所述从所述涉事主体中确定与所述待处理舆情数据相关度高于第二预设阈值的部分内容，包括：

根据所述涉事主体的类型，采用相应的预设相似度对比算法，从所述涉事主体中确定与所述待处理舆情数据相关度高于第二预设阈值的部分内容。

在一种可能的实施方式中，所述根据预设知识图谱，对待处理舆情数据获取目标相关信息前，还包括：

获取所述待处理舆情数据对应行业的发布内容集合；

根据所述发布内容集合获取预设指示图谱的节点以及节点间的连接关系；

获取具有连接关系的任一两个节点之间的相似度，并根据相似度对所述节点进行合并，得到所述预设知识图谱。

在一种可能的实施方式中，所述根据所述目标相关信息获取所述待处理舆情数据的情感倾向信息以及话题演化信息，包括：

根据所述待处理舆情数据的目标相关信息，通过预设BERT模型在时间维度和地域维度获取所述待处理舆情数据的第一情感倾向信息以及第一话题判断结果；

获取所述待处理舆情数据的延伸子话题舆情数据，通过预设BERT模型在时间维度和地域维度获取所述延伸子话题舆情数据的第二情感倾向信息以及第二话题判断结果；

根据所述第一情感倾向信息、第一话题判断结果、第二情感倾向信息以及第二话题判断结果，获取所述待处理舆情数据的情感倾向信息以及话题演化信息。

本发明实施例的第二方面是提供一种舆情数据处理装置，包括：

获取模块，用于根据预设知识图谱，对待处理舆情数据获取目标相关信息；

分析模块，用于根据所述目标相关信息获取所述待处理舆情数据的情感倾向信息以及话题演化信息，并从预设历史训练集中获取与所述待处理舆情数据相似的历史舆情数据；

评级模块，用于根据所述情感倾向信息、所述话题演化信息以及所述历史舆情数据，确定所述待处理舆情数据的评级参数；

处理模块，用于根据所述评级参数以及第一预设阈值，获取所述待处理舆情数据的评价结果，并根据所述评价结果在对应界面中展示所述评价结果、以及展示所述情感倾向信息、所述话题演化信息和所述历史舆情数据中的至少一项。

在一种可能的实施方式中，所述评级模块在根据所述情感倾向信息、所述话题演化信息以及所述历史舆情数据，确定所述待处理舆情数据的评级参数时，用于：

根据所述风险函数确定所述待处理舆情数据的评级参数。

在一种可能的实施方式中，所述评级模块还用于：

根据预设历史训练集构建经验风险最小化模型；

根据所述经验风险最小化模型，确定所述第一预设阈值。

在一种可能的实施方式中，所述处理模块在从所述涉事主体中确定与所述待处理舆情数据相关度高于第二预设阈值的部分内容时，用于：

在一种可能的实施方式中，所述获取模块在根据预设知识图谱，对待处理舆情数据获取目标相关信息前，还用于：

获取所述待处理舆情数据对应行业的发布内容集合；

在一种可能的实施方式中，所述分析模块在根据所述目标相关信息获取所述待处理舆情数据的情感倾向信息以及话题演化信息时，用于：

本发明实施例的第三方面是提供一种计算机设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如第一方面所述方法。

本发明实施例的第四方面是提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面所述方法。

本发明实施例的第五方面是提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面所述的方法。

本发明实施例提供的舆情数据处理方法、设备及存储介质，通过根据预设知识图谱，对待处理舆情数据获取目标相关信息；根据目标相关信息获取待处理舆情数据的情感倾向信息以及话题演化信息，并从预设历史训练集中获取与待处理舆情数据相似的历史舆情数据；根据情感倾向信息、话题演化信息以及历史舆情数据，确定待处理舆情数据的评级参数；根据评级参数以及第一预设阈值，获取待处理舆情数据的评价结果，并根据所述评价结果在对应界面中展示所述评价结果、以及展示所述情感倾向信息、所述话题演化信息和所述历史舆情数据中的至少一项。

本发明实施例中通过根据知识图谱进行信息获取，可以应对数量级庞大的信息，且对能够为后续舆情数据处理提供基础；根据情感倾向信息、话题演化信息以及历史舆情数据三个维度确定待处理舆情数据的评级参数，可以准确的掌握和评价舆情数据的风险程度，保证舆情监控、舆论引导、负面信息处理的质量和效率，并且在根据评级参数确定待处理舆情数据具有舆论风险时，对待处理舆情数据进行展示处理，以便于对负面舆情及时预警，降低舆论风险，提升品牌形象，而对正面舆情可以进行搜集和正面引导。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的舆情数据处理方法的应用场景图；

图2为本发明一实施例提供的舆情数据处理方法流程图；

图3为本发明另一实施例提供的舆情数据处理方法流程图；

图4a-4d为本发明一实施例提供的舆情数据处理方法的界面示意图；

图5为本发明另一实施例提供的舆情数据处理方法流程图；

图6为本发明一提供的舆情数据处理装置的结构图；

图7为本发明一提供的执行的舆情数据处理方法的计算机设备结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明实施例保护的范围。

现有的舆情数据处理方法通常包括信息获取、信息分析、信息处理几个阶段。

其中信息获取，是通过爬虫等技术根据关键字、标签等获取。但是获取的信息是散点分布的，且数量级庞大，根据关键字、标签进行信息获取不能对这些信息进行整合以及结构化处理，对舆情分析的使用者来说还是比较难用，对系统的后续分析无法有的放矢，增加了系统的运算量。

信息分析，一般采用K-Means聚类和层次聚类等方式对信息进行整合，但是这层分析只能对信息的整体内容作出判断，但是对媒体来说，一篇文章可能真正有影响力的就是其中的某个段落的某些话，K-Means聚类和层次聚类无法对详细的段落等位置进行判断，无法达到智能化处理的目的。

信息处理，很多都是通过权重，关键词等方式对信息只停留在了分析和预警层面，很少有对后续的智能化处理，包括后续决策的建议，是否对高于阈值的内容不用人工处理，系统自动先处理。而且分析和预警都具有一定的滞后性，目前信息的传播方式从原来的新闻网站向社交网站转移，信息的传播速度更快，发酵时间更短，在信息爆炸的背景下，如何更有效的分析舆情，根据话题演化规律，在事前对舆情作出分析，在分析舆情后能够及时处理和呈现，并且再次学习完善此系统成为亟待解决的问题。

尤其是，从外部获取的内容在发布一段时间后，可能因为文章中涵盖的内容被辟谣、涉政等原因需要被删除，已经从外部改良过来的文章很难再次通过原文的修改，直接对引用内容做处理。此外，信息的采集方面较困难，如果是本公司自己内部的新闻可以由行政手段做到有序管理和发布，但是外部的信息，无法获取到哪些信息对本公司的影响较大，单纯设定一些网站的推荐已经不能满足需求。此外，还需要知道网络舆情对整个公司形象的倾向，便于品牌部对积极内容再次传播，对负面内容进行救火，但是市面上的舆情分析工具，要么对分析的渠道比较局限，要么对本公司的内容只是关键字等方式处理，无法结构化，对公司经营的上下游，相关度较高的内容无法做到自动化处理，需要人工干预较多，失去了智能化的作用。

综上，现有的舆情数据处理方法对舆情数据处理效果不好，无法很好的保证舆情监控、舆论引导、负面信息处理，且需要较多的人工干预，浪费人力和技术资源。

为了解决上述技术问题，本发明实施例提供一种舆情数据处理方法，通过建立知识图谱，并根据知识图谱进行信息获取，可应对数量级庞大的信息，且能够对信息进行结构化处理，降低系统运算量；进一步的，根据获取到的信息进行情感倾向分析以及话题演化分析，并从预设历史训练集中获取相似的历史舆情数据，根据情感倾向信息、话题演化信息以及历史舆情数据，确定待处理舆情数据的评级参数，可以准确的掌握和评价舆情数据的风险程度，保证舆情监控、舆论引导、负面信息处理的质量和效率，并且在根据评级参数确定待处理舆情数据具有舆论风险时，对待处理舆情数据进行展示处理，以便于对负面舆情及时预警，降低舆论风险，提升品牌形象，而对正面舆情可以进行搜集和正面引导。

本发明实施例提供的舆情数据处理方法，可以适用于图1所示的应用场景。如图1所示，服务器101以及数据库102，其中数据库102可用于存储预设知识图谱以及预设历史训练集，而服务器101在获取到待处理舆情数据时可根据数据库102中的预设知识图谱，对待处理舆情数据获取目标相关信息；根据目标相关信息获取待处理舆情数据的情感倾向信息以及话题演化信息，并从预设历史训练集中获取与待处理舆情数据相似的历史舆情数据；根据情感倾向信息、话题演化信息以及历史舆情数据，确定待处理舆情数据的评级参数；根据评级参数以及第一预设阈值，获取待处理舆情数据的评价结果，并根据所述评价结果在对应界面中展示所述评价结果、以及展示所述情感倾向信息、所述话题演化信息和所述历史舆情数据中的至少一项。本发明实施例中服务器可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。

下面结合具体的实施例对舆情数据处理过程进行详细的描述。

图2为本发明实施例提供的舆情数据处理方法流程图。本实施例提供了一种舆情数据处理方法，执行主体为服务器或云设备等计算机设备，可应用于大内容云平台系统、舆情监控系统或者其他与融媒体相关的系统，该舆情数据处理方法具体步骤如下：

S201、根据预设知识图谱，对待处理舆情数据获取目标相关信息。

在本实施例中，考虑到微信公众号、微博等对自己渠道内的信息处理很及时，能够及时捕获热点资讯，对负面信息做及时处理，但是背后使用的人力和技术资源都是巨大的，而随着社交网络和媒体呈现方式的进步，很多公司都形成了自己的媒体矩阵，在内容传播上通过“中央厨房”对自己的媒体矩阵进行一键签发等，内容获取来源分为原创内容和外界输入两种，并且这些内容聚焦到单一行业，有自己行业的知识图谱，信息获取上需要更加聚焦。因此，本实施例中可利用行业的知识图谱对待处理舆情数据进行信息获取，利用知识图谱的方式获取信息主要是可以将不同信息之间的联系、相互影响程度进行结构化表示，让后续的舆情数据分析和处理有的放矢，避免了根据关键字进行信息获取时不同信息之间联系未知而无法进行下一步判断和处理，同时，通过知识图谱的信息获取方式可以对内容中影响程度较高和核心内容进行再次拆解，从而细化分析颗粒度，也解决了传统信息获取方式对内容处理的颗粒度不足问题，例如解决了传统信息获取方式只能针对文章本身作出一定判断，无法对其中具体段落的具体内容作出有效判断的问题。

可选的，如图3所示，本实施例中在S201所述的根据预设知识图谱，对待处理舆情数据获取目标相关信息前，可先建立所述预设知识图谱，具体可包括：

S301、获取所述待处理舆情数据对应行业的发布内容集合；

S302、根据所述发布内容集合获取预设指示图谱的节点以及节点间的连接关系；

S303、获取具有连接关系的任一两个节点之间的相似度，并根据相似度对所述节点进行合并，得到所述预设知识图谱。

在本实施例中，先获取待处理舆情数据对应行业的发布内容集合，可选的，可对行业关注的内容增加获取权重，根据该权重从本行业的主要网站、相关微信号、微博、自有渠道等渠道发布内容中获取发布内容，汇总成为发布内容集合，缩小了信息抓取范围，又保证对关注领域的重视程度，降低资源处理成本。

在获取到发布内容集合后，基于发布内容集合采用常规的知识图谱建立方法获取预设指示图谱的节点以及节点间的连接关系，此时相当于获取到初始指示图谱；为了减少知识图谱的存储空间，提高知识图谱的管理和分析效率，可获取具有连接关系的任一两个节点之间的相似度，并根据相似度对所述节点进行合并，从而得到最终的预设知识图谱。

更具体的，本实施例中可通过获取知识图谱摘要，在保持知识图谱性质不变的基础上，挖掘出知识图谱中实体间隐藏的复杂关系，并将具有相似性的实体进行合并，以消除它们之间的连接关系，从而减少知识图谱占用的存储空间。具体的，可获取知识图谱、知识图谱的节点属性重要性权值向量、知识图谱摘要的预设节点数量和知识图谱摘要的预设节点结构相似度权重，其中，知识图谱包括多个节点、多个节点的属性值、多个节点在知识图谱中的结构和多个节点间的连接关系，多个节点包括第一类型节点和第二类型节点，第一类型节点为单节点，也即由一个实体及其标签组成的节点，第二类型节点为超节点，也即由至少两个实体及其标签组成的节点，而知识图谱的节点属性重要性权值向量指的是由所述实体的每个属性的重要性程度组成的向量，知识图谱摘要的预设节点数量指的期望的知识图谱摘要中的节点数量，知识图谱摘要的预设节点结构相似度权重指的是知识图谱摘要节点间的连接关系的权重；根据节点属性重要性权值向量和节点结构相似度权重计算知识图谱中每一对节点的相似度，以得到相似度最大的至少两个节点，其中，每一对节点指的是具有连接关系的两个节点，其中每一对节点的相似度获取方式可采用现有的方式进行，此处不再赘述；将至少两个节点合并成一个第二类型节点，并将知识图谱进行更新以得到目标知识图谱；统计目标知识图谱的节点数量，并将节点数量与预设节点数量进行比较；当节点数量小于预设节点数量时，则确定目标知识图谱为知识图谱摘要，否则，继续计算每一对节点的相似度以将知识图谱中相似度最大的节点进行合并，直至知识图谱节点数量小于预设节点数量。当然，获取知识图谱摘要的方式并不限于上述过程，此处不再赘述。

S202、根据所述目标相关信息获取所述待处理舆情数据的情感倾向信息以及话题演化信息，并从预设历史训练集中获取与所述待处理舆情数据相似的历史舆情数据。

在本实施例中，在获取到待处理舆情数据的目标相关信息后，可对目标相关信息进行分析，具体的，可根据目标相关信息获取待处理舆情数据的情感倾向信息以及话题演化信息。其中，情感倾向信息用于评价待处理舆情数据是正向情感还是负向情感，具体可采用一个数值来表示情感倾向信息，例如用-100至100之间的任一数值来表示情感程度；而话题演化信息用于表征话题内容演化和强度演化，可采用话题演化时间函数进行表示，其中话题内容演化为话题内容虽时间推移发生变化，话题强度演化表示话题受关注程度的变化。其中对于待处理舆情数据的情感倾向信息以及话题演化信息的获取，可采用现有的文本语义分析工具。在一种可选实施例中，可采用BERT模型，BERT模型是一种双向Transformer用于语言模型，双向训练的语言模型对语境的理解会比单向的语言模型更深刻，而BERT利用了Transformer(一种注意力机制，可以学习文本中单词之间的上下文关系的)的encoder部分。在处理情感分析时，只需要在Transformer的输出上加一个分类层。在将单词序列输入给BERT之前，每个序列中有15％的单词被[MASK]token替换，用其上下文来做预测；然后模型尝试基于序列中其他未被mask的单词的上下文来预测被掩盖的原单词；在训练BERT模型时，模型中的Masked LM和Next Sentence Prediction(任务是判断句子B是否是句子A的下文)是一起训练的，目标就是要最小化两种策略的组合损失函数。

可选的，本实施例中在根据所述目标相关信息获取所述待处理舆情数据的情感倾向信息以及话题演化信息时，具体可包括：

本实施例中，在使用BERT模型进行分析时，加入了话题演化，即增加了时间维度和地域维度的影响，同时对延伸子话题舆情数据再次进行BERT分析，通过2至3级的子话题舆情数据的BERT分析，根据得到的情感倾向信息和话题判断结果得到最终的待处理舆情数据的情感倾向信息以及话题演化信息。具体的，可按照计算的时间周期及时间影响度方程式调整话题演化时间函数的每一个计算时间点的舆情评价值，其中时间影响度调整方程式可以为选自对数法方程式、倍数余额递减法方程式、或直线回归法方程式等，提升舆情内容判断的准确性，使用这种方法不仅了解现在和过去的舆情信息，更可以对未来的舆情发展方向和传播路径作出初步的判断，从舆情的早期就对舆情做出监控。

此外，本实施例中还可从预先获取到的预设历史训练集中获取与所述待处理舆情数据相似的历史舆情数据，例如可获取包括但不限于该相似的历史舆情数据的传播地域、是否产生负面影响、舆情传播速度、舆情影响原因、舆情影响及传播速度等。其中，在获取与所述待处理舆情数据相似的历史舆情数据时，可考虑多种因素进行相似度匹配，例如时间、地域、发起者、内容、上下游信息、传播渠道、权重信息等等，具体的相似度匹配过程可采用任意匹配方法，此处不再赘述。本实施例通过获取与所述待处理舆情数据相似的历史舆情数据，可为舆情数据处理提供参考。

S203、根据所述情感倾向信息、所述话题演化信息以及所述历史舆情数据，确定所述待处理舆情数据的评级参数。

在本实施例中，在获取到情感倾向信息、话题演化信息以及历史舆情数据后，结合情感倾向信息、话题演化信息以及历史舆情数据确定所述待处理舆情数据的评级参数。其中确定所述待处理舆情数据的评级参数可采用特定公式进行，具体的公式可根据实际情况来确定；或者，也可分别对情感倾向信息、话题演化信息以及历史舆情数据三个维度确定出对应的三个评级参数。

可选的，本实施例中可引入损失函数、风险函数和目标函数。其中，风险函数是对风险的预测，与实际结果不一定完全相同；损失函数是用来表现预测与实际数据的差距程度，损失函数的值越小，说明风险函数建立的越好，损失函数是可以很好得反映模型与实际数据差距的工具。

常用的损失函数有以下几种：0-1损失函数(0-1lossfunction)、平方损失函数(quadraticloss function)、绝对损失函数(absoluteloss function)、对数损失函数(logarithmicloss function)或对数似然损失函数(log-likelihood loss function)根据损失函数计算出来的结果，确认风险函数的模型。

本实施例中可以用任意的损失函数来修正风险函数。例如：损失函数为绝对损失函数，也即公式Y-实际Y的绝对值，绝对损失函数的数学表达式为：

L(Y，f(X))＝|Y-f(X)|

或者也可以用平方损失函数代替绝对损失函数，平方损失函数的数学表达式为：

L(Y，f(X))＝(Y-f(X))²

目标函数是设计变量的函数，是一个标量。在同样的约束条件下，会有多种情况满足目标函数。不同的设计点X代表不同的设计方案，不同的设计方案可以达到同样的目标值。在数学上，具有相同目标函数值的点并非一个，而是很多，例如：二维设计中，目标函数是三维空间中的曲面，具有相同目标函数值的点在二维空间上描绘出一簇簇曲线，这种n维设计空间中具有相同目标函数值的设计点在n维空间中构成的曲线(面)称为目标函数的等值线(面)。显而易见，等值线(面)是一簇簇超曲线(面)，在同一条超曲线(面)上有很多设计点，代表了不同的设计方案，但它们却对应有相同的目标值.不同的等值线有不同的目标值。

在本实施例中，不同的因素对风险的影响是不同的，假设以下几个函数：

f₁(x)＝θ₀+θ₁x

f₂(x)＝θ₀+θ₁x+θ₂x²

f₃(x)＝θ₀+θ₁x+θ₂x²+θ₃x³

f₄(x)＝θ₀+θ₁x+θ₂x²+θ₃x³+θ₄x⁴

其中θ为系数，x为入参。

假设风险值为Y，用三个函数分别拟合Y。为了表示拟合的好坏，用一个函数来度量拟合的程度，这个函数就是损失函数。损失函数越小，就代表模型拟合的越好，单模型的建立不是单纯的降低损失函数值，还有历史集的考虑。因此，在本实施例中，输入的是话题演化信息和情感倾向信息，由于模型的输入输出(X,Y)是随机变量，遵循联合分布P(X,Y)，所以，根据所述损失函数得到损失函数的期望值，也即风险函数如下：

R_exp(f)＝E_p[L(Y，f(X))]＝∫L(y，f(x))P(x，y)dxdy

模型f(X)是关于训练数据集的平均损失，称为经验风险。

但是联合分布是未知的，无法直接计算，需要引入历史训练集：

这里一般分为经验风险最小化和结构风险最小化。在拟合时，不能过度的学习历史数据，否则会产生过度拟合，影响最终的结果，因此可以使用经验最小化模型，但是也不能让整个函数过于复杂，四次方程式拟合出来的结果当输入数据差异较大或者不连续时，与实际结果偏差也较大，所以可以使用结构化最小模型。

需要引入一个新的函数J(f)，这个函数专门用来度量模型的复杂度，模型f越复杂，J(f)值越大，模型f越简单，J(f)值越小。在机器学习中也叫正则化，常用的有L₁和L₂范数。

优化后的函数既考虑了经验模型和结构化模型，得到如下所示的目标函数：

为了让结果更加准确，还可以使用多个目标函数一起分析，但是计算过程较长，使用复杂，在实际操作过程中没有使用。

一般而言，f₁(x)因为模型简单，是结构化风险较小的，但是对历史的数据拟合最差。f₄(x)对历史拟合最好，但是结构性风险很大。f₂(x)和f₃(x)相对可以平衡经验和结构化。

在本实施例中，在情感分析时，当情绪为正向情绪时，很少需要处理，使用的f₁(x)函数，减少结构化风险，也即将表征正向情绪的入参输入到f₁(x)函数。在情绪为负面情绪时，使用f₂(x)函数，平衡结构化和经验的影响，也即将表征负向情绪的入参输入到f₂(x)函数。

在话题演化中，对时间因素、地域因素、发布渠道等使用f₃(x)或f₄(x)函数，也即将表征时间因素、地域因素、发布渠道的入参分别输入到f₃(x)或f₄(x)函数中。因为舆情信息对这些信息的影响较大，需要更多参考历史结果。

在机器不断学习的过程中，不断修正θ值，是预测结果更加准确。

根据上述过程，本实施例中可根据风险函数确定评级参数，根据目标函数确定第一预设阈值。

进而在可将评级参数与第一预设阈值进行比较，也即将待处理舆情数据的风险函数值与第一预设阈值进行比较，获取所述待处理舆情数据的评价结果，判断待处理舆情数据是否具有舆论风险。

S204、根据所述评级参数以及第一预设阈值，获取所述待处理舆情数据的评价结果，并根据所述评价结果在对应界面中展示所述评价结果、以及展示所述情感倾向信息、所述话题演化信息和所述历史舆情数据中的至少一项。

在本实施例中，将评级参数与第一预设阈值进行比较，获取所述待处理舆情数据的评价结果，若所述评级参数高于第一预设阈值，则确定所述待处理舆情数据具有舆论风险，若所述评级参数不高于第一预设阈值，则确定所述待处理舆情数据不具有舆论风险。进一步的，可根据所述评价结果在对应界面中展示所述评价结果、以及展示所述情感倾向信息、所述话题演化信息和所述历史舆情数据中的至少一项。

具体的，若所述评级参数不高于第一预设阈值，则确定所述待处理舆情数据不具有舆论风险，并直接展示所述情感倾向信息、所述话题演化信息以及所述历史舆情数据中的至少一项。在一种示例中，在对待处理舆情数据进行风险评级的统计分析中，话题演化的时间函数有明显下降趋势，即可判断未来舆情演化将趋于正常，同时，情感分析中的负面情绪词频统计结果低于预定值，再结合历史训练集中的相似历史舆情数据产生负面影响、传播速度慢、舆情影响原因为不可抗力原因、舆情影响及传播程度低，风险评级将本条信息判定为低于第一预设阈值，则加入到不具有舆论风险的舆情数据列表，同时可展示情感倾向信息、话题演化信息以及历史舆情数据中的至少一项，其中展示历史舆情数据时可展示包括但不限于历史舆情数据的舆情传播地域、是否产生负面影响、舆情传播速度、舆情影响原因和舆情影响及传播程度等相关信息等。作为示例，不具有舆论风险的舆情数据列表如图4a所示，在用户对某一条舆情数据点击“查看舆情统计分析按钮”后，可在图4a右侧展示话题演化的时间函数曲线图、情感倾向信息(包括负面情绪词频)、历史舆情相似度数据参考、是否具有舆论风险(是否高于风险评级阈值)。

若所述评级参数高于第一预设阈值，则确定所述待处理舆情数据具有舆论风险，还可针对所述待处理舆情数据输出预警信息，同时，也可展示所述情感倾向信息、所述话题演化信息以及所述历史舆情数据中的至少一项。在一种示例中，在对待处理舆情数据进行风险评级的统计分析中，话题演化的时间函数有明显上升趋势，情感分析中的负面情绪词频统计结果高于预定值，再结合历史训练集中的相似历史舆情数据产生负面影响、传播速度快、舆情影响原因为人为原因、舆情影响及传播程度高，风险评级将待处理舆情数据判定为高于第一预设阈值，则加入到具有舆论风险的舆情数据列表进行后续分析，并在界面中展示情感倾向信息、话题演化信息以及历史舆情数据中的至少一项。其中展示历史舆情数据时可展示包括但不限于历史舆情数据的舆情传播地域、是否产生负面影响、舆情传播速度、舆情影响原因和舆情影响及传播程度等相关信息等。此外，在提取涉事主体的文字和图片对比后，本待处理舆情数据与涉事主体相关度低于第二预设阈值，则只对内容进行预警处理，并进行预警发送。此外，界面中还可查看涉事主体，在接收到用户展示涉事主体的指令后，对涉事主体进行展示。作为示例，具有舆论风险的舆情数据列表如图4b所示，在用户对某一条舆情数据点击“查看舆情统计分析按钮”后，可在图4b右侧展示话题演化的时间函数曲线图、情感倾向信息(包括负面情绪词频)、历史舆情相似度数据参考、是否具有舆论风险(是否高于风险评级阈值)；当用户点击“查看涉事主体”按钮后如图4c所示展示出该条舆情数据相关的涉事主体；当用户点击“预警发送”按钮后可输出预警信息。

此外，若本待处理舆情数据与涉事主体相关度高于第二预设阈值，则可根据待处理舆情数据进行逻辑删除或物理删除操作，并加入到已删除列表中，同时还可展示所述情感倾向信息、所述话题演化信息以及所述历史舆情数据中的至少一项。作为示例，已删除列表如图4d所示，在用户对某一条已删除的舆情数据点击“查看舆情统计分析按钮”后，可在图4d右侧展示话题演化的时间函数曲线图、情感倾向信息(包括负面情绪词频)、历史舆情相似度数据参考、是否具有舆论风险(是否高于风险评级阈值)；当用户点击“查看涉事主体”按钮后也可如图4c所示展示出该条舆情数据相关的涉事主体。

进一步的，可基于界面中展示的内容对所述待处理舆情数据进行处理，例如对于不具有舆论风险的待处理舆情数据进行展示、正面引导等，而对于具有舆论风险的待处理舆情数据进行预警、删除，降低舆论风险。

本实施例提供的舆情数据处理方法，通过根据预设知识图谱，对待处理舆情数据获取目标相关信息；根据目标相关信息获取待处理舆情数据的情感倾向信息以及话题演化信息，并从预设历史训练集中获取与待处理舆情数据相似的历史舆情数据；根据情感倾向信息、话题演化信息以及历史舆情数据，确定待处理舆情数据的评级参数；根据评级参数以及第一预设阈值，获取待处理舆情数据的评价结果，并根据评价结果对待处理舆情数据进行展示处理。本实施例中通过根据知识图谱进行信息获取，可以应对数量级庞大的信息，且对能够为后续舆情数据处理提供基础；根据情感倾向信息、话题演化信息以及历史舆情数据三个维度确定待处理舆情数据的评级参数，可以准确的掌握和评价舆情数据的风险程度，保证舆情监控、舆论引导、负面信息处理的质量和效率，并且在根据评级参数确定待处理舆情数据具有舆论风险时，对待处理舆情数据进行展示处理，以便于对负面舆情及时预警，降低舆论风险，提升品牌形象，而对正面舆情可以进行搜集和正面引导。

在上述实施例的基础上，如图5所示，S204所述的根据所述评价结果在对应界面中展示所述评价结果后，具体还可包括：

S401、若所述评级参数高于第一预设阈值，则确定所述待处理舆情数据具有舆论风险；

S402、提取所述待处理舆情数据对应的涉事主体，并在所述界面中展示所述涉事主体，所述涉事主体包括图片、视频、音频、文本中至少一项；

S403、接收用户在所述界面中输入的删除操作指令，根据所述删除操作指令直接对所述涉事主体进行逻辑删除或物理删除；或者，从所述涉事主体中确定与所述待处理舆情数据相关度高于第二预设阈值的部分内容，并对所述部分内容进行逻辑删除或物理删除；和/或，接收用户在所述界面中输入的预警发送指令，根据所述预警发送指令输出预警信息。

在本实施例中，若评级参数高于第一预设阈值，则确定待处理舆情数据具有舆论风险，进而可提取待处理舆情数据对应的涉事主体，也即包含该待处理舆情数据的图片、视频、音频或者文本中至少一项，进而对涉事主体进行删除操作。其中，用户在界面中输入删除操作指令，根据删除操作指令可直接将涉事主体进行逻辑删除或物理删除；或者从涉事主体中确定与待处理舆情数据相关度高于第二预设阈值的部分内容，并对所述部分内容进行逻辑删除或物理删除。可选的，可将待处理舆情数据加入到已删除列表中。

进一步的，可根据涉事主体的发布途径选择合适的删除策略。

例如，若涉事主体是通过自有渠道发布，由于自有渠道更便于修改，可以直接对涉事主体进行逻辑删除或物理删除，删除时，还可考虑该待处理舆情数据的同源信息，可同步进行逻辑删除或物理删除。

若涉事主体是通过外部信息渠道发布，则可从涉事主体中确定与待处理舆情数据相关度高于第二预设阈值的部分内容，并对所述部分内容进行逻辑删除或物理删除。其中，获取涉事主体中与待处理舆情数据相关度高于第二预设阈值的部分内容，可根据涉事主体的类型不同采用不同的预设相似度对比算法，例如，对于文本，可采用Word2vec模型分析，获取涉事主体中与待处理舆情数据相关度高于第二预设阈值的部分内容；对于音频，可采用针对音频的相似度对比方法，例如可从二进制文件中获取音频原始数据，并进行音频滤波，计算音频信号短时能量，截取音频信号有效数据，对对比音频数据进行同上操作，计算标准音频与对比音频数据的余弦距离；对于视频，可按照时间节点转换成图片，再进行相似度比较，此处不再赘述。

需要说明的是，上述实施例中对待处理舆情数据进行处理的处理结果可再加入到预设历史训练集中，完善训练集，继续提升后续的舆情数据处理质量和效果。

图6为本发明实施例提供的舆情数据处理装置的结构图。本实施例提供的舆情数据处理装置可以执行舆情数据处理方法实施例提供的处理流程，如图6所示，所述500包括获取模块501、分析模块502、评级模块503以及处理模块504。

获取模块501，用于根据预设知识图谱，对待处理舆情数据获取目标相关信息；

分析模块502，用于根据所述目标相关信息获取所述待处理舆情数据的情感倾向信息以及话题演化信息，并从预设历史训练集中获取与所述待处理舆情数据相似的历史舆情数据；

评级模块503，用于根据所述情感倾向信息、所述话题演化信息以及所述历史舆情数据，确定所述待处理舆情数据的评级参数；

处理模块504，用于根据所述评级参数以及第一预设阈值，获取所述待处理舆情数据的评价结果，并根据所述评价结果在对应界面中展示所述评价结果、以及展示所述情感倾向信息、所述话题演化信息和所述历史舆情数据中的至少一项。

在上述任一实施例的基础上，所述评级模块503在根据所述情感倾向信息、所述话题演化信息以及所述历史舆情数据，确定所述待处理舆情数据的评级参数时，用于：

根据所述风险函数确定所述待处理舆情数据的评级参数。

在上述任一实施例的基础上，所述评级模块503还用于：

根据预设历史训练集构建经验风险最小化模型；

根据所述经验风险最小化模型，确定所述第一预设阈值。

在上述任一实施例的基础上，所述处理模块504还用于：

在上述任一实施例的基础上，所述处理模块504在从所述涉事主体中确定与所述待处理舆情数据相关度高于第二预设阈值的部分内容时，用于：

在上述任一实施例的基础上，所述获取模块501在根据预设知识图谱，对待处理舆情数据获取目标相关信息前，还用于：

获取所述待处理舆情数据对应行业的发布内容集合；

在上述任一实施例的基础上，所述分析模块502在根据所述目标相关信息获取所述待处理舆情数据的情感倾向信息以及话题演化信息时，用于：

本发明实施例提供的舆情数据处理装置可以具体用于执行上述图2-4所提供的方法实施例，具体功能此处不再赘述。

本发明实施例提供的舆情数据处理装置，通过根据预设知识图谱，对待处理舆情数据获取目标相关信息；根据目标相关信息获取待处理舆情数据的情感倾向信息以及话题演化信息，并从预设历史训练集中获取与待处理舆情数据相似的历史舆情数据；根据情感倾向信息、话题演化信息以及历史舆情数据，确定待处理舆情数据的评级参数；根据评级参数以及第一预设阈值，获取待处理舆情数据的评价结果，并根据评价结果对待处理舆情数据进行展示处理。本实施例中通过根据知识图谱进行信息获取，可以应对数量级庞大的信息，且对能够为后续舆情数据处理提供基础；根据情感倾向信息、话题演化信息以及历史舆情数据三个维度确定待处理舆情数据的评级参数，可以准确的掌握和评价舆情数据的风险程度，保证舆情监控、舆论引导、负面信息处理的质量和效率，并且在根据评级参数确定待处理舆情数据具有舆论风险时，对待处理舆情数据进行展示处理，以便于对负面舆情及时预警，降低舆论风险，提升品牌形象，而对正面舆情可以进行搜集和正面引导。

图7为本发明实施例提供的计算机设备的结构示意图。本发明实施例提供的计算机设备可以执行舆情数据处理方法实施例提供的处理流程，如图7所示，计算机设备60包括存储器61、处理器62、计算机程序和通讯接口63；其中，计算机程序存储在存储器61中，并被配置为由处理器62执行以上实施例所述的舆情数据处理方法。

图7所示实施例的计算机设备可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

另外，本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的舆情数据处理方法。

另外，本实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述实施例所述的舆情数据处理方法。

在本发明实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明实施例各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明实施例各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上各实施例仅用以说明本发明实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的范围。

Claims

1.一种舆情数据处理方法，其特征在于，包括：

根据预设知识图谱，对待处理舆情数据获取目标相关信息；

根据所述评级参数以及第一预设阈值，获取所述待处理舆情数据的评价结果，并根据所述评价结果在对应界面中展示所述评价结果、以及展示所述情感倾向信息、所述话题演化信息和所述历史舆情数据中的至少一项；

接收用户在所述界面中输入的删除操作指令，从所述涉事主体中确定与所述待处理舆情数据相关度高于第二预设阈值的部分内容，并对所述部分内容进行逻辑删除或物理删除。

2.根据权利要求1所述的方法，其特征在于，所述根据所述情感倾向信息、所述话题演化信息以及所述历史舆情数据，确定所述待处理舆情数据的评级参数，包括：

根据所述风险函数确定所述待处理舆情数据的评级参数。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

根据预设历史训练集构建经验风险最小化模型；

根据所述经验风险最小化模型，确定所述第一预设阈值。

4.根据权利要求1所述的方法，其特征在于，所述提取所述待处理舆情数据对应的涉事主体，并在所述界面中展示所述涉事主体后，还包括：

5.根据权利要求4所述的方法，其特征在于，所述从所述涉事主体中确定与所述待处理舆情数据相关度高于第二预设阈值的部分内容，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述根据预设知识图谱，对待处理舆情数据获取目标相关信息前，还包括：

获取所述待处理舆情数据对应行业的发布内容集合；

7.根据权利要求1-5任一项所述的方法，其特征在于，所述根据所述目标相关信息获取所述待处理舆情数据的情感倾向信息以及话题演化信息，包括：

8.一种舆情数据处理装置，其特征在于，包括：

处理模块，用于根据所述评级参数以及第一预设阈值，获取所述待处理舆情数据的评价结果，并根据所述评价结果在对应界面中展示所述评价结果、以及展示所述情感倾向信息、所述话题演化信息和所述历史舆情数据中的至少一项；

所述处理模块还用于：

9.一种计算机设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1-7任一项所述的方法。