CN109684481A

CN109684481A - 舆情分析方法、装置、计算机设备和存储介质

Info

Publication number: CN109684481A
Application number: CN201910007697.8A
Authority: CN
Inventors: 朱元; 李磊
Original assignee: OneConnect Smart Technology Co Ltd
Current assignee: OneConnect Smart Technology Co Ltd
Priority date: 2019-01-04
Filing date: 2019-01-04
Publication date: 2019-04-26

Abstract

本申请涉及一种基于自然语言处理技术的舆情分析方法、装置、计算机设备和存储介质，该方法包括：识别目标对象的各舆情信息中包括的关键词；基于语义相似度对各关键词进行聚类；对各舆情信息进行分段，从分段得到的每个舆情片段中识别第一关键词；针对每个舆情片段，选取包括与第一关键词属于同一聚类下的第二关键词的舆情信息，作为舆情片段的关联语句；对关联语句进行语义分析，生成相应的语义描述信息；将每个舆情片段中包括的第一关键词和相应关联语句的语义描述信息，输入情感分析模型中，输出舆情片段的正负面研判结果；根据各舆情片段的正负面研判结果，对目标对象进行异常识别。采用本方法能够提高舆情信息传达的信息量。

Description

舆情分析方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种舆情分析方法、装置、计算机设备和存储介质。

背景技术

随着科学技术的飞速发展，通信技术和通信平台逐渐壮大。人们不再像过去一样，只能单方面的接收电视、广播等平台传播的信息，而是可以借助网络平台或软件，即时有效地发表和获取各种舆情信息。

传统方法中，舆情信息在网络平台中，仅用于向人们展示，并供人们进一步的传播。很显然，传统舆情信息能够传达的信息量，仅为舆情信息本身，而并未能够传达表面的舆情信息背后深层次的信息。因此，传统舆情信息传达的信息量比较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高舆情信息传达的信息量的舆情分析方法、装置、计算机设备和存储介质。

一种舆情分析方法，所述方法包括：

识别目标对象的各舆情信息中包括的关键词；

基于语义相似度对各所述关键词进行聚类；

对各舆情信息进行分段，从分段得到的每个舆情片段中识别第一关键词；

针对每个舆情片段，选取包括与所述第一关键词属于同一聚类下的第二关键词的舆情信息，作为所述舆情片段的关联语句；

对所述关联语句进行语义分析，生成相应的语义描述信息；

将每个舆情片段中包括的第一关键词和相应关联语句的语义描述信息，输入预先建立的情感分析模型中，输出所述舆情片段的正负面研判结果；

根据各舆情片段的正负面研判结果，对目标对象进行异常识别。

在其中一个实施例中，所述方法还包括：

建立各舆情信息与所包括的关键词之间的关联关系；

所述针对每个舆情片段，选取包括与所述第一关键词属于同一聚类下的第二关键词的舆情信息，作为所述舆情片段的关联语句包括：

针对每个舆情片段，从各舆情信息中，筛选出与所述第一关键词具有关联关系的舆情信息；

从筛选出的舆情信息中，选取与第二关键词具有关联关系的舆情信息，作为所述舆情片段的关联语句。

在其中一个实施例中，在所述基于语义相似度对各所述关键词进行聚类之后，所述方法还包括：

从属于同一聚类的关键词中选取代表关键词；

根据每一聚类的代表关键词构成词云；

针对词云的每个代表关键词，确定包括与所述代表关键词属于同一聚类下的关键词的舆情信息，并建立代表关键词和确定的舆情信息之间的关联关系；

输出所述词云至终端进行展示。

在其中一个实施例中，所述根据各舆情片段的正负面研判结果，对目标对象进行异常识别包括：

针对每个舆情信息，根据所述舆情信息所包括的舆情片段的正负面研判结果，对整个舆情信息进行评分；

根据评分分值对舆情信息进行正负面评价处理，得到正负面评价结果；

根据各舆情信息的正负面评价结果，对目标对象进行异常识别。

在其中一个实施例中，所述根据各舆情信息的正负面评价结果，对目标对象进行异常识别包括：

根据各舆情信息的正负面评价结果，得到舆情信息的情感正负比例；

从预设的各比例区间中，确定所述情感正负比例所位于的比例区间；

获取与所述比例区间对应设置的异常等级，得到目标对象的异常识别结果。

在其中一个实施例中，所述方法还包括：

获取预设的各个热度统计时间点；

确定目标对象的各舆情信息在各个热度统计时间点的子热度值；

根据对应于同一热度统计时间点的子热度值，得到目标对象对应于所述热度统计时间点的热度值；

根据各所述热度统计时间点和所述目标对象对应于各热度统计时间点的热度值，以时间为维度描述目标对象热度变化趋势。

在其中一个实施例中，所述目标对象为商事主体；所述方法还包括：

分析目标对象的各舆情信息之间的语义相似度；

将语义相似度达到预设相似度阈值的舆情信息聚类成一个事件；

获取同一事件中各舆情信息的产生时间点；

针对每个事件，将所述事件中各舆情信息的产生时间点在时间轴上进行标记，并建立所述事件中与所述产生时间点相应的舆情信息与所述各产生时间点的标记位置之间的关联显示关系。

一种舆情分析装置，其特征在于，所述装置包括：

关键词识别模块，用于识别目标对象的各舆情信息中包括的关键词；

聚类模块，用于基于语义相似度对各所述关键词进行聚类；

关联语句确定模块，用于对各舆情信息进行分段，从分段得到的每个舆情片段中识别第一关键词；针对每个舆情片段，选取包括与所述第一关键词属于同一聚类下的第二关键词的舆情信息，作为所述舆情片段的关联语句；

舆情分析模块，用于对所述关联语句进行语义分析，生成相应的语义描述信息；将每个舆情片段中包括的第一关键词和相应关联语句的语义描述信息，输入预先建立的情感分析模型中，输出所述舆情片段的正负面研判结果；根据各舆情片段的正负面研判结果，对目标对象进行异常识别。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

识别目标对象的各舆情信息中包括的关键词；

基于语义相似度对各所述关键词进行聚类；

对所述关联语句进行语义分析，生成相应的语义描述信息；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

识别目标对象的各舆情信息中包括的关键词；

基于语义相似度对各所述关键词进行聚类；

对所述关联语句进行语义分析，生成相应的语义描述信息；

上述舆情分析方法、装置、计算机设备和存储介质，将目标对象的舆情信息中的关键词基于语义相似度进行聚类，那么，同一聚类下的关键词之间存在一定的语义相关性，对各舆情信息进行分段，从分段得到的每个舆情片段中识别第一关键词，从各舆情信息中，选取包括与第一关键词属于同一聚类下的第二关键词的舆情信息。由于，选取的舆情信息所包括的第二关键词与舆情片段所包括的第一关键词属于同一聚类，因此，选取的舆情信息在一定程度上与舆情片段具有语义相关性，因此可以作为舆情片段的关联语句。对关联语句进行语义分析，生成相应的语义描述信息；将每个舆情片段中包括的第一关键词和相应关联语句的语义描述信息，输入预先建立的情感分析模型中，输出舆情片段的正负面研判结果。即，将关键词和关联语句结合起来，能够准确地深入挖掘舆情片段背后所表达的情感信息。进而，根据各舆情片段的正负面研判结果，对目标对象进行异常识别，能够基于挖掘的舆情信息的情感信息，基于挖掘的情感信息进一步深入挖掘舆情信息，确定目标对象的异常与否，而不仅仅局限于舆情信息自身的表面言论，提高了舆情信息所表达的信息量。

附图说明

图1为一个实施例中舆情分析方法的应用场景图；

图2为一个实施例中舆情分析方法的流程示意图；

图3为一个实施例中舆情信息的情感正负比例的示意图；

图4为一个实施例中词云示意图；

图5为一个实施例中热度趋势图的示意图；

图6为一个实施例中舆情分析装置的结构框图；

图7为另一个实施例中舆情分析装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的舆情分析方法，可以应用于如图1所示的应用环境中。其中，服务器110通过网络分别与互联网平台120通过网络进行通信。其中，服务器110可以用独立的服务器或者是多个服务器组成的服务器集群来实现。互联网平台120，是能够通过互联网发布舆情信息的平台，并不限定于一个，这里仅示出一个进行示意。可以理解，互联网平台可以包括官方网站和非官方网站中的至少一种。

服务器110可以从互联网平台120中收集目标对象的舆情信息，并识别目标对象的各舆情信息中包括的关键词；基于语义相似度对各关键词进行聚类；对各舆情信息进行分段，从分段得到的每个舆情片段中识别第一关键词；针对每个舆情片段，从各舆情信息中，选取包括与第一关键词属于同一聚类下的第二关键词的舆情信息，作为舆情片段的关联语句；对关联语句进行语义分析，生成相应的语义描述信息；将每个舆情片段中包括的第一关键词和相应关联语句的语义描述信息，输入预先建立的情感分析模型中，输出舆情片段的正负面研判结果；根据各舆情片段的正负面研判结果，对目标对象进行异常识别。

在一个实施例中，如图2所示，提供了一种舆情分析方法，以该方法应用于图1中的服务器110为例进行说明，包括以下步骤：

S202，识别目标对象的各舆情信息中包括的关键词。

其中，目标对象，是需要进行舆情分析的主体。目标对象可以是主题事件或商事主体等。主题事件，是发生的有一定影响程度的事情。商事主体是指商事法上规定的人，这里的“人”包括自然人、法人及其变态形式。商事主体，通常指企业。

舆情是“舆论情况”的简称。它是较多群众关于社会中各种对象、现象、问题等所表达的信念、态度、意见和情绪等等表现的总和。在一个实施例中，以舆情的来源角度来看，舆情可以为网络舆情。网络舆情，是以网络为载体，以事件为核心，是广大网民情感、态度、意见和观点的表达、传播与互动、以及后续影响力的集合。

在一个实施例中，以舆情的信息构成来看，舆情信息，包括企业的商事主体信息、合规信息、经营信息、活动信息和社会大众对企业的评论信息。

具体地，服务器可以通过网络爬虫技术从指定网站上爬取目标对象的舆情信息。在一个实施例中，指定网站，可以包括：企业信息查询网站、各大媒体网站、政府及协会网站等至少一种类型的网站。

在一个实施例中，服务器还可以对爬取的舆情信息进行数据清洗处理，以从中去除存在重复、格式错误等问题的舆情信息。

可以理解，服务器可以基于NLP(Natural Language Processing，自然语言处理)技术对舆情信息进行结构化处理，为舆情信息中各部分内容添加相应的标签，以将自然语言的舆情信息转换为能够被计算机理解的结构化的舆情信息，然后针对结构化的舆情信息执行舆情分析方法的各个步骤。

可以理解，舆情信息本身是人们所描述的语言，无法被计算机所理解，所以通过NLP技术为舆情信息中各部分内容添加相应标签后，计算机能够根据相应标签理解舆情信息所表示的是哪些内容。比如，看见一个“标题标签”后，计算机就可以知道这个舆情信息中这部分内容表示的是“标题”。

在一个实施例中，服务器可以对舆情信息进行分词处理，从分词得到的各个词片段中提取出关键词。具体地，服务器可以将词片段与关键词库中的关键词进行匹配，将从关键词库中匹配到的关键词，作为舆情信息的关键词。

在另一个实施例中，服务器可以从网络上抓取热搜词，从目标对象的舆情信息中确定包括热搜词的舆情信息，并将舆情信息所包括的热搜词作为该舆情信息的关键词。比如，从网络上抓取的热搜词为“马拉松”、“无人机”和“教育”，而针对目标企业爬取的某一条舆情信息中包括“教育”和“无人机”，那么就可以将热搜词“教育”和“无人机”作为这条舆情信息的关键词。

S204，基于语义相似度对各关键词进行聚类。

具体地，服务器可以分析各个关键词之间的语义相似度，并将语义相似度大于预设相似度阈值的关键词聚为一类。

S206，对各舆情信息进行分段，从分段得到的每个舆情片段中识别第一关键词。

其中，舆情片段，是舆情信息中的一个局部片段。一个舆情信息包括至少一个舆情片段。

具体地，服务器可以对各个舆情信息进行分段，得到至少一个的舆情片段。服务器可以对每个舆情片段进行关键词识别处理，识别每个舆情片段中的关键词，即为第一关键词。在一个实施例中，服务器可以对舆情片段进行分词，得到相应词片段，并将词片段与关键词库中的关键词进行匹配，将匹配到的关键词作为舆情片段的关键词。

可以理解，“第一关键词”中的“第一”仅用于将“第一关键词”与“第二关键词”区分开来，并不用于其他限定。

S208，针对每个舆情片段，选取包括与第一关键词属于同一聚类下的第二关键词的舆情信息，作为舆情片段的关联语句。

具体地，针对每个舆情片段，服务器可以确定该舆情片段中第一关键词所属聚类，获取该聚类下的第二关键词，从各舆情信息中选取包括第二关键词的舆情信息，作为舆情片段的关联语句。

可以理解，由于同一聚类下的关键词之间语义相似度比较接近，所以想表达的语义也更为相同，因此，包括同一聚类下的第二关键词的舆情信息与包括第一关键词的舆情片段之间，在某种程度上存在一定的语义相关性，所以可以作为舆情片段的关联语句。

S210，对关联语句进行语义分析，生成相应的语义描述信息。

其中，语义描述信息，是用自然语言描述关联语句所表达的主旨意思的文本信息。

S212，将每个舆情片段中包括的第一关键词和相应关联语句的语义描述信息，输入预先建立的情感分析模型中，输出舆情片段的正负面研判结果。

其中，该正负面研判结果，用于表示舆情片段属于正面情感信息还是负面情感信息。

情感分析模型，是预先通过样本数据进行机器学习迭代训练得到的、且用于进行情感分析的机器学习模型。其中，样本数据，是包括样本关键词和样本关联语句的语义描述信息以及相应正负面样本标签的数据。在一个实施例中，正负面样本标签是根据政府的政策法规添加的。

具体地，服务器可以将每个舆情片段中包括的第一关键词和相应关联语句的语义描述信息，输入预先建立的情感分析模型中进行情感分析处理，输出舆情片段的正负面研判结果。可以理解，正负面研判结果可以为舆情片段属于正面情感信息或负面情感信息。

S214，根据各舆情片段的正负面研判结果，对目标对象进行异常识别。

在一个实施例中，步骤S214根据各舆情片段的正负面研判结果，对目标对象进行异常识别包括：针对每个舆情信息，根据该舆情信息所包括的舆情片段的正负面研判结果，对整个舆情信息进行评分；根据评分分值对舆情信息进行正负面评价处理，得到正负面评价结果；根据各舆情信息的正负面评价结果，对目标对象进行异常识别。

其中，正负面评价结果，是用于评价舆情信息是正面情感舆情还是负面情感舆情的描述信息。

可以理解，对目标对象进行异常识别后，可以输出异常识别结果。异常识别结果，是描述目标对象是否异常的结果。

具体地，针对每个舆情信息，服务器可以根据该舆情信息中各舆情片段的正负面研判结果，统计该舆情信息中包括的正面情感信息和负面情感信息的出现次数，根据正面情感信息和负面情感信息的出现次数，对该舆情信息进行评分。服务器可以将评分分值与预设的分值阈值进行比对，当评分分值大于或等于分值阈值，则得到舆情信息为正面情感舆情的评价结果，当评分分值小于分值阈值，则得到舆情信息为负面情感舆情的评价结果。进一步地，服务器可以根据各舆情信息的正负面评价结果，对目标对象进行异常识别。

在一个实施例中，服务器可以针对正面情感信息和负面情感信息分别预设相应的单次出现分值，将统计的正面情感信息和负面情感信息各自的出现次数，分别乘以相应的单次出现分值，得到正面情感信息的第一分值和负面情感信息的第二分值，将第一分值和第二分值相加，得到舆情信息的评分分值。单次出现分值，是正面情感信息或负面情感信息出现一次获得的分值。比如，单次正面情感信息的单次出现分值为20，正面情感信息的出现次数为4，单次负面情感信息的单次出现分值为-10，正面情感信息的出现次数为2，则20*4+(-10)*2＝60。可以理解，负面情感信息的单次出现分值也可以为正数，并不限定于为负数。

在另一个实施例中，服务器也可以预先设置正负次数差值和评分分值之间的对应关系。服务器可以根据正面情感信息的出现次数减去负面情感信息的出现次数，得到正负次数差值，根据上述对应关系，查找与得到的正负次数差值相对应的评分分值，作为舆情信息的评分分值。可以理解，评分分值的大小与正负次数差值大小正相关。比如，正负次数差值为2，舆情信息的评分分值为60分，正负次数差值为-1，则舆情信息的评分分值为40。

可以理解，越正面评分越高，反之，越负面，评分越低。

上述实施例中，以舆情片段为粒度，通过多个舆情片段的正负面研判结果来确定整个舆情信息的正负面评价结果，相较于笼统地对整个舆情信息进行评价而言，更加地准确。

在一个实施例中，根据各舆情信息的正负面评价结果，对目标对象进行异常识别包括：根据各舆情信息的正负面评价结果，得到舆情信息的情感正负比例；从预设的各比例区间中，确定情感正负比例所位于的比例区间；获取与比例区间对应设置的异常等级，得到目标对象的异常识别结果。

其中，异常识别结果，是描述目标对象是否异常的结果。可以理解，异常识别结果，包括目标对象的异常等级。

具体地，服务器可以从所有舆情信息中，确定属于正面情感舆情的舆情信息的第一数量，以及属于负面情感舆情的舆情信息的第二数量，根据第一数量与第二数量的比值，得到舆情信息的情感正负比例。服务器中预先设置了比例区域和异常等级之间的对应关系，服务器可以从预设的各比例区间中，确定情感正负比例所位于的比例区间，并根据该对应关系，获取与所确定的比例区间对应设置的异常等级，得到目标对象的异常识别结果。

在一个实施例中，当异常识别结果表示目标对象异常时，可以触发针对目标对象的告警信息。

上述实施例中，对舆情信息进一步地挖掘，确定出目标对象的舆情信息的情感正负比例，进而确定出目标对象的异常等级，提高了舆情信息表达的信息量。

图3为一个实施例中舆情信息的情感正负比例的示意图。参照图3，柱形条长短表示数量的多少，以第一个目标对象(即虐童主题事件)为例，柱形条长短表示数量的多少，总共有55937个舆情，通过柱形条的长短可以判断负面情感舆情的数量远远大于正面情感舆情的数量，情感正负比例悬殊，因此，可以确定“虐童主题事件”为异常的事件。那么，就可以针对“虐童主题事件”触发告警信息，以针对该异常事件采取相应的调查处理。

上述舆情分析方法，将目标对象的舆情信息中的关键词基于语义相似度进行聚类，那么，同一聚类下的关键词之间存在一定的语义相关性，对各舆情信息进行分段，从分段得到的每个舆情片段中识别第一关键词，从各舆情信息中，选取包括与第一关键词属于同一聚类下的第二关键词的舆情信息。由于，选取的舆情信息所包括的第二关键词与舆情片段所包括的第一关键词属于同一聚类，因此，选取的舆情信息在一定程度上与舆情片段具有语义相关性，因此可以作为舆情片段的关联语句。对关联语句进行语义分析，生成相应的语义描述信息；将每个舆情片段中包括的第一关键词和相应关联语句的语义描述信息，输入预先建立的情感分析模型中，输出舆情片段的正负面研判结果。即，将关键词和关联语句结合起来，能够准确地深入挖掘舆情片段背后所表达的情感信息。进而，根据各舆情片段的正负面研判结果，对目标对象进行异常识别，能够基于挖掘的舆情信息的情感信息，基于挖掘的情感信息进一步深入挖掘舆情信息，确定目标对象的异常与否，而不仅仅局限于舆情信息自身的表面言论，提高了舆情信息所表达的信息量。

在一个实施例中，该方法还包括：建立各舆情信息与所包括的关键词之间的关联关系。步骤S208针对每个舆情片段，选取包括与第一关键词属于同一聚类下的第二关键词的舆情信息，作为舆情片段的关联语句包括：针对每个舆情片段，从各舆情信息中，筛选出与第一关键词具有关联关系的舆情信息；从筛选出的舆情信息中，选取与第二关键词具有关联关系的舆情信息，作为舆情片段的关联语句；其中，第二关键词，是与第一关键词属于同一聚类下的、且除第一关键词以外的关键词。

具体地，针对每个舆情信息，服务器可以将该舆情信息与该舆情信息所包括的关键词之间建立关联关系。进一步地，针对每个舆情片段，服务器可以从各个舆情信息中，筛选出与舆情片段所包括的第一关键词具有关联关系的舆情信息。然后，服务器可以确定与第一关键词属于同一聚类下的、且除第一关键词以外的关键词，得到第二关键词，并从筛选出的舆情信息中，选取与第二关键词具有关联关系的舆情信息，作为舆情片段的关联语句。

为了便于理解，现举例说明。比如，舆情信息L1、L2、L3和L4，L1中包括关键词a、b、c和d，舆情信息L2，L2中包括关键词a、e、f和g，则可以将L1与关键词a、b、c和d之间分别建立关联关系，以及将L2与关键词a、e、f和g之间分别建立关联关系。L3中包括关键词a和h。L4中包括关键词i和j。可以理解，L3和L4也会和其所包括的关键词之间建立关联关系，这里不再一一说明。基于语义相似度对关键词进行聚类，得到a和f聚为一类。将舆情信息L1切分为舆情片段A、B和C，识别舆情片段A中包括关键词a(即第一关键词)，可以筛选出与关键词a具有关联关系的舆情信息L1、L2和L3，进一步地，从L1、L2和L3中，选取包括与关键词a属于同一聚类下的关键词f的舆情信息L2，因此，则可与将舆情信息L2作为舆情片段A的关联语句。

上述实施例中，基于舆情信息与关键词之间的关联关系，以及关键词与关键词之间的聚类关系，而不需要逐个舆情信息判定是否包括第二关键词，能够更加快速地确定出舆情片段的关联语句。

在一个实施例中，在步骤S204基于语义相似度对各关键词进行聚类之后，该方法还包括：从属于同一聚类的关键词中选取代表关键词；根据每一聚类的代表关键词构成词云；针对词云的每个代表关键词，确定包括与代表关键词属于同一聚类下的关键词的舆情信息，并建立代表关键词和确定的舆情信息之间的关联关系；输出词云至终端进行展示。

在一个实施例中，词云中的代表关键词，用于被触发时，进阶触发终端展示相应具有关联关系的舆情信息。

其中，代表关键词，是用于代表这一聚类的关键词。

在一个实施例中，服务器可以从同一聚类的关键词中随机选取一个关键词作为代表关键词。在另一个实施例中，服务器也可以统计同一聚类的各关键词的出现次数，选取出现次数最多的关键词作为代表关键词。

服务器可以根据每一聚类的代表关键词构成词云。在一个实施例中，服务器可以根据构成词云的各个代表关键词的出现次数的多少，对各个代表关键词进行区别性显示。其中，出现次数越多，代表关键词在词云中显示越突出。

图4即为一个实施例中词云示意图。参照图4，“南山”和“深圳速度”等各个词语即为代表关键词，由各个词语构成的即为词云。可以看见，代表关键词“南山”比“深圳速度”显示的更为突出，说明“南山”比“深圳速度”的出现次数更多。

本实施例中，服务器可以针对词云的每个代表关键词，可以先获取与该代表关键词属于同一聚类下的关键词，并确定包括该同一聚类下的关键词的舆情信息。服务器可以建立代表关键词和确定的舆情信息之间的关联关系。进一步地，服务器可以将词云输出至终端进行展示。用户可以基于所展示的词云，直观、简洁地了解目标对象的相关评价信息。用户可以对展示的词云中各代表关键词进行触发操作，终端在接收到对词云中的代表关键词的触发操作后，可以生成舆情信息请求发送至服务器，服务器可以根据该舆情信息请求，获取与被触发的代表关键词具有关联关系的舆情信息，并将获取的舆情信息返回至终端，以使终端展示该舆情信息。

其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。

同样以图4为例进行解释说明。比如，用户对“马拉松”进行触发操作，则可以展示与“马拉松”具有关联关系的舆情信息，即展示关于“马拉松”的舆情信息。

需要说明的是，“代表关键词”，是以聚类为维度确定的，是用于代表某一聚类的关键词。而“第一关键词”和“第二关键词”是以舆情片段为维度确定的，针对每个舆情片段而言，该舆情片段中包括的关键词即为第一关键词，与该第一关键词属于同一聚类下的关键词，即为第二关键词。因此，“代表关键词”、与“第一关键词”和“第二关键词”之间没有必然关系，是根据不同维度确定的，如果舆情片段中包括的“第一关键词”满足作为“代表关键词”的条件，则该“第一关键词”就可以是其所属聚类下的“代表关键词”，如果与舆情片段包括的“第一关键词”所属聚类下的某个“第二关键词”满足作为“代表关键词”的条件，则这个“第二关键词”就可以是其所属聚类下的“代表关键词”。

上述实施例中，根据代表关键词建立词云，建立代表关键词和确定的舆情信息之间的关联关系；其中，词云中的代表关键词，用于被触发时，进阶触发终端展示相应具有关联关系的舆情信息。通过词云、以及词云与舆情信息之间的关联关系，能够更加直观地对舆情信息进行统计展示。

在一个实施例中，该方法还包括：获取预设的各个热度统计时间点；确定目标对象的各舆情信息在各个热度统计时间点的子热度值；根据对应于同一热度统计时间点的子热度值，得到目标对象对应于热度统计时间点的热度值；根据各热度统计时间点和目标对象对应于各热度统计时间点的热度值，以时间为维度描述目标对象热度变化趋势。

其中，热度统计时间点，是用于进行热度统计的时间节点。

具体地，针对每个热度统计时间点，服务器可以将目标对象的每个舆情信息分别进行热度计算，得到每个舆情信息的子热度值，服务器可以将对应于同一热度统计时间点的各个子热度值直接求和或者加权求和，得到在热度统计时间点下目标对象的热度值。服务器可以根据各热度统计时间点和目标对象对应于各热度统计时间点的热度值，以时间为维度描述目标对象热度变化趋势。

在一个实施例中，服务器可以生成以时间为维度描述目标对象热度变化趋势的热度趋势图，并输出该热度趋势图至终端，以指示该终端展示该热度趋势图。

图5为一个实施例中热度趋势图的示意图。参照图5，目标对象为“第十九届高交会”，11月18日、11月19日等都属于热度统计时间点，从图5中可以看出，目标对象“第十九届高交会”的热度变化趋势为：11月18日到11月19日呈热度上升趋势，从11月19日起逐渐呈热度下降趋势。

上述实施例中，根据舆情信息的子热度值，确定出目标对象对应于各热度统计时间点的热度值，并根据各热度统计时间点和目标对象对应于各热度统计时间点的热度值，以时间为维度描述目标对象热度变化趋势。相当于，通过对舆情信息的进一步挖掘，挖掘出目标对象的热度和该目标对象热度变化趋势，进一步提高了舆情信息所表达的信息量。

在一个实施例中，目标对象为商事主体。该方法还包括：分析目标对象的各舆情信息之间的语义相似度；将语义相似度达到预设相似度阈值的舆情信息聚类成一个事件；获取同一事件中各舆情信息的产生时间点；针对每个事件，将该事件中各舆情信息的产生时间点在时间轴上进行标记，并建立该事件中与所述产生时间点相应的舆情信息与所述各产生时间点的标记位置之间的关联显示关系。

其中，产生时间点，是舆情信息产生的时间节点。

具体地，服务器可以采用语义分析算法，确定目标对象的各舆情信息之间的语义相似度。服务器可以将确定的语义相似度与预设相似度阈值进行比对，将语义相似度达到预设相似度阈值的舆情信息聚类成一个事件。服务器可以进一步地获取同一事件中各舆情信息的产生时间点。服务器可以针对每个事件，将该事件中各舆情信息的产生时间点在时间轴上进行标记，并将该事件中与所述产生时间点相应的舆情信息与各产生时间点的标记位置之间建立关联显示关系。可以理解，该关联显示关系，用于在显示同一事件的舆情信息的产生时间点时，将该事件中与所述产生时间点相应的舆情信息对应于相应产生时间点的标记位置进行关联显示。

在一个实施例中，服务器可以将标记事件中各舆情信息的产生时间点的时间轴，以及与各产生时间点的标记位置之间具有关联显示关系的舆情信息输出至终端，以指示终端在时间轴上显示该事件中各舆情信息的产生时间点，以及对应于时间轴上相应产生时间点的标记位置，关联显示该事件中与该产生时间点相应的舆情信息。

上述实施例中，将语义相似度达到预设相似度阈值的舆情信息聚类成一个事件，针对每个事件，将该事件中各舆情信息的产生时间点在时间轴上进行标记，并建立该事件中与所述产生时间点相应的舆情信息与所述各产生时间点的标记位置之间的关联显示关系。即通过对舆情信息的进一步挖掘，聚类成一个事件，提高了舆情信息的信息表达量。此外，以时间维度对事件的舆情信息进行关联显示，能够更加直观、准确地对事件进行分析。

在一个实施例中，后台服务器还可以通过建立舆情分类模型对舆情进行分类，为同一类舆情打上一个分类标签。通过标签分类，可以帮助政府快速了解舆情关键信息，定位问题所在。

在一个实施例中，后台服务器还可以获取舆情所对应的发布来源和发布时间节点，按照发布时间节点的先后顺序，将发布和转载该舆情的发布来源进行标示，以生成舆情传播途径图。

在一个实施例中，后台服务器还可以获取舆情在各个发布来源下的热度，并将热度与发布来源关联显示于舆情传播途径图中。

可以理解，发布来源，包括首次发布和后续转载发布的来源。发布时间节点包括首次发布和后续转载发布的时间。

需要说明的是，舆情传播途径图可以直观地反映舆情在传播过程中，通过哪些渠道传播热度升高逐渐对人们产生影响，最终又是怎样慢慢脱出人们视野。传播途径分析，可以帮助政府部门更好的监控舆情传播的各个环节。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种舆情分析装置600，包括：关键词识别模块602、聚类模块604、关联语句确定模块606以及舆情分析模块608，其中：

关键词识别模块602，用于识别目标对象的各舆情信息中包括的关键词。

聚类模块604，用于基于语义相似度对各关键词进行聚类。

关联语句确定模块606，用于对各舆情信息进行分段，从分段得到的每个舆情片段中识别第一关键词；针对每个舆情片段，选取包括与第一关键词属于同一聚类下的第二关键词的舆情信息，作为舆情片段的关联语句。

舆情分析模块608，用于对关联语句进行语义分析，生成相应的语义描述信息；将每个舆情片段中包括的第一关键词和相应关联语句的语义描述信息，输入预先建立的情感分析模型中，输出舆情片段的正负面研判结果；根据各舆情片段的正负面研判结果，对目标对象进行异常识别。

在一个实施例中，关联语句确定模块606还用于建立各舆情信息与所包括的关键词之间的关联关系；针对每个舆情片段，从各舆情信息中，筛选出与第一关键词具有关联关系的舆情信息；从筛选出的舆情信息中，选取与第二关键词具有关联关系的舆情信息，作为舆情片段的关联语句。

其中，第二关键词，是与第一关键词属于同一聚类下的、且除第一关键词以外的关键词。

如图7所示，在一个实施例中，该装置600还包括：

词云生成模块610，用于从属于同一聚类的关键词中选取代表关键词；根据每一聚类的代表关键词构成词云；针对词云的每个代表关键词，确定包括与代表关键词属于同一聚类下的关键词的舆情信息，并建立代表关键词和确定的舆情信息之间的关联关系；输出词云至终端进行展示。

在一个实施例中，舆情分析模块608还用于针对每个舆情信息，根据舆情信息所包括的舆情片段的正负面研判结果，对整个舆情信息进行评分；根据评分分值对舆情信息进行正负面评价处理，得到正负面评价结果；根据各舆情信息的正负面评价结果，对目标对象进行异常识别。

在一个实施例中，舆情分析模块608还用于根据各舆情信息的正负面评价结果，得到舆情信息的情感正负比例；从预设的各比例区间中，确定情感正负比例所位于的比例区间；获取与比例区间对应设置的异常等级，得到目标对象的异常识别结果。

在一个实施例中，该装置600还包括：

热度趋势确定模块(图中未示出)，用于获取预设的各个热度统计时间点；确定目标对象的各舆情信息在各个热度统计时间点的子热度值；根据对应于同一热度统计时间点的子热度值，得到目标对象对应于热度统计时间点的热度值；根据各热度统计时间点和目标对象对应于各热度统计时间点的热度值，以时间为维度描述目标对象热度变化趋势。

在一个实施例中，目标对象为商事主体。该装置600还包括：

事件分析模块(图中未示出)，用于分析目标对象的各舆情信息之间的语义相似度；将语义相似度达到预设相似度阈值的舆情信息聚类成一个事件；获取同一事件中各舆情信息的产生时间点；针对每个事件，将事件中各舆情信息的产生时间点在时间轴上进行标记，并建立事件中与产生时间点相应的舆情信息与各产生时间点的标记位置之间的关联显示关系。

关于舆情分析装置的具体限定可以参见上文中对于舆情分析方法的限定，在此不再赘述。上述舆情分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是图1中的服务器110，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质可存储操作系统和计算机程序。该计算机程序被执行时，可使得处理器执行一种舆情分析方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该内存储器中可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行一种舆情分析方法。计算机设备的网络接口用于进行网络通信。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述舆情分析方法的步骤。此处舆情分析方法的步骤可以是上述各个实施例的舆情分析方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述舆情分析方法的步骤。此处舆情分析方法的步骤可以是上述各个实施例的舆情分析方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种舆情分析方法，所述方法包括：

识别目标对象的各舆情信息中包括的关键词；

基于语义相似度对各所述关键词进行聚类；

对所述关联语句进行语义分析，生成相应的语义描述信息；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

建立各舆情信息与所包括的关键词之间的关联关系；

3.根据权利要求2所述的方法，其特征在于，在所述基于语义相似度对各所述关键词进行聚类之后，所述方法还包括：

从属于同一聚类的关键词中选取代表关键词；

根据每一聚类的代表关键词构成词云；

输出所述词云至终端进行展示。

4.根据权利要求1所述的方法，其特征在于，所述根据各舆情片段的正负面研判结果，对目标对象进行异常识别包括：

5.根据权利要求4所述的方法，其特征在于，所述根据各舆情信息的正负面评价结果，对目标对象进行异常识别包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取预设的各个热度统计时间点；

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述目标对象为商事主体；所述方法还包括：

分析目标对象的各舆情信息之间的语义相似度；

获取同一事件中各舆情信息的产生时间点；

8.一种舆情分析装置，其特征在于，所述装置包括：

聚类模块，用于基于语义相似度对各所述关键词进行聚类；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。