CN109446329B

CN109446329B - 一种舆情分析的热点识别方法

Info

Publication number: CN109446329B
Application number: CN201811328243.2A
Authority: CN
Inventors: 童友俊
Original assignee: Dalian Hanwen Information Co ltd
Current assignee: Dalian Hanwen Information Co ltd
Priority date: 2018-11-08
Filing date: 2018-11-08
Publication date: 2022-02-22
Anticipated expiration: 2038-11-08
Also published as: CN109446329A

Abstract

本发明提供一种舆情分析的热点识别方法。本发明包括：通过计算文本中各词向量集群间的距离，得到各词向量间的关系赋值；根据关系赋值计算其他词与原向量间的关系的相似概率模型，进而得到热点话题词组，对各个热词的tf‑idf值进行排列，将每个热点话题词组下的热词进行真实热度排序，根据热词话题的词数进行回溯文本监测计算，计算后若无法获得聚类下热词对应的热点话题，则根据热度排序减少热词数量直至获得包含全部热词聚类的热点话题。本发明不依赖常见热点识别模型中对舆情的评论量、转发量等热度直接参考指标，舆情热点识别的效率与效果都大大增强。

Description

一种舆情分析的热点识别方法

技术领域

本发明涉及大数据热点挖掘技术领域，具体而言，尤其涉及一种舆情分析的热点识别方法。

背景技术

市面上现有的有关舆情分析的热点识别方法，主要依赖于微博及微信公众号文章作为信息源。其热点的判断依赖于微博的评论、转发、点赞数或文章的浏览量、点赞量等明显含有关注热度标签的参数进行热点识别。

而在整个世界的范围内，舆情信息除社交媒体及自媒体外，新闻及新闻评论仍是舆情的重要来源。而很多新闻媒体源的浏览数难以获得。在无法获取热度直接标签的情况下，就难以进行热点识别，进而在市面上常见的舆情分析方法中，基本都排除了新闻媒体源等更官方正式的舆情来源，都聚集在社交媒体及自媒体的范围内。

发明内容

根据上述提出的技术问题，而提供一种舆情分析的热点识别方法。

本发明采用的技术手段如下：

一种舆情分析的热点识别方法，包括如下步骤：

S1、通过计算文本中各词向量集群间的距离，得到各词向量间的关系赋值；

S2、将各词与其所在文本进行多维向量降维处理，根据关系赋值计算其他词与原向量间的关系的相似概率模型，通过所述相似概率模型将各词向量集合聚类，得到高维向量聚合，即热点话题词组；

S3、根据模型生成的热点话题词组，对各个热词的tf-idf值进行排列，将每个热点话题词组下的热词进行真实热度排序，根据热词话题的词数进行回溯文本监测计算，计算后若无法获得聚类下热词对应的热点话题，则根据热度排序减少热词数量直至获得包含全部热词聚类的热点话题。

进一步地，通过如下方式提高相似概率模型的准确度：根据得到的向量距离及与原文本间的概率值，进行比较，人工识别其判断更符合真实情况，进行反馈确认，通过多次迭代反馈，提高模型热词聚类的效率及准确度。

进一步地，所述步骤S2中，通过如下公式构建热词识别模型：

其中，k表示话题数，w表示文本有效词量，xij表示j篇文本中第i个词，zij为xij对应的热点话题，W_ij表示xij所在的词集，Z_ij表示W_ij所对应的热点话题，

表示w在所分配主题k下的个数，

表示j文本中包含主题k的个数，θ_kj表示主题分布集合α的共轭，

表示主题分布集合β的共轭。

进一步地，所述步骤S3中，tf-idf统计方式具体为：

通过如下公式计算逆文本频率idf：

idf＝log(D/D_w)，

其中，将各语料设为w₁,w₂,w₃,...,w_n，D为全部文章数，D_w为语料出现的次数；

整体的tf-idf计算规则为：

其中，TF(w)表示各词在语料库的词频，I(w)表示信息查询中关键词的信息量，N表示整个语料库的大小，P(w)表示语料库中有效信息的逆文本信息量，M表示w语料所在的文章的全部集合。

进一步地，通过如下公式进行回溯文本监测计算：

sym KL＝(C_Θ||C_Φ)+KL(C_Θ||C_Φ)

其中，symKL表示文本各热词与热点话题的联系关系，C表示热词矩阵Φ，CΘ为CΦ的奇异值分布。CΘ与CΦ都为按排序顺序排列以便预测相应的主题分配。

较现有技术相比，本发明具有以下优点：

本发明不依赖常见热点识别模型中对舆情的评论量、转发量等热度直接参考指标。模型仅针对舆情信息本身进行热度分析，可涵盖大多数舆情监测源，对监测源的要求大大降低。本发明不仅可对每条舆情信息进行热度处理。并可跨监测源跨时间的对各个舆情信息进行综合热点排序识别。将舆情热点识别的效率与效果都大大增强。

基于上述理由本发明可在大数据热点挖掘技术领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种小语种国家舆情分析的热点识别方法流程图。

图2为本发明将一天内的舆情信息进行话题提取热度计算后的可视化展示。

图3为本发明对三小时内更新的舆情信息实时进行热点识别，得到的热度前五的舆情信息展示。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，本发明提供了一种舆情分析的热点识别方法，其特征在于，包括如下步骤：

通过如下公式构建热词识别模型：

表示w在所分配主题k下的个数，

表示主题分布集合β的共轭。

tf-idf统计方式具体为：

通过如下公式计算逆文本频率idf：

idf＝log(D/D_w)，

整体的tf-idf计算规则为：

通过如下公式进行回溯文本监测计算：

sym KL＝(C_Θ||C_Φ)+KL(C_Θ||C_Φ)

通过如下方式提高相似概率模型的准确度：根据得到的向量距离及与原文本间的概率值，进行比较，人工识别其判断更符合真实情况，进行反馈确认，通过多次迭代反馈，提高模型热词聚类的效率及准确度。

本实施例中，将小语种国家的舆情信息进行热点识别，首先需要对获取到的全部舆情信息进行翻译并分词及数据处理得到符合热点识别模型条件的原始文本源。继而通过本发明描述的方法进行热点识别，得到的结果即如图2图3所示，可以直接展示热点舆情信息，也可以提炼出热点话题并赋予其热度指标进行可视化展示。本发明可将舆情监测范围大大提高，不仅可监测国内信息及国外英文信息源，各小语种国家的信息都可被该模型进行实时监测分析。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。