CN109446329B - 一种舆情分析的热点识别方法 - Google Patents

一种舆情分析的热点识别方法 Download PDF

Info

Publication number
CN109446329B
CN109446329B CN201811328243.2A CN201811328243A CN109446329B CN 109446329 B CN109446329 B CN 109446329B CN 201811328243 A CN201811328243 A CN 201811328243A CN 109446329 B CN109446329 B CN 109446329B
Authority
CN
China
Prior art keywords
hot
word
topic
text
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811328243.2A
Other languages
English (en)
Other versions
CN109446329A (zh
Inventor
童友俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Hanwen Information Co ltd
Original Assignee
Dalian Hanwen Information Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Hanwen Information Co ltd filed Critical Dalian Hanwen Information Co ltd
Priority to CN201811328243.2A priority Critical patent/CN109446329B/zh
Publication of CN109446329A publication Critical patent/CN109446329A/zh
Application granted granted Critical
Publication of CN109446329B publication Critical patent/CN109446329B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种舆情分析的热点识别方法。本发明包括:通过计算文本中各词向量集群间的距离,得到各词向量间的关系赋值;根据关系赋值计算其他词与原向量间的关系的相似概率模型,进而得到热点话题词组,对各个热词的tf‑idf值进行排列,将每个热点话题词组下的热词进行真实热度排序,根据热词话题的词数进行回溯文本监测计算,计算后若无法获得聚类下热词对应的热点话题,则根据热度排序减少热词数量直至获得包含全部热词聚类的热点话题。本发明不依赖常见热点识别模型中对舆情的评论量、转发量等热度直接参考指标,舆情热点识别的效率与效果都大大增强。

Description

一种舆情分析的热点识别方法
技术领域
本发明涉及大数据热点挖掘技术领域,具体而言,尤其涉及一种舆情分析的热点识别方法。
背景技术
市面上现有的有关舆情分析的热点识别方法,主要依赖于微博及微信公众号文章作为信息源。其热点的判断依赖于微博的评论、转发、点赞数或文章的浏览量、点赞量等明显含有关注热度标签的参数进行热点识别。
而在整个世界的范围内,舆情信息除社交媒体及自媒体外,新闻及新闻评论仍是舆情的重要来源。而很多新闻媒体源的浏览数难以获得。在无法获取热度直接标签的情况下,就难以进行热点识别,进而在市面上常见的舆情分析方法中,基本都排除了新闻媒体源等更官方正式的舆情来源,都聚集在社交媒体及自媒体的范围内。
发明内容
根据上述提出的技术问题,而提供一种舆情分析的热点识别方法。
本发明采用的技术手段如下:
一种舆情分析的热点识别方法,包括如下步骤:
S1、通过计算文本中各词向量集群间的距离,得到各词向量间的关系赋值;
S2、将各词与其所在文本进行多维向量降维处理,根据关系赋值计算其他词与原向量间的关系的相似概率模型,通过所述相似概率模型将各词向量集合聚类,得到高维向量聚合,即热点话题词组;
S3、根据模型生成的热点话题词组,对各个热词的tf-idf值进行排列,将每个热点话题词组下的热词进行真实热度排序,根据热词话题的词数进行回溯文本监测计算,计算后若无法获得聚类下热词对应的热点话题,则根据热度排序减少热词数量直至获得包含全部热词聚类的热点话题。
进一步地,通过如下方式提高相似概率模型的准确度:根据得到的向量距离及与原文本间的概率值,进行比较,人工识别其判断更符合真实情况,进行反馈确认,通过多次迭代反馈,提高模型热词聚类的效率及准确度。
进一步地,所述步骤S2中,通过如下公式构建热词识别模型:
Figure GDA0003331790620000021
Figure GDA0003331790620000022
Figure GDA0003331790620000023
其中,k表示话题数,w表示文本有效词量,xij表示j篇文本中第i个词,zij为xij对应的热点话题,Wij表示xij所在的词集,Zij表示Wij所对应的热点话题,
Figure GDA0003331790620000024
表示w在所分配主题k下的个数,
Figure GDA0003331790620000025
表示j文本中包含主题k的个数,θkj表示主题分布集合α的共轭,
Figure GDA0003331790620000026
表示主题分布集合β的共轭。
进一步地,所述步骤S3中,tf-idf统计方式具体为:
通过如下公式计算逆文本频率idf:
idf=log(D/Dw),
其中,将各语料设为w1,w2,w3,...,wn,D为全部文章数,Dw为语料出现的次数;
整体的tf-idf计算规则为:
Figure GDA0003331790620000027
Figure GDA0003331790620000028
Figure GDA0003331790620000031
其中,TF(w)表示各词在语料库的词频,I(w)表示信息查询中关键词的信息量,N表示整个语料库的大小,P(w)表示语料库中有效信息的逆文本信息量,M表示w语料所在的文章的全部集合。
进一步地,通过如下公式进行回溯文本监测计算:
sym KL=(CΘ||CΦ)+KL(CΘ||CΦ)
其中,symKL表示文本各热词与热点话题的联系关系,C表示热词矩阵Φ,CΘ为CΦ的奇异值分布。CΘ与CΦ都为按排序顺序排列以便预测相应的主题分配。
较现有技术相比,本发明具有以下优点:
本发明不依赖常见热点识别模型中对舆情的评论量、转发量等热度直接参考指标。模型仅针对舆情信息本身进行热度分析,可涵盖大多数舆情监测源,对监测源的要求大大降低。本发明不仅可对每条舆情信息进行热度处理。并可跨监测源跨时间的对各个舆情信息进行综合热点排序识别。将舆情热点识别的效率与效果都大大增强。
基于上述理由本发明可在大数据热点挖掘技术领域广泛推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种小语种国家舆情分析的热点识别方法流程图。
图2为本发明将一天内的舆情信息进行话题提取热度计算后的可视化展示。
图3为本发明对三小时内更新的舆情信息实时进行热点识别,得到的热度前五的舆情信息展示。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如图1所示,本发明提供了一种舆情分析的热点识别方法,其特征在于,包括如下步骤:
S1、通过计算文本中各词向量集群间的距离,得到各词向量间的关系赋值;
S2、将各词与其所在文本进行多维向量降维处理,根据关系赋值计算其他词与原向量间的关系的相似概率模型,通过所述相似概率模型将各词向量集合聚类,得到高维向量聚合,即热点话题词组;
通过如下公式构建热词识别模型:
Figure GDA0003331790620000041
Figure GDA0003331790620000042
Figure GDA0003331790620000051
其中,k表示话题数,w表示文本有效词量,xij表示j篇文本中第i个词,zij为xij对应的热点话题,Wij表示xij所在的词集,Zij表示Wij所对应的热点话题,
Figure GDA0003331790620000052
表示w在所分配主题k下的个数,
Figure GDA0003331790620000053
表示j文本中包含主题k的个数,θkj表示主题分布集合α的共轭,
Figure GDA0003331790620000054
表示主题分布集合β的共轭。
S3、根据模型生成的热点话题词组,对各个热词的tf-idf值进行排列,将每个热点话题词组下的热词进行真实热度排序,根据热词话题的词数进行回溯文本监测计算,计算后若无法获得聚类下热词对应的热点话题,则根据热度排序减少热词数量直至获得包含全部热词聚类的热点话题。
tf-idf统计方式具体为:
通过如下公式计算逆文本频率idf:
idf=log(D/Dw),
其中,将各语料设为w1,w2,w3,...,wn,D为全部文章数,Dw为语料出现的次数;
整体的tf-idf计算规则为:
Figure GDA0003331790620000055
Figure GDA0003331790620000056
Figure GDA0003331790620000057
其中,TF(w)表示各词在语料库的词频,I(w)表示信息查询中关键词的信息量,N表示整个语料库的大小,P(w)表示语料库中有效信息的逆文本信息量,M表示w语料所在的文章的全部集合。
通过如下公式进行回溯文本监测计算:
sym KL=(CΘ||CΦ)+KL(CΘ||CΦ)
其中,symKL表示文本各热词与热点话题的联系关系,C表示热词矩阵Φ,CΘ为CΦ的奇异值分布。CΘ与CΦ都为按排序顺序排列以便预测相应的主题分配。
通过如下方式提高相似概率模型的准确度:根据得到的向量距离及与原文本间的概率值,进行比较,人工识别其判断更符合真实情况,进行反馈确认,通过多次迭代反馈,提高模型热词聚类的效率及准确度。
本实施例中,将小语种国家的舆情信息进行热点识别,首先需要对获取到的全部舆情信息进行翻译并分词及数据处理得到符合热点识别模型条件的原始文本源。继而通过本发明描述的方法进行热点识别,得到的结果即如图2图3所示,可以直接展示热点舆情信息,也可以提炼出热点话题并赋予其热度指标进行可视化展示。本发明可将舆情监测范围大大提高,不仅可监测国内信息及国外英文信息源,各小语种国家的信息都可被该模型进行实时监测分析。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (4)

1.一种舆情分析的热点识别方法,其特征在于,包括如下步骤:
S1、通过计算文本中各词向量集群间的距离,得到各词向量间的关系赋值;
S2、将各词与其所在文本进行多维向量降维处理,根据关系赋值计算其他词与原向量间的关系的相似概率模型,通过所述相似概率模型将各词向量集合聚类,得到高维向量聚合,即热点话题词组;
S3、根据模型生成的热点话题词组,对各个热词的tf-idf值进行排列,将每个热点话题词组下的热词进行真实热度排序,根据热词话题的词数进行回溯文本监测计算,计算后若无法获得聚类下热词对应的热点话题,则根据热度排序减少热词数量直至获得包含全部热词聚类的热点话题;
所述步骤S2中,通过如下公式构建热词识别模型:
Figure FDA0003331790610000011
Figure FDA0003331790610000012
Figure FDA0003331790610000013
其中,k表示话题数,w表示文本有效词量,xij表示j篇文本中第i个词,zij为xij对应的热点话题,Wij表示xij所在的词集,Zij表示Wij所对应的热点话题,
Figure FDA0003331790610000014
表示j在所分配主题k下的个数,
Figure FDA0003331790610000015
表示v文本中包含主题k的个数,θkj表示主题分布集合α的共轭,
Figure FDA0003331790610000016
表示主题分布集合β的共轭。
2.根据权利要求1所述的舆情分析的热点识别方法,其特征在于,通过如下方式提高相似概率模型的准确度:根据得到的向量距离及与原文本间的概率值,进行比较,人工识别其判断更符合真实情况,进行反馈确认,通过多次迭代反馈,提高模型热词聚类的效率及准确度。
3.根据权利要求1所述的舆情分析的热点识别方法,其特征在于,所述步骤S3中,tf-idf统计方式具体为:
通过如下公式计算逆文本频率idf:
idf=log(D/Dw),
其中,将各语料设为w1,w2,w3,...,wn,D为全部文章数,Dw为语料出现的次数;
整体的tf-idf计算规则为:
Figure FDA0003331790610000021
Figure FDA0003331790610000022
Figure FDA0003331790610000023
其中,TF(w)表示各词在语料库的词频,I(w)表示信息查询中关键词的信息量,N表示整个语料库的大小,P(w)表示语料库中有效信息的逆文本信息量,M表示w语料所在的文章的全部集合。
4.根据权利要求3所述的舆情分析的热点识别方法,通过如下公式进行回溯文本监测计算:
symKL=KL(CΘ||CΦ)+KL(CΘ||CΦ)
其中,symKL表示文本各热词与热点话题的联系关系,C Φ 表示热词矩阵,C Θ 为C Φ 的奇异值分布,C Θ 与C Φ 都为按排序顺序排列以便预测相应的主题分配。
CN201811328243.2A 2018-11-08 2018-11-08 一种舆情分析的热点识别方法 Active CN109446329B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811328243.2A CN109446329B (zh) 2018-11-08 2018-11-08 一种舆情分析的热点识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811328243.2A CN109446329B (zh) 2018-11-08 2018-11-08 一种舆情分析的热点识别方法

Publications (2)

Publication Number Publication Date
CN109446329A CN109446329A (zh) 2019-03-08
CN109446329B true CN109446329B (zh) 2022-02-22

Family

ID=65552028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811328243.2A Active CN109446329B (zh) 2018-11-08 2018-11-08 一种舆情分析的热点识别方法

Country Status (1)

Country Link
CN (1) CN109446329B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110069635A (zh) * 2019-04-30 2019-07-30 秒针信息技术有限公司 一种热度词的确定方法及装置
CN110334356B (zh) * 2019-07-15 2023-08-04 腾讯科技(深圳)有限公司 文章质量的确定方法、文章筛选方法、以及相应的装置
CN112434126B (zh) * 2019-08-08 2022-12-13 中移(苏州)软件技术有限公司 一种信息处理方法、装置、设备和存储介质
CN111414550A (zh) * 2019-11-07 2020-07-14 成都国腾实业集团有限公司 基于灰色关联分析的网络舆情热度值定量识别方法
CN113127611B (zh) * 2019-12-31 2024-05-14 北京中关村科金技术有限公司 对问句语料进行处理的方法、装置以及存储介质
CN111475601A (zh) * 2020-04-09 2020-07-31 云南电网有限责任公司电力科学研究院 一种电力工单热点主题获取方法及装置
CN112084298A (zh) * 2020-07-31 2020-12-15 北京明略昭辉科技有限公司 基于快速btm的舆情主题处理方法和装置
CN112749341B (zh) * 2021-01-22 2024-03-29 南京莱斯网信技术研究院有限公司 重点舆情推荐方法、可读存储介质及数据处理装置
CN116861063B (zh) * 2023-06-07 2024-02-27 广州数说故事信息科技有限公司 一种发掘社媒热搜商业价值度的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577501A (zh) * 2012-08-10 2014-02-12 深圳市世纪光速信息技术有限公司 热点话题搜索系统及热点话题搜索方法
CN107153658A (zh) * 2016-03-03 2017-09-12 常州普适信息科技有限公司 一种基于关键字加权算法的舆情热词发现方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9430563B2 (en) * 2012-02-02 2016-08-30 Xerox Corporation Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space
CN105224608B (zh) * 2015-09-06 2019-04-09 华南理工大学 基于微博数据分析的热点新闻预测方法及系统
CN107193797B (zh) * 2017-04-26 2020-08-18 天津大学 中文微博的热点话题检测及趋势预测方法
CN107885793A (zh) * 2017-10-20 2018-04-06 江苏大学 一种微博热点话题分析预测方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577501A (zh) * 2012-08-10 2014-02-12 深圳市世纪光速信息技术有限公司 热点话题搜索系统及热点话题搜索方法
CN107153658A (zh) * 2016-03-03 2017-09-12 常州普适信息科技有限公司 一种基于关键字加权算法的舆情热词发现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向公共危机预警的网络舆情分析研究;董坚峰;《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》;20140515;第3.32主题聚类法以及第4.1章公共危机舆情话题发现模式 *

Also Published As

Publication number Publication date
CN109446329A (zh) 2019-03-08

Similar Documents

Publication Publication Date Title
CN109446329B (zh) 一种舆情分析的热点识别方法
CN110297988B (zh) 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
US10019515B2 (en) Attribute-based contexts for sentiment-topic pairs
CN104504150B (zh) 新闻舆情监测系统
Barbosa et al. Robust sentiment detection on twitter from biased and noisy data
Hu et al. Unsupervised sentiment analysis with emotional signals
CN106294677B (zh) 一种面向英文文献中中国作者的姓名消歧方法
WO2018040068A1 (zh) 基于知识图谱的语意分析系统及方法
CN106778862B (zh) 一种信息分类方法及装置
CN112632228A (zh) 一种基于文本挖掘的辅助评标方法及系统
CN104881458B (zh) 一种网页主题的标注方法和装置
CN108664538B (zh) 一种输变电设备疑似家族性缺陷的自动辨识方法及系统
US11004096B2 (en) Buy intent estimation and its applications for social media data
CN104077407B (zh) 一种智能数据搜索系统及方法
Ahlgren Research on sentiment analysis: the first decade
Chumwatana Using sentiment analysis technique for analyzing Thai customer satisfaction from social media
CN111814486A (zh) 一种基于语义分析的企业客户标签生成方法、系统及装置
Sun et al. Applying Stylometric Analysis Techniques to Counter Anonymity in Cyberspace.
US20160283582A1 (en) Device and method for detecting similar text, and application
CN107688621B (zh) 一种文案的优化方法和系统
Bachtiar et al. Text Mining for Aspect Based Sentiment Analysis on Customer Review: A Case Study in the Hotel Industry.
Negara et al. Topic modeling using latent dirichlet allocation (LDA) on twitter data with Indonesia keyword
CN112487306B (zh) 基于知识图谱的自动化事件标记与分类方法
Akkuş et al. Categorization of turkish news documents with morphological analysis
Song et al. Extracting product features from online reviews for sentimental analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant