CN110516067B

CN110516067B - 基于话题检测的舆情监控方法、系统及存储介质

Info

Publication number: CN110516067B
Application number: CN201910782171.7A
Authority: CN
Inventors: 肖克晶; 左敏; 王晨萌; 张青川
Original assignee: Renmin University of China; Beijing Technology and Business University
Current assignee: Renmin University of China; Beijing Technology and Business University
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2022-02-11
Anticipated expiration: 2039-08-23
Also published as: CN110516067A

Abstract

本发明涉及一种基于话题检测的舆情监控方法、系统及存储介质，该方法包括：S1、获取热门网站上某一特定主题相关的新闻数据，并对获取的新闻数据进行预处理；S2、提取新闻数据的关键词和命名实体构成联合特征集合，并使用标题语义更新其权重，以表示新闻，对新闻表示进行聚类以确定热点话题，并提取热点话题的相关词进行展示；S3、对于热点话题，判断同一话题下的网民评论的整体情感倾向性，作为判断事件舆情严重程度的依据，采用基于依存关系的情感识别方法对同一话题下的新闻评论数据进行分析，获得细粒度的情感分析结果；S4、对不同话题对应的话题热度和情感倾向性进行分析，获得针对性地控制舆情方案。本发明提高了话题检测的准确度。

Description

基于话题检测的舆情监控方法、系统及存储介质

技术领域

本发明是关于一种基于话题检测的舆情监控方法、系统、计算机程序及计算机可读存储介质，涉及自然语言处理技术领域。

背景技术

随着互联网技术的不断发展，网络已经逐渐超越了传统报纸、电视、广播等，成为人们获取新闻的主要途径。互联网上每天都会产生大量的新闻，这些新闻通常都是对某一事件的报道，其中就包含了一些潜在热点事件。由于网络具有很强的传播性，所以一旦某潜在热点事件经过网络传播以后，就可能转变为热点事件。随着PC、移动设备的兴起，网民可以便捷地在网络上发表自己对某个新闻的看法，这些带有主观情感的评论又会对网络舆情起到推波助澜的效果，进而引起更大的负面舆情。如果有关部门不能及时发现这些潜在的热点事件，判断舆情发展趋势并及时采取应对措施，则有可能导致严重的舆情危机、影响社会稳定，甚至造成巨大的经济损失和信任危机。例如食品安全、环境污染等事件被网络曝光以后，都在短时间内引起了网民的广泛关注、猜测和质疑，并引起了网络舆情的爆发。

目前网络新闻报道通常来说形式各异，并且分散在不同的平台，所以很难将不同报道形式、不同平台上描述同一事件的新闻组织起来，以识别潜在的热点事件。因此迫切需要采取一定的技术手段，快捷、准确地从海量的网络新闻中获取潜在的热点事件，帮助有关部门及时地采取措施应对舆情的爆发，减少由此造成的信任危机和经济损失。

传统的舆情监控方法通常是针对已知事件分析其发展趋势，但是现实情况中，事件通常是未知的，因此需要采取一定的方法进行事件检测。并且已有的舆情监控和趋势预测方法仅仅通过新闻发布、转发、评论数量判断一个事件的热度和发展趋势，而忽略了网民评价内容对舆情发展的作用。在话题检测方面，已有的方法大多数是基于关键词抽取和文本聚类方法，关键词抽取过程通常使用TF-IDF，但是这种方法存在以下缺陷：(1)得到的特征较为稀疏，向量维度过大，计算效率不高，不能很好地满足话题检测时效性的要求；(2)不能针对性地挑选出有价值的词语获得更好的文本表示，而事件报道类新闻一般有其自身的特点，通常会涉及时间、地点、人物、组织机构名等命名实体，构成了事件的关键要素，而已有的方法中忽略了这些信息；(3)只使用新闻主体内容，忽略了新闻标题的作用，没有能够有效地利用关键信息，新闻标题是关于话题的高度概括，使用标题信息可以丰富新闻表示。在情感识别方面，已有的情感识别大多是根据极性词典匹配，或者对网民评论数据进行简单标注后，使用深度学习方法进行分析。但是这些方法只能够简单的获得情绪是正向还是负向，不能有针对性的挖掘出网民对某一方面的观点和态度，而且通常依赖于大量的标注数据，费时费力。

发明内容

针对上述问题，本发明的目的是提供基于话题检测的舆情监控方法、系统、计算机程序及计算机可读存储介质，将网络舆情监控拆分为话题检测和情感识别两个子任务(在网络环境下，“话题”和“事件”可以视为同一概念)，针对网络上大量的新闻，先识别出新闻中所包含的热点事件，然后将识别出的每一个事件相关的新闻所对应的网民评论作为情感识别的样本，用于识别网民对该事件的情感。

为实现上述目的，本发明采取以下技术方案：

本发明实施例的第一方面，提供基于话题检测的舆情监控方法，包括：

S1、获取热门网站上某一特定主题相关的新闻数据，并对获取的新闻数据进行预处理；

S2、提取新闻数据的关键词和命名实体构成联合特征集合，并使用标题语义更新其权重以表示新闻，对新闻表示进行聚类以确定热点话题，并提取热点话题的相关词进行展示；

S3、对于热点话题，判断同一话题下的网民评论的整体情感倾向性，作为判断事件舆情严重程度的依据，采用基于依存关系的情感识别方法对同一话题下的新闻评论数据进行分析，获得细粒度的情感分析结果；

S4、对不同话题对应的话题热度和情感倾向性进行分析，获得针对性地控制舆情方案。

进一步地，步骤S1的具体过程为：

S11、利用网络爬虫技术从热门网站，获取近一段时间内某一特定主题相关的新闻数据，包括新闻标题、新闻主体内容及网民评论，并保存其对应关系，分别标记其ID并存储在数据库中；

S12、对采集到的新闻标题、新闻主体内容和网民评论进行预处理，包括去除空格、链接、重复及无意义的词，并对文本进行分词，去除停用词，预处理后的每一条新闻为一个词袋。

进一步地，步骤S2的具体过程为：

S21、通过TF-IDF计算新闻主体内容中所有词的权重，每篇新闻选择权重由大到小的前M个词构成特征词集合，标记为集合W＝{w₁，w₂…w_M}；

S22、对新闻主体内容中进行命名实体识别，构成集合E＝{e₁，e₂，…e_N}，其中N为命名实体个数，合并集合W与集合E，得到联合特征集合K，即K＝W∪E；

S23、用word2vec词向量处理工具得到新闻数据集中所有词的词向量，建立词典D及对应的词向量集合V_D＝{v₁，v₂…v_i…v_z}，其中，Z为词典大小；

S24、使用Doc2vec得到标题向量V_h，计算特征集合K中每一个词与标题向量的相似度s，并根据相似度的大小更新特征词的权重，计算方法为δ_i＝θ_i+2s_i，其中θ_i是联合特征集合K中第i个词的权重，s_i是该词的向量v_i与标题向量V_h的相似度，δ_i是更新过后特征词的权重，然后采用VSM表示新闻；

S25、通过聚类算法对新闻向量进行聚类；

S26、统计聚类后每一簇下的新闻数量N，并设定阈值T作为话题热度的衡量标准，如果新闻数量N大于阈值T，则认为这一簇下的新闻为热点话题；如果新闻数量N小于阈值T，则认为其不是热点话题；

S27、根据上述关键词集合，统计同一簇下各个特征词出现的次数，选取出现次数排名前若干的词作为此话题相关词进行展示。

进一步地，步骤S3的具体过程为：

S31、对每一个话题下的网民评价文本数据进行预处理，并依次标记句子中的每一个词w的形式为“词语_词性_词id”，并按顺序存储；

S32、遍历句子中的词语，在BosonNLP情感词典中逐个查找，若该词是情感词，则读取相应的情感值，若不是情感词，则进入下一个候选单词，直至整句话判断结束。将一句话中所有情感词所对应的情感值相加，得到整句话的情感值，若情感值>0，则为正向；若情感值<0，则为负向；按此方法依次计算同一个话题下的所有评论的情感值，若正向情感的评论数量大于负向情感的评论数量，则此话题的整体情感倾向性为正向，否则为负向；

S33、对预处理后的每一条评论数据进行依存句法分析，得到依存分析结果集合F，集合中的每个依存关系的句法信息用一个三元组<w1,w2,r>表示，其中，w1代表依存关系中的孩子节点，w2代表依存关系中的父亲节点，r代表依存关系类型；

S34、以BosonNLP情感词典中的情感词作为评价词语，以这些评价词语为搜索核心在S33中的依存关系集合F中查找对应的依存关系，通过对应的依存关系获得评价对象，提炼出<评价对象，评价词语>，即可获得细粒度的情感分析结果。

进一步地，上述S4的具体实现过程为：

S41、对于不同热度、不同情感倾向性的话题，应给予不同的关注度；

S42、对于话题的<评价方面，评价词语>进行统计，对出现次数较高的<评价方面>，要重点关注其对应的<评价词语>，进而实现对舆情事件的处理。

本发明实施例的第二方面，提供基于话题检测的舆情监控系统，该系统包括：

数据采集和预处理系统，用于获取热门网站上某一特定主题相关的新闻数据，并对获取的新闻数据进行预处理；

话题检测和展示系统，提取新闻数据的关键词和命名实体构成联合特征集合，并使用标题语义更新其权重以表示新闻，其中，对新闻表示进行聚类以确定热点话题，并提取热点话题的相关词进行展示；

情感识别系统，对于热点话题，判断同一话题下的网民评论的整体情感倾向性，作为判断事件舆情严重程度的依据，采用基于依存关系的情感识别方法对同一话题下的新闻评论数据进行分析，获得细粒度的情感分析结果；

舆情监控系统，对不同话题对应的话题热度和情感倾向性进行分析，以针对性地控制舆情。

本发明实施例的第三方面，提供一种计算机程序，包括计算机程序指令，其中，所述程序指令被处理器执行时用于实现所述的基于话题检测的舆情监控方法对应的步骤。

本发明实施例的第三方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序指令，其中，所述程序指令被处理器执行时用于实现所述基于话题检测的舆情监控方法对应的步骤。

本发明由于采取以上技术方案，其具有以下优点：

1、本发明结合话题检测和情感识别两方面进行舆情的监控，通过将舆情监控分为话题检测和情感识别两个子任务，可以及时发现网络热点事件及网民对事件的情绪和态度，根据新闻特点，提出使用新闻中的关键词、命名实体构成联合特征集合，并将新闻标题语义与新闻主体信息进行融合，以丰富新闻表示，然后对新闻进行聚类，并统计聚类结果以发现热点话题(即事件)，通过多特征的融合进行新闻表示的方法提高了话题检测的准确度；

2、本发明在情感识别方面采用基于情感词典匹配的方法分析话题的整体情感倾向性，并通过基于依存句法分析的方法对网民评价的情感进行细粒度的分析，获得网民对某一评价方面的态度，以新闻数量作为热度的衡量标准，结合情感识别结果，可以让监管部门尽早获知事件，并及时进行处理，以减少不必要的损失；

3、本发明可以从很大程度上替代传统舆情分析方法，具有简单、高效、时效性强等优点，从网络新闻中发现事件以及其发展态势，可以帮助有关部门及时正确把握网络舆情走向，及时控制事件发展或疏导舆论，对于降低社会不稳定性和维护有关部门形象等，有着重要意义；

综上，本发明提高了话题检测的准确度，并且细化了情感识别的粒度，对网络舆情监控具有更好的效果。

附图说明

图1为本实施例1的基于话题检测的舆情监控方法原理示意图；

图2为本实施例1的基于文本聚类的热点话题检测示意图；

图3为本实施1的基于情感词典和依存关系的情感识别示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

如图1所示，本实施例提供的基于话题检测的舆情监控方法，包括：

S1、对近期新闻网站上特定主题相关的新闻进行原始数据的采集，包括新闻标题、新闻主体内容以及网民评论等数据，并对采集到的数据进行预处理；

具体地，上述S1的实现过程为：

S11、利用网络爬虫技术从例如今日头条、新华网、人民网、新浪网等热门网站上，获取近一段时间内某一特定主题相关的新闻数据，包括新闻标题、新闻主体内容及网民评论，保存其对应关系，分别标记其ID并存储在数据库中；

S12、对采集到的新闻标题、新闻主体内容和网民评论进行预处理，包括去除空格、链接、重复及无意义的词，然后对文本进行分词，并去除停用词，预处理后的每一条新闻为一个词袋，词袋(bag of words)是指忽略文本的词序、语法和句法，将其仅仅看做是一个词集合。其中，本实施例的分词指的是中文分词，中文分词(Chinese Word Segmentation)是将连续的字序列按照一定的规范重新组合成词序列的过程，也就是说将一个汉字序列切分成一个一个单独的词；停用词是指在本实施例的文本处理过程中，为节省存储空间和提高文本处理效率，自动过滤掉的某些字或词，这些字或词即被称为停用词(Stop Words)，停用词主要包括英文字符、数字、数学字符、标点符号及使用频率特高的单汉字等，这些停用词都是人工输入、非自动化生成的，生成后的停用词会形成一个停用词表。

具体地，如图2所示，上述S2的实现过程为：

S21、通过TF-IDF计算新闻主体内容中各个词的权重，选取权重最大的前20个词(以此为例，不限于此，可以根据实际需要进行确定)作为新闻主体内容的关键词，标记为集合W，标记为集合W＝{w₁，w₂…w_M}，M为选取的词数量；

S22、对新闻主体内容中进行命名实体进行识别，包括人名，地名，组织机构名，日期，以及其它专有名词，来标识一个话题的关键信息，并标记为集合E＝{e₁，e₂，…e_N}，N为命名实体个数，将命名实体集合E与S21中的新闻主体内容关键词集合W取并集得到联合特征集合K，即K＝W∪E；

S24、使用Doc2vec得到标题向量V_h，计算特征集合K中每一个词与标题向量的相似度s，并根据相似度的大小更新特征词的权重，计算方法为δ_i＝θ_i+2s_i，其中θ_i是联合特征集合K中第i个词的权重，s_i是该词的向量v_i与标题向量V_h的相似度，δ_i是更新过后特征词的权重，通过向量空间模型VSM(vector space model)对文本进行表示，即得到每一条新闻的向量表示；

S25、通过聚类算法，对经过上述处理的新闻向量进行聚类，其中，相似度计算可以采用余弦相似度，聚类算法可以采用single-pass。

S3、基于情感词典的方法获取网民评论的整体情感倾向性，并通过依存关系分析方法对网民评论数据进行细粒度情感分析；

具体地，如图3所示，上述S3的实现过程为：

S31、对每一个话题下的网民评价文本数据进行预处理，包括分词，去除停用词，词性标注等，并依次标记句子中的每一个词w的形式为“词语_词性_词id”，并按顺序存储，作为预处理后的结果。

S32、遍历句子中的词语，在BosonNLP情感词典中逐个查找，若该词是情感词，则读取相应的情感值，若不是情感词，则进入下一个候选单词，直至整句话判断结束。将一句话中所有情感词所对应的情感值相加，得到整句话的情感值。若情感值>0，则为正向；若情感值<0，则为负向。按此方法依次计算同一个话题下的所有评论的情感值，若正向情感的评论数量大于负向情感的评论数量，则此话题的整体情感倾向性为正向，否则为负向。

S33、对预处理后的每一条评论数据进行依存句法分析，得到依存分析结果集合F，集合F中的每个依存关系的句法信息用一个三元组<w1,w2,r>表示，其中w1代表依存关系中的孩子节点，w2代表依存关系中的父亲节点，r代表依存关系类型。

S34、以BosonNLP情感词典中的情感词作为评价词语，以这些评价词语为搜索核心在S33中所述的依存关系集合F中查找对应的依存关系，通过对应的依存关系获得评价对象。本实施例主要依赖于依存关系分析结果中的动宾结构(VOB)、主谓结构(SBV)以及定中结构(ATT)等主要关系，然后提炼出<评价对象，评价词语>，即可获得细粒度的情感分析结果。

S4、根据话题热度和情感倾向性判断话题/事件的严重程度，通过评价方面和评价词的识别，可以获知不同评价方面的情感倾向。

具体地，上述S4的实现过程为：

S41、对于不同热度、不同情感倾向性的话题，应给予不同的关注度。例如对于话题热度低且情感倾向性为正向的事件，则可以给予较低的关注度；对话题热度高且情感倾向性为负的事件，则需要及时进行舆情监控和处理。

S42、对于话题的<评价方面，评价词语>进行统计，对出现次数较高的<评价方面>，要重点关注其对应的<评价词语>，进而有针对性的对舆情事件进行处理。

实施例2：

本实施例还提供基于话题检测的舆情监控系统，该系统包括：

数据采集和预处理系统，用于通过网络爬虫技术获取最近一段时间内热门网站上某一特定主题相关的新闻数据，每条数据包括新闻标题、新闻主体内容及对应的网民评论，对数据进行预处理，然后存储到数据库；

话题检测和展示系统，用于提取新闻主体内容的关键词和命名实体构成联合特征集合，然后建立标题语义向量，使用标题语义更新联合特征词的权重，从而对每一条新闻进行向量表示。通过对向量进行聚类，得到话题列表。统计聚类结果中同一簇下的新闻数据量，若超过一定的阈值T，则认为其为热点话题。对于热点话题，统计同一簇下各个特征词出现的次数，作为话题相关词进行展示。

情感识别系统，用于对于话题检测和展示系统所对应的热点话题，通过情感词典方法判断同一话题下的网民评论的整体情感倾向性，作为判断时间舆情严重程度的依据。然后用基于依存关系的情感识别方法对同一话题下的新闻评论数据进行分析，获得细粒度的情感分析结果。

舆情监控系统，用于根据不同的话题对应的话题热度和情感倾向性，对话题/事件的监控和处理做出判断，并对细粒度的<评价方面，评价词>重点关注，以获得针对性的舆情控制方案。

实施例3：

本实施例还提供了一种计算机程序，包括计算机程序指令，其中，程序指令被处理器执行时用于实现基于话题检测的舆情监控方法对应的步骤。

实施例4：

本实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序指令，其中，所述程序指令被处理器执行时用于实现基于话题检测的舆情监控方法对应的步骤。

最后应当说明的是：以上实施例仅用于说明本发明的技术方案而非对其保护范围的限制，尽管参照上述实施例对本申请进行了详细的说明,所属领域的普通技术人员应当理解：本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换，但这些变更、修改或者等同替换，均在申请待批的权利要求保护范围之内。

Claims

1.一种基于话题检测的舆情监控方法，其特征在于包括：

S2、提取新闻数据的关键词和命名实体构成联合特征集合，并使用标题语义更新其权重以表示新闻，对新闻表示进行聚类以确定热点话题，并提取热点话题的相关词进行展示，具体过程为：

S23、用word2vec词向量处理工具得到新闻数据集中所有词的词向量，建立词典D及对应的词向量集合V_D＝{v₁,v₂…v_i…v_z}，其中，Z为词典大小；

S25、通过聚类算法对新闻向量进行聚类；

S27、根据上述关键词集合，统计同一簇下各个特征词出现的次数，选取出现次数排名前若干的词作为此话题相关词进行展示；

2.根据权利要求1所述的方法，其特征在于，步骤S1的具体过程为：

3.根据权利要求1所述的方法，其特征在于，步骤S3的具体过程为：

S32、遍历句子中的词语，在BosonNLP情感词典中逐个查找，若该词是情感词，则读取相应的情感值，若不是情感词，则进入下一个候选单词，直至整句话判断结束; 将一句话中所有情感词所对应的情感值相加，得到整句话的情感值，若情感值>0，则为正向；若情感值<0，则为负向；按此方法依次计算同一个话题下的所有评论的情感值，若正向情感的评论数量大于负向情感的评论数量，则此话题的整体情感倾向性为正向，否则为负向；

4.根据权利要求1所述的方法，其特征在于，上述S4的具体实现过程为：

5.一种基于话题检测的舆情监控系统，其特征在于该系统包括：

话题检测和展示系统，提取新闻数据的关键词和命名实体构成联合特征集合，并使用标题语义更新其权重以表示新闻，对新闻表示进行聚类以确定热点话题，并提取热点话题的相关词进行展示，具体过程为：

通过TF-IDF计算新闻主体内容中所有词的权重，每篇新闻选择权重由大到小的前M个词构成特征词集合，标记为集合W＝{w₁，w₂…w_M}；

对新闻主体内容中进行命名实体识别，构成集合E＝{e₁，e₂，…e_N}，其中N为命名实体个数，合并集合W与集合E，得到联合特征集合K，即K＝W∪E；

用word2vec词向量处理工具得到新闻数据集中所有词的词向量，建立词典D及对应的词向量集合V_D＝{v₁,v₂…v_i…v_z}，其中，Z为词典大小；

使用Doc2vec得到标题向量V_h，计算特征集合K中每一个词与标题向量的相似度s，并根据相似度的大小更新特征词的权重，计算方法为δ_i＝θ_i+2s_i，其中θ_i是联合特征集合K中第i个词的权重，s_i是该词的向量v_i与标题向量V_h的相似度，δ_i是更新过后特征词的权重，然后采用VSM表示新闻；

通过聚类算法对新闻向量进行聚类；

统计聚类后每一簇下的新闻数量N，并设定阈值T作为话题热度的衡量标准，如果新闻数量N大于阈值T，则认为这一簇下的新闻为热点话题；如果新闻数量N小于阈值T，则认为其不是热点话题；

根据上述关键词集合，统计同一簇下各个特征词出现的次数，选取出现次数排名前若干的词作为此话题相关词进行展示；

6.一种计算机设备，其特征在于，包括计算机程序指令，其中，所述程序指令被处理器执行时用于实现如权利要求1～4任一项所述的基于话题检测的舆情监控方法对应的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，其中，所述程序指令被处理器执行时用于实现如权利要求1～4任一项所述基于话题检测的舆情监控方法对应的步骤。