CN110516067B - 基于话题检测的舆情监控方法、系统及存储介质 - Google Patents
基于话题检测的舆情监控方法、系统及存储介质 Download PDFInfo
- Publication number
- CN110516067B CN110516067B CN201910782171.7A CN201910782171A CN110516067B CN 110516067 B CN110516067 B CN 110516067B CN 201910782171 A CN201910782171 A CN 201910782171A CN 110516067 B CN110516067 B CN 110516067B
- Authority
- CN
- China
- Prior art keywords
- news
- words
- topic
- word
- sentiment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于话题检测的舆情监控方法、系统及存储介质,该方法包括:S1、获取热门网站上某一特定主题相关的新闻数据,并对获取的新闻数据进行预处理;S2、提取新闻数据的关键词和命名实体构成联合特征集合,并使用标题语义更新其权重,以表示新闻,对新闻表示进行聚类以确定热点话题,并提取热点话题的相关词进行展示;S3、对于热点话题,判断同一话题下的网民评论的整体情感倾向性,作为判断事件舆情严重程度的依据,采用基于依存关系的情感识别方法对同一话题下的新闻评论数据进行分析,获得细粒度的情感分析结果;S4、对不同话题对应的话题热度和情感倾向性进行分析,获得针对性地控制舆情方案。本发明提高了话题检测的准确度。
Description
技术领域
本发明是关于一种基于话题检测的舆情监控方法、系统、计算机程序及计算机可读存储介质,涉及自然语言处理技术领域。
背景技术
随着互联网技术的不断发展,网络已经逐渐超越了传统报纸、电视、广播等,成为人们获取新闻的主要途径。互联网上每天都会产生大量的新闻,这些新闻通常都是对某一事件的报道,其中就包含了一些潜在热点事件。由于网络具有很强的传播性,所以一旦某潜在热点事件经过网络传播以后,就可能转变为热点事件。随着PC、移动设备的兴起,网民可以便捷地在网络上发表自己对某个新闻的看法,这些带有主观情感的评论又会对网络舆情起到推波助澜的效果,进而引起更大的负面舆情。如果有关部门不能及时发现这些潜在的热点事件,判断舆情发展趋势并及时采取应对措施,则有可能导致严重的舆情危机、影响社会稳定,甚至造成巨大的经济损失和信任危机。例如食品安全、环境污染等事件被网络曝光以后,都在短时间内引起了网民的广泛关注、猜测和质疑,并引起了网络舆情的爆发。
目前网络新闻报道通常来说形式各异,并且分散在不同的平台,所以很难将不同报道形式、不同平台上描述同一事件的新闻组织起来,以识别潜在的热点事件。因此迫切需要采取一定的技术手段,快捷、准确地从海量的网络新闻中获取潜在的热点事件,帮助有关部门及时地采取措施应对舆情的爆发,减少由此造成的信任危机和经济损失。
传统的舆情监控方法通常是针对已知事件分析其发展趋势,但是现实情况中,事件通常是未知的,因此需要采取一定的方法进行事件检测。并且已有的舆情监控和趋势预测方法仅仅通过新闻发布、转发、评论数量判断一个事件的热度和发展趋势,而忽略了网民评价内容对舆情发展的作用。在话题检测方面,已有的方法大多数是基于关键词抽取和文本聚类方法,关键词抽取过程通常使用TF-IDF,但是这种方法存在以下缺陷:(1)得到的特征较为稀疏,向量维度过大,计算效率不高,不能很好地满足话题检测时效性的要求;(2)不能针对性地挑选出有价值的词语获得更好的文本表示,而事件报道类新闻一般有其自身的特点,通常会涉及时间、地点、人物、组织机构名等命名实体,构成了事件的关键要素,而已有的方法中忽略了这些信息;(3)只使用新闻主体内容,忽略了新闻标题的作用,没有能够有效地利用关键信息,新闻标题是关于话题的高度概括,使用标题信息可以丰富新闻表示。在情感识别方面,已有的情感识别大多是根据极性词典匹配,或者对网民评论数据进行简单标注后,使用深度学习方法进行分析。但是这些方法只能够简单的获得情绪是正向还是负向,不能有针对性的挖掘出网民对某一方面的观点和态度,而且通常依赖于大量的标注数据,费时费力。
发明内容
针对上述问题,本发明的目的是提供基于话题检测的舆情监控方法、系统、计算机程序及计算机可读存储介质,将网络舆情监控拆分为话题检测和情感识别两个子任务(在网络环境下,“话题”和“事件”可以视为同一概念),针对网络上大量的新闻,先识别出新闻中所包含的热点事件,然后将识别出的每一个事件相关的新闻所对应的网民评论作为情感识别的样本,用于识别网民对该事件的情感。
为实现上述目的,本发明采取以下技术方案:
本发明实施例的第一方面,提供基于话题检测的舆情监控方法,包括:
S1、获取热门网站上某一特定主题相关的新闻数据,并对获取的新闻数据进行预处理;
S2、提取新闻数据的关键词和命名实体构成联合特征集合,并使用标题语义更新其权重以表示新闻,对新闻表示进行聚类以确定热点话题,并提取热点话题的相关词进行展示;
S3、对于热点话题,判断同一话题下的网民评论的整体情感倾向性,作为判断事件舆情严重程度的依据,采用基于依存关系的情感识别方法对同一话题下的新闻评论数据进行分析,获得细粒度的情感分析结果;
S4、对不同话题对应的话题热度和情感倾向性进行分析,获得针对性地控制舆情方案。
进一步地,步骤S1的具体过程为:
S11、利用网络爬虫技术从热门网站,获取近一段时间内某一特定主题相关的新闻数据,包括新闻标题、新闻主体内容及网民评论,并保存其对应关系,分别标记其ID并存储在数据库中;
S12、对采集到的新闻标题、新闻主体内容和网民评论进行预处理,包括去除空格、链接、重复及无意义的词,并对文本进行分词,去除停用词,预处理后的每一条新闻为一个词袋。
进一步地,步骤S2的具体过程为:
S21、通过TF-IDF计算新闻主体内容中所有词的权重,每篇新闻选择权重由大到小的前M个词构成特征词集合,标记为集合W={w1,w2…wM};
S22、对新闻主体内容中进行命名实体识别,构成集合E={e1,e2,…eN},其中N为命名实体个数,合并集合W与集合E,得到联合特征集合K,即K=W∪E;
S23、用word2vec词向量处理工具得到新闻数据集中所有词的词向量,建立词典D及对应的词向量集合VD={v1,v2…vi…vz},其中,Z为词典大小;
S24、使用Doc2vec得到标题向量Vh,计算特征集合K中每一个词与标题向量的相似度s,并根据相似度的大小更新特征词的权重,计算方法为δi=θi+2si,其中θi是联合特征集合K中第i个词的权重,si是该词的向量vi与标题向量Vh的相似度,δi是更新过后特征词的权重,然后采用VSM表示新闻;
S25、通过聚类算法对新闻向量进行聚类;
S26、统计聚类后每一簇下的新闻数量N,并设定阈值T作为话题热度的衡量标准,如果新闻数量N大于阈值T,则认为这一簇下的新闻为热点话题;如果新闻数量N小于阈值T,则认为其不是热点话题;
S27、根据上述关键词集合,统计同一簇下各个特征词出现的次数,选取出现次数排名前若干的词作为此话题相关词进行展示。
进一步地,步骤S3的具体过程为:
S31、对每一个话题下的网民评价文本数据进行预处理,并依次标记句子中的每一个词w的形式为“词语_词性_词id”,并按顺序存储;
S32、遍历句子中的词语,在BosonNLP情感词典中逐个查找,若该词是情感词,则读取相应的情感值,若不是情感词,则进入下一个候选单词,直至整句话判断结束。将一句话中所有情感词所对应的情感值相加,得到整句话的情感值,若情感值>0,则为正向;若情感值<0,则为负向;按此方法依次计算同一个话题下的所有评论的情感值,若正向情感的评论数量大于负向情感的评论数量,则此话题的整体情感倾向性为正向,否则为负向;
S33、对预处理后的每一条评论数据进行依存句法分析,得到依存分析结果集合F,集合中的每个依存关系的句法信息用一个三元组<w1,w2,r>表示,其中,w1代表依存关系中的孩子节点,w2代表依存关系中的父亲节点,r代表依存关系类型;
S34、以BosonNLP情感词典中的情感词作为评价词语,以这些评价词语为搜索核心在S33中的依存关系集合F中查找对应的依存关系,通过对应的依存关系获得评价对象,提炼出<评价对象,评价词语>,即可获得细粒度的情感分析结果。
进一步地,上述S4的具体实现过程为:
S41、对于不同热度、不同情感倾向性的话题,应给予不同的关注度;
S42、对于话题的<评价方面,评价词语>进行统计,对出现次数较高的<评价方面>,要重点关注其对应的<评价词语>,进而实现对舆情事件的处理。
本发明实施例的第二方面,提供基于话题检测的舆情监控系统,该系统包括:
数据采集和预处理系统,用于获取热门网站上某一特定主题相关的新闻数据,并对获取的新闻数据进行预处理;
话题检测和展示系统,提取新闻数据的关键词和命名实体构成联合特征集合,并使用标题语义更新其权重以表示新闻,其中,对新闻表示进行聚类以确定热点话题,并提取热点话题的相关词进行展示;
情感识别系统,对于热点话题,判断同一话题下的网民评论的整体情感倾向性,作为判断事件舆情严重程度的依据,采用基于依存关系的情感识别方法对同一话题下的新闻评论数据进行分析,获得细粒度的情感分析结果;
舆情监控系统,对不同话题对应的话题热度和情感倾向性进行分析,以针对性地控制舆情。
本发明实施例的第三方面,提供一种计算机程序,包括计算机程序指令,其中,所述程序指令被处理器执行时用于实现所述的基于话题检测的舆情监控方法对应的步骤。
本发明实施例的第三方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,其中,所述程序指令被处理器执行时用于实现所述基于话题检测的舆情监控方法对应的步骤。
本发明由于采取以上技术方案,其具有以下优点:
1、本发明结合话题检测和情感识别两方面进行舆情的监控,通过将舆情监控分为话题检测和情感识别两个子任务,可以及时发现网络热点事件及网民对事件的情绪和态度,根据新闻特点,提出使用新闻中的关键词、命名实体构成联合特征集合,并将新闻标题语义与新闻主体信息进行融合,以丰富新闻表示,然后对新闻进行聚类,并统计聚类结果以发现热点话题(即事件),通过多特征的融合进行新闻表示的方法提高了话题检测的准确度;
2、本发明在情感识别方面采用基于情感词典匹配的方法分析话题的整体情感倾向性,并通过基于依存句法分析的方法对网民评价的情感进行细粒度的分析,获得网民对某一评价方面的态度,以新闻数量作为热度的衡量标准,结合情感识别结果,可以让监管部门尽早获知事件,并及时进行处理,以减少不必要的损失;
3、本发明可以从很大程度上替代传统舆情分析方法,具有简单、高效、时效性强等优点,从网络新闻中发现事件以及其发展态势,可以帮助有关部门及时正确把握网络舆情走向,及时控制事件发展或疏导舆论,对于降低社会不稳定性和维护有关部门形象等,有着重要意义;
综上,本发明提高了话题检测的准确度,并且细化了情感识别的粒度,对网络舆情监控具有更好的效果。
附图说明
图1为本实施例1的基于话题检测的舆情监控方法原理示意图;
图2为本实施例1的基于文本聚类的热点话题检测示意图;
图3为本实施1的基于情感词典和依存关系的情感识别示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
如图1所示,本实施例提供的基于话题检测的舆情监控方法,包括:
S1、对近期新闻网站上特定主题相关的新闻进行原始数据的采集,包括新闻标题、新闻主体内容以及网民评论等数据,并对采集到的数据进行预处理;
具体地,上述S1的实现过程为:
S11、利用网络爬虫技术从例如今日头条、新华网、人民网、新浪网等热门网站上,获取近一段时间内某一特定主题相关的新闻数据,包括新闻标题、新闻主体内容及网民评论,保存其对应关系,分别标记其ID并存储在数据库中;
S12、对采集到的新闻标题、新闻主体内容和网民评论进行预处理,包括去除空格、链接、重复及无意义的词,然后对文本进行分词,并去除停用词,预处理后的每一条新闻为一个词袋,词袋(bag of words)是指忽略文本的词序、语法和句法,将其仅仅看做是一个词集合。其中,本实施例的分词指的是中文分词,中文分词(Chinese Word Segmentation)是将连续的字序列按照一定的规范重新组合成词序列的过程,也就是说将一个汉字序列切分成一个一个单独的词;停用词是指在本实施例的文本处理过程中,为节省存储空间和提高文本处理效率,自动过滤掉的某些字或词,这些字或词即被称为停用词(Stop Words),停用词主要包括英文字符、数字、数学字符、标点符号及使用频率特高的单汉字等,这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。
S2、提取新闻数据的关键词和命名实体构成联合特征集合,并使用标题语义更新其权重以表示新闻,对新闻表示进行聚类以确定热点话题,并提取热点话题的相关词进行展示;
具体地,如图2所示,上述S2的实现过程为:
S21、通过TF-IDF计算新闻主体内容中各个词的权重,选取权重最大的前20个词(以此为例,不限于此,可以根据实际需要进行确定)作为新闻主体内容的关键词,标记为集合W,标记为集合W={w1,w2…wM},M为选取的词数量;
S22、对新闻主体内容中进行命名实体进行识别,包括人名,地名,组织机构名,日期,以及其它专有名词,来标识一个话题的关键信息,并标记为集合E={e1,e2,…eN},N为命名实体个数,将命名实体集合E与S21中的新闻主体内容关键词集合W取并集得到联合特征集合K,即K=W∪E;
S23、用word2vec词向量处理工具得到新闻数据集中所有词的词向量,建立词典D及对应的词向量集合VD={v1,v2…vi…vz},其中,Z为词典大小;
S24、使用Doc2vec得到标题向量Vh,计算特征集合K中每一个词与标题向量的相似度s,并根据相似度的大小更新特征词的权重,计算方法为δi=θi+2si,其中θi是联合特征集合K中第i个词的权重,si是该词的向量vi与标题向量Vh的相似度,δi是更新过后特征词的权重,通过向量空间模型VSM(vector space model)对文本进行表示,即得到每一条新闻的向量表示;
S25、通过聚类算法,对经过上述处理的新闻向量进行聚类,其中,相似度计算可以采用余弦相似度,聚类算法可以采用single-pass。
S26、统计聚类后每一簇下的新闻数量N,并设定阈值T作为话题热度的衡量标准,如果新闻数量N大于阈值T,则认为这一簇下的新闻为热点话题;如果新闻数量N小于阈值T,则认为其不是热点话题;
S27、根据上述关键词集合,统计同一簇下各个特征词出现的次数,选取出现次数排名前若干的词作为此话题相关词进行展示。
S3、基于情感词典的方法获取网民评论的整体情感倾向性,并通过依存关系分析方法对网民评论数据进行细粒度情感分析;
具体地,如图3所示,上述S3的实现过程为:
S31、对每一个话题下的网民评价文本数据进行预处理,包括分词,去除停用词,词性标注等,并依次标记句子中的每一个词w的形式为“词语_词性_词id”,并按顺序存储,作为预处理后的结果。
S32、遍历句子中的词语,在BosonNLP情感词典中逐个查找,若该词是情感词,则读取相应的情感值,若不是情感词,则进入下一个候选单词,直至整句话判断结束。将一句话中所有情感词所对应的情感值相加,得到整句话的情感值。若情感值>0,则为正向;若情感值<0,则为负向。按此方法依次计算同一个话题下的所有评论的情感值,若正向情感的评论数量大于负向情感的评论数量,则此话题的整体情感倾向性为正向,否则为负向。
S33、对预处理后的每一条评论数据进行依存句法分析,得到依存分析结果集合F,集合F中的每个依存关系的句法信息用一个三元组<w1,w2,r>表示,其中w1代表依存关系中的孩子节点,w2代表依存关系中的父亲节点,r代表依存关系类型。
S34、以BosonNLP情感词典中的情感词作为评价词语,以这些评价词语为搜索核心在S33中所述的依存关系集合F中查找对应的依存关系,通过对应的依存关系获得评价对象。本实施例主要依赖于依存关系分析结果中的动宾结构(VOB)、主谓结构(SBV)以及定中结构(ATT)等主要关系,然后提炼出<评价对象,评价词语>,即可获得细粒度的情感分析结果。
S4、根据话题热度和情感倾向性判断话题/事件的严重程度,通过评价方面和评价词的识别,可以获知不同评价方面的情感倾向。
具体地,上述S4的实现过程为:
S41、对于不同热度、不同情感倾向性的话题,应给予不同的关注度。例如对于话题热度低且情感倾向性为正向的事件,则可以给予较低的关注度;对话题热度高且情感倾向性为负的事件,则需要及时进行舆情监控和处理。
S42、对于话题的<评价方面,评价词语>进行统计,对出现次数较高的<评价方面>,要重点关注其对应的<评价词语>,进而有针对性的对舆情事件进行处理。
实施例2:
本实施例还提供基于话题检测的舆情监控系统,该系统包括:
数据采集和预处理系统,用于通过网络爬虫技术获取最近一段时间内热门网站上某一特定主题相关的新闻数据,每条数据包括新闻标题、新闻主体内容及对应的网民评论,对数据进行预处理,然后存储到数据库;
话题检测和展示系统,用于提取新闻主体内容的关键词和命名实体构成联合特征集合,然后建立标题语义向量,使用标题语义更新联合特征词的权重,从而对每一条新闻进行向量表示。通过对向量进行聚类,得到话题列表。统计聚类结果中同一簇下的新闻数据量,若超过一定的阈值T,则认为其为热点话题。对于热点话题,统计同一簇下各个特征词出现的次数,作为话题相关词进行展示。
情感识别系统,用于对于话题检测和展示系统所对应的热点话题,通过情感词典方法判断同一话题下的网民评论的整体情感倾向性,作为判断时间舆情严重程度的依据。然后用基于依存关系的情感识别方法对同一话题下的新闻评论数据进行分析,获得细粒度的情感分析结果。
舆情监控系统,用于根据不同的话题对应的话题热度和情感倾向性,对话题/事件的监控和处理做出判断,并对细粒度的<评价方面,评价词>重点关注,以获得针对性的舆情控制方案。
实施例3:
本实施例还提供了一种计算机程序,包括计算机程序指令,其中,程序指令被处理器执行时用于实现基于话题检测的舆情监控方法对应的步骤。
实施例4:
本实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,其中,所述程序指令被处理器执行时用于实现基于话题检测的舆情监控方法对应的步骤。
最后应当说明的是:以上实施例仅用于说明本发明的技术方案而非对其保护范围的限制,尽管参照上述实施例对本申请进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换,但这些变更、修改或者等同替换,均在申请待批的权利要求保护范围之内。
Claims (7)
1.一种基于话题检测的舆情监控方法,其特征在于包括:
S1、获取热门网站上某一特定主题相关的新闻数据,并对获取的新闻数据进行预处理;
S2、提取新闻数据的关键词和命名实体构成联合特征集合,并使用标题语义更新其权重以表示新闻,对新闻表示进行聚类以确定热点话题,并提取热点话题的相关词进行展示,具体过程为:
S21、通过TF-IDF计算新闻主体内容中所有词的权重,每篇新闻选择权重由大到小的前M个词构成特征词集合,标记为集合W={w1,w2…wM};
S22、对新闻主体内容中进行命名实体识别,构成集合E={e1,e2,…eN},其中N为命名实体个数,合并集合W与集合E,得到联合特征集合K,即K=W∪E;
S23、用word2vec词向量处理工具得到新闻数据集中所有词的词向量,建立词典D及对应的词向量集合VD={v1,v2…vi…vz},其中,Z为词典大小;
S24、使用Doc2vec得到标题向量Vh,计算特征集合K中每一个词与标题向量的相似度s,并根据相似度的大小更新特征词的权重,计算方法为δi=θi+2si,其中θi是联合特征集合K中第i个词的权重,si是该词的向量vi与标题向量Vh的相似度,δi是更新过后特征词的权重,然后采用VSM表示新闻;
S25、通过聚类算法对新闻向量进行聚类;
S26、统计聚类后每一簇下的新闻数量N,并设定阈值T作为话题热度的衡量标准,如果新闻数量N大于阈值T,则认为这一簇下的新闻为热点话题;如果新闻数量N小于阈值T,则认为其不是热点话题;
S27、根据上述关键词集合,统计同一簇下各个特征词出现的次数,选取出现次数排名前若干的词作为此话题相关词进行展示;
S3、对于热点话题,判断同一话题下的网民评论的整体情感倾向性,作为判断事件舆情严重程度的依据,采用基于依存关系的情感识别方法对同一话题下的新闻评论数据进行分析,获得细粒度的情感分析结果;
S4、对不同话题对应的话题热度和情感倾向性进行分析,获得针对性地控制舆情方案。
2.根据权利要求1所述的方法,其特征在于,步骤S1的具体过程为:
S11、利用网络爬虫技术从热门网站,获取近一段时间内某一特定主题相关的新闻数据,包括新闻标题、新闻主体内容及网民评论,并保存其对应关系,分别标记其ID并存储在数据库中;
S12、对采集到的新闻标题、新闻主体内容和网民评论进行预处理,包括去除空格、链接、重复及无意义的词,并对文本进行分词,去除停用词,预处理后的每一条新闻为一个词袋。
3.根据权利要求1所述的方法,其特征在于,步骤S3的具体过程为:
S31、对每一个话题下的网民评价文本数据进行预处理,并依次标记句子中的每一个词w的形式为“词语_词性_词id”,并按顺序存储;
S32、遍历句子中的词语,在BosonNLP情感词典中逐个查找,若该词是情感词,则读取相应的情感值,若不是情感词,则进入下一个候选单词,直至整句话判断结束; 将一句话中所有情感词所对应的情感值相加,得到整句话的情感值,若情感值>0,则为正向;若情感值<0,则为负向;按此方法依次计算同一个话题下的所有评论的情感值,若正向情感的评论数量大于负向情感的评论数量,则此话题的整体情感倾向性为正向,否则为负向;
S33、对预处理后的每一条评论数据进行依存句法分析,得到依存分析结果集合F,集合中的每个依存关系的句法信息用一个三元组<w1,w2,r>表示,其中,w1代表依存关系中的孩子节点,w2代表依存关系中的父亲节点,r代表依存关系类型;
S34、以BosonNLP情感词典中的情感词作为评价词语,以这些评价词语为搜索核心在S33中的依存关系集合F中查找对应的依存关系,通过对应的依存关系获得评价对象,提炼出<评价对象,评价词语>,即可获得细粒度的情感分析结果。
4.根据权利要求1所述的方法,其特征在于,上述S4的具体实现过程为:
S41、对于不同热度、不同情感倾向性的话题,应给予不同的关注度;
S42、对于话题的<评价方面,评价词语>进行统计,对出现次数较高的<评价方面>,要重点关注其对应的<评价词语>,进而实现对舆情事件的处理。
5.一种基于话题检测的舆情监控系统,其特征在于该系统包括:
数据采集和预处理系统,用于获取热门网站上某一特定主题相关的新闻数据,并对获取的新闻数据进行预处理;
话题检测和展示系统,提取新闻数据的关键词和命名实体构成联合特征集合,并使用标题语义更新其权重以表示新闻,对新闻表示进行聚类以确定热点话题,并提取热点话题的相关词进行展示,具体过程为:
通过TF-IDF计算新闻主体内容中所有词的权重,每篇新闻选择权重由大到小的前M个词构成特征词集合,标记为集合W={w1,w2…wM};
对新闻主体内容中进行命名实体识别,构成集合E={e1,e2,…eN},其中N为命名实体个数,合并集合W与集合E,得到联合特征集合K,即K=W∪E;
用word2vec词向量处理工具得到新闻数据集中所有词的词向量,建立词典D及对应的词向量集合VD={v1,v2…vi…vz},其中,Z为词典大小;
使用Doc2vec得到标题向量Vh,计算特征集合K中每一个词与标题向量的相似度s,并根据相似度的大小更新特征词的权重,计算方法为δi=θi+2si,其中θi是联合特征集合K中第i个词的权重,si是该词的向量vi与标题向量Vh的相似度,δi是更新过后特征词的权重,然后采用VSM表示新闻;
通过聚类算法对新闻向量进行聚类;
统计聚类后每一簇下的新闻数量N,并设定阈值T作为话题热度的衡量标准,如果新闻数量N大于阈值T,则认为这一簇下的新闻为热点话题;如果新闻数量N小于阈值T,则认为其不是热点话题;
根据上述关键词集合,统计同一簇下各个特征词出现的次数,选取出现次数排名前若干的词作为此话题相关词进行展示;
情感识别系统,对于热点话题,判断同一话题下的网民评论的整体情感倾向性,作为判断事件舆情严重程度的依据,采用基于依存关系的情感识别方法对同一话题下的新闻评论数据进行分析,获得细粒度的情感分析结果;
舆情监控系统,对不同话题对应的话题热度和情感倾向性进行分析,以针对性地控制舆情。
6.一种计算机设备,其特征在于,包括计算机程序指令,其中,所述程序指令被处理器执行时用于实现如权利要求1~4任一项所述的基于话题检测的舆情监控方法对应的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,其中,所述程序指令被处理器执行时用于实现如权利要求1~4任一项所述基于话题检测的舆情监控方法对应的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910782171.7A CN110516067B (zh) | 2019-08-23 | 2019-08-23 | 基于话题检测的舆情监控方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910782171.7A CN110516067B (zh) | 2019-08-23 | 2019-08-23 | 基于话题检测的舆情监控方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110516067A CN110516067A (zh) | 2019-11-29 |
CN110516067B true CN110516067B (zh) | 2022-02-11 |
Family
ID=68626313
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910782171.7A Active CN110516067B (zh) | 2019-08-23 | 2019-08-23 | 基于话题检测的舆情监控方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110516067B (zh) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109597928B (zh) * | 2018-12-05 | 2022-12-16 | 云南电网有限责任公司信息中心 | 支持用户策略配置的基于Web网络的非结构化文本获取方法 |
CN111160037B (zh) * | 2019-12-02 | 2021-10-26 | 广州大学 | 一种支持跨语言迁移的细粒度情感分析方法 |
CN111061876B (zh) * | 2019-12-10 | 2023-06-13 | 中国建设银行股份有限公司 | 事件舆情数据分析方法及装置 |
CN111209390B (zh) * | 2020-01-06 | 2023-09-05 | 新方正控股发展有限责任公司 | 新闻展示方法和系统、计算机可读存储介质 |
CN111241281A (zh) * | 2020-01-13 | 2020-06-05 | 北京工业大学 | 一种基于文本相似度的舆情话题跟踪方法 |
CN110874531B (zh) * | 2020-01-20 | 2020-07-10 | 湖南蚁坊软件股份有限公司 | 一种话题分析方法、装置和存储介质 |
CN111310476B (zh) * | 2020-02-21 | 2021-11-02 | 山东大学 | 一种使用基于方面的情感分析方法的舆情监控方法和系统 |
CN111581474B (zh) * | 2020-04-02 | 2022-07-29 | 昆明理工大学 | 基于多头注意力机制的涉案微博评论的评价对象抽取方法 |
CN113535886A (zh) * | 2020-04-15 | 2021-10-22 | 北大方正信息产业集团有限公司 | 信息处理方法、装置和设备 |
CN111966878B (zh) * | 2020-08-04 | 2022-07-01 | 厦门大学 | 基于机器学习的舆情事件反转检测方法 |
CN112035658B (zh) * | 2020-08-05 | 2024-04-30 | 海纳致远数字科技(上海)有限公司 | 基于深度学习的企业舆情监测方法 |
CN111984787A (zh) * | 2020-08-17 | 2020-11-24 | 深圳新闻网传媒股份有限公司 | 一种基于互联网数据的舆情热点获取方法及系统 |
CN112115712B (zh) * | 2020-09-08 | 2024-02-02 | 北京交通大学 | 基于话题的群体情感分析方法 |
CN112214663A (zh) * | 2020-10-22 | 2021-01-12 | 上海明略人工智能(集团)有限公司 | 获取舆情声量的方法、系统、装置、存储介质及移动终端 |
CN112199601B (zh) * | 2020-11-09 | 2022-11-08 | 中国电子科技集团公司第二十八研究所 | 一种基于海量新闻数据事件热度的新闻推荐方法 |
CN112328795A (zh) * | 2020-11-13 | 2021-02-05 | 首都师范大学 | 一种基于关键词元的话题检测方法、系统及计算机存储介质 |
CN112347230B (zh) * | 2020-11-16 | 2024-04-19 | 上海品见智能科技有限公司 | 一种基于Word2Vec的企业舆情数据分析方法 |
CN112417152A (zh) * | 2020-11-19 | 2021-02-26 | 首都师范大学 | 涉案舆情的话题检测方法和装置 |
CN112528018A (zh) * | 2020-12-01 | 2021-03-19 | 天津中科智能识别产业技术研究院有限公司 | 一种基于文本挖掘的热点新闻发现方法 |
CN112784602A (zh) * | 2020-12-03 | 2021-05-11 | 南京理工大学 | 基于远程监督的新闻情感实体抽取方法 |
CN112434164B (zh) * | 2020-12-03 | 2023-04-28 | 西安交通大学 | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 |
CN113239685B (zh) * | 2021-01-13 | 2023-10-31 | 中国科学院计算技术研究所 | 一种基于双重情感的舆情检测方法及系统 |
CN112818234B (zh) * | 2021-02-02 | 2022-09-02 | 霍尔果斯大颜色信息科技有限公司 | 一种网络舆情信息分析处理方法及系统 |
CN112836487B (zh) * | 2021-02-07 | 2023-01-24 | 四川封面传媒有限责任公司 | 一种自动评论方法、装置、计算机设备及存储介质 |
CN113515593A (zh) * | 2021-04-23 | 2021-10-19 | 平安科技(深圳)有限公司 | 基于聚类模型的话题检测方法、装置和计算机设备 |
CN113111269B (zh) * | 2021-05-10 | 2022-06-10 | 网易(杭州)网络有限公司 | 数据处理方法、装置、计算机可读存储介质及电子设备 |
CN113378023B (zh) * | 2021-05-24 | 2023-05-23 | 华北科技学院(中国煤矿安全技术培训中心) | 民生舆情及新闻信息挖掘比对可视化系统 |
CN113609298A (zh) * | 2021-08-23 | 2021-11-05 | 南京擎盾信息科技有限公司 | 用于法院舆情语料提取的数据处理的方法和装置 |
CN113449111B (zh) * | 2021-08-31 | 2021-12-07 | 苏州工业园区测绘地理信息有限公司 | 基于时空语义知识迁移的社会治理热点话题自动识别方法 |
CN116306622B (zh) * | 2023-05-25 | 2023-07-28 | 环球数科集团有限公司 | 一种用于改善舆论氛围的aigc评论系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002278962A (ja) * | 2001-03-22 | 2002-09-27 | Nippon Hoso Kyokai <Nhk> | ニュース話題解析装置およびその方法 |
CN101408883A (zh) * | 2008-11-24 | 2009-04-15 | 电子科技大学 | 一种网络舆情观点收集方法 |
CN105488196A (zh) * | 2015-12-07 | 2016-04-13 | 中国人民大学 | 一种基于互联语料的热门话题自动挖掘系统 |
CN108959383A (zh) * | 2018-05-31 | 2018-12-07 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN109033200A (zh) * | 2018-06-29 | 2018-12-18 | 北京百度网讯科技有限公司 | 事件抽取的方法、装置、设备及计算机可读介质 |
CN109299277A (zh) * | 2018-11-20 | 2019-02-01 | 中山大学 | 舆情分析方法、服务器及计算机可读存储介质 |
-
2019
- 2019-08-23 CN CN201910782171.7A patent/CN110516067B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002278962A (ja) * | 2001-03-22 | 2002-09-27 | Nippon Hoso Kyokai <Nhk> | ニュース話題解析装置およびその方法 |
CN101408883A (zh) * | 2008-11-24 | 2009-04-15 | 电子科技大学 | 一种网络舆情观点收集方法 |
CN105488196A (zh) * | 2015-12-07 | 2016-04-13 | 中国人民大学 | 一种基于互联语料的热门话题自动挖掘系统 |
CN108959383A (zh) * | 2018-05-31 | 2018-12-07 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN109033200A (zh) * | 2018-06-29 | 2018-12-18 | 北京百度网讯科技有限公司 | 事件抽取的方法、装置、设备及计算机可读介质 |
CN109299277A (zh) * | 2018-11-20 | 2019-02-01 | 中山大学 | 舆情分析方法、服务器及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110516067A (zh) | 2019-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516067B (zh) | 基于话题检测的舆情监控方法、系统及存储介质 | |
CN107451126B (zh) | 一种近义词筛选方法及系统 | |
WO2019227710A1 (zh) | 网络舆情的分析方法、装置及计算机可读存储介质 | |
Chinsha et al. | A syntactic approach for aspect based opinion mining | |
CN110046260B (zh) | 一种基于知识图谱的暗网话题发现方法和系统 | |
TWI424325B (zh) | 使用有機物件資料模型來組織社群智慧資訊的系統及方法 | |
CN107193796B (zh) | 一种舆情事件检测方法及装置 | |
Bourequat et al. | Sentiment analysis approach for analyzing iPhone release using support vector machine | |
CN110413787B (zh) | 文本聚类方法、装置、终端和存储介质 | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
Chinsha et al. | Aspect based opinion mining from restaurant reviews | |
JP5527845B2 (ja) | 文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法 | |
Angelpreethi et al. | An enhanced architecture for feature based opinion mining from product reviews | |
CN110674288A (zh) | 一种应用于网络安全领域的用户画像方法 | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
Moin et al. | Framework for rumors detection in social media | |
Zendah et al. | Detecting Significant Events in Arabic Microblogs using Soft Frequent Pattern Mining. | |
Sweeney et al. | Multi-entity sentiment analysis using entity-level feature extraction and word embeddings approach. | |
Fu et al. | Mining newsworthy events in the traffic accident domain from Chinese microblog | |
US11341188B2 (en) | Expert stance classification using computerized text analytics | |
CN110096618B (zh) | 一种基于分维度情感分析的电影推荐方法 | |
CN109597879B (zh) | 一种基于“引文关系”数据的业务行为关系抽取方法及装置 | |
Wang et al. | Sentiment detection and visualization of Chinese micro-blog | |
Roy Chowdhury et al. | D-sieve: a novel data processing engine for efficient handling of crises-related social messages | |
St Chifu et al. | Web harvesting and sentiment analysis of consumer feedback |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |