CN106156192A - 舆情数据聚类方法和舆情数据聚类系统 - Google Patents

舆情数据聚类方法和舆情数据聚类系统 Download PDF

Info

Publication number
CN106156192A
CN106156192A CN201510191694.6A CN201510191694A CN106156192A CN 106156192 A CN106156192 A CN 106156192A CN 201510191694 A CN201510191694 A CN 201510191694A CN 106156192 A CN106156192 A CN 106156192A
Authority
CN
China
Prior art keywords
data
public sentiment
sentiment data
relevant
redundant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510191694.6A
Other languages
English (en)
Inventor
郑妍
于晓明
杨建武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University
Priority to CN201510191694.6A priority Critical patent/CN106156192A/zh
Publication of CN106156192A publication Critical patent/CN106156192A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种舆情数据聚类方法和一种舆情数据聚类系统,其中,所述舆情数据聚类方法包括:对社交网络中的当前数据进行冗余过滤,以获取非冗余数据;对所述非冗余数据进行分析,以在所述非冗余数据中确定相关舆情数据;对所述相关舆情数据进行聚类,以在所述相关舆情数据中确定目标舆情数据。通过本发明的技术方案,通过对社交网站中的海量数据进行增量式的聚类,不仅可以使聚类的处理速度可以达到实时性的要求,还可以调整聚类结果,从而避免了聚类出局部片断式的聚类结果,进而提高了聚类结果的准确性。

Description

舆情数据聚类方法和舆情数据聚类系统
技术领域
本发明涉及舆情数据聚类技术领域,具体而言,涉及一种舆情数据聚类方法和一种舆情数据聚类系统。
背景技术
目前,随着互联网技术的不断发展,越来越多的互联网产品逐渐影响着人们的生活,例如微博自推出来就受到了广泛推崇,微博的出现让用户可以随时使用方便的终端设备以简短的文字来分享新闻、图片、视频等各种信息,这种便捷有效的服务使微博俨然成为了新的新闻发布渠道,消息中心、社交网络中心以及娱乐中心。以微博为代表的社交网络等新媒体的兴起,在丰富了大数据的同时,也给数据挖掘和知识发现带来了诸多挑战。如在微博中发现舆情数据正是当前重要的研究课题之一,而舆情数据聚类技术是话题发现的重要手段之一,相关技术中的舆情数据聚类方案主要有如下两方面:
基于全量式的舆情数据聚类方案,常见的舆情数据聚类方案如K-means算法、凝聚式或分裂式的层次聚类方案等,再有将LDA(LatentDirichlet Allocation,文档主体生成模型,也称为三层贝叶斯概率模型)等利用潜在概念的方法引入话题聚类过程改进模型。
基于增量式的舆情数据聚类方案,常见的舆情数据聚类方案如single-pass算法,及在此算法框架基础上的改进模型,如克服single-pass算法受处理顺序影响的问题。
但是,上述提到的两种相关技术中的舆情数据聚类方案存在以下缺点:
基于全量式的舆情数据聚类方案,虽然聚类结果的精度较高,但由于每次计算针对的是全量数据,当应用对象面向海量的微博数据时,其处理速度达不到实时性要求。
基于增量式的舆情数据聚类方案,虽然聚类的处理速度较快,但由于对微博数据进行聚类时采用了single-pass的策略,也决定了聚类结果难于调整,导致产生局部片断式的聚类结果。
因此,在对社交网站如微博中的海量数据进行聚类时,如何保证聚类的处理速度可以达到实时性的要求,同时还可以调整聚类结果,避免了聚类出局部片断式的聚类结果,从而提高了聚类结果的准确性,成为亟待解决的问题。
发明内容
本发明正是基于上述问题,提出了一种新的技术方案,通过对社交网站中的海量数据进行增量式的聚类,不仅可以使聚类的处理速度可以达到实时性的要求,还可以调整聚类结果,从而避免了聚类出局部片断式的聚类结果,进而提高了聚类结果的准确性。
有鉴于此,本发明的一方面提出了一种舆情数据聚类方法,包括:对社交网络中的当前数据进行冗余过滤,以获取非冗余数据;对所述非冗余数据进行分析,以在所述非冗余数据中确定相关舆情数据;对所述相关舆情数据进行聚类,以在所述相关舆情数据中确定目标舆情数据。
在该技术方案中,由于在社交网站(如微博)中的当前数据中存在大量的重复数据,因此,首先对当前数据进行冗余过滤,从而避免了重复数据对聚类结果的影响,进而提高了聚类结果的准确性,并且在进行冗余过滤得到非冗余数据之后,在对非冗余数据进行分析时,在非冗余数据中发现大量的与聚类结果不相关的不相关舆情数据,因此,将不相关舆情数据从非冗余数据中过滤掉,以在非冗余数据中确定相关舆情数据,从而在对相关舆情数据进行聚类时可以提高聚类的效率和速度,即聚类的处理速度可以达到实时性的要求,进而可以实时有效地发现社交网站中的舆情热点话题,另外,上述技术方案支持对海量数据进行增量式地聚类,同时还可以调整聚类结果,即避免了采用迭代的方案进行聚类,从而避免了聚类出局部片断式的聚类结果,进而提高了聚类结果的准确性。
在上述技术方案中,优选地,对所述相关舆情数据进行聚类,以在所述相关舆情数据中确定所述目标舆情数据,具体包括:使用舆情热度值预设公式对所述相关舆情数据进行统计,以确定所述相关舆情数据的舆情热度值;根据所述舆情热度值在所述相关舆情数据中确定第一中心舆情数据和第二中心舆情数据,并将所述第一中心舆情数据和所述第二中心舆情数据作为所述目标舆情数据。
在该技术方案中,由于社交网站如微博有一定的字数限制,则微博中所讨论的话题比较单一或者比较集中,即很少出现话题漂移的现象,即在相关舆情数据中具有相同话题的数据分布相对密集(数据相似度比较高),而具有不同话题的数据分布相对疏远(数据相似度比较低),因此,可以使用舆情热度值预设公式计算相关舆情数据的舆情热度值来确定目标舆情数据,舆情热度值越高相关舆情数据的数据分布相对就比较密集,同时舆情热度值越低相关舆情数据的数据分布相对就比较疏远,从而可以有效地提高了对海量数据进行聚类的准确性和效率,另外,上述技术方案支持对海量数据进行增量式地聚类,同时还可以调整聚类结果,即避免了采用迭代的方案进行聚类,从而避免了聚类出局部片断式的聚类结果,进而提高了聚类结果的准确性。
在上述技术方案中,优选地,对所述非冗余数据进行分析,以在所述非冗余数据中确定所述相关舆情数据,具体包括:根据随机森林算法和预设训练数据,建立随机森林模型;根据所述随机森林模型对所述非冗余数据进行判别和分类,以在所述非冗余数据中确定所述相关舆情数据。
在该技术方案中,通过建立的随机森林模型对非冗余数据进行判别和分类,以确定相关舆情数据,从而将不相关舆情数据从非冗余数据中过滤掉,进而在对相关舆情数据进行聚类时有效地提高了聚类的速度和准确率。
在上述技术方案中,优选地,对所述社交网络中的所述当前数据进行冗余过滤,具体包括:在所述当前数据中确定原创数据,并在所述原创数据中获取多个关键词,以确定所述原创数据的关键词向量;接收建立指令,建立所述原创数据的初始化向量,并根据所述关键词向量将所述初始化向量转化为数据指纹向量;根据所述数据指纹向量,对所述原创数据进行冗余过滤,以确定所述非冗余数据。
在该技术方案中,由于在社交网站(如微博)中的当前数据中存在大量的重复数据,如不同用户对热门微博内容的重复发布,或水军通过多个用户名对微博内容进行炒作,因此,通过对当前数据进行冗余过滤,从而避免了重复数据对聚类结果的影响,进而提高了聚类结果的准确性,另外,面向海量当前数据的文本消重,充分考虑到当前数据的文本表示方式,从而有利于相似计算和减少内存消耗。
在上述技术方案中,优选地,所述舆情热度值预设公式包括文本局部密度预设公式和/或文本距离预设公式,以及所述舆情热度值包括:所述文本局部密度值和/或文本距离值,其中,所述文本局部密度预设公式包括:
ρ i = Σ j = 1 n χ ( d ij - d c ) i , j ∈ [ 1 , n ]
&chi; ( x ) = 1 x < 0 0 x &GreaterEqual; 0
所述文本距离预设公式包括:
&delta; i = min &rho; j > &rho; i ( d ij )
n表示所述相关舆情数据的文本总数,ρi表示第i个所述相关舆情数据的局部密度值,dij表示第i个所述相关舆情数据与第j个所述相关舆情数据的文本相似值,且i不等于j,dc表示相似系数,且dc的取值范围为n×1%至n×2%,δi表示第i个所述相关舆情数据的文本距离。
在该技术方案中,由于目标舆情数据位于数据分布相对密集的区域,因此,可以通过文本局部密度预设公式和/或文本距离预设公式计算出每个相关舆情数据(如每篇微博内容)的文本局部密度值和/或文本距离值,从而确定出第一中心舆情数据,另外,由于在第一中心舆情数据周围包括可能是目标舆情数据的数据,因此,再次通过对文本局部密度值和/或文本距离值进行分析,以确定在第一中心舆情数据周围的第二中心舆情数据,从而可以准确地确定目标舆情数据,进而提高了对海量数据的增量式聚类的效率和速度,另外,上述技术方案可以提供任意时间片断上的快速有效地聚类结果,从而避免了产生局部片断式的聚类结果。
本发明的另一方面提出了一种舆情数据聚类系统,包括:冗余过滤单元,用于对社交网络中的当前数据进行冗余过滤,以获取非冗余数据;第一确定单元,用于对所述非冗余数据进行分析,以在所述非冗余数据中确定相关舆情数据;聚类单元,用于对所述相关舆情数据进行聚类,以在所述相关舆情数据中确定目标舆情数据。
在该技术方案中,由于在社交网站(如微博)中的当前数据中存在大量的重复数据,因此,首先对当前数据进行冗余过滤,从而避免了重复数据对聚类结果的影响,进而提高了聚类结果的准确性,并且在进行冗余过滤得到非冗余数据之后,在对非冗余数据进行分析时,在非冗余数据中发现大量的与聚类结果不相关的不相关舆情数据,因此,将不相关舆情数据从非冗余数据中过滤掉,以在非冗余数据中确定相关舆情数据,从而在对相关舆情数据进行聚类时可以提高聚类的效率和速度,即聚类的处理速度可以达到实时性的要求,进而可以实时有效地发现社交网站中的舆情热点话题,另外,上述技术方案支持对海量数据进行增量式地聚类,同时还可以调整聚类结果,即避免了采用迭代的方案进行聚类,从而避免了聚类出局部片断式的聚类结果,进而提高了聚类结果的准确性。
在上述技术方案中,优选地,所述聚类单元包括:统计单元,用于使用舆情热度值预设公式对所述相关舆情数据进行统计,以确定所述相关舆情数据的舆情热度值;第二确定单元,用于根据所述舆情热度值在所述相关舆情数据中确定第一中心舆情数据和第二中心舆情数据,并将所述第一中心舆情数据和所述第二中心舆情数据作为所述目标舆情数据。
在该技术方案中,由于社交网站如微博有一定的字数限制,则微博中所讨论的话题比较单一或者比较集中,即很少出现话题漂移的现象,即在相关舆情数据中具有相同话题的数据分布相对密集(数据相似度比较高),而具有不同话题的数据分布相对疏远(数据相似度比较低),因此,可以使用舆情热度值预设公式计算相关舆情数据的舆情热度值来确定目标舆情数据,舆情热度值越高相关舆情数据的数据分布相对就比较密集,同时舆情热度值越低相关舆情数据的数据分布相对就比较疏远,从而可以有效地提高了对海量数据进行聚类的准确性和效率,另外,上述技术方案支持对海量数据进行增量式地聚类,同时还可以调整聚类结果,即避免了采用迭代的方案进行聚类,从而避免了聚类出局部片断式的聚类结果,进而提高了聚类结果的准确性。
在上述技术方案中,优选地,所述第一确定单元包括:建立单元,用于根据随机森林算法和预设训练数据,建立随机森林模型;所述第一确定单元具体用于:根据所述随机森林模型对所述非冗余数据进行判别和分类,以在所述非冗余数据中确定所述相关舆情数据。
在该技术方案中,通过建立的随机森林模型对非冗余数据进行判别和分类,以确定相关舆情数据,从而将不相关舆情数据从非冗余数据中过滤掉,进而在对相关舆情数据进行聚类时有效地提高了聚类的速度和准确率。
在上述技术方案中,优选地,所述冗余过滤单元包括:第三确定单元,用于在所述当前数据中确定原创数据,并在所述原创数据中获取多个关键词,以确定所述原创数据的关键词向量;转化单元,用于接收建立指令,建立所述原创数据的初始化向量,并根据所述关键词向量将所述初始化向量转化为数据指纹向量;所述第三确定单元具体用于:根据所述数据指纹向量,对所述原创数据进行冗余过滤,以确定所述非冗余数据。
在该技术方案中,由于在社交网站(如微博)中的当前数据中存在大量的重复数据,如不同用户对热门微博内容的重复发布,或水军通过多个用户名对微博内容进行炒作,因此,通过对当前数据进行冗余过滤,从而避免了重复数据对聚类结果的影响,进而提高了聚类结果的准确性,另外,面向海量当前数据的文本消重,充分考虑到当前数据的文本表示方式,从而有利于相似计算和减少内存消耗。
在上述技术方案中,优选地,所述舆情热度值预设公式包括文本局部密度预设公式和/或文本距离预设公式,以及所述舆情热度值包括:所述文本局部密度值和/或文本距离值,其中,所述文本局部密度预设公式包括:
&rho; i = &Sigma; j = 1 n &chi; ( d ij - d c ) i , j &Element; [ 1 , n ]
&chi; ( x ) = 1 x < 0 0 x &GreaterEqual; 0
所述文本距离预设公式包括:
&delta; i = min &rho; j > &rho; i ( d ij )
n表示所述相关舆情数据的文本总数,ρi表示第i个所述相关舆情数据的局部密度值,dij表示第i个所述相关舆情数据与第j个所述相关舆情数据的文本相似值,且i不等于j,dc表示相似系数,且dc的取值范围为n×1%至n×2%,δi表示第i个所述相关舆情数据的文本距离。
在该技术方案中,由于目标舆情数据位于数据分布相对密集的区域,因此,可以通过文本局部密度预设公式和/或文本距离预设公式计算出每个相关舆情数据(如每篇微博内容)的文本局部密度值和/或文本距离值,从而确定出第一中心舆情数据,另外,由于在第一中心舆情数据周围包括可能是目标舆情数据的数据,因此,再次通过对文本局部密度值和/或文本距离值进行分析,以确定在第一中心舆情数据周围的第二中心舆情数据,从而可以准确地确定目标舆情数据,进而提高了对海量数据的增量式聚类的效率和速度,另外,上述技术方案可以提供任意时间片断上的快速有效地聚类结果,从而避免了产生局部片断式的聚类结果。
通过本发明的技术方案,通过对社交网站中的海量数据进行增量式的聚类,不仅可以使聚类的处理速度可以达到实时性的要求,还可以调整聚类结果,从而避免了聚类出局部片断式的聚类结果,进而提高了聚类结果的准确性。
附图说明
图1示出了根据本发明的一个实施例的舆情数据聚类方法的流程示意图;
图2示出了根据本发明的一个实施例的舆情数据聚类系统的结构示意图;
图3示出了根据本发明的另一个实施例的舆情数据聚类方法的流程示意图。
具体实施方式
为了可以更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明的一个实施例的舆情数据聚类方法的流程示意图。
如图1所示,根据本发明的一个实施例的舆情数据聚类方法,包括:
步骤102,对社交网络中的当前数据进行冗余过滤,以获取非冗余数据;
步骤104,对所述非冗余数据进行分析,以在所述非冗余数据中确定相关舆情数据;
步骤106,对所述相关舆情数据进行聚类,以在所述相关舆情数据中确定目标舆情数据。
在该技术方案中,由于在社交网站(如微博)中的当前数据中存在大量的重复数据,因此,首先对当前数据进行冗余过滤,从而避免了重复数据对聚类结果的影响,进而提高了聚类结果的准确性,并且在进行冗余过滤得到非冗余数据之后,在对非冗余数据进行分析时,在非冗余数据中发现大量的与聚类结果不相关的不相关舆情数据,因此,将不相关舆情数据从非冗余数据中过滤掉,以在非冗余数据中确定相关舆情数据,从而在对相关舆情数据进行聚类时可以提高聚类的效率和速度,即聚类的处理速度可以达到实时性的要求,进而可以实时有效地发现社交网站中的舆情热点话题,另外,上述技术方案支持对海量数据进行增量式地聚类,同时还可以调整聚类结果,即避免了采用迭代的方案进行聚类,从而避免了聚类出局部片断式的聚类结果,进而提高了聚类结果的准确性。
在上述技术方案中,优选地,步骤106具体包括:使用舆情热度值预设公式对所述相关舆情数据进行统计,以确定所述相关舆情数据的舆情热度值;根据所述舆情热度值在所述相关舆情数据中确定第一中心舆情数据和第二中心舆情数据,并将所述第一中心舆情数据和所述第二中心舆情数据作为所述目标舆情数据。
在该技术方案中,由于社交网站如微博有一定的字数限制,则微博中所讨论的话题比较单一或者比较集中,即很少出现话题漂移的现象,即在相关舆情数据中具有相同话题的数据分布相对密集(数据相似度比较高),而具有不同话题的数据分布相对疏远(数据相似度比较低),因此,可以使用舆情热度值预设公式计算相关舆情数据的舆情热度值来确定目标舆情数据,舆情热度值越高相关舆情数据的数据分布相对就比较密集,同时舆情热度值越低相关舆情数据的数据分布相对就比较疏远,从而可以有效地提高了对海量数据进行聚类的准确性和效率,另外,上述技术方案支持对海量数据进行增量式地聚类,同时还可以调整聚类结果,即避免了采用迭代的方案进行聚类,从而避免了聚类出局部片断式的聚类结果,进而提高了聚类结果的准确性。
在上述技术方案中,优选地,步骤104具体包括:根据随机森林算法和预设训练数据,建立随机森林模型;根据所述随机森林模型对所述非冗余数据进行判别和分类,以在所述非冗余数据中确定所述相关舆情数据。
在该技术方案中,通过建立的随机森林模型对非冗余数据进行判别和分类,以确定相关舆情数据,从而将不相关舆情数据从非冗余数据中过滤掉,进而在对相关舆情数据进行聚类时有效地提高了聚类的速度和准确率。
在上述技术方案中,优选地,步骤102具体包括:在所述当前数据中确定原创数据,并在所述原创数据中获取多个关键词,以确定所述原创数据的关键词向量;接收建立指令,建立所述原创数据的初始化向量,并根据所述关键词向量将所述初始化向量转化为数据指纹向量;根据所述数据指纹向量,对所述原创数据进行冗余过滤,以确定所述非冗余数据。
在该技术方案中,由于在社交网站(如微博)中的当前数据中存在大量的重复数据,如不同用户对热门微博内容的重复发布,或水军通过多个用户名对微博内容进行炒作,因此,通过对当前数据进行冗余过滤,从而避免了重复数据对聚类结果的影响,进而提高了聚类结果的准确性,另外,面向海量当前数据的文本消重,充分考虑到当前数据的文本表示方式,从而有利于相似计算和减少内存消耗。
在上述技术方案中,优选地,所述舆情热度值预设公式包括文本局部密度预设公式和/或文本距离预设公式,以及所述舆情热度值包括:所述文本局部密度值和/或文本距离值,其中,所述文本局部密度预设公式包括:
&rho; i = &Sigma; j = 1 n &chi; ( d ij - d c ) i , j &Element; [ 1 , n ]
&chi; ( x ) = 1 x < 0 0 x &GreaterEqual; 0
所述文本距离预设公式包括:
&delta; i = min &rho; j > &rho; i ( d ij )
n表示所述相关舆情数据的文本总数,ρi表示第i个所述相关舆情数据的局部密度值,dij表示第i个所述相关舆情数据与第j个所述相关舆情数据的文本相似值,且i不等于j,dc表示相似系数,且dc的取值范围为n×1%至n×2%,δi表示第i个所述相关舆情数据的文本距离。
在该技术方案中,由于目标舆情数据位于数据分布相对密集的区域,因此,可以通过文本局部密度预设公式和/或文本距离预设公式计算出每个相关舆情数据(如每篇微博内容)的文本局部密度值和/或文本距离值,从而确定出第一中心舆情数据,另外,由于在第一中心舆情数据周围包括可能是目标舆情数据的数据,因此,再次通过对文本局部密度值和/或文本距离值进行分析,以确定在第一中心舆情数据周围的第二中心舆情数据,从而可以准确地确定目标舆情数据,进而提高了对海量数据的增量式聚类的效率和速度,另外,上述技术方案可以提供任意时间片断上的快速有效地聚类结果,从而避免了产生局部片断式的聚类结果。
图2示出了根据本发明的一个实施例的舆情数据聚类系统的结构示意图。
如图2所示,根据本发明的一个实施例的舆情数据聚类系统200,包括:冗余过滤单元202,用于对社交网络中的当前数据进行冗余过滤,以获取非冗余数据;第一确定单元204,用于对所述非冗余数据进行分析,以在所述非冗余数据中确定相关舆情数据;聚类单元206,用于对所述相关舆情数据进行聚类,以在所述相关舆情数据中确定目标舆情数据。
在该技术方案中,由于在社交网站(如微博)中的当前数据中存在大量的重复数据,因此,首先对当前数据进行冗余过滤,从而避免了重复数据对聚类结果的影响,进而提高了聚类结果的准确性,并且在进行冗余过滤得到非冗余数据之后,在对非冗余数据进行分析时,在非冗余数据中发现大量的与聚类结果不相关的不相关舆情数据,因此,将不相关舆情数据从非冗余数据中过滤掉,以在非冗余数据中确定相关舆情数据,从而在对相关舆情数据进行聚类时可以提高聚类的效率和速度,即聚类的处理速度可以达到实时性的要求,进而可以实时有效地发现社交网站中的舆情热点话题,另外,上述技术方案支持对海量数据进行增量式地聚类,同时还可以调整聚类结果,即避免了采用迭代的方案进行聚类,从而避免了聚类出局部片断式的聚类结果,进而提高了聚类结果的准确性。
在上述技术方案中,优选地,所述聚类单元206包括:统计单元2062,用于使用舆情热度值预设公式对所述相关舆情数据进行统计,以确定所述相关舆情数据的舆情热度值;第二确定单元2064,用于根据所述舆情热度值在所述相关舆情数据中确定第一中心舆情数据和第二中心舆情数据,并将所述第一中心舆情数据和所述第二中心舆情数据作为所述目标舆情数据。
在该技术方案中,由于社交网站如微博有一定的字数限制,则微博中所讨论的话题比较单一或者比较集中,即很少出现话题漂移的现象,即在相关舆情数据中具有相同话题的数据分布相对密集(数据相似度比较高),而具有不同话题的数据分布相对疏远(数据相似度比较低),因此,可以使用舆情热度值预设公式计算相关舆情数据的舆情热度值来确定目标舆情数据,舆情热度值越高相关舆情数据的数据分布相对就比较密集,同时舆情热度值越低相关舆情数据的数据分布相对就比较疏远,从而可以有效地提高了对海量数据进行聚类的准确性和效率,另外,上述技术方案支持对海量数据进行增量式地聚类,同时还可以调整聚类结果,即避免了采用迭代的方案进行聚类,从而避免了聚类出局部片断式的聚类结果,进而提高了聚类结果的准确性。
在上述技术方案中,优选地,所述第一确定单元204包括:建立单元2042,用于根据随机森林算法和预设训练数据,建立随机森林模型;所述第一确定单元204具体用于:根据所述随机森林模型对所述非冗余数据进行判别和分类,以在所述非冗余数据中确定所述相关舆情数据。
在该技术方案中,通过建立的随机森林模型对非冗余数据进行判别和分类,以确定相关舆情数据,从而将不相关舆情数据从非冗余数据中过滤掉,进而在对相关舆情数据进行聚类时有效地提高了聚类的速度和准确率。
在上述技术方案中,优选地,所述冗余过滤单元202包括:第三确定单元2022,用于在所述当前数据中确定原创数据,并在所述原创数据中获取多个关键词,以确定所述原创数据的关键词向量;转化单元2024,用于接收建立指令,建立所述原创数据的初始化向量,并根据所述关键词向量将所述初始化向量转化为数据指纹向量;所述第三确定单元2022具体用于:根据所述数据指纹向量,对所述原创数据进行冗余过滤,以确定所述非冗余数据。
在该技术方案中,由于在社交网站(如微博)中的当前数据中存在大量的重复数据,如不同用户对热门微博内容的重复发布,或水军通过多个用户名对微博内容进行炒作,因此,通过对当前数据进行冗余过滤,从而避免了重复数据对聚类结果的影响,进而提高了聚类结果的准确性,另外,面向海量当前数据的文本消重,充分考虑到当前数据的文本表示方式,从而有利于相似计算和减少内存消耗。
在上述技术方案中,优选地,所述舆情热度值预设公式包括文本局部密度预设公式和/或文本距离预设公式,以及所述舆情热度值包括:所述文本局部密度值和/或文本距离值,其中,所述文本局部密度预设公式包括:
&rho; i = &Sigma; j = 1 n &chi; ( d ij - d c ) i , j &Element; [ 1 , n ]
&chi; ( x ) = 1 x < 0 0 x &GreaterEqual; 0
所述文本距离预设公式包括:
&delta; i = min &rho; j > &rho; i ( d ij )
n表示所述相关舆情数据的文本总数,ρi表示第i个所述相关舆情数据的局部密度值,dij表示第i个所述相关舆情数据与第j个所述相关舆情数据的文本相似值,且i不等于j,dc表示相似系数,且dc的取值范围为n×1%至n×2%,δi表示第i个所述相关舆情数据的文本距离。
在该技术方案中,由于目标舆情数据位于数据分布相对密集的区域,因此,可以通过文本局部密度预设公式和/或文本距离预设公式计算出每个相关舆情数据(如每篇微博内容)的文本局部密度值和/或文本距离值,从而确定出第一中心舆情数据,另外,由于在第一中心舆情数据周围包括可能是目标舆情数据的数据,因此,再次通过对文本局部密度值和/或文本距离值进行分析,以确定在第一中心舆情数据周围的第二中心舆情数据,从而可以准确地确定目标舆情数据,进而提高了对海量数据的增量式聚类的效率和速度,另外,上述技术方案可以提供任意时间片断上的快速有效地聚类结果,从而避免了产生局部片断式的聚类结果。
图3示出了根据本发明的另一个实施例的舆情数据聚类方法的流程示意图。
如图3所示,根据本发明的另一个实施例的舆情数据聚类方法,包括:
步骤302,基于数据指纹向量的冗余数据过滤,具体地,通过对海量的社交网络中的当前数据如微博数据进行分析,发现存在大量的重复数据,如不同用户对热门微博内容的重复发布,又如水军通过多个用户对微博内容进行炒作,这些重复数据对聚类结果有较大的影响,而且面向海量的微博数据的消重,需要充分考虑到微博数据的文本表示方式,有利于相似计算及减少内存消耗。
基于simhash指纹信息的冗余数据过滤步骤为:
1.在微博中采集海量的微博数据,在微博数据中过滤出原创微博数据;
2.对原创微博数据进行分词并提取关键词,因此一篇原创微博数据由一组关键词向量组成;
3.初始化一个64维的向量V(初始化向量),初始化元素值为0;
4.对于关键词向量中的每一个关键词,利用hash算法映射为一个64维的向量,如果该向量的第i维为1,则向量V上对应的第i维加1,否则减1;
5.对关键词向量中每个关键词迭代上述4过程;
6.如果向量V的第i维为正数,则化为1,如果向量V的第i维为负数,则化为0,至此,将向量V转化为一个64位的由01组成的数据指纹向量。
7.对原创微博数据迭代上述3-6过程,将每篇原创微博数据都会转化为一个64位的数据指纹向量。
8.对具有相同的数据指纹向量的原创微博数据进行冗余过滤,以确定非冗余数据。
步骤304,基于自动分类的不相关舆情数据过滤,具体如下所示:
通过对非冗余数据进行分析,发现存在大量的非舆情数据,对非冗余数据进行分类可以包括大量类别,如IT、人文艺术、传媒、体育、健康、动漫、女性、娱乐、广告公共、房产、教育、文学出版、旅游、时尚、汽车、游戏、生活、美食、育儿、财经等等,这些类别对于不同的舆情应用,有些是重点舆情类别,而有些则是非舆情类别无需考虑。
基于随机森林的非舆情数据过滤步骤为:
1.根据不同舆情应用需求,建立分类体系,准备预设训练数据,如垃圾类中包括广告公共、游戏等,舆情无关类中包括时尚、美食、育儿等,舆情相关类中包括传媒、房产、教育、财经等。
2.构建大量的决策树分类器;
a)对于每一棵树,从预设训练数据中有放回的随机抽取出指定个数的数据样本作为该棵树的样本子空间;
b)对于每一个节点,从预设训练数据的原始属性集中有放回的随机抽取出指定个数的属性形成该棵树的特征子空间,通过采用经典的C4.5算法计算每个特征属性的分裂值,最后将最优的结果作为该节点分裂的准则;
c)在每个样本子空间上按上述节点分裂原则构建一棵无需剪枝的决策树。
3.将这些决策树分类器进行集成投票表决。
a)采用直接投票方式,每个分类器对文本进行投票表决;
b)对所有分类器的投票结果进行统计决策。
4.利用上述构建的随机森林模型对非冗余数据进行分类,从而确定相关舆情数据。
步骤306,基于核心点搜索的话题聚类,具体如下所示:
通过对相关舆情数据分析发现,由于微博数据限制在140个字,因此一条微博数据中所讨论的话题比较单一或者比较集中,相比长文本很少出现话题漂移现象,这种现象对于聚类来说,是非常有利的,即讨论相同主题的相关舆情数据的分布相对集密,而讨论不同主题的相关舆情数据的分布相对疏远,对于这种现象进行算法描述,并支持对海量数据增量式计算方式。
基于核心点搜索的话题聚类方法步骤为:
1.对相关舆情数据进行分词并提取关键词,因此一篇相关舆情数据由一组关键词向量组成,从而为相关舆情数据建立一个向量空间模型。
2.考虑到聚类中心(目标舆情数据)应该位于数据密度分布高的区域,即聚类中心由一些局部密度比较低的相关舆情数据围绕,有:
a)通过文本局部密度预设公式计算第i个相关舆情数据的文本局部密度值ρi,即相关舆情数据的距离小于dc的个数,其中,文本局部密度预设公式包括:
&rho; i = &Sigma; j = 1 n &chi; ( d ij - d c ) i , j &Element; [ 1 , n ]
其中:
&chi; ( x ) = 1 x < 0 0 x &GreaterEqual; 0
n表示相关舆情数据的文本总数,ρi表示第i个相关舆情数据的局部密度值,dij表示第i个相关舆情数据与第j个相关舆情数据的文本相似值,且i不等于j,dc表示相似系数,且dc的取值范围为n×1%至n×2%,δi表示第i个相关舆情数据的文本距离。
b)dc是一个超参数,表示计算第i个相关舆情数据的局部密度ρi的截断距离,根据相关舆情数据中每个相关舆情数据的邻居数为相关舆情数据的文本总数的1%-2%,假设相关舆情数据的总数为n,伪代码有:
c)上述过程中Distance(i,j)表示在向量空间模型中计算两个相关舆情数据之间的距离;
3.考虑到聚类中心距离其他高局部的聚类中心的距离比较大,即一个聚类中心与另一个聚类中心应该保持相对大的距离,使用文本距离预设公式计算第i个相关舆情数据到具有高局部密度的相关舆情数据(ρj,如果ρj>ρi,则确定ρj为高局部密度的相关舆情数据)的文本距离值δi,其中,文本距离预设公式包括:
&delta; i = min &rho; j > &rho; i ( d ij )
4.对所有的相关舆情数据迭代上述2-3过程,即计算出所有相关舆情数据的文本局部密度值ρi和其到具有高局部密度的相关舆情数据的文本距离δi后,将计算得到的ρi和δi均按照从大到小排序,设置阀值M,确定ρi中前M个相关舆情数据与δi中前M个相关舆情数据中的交集数据,此交集数据即为聚类中心(第一中心舆情数据),并确定与聚类中心对应的类别标记;
5.对于非聚类中心的相关舆情数据,按照ρi的排序的顺序依次确定所属类别,有:
a)对于非聚类中心的相关舆情数据j,根据前述Distance(i,j)的计算结果将文本距离值按照从小到大排序;
b)按照排序的顺序,找到第一个被标记类别的样本数据(第二中心舆情数据);
c)将此样本数据的类别标记,作为样本数据j的类别标记;
d)按照ρi的排序,对所有非聚类中心的相关舆情数据j迭代上述a-c过程,最终没有确定所属类别的为孤点;
上述1-3过程为此聚类算法的增量计算部分,即对海量数据增量的计算ρi与δi值,是实施聚类计算的基础性依据,在此基础上,根据上述4-5过程,可以提供任意时间片断上的快速有效的聚类结果。
以上结合附图详细说明了本发明的技术方案,通过对社交网站中的海量数据进行增量式的聚类,不仅可以使聚类的处理速度可以达到实时性的要求,还可以调整聚类结果,从而避免了聚类出局部片断式的聚类结果,进而提高了聚类结果的准确性。
在本发明中,术语“第一”、“第二”、“第三”仅用于描述的目的,而不能理解为指示或暗示相对重要性;术语“多个”表示两个或两个以上。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种舆情数据聚类方法,其特征在于,包括:
对社交网络中的当前数据进行冗余过滤,以获取非冗余数据;
对所述非冗余数据进行分析,以在所述非冗余数据中确定相关舆情数据;
对所述相关舆情数据进行聚类,以在所述相关舆情数据中确定目标舆情数据。
2.根据权利要求1所述的舆情数据聚类方法,其特征在于,对所述相关舆情数据进行聚类,以在所述相关舆情数据中确定所述目标舆情数据,具体包括:
使用舆情热度值预设公式对所述相关舆情数据进行统计,以确定所述相关舆情数据的舆情热度值;
根据所述舆情热度值在所述相关舆情数据中确定第一中心舆情数据和第二中心舆情数据,并将所述第一中心舆情数据和所述第二中心舆情数据作为所述目标舆情数据。
3.根据权利要求2所述的舆情数据聚类方法,其特征在于,对所述非冗余数据进行分析,以在所述非冗余数据中确定所述相关舆情数据,具体包括:
根据随机森林算法和预设训练数据,建立随机森林模型;
根据所述随机森林模型对所述非冗余数据进行判别和分类,以在所述非冗余数据中确定所述相关舆情数据。
4.根据权利要求3所述的舆情数据聚类方法,其特征在于,对所述社交网络中的所述当前数据进行冗余过滤,具体包括:
在所述当前数据中确定原创数据,并在所述原创数据中获取多个关键词,以确定所述原创数据的关键词向量;
接收建立指令,建立所述原创数据的初始化向量,并根据所述关键词向量将所述初始化向量转化为数据指纹向量;
根据所述数据指纹向量,对所述原创数据进行冗余过滤,以确定所述非冗余数据。
5.根据权利要求1至4中任一项所述的舆情数据聚类方法,其特征在于,所述舆情热度值预设公式包括文本局部密度预设公式和/或文本距离预设公式,以及所述舆情热度值包括:所述文本局部密度值和/或文本距离值,其中,所述文本局部密度预设公式包括:
&rho; i = &Sigma; j = 1 n &chi; ( d ij - d c ) i , j &Element; [ 1 , n ]
&chi; ( x ) = 1 x < 0 0 x &GreaterEqual; 0
所述文本距离预设公式包括:
&delta; i = min &rho; j > &rho; i ( d ij )
n表示所述相关舆情数据的文本总数,ρi表示第i个所述相关舆情数据的局部密度值,dij表示第i个所述相关舆情数据与第j个所述相关舆情数据的文本相似值,且i不等于j,dc表示相似系数,且dc的取值范围为n×1%至n×2%,δi表示第i个所述相关舆情数据的文本距离。
6.一种舆情数据聚类系统,其特征在于,包括:
冗余过滤单元,用于对社交网络中的当前数据进行冗余过滤,以获取非冗余数据;
第一确定单元,用于对所述非冗余数据进行分析,以在所述非冗余数据中确定相关舆情数据;
聚类单元,用于对所述相关舆情数据进行聚类,以在所述相关舆情数据中确定目标舆情数据。
7.根据权利要求6所述的舆情数据聚类系统,其特征在于,所述聚类单元包括:
统计单元,用于使用舆情热度值预设公式对所述相关舆情数据进行统计,以确定所述相关舆情数据的舆情热度值;
第二确定单元,用于根据所述舆情热度值在所述相关舆情数据中确定第一中心舆情数据和第二中心舆情数据,并将所述第一中心舆情数据和所述第二中心舆情数据作为所述目标舆情数据。
8.根据权利要求7所述的舆情数据聚类系统,其特征在于,所述第一确定单元包括:
建立单元,用于根据随机森林算法和预设训练数据,建立随机森林模型;
所述第一确定单元具体用于:根据所述随机森林模型对所述非冗余数据进行判别和分类,以在所述非冗余数据中确定所述相关舆情数据。
9.根据权利要求8所述的舆情数据聚类系统,其特征在于,所述冗余过滤单元包括:
第三确定单元,用于在所述当前数据中确定原创数据,并在所述原创数据中获取多个关键词,以确定所述原创数据的关键词向量;
转化单元,用于接收建立指令,建立所述原创数据的初始化向量,并根据所述关键词向量将所述初始化向量转化为数据指纹向量;
所述第三确定单元具体用于:根据所述数据指纹向量,对所述原创数据进行冗余过滤,以确定所述非冗余数据。
10.根据权利要求6至9中任一项所述的舆情数据聚类系统,其特征在于,所述舆情热度值预设公式包括文本局部密度预设公式和/或文本距离预设公式,以及所述舆情热度值包括:所述文本局部密度值和/或文本距离值,其中,所述文本局部密度预设公式包括:
&rho; i = &Sigma; j = 1 n &chi; ( d ij - d c ) i , j &Element; [ 1 , n ]
&chi; ( x ) = 1 x < 0 0 x &GreaterEqual; 0
所述文本距离预设公式包括:
&delta; i = min &rho; j > &rho; i ( d ij )
n表示所述相关舆情数据的文本总数,ρi表示第i个所述相关舆情数据的局部密度值,dij表示第i个所述相关舆情数据与第j个所述相关舆情数据的文本相似值,且i不等于j,dc表示相似系数,且dc的取值范围为n×1%至n×2%,δi表示第i个所述相关舆情数据的文本距离。
CN201510191694.6A 2015-04-21 2015-04-21 舆情数据聚类方法和舆情数据聚类系统 Pending CN106156192A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510191694.6A CN106156192A (zh) 2015-04-21 2015-04-21 舆情数据聚类方法和舆情数据聚类系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510191694.6A CN106156192A (zh) 2015-04-21 2015-04-21 舆情数据聚类方法和舆情数据聚类系统

Publications (1)

Publication Number Publication Date
CN106156192A true CN106156192A (zh) 2016-11-23

Family

ID=58058891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510191694.6A Pending CN106156192A (zh) 2015-04-21 2015-04-21 舆情数据聚类方法和舆情数据聚类系统

Country Status (1)

Country Link
CN (1) CN106156192A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229909A (zh) * 2017-12-14 2018-06-29 四川虹慧云商科技有限公司 一种居民事务处理方法
CN109508358A (zh) * 2018-10-19 2019-03-22 湖南工学院 一种基于复合优化分析的企业管理效率测度方法
CN110196907A (zh) * 2019-04-15 2019-09-03 中国石油大学(华东) 一种多层次文本聚类方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853261A (zh) * 2009-11-23 2010-10-06 电子科技大学 一种基于社会网络的网络舆情行为分析方法
CN101980199A (zh) * 2010-10-28 2011-02-23 北京交通大学 基于态势评估的网络热点话题发现方法及系统
CN102194001A (zh) * 2011-05-17 2011-09-21 杭州电子科技大学 网络舆情危机预警方法
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853261A (zh) * 2009-11-23 2010-10-06 电子科技大学 一种基于社会网络的网络舆情行为分析方法
CN101980199A (zh) * 2010-10-28 2011-02-23 北京交通大学 基于态势评估的网络热点话题发现方法及系统
CN102194001A (zh) * 2011-05-17 2011-09-21 杭州电子科技大学 网络舆情危机预警方法
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
RODRIGUEZ A ET AL: "Clustering by fast search and find of density peaks", 《SCIENCE》 *
吴坚等: "基于随机森林算法的网络舆情文本信息分类方法研究", 《技术研究》 *
张寿华等: "网络舆情热点话题聚类方法研究", 《小型微型计算机系统》 *
项斌: "网络舆情监测系统设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229909A (zh) * 2017-12-14 2018-06-29 四川虹慧云商科技有限公司 一种居民事务处理方法
CN109508358A (zh) * 2018-10-19 2019-03-22 湖南工学院 一种基于复合优化分析的企业管理效率测度方法
CN109508358B (zh) * 2018-10-19 2021-07-23 湖南工学院 一种基于复合优化分析的企业管理效率测度方法
CN110196907A (zh) * 2019-04-15 2019-09-03 中国石油大学(华东) 一种多层次文本聚类方法和装置

Similar Documents

Publication Publication Date Title
CN103678670B (zh) 一种微博热词与热点话题挖掘系统及方法
Putri et al. Latent Dirichlet allocation (LDA) for sentiment analysis toward tourism review in Indonesia
CN103745000B (zh) 一种中文微博客的热点话题检测方法
CN102289522B (zh) 一种对于文本智能分类的方法
CN105760888B (zh) 一种基于属性聚类的邻域粗糙集集成学习方法
CN108897784A (zh) 一个基于社交媒体的突发事件多维分析系统
CN107908715A (zh) 基于Adaboost和分类器加权融合的微博情感极性判别方法
CN107577688A (zh) 基于媒体信息采集的原创文章影响力分析系统
CN100495408C (zh) 一种文本聚类元学习方法及装置
CN105045812A (zh) 文本主题的分类方法及系统
CN107291847A (zh) 一种基于MapReduce的大规模数据分布式聚类处理方法
CN103995804B (zh) 基于多模态信息融合与图聚类的跨媒体话题检测方法、装置
CN104702465B (zh) 一种并行网络流量分类方法
CN104008165A (zh) 一种基于网络拓扑结构和节点属性的社团检测方法
Tang et al. Medium-and long-term precipitation forecasting method based on data augmentation and machine learning algorithms
Goyal et al. Multilevel event detection, storyline generation, and summarization for tweet streams
CN103473231A (zh) 分类器构建方法和系统
CN103412878B (zh) 基于领域知识地图社区结构的文档主题划分方法
CN105869058B (zh) 一种多层潜变量模型用户画像提取的方法
CN107145907A (zh) 一种基于k均值样本预选的支持向量机主动学习方法
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
CN106156192A (zh) 舆情数据聚类方法和舆情数据聚类系统
Peng et al. Emerging topic detection from microblog streams based on emerging pattern mining
CN109271513A (zh) 一种文本分类方法、计算机可读储存介质及系统
CN106897276A (zh) 一种互联网数据聚类方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161123

RJ01 Rejection of invention patent application after publication