CN103150335A - 一种基于联合聚类的煤矿舆情监测系统 - Google Patents

一种基于联合聚类的煤矿舆情监测系统 Download PDF

Info

Publication number
CN103150335A
CN103150335A CN201310039173XA CN201310039173A CN103150335A CN 103150335 A CN103150335 A CN 103150335A CN 201310039173X A CN201310039173X A CN 201310039173XA CN 201310039173 A CN201310039173 A CN 201310039173A CN 103150335 A CN103150335 A CN 103150335A
Authority
CN
China
Prior art keywords
bunch
document
feature words
public sentiment
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310039173XA
Other languages
English (en)
Inventor
刘永利
贾宗璞
王建芳
韩秀娟
杜守恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Technology
Original Assignee
Henan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Technology filed Critical Henan University of Technology
Priority to CN201310039173XA priority Critical patent/CN103150335A/zh
Publication of CN103150335A publication Critical patent/CN103150335A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于联合聚类的煤矿舆情监测系统,该系统包括数据采集与内容过滤模块、数据预处理模块、煤矿舆情分析模块和舆情结果呈现模块。煤矿舆情分析模块是该系统中的核心模块,采用了Web数据挖掘领域中的聚类算法,发明人在基于信息瓶颈理论的增量聚类方法的基础上,充分考虑了部分特征以及特征和特征间的相关性,从而提高了聚类结果的准确性和精确性。该系统面向微博、博客、论坛以及门户网站等网络资源,所采集的信息经去重、中文分词、停用词过滤等数据预处理步骤后,建立煤矿舆情库,同时基于文本分类、文本聚类等数据挖掘算法进行热点发现以及舆情热度分析,最后以数据性图标以及舆情报表的形式给出监测结果。

Description

一种基于联合聚类的煤矿舆情监测系统
技术领域
本申请属于煤矿数据分析和数据挖掘领域。
背景技术
国内的网络舆情研究始于2005年,目前已成为相关学科领域专家的关注热点,方兴未艾。目前的舆情研究多以群体事件、司法事件或政治事件为研究着力点,面向公共舆情为主。“煤矿舆情”作为涉及煤矿生产、传播学、中文信息处理与计算机网络的交叉研究领域,始于2010年前后,至今仍鲜有应用。近两年来,煤矿生产的相关舆论热点不断在网络上涌现,煤矿生产秩序、煤矿安全与煤矿制度及监管三者在更深层次上开始互动,新时期多种语言、文化和社会关系的博弈,通过网络平台体现出来。煤矿舆情呈现出“热点频度高、指向煤矿生产重大问题、诱发群体事件”的趋势。
以微博、博客、社交网络、即时通讯系统为代表的自媒体(We Media)打破信息的控制和垄断,在网络上人们自由表达自己的态度和意见,不再像过去那么容易地无条件接受,相反,不同阶层的利益诉求纷纷呈现,不同思想观点正面碰撞。在这种情况下,建设能够覆盖多数据源的煤矿舆情监测系统十分必要,此类系统可针对新的媒介传播环境,进一步深入研究煤矿舆情的热点研判方法以及自媒体带来的影响,对煤矿舆情研究进行丰富和完善。
目前为止,尚未有与Web信息检索技术相结合的煤矿舆情监测系统。
发明内容
本发明提出一种基于联合聚类的煤矿舆情监测系统,该系统包括数据采集与内容过滤模块、数据预处理模块、煤矿舆情分析模块和舆情结果呈现模块,其中数据采集与内容过滤模块通过指定关键词、来源URL或信息主题,在源数据中过滤出煤矿领域信息;数据预处理模块包括正文抽取子模块、中文分词子模块、停用词过滤子模块、舆情热度提取子模块;煤矿舆情分析模块以数据预处理模块中的数据为基础,采用联合聚类算法发现舆情的热点;舆情结果呈现模块以图表或报告形式输出舆情结果。
优选地,在煤矿舆情分析模块中,联合聚类算法的具体步骤如下:
1)初始化:
(1)针对文档-特征词二维矩阵,用X表示文档集合X={x1,x2,...,xm},Y表示特征词集合Y={y1,y2,...,yn},其中m为文档的总数,n为集合中特征词的个数,即文档向量的维度;
(2)将m个文档分成P组,形成P个文档簇,分别记为c1,c2,...,cP,这P个簇组成的集合记为C,簇ci所包含的文档记为
Figure BSA00000851511100011
1≤i≤P,i为自然数,|ci|表示簇ci所包含的文档数目;将n个特征词分成Q组,形成Q个特征词簇,分别记为l1,l2,...,lQ,Q个簇组成的集合记为L,簇lj所包含的特征词记为
Figure BSA000008515111000211
1≤j≤Q,j为自然数,|lj|表示簇lj所包含的特征词数目。
2)更新向量表示:
文档xe的向量表示记为
Figure BSA00000851511100021
p(l2|xe),…,p(lQ|xe)),1≤e≤m,e为自然数,p(lj|xe)表示文档xe条件下特征词簇lj的概率,
Figure BSA00000851511100022
n(g|xe)和n(yjk|xe)分别表示文档xe中特征词g和yjk出现的次数,g∈Y,1≤k≤|lj|,k为自然数;
文档簇ci的向量表示记为
Figure BSA00000851511100023
p(l2|ci),…,p(lQ|ci)),p(lj|ci)表示文档簇ci条件下特征词簇lj的概率,
Figure BSA00000851511100024
n(g|xif)和n(yjk|xif)分别表示文档xif中特征词g和yjk出现的次数,1≤f≤|ci|,f为自然数;
特征ys的向量表示记为
Figure BSA00000851511100025
p(c2|ys),…,p(cP|ys)),1≤s≤n,s为自然数,p(ci|ys)表示特征词ys条件下文档簇ci的概率,
Figure BSA00000851511100026
n(ys|xe)和n(ys|xir)分别表示文档xe和xir中特征词ys出现的次数,1≤r≤|ci|,r为自然数;
特征簇lj的向量表示记为
Figure BSA00000851511100027
p(c2|lj),…,p(cP|lj)),p(ci|lj)表示特征词簇lj条件下文档簇ci的概率,
Figure BSA00000851511100028
n(yjt|xe)和n(yjt|xir)分别表示文档xe和xir中特征词yjt出现的次数,1≤t≤|lj|,t为自然数;
3)行聚类:
(1)依次从每个文档簇ci中取每个文档xif构成一个新的簇{xif},根据共有信息损失最小原则,将{xif}合并到一个新的文档簇c′i中,使得
Figure BSA00000851511100029
1≤u≤P,且u≠i,u为自然数,d(ci,cu)表示合并ci和cu两个簇时产生的共有信息损失, d ( c i , c u ) = Σ a = i , u | c a | | X | Σ j = 1 Q p ( l j | c a ) log p ( l j | c a ) p ( l j ) , 其中,|X|表示X中文档的个数,|ca|表示簇ca中文档的个数, p ( l j ) = | c i | | c i ∪ c u | p ( l j | c i ) + | c u | | c i ∪ c u | p ( l j | c u ) ;
(2)迭代上述整体取样过程sum1次后,得到一个新的文档簇集合,更新原集合C、文档簇l1,l2,...,lQ,并更新每个簇lj所包含的文档
Figure BSA00000851511100035
sum1为自然数;
4)列聚类:
(1)依次从每个特征词簇lj中取每个特征词yjt,构成一个新的簇{yjt},根据共有信息损失最小原则,将{yjt}合并到一个新的特征词簇l′j中,使得1≤v≤Q,且v≠j,v为自然数,d(lj,lv)表示合并lj和lv两个簇时产生的共有信息损失, d ( l j , l v ) = Σ a = j , v | l a | | Y | Σ i = 1 P p ( c i | l a ) log p ( c i | l a ) p ( c i ) , |Y|表示Y中特征词的个数,|la|表示簇la中特征词的个数,且 p ( c i ) = | l j | | l j ∪ l v | p ( c i | l j ) + | l v | | l j ∪ l v | p ( c i | l v ) ;
(2)迭代上述整体取样过程sum2次后,得到一个新的特征词簇集合,更新原集合L、特征词簇c1,c2,...,cP,并更新每个簇ci所包含的特征词sum2为自然数;
5)判断聚类过程是否收敛:若收敛,聚类过程完成,否则跳转至步骤2)。
基于联合聚类的煤矿舆情监测系统中的煤矿舆情分析模块是该系统中的核心模块,采用了Web数据挖掘领域中的聚类算法,发明人在基于信息瓶颈理论的增量聚类方法的基础上,充分考虑了部分特征以及特征和特征间的相关性,从而提高了聚类结果的准确性和精确性。
该系统面向微博、博客、论坛以及门户网站等网络资源,所采集的信息经去重、中文分词、停用词过滤等数据预处理步骤后,建立煤矿舆情库,同时基于文本分类、文本聚类等数据挖掘算法进行热点发现以及舆情热度分析,最后以数据性图标以及舆情报表的形式给出监测结果。
附图说明
图1是煤矿舆情监测系统结构图。
具体实施方式
如图1所示,为煤矿舆情监测系统结构图,该系统包括数据采集与内容过滤模块、数据预处理模块、煤矿舆情分析模块和舆情结果呈现模块,其中数据采集与内容过滤模块通过指定关键词、来源URL或信息主题,在源数据中过滤出煤矿领域信息;数据预处理模块包括正文抽取子模块、中文分词子模块、停用词过滤子模块、舆情热度提取子模块;煤矿舆情分析模块以数据预处理模块中的数据为基础,采用联合聚类算法发现舆情的热点;舆情结果呈现模块以图表或报告形式输出舆情结果。
在数据采集与内容过滤模块中,通过指定关键词、来源URL或信息主题,将源数据限定于煤矿行业内,是对网页库中煤矿领域信息的一次过滤。该部分功能类似于垂直搜索引擎的网络爬虫,针对煤矿领域、煤矿特定人群或特定需求提供“专、精、深”的信息和相关服务,是整个煤矿舆情监测系统的基础。
数据预处理模块中,数据预处理操作包括正文抽取、中文分词、停用词过滤等,其目的在于更准确地建立向量空间模型,更好地服务于后续舆情分析部分。正文抽取滤除网络资源中的广告等噪声信息,仅将用户所关注的正文内容提取出来参与舆情分析;中文分词是建立向量空间模型前的重要一环,分词效果将直接决定特征的质量,进而影响信息的表示;停用词过滤去掉了文本内容中的“的”、“了”等词语,此类词语虽然出现频率较高,但是所包含的信息较少、对于内容的描述能力较弱,无法作为文本的特征。微博的转发数和评论数、博客的评论数、论坛的浏览数和评论数是信息热度的最直接反映,在数据预处理过程中,舆情热度提取模块提取上述量化结果,作为舆情分析的数据来源和分析依据。
煤矿舆情分析模块中,以预处理后的信息为基础,结合文本分类、文本聚类等数据挖掘算法,发现舆情的热点,实现网络舆情信息的形成。文本聚类算法可实现无监督的数据分组任务,针对过去一个时间窗口内采集的网络资源进行文本聚类,有助于快速及时地发现新的舆论热点,本文设计了一个联合聚类算法对煤矿舆情进行分组,将在本文第3节中详细介绍;当舆论热点被确认,即在互联网上真正成为一个备受关注的话题时,文本分类算法可以将同一话题内的信息归类,有助于跟踪舆情的发展趋势。
舆情结果呈现模块中,将舆情分析结果以图表、报告等形式输出,为舆情监管部门进行管理和决策提供数据依据和支持。数据性图表是舆情的热度随时间变化的曲线,描述舆情的发展历史及发展趋势;报告则概要描述舆情的信息。
在煤矿舆情分析模块中,联合聚类算法的具体步骤如下:
1)初始化:
(1)针对文档-特征词二维矩阵,用X表示文档集合X={x1,x2,....,xm},Y表示特征词集合Y={y1,y2,…,yn},其中m为文档的总数,n为集合中特征词的个数,即文档向量的维度;
(2)将m个文档分成P组,形成P个文档簇,分别记为c1,c2,...,cP,这P个簇组成的集合记为C,簇ci所包含的文档记为
Figure BSA00000851511100041
1≤i≤P,i为自然数,|ci|表示簇ci所包含的文档数目;将n个特征词分成Q组,形成Q个特征词簇,分别记为l1,l2,...,lQ,Q个簇组成的集合记为L,簇lj所包含的特征词记为
Figure BSA000008515111000512
1≤j≤Q,j为自然数,|lj|表示簇lj所包含的特征词数目。
2)更新向量表示:
文档xe的向量表示记为
Figure BSA00000851511100051
p(l2|xe),…,p(lQ|xe)),1≤e≤m,e为自然数,p(lj|xe)表示文档xe条件下特征词簇lj的概率,
Figure BSA00000851511100052
n(g|xe)和n(yjk|xe)分别表示文档xe中特征词g和yjk出现的次数,g∈Y,1≤k≤|lj|,k为自然数;
文档簇ci的向量表示记为
Figure BSA00000851511100053
p(l2|ci),…,p(lQ|ci)),p(lj|ci)表示文档簇ci条件下特征词簇lj的概率,
Figure BSA00000851511100054
n(g|xif)和n(yjk|xif)分别表示文档xif中特征词g和yjk出现的次数,1≤f≤|ci|,f为自然数;
特征ys的向量表示记为
Figure BSA00000851511100055
p(c2|ys),…,p(cP|ys)),1≤s≤n,s为自然数,p(ci|ys)表示特征词ys条件下文档簇ci的概率,
Figure BSA00000851511100056
n(ys|xe)和n(ys|xir)分别表示文档xe和xir中特征词ys出现的次数,1≤r≤|ci|,r为自然数;
特征簇lj的向量表示记为
Figure BSA00000851511100057
p(c2|lj),…,p(cP|lj)),p(ci|lj)表示特征词簇lj条件下文档簇ci的概率,n(yjt|xe)和n(yjt|xir)分别表示文档xe和xir中特征词yjt出现的次数,1≤t≤|lj|,t为自然数;
3)行聚类:
(1)依次从每个文档簇ci中取每个文档xif构成一个新的簇{xif},根据共有信息损失最小原则,将{xif}合并到一个新的文档簇c′i中,使得
Figure BSA00000851511100059
1≤u≤P,且u≠i,u为自然数,d(ci,cu)表示合并ci和cu两个簇时产生的共有信息损失, d ( c i , c u ) = Σ a = i , u | c a | | X | Σ j = 1 Q p ( l j | c a ) log p ( l j | c a ) p ( l j ) , 其中,|X|表示X中文档的个数,|ca|表示簇ca中文档的个数, p ( l j ) = | c i | | c i ∪ c u | p ( l j | c i ) + | c u | | c i ∪ c u | p ( l j | c u ) ;
(2)迭代上述整体取样过程sum1次后,得到一个新的文档簇集合,更新原集合C、文档簇l1,l2,...,lQ,并更新每个簇lj所包含的文档sum1为自然数;
4)列聚类:
(1)依次从每个特征词簇lj中取每个特征词yjt,构成一个新的簇{yjt},根据共有信息损失最小原则,将{yjt}合并到一个新的特征词簇l′j中,使得
Figure BSA00000851511100061
1≤v≤Q,且v≠j,v为自然数,d(lj,lv)表示合并lj和lv两个簇时产生的共有信息损失, d ( l j , l v ) = Σ a = j , v | l a | | Y | Σ i = 1 P p ( c i | l a ) log p ( c i | l a ) p ( c i ) , |Y|表示Y中特征词的个数,|la|表示簇la中特征词的个数,且 p ( c i ) = | l j | | l j ∪ l v | p ( c i | l j ) + | l v | | l j ∪ l v | p ( c i | l v ) ;
(2)迭代上述整体取样过程sum2次后,得到一个新的特征词簇集合,更新原集合L、特征词簇c1,c2,...,cP,并更新每个簇ci所包含的特征词
Figure BSA00000851511100065
sum2为自然数;
5)判断聚类过程是否收敛:若收敛,聚类过程完成,否则跳转至步骤2)。

Claims (1)

1.一种基于联合聚类的煤矿舆情监测系统,该系统包括数据采集与内容过滤模块、数据预处理模块、煤矿舆情分析模块和舆情结果呈现模块,其中数据采集与内容过滤模块通过指定与煤矿相关的关键词、来源URL或信息主题,在源数据中过滤出煤矿领域信息;数据预处理模块包括正文抽取子模块、中文分词子模块、停用词过滤子模块、舆情热度提取子模块;煤矿舆情分析模块以数据预处理模块中的数据为基础,采用联合聚类算法发现舆情的热点;舆情结果呈现模块以图表或报告形式输出舆情结果;其特征在于:在煤矿舆情分析模块中,联合聚类算法的具体步骤如下:
1)初始化:
(1)针对文档-特征词二维矩阵,用X表示文档集合X={x1,x2,...,xm},Y表示特征词集合Y={y1,y2,...,yn},其中m为文档的总数,n为集合中特征词的个数,即文档向量的维度;
(2)将m个文档分成P组,形成P个文档簇,分别记为c1,c2,...,CP,这P个簇组成的集合记为C,簇ci所包含的文档记为
Figure FSA00000851511000017
1≤i≤P,i为自然数,|ci|表示簇ci所包含的文档数目;将n个特征词分成Q组,形成Q个特征词簇,分别记为l1,l2,...,lQ,Q个簇组成的集合记为L,簇lj所包含的特征词记为
Figure FSA00000851511000018
1≤j≤Q,j为自然数,|lj|表示簇lj所包含的特征词数目。
2)更新向量表示:
文档xe的向量表示记为 x → e = ( p ( l 1 | x e ) , p ( l 2 | x e ) , · · · , p ( l Q | x e ) ) , 1≤e≤m,e为自然数,p(lj|xe)表示文档xe条件下特征词簇lj的概率,
Figure FSA00000851511000012
n(g|xe)和n(yjk|xe)分别表示文档xe中特征词g和yjk出现的次数,g∈Y,1≤k≤|lj|,k为自然数;
文档簇ci的向量表示记为
Figure FSA00000851511000013
p(l2|ci),…,p(lQ|ci)),p(lj|ci)表示文档簇ci条件下特征词簇lj的概率,
Figure FSA00000851511000014
n(g|xif)和n(yjk|xif)分别表示文档xif中特征词g和yjk出现的次数,1≤f≤|ci|,f为自然数;
特征ys的向量表示记为
Figure FSA00000851511000015
p(c2|ys),…,p(cP|ys)),1≤s≤n,s为自然数,p(ci|ys)表示特征词ys条件下文档簇ci的概率,
Figure FSA00000851511000016
n(ys|xe)和n(ys|xir)分别表示文档xe和xir中特征词ys出现的次数,1≤r≤|ci|,r为自然数;
特征簇lj的向量表示记为
Figure FSA00000851511000021
p(c2|lj),…,p(cP|lj)),p(ci|lj)表示特征词簇lj条件下文档簇ci的概率,
Figure FSA00000851511000022
n(yjt|xe)和n(yjt|xir)分别表示文档xe和xir中特征词yjt出现的次数,1≤t≤|lj|,t为自然数;
3)行聚类:
(1)依次从每个文档簇ci中取每个文档xif构成一个新的簇{xif},根据共有信息损失最小原则,将{xif}合并到一个新的文档簇c′i中,使得
Figure FSA00000851511000023
1≤u≤P,且u≠i,u为自然数,d(ci,cu)表示合并ci和cu两个簇时产生的共有信息损失, d ( c i , c u ) = Σ a = i , u | c a | | X | Σ j = 1 Q p ( l j | c a ) log p ( l j | c a ) p ( l j ) , 其中,|X|表示X中文档的个数,|ca|表示簇ca中文档的个数, p ( l j ) = | c i | | c i ∪ c u | p ( l j | c i ) + | c u | | c i ∪ c u | p ( l j | c u ) ;
(2)迭代上述整体取样过程sum1次后,得到一个新的文档簇集合,更新原集合C、文档簇l1,l2,...,lQ,并更新每个簇lj所包含的文档
Figure FSA000008515110000210
sum1为自然数;
4)列聚类:
(1)依次从每个特征词簇lj中取每个特征词yjt,构成一个新的簇{yjt},根据共有信息损失最小原则,将{yji}合并到一个新的特征词簇l′j中,使得
Figure FSA00000851511000026
1≤v≤Q,且v≠j,v为自然数,d(lj,lv)表示合并lj和lv两个簇时产生的共有信息损失, d ( l j , l v ) = Σ a = j , v | l a | | Y | Σ i = 1 P p ( c i | l a ) log p ( c i | l a ) p ( c i ) , |Y|表示Y中特征词的个数,|la|表示簇la中特征词的个数,且 p ( c i ) = | l j | | l j ∪ l v | p ( c i | l j ) + | l v | | l j ∪ l v | p ( c i | l v ) ;
(2)迭代上述整体取样过程sum2次后,得到一个新的特征词簇集合,更新原集合L、特征词簇c1,c2,...,cP,并更新每个簇ci所包含的特征词
Figure FSA00000851511000029
sum2为自然数;
5)判断聚类过程是否收敛:若收敛,聚类过程完成,否则跳转至步骤2)。
CN201310039173XA 2013-01-25 2013-01-25 一种基于联合聚类的煤矿舆情监测系统 Pending CN103150335A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310039173XA CN103150335A (zh) 2013-01-25 2013-01-25 一种基于联合聚类的煤矿舆情监测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310039173XA CN103150335A (zh) 2013-01-25 2013-01-25 一种基于联合聚类的煤矿舆情监测系统

Publications (1)

Publication Number Publication Date
CN103150335A true CN103150335A (zh) 2013-06-12

Family

ID=48548413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310039173XA Pending CN103150335A (zh) 2013-01-25 2013-01-25 一种基于联合聚类的煤矿舆情监测系统

Country Status (1)

Country Link
CN (1) CN103150335A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744877A (zh) * 2013-12-20 2014-04-23 潘大庆 部署于互联网的舆情监测应用系统及运用方法
CN104063411A (zh) * 2013-09-12 2014-09-24 江苏金鸽网络科技有限公司 基于波特五力模型的企业情报收集方法
CN104166683A (zh) * 2014-07-21 2014-11-26 安徽华贞信息科技有限公司 一种数据挖掘方法
CN104182465A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于网络的大数据处理方法
CN104504150A (zh) * 2015-01-09 2015-04-08 成都布林特信息技术有限公司 新闻舆情监测系统
CN104820629A (zh) * 2015-05-14 2015-08-05 中国电子科技集团公司第五十四研究所 一种智能的舆情突发事件应急处理系统及方法
CN104965930A (zh) * 2015-07-30 2015-10-07 成都布林特信息技术有限公司 一种基于大数据的突发事件演化分析方法
CN105022754A (zh) * 2014-04-29 2015-11-04 腾讯科技(深圳)有限公司 基于社交网络的对象分类方法及装置
CN104408096B (zh) * 2014-11-17 2017-01-25 河南理工大学 一种基于信息瓶颈理论和社区探测的网络信息检索方法
CN109446394A (zh) * 2018-09-27 2019-03-08 武汉大学 针对网络舆情事件的基于模块化的舆情监测方法及系统
CN111582536A (zh) * 2020-03-23 2020-08-25 中国矿业大学(北京) 基于特征学习的隐伏断层预测方法、装置、设备和介质
CN116894169A (zh) * 2023-06-27 2023-10-17 中国矿业大学 基于动态特征聚类和粒子群优化的在线流特征选择方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101571868A (zh) * 2009-05-25 2009-11-04 北京航空航天大学 一种基于信息瓶颈理论的文档聚类方法
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
CN101980199A (zh) * 2010-10-28 2011-02-23 北京交通大学 基于态势评估的网络热点话题发现方法及系统
CN102567405A (zh) * 2010-12-31 2012-07-11 北京安码科技有限公司 一种基于改进的文本空间向量表示的热点发现方法
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测系统及其工作方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101571868A (zh) * 2009-05-25 2009-11-04 北京航空航天大学 一种基于信息瓶颈理论的文档聚类方法
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
CN101980199A (zh) * 2010-10-28 2011-02-23 北京交通大学 基于态势评估的网络热点话题发现方法及系统
CN102567405A (zh) * 2010-12-31 2012-07-11 北京安码科技有限公司 一种基于改进的文本空间向量表示的热点发现方法
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测系统及其工作方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YONGLI LIU ETC.: "Incremental Clustering Using Information Bottleneck Theory", 《INTERNATIONAL JOURNAL OF PATTERN RECOGNITION AND ARTIFICIAL INTELLIGENCE》 *
吴湖等: "两阶段联合聚类协同过滤算法", 《软件学报》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063411B (zh) * 2013-09-12 2016-05-25 江苏金鸽网络科技有限公司 基于波特五力模型的企业情报收集方法
CN104063411A (zh) * 2013-09-12 2014-09-24 江苏金鸽网络科技有限公司 基于波特五力模型的企业情报收集方法
CN103744877A (zh) * 2013-12-20 2014-04-23 潘大庆 部署于互联网的舆情监测应用系统及运用方法
US9875294B2 (en) 2014-04-29 2018-01-23 Tencent Technology (Shenzhen) Company Limited Method and apparatus for classifying object based on social networking service, and storage medium
WO2015165372A1 (en) * 2014-04-29 2015-11-05 Tencent Technology (Shenzhen) Company Limited Method and apparatus for classifying object based on social networking service, and storage medium
CN105022754A (zh) * 2014-04-29 2015-11-04 腾讯科技(深圳)有限公司 基于社交网络的对象分类方法及装置
CN104166683A (zh) * 2014-07-21 2014-11-26 安徽华贞信息科技有限公司 一种数据挖掘方法
CN104182465A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于网络的大数据处理方法
CN104408096B (zh) * 2014-11-17 2017-01-25 河南理工大学 一种基于信息瓶颈理论和社区探测的网络信息检索方法
CN104504150A (zh) * 2015-01-09 2015-04-08 成都布林特信息技术有限公司 新闻舆情监测系统
CN104504150B (zh) * 2015-01-09 2017-09-29 成都布林特信息技术有限公司 新闻舆情监测系统
CN104820629A (zh) * 2015-05-14 2015-08-05 中国电子科技集团公司第五十四研究所 一种智能的舆情突发事件应急处理系统及方法
CN104965930A (zh) * 2015-07-30 2015-10-07 成都布林特信息技术有限公司 一种基于大数据的突发事件演化分析方法
CN104965930B (zh) * 2015-07-30 2019-03-26 成都信息工程大学 一种基于大数据的突发事件演化分析方法
CN109446394A (zh) * 2018-09-27 2019-03-08 武汉大学 针对网络舆情事件的基于模块化的舆情监测方法及系统
CN111582536A (zh) * 2020-03-23 2020-08-25 中国矿业大学(北京) 基于特征学习的隐伏断层预测方法、装置、设备和介质
CN111582536B (zh) * 2020-03-23 2024-01-30 中国矿业大学(北京) 基于特征学习的隐伏断层预测方法、装置、设备和介质
CN116894169A (zh) * 2023-06-27 2023-10-17 中国矿业大学 基于动态特征聚类和粒子群优化的在线流特征选择方法
CN116894169B (zh) * 2023-06-27 2024-01-02 中国矿业大学 基于动态特征聚类和粒子群优化的在线流特征选择方法

Similar Documents

Publication Publication Date Title
CN103150335A (zh) 一种基于联合聚类的煤矿舆情监测系统
Agarwal et al. Applying social media intelligence for predicting and identifying on-line radicalization and civil unrest oriented threats
Hu et al. Social spammer detection with sentiment information
CN103390051B (zh) 一种基于微博数据的话题发现与追踪方法
CN107315778A (zh) 一种基于大数据情感分析的自然语言舆情分析方法
CN103023714B (zh) 基于网络话题的活跃度与集群结构分析系统及方法
US20140114978A1 (en) Method and system for social media burst classifications
CN104536956A (zh) 一种基于微博平台的事件可视化方法及系统
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN104573016A (zh) 一种基于行业的垂直舆情分析系统及方法
WO2014210184A2 (en) Real-time and adaptive data mining
CN103020159A (zh) 一种面向事件的新闻展现方法和装置
CN101980199A (zh) 基于态势评估的网络热点话题发现方法及系统
CN105447081A (zh) 面向云平台的一种政务舆情监控方法
CN105068991A (zh) 一种基于大数据的舆情发现方法
CN103744877A (zh) 部署于互联网的舆情监测应用系统及运用方法
CN103177076A (zh) 一种基于定点网站的舆情监测系统及方法
CN105378730A (zh) 社交媒体分析与输出
CN105808722A (zh) 一种信息判别方法和系统
CN104408083A (zh) 一种社会化媒体分析系统
CN105183765A (zh) 一种基于大数据的话题抽取方法
CN102915358B (zh) 导航网站实现方法和装置
Abeysinghe et al. Enhancing decision making capacity in tourism domain using social media analytics
Zhang et al. Tweetscore: Scoring tweets via social attribute relationships for twitter spammer detection
CN104346382A (zh) 使用语言查询的文本分析系统和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130612