CN103150335A

CN103150335A - 一种基于联合聚类的煤矿舆情监测系统

Info

Publication number: CN103150335A
Application number: CN201310039173XA
Authority: CN
Inventors: 刘永利; 贾宗璞; 王建芳; 韩秀娟; 杜守恒
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2013-01-25
Filing date: 2013-01-25
Publication date: 2013-06-12

Abstract

本发明提出一种基于联合聚类的煤矿舆情监测系统，该系统包括数据采集与内容过滤模块、数据预处理模块、煤矿舆情分析模块和舆情结果呈现模块。煤矿舆情分析模块是该系统中的核心模块，采用了Web数据挖掘领域中的聚类算法，发明人在基于信息瓶颈理论的增量聚类方法的基础上，充分考虑了部分特征以及特征和特征间的相关性，从而提高了聚类结果的准确性和精确性。该系统面向微博、博客、论坛以及门户网站等网络资源，所采集的信息经去重、中文分词、停用词过滤等数据预处理步骤后，建立煤矿舆情库，同时基于文本分类、文本聚类等数据挖掘算法进行热点发现以及舆情热度分析，最后以数据性图标以及舆情报表的形式给出监测结果。

Description

一种基于联合聚类的煤矿舆情监测系统

技术领域

本申请属于煤矿数据分析和数据挖掘领域。

背景技术

国内的网络舆情研究始于2005年，目前已成为相关学科领域专家的关注热点，方兴未艾。目前的舆情研究多以群体事件、司法事件或政治事件为研究着力点，面向公共舆情为主。“煤矿舆情”作为涉及煤矿生产、传播学、中文信息处理与计算机网络的交叉研究领域，始于2010年前后，至今仍鲜有应用。近两年来，煤矿生产的相关舆论热点不断在网络上涌现，煤矿生产秩序、煤矿安全与煤矿制度及监管三者在更深层次上开始互动，新时期多种语言、文化和社会关系的博弈，通过网络平台体现出来。煤矿舆情呈现出“热点频度高、指向煤矿生产重大问题、诱发群体事件”的趋势。

以微博、博客、社交网络、即时通讯系统为代表的自媒体(We Media)打破信息的控制和垄断，在网络上人们自由表达自己的态度和意见，不再像过去那么容易地无条件接受，相反，不同阶层的利益诉求纷纷呈现，不同思想观点正面碰撞。在这种情况下，建设能够覆盖多数据源的煤矿舆情监测系统十分必要，此类系统可针对新的媒介传播环境，进一步深入研究煤矿舆情的热点研判方法以及自媒体带来的影响，对煤矿舆情研究进行丰富和完善。

目前为止，尚未有与Web信息检索技术相结合的煤矿舆情监测系统。

发明内容

本发明提出一种基于联合聚类的煤矿舆情监测系统，该系统包括数据采集与内容过滤模块、数据预处理模块、煤矿舆情分析模块和舆情结果呈现模块，其中数据采集与内容过滤模块通过指定关键词、来源URL或信息主题，在源数据中过滤出煤矿领域信息；数据预处理模块包括正文抽取子模块、中文分词子模块、停用词过滤子模块、舆情热度提取子模块；煤矿舆情分析模块以数据预处理模块中的数据为基础，采用联合聚类算法发现舆情的热点；舆情结果呈现模块以图表或报告形式输出舆情结果。

优选地，在煤矿舆情分析模块中，联合聚类算法的具体步骤如下：

1)初始化：

(1)针对文档-特征词二维矩阵，用X表示文档集合X＝{x₁，x₂，...，x_m}，Y表示特征词集合Y＝{y₁，y₂，...，y_n}，其中m为文档的总数，n为集合中特征词的个数，即文档向量的维度；

(2)将m个文档分成P组，形成P个文档簇，分别记为c₁，c₂，...，c_P，这P个簇组成的集合记为C，簇c_i所包含的文档记为

1≤i≤P，i为自然数，|c_i|表示簇c_i所包含的文档数目；将n个特征词分成Q组，形成Q个特征词簇，分别记为l₁，l₂，...，l_Q，Q个簇组成的集合记为L，簇l_j所包含的特征词记为

1≤j≤Q，j为自然数，|l_j|表示簇l_j所包含的特征词数目。

2)更新向量表示：

文档x_e的向量表示记为

p(l₂|x_e)，…，p(l_Q|x_e))，1≤e≤m，e为自然数，p(l_j|x_e)表示文档x_e条件下特征词簇l_j的概率，

n(g|x_e)和n(y_jk|x_e)分别表示文档x_e中特征词g和y_jk出现的次数，g∈Y，1≤k≤|l_j|，k为自然数；

文档簇c_i的向量表示记为

p(l₂|c_i)，…，p(l_Q|c_i))，p(l_j|c_i)表示文档簇c_i条件下特征词簇l_j的概率，

n(g|x_if)和n(y_jk|x_if)分别表示文档x_if中特征词g和y_jk出现的次数，1≤f≤|c_i|，f为自然数；

特征y_s的向量表示记为

p(c₂|y_s)，…，p(c_P|y_s))，1≤s≤n，s为自然数，p(c_i|y_s)表示特征词y_s条件下文档簇c_i的概率，

n(y_s|x_e)和n(y_s|x_ir)分别表示文档x_e和x_ir中特征词y_s出现的次数，1≤r≤|c_i|，r为自然数；

特征簇l_j的向量表示记为

p(c₂|l_j)，…，p(c_P|l_j))，p(c_i|l_j)表示特征词簇l_j条件下文档簇c_i的概率，

n(y_jt|x_e)和n(y_jt|x_ir)分别表示文档x_e和x_ir中特征词y_jt出现的次数，1≤t≤|l_j|，t为自然数；

3)行聚类：

(1)依次从每个文档簇c_i中取每个文档x_if构成一个新的簇{x_if}，根据共有信息损失最小原则，将{x_if}合并到一个新的文档簇c′_i中，使得

1≤u≤P，且u≠i，u为自然数，d(c_i，c_u)表示合并c_i和c_u两个簇时产生的共有信息损失，

d (c_{i}, c_{u}) = \underset{a = i, u}{Σ} \frac{| c_{a} |}{| X |} Σ_{j = 1}^{Q} p (l_{j} | c_{a}) \log \frac{p (l_{j} | c_{a})}{p (l_{j})},

其中，|X|表示X中文档的个数，|c_a|表示簇c_a中文档的个数，

p (l_{j}) = \frac{| c_{i} |}{| c_{i} \cup c_{u} |} p (l_{j} | c_{i}) + \frac{| c_{u} |}{| c_{i} \cup c_{u} |} p (l_{j} | c_{u});

(2)迭代上述整体取样过程sum1次后，得到一个新的文档簇集合，更新原集合C、文档簇l₁，l₂，...，l_Q，并更新每个簇l_j所包含的文档

sum1为自然数；

4)列聚类：

(1)依次从每个特征词簇l_j中取每个特征词y_jt，构成一个新的簇{y_jt}，根据共有信息损失最小原则，将{y_jt}合并到一个新的特征词簇l′_j中，使得1≤v≤Q，且v≠j，v为自然数，d(l_j，l_v)表示合并l_j和l_v两个簇时产生的共有信息损失，

d (l_{j}, l_{v}) = \underset{a = j, v}{Σ} \frac{| l_{a} |}{| Y |} Σ_{i = 1}^{P} p (c_{i} | l_{a}) \log \frac{p (c_{i} | l_{a})}{p (c_{i})},

|Y|表示Y中特征词的个数，|l_a|表示簇l_a中特征词的个数，且

p (c_{i}) = \frac{| l_{j} |}{| l_{j} \cup l_{v} |} p (c_{i} | l_{j}) + \frac{| l_{v} |}{| l_{j} \cup l_{v} |} p (c_{i} | l_{v});

(2)迭代上述整体取样过程sum2次后，得到一个新的特征词簇集合，更新原集合L、特征词簇c₁，c₂，...，c_P，并更新每个簇c_i所包含的特征词sum2为自然数；

5)判断聚类过程是否收敛：若收敛，聚类过程完成，否则跳转至步骤2)。

基于联合聚类的煤矿舆情监测系统中的煤矿舆情分析模块是该系统中的核心模块，采用了Web数据挖掘领域中的聚类算法，发明人在基于信息瓶颈理论的增量聚类方法的基础上，充分考虑了部分特征以及特征和特征间的相关性，从而提高了聚类结果的准确性和精确性。

该系统面向微博、博客、论坛以及门户网站等网络资源，所采集的信息经去重、中文分词、停用词过滤等数据预处理步骤后，建立煤矿舆情库，同时基于文本分类、文本聚类等数据挖掘算法进行热点发现以及舆情热度分析，最后以数据性图标以及舆情报表的形式给出监测结果。

附图说明

图1是煤矿舆情监测系统结构图。

具体实施方式

如图1所示，为煤矿舆情监测系统结构图，该系统包括数据采集与内容过滤模块、数据预处理模块、煤矿舆情分析模块和舆情结果呈现模块，其中数据采集与内容过滤模块通过指定关键词、来源URL或信息主题，在源数据中过滤出煤矿领域信息；数据预处理模块包括正文抽取子模块、中文分词子模块、停用词过滤子模块、舆情热度提取子模块；煤矿舆情分析模块以数据预处理模块中的数据为基础，采用联合聚类算法发现舆情的热点；舆情结果呈现模块以图表或报告形式输出舆情结果。

在数据采集与内容过滤模块中，通过指定关键词、来源URL或信息主题，将源数据限定于煤矿行业内，是对网页库中煤矿领域信息的一次过滤。该部分功能类似于垂直搜索引擎的网络爬虫，针对煤矿领域、煤矿特定人群或特定需求提供“专、精、深”的信息和相关服务，是整个煤矿舆情监测系统的基础。

数据预处理模块中，数据预处理操作包括正文抽取、中文分词、停用词过滤等，其目的在于更准确地建立向量空间模型，更好地服务于后续舆情分析部分。正文抽取滤除网络资源中的广告等噪声信息，仅将用户所关注的正文内容提取出来参与舆情分析；中文分词是建立向量空间模型前的重要一环，分词效果将直接决定特征的质量，进而影响信息的表示；停用词过滤去掉了文本内容中的“的”、“了”等词语，此类词语虽然出现频率较高，但是所包含的信息较少、对于内容的描述能力较弱，无法作为文本的特征。微博的转发数和评论数、博客的评论数、论坛的浏览数和评论数是信息热度的最直接反映，在数据预处理过程中，舆情热度提取模块提取上述量化结果，作为舆情分析的数据来源和分析依据。

煤矿舆情分析模块中，以预处理后的信息为基础，结合文本分类、文本聚类等数据挖掘算法，发现舆情的热点，实现网络舆情信息的形成。文本聚类算法可实现无监督的数据分组任务，针对过去一个时间窗口内采集的网络资源进行文本聚类，有助于快速及时地发现新的舆论热点，本文设计了一个联合聚类算法对煤矿舆情进行分组，将在本文第3节中详细介绍；当舆论热点被确认，即在互联网上真正成为一个备受关注的话题时，文本分类算法可以将同一话题内的信息归类，有助于跟踪舆情的发展趋势。

舆情结果呈现模块中，将舆情分析结果以图表、报告等形式输出，为舆情监管部门进行管理和决策提供数据依据和支持。数据性图表是舆情的热度随时间变化的曲线，描述舆情的发展历史及发展趋势；报告则概要描述舆情的信息。

在煤矿舆情分析模块中，联合聚类算法的具体步骤如下：

1)初始化：

(1)针对文档-特征词二维矩阵，用X表示文档集合X＝{x₁，x₂，....，x_m}，Y表示特征词集合Y＝{y₁，y₂，…，y_n}，其中m为文档的总数，n为集合中特征词的个数，即文档向量的维度；

1≤j≤Q，j为自然数，|l_j|表示簇l_j所包含的特征词数目。

2)更新向量表示：

文档x_e的向量表示记为

文档簇c_i的向量表示记为

特征y_s的向量表示记为

特征簇l_j的向量表示记为

3)行聚类：

d (c_{i}, c_{u}) = \underset{a = i, u}{Σ} \frac{| c_{a} |}{| X |} Σ_{j = 1}^{Q} p (l_{j} | c_{a}) \log \frac{p (l_{j} | c_{a})}{p (l_{j})},

其中，|X|表示X中文档的个数，|c_a|表示簇c_a中文档的个数，

p (l_{j}) = \frac{| c_{i} |}{| c_{i} \cup c_{u} |} p (l_{j} | c_{i}) + \frac{| c_{u} |}{| c_{i} \cup c_{u} |} p (l_{j} | c_{u});

(2)迭代上述整体取样过程sum1次后，得到一个新的文档簇集合，更新原集合C、文档簇l₁，l₂，...，l_Q，并更新每个簇l_j所包含的文档sum1为自然数；

4)列聚类：

(1)依次从每个特征词簇l_j中取每个特征词y_jt，构成一个新的簇{y_jt}，根据共有信息损失最小原则，将{y_jt}合并到一个新的特征词簇l′_j中，使得

1≤v≤Q，且v≠j，v为自然数，d(l_j，l_v)表示合并l_j和l_v两个簇时产生的共有信息损失，

d (l_{j}, l_{v}) = \underset{a = j, v}{Σ} \frac{| l_{a} |}{| Y |} Σ_{i = 1}^{P} p (c_{i} | l_{a}) \log \frac{p (c_{i} | l_{a})}{p (c_{i})},

|Y|表示Y中特征词的个数，|l_a|表示簇l_a中特征词的个数，且

p (c_{i}) = \frac{| l_{j} |}{| l_{j} \cup l_{v} |} p (c_{i} | l_{j}) + \frac{| l_{v} |}{| l_{j} \cup l_{v} |} p (c_{i} | l_{v});

(2)迭代上述整体取样过程sum2次后，得到一个新的特征词簇集合，更新原集合L、特征词簇c₁，c₂，...，c_P，并更新每个簇c_i所包含的特征词

sum2为自然数；

Claims

1.一种基于联合聚类的煤矿舆情监测系统，该系统包括数据采集与内容过滤模块、数据预处理模块、煤矿舆情分析模块和舆情结果呈现模块，其中数据采集与内容过滤模块通过指定与煤矿相关的关键词、来源URL或信息主题，在源数据中过滤出煤矿领域信息；数据预处理模块包括正文抽取子模块、中文分词子模块、停用词过滤子模块、舆情热度提取子模块；煤矿舆情分析模块以数据预处理模块中的数据为基础，采用联合聚类算法发现舆情的热点；舆情结果呈现模块以图表或报告形式输出舆情结果；其特征在于：在煤矿舆情分析模块中，联合聚类算法的具体步骤如下：

1)初始化：