CN104239436B

CN104239436B - 一种基于文本分类和聚类分析的网络热点事件发现方法

Info

Publication number: CN104239436B
Application number: CN201410432539.4A
Authority: CN
Inventors: 成卫青; 范恒亮; 卢艳红
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2014-08-27
Filing date: 2014-08-27
Publication date: 2018-01-02
Anticipated expiration: 2034-08-27
Also published as: CN104239436A

Abstract

本发明公开了一种基于文本分类和聚类分析的网络热点事件发现方法，该方法解决了已有的基于聚类分析的热点事件发现方法存在的效率和准确率有待进一步提高的问题。该方法首先利用训练语料库通过特征词提取和特征选择为各类别文本分别选取特征词，再采用向量空间模型法将每个训练文本和测试文本表示为在所有特征空间中的向量，并采用TF‑IDF方法确定向量中每一维的权重，然后对各个测试文本进行分类，再对分好类的各个类别的测试文本分别进行聚类分析，得到各个类别的热点簇，再分析得到代表热点事件的特征词，进而分析热点各个特征词的词性等，再利用相关语言知识，通过必要的语言组织生成热点事件的描述。本发明能有效提高热点事件发现的效率和准确率。

Description

一种基于文本分类和聚类分析的网络热点事件发现方法

技术领域

本发明涉及文本挖掘技术领域，特别涉及一种基于文本分类和聚类分析的网络热点事件发现方法。

背景技术

网络的发展，为民众抒发内心的情绪和态度提供了一个理想的表达渠道，人们可以根据新闻来发表自己的观点和意见。热点事件是指在一段时间、一定区域范围引起人们极大关注的事件，也即吸引公众一定注意力的公众事件。突发事件是网络热点事件中相当重要的一个部分。突发事件是指突然形成、造成巨大的财物损失、大量的人员伤亡以及对人们的日常生活造成严重影响的事件。政府部门需要随时对网络的突发舆情信息进行严密的监控，希望可以实时把握和跟踪最新的社会热点，并判断其是否对人们的生活造成了影响。

对于现实出现的各种网络热点事件和相关的网络评论，社会管理者和有关的政府部门必须有能力及时做出反应，防患于未然，防微杜渐，这就需要及时地对网络热点事件进行监控、跟踪和处理。

文本分类是指在给定分类体系下，根据文本的内容将其分到相应预定义类别中的过程。文本分类过程实际上是对文本的模式特征进行识别，其中的关键技术包括文本预处理、特征提取、分类模型等。将物理或抽象对象的集合分成由类似对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。话题发现与跟踪技术是一项针对新闻信息进行话题的提取和后续跟踪的信息处理技术。

热点事件发现是要发现某个以前未知的热点话题，它实际上是一个聚类过程，聚类形成的每个簇都表示一个话题，话题可以通过不同的聚类方法来发现。不过，单纯通过聚类发现热点事件，存在准确率不高和效率低下的问题。而本发明能够很好地解决上面的问题。

发明内容

本发明目的在于提供一种基于文本分类和聚类分析的网络热点事件发现方法，该方法用于解决传统的单一基于聚类的热点事件发现方法中存在的聚类方法效率和准确率有待进一步提高的问题。

本发明解决其技术问题所采取的技术方案是：本发明将文本分类应用于热点事件发现中，提出采用先分类再聚类的方法来解决聚类方法存在的一些缺点。本发明采用的方法是先对网络文本进行分类，之后再针对各个类别的文本集分别利用热点发现系统进行处理，从而发现热点事件。本发明基于的原理是：一个热点事件相关联的若干数量的文本，包含一定数量的相同特征词，在文本类别属性上也应该是相同的。

方法流程：

本发明提出一种基于文本分类和聚类技术的网络热点发现方法，该方法是利用KNN分类方法对测试集中的文本进行分类，再利用文本分类结果，分别对各个类别的所有文本进行聚类分析，之后再进行相关统计，进而发现热点事件，该方法包括如下步骤：

步骤1：利用KNN分类方法对测试文本进行分类；

步骤1-1：构建训练语料库(即DTrain)和测试语料库(即DTest)，利用训练语料库提取特征词并进行特征选择。训练集可以采用网上发布的已有的中文语料库，测试样本可以从BBS论坛、门户网站新闻版面获取，可利用网页采集模块在互联网上搜索和下载所需的网页，通过网页清洗模块对已下载文档中的广告等干扰信息进行处理，并利用HTMLParser技术对网页中的主体内容进行抽取，完成网页文本信息的前期处理工作。对文本再做分词、去除停用词等处理，得到特征词，再基于χ2特征评价函数进行特征选择，为训练集中各类别文本分别选取一定数量的特征词；

步骤1-2：扫描并统计每一篇训练文本、测试文本在所有特征空间中的向量，采用TF-IDF的方法确定向量中每一维的权重；

步骤1-3：对测试集(即DTest)中的每个测试文本X，按余弦距离法在训练集(即DTrain)中找到它的K-最近邻子集{X₁,…,X_k}；

步骤1-4：基于测试文本X与其k个近邻的余弦相似度以及k个近邻的类别，计算测试文本X属于每一个类别的权重：

其中，μ_j(X_i)∈{0,1}含义为测试文本的近邻文本X_i是否属于C_j；sim(X,X_i)表示测试文本与训练文本X_i的余弦相似度。决策方法为：如果μ_l(X)＝maxμ_j(X)，则决策X∈C_l，即类别权重最大的作为测试文本的所属类别。最终得到所有测试文本的分类结果，为下面的聚类分析和热点事件发现做好准备；

步骤2：根据分类结果，利用聚类方法分别对各个类别的测试文本进行热点事件发现；热点分析子系统包括聚类、热点特征词提取、热点事件分析等模块，具体步骤为：

步骤2-1：聚类；根据文本分类的结果，分别对测试语料库中各个类别的所有文本进行聚类处理，进而发现网络热点簇。对文本预处理子系统中提供的文本向量，利用K-means聚类模块进行相关的运算，得到聚类的结果，从而发现与热点相关的簇和属于该簇的文本集合，对每个类别的所有测试文本的聚类分析包括如下步骤：

步骤1：首选随机选出k个文本对象，每个被选择的文本对象表示一个簇的初始中心；

步骤2：计算该类别中的每个文本对象X_j与各个簇中心的距离，并把X_j划分到离它最近的聚类中心所在的簇中，之后利用各簇中所有文本对象的文本特征向量的均值更新簇中心；

步骤3：重复上述步骤2，直到该类别所有测试文本对象X_j的簇不再变化为止，这样就得到了k个热点簇C₁,C₂,…,C_k。对测试集中每个类别分别得到若干热点簇；

步骤2-2：热点特征词提取：根据聚类模块计算出的各个簇中心，对每个簇中心而言，把簇中心的特征向量中权重前80％大的特征词提取出来，作为该热点的代表性特征，这样可以更加明确热点事件，也便于之后的热点事件的分析和描述；

步骤2-3：热点事件分析：利用各个特征词的词性和相关的语言知识，对由提取模块得到的各个热点事件的特征词进行必要的语言组织，从而形成热点事件的完整描述。权值排序倒数20％的特征词也有一定的价值，虽然这些特征的权重较小，但可以从侧面为热点提供一定的附加信息。

有益效果：

1、本发明解决了已有的基于聚类分析的热点事件发现方法存在的时空复杂度高和热点事件发现准确率较低等问题，提高了热点事件发现的效率和准确率。

2、本发明减少了聚类方法的时空复杂度。

3、本发明能够有效地提取特征词，也便于文本降维，减少了不同类别热点事件之间的影响，从而提高了热点事件发现的成功率。

附图说明

图1为本发明基于文本分类和聚类分析的网络热点事件发现方法的流程图。

具体实施方式

以下结合说明书附图对本发明创造作进一步的详细说明。

如图1所示，本发明提出一种基于文本分类和聚类技术的网络热点发现方法，该方法包括如下步骤：

步骤1：利用KNN分类方法对测试文本进行分类；

步骤1-1：构建训练语料库(即DTrain)和测试语料库(即DTest)，利用训练语料库提取特征词并进行特征选择。训练集采用网上发布的已有的中文语料库，测试样本可以从BBS论坛、门户网站新闻版面获取，利用网页采集模块在互联网上搜索和下载所需的网页，通过网页清洗模块对已下载文档中的广告等干扰信息进行处理，并利用HTMLParser技术对网页中的主体内容进行抽取，完成网页文本信息的前期处理工作。对文本再做分词、去除停用词等处理，得到特征词，再基于χ2特征评价函数进行特征选择，为训练集中各类别文本分别选取一定数量的特征词；

步骤2：根据分类结果，利用聚类方法分别对各个类别的测试文本进行热点事件发现；热点分析子系统主要包括聚类、热点特征词提取、热点事件分析等模块，具体步骤为：

步骤2-1：聚类；根据文本分类的结果，分别对测试语料库中各个类别的所有文本进行聚类处理，进而发现网络热点簇。对文本预处理子系统中提供的文本向量，利用K-means聚类模块进行相关的运算，得到聚类的结果，从而发现与热点相关的簇和属于该簇的文本集合；

步骤2-3：热点事件分析：利用各个特征词的词性和相关的语言知识，对由提取模块得到的各个热点事件的特征词进行必要的语言组织，从而形成热点事件的完整描述。权值排序倒数20％的特征词也有一定的价值，虽然这些特征的权重较小，但是也可以从侧面为热点提供一定的附加信息。

本发明是采用KNN方法来对文本进行分类处理。

本发明基于传统KNN方法的文本分类过程，具体包括如下步骤：

(1)文本的预处理，主要包括分词、去除停用词等；

(2)特征选择，即从经预处理得到的数量仍然较大的特征词中进行筛选，选取对分类较重要的特征词，其主要方法有：互信息、交叉熵、信息增益、χ2统计方法、文本证据权等；

(3)扫描并统计每一篇训练文本在所有特征空间中的向量，采用TF-IDF的方法确定向量中每一维的权重；

(4)对于一篇待分类的文本，也称测试文本，提取特征词并计算文本向量的各维权重，之后计算该文本与每一篇训练文本的相似度，一般采用余弦距离的方法：

其中w_ik为文本向量d_i的第k维属性权重，m是文本特征向量的维度；

(5)将所有文本相似度按降序排列，选出与测试文本最相邻的k个训练文本；

(6)基于测试文本与其k个近邻的相似度，以及k个近邻的类别，计算测试文本属于每一个类别的权重：

其中，μ_j(X_i)∈{0,1}含义为文本Xi是否属于类别C_j；sim(X,X_i)表示测试文本X与训练文本X_i的相似度。决策方法为：如果μ_l(X)＝maxμ_j(X)，则决策X∈C_l，即类别权重最大的作为测试文本的所属类别。

本发明中聚类部分使用划分法中的k-means方法，基于传统k-means方法的文本聚类主要包括如下过程：

(1)首先从n个数据对象中任意选择k个对象作为初始聚类中心；

(2)对所有对象，根据它们与聚类中心的相似度(距离)，分别将它们划分到与其最相似的簇(聚类中心所代表的簇)；

(3)计算每个新簇的聚类中心，也即该簇中所有对象的均值；不断重复(2)(3)直到所有对象的簇不再改变为止；

(4)统计各个对象分别归属于哪一个聚类中心，再对各个簇进行统计分析，从而可以发现热点事件。

本发明从网络上搜集新闻并进行热点事件分析，具体实施方式为：

一、分类部分

(1)利用网络爬虫或相关网络信息抓取工具从互联网上抓取一定数目的各个领域有代表性的文章构成文本分类系统的训练样本集，再从门户新闻网站随机抓取一些文章构成测试样本集。

(2)对这些文本进行预处理，分词后去掉停用词，得到特征词，统计词的频度和反文档频率，并根据χ2特征评价方法分别计算出一个特征词相对于每个类别的权重并求和得到特征评价值。将每个特征词的最终权重设为：TF-IDF。对训练集中文本按类别分别选取一定数量(记为N_f)特征词。利用所有这些特征词将训练集中每篇文章表示为文本向量的形式。

(3)同样，对于测试样本集中的每个测试文本，利用所有类别全部的特征词对其进行特征词扫描，并将每一维的特征权重设为TF-IDF，从而得到测试文本的文本向量。

(4)对每个测试文本X_q，计算它与训练集中每个文本的余弦相似度，在训练集中找到X_q的K-最近邻子集{X₁,…,X_k}，计算公式如下：

式中d_q表示测试文本的特征向量，d_j为训练文本序号为j文本的特征向量，m为特征向量的维度，w_jk表示文本j的特征向量的第k维权重。

(5)基于测试文本X与其k个近邻的余弦相似度以及k个近邻的类别，计算测试文本X属于每一个类别的权重：

其中，μ_j(X_i)∈{0,1}含义为测试文本的近邻文本X_i是否属于C_j；sim(X,X_i)表示测试文本与训练文本X_i的余弦相似度。决策方法为：如果μ_l(X)＝maxμ_j(X)，则决策X∈C_l，即类别权重最大的作为测试文本的所属类别。

最终得到所有测试文本的分类结果，为下面的聚类分析和热点事件发现做好准备。

二、聚类部分

根据分类结果，利用聚类方法分别对各个类别进行热点事件发现。这里聚类采用的是K-means聚类方法。热点分析子系统主要包括聚类模块，热点特征词提取模块，热点事件分析模块等。

(1)聚类模块：根据文本分类的结果，分别对测试语料库中各个类别的所有文本进行聚类处理，进而发现网络热点簇。对文本预处理子系统中提供的文本向量，利用K-means聚类模块进行相关的运算，得到聚类的结果，从而发现与热点相关的簇和属于该簇的文本集合，对每个类别的所有测试文本的聚类分析包括如下步骤：

步骤3：重复上述步骤2，直到该类别所有测试文本对象X_j的簇不再变化为止，这样就得到了平均误差最小的k个热点簇C₁,C₂,…,C_k。对测试集中每个类别分别得到若干热点簇；

(2)热点特征词提取模块：根据聚类模块计算出的各个簇中心，对每个簇中心而言，把簇中心的特征向量中权重较大的80％的特征词提取出来，作为该热点的代表性特征，这样可以更加明确热点事件，也便于之后的热点事件的分析和描述；

(3)热点事件分析模块：利用各个特征词的词性和相关的语言知识，对由提取模块得到的各个热点事件的特征词进行必要的语言组织，从而形成热点事件的完整描述。权值排序倒数20％的特征词也有一定的价值，虽然这些特征的权重较小，但是也可以从侧面为热点提供一定的附加信息。

Claims

1.一种基于文本分类和聚类分析的网络热点事件发现方法，其特征在于，所述方法是利用训练语料库通过特征词提取和特征选择为各类别文本分别选取特征词；所述方法采用向量空间模型法将每一篇训练文本、测试文本表示为在所有特征空间中的向量，并采用TF-IDF的方法确定向量中每一维的权重；所述方法是利用KNN分类方法对测试集中的文本进行分类；所述方法是利用文本分类结果，分别对各个类别的所有文本进行聚类分析，之后再进行相关统计，进而发现热点事件，包括如下步骤：

步骤1：利用KNN分类方法对测试文本进行分类，包括：

步骤1-1：构建训练语料库和测试语料库，利用训练语料库提取特征词并进行特征选择；

步骤1-3：对测试集中的每个测试文本X，按余弦距离法在训练集中找到它的K-最近邻子集{X₁,…,X_k}；

其中，μ_j(X_i)∈{0,1}含义为测试文本的近邻文本X_i是否属于C_j；sim(X,X_i)表示测试文本与训练文本X_i的余弦相似度；决策方法为：如果μ_l(X)＝maxμ_j(X)，则决策X∈C_l，即类别权重最大的作为测试文本的所属类别，最终得到所有测试文本的分类结果，为下面的聚类分析和热点事件发现做好准备；

步骤2：根据分类结果，利用聚类方法分别对各个类别的测试文本进行热点事件发现；热点分析子系统包括聚类、热点特征词提取、热点事件分析等模块，包括：

步骤2-1：聚类；根据文本分类的结果，分别对测试语料库中各个类别的所有文本进行聚类处理，进而发现网络热点簇；对文本预处理子系统中提供的文本向量，利用K-means聚类模块进行相关的运算，得到聚类的结果，从而发现与热点相关的簇和属于该簇的文本集合，对每个类别的所有测试文本的聚类分析包括如下步骤：

第一步：首选随机选出k个文本对象，每个被选择的文本对象表示一个簇的初始中心；

第二步：计算该类别中的每个文本对象X_j与各个簇中心的距离，并把X_j划分到离它最近的聚类中心所在的簇中，之后利用各簇中所有文本对象的文本特征向量的均值更新簇中心；

第三步：重复上述第二步，直到该类别所有测试文本对象X_j的簇不再变化为止，这样就得到了k个热点簇C₁,C₂,…,C_k；对测试集中每个类别分别得到若干热点簇；

步骤2-2：热点特征词提取；根据聚类模块计算出的各个簇中心，对每个簇中心而言，把簇中心的特征向量中权重前80％大的特征词提取出来，作为该热点的代表性特征；

步骤2-3：热点事件分析；利用各个特征词的词性和相关的语言知识，对由提取模块得到的各个热点事件的特征词进行必要的语言组织，从而形成热点事件的完整描述；权值排序倒数20％的特征词也有价值，从侧面为热点提供附加信息；

所述方法基于传统KNN方法的文本分类过程，包括如下步骤：

(1)文本的预处理，主要包括分词、去除停用词；

(2)特征选择，即从经预处理得到的数量仍然较大的特征词中进行筛选，选取对分类较重要的特征词，其方法有：互信息、交叉熵、信息增益、χ²统计方法、文本证据权；

其中，μ_j(X_i)∈{0,1}含义为文本X_i是否属于类别C_j；sim(X,X_i)表示测试文本X与训练文本X_i的相似度，决策方法为：如果μ_l(X)＝maxμ_j(X)，则决策X∈C_l，即类别权重最大的作为测试文本的所属类别；

根据分类结果，利用聚类方法分别对各个类别进行热点事件发现，所述聚类采用的是K-means聚类方法，热点分析子系统包括聚类模块，热点特征词提取模块，热点事件分析模块；

(1)聚类模块：根据文本分类的结果，分别对测试语料库中各个类别的所有文本进行聚类处理，进而发现网络热点簇，对文本预处理子系统中提供的文本向量，利用K-means聚类模块进行相关的运算，得到聚类的结果，从而发现与热点相关的簇和属于该簇的文本集合，对每个类别的所有测试文本的聚类分析包括如下步骤：

步骤3：重复上述步骤2，直到该类别所有测试文本对象X_j的簇不再变化为止，这样就得到了平均误差最小的k个热点簇C₁,C₂,…,C_k，对测试集中每个类别分别得到若干热点簇；

(2)热点特征词提取模块：根据聚类模块计算出的各个簇中心，对每个簇中心而言，把簇中心的特征向量中权重较大的80％的特征词提取出来，作为该热点的代表性特征；

(3)热点事件分析模块：利用各个特征词的词性和相关的语言知识，对由提取模块得到的各个热点事件的特征词进行必要的语言组织，从而形成热点事件的完整描述，权值排序倒数20％的特征词也有一定的价值，虽然这些特征的权重较小，但是也从侧面为热点提供附加信息。