CN107066555B

CN107066555B - 面向专业领域的在线主题检测方法

Info

Publication number: CN107066555B
Application number: CN201710186405.2A
Authority: CN
Inventors: 喻梅; 原旭莹; 于健; 高洁; 王建荣; 辛伟
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-03-26
Filing date: 2017-03-26
Publication date: 2020-03-17
Anticipated expiration: 2037-03-26
Also published as: CN107066555A

Abstract

本发明公开了一种面向专业领域的在线主题检测方法，得到预处理的文本集的文本向量矩阵，并从文本集中提取词典；对文本向量矩阵进行建模；计算文本d对主题θ_k的混合权重p(θ_k|d)和每个主题主题θ_k中特征词出现的频率p(ω|θ_k)；得到两文本d_i,d_j之间相似度，文本间基于主题模型的主题距离定义为文本向量的相对熵距离，计算相似度矩阵；压缩文本集，得到新文本样本集；计算新文本样本集的相似度矩阵，并根据此相似度矩阵选择偏向参数p；对上述聚类结果合并处理，产生新的聚类结果；计算原文本集中所有文本与压缩后已经分类出的文本的距离，进行分类；输出文本集主题以及最终聚类结果。与现有技术相比，本发明于采用更优化的聚类算法，提高了聚类结果准确率和效率。

Description

面向专业领域的在线主题检测方法

技术领域

本发明属于数据挖掘、自然语言处理、信息抽取和信息检索技术领域，特别是涉及一种主题检测和跟踪技术。

背景技术

目前在主题检测的相关技术中，常用的聚类算法主要有K均值聚类算法(K-means)和仿射传播聚类算法(AP算法)。K均值聚类算法(K-means)是最流行、最典型的基于距离的划分聚类算法。K-means算法采用距离作为相似性的评价指标，认为簇是由彼此相似的一组对象所构成的集合，因此把得到紧凑且独立的簇作为最终目标。K-means算法以随机选择的点作为初始中心点，然后根据其他点到中心点的距离，把集合中的点划分到相应类别中，直到划分达到收敛条件：划分结果的方差下降的速度很小或者迭代过程中没有重新划分的点出现。

K-means算法的缺点是对初始点的选择敏感，如果初始点选择的不恰当，迭代会收敛到一个局部最优划分。因此，实际应用中，一般会多次运行，选择运行结果中最好的一次作为最终结果。

另一类算法是仿射传播聚类算法，AP算法是基于图的消息传递算法，每个对象可以看作是图上的一个点，它们之间进行消息传递。算法输入为N个对象之间的相似度矩阵，这个矩阵可以是对称的，即两个数据点互相之间的相似度一样(如欧氏距离)；也可以是不对称的，即两个对象互相之间的相似度不等。AP算法通过相似度信息在样本间的迭代传递，最终得到一组最优的模板点，其他点根据自身与模板点的相似关系来聚类。

AP算法的缺点在于因AP算法在计算数据时需要占用两次CPU时间，且算法复杂度较高，因此当数据集规模比较大(N＞3000)时，AP聚类算法往往需要计算很久。近几年来，随着网页规模的大幅度增加，AP聚类算法已无法满足大规模数据集文本的聚类。

发明内容

基于现有技术，本发明提出了一种面向专业领域的在线主题检测方法，利用更优化的聚类算法，实现面向专业领域大规模文本集的文本主题的在线检测方法。

本发明提出了一种面向专业领域的在线主题检测方法，该方法包括以下步骤：

步骤一、对文本集进行包括文本分词、过滤停用词、计算TF/IDF值、文本特征向量化、标准化在内的预处理操作，得到文本集的文本向量矩阵A，A＝(Wt_w，d)，其中Wt_w，d表示单词w在文本d中的权重，并在文本切分词的时候从文本集中提取词典(文本集中出现过的所有词的有序集合)；

步骤二、通过LDA主题模型对文本向量矩阵进行建模，建模的数学表示如下：：

文本集是M个文本的集合，表示成D＝{d₁，d₂，d₃，...，d_i}，其中i∈M，d_i表示其中第i篇文本；

文本是K个主题的集合，可以表示成d_i＝{θ₁，θ₂，θ₃，…，θ_n}，其中n∈K，θ_n表示其中的第n个主题；

主题是t个单词的集合，表示成θ_n＝{w₁，w₂，w₃，…，w_t}，其中w_t表示主题里的第t个词。

通过LDA主题模型对文本向量进行建模，将包含上万个单词的文本转换成文本在主题上的映射和主题在单词上的映射；

步骤三、通过Gibbs采样来估计参数主题-词语分布

和文本-主题分布θ，得到文本d对主题θ_k的混合权重p(θ_k|d)和主题θ_k中特征词ω出现的频率p(ω|θ_k)；对于每一个单一的样本，可以按下式估算

和θ，如公式(1)、公式(2)所示：

其中，

表示主题j中单词w的概率，n_j ^(w)表示单词w被分配给主题j的次数，n_j表示分配给主题j的所有次数，V表示语料库中所有单词的个数，

表示文本d中主题j的概率，n_j ^d表示文本d中分配给主题j的次数，n^d表示文本d中所有被分配了主题的次数，T表示主题总数，α和β表示按时间顺序变化的控制

和

的超参数。

步骤四、使用主题距离的度量公式计算文本相似度矩阵，文本间基于主题模型的主题距离定义为文本向量的相对熵距离，任意两个文本d_i和d_j之间的相似度计算如公式(3)所示。

其中，P(θ_k|d_i)表示文本d_i对主题θ_k的混合权重，P(θ_k|d_j)表示文本d_j对主题θ_k的混合权重，k取值为1至K，K为指定的主题数。

步骤五、使用CVM压缩算法对文本集中大规模的文本数据集进行压缩，得到新的文本样本集；

步骤六、根据公式(3)计算新的文本样本集的相似度矩阵，并根据此相似度矩阵选择偏向参数p，偏向参数空间为[-∞，0]，首先将偏向参数的值设为-1，即p＝-1，在AP算法的迭代过程中不断优化聚类结果；

步骤七、对步骤六得到的相似度矩阵利用AP算法进行聚类，得到新的样本文本集的聚类中心和聚类结果；

步骤八、选择参数T，调用基于距离的merge过程对步骤七的聚类结果进行合并处理，产生新的聚类中心和聚类结果；

步骤九、计算原文本集中所有文本与压缩后已经分类出的文本的距离，距离哪个文本最近，则将其与这个文本归为一类；

步骤十、输出文本集的主题以及最终聚类结果。

与现有技术相比，本发明本发明的一种面向专业领域的在线主题检测方法，具有以下积极的技术效果：

1、提供了一种更加优秀的聚类算法来解决网页规模变化带来的系统性能下降的问题，解决传统搜索引擎越来越难以满足用户对信息更专业和更个性化的需求的问题；

2、该聚类算法可以在提高聚类结果准确率的同时，有效的提高聚类速度，解决了网页规模大幅度增加带来的系统性能下降的问题，而且数据集文本数越多时，该聚类算法的优势越明显；

3、在包含不同数量文本的网页集聚类测试中可以在提高聚类准确率的同时，有效的提高聚类的效率，而且数据集中文本数越多，优势越明显；用来传统搜索引擎越来越难以满足用户对信息更专业和更个性化的需求的问题。

附图说明

图1为本发明的面向专业领域的在线主题检测方法(DSTD算法)的流程图；

图2为本发明的DSTD算法与ATDA算法在不同数量测试集中F-Measure值的比较结果示意图；

图3为本发明的DSTD算法与ATDA算法在不同数量测试集中准确率的比较结果示意图；

图4为本发明的DSTD算法与ATDA算法在四种不同类型测试集聚类的Purity值的比较结果示意图。

具体实施方式

下面结合附图对本发明作进一步详细描述。

如图1所示，为本发明算法的流程图，包括：

步骤1、预处理：首先进行文本的预处理，包括分词、去停用词、计算TF/IDF值、向量化、标准化等预处理操作，得到文本集的文本向量矩阵，并从文本集中提取词典；

步骤2、主题分解：对预处理后的文本集根据LDA模型进行主题分解，得到潜在主题结构；

步骤3、计算p(θ_k|d)和p(ω|θ_k)，文本d对主题θ_k的混合权重p(θ_k|d)和主题θ_k中特征词ω出现的频率p(ω|θ_k)为随机变量，引入控制参数主题-词语分布

和文本-主题分布θ来估计p(θ_k|d)和p(ω|θ_k)。使用Gibbs采样算法对步骤2建立的LDA主题模型的参数

和θ进行估计后，得到p(θ_k|d)和p(ω|θ_k)。

对于每一个单一的样本，可以按下式估算φ和θ，如公式(1)、公式(2)所示。

其中，

和

的超参数。

步骤4、计算相似度矩阵：使用主题距离的度量公式计算文本相似度矩阵；

根据混合权重p(θ_k|d)将每个文本表示成相对于分解得到的K个主题的K维主题向量

如公式(3)所示。

其中，P(θ_k|d_i)表示文本d_i对主题θ_k的混合权重。

任意两个文本d_i和d_j之间的相似度D(d_i，d_j)通过两个文本的主题向量计算，如公式(4)所示。

由上述相似度构成文本的相似度矩阵；

步骤5：压缩文本集，采用核向量机算法(Core Vector Machine，CVM)将含有大量数据的样本集进行压缩，得到仅剩几十个数据的新样本集；

步骤6：计算步骤5得到的新样本集的相似度矩阵，按照步骤4计算新样本集的相似度矩阵，并根据将原样本集的相似度矩阵和新样本集的相似度矩阵相比较，选择偏向参数p，偏向参数空间为[-∞，0]，首先根据先验信息将偏向参数设为-1，即p＝-1，在AP算法的迭代过程中自适应地改变偏向参数的取值；

步骤7：用AP算法对步骤6得到的相似度矩阵进行聚类，通过预设的偏向参数p自动寻找离散数据集的类别个数，采用迭代方式不断搜索合适的聚类中心，同时也使得聚类的代价函数最优化，得到聚类结果；

步骤8：合并聚类，对步骤7中AP算法聚类后的结果，调用基于距离的merge过程对其进行合并处理，得出压缩文本集的最终聚类中心和聚类结果，如公式(5)、公式(6)、公式(7)所示。

①对第k个类中的任意两个数据x_i和x_j，求x_i和x_j之间的距离d_i，j，如公式(5)所示。

d_i，j＝|x_i-x_j| (₅)

其中，X＝{x₁，x₂，...，x_n}是数据集合，x_n表示第n个数据。

②求第k个类中的所有数据之间的平均距离d_k，如公式(6)所示。

其中，d_i，j表示任意两个数据x_i和x_j之间的距离，N表示数据总数，N_k表示第k个类中数据点的个数。

③求整个数据集所有点之间的平均距离d，如公式(7)所示。

其中，d_k表示第k个类中的所有数据之间的平均距离，K表示总的聚类个数。

④给定参数T，对任意两个不同的类q_i和q_j，q_i≠q_j，求得q_i和q_j中任意两点间的距离，并取其最小值d_min如果d_min＜T×d，则将这两类合并；否则不合并。

⑤对所有的m类，按照步骤④依次循环处理，直到结束。

步骤9：划分大样本的文本，根据步骤八得到的聚类中心，采用已知means划分聚类的过程。大样本文本集中任意数据

和聚类中心

其中，

和

分别为数据x_i和聚类中心c_j的l个属性的具体取值，x_i与c_j间的距离d(x_i，c_j)如公式(8)所示，然后将数据x_i归类到与其距离最小的聚类中心中。

其中，

和

分别为数据点x_i和聚类中心c_j的l个属性的具体取值。

步骤10：输出文本集的主题以及最终的聚类结果。

本发明使用Purity指标和F-Measure值作为技术效果的预测评分的评价标准。Purity指标只需计算正确的聚类的数据个数占总数据的比例，公式如(9)所示。

其中，E＝{ε₁，ε₂，…，ε_m}是聚类的集合，ε_m表示第m个聚类的集合，X＝{x₁，x₂，...，x_n}是数据集合，x_j表示第j个数据，N表示数据总数。该指标的值在0～1之间，值为0时，表示聚类完全错误；值为1时，表示聚类完全正确。

F-Measure值是信息检索领域的常用的一个评价标准，公式如(10)所示。

其中，β是参数，当参数β＝1时，就是最常见的F1-Measure。P是准确率，公式如(11)所示。R是召回率，公式如(12)所示。

其中，TP表示被正确分类的相关样本数目，FP表示被错误分类的不相关样本数目，FN表示被错误分类的相关样本数目。

实验结果表明，以自适应主题检测算法(ATDA)为例，与该面向专业领域的在线主题检测算法(DSTD)相比较，如图2所示，为将该面向专业领域的在线主题检测算法(DSTD)与自适应主题检测算法(ATDA)进行聚类比较，得到的F-Measure值。可知随着文本数量逐渐增大，ATDA算法得到的F-Measure值始终优于DSTD算法得到的F-Measure值，且随着测试集中文本数量的增多，DSTD算法得到的F-Measure值优势越来越大。

如图3所示，在DSTD算法与ATDA算法就聚类结果准确率的比较中，随着测试集中文本数目的增多，两种算法的聚类准确度均略有下降，但从两种算法之间的比较可以发现虽然这两种算法的准确率相差很小，但是DSTD算法依然要略优于ATDA算法。说明了DSTD算法可以提高聚类的准确率。

如图4所示，DSTD算法与ATDA算法在四种不同类型测试集中就Purity值进行比较，DSTD算法可以取得比ATDA算法更好的聚类效果。可知DSTD算法在处理大文本数据时，可以在提高聚类结果准确率、Purity值和F-Measure值的同时，有效的提高聚类速度，解决了网页规模大幅度增加带来的系统性能下降的问题。