CN103886072B

CN103886072B - 煤矿搜索引擎中检索结果聚类系统

Info

Publication number: CN103886072B
Application number: CN201410110171.XA
Authority: CN
Inventors: 刘永利; 赵珊; 王建芳; 雒芬; 赵建贵
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2014-03-24
Filing date: 2014-03-24
Publication date: 2016-08-24
Anticipated expiration: 2034-03-24
Also published as: CN103886072A

Abstract

本发明提出了一种煤矿搜索引擎中检索结果聚类系统，包括检索结果聚类及类别标签抽取装置，该装置包括搜索引擎服务器、文本检索结果聚类模块和类别标签抽取模块，煤矿搜索引擎服务器处理用户提交的查询请求，产生的初始检索结果经文本检索结果聚类模块后返回给用户。采用该系统后，可有效提高文本集的聚类速度，还可避免在选择相似度计算方法时的主观随意性。在数据对象合并成簇时，通过计算合并时产生的互信息损失来度量数据对象之间的相似关系，并在此基础上，提供检索结果文档的高质量分组。

Description

煤矿搜索引擎中检索结果聚类系统

技术领域

本发明属于煤矿安全领域。

背景技术

在煤矿领域中，Internet信息总量的爆炸式增长为信息的使用和管理带来了一定挑战。准确、快捷的从如此庞杂无序的海量数据中发现用户需要的煤矿领域信息，成为一种极为迫切的需求。于是，信息检索技术在煤矿领域得到了深入的研究和广泛的应用。

搜索引擎是煤矿用户经常使用的工具性应用之一。在用户与Web搜索引擎之间一次典型的交互过程中，用户将特定的信息需求表达为一个查询，提交给Web搜索引擎；服务器对检索请求处理之后，返回一列检索结果。在这些结果中，一部分可能与用户的检索意图相关，一部分则可能完全无关。通常，用户希望最相关的结果排在检索结果的最前面。而事实上，相关结果与不相关结果往往混杂在一起，甚至是相关结果出现在不相关结果之后。

文档聚类技术能够揭示隐藏在Web数据之后具有潜在价值的信息或结构，是一种非常有效的检索结果再组织方法。文档聚类是Web挖掘领域中最重要的工具之一，其目的是将一个文档集合分成若干个簇，要求同一个簇内的文本内容具有较高的相似度，而不同簇之间的相似度尽可能小。每个聚类过程主要包括相似度计算方法和聚类算法两个部分。目前，研究者已经提出多种文档聚类算法，大致可分为4个类别，即层次化聚类算法、划分式聚类算法、基于密度和网格的聚类算法和其它聚类算法。

目前，在搜索引擎引擎的使用过程中，搜索的结果显示缺乏清晰的结构。搜索引擎得到的结果量非常巨大，然而显示结果却是一个线性列表，在这些结果中，一部分可能与用户的检索意图相关，一部分则可能完全无关。通常，用户希望最相关的结果排在检索结果的最前面。而事实上，相关结果与不相关结果往往混杂在一起，甚至是相关结果出现在不相关结果之后。用户如果想要通过搜索引擎找到需要的信息则必须逐个浏览返回的查询结果，这样不仅会浪费很多时间，而且不一定能够准确地找到相关的资料。

针对检索结果的聚类与普通的文档聚类有所不同，主要表现在检索结果聚类除了完成聚类过程之外，还需要抽取类别标签，前者对文本检索结果进行分组，后者则生成每个分组的描述信息。

基于以上分析，对于检索结果而言，仅仅提供一个按相关性排序的文档列表的传统显示方式表现出一定的不足，迫切需要对检索结果展开深入分析和加工。

发明内容

基于以上分析，本发明提出了一种煤矿搜索引擎中检索结果聚类系统，包括检索结果聚类及类别标签抽取装置，该装置包括搜索引擎服务器、文本检索结果聚类模块和类别标签抽取模块，煤矿搜索引擎服务器处理用户提交的查询请求，产生的初始检索结果经文本检索结果聚类模块后返回给用户；其中文本检索结果聚类模块中，采用以下方法进行数据分析：

(1)初始化：将检索结果文档集合表示成其中，A表示文档集合对应的文档-特征词矩阵，m为文档数目，n代表特征词数目，w_ij表示第j个特征词在第i个文档中的权重，i和j为自然数，1≤i≤m，1≤j≤n。

(2)降维：将矩阵A按照奇异值分解方法分解为3个矩阵的乘积，即：A＝USV^T，其中，U和V为正交矩阵，矩阵U为m×m矩阵，矩阵V为n×n矩阵，S为m×n奇异对角阵，是原矩阵A的消减矩阵，S对角元素为A的奇异值，将S对角元素按从大到小顺序排列，取前k个最大的值，分别得到U_k、S_k和V_k；U_k和V_k分别为U和V的前k列构建的矩阵，S_k为取S对角元素前k个最大的值构建的矩阵，其中k为自然数，1≤k≤m且1≤k≤n；A_k＝U_kS_kV_k ^T，其中A_k为计算得到的矩阵A的k秩近似矩阵；

(3)聚类：矩阵U_k的行向量即为文档的特征向量，其中u_xy表示矩阵U_k的元素，x和y为自然数，1≤x≤m，1≤y≤k，对矩阵U_k采用K-Means聚类算法进行聚类，具体聚类步骤如下：

<1>从m个文档中随机选取Z个文档作为簇的质心，Z为簇的数目，Z个簇分别表示为c₁,c₂,...,c_Z，Z个质心表示为p₁,p₂,...,p_Z，质心p_t的向量形式可表示为p_ty表示该向量的元素，1≤t≤Z；

<2>对矩阵U_k中的每个文档向量，分别计算其到上述Z个质心的距离，并将其划分到距离最近的质心所在的簇，距离的计算方法为其中u_x表示矩阵U_k中第x行表示的文档；

<3>重新计算各个簇的质心，新的质心可表示为p'₁,p'₂,...,p'_Z，质心p'_t的向量形式可表示为p'_ty表示该向量的元素；

<4>迭代步骤<2>和<3>，直至新质心与原质心相等或距离之和

Σ_{t = 1}^{Z} sim (p_{t}, {p^{'}}_{t}) = Σ_{t = 1}^{Z} \frac{Σ_{v = 1}^{k} p_{tv} \times {p^{'}}_{tv}}{\sqrt{Σ_{v = 1}^{k} p_{tv}^{2} Σ_{v = 1}^{k} p_{tv}^{' 2}}}

小于指定阈值θ，θ为实数。

针对检索结果的聚类过程可视为普通的文档聚类，但此时聚类效率是一个关键因素。文档空间的维度较高，增加了聚类过程计算复杂度。传统的方法假设特征之间存在独立性，采用向量空间模型将文档表示为特征向量度量文档之间的相似性。但是，自然语言中大量存在的同义词、多义词以及强相关性词语的共现现象表明，特征之间并不严格存在上述假设中的独立性。因此，基于词语特征的方法存在一定的弊端，不但计算复杂度较高，且忽略了特征之间的相关性。根据以上分析，本发明综合考虑高维特征空间以及词语特征之间相关性两个方面，提出了一种结合信息瓶颈理论和潜在语义分析的聚类方法。

由于文档空间的维度较高，且考虑到自然语言中大量存在的同义词、多义词以及词语共现现象，因此首先采用潜在语义分析方法(Latent Semantic Analysis,LSA)进行特征降维。LSA通过统计分析来发现文档中词与词之间存在的潜在语义结构，并且使用这些语义结构来表示词和文本。通过LSA方法，向量空间大大缩减，可提高文本聚类的效率。应用LSA理论处理后的文本向量空间具有两个优点：1)向量空间中每一维的含义发生了变化，它反映的不再是词条的简单出现频度和分布关系，而是强化的语义关系；2)向量空间的维数大大降低，可以有效地提高文本集的聚类速度。降维之后，以信息瓶颈理论取代传统的相似度计算，这种机制一方面提高了聚类效率，另一方面避免了在选择相似度计算方法时的主观随意性。将数据对象合并成簇时，通过计算合并时产生的互信息损失来度量数据对象之间的相似关系。在此基础上，提供检索结果文档的高质量分组。

附图说明

图1是本系统的结构图。

具体实施方式

煤矿搜索引擎中检索结果聚类系统，包括检索结果聚类及类别标签抽取装置，该装置包括搜索引擎服务器、文本检索结果聚类模块和类别标签抽取模块，煤矿搜索引擎服务器处理用户提交的查询请求，产生的初始检索结果经文本检索结果聚类模块后返回给用户；其中文本检索结果聚类模块中，采用以下方法进行数据分析：

<4>迭代步骤<2>和<3>，直至新质心与原质心相等或距离之和

Σ_{t = 1}^{Z} sim (p_{t}, {p^{'}}_{t}) = Σ_{t = 1}^{Z} \frac{Σ_{v = 1}^{k} p_{tv} \times {p^{'}}_{tv}}{\sqrt{Σ_{v = 1}^{k} p_{tv}^{2} Σ_{v = 1}^{k} p_{tv}^{' 2}}}

小于指定阈值θ，θ为实数。

检索结果聚类系统的好处在于，将聚类算法引入到搜索引擎结果的处理中，对搜索引擎返回的结果进行聚类，按照一定的标准将文档集合自动分成若干个簇，要求同一个簇内的文本内容具有较高的相似度，而不同簇之间的文本相似度尽可能低。这样用户只需要在自己感兴趣的簇中查找，大大缩小了用户所需浏览的结果数量，缩短了用户查询所需的时间。

Claims

1.一种煤矿搜索引擎中检索结果聚类系统，包括检索结果聚类及类别标签抽取装置，该装置包括搜索引擎服务器、文本检索结果聚类模块和类别标签抽取模块，煤矿搜索引擎服务器处理用户提交的查询请求，产生的初始检索结果经文本检索结果聚类模块后返回给用户；其中文本检索结果聚类模块中，采用以下方法进行数据分析：

(1)初始化：将检索结果文档集合表示成其中，A表示文档集合对应的文档-特征词矩阵，m为文档数目，n代表特征词数目，w_ij表示第j个特征词在第i个文档中的权重，i和j为自然数，1≤i≤m，1≤j≤n；

(2)降维：将矩阵A按照奇异值分解方法分解为3个矩阵的乘积，即：A＝USV^T，其中，U和V为正交矩阵，矩阵U为m×m矩阵，矩阵V为n×n矩阵，S为m×n奇异对角阵，是原矩阵A的消减矩阵，S对角元素为A的奇异值，将S对角元素按从大到小顺序排列，取前k个最大的值，分别得到U_k、S_k和V_k；U_k和V_k分别为U和V的前k列构建的矩阵，S_k为取S对角元素前k个最大的值构建的矩阵，其中k为自然数，1≤k≤m且1≤k≤n；其中A_k为计算得到的矩阵A的k秩近似矩阵；

<4>迭代步骤<2>和<3>，直至新质心与原质心相等或距离之和小于指定阈值θ，θ为实数。