CN103886072B - 煤矿搜索引擎中检索结果聚类系统 - Google Patents

煤矿搜索引擎中检索结果聚类系统 Download PDF

Info

Publication number
CN103886072B
CN103886072B CN201410110171.XA CN201410110171A CN103886072B CN 103886072 B CN103886072 B CN 103886072B CN 201410110171 A CN201410110171 A CN 201410110171A CN 103886072 B CN103886072 B CN 103886072B
Authority
CN
China
Prior art keywords
matrix
document
barycenter
cluster
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410110171.XA
Other languages
English (en)
Other versions
CN103886072A (zh
Inventor
刘永利
赵珊
王建芳
雒芬
赵建贵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Technology
Original Assignee
Henan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Technology filed Critical Henan University of Technology
Priority to CN201410110171.XA priority Critical patent/CN103886072B/zh
Publication of CN103886072A publication Critical patent/CN103886072A/zh
Application granted granted Critical
Publication of CN103886072B publication Critical patent/CN103886072B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/02Agriculture; Fishing; Forestry; Mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Mining & Mineral Resources (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Marine Sciences & Fisheries (AREA)
  • Economics (AREA)
  • Animal Husbandry (AREA)
  • Agronomy & Crop Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种煤矿搜索引擎中检索结果聚类系统,包括检索结果聚类及类别标签抽取装置,该装置包括搜索引擎服务器、文本检索结果聚类模块和类别标签抽取模块,煤矿搜索引擎服务器处理用户提交的查询请求,产生的初始检索结果经文本检索结果聚类模块后返回给用户。采用该系统后,可有效提高文本集的聚类速度,还可避免在选择相似度计算方法时的主观随意性。在数据对象合并成簇时,通过计算合并时产生的互信息损失来度量数据对象之间的相似关系,并在此基础上,提供检索结果文档的高质量分组。

Description

煤矿搜索引擎中检索结果聚类系统
技术领域
本发明属于煤矿安全领域。
背景技术
在煤矿领域中,Internet信息总量的爆炸式增长为信息的使用和管理带来了一定挑战。准确、快捷的从如此庞杂无序的海量数据中发现用户需要的煤矿领域信息,成为一种极为迫切的需求。于是,信息检索技术在煤矿领域得到了深入的研究和广泛的应用。
搜索引擎是煤矿用户经常使用的工具性应用之一。在用户与Web搜索引擎之间一次典型的交互过程中,用户将特定的信息需求表达为一个查询,提交给Web搜索引擎;服务器对检索请求处理之后,返回一列检索结果。在这些结果中,一部分可能与用户的检索意图相关,一部分则可能完全无关。通常,用户希望最相关的结果排在检索结果的最前面。而事实上,相关结果与不相关结果往往混杂在一起,甚至是相关结果出现在不相关结果之后。
文档聚类技术能够揭示隐藏在Web数据之后具有潜在价值的信息或结构,是一种非常有效的检索结果再组织方法。文档聚类是Web挖掘领域中最重要的工具之一,其目的是将一个文档集合分成若干个簇,要求同一个簇内的文本内容具有较高的相似度,而不同簇之间的相似度尽可能小。每个聚类过程主要包括相似度计算方法和聚类算法两个部分。目前,研究者已经提出多种文档聚类算法,大致可分为4个类别,即层次化聚类算法、划分式聚类算法、基于密度和网格的聚类算法和其它聚类算法。
目前,在搜索引擎引擎的使用过程中,搜索的结果显示缺乏清晰的结构。搜索引擎得到的结果量非常巨大,然而显示结果却是一个线性列表,在这些结果中,一部分可能与用户的检索意图相关,一部分则可能完全无关。通常,用户希望最相关的结果排在检索结果的最前面。而事实上,相关结果与不相关结果往往混杂在一起,甚至是相关结果出现在不相关结果之后。用户如果想要通过搜索引擎找到需要的信息则必须逐个浏览返回的查询结果,这样不仅会浪费很多时间,而且不一定能够准确地找到相关的资料。
针对检索结果的聚类与普通的文档聚类有所不同,主要表现在检索结果聚类除了完成聚类过程之外,还需要抽取类别标签,前者对文本检索结果进行分组,后者则生成每个分组的描述信息。
基于以上分析,对于检索结果而言,仅仅提供一个按相关性排序的文档列表的传统显示方式表现出一定的不足,迫切需要对检索结果展开深入分析和加工。
发明内容
基于以上分析,本发明提出了一种煤矿搜索引擎中检索结果聚类系统,包括检索结果聚类及类别标签抽取装置,该装置包括搜索引擎服务器、文本检索结果聚类模块和类别标签抽取模块,煤矿搜索引擎服务器处理用户提交的查询请求,产生的初始检索结果经文本检索结果聚类模块后返回给用户;其中文本检索结果聚类模块中,采用以下方法进行数据分析:
(1)初始化:将检索结果文档集合表示成其中,A表示文档集合对应的文档-特征词矩阵,m为文档数目,n代表特征词数目,wij表示第j个特征词在第i个文档中的权重,i和j为自然数,1≤i≤m,1≤j≤n。
(2)降维:将矩阵A按照奇异值分解方法分解为3个矩阵的乘积,即:A=USVT,其中,U和V为正交矩阵,矩阵U为m×m矩阵,矩阵V为n×n矩阵,S为m×n奇异对角阵,是原矩阵A的消减矩阵,S对角元素为A的奇异值,将S对角元素按从大到小顺序排列,取前k个最大的值,分别得到Uk、Sk和Vk;Uk和Vk分别为U和V的前k列构建的矩阵,Sk为取S对角元素前k个最大的值构建的矩阵,其中k为自然数,1≤k≤m且1≤k≤n;Ak=UkSkVk T,其中Ak为计算得到的矩阵A的k秩近似矩阵;
(3)聚类:矩阵Uk的行向量即为文档的特征向量,其中uxy表示矩阵Uk的元素,x和y为自然数,1≤x≤m,1≤y≤k,对矩阵Uk采用K-Means聚类算法进行聚类,具体聚类步骤如下:
<1>从m个文档中随机选取Z个文档作为簇的质心,Z为簇的数目,Z个簇分别表示为c1,c2,...,cZ,Z个质心表示为p1,p2,...,pZ,质心pt的向量形式可表示为pty表示该向量的元素,1≤t≤Z;
<2>对矩阵Uk中的每个文档向量,分别计算其到上述Z个质心的距离,并将其划分到距离最近的质心所在的簇,距离的计算方法为其中ux表示矩阵Uk中第x行表示的文档;
<3>重新计算各个簇的质心,新的质心可表示为p'1,p'2,...,p'Z,质心p't的向量形式可表示为p'ty表示该向量的元素;
<4>迭代步骤<2>和<3>,直至新质心与原质心相等或距离之和 &Sigma; t = 1 Z sim ( p t , p &prime; t ) = &Sigma; t = 1 Z &Sigma; v = 1 k p tv &times; p &prime; tv &Sigma; v = 1 k p tv 2 &Sigma; v = 1 k p tv &prime; 2 小于指定阈值θ,θ为实数。
针对检索结果的聚类过程可视为普通的文档聚类,但此时聚类效率是一个关键因素。文档空间的维度较高,增加了聚类过程计算复杂度。传统的方法假设特征之间存在独立性,采用向量空间模型将文档表示为特征向量度量文档之间的相似性。但是,自然语言中大量存在的同义词、多义词以及强相关性词语的共现现象表明,特征之间并不严格存在上述假设中的独立性。因此,基于词语特征的方法存在一定的弊端,不但计算复杂度较高,且忽略了特征之间的相关性。根据以上分析,本发明综合考虑高维特征空间以及词语特征之间相关性两个方面,提出了一种结合信息瓶颈理论和潜在语义分析的聚类方法。
由于文档空间的维度较高,且考虑到自然语言中大量存在的同义词、多义词以及词语共现现象,因此首先采用潜在语义分析方法(Latent Semantic Analysis,LSA)进行特征降维。LSA通过统计分析来发现文档中词与词之间存在的潜在语义结构,并且使用这些语义结构来表示词和文本。通过LSA方法,向量空间大大缩减,可提高文本聚类的效率。应用LSA理论处理后的文本向量空间具有两个优点:1)向量空间中每一维的含义发生了变化,它反映的不再是词条的简单出现频度和分布关系,而是强化的语义关系;2)向量空间的维数大大降低,可以有效地提高文本集的聚类速度。降维之后,以信息瓶颈理论取代传统的相似度计算,这种机制一方面提高了聚类效率,另一方面避免了在选择相似度计算方法时的主观随意性。将数据对象合并成簇时,通过计算合并时产生的互信息损失来度量数据对象之间的相似关系。在此基础上,提供检索结果文档的高质量分组。
附图说明
图1是本系统的结构图。
具体实施方式
煤矿搜索引擎中检索结果聚类系统,包括检索结果聚类及类别标签抽取装置,该装置包括搜索引擎服务器、文本检索结果聚类模块和类别标签抽取模块,煤矿搜索引擎服务器处理用户提交的查询请求,产生的初始检索结果经文本检索结果聚类模块后返回给用户;其中文本检索结果聚类模块中,采用以下方法进行数据分析:
(1)初始化:将检索结果文档集合表示成其中,A表示文档集合对应的文档-特征词矩阵,m为文档数目,n代表特征词数目,wij表示第j个特征词在第i个文档中的权重,i和j为自然数,1≤i≤m,1≤j≤n。
(2)降维:将矩阵A按照奇异值分解方法分解为3个矩阵的乘积,即:A=USVT,其中,U和V为正交矩阵,矩阵U为m×m矩阵,矩阵V为n×n矩阵,S为m×n奇异对角阵,是原矩阵A的消减矩阵,S对角元素为A的奇异值,将S对角元素按从大到小顺序排列,取前k个最大的值,分别得到Uk、Sk和Vk;Uk和Vk分别为U和V的前k列构建的矩阵,Sk为取S对角元素前k个最大的值构建的矩阵,其中k为自然数,1≤k≤m且1≤k≤n;Ak=UkSkVk T,其中Ak为计算得到的矩阵A的k秩近似矩阵;
(3)聚类:矩阵Uk的行向量即为文档的特征向量,其中uxy表示矩阵Uk的元素,x和y为自然数,1≤x≤m,1≤y≤k,对矩阵Uk采用K-Means聚类算法进行聚类,具体聚类步骤如下:
<1>从m个文档中随机选取Z个文档作为簇的质心,Z为簇的数目,Z个簇分别表示为c1,c2,...,cZ,Z个质心表示为p1,p2,...,pZ,质心pt的向量形式可表示为pty表示该向量的元素,1≤t≤Z;
<2>对矩阵Uk中的每个文档向量,分别计算其到上述Z个质心的距离,并将其划分到距离最近的质心所在的簇,距离的计算方法为其中ux表示矩阵Uk中第x行表示的文档;
<3>重新计算各个簇的质心,新的质心可表示为p'1,p'2,...,p'Z,质心p't的向量形式可表示为p'ty表示该向量的元素;
<4>迭代步骤<2>和<3>,直至新质心与原质心相等或距离之和 &Sigma; t = 1 Z sim ( p t , p &prime; t ) = &Sigma; t = 1 Z &Sigma; v = 1 k p tv &times; p &prime; tv &Sigma; v = 1 k p tv 2 &Sigma; v = 1 k p tv &prime; 2 小于指定阈值θ,θ为实数。
检索结果聚类系统的好处在于,将聚类算法引入到搜索引擎结果的处理中,对搜索引擎返回的结果进行聚类,按照一定的标准将文档集合自动分成若干个簇,要求同一个簇内的文本内容具有较高的相似度,而不同簇之间的文本相似度尽可能低。这样用户只需要在自己感兴趣的簇中查找,大大缩小了用户所需浏览的结果数量,缩短了用户查询所需的时间。

Claims (1)

1.一种煤矿搜索引擎中检索结果聚类系统,包括检索结果聚类及类别标签抽取装置,该装置包括搜索引擎服务器、文本检索结果聚类模块和类别标签抽取模块,煤矿搜索引擎服务器处理用户提交的查询请求,产生的初始检索结果经文本检索结果聚类模块后返回给用户;其中文本检索结果聚类模块中,采用以下方法进行数据分析:
(1)初始化:将检索结果文档集合表示成其中,A表示文档集合对应的文档-特征词矩阵,m为文档数目,n代表特征词数目,wij表示第j个特征词在第i个文档中的权重,i和j为自然数,1≤i≤m,1≤j≤n;
(2)降维:将矩阵A按照奇异值分解方法分解为3个矩阵的乘积,即:A=USVT,其中,U和V为正交矩阵,矩阵U为m×m矩阵,矩阵V为n×n矩阵,S为m×n奇异对角阵,是原矩阵A的消减矩阵,S对角元素为A的奇异值,将S对角元素按从大到小顺序排列,取前k个最大的值,分别得到Uk、Sk和Vk;Uk和Vk分别为U和V的前k列构建的矩阵,Sk为取S对角元素前k个最大的值构建的矩阵,其中k为自然数,1≤k≤m且1≤k≤n;其中Ak为计算得到的矩阵A的k秩近似矩阵;
(3)聚类:矩阵Uk的行向量即为文档的特征向量,其中uxy表示矩阵Uk的元素,x和y为自然数,1≤x≤m,1≤y≤k,对矩阵Uk采用K-Means聚类算法进行聚类,具体聚类步骤如下:
<1>从m个文档中随机选取Z个文档作为簇的质心,Z为簇的数目,Z个簇分别表示为c1,c2,...,cZ,Z个质心表示为p1,p2,...,pZ,质心pt的向量形式可表示为pty表示该向量的元素,1≤t≤Z;
<2>对矩阵Uk中的每个文档向量,分别计算其到上述Z个质心的距离,并将其划分到距离最近的质心所在的簇,距离的计算方法为其中ux表示矩阵Uk中第x行表示的文档;
<3>重新计算各个簇的质心,新的质心可表示为p'1,p'2,...,p'Z,质心p't的向量形式可表示为p'ty表示该向量的元素;
<4>迭代步骤<2>和<3>,直至新质心与原质心相等或距离之和小于指定阈值θ,θ为实数。
CN201410110171.XA 2014-03-24 2014-03-24 煤矿搜索引擎中检索结果聚类系统 Expired - Fee Related CN103886072B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410110171.XA CN103886072B (zh) 2014-03-24 2014-03-24 煤矿搜索引擎中检索结果聚类系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410110171.XA CN103886072B (zh) 2014-03-24 2014-03-24 煤矿搜索引擎中检索结果聚类系统

Publications (2)

Publication Number Publication Date
CN103886072A CN103886072A (zh) 2014-06-25
CN103886072B true CN103886072B (zh) 2016-08-24

Family

ID=50954964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410110171.XA Expired - Fee Related CN103886072B (zh) 2014-03-24 2014-03-24 煤矿搜索引擎中检索结果聚类系统

Country Status (1)

Country Link
CN (1) CN103886072B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331510B (zh) * 2014-11-24 2018-09-04 小米科技有限责任公司 信息管理方法和装置
CN107480685B (zh) * 2016-06-08 2021-02-23 国家计算机网络与信息安全管理中心 一种基于GraphX的分布式幂迭代聚类方法和装置
CN108229748B (zh) * 2018-01-16 2022-06-10 北京三快在线科技有限公司 用于合乘服务的匹配方法、装置及电子设备
CN110555161A (zh) * 2018-05-30 2019-12-10 河南理工大学 一种基于用户信任和卷积神经网络的个性化推荐方法
CN115757461B (zh) * 2022-11-09 2023-06-23 北京新数科技有限公司 一种银行数据库应用系统结果聚类方法
CN117891883A (zh) * 2024-03-14 2024-04-16 山东观和集团有限公司 一种矿产勘查数据优化存储方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279556A (zh) * 2013-06-09 2013-09-04 南方报业传媒集团 基于自适应子空间学习的迭代文本聚类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6993185B2 (en) * 2002-08-30 2006-01-31 Matsushita Electric Industrial Co., Ltd. Method of texture-based color document segmentation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279556A (zh) * 2013-06-09 2013-09-04 南方报业传媒集团 基于自适应子空间学习的迭代文本聚类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于聚类技术的个性化信息检索方法;于洪涛等;《计算机工程与应用》;20080430(第8期);第187、188、199页 *
基于隐含语义分析的微薄话题发现方法;马雯雯等;《计算机工程与应用》;20140115(第1期);第96-100页 *

Also Published As

Publication number Publication date
CN103886072A (zh) 2014-06-25

Similar Documents

Publication Publication Date Title
CN103886072B (zh) 煤矿搜索引擎中检索结果聚类系统
CN103258000B (zh) 对网页中高频关键词进行聚类的方法及装置
CN110674407B (zh) 基于图卷积神经网络的混合推荐方法
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN106156272A (zh) 一种基于多源语义分析的信息检索方法
CN101582080A (zh) 一种基于图像和文本相关性挖掘的Web图像聚类方法
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
Bin et al. Web mining research
Rafi et al. Document clustering based on topic maps
Ma et al. Web services discovery based on latent semantic approach
Sandhya et al. Analysis of similarity measures with wordnet based text document clustering
Chow et al. A new document representation using term frequency and vectorized graph connectionists with application to document retrieval
CN103095849A (zh) 基于QoS属性预测和纠错的有监督Web服务发现方法及系统
CN103324707A (zh) 一种基于半监督聚类的查询扩展方法
Cheng et al. Predicting the effectiveness of keyword queries on databases
AlSumait et al. Text clustering with local semantic kernels
KR101255841B1 (ko) 바이소스 토픽모델을 이용한 이미지 연관 검색 방법 및 그 시스템
Murata Modularities for bipartite networks
Thomas et al. Co-clustering with side information for text mining
Antai et al. The use of latent semantic indexing to cluster documents into their subject areas
Tejasree et al. An improved differential bond energy algorithm with fuzzy merging method to improve the document clustering for information mining
Negm et al. Investigate the performance of document clustering approach based on association rules mining
Costa et al. Fully-automatic xml clustering by structure-constrained phrases
Patil et al. A review on up-growth algorithm using association rule mining
Wang et al. Co-regularized PLSA for multi-modal learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160824