CN103886072A - 煤矿搜索引擎中检索结果聚类系统 - Google Patents
煤矿搜索引擎中检索结果聚类系统 Download PDFInfo
- Publication number
- CN103886072A CN103886072A CN201410110171.XA CN201410110171A CN103886072A CN 103886072 A CN103886072 A CN 103886072A CN 201410110171 A CN201410110171 A CN 201410110171A CN 103886072 A CN103886072 A CN 103886072A
- Authority
- CN
- China
- Prior art keywords
- matrix
- barycenter
- document
- search engine
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000003245 coal Substances 0.000 title abstract description 5
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000004364 calculation method Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 57
- 238000007405 data analysis Methods 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000003064 k means clustering Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 description 7
- 230000002596 correlated effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000013549 information retrieval technique Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Agronomy & Crop Science (AREA)
- Animal Husbandry (AREA)
- Marine Sciences & Fisheries (AREA)
- Mining & Mineral Resources (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种煤矿搜索引擎中检索结果聚类系统,包括检索结果聚类及类别标签抽取装置,该装置包括搜索引擎服务器、文本检索结果聚类模块和类别标签抽取模块,煤矿搜索引擎服务器处理用户提交的查询请求,产生的初始检索结果经文本检索结果聚类模块后返回给用户。采用该系统后,可有效提高文本集的聚类速度,还可避免在选择相似度计算方法时的主观随意性。在数据对象合并成簇时,通过计算合并时产生的互信息损失来度量数据对象之间的相似关系,并在此基础上,提供检索结果文档的高质量分组。
Description
技术领域
本发明属于煤矿安全领域。
背景技术
在煤矿领域中,Internet信息总量的爆炸式增长为信息的使用和管理带来了一定挑战。准确、快捷的从如此庞杂无序的海量数据中发现用户需要的煤矿领域信息,成为一种极为迫切的需求。于是,信息检索技术在煤矿领域得到了深入的研究和广泛的应用。
搜索引擎是煤矿用户经常使用的工具性应用之一。在用户与Web搜索引擎之间一次典型的交互过程中,用户将特定的信息需求表达为一个查询,提交给Web搜索引擎;服务器对检索请求处理之后,返回一列检索结果。在这些结果中,一部分可能与用户的检索意图相关,一部分则可能完全无关。通常,用户希望最相关的结果排在检索结果的最前面。而事实上,相关结果与不相关结果往往混杂在一起,甚至是相关结果出现在不相关结果之后。
文档聚类技术能够揭示隐藏在Web数据之后具有潜在价值的信息或结构,是一种非常有效的检索结果再组织方法。文档聚类是Web挖掘领域中最重要的工具之一,其目的是将一个文档集合分成若干个簇,要求同一个簇内的文本内容具有较高的相似度,而不同簇之间的相似度尽可能小。每个聚类过程主要包括相似度计算方法和聚类算法两个部分。目前,研究者已经提出多种文档聚类算法,大致可分为4个类别,即层次化聚类算法、划分式聚类算法、基于密度和网格的聚类算法和其它聚类算法。
目前,在搜索引擎引擎的使用过程中,搜索的结果显示缺乏清晰的结构。搜索引擎得到的结果量非常巨大,然而显示结果却是一个线性列表,在这些结果中,一部分可能与用户的检索意图相关,一部分则可能完全无关。通常,用户希望最相关的结果排在检索结果的最前面。而事实上,相关结果与不相关结果往往混杂在一起,甚至是相关结果出现在不相关结果之后。用户如果想要通过搜索引擎找到需要的信息则必须逐个浏览返回的查询结果,这样不仅会浪费很多时间,而且不一定能够准确地找到相关的资料。
针对检索结果的聚类与普通的文档聚类有所不同,主要表现在检索结果聚类除了完成聚类过程之外,还需要抽取类别标签,前者对文本检索结果进行分组,后者则生成每个分组的描述信息。
基于以上分析,对于检索结果而言,仅仅提供一个按相关性排序的文档列表的传统显示方式表现出一定的不足,迫切需要对检索结果展开深入分析和加工。
发明内容
基于以上分析,本发明提出了一种煤矿搜索引擎中检索结果聚类系统,包括检索结果聚类及类别标签抽取装置,该装置包括搜索引擎服务器、文本检索结果聚类模块和类别标签抽取模块,煤矿搜索引擎服务器处理用户提交的查询请求,产生的初始检索结果经文本检索结果聚类模块后返回给用户;其中文本检索结果聚类模块中,采用以下方法进行数据分析:
(2)降维:将矩阵A按照奇异值分解方法分解为3个矩阵的乘积,即:A=USVT,其中,U和V为正交矩阵,矩阵U为m×m矩阵,矩阵V为n×n矩阵,S为m×n奇异对角阵,是原矩阵A的消减矩阵,S对角元素为A的奇异值,将S对角元素按从大到小顺序排列,取前k个最大的值,分别得到Uk、Sk和Vk;Uk和Vk分别为U和V的前k列构建的矩阵,Sk为取S对角元素前k个最大的值构建的矩阵,其中k为自然数,1≤k≤m且1≤k≤n;Ak=UkSkVk T,其中Ak为计算得到的矩阵A的k秩近似矩阵;
(3)聚类:矩阵Uk的行向量即为文档的特征向量,其中uxy表示矩阵Uk的元素,x和y为自然数,1≤x≤m,1≤y≤k,对矩阵Uk采用K-Means聚类算法进行聚类,具体聚类步骤如下:
<1>从m个文档中随机选取Z个文档作为簇的质心,Z为簇的数目,Z个簇分别表示为c1,c2,...,cZ,Z个质心表示为p1,p2,...,pZ,质心pt的向量形式可表示为pty表示该向量的元素,1≤t≤Z;
<4>迭代步骤<2>和<3>,直至新质心与原质心相等或距离之和 小于指定阈值θ,θ为实数。
针对检索结果的聚类过程可视为普通的文档聚类,但此时聚类效率是一个关键因素。文档空间的维度较高,增加了聚类过程计算复杂度。传统的方法假设特征之间存在独立性,采用向量空间模型将文档表示为特征向量度量文档之间的相似性。但是,自然语言中大量存在的同义词、多义词以及强相关性词语的共现现象表明,特征之间并不严格存在上述假设中的独立性。因此,基于词语特征的方法存在一定的弊端,不但计算复杂度较高,且忽略了特征之间的相关性。根据以上分析,本发明综合考虑高维特征空间以及词语特征之间相关性两个方面,提出了一种结合信息瓶颈理论和潜在语义分析的聚类方法。
由于文档空间的维度较高,且考虑到自然语言中大量存在的同义词、多义词以及词语共现现象,因此首先采用潜在语义分析方法(Latent Semantic Analysis,LSA)进行特征降维。LSA通过统计分析来发现文档中词与词之间存在的潜在语义结构,并且使用这些语义结构来表示词和文本。通过LSA方法,向量空间大大缩减,可提高文本聚类的效率。应用LSA理论处理后的文本向量空间具有两个优点:1)向量空间中每一维的含义发生了变化,它反映的不再是词条的简单出现频度和分布关系,而是强化的语义关系;2)向量空间的维数大大降低,可以有效地提高文本集的聚类速度。降维之后,以信息瓶颈理论取代传统的相似度计算,这种机制一方面提高了聚类效率,另一方面避免了在选择相似度计算方法时的主观随意性。将数据对象合并成簇时,通过计算合并时产生的互信息损失来度量数据对象之间的相似关系。在此基础上,提供检索结果文档的高质量分组。
附图说明
图1是本系统的结构图。
具体实施方式
煤矿搜索引擎中检索结果聚类系统,包括检索结果聚类及类别标签抽取装置,该装置包括搜索引擎服务器、文本检索结果聚类模块和类别标签抽取模块,煤矿搜索引擎服务器处理用户提交的查询请求,产生的初始检索结果经文本检索结果聚类模块后返回给用户;其中文本检索结果聚类模块中,采用以下方法进行数据分析:
(2)降维:将矩阵A按照奇异值分解方法分解为3个矩阵的乘积,即:A=USVT,其中,U和V为正交矩阵,矩阵U为m×m矩阵,矩阵V为n×n矩阵,S为m×n奇异对角阵,是原矩阵A的消减矩阵,S对角元素为A的奇异值,将S对角元素按从大到小顺序排列,取前k个最大的值,分别得到Uk、Sk和Vk;Uk和Vk分别为U和V的前k列构建的矩阵,Sk为取S对角元素前k个最大的值构建的矩阵,其中k为自然数,1≤k≤m且1≤k≤n;Ak=UkSkVk T,其中Ak为计算得到的矩阵A的k秩近似矩阵;
<1>从m个文档中随机选取Z个文档作为簇的质心,Z为簇的数目,Z个簇分别表示为c1,c2,...,cZ,Z个质心表示为p1,p2,...,pZ,质心pt的向量形式可表示为pty表示该向量的元素,1≤t≤Z;
<4>迭代步骤<2>和<3>,直至新质心与原质心相等或距离之和 小于指定阈值θ,θ为实数。
检索结果聚类系统的好处在于,将聚类算法引入到搜索引擎结果的处理中,对搜索引擎返回的结果进行聚类,按照一定的标准将文档集合自动分成若干个簇,要求同一个簇内的文本内容具有较高的相似度,而不同簇之间的文本相似度尽可能低。这样用户只需要在自己感兴趣的簇中查找,大大缩小了用户所需浏览的结果数量,缩短了用户查询所需的时间。
Claims (1)
1.煤矿搜索引擎中检索结果聚类系统,包括检索结果聚类及类别标签抽取装置,该装置包括搜索引擎服务器、文本检索结果聚类模块和类别标签抽取模块,煤矿搜索引擎服务器处理用户提交的查询请求,产生的初始检索结果经文本检索结果聚类模块后返回给用户;其中文本检索结果聚类模块中,采用以下方法进行数据分析:
(1)初始化:将检索结果文档集合表示成其中,A表示文档集合对应的文档-特征词矩阵,m为文档数目,n代表特征词数目,wij表示第j个特征词在第i个文档中的权重,i和j为自然数,1≤i≤m,1≤j≤n;
(2)降维:将矩阵A按照奇异值分解方法分解为3个矩阵的乘积,即:A=USVT,其中,U和V为正交矩阵,矩阵U为m×m矩阵,矩阵V为n×n矩阵,S为m×n奇异对角阵,是原矩阵A的消减矩阵,S对角元素为A的奇异值,将S对角元素按从大到小顺序排列,取前k个最大的值,分别得到Uk、Sk和Vk;Uk和Vk分别为U和V的前k列构建的矩阵,Sk为取S对角元素前k个最大的值构建的矩阵,其中k为自然数,1≤k≤m且1≤k≤n;Ak=UkSkVk T,其中Ak为计算得到的矩阵A的k秩近似矩阵;
(3)聚类:矩阵Uk的行向量即为文档的特征向量,其中uxy表示矩阵Uk的元素,x和y为自然数,1≤x≤m,1≤y≤k,对矩阵Uk采用K-Means聚类算法进行聚类,具体聚类步骤如下:
<1>从m个文档中随机选取Z个文档作为簇的质心,Z为簇的数目,Z个簇分别表示为c1,c2,...,cZ,Z个质心表示为p1,p2,...,pZ,质心pt的向量形式可表示为pty表示该向量的元素,1≤t≤Z;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410110171.XA CN103886072B (zh) | 2014-03-24 | 2014-03-24 | 煤矿搜索引擎中检索结果聚类系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410110171.XA CN103886072B (zh) | 2014-03-24 | 2014-03-24 | 煤矿搜索引擎中检索结果聚类系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103886072A true CN103886072A (zh) | 2014-06-25 |
CN103886072B CN103886072B (zh) | 2016-08-24 |
Family
ID=50954964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410110171.XA Expired - Fee Related CN103886072B (zh) | 2014-03-24 | 2014-03-24 | 煤矿搜索引擎中检索结果聚类系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103886072B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104331510A (zh) * | 2014-11-24 | 2015-02-04 | 小米科技有限责任公司 | 信息管理方法和装置 |
CN107480685A (zh) * | 2016-06-08 | 2017-12-15 | 国家计算机网络与信息安全管理中心 | 一种基于GraphX的分布式幂迭代聚类方法和装置 |
CN108229748A (zh) * | 2018-01-16 | 2018-06-29 | 北京三快在线科技有限公司 | 用于合乘服务的匹配方法、装置及电子设备 |
CN110555161A (zh) * | 2018-05-30 | 2019-12-10 | 河南理工大学 | 一种基于用户信任和卷积神经网络的个性化推荐方法 |
CN115757461A (zh) * | 2022-11-09 | 2023-03-07 | 北京新数科技有限公司 | 一种银行数据库应用系统结果聚类方法 |
CN117891883A (zh) * | 2024-03-14 | 2024-04-16 | 山东观和集团有限公司 | 一种矿产勘查数据优化存储方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040042659A1 (en) * | 2002-08-30 | 2004-03-04 | Guo Jinhong Katherine | Method for texture-based color document segmentation |
CN103279556A (zh) * | 2013-06-09 | 2013-09-04 | 南方报业传媒集团 | 基于自适应子空间学习的迭代文本聚类方法 |
-
2014
- 2014-03-24 CN CN201410110171.XA patent/CN103886072B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040042659A1 (en) * | 2002-08-30 | 2004-03-04 | Guo Jinhong Katherine | Method for texture-based color document segmentation |
CN103279556A (zh) * | 2013-06-09 | 2013-09-04 | 南方报业传媒集团 | 基于自适应子空间学习的迭代文本聚类方法 |
Non-Patent Citations (2)
Title |
---|
于洪涛等: "一种基于聚类技术的个性化信息检索方法", 《计算机工程与应用》 * |
马雯雯等: "基于隐含语义分析的微薄话题发现方法", 《计算机工程与应用》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104331510A (zh) * | 2014-11-24 | 2015-02-04 | 小米科技有限责任公司 | 信息管理方法和装置 |
CN104331510B (zh) * | 2014-11-24 | 2018-09-04 | 小米科技有限责任公司 | 信息管理方法和装置 |
CN107480685A (zh) * | 2016-06-08 | 2017-12-15 | 国家计算机网络与信息安全管理中心 | 一种基于GraphX的分布式幂迭代聚类方法和装置 |
CN107480685B (zh) * | 2016-06-08 | 2021-02-23 | 国家计算机网络与信息安全管理中心 | 一种基于GraphX的分布式幂迭代聚类方法和装置 |
CN108229748A (zh) * | 2018-01-16 | 2018-06-29 | 北京三快在线科技有限公司 | 用于合乘服务的匹配方法、装置及电子设备 |
CN110555161A (zh) * | 2018-05-30 | 2019-12-10 | 河南理工大学 | 一种基于用户信任和卷积神经网络的个性化推荐方法 |
CN115757461A (zh) * | 2022-11-09 | 2023-03-07 | 北京新数科技有限公司 | 一种银行数据库应用系统结果聚类方法 |
CN115757461B (zh) * | 2022-11-09 | 2023-06-23 | 北京新数科技有限公司 | 一种银行数据库应用系统结果聚类方法 |
CN117891883A (zh) * | 2024-03-14 | 2024-04-16 | 山东观和集团有限公司 | 一种矿产勘查数据优化存储方法 |
CN117891883B (zh) * | 2024-03-14 | 2024-06-18 | 山东观和集团有限公司 | 一种矿产勘查数据优化存储方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103886072B (zh) | 2016-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ni et al. | Short text clustering by finding core terms | |
Martin et al. | Mathematical foundations behind latent semantic analysis | |
Yu et al. | Learning to rank using user clicks and visual features for image retrieval | |
CN103886072A (zh) | 煤矿搜索引擎中检索结果聚类系统 | |
Singh et al. | Vector space model: an information retrieval system | |
Bendersky et al. | Learning from user interactions in personal search via attribute parameterization | |
CN103279478B (zh) | 一种基于分布式互信息文档特征提取方法 | |
US8341205B2 (en) | Fast singular value decomposition for expediting computer analysis system and application thereof | |
CN109359172A (zh) | 一种基于图划分的实体对齐优化方法 | |
CN103838756A (zh) | 一种确定推送信息的方法及装置 | |
CN102693316B (zh) | 基于线性泛化回归模型的跨媒体检索方法 | |
US20190080006A1 (en) | Computing features of structured data | |
CN105426529A (zh) | 基于用户搜索意图定位的图像检索方法及系统 | |
CN106372122A (zh) | 一种基于维基语义匹配的文档分类方法及系统 | |
CN103095849A (zh) | 基于QoS属性预测和纠错的有监督Web服务发现方法及系统 | |
CN111143400A (zh) | 一种全栈式检索方法、系统、引擎及电子设备 | |
CN103324707A (zh) | 一种基于半监督聚类的查询扩展方法 | |
Caragea et al. | Combining hashing and abstraction in sparse high dimensional feature spaces | |
Mei et al. | Proximity-based k-partitions clustering with ranking for document categorization and analysis | |
Tsarev et al. | Supervised and unsupervised text classification via generic summarization | |
Cao et al. | Research on dynamic time warping multivariate time series similarity matching based on shape feature and inclination angle | |
Chauhan et al. | Algorithm for semantic based similarity measure | |
Murata | Modularities for bipartite networks | |
Alghamdi et al. | The hybrid feature selection k-means method for Arabic webpage classification | |
Tejasree et al. | An improved differential bond energy algorithm with fuzzy merging method to improve the document clustering for information mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160824 |
|
CF01 | Termination of patent right due to non-payment of annual fee |