CN110750696A - 一种文档聚类检索系统 - Google Patents

一种文档聚类检索系统 Download PDF

Info

Publication number
CN110750696A
CN110750696A CN201911038276.8A CN201911038276A CN110750696A CN 110750696 A CN110750696 A CN 110750696A CN 201911038276 A CN201911038276 A CN 201911038276A CN 110750696 A CN110750696 A CN 110750696A
Authority
CN
China
Prior art keywords
document
text feature
vector
text
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911038276.8A
Other languages
English (en)
Inventor
陶智强
马小琴
陈章印
龙航
杨恺
王颖
王雯茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Power Grid Co Ltd
Original Assignee
Guizhou Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Power Grid Co Ltd filed Critical Guizhou Power Grid Co Ltd
Priority to CN201911038276.8A priority Critical patent/CN110750696A/zh
Publication of CN110750696A publication Critical patent/CN110750696A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文档聚类检索系统,它包括:文档上传预处理模块,将上传的文档内容加载到内存块中,读取内存块中的文档内容做分词处理得到文本特征集,将文本特征集指定唯一键值关联文档保存在数据库中;构建词袋模型模块,使文本特征集组成一个N维向量;聚类算法模块,通过用户输入的关键字在所有文本特征集中匹配,选取匹配文本特征集向量;运用概率分布模型算法LDA对匹配文本特征集向量进行聚类;结果输出模块,通过聚类算法模块返回的匹配文本特征集向量聚类的结果,通过的唯一键值关联文档,将关联的文档聚类推送给用户;解决了人为归档归类效率低下,差错率高等技术问题。

Description

一种文档聚类检索系统
技术领域
本发明属于文档处理技术,尤其涉及一种文档聚类检索系统。
背景技术
在电网公司的设备档案管理中,涉及到文档的检索分析,当前大部分文档检索只局限人为对文档打上归类标签进行归类,再通过归类标签对文档归类检索,而获得相同类型的文档,没有对文档内容做归类检索;这存在二个问题,第一是通过人为归档归类效率低下,二是没有对文档内容进行归类检索,仅仅依靠文档打上归类标签进行归类存在差错率高等。
发明内容
本发明要解决的技术问题是:提供一种文档聚类检索系统,以解决当前电网内部采用人为对文档打上归类标签进行归类,再通过归类标签对文档归类检索,而获得相同类型的文档,没有对文档内容做归类检索;存在的:第一是通过人为归档归类效率低下,二是没有对文档内容进行归类检索,仅仅依靠文档打上归类标签进行归类存在差错率高等技术问题。
本发明的技术方案是:
一种文档聚类检索系统,它包括:
文档上传预处理模块,将上传的文档内容加载到内存块中,读取内存块中的文档内容做分词处理得到文本特征集,将文本特征集指定唯一键值关联文档保存在数据库中;
构建词袋模型模块,先将所有文本特征集中的词汇构建成一个词条列表,列表不含重复的词条;然后对每个文本特征集构建一个向量,向量的维度与词条列表的维度相同,向量的值是词条列表中每个词条在该文本中出现的次数;使文本特征集组成一个N维向量;
聚类算法模块,通过用户输入的关键字在所有文本特征集中匹配,选取匹配文本特征集向量;运用概率分布模型算法LDA对匹配文本特征集向量进行聚类;
结果输出模块,通过聚类算法模块返回的匹配文本特征集向量聚类的结果,通过的唯一键值关联文档,将关联的文档聚类推送给用户。
分词处理得到文本特征集的方法为:采用消除无用词方法和特征词条约简法则得到文本特征集。
本发明有益效果:
本发明通过利用文档的文本特征集,充分利用计算机数据处理的功能,建立多向量输入模式,利用文本特征集聚类处理模块,随时根据文档关键字检索数据,利用成熟的聚类算法手段,实现文档聚类检索;提高了检索效率和准确性;解决了当前电网内部采用人为对文档打上归类标签进行归类,再通过归类标签对文档归类检索,而获得相同类型的文档,没有对文档内容做归类检索;存在的:第一是通过人为归档归类效率低下,二是没有对文档内容进行归类检索,仅仅依靠文档打上归类标签进行归类存在差错率高等技术问题。
附图说明
图1为本发明系统组成示意图。
具体实施方式
一种文档聚类检索系统,包括:
文档上传预处理模块,通常把已上传的文档内容加载到内存块中,读取内存块中的文档内容做分词处理,采用常规消除无用词方法和特征词条约简法则得到文本特征集,把文本特征集指定唯一键值关联文档保存在数据库中,文本特征集为文档聚类检索的关键。
构建词袋模型模块,在用户检索文档时,读取所有文本特征集后,需要进一步转换成向量。先将所有文本特征集中的词汇构建成一个词条列表,其中不含重复的词条。然后对每个文本特征集,构建一个向量,向量的维度与词条列表的维度相同,向量的值是词条列表中每个词条在该文本中出现的次数;使文本特征集组成一个N维向量。
聚类算法模块,通过用户输入的关键字在所有文本特征集中匹配,选取匹配文本特征集向量;运用概率分布模型算法LDA去对匹配文本特征集向量进行聚类;
结果返回模块,通过聚类算法模块返回的匹配文本特征集向量聚类的结果,通过的唯一键值关联文档,将关联的文档聚类推送给用户
文档聚类检索系统与数据库可部署在同一台服务器上,服务器性能要求满足:业务分析的数据范围横跨实时数据和历史数据,既需要低延迟的实时数据分析,也需要对 PB 级的历史数据进行探索性的数据分析;可靠性和可扩展性问题,文档聚类检索系统可能会存储海量的历史文档数据,同时数据规模有持续增长的趋势,需要引入分布式存储系统来满足可靠性和可扩展性需求,同时保证成本可控;技术栈深,需要组合流式组件、存储系统、计算组件和;可运维性要求高,复杂的大数据架构难以维护和管控。

Claims (2)

1.一种文档聚类检索系统,它包括:
文档上传预处理模块,将上传的文档内容加载到内存块中,读取内存块中的文档内容做分词处理得到文本特征集,将文本特征集指定唯一键值关联文档保存在数据库中;
构建词袋模型模块,先将所有文本特征集中的词汇构建成一个词条列表,列表不含重复的词条;然后对每个文本特征集构建一个向量,向量的维度与词条列表的维度相同,向量的值是词条列表中每个词条在该文本中出现的次数;使文本特征集组成一个N维向量;
聚类算法模块,通过用户输入的关键字在所有文本特征集中匹配,选取匹配文本特征集向量;运用概率分布模型算法LDA对匹配文本特征集向量进行聚类;
结果输出模块,通过聚类算法模块返回的匹配文本特征集向量聚类的结果,通过的唯一键值关联文档,将关联的文档聚类推送给用户。
2.根据权利要求1所述的一种文档聚类检索系统,其特征在于:分词处理得到文本特征集的方法为:采用消除无用词方法和特征词条约简法则得到文本特征集。
CN201911038276.8A 2019-10-29 2019-10-29 一种文档聚类检索系统 Pending CN110750696A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911038276.8A CN110750696A (zh) 2019-10-29 2019-10-29 一种文档聚类检索系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911038276.8A CN110750696A (zh) 2019-10-29 2019-10-29 一种文档聚类检索系统

Publications (1)

Publication Number Publication Date
CN110750696A true CN110750696A (zh) 2020-02-04

Family

ID=69280882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911038276.8A Pending CN110750696A (zh) 2019-10-29 2019-10-29 一种文档聚类检索系统

Country Status (1)

Country Link
CN (1) CN110750696A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1873642A (zh) * 2006-04-29 2006-12-06 上海世纪互联信息系统有限公司 具有自动分类功能的搜索引擎
CN103514183A (zh) * 2012-06-19 2014-01-15 北京大学 基于交互式文档聚类的信息检索方法及系统
CN103838833A (zh) * 2014-02-24 2014-06-04 华中师范大学 基于相关词语语义分析的全文检索系统
CN105488033A (zh) * 2016-01-26 2016-04-13 中国人民解放军国防科学技术大学 关联计算的预处理方法及装置
CN106599041A (zh) * 2016-11-07 2017-04-26 中国电子科技集团公司第三十二研究所 基于大数据平台的文本处理及检索系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1873642A (zh) * 2006-04-29 2006-12-06 上海世纪互联信息系统有限公司 具有自动分类功能的搜索引擎
CN103514183A (zh) * 2012-06-19 2014-01-15 北京大学 基于交互式文档聚类的信息检索方法及系统
CN103838833A (zh) * 2014-02-24 2014-06-04 华中师范大学 基于相关词语语义分析的全文检索系统
CN105488033A (zh) * 2016-01-26 2016-04-13 中国人民解放军国防科学技术大学 关联计算的预处理方法及装置
CN106599041A (zh) * 2016-11-07 2017-04-26 中国电子科技集团公司第三十二研究所 基于大数据平台的文本处理及检索系统

Similar Documents

Publication Publication Date Title
Middlehurst et al. HIVE-COTE 2.0: a new meta ensemble for time series classification
US10055479B2 (en) Joint approach to feature and document labeling
US9043316B1 (en) Visual content retrieval
Passalis et al. Learning bag-of-embedded-words representations for textual information retrieval
Pan et al. Product quantization with dual codebooks for approximate nearest neighbor search
Passalis et al. Learning neural bag-of-features for large-scale image retrieval
Song et al. Deep and fast: Deep learning hashing with semi-supervised graph construction
Martín et al. Using semi-structured data for assessing research paper similarity
CN114493535B (zh) 一种基于资产模型的数据驱动用数据中台系统
Ransing et al. Screening and Ranking Resumes using Stacked Model
Rautray et al. Comparative study of DE and PSO over document summarization
Qi et al. Video annotation by active learning and cluster tuning
Tian et al. Image search reranking with hierarchical topic awareness
Yin et al. Content‐Based Image Retrial Based on Hadoop
CN110750696A (zh) 一种文档聚类检索系统
US11971885B2 (en) Retrieval aware embedding
CN115587231A (zh) 基于云计算平台的数据组合处理及快速存储调取方法
CN111581420B (zh) 一种基于Flink的医学图像实时检索方法
Zhong et al. Deep multi-label hashing for large-scale visual search based on semantic graph
Hasan et al. Movie Subtitle Document Classification Using Unsupervised Machine Learning Approach
Zhang et al. Design of employee comment sentiment analysis platform based on AE-SVM algorithm
Li et al. A more effective method for image representation: Topic model based on latent dirichlet allocation
Komali et al. An efficient content based image retrieval system for color and shape using optimized K-Means algorithm
CN111008281A (zh) 文本分类方法、装置、计算机设备和存储介质
Sangeetha et al. Sentiment Analysis on Movie Reviews: A Comparative Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200204