CN110750696A - 一种文档聚类检索系统 - Google Patents
一种文档聚类检索系统 Download PDFInfo
- Publication number
- CN110750696A CN110750696A CN201911038276.8A CN201911038276A CN110750696A CN 110750696 A CN110750696 A CN 110750696A CN 201911038276 A CN201911038276 A CN 201911038276A CN 110750696 A CN110750696 A CN 110750696A
- Authority
- CN
- China
- Prior art keywords
- document
- text feature
- vector
- text
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 claims abstract description 27
- 230000011218 segmentation Effects 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011985 exploratory data analysis Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文档聚类检索系统,它包括:文档上传预处理模块,将上传的文档内容加载到内存块中,读取内存块中的文档内容做分词处理得到文本特征集,将文本特征集指定唯一键值关联文档保存在数据库中;构建词袋模型模块,使文本特征集组成一个N维向量;聚类算法模块,通过用户输入的关键字在所有文本特征集中匹配,选取匹配文本特征集向量;运用概率分布模型算法LDA对匹配文本特征集向量进行聚类;结果输出模块,通过聚类算法模块返回的匹配文本特征集向量聚类的结果,通过的唯一键值关联文档,将关联的文档聚类推送给用户;解决了人为归档归类效率低下,差错率高等技术问题。
Description
技术领域
本发明属于文档处理技术,尤其涉及一种文档聚类检索系统。
背景技术
在电网公司的设备档案管理中,涉及到文档的检索分析,当前大部分文档检索只局限人为对文档打上归类标签进行归类,再通过归类标签对文档归类检索,而获得相同类型的文档,没有对文档内容做归类检索;这存在二个问题,第一是通过人为归档归类效率低下,二是没有对文档内容进行归类检索,仅仅依靠文档打上归类标签进行归类存在差错率高等。
发明内容
本发明要解决的技术问题是:提供一种文档聚类检索系统,以解决当前电网内部采用人为对文档打上归类标签进行归类,再通过归类标签对文档归类检索,而获得相同类型的文档,没有对文档内容做归类检索;存在的:第一是通过人为归档归类效率低下,二是没有对文档内容进行归类检索,仅仅依靠文档打上归类标签进行归类存在差错率高等技术问题。
本发明的技术方案是:
一种文档聚类检索系统,它包括:
文档上传预处理模块,将上传的文档内容加载到内存块中,读取内存块中的文档内容做分词处理得到文本特征集,将文本特征集指定唯一键值关联文档保存在数据库中;
构建词袋模型模块,先将所有文本特征集中的词汇构建成一个词条列表,列表不含重复的词条;然后对每个文本特征集构建一个向量,向量的维度与词条列表的维度相同,向量的值是词条列表中每个词条在该文本中出现的次数;使文本特征集组成一个N维向量;
聚类算法模块,通过用户输入的关键字在所有文本特征集中匹配,选取匹配文本特征集向量;运用概率分布模型算法LDA对匹配文本特征集向量进行聚类;
结果输出模块,通过聚类算法模块返回的匹配文本特征集向量聚类的结果,通过的唯一键值关联文档,将关联的文档聚类推送给用户。
分词处理得到文本特征集的方法为:采用消除无用词方法和特征词条约简法则得到文本特征集。
本发明有益效果:
本发明通过利用文档的文本特征集,充分利用计算机数据处理的功能,建立多向量输入模式,利用文本特征集聚类处理模块,随时根据文档关键字检索数据,利用成熟的聚类算法手段,实现文档聚类检索;提高了检索效率和准确性;解决了当前电网内部采用人为对文档打上归类标签进行归类,再通过归类标签对文档归类检索,而获得相同类型的文档,没有对文档内容做归类检索;存在的:第一是通过人为归档归类效率低下,二是没有对文档内容进行归类检索,仅仅依靠文档打上归类标签进行归类存在差错率高等技术问题。
附图说明
图1为本发明系统组成示意图。
具体实施方式
一种文档聚类检索系统,包括:
文档上传预处理模块,通常把已上传的文档内容加载到内存块中,读取内存块中的文档内容做分词处理,采用常规消除无用词方法和特征词条约简法则得到文本特征集,把文本特征集指定唯一键值关联文档保存在数据库中,文本特征集为文档聚类检索的关键。
构建词袋模型模块,在用户检索文档时,读取所有文本特征集后,需要进一步转换成向量。先将所有文本特征集中的词汇构建成一个词条列表,其中不含重复的词条。然后对每个文本特征集,构建一个向量,向量的维度与词条列表的维度相同,向量的值是词条列表中每个词条在该文本中出现的次数;使文本特征集组成一个N维向量。
聚类算法模块,通过用户输入的关键字在所有文本特征集中匹配,选取匹配文本特征集向量;运用概率分布模型算法LDA去对匹配文本特征集向量进行聚类;
结果返回模块,通过聚类算法模块返回的匹配文本特征集向量聚类的结果,通过的唯一键值关联文档,将关联的文档聚类推送给用户
文档聚类检索系统与数据库可部署在同一台服务器上,服务器性能要求满足:业务分析的数据范围横跨实时数据和历史数据,既需要低延迟的实时数据分析,也需要对 PB 级的历史数据进行探索性的数据分析;可靠性和可扩展性问题,文档聚类检索系统可能会存储海量的历史文档数据,同时数据规模有持续增长的趋势,需要引入分布式存储系统来满足可靠性和可扩展性需求,同时保证成本可控;技术栈深,需要组合流式组件、存储系统、计算组件和;可运维性要求高,复杂的大数据架构难以维护和管控。
Claims (2)
1.一种文档聚类检索系统,它包括:
文档上传预处理模块,将上传的文档内容加载到内存块中,读取内存块中的文档内容做分词处理得到文本特征集,将文本特征集指定唯一键值关联文档保存在数据库中;
构建词袋模型模块,先将所有文本特征集中的词汇构建成一个词条列表,列表不含重复的词条;然后对每个文本特征集构建一个向量,向量的维度与词条列表的维度相同,向量的值是词条列表中每个词条在该文本中出现的次数;使文本特征集组成一个N维向量;
聚类算法模块,通过用户输入的关键字在所有文本特征集中匹配,选取匹配文本特征集向量;运用概率分布模型算法LDA对匹配文本特征集向量进行聚类;
结果输出模块,通过聚类算法模块返回的匹配文本特征集向量聚类的结果,通过的唯一键值关联文档,将关联的文档聚类推送给用户。
2.根据权利要求1所述的一种文档聚类检索系统,其特征在于:分词处理得到文本特征集的方法为:采用消除无用词方法和特征词条约简法则得到文本特征集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911038276.8A CN110750696A (zh) | 2019-10-29 | 2019-10-29 | 一种文档聚类检索系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911038276.8A CN110750696A (zh) | 2019-10-29 | 2019-10-29 | 一种文档聚类检索系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110750696A true CN110750696A (zh) | 2020-02-04 |
Family
ID=69280882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911038276.8A Pending CN110750696A (zh) | 2019-10-29 | 2019-10-29 | 一种文档聚类检索系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110750696A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1873642A (zh) * | 2006-04-29 | 2006-12-06 | 上海世纪互联信息系统有限公司 | 具有自动分类功能的搜索引擎 |
CN103514183A (zh) * | 2012-06-19 | 2014-01-15 | 北京大学 | 基于交互式文档聚类的信息检索方法及系统 |
CN103838833A (zh) * | 2014-02-24 | 2014-06-04 | 华中师范大学 | 基于相关词语语义分析的全文检索系统 |
CN105488033A (zh) * | 2016-01-26 | 2016-04-13 | 中国人民解放军国防科学技术大学 | 关联计算的预处理方法及装置 |
CN106599041A (zh) * | 2016-11-07 | 2017-04-26 | 中国电子科技集团公司第三十二研究所 | 基于大数据平台的文本处理及检索系统 |
-
2019
- 2019-10-29 CN CN201911038276.8A patent/CN110750696A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1873642A (zh) * | 2006-04-29 | 2006-12-06 | 上海世纪互联信息系统有限公司 | 具有自动分类功能的搜索引擎 |
CN103514183A (zh) * | 2012-06-19 | 2014-01-15 | 北京大学 | 基于交互式文档聚类的信息检索方法及系统 |
CN103838833A (zh) * | 2014-02-24 | 2014-06-04 | 华中师范大学 | 基于相关词语语义分析的全文检索系统 |
CN105488033A (zh) * | 2016-01-26 | 2016-04-13 | 中国人民解放军国防科学技术大学 | 关联计算的预处理方法及装置 |
CN106599041A (zh) * | 2016-11-07 | 2017-04-26 | 中国电子科技集团公司第三十二研究所 | 基于大数据平台的文本处理及检索系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Middlehurst et al. | HIVE-COTE 2.0: a new meta ensemble for time series classification | |
US10055479B2 (en) | Joint approach to feature and document labeling | |
US9043316B1 (en) | Visual content retrieval | |
Passalis et al. | Learning bag-of-embedded-words representations for textual information retrieval | |
Pan et al. | Product quantization with dual codebooks for approximate nearest neighbor search | |
Passalis et al. | Learning neural bag-of-features for large-scale image retrieval | |
Song et al. | Deep and fast: Deep learning hashing with semi-supervised graph construction | |
Martín et al. | Using semi-structured data for assessing research paper similarity | |
CN114493535B (zh) | 一种基于资产模型的数据驱动用数据中台系统 | |
Ransing et al. | Screening and Ranking Resumes using Stacked Model | |
Rautray et al. | Comparative study of DE and PSO over document summarization | |
Qi et al. | Video annotation by active learning and cluster tuning | |
Tian et al. | Image search reranking with hierarchical topic awareness | |
Yin et al. | Content‐Based Image Retrial Based on Hadoop | |
CN110750696A (zh) | 一种文档聚类检索系统 | |
US11971885B2 (en) | Retrieval aware embedding | |
CN115587231A (zh) | 基于云计算平台的数据组合处理及快速存储调取方法 | |
CN111581420B (zh) | 一种基于Flink的医学图像实时检索方法 | |
Zhong et al. | Deep multi-label hashing for large-scale visual search based on semantic graph | |
Hasan et al. | Movie Subtitle Document Classification Using Unsupervised Machine Learning Approach | |
Zhang et al. | Design of employee comment sentiment analysis platform based on AE-SVM algorithm | |
Li et al. | A more effective method for image representation: Topic model based on latent dirichlet allocation | |
Komali et al. | An efficient content based image retrieval system for color and shape using optimized K-Means algorithm | |
CN111008281A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
Sangeetha et al. | Sentiment Analysis on Movie Reviews: A Comparative Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200204 |