CN110750696A

CN110750696A - 一种文档聚类检索系统

Info

Publication number: CN110750696A
Application number: CN201911038276.8A
Authority: CN
Inventors: 陶智强; 马小琴; 陈章印; 龙航; 杨恺; 王颖; 王雯茜
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2020-02-04

Abstract

本发明公开了一种文档聚类检索系统，它包括：文档上传预处理模块，将上传的文档内容加载到内存块中，读取内存块中的文档内容做分词处理得到文本特征集，将文本特征集指定唯一键值关联文档保存在数据库中；构建词袋模型模块，使文本特征集组成一个N维向量；聚类算法模块，通过用户输入的关键字在所有文本特征集中匹配，选取匹配文本特征集向量；运用概率分布模型算法LDA对匹配文本特征集向量进行聚类；结果输出模块，通过聚类算法模块返回的匹配文本特征集向量聚类的结果，通过的唯一键值关联文档，将关联的文档聚类推送给用户；解决了人为归档归类效率低下，差错率高等技术问题。

Description

一种文档聚类检索系统

技术领域

本发明属于文档处理技术，尤其涉及一种文档聚类检索系统。

背景技术

在电网公司的设备档案管理中，涉及到文档的检索分析，当前大部分文档检索只局限人为对文档打上归类标签进行归类，再通过归类标签对文档归类检索，而获得相同类型的文档，没有对文档内容做归类检索；这存在二个问题，第一是通过人为归档归类效率低下，二是没有对文档内容进行归类检索，仅仅依靠文档打上归类标签进行归类存在差错率高等。

发明内容

本发明要解决的技术问题是：提供一种文档聚类检索系统，以解决当前电网内部采用人为对文档打上归类标签进行归类，再通过归类标签对文档归类检索，而获得相同类型的文档，没有对文档内容做归类检索；存在的：第一是通过人为归档归类效率低下，二是没有对文档内容进行归类检索，仅仅依靠文档打上归类标签进行归类存在差错率高等技术问题。

本发明的技术方案是：

一种文档聚类检索系统，它包括：

文档上传预处理模块，将上传的文档内容加载到内存块中，读取内存块中的文档内容做分词处理得到文本特征集，将文本特征集指定唯一键值关联文档保存在数据库中；

构建词袋模型模块，先将所有文本特征集中的词汇构建成一个词条列表，列表不含重复的词条；然后对每个文本特征集构建一个向量，向量的维度与词条列表的维度相同，向量的值是词条列表中每个词条在该文本中出现的次数；使文本特征集组成一个N维向量；

聚类算法模块，通过用户输入的关键字在所有文本特征集中匹配，选取匹配文本特征集向量；运用概率分布模型算法LDA对匹配文本特征集向量进行聚类；

结果输出模块，通过聚类算法模块返回的匹配文本特征集向量聚类的结果，通过的唯一键值关联文档，将关联的文档聚类推送给用户。

分词处理得到文本特征集的方法为：采用消除无用词方法和特征词条约简法则得到文本特征集。

本发明有益效果：

本发明通过利用文档的文本特征集，充分利用计算机数据处理的功能，建立多向量输入模式，利用文本特征集聚类处理模块，随时根据文档关键字检索数据，利用成熟的聚类算法手段，实现文档聚类检索；提高了检索效率和准确性；解决了当前电网内部采用人为对文档打上归类标签进行归类，再通过归类标签对文档归类检索，而获得相同类型的文档，没有对文档内容做归类检索；存在的：第一是通过人为归档归类效率低下，二是没有对文档内容进行归类检索，仅仅依靠文档打上归类标签进行归类存在差错率高等技术问题。

附图说明

图1为本发明系统组成示意图。

具体实施方式

一种文档聚类检索系统，包括：

文档上传预处理模块，通常把已上传的文档内容加载到内存块中，读取内存块中的文档内容做分词处理，采用常规消除无用词方法和特征词条约简法则得到文本特征集，把文本特征集指定唯一键值关联文档保存在数据库中，文本特征集为文档聚类检索的关键。

构建词袋模型模块，在用户检索文档时，读取所有文本特征集后，需要进一步转换成向量。先将所有文本特征集中的词汇构建成一个词条列表，其中不含重复的词条。然后对每个文本特征集，构建一个向量，向量的维度与词条列表的维度相同，向量的值是词条列表中每个词条在该文本中出现的次数；使文本特征集组成一个N维向量。

聚类算法模块，通过用户输入的关键字在所有文本特征集中匹配，选取匹配文本特征集向量；运用概率分布模型算法LDA去对匹配文本特征集向量进行聚类；

结果返回模块，通过聚类算法模块返回的匹配文本特征集向量聚类的结果，通过的唯一键值关联文档，将关联的文档聚类推送给用户

文档聚类检索系统与数据库可部署在同一台服务器上，服务器性能要求满足：业务分析的数据范围横跨实时数据和历史数据，既需要低延迟的实时数据分析，也需要对 PB 级的历史数据进行探索性的数据分析；可靠性和可扩展性问题，文档聚类检索系统可能会存储海量的历史文档数据，同时数据规模有持续增长的趋势，需要引入分布式存储系统来满足可靠性和可扩展性需求，同时保证成本可控；技术栈深，需要组合流式组件、存储系统、计算组件和；可运维性要求高，复杂的大数据架构难以维护和管控。

Claims

1.一种文档聚类检索系统，它包括：

2.根据权利要求1所述的一种文档聚类检索系统，其特征在于：分词处理得到文本特征集的方法为：采用消除无用词方法和特征词条约简法则得到文本特征集。