CN112507062A

CN112507062A - 一种文档分类保存管理方法、系统及存储设备

Info

Publication number: CN112507062A
Application number: CN202011479422.3A
Authority: CN
Inventors: 张洪涛; 陈功娥; 李光华; 吴双江; 唐晓芳
Original assignee: Guodian Dadu River Hydropower Development Co Ltd
Current assignee: Guodian Dadu River Hydropower Development Co Ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-03-16
Anticipated expiration: 2040-12-15
Also published as: CN112507062B

Abstract

本发明公开了一种文档分类保存管理方法、系统及存储设备，属于文档保存领域，其中的一种文档分类保存管理系统，包括扫描设备、文档预处理单元、存储服务器、处理数据库、数据回收桶和移动存储介质，其中扫描设备将待存储文档进行扫描后，通过ORC识别将扫描文档和待存储文档进行校对对比，并在对比合格后将扫描文档进行预处理，随后上传至存储服务器内，所述存储服务器接收到扫描文档后将进行入库保存，并由管理员在存储服务器内设定文档保管时间，存储服务器在文档超过保管时间后，将文档输入处理数据库内，处理数据库根据文档保管期限对文档数据进行延期保留后将对应存储文档分别送入数据回收桶和移动存储介质内。

Description

一种文档分类保存管理方法、系统及存储设备

技术领域

本发明属于文档保存领域，涉及一种文档分类保存管理方法、系统及存储设备。

背景技术

在信息时代，企业、政府、学校、医院等各种类型的组织的知识都是以电子文件的形式存在的。这些文件的范围广泛、格式多样，是一个组织极其重要的资产。它们包括文件、图形、影像、网页、音频、视频、产品数据、研发文件、数据库表格、应用程序代码、合约等结构化或非结构化数据。根据Jupi terResearch的报告，组织所产生的文件量每6-8个月便以双倍或更快的速率急增。大量无序的文件给组织的成员及硬件均造成了沉重的压力，严重影响了组织的有效运行。文档管理系统就在这样的背景下应运而生。文档管理系统的基本功能包括：文件权限管理、文件内容搜索(全文搜索)、文件属性搜索、文件操作记录、文件日常操作(新建、复制、移动、修改、删除等操作)、在线打开文件、远程修改文件、基于浏览器的在线word编辑、文件排它性修改(锁定与解锁)、文件类型转换、文件压缩解压缩、文件多版本管理、消息订阅(包括操作消息及关键词消息)、消息邮件、新文件的验证、文件审批流程、文件生命周期管理、管理报表、主题选择、右键操作、快捷键操作、B/S系统结构、自动备份与恢复文件、自动备份与恢复数据库、批量导入导出文件、分布式存储、大文件上传等。如申请号为03102468的专利申请公开了一种文档管理系统，其特征在于：其建置于与网络系统相连的网络伺服主机中，该网络系统并与多个终端设备相连，该文档管理系统包括：数据库伺服系统，储存有关项目资料、文档信息资料与使用者身份识别码及其相对应的使用权限等资料；身分识别模块，用以依据使用者透过该终端设备所输入的识别码以判断出相对使用权限；文档查询及上传模块，可供使用者在线进行项目文档的查询及上传程序；文档检索模块，用以依据使用者所输入的查询条件以检索出对应该查询条件且符合使用者权限的相关文档资料；以及文档新增及编辑模块，可供签入的使用者进行一旧文档的信息资料编辑及新增文档的信息资料输入的作业。现有的文档管理系统存在的不足之处在于无法实现文档的在线手写签批，另外全文检索支持的文档类型有限，文档没有实现加密保护，易随意被用户下载、修改、传播。

发明内容

本发明的目的在于：提供了一种文档分类保存管理方法、系统及存储设备，解决了目前文档保存中，要处理大量的结构化和非结构化的文档数据，而且还要处理其中复杂的语义进行分析，目前大多都是采用人工方式进行录入，工作效率低，容易出错的问题。

本发明采用的技术方案如下：

一种文档分类保存管理方法，其特征在于：所述方法包括如下步骤：

S1：将待存储文档进行扫描后将扫描文档与原文档进行对比校对，随后将校对合格的扫描文档上传至文档预处理单元内；

S2：文档预处理单元对上传文档首先进行分词处理，随后通过特征展示，将分词后的数据文件进行特征化，再将特征化的分词数据进行提取后对文本结构拆解分析，最后根据分析结果将文本进行分类后上传至存储服务器内；

S3：存储服务器内的文本分类采用两层分类结构，处理后文本首先分入上层大类类目中，在上层分类完成后，根据步骤S2提取的特征化分词，对下层的二级分类进行模糊化对比，根据模糊化对比结果，将文档放入二级类目分类中；

S4：在文档进入二级类目分类中后，由档案保存期限管理单元向入库文档赋予3个月临时存档标签，由服务器管理员在3个月内对入库文档进行保管期限确定，保管期限包括15年、30年和永久保存三类，在入库文档存储期限不足15日时，通过存储服务器向管理员发送期限警示，临期后将入库文档转入处理数据库内；

S5：进入处理数据库后，根据存储期限对文档进行处理，文档保管期限为15年的文档数据保存3个月，3个月后进行删除，空出存储容量；文档保管期限为30年的文档数据保存3个月，3个月后通过处理数据库的文档导出模块将保存数据上传至移动存储介质内，并在移动存储介质上标记存储文档二级类目编号。

文档分类方法中的步骤S2的分词处理主要依赖于文本语义分析处理技术。不但要处理大量的结构化和非结构化的文档数据，而且还要处理其中复杂的语义关系。对于非结构化问题，一条途径是发展全新的数据挖掘算法直接对非结构化数据进行挖掘，对于数据非常复杂，导致这种算法的复杂性很高；另一条途径就是将非结构化问题结构化，利用现有的数据挖掘技术进行挖掘，目前的文本挖掘一般采用该途径进行。对于语义关系，则需要集成计算语言学和自然语言处理等成果进行分析。

进一步地，所述步骤S2的文档预处理单元中分词处理内英文字符采用Stemming处理，中文字符根据有无词库采用两种方式；方式一：基于词库分词处理，通过正向最大匹配、正向最小匹配、逆向匹配及逐次遍历匹配法对中文字符进行分词确定；方式二：基于词频的统计，将原文中任意前后紧邻的两个字作为一个词进行出现频率的统计，来进行中文字符分词确定；其中Stemming处理为词干提取处理方式。

在对文档进行特征提取前，需要先进行文本信息的预处理，对英文而言需要进行Stemming处理，中文的情况则不同，因为中文词与词之间没有固定的间隔符(空格)，需要进行分词处理。目前主要有基于词库的分词算法和无词典的分词技术两种。

基于词库的分词算法包括正向最大匹配、正向最小匹配、逆向匹配及逐次遍历匹配法等。这类算法的特点是易于实现，设计简单；但分词的正确性很大程度上取决于所建的词库。因此基于词库的分词技术对于歧义和未登录词的切分有很大的困难。

基于无词典的分词技术的基本思想是：基于词频的统计，将原文中任意前后紧邻的两个字作为一个词进行出现频率的统计，出现的次数越高，成为一个词的可能性就越大，在频率超过某个预先设定的阈值时，就将其作为一个词进行索引。这种方法能够有效地提出未登录词。

一种文档分类保存管理系统，其特征在于：包括扫描设备、文档预处理单元、存储服务器、处理数据库、数据回收桶和移动存储介质，其中扫描设备将待存储文档进行扫描后，通过ORC识别将扫描文档和待存储文档进行校对对比，并在对比合格后将扫描文档进行预处理，随后上传至存储服务器内，所述存储服务器接收到扫描文档后将进行入库保存，并由管理员在存储服务器内设定文档保管时间，存储服务器在文档超过保管时间后，将文档输入处理数据库内，处理数据库根据文档保管期限对文档数据进行延期保留后将对应存储文档分别送入数据回收桶和移动存储介质内。

进一步地，所述存储服务器包括上层大类存储层和下层分类存储层，其中上层大类存储层存储保管期限为15年的综合数据，下层存储层存储保管期限为30年及以上的细分类别数据。

进一步地，所述移动存储介质采用移动硬盘、U盘、光盘中任意一种，在存储介质容量不足时，处理数据库向管理员发送警示信息对移动存储介质进行更换。

进一步地，所述数据回收桶在数据超出容量限制，根据文档数据录入时，对文档数据进行删除。

一种文档分类保存管理存储设备，其特征在于，包括存储插板基座、移动存储介质、插口和吸盘底座，所述存储插板基座上端面阵列有若干个插口，每个插口上方设置有移动存储介质，所述吸盘底座设置于存储插板基座边角上，所述存储插板基座一侧端面还设置有排气扇，存储插板基座左右两侧端面上设置有数据连接口。

进一步地，所述存储插板基座内设置有供能电源和散热铜片板，所述供能电源为排气扇提供动能，所述散热铜片板设置在插口下方，所述散热铜片板与排气扇位于同一平面。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.一种文档分类保存管理方法、系统及存储设备，能够对所获取的稿件信息进行智能化的分类处理，自动给出稿件的分类属性，减少人工干预，提高录入准确性和保密程度，方便用户操作。

2.本发明实现了对文档的系统化管理，降低了文档管理的人力成本，使文档管理更加规范。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图，其中：

图1是一种文档分类保存管理方法流程图；

图2是一种文档分类保存管理系统框图。

图3是一种文档分类保存管理存储设备结构示意图。

1-存储插板基座，11-排气扇，12-数据连接口，13-供能电源，14-散热铜片板，2-移动存储介质，3-插口，4-吸盘底座。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面结合实施例对本发明的特征和性能作进一步的详细描述。

实施例一

如图1所示，本发明较佳实施例提供的一种文档分类保存管理方法，其特征在于：所述方法包括如下步骤：

文档分类方法中的步骤S2的分词处理主要依赖于文本语义分析处理技术。不但要处理大量的结构化和非结构化的文档数据，而且还要处理其中复杂的语义关系。对于非结构化问题，一条途径是发展全新的数据挖掘算法直接对非结构化数据进行挖掘，对于数据非常复杂，导致这种算法的复杂性很高；另一条途径就是将非结构化问题结构化，利用现有的数据挖掘技术进行挖掘，目前的文本挖掘一般采用该途径进行。对于语义关系，则需要集成计算语言学和自然语言处理等成果进行分析。在步骤S3中通过存储服务器的两层分类结构，方便文本进入最接近的二类存储中，进入到二级类目中后，可以方便进行查询，避免出现所有文档存储在一层级中，在存储和分类时造成混乱。

所述步骤S2的文档预处理单元中分词处理内英文字符采用Stemming处理，中文字符根据有无词库采用两种方式；方式一：基于词库分词处理，通过正向最大匹配、正向最小匹配、逆向匹配及逐次遍历匹配法对中文字符进行分词确定；方式二：基于词频的统计，将原文中任意前后紧邻的两个字作为一个词进行出现频率的统计，来进行中文字符分词确定；其中Stemming处理为词干提取处理方式。在进行特征展示时，文本特征指的是关于文本的元数据，分为描述性特征(如文本的名称、日期、大小、类型等)和语义性特征(如文本的作者、机构、标题、内容等)。特征表示是指一定特征项(如词条或描述)来代表文档，在文本挖掘时只需对这些特征项进行处理，从而实现对非结构化的文本处理。这是一个非结构化向结构化转换的处理步骤。特征表示的构造过程就是挖掘模型的构造过程。

用向量空间模型得到的特征向量的维数往往会达到数十万维，如此高维的特征对即将进行的分类学习未必全是重要、有益的，而且高维的特征会大大增加机器的学习时间，这便是特征提取所要完成的工作。特征提取算法一般是构造一个评价函数，对每个特征进行评估，然后把特征按分值高低排队，预定数目分数最高的特征被选取。

此实施例将上述展开的某些特征进行结合，并说明工作原理以及达到的效果

实施例二

如图2所示，本实施例在实施例一的基础上，一种文档分类保存管理系统，其特征在于：包括扫描设备、文档预处理单元、存储服务器、处理数据库、数据回收桶和移动存储介质，其中扫描设备将待存储文档进行扫描后，通过ORC识别将扫描文档和待存储文档进行校对对比，并在对比合格后将扫描文档进行预处理，随后上传至存储服务器内，所述存储服务器接收到扫描文档后将进行入库保存，并由管理员在存储服务器内设定文档保管时间，存储服务器在文档超过保管时间后，将文档输入处理数据库内，处理数据库根据文档保管期限对文档数据进行延期保留后将对应存储文档分别送入数据回收桶和移动存储介质内。

所述存储服务器包括上层大类存储层和下层分类存储层，其中上层大类存储层存储保管期限为15年的综合数据，下层存储层存储保管期限为30年及以上的细分类别数据。所述移动存储介质采用移动硬盘、U盘、光盘中任意一种，在存储介质容量不足时，处理数据库向管理员发送警示信息对移动存储介质进行更换。所述数据回收桶在数据超出容量限制，根据文档数据录入时，对文档数据进行删除。

实施例三

如图3所示，一种文档分类保存管理存储设备，其特征在于，包括存储插板基座1、移动存储介质2、插口3和吸盘底座4，所述存储插板基座1上端面阵列有若干个插口3，每个插口3上方设置有移动存储介质2，所述吸盘底座4设置于存储插板基座1边角上，所述存储插板基座1一侧端面还设置有排气扇11，存储插板基座1左右两侧端面上设置有数据连接口12。

在使用时，在数据连接口接收到处理数据库发送的数据后，即根据插口顺序将数据导入移动介质中，因为传输量较大，为了避免产生较大热量损坏移动介质和插口，通过排气扇将内部的热量进行散发，避免传输因为过热而产生损坏。

所述存储插板基座1内设置有供能电源13和散热铜片板14，所述供能电源13为排气扇11提供动能，所述散热铜片板14设置在插口3下方，所述散热铜片板14与排气扇11位于同一平面。上述的供能电源为整个存储设备提供电能，如果处理数据库还需要警报的，可以在存储插板基座内设置蜂鸣器，通过处理数据库发送控制信号，让供能电源向蜂鸣器提供电能对管理员进行提示。

将上述展开的某些特征进行结合，并说明工作原理以及达到的效果；

或在前面所述的实施例上加入新的特征的情况下，说明解决的技术问题、技术方案、工作原理以及达到的效果

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明的保护范围，任何熟悉本领域的技术人员在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文档分类保存管理方法，其特征在于：所述方法包括如下步骤：

2.根据权利要求1所述的一种文档分类保存管理方法，其特征在于：所述步骤S2的文档预处理单元中分词处理内英文字符采用Stemming处理，中文字符根据有无词库采用两种方式；

方式一：基于词库分词处理，通过正向最大匹配、正向最小匹配、逆向匹配及逐次遍历匹配法对中文字符进行分词确定；

方式二：基于词频的统计，将原文中任意前后紧邻的两个字作为一个词进行出现频率的统计，来进行中文字符分词确定；

其中Stemming处理为词干提取处理方式。

3.一种文档分类保存管理系统，其特征在于：包括扫描设备、文档预处理单元、存储服务器、处理数据库、数据回收桶和移动存储介质，其中扫描设备将待存储文档进行扫描后，通过ORC识别将扫描文档和待存储文档进行校对对比，并在对比合格后将扫描文档进行预处理，随后上传至存储服务器内，所述存储服务器接收到扫描文档后将进行入库保存，并由管理员在存储服务器内设定文档保管时间，存储服务器在文档超过保管时间后，将文档输入处理数据库内，处理数据库根据文档保管期限对文档数据进行延期保留后将对应存储文档分别送入数据回收桶和移动存储介质内。

4.根据权利要求3所述的一种文档分类保存管理系统，其特征在于：所述存储服务器包括上层大类存储层和下层分类存储层，其中上层大类存储层存储保管期限为15年的综合数据，下层存储层存储保管期限为30年及以上的细分类别数据。

5.根据权利要求3所述的一种文档分类保存管理系统，其特征在于：所述移动存储介质采用移动硬盘、U盘、光盘中任意一种，在存储介质容量不足时，处理数据库向管理员发送警示信息对移动存储介质进行更换。

6.根据权利要求5所述的一种文档分类保存管理系统，其特征在于：所述数据回收桶在数据超出容量限制，根据文档数据录入时，对文档数据进行删除。

7.一种文档分类保存管理存储设备，其特征在于，包括存储插板基座(1)、移动存储介质(2)、插口(3)和吸盘底座(4)，所述存储插板基座(1)上端面阵列有若干个插口(3)，每个插口(3)上方设置有移动存储介质(2)，所述吸盘底座(4)设置于存储插板基座(1)边角上，所述存储插板基座(1)一侧端面还设置有排气扇(11)，存储插板基座(1)左右两侧端面上设置有数据连接口(12)。

8.根据权利要求7所述的一种文档分类保存管理存储设备，其特征在于，所述存储插板基座(1)内设置有供能电源(13)和散热铜片板(14)，所述供能电源(13)为排气扇(11)提供动能，所述散热铜片板(14)设置在插口(3)下方，所述散热铜片板(14)与排气扇(11)位于同一平面。