CN113515622A

CN113515622A - 一种档案数据分类保存系统

Info

Publication number: CN113515622A
Application number: CN202110408208.7A
Authority: CN
Inventors: 程坦; 刘涛; 汪玮; 吕剑
Original assignee: Zhongkehaituo Wuxi Technology Co ltd
Current assignee: Zhongkehaituo Wuxi Technology Co ltd
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2021-10-19

Abstract

本发明公开了一种档案数据分类保存系统，通过设置的关键词隐含关联辨别模块将文本数据向量化，结合标题和上下文进行词义的理解从文本内容中得到此文本的关键词，对关键词结合标题和上下文进行词义的理解，储存信息提取模块从图书馆数据分类储存中心中提取与此关键词意思相近的数据，对提取的与此关键词语句相近的数据进行向量化处理，找出与该文本最相近的文本数据，得到分类的具体框架，得到该文本数据的类别以及其与最相近的文本数据的相近概率，对该文本数据与最相近的文本数据的以往相近数据的相近概率进行对比，进行优先靠近以往相近数据储存，进而对档案数据进行快速分类更新储存。

Description

一种档案数据分类保存系统

技术领域

本发明涉及计算机辅助系统领域，特别涉及一种档案数据分类保存系统领域。

背景技术

众所周知，由于现在图书馆每时每刻都更新档案数据，数据更新的快慢大多只取决于该数据提交的时间，由于需更新的数据较多，需要将重要的档案数据先进行更新，然而现有的更新系统无法对档案数据进行快速分类并进行分类更新，这样重要的档案文件会丢失其时效性，同时目前图书馆在数字档案数据进行归档时依据档案部门标签和归档时间标签划分档案分类方式和储存方式，但是忽略了不同部门、不同时间储存的各种档案之间存在语句内容上的隐含关联，这样不便于对档案数据进行快速分类更新；

在众多关联分析方法中，基于语义特征的方式为档案管理提供宝贵的参考，因此，对于数字档案内容的挖掘是档案智能管理的基础，对现有数字档案数据进行深入分析，可以更加了解不同类型档案的内在关联规律，对其可能存在的关联关系进行预测，从而为档案管理者的档案关联分析、自动分类工作等方面提供帮助；

为此，我们经过大量研究而提出一种档案数据分类保存系统。

发明内容

本发明的主要目的在于提供一种档案数据分类保存系统，通过设置的关键词隐含关联辨别模块将文本数据向量化，结合标题和上下文进行词义的理解从文本内容中得到此文本的关键词，对关键词结合标题和上下文进行词义的理解，储存信息提取模块从图书馆数据分类储存中心中提取与此关键词意思相近的数据，对提取的与此关键词语句相近的数据进行向量化处理，找出与该文本最相近的文本数据，得到分类的具体框架，得到该文本数据的类别以及其与最相近的文本数据的相近概率，对该文本数据与最相近的文本数据的以往相近数据的相近概率进行对比，进行优先靠近以往相近数据储存，进而对档案数据进行快速分类更新储存；设置的数据分类处理模块对文本主体和作者辨别子单元、该类数据数量情况辨别子单元、与最接近的文本数据的差异程度辨别子单元和作者以往作品影响辨别子单元辨别的结果进行加权计算以得到此档案数据的影响因子，进而对需要保存的档案数据进行缓急的分类以进行处理效率的排序，从而保证了重要档案文件的时效性，可以有效解决背景技术中的问题。

为实现上述目的，本发明采取的技术方案为：本发明的客体是一种档案数据分类保存系统。

一种档案数据分类保存系统，该保存系统包括对数据进行传输的数据输入源和数据输出源，所述数据输入源和数据输出源通过分布式数据传输框架与图书馆数据分类储存中心进行数据的传输；

其中，所述数据输入源包括：

身份验证模块：用于对操作输入源的人员身份进行身份验证；

输入预处理分系统：用于对输入者输入的档案进行图像和文本的数据化处理；

数据分类处理分系统：用于对档案数据进行数据的分类处理并发送至图书馆数据分类储存中心储存；

储存信息提取模块：用于对图书馆数据分类储存中心的储存数据进行信息提取；

初级纠错模块：用于结合提取的图书馆数据分类储存中心的储存数据对输入者输入的档案的一些初级的错误进行快速识别和提醒；

预审核单元：用于输入者提交的档案整体信息结合初级纠错模块的信息对数据分类处理分系统的分类信息进行预审核，以保证分类的合理性；

其中，所述数据分类处理分系统包括：

语句分割模块：用于对输入源输入的文本数据进行分词、去停用词并进行语句分割；

关键词提取模块：用于结合档案的内容对档案中的关键词进行提取；

关键词隐含关联辨别模块：用于结合标题和上下文进行词义的理解，从图书馆数据分类储存中心提取与此关键词相近的数据；

数据分类处理模块：结合关键词隐含关联辨别模块辨别的信息准确对该档案文本进行分类，以准确找到存储位置；

数据发送模块：将需要储存的文件发送至图书馆数据分类储存中心的指定储存位置进行储存。

本发明进一步的改进在于，所述关键词隐含关联辨别模块的辨别方法如下：

1）输入预处理分系统处理后的文本数据进行分词和去停用词预处理；

2）将处理后的文本数据向量化，结合标题和上下文进行词义的理解从文本内容中得到此文本的关键词；

3）对关键词结合标题和上下文进行词义的理解，储存信息提取模块从图书馆数据分类储存中心中提取与此关键词意思相近的数据；

4）对提取的与此关键词语句相近的数据进行向量化处理，找出与该文本最相近的文本数据，得到分类的具体框架；

5）得到该文本数据的类别以及其与最相近的文本数据的相近概率，对该文本数据与最相近的文本数据的以往相近数据的相近概率进行对比，进行优先靠近以往相近数据储存。

本发明进一步的改进在于，所述数据分类处理模块包括：

冗余数据储存单元：用于对需要更新且在保存处理限额范围之外的数据进行暂时分类存储；

储存排序单元：用于对需要保存的档案数据进行缓急的分类以进行处理效率的排序；

影响因子辨别单元：用于对需要保存的档案数据进行影响因子的计算，以对档案处理排序提供参考；

数据发送单元：用于对数据分类处理模块的储存档案数据的接收与发送。

本发明进一步的改进在于，所述影响因子辨别单元包括：

文本主体和作者辨别子单元：用于对待储存的档案数据进行文本主题与作者的辨别；

该类数据数量情况辨别子单元：用于对该数据所属框架内的文本数据数量进行辨别

与最接近的文本数据的差异程度辨别子单元：用于对该档案数据与其最接近的档案数据进行对比，判断其差异程度，进而判断其进步程度；

作者以往作品影响辨别子单元：用于对作者以往档案数据影响进行辨别；

对文本主体和作者辨别子单元、该类数据数量情况辨别子单元、与最接近的文本数据的差异程度辨别子单元和作者以往作品影响辨别子单元辨别的结果进行加权计算以得到此档案数据的影响因子。

本发明进一步的改进在于，该系统的文本数据整体分类保存方法如下：

第一步：输入源输入提交原始文本数据；

第二步：对原始文本数据进行语句分割和关键词提取处理；

第三步：对关键词隐含关联进行快速识别，准确找到该原始文本需要储存的位置；

第四步：通过计算该文本的影响因子进而对该文本进行储存时间的排序；

第五步：对该文本进行初步预审核后保存进入图书馆数据分类储存中心中。

本发明进一步的改进在于，所述输入预处理分系统包括：

文本输入模块：用于输入源对原始文本资料的输入；

文本提交模块：用于输入源对原始文本资料的提交；

文本图像识别模块：用于对文本资料中的文字图像进行识别分类；

文本处理模块：用于将文本资料数据化处理；

图像处理模块：用于将图像资料数据化处理。

本发明进一步的改进在于，所述输出源包括：

信息提取模块：用于输出源对图书馆数据分类储存中心的数据进行提取；

身份二次验证模块：用于管理员对图书馆数据分类储存中心的错误数据进行修改的身份验证；

输出纠错模块：用于管理员对图书馆数据分类储存中心的错误数据进行修改。

本发明进一步的改进在于，所述信息提取单元包括：

关键词提取单元：用于输出源输入关键词对含有关键词的数据进行提取；

关键词隐含关联提取单元：用于输出源输入关键词对含有关键词的数据和经关键词隐含关联辨别模块辨别的与该关键词有关联的数据进行提取。

影响因子提取单元：用于输出源对该关键词所在的领域内凭借档案数据的影响力进行数据提取。

与现有技术相比，本发明具有如下有益效果：

1、通过设置的关键词隐含关联辨别模块将文本数据向量化，结合标题和上下文进行词义的理解从文本内容中得到此文本的关键词，对关键词结合标题和上下文进行词义的理解，储存信息提取模块从图书馆数据分类储存中心中提取与此关键词意思相近的数据，对提取的与此关键词语句相近的数据进行向量化处理，找出与该文本最相近的文本数据，得到分类的具体框架，得到该文本数据的类别以及其与最相近的文本数据的相近概率，对该文本数据与最相近的文本数据的以往相近数据的相近概率进行对比，进行优先靠近以往相近数据储存，进而对档案数据进行快速分类更新储存，具有较好的实用性和创造性。

2、设置的数据分类处理模块对文本主体和作者辨别子单元、该类数据数量情况辨别子单元、与最接近的文本数据的差异程度辨别子单元和作者以往作品影响辨别子单元辨别的结果进行加权计算以得到此档案数据的影响因子，进而对需要保存的档案数据进行缓急的分类以进行处理效率的排序，从而保证了重要档案文件的时效性，具有较好的创造性和实用性。

附图说明

图1为本发明一种档案数据分类保存系统的整体系统示意图。

图2为本发明一种档案数据分类保存系统的关键词隐含关联辨别模块辨别方法示意图。

图3为本发明一种档案数据分类保存系统的数据分类处理模块系统示意图。

图4为本发明一种档案数据分类保存系统的影响因子辨别单元系统示意图。

图5为本发明一种档案数据分类保存系统的文本数据分类保存方法示意图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“一号”、“二号”、“三号”、“四号”仅用于描述目的，而不能理解为指示或暗示相对重要性。下面结合具体实施方式，进一步阐述本发明。

实施例1

如图1所示，一种档案数据分类保存系统，该保存系统包括对数据进行传输的数据输入源和数据输出源，数据输入源和数据输出源通过分布式数据传输框架与图书馆数据分类储存中心进行数据的传输；

其中，数据输入源包括：

其中，数据分类处理分系统包括：

其中，输入预处理分系统包括：

文本输入模块：用于输入源对原始文本资料的输入；

文本提交模块：用于输入源对原始文本资料的提交；

文本处理模块：用于将文本资料数据化处理；

图像处理模块：用于将图像资料数据化处理。

其中，输出源包括：

其中，信息提取单元包括：

影响因子提取单元：用于输出源对该关键词所在的领域内凭借档案数据的影响力进行数据提取

如图2所示，关键词隐含关联辨别模块的辨别方法如下：

如图5所示，该系统的文本数据整体分类保存方法如下：

第一步：输入源输入提交原始文本数据；

第二步：对原始文本数据进行语句分割和关键词提取处理；

如图3所示，数据分类处理模块包括：

如图4所示，影响因子辨别单元包括：

通过本实施例可实现：通过设置的关键词隐含关联辨别模块将文本数据向量化，结合标题和上下文进行词义的理解从文本内容中得到此文本的关键词，对关键词结合标题和上下文进行词义的理解，储存信息提取模块从图书馆数据分类储存中心中提取与此关键词意思相近的数据，对提取的与此关键词语句相近的数据进行向量化处理，找出与该文本最相近的文本数据，得到分类的具体框架，得到该文本数据的类别以及其与最相近的文本数据的相近概率，对该文本数据与最相近的文本数据的以往相近数据的相近概率进行对比，进行优先靠近以往相近数据储存，进而对档案数据进行快速分类更新储存，具有较好的实用性和创造性。

实施例2

其中，数据输入源包括：

其中，数据分类处理分系统包括：

其中，输入预处理分系统包括：

文本输入模块：用于输入源对原始文本资料的输入；

文本提交模块：用于输入源对原始文本资料的提交；

文本处理模块：用于将文本资料数据化处理；

图像处理模块：用于将图像资料数据化处理。

其中，输出源包括：

其中，信息提取单元包括：

如图2所示，关键词隐含关联辨别模块的辨别方法如下：

如图5所示，该系统的文本数据整体分类保存方法如下：

第一步：输入源输入提交原始文本数据；

第二步：对原始文本数据进行语句分割和关键词提取处理；

如图3所示，数据分类处理模块包括：

如图4所示，影响因子辨别单元包括：

通过本实施例可实现：设置的数据分类处理模块对文本主体和作者辨别子单元、该类数据数量情况辨别子单元、与最接近的文本数据的差异程度辨别子单元和作者以往作品影响辨别子单元辨别的结果进行加权计算以得到此档案数据的影响因子，进而对需要保存的档案数据进行缓急的分类以进行处理效率的排序，从而保证了重要档案文件的时效性，具有较好的创造性和实用性。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种档案数据分类保存系统，其特征在于：该保存系统包括对数据进行传输的数据输入源和数据输出源，所述数据输入源和数据输出源通过分布式数据传输框架与图书馆数据分类储存中心进行数据的传输；

其中，所述数据输入源包括：

其中，所述数据分类处理分系统包括：

2.根据权利要求1所述的一种档案数据分类保存系统，其特征在于：所述关键词隐含关联辨别模块的辨别方法如下：

对输入预处理分系统处理后的文本数据进行分词和去停用词预处理；

将处理后的文本数据向量化，结合标题和上下文进行词义的理解从文本内容中得到此文本的关键词；

对关键词结合标题和上下文进行词义的理解，储存信息提取模块从图书馆数据分类储存中心中提取与此关键词意思相近的数据；

对提取的与此关键词语句相近的数据进行向量化处理，找出与该文本最相近的文本数据，得到分类的具体框架；

得到该文本数据的类别以及其与最相近的文本数据的相近概率，对该文本数据与最相近的文本数据的以往相近数据的相近概率进行对比，进行优先靠近以往相近数据储存。

3.根据权利要求2所述的一种档案数据分类保存系统，其

特征在于：所述数据分类处理模块包括：

4.根据权利要求3所述的一种档案数据分类保存系统，其特征在于：所述影响因子辨别单元包括：

5.根据权利要求1所述的一种档案数据分类保存系统，其特征在于：该系统的文本数据整体分类保存方法如下：

第一步：输入源输入提交原始文本数据；

第二步：对原始文本数据进行语句分割和关键词提取处理；

6.根据权利要求1所述的一种档案数据分类保存系统，其特征在于：所述输入预处理分系统包括：

文本输入模块：用于输入源对原始文本资料的输入；

文本提交模块：用于输入源对原始文本资料的提交；

文本处理模块：用于将文本资料数据化处理；

图像处理模块：用于将图像资料数据化处理。

7.根据权利要求1所述的一种档案数据分类保存系统，其特征在于：所述输出源包括：

8.根据权利要求7所述的一种档案数据分类保存系统，其特征在于：所述信息提取单元包括：

关键词隐含关联提取单元：用于输出源输入关键词对含有关键词的数据和经关键词隐含关联辨别模块辨别的与该关键词有关联的数据进行提取；