CN113515622A - 一种档案数据分类保存系统 - Google Patents
一种档案数据分类保存系统 Download PDFInfo
- Publication number
- CN113515622A CN113515622A CN202110408208.7A CN202110408208A CN113515622A CN 113515622 A CN113515622 A CN 113515622A CN 202110408208 A CN202110408208 A CN 202110408208A CN 113515622 A CN113515622 A CN 113515622A
- Authority
- CN
- China
- Prior art keywords
- data
- text
- module
- keyword
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 claims abstract description 47
- 239000000284 extract Substances 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims description 110
- 238000000034 method Methods 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 14
- 238000012937 correction Methods 0.000 claims description 12
- 238000013075 data extraction Methods 0.000 claims description 12
- 230000005540 biological transmission Effects 0.000 claims description 8
- 238000013500 data storage Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 1
- 238000012097 association analysis method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种档案数据分类保存系统,通过设置的关键词隐含关联辨别模块将文本数据向量化,结合标题和上下文进行词义的理解从文本内容中得到此文本的关键词,对关键词结合标题和上下文进行词义的理解,储存信息提取模块从图书馆数据分类储存中心中提取与此关键词意思相近的数据,对提取的与此关键词语句相近的数据进行向量化处理,找出与该文本最相近的文本数据,得到分类的具体框架,得到该文本数据的类别以及其与最相近的文本数据的相近概率,对该文本数据与最相近的文本数据的以往相近数据的相近概率进行对比,进行优先靠近以往相近数据储存,进而对档案数据进行快速分类更新储存。
Description
技术领域
本发明涉及计算机辅助系统领域,特别涉及一种档案数据分类保存系统领域。
背景技术
众所周知,由于现在图书馆每时每刻都更新档案数据,数据更新的快慢大多只取决于该数据提交的时间,由于需更新的数据较多,需要将重要的档案数据先进行更新,然而现有的更新系统无法对档案数据进行快速分类并进行分类更新,这样重要的档案文件会丢失其时效性,同时目前图书馆在数字档案数据进行归档时依据档案部门标签和归档时间标签划分档案分类方式和储存方式,但是忽略了不同部门、不同时间储存的各种档案之间存在语句内容上的隐含关联,这样不便于对档案数据进行快速分类更新;
在众多关联分析方法中,基于语义特征的方式为档案管理提供宝贵的参考,因此,对于数字档案内容的挖掘是档案智能管理的基础,对现有数字档案数据进行深入分析,可以更加了解不同类型档案的内在关联规律,对其可能存在的关联关系进行预测,从而为档案管理者的档案关联分析、自动分类工作等方面提供帮助;
为此,我们经过大量研究而提出一种档案数据分类保存系统。
发明内容
本发明的主要目的在于提供一种档案数据分类保存系统,通过设置的关键词隐含关联辨别模块将文本数据向量化,结合标题和上下文进行词义的理解从文本内容中得到此文本的关键词,对关键词结合标题和上下文进行词义的理解,储存信息提取模块从图书馆数据分类储存中心中提取与此关键词意思相近的数据,对提取的与此关键词语句相近的数据进行向量化处理,找出与该文本最相近的文本数据,得到分类的具体框架,得到该文本数据的类别以及其与最相近的文本数据的相近概率,对该文本数据与最相近的文本数据的以往相近数据的相近概率进行对比,进行优先靠近以往相近数据储存,进而对档案数据进行快速分类更新储存;设置的数据分类处理模块对文本主体和作者辨别子单元、该类数据数量情况辨别子单元、与最接近的文本数据的差异程度辨别子单元和作者以往作品影响辨别子单元辨别的结果进行加权计算以得到此档案数据的影响因子,进而对需要保存的档案数据进行缓急的分类以进行处理效率的排序,从而保证了重要档案文件的时效性,可以有效解决背景技术中的问题。
为实现上述目的,本发明采取的技术方案为:本发明的客体是一种档案数据分类保存系统。
一种档案数据分类保存系统,该保存系统包括对数据进行传输的数据输入源和数据输出源,所述数据输入源和数据输出源通过分布式数据传输框架与图书馆数据分类储存中心进行数据的传输;
其中,所述数据输入源包括:
身份验证模块:用于对操作输入源的人员身份进行身份验证;
输入预处理分系统:用于对输入者输入的档案进行图像和文本的数据化处理;
数据分类处理分系统:用于对档案数据进行数据的分类处理并发送至图书馆数据分类储存中心储存;
储存信息提取模块:用于对图书馆数据分类储存中心的储存数据进行信息提取;
初级纠错模块:用于结合提取的图书馆数据分类储存中心的储存数据对输入者输入的档案的一些初级的错误进行快速识别和提醒;
预审核单元:用于输入者提交的档案整体信息结合初级纠错模块的信息对数据分类处理分系统的分类信息进行预审核,以保证分类的合理性;
其中,所述数据分类处理分系统包括:
语句分割模块:用于对输入源输入的文本数据进行分词、去停用词并进行语句分割;
关键词提取模块:用于结合档案的内容对档案中的关键词进行提取;
关键词隐含关联辨别模块:用于结合标题和上下文进行词义的理解,从图书馆数据分类储存中心提取与此关键词相近的数据;
数据分类处理模块:结合关键词隐含关联辨别模块辨别的信息准确对该档案文本进行分类,以准确找到存储位置;
数据发送模块:将需要储存的文件发送至图书馆数据分类储存中心的指定储存位置进行储存。
本发明进一步的改进在于,所述关键词隐含关联辨别模块的辨别方法如下:
1)输入预处理分系统处理后的文本数据进行分词和去停用词预处理;
2)将处理后的文本数据向量化,结合标题和上下文进行词义的理解从文本内容中得到此文本的关键词;
3)对关键词结合标题和上下文进行词义的理解,储存信息提取模块从图书馆数据分类储存中心中提取与此关键词意思相近的数据;
4)对提取的与此关键词语句相近的数据进行向量化处理,找出与该文本最相近的文本数据,得到分类的具体框架;
5)得到该文本数据的类别以及其与最相近的文本数据的相近概率,对该文本数据与最相近的文本数据的以往相近数据的相近概率进行对比,进行优先靠近以往相近数据储存。
本发明进一步的改进在于,所述数据分类处理模块包括:
冗余数据储存单元:用于对需要更新且在保存处理限额范围之外的数据进行暂时分类存储;
储存排序单元:用于对需要保存的档案数据进行缓急的分类以进行处理效率的排序;
影响因子辨别单元:用于对需要保存的档案数据进行影响因子的计算,以对档案处理排序提供参考;
数据发送单元:用于对数据分类处理模块的储存档案数据的接收与发送。
本发明进一步的改进在于,所述影响因子辨别单元包括:
文本主体和作者辨别子单元:用于对待储存的档案数据进行文本主题与作者的辨别;
该类数据数量情况辨别子单元:用于对该数据所属框架内的文本数据数量进行辨别
与最接近的文本数据的差异程度辨别子单元:用于对该档案数据与其最接近的档案数据进行对比,判断其差异程度,进而判断其进步程度;
作者以往作品影响辨别子单元:用于对作者以往档案数据影响进行辨别;
对文本主体和作者辨别子单元、该类数据数量情况辨别子单元、与最接近的文本数据的差异程度辨别子单元和作者以往作品影响辨别子单元辨别的结果进行加权计算以得到此档案数据的影响因子。
本发明进一步的改进在于,该系统的文本数据整体分类保存方法如下:
第一步:输入源输入提交原始文本数据;
第二步:对原始文本数据进行语句分割和关键词提取处理;
第三步:对关键词隐含关联进行快速识别,准确找到该原始文本需要储存的位置;
第四步:通过计算该文本的影响因子进而对该文本进行储存时间的排序;
第五步:对该文本进行初步预审核后保存进入图书馆数据分类储存中心中。
本发明进一步的改进在于,所述输入预处理分系统包括:
文本输入模块:用于输入源对原始文本资料的输入;
文本提交模块:用于输入源对原始文本资料的提交;
文本图像识别模块:用于对文本资料中的文字图像进行识别分类;
文本处理模块:用于将文本资料数据化处理;
图像处理模块:用于将图像资料数据化处理。
本发明进一步的改进在于,所述输出源包括:
信息提取模块:用于输出源对图书馆数据分类储存中心的数据进行提取;
身份二次验证模块:用于管理员对图书馆数据分类储存中心的错误数据进行修改的身份验证;
输出纠错模块:用于管理员对图书馆数据分类储存中心的错误数据进行修改。
本发明进一步的改进在于,所述信息提取单元包括:
关键词提取单元:用于输出源输入关键词对含有关键词的数据进行提取;
关键词隐含关联提取单元:用于输出源输入关键词对含有关键词的数据和经关键词隐含关联辨别模块辨别的与该关键词有关联的数据进行提取。
影响因子提取单元:用于输出源对该关键词所在的领域内凭借档案数据的影响力进行数据提取。
与现有技术相比,本发明具有如下有益效果:
1、通过设置的关键词隐含关联辨别模块将文本数据向量化,结合标题和上下文进行词义的理解从文本内容中得到此文本的关键词,对关键词结合标题和上下文进行词义的理解,储存信息提取模块从图书馆数据分类储存中心中提取与此关键词意思相近的数据,对提取的与此关键词语句相近的数据进行向量化处理,找出与该文本最相近的文本数据,得到分类的具体框架,得到该文本数据的类别以及其与最相近的文本数据的相近概率,对该文本数据与最相近的文本数据的以往相近数据的相近概率进行对比,进行优先靠近以往相近数据储存,进而对档案数据进行快速分类更新储存,具有较好的实用性和创造性。
2、设置的数据分类处理模块对文本主体和作者辨别子单元、该类数据数量情况辨别子单元、与最接近的文本数据的差异程度辨别子单元和作者以往作品影响辨别子单元辨别的结果进行加权计算以得到此档案数据的影响因子,进而对需要保存的档案数据进行缓急的分类以进行处理效率的排序,从而保证了重要档案文件的时效性,具有较好的创造性和实用性。
附图说明
图1为本发明一种档案数据分类保存系统的整体系统示意图。
图2为本发明一种档案数据分类保存系统的关键词隐含关联辨别模块辨别方法示意图。
图3为本发明一种档案数据分类保存系统的数据分类处理模块系统示意图。
图4为本发明一种档案数据分类保存系统的影响因子辨别单元系统示意图。
图5为本发明一种档案数据分类保存系统的文本数据分类保存方法示意图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“一号”、“二号”、“三号”、“四号”仅用于描述目的,而不能理解为指示或暗示相对重要性。下面结合具体实施方式,进一步阐述本发明。
实施例1
如图1所示,一种档案数据分类保存系统,该保存系统包括对数据进行传输的数据输入源和数据输出源,数据输入源和数据输出源通过分布式数据传输框架与图书馆数据分类储存中心进行数据的传输;
其中,数据输入源包括:
身份验证模块:用于对操作输入源的人员身份进行身份验证;
输入预处理分系统:用于对输入者输入的档案进行图像和文本的数据化处理;
数据分类处理分系统:用于对档案数据进行数据的分类处理并发送至图书馆数据分类储存中心储存;
储存信息提取模块:用于对图书馆数据分类储存中心的储存数据进行信息提取;
初级纠错模块:用于结合提取的图书馆数据分类储存中心的储存数据对输入者输入的档案的一些初级的错误进行快速识别和提醒;
预审核单元:用于输入者提交的档案整体信息结合初级纠错模块的信息对数据分类处理分系统的分类信息进行预审核,以保证分类的合理性;
其中,数据分类处理分系统包括:
语句分割模块:用于对输入源输入的文本数据进行分词、去停用词并进行语句分割;
关键词提取模块:用于结合档案的内容对档案中的关键词进行提取;
关键词隐含关联辨别模块:用于结合标题和上下文进行词义的理解,从图书馆数据分类储存中心提取与此关键词相近的数据;
数据分类处理模块:结合关键词隐含关联辨别模块辨别的信息准确对该档案文本进行分类,以准确找到存储位置;
数据发送模块:将需要储存的文件发送至图书馆数据分类储存中心的指定储存位置进行储存。
其中,输入预处理分系统包括:
文本输入模块:用于输入源对原始文本资料的输入;
文本提交模块:用于输入源对原始文本资料的提交;
文本图像识别模块:用于对文本资料中的文字图像进行识别分类;
文本处理模块:用于将文本资料数据化处理;
图像处理模块:用于将图像资料数据化处理。
其中,输出源包括:
信息提取模块:用于输出源对图书馆数据分类储存中心的数据进行提取;
身份二次验证模块:用于管理员对图书馆数据分类储存中心的错误数据进行修改的身份验证;
输出纠错模块:用于管理员对图书馆数据分类储存中心的错误数据进行修改。
其中,信息提取单元包括:
关键词提取单元:用于输出源输入关键词对含有关键词的数据进行提取;
关键词隐含关联提取单元:用于输出源输入关键词对含有关键词的数据和经关键词隐含关联辨别模块辨别的与该关键词有关联的数据进行提取。
影响因子提取单元:用于输出源对该关键词所在的领域内凭借档案数据的影响力进行数据提取
如图2所示,关键词隐含关联辨别模块的辨别方法如下:
1)输入预处理分系统处理后的文本数据进行分词和去停用词预处理;
2)将处理后的文本数据向量化,结合标题和上下文进行词义的理解从文本内容中得到此文本的关键词;
3)对关键词结合标题和上下文进行词义的理解,储存信息提取模块从图书馆数据分类储存中心中提取与此关键词意思相近的数据;
4)对提取的与此关键词语句相近的数据进行向量化处理,找出与该文本最相近的文本数据,得到分类的具体框架;
5)得到该文本数据的类别以及其与最相近的文本数据的相近概率,对该文本数据与最相近的文本数据的以往相近数据的相近概率进行对比,进行优先靠近以往相近数据储存。
如图5所示,该系统的文本数据整体分类保存方法如下:
第一步:输入源输入提交原始文本数据;
第二步:对原始文本数据进行语句分割和关键词提取处理;
第三步:对关键词隐含关联进行快速识别,准确找到该原始文本需要储存的位置;
第四步:通过计算该文本的影响因子进而对该文本进行储存时间的排序;
第五步:对该文本进行初步预审核后保存进入图书馆数据分类储存中心中。
如图3所示,数据分类处理模块包括:
冗余数据储存单元:用于对需要更新且在保存处理限额范围之外的数据进行暂时分类存储;
储存排序单元:用于对需要保存的档案数据进行缓急的分类以进行处理效率的排序;
影响因子辨别单元:用于对需要保存的档案数据进行影响因子的计算,以对档案处理排序提供参考;
数据发送单元:用于对数据分类处理模块的储存档案数据的接收与发送。
如图4所示,影响因子辨别单元包括:
文本主体和作者辨别子单元:用于对待储存的档案数据进行文本主题与作者的辨别;
该类数据数量情况辨别子单元:用于对该数据所属框架内的文本数据数量进行辨别
与最接近的文本数据的差异程度辨别子单元:用于对该档案数据与其最接近的档案数据进行对比,判断其差异程度,进而判断其进步程度;
作者以往作品影响辨别子单元:用于对作者以往档案数据影响进行辨别;
对文本主体和作者辨别子单元、该类数据数量情况辨别子单元、与最接近的文本数据的差异程度辨别子单元和作者以往作品影响辨别子单元辨别的结果进行加权计算以得到此档案数据的影响因子。
通过本实施例可实现:通过设置的关键词隐含关联辨别模块将文本数据向量化,结合标题和上下文进行词义的理解从文本内容中得到此文本的关键词,对关键词结合标题和上下文进行词义的理解,储存信息提取模块从图书馆数据分类储存中心中提取与此关键词意思相近的数据,对提取的与此关键词语句相近的数据进行向量化处理,找出与该文本最相近的文本数据,得到分类的具体框架,得到该文本数据的类别以及其与最相近的文本数据的相近概率,对该文本数据与最相近的文本数据的以往相近数据的相近概率进行对比,进行优先靠近以往相近数据储存,进而对档案数据进行快速分类更新储存,具有较好的实用性和创造性。
实施例2
如图1所示,一种档案数据分类保存系统,该保存系统包括对数据进行传输的数据输入源和数据输出源,数据输入源和数据输出源通过分布式数据传输框架与图书馆数据分类储存中心进行数据的传输;
其中,数据输入源包括:
身份验证模块:用于对操作输入源的人员身份进行身份验证;
输入预处理分系统:用于对输入者输入的档案进行图像和文本的数据化处理;
数据分类处理分系统:用于对档案数据进行数据的分类处理并发送至图书馆数据分类储存中心储存;
储存信息提取模块:用于对图书馆数据分类储存中心的储存数据进行信息提取;
初级纠错模块:用于结合提取的图书馆数据分类储存中心的储存数据对输入者输入的档案的一些初级的错误进行快速识别和提醒;
预审核单元:用于输入者提交的档案整体信息结合初级纠错模块的信息对数据分类处理分系统的分类信息进行预审核,以保证分类的合理性;
其中,数据分类处理分系统包括:
语句分割模块:用于对输入源输入的文本数据进行分词、去停用词并进行语句分割;
关键词提取模块:用于结合档案的内容对档案中的关键词进行提取;
关键词隐含关联辨别模块:用于结合标题和上下文进行词义的理解,从图书馆数据分类储存中心提取与此关键词相近的数据;
数据分类处理模块:结合关键词隐含关联辨别模块辨别的信息准确对该档案文本进行分类,以准确找到存储位置;
数据发送模块:将需要储存的文件发送至图书馆数据分类储存中心的指定储存位置进行储存。
其中,输入预处理分系统包括:
文本输入模块:用于输入源对原始文本资料的输入;
文本提交模块:用于输入源对原始文本资料的提交;
文本图像识别模块:用于对文本资料中的文字图像进行识别分类;
文本处理模块:用于将文本资料数据化处理;
图像处理模块:用于将图像资料数据化处理。
其中,输出源包括:
信息提取模块:用于输出源对图书馆数据分类储存中心的数据进行提取;
身份二次验证模块:用于管理员对图书馆数据分类储存中心的错误数据进行修改的身份验证;
输出纠错模块:用于管理员对图书馆数据分类储存中心的错误数据进行修改。
其中,信息提取单元包括:
关键词提取单元:用于输出源输入关键词对含有关键词的数据进行提取;
关键词隐含关联提取单元:用于输出源输入关键词对含有关键词的数据和经关键词隐含关联辨别模块辨别的与该关键词有关联的数据进行提取。
影响因子提取单元:用于输出源对该关键词所在的领域内凭借档案数据的影响力进行数据提取
如图2所示,关键词隐含关联辨别模块的辨别方法如下:
1)输入预处理分系统处理后的文本数据进行分词和去停用词预处理;
2)将处理后的文本数据向量化,结合标题和上下文进行词义的理解从文本内容中得到此文本的关键词;
3)对关键词结合标题和上下文进行词义的理解,储存信息提取模块从图书馆数据分类储存中心中提取与此关键词意思相近的数据;
4)对提取的与此关键词语句相近的数据进行向量化处理,找出与该文本最相近的文本数据,得到分类的具体框架;
5)得到该文本数据的类别以及其与最相近的文本数据的相近概率,对该文本数据与最相近的文本数据的以往相近数据的相近概率进行对比,进行优先靠近以往相近数据储存。
如图5所示,该系统的文本数据整体分类保存方法如下:
第一步:输入源输入提交原始文本数据;
第二步:对原始文本数据进行语句分割和关键词提取处理;
第三步:对关键词隐含关联进行快速识别,准确找到该原始文本需要储存的位置;
第四步:通过计算该文本的影响因子进而对该文本进行储存时间的排序;
第五步:对该文本进行初步预审核后保存进入图书馆数据分类储存中心中。
如图3所示,数据分类处理模块包括:
冗余数据储存单元:用于对需要更新且在保存处理限额范围之外的数据进行暂时分类存储;
储存排序单元:用于对需要保存的档案数据进行缓急的分类以进行处理效率的排序;
影响因子辨别单元:用于对需要保存的档案数据进行影响因子的计算,以对档案处理排序提供参考;
数据发送单元:用于对数据分类处理模块的储存档案数据的接收与发送。
如图4所示,影响因子辨别单元包括:
文本主体和作者辨别子单元:用于对待储存的档案数据进行文本主题与作者的辨别;
该类数据数量情况辨别子单元:用于对该数据所属框架内的文本数据数量进行辨别
与最接近的文本数据的差异程度辨别子单元:用于对该档案数据与其最接近的档案数据进行对比,判断其差异程度,进而判断其进步程度;
作者以往作品影响辨别子单元:用于对作者以往档案数据影响进行辨别;
对文本主体和作者辨别子单元、该类数据数量情况辨别子单元、与最接近的文本数据的差异程度辨别子单元和作者以往作品影响辨别子单元辨别的结果进行加权计算以得到此档案数据的影响因子。
通过本实施例可实现:设置的数据分类处理模块对文本主体和作者辨别子单元、该类数据数量情况辨别子单元、与最接近的文本数据的差异程度辨别子单元和作者以往作品影响辨别子单元辨别的结果进行加权计算以得到此档案数据的影响因子,进而对需要保存的档案数据进行缓急的分类以进行处理效率的排序,从而保证了重要档案文件的时效性,具有较好的创造性和实用性。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (8)
1.一种档案数据分类保存系统,其特征在于:该保存系统包括对数据进行传输的数据输入源和数据输出源,所述数据输入源和数据输出源通过分布式数据传输框架与图书馆数据分类储存中心进行数据的传输;
其中,所述数据输入源包括:
身份验证模块:用于对操作输入源的人员身份进行身份验证;
输入预处理分系统:用于对输入者输入的档案进行图像和文本的数据化处理;
数据分类处理分系统:用于对档案数据进行数据的分类处理并发送至图书馆数据分类储存中心储存;
储存信息提取模块:用于对图书馆数据分类储存中心的储存数据进行信息提取;
初级纠错模块:用于结合提取的图书馆数据分类储存中心的储存数据对输入者输入的档案的一些初级的错误进行快速识别和提醒;
预审核单元:用于输入者提交的档案整体信息结合初级纠错模块的信息对数据分类处理分系统的分类信息进行预审核,以保证分类的合理性;
其中,所述数据分类处理分系统包括:
语句分割模块:用于对输入源输入的文本数据进行分词、去停用词并进行语句分割;
关键词提取模块:用于结合档案的内容对档案中的关键词进行提取;
关键词隐含关联辨别模块:用于结合标题和上下文进行词义的理解,从图书馆数据分类储存中心提取与此关键词相近的数据;
数据分类处理模块:结合关键词隐含关联辨别模块辨别的信息准确对该档案文本进行分类,以准确找到存储位置;
数据发送模块:将需要储存的文件发送至图书馆数据分类储存中心的指定储存位置进行储存。
2.根据权利要求1所述的一种档案数据分类保存系统,其特征在于:所述关键词隐含关联辨别模块的辨别方法如下:
对输入预处理分系统处理后的文本数据进行分词和去停用词预处理;
将处理后的文本数据向量化,结合标题和上下文进行词义的理解从文本内容中得到此文本的关键词;
对关键词结合标题和上下文进行词义的理解,储存信息提取模块从图书馆数据分类储存中心中提取与此关键词意思相近的数据;
对提取的与此关键词语句相近的数据进行向量化处理,找出与该文本最相近的文本数据,得到分类的具体框架;
得到该文本数据的类别以及其与最相近的文本数据的相近概率,对该文本数据与最相近的文本数据的以往相近数据的相近概率进行对比,进行优先靠近以往相近数据储存。
3.根据权利要求2所述的一种档案数据分类保存系统,其
特征在于:所述数据分类处理模块包括:
冗余数据储存单元:用于对需要更新且在保存处理限额范围之外的数据进行暂时分类存储;
储存排序单元:用于对需要保存的档案数据进行缓急的分类以进行处理效率的排序;
影响因子辨别单元:用于对需要保存的档案数据进行影响因子的计算,以对档案处理排序提供参考;
数据发送单元:用于对数据分类处理模块的储存档案数据的接收与发送。
4.根据权利要求3所述的一种档案数据分类保存系统,其特征在于:所述影响因子辨别单元包括:
文本主体和作者辨别子单元:用于对待储存的档案数据进行文本主题与作者的辨别;
该类数据数量情况辨别子单元:用于对该数据所属框架内的文本数据数量进行辨别
与最接近的文本数据的差异程度辨别子单元:用于对该档案数据与其最接近的档案数据进行对比,判断其差异程度,进而判断其进步程度;
作者以往作品影响辨别子单元:用于对作者以往档案数据影响进行辨别;
对文本主体和作者辨别子单元、该类数据数量情况辨别子单元、与最接近的文本数据的差异程度辨别子单元和作者以往作品影响辨别子单元辨别的结果进行加权计算以得到此档案数据的影响因子。
5.根据权利要求1所述的一种档案数据分类保存系统,其特征在于:该系统的文本数据整体分类保存方法如下:
第一步:输入源输入提交原始文本数据;
第二步:对原始文本数据进行语句分割和关键词提取处理;
第三步:对关键词隐含关联进行快速识别,准确找到该原始文本需要储存的位置;
第四步:通过计算该文本的影响因子进而对该文本进行储存时间的排序;
第五步:对该文本进行初步预审核后保存进入图书馆数据分类储存中心中。
6.根据权利要求1所述的一种档案数据分类保存系统,其特征在于:所述输入预处理分系统包括:
文本输入模块:用于输入源对原始文本资料的输入;
文本提交模块:用于输入源对原始文本资料的提交;
文本图像识别模块:用于对文本资料中的文字图像进行识别分类;
文本处理模块:用于将文本资料数据化处理;
图像处理模块:用于将图像资料数据化处理。
7.根据权利要求1所述的一种档案数据分类保存系统,其特征在于:所述输出源包括:
信息提取模块:用于输出源对图书馆数据分类储存中心的数据进行提取;
身份二次验证模块:用于管理员对图书馆数据分类储存中心的错误数据进行修改的身份验证;
输出纠错模块:用于管理员对图书馆数据分类储存中心的错误数据进行修改。
8.根据权利要求7所述的一种档案数据分类保存系统,其特征在于:所述信息提取单元包括:
关键词提取单元:用于输出源输入关键词对含有关键词的数据进行提取;
关键词隐含关联提取单元:用于输出源输入关键词对含有关键词的数据和经关键词隐含关联辨别模块辨别的与该关键词有关联的数据进行提取;
影响因子提取单元:用于输出源对该关键词所在的领域内凭借档案数据的影响力进行数据提取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110408208.7A CN113515622A (zh) | 2021-04-15 | 2021-04-15 | 一种档案数据分类保存系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110408208.7A CN113515622A (zh) | 2021-04-15 | 2021-04-15 | 一种档案数据分类保存系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113515622A true CN113515622A (zh) | 2021-10-19 |
Family
ID=78062522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110408208.7A Pending CN113515622A (zh) | 2021-04-15 | 2021-04-15 | 一种档案数据分类保存系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113515622A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114173019A (zh) * | 2021-12-23 | 2022-03-11 | 青岛黄海学院 | 一种多功能档案扫描装置及其工作方法 |
CN114897389A (zh) * | 2022-05-23 | 2022-08-12 | 深圳市鸿普森科技股份有限公司 | 一种自动归档的档案库管理系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1299104A (zh) * | 2001-01-05 | 2001-06-13 | 清华大学 | 个人光盘图书馆系统及其数据自动处理方法 |
CN101593200A (zh) * | 2009-06-19 | 2009-12-02 | 淮海工学院 | 基于关键词频度分析的中文网页分类方法 |
CN105138539A (zh) * | 2015-07-08 | 2015-12-09 | 百度在线网络技术(北京)有限公司 | 信息搜索方法和系统 |
US20170236130A1 (en) * | 2014-10-13 | 2017-08-17 | Kim Seng Kee | Emulating Manual System of Filing Using Electronic Document and Electronic File |
CN109949885A (zh) * | 2019-03-12 | 2019-06-28 | 重庆医事通科技发展有限公司 | 一种远程医疗档案数据聚合优化系统和优化管理方法 |
CN109992645A (zh) * | 2019-03-29 | 2019-07-09 | 国家计算机网络与信息安全管理中心 | 一种基于文本数据的资料管理系统及方法 |
-
2021
- 2021-04-15 CN CN202110408208.7A patent/CN113515622A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1299104A (zh) * | 2001-01-05 | 2001-06-13 | 清华大学 | 个人光盘图书馆系统及其数据自动处理方法 |
CN101593200A (zh) * | 2009-06-19 | 2009-12-02 | 淮海工学院 | 基于关键词频度分析的中文网页分类方法 |
US20170236130A1 (en) * | 2014-10-13 | 2017-08-17 | Kim Seng Kee | Emulating Manual System of Filing Using Electronic Document and Electronic File |
CN105138539A (zh) * | 2015-07-08 | 2015-12-09 | 百度在线网络技术(北京)有限公司 | 信息搜索方法和系统 |
CN109949885A (zh) * | 2019-03-12 | 2019-06-28 | 重庆医事通科技发展有限公司 | 一种远程医疗档案数据聚合优化系统和优化管理方法 |
CN109992645A (zh) * | 2019-03-29 | 2019-07-09 | 国家计算机网络与信息安全管理中心 | 一种基于文本数据的资料管理系统及方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114173019A (zh) * | 2021-12-23 | 2022-03-11 | 青岛黄海学院 | 一种多功能档案扫描装置及其工作方法 |
CN114173019B (zh) * | 2021-12-23 | 2023-12-01 | 青岛黄海学院 | 一种多功能档案扫描装置及其工作方法 |
CN114897389A (zh) * | 2022-05-23 | 2022-08-12 | 深圳市鸿普森科技股份有限公司 | 一种自动归档的档案库管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109388795B (zh) | 一种命名实体识别方法、语言识别方法及系统 | |
US8738552B2 (en) | Method and system for classifying documents | |
US20150120738A1 (en) | System and method for document classification based on semantic analysis of the document | |
CN110175334B (zh) | 基于自定义的知识槽结构的文本知识抽取系统和方法 | |
CN113282752B (zh) | 一种基于语义映射的事物分类方法及系统 | |
Lawrence et al. | Mining argumentative structure from natural language text using automatically generated premise-conclusion topic models | |
CN111444330A (zh) | 提取短文本关键词的方法、装置、设备及存储介质 | |
CN109902223B (zh) | 一种基于多模态信息特征的不良内容过滤方法 | |
CN109791632B (zh) | 场景片段分类器、场景分类器以及记录介质 | |
CN112101027A (zh) | 基于阅读理解的中文命名实体识别方法 | |
CN112613582B (zh) | 一种基于深度学习混合模型的争议焦点检测方法及装置 | |
WO2013073999A2 (ru) | Способ автоматизированного анализа текстовых документов | |
CN113515622A (zh) | 一种档案数据分类保存系统 | |
CN115080750B (zh) | 基于融合提示序列的弱监督文本分类方法、系统和装置 | |
CN114756675A (zh) | 文本分类方法、相关设备及可读存储介质 | |
CN115292450A (zh) | 一种基于信息抽取的数据分类分级领域知识库构建方法 | |
US11557141B2 (en) | Text document categorization using rules and document fingerprints | |
CN111091009B (zh) | 一种基于语义分析的文档关联审核方法 | |
CN115062148A (zh) | 一种基于数据库的风险控制方法 | |
CN106815605B (zh) | 一种基于机器学习的数据分类方法及设备 | |
EP3716104A1 (en) | Extracting named entities based using document structure | |
WO2023060634A1 (zh) | 基于跨篇章事件提取的案件串联方法、装置及相关组件 | |
CN114298041A (zh) | 网络安全命名实体的识别方法及识别装置 | |
CN113204610A (zh) | 基于刑事案件电子卷宗的自动编目的方法、计算机可以读取的存储装置 | |
Lin et al. | Automatic Text Classification Method of Personnel Electronic Archives Based on Word Segmentation Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211019 |