CN116401432A

CN116401432A - 一种数字化档案加工管理系统及方法

Info

Publication number: CN116401432A
Application number: CN202310322946.9A
Authority: CN
Inventors: 丁海峰
Original assignee: Southern Jingdian Chongqing Talent Service Co ltd
Current assignee: Southern Jingdian Chongqing Talent Service Co ltd
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-07-07

Abstract

本发明公开了一种数字化档案加工管理系统及方法，系统包括信息采集端、信息服务端以及信息访问端；信息采集端用于采集档案数据信息，包括图像信息及文件信息；信息服务端用于根据采集的档案数据信息，提供档案数据服务支持以及档案数据管理；信息访问端用于为用户提供查询及管理档案数据端口，包括数据可视化组件及信息查询组件。本发明具有快速调用数据，实现多模态数据分析及高效处理，自动信息提取，保障源数据规范；提供更加全面便利的内容搜索及智能推荐能力；字库训练、多算法支持、离线部署；贯穿数据生命周期的协同与深度利用，通过后台统计分析，有效提升管理效。

Description

一种数字化档案加工管理系统及方法

技术领域

本发明属于数字化管理技术领域，具体涉及一种数字化档案加工管理系统及方法。

背景技术

目前，在实现数字化管理的工作过程中，大多数软件都只是一个工具，或用于档案扫描，或用于图像处理，或用于图片格式转换，或用于简单的流程控制，或用于数据统计等，有些软件集成了部分功能，部分流程，在业务量少、团队规模小的时候，其针对性能以极低的成本运营项目；随着业务量增长，团队规模的扩张，越来越多的工具的介入，工具的繁杂、低兼容性反而拖累了生产效率，使得成本居高且难以解决。

现有的档案管理所用工具，如Excel、ACDSee、Photoshop、PDF批量转换系统以及万达档案加工系统等，难以进行综合利用，存在工具繁杂、质控失效、兼容性低等问题

发明内容

针对现有技术中的上述不足，本发明提供的数字化档案加工管理系统及方法解决了现有的档案管理过程中，使用不同工具存在的效率低、工具繁杂以及成本高的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种数字化档案加工管理系统，包括信息采集端、信息服务端以及信息访问端；

所述信息采集端用于采集档案数据信息，包括图像信息及文件信息；

所述信息服务端用于根据采集的档案数据信息，提供档案数据服务支持以及档案数据管理；所述信息服务端包括信息识别组件、信息质检组件、数据分析组件，以及数据库；其中，信息识别组件，用于对采集的图像及文件信息进行识别，按照设定目录信息与图像及文字信息匹配；信息质检组件用于对匹配的图像及文字信息进行质检并录入到对应目录下；数据分析组件用于根据档案管理需求对图像/文字信息分类、统计、鉴定以及更新，以及根据数据可视化要求对其处理得到标准图像及文件；数据库用于根据档案管理的数据存储需求存储系统数据；

所述信息访问端用于为用户提供查询及管理档案数据端口，包括数据可视化组件及信息查询组件；其中，数据可视化组件用于根据档案管理及查询需求，生成个性化数据可视图表；信息查询组件用于为用户提供档案信息查询需求，在信息服务端中调取所需档案数据。

进一步地，所述信息采集端包括系统内置的扫描仪及图像采集器，分别用于获取文件信息及图像信息；

所述信息识别组件基于OCR识别引擎实现信息，基于机器视觉算法实现图像识别；所述数据库包括基于MySQL的数据存储库以及基于Redis的中间缓存库，其中数据存储库用于存储系统的档案管理数据，所述中间缓存库用于存储档案数据信息处理过程中的过程数据；

所述数据可视化组件为基于ECharts的数据可视化图表库，所述数据查询组件为基于ElasticSearch的全文搜索引擎。

进一步地，所述信息服务端中还集成有基于Aspose控件的office文档管理组件，用于根据档案管理需求，将office文件转换为PDF文件，并展示到数据可视组件上。

进一步地，所述数字化档案加工管理系统采用MVVM模型框架搭建；其中，所述信息服务端为基于SpringBoot框架搭建的Javaweb服务后台。

一种数字化档案加工管理方法，包括以下步骤：

S1、通过信息采集端采集档案信息；

S2：对采集的档案信息进行信息识别，对识别后的信息进行目录匹配、质检及录入；

S3、对录入的档案内容进行信息管理，并存储；

S4、根据档案管理需求，在信息访问端查询获取档案信息，并进行可视化展示，实现档案加工管理。

进一步地，所述步骤S2具体为：

S21、分别通过机器视觉及OCR对图像信息及文件信息进行识别，获取处理后的档案信息，包括图像信息及文字信息；

S22、提取处理后的档案信息的特征信息，并与各目录下的预设目录关键字匹配，确定档案信息与目录的初级映射关系；

S23、对初级映射关系进行质检及修正，获得档案信息与目录的一级映射关系；其中，质检包括数量之间、规则之间、以及逻辑校验，修正包括映射关系的修正，以及对初级映射关系的档案信息二次进行目录匹配或增加对应匹配目录；

S24、根据一级映射关系，将各档案信息划分至对应目录下，并根据目录的信息关键字在档案信息中提取对应信息，完成档案信息录入。

进一步地，所述步骤S2中，对采集的档案信息对应的原件成品，按照预设数据存储格式直接存储至数据存储库中。

进一步地，所述步骤S3具体为：

S31、获取各目录下的档案内容，并根据不同用户权限设置对应的敏感信息；

S32、根据用户权限将敏感信息从档案内容中分离，获取不同用户权限对应的可查询档案内容，并将其分解成不同的数据片段区块；

其中，每个用户权限等级下的可查询档案内容均对应一组数据片段区块；

S33、根据用户权限对对应数据片段区块进行加密，并设置加密等级；

S34、将加密后的数据片段区块存储至数据存储库中。

进一步地，所述步骤S4中，对信息访问端使用的基于ElasticSearch的全文搜索引擎进行搜索优化，进而查询获取档案信息；所述搜索优化包括在全文搜索殷勤的基础上增加依次内容分片读取、内容预处理以及内容存储；

其中，内容分片读取的方法为：将根据查询关键词查询得到的档案内容上传至数据可视化组件时，使用多线程方式对查询的档案内容分片读取；

内容预处理的方法为：使用多线程方式对分片读取的档案内容进行预处理，在预处理过程中，对档案内容中的特殊符号移除，将连续空格替换为单空格，然后将预处理后的分片档案内容合并成完整档案内容；

内容存储的方法为：使用多线程方式对完整文档内容重新分片，并将分片后的文档内容存储在中间缓存库中。

进一步地，所述步骤S4中，查询获取档案信息的方法具体为：

基于搜索优化后的全文搜索引擎，在信息访问端输入查询档案关键词，并对依次关键词进行特殊符号移除、连续空格替换以及剪裁后，得到标准关键词，对标准关键词进行切割，并生成查询语句，根据查询语句及用户权限在信息服务端查询获取所需档案信息。

本发明的有益效果为：

(1)本发明中梳理了档案数字化加工的业务流程，将整个加工作业流程全部数字化，构建了一套完整的、通用的、标准化的档案数字化加工管理系统；

(2)本发明系统贯穿了每一个档案数字化环节，集成了所有档案数字化加工所需要的功能，例如扫描环节，可以在系统内调用扫描仪，执行扫描作业，同时保留了在外部扫描成品，然后将成品放到系统路径下，通过系统检索功能完成成品挂接的方式完成扫描作业；图像处理环节，通过技术实现Photoshop算法，从而在系统内处理图像即可实现同样的效果，甚至可以优化算法，满足个性化的需求；著录环节，集成OCR识别引擎，通过文字识别快速便捷地完成信息录入；质检环节，系统对目录与图像数据做自动匹配检查，包括数量、规则、逻辑校验……同时系统支持处理人事、文书、业务、工程等多种档案类型；

(3)本发明系统在完成档案数字化，输出标准化图像及文件的同时还可以通过记录到的流程信息等数据，再经过系统对数据进一步处理，形成可视化图表，简洁直观便于管理者随时随地查看项目进度、产量，为项目运营、管理和决策提供可靠的信息，再结合计算机固有的算力，有助于提升工作效率，达到提升效能效益的作用。由此一来，不仅实现了档案数字化的生产价值，还收获了大量的数据资产，为未来数字化发展提供源源不断的能源。

(4)本发明方法能够快速调用数据，实现多模态数据分析及高效处理，自动信息提取，保障源数据规范；提供更加全面便利的内容搜索及智能推荐能力；字库训练、多算法支持、离线部署；贯穿数据生命周期的协同与深度利用，通过后台统计分析，有效提升管理效。

附图说明

图1为本发明提供的数字化档案加工管理方法流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例1：

本发明实施例提供了一种数字化档案加工管理系统，包括信息采集端、信息服务端以及信息访问端；

在本发明实施例中，信息采集端包括系统内置的扫描仪及图像采集器，分别用于获取文件信息及图像信息；

其中，信息采集端中内置的扫描仪为web调用扫描仪，系统基于Applet，TWAIN，servlet，在web页面上，用Java的方式，调用扫描仪进行扫描作业，将扫描的文件上传至信息服务端；包括以下步骤：

(1)Applet操作本地资源：①依靠Java提供的jar包签名机制提升applet的权限，突破applet安全方面限制，让用户来决定是否给applet提升权限，如果用户信任这个资源，applet将能操作本地资源；②使用<object>标签嵌入applet。

(2)Applet调用TWAIN驱动本地扫描仪。

(3)Applet及servlet把扫描的文件上传到web服务器。

在本发明实施例中，信息识别组件基于OCR识别引擎实现信息，基于机器视觉算法实现图像识别；本发明实施例中的系统基于OpenCV开源计算机视觉和机器学习软件库，系统通过Java的方式，调用OpenCV提供的Java API，实现Photoshop算法，提供和Photoshop一样的图像处理体验，平滑地延续用户的操作习惯。OpenCV拥有2500多种优化算法，其中包括一整套经典和最先进的计算机视觉和机器学习算法。这些算法可用于检测和识别面部、识别对象、对视频中的人类动作进行分类、跟踪相机移动、跟踪移动对象、提取对象的3D模型、从立体相机生成3D点云、将图像缝合在一起以生成整个场景的高分辨率图像、从图像数据库中查找类似图像、，从使用闪光灯拍摄的图像中去除红眼，跟踪眼球运动，识别景物，并建立标记以覆盖增强现实等。

在本发明实施例中，数据库包括基于MySQL的数据存储库以及基于Redis的中间缓存库，其中数据存储库用于存储系统的档案管理数据，所述中间缓存库用于存储档案数据信息处理过程中的过程数据；其中，基于MySQL的数据存储库实现后端数据存储服务，性能卓越，服务稳定；软件体积小，速度快，总体拥有成本低；中间缓存库具有高性能，高可用支撑系统大量的数据吞吐，及数据响应速度的特点。

在本发明实施例中，数据可视化组件为基于ECharts的数据可视化图表库，提供直观,生动,可交互,可个性化定制的数据可视化图表。ECharts拥有丰富的可视化类型，提供了常规的折线图、柱状图、散点图、饼图、K线图，用于统计的盒形图，用于地理数据可视化的地图、热力图、线图，用于关系数据可视化的关系图、treemap、旭日图，多维数据可视化的平行坐标，还有用于BI的漏斗图，仪表盘，并且支持图与图之间的混搭。ECharts内置的dataset属性支持直接传入包括二维表，key-value等多种格式的数据源，通过简单的设置encode属性就可以完成从数据到图形的映射，这种方式更符合可视化的直觉，省去了大部分场景下数据转换的步骤，而且多个组件能够共享一份数据而不用克隆。通过增量渲染技术，配合各种细致的优化，ECharts能够展现千万级的数据量，并且在这个数据量级依然能够进行流畅的缩放平移等交互。提供了图例、视觉映射、数据区域缩放、tooltip、数据刷选等开箱即用的交互组件，可以对数据进行多维度数据筛取、视图缩放、展示细节等深度的交互式数据探索操作。配合视觉映射组件visualMap提供的丰富的视觉编码，能够将不同维度的数据映射到颜色、大小、透明度、明暗度等不同的视觉通道。ECharts由数据驱动，数据的改变驱动图表展现的改变。因此动态数据的实现也变得异常简单，只需要获取数据，填入数据，ECharts会找到两组数据之间的差异然后通过合适的动画去表现数据的变化。配合timeline组件能够在更高的时间维度上去表现数据的信息。ECharts提供了绚丽的特效，通过GL实现更多更强大绚丽的三维可视化。

在本发明实施例中，数据查询组件为基于ElasticSearch的全文搜索引擎，本实施例中搭建系统全文搜索服务，为所有数据提供实时搜索和分析，以快速搜索的方式高效地存储和索引系统数据。

在本发明实施例中信息服务端中还集成有基于Aspose控件的office文档管理组件，用于根据档案管理需求，将office文件转换为PDF文件，并展示到数据可视组件上；具体地，基于Aspose控件，提供office文档管理方案，将Word、Excel等文件转换为PDF文件，并展示到浏览器页面，供用户预览，打印等。

在本发明实施例中数字化档案加工管理系统采用MVVM模型框架搭建；系统基于渐进式框架Vue构建用户界面。采用的是MVVM设计模式，数据模型和视图之间双向绑定(数据驱动)，具有低耦合、可重用性、独立开发、可测试的特点。在MVVM模型中，Vue基于虚拟DOM(Document Object Model，文档对象模型)，用JavaScript对象记录一个DOM节点的副本，当DOM发生更改时候，先用虚拟DOM进行diff，算出最小差异，然后再修改真实DOM。Vue的双向数据绑定和虚拟DOM帮我们以可预期的方式更新视图，极大提高我们的开发效率。

在本发明实施例中，信息服务端为基于SpringBoot框架搭建的Javaweb服务后台，采用注解开发，简化配置，快速的搭建开发环境，自动加载所需要的依赖和配置参数属性。Spring Boot零配置，无冗余代码生成和XML强制配置，遵循“约定大于配置”；集成了大量常用的第三方库的配置，SpringBoot应用为这些第三方库提供了几乎可以零配置的开箱即用的能力；提供一系列大型项目常用的非功能性特征，如嵌入式服务器、安全性、度量、运行状况检查、外部化配置等。

实施例2：

本发明实施例提供了实施例1中的数字化档案加工管理系统的加工管理方法，如图1所示，包括以下步骤：

S1、通过信息采集端采集档案信息；

S3、对录入的档案内容进行信息管理，并存储；

在本发明实施例，步骤S2具体为：

在本实施例中，通过对扫描采集得到的文字及图像数据在存入数据库前，进行目录匹配与质检，保证了数据库中档案信息的准确性和有效性，同时解决了数据库中存储过多冗余数据，提高后续档案数据的查询效率。

在本发明实施例的步骤S2中，对采集的档案信息对应的原件成品，按照预设数据存储格式直接存储至数据存储库中，通过系统检索功能完成成品挂接的方式完成扫描作业。

在本发明实施例中，步骤S3具体为：

S34、将加密后的数据片段区块存储至数据存储库中。

在本发明实施例中，对个人的档案信息进行格式化分析数据处理，用户可以得到直观的反应个人信息的数据，采用分块、分级的方式将敏感信息分离，并根据其设置查询选择，确保用户信息的安全性与隐私保护。

在本发明实施例的步骤S4中，对信息访问端使用的基于ElasticSearch的全文搜索引擎进行搜索优化，进而查询获取档案信息；所述搜索优化包括在全文搜索殷勤的基础上增加依次内容分片读取、内容预处理以及内容存储；

具体地，基于上述搜索优化，在步骤S4中，查询获取档案信息的方法具体为：

在本实施例中，基于上述搜索优化后的查询方法，实现了在不提高系统复杂度且无成本或低成本的情况下提供高效的档案信息全文搜索能力。

实施例3：

本发明实施例提供了实施例1中系统的部署使用方法；

1、搭建局域网：

配置一台服务器，并和其他计算机设备、网线、路由器组建一个局域网工作环境。

2、保存安装包文件：

将安装包全部复制到服务器硬盘D盘根目录下。

3、安装Java运行环境：

安装JDK应用程序。

4、Windows系统下配置环境：配置JAVA_HOME，配置CLASSPATH，配置MySQL数据库的bin目录添加到Path下。

5、安装MySQL，并初始化

注意要以管理员身份启动命令提示符

注意旧版系统缺少vcruntime140_1.dll文件。

6、启动系统

在安装包的server文件夹下bin目录下找到一个名为startup.bat的应用程序，即整个系统的启动程序。

7、访问系统

通过浏览器IP地址(http://localhost:8082/web/)访问系统服务。实际生产中，需要用服务器的真实IP替换localhost。

8、授权系统设备

通过安装包附带的授权文件，绑定设备，登录系统。

9、授权用户

系统管理员通过权限系统自定义权限、创建用户、设置生产流程、分配人员。

10、导入任务。

通过数据导入需要数字化的档案目录，然后根据不同权限，分配生产任务。

11、智能检索

项目负责人通过流程、生产作业人员、档案编号等多种条件快速检索，方便项目管理及查询。生产作业人员也可通过条件检索查询任务、领取任务等。

12、提交任务

每一个环节任务完成后，提交任务或批量提交任务。

13、预览打印下载

通过预览按钮，可以看到PDF格式的目录、脊背条等内容，再通过浏览器自带的打印功能，完成打印(需连接到打印机)；也可以通过浏览器自带的下载功能，完成下载到本地。

14、导出

通过定制化导出功能，使得导出数据能够很好地挂接到其他相应的系统。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种数字化档案加工管理系统，其特征在于，包括信息采集端、信息服务端以及信息访问端；

2.根据权利要求1所述的数字化档案加工管理系统，其特征在于，所述信息采集端包括系统内置的扫描仪及图像采集器，分别用于获取文件信息及图像信息；

3.根据权利要求1所述的数字化档案加工管理系统，其特征在于，所述信息服务端中还集成有基于Aspose控件的office文档管理组件，用于根据档案管理需求，将office文件转换为PDF文件，并展示到数据可视组件上。

4.根据权利要求1所述的数字化档案加工管理系统，其特征在于，所述数字化档案加工管理系统采用MVVM模型框架搭建；其中，所述信息服务端为基于SpringBoot框架搭建的Javaweb服务后台。

5.一种基于权利要求1～4任一权利要求所述的数字化档案加工管理系统的加工管理方法，其特征在于，包括以下步骤：

S1、通过信息采集端采集档案信息；

S3、对录入的档案内容进行信息管理，并存储；

6.根据权利要求5所述的加工管理方法，其特征在于，所述步骤S2具体为：

7.根据权利要求6所述的加工管理方法，其特征在于，所述步骤S2中，对采集的档案信息对应的原件成品，按照预设数据存储格式直接存储至数据存储库中。

8.根据权利要求6所述的加工管理方法，其特征在于，所述步骤S3具体为：

S34、将加密后的数据片段区块存储至数据存储库中。

9.根据权利要求6所述的加工管理方法，其特征在于，所述步骤S4中，对信息访问端使用的基于ElasticSearch的全文搜索引擎进行搜索优化，进而查询获取档案信息；所述搜索优化包括在全文搜索殷勤的基础上增加依次内容分片读取、内容预处理以及内容存储；

10.根据权利要求9所述的加工管理方法，其特征在于，所述步骤S4中，查询获取档案信息的方法具体为：