一种基于档案信息资源规划的档案整理与数字化加工系统
技术领域
本发明涉及档案管理技术领域,尤其涉及一种基于档案信息资源规划的档案整理与数字化加工系统。
背景技术
档案管理对于政府机关、企事业单位来说,是一项非常重要的工作。档案包括各类公文,例如已经归档的收文、发文、签报、会议纪要、通告、申请、大事记等文件。档案种类包括,文书档案、科技档案、照片档案、实物档案、声像档案、会计档案等。
传统的档案信息一般用纸质档案存储在档案室里面,当需要查找检索时非常费时,存储档案空间很大,维护起来不方便;备份档案需要使用大量的资源,而且人工处理可能产生差错。于是,近年来提出了档案信息数字化。档案信息数字化就是把纸质档案通过扫描,录入信息到计算机数据库中,使用计算机存储档案信息,数字化的好处是,检索快捷方便、容易实时同步备份、存储空间小,维护方便、安全。
现有的档案管理方案,首先人工拆开纸质档案,通过扫描仪对纸质档案进行扫描,获得电子文件,然后人工根据电子文件的内容,将信息录入到档案数据库中。然而,扫描过程需要对纸质档案进行拆卷、裱糊、重新组卷等工序,对于年代较为久远的历史纸质档案来说,容易导致纸质档案卡纸或破损的情况;现有技术容易对纸质档案造成很大的伤害,且需花费大量人力物力,档案管理成本高。
发明内容
本发明提供一种基于档案信息资源规划的档案整理与数字化加工系统,其可以减少对纸质档案的伤害,降低档案管理成本。
一种基于档案信息资源规划的档案整理与数字化加工系统,包括用于保存档案数据库的档案存储服务器,还包括:用于对纸质档案进行拍照并获得电子文件的拍照设备,用于将电子文件进行图像处理并获得图像文件的图像处理设备,用于将图像文件识别为元数据的数据识别设备,用于将元数据填入档案数据库的相应栏目的数据处理设备;拍照设备与图像处理设备连接,图像处理设备与数据识别设备连接,数据识别设备与数据处理设备连接,数据处理设备与档案存储服务器连接。
其中,进一步包括用于保存电子文件的文件存储服务器,和用于将文件存储服务器保存的电子文件与档案存储服务器的档案数据库挂接的文件挂接设备,文件存储服务器和拍照设备连接,文件挂接设备与文件存储服务器、档案存储服务器连接。
其中,数据识别设备为使用反向传播神经网络算法的数据识别设备。
其中,拍照设备为高拍仪。
有益效果:本发明包括用于对纸质档案进行拍照并获得电子文件的拍照设备,用于将电子文件进行图像处理并获得图像文件的图像处理设备,用于将图像文件识别为元数据的数据识别设备,用于将元数据填入档案数据库的相应栏目的数据处理设备;拍照设备与图像处理设备连接,图像处理设备与数据识别设备连接,数据识别设备与数据处理设备连接,数据处理设备与档案存储服务器连接。拍照设备对纸质档案进行拍照,获得电子文件,不需要对纸质档案进行拆卷、裱糊、重新组卷等工序,特别是对年代较为久远的历史纸质档案来说,本技术方案可以减少对纸质档案的伤害,保护纸质文档的原貌,且本技术方案可以节省人力物力,降低档案管理成本。
附图说明
图1为本发明的系统示意图。
具体实施方式
参见图1,以下结合附图对本发明进行详细的描述。
一种基于档案信息资源规划的档案整理与数字化加工系统,包括用于保存档案数据库的档案存储服务器105,还包括:用于对纸质档案进行拍照并获得电子文件的拍照设备101,用于将电子文件进行图像处理并获得图像文件的图像处理设备102,用于将图像文件识别为元数据的数据识别设备103,用于将元数据填入档案数据库的相应栏目的数据处理设备104;拍照设备101与图像处理设备102连接,图像处理设备102与数据识别设备103连接,数据识别设备103与数据处理设备104连接,数据处理设备104与档案存储服务器105连接。在建立本系统时,首先进行档案信息资源规划,即对需要进行电子存储的纸质档案进行规范,对档案进行分类,在档案存储服务器105建立针对每个类别的档案数据库,从而可将纸质档案的元数据填入档案数据库中。
本实施例中,拍照设备101为高拍仪;当然也可以为其它设备。高拍仪是一种文件拍摄仪,它能在快速完成纸质文档的拍摄,将文档、图片等资料迅速转化为数字化的图片资料,产生电子文件;除了拍摄文档之外,它还能拍摄立体实物和进行视频录制,具有网络摄像功能。通过高拍仪的文档拍摄功能以及强大的软件,可以完成文件翻拍、书籍翻拍、投影简报展示、网络无纸传真等多种工作。
拍照设备101将获得的电子文件保存为jpg、tiff、pdf等格式,因为纸质差异(如纸张的反射或透射特性)和拍照条件(如光线、ISO感光度等因素)等因素的影响,拍照产生的电子文件可能不符合识别的要求,需要使用图像处理设备102对电子文件进行图像处理,获得符合识别要求的图像文件。通过对图像编码、增强、复位、分析等处理,实现对图像的自动倾斜校正,去黑边,去白页,加粗、去污点等。
图像处理设备102将图像文件发送给数据识别设备103。本实施例的数据识别设备103使用的是光学字符识别(OCR,Optical CharacterRecognition)方式,通过获取纸张上的文字图像信息,可以利用不同识别算法来分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中。OCR是一种快捷、省力的文字识别方式,OCR识别技术通过影像前处理,文字特征抽取,对比数据库,对比识别,字词后处理,最后结果输出。OCR不仅能识别黑白印刷体汉字,还能识别灰度和彩色印刷体汉字,识别速度很快,识别正确率达到99%以上;可识别宋体、黑体、楷体等多种字体的简、繁体;可对多种字体、不同字号的混排进行识别。OCR还能识别图像、表格等。
上述数据识别设备103可以为使用反向传播(BP,back propagation)神经网络算法的数据识别设备103;即使用BP神经网络算法来分析文字形态特征,判断出汉字的标准编码。BP神经网络算法,是一种有监督的多层前馈网络,它的学习过程由正向和反向两部分组成,正向传播过程中,输入信号从输入层经隐含层逐层处理传向输出层,每一层神经元的状态只影响下一层神经元的状态,如果在输出层不能得到期望的输出值,则把网络输出的错误归结为连接权的误差,通过把输出层单元的误差逐层向输入层反向传播以分摊给各单元,从而获得各层单元的参考误差,以便调整相应的连接权。使用该算法的识别效果好。
上述元数据为以栏目为单元的字段。因为档案数据库有自身存储的规则,每个栏目对应特定的字段,在识别出元数据后,数据处理设备104将元数据填入档案存储服务器105的档案数据库相应栏目。比如政府文件通常包括标题和文号,把标题和文号作为元数据,填入档案数据库相应栏目。
为了保存原始的电子文件,以及将电子文件与档案数据库挂接,本实施例的系统进一步包括用于保存拍照设备101产生的电子文件的文件存储服务器107,和用于将电子文件与文件存储服务器107的档案数据库挂接的文件挂接设备106,文件存储服务器107和拍照设备101连接,从拍照设备101中获取电子文件,文件挂接设备106与文件存储服务器107、档案存储服务器105连接。当对档案数据库里面的数据有疑义时,可以从文件存储服务器107中调出相应的电子文件进行复核。
本技术方案的拍照设备101对纸质档案进行拍照,获得电子文件,不需要对纸质档案进行拆卷、裱糊、重新组卷等工序,特别是对年代较为久远的历史纸质档案来说,本技术方案可以减少对纸质档案的伤害,保护纸质文档的原貌,且本技术方案可以节省人力物力,降低档案管理成本。
以上内容仅为本发明的较佳实施例,对于本领域的普通技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,本说明书内容不应理解为对本发明的限制。