CN109598228B - 将纸质文件电子化著录归档的方法和系统 - Google Patents

将纸质文件电子化著录归档的方法和系统 Download PDF

Info

Publication number
CN109598228B
CN109598228B CN201811450185.0A CN201811450185A CN109598228B CN 109598228 B CN109598228 B CN 109598228B CN 201811450185 A CN201811450185 A CN 201811450185A CN 109598228 B CN109598228 B CN 109598228B
Authority
CN
China
Prior art keywords
identification
content
title
electronic file
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811450185.0A
Other languages
English (en)
Other versions
CN109598228A (zh
Inventor
郝敬全
乔永华
马述杰
刘加波
柳宇刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taihua Wisdom Industry Group Co Ltd
Original Assignee
Taihua Wisdom Industry Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taihua Wisdom Industry Group Co Ltd filed Critical Taihua Wisdom Industry Group Co Ltd
Priority to CN201811450185.0A priority Critical patent/CN109598228B/zh
Publication of CN109598228A publication Critical patent/CN109598228A/zh
Application granted granted Critical
Publication of CN109598228B publication Critical patent/CN109598228B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请公开了一种将纸质文件电子化著录归档的方法和系统,涉及数字信息传输技术领域,方法包括:对纸质文件进行扫描;对电子文件进行校验;对识别标题、识别内容以及识别标题和识别内容的相对位置进行配置;形成识别内容配置库;形成语法语义检查规则;对电子文件进行预处理;识别预处理通过的电子文件的标题和内容,将预处理通过的电子文件的内容与识别内容配置库中的内容进行比对,均比对成功后,将预处理通过的电子文件的标题和内容进行关联;对预处理通过的电子文件的标题和内容进行语法语义检查;根据电子文件的类型制定著录策略;根据著录策略对电子文件进行著录归档。如此,缓解了日常繁重的纸质文件的归档和核对校验工作。

Description

将纸质文件电子化著录归档的方法和系统
技术领域
本申请涉及数字信息传输技术领域,具体地说,涉及一种将纸质文件电子化著录归档的方法和系统。
背景技术
随着科技的发展和人们生活水平的提高,人们所从事的社会活动越来越丰富,所需要存档的纸质文件也越来越多,例如桥梁是现代交通运输系统中不可分割的重要部分,桥梁巡检通过对桥梁结构和构件进行检测,了解其各部位损伤程度,核定其承载能力,为桥梁的维修养护提供必要的依据。由于我国桥梁数量多,类型和规模有所不同,结构和构件差异较大,巡检周期长,因此桥梁巡检产生的资料数量大,归档繁琐,耗费大量人力物力,并且归档过程易产生错误,核对校验不方便,使得管理桥梁巡检档案成为一大难题。
发明内容
有鉴于此,本申请所要解决的技术问题是提供了一种将纸质文件电子化著录归档的方法和系统,可以将纸质文件识别成电子文件,经过语法语义检查,利用预先定制的著录策略,实现桥梁巡检资料的灵活著录归档,缓解了日常繁重的纸质文件的归档和核对校验工作。
为了解决上述技术问题,本申请有如下技术方案:
第一方面,一种将纸质文件电子化著录归档的方法,其特征在于,包括:
对纸质文件进行扫描,形成与所述纸质文件对应的电子文件,并将所述电子文件上传至文件校验模块;
根据所述电子文件的图像信息、展示方向和尺寸对所述电子文件进行校验,并将校验通过的电子文件发送至版面内容识别模块;
针对不同的所述电子文件对应的模板,对识别标题、识别内容以及所述识别标题和所述识别内容的相对位置进行配置;根据所述模板定义参考位置以及偏移量,计算出识别位置,并根据所述识别标题、识别内容、识别开始位置和结束位置形成识别内容配置库;
分别建立与所述识别标题和所述识别内容对应的识别标题词库和识别内容词库,定义所述识别标题和所述识别内容的格式和长度,并根据定义的所述识别标题和所述识别内容的格式和长度将所述识别标题和所述识别内容进行关联,形成语法语义检查规则;
对所述电子文件进行预处理;
识别预处理通过的电子文件的标题和内容,根据所述预处理通过的电子文件的类型,从所述识别内容配置库中获取与所述识别内容库对应的识别标题和识别内容,将所述预处理通过的电子文件的标题与所述识别内容配置库中的标题进行比对,并将所述预处理通过的电子文件的内容与所述识别内容配置库中的内容进行比对,均比对成功后,将预处理通过的电子文件的标题和内容进行关联;
根据所述语法语义检查规则,对预处理通过的电子文件的标题和内容进行语法语义检查;
根据电子文件的类型制定著录策略;
将通过语法语义检查的电子文件形成电子文件明细,根据所述著录策略对所述电子文件进行著录归档。
第二方面,一种将纸质文件电子化著录归档的系统,其特征在于,包括:扫描入库模块、文件校验模块,版面内容识别模块、著录策略制定模块和著录归档模块,其中,所述版面内容识别模块包括:识别内容配置模块、词库建立训练模块、电子文件预处理模块、模板法匹配识别模块和语法语义检查模块;
所述扫描入库模块,用于对纸质文件进行扫描,形成与所述纸质文件对应的电子文件,并将所述电子文件上传至文件校验模块;
所述文件校验模块,用于根据所述电子文件的图像信息、展示方向和尺寸对所述电子文件进行校验,并将校验通过的电子文件发送至版面内容识别模块;
所述识别内容配置模块,用于针对不同的所述电子文件对应的模板,对识别标题、识别内容以及所述识别标题和所述识别内容的相对位置进行配置;根据所述模板定义参考位置以及偏移量,计算出识别位置,并根据所述识别标题、识别内容、识别开始位置和结束位置形成识别内容配置库;
所述词库建立训练模块,用于分别建立与所述识别标题和所述识别内容对应的识别标题词库和识别内容词库,定义所述识别标题和所述识别内容的格式和长度,并根据定义的所述识别标题和所述识别内容的格式和长度将所述识别标题和所述识别内容进行关联,形成语法语义检查规则;
所述电子文件预处理模块,用于对所述电子文件进行预处理;
所述模板法匹配识别模块,用于识别预处理通过的电子文件的标题和内容,根据所述预处理通过的电子文件的类型,从所述识别内容配置库中获取与所述识别内容库对应的识别标题和识别内容,将所述预处理通过的电子文件的标题与所述识别内容配置库中的标题进行比对,并将所述预处理通过的电子文件的内容与所述识别内容配置库中的内容进行比对,均比对成功后,将预处理通过的电子文件的标题和内容进行关联;
所述语法语义检查模块,用于根据所述语法语义检查规则,对预处理通过的电子文件的标题和内容进行语法语义检查;
所述著录策略制定模块,用于根据电子文件的类型制定著录策略;
所述著录归档模块,用于将通过语法语义检查的电子文件形成电子文件明细,根据所述著录策略对所述电子文件进行著录归档。
与现有技术相比,本申请的将纸质文件电子化著录归档的方法和系统,达到了如下效果:
(1)本发明所提供的将纸质文件电子化著录归档的方法和系统,不需要工作人员将需要存档留底纸质文件进行收纳归档,节省了堆放资料的空间。
(2)本发明所提供的将纸质文件电子化著录归档的方法和系统,不依赖于人工将每一次需存档的纸质文件进行校验后查找相关存放地点进行归档,直接存档于互联网平台,有利于减少繁琐的工作量以及人工校验归档的错误率。
(3)本发明所提供的将纸质文件电子化著录归档的方法和系统,对纸质文件进行实时或定时或人为组卷著录,便于后续对于已存储文件的查找和阅览。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1所示为本申请实施例所提供的将纸质文件电子化著录归档的方法的一种流程图;
图2所示为按照申请实施例所提供的将纸质文件电子化著录归档的方法的另一种流程图;
图3所示为本申请实施例所提供的将纸质文件电子化著录归档的系统的结构图;
图4所示为本申请实施例所提供的将纸质文件电子化著录归档的系统中版面内容识别模块的一种构成示意图。
具体实施方式
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。此外,“耦接”一词在此包含任何直接及间接的电性耦接手段。因此,若文中描述一第一装置耦接于一第二装置,则代表所述第一装置可直接电性耦接于所述第二装置,或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本申请的较佳实施方式,然所述描述乃以说明本申请的一般原则为目的,并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。
现有技术中,人们所需要存档的纸质文件越来越多,例如桥梁是现代交通运输系统中不可分割的重要部分,桥梁巡检通过对桥梁结构和构件进行检测,了解其各部位损伤程度,核定其承载能力,为桥梁的维修养护提供必要的依据。由于我国桥梁数量多,类型和规模有所不同,结构和构件差异较大,巡检周期长,因此桥梁巡检产生的资料数量大,归档繁琐,耗费大量人力物力,并且归档过程易产生错误,核对校验不方便,使得管理桥梁巡检档案成为一大难题。
有鉴于此,本申请所要解决的技术问题是提供了一种将纸质文件电子化著录归档的方法和系统,可以将纸制桥梁巡检记录识别成电子巡检记录,经过语法语义检查,利用预先定制的著录策略,实现桥梁巡检资料的灵活著录归档,缓解日常繁重的桥梁巡检档案归档和核对校验工作。
以下结合附图和具体实施例进行详细说明。
图1所示为本申请实施例所提供的将纸质文件电子化著录归档的方法的一种流程图,请参见图1,本申请实施例提供一种将纸质文件电子化著录归档的方法,包括:
步骤101、对纸质文件进行扫描,形成与所述纸质文件对应的电子文件,并将所述电子文件上传至文件校验模块;
步骤102、根据所述电子文件的图像信息、展示方向和尺寸对所述电子文件进行校验,并将校验通过的电子文件发送至版面内容识别模块;
步骤103、针对不同的所述电子文件对应的模板,对识别标题、识别内容以及所述识别标题和所述识别内容的相对位置进行配置;根据所述模板定义参考位置以及偏移量,计算出识别位置,并根据所述识别标题、识别内容、识别开始位置和结束位置形成识别内容配置库;
步骤104、分别建立与所述识别标题和所述识别内容对应的识别标题词库和识别内容词库,定义所述识别标题和所述识别内容的格式和长度,并根据定义的所述识别标题和所述识别内容的格式和长度将所述识别标题和所述识别内容进行关联,形成语法语义检查规则;
步骤105、对所述电子文件进行预处理;
步骤106、识别预处理通过的电子文件的标题和内容,根据所述预处理通过的电子文件的类型,从所述识别内容配置库中获取与所述识别内容库对应的识别标题和识别内容,将所述预处理通过的电子文件的标题与所述识别内容配置库中的标题进行比对,并将所述预处理通过的电子文件的内容与所述识别内容配置库中的内容进行比对,均比对成功后,将预处理通过的电子文件的标题和内容进行关联;
步骤107、根据所述语法语义检查规则,对预处理通过的电子文件的标题和内容进行语法语义检查;
步骤108、根据电子文件的类型制定著录策略;
步骤109、将通过语法语义检查的电子文件形成电子文件明细,根据所述著录策略对所述电子文件进行著录归档。
具体地,本申请实施例所提供的将纸质文件电子化著录归档的方法中,通过步骤101对纸质文件进行扫描,形成与纸质文件对应的电子文件,此处纸质文件上需要后续存档识别的内容,例如可以是通过电脑填好表格后打印下来的,本申请对此内容不进行具体限定,当然,工作人员具体记录的内容可以允许手写。纸质文件经过扫描后生成电子文件并上传至文件校验模块;当所识别的文件设定其需要后续存档识别的内容需是填好表格后打印下来的,有利于后台通过光学字符识别技术对文件所需识别内容进行快速识别,加快了文件识别的速率;文件上所需记录的内容支持手写,便于在不同的工作环境和条件下简便快捷的实现对文件内容的记录。
当收到上传的电子文件后,通过步骤102,根据电子文件的图像信息、展示方向和尺寸对电子文件进行校验,并将校验通过的电子文件发送至版面内容识别模块,需要说明的是,该步骤102相当于对扫描上传的电子文件进行初步的处理,对其清晰度、展示方向和尺寸等信息进行校验,本申请对此内容并不做具体限定,校验通过的电子文件将进行存储入库操作,进而将电子文件发送至版面内容识别模块,若校验不通过,则会发出反馈。这一步骤对扫描上传的电子文件事先进行清晰度、展示方向和尺寸等信息的校验,可以提前避免无法识别的电子文件进入后续的识别流程,以此提高文件识别、归档的效率,减少工作所用的时间。
当版面内容识别模块收到电子文件后,通过步骤103,针对不同的电子文件对应的模板,对识别标题、识别内容以及识别标题和识别内容的相对位置进行配置,本申请对此内容并不做具体限定,用户可以自定义识别标题、识别内容以及其相对位置。根据模板定义参考位置以及偏移量,计算出识别位置,并根据识别标题、识别内容、识别开始位置和结束位置并形成识别内容配置库。此步骤对于所上传的文件的识别标题、识别内容以及识别标题和识别内容的相对位置进行前期的配置,对于工作中多次上传同一配置的文件时,加快了电子文件识别的效率,无需每上传一次文件,设定一次此识别信息,实现了文件上传后的快速识别。
通过步骤104,分别建立与识别标题和识别内容对应的识别标题词库和识别内容词库,例如识别标题词库为需要识别的文字,识别内容词库可包含26个大写英文字母、0-9数字字符以及所需使用的特殊符号,本申请对此内容并不做具体限定,用户可以自定义识别标题词库和识别内容词库;定义识别标题和识别内容的格式和长度,识别标题的格式、长度和内容是固定的,识别内容的格式和长度固定,内容不固定,本申请对此内容并不做具体限定,用户可以根据具体情况自定义所需识别的标题、内容的长度和格式,并根据定义的识别标题和识别内容的格式及长度将识别标题和识别内容进行关联,形成语法语义检查规则;将实际存在的需记录存档的事物的编号、类型编号和日期放进识别训练集,训练集中的内容是动态变化的,日期也随着时间变化会而改变,最后将识别标题词库、识别内容词库与训练集写入识别集,形成一个识别模型。前期形成识别模型,建立识别标题词库和识别内容词库,在文件上传,识别到所设定位置的信息后,在识别标题、识别内容的格式和长度固定的条件下,有利于提升后台对于所上传文件的识别速度,缩短了后台逐一识别的时间;识别完成后,将识别标题和识别内容进行关联,便于后续存档时识别出所上传电子文件需归档的子目录。
通过步骤105,对电子文件进行预处理,需要说明的是,此处预处理的过程例如可以对通过校验的电子文件进行展示方向和角度的矫正,增大文本和背景的对比度,进行预处理识别测试,根据识别内容配置的位置信息如果无法识别出电子文件上的信息,将采用人工方式进行去污和美化处理,若最终仍无法达到预处理识别测试的要求,电子文件将会被撤回不予识别。此处对于上传的电子文件进行预处理识别测试的步骤,有利于检测出后台无法识别的电子文件,对于无法识别的电子文件可以人为进行美化处理,以避免不清晰的文件存储后,后续所需查看时,获取不到有用的信息。
电子文件进行预处理结束后,将电子文件放入识别模型中,通过步骤106,根据预处理通过的电子文件的类型,从识别内容配置库中获取与识别内容库对应的识别标题和识别内容,将预处理通过的电子文件的标题与识别内容配置库中的标题进行比对,并将预处理通过的电子文件的内容与识别内容配置库中的内容进行比对,此处需要说明的是,步骤106需要根据识别标题的位置信息,按照字符逐一进行识别,将识别出来的字符放进识别标题词库进行核对,核对无误后,进行下一字符识别,达到此识别标题的字符长度为止,然后将单一字符组合形成识别标题信息,与识别内容配置库中标题进行比对,比对成功后,根据识别内容的位置信息,通过位置偏差,按照字符逐一进行识别,将识别出来的字符放进识别内容词库进行核对,核对无误后,进行下一字符识别,达到此识别内容的字符长度为止,然后将单一字符组合形成识别内容信息,与识别内容配置库中识别内容进行比对,均比对成功后,将识别通过的电子文件的标题和内容建立关联关系。此步骤按照字符逐一进行识别后与识别内容配置库中识别内容进行比对,避免归档过程中产生归档位置错误的情况,有利于实现电子归档的无差错化。
对于通过步骤106比对的电子文件,需要通过步骤107对预处理通过的电子文件的标题和内容进行语法语义检查;需要说明的是,此处是将电子文件放入预先配置好的语法语义检查器中,再次核对识别标题与识别内容的格式和长度,验证识别标题和识别内容的关联关系,针对提示有误的文件进行人工判断和校验,修正问题;通过语法语义检查规则的文件经生成电子记录明细,例如包括记录标识、事物编号、类型编号、日期以及电子文件存放位置等。此步骤在预先配置好的语法语义检查器中,进一步对通过预处理的电子文件进行标题、内容、格式以及存储位置等进行检查,提升了电子文件归档的正确率;进一步生成电子记录明细也有利于上传文件的工作人员对所归档位置的进一步确认。
对于语法语义检查完成的电子文件,将通过步骤108,根据电子文件的类型制定著录策略;需要说明的是,此处的著录策略主要包括实时著录、定时著录与人工著录三类,例如根据电子文件的类型、频率等信息制定著录策略,将满足著录策的文件通过语法语义检查后直接著录;或者,将满足著录策略的文件通过语法语义检查后并按照预先设定的著录时间进行著录;或者,人为按照著录条件,筛选电子文件进行著录。对于文件著录的策略给出了三种可设定的情况,便于工作人员对于不同文件的归档频率设定不同的著录归档规则,实现纸质文件的灵活归档。
步骤109,对于已经通过语法语义检查的电子文件形成电子文件明细,根据著录策略对电子文件进行著录归档,电子文件通过语法语义检查后,将形成详细的电子巡检记录明细,根据当前制定的著录策略,进行实时著录归档,或者定时著录归档,或者进行人工著录归档;对于组卷著录完成的文件,可以撤销进行二次组卷著录,再次形成电子著录明细,经过审核确认后,完成巡检资料的归档。将纸质文件电子化著录归档,避免了人工归档纸质文件的高错误率,避免了费时费力又占用大量空间的情况,也利于后续工作中所需时,对文件的快速查找。
可选地,上述步骤101中,对纸质文件进行扫描,形成与所述纸质文件对应的电子文件,进一步为:
所述纸质文件为桥梁巡检文件;所述识别标题词库包括所属桥梁、巡检类型、巡检日期;所述识别内容词库包括所属桥梁编号、巡检类型编号、巡检日期。
具体地,用户可以根据实际需求,对纸质文件的具体识别标题和识别内容做设定,例如在桥梁巡查中将桥梁巡查记录文件识别标题设置为:所属桥梁、巡检类型、巡检日期,将识别内容设置为桥梁编号、巡检类型编号、巡检日期,如此设置有利于后台通过光学字符识别技术对文件所需识别内容进行快速识别,加快了文件识别的速率。
可选地,上述步骤107中,根据所述语法语义检查规则,对预处理通过的电子文件的标题和内容进行语法语义检查,进一步为:
将所述预处理通过的电子文件的标题的格式与所述语法语义检查规则中所定义的识别标题的格式进行比较,并将所述预处理通过的电子文件的内容的格式与所述语法语义检查规则中所定义的识别内容的格式进行比较,若二者中有任一格式不一致,则校验不通过;若二者均一致,则将所述预处理通过的电子文件的标题的长度与所述语法语义检查规则中所定义的识别标题的长度进行比较,并将所述预处理通过的电子文件的内容的长度与所述语法语义检查规则中所定义的识别内容的长度进行比较,若所述预处理通过的电子文件的标题的长度超过所述语法语义检查规则中所定义的识别标题的长度,或者,所述预处理通过的电子文件的内容的长度超过所述语法语义检查规则中所定义的识别内容的长度,则校验不通过;若二者均未超过,则分别将所述预处理通过的电子文件的标题和内容的关联关系与所述语法语义检查规则中所定义的识别标题和所述识别内容的关联关系进行比较,若不一致,则检验不通过;若一致,则通过校验。
具体地,用户扫描上传后生成的电子文件,在已经通过预处理后,需要将电子文件的标题和内容的格式与语法语义检查规则中所定义的对应项目进行比较,若格式不一致,则会给出相关提示;格式一致时,对电子文件的标题和内容的长度与语法语义检查规则中所定义的对应项目进行比较,若格式不一致,则会给出相关提示;格式一致时,对电子文件的标题和内容的关联关系与语法语义检查规则中所定义的对应项目进行比较,若不一致,则校验不通过;若一致,则通过校验。语法语义检查有利于提升电子文件归档到正确位置的效率,也方便后续对于相关文件的检索。
可选地,上述步骤108中,根据电子文件的类型制定著录策略,进一步为:
所述著录策略包括实时著录、定时著录和人工著录,根据所述电子文件的类型制定著录策略,进一步为:根据所述电子文件的巡检类型、巡检频率和桥梁规模制定著录策略,将满足所述著录策略的文件通过所述语法语义检查后直接著录;或者,将满足所述著录策略的文件通过所述语法语义检查后并按照预先设定的著录时间进行著录;或者,人为按照著录条件,筛选所述电子文件进行著录。
具体地,用户可以根据自身需求,即根据所需著录归档的文件的类型、频率和规模等制定相应的著录策略,例如所需著录归档的文件类型为关于桥梁倾斜度的检测或关于桥梁破损程度的检测等,频率为每周一次或每月一次等,规模可分为大型通车桥梁或小型过人桥梁等;该著录策略包括实时著录、定时著录和人工著录,当上传的文件通过语法语义检查后,发现对此文件并没有设定具体归档时间,将会直接著录;或者按照预先设定的著录时间进行著录,例如设定一类文件的归档日期为每月1日,则此文件通过语法语义检查后会于次月1日进行著录归档;或者,人为按照著录条件,筛选电子文件进行著录。提供不同的著录归档方法,可满足不同工作类型对文件存档方式不同的要求。
可选地,上述步骤109中,将通过语法语义检查的电子文件形成电子文件明细,根据所述著录策略对所述电子文件进行著录归档,进一步为:
所述电子文件通过所述语法语义检查后,生成所述电子巡检记录明细,所述电子巡检记录明细包括所述桥梁编号、巡检类型编号、巡检日期和关联的电子巡检记录;根据制定的所述著录策略,实现对所述电子文件的著录归档。
具体地,用户上传的文件通过语法语义检查后,会生成电子巡检记录明细,该明细包括所上传的电子文件中的标题、编号和日期等内容,然后根据前期制定的著录策略,对所上传的电子文件进行著录归档。对于文件著录的策略给出了三种可设定的情况,便于工作人员对于不同文件的归档频率设定不同的著录归档规则,实现纸质文件的灵活归档,同时避免了人工归档纸质文件的高错误率,也缩减了工作时间和工作人员数量。
以下结合图2对本申请实施例所提供的将纸质文件电子化著录归档的方法进行进一步说明,图2所示为按照申请实施例所提供的将纸质文件电子化著录归档的方法的另一种流程图,请参见图2,本申请实施例提供一种将纸质文件电子化著录归档的方法,包括:
步骤201、选择对应桥梁、巡检类型和巡检内容的纸制巡检记录单,其中巡检记录单打印出桥梁编号、巡检类型编号和巡检日期,通过专用巡检app对纸制巡检记录单进行扫描,并将其上传至文件校验模块;
步骤202、根据电子文件的清晰度、展示方向和尺寸对电子文件进行校验,并将校验通过的电子文件发送至版面内容识别模块;
步骤203、对识别标题:桥梁编号、巡检类型编号、巡检日期和识别内容:桥梁编号、巡检类型编号、巡检日期的相对位置进行配置,根据模板定义参考位置以及偏移量计算出识别位置;
步骤204、分别建立识别标题词库和识别内容词库,定义识别标题和识别内容的格式和长度,并根据定义的识别内容的格式要求将识别标题和识别内容进行关联,形成语法语义检查规则;
步骤205、将上传通过审核的电子巡检记录,微调上传巡检记录的展示方向和角度矫正,增大文本与背景的对比度,进行预处理识别测试;
步骤206、将预处理完的电子巡检记录放入识别模型中,根据识别标题:桥梁编号、巡检类型编号、巡检日期和识别内容:桥梁编号、巡检类型编号、巡检日期以及他们的相对位置与识别内容配置库中的识别标题、识别内容以及其相对位置进行比对比对成功后,将识别标题和识别内容建立关联关系;
步骤207、将识别出的标题和内容信息进行语法语义检查,验证识别标题和识别内容的关联关系,生成电子记录明细,记录此条电子记录信息,包括记录标识、桥梁编号、巡检日期以及电子文件存放位置;
步骤208、根据电子巡检记录的类型制定著录策略,著录策略主要包含实时著录、定时著录与人工著录三类;
步骤209、将通过语法语义检查的电子巡检记录生成档案著录明细,根据著录策略对所述电子巡检记录进行著录归档。
具体地,本申请实施例所提供的将纸质文件电子化著录归档的方法中,通过步骤201选择对应桥梁、巡检类型和巡检内容的纸制巡检记录单,其中巡检记录单打印出桥梁编号、巡检类型编号和巡检日期,巡检内容根据巡检情况手动填写,将纸制巡检记录单通过专用巡检app对其进行扫描,并将其上传至文件校验模块。
当上传至文件校验模块后,通过步骤202对电子巡检记录进行清晰度,展示方向及尺寸进行检测,检测通过后,进行存储入库操作,检测不通过会进行反馈;将校验通过的电子文件发送至版面内容识别模块。
通过步骤203,对识别标题和识别内容进行配置,识别标题为:桥梁编号、巡检类型编号、巡检日期,识别内容为:桥梁编号、巡检类型编号、巡检日期;需要被识别的标题:桥梁编号、巡检类型编号、巡检日期参照巡检记录单左上角的相对位置设置偏移量,例如,桥梁编号标题相对左上角位置x:120px,y:150px;巡检类型编号相对左上角位置x:180px,y:150px;巡检日期标题相对左上角位置x:240px,y:150px;指定桥梁编号标题与桥梁编号内容的横向偏移量为20px,纵向偏移量为0;指定巡检类型编号标题与巡检类型编号内容的横向偏移量为30px,纵向偏移量为0;指定巡检日期标题与巡检日期内容的横向偏移量为20px,纵向偏移量为0。
通过步骤204,分别建立识别标题词库和识别内容词库,识别标题词库主要包含“桥、梁、编、号、巡、检、类、型、日、期”10个词,因此识别标题词库的规模相对较小;识别内容词库主要包含26个大写英文字母、0到9数字字符及破折号,加号;例如桥梁编号为QL+001、巡检类型编号为XJ+001和巡检日期为2030-10-01。定义每一个识别标题和识别内容的格式和长度,定义的方式是中文字符、英文字符、数字及标点符号为一个字符,格式为宋体小四号字体,所占空间为中文字符长度是20px,其它字符长度是10px。识别标题的格式、长度与内容都是固定的,识别内容的格式与长度与是固定的,内容是不固定的;并根据定义的识别内容的格式要求将每一个识别标题和识别内容进行关联,形成语法语义检查规则;将实际存在的桥梁编号、巡检类型编号和巡检日期放进识别训练集,训练集中的内容动态变化,巡检日期随着时间变化而变化,最后将识别标题词库、识别内容词库与训练集写入识别集,形成识别模型。
通过步骤205,上传通过审核的电子巡检记录,微调上传巡检记录的展示方向和角度矫正,增大文本与背景的对比度,进行预处理识别测试;根据识别内容配置的位置信息如果无法识别出对应的信息,将采用人工审核方式进行去污和美化处理,使其达到预处理识别测试要求。
通过步骤206,将预处理完的电子巡检记录放入识别模型中,根据识别标题:桥梁编号、巡检类型编号、巡检日期和识别内容:桥梁编号、巡检类型编号、巡检日期以及他们的相对位置与识别内容配置库中的识别标题、识别内容以及其相对位置进行比对比对成功后,将识别标题和识别内容建立关联关系;进一步为:根据识别标题的位置信息,按照字符逐一进行识别,将识别出来的字符放进识别标题词库进行核对,核对无误后,进行下一字符识别,达到此识别标题的字符长度为止,然后将单一字符组合形成识别标题信息,与识别内容配置库中标题进行比对,比对成功后,根据识别内容的位置信息,通过位置偏差,按照字符逐一进行识别,将识别出来的字符放进识别内容词库进行核对,核对无误后,进行下一字符识别,达到此识别内容的字符长度为止,然后将单一字符组合形成识别内容信息,与识别内容配置库中识别内容进行比对,比对成功后,将识别标题与识别内容信息建立关联关系。
通过步骤207,将识别出的标题和内容信息进行语法语义检查,验证识别标题和识别内容的关联关系,针对检查错误的,进行人工判断和校验,进一步修正识别内容,修正识别标题与识别内容不匹配的问题;检查无误的电子记录,生成电子记录明细,记录此条电子记录信息,包括记录标识、桥梁编号、巡检日期以及电子文件存放位置。
通过步骤208,根据电子巡检记录的类型制定著录策略,著录策略主要包含实时著录、定时著录与人工著录三类,即根据电子文件的巡检类型、巡检频率和桥梁规模制定著录策略,将满足著录策略的文件通过语法语义检查后直接著录;或者,将满足著录策略的文件通过语法语义检查后并按照预先设定的著录时间进行著录;或者,人为按照著录条件,筛选电子文件进行著录。
通过步骤209,将通过语法语义检查的电子巡检记录,根据设置的实时著录策略,满足著录要求的,将记录标识跟档案标识进行关联,生成档案著录明细,根据著录策略对所述电子巡检记录进行著录归档。对于组卷著录完成的,可以撤销著录进行二次组卷著录,重新形成电子著录明细,经过审核确认后,完成巡检资料的归档。
基于同一发明构思,本申请还提供一种将纸质文件电子化著录归档的系统,将纸质文件电子化著录归档的系统100的结构图请参见图3和图4,其中,图3所示为本申请实施例所提供的将纸质文件电子化著录归档的系统的结构图,图4所示为本申请实施例所提供的将纸质文件电子化著录归档的系统中版面内容识别模块的一种构成示意图,该系统100包括:扫描入库模块10、文件校验模块20,版面内容识别模块30、著录策略制定模块40和著录归档模块50,其中,版面内容识别模块30包括:识别内容配置模块301、词库建立训练模块302、电子文件预处理模块303、模板法匹配识别模块304和语法语义检查模块305;
扫描入库模块10,用于对纸质文件进行扫描,形成与所述纸质文件对应的电子文件,并将所述电子文件上传至文件校验模块20;
文件校验模块20,用于根据所述电子文件的图像信息、展示方向和尺寸对所述电子文件进行校验,并将校验通过的电子文件发送至版面内容识别模块30;
识别内容配置模块301,用于针对不同的所述电子文件对应的模板,对识别标题、识别内容以及所述识别标题和所述识别内容的相对位置进行配置;根据所述模板定义参考位置以及偏移量,计算出识别位置,并根据所述识别标题、识别内容、识别开始位置和结束位置形成识别内容配置库;
词库建立训练模块302,用于分别建立与所述识别标题和所述识别内容对应的识别标题词库和识别内容词库,定义所述识别标题和所述识别内容的格式和长度,并根据定义的所述识别标题和所述识别内容的格式和长度将所述识别标题和所述识别内容进行关联,形成语法语义检查规则;
电子文件预处理模块303,用于对所述电子文件进行预处理;
模板法匹配识别模块304,用于识别预处理通过的电子文件的标题和内容,根据所述预处理通过的电子文件的类型,从所述识别内容配置库中获取与所述识别内容库对应的识别标题和识别内容,将所述预处理通过的电子文件的标题与所述识别内容配置库中的标题进行比对,并将所述预处理通过的电子文件的内容与所述识别内容配置库中的内容进行比对,均比对成功后,将预处理通过的电子文件的标题和内容进行关联;
语法语义检查模块305,用于根据所述语法语义检查规则,对预处理通过的电子文件的标题和内容进行语法语义检查;
著录策略制定模块40,用于根据电子文件的类型制定著录策略;
著录归档模块50,用于将通过语法语义检查的电子文件形成电子文件明细,根据所述著录策略对电子文件进行著录归档。
具体地,本申请实施例所提供的将纸质文件电子化著录归档的系统中,通过扫描入库模块10对纸质文件进行扫描,形成与纸质文件对应的电子文件,此处纸质文件上需要后续存档识别的内容,例如可以是填好表格后打印下来的,本申请对此内容不进行具体限定,工作人员具体记录的内容可以允许手写,纸质文件经过扫描后生成电子文件并上传至文件校验模块20;对于所识别的文件设定其需要后续存档识别的内容需是填好表格后打印下来的,这样有利于后台通过光学字符识别技术对文件所需识别内容进行快速识别,加快了文件识别的速率;文件上所需记录的内容支持手写,便于在不同的工作环境和条件下简便快捷的实现对文件内容的记录。
当收到上传的电子文件后,通过文件校验模块20,根据电子文件的图像信息、展示方向和尺寸对电子文件进行校验,并将校验通过的电子文件发送至版面内容识别模块30,需要说明的是,该文件校验模块20相当于对扫描上传的电子文件进行初步的处理,对其清晰度、展示方向和尺寸等信息进行校验,本申请对此内容并不做具体限定,校验通过的电子文件将进行存储入库操作,进而将电子文件发送至版面内容识别模块30,若校验不通过,则会发出反馈。这一步骤对扫描上传的电子文件事先进行清晰度、展示方向和尺寸等信息的校验,可以提前避免无法识别的电子文件进入后续的识别流程,以此提高文件识别、归档的效率,减少工作所用的时间。
当版面内容识别模块30收到电子文件后,通过识别内容配置模块301,针对不同的电子文件对应的模板,对识别标题、识别内容以及识别标题和识别内容的相对位置进行配置,本申请对此内容并不做具体限定,用户可以自定义识别标题、识别内容以及其相对位置。根据模板定义参考位置以及偏移量,计算出识别位置,并根据识别标题、识别内容、识别开始位置和结束位置并形成识别内容配置库。此步骤对于所上传的文件的识别标题、识别内容以及识别标题和识别内容的相对位置进行前期的配置,对于工作中多次上传同一配置的文件时,加快了电子文件识别的效率,无需每上传一次文件,设定一次此识别信息,实现了文件上传后的快速识别。
通过步骤词库建立训练模块302,分别建立与识别标题和识别内容对应的识别标题词库和识别内容词库,例如识别标题词库为需要识别的文字,识别内容词库包含26个大写英文字母、0-9数字字符以及所需使用的特殊符号,本申请对此内容并不做具体限定,用户可以自定义识别标题词库和识别内容词库;定义识别标题和识别内容的格式和长度,识别标题的格式、长度和内容是固定的,识别内容的格式和长度固定,内容不固定,本申请对此内容并不做具体限定,用户可以根据具体情况自定义所需识别的标题、内容的长度和格式,并根据定义的识别内容的格式和长度将识别标题和识别内容进行关联,形成语法语义检查规则;将实际存在的需记录存档的事物的编号、类型编号和日期放进识别训练集,训练集中的内容是动态变化的,日期也随着时间变化会而改变,最后将识别标题词库、识别内容词库与训练集写入识别集,形成一个识别模型。前期形成识别模型,建立识别标题词库和识别内容词库,在文件上传,识别到所设定位置的信息后,在识别标题、识别内容的格式和长度固定的条件下,有利于提升后台对于所上传文件的识别速度,缩短了后台逐一识别的时间;识别完成后,将识别标题和识别内容进行关联,便于后续存档时识别出所上传电子文件需归档的子目录。
通过电子文件预处理模块303,对电子文件进行预处理,需要说明的是,此处对通过校验的电子文件进行展示方向和角度的矫正,增大文本和背景的对比度,进行预处理识别测试,根据识别内容配置的位置信息如果无法识别出电子文件上的信息,将采用人工方式进行去污和美化处理,若最终仍无法达到预处理识别测试的要求,电子文件将会被撤回不予识别。此处对于上传的电子文件进行预处理识别测试的步骤,有利于检测出后台无法识别的电子文件,对于无法识别的电子文件可以人为进行美化处理,以避免不清晰的文件存储后,后续所需查看时,获取不到有用的信息。
电子文件进行预处理结束后,将电子文件放入识别模型中,通过模板法匹配识别模块304,根据预处理通过的电子文件的类型,从识别内容配置库中获取与识别内容库对应的识别标题和识别内容,将预处理通过的电子文件的标题与识别内容配置库中的标题进行比对,并将预处理通过的电子文件的内容与识别内容配置库中的内容进行比对,此处需要说明的是,模板法匹配识别模块304需要根据识别标题的位置信息,按照字符逐一进行识别,将识别出来的字符放进识别标题词库进行核对,核对无误后,进行下一字符识别,达到此识别标题的字符长度为止,然后将单一字符组合形成识别标题信息,与识别内容配置库中标题进行比对,比对成功后,根据识别内容的位置信息,通过位置偏差,按照字符逐一进行识别,将识别出来的字符放进识别内容词库进行核对,核对无误后,进行下一字符识别,达到此识别内容的字符长度为止,然后将单一字符组合形成识别内容信息,与识别内容配置库中识别内容进行比对,均比对成功后,将识别通过的电子文件的标题和内容建立关联关系。此步骤按照字符逐一进行识别后与识别内容配置库中识别内容进行比对,避免归档过程中产生归档位置错误的情况,有利于实现电子归档的无差错化。
对于通过模板法匹配识别模块304比对的电子文件,需要通过语法语义检查模块305对预处理通过的电子文件的标题和内容进行语法语义检查;需要说明的是,此处是将电子文件放入预先配置好的语法语义检查器中,再次核对识别标题与识别内容的格式和长度,验证识别标题和识别内容的关联关系,针对提示有误的文件进行人工判断和校验,修正问题;通过语法语义检查规则的文件经生成电子记录明细,例如包括记录标识、事物编号、类型编号、日期以及电子文件存放位置等。此步骤在预先配置好的语法语义检查器中,进一步对通过预处理的电子文件进行标题、内容、格式以及存储位置等进行检查,提升了电子文件归档的正确率;进一步生成生成电子记录明细也有利于上传文件的工作人员对所归档位置的进一步确认。
对于语法语义检查完成的电子文件,将通过著录策略制定模块40,根据电子文件的类型制定著录策略;需要说明的是,此处的著录策略主要包括实时著录、定时著录与人工著录三类,例如根据电子文件的类型、频率等信息制定著录策略,将满足著录策的文件通过语法语义检查后直接著录;或者,将满足著录策略的文件通过语法语义检查后并按照预先设定的著录时间进行著录;或者,人为按照著录条件,筛选电子文件进行著录。对于文件著录的策略给出了三种可设定的情况,便于工作人员对于不同文件的归档频率设定不同的著录归档规则,实现纸质文件的灵活归档。
著录归档模块50通过,对于已经通过语法语义检查的电子文件形成电子文件明细,根据著录策略对电子文件进行著录归档,此处相当于,电子文件通过语法语义检查通过后,将形成详细的电子巡检记录明细,根据当前制定的著录策略,进行实时著录归档,或者定时著录归档,或者进行人工著录归档;对于组卷著录完成的文件,可以撤销进行二次组卷著录,再次形成电子著录明细,经过审核确认后,完成巡检资料的归档。将纸质文件电子化著录归档,避免了人工归档纸质文件的高错误率,避免了费时费力又占用大量空间的情况,也利于后续工作中所需时,对文件的快速查找。
可选地,上述扫描入库模块10中,所述纸质文件为桥梁巡检文件;所述识别标题词库包括所属桥梁、巡检类型、巡检日期;所述识别内容词库包括所属桥梁编号、巡检类型编号、巡检日期。
具体地,用户可以根据实际需求,对纸质文件的具体识别标题和识别内容做设定,例如在桥梁巡查中将桥梁巡查记录文件识别标题设置为:所属桥梁、巡检类型、巡检日期,将识别内容设置为桥梁编号、巡检类型编号、巡检日期,如此设置有利于后台通过光学字符识别技术对文件所需识别内容进行快速识别,加快了文件识别的速率。
可选地,语法语义检查模块305,进一步用于:将所述预处理通过的电子文件的标题的格式与所述语法语义检查规则中所定义的识别标题的格式进行比较,并将所述预处理通过的电子文件的内容的格式与所述语法语义检查规则中所定义的识别内容的格式进行比较,若二者中有任一格式不一致,则校验不通过;若二者均一致,则将所述预处理通过的电子文件的标题的长度与所述语法语义检查规则中所定义的识别标题的长度进行比较,并将所述预处理通过的电子文件的内容的长度与所述语法语义检查规则中所定义的识别内容的长度进行比较,若所述预处理通过的电子文件的标题的长度超过所述语法语义检查规则中所定义的识别标题的长度,或者,所述预处理通过的电子文件的内容的长度超过所述语法语义检查规则中所定义的识别内容的长度,则校验不通过;若二者均未超过,则分别将所述预处理通过的电子文件的标题和内容的关联关系与所述语法语义检查规则中所定义的识别标题和所述识别内容的关联关系进行比较,若不一致,则检验不通过;若一致,则通过校验。
具体地,用户扫描上传后生成的电子文件,在已经通过预处理后,需要将电子文件的标题和内容的格式与语法语义检查规则中所定义的对应项目进行比较,若格式不一致,则会给出相关提示;格式一致时,对电子文件的标题和内容的长度与语法语义检查规则中所定义的对应项目进行比较,若格式不一致,则会给出相关提示;格式一致时,对电子文件的标题和内容的关联关系与语法语义检查规则中所定义的对应项目进行比较,若不一致,则校验不通过;若一致,则通过校验。语法语义检查有利于提升电子文件归档到正确位置的效率,也方便后续对于相关文件的检索。
可选地,著录策略制定模块40,进一步用于:根据所述电子文件的巡检类型、巡检频率和桥梁规模制定著录策略,将满足所述著录策略的文件通过所述语法语义检查后直接著录;或者,将满足所述著录策略的文件通过所述语法语义检查后并按照预先设定的著录时间进行著录;或者,人为按照著录条件,筛选所述电子文件进行著录。
具体地,用户可以根据自身需求,即根据所需著录归档的文件的类型、频率和规模等制定相应的著录策略,例如所需著录归档的文件类型为关于桥梁倾斜度的检测或关于桥梁破损程度的检测等,频率为每周一次或每月一次等,规模可分为大型通车桥梁或小型过人桥梁等;该著录策略包括实时著录、定时著录和人工著录,当上传的文件通过语法语义检查后,发现对此文件并没有设定具体归档时间,将会直接著录;或者按照预先设定的著录时间进行著录,例如设定一类文件的归档日期为每月1日,则此文件通过语法语义检查后会于次月1日进行著录归档;或者,人为按照著录条件,筛选电子文件进行著录。提供不同的著录归档方法,可满足不同工作类型对文件存档方式不同的要求。
可选地,著录归档模块50,用于在所述电子文件通过所述语法语义检查后,生成所述电子巡检记录明细,所述电子巡检记录明细包括所述桥梁编号、巡检类型编号、巡检日期和关联的电子巡检记录;根据制定的所述著录策略,实现对所述电子文件的著录归档。
具体地,用户上传的文件通过语法语义检查后,会生成电子巡检记录明细,该明细包括所上传的电子文件中的标题、编号和日期等内容,然后根据前期制定的著录策略,对所上传的电子文件进行著录归档。对于文件著录的策略给出了三种可设定的情况,便于工作人员对于不同文件的归档频率设定不同的著录归档规则,实现纸质文件的灵活归档,同时避免了人工归档纸质文件的高错误率,也缩减了工作时间和工作人员数量。
通过以上各实施例可知,本申请存在的有益效果是:
(1)本发明所提供的将纸质文件电子化著录归档的方法和系统,不需要工作人员将需要存档留底纸质文件进行收纳归档,节省了堆放资料的空间。
(2)本发明所提供的将纸质文件电子化著录归档的方法和系统,不依赖于人工将每一次需存档的纸质文件进行校验后查找相关存放地点进行归档,直接存档于互联网平台,有利于减少繁琐的工作量以及人工校验归档的错误率。
(3)本发明所提供的将纸质文件电子化著录归档的方法和系统,对纸质文件进行实时或定时或人为组卷著录,便于后续对于已存储文件的查找和阅览。
本领域内的技术人员应明白,本申请的实施例可提供为方法、装置、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
上述说明示出并描述了本申请的若干优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求的保护范围内。

Claims (10)

1.一种将纸质文件电子化著录归档的方法,其特征在于,包括:
对纸质文件进行扫描,形成与所述纸质文件对应的电子文件,并将所述电子文件上传至文件校验模块;
根据所述电子文件的图像信息、展示方向和尺寸对所述电子文件进行校验,并将校验通过的电子文件发送至版面内容识别模块;
当所述版面内容识别模块接收到校验通过的电子文件后,针对不同的所述纸质文件对应的电子文件对应的模板,对识别标题、识别内容以及所述识别标题和所述识别内容的相对位置进行配置;根据所述模板定义参考位置以及偏移量,计算出识别位置,并根据所述识别标题、识别内容、识别开始位置和结束位置形成识别内容配置库;
分别建立与所述识别标题和所述识别内容对应的识别标题词库和识别内容词库,定义所述识别标题和所述识别内容的格式和长度,并根据定义的所述识别标题和所述识别内容的格式和长度将所述识别标题和所述识别内容进行关联,形成语法语义检查规则;
对所述校验通过的电子文件进行预处理;
识别预处理通过的电子文件的标题和内容,根据所述预处理通过的电子文件的类型,从所述识别内容配置库中获取与所述识别标题词库和识别内容词库对应的识别标题和识别内容,将所述预处理通过的电子文件的标题与所述识别标题词库中的标题进行比对,并将所述预处理通过的电子文件的内容与所述识别内容词库中的内容进行比对,均比对成功后,将预处理通过的电子文件的标题和内容进行关联;
根据所述语法语义检查规则,对预处理通过的电子文件的标题和内容进行语法语义检查;
根据电子文件的类型制定著录策略;
将通过语法语义检查的电子文件形成电子文件明细,根据所述著录策略对所述电子文件进行著录归档。
2.根据权利要求1所述的将纸质文件电子化著录归档的方法,其特征在于,所述纸质文件为桥梁巡检文件;所述识别标题词库包括所属桥梁、巡检类型、巡检日期;所述识别内容词库包括所属桥梁编号、巡检类型编号、巡检日期。
3.根据权利要求2所述的将纸质文件电子化著录归档的方法,其特征在于,根据所述语法语义检查规则,对预处理通过的电子文件的标题和内容进行语法语义检查,进一步为:将所述预处理通过的电子文件的标题的格式与所述语法语义检查规则中所定义的识别标题的格式进行比较,并将所述预处理通过的电子文件的内容的格式与所述语法语义检查规则中所定义的识别内容的格式进行比较,若二者中有任一格式不一致,则校验不通过;若二者均一致,则将所述预处理通过的电子文件的标题的长度与所述语法语义检查规则中所定义的识别标题的长度进行比较,并将所述预处理通过的电子文件的内容的长度与所述语法语义检查规则中所定义的识别内容的长度进行比较,若所述预处理通过的电子文件的标题的长度超过所述语法语义检查规则中所定义的识别标题的长度,或者,所述预处理通过的电子文件的内容的长度超过所述语法语义检查规则中所定义的识别内容的长度,则校验不通过;若二者均未超过,则分别将所述预处理通过的电子文件的标题和内容的关联关系与所述语法语义检查规则中所定义的识别标题和所述识别内容的关联关系进行比较,若不一致,则检验不通过;若一致,则通过校验。
4.根据权利要求2所述的将纸质文件电子化著录归档的方法,其特征在于,所述著录策略包括实时著录、定时著录和人工著录,根据所述电子文件的类型制定著录策略,进一步为:根据所述电子文件的巡检类型、巡检频率和桥梁规模制定著录策略,将满足所述著录策略的文件通过所述语法语义检查后直接著录;或者,将满足所述著录策略的文件通过所述语法语义检查后并按照预先设定的著录时间进行著录;或者,人为按照著录条件,筛选所述电子文件进行著录。
5.根据权利要求2所述的将纸质文件电子化著录归档的方法,其特征在于,根据所述著录策略对所述电子文件进行著录归档,进一步为:所述电子文件通过所述语法语义检查后,生成电子巡检记录明细,所述电子巡检记录明细包括所述桥梁编号、巡检类型编号、巡检日期和关联的电子巡检记录;根据制定的所述著录策略,实现对所述电子文件的著录归档。
6.一种将纸质文件电子化著录归档的系统,其特征在于,包括:
扫描入库模块、文件校验模块,版面内容识别模块、著录策略制定模块和著录归档模块,其中,所述版面内容识别模块包括:识别内容配置模块、词库建立训练模块、电子文件预处理模块、模板法匹配识别模块和语法语义检查模块;
所述扫描入库模块,用于对纸质文件进行扫描,形成与所述纸质文件对应的电子文件,并将所述电子文件上传至文件校验模块;
所述文件校验模块,用于根据所述电子文件的图像信息、展示方向和尺寸对所述电子文件进行校验,并将校验通过的电子文件发送至版面内容识别模块;
所述识别内容配置模块,用于在当所述版面内容识别模块接收到校验通过的电子文件后,针对不同的所述纸质文件对应的电子文件对应的模板,对识别标题、识别内容以及所述识别标题和所述识别内容的相对位置进行配置;根据所述模板定义参考位置以及偏移量,计算出识别位置,并根据所述识别标题、识别内容、识别开始位置和结束位置形成识别内容配置库;
所述词库建立训练模块,用于分别建立与所述识别标题和所述识别内容对应的识别标题词库和识别内容词库,定义所述识别标题和所述识别内容的格式和长度,并根据定义的所述识别标题和所述识别内容的格式和长度将所述识别标题和所述识别内容进行关联,形成语法语义检查规则;
所述电子文件预处理模块,用于对所述校验通过的电子文件进行预处理;
所述模板法匹配识别模块,用于识别预处理通过的电子文件的标题和内容,根据所述预处理通过的电子文件的类型,从所述识别内容配置库中获取与所述识别标题词库和识别内容词库对应的识别标题和识别内容,将所述预处理通过的电子文件的标题与所述识别标题词库中的标题进行比对,并将所述预处理通过的电子文件的内容与所述识别内容词库中的内容进行比对,均比对成功后,将预处理通过的电子文件的标题和内容进行关联;
所述语法语义检查模块,用于根据所述语法语义检查规则,对预处理通过的电子文件的标题和内容进行语法语义检查;
所述著录策略制定模块,用于根据电子文件的类型制定著录策略;所述著录归档模块,用于将通过语法语义检查的电子文件形成电子文件明细,根据所述著录策略对所述电子文件进行著录归档。
7.根据权利要求6所述的将纸质文件电子化著录归档的系统,其特征在于,所述纸质文件为桥梁巡检文件;所述识别标题词库包括所属桥梁、巡检类型、巡检日期;所述识别内容词库包括所属桥梁编号、巡检类型编号、巡检日期。
8.根据权利要求7所述的将纸质文件电子化著录归档的系统,其特征在于,所述语法语义检查模块,进一步用于:将所述预处理通过的电子文件的标题的格式与所述语法语义检查规则中所定义的识别标题的格式进行比较,并将所述预处理通过的电子文件的内容的格式与所述语法语义检查规则中所定义的识别内容的格式进行比较,若二者中有任一格式不一致,则校验不通过;若二者均一致,则将所述预处理通过的电子文件的标题的长度与所述语法语义检查规则中所定义的识别标题的长度进行比较,并将所述预处理通过的电子文件的内容的长度与所述语法语义检查规则中所定义的识别内容的长度进行比较,若所述预处理通过的电子文件的标题的长度超过所述语法语义检查规则中所定义的识别标题的长度,或者,所述预处理通过的电子文件的内容的长度超过所述语法语义检查规则中所定义的识别内容的长度,则校验不通过;若二者均未超过,则分别将所述预处理通过的电子文件的标题和内容的关联关系与所述语法语义检查规则中所定义的识别标题和所述识别内容的关联关系进行比较,若不一致,则检验不通过;若一致,则通过校验。
9.根据权利要求7所述的将纸质文件电子化著录归档的系统,其特征在于,著录策略制定模块,进一步用于:根据所述电子文件的巡检类型、巡检频率和桥梁规模制定著录策略,将满足所述著录策略的文件通过所述语法语义检查后直接著录;或者,将满足所述著录策略的文件通过所述语法语义检查后并按照预先设定的著录时间进行著录;或者,人为按照著录条件,筛选所述电子文件进行著录。
10.根据权利要求7所述的将纸质文件电子化著录归档的系统,其特征在于,所述著录归档模块,进一步用于在所述电子文件通过所述语法语义检查后,生成电子巡检记录明细,所述电子巡检记录明细包括所述桥梁编号、巡检类型编号、巡检日期和关联的电子巡检记录;根据制定的所述著录策略,实现对所述电子文件的著录归档。
CN201811450185.0A 2018-11-30 2018-11-30 将纸质文件电子化著录归档的方法和系统 Active CN109598228B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811450185.0A CN109598228B (zh) 2018-11-30 2018-11-30 将纸质文件电子化著录归档的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811450185.0A CN109598228B (zh) 2018-11-30 2018-11-30 将纸质文件电子化著录归档的方法和系统

Publications (2)

Publication Number Publication Date
CN109598228A CN109598228A (zh) 2019-04-09
CN109598228B true CN109598228B (zh) 2021-05-07

Family

ID=65959335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811450185.0A Active CN109598228B (zh) 2018-11-30 2018-11-30 将纸质文件电子化著录归档的方法和系统

Country Status (1)

Country Link
CN (1) CN109598228B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110443589A (zh) * 2019-08-27 2019-11-12 山东方明药业集团股份有限公司 一种电子人力资源档案生成系统及其生成方法
CN111538699A (zh) * 2020-03-31 2020-08-14 首钢京唐钢铁联合有限责任公司 一种数据归档方法及装置
CN112052749A (zh) * 2020-08-20 2020-12-08 中国建设银行股份有限公司 档案的归档方法、装置、电子设备及计算机可读存储介质
CN112416864A (zh) * 2020-11-18 2021-02-26 广东电网有限责任公司佛山供电局 一种数字化档案自动质检的方法
CN112597286A (zh) * 2020-12-11 2021-04-02 北京软通智慧城市科技有限公司 一种案件派遣处置方法、装置、电子设备和存储介质
CN112800949A (zh) * 2021-01-27 2021-05-14 刘培育 基于人工智能的纸质档案的数字化处理方法、系统及设备
CN113377902A (zh) * 2021-05-28 2021-09-10 南方电网数字电网研究院有限公司 一种数字档案著录配置方法、系统、装置和存储介质
CN116126790B (zh) * 2023-04-17 2023-07-11 百盛联合杭温铁路有限公司 铁路工程档案归档方法、装置、电子设备、存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050097080A1 (en) * 2003-10-30 2005-05-05 Kethireddy Amarender R. System and method for automatically locating searched text in an image file
CN101833545B (zh) * 2009-03-11 2015-09-09 汉王科技股份有限公司 数字资源加工过程中的数据标引方法
CN103034842A (zh) * 2012-12-05 2013-04-10 上海合合信息科技发展有限公司 一种方便电子化的专业笔记本及其电子缩略图显示方法
CN108805519B (zh) * 2018-05-18 2021-09-28 赵崇标 纸质日程表电子化生成方法、装置及电子日程表生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
UOCR: A ligature based approach for an Urdu OCR system;Toflk Ali,and etc;《2016 3rd International Conference on Computing for Sustainable Global Development (INDIACom)》;20161031;第388-394页 *

Also Published As

Publication number Publication date
CN109598228A (zh) 2019-04-09

Similar Documents

Publication Publication Date Title
CN109598228B (zh) 将纸质文件电子化著录归档的方法和系统
US6885769B2 (en) Business form handling method and system for carrying out the same
US8233751B2 (en) Method and system for simplified recordkeeping including transcription and voting based verification
US7203663B1 (en) System and method for converting information on paper forms to electronic data
US10049096B2 (en) System and method of template creation for a data extraction tool
US20120189999A1 (en) System and method for using optical character recognition to evaluate student worksheets
US20050207635A1 (en) Method and apparatus for printing documents that include MICR characters
WO2006002009A2 (en) Document management system with enhanced intelligent document recognition capabilities
CN112052749A (zh) 档案的归档方法、装置、电子设备及计算机可读存储介质
US9483220B2 (en) Image processing system, management system, image processing apparatus and method of proofreading document
CN103020119A (zh) 将纸版简历转化为电子版的转化方法、装置与系统
CN109740473B (zh) 一种基于阅卷系统的图片内容自动标记方法及系统
CN115116068B (zh) 一种基于ocr的档案智能归档系统
US20160328374A1 (en) Methods and Data Structures for Improved Searchable Formatted Documents including Citation and Corpus Generation
KR102400058B1 (ko) 민원서류 처리 방법 및 시스템
CN111680487B (zh) 实时在线校验归档文件的方法及设备
WO2019223073A1 (zh) 合同备案方法、装置、计算机设备和存储介质
CN111159997B (zh) 一种企业投标文档的智能校验方法
CN103425976B (zh) 一种临床病例报告表识别系统及识别方法
CN117493712B (zh) Pdf文档可导航目录提取方法、装置、电子设备及存储介质
CN111046864A (zh) 一种合同扫描件五要素自动提取方法及系统
CN117611363B (zh) 凭证在线校验方法及介质
CN115640952B (zh) 一种数据导入上传的方法及系统
JP4232316B2 (ja) Ocr用印字データの正当性検証システム
CN115331248A (zh) 结合语音识别与ocr识别的文档图像结构化录入平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant