CN115311671A - 一种纸质公文批量电子化的方法和系统 - Google Patents
一种纸质公文批量电子化的方法和系统 Download PDFInfo
- Publication number
- CN115311671A CN115311671A CN202210831996.5A CN202210831996A CN115311671A CN 115311671 A CN115311671 A CN 115311671A CN 202210831996 A CN202210831996 A CN 202210831996A CN 115311671 A CN115311671 A CN 115311671A
- Authority
- CN
- China
- Prior art keywords
- page
- text
- picture
- document
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012015 optical character recognition Methods 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00127—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
- H04N1/00204—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/04—Scanning arrangements, i.e. arrangements for the displacement of active reading or reproducing elements relative to the original or reproducing medium, or vice versa
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开一种纸质公文批量电子化的方法,包括以下步骤:S1:对纸质公文进行扫描得到电子图片,将扫描得到的电子图片传输至母目录中;S2:构建页面类型识别规则,利用页面类型识别规则识别同一母目录中的电子图片的页面类型,将同一页面类型的电子图片分配至同一个一级子目录中;S3:构建分组规则,根据分组规则将同一纸质公文对应的电子图片按顺序分配至同一文件包中;S4:将同一文件包中的图片按顺序转化成一份PDF文件。本方法能将大批量纸质公文快速电子化,且对顺序错误的公文可以自动纠正。
Description
技术领域
本发明涉及纸质扫描文档电子化技术领域,具体为一种纸质公文批量电子化的方法和系统。
背景技术
在信息化高度发展之前,我国政府机关大部分业务都通过线下纸质方式进行,这就使得机关单位存在很多历史的公文文件。随着政府企业信息化发展,各单位网络之间的互联互通,消息的上传下达不再拘泥于传统的纸质公文,更多采用线上形式。然而,这些历史的纸质文件在管理的时候容易破损,查找时需要根据文件名、文件类型、归档时间等信息在文件柜中一份份地查阅。当纸质文档较多时,纸质公文中会出现顺序错误的问题,给在查找和阅读纸质公文带来了很大的麻烦。
在现有技术中,通常采用先将纸质公文按顺序整理好,然后扫描呈电子图片集后转换成电子文件,但人工整理纸质公文顺序效率相对较低,而且耗费大量的人力成本。因此,有必要设计一种纸质公文批量电子化的方法和系统,以解决上述问题。
发明内容
为克服上述现有技术的不足,本发明提供一种纸质公文批量电子化的方法和系统,基于计算机模型对纸质公文扫描得到的图片进行自动分组,以达到批量整理公文顺序及公文电子化的目的。
本发明是通过以下技术方案予以实现的:
基于本发明的一个方面,提供一种纸质公文批量电子化的方法,包括以下步骤:
S1:对纸质公文进行扫描得到电子图片,将扫描得到的电子图片传输至母目录中;
S2:构建页面类型识别规则,利用页面类型识别规则识别同一母目录中的电子图片的页面类型,将同一页面类型的电子图片分配至同一个一级子目录中;
S3:构建分组规则,根据分组规则将同一纸质公文对应的电子图片按顺序分配至同一文件包中;
S4:将同一文件包中的图片按顺序转化成一份PDF文件。
在上述方案中利用扫描仪扫描将多份待电子化的纸质公文,将扫描后的图片分配母目录中;对公文电子图片按照页面类型进行识别,并按照页面类型的不同放入不同的一级子目录中;从一级子目录中获取同一份纸质公文对应的电子图片,并将同一份纸质公文对应的电子图片按顺序分配至同一文件包中,对每一个文件包中的图片按顺序转化成PDF文件,即可完成纸质公文的电子化。
进一步地,所述页面类型包括首页、尾页、正文页和单页。单页是指该电子图片对应的纸质公文仅有一页,正文页是指纸质公文中位于尾页和首页之间的页面。将不是单页的公文图片按照首页、尾页和正文页分类,以便对同一份纸质公文对应的电子图片按顺序进行排序,从而确保电子化以后的公文内页面顺序正确,正文页是指位于首页和尾页之间的页面。
进一步地,所述S2具体包括以下步骤:
S201:扫描各类型公文纸质空白模板的首页和尾页,当公文为单页公文时,只需扫描该公文的单页,得到各类型公文首页、尾页和单页的空白模板图片;
S202:选取每一所述电子公文模板中包含公文要素的矩形区域,并采用OCR技术提取所述矩形区域中所有公文要素的坐标值范围值、页号和字体特征;基于所述公文要素的坐标值范围值、页号和文本内容构建页面类型识别规则;
S203:根据页面类型识别规则识别出各电子图片的类型,并将首页图片放入首页一级子目录中,将尾页图片放入尾页一级子目录中,将单页图片放入单页一级子目录中,将正文页图片放入正文页一级子目录中。
公文的首页、尾页和单页通常具有特定的版面结构,不同页面类型的特定区域中的页码和字体特征具有差异,因此根据页面中特定坐标值范围值内的页号和文本内容可以判定页面类型;通过对空白模板图片中包含公文要素的矩形区域进行分析,可以得到首页识别规则、尾页识别规则和单页识别规则,所述页面识别规则包括坐标值范围值、页号和字体特征;提取电子图片公文要素的坐标值范围值、页号和字体特征,并将该电子图片要素区域位置特征与上述三种规则进行比对,当符合上述三种规则中的一种时,即为对应的页面类型,当与上述三种规则均不相符时,则将该电子图片判定为正文页;将识别后的所有电子图片按照首页、尾页、单页和正文页分别分配至对应的一级子目录中。
进一步地,所述S203中还包括:采用OCR技术提取正文页页码编号,并将具有相同页码编号的正文页按页码编号分配至同一正文页二级子目录中。正文页一级子目录中的电子图片中对应着多种页码编号,为了在后续分组中确保正文页是按照正确顺序放入首页和尾页之间,因此可以先提取各正文页的页码编号,并将正文页按照页码编号分配至不同的二级子目录中,例如:提取到某一正文页对应的电子图片中的页面编号为2,则将该电子图片分配至正文2二级子目录,若提取到的页面编号是3,则将该电子图片分配至正文3二级子目录,以此类推,将页面编码是n的电子图片分配至正文n二级子目录。
进一步地,所述S3具体包括:
S301:扫描纸质样本公文,得到对应的样本公文图片;
S302:采用OCR提取公文样本图片中的文本内容,通过文本内容相似度分析计算得到文本内容匹配阈值,并基于匹配阈值构建分组规则;
S303:基于分组规则对电子图片中的首页和尾页进行分组,具体为:从首页一级子目录中获取一张首页图片,并用OCR提取该首页图片中的文本内容和所有尾页图片中的文本内容,采用文本相似度计算方法计算该首页与所有尾页的文本相似度,将相似度最高且大于等于公文匹配阈值的尾页与该首页放入同一个文件包中;提取所述尾页的页码编号,若页码编号大于2,进入S304,若页码编号等于2则结束;
S304:基于分组规则对电子图片中的正文页进行分组,具体为:按照正文页二级子目录的页码编号顺序,依次提取每个正文页二级子目录中所有正文页图片中的文字内容,采用文本相似度计算方法从正文页二级子目录中筛选首页图片对应的正文页图片,并将正文页图片按页码编号放入所述文件包中的首页和尾页之间,直至该首页对应的所有正文页均被分配至该文件包中;
S305:重复S303和S304,直至所有公文图片均完成分组。
对于同一份公文,其不同页面的文本内容之间具有一定的相似度,因此可以基于相似度筛选出同一份公文对应的所有电子图片,形成一个独立的分组,并将该组对应的电子图片按顺序分配至同一文件版中,从而实现电子图片的分组和排序。
根据S2中的一级子目录分配结果,选取一张首页电子图片,提取该张首页电子图片中的文本内容,并逐一提取尾页一级子目录中所有尾页电子图片的文本内容,将所有尾页电子图片的文本内容与该首页的文本内容进行相似度分析,将相似度超过匹配阈值且为最高相似度的尾页作为该首页对应的尾页,将该首页和对应的尾页分配至同一文件包中。提取该尾页的页面编号,若页码编号为2,则说明该公文仅有两页,则针对该公文电子图片的分配过程结束;若页码编号大于2,说明该公文还存在正文页,根据尾页页码编号确定该公文正文页的页码编号,例如,若尾页编码为5,则说明该公文的正文页包括正文页2、正文页3和正文页4,分别从二级子目录中采用文本相似度分析方法匹配出该公文的正文页2、正文页3和正文页4,并按顺序将正文页2、正文页3和正文页4对应的电子图片放入至该公文首页电子图片和尾页电子图片之间,从而完成对该公文所有页面电子图片的匹配、排序和分组。
进一步地,所述S302具体包括:扫描公文样本,得到对应的公文样本图片;采用OCR提取每页样本公文中的文本内容,基于文本相似度计算方法,计算出每份样本公文中首页与尾页的文本相似度和相邻页之间的文本相似度,将最低相似度值作为公文匹配阈值;基于匹配阈值设置分组规则。具体为:根据纸质公文涉及到的具体内容,选择顺序正确、内容相似的纸质样本公文,按正确顺序扫描得到该样本公文图片,按顺序提取样本公文图片中的文本内容,将首页和尾页文本内容进行相似度分析(类似现有技术的文本查重),将最低相似度作为首页和尾页之间的文本匹配阈值;以同样的方式获得同一公文中相邻页之间的文本匹配阈值。当公文仅有两页(即首页和尾页)时,则仅需获得首页和尾页之间的文本匹配阈值。
进一步地,所述S303还包括:将单页一级子目录中的每个图片都分配至一个单独的文件包中。单页公文对应的电子图片仅有一页,因此无需进行页面匹配和排序,直接将每一个单页公文对应的电子图片作为一个文件包即可。
进一步地,在S303中若首页图片未匹配到对应的尾页图片则将该首页图片放入缺失分组中;在S304中若该首页未匹配到全部的正文页图片,则将该首页图片对应的分组放入缺失分组中。对于未匹配到尾页或正文页的公文,将其放入缺失分组中,待该批次所有公文分组完成后,可采用人工分组,或者对分组模型进行训练或矫正后重新进行分组,以确保所有公文的电子图片的分组结果的正确。
基于本发明的另一个方面,提供一种纸质公文批量电子化的系统,用于实现权利要求1至8中任一项权利要求所述一种纸质公文批量电子化的方法的步骤,其特征在于,包括扫描终端、电脑终端和服务器终端;
所述扫描终端包括扫描仪,扫描仪扫描得到的电子图片被传输至母目录中;
所述电脑终端包括公文电子化模块、公文管理模块、规则管理模块和图片管理模块,所述公文电子化模块用于将单个文件包内的电子图片按顺序合并转换成一份PDF文件,所述公文管理模块用于供用户查看和下载电子化后的公文,所述规则管理模用于作为规则构建的入口;所述图片管理模块用于作为图片识别和分组入口;
所述服务器终端包括规则构建模块、识别模块和分组模块;所述规则构建模块用于获得页面类型识别规则和分组规则;所述识别模块用于基于识别规则识别电子图片的页面类型;所述分组模块用于基于分组规则将同一份公文对应的电子图片按顺序分配至同一个文件包中。
在上述技术方案中,采用扫描仪扫描纸质公文,得到公文电子图片,所述公文电子图片被传输至电脑终端中;
通过服务器中的规则构建模块构建页面识别规则和分组规则;采用识别模块基于页面识别规则识别电子图片的页面类型,并将电子图片按照页面类型分配至一级子目录;识别模块还用于识别正文页的页码编号,并按照页码编号将正文页分配至对应的二级子目录中;分组模块基于分组规则将同一纸质公文对应的所有电子图片按顺序分配至一个文件包中,其中单页公文对应的电子图片无需进行相似度分析,可直接分为一个文件包;
公文电子化模块对文件包内的电子图片进行电子化处理,即将单个文件包内的所有图片按顺序合并转换成一份PDF文件;用户可在公文管理模块中查看和下载转换得到的PDF文件。
进一步地,所述规则构建模块包括识别规则构建单元和分组规则构建单元。
与现有技术相比,本发明的有益效果在于:
(1)本发明提供的一种纸质公文批量电子化的方法,先将扫描后的图片分配母目录中;对公文电子图片按照页面类型进行识别,并按照页面类型的不同放入不同的一级子目录中;从一级子目录中获取同一份纸质公文对应的电子图片,并将同一份纸质公文对应的电子图片按顺序分配至同一文件包中,对每一个文件包中的图片按顺序转化成PDF文件,即可完成纸质公文的电子化,本方法能将大批量纸质公文快速电子化,且对顺序错误的公文可以自动纠正,对页面缺少的公文进行提示,提升了大批纸质公文快速电子化的效率和准确性。
(2)本发明提供的一种纸质公文批量电子化的系统,在上述技术方案中,采用扫描仪扫描纸质公文,得到公文电子图片,所述公文电子图片被传输至电脑终端中;通过服务器中的规则构建模块构建页面识别规则和分组规则;采用识别模块基于页面识别规则识别电子图片的页面类型,并将电子图片按照页面类型分配至一级子目录;识别模块还用于识别正文页的页码编号,并按照页码编号将正文页分配至对应的二级子目录中;分组模块基于分组规则将同一纸质公文对应的所有电子图片按顺序分配至一个文件包中,其中单页公文对应的电子图片无需进行相似度分析,可直接分为一个文件包;公文电子化模块对文件包内的电子图片进行电子化处理,即将单个文件包内的所有图片按顺序合并转换成一份PDF文件;用户可在公文管理模块中查看和下载转换得到的PDF文件,本系统对于电子图片的识别和分组过程完全由计算机或服务器自动完成,因此本系统的自动化程度高,能快速准确的对纸质公文对应的电子图片进行识别、分组、排序和电子化,提升了纸质公文转换成电子公文的准确性和工作效率。
附图说明
图1为根据本发明实施例的方法流程图;
图2为根据本发明实施例的自动分组流程图;
图3为根据本发明实施例的系统结构示意图。
具体实施方式
以下将结合附图对本发明各实施例的技术方案进行清楚、完整的描述,显然,所描述发实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例,都属于本发明所保护的范围。
实施例1
如图1所示,本实施例提供一种一种纸质公文批量电子化的方法,包括以下步骤:
S1:对纸质公文进行扫描得到电子图片,将扫描得到的电子图片传输至母目录中,得到母目录1;
S2:构建页面类型识别规则,利用页面类型识别规则识别同一母目录中的电子图片的页面类型,将同一页面类型的电子图片分配至同一个一级子目录中;具体包括以下步骤:
S201:扫描各类型公文纸质空白模板的首页和尾页,当公文为单页公文时,只需扫描该公文的单页,得到各类型公文首页、尾页和单页的空白模板图片;
S202:选取每一所述电子公文模板中包含公文要素的矩形区域,并采用OCR技术提取所述矩形区域中所有公文要素的坐标值范围值、页号和字体特征;基于所述公文要素的坐标值范围值、页号和文本内容构建页面类型识别规则;
S203:根据页面类型识别规则识别出各电子图片的类型,并将首页图片放入首页一级子目录中,将尾页图片放入尾页一级子目录中,将单页图片放入单页一级子目录中,将正文页图片放入正文页一级子目录中。母目录1中形成首页一级子目录1-1、尾页一级子目录1-2,单页一级子目录1-3和正文页一级子目录1-4。
优选地,基于OCR技术,分别提取各正文页一级子目录中正文页图片中的的页码编号,在正文页子目录中,根据页面编号,将正文页电子图片分配至正文页二级子目录,如:将页面编号为2的正文页分配至正文页二级子目录1-4-2中;将页面编号为3的正文页分配至正文页二级子目录1-4-3中;将页面编号为n的正文页分配至正文页二级子目录1-4-n中。从而在各个正文页一级字母中根据页码编号形成了若干正文页二级子目录。
S3:构建分组规则,根据分组规则将同一纸质公文对应的电子图片按顺序分配至同一文件包中;并按图2所示流程基于分组模型将同一纸质公文对应的电子图片按顺序分配至同一文件包中;具体包括:
S301:扫描纸质样本公文,得到对应的样本公文图片;在扫描前,必须确认纸质样本公文中各页面的排放顺序是正确的;单页公文无需扫描纸质公文样本;
S302:采用OCR提取公文样本图片中的文本内容,通过文本内容相似度分析计算得到文本内容匹配阈值,并基于匹配阈值构建分组规则;具体为:采用OCR提取每页样本公文中的文本内容,基于文本相似度计算方法,计算出每份样本公文中首页与尾页的文本相似度和相邻页之间(包括首页与正文页第一页,正文页最后一页与尾页)的文本相似度,将最低相似度值作为公文匹配阈值。根据纸质公文涉及到的具体内容,选择多份顺序正确、内容相似的纸质样本公文,按正确顺序扫描得到该样本公文图片,按顺序提取样本公文图片中的文本内容,将首页和尾页文本内容进行文本相似度分析(类似现有技术的文本查重),将最低相似度作为首页和尾页之间的文本匹配阈值;以同样的方式获得同一公文中相邻页(首页与正文页第一页;正文页最后一页与尾页;相邻正文页)之间的文本匹配阈值。当公文仅有两页(即首页和尾页)时,则仅需获得首页和尾页之间的文本匹配阈值。当公文为单页时,无需获取文本匹配阈值。
S303:从首页一级子目录中获取一张首页图片A,并用OCR提取该首页图片中的文本内容和所有尾页(B1-Bj)图片中的文本内容,采用文本相似度计算方法计算首页A与所有尾页(B1-Bj)的文本相似度,将相似度最高且大于等于公文匹配阈值的尾页与该首页放入同一个文件包中,在此过程中,若所有尾页与首页A的文本相似度均低于匹配阈值,则认为首页A未能匹配到对应的尾页,即首页A对应的公文缺少尾页,则将首页A放入缺失组中,若出现多个符合匹配要求的尾页,则将第一个匹配到的尾页放入首页A对应的文件包中;
提取所述尾页的页码编号,若页码编号大于2,进入S304,若页码编号等于2则结束;
S304:基于分组规则对电子图片中的正文页进行分组,具体为:按照正文页二级子目录的页码编号顺序,依次提取每个正文页二级子目录中所有正文页图片中的文字内容,采用文本相似度计算方法从正文页二级子目录中筛选首页图片对应的正文页图片,并将正文页图片按页码编号放入所述文件包中的首页和尾页之间,直至该首页对应的所有正文页均被分配至该文件包中;如:提取页码编号为2的正文页二级子目录中的所有电子图片的文本内容,并将首页A的文本内容与上述正文页电子图片的文本内容进行相似度分析,将相似度最大且超出匹配阈值的正文页放入首页A对应的文件包中首页的后面,以同样的方法匹配正文页页码编号3的电子图片,直至所有正文页完成匹配和分组;若首页A对应的公文正文页电子图片出现缺失,则将首页A所在的分组放入缺失页分组中。
S305:重复S303和S304,直至所有公文图片均完成分组;在分组过程中,将单页一级子目录中的每个图片都分配至一个单独的文件包中。
S4:将同一文件包中的图片按顺序转化成一份PDF文件。
实施例2
如图3所示,本实施例提供一种纸质公文批量电子化的系统,包括扫描终端、电脑终端和服务器终端;
所述扫描终端包括扫描仪,扫描仪扫描得到的电子图片被传输至母目录中;
所述电脑终端包括公文电子化模块、公文管理模块和模型管理模块;
所述公文电子化模块用于将单个文件包内的电子图片按顺序合并转换成一份PDF文件;
所述公文管理模块用于供用户查看和下载电子化后的公文;
所述电脑终端包括公文电子化模块、公文管理模块、规则管理模块和图片管理模块,所述公文电子化模块用于将单个文件包内的电子图片按顺序合并转换成一份PDF文件,所述公文管理模块用于供用户查看和下载电子化后的公文,所述规则管理模用于作为规则构建的入口;所述图片管理模块用于作为图片识别和分组入口。
所述服务器终端包括规则构建模块、识别模块和分组模块;
所述规则构建模块用于获得页面类型识别规则和分组规则;识别规则构建单元和分组规则构建单元:
识别规则构建单元,用户可以基于此单元对公文首页、尾页、单页规则进行构建。扫描纸质公文首页、尾页和单页(即公文只有一页),得到对应的多种公文模板图片。基于图像识别技术,提取出三类模板的公文要素的坐标值范围值、页号和字体特征,并基于所述坐标值范围值、页号和字体特征构建页面类型识别规则,从而得到首页识别规则、尾页识别规则、单页识别规则。所述首页识别规则包含首页空白模板图片的公文要素的坐标值范围值、页码和字体特征;所述尾页识别规则包含尾页空白模板图片的公文要素的坐标值范围值、页码和字体特征;所述正文页页识别规则包含正文页空白模板图片的公文要素的坐标值范围值、页码和字体特征。
分组规则构建单元,基于公文样本进行训练,得到公文匹配阈值。扫描公文样本,得到对应的公文图片。通过OCR提取每页公文内容,基于文本相似度计算方法,计算出每份样本公文中不同页公文内容的相似度,将计算得到的最低相似度值作为公文匹配阈值。
所述识别模块用于识别电子图片对应的页面类型;分为首页识别、尾页识别、单页识别、正文页码识别。提取电子图片的公文要素的坐标值范围值、页号和字体特征,若该电子图片公文要素的坐标值范围值、页码和字体特征符合首页识别规则(即该电子图片的公文要素的坐标值范围值、页码和字体特征分别与空白模板图片的公文要素的坐标值范围值、页码和字体特征相同),则该页公文图片为公文的首页,该页电子公文放进首页一级子目录中;以同样的方式识别尾页电子图片和单页电子图片,并将尾页电子图片放入尾页一级子目录中,将单页电子图片放入单页一级子目录中;若电子图片不符合首页识别规则、尾页识别规则和单页识别规则,则将该电子图片判定为正文页,并提取正文页页码编号,将正文页根据页码编号进行分组,放入不同的正文页二级子目录中,如:若该正文页的页码编号为n,则将该正文页分到正文页二级子目录1-4-n中。
所述分组模块用于将同一份公文对应的电子图片分配至同一个文件包中。从首页分组中提取一张首页,并提取该首页的文本内容;将该首页的文本内容与尾页分组中的所有尾页的文本内容进行相似度分析,将超过匹配阈值且匹配度最高的尾页作为该公文的尾页;如所有尾页的匹配值都低于阈值,则将该首页放到缺失分组中,并打上缺失尾页标签;如匹配到尾页,则读取尾页页码编号,得到页码数N,则该份公文一共有N页;如N=2,则该份公文只包含首页和尾页,将该首页和该尾页分到公文组;如N>2,则提取正文页二级子目录2中所有电子图片的文本内容,并计算首页电子图片文本内容与所有正文页2电子图片的文本内容的相似度,将超过匹配阈值且匹配度最高的正文页作为该首页的正文页2,并将该正文页2放入该首页所在的文件包中,且该正文页2位于文件包内的首页和尾页之间,依此类推,完成该首页对应的所有正文页的分组和排序。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案。
Claims (10)
1.一种纸质公文批量电子化的方法,其特征在于,包括以下步骤:
S1:对纸质公文进行扫描得到电子图片,将扫描得到的电子图片传输至母目录中;
S2:构建页面类型识别规则,利用页面类型识别规则识别同一母目录中的电子图片的页面类型,将同一页面类型的电子图片分配至同一个一级子目录中;
S3:构建分组规则,根据分组规则将同一纸质公文对应的电子图片按顺序分配至同一文件包中;
S4:将同一文件包中的图片按顺序转化成一份PDF文件。
2.根据权利要求1所述的一种纸质公文批量电子化的方法,其特征在于,所述页面类型包括首页、尾页、正文页和单页。
3.根据权利要求2所述的一种纸质公文批量电子化的方法,其特征在于,所述S2具体包括以下步骤:
S201:扫描各类型公文纸质空白模板的首页和尾页,当公文为单页公文时,只需扫描该公文的单页,得到各类型公文首页、尾页和单页的空白模板图片;
S202:选取每一所述电子公文模板中包含公文要素的矩形区域,并采用OCR技术提取所述矩形区域中所有公文要素的坐标值范围值、页号和字体特征;基于所述公文要素的坐标值范围值、页号和文本内容构建页面类型识别规则;
S203:根据页面类型识别规则识别出各电子图片的类型,并将首页图片放入首页一级子目录中,将尾页图片放入尾页一级子目录中,将单页图片放入单页一级子目录中,将正文页图片放入正文页一级子目录中。
4.根据权利要求3所述的一种纸质公文批量电子化的方法,其特征在于,所述S203中还包括:提取正文页码编号,并将具有相同页码编号的正文页按页码编号分配至同一正文页二级子目录中。
5.根据权利要求4所述的一种纸质公文批量电子化的方法,其特征在于,所述S3具体包括:
S301:扫描纸质样本公文,得到对应的样本公文图片;
S302:采用OCR提取公文样本图片中的文本内容,通过文本内容相似度分析计算得到文本内容匹配阈值,并基于匹配阈值构建分组规则;
S303:基于分组规则对电子图片中的首页和尾页进行分组,具体为:从首页一级子目录中获取一张首页图片,并用OCR提取该首页图片中的文本内容和所有尾页图片中的文本内容,采用文本相似度计算方法计算该首页与所有尾页的文本相似度,将相似度最高且大于等于公文匹配阈值的尾页与该首页放入同一个文件包中;提取所述尾页的页码编号,若页码编号大于2,进入S304,若页码编号等于2则结束;
S304:基于分组规则对电子图片中的正文页进行分组,具体为:按照正文页二级子目录的页码编号顺序,依次提取每个正文页二级子目录中所有正文页图片中的文字内容,采用文本相似度计算方法从正文页二级子目录中筛选首页图片对应的正文页图片,并将正文页图片按页码编号放入所述文件包中的首页和尾页之间,直至该首页对应的所有正文页均被分配至该文件包中;
S305:重复S303和S304,直至所有公文图片均完成分组。
6.根据权利要求5所述的一种纸质公文批量电子化的方法,其特征在于,所述S302具体包括:扫描公文样本,得到对应的公文样本图片;采用OCR提取每页样本公文中的文本内容,基于文本相似度计算方法,计算出每份样本公文中首页与尾页的文本相似度和相邻页之间的文本相似度,将最低相似度值作为公文匹配阈值;基于匹配阈值设置分组规则。
7.根据权利要求5所述的一种纸质公文批量电子化的方法,其特征在于,所述S303还包括:将单页一级子目录中的每个图片都分配至一个单独的文件包中。
8.根据权利要求5所述的一种纸质公文批量电子化的方法,其特征在于,在S303中若首页图片未匹配到对应的尾页图片则将该首页图片放入缺失分组中;在S304中若该首页未匹配到全部的正文页图片,则将该首页图片对应的分组放入缺失分组中。
9.一种纸质公文批量电子化的系统,用于实现权利要求1至8中任一项权利要求所述一种纸质公文批量电子化的方法的步骤,其特征在于,包括扫描终端、电脑终端和服务器终端;
所述扫描终端包括扫描仪,扫描仪扫描得到的电子图片被传输至母目录中;
所述电脑终端包括公文电子化模块、公文管理模块、规则管理模块和图片管理模块,所述公文电子化模块用于将单个文件包内的电子图片按顺序合并转换成一份PDF文件,所述公文管理模块用于供用户查看和下载电子化后的公文,所述规则管理模用于作为规则构建的入口;所述图片管理模块用于作为图片识别和分组的入口;
所述服务器终端包括规则构建模块、识别模块和分组模块;所述规则构建模块用于构建页面类型识别规则和分组规则;所述识别模块用于基于识别规则识别电子图片的页面类型;所述分组模块用于基于分组规则将同一份公文对应的电子图片按顺序分配至同一个文件包中。
10.根据权利要求9所述的一种纸质公文批量电子化的系统,其特征在于,所述规则构建模块包括识别规则构建单元和分组规则构建单元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210831996.5A CN115311671A (zh) | 2022-07-15 | 2022-07-15 | 一种纸质公文批量电子化的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210831996.5A CN115311671A (zh) | 2022-07-15 | 2022-07-15 | 一种纸质公文批量电子化的方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115311671A true CN115311671A (zh) | 2022-11-08 |
Family
ID=83857550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210831996.5A Withdrawn CN115311671A (zh) | 2022-07-15 | 2022-07-15 | 一种纸质公文批量电子化的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115311671A (zh) |
-
2022
- 2022-07-15 CN CN202210831996.5A patent/CN115311671A/zh not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101542504B (zh) | 后光学字符识别处理中的形状聚类 | |
US11182604B1 (en) | Computerized recognition and extraction of tables in digitized documents | |
CN109816118A (zh) | 一种基于深度学习模型的创建结构化文档的方法及终端 | |
CN112508011A (zh) | 一种基于神经网络的ocr识别方法及设备 | |
CN111144445B (zh) | 印刷书刊书写格式的检错方法及系统、电子设备 | |
CN112381087A (zh) | 结合rpa和ai的图像识别方法、装置、计算机设备和介质 | |
US20230058570A1 (en) | Automated data extraction and document generation | |
US7694216B2 (en) | Automatic assignment of field labels | |
CN111079709B (zh) | 一种电子单据的生成方法、装置、计算机设备和存储介质 | |
CN112860957A (zh) | 一种定值单的核对方法、介质及系统 | |
CN112417195A (zh) | 基于移动端的商标查询系统、方法及存储介质 | |
CN112445911A (zh) | 工作流程辅助装置、系统、方法及存储介质 | |
CN102637256A (zh) | 后光学字符识别处理中的形状聚类 | |
CN115311671A (zh) | 一种纸质公文批量电子化的方法和系统 | |
CN116030469A (zh) | 一种处理方法、装置、设备和计算机可读存储介质 | |
CN113269101A (zh) | 一种票据识别方法、装置和设备 | |
CN111241955B (zh) | 一种票据信息提取方法及系统 | |
CN109739981B (zh) | 一种pdf文件类别判定方法及文字提取方法 | |
CN114241485A (zh) | 房产证的信息识别方法、装置、设备及存储介质 | |
JP4807486B2 (ja) | 教材処理装置、教材処理方法および教材処理プログラム | |
CN112396046A (zh) | 信息处理装置及记录媒体 | |
JP2021033743A (ja) | 情報処理装置、文書識別方法、及び情報処理システム | |
JP2003316802A (ja) | イメージ管理システム、イメージ管理方法及びイメージ管理プログラム | |
Blomqvist et al. | Joint handwritten text recognition and word classification for tabular information extraction | |
EP0984387B1 (en) | Distinguishing between similar forms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20221108 |