CN109447019B

CN109447019B - 基于图像识别与数据库存储的纸质扫描文档电子化方法

Info

Publication number: CN109447019B
Application number: CN201811325409.5A
Authority: CN
Inventors: 钟晨; 王珂; 丁宏军; 田智嘉; 周天相
Original assignee: Harbin Institute of Technology; Shenyang Fire Research Institute of Ministry of Public Security
Current assignee: Harbin Institute of Technology; Shenyang Fire Research Institute of Ministry of Public Security
Priority date: 2018-11-08
Filing date: 2018-11-08
Publication date: 2021-05-28
Anticipated expiration: 2038-11-08
Also published as: CN109447019A

Abstract

基于图像识别与数据库存储的纸质扫描文档电子化方法，它用于纸质扫描文档电子化技术领域。本发明解决了现有方法不能从整体上提高纸质文档识别的准确率的问题。本发明着眼于含填涂信息的纸质文档，通过旋转来端正模板图像，可以对填涂信息的位置区域进行良好的定位，从而对各种方式的填涂信息进行有针对性的提取，本发明利用第三方的数据库软件进行有序地存储，以方便读取与修改，对保密性和安全性也有了更大保障，本发明将纸质文档的整体信息识别的准确率提高至98％以上，而且大大提高了软件的效率。本发明可以应用于纸质扫描文档电子化技术领域用。

Description

基于图像识别与数据库存储的纸质扫描文档电子化方法

技术领域

本发明属于纸质扫描文档电子化技术领域，具体涉及一种纸质扫描文档电子化的方法。

背景技术

在许多企业生产经营过程中，不仅需要填写纸质文档，有时更重要的是将其存储为电子文档，能够快速调用相关信息，因此扫描文档的电子化一直是一个研究热点。工人在流水线上对产品的情况进行记录，需要保证数据的准确性、规范性、可读性，因此填涂卡是一种很好的选择，相较于直接手写数字，填涂信息能够更方便地被机器识别，这在一些学生考试中也得到了体现。但固定、死板的填涂卡无法与文字结合保存丰富、直观的信息，因此，在企业管理中，带有填涂信息的文档一直不被重视。

带有填涂信息的纸质文档的电子化往往需要用到图像处理实现，如传统的OCR技术着眼于文本内容的识别，而由于纸质文档的数据往往较为庞大，不同的算法也只能针对性地识别不同的内容，目前并没有一个合适的方法能够从整体上提高纸质文档的识别准确率。

发明内容

本发明的目的是为解决现有方法不能从整体上提高纸质文档识别的准确率的问题。

本发明为解决上述技术问题采取的技术方案是：

基于图像识别与数据库存储的纸质扫描文档电子化方法，该方法包括以下步骤：

步骤一、利用关系型数据库系统软件建立纸质文档电子化软件系统数据库；

步骤二、读取目标任务单电子文档，将目标任务单电子文档中的关键字存入步骤一建立的纸质文档电子化软件系统数据库；

步骤三、读取描述表，并利用描述表中关键字对应的信息来替换记录表中相应位置，生成空白的具有关键字信息的一系列记录表，供工作人员填涂；

步骤四、扫描步骤三填涂好的一系列记录表形成扫描图像，并将扫描图像作为模板图像读取，框选模板图像中每个需要读取的区域，将每个框选区域的顶点坐标位置和数据格式自动存入建立的纸质文档电子化软件系统数据库，并将框选后的模板图像存入建立的纸质文档电子化软件系统数据库；

步骤五、针对每张框选后的模板图像，再分别利用一个最大框框出每张模板图像中的全部需要读取的区域，利用霍夫变换找到最大框的最长直线，提取出最大框的上侧两个顶点的坐标位置；同理，提取出最大框的下侧两个顶点的坐标位置；

并通过旋转使模板图像端正，将端正后的最大框的顶点坐标位置存入建立的纸质文档电子化软件系统数据库；

步骤六、基于twain协议控制扫描仪、设置分辨率，扫描步骤五端正后的模板图像生成目标图片，并将目标图片存入电脑的文件夹；

步骤七、调取步骤四中每个框选区域的顶点坐标位置信息和数据格式信息，并将所调取的顶点坐标位置信息和数据格式信息应用于步骤六生成的目标图片，将目标图片上的填涂数据对应的数字数据或文本数据存入建立的纸质文档电子化软件系统数据库；

步骤八、利用步骤二的关键字、步骤三的关键字信息、步骤七的数字数据和文本数据，生成电子检测报告。

本发明的有益效果是：本发明的基于图像识别与数据库存储的纸质扫描文档电子化方法，本发明着眼于含填涂信息的纸质文档，通过旋转来端正模板图像，可以对填涂信息的位置区域进行良好的定位，从而对各种方式的填涂信息进行有针对性的提取，本发明利用第三方的数据库软件进行有序地存储，以方便读取与修改，对保密性和安全性也有了更大保障，本发明将纸质文档的整体信息识别的准确率提高至98％以上，而且大大提高了软件的效率。

附图说明

图1是本发明的基于图像识别与数据库存储的纸质扫描文档电子化方法的流程图；

图2为纸质文档电子化软件在Microsoft Visual Studio2010中的开发过程的截图；

图3为纸质文档电子化软件的运行效果示意图；

图4是本发明载入模板图像操作对应的截图，

图5是采用本发明的方法识别新图像的示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步的说明，但并不局限于此，凡是对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的保护范围中。

具体实施方式一：结合图1说明本实施方式。本实施方式所述的基于图像识别与数据库存储的纸质扫描文档电子化方法，该方法包括以下步骤：

与步骤二相似，此步骤主要为提取关键字信息并存入数据库，同时描述表中的信息需要用于代替记录表内空缺信息，完善记录表，使得工作人员能够根据记录表内容去记录相应数据并填涂。此步骤在功能实现上能够与步骤二进行合并，主要区别在于读取对象不同因此关键字内容不同。例如：型号关键字可能包含的信息有很多个，即很多个型号，那么工作人员填涂时就可以选择对应的填涂。

步骤五、针对每张框选后的模板图像，再分别利用一个最大框(最大框是指包含前面所有框的框)框出每张模板图像中的全部需要读取的区域，利用霍夫变换找到最大框的最长直线，提取出最大框的上侧两个顶点的坐标位置；同理，提取出最大框的下侧两个顶点的坐标位置；

提取图像定位点，扫描的文档图像由于放置纸张不严格等原因，扫描出的图片会有明显的倾斜，且不同图片倾斜程度不一，因此当模板与新的图片直接匹配时会出现较大误差，同一框选位置不能对齐，这影响了后续的内容识别。而记录表的有效内容均在最大表格框内，因此通过定位最大表格框的四个顶点，再将其旋转到正中位置，可以将模板与新图片较完美匹配到一起，减小误差。

扫描新图像，基于twain协议，能够自己开发扫描仪的控制程序，本程序主要对扫描的纸张大小、分辨率等进行可选择定义，用户可以通过下拉控件选择合适的分辨率，完成扫描，在这一步骤中，图像的顺序需要与模板顺序一一对应，使得训练过程得到的框选区域能够对应到新图像目标区域；

具体实施方式二：本实施方式对实施方式一所述的基于图像识别与数据库存储的纸质扫描文档电子化方法进行进一步的限定，所述步骤一的具体过程为：

安装使用关系型数据库系统软件SQL server 2008，建立个人账户和密码，在程序中，将访问数据库部分的账户和密码分别替换为建立的个人账户和密码，完成纸质文档电子化软件系统数据库的建立；使得程序能够自动访问数据库，快速写入、读取数据，纸质文档电子化软件系统数据库中相应数据按照库、表、关键字与信息的自上而下方式存储，不同的表格依据名称存于不同的表，文档内的有效内容通过关键字与信息的方式一一对应，通过关键字名称快速映射到信息。

具体实施方式三：本实施方式对实施方式二所述的基于图像识别与数据库存储的纸质扫描文档电子化方法进行进一步的限定，所述步骤二的具体过程为：

采用逐行匹配的方式读取目标任务单电子文档，在逐行匹配目标任务单电子文档的过程中，利用预先于程序定义的关键字，找到目标任务单电子文档中包含的关键字，并将关键字存入建立的纸质文档电子化软件系统数据库。

其关键字名称以及位置不会变动，但信息会因为单位的不同、日期的不同等产生明显差异，通过自定义编码，使得同一信息在不同文档处有一致的表达方式，如p1r1代表page1的第一项，通过读取通知单，得到编码与实际值的对应关系，快速替换目标记录表内相应的信息。

具体实施方式四：本实施方式对实施方式三所述的基于图像识别与数据库存储的纸质扫描文档电子化方法进行进一步的限定，所述步骤四的具体过程为：

扫描步骤三填涂好的一系列记录表形成扫描图像，将扫描图像按照顺序放置到同一文件夹下，并将扫描图像作为模板图像读取，将模板图像置于纸质文档电子化软件的左侧图像控件区域，在图像控件区域内对模板图像进行编辑操作，即对于模板图像中每个需要读取的区域，分别通过按住鼠标左键来确定框的初始左上角位置，按住并拖动鼠标来确定框的右下角位置，将所选的全部矩形框区域作为模板图像的有效信息位置；

全部矩形框的顶点坐标位置均显示在纸质文档电子化软件的界面右侧，全部框选后对框选区域的数据格式进行选择；即框选区域的填涂数据会有横向与纵向的区别、带小数点与不带的区别、纯数字与文本二选一的区别等，所有的数据格式已经预先定义好，操作过程中只需要框选目标区域然后在右侧下拉框内选择对应的数据格式。并将框选后的模板图像存入建立的纸质文档电子化软件系统数据库。

具体实施方式五：本实施方式对实施方式四所述的基于图像识别与数据库存储的纸质扫描文档电子化方法进行进一步的限定，所述步骤五中通过旋转使模板图像端正，将端正后的最大框的顶点坐标位置存入建立的纸质文档电子化软件系统数据库，其具体过程为：

将通过霍夫变换找到的直线上的点的坐标分布最小化，得到旋转的角度；将整张模板图像按照求得的旋转角度进行旋转，即得到消除倾斜后的模板图像；将端正后的最大框的顶点坐标位置存入建立的纸质文档电子化软件系统数据库。

具体实施方式六：本实施方式对实施方式五所述的基于图像识别与数据库存储的纸质扫描文档电子化方法进行进一步的限定，所述步骤七的具体过程为：

调取步骤四中每个框选区域的顶点坐标位置信息和数据格式信息，并将步骤六生成的目标图片置于纸质文档电子化软件的左侧图像控件区域，自动在目标图片上框选需要识别的目标区域，针对调取的数据格式信息，将目标区域的填涂数据转换为对应的数字数据或文本数据，并将得到的数字数据或文本数据存入建立的纸质文档电子化软件系统数据库。

具体实施方式七：本实施方式对实施方式六所述的基于图像识别与数据库存储的纸质扫描文档电子化方法进行进一步的限定，所述针对调取的数据格式信息，将目标区域的填涂数据转换为对应的数字数据或文本数据，其具体过程为：

数据格式信息表明填涂数据为纯数字信息时，通过对填涂区域进行等分，计算被填涂位置离中心线的距离来得到相应数字数据表示；

数据格式信息表明填涂数据为“是”和“否”的二选一(是指待填涂的信息只有是和否两种选择，并且只能选其中一个)类型时，只需要判断填涂的部分在中心线左侧或右侧即可。

本发明的纸质文档电子化软件的具体开发过程介绍如下：

如图2所示为本软件在Microsoft Visual Studio2010中的开发过程截图，本软件基于MFC(Microsoft Foundation Classes)，即微软基础类库，是c++与Windows API的结合，很彻底的用C++封装了Windows SDK(Software Development Kit，软件开发工具包)中的结构和功能，还提供了一个应用程序框架，此应用程序框架为软件开发者完成了一些例行化的工作，比如各种窗口、工具栏、菜单的生成和管理等，不需要开发者再去解决那些很复杂很乏味的难题，比如每个窗口都要使用Windows API注册、生成与管理。这样就大大减少了软件开发者的工作量，提高了开发效率。

纸质文档电子化软件的运行效果图如图3所示：

本软件为单窗口界面，主窗口中的控件负责了所有主要功能，主要是静态文本框、编辑框、按钮控件、列表框控件、图片控件等。

开发过程中控件由工具箱拖动到相应位置即可，控件可右键编辑属性，对其caption进行编辑可修改其显示的名称，右上角的八大功能均为按钮控件，修改其caption，使得其完成的功能直观显示出来。双击按钮控件，对其按下时完成的功能在代码中补全。

每个控件都有其独一无二的ID，代码内部对不同的ID可操作不同的控件对象。如双击“读取任务单”按钮，自动生成

_readRWBDataFromWord()函数为自己定义的功能，可申明并定义完善所需要实现的功能。这里调用Word的接口，对读取word文档进行了操作，并连接数据库，将信息存入其中。

“读取描述表生成空记录表”，与上面相似，也是对word文档进行操作。

“载入训练图像”与左侧图像控件进行连接，将图片显示在左侧，可通过“下一页”“前一页”按钮对左侧显示的页面进行切换，并下拉“读取修改顺序”来设定当前框选区域的读取方式，在图像控件区域利用鼠标进行框选，会将所框选区域的信息显示在界面下方的“采集区域”内，“保存本页映射”将所有操作信息存入数据库。对载入图像依次操作，即可保存模板信息。

此按钮封装三个函数，分别完成读取记录表、初始化图像、将图像置于左侧图像控件的功能。

图4是载入模板图像这步操作对应的截图，可以进行图4右侧的各种操作，图4左侧消防应急标志灯具检验记录表中包括受检企业、产品型号、检验项目、核准号、试验方法及要求、试样编号、主要标志、设备编号。消防应急标志灯具标志图案及测量点和应急状态表面亮度。

读取训练图像后，扫描新图像，模板中预存的定位框位置、信息的存储格式被读取，在新图片的相应位置进行算法识别，识别的内容在右侧“识别结果”的编辑框中以数字值的形式呈现，如图5所示，右边的识别结果也有了相应的值。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.基于图像识别与数据库存储的纸质扫描文档电子化方法，其特征在于，该方法包括以下步骤：

步骤一、利用关系型数据库系统软件建立纸质文档电子化软件系统数据库；其具体过程为：

安装使用关系型数据库系统软件SQL server 2008，建立个人账户和密码，在程序中，将访问数据库部分的账户和密码分别替换为建立的个人账户和密码，完成纸质文档电子化软件系统数据库的建立；

2.根据权利要求1所述的基于图像识别与数据库存储的纸质扫描文档电子化方法，其特征在于，所述步骤二的具体过程为：

3.根据权利要求2所述的基于图像识别与数据库存储的纸质扫描文档电子化方法，其特征在于，所述步骤四的具体过程为：

全部矩形框的顶点坐标位置均显示在纸质文档电子化软件的界面右侧，全部框选后对框选区域的数据格式进行选择；并将框选后的模板图像存入建立的纸质文档电子化软件系统数据库。

4.根据权利要求3所述的基于图像识别与数据库存储的纸质扫描文档电子化方法，其特征在于，所述步骤五中通过旋转使模板图像端正，将端正后的最大框的顶点坐标位置存入建立的纸质文档电子化软件系统数据库，其具体过程为：

5.根据权利要求4所述的基于图像识别与数据库存储的纸质扫描文档电子化方法，其特征在于，所述步骤七的具体过程为：

6.根据权利要求5所述的基于图像识别与数据库存储的纸质扫描文档电子化方法，其特征在于，所述针对调取的数据格式信息，将目标区域的填涂数据转换为对应的数字数据或文本数据，其具体过程为：

数据格式信息表明填涂数据为“是”和“否”的二选一类型时，只需要判断填涂的部分在中心线左侧或右侧即可。