CN115512379A

CN115512379A - 一种识别提取纸质文本中复选框勾选结果的方法及系统

Info

Publication number: CN115512379A
Application number: CN202211026620.3A
Authority: CN
Inventors: 王永胜; 冯伟华; 宗国浩; 王迪; 王锐; 刘亚丽; 胡斌; 贾楠; 郑新章
Original assignee: Zhengzhou Tobacco Research Institute of CNTC
Current assignee: Zhengzhou Tobacco Research Institute of CNTC
Priority date: 2022-08-25
Filing date: 2022-08-25
Publication date: 2022-12-23

Abstract

本发明涉及一种识别提取纸质文本中复选框勾选结果的方法及系统，采用基于MBR算法对特征区域进行规则化处理，以增强MSER算法对调查问卷特征候选区域检测效果。另一方面，结合调查问卷图像中复选框的几何信息，如复选框长宽比、区域像素数量以及像素阈值等，设计的候选框抑制策略可以将复选框提取时存在的嵌套重合的区域进行合并或者剔除，从而提高调查问卷中复选框勾选结果的检测识别效果。

Description

一种识别提取纸质文本中复选框勾选结果的方法及系统

技术领域

本发明涉及一种识别提取纸质文本中复选框勾选结果的方法及系统，属于图像识别技术领域，尤其涉及带有复选框的文本内容的识别。

背景技术

调查问卷一般都依赖人工方式对回收来的问卷进行信息统计和分析，存在经济成本高、操作繁琐、信息统计效率低等问题。基于图像识别技术对问卷内容进行识别和收集逐渐发展。目前，采用传统的OCR文本识别技术对调查问卷复选框勾选结果进行自动识别和统计时，由于拍摄扫描设备的分辨率不同、环境光照不均匀、排放位置不同等因素的影响，以及纸质文本图像本身存在阴影、倾斜、变形等问题，导致对调查问卷复选框勾选结果识别的准确度影响很大。此外，由于调查问卷中复选框空间有限，而且人们在复选框内勾选时的手写习惯差异也千差万别，手写内容和复选框往往会出现交叠、出界甚至错开的现象，很容易引起识别错误。

纸质调查问卷中备选答案往往通过用户在复选框上勾选“√”或者“×”等手写符号来标识，但是由于复选框空间有限，如何提取手写符号与复选框交叠、甚至出界和错开的版面特征区域对检测识别结果有着非常重要的作用。MSER和NMS算法是常用的图像特征提取方法，其中MSER算法是基于灰度图的检测算法，通过对不同阈值下的图像进行分析，在不断改变阈值的过程中，会得到一系列的最大稳定极值区域；NMS算法是一种非极大抑制筛选候选框的方法，通过筛选去除重复区域，可以找到最佳的检测位置。但是采用传统的MSER+NMS算法在进行调查问卷复选框提取时存在嵌套重合的不规则框和多余候选框，这给检测识别结果带来了一定的影响。

发明内容

本发明的目的是提供一种识别提取纸质文本中复选框勾选结果的方法及系统，用以解决现有技术在面对带有复选框内容的文本识别中，复选框选择内容识别准确度低的问题。

为实现上述目的，本发明的方案包括：

本发明的一种识别提取纸质文本中复选框勾选结果的方法的技术方案，包括如下步骤：

1)获取待识别文本图像，将待识别文本图像灰度化，并进行预处理，得到检测出最大边缘轮廓的处理后图像；

2)对所述处理后图像进行特征检测，以获得包含复选框的特征区域；

3)根据复选框的矩形特点对所述特征区域进行规则化处理，得到待识别复选框的候选区域；

4)结合复选框几何信息，对所述候选框区域进行过滤，剔除掉不符合复选框几何信息的候选区域，得到待识别区域；

5)对待识别区域进行复选框勾选结果的识别。

本发明考虑到针对带有复选框文本的复选框勾选结果的识别时，加入复选框几何特征，能够更加准确的提取出带有复选框的待识别区域，提高了纸质文本中复选框勾选结果检测识别的效率和精准度，实现了调查问卷勾选文本信息统计的自动化和智能化。

进一步的，所述步骤4)中，对所述候选框区域进行过滤还包括采用NMS算法，基于交并比剔除掉叠合嵌套的候选框区域。

采用成熟的NMS算法，基于交并比剔除掉重复嵌套的候选框区域，有助于提高提取带有复选框的待识别区域的准确性，避免重复提取，能够提高复选框勾选结果的检测准确性和效率。

进一步的，所述步骤4)中，对所述候选框区域进行过滤得到待识别区域的方法包括如下步骤：将当前候选区域集合中，置信度最高的候选区域移动至待识别区域集合；将候选区域集合中其他候选区域与该置信度最高的候选区域求出交并比，将交并比大于设定交并比阈值的其他候选区域剔除，得到新的候选区域集合；新的候选区域集合作为当前候选区域集合并重复上述步骤，直到当前候选区域集合为空。

本发明在针对候选区域过滤时，首选选取置信度最高的候选区域，然后将与当前置信度最高的候选区域重叠达到一定程度的其他候选区域删除，将当前置信度最高的候选区域放入待识别区域集合，然后继续提取候选区域集合中当前置信度最高的候选区域，并重复上述步骤，有助于提高处理效率，避免重复提取。

进一步的，所述步骤4)中，所述复选框几何信息包括复选框的长宽比和复选框在所述候选区域的像素数量。

进一步的，对所述候选框区域进行过滤得到待识别区域的方法步骤中：交并比不大于设定交并比阈值的其他候选区域，还将其长宽比与设定的复选框长宽比阈值相比，以及将其像素数与设定的像素数阈值相比；将长宽比不等于长宽比阈值或像素数不等于像素数阈值的其他候选区域剔除。

根据长宽比和像素数这两个复选框的几何特征，对候选区域进行筛选，能够增加提取的准确度，并且能够提高处理效率，避免重复提取。

进一步的，所述预处理包括：灰度化后的二值化处理，以及采用双边滤波对二值化处理后的图像进行平滑去噪处理。

进一步的，所述预处理还包括，采用Canny边缘检测算法对平滑去噪处理后的图像进行边缘检测，并配合俯视膨胀操作使图像的边缘闭合。

进一步的，所述步骤2)中，采用MSER算法进行特征检测。

进一步的，所述步骤3)中，采用MBR算法进行规则化处理，将所述特征区域的最小外接矩形作为候选区域。

考虑到复选框矩形的集合特点，采用最小外接矩形法(MBR)对特征区域规则化，有助于提高后续处理效率，且能够提高提取准确度。

本发明的一种识别提取纸质文本中复选框勾选结果的系统，包括存储器、处理器和存储在存储器中可供处理器运行的程序指令，其中处理器用于执行所述程序指令以实现如上所述的识别提取纸质文本中复选框勾选结果的方法的步骤。

附图说明

图1是本发明基于MBR算法对MSER提取结果规则化处理的流程示意图；

图2是本发明基于改进的NMS算法的待识别候选区域过滤流程示意图；

图3是本发明整体算法流程图；

图4是本发明的系统架构示意图。

具体实施方式

下面结合附图对本发明做进一步详细的说明。

方法实施例：

本发明主要从以下两个方向进行改进，一方面采用基于MBR算法对特征区域进行规则化处理，以增强MSER算法对调查问卷特征候选区域检测效果。另一方面，结合调查问卷图像中复选框的几何信息，如复选框长宽比、区域像素数量以及像素阈值等，设计的候选框抑制策略可以将复选框提取时存在的嵌套重合的区域进行合并或者剔除，从而提高调查问卷中复选框勾选结果的检测识别效果。

本发明的一种识别提取纸质文本中复选框勾选结果的方法，具体包括如下步骤：

步骤S1：通过扫描或拍照等手段获取调查问卷图像。

步骤S2：对调查问卷图像进行灰度化和二值化处理。

步骤S3：采用双边滤波对步骤S2中处理后的图像进行平滑去噪处理，进一步的采用Canny边缘检测算法对调查问卷图像进行边缘检测，并对图像进行腐蚀膨胀操作，尽量使图像的边缘闭合，从而检测到图像的最大边缘轮廓。

步骤S4：对S3获得的图像结果进行透视变换，并采用基于MBR算法思想的MSER改进算法对S3中的图像进行最稳定极值区域检测，获取待识别目标轮廓的最小外接矩形，并对外接矩形计算透视变换矩阵，以此对采用MSER算法得到的不规则化区域，进行规则化处理。通过矫正等操作，可进一步提取各文字特征候选区域以及复选框区域、手写符号区域，并获取各特征区域的坐标信息。

采用MSER算法检测会得到一系列的最大稳定极值区域，其中许多嵌套的最大稳定极值区域作为待识别目标特征区域的候选区域，采用传统的MSER算法提取的结果可能是不同形状和任意大小的规则和不规则区域，待识别的字符、复选框边界不明显，且检测得到的若干连通区域，包含了包括不同形状和任意大小的规则和不规则区域，如椭圆形区域、弧形区域等。

由于调查问卷图像中的复选框一般为规则的矩形框，例如长宽比为1：1的正方形框，因此可以通过对MSER提取的不规则区域进行规则化处理以以提高提取准确度。本发明所采用的方法是基于MBR算法思想对MSER算法进行改进，实现最大稳定极值区域的规则化处理，MBR算法是一种最小外接矩形算法，又称最小边界矩形算法。这种算法是以二维像素坐标表示若干二维区域的最大范围，即用最小横坐标和最小纵坐标、最大横坐标和最大纵坐标界定边界的矩形区域。

设定采用MSER算法对调查问卷图像进行处理得到的多个MSER区域特征外边界集合表示为P＝{P₁,P₂,…,P_m}，对于每一个MSER区域特征外边界

包含的外边界像素点集合表示为P_i＝{P₁(X₁,Y₁),P₂(X₁,Y₁),…,P_n(X_n,Y_n)}；其中，i＝{1,2,…,m}。定义输出集合M＝{M₁,M₂,…,M_m}，其中M₁＝{X_min,Y_min,X_max,Y_max}。考虑到实际工程应用实时性的需求，如图1所示，本发明用来规则MSER区域的MBR算法步骤如下。

1)遍历集合P，依次取出集合P中的元素P_i；

2)取出集合P_i中的每一个像素坐标信息，并分别将横坐标和纵坐标放在集合X＝{x₁,x₂,…,x_n}和Y＝{y₁,y₂,…,y_n}；

3)分别对集合X和Y中的元素按照从小到大的顺序进行排序；

4)分别从排序后的集合X和Y中取出X_min和X_max，Y_min和Y_max，得到P_i对应的最小外接矩形区域描述坐标信息；

不断扩展迭代，进一步的可以获取调查问卷中所有MBR二维区域描述坐标信息，即得到了调查问卷上所有规则化后的矩形候选区域。候选区域对应待识别的检测框，其中是待识别的文字和复选框勾选结果。

步骤S5：经过步骤S4处理后，所获取的规则化后的矩形候选区域，仍然存在有许多区域是高度重叠的，本发明采用非极大值抑制算法(NMS算法)对所述步骤S4中获取的各外界矩形进行过滤和筛选。传统的NMS算法只有交并比这一个筛选指标，导致采用NMS算法得到的候选区域中仍然有大量多余的近似复选框和重复嵌套的候选区域。待识别的字符、复选框候选区域中包含大量的嵌套区域，并且也含有大量的重合区域，检测框有很多是重叠的，大框里面有小框，框与框之间有交叉等，极大的影响了候选区域的文字及复选框勾选结果的识别。因此本发明采用了如下改进后的NMS算法进行有针对性的，复选框调查问卷的识别提取。

由于基于MBR对MSER规则化处理之后得到的每一个候选区域都有一个极大稳定区域的最小外接矩形MBR(也即检测框)，若这些候选区域分别定义为区域序列

第i个候选区域

的最小外接矩形为MBR_i，其数学描述为((x₁,y₁),(x₂,y₂))，其中(x₁,y₁)表示MBR_i的左上角坐标，(x₂,y₂)表示MBR_i的右下角坐标。依据以上几何坐标信息可以得到矩形MBR_i的宽为w＝x₂-x₁，矩形MBR_i的高为h＝y₂-y₁。本发明在NMS算法的基础上，结合调查问卷图像中复选框的几何信息，例如复选框长宽比、区域像素数量以及像素阈值等，设计的组合约束的候选区域抑制策略可以将这些嵌套重合的区域进行合并或者剔除，从而提高调查问中卷复选框的检测识别效果。

其中，复选框长宽比、区域像素数量以及像素阈值根据调查问卷上复选框的实际情况设置，例如调查问卷上采用正方形的复选框，则复选框长宽比设置为1：1，采用长方形的复选框，则对应设置长宽比。区域像素数量及像素阈值为：复选框在候选区域中的像素数量是基本一致的，因此设置一定的像素阈值范围，若候选区域中的像素数量超过或少于这个阈值范围，则不属于待识别的复选框区域；因此根据调查问卷上复选框的实际情况设置复选框在候选区域的像素阈值，用于设计组合约束的候选区域抑制策略。

具体的，如图2所示，本发在候选区域抑制策略的基础上所改进的带有组合约束策略的NMS算法步骤如下：

对于标准的NMS算法，可定义B＝{b₁,…,b_N},S＝{S₁,…,S_N},N,D变量；其中，b_i,i＝1,2…N代表侯选区域，B初始化为所有侯选区域的集合(也即步骤S4得到的集合M)；S_i,i＝1,2…N表示对应侯选区域的置信度得分(置信度得分为MSER算法得到的置信度得分)，S初始化所有侯选区域执行度得分的集合，N_t代表当前设置的IOU(交并比)阈值(例如可以设置为0.5)，X_t代表当前设置的复选框的横纵比阈值，Y_t代表当前设置的复选框像素阈值。D表示算法结束后保留的检测框集合，初始化为空。

(1)如果B集合为空，则终止算法。否则，遍历集合S，查找S集合中置信度最大值S_m，在集合B中取出最高置信度S_m对应的候选区域b_m放入到集合D中，然后在集合B中将B_m删除，在集合S中将S_m删除；

(2)遍历删除b_m的集合B，依次取出集合B中的元素b_t，并且计算，如果取出的候选框b_t与当前最高置信度候选区域b_m的交并比IOU(B_m,b_t)大于等于N_t，则认为本次取出的候选区域b_t与当前最高置信度候选区域b_m属于重复嵌套的候选区域，无需重复提取，因此在集合B中将b_t删除，在集合S中将S_t删除。

若取出的候选区域b_t与当前最高置信度候选区域b_m的交并比IOU(B_m,b_t)小于N_t，则进一步再将取出的候选区域b_t的像素数量与设定的像素阈值Y_t比较，如果b_t包含的像素数量大于或小于像素阈值Y_t，则认为该候选区域不存在待识别的复选框，在集合B中将b_t删除，在集合S中将S_t删除；

若取出的候选区域b_t包含的像素数量在像素阈值Y_t的范围内，则进一步再将取出的候选区域b_t的横纵比与设定的横纵比阈值X_t比较，如果b_t的横纵比大于或小于X_t，则认为该候选区域不存在待识别的复选框，在集合B中将b_t删除，在集合S中将S_t删除。

若取出的候选区域b_t的横纵比也在横纵比阈值X_t范围内，则在侯选区域的集合B中保留候选区域b_t。

(3)跳转步骤(1)，继续寻找当前侯选区域的集合B中置信度最高的候选区域b_m，并进一步在步骤(2)中遍历当前侯选区域的集合B中剩余的候选区域b_t，基于与当前b_m的交并比IOU、像素阈值Y_t及横纵比阈值X_t的抑制策略进行过滤，在集合B及集合S删除对应满足抑制策略的候选区域b_t。循环执行直至侯选区域的集合B中为空。

此时算法输出检测框集合D，D中剩余的即使通过本发明方法提取到的调查问卷的全部检测框，得到的检测框集合最大程度的过滤掉了嵌套重合及形似但不是复选框的候选区域，进一步针对检测框集合执行识别算法，能够大大提高复选框勾选结果的识别准确度，再配合复选框前后文字的识别，即可完成带有复选框的调查问卷的结果识别和提取，问卷结果识别的准确度大大提高。

系统实施例：

本发明提供的一种识别提取纸质文本中复选框勾选结果的系统，系统执行的总体算法流程如图3所示，具体总结如下：

输入采集到的调查问卷，为了后续检测算法的检测精准度，首先进行图像的预处理，包括灰度化、滤波、边缘检测、腐蚀膨胀等，得到预处理后结果图；采用MSER区域特征检测得到若干连通区域，其中包括不同形状和任意大小的规则和不规则区域；下一步需要针对这些不规则图形采用MSER区域规则化的方法进行过滤，得到候选矩形复选框；最后采用优化的NMS算法对候选复选框进行横纵比阈值约束和像素阈值约束进行过滤筛选，得到的检测框即为待识别勾选结果的复选框区域，实现调查问卷中复选框勾选结果的检测和识别，输出勾选的复选框和相应的文字结果。

本发明提供了一种识别提取纸质文本中复选框勾选结果的系统，使用方法实施例中介绍的识别提取纸质文本中复选框勾选结果的方法，进行复选框勾选结果的自动化识别和提取。识别提取纸质文本中复选框勾选结果的方法已在方法实施例中介绍的足够清楚，本实施例不再赘述。

本发明的系统架构如图4所示，包括：

文本图像采集模块：支持终端设备所采集的文本图像数据的批量上传，和批量删除、在线预览和在线编辑等功能；

图像预处理模块：在图像预处理阶段提供了图像灰度化、边缘检测、通过膨胀腐蚀、统一分辨率、二值化、图像透视变换、图像矫正和图像锐化等图像增强操作。以使得要识别对象的特征更加具体和明显，有利于提高识别的精准度也降低了后续版面中复选框等特征识别与提取的工作量；

文本内容定位和识别模块：用于文本版面内容的定位，系统采用MSER区域特征检测得到若干连通区域，其中包括不同形状和任意大小的规则和不规则区域；针对这些不规则图形采用MBR算法思想对候选区域特征进行规则化处理，结合调查问卷图像中复选框的几何信息如复选框长宽比、区域像素数量以及像素阈值等设计组合约束的候选区域抑制策略可以将这些嵌套重合的区域进行合并或者剔除，实现版面内容的检测和识别。

复选框勾选结果提取模块：用于复选框勾选结果的自动化提取和统计，并将勾选结果输入到excel中，实现统计结果的自动化输出。

本发明针对纸质文本图像中复选框检测识别时存在成本高、操作繁琐、精准度差、效率低等问题，提出了一种识别调查问卷复选框勾选结果的方法及系统的技术方案。

方案采用MSER区域特征检测得到若干连通区域，其中包括不同形状和任意大小的规则和不规则区域；针对这些不规则图形采用MBR算法思想对候选区域特征进行规则化处理，结合调查问卷图像中复选框的几何信息如复选框长宽比、区域像素数量以及像素阈值等设计组合约束的候选框抑制策略可以将这些嵌套重合的区域进行合并或者剔除，实现版面内容的检测和识别。

通过对采用MSER算法获取的最大稳定极值区域进行规则化处理，并基于复选框的几何信息，如复选框的长宽比、区域像素数量等，设计了候选框抑制策略对复选框候选区域进行过滤，用来提高候选区域中复选框和字符候选区所占比例。

本发明有效提高了纸质文本中复选框检测识别的效率和精准度，实现了调查问卷勾选文本信息统计的自动化和智能化。

以上给出了具体的实施方式，但本发明不局限于所描述的实施方式。本发明的基本思路在于上述基本方案，对本领域普通技术人员而言，根据本发明的教导，设计出各种变形的模型、公式、参数并不需要花费创造性劳动。在不脱离本发明的原理和精神的情况下对实施方式进行的变化、修改、替换和变型仍落入本发明的保护范围内。

Claims

1.一种识别提取纸质文本中复选框勾选结果的方法，其特征在于，包括如下步骤：

5)对待识别区域进行复选框勾选结果的识别。

2.根据权利要求1所述的识别提取纸质文本中复选框勾选结果的方法，其特征在于，所述步骤4)中，对所述候选框区域进行过滤还包括采用NMS算法，基于交并比剔除掉叠合嵌套的候选框区域。

3.根据权利要求2所述的识别提取纸质文本中复选框勾选结果的方法，其特征在于，所述步骤4)中，对所述候选框区域进行过滤得到待识别区域的方法包括如下步骤：将当前候选区域集合中，置信度最高的候选区域移动至待识别区域集合；将候选区域集合中其他候选区域与该置信度最高的候选区域求出交并比，将交并比大于设定交并比阈值的其他候选区域剔除，得到新的候选区域集合；新的候选区域集合作为当前候选区域集合并重复上述步骤，直到当前候选区域集合为空。

4.根据权利要求3所述的识别提取纸质文本中复选框勾选结果的方法，其特征在于，所述步骤4)中，所述复选框几何信息包括复选框的长宽比和复选框在所述候选区域的像素数量。

5.根据权利要求4所述的识别提取纸质文本中复选框勾选结果的方法，其特征在于，对所述候选框区域进行过滤得到待识别区域的方法步骤中：交并比不大于设定交并比阈值的其他候选区域，还将其长宽比与设定的复选框长宽比阈值相比，以及将其像素数与设定的像素数阈值相比；将长宽比不等于长宽比阈值或像素数不等于像素数阈值的其他候选区域剔除。

6.根据权利要求1所述的识别提取纸质文本中复选框勾选结果的方法，其特征在于，所述预处理包括：灰度化后的二值化处理，以及采用双边滤波对二值化处理后的图像进行平滑去噪处理。

7.根据权利要求6所述的识别提取纸质文本中复选框勾选结果的方法，其特征在于，所述预处理还包括，采用Canny边缘检测算法对平滑去噪处理后的图像进行边缘检测，并配合俯视膨胀操作使图像的边缘闭合。

8.根据权利要求1所述的识别提取纸质文本中复选框勾选结果的方法，其特征在于，所述步骤2)中，采用MSER算法进行特征检测。

9.根据权利要求1所述的识别提取纸质文本中复选框勾选结果的方法，其特征在于，所述步骤3)中，采用MBR算法进行规则化处理，将所述特征区域的最小外接矩形作为候选区域。

10.一种识别提取纸质文本中复选框勾选结果的系统，其特征在于，包括存储器、处理器和存储在存储器中可供处理器运行的程序指令，其中处理器用于执行所述程序指令以实现如权利要求1～9任一项所述的识别提取纸质文本中复选框勾选结果的方法的步骤。