CN105678301A

CN105678301A - 一种自动识别并分割文本图像的方法、系统及装置

Info

Publication number: CN105678301A
Application number: CN201610001620.6A
Authority: CN
Inventors: 熊祎; 林建文
Original assignee: Allwinner Technology Co Ltd
Current assignee: Allwinner Technology Co Ltd
Priority date: 2016-01-05
Filing date: 2016-01-05
Publication date: 2016-06-15
Anticipated expiration: 2036-01-05
Also published as: CN105678301B

Abstract

本发明公开了一种自动识别并分割文本图像的方法，包括步骤：S1、获取输入文本图像并进行预处理；S2、对文本图像进行分割以确定第一目标区域；S3、在第一目标区域内运行标号检测器，若标号检测器检测成功，则将检测结果输出至判别器以进行确认，并执行步骤S4，若标号检测器检测失败，则执行步骤S5；S4、基于判别器最终判定的标号位置以及第一目标区域信息，拟合出第二目标区域并截取；S5、使用图像处理技术处理以拟合出第三目标区域并截取。还公开了一种自动识别并分割文本图像的系统及装置。用户只需将屏幕中心准星对准文本图像中希望搜索的试题，按下拍照键，程序即可自动分割指定试题区域并上传，从而实现完整流畅的用户体验。

Description

一种自动识别并分割文本图像的方法、系统及装置

技术领域

本发明涉及图像识别领域，特别是涉及一种自动识别并分割文本图像的方法、系统及装置。

背景技术

传统教育中关于习题的辅导往往依赖于教师的参与，这在夜间或休息日会对学生的学习造成极大的困扰。随着移动设备的普及，网络搜题技术受到学生群体的广泛欢迎。其技术概括来讲就是通过终端设备（如手机、平板电脑等）采集试题信息，上传至云端服务器。服务器对输入信息进行分析处理，经过和数据库中海量的习题资料比对后将匹配度高的结果返回至终端。

现有的搜题系统在终端采集方面主要分为两大路线：1、通过特殊设备采集试题信息，如点读笔就是通过读取事先印刷在纸张上的隐形编码记号来识别当前指向位置的内容；2、通过移动设备自带的摄像头，以照片的形式获取试题图片，再通过模式识别技术转换成对应的试题信息。

其中方案1大多用在早教机、学习机等特殊设备中，因为它的技术实现需要硬件上的配合。方案2则多以软件的形式实现，主要应用在手机、平板等一般的移动便携式终端上。目前用户较多的拍照搜题类应用有：北京贞观雨科技有限公司开发的小猿搜题、北京东方皆冠科技有限公司开发的学习宝等产品。这些产品在终端采集时都应用了一种半自动的方法：首先将拍摄区域人为划分成若干固定栅格，用户按下拍照键后，程序会自动识别判断出包含试题的部分栅格，并将这些栅格组成的矩形区域作为试题区域上传，此外，服务器端接收整张图片，并以上传的试题区域为起始窗口，在不同尺度和方向上滑动窗口，并不断地识别窗口内容进行搜索。在返回结果时，只返回最多次重复出现的搜索结果。

通过摄像头采集试题信息是目前搜题类应用软件的主流方式，但无一例外都需要用户手动选取试题区域。由于屏幕大小、题目文字间距过窄等因素，用户体验较差。此外，框题的完整与否直接影响到后续识别、搜索步骤的准确性，而手动选取的方式则存在太多差别，难以统一处理，需要设计相应的预处理步骤。

现有主流技术中，通过栅格的方法粗略自动分割图片区域，这种方法实际上是将拍照后的手动调整工序转移到了拍照之前，并没有改变用户体验差的问题。而通过服务器端多窗口冗余搜索的方式，虽然在一定程度上提高了识别率，但付出了极大的运算资源消耗以及额外上传流量的代价。

此外，由于准确性的原因，这些产品都没有完全去掉用户手动框选的步骤。即使自动分割正确，仍需要用户手动确认后再上传，并没有从本质上解决用户体验的问题。

发明内容

本发明针对现有技术的缺点，提供一种自动识别并分割文本图像的方法、系统及装置。用户只需将屏幕中心准星对准文本图像中希望搜索的试题，按下拍照键，程序即可自动分割指定试题区域并上传，从而实现完整流畅的用户体验。

根据本发明的一个方面，提供一种自动识别并分割文本图像的方法，包括步骤：

S1、通过移动终端上的摄像头获取输入文本图像，并进行预处理；

S2、对经过预处理后的文本图像进行分割，并基于准星位置确定第一目标区域；

S3、在第一目标区域内运行标号检测器，以检测是否存在标号，若标号检测器检测成功，则将检测结果输出至判别器以进行确认，并执行步骤S4，若标号检测器检测失败，则执行步骤S5；

S4、基于判别器最终判定的标号位置以及第一目标区域信息，拟合出第二目标区域，并截取第二目标区域信息以用于输出；

S5、当步骤S3中没有检测到标号时，则使用图像处理技术处理以拟合出第三目标区域，并截取第三目标区域信息以用于输出。

优选地，所述输入文本图像获取方式还包括通过屏幕拷贝、网络下载以及通过其它终端发送。

优选地，所述预处理包括白平衡、亮度补偿以及灰度化处理。

优选地，步骤S2包括：

S21、提取文本图像的梯度信息；

S22、对梯度信息进行形态学闭运算处理，将每一行的像素值作水平方向投影；

S23、基于准星位置，对投影结果进行搜索，以确定第一目标区域。

优选地，所述标号检测包括步骤：

S31、在第一目标区域内获取多个疑似标号区域；

S32、将每一疑似标号区域分别缩放至固定大小，提取其统计特征，并将所提取的统计特征输出至判别器以进行确认。

优选地，所述拟合包括对第一目标区域进行边界裁剪以及对裁剪后的目标区域内的文本信息进行缩进处理，以形成第二目标区域。

优选地，所述边界裁剪包括通过分析第一目标区域内经过二值化处理后的梯度信息，确定第一目标区域内文本的最大宽度和最大高度。

优选地，步骤S5中，所述使用图像处理技术处理包括步骤：

S51、获取第一目标区域内经过二值化处理后的梯度信息；

S52、基于所获取的梯度信息，在第一目标区域内进行最大轮廓提取，并将所提取轮廓的外接矩形作为第三目标区域输出。

根据本发明的另一方面，提供一种自动识别并分割文本图像的系统，所述系统包括：

第一模块，用于通过移动终端上的摄像头获取输入文本图像，并进行预处理；

第二模块，用于对经过预处理后的文本图像进行分割，并基于准星位置确定第一目标区域；

第三模块，用于在第一目标区域内运行标号检测器，以检测是否存在标号，若标号检测器检测成功，则将检测结果输出至判别器以进行确认，并运行第四模块，若标号检测器检测失败，则运行第五模块；

第四模块，用于基于判别器最终判定的标号位置以及第一目标区域信息，拟合出第二目标区域，并截取第二目标区域信息以用于输出；

第五模块，用于当在第三模块中没有检测到标号时，则使用图像处理技术处理以拟合出第三目标区域，并截取第三目标区域信息以用于输出。

根据本发明的再一方面，提供一种自动识别并分割文本图像的装置，所述装置包括：

存储器，用于存储一应用程序；

处理器，用于运行所述程序执行以下步骤：

S01、通过移动终端上的摄像头获取输入文本图像，并进行预处理；

S02、对经过预处理后的文本图像进行分割，并基于准星位置确定第一目标区域；

S03、在第一目标区域内运行标号检测器，以检测是否存在标号，若标号检测器检测成功，则将检测结果输出至判别器以进行确认，并执行步骤S04，若标号检测器检测失败，则执行步骤S05；

S04、基于判别器最终判定的标号位置以及第一目标区域信息，拟合出第二目标区域，并截取第二目标区域信息以用于输出；

S05、当步骤S03中没有检测到标号时，则使用图像处理技术处理以拟合出第三目标区域，并截取第三目标区域信息以用于输出。

本发明的有益效果：

本发明公开了一种自动识别并分割文本图像的方法、系统及装置，整个识别分割过程全自动完成，鲁棒性好；无需用户手动干预，完全可以去掉用户确认的步骤，用户体验好；由于分割是自动生成的，是有规律的，因此在服务器端可以不做裁剪等预处理而直接进行识别，服务端处理效率高；自动分割最大限度地减少了因为用户主观因素造成的试题信息损失，识别准确率更高。

附图说明

下面结合附图和实例对本发明作进一步说明：

图1是根据本发明的一种自动识别并分割文本图像的方法流程示意图；

图2是根据本发明的一种自动识别并分割文本图像的装置框图；

图3是根据本发明实施例所使用的试题搜索场景图；

图4是图3中的试题搜索场景在理论情况下的结果场景图；

图5是根据本发明实施例在标号检测器检测失败情况下的结果场景图。

具体实施方式

下面结合附图，详细说明本发明的实施方式。

图1是根据本发明的一种自动识别并分割文本图像的方法，在本实施例中，提供的自动识别并分割文本图像的方法，包括步骤：

具体地，当用户通过移动终端上的摄像头获取输入文本图像时，用户将屏幕上的准星大致对准想要提取的区域，然后手动按下拍照键即可。接着系统自动对所获取的文本图像进行预处理，所述预处理步骤包括白平衡、亮度补偿以及灰度化处理。

根据本发明一优选的实施例，所述白平衡处理可以使用直方图均衡化算法，首先统计图片的灰度直方图，然后对统计结果进行归一化并重新映射，这样可以使得不同输入图片的整体亮度大致相同；所述的亮度补偿可以使用Gamma矫正技术，通过选择适当的函数形状将灰度值重新映射到一个更均匀的区间内，可以有效处理过量或过暗的区块，使得输入图片内部的亮度趋于一致，以达到更好的检测效果；所述灰度化处理可用两种方法来实现：第一种方法是求出每个像素点的R、G、B三个分量的平均值，然后将这个平均值赋予给这个像素的三个分量；第二种方法是根据YUV的颜色空间中，Y的分量的物理意义是点的亮度，由该值反映亮度等级，根据RGB和YUV颜色空间的变化关系可建立亮度Y与R、G、B三个颜色分量的对应：Y=0.3R+0.59G+0.11B，以这个亮度值表达图像的灰度值。

根据本发明另一优选的实施例，所述输入文本图像获取方式还包括通过屏幕拷贝、网络下载以及通过其它终端发送。

根据本发明再一优选的实施例，用户可以通过其它方式将摄像头中心对准感兴趣区域，包括但不限于：识别框、自动对准。

S2、对经过预处理后的文本图像进行分割，并基于准星位置确定第一目标区域。

具体地，首先通过梯度算子对文本图像进行卷积操作以提取该文本图像的梯度信息；接着对该文本图像的梯度信息进行形态学闭运算处理，将每一行的像素值作水平方向投影并累加；最后基于准星位置，对投影结果进行搜索，即以准星位置为界，在前半段和后半段分别搜索投影谷值，以确定粗略的分割位置，即第一目标区域。

S3、在第一目标区域内运行标号检测器，以检测是否存在标号，若标号检测器检测成功，则将检测结果输出至判别器以进行确认，并执行步骤S4，若标号检测器检测失败，则执行步骤S5。

具体地，首先在第一目标区域内运行具有高收敛性的标号检测器，以在该目标区域内进行标号检测，若标号检测器检测成功，则获得一系列疑似区域，接着将疑似区域缩放至固定大小，并提取其统计特征，将提取到的统计特征输出至判别器进行最终的确认，并执行步骤S4；若该目标区域内不存在数字字符标号，则该标号检测器会出现检测失败的情况，则执行步骤S5。

S4、基于判别器最终判定的标号位置以及第一目标区域信息，拟合出第二目标区域，并截取第二目标区域信息以用于输出。

具体地，基于判别器最终判定的标号位置以及第一目标区域信息，拟合出第二目标区域，所述拟合包括对第一目标区域进行边界裁剪以及对裁剪后的目标区域内的文本信息进行缩进处理，以形成第二目标区域。所述边界裁剪包括通过分析第一目标区域内经过二值化处理后的梯度信息，确定第一目标区域内文本的最大宽度和最大高度。所述缩进处理主要是通过标号的大小信息确定印刷品的相应规格，并通过预设的参数找到首行的准确位置并分割。区域拟合的目的是为了准确地将用户指向的第二目标区域从前后的其它背景文本中分割出来，而不损伤本身的信息。

具体地，对于标号检测器检测失败的情况则使用图像处理技术处理，以拟合出最可能的目标区域，称为第三目标区域。其中，所述图像处理包括步骤：首先获取第一目标区域内经过二值化处理后的梯度信息；接着基于所获取的梯度信息，在第一目标区域内进行最大轮廓提取，并将所提取轮廓的外接矩形作为第三目标区域输出。梯度信息提取主要通过梯度算子完成；二值化的阈值通过直方图自适应选择；轮廓提取通过搜索四连通的边缘线段，较大的轮廓被合并，较小的轮廓则抛弃，得到的外接矩形来自最大的那个轮廓。

根据本发明优选的实施例，还提供了一种自动识别并分割文本图像的系统，包括：第一模块，用于通过移动终端上的摄像头获取输入文本图像，并进行预处理；第二模块，用于对经过预处理后的文本图像进行分割，并基于准星位置确定第一目标区域；第三模块，用于在第一目标区域内运行标号检测器，以检测是否存在标号，若标号检测器检测成功，则将检测结果输出至判别器以进行确认，并运行第四模块，若标号检测器检测失败，则运行第五模块；第四模块，用于基于判别器最终判定的标号位置以及第一目标区域信息，拟合出第二目标区域，并截取第二目标区域信息以用于输出；第五模块，用于当在第三模块中没有检测到标号时，则使用图像处理技术处理以拟合出第三目标区域，并截取第三目标区域信息以用于输出。

根据本发明优选的实施例，还提供了一种自动识别并分割文本图像的装置，参照图2，包括：存储器，用于存储一应用程序；处理器，用于运行所述程序执行以下步骤：S1、通过移动终端上的摄像头获取输入文本图像，并进行预处理；S2、对经过预处理后的文本图像进行分割，并基于准星位置确定第一目标区域；S3、在第一目标区域内运行标号检测器，以检测是否存在标号，若标号检测器检测成功，则将检测结果输出至判别器以进行确认，并执行步骤S4，若标号检测器检测失败，则执行步骤S5；S4、基于判别器最终判定的标号位置以及第一目标区域信息，拟合出第二目标区域，并截取第二目标区域信息以用于输出；S5、当步骤S3中没有检测到标号时，则使用图像处理技术处理以拟合出第三目标区域，并截取第三目标区域信息以用于输出。

图3为根据本发明优选实施例所应用的试题搜索场景，在该图中，屏幕画面中央的白色十字即为准星，用户首先通过将十字准星大致对准想要搜索的试题，并按下拍照键以获取整个文本图像。图4为图3中的场景在理论情况下分割结果，图中白色框体为所获取的第二目标区域，即为预期分割出来的试题区域。图5为标号检测器检测失败的情况下所获取的第三目标区域，即最可能的试题区域，由于在该标题中不包含数字字符，因此只能通过轮廓提取的方式寻找最近似空白区域的矩形框作为试题区域。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换，这些等同的变型或替换均包含在本申请权利要求所限定的范围内。

除非一个必需的步骤需要由前面步骤所产生的输入，否则本文描述的步骤的特定顺序仅用于示例性说明，而非限制。

Claims

1.一种自动识别并分割文本图像的方法，其特征在于，包括步骤：

2.根据权利要求1所述的自动识别并分割文本图像的方法，其特征在于，步骤S1中，所述输入文本图像获取方式还包括通过屏幕拷贝、网络下载以及通过其它终端发送。

3.根据权利要求1所述的自动识别并分割文本图像的方法，其特征在于，步骤S1中，所述预处理包括白平衡、亮度补偿以及灰度化处理。

4.根据权利要求1所述的自动识别并分割文本图像的方法，其特征在于，步骤S2包括：

S21、提取文本图像的梯度信息；

5.根据权利要求1所述的自动识别并分割文本图像的方法，其特征在于，步骤S3中，所述标号检测包括步骤：

S31、在第一目标区域内获取多个疑似标号区域；

6.根据权利要求1所述的自动识别并分割文本图像的方法，其特征在于，所述拟合包括对第一目标区域进行边界裁剪以及对裁剪后的目标区域内的文本信息进行缩进处理，以形成第二目标区域。

7.根据权利要求6所述的自动识别并分割文本图像的方法，其特征在于，所述边界裁剪包括通过分析第一目标区域内经过二值化处理后的梯度信息，确定第一目标区域内文本的最大宽度和最大高度。

8.根据权利要求1所述的自动识别并分割文本图像的方法，其特征在于，步骤S5中，所述使用图像处理技术处理包括步骤：

S51、获取第一目标区域内经过二值化处理后的梯度信息；

9.一种自动识别并分割文本图像的系统，其特征在于，所述系统包括：

10.一种自动识别并分割文本图像的装置，其特征在于，所述装置包括：

存储器，用于存储一应用程序；

处理器，用于运行所述应用程序执行以下步骤：