CN108229454A

CN108229454A - 一种图像切分标记方法及其装置

Info

Publication number: CN108229454A
Application number: CN201611163078.0A
Authority: CN
Inventors: 兴百桥; 熊蜀光; 周迅溢; 杨镜; 白建国
Original assignee: Beijing Xintang Sichuang Educational Technology Co Ltd
Current assignee: Beijing Xintang Sichuang Educational Technology Co Ltd
Priority date: 2016-12-15
Filing date: 2016-12-15
Publication date: 2018-06-29

Abstract

本申请实施例提供一种图像切分标记方法及其装置，所述方法，包括：对需要进行OCR识别的图像进行整体自动标记，获得整体标记图像；对所述整体标记图像进行附加标记，调整所述整体标记图像中的错误标记。本申请实施例能够对图像自动切分标记，减少人力消耗，提高了工作效率。

Description

一种图像切分标记方法及其装置

技术领域

本申请属于图像识别技术领域，具体涉及一种图像切分标记方法及其装置。

背景技术

OCR(Optical Character Recognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率，是OCR最重要的课题，ICR(Intelligent Character Recognition)的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有：拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等。

在OCR识别中，图像切分质量的好坏，直接影响OCR的识别率。对一个切错的图像进行OCR识别时，往往无法得到正确的识别结果。为了提升图像切分的准确率，需要获得当前切分算法的准确率，要计算当前切分算法的准确率，则需要将当前切分的结果与正确切分的答案进行对比。制作正确切分答案时通常使用人工进行手工标注，既耗费人力，工作效率也不高。

因此，如何实现对图像切分标记，成为现有技术中亟需解决的技术问题。

发明内容

本申请实施例解决的技术问题之一在于提供一种图像切分标记方法及其装置，其能够对图像自动切分标记，减少人力消耗，提高了工作效率。

本申请实施例提供一种图像切分标记方法，包括：

对需要进行OCR识别的图像进行整体自动标记，获得整体标记图像；

对所述整体标记图像进行附加标记，调整所述整体标记图像中的错误标记。

在本申请具体实现中，所述对需要进行OCR识别的图像进行整体自动标记，获得整体标记图像包括：

获得所述需要进行OCR识别的图像的所有连通域；

对所述所有连通域进行分析与处理，得到整体标记图像。

在本申请具体实现中，所述对所述所有连通域进行分析与处理，得到整体标记图像包括：

删除大于和小于宽、高阈值的连通域；和/或，

合并有交集的连通域，或者上下连通域，或者左右连通域。

在本申请具体实现中，所述对所述整体标记图像进行附加标记，调整所述整体标记图像中的错误标记包括：

对所述整体标记图像进行一标多的附加标记，将错误标记的多个区块合并为一个区块。

在本申请具体实现中，所述对所述整体标记图像进行附加标记，调整所述整体标记图像中的错误标记还包括：

对所述整体标记图像进行多标一的附加标记，将错误标记的一个区块拆分为多个区块。

对所述整体标记图像进行未标记的附加标记，采取自动或者手动方式对未标记区块进行标记。

对所述整体标记图像进行标噪音的附加标记，对噪音区块进行删除。

在本申请具体实现中，所述对所述整体标记图像进行标噪音的附加标记，对噪音区块进行删除包括：

如果噪音区块的密度小于密度阈值，则直接删除噪音区块；

如果噪音区块的密度大于或者等于密度阈值，则将噪音区块进行合并，并删除合并后的噪音区块。

对应上述方法，本申请还提供一种图像切分标记装置，包括：

整体标记模块，用于对需要进行OCR识别的图像进行整体自动标记，获得整体标记图像；

附加标记模块，用于对所述整体标记图像进行附加标记，调整所述整体标记图像中的错误标记。

在本申请具体实现中，所述整体标记模块包括：

连通域识别单元，用于获得所述需要进行OCR识别的图像的所有连通域；

连通域分析单元，用于对所述所有连通域进行分析与处理，得到整体标记图像。

在本申请具体实现中，所述连通域分析单元包括：

删除子单元，用于删除大于和小于宽、高阈值的连通域；和/或，

合并子单元，用于合并有交集的连通域，或者上下连通域，或者左右连通域。

在本申请具体实现中，所述附加标记模块包括：

一标多单元，用于对所述整体标记图像进行一标多的附加标记，将错误标记的多个区块合并为一个区块。

在本申请具体实现中，所述附加标记模块还包括：

多标一单元，用于对所述整体标记图像进行多标一的附加标记，将错误标记的一个区块拆分为多个区块。

在本申请具体实现中，所述附加标记模块还包括：

未标记单元，用于对所述整体标记图像进行未标记的附加标记，采取自动或者手动方式对未标记区块进行标记。

在本申请具体实现中，所述附加标记模块还包括：

标噪音单元，用于对所述整体标记图像进行标噪音的附加标记，对噪音区块进行删除。

在本申请具体实现中，所述标噪音单元包括：

小密度删除子单元，用于如果噪音区块的密度小于密度阈值，则直接删除噪音区块；

大密度删除子单元，用于如果噪音区块的密度大于或者等于密度阈值，则将噪音区块进行合并，并删除合并后的噪音区块。

本申请实施例通过对需要进行OCR识别的图像进行整体自动标记，获得整体标记图像。之后对所述整体标记图像进行附加标记，调整所述整体标记图像中的错误标记。因此，本申请实施例能够对需要进行OCR识别的图像进行整体自动标记，再用附加标记进行修正。本申请实施例能够对图像自动切分标记，减少人力消耗，提高了工作效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本申请提供的一种图像切分标记方法一实施例流程图；

图2是本申请提供的一种图像切分标记方法中步骤S1一实施例流程图；

图3是本申请提供的一种图像切分标记方法中步骤S12一实施例流程图；

图4是本申请提供的一种图像切分标记方法中整体标记后的图像示意图；

图5是本申请提供的一种图像切分标记方法中步骤S2一实施例流程图；

图6是本申请提供的一种图像切分标记方法中步骤S2另一实施例流程图；

图7是本申请提供的一种图像切分标记方法中步骤S2再一实施例流程图；

图8是本申请提供的一种图像切分标记方法中步骤S2再一实施例流程图；

图9是本申请提供的一种图像切分标记方法中步骤S24一实施例流程图；

图10是本申请提供的一种图像切分标记装置一实施例结构图；

图11是本申请提供的一种图像切分标记装置中整体标记模块一实施例结构图；

图12是本申请提供的一种图像切分标记装置中连通域分析单元一实施例结构图；

图13是本申请提供的一种图像切分标记装置中附加标记模块一实施例结构图；

图14是本申请提供的一种图像切分标记装置中附加标记模块另一实施例结构图；

图15是本申请提供的一种图像切分标记装置中附加标记模块再一实施例结构图；

图16是本申请提供的一种图像切分标记装置中附加标记模块再一实施例结构图；

图17是本申请提供的一种图像切分标记装置中标噪音单元一实施例结构图；

图18是本申请提供的图像切分标记方法的电子设备的硬件结构示意图。

具体实施方式

尽管本申请能够具有许多不同形式的实施例，但在附图中显示并且将在本文详细描述的特定实施例，应该理解，这种实施例的公开应该被视为原理的示例，而非意图把本申请限制于显示和描述的特定实施例。在以下的描述中，相同的标号用于描述附图的几个示图中的相同、相似或对应的部分。

如本文所使用，术语“一个”或“一种”被定义为一个(种)或超过一个(种)。如本文所使用，术语“多个”被定义为两个或超过两个。如本文所使用，术语“其他”被定义为至少再一个或更多个。如本文所使用，术语“包含”和/或“具有”被定义为包括(即，开放式语言)。如本文所使用，术语“耦合”被定义为连接，但未必是直接连接，并且未必是以机械方式连接。如本文所使用，术语“程序”或“计算机程序”或类似术语被定义为设计用于在计算机系统上执行的指令序列。“程序”或“计算机程序”可包括子程序、函数、过程、对象方法、对象实现、可执行应用、小应用程序、小服务程序、源代码、目标代码、共享库/动态加载库和/或设计用于在计算机系统上执行的其它指令序列。

在整个本文件中对“一个实施例”、“某些实施例”、“实施例”或类似术语的提及表示结合实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。因此，在整个本说明书的各种地方的这种词语的出现不必全部表示相同的实施例。另外，所述特定特征、结构或特性可非限制性地在一个或多个实施例中以任何合适的方式组合。

如本文所使用，术语“或者”应该被解释为是包括性的或者表示任何一种或任何组合。因此，“A、B或者C”表示“下面的任何一种：A；B；C；A和B；A和C；B和C；A，B和C”。仅当元件、功能、步骤或动作的组合以某种方式固有地相互排斥时，将会发生这种定义的例外。

为了使本领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请保护的范围。

下面结合本申请附图进一步说明本申请具体实现。

参见图1，本申请一实施例提供一种图像切分标记方法，包括：

S1、对需要进行OCR识别的图像进行整体自动标记，获得整体标记图像。

在本申请一具体实现中，参见图2，所述步骤S1包括：

S11、获得所述需要进行OCR识别的图像的所有连通域。

S12、对所述所有连通域进行分析与处理，得到整体标记图像。

具体地，参见图3，所述步骤S12包括：

S121、删除大于和小于宽、高阈值的连通域；和/或，

S122、合并有交集的连通域，或者上下连通域，或者左右连通域。

所述宽、高阈值为全部连通域的平均宽、高，本领域技术人员也可以根据需要选择其他数值作为宽、高阈值。

删除大于和小于宽、高阈值的连通域，即删除过大和过小的连通域。合并有交集的连通域；合并上下连通域，即合并在一行中拆成两行或多行的连通域，如二、三等字；合并左右连通域，即合并一列中拆成两列或多列的连通域，如川、儿等。

S2、对所述整体标记图像进行附加标记，调整所述整体标记图像中的错误标记。

整体标记完成后，需要通过附加标记来修正标记错误的情况，参见图4，其中加粗方框即表示标记错误的情况。

在本申请一具体实现中，参见图5，所述步骤S2包括：

S21、对所述整体标记图像进行一标多的附加标记，将错误标记的多个区块合并为一个区块。

一标多即本来应该是一个区块却标记成了多个区块的标记错误情况。针对一标多的标记错误情况，可以将标记的框全部删除，然后采用自动标记区块的方式进行标记。针对一标多的标记错误情况，也可以采用多合一的方式，即将多个区块合并成一个区块，将标记的多个框合成一个框。自动标记区块在画框的时候可以将框标记在区块上的任意部分，框线会自动调整到区块的边界处，也可以将框线标记在区块四个边界外的空白处，框线会自动收缩至区块的边界处。合并框时在画框的时候将要合并的框包含在里面即可，将包含在所画大框中的小框自动合并成一个大框，而所画大框内的小框会自动消失。

在本申请另一具体实现中，参见图6，所述步骤S2还包括：

S22、对所述整体标记图像进行多标一的附加标记，将错误标记的一个区块拆分为多个区块。

多标一即本来应该是多个区块却标记成了一个区块的标记错误情况。针对多标一的标记错误情况，可以将此框删除，然后采用自动标记的方式对这几个区块进行逐一标记。针对多标一的标记错误情况，也可以采用一拆多的方式将一个框拆成几个框，一拆多采用投影的方式对指定的区块进行拆分。首先对多标一那个区块进行向X轴投影，投影的方式可以是统计每列的灰度值，然后求整个区块所有列的平均投影值，根据多标一区块的高度将平均投影值乘以一个系数作为拆分区块边界阈值。通常这个系数可以选为0.1到0.5不等，当拆分区块边界阈值等于0时，将区块边界阈值上调为3；当区块边界阈值大于10小于20时，将区块边界阈值减5；当区块边界阈值大于20时，将区块边界阈值设为20。这样设定区块边界阈值是为了防止区块边界阈值过小而无法将区块进行拆分开，同时防止区块边界阈值过大将区块拆分的太零碎，造成拆分误差过大。接着将多标一区块左边界作为第一个拆分区块的左边界，并将这个区块边界加入拆分区块边界数组中，然后从多标一区块左边界加1/3平均区块宽度处开始遍历投影值，当投影值小于拆分区块边界阈值时，将X值作为当前区块右边界加入边界数组，同时作为下一个区块的左边界加入边界数组，往右移动1/3平均区块宽度，继续遍历，最后遍历到多合一区块右边界处结束，多合一区块右边界作为最后一个区块右边界加入边界数组。边界数组中下标为偶数的为每个区块的左边界，下标为奇数的为每个区块的右边界。所有被拆分出来的区块上边界和下边界与多标一区块相同。

在本申请另一具体实现中，参见图7，所述步骤S2还包括：

S23、对所述整体标记图像进行未标记的附加标记，采取自动或者手动方式对未标记区块进行标记。

在本申请另一具体实现中，参见图8，所述步骤S2还包括：

S24、对所述整体标记图像进行标噪音的附加标记，对噪音区块进行删除。

参见图9，所述S24包括：

S241、如果噪音区块的密度小于密度阈值，则直接删除噪音区块。

S242、如果噪音区块的密度大于或者等于密度阈值，则将噪音区块进行合并，并删除合并后的噪音区块。从而避免了逐一直接删除噪音区块造成的操作复杂。

参见图10，对应上述方法，本申请提供一种图像切分标记装置，包括：

整体标记模块101，用于对需要进行OCR识别的图像进行整体自动标记，获得整体标记图像。

附加标记模块102，用于对所述整体标记图像进行附加标记，调整所述整体标记图像中的错误标记。

在本申请一具体实现中，参见图11，所述整体标记模块101包括：

连通域识别单元1011，用于获得所述需要进行OCR识别的图像的所有连通域。

连通域分析单元1012，用于对所述所有连通域进行分析与处理，得到整体标记图像。

具体地，参见图12，所述连通域分析单元1012包括：

删除子单元10121，用于删除大于或者小于宽、高阈值的连通域；和/或，

合并子单元10122，用于合并有交集的连通域，或者上下连通域，或者左右连通域。

在本申请一具体实现中，参见图13，所述附加标记模块102包括：

一标多单元1021，用于对所述整体标记图像进行一标多的附加标记，将错误标记的多个区块合并为一个区块。

在本申请另一具体实现中，参见图14，所述附加标记模块102还包括：

多标一单元1022，用于对所述整体标记图像进行多标一的附加标记，将错误标记的一个区块拆分为多个区块。

在本申请另一具体实现中，参见图15，所述附加标记模块102还包括：

未标记单元1023，用于对所述整体标记图像进行未标记的附加标记，采取自动或者手动方式对未标记区块进行标记。

在本申请另一具体实现中，参见图16，所述附加标记模块102还包括：

标噪音单元1024，用于对所述整体标记图像进行标噪音的附加标记，对噪音区块进行删除。

参见图17，所述标噪音单元1024包括：

小密度删除子单元10241，用于如果噪音区块的密度小于密度阈值，则直接删除噪音区块。

大密度删除子单元10242，用于如果噪音区块的密度大于或者等于密度阈值，则将噪音区块进行合并，并删除合并后的噪音区块。

图18是本申请图像切分标记方法的电子设备的硬件结构示意图。根据图18所示，该设备包括：

一个或多个处理器1810以及存储器1820，图18中以一个处理器1810为例。

图像切分标记方法的设备还可以包括：输入装置1830和输出装置1830。

处理器1810、存储器1820、输入装置1830和输出装置1830可以通过总线或者其他方式连接，图18中以通过总线连接为例。

存储器1820作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的图像切分标记方法对应的程序指令/模块(例如，附图10所示的整体标记模块101、附加标记模块102)。处理器1810通过运行存储在存储器1820中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例图像切分标记方法。

存储器1820可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据图像切分标记装置的使用所创建的数据等。此外，存储器1820可以包括高速随机存取存储器1820，还可以包括非易失性存储器1820，例如至少一个磁盘存储器1820件、闪存器件、或其他非易失性固态存储器1820件。在一些实施例中，存储器1820可选包括相对于处理器1810远程设置的存储器1820，这些远程存储器1820可以通过网络连接至音效模式选择装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置1830可接收输入的数字或字符信息，以及产生与图像切分标记装置的用户设置以及功能控制有关的键信号输入。输出装置1830可包括扬声器等设备。

所述一个或者多个模块存储在所述存储器1820中，当被所述一个或者多个处理器1810执行时，执行上述任意方法实施例中的图像切分标记方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

本领域的技术人员应明白，本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种图像切分标记方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述对需要进行OCR识别的图像进行整体自动标记，获得整体标记图像包括：

获得所述需要进行OCR识别的图像的所有连通域；

对所述所有连通域进行分析与处理，得到整体标记图像。

3.如权利要求2所述的方法，其特征在于，所述对所述所有连通域进行分析与处理，得到整体标记图像包括：

删除大于和小于宽、高阈值的连通域；和/或，

合并有交集的连通域，或者上下连通域，或者左右连通域。

4.如权利要求1所述的方法，其特征在于，所述对所述整体标记图像进行附加标记，调整所述整体标记图像中的错误标记包括：

5.如权利要求1所述方法，其特征在于，所述对所述整体标记图像进行附加标记，调整所述整体标记图像中的错误标记还包括：

6.如权利要求1所述方法，其特征在于，所述对所述整体标记图像进行附加标记，调整所述整体标记图像中的错误标记还包括：

7.如权利要求1所述的方法，其特征在于，所述对所述整体标记图像进行附加标记，调整所述整体标记图像中的错误标记还包括：

8.如权利要求7所述的方法，其特征在于，所述对所述整体标记图像进行标噪音的附加标记，对噪音区块进行删除包括：

如果噪音区块的密度小于密度阈值，则直接删除噪音区块；

9.一种图像切分标记装置，其特征在于，包括：

10.如权利要求9所述的装置，其特征在于，所述整体标记模块包括：

11.如权利要求10所述的装置，其特征在于，所述连通域分析单元包括：

12.如权利要求9所述的装置，其特征在于，所述附加标记模块包括：

13.如权利要求9所述装置，其特征在于，所述附加标记模块还包括：

14.如权利要求9所述装置，其特征在于，所述附加标记模块还包括：

15.如权利要求9所述的装置，其特征在于，所述附加标记模块还包括：

16.如权利要求15所述的装置，其特征在于，所述标噪音单元包括：