CN111488870A

CN111488870A - 文字识别方法和文字识别装置

Info

Publication number: CN111488870A
Application number: CN201910079821.1A
Authority: CN
Inventors: 张春燕; 孙俊; 于小亿
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2020-08-04
Also published as: JP2020119559A

Abstract

本发明涉及一种文字识别方法，包括：获取图像；将图像划分成各自包含文字的笔划的多个矩形区域；对于多个矩形区域中的相互邻近的第一区域和第二区域，其中第二区域的水平方向的宽度小于第一区域的水平方向的宽度并且第一区域与第二区域部分重叠，如果第一区域和第二区域重叠的区域的水平方向的宽度与第二区域的水平方向的宽度的比值大于或等于第一预设阈值，则将第一区域与所述第二区域合并为一个区域；以及基于改变后的矩形区域划分进行文字识别。

Description

文字识别方法和文字识别装置

技术领域

本公开涉及文字识别方法装置，尤其涉及对包括手写文字的文档的扫描图像中的文字的识别。

背景技术

OCR(Optical Character Recognition)是利用光学技术对文字和字符进行扫描识别的技术。包括图像输入、图像预处理例如二值化、版面分析例如将所要识别的文档进行分段分行处理、字符切割、最后对分割出的进行字符识别。

现有的OCR技术在对印刷体文字或者带有噪声的印刷体文字进行识别时具有较好的分割效果，因为印刷体文字具有常规的排版格式，并且即使对于印刷体的纸质文档经扫描而采集到的图像来说，虽然这样的图像在扫描过程中可能引入噪声，但也不会明显地降低OCR的识别准确度。

然而，现有的OCR方法并不能很好地解决由于某些特殊的字体或特殊的排版格式例如潦草的手写体等所导致的识别准确度下降的问题，而这样的识别准确度下降主要由字符分割阶段的对字符的错误分割而造成的。手写体文字因手写者的书写特性的不同存在较大差异，并且不同语系的语言构造字的过程也有较大差异，这更加加剧了字符正确分割的难度。

作为示例，本公开内容以较难分割并进行识别的以日文字体手写的书写纸质文档的扫描图像中的字符提取进行说明，旨在提供一种能够对包括日文手写文档在内的文档进行字符识别的技术，需要注意的是，本发明也适用于具有其它与日文字体类似的字体的识别，例如中文等。

应该注意，上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

在下文中将给出关于本公开的简要概述，以便提供关于本公开的某些方面的基本理解。应当理解，这个概述并不是关于本公开的穷举性概述。它并不是意图确定本公开的关键或重要部分，也不是意图限定本公开的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

为了实现本公开的目的，根据本公开的一个方面，提供了文字识别方法，包括：获取图像；将图像划分成各自包含文字的笔划的多个矩形区域；对于多个矩形区域中的相互邻近的第一区域和第二区域，其中第二区域的水平方向的宽度小于第一区域的水平方向的宽度并且第一区域与第二区域部分重叠，如果第一区域和第二区域重叠的区域的水平方向的宽度与第二区域的水平方向的宽度的比值大于或等于第一预设阈值，则将第一区域与所述第二区域合并为一个区域；以及基于改变后的矩形区域划分进行文字识别。

根据本公开的另一方面，还提供了文字识别装置，包括：至少一个处理器，被配置成执行提取印章图像的方法。

通过根据本公开的文字识别方法，对包括日文手写文档在内的文档中的文字进行分割和识别，相比于现有技术，提升了文字识别的准确率。

附图说明

参照下面结合附图对本公开实施方式的说明，会更加容易地理解本公开的以上和其它目的、特点和优点，在附图中：

图1是示出利用过分割算法对手写文字进行过分割(over-segmentation)的结果的示意图；

图2是示出合并经过分割后的矩形区域以及文字识别的过程的示意图；

图3是示出利用常规过分割算法的错误分割的示例的示意图；

图4是示出根据本发明的实施方式的文字识别方法的流程图；

图5是示出常规分割线生成方式的示意图；

图6A示出根据本公开实施方式的基于第一预定条件合并矩形区域的一种方式的示意图；

图6B是示出根据本公开实施方式的基于第一预定条件合并矩形区域的另一方式的示意图；

图7A和图7B是示出根据本公开实施方式的进一步去除冗余矩形区域的一种方式的示意图；

图8A和图8B是示出根据本公开实施方式的进一步去除冗余矩形区域的其他方式的示意图；

图9A和图9B是示出根据本公开实施方式的进一步去除冗余矩形区域的另外其他方式的示意图；

图10A和图10B是示出两组文本行图像的示例的示意图；

图11是示出可用来实现根据本公开的实施方式的文字识别方法的装置的通用机器的结构简图。

具体实施方式

在下文中将结合附图对本公开的示例性实施方式进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，本领域技术人员在实现实施方式的过程中可以做出很多特定于实施方式的决定，以便实现实施方式，并且这些决定可能会随着实施方式的不同而有所改变。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本公开，在附图中仅仅示出了与根据本公开的方案密切相关的部件，而省略了与本公开关系不大的其他细节。

下面参考附图描述这里公开的示例性实施例。应当注意，出于清楚的目的，在附图和描述中省略了有关所属技术领域的技术人员知道但是与示例性实施例无关的部分和过程的表示和说明。

本领域的技术人员可以理解，示例性实施例的各方面可以被实施为系统、方法或计算机程序产品。因此，示例性实施例的各个方面可以具体实现为以下形式，即，可以是完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)、或组合软件部分与硬件部分的实施例，本文可以一般称为"电路"、"模块"或"系统"。此外，示例性实施例的各个方面可以采取体现为一个或多个计算机可读介质的计算机程序产品的形式，该计算机可读介质上面体现有计算机可读程序代码。可以例如通过计算机网络来分发计算机程序，或者计算机程序可以位于一个或更多个远程服务器上，或被嵌入设备的存储器中。

可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是，但不限于电的、磁的、光的、电磁的、红外线的、或半导体的系统、设备或装置、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下：有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储装置、磁存储装置、或前述各项的任何适当的组合。在本文语境中，计算机可读存储介质可以是任何含有或存储供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的有形介质。

计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的其中带有计算机可读程序代码的数据信号。这样的传播信号可以采取任何适当的形式，包括但不限于电磁的、光的或其任何适当的组合。

计算机可读信号介质可以是不同于计算机可读存储介质的、能够传达、传播或传输供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的任何一种计算机可读介质。

体现在计算机可读介质中的程序代码可以采用任何适当的介质传输，包括但不限于无线、有线、光缆、射频等等、或上述各项的任何适当的组合。

用于执行这里公开的示例性实施例的各方面的操作的计算机程序代码可以以一种或多种程序设计语言的任何组合来编写，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++之类，还包括常规的过程式程序设计语言，诸如"C"程序设计语言或类似的程序设计语言。

以下参照按照示例性实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图来描述这里公开的示例性实施例的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以生产出一种机器，使得通过计算机或其它可编程数据处理设备执行的这些指令产生用于实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能够指引计算机或其它可编程数据处理设备以特定方式工作的计算机可读介质中，使得存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令的制造品。

也可以把计算机程序指令加载到计算机或其它可编程数据处理设备上，导致在计算机或其它可编程数据处理设备上执行一系列操作步骤以产生计算机实现的过程，使得在计算机或其它可编程设备上执行的指令提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

图1是示出利用过分割算法对手写文字进行过分割(over-segmentation)的结果的示意图。

图1示出了在使用过分割算法对一行文字进行过分割的结果。过分割即过量分割，通过在例如一行文字组成的图片中设置垂直于行的分割线将一行文字分割位为多个矩形区域，如图1所示。由于经由分割线分割而得到的例如图1所示的矩形区域包含的字符部分可能为一个字符的一部分，因此在后续处理中需要对包含属于同一字符的笔划的两个或多个矩形区域进行合并以形成完整的字符，这将在下面的描述中进行说明。因此，在本公开内容的各实施方式中，使用过分割算法对文字图像进行初步分割。在后续描述中将对具体的分割线确定方式进行说明。

图2是示出合并经过分割后的矩形区域以及文字识别的过程的示意图。

在过分割之后，一个字符可能被划分成两个或多个包含该字符的比划的多个区域。因此，需要将这些区域合并以形成完整的字符以用于识别。在合并阶段，每个区域都将被识别一次，这里采用卷积神经网络(Convolutional Neural Network，CNN)进行识别，然后该区域与随后的1，2，...，n个区域(在图2中，n取为4)合并并被CNN识别。例如，在图2中，三个日文字符“浅草桥”被过分割算法分成了4个区域，因此对这4区域的合并存在10种组合，这样，使用CNN对这10种组合的合并区域分别进行识别。通常，在一行文字中存在较大数量的字符，因此将产生更大数量的分割区域，这样的组合会导致计算负担非常沉重并且非常低效。图3示出了利用常规过分割算法的错误分割的示例。图3中的左图示出了一个字符被划分成5个区域，图3中的右图示出了产生过多的噪声区域的情况。针对例如图3的情况，即便GPU可以有效进行计算，但是当利用CPU进行计算时，计算过程会变得非常缓慢。因此针对例如CPU的计算环境，本发明提出了各种改进以减小计算量，同时保证识别准备率。

图4示出了根据本发明的实施方式的文字识别方法步骤的流程图。

在步骤401中，获取包含字符的文档图像，待识别的图像通常可以是例如对票据、邮件等扫描得到的图像，根据应用需要，也可以是以数字图像方式可获取的包含字符的任意类型的图像。在步骤402中，将获取的图像划分成各自包含文字的笔划的多个矩形区域，具体地，使用上文提到的过分割算法来划分出各个矩形区域，在过分割算法中需要进行图像预处理，在适合于分割的连通域图像上执行分割。然后通过一系列图像处理，将获得几个候选分割线。然后将执行一些过滤方法以删除错误的分割线。但是，仍包含许多冗余的分割线。因此，根据本公开的实施方式在常规过分割算法的基础上进行进一步改进，提出一种删除冗余分割线的过滤方法，在下面将参照图5对该改进方法进行详细说明。由于过分割算法获得分割线的方式对于本领域技术人员是公知的，因此即本文不对其原理进行更详细的描述，本领域技术人员也能够实现。值得注意的是，可以基于具体应用来决定是否采用该经改进的删除冗余分割线的过滤方法。

图5示出了生成分割线的示意图。图5的左图是所确定的适合于分割的连通域图像，并确定了分割点。图5的中间图是连通域图像对应的完整字符图像。右图是分割线的示例，在该常规的算法中，分割线与该字符的笔划的交点数量为4个(不包括分割点本身)，并且很明显可以看出这条分割线是冗余的。根据本发明的各个实施方式，分割线与字符的笔划的交点数量设定为小于或等于2(不包括分割点本身)。这样，过滤掉经统计实验证明为冗余的分割线，在保证识别准确率的情况下，进一步减小计算量。在滤除冗余的分割线后，获得各个矩形区域。在得到分割线的情况下，获取矩形区域的方式对于熟知过分割算法的本领域技术人员是公知的，因此即本文不对其原理进行更详细的描述，本领域技术人员也能够实现。

再次参照图4，在步骤402的处理结束之后，进入步骤403，在步骤403中，基于第一预定条件的满足将多个矩形区域中的相互邻近的第一区域和第二区域进行合并，其中第二区域的水平方向的宽度小于第一区域的水平方向的宽度并且第一区域与第二区域部分重叠，其中该第一预定条件是指对于该第一区域和第二区域，如果第一区域和第二区域重叠的区域的水平方向的宽度与第二区域的水平方向的宽度的比值大于或等于第一预设阈值。下面参照图6A对该第一预定条件进行说明。

图6A示出了根据本公开实施方式的基于第一预定条件合并矩形区域的一种方式的示意图。

在图6A的左图和右图中，有两个部分重叠的区域，右边矩形区域的宽度为w_s，小于左边矩形区域的宽度，重叠部分的宽度是w_o。当满足：w_o/w_s≥th0时，这两个矩形区域被合并为一个矩形区域。这里，th0的值优选为0.3，该优选值被证明具有计算效率与识别准确率的较好折衷，图6A的右图示出了这样的合并方式的一个示例。

再次参照图4，在步骤403结束之后，在步骤404中，基于改变后的矩形区域划分进行文字识别。可以使用深度学习方法进行文字识别，深度学习方法为CNN。

根据本公开的另一实施方式，在步骤401中，获取包含字符的文档图像，待识别的图像通常可以是例如对票据、邮件等扫描得到的图像，根据应用需要，也可以是以数字图像方式可获取的包含字符的任意类型的图像。在步骤402中，将获取的图像划分成各自包含文字的笔划的多个矩形区域，具体地，使用上文提到的过分割算法来划分出各个矩形区域，在过分割算法中需要进行图像预处理，在适合于分割的连通域图像上执行常规的分割或者根据上述描述的优化的分割。在步骤402的处理结束之后，进入步骤403，在步骤403中，基于第一预定条件的满足将多个矩形区域中的相互邻近的第一区域和第二区域进行合并，其中第二区域的水平方向的宽度小于第一区域的水平方向的宽度并且第一区域与第二区域部分重叠，并且多个矩形区域还包括与第二区域邻近且不与第二区域重叠的第三区域，其中该第一预定条件是指对于该第一区域、第二区域和第三区域，如果第一区域和第二区域重叠的区域的水平方向的宽度与第二区域的水平方向的宽度的比值大于或等于第一预设阈值并且第三区域与第二区域的水平方向的距离与第二区域的水平方向的宽度的比值大于或等于第二预设阈值，则述第一区域与所述第二区域合并为一个区域。

图6A的左图示出了这样的合并方式的一个示例，在图6A的左图中，右边矩形区域和与其邻近的另一矩形区域的距离是w_sp。那么，上面所述的第一预定条件为，当w_o/w_s≥th0&&w_sp/w_s≥th1时，这两个矩形区域被合并为一个矩形区域。这里，th0和th1的值均优选为0.3，该优选值被证明具有计算效率与识别准确率的较好折衷。

图6B示出了根据本公开实施方式的基于第一预定条件合并矩形区域的另一种方式的示意图。

图6B示出了根据参照图6A所述的方案的进一步优化。仅利用图6A的方式会出现一些错误。图6B显示了两个例子。为了解决这个问题，根据本公开的实施方式在合并之前判断这两个区域是否属于同一个连通域，如果不属于同一个连通域，将不合并这两个区域。

根据本公开的实施方式，可以在图4的文字识别方法中在过滤取形区域时，去除掉更多的冗余矩形区域。这样的处理步骤将有助于进一步减少矩形区域以提高计算效率。图7A和图7B示出了根据本公开实施方式的进一步去除冗余矩形区域的方式的示意图。

在参照图4描述的文字识别方法中的402步骤获取的多个矩形区域中，可能存在一些宽度过小的非字符矩形区域，因此这些区域应当被删除。图7A和图7B示出了这样的两个示例，圆圈中的小的矩形区域即是应当被删除的非字符矩形区域。具体方式为，删除对多个矩形区域中的水平方向的宽度小于估计的水平方向的平均笔划宽度的矩形区域的划分，其含义在于通过统计笔划区域的平均宽度来确定明显不是笔划的区域并进行删除。

根据本公开的实施方式，可以在图4的文字识别方法中在过滤矩形区域时，去除掉更多的冗余矩形区域。这样的处理步骤将有助于进一步减少矩形区域以提高计算效率。图8A和图8B示出了根据本公开实施方式的进一步去除冗余矩形区域的其他方式的示意图。

在参照图4描述的文字识别方法中的402步骤获取的多个矩形区域中，存在一个较大的矩形区域在水平方向完全覆盖其他的一个或多个矩形区域。图8A示出了这样的两个示例。在图8A中，一个较大的矩形区域在水平方向完全覆盖了另一个较小的矩形区域。在这种情况下，较小的矩形区域应当被删除。但是这样的设定可能会导致错误，如图8B所示较小的矩形区域不应当被移除，因为较小的矩形区域所包含的笔划并不是较大矩形区域中的字符的组成部分。针对这样的情况，增加以下限制条件：当两个矩形区域中的笔划不属于同一个连通域时，将保持较小的矩形区域不变，当两个矩形区域中的笔划属于同一个连通域时，才删除被覆盖的较小的矩形区域。

根据本公开的实施方式，可以在图4的文字识别方法中在过滤矩形区域时，去除掉更多的冗余矩形区域。这样的处理步骤将有助于进一步减少矩形区域以提高计算效率。图9A和图9B示出了根据本公开实施方式的去除冗余矩形区域的另外其他方式的示意图。

在参照图4描述的文字识别方法中的402步骤获取的多个矩形区域中，可能存在一些宽度过小的非字符矩形区域，因此这些区域应当被删除。图9A和图9B示出了这样的两个示例，沿水平方向中的两个相邻的矩形区域可以同时与同一个矩形区域重叠一个。在这种情况下，这个同时与相邻的矩形区域重叠的区域是冗余的，可以被删除。

在根据本公开实施方式的文字识别步骤中，优选地采用深度学习方法，该深度学习方法具体为CNN。

近些年，提出了卷积神经网络(Convolutional Neural Network，CNN)，其是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。它包括卷积层(convolutional layer)和池化层(pooling layer)。CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习，所以在使用CNN时，避免了显式的特征抽取，而隐式地从训练数据中进行学习；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在图像处理和图像识别方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。

因此在本公开的各种实施方式中，使用CNN对组合的字符图像进行识别。由于CNN对于本领域技术人员是公知的，本文仅对其在本公开的实施方式中的应用进行描述，而不对其原理进行更详细的描述。

在经过所有上述这些过程(包括采用上文所述的过分割线优化方法和各种优选的冗余据形区域过滤方法)之后，候选的矩形区域的数量比于最初的常规过分割方法所产生的矩形区域框的数量明显减少并且因此计算效率明显提高。例如所测试的两个数据集(需要注意的，数据集的相关信息的示出的目的仅用于示例说明本发明的技术优越性而不在于限制)，其中一个包含来自快递单的783个日语地址文本行，另一个包含23676个常规的日文文本行。图10A和图10B示出了两组中的文本行图像的示例。通过计算原始的过分割算法得到的矩形区域总数以及优化后的过分割算法得到的矩形区域总数。结果如下表所示：

在783地址文本中，优化后没有生成错误的边界框。在23676个常规文本行中，优化后仅出现10个错误，相较于对于计算效率的改善，在几十万数量级别的矩形区域中的仅10个错误对整体识别准确率的影响是微乎其微的。

应当注意的是，可以对上面描述的删除冗余矩形区域的方式进行任意组合以适用于特定应用。

还应当注意的是，经文字识别后的文字可被计算机读取以用于针对包括被识别文字的文档的操作。

图11是示出可用来实现根据本公开的实施方式的信息处理装置和信息处理方法的通用机器900的结构简图。通用机器900可以是例如计算机系统。应注意，通用机器900只是一个示例，并非暗示对本公开的方法和装置的使用范围或者功能的局限。也不应将通用机器900解释为对上述信息处理方法和信息处理装置中示出的任一组件或其组合具有依赖或需求。

在图11中，中央处理单元(CPU)901根据只读存储器(ROM)902中存储的程序或从存储部分908加载到随机存取存储器(RAM)903的程序执行各种处理。在RAM 903中，还根据需要存储当CPU 901执行各种处理等等时所需的数据。CPU 901、ROM 902和RAM 903经由总线904彼此连接。输入/输出接口905也连接到总线904。

下述部件也连接到输入/输出接口905：输入部分906(包括键盘、鼠标等等)、输出部分907(包括显示器，例如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分908(包括硬盘等)、通信部分909(包括网络接口卡例如LAN卡、调制解调器等)。通信部分909经由网络例如因特网执行通信处理。根据需要，驱动器910也可连接到输入/输出接口905。可拆卸介质911例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器910上，使得从中读出的计算机程序可根据需要被安装到存储部分908中。

在通过软件实现上述系列处理的情况下，可以从网络例如因特网或从存储介质例如可拆卸介质911安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图11所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质911。可拆卸介质911的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 902、存储部分908中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

此外，本公开还提出了一种存储有计算机可读的程序指令的计算机程序产品。所述指令代码由计算机读取并执行时，可执行上述根据本公开的信息处理方法。相应地，用于承载这种程序指令的上面列举的各种存储介质也包括在本公开的范围内。

上面已通过框图、流程图和/或实施方式进行了详细描述，阐明了根据本公开的实施方式的装置和/或方法的具体实施方式。当这些框图、流程图和/或实施方式包含一个或多个功能和/或操作时，本领域的技术人员明白，这些框图、流程图和/或实施方式中的各功能和/或操作可以通过各种硬件、软件、固件或实质上它们的任意组合而单独地和/或共同地实施。在一种实施方式中，本说明书中描述的主题的几个部分可通过特定用途集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或其他集成形式实现。然而，本领域的技术人员会认识到，本说明书中描述的实施方式的一些方面能够全部或部分地在集成电路中以在一个或多个计算机上运行的一个或多个计算机程序的形式(例如，以在一个或多个计算机系统上运行的一个或多个计算机程序的形式)、以在一个或多个处理器上运行的一个或多个程序的形式(例如，以在一个或多个微处理器上运行的一个或多个程序的形式)、以固件的形式、或以实质上它们的任意组合的形式等效地实施，并且，根据本说明书中公开的内容，设计用于本公开的电路和/或编写用于本公开的软件和/或固件的代码完全是在本领域技术人员的能力范围之内。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。涉及序数的术语并不表示这些术语所限定的特征、要素、步骤或组件的实施顺序或者重要性程度，而仅仅是为了描述清楚起见而用于在这些特征、要素、步骤或组件之间进行标识。

综上，在根据本公开的实施方式中，本公开提供了如下方案，但不限于此：

方案1.一种文字识别方法，包括：

获取图像；

将所述图像划分成各自包含文字的笔划的多个矩形区域；

对于所述多个矩形区域中的相互邻近的第一区域和第二区域，其中所述第二区域的水平方向的宽度小于所述第一区域的水平方向的宽度并且所述第一区域与所述第二区域部分重叠，如果所述第一区域和所述第二区域重叠的区域的水平方向的宽度与所述第二区域的水平方向的宽度的比值大于或等于第一预设阈值，则将所述第一区域与所述第二区域合并为一个区域；以及

基于改变后的矩形区域划分进行文字识别。

方案2.根据方案1所述的方法，所述多个矩形区域还包括与所述第二区域邻近且不与所述第二区域重叠的第三区域，如果进一步地，所述第三区域与所述第二区域的水平方向的距离与所述第二区域的水平方向的宽度的比值大于或等于第二预设阈值，则将所述第一区域与所述第二区域合并为一个区域。

方案3.根据方案1或2所述的方法，如果所述第一区域和所述第二区域不属于相同的连通域，则不将所述第一区域与所述第二区域合并为一个区域。

方案4.根据方案1或2所述的方法，删除对所述多个矩形区域中的水平方向的宽度小于估计的水平方向的平均笔划宽度的矩形区域的划分。

方案5.根据方案1或2所述的方法，删除对所述多个矩形区域中的基本上被包含在另一个区域中的区域的划分，除非所述基本上被包含在另一个区域中的区域与所述另一个区域不属于相同的连通域。

方案6.根据方案1或2所述的方法，删除对所述多个矩形区域中的基本上被另外两个区域包含的区域的划分。

方案7.根据方案1或2所述的方法，利用垂直方向上的分割线将所述图像划分成各自包含笔划的多个矩形区域。

方案8.根据方案7所述的方法，其中所述分割线被设定为与笔划的交点数量小于或等于2，其中所述交点不包括分割点。

方案9.根据方案1或2所述的方法，删除对所述多个矩形区域中水平方向的宽度与垂直方向的高度的比值大于或等于2的矩形区域的划分。

方案10.根据方案1或2所述的方法，使用深度学习方法进行所述文字识别，其中所述深度学习方法为CNN。

方案11.根据方案1或2所述的方法，所述文字包括中文或日文。

方案12.根据方案11所述的方法，所述文字为手写体文字。

方案13.根据方案1或2所述的方法，所述图像为文档的扫描图像。

方案14.根据方案1或2所述的方法，所述被识别的文字可进一步被计算机读取。

方案15.一种文字识别装置，包括：

至少一个处理器，被配置成执行前述方案之一所述的方法。

方案16.一种存储有计算机可读的程序指令的计算机可读介质，当所述程序指令由计算机执行时，用于实现文字识别的方法。

尽管上面已经通过对本公开的具体实施方式的描述对本公开进行了披露，但是，应该理解，本领域的技术人员可在所附方案的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开的保护范围内。

Claims

1.一种文字识别方法，包括：

获取图像；

将所述图像划分成各自包含文字的笔划的多个矩形区域；

基于改变后的矩形区域划分进行文字识别。

2.根据权利要求1所述的方法，所述多个矩形区域还包括与所述第二区域邻近且不与所述第二区域重叠的第三区域，如果进一步地，所述第三区域与所述第二区域的水平方向的距离与所述第二区域的水平方向的宽度的比值大于或等于第二预设阈值，则将所述第一区域与所述第二区域合并为一个区域。

3.根据权利要求1或2所述的方法，如果所述第一区域和所述第二区域不属于相同的连通域，则不将所述第一区域与所述第二区域合并为一个区域。

4.根据权利要求1或2所述的方法，删除对所述多个矩形区域中的水平方向的宽度小于估计的水平方向的平均笔划宽度的矩形区域的划分。

5.根据权利要求1或2所述的方法，删除对所述多个矩形区域中的基本上被包含在另一个区域中的区域的划分，除非所述基本上被包含在另一个区域中的区域与所述另一个区域不属于相同的连通域。

6.根据权利要求1或2所述的方法，删除对所述多个矩形区域中的基本上被另外两个区域包含的区域的划分。

7.根据权利要求1或2所述的方法，利用垂直方向上的分割线将所述图像划分成各自包含笔划的多个矩形区域。

8.根据权利要求7所述的方法，其中所述分割线被设定为与笔划的交点数量小于或等于2，其中所述交点不包括分割点。

9.根据权利要求1或2所述的方法，删除对所述多个矩形区域中水平方向的宽度与垂直方向的高度的比值大于或等于2的矩形区域的划分。

10.一种文字识别装置，包括：

至少一个处理器，被配置成执行权利要求1-9之一所述的方法。