CN109919146A

CN109919146A - 图片文字识别方法、装置及平台

Info

Publication number: CN109919146A
Application number: CN201910106685.0A
Authority: CN
Inventors: 周钊; 郑莹斌; 叶浩
Original assignee: Shanghai Chengguan Information Technology Co Ltd
Current assignee: Shanghai Chengguan Information Technology Co Ltd
Priority date: 2019-02-02
Filing date: 2019-02-02
Publication date: 2019-06-21

Abstract

一种图片文字识别方法，包括：局部分割，将包含有文字信息的图片分割为多个区域，判断每个区域是否含有文字信息，对于包含有文字信息的区域提取其中的文字信息；全局连接，将包含有文字信息的区域进行拼接处理，根据拼接合并后的区域提取识别出其中的文字信息。在局部分割步骤中，将所述的图片区域再进一步分割，生成多个子区域，判断每个子区域是否含有文字信息，对于包含有文字信息的子区域提取其中的文字信息；在全局连接步骤中，将包含有文字信息的子区域进行拼接处理，根据拼接合并后的区域提取识别出其中的文字信息。

Description

图片文字识别方法、装置及平台

技术领域

本发明属于图像处理技术领域，特别涉及一种图片文字识别方法、装置及平台。

背景技术

现有的对图片中包含的文本文字的提取识别，通常会使用到OCR。光学字符识别技术(OCR)，是通过扫描、摄影等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息，再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。适合于银行、税务等行业大量票据表格的自动扫描识别及长期存储。相对一般文本，通常以最终识别率、识别速度、版面理解正确率及版面还原满意度4个方面作为OCR技术的评测依据；而相对于表格及票据，通常以识别率或整张通过率及识别速度为测定OCR技术的实用标准。

OCR中通常还包括字符检测和字符识别。其中字符检测技术，通过一些图像处理的方法，获取文字边缘，形状等特征，从而获取文字的区域。目前的技术都是通过深度学习的方法，利用深度神经网络获取文字的特征，然后通过预先定义的基础文字框进行分类，回归或者直接分割的方法确定文字的区域。字符识别技术，当前的技术是通过深度学习的方法，利用循环神经网络获取图像的连续特征，然后通过分类的方式确定每个识别块的文字。

如图1所示的文字识别方法，首先通过传统的图像处理的方法对输入的图像进行二值化处理，然后根据文字的特征进行模糊处理，最后用区域检测算法标定出文字的区域，然后送入到识别网络中进行图像的处理。该技术简单，效率高，占用的计算资源较少。但是这种方法的缺点是，对输入图像的要求较高，只能处理文字大小相近且直线排列的文字，不能处理任意形状的文字。这里的任意形状文字，是由于很多图片中的文字，由于艺术美化的需要，采用了变体文字的表现形式，不仅包括常用字体，还包括又各种夸张变形的字体，给文字的自动识别带来困难。

又，例如图2所示的文字识别方法，借鉴通用图像物体检测的思路(如Faster-RCNN)，采用深度神经网络提取文字的特征，然后根据这些特征判断预先设定好基础的文本框(通常为不同长宽比的矩形)是否存在文字以及文字区域的偏移量，从而确定文字的区域。之后送入到识别网络中，获取文字信息。该方法的缺点是，对于图像中可能存在的长文字区域比较容易检测不准确，位置信息不够精准，不能解决弯曲字体的识别。

发明内容

本发明实施例提供了一种图片文字识别方法及装置，针对图片中任意字体字形和大小的文字进行识别提取，解决了现有图片文字识别方法对于变体文字识别差错较大的问题。

本发明实施例之一，一种图片文字识别方法，该方法包括：

局部分割，将包含有文字信息的图片分割为多个区域，判断每个区域是否含有文字信息，对于包含有文字信息的区域提取其中的文字信息；

全局连接，将包含有文字信息的区域进行拼接处理，确定拼接合并区域内文字的中心位置，在根据文字中心位置调整文字区域边界，确定包含文字信息的区域。

优选的，在局部分割步骤中，将所述的图片区域再进一步分割，生成多个子区域，判断每个子区域是否含有文字信息，对于包含有文字信息的子区域提取其中的文字信息。

本发明通过局部分割和全局连接处理，先从整体上对图片上的文字进行粗略的定位，之后根据前一步粗略的定位后进行精细化的分割，准确的框定文字的区域，之后用空间变换网络将任意形状的字体变成水平方向的文字。最后接入到识别网络中，就可以获得图片上的所有文字信息。有效解决了对于图片中长串文字和变形文字的识别提取问题。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1现有的一种图片文字识别方法示意性流程图。

图2现有的另一种图片文字识别方法示意性流程图。

图3是根据本发明实施例的对图片进行局部分割的示意性流程图。

图4是根据本发明实施例的对图片局部分割后进行全局连接的示意性流程图。

图5是根据本发明实施例的对于文字进行空间变换和识别的示意性流程图。

图6是根据本发明实施例的图片文字识别系统组成示意图。

具体实施方式

根据一个或者多个实施例，对于图片中文字的识别，尤其是长串文字和/或任意字体形状的文字检测识别，采用局部分割和全局连接这两个步骤。

局部分割步骤，选定长宽比例为1的矩形作为粗略筛选文字区域的候选框。利用深度神经网络提取好图像的特征后，判断正方形候选框是否包含文字内容。提取包含文字的候选框，然后在正方形的区域内进行局部分割，精细的确定文字区域。

全局连接步骤，通过局部分割的信息拼接每一个局部的文字。根据合并的区域确定文字的中心点的位置，最后通过每个区域分割信息确定文字的区域。

该实施例的方法能够解决任意形状文字的检测问题，同时能克服现有技术中无法检测长串文字的问题，能够准确并且快速的确定文字的区域。

进一步的，获取文字区域的信息后，通过空间变换网络，将任意形状、大小的文字都变换到水平方向，随后送入到识别网络，获取文字的信息。

根据一个或者多个实施例，如图3所示，是局部分割步骤的流程图。首先输入一张图片图像，通过神经网络提取文字特征，使用主流的神经网络包括VGG、ResNet等。例如，可以选用ResNet50作为局部分割的基础网络，搭建多层网络。又例如，使用FPN的思路，搭建多层连接的网络结构，更好的提取图片中小字和大字的特征。

局部分割步骤包括：获取图片图像，通过神经网络提取文字特征；其中，又分为神经网络底层特征预测文字区域、神经网络中层特征预测文字区域和神经网络高层特征预测文字区域。其中，底层特征主要为纹理性的信息(如横向纹理、纵向纹理等)，中层特征主要为结构性的信息(如偏旁部首等信息)，高层特征包括文字信息等。利用粗略预测的文字区域进行精细分割，最后获得局部分割结果。

根据一个或者多个实施例，如图4所示，是全局连接步骤流程图，则全局连接包括步骤：

输入局部分割的结果，计算每两个局部分割结果之间重叠部分的面积S1，其中较小的局部分割结果面积S2，

如果S1/S2大于阈值T，则认为这两个局部区域可以合并在一起。

重复比较任意两个局部分割的结果，直到都不满足上述条件为止。

对每一个合并后的区域提取分割信息，在分割信息上均匀采样后，利用采样后的点，运用主方向曲线(principle curve)技术回归出这些采样点中心点，然后再一次均匀采样，将中心点的个数缩减到7个。利用7个中心点，将中心点之间的六个区域进行光滑，找轮廓以及外接矩形等操作确定文字外边框的位置。

可选的，全局连接步骤可以包括：

对于局部分割结果，遍历所有局部分割结果，计算出重叠部分与两个局部分割结果的最小值的比例R；将所有R大于阈值T的局部结果合并处理，否则作为一个新的区域，最后形成文字区域；利用文字区域形成文字的中心点，利用中心点形成文字的外边框，最后获得文字框边界。

根据一个或者多个实施例，一种图片文字识别方法，该方法包括：

全局连接，将包含有文字信息的区域进行拼接处理，根据拼接合并后的区域提取识别出其中的文字信息。

在全局连接处理获得包含文字信息区域的边界——文字框后，将文字框输入到空间变换网络，将任意方向的文字框转化为水平方向的文字，然后将水平方向的文字输入到识别网络中，识别出文字信息。如图5所示。本实施例通过粗略筛选到精细定位，从局部分割到全局连接的方法，获取了图片上任意形状文字的信息，既保证了识别的稳定性，也解决了长字和任意形状文字的信息提取。

根据一个或者多个实施例，一种图片文字识别装置，所述识别装置包括存储器；以及耦合到所述存储器的处理器，该处理器被配置为执行存储在所述存储器中的指令，所述处理器执行以下操作：

根据一个或者多个实施例，一种图片文字识别平台，所述平台包括服务器，服务器具有存储器；以及耦合到所述存储器的处理器，该处理器被配置为执行存储在所述存储器中的指令，所述处理器执行以下操作：

根据一个或者多个实施例，如图6所示，一种图片文字识别系统，包括局部分割模块、全局连接模块、空间变换模块和文字识别模块。

局部分割模块，将包含有文字信息的图片分割为多个区域，判断每个区域是否含有文字信息，对于包含有文字信息的区域提取其中的文字信息；

全局连接模块，将包含有文字信息的区域进行拼接处理，根据拼接合并后的区域提取识别出其中的文字信息；

空间变换模块，在获取文字区域的信息后，将任意形状、大小的文字都变换到水平方向；

文字识别模块，将处于水平排列的图片文字识别提取，获取文字信息。

应理解，在本发明实施例中，术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种图片文字识别方法，其特征在于，该方法包括：

2.根据权利要求1所述的图片文字识别方法，其特征在于，在全局连接的步骤中，确定拼接合并区域内文字的中心位置，在根据文字中心位置调整文字区域边界，确定包含文字信息的区域。

3.根据权利要求1所述的图片文字识别方法，其特征在于，在局部分割步骤中，将所述的图片区域再进一步分割，生成多个子区域，判断每个子区域是否含有文字信息，对于包含有文字信息的子区域提取其中的文字信息；

在全局连接步骤中，将包含有文字信息的子区域进行拼接处理，根据拼接合并后的区域提取识别出其中的文字信息。

4.根据权利要求1所述的图片文字识别方法，其特征在于，所述的分割图片的区域是矩形形状。

5.根据权利要求1所述的图片文字识别方法，其特征在于，图片中包含的文字是变体文字。

6.根据权利要求1所述的图片文字识别方法，其特征在于，采用深度神经网络提取被分割后的图片区域内的文字信息或者拼接合并后的区域内的文字信息。

7.根据权利要求2所述的图片文字识别方法，其特征在于，将包含文字信息的区域调整至使得全部文字可以保持水平排列的位置，拼接合并成一个图片区域后经过文字识别器，获取文本文字信息。

8.一种图片文字识别装置，其特征在于，所述识别装置包括存储器；以及

耦合到所述存储器的处理器，该处理器被配置为执行存储在所述存储器中的指令，所述处理器执行以下操作：

9.一种图片文字识别平台，其特征在于，所述平台包括服务器，服务器具有存储器；以及

10.一种存储介质，骑上存储有计算机程序，其特征在于，该程序被处理器执行时，实现如权利要求1至7中任一所述的图片文字识别方法。