CN113888758A

CN113888758A - 一种基于复杂场景中的弯曲文字识别方法和系统

Info

Publication number: CN113888758A
Application number: CN202111029153.5A
Authority: CN
Inventors: 马丹峰; 唐会军; 梁堃; 刘拴林; 陈建
Original assignee: Beijing Nextdata Times Technology Co ltd
Current assignee: Beijing Nextdata Times Technology Co ltd
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2022-01-04
Anticipated expiration: 2041-09-01
Also published as: CN113888758B

Abstract

本发明公开了一种基于复杂场景中的弯曲文字识别方法和系统，涉及文字识别领域。该方法包括：基于文字分割模型检测待识别图片的第一文字区域，将所述第一文字区域中的非文字内容进行标记，去除所述第一文字区域中标记的非文字内容获得第二文字区域，将所述第二文字区域输入经卷积层改进后的CRNN模型，获得文字识别结果，基于文字分割模型的分割方法的优势在于相对于现有文字识别方案中的回归方法能够更准确地检测出弯曲文字，能够有效区分紧凑的文本行且有良好的处理速度。通过本方案能够准确识别自然场景中常出现的弯曲文字，有效提升OCR在自然场景中的识别字准确率。也提高了各类需要识别文字的应用效果。

Description

一种基于复杂场景中的弯曲文字识别方法和系统

技术领域

本发明涉及文字识别领域，尤其涉及一种基于复杂场景中的弯曲文字识别方法和系统。

背景技术

随着社会的不断发展，图片文字识别的需求也在不断扩大。例如，网络社交媒体中带有不良内容的文字图片层出不穷，破坏了绿色网络的良性发展，也将损坏网民尤其是中小青年网民的身心健康。虽然已有文字识别技术，但是现有的技术无法准确识别出弯曲文字。然而，弯曲文字在自然场景中尤为常见。

现阶段相关图片文字识别技术的主要流程可以包括：检测和识别两个步骤，1.使用文本检测模型检测出图中文字位置，得到矩形文本框；2.使用文字识别模型对检测到的文本框识别出对应的文字内容。该流程能够较为有效地识别出表格、报表等文字水平工整规范的图片。然而，通过实践表明该流程对于复杂的自然场景中较为常见的弯曲文本识别不佳。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种基于复杂场景中的弯曲文字识别方法和系统。

本发明解决上述技术问题的技术方案如下：

一种基于复杂场景中的弯曲文字识别方法，包括：

S1，基于文字分割模型检测待识别图片的第一文字区域；

S2，将所述第一文字区域中的非文字内容进行标记；

S3，去除所述第一文字区域中标记的非文字内容获得第二文字区域；

S4，将所述第二文字区域输入经卷积层改进后的CRNN模型，获得文字识别结果。

本发明的有益效果是：本方案通过文字分割模型将待识别图片划分出第一文字区域，并将第一文字区域中的非文字内容进行标记，根据标记去除第一文字区域的非文字内容，获得第二文字区域，将所述第二文字区域输入经卷积层改进后的CRNN模型，获得文字识别结果，通过本方案能够准确识别自然场景中常出现的弯曲文字，有效提升OCR在自然场景中的识别字准确率。也提高了各类需要识别文字的应用效果。

基于文字分割模型的分割方法的优势在于相对于现有文字识别方案中的回归方法能够更准确地检测出弯曲文字，能够有效区分出紧凑的文本行且有良好的处理速度。

基于卷积层改进后的CRNN模型进行文字识别，通过改进的卷积层可以显著提高模型提取特征的能力，进而提升文字识别的准确率。

进一步地，所述文字分割模型包括：PSEnet文字检测模型。

采用上述进一步方案的有益效果是：本方案基于PSEnet文字检测模型的分割方法的优势在于相对于现有文字识别方案中的回归方法能够更准确地检测出弯曲文字，能够有效区分出紧凑的文本行且有良好的处理速度。

进一步地，

所述S4之前，还包括：将所述CRNN模型中卷积神经网络的卷积层修改为Xception模型的特征提取结构，获得改进后的CRNN模型。

采用上述进一步方案的有益效果是：本方案通过将所述CRNN模型中卷积神经网络的卷积层修改为Xception模型的特征提取结构，获得改进后的CRNN模型，合理地修改卷积层显著提高模型提取特征的能力，进而提升文字识别的准确率。

进一步地，所述S1具体包括：

基于文字分割模型检测待识别图片，获得文字区域，对所述文字区域进外接最小矩形，获得第一文字区域。

采用上述进一步方案的有益效果是：本方案通过基于文字分割模型检测待识别图片，获得文字区域，对所述文字区域进外接最小矩形，获得第一文字区域，通过分割方法的优势相对于现有识别方案中的回归方法能够更准确地检测出弯曲文字。

进一步地，所述S4具体包括：

将所述第二文字区域输入Xception的ExitFlow中，首先进行上采样，将上采样结果与Xception的EntryFlow的第三次下采样的特征图进行Concat 操作，获得文字识别结果。

采用上述进一步方案的有益效果是：本方案通过将所述CRNN模型中卷积神经网络的卷积层修改为以Xception为主干网络，获得改进后的CRNN 模型，合理地修改卷积层显著提高模型提取特征的能力，进而提升文字识别的准确率。

本发明解决上述技术问题的另一种技术方案如下：

一种基于复杂场景中的弯曲文字识别系统，包括：第一区域获取模块、标记模块、第二区域获取模块和文字识别模块；

所述第一区域获取模块用于基于文字分割模型检测待识别图片的第一文字区域；

所述标记模块用于将所述第一文字区域中的非文字内容进行标记；

所述第二区域获取模块用于去除所述第一文字区域中标记的非文字内容获得第二文字区域；

所述文字识别模块用于将所述第二文字区域输入经卷积层改进后的 CRNN模型，获得文字识别结果。

进一步地，所述文字分割模型包括：PSEnet文字检测模型。

进一步地，

所述S4之前，还包括：模型改进模块，用于将所述CRNN模型中卷积神经网络的卷积层修改为Xception模型的特征提取结构，获得改进后的 CRNN模型。

采用上述进一步方案的有益效果是：本方案通过将所述CRNN模型中卷积神经网络的卷积层修改为Xception模型的特征提取结构，获得改进后的 CRNN模型，合理地修改卷积层显著提高模型提取特征的能力，进而提升文字识别的准确率。

进一步地，所述第一区域获取模块用于基于文字分割模型检测待识别图片，获得文字区域，对所述文字区域进外接最小矩形，获得第一文字区域。

进一步地，所述文字识别模块具体用于将所述第二文字区域输入 Xception的ExitFlow中，首先进行上采样，将上采样结果与Xception的 EntryFlow的第三次下采样的特征图进行Concat操作，获得文字识别结果。

本发明附加的方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明实践了解到。

附图说明

图1为本发明的实施例提供的一种基于复杂场景中的弯曲文字识别方法的流程示意图；

图2为本发明的实施例提供的一种基于复杂场景中的弯曲文字识别系统的结构框图；

图3为本发明的其他实施例提供的待识别图片；

图4为本发明的其他实施例提供的待识别图片经文字分割模型的处理结果；

图5为本发明的其他实施例提供的待识别图片的最小外接矩形文本框；

图6为本发明的其他实施例提供的待识别图片的去除背景的文本框；

图7为本发明的其他实施例提供的改进的Xception主干网络结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实施例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，为本发明实施例提供的一种基于复杂场景中的弯曲文字识别方法，包括：

S1，基于文字分割模型检测待识别图片的第一文字区域；

S2，将所述第一文字区域中的非文字内容进行标记；

在某一实施例中，可以包括：将图片Xh*w*c输入文字分割模型f_D()，其中，h,w分别为图片的高和宽，c为图片通道数，模型输出与原图相同高宽的检测结果f_D(Xh*w*c)＝Maskh*w。其中，Mask[i][j]＝1代表原图X中(i,j) 坐标像素为文字，Mask[i][j]＝0代表原图X中(i,j)坐标像素为非文字。这样， Mask中值为1的联通区域即为文本区域，多个1的联通区域代表了不同的多行文本。各个文本区域记作Ti(i＝1,...,n)，n为检测结果中文本框的个数。

如图3为原图X，进过检测模型得到如图4的检测结果Mask。图2中黑色部分为非文字区域，白色部分为文字区域。

对每个文字区域Ti外接最小矩形，Recti,(i＝1,…,n)。在以往的方案中，直接在原图Xh*w*c中截图矩形框。这样做的缺点在于如果文本是弯曲不规则的，那么截取后的文本框含有较多的非文字的背景信息，这些背景信息会对之后的文本识别造成干扰。因此，为了竟可能减少背景信息对文字识别的干扰，在本方案中，首先对每个文字区域Ti外接最小矩形，之后将在矩形内的非文本区域置0，同时保留原本文本区域。这样就得到了去除背景信息的文本框。

最小外接矩形文本框，即表示第一文字区域，如图5所示，去除背景的文本框，即第二文字区域如图6所示。

在某一实施例中，去除了背景的文本框Boxi，输入改进的Xception为主干网络的CRNN中进行文字识别，并输出文本框的文字。

在某一实施例中，CRNN模型输入是由文字分割模型检测后的文本框，输出图中的文字字符串；CRNN模型包括：卷积神经网络，循环神经网络和 CTC(ConnectionistTemporal Classification)；CRNN模型靠近输入的前层是卷积神经网路，其主要作用是提出文本框中的特征信息；CRNN模型靠近输出的后层是循环神经网络，其主要作用是序列特征提取；最后的CTC和序列特征学习图中上下文信息，预测得到图中的文字；

经卷积层改进后的CRNN模型可以包括：在上述CRNN模型的基础上，修改了CRNN中7层卷积层，替换为改进后的Xception模型的特征提取结构，其中Xception是一个轻量的深度学习网络，在图像分类中有很好的准确率。通过改进后的CRNN模型可以显著提高模型提取特征的能力，进而提升文字识别的准确率。

在某一实施例中，改进的Xception网络结构包括：在ExitFlow最后的输出中首先上采样，之后和EntryFlow第三次下采样的特征图进行Concat 操作，具体改进后的Xception结构如图7所示，如图7中Input为模型输入。 Conv代表普通卷积操作用于提取特征。ReLU为激活函数。SeparalbeConv 为深度可分离卷积，其比普通卷积有更少的参数量。MaxPooling为最大池化。 Upsample为上采样。Concat为concatenate融合操作。最后Ooutput为网络输出。如图7中+号为矩阵间逐元素加操作。如图7中“Conv 32,3×3, stride＝2×2”中32代表卷积输出特征通道数目，3×3为卷积核大小，stride 代表卷积核步长。

Xception是一个轻量级的卷积神经网络，在图像分类中有很高的准确率。网络分为Entry Flow、Middle Flow和Exit Flow。Entry Flow是输入阶段，用于初步特征提取，为深度特征提取做准备。Middle Flow是中间阶段，用于深度特征提取。最后Exit Flow是输出阶段。

本方案对Xception做出的改进：将网络浅层和深层的feature map进行融合，更加丰富了特征信息，能够提高模型识别字准确率。

本方案通过文字分割模型将待识别图片划分出第一文字区域，并将第一文字区域中的非文字内容进行标记，根据标记去除第一文字区域的非文字内容，获得第二文字区域，将所述第二文字区域输入经卷积层改进后的CRNN 模型，获得文字识别结果，通过本方案能够准确识别自然场景中常出现的弯曲文字，有效提升OCR在自然场景中的识别字准确率。也提高了各类需要识别文字的应用效果。

优选地，在上述任意实施例中，所述文字分割模型包括：PSEnet文字检测模型。

在某一实施例中，基于分割的方法可属于目标分割，文字分割模型能够抠出文字的外轮廓，外轮廓的最小外接矩形即为检测到的文本框。LSAE、 DBNet、PSENet等模型是基于分割的方法。基于分割方法的优势在于相对于现有文字识别方案的回归方法能够更准确地检测出弯曲文字，基于分割的文字检测方法能够有效实现弯曲文字的检测。更具体地，本方案使用PSEnet 作为文字检测模型，它的优点在于能够有效区分紧凑的文本行且有良好的处理速度，也可以根据实际应用需求选择其他分割模型，不做具体限定。

本方案基于PSEnet文字检测模型的分割方法的优势在于相对于现有文字识别方案中的回归方法能够更准确地检测出弯曲文字，能够有效区分出紧凑的文本行且有良好的处理速度。

优选地，在上述任意实施例中，所述CRNN模型由是卷积神经网络，循环神经网络和CTC；卷积神经网络，循环神经网络和CTC依次连接。

S4之前，还包括：将所述CRNN模型中卷积神经网络的卷积层修改为 Xception模型的特征提取结构，获得改进后的CRNN模型。

本方案通过将所述CRNN模型中卷积神经网络的卷积层修改为 Xception模型的特征提取结构，获得改进后的CRNN模型，合理地修改卷积层显著提高模型提取特征的能力，进而提升文字识别的准确率。

优选地，在上述任意实施例中，所述S1具体包括：

本方案通过基于文字分割模型检测待识别图片，获得文字区域，对所述文字区域进外接最小矩形，获得第一文字区域，通过分割方法的优势相对于现有识别方案中的回归方法能够更准确地检测出弯曲文字。

优选地，在上述任意实施例中，所述S4具体包括：

本方案通过将所述CRNN模型中卷积神经网络的卷积层修改为以Xception为主干网络，获得改进后的CRNN模型，合理地修改卷积层显著提高模型提取特征的能力，进而提升文字识别的准确率。

在某一实施例中，如图2所示，一种基于复杂场景中的弯曲文字识别系统，包括：第一区域获取模块1001、标记模块1002、第二区域获取模块1003 和文字识别模块1004；

所述第一区域获取模块1001用于基于文字分割模型检测待识别图片的第一文字区域；

所述标记模块1002用于将所述第一文字区域中的非文字内容进行标记；

所述第二区域获取模块1003用于去除所述第一文字区域中标记的非文字内容获得第二文字区域；

所述文字识别模块1004用于将所述第二文字区域输入经卷积层改进后的CRNN模型，获得文字识别结果。

在某一实施例中，去除了背景的文本框Box_i，输入改进的Xception为主干网络的CRNN中进行文字识别，并输出文本框的文字。

在某一实施例中，改进的Xception网络结构包括：在ExitFlow最后的输出中首先上采样，之后和EntryFlow第三次下采样的特征图进行Concat 操作，具体改进后的Xception结构如图7所示。

在某一实施例中，基于分割的方法可属于目标分割，文字分割模型能够抠出文字的外轮廓，外轮廓的最小外接矩形即为检测到的文本框。LSAE、 DBNet、PSENet等模型是基于分割的方法。基于分割方法的优势在于相对于现有文字识别方案的回归方法能够更准确地检测出弯曲文字，基于分割的文字检测方法能够有效实现弯曲文字的检测。更具体地，本方案使用PSEnet 作为文字检测模型，它的优点在于能够有效区分出紧凑的文本行且有良好的处理速度。

优选地，在上述任意实施例中，所述CRNN模型由是卷积神经网络，循环神经网络和CTC；

还包括：模型改进模块，用于将所述CRNN模型中卷积神经网络的卷积层修改为Xception模型的特征提取结构，获得改进后的CRNN模型。

优选地，在上述任意实施例中，所述第一区域获取模块1001用于基于文字分割模型检测待识别图片，获得文字区域，对所述文字区域进外接最小矩形，获得第一文字区域。

优选地，在上述任意实施例中，所述文字识别模块1004具体用于

将第二文字区域输入Xception的ExitFlow中，首先进行上采样，将上采样结果与Xception的EntryFlow的第三次下采样的特征图进行Concat操作，获得文字识别结果。

本方案通过将所述CRNN模型中卷积神经网络的卷积层修改为以 Xception为主干网络，获得改进后的CRNN模型，合理地修改卷积层显著提高模型提取特征的能力，进而提升文字识别的准确率。

可以理解，在一些实施例中，可以包含如上述各实施例中的部分或全部可选实施方式。

需要说明的是，上述各实施例是与在先方法实施例对应的产品实施例，对于产品实施例中各可选实施方式的说明可以参考上述各方法实施例中的对应说明，在此不再赘述。

读者应理解，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM， Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于复杂场景中的弯曲文字识别方法，其特征在于，包括：

S1，基于文字分割模型检测待识别图片的第一文字区域；

S2，将所述第一文字区域中的非文字内容进行标记；

2.根据权利要求1所述的一种基于复杂场景中的弯曲文字识别方法，其特征在于，所述文字分割模型包括：PSEnet文字检测模型。

3.根据权利要求1所述的一种基于复杂场景中的弯曲文字识别方法，其特征在于，

4.根据权利要求1-3任一项所述的一种基于复杂场景中的弯曲文字识别方法，其特征在于，所述S1具体包括：

5.根据权利要求3所述的一种基于复杂场景中的弯曲文字识别方法，其特征在于，所述S4具体包括：

将所述第二文字区域输入Xception的ExitFlow中，首先进行上采样，将上采样结果与Xception的EntryFlow的第三次下采样的特征图进行Concat操作，获得文字识别结果。

6.一种基于复杂场景中的弯曲文字识别系统，其特征在于，包括：第一区域获取模块、标记模块、第二区域获取模块和文字识别模块；

所述文字识别模块用于将所述第二文字区域输入经卷积层改进后的CRNN模型，获得文字识别结果。

7.根据权利要求6所述的一种基于复杂场景中的弯曲文字识别系统，其特征在于，所述文字分割模型包括：PSEnet文字检测模型。

8.根据权利要求6所述的一种基于复杂场景中的弯曲文字识别系统，其特征在于，

9.根据权利要求6-8任一项所述的一种基于复杂场景中的弯曲文字识别系统，其特征在于，所述第一区域获取模块用于基于文字分割模型检测待识别图片，获得文字区域，对所述文字区域进外接最小矩形，获得第一文字区域。

10.根据权利要求8所述的一种基于复杂场景中的弯曲文字识别系统，其特征在于，所述文字识别模块具体用于