CN111275034A

CN111275034A - 从图像中提取文本区域的方法、装置、设备和存储介质

Info

Publication number: CN111275034A
Application number: CN202010061408.5A
Authority: CN
Inventors: 张力文; 武小亮; 潘浩; 罗育浩; 刘建光; 张奎; 黄志文
Original assignee: 21cn Corp Ltd
Current assignee: Tianyi Shilian Technology Co ltd
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2020-06-12
Anticipated expiration: 2040-01-19
Also published as: CN111275034B

Abstract

本申请涉及一种从图像中提取文本区域的方法、装置、计算机设备和存储介质。所述方法包括：获取包含有文本区域的图像；在对所述图像进行逐层卷积的特征提取处理后，对与所述文本区域对应的特征进行增强处理，得到对应的第一增强特征；在对所述第一增强特征进行逐层反卷积的特征还原处理后，对与所述文本区域对应的特征进行增强处理，得到对应的第二增强特征；将同个层次的第一增强特征和第二增强特征进行融合，得到融合特征；根据所述融合特征，从所述图像中提取所述文本区域。采用本方法能够提高文本区域的准确性。

Description

从图像中提取文本区域的方法、装置、设备和存储介质

技术领域

本申请涉及文本图像识别技术领域，特别是涉及一种从图像中提取文本区域的方法、装置、计算机设备和存储介质。

背景技术

文本图像识别技术是从文本图像中获取到计算机可识别的文本的技术。文本图像识别技术主要包括两个阶段：从文本图像中提取文本区域和对提取到的文本区域进行识别，从而得到计算机可识别文本。文本区域的准确性对于识别得到的文本的准确性有较大影响。但是，在许多场景中，文本图像的背景可能会比较复杂(如图像亮度不足、图像模糊)，如果利用传统的AdvancedEast算法从图像中提取文本区域，在文本区域首尾部分的效果不好，导致文本区域不准确。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高文本区域准确性的从图像中提取文本区域方法、装置、计算机设备和存储介质。

第一方面，提供一种从图像中提取文本区域方法，所述方法包括：

获取包含有文本区域的图像；

在对所述图像进行逐层卷积的特征提取处理后，对与所述文本区域对应的特征进行增强处理，得到对应的第一增强特征；

在对所述第一增强特征进行逐层反卷积的特征还原处理后，对与所述文本区域对应的特征进行增强处理，得到对应的第二增强特征；

将同个层次的第一增强特征和第二增强特征进行融合，得到融合特征；

根据所述融合特征，从所述图像中提取所述文本区域。

在一个实施例中，所述在对所述图像进行逐层卷积的特征提取处理后，对与所述文本区域对应的特征进行增强处理，得到对应的第一增强特征的步骤，包括：

在对所述图像进行一个层次卷积的特征提取处理后，得到多个特征图谱；

分别对所述多个特征图谱中的多个特征进行压缩，得到对应的压缩特征；

将达到预设条件的压缩特征作为目标压缩特征；

利用预先训练到的第一权重，对所述目标压缩特征进行加权处理；

利用加权处理后的目标压缩特征，对对应的特征图谱中的特征进行增强处理，得到对应的第一增强特征。

在一个实施例中，在所述利用预先训练到的第一权重，对所述目标压缩特征进行加权处理的步骤之前，还包括：

获取多个第一样本；所述第一样本为用于进行训练的图像；

在利用ResNet50骨架网络的卷积层对所述多个第一样本进行卷积处理后，将卷积处理后的多个第一样本输入至ResNet50骨架网络的第一SENet block模块中，对所述第一SENet block模块进行训练，将得到的所述第一SENet block模块的权重作为第一权重。

获取多个第二样本；所述第二样本为用于进行训练的图像；

在利用MobileNet骨架网络的卷积层对所述多个第二样本进行卷积处理后，将卷积处理后的多个第二样本输入至MobileNet骨架网络的第二SENet block模块中，对所述第二SENet block模块进行训练，将得到的所述第二SENet block模块的权重作为第一权重。

在一个实施例中，所述对与所述文本区域对应的特征进行增强处理，得到对应的第二增强特征的步骤，包括：

获取预先训练到的第二权重；

从所述第二权重中挑选大于或等于预设值的权重；

利用所挑选的权重，对所述文本区域的特征进行增强处理，得到对应的第二增强特征。

在一个实施例中，在所述获取预先训练到的第二权重的步骤之前，还包括：

获取多个第三样本；所述第三样本为用于进行训练的图像；

在利用反卷积层对各个第三样本进行反卷积处理后，将反卷积处理后的各个第三样本输入Attention模块中，对所述Attention模块进行训练，得到所述第二权重。

在一个实施例中，在所述根据所述融合特征，从所述图像中提取所述文本区域的步骤之后，还包括：

利用非极大值抑制算法，对非相邻的文本区域进行聚合处理；

将聚合处理后的文本区域作为目标文本区域；所述目标文本区域为用于进行识别处理的文本区域。

在一个实施例中，在所述将聚合处理后的文本区域作为目标文本区域的步骤之后，还包括：

获取预先训练的文本识别模型；

通过所述文本识别模型对所述目标文本区域进行识别处理，得到所述图像中的文本。

第二方面，提供一种从图像中提取文本区域装置，所述装置包括：

图像获取模块，用于获取包含有文本区域的图像；

第一增强模块，用于在对所述图像进行逐层卷积的特征提取处理后，对与所述文本区域对应的特征进行增强处理，得到对应的第一增强特征；

第二增强模块，用于在对所述第一增强特征进行逐层反卷积的特征还原处理后，对与所述文本区域对应的特征进行增强处理，得到对应的第二增强特征；

特征融合模块，用于将同个层次的第一增强特征和第二增强特征进行融合，得到融合特征；

文本区域提取模块，用于根据所述融合特征，从所述图像中提取所述文本区域。

第三方面，提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取包含有文本区域的图像；

根据所述融合特征，从所述图像中提取所述文本区域。

第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取包含有文本区域的图像；

根据所述融合特征，从所述图像中提取所述文本区域。

上述从图像中提取文本区域方法、装置、计算机设备和存储介质，在对包含有文本区域的图像进行逐层卷积的特征提取处理后，对文本区域的特征进行增强处理，得到对应的第一增强特征，在对第一增强特征进行逐层反卷积的特征还原处理后，对文本区域的特征进行增强处理，得到对应的第二增强特征，在每个层次的特征提取处理和特征还原处理都进行增强处理，可以使得文本区域的特征更加突出，进而将同个层次的第一增强特征和第二增强特征进行融合，得到融合特征，使得融合特征包含不仅包括来自上一个层次反卷积层次的特征，也包括了同个层次卷积处理的特征，进而提高根据该融合特征提取到的文本区域的准确性。

附图说明

图1为一个实施例中计算机设备的内部结构图；

图2为一个实施例中从图像中提取文本区域方法的流程示意图；

图3为另一个实施例中文本区域提取模型的网络结构示意图；

图4为一个实施例中从图像中提取文本区域装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本申请所描述的实施例可以与其它实施例相结合。

本申请提供的从图像中提取文本区域方法，可以应用于如图1所示的计算机设备中。该计算机设备可以是终端，其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种从图像中提取文本区域方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，如图2所示，提供了一种从图像中提取文本区域方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤202，获取包含有文本区域的图像。

其中，图像可以包括文本区域，文本区域可以是指包含有字符的区域，如汉字、英文字母、拼音、数字等；图像还可以包括文本区域和非文本区域，非文本区域可以是指包含有人物、风景等非文本的区域。图像可以是指背景复杂的图像，背景复杂可以理解为文本区域的噪声较大(如文本区域中的字符模糊)或者文本区域的亮度不足。

在本步骤中，包含有文本区域的图像可以从其他设备传输到终端，使得终端获取到包含有文本区域的图像，也可以由终端从自身的存储器中获取到包含有文本区域的图像。

步骤204，在对图像进行逐层卷积的特征提取处理后，对与文本区域对应的特征进行增强处理，得到对应的第一增强特征。

在本步骤中，先以终端对包含有文本区域的图像(为表述简洁，在下文的介绍中，将包含有文本区域的图像称为图像)进行一层卷积的特征提取处理为例进行介绍。终端获取到图像后，对图像进行卷积处理，得到与文本区域对应的特征，当图像包括非文本区域时，在卷积处理后，也可以得到与非文本区域对应的特征；终端对文本区域的特征进行增强处理，增强处理的方式可以是利用权重对文本区域的特征进行加权处理，当图像包括非文本区域时，增强处理的方式还可以是对非文本区域的特征进行抑制处理，从而使文本区域的特征得到增强，对非文本区域的特征进行抑制处理的方式可以是利用权重对非文本区域的特征进行加权处理，其中，上述提及的加权处理可以理解为是将特征和对应的权重相乘。

终端在对文本区域的特征进行增强处理后，文本区域的每个特征都会有其对应的第一增强特征；如果增强处理方式是利用权重对文本区域的特征进行加权处理，那么第一增强特征可以是加权处理后的文本区域的特征，如将特征和权重的乘积作为第一增强特征；如果增强处理方式是抑制非文本区域的特征，那么第一增强特征可以是原来的文本区域的特征。在本步骤中，终端对文本区域进行增强处理的方式还可以是利用较大的权重对文本区域的特征进行加权处理，利用较小的权重对非文本区域的特征进行抑制处理，此时第一增强特征可以是加权处理后的文本区域的特征，如将特征和权重的乘积作为第一增强特征。

在一个实施例中，终端在对图像进行一个层次卷积的特征提取处理后，可以得到多个特征图谱(featuering map，也可以称为特征图)，每个特征图谱包含有与文本区域对应的特征，这些特征的个数可以是多个的，其中，特征图谱可以理解为是由多个特征组成的矩阵。

可以理解的是，当终端得到多个特征图谱时，此时对文本区域的特征进行增强处理主要是凸显对提取文本区域比较重要的特征图谱中的文本区域的特征；此时，凸显重要的特征图谱中文本区域的特征的方式可以是对提取文本区域比较重要的特征图谱中的文本区域的特征进行增强，也就是说，增强对提取文本区域有较大贡献度的特征图谱中的文本区域的特征，或者抑制对提取文本区域的贡献度较小的特征图谱中的文本区域的特征，或者同时进行增强和抑制处理。

先以终端对一个特征图谱为例介绍压缩的过程，该特征图谱包括多个特征，终端将多个特征压缩为一个特征，将该特征称为压缩特征，该压缩特征包含有文本区域在该特征图谱中特征的信息，此时该压缩特征与该特征图谱对应。终端对每个特征图谱中的多个特征都进行压缩，可以得到与每个特征图谱对应的压缩特征，例如，如果有3个特征图谱，那么终端对3个特征图谱中的特征进行压缩后，会得到对应的3个压缩特征。

接着，终端在得到与特征图谱对应的压缩特征后，从多个压缩特征中，分析压缩特征包含的文本区域的特征的信息，当包含的文本区域的特征的信息达到预设条件时，将该压缩特征作为目标压缩特征，预设条件可以理解为该特征图谱中文本区域的特征对文本区域提取的重要性，也就是说，如果一个特征图谱中文本区域的特征对文本区域的提取比较重要，那么就对该特征图谱的压缩特征作为目标压缩特征，其中，特征图谱中文本区域的特征对文本区域的重要性可以通过压缩特征的大小判断，也可以结合文本区域的特征和压缩特征进行判断；终端利用预先训练到的第一权重，对目标压缩特征进行加权处理，利用加权处理后的目标压缩特征，对对应的特征图谱中的特征进行增强处理，得到对应的第一增强特征。

终端也可以将对提取文本区域较不重要的特征图谱的压缩特征作为目标压缩特征，此时通过第一权重进行加权处理，以抑制较不重要的特征图谱中的文本区域的特征，实现对较重要的特征图谱中的文本区域的特征进行增强。其中，利用加权处理后的目标压缩特征，对对应的特征图谱中的特征进行增强处理可以是将加权处理后的目标压缩特征与对应的特征图谱中文本区域的特征进行相乘，或者将加权处理后的目标压缩特征与对应的特征图谱中的全部特征进行相乘。

终端在对图像进行卷积的特征提取处理并对文本区域的特征进行增强处理后，将得到的第一增强特征作为下一个卷积处理的输入，进行更深层次的特征提取处理，得到更深层次文本区域的特征，并对更深层次的文本区域的特征进行增强处理，增强处理的方式可以参照上述的介绍，这里不赘述。

步骤206，在对第一增强特征进行逐层反卷积的特征还原处理后，对与文本区域对应的特征进行增强处理，得到对应的第二增强特征。

终端在进行最后一个层次卷积的特征提取处理和增强处理后，将该层次的得到的第一增强特征作为第一个层次反卷积的特征还原处理的输入，当进行第一个层次反卷积的特征还原处理后，会得到还原后的特征，其中包括文本区域的特征，此时对文本区域的特征进行增强处理，得到对应的第二增强特征。

需要说明的是，在一个实施例中，对文本区域的特征进行增强处理，得到第二增强特征的时候，终端可以先获取预先训练到的第二权重，从第二权重中挑选大于或等于预设值的权重，利用该挑选的权重对文本区域的特征进行增强处理，得到对应的第二增强特征。至于其他可能的增强处理得到第二增强特征的方式可以结合步骤204的介绍进行，这里不赘述。

另外，为区分特征提取处理和特征还原处理得到的增强特征，用“第一/第二”进行区分；为区分特征提取处理后进行增强处理和特征还原处理后进行增强处理时这两个不同阶段使用的权重，用“第一/第二”进行区分，第一权重和第二权重的数值可以是相同的，也可以是不同的；“第一/第二”不应理解为对本申请从图像中提取文本区域的方法的限定。

步骤208，将同个层次的第一增强特征和第二增强特征进行融合，得到融合特征。

其中，同个层次可以理解为以第一个层次卷积的特征提取处理和最后一个层次反卷积的特征展开处理为基准进行确定，如果存在某个层次卷积没有对应的同个层次的反卷积，将该层次卷积输出的第一增强特征作为第一个层次反卷积的输入特征，例如有4个层次卷积，依次分别为卷积a、b、c和d，3个层次反卷积，依次分别为e、f和g，那么卷积a和反卷积g分别为第一个层次的卷积和最后一个层次的卷积，此时，将卷积a和反卷积g看成同一个层次，在此基准上，将卷积b和反卷积f看成同一个层次，将卷积c和反卷积e看成同一个层次，而卷积d则无对应同个层次的反卷积，此时，卷积d输出的第一增强特作为反卷积e的输入特征。

终端在进行每个层次反卷积的特征还原处理并对还原处理后的文本区域的特征进行增强后，可以获取同个层次的第一增强特征，将同个层次的第一增强特征和第二增强特征进行融合，得到融合特征，此时，每个层次反卷积的融合特征既包括了对应的同个层次的第一增强特征，也包括了来自上一层次反卷积输出的增强特征。

终端可以将每个层次得到的融合特征作为下一个更深层次反卷积的特征还原处理的输入，进行更深层次的特征还原处理和增强处理。

步骤210，根据融合特征，从图像中提取文本区域。

终端在进行到最后一个层次反卷积特征还原处理、增强处理和融合处理后，得到对应的融合特征，根据该融合特征，从图像中提取到文本区域。

上述从图像中提取文本区域的方法中，在对包含有文本区域的图像进行逐层卷积的特征提取处理后，对文本区域的特征进行增强处理，得到对应的第一增强特征，在对第一增强特征进行逐层反卷积的特征还原处理后，对文本区域的特征进行增强处理，得到对应的第二增强特征，在每个层次的特征提取处理和特征还原处理都进行增强处理，可以使得文本区域的特征更加突出，进而将同个层次的第一增强特征和第二增强特征进行融合，得到融合特征，使得融合特征包含不仅包括来自上一个层次反卷积层次的特征，也包括了同个层次卷积处理的特征，进而提高根据该融合特征提取到的文本区域的准确性。

在一个实施例中，本申请从图像中提取文本区域的方法可以是基于预先训练好的文本区域提取模型进行的。现在先介绍文本区域模型：在该文本区域提取模型(也可以理解用于提取文本区域的神经网络结构)中，采用Unet的网络形式和ResNet50作为骨架网络，在ResNet50下采样的每个卷积层的输出处配置一个SENet block模块，其中SENet block模块用于下采样每个卷积层输出的文本区域的特征进行增强处理，并且将增强处理得到的第一增强特征输入至下一个卷积层和同个层次的融合层；在ResNet50上采样的每个反卷积层的输出处配置一个Attention模块，也就是说，Attention模块位于反卷积层和融合层之间，用于对反卷积层输出的文本区域的特征进行增强处理，将增强处理得到的第二增强特征输入至融合层。需要说明的是，下采样中的最后一个卷积层中的SENet block模块输出的第一增强特征是输入至上采样的第一个反卷积层，此时第一个反卷积层对应的融合阶段输入的第一增强特征来自下采样的倒数第二个SENet block模块的输出。

在一个实施例中，如果采用ResNet50作为骨架网络，对文本区域提取模型进行训练可以包括对SENet block模块进行训练，具体地：终端可以获取用于进行训练的多个图像，将多个图像作为第一样本输入文本区域模型中，利用ResNet50骨架网络中的卷积层对多个第一样本进行卷积处理，得到卷积处理后的多个第一样本，将卷积处理后的多个第一样本输入至SENet block模块中，对SENet block模块进行训练，也就是说，确定SENetblock模块中的权重，将训练结束后得到的权重作为第一权重，其中，SENet block模块预先配置在ResNet50骨架网络的卷积层的输出处。进一步地，终端还可以对Attention模块进行训练，其中，Attention模块预先配置在反卷积层的输出处，具体地，终端获取用于进行训练的多个图像，将多个图像作为第三样本，在利用反卷积层对各个第三样本进行反卷积处理后，得到反卷积处理后的各个第三样本，将反卷积处理后的各个第三样本输入至Attention模块，对Attention模块进行训练，得到第二权重。

在上述实施例中，在ResNet50骨架网络中的卷积层后添加SENet block模块，对ResNet50骨架网络进行优化，使得优化后的ResNet50骨架网络在提取文本区域时，可以对文本区域的特征进行增强处理，解决随着卷积层的加深，导致提取到的文本区域的准确率下降的问题，如果在ResNet50骨架网络的反卷积层后添加Attention模块，进一步使得ResNet50骨架网络在提取文本区域的过程中，更加注重文本区域的特征，进一步确保了提取到的文本区域的准确性。

在一个实施例中，文本区域提取模型还可以是采用Unet的网络形式和MobileNet作为骨架网络，在MobileNet下采样的每个卷积层的输出处配置一个SENet block模块，其中SENet block模块用于下采样每个卷积层输出的文本区域的特征进行增强处理，并且将增强处理得到的第一增强特征输入至下一个卷积层和同个层次的融合层；在MobileNet上采样的每个反卷积层的输出处配置一个Attention模块，也就是说，Attention模块位于反卷积层和融合层之间，用于对反卷积层输出的文本区域的特征进行增强处理，将增强处理得到的第二增强特征输入至融合层。需要说明的是，下采样中的最后一个卷积层中的SENetblock模块输出的第一增强特征是输入至上采样的第一个反卷积层，此时第一个反卷积层对应的融合阶段输入的第一增强特征来自下采样的倒数第二个SENet block模块的输出。

在一个实施例中，如果采用MobileNet作为骨架网络，对文本区域提取模型进行训练可以包括对SENet block模块进行训练，其中，SENet block模块预先配置在MobileNet骨架网络的卷积层的输出处，具体地：终端可以获取用于进行训练的多个图像，将多个图像作为第二样本输入文本区域模型中，利用MobileNet骨架网络中的卷积层对多个第二样本进行卷积处理，得到卷积处理后的多个第二样本，将卷积处理后的多个第二样本输入至SENetblock模块中，对SENet block模块进行训练，也就是说，确定SENet block模块中的权重，将训练结束后得到的权重作为第一权重。进一步地，终端还可以对Attention模块进行训练，可以参照其他实施例的介绍，这里不赘述。在上述实施例中，当采用MobileNet骨架网络时，在每个卷积层后添加SENet block模块，对MobileNet骨架网络进行优化，在降低参数量的同时保证了文本区域的准确性，如果在MobileNet骨架网络的反卷积层后添加Attention模块，进一步使得MobileNet骨架网络在提取文本区域的过程中，更加注重文本区域的特征，进一步确保了提取到的文本区域的准确性。

需要说明的是，为了区分不同的训练场景用“第一/第二/第三”对各个训练场景的样本进行区分，第一样本、第二样本和第三样本可以是同一个样本；，为了区分ResNet50骨架网络和MobileNet骨架网络中配置的SENet block模块，用“第一/第二”进行区分。另外，ResNet50骨架网络和MobileNet骨架网络都是归属于全卷积(FCN)网络模型，基于FCN网络模型，直接提取文本区域，在一定程度上提高了提取文本区域的检测速度。

在传统利用非极大值抑制算法中，通常是对相邻的文本区域进行聚合处理，如果，其中一个文本区域满足抑制条件，则会导致与其相邻的文本区域被抑制，导致文本区域的准确性降低，本申请提供一个实施例，在利用非极大值抑制算法对相邻的文本区域进行聚合处理时，同时对非相邻的文本区域进行聚合处理，以保证文本区域的准确性，具体地，在根据融合特征从图像中提取到文本区域的步骤之后，还包括：终端利用非极大值抑制算法，对非相邻的文本区域进行聚合处理，将聚合处理后的文本区域作为用于进行识别处理的目标文本区域。

在一个实施例中，在将聚合处理后的文本区域作为用于进行识别处理的目标文本区域后，终端可以获取预先训练好的文本识别模型，通过文本识别模型对目标文本区域进行识别处理，得到图像中的文本。具体地，可以将文本识别领域中的开源算法，并结合像素级预测的纠正模型作为文本识别模型；该文本识别模型将文本区域分解为多个小块的文本区域，然后获取每个小块文本区域的回归偏移量，并对偏移量进行平滑操作，再在原文本区域上进行采用，得到形状更加规则的水平文本，使得文本识别阶段的抗干扰能力和鲁棒性更强。

结合一个应用实施例介绍本申请从图像中提取文本区域的方法。

在该应用实施例中，包括两个阶段：模型训练阶段和推理阶段，其中，模型训练阶段利用大量的图片数据(相当于样本)训练出有效的神经网络模型(文本定位模型和字符识别模型，文本定位模型相当于文本区域提取模型，字符识别模型相当于文本识别模型)；推理阶段是对实际场景中的包含有文本区域的图像进行文本定位推理(相当于文本区域的提取)、字符识别推理(相当于对文本区域进行识别)，最后将图像中的文本变成可编辑的文本(相当于计算机可识别的文本)。

模型训练阶段中文本定位算法的训练流程主要包括数据采集、数据预处理、数据批量训练、模型测试。

在数据采集方面，为了尽量多得到自然场景的包含有文本区域的图像，可以收集ICDAR2015、ICDAR2019和天池比赛数据集，并人工拍摄包含有文本区域的图像、对图像进行标注，共得到20000张图像。

在数据预处理方面主要是对数据进行数据增强，数据增强的操作具体有几何变换(Geometric transformations)、翻转(Flipping)、色彩空间(Color space)、裁剪(Cropping)、旋转(Rotation)、平移(Translation)、噪声(Noise injection)、色彩转换空间(Color space transformations)等。图像的几何变换又称为图像空间变换，它将一幅图像中的坐标位置映射到另一幅图像中的新生位置。几何变换不改变图像的像素值，只是在图像平面上进行像素的重新安排。翻转对于图像而言，主要是进行水平翻转和垂直翻转。数字图像数据通常被编码为一个维度的张量(height×width×color channels)，在颜色通道空间中执行增强，可以包括隔离单色通道，如R、G或B，或者是对其直方图进行改变，用的比较多的方法：调节亮度，对比度，饱和度，直方图均衡化，白平衡，clahe等。裁剪是为了改变图片center的大小。旋转是让图像在0-360°内旋转，顺时针，逆时针都可以，轻微旋转在1°到20°之间和-1°到-20°之间，如果是有标签的数据，xml要跟着进行旋转。平移是向左、向右、向上或向下移动图像，以避免数据中的位置偏移。图片增加噪声提高模型的鲁棒性，常见的有高斯模糊，椒盐噪声，均值滤波等。色彩空间转换是将图像在rgb,hsv,lab等色彩空间之间相互转换。

数据批量训练主要是根据优化后的神经网络结构(文本区域提取模型)进行训练和调参操作，其中整个神经网络架构采用Unet网络形式(如图3)，骨架网络根据具体需求可采用MobileNet或者ResNet50，同时在MobileNet和ResNet50中每个卷积层的输出后增加一个SENet block模块，来进一步提高文本区域的特征提取的精度，并在每一次上采样的反卷积层和特征融合层之间添加了Attetion机制(相当于Attetion模块)，用于区别每个特征通道(特征通道相当于文本区域的特征)的重要程度。

Unet网络形式可以简单看为先下采样，经过不同层次的卷积层，学习了深层次的特征(相当于特征提取处理)，再经过上采样恢复为原图大小(相当于特征还原处理)，上采样可以用反卷积实现。Unet采用了和其他网络形式不同的特征融合方式：拼接，Unet采用将特征在channel维度拼接在一起，形成更厚的特征，而FCN(全卷积神经网络)融合时使用的对应点相加，并不形成更厚的特征。上采样部分会融合特征提取部分(相当于卷积层)的输出，这样做实际上是将多尺度的特征融合在了一起，以上采样最后一个融合层的输出为例，它的特征既来自第一个卷积层的输出(同个层次的增强特征)，也来自上采样的输出(大尺度特征)，这样的连接是贯穿整个网络的，如图3所示，在图3的Unet网络中有三次Concat模块的融合过程。

在图3中，featuer extractor为特征提取处理阶段，特征提取处理主要基于卷积层实现，可以采用MobileNet或者ResNet50作为骨架网络。Conv stage1、Conv stage2、Convstage3和Conv stage4相当于不同层次的卷积层，在每个卷积层后面都增加了一个SENetblock模块，SENet block模块的输出作为下一个卷积层的输入和同个层次Concat模块的输入，其中第一个卷积层Conv stage1的输入可以为图像的R、G和B三个特征图谱，例如图3中Hx W x 3。当Conv stage4作为最后一个卷积层时，与其对应的SENet block模块的输出作为第一个反卷积层Unpool的输入，和第一个反卷积层对应的Concat模块的输入为Convstage3的输出，也就是说，在利用Concat模块进性特征融合时，Conv stage3和第一个反卷积层作为同一个层次，以此类推，Conv stage1、Conv stage2分别和第二个反卷积层、第三个反卷积层作为同一个层次。另外，在featuer merging branch(特征融合处理阶段)每个反卷积层Unpool层和Concat模块之间都加入了Attention module，Attention module可以理解为Attention模块，将第三个Concat模块输出的融合特征作为提取文本区域的特征，输入到Output layer中，进行文本区域的提取。

骨架网络是采用MobileNet或者ResNet50替换AdvancedEast算法的VGG16骨架网络。MobileNet是Google针对手机等嵌入式设备提出的一种轻量级的深层神经网络，MobileNet的主要工作是用depthwise sparable convolutions(深度级可分离卷积)替代过去的standard convolutions(标准卷积)来解决卷积网络的计算效率和参数量的问题。MobileNet模型基于是depthwise sparable convolutions(深度级可分离卷积)，它可以将标准卷积分解成一个深度卷积和一个点卷积(1×1卷积核)。深度卷积将每个卷积核应用到每一个通道，而1×1卷积用来组合通道卷积的输出，使用分解后的卷积效果和标准卷积效果是近似的。相比VGG16，MobileNet的准确度稍微下降，然而从计算量和参数量上MobileNet具有绝对的优势。

ResNet50骨架网络有2个基本的block(模块)，一个是恒等模块(IdentityBlock)，输入和输出的维度是一样的，所以可以串联多个；另外一个基本block是卷积模块(Conv Block)，用于改变特征的维度，输入和输出的维度是不一样的，所以不能连续串联，相比VGG16，虽然计算量和参数量上多于VGG16，但ResNet50的准确度有了很大的提升。

本申请对ResNet50骨架网络进行了优化，在ResNet50骨架网络的每一个卷积层后加入了SENet block模块来进行通道的优化。本申请利用SENet模块对文本区域的特征进行增强处理，增强对提取文本区域贡献度高的特征，抑制对提取文本区域贡献度低的特征。在利用SENet模块对文本区域的特征进行增强处理时，先通过压缩操作，将多个特征图谱压缩为对应的压缩特征，然后，利用达到激活效果的门机制中的激活函数判定压缩特征是否达到预设条件，如果达到预设条件，则利用预先训练的第一权重对该压缩特征进行加权处理，从而捕获到特征通道的依赖性。

本申请的从图像中提取文本区域的方法也对特征融合Concat模块做了优化，在每一次融合之前都增加一个Attention机制，使其在文本融合的过程更加注重每一个特征通道的重要。在文本区域提取的后处理阶段，对NMS算法(non maximum suppression非极大值抑制)进行了优化，使得NMS算法在对相邻的文本区域进行聚合的同时，也会对非相邻的文本区域进行聚合，使文本区域的聚合更加容易。在字符识别推理阶段采用MORAN字符识别算法，它是由矫正子网络MORN和识别子网络ASRN组成，在MORN中设计了一种新颖的像素级弱监督学习机制用于不规则文本的形状纠正，大大降低了不规则文本的识别难度。

在上述实施例中，使用Unet网络形式，以ResNet50为骨架网络，对ResNet50进行了优化，在ResNet50每一个卷积层的输出对接SENet block模块，提高特征提取的精度，同时在特征融合过程之前加入Attention机制，并在文本后处理时进行了像素聚合(相当于文本区域聚合)的优化，提高文本区域的准确度；另外，在上述实施例中，还使用Unet网络形式，以MobileNet为骨架网络，在MobileNet每一个卷积层的输出对接SENet block模块，提高特征提取的精度，同时在特征融合过程之前加入Attention机制，直接对文本框进行预测，消除了生成候选框等复杂过程，同时减少了参数量和计算量，并在文本后处理时进行了像素聚合的优化，达到在精度损失不大的情况下，提高文本区域的提取速度。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种从图像中提取文本区域的装置400，包括：图像获取模块402、第一增强模块404、第二增强模块406、特征融合模块408和文本区域提取模块410，其中：

图像获取模块402，用于获取包含有文本区域的图像；

第一增强模块404，用于在对图像进行逐层卷积的特征提取处理后，对与文本区域对应的特征进行增强处理，得到对应的第一增强特征；

第二增强模块406，用于在对第一增强特征进行逐层反卷积的特征还原处理后，对与文本区域对应的特征进行增强处理，得到对应的第二增强特征；

特征融合模块408，用于将同个层次的第一增强特征和第二增强特征进行融合，得到融合特征；

文本区域提取模块410，用于根据融合特征，从图像中提取文本区域。

在一个实施例中，第一增强模块404，还用于在对图像进行一个层次卷积的特征提取处理后，得到多个特征图谱；分别对多个特征图谱中的多个特征进行压缩，得到对应的压缩特征；将达到预设条件的压缩特征作为目标压缩特征；利用预先训练到的第一权重，对目标压缩特征进行加权处理；利用加权处理后的目标压缩特征，对对应的特征图谱中的特征进行增强处理，得到对应的第一增强特征。

在一个实施例中，从图像中提取文本区域的装置400，还包括第一训练模块，第一训练模块，用于获取多个第一样本；第一样本为用于进行训练的图像；在利用ResNet50骨架网络的卷积层对多个第一样本进行卷积处理后，将卷积处理后的多个第一样本输入至ResNet50骨架网络的第一SENet block模块中，对第一SENet block模块进行训练，将得到的第一SENet block模块的权重作为第一权重。

在一个实施例中，从图像中提取文本区域的装置400，还包括第二训练模块，第二训练模块，用于获取多个第二样本；第二样本为用于进行训练的图像；在利用MobileNet骨架网络的卷积层对多个第二样本进行卷积处理后，将卷积处理后的多个第二样本输入至MobileNet骨架网络的第二SENet block模块中，对第二SENet block模块进行训练，将得到的第二SENet block模块的权重作为第一权重。

在一个实施例中，第二增强模块406，还用于获取预先训练到的第二权重；从第二权重中挑选大于或等于预设值的权重；利用所挑选的权重，对文本区域的特征进行增强处理，得到对应的第二增强特征。

在一个实施例中，从图像中提取文本区域的装置400，还包括第三训练模块，第三训练模块，用于获取多个第三样本；第三样本为用于进行训练的图像；在利用反卷积层对各个第三样本进行反卷积处理后，将反卷积处理后的各个第三样本输入Attention模块中，对Attention模块进行训练，得到第二权重。

在一个实施例中，从图像中提取文本区域的装置400，还包括文本区域聚合模块，文本区域聚合模块，用于利用非极大值抑制算法，对非相邻的文本区域进行聚合处理；将聚合处理后的文本区域作为目标文本区域；目标文本区域为用于进行识别处理的文本区域。

在一个实施例中，从图像中提取文本区域的装置400，还包括文本识别模块，文本识别模块，用于获取预先训练的文本识别模型；通过文本识别模型对目标文本区域进行识别处理，得到图像中的文本。

关于从图像中提取文本区域的装置的具体限定可以参见上文中对于从图像中提取文本区域方法的限定，在此不再赘述。上述从图像中提取文本区域装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述各个方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各个方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种从图像中提取文本区域的方法，包括：

获取包含有文本区域的图像；

根据所述融合特征，从所述图像中提取所述文本区域。

2.根据权利要求1所述的方法，其特征在于，所述在对所述图像进行逐层卷积的特征提取处理后，对与所述文本区域对应的特征进行增强处理，得到对应的第一增强特征的步骤，包括：

分别对所述多个特征图谱中的特征进行压缩，得到对应的压缩特征；

将达到预设条件的压缩特征作为目标压缩特征；

3.根据权利要求2所述的方法，其特征在于，

在所述利用预先训练到的第一权重，对所述目标压缩特征进行加权处理的步骤之前，还包括：

获取多个第一样本；所述第一样本为用于进行训练的图像；

在利用ResNet50骨架网络的卷积层对所述多个第一样本进行卷积处理后，将卷积处理后的多个第一样本输入至ResNet50骨架网络的第一SENet block模块中，对所述第一SENetblock模块进行训练，将得到的所述第一SENet block模块的权重作为第一权重；

或，

获取多个第二样本；所述第二样本为用于进行训练的图像；

4.根据权利要求1所述的方法，其特征在于，所述对与所述文本区域对应的特征进行增强处理，得到对应的第二增强特征的步骤，包括：

获取预先训练到的第二权重；

从所述第二权重中挑选大于或等于预设值的权重；

5.根据权利要求4所述的方法，其特征在于，在所述获取预先训练到的第二权重的步骤之前，还包括：

获取多个第三样本；所述第三样本为用于进行训练的图像；

6.根据权利要求1所述的方法，其特征在于，在所述根据所述融合特征，从所述图像中提取所述文本区域的步骤之后，还包括：

7.根据权利要求6所述的方法，其特征在于，在所述将聚合处理后的文本区域作为目标文本区域的步骤之后，还包括：

获取预先训练的文本识别模型；

8.一种从图像中提取文本区域的装置，包括：

图像获取模块，用于获取包含有文本区域的图像；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。