CN112580738B

CN112580738B - 基于改进的AttentionOCR文本识别方法及装置

Info

Publication number: CN112580738B
Application number: CN202011574221.1A
Authority: CN
Inventors: 范凌
Original assignee: Tezign Shanghai Information Technology Co Ltd
Current assignee: Tezign Shanghai Information Technology Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-07-23
Anticipated expiration: 2040-12-25
Also published as: CN112580738A

Abstract

本申请公开了一种基于改进的AttentionOCR文本识别方法及装置。该基于改进的AttentionOCR文本识别方法包括获取待识别图片的文本区域图片；通过主干网络提取文本区域图片的特征图，其中，主干网络为卷积神经网络；根据注意力机制模型计算特征图对应的文字注意区域的文字特征向量；通过全连接网络对时间序列方向的文字特征向量进行分类，根据每个分类结果得到文本识别结果。本申请至少解决了由于计算量大造成的识别速度慢的技术问题。

Description

基于改进的AttentionOCR文本识别方法及装置

技术领域

本申请涉及文字识别领域，具体而言，涉及一种基于改进的AttentionOCR文本识别方法及装置。

背景技术

随着人工智能进程的不断发展，自然场景下的文字识别也成为了该进程中不可或缺的一环。在进行文字识别时，通常会采用提取文字特征进行识别。相关技术中主要通过两种方法进行文字识别，其一是通过CRNN(Convolutional Recurrent Neural Network)进行文字识别，但其主干网络VGG(Visual Geometry Group Network)会存在提取特征的能力不佳的问题，并且CRNN的分类网络为LSTM(Long Short-Term Memory)，会存在计算量大会存在识别速度慢、并且只能识别水平排布的文字块的问题。其二是通过相关论文《Show,Attend and Tell:Neural Image Caption Generation with Visual Attentio》、《Attention-based Extraction of Structured Information from Street ViewImagery》中的AttentionOCR进行文字识别，但AttentionOCR的分类网络同样为LSTM(LongShort-Term Memory)，会存在计算量大会存在识别速度慢、并且只能识别水平排布的文字块的问题。

针对相关技术中存在的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种基于改进的AttentionOCR文本识别方法，以解决由于计算量大造成的识别速度慢的问题。

为了实现上述目的，本申请提供了一种基于改进的AttentionOCR文本识别方法及装置。

第一方面，本申请提供了一种基于改进的AttentionOCR文本识别方法。

根据本申请的基于改进的AttentionOCR文本识别方法包括：

获取待识别图片的文本区域图片；

通过主干网络提取文本区域图片的特征图，其中，所述主干网络为卷积神经网络；

根据注意力机制模型计算特征图对应的文字注意区域的文字特征向量；

通过全连接网络对时间序列方向的文字特征向量循环进行分类，根据每个分类结果得到文本识别结果。

进一步的，所述获取待识别图片的文本区域图片包括：

将待识别图片进行文本检测，得到文本区域和文本区域对应的轮廓区域；

根据文本区域和轮廓区域生成掩码图片，根据掩码图片对文本区域和进行降噪处理，得到文本区域降噪图；

通过卷积神经网络识别文本区域降噪图的特征，确定文本区域特征，得到包含文本区域特征的文本区域图片。

进一步的，所述将待识别图片进行文本检测，得到文本区域和文本区域对应的轮廓区域包括：

将待检测图片进行裁剪，得到裁剪图片集；

计算裁剪图片集的特征图，得到裁剪特征图集，其中，所述特征图包括单字位置信息和字间连接信息；

将裁剪特征图集根据裁剪图片集对应待检测图片的位置进行拼接，得到待检测图片对应的待检测特征图；

根据单字位置信息和字间连接信息，检测待检测特征图上的文本区域和文本区域对应的轮廓区域。

进一步的，所述主干网络为InceptionV4模型，所述通过主干网络提取文本区域图片的特征图包括：

通过主干网络InceptionV4的前向计算对文本区域图片进行降维以及特征提取处理，得到文本区域降维特征图。

进一步的，所述文字注意区域为多个，所述根据注意力机制模型计算特征图对应的文字注意区域的文字特征向量，包括：

根据一个初始的零向量在注意力机制模型上确定特征图的第一个文字注意区域，并计算第一个文字注意区域对应的第一文字特征向量；

将所述文字特征向量输入嵌入模型获取嵌入特征向量，并将嵌入特征向量反馈输入到注意力机制模型中，确定在特征图上的下一个文字注意区域，以便注意力机制模型获取下一个文字注意区域对应的下一文字特征向量；

将下一个文字注意区域对应的下一文字特征向量输入到嵌入模型获取下一个嵌入特征向量，并确定再下一个文字注意区域，依次循环执行，直到计算得到所有文字注意区域的文字特征向量为止。

进一步的，所述计算第一个文字注意区域对应的第一文字特征向量包括：

确定特征图上每一像素位的权重，并根据特征图上每一像素位的权重生成特征图对应的权重图；

根据权重图和特征图增强文字区域的特征，得到文字区域增强特征作为文字区域的注意力图；

根据文字区域的注意力图特征对通道方向求和得到文字特征向量。

进一步的，所述根据每个分类结果得到文本识别结果包括：

基于逻辑回归模型根据分类结果确定每个类别对应的文字的概率；

将概率最高类别的文字作为文字识别结果；

根据所有文字识别结果确定所述文本识别结果。

第二方面，本申请提供了一种基于改进的AttentionOCR文本识别装置。

根据本申请的基于改进的AttentionOCR文本识别装置包括：

图片输入模块，用于获取待识别图片的文本区域图片；

主干网络模块，用于通过主干网络提取文本区域图片的特征图，其中，所述主干网络为卷积神经网络；

注意力机制模块，用于根据注意力机制模型计算特征图对应的文字注意区域的文字特征向量；

全连接网络模块，用于通过全连接网络对时间序列方向的文字特征向量循环进行分类，根据每个分类结果得到文本识别结果。

进一步的，所述图片输入模块包括：

文本检测单元，用于将待识别图片进行文本检测，得到文本区域和文本区域对应的轮廓区域；

区域降噪单元，用于根据文本区域和轮廓区域生成掩码图片，根据掩码图片对文本区域和轮廓区域进行降噪处理，得到文本区域降噪图；

特征提取单元，用于通过卷积神经网络识别文本区域降噪图的特征，确定文本区域特征，得到包含文本区域特征的文本区域图片。

进一步的，所述文本检测单元还包括：

用于将待检测图片进行裁剪，得到裁剪图片集；计算裁剪图片集的特征图，得到裁剪特征图集，其中，所述特征图包括单字位置信息和字间连接信息；将裁剪特征图集根据裁剪图片集对应待检测图片的位置进行拼接，得到待检测图片对应的待检测特征图；根据单字位置信息和字间连接信息，检测待检测特征图上的文本区域和文本区域对应的轮廓区域。

进一步的，所述主干网络模块中主干网络为InceptionV4模型，所述主干网络模块包括：

图片降维单元，用于通过主干网络InceptionV4的前向计算对文本区域图片进行降维以及特征提取处理，得到文本区域降维特征图。

进一步的，所述注意力机制模块中文字注意区域为多个，所述注意力机制模块包括：

向量计算单元，用于根据一个初始的零向量在注意力机制模型上确定特征图的第一个文字注意区域，并计算第一个文字注意区域对应的第一文字特征向量；

嵌入模型单元，用于根据一个初始的零向量在注意力机制模型上确定特征图的第一个文字注意区域，并计算第一个文字注意区域对应的第一文字特征向量；

反馈单元，用于将所述文字特征向量输入嵌入模型获取嵌入特征向量，并将嵌入特征向量反馈输入到注意力机制模型中，确定在特征图上的下一个文字注意区域，以便注意力机制模型获取下一个文字注意区域对应的下一文字特征向量；

区域确定单元，用于将下一个文字注意区域对应的下一文字特征向量输入到嵌入模型获取下一个嵌入特征向量，并确定再下一个文字注意区域，依次循环执行，直到计算得到所有文字注意区域的文字特征向量为止。

进一步的，所述向量计算单元还包括：

用于确定特征图上每一像素位的权重，并根据特征图上每一像素位的权重生成特征图对应的权重图；根据权重图和特征图增强文字区域的特征，得到文字区域增强特征作为文字区域的注意力图；根据文字区域的注意力图特征对通道方向求和得到文字特征向量。

进一步的，所述全连接网络模块还包括：

逻辑回归单元，用于基于逻辑回归模型根据分类结果确定每个类别对应的文字的概率；

识别单元，用于将概率最高类别的文字作为文字识别结果；

结果获取单元，用于根据所有文字识别结果确定所述文本识别结果。

第三方面，本申请提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现第一方面提供的基于改进的AttentionOCR文本识别方法的步骤。

第四方面，本申请提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面提供的基于改进的AttentionOCR文本识别方法的步骤。

在本申请实施例中，采用将时间序列方向的全连接网络作为分类网络的方式，获取待识别图片的文本区域图片，并通过主干网络提取文本区域图片的特征图，并通过注意力机制模块计算特征图对应的文字注意区域的文字特征向量，通过全连接网络对时间序列方向的文字特征向量进行分类，达到了根据每个分类结果得到文本识别结果的目的，从而实现了快速识别文本的技术效果，进而至少解决了由于计算量大造成的识别速度慢的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的基于改进的AttentionOCR文本识别方法的流程示意图；

图2是根据本申请实施例的基于改进的AttentionOCR文本识别方法的主干网络的网络结构示意图；

图3是根据本申请实施例的基于改进的AttentionOCR文本识别方法的主干网络的STEM层示意图

图4是根据本申请另一实施例的基于改进的AttentionOCR文本识别方法的流程示意图；

图5是根据本申请实施例的基于改进的AttentionOCR文本识别装置的结构框图；

图6是根据本申请实施例的电子设备框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

根据本申请实施例，提供了一种基于改进的AttentionOCR文本识别方法，如图1所示，该方法包括如下的步骤S1至步骤S4：

S1：获取待识别图片的文本区域图片。

“获取待识别图片的文本区域图片”具体为：将待识别图片进行文本检测，得到文本区域和文本区域对应的轮廓区域；根据文本区域和轮廓区域生成掩码图片，根据掩码图片对文本区域和轮廓区域进行降噪处理，得到文本区域降噪图；通过卷积神经网络识别文本区域降噪图的特征，确定文本区域特征，得到包含文本区域特征的文本区域图片。

需要先对待识别图片进行文本检测，确定待识别图片的文本区域text_image及其轮廓区域text_contour，可选的，文本区域为正外接矩形。获取到的轮廓区域会存在区域内填充不完整、区域外存在噪声等的干扰，需要对存在的噪声进行降噪处理。具体的，根据文本区域和轮廓区域生成掩码图片text_mask，对轮廓区域内的像素点保留、轮廓区域外的像素点进行消除的降噪处理，得到文本区域降噪图，其中，掩码图片为1的地方是文字区域，掩码图片为0的地方是非文字区域，掩码图片对曲型文排版的文字或其他非正常排版的文字去除噪音有非常大的帮助。通过卷积神经网络识别文本区域降噪图的特征，确定文本区域特征，得到包含文本区域特征的文本区域图片，其中，文本区域图片包含文字信息，具体的，文本区域图片text_input可以通过文本区域text_image乘掩码图片text_mask得到，即text_input＝text_image*text_mask。

进一步的，“将待识别图片进行文本检测，得到文本区域和文本区域对应的轮廓区域”具体为：将待检测图片进行裁剪，得到裁剪图片集；计算裁剪图片集的特征图，得到裁剪特征图集，其中，特征图包括单字位置信息和字间连接信息；将裁剪特征图集根据裁剪图片集对应待检测图片的位置进行拼接，得到待检测图片对应的待检测特征图；根据单字位置信息和字间连接信息，检测待检测特征图上的文本区域和文本区域对应的轮廓区域。

“将待检测图片进行裁剪”，具体为：将待检测图片按照预设边长进行裁剪，判断裁剪后的图片边长是否大于最小裁剪边长；若大于最小裁剪边长，则继续按照预设边长进行裁剪；若小于最小裁剪边长，则不继续进行裁剪。待检测图片的尺寸是不确定的，需要对待检测图片按照规定的大小进行循环裁剪，规定的大小包括裁剪的最大边长(即预设边长)和最小裁剪边长(即预设边长加图片最小边长)。可选的，如果待检测图片按照最大边长进行裁剪后剩余的边长大于最小裁剪边长，则按照预设边长进行裁剪，并将按照预设边长裁剪后的图片存入裁剪图片集中；若小于最小裁剪边长，则不进行裁剪，直接存入裁剪图片集中。示例的，待检测图片尺寸为1800*1400像素(Picture Element，以下简称为pixel)，裁剪的最大边长为1200(pixel)，最小裁剪边长为1500(pixel)，则待检测图片会被长度为1200(pixel)的窗口进行裁剪。1800(pixel)的边长大于最小裁剪边长，则按照最大边长进行裁剪为1200(pixel)和600(pixel)；1400(pixel)的边长小于最小裁剪边长，则不进行裁剪，即，裁剪后的图片为1200*1400(pixel)、600*1400(pixel)两张图片。进一步的，将裁剪后的图片存入裁剪图片集中，即，裁剪图片集包括1200*1400(pixel)、600*1400(pixel)的两张图片。

需要说明的是，在“计算裁剪图片集的特征图，得到裁剪特征图集，其中，特征图包括单字位置信息和字间连接信息”中，在获取到裁剪图片集后，分别计算裁剪图片集中每张图片的特征图。图片的特征可以包括单字位置信息的特征和字间连接信息的特征，还可以包括灰度信息、文字排版信息等可以表述文字特征的信息，在此不进行限制。特征图的第一通道包含单字位置的特征信息，特征图的第二通道包含字间连接的特征信息。具体的，对每张图片的多个特征组合后进行卷积，计算每张图片第二通道的特征图，并存入裁剪特征图集中，得到裁剪特征图集。

另外需要说明的是，在“将裁剪特征图集根据裁剪图片集对应待检测图片的位置进行拼接，得到待检测图片对应的待检测特征图”中，在获取到裁剪特征图集后，需要将裁剪特征图集按照原图像(即待检测图像)的位置进行拼接，得到待检测特征图。可选的，在对裁剪特征图进行拼接后，可以对拼接后的待检测特征图进行校验。示例的，可以按照特征图中单字位置特征进行拼接校验，也可以按照特征图中字间连接特征进行拼接校验，在此不进行限制。

“根据单字位置信息和字间连接信息，检测待检测特征图上的文本区域，并输出文本区域的位置”，具体为：根据单字位置信息和字间连接信息，将待检测特征图进行降噪处理，得到降噪特征图；检测降噪特征图的轮廓，并生成轮廓对应的正外接矩形；根据正外接矩形确定文本区域。根据单字位置信息和字间连接信息，对待检测特征图进行降噪，示例的，将单字位置信息和字间连接信息之外的噪点进行删除，得到降噪特征图。进一步检测降噪特征图的轮廓，得到特征叠加图中每个文字块的轮廓，并生成轮廓对应的正外接矩形。将二值化后的特征叠加图中的所有正外接矩形进行保存并生成列表，同时保存每个文字块的轮廓生成列表，并使正外接矩形和轮廓进行对应，输出的正外接矩形即为确定的文本区域。

“将待检测特征图进行降噪处理，得到降噪特征图”具体为：对待检测图片的热力图中的通道降噪，得到降噪特征图，其中，热力图为高斯分布。待检测特征图为一个有两个通道的热力图，通过对该热力图的两个通道相加和降噪，其中，热力图中的每个通道都类似高斯分布。可选的，可以通过类似高斯分布的热力灰度图进行降噪处理，示例的，待检测特征图的文字区域可以对应类似高斯分布的热力灰度图的峰值，待检测特征图的文字区域也可以对应类似热力灰度图的红色区域。按照阈值对待检测特征图进行降噪，阈值可以是系统预设的，也可以是用户按照需求自行设定的，在此不进行限制。示例的，当阈值为50时，删除待检测特征图中像素点小于50的噪点，达到降噪的效果。可选的，在对待检测图片的热力图中的通道降噪后，对待检测图片进行特征抽取。

“对待检测图片的热力图中的通道降噪，得到降噪特征图”具体为：对热力图的第一通道和第二通道进行相加，得到特征叠加图，其中，热力图的第一通道包含单字位置的特征信息，热力图的第二通道包含字间连接的特征信息；将特征叠加图通过二值化进行降噪处理，得到降噪后的降噪特征图。在对该热力图进行处理时，通过对该热力图两个通道相加和降噪，具体为将第一通道的特征图和第二通道的特征图通过矩阵加法进行相加，得到特征叠加图，其中，特征叠加图包括单字位置的特征信息和字间连接的特征信息。可选的，特征叠加图的通道为第一通道，特征叠加图可以为单一文字的文字块，也可以为多个文字组成的文字块(即一段文字)。进一步的，将特征叠加图进行二值化，得到降噪后的降噪特征图，可选的，二值化的阈值可以是用户自定义的置信度，也可以是系统预设的置信度。

进一步的，在“将待检测图片进行裁剪，得到裁剪图片集”之前，方法还包括：根据预设像素标准差和预设像素均值对待检测图片的像素进行标准化处理。预设像素标准差可以是通过计算数据集(例如ImageNet)确定的标准差，也可以是用户自行设定的数值，在此不进行限制。预设像素均值可以是通过计算数据集确定的均值，也可以是用户自行设定的数值，在此不进行限制。“根据预设像素标准差和预设像素均值对待检测图片的像素进行标准化处理”，具体为：将待检测图片的像素进行乘预设像素标准差加预设像素均值的处理，并将处理后图片像素值标准化到标准正太分布里。

示例的，根据本申请另一可选的实施例，“将待识别图片进行文本检测，得到文本区域和文本区域对应的轮廓区域”还可以包括：

a.输入图片。输入时，需要将图片的像素值标准化到标准正态分布里(将输入图片乘标准差后加均值，这个正态分布的均值和标准差均来自ImageNet数据集)。

b.图片裁剪与循环计算出所有切片的特征图。这一步将图片裁剪到我们规定的大小里，比如规定的是1200(pixel)为最大边长(相当于上述步骤“将待检测图片进行裁剪，得到裁剪图片集”中的预设边长)，最短边长为300(pixel)(相当于上述步骤“将待检测图片进行裁剪，得到裁剪图片集”中的图片最小变长)，那么图像会被长度为1200(pixel)的窗口进行裁剪，裁剪出的图片将会存入到一个图片列表里，如果窗口走到一个地方如果减去1200(pixel)小于300(pixel)，那么这个位置将不进行裁剪，直接存入图片列表。这时使用一个循环去计算每个图片的特征图(特征图的通道数为2，相当于上述步骤“计算裁剪图片集的特征图，得到裁剪特征图集”中的第二通道)，再放入一个存储特征图的列表里。如果这个图片最长边长小于1200(pixel)加300(pixel)，那么将会直接计算特征图(特征图的通道数为2，相当于上述步骤“计算裁剪图片集的特征图，得到裁剪特征图集”中的第二通道)。

c.拼接特征图。将步骤b中得到的存储特征图的列表中的特征图按照原图像的位置进行拼接，这样就可以拿到一个与原图一致、相对应的特征图。可选的，如果列表里只有一个特征图则不用拼接。

d.在特征图上检测文本区域。特征图的通道1(相当于上述步骤“计算裁剪图片集的特征图，得到裁剪特征图集”中的第一通道)里代表每个字位置(每个字的位置被估计为一个高斯分布)，通道2(相当于上述步骤“计算裁剪图片集的特征图，得到裁剪特征图集”中的第二通道)为两个字之间的连接(每两个字之间的连接被估计为一个高斯分布)，然后将特征图的通道1(相当于上述步骤“计算裁剪图片集的特征图，得到裁剪特征图集”中的第一通道)和通道2(相当于上述步骤“计算裁剪图片集的特征图，得到裁剪特征图集”中的第二通道)相加(矩阵加法)，可以获取一个特征图(通道降为了1，相当于上述步骤“计算裁剪图片集的特征图，得到裁剪特征图集”中的第一通道)，这个特征图里包含每个字的位置和每个字之间的连接(这个可以将文字连成一个文字块，也就是连成一句话)。将上一步得到的特征图进行二值化(二值化的阈值为置信度，代表我们只提取这个阈值以上置信的文字区域)，并使用检测轮廓的方式检测每个文字块的轮廓，并对每个文字块轮廓做一个正外接矩形。

e.输出所有文本区域的位置。将步骤d中得到的外接矩形保存成一个列表，轮廓也保存到一个列表里，让一个外接矩形对应一个轮廓，最后输出这个外接矩形列表作为文本区域，输出轮廓列表为每个文本区域文本的实际轮廓，可以用来去除不必要的信息。

S2：通过主干网络提取文本区域图片的特征图，其中，主干网络为卷积神经网络。

将文本区域图片通过卷积神经网络进行卷积提取，其中，通道通常是RGB通道。示例的，文本区域图片通过卷积神经网络先识别汉字特征，再识别英文字母，最后识别数字，即通过卷积神经网络进行3次识别，分别提取了汉字特征图、英文字母特征图、数字特征图。

进一步的，主干网络为卷积神经网络InceptionV4模型，通过主干网络提取文本区域图片的特征图主要包括：通过主干网络InceptionV4的前向计算对文本区域图片进行降维以及特征提取处理，得到文本区域降维特征图。

具体的，如图2所示，为InceptionV4的网络结构示意图。InceptionV4中的STEM层可以保留图片的有用特征并进行图片的降维，加速了图片的处理，如图3所示，为InceptionV4的STEM层示意图。可选的，用户可以通过STEM层对文本区域图片进行降维处理，并提取降维后的文本区域图片的特征图；也可以先通过STEM层提取文本区域图片的特征图，并通过STEM层对特征图进行降维处理。需要说明的是，该步骤中提取的特征图为包含文本区域图片初级特征的特征图。

S3：根据注意力机制模型计算特征图对应的文字注意区域的文字特征向量。

文字特征向量可以通过注意力机制模型进行确定。在该步骤中，通过注意力机制模型学习主干网络输出的初级特征的特征图中的文字特征，并根据注意力机制模型确定文字特征对应的文字注意区域，通过计算得到文字注意区域的文字特征向量。示例的，通过加性注意力机制(Bahdanau Attention)学习InceptionV4模型输出的降维后特征图的文字特征，并通过加性注意力机制确定文字特征对应的文字注意区域，并计算文字注意区域的文字特征向量。

进一步的，文字注意区域为多个，根据注意力机制模型计算特征图对应的文字注意区域的文字特征向量包括：根据一个初始的零向量在注意力机制模型上确定特征图的第一个文字注意区域，并计算第一个文字注意区域对应的第一文字特征向量；将文字特征向量输入嵌入模型获取嵌入特征向量，并将嵌入特征向量反馈输入到注意力机制模型中，确定在特征图上的下一个文字注意区域，以便注意力机制模型获取下一个文字注意区域对应的下一文字特征向量；将下一个文字注意区域对应的下一文字特征向量输入到嵌入模型获取下一个嵌入特征向量，并确定再下一个文字注意区域，依次循环执行，直到计算得到所有文字注意区域的文字特征向量为止。

每张特征图可以包括多个文字注意区域，在有多个文字注意区域时，可以通过嵌入模型(Embedding模型)来对文字注意区域进行指导，确定下一个文字注意区域。

“计算第一个文字注意区域对应的第一文字特征向量”具体为：确定特征图上注意区域中每一像素位点的权重，并根据注意区域中每一像素点特征图上每一像素位的权重生成注意区域特征图对应的权重图；根据权重图和注意区域特征图增强文字区域的特征，得到文字区域增强特征作为文字区域的注意力图；根据文字区域增强文字区域的注意力图特征对和通道方向求和得到文字特征向量。

通过注意力机制模型确定文字注意区域中每一像素点的权重，具体的，确定的权重为文字注意区域中文字特征每一像素点的权重，并根据文字特征每一像素点确定的权重生成权重图。将权重图和上述步骤S2中得到的初级特征的特征图相乘可以得到文字注意区域中被权重图增强的文字区域特征，将增强的文字区域特征中通道的每个像素点的数值进行求和，并根据求和后的数值生成文字特征向量。

S4：通过全连接网络对时间序列方向的文字特征向量进行分类，根据每个分类结果得到文本识别结果。

通过全连接网络对时间序列方向的文字特征向量进行分类，可以获取到文字特征向量对应每个文字的分类结果，根据每个文字的分类结果可以得到文本识别结果。示例的，当文字特征向量对应的多个文字为“你好吗”，对文字特征向量进行分类，分为“你”、“好”、“吗”的3个分类结果，并根据分类结果得到文本的识别结果。

“根据每个分类结果得到文本识别结果”具体为：基于逻辑回归模型根据分类结果确定每个类别对应的文字的概率；将概率最高类别的文字作为文字识别结果；根据所有文字识别结果确定文本识别结果。

可选的，可以根据逻辑回归模型(Softmax模型)确定每个类别对应的文字的概率，例如输入的文字特征向量对应的文字为“好”，该文字特征向量的分类结果为“好”、“如”、“妈”，分类结果对应的概率分别为“0.8”、“0.5”、“0.4”，则输出概率最高的“0.8”对应的“好”作为识别结果。

需要说明的是，在进行文本识别时，可以是在上述步骤S3通过嵌入模型确定下一个文字注意区域之后进行文本识别，也可以是在上述步骤S3完成计算文字注意区域的文字特征向量之后进行文本识别，在此不进行限制。

示例的，根据本申请另一可选的实施例，如图4所示，包括：

(1)输入文本区域图像。通过文本检测的方法可以得到文本区域text_image和文本区域对应的实际轮廓text_contour，并生成一个掩码图片text_mask，这个掩码图片为1的地方是文字区域、为0的位置是其他非文字区域，这个掩码图片对曲形、或者非正常排版的文字去除噪音有非常大的帮助。进一步的，文字识别的卷积神经网络的文本区域图像text_input＝text_image*text_mask，其中，该文本区域图像text_input包含文字信息。

(2)InceptionV4(主干网络)：将上述步骤(1)中得到的文本区域图像输入主干网络，输出w*h*channel(宽*高*通道)的特征图。如图2所示，为InceptionV4的网络结构示意图，如图3所示，为InceptionV4的STEM层示意图，其中，STEM层主要是为了提取图片的初级特征，并保留了图片的有用特征进行图片的降维，得到了降维后的特征图，加速了图片的处理。

(3)Attention(注意力机制模块)。这一步骤主要是学习上述步骤(2)中主干网络输出的降维后的特征图中对应的文字区域的特征，并根据注意力机制模块确定注意区域，通过注意力机制模块计算注意区域的特征向量，示例的，在该步骤中使用的注意力算法是加性注意力机制(Bahdanau Attention)。进一步的，计算主干网络中输出的特征图上每一个点的权重，根据每一点的权重生成一个权重图，将该权重图和原特征图(即步骤(2)中的特征图)相乘得到一个被权重增强的文字区域的特征，将特征在通道方向求和可以得到一个特征向量，该特征向量就是代表文字的特征向量，即注意区域对应的特征向量。

(4)中间Embedding指导Attention模块的下一个注意区域。该步骤主要是为了获取步骤(3)发送的分类特征向量，以及将获取的特征向量通过Embedding(嵌入模块)反馈在下一次应该“注意哪里”(即步骤(3)中的注意区域)，并去增强下一个文字特征，如此循环直到识别完所有注意区域。可选的，这个模块是一个全连接网络。

(5)FullyConnection+Softmax(全连接网络+Softmax输出)：这个模块主要是为了将步骤(3)输出的特征向量通过全连接网络进行分类，然后经过Softmax得出属于每一个字类别的概率，示例的，一般将最高的概率当作当前识别出的文字。可选的，在步骤(4)增强下一个文字特征后识别文字，并跟随步骤(4)进行循环。

(6)输出文字内容。根据步骤(5)识别出的文字输出文本识别结果，即输出OCR(Optical Character Recognition，光学字符识别)识别结果。

从以上的描述中，可以看出，本申请实现了如下技术效果：

在本申请实施例中，采用将时间序列方向的全连接网络作为分类网络的方式，获取待识别图片的文本区域图片，并通过主干网络提取文本区域图片的特征图，并通过注意力机制模块的加性注意力机制计算特征图对应的文字注意区域的文字特征向量，并且通过嵌入模型循环指导注意力机制模块的下一个文字注意区域，最后通过全连接网络对时间序列方向的文字特征向量进行分类，达到了根据每个分类结果得到文本识别结果的目的，从而实现了快速识别文本的技术效果。

并且，本申请的文本检测方法，采用裁剪待检测图片的方式，计算裁剪后图片的包含单字位置信息和字间连接信息的特征图，并根据裁剪图片集对应待检测图片的位置进行拼接，通过检测拼接后的特征图到达了文本检测的目的，从而实现了可检测任意大小的图片，达到了节省了GPU的内存的技术效果。

本申请的改进的AttentionOCR与CRNN网络进行比较：CRNN主干网为VGG，提取特征的能力不佳，后面连接的分类计算为Lstm，计算量大，推理速度慢，只能识别水平排布的文字块。而本申请的改进的AttentionOCR，主干网络为inceptionV4，提取特征的能力强，后面连接的分类计算模块为注意力机制模块和全连接网络，计算量相对较少，推理速度快，能识别各种排布的文字。

并且，本申请的文本检测方法与CTPN文本检测算法进行横向比较：CTPN不能识别弯曲的文字，并且存在大量的阈值设置，网络文本检测的鲁棒性不强，不能检测太大的图片，检测大图时GPU占用过高，容易导致部署在同一块GPU的其他应用崩溃。而CRAFT检测算法可以检测任意排列的文字，阈值设置少，网络结构直观，经过改进后的CRAFT可检测任意大小的图片，节省了GPU的内存。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本申请实施例，还提供了一种用于实施上述基于改进的AttentionOCR文本识别方法的装置50，如图5所示，该基于改进的AttentionOCR文本识别装置50包括：

图片输入模块501，用于获取待识别图片的文本区域图片；

主干网络模块502，用于通过主干网络提取文本区域图片的特征图，其中，主干网络为卷积神经网络；

注意力机制模块503，用于根据注意力机制模型计算特征图对应的文字注意区域的文字特征向量；

全连接网络模块504，用于通过全连接网络对时间序列方向的文字特征向量进行分类，根据每个分类结果得到文本识别结果。

进一步的，图片输入模块501包括：

区域降噪单元，用于对文本区域和轮廓区域进行降噪处理，生成掩码图片；

特征提取单元，用于通过卷积神经网络识别掩码图片的特征，确定文本区域特征，得到包含文本区域特征的文本区域图片。

进一步的，文本检测单元还包括：

用于将待检测图片进行裁剪，得到裁剪图片集；计算裁剪图片集的特征图，得到裁剪特征图集，其中，特征图包括单字位置信息和字间连接信息；将裁剪特征图集根据裁剪图片集对应待检测图片的位置进行拼接，得到待检测图片对应的待检测特征图；根据单字位置信息和字间连接信息，检测待检测特征图上的文本区域和文本区域对应的轮廓区域。

进一步的，主干网络模块502中主干网络为InceptionV4模型，主干网络模块502包括：

进一步的，注意力机制模块503中文字注意区域为多个，注意力机制模块503包括：

向量计算单元，用于根据注意力机制模型确定第一个文字注意区域，并计算第一个文字注意区域对应的第一文字特征向量；

嵌入模型单元，用于基于嵌入模型获取第一文字特征向量，并根据第一文字特征向量确定下一个文字注意区域；

反馈单元，用于将下一个文字注意区域反馈给注意力机制模型，以使注意力机制模型计算下一个文字注意区域对应的下一文字特征向量；

区域确定单元，用于根据下一个文字注意区域对应的下一文字特征向量确定再下一个文字注意区域，依次循环执行，直到计算得到所有文字注意区域的文字特征向量为止。

进一步的，向量计算单元还包括：

用于确定文字注意区域中每一像素点的权重，并根据文字注意区域中每一像素点的权重生成文字注意区域对应的权重图；根据权重图和文字注意区域增强文字区域的特征，得到文字区域增强特征；根据文字区域增强特征和通道方向得到文字特征向量。

进一步的，全连接网络模块504还包括：

识别单元，用于将概率最高类别的文字作为文字识别结果；

结果获取单元，用于根据所有文字识别结果确定文本识别结果。

具体的，本实施例中各模块的实现可以参考方法实施例中的相关实现，不再赘述。

从以上的描述中，可以看出，本申请实现了如下技术效果：

本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现基于改进的AttentionOCR文本识别方法的步骤。例如包括：获取待识别图片的文本区域图片；通过主干网络提取文本区域图片的特征图，其中，主干网络为卷积神经网络；根据注意力机制模型计算特征图对应的文字注意区域的文字特征向量；通过全连接网络对时间序列方向的文字特征向量进行分类，根据每个分类结果得到文本识别结果。

图6为本发明实施例提供的电子设备框图，如图6所示，该设备包括：处理器601、存储器602和总线603；

其中，处理器601及存储器602分别通过总线603完成相互间的通信；处理器601用于调用存储器602中的程序指令，以执行上述实施例所提供的基于改进的AttentionOCR文本识别方法，例如包括：获取待识别图片的文本区域图片；通过主干网络提取文本区域图片的特征图，其中，主干网络为卷积神经网络；根据注意力机制模型计算特征图对应的文字注意区域的文字特征向量；通过全连接网络对时间序列方向的文字特征向量进行分类，根据每个分类结果得到文本识别结果。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于改进的AttentionOCR文本识别方法，其特征在于，包括：

获取待识别图片的文本区域图片；

通过全连接网络对时间序列方向的文字特征向量循环进行分类，根据每个分类结果得到文本识别结果；

其中，所述获取待识别图片的文本区域图片包括：

根据文本区域和轮廓区域生成掩码图片，根据掩码图片对文本区域和轮廓区域进行降噪处理，得到文本区域降噪图；

2.根据权利要求1所述的基于改进的AttentionOCR文本识别方法，其特征在于，所述将待识别图片进行文本检测，得到文本区域和文本区域对应的轮廓区域包括：

将待检测图片进行裁剪，得到裁剪图片集；

3.根据权利要求1所述的基于改进的AttentionOCR文本识别方法，其特征在于，所述主干网络为InceptionV4模型，所述通过主干网络提取文本区域图片的特征图包括：

4.根据权利要求1所述的基于改进的AttentionOCR文本识别方法，其特征在于，所述文字注意区域为多个，所述根据注意力机制模型计算特征图对应的文字注意区域的文字特征向量包括：

5.根据权利要求4所述的基于改进的AttentionOCR文本识别方法，其特征在于，所述计算第一个文字注意区域对应的第一文字特征向量包括：

6.根据权利要求1所述的基于改进的AttentionOCR文本识别方法，其特征在于，所述根据每个分类结果得到文本识别结果包括：

将概率最高类别的文字作为文字识别结果；

根据所有文字识别结果确定所述文本识别结果。

7.一种基于改进的AttentionOCR文本识别装置，其特征在于，包括：

图片输入模块，用于获取待识别图片的文本区域图片；

全连接网络模块，用于通过全连接网络对时间序列方向的文字特征向量循环进行分类，根据每个分类结果得到文本识别结果；

其中，所述图片输入模块包括：

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行权利要求1-6任一项所述的基于改进的AttentionOCR文本识别方法。

9.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1-6任一项所述的基于改进的AttentionOCR文本识别方法。