CN111553290A

CN111553290A - 文本识别方法、装置、设备及存储介质

Info

Publication number: CN111553290A
Application number: CN202010362519.XA
Authority: CN
Inventors: 王文佳; 刘学博; 谢恩泽
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2020-08-18
Also published as: WO2021218706A1; JP2022550195A

Abstract

本公开实施例提供一种文本识别方法、装置、设备及存储介质，通过获取第一文本图像的特征图，根据所述特征图中包括的至少一个特征序列对所述第一文本图像进行处理，得到分辨率大于所述第一文本图像的第二文本图像，由于第一场景文本图像中的图像块之间具有相关性，因此，通过上述方式能够有效利用文本之间的相关性将分辨率较低的第一文本图像恢复成分辨率较高的第二文本图像，再通过对所述第二文本图像进行文本识别，从而识别出第一文本图像中的文本内容。

Description

文本识别方法、装置、设备及存储介质

技术领域

本公开涉及计算机视觉技术领域，尤其涉及文本识别方法、装置、设备及存储介质。

背景技术

低分辨率的文本图像在日常生活中非常常见。例如，通过手机等安装有图像采集设备的终端设备采集的文本图像的分辨率可能较低。由于这些图像丢失了细节的内容信息，导致对图像中文本的识别准确率较低。传统的文本识别方式一般是先对图像的纹理进行重建，然后基于重建的图像进行文本识别。然而，这种方式的识别准确率较低。

发明内容

本公开提供一种文本识别方法、装置、设备及存储介质。

根据本公开实施例的第一方面，提供一种文本识别方法，所述方法包括：获取第一文本图像的特征图，所述特征图中包括至少一个特征序列，所述特征序列用于表示所述第一文本图像中至少两个图像块之间的相关性；根据所述至少一个特征序列对所述第一文本图像进行处理，得到第二文本图像，所述第二文本图像的分辨率大于所述第一文本图像；对所述第二文本图像进行文本识别。

在一些实施例中，所述获取第一文本图像的特征图，包括：获取所述第一文本图像的多个通道图和所述第一文本图像对应的二值图像；对所述通道图和所述二值图像进行特征提取，得到所述第一文本图像的特征图。

在一些实施例中，所述获取第一文本图像的特征图，包括：将所述第一文本图像输入预先训练的神经网络，并获取所述神经网络输出的特征图。

在一些实施例中，所述神经网络基于以下方式获取所述特征图：根据所述第一文本图像生成中间图像，所述中间图像的通道数量大于所述第一文本图像；对所述中间图像进行特征提取，得到所述特征图。

在一些实施例中，所述神经网络包括至少一个卷积神经网络以及双向长短期记忆网络，所述至少一个卷积神经网络的输出端与所述双向长短期记忆网络的输入端相连；所述获取第一文本图像的特征序列，包括：将所述第一文本图像输入所述至少一个卷积神经网络，获取所述至少一个卷积神经网络输出的中间图像；将所述中间图像输入所述双向长短期记忆网络，获取所述双向长短期记忆网络输出的所述特征图。

在一些实施例中，所述神经网络包括依次连接的多个子网络；所述将所述第一文本图像输入预先训练的神经网络，并获取所述神经网络输出的特征图，包括：将所述多个子网络中第i子网络输出的第i输出图像输入到所述多个子网络中的第i+1子网络，以通过所述第i+1子网络生成第i+1中间图像，并对所述第i+1中间图像进行特征提取，得到第i+1输出图像；所述第i+1中间图像的通道数大于所述第i输出图像的通道数；将第N输出图像确定为所述特征图；其中，第1子网络根据所述第一文本图像生成第1中间图像，并对所述第1中间图像进行特征提取，得到第1特征图，i和N为正整数，N为子网络的总数，1≤i≤N-1，N≥2。

在一些实施例中，所述方法还包括：在根据所述至少一个特征序列对所述第一文本图像进行处理之前，对所述第一文本图像进行处理，以使所述第一文本图像的通道数与所述特征图的通道数相同。

在一些实施例中，所述方法还包括：在得到第二文本图像之后，对所述第二文本图像进行处理，以使所述第二文本图像的通道数与所述第一文本图像的通道数相同；所述对所述第二文本图像进行文本识别，包括：对处理后的第二文本图像进行文本识别。

在一些实施例中，所述方法还包括：基于至少一组训练图像对所述神经网络进行训练，每组训练图像包括第一训练图像和第二训练图像，所述第一训练图像与所述第二训练图像包括相同文本；其中，所述第一训练图像的分辨率小于第一分辨率阈值，所述第二训练图像的分辨率大于第二分辨率阈值，所述第一分辨率阈值小于或等于所述第二分辨率阈值。

在一些实施例中，所述基于至少一组训练图像对所述神经网络进行训练，包括：将所述第一训练图像输入所述神经网络，并获取所述神经网络的输出图像；基于所述第一训练图像对应的第二训练图像与所述输出图像确定损失函数；基于所述损失函数对所述神经网络进行监督训练。

在一些实施例中，所述损失函数包括第一损失函数和第二损失函数中的至少一者；第一损失函数基于第一训练图像和第二训练图像中各个对应像素的均方差确定；和/或，所述第二损失函数基于第一训练图像的梯度场和第二训练图像中各个对应像素的梯度场之差确定。

在一些实施例中，所述方法还包括：在基于至少一组训练图像对所述神经网络进行训练之前，对所述第一训练图像和第二训练图像进行对齐。

在一些实施例中，所述对所述第一训练图像和第二训练图像进行对齐，包括：通过预先训练的空间变换网络对所述第一训练图像进行处理，以将所述第一训练图像中的文本与所述第二训练图像进行对齐。

在一些实施例中，所述第一训练图像由设置有第一焦距的第一图像采集装置对第一位置处的拍摄对象进行拍摄得到；所述第二训练图像由设置有第二焦距的第二图像采集装置对所述第一位置处的所述拍摄对象进行拍摄得到；所述第一焦距小于所述第二焦距。

根据本公开实施例的第二方面，提供一种文本识别装置，所述装置包括：获取模块，用于获取第一文本图像的特征图，所述特征图中包括至少一个特征序列，所述特征序列用于表示所述第一文本图像中至少两个图像块之间的相关性；第一处理模块，用于根据所述至少一个特征序列对所述第一文本图像进行处理，得到第二文本图像，所述第二文本图像的分辨率大于所述第一文本图像；文本识别模块，用于对第二文本图像进行文本识别。

在一些实施例中，所述获取模块包括：第一获取单元，用于获取所述第一文本图像的多个通道图和所述第一文本图像对应的二值图像；特征提取单元，用于对所述通道图和所述二值图像进行特征提取，得到所述第一文本图像的特征图。

在一些实施例中，所述获取模块用于：将所述第一文本图像输入预先训练的神经网络，并获取所述神经网络输出的特征图。

在一些实施例中，所述神经网络包括至少一个卷积神经网络以及双向长短期记忆网络，所述至少一个卷积神经网络的输出端与所述双向长短期记忆网络的输入端相连；所述获取模块包括：第二获取单元，用于将所述第一文本图像输入所述至少一个卷积神经网络，获取所述至少一个卷积神经网络输出的中间图像；第三获取单元，用于将所述中间图像输入所述双向长短期记忆网络，获取所述双向长短期记忆网络输出的所述特征图。

在一些实施例中，所述神经网络包括依次连接的多个子网络；所述获取模块用于：将所述多个子网络中第i子网络输出的第i输出图像输入到所述多个子网络中的第i+1子网络，以通过所述第i+1子网络生成第i+1中间图像，并对所述第i+1中间图像进行特征提取，得到第i+1输出图像；所述第i+1中间图像的通道数大于所述第i输出图像的通道数；将第N输出图像确定为所述特征图；其中，第1子网络根据所述第一文本图像生成第1中间图像，并对所述第1中间图像进行特征提取，得到第1特征图，i和N为正整数，N为子网络的总数，1≤i≤N-1，N≥2。

在一些实施例中，所述装置还包括：第二处理模块，用于在根据所述至少一个特征序列对所述第一文本图像进行处理之前，对所述第一文本图像进行处理，以使所述第一文本图像的通道数与所述特征图的通道数相同。

在一些实施例中，所述装置还包括：第三处理模块，用于在得到第二文本图像之后，对所述第二文本图像进行处理，以使所述第二文本图像的通道数与所述第一文本图像的通道数相同；所述文本识别模块用于：对处理后的第二文本图像进行文本识别。

在一些实施例中，所述装置还包括：训练模块，用于基于至少一组训练图像对所述神经网络进行训练，每组训练图像包括第一训练图像和第二训练图像，所述第一训练图像与所述第二训练图像包括相同文本；其中，所述第一训练图像的分辨率小于第一分辨率阈值，所述第二训练图像的分辨率大于第二分辨率阈值，所述第一分辨率阈值小于或等于所述第二分辨率阈值。

在一些实施例中，所述训练模块包括：输入单元，用于将所述第一训练图像输入所述神经网络，并获取所述神经网络的输出图像；确定单元，用于基于所述第一训练图像对应的第二训练图像与所述输出图像确定损失函数；训练单元，用于基于所述损失函数对所述神经网络进行监督训练。

在一些实施例中，所述装置还包括：对齐模块，用于在基于至少一组训练图像对所述神经网络进行训练之前，对所述第一训练图像和第二训练图像进行对齐。

在一些实施例中，所述对齐模块用于：通过预先训练的空间变换网络对所述第一训练图像进行处理，以将所述第一训练图像中的文本与所述第二训练图像进行对齐。

根据本公开实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一实施例所述的方法。

根据本公开实施例的第四方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一实施例所述的方法。

本公开实施例通过获取第一文本图像的特征图，根据所述特征图中包括的至少一个特征序列对所述第一文本图像进行处理，得到分辨率大于所述第一文本图像的第二文本图像，由于第一场景文本图像中的图像块之间具有相关性，因此，通过上述方式能够有效利用文本之间的相关性将分辨率较低的第一文本图像恢复成分辨率较高的第二文本图像，再通过对所述第二文本图像进行文本识别，从而识别出第一文本图像中的文本内容，提高了文本识别的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1是本公开实施例的文本图像的示意图。

图2是本公开实施例的文本识别方法的流程图。

图3是本公开实施例的图像之间的不对齐现象的示意图。

图4是本公开实施例的文本识别方法的整体流程的示意图。

图5是本公开实施例的文本识别装置的框图。

图6是本公开实施例的计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了使本技术领域的人员更好的理解本公开实施例中的技术方案，并使本公开实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本公开实施例中的技术方案作进一步详细的说明。

在日常生活中，常常需要从文本图像中识别出文本信息，即，进行文本识别。一些文本图像(例如，通过手机等安装有图像采集设备的终端设备采集的文本图像)的分辨率会比较低。这些分辨率较低的图像丢失了细节的内容信息，导致对图像中文本的识别准确率较低。这一问题对于场景文本图像(Scene Text Image，STI)尤为严重。场景文本图像是在自然场景下拍摄到的包含文本信息的图像。如图1所示，场景文本图像中的文本信息可以包括但不限于身份证号码、车票、广告牌、车牌等中的至少一者。由于不同的场景文本图像中的文本的特征差异较大，例如，文本大小、字体、颜色、亮度和/或扭曲变形程度可能不同，因此，对场景文本图像进行文本识别的难度远大于对扫描文档图像中的文本进行识别，从而导致对场景文本图像的识别准确率比对印刷体文本的识别准确率更低。

传统的文本识别方式一般是先利用文本图像中相邻像素在颜色上的相似性，根据预定义的方式来在相邻像素的颜色之间进行插值，从而对文本图像的纹理进行重建，然后基于重建的文本图像进行文本识别。这种文本识别方式对比较清晰的文本图像的识别准确率较高，但是，对于低分辨率的文本图像的识别准确率急剧下降。基于此，本公开实施例提供一种文本识别方法，如图2所示，所述方法可包括：

步骤201：获取第一文本图像的特征图，所述特征图中包括至少一个特征序列，所述特征序列用于表示所述第一文本图像中至少两个图像块之间的相关性；

步骤202：根据所述至少一个特征序列对所述第一文本图像进行处理，得到第二文本图像，所述第二文本图像的分辨率大于所述第一文本图像；

步骤203：对所述第二文本图像进行文本识别。

在步骤201中，所述第一文本图像中的文本可以包括文字、符号和数字中的至少一种。在一些实施例中，所述第一文本图像可以是在自然场景下拍摄得到的图像，所述第一文本图像中的文本可以是自然场景下的各种类型的文本。例如，所述第一文本图像可以是身份证的图像，所述第一文本图像中的文本为身份证上的身份证号和姓名。又例如，所述第一文本图像可以是广告牌的图像，所述第一文本图像中的文本为广告牌上的标语。在另一些实施例中，所述第一文本图像也可以是包括印刷体文字的图像。在实际应用中，所述第一场景文本图像可以是分辨率较低导致文本识别准确率低于预设的准确率阈值的文本图像。

构成一个词语或者短语的各个文字或者构成一个单词的各个字母并非是随机组合的，例如，对于一组文本“打*鼠”，由于“打地鼠”是一个经常出现的短语，因此，“*”的内容有很大概率为“地”。这种根据上下文来推断文本内容的方式利用了文本之间的相关性。由于文本之间往往具有较强的相关性。因此，可以对第一文本图像进行特征提取，得到所述第一场景文本图像的特征图。具体来说，可以分别在水平方向和/或垂直方向上对第一文本图像进行特征提取，得到所述第一文本图像的至少一个特征序列。每个特征序列可以表示所述第一文本图像中至少两个图像块之间的相关性。

在一些实施例中，可以将每个像素点作为一个图像块，所述特征序列中的每个元素可以表示所述第一文本图像中相邻像素点之间的相关性。在另一些实施例中，也可以将多个相邻的像素点共同作为一个图像块，所述特征序列中的每个元素可以表示所述第一文本图像中相邻图像块之间的相关性。

在很多情况下，第一文本图像的背景是单色的，且背景的颜色与文本的颜色一般不同，因此，可以根据第一文本图像对应的二值图像确定第一文本图像中文本的大致位置。在背景颜色与文本颜色差异较大的情况下，通过二值图像确定文本位置的方式能够获得比较准确的结果。此外，还可以根据第一文本图像的通道图来确定第一文本图像中文本的颜色。因此，在一些实施例中，可以获取所述第一文本图像的多个通道图和所述第一文本图像对应的二值图像；对所述多个通道图和所述二值图像进行特征提取，得到所述第一文本图像的特征图。

其中，所述二值图像可以根据第一文本图像的平均灰度值获取。具体来说，可以计算第一文本图像中各个像素点的平均灰度值，将像素值大于该平均灰度值的像素点的灰度值确定为第一灰度值，将像素值小于或等于该平均灰度值的像素点的灰度值确定为第二灰度值，所述第一灰度值大于所述第二灰度值。在一些实施例中，所述第一灰度值与所述第二灰度值之差可以大于预设像素值。例如，所述第一灰度值可以是255，所述第二灰度值可以是0，从而所述二值图中的各个像素点均为黑色像素点或者白色像素点。这样，可以增加背景像素点的像素值与文本像素点的像素值的差异，使得对文本的定位更准确。所述通道图可以是RGB(Red Green Blue，红绿蓝)图像的R通道、G通道和B通道的通道图，也可以是其他的用于表征图像颜色的通道上的通道图。

在一些实施例中，可以将所述第一文本图像输入预先训练的神经网络，并获取所述神经网络输出的特征图。所述神经网络可以是卷积神经网络(Convolutional NeuralNetworks，CNN)、长短期记忆网络(Long-Short Term Memory，LSTM)或者其他类型的神经网络，也可以是由多种神经网络组合成的神经网络。在一些实施例中，可以采用双向长短期记忆网络(Bidirectional Long-Short Term Memory，BLSTM)来获取所述特征图，并同时对所述第一文本图像在水平方向和垂直方向上进行特征提取，以提高重建出来的第二文本图像的鲁棒性。

所述神经网络可以先根据所述第一文本图像生成中间图像，所述中间图像的通道数量大于所述第一文本图像，再对所述中间图像进行特征提取，得到所述特征图。通过生成通道数量大于所述第一文本图像的中间图像，可以增加所述第一文本图像中的特征的丰富度，从而提高重建出的第二文本图像的分辨率。在实际应用中，可以所述神经网络可以包括至少一个卷积神经网络以及一个双向长短期记忆网络，所述至少一个卷积神经网络中的每个卷积神经网络依次连接，所述双向长短期记忆网络连接到所述至少一个卷积神经网络中的最后一个卷积神经网络。可以通过所述至少一个卷积神经网络生成所述中间图像，并通过双向长短期记忆网络进行特征提取。

进一步地，所述神经网络包括依次连接的多个子网络，其中每个子网络的结构可以与上述实施例中单个的神经网络的结构相同，此处不再赘述。假设所述神经网络中从前往后数排在第i位的子网络称为第i子网络，则可以将所述多个子网络中第i子网络输出的第i输出图像输入到所述多个子网络中的第i+1子网络，以通过所述第i+1子网络生成第i+1中间图像，并对所述第i+1中间图像进行特征提取，得到第i+1输出图像；所述第i+1中间图像的通道数大于所述第i输出图像的通道数；将第N输出图像确定为所述特征图；其中，第1子网络根据所述第一文本图像生成第1中间图像，并对所述第1中间图像进行特征提取，得到第1特征图，i和N为正整数，N为子网络的总数，1≤i≤N-1，N≥2。

也就是说，第1子网络根据第一文本图像生成第1中间图像，对第1中间图像进行特征提取得到第1输出图像，并将第1输出图像输入至第2子网络，其中，第1中间图像的通道数大于第1文本图像。第2子网络根据第1输出图像生成第2中间图像，对第2中间图像进行特征提取得到第2输出图像，并将第2输出图像输入至第3子网络，其中，第2中间图像的通道数大于第1输出图像。以此类推。通过多个级联的子网络，能够充分提取出第一文本图像中的特征，从而进一步提高重建出的第二文本图像的分辨率。

在步骤202中，可以基于所述特征序列，采用诸如pixel shuffle等上采样方式对所述第一文本图像进行上采样处理，得到所述第一文本图像对应的第二文本图像。进一步地，如果在步骤201中生成的特征图的通道数量大于第一文本图像的通道数量，则在本步骤中还可以在根据所述至少一个特征序列对所述第一文本图像进行处理之前，对所述第一文本图像进行处理，以使所述第一文本图像的通道数与所述特征图的通道数相同。然后，再根据特征图中的特征序列对处理后的第一文本图像进行处理，得到第二文本图像。本步骤中对第一文本图像进行处理以增加第一文本图像的通道数的过程可以采用卷积神经网络实现。

在此基础上，在得到第二文本图像之后，还可以对所述第二文本图像进行处理，以使所述第二文本图像的通道数与所述第一文本图像的通道数相同，即，将第二文本图像恢复成四通道。这一过程也可以由一个卷积神经网络实现。

在一些实施例中，步骤201中采用的神经网络可以基于多组训练图像训练得到，每组训练图像包括同一场景文本的第一训练图像和第二训练图像，所述第一训练图像与所述第二训练图像包括相同文本；其中，所述第一训练图像的分辨率小于预设的第一分辨率阈值，所述第二训练图像的分辨率大于预设的第二分辨率阈值，所述第一分辨率阈值小于或等于所述第二分辨率阈值。可以将所述第一训练图像称为低分辨率(Low Resolution，LR)图像，将所述第二训练图像称为高分辨率(High Resolution，HR)图像。

可以预先建立文本图像数据集，所述文本图像数据集中可包括多个文本图像对，每个文本图像对中包括一张低分辨率的文本图像以及一张与所述低分辨率的文本图像对应的高分辨率的文本图像。所述文本图像对中的文本可以是各种自然场景下的文本，所述自然场景可以包括但不限于街道、图书馆、商店、交通工具内部等场景中的至少一者。

在另一些实施例中，也可以将以下神经网络作为一个总的神经网络，通过所述第一训练图像和第二训练图像直接对所述总的神经网络进行训练：用于进行特征提取以获取特征图的神经网络，在特征提取之前用于对第一文本图像进行处理以增加第一文本图像的通道数的卷积神经网络，以及在得到第二文本图像之后，对第二文本图像进行通道恢复的卷积神经网络。

具体来说，可以将所述第一训练图像输入所述神经网络，并获取所述神经网络的输出图像；基于所述第一训练图像对应的第二训练图像与所述输出图像确定损失函数；基于所述损失函数对所述神经网络进行监督训练。

所述损失函数可以是各种类型的损失函数，也可以是两种或者两种以上损失函数的组合。在一些实施例中，所述损失函数包括第一损失函数和第二损失函数中的至少一者，所述第一损失函数可以基于第一训练图像和第二训练图像中各个对应像素的均方差确定，例如，可以是L2损失函数。在另一些实施例中，所述第二损失函数可以基于第一训练图像的梯度场和第二训练图像中各个对应像素的梯度场之差确定，例如，可以是梯度剖面损失函数(Gradient Profile Loss，GPL)。

梯度剖面损失函数L_GP定义如下：

其中，

表示HR图像在像素x处的梯度场，

表示HR图像对应的超分辨率图像在像素x处的梯度场，x₀表示梯度场曲线的上边界，x₁表示梯度场曲线的下边界，E表示计算能量，公式中的下标1表示计算L1损失函数。

梯度场生动地展示了文本图像的文本特征和背景特征。另外，LR图像总是有更宽的梯度场曲线，而HR图像的梯度场曲线更窄。在获取到HR图像的梯度场之后，可以在不进行复杂的数学运算的情况下将梯度场曲线压缩得更窄。因此，通过采用梯度剖面损失函数，可以重建文本特征和背景特征之间的锐利边界，有助于更好地区分文本和背景，并且能够产生更加清晰的形状，使得训练出的神经网络更加可靠。

在传统的模型训练方式中，一般是通过对高分辨率图像进行下采样的方式人为地生成低分辨率图像(通过这种方式生成的低分辨率图像称为人造低分辨率图像)，再通过人造低分辨率图像进行模型训练。然而，相对于这种人造低分辨率图像，真实的低分辨率图像(由于拍摄焦距较长等原因导致的低分辨率图像)的分辨率往往更低，也更加多样化。另外，很多情况下文本图像中的文本具有多样的形状、分散的拍摄光照和不同的背景。因此，通过人造低分辨率图像训练出的模型并不能很好地获取文本图像的特征图，导致文本识别的准确率较低。

为了解决上述问题，本公开实施例采用的第一训练图像和所述第二训练图像均为真实图像，即，通过不同焦距拍摄到的图像。其中，所述第一训练图像由设置有第一焦距的第一图像采集装置对第一位置处的拍摄对象进行拍摄得到，所述第二训练图像由设置有第二焦距的第二图像采集装置对所述第一位置处的所述拍摄对象进行拍摄得到，所述第一焦距小于所述第二焦距。所述第一图像采集装置和所述第二图像采集装置可以是同一个图像采集装置，也可以是不同的图像采集装置。在一些实施例中，第一焦距的取值可以在24mm至120mm之间，例如可以是70mm。在另一些实施例中，第二焦距的取值可以在120mm至240mm之间，例如，可以是150mm。进一步地，所述第一焦距和所述第二焦距的数量均可以为多个，且多个所述第一焦距中的每个第一焦距均小于多个所述第二焦距中的最小的第二焦距。例如，所述第一焦距可以包括35mm，50mm和70mm等，所述第二焦距可以包括150mm，170mm和190mm等。

在使用文本图像数据集中的文本图像对进行模型训练时，一般是先从文本图像对中的文本图像中将包括文本的区域裁剪下来，将从文本图像对中的低分辨率的文本图像中裁剪下来的图像区域作为第一训练图像，将从文本图像对中的高分辨率的文本图像中裁剪下来的图像区域作为第二训练图像。裁剪下来的第一训练图像和第二训练图像的尺寸相同。

由于同一文本图像对中的文本相同，为了提高处理效率，一般会将一张图像作为参考图像，获取待裁剪区域在该参考图像中的位置，再根据所述位置对另一张图像进行裁剪。例如，可以将文本图像对中的高分辨率图像作为参考图像，根据高分辨率图像中文本的位置来对低分辨率图像进行裁剪。然而，由于在拍摄过程中相机移动等原因，导致每张图像的中心点位置会有所不同，因此，通过上述方式进行裁剪，得到的第一训练图像和第二训练图像中文本的位置会有所不同，这种现象称为不对齐，如图3所示。不对齐会使得模型错误地将一张图像的背景部分与另一张图像的文字部分相对应，从而学习到错误的像素对应信息，产生重影问题。

因此，为了解决上述问题，在一些实施例中，在基于同一场景文本的第一训练图像和第二训练图像进行神经网络训练之前，还可以对所述第一训练图像和第二训练图像进行对齐。具体地，可以通过预先训练的模型对第一训练图像进行处理，从而使得第一训练图像与第二训练图像对齐。所述模型可以对第一训练图像进行插值和平移，从而将第一训练图像与第二训练图像进行对齐。所述预先训练的模型可以是空间变换网络(SpatialTransformation Networks，STN)。通过图像对齐，能够有效减轻重影问题，提高训练出的神经网络的准确率。

每组训练图像中的第一训练图像和所述第二训练图像的数量均为1。为了更好地识别图像，可以将所有图像都旋转到水平方向，再根据旋转后的第一训练图像和第二训练图像进行神经网络的训练。

还可以对所述第一训练图像和所述第二训练图像中的至少一项进行缩放处理，以使所述第一训练图像和所述第二训练图像的尺寸达到预设值。具体来说，可以对像素尺寸小于第一尺寸的第一训练图像进行上采样处理，以使所述第一训练图像达到第一尺寸；可以对像素尺寸小于第二尺寸的第二训练图像进行上采样处理，以使所述第二训练图像达到第二尺寸，所述第一尺寸小于所述第二尺寸。在实践过程中发现，在文本图像的像素高度达到16的情况下，对文本图像进行重建能够较大地提升文本识别效果，如果文本图像的像素高度太小，即使对文本图像进行重建，识别结果也不够理想，因此，可以选择像素高度为16作为第一尺寸。进一步地，所述第一尺寸可以设置为64×16的像素尺寸。另一方面，在像素高度超过32的情况下，即便增加像素尺寸，对文本识别的效果提升也不大，因此，可以选择像素高度为32作为第二尺寸。进一步地，所述第二尺寸可以设置为128×32的像素尺寸。

还可以从所述文本图像数据集中选取一部分图像对作为测试集，用来测试训练出的神经网络的性能。根据所述图像对中低分辨率图像的分辨率，可以将所述测试集划分为三个子集，其中，第一子集中的低分辨率图像的分辨率小于预设的第三分辨率阈值，第二子集中的低分辨率图像的分辨率大于所述第三分辨率阈值且小于预设的第四分辨率阈值，第三子集中的低分辨率图像的分辨率大于预设的第四分辨率阈值，所述第三分辨率阈值小于所述第四分辨率阈值。在一些实施例中，可以根据所述测试集中低分辨率图像的分辨率范围来设置第三分辨率阈值和第四分辨率阈值。可以分别通过三个子集来对神经网络的性能进行测试，并根据三个子集对应的测试结果确定神经网络的性能。

图4示出了本公开实施例的文本识别方法的整体流程。首先，进行总的神经网络训练。将第一训练图像输入神经网络，这里的神经网络包括用于进行特征提取的神经网络，以及用于增加和减少第一文本图像的通道数量的神经网络，例如，卷积神经网络，还可以包括用于进行训练图像对齐的神经网络，例如，空间变换网络。这里用于进行特征提取的每个神经网络可称为一个序列残差模块(Sequential Residual Block，SRB)，每个SRB可包括两个卷积神经网络和一个双向长短期记忆网络(BLSTM)。首先将第一训练图像与第二训练图像进行对齐，然后通过卷积神经网络进行处理，使第一训练图像的通道数增加，再将卷积神经网络处理后的第一训练图像输入多个级联的序列残差模块。然后通过上采样模块进行上采样处理，再通过卷积神经网络将上采样后的图像的通道数恢复成原来的通道数，得到第一训练图像对应的输出图像。根据所述输出图像与第一训练图像对应的第二训练图像计算L2损失函数和梯度剖面损失函数，通过上述两个损失函数对总的神经网络的训练过程进行监督，得到所述总的神经网络参数。所述总的神经网络训练完成之后，将待处理的第一文本图像输入所述总的神经网络，所述总的神经网络的输出图像即为第二文本图像。对第二文本图像进行文本识别，得到文本识别结果。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

如图5所示，本公开还提供一种图像处理装置，所述装置包括：

获取模块501，用于获取第一文本图像的特征图，所述特征图中包括至少一个特征序列，所述特征序列用于表示所述第一文本图像中至少两个图像块之间的相关性；

第一处理模块502，用于根据所述至少一个特征序列对所述第一文本图像进行处理，得到第二文本图像，所述第二文本图像的分辨率大于所述第一文本图像；

文本识别模块503，用于对第二文本图像进行文本识别。

在一些实施例中，所述装置还包括对齐模块，用于在基于至少一组训练图像对所述神经网络进行训练之前，对所述第一训练图像和第二训练图像进行对齐。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

本说明书实施例还提供一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现前述任一实施例所述的方法。

本公开实施例还包括一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一实施例所述的方法。

图6示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图，该设备可以包括：处理器601、存储器602、输入/输出接口603、通信接口604和总线605。其中处理器601、存储器602、输入/输出接口603和通信接口604通过总线605实现彼此之间在设备内部的通信连接。

处理器601可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器602可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器602可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器602中，并由处理器601来调用执行。

输入/输出接口603用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口604用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线605包括一通路，在设备的各个组件(例如处理器601、存储器602、输入/输出接口603和通信接口604)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器601、存储器602、输入/输出接口603、通信接口604以及总线605，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本说明书实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一实施例所述的方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本说明书实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本说明书实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本说明书实施例的保护范围。

Claims

1.一种文本识别方法，其特征在于，所述方法包括：

获取第一文本图像的特征图，所述特征图中包括至少一个特征序列，所述特征序列用于表示所述第一文本图像中至少两个图像块之间的相关性；

根据所述至少一个特征序列对所述第一文本图像进行处理，得到第二文本图像，所述第二文本图像的分辨率大于所述第一文本图像；

对所述第二文本图像进行文本识别。

2.根据权利要求1所述的方法，其特征在于，所述获取第一文本图像的特征图，包括：

获取所述第一文本图像的多个通道图和所述第一文本图像对应的二值图像；

对所述通道图和所述二值图像进行特征提取，得到所述第一文本图像的特征图。

3.根据权利要求1或2所述的方法，其特征在于，所述获取第一文本图像的特征图，包括：

将所述第一文本图像输入预先训练的神经网络，并获取所述神经网络输出的特征图。

4.根据权利要求3所述的方法，其特征在于，所述神经网络基于以下方式获取所述特征图：

根据所述第一文本图像生成中间图像，所述中间图像的通道数量大于所述第一文本图像；

对所述中间图像进行特征提取，得到所述特征图。

5.根据权利要求3或4所述的方法，其特征在于，所述神经网络包括至少一个卷积神经网络以及双向长短期记忆网络，所述至少一个卷积神经网络的输出端与所述双向长短期记忆网络的输入端相连；

所述获取第一文本图像的特征序列，包括：

将所述第一文本图像输入所述至少一个卷积神经网络，获取所述至少一个卷积神经网络输出的中间图像；

将所述中间图像输入所述双向长短期记忆网络，获取所述双向长短期记忆网络输出的所述特征图。

6.根据权利要求3至5任意一项所述的方法，其特征在于，所述神经网络包括依次连接的多个子网络；

所述将所述第一文本图像输入预先训练的神经网络，并获取所述神经网络输出的特征图，包括：

将所述多个子网络中第i子网络输出的第i输出图像输入到所述多个子网络中的第i+1子网络，以通过所述第i+1子网络生成第i+1中间图像，并对所述第i+1中间图像进行特征提取，得到第i+1输出图像；所述第i+1中间图像的通道数大于所述第i输出图像的通道数；

将第N输出图像确定为所述特征图；

其中，第1子网络根据所述第一文本图像生成第1中间图像，并对所述第1中间图像进行特征提取，得到第1特征图，i和N为正整数，N为子网络的总数，1≤i≤N-1，N≥2。

7.根据权利要求1至6任意一项所述的方法，其特征在于，所述方法还包括：

在根据所述至少一个特征序列对所述第一文本图像进行处理之前，对所述第一文本图像进行处理，以使所述第一文本图像的通道数与所述特征图的通道数相同。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

在得到第二文本图像之后，对所述第二文本图像进行处理，以使所述第二文本图像的通道数与所述第一文本图像的通道数相同；

所述对所述第二文本图像进行文本识别，包括：

对处理后的第二文本图像进行文本识别。

9.根据权利要求3至8任意一项所述的方法，其特征在于，所述方法还包括：

基于至少一组训练图像对所述神经网络进行训练，每组训练图像包括第一训练图像和第二训练图像，所述第一训练图像与所述第二训练图像包括相同文本；

其中，所述第一训练图像的分辨率小于第一分辨率阈值，所述第二训练图像的分辨率大于第二分辨率阈值，所述第一分辨率阈值小于或等于所述第二分辨率阈值。

10.根据权利要求9所述的方法，其特征在于，所述基于至少一组训练图像对所述神经网络进行训练，包括：

将所述第一训练图像输入所述神经网络，并获取所述神经网络的输出图像；

基于所述第一训练图像对应的第二训练图像与所述输出图像确定损失函数；

基于所述损失函数对所述神经网络进行监督训练。

11.根据权利要求9所述的方法，其特征在于，所述损失函数包括第一损失函数和第二损失函数中的至少一者；

第一损失函数基于第一训练图像和第二训练图像中各个对应像素的均方差确定；和/或，

所述第二损失函数基于第一训练图像的梯度场和第二训练图像中各个对应像素的梯度场之差确定。

12.根据权利要求9至11任意一项所述的方法，其特征在于，所述方法还包括：

在基于至少一组训练图像对所述神经网络进行训练之前，对所述第一训练图像和第二训练图像进行对齐。

13.根据权利要求12所述的方法，其特征在于，所述对所述第一训练图像和第二训练图像进行对齐，包括：

通过预先训练的空间变换网络对所述第一训练图像进行处理，以将所述第一训练图像中的文本与所述第二训练图像进行对齐。

14.根据权利要求9至13任意一项所述的方法，其特征在于，所述第一训练图像由设置有第一焦距的第一图像采集装置对第一位置处的拍摄对象进行拍摄得到；

所述第二训练图像由设置有第二焦距的第二图像采集装置对所述第一位置处的所述拍摄对象进行拍摄得到；

所述第一焦距小于所述第二焦距。

15.一种文本识别装置，其特征在于，所述装置包括：

获取模块，用于获取第一文本图像的特征图，所述特征图中包括至少一个特征序列，所述特征序列用于表示所述第一文本图像中至少两个图像块之间的相关性；

第一处理模块，用于根据所述至少一个特征序列对所述第一文本图像进行处理，得到第二文本图像，所述第二文本图像的分辨率大于所述第一文本图像；

文本识别模块，用于对第二文本图像进行文本识别。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至14任意一项所述的方法。

17.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至14任意一项所述的方法。