CN110321913B

CN110321913B - 一种文本识别方法及装置

Info

Publication number: CN110321913B
Application number: CN201810295887.XA
Authority: CN
Inventors: 王杰
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2023-07-25
Anticipated expiration: 2038-03-30
Also published as: CN110321913A

Abstract

本申请实施例提供了一种文本识别方法及装置，方法包括：获取待识别文本图像；提取待识别文本图像的特征，作为初始特征；根据预设算法，将初始特征转换为目标特征；目标特征对应的分辨率高于初始特征对应的分辨率；根据目标特征和预设超分辨率模型，构建目标文本图像；预设超分辨率模型是利用第一类文本图像和第一类文本图像对应的第二类文本图像训练获得的，用于构建输入的特征对应的文本图像的模型；第二类文本图像的分辨率高于第一类文本图像的分辨率；确定目标文本图像的文本特征；对文本特征进行解码识别，得到文本信息。应用本申请实施例，减轻了图像模糊化和粘连的问题，提高了文本识别结果的准确性。

Description

一种文本识别方法及装置

技术领域

本申请涉及图像处理技术领域，特别是涉及一种文本识别方法及装置。

背景技术

随着图像处理技术的发展，文本识别技术应用范围越来越广。例如，文本识别技术可以作为信息采集录入手段、作为图像信息理解的一个重要手段等。

在对文本图像进行文本识别时经常遇到分辨率过低的情况。例如，文本图像尺寸太小，设计的文本识别算法提取的特征数目不够多；进行文本识别的深度学习网络要求输入相同的图像尺寸，而文本信息集中在尺寸低于要求的文本图像中；文本图像尺寸小，造成字符间像素值区分度不够等等。

目前，对低分辨率文本图像进行文本识别时，主要采用插值算法进行上采样，将低分辨率文本图像放大到所需尺寸，获得高分辨率文本图像，对高分辨率文本图像进行特征提取，进而对特征进行解码识别，获得文本信息。

在文本图像中，文本的细节是区分不同文本的重要信息，比如“1”、“i”和“I”。然而插值算法会使得图像模糊化，也会造成字符之间的粘连，这给后续特征提取和解码识别带来了一定的难度，使得文本识别结果不准确。

发明内容

本申请实施例的目的在于提供一种文本识别方法及装置，以减轻图像模糊化和粘连的问题，提高文本识别结果的准确性。具体技术方案如下：

为实现上述目的，本申请实施例公开了一种文本识别方法，所述方法包括：

获取待识别文本图像；

提取所述待识别文本图像的特征，作为初始特征；

根据预设算法，将所述初始特征转换为目标特征；所述目标特征对应的分辨率高于所述初始特征对应的分辨率；

根据所述目标特征和预设超分辨率模型，构建目标文本图像；所述预设超分辨率模型是利用第一类文本图像和第一类文本图像对应的第二类文本图像训练获得的，用于构建输入的特征对应的文本图像的模型；所述第二类文本图像的分辨率高于所述第一类文本图像的分辨率；

确定所述目标文本图像的文本特征；

对所述文本特征进行解码识别，得到文本信息。

在本申请的一个实施例中，所述根据预设算法，将所述初始特征转换为目标特征的步骤，包括：

判断所述初始特征对应的分辨率是否小于分辨率阈值；

若是，根据预设算法，将所述初始特征转换为目标特征。

在本申请的一个实施例中，所述方法还包括：

若所述初始特征对应的分辨率不小于分辨率阈值，将所述初始特征确定为所述目标文本图像的文本特征。

将所述初始特征输入反卷积神经网络模型或字典，得到目标特征；所述反卷积神经网络模型或字典是利用所述第一类文本图像和所述第二类文本图像训练获得的，用于获取高于待识别文本图像的分辨率的特征的模型或字典。

根据预设插值算法，对所述初始特征进行上采样，得到目标特征。

根据基于分辨率的特征转换算法，将所述初始特征转换为目标特征。

在本申请的一个实施例中，所述提取所述待识别文本图像的特征，作为初始特征的步骤，包括：

将所述待识别文本图像划分为多个待识别文本图像块；

针对每一待识别文本图像块，提取该待识别文本图像块的特征，作为初始特征；

所述方法还包括：

对于每一初始特征，确定该初始特征对应的待识别文本图像块在所述待识别文本图像中的坐标；

所述根据所述目标特征和预设超分辨率模型，确定目标文本图像的步骤，包括：

根据每一初始特征对应的目标特征、每一初始特征对应的坐标和预设超分辨率模型，确定目标文本图像。

在本申请的一个实施例中，所述根据每一初始特征对应的目标特征、每一初始特征对应的坐标和预设超分辨率模型，确定目标文本图像的步骤，包括：

对于每一初始特征，将该初始特征对应的目标特征输入预设超分辨率模型，获得目标文本图像块；

按照每一初始特征对应的坐标，组合多个目标文本图像块，获得目标文本图像。

在本申请的一个实施例中，所述确定所述目标文本图像的文本特征的步骤，包括：

将所述目标文本图像输入预设的卷积神经网络模型中，得到所述目标文本图像的卷积特征；所述卷积神经网络模型用于提取图像的特征；

根据所述卷积特征确定所述目标文本图像的文本特征。

在本申请的一个实施例中，所述根据所述积特征确定所述目标文本图像的文本特征的步骤，包括：

将所述卷积特征确定为所述目标文本图像的文本特征；

或者，将所述卷积特征和所述初始特征确定为所述目标文本图像的文本特征。

在本申请的一个实施例中，所述对所述文本特征进行解码识别，得到文本信息的步骤，包括：

按照预设的序列长度，对所述文本特征进行序列建模；

对序列建模后的文本特征进行解码识别，得到文本信息。

为实现上述目的，本申请实施例还公开了一种文本识别装置，所述装置包括：

获取单元，用于获取待识别文本图像；

提取单元，用于提取所述待识别文本图像的特征，作为初始特征；

转换单元，用于根据预设算法，将所述初始特征转换为目标特征；所述目标特征对应的分辨率高于所述初始特征对应的分辨率；

构建单元，用于根据所述目标特征和预设超分辨率模型，构建目标文本图像；所述预设超分辨率模型是利用第一类文本图像和第一类文本图像对应的第二类文本图像训练获得的，用于构建输入的特征对应的文本图像的模型；所述第二类文本图像的分辨率高于所述第一类文本图像的分辨率；

第一确定单元，用于确定所述目标文本图像的文本特征；

识别单元，用于对所述文本特征进行解码识别，得到文本信息。

在本申请的一个实施例中，所述转换单元，具体用于：

判断所述初始特征对应的分辨率是否小于分辨率阈值；

若是，根据预设算法，将所述初始特征转换为目标特征。

在本申请的一个实施例中，所述第一确定单元，还用于：若所述初始特征对应的分辨率不小于分辨率阈值，将所述初始特征确定为所述目标文本图像的文本特征。

在本申请的一个实施例中，所述转换单元，具体用于：

在本申请的一个实施例中，所述装置还包括：第二确定单元；

所述提取单元，还用于将所述待识别文本图像划分为多个待识别文本图像块；针对每一待识别文本图像块，提取该待识别文本图像块的特征，作为初始特征；

所述第二确定单元，用于对于每一初始特征，确定该初始特征对应的待识别文本图像块在所述待识别文本图像中的坐标；

所述构建单元，具体用于根据每一初始特征对应的目标特征、每一初始特征对应的坐标和预设超分辨率模型，确定目标文本图像。

在本申请的一个实施例中，所述构建单元，具体用于：

在本申请的一个实施例中，所述第一确定单元，具体用于：

根据所述卷积特征确定所述目标文本图像的文本特征。

在本申请的一个实施例中，所述第一确定单元，具体用于：

将所述卷积特征确定为所述目标文本图像的文本特征；

在本申请的一个实施例中，所述识别单元，具体用于：

按照预设的序列长度，对所述文本特征进行序列建模；对序列建模后的文本特征进行解码识别，得到文本信息。

本申请实施例中，当获取到待识别文本图像后，将待识别文本图像的初始特征转换为目标特征，其中，目标特征对应的分辨率高于初始特征对应的分辨率，根据目标特征和预设超分辨率模型，确定目标文本图像，对目标文本图像的文本特征进行解码识别，获得文本信息。预设超分辨率模型是利用第一类文本图像和第一类文本图像对应的第二类文本图像训练获得的，第二类文本图像的分辨率高于第一类文本图像的分辨率，这使得预设超分辨率模型能很好地根据由分辨率较低的文本图像的特征转换获得较高分辨率对应的特征，构建分辨率较高的文本图像，能够有效减轻在根据提高分辨率后的特征构建文本图像时出现的图像模糊化和粘连的问题，进而提高了文本识别结果的准确性。当然，实施本申请的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的文本识别方法的一种流程示意图；

图2为本申请实施例提供的待识别文本图像的一种示意图；

图3为本申请实施例提供的目标文本图像的一种示意图；

图4为本申请实施例提供的解码识别的一种流程示意图；

图5为本申请实施例提供的文本识别装置的一种结构示意图；

图6为本申请实施例提供的电子设备的一种结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，对低分辨率文本图像进行文本识别时，主要采用插值算法进行上采样，将低分辨率文本图像放大到所需尺寸，获得高分辨率文本图像，对高分辨率文本图像进行特征提取，进而对特征进行解码识别，获得文本信息。然而插值算法会使得图像模糊化，也会造成字符之间的粘连，这给后续特征提取和解码识别带来了一定的难度，使得文本识别结果不准确。

为了减轻图像模糊化和粘连的问题，提高文本识别结果的准确性，本申请实施例提供了一种文本识别方法及装置。该方法可以应用于服务器或者其他具有数据交互及处理功能的电子设备。

该方法中，预先设置了利用第一类文本图像和第一类文本图像对应的第二类文本图像训练获得的超分辨率模型，其中，第二类文本图像的分辨率高于第一类文本图像的分辨率。此时，利用预设的超分辨率模型能很好地根据由分辨率较低的文本图像的特征转换获得较高分辨率对应的特征，构建分辨率较高的文本图像，能够有效减轻在根据提高分辨率后的特征构建文本图像时出现的图像模糊化和粘连的问题，进而提高了文本识别结果的准确性。

具体的，参考图1，图1为本申请实施例提供的文本识别方法的一种流程示意图，该方法包括：

步骤101：获取待识别文本图像。

这里，待识别文本图像为包括文本信息的、需要识别的图像。文本图像中包括文本信息的种类，可以根据实际需要设定。例如，文本信息为数字，作为文本信息可以分为10类，分别为1、2、3、4、5、6、7、8、9、0。再例如，文本信息为字母，作为文本信息可以分为52类，包括26个大写字母和26个小写字母。

步骤102：提取待识别文本图像的特征，作为初始特征。

本申请实施例中，可以采用BOW(Bag of Words，视觉词袋)、汉明窗嵌入、局部敏感希哈、CDVS(Compact Descriptors for Visual Search，图像检测紧凑描述)等方法提取初始特征，也可以采用卷积神经网络模型提取初始特征，本申请实施例对此不进行限定。

一个例子中，为了更好的获取到表征文本图像中文本信息的特征，采用卷积神经网络模型提取待识别文本图像的初始特征。

这里，卷积神经网络模型可以通过以下方式训练获得：

步骤01、获取文本图像。

为了保证训练结果的准确，获得的文本图像的数量越多越好。

步骤02、将文本图像输入卷积神经网络模型中提取特征。

步骤03、对提取的特征进行解码识别，得到输出文本信息。

步骤04、计算文本图像中实际的文本信息与输出文本信息的误差。若计算得到的误差大于文本误差阈值，调整卷积神经网络模型，重新执行步骤03-04。若误差不大于文本误差阈值，或卷积神经网络模型达到最优，则结束训练。

在本申请的一个实施例中，为了节约设备资源，在提取待识别文本图像的特征，作为初始特征之后，可以判断待识别文本图像的分辨率是否小于分辨率阈值，也就是判断初始特征对应的分辨率是否小于分辨率阈值。若小于分辨率阈值，则确定待识别文本图像的分辨率过低，为了提高识别结果的准确性，需要提高待识别文本图像的分辨率，执行步骤103。若初始特征对应的分辨率不小于分辨率阈值，则确定依据该待识别文本图像就可以准确识别出文本信息，对初始特征进行解码识别，获得文本信息，以节约设备资源。

步骤103：根据预设算法，将初始特征转换为目标特征。

其中，目标特征对应的分辨率高于初始特征对应的分辨率。这里，初始特征对应的分辨率即为待识别文本图像的分辨率。

在本申请的一个实施例中，预设算法可以为反卷积神经网络模型或字典。也就是，根据预设算法，将初始特征转换为目标特征的步骤为：将初始特征输入反卷积神经网络模型或字典，得到目标特征。

这里，反卷积神经网络模型或字典是利用第一类文本图像和第二类文本图像训练获得的，用于获取高于待识别文本图像的分辨率的特征的模型或字典。第二类文本图像的分辨率高于第一类文本图像的分辨率。

以反卷积神经网络模型为例说明训练的过程。本申请实施例中，反卷积神经网络模型的训练过程可以包括：

步骤11、获取第一类文本图像和第一类文本图像对应的第二类文本图像。

为了保证训练结果的准确，获得的第一类文本图像和第二类文本图像的数量越多越好。

步骤12、提取第一类文本图像的特征作为第一特征，提取第二类文本图像的特征作为第二特征。

本申请实施例中，可以采用BOW、汉明窗嵌入、局部敏感希哈、CDVS等方法提取第一特征和第二特征，也可以采用卷积神经网络模型提取第一特征和第二特征。本申请实施例对此不进行限定。

步骤13、将第一特征输入反卷积神经网络模型中，得到输出特征。

步骤14、计算输出特征与第二特征的相似度。若计算得到的相似度小于特征相似度阈值，则调整反卷积神经网络模型中的参数，重新执行步骤13-14。若相似度不小于特征相似度阈值，或反卷积神经网络模型达到最优，则结束对反卷积神经网络模型的训练。

本申请实施例中，反卷积神经网络模型或字典利用第一类文本图像和第二类文本图像进行训练，考虑了将较低分辨率对应的特征转换为较高分辨率对应的特征的各种因素，利用预先训练好的反卷积神经网络模型或字典，能够更好的获得较高分辨率对应的特征，在一定程度上减轻了图像模糊和粘连的问题。

在本申请的一个实施例中，预设算法可以为插值算法。也就是，根据预设算法，将初始特征转换为目标特征的步骤可以为：根据预设插值算法，对初始特征进行上采样，得到目标特征。

在本申请的一个实施例中，预设算法还可以为基于分辨率的特征转换算法，其中，基于分辨率的特征转换算法中包括低分辨率特征与高分辨率特征的对应关系，低分辨率特征对应的图像的分辨率低于高分辨率特征对应的图像的分辨率。此时，根据预设算法，将初始特征转换为目标特征的步骤可以为：根据基于分辨率的特征转换算法，将初始特征转换为目标特征。

步骤104：根据目标特征和预设超分辨率模型，构建目标文本图像。

其中，预设超分辨率模型是利用第一类文本图像和第一类文本图像对应的第二类文本图像训练获得的，用于构建输入的特征对应的文本图像的模型。第二类文本图像的分辨率高于第一类文本图像的分辨率。由于目标特征对应的分辨率高于初始特征对应的分辨率，所以目标文本图像的分辨率高于待识别文本图像的分辨率。预设超分辨率模型可以通过神经网络构建，也可以采用稀疏编码等算法构建，本申请实施例对比不进行限定。

本申请实施例中，预设超分辨率模型的训练过程可以为：

步骤21、获取第一类文本图像和第一类文本图像对应的第二类文本图像。

为了保证训练结果的准确，获得的第一类文本图像和第二类文本图像的数量越多越好。训练预设超分辨率模型时获取的第一类文本图像和第二类文本图像与训练反卷积神经网络模型和字典时获取的第一类文本图像和第二类文本图像可以相同，也可以不同。本申请实施例对此不进行限定。

步骤22、提取第一类文本图像的特征作为第一特征。

本申请实施例中，可以采用BOW、汉明窗嵌入、局部敏感希哈、CDVS等方法提取第一特征，也可以采用卷积神经网络模型提取第一特征。本申请实施例对此不进行限定。

步骤23、将第一特征输入反卷积神经网络模型中，得到输出特征。

步骤24、将输出特征输入预设超分辨率模型中，得到输出文本图像。

步骤25、计算输出文本图像与第二类文本图像的相似度。若计算得到的相似度小于图像相似度阈值，则调整预设超分辨率模型中的参数，重新执行步骤23-25。若相似度不小于图像相似度阈值，或超分辨率模型达到最优，则结束对预设超分辨率模型的训练。

在本申请的一个实施例中，反卷积神经网络模型和超分辨率模型可以同时进行训练。也就是，按照步骤21-25的步骤计算得到相似度后，若计算得到的相似度小于图像相似度阈值，则调整反卷积神经网络模型和预设超分辨率模型中的参数，重新执行步骤23-25。若相似度不小于图像相似度阈值，或反卷积神经网络模型和超分辨率模型达到最优，则结束对反卷积神经网络模型和预设超分辨率模型的训练。

在本申请的一个实施例中，为了提高构建目标文本图像的效率，可以提取待识别文本图像的整体特征，作为初始特征，在获得初始特征对应的目标特征后，将目标特征输入预设超分辨率模型中，获得目标文本图像。

文本图像中的文本信息可以由多个字符组成。为了提高由预设超分辨率模型构建的文本图像的准确性，在本申请的一个实施例中，在提取待识别文本图像的特征时，可以将待识别文本图像划分为多个块，每一块作为一个待识别文本图像块。针对每一待识别文本图像块，提取该待识别文本图像块的特征，作为初始特征。这样就获取到多个初始特征。根据预设算法，一个初始特征可以转换为一个对应的目标特征。另外，对于每一初始特征，确定该初始特征对应的待识别文本图像块在待识别文本图像中的坐标。

此时，可以根据每一初始特征对应的目标特征、每一初始特征的坐标和预设超分辨率模型，确定目标文本图像。例如，对于每一初始特征，将该初始特征对应的目标特征输入预设超分辨率模型，获得目标文本图像块；按照每一初始特征的坐标，组合多个目标文本图像块，获得目标文本图像。

如图2所示的待识别文本图像，该待识别文本图像划分为了4个待识别文本图像块，分别为a01、a02、a03和a04。其中，待识别文本图像块a01在待识别文本图像中的坐标为(0，0)，待识别文本图像块a02在待识别文本图像中的坐标为(1，0)，待识别文本图像块a03在待识别文本图像中的坐标为(0，1)，待识别文本图像块a04在待识别文本图像中的坐标为(1，1)。

构建目标文本图像的过程中，从待识别文本图像块a01中提取出初始特征T01，从待识别文本图像块a02中提取出初始特征T02，从待识别文本图像块a03中提取出初始特征T03，从待识别文本图像块a04中提取出初始特征T04。

此时，可以确定初始特征T01对应的坐标为(0，0)，初始特征T02对应的坐标为(1，0)，初始特征T03对应的坐标为(0，1)，初始特征T04对应的坐标为(1，1)。

经预设算法后，初始特征T01转换为目标特征T11，初始特征T02转换为目标特征T12，初始特征T03转换为目标特征T13，初始特征T04转换为目标特征T14。

将目标特征T11输入预设超分辨率模型中获得目标文本图像块a11，将目标特征T12输入预设超分辨率模型中获得目标文本图像块a12，将目标特征T13输入预设超分辨率模型中获得目标文本图像块a13，将目标特征T14输入预设超分辨率模型中获得目标文本图像块a14。

按照初始特征T01、T02、T03和T04对应的坐标，组合目标文本图像块a11、a12、a13和a14，获得目标文本图像，如图3所示。

步骤105：确定目标文本图像的文本特征。

本申请实施例中，可以采用BOW、汉明窗嵌入、局部敏感希哈、CDVS等方法从目标文本图像中提取特征，也可以采用卷积神经网络模型从目标文本图像中提取特征。之后，根据提取的目标文本图像的特征确定目标文本图像的文本特征。

例如，将目标文本图像输入预设的卷积神经网络模型中，得到目标文本图像的卷积特征，该卷积神经网络模型用于提取图像的特征；根据卷积特征确定目标文本图像的文本特征。

在本申请的一个实施例中，可以将提取的卷积特征确定为目标文本图像的文本特征。也可以根据预设的融合算法，将提取的初始特征与卷积特征融合，将融合后的特征均定为目标文本图像的文本特征，以提高提取的文本特征的合理性。其中，融合算法可以为：将相同部分的特征做均值处理，或将相同部分的特征做乘法处理等。

例如，预设的融合算法为将相同部分的特征做均值处理。若获取到待识别图像的坐标x处的初始特征为T21，提取目标文本图像的坐标x处的卷积特征为T22，则可以确定目标文本图像的坐标x处的文本特征为：(T21+T22)/2。

在本申请的一个实施例中，为了便于融合初始特征与卷积特征，可以对初始特征和卷积特征对应的坐标作归一化处理。

步骤106：对文本特征进行解码识别，得到文本信息。

在本申请的一个实施例中，如图4所示的解码识别流程，该流程中包括序列建模模块和解码器两部分。具体的，将获取到文本特征输入序列建模模块，按照预设的序列长度，对文本特征进行序列建模。其中，预设的序列长度可以根据实际需要进行设定。例如，需要解码数据类字符的文本信息，可以将10类字符，每一类的序列长度为1。预设的序列长度也可以通过添加终止符来表示字符串的结束。

文本特征为上下文相关的特征，可以通过RNN(Recurrent neural Network，循环神经网络)对文本特征进行序列建模。

将建立的序列模型输入解码器，对序列模型进行解码识别，进而将文本特征转换为字符串结果输出，得到文本信息。

应用本申请实施例，当获取到待识别文本图像后，将待识别文本图像的初始特征转换为目标特征，其中，目标特征对应的分辨率高于初始特征对应的分辨率，根据目标特征和预设超分辨率模型，确定目标文本图像，对目标文本图像的文本特征进行解码识别，获得文本信息。预设超分辨率模型是利用第一类文本图像和第一类文本图像对应的第二类文本图像训练获得的，第二类文本图像的分辨率高于第一类文本图像的分辨率，这使得预设超分辨率模型能很好地根据由分辨率较低的文本图像的特征转换获得较高分辨率对应的特征，构建分辨率较高的文本图像，能够有效减轻在根据提高分辨率后的特征构建文本图像时出现的图像模糊化和粘连的问题，进而提高了文本识别结果的准确性。

与文本识别方法实施例对应，本申请实施例还提供了一种文本识别装置。参考图5，图5为本申请实施例提供的文本识别装置的一种结构示意图，该装置包括：

获取单元501，用于获取待识别文本图像；

提取单元502，用于提取待识别文本图像的特征，作为初始特征；

转换单元503，用于根据预设算法，将初始特征转换为目标特征；目标特征对应的分辨率高于初始特征对应的分辨率；

构建单元504，用于根据目标特征和预设超分辨率模型，构建目标文本图像；预设超分辨率模型是利用第一类文本图像和第一类文本图像对应的第二类文本图像训练获得的，用于构建输入的特征对应的文本图像的模型；第二类文本图像的分辨率高于第一类文本图像的分辨率；

第一确定单元505，用于确定目标文本图像的文本特征；

识别单元506，用于对文本特征进行解码识别，得到文本信息。

在本申请的一个实施例中，转换单元503，具体可以用于：

判断初始特征对应的分辨率是否小于分辨率阈值；

若是，根据预设算法，将初始特征转换为目标特征。

在本申请的一个实施例中，第一确定单元505，还可以用于：若初始特征对应的分辨率不小于分辨率阈值，将初始特征确定为目标文本图像的文本特征。

在本申请的一个实施例中，转换单元503，具体可以用于：

将初始特征输入反卷积神经网络模型或字典，得到目标特征；反卷积神经网络模型或字典是利用第一类文本图像和第二类文本图像训练获得的，用于获取高于待识别文本图像的分辨率的特征的模型或字典。

在本申请的一个实施例中，转换单元503，具体可以用于：

根据预设插值算法，对初始特征进行上采样，得到目标特征。

在本申请的一个实施例中，转换单元503，具体可以用于：

根据基于分辨率的特征转换算法，将初始特征转换为目标特征。

在本申请的一个实施例中，上述文本识别装置还可以包括：第二确定单元；

提取单元502，还可以用于将待识别文本图像划分为多个待识别文本图像块；针对每一待识别文本图像块，提取该待识别文本图像块的特征，作为初始特征；

第二确定单元，用于对于每一初始特征，确定该初始特征对应的待识别文本图像块在待识别文本图像中的坐标；

构建单元504，具体可以用于根据每一初始特征对应的目标特征、每一初始特征对应的坐标和预设超分辨率模型，确定目标文本图像。

在本申请的一个实施例中，构建单元504，具体可以用于：

在本申请的一个实施例中，第一确定单元505，具体可以用于：

将目标文本图像输入预设的卷积神经网络模型中，得到目标文本图像的卷积特征；卷积神经网络模型用于提取图像的特征；

根据卷积特征确定目标文本图像的文本特征。

将卷积特征确定为目标文本图像的文本特征；

或者，将卷积特征和初始特征确定为目标文本图像的文本特征。

在本申请的一个实施例中，识别单元506，具体可以用于：

按照预设的序列长度，对文本特征进行序列建模；对序列建模后的文本特征进行解码识别，得到文本信息。

与文本识别方法实施例对应，本申请实施例还提供了一种电子设备，如图6所示的，包括处理器601和存储器602；存储器602，用于存放计算机程序；处理器601，用于执行存储器602上所存放的计算机程序时，实现上述图1-图4所示的任一文本识别方法。

具体的，文本识别方法包括：

获取待识别文本图像；

提取待识别文本图像的特征，作为初始特征；

根据预设算法，将初始特征转换为目标特征；目标特征对应的分辨率高于初始特征对应的分辨率；

根据目标特征和预设超分辨率模型，构建目标文本图像；预设超分辨率模型是利用第一类文本图像和第一类文本图像对应的第二类文本图像训练获得的，用于构建输入的特征对应的文本图像的模型；第二类文本图像的分辨率高于第一类文本图像的分辨率；

确定目标文本图像的文本特征；

对文本特征进行解码识别，得到文本信息。

存储器602可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，存储器602还可以是至少一个位于远离前述处理器的存储装置。

处理器601可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

与文本识别方法实施例对应，本申请实施例还提供了一种机器可读存储介质，机器可读存储介质内存储有计算机程序，计算机程序被处理器执行时实现上述图1-图4所示的任一文本识别方法。其中，文本识别方法包括：

获取待识别文本图像；

提取待识别文本图像的特征，作为初始特征；

确定目标文本图像的文本特征；

对文本特征进行解码识别，得到文本信息。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于文本识别装置、电子设备、机器可读存储介质实施例而言，由于其基本相似于文本识别方法实施例，所以描述的比较简单，相关之处参见文本识别方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种文本识别方法，其特征在于，所述方法包括：

获取待识别文本图像；

提取所述待识别文本图像的特征，作为初始特征；

所述预设超分辨率模型的训练过程包括：

获取第一类文本图像和第一类文本图像对应的第二类文本图像，提取第一类文本图像的特征作为第一特征，循环执行以下步骤：将第一特征输入反卷积神经网络模型中，得到输出特征，将输出特征输入预设超分辨率模型中，得到输出文本图像，计算输出文本图像与第二类文本图像的相似度，并根据计算得到的相似度，确定是否结束对反卷积神经网络模型和预设超分辨率模型的训练；

确定所述目标文本图像的文本特征；

对所述文本特征进行解码识别，得到文本信息，其中，所述文本信息为字符串；

所述根据预设算法，将所述初始特征转换为目标特征的步骤，包括：

将所述初始特征输入所述反卷积神经网络模型或字典，得到目标特征；所述反卷积神经网络模型或字典是利用所述第一类文本图像和所述第二类文本图像训练获得的，用于获取高于待识别文本图像的分辨率的特征的模型或字典；

判断所述初始特征对应的分辨率是否小于分辨率阈值；

若是，根据预设算法，将所述初始特征转换为目标特征；

所述方法还包括：

2.根据权利要求1所述的方法，其特征在于，所述根据预设算法，将所述初始特征转换为目标特征的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据预设算法，将所述初始特征转换为目标特征的步骤，包括：

4.根据权利要求1所述的方法，其特征在于，所述提取所述待识别文本图像的特征，作为初始特征的步骤，包括：

将所述待识别文本图像划分为多个待识别文本图像块；

所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述根据每一初始特征对应的目标特征、每一初始特征对应的坐标和预设超分辨率模型，确定目标文本图像的步骤，包括：

6.根据权利要求1所述的方法，其特征在于，所述确定所述目标文本图像的文本特征的步骤，包括：

根据所述卷积特征确定所述目标文本图像的文本特征。

7.根据权利要求6所述的方法，其特征在于，所述根据所述卷积特征确定所述目标文本图像的文本特征的步骤，包括：

将所述卷积特征确定为所述目标文本图像的文本特征；

8.根据权利要求1所述的方法，其特征在于，所述对所述文本特征进行解码识别，得到文本信息的步骤，包括：

按照预设的序列长度，对所述文本特征进行序列建模；

对序列建模后的文本特征进行解码识别，得到文本信息。

9.一种文本识别装置，其特征在于，所述装置包括：

获取单元，用于获取待识别文本图像；

所述预设超分辨率模型的训练过程包括：

第一确定单元，用于确定所述目标文本图像的文本特征；

识别单元，用于对所述文本特征进行解码识别，得到文本信息，其中，所述文本信息为字符串；

所述转换单元，具体用于：

判断所述初始特征对应的分辨率是否小于分辨率阈值；

若是，根据预设算法，将所述初始特征转换为目标特征；

所述第一确定单元，还用于：若所述初始特征对应的分辨率不小于分辨率阈值，将所述初始特征确定为所述目标文本图像的文本特征。

10.根据权利要求9所述的装置，其特征在于，所述转换单元，具体用于：

11.根据权利要求9所述的装置，其特征在于，所述转换单元，具体用于：

12.根据权利要求9所述的装置，其特征在于，所述装置还包括：第二确定单元；

13.根据权利要求12所述的装置，其特征在于，所述构建单元，具体用于：

14.根据权利要求9所述的装置，其特征在于，所述第一确定单元，具体用于：

根据所述卷积特征确定所述目标文本图像的文本特征。

15.根据权利要求14所述的装置，其特征在于，所述第一确定单元，具体用于：

将所述卷积特征确定为所述目标文本图像的文本特征；

16.根据权利要求9所述的装置，其特征在于，所述识别单元，具体用于：