CN111291794A

CN111291794A - 字符识别方法、装置、计算机设备和计算机可读存储介质

Info

Publication number: CN111291794A
Application number: CN202010069414.5A
Authority: CN
Inventors: 周康明; 冯晓锐
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2020-06-16

Abstract

本申请涉及一种字符识别方法、装置、计算机设备和计算机可读存储介质。所述字符识别方法包括：获取文本图像中文本信息的位置信息；根据所述文本信息的位置信息，从所述文本图像中提取多个字符图像，并根据所述多个字符图像的识别结果获取所述文本信息的第一字符识别结果；根据所述文本信息的位置信息，从所述文本图像中提取文本区域图像，并根据所述文本区域图像获取所述文本信息的第二字符识别结果；根据所述第一字符识别结果和所述第二字符识别结果，确定所述文本图像对应的字符识别结果。当文本图像中多个字符曲线排列时，采用本方法能够提升该文本图像字符识别的准确度。

Description

字符识别方法、装置、计算机设备和计算机可读存储介质

技术领域

本发明涉及字符识别技术领域，特别是涉及一种字符识别方法、装置、计算机设备和计算机可读存储介质。

背景技术

随着人工智能技术的快速发展，图像识别作为计算机视觉研究领域的分支之一，被广泛应用于各个领域。

字符识别属于图像识别技术领域，字符识别是从文本图像中识别字符的过程。传统技术中，计算机设备从输入的文本图像中检测到文本所在的整体区域，再从文本图像中截取该整体区域后，将该整体区域输入至识别网络中进行字符识别。

在实际应用中，由于文本图像中的文本形式多样，文本包括的多个字符可能直线排列也可能曲线排列，然而，对于文本图像中曲线排列的字符，上述字符识别方法的识别准确度低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升字符识别准确度的字符识别方法、装置、计算机设备和计算机可读存储介质。

第一方面，本申请实施例提供了一种字符识别方法，所述字符识别方法包括：

获取文本图像中文本信息的位置信息；

根据所述文本信息的位置信息，从所述文本图像中提取多个字符图像，并根据所述多个字符图像的识别结果获取所述文本信息的第一字符识别结果；

根据所述文本信息的位置信息，从所述文本图像中提取文本区域图像，并根据所述文本区域图像获取所述文本信息的第二字符识别结果；

根据所述第一字符识别结果和所述第二字符识别结果，确定所述文本图像对应的字符识别结果。

在其中一个实施例中，所述根据所述第一字符识别结果和所述第二字符识别结果，确定所述文本图像对应的字符识别结果，包括：

将所述第一字符识别结果中的字符个数与所述第二字符识别结果中的字符个数进行比较；

若所述第一字符识别结果中的字符个数大于所述第二字符识别结果中的字符个数，则确定所述第一字符识别结果为所述文本图像对应的字符识别结果；

若所述第一字符识别结果中的字符个数小于所述第二字符识别结果中的字符个数，则确定所述第二字符识别结果为所述文本图像对应的字符识别结果。

在其中一个实施例中，所述获取文本图像中文本信息的位置信息，包括：

根据所述文本图像，获取所述文本图像对应的目标特征图；

根据所述目标特征图，获取所述文本图像中文本信息的位置信息。

在其中一个实施例中，所述根据所述文本图像，获取所述文本图像对应的目标特征图，包括：

将所述文本图像输入至第一密集卷积网络中，得到所述文本图像对应的第一特征图；

根据所述第一特征图和沙漏网络，获取所述文本图像对应的第二特征图；

根据所述第一特征图和所述第二特征图，获取所述目标特征图。

在其中一个实施例中，所述根据所述第一特征图和沙漏网络，获取所述文本图像对应的第二特征图，包括：

按照预设尺寸，对所述第一特征图进行池化操作；

将池化后的第一特征图输入至第二密集卷积网络中，得到深层特征图；所述第二密集卷积网络和所述第一密集卷积网络的卷积层数不同；

将所述深层特征图输入至所述沙漏网络，得到所述第二特征图。

在其中一个实施例中，所述根据所述第一特征图和所述第二特征图，获取所述目标特征图，包括：

采用第一卷积网络对所述第二特征图进行特征提取，并对提取结果进行上采样，得到第三特征图；

将所述第一特征图和所述第三特征图拼接，得到所述目标特征图。

在其中一个实施例中，所述文本信息包括多个字符；所述根据所述目标特征图，获取所述文本图像中文本信息的位置信息，包括：

采用第二卷积网络对所述目标特征图进行卷积操作，得到多个第一标注结果，并将各所述第一标注结果分别对应的区域确定为各所述字符分别对应的字符区域；

采用第三卷积网络对所述目标特征图进行卷积操作，得到第二标注结果，并将所述第二标注结果对应的区域确定为所述文本信息对应的文本区域；所述第二卷积网络和所述第三卷积网络的网络参数不同。

第二方面，本申请实施例提供一种字符识别装置，所述装置包括：

获取模块，用于获取文本图像中文本信息的位置信息；

第一识别模块，用于根据所述文本信息的位置信息，从所述文本图像中提取多个字符图像，并根据所述多个字符图像的识别结果获取所述文本信息的第一字符识别结果；

第二识别模块，用于根据所述文本信息的位置信息，从所述文本图像中提取文本区域图像，并根据所述文本区域图像获取所述文本信息的第二字符识别结果；

确定模块，用于根据所述第一字符识别结果和所述第二字符识别结果，确定所述文本图像对应的字符识别结果。

第三方面，本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的方法的步骤。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的方法的步骤。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过获取文本图像中文本信息的位置信息；根据所述文本信息的位置信息，从所述文本图像中提取多个字符图像，并根据所述多个字符图像的识别结果获取所述文本信息的第一字符识别结果；根据所述文本信息的位置信息，从所述文本图像中提取文本区域图像，并根据所述文本区域图像获取所述文本信息的第二字符识别结果；根据所述第一字符识别结果和所述第二字符识别结果，确定所述文本图像对应的字符识别结果；由此，根据多个字符图像的识别结果获取第一字符识别结果，对文本区域图像进行识别得到第二字符识别结果，将通过两种识别方式得到的第一字符识别结果和第二字符识别结果进行融合，即根据第一字符识别结果和第二字符识别结果确定文本图像的字符识别结果；避免了传统技术中，单一地将文本图像中文本所在的整体区域输入至识别网络中进行字符识别，在文本图像中多个字符曲线排列时，容易造成字符识别准确度低的问题；本申请提升了文本图像中文本信息的字符识别准确度。

附图说明

图1为一个实施例提供的字符识别方法的流程示意图；

图2为一个实施例提供的字符识别方法的流程示意图；

图3为一个实施例提供的字符识别方法的流程示意图；

图4为密集卷积网络的网络结构示意图；

图5为沙漏网络的网络结构示意图；

图6为一个实施例提供的字符识别方法中步骤S110的细化步骤示意图；

图7为一个实施例提供的字符识别方法中步骤S112的细化步骤示意图；

图8为一个实施例提供的字符识别方法中步骤S113的细化步骤示意图；

图9为一个实施例提供的字符识别方法的流程示意图；

图10为一个实施例提供的字符识别方法的流程示意图；

图11为一个实施例提供的字符识别装置的结构框图；

图12为一个实施例提供的计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的字符识别方法、装置、计算机设备和计算机可读存储介质，旨在解决传统技术中，当文本图像中多个字符曲线排列时，字符识别的准确度低的技术问题。下面将通过实施例并结合附图具体地对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体地实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

需要说明的是，本申请实施例提供的字符识别方法，其执行主体可以是字符识别装置，该字符识别装置可以通过软件、硬件或者软硬件结合的方式实现成为计算机设备的部分或者全部。下述方法实施例中，均以执行主体是计算机设备为例来进行说明，计算机设备可以是服务器；可以理解的是，下述方法实施例提供的字符识别方法，也可以应用于终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。

请参考图1，其示出了本申请实施例提供的一种字符识别方法的流程示意图。本实施例涉及的是将两种识别方式得到的字符识别结果进行融合得到文本图像对应的字符识别结果的具体实现过程。如图1所示，本实施例字符识别方法可以包括以下步骤：

步骤S100，获取文本图像中文本信息的位置信息。

其中，文本信息为文本图像中需要识别的文本字符，文本图像可以是拍摄或扫描卡片、票据、报刊、书籍、宣传单页等得到的图像，文本信息可以是汉字、英文字母、数字等字符，在此不做具体限制。

计算机设备获取文本图像中文本信息的位置信息，具体可以通过卷积网络对文本图像的特征图进行卷积操作得到。本实施例中，该位置信息包括文本信息中多个字符分别对应的字符区域和文本信息对应的整体文本区域。

在其它实施例中，计算机设备还可以通过分割网络从文本图像中提取文本信息的位置信息，等等，在此不做具体限制。

步骤S200，根据文本信息的位置信息，从文本图像中提取多个字符图像，并根据多个字符图像的识别结果获取文本信息的第一字符识别结果。

计算机设备根据文本信息的位置信息，从文本图像中提取多个字符图像，具体地，计算机设备获取到文本信息中多个字符分别对应的字符区域后，在文本图像中截取与各字符区域一致的多个字符图像，每个字符图像均包括一个待识别的字符。

计算机设备将截取的多个字符图像输入至识别网络中，得到每个字符图像中字符的识别结果。识别网络用于识别输入图像中的字符信息并输出识别到的字符。本实施例中，作为一种实施方式，识别网络可以由ResNet(Residual Network，残差网络)和BiLSTM(Bi-directional Long Short-Term Memory，双向长短期记忆网络)组成。其中，ResNet由若干个残差模块组成，随着网络的加深，ResNet不会出现性能退化的问题。计算机设备将多个字符图像输入至ResNet，再将ResNet输出的特征输入至BiLSTM中，则得到每个字符图像中字符的识别结果。每个字符图像的识别结果为一个字符，文本信息中多个字符的识别结果对应的多个字符组成第一字符识别结果。

例如，文本图像中的文本信息为“人工智能”四个字符，计算机设备根据每个字符的位置信息，从文本图像中提取四个字符图像。计算机设备将这四个字符图像输入至识别网络，通过识别网络识别后，得到每个字符图像对应的一个字符作为识别结果，如第一个字符图像的识别结果为“人”、第二个字符图像的识别结果为“工”、第三个字符图像的识别结果为“智”、第四个字符图像的识别结果为“能”，则第一字符识别结果为“人、工、智、能”四个字符。

步骤S300，根据文本信息的位置信息，从文本图像中提取文本区域图像，并根据文本区域图像获取文本信息的第二字符识别结果。

计算机设备获取到文本图像中文本信息对应的整体文本区域后，从文本图像中截取与该文本区域一致的文本区域图像。计算机设备将该文本区域图像输入至识别网络中，得到文本信息对应的第二字符识别结果。

继续以文本信息为“人工智能”四个字符为例，计算机设备根据该文本信息对应的整体文本区域，从文本图像中截取文本区域图像，同样地，识别网络可以由ResNet和BiLSTM组成，计算机设备将该文本区域图像输入至ResNet，再将ResNet输出的特征输入至BiLSTM中，则得到文本信息的第二字符识别结果。第二字符识别结果是通过识别网络从该文本区域图像中识别出的若干个字符，例如，第二字符识别结果可能是“人、工、智、能”四个字符、或“人、工、智”三个字符，等等。

步骤S400，根据第一字符识别结果和第二字符识别结果，确定文本图像对应的字符识别结果。

计算机设备通过上述步骤获取到文本信息的第一字符识别结果和文本信息的第二字符识别结果之后，根据该第一字符识别结果和第二字符识别结果确定文本图像最终的字符识别结果。

本实施例中，计算机设备可以比较第一字符识别结果的第二字符识别结果包括的字符个数，将字符个数较多的识别结果作为文本图像最终的字符识别结果。例如，第一字符识别结果中的字符个数大于第二字符识别结果中的字符个数，则将第一字符识别结果作为文本图像对应的字符识别结果。在其它实施例中，计算机设备还可以比较第一字符识别结果和第二字符识别结果的字符串长度，将字符串长度较长的识别结果作为文本图像最终的字符识别结果。例如，第一字符识别结果中的字符串长度大于第二字符识别结果中的字符串长度，则将第一字符识别结果作为文本图像对应的字符识别结果。

在实际的应用场景中，文本信息包括的多个字符，可能由于实际需求的不同，在文本图像中呈现出不同弯曲程度的曲线排列。例如，当多个字符排列的曲线弧度较大时，即文本弯曲程度较严重，计算机设备从文本图像中提取的文本区域图像，可能与实际的文本区域存在较大的误差，导致第二字符识别结果的准确度低，例如，文本图像中的文本信息为“人工智能”，但第二字符识别结果仅包括“人、工、智”三个字符，而第一字符识别结果为“人、工、智、能”四个字符，计算机设备则通过步骤S400，将第一字符识别结果确定为文本图像对应的字符识别结果，即，通过先从文本图像中提取多个字符图像，再根据多个字符图像获取的文本信息的第一字符识别结果，可以大大提升字符识别结果的准确度；而当文本信息包括的多个字符排列的曲线弧度较小时，若计算机设备根据文本信息的位置信息从文本图像中提取多个字符图像存在遗漏现象，计算机设备则通过步骤S400，将根据整体文本区域图像获取的第二字符识别结果确定为文本图像对应的字符识别结果，同样可以提升最终的字符识别结果的准确度。

本实施例通过获取文本图像中文本信息的位置信息；根据文本信息的位置信息，从文本图像中提取多个字符图像，并根据多个字符图像的识别结果获取文本信息的第一字符识别结果；根据文本信息的位置信息，从文本图像中提取文本区域图像，并根据文本区域图像获取文本信息的第二字符识别结果；根据第一字符识别结果和第二字符识别结果，确定文本图像对应的字符识别结果；由此，根据多个字符图像的识别结果获取第一字符识别结果，对文本区域图像进行识别得到第二字符识别结果，将通过两种识别方式得到的第一字符识别结果和第二字符识别结果进行融合，即根据第一字符识别结果和第二字符识别结果确定文本图像的字符识别结果；避免了传统技术中，单一地将文本图像中文本所在的整体区域输入至识别网络中进行字符识别，在文本图像中多个字符曲线排列时，容易造成字符识别准确度低的问题；本实施例提升了文本图像中文本信息的字符识别准确度。

图2为另一个实施例提供的字符识别方法的流程示意图。在上述图1所示实施例的基础上，如图2所示，本实施例中，步骤S400包括步骤S410、步骤S420和步骤S430,，具体地：

步骤S410，将第一字符识别结果中的字符个数与第二字符识别结果中的字符个数进行比较。

本实施例中，计算机设备根据第一字符识别结果和第二字符识别结果，确定文本图像对应的字符识别结果的过程，具体是通过将第一字符识别结果中的字符个数与第二字符识别结果中的字符个数进行比较来实现的。

第一字符识别结果由多个字符图像的识别结果组成，每个字符图像的识别结果为一个识别出的字符，第二字符识别结果为文本区域图像的识别结果，文本区域图像的识别结果包括多个识别出的字符。计算机设备将第一字符识别结果中的字符个数与第二字符识别结果中的字符个数进行比较。

步骤S420，若第一字符识别结果中的字符个数大于第二字符识别结果中的字符个数，则确定第一字符识别结果为文本图像对应的字符识别结果。

若第一字符识别结果中的字符个数大于第二字符识别结果中的字符个数，则可能是由于文本弯曲程度较严重，计算机设备提取的文本区域图像与文本图像中实际的文本区域存在较大的误差，导致第二字符识别结果中字符的个数较少，即字符识别误差较大。计算机设备则确定第一字符识别结果为文本图像对应的字符识别结果，由此，提升了文本图像的字符识别准确度。

步骤S430，若第一字符识别结果中的字符个数小于第二字符识别结果中的字符个数，则确定第二字符识别结果为文本图像对应的字符识别结果。

若第一字符识别结果中的字符个数小于第二字符识别结果中的字符个数，则可能是由于文本弯曲程度较轻，计算机设备根据文本信息的位置信息从文本图像中提取多个字符图像存在遗漏现象，导致第一字符识别结果中字符的个数较少，即字符识别误差较大。计算机设备则确定第二字符识别结果为文本图像对应的字符识别结果，由此，提升了文本图像的字符识别准确度。

进一步的，在其它实施例中，若第一字符识别结果中的字符个数与第二字符识别结果中的字符个数相等，则确定第一字符识别结果或第二字符识别结果为文本图像对应的字符识别结果均可，在此不做具体限制。

本实施例通过将第一字符识别结果中的字符个数与第二字符识别结果中的字符个数进行比较；若第一字符识别结果中的字符个数大于第二字符识别结果中的字符个数，则确定第一字符识别结果为文本图像对应的字符识别结果；若第一字符识别结果中的字符个数小于第二字符识别结果中的字符个数，则确定第二字符识别结果为文本图像对应的字符识别结果；由此，将第一字符识别结果和第二字符识别结果中，字符个数较多的确定为文本图像对应的字符识别结果，提升了存在文本弯曲现象的文本图像的字符识别结果的准确度。

图3为另一个实施例提供的字符识别方法的流程示意图。在上述图1所示实施例的基础上，如图3所示，本实施例中，步骤S100包括步骤S110和步骤S120，具体地：

步骤S110，根据文本图像，获取文本图像对应的目标特征图。

本实施例中，计算机设备根据获取的文本图像，进一步获取该文本图像对应的目标特征图。

具体地，计算机设备可以通过特征提取网络获取该目标特征图。本实施例中，特征提取网络由DenseNet(Dense convolutional Network，密集卷积网络)和HourglassNetworks沙漏网络组成。在其它实施例中，特征提取网络还可以是其它的网络模型框架，在此不做具体限制。

本实施例中，作为一种实施方式，计算机设备可以将文本图像输入至密集卷积网络中得到特征图，再将密集卷积网络输出的特征图输入至沙漏网络中得到特征图，最后将两个网络输出的特征图进行拼接，得到目标特征图。在其它实施例中，计算机设备还可以先将文本图像输入至密集卷积网络中，再将密集卷积网络输出的特征输入至沙漏网络，由沙漏网络输出文本图像对应的目标特征图，在此不做具体限制。

参见图4，图4为密集卷积网络的网络结构示意图。如图4所示，密集卷积网络中，在前每一层输出的特征图都会传递给之后的所有层，即每层的输出特征图都是之后所有层的输入，由此，加强了特征的传递，更有效地利用了特征，在特征提取过程中，前面卷积层的浅层特征会与后面卷积层的高级特征进行通道上的拼接，因此，采用密集卷积网络提升了本实施例文本图像对应的目标特征图的特征丰富性。

参见图5，图5为沙漏网络的网络结构示意图。如图5所示，沙漏网络中，图中每个方框分别代表一个残差模块，不同大小的方框代表的残差模块对特征的感受野不同，而不同的特征尺度下，可能包含了很多有用的特征信息。图像输入至图5中左下角的第一个残差模块后，经过沙漏网络的各个残差模块，提取多个尺度的特征并融合后，由图5中右下角的最后一个残差模块输出特征图，因此，采用沙漏网络，进一步提升了文本图像对应的目标特征图的特征丰富性，进而提升了字符识别的准确度。

步骤S120，根据目标特征图，获取文本图像中文本信息的位置信息。

计算机设备根据目标特征图，获取文本图像中文本信息的位置信息。具体地，计算机设备将目标特征图输入至两个卷积网络中，得到文本信息中多个字符分别对应的字符区域和文本信息对应的整体文本区域。

本实施例根据文本图像，获取文本图像对应的目标特征图；根据目标特征图，获取文本图像中文本信息的位置信息；由此，通过密集卷积网络和沙漏网络获取的目标特征图，提升了目标特征图的特征丰富性，进而提升了字符识别的准确度。

在上述图3所示实施例的基础上，参见与6，图6为另一个实施例中步骤S110的细化步骤示意图。如图6所示，本实施例中，步骤S110包括步骤S111、步骤S112和步骤S113，具体地：

步骤S111，将文本图像输入至第一密集卷积网络中，得到文本图像对应的第一特征图。

本实施例中，第一密集卷积网络的卷积层设置为两层，计算机设备将文本图像输入至第一密集卷积网络中，得到文本图像对应的第一特征图；在其它实施例中，第一密集卷积网络的卷积层数还可以存在其它的实施方式。

例如，文本图像的大小为512*512像素，计算机设备将该文本图像输入至第一密集卷积网络中，得到512*512的第一特征图。

步骤S112，根据第一特征图和沙漏网络，获取文本图像对应的第二特征图。

计算机设备根据第一特征图和沙漏网络，获取文本图像对应的第二特征图。

作为一种实施方式，参见图7，图7为步骤S112的细化步骤示意图。如图7，步骤S112包括步骤S112a、步骤S112b和步骤S112c，具体地：

步骤S112a，按照预设尺寸，对第一特征图进行池化操作。

继续上述举例，文本图像为512*512像素，计算机设备将该文本图像输入至第一密集卷积网络中，得到512*512的第一特征图；本实施例中，计算机设备进一步按照预设尺寸，对该512*512的第一特征图进行池化操作，例如，将第一特征图池化降维至256*256大小。

步骤S112b，将池化后的第一特征图输入至第二密集卷积网络中，得到深层特征图。

第二密集卷积网络和第一密集卷积网络的卷积层数不同。

计算机设备采用第二密集卷积网络对池化后的第一特征图做进一步特征提取，得到深层特征图。

本实施例中，第二密集卷积网络的卷积层数大于第一密集卷积网络的卷积层数，例如，第二密集卷积网络可以包括5个卷积层，随着网络层数的增加，进一步提升了深层特征图的特征丰富性。通过第二密集卷积网络得到的深层特征图大小同样为256*256像素。

步骤S112c，将深层特征图输入至沙漏网络，得到第二特征图。

计算机设备将深层特征图输入至沙漏网络，沙漏网络如图5所示，沙漏网络中左半部分的各个残差模块依次对深层特征图进行特征提取并下采样，将下采样后的特征图传递至沙漏网络右半部分的各个残差模块，由沙漏网络右半部分的各个残差模块对传递过来的特征图进行进一步特征提取并上采样，最终得到第二特征图，第二特征图大小同样为256*256像素。

在其它实施例中，作为一种实施方式，计算机设备还可以将第一特征图输入至沙漏网络中，得到沙漏网络输出的第二特征图，在此不做具体限制。

步骤S113，根据第一特征图和第二特征图，获取目标特征图。

计算机设备根据第一特征图和第二特征图，获取目标特征图。本实施例子中，作为一种实施方式，参见图8，图8为本实施例中步骤S113的细化步骤示意图。如图8所示，步骤S113包括步骤S113a和步骤S113b，具体地：

步骤S113a，采用第一卷积网络对第二特征图进行特征提取，并对提取结果进行上采样，得到第三特征图。

计算机设备采用第一卷积网络对第二特征图进行特征提取，并对提取结果进行上采样，例如，第二特征图的大小为256*256，经过第一卷积网络特征提取的提取结果同样为256*256，计算机设备对该提取结果进行上采样，得到512*512的第三特征图。

步骤S113b，将第一特征图和第三特征图拼接，得到目标特征图。

计算机设备对提取结果进行上采样，得到第三特征图，第三特征图与第一特征图的大小相同，计算机设备将第一特征图和第三特征图拼接，得到目标特征图。

可以理解的是，文本图像、第一特征图、第二特征图以及第三特征图的大小并不局限于本实施例的举例，在其它实施例中，还可以存在其它的实施形式。

本实施例通过将文本图像输入至第一密集卷积网络中，得到文本图像对应的第一特征图；根据第一特征图和沙漏网络，获取文本图像对应的第二特征图；根据第一特征图和第二特征图，获取目标特征图；由此，通过特征提取网络不同的感受野，提升了目标特征图的特征丰富性，提升了基于目标特征图获取的文本图像中文本信息的位置信息的准确度，进而提升了字符识别的准确度；本实施例将池化后的第一特征图输入至第二密集卷积网络中进行特征提取，可以降低沙漏网络的数据处理量，节约了计算资源。

图9为另一个实施例提供的字符识别方法的流程示意图。在上述图3所示实施例的基础上，如图9所示，本实施例中，步骤S120包括步骤S121和步骤S122，具体地：

步骤S121，采用第二卷积网络对目标特征图进行卷积操作，得到多个第一标注结果，并将各第一标注结果分别对应的区域确定为各字符分别对应的字符区域。

其中，文本信息包括多个字符。计算机设备根据文本图像，获取文本图像对应的目标特征图，采用第二卷积网络对目标特征图进行卷积操作，得到字符级分割结果，即第二卷积网络在输出的特征图中对每个字符进行标注，得到多个第一标注结果。计算机设备将各第一标注结果分别对应的区域确定为各字符分别对应的字符区域。

步骤S122，采用第三卷积网络对目标特征图进行卷积操作，得到第二标注结果，并将第二标注结果对应的区域确定为文本信息对应的文本区域。

第二卷积网络和第三卷积网络的网络参数不同。

本实施例中，计算机设备采用第三卷积网络对目标特征图进行卷积操作，第三卷积网络在输出的特征图中对文本信息所在的整体文本区域进行标注，得到第二标注结果，计算机设备将第二标注结果对应的区域确定为文本信息对应的文本区域。

在实际的网络训练过程中，当基于密集卷积网络和沙漏网络的特征提取网络训练完成后，计算机设备将特征提取网络的参数锁定；将目标特征图送入第二卷积网络中，经过特征学习对第二卷积网络进行训练，得到第二卷积网络的网络参数；计算机设备将目标特征图送入第三卷积网络中，经过特征学习对第三卷积网络进行训练，得到第三卷积网络的网络参数。由于计算机设备获取第一字符识别结果和第二字符识别结果时，特征提取网络均为基于密集卷积网络和沙漏网络的特征提取网络，因此，通过共用特征提取网络可以加快整体的字符识别网络的训练速度。

本实施例中，文本图像中文本信息的位置信息包括各字符分别对应的字符区域和文本信息对应的文本区域。计算机设备根据各字符分别对应的字符区域，即可以从文本图像中提取每个字符区域分别对应的字符图像，得到多个字符图像，并根据多个字符图像的识别结果获取文本信息的第一字符识别结果。计算机设备根据文本信息对应的文本区域，即可以从文本图像中提取文本区域图像，并根据文本区域图像获取文本信息的第二字符识别结果。计算机设备基于整体定位结果和字符级定位结果可以得到不同的字符识别结果，计算机设备对这两种字符识别结果进行融合，从而提升了字符识别结果的准确度。

图10为另一个实施例提供的字符识别方法的流程示意图。在上述图1-图9所示实施例的基础上，如图10所示，本实施例字符识别方法包括：

本实施例中，文本图像的大小为512*512像素，第一密集卷积网络的卷积层设置为两层，计算机设备将该文本图像输入至第一密集卷积网络中，得到文本图像对应的512*512大小的第一特征图。

步骤S112a，按照预设尺寸，对第一特征图进行池化操作。

计算机设备按照预设尺寸，对该512*512的第一特征图进行池化操作，例如，将第一特征图池化降维至256*256大小。

第二密集卷积网络和第一密集卷积网络的卷积层数不同。计算机设备采用第二密集卷积网络对池化后的第一特征图做进一步特征提取，得到深层特征图。

计算机设备采用第一卷积网络对第二特征图进行特征提取，并对提取结果进行上采样，由于第二特征图的大小为256*256，经过第一卷积网络特征提取的提取结果同样为256*256，计算机设备对该提取结果进行上采样，得到512*512的第三特征图。

第二卷积网络和第三卷积网络的网络参数不同。

计算机设备采用第三卷积网络对目标特征图进行卷积操作，第三卷积网络在输出的特征图中对文本信息所在的整体文本区域进行标注，得到第二标注结果，计算机设备将第二标注结果对应的区域确定为文本信息对应的文本区域。

计算机设备将截取的多个字符图像输入至识别网络中，得到每个字符图像中字符的识别结果，文本信息中多个字符的识别结果组成文本信息对应的第一字符识别结果。

本实施例中，识别网络可以由ResNet(Residual Network，残差网络)和BiLSTM(Bi-directional Long Short-Term Memory，双向长短期记忆网络)组成。计算机设备将多个字符图像输入至ResNet，再将ResNet输出的特征输入至BiLSTM中，则得到每个字符图像中字符的识别结果；计算机设备将文本区域图像输入至ResNet，再将ResNet输出的特征输入至BiLSTM中，则得到文本信息的第二字符识别结果。

若第一字符识别结果中的字符个数与第二字符识别结果中的字符个数相等，则确定第一字符识别结果或第二字符识别结果为文本图像对应的字符识别结果均可。

由此，避免了传统技术中，单一地将文本图像中文本所在的整体区域输入至识别网络中进行字符识别，在文本图像中多个字符曲线排列时，容易造成字符识别准确度低的问题，本实施例提升了文本图像的字符识别准确度。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图11所示，提供了一种字符识别装置，包括：

获取模块10，用于获取文本图像中文本信息的位置信息；

第一识别模块20，用于根据所述文本信息的位置信息，从所述文本图像中提取多个字符图像，并根据所述多个字符图像的识别结果获取所述文本信息的第一字符识别结果；

第二识别模块30，用于根据所述文本信息的位置信息，从所述文本图像中提取文本区域图像，并根据所述文本区域图像获取所述文本信息的第二字符识别结果；

确定模块40，用于根据所述第一字符识别结果和所述第二字符识别结果，确定所述文本图像对应的字符识别结果。

可选地，所述确定模块40包括：

比较子模块，用于将所述第一字符识别结果中的字符个数与所述第二字符识别结果中的字符个数进行比较；

第一确定子模块，用于若所述第一字符识别结果中的字符个数大于所述第二字符识别结果中的字符个数，则确定所述第一字符识别结果为所述文本图像对应的字符识别结果；

第二确定子模块，用于若所述第一字符识别结果中的字符个数小于所述第二字符识别结果中的字符个数，则确定所述第二字符识别结果为所述文本图像对应的字符识别结果。

可选地，所述获取模块10包括：

第一获取子模块，用于根据所述文本图像，获取所述文本图像对应的目标特征图；

第二获取子模块，用于根据所述目标特征图，获取所述文本图像中文本信息的位置信息。

可选地，第一获取子模块包括：

输入单元，用于将所述文本图像输入至第一密集卷积网络中，得到所述文本图像对应的第一特征图；

第一获取单元，用于根据所述第一特征图和沙漏网络，获取所述文本图像对应的第二特征图；

第二获取单元，用于根据所述第一特征图和所述第二特征图，获取所述目标特征图。

可选地，所述第一获取单元包括：

池化子单元，用于按照预设尺寸，对所述第一特征图进行池化操作；

第一输入子单元，用于将池化后的第一特征图输入至第二密集卷积网络中，得到深层特征图；所述第二密集卷积网络和所述第一密集卷积网络的卷积层数不同；

第二输入子单元，用于将所述深层特征图输入至所述沙漏网络，得到所述第二特征图。

可选地，所述第二获取单元包括：

提取子单元，用于采用第一卷积网络对所述第二特征图进行特征提取，并对提取结果进行上采样，得到第三特征图；

拼接子单元，用于将所述第一特征图和所述第三特征图拼接，得到所述目标特征图。

可选地，所述文本信息包括多个字符；所述第二获取子模块包括：

第一位置获取单元，用于采用第二卷积网络对所述目标特征图进行卷积操作，得到多个第一标注结果，并将各所述第一标注结果分别对应的区域确定为各所述字符分别对应的字符区域；

第二位置获取单元，用于采用第三卷积网络对所述目标特征图进行卷积操作，得到第二标注结果，并将所述第二标注结果对应的区域确定为所述文本信息对应的文本区域；所述第二卷积网络和所述第三卷积网络的网络参数不同。

本实施例提供的字符识别装置，可以执行上述字符识别方法实施例，其实现原理和技术效果类似，在此不再赘述。

关于字符识别装置的具体限定可以参见上文中对于字符识别方法的限定，在此不再赘述。上述字符识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，还提供了一种如图12所示的计算机设备，该计算机设备可以是服务器。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储字符识别数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种字符识别方法。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体地计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取文本图像中文本信息的位置信息；根据所述文本信息的位置信息，从所述文本图像中提取多个字符图像，并根据所述多个字符图像的识别结果获取所述文本信息的第一字符识别结果；根据所述文本信息的位置信息，从所述文本图像中提取文本区域图像，并根据所述文本区域图像获取所述文本信息的第二字符识别结果；根据所述第一字符识别结果和所述第二字符识别结果，确定所述文本图像对应的字符识别结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Ramb微秒)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种字符识别方法，其特征在于，所述方法包括：

获取文本图像中文本信息的位置信息；

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一字符识别结果和所述第二字符识别结果，确定所述文本图像对应的字符识别结果，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取文本图像中文本信息的位置信息，包括：

根据所述文本图像，获取所述文本图像对应的目标特征图；

4.根据权利要求3所述的方法，其特征在于，所述根据所述文本图像，获取所述文本图像对应的目标特征图，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一特征图和沙漏网络，获取所述文本图像对应的第二特征图，包括：

按照预设尺寸，对所述第一特征图进行池化操作；

6.根据权利要求5所述的方法，其特征在于，所述根据所述第一特征图和所述第二特征图，获取所述目标特征图，包括：

7.根据权利要求3-6任一项所述的方法，其特征在于，所述文本信息包括多个字符；所述根据所述目标特征图，获取所述文本图像中文本信息的位置信息，包括：

8.一种字符识别装置，其特征在于，所述装置包括：

获取模块，用于获取文本图像中文本信息的位置信息；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。