CN108596168B

CN108596168B - 用于识别图像中字符的方法、装置及介质

Info

Publication number: CN108596168B
Application number: CN201810362577.5A
Authority: CN
Inventors: 杨朔; 龚杰; 孙俊; 李伟
Original assignee: JD Digital Technology Holdings Co Ltd
Current assignee: JD Digital Technology Holdings Co Ltd; Jingdong Technology Holding Co Ltd
Priority date: 2018-04-20
Filing date: 2018-04-20
Publication date: 2020-11-20
Anticipated expiration: 2038-04-20
Also published as: CN108596168A

Abstract

本公开提供了一种用于识别图像中字符的方法，包括：获取待识别图像，所述待识别图像中包括字符；利用深度神经网络对所述待识别图像进行识别，得到以行为单位的文本行图像，所述文本行图像中包括字符；利用循环神经网络对所述文本行图像进行识别，得到所述文本行图像的字符内容。本公开还提供了一种用于识别图像中字符的装置及介质。

Description

用于识别图像中字符的方法、装置及介质

技术领域

本公开涉及互联网技术领域，尤其涉及一种用于识别图像中字符的方法、装置及介质。

背景技术

随着互联网的兴起，各种各样的购物平台应运而生。目前，在各种各样的购物平台上为了提高商品的销量，通常以图像的形式对商品进行描述，该图像上包括用于描述该商品的简短字符，这样方便用户快速的了解商品。而且购物平台还可以借助大数据技术分析用户的需求，然后从海量的商品中选取用户可能感兴趣的产品进行推荐。但是目前购物平台的推荐系统只能分析字符内容，因此需要从商品图像中提取出字符。现有技术采用传统的光学字符识别(OCR)技术提取商品图像中的字符。但是，在实现本发明构思的过程中，发明人发现现有技术中至少存在如下问题：采用传统的光学字符识别(OCR)技术提取商品图像中的字符的鲁棒性和准确率不高。

发明内容

有鉴于此，本公开提供一种用于识别图像中字符的方法、装置及介质，进而至少部分地解决了由于相关技术的限制和缺陷而导致的一个或者多个问题。

本公开提供了一种用于识别图像中字符的方法，包括：获取待识别图像，所述待识别图像中包括字符；利用深度神经网络对所述待识别图像进行识别，得到以行为单位的文本行图像，所述文本行图像中包括字符；利用循环神经网络对所述文本行图像进行识别，得到所述文本行图像的字符内容。

根据本公开的实施例，所述待识别图像中的字符包括一个或多个，所述一个或多个字符的颜色、大小、字体、分布情况相同或不同。

根据本公开的实施例，利用深度神经网络对所述待识别图像进行识别，得到以行为单位的文本行图像包括：将所述待识别图像输入到所述深度神经网络，利用所述深度神经网络中的卷积层和池化层从所述待识别图像中提取出预定像素尺寸的特征图；以预设数量的像素点为宽度，以数量可变的像素点为高度从所述特征图中提取出所有的单列像素；基于所有的单列像素，生成以行为单位的所述特征图的文本行图像；根据所述特征图的文本行图像，从所述待识别图像中确定出所述文本行图像。

根据本公开的实施例，基于所有的单列像素，生成以行为单位的所述特征图的文本行图像包括：对所有的单列像素进行判断，判断所述单列像素是否为字符，根据判断结果连接左右相邻的单列像素，以生成所述特征图的文本行图像，所述左右相邻的单列像素为字符的列像素；输出所述特征图的文本行图像的数据。

根据本公开的实施例，根据所述特征图的文本行图像，从所述待识别图像中确定出所述文本行图像包括：根据所述特征图的文本行图像的连接区域和数据，在连接左右相邻的单列像素时出现两个或两个以上的候选区域存在重叠区域时，删除置信度较低的候选区域，保留置信度最高的一个候选区域，所述候选区域指深度神经网络判断为字符的单列像素，以及删除所述特征图的文本行图像的数据中置信度低于预设阈值的区域；根据删除后的特征图的文本行图像的数据，从所述待识别图像中确定出所述文本行图像。

根据本公开的实施例，利用循环神经网络对所述文本行图像进行识别，得到所述文本行图像的字符内容包括：提取所述文本行图像中的字符；将提取的字符输入到所述循环神经网络进行分类，输出候选字符；删除所述候选字符中的非有效字符，输出所述文本行图像的字符内容。

根据本公开的实施例，上述方法还包括：对所述待识别图像的每个像素点的像素值归一化。

本公开的另一个方面提供了一种用于识别图像中字符的装置，包括：获取模块，用于获取待识别图像，所述待识别图像中包括字符；第一识别模块，用于利用深度神经网络对所述待识别图像进行识别，得到行为单位的文本行图像，所述文本行图像中包括字符；第二识别模块，用于利用循环神经网络对所述文本行图像进行识别，得到所述文本行图像的字符内容。

根据本公开的实施例，第一识别模块包括：第一提取模块，用于将所述待识别图像输入到所述深度神经网络，利用所述深度神经网络中的卷积层和池化层从所述待识别图像中提取出预定像素尺寸的特征图；第二提取模块，用于以预设数量的像素点为宽度，以数量可变的像素点为高度从所述特征图中提取出所有的单列像素；生成模块，用于基于所有的单列像素，生成以行为单位的所述特征图的文本行图像；第一确定模块，用于根据所述特征图的文本行图像，从所述待识别图像中确定出所述文本行图像。

根据本公开的实施例，生成模块包括：判断模块，用于对所有的单列像素进行判断，判断单列像素是否为字符，根据判断结果连接左右相邻的单列像素，以生成所述特征图的文本行图像，所述左右相邻的单列像素为字符的列像素；第一输出模块，用于输出所述特征图的文本行图像的数据。

根据本公开的实施例，第一确定模块像包括：删除模块，用于根据所述特征图的文本行图像的连接区域和数据。在连接左右相邻的单列像素时出现两个或两个以上的候选区域存在重叠区域时，删除置信度较低的候选区域，保留置信度最高的一个候选区域，所述候选区域指深度神经网络判断为字符的单列像素，以及删除所述特征图的文本行图像的数据中置信度低于预设阈值的区域；第一确定子模块，用于根据删除后的特征图的文本行图像的数据，从所述待识别图像中确定出所述文本行图像。

根据本公开的实施例，第二识别模块包括：第三提取模块，用于提取所述文本行图像中的字符；第二输出模块，用于将提取的字符输入到所述循环神经网络进行分类，输出候选字符；第三输出模块，用于删除所述候选字符中的非有效字符，输出所述文本行图像的字符内容。

根据本公开的实施例，上述装置还包括：归一化模块，用于对所述待识别图像的每个像素点的像素值归一化。

本公开的另一方面提供了一种用于识别图像中字符的装置。所述装置包括一个或多个处理器，以及存储装置。所述存储装置用于存储一个或多个程序。其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如上所述的用于识别图像中字符的方法。

本公开的另一方面提供了一种计算机可读介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行如上所述的用于识别图像中字符的方法。

本公开的另一方面提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现识别图像中字符的方法。

根据本公开的实施例，可以至少部分地解决现有技术采用传统的光学字符识别(OCR)技术对图像中的字符识别的鲁棒性和准确率不高的问题，例如，所述鲁棒性不足指无法适应文字字体不同、大小不一、颜色不一等复杂情况的图像，并因此实现了采用本公开的方法对图像进行识别时的鲁棒性和准确率更高。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

图1示意性示出了根据本公开实施例的用于识别图像中字符的方法的流程图；

图2示意性示出了根据本公开实施例的利用深度神经网络识别待识别图像的示意图；

图3示意性示出了根据本公开另一实施例的用于识别图像中字符的方法的流程图；

图4示意性示出了根据本公开另一实施例的用于识别图像中字符的方法的流程图；

图5A示意性示出了根据本公开另一实施例的利用深度神经网络识别待识别图像的示意图；

图5B示意性示出了根据本公开另一实施例的利用深度神经网络识别待识别图像的示意图；

图6示意性示出了根据本公开实施例的生成文本行图像的流程图；

图7示意性示出了根据本公开实施例的利用循环网络识别文本行图像的流程图；

图8A和8B示意性示出了根据本公开实施例的利用循环网络识别文本行图像的示意图；

图9示意性示出了根据本公开实施例的用于识别图像中字符的装置的框图；

图10示意性示出了根据本公开实施例的第一识别模块的框图；

图11示意性示出了根据本公开实施例的生成模块的框图；

图12示意性示出了根据本公开实施例的第一确定模块的框图；

图13示意性示出了根据本公开实施例的第二识别模块的框图；

图14示意性示出了根据本公开另一实施例的用于识别图像中字符的装置的框图；以及

图15示意性示出了根据本公开实施例的用于识别图像中字符的计算机系统的方框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。本领域技术人员还应理解，实质上任意表示两个或更多可选项目的转折连词和/或短语，无论是在说明书、权利要求书还是附图中，都应被理解为给出了包括这些项目之一、这些项目任一方、或两个项目的可能性。例如，短语“A或B”应当被理解为包括“A”或“B”、或“A和B”的可能性。

本公开的实施例提供了一种用于识别图像中字符的方法、装置及介质。该方法包括获取待识别图像，所述待识别图像中包括字符；利用深度神经网络对所述待识别图像进行识别，得到以行为单位的文本行图像，所述文本行图像中包括字符；利用循环神经网络对所述文本行图像进行识别，得到所述文本行图像的字符内容。

通过这种方式，本公开实施例的用于识别图像中字符的方法，可以识别颜色复杂、文字分布不规律、字体大小不一以及使用丰富的艺术字体的字符，从而提高了在推荐商品时的准确率。

图1示意性示出了根据本公开实施例的用于识别图像中字符的方法的流程图。

如图1所示，用于识别图像中字符的方法包括步骤S101～步骤S103。

在步骤S101中，获取待识别图像，所述待识别图像中包括字符。

在步骤S102中，利用深度神经网络对所述待识别图像进行识别，得到以行为单位的文本行图像，所述文本行图像中包括字符。

在步骤S103中，利用循环神经网络对所述文本行图像进行识别，得到所述文本行图像的字符内容。

该方法利用深度神经网络对待识别图像进行识别得到以行为单位的文本行图像，然后针对文本行图像利用循环神经网络对其进行识别，得到该文本行图像的字符内容，以此方式识别待识别图像中的字符与现有技术利用OCR技术识别字符相比鲁棒性和准确率更高。

根据本公开的实施例，上述方法包括对待识别图像的每个像素点的像素值归一化，这样有助于加快深度神经网络识别图像中字符的速度。

根据本公开的实施例，上述待识别图像中的字符可以包括一个或多个。其中，一个或多个字符的颜色、大小、字体、分布情况可以相同或不同。通过上述方法可以对颜色、大小、字体、分布情况相同或不同的字符进行识别，从而解决现有技术中不能对颜色复杂、文字分布不规律、字体大小不一以及使用丰富的艺术字体的字符进行识别的问题，提高了用户的体验。

图2示意性示出了根据本公开实施例的利用深度神经网络识别待识别图像的示意图。

如果2所示，上述待识别图像为图像A1，该图像A1中包括字符。当图像A1输入到深度神经网络时，利用深度神经网络对图像A1进行识别，得到图像A2，该图像A2包含以行为单位的多行字符。将图像A2以行为单位分割，得到以行为单位的文本行图像B1～B4，图像B1～B4中包含字符。以此方式对图像A1识别可以避免出现在识别过程中漏字的情况。

图3示意性示出了根据本公开另一实施例的用于识别图像中字符的方法的流程图。

如图3所示，图1实施例中的步骤S102包括步骤S301～步骤S304。

在步骤S301中，将所述待识别图像输入到所述深度神经网络，利用所述深度神经网络中的卷积层和池化层从所述待识别图像中提取出预定像素尺寸的特征图。

在步骤S302中，以预设数量的像素点为宽度，以数量可变的像素点为高度从所述特征图中提取出所有的单列像素。

在步骤S303中，基于所有的单列像素，生成以行为单位的所述特征图的文本行图像。

在步骤S304中，根据所述特征图的文本行图像，从所述待识别图像中确定出所述文本行图像。

该方法从待识别图像中提取出预设像素尺寸的特征图，并对特征图像进行识别，这样可以加快识别的速度。以预设数量的像素点为宽度，以数量可变的像素点为高度从该特征图中提取出所有的单列像素，可以有效地避免在识别时漏字。

根据本公开的实施例，上述预定像素的尺寸可以根据待识别图像的尺寸来设定，通常该预定像素的尺寸设置的比较小，这样可以加快对待识别图像的识别速度。

根据本公开的实施例，上述从特征图中提取的列像素可以是以预设数量的像素点为宽度，以数量可变的像素点为高度的列像素。其中，列像素的宽度例如可以设定为一个像素点、两个像素点等等，在此不做限定。列像素的高度可以是根据待识别图像中字符的大小来设定的，例如图像A1中的字符大小不一，因此从图像A1中提取出的特征图的列像素的高度是可变的。

图4示意性示出了根据本公开另一实施例的用于识别图像中字符的方法的流程图。

如图4所示，图3实施例中的步骤S303包括步骤S401和步骤S402。

在步骤S401中，对所有的单列像素进行判断，判断所述单列像素是否为字符，根据判断结果连接左右相邻的单列像素，以生成所述特征图的文本行图像，所述左右相邻的单列像素为字符的列像素。

在步骤S402中，输出所述特征图的文本行图像的数据。

根据本公开的实施例，特征图的文本行图像的数据可以为6元组的数据，该6元组的数据可以是(x，y，w，h，a，c)，其中x指该特征图的文本行图像在特征图中的水平像素坐标，y指该特征图的文本行图像在特征图中的竖直像素坐标，w指该特征图的文本行图像的像素宽度，a指该特征图的文本行图像的倾斜角，c指该特征图的文本行图像的置信度，例如，置信度越高指该特征图的文本行图像中包含字符的概率越高。

图5A示意性示出了根据本公开另一实施例的利用深度神经网络识别待识别图像的示意图。

如图5A所示，从图像A1中提取特征图，该特征图的像素分布情况例如可以是16*16的C1，以一个像素点为固定宽度，以数量可变的像素点为高度从C1中提取出所有的单列像素。例如，从C1中提取出6列像素(实际使用中提取了数万列单列像素，为了方便绘图，这里以提取6列为例)，具体图5A所示，可以是1*3、1*4、两个1*5、两个1*8的列像素，分别对6列像素进行判断，若该列像素被判断为字符，则将该列像素认定为候选区域，然后删除出现重叠的部分候选区域，并标记待识别图像中对应的像素位置可以形成图像A3，最后连接左右相连的候选区域，可以形成图像A2。显然通过连接左右相邻的列像素可以将字符划分成以行为单位的区域，这样的方式可以识别不同大小的字符，也可以防止漏掉被识别的字符。

图6示意性示出了根据本公开实施例的生成文本行图像的流程图。

如图6所示，图3实施例的步骤S304包括步骤S601和步骤S602。

在步骤S601中，根据所述特征图的文本行图像的连接区域和数据，在连接左右相邻的单列像素时出现两个或两个以上的候选区域存在重叠区域时，删除置信度较低的候选区域，可以只保留置信度最高的一个候选区域，所述候选区域指深度神经网络判断为字符的单列像素，以及删除所述特征图的文本行图像的数据中置信度低于预设阈值的区域。

在步骤S602中，根据删除后的特征图的文本行图像的数据，从所述待识别图像中确定出所述文本行图像。

该方法通过删除存在重叠的候选区域以及删除置信度低于预设阈值的候选区域来提高文本行图像的字符内容的准确性，随之也提高了推荐关于待识别图像的商品的准确性。

参考图5B，图中C2示出了通过连接单列像素形成的4个候选区域，分别是两个1*3像素点的单列像素，1*4像素点的单列像素和1*5像素点的单列像素，其中在连接1*3像素点的单列像素，1*4像素点的单列像素和1*5像素点的单列像素的候选区域时存在重叠区域，具体如图所示。在这种情况下，需要根据每个候选区域的数据(例如，置信度)删除掉重叠区域。即将置信度较低的候选区域删除，可以只保留置信度最高的一个候选区域。在本公开的一些实施例中，如果不删除重叠的候选区域，直接连接左右相邻的列像素时，那么可能会出现三行文本(左边的每列像素都与右边的列像素连接)，但是在实际识别的过程中只有一行字，所以需要删除存在重叠的候选区域。也就是从左边的三个候选区域中删除置信度较低且存在重叠的候选区域，只保留一个置信度最高的候选区域。例如，左边三个候选区域的置信度分别为(0.6,0.9,0.8)，那就删除置信度为0.6和0.8的候选区域，只保留置信度为0.9的候选区域。此时对左右相邻的候选区域连接，可以只形成一行文本。显然如果不删除一个或多个重叠的候选区域，可能会导致形成多行文本，因此以此方式可以降低非有效字符的文本行出现的概率。

图7示意性示出了根据本公开实施例的利用循环网络识别文本行图像的流程图。

如图7所示，图1实施例的步骤S103包括步骤S701～步骤S703。

在步骤S701中，提取所述文本行图像中的字符。

在步骤S702中，将提取的字符输入到所述循环神经网络进行分类，输出候选字符。

在步骤S703中，删除所述候选字符中的非有效字符，输出所述文本行图像的字符内容。

该方法利用循环神经网络对文本行图像的字符进行分类，以此方式可以对文本行图像的所有字符进行分类，例如所有字符中还可以包括蒙古字符，使得该方法的应用场景更泛化。

参考图8A和8B，对利用循环网络识别文本行图像的具体过程进行描述。

如图8A所示，从文本行图像D1中提取特征图，该特征图的像素点分布情况可以如F1所示，以预设数量的像素点为宽度和高度(例如，4*4)从该特征图中提取字符。具体地，从F1中的第一列像素开始提取4*4的像素点进行识别，输出候选字符，接着从F1中的第二列像素开始提取4*4的像素点进行识别，输出候选字符，以此方式循环的从F1中提取4*4的像素点进行识别直到F1的像素点被全面覆盖为止，这样可以防止漏掉文本行图像D1中的字符。

如图8B所示，利用循环神经网络对文本行图像进行分类得到了多个候选字符，例如候选字符可以包括有效字符(例如，汉语字符、英语字符)和非有效字符(非有效字符指由上述全面覆盖原则形成的非完整字符，例如“半个字符”、“半个字符加标点”或“两个半个字符”等，用“_”表示)。非有效字符是无效内容，在输出识别结果时将其删除，这样可以提高文本行图像的字符内容的准确性。

图9示意性示出了根据本公开实施例的用于识别图像中字符的装置的框图。

如图9所示，装置900包括获取模块910、第一识别模块920和第二识别模块930。

获取模块910，用于获取待识别图像，所述待识别图像中包括字符。

第一识别模块920，用于利用深度神经网络对所述待识别图像进行识别，得到行为单位的文本行图像，所述文本行图像中包括字符。

第二识别模块930，用于利用循环神经网络对所述文本行图像进行识别，得到所述文本行图像的字符内容。

该装置900利用深度神经网络对待识别图像进行识别得到以行为单位的文本行图像，然后针对文本行图像利用循环神经网络对其进行识别，得到该文本行图像的字符内容，以此方式识别待识别图像中的字符与现有技术利用OCR技术识别字符相比鲁棒性和准确率更高。

通过装置900可以对颜色、大小、字体、分布情况相同或不同的字符进行识别，从而解决现有技术中不能对颜色复杂、文字分布不规律、字体大小不一以及使用丰富的艺术字体的字符进行识别的问题，提高了用户的体验。

图10示意性示出了根据本公开实施例的第一识别模块的框图。

如图10所示，图9实施例的第一识别模块920包括第一提取模块921、第二提取模块922、生成模块923和第一确定模块924。

第一提取模块921，用于将所述待识别图像输入到所述深度神经网络，利用所述深度神经网络中的卷积层和池化层从所述待识别图像中提取出预定像素尺寸的特征图。

第二提取模块922，用于以预设数量的像素点为宽度，以数量可变的像素点为高度从所述特征图中提取出所有的单列像素。

生成模块923，用于基于所有的单列像素，生成以行为单位的所述特征图的文本行图像。

第一确定模块924，用于根据所述特征图的文本行图像，从所述待识别图像中确定出所述文本行图像。

在本公开的一些实施例中，从待识别图像中提取出预设像素尺寸的特征图，并对特征图像进行识别，这样可以加快识别的速度。以预设数量的像素点为宽度，以数量可变的像素点为高度从该特征图中提取出所有的单列像素，可以有效地避免在识别时漏字。

图11示意性示出了根据本公开实施例的生成模块的框图。

如图11所示，图10实施例的生成模块923包括判断模块9231和第一输出模块9232。

判断模块9231，用于对所有的单列像素进行判断，判断所述单列像素是否为字符，根据判断结果连接左右相邻的单列像素，以生成所述特征图的文本行图像，所述左右相邻的单列像素为字符的列像素。

第一输出模块9232，第一输出模块，用于输出所述特征图的文本行图像的数据。

图12示意性示出了根据本公开实施例的第一确定模块的框图。

如图12所示，图10实施例的第一确定模块924包括删除模块9241和第一确定子模块9242。

删除模块9241，用于根据所述特征图的文本行图像的连接区域和数据，在连接左右相邻的单列像素时出现两个或两个以上的候选区域存在重叠区域时，删除置信度较低的候选区域，保留置信度最高的一个候选区域，所述候选区域指深度神经网络判断为字符的单列像素，以及删除所述特征图的文本行图像的数据中置信度低于预设阈值的区域。

第一确定子模块9242，用于根据删除后的特征图的文本行图像的数据，从所述待识别图像中确定出所述文本行图像。

在本公开的一些实施例中，通过删除出现重叠的候选区域以及删除置信度低于预设阈值的候选区域来提高文本行图像的字符内容的准确性，随之也提高了推荐关于待识别图像的商品的准确性。

图13示意性示出了根据本公开实施例的第二识别模块的框图。

如图13所示，图9实施例的第二识别模块930包括第三提取模块931、第二输出模块932和第三输出模块933。

第三提取模块931，用于提取所述文本行图像中的字符。

第二输出模块932，用于将提取的字符输入到所述循环神经网络进行分类，输出候选字符。

第三输出模块933，用于删除所述候选字符中的非有效字符，输出所述文本行图像的字符内容。

在本公开的一些实施例中，如果不删除非有效字符，将会导致字符的内容与图像原有的字符的内容不同。因此删除非有效字符可以提高识别出的字符的准确性。

图14示意性示出了根据本公开另一实施例的用于识别图像中字符的装置的框图。

如图14所示，除了图9实施例的获取模块910、第一识别模块920和第二识别模块930之外，装置900还包括归一化模块940。

归一化模块940，用于对所述待识别图像的每个像素点的像素值归一化。

在本公开的一些实施例中，利用归一化模块940对待识别图像的每个像素点的像素值归一化可以加快深度神经网络识别图像中字符的速度。

可以理解的是，获取模块910、第一识别模块920、第一提取模块921、第二提取模块922、生成模块923、判断模块9231、第一输出模块9232、第一确定模块924、删除模块9241、第一确定子模块9242、第二识别模块930、第三提取模块931、第二输出模块932、第三输出模块933、以及归一化模块940可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本发明的实施例，获取模块910、第一识别模块920、第一提取模块921、第二提取模块922、生成模块923、判断模块9231、第一输出模块9232、第一确定模块924、删除模块9241、第一确定子模块9242、第二识别模块930、第三提取模块931、第二输出模块932、第三输出模块933、以及归一化模块940中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式的适当组合来实现。或者，获取模块910、第一识别模块920、第一提取模块921、第二提取模块922、生成模块923、判断模块9231、第一输出模块9232、第一确定模块924、删除模块9241、第一确定子模块9242、第二识别模块930、第三提取模块931、第二输出模块932、第三输出模块933、以及归一化模块940中的至少一个可以至少被部分地实现为计算机程序模块，当该程序被计算机运行时，可以执行相应模块的功能。

图15示意性示出了根据本公开实施例的用于识别图像中字符的计算机系统的方框图。图15示出的计算机系统仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图15所示，根据本公开实施例的用于识别图像中字符的计算机系统1000包括处理器1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。处理器1001例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器1001还可以包括用于缓存用途的板载存储器。处理器1001可以包括用于执行参考图1～图7描述的根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 1003中，存储有系统1000操作所需的各种程序和数据。处理器1001、ROM1002以及RAM 1003通过总线1004彼此相连。处理器1001通过执行ROM 1002和/或RAM 1003中的程序来执行以上参考图1～图7描述的用于识别图像中字符的各种步骤。需要注意，该程序也可以存储在除ROM 1002和RAM 1003以外的一个或多个存储器中。处理器1001也可以通过执行存储在该一个或多个存储器中的程序来执行以上参考图1～图7描述的用于识别图像中字符的各种步骤。

根据本公开的实施例，系统1000还可以包括输入/输出(I/O)接口1005，输入/输出(I/O)接口1005也连接至总线1004。系统1000还可以包括连接至I/O接口1005的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

根据本公开的实施例，上文参考流程图描述的方法可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被处理器1001执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。根据本公开的实施例，计算机可读介质可以包括上文描述的ROM 1002和/或RAM 1003和/或ROM 1002和RAM 1003以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

作为另一方面，本公开还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备执行根据本公开实施例的用于识别图像中字符的方法。该方法包括：获取待识别图像，所述待识别图像中包括字符；利用深度神经网络对所述待识别图像进行识别，得到以行为单位的文本行图像，所述文本行图像中包括字符；利用循环神经网络对所述文本行图像进行识别，得到所述文本行图像的字符内容。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种用于识别图像中字符的方法，包括：

获取待识别图像，所述待识别图像中包括字符；

将所述待识别图像输入到深度神经网络，利用所述深度神经网络中的卷积层和池化层从所述待识别图像中提取出预定像素尺寸的特征图；

以预设数量的像素点为宽度，以数量可变的像素点为高度从所述特征图中提取出所有的单列像素；

基于所有的单列像素，生成以行为单位的所述特征图的文本行图像；

根据所述特征图的文本行图像，从所述待识别图像中确定出所述文本行图像，所述文本行图像中包括字符；

利用循环神经网络对所述文本行图像进行识别，得到所述文本行图像的字符内容。

2.根据权利要求1所述的方法，其中，所述待识别图像中的字符包括一个或多个，所述一个或多个字符的颜色、大小、字体和分布情况相同或不同。

3.根据权利要求1所述的方法，其中，基于所有的单列像素，生成以行为单位的所述特征图的文本行图像包括：

对所有的单列像素进行判断，判断所述单列像素是否为字符，根据判断结果连接左右相邻的单列像素，以生成所述特征图的文本行图像，所述左右相邻的单列像素为字符的列像素；

输出所述特征图的文本行图像的数据。

4.根据权利要求3所述的方法，其中，根据所述特征图的文本行图像，从所述待识别图像中确定出所述文本行图像包括：

根据所述特征图的文本行图像的连接区域和数据，连接左右相邻的单列像素形成两个以上的候选区域，在所述两个以上的候选区域存在重叠区域时，删除置信度较低的候选区域，只保留置信度最高的一个候选区域，所述候选区域指深度神经网络判断为字符的单列像素，以及删除所述特征图的文本行图像的数据中置信度低于预设阈值的区域；

根据删除后的特征图的文本行图像的数据，从所述待识别图像中确定出所述文本行图像。

5.根据权利要求1所述的方法，其中，利用循环神经网络对所述文本行图像进行识别，得到所述文本行图像的字符内容包括：

提取所述文本行图像中的字符；

将提取的字符输入到所述循环神经网络进行分类，输出候选字符；

删除所述候选字符中的非有效字符，输出所述文本行图像的字符内容。

6.根据权利要求1所述的方法，还包括：

对所述待识别图像的每个像素点的像素值归一化。

7.一种用于识别图像中字符的装置，包括：

获取模块，用于获取待识别图像，所述待识别图像中包括字符；

第一提取模块，用于将所述待识别图像输入到深度神经网络，利用所述深度神经网络中的卷积层和池化层从所述待识别图像中提取出预定像素尺寸的特征图；

第二提取模块，用于以预设数量的像素点为宽度，以数量可变的像素点为高度从所述特征图中提取出所有的单列像素；

生成模块，用于基于所有的单列像素，生成以行为单位的所述特征图的文本行图像；

第一确定模块，用于根据所述特征图的文本行图像，从所述待识别图像中确定出所述文本行图像，所述文本行图像中包括字符；

第二识别模块，用于利用循环神经网络对所述文本行图像进行识别，得到所述文本行图像的字符内容。

8.根据权利要求7所述的装置，其中，所述待识别图像中的字符包括一个或多个，所述一个或多个字符的颜色、大小、字体和分布情况相同或不同。

9.根据权利要求7所述的装置，其中，生成模块包括：

判断模块，用于对所有的单列像素进行判断，判断所述单列像素是否为字符，根据判断结果连接左右相邻的单列像素，以生成所述特征图的文本行图像，所述左右相邻的单列像素为字符的列像素；

第一输出模块，用于输出所述特征图的文本行图像的数据。

10.根据权利要求9所述的装置，其中，第一确定模块包括：

删除模块，用于根据所述特征图的文本行图像的连接区域和数据，连接左右相邻的单列像素形成两个以上的候选区域，在所述两个以上的候选区域存在重叠区域时，删除置信度较低的候选区域，保留置信度最高的一个候选区域，所述候选区域指深度神经网络判断为字符的单列像素，以及删除所述特征图的文本行图像的数据中置信度低于预设阈值的区域；

第一确定子模块，用于根据删除后的特征图的文本行图像的数据，从所述待识别图像中确定出所述文本行图像。

11.根据权利要求7所述的装置，其中，第二识别模块包括：

第三提取模块，用于提取所述文本行图像中的字符；

第二输出模块，用于将提取的字符输入到所述循环神经网络进行分类，输出候选字符；

第三输出模块，用于删除所述候选字符中的非有效字符，输出所述文本行图像的字符内容。

12.根据权利要求7所述的装置，还包括：

归一化模块，用于对所述待识别图像的每个像素点的像素值归一化。

13.一种用于识别图像中字符的装置，包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1～6任意一项所述的方法。

14.一种计算机可读介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行根据权利要求1～6任意一项所述的方法。