CN110569835A

CN110569835A - 一种图像识别方法、装置和电子设备

Info

Publication number: CN110569835A
Application number: CN201810574220.3A
Authority: CN
Inventors: 徐露露
Original assignee: Beijing Sogou Technology Development Co Ltd; Sogou Hangzhou Intelligent Technology Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2018-06-06
Filing date: 2018-06-06
Publication date: 2019-12-13
Anticipated expiration: 2038-06-06
Also published as: CN110569835B

Abstract

本发明实施例提供了一种图像识别方法、装置和电子设备，其中，所述方法包括：获取原始图像，采用全卷积神经网络提取所述原始图像的特征得到特征图像，确定所述特征图像的连通域，依据连通域的像素点坐标确定原始图像的文本检测区域，依据所述文本检测区域确定文本信息，并显示所述文本信息；进而本发明实施例通过采用全卷积神经网络对原始图像进行像素分割，以及对像素分割得到的特征图像进行图像处理，来确定原始图像的文本检测区域，提高了确定文本检测区域的准确性和效率，从而能够高效识别图像中各种角度的文本。

Description

一种图像识别方法、装置和电子设备

技术领域

本发明涉及数据处理技术领域，特别是涉及一种图像识别方法、装置和电子设备。

背景技术

如今，很多场景都需要进行图像识别，比如交通监控系统拍摄到车辆闯红灯后，需要对拍摄图像进行识别确定车辆的车牌号；又比如用户下载的很多资料可能是图片格式的，则需要将图片转换成文档；还比如拍照翻译等等。

其中，很多图像中的文本很可能不是水平的，如图1所示，图1中“PASSPORT”和“PASSPO”都是倾斜的；目前对图像中非水平方向的文本没有高效的识别方案，例如，基于候选框区域的方法只能较为准确的提取水平方向的文字，又例如基于像素分割的方法后处理操作非常耗时。

发明内容

本发明实施例提供一种图像识别方法，以高效识别图像中各种角度的文本。

相应的，本发明实施例还提供了一种图像识别装置和一种电子设备，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种图像识别方法，具体包括：获取原始图像，采用全卷积神经网络提取所述原始图像的特征得到特征图像；确定所述特征图像的连通域，依据连通域的像素点坐标确定原始图像的文本检测区域；依据所述文本检测区域确定文本信息，并显示所述文本信息。

可选地，所述确定所述特征图像的连通域，包括：对所述特征图像进行二值化处理，得到二值化特征图像；对所述二值化特征图像进行连通域分析，确定所述特征图像的连通域；其中，一行文本对应一个连通域。

可选地，所述依据连通域的像素点坐标确定原始图像的文本检测区域，包括：依据所述连通域的像素点坐标，确定所述连通域的外接多边形和外接多边形各个顶点的像素点坐标；依据所述各个顶点的像素点坐标，确定所述原始图像的文本检测区域。

可选地，所述依据所述各个顶点的像素点坐标，确定所述原始图像的文本检测区域，包括：依据所述各个顶点的像素点坐标，确定所述原始图像中各顶点对应的像素点；确定以所述各个像素点为顶点的多边形区域，将所述多边形区域确定为所述原始图像的文本检测区域。

可选地，所述依据所述各个顶点的像素点坐标，确定所述原始图像中的各顶点对应的像素点，包括：依据设定条件更新各个顶点的像素点坐标，以放大由所述顶点组成的多边形面积；在原始图像中分别确定更新像素点坐标后各顶点对应的像素点。

可选地，所述外接多边形包括所述连通域的最小面积外接四边形。

可选地，还包括训练全卷积神经网络的步骤：获取训练图像；将所述训练图像输入至全卷积神经网络中，得到最后一个卷积层输出的特征图像；确定所述训练图像对应的标签图像，对所述最后一个卷积层输出的特征图像与标签图像进行误差计算；依据所述误差计算的结果调整所述全卷积神经网络的权值。

可选地，所述确定所述训练图像对应的标签图像，包括：确定所述训练图像中各文本行对应文本框的像素点坐标；依据所述训练图像和文本框的像素点坐标，生成具有标注区域的标签图像，其中，所述标注区域不大于所述文本框的像素点坐标构成的区域。

本发明实施例还公开了一种图像识别装置，具体包括：特征提取模块，用于获取原始图像，采用全卷积神经网络提取所述原始图像的特征得到特征图像；区域确定模块，用于确定所述特征图像的连通域，依据连通域的像素点坐标确定原始图像的文本检测区域；文本显示模块，用于依据所述文本检测区域确定文本信息，并显示所述文本信息。

可选地，所述区域确定模块包括：连通域确定子模块，用于对所述特征图像进行二值化处理，得到二值化特征图像；对所述二值化特征图像进行连通域分析，确定所述特征图像的连通域；其中，一行文本对应一个连通域。

可选地，所述区域确定模块包括：坐标确定子模块，用于依据所述连通域的像素点坐标，确定所述连通域的外接多边形和外接多边形各个顶点的像素点坐标；检测区域确定子模块，用于依据所述各个顶点的像素点坐标，确定所述原始图像的文本检测区域。

可选地，所述检测区域确定子模块，用于依据所述各个顶点的像素点坐标，确定所述原始图像中各顶点对应的像素点；确定以所述各个像素点为顶点的多边形区域，将所述多边形区域确定为所述原始图像的文本检测区域。

可选地，所述检测区域确定子模块，依据设定条件更新各个顶点的像素点坐标，以放大由所述各个顶点组成的多边形面积；在原始图像中分别确定更新后的各像素点坐标对应的像素点。

可选地，还包括：获取模块，用于获取训练图像；训练模块，用于将所述训练图像输入至全卷积神经网络中，得到最后一个卷积层输出的特征图像；比对模块，用于确定所述训练图像对应的标签图像，对所述最后一个卷积层输出的特征图像与标签图像进行误差计算；调整模块，用于依据所述误差计算的结果调整所述全卷积神经网络的权值。

可选地，所述比对模块，用于确定所述训练图像中各文本行对应文本框的像素点坐标；依据所述训练图像和文本框的像素点坐标，生成具有标注区域的标签图像，其中，所述标注区域不大于所述文本框的像素点坐标构成的区域。

本发明实施例还公开了一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如本发明实施例任一所述的图像识别方法。

本发明实施例还公开了一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取原始图像，采用全卷积神经网络提取所述原始图像的特征得到特征图像；确定所述特征图像的连通域，依据连通域的像素点坐标确定原始图像的文本检测区域；依据所述文本检测区域确定文本信息，并显示所述文本信息。

可选地，还包含用于进行以下训练全卷积神经网络的操作的指令：获取训练图像；将所述训练图像输入至全卷积神经网络中，得到最后一个卷积层输出的特征图像；确定所述训练图像对应的标签图像，对所述最后一个卷积层输出的特征图像与标签图像进行误差计算；依据所述误差计算的结果调整所述全卷积神经网络的权值。

本发明实施例包括以下优点：

本发明实施例可获取原始图像，采用全卷积神经网络提取所述原始图像的特征得到特征图像，进而全卷积神经网络能够不受原始图像中文本方向的影响，对原始图像中的文本和非文本进行像素分割得到特征图像；然后对特征图形进行简洁的图像处理，即确定所述特征图像的连通域；然后再依据连通域的像素点坐标确定原始图像的文本检测区域，依据所述文本检测区域确定文本信息，并显示所述文本信息；进而本发明实施例通过采用全卷积神经网络对原始图像进行像素分割，以及对像素分割得到的特征图像进行图像处理，来确定原始图像的文本检测区域，提高了确定文本检测区域的准确性和效率，从而能够高效识别图像中各种角度的文本。

附图说明

图1是本发明实施例的一种文本图像的示意图；

图2本发明的一种图像识别方法实施例的步骤流程图；

图3是本发明实施例的一种原始图像的文本检测区域示意图；

图4是本发明的一种训练全卷积神经网络实施例的步骤流程图；

图5是本发明实施例的一种训练图像示意图；

图6a是本发明实施例的一种具有标注区域的标签图像示意图；

图6b是本发明实施例的一种标注区域缩小后的标签图像示意图；

图6c是本发明实施例的一种二值图像示意图；

图6d是本发明实施例的另一种二值图像示意图；

图7是本发明的一种图像识别方法可选实施例的步骤流程图；

图8a是本发明实施例的一种二值化特征图像外接矩形的示意图；

图8b是本发明实施例的另一种原始图像的文本检测区域示意图；

图9是本发明的一种图像识别装置实施例的结构框图；

图10是本发明的一种图像识别装置可选实施例的结构框图；

图11根据一示例性实施例示出的一种用于图像识别的电子设备的结构框图；

图12是本发明根据另一示例性实施例示出的一种用于图像识别的电子设备的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例的核心构思之一是，通过将基于全卷积神经网络的像素分割方法和图像处理方法相结合，来识别图像中各种角度的文本，解决了现有技术无法高效识别图像中非水平方向文本的问题，提高了识别图像中高效识别图像中各种角度文本的效率和准确性。

参照图2，示出了本发明的一种图像识别方法实施例的步骤流程图，具体可以包括如下步骤：

步骤202、获取原始图像，采用全卷积神经网络提取所述原始图像的特征得到特征图像。

本发明实施例中，可预先采用训练图像对全卷积神经网络进行训练，例如将训练图像输入至全卷积神经网络，然后通过将全卷积神经网络输出的图像与标签图像进行比对来调整全卷积神经网络；其中，全卷积神经网络的训练过程在后续进行说明。

获取原始图像(即待识别图像)，然后采用训练后的全卷积神经网络对原始图像进行识别，提取所述原始图像的特征得到特征图像；具体识别过程可以包括：采用全卷积神经网络提取原始图像的特征，然后基于提取的特征对原始图像进行像素分割；即基于提取的特征区分原始图像中文本对应的像素点和非文本对应的像素点，并分别为文本对应的像素点和非文本对应的像素点设置不同的像素值；进而可得到对应的特征图像，其中，所述特征图像和原始图像的大小是相同的。本发明实施例采用的全卷积神经网络是不包括输出层的，即将全卷积神经网络的最后一个卷积层的输出作为该网络的输出。

步骤204、确定所述特征图像的连通域，依据连通域的像素点坐标确定原始图像的文本检测区域。

本发明实施例中，基于全卷积神经网络对原始图像进行像素分割后，可对得到的特征图像进行图像处理，以确定原始图像中的文本检测区域。即可对特征图像进行图像处理如二值化处理，依据特征图像中各像素点的像素值，确定特征图像的连通域，所述连通域是指特征图像中文本对应像素点组成的图像区域。然后确定所述连通域的像素点坐标如连通域的各顶点的像素点坐标，再依据连通域的像素点坐标确定原始图像的文本检测区域，例如在原始图像中查找连通域的像素点坐标对应的各像素点，将由这些像素点围成的区域作为文本检测区域。其中，连通域的像素点坐标可能包括多组，对应的，文本检测区域也可包括多个。

步骤206、依据所述文本检测区域确定文本信息，并显示所述文本信息。

在确定文本检测区域后，可依据文本检测区域确定对应的文本信息，如采用文本识别方法对文本检测区域进行检测，识别出对应的文本信息，然后显示所述文本信息。

本发明一个示例中，可将图1的图像作为原始图像，将图1的图像输入至全卷积神经网络中，得到特征图像，确定图1中文本“PASSPO”对应的连通域为连通域1，以及文本“PASSPORT”对应的连通域为连通域2；然后依据连通域1的像素点坐标确定原始图像的文本检测区域1，依据连通域2的像素点坐标确定原始图像的文本检测区域2，如图3所示；然后可确定文本检测区域1的文本信息：PASSPO，文本检测区域2的文本信息：PASSPORT。

综上，本发明实施例可获取原始图像，采用全卷积神经网络提取所述原始图像的特征得到特征图像，进而全卷积神经网络能够不受原始图像中文本方向的影响，对原始图像中的文本和非文本进行像素分割得到特征图像；然后对特征图形进行简洁的图像处理，即确定所述特征图像的连通域；然后再依据连通域的像素点坐标确定原始图像的文本检测区域，依据所述文本检测区域确定文本信息，并显示所述文本信息；进而本发明实施例通过采用全卷积神经网络对原始图像进行像素分割，以及对像素分割得到的特征图像进行图像处理，来确定原始图像的文本检测区域，提高了确定文本检测区域的准确性和效率，从而能够高效识别图像中各种角度的文本。

本发明的另一个实施例中，可收集训练图像，采用训练图像对全卷积神经网络进行训练，使得采用训练后的全卷积神经网络能够更准确地提取原始图像的特征，进而更准确的对原始图像中文本和非文本进行像素分割。

参照图4、示出了本发明的一种训练全卷积神经网络实施例的步骤流程图；具体可包括以下步骤：

步骤402、获取训练图像。

本发明实施例中，可收集训练图像，其中，对所述训练图像中文本角度不作限制，即训练图像中文本的方向可以是水平，也可以是非水平的；所述训练图像的数量可按照需求确定。

步骤404、将所述训练图像输入至全卷积神经网络中，得到最后一个卷积层输出的特征图像。

步骤406、确定所述训练图像对应的标签图像，对所述最后一个卷积层输出的特征图像与标签图像进行误差计算。

步骤408、依据所述误差计算的结果调整所述全卷积神经网络的权值。

本发明实施例中，对全卷积神经网络的训练可包括两个过程：正向传播训练和反向传播训练，其中，正向传播训练：将训练图像输入至全卷积神经网络中，由全卷积神经网络的最后一个卷积层输出特征图，进而可得到训练图像对应的特征图像；反向传播训练：确定训练图像对应的标签图像，然后对该特征图像与标签图像进行误差计算，然后依据误差计算的结果调整全卷积神经网络的权值；然后采用下一个训练图像对调整权值后的全卷积神经网络进行训练，进而依次采用各训练图像对全卷积神经网络进行训练。其中，调整的全卷积神经网络的权值可以是全卷积神经网络部分层的权值，也可以是全卷积神经网络的所有层的权值。

本发明实施例中，一种确定标签图像的方法是，对训练图像进行灰度处理，得到灰度图像，再对灰度图像进行二值化处理，可得到二值化训练图像，然后直接将二值化训练图像确定为标签图像。

另一种确定标签图像的方法具体可通过如下子步骤82-84实现：

子步骤82、确定所述训练图像中各文本行对应文本框的像素点坐标；

子步骤84、依据所述训练图像和文本框的像素点坐标，生成具有标注区域的标签图像，其中，所述标注区域不大于所述文本框的像素点坐标构成的区域。

本发明实施例中，可采用标注工具对所述训练图像中各文本行进行标注，确定各文本行对应的文本框和各文本框的像素点坐标；其中，所述文本行对应文本框可以是所述文本行的外接多边形，所述文本框的像素点坐标可以是文本行的外接多边形的各个顶点的像素点坐标。其中，可参照图5，是文本框的外接多边形为四边形的举例，图5中训练图像的大小为960px*960px，可对图5中的每行文本进行标注，得到对应的文本框，如从上往下第一行文本对应文本框1，第二行文本对应文本框2，……；然后确定各文本框四个顶点的像素点坐标，如文本框1的四个顶点为A1(260,920)、B1(560,780)、C1(300,880)、D1(600,760)，文本框2的四个顶点坐标为A2(260,850)、B2(500,800)、C2(300,820)、D2(530,780),……。

然后可依据所述训练图像和各行文本对应文本框的像素点坐标，生成标签图像，即生成与训练图像大小相同的标签图像，所述标签图像可以是二值化图像；然后针对每行文本，可依据对应文本框各个顶点的像素点坐标，在标签图像中查找对应的各顶点对应的像素点，确定以这些像素点为顶点的多边形区域，该多边形区域即为标注区域。其中，所述未确定标注区域的标签图像中各像素点的像素值可以均为0，在确定标注区域后，可将各标注区域中各像素点的像素值置为1。如图6a所示，图6a是根据图5中文本框1的四个顶点的像素点坐标，确定对应的四个像素点A1'(260,920)、B1'(560,780)、C1'(300,880)、D1'(600,760)，将以A1'、B1'、C1'和D1'为顶点四边形称为标注区域1，可将标注区域1中各像素点的像素值置为1，即标注区域为白色，其他区域为黑色；根据图5中文本框2的四个顶点的像素点坐标，确定对应的四个像素点A2'(260,850)、B2'(500,800)、C2'(300,820)、D2'(530,780)，将以A2'、B2'、C2'和D2'组成四边形称为标注区域2，可将标注区域2中各像素点的像素值置为1。当然所述未确定标注区域的标注图像中各像素点的像素值也可以均为1，在确定标注区域后，可将各标注区域中各像素点的像素值置为0；本发明对此不作限制。

由于不同的图像中文本行的密度不同，例如海报中各个文本行排版比较稀疏，论文对应扫描图像中各文本行的排版比较紧密；当原始图像中文本行比较紧密时，在采用全卷积神经网络对原始图像进行特征提取得到特征图像，并对特征图像进行二值化确定各文本行对应的连通域后，上下相隔较近的文本行二值化后的连通域可能会合并，使得上下两行文本合并成一行；进而导致原始图像中文本检测区域确定的不准确，影响文本识别的准确性。因此本发明实施例为解决该问题，可以缩小所述标签图像的标注区域，如按照设定规则缩小标注区域；其中，所述设定规则可按照需求设置。例如，所述标注区域为矩形，则所述设定规则可以是将标注区域的宽度按等比例缩小设定倍数，所述设定倍数也可按照需求设置如3倍。例如，以图6a中的四边形为例，若设定倍数为3倍，可将四边形的水平中心线以上部分的宽度缩小1.5倍，将水平中心线以下部分的宽度缩小1.5倍；则缩小标注区域后的标签图像如图6b所示，其中，图6b中的标注区域1'是图6a中标注区域1的宽度缩小3倍后对应的区域，标注区域2'是图6a中标注区域2的宽度缩小3倍后对应的区域。

因此在训练过程中，采用缩小标注区域后的标签图像与特征图像进行比对，来调整全卷积神经网络的权值，能够使得全卷积神经网络输出的特征图像中文本行对应的连通域，小于该文本行对应的实际连通域；进而在采用训练后的全卷积神经网络确定原始图像的特征图像时，可增大特征图像中上下相隔较近的文本行对应连通域的间隔，从而降低上下相隔较近的文本行二值化后连通域合并的可能性。如图6c和图6d所示，图6c和图6d均是同一原始图像输入值不同全卷积神经网络得到特征图像的二值图像，其中，图6c和图6d的原始图像均为图5的图像，图6c采用的全卷积神经网络是，训练过程中依据标注区域缩小后的标签图像调整权值的网络，图6d采用的全卷积神经网络是，训练过程中依据训练图像的二值化训练图像或未缩小标注区域的标签图像调整权值的网络；可见图6c未发生文字行的粘连，而图6d发生了文字行的粘连。

本发明实施例中，可获取训练图像，将所述训练图像输入至全卷积神经网络中，得到最后一个卷积层输出的特征图像，确定所述训练图像对应的标签图像，对所述最后一个卷积层输出的特征图像与标签图像进行误差计算，依据所述误差计算的结果调整所述全卷积神经网络的权值；进而通过对全卷积神经网络进行正向传播训练和反向传播训练，提高了全卷积神经网络特征提取的准确性，从而进一步提高了识别图像中多角度文本的准确性。

其次，本发明实施例在确定所述训练图像对应的标签图像时，可确定所述训练图像中各文本行对应文本框的像素点坐标，然后依据所述训练图像和文本框的像素点坐标，生成具有标注区域的标签图像，其中，所述标注区域不大于所述文本框的像素点坐标构成的区域；进而能够避免图像中文本行过密导致的全卷积神经网络确定的特征图像像素欠分割问题，进一步提高了识别图像中多角度文本的准确性。

本发明的另一个实施例中，可依据特征图像连通域的像素点坐标，确定其连通域的外接多边形，在依据外接多边形的像素点坐标，确定原始图像的文本检测区域。

参照图7，示出了本发明的一种图像识别方法可选实施例的步骤流程图，具体可以包括如下步骤：

步骤702、获取原始图像，采用全卷积神经网络提取所述原始图像的特征得到特征图像。

本发明实施例，可获取原始图像，所述原始图像中可包括多行文本，每行文本可以是各种不同的角度，如水平、竖直、与水平方向呈30度夹角等等；然后对原始图像进行识别。即采用全卷积神经网络提取原始图像的特征，然后依据提取的特征区分原始图像中文本对应的像素点和非文本对应的像素点，并分别为文本对应的像素点和非文本对应的像素点设置不同的像素值，进而可得到对应的特征图像；其中，所述特征图像和原始图像的大小是相同的。

其中，上述步骤204所述确定特征图像对应的连通域，包括如下步骤：704-706。

步骤704、对所述特征图像进行二值化处理，得到二值化特征图像。

步骤706、对所述二值化特征图像进行连通域分析，确定所述特征图像的连通域，一行文本对应一个连通域。

本发明实施例中，所述特征图像可以是灰度图像，因此可对特征图像进行二值化处理，即可将文本像素点的像素值置1，将非文本像素点的像素置0，当然也可以将文本像素点的像素值置0，将非文本像素点的像素置1，本发明对此不作限制。例如若特征图像中文本对应像素点的像素值是大于0，则可将特征图像中灰度值大于0的像素点的像素值置为1，对于像素值为0的像素点可无需调整像素值；当然也可以将特征图像中灰度值大于0的像素点的像素值置为0，将像素值为0的像素点的调整像素值置1，进而得到特征图像对应的二值化特征图像。

然后对二值化特征图像进行连通域分析，确定特征图像的连通域，可选的，可针对一行文本确定一个对应的连通域，使得后续确定原始图像的文本检测区域的文本时，可直接确定一行文本信息，而无需对每个文本进行拼凑确定一行文本，提高了确定文本信息的效率。

其中，上述步骤204所述依据连通域的像素点坐标确定原始图像的文本检测区域，包括如下步骤708-712。

步骤708、依据所述连通域的像素点坐标，确定所述连通域的外接多边形和外接多边形各个顶点的像素点坐标。

本发明可依据连通域的像素点坐标，确定连通域的外接多边形和外接多边形各个顶点的像素点坐标；再依据所述各个顶点的像素点坐标，确定所述原始图像的文本检测区域。

可选的，所述外接多边形可以包括连通域的最小面积外接四边形。

步骤710、依据所述各个顶点的像素点坐标，确定所述原始图像中各顶点对应的像素点。

本发明实施例中，依据所述各个顶点的像素点坐标，确定所述原始图像中的各顶点对应的像素点一种方式是，在原始图像中直接查找各顶点的像素点坐标对应的像素点，进而可查找到原始图像中的各个像素点；即原始图像中各个像素点的坐标，与外接多边形各个顶点的像素点坐标相同。其中，文本差异可能导致连通域的外接多边形可能无法包括该连通域的所有像素点，且若全卷积神经网络训练过程中，缩小了标签图像的标注区域，则也可能会导致连通域的外接多边形无法包括该连通域的所有像素点；因此本发明实施例可以放大由所述各个顶点组成的多边形的面积，以使原始图像中文本检测区域也随之增大，进而使得文本行中所有像素点均落入文本检测区域。即依据设定条件更新各个顶点的像素点坐标，然后在原始图像中分别确定更新像素点坐标后各顶点对应的像素点。其中，所述设定条件可按照需求设置，也可以依据训练全卷积神经网络时的设定规则确定；以下以连通域的外接多边形为矩形为例进行说明：例如，训练过程中标注区域为矩形，设定规则是标注区域的宽度按等比例缩小设定倍数，则所述连通域的外接矩形对应的设定条件可以是，将四个顶点组成的矩形区域的宽度按等比例放大设定倍数，具体的，针对每个矩形区域，保持矩形区域的长度不变，以矩形区域的水平中心线为基准，将其宽度放大设定倍数，例如，设定倍数为3倍，可将矩形区域水平中心线以上部分的宽度放大1.5倍，将水平中心线以下部分的宽度放大1.5倍。然后确定放大后多边形对应的各个顶点的像素点坐标，即为更新后的像素点坐标。

本发明实施例中，若特征图形的外接多边形包括多个，则可确定多组像素点坐标，其中，每组像素点坐标对应一个外接多边形各个顶点的像素点坐标；然后针对每组像素点坐标，依据对应的各个顶点的像素点坐标，确定所述原始图像中的各顶点对应的像素点。

步骤712、确定以所述各个像素点为顶点的多边形区域，将所述多边形区域确定为所述原始图像的文本检测区域。

在确定原始图像中的各个像素点后，可确定以所述各个像素点为顶点的多边形区域，将所述多边形区域确定为所述原始图像的文本检测区域。以连通域的外接多边形是矩形为例说明：如图8a所示，其中，矩形1是图1中文本“PASSPO”的连通域1对应的外接矩形，矩形2是图1中文本“PASSPORT”的连通域2对应的外接矩形，即特征图像包括两组像素点坐标：矩形1的四个顶点的像素点坐标E1(Ex1，Ey1)、F1(Fx1，Fy1)、G1(Gx1，Gy1)、H1(Hx1，Hy1)，和，矩形2的四个顶点的像素点坐标E2(Ex2，Ey2)、F2(Fx2，Fy2)、G2(Gx2，Gy2)、H2(Hx2，Hy2)。根据矩形1的像素点坐标在原始图像中查找对应的像素点，即根据E1(Ex1，Ey1)，可确定原始图像中对应像素点M1(Ex1，Ey1)，根据F1(Fx1，Fy1)确定原始图像中对应像素点N1(Fx1，Fy1)，根据G1(Gx1，Gy1)确定原始图像中对应像素点X1(Gx1，Gy1)，以及根据H1(Hx1，Hy1)确定原始图像中对应像素点Y1(Hx1，Hy1)；以及根据矩形2的像素点坐标可确定原始图像中的四个像素点M2(Ex2，Ey2)、N2(Fx2，Fy2)、X2(Gx2，Gy2)和Y2(Hx2，Hy2)；然后以M1、N1、X1和Y1为顶点确定矩形3，以M2、N2、X2和Y2为顶点确定矩形4；将矩形3和矩形4确定为原始图像的文本检测区域；具体可参照图8b。

步骤714、依据所述文本检测区域确定文本信息。

本发明实施例在确定文本检测区域后，可确定文本检测区域对应的倾斜角度，然后依据文本检测区域的各像素点坐标和倾斜角度，执行抠图的操作，从原始图像中获取文本检测区域的图像；然后提取文本检测区域的图像对应的文本信息，再显示所述文本信息，以向用户展示图像识别结果。

本发明一个可选的实施例中，可结合用户意图显示所述文本信息，即按照用户意图显示全部或部分文本信息，进而提高用户体验。

其中，上述步骤206所述显示所述文本信息，包括如下步骤716-718。

步骤716、依据所述文本信息和/或图像识别场景，确定用户意图。

步骤718、依据用户意图对所述文本进行筛选，确定用户意图对应的文本信息并显示。

在不同的图像识别场景下，用户的需求可能不同，例如，在图片转换为文档的图像识别场景下，用户很可能需要获得全部识别的文本信息；而在证件识别如护照识别的图像识别场景下，用户很可能只需要护照号、姓名、身份证号和性别，这些文本信息，而其他的信息如签发时间、出生地点等等是不需要的；因此本发明实施例可确定当前的图像识别场景，再依据图像识别场景确定用户意图。本发明实施例可在确定文本检测区域对应的文本信息后，可依据文本信息确定用户意图，例如文本信息包括“护照”、“护照号”、“国家码”、“姓”、“名”等等，可确定用户是需要识别护照的信息，可确定用户意图是需要获取护照号、姓名、身份证号和性别这些文本信息；又例如文本信息包括“全卷积神经网络是……..，包括深度残差网络，……。”，可确定用户意图是识别技术文档(如论文)，可确定用户需要所有的文本信息。当然本发明实施例还可以将图像识别场景和文本信息结合，确定用户意图。在确定用户意图后，可依据用户意图对所述文本进行筛选，确定用户意图对应的文本并显示，进而提高用户体验。

本发明实施例中，本发明实施例可获取原始图像，采用全卷积神经网络提取所述原始图像的特征得到特征图像，即采用全卷积神经网络对原始图像中的文本和非文本进行像素分割；然后对特征图形进行简洁的图像处理，即确定所述特征图像的连通域；然后再依据连通域的像素点坐标确定原始图像的文本检测区域，依据所述文本检测区域确定文本信息，并显示所述文本信息；进而本发明实施例通过将像素分割和图像处理结合，来确定原始图像的文本检测区域，提高了确定文本检测区域的准确性和效率，从而能够高效识别图像中各种角度的文本。

其次，本发明实施例在依据连通域的像素点坐标确定原始图像的文本检测区域时，依据所述连通域的像素点坐标，确定所述连通域的外接多边形和外接多边形各个顶点的像素点坐标，依据所述各个顶点的像素点坐标，确定所述原始图像的文本检测区域；进而便于后续确定文本检测区域的文本信息，提高了图像识别的效率。

再次，本发明实施例中为防止连通域的外接矩形可能无法包括该连通域的所有像素点，可在依据所述各个顶点的像素点坐标，确定所述原始图像中的各个像素点时，依据设定条件更新各个顶点的像素点坐标，然后在原始图像中分别确定更新像素点坐标后各顶点对应的像素点；进而通过放大由所述各个顶点组成的多边形面积，来放大原始图像中文本检测区域的面积，从而提高图像识别的准确性。

进一步，本发明实施例可结合用户意图显示文本信息，即依据所述文本信息和/或图像识别场景，确定用户意图，依据用户意图对所述文本进行筛选，确定用户意图对应的文本信息并显示，提高了用户体验。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图9，示出了本发明的一种图像识别装置实施例的结构框图，具体可以包括如下模块：特征提取模块902、区域确定模块904和文本显示模块906，其中，

特征提取模块902，用于获取原始图像，采用全卷积神经网络提取所述原始图像的特征得到特征图像；

区域确定模块904，用于确定所述特征图像的连通域，依据连通域的像素点坐标确定原始图像的文本检测区域；

文本显示模块906，用于依据所述文本检测区域确定文本信息，并显示所述文本信息。

参照图10，示出了本发明的一种图像识别装置可选实施例的结构框图。

本发明一个可选的实施例中，所述装置还包括：获取模块908、训练模块910、比对模块912和调整模块914，其中，

获取模块908，用于获取训练图像；

训练模块910，用于将所述训练图像输入至全卷积神经网络中，得到最后一个卷积层输出的特征图像；

比对模块912，用于确定所述训练图像对应的标签图像，对所述最后一个卷积层输出的特征图像与标签图像进行误差计算；

调整模块914，用于依据所述误差计算的结果调整所述全卷积神经网络的权值。

本发明一个可选的实施例中，所述比对模块912，用于确定所述训练图像中各文本行对应文本框的像素点坐标；依据所述训练图像和文本框的像素点坐标，生成具有标注区域的标签图像，其中，所述标注区域不大于所述文本框的像素点坐标构成的区域。

本发明一个可选的实施例中，所述区域确定模块904包括：连通域确定子模块9042、坐标确定子模块9044和检测区域确定子模块9046，其中，

连通域确定子模块9042，用于对所述特征图像进行二值化处理，得到二值化特征图像；对所述二值化特征图像进行连通域分析，确定所述特征图像的连通域；其中，一行文本对应一个连通域。

坐标确定子模块9044，用于依据所述连通域的像素点坐标，确定所述连通域的外接多边形和外接多边形各个顶点的像素点坐标；

检测区域确定子模块9046，用于依据所述各个顶点的像素点坐标，确定所述原始图像的文本检测区域。

本发明一个可选的实施例中，所述检测区域确定子模块9046，用于依据所述各个顶点的像素点坐标，确定所述原始图像中各顶点对应的像素点；确定以所述各个像素点为顶点的多边形区域，将所述多边形区域确定为所述原始图像的文本检测区域。

本发明一个可选的实施例中，所述检测区域确定子模块9046，依据设定条件更新各个顶点的像素点坐标，以放大由所述各个顶点组成的多边形面积；在原始图像中分别确定更新像素点坐标后各顶点对应的像素点。

本发明一个可选的实施例中，所述外接多边形包括所述连通域的最小面积外接四边形。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图11是根据一示例性实施例示出的一种用于图像识别的电子设备1100的结构框图。例如，电子设备1100可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图11，电子设备1100可以包括以下一个或多个组件：处理组件1102，存储器1104，电力组件1106，多媒体组件1108，音频组件1110，输入/输出(I/O)的接口1112，传感器组件1114，以及通信组件1116。

处理组件1102通常控制电子设备1100的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件1102可以包括一个或多个处理器1120来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1102可以包括一个或多个模块，便于处理组件1102和其他组件之间的交互。例如，处理部件1102可以包括多媒体模块，以方便多媒体组件1108和处理组件1102之间的交互。

存储器1104被配置为存储各种类型的数据以支持在设备1100的操作。这些数据的示例包括用于在电子设备1100上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件1106为电子设备1100的各种组件提供电力。电力组件1106可以包括电源管理系统，一个或多个电源，及其他与为电子设备1100生成、管理和分配电力相关联的组件。

多媒体组件1108包括在所述电子设备1100和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1108包括一个前置摄像头和/或后置摄像头。当电子设备1100处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1110被配置为输出和/或输入音频信号。例如，音频组件1110包括一个麦克风(MIC)，当电子设备1100处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1104或经由通信组件1116发送。在一些实施例中，音频组件1110还包括一个扬声器，用于输出音频信号。

I/O接口1112为处理组件1102和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1114包括一个或多个传感器，用于为电子设备1100提供各个方面的状态评估。例如，传感器组件1114可以检测到设备1100的打开/关闭状态，组件的相对定位，例如所述组件为电子设备1100的显示器和小键盘，传感器组件1114还可以检测电子设备1100或电子设备1100一个组件的位置改变，用户与电子设备1100接触的存在或不存在，电子设备1100方位或加速/减速和电子设备1100的温度变化。传感器组件1114可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1114还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1114还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1116被配置为便于电子设备1100和其他设备之间有线或无线方式的通信。电子设备1100可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件1114经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件1114还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备1100可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1104，上述指令可由电子设备500的处理器520执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种图像识别方法，所述方法包括：获取原始图像，采用全卷积神经网络提取所述原始图像的特征得到特征图像；确定所述特征图像的连通域，依据连通域的像素点坐标确定原始图像的文本检测区域；依据所述文本检测区域确定文本信息，并显示所述文本信息。

图12是本发明根据另一示例性实施例示出的一种用于图像识别的电子设备1200的结构示意图。该电子设备1200可以是服务器，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1222(例如，一个或一个以上处理器)和存储器1232，一个或一个以上存储应用程序1242或数据1244的存储介质1230(例如一个或一个以上海量存储设备)。其中，存储器1232和存储介质1230可以是短暂存储或持久存储。存储在存储介质1230的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1222可以设置为与存储介质1230通信，在服务器上执行存储介质1230中的一系列指令操作。

服务器还可以包括一个或一个以上电源1226，一个或一个以上有线或无线网络接口1250，一个或一个以上输入输出接口1258，一个或一个以上键盘1256，和/或，一个或一个以上操作系统1241，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取原始图像，采用全卷积神经网络提取所述原始图像的特征得到特征图像；确定所述特征图像的连通域，依据连通域的像素点坐标确定原始图像的文本检测区域；依据所述文本检测区域确定文本信息，并显示所述文本信息。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种图像识别方法、一种图像识别装置和一种电子设备，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种图像识别方法，其特征在于，包括：

获取原始图像，采用全卷积神经网络提取所述原始图像的特征得到特征图像；

确定所述特征图像的连通域，依据连通域的像素点坐标确定原始图像的文本检测区域；

依据所述文本检测区域确定文本信息，并显示所述文本信息。

2.根据权利要求1所述的方法，其特征在于，所述确定所述特征图像的连通域，包括：

对所述特征图像进行二值化处理，得到二值化特征图像；

对所述二值化特征图像进行连通域分析，确定所述特征图像的连通域；

其中，一行文本对应一个连通域。

3.根据权利要求1所述的方法，其特征在于，所述依据连通域的像素点坐标确定原始图像的文本检测区域，包括：

依据所述连通域的像素点坐标，确定所述连通域的外接多边形和外接多边形各个顶点的像素点坐标；

依据所述各个顶点的像素点坐标，确定所述原始图像的文本检测区域。

4.根据权利要求3所述的方法，其特征在于，所述依据所述各个顶点的像素点坐标，确定所述原始图像的文本检测区域，包括：

依据所述各个顶点的像素点坐标，确定所述原始图像中各顶点对应的像素点；

确定以所述各个像素点为顶点的多边形区域，将所述多边形区域确定为所述原始图像的文本检测区域。

5.根据权利要求4所述的方法，其特征在于，所述依据所述各个顶点的像素点坐标，确定所述原始图像中的各顶点对应的像素点，包括：

依据设定条件更新各个顶点的像素点坐标，以放大由所述顶点组成的多边形面积；

在原始图像中分别确定更新像素点坐标后各顶点对应的像素点。

6.根据权利要求3-5任一所述的方法，其特征在于，所述外接多边形包括所述连通域的最小面积外接四边形。

7.根据权利要求1所述的方法，其特征在于，还包括训练全卷积神经网络的步骤：

获取训练图像；

将所述训练图像输入至全卷积神经网络中，得到最后一个卷积层输出的特征图像；

确定所述训练图像对应的标签图像，对所述最后一个卷积层输出的特征图像与标签图像进行误差计算；

依据所述误差计算的结果调整所述全卷积神经网络的权值。

8.一种图像识别装置，其特征在于，包括：

特征提取模块，用于获取原始图像，采用全卷积神经网络提取所述原始图像的特征得到特征图像；

区域确定模块，用于确定所述特征图像的连通域，依据连通域的像素点坐标确定原始图像的文本检测区域；

文本显示模块，用于依据所述文本检测区域确定文本信息，并显示所述文本信息。

9.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如方法权利要求1-7任一所述的图像识别方法。

10.一种电子设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：