CN111639636A

CN111639636A - 一种字符识别方法及装置

Info

Publication number: CN111639636A
Application number: CN202010477217.7A
Authority: CN
Inventors: 雷晨曦
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-09-08

Abstract

本发明实施例提供了一种字符识别方法及装置，涉及数据处理技术领域，其中，上述方法包括：获得待识别图像；提取上述待识别图像中的特征点；对预设的第一模板图像的特征点和上述待识别图像的特征点进行匹配，并根据匹配结果获得上述第一模板图像中的像素点与上述待识别图像中像素点的第一映射关系，其中，上述第一模板图像中包括第一预设图像内容；根据上述第一映射关系和上述第一模板图像中上述第一预设图像内容之外的第一字符区域，确定上述待识别图像中的待识别字符区域；对所确定的待识别字符区域进行字符识别，得到识别结果。应用本发明实施例提供的方案对图像中的字符进行识别，可以提高字符识别结果的准确度。

Description

一种字符识别方法及装置

技术领域

本发明涉及数据处理技术领域，特别是涉及一种字符识别方法及装置。

背景技术

图像中包含的内容往往比较丰富，一些场景下可能需要对图像中包含的字符进行识别，例如，分析图像内容时，可能需要借助图像中包含的字符对图像内容进行分析，为此，需要对图像中包含的字符进行识别。

现有技术中，识别图像中包含的字符时，首先确定待识别图像中的字符区域，为所确定的字符区域选取二值化阈值，分别将字符区域中各个像素点的像素值与上述二值化阈值进行比较，根据比较结果实现对字符区域的二值化处理。然后对二值化处理后的字符区域进行字符分割，得到各个字符子区域，并对各个字符子区域进行字符识别，得到识别结果。

虽然应用上述方式可以实现字符识别，但当上述字符区域中的背景信息较为复杂时，属于背景信息的像素点的像素值与属于字符的像素点的像素值相近，因此难以选取上述二值化阈值，进而难以区分上述字符区域中属于背景信息的像素点和属于字符的像素点，这样对字符区域进行二值化处理的准确率低，进而导致对图像进行字符识别的准确率低。

发明内容

本发明实施例的目的在于提供一种字符识别方法及装置，以提高图像中字符识别结果的准确度。具体技术方案如下：

第一方面，本发明实施例提供了一种字符识别方法，所述方法包括：

获得待识别图像；

提取所述待识别图像中的特征点；

对预设的第一模板图像的特征点和所述待识别图像的特征点进行匹配，并根据匹配结果获得所述第一模板图像中的像素点与所述待识别图像中像素点的第一映射关系，其中，所述第一模板图像中包括第一预设图像内容；

根据所述第一映射关系和所述第一模板图像中所述第一预设图像内容之外的第一字符区域，确定所述待识别图像中的待识别字符区域；

对所确定的待识别字符区域进行字符识别，得到识别结果。

本发明的一个实施例中，所述根据所述第一映射关系和所述第一模板图像中所述第一预设图像内容之外的第一字符区域，确定所述待识别图像中的待识别字符区域，包括：

根据所述第一映射关系，确定所述第一模板图像在所述待识别图像中的第一映射区域；

提取所述第一映射区域中的特征点；

针对每一预设的第二模板图像，对第二模板图像的特征点和所述第一映射区域的特征点进行匹配，并根据匹配结果获得第二模板图像中的像素点与所述第一映射区域中像素点的第二映射关系，根据所述第二映射关系和第二模板图像中除第二预设图像内容之外的第二字符区域，确定待识别字符区域，其中，各个第二模板图像中包括不同的第二预设图像内容。

本发明的一个实施例中，一张第二模板图像中的第二预设图像内容与所述第一预设图像内容相同。

本发明的一个实施例中，各个第一字符区域为：根据预设的字符宽度、字符高度、字符间距、所述第一预设图像内容与相邻字符之间的间距，确定的最大字符数量个区域。

本发明的一个实施例中，所述对所确定的待识别字符区域进行字符识别，得到识别结果，包括：

对初始值为所述待识别字符区域的待处理信息进行卷积处理，得到第一特征，对所述第一特征进行下采样处理，并将下采样处理后的第一特征作为新的待处理信息，在执行所述卷积处理的次数未达到预设次数时，返回所述对初始值为所述待识别字符区域的待处理信息进行卷积处理的步骤，其中，所述卷积处理包括：采用第一数量个卷积核对所述待处理信息进行第二数量次卷积变换，所述第一数量随着执行所述卷积处理的次数而增大；

对新的待处理信息进行所述卷积处理，得到第二特征；

对所述第二特征进行第三数量次特征融合，得到第四数量维的第三特征，其中，每次进行特征融合的结果所包含的特征的维数逐渐减少；

根据所述第三特征获得对所述待识别图像进行字符识别的识别结果。

第二方面，本发明实施例提供了一种字符识别装置，所述装置包括：

图像获得模块，用于获得待识别图像；

特征点提取模块，用于提取所述待识别图像中的特征点；

关系获得模块，用于对预设的第一模板图像的特征点和所述待识别图像的特征点进行匹配，并根据匹配结果获得所述第一模板图像中的像素点与所述待识别图像中像素点的第一映射关系，其中，所述第一模板图像中包括第一预设图像内容；

区域确定模块，用于根据所述第一映射关系和所述第一模板图像中所述第一预设图像内容之外的第一字符区域，确定所述待识别图像中的待识别字符区域；

字符识别模块，用于对所确定的待识别字符区域进行字符识别，得到识别结果。

本发明的一个实施例中，所述区域确定模块，具体用于：

提取所述第一映射区域中的特征点；

本发明的一个实施例中，所述字符识别模块，具体用于：

对新的待处理信息进行所述卷积处理，得到第二特征；

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面任一所述的方法步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面任一所述的方法步骤。

第五方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面任一所述的方法步骤。

本发明实施例有益效果：

应用本发明实施例提供的方案识别图像中的字符时，获得待识别图像；提取上述待识别图像中的特征点；对预设的第一模板图像的特征点和上述待识别图像的特征点进行匹配，并根据匹配结果获得上述第一模板图像中的像素点与上述待识别图像中像素点的第一映射关系，其中，上述第一模板图像中包括第一预设图像内容；根据上述第一映射关系和上述第一模板图像中上述第一预设图像内容之外的第一字符区域，确定上述待识别图像中的待识别字符区域；对所确定的待识别字符区域进行字符识别，得到识别结果。由于第一模板图像中包括第一预设图像内容，所以，第一模板图像的特征点能够反映第一预设图像内容，这样对第一模板图像的特征点和待识别图像的特征点进行匹配，能够确定出待识别图像中包含第一预设图像内容的区域，从而得到第一模板图像中各像素点到待识别图像中像素点的映射关系。另外，第一模板图像中还包含第一字符区域，因此，基于上述映射关系和第一字符区域，能够准确的确定出待识别图像中的待识别字符区域。在准确确定出待识别字符区域的基础上进行字符识别，能够提高对图像中字符进行识别的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A为本发明实施例提供的第一种字符识别方法的流程示意图；

图1B为本发明实施例提供的一种待识别图像的示意图；

图1C为本发明实施例提供的一种第一模板图像的示意图；

图1D为本发明实施例提供的一种待识别图像与第一模板图像特征点之间匹配结果的示意图；

图1E为本发明实施例提供的一种第一模板图像中第一字符区域的示意图；

图1F为本发明实施例提供的一种待识别字符区域的示意图；

图2A为本发明实施例提供的第二种字符识别方法的流程示意图；

图2B为本发明实施例提供的一种第一映射区域的示意图；

图2C为本发明实施例提供的第一种第二模板图像的示意图；

图2D为本发明实施例提供的第二种第二模板图像的示意图；

图2E为本发明实施例提供的第一种第一映射区域与第二模板图像特征点之间匹配结果的示意图；

图2F为本发明实施例提供的第二种第一映射区域与第二模板图像特征点之间匹配结果的示意图；

图3A为本发明实施例提供的第三种字符识别方法的流程示意图；

图3B为本发明实施例提供的第一种神经网络模型的结构示意图；

图3C为本发明实施例提供的第二种神经网络模型的结构示意图；

图3D为本发明实施例提供的第一种字符识别模型的结构示意图；

图3E为本发明实施例提供的第二种字符识别模型的结构示意图；

图4为本发明实施例提供的一种字符识别装置的结构示意图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于现有技术中对图像中的字符进行识别时，识别结果的准确度较低，为解决这一问题，本发明实施例提供了一种字符识别方法及装置。

获得待识别图像。

提取上述待识别图像中的特征点。

对预设的第一模板图像的特征点和上述待识别图像的特征点进行匹配，并根据匹配结果获得上述第一模板图像中的像素点与上述待识别图像中像素点的第一映射关系，其中，上述第一模板图像中包括第一预设图像内容。

根据上述第一映射关系和上述第一模板图像中上述第一预设图像内容之外的第一字符区域，确定上述待识别图像中的待识别字符区域。

对所确定的待识别字符区域进行字符识别，得到识别结果。

由以上可见，由于第一模板图像中包括第一预设图像内容，所以，第一模板图像的特征点能够反映第一预设图像内容，这样对第一模板图像的特征点和待识别图像的特征点进行匹配，能够确定出待识别图像中包含第一预设图像内容的区域，从而得到第一模板图像中各像素点到待识别图像中像素点的映射关系。另外，第一模板图像中还包含第一字符区域，因此，基于上述映射关系和第一字符区域，能够准确的确定出待识别图像中的待识别字符区域。在准确确定出待识别字符区域的基础上进行字符识别，能够提高对图像中字符进行识别的准确度。

下面通过具体的实施例对本发明实施例提供的字符识别方法及装置进行说明。

参见图1A，本发明实施例提供了第一种字符识别方法的流程示意图，具体的，上述方法包括以下步骤S101-S105。

S101：获得待识别图像。

具体的，上述待识别图像可以为灰度图像，当然也可以是彩色图像，本发明实施例并不对此进行限定。

在上述待识别图像为彩色图像的情况下，为节省计算量，可以先对彩色图像进行灰度处理，得到灰度图像。

参见图1B，提供了一种待识别图像的示意图。

S102：提取上述待识别图像中的特征点。

具体的，可以通过已有的特征提取算法提取待识别图像中的特征点，例如，上述特征提取算法可以是SIFT(Scale Invariant Feature Transform，尺度不变特征变换)特征提取算法、SURF(Speeded Up Robust Features，加速鲁棒特征)特征提取算法、BRISK(Binary Robust Invariant Scalable Keypoints，尺度不变鲁棒二进制特征)特征提取算法等。其中，使用特征提取算法提取的图像特征可以采用相应的特征描述子进行描述。

S103：对预设的第一模板图像的特征点和上述待识别图像的特征点进行匹配，并根据匹配结果获得上述第一模板图像中的像素点与上述待识别图像中像素点的第一映射关系。

其中，上述第一模板图像中包括第一预设图像内容，上述第一模板图像可以为灰度图像。

例如，上述第一预设图像内容可以为预设字符，其中，上述预设字符可以为中文字符、英文字符、数字字符等，例如，上述预设字符可以是中文字符“比赛”、可以是英文字符“可以、可以是数字字符“可以等。上述第一预设图像内容也可以为预设图案，如，圆形图案等。

参见图1C，提供了一种第一模板图像的示意图，其中，“生存”两个字符为上述第一预设图像内容。

本发明的一个实施例中，上述第一模板图像可以通过以下方式得到：

从已有图像中截取包含第一预设图像内容的图像区域，得到初始图像，然后对上述初始图像进行掩膜处理，得到保留上述第一预设图像内容的图像作为第一模板图像。在对初始图像进行掩膜处理时除了保留第一预设图像内容外，还将其他区域的图像内容消除，例如，将其他区域内像素点的像素值设置为0等。

具体的，上述第一模板图像中的特征点可以采用相应的特征描述子进行描述。

一个实施例中，可以使用K邻近算法对上述待识别图像中的特征点与第一模板图像中的特征点进行匹配。

另一个实施例中，也可以使用暴力匹配算法对上述待识别图像中的特征点与第一模板图像中的特征点进行匹配。

例如，参见图1D，提供了一种待识别图像与第一模板图像特征点之间匹配结果的示意图。

其中，图1D左侧带有“生存”的黑底图像为第一模板图像，“生存”两个字符为第一模板图像中的第一预设图像内容，右侧具有丰富的图像内容的图像为上述待识别图像。图中各条直线两侧的圆形分别为第一模板图像与待检测图像中互相匹配的两个特征点。

具体的，由于第一模板图像中包含第一预设图像内容，因此第一模板图像的特征点能够反映第一预设图像内容，这样对第一模板图像的特征点和上述待识别图像的特征点进行匹配，能够确定待识别图像中与第一预设图像内容上特征点相匹配的特征点，从而确定出待识别图像中包含第一预设图像内容的区域。另外，上述第一模板图像的尺寸一般比上述待识别图像小，且第一模板图像中还包括第一预设图像内容之外的其他区域，因此根据第一模板图像中第一预设图像内容内的像素点与待识别图像中第一预设图像内容内的像素点之间的匹配关系，可以确定第一模板图像中各个区域内的像素点与上述待识别图像中像素点的第一映射关系。

本发明的一个实施例中，可以根据上述匹配结果、第一特征点在第一模板图像中的位置与第二特征点在待识别图像中的位置，计算第一模板图像中像素点的位置与待识别图像中像素点的位置之间的第一空间变换矩阵，作为上述第一映射关系。其中，上述第一特征点为第一模板图像的特征点，第二特征点是待识别图像的特征点，且第一特征点与第二特征点为相匹配的特征点。

例如，在齐次坐标系中，上述第一模板图像中像素点的坐标可以表示为：(x，y，1)^T，上述待识别图像中的像素点的坐标可以表示为：(x₁，y₁，1)^T，在仅考虑仿射变换时，上述第一空间变换矩阵M可以表示为：

其中，上述x为第一模板图像中的像素点在第一模板图像的坐标系中的横坐标，y为第一模板图像中的像素点在第一模板图像的坐标系中的纵坐标，x₁为待识别图像中的像素点在待识别图像的坐标系中的横坐标，y₁为待识别图像中的像素点在待识别图像的坐标系中的纵坐标。

(a，d，0)^T和(b，e，0)^T为第一模板图像中像素点的坐标映射到待识别图像中像素点的坐标的过程中基向量的变化向量，(c，f，1)^T为第一模板图像中像素点的坐标映射到待识别图像中像素点的坐标的过程中坐标原点的变化向量，上述a、b、c、d、e和f为变化向量中的元素。

基于上述内容，一种实现方式中，上述第一模板图像中像素点的坐标、待识别图像中像素点的坐标与第一空间变换矩阵之间的关系为：(x₁，y₁，1)^T＝M(x，y，1)^T。

S104：根据上述第一映射关系和上述第一模板图像中上述第一预设图像内容之外的第一字符区域，确定上述待识别图像中的待识别字符区域。

具体的，上述第一模板图像中的第一字符区域可以为一个或多个。参见图1E，提供了一种第一模板图像中第一字符区域的示意图。其中，矩形框框出的部分为上述第一字符区域。

一个实施例中，各个第一字符区域可以为：根据预设的字符宽度、字符高度、字符间距、上述第一预设图像内容与相邻字符之间的间距，确定的最大字符数量个区域。

上述第一字符区域可以以第一字符区域的边缘上的各个像素点的位置表示，或以标记像素点的位置表示。例如，若上述第一字符区域为矩形区域，则上述标记像素点可以为第一字符区域的左上角像素点与右下角像素点。

例如，若上述第一字符区域为矩形区域，上述第一模板图像的宽度为w、高度为h，则上述预设的字符宽度可以为0.2w、字符高度为0.6h、字符间距为0.05w、上述第一预设图像内容与相邻字符之间的间距为0.05w，最大字符数量为3。

则在齐次坐标系中，上述第一字符区域可以通过左上角像素点的位置(0.2h，0.35w，1)、右下角像素点的位置(0.8h，0.55w，1)表示。

由于上述第一模板图像中的像素点与待识别图像中像素点之间存在第一映射关系，因此，可以根据上述第一映射关系，在上述待识别图像中确定出与第一模板图像内第一字符区域中像素点对应的各个像素点，从而得到待识别图像中的待识别字符区域。

本发明的一个实施例中，上述第一映射关系可以以第一空间变换矩阵的形式表示，这样将第一字符区域中像素点的位置乘以第一空间变换矩阵可以在上述待识别图像中确定与第一字符区域中像素点对应的像素点，从而确定待识别字符区域。

参见图1F，提供了一种待识别字符区域的示意图，其中，各个矩形图像内容为各个待识别字符区域。

另外，在上述待识别图像中、与第一模板图像相对应的图像区域内存在多个包含字符的子区域的情况下，可以通过步骤S104A-S104C在多个包含字符的子区域中分别确定上述待识别字符区域，在此暂不详述。

S105：对所确定的待识别字符区域进行字符识别，得到识别结果。

具体的，在上述第一字符区域为最大字符数量个区域的情况下，不管待识别图像中待识别字符的实际数量是否未达到最大字符数量，所确定出的待识别字符区域的数量均为上述最大字符数量，这样在上述实际数量小于最大字符数量的情况下，上述待识别字符区域中会包括实际上不包含字符的区域。这样在对待识别字符区域进行字符识别时，不仅对实际包含字符的待识别字符区域进行字符识别，还要对实际不包含字符的待识别字符区域进行字符识别。

本发明的一个实施例中，参见图2A，提供了第二种字符识别方法的流程示意图，与前述图1A所示的实施例相比，在上述待识别图像中、与第一模板图像相对应的图像区域内存在多个包含字符的子区域的情况下，本实施例中上述步骤S104可以通过步骤S104A-S104C实现。

例如，在篮球比赛现场图像中，比赛双方队伍A与队伍B的得分分别显示，因此首先可以基于包含“得分”两个字符作为第一预设图像内容的第一模板图像，在待识别图像中确定出包含双方得分的得分栏所在的图像区域，再基于分别包含以“队伍A得分”五个字符和“队伍B得分”五个字符作为第二预设图像内容的第二模板图像在上述得分栏所在的图像区域中分别确定出队伍A的得分所在的子区域与队伍B的得分所在的子区域，再在上述两个子区域中确定待识别字符区域。

S104A：根据上述第一映射关系，确定上述第一模板图像在上述待识别图像中的第一映射区域。

具体的，根据上述第一模板图像中像素点的位置与上述第一映射关系，确定上述第一模板图像中的像素点在上述待识别图像中的对应像素点，从而确定上述待识别图像中的第一映射区域。

参见图2B，提供了一种第一映射区域的示意图。

S104B：提取上述第一映射区域中的特征点。

具体的，可以使用特征提取算法提取第一映射区域中的特征点，所提取的特征点可以采用相应的特征描述子进行描述。

S104C：针对每一预设的第二模板图像，对第二模板图像的特征点和上述第一映射区域的特征点进行匹配，并根据匹配结果获得第二模板图像中的像素点与上述第一映射区域中像素点的第二映射关系，根据上述第二映射关系和第二模板图像中除第二预设图像内容之外的第二字符区域，确定待识别字符区域。

其中，第二模板图像的数量可以不小于2，各个第二模板图像中包括不同的第二预设图像内容。

具体的，由于上述各个第二模板图像中包括不同的第二预设图像内容，因此根据各个第二模板图像，在上述第一映射区域中确定的与各个第二模板图像存在第二映射关系的区域各不相同。进一步的，根据上述第二映射关系和第二模板图像中除第二预设图像内容之外的第二字符区域，确定的待识别字符区域也各不相同。

另外，本发明的一个实施例中，一张第二模板图像中的第二预设图像内容可以与上述第一预设图像内容相同。

参见图2C，提供了第一种第二模板图像的示意图，其中，第二预设图像内容为“淘汰了”三个字符。

参见图2D，提供了第二种第二模板图像的示意图，其中，第二预设图像内容为“生存”两个字符，与上述图1C中包含的第一预设图像内容相同。

参见图2E，提供了第一种第一映射区域与第二模板图像特征点之间匹配结果的示意图。

其中，图2E左侧带有的“淘汰了”的黑底图像为第二模板图像，“淘汰了”三个字符为第二模板图像中的第二预设图像内容，右侧具有丰富的图像内容的图像为上述第一映射区域。图中各条直线两侧的圆形分别为第二模板图像与第一映射区域中互相匹配的两个特征点。

参见图2F，提供了第二种第一映射区域与第二模板图像特征点之间匹配结果的示意图。

其中，图2F左侧的带有“生存”的黑底图像为第二模板图像，“生存”两个字符为第二模板图像中的第二预设图像内容，右侧具有丰富的图像内容的图像为上述第一映射区域。图中各条直线两侧的圆形分别为第二模板图像与第一映射区域中互相匹配的两个特征点。

具体的，将图1C作为第一模板图像，以图1C中的“生存”两个字符作为上述第一预设图像内容，在上述图1D所示的待识别图像中确定出图2B所示的第一字符区域。以图2C作为第二模板图像，以图2C中的“淘汰了”三个字符作为上述第二预设图像内容，以图2D作为另一个第二模板图像，以图2D中的“生存”两个字符作为上述第二预设图像内容。

根据图2C与图2B的对应关系、图2D与图2B的对应关系分别确定上述待识别字符区域，图1F示出了上述待识别字符区域。其中，左侧的两个矩形图像区域为根据图2C与图2B的对应关系确定出的待识别字符区域，右侧的三个矩形图像区域为根据图2D与图2B的对应关系确定出的待识别字符区域。

由以上可见，首先根据上述第一映射关系确定出待识别图像中的第一映射区域，再根据各个第二模板图像与第一映射区域的第二映射关系确定上述待识别字符区域。由于第一模板图像的尺寸一般比上述待识别图像小，因此根据上述第一模板图像与上述第一映射关系确定的上述第一映射区域为待识别图像中的一部分，因此与直接在尺寸较大的待识别图像中确定待识别字符区域相比，在确定出尺寸较小的第一映射区域的基础上再确定待识别字符区域的准确度更高。

本发明的一个实施例中，参见图3A，提供了第三种字符识别方法的流程示意图，与前述图1A所示的实施例相比，本实施例中上述步骤S105可以通过步骤S105A-S105D实现。

S105A：对初始值为上述待识别字符区域的待处理信息进行卷积处理，得到第一特征。

其中，上述卷积处理包括：采用第一数量个卷积核对上述待处理信息进行第二数量次卷积变换，上述第一数量随着执行上述卷积处理的次数而增大。

具体的，通过上述卷积处理对待处理信息进行特征提取，上述卷积处理可以通过神经网络模型中的卷积层实现，每执行第二数量次卷积变换视为执行一次上述卷积处理。

例如，上述预设次数可以为2次。上述第一数量可以为32个，随着执行上诉卷积处理，上述第一数量可以增大到64个、128个。上述卷积核可以为3可以卷积核。

S105B：对上述第一特征进行下采样处理，并将下采样处理后的第一特征作为新的待处理信息。

通过上述下采样处理可以缩小待处理信息的尺寸，从而降低神经网络模型的运算量，并且由于待处理信息的尺寸变小，因此待处理信息中用于表示各个特征的信息的尺寸变小，待处理信息中包含的特征变得更为抽象，从而提高神经网络模型对抽象的特征的识别能力，上述下采样处理可以通过神经网络模型中的池化层实现。

例如，上述池化层可以使用最大池化方法对待处理信息进行池化处理。

S105C：判断上述卷积处理的次数是否达到预设次数，若未达到则返回执行上述步骤S105A，否则继续执行步骤S105D。

S105D：对新的待处理信息进行上述卷积处理，得到第二特征。

具体的，上述卷积处理可以通过神经网络模型中的卷积层实现，上述卷积处理的卷积核的第一数量比上述步骤S105C中、达到预设次数时卷积处理的卷积核的第一数量大。

S105E：对上述第二特征进行第三数量次特征融合，得到第四数量维的第三特征。

其中，每次进行特征融合的结果所包含的特征的维数逐渐减少。

具体的，上述特征融合可以通过神经网络模型中的全连接层实现，上述第四数量与识别结果的种类数量相同。

例如，上述第三数量可以为2次、3次等，上述第四数量可以为11维、10维等。

S105F：根据上述第三特征获得对上述待识别图像进行字符识别的识别结果。

具体的，根据提取到的第三特征与字符在图像中的实际特征获得对上述待识别图像进行字符识别的识别结果。本发明的一个实施例中，上述步骤S105A-S105F可以通过神经网络模型实现。

参见图3B，提供了第一种神经网络模型的结构示意图。

上述神经网络模型包括上述预设次数加1个卷积层组，每一卷积层组中包括第二数量个卷积层、且各个卷积层依次串联连接，除最后一个卷积层组外，每一卷积层组中的最后一个卷积层与一个池化层连接，且上述池化层与下一个卷积层组中的第一个卷积层连接。最后一个卷积层组中的最后一个卷积层与第三数量个全连接层连接，最后一个全连接层与分类函数连接。

使用上述神经网络模型进行字符识别的流程如下：将待识别字符区域作为待处理信息的初始值，将待处理信息输入第一个卷积层中，卷积层将特征提取后的待处理信息输入下一个卷积层，每第二数量个卷积层对应上述一次卷积处理，每次卷积处理中最后一个卷积层与池化层相连，池化层获得来自卷积层的待处理信息后对上述待处理信息进行下采样处理，并将池化处理后的待处理信息输入下一个卷积层，进行下一次卷积处理与池化处理，上述卷积处理与池化处理共进行预设次数次，且每执行一次上述卷积处理与池化处理之后上述卷积层中的卷积核个数增加。

最后一个池化层对待处理信息进行下池化处理后，将池化处理后的待处理信息输入下一个卷积层，进行下一次卷积处理，得到第二特征。

最后一个卷积层与全连接层相连，最后一个卷积层将第二特征输入全连接层中，全连接层对第二特征进行一次特征融合处理，并将特征融合处理后的第二特征输入下一个全连接层，进行下一次特征融合处理，共通过第三数量个全连接层进行第三数量次特征融合处理，得到第三特征。

最后一个全连接层与分类函数相连，分类函数获得第三特征后输出识别结果。

本发明的一个实施例中，参见图3C，提供了第二种神经网络模型的结构示意图。

其中，与图3B相比，图3C在第一个全连接层之前增加了一个Dropout层。

在样本集中的样本图像数量较少时，通过Dropout层的Dropout操作随机删除全连接层中部分神经元与输入特征之间的连接，再进行特征融合可以控制模型训练过程中的过拟合问题。

具体的，上述神经网络模型可以为字符识别模型。参见图3D，提供了第一种字符识别模型的结构示意图。

其中，与图3B相比，每个卷积层与一个ReLU(Rectified Linear Unit，线性整流单元)层相连，ReLU层具有非线性映射的功能，卷积层在进行特征提取处理之后将待处理信息输入ReLU层中，ReLU层进行激活处理后将待处理信息输入下一个卷积层、池化层或全连接层，该操作增加了特征的非线性，从而提高了模型的特征表达能力。

将待识别字符区域作为待处理信息的初始值输入第一个包含32个3×3卷积核的卷积层，卷积层对待处理信息进行特征提取处理后将待处理信息输入ReLU层中，ReLU层对待处理信息进行激活处理后将待处理信息输入下一个卷积层，再次通过一个卷积层对待处理信息进行特征提取处理、一个ReLU层对待处理信息进行激活处理后，将待处理信息输入池化层，上述池化层使用最大值池化的方法。

将上述两个卷积层与ReLU层对待处理数据的处理视为一次卷积处理，将上述一个池化层对待处理数据的处理视为一次下采样处理。

第一个池化层与第二次卷积处理的卷积层相连，第二次卷积处理中第二个ReLU层与第二个池化层相连。第二次卷积处理中的卷积层包含64个3×3卷积核，与第一次卷积处理相比第二次卷积处理中的卷积层的卷积核数量加倍。

第二个池化层与第三次卷积处理的卷积层相连，第三次卷积处理中的卷积层包含128个3×3卷积核，与第二次卷积处理相比第三次卷积处理中的卷积层的卷积核数量加倍。

第三次卷积处理中第二个ReLU层与第一个全连接层相连，全连接层对第三次卷积处理之后得到的第二特征进行第一次特征融合，并将第一次特征融合的结果输入第二个全连接层，进行第二次特征融合。

由于进行特征提取后得到的第二特征中包含大量特征，若直接将上述第二特征融合为11维第三特征，会造成较大的特征损失，因此先将上述第二特征融合为128维第三特征，再融合为11维第三特征，从而降低了特征损失。

最后，根据上述第三特征，通过Softmax获得上述识别结果。在上述字符识别模型用于识别图像中的数字字符的情况下，获得的识别结果包括“0”-“9”10类数字识别结果与1类不包含字符的识别结果，共11类识别结果。

参见图3E，提供了第二种字符识别模型的结构示意图。

与图3D相比，图3E在全连接层之前增加了一个Dropout层。

在样本集中的样本图像数量较少时，通过Dropout层的Dropout操作随机删除全连接层中部分神经元与输入特征之间的连接再进行特征融合可以控制模型训练过程中的过拟合问题。

由以上可见，通过上述卷积处理、下采样处理、特征融合，获得待识别字符区域的第二特征，可以根据第二特征获得字符识别的识别结果。从而通过上述方式能够实现对待识别图像中字符的识别。

与上述字符识别方法相对应，本发明实施例还提供了一种字符识别装置。

参见图4，本发明实施例提供了一种字符识别装置的结构示意图，具体的，上述装置包括：

图像获得模块401，用于获得待识别图像；

特征点提取模块402，用于提取所述待识别图像中的特征点；

关系获得模块403，用于对预设的第一模板图像的特征点和所述待识别图像的特征点进行匹配，并根据匹配结果获得所述第一模板图像中的像素点与所述待识别图像中像素点的第一映射关系，其中，所述第一模板图像中包括第一预设图像内容；

区域确定模块404，用于根据所述第一映射关系和所述第一模板图像中所述第一预设图像内容之外的第一字符区域，确定所述待识别图像中的待识别字符区域；

字符识别模块405，用于对所确定的待识别字符区域进行字符识别，得到识别结果。

本发明的一个实施例中，所述区域确定模块404，具体用于：

提取所述第一映射区域中的特征点；

由以上可见，首先根据上述第一映射关系确定出待识别图像中的第一映射区域，再根据各个第二模板图像与第一映射区域的第二映射关系确定上述待识别字符区域。由于第一模板图像的尺寸比上述待识别图像小，因此根据上述第一模板图像与上述第一映射关系确定的上述第一映射区域为待识别图像中的一部分，因此与直接在尺寸较大的待识别图像中确定待识别字符区域相比，在确定出尺寸较小的第一映射区域的基础上再确定待识别字符区域的准确度更高。

本发明的一个实施例中，所述字符识别模块405，具体用于：

对新的待处理信息进行所述卷积处理，得到第二特征；

本发明实施例还提供了一种电子设备，如图5所示，包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信，

存储器503，用于存放计算机程序；

处理器501，用于执行存储器503上所存放的程序时，实现任一字符识别方法实施例所述的方法步骤。

应用本发明实施例提供的电子设备识别图像中的字符时，获得待识别图像；提取上述待识别图像中的特征点；对预设的第一模板图像的特征点和上述待识别图像的特征点进行匹配，并根据匹配结果获得上述第一模板图像中的像素点与上述待识别图像中像素点的第一映射关系，其中，上述第一模板图像中包括第一预设图像内容；根据上述第一映射关系和上述第一模板图像中上述第一预设图像内容之外的第一字符区域，确定上述待识别图像中的待识别字符区域；对所确定的待识别字符区域进行字符识别，得到识别结果。由于第一模板图像中包括第一预设图像内容，所以，第一模板图像的特征点能够反映第一预设图像内容，这样对第一模板图像的特征点和待识别图像的特征点进行匹配，能够确定出待识别图像中包含第一预设图像内容的区域，从而得到第一模板图像中各像素点到待识别图像中像素点的映射关系。另外，第一模板图像中还包含第一字符区域，因此，基于上述映射关系和第一字符区域，能够准确的确定出待识别图像中的待识别字符区域。在准确确定出待识别字符区域的基础上进行字符识别，能够提高对图像中字符进行识别的准确度。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、图形处理器(Graphics Processing Unit,GPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一字符识别方法实施例所述的方法步骤。

执行应用本实施例提供的计算机可读存储介质中存储的计算机程序识别图像中的字符时，获得待识别图像；提取上述待识别图像中的特征点；对预设的第一模板图像的特征点和上述待识别图像的特征点进行匹配，并根据匹配结果获得上述第一模板图像中的像素点与上述待识别图像中像素点的第一映射关系，其中，上述第一模板图像中包括第一预设图像内容；根据上述第一映射关系和上述第一模板图像中上述第一预设图像内容之外的第一字符区域，确定上述待识别图像中的待识别字符区域；对所确定的待识别字符区域进行字符识别，得到识别结果。由于第一模板图像中包括第一预设图像内容，所以，第一模板图像的特征点能够反映第一预设图像内容，这样对第一模板图像的特征点和待识别图像的特征点进行匹配，能够确定出待识别图像中包含第一预设图像内容的区域，从而得到第一模板图像中各像素点到待识别图像中像素点的映射关系。另外，第一模板图像中还包含第一字符区域，因此，基于上述映射关系和第一字符区域，能够准确的确定出待识别图像中的待识别字符区域。在准确确定出待识别字符区域的基础上进行字符识别，能够提高对图像中字符进行识别的准确度。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一字符识别方法实施例所述的方法步骤。

执行本实施例提供的计算机程序产品识别图像中的字符时，获得待识别图像；提取上述待识别图像中的特征点；对预设的第一模板图像的特征点和上述待识别图像的特征点进行匹配，并根据匹配结果获得上述第一模板图像中的像素点与上述待识别图像中像素点的第一映射关系，其中，上述第一模板图像中包括第一预设图像内容；根据上述第一映射关系和上述第一模板图像中上述第一预设图像内容之外的第一字符区域，确定上述待识别图像中的待识别字符区域；对所确定的待识别字符区域进行字符识别，得到识别结果。由于第一模板图像中包括第一预设图像内容，所以，第一模板图像的特征点能够反映第一预设图像内容，这样对第一模板图像的特征点和待识别图像的特征点进行匹配，能够确定出待识别图像中包含第一预设图像内容的区域，从而得到第一模板图像中各像素点到待识别图像中像素点的映射关系。另外，第一模板图像中还包含第一字符区域，因此，基于上述映射关系和第一字符区域，能够准确的确定出待识别图像中的待识别字符区域。在准确确定出待识别字符区域的基础上进行字符识别，能够提高对图像中字符进行识别的准确度。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质和计算机程序产品而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种字符识别方法，其特征在于，所述方法包括：

获得待识别图像；

提取所述待识别图像中的特征点；

对所确定的待识别字符区域进行字符识别，得到识别结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一映射关系和所述第一模板图像中所述第一预设图像内容之外的第一字符区域，确定所述待识别图像中的待识别字符区域，包括：

提取所述第一映射区域中的特征点；

3.根据权利要求2所述的方法，其特征在于，

一张第二模板图像中的第二预设图像内容与所述第一预设图像内容相同。

4.根据权利要求1所述的方法，其特征在于，各个第一字符区域为：根据预设的字符宽度、字符高度、字符间距、所述第一预设图像内容与相邻字符之间的间距，确定的最大字符数量个区域。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述对所确定的待识别字符区域进行字符识别，得到识别结果，包括：

对新的待处理信息进行所述卷积处理，得到第二特征；

6.一种字符识别装置，其特征在于，所述装置包括：

图像获得模块，用于获得待识别图像；

特征点提取模块，用于提取所述待识别图像中的特征点；

7.根据权利要求6所述的装置，其特征在于，所述区域确定模块，具体用于：

提取所述第一映射区域中的特征点；

8.根据权利要求6或7所述的装置，其特征在于，所述字符识别模块，具体用于：

对新的待处理信息进行所述卷积处理，得到第二特征；

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。