CN110738602B

CN110738602B - 图像处理方法、装置、电子设备及可读存储介质

Info

Publication number: CN110738602B
Application number: CN201910866716.2A
Authority: CN
Inventors: 李楠; 张睿
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2021-01-01
Anticipated expiration: 2039-09-12
Also published as: CN110738602A

Abstract

本申请实施例提供了一种图像处理方法、装置、电子设备及可读存储介质，旨在降低文字识别结果的错误率。所述方法包括：对待处理图像进行目标区域检测，得到所述待处理图像上包含文本图像的目标区域；根据所述包含文本图像的目标区域，对所述待处理图像进行剪裁，得到包含所述文本图像的子图像；对所述子图像中的所述文本图像进行角点预测，得到所述文本图像的角点位置信息；根据所述文本图像的角点位置信息，确定针对所述文本图像的矫正参数，并根据所述矫正参数对所述文本图像进行投影矫正，获得投影矫正后的目标文本图像；对所述目标文本图像进行文字识别，获得该本文图像中的文字信息。

Description

图像处理方法、装置、电子设备及可读存储介质

技术领域

本申请实施例涉及数据处理技术领域，尤其涉及一种图像处理方法、装置、电子设备及可读存储介质。

背景技术

随着数据处理领域中图像处理技术的发展，越来越多的用户或企业开始借助图像处理技术对图像中的文字进行识别，旨在获得图像中的文字信息。以电商业务为例，商户将营业执照照片和身份证照片上传电商平台后，电商平台为了快速录入营业执照和身份证中的文字信息，通常借助现有的图像处理技术，对商户上传的照片进行文字识别，然后对识别出的文字信息进行人工核对和修正，最后将核对和修改后的文字信息保存，从而完成对营业执照和身份证中文字信息的录入。

目前的图像处理技术在进行文字识别时，识别结果的错误率较高，为了更正错位结果，需要投入较大的人力对识别结果进行审核和修正。这不仅导致信息录入效率低，还增加了信息录入成本，因此目前的图像处理技术的实用性较低。

发明内容

本申请实施例提供一种图像处理方法、装置、电子设备及可读存储介质，旨在降低文字识别结果的错误率。

本申请实施例第一方面提供了一种图像处理方法，所述方法包括：

对待处理图像进行目标区域检测，得到所述待处理图像上包含文本图像的目标区域；

根据所述包含文本图像的目标区域，对所述待处理图像进行剪裁，得到包含所述文本图像的子图像；

对所述子图像中的所述文本图像进行角点预测，得到所述文本图像的角点位置信息；

根据所述文本图像的角点位置信息，确定针对所述文本图像的矫正参数，并根据所述矫正参数对所述文本图像进行投影矫正，获得投影矫正后的目标文本图像；

对所述目标文本图像进行文字识别，获得所述目标文本图像中的文字信息。

本申请实施例第二方面提供一种图像处理装置，所述装置包括：

目标区域检测模块，用于对待处理图像进行目标区域检测，得到所述待处理图像上包含文本图像的目标区域；

待处理图像剪裁模块，用于根据所述包含文本图像的目标区域，对所述待处理图像进行剪裁，得到包含所述文本图像的子图像；

角点预测模块，用于对所述子图像中的所述文本图像进行角点预测，得到所述文本图像的角点位置信息；

投影矫正模块，用于根据所述文本图像的角点位置信息，确定针对所述文本图像的矫正参数，并根据所述矫正参数对所述文本图像进行投影矫正，获得投影矫正后的目标文本图像；

文字识别模块，用于对所述目标文本图像进行文字识别，获得所述目标文本图像中的文字信息。

本申请实施例第三方面提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如本申请第一方面所述的方法中的步骤。

本申请实施例第四方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请第一方面所述的方法的步骤。

采用本申请实施例提供的图像处理方法，通过对待处理图像中的文本图像进行区域检测，确定文本图像所在的目标区域。然后剪裁出该目标区域，得到包含文本图像的子图像，从而裁掉待处理图像中的部分干扰图像。再对所述子图像进行角点预测，得到文本图像的角点位置信息，从而更精确地确定出文本图像在子图像中的位置，进一步锁定识别区域。接着根据角点位置信息确定文本图像的矫正参数，从而对文本图像进行投影矫正，得到目标文本图像，使文本图像中产生形变和/或旋转的文字被矫正为水平的正常字形，有利于提高文字识别准确率。最后对目标文本图像进行文字识别，输出错误率较低的文字识别结果。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提出的模型训练的流程图；

图2是本申请一实施例提出的样本图像的示意图；

图3是本申请一实施例提出的确定第二标记的示意图；

图4是本申请一实施例提出的图像处理方法的流程图；

图5示出了待处理图像经过目标区域检测后的示意图；

图6是本申请一实施例提出的目标区域扩展示意图；

图7是本本申请一实施例提出的角点预测流程图；

图8是本申请一实施例提出的文本图像投影矫正示意图；

图9是本申请一实施例提出的确定目标角点位置的示意图；

图10是本申请一实施例提供的图像处理装置的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，均应属于本申请保护的范围。

随着数据处理领域中图像处理技术的发展，越来越多的用户或企业开始借助图像处理技术对图像中的文字进行识别，旨在获得图像中的文字信息。目前的图像处理技术在进行文字识别时，识别结果的错误率较高，为了更正错位结果，需要投入较大的人力对识别结果进行审核和修正。这不仅导致信息录入效率低，还增加了信息录入成本，因此目前的图像处理技术的实用性较低。

有鉴于此，本申请的至少一个实施例提出：通过对待处理图像中的文本图像进行区域检测，确定文本图像所在的目标区域。然后剪裁出该目标区域，得到包含文本图像的子图像，从而裁掉待处理图像中的部分干扰图像。再对所述子图像进行角点预测，得到文本图像的角点位置信息，从而更精确地确定出文本图像在子图像中的位置，进一步锁定识别区域。接着根据角点位置信息确定文本图像的矫正参数，从而对文本图像进行投影矫正，得到目标文本图像，使文本图像中产生形变和/或旋转的文字被矫正为水平的正常字形，有利于提高文字识别准确率。最后对目标文本图像进行文字识别，从而输出错误率较低的文字识别结果。

为了更智能地实施本申请上述的实施例提出的上述方法，可以预先建立第一预设模型和第二预设模型，然后采集合适的训练样本对第一预设模型和第二预设模型进行训练，得到用于检测文本图像所在区域的目标检测模型，以及用于预测文本图像角点位置的角点预测模型。该目标检测模型和角点预测模型可作为一种可选手段，用于执行本申请提出的上述方法中的部分步骤。

其中，第一预设模型的结构可选用现有检测模型的结构，如RPN(RegionProposalNetwork)、SSD(Single Shot MultiBox Detector)、YOLO等网络结构。第二预设模型的结构可选用CNN卷积神经网络。

参考图1，图1是本申请一实施例提出的模型训练的流程图。如图1所示，该训练流程包括以下步骤：

步骤S11：获得多张包含文本图像的样本图像，每张所述样本图像携带第一标记，该第一标记表征该样本图像包含的所述文本图像的各角点的位置信息。

本实施例中，文本图像是指包含文字的证件、执照、证书、票据、书籍等的图像。例如身份证、学生证、工作证、护照、驾照、营业执照、经营许可证、从业资格证、车票、发票、书籍封面等的图像。

样本图像是指除了包含文本图像，还包含其他环境图像的图像。参考图2，图2是本申请一实施例提出的样本图像的示意图。如图2所示，样本图像01中包括文本图像02和环境图像03。

如图2所示，本实施例中，可以将每张样本图像的左下角作为平面直角坐标系的原点，第一标记可以是文本图像的各个角点在该平面直角坐标系中的坐标。此外，每张样本图像还可以携带文本图像的矩形标注框信息，该矩形标注框信息记录了矩形标注框左上角和右下角在该平面直角坐标系中的坐标。或者，该矩形标注框信息记录了矩形标注框左上角在该平面直角坐标系中的坐标、以及该矩形标注框的长度和宽度。

步骤S12：针对所述多张样本图像中的每张携带第一标记的样本图像，执行步骤：基于该携带第一标记的样本图像，对第一预设模型进行训练，得到所述第一预设模型输出的所述样本图像上包含文本图像的预测目标区域；以所述预测目标区域为剪裁区域，对该样本图像进行剪裁，得到包含文本图像的样本子图像；基于所述样本子图像，对第二预设模型进行训练。

本实施例中，基于每张样本图像对第一预设模型进行训练时，可以首先对该样本图像的图像通道进行统一，例如将该样本图像统一为3通道的RGB图像，然后将该样本图像输入第一预设模型，第一预设模型输出对该样本图像中文本图像所在区域的矩形检测框信息，即预测目标区域。其中，该矩形检测框信息可以包括矩形检测框左上角和右下角各自的坐标。然后利用该矩形检测框信息，以及该样本图像携带的矩形标注框信息，确定损失值，从而对第一预设模型进行更新。

或者，该矩形检测框信息可以包括矩形检测框左上角的坐标、以及该矩形检测框的长度和宽度。然后利用该矩形检测框信息，以及该样本图像携带的矩形标注框信息，确定损失值，从而对第一预设模型进行更新。

基于该张样本图像对第二预设模型进行训练时，可以根据检测信息包括的四个角点的坐标，对该样本图像进行剪裁。换言之，以预测目标区域为剪裁区域，对该样本图像进行剪裁，得到包含文本图像的样本子图像。其中，样本子图像即是预测目标区域。

其中，为了增加样本数据的多样性，从而使训练得到的角点预测模型更具适应性和泛化性，在对样本图像进行剪裁时，可以随机或根据预设规则对所述预测目标区域进行调整，得到调整后的预测目标区域；以所述调整后的预测目标区域为剪裁区域，对所述样本图像进行剪裁，得到包含文本图像的样本子图像。

应当理解的，本申请对预测目标区域进行调整的目的在于：增加样本数据的多样性。在实现上述目的的前提下，本申请对调整的具体方式不做限定。例如，调整后的预测目标区域相比于调整前的预测目标区域，其左侧边框向内移动距离L1，其右侧的边框向外移动距离R1，其上侧的边框向内移动距离T1，其下侧的边框向外移动距离B1。或者，调整后的预测目标区域相比于调整前的预测目标区域，其左侧边框向外移动距离L2，其右侧的边框向外移动距离R2，其上侧的边框向外移动距离T2，其下侧的边框向内移动距离B2。

继续基于该张样本图像对第二预设模型进行训练，在得到包含文本图像的样本子图像后，基于该样本子图像，对第二预设模型进行训练。

其中，一种具体的训练方式可以包括以下子步骤：

步骤S12-1：根据所述携带第一标记的样本图像和所述预测目标区域，确定所述样本子图像的第二标记，该第二标记表征该样本子图像包含的文本图像的各角点在该样本子图像上的位置信息。

步骤S12-2：将携带第二标记的样本子图像输入所述第二预设模型，得到所述第二预设模型预测的位置信息。

步骤S12-3：根据所述第二预设模型预测的位置信息与所述第二标记表征的位置信息，更新所述第二预设模型。

示例地，参考图3，图3是本申请一实施例提出的确定第二标记的示意图。如图3所示，样本图像的第一标记用于表征文本图像四个角点的各自坐标，四个坐标分别为(2.5,2.3)、(2.8,3.9)、(5.9,3.8)以及(5.4,1.8)。如图3所示，第一预设模型输出的预测目标区域，或者经过调整的预测目标区域(图3中的虚线框)的左下角的坐标为(1.5,1.0)。如此，根据预测目标区域从样本图像中剪裁出样本子图像后，以样本子图像的左下角为原点建立平面直角坐标系，第二标记表征文本图像四个角点在该坐标系中各自的坐标，如图3所示四个新的坐标分别为(1.0,1.3)、(1.3,2.9)、(4.4,2.8)以及(3.9,0.8)。

其中，每个新坐标为：原坐标减去预测目标区域左下角坐标后所得的坐标。以文本图像左上角为例，第一标记中文本图像左上角的原坐标为(2.8,3.9)，预测目标区域的左下角的坐标为(1.5,1.0)。如此，第二标记中文本图像左上角的新坐标的x值为2.8-1.5，等于1.3；y值为3.9-1.0，等于2.9。

在确定样本子图像的第二标记后，将样本子图像进行尺寸标准化处理，使各样本子图像被处理成相同的图片大小。然后对尺寸标准化处理后的样本子图像中的第二标记进行修正。示例地，尺寸标准化处理前的样本子图像的长度为2、宽度为1，尺寸标准化处理后的样本子图像的长度为1、宽度也为1，则调整后的第二标记中左上角的坐标被调整为(1.3/2,2.9/1)，即(0.65,2.9)。将携带调整后的第二标记的样本子图像输入第二预设模型。第二预设模型预测文本图像在样本子图像中的位置信息，并输出该位置信息。示例地，第二预设模型预测的位置信息是文本图像各角点的坐标。

最后，根据第二预设模型预测的位置信息与第二标记表征的位置信息，确定损失值，并根据该损失值更新模型。具体地，根据以下公式，确定所述第二预设模型在每次训练中的损失值loss:

其中，i表示文本图像的角点编号，

表示文本图像第i个角点的第二标记中的标注横向坐标，

表示文本图像第i个角点的第二标记中的标注纵向坐标，

表示文本图像第i个角点的预测横向坐标，

表示文本图像第i个角点的预测纵向坐标。

沿用上述示例，第二标记(编号i等于2)中，文本图像左上角的坐标为(0.65,2.9)，即

假设文本图像左上角的预测坐标为(0.85,1.7)，即

由于

即

的绝对值等于0.2，

的绝对值小于1，因此

由于

即

的绝对值等于1.2，

的绝对值大于1，因此

针对文本图像的每个角点按照上述示例分别计算出其横向坐标的smooth_L1值和纵向坐标的smooth_L1值后，将8个smooth_L1值进行累加，得到该轮训练中的损失值loss。

每轮训练结束后，保存该轮训练结束时的第二预设模型。将多次训练中损失值loss最小的一次训练所对应的第二预设模型，确定为更新后的模型。示例地，没经过20轮训练后，将保存的20个第二预设模型中损失值loss最小的第二预设模型确定为更新后的模型。并基于该模型，重复前述训练流程。

步骤S13：将经过多次训练的第一预设模型确定为所述目标检测模型，将经过多次训练的第二预设模型确定为所述角点预测模型。

示例地，例如在经过多轮训练后，将预先准备的测试样本输入第一预设模型，根据第一预设模型的输出，测试第一预设模型对文本图像所在区域的检测准确性。在第一预设模型输出结果的准确率较高的情况下，可以将该第一预设模型确定为所述目标检测模型。

然后将该第一预设模型的输出作为测试样本，输入第二预设模型，根据第二预设模型的输出，测试第二预设模型对文本图像角点位置的预测准确性。在第二预设模型输出结果的准确率较高的情况下，可以将该第二预设模型确定为所述角点预测模型。

经过上述步骤S11至步骤S13，训练得到了用于检测文本图像所在区域的目标检测模型，以及用于预测文本图像角点位置的角点预测模型。该目标检测模型和角点预测模型可作为一种可选手段，用于执行本申请提出的上述方法中的部分步骤。

在上述训练流程中，本申请采用了联合训练的方式对第一预设模型和第二预设模型同时进行训练，即以第一预设模型的输出，作为第二预设模型的输入。应当理解的，本申请也可以采用单独训练的方式对第一预设模型和第二预设模型分别进行训练。限于篇幅，本申请对单独训练方式不做赘述。

参考图4，图4是本申请一实施例提出的图像处理方法的流程图。如图4所示，该方法包括以下步骤：

步骤S41：对待处理图像进行目标区域检测，得到所述待处理图像上包含文本图像的目标区域。

待处理图像是指除了包含文本图像，还包含其他环境图像的图像。参考图5，图5示出了待处理图像经过目标区域检测后的示意图。如图5所示，待处理图像50中包括文本图像51和环境图像52，还包括包含所述文本图像51的目标区域53。

本实施例中，为了更智能地对待处理图像进行目标区域检测，可以将所述待处理图像输入目标检测模型，并将所述目标检测模型输出的区域作为所述待处理图像上的包含文本图像的目标区域。

其中，待处理图像在输入目标检测模型之前，将该待处理图像的图像通道统一为适用于该目标检测模型的图像通道。该目标检测模型可以是通过上述步骤S11至步骤S13训练得到的目标检测模型。也可以是通过其他训练方式训练得到的目标检测模型。或者，也可以利用现有的用于检测文本图像所在区域的模型作为该目标检测模型。本申请对该目标检测模型的来源不做限定。

步骤S42：根据所述包含文本图像的目标区域，对所述待处理图像进行剪裁，得到包含所述文本图像的子图像。

本实施例中，以所述目标区域为剪裁区域，沿所述目标区域的边界对待处理图像进行剪裁，得到包含文本图像的子图像，该子图像即是所述目标区域。通过从待处理图像中裁取出文本图像所在的目标区域，可以裁掉大部分干扰因素(即环境图像)。由于干扰因素的减少，一方面有利于提高后续步骤中对文本图像角点预测的准确性，另一方面还有利于提高后续步骤中对文本图像中文字识别的准确性。

此外，考虑到机器对待处理图像进行目标检测时，机器针对文本图像输出目标区域的动作具有不稳定性(即具有检测误差)。例如，机器对文本图像所述区域的检测准确性高达98％，换言之，机器能以98％的概率输出一个刚好能完整包含文本图像的目标区域。但是机器仍然存在2％的概率输出一个不能完整包含文本图像的目标区域。

基于上述考虑，为了避免因机器预测出一个不能完整包含文本图像的目标区域，而导致文字识别结果丢失信息。本申请中，在对待处理图像进行剪裁时，可以具体包括以下子步骤：

步骤S42-1：对所述目标区域进行扩展，得到扩展后的目标区域。

步骤S42-2：以所述扩展后的目标区域为剪裁区域，对所述待处理图像进行剪裁，得到包含所述文本图像的子图像。

示例地，参考图6，图6是本申请一实施例提出的目标区域扩展示意图。如图6所示，实线方框为扩展前的目标区域61，虚线方框为扩展后的目标区域61’。由于扩展后的目标区域所覆盖的范围更大，因此其更可能完整地包含文本图像。然后以扩展后的目标区域为剪裁区域，对待处理图像进行剪裁，得到的子图像即是扩展后的目标区域。

步骤S43：对所述子图像中的所述文本图像进行角点预测，得到所述文本图像的角点位置信息。

本实施例中，可以将子图像的左下角作为原点，建立平面直角坐标系，文本图像的角点位置信息即是文本图像各角点在该坐标系中的坐标。

本实施例中，将预测出的各个角点中，两两相邻的角点之间的连线所围成的四边形，作为文本图像所在区域。

本申请通过对子图像中文本图像的角点位置进行预测，可以进一步从子图像中更准确地确定出文本图像的所在位置，提高文本图像所在区域的检测精准度。从而进一步排除子图像中剩余的干扰因素(即环境图像)，进一步提高后续文字识别的准确度。并且，通过将两两相邻的角点之间的连线所围成的四边形，作为文本图像所在区域，可以得到一个完整规则的四边形区域，该四边形区域恰好能准确覆盖文本图像的边界。

本实施例中，为了更智能地对文本图像进行角点预测，可以利用角点预测模型实施该步骤。具体的实时过程包括以下子步骤：

步骤S43-1：记录所述子图像的原始宽度和原始高度，并对所述子图像的图像尺寸进行标准化处理，得到标准化子图像，所述标准化子图像中包含标准化文本图像。

步骤S43-2：将所述标准化子图像输入角点预测模型，得到所述标准化文本图像的角点位置信息。

步骤S43-3：根据所述标准化文本图像的角点位置信息、以及所述子图像的原始宽度和原始高度，确定所述文本图像的角点位置信息。

示例地，参考图7，图7是本本申请一实施例提出的角点预测流程图。如图7所示，子图像71中包含文本图像72，子图像71的原始宽度为2.3，原始高度为1.6。在步骤S43-1中，对原始宽度2.3和原始高度1.6这两个数据进行记录。然后将图像尺寸进行标准化，得到标准化子图像73，标准化子图像73中包含标准化文本图像74。如图7所示，标准化子图像的宽度和高度均为1。

然后在步骤S43-2中，将标准化子图像73输入角点预测模型75，得到角点预测模型预测的标准化文本图像74的角点位置信息。其中，标准化文本图像74的角点位置信息可以是该标准化文本图像74各个角点的坐标，每个角点坐标是：以标准化文本图像74左下角为原点而建立的平面直角坐标系中的坐标。

最后在步骤S43-3中，根据标准化文本图像74的角点位置信息、以及子图像71的原始宽度和原始高度，确定所述文本图像的角点位置信息。沿用上述示例，如图7所示，假设标准化文本图像74的一个角点的角点坐标为(0.11,0.68)，则映射到文本图像中该角点的角点坐标为(0.11×2.3,0.68×1.6)，即(0.25，1.09)。

其中，所述角点预测模型可以是通过上述步骤S11至步骤S13训练得到的角点预测模型。也可以是通过其他训练方式训练得到的角点预测模型。本申请对所述角点预测模型的来源不做限定。

步骤S44：根据所述文本图像的角点位置信息，确定针对所述文本图像的矫正参数，并根据所述矫正参数对所述文本图像进行投影矫正，获得投影矫正后的目标文本图像。

本实施例中，投影矫正是指：将具有形变的文本图像调整为该文本图像在没有形变时的标准形状。

示例地，参考图8，图8是本申请一实施例提出的文本图像投影矫正示意图。如图8所示，文本图像是一个身份证图像，投影矫正前的身份证图像因拍摄角度的问题，呈现为一个平行四边形(非矩形)。经过投影矫正后，该身份证图像被矫正为身份证的标准形状，即矩形。或者更严格地，经过投影矫正后，该身份证图像被矫正为一个长宽比为300:190的矩形。其中300:190的长宽比是身份证的标准长宽比。

本申请通过根据文本图像的角点位置信息，确定针对所述文本图像的矫正参数，并根据该矫正参数对文本图像进行投影矫正。如图8所示，投影矫正前文本图像中发生形变和/或旋转的字形，被矫正为水平的正常字形。基于这些水平的正常字形进行后续的文字识别，可以进一步提高文字识别准确率，换言之，进一步降低文字识别错误率。

本实施例中，在确定矫正参数时，可以采用包括以下子步骤的具体实施方式：

步骤S44-1：根据所述文本图像的角点位置信息和针对所述文本图像的预设长宽比，确定目标文本图像的目标角点位置信息。

步骤S44-2：根据所述文本图像的角点位置信息和所述目标文本图像的目标角点位置信息，确定针对所述文本图像的矫正参数。

在上述步骤S44-1中，预设长宽比是指矫正后得到的目标文本图像的期望长宽比。本申请在实施期间，通常情况下，可以将预设长宽比设置为文本图像在没有形变时的标准长宽比。以身份证图像为例，身份证图像的标准长宽比为300:190，如此，可以将预设长宽比设置为300:190。本申请通过将预设长宽比设置为文本图像在没有形变时的标准长宽比，在经过投影矫正后，目标文本图像中的字形相比于文本图像的标准字形，不会存在长度或高度上的压缩变形，基于这些水平的、长宽比合适的正常字形进行后续的文字识别，可以进一步降低文字识别错误率。

在上述步骤S44-1中，为了确定目标文本图像的目标角点位置信息，一种可行的方式是：根据所述文本图像的角点位置信息，确定所述文本图像各条边线的中点位置；根据所述文本图像各条边的中点位置，确定所述文本图像的各条中线的长度，其中，每条中线是所述文本图像的两条相对边线的中点的连线；根据各条中线的长度和针对所述文本图像的预设长宽比，确定目标文本图像的各条目标中线的长度；根据所述各条目标中线的长度，确定所述目标文本图像的目标角点位置信息。

示例地，以身份证图像为例。参考图9，图9是本申请一实施例提出的确定目标角点位置的示意图。如图9所示，首先根据两相邻角点的坐标，计算出其连线中点的坐标，即确定出身份证图像各条边线的中点位置。然后将两条相对边线的中点进行连线，得到身份证图像的中线。根据中线两端点(即中点)的坐标，计算中线的长度。如图9所示，假设身份证图像中两条中线的长度分别为2.7和3.6。

然后以其中的任一条中线为基准，例如以长度为2.7的中线为基准，确定该中线的中垂线。再根据预设长宽比300:190，确定出中垂线的长度为300×2.7/190＝4.3。如此，得到了目标身份证图像的两条目标中线的长度，分别为2.7和4.3。如图9所示，由这两条中线确定出的虚线矩形轮廓即是目标身份证图像的轮廓，该虚线矩形轮廓的角点坐标即是目标身份证图像的目标角点位置信息。

本申请通过确定目标文本图像的两条中线，再由目标文本图像的两条中线定位出目标文本图像矩形轮廓，进而确定出目标文本图像的目标角点位置信息。利用该方式确定的目标角点位置相比于原文本图像的角点位置，位移量较小。因此在投影矫正时，有利于可以减少投影矫正误差。

应当理解的，本申请中确定目标角点位置信息的方式并不局限于上述举例。例如，可以以文本图像的一条边线为基准，根据预设长宽比，确定与其垂直的另一条边线的长度。然后根据这两条彼此垂直的边线，确定目标文本图像的矩形轮廓，进而确定出目标文本图像的目标角点位置信息。

在上述步骤S44-2中，可以将文本图像的角点位置信息作为矩阵A，将目标文本图像的目标角点位置信息作为矩阵A’，建立方程A’＝B×A，其中矩阵B中的参数即为矫正参数。通过求解该方程，确定针对文本图像的矫正参数，即确定针对文本图像的投影矩阵。

在确定出针对文本图像的矫正参数后，针对文本图像中的每个像素点，根据该像素点的位置信息和确定出的矫正参数，确定该像素点在目标文本图像中的位置。如此，完成了对文本图像的投影矫正，获得投影矫正后的目标文本图像。

此外，考虑到经过上述步骤S42后，裁取出的子图像中除了包含文本图像外，还包含环境图像等干扰因素。为此，在经过步骤S43预测出文本图像的角点位置后，还可以在步骤S44之前，根据所述文本图像的角点位置信息，确定剪裁边线；然后沿所述剪裁边线对所述子图像进行剪裁，以裁掉所述子图像中围绕所述文本图像的干扰区域。

通过对子图像的剪裁，裁取出的区域刚好是文本图像所在区域。在执行步骤S44时，实际上仅对文本图像进行了投影矫正。

此外，考虑到拍摄原因，文本图像一开始在待处理图像中就存在缺失的边角。或者考虑到目标检测误差的原因，在经过步骤S11和步骤12后得到的子图像中，文本图像出现了缺失的边角。为了提高文本图像形状、尺寸的标准化程度，可以在上述步骤S44之后，进一步执行以下步骤：确定所述目标文本图像是否存在缺失边角；在所述目标文本图像存在缺失边角的情况下，对所述缺失边角所在区域进行填充，得到轮廓为矩形的目标文本图像。

示例地，确定目标图像是否存在缺失边角的具体方式可以是：根据上述步骤S43预测的文本图像的角点位置信息所对应的角点位置，如果某一角点位置超出了子图像的图像边界，则该角点位置处存在缺失边角。或者示例地，可以将目标文本图像的四个角点的两两连线，形成封闭的四边形，然后对该封闭四边形中不存在像素点的位置(即缺失边角处)填充黑色像素点。使填充后的目标文本图形为规则的四边形，从而提高目标文本图像的标准化程度。

步骤S45：对所述目标文本图像进行文字识别，获得所述目标文本图像中的文字信息。

本实施例中，可选用现有的任意文字识别方式，对目标文本图像进行文字识别。例如，OCR(Optical Character Recognition)识别算法、CRNN文字识别算法等等。应当理解的，本申请对具体的文字识别方式不做限定。

通过执行上述包括步骤S41至步骤S45的图像处理方法,通过对待处理图像中的文本图像进行区域检测，确定文本图像所在的目标区域。然后剪裁出该目标区域，得到包含文本图像的子图像，从而裁掉待处理图像中的部分干扰图像。再对所述子图像进行角点预测，得到文本图像的角点位置信息，从而更精确地确定出文本图像在子图像中的位置，进一步锁定识别区域。接着根据角点位置信息确定文本图像的矫正参数，从而对文本图像进行投影矫正，得到目标文本图像，使文本图像中产生形变和/或旋转的文字被矫正为水平的正常字形，有利于提高文字识别准确率。最后对目标文本图像进行文字识别，输出错误率较低的文字识别结果。

基于同一发明构思，本申请一实施例提供一种图像处理装置。参考图10，图10是本申请一实施例提供的图像处理装置的示意图。如图10所示，该装置包括：

目标区域检测模块101，用于对待处理图像进行目标区域检测，得到所述待处理图像上包含文本图像的目标区域；

待处理图像剪裁模块102，用于根据所述包含文本图像的目标区域，对所述待处理图像进行剪裁，得到包含所述文本图像的子图像；

角点预测模块103，用于对所述子图像中的所述文本图像进行角点预测，得到所述文本图像的角点位置信息；

投影矫正模块104，用于根据所述文本图像的角点位置信息，确定针对所述文本图像的矫正参数，并根据所述矫正参数对所述文本图像进行投影矫正，获得投影矫正后的目标文本图像；

文字识别模块105，用于对所述目标文本图像进行文字识别，获得所述目标文本图像中的文字信息。

可选地，所述待处理图像剪裁模块包括：

目标区域扩展子模块，用于对所述目标区域进行扩展，得到扩展后的目标区域；

待处理图像剪裁子模块，用于以所述扩展后的目标区域为剪裁区域，对所述待处理图像进行剪裁，得到包含所述文本图像的子图像。

可选地，所述角点预测模块包括：

尺寸标准化子模块，用于记录所述子图像的原始宽度和原始高度，并对所述子图像的图像尺寸进行标准化处理，得到标准化子图像，所述标准化子图像中包含标准化文本图像；

标准化子图像输入子模块，用于将所述标准化子图像输入角点预测模型，得到所述标准化文本图像的角点位置信息；

角点位置信息确定子模块，用于根据所述标准化文本图像的角点位置信息、以及所述子图像的原始宽度和原始高度，确定所述文本图像的角点位置信息。

可选地，所述投影矫正模块包括：

目标角点位置信息确定子模块，用于根据所述文本图像的角点位置信息和针对所述文本图像的预设长宽比，确定目标文本图像的目标角点位置信息；

矫正参数确定子模块，用于根据所述文本图像的角点位置信息和所述目标文本图像的目标角点位置信息，确定针对所述文本图像的矫正参数。

可选地，所述目标角点位置信息确定子模块包括：

中点位置确定子单元，用于根据所述文本图像的角点位置信息，确定所述文本图像各条边线的中点位置；

中线长度确定子单元，用于根据所述文本图像各条边的中点位置，确定所述文本图像的各条中线的长度，其中，每条中线是所述文本图像的两条相对边线的中点的连线；

目标中线长度确定子单元，用于根据各条中线的长度和针对所述文本图像的预设长宽比，确定目标文本图像的各条目标中线的长度；

目标角点位置信息确定子单元，用于根据所述各条目标中线的长度，确定所述目标文本图像的目标角点位置信息。

可选地，所述装置还包括：

剪裁边线确定模块，用于在根据所述矫正参数对所述文本图像进行投影矫正之前，根据所述文本图像的角点位置信息，确定剪裁边线；

子图像剪裁模块，用于沿所述剪裁边线对所述子图像进行剪裁，以裁掉所述子图像中围绕所述文本图像的干扰区域。

可选地，所述装置还包括：

缺失边角确定模块，用于在获得投影矫正后的目标文本图像之后，确定所述目标文本图像是否存在缺失边角；

缺失边角填充模块，用于在所述目标文本图像存在缺失边角的情况下，对所述缺失边角所在区域进行填充，得到轮廓为矩形的目标文本图像。

可选地，所述目标区域检测模块包括：

待处理图像输入子模块，用于将所述待处理图像输入目标检测模型，并将所述目标检测模型输出的区域作为所述待处理图像上的包含文本图像的目标区域。

可选地，所述装置还包括：

样本图像获得模块，用于获得多张包含文本图像的样本图像，每张所述样本图像携带第一标记，该第一标记表征该样本图像包含的所述文本图像的各角点的位置信息；

模型训练模块，用于针对所述多张样本图像中的每张携带第一标记的样本图像，执行步骤：基于该携带第一标记的样本图像，对第一预设模型进行训练，得到所述第一预设模型输出的所述样本图像上包含文本图像的预测目标区域；以所述预测目标区域为剪裁区域，对该样本图像进行剪裁，得到包含文本图像的样本子图像；基于所述样本子图像，对第二预设模型进行训练；

模型确定模块，用于将经过多次训练的第一预设模型确定为所述目标检测模型，将经过多次训练的第二预设模型确定为所述角点预测模型。

可选地，所述模型训练模块包括：

预测目标区域调整子模块，用于随机或根据预设规则对所述预测目标区域进行调整，得到调整后的预测目标区域；

样本图像剪裁子模块，用于以所述调整后的预测目标区域为剪裁区域，对所述样本图像进行剪裁，得到包含文本图像的样本子图像。

可选地，所述模型训练模块包括：

第二标记确定子模块，用于根据所述携带第一标记的样本图像和所述预测目标区域，确定所述样本子图像的第二标记，该第二标记表征该样本子图像包含的文本图像的各角点在该样本子图像上的位置信息；

样本子图像输入子模块，用于将携带第二标记的样本子图像输入所述第二预设模型，得到所述第二预设模型预测的位置信息；

第二预设模型更新子模块，用于根据所述第二预设模型预测的位置信息与所述第二标记表征的位置信息，更新所述第二预设模型。

可选地，所述第二预设模型更新子模块包括：

损失值确定子单元，用于根据以下公式，确定所述第二预设模型在每次训练中的损失值loss:

其中，i表示文本图像的角点编号，

表示文本图像第i个角点的第二标记中的标注横向坐标，

表示文本图像第i个角点的第二标记中的标注纵向坐标，

表示文本图像第i个角点的预测横向坐标，

表示文本图像第i个角点的预测纵向坐标；

模型更新确定子单元，用于将多次训练中损失值loss最小的一次训练所对应的第二预设模型，确定为更新后的模型。

基于同一发明构思，本申请另一实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如本申请上述任一实施例所述的方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的方法中的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种图像处理方法、装置、电子设备及可读存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像处理方法，其特征在于，包括：

对所述目标文本图像进行文字识别，获得所述目标文本图像中的文字信息；

其中，对所述子图像中的所述文本图像进行角点预测，得到所述文本图像的角点位置信息，包括：

记录所述子图像的原始宽度和原始高度，并对所述子图像的图像尺寸进行标准化处理，得到标准化子图像，所述标准化子图像中包含标准化文本图像；

将所述标准化子图像输入角点预测模型，得到所述标准化文本图像的角点位置信息；

根据所述标准化文本图像的角点位置信息、以及所述子图像的原始宽度和原始高度，确定所述文本图像的角点位置信息。

2.根据权利要求1所述的方法，根据所述包含文本图像的目标区域，对所述待处理图像进行剪裁，得到包含所述文本图像的子图像，包括：

对所述目标区域进行扩展，得到扩展后的目标区域；

以所述扩展后的目标区域为剪裁区域，对所述待处理图像进行剪裁，得到包含所述文本图像的子图像。

3.根据权利要求1所述的方法，其特征在于，根据所述文本图像的角点位置信息，确定针对所述文本图像的矫正参数，包括：

根据所述文本图像的角点位置信息和针对所述文本图像的预设长宽比，确定目标文本图像的目标角点位置信息；

根据所述文本图像的角点位置信息和所述目标文本图像的目标角点位置信息，确定针对所述文本图像的矫正参数。

4.根据权利要求1所述的方法，其特征在于，根据所述文本图像的角点位置信息和针对所述文本图像的预设长宽比，确定目标文本图像的目标角点位置信息，包括：

根据所述文本图像的角点位置信息，确定所述文本图像各条边线的中点位置；

根据所述文本图像各条边的中点位置，确定所述文本图像的各条中线的长度，其中，每条中线是所述文本图像的两条相对边线的中点的连线；

根据各条中线的长度和针对所述文本图像的预设长宽比，确定目标文本图像的各条目标中线的长度；

根据所述各条目标中线的长度，确定所述目标文本图像的目标角点位置信息。

5.根据权利要求1至4任一所述的方法，其特征在于，在根据所述矫正参数对所述文本图像进行投影矫正之前，所述方法还包括：

根据所述文本图像的角点位置信息，确定剪裁边线；

沿所述剪裁边线对所述子图像进行剪裁，以裁掉所述子图像中围绕所述文本图像的干扰区域。

6.根据权利要求5所述的方法，其特征在于，在获得投影矫正后的目标文本图像之后，所述方法还包括：

确定所述目标文本图像是否存在缺失边角；

在所述目标文本图像存在缺失边角的情况下，对所述缺失边角所在区域进行填充，得到轮廓为矩形的目标文本图像。

7.根据权利要求1至4任一所述的方法，其特征在于，对待处理图像进行目标区域检测，得到所述待处理图像上的包含文本图像的目标区域，包括：

将所述待处理图像输入目标检测模型，并将所述目标检测模型输出的区域作为所述待处理图像上的包含文本图像的目标区域。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获得多张包含文本图像的样本图像，每张所述样本图像携带第一标记，该第一标记表征该样本图像包含的所述文本图像的各角点的位置信息；

针对所述多张样本图像中的每张携带第一标记的样本图像，执行步骤：基于该携带第一标记的样本图像，对第一预设模型进行训练，得到所述第一预设模型输出的所述样本图像上包含文本图像的预测目标区域；以所述预测目标区域为剪裁区域，对该样本图像进行剪裁，得到包含文本图像的样本子图像；基于所述样本子图像，对第二预设模型进行训练；

将经过多次训练的第一预设模型确定为所述目标检测模型，将经过多次训练的第二预设模型确定为所述角点预测模型。

9.根据权利要求8所述的方法，其特征在于，以所述预测目标区域为剪裁区域，对该样本图像进行剪裁，得到包含文本图像的样本子图像，包括：

随机或根据预设规则对所述预测目标区域进行调整，得到调整后的预测目标区域；

以所述调整后的预测目标区域为剪裁区域，对所述样本图像进行剪裁，得到包含文本图像的样本子图像。

10.根据权利要求8所述的方法，其特征在于，基于所述样本子图像，对第二预设模型进行训练，包括：

根据所述携带第一标记的样本图像和所述预测目标区域，确定所述样本子图像的第二标记，该第二标记表征该样本子图像包含的文本图像的各角点在该样本子图像上的位置信息；

将携带第二标记的样本子图像输入所述第二预设模型，得到所述第二预设模型预测的位置信息；

根据所述第二预设模型预测的位置信息与所述第二标记表征的位置信息，更新所述第二预设模型。

11.根据权利要求10所述的方法，其特征在于，根据所述第二预设模型预测的位置信息与所述第二标记表征的位置信息，更新所述第二预设模型，包括：

根据以下公式，确定所述第二预设模型在每次训练中的损失值loss: