CN111832558A

CN111832558A - 文字图像矫正方法、装置、存储介质及电子设备

Info

Publication number: CN111832558A
Application number: CN202010546387.6A
Authority: CN
Inventors: 刘曦; 张睿
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2020-10-27

Abstract

本公开涉及一种文字图像矫正方法、装置、存储介质及电子设备。方法包括：从待矫正文字图像中提取文字连通区域；对文字连通区域的边缘轮廓进行拟合，生成多个角点；根据多个角点的数量，确定是否满足迭代停止条件；若不满足，则将多个角点确定为候选角点，并重新执行对文字连通区域的边缘轮廓进行拟合，生成多个角点的步骤和根据多个角点的数量，确定是否满足迭代停止条件的步骤；若满足，则根据候选角点，确定文字连通区域的目标角点；根据目标角点，对待矫正文字图像进行矫正。由此，可保证拟合出的目标角点更加贴合文字区域，提升文字行拟合的准确性，进而可使得矫正后的文字图像更容易被识别，提升后续文字识别的效率和准确性。

Description

文字图像矫正方法、装置、存储介质及电子设备

技术领域

本公开涉及图像处理技术领域，具体地，涉及一种文字图像矫正方法、装置、存储介质及电子设备。

背景技术

随着互联网技术的发展，互联网平台的信息量暴增，如在线上到线下(Online ToOffline，O2O)、地图等平台中，通常会在线上收录大量的兴趣点(Point of Internet，POI)数据，以向用户提供更加人性化的服务。其中，在POI的构建过程中，有一部分工作是基于广大用户上传招牌图像和录入店名来实现的。为避免店名录入错误，常通过对用户上传的招牌图像进行文字识别，然后将识别结果与录入的店名进行匹配，以实现POI录入信息的快速审核，节省了人力，同时可保证POI录入的准确性。

然而，由于用户拍摄角度(通常为正面拍摄)问题，招牌图像中文字通常存在几何失真(发生形变)，直接基于存在几何失真的招牌图像进行文字识别，识别准确性将无法保证。因此，在对招牌图像进行文字识别时中，通常先对招牌图像进行透视矫正，然后再基于矫正后的招牌图像进行文字识别，以提升文字识别的准确性。现阶段，主要通过以下两种方式进行透视矫正：(1)采用角点回归的方式直接获取招牌图像中各文字行的四个角点，即，通过四个角点构成的四边形对各文字行进行拟合，然后基于四个角点的坐标对招牌图像进行文字行矫正；(2)采用最小外接矩形框来对招牌图像中各文字行进行拟合，然后基于拟合出的最小外接矩形框的四个角点的坐标对招牌图像进行文字行矫正。但以上两种方式均存在文字行拟合不准确的问题，这样，文字识别的准确性将受到影响。

发明内容

本公开的目的是提供一种文字图像矫正方法、装置、存储介质及电子设备，以解决相关技术中文字行拟合不准确的问题。

为了实现上述目的，第一方面，本公开提供一种文字图像矫正方法，包括：

从待矫正文字图像中提取文字连通区域；

对所述文字连通区域的边缘轮廓进行拟合，生成多个角点；

根据所述多个角点的数量，确定是否满足迭代停止条件；

若确定不满足所述迭代停止条件，则将所述多个角点确定为候选角点，并重新执行所述对所述文字连通区域的边缘轮廓进行拟合，生成多个角点的步骤和所述根据所述多个角点的数量，确定是否满足迭代停止条件的步骤，其中，所述候选角点的数量初始为零；

若确定满足所述迭代停止条件，则根据所述候选角点，确定所述文字连通区域的目标角点；

根据所述目标角点，对所述待矫正文字图像进行矫正。

可选地，所述对所述文字连通区域的边缘轮廓进行拟合，生成多个角点，包括：

基于第一预设角点选取阈值，对所述文字连通区域的边缘轮廓进行拟合，生成多个角点；

所述根据所述多个角点的数量，确定是否满足迭代停止条件，包括：

若所述多个角点的数量不大于预设数量阈值、且所述第一预设角点选取阈值不小于第二预设角点选取阈值，则确定不满足迭代停止条件，并减小所述第一预设角点选取阈值；

若所述多个角点的数量大于所述预设数量阈值、或者所述第一预设角点选取阈值小于所述第二预设角点选取阈值，则确定满足迭代停止条件；

其中，生成的所述多个角点的数量随所述第一预设角点选取阈值的递减呈递增趋势。

可选地，所述根据所述候选角点，确定所述文字连通区域的目标角点，包括：

若所述候选角点的数量等于所述预设数量阈值，则将所述候选角点确定为所述文字连通区域的目标角点；

若所述候选角点的数量不等于所述预设数量阈值，则对所述边缘轮廓进行最小外接多边形拟合，并将拟合所得的最小外接多边形的各角点确定为所述文字连通区域的目标角点。

可选地，在所述根据所述目标角点，对所述待矫正文字图像进行矫正的步骤之前，所述方法还包括：

对至少一个目标角点的位置进行调整，其中，调整前的目标角点构成的多边形位于调整后的目标角点构成的多边形区域内；

所述根据所述目标角点，对所述待矫正文字图像进行矫正，包括：

根据调整后的所述目标角点，对所述待矫正文字图像进行矫正。

可选地，所述目标角点的数量为4；

在所述对至少一个目标角点的位置进行调整的步骤之前，所述方法包括：

分别获取第一边相对于垂直方向的第一夹角、第二边相对于所述垂直方向的第二夹角，其中，所述第一边、所述第二边为所述目标角点构成的四边形中、水平方向上相对的两条边；

若所述第一夹角和所述第二夹角差的绝对值大于预设角度阈值，则执行所述对至少一个目标角点的位置进行调整的步骤。

可选地，所述对至少一个目标角点的位置进行调整，包括：

根据所述第一夹角和所述第二夹角，从所述目标角点中确定待调整角点；

根据所述目标角点在所述待矫正文字图像中的位置信息，确定所述待调整角点的新的位置信息，其中，所述目标角点构成的四边形位于所述新的位置信息对应的点、与所述目标角点中除所述待调整角点外的其他角点构成的四边形区域内；

将所述待调整角点调整至所述新的位置信息所表征的位置处。

可选地，所述根据所述第一夹角和所述第二夹角，从所述目标角点中确定待调整角点，包括：

将所述第一边和所述第二边中、与所述第一夹角和所述第二夹角中的较大者对应的边确定为目标边；

将所述目标边的两个顶点中、与所述目标边的相对边之间的距离最近的顶点确定为待调整角点。

可选地，在所述分别获取第一边相对于垂直方向的第一夹角、第二边相对于所述垂直方向的第二夹角的步骤之前，所述方法还包括：

根据所述目标角点在所述待矫正文字图像中的位置信息，确定所述目标角点构成的四边形的高度和宽度；

若所述高度和所述宽度满足预设条件，则执行所述分别获取第一边相对于垂直方向的第一夹角、第二边相对于所述垂直方向的第二夹角的步骤。

第二方面，本公开提供一种文字图像矫正装置，包括：

提取模块，用于从待矫正文字图像中提取文字连通区域；

拟合模块，用于对所述提取模块提取到的所述文字连通区域的边缘轮廓进行拟合，生成多个角点；

第一确定模块，用于根据所述拟合模块得到的所述多个角点的数量，确定是否满足迭代停止条件；

第二确定模块，用于若所述第一确定模块确定不满足所述迭代停止条件，则将所述多个角点确定为候选角点，之后，使所述拟合模块重新执行对所述文字连通区域的边缘轮廓进行拟合，生成多个角点，以及所述第一确定模块重新执行，根据所述多个角点的数量，确定是否满足迭代停止条件，其中，所述候选角点的数量初始为零；

第三确定模块，用于若所述第一确定模块确定满足所述迭代停止条件，则根据所述候选角点，确定所述文字连通区域的目标角点；

矫正模块，用于根据所述第三确定模块确定出的所述目标角点，对所述待矫正文字图像进行矫正。

第三方面，本公开提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开第一方面提供的所述方法的步骤。

第四方面，本公开提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现本公开第一方面提供的所述方法的步骤。

在上述技术方案中，通过迭代拟合的方式找出用于拟合待矫正文字图像中文字连通区域(即文字行)的目标角点，可以保证拟合出的目标角点更加贴合文字区域，提升了文字行拟合的准确性。这样，基于更加贴合文字区域的目标角点对待矫正文字图像进行矫正，可以使得矫正后的文字图像更容易被识别，可提升后续文字识别的效率和准确性。由此，可以实现POI录入信息的快速、准确审核，节省了人力，同时保证了POI录入的效率和准确性。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种文字图像矫正方法的流程图；

图2是根据另一示例性实施例示出的一种文字图像矫正方法的流程图；

图3是根据一示例性实施例示出的一种确定文字连通区域的目标角点的方法的流程图；

图4是根据另一示例性实施例示出的一种文字图像矫正方法的流程图；

图5是根据一示例性实施例示出的一种对至少一个目标角点的位置进行调整的过程示意图；

图6是根据另一示例性实施例示出的一种文字图像矫正方法的流程图；

图7A和图7B是根据另一示例性实施例示出的一种对至少一个目标角点的位置进行调整的过程示意图；

图8是根据一示例性实施例示出的一种对至少一个目标角点的位置进行调整的方法的流程图；

图9是根据一示例性实施例示出的一种确定待调整角点的方法的流程图；

图10是根据另一示例性实施例示出的一种文字图像矫正方法的流程图；

图11是根据一示例性实施例示出的一种文字图像矫正装置的框图；

图12是根据一示例性实施例示出的一种电子设备的框图；

图13是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

如在背景技术中所阐述的，相关技术中主要通过角点回归和最小外接矩形拟合这两种方式来对招牌图像的文字行进行拟合的。其中，由于招牌图像上文字边缘不具备明显特征，基于角点回归的方法无法准确地拟合出四个角点，即文字行拟合的准确性不高；基于最小外接矩形拟合的方式也无法很好地拟合文字行，使得矫正后的文字形变依然较大，另外，还可能因拟合的矩形框过大而引入额外的背景。

对此，本公开提供一种文字图像矫正方法、装置、存储介质及电子设备，以提升文字行拟合的准确性。

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

图1是根据一示例性实施例示出的一种文字图像矫正方法的流程图。如图1所示，该方法可以包括步骤101～步骤106。

在步骤101中，从待矫正文字图像中提取文字连通区域。

在本公开中，文字图像是指包含文字的招牌、证件、执照、证书、票据、书籍等的图像。具体来说，可以通过以下方式提取文字连通区域：首先可以通过全卷积网络(FullyConvolutional Networks，FCN)、PixelLink、MaskRCNN等方法对待矫正文字图像进行分割，得到文字像素分割图(即二值图像)；之后，采用二值图像连通域分析算法(例如，Two-Pass(两遍扫描法)、Seed-Filling(种子填充法)等)生成一个或者多个文字连通区域，其中，通常情况下，一个文字行对应一个文字连通区域

在步骤102中，对文字连通区域的边缘轮廓进行拟合，生成多个角点。

在步骤103中，根据多个角点的数量，确定是否满足迭代停止条件。若不满足，则执行步骤104；若满足，则执行步骤105。

在步骤104中，将多个角点确定为候选角点。之后，返回步骤102，以重新执行以上步骤(步骤102和步骤103)，直到本次迭代过程中，步骤103的判断结果为满足，则停止迭代，之后，执行步骤105。

其中，候选角点的数量初始为零。

在步骤105中，根据候选角点，确定文字连通区域的目标角点。

在步骤106中，根据目标角点，对待矫正文字图像进行矫正。

矫正是指对待矫正文字图像进行旋转，使得旋转后的文字图像中的文本处于水平方向，也即文本图像中的文本行处于水平方向。具体来说，可以通过以下方式来实现文字图像的矫正：

首先，可以针对每一文字连通区域，根据该文字连通区域对应的各目标角点的原始坐标，计算该文字连通区域的高度和宽度，其中，目标角点的数量可以为4。

示例地，可以通过以下等式(1)来计算文字连通区域的高度和宽度：

其中，w为文字连通区域的宽度；h为文字连通区域的高度；该文字连通区域对应的各目标角点的原始坐标分别为(x₀,y₀),(x₁,y₁),(x₂,y₂),(x₃,y₃)。

然后，根据该文字连通区域的高度和宽度，得到各目标角点的投影坐标分别为(0,0),(w,0),(w,h),(0,h)。

接下来，根据各目标角点的原始坐标和投影坐标，通过随机抽样一致性(RandomSample Consensus，简称RANSAC)算法得到透视变换矩阵

最后，基于透视变换矩阵

对该文字连通区域进行旋转，得到该文字连通区域对应的矫正文字行。

本公开中，上述步骤102中，对所述文字连通区域的边缘轮廓进行拟合，生成多个角点的示例性实施方式可以为：

基于第一预设角点选取阈值，对文字连通区域的边缘轮廓进行拟合，生成多个角点。

具体来说，可以基于第一预设角点选取阈值，通过道格拉斯-普克算法(Douglas-Peucker)对文字连通区域的边缘轮廓进行拟合。由于通过Douglas-Peucker对文字连通区域的边缘轮廓进行拟合的具体方式为本领域技术人员公知的，在本公开中不再详细描述。

相应地，上述步骤103中，根据所述多个角点的数量，确定是否满足迭代停止条件的示例性实施方式可如图2所示，包括步骤201～步骤204。

在步骤201中，判定多个角点的数量是否大于预设数量阈值。若是，则执行步骤204；若否，则执行步骤202。

其中，该预设数量阈值可以为4。

在步骤202中，判定第一预设角点选取阈值是否小于第二预设角点选取阈值。若是，则执行步骤204；若否，则执行步骤203。

在步骤203中，确定不满足迭代停止条件，减小第一预设角点选取阈值。之后，执行步骤104。

示例地，可以将第一预设角点选取阈值减小一固定值。其中，基于第一预设角点选取阈值，对文字连通区域的边缘轮廓进行拟合生成的角点的数量随第一预设角点选取阈值的递减呈递增趋势。

在步骤204中，确定满足迭代停止条件。之后，执行步骤105。

上述步骤105中，根据候选角点，确定文字连通区域的目标角点的示例性实施方式可如图3所示，包括步骤301～步骤303。

在步骤301中，判定候选角点的数量是否等于预设数量阈值。若等于，则表明上述步骤102中对文字连通区域的边缘轮廓进行拟合成功，此时，可以执行步骤302；若不等于，则表明上述步骤102中对文字连通区域的边缘轮廓进行拟合失败，此时，可以执行步骤303。

在步骤302中，将候选角点确定为文字连通区域的目标角点。

在步骤303中，对文字连通区域的边缘轮廓进行最小外接多边形拟合，并将拟合所得的最小外接多边形的各角点确定为文字连通区域的目标角点。

另外，上述步骤105中确定出的目标角点构成的多边形区域可能存在其不能包含完整的文本图像的情况，从而导致文字识别结果丢失信息。为此，可以在确定出目标角点后，对其进行调整，以使得调整后的目标角点构成的多边形区域能够包含完整的文本图像，从而避免文字识别结果丢失信息。具体来说，如图4所示，在步骤106之前，上述方法还可以包括步骤107。

在步骤107中，对至少一个目标角点的位置进行调整。

其中，调整前的目标角点构成的多边形位于调整后的目标角点构成的多边形区域内，即，通过对至少一个目标角点的位置进行调整，以对各目标角点构成的多边形进行扩展。由于扩展后的多边形所覆盖的范围更大，因此其更可能包含完整的文本图像。

上述步骤107中对至少一个目标角点的位置进行调整的一示例性实施方式可以为：

以调整前的目标角点构成的多边形的对角线的交点为基准，向周边各扩展预设数量个(例如，1～3个)像素，形成扩展后的多边形。之后，将扩展后的多边形的各角点确定为调整后的角点。

示例地，如图5所示，调整前的各目标点分别为P1、P2、P3、P4，其构成多边形A，以该多边形A的对角线的交点为基准，向周边各扩展预设数量个像素，形成扩展后的多边形B；之后，将扩展后的多边形B的各角点P1’、P2’、P3’、P4’确定为调整后的角点。

相应地，上述步骤106中根据目标角点，对待矫正文字图像进行矫正，可以包括：

根据调整后的目标角点，对待矫正文字图像进行矫正。

图6是根据另一示例性实施例示出的一种文字图像矫正方法的流程图。如图6所示，在上述步骤107之前，上述方法还可以包括步骤108～步骤110。

在步骤108中，分别获取第一边相对于垂直方向的第一夹角、第二边相对于垂直方向的第二夹角。

在本公开中，目标角点的数量可以为4，第一边、第二边为目标角点构成的四边形中、水平方向上相对的两条边。

示例地，如图7A所示，目标角点分别为P1、P2、P3、P4，它们构成四边形P1P2P3P4，其中，边P2P3、边P1P4为该四边形P1P2P3P4中、水平方向上相对的两条边。示例地，第一边为边P1P4，第二边为边P2P3。如图7A所示，第一边P1P4相对于垂直方向的第一夹角为角D，第二边P2P3相对于垂直方向的第二夹角为角C。

在步骤109中，判定第一夹角和第二夹角差的绝对值是否大于预设角度阈值。若是，则执行步骤107；若否，则执行步骤110。

在本公开中，上述预设角度阈值可以是预设值，也可以是默认的经验值(例如，10度)。若第一夹角和第二夹角的差的绝对值大于预设角度阈值，则表明第一边和第二边中存在拟合不准确的边，即上述步骤105中确定出的目标角点中存在位置不准确的角点，此时，需要对步骤105确定出的目标角点进行调整，即执行步骤107；若第一夹角和第二夹角的差的绝对值小于或等于预设角度阈值，则表明拟合出的第一边和第二边相对比较准确，此时，可以不对步骤105确定出的目标角点进行调整，此时，可以直接根据步骤105确定出的目标角点，对待矫正文字图像进行矫正，即执行步骤110。

在步骤110中，根据目标角点，对待矫正文字图像进行矫正。

相应地，上述步骤107中，对至少一个目标角点的位置进行调整的另一示例性实施方式可以如图8中所示，包括步骤801～步骤803。

在步骤801中，根据第一夹角和第二夹角，从目标角点中确定待调整角点。

在步骤802中，根据目标角点在待矫正文字图像中的位置信息，确定待调整角点的新的位置信息。

在本公开中，位置信息可以为待调整角点在待矫正文字图像中的坐标。目标角点构成的四边形位于新的位置信息对应的点、与目标角点中除待调整角点外的其他角点构成的四边形区域内，即调整前对应的目标角点构成的四边形位于调整后的目标角点构成的四边形区域内。

示例地，可以根据目标角点在待矫正文字图像中的坐标，通过以下等式(2)确定待调整角点的新的坐标：

其中，(x,y)为待调整角点的新的坐标；(x₁,y₁)为待调整角点的原始坐标；(x₂,y₂)为目标序列中的第二个目标角点的坐标；(x₃,y₃)为目标序列中的第三个目标角点的坐标；(x₄,y₄)为目标序列中的第四个目标角点的坐标；当待调整角点位于所述第一边和所述第二边中的左侧边上时，目标序列为以待调整角点为起点、顺时针遍历各目标角点构成的四边形的各角点得到的遍历序列；当待调整角点位于所述第一边和所述第二边中的右侧边上时，目标序列为以待调整角点为起点、逆时针遍历各目标角点构成的四边形的各角点得到的遍历序列。

示例地，如图7A所示，步骤105确定出的目标角点包括P1、P2、P3、P4，待调整角点为目标角点P1，其中，P1P4为四边形P1P2P3P4的右侧边，P2P3为四边形P1P2P3P4的左侧边。可见，待调整角点P1位于右侧边P1P4上，待调整角点P1为起点，逆时针遍历目标角点构成的四边形(即四边形P1P2P3P4)的各角点得到遍历序列P1、P2、P3、P4，即目标序列为P1、P2、P3、P4，因此，(x₂,y₂)为P2的坐标、(x₃,y₃)为P3的坐标、(x₄,y₄)为P4的坐标。

又示例地，如图7A所示，步骤105确定出的目标角点包括P1、P2、P3、P4，待调整角点为目标角点P2，其中，P1P4为四边形P1P2P3P4的右侧边，P2P3为四边形P1P2P3P4的左侧边。可见，待调整角点P2位于左侧边P2P3上，待调整角点P2为起点，顺时针遍历目标角点构成的四边形(即四边形P1P2P3P4)的各角点得到的遍历序列，即目标序列为P2、P1、P4、P3，因此，(x₂,y₂)为P1的坐标、(x₃,y₃)为P4的坐标、(x₄,y₄)为P3的坐标。

在步骤803中，将待调整角点调整至新的位置信息所表征的位置处。

示例地，如图7B所示，待调整角点为目标角点P1，该待调整角点P1的新的坐标为(x,y)，此时，可以将目标角点调整至P1该新的坐标(x,y)处。如图7B所示，新的坐标(x,y)对应位置P1’，则可以将待调整角点P1调整至该P1’所在位置处，则，新的位置信息对应的点、与目标角点中除待调整角点P1外的其他角点(即P2、P3、P4)构成四边形P1’P2P3P4。

上述步骤801中，根据第一夹角和第二夹角，从目标角点中确定待调整角点的示例性实施方式可以如图9中所示，包括步骤901和步骤902。

在步骤901中，将第一边和第二边中、与第一夹角和第二夹角中的较大者对应的边确定为目标边。

在本公开中，若第一夹角大于大二夹角，则说明第一边相对于垂直方向倾斜度比第二边相对于垂直方向的倾斜度高，基于文字垂直书写的原理，说明该第一边的两个顶点中存在拟合不准确的角点，即需要调整该第一边的顶点，此时，可以将第二边确定为目标边；而若第一夹角小于第二夹角，则说明第二边相对于垂直方向倾斜度比第一边相对于垂直方向的倾斜度高，基于文字垂直书写的原理，说明该第二边的两个顶点中存在拟合不准确的角点，即需要调整该第二边的顶点，此时，可以将第二边确定为目标边。

在步骤902中，将目标边的两个顶点中、与目标边的相对边之间的距离最近的顶点确定为待调整角点。

在本公开中，将目标边的两个顶点中、与目标边的相对边之间的距离最近的顶点确定为待调整角点，从而可以使得调整前的目标角点构成的多边形位于调整后的目标角点构成的多边形区域内，进而保证扩展后的多边形更可能包含完整的文本图像。

示例地，如图7A所示，目标角点分别为P1、P2、P3、P4，它们构成四边形P1P2P3P4，第一边为边P1P4，第二边为边P2P3。如图7A所示，第一边P1P4相对于垂直方向的第一夹角为角D，第二边P2P3相对于垂直方向的第二夹角为角C，并且，角D大于角C，故将角D对应的第一边P1P4确定为目标边。目标边P1P4的两个顶点P1、P2与目标边P1P4的相对边P2P3之间的距离分别为L1、L2，其中，L1＜L2，因此，可以将顶点P1确定为待调整角点。

图10是根据另一示例性实施例示出的一种文字图像矫正方法的流程图。如图10所示，在上述步骤108之前，上述方法还可以包括步骤111和步骤112。

在步骤111中，根据目标角点在待矫正文字图像中的位置信息，确定目标角点构成的四边形的高度和宽度。

在本公开中，可以根据上述等式(1)来确定目标角点构成的四边形的高度和宽度。

在步骤112中，判定高度和宽度是否满足预设条件。若满足，则执行步骤108；若不满足，则执行步骤110。

在本公开中，该预设条件可以为宽度大于预设倍数的高度，其中，预设倍数大于等于2。若宽度不大于预设倍数的高度，表明待矫正文字图像中包含的字符数相对较少，对目标点进行调整的必要性不大，若对目标点进行调整反而浪费时间，此时，可以基于直接基于上述步骤105确定出的目标角点，对待矫正文字图像矫正，即执行步骤110，从而可以提升矫正的效率。,若宽度大于预设倍数的高度，则执行步骤108。

另外，上述文字图像矫正方法除了可以应用文字识别领域，还可以应用于不规则刚性物体检测或分割领域(如无人驾驶、无人售卖等)。

图11是根据一示例性实施例示出的一种文字图像矫正装置的框图。参照图11，该装置1100可以包括：提取模块1101，用于从待矫正文字图像中提取文字连通区域；拟合模块1102，用于对所述提取模块1101提取到的所述文字连通区域的边缘轮廓进行拟合，生成多个角点；第一确定模块1103，用于根据所述拟合模块1102得到的所述多个角点的数量，确定是否满足迭代停止条件；第二确定模块1104，用于若所述第一确定模块1103确定不满足所述迭代停止条件，则将所述多个角点确定为候选角点，之后，使所述拟合模块1102重新执行对所述文字连通区域的边缘轮廓进行拟合，生成多个角点，以及所述第一确定模块1103重新执行，根据所述多个角点的数量，确定是否满足迭代停止条件，其中，所述候选角点的数量初始为零；第三确定模块1105，用于若所述第一确定模块1103确定满足所述迭代停止条件，则根据所述候选角点，确定所述文字连通区域的目标角点；矫正模块1106，用于根据所述第三确定模块1105确定出的所述目标角点，对所述待矫正文字图像进行矫正。

可选地，所述拟合模块1102用于基于第一预设角点选取阈值，对所述文字连通区域的边缘轮廓进行拟合，生成多个角点；所述第一确定模块1103包括：第一确定子模块，用于若所述多个角点的数量不大于预设数量阈值、且所述第一预设角点选取阈值不小于第二预设角点选取阈值，则确定不满足迭代停止条件，并减小所述第一预设角点选取阈值；第二确定子模块，用于若所述多个角点的数量大于所述预设数量阈值、或者所述第一预设角点选取阈值小于所述第二预设角点选取阈值，则确定满足迭代停止条件；其中，生成的所述多个角点的数量随所述第一预设角点选取阈值的递减呈递增趋势。

可选地，所述第三确定模块1105包括：第三确定子模块，用于若所述候选角点的数量等于所述预设数量阈值，则将所述候选角点确定为所述文字连通区域的目标角点；第四确定子模块，用于若所述候选角点的数量不等于所述预设数量阈值，则对所述边缘轮廓进行最小外接多边形拟合，并将拟合所得的最小外接多边形的各角点确定为所述文字连通区域的目标角点。

可选地，所述装置1100还包括：调整模块，用于在所述矫正模块1106根据所述目标角点，对所述待矫正文字图像进行矫正之前，对至少一个目标角点的位置进行调整，其中，调整前的目标角点构成的多边形位于调整后的目标角点构成的多边形区域内；所述矫正模块1106用于根据调整后的所述目标角点，对所述待矫正文字图像进行矫正。可选地，所述目标角点的数量为4；所述装置1100还包括：获取模块，用于在所述调整模块对至少一个目标角点的位置进行调整之前，分别获取第一边相对于垂直方向的第一夹角、第二边相对于所述垂直方向的第二夹角，其中，所述第一边、所述第二边为所述目标角点构成的四边形中、水平方向上相对的两条边；调整模块，用于在所述矫正模块1106根据所述目标角点，对所述待矫正文字图像进行矫正之前，若所述第一夹角和所述第二夹角差的绝对值大于预设角度阈值，则对至少一个目标角点的位置进行调整。

可选地，所述调整模块包括：第五确定子模块，用于根据所述第一夹角和所述第二夹角，从所述目标角点中确定待调整角点；第六确定子模块，用于根据所述目标角点在所述待矫正文字图像中的位置信息，确定所述待调整角点的新的位置信息，其中，所述目标角点构成的四边形位于所述新的位置信息对应的点、与所述目标角点中除所述待调整角点外的其他角点构成的四边形区域内；调整子模块，用于将所述待调整角点调整至所述新的位置信息所表征的位置处。

可选地，所述第五确定子模块包括：目标边确定子模块，用于将所述第一边和所述第二边中、与所述第一夹角和所述第二夹角中的较大者对应的边确定为目标边；待调整角点确定子模块，用于将所述目标边的两个顶点中、与所述目标边的相对边之间的距离最近的顶点确定为待调整角点。

可选地，所述装置1100还包括：第四确定模块，用于在所述获取模块分别获取第一边相对于垂直方向的第一夹角、第二边相对于所述垂直方向的第二夹角之前，根据所述目标角点在所述待矫正文字图像中的位置信息，确定所述目标角点构成的四边形的高度和宽度；所述获取模块，用于若所述高度和所述宽度满足预设条件，则分别获取第一边相对于垂直方向的第一夹角、第二边相对于所述垂直方向的第二夹角。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图12是根据一示例性实施例示出的一种电子设备1200的框图。如图12所示，该电子设备1200可以包括：处理器1201，存储器1202。该电子设备1200还可以包括多媒体组件1203，输入/输出(I/O)接口1204，以及通信组件1205中的一者或多者。

其中，处理器1201用于控制该电子设备1200的整体操作，以完成上述的文字图像矫正方法中的全部或部分步骤。存储器1202用于存储各种类型的数据以支持在该电子设备1200的操作，这些数据例如可以包括用于在该电子设备1200上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器1202可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件1203可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1202或通过通信组件1205发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口1204为处理器1201和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件1205用于该电子设备1200与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件1205可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备1200可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的文字图像矫正方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的文字图像矫正方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器1202，上述程序指令可由电子设备1200的处理器1201执行以完成上述的文字图像矫正方法。

图13是根据一示例性实施例示出的一种电子设备1300的框图。例如，电子设备1300可以被提供为一服务器。参照图13，电子设备1300包括处理器1322，其数量可以为一个或多个，以及存储器1332，用于存储可由处理器1322执行的计算机程序。存储器1332中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器1322可以被配置为执行该计算机程序，以执行上述的文字图像矫正方法。

另外，电子设备1300还可以包括电源组件1326和通信组件1350，该电源组件1326可以被配置为执行电子设备1300的电源管理，该通信组件1350可以被配置为实现电子设备1300的通信，例如，有线或无线通信。此外，该电子设备1300还可以包括输入/输出(I/O)接口1358。电子设备1300可以操作基于存储在存储器1332的操作系统，例如WindowsServer^TM，Mac OS X^TM，Unix^TM，Linux^TM等等。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的文字图像矫正方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器1332，上述程序指令可由电子设备1300的处理器1322执行以完成上述的文字图像矫正方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的文字图像矫正方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种文字图像矫正方法，其特征在于，包括：

从待矫正文字图像中提取文字连通区域；

对所述文字连通区域的边缘轮廓进行拟合，生成多个角点；

根据所述多个角点的数量，确定是否满足迭代停止条件；

根据所述目标角点，对所述待矫正文字图像进行矫正。

2.根据权利要求1所述的方法，其特征在于，所述对所述文字连通区域的边缘轮廓进行拟合，生成多个角点，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述候选角点，确定所述文字连通区域的目标角点，包括：

4.根据权利要求1-3中任一项所述的方法，其特征在于，在所述根据所述目标角点，对所述待矫正文字图像进行矫正的步骤之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述目标角点的数量为4；

在所述对至少一个目标角点的位置进行调整的步骤之前，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述对至少一个目标角点的位置进行调整，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述第一夹角和所述第二夹角，从所述目标角点中确定待调整角点，包括：

8.根据权利要求5所述的方法，其特征在于，在所述分别获取第一边相对于垂直方向的第一夹角、第二边相对于所述垂直方向的第二夹角的步骤之前，所述方法还包括：

9.一种文字图像矫正装置，其特征在于，包括：

提取模块，用于从待矫正文字图像中提取文字连通区域；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-8中任一项所述方法的步骤。

11.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-8中任一项所述方法的步骤。