CN114119379A

CN114119379A - 基于深度学习的图像校正方法及系统

Info

Publication number: CN114119379A
Application number: CN202011241410.7A
Authority: CN
Inventors: 李冠德; 黄名嘉; 林宏轩; 李宇哲; 罗佳玲
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 2020-08-26
Filing date: 2020-11-09
Publication date: 2022-03-01
Also published as: NO20210058A1; DE102020134888A1; TW202209175A; IL279443B1; JP2022039895A; JP7163356B2; IL279443A; US20220067881A1; TWI790471B

Abstract

一种基于深度学习的图像校正方法及系统。图像校正方法包括以下步骤。通过深度学习模型接收具有至少一字的图像，并根据图像产生透视变换矩阵。根据透视变换矩阵对图像执行透视变换，以获得包含此至少一字的正面视角的校正图像。根据图像产生包含此至少一字的正面视角的最佳校正图像。获得对应图像与最佳校正图像的最佳透视变换矩阵。计算最佳透视变换矩阵与透视变换矩阵之间的损失值。使用损失值更新深度学习模型。

Description

基于深度学习的图像校正方法及系统

技术领域

本发明涉及一种图像校正方法及系统，且特别涉及一种基于深度学习的图像校正方法及系统。

背景技术

在图像辨识领域中，特别是图像中的字辨识，通常需要在图像中先找出具有字的区域图像，并将此区域图像校正成正面视角的图像，以便后续的辨识模型进行字辨识。图像校正程序可将各种不同视角、距离的图像，转成同一角度与距离的正面视角的图像，此程序可加快辨识模型的学习以及提高辨识正确率。

然而，在目前的技术中，图像校正程序仍需依靠传统图像处理方法，以人工找出旋转参数，并反复调整参数才可提升图像校正程序的正确率。此外，图像校正程序也可由人工智能(AI)执行，但是仅能找出顺时针/逆时针旋转角度，无法适用于复杂的图像缩放、位移、倾斜等。

因此，如何有效率地并正确地将各种图像校正成正面视角的图像，已成为产业界致力研究的一项目标。

发明内容

本发明涉及一种基于深度学习的图像校正方法及系统，其利用深度学习模型找出图像校正程序中的透视变换参数以有效率地将各种图像校正成正面视角的图像，并通过损失值更新深度学习模型以提高正确率。

根据本发明的一实施例，提出一种基于深度学习的图像校正方法。图像校正方法包括以下步骤。通过深度学习模型接收具有至少一字的图像，并根据图像产生透视变换矩阵。根据透视变换矩阵对图像执行透视变换，以获得包含此至少一字的正面视角的校正图像。根据图像产生包含此至少一字的正面视角的最佳校正图像。获得对应图像与最佳校正图像之最佳透视变换矩阵。计算最佳透视变换矩阵与透视变换矩阵之间的损失值。使用损失值更新深度学习模型。

根据本发明的另一实施例，提出一种基于深度学习的图像校正系统。图像校正系统包括深度学习模型、处理单元及模型调整单元。深度学习模型用以接收具有至少一字的图像，并根据图像产生透视变换矩阵。处理单元用以接收图像及透视变换矩阵，并根据透视变换矩阵对图像执行透视变换，以获得包含此至少一字的正面视角的校正图像。模型训练单元用以接收图像、根据图像产生包含此至少一字的正面视角的最佳校正图像、获得对应图像与最佳校正图像的最佳透视变换矩阵、计算最佳透视变换矩阵与透视变换矩阵之间的损失值、并使用损失值更新深度学习模型。

为了对本发明的上述及其他方面有更佳的了解，下文特举实施例，并配合附图详细说明如下：

附图说明

图1绘示根据本发明一实施例的基于深度学习的图像校正系统的示意图；

图2绘示根据本发明一实施例的基于深度学习的图像校正方法的流程图；

图3绘示根据本发明一实施例的具有车牌的图像的示意图；

图4绘示根据本发明另一实施例的具有路标的图像的示意图；

图5绘示根据本发明一实施例的校正图像的示意图；

图6绘示根据本发明一实施例的步骤S130的子步骤的流程图；

图7绘示根据本发明一实施例的图像上的标记的示意图；

图8绘示根据本发明一实施例的图像及延伸图像的示意图；

图9绘示根据本发明一实施例的最佳校正图像的示意图；

图10绘示根据本发明一实施例的基于深度学习的图像校正系统的示意图；及

图11绘示根据本发明另一实施例的基于深度学习的图像校正方法的流程图。

【符号说明】

100，1100:图像校正系统

110，1110:深度学习模型

120，1120:处理单元

130，1130:模型调整单元

1140:图像提取单元

IMG1，IMG3，IMG5:图像

IMG2，IMG6:校正图像

IMG4:延伸图像

L，L’:损失值

T，T’:透视变换矩阵

S110，S120，S130，S131，S132，S133，S134，S135，S1110，S1120，S1130，S1140，S1150:步骤

A，B，C，D，A’，B’，C’，D’:标记点

R，R’:标记范围

BLK:空白图像

SI:拍摄信息

具体实施方式

请参照图1，其绘示根据本发明一实施例的基于深度学习的图像校正系统100的示意图。图像校正系统100包括一深度学习模型110、一处理单元120及一模型调整单元130。深度学习模型110例如是卷积神经网络模型(CNN)。处理单元120及模型调整单元130例如是一芯片、一电路板或一电路。

请同时参照图1及2。图2绘示根据本发明一实施例的基于深度学习的图像校正方法的流程图。

步骤S110，通过深度学习模型110接收具有至少一字的图像IMG1，并根据图像IMG1产生透视变换矩阵T。图像IMG1可为包含一车牌、一路标、一序号或一招牌等任何具有至少一字的图像。字例如包括数字、英文字、横杠、标点符号或上述的组合。请参照图3及4。图3绘示根据本发明一实施例的具有车牌的图像IMG1的示意图。在图3中，图像IMG1具有字“ABC-5555”。图4绘示根据本发明另一实施例的具有路标的图像IMG1的示意图。在图4中，图像IMG1中具有字“WuXing St.”。深度学习模型110为已预先训练的模型，可以图像IMG1作为深度学习模型110的输入，接着深度学习模型110输出对应图像IMG1的透视变换矩阵T。透视变换矩阵T包含多个透视变换参数T₁₁、T₁₂、T₁₃、T₂₁、T₂₂、T₂₃、T₃₁、T₃₂以及1，如式一所示。

步骤S120，处理单元120根据透视变换矩阵T对图像IMG1执行一透视变换，以获得包含此至少一字的正面视角的校正图像IMG2。处理单元120根据透视变换矩阵T对图像IMG1执行透视变换，以将图像IMG1转换成包含此至少一字的正面视角的校正图像IMG2。请参照图5，其绘示根据本发明一实施例的校正图像IMG2的示意图。以图3的具有车牌的图像IMG1为例，根据透视变换矩阵T对图像IMG1执行透视变换之后，可获得如图5所示的校正图像IMG2。

步骤S130，模型调整单元130使用损失值L更新深度学习模型110。请参照图6，其绘示根据本发明一实施例的步骤S130的子步骤的流程图。步骤S130包括步骤S131至S135。

步骤S131，模型调整单元130标记图像IMG1，此标记具有涵盖字的一标记范围。请参照图7，其绘示根据本发明一实施例的图像IMG1上的标记的示意图。图像IMG1上的标记包括标记点A、B、C及D，且标记点A、B、C及D可形成标记范围R涵盖字。在此实施例中，图像IMG1为具有车牌的图像，标记点A、B、C及D可位于车牌的四个角落，且标记范围R为一四边形。在另一实施例中，若图像IMG1为如图4所示的具有路标的图像，标记点A、B、C及D可位于路标的四个角落，且标记范围为一四边形。在另一实施例中，若图像IMG1中的字并非位于如车牌、路标等几何图形的物件上时，则模型调整单元130只需使标记范围涵盖字即可。在另一实施例中，模型调整单元130也可直接接收已标记的图像，而不执行标记。

请参照图8，其绘示根据本发明一实施例的图像IMG3及延伸图像IMG4的示意图。在一实施例中，当无法通过标记范围涵盖图像IMG3中的字时，或是当图像IMG3中的字部分超出图像IMG3时，模型调整单元130延伸图像IMG3以获得延伸图像IMG4，并标记延伸图像IMG4，使标记范围R’涵盖字。在此实施例中，模型调整单元130增加空白图像BLK至图像IMG3以获得延伸图像IMG4。

请再次参照图7。接着，步骤S132，模型调整单元130根据图像IMG1产生包含字的正面视角的最佳校正图像。在此实施例中，模型调整单元130将图像IMG1上位于标记点A、B、C及D的像素分别对齐至图像的四个角落以获得最佳校正图像。请参照图9，其绘示根据本发明一实施例的最佳校正图像的示意图。如图9所示，最佳校正图像具有字的正面视角。

步骤S133，模型调整单元130获得对应图像IMG1与最佳校正图像的一最佳透视变换矩阵。由于图像IMG1与最佳校正图像之间具有透视变换的关系，因此模型调整单元130可由图像IMG1与最佳校正图像推算一透视变换矩阵作为最佳透视变换矩阵。

步骤S134，模型调整单元130计算最佳透视变换矩阵与透视变换矩阵T之间的一损失值L。接着，步骤S135，模型调整单元130使用损失值L更新深度学习模型110。如图5所示，由于根据透视变换矩阵T对图像IMG1执行透视变换所获得的校正图像IMG2未达到一最佳结果，因此可通过模型调整单元130使用损失值L对深度学习模型110进行更新。

如此一来，本申请所公开的深度学习的图像校正系统100及方法，可利用深度学习模型找出图像校正程序中的透视变换参数以有效率地将各种图像校正成正面视角的图像，并通过损失值更新深度学习模型以提高正确率。

请参考图10，其绘示根据本发明一实施例的基于深度学习的图像校正系统1100的示意图。图像校正系统1100与图像校正系统100不同的是还包括一图像提取单元1140。图像提取单元1140例如是一相机。请同时参照第10及11图。图11绘示根据本发明另一实施例的基于深度学习的图像校正方法的流程图。

步骤S1110，通过图像提取单元1140拍摄具有至少一字的图像IMG5。

步骤S1120，通过深度学习模型1110接收图像IMG5，并根据图像IMG5产生透视变换矩阵T’。步骤S1120类似于图2的步骤S110，在此不多赘述。

步骤S1130，通过深度学习模型1110接收拍摄信息SI，并依据拍摄信息SI限缩透视变换矩阵T’的多个透视变换参数。拍摄信息SI为一拍摄位置、一拍摄方向及一拍摄角度。拍摄位置、拍摄方向及拍摄角度可分别由3个参数、2个参数及1个参数表示。透视变换矩阵T’包含多个透视变换参数T’₁₁、T’₁₂、T’₁₃、T’₂₁、T’₂₂、T’₂₃、T’₃₁、T’₃₂以及1，如式二所示。其中透视变换参数T’₁₁、T’₁₂、T’₁₃、T’₂₁、T’₂₂、T’₂₃、T’₃₁、T’₃₂可由拍摄位置、拍摄方向及拍摄角度的6个参数所决定。

首先，深度学习模型1110给定拍摄位置、拍摄方向及拍摄角度的6个参数的合理范围，并以网格搜寻算法计算透视变换参数T’_mn，并得到T’_mn的最大值L_mn及最小值S_mn。接着，深度学习模型1110通过式三计算每个透视变换参数T’_mn。

T’_mn＝S_mn+(L_mn-S_mn)σ(Z_mn) (式三)

其中Z_mn为无范围限制的数值，以及σ为值域介于0到1的逻辑函数。如此，深度学习模型1110可确保透视变换参数T’₁₁、T’₁₂、T’₁₃、T’₂₁、T’₂₂、T’₂₃、T’₃₁、T’₃₂落于合理范围。

步骤S1140，处理单元1120根据透视变换矩阵T’对图像IMG5执行一透视变换，以获得包含此至少一字的正面视角的校正图像IMG6。步骤S1140类似于图2的步骤S120，在此不多赘述。

步骤S1150，使用损失值L’更新深度学习模型1110。步骤S1150类似于图2的步骤S130，在此不多赘述。

如此一来，本申请所公开的深度学习的图像校正系统1100及方法，可利用拍摄信息SI限缩透视变换参数的范围，以提高深度学习模型1110的正确率，以及使深度学习模型1110更易于训练。

综上所述，虽然本发明已以实施例公开如上，然其并非用以限定本发明。本发明所属领域技术人员，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视所附权利要求书界定范围为准。

Claims

1.一种基于深度学习的图像校正方法，包括：

通过深度学习模型接收具有至少一字的图像，并根据该图像产生透视变换矩阵；

根据该透视变换矩阵对该图像执行透视变换，以获得包含该至少一字的正面视角的校正图像；

根据该图像产生包含该至少一字的正面视角的最佳校正图像；

获得对应该图像与该最佳校正图像的最佳透视变换矩阵；

计算该最佳透视变换矩阵与该透视变换矩阵之间的损失值；以及

使用该损失值更新该深度学习模型。

2.如权利要求1所述的图像校正方法，其中在根据该图像产生包含该至少一字的正面视角的该最佳校正图像的步骤中包括：

标记该图像，该标记具有涵盖该至少一字的标记范围。

3.如权利要求1所述的图像校正方法，其中还包括：

当标记范围无法涵盖该至少一字时，延伸该图像以获得延伸图像；以及

标记该延伸图像，使该标记范围涵盖该至少一字。

4.如权利要求1所述的图像校正方法，其中还包括：

通过图像提取单元提取该图像；以及

根据该图像提取单元的拍摄信息限缩该透视变换矩阵的多个透视变换参数。

5.如权利要求4所述的图像校正方法，其中该拍摄信息包括拍摄位置、拍摄方向及拍摄角度。

6.一种基于深度学习的图像校正系统，包括：

深度学习模型，接收具有至少一字的图像，并根据该图像产生透视变换矩阵；

处理单元，接收该图像及该透视变换矩阵，并根据该透视变换矩阵对该图像执行透视变换，以获得包含该至少一字的正面视角的校正图像；以及

模型调整单元，接收该图像、根据该图像产生包含该至少一字的正面视角的最佳校正图像、获得对应该图像与该最佳校正图像的最佳透视变换矩阵、计算该最佳透视变换矩阵与该透视变换矩阵之间的损失值、并使用该损失值更新该深度学习模型。

7.如权利要求6所述的图像校正系统，其中该模型调整单元还标记该图像，该标记具有涵盖该至少一字的标记范围。

8.如权利要求6所述的图像校正系统，其中当标记范围无法涵盖该至少一字时，该模型调整单元还延伸该图像以获得延伸图像，并标记该延伸图像，使该标记范围涵盖该至少一字。

9.如权利要求6所述的图像校正系统，其中还包括：

图像提取单元，用以提取该图像；

其中该处理单元根据该图像提取单元的拍摄信息限缩该透视变换矩阵的多个透视变换参数。

10.如权利要求9所述的图像校正系统，其中该拍摄信息包括拍摄位置、拍摄方向及拍摄角度。