CN112633275A

CN112633275A - 一种基于深度学习的多票据混拍图像校正方法及系统

Info

Publication number: CN112633275A
Application number: CN202011525976.2A
Authority: CN
Inventors: 闫凯; 金洪亮; 林文辉; 李宏伟; 梅俊辉; 王志刚; 张朝霞
Original assignee: Aisino Corp
Current assignee: Aisino Corp
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-04-09
Anticipated expiration: 2040-12-22
Also published as: CN112633275B

Abstract

本发明公开了一种基于深度学习的多票据混拍图像校正方法及系统，通过设计深度学习目标检测模型，将混拍图像切割为每个单目标票据外接矩形区域并标注类别信息，实现系统支持同时校正多个票据目标；在边缘检测之前通过增加图像增强处理，抑制票据目标复杂背景造成的边缘信息干扰，提高边缘检测精度，进而影响校正效果；通过图像校正中的直线检测、直线融合模和直线过滤处理，进一步过滤去除票据目标无关边缘信息，提高图像校正精度。本发明能够有效解决多票据混排图像校正问题，实现从多目标输入到多目标校正图像输出端对端一体化解决，降低人工成本和时间成本，为后续文本高精度识别提供保障。

Description

一种基于深度学习的多票据混拍图像校正方法及系统

技术领域

本发明涉及图像处理技术领域，并且更具体地，涉及一种基于深度学习的多票据混拍图像校正方法及系统。

背景技术

税务相关票据目标中文本信息识别包括增值税发票、定额票、火车票、机票、打车票等票据文本信息自动提取，这类目标的自动识别方便用户快速录入信息，提高各行各业的信息采集效率，降低人工成本。税务相关票据目标识别输入的是包含票据目标的图像，由于拍摄角度、拍摄位置等因素，图像中票据目标会有各种角度的倾斜或畸变，而这类畸变会影响到后续的文本识别精度；此外，为提高识别效率，单张输入图像中包含多个票据目标，为解决以上问题，本专利提出一种基于深度学习的多票据目标校正系统及方法。

对于当前现有的专利中，文本图像的校正针专利对单一角度文本，确定角度后对整个图像校正；条形码图像校正专利中同样面向单个图像中单一目标的校正，基于夹角计算得到校正角度，进而对待校正条形码图像进行旋转，得到校正后的条形码图像。不同于以上专利应用场景，税务相关多票据目标图像，拍摄角度、距离、位置等千差万别导致各个票据目标角度各异，畸变程度也存在差异，目标背景复杂多样，以上提及图像校正相关专利无法应对税务票据目标中多类文本以及畸变情景。

因此，需要一种基于深度学习的多票据混拍图像校正方法。

发明内容

本发明提出一种基于深度学习的多票据混拍图像校正方法及系统，以解决如何从多票据混拍图像中获取单目标票据图像的问题。

为了解决上述问题，根据本发明的一个方面，提供了一种基于深度学习的多票据混拍图像校正方法，所述方法包括：

利用已训练好的基于深度学习的目标检测模型对获取的目标多票据混拍图像进行分析，以获取所述目标多票据混拍图像中的每个单目标票据的外接矩形位置信息和票据类型；

根据每个单目标票据的外接矩形信息获取每个单目标票据图像，并对获取的每个单目标票据图像进行图像增强处理，以获取每个单目标票据图像对应的单目标票据增强图像；

分别对每个单目标票据增强图像依次进行均值滤波处理和边缘化处理，以获取每个单目标票据图像对应的边缘二值图像；

分别对每个边缘二值图像依次进行直线检测处理、直线融合处理、直线过滤处理和透视校正处理，以完成对每个单目标票据图像的校正。

优选地，其中所述方法利用如下方式确定已训练好的基于深度学习的目标检测模型，包括：

获取多个已标记的票据混拍图像样本，并利用所述多个已标记好的票据混拍图像样本对初始的基于深度学习的目标检测模型进行训练和优化，并当目标检测模型的检测精度满足预设的精度要求时，确定当前的目标检测模型为已定已训练好的基于深度学习的目标检测模型；

其中，利用如下公式确定当前的目标检测模型的检测精度，包括：

其中，accuracy为检测精度；TP表示真值标注为票据目标，模型预测为票据目标的个数；FP表示真值标注为背景，模型预测为票据目标的个数；FN表示真值标注为票据目标，模型预测为背景的个数；TN表示真值标注为背景，模型预测为背景的个数。

优选地，其中所述对获取的每个单目标票据图像进行图像增强处理，以获取每个单目标票据图像对应的单目标票据增强图像，包括：

分别对每个单目标票据图像进行IHS变换处理和灰度变换处理，以获取每个单目标票据对应的H图像、I图像、S图像和灰度图像；

分别对每个单目标票据对应的I图像和灰度图像进行加权融合，以获取每个单目标票据对应的单目标票据增强图像。

优选地，其中所述方法利用如下方式对每个单目标票据增强图像进行均值滤波处理，包括：

其中，y_i为经过滤波处理后的像元值；x_i为位置i处的像元值；i和j为增强像元位置。

优选地，其中所述分别对每个边缘二值图像依次进行直线检测处理、直线融合处理、直线过滤处理和透视校正处理，以完成对每个单目标票据图像的校正，包括：

利用霍夫直线检测算法分别从每个边缘二值图像中提取直线：

将每个边缘二值图像中相近的线段和在同一条直线上的线段合并为一条直线，过滤图像中复杂的线段；

过滤每个边缘二值图像中的短小孤立线段，保留平行直线且垂直线对，保留水平方向线段与竖直方向线段长度比例符合对应的票据类型长宽比例的线段对，以获取每个单目标票据图像的角点位置信息；

根据每个单目标票据图像的角点位置信息确定倾斜角度，根据所述倾斜角度实现对每个单目标票据图像的校正。

根据本发明的另一个方面，提供了一种基于深度学习的多票据混拍图像校正系统，所述系统包括：

目标检测模块，用于利用已训练好的基于深度学习的目标检测模型对获取的目标多票据混拍图像进行分析，以获取所述目标多票据混拍图像中的每个单目标票据的外接矩形位置信息和票据类型；

图像增强模块，用于根据每个单目标票据的外接矩形信息获取每个单目标票据图像，并对获取的每个单目标票据图像进行图像增强处理，以获取每个单目标票据图像对应的单目标票据增强图像；

边缘检测模块，用于分别对每个单目标票据增强图像依次进行均值滤波处理和边缘化处理，以获取每个单目标票据图像对应的边缘二值图像；

图像校正模块，用于分别对每个边缘二值图像依次进行直线检测处理、直线融合处理、直线过滤处理和透视校正处理，以完成对每个单目标票据图像的校正。

优选地，其中所述目标检测模块，利用如下方式确定已训练好的基于深度学习的目标检测模型，包括：

优选地，其中所述图像增强模块，对获取的每个单目标票据图像进行图像增强处理，以获取每个单目标票据图像对应的单目标票据增强图像，包括：

优选地，其中所述边缘检测模块，利用如下方式对每个单目标票据增强图像进行均值滤波处理，包括：

优选地，其中所述图像校正模块，分别对每个边缘二值图像依次进行直线检测处理、直线融合处理、直线过滤处理和透视校正处理，以完成对每个单目标票据图像的校正，包括：

本发明提供了一种基于深度学习的多票据混拍图像校正方法及系统，通过设计深度学习目标检测模型，将混拍图像切割为每个单目标票据外接矩形区域并标注类别信息，实现系统支持同时校正多个票据目标；在边缘检测之前通过增加图像增强处理，抑制票据目标复杂背景造成的边缘信息干扰，提高边缘检测精度，进而影响校正效果；通过图像校正中的直线检测、直线融合模和直线过滤处理，进一步过滤去除票据目标无关边缘信息，提高图像校正精度。本发明能够有效解决多票据混排图像校正问题，实现从多目标输入到多目标校正图像输出端对端一体化解决，降低人工成本和时间成本，为后续文本高精度识别提供保障。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为根据本发明实施方式的基于深度学习的多票据混拍图像校正方法100的流程图；

图2为根据本发明实施方式的目标检测的流程图；

图3为根据本发明实施方式的图像增强的流程图；

图4为根据本发明实施方式的边缘检测的流程图；

图5为根据本发明实施方式的图像校正的流程图；

图6为根据本发明实施方式的基于深度学习的多票据混拍图像校正系统600的结构示意图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

图1为根据本发明实施方式的基于深度学习的多票据混拍图像校正方法100的流程图。如图1所示，本发明实施方提供的基于深度学习的多票据混拍图像校正方法，能够有效解决多票据混排图像校正问题，实现从多目标输入到多目标校正图像输出端对端一体化解决，降低人工成本和时间成本，为后续文本高精度识别提供保障。本发明实施方提供的基于深度学习的多票据混拍图像校正方法100，从步骤101处开始，在步骤101利用已训练好的基于深度学习的目标检测模型对获取的目标多票据混拍图像进行分析，以获取所述目标多票据混拍图像中的每个单目标票据的外接矩形位置信息和票据类型。

在本发明的实施方式中，通过输入模块获取目标多票据混拍图像，并在目标检测模块利用基于深度学习的目标检测模型，以目标多票据混拍图像为输入，确定图像中每个单目标票据的外接矩形位置信息以及该票据目标的类型。

与税务相关的票据目标混拍图像中，包含增值税发票、营业执照、火车票、机票、定额票、打车票等，这些票种在同一图片中任意位置组合，以此为输入，输出图像为单个完成校正后的单目标票据图像。

其中，提取多票据混拍目标外接矩形位置信息以及类别信息的过程如图2所示，包括：

(1)模型训练。输入标记好的票据混拍样本训练目标检测模型，并进行精度评价，以获取训练好的目标检测模型。其中，在训练过程中，如果精度大于80％则输出模型，否则重新调整模型和样本训练；其中，模型训练部分使用准确率精度评价，准确率用于描述模型对目标位置和类别的预测准确性，值越大目标检测精度越好好，其计算公式如下所示：

(2)接收通过输入输出模块输入的目标混拍票据图像，并检测获取多个单目标票据图像。

在步骤102，根据每个单目标票据的外接矩形信息获取每个单目标票据图像，并对获取的每个单目标票据图像进行图像增强处理，以获取每个单目标票据图像对应的单目标票据增强图像。

在本发明的实施方式中，对于目标检测模块输出的每个单目标票据图像，存在复杂背景信息，这些背景中仍然存在影响后续边缘检测精度。因此，利用图像增强模块对每个单目标票据图像进行图像增强处理，增强票据目标的边缘信息，使得票据边缘与背景产生较大的反差。

具体地，利用图像增强模块针对复杂背景的单目标票据图像，用于增强票据与背景边缘信息之间的反差，抑制背景边缘信息。其图像增强的过程如图3所示，包括：

(1)输入单目标票据图像，分别通过IHS变换和灰度变换处理，其中IHS变换公式如下所示：

其中，I₀表示I图像；R₀、G₀、B₀分别表示原始输入图像的R、G、B通道的像元值；

(2)获得H图像、S图像、I图像和灰度图像，将I图像与灰度图像加权融合，获得增强后图像，公式如下所示：

I_fus＝α*I+(1-α)*Gray，

其中，I_fus表示单目标票据增强图像；α表示加权融合权重，Gray表示灰度变换后灰度图像像元值。

在步骤103，分别对每个单目标票据增强图像依次进行均值滤波处理和边缘化处理，以获取每个单目标票据图像对应的边缘二值图像。

在本发明的实施方式中，在边缘检测模提取每个单目标票据图像中的边缘信息，只获取票据目标的矩形边缘信息。

在本发明的实施方式中，获得只含有边缘信息的二值图像，以canny算子为例，流程图如图4所示，包括：

(1)输入增强后的单目标票据增强图像，利用均值滤波处理去除干扰噪声，其中均值滤波公式如下所示：

(2)滤波处理后的图像进行二值化处理，以获取二值边缘处理。此处以canny检测算子为例，经过canny边缘检测后输出二值边缘图像，像元值1为边缘，0为背景。

在步骤104，分别对每个边缘二值图像依次进行直线检测处理、直线融合处理、直线过滤处理和透视校正处理，以完成对每个单目标票据图像的校正。

在本发明的实施方式中，边缘检测模块处理后不仅有票据边缘信息，还包括票据中文字的边缘、线条边缘以及复杂背景中的边缘信息，因此利用图像校正模块的增加直线检测模块、直线融合模块和直线过滤模块依次对边缘二值图像进行直线检测处理、直线融合处理和直线过滤处理，以去除干扰边缘信息，最后利用校正模块进行透视校正处理，实现高精度的单目标票据图像角度的校正。

本发明的图像校正模块根据输入的边缘二值图像，确定票据目标的角点位置信息，最终实现票据目标图像的校正，流程图如图5所示，包括：

(1)输入二值图像，在直线检测模块利用霍夫直线检测算法从边缘二值图像中提取直线：

(2)利用直线融合模块将图像中相近的线段、在同一条直线上的线段合并为一条直线，过滤图像中复杂的线段；

(3)利用直线过滤模块将图像中短小孤立线段过滤，保留平行直线且垂直线对，保留水平方向线段与竖直方向线段长度比例符合对应票据类型长宽比例线段对，获取票据角点位置；

(4)利用透视校正模块根据票据角点位置信息确定票据目标倾斜角度，根据目倾斜角度实现每个单目标票据图像的校正，获取票据目标校正图像。

本发明的方法能够实现多单目标票据同时完成校正，输出每个单目标票据图像，即每一个单目标票据无角度倾斜、无几何畸变存储在一张图像中。本发明为实现多单目标票据同时校正，提出深度学习目标检测模块，将混拍图像切割为单个单目标票据外接矩形区域并标注类别信息，提高图像校正系统自动化等级和校正精度。本发明在图像边缘检测模块之前增加图像增强模块，增强图像边缘信息，抑制复杂背景边缘信息影响，提高单目标票据边缘信息检测精度。本发明在图像校正模块中增加直线检测模块、直线融合模块、直线过滤模块，进一步过滤去除单目标票据无关干扰边缘信息，提高单目标票据矩形四个角点的检测精度，进而提高图像校正的准确性。本发明有效的解决了多票据混排图像校正问题，实现了从多目标输入到多目标校正图像输出端对端一体化解决，降了低人工成本和时间成本，能够为后续文本高精度识别提供保障。

图6为根据本发明实施方式的基于深度学习的多票据混拍图像校正系统600的结构示意图。如图6所示，本发明实施方式提供的基于深度学习的多票据混拍图像校正系统600，包括：目标检测模块601、图像增强模块602、边缘检测模块603和图像校正模块604。

优选地，所述目标检测模块601，用于利用已训练好的基于深度学习的目标检测模型对获取的目标多票据混拍图像进行分析，以获取所述目标多票据混拍图像中的每个单目标票据的外接矩形位置信息和票据类型。

优选地，其中所述目标检测模块601，利用如下方式确定已训练好的基于深度学习的目标检测模型，包括：

优选地，所述图像增强模块602，用于根据每个单目标票据的外接矩形信息获取每个单目标票据图像，并对获取的每个单目标票据图像进行图像增强处理，以获取每个单目标票据图像对应的单目标票据增强图像。

优选地，其中所述图像增强模块602，对获取的每个单目标票据图像进行图像增强处理，以获取每个单目标票据图像对应的单目标票据增强图像，包括：

优选地，所述边缘检测模块603，用于分别对每个单目标票据增强图像依次进行均值滤波处理和边缘化处理，以获取每个单目标票据图像对应的边缘二值图像。

优选地，所述图像校正模块604，用于分别对每个边缘二值图像依次进行直线检测处理、直线融合处理、直线过滤处理和透视校正处理，以完成对每个单目标票据图像的校正。

优选地，其中所述图像校正模块604，分别对每个边缘二值图像依次进行直线检测处理、直线融合处理、直线过滤处理和透视校正处理，以完成对每个单目标票据图像的校正，包括：

本发明的实施例的基于深度学习的多票据混拍图像校正系统600与本发明的另一个实施例的基于深度学习的多票据混拍图像校正方法100相对应，在此不再赘述。

已经通过参考少量实施方式描述了本发明。然而，本领域技术人员所公知的，正如附带的专利权利要求所限定的，除了本发明以上公开的其他的实施例等同地落在本发明的范围内。

通常地，在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释，除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例，除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行，除非明确地说明。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于深度学习的多票据混拍图像校正方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法利用如下方式确定已训练好的基于深度学习的目标检测模型，包括：

3.根据权利要求1所述的方法，其特征在于，所述对获取的每个单目标票据图像进行图像增强处理，以获取每个单目标票据图像对应的单目标票据增强图像，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法利用如下方式对每个单目标票据增强图像进行均值滤波处理，包括：

5.根据权利要求1所述的方法，其特征在于，所述分别对每个边缘二值图像依次进行直线检测处理、直线融合处理、直线过滤处理和透视校正处理，以完成对每个单目标票据图像的校正，包括：

6.一种基于深度学习的多票据混拍图像校正系统，其特征在于，所述系统包括：

7.根据权利要求6所述的系统，其特征在于，所述目标检测模块，利用如下方式确定已训练好的基于深度学习的目标检测模型，包括：

8.根据权利要求6所述的系统，其特征在于，所述图像增强模块，对获取的每个单目标票据图像进行图像增强处理，以获取每个单目标票据图像对应的单目标票据增强图像，包括：

9.根据权利要求6所述的系统，其特征在于，所述边缘检测模块，利用如下方式对每个单目标票据增强图像进行均值滤波处理，包括：

10.根据权利要求6所述的系统，其特征在于，所述图像校正模块，分别对每个边缘二值图像依次进行直线检测处理、直线融合处理、直线过滤处理和透视校正处理，以完成对每个单目标票据图像的校正，包括：