CN112633275A - 一种基于深度学习的多票据混拍图像校正方法及系统 - Google Patents

一种基于深度学习的多票据混拍图像校正方法及系统 Download PDF

Info

Publication number
CN112633275A
CN112633275A CN202011525976.2A CN202011525976A CN112633275A CN 112633275 A CN112633275 A CN 112633275A CN 202011525976 A CN202011525976 A CN 202011525976A CN 112633275 A CN112633275 A CN 112633275A
Authority
CN
China
Prior art keywords
image
bill
target
processing
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011525976.2A
Other languages
English (en)
Other versions
CN112633275B (zh
Inventor
闫凯
金洪亮
林文辉
李宏伟
梅俊辉
王志刚
张朝霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN202011525976.2A priority Critical patent/CN112633275B/zh
Publication of CN112633275A publication Critical patent/CN112633275A/zh
Application granted granted Critical
Publication of CN112633275B publication Critical patent/CN112633275B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的多票据混拍图像校正方法及系统,通过设计深度学习目标检测模型,将混拍图像切割为每个单目标票据外接矩形区域并标注类别信息,实现系统支持同时校正多个票据目标;在边缘检测之前通过增加图像增强处理,抑制票据目标复杂背景造成的边缘信息干扰,提高边缘检测精度,进而影响校正效果;通过图像校正中的直线检测、直线融合模和直线过滤处理,进一步过滤去除票据目标无关边缘信息,提高图像校正精度。本发明能够有效解决多票据混排图像校正问题,实现从多目标输入到多目标校正图像输出端对端一体化解决,降低人工成本和时间成本,为后续文本高精度识别提供保障。

Description

一种基于深度学习的多票据混拍图像校正方法及系统
技术领域
本发明涉及图像处理技术领域,并且更具体地,涉及一种基于深度学习的多票据混拍图像校正方法及系统。
背景技术
税务相关票据目标中文本信息识别包括增值税发票、定额票、火车票、机票、打车票等票据文本信息自动提取,这类目标的自动识别方便用户快速录入信息,提高各行各业的信息采集效率,降低人工成本。税务相关票据目标识别输入的是包含票据目标的图像,由于拍摄角度、拍摄位置等因素,图像中票据目标会有各种角度的倾斜或畸变,而这类畸变会影响到后续的文本识别精度;此外,为提高识别效率,单张输入图像中包含多个票据目标,为解决以上问题,本专利提出一种基于深度学习的多票据目标校正系统及方法。
对于当前现有的专利中,文本图像的校正针专利对单一角度文本,确定角度后对整个图像校正;条形码图像校正专利中同样面向单个图像中单一目标的校正,基于夹角计算得到校正角度,进而对待校正条形码图像进行旋转,得到校正后的条形码图像。不同于以上专利应用场景,税务相关多票据目标图像,拍摄角度、距离、位置等千差万别导致各个票据目标角度各异,畸变程度也存在差异,目标背景复杂多样,以上提及图像校正相关专利无法应对税务票据目标中多类文本以及畸变情景。
因此,需要一种基于深度学习的多票据混拍图像校正方法。
发明内容
本发明提出一种基于深度学习的多票据混拍图像校正方法及系统,以解决如何从多票据混拍图像中获取单目标票据图像的问题。
为了解决上述问题,根据本发明的一个方面,提供了一种基于深度学习的多票据混拍图像校正方法,所述方法包括:
利用已训练好的基于深度学习的目标检测模型对获取的目标多票据混拍图像进行分析,以获取所述目标多票据混拍图像中的每个单目标票据的外接矩形位置信息和票据类型;
根据每个单目标票据的外接矩形信息获取每个单目标票据图像,并对获取的每个单目标票据图像进行图像增强处理,以获取每个单目标票据图像对应的单目标票据增强图像;
分别对每个单目标票据增强图像依次进行均值滤波处理和边缘化处理,以获取每个单目标票据图像对应的边缘二值图像;
分别对每个边缘二值图像依次进行直线检测处理、直线融合处理、直线过滤处理和透视校正处理,以完成对每个单目标票据图像的校正。
优选地,其中所述方法利用如下方式确定已训练好的基于深度学习的目标检测模型,包括:
获取多个已标记的票据混拍图像样本,并利用所述多个已标记好的票据混拍图像样本对初始的基于深度学习的目标检测模型进行训练和优化,并当目标检测模型的检测精度满足预设的精度要求时,确定当前的目标检测模型为已定已训练好的基于深度学习的目标检测模型;
其中,利用如下公式确定当前的目标检测模型的检测精度,包括:
Figure BDA0002850820370000021
其中,accuracy为检测精度;TP表示真值标注为票据目标,模型预测为票据目标的个数;FP表示真值标注为背景,模型预测为票据目标的个数;FN表示真值标注为票据目标,模型预测为背景的个数;TN表示真值标注为背景,模型预测为背景的个数。
优选地,其中所述对获取的每个单目标票据图像进行图像增强处理,以获取每个单目标票据图像对应的单目标票据增强图像,包括:
分别对每个单目标票据图像进行IHS变换处理和灰度变换处理,以获取每个单目标票据对应的H图像、I图像、S图像和灰度图像;
分别对每个单目标票据对应的I图像和灰度图像进行加权融合,以获取每个单目标票据对应的单目标票据增强图像。
优选地,其中所述方法利用如下方式对每个单目标票据增强图像进行均值滤波处理,包括:
Figure BDA0002850820370000031
其中,yi为经过滤波处理后的像元值;xi为位置i处的像元值;i和j为增强像元位置。
优选地,其中所述分别对每个边缘二值图像依次进行直线检测处理、直线融合处理、直线过滤处理和透视校正处理,以完成对每个单目标票据图像的校正,包括:
利用霍夫直线检测算法分别从每个边缘二值图像中提取直线:
将每个边缘二值图像中相近的线段和在同一条直线上的线段合并为一条直线,过滤图像中复杂的线段;
过滤每个边缘二值图像中的短小孤立线段,保留平行直线且垂直线对,保留水平方向线段与竖直方向线段长度比例符合对应的票据类型长宽比例的线段对,以获取每个单目标票据图像的角点位置信息;
根据每个单目标票据图像的角点位置信息确定倾斜角度,根据所述倾斜角度实现对每个单目标票据图像的校正。
根据本发明的另一个方面,提供了一种基于深度学习的多票据混拍图像校正系统,所述系统包括:
目标检测模块,用于利用已训练好的基于深度学习的目标检测模型对获取的目标多票据混拍图像进行分析,以获取所述目标多票据混拍图像中的每个单目标票据的外接矩形位置信息和票据类型;
图像增强模块,用于根据每个单目标票据的外接矩形信息获取每个单目标票据图像,并对获取的每个单目标票据图像进行图像增强处理,以获取每个单目标票据图像对应的单目标票据增强图像;
边缘检测模块,用于分别对每个单目标票据增强图像依次进行均值滤波处理和边缘化处理,以获取每个单目标票据图像对应的边缘二值图像;
图像校正模块,用于分别对每个边缘二值图像依次进行直线检测处理、直线融合处理、直线过滤处理和透视校正处理,以完成对每个单目标票据图像的校正。
优选地,其中所述目标检测模块,利用如下方式确定已训练好的基于深度学习的目标检测模型,包括:
获取多个已标记的票据混拍图像样本,并利用所述多个已标记好的票据混拍图像样本对初始的基于深度学习的目标检测模型进行训练和优化,并当目标检测模型的检测精度满足预设的精度要求时,确定当前的目标检测模型为已定已训练好的基于深度学习的目标检测模型;
其中,利用如下公式确定当前的目标检测模型的检测精度,包括:
Figure BDA0002850820370000041
其中,accuracy为检测精度;TP表示真值标注为票据目标,模型预测为票据目标的个数;FP表示真值标注为背景,模型预测为票据目标的个数;FN表示真值标注为票据目标,模型预测为背景的个数;TN表示真值标注为背景,模型预测为背景的个数。
优选地,其中所述图像增强模块,对获取的每个单目标票据图像进行图像增强处理,以获取每个单目标票据图像对应的单目标票据增强图像,包括:
分别对每个单目标票据图像进行IHS变换处理和灰度变换处理,以获取每个单目标票据对应的H图像、I图像、S图像和灰度图像;
分别对每个单目标票据对应的I图像和灰度图像进行加权融合,以获取每个单目标票据对应的单目标票据增强图像。
优选地,其中所述边缘检测模块,利用如下方式对每个单目标票据增强图像进行均值滤波处理,包括:
Figure BDA0002850820370000042
其中,yi为经过滤波处理后的像元值;xi为位置i处的像元值;i和j为增强像元位置。
优选地,其中所述图像校正模块,分别对每个边缘二值图像依次进行直线检测处理、直线融合处理、直线过滤处理和透视校正处理,以完成对每个单目标票据图像的校正,包括:
利用霍夫直线检测算法分别从每个边缘二值图像中提取直线:
将每个边缘二值图像中相近的线段和在同一条直线上的线段合并为一条直线,过滤图像中复杂的线段;
过滤每个边缘二值图像中的短小孤立线段,保留平行直线且垂直线对,保留水平方向线段与竖直方向线段长度比例符合对应的票据类型长宽比例的线段对,以获取每个单目标票据图像的角点位置信息;
根据每个单目标票据图像的角点位置信息确定倾斜角度,根据所述倾斜角度实现对每个单目标票据图像的校正。
本发明提供了一种基于深度学习的多票据混拍图像校正方法及系统,通过设计深度学习目标检测模型,将混拍图像切割为每个单目标票据外接矩形区域并标注类别信息,实现系统支持同时校正多个票据目标;在边缘检测之前通过增加图像增强处理,抑制票据目标复杂背景造成的边缘信息干扰,提高边缘检测精度,进而影响校正效果;通过图像校正中的直线检测、直线融合模和直线过滤处理,进一步过滤去除票据目标无关边缘信息,提高图像校正精度。本发明能够有效解决多票据混排图像校正问题,实现从多目标输入到多目标校正图像输出端对端一体化解决,降低人工成本和时间成本,为后续文本高精度识别提供保障。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为根据本发明实施方式的基于深度学习的多票据混拍图像校正方法100的流程图;
图2为根据本发明实施方式的目标检测的流程图;
图3为根据本发明实施方式的图像增强的流程图;
图4为根据本发明实施方式的边缘检测的流程图;
图5为根据本发明实施方式的图像校正的流程图;
图6为根据本发明实施方式的基于深度学习的多票据混拍图像校正系统600的结构示意图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
图1为根据本发明实施方式的基于深度学习的多票据混拍图像校正方法100的流程图。如图1所示,本发明实施方提供的基于深度学习的多票据混拍图像校正方法,能够有效解决多票据混排图像校正问题,实现从多目标输入到多目标校正图像输出端对端一体化解决,降低人工成本和时间成本,为后续文本高精度识别提供保障。本发明实施方提供的基于深度学习的多票据混拍图像校正方法100,从步骤101处开始,在步骤101利用已训练好的基于深度学习的目标检测模型对获取的目标多票据混拍图像进行分析,以获取所述目标多票据混拍图像中的每个单目标票据的外接矩形位置信息和票据类型。
优选地,其中所述方法利用如下方式确定已训练好的基于深度学习的目标检测模型,包括:
获取多个已标记的票据混拍图像样本,并利用所述多个已标记好的票据混拍图像样本对初始的基于深度学习的目标检测模型进行训练和优化,并当目标检测模型的检测精度满足预设的精度要求时,确定当前的目标检测模型为已定已训练好的基于深度学习的目标检测模型;
其中,利用如下公式确定当前的目标检测模型的检测精度,包括:
Figure BDA0002850820370000071
其中,accuracy为检测精度;TP表示真值标注为票据目标,模型预测为票据目标的个数;FP表示真值标注为背景,模型预测为票据目标的个数;FN表示真值标注为票据目标,模型预测为背景的个数;TN表示真值标注为背景,模型预测为背景的个数。
在本发明的实施方式中,通过输入模块获取目标多票据混拍图像,并在目标检测模块利用基于深度学习的目标检测模型,以目标多票据混拍图像为输入,确定图像中每个单目标票据的外接矩形位置信息以及该票据目标的类型。
与税务相关的票据目标混拍图像中,包含增值税发票、营业执照、火车票、机票、定额票、打车票等,这些票种在同一图片中任意位置组合,以此为输入,输出图像为单个完成校正后的单目标票据图像。
其中,提取多票据混拍目标外接矩形位置信息以及类别信息的过程如图2所示,包括:
(1)模型训练。输入标记好的票据混拍样本训练目标检测模型,并进行精度评价,以获取训练好的目标检测模型。其中,在训练过程中,如果精度大于80%则输出模型,否则重新调整模型和样本训练;其中,模型训练部分使用准确率精度评价,准确率用于描述模型对目标位置和类别的预测准确性,值越大目标检测精度越好好,其计算公式如下所示:
Figure BDA0002850820370000072
其中,accuracy为检测精度;TP表示真值标注为票据目标,模型预测为票据目标的个数;FP表示真值标注为背景,模型预测为票据目标的个数;FN表示真值标注为票据目标,模型预测为背景的个数;TN表示真值标注为背景,模型预测为背景的个数。
(2)接收通过输入输出模块输入的目标混拍票据图像,并检测获取多个单目标票据图像。
在步骤102,根据每个单目标票据的外接矩形信息获取每个单目标票据图像,并对获取的每个单目标票据图像进行图像增强处理,以获取每个单目标票据图像对应的单目标票据增强图像。
优选地,其中所述对获取的每个单目标票据图像进行图像增强处理,以获取每个单目标票据图像对应的单目标票据增强图像,包括:
分别对每个单目标票据图像进行IHS变换处理和灰度变换处理,以获取每个单目标票据对应的H图像、I图像、S图像和灰度图像;
分别对每个单目标票据对应的I图像和灰度图像进行加权融合,以获取每个单目标票据对应的单目标票据增强图像。
在本发明的实施方式中,对于目标检测模块输出的每个单目标票据图像,存在复杂背景信息,这些背景中仍然存在影响后续边缘检测精度。因此,利用图像增强模块对每个单目标票据图像进行图像增强处理,增强票据目标的边缘信息,使得票据边缘与背景产生较大的反差。
具体地,利用图像增强模块针对复杂背景的单目标票据图像,用于增强票据与背景边缘信息之间的反差,抑制背景边缘信息。其图像增强的过程如图3所示,包括:
(1)输入单目标票据图像,分别通过IHS变换和灰度变换处理,其中IHS变换公式如下所示:
Figure BDA0002850820370000081
其中,I0表示I图像;R0、G0、B0分别表示原始输入图像的R、G、B通道的像元值;
(2)获得H图像、S图像、I图像和灰度图像,将I图像与灰度图像加权融合,获得增强后图像,公式如下所示:
Ifus=α*I+(1-α)*Gray,
其中,Ifus表示单目标票据增强图像;α表示加权融合权重,Gray表示灰度变换后灰度图像像元值。
在步骤103,分别对每个单目标票据增强图像依次进行均值滤波处理和边缘化处理,以获取每个单目标票据图像对应的边缘二值图像。
优选地,其中所述方法利用如下方式对每个单目标票据增强图像进行均值滤波处理,包括:
Figure BDA0002850820370000091
其中,yi为经过滤波处理后的像元值;xi为位置i处的像元值;i和j为增强像元位置。
在本发明的实施方式中,在边缘检测模提取每个单目标票据图像中的边缘信息,只获取票据目标的矩形边缘信息。
在本发明的实施方式中,获得只含有边缘信息的二值图像,以canny算子为例,流程图如图4所示,包括:
(1)输入增强后的单目标票据增强图像,利用均值滤波处理去除干扰噪声,其中均值滤波公式如下所示:
Figure BDA0002850820370000092
其中,yi为经过滤波处理后的像元值;xi为位置i处的像元值;i和j为增强像元位置。
(2)滤波处理后的图像进行二值化处理,以获取二值边缘处理。此处以canny检测算子为例,经过canny边缘检测后输出二值边缘图像,像元值1为边缘,0为背景。
在步骤104,分别对每个边缘二值图像依次进行直线检测处理、直线融合处理、直线过滤处理和透视校正处理,以完成对每个单目标票据图像的校正。
优选地,其中所述分别对每个边缘二值图像依次进行直线检测处理、直线融合处理、直线过滤处理和透视校正处理,以完成对每个单目标票据图像的校正,包括:
利用霍夫直线检测算法分别从每个边缘二值图像中提取直线:
将每个边缘二值图像中相近的线段和在同一条直线上的线段合并为一条直线,过滤图像中复杂的线段;
过滤每个边缘二值图像中的短小孤立线段,保留平行直线且垂直线对,保留水平方向线段与竖直方向线段长度比例符合对应的票据类型长宽比例的线段对,以获取每个单目标票据图像的角点位置信息;
根据每个单目标票据图像的角点位置信息确定倾斜角度,根据所述倾斜角度实现对每个单目标票据图像的校正。
在本发明的实施方式中,边缘检测模块处理后不仅有票据边缘信息,还包括票据中文字的边缘、线条边缘以及复杂背景中的边缘信息,因此利用图像校正模块的增加直线检测模块、直线融合模块和直线过滤模块依次对边缘二值图像进行直线检测处理、直线融合处理和直线过滤处理,以去除干扰边缘信息,最后利用校正模块进行透视校正处理,实现高精度的单目标票据图像角度的校正。
本发明的图像校正模块根据输入的边缘二值图像,确定票据目标的角点位置信息,最终实现票据目标图像的校正,流程图如图5所示,包括:
(1)输入二值图像,在直线检测模块利用霍夫直线检测算法从边缘二值图像中提取直线:
(2)利用直线融合模块将图像中相近的线段、在同一条直线上的线段合并为一条直线,过滤图像中复杂的线段;
(3)利用直线过滤模块将图像中短小孤立线段过滤,保留平行直线且垂直线对,保留水平方向线段与竖直方向线段长度比例符合对应票据类型长宽比例线段对,获取票据角点位置;
(4)利用透视校正模块根据票据角点位置信息确定票据目标倾斜角度,根据目倾斜角度实现每个单目标票据图像的校正,获取票据目标校正图像。
本发明的方法能够实现多单目标票据同时完成校正,输出每个单目标票据图像,即每一个单目标票据无角度倾斜、无几何畸变存储在一张图像中。本发明为实现多单目标票据同时校正,提出深度学习目标检测模块,将混拍图像切割为单个单目标票据外接矩形区域并标注类别信息,提高图像校正系统自动化等级和校正精度。本发明在图像边缘检测模块之前增加图像增强模块,增强图像边缘信息,抑制复杂背景边缘信息影响,提高单目标票据边缘信息检测精度。本发明在图像校正模块中增加直线检测模块、直线融合模块、直线过滤模块,进一步过滤去除单目标票据无关干扰边缘信息,提高单目标票据矩形四个角点的检测精度,进而提高图像校正的准确性。本发明有效的解决了多票据混排图像校正问题,实现了从多目标输入到多目标校正图像输出端对端一体化解决,降了低人工成本和时间成本,能够为后续文本高精度识别提供保障。
图6为根据本发明实施方式的基于深度学习的多票据混拍图像校正系统600的结构示意图。如图6所示,本发明实施方式提供的基于深度学习的多票据混拍图像校正系统600,包括:目标检测模块601、图像增强模块602、边缘检测模块603和图像校正模块604。
优选地,所述目标检测模块601,用于利用已训练好的基于深度学习的目标检测模型对获取的目标多票据混拍图像进行分析,以获取所述目标多票据混拍图像中的每个单目标票据的外接矩形位置信息和票据类型。
优选地,其中所述目标检测模块601,利用如下方式确定已训练好的基于深度学习的目标检测模型,包括:
获取多个已标记的票据混拍图像样本,并利用所述多个已标记好的票据混拍图像样本对初始的基于深度学习的目标检测模型进行训练和优化,并当目标检测模型的检测精度满足预设的精度要求时,确定当前的目标检测模型为已定已训练好的基于深度学习的目标检测模型;
其中,利用如下公式确定当前的目标检测模型的检测精度,包括:
Figure BDA0002850820370000111
其中,accuracy为检测精度;TP表示真值标注为票据目标,模型预测为票据目标的个数;FP表示真值标注为背景,模型预测为票据目标的个数;FN表示真值标注为票据目标,模型预测为背景的个数;TN表示真值标注为背景,模型预测为背景的个数。
优选地,所述图像增强模块602,用于根据每个单目标票据的外接矩形信息获取每个单目标票据图像,并对获取的每个单目标票据图像进行图像增强处理,以获取每个单目标票据图像对应的单目标票据增强图像。
优选地,其中所述图像增强模块602,对获取的每个单目标票据图像进行图像增强处理,以获取每个单目标票据图像对应的单目标票据增强图像,包括:
分别对每个单目标票据图像进行IHS变换处理和灰度变换处理,以获取每个单目标票据对应的H图像、I图像、S图像和灰度图像;
分别对每个单目标票据对应的I图像和灰度图像进行加权融合,以获取每个单目标票据对应的单目标票据增强图像。
优选地,所述边缘检测模块603,用于分别对每个单目标票据增强图像依次进行均值滤波处理和边缘化处理,以获取每个单目标票据图像对应的边缘二值图像。
优选地,其中所述边缘检测模块,利用如下方式对每个单目标票据增强图像进行均值滤波处理,包括:
Figure BDA0002850820370000121
其中,yi为经过滤波处理后的像元值;xi为位置i处的像元值;i和j为增强像元位置。
优选地,所述图像校正模块604,用于分别对每个边缘二值图像依次进行直线检测处理、直线融合处理、直线过滤处理和透视校正处理,以完成对每个单目标票据图像的校正。
优选地,其中所述图像校正模块604,分别对每个边缘二值图像依次进行直线检测处理、直线融合处理、直线过滤处理和透视校正处理,以完成对每个单目标票据图像的校正,包括:
利用霍夫直线检测算法分别从每个边缘二值图像中提取直线:
将每个边缘二值图像中相近的线段和在同一条直线上的线段合并为一条直线,过滤图像中复杂的线段;
过滤每个边缘二值图像中的短小孤立线段,保留平行直线且垂直线对,保留水平方向线段与竖直方向线段长度比例符合对应的票据类型长宽比例的线段对,以获取每个单目标票据图像的角点位置信息;
根据每个单目标票据图像的角点位置信息确定倾斜角度,根据所述倾斜角度实现对每个单目标票据图像的校正。
本发明的实施例的基于深度学习的多票据混拍图像校正系统600与本发明的另一个实施例的基于深度学习的多票据混拍图像校正方法100相对应,在此不再赘述。
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种基于深度学习的多票据混拍图像校正方法,其特征在于,所述方法包括:
利用已训练好的基于深度学习的目标检测模型对获取的目标多票据混拍图像进行分析,以获取所述目标多票据混拍图像中的每个单目标票据的外接矩形位置信息和票据类型;
根据每个单目标票据的外接矩形信息获取每个单目标票据图像,并对获取的每个单目标票据图像进行图像增强处理,以获取每个单目标票据图像对应的单目标票据增强图像;
分别对每个单目标票据增强图像依次进行均值滤波处理和边缘化处理,以获取每个单目标票据图像对应的边缘二值图像;
分别对每个边缘二值图像依次进行直线检测处理、直线融合处理、直线过滤处理和透视校正处理,以完成对每个单目标票据图像的校正。
2.根据权利要求1所述的方法,其特征在于,所述方法利用如下方式确定已训练好的基于深度学习的目标检测模型,包括:
获取多个已标记的票据混拍图像样本,并利用所述多个已标记好的票据混拍图像样本对初始的基于深度学习的目标检测模型进行训练和优化,并当目标检测模型的检测精度满足预设的精度要求时,确定当前的目标检测模型为已定已训练好的基于深度学习的目标检测模型;
其中,利用如下公式确定当前的目标检测模型的检测精度,包括:
Figure FDA0002850820360000011
其中,accuracy为检测精度;TP表示真值标注为票据目标,模型预测为票据目标的个数;FP表示真值标注为背景,模型预测为票据目标的个数;FN表示真值标注为票据目标,模型预测为背景的个数;TN表示真值标注为背景,模型预测为背景的个数。
3.根据权利要求1所述的方法,其特征在于,所述对获取的每个单目标票据图像进行图像增强处理,以获取每个单目标票据图像对应的单目标票据增强图像,包括:
分别对每个单目标票据图像进行IHS变换处理和灰度变换处理,以获取每个单目标票据对应的H图像、I图像、S图像和灰度图像;
分别对每个单目标票据对应的I图像和灰度图像进行加权融合,以获取每个单目标票据对应的单目标票据增强图像。
4.根据权利要求1所述的方法,其特征在于,所述方法利用如下方式对每个单目标票据增强图像进行均值滤波处理,包括:
Figure FDA0002850820360000021
其中,yi为经过滤波处理后的像元值;xi为位置i处的像元值;i和j为增强像元位置。
5.根据权利要求1所述的方法,其特征在于,所述分别对每个边缘二值图像依次进行直线检测处理、直线融合处理、直线过滤处理和透视校正处理,以完成对每个单目标票据图像的校正,包括:
利用霍夫直线检测算法分别从每个边缘二值图像中提取直线:
将每个边缘二值图像中相近的线段和在同一条直线上的线段合并为一条直线,过滤图像中复杂的线段;
过滤每个边缘二值图像中的短小孤立线段,保留平行直线且垂直线对,保留水平方向线段与竖直方向线段长度比例符合对应的票据类型长宽比例的线段对,以获取每个单目标票据图像的角点位置信息;
根据每个单目标票据图像的角点位置信息确定倾斜角度,根据所述倾斜角度实现对每个单目标票据图像的校正。
6.一种基于深度学习的多票据混拍图像校正系统,其特征在于,所述系统包括:
目标检测模块,用于利用已训练好的基于深度学习的目标检测模型对获取的目标多票据混拍图像进行分析,以获取所述目标多票据混拍图像中的每个单目标票据的外接矩形位置信息和票据类型;
图像增强模块,用于根据每个单目标票据的外接矩形信息获取每个单目标票据图像,并对获取的每个单目标票据图像进行图像增强处理,以获取每个单目标票据图像对应的单目标票据增强图像;
边缘检测模块,用于分别对每个单目标票据增强图像依次进行均值滤波处理和边缘化处理,以获取每个单目标票据图像对应的边缘二值图像;
图像校正模块,用于分别对每个边缘二值图像依次进行直线检测处理、直线融合处理、直线过滤处理和透视校正处理,以完成对每个单目标票据图像的校正。
7.根据权利要求6所述的系统,其特征在于,所述目标检测模块,利用如下方式确定已训练好的基于深度学习的目标检测模型,包括:
获取多个已标记的票据混拍图像样本,并利用所述多个已标记好的票据混拍图像样本对初始的基于深度学习的目标检测模型进行训练和优化,并当目标检测模型的检测精度满足预设的精度要求时,确定当前的目标检测模型为已定已训练好的基于深度学习的目标检测模型;
其中,利用如下公式确定当前的目标检测模型的检测精度,包括:
Figure FDA0002850820360000031
其中,accuracy为检测精度;TP表示真值标注为票据目标,模型预测为票据目标的个数;FP表示真值标注为背景,模型预测为票据目标的个数;FN表示真值标注为票据目标,模型预测为背景的个数;TN表示真值标注为背景,模型预测为背景的个数。
8.根据权利要求6所述的系统,其特征在于,所述图像增强模块,对获取的每个单目标票据图像进行图像增强处理,以获取每个单目标票据图像对应的单目标票据增强图像,包括:
分别对每个单目标票据图像进行IHS变换处理和灰度变换处理,以获取每个单目标票据对应的H图像、I图像、S图像和灰度图像;
分别对每个单目标票据对应的I图像和灰度图像进行加权融合,以获取每个单目标票据对应的单目标票据增强图像。
9.根据权利要求6所述的系统,其特征在于,所述边缘检测模块,利用如下方式对每个单目标票据增强图像进行均值滤波处理,包括:
Figure FDA0002850820360000041
其中,yi为经过滤波处理后的像元值;xi为位置i处的像元值;i和j为增强像元位置。
10.根据权利要求6所述的系统,其特征在于,所述图像校正模块,分别对每个边缘二值图像依次进行直线检测处理、直线融合处理、直线过滤处理和透视校正处理,以完成对每个单目标票据图像的校正,包括:
利用霍夫直线检测算法分别从每个边缘二值图像中提取直线:
将每个边缘二值图像中相近的线段和在同一条直线上的线段合并为一条直线,过滤图像中复杂的线段;
过滤每个边缘二值图像中的短小孤立线段,保留平行直线且垂直线对,保留水平方向线段与竖直方向线段长度比例符合对应的票据类型长宽比例的线段对,以获取每个单目标票据图像的角点位置信息;
根据每个单目标票据图像的角点位置信息确定倾斜角度,根据所述倾斜角度实现对每个单目标票据图像的校正。
CN202011525976.2A 2020-12-22 2020-12-22 一种基于深度学习的多票据混拍图像校正方法及系统 Active CN112633275B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011525976.2A CN112633275B (zh) 2020-12-22 2020-12-22 一种基于深度学习的多票据混拍图像校正方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011525976.2A CN112633275B (zh) 2020-12-22 2020-12-22 一种基于深度学习的多票据混拍图像校正方法及系统

Publications (2)

Publication Number Publication Date
CN112633275A true CN112633275A (zh) 2021-04-09
CN112633275B CN112633275B (zh) 2023-07-18

Family

ID=75320654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011525976.2A Active CN112633275B (zh) 2020-12-22 2020-12-22 一种基于深度学习的多票据混拍图像校正方法及系统

Country Status (1)

Country Link
CN (1) CN112633275B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10283475A (ja) * 1997-04-04 1998-10-23 Minolta Co Ltd 画像処理方法及び装置
JP2004228759A (ja) * 2003-01-21 2004-08-12 Nec Corp 画像補正方法および画像補正装置
WO2009022984A1 (en) * 2007-08-14 2009-02-19 Nanyang Polytechnic Method and system for real time hough transform
JP2010003087A (ja) * 2008-06-19 2010-01-07 Canon Inc 画像処理装置および画像処理方法
JP2015018328A (ja) * 2013-07-09 2015-01-29 富士ゼロックス株式会社 画像読み取り装置、画像処理装置およびプログラム
WO2015096535A1 (zh) * 2013-12-25 2015-07-02 广州广电运通信息科技有限公司 残缺或变形的四边形图像的校正方法
US20170011523A1 (en) * 2015-07-06 2017-01-12 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and storage medium
CN108549890A (zh) * 2018-03-22 2018-09-18 南京邮电大学 基于图像识别的发票倾斜检测及几何校正方法
DE102018207414A1 (de) * 2017-05-18 2018-11-22 Fanuc Corporation Bildverarbeitungssystem
WO2019071660A1 (zh) * 2017-10-09 2019-04-18 平安科技(深圳)有限公司 票据信息识别方法、电子装置及可读存储介质
WO2019071662A1 (zh) * 2017-10-09 2019-04-18 平安科技(深圳)有限公司 电子装置、票据信息识别方法和计算机可读存储介质
CN110210409A (zh) * 2019-06-04 2019-09-06 南昌市微轲联信息技术有限公司 表格单据中表格框线检测方法及系统
WO2019227615A1 (zh) * 2018-06-01 2019-12-05 平安科技(深圳)有限公司 校正发票图像的方法、装置、计算机设备和存储介质
CN110598699A (zh) * 2019-09-16 2019-12-20 华中科技大学 一种基于多光谱图像的防伪票据鉴伪系统和方法
CN110674815A (zh) * 2019-09-29 2020-01-10 四川长虹电器股份有限公司 基于深度学习关键点检测的发票图像畸变校正方法
CN111814575A (zh) * 2020-06-12 2020-10-23 上海品览数据科技有限公司 一种基于深度学习和图像处理的户型图识别方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10283475A (ja) * 1997-04-04 1998-10-23 Minolta Co Ltd 画像処理方法及び装置
JP2004228759A (ja) * 2003-01-21 2004-08-12 Nec Corp 画像補正方法および画像補正装置
WO2009022984A1 (en) * 2007-08-14 2009-02-19 Nanyang Polytechnic Method and system for real time hough transform
JP2010003087A (ja) * 2008-06-19 2010-01-07 Canon Inc 画像処理装置および画像処理方法
JP2015018328A (ja) * 2013-07-09 2015-01-29 富士ゼロックス株式会社 画像読み取り装置、画像処理装置およびプログラム
WO2015096535A1 (zh) * 2013-12-25 2015-07-02 广州广电运通信息科技有限公司 残缺或变形的四边形图像的校正方法
US20170011523A1 (en) * 2015-07-06 2017-01-12 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and storage medium
DE102018207414A1 (de) * 2017-05-18 2018-11-22 Fanuc Corporation Bildverarbeitungssystem
WO2019071660A1 (zh) * 2017-10-09 2019-04-18 平安科技(深圳)有限公司 票据信息识别方法、电子装置及可读存储介质
WO2019071662A1 (zh) * 2017-10-09 2019-04-18 平安科技(深圳)有限公司 电子装置、票据信息识别方法和计算机可读存储介质
CN108549890A (zh) * 2018-03-22 2018-09-18 南京邮电大学 基于图像识别的发票倾斜检测及几何校正方法
WO2019227615A1 (zh) * 2018-06-01 2019-12-05 平安科技(深圳)有限公司 校正发票图像的方法、装置、计算机设备和存储介质
CN110210409A (zh) * 2019-06-04 2019-09-06 南昌市微轲联信息技术有限公司 表格单据中表格框线检测方法及系统
CN110598699A (zh) * 2019-09-16 2019-12-20 华中科技大学 一种基于多光谱图像的防伪票据鉴伪系统和方法
CN110674815A (zh) * 2019-09-29 2020-01-10 四川长虹电器股份有限公司 基于深度学习关键点检测的发票图像畸变校正方法
CN111814575A (zh) * 2020-06-12 2020-10-23 上海品览数据科技有限公司 一种基于深度学习和图像处理的户型图识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李庆峰等: "一种高效的倾斜图像校正方法", 《计算机工程》, no. 21 *

Also Published As

Publication number Publication date
CN112633275B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
US9008426B2 (en) Generating an image presegmented into regions of interest and regions of no interest
CN104867225A (zh) 一种纸币的面向识别方法及装置
CN109255300B (zh) 票据信息提取方法、装置、计算机设备及存储介质
CN111046881B (zh) 基于计算机视觉和深度学习的指针式仪表读数识别方法
CN111222507B (zh) 数字式仪表读数的自动识别方法、计算机可读存储介质
CN108021837B (zh) 一种条形码检测方法、条形码检测装置及电子设备
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
EP2447884B1 (en) Method for detecting and recognising an object in an image, and an apparatus and a computer program therefor
CN110490181B (zh) 一种基于ocr识别技术的表单填写审核方法、装置、设备以及计算机存储介质
CN114387591A (zh) 车牌识别方法、系统、设备及存储介质
CN110738030A (zh) 表格重建方法、装置、电子设备及存储介质
CN110570442A (zh) 一种复杂背景下轮廓检测方法、终端设备及存储介质
CN113158895A (zh) 票据识别方法、装置、电子设备及存储介质
CN114038004A (zh) 一种证件信息提取方法、装置、设备及存储介质
CN108197624A (zh) 证书图像校正识别方法及装置、计算机存储介质
CN111914845A (zh) 一种车牌中字符分层方法、装置及电子设备
CN107369149B (zh) 目标物体的检测装置及方法
CN104966109A (zh) 医疗化验单图像分类方法及装置
CN110991437B (zh) 字符识别方法及其装置、字符识别模型的训练方法及其装置
CN115830514B (zh) 一种适用于带弯曲河道的全河段表面流速计算方法及系统
CN112633275B (zh) 一种基于深度学习的多票据混拍图像校正方法及系统
CN116823748A (zh) 一种基于深度学习和Halcon的螺栓拧紧工业检测方法和装置
CN113743360B (zh) 智能化印章解析的方法和装置
CN113158745B (zh) 一种基于多特征算子的乱码文档图片识别方法及系统
CN112200004B (zh) 图像检测模型的训练方法、装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant