CN109284758A - 一种发票印章消除方法、装置和计算机存储介质 - Google Patents

一种发票印章消除方法、装置和计算机存储介质 Download PDF

Info

Publication number
CN109284758A
CN109284758A CN201811145502.8A CN201811145502A CN109284758A CN 109284758 A CN109284758 A CN 109284758A CN 201811145502 A CN201811145502 A CN 201811145502A CN 109284758 A CN109284758 A CN 109284758A
Authority
CN
China
Prior art keywords
seal
image
invoice
pattern
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811145502.8A
Other languages
English (en)
Other versions
CN109284758B (zh
Inventor
刘军
李威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Institute of Technology
Original Assignee
Wuhan Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Institute of Technology filed Critical Wuhan Institute of Technology
Priority to CN201811145502.8A priority Critical patent/CN109284758B/zh
Publication of CN109284758A publication Critical patent/CN109284758A/zh
Application granted granted Critical
Publication of CN109284758B publication Critical patent/CN109284758B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/273Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion removing elements interfering with the pattern to be recognised
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本发明涉及一种发票印章消除方法、装置和计算机存储介质,方法包括采集含印章图样的发票图像样本,并制成数据集,对所述数据集进行训练,得到训练好的检测模型;利用训练好的所述检测模型对待消除印章的发票图像进行检测,提取所述发票图像中的印章区域图像,并确定所述印章图样的颜色;根据所述印章图样的颜色对所述印章区域图像中的所述印章进行消除,得到印章区域背景图像;将所述印章区域背景图像与提取所述印章区域图像后的所述发票图像进行融合,得到印章消除的目标发票图像。本发明的发票印章消除方法能更好地消除印章,避免影响发票中其他文本信息的识别,能明显提高发票识别的准确率,提高发票识别的工作效率。

Description

一种发票印章消除方法、装置和计算机存储介质
技术领域
本发明涉及发票识别预处理技术领域,尤其涉及一种发票印章消除方法、装置和计算机存储介质。
背景技术
近几年来,随着我国社会经济的飞速发展,经济活动日益频繁,无论是普通消费者还是各种类型的企业对消费必须开具发票、凭票才能进行报销的认识日益深刻。目前,我国每年报销使用的发票数以亿计,而且发票的种类也在不断增多。如果人工处理这些发票的话,一方面会消耗大量的人力物力,加重负责报销的财务人员的工作负担,而且会占用报销者大量额外的精力。另一方面人工处理发票效率低、错误率高。故实现发票自动化处理与智能财务报销有很大的实用价值。
利用图像处理及人工智能领域的相关技术识别发票文字、实现智能财务报销具有重要意义。它即能提高报销效率,减少报销者在报销上浪费的精力和时间,降低财务人员的工作负担,又能降低中小型企业的人力资源成本,对企业与社会发展十分有益。而利用图像处理及人工智能领域识别发票文字时,发票上的印章会对识别过程造成一定影响,需要对发票进行预处理,预先消除发票上的印章,提高发票识别的准确度。
目前,关于发票中印章的消除主要还是依靠图像处理的技术来实现,图像分量提取与阈值分割是该类方法的重要组成部分。图像分量的提取主要是利用彩色模型化的方法实现,如RGB、YIQ、HSI和HSV颜色空间模型等,利用这些颜色空间模型进行阈值分割,将印章与背景分离,进而消除印章,不过这类方法一般只适用于某一类情况下的印章消除。在发票印章的识别任务中,发票图像中会出现含有多个颜色不同的印章、印章颜色深浅不均以及和印章颜色相同的其他字体等情况,这类方法就无法有效地消除其中的印章。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供一种发票印章消除方法、装置和计算机存储介质。
本发明解决上述技术问题的技术方案如下:
一种发票印章消除方法,包括以下步骤:
步骤1:采集含印章图样的发票图像样本,并制成数据集,对所述数据集进行训练,得到训练好的检测模型;
步骤2:利用训练好的所述检测模型对待消除印章的发票图像进行检测,提取所述发票图像中的印章区域图像,并确定所述印章图样的颜色;
步骤3:根据所述印章图样的颜色对所述印章图样进行消除,得到印章区域背景图像;
步骤4:将所述印章区域背景图像与提取所述印章区域图像后的所述发票图像进行融合,得到印章消除的目标发票图像。
本发明的有益效果:通过制作含印章图样的发票图像样本的数据集,并对数据集进行训练,获得训练好的检测模型,再利用训练好的模型对待检测的发票图像进行检测,可确认需要消除的印章区域并提取印章区域图像,还可以确定印章区域图像中印章图样的颜色,上述基于深度学习的检测和提取印章区域图像,能更精确地确认需要消除的印章位置和确定印章图样的颜色,并根据印章图样的颜色进行消除,能更精确地对发票中的印章进行消除,并能消除含有不同颜色的印章图样,保留发票图像中的文本信息;其中,印章区域图像包括印章图样和印章区域背景图像,印章区域背景图像可以是包含文本信息的文本背景图像,也可以是不包含文本信息的空白背景图像,最后通过消除印章的印章区域背景图像与提取印章区域图像后的所述发票图像进行融合,即可得到只消除印章图样的目标发票图像。本发明的基于深度学习的发票印章消除方法能更好地降低印章颜色、大小、类型和倾斜等因素对消除发票印章的影响,具有良好的适用性,并且在消除印章的同时,可以避免影响发票图像中其他的文本信息,不仅消除了印章,且在发票图像中文本检测精度上有较为明显的提升,能明显提高发票识别的准确率,提高发票识别的工作效率。
在上述技术方案的基础上,本发明还可以做如下改进:
进一步:所述步骤1中对所述数据集进行训练具体采用Yolo模型对所述数据集进行训练。
上述进一步方案的有益效果是:Yolo模型为一种基于深度卷积神经网络的目标检测模型,采用Yolo模型进行训练效果更好,能根据印章特性对Yolo模型中的anchor进行对应的调整,可以避免印章的类型、大小和倾斜角度对后续检测的影响,采用训练好的Yolo模型进行检测,更快更准,可以实现对不同颜色、不同类型和不同大小的印章图样进行消除。
进一步:所述步骤1中所述采集含印章图样的发票图像样本制成数据集还包括对所述发票图像样本进行预处理,具体步骤为:
步骤11:对所述发票图像样本进行归一化处理,得到归一化处理后的初始发票图像样本;
步骤12:对所述初始发票图像样本进行标注处理,并将所述标注处理后的所述初始发票图像样本制成所述数据集。
上述进一步方案的有益效果是:通过对发票图像样本进行归一化处理,可以将不同的发票图像样本统一成同一格式,便于后续对同一格式下的发票图像样本进行标注处理,进而方便发票图像样本制成的数据集进行训练,以便于利用训练好的检测模型对印章图样进行检测,便于后续对印章图样进行更精确地消除。
进一步:所述步骤12中对所述初始发票图像样本进行标注处理包括标注所述初始发票样本中的所述印章图样,并标注所述印章图样的位置坐标。
上述进一步方案的有益效果是:针对初始发票样本中印章图样是否确定为印章,以及对印章图样的位置坐标分别进行标注,便于对发票图像样本制成的数据集进行训练,便于获得印章图样在发票图像中的位置,并确定印章图样的颜色,便于利用训练好的检测模型对印章图样进行检测,便于后续对印章图样进行更精确地消除。
进一步:所述步骤3具体包括:
步骤31:将所述印章区域图像由RGB颜色空间模型转换为HSI颜色空间模型,得到所述印章区域图像的HSI颜色分量;
步骤32:对所述HSI颜色分量进行直方图均衡化处理,并根据所述印章图样的颜色对应的HSI颜色分量阈值确定所述直方图均衡化处理后的所述HSI颜色分量中所述印章图样对应的像素点;
步骤33:提取所述RGB颜色空间模型中与所述印章图样的颜色对应的RGB颜色分量,对所述印章图样对应的像素点进行分块阈值分割处理,得到印章消除的所述印章区域背景图像。
上述进一步方案的有益效果是:由于HSI颜色空间模型相比RGB颜色空间模型更符合人类的视觉特效,且HIS颜色空间模型中的H分量对颜色最敏感,因此将印章区域图像的颜色分量由RGB颜色空间模型转换为HSI颜色空间模型,便于后续更好地针对印章图样的颜色对印章图样的像素点进行消除,通过对HSI颜色分量进行直方图均衡化处理,可以增强HIS颜色分量整体的对比度,便于根据检测模型检测得到的印章的颜色对应的颜色分量阈值进行阈值分割处理,确定印章区域图像中印章对应的像素点,通过上述方法能更精确地确定印章区域图像中的印章的像素点,便于后续更精确地对发票中的印章进行消除,同时通过直方图均衡化处理,还可以增强印章区域图像中印章区域背景图像的整体对比度,例如无需消除的文本信息的整体对比度;其中,根据发票印章的先验知识,发票印章主要有红色和蓝色两种颜色,因此可将红色分量的阈值或蓝色分量的阈值作为本发明中印章图样的颜色对应的颜色分量阈值,而当印章颜色不为红色和蓝色时,可根据检测出来的印章图样颜色对应的颜色分量阈值进行确定该印章图样对应的像素点;
由于提取印章图样图像的RGB颜色空间模型的颜色分量,相当于提取印章图样的灰度图像,因此提取印章区域图像的RGB颜色空间模型中与印章图样的颜色对应的RGB颜色分量,对印章区域图像进行分块阈值分割处理,提取的RGB颜色分量与印章图样的颜色越接近,印章图样的灰度图像表现得越淡,越容易与印章区域图像中的文字分割,则越接近印章背景图像,即将印章区域图像中的印章图样作为印章区域背景图像消除的效果越好。
进一步:所述步骤4之前还包括对所述印章区域背景图像进行图像终处理,具体步骤为:
步骤41:采用腐蚀膨胀操作对所述印章区域背景图像进行填充处理,得到填充处理后的中间印章区域背景图像;
步骤42:对所述中间印章区域背景图像进行滤波处理,得到滤波处理后的所述印章区域背景图像。
上述进一步方案的有益效果是:通过腐蚀膨胀操作对消除印章后的印章区域背景图像进行填充,之后再对中间印章区域背景图像进行滤波处理,获得较为平滑完整的印章区域背景图像,并降低了消除印章给印章区域图像中的文字带来的影响,有利于提高后续对发票中的文本的检测与识别精度,进一步提高发票识别的准确率,提高发票识别的工作效率。
依据本发明的另一方面,提供了一种发票印章消除装置,包括采集单元、数据集制作单元、训练单元、检测单元、消除单元和融合单元;
所述采集单元,用于采集含印章图样的发票图像样本;
所述数据集制作单元,用于将所述发票图像样本制成数据集;
所述训练单元,用于对所述数据集进行训练,得到训练好的检测模型;
所述检测单元,用于利用训练好的所述检测模型对待消除印章的发票图像进行检测,提取所述发票图像中的印章区域图像,并确定所述印章图样的颜色;
所述消除单元,用于根据所述印章图样的颜色对所述印章图样进行消除,得到印章区域背景图像;
所述融合单元,用于将所述印章区域背景图像与提取所述印章区域图像后的所述发票图像进行融合,得到印章消除的目标发票图像。
本发明的有益效果是:本发明的发票印章消除装置,通过采集单元、数据集制作单元和训练单元,获得检测精度较高的检测模型,再通过检测单元和消除单元,确定印章区域图像中印章图样的具体位置以及印章图样的颜色,并针对印章图样的颜色进行印章消除,最后通过融合单元,将印章消除后的印章区域背景图像与提取印章区域图像后的发票图像进行融合,获得目标发票图像。其中,印章区域图像包括印章图样和印章区域背景图像,印章区域背景图像可以是包含文本信息的文本背景图像,也可以是不包含文本信息的空白背景图像。本发明的基于深度学习的发票印章消除系统能更好地降低印章颜色、大小、类型和倾斜等因素对消除发票印章的影响,具有良好的适用性,并且在消除印章图样的同时,可以避免影响发票图像中其他的文本信息,不仅消除了印章图样,且在发票图像中文本检测精度上有较为明显的提升,能明显提高发票识别的准确率,提高发票识别的工作效率。
在上述技术方案的基础上,本发明还可以做如下改进:
进一步:还包括图像预处理单元和图像终处理单元;
所述图像预处理单元,用于对所述发票图像样本进行归一化处理,得到归一化处理后的初始发票图像样本;还用于对所述初始发票图像样本进行标注处理;
所述图像终处理单元,用于采用腐蚀膨胀操作对所述印章区域背景图像进行填充处理,得到填充处理后的中间印章区域背景图像;还用于对所述中间印章区域背景图像进行滤波处理,得到滤波处理后的所述印章区域背景图像。
上述进一步方案的有益效果是:通过图像预处理单元对发票图像样本进行归一化处理和标注处理,便于对发票图像样本制成的数据集进行训练,有助于利用训练好的检测模型对印章图样进行检测,便于后续对印章图样进行更精确地消除,以及将消除印章图样的印章区域背景图像与提取印章区域图像后的发票图像进行更精确地融合;通过对消除印章图样后的印章区域背景图像进行腐蚀膨胀填充处理和滤波处理,获得较为平滑完整的发票背景图像,便于后续与提取印章区域图像后的发票图像进行更精确地融合,获得的目标发票图像更精确美观,并降低了消除印章给印章区域图像中的文字带来的影响,有利于提高后续对发票中的文本的检测与识别精度,进一步提高发票识别的准确率,提高发票识别的工作效率。
进一步:所述消除单元包括颜色空间转换单元、直方图均衡化处理单元、确定单元、提取单元和阈值分割单元;
所述颜色空间转换单元,用于将所述印章区域图像由RGB颜色空间模型转换为HSI颜色空间模型,得到所述印章区域图像的HSI颜色分量;
所述直方图均衡化处理单元,用于对所述HSI颜色分量进行直方图均衡化处理;
所述确定单元,用于根据所述印章图样的颜色对应的HSI颜色分量阈值确定所述直方图均衡化处理后的所述HSI颜色分量中所述印章图样对应的像素点;
所述提取单元用于提取所述RGB颜色空间模型中与所述印章图样的颜色对应的RGB颜色分量;
所述阈值分割单元用于根据与所述印章图样的颜色对应的RGB颜色分量对所述印章图样对应的像素点进行分块阈值分割处理,得到印章消除的印章区域背景图像。
上述进一步方案的有益效果:由于HSI颜色空间模型相比RGB颜色空间模型更符合人类的视觉特效,且HIS颜色空间模型中的H分量对颜色最敏感,通过颜色空间转换单元获得印章区域图像的HSI颜色分量,便于更好地根据印章图样的颜色对印章图样的像素点进行消除,通过直方图均衡化处理单元对HSI颜色分量进行直方图均衡化处理,可以增强HIS颜色分量整体的对比度,便于根据印章图样的颜色对应的颜色分量阈值进行阈值分割处理,确定印章区域图像中印章图样对应的像素点,便于后续更精确地对发票中的印章进行消除;通过提取与印章图样的颜色对应的RGB颜色分量对印章区域图像进行分块阈值分割处理,相当于提取印章区域图像中的印章图样的灰度图像,提取的RGB颜色分量与印章图样的颜色越接近,印章图样的灰度图像表现得越淡,越容易与印章区域图像中的文字分割,则越接近印章背景图像,即将印章区域图像中的印章图样作为印章区域背景图像消除的效果越好。其中,根据发票印章的先验知识,发票印章主要有红色和蓝色两种颜色,因此可将红色分量的阈值或蓝色分量的阈值作为本发明中印章图样的颜色对应的颜色分量阈值,而当印章颜色不为红色和蓝色时,可根据检测出来的印章图样颜色对应的颜色分量阈值进行确定该印章对应的像素点。
依据本发明的另一方面,提供了一种发票印章消除装置,包括采集设备和处理设备;
所述采集设备,用于采集含印章的发票图像样本;
所述处理设备包括:处理器、存储器和存储在所述存储器中且可运行在所述处理器上的计算机程序,所述计算机程序在运行时实现本发明的一种发票印章消除方法中的步骤。
本发明的有益效果是:通过存储在存储器上的计算机程序,并运行在处理器上,实现本发明的发票印章消除方法的发票印章消除装置,能更好地降低印章颜色、大小、类型和倾斜等因素对消除发票印章图样的影响,具有良好的适用性,并且在消除印章图样的同时,可以避免影响发票图像中其他的文本信息,不仅消除了印章图样,且在发票图像中的文本检测精度上有较为明显的提升,能明显提高发票识别的准确率,提高发票识别的工作效率。
依据本发明的另一方面,提供了一种计算机存储介质,所述计算机存储介质包括:至少一个指令,在所述指令被执行时实现本发明的一种发票印章消除方法中的步骤。
本发明的有益效果是:通过执行包含至少一个指令的计算机存储介质,实现本发明的发票印章消除,能更好地降低印章颜色、大小、类型和倾斜等因素对消除发票印章的影响,具有良好的适用性,并且在消除印章图样的同时,可以避免影响发票图像中其他的文本信息,不仅消除了印章图样,且在发票图像中的文本检测精度上有较为明显的提升,能明显提高发票识别的准确率,提高发票识别的工作效率。
附图说明
图1为本发明一种发票印章消除方法的流程示意图;
图2为本发明一种发票印章消除方法的应用示意图一;
图3为本发明一种发票印章消除方法的应用示意图二;
图4为本发明实施例二中的发票印章消除装置的结构示意图一;
图5为本发明实施例二中的发票印章消除装置的结构示意图二;
图6为本发明实施例三中的发票印章消除装置的结构示意图。
附图中,各标号所代表的部件列表如下:
10、采集单元,20、数据集制作单元,30、训练单元,40、检测单元,50、消除单元,60、融合单元,80、图像预处理单元,90、图像终处理单元,501、颜色空间转换单元,502、直方图均衡化处理,503、确定单元,504、提取单元,505、阈值分割单元,100、采集设备,200、处理设备,201、处理器,202、存储器,203、计算机程序。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
下面结合附图,对本发明进行说明。
实施例一、如图1-3所示,图1为本发明一种发票印章消除方法的流程示意图,图2为本发明一种发票印章消除方法的应用示意图一,图3为本发明一种发票印章消除方法的应用示意图二。
如图1所示,一种发票印章消除方法,包括以下步骤:
S1:采集含印章图样的发票图像样本制成数据集,并对所述数据集进行训练,得到训练好的检测模型;
S2:利用训练好的所述检测模型对待消除印章的发票图像进行检测,提取所述发票图像中的印章区域图像,并确定所述印章图样的颜色;
S3:根据所述印章图样的颜色对所述印章图样进行消除,得到印章区域背景图像;
S4:将所述印章区域背景图像与提取所述印章区域图像后的所述发票图像进行融合,得到印章消除的目标发票图像。
本发明的发票印章消除方法,通过制作含印章图样的发票图像样本的数据集,并对数据集进行训练,获得训练好的检测模型,再利用训练好的模型对待检测的发票图像进行检测,可确认需要消除的印章区域并提取印章区域图像,上述基于深度学习的检测和提取印章区域图像,能更精确地确认需要消除的印章位置和确定印章图样的颜色,并根据印章图样的颜色进行消除,能更精确地对发票中的印章图样进行消除,并能消除含有不同颜色的印章图样,保留发票图像中的文本信息;其中,印章区域图像包括印章图样和发票背景图像,发票背景图像可以是包含文本信息的文本背景图像,也可以是不包含文本信息的空白背景图像,最后通过消除印章图样的发票背景图像与提取印章区域图像后的所述发票图像进行融合,即可得到只消除印章图样的目标发票图像。本发明的基于深度学习的发票印章消除方法能更好地降低印章颜色、大小、类型和倾斜等因素对消除发票印章图样的影响,具有良好的适用性,并且在消除印章图样的同时,可以避免影响发票图像中其他的文本信息,不仅消除了印章图样,且在发票图像中的文本检测精度上有较为明显的提升,能明显提高发票识别的准确率,提高发票识别的工作效率。
优选地,S1中所述采集含印章图样的发票图像样本制成数据集还包括对所述发票图像样本进行预处理,具体步骤为:
S11:对所述发票图像样本进行归一化处理,得到归一化处理后的初始发票图像样本;
S12:对所述初始发票图像样本进行标注处理,并将所述标注处理后的所述初始发票图像样本制成所述数据集。
通过对发票图像样本进行归一化处理,可以将不同的发票图像样本统一成同一格式,便于后续对同一格式下的发票图像样本进行标注处理,进而方便发票图像样本制成的数据集进行训练,以便利用训练好的检测模型对印章进行检测检测精度更准确;再通过对归一化处理后的初始发票图像样本中的印章图样进行标注处理,便于对发票图像样本制成的数据集进行训练,进一步便于利用训练好的检测模型检测印章,便于后续对印章图样进行更精确地消除,以及将消除印章图样的印章区域背景图像与提取印章区域图像后的发票图像进行更精确地融合。
本实施例中采集含印章的发票中印章图样,并标注发票图像中的印章图样和印章图样的位置坐标等制作成VOC 2007数据集,并采用Yolo V3模型对制作好的VOC 2007数据集进行训练。且通过训练好的Yolo V3模型对待检测的发票进行检测,提取到所述待检测的发票中含有两个印章图样,分别位于发票上方正中间和发票的右下角位置,如图2所示。
优选地,S3具体包括:
S31:将所述印章区域图像由RGB颜色空间模型转换为HSI颜色空间模型,得到所述印章区域图像的HSI颜色分量;
S32:对所述HSI颜色分量进行直方图均衡化处理,并根据所述印章图样的颜色对应的HSI颜色分量阈值确定所述直方图均衡化处理后的所述HIS颜色分量中所述印章图样对应的像素点;
S33:提取所述RGB颜色空间模型中与所述印章图样的颜色对应的RGB颜色分量,对所述印章图样对应的像素点进行分块阈值分割处理,得到印章消除的所述印章区域背景图像。
根据发票印章的先验知识,发票印章主要有红色和蓝色两种颜色,而本实施例中,通过检测模型检测得到上方正中间的印章图样为蓝色,右下角的印章图样为红色,因此本实施例采取分别采用红色分量的阈值和蓝色分量的阈值作为印章图样颜色对应的颜色分量阈值;由于HSI颜色空间模型相比RGB颜色空间模型更符合人类的视觉特效,且HIS颜色空间模型中的H分量对颜色最敏感,将印章区域图像的颜色分量由RGB颜色空间模型转换为HSI颜色空间模型,便于更好的确认印章图样的颜色,通过对HSI颜色分量进行直方图均衡化处理,可以增强HIS颜色分量整体的对比度,便于根据红色分量和蓝色分量的阈值进行阈值分割处理,确定红色分量和蓝色分量分别对应的像素点,通过上述方法能更精确地确定印章图样的像素点,便于后续更精确地对发票中的印章图样进行消除;由于提取印章区域图像的RGB颜色空间模型中与印章图样对应的颜色分量,相当于提取该印章图样的灰度图像,因此提取的RGB颜色分量与印章图样的颜色越接近,印章图样的灰度图像表现得越淡,越容易与印章区域图像中的文字分割,则越接近印章背景图像,即将印章区域图像中的印章图样作为印章背景图像消除的效果越好,本实施例提取蓝色通道分量对上方正中间的印章像素点进行分块阈值分割,消除了蓝色印章,提取红色通道分量对右下角的印章像素点进行分块阈值分割,消除了红色印章,最终得到消除印章的印章区域背景图像;
同时通过直方图均衡化处理,还可以增强印章区域图像中印章区域背景图像的整体对比度,例如提高了本实施例中“合计金额小写:¥1880.00”的整体对比度。
优选地,S4之前还包括对所述印章区域背景图像进行图像终处理,具体步骤为:
S41:采用腐蚀膨胀操作对所述印章区域背景图像进行填充处理,得到填充处理后的中间印章区域背景图像;
S42:对所述中间印章区域背景图像进行滤波处理,得到滤波处理后的所述印章区域背景图像。
通过腐蚀膨胀操作对消除印章后的印章区域背景图像进行填充,之后再对中间印章区域背景图像进行滤波处理,获得较为平滑完整的印章区域背景图像,并降低了消除印章给印章区域图像中的文字带来的影响,有利于提高后续对发票中的文本的检测与识别精度,进一步提高发票识别的准确率,提高发票识别的工作效率。
本实施例采用均值滤波处理方法,并将两个分别经过均值滤波处理后的印章区域背景图像与提取印章区域图像后的发票图像进行融合,得到消除两个印章图样的目前发票图像,如图3所示。
实施例二、如图4所示,图4为本发明一种发票印章消除装置的结构示意图一。
一种发票印章消除装置,包括采集单元10、数据集制作单元20、训练单元30、检测单元40、消除单元50和融合单元60;
所述采集单元10,用于采集含印章图样的发票图像样本;
所述数据集制作单元20,用于将所述发票图像样本制成数据集;
所述训练单元30,用于对所述数据集进行训练,得到训练好的检测模型;
所述检测单元40,用于利用训练好的所述检测模型对待消除印章的发票图像进行检测,提取所述发票图像中的印章区域图像,并确定所述印章图样的颜色;
所述消除单元50,用于根据所述印章图样的颜色对所述印章图样进行消除,得到印章区域背景图像;
所述融合单元60,用于将所述印章区域背景图像与提取所述印章区域图像后的所述发票图像进行融合,得到印章消除的目标发票图像。
本发明的发票印章消除装置,通过采集单元、数据集制作单元和训练单元,获得检测精度较高的检测模型,再通过检测单元、图像变换单元和消除单元,确定发票图像中的印章区域图像的具体位置以及印章图样的颜色,并针对印章图样的颜色进行印章消除,最后通过融合单元,将印章消除后的发票背景图像与提取印章区域图像后的发票图像进行融合,获得目标发票图像。其中,印章区域图像包括印章图样和印章区域背景图像,印章区域背景图像可以是包含文本信息的文本背景图像,也可以是不包含文本信息的空白背景图像。本发明的基于深度学习的发票印章消除系统能更好地降低印章颜色、大小、类型和倾斜等因素对消除发票印章的影响,具有良好的适用性,并且在消除印章图样的同时,可以避免影响发票图像中其他的文本信息,不仅消除了印章图样,且在文本检测精度上有较为明显的提升,能明显提高发票识别的准确率,提高发票识别的工作效率。
优选地,如图5所示,图5为本发明一种发票印章消除装置的结构示意图二,还包括图像预处理单元80和图像终处理单元90;
所述图像预处理单元80,用于对所述发票图像样本进行归一化处理,得到归一化处理后的初始发票图像样本;还用于对所述初始发票图像样本进行标注处理;
所述图像终处理单元90,用于采用腐蚀膨胀操作对所述印章区域背景图像进行填充处理,得到填充处理后的中间印章区域背景图像;还用于对所述中间印章区域背景图像进行滤波处理,得到滤波处理后的所述印章区域背景图像。
通过图像预处理单元对发票图像样本进行归一化处理和标注处理,便于对发票图像样本制成的数据集进行训练,进一步便于利用训练好的检测模型检测印章的精度更准确,便于后续对印章图样进行更精确地消除,以及将消除印章图样的印章区域背景图像与提取印章图像后的发票图像进行更精确地融合;通过对消除印章图样后的印章区域背景图像进行腐蚀膨胀填充处理和滤波处理,获得较为平滑完整的印章区域背景图像,降低了消除印章给印章区域图像中的文字带来的影响,有利于提高后续对发票中的文本的检测与识别精度,进一步提高发票识别的准确率,提高发票识别的工作效率。
优选地,如图5所示,所述消除单元50包括颜色空间转换单元501、直方图均衡化处理单元502、确定单元503、提取单元504和阈值分割单元505;
所述颜色空间转换单元501,用于将所述印章区域图像由RGB颜色空间模型转换为HSI颜色空间模型,得到所述印章区域图像的HSI颜色分量;
所述直方图均衡化处理单元502,用于对所述HSI颜色分量进行直方图均衡化处理;
所述确定单元503,用于根据所述印章图样的颜色对应的HSI颜色分量阈值确定所述直方图均衡化处理后的所述HSI颜色分量中所述印章图样对应的像素点;
所述提取单元504用于提取所述RGB颜色空间模型中与所述印章图样的颜色对应的RGB颜色分量;
所述阈值分割单元505用于根据与所述印章图样的颜色对应的RGB颜色分量对所述印章图样对应的像素点进行分块阈值分割处理,得到印章消除的印章区域背景图像。
通过颜色空间转换单元获得印章区域图像的HSI颜色分量,便于更好的确认印章图样的像素点,通过直方图均衡化处理单元对HSI颜色分量进行直方图均衡化处理,可以增强HIS颜色分量整体的对比度,便于根据印章图样的颜色对应的颜色分量阈值进行阈值分割处理,确定印章区域图像中印章图样对应的像素点,便于后续更精确地对发票中的印章图样进行消除;通过提取与印章图样的颜色对应的RGB颜色分量对印章区域图像进行分块阈值分割处理,相当于提取印章区域图像中的印章图样的灰度图像,提取的RGB颜色分量与印章图样的颜色越接近,印章图样灰度图像表现越淡越容易与印章区域图像中的文字分割,则越接近印章背景图像,即将印章区域图像中的印章图样作为印章区域背景图中消除的效果越好。其中,根据发票印章的先验知识,发票印章主要有红色和蓝色两种颜色,因此可将红色分量的阈值或蓝色分量的阈值作为本发明中印章图样的颜色对应的颜色分量阈值,而当印章颜色不为红色和蓝色时,可根据检测出来的印章图样颜色对应的颜色分量阈值进行确定该印章图样对应的像素点。
实施例三、基于实施例一和实施例二,本发明还公开了一种发票印章消除装置,如图6所示,图6为本发明另一种发票印章消除装置的结构示意图,包括采集设备100和处理设备200;
所述采集设备100,用于采集含印章的发票图像样本;
所述处理设备200包括:处理器201、存储器202和存储在所述存储器202中且可运行在所述处理器200上的计算机程序203,所述计算机程序203运行时实现如图1所示的以下步骤:
S1:采集含印章图样的发票图像样本制成数据集,并对所述数据集进行训练,得到训练好的检测模型;
S2:利用训练好的所述检测模型对待消除印章的发票图像进行检测,提取所述发票图像中的印章区域图像,并确定所述印章图样的颜色;
S3:根据所述印章图样的颜色对所述印章图样进行消除,得到印章区域背景图像;
S4:将所述印章区域背景图像与提取所述印章区域图像后的所述发票图像进行融合,得到印章消除的目标发票图像。
通过存储在存储器上的计算机程序,并运行在处理器上,实现本发明的发票印章消除方法的发票印章消除装置,能更好地降低印章颜色、大小、类型和倾斜等因素对消除发票印章的影响,具有良好的适用性,并且在消除印章图样的同时,可以避免影响发票图像中其他的文本信息,不仅消除了印章图样,且在发票图像中的文本检测精度上有较为明显的提升,能明显提高发票识别的准确率,提高发票识别的工作效率。
本发明还提供一种计算机存储介质,所述计算机存储介质上存储有至少一个指令,所述指令被执行时实现所述S1-S4的具体方法步骤。
通过执行包含至少一个指令的计算机存储介质,实现本发明的发票印章消除,能更好地降低印章颜色、大小、类型和倾斜等因素对消除发票印章的影响,具有良好的适用性,并且在消除印章图样的同时,可以避免影响发票图像中其他的文本信息,不仅消除了印章图样,且在发票图像中的文本检测精度上有较为明显的提升,能明显提高发票识别的准确率,提高发票识别的工作效率。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种发票印章消除方法,其特征在于,包括以下步骤:
步骤1:采集含印章图样的发票图像样本,并制成数据集,对所述数据集进行训练,得到训练好的检测模型;
步骤2:利用训练好的所述检测模型对待消除印章的发票图像进行检测,提取所述发票图像中的印章区域图像,并确定所述印章图样的颜色;
步骤3:根据所述印章图样的颜色对所述印章图样进行消除,得到印章区域背景图像;
步骤4:将所述印章区域背景图像与提取所述印章区域图像后的所述发票图像进行融合,得到印章消除的目标发票图像。
2.根据权利要求1所述的一种发票印章消除方法,其特征在于,所述步骤1中所述采集含印章图样的发票图像样本制成数据集还包括对所述发票图像样本进行预处理,具体步骤为:
步骤11:对所述发票图像样本进行归一化处理,得到归一化处理后的初始发票图像样本;
步骤12:对所述初始发票图像样本进行标注处理,并将所述标注处理后的所述初始发票图像样本制成所述数据集。
3.根据权利要求2所述的一种发票印章消除方法,其特征在于,所述步骤1中对所述数据集进行训练具体采用Yolo模型对所述数据集进行训练。
4.根据权利要求1所述的一种发票印章消除方法,其特征在于,所述步骤3具体包括:
步骤31:将所述印章区域图像由RGB颜色空间模型转换为HSI颜色空间模型,得到所述印章区域图像的HSI颜色分量;
步骤32:对所述HSI颜色分量进行直方图均衡化处理,并根据所述印章图样的颜色对应的HSI颜色分量阈值确定所述直方图均衡化处理后的所述HSI颜色分量中所述印章图样对应的像素点;
步骤33:提取所述RGB颜色空间模型中与所述印章图样的颜色对应的RGB颜色分量,对所述印章图样对应的像素点进行分块阈值分割处理,得到印章消除的所述印章区域背景图像。
5.根据权利要求1所述的一种发票印章消除方法,其特征在于,所述步骤4之前还包括对所述印章区域背景图像进行图像终处理,具体步骤为:
步骤41:采用腐蚀膨胀操作对所述印章区域背景图像进行填充处理,得到填充处理后的中间印章区域背景图像;
步骤42:对所述中间印章区域背景图像进行滤波处理,得到滤波处理后的所述印章区域背景图像。
6.一种发票印章消除装置,其特征在于,包括采集单元、数据集制作单元、训练单元、检测单元、消除单元和融合单元;
所述采集单元,用于采集含印章图样的发票图像样本;
所述数据集制作单元,用于将所述发票图像样本制成数据集;
所述训练单元,用于对所述数据集进行训练,得到训练好的检测模型;
所述检测单元,用于利用训练好的所述检测模型对待消除印章的发票图像进行检测,提取所述发票图像中的印章区域图像,并确定所述印章图样的颜色;
所述消除单元,用于根据所述印章图样的颜色对所述印章图样进行消除,得到印章区域背景图像;
所述融合单元,用于将所述印章区域背景图像与提取所述印章区域图像后的所述发票图像进行融合,得到印章消除的目标发票图像。
7.根据权利要求6所述的一种发票印章消除装置,其特征在于,还包括图像预处理单元和图像终处理单元;
所述图像预处理单元,用于对所述发票图像样本进行归一化处理,得到归一化处理后的初始发票图像样本;还用于对所述初始发票图像样本进行标注处理;
所述图像终处理单元,用于采用腐蚀膨胀操作对所述印章区域背景图像进行填充处理,得到填充处理后的中间印章区域背景图像;还用于对所述中间印章区域背景图像进行滤波处理,得到滤波处理后的所述印章区域背景图像。
8.根据权利要求6所述的一种发票印章消除装置,其特征在于,所述消除单元包括颜色空间转换单元、直方图均衡化处理单元、确定单元、提取单元和阈值分割单元;
所述颜色空间转换单元,用于将所述印章区域图像由RGB颜色空间模型转换为HSI颜色空间模型,得到所述印章区域图像的HSI颜色分量;
所述直方图均衡化处理单元,用于对所述HSI颜色分量进行直方图均衡化处理;
所述确定单元,用于根据所述印章图样的颜色对应的HSI颜色分量阈值确定所述直方图均衡化处理后的所述HSI颜色分量中所述印章图样对应的像素点;
所述提取单元用于提取所述RGB颜色空间模型中与所述印章图样的颜色对应的RGB颜色分量;
所述阈值分割单元用于根据与所述印章图样的颜色对应的RGB颜色分量对所述印章图样对应的像素点进行分块阈值分割处理,得到印章消除的印章区域背景图像。
9.一种发票印章消除装置,其特征在于,所述装置包括采集设备和处理设备;
所述采集设备,用于采集含印章的发票图像样本;
所述处理设备包括:处理器、存储器和存储在所述存储器中且可运行在所述处理器上的计算机程序,所述计算机程序运行时实现如权利要求1-5任一项权利要求所述的方法步骤。
10.一种计算机存储介质,其特征在于,所述计算机存储介质包括:至少一个指令,在所述指令被执行时实现如权利要求1-5任一项所述的方法步骤。
CN201811145502.8A 2018-09-29 2018-09-29 一种发票印章消除方法、装置和计算机存储介质 Active CN109284758B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811145502.8A CN109284758B (zh) 2018-09-29 2018-09-29 一种发票印章消除方法、装置和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811145502.8A CN109284758B (zh) 2018-09-29 2018-09-29 一种发票印章消除方法、装置和计算机存储介质

Publications (2)

Publication Number Publication Date
CN109284758A true CN109284758A (zh) 2019-01-29
CN109284758B CN109284758B (zh) 2021-11-16

Family

ID=65182567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811145502.8A Active CN109284758B (zh) 2018-09-29 2018-09-29 一种发票印章消除方法、装置和计算机存储介质

Country Status (1)

Country Link
CN (1) CN109284758B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110060265A (zh) * 2019-05-15 2019-07-26 北京艺泉科技有限公司 一种从书画文物图像中分割并提取印章的方法
CN110517186A (zh) * 2019-07-30 2019-11-29 金蝶软件(中国)有限公司 消除发票印章的方法、装置、存储介质和计算机设备
CN110598686A (zh) * 2019-09-17 2019-12-20 携程计算机技术(上海)有限公司 发票的识别方法、系统、电子设备和介质
CN110619642A (zh) * 2019-09-05 2019-12-27 四川大学 一种票据图像中印章与背景文字分离方法
CN110895696A (zh) * 2019-11-05 2020-03-20 泰康保险集团股份有限公司 一种图像信息提取方法和装置
CN111223112A (zh) * 2020-01-07 2020-06-02 江苏君英天达人工智能研究院有限公司 基于图像均值漂移和水平集方法的图像分割方法
CN111754414A (zh) * 2019-03-29 2020-10-09 搜狗(杭州)智能科技有限公司 一种图像处理方法、装置和用于图像处理的装置
CN112069973A (zh) * 2020-09-01 2020-12-11 Pfu上海计算机有限公司 印章处理方法、装置、设备及存储介质
CN112651913A (zh) * 2020-12-17 2021-04-13 广州市申迪计算机系统有限公司 一种发票印章淡化方法、系统、装置及计算机存储介质
CN113449717A (zh) * 2021-05-27 2021-09-28 众安在线财产保险股份有限公司 发票图片处理方法、保险理赔方法、装置、设备和介质
CN113538498A (zh) * 2021-08-02 2021-10-22 傲雄在线(重庆)科技有限公司 一种基于局部二值化的印章图像分割方法、电子设备和可读存储介质
CN113657377A (zh) * 2021-07-22 2021-11-16 西南财经大学 一种机打票据图像结构化识别方法
CN113705571A (zh) * 2021-08-31 2021-11-26 平安银行股份有限公司 基于rgb阈值去红章的方法、装置、可读介质及电子设备
CN114936965A (zh) * 2022-06-07 2022-08-23 上海弘玑信息技术有限公司 一种印章去除方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122999A (zh) * 2007-04-16 2008-02-13 北京联合大学 一种自动提取中国书画作品中印章图像的方法
CN106340027A (zh) * 2016-08-26 2017-01-18 西北大学 一种基于图像超分辨率的书法背景重建方法
CN108010040A (zh) * 2017-12-20 2018-05-08 南通艾思达智能科技有限公司 一种分离医疗票据红色印章的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122999A (zh) * 2007-04-16 2008-02-13 北京联合大学 一种自动提取中国书画作品中印章图像的方法
CN106340027A (zh) * 2016-08-26 2017-01-18 西北大学 一种基于图像超分辨率的书法背景重建方法
CN108010040A (zh) * 2017-12-20 2018-05-08 南通艾思达智能科技有限公司 一种分离医疗票据红色印章的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘志慧: "《椭圆印章自动定位系统的实现》", 《智能处理与应用》 *
季婧婧: "《基于二次分割的银行票据彩色印章的滤除》", 《现代电子技术》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111754414A (zh) * 2019-03-29 2020-10-09 搜狗(杭州)智能科技有限公司 一种图像处理方法、装置和用于图像处理的装置
CN111754414B (zh) * 2019-03-29 2023-10-27 北京搜狗科技发展有限公司 一种图像处理方法、装置和用于图像处理的装置
CN110060265A (zh) * 2019-05-15 2019-07-26 北京艺泉科技有限公司 一种从书画文物图像中分割并提取印章的方法
CN110517186A (zh) * 2019-07-30 2019-11-29 金蝶软件(中国)有限公司 消除发票印章的方法、装置、存储介质和计算机设备
CN110619642B (zh) * 2019-09-05 2022-02-01 四川大学 一种票据图像中印章与背景文字分离方法
CN110619642A (zh) * 2019-09-05 2019-12-27 四川大学 一种票据图像中印章与背景文字分离方法
CN110598686A (zh) * 2019-09-17 2019-12-20 携程计算机技术(上海)有限公司 发票的识别方法、系统、电子设备和介质
CN110598686B (zh) * 2019-09-17 2023-08-04 携程计算机技术(上海)有限公司 发票的识别方法、系统、电子设备和介质
CN110895696A (zh) * 2019-11-05 2020-03-20 泰康保险集团股份有限公司 一种图像信息提取方法和装置
CN111223112A (zh) * 2020-01-07 2020-06-02 江苏君英天达人工智能研究院有限公司 基于图像均值漂移和水平集方法的图像分割方法
CN112069973A (zh) * 2020-09-01 2020-12-11 Pfu上海计算机有限公司 印章处理方法、装置、设备及存储介质
CN112651913A (zh) * 2020-12-17 2021-04-13 广州市申迪计算机系统有限公司 一种发票印章淡化方法、系统、装置及计算机存储介质
CN112651913B (zh) * 2020-12-17 2024-03-29 广州市申迪计算机系统有限公司 一种发票印章淡化方法、系统、装置及计算机存储介质
CN113449717A (zh) * 2021-05-27 2021-09-28 众安在线财产保险股份有限公司 发票图片处理方法、保险理赔方法、装置、设备和介质
CN113657377A (zh) * 2021-07-22 2021-11-16 西南财经大学 一种机打票据图像结构化识别方法
CN113657377B (zh) * 2021-07-22 2023-11-14 西南财经大学 一种机打票据图像结构化识别方法
CN113538498A (zh) * 2021-08-02 2021-10-22 傲雄在线(重庆)科技有限公司 一种基于局部二值化的印章图像分割方法、电子设备和可读存储介质
CN113705571A (zh) * 2021-08-31 2021-11-26 平安银行股份有限公司 基于rgb阈值去红章的方法、装置、可读介质及电子设备
CN114936965A (zh) * 2022-06-07 2022-08-23 上海弘玑信息技术有限公司 一种印章去除方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN109284758B (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
CN109284758A (zh) 一种发票印章消除方法、装置和计算机存储介质
CN109308476B (zh) 票据信息处理方法、系统及计算机可读存储介质
CN106156761B (zh) 面向移动终端拍摄的图像表格检测与识别方法
CN106909941A (zh) 基于机器视觉的多表字符识别系统及方法
CN102750535B (zh) 自动提取图像前景的方法和系统
CN108846379A (zh) 面单识别方法、系统、终端设备及存储介质
CN106096601B (zh) 一种自动检测票据中字符类型的方法和系统
CN106934386B (zh) 一种基于自启发式策略的自然场景文字检测方法及系统
CN103577475A (zh) 一种图片自动化分类方法、图片处理方法及其装置
CN107633239A (zh) 基于深度学习和ocr的票据分类及票据字段提取方法
CN101599125A (zh) 复杂背景下图像处理的二值化方法
CN105095892A (zh) 基于图像处理的学生文档管理系统
CN106156768A (zh) 基于视觉的机动车行驶证检测方法
CN110363798B (zh) 一种遥感影像解译样本集的生成方法
CN106228157B (zh) 基于图像识别技术的彩色图像文字段落分割与识别方法
CN102236788A (zh) 电力电能表图像自动识别方法
CN102254174A (zh) 崩滑体中裸地信息的自动提取方法
CN105844242A (zh) 图像中的肤色检测方法
CN109840520A (zh) 一种发票关键信息识别方法及系统
CN110390324A (zh) 一种融合视觉与文本特征的简历版面分析算法
EP3852061A1 (en) Method and device for damage segmentation of vehicle damage image
CN113158977B (zh) 改进FANnet生成网络的图像字符编辑方法
CN107818321A (zh) 一种用于车辆年检的水印日期识别方法
CN103336961A (zh) 一种交互式的自然场景文本检测方法
Hartl Computer-vision based pharmaceutical pill recognition on mobile phones

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant