CN109961020A - 一种发票印章去除方法 - Google Patents

一种发票印章去除方法 Download PDF

Info

Publication number
CN109961020A
CN109961020A CN201910162955.XA CN201910162955A CN109961020A CN 109961020 A CN109961020 A CN 109961020A CN 201910162955 A CN201910162955 A CN 201910162955A CN 109961020 A CN109961020 A CN 109961020A
Authority
CN
China
Prior art keywords
picture
invoice
red channel
optimal threshold
gray
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910162955.XA
Other languages
English (en)
Inventor
桂冠
孟洋
孙颖异
李懋阳
卲蕾
熊健
杨洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201910162955.XA priority Critical patent/CN109961020A/zh
Publication of CN109961020A publication Critical patent/CN109961020A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种发票印章去除方法,该方法包括如下步骤:读取发票图片,并通过函数对发票图片进行通道拆分;提取通道中的红色通道,由此得到红色通道灰度值图片;计算所述红色通道灰度值图片的统计直方图,确定最佳阈值;根据最佳阈值,对所述红色通道灰度值图片进行二值化;采用膨胀算法对二值化后的图片进行处理,得到去除印章后的图片,本发明是针对图像内容的预处理,在去掉发票印章的同时,利用图片融合及修复技术使被遮盖的信息保持完整,主要解决了发票重要信息区域被印章遮住而无法进行下一步发票信息精准识别的问题,结果具有很好的准确性和鲁棒性。

Description

一种发票印章去除方法
技术领域
本发明属于计算机视觉图像处理领域,具体涉及一种发票印章去除方法。
背景技术
随着科学技术不断的提高,各行业对软件行业产品和服务的需求增速达到一个前所未有的高度,越来越多先进的技术给用户带来更好的体验。发票是财务管理中一项重要却又难整理的一项任务,大量的纸质发票若不及时整理,在空间和管理上会存在很多问题;人工录入和采集发票信息虽能扩大空间,但时间和准确率却不能很好的保证。科技的飞速发展,OCR对扫描出来的发票图像进行文字识别,给办公人员带来方便。在现有的发票文字识别技术中,办公人员需将发票通过扫描仪进行图片扫描,然后对图片进行预处理、文字识别等操作。但在智能识别发票的过程中往往会有一些红色印章把一些重要信息区域给覆盖了,比如一些开发票人员盖印章时比较随意,容易把一些关键区域给遮蔽了,这让接下来的发票识别很困难,因此,我们提出一种基于OpenCV的发票印章去除方法,大大提高了OCR文字识别的准确性。
发明内容
本发明的目的在于提供一种发票印章去除方法,以解决现有技术中导致的上述多项缺陷。
一种发票印章去除方法,所述方法包括如下步骤:
读取发票图片,并通过函数对发票图片进行通道拆分;
提取通道中的红色通道,由此得到红色通道灰度值图片;
计算所述红色通道灰度值图片的统计直方图,确定最佳阈值;
根据最佳阈值,对所述红色通道灰度值图片进行二值化;
采用膨胀算法对二值化后的图片进行处理,得到去除印章后的图片。
优选的,所述读取方法包括:
读取发票图片的BGR色彩以及图片的长和宽。
优选的,所述函数为OpenCV中的split函数。
优选的,所述红色通道灰度值可通过如下公式得出:
其中,rk为像素的灰度级,nk为具有灰度rk的像素的个数,MN 是图像中总的像素的个数,p(rk)为灰度级出现的频率。
优选的,所述最佳阈值的确定方法包括:
利用python第三方库matplotlib(2D绘图库)将红色通道的灰度统计直方图绘制出来,再用迭代法求最佳阈值,公式如下:
T0=(Zmax+Zmin)/2
Tk+1=(Zo+Zb)/2
Zmax为最大灰度值,Zmin为最小灰度值,T0为初始阈值(最大灰度值和最小灰度值的平均值),Zo为所有灰度值小于T0的平均值,Zb为所有灰度值大于T0的平均值,Tk+1为新的阈值,如果Tk==Tk+1,则为最佳阈值。
优选的,所述灰度值图片二值化的方法包括如下步骤:
将小于最佳阈值的像素群设定为白色,大于最佳阈值的像素群设定为黑色。
优选的,所述膨胀算法包括如下:
采用3*3的结构元素扫描图像的每个像素,并与其覆盖的二值图像做‘或’运算;
假设‘或’运算的结果都为0,则结果图像的该像素为0,否则为1,从而使图像放大一圈。
本发明的优点在于:该种发票印章去除方法,能够有效的解决文字识别系统无法识别被印章遮住的重要区域,有效去除印章的同时,保持被遮挡区域数字或文字不被影响,大大提高智能发票识别系统识别发票的准确性,此方法属于计算机视觉中图像内容预处理领域,在此领域产生深远影响。
附图说明
图1为本发明的方法流程示意图。
图2是本发明技术方案中以BGR色彩读取的原始发票图片。
图3是本发明技术方案中R(Red)通道输出图片。
图4是本发明实例中为红色通道的灰度统计直方图。
图5是本发明实例中取最佳阈值后输出图片。
图6是本发明实例中膨胀操作后生成图片。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。本发明使用 Opencv3.4.3、python语言宏定义在Windows平台上进行实现,主要包括几个步骤,其中
步骤一:
第1步:以BGR色彩读取原始发票图片的高和宽;
第2步:利用OpenCV(Open Source Computer Vision Library) 开源的计算机视图库中split函数对原始彩色图片进行通道拆分,呈现B(Blue)、G(Green)、R(Red)三个颜色的通道;
第3步:将红色通道提取,得到红色通道的灰度值图片;
步骤二:
第4步:计算灰度值图片的统计直方图,利用python的第三方库matplotlib(2D绘图库)将统计直方图绘制出来,从而确定最佳阈值;
第5步:根据最佳阈值对灰度值图片进行二值化操作;
第6步:利用膨胀算子对已经二值化的图片进行进一步操作;
步骤三:
第7步:最后输出已经去掉发票印章的图片;
本发明的专利点在于步骤一、步骤二,任何对于步骤一、步骤二的使用,都在本发明的保护领域之内。凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。由技术常识可知,本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此,上述公开的实施方案,就各方面而言,都只是举例说明,并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

Claims (7)

1.一种发票印章去除方法,其特征在于,所述方法包括如下步骤:
读取发票图片,并通过函数对发票图片进行通道拆分;
提取通道中的红色通道,由此得到红色通道灰度值图片;
计算所述红色通道灰度值图片的统计直方图,确定最佳阈值;
根据最佳阈值,对所述红色通道灰度值图片进行二值化;
采用膨胀算法对二值化后的图片进行处理,得到去除印章后的图片。
2.根据权利要求1所述的一种发票印章去除方法,其特征在于:所述读取方法包括:
读取发票图片的BGR色彩以及图片的长和宽。
3.根据权利要求1所述的一种发票印章去除方法,其特征在于:所述函数为OpenCV中的split函数。
4.根据权利要求1所述的一种发票印章去除方法,其特征在于:所述红色通道灰度值可通过如下公式得出:
其中,rk为像素的灰度级,nk为具有灰度rk的像素的个数,MN是图像中总的像素的个数,p(rk)为灰度级出现的频率。
5.根据权利要求1所述的一种发票印章去除方法,其特征在于:所述最佳阈值的确定方法包括:
利用python第三方库matplotlib将红色通道的灰度统计直方图绘制出来,再用迭代法求最佳阈值,公式如下:
T0=(Zmax+Zmin)/2
Tk+1=(Zo+Zb)/2
Zmax为最大灰度值,Zmin为最小灰度值,T0为初始阈值,Zo为所有灰度值小于T0的平均值,Zb为所有灰度值大于T0的平均值,Tk+1为新的阈值,如果Tk==Tk+1,则为最佳阈值。
6.根据权利要求1所述的一种发票印章去除方法,其特征在于:所述灰度值图片二值化的方法包括如下步骤:
将小于最佳阈值的像素群设定为白色,大于最佳阈值的像素群设定为黑色。
7.根据权利要求1所述的一种发票印章去除方法,其特征在于:所述膨胀算法包括如下:
采用3*3的结构元素扫描图像的每个像素,并与其覆盖的二值图像做‘或’运算;
假设‘或’运算的结果都为0,则结果图像的该像素为0,否则为1,从而使图像放大一圈。
CN201910162955.XA 2019-03-05 2019-03-05 一种发票印章去除方法 Withdrawn CN109961020A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910162955.XA CN109961020A (zh) 2019-03-05 2019-03-05 一种发票印章去除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910162955.XA CN109961020A (zh) 2019-03-05 2019-03-05 一种发票印章去除方法

Publications (1)

Publication Number Publication Date
CN109961020A true CN109961020A (zh) 2019-07-02

Family

ID=67024044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910162955.XA Withdrawn CN109961020A (zh) 2019-03-05 2019-03-05 一种发票印章去除方法

Country Status (1)

Country Link
CN (1) CN109961020A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651913A (zh) * 2020-12-17 2021-04-13 广州市申迪计算机系统有限公司 一种发票印章淡化方法、系统、装置及计算机存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651913A (zh) * 2020-12-17 2021-04-13 广州市申迪计算机系统有限公司 一种发票印章淡化方法、系统、装置及计算机存储介质
CN112651913B (zh) * 2020-12-17 2024-03-29 广州市申迪计算机系统有限公司 一种发票印章淡化方法、系统、装置及计算机存储介质

Similar Documents

Publication Publication Date Title
CN110619642B (zh) 一种票据图像中印章与背景文字分离方法
CN101515325B (zh) 基于字符切分和颜色聚类的数字视频中的字符提取方法
US20070253040A1 (en) Color scanning to enhance bitonal image
CN104182750B (zh) 一种在自然场景图像中基于极值连通域的中文检测方法
CN105654072A (zh) 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
CN101295359B (zh) 图像处理装置及图像处理方法
CN104408449B (zh) 智能移动终端场景文字处理方法
CN105354599A (zh) 一种基于改进的slic超像素分割算法的颜色识别方法
CN110309806B (zh) 一种基于视频图像处理的手势识别系统及其方法
CN104361336A (zh) 一种水下视频图像的文字识别方法
CN101933047B (zh) 数字图像中的牙齿定位与白化
CN101599125A (zh) 复杂背景下图像处理的二值化方法
CN103824373B (zh) 一种票据图像金额分类方法及系统
CN102819728A (zh) 一种基于分类模板匹配的交通标志检测方法
CN105631447A (zh) 一种识别圆形公章中文字的方法
CN108830275B (zh) 点阵字符、点阵数字的识别方法及装置
CN110569774B (zh) 基于图像处理与模式识别的折线图图像自动数字化方法
CN111680690A (zh) 一种文字识别方法及装置
JP2013084071A (ja) 帳票認識方法および帳票認識装置
US7668394B2 (en) Background intensity correction of a scan of a document
CN107730508A (zh) 彩色文本图像多通道二值化处理方法
CN109961020A (zh) 一种发票印章去除方法
CN111414960A (zh) 一种人工智能图像特征提取系统及其特征识别方法
CN104573743A (zh) 一种人脸图像检测过滤方法
CN110619331A (zh) 一种基于颜色距离的彩色影像字段定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20190702

WW01 Invention patent application withdrawn after publication