CN107516085B - 一种基于文档图像自动去除黑边的方法 - Google Patents

一种基于文档图像自动去除黑边的方法 Download PDF

Info

Publication number
CN107516085B
CN107516085B CN201710777958.5A CN201710777958A CN107516085B CN 107516085 B CN107516085 B CN 107516085B CN 201710777958 A CN201710777958 A CN 201710777958A CN 107516085 B CN107516085 B CN 107516085B
Authority
CN
China
Prior art keywords
black
document image
defect
image
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710777958.5A
Other languages
English (en)
Other versions
CN107516085A (zh
Inventor
孙鑫
王长征
刘文晓
赵胜男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi Tongfang Zhiwang Digital Publishing Technology Co ltd
Original Assignee
Shanxi Tongfang Zhiwang Digital Publishing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi Tongfang Zhiwang Digital Publishing Technology Co ltd filed Critical Shanxi Tongfang Zhiwang Digital Publishing Technology Co ltd
Priority to CN201710777958.5A priority Critical patent/CN107516085B/zh
Publication of CN107516085A publication Critical patent/CN107516085A/zh
Application granted granted Critical
Publication of CN107516085B publication Critical patent/CN107516085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于文档图像自动去除黑边的方法,包括:对文档图像进行预处理;检测文档图像中的缺陷;根据文档图像缺陷检测结果,判断并识别缺陷种类,包括图像黑边、版面位置;去除文档图像黑边;根据文档图像黑边去除结果,判断并给出黑边去除置信度。本发明可以通过缺陷检测、识别,自动全面地将图像中的黑边去掉,达到了自动化处理要求,并根据结果分析去黑边的效果,分析其置信度。将黑边完全去除的页面设为置信度A,将黑边以外无法去除的黑块、打印孔及未去除干净的页面设为置信度E,这样提高了工作效率,增加了结果的准确性。

Description

一种基于文档图像自动去除黑边的方法
技术领域
本发明涉及图像识别和图像处理的技术领域,尤其涉及一种基于文档图像的缺陷检测、缺陷识别、自动去除及去除后效果评估的方法。
背景技术
在文档高速扫描的过程中,图像边缘会出现一些不规则的黑边(黑边是指扫描图像的黑色边缘),黑边会对图像的视觉效果、信息读取和版面分析等方面造成影响,从而影响用户的正常使用。在数字出版、图书馆管理、档案管理、企业内部资料管理系统中,此类问题尤为突出。因此,去除黑边对改善视觉效果以及提高识别率等方面有着非常重要的作用。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于文档图像自动去除黑边的方法,该方法能自动检测、识别、自动去除黑边,并对去除后的效果作出评估。
本发明的目的通过以下的技术方案来实现:
一种基于文档图像自动去除黑边的方法,包括:
A对文档图像进行预处理;
B检测文档图像中的缺陷;
C根据文档图像缺陷检测结果,判断并识别缺陷种类,包括图像黑边、版面位置;
D去除文档图像黑边;
E根据文档图像黑边去除结果,判断并给出黑边去除置信度。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
可以达到自动去黑边的功能,同时给出结果置信度判断;原来的算法有将文字删除掉,或是黑边去除不干净等问题,本发明解决了多去除或去除不净的问题;原来的算法没有对去除结果做评估,本发明给出结果置信度判断,对去黑边效果作出评估。
附图说明
图1是基于文档图像自动去除黑边的方法流程图;
图2是结果置信度评估属A类的去黑边前后对比图;
图3是结果置信度评估属E类的去黑边前后对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1所示,为基于文档图像自动去除黑边的方法,包括以下步骤:
步骤10对文档图像进行预处理;
步骤20检测文档图像中的缺陷;
步骤30根据文档图像缺陷检测结果,判断并识别缺陷种类,包括图像黑边、版面位置;
步骤40去除文档图像黑边;
步骤50根据文档图像黑边去除结果,判断并给出黑边去除置信度。
上述步骤10对文档图像的预处理包括纠偏、版心居中和二值化。
上述步骤20具体包括:深度优先遍历图像,自动搜索缺陷的连通区域。
上述步骤30中黑边缺陷判断包括:
用一定尺寸的模板判断某个缺陷区域是否属于黑边区域,假定当前判断模板的大小为M×N,k是其中的白色像素数,σ是一个比较小的阈值,计算模板内白色像素的密度k/(M×N),当k/(M×N)<σ时,判断该缺陷为黑边。
黑边的宽高比具有随机性,但为了放置误删页眉线、表格线等有用信息,需将宽与高的比值设定为小于ε。
缺陷种类识别中,版面位置也很重要。根据版面分析,判断缺陷所在位置是否属于文字区域以外的版面。
上述步骤50根据去除黑边的效果,对处理后的文档图像做版面分析,确定文档内容(包括文字与非文字)区域,对文档内容区域外的部分做投影,根据投影结果,分析是否属于未去除干净的黑块黑边,给予评估,做出置信度判断,分为去除后完全正确的A类(如图2所示),疑似有未去除干净的E类(如图3所示)。
上述实施例可以通过缺陷检测、识别,自动全面地将图像中的黑边去掉,达到了自动化处理要求,并根据结果分析去黑边的效果,分析其置信度。将黑边完全去除的页面设为置信度A,将黑边以外无法去除的黑块、打印孔及未去除干净的页面设为置信度E,这样提高了工作效率,增加了结果的准确性。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (1)

1.一种基于文档图像自动去除黑边的方法,其特征在于,所述方法包括:
A对文档图像进行预处理;
B检测文档图像中的缺陷;
C根据文档图像缺陷检测结果,判断并识别缺陷种类,包括图像黑边、版面位置;
D去除文档图像黑边;
E根据文档图像黑边去除结果,判断并给出黑边去除置信度;
所述对文档图像的预处理包括纠偏、版心居中和二值化;
检测文档中的图像包括:深度优先遍历图像,自动搜索缺陷的连通区域;
用一定尺寸的模板判断某个缺陷区域是否属于黑边区域,假定当前判断模板的大小为M×N,k是其中的白色像素数,σ是一个比较小的阈值,计算模板内白色像素的密度k/(M×N),当k/(M×N)<σ时,判断该缺陷为黑边;
黑边的宽高比具有随机性,但为了防止误删页眉线、表格线有用信息,需将宽与高的比值设定为小于ε;
缺陷种类识别中,版面位置也很重要;根据版面分析,判断缺陷所在位置是否属于文字区域以外的版面;
所述步骤E具体包括:
根据去除黑边的效果,对处理后的文档图像做版面分析,确定文档内容包括文字与非文字区域;对文档内容区域外的部分做投影,根据投影结果,分析是否属于未去除干净的黑块黑边;给予评估,做出置信度判断,分为去除后完全正确的A类即黑边完全去除的页面为置信度A,疑似有未去除干净的E类即黑边以外无法去除的黑块、打印孔及未去除干净的页面设为置信度E。
CN201710777958.5A 2017-09-01 2017-09-01 一种基于文档图像自动去除黑边的方法 Active CN107516085B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710777958.5A CN107516085B (zh) 2017-09-01 2017-09-01 一种基于文档图像自动去除黑边的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710777958.5A CN107516085B (zh) 2017-09-01 2017-09-01 一种基于文档图像自动去除黑边的方法

Publications (2)

Publication Number Publication Date
CN107516085A CN107516085A (zh) 2017-12-26
CN107516085B true CN107516085B (zh) 2024-01-26

Family

ID=60723714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710777958.5A Active CN107516085B (zh) 2017-09-01 2017-09-01 一种基于文档图像自动去除黑边的方法

Country Status (1)

Country Link
CN (1) CN107516085B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109003257B (zh) * 2018-06-14 2020-09-01 深圳市华汉伟业科技有限公司 一种光学字符验证方法
CN109146809B (zh) * 2018-08-02 2022-07-26 电子科技大学 一种对扫描文档图像进行去灰边的方法
CN110232045B (zh) * 2019-05-27 2023-08-11 广州润普网络科技有限公司 一种电子卷宗图像处理方法
CN110533674B (zh) * 2019-08-26 2022-05-03 福建捷宇电脑科技有限公司 一种图片去页边的方法及终端
CN112634229B (zh) * 2020-12-22 2022-03-04 北京华宇信息技术有限公司 图像去除黑边的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103208004A (zh) * 2013-03-15 2013-07-17 北京英迈杰科技有限公司 票据信息区域自动识别和提取方法及设备
CN104361335A (zh) * 2014-11-03 2015-02-18 山西同方知网数字出版技术有限公司 一种基于扫描图像自动去除黑边的处理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103208004A (zh) * 2013-03-15 2013-07-17 北京英迈杰科技有限公司 票据信息区域自动识别和提取方法及设备
CN104361335A (zh) * 2014-11-03 2015-02-18 山西同方知网数字出版技术有限公司 一种基于扫描图像自动去除黑边的处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
第10期;张丘等;《计算机仿真》;20051031;第22卷(第10期);第208-211页 *

Also Published As

Publication number Publication date
CN107516085A (zh) 2017-12-26

Similar Documents

Publication Publication Date Title
CN107516085B (zh) 一种基于文档图像自动去除黑边的方法
US8965127B2 (en) Method for segmenting text words in document images
US9384409B1 (en) Word segmentation for document image using recursive segmentation
US7379594B2 (en) Methods and systems for automatic detection of continuous-tone regions in document images
US7058224B2 (en) Detecting multiple objects in digital image data
Farahmand et al. Document image noises and removal methods
US9104940B2 (en) Line segmentation method applicable to document images containing handwriting and printed text characters or skewed text lines
CN101122953A (zh) 一种图片文字分割的方法
US20060245650A1 (en) Precise grayscale character segmentation apparatus and method
CN109523524B (zh) 一种基于集成学习的眼底图像硬性渗出检测方法
CN107016394B (zh) 一种交叉纤维特征点匹配方法
CN101115151A (zh) 一种视频字幕提取的方法
CN107766854B (zh) 一种基于模板匹配实现快速页码识别的方法
CN106331746B (zh) 用于识别视频文件中的水印位置的方法和装置
CN115273115A (zh) 一种文档元素标注方法、装置、电子设备和存储介质
CN113240623A (zh) 一种路面病害检测方法及装置
CN100530234C (zh) 一种针对dct域lsb隐写的隐写检测方法
CN110634222B (zh) 一种银行票据信息识别方法
CN111163332A (zh) 视频色情度检测方法、终端及介质
CN108960222B (zh) 图像二值化方法、装置、设备及存储介质
Mahastama et al. Improving Projection Profile for Segmenting Characters from Javanese Manuscripts
CN106372632B (zh) 一种基于ocr的漏识文字自动检测的方法
CN111445433A (zh) 一种电子卷宗的空白页和模糊页的检测方法及装置
KR101437286B1 (ko) 디지털 컨텐츠 식별 방법 및 장치
CN112215783B (zh) 一种图像噪点识别方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant