CN108074214B - 一种标准资源加工去污处理方法 - Google Patents

一种标准资源加工去污处理方法 Download PDF

Info

Publication number
CN108074214B
CN108074214B CN201711385430.XA CN201711385430A CN108074214B CN 108074214 B CN108074214 B CN 108074214B CN 201711385430 A CN201711385430 A CN 201711385430A CN 108074214 B CN108074214 B CN 108074214B
Authority
CN
China
Prior art keywords
image
standard
unit
page
decontamination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711385430.XA
Other languages
English (en)
Other versions
CN108074214A (zh
Inventor
陈银龙
李正祥
谢莉
严菁
许祥红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Institute Of Quality And Standardization
Original Assignee
Jiangsu Institute Of Quality And Standardization
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Institute Of Quality And Standardization filed Critical Jiangsu Institute Of Quality And Standardization
Priority to CN201711385430.XA priority Critical patent/CN108074214B/zh
Publication of CN108074214A publication Critical patent/CN108074214A/zh
Application granted granted Critical
Publication of CN108074214B publication Critical patent/CN108074214B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • G06T3/04

Abstract

本发明公开了一种标准资源加工去污处理方法,属于标准资源处理技术领域,通过使用TIF拆分方法,对图像生成PDF技术的封装使用,把标准文献图像拆分成每一页的图像,根据预先设定的配置,对不同格式的标准文献图像进行去污处理,通过图像生成PDF技术的封装使用,生成去污处理后的高质量的标准文献图像,改变了原有图像直接存储方式。本发明解决了标准文本图像出现黑边无法处理的问题,提高了标准文献图像存储的质量。

Description

一种标准资源加工去污处理方法
技术领域
本发明涉及一种标准资源处理方法,特别是涉及一种标准资源加工去污处理方法,属于标准资源处理技术领域。
背景技术
文本是计算机视觉的许多应用中的一项重要特征,图像中的文本存有很多有用的信息,对视觉内容理解和获取至关重要,标准文献文本图像是由纸质标准文本通过扫描仪图像数据采集设备生成的,以静止图像编码方法存储的数字图像,载荷有丰富的文字信息、图像信息、格式信息等重要内容,随着全球化贸易往来,企业对国际标准的需求日益旺盛,多种国外语言文字的文本图像需要进行识别和处理,文本图像的文种识别是对以图像形式呈现、由不同语言文字构成的图像,提取能够用于计算机识别的底层特征,实现文种的自动分类,对于有效提取文本图像中的信息具有十分重要的意义,电子版扫描件是通过一些电子仪器(例如扫描仪)将文本文档(例如PDF文档)扫描成图片格式的文档,然而这个扫描件有可能会因为纸张的边侧问题,往往会存在像素较高的黑色边框,这时候,我们需要一种技术来去除这个黑边。
大部分的去除图片黑边技术,往往只是人工用ps技术去除。这样就会一方面加大人工工作量,无法做到批量处理。另一方面ps去除黑边之后所得到的图片,不一定符合我们加工资源的要求,所以这个时候就需要有一种自动化、批量化的去黑边技术来处理这些扫描的标准文献图片。
发明内容
本发明的主要目的是为了提供一种标准资源加工去污处理方法,解决目前在加工标准资源的时会因为扫描仪器而使得生成的图片存在黑边的问题。
本发明的目的可以通过采用如下技术方案达到:
一种标准资源加工去污处理方法,包括如下步骤:
步骤1:建立图像获取单元、图像切分单元、图像临时存储单元、图像去污处理单元、图像重组单元和图像存储单元;
步骤2:图像获取单元获取标准文献纸质文本的TIF版本的标准文献图像;
步骤3:图像切分单元根据导入的TIF格式的标准文本图像,使用TIF拆分方法将标准文本图像拆分成每一页图像,并将拆分得到的标准文本的每一页图像临时存储在图像临时存储单元上;
步骤4:图像去污处理单元通过读取手动配置的参数,对图像切分单元产生的标准文本的每一页图像进行去黑边处理,生成高质量的图像,并将去污处理后的标准文本的每一页图像临时存储到图像临时存储单元上;
步骤5:图像重组单元通过对图像生产PDF技术的封装,把去污后的标准文本的每一页图像重新组合成高质量的PDF图像;
步骤6:将去污处理后的标准PDF文件和每一页图像上传到图像存储单元存储,并将文件路径和标准号绑定存储,以便对标准图像资源的管理。
进一步的,步骤1中,所述图像获取单元用于获取标准文献纸质文本的标准文献图像。
进一步的,步骤1中,所述图像切分单元用于切分标准文献的图像,并生成标准文献每一页的图像。
进一步的,步骤1中,所述图像临时存储单元用于临时存储图像切分单元和图像去污处理单元产生的标准文本的每一页图像。
进一步的,步骤1中,所述图像去污处理单元用于对文献图像进行去黑边和清晰化处理,生成高质量的每一页图像。
进一步的,步骤1中,所述图像重组单元用于对去污处理后的高质量的每一页图像进行重新组合,生成高质量的标准文本图像。
进一步的,步骤1中,所述图像存储单元用于存储去污处理后的标准文本图像和去污后的标准文本的每一页图像,并通过唯一标识和标准号绑定。
进一步的,步骤1中,所述图像获取单元、所述图像切分单元、所述图像临时存储单元、所述图像去污处理单元、所述图像重组单元和所述图像存储单元均通过互联网通信。
进一步的,步骤3中,所述TIF拆分方法是将A3格式的TIF图像拆分成按照文本顺序的每一页图像,TIF文件通过一分为二的切割和正反面复制,每一页A3的TIF文件生成4页图像,页码为单数的图像直接获得,页码为双数的图像需经过旋转得到。
进一步的,步骤4中,去黑边处理是通过预先针对不同格式的图像设定一个像素值W,在对图像进行去黑边处理时,在图像的四周取W宽度的图像,将这部分图像生成背景为白色的图像。
本发明的有益技术效果:按照本发明的标准资源加工去污处理方法,本发明提供的标准资源加工去污处理方法,通过使用TIF拆分方法,对图像生成PDF技术的封装使用,把标准文献图像拆分成每一页的图像,根据预先设定的配置,对不同格式的标准文献图像进行去污处理,通过图像生成PDF技术的封装使用,生成去污处理后的高质量的标准文献图像,改变了原有图像直接存储的方式,解决了标准文本图像出现黑边无法处理的问题,提高了标准文献图像存储的质量。
附图说明
图1为按照本发明的标准资源加工去污处理方法的一优选实施例的流程图。
具体实施方式
为使本领域技术人员更加清楚和明确本发明的技术方案,下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,本实施例提供的一种标准资源加工去污处理方法,包括如下步骤:
步骤1:建立图像获取单元、图像切分单元、图像临时存储单元、图像去污处理单元、图像重组单元和图像存储单元;图像获取单元用于获取标准文献纸质文本的标准文献图像;图像切分单元用于切分标准文献的图像,并生成标准文献每一页的图像;图像去污处理单元用于对文献图像进行去黑边和清晰化处理,生成高质量的每一页图像;图像临时存储单元用于临时存储图像切分单元和图像去污处理单元产生的标准文本的每一页图像;图像重组单元用于对去污处理后的高质量的每一页图像进行重新组合,生成高质量的标准文本图像;图像存储单元用于存储去污处理后的标准文本图像和去污后的标准文本的每一页图像,并通过唯一标识和标准号绑定;
步骤2:图像获取单元获取标准文献纸质文本的TIF版本的标准文献图像;
步骤3:图像切分单元根据导入的TIF格式的标准文本图像,使用TIF拆分方法将标准文本图像拆分成每一页图像;图像临时存储单元将拆分得到的标准文本的每一页图像临时存储在服务器上;
步骤4:图像去污处理单元通过读取手动配置的参数,对图像切分单元产生的标准文本的每一页图像进行去黑边处理,生成高质量的图像,并通过图像临时存储单元将去污处理后的标准文本的每一页图像临时存储到服务器上;
步骤5:图像重组单元通过对图像生产PDF技术的封装,把去污后的标准文本的每一页图像重新组合成高质量的PDF图像;
步骤6:图像存储单元存储将去污处理后的标准PDF文件和每一页图像上传到服务器,并将文件路径和标准号绑定存储,以便对标准图像资源的管理。
进一步的,在本实施例中,所述图像获取单元、所述图像切分单元、所述图像临时存储单元、所述图像去污处理单元、图像重组单元和图像存储单元均为服务器,上述服务器均是建立在现有技术基础上进行设置的,或者可以直接选用现有服务器,所述图像获取单元、所述图像切分单元、所述图像临时存储单元、所述图像去污处理单元、图像重组单元和图像存储单元均通过互联网通信。
进一步的,在本实施例中,所述去黑边处理是通过预先针对不同格式的图像设定一个像素值W,在对图像进行去黑边处理时,在图像的四周取W宽度的图像,将这部分图像生成背景为白色的图像。
进一步的,在本实施例中,所述TIF拆分方法,是将A3格式的TIF图像拆分成按照文本顺序的每一页图像,TIF文件通过一分为二的切割和正反面复制,每一页A3TIF可以生成4页图像;页码为单数的图像直接获得,页码为双数的图像需要经过旋转得到。
综上所述,在本实施例中,按照本实施例的标准资源加工去污处理方法,本实施例提供的标准资源加工去污处理方法,通过使用TIF拆分方法,对图像生成PDF技术的封装使用,把标准文献图像拆分成每一页的图像,根据预先设定的配置,对不同格式的标准文献图像进行去污处理,通过图像生成PDF技术的封装使用,生成去污处理后的高质量的标准文献图像,改变了原有图像直接存储的方式,解决了标准文本图像出现黑边无法处理的问题,提高了标准文献图像存储的质量。
以上所述,仅为本发明进一步的实施例,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明所公开的范围内,根据本发明的技术方案及其构思加以等同替换或改变,都属于本发明的保护范围。

Claims (2)

1.一种标准资源加工去污处理方法,其特征在于,包括如下步骤:
步骤1:建立图像获取单元、图像切分单元、图像临时存储单元、图像去污处理单元、图像重组单元和图像存储单元;所述图像获取单元用于获取标准文献纸质文本的标准文献图像;所述图像切分单元用于切分标准文献的图像,并生成标准文献每一页的图像;所述图像临时存储单元用于临时存储图像切分单元和图像去污处理单元产生的标准文本的每一页图像;所述图像去污处理单元用于对文献图像进行去黑边和清晰化处理,生成高质量的每一页图像;所述图像重组单元用于对去污处理后的高质量的每一页图像进行重新组合,生成高质量的标准文本图像;所述图像存储单元用于存储去污处理后的标准文本图像和去污后的标准文本的每一页图像,并通过唯一标识和标准号绑定;
步骤2:图像获取单元获取标准文献纸质文本的TIF版本的标准文献图像;
步骤3:图像切分单元根据导入的TIF格式的标准文本图像,使用TIF拆分方法将标准文本图像拆分成每一页图像,并将拆分得到的标准文本的每一页图像临时存储在图像临时存储单元上,所述TIF拆分方法是将A3格式的TIF图像拆分成按照文本顺序的每一页图像,TIF文件通过一分为二的切割和正反面复制,每一页A3的TIF文件生成4页图像,页码为单数的图像直接获得,页码为双数的图像需经过旋转得到;
步骤4:图像去污处理单元通过读取手动配置的参数,对图像切分单元产生的标准文本的每一页图像进行去黑边处理,生成高质量的图像,并将去污处理后的标准文本的每一页图像临时存储到图像临时存储单元上,去黑边处理是通过预先针对不同格式的图像设定一个像素值W,在对图像进行去黑边处理时,在图像的四周取W宽度的图像,将这部分图像生成背景为白色的图像;
步骤5:图像重组单元通过对图像生产PDF技术的封装,把去污后的标准文本的每一页图像重新组合成高质量的PDF图像;
步骤6:将去污处理后的标准PDF文件和每一页图像上传到图像存储单元存储,并将文件路径和标准号绑定存储,以便对标准图像资源的管理。
2.根据权利要求1所述的一种标准资源加工去污处理方法,其特征在于,步骤1中,所述图像获取单元、所述图像切分单元、所述图像临时存储单元、所述图像去污处理单元、所述图像重组单元和所述图像存储单元均通过互联网通信。
CN201711385430.XA 2017-12-20 2017-12-20 一种标准资源加工去污处理方法 Active CN108074214B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711385430.XA CN108074214B (zh) 2017-12-20 2017-12-20 一种标准资源加工去污处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711385430.XA CN108074214B (zh) 2017-12-20 2017-12-20 一种标准资源加工去污处理方法

Publications (2)

Publication Number Publication Date
CN108074214A CN108074214A (zh) 2018-05-25
CN108074214B true CN108074214B (zh) 2020-01-10

Family

ID=62158676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711385430.XA Active CN108074214B (zh) 2017-12-20 2017-12-20 一种标准资源加工去污处理方法

Country Status (1)

Country Link
CN (1) CN108074214B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688889B (zh) * 2019-08-06 2023-04-18 珠海格力电器股份有限公司 一种图文内容比对方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006101287A1 (en) * 2005-03-24 2006-09-28 Incube Technologies. Inc. System and method for providing translated font image data using multi-language font servers
CN102567300A (zh) * 2011-12-29 2012-07-11 方正国际软件有限公司 图片文档的处理方法及装置
CN103218351A (zh) * 2013-03-15 2013-07-24 杭州中元数据科技有限公司 现代地方文献电子图书制作方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006101287A1 (en) * 2005-03-24 2006-09-28 Incube Technologies. Inc. System and method for providing translated font image data using multi-language font servers
CN102567300A (zh) * 2011-12-29 2012-07-11 方正国际软件有限公司 图片文档的处理方法及装置
CN103218351A (zh) * 2013-03-15 2013-07-24 杭州中元数据科技有限公司 现代地方文献电子图书制作方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
扫描图片式电子书的PS处理技术;雷锋 等;《中国新技术新产品》;20090331;第2009卷(第5期);第8页 *

Also Published As

Publication number Publication date
CN108074214A (zh) 2018-05-25

Similar Documents

Publication Publication Date Title
US7519221B1 (en) Reconstructing high-fidelity electronic documents from images via generation of synthetic fonts
US8224073B2 (en) System and method for efficient storage of MRC images for easy classification and retrieval
US20100208282A1 (en) Method and apparatus for improving the quality of document images when copying documents
JP2011044146A (ja) プリントアンドスキャン文書の画像評価のためのボケ除去および監視適応的スレッショルディング
US8195626B1 (en) Compressing token-based files for transfer and reconstruction
CN109741273A (zh) 一种手机拍照低质图像的自动处理与评分方法
CN108074214B (zh) 一种标准资源加工去污处理方法
US9792524B1 (en) Gap shifting for automatic recognition of tabular text
US8830487B2 (en) System and method for separating image and text in a document
JP5984880B2 (ja) 画像処理装置
JP3989733B2 (ja) フォーム処理でのひずみの訂正
US9886629B2 (en) Techniques for restoring content from a torn document
CN116758550A (zh) 表单图像的文本识别方法及其装置、电子设备、存储介质
CN115909449A (zh) 文件处理方法、装置、电子设备、存储介质及程序产品
US20220237397A1 (en) Identifying handwritten signatures in digital images using ocr residues
CN116524287A (zh) 水印去除模型训练样本生成方法、系统、储存介质、计算机
US10257383B2 (en) Image processing apparatus with partition image processing function
CN117392689A (zh) 一种训练数据集生成的方法、装置、设备及介质
US9412033B2 (en) Image processing apparatus capable of preventing page missing, control method therefor, and storage medium
JP2002236921A (ja) 文書画像認識方法、文書画像認識装置及び記録媒体
JP2010252106A (ja) 画像処理装置、画像処理方法及びプログラム
de Araújo Formiga et al. Efficient Removal of Noisy Borders of Monochromatic Documents
JP6279025B2 (ja) 画像処理装置、画像処理装置の制御方法、及びプログラム
CN117854088A (zh) 档案目录生成方法和装置
CN112329494A (zh) 基于电子显微镜的二维码识别方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant