CN103679640A - 一种提高纸质文件转化成的pdf文件的清晰度的方法 - Google Patents

一种提高纸质文件转化成的pdf文件的清晰度的方法 Download PDF

Info

Publication number
CN103679640A
CN103679640A CN201210359819.8A CN201210359819A CN103679640A CN 103679640 A CN103679640 A CN 103679640A CN 201210359819 A CN201210359819 A CN 201210359819A CN 103679640 A CN103679640 A CN 103679640A
Authority
CN
China
Prior art keywords
rectangular object
pdf document
data
pdf
files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210359819.8A
Other languages
English (en)
Inventor
林明俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FOXIT CORP
Original Assignee
FOXIT CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FOXIT CORP filed Critical FOXIT CORP
Priority to CN201210359819.8A priority Critical patent/CN103679640A/zh
Priority to US14/425,791 priority patent/US9402014B2/en
Priority to PCT/CN2013/000844 priority patent/WO2014044017A1/zh
Publication of CN103679640A publication Critical patent/CN103679640A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/23Reproducing arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/22Cropping

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

本发明涉及一种提高纸质文件转化成的PDF文件的清晰度的方法。该方法包括:步骤1:扫描纸质文件,得到电子图片文件;步骤2:确定电子图片文件的上边距、下边距、左边距和右边距,并删除处于电子图片文件的上边距、下边距、左边距及右边距范围内的数据,将得到的第一裁剪文件转换为第一PDF文件;步骤3:将第一PDF文件分为若干个矩形对象,确定各矩形对象的有效区域,并删除各矩形对象除其有效区域之外的数据,得到与各矩形对象一一对应的裁剪矩形对象;步骤4:将各裁剪矩形对象按照与其对应的矩形对象在第一PDF文件上相同的位置分布进行组合,得到第二PDF文件输出。本发明能提高纸质文件转化成的PDF文件的清晰度。

Description

一种提高纸质文件转化成的PDF文件的清晰度的方法
技术领域
本发明涉及提高纸质文件转化成的PDF文件的清晰度的技术领域,特别是涉及一种提高纸质文件转化成的PDF文件的清晰度的方法。
背景技术
PDF文件是一种得到广泛应用的电子文件。PDF是Portable Document Format的缩写,意为便携文件格式,是一种电子文件格式,而采用PDF格式的电子文件称为PDF文件。
PDF文件多来自于对纸质文件的转化,其过程是先将纸质文件的内容扫描为电子图片文件,再通过软件方法将电子图片文件的数据进行格式的转换,变成PDF文件。由于纸质文件扫描成的电子图片文件会携带一定量的杂质数据(即不属于纸质文件的内容而来自于扫描过程本身的数据),这部分杂质数据在随后的格式转换过程中被保留了下来,严重影响读者的阅读,因此,利用现有技术转化而成的PDF文件的清晰度较差,阅读质量并不好,尤其是在屏幕较小的电子设备(如手机)上阅读时,容易损害读者的眼睛。
发明内容
本发明所要解决的技术问题是提供一种提高纸质文件转化成的PDF文件的清晰度的方法,能提高纸质文件转化成的PDF文件的清晰度。
本发明解决上述技术问题的技术方案如下:一种提高纸质文件转化成的PDF文件的清晰度的方法,该方法包括:
步骤1:扫描所述纸质文件,得到电子图片文件;
步骤2:确定所述电子图片文件的上边距、下边距、左边距和右边距,并删除处于所述电子图片文件的上边距、下边距、左边距及右边距范围内的数据,将得到的第一裁剪文件转换为第一PDF文件;
步骤3:将所述第一PDF文件分为若干个矩形对象,确定各矩形对象的有效区域,并删除各矩形对象除其有效区域之外的数据,得到与各矩形对象一一对应的裁剪矩形对象;
步骤4:将各裁剪矩形对象按照与其对应的矩形对象在所述第一PDF文件上相同的位置分布进行组合,得到第二PDF文件输出。
本发明的有益效果是:本发明对扫描纸质文件得到的电子图片文件进行了第一次裁剪,删除了其四个边距范围内的数据,从而滤除了第一PDF文件位于该范围内的无效数据以及杂质数据;在将第一PDF文件分为若干矩形对象之后,本发明又对各矩形对象进行了第二次裁剪,仅保留了各矩形对象的有效区域,而删除了其余的无效数据和杂质数据,因此,相对于现有技术生成的PDF文件,本发明最终生成的第二PDF文件中的杂质数据大大减少,其对可供阅读的有效数据的影响自然也大大减少,因此,本发明大大提高了纸质文件转化成的PDF文件的清晰度,使PDF文件更加适合阅读,尤其是更适合安装在小型设备上阅读。
在上述技术方案的基础上,本发明还可以做如下改进:
进一步,在所述步骤3之后,在所述步骤4之前,还包括步骤3-4-1:合计所有裁剪矩形对象的有效区域的像素之和,得到所述第一PDF文件的阅读区域。
进一步,在所述步骤3-4-1之后,在所述步骤4之前,还包括步骤3-4-2:对各裁剪矩形对象进行容错处理。
附图说明
图1为本发明提出的提高纸质文件转化成的PDF文件的清晰度的方法的流程图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
本发明提出了一种提高纸质文件转化成的PDF文件的清晰度的方法,清晰度指的是PDF文件上各细部影纹及其边界的清晰程度。DPF文件上的杂质数据越少,其清晰度就越好。
图1为本发明提出的提高纸质文件转化成的PDF文件的清晰度的方法的流程图。如图1所示,该方法包括:
步骤101:扫描纸质文件,得到电子图片文件。
本发明中的纸质文件可以为书籍、画册等任一记载在纸张上的文件。
本步骤可以采用扫描仪对纸质文件进行扫描。
步骤102:确定电子图片文件的上边距、下边距、左边距和右边距,并删除处于电子图片文件的上边距、下边距、左边距及右边距范围内的数据,将得到的第一裁剪文件转换为第一PDF文件。
本步骤中,上边距、下边距、左边距和右边距与常见的纸质文件的上边距、下边距、左边距和右边距的含义分别类似,电子图片文件的上边距指的是位于该电子图片文件最顶端的有效数据(即能反映原纸质文件上的内容的数据)与该电子图片文件最顶端之间的范围,很明显,该范围内的数据都是无效数据(即与原纸质文件上的内容无关的数据),因而删除这部分无效数据对于数据的完整性而言毫无损失。同样,电子图片文件的下边距指的是位于该电子图片文件最底端的有效数据与该电子图片文件最底端之间的范围,电子图片文件的左边距指的是位于该电子图片文件最左端的有效数据与该电子图片文件最左端之间的范围,电子图片文件的右边距指的是位于该电子图片文件最右端的有效数据与该电子图片文件最右端之间的范围,与上边距的描述类似,位于电子图片文件下边距、左边距和右边距范围内的数据都是无效数据,删除这些无效数据也不会损害数据的完整性。
删除上边距、下边距、左边距和右边距范围内的无效数据所得到的第一裁剪文件的格式与电子图片文件的格式相同,本质上仍为图片格式,要生成PDF文件就要涉及格式转换,本步骤中,将第一裁剪文件转换为第一PDF文件的方法为现有技术,在此不做赘述。
步骤103:将第一PDF文件分为若干个矩形对象,确定各矩形对象的有效区域,并删除各矩形对象除其有效区域之外的数据,得到与各矩形对象一一对应的裁剪矩形对象。
从外观上来看,第一PDF文件通常设置为矩形,因而可以将其看作由若干个矩形对象组合而成,这样,就可以对其进行细微的分割,将其分为若干个矩形对象。这里的矩形对象通常由多个像素组成,从外观来看也是矩形,较特殊的情况为正方形。
每个矩形对象都可以包含一定量的有效数据和一定量的无效数据,当然,也可以容许矩形对象只包含有效数据或者只包含无效数据的情况存在。可以这样认为:一个矩形对象所包含的数据仅分为有效数据和无效数据两种,有效数据所覆盖的范围在本发明中称为有效区域,无效数据自然就是该矩形对象除其有效区域之外的数据了。因此,该步骤在确定了各矩形对象所包含的有效区域的基础上,进一步删除各矩形对象除其有效区域之外的数据,也就是删除了无效数据,可以在步骤102删除电子图片文件上边距、下边距、左边距和右边距范围内无效数据的基础上,进一步提高有效数据在最终生成的第二PDF文件中所占的比例,从而提高第二PDF文件的清晰度。
步骤104:将各裁剪矩形对象按照与其对应的矩形对象在第一PDF文件上相同的位置分布进行组合,得到第二PDF文件输出。
由于步骤103删除了各矩形对象中的无效数据,因而可以认为生成的裁剪矩形对象中不含或基本不含无效数据,所有裁剪矩形对象的数据集合是与步骤101中的纸质文件所包含的内容完全相同的。因此,本步骤将各裁剪矩形对象组合为第二PDF文件,组合方法为:根据裁剪矩形对象与步骤103中的矩形对象的一一对应性,将各裁剪矩形对象在第二PDF文件上的位置关系设置为与其对应的矩形对象在第一PDF文件上的位置关系相同,当然,对于矩形对象完全由无效数据组成的特殊情况,由于步骤103所生成的与其对应的裁剪矩形对象不包含任何数据,相当于被完全删除,因此,可以在第二PDF文件上该裁剪矩形对象所处的位置不设置任何数据。
本步骤所得到的第二PDF文件就是来源于步骤101中的纸质文件且相对于现有技术提高了清晰度的PDF文件。
由此可见,本发明对扫描纸质文件得到的电子图片文件进行了第一次裁剪,删除了其四个边距范围内的数据,从而滤除了第一PDF文件位于该范围内的无效数据以及杂质数据;在将第一PDF文件分为若干矩形对象之后,本发明又对各矩形对象进行了第二次裁剪,仅保留了各矩形对象的有效区域,而删除了其余的无效数据和杂质数据,因此,相对于现有技术生成的PDF文件,本发明最终生成的第二PDF文件中的杂质数据大大减少,其对可供阅读的有效数据的影响自然也大大减少,因此,本发明大大提高了纸质文件转化成的PDF文件的清晰度,使PDF文件更加适合阅读,尤其是更适合安装在小型设备上阅读。
进一步,在步骤103之后,在步骤104之前,还可以包括步骤103-104-1:合计所有裁剪矩形对象的有效区域的像素之和,得到第一PDF文件的阅读区域。
这里,所有裁剪矩形对象的有效区域由有效数据覆盖而成,本步骤确定其像素之和所得到的第一PDF文件的阅读区域,可以获得第二PDF文件的数据量,从而方便下载和保存。
进一步,在步骤103-104-1之后,在步骤104之前,还可以包括步骤103-104-2:对各裁剪矩形对象进行容错处理。
这里设置的容错处理步骤,可以在第二PDF文件的部分数据发生了错误或丢失(如在网络传输中出错或丢失)时,还能被正常接收和解码,并获得较好的视觉效果,从而提高第二PDF文件的纠错性能。
由此可见,本发明具有以下优点:
(1)本发明对扫描纸质文件得到的电子图片文件进行了第一次裁剪,删除了其四个边距范围内的数据,从而滤除了第一PDF文件位于该范围内的无效数据以及杂质数据;在将第一PDF文件分为若干矩形对象之后,本发明又对各矩形对象进行了第二次裁剪,仅保留了各矩形对象的有效区域,而删除了其余的无效数据和杂质数据,因此,相对于现有技术生成的PDF文件,本发明最终生成的第二PDF文件中的杂质数据大大减少,其对可供阅读的有效数据的影响自然也大大减少,因此,本发明大大提高了纸质文件转化成的PDF文件的清晰度,使PDF文件更加适合阅读,尤其是更适合安装在小型设备上阅读。
(2)本发明设置的容错处理步骤,可以在第二PDF文件的部分数据发生了错误或丢失(如在网络传输中出错或丢失)时,还能被正常接收和解码,并获得较好的视觉效果,从而提高第二PDF文件的纠错性能
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种提高纸质文件转化成的PDF文件的清晰度的方法,其特征在于,该方法包括:
步骤1:扫描所述纸质文件,得到电子图片文件;
步骤2:确定所述电子图片文件的上边距、下边距、左边距和右边距,并删除处于所述电子图片文件的上边距、下边距、左边距及右边距范围内的数据,将得到的第一裁剪文件转换为第一PDF文件;
步骤3:将所述第一PDF文件分为若干个矩形对象,确定各矩形对象的有效区域,并删除各矩形对象除其有效区域之外的数据,得到与各矩形对象一一对应的裁剪矩形对象;
步骤4:将各裁剪矩形对象按照与其对应的矩形对象在所述第一PDF文件上相同的位置分布进行组合,得到第二PDF文件输出。
2.根据权利要求1所述的方法,其特征在于,在所述步骤3之后,在所述步骤4之前,还包括步骤3-4-1:合计所有裁剪矩形对象的有效区域的像素之和,得到所述第一PDF文件的阅读区域。
3.根据权利要求2所述的方法,其特征在于,在所述步骤3-4-1之后,在所述步骤4之前,还包括步骤3-4-2:对各裁剪矩形对象进行容错处理。
CN201210359819.8A 2012-09-24 2012-09-24 一种提高纸质文件转化成的pdf文件的清晰度的方法 Pending CN103679640A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201210359819.8A CN103679640A (zh) 2012-09-24 2012-09-24 一种提高纸质文件转化成的pdf文件的清晰度的方法
US14/425,791 US9402014B2 (en) 2012-09-24 2013-07-12 Method for improving clarity of PDF file converted from paper file
PCT/CN2013/000844 WO2014044017A1 (zh) 2012-09-24 2013-07-12 一种提高纸质文件转化成的pdf文件的清晰度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210359819.8A CN103679640A (zh) 2012-09-24 2012-09-24 一种提高纸质文件转化成的pdf文件的清晰度的方法

Publications (1)

Publication Number Publication Date
CN103679640A true CN103679640A (zh) 2014-03-26

Family

ID=50317097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210359819.8A Pending CN103679640A (zh) 2012-09-24 2012-09-24 一种提高纸质文件转化成的pdf文件的清晰度的方法

Country Status (3)

Country Link
US (1) US9402014B2 (zh)
CN (1) CN103679640A (zh)
WO (1) WO2014044017A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015021737A1 (zh) * 2013-08-12 2015-02-19 福建福昕软件开发股份有限公司北京分公司 一种将纸质文件转换为电子文件的方法
CN106293545A (zh) * 2015-05-25 2017-01-04 三纬国际立体列印科技股份有限公司 打印图层裁切方法与其电子装置
CN110929481A (zh) * 2018-09-19 2020-03-27 珠海金山办公软件有限公司 一种文档编辑的方法、装置、计算机存储介质及终端

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060044605A1 (en) * 2004-08-24 2006-03-02 Schneider Charles R Systems, methods and computer program products for labeled forms processing
CN1976237A (zh) * 2006-12-15 2007-06-06 武汉大学 用于数据可靠存储或传输的编码和解码方法及应用
US7454697B2 (en) * 2003-03-12 2008-11-18 Eastman Kodak Company Manual and automatic alignment of pages
CN102254302A (zh) * 2011-06-07 2011-11-23 盛乐信息技术(上海)有限公司 图片裁边系统及方法
CN102509264A (zh) * 2011-11-01 2012-06-20 武汉大学 一种基于图像分割的扫描图像去灰尘方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7454697B2 (en) * 2003-03-12 2008-11-18 Eastman Kodak Company Manual and automatic alignment of pages
US20060044605A1 (en) * 2004-08-24 2006-03-02 Schneider Charles R Systems, methods and computer program products for labeled forms processing
CN1976237A (zh) * 2006-12-15 2007-06-06 武汉大学 用于数据可靠存储或传输的编码和解码方法及应用
CN102254302A (zh) * 2011-06-07 2011-11-23 盛乐信息技术(上海)有限公司 图片裁边系统及方法
CN102509264A (zh) * 2011-11-01 2012-06-20 武汉大学 一种基于图像分割的扫描图像去灰尘方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张琳: "彩色扫描文档的自动分割和去网", 《中国优秀硕士学位论文全文数据库 工程科技I辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015021737A1 (zh) * 2013-08-12 2015-02-19 福建福昕软件开发股份有限公司北京分公司 一种将纸质文件转换为电子文件的方法
CN106293545A (zh) * 2015-05-25 2017-01-04 三纬国际立体列印科技股份有限公司 打印图层裁切方法与其电子装置
US10591896B2 (en) 2015-05-25 2020-03-17 Xyzprinting, Inc. 3D printing data generating method and electronic device using the same
CN106293545B (zh) * 2015-05-25 2020-10-16 三纬国际立体列印科技股份有限公司 打印图层裁切方法与其电子装置
CN110929481A (zh) * 2018-09-19 2020-03-27 珠海金山办公软件有限公司 一种文档编辑的方法、装置、计算机存储介质及终端

Also Published As

Publication number Publication date
US20150215490A1 (en) 2015-07-30
US9402014B2 (en) 2016-07-26
WO2014044017A1 (zh) 2014-03-27

Similar Documents

Publication Publication Date Title
CN105389165B (zh) 一种文档图片显示方法、装置及终端
JP4646797B2 (ja) 画像処理装置及びその制御方法、プログラム
US7386166B2 (en) Systems and methods for connecting regions image data having similar characteristics
EP2645697B1 (en) Image processing apparatus and method
US10991065B2 (en) Methods and systems for processing graphics
JP2007074030A (ja) 画像処理装置及び方法
CN101702242B (zh) 一种自动填写固定格式文件的方法及终端
CN101231697B (zh) 在图像编码和/或解码系统中分割图像的设备和方法
US8897574B2 (en) Image processing apparatus, line detection method, and computer-readable, non-transitory medium
JP2016021086A (ja) 電子文書生成システム、電子文書生成装置およびプログラム
CN103679640A (zh) 一种提高纸质文件转化成的pdf文件的清晰度的方法
JP2007025814A (ja) 画像処理装置、画像処理方法及びコンピュータプログラム
US8768051B2 (en) Image processing method, image processing apparatus, and computer-readable medium
US8971647B2 (en) Image compression apparatus, image compression method, and storage medium
CN103985102A (zh) 一种图像处理方法及系统
CN110853063B (zh) 图像分割信息的处理方法、装置、设备和存储介质
CN104376317A (zh) 一种将纸质文件转换为电子文件的方法
US6522790B1 (en) Method and apparatus for merging images
JP4208520B2 (ja) 画像処理装置および画像処理方法、プログラムおよび記憶媒体
CN105245756A (zh) 图像处理方法及系统
CN105069821B (zh) 以边界提取为基础的医学影像无损压缩方法
US9369594B2 (en) Transmission device, relay device, recording medium and control method of transmission system
CN104820968A (zh) 文本稿角度校正方法
JP2010098743A (ja) 画像処理装置、画像読取装置、及び画像処理方法
CN113808225B (zh) 一种图像的无损编码方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Address after: 100098 Beijing, Zhichun Road, No., China Sea industrial building, layer 56, 9

Applicant after: Beijing Branch of Fujian Foxit Software Development Co., Ltd.

Address before: 100098, Beijing Haidian District Zhichun Road No. 56 West China Sea industrial building, nine floor

Applicant before: FOXIT CORPORATION

RJ01 Rejection of invention patent application after publication

Application publication date: 20140326

RJ01 Rejection of invention patent application after publication