CN108074214B

CN108074214B - 一种标准资源加工去污处理方法

Info

Publication number: CN108074214B
Application number: CN201711385430.XA
Authority: CN
Inventors: 陈银龙; 李正祥; 谢莉; 严菁; 许祥红
Original assignee: Jiangsu Institute Of Quality And Standardization
Current assignee: Jiangsu Institute Of Quality And Standardization
Priority date: 2017-12-20
Filing date: 2017-12-20
Publication date: 2020-01-10
Anticipated expiration: 2037-12-20
Also published as: CN108074214A

Abstract

本发明公开了一种标准资源加工去污处理方法，属于标准资源处理技术领域，通过使用TIF拆分方法，对图像生成PDF技术的封装使用，把标准文献图像拆分成每一页的图像，根据预先设定的配置，对不同格式的标准文献图像进行去污处理，通过图像生成PDF技术的封装使用，生成去污处理后的高质量的标准文献图像，改变了原有图像直接存储方式。本发明解决了标准文本图像出现黑边无法处理的问题，提高了标准文献图像存储的质量。

Description

一种标准资源加工去污处理方法

技术领域

本发明涉及一种标准资源处理方法，特别是涉及一种标准资源加工去污处理方法，属于标准资源处理技术领域。

背景技术

文本是计算机视觉的许多应用中的一项重要特征，图像中的文本存有很多有用的信息，对视觉内容理解和获取至关重要，标准文献文本图像是由纸质标准文本通过扫描仪图像数据采集设备生成的，以静止图像编码方法存储的数字图像，载荷有丰富的文字信息、图像信息、格式信息等重要内容，随着全球化贸易往来，企业对国际标准的需求日益旺盛，多种国外语言文字的文本图像需要进行识别和处理，文本图像的文种识别是对以图像形式呈现、由不同语言文字构成的图像，提取能够用于计算机识别的底层特征，实现文种的自动分类，对于有效提取文本图像中的信息具有十分重要的意义，电子版扫描件是通过一些电子仪器(例如扫描仪)将文本文档(例如PDF文档)扫描成图片格式的文档，然而这个扫描件有可能会因为纸张的边侧问题，往往会存在像素较高的黑色边框，这时候，我们需要一种技术来去除这个黑边。

大部分的去除图片黑边技术，往往只是人工用ps技术去除。这样就会一方面加大人工工作量，无法做到批量处理。另一方面ps去除黑边之后所得到的图片，不一定符合我们加工资源的要求，所以这个时候就需要有一种自动化、批量化的去黑边技术来处理这些扫描的标准文献图片。

发明内容

本发明的主要目的是为了提供一种标准资源加工去污处理方法，解决目前在加工标准资源的时会因为扫描仪器而使得生成的图片存在黑边的问题。

本发明的目的可以通过采用如下技术方案达到：

一种标准资源加工去污处理方法，包括如下步骤：

步骤1：建立图像获取单元、图像切分单元、图像临时存储单元、图像去污处理单元、图像重组单元和图像存储单元；

步骤2：图像获取单元获取标准文献纸质文本的TIF版本的标准文献图像；

步骤3：图像切分单元根据导入的TIF格式的标准文本图像，使用TIF拆分方法将标准文本图像拆分成每一页图像，并将拆分得到的标准文本的每一页图像临时存储在图像临时存储单元上；

步骤4：图像去污处理单元通过读取手动配置的参数，对图像切分单元产生的标准文本的每一页图像进行去黑边处理，生成高质量的图像，并将去污处理后的标准文本的每一页图像临时存储到图像临时存储单元上；

步骤5：图像重组单元通过对图像生产PDF技术的封装，把去污后的标准文本的每一页图像重新组合成高质量的PDF图像；

步骤6：将去污处理后的标准PDF文件和每一页图像上传到图像存储单元存储，并将文件路径和标准号绑定存储，以便对标准图像资源的管理。

进一步的，步骤1中，所述图像获取单元用于获取标准文献纸质文本的标准文献图像。

进一步的，步骤1中，所述图像切分单元用于切分标准文献的图像，并生成标准文献每一页的图像。

进一步的，步骤1中，所述图像临时存储单元用于临时存储图像切分单元和图像去污处理单元产生的标准文本的每一页图像。

进一步的，步骤1中，所述图像去污处理单元用于对文献图像进行去黑边和清晰化处理，生成高质量的每一页图像。

进一步的，步骤1中，所述图像重组单元用于对去污处理后的高质量的每一页图像进行重新组合，生成高质量的标准文本图像。

进一步的，步骤1中，所述图像存储单元用于存储去污处理后的标准文本图像和去污后的标准文本的每一页图像，并通过唯一标识和标准号绑定。

进一步的，步骤1中，所述图像获取单元、所述图像切分单元、所述图像临时存储单元、所述图像去污处理单元、所述图像重组单元和所述图像存储单元均通过互联网通信。

进一步的，步骤3中，所述TIF拆分方法是将A3格式的TIF图像拆分成按照文本顺序的每一页图像，TIF文件通过一分为二的切割和正反面复制，每一页A3的TIF文件生成4页图像，页码为单数的图像直接获得，页码为双数的图像需经过旋转得到。

进一步的，步骤4中，去黑边处理是通过预先针对不同格式的图像设定一个像素值W，在对图像进行去黑边处理时，在图像的四周取W宽度的图像，将这部分图像生成背景为白色的图像。

本发明的有益技术效果：按照本发明的标准资源加工去污处理方法，本发明提供的标准资源加工去污处理方法，通过使用TIF拆分方法，对图像生成PDF技术的封装使用，把标准文献图像拆分成每一页的图像，根据预先设定的配置，对不同格式的标准文献图像进行去污处理，通过图像生成PDF技术的封装使用，生成去污处理后的高质量的标准文献图像，改变了原有图像直接存储的方式，解决了标准文本图像出现黑边无法处理的问题，提高了标准文献图像存储的质量。

附图说明

图1为按照本发明的标准资源加工去污处理方法的一优选实施例的流程图。

具体实施方式

为使本领域技术人员更加清楚和明确本发明的技术方案，下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，本实施例提供的一种标准资源加工去污处理方法，包括如下步骤：

步骤1：建立图像获取单元、图像切分单元、图像临时存储单元、图像去污处理单元、图像重组单元和图像存储单元；图像获取单元用于获取标准文献纸质文本的标准文献图像；图像切分单元用于切分标准文献的图像，并生成标准文献每一页的图像；图像去污处理单元用于对文献图像进行去黑边和清晰化处理，生成高质量的每一页图像；图像临时存储单元用于临时存储图像切分单元和图像去污处理单元产生的标准文本的每一页图像；图像重组单元用于对去污处理后的高质量的每一页图像进行重新组合，生成高质量的标准文本图像；图像存储单元用于存储去污处理后的标准文本图像和去污后的标准文本的每一页图像，并通过唯一标识和标准号绑定；

步骤3：图像切分单元根据导入的TIF格式的标准文本图像，使用TIF拆分方法将标准文本图像拆分成每一页图像；图像临时存储单元将拆分得到的标准文本的每一页图像临时存储在服务器上；

步骤4：图像去污处理单元通过读取手动配置的参数，对图像切分单元产生的标准文本的每一页图像进行去黑边处理，生成高质量的图像，并通过图像临时存储单元将去污处理后的标准文本的每一页图像临时存储到服务器上；

步骤6：图像存储单元存储将去污处理后的标准PDF文件和每一页图像上传到服务器，并将文件路径和标准号绑定存储，以便对标准图像资源的管理。

进一步的，在本实施例中，所述图像获取单元、所述图像切分单元、所述图像临时存储单元、所述图像去污处理单元、图像重组单元和图像存储单元均为服务器，上述服务器均是建立在现有技术基础上进行设置的，或者可以直接选用现有服务器，所述图像获取单元、所述图像切分单元、所述图像临时存储单元、所述图像去污处理单元、图像重组单元和图像存储单元均通过互联网通信。

进一步的，在本实施例中，所述去黑边处理是通过预先针对不同格式的图像设定一个像素值W，在对图像进行去黑边处理时，在图像的四周取W宽度的图像，将这部分图像生成背景为白色的图像。

进一步的，在本实施例中，所述TIF拆分方法，是将A3格式的TIF图像拆分成按照文本顺序的每一页图像，TIF文件通过一分为二的切割和正反面复制，每一页A3TIF可以生成4页图像；页码为单数的图像直接获得，页码为双数的图像需要经过旋转得到。

综上所述，在本实施例中，按照本实施例的标准资源加工去污处理方法，本实施例提供的标准资源加工去污处理方法，通过使用TIF拆分方法，对图像生成PDF技术的封装使用，把标准文献图像拆分成每一页的图像，根据预先设定的配置，对不同格式的标准文献图像进行去污处理，通过图像生成PDF技术的封装使用，生成去污处理后的高质量的标准文献图像，改变了原有图像直接存储的方式，解决了标准文本图像出现黑边无法处理的问题，提高了标准文献图像存储的质量。

以上所述，仅为本发明进一步的实施例，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明所公开的范围内，根据本发明的技术方案及其构思加以等同替换或改变，都属于本发明的保护范围。

Claims

1.一种标准资源加工去污处理方法，其特征在于，包括如下步骤：

步骤1：建立图像获取单元、图像切分单元、图像临时存储单元、图像去污处理单元、图像重组单元和图像存储单元；所述图像获取单元用于获取标准文献纸质文本的标准文献图像；所述图像切分单元用于切分标准文献的图像，并生成标准文献每一页的图像；所述图像临时存储单元用于临时存储图像切分单元和图像去污处理单元产生的标准文本的每一页图像；所述图像去污处理单元用于对文献图像进行去黑边和清晰化处理，生成高质量的每一页图像；所述图像重组单元用于对去污处理后的高质量的每一页图像进行重新组合，生成高质量的标准文本图像；所述图像存储单元用于存储去污处理后的标准文本图像和去污后的标准文本的每一页图像，并通过唯一标识和标准号绑定；

步骤3：图像切分单元根据导入的TIF格式的标准文本图像，使用TIF拆分方法将标准文本图像拆分成每一页图像，并将拆分得到的标准文本的每一页图像临时存储在图像临时存储单元上，所述TIF拆分方法是将A3格式的TIF图像拆分成按照文本顺序的每一页图像，TIF文件通过一分为二的切割和正反面复制，每一页A3的TIF文件生成4页图像，页码为单数的图像直接获得，页码为双数的图像需经过旋转得到；

步骤4：图像去污处理单元通过读取手动配置的参数，对图像切分单元产生的标准文本的每一页图像进行去黑边处理，生成高质量的图像，并将去污处理后的标准文本的每一页图像临时存储到图像临时存储单元上，去黑边处理是通过预先针对不同格式的图像设定一个像素值W，在对图像进行去黑边处理时，在图像的四周取W宽度的图像，将这部分图像生成背景为白色的图像；

2.根据权利要求1所述的一种标准资源加工去污处理方法，其特征在于，步骤1中，所述图像获取单元、所述图像切分单元、所述图像临时存储单元、所述图像去污处理单元、所述图像重组单元和所述图像存储单元均通过互联网通信。