CN106503629A

CN106503629A - 一种词典图片分割方法及装置

Info

Publication number: CN106503629A
Application number: CN201610880503.1A
Authority: CN
Inventors: 张腾
Original assignee: Language Network (wuhan) Information Technology Co Ltd
Current assignee: Language Network (wuhan) Information Technology Co Ltd
Priority date: 2016-10-10
Filing date: 2016-10-10
Publication date: 2017-03-15

Abstract

本发明提供一种词典图片分割方法，包括如下步骤：获取待处理的词典图片,放在同一目录下；以段落为单元进行识别，同时进行词典图片的分割和标记；判断噪声并过滤噪声；生成预览图；生成分割结果图；通过图片批量重命名，将图片合并到生成结果图目录中，按照原图的栏‑段落对应生成图片文件名的命名规则来保证生成图与原图的唯一对应关系。本发明的有益效果是：1、通过对图片栏数的判断与段落的识别解决了文档拆分的难题；2、通过对对图片噪声的过滤提高了图片识别的准确率；3、将文件中的各个段落图片分发给不同成员进行处理，提供了工作效率，加快了处理速度，也增强了团队协作能力。

Description

一种词典图片分割方法及装置

技术领域

本发明所属技术领域为图像处理，尤其涉及一种词典图片分割方法及装置。

背景技术

图像分割是图像处理和计算机视觉中基本而关键的技术之一，其目的是将目标和背景分离。图像分割就是指把图像分成各具特性的区域并提取出感兴趣目标的技术和过程，为后续的分类、识别和检索提供依据。

在翻译领域，把词典图片分割成若干术语图片，成为扩充语料库的重要来源。

发明内容

本发明所要解决的技术问题是提供一种词典图片分割方法及装置，目的是为翻译人员进行词典图片的词条分割，即将一副词典图片按词条分割为多个小图片，以分发给不同的翻译人员进行翻译，提高团队翻译效率。

为解决上述技术问题，本发明提供一种词典图片分割方法，包括如下步骤：

获取待处理的词典图片,放在同一目录下；

以段落为单元进行识别，同时进行词典图片的分割和标记；

判断噪声并过滤噪声；

生成预览图；

生成分割结果图；

通过图片批量重命名，将图片合并到生成结果图目录中，按照原图的栏-段落对应生成图片文件名的命名规则来保证生成图与原图的唯一对应关系。

进一步，所述以段落为单元进行识别,包括段落识别步骤，所述段落识别步骤为通过设置段落识别参数来进行段落识别，所述段落识别参数包括行首空白的像素，垂直间距空白的像素，和不分段。

进一步，所述以段落为单元进行识别，还包括在段落识别步骤之前进行栏识别步骤,所述栏识别步骤为通过设置栏识别参数进行栏识别，栏识别参数包括两栏之间的水平间距或者指定为单栏模式来确定栏数量。

进一步，所述噪声包括第一类噪声，是扫描过程中产生的或纸张本身存在的污点，通过设置将小于指定宽度或者高度的像素区域判断为噪声。

进一步，所述噪声还包括第二类噪声，是扫描过程中背面部分文字映射到正面造成的像素干扰，通过设置灰度值判断为噪声。

本发明还提供一种词典图片分割装置，其特征是：包括图片预处理模块，图片栏识别模块，图片段落识别模块，图片噪声过滤模块，图片预览模块，分割图片生成模块，图片批量重命名模块，

所述图片预处理模块，用于获取待处理的词典图片,放在同一目录下;

所述图片栏识别模块，用于通过设置栏识别参数进行栏识别；

所述图片段落识别模块，用于通过设置段落识别参数来进行段落识别；

所述图片噪声过滤模块，用于判断噪声和过滤噪声；

所述图片预览模块，用于生成预览图；

所述分割图片生成模块，用于分割图片并生成分割效果图；

所述图片批量重命名模块，用于通过图片批量重命名，将图片合并到生成结果图目录中，按照原图的栏-段落对应生成图片文件名的命名规则来保证生成图与原图的唯一对应关系。

优选地，所述噪声包括第一类噪声，是扫描过程中产生的或纸张本身存在的污点，通过设置将小于指定宽度或者高度的像素区域判断为噪声。

优选地，所述噪声还包括第二类噪声，是扫描过程中背面部分文字映射到正面造成的像素干扰，通过设置灰度值判断为噪声。

本发明的有益效果是：

1、通过对图片栏数的判断与段落的识别解决了文档拆分的难题；

2、通过对对图片噪声的过滤提高了图片识别的准确率；

3、将文件中的各个段落图片分发给不同成员进行处理，提供了工作效率，加快了处理速度，也增强了团队协作能力。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定，在附图中：

图1为本发明的流程示意图；

图2为本发明的结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。

实施方式1：如图1所示，为解决上述技术问题，本发明提供一种词典图片分割方法，包括如下6个步骤：

1. 获取待处理的词典图片

a)将扫描仪扫描的词典图片或者其它途径获取的电子版词典图片，放到一个目录下；

2. 以段落为单元，进行词典图片的分割和标记

a)待处理图片的栏的识别；通过设置两栏之间的水平间距或者直接指定为单栏模式来确定图片有多少栏；

b)待处理图片的段落的识别；通过设置行首空白的像素，或者垂直间距空白的像素，或者设置为不分段来进行段落识别；

3. 干扰因素的判断及过滤

a)第一类噪声：扫描过程中产生的或纸张本身存在的污点。通过设置将小于指定宽度或者高度的像素区域视为噪声；

b)第二类噪声：由于纸张本身较薄，使得扫描过程中背面部分文字映射到正面造成的像素干扰，通过设置灰度值（映射过来的文字较之正面更淡，转换为灰度像素后像素值更高）将其过滤；

4. 生成预览

a)通过生成预览图，剔除掉不理想的结果进行手动处理后再次生成，来达到较好的结果；

5. 生成图片

a)选择保存格式，指定生成图片的宽度（高度则等比例缩放）；

6.图片批量重命名

通过图片批量重命名功能，将增加或删除的图片合并到生成结果图目录中，按照原图的栏-段落对应生成图片文件名的命名规则来保证生成图与原图的唯一对应关系。

实施方式2：如图2所示，为解决上述技术问题，本发明提供一种词典图片分割装置，其特征是：包括图片预处理模块，图片栏识别模块，图片段落识别模块，图片噪声过滤模块，图片预览模块，分割图片生成模块，图片批量重命名模块，

所述图片预处理模块，用于获取待处理的词典图片，放在同一目录下；

所述图片噪声过滤模块，用于判断噪声和过滤噪声；

所述图片预览模块，用于生成预览图；

所述分割图片生成模块，用于分割图片并生成分割效果图；

最后所应说明的是，以上具体实施方式仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.本发明提供一种词典图片分割方法，其特征是包括如下步骤：

获取待处理的词典图片，放在同一目录下；

以段落为单元进行识别，同时进行词典图片的分割和标记；

判断噪声并过滤噪声；

生成预览图；

生成分割结果图；

2.根据权利要求1所述的一种词典图片分割方法,其特征是所述以段落为单元进行识别,包括段落识别步骤，所述段落识别步骤为通过设置段落识别参数来进行段落识别，所述段落识别参数包括行首空白的像素、垂直间距空白的像素、不分段。

3.根据权利要求2所述的一种词典图片分割方法，其特征是所述以段落为单元进行识别，还包括在段落识别步骤之前进行栏识别步骤，所述栏识别步骤为通过设置栏识别参数进行栏识别，栏识别参数包括两栏之间的水平间距或者指定为单栏模式来确定栏数量。

4.根据权利要求1所述的一种词典图片分割方法，其特征是所述噪声包括第一类噪声，是扫描过程中产生的或纸张本身存在的污点，通过设置将小于指定宽度或者高度的像素区域判断为噪声。

5.根据权利要求1所述的一种词典图片分割方法,其特征是所述噪声还包括第二类噪声，是扫描过程中背面部分文字映射到正面造成的像素干扰，通过设置灰度值判断为噪声。

6.一种词典图片分割装置，其特征是：包括图片预处理模块，图片栏识别模块，图片段落识别模块，图片噪声过滤模块，图片预览模块，分割图片生成模块，图片批量重命名模块，

所述图片栏识别模块，用于通过设置栏识别参数进行栏识别

所述图片段落识别模块，用于通过设置段落识别参数来进行段落识别

所述图片噪声过滤模块，用于判断噪声和过滤噪声；

所述图片预览模块，用于生成预览图；

所述分割图片生成模块，用于分割图片并生成分割效果图；

7.根据权利要求6所述的一种词典图片分割装置,其特征是所述噪声包括第一类噪声，是扫描过程中产生的或纸张本身存在的污点，通过设置将小于指定宽度或者高度的像素区域判断为噪声。

8.根据权利要求6所述的一种词典图片分割装置,其特征是所述噪声还包括第二类噪声，是扫描过程中背面部分文字映射到正面造成的像素干扰，通过设置灰度值判断为噪声。