CN106503629A - 一种词典图片分割方法及装置 - Google Patents

一种词典图片分割方法及装置 Download PDF

Info

Publication number
CN106503629A
CN106503629A CN201610880503.1A CN201610880503A CN106503629A CN 106503629 A CN106503629 A CN 106503629A CN 201610880503 A CN201610880503 A CN 201610880503A CN 106503629 A CN106503629 A CN 106503629A
Authority
CN
China
Prior art keywords
picture
noise
paragraph
dictionary
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610880503.1A
Other languages
English (en)
Inventor
张腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Language Network (wuhan) Information Technology Co Ltd
Original Assignee
Language Network (wuhan) Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Language Network (wuhan) Information Technology Co Ltd filed Critical Language Network (wuhan) Information Technology Co Ltd
Priority to CN201610880503.1A priority Critical patent/CN106503629A/zh
Publication of CN106503629A publication Critical patent/CN106503629A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Abstract

本发明提供一种词典图片分割方法,包括如下步骤:获取待处理的词典图片,放在同一目录下;以段落为单元进行识别,同时进行词典图片的分割和标记;判断噪声并过滤噪声;生成预览图;生成分割结果图;通过图片批量重命名,将图片合并到生成结果图目录中,按照原图的栏‑段落对应生成图片文件名的命名规则来保证生成图与原图的唯一对应关系。本发明的有益效果是:1、通过对图片栏数的判断与段落的识别解决了文档拆分的难题;2、通过对对图片噪声的过滤提高了图片识别的准确率;3、将文件中的各个段落图片分发给不同成员进行处理,提供了工作效率,加快了处理速度,也增强了团队协作能力。

Description

一种词典图片分割方法及装置
技术领域
本发明所属技术领域为图像处理,尤其涉及一种词典图片分割方法及装置。
背景技术
图像分割是图像处理和计算机视觉中基本而关键的技术之一,其目的是将目标和背景分离。图像分割就是指把图像分成各具特性的区域并提取出感兴趣目标的技术和过程,为后续的分类、识别和检索提供依据。
在翻译领域,把词典图片分割成若干术语图片,成为扩充语料库的重要来源。
发明内容
本发明所要解决的技术问题是提供一种词典图片分割方法及装置,目的是为翻译人员进行词典图片的词条分割,即将一副词典图片按词条分割为多个小图片,以分发给不同的翻译人员进行翻译,提高团队翻译效率。
为解决上述技术问题,本发明提供一种词典图片分割方法,包括如下步骤:
获取待处理的词典图片,放在同一目录下;
以段落为单元进行识别,同时进行词典图片的分割和标记;
判断噪声并过滤噪声;
生成预览图;
生成分割结果图;
通过图片批量重命名,将图片合并到生成结果图目录中,按照原图的栏-段落对应生成图片文件名的命名规则来保证生成图与原图的唯一对应关系。
进一步,所述以段落为单元进行识别,包括段落识别步骤,所述段落识别步骤为通过设置段落识别参数来进行段落识别,所述段落识别参数包括行首空白的像素,垂直间距空白的像素,和不分段。
进一步,所述以段落为单元进行识别,还包括在段落识别步骤之前进行栏识别步骤,所述栏识别步骤为通过设置栏识别参数进行栏识别,栏识别参数包括两栏之间的水平间距或者指定为单栏模式来确定栏数量。
进一步,所述噪声包括第一类噪声,是扫描过程中产生的或纸张本身存在的污点,通过设置将小于指定宽度或者高度的像素区域判断为噪声。
进一步,所述噪声还包括第二类噪声,是扫描过程中背面部分文字映射到正面造成的像素干扰,通过设置灰度值判断为噪声。
本发明还提供一种词典图片分割装置,其特征是:包括图片预处理模块,图片栏识别模块,图片段落识别模块,图片噪声过滤模块,图片预览模块,分割图片生成模块,图片批量重命名模块,
所述图片预处理模块,用于获取待处理的词典图片,放在同一目录下;
所述图片栏识别模块, 用于通过设置栏识别参数进行栏识别;
所述图片段落识别模块,用于通过设置段落识别参数来进行段落识别;
所述图片噪声过滤模块,用于判断噪声和过滤噪声;
所述图片预览模块,用于生成预览图;
所述分割图片生成模块,用于分割图片并生成分割效果图;
所述图片批量重命名模块,用于通过图片批量重命名,将图片合并到生成结果图目录中,按照原图的栏-段落对应生成图片文件名的命名规则来保证生成图与原图的唯一对应关系。
优选地,所述噪声包括第一类噪声,是扫描过程中产生的或纸张本身存在的污点,通过设置将小于指定宽度或者高度的像素区域判断为噪声 。
优选地,所述噪声还包括第二类噪声,是扫描过程中背面部分文字映射到正面造成的像素干扰,通过设置灰度值判断为噪声。
本发明的有益效果是:
1、通过对图片栏数的判断与段落的识别解决了文档拆分的难题;
2、通过对对图片噪声的过滤提高了图片识别的准确率;
3、将文件中的各个段落图片分发给不同成员进行处理,提供了工作效率,加快了处理速度,也增强了团队协作能力。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定,在附图中:
图1为本发明的流程示意图;
图2为本发明的结构示意图。
具体实施方式
下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。
实施方式1:如图1所示,为解决上述技术问题,本发明提供一种词典图片分割方法,包括如下6个步骤:
1. 获取待处理的词典图片
a)将扫描仪扫描的词典图片或者其它途径获取的电子版词典图片,放到一个目录下;
2. 以段落为单元,进行词典图片的分割和标记
a)待处理图片的栏的识别;通过设置两栏之间的水平间距或者直接指定为单栏模式来确定图片有多少栏;
b)待处理图片的段落的识别;通过设置行首空白的像素,或者垂直间距空白的像素,或者设置为不分段来进行段落识别;
3. 干扰因素的判断及过滤
a)第一类噪声:扫描过程中产生的或纸张本身存在的污点。通过设置将小于指定宽度或者高度的像素区域视为噪声;
b)第二类噪声:由于纸张本身较薄,使得扫描过程中背面部分文字映射到正面造成的像素干扰,通过设置灰度值(映射过来的文字较之正面更淡,转换为灰度像素后像素值更高)将其过滤;
4. 生成预览
a)通过生成预览图,剔除掉不理想的结果进行手动处理后再次生成,来达到较好的结果;
5. 生成图片
a)选择保存格式,指定生成图片的宽度(高度则等比例缩放);
6.图片批量重命名
通过图片批量重命名功能,将增加或删除的图片合并到生成结果图目录中,按照原图的栏-段落对应生成图片文件名的命名规则来保证生成图与原图的唯一对应关系。
实施方式2: 如图2所示,为解决上述技术问题,本发明提供一种词典图片分割装置,其特征是:包括图片预处理模块,图片栏识别模块,图片段落识别模块,图片噪声过滤模块,图片预览模块,分割图片生成模块,图片批量重命名模块,
所述图片预处理模块,用于获取待处理的词典图片,放在同一目录下;
所述图片栏识别模块, 用于通过设置栏识别参数进行栏识别;
所述图片段落识别模块,用于通过设置段落识别参数来进行段落识别;
所述图片噪声过滤模块,用于判断噪声和过滤噪声;
所述图片预览模块,用于生成预览图;
所述分割图片生成模块,用于分割图片并生成分割效果图;
所述图片批量重命名模块,用于通过图片批量重命名,将图片合并到生成结果图目录中,按照原图的栏-段落对应生成图片文件名的命名规则来保证生成图与原图的唯一对应关系。
优选地,所述噪声包括第一类噪声,是扫描过程中产生的或纸张本身存在的污点,通过设置将小于指定宽度或者高度的像素区域判断为噪声 。
优选地,所述噪声还包括第二类噪声,是扫描过程中背面部分文字映射到正面造成的像素干扰,通过设置灰度值判断为噪声。
最后所应说明的是,以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.本发明提供一种词典图片分割方法,其特征是包括如下步骤:
获取待处理的词典图片,放在同一目录下;
以段落为单元进行识别,同时进行词典图片的分割和标记;
判断噪声并过滤噪声;
生成预览图 ;
生成分割结果图;
通过图片批量重命名,将图片合并到生成结果图目录中,按照原图的栏-段落对应生成图片文件名的命名规则来保证生成图与原图的唯一对应关系。
2.根据权利要求1所述的一种词典图片分割方法,其特征是所述以段落为单元进行识别,包括段落识别步骤,所述段落识别步骤为通过设置段落识别参数来进行段落识别,所述段落识别参数包括行首空白的像素、垂直间距空白的像素、不分段。
3.根据权利要求2所述的一种词典图片分割方法,其特征是所述以段落为单元进行识别,还包括在段落识别步骤之前进行栏识别步骤,所述栏识别步骤为通过设置栏识别参数进行栏识别,栏识别参数包括两栏之间的水平间距或者指定为单栏模式来确定栏数量。
4.根据权利要求1所述的一种词典图片分割方法,其特征是所述噪声包括第一类噪声,是扫描过程中产生的或纸张本身存在的污点,通过设置将小于指定宽度或者高度的像素区域判断为噪声。
5.根据权利要求1所述的一种词典图片分割方法,其特征是所述噪声还包括第二类噪声,是扫描过程中背面部分文字映射到正面造成的像素干扰,通过设置灰度值判断为噪声。
6.一种词典图片分割装置,其特征是:包括图片预处理模块,图片栏识别模块,图片段落识别模块,图片噪声过滤模块,图片预览模块,分割图片生成模块,图片批量重命名模块,
所述图片预处理模块,用于获取待处理的词典图片,放在同一目录下;
所述图片栏识别模块, 用于通过设置栏识别参数进行栏识别
所述图片段落识别模块,用于通过设置段落识别参数来进行段落识别
所述图片噪声过滤模块,用于判断噪声和过滤噪声;
所述图片预览模块,用于生成预览图;
所述分割图片生成模块,用于分割图片并生成分割效果图;
所述图片批量重命名模块,用于通过图片批量重命名,将图片合并到生成结果图目录中,按照原图的栏-段落对应生成图片文件名的命名规则来保证生成图与原图的唯一对应关系。
7.根据权利要求6所述的一种词典图片分割装置,其特征是所述噪声包括第一类噪声,是扫描过程中产生的或纸张本身存在的污点,通过设置将小于指定宽度或者高度的像素区域判断为噪声 。
8.根据权利要求6所述的一种词典图片分割装置,其特征是所述噪声还包括第二类噪声,是扫描过程中背面部分文字映射到正面造成的像素干扰,通过设置灰度值判断为噪声。
CN201610880503.1A 2016-10-10 2016-10-10 一种词典图片分割方法及装置 Pending CN106503629A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610880503.1A CN106503629A (zh) 2016-10-10 2016-10-10 一种词典图片分割方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610880503.1A CN106503629A (zh) 2016-10-10 2016-10-10 一种词典图片分割方法及装置

Publications (1)

Publication Number Publication Date
CN106503629A true CN106503629A (zh) 2017-03-15

Family

ID=58293521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610880503.1A Pending CN106503629A (zh) 2016-10-10 2016-10-10 一种词典图片分割方法及装置

Country Status (1)

Country Link
CN (1) CN106503629A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020192391A1 (zh) * 2019-03-22 2020-10-01 腾讯科技(深圳)有限公司 基于ocr的图像转档方法、装置、设备及可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0325692A (ja) * 1989-06-23 1991-02-04 Fuji Electric Co Ltd 文字読取方法
US6504540B1 (en) * 1995-06-19 2003-01-07 Canon Kabushiki Kaisha Method and apparatus for altering one or more attributes of one or more blocks of image data in a document
CN1604074A (zh) * 2004-11-22 2005-04-06 北京北大方正技术研究院有限公司 一种对图文互斥分栏串文版面确定文字阅读顺序的方法
CN101151882A (zh) * 2005-03-24 2008-03-26 柯法克斯影像产品公司 处理扫描数据的系统和方法
CN101765840A (zh) * 2006-09-15 2010-06-30 埃克斯比布里奥公司 纸质与电子文档中的注释的捕获及显示
CN101984419A (zh) * 2010-10-21 2011-03-09 优视科技有限公司 用于对网页图片内容进行段落重排的方法及装置
CN103106346A (zh) * 2013-02-25 2013-05-15 中山大学 一种基于离线手写图片分割与识别的性格预测系统
CN103593329A (zh) * 2012-08-17 2014-02-19 腾讯科技(深圳)有限公司 一种文字图片重排方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0325692A (ja) * 1989-06-23 1991-02-04 Fuji Electric Co Ltd 文字読取方法
US6504540B1 (en) * 1995-06-19 2003-01-07 Canon Kabushiki Kaisha Method and apparatus for altering one or more attributes of one or more blocks of image data in a document
CN1604074A (zh) * 2004-11-22 2005-04-06 北京北大方正技术研究院有限公司 一种对图文互斥分栏串文版面确定文字阅读顺序的方法
CN101151882A (zh) * 2005-03-24 2008-03-26 柯法克斯影像产品公司 处理扫描数据的系统和方法
CN101765840A (zh) * 2006-09-15 2010-06-30 埃克斯比布里奥公司 纸质与电子文档中的注释的捕获及显示
CN101984419A (zh) * 2010-10-21 2011-03-09 优视科技有限公司 用于对网页图片内容进行段落重排的方法及装置
CN103593329A (zh) * 2012-08-17 2014-02-19 腾讯科技(深圳)有限公司 一种文字图片重排方法及系统
CN103106346A (zh) * 2013-02-25 2013-05-15 中山大学 一种基于离线手写图片分割与识别的性格预测系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵娜: "文档图像段落分割技术研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020192391A1 (zh) * 2019-03-22 2020-10-01 腾讯科技(深圳)有限公司 基于ocr的图像转档方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN109376658A (zh) 一种基于深度学习的ocr方法
CN110889402A (zh) 一种基于深度学习的营业执照内容识别方法及系统
CN105701488A (zh) 一种身份证识别方法
CA2192436A1 (en) System and method for automatic page registration and automatic zone detection during forms processing
CN1219709A (zh) 图象中图形提取、识别和异常判定方法及程序的存储介质
CN1525378A (zh) 票据定义数据生成方法以及票据处理装置
CN103632387A (zh) 毛笔字帖的生成方法和系统
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
CN103530625A (zh) 一种基于数字图像处理的光学字符识别方法
Stamatopoulos et al. Page frame detection for double page document images
Sajjad Automatic license plate recognition using python and opencv
KR20180013777A (ko) 비정형데이터 분석기술 장치 및 방법, 이를 구현하기 위한 애플리케이션/프로그램이 기록된 기록매체
Kallimani et al. Extraction and interpretation of charts in technical documents
CN106503629A (zh) 一种词典图片分割方法及装置
CN109685061A (zh) 适用于结构化的数学公式的识别方法
EP0961472A3 (en) Image processing apparatus and method and computer-readable memory
CN1269060C (zh) 处理和重复使用中文古籍的方法及其所采用的计算机软硬件系统
Khan et al. An efficient method for Urdu language text search in image based Urdu text
CN107194337A (zh) 一种非选择题的智能批阅方法
CN108268904B (zh) 一种图片识别方法、装置及电子设备
Sokratis et al. A tool for tuning binarization techniques
CN109409359A (zh) 一种基于深度学习的视频字幕提取方法
CN113010725B (zh) 演奏乐器的选择方法、装置、设备及存储介质
CN111241955B (zh) 一种票据信息提取方法及系统
Dash et al. An implementation of neural network approach for recognition of handwritten Odia text

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170315

RJ01 Rejection of invention patent application after publication