CN105761201B

CN105761201B - 一种翻译图片中文字的方法

Info

Publication number: CN105761201B
Application number: CN201610073785.4A
Authority: CN
Inventors: 王洪君; 孙健琳; 于光玉; 刘珂; 王小飞
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2016-02-02
Filing date: 2016-02-02
Publication date: 2019-03-22
Anticipated expiration: 2036-02-02
Also published as: CN105761201A

Abstract

本发明涉及一种翻译图片中文字的方法。本发明所述种翻译图片中文字的方法，仅对文档中文字部分使用机器学习的方法进行检测和OCR识别；可对文字部分先进行机器翻译并设置相应翻译准确的置信度，后期进行人工翻译调整，并将不同翻译准确率置信度的翻译用不同的背景色标记区分，提高了翻译准确度。本发明所述种翻译图片中文字的方法，提出了一种保留原有扫描文件图片格式，仅通过识别图片中文字区域和内容可进行多种翻译方式的选择，翻译准确度高，易操作和实现。

Description

一种翻译图片中文字的方法

技术领域

本发明涉及一种翻译图片中文字的方法，属于图像处理的技术领域。

背景技术

在国际化越来越盛行和信息交互越来越频繁的现代社会，很多情况下我们需要将某些证件、文件的扫描件或带有特定文字格式的图片中的文字内容进行语言之间的翻译。现有技术中，已经有较成熟的技术和软件来实现文本的翻译；但是对于图片中的文字，尤其是对于有特定格式的图片中的文字，通常仍然需要依赖人工翻译，并且重新保存文件的格式，图片中文字内容的翻译因此也变得繁琐和不便利。

扫描文件一般保存为图片格式，图片中包含特定文字和特定的排版。在需要将图片文字进行翻译的情况下，不能方便地提取图片中的文字进行翻译，也很难保留原来图片中的排版格式。

现有技术中关于扫描文字的识别已经有各种识别软件，中国专利CN102904909A公开了一种云模式的OCR文字识别方法，该方法是一种基于OCR识别的文字识别技术。

发明内容

针对现有技术的不足，本发明提供一种翻译图片中文字的方法。

本发明的技术方案如下：

发明概述：一种翻译图片中文字的方法，图片文件中文字的翻译步骤包括，图片文件的预处理，图片文件中文字区域的识别，OCR字符识别以及标记置信度的文字翻译。

一种翻译图片中文字的方法，包括步骤如下：

1)图片的预处理：对图片进行去噪、文字内容对齐和对比度调整。来自扫描仪或者相机的图片，一般都包含噪声点，文字内容可能歪斜，图片的亮度、对比度差异也较大。为了提高后续文字识别的准确度，需要对图片进行预处理，以去除图片中的噪声点，矫正图片上下边缘处于水平位置及矫正图片中文本行保持水平，并通过对比度调整使得图片中的文字和背景能明显区分出来。

2)文字区域检测：在图片中，文字区域的位置和大小不固定，采用机器学习的方法生成的检测器检测并标记图片中的文字区域和非文字区域：

模型训练：通过文字区域样本和非文字区域样本生成检测器。用来检测图片中文字的检测器是使用Soft-Cascade机器学习的方法训练得来的，这种方法需要预先准备两组矩形图片的样本：正例组(文字区域样本)的矩形图片为文字，负例组(非文字区域样本)的矩形图片为非文字；这种方法需要预先准备一些扫描图片样本，对样本图片中的文字区域进行人工标记，再利用固定大小的滑动窗口依次扫过整张图片，将窗口2/3区域落在人工标记的文字区域的矩形图片标记为正例组(文字区域样本)，否则标记为负例组(非文字区域样本)。使用该训练集进行的训练，最终生成的检测器能判断输入的矩形区域是否属于文字区域；

区域检测：将预处理后的图片按不同比例缩小，得到图片的金字塔形数据，使用滑动窗口技术分别扫过不同大小的图片，通过固定窗口大小的检测器确定扫过的每个区域是否为文字区域，将不同比例图片得到的文字区域合并，标定出图片中的文字区域；

3)文字区域识别：使用OCR字符识别技术调用第三方(Tesseract或FineReader)的API接口，识别文字区域内的文字内容并保存，同时将文字区域用背景色覆盖，设置为可编辑区域；

4)文本翻译：对已识别出的文字依次进行机器翻译和人工翻译，并对不同人工对应的人工翻译设置翻译准确率置信度；不同的翻译准确率置信度对应不同的背景颜色；用机器翻译对应的背景颜色替代所述背景色；如果人工翻译对应的翻译准确率置信度高于机器翻译对应的翻译准确率置信度，则用人工翻译的结果代替机器翻译的结果，并用人工翻译对应置信度的背景颜色替代机器翻译对应置信度的背景颜色；如果人工翻译对应的翻译准确率置信度低于机器翻译对应的翻译准确率置信度，则重新选择人工翻译，直至人工翻译对应的翻译准确率置信度高于机器翻译对应的翻译准确率置信度，用人工翻译的结果代替机器翻译的结果，并用人工翻译对应置信度的背景颜色替代机器翻译对应置信度的背景颜色；

人工翻译是指，在文字区域识别时，已经将该区域修改设置为可编辑区域，人工可直接翻译，翻译准确率置信度一般较高；不同人工的人工翻译的翻译准确置信度不同。

不同人工的人工翻译对应的翻译准确率的置信度是一个经验值，在人工翻译中通过对不同人工翻译的数量和翻译准确度和认可度按不同的比重计算而得翻译准确率置信度，不同级别的人工在进行同人工翻译时拥有不同的翻译准确率置信度等级，如高级翻译用户有较高的翻译准确率置信度(值为90)，刚入门的用户的翻译准确率置信度则较低(值为70)；机器翻译的翻译准确率置信度是一个经验值。人工在修改已有翻译内容前，先检测自身的翻译准确率置信度是否高于机器翻译对应的翻译准确率置信度，条件满足时，进行修改文本。同时记录被修改的文字区域范围，用人工翻译对应的背景颜色代替原有背景颜色。

5)文字区域调整：根据文字区域对翻译的结果进行排版调整，使翻译结果与原文字区域排版一致；文本翻译结束后，统计翻译后文本的字数；根据文本区域大小，确定新的文字大小标准：计算翻译后文本中单个文字的字宽、字高及字间距；按照新的文字大小标准将翻译后文本填充至文本区域；

6)文本翻译输出：将翻译好的文字区域与原图片的排版和格式合并后保存输出。将原始图像、原始文字遮挡区域和翻译好的文字区域这三个图层，从下到上依次合成，最终形成翻译后的文档输出，只有文字区域变成了目标翻译语言而其他区域保持原有样貌不变。

优选的，所述步骤2)中文字区域的检测方法为，基于AdaBoost的Soft-Cascade算法。基于AdaBoost的Soft-Cascade算法利用几个弱分类器生成一个强分类器，将弱分类器级联，并在每一级设置检测阈值迅速检测并拒绝负样本，加速检测的速度。其中AdaBoost算法是针对同一个训练集训练不同的弱分类器，按一定规则将这些弱分类器组合，最后构成一个强分类器的算法。弱分类器是指分类的准确率略高于50％，即准确率仅仅稍好于随机猜测的分类器，最后得到的强分类器能够得到较高的准确率，性能要远远好于任何单个弱分类器。而Soft-Cascade算法通过级联的方式，在每一级弱分类器设置样本检测累计准确率的阈值，使得能快速找到小于阶段阈值的负样本拒绝，提高找到正样本的速率。

优选的，所述步骤4)中机器翻译的具体方法为，调用机器翻译API(Google翻译或百度翻译的API)，输入文字区域内的文字内容，得到初步结果，再通过人工翻译对初步结果进行调整。

优选的，所述人工翻译的翻译准确率置信度为0～100，机器翻译的翻译准确率置信度为75～85。

该发明的有益之处是：

1、本发明所述种翻译图片中文字的方法，提出了一种保留原有扫描文件图片格式，仅通过识别图片中文字区域和内容可进行多种翻译方式的选择，翻译准确度高，易操作和实现；

2、本发明所述种翻译图片中文字的方法，针对扫描文档中的文字提出一种智能的翻译解决方案，保留了原扫描文档的格式；

3、本发明所述种翻译图片中文字的方法，仅对文档中文字部分使用机器学习的方法进行检测和OCR识别；可对文字部分先进行机器翻译并设置相应翻译准确的置信度，后期进行人工翻译调整，并将不同翻译准确率置信度的翻译用不同的背景色标记区分，提高了翻译准确度。

附图说明

图1为本发明所述图片中文字翻译方法的流程图；

具体实施方式

下面结合实施例和说明书附图对本发明做详细的说明，但不限于此。

实施例1

如图1所示。

一种翻译图片中文字的方法，包括步骤如下：

模型训练：通过文字区域样本和非文字区域样本生成检测器。用来检测图片中文字的检测器是使用Soft-Cascade机器学习的方法训练得来的，这种方法需要预先准备两组矩形图片的样本：正例组(文字区域样本)的矩形图片为文字，负例组(非文字区域样本)的矩形图片为非文字；使用该训练集进行的训练，最终生成的检测器能判断输入的矩形区域是否属于文字区域；

3)文字区域识别：使用OCR字符识别技术调用Tesseract的API接口，识别文字区域内的文字内容并保存，同时将文字区域用背景色覆盖，设置为可编辑区域；

6)文本翻译输出：将翻译好的文字区域与原图片的排版和格式合并后保存输出。

实施例2

根据实施例1所述的翻译图片中文字的方法，其区别在于，所述步骤2)中文字区域的检测方法为，基于AdaBoost的Soft-Cascade算法。基于AdaBoost的Soft-Cascade算法利用几个弱分类器生成一个强分类器，将弱分类器级联，并在每一级设置检测阈值迅速检测并拒绝负样本，加速检测的速度。其中AdaBoost算法是针对同一个训练集训练不同的弱分类器，按一定规则将这些弱分类器组合，最后构成一个强分类器的算法。弱分类器是指分类的准确率略高于50％，即准确率仅仅稍好于随机猜测的分类器，最后得到的强分类器能够得到较高的准确率，性能要远远好于任何单个弱分类器。而Soft-Cascade算法通过级联的方式，在每一级弱分类器设置样本检测累计准确率的阈值，使得能快速找到小于阶段阈值的负样本拒绝，提高找到正样本的速率。

实施例3

根据实施例1所述的翻译图片中文字的方法，其区别在于，所述步骤4)中机器翻译的具体方法为，调用百度翻译的API，得到初步结果，再通过人工翻译对初步结果进行调整。

实施例4

根据实施例1所述的翻译图片中文字的方法，其区别在于，所述人工翻译的翻译准确率置信度为90，机器翻译的翻译准确率置信度为80。

Claims

1.一种翻译图片中文字的方法，其特征在于，包括步骤如下：

1)图片的预处理：对图片进行去噪、文字内容对齐和对比度调整；

2)文字区域检测：采用机器学习的方法生成的检测器检测并标记图片中的文字区域和非文字区域：

模型训练：通过文字区域样本和非文字区域样本训练生成检测器；

区域检测：通过所述检测器确定图片中的文字区域；

3)文字区域识别：使用OCR识别所述文字区域内的文字内容并保存，同时将文字区域用背景色覆盖，设置为可编辑区域；

5)文字区域调整：根据文字区域对翻译的结果进行排版调整，文本翻译结束后，统计翻译后文本的字数；根据文本区域大小，确定新的文字大小标准：计算翻译后文本中单个文字的字宽、字高及字间距；按照新的文字大小标准将翻译后文本填充至文本区域；

2.根据权利要求1所述的翻译图片中文字的方法，其特征在于，所述步骤2)中文字区域的检测方法为，基于AdaBoost的Soft-Cascade算法。