CN115497109A

CN115497109A - 基于智能翻译的文字图像预处理方法

Info

Publication number: CN115497109A
Application number: CN202211438873.1A
Authority: CN
Inventors: 屈杨; 曹景浩; 李圆圆
Original assignee: Shandong Smart Education Technology Co ltd
Current assignee: Shandong Smart Education Technology Co ltd
Priority date: 2022-11-17
Filing date: 2022-11-17
Publication date: 2022-12-20
Anticipated expiration: 2042-11-17
Also published as: CN115497109B

Abstract

本发明公开了基于智能翻译的文字图像预处理方法，涉及图像处理领域，该方法包括：获取纸质文档的灰度图像和二值图；获取二值图中每个文字框图的最高匹配度；获取每个文字框图中的多个连通域中边缘像素点的梯度方向；利用每个连通域中所有边缘像素点的梯度方向得到异常连通域；利用异常连通域的主成分方向、梯度方向复杂性、质心以及异常连通域所在文字框图的几何中心得到异常连通域的异常程度；获取异常连通域中每个像素点属于所在文字框图中文字的归属度；利用归属度和最高匹配度得到异常连通域中每个像素点的可信度；利用可信度对灰度图像去噪得到目标灰度图像。本发明提高了智能翻译的文字图像去噪后的准确性。

Description

基于智能翻译的文字图像预处理方法

技术领域

本发明涉及图像处理技术领域，具体涉及基于智能翻译的文字图像预处理方法。

背景技术

随着智能翻译的发展，只需要用扫描仪等光学仪器对纸质文档进行扫描成像，便可对图像用现有技术OCR读取文字，完成中文向其它语言的转换。但纸质文档在印刷过程中字体很可能变得断裂或者墨水粘连，存在大小不同的噪声污染，使得OCR识别异常困难，出错率较高，不利于文本资料电子化和准确翻译。因此，需要去除文字图像中的噪声干扰，得到清晰的图像。

由于文字图像中的结构复杂，形态多样，常规的滤波降噪容易将文字图像中的部分短笔画识别为噪声点并去除。例如三点水偏旁中的点与其他横竖撇捺不同，文字的横竖撇捺等笔画具有延伸性，边缘像素点的梯度比较单调，但是三点水偏旁中的点的边缘梯度呈发散状，与噪声点的边缘梯度特征相似，所以容易被识别为噪声点并去除，使得去噪后的灰度图像不完整、不准确，导致利用OCR读取的文字不准确，进而导致得不到准确的翻译内容，因此，本发明提出基于智能翻译的文字图像预处理方法。

发明内容

本发明提供基于智能翻译的文字图像预处理方法，以解决现有的智能翻译的文字图像预处理时去噪后的灰度图像不准确的问题。

本发明的基于智能翻译的文字图像预处理方法，采用如下技术方案：

获取纸质文档的灰度图像和二值图；

获取二值图中的多个文字框图，利用每个文字框图中的文字与特征库中的文字进行匹配得到每个文字框图的最高匹配度；

获取二值图中每个文字框图中的多个连通域；将每个连通域对应到灰度图像中获取每个连通域中边缘像素点的梯度方向；

利用每个连通域中所有边缘像素点的梯度方向得到连通域的梯度方向复杂性，根据连通域的梯度方向复杂性得到异常连通域；

获取每个异常连通域的主成分方向，利用异常连通域的主成分方向、梯度方向复杂性、质心以及异常连通域所在文字框图的几何中心得到异常连通域的异常程度；

利用异常连通域中每个像素点到异常连通域的质心的距离、异常连通域的质心到所在文字框图的几何中心的距离以及异常连通域的异常程度，得到异常连通域中每个像素点属于所在文字框图中文字的归属度；

利用异常连通域中每个像素点属于所在文字框图中文字的归属度和像素点所在文字框图的最高匹配度得到异常连通域中每个像素点的可信度；

利用异常连通域中像素点的可信度对灰度图像去噪得到目标灰度图像。

进一步，得到异常连通域的异常程度的步骤包括：

将异常连通域的质心与异常连通域所在文字框图的几何中心的相连得到质心连线；

获取质心连线与异常连通域的主成分方向的偏离程度；

利用异常连通域的梯度方向复杂性和偏离程度的乘积得到异常连通域的异常程度。

进一步，得到每个异常连通域中每个像素点属于所在文字框图中文字的归属度的步骤包括：

获取异常连通域中每个像素点到质心的距离，与像素点所在的异常连通域的质心到异常连通域所在文字框图的几何中心的距离的和值；

利用异常连通域中每个像素点得到的和值与像素点所在的异常连通域的异常程度相乘然后进行反比例归一化得到每个像素点属于所在文字框图中文字的归属度。

进一步，得到异常连通域中每个像素点属于所在文字框图中文字的归属度的公式为：

其中，

表示异常连通域中坐标为

的像素点属于所在文字框图中文字的归属度；

表示第

个异常连通域的异常程度；

表示像素点

所在的第

个异常连通域的质心的坐标；

表示质心为

的第

个异常连通域所在的文字框图的几何中心的坐标；

表示以e为底数的指数函数，e为自然常数。

进一步，利用异常连通域中像素点的可信度对灰度图像去噪得到目标灰度图像的步骤包括：

去除灰度图像中可信度小于设定的可信度阈值的像素点，得到去噪后的目标灰度图像。

进一步，得到像素点的可信度的步骤包括：

利用异常连通域中每个像素点属于所在文字框图中文字的归属度与所在文字框图的最高匹配度的乘积得到异常连通域中每个像素点的可信度。

进一步，利用文字识别技术对二值图进行文字切割得到多个文字的文字框图。

本发明的有益效果是：本发明的基于智能翻译的文字图像预处理方法，通过获取每个文字框图中的多个连通域，得到了每个文字的多个独立存在的笔画部分，利用每个连通域中边缘像素点的梯度方向复杂性得到了异常连通域，即得到了噪声的连通域，或者简短笔画的连通域；并且考虑到文字笔画的主成分方向与笔画所在连通域的质心与文字中心连线的方向相同，得到了异常连通域的异常程度，有效的避免了文字内部的简短笔画与噪声点混淆的问题；进而通过异常连通域中像素点与连通域质心的距离得到归属度，认为处于异常连通域边缘的像素点属于所在文字框图中文字的归属度低于内部的归属度，即与文字主体联系较小的边缘像素点属于所在文字框图中文字的归属度低于内部像素点，避免在利用归属度得到像素点的可信度进而去噪时，去除整个连通域，降低了去噪对文字结构的影响；结合异常连通域的异常程度和异常连通域中像素点的归属度去噪，能够避免将简短笔画部分识别为噪声点，减小去噪对文字的影响，得到更准确的噪声点并去除，进而使得得到的文字图像更准确，翻译结果也会更加准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的基于智能翻译的文字图像预处理方法的实施例总体步骤的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的基于智能翻译的文字图像预处理方法的实施例，如图1所示，该方法包括：

S1、获取纸质文档的灰度图像和二值图；获取二值图中的多个文字框图，利用每个文字框图中的文字与特征库中的文字进行匹配得到每个文字框图的最高匹配度。

具体的，在水平放置的待研究纸质文档上方布置相机，俯视采集待研究纸质文档的RGB图像，对采集的RGB图像进行进行灰度化处理得到纸质文档的灰度图像。

为了让整个图像只呈现黑和白两种效果，使得文字部分和背景的对比更加明显，对纸质文档的灰度图像进行阈值分割，设置分割阈值为127，将灰度图像中灰度值大于分割阈值的像素点灰度值赋值为255，将灰度图像中灰度值小于或者等于分割阈值的像素点灰度值赋值为0，得到灰度图像的二值图。

由于文字本身的结构特点以复印操作的墨痕影响，得到的二值图中存在单个文字内部有笔画的断开以及文字外部有墨痕溢出部分，导致字与字之间有小面积的噪声的情况。

利用现有的OCR文字识别技术识别二值图中的文字得到二值图中的多个文字的文字框图。

从已有的特征库中获取与每个文字框图中文字最高相似度的文字，将每个文字框图中文字得到的最高相似度作为对应的文字框图的最高匹配度。文字框图的最高匹配度越高，表明该文字框图受到的噪声干扰较小，该文字框图对应的区域不需要大程度的去噪；最高匹配度越低，表明该文字框图受到噪声干扰较大，噪声严重影响文字的识别，需要更大程度的去噪。

S2、获取二值图中每个文字框图中的多个连通域；将每个连通域对应到灰度图像中获取每个连通域中边缘像素点的梯度方向。

具体的，利用四连通准则获取二值图中每个文字框图的白色像素点的连通域，即文字框图中文字笔画部分的连通域；将二值图中的文字框图以及文字框图中的多个连通域对应到灰度图像中得到灰度图像中的多个文字框图以及文字框图中的连通域。

利用canny算子对灰度图像中每个文字框图中的每个连通域进行边缘检测得到每个连通域的边缘像素点；利用Sobel算子获取每个连通域的边缘像素点梯度方向。

S3、利用每个连通域中所有边缘像素点的梯度方向得到连通域的梯度方向复杂性，根据连通域的梯度方向复杂性得到异常连通域。

由于汉字的笔画（如横、竖、撇、捺）多有延伸性，文字部分连通域的边缘像素点的梯度方向比较单调，而噪声的梯度方向则呈发散状。所以，文字结构部分的连通域的边缘像素点的梯度方向具有一致性，会有大量的相同梯度方向多次出现的情况；噪声的连通域边缘像素点的梯度方向比较多样，相同梯度方向重复出现的次数较少。

具体的，获取每个连通域的边缘像素点的梯度方向，从每个连通域的多个边缘像素点的梯度方向中选取只出现一次的梯度方向的总个数；利用每个连通域中只出现一次的梯度方向的总个数与连通域中边缘像素点的总数量的比值得到每个连通域的梯度方向复杂性。

连通域的梯度方向复杂性越大，越可能是噪声连通域，设定梯度方向复杂性阈值为0.5，将大于0.5的梯度方向复杂性对应的连通域作为异常连通域。

S4、获取每个异常连通域的主成分方向，利用异常连通域的主成分方向、梯度方向复杂性、质心以及异常连通域所在文字框图的几何中心得到异常连通域的异常程度。

具体的，获取每个文字框图的几何中心以及文字框图中每个异常连通域的质心；对每个异常连通域进行主成分方向分析得到异常连通域的主成分方向。

将异常连通域的质心与异常连通域所在文字框图的几何中心的相连得到质心连线，获取质心连线的倾斜角与异常连通域的主成分方向的偏离程度，利用异常连通域的梯度方向复杂性和偏离程度的乘积得到异常连通域的异常程度，具体计算异常连通域的异常程度的公式为：

其中，

表示第

个异常连通域的异常程度；

表示第

个异常连通域质心与异常连通域所在文字框图的几何中心的相连得到的质心连线的倾斜角；

表示第

个异常连通域的主成分方向；

表示第

个异常连通域的梯度方向复杂性；考虑到文字结构的外圆特点，简短笔画的连通域的主方向会指向文字框图的几何中心，即连通域的质心连线的倾斜角与异常连通域的主成分方向相似，所以异常连通域的质心与异常连通域所在文字框图的几何中心的相连质心连线的倾斜角与异常连通域的主成分方向的偏离程度

越大，该异常连通域越可能是噪声部分，连通域的梯度方向复杂性越大，越可能是噪声连通域，所以利用两者的乘积得到异常连通域的为噪声连通域的可能性，即异常连通域的异常程度。

S5、利用异常连通域中每个像素点到异常连通域的质心的距离、异常连通域的质心到所在文字框图的几何中心的距离以及异常连通域的异常程度，得到异常连通域中每个像素点属于所在文字框图中文字的归属度。

具体的，获取异常连通域中每个像素点到质心的距离，和像素点所在的异常连通域的质心到异常连通域所在文字框图的几何中心的距离的和值；利用异常连通域中每个像素点得到的和值与像素点所在的异常连通域的异常程度相乘然后进行反比例归一化得到每个像素点属于所在文字框图中文字的归属度，具体计算连通域中每个像素点属于所在文字框图中文字的归属度的公式为：

其中，

表示异常连通域中坐标为

的像素点所在文字框图中文字的归属度；

表示第

个异常连通域的异常程度；

表示像素点

所在的第

个异常连通域的质心的坐标；

表示质心为

的第

个异常连通域所在的文字框图的几何中心的坐标；

表示以e为底数的指数函数，e为自然常数；

表示第

个异常连通域中坐标为

的像素点到质心

的距离，距离越大，表示该像素点越远离所在的异常连通域的质心，处于外围，越可能是噪声点；

表示第

个异常连通域的质心

到所在的文字框图的几何中心

的距离，距离越大，表示该连通域越脱离文字的主体，越可能为噪声部分；结合异常连通域的异常程度，得到的乘积越大，越可能是噪声连通域；利用指数函数对得到的乘积结果进行反比例归一化，归一化后的值越小，越可能是噪声点，即像素点属于该文字框图中文字的归属度越小。

S6、利用异常连通域中每个像素点属于所在文字框图中文字的归属度和像素点所在文字框图的最高匹配度得到异常连通域中每个像素点的可信度；利用异常连通域中像素点的可信度对灰度图像去噪得到目标灰度图像。

具体的，利用异常连通域中每个像素点属于所在文字框图中文字的归属度与所在文字框图的最高匹配度的乘积得到异常连通域中每个像素点的可信度；将灰度图像中可信度小于可信度阈值的像素点作为噪声点并去除，得到去噪后的目标灰度图像，设定可信度阈值为0.55。

综上所述，本发明提供基于智能翻译的文字图像预处理方法，通过获取每个文字框图中的多个连通域，得到了每个文字的多个独立存在的笔画部分，利用每个连通域中边缘像素点的梯度方向复杂性得到了异常连通域，即得到了噪声的连通域，或者简短笔画的连通域；并且考虑到文字笔画的主成分方向与笔画所在连通域的质心与文字中心连线的方向相同，得到了异常连通域的异常程度，有效的避免了文字内部的简短笔画与噪声点混淆的问题；进而通过异常连通域中像素点与连通域质心的距离得到归属度，认为处于异常连通域边缘的像素点属于所在文字框图中文字的归属度低于内部的归属度，即与文字主体联系较小的边缘像素点属于所在文字框图中文字的归属度低于内部像素点，避免在利用归属度得到像素点的可信度进而去噪时，去除整个连通域，降低了去噪对文字结构的影响；结合异常连通域的异常程度和异常连通域中像素点的归属度去噪，能够避免将简短笔画部分识别为噪声点，减小去噪对文字的影响，得到更准确的噪声点并去除，进而使得得到的文字图像更准确，翻译结果也会更加准确。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。