CN112508976A

CN112508976A - 基于u型卷积神经网络的满文历史文档图像二值化方法

Info

Publication number: CN112508976A
Application number: CN202011524416.5A
Authority: CN
Inventors: 郑蕊蕊; 贺建军; 吴宝春; 霍小娜
Original assignee: Dalian Minzu University
Current assignee: Dalian Minzu University
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-03-16

Abstract

本发明公开了一种基于U型卷积神经网络的满文历史文档图像二值化方法，属于图像二值化技术领域，包括：S1：采用分块自适应同态滤波方法，将满文历史文档图像分为若干个子块图像，对子块图像进行同态滤波，用于解决图像光照不均的问题；S2：使用U型卷积神经网络对同态滤波后的满文历史文档进行二值化；可以使图像明暗适中，保留图像的局部细节，像素识别精度更高，同时可以有效去除背景部分，保留文字内容，具有更高的灵活性和自适应性。

Description

基于U型卷积神经网络的满文历史文档图像二值化方法

技术领域

本发明属于图像二值化技术领域，具体涉及一种基于U型卷积神经网络的满文历史文档图像二值化方法。

背景技术

满文历史文档具有丰富的史料价值,直接对满文历史文档原件进行研究可能会对其造成破坏，因此需要采用数字化的方法，对满文历史文档图像进行识别和保存。对满文历史文档的数字化保护和利用得到了社会各界的广泛关注。满文历史文档由于年代久远，在一些人为和自然因素的作用下造成了古籍不同程度的损坏和退化,出现光照不均,污渍和噪声等情况,对满文历史文档的识别分析带来一定影响。在对满文历史文档的识别分析中，二值化是图像文本识别时关键的一步。而满文历史文档图像往往存在光照不均的问题，给图像的准确二值化造成了一定的困难。同态滤波方法可以在一定程度上解决光照不均带来的问题。传统的同态滤波方法没有考虑到图像的空间局部特性，虽然从整体增强了图像的亮度，但是一些局部的细节会由于像素过增强而丢失。同时，传统同态滤波方法一般采用人工设定的全局阈值，对不同情况的满文历史文档缺乏灵活性和自适应性。传统的文档图像二值化方法无法有效去除满文历史文档图像中页面污渍、纹理背景、字迹模糊等退化因素，不能完全脱离人工优化。

发明内容

为解决现有技术中存在的不足，本发明提供一种基于U型卷积神经网络的满文历史文档图像二值化方法，可以使图像明暗适中，保留图像的局部细节，像素识别精度更高，同时可以有效去除背景部分，保留文字内容，具有更高的灵活性和自适应性。

本发明为解决其技术问题所采用的技术方案是：一种基于U型卷积神经网络的满文历史文档图像二值化方法，包括：

S1：采用分块自适应同态滤波方法，将满文历史文档图像分为若干个子块图像，对子块图像进行同态滤波，用于解决图像光照不均的问题；

S2：使用U型卷积神经网络对同态滤波后的满文历史文档进行二值化。

进一步的，所述步骤S1包括：将满文历史文档图像分为4×4个子块图像，将满文历史文档图像边缘未被划分的行和列分入相邻的子块图像中；

选取能够减少低频分量同时需要增加高频分量的同态滤波函数H(u,v)，分别对4×4个子块图像进行同态滤波，并将滤波后的子块图像合并成一幅图像。

进一步的，所述U型卷积神经网络由左侧收缩路径，即编码层，和右侧对称的扩展路径，即解码层两部分组成，在编码层中通过卷积和最大池化，提取满文历史文档图像的低维特征，在解码层中通过上采样和卷积恢复特征图的分辨率，提取满文历史文档图像的高维特征；在相对应的编码层与解码层之间通过级联，将编码层中得到的特征图拼接到解码层中，结合高维特征的语义信息和低维特征中的位置信息，实现语义分割。

本发明的有益效果：(1)通过分块同态滤波的方法可以使图像明暗适中，保留图像的局部细节；将图像分成4×4＝16块，图像边缘未被划分的行和列被分入相邻的子块图像中，因此源图像大小不需要严格按子块图像大小选取，同时也不需要对处理后的图像进行边界填充；

(2)利用U型卷积神经网络优秀的特征提取能力，有效处理存在不同退化效果的满文历史文档图像，相较于传统图像二值化方法，在对满文历史文档图像进行二值化时，像素识别精度更高，可以有效去除背景部分，保留文字内容，具备良好的二值化性能。

附图说明

图1是本发明整体流程框图；

图2是本发明U型卷积神经网络结构图；

图3是比较本发明图像分块同态滤波与全局同态滤波后的结果图；

图4是比较本发明基于U型卷积神经网络的二值化方法与其他二值化方法对光照不均图像的实验结果图；

图5是比较本发明基于U型卷积神经网络的二值化方法与其他二值化方法对背景复杂图像的实验结果图；

图6是比较本发明基于U型卷积神经网络的二值化方法与其他二值化方法对字迹模糊图像的实验结果图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

实施例1

一种基于U型卷积神经网络的满文历史文档图像二值化方法，在对满文历史文档图像二值化之前进行分块同态滤波实现图像增强，以削弱不均匀光照，再使用U型卷积神经网络对图像进行像素分类。

具体如下：

S2：使用U型卷积神经网络对同态滤波后的满文历史文档进行二值化；

S3：对满文历史文档图像同态滤波及二值化结果进行分析。

1、分块自适应同态滤波

1.1分块同态滤波的实现

将满文历史文档图像分为4×4块，每块的长为floor(M/4),宽为floor(N/4)，M、N为图像的大小，将图像边缘未被划分的行和列分入相邻的子块图像中。分别对4×4个子块图像进行同态滤波，并将滤波后的图像子块合并成一幅图像。

1.2高通滤波器及参数选取

为了达到理想的滤波效果，同态滤波函数H(u,v)的选取至关重要。H(u,v)需要减少低频分量，消除光照不均对图像的影响，同时也需要增加高频分量，增强图像的对比度。

选用高斯型高通滤波器来减少低频，增加高频，其函数表达式如下：

r_H为高频增益，r_L为低频增益，r_H<1，r_L>1可减少低频，增强高频，压缩图像动态范围和增强图像对比度；c为锐化系数，用来控制同态滤波函数斜面的锐化，通常为r_H和r_L之间的常数,；D(u,v)为点(u,v)到傅里叶变换中心的距离：

D₀为截止频率，是(u,v)＝0时D(u,v)的大小。它与照度场和反射系数场的频谱幅度对比度有关，通常需要经过大量实验选取合适的取值。D₀的值越小，滤波后低频成分越多，图像越暗，相反则越亮。在对图像进行同态滤波时，为了在压缩图像动态范围的同时，不损失反射分量的图像细节，要求截止频率D₀尽可能高，保留更多的图像细节。本发明中，D₀由公式(3)得出：

D₀＝α×median(median(D)) (3)D为图像各个点到傅里叶变换中心的距离，α为调节系数，α＝0.00003～0.00006，

当α值大时，截止频率就越大，低频成分通过的越多，图像保留的入射分量细节越少。针对历史文档α＝0.00003时确定的截止频率可以在压缩图像动态范围的同时，尽可能的保留图像的细节。

在对图像进行全局同态滤波后，图像往往亮度过高，导致原本清晰明亮的部分被过度增强，丢失细节。通过分块同态滤波的方法可以使图像明暗适中，保留图像的局部细节。现有的分块同态滤波的方法一般是将图像分成8×8像素的图像块，分别对每个图像块进行同态滤波。但是该方法所处理的源图像大小需要子图像的大小是8像素的整数倍，否则需要进行边界填充。本发明方法，将图像分成4×4＝16块，每块的长为floor(M/4),宽为floor(N/4),M、N为图像的大小，图像边缘未被划分的行和列将被分入相邻的图像子块中，因此源图像大小不需要严格按子图像大小选取，同时也不需要对处理后的图像进行边界填充。

1.3同态滤波

同态滤波是一种在频域中将图像动态范围进行压缩并将图像对比度进行增强的方法。图像f(x,y)可由入射分量i(x,y)和反射分量r(x,y)的乘积表示，表达式如下：

f(x，y)＝i(x，y)r(x，y) (4)

通常情况下，i(x,y)对应频谱的低频区域，反映了光照条件；r(x,y)对应频谱的高频区域，反映了图像的内容细节。其中入射分量i(x,y)的缓慢变化会引起图像的光照不均，因此将i(x,y)分量与r(x,y)分量分开，增加高频，减少低频，可以减少光照不均对图像的影响，使图像更加清晰。

为了将入射分量i(x,y)和反射分量r(x,y)分离，对式(4)两边取对数：

z(x，y)＝lnf(x，y)＝lni(x，y)+lnr(x，y) (5)

对(5)式两边进行傅里叶变换，将图像由空域转换为频域：

F(z(x，y))＝F(lni(x，y))+F(lnr(x，y)) (6)

Z(u，v)＝F_i(u，v)+F_r(u，v) (7)

选取同态滤波函数H(u,v)对Z(u,v)进行处理：

S(u，v)＝H(u，v)Z(u，v)＝H(u，v)F_i(u，v)+H(u，v)F_r(u，v) (8)

再对滤波后输出S(u,v)进行逆傅里叶变换：

s(x，y)＝F^-1(S(u，v))＝F^-1(H(u，v)F_i(u，v)+H(u，v)F_r(u，v)) (9)

s(x，y)＝i′(x，y)+r′(x，y) (10)

对(10)式两边取指数得到同态滤波后的图像：

g(x，y)＝e^s(x，y)＝e^i′(x，y)e^r′(x，y)＝i₀(x，y)r₀(x，y) (11)

传统同态滤波的截止频率D0，通常需要经过大量实验选取合适的取值，本发明中，D0＝α×median(median(D))。其中,D为图像各个点到傅里叶变换中心的距离，α为调节系数，α＝0.000030.00006，当α值大时，截止频率就越大，低频成分通过的越多，图像保留的入射分量细节越少。针对历史文档,α＝0.00003时，确定的截止频率可以在压缩图像动态范围的同时，尽可能的保留图像的细节。

2图像二值化

本发明通过U型卷积神经网络，对同态滤波后的满文历史文档图片进行二值化。

2.1U型卷积神经网络的结构

U型卷积神经网络包含用于获取上下文信息的收缩路径，和精确定位文本信息的扩张路径，在收缩路径和扩张路径之间通过级联，可以将低层特征图与高层特征图结合起来，再通过自动上下文更好的恢复目标细节，增强网络全局特征的学习能力，实现精确的像素级分类和定位。因此，U型卷积神经网络具有良好的特征提取能力。U型卷积神经网络可以在满文历史文档图像样本较少的情况下，进行端到端的训练，可以有效减少满文历史文档中页面污渍、纹理背景等问题对二值化结果造成的影响，具有较高的像素分类准确率。U型卷积神经网络的结构如图2所示，每个长方体对应一个多通道特征图，长方体顶部数值表示通道的数目，长方体左下边缘数值表示特征图的尺寸，长方体上的虚线部分表示剪裁收缩路径的特征图。白色长方体表示经剪裁后从收缩路径复制到扩张路径的特征图，不同的箭头操作也不同，具体操作如图2右下角所示。

U型卷积神经网络由左侧收缩路径(编码层)和右侧对称的扩展路径(解码层)两部分组成，在编码层中通过卷积和最大池化，提取图像的低维特征，在解码层中通过上采样和卷积恢复特征图的分辨率，提取高维特征。在相对应的卷积层之间跨越连接，将编码层中得到的特征图拼接到解码层中，结合高层次特征的语义信息和低层次特征中的位置信息，实现准确性高的语义分割。左侧收缩路径用于获取图像的上下文信息，通过交替卷积和池化运算，减少图像特征量，增大特征图的数量。其基本单元为两个3×3卷积核和2×2的最大池化层，卷积操作后，均采用Relu函数作为激活函数。输入图像为灰度图像，大小为256×256×1。收缩路径共进行5次下采样，经过每次下采样后，特征通道数量加倍，分辨率减半；右侧扩展路径用于对感兴趣的文本信息进行精确定位，逐步恢复高维特征图的空间维度和目标细节。扩展路径每步都包含对高维特征图进行上采样，使用步长为2的2×2卷积核进行反卷积操作，特征通道数减半，图像大小加倍。同时，每次上采样得到的结果与收缩路径中相应的特征图级联，再使用两个3×3卷积核进行卷积运算，均采用Relu激活函数。最后一层中的卷积核大小为1×1，采用Sigmoid函数作为激活函数，通过卷积运算可以将特征向量映射到输出层，输出图像大小与输入图像一致。在上采样过程中，U型卷积神经网络相较于全卷积神经网络，拥有大量特征通道，允许网络将上下文信息传播到更高分辨率层。

3结果分析

3.1同态滤波结果分析

本发明采用熵和平均梯度来评价图像同态滤波后的效果。

图像的信息熵可以反映图像包含信息的丰富程度，信息熵越大，图像包含的信息量越多，内容越丰富。信息熵计算公式为：

式中，p_(i)为每个字母在信息中出现的概率。

平均梯度能够体现图像微小细节的反差，衡量图像的清晰程度。图像的平均梯度越大，图像越清晰，质量也越好。其表达式如下：

式中，I(i，j)为图像在点(i，j)的像素值，M为图像的行数，N为图像的列数。

本发明实验中采用的历史文档图像来自2013、2014和2016的国际文档二值化比赛(DIBCO)数据集，共36张文档图像，以及中国第一历史档案馆收录的真实满文手写扫描档案《军机处满文准格尔使者档》，随机选取的50页满文单词。

分别以满文文档图像和国际文档图像二值化竞赛(DIBCO)提供的古籍文档为例，比较图像分块同态滤波与全局同态滤波后的结果，如图3示。

如下表1所示，对图像进行分块同态滤波，比全局同态滤波所得到结果的熵和平均梯度要大，说明本发明方法可以使图像更加清晰，细节更丰富，保留更好的视觉效果。

表1图像客观性能比较

3.2二值化结果分析

为了验证本发明方法的有效性，实验中选取了文档图像处理领域中六种经典的二值化方法，和该方法作比较，这六种方法分别是Otsu算法、Niblack算法、Sauvola算法、Wolf算法、Bradley算法和Gatos算法。实验采用的数据集为满文历史文档图像数据集《军机处满文准噶尔使者档》和《清代新疆满文档案汇编》。为了保证结果分析的客观性和可靠性，采用DIBCO常用的图像评价方法F值(F-measure)、峰值信噪比(PSNR)、结构相似度(SSIM)和错误度量率(NRM)对每种方法进行评估。本发明方法与另外六种经典二值化算法的评价指标结果如表2所示。

表2本发明基于U型卷积神经网络二值化算法与经典文档图像二值化算法性能比较

表2是各算法针对两个满文历史文档图像数据集的评估结果，表中每个数值取平均值，保留三位小数。F值、PSNR值、SSIM值越大，NRM值越小，说明算法的性能越好。BHF-Unet表示基于U型卷积神经网络的二值化方法(Binarization based on u-net)。由表2可以看出，本发明基于U型卷积神经网络的二值化方法的各项指标数值均表现优异，在《军机处满文准噶尔使者档》数据集中，F值、PSNR值和NRM值取得了第一名；在《清代新疆满文档案汇编》数据集中，F值、PSNR值、SSIM值和NRM值取得了第一名，并且与基于分块同态滤波和像素融合的二值化算法相比，本发明基于U型卷积神经网络的二值化方法在各项指标上有明显的提升。说明基于U型卷积神经网络的二值化方法的像素分类准确率极高，与标签图像非常接近，并且针对不同低质量的满文历史文档图像可以取得良好的二值化结果。从数据集中选取三张图像作为对比实验的测试图，从视觉效果方面分析比较各算法，如图4(a)、5(a)、6(a)所示，分别是光照不均、背景复杂、字迹模糊的图像，图4-6为各算法的实验结果图。

在各类二值化算法中，Otsu算法在文本和背景差别较大区域，具有良好的分割效果，但在无法识别图像阴影部分的文字内容，将大量背景误判为文字，同时该方法处理图像的字迹模糊部分效果不佳；Niblack算法的输出图像会产生大量的噪声点；Sauvola算法在处理光照不均和复杂背景的效果方面，明显优于Otsu算法，体现了局部阈值算法的优势，并且改善了Niblack算法存在大量背景噪声的问题，但无法正确识别字迹模糊的文字；Wolf算法输出结果与Sauvola算法类似，在识别模糊的文字时，会造成笔画缺失；Bradely算法可以正确识别出模糊的文字，但仍会保留一些不必要的背景噪声；Gatos算法相较于以上算法，字符分割准确率较高，视觉效果也更好，可以去除图像大部分的阴影成分，阴影处文字内容清晰可见，但较细笔画经过处理后出现了笔画断裂的现象；本发明方法采用分块同态滤波方法，因此能较好地处理光照不均图像最左侧部分，由于扫描过程中的不当操作产生的阴影，抑制复杂背景的能力最强，同时能正确识别字迹模糊的文字，完整保存了文字内容，视觉效果较好。相较于以上二值化算法，取得了最优的二值化结果。同时该方法针对以上三种退化效果的图像，均取得了较好的二值化结果，说明本发明方法可以有效地处理不同退化情况的满文历史文档图像。

本发明使用U型卷积神经网络，对分块同态滤波后的图像进行二值化。利用U型卷积神经网络优秀的特征提取能力，有效处理存在不同退化效果的满文历史文档图像。实验结果表明，本发明方法相较于传统图像二值化方法，在对满文历史文档图像进行二值化时，像素识别精度更高，可以有效去除背景部分，保留文字内容，具备良好的二值化性能。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于U型卷积神经网络的满文历史文档图像二值化方法，其特征在于，包括：

2.根据权利要求1所述的基于U型卷积神经网络的满文历史文档图像二值化方法，其特征在于，所述步骤S1包括：将满文历史文档图像分为4×4个子块图像，将满文历史文档图像边缘未被划分的行和列分入相邻的子块图像中；

3.根据权利要求1所述的基于U型卷积神经网络的满文历史文档图像二值化方法，其特征在于，所述U型卷积神经网络由左侧收缩路径，即编码层，和右侧对称的扩展路径，即解码层两部分组成，在编码层中通过卷积和最大池化，提取满文历史文档图像的低维特征，在解码层中通过上采样和卷积恢复特征图的分辨率，提取满文历史文档图像的高维特征；在相对应的编码层与解码层之间通过级联，将编码层中得到的特征图拼接到解码层中，结合高维特征的语义信息和低维特征中的位置信息，实现语义分割。