CN112837329B

CN112837329B - 一种藏文古籍文档图像二值化方法及系统

Info

Publication number: CN112837329B
Application number: CN202110226520.4A
Authority: CN
Inventors: 王维兰; 赵鹏海; 胡鹏飞; 王筱娟
Original assignee: Northwest Minzu University
Current assignee: Northwest Minzu University
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2022-07-19
Anticipated expiration: 2041-03-01
Also published as: CN112837329A

Abstract

本发明涉及一种藏文古籍文档图像二值化方法及系统。该方法包括：获取藏文古籍文档图像，并对所述藏文古籍文档图像进行二值化处理，确定初步二值化图；根据所述初步二值化图确定估计二值化图，并对所述估计二值化图进行标注，确定藏文古籍文档图像标注图；利用所述藏文古籍文档图像标注图以及所述藏文古籍文档图像对改进后的U‑Net网络模型进行训练，生成训练好的U‑Net网络模型，并保存网络模型参数；将待处理的藏文古籍文档图像进行切片处理，并将切片后的藏文古籍文档图像以及所述待处理的藏文古籍文档图像放大后输入至所述训练好的U‑Net网络模型中，确定最终的二值化结果图。本发明有效抑制了假性粘连情况的产生。

Description

一种藏文古籍文档图像二值化方法及系统

技术领域

本发明涉及图像处理领域，特别是涉及一种藏文古籍文档图像二值化方法及系统。

背景技术

现有的图像二值化方法可分为两大类。一类是以大津法为代表的全局二值化方法，其主要思想是确定一个固定的阈值，将图像分成背景和前景两部分。因方差是灰度分布均匀性的一种度量，背景和前景之间的类间方差越大，说明构成图像的两部分的差别越大，当部分前景错分为背景或部分背景错分为前景都会导致两部分差别变小。因此，使类间方差最大的分割意味着错分概率最小。对大津法来说，它可以自动地确定阈值而不需要手动地遍历一系列数值而确定。另一类方法是以Sauvola为代表的局部阈值方法，可以理解为将一幅图像划分为多个子区域并对每个子区域进行全局二值化处理。对Sauvola方法而言，每一子区域的阈值都依据特定公式的计算而获得。而全局方法通过固定的阈值进行二值化，对存在光照不均、污渍破损等现象的文档图像表现不佳，往往难以获得清晰的二值图。而局部二值化方法通过对原图的切分，在一定程度上避免了光照不均等因素带来的影响，但同时也有实验表明其在小物体的二值化过程中表现往往差强人意。

最近几年，基于深度学习的二值化方法受到了极大的关注。Chris Tensmeyer和Tony Martinez训练了一个全卷积网络(Fully Convolutional Networks，FCN)来对文档图像进行二值化。Quang Nhat Vo等人提出了一种分层的深度监督网络(Deeply-SupervisedNets，DSN)架构，能够区分文本像素和背景噪声。Jorge Calvo-Zaragoza等人讨论了卷积自动编码器的使用，致力于学习从输入图像到其选择输出的端到端映射。Florian Westphal等人提出了一种基于循环神经网络的算法，使用网格长短期记忆单元进行图像二值化。虽然基于神经网络的方法具备更好的鲁棒性，可以有效处理光照不均、污渍等问题，然而，神经网络训练过程较为复杂，且往往需要高质量的数据集才能完成网络的训练，且现有的基于全卷积网络二值化方法，大多会造成文档图像中笔画间的假性粘连，损坏藏文古籍文档图像的真实性，影响对藏文古籍文档图像的研究。

发明内容

本发明的目的是提供一种藏文古籍文档图像二值化方法及系统，以解决现有的基于全卷积网络二值化方法易造成文档图像中笔画间的假性粘连的问题。

为实现上述目的，本发明提供了如下方案：

一种藏文古籍文档图像二值化方法，包括：

获取藏文古籍文档图像，并对所述藏文古籍文档图像进行二值化处理，确定初步二值化图；

根据所述初步二值化图确定估计二值化图，并对所述估计二值化图进行标注，确定藏文古籍文档图像标注图；

利用所述藏文古籍文档图像标注图以及所述藏文古籍文档图像对改进后的U-Net网络模型进行训练，生成训练好的U-Net网络模型，并保存网络模型参数；所述改进后的U-Net网络模型在原始U-Net网络模型的跳跃连接中引入注意力机制；所述网络模型参数包括网络模型结构、权重参数以及超参数，所述网络模型结构包括优化器的选取以及损失函数的定义，所述超参数包括训练轮数以及学习率；

将待处理的藏文古籍文档图像进行切片处理，并将切片后的藏文古籍文档图像以及所述待处理的藏文古籍文档图像放大后输入至所述训练好的U-Net网络模型中，确定最终的二值化结果图。

可选的，所述根据所述初步二值化图确定估计二值化图，并对所述估计二值化图进行标注，确定藏文古籍文档图像标注图，具体包括：

对比所述估计二值化图与真实标签，标注并去除所述估计二值化图内的假阳性像素点以及假阴性像素点，确定标注后的二值化图；

判断所述标注后的二值化图是否出现笔划边缘扩展现象，得到第一判断结果；

若所述第一判断结果表示为所述标注后的二值化图出现笔划边缘扩展现象，对所述标注后的二值化图进行形态学侵蚀操作，重新对所述标注后的二值化图进行标注；

若所述第一判断结果表示为所述标注后的二值化图未出现笔划边缘扩展现象，确定所述标注后的二值化图为藏文古籍文档图像标注图。

可选的，所述利用所述藏文古籍文档图像标注图以及所述藏文古籍文档图像对改进后的U-Net网络模型进行训练，生成训练好的U-Net网络模型，并保存网络模型参数，具体包括：

将所述藏文古籍文档图像以及与所述藏文古籍文档图像对应的藏文古籍文档图像标注图作为藏文古籍文档图像数据集，并对所述藏文古籍文档图像数据集进行数据增广处理，确定增广后的藏文古籍文档图像数据集；所述增广后的藏文古籍文档图像数据集包括增广后的藏文古籍文档图像标注图以及增广后的藏文古籍文档图像；

初始化网络模型参数，将所述增广后的藏文古籍文档图像数据集输入至改进后的U-Net网络模型中进行前向传播，通过所述损失函数计算所述增广后的藏文古籍文档图像与所述增广后的藏文古籍文档图像之间的损失，利用所述优化器对所述网络模型参数进行调整，生成训练好的U-Net网络模型，并保存所述网络模型参数。

可选的，所述将所述藏文古籍文档图像以及与所述藏文古籍文档图像对应的藏文古籍文档图像标注图作为藏文古籍文档图像数据集，并对所述藏文古籍文档图像数据集进行数据增广处理，确定增广后的藏文古籍文档图像数据集，具体包括：

对所述藏文古籍文档图像进行加入噪声处理、模拟污渍处理以及随机翻转处理，确定增广后的藏文古籍文档图像；

对所述藏文古籍文档图像标注图进行随机翻转处理，确定增广后的藏文古籍文档图像标注图。

可选的，所述将待处理的藏文古籍文档图像进行切片处理，并将切片后的藏文古籍文档图像以及所述待处理的藏文古籍文档图像放大后输入至所述训练好的U-Net网络模型中，确定最终的二值化结果图，具体包括：

将所述待处理的藏文古籍文档图像输入至所述训练好的U-Net网络模型中，利用大津二值化算法对所述待处理的藏文古籍文档图像进行二值化处理，生成第一二值化后的藏文古籍文档图像；

将所述待处理的藏文古籍文档图像进行图像切片，生成多个藏文古籍文档图像子块；

将所有所述藏文古籍文档图像子块依次输入至所述训练好的U-Net网络模型中，判断所有所述藏文古籍文档图像子块是否均输入至所述训练好的U-Net网络模型中，得到第二判断结果；

若所述第二判断结果表示为所有所述藏文古籍文档图像子块均放大后输入至所述训练好的U-Net网络模型中，合并所述藏文古籍文档图像子块，并将合并后的藏文古籍文档图像缩小至与所述待处理的藏文古籍文档图像相同的尺寸；

利用大津二值化算法对缩小后的藏文古籍文档图像进行二值化处理，生成第二二值化后的藏文古籍文档图像；

整合所述第一二值化后的藏文古籍文档图像以及所述第二二值化后的藏文古籍文档图像，生成最终的二值化结果图。

一种藏文古籍文档图像二值化系统，包括：

初步二值化图确定模块，用于获取藏文古籍文档图像，并对所述藏文古籍文档图像进行二值化处理，确定初步二值化图；

标注模块，用于根据所述初步二值化图确定估计二值化图，并对所述估计二值化图进行标注，确定藏文古籍文档图像标注图；

训练模块，用于利用所述藏文古籍文档图像标注图以及所述藏文古籍文档图像对改进后的U-Net网络模型进行训练，生成训练好的U-Net网络模型，并保存网络模型参数；所述改进后的U-Net网络模型在原始U-Net网络模型的跳跃连接中引入注意力机制；所述网络模型参数包括网络模型结构、权重参数以及超参数，所述网络模型结构包括优化器的选取以及损失函数的定义，所述超参数包括训练轮数以及学习率；

最终的二值化结果图确定模块，用于将待处理的藏文古籍文档图像进行切片处理，并将切片后的藏文古籍文档图像以及所述待处理的藏文古籍文档图像放大后输入至所述训练好的U-Net网络模型中，确定最终的二值化结果图。

可选的，所述标注模块具体包括：

标注后的二值化图确定单元，用于对比所述估计二值化图与真实标签，标注并去除所述估计二值化图内的假阳性像素点以及假阴性像素点，确定标注后的二值化图；

第一判断单元，用于判断所述标注后的二值化图是否出现笔划边缘扩展现象，得到第一判断结果；

形态学侵蚀操作单元，用于若所述第一判断结果表示为所述标注后的二值化图出现笔划边缘扩展现象，对所述标注后的二值化图进行形态学侵蚀操作，重新对所述标注后的二值化图进行标注；

藏文古籍文档图像标注图确定单元，用于若所述第一判断结果表示为所述标注后的二值化图未出现笔划边缘扩展现象，确定所述标注后的二值化图为藏文古籍文档图像标注图。

可选的，所述训练模块具体包括：

增广处理单元，用于将所述藏文古籍文档图像以及与所述藏文古籍文档图像对应的藏文古籍文档图像标注图作为藏文古籍文档图像数据集，并对所述藏文古籍文档图像数据集进行数据增广处理，确定增广后的藏文古籍文档图像数据集；所述增广后的藏文古籍文档图像数据集包括增广后的藏文古籍文档图像标注图以及增广后的藏文古籍文档图像；

训练单元，用于初始化网络模型参数，将所述增广后的藏文古籍文档图像数据集输入至改进后的U-Net网络模型中进行前向传播，通过所述损失函数计算所述增广后的藏文古籍文档图像与所述增广后的藏文古籍文档图像之间的损失，利用所述优化器对所述网络模型参数进行调整，生成训练好的U-Net网络模型，并保存所述网络模型参数。

可选的，所述增广处理单元具体包括：

增广后的藏文古籍文档图像确定子单元，用于对所述藏文古籍文档图像进行加入噪声处理、模拟污渍处理以及随机翻转处理，确定增广后的藏文古籍文档图像；

增广后的藏文古籍文档图像标注图确定子单元，用于对所述藏文古籍文档图像标注图进行随机翻转处理，确定增广后的藏文古籍文档图像标注图。

可选的，所述最终的二值化结果图确定模块具体包括：

第一二值化后的藏文古籍文档图像生成单元，用于将所述待处理的藏文古籍文档图像输入至所述训练好的U-Net网络模型中，利用大津二值化算法对所述待处理的藏文古籍文档图像进行二值化处理，生成第一二值化后的藏文古籍文档图像；

藏文古籍文档图像子块生成单元，用于将所述待处理的藏文古籍文档图像进行图像切片，生成多个藏文古籍文档图像子块；

第二判断单元，用于将所有所述藏文古籍文档图像子块依次输入至所述训练好的U-Net网络模型中，判断所有所述藏文古籍文档图像子块是否均输入至所述训练好的U-Net网络模型中，得到第二判断结果；

合并单元，用于若所述第二判断结果表示为所有所述藏文古籍文档图像子块均放大后输入至所述训练好的U-Net网络模型中，合并所述藏文古籍文档图像子块，并将合并后的藏文古籍文档图像缩小至与所述待处理的藏文古籍文档图像相同的尺寸；

第二二值化后的藏文古籍文档图像生成单元，用于利用大津二值化算法对缩小后的藏文古籍文档图像进行二值化处理，生成第二二值化后的藏文古籍文档图像；

最终的二值化结果图生成单元，用于整合所述第一二值化后的藏文古籍文档图像以及所述第二二值化后的藏文古籍文档图像，生成最终的二值化结果图。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供了一种藏文古籍文档图像二值化方法及系统，由于假性粘连通常产生于距离相对较近的字符笔划之间，因此，本发明将待处理的藏文古籍文档图像进行切片处理，通过放大输入的藏文古籍文档图像，使得图中易产生假性粘连情况的边缘之间像素个数增多，再将切片后的藏文古籍文档图像以及所述待处理的藏文古籍文档图像放大后输入至所述训练好的U-Net网络模型中，确定最终的二值化结果图，有效抑制了假性粘连情况的产生。

此外，本发明通过使用跳跃连接技巧，U-Net组合了高分辨率特征和空间信息，这样的技巧使得空间信息得以精确地被重建，可以防止绝大多数污渍、破损等区域的像素被错误地转换为前景像素的情况出现。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为假性粘连示意图；

图2为本发明所提供的藏文古籍文档图像二值化方法流程图；

图3为数据标注过程的流程图；

图4为Attention U-Net网络模型结构图；

图5为改进后的U-Net网络模型的训练流程图；

图6为最终的二值化图像预测流程图；

图7为按位或操作示意图；

图8为本发明所提供的藏文古籍文档图像二值化系统结构图；

图9为使用本发明方法生成的二值局部实例对照图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种藏文古籍文档图像二值化方法及系统，有效抑制了假性粘连情况的产生。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

术语解释：

通道：通常，数字图像由R、G、B即红绿蓝三个通道组成。

二值化：将彩色或灰度图像转化成黑白图像的过程。

二值图：二值图即黑-白图，图像的像素值要么是0即黑，要么是255或1即白。

灰度图：图像中仅包含一个通道，图像中的像素值可以是0到255中的任何一个。

假性粘连：指原文档图像中前景不该粘连的地方在其二值图中发生了粘连，图1中方框位置即为假性粘连发生的位置。

卷积神经网络：是一类包含卷积计算且具有深度结构的前馈神经网络。

全卷积网络：是一类不包含全连接层的卷积神经网络。

U-Net：2015年提出的一种用于生物医学图像分割的卷积神经网络，目前已被证明是一种高效的网络。该网络的输入可以是三通道的彩色图像，输出可以是单通道的灰度图像。是全卷积网络的一种。

双线性插值法：在数学上，双线性插值是有两个变量的插值函数的线性插值扩展，其核心思想是在两个方向分别进行一次线性插值。

大津法(OTSU法)：一种全局二值化方法。

Sauvola法：一种局部二值化方法。

网络参数：网络中用于计算的数值。

超参数：网络中无法通过训练得到的参数，通常需要人为手动设置。

损失函数：一种用于计算实际输出与目标输出之间误差的函数。

优化器：一种根据误差调整网络参数的工具。

藏文古籍文档图像：不同藏文古籍其页面尺寸也各不相同，一般长约25-90厘米、宽约6-30厘米不等，通常称为长条书。本发明所使用的北京版《甘珠尔》藏文古籍文档图像，大小约为5300×1500像素。

假阳性像素点：在二值图中本来应当是作为背景的白色像素点，却被错误地二值化而成为了黑色像素点。

假阴性像素点：在二值图中本来应当是作为前景的黑色像素点，却被错误地二值化而成为了白色像素点。

图2为本发明所提供的藏文古籍文档图像二值化方法流程图，如图2所示，一种藏文古籍文档图像二值化方法，包括：

步骤201：获取藏文古籍文档图像，并对所述藏文古籍文档图像进行二值化处理，确定初步二值化图。

步骤202：根据所述初步二值化图确定估计二值化图，并对所述估计二值化图进行标注，确定藏文古籍文档图像标注图。

所述步骤202具体包括：对比所述估计二值化图与真实标签，标注并去除所述估计二值化图内的假阳性像素点以及假阴性像素点，确定标注后的二值化图；判断所述标注后的二值化图是否出现笔划边缘扩展现象，得到第一判断结果；若是，对所述标注后的二值化图进行形态学侵蚀操作，重新对所述标注后的二值化图进行标注；若否，确定所述标注后的二值化图为藏文古籍文档图像标注图。

良好的标注数据是训练神经网络的基础，如果采用不恰当的方法对藏文古籍文档图像进行标注，既不省时也不实用。因此，本发明探索了一种更有效的方法来建立标注数据集。该过程包括三个主要阶段：获得初步二值图、获得估计二值图与再标注。图3为数据标注过程的流程图。

首先，使用Sauvola法或其他方法较为粗略地生成对应的二值图集；

然后，将数据送入网络模型中并开始训练过程。一旦网络训练完成，就可以利用其生成估计二值图。

最后，由于估计二值图与真实标签相比，其结果可能不会太准确，因此需要进一步的人工矫正，即手动将假阳性与假阴性像素点进行擦除，以使标注图像更为准确。此外，若发现不同程度的边缘扩展，还应对该图进行形态学侵蚀操作，使其边缘向内收缩一个像素。如有必要，可重复多次进行，直至标注图与原图中的笔划粗细完全相同。

步骤203：利用所述藏文古籍文档图像标注图以及所述藏文古籍文档图像对改进后的U-Net网络模型进行训练，生成训练好的U-Net网络模型，并保存网络模型参数；所述改进后的U-Net网络模型在原始U-Net网络模型的跳跃连接中引入注意力机制；所述网络模型参数包括网络模型结构、权重参数以及超参数，所述网络模型结构包括优化器的选取以及损失函数的定义，所述超参数包括训练轮数以及学习率。

图4为Attention U-Net网络模型结构图，Attention U-Net网络模型是在U-Net网络模型的基础上，生成的改进的U-Net网络模型，在跳跃连接部分中引入了注意力机制，使得网络可以比较好地实现对显著性区域的关注，以及对无关背景区域如噪声、污渍的抑制，其中，F_i×H_j×W_j表示该位置有F_i个H_j×W_j大小的的特征图，i为1，2，3；j为0，1，2，3，4。

神经网络在使用前需要经过训练，图5为改进后的U-Net网络模型的训练流程图，主要步骤如下：

(1)加载藏文古籍文档图像数据集：从存储器中读取数据集，即读取原文档图像与其对应标注图像。

(2)数据集增广：对读取的数据集进行数据增广，包括加入噪声、模拟污渍、随机翻转等。对于加入噪声、模拟污渍等操作而言，不对标注图像做任何操作。而对于随机翻转等操作而言，需要同时对标注图像进行该操作。

(3)初始化网络模型并设置超参数：定义网络模型结构，包括优化器的选取，损失函数的定义等，并设置网络所需要超参数，如训练轮数、学习率等。

(4)网络训练：开始网络的训练，将图片送入网络进行前向传播，得到实际输出，并通过损失函数计算与标注图像之间的损失，使用优化器不断对网络参数进行调整，以期下一轮的训练实际输出与标注图像之间的误差更小。

(5)保存网络模型：待网络训练结束，则将其网络模型与参数一并保存至pth模型文件中。

所述步骤203具体包括：将所述藏文古籍文档图像以及与所述藏文古籍文档图像对应的藏文古籍文档图像标注图作为藏文古籍文档图像数据集，并对所述藏文古籍文档图像数据集进行数据增广处理，确定增广后的藏文古籍文档图像数据集；所述增广后的藏文古籍文档图像数据集包括增广后的藏文古籍文档图像标注图以及增广后的藏文古籍文档图像；初始化网络模型参数，将所述增广后的藏文古籍文档图像数据集输入至改进后的U-Net网络模型中进行前向传播，通过所述损失函数计算所述增广后的藏文古籍文档图像与所述增广后的藏文古籍文档图像之间的损失，利用所述优化器对所述网络模型参数进行调整，生成训练好的U-Net网络模型，并保存所述网络模型参数。

所述将所述藏文古籍文档图像以及与所述藏文古籍文档图像对应的藏文古籍文档图像标注图作为藏文古籍文档图像数据集，并对所述藏文古籍文档图像数据集进行数据增广处理，确定增广后的藏文古籍文档图像数据集，具体包括：对所述藏文古籍文档图像进行加入噪声处理、模拟污渍处理以及随机翻转处理，确定增广后的藏文古籍文档图像；对所述藏文古籍文档图像标注图进行随机翻转处理，确定增广后的藏文古籍文档图像标注图。

步骤204：将待处理的藏文古籍文档图像进行切片处理，并将切片后的藏文古籍文档图像以及所述待处理的藏文古籍文档图像放大后输入至所述训练好的U-Net网络模型中，确定最终的二值化结果图。

所述步骤204具体包括：将所述待处理的藏文古籍文档图像输入至所述训练好的U-Net网络模型中，利用大津二值化算法对所述待处理的藏文古籍文档图像进行二值化处理，生成第一二值化后的藏文古籍文档图像；将所述待处理的藏文古籍文档图像进行图像切片，生成多个藏文古籍文档图像子块；将所有所述藏文古籍文档图像子块依次输入至所述训练好的U-Net网络模型中，判断所有所述藏文古籍文档图像子块是否均输入至所述训练好的U-Net网络模型中，若是，合并所述藏文古籍文档图像子块，并将合并后的藏文古籍文档图像缩小至与所述待处理的藏文古籍文档图像相同的尺寸；利用大津二值化算法对缩小后的藏文古籍文档图像进行二值化处理，生成第二二值化后的藏文古籍文档图像；整合所述第一二值化后的藏文古籍文档图像以及所述第二二值化后的藏文古籍文档图像，生成最终的二值化结果图。

当完成网络训练后，即可使用该网络生成二值图像，图6为最终的二值化图像预测流程图。

首先从存储器中读取待二值化的藏文古籍文档图像，随后，从先前保存的pth模型文件加载网络模型与其参数。

由于设备机能的限制，一张完整的藏文古籍文档图像较大往往难以送入显卡(Graphics Processing Unit，GPU)中进行训练，所以需要对其进行切分后送入GPU。然而，这样做的代价则是会变相影响网络对古籍文档图像中污渍的感受能力，降低网络的性能，导致对原图噪声、粗糙纹理、污渍的处理能力变弱。而使用中央处理器(CentralProcessing Unit，CPU)配合较大的运行内存(Random Access Memory，RAM)则通常可以完成对整个图像的加载及运算结果的保存，实验结果表明其对污渍的抑制能力更为出色，但往往需要花费更长的时间且文本区域的细节不如切块后送入显卡中的效果好。为结合切块运算与全图运算的优点，本发明分为两个分支：GPU分支与CPU分支。

对GPU分支而言，首先需要对原文档图像进行切片，得到多个图像子块，随后将图像子块使用双线性插值法进行放大，不同放大比例所对应的评价指标如表1所示。可以看到，2倍的放大倍数有着最高的准确度。虽然2.8倍的放大倍数评价指标更为优秀，但其耗时更长且字符笔划中容易产生空洞，故本发明对图像子块的放大倍数是2倍。

表1不同放大倍数下的评价指标示意表

不断将图像子块放大后送入网络完成运算，直至所有的图像子块都已完成运算。将网络预测的图像子块按一定规则组合后，得到一张放大后的预测二值图，对其进行缩小至原图尺寸，并使用OTSU法，得到GPU分支下的结果图。

对CPU分支而言，不对图像切片，较大容量的RAM可完全保存CPU的运算结果，将图像完整地送入网络中即可得到相应的输出结果。同样的，对其输出使用OTSU法，得到CPU分支下的结果图。如图7所示，对CPU结果图与GPU结果图进行图像按位或操作，即可得到最终的二值结果图。

图8为本发明所提供的藏文古籍文档图像二值化系统结构图，如图8所示，一种藏文古籍文档图像二值化系统，包括：

初步二值化图确定模块801，用于获取藏文古籍文档图像，并对所述藏文古籍文档图像进行二值化处理，确定初步二值化图。

标注模块802，用于根据所述初步二值化图确定估计二值化图，并对所述估计二值化图进行标注，确定藏文古籍文档图像标注图。

所述标注模块802具体包括：标注后的二值化图确定单元，用于对比所述估计二值化图与真实标签，标注并去除所述估计二值化图内的假阳性像素点以及假阴性像素点，确定标注后的二值化图；第一判断单元，用于判断所述标注后的二值化图是否出现笔划边缘扩展现象，得到第一判断结果；形态学侵蚀操作单元，用于若所述第一判断结果表示为所述标注后的二值化图出现笔划边缘扩展现象，对所述标注后的二值化图进行形态学侵蚀操作，重新对所述标注后的二值化图进行标注；藏文古籍文档图像标注图确定单元，用于若所述第一判断结果表示为所述标注后的二值化图未出现笔划边缘扩展现象，确定所述标注后的二值化图为藏文古籍文档图像标注图。

训练模块803，用于利用所述藏文古籍文档图像标注图以及所述藏文古籍文档图像对改进后的U-Net网络模型进行训练，生成训练好的U-Net网络模型，并保存网络模型参数；所述改进后的U-Net网络模型在原始U-Net网络模型的跳跃连接中引入注意力机制；所述网络模型参数包括网络模型结构、权重参数以及超参数，所述网络模型结构包括优化器的选取以及损失函数的定义，所述超参数包括训练轮数以及学习率。

所述训练模块803具体包括：增广处理单元，用于将所述藏文古籍文档图像以及与所述藏文古籍文档图像对应的藏文古籍文档图像标注图作为藏文古籍文档图像数据集，并对所述藏文古籍文档图像数据集进行数据增广处理，确定增广后的藏文古籍文档图像数据集；所述增广后的藏文古籍文档图像数据集包括增广后的藏文古籍文档图像标注图以及增广后的藏文古籍文档图像；训练单元，用于初始化网络模型参数，将所述增广后的藏文古籍文档图像数据集输入至改进后的U-Net网络模型中进行前向传播，通过所述损失函数计算所述增广后的藏文古籍文档图像与所述增广后的藏文古籍文档图像之间的损失，利用所述优化器对所述网络模型参数进行调整，生成训练好的U-Net网络模型，并保存所述网络模型参数。

所述增广处理单元具体包括：增广后的藏文古籍文档图像确定子单元，用于对所述藏文古籍文档图像进行加入噪声处理、模拟污渍处理以及随机翻转处理，确定增广后的藏文古籍文档图像；增广后的藏文古籍文档图像标注图确定子单元，用于对所述藏文古籍文档图像标注图进行随机翻转处理，确定增广后的藏文古籍文档图像标注图。

最终的二值化结果图确定模块804，用于将待处理的藏文古籍文档图像进行切片处理，并将切片后的藏文古籍文档图像以及所述待处理的藏文古籍文档图像放大后输入至所述训练好的U-Net网络模型中，确定最终的二值化结果图。

所述最终的二值化结果图确定模块804具体包括：第一二值化后的藏文古籍文档图像生成单元，用于将所述待处理的藏文古籍文档图像输入至所述训练好的U-Net网络模型中，利用大津二值化算法对所述待处理的藏文古籍文档图像进行二值化处理，生成第一二值化后的藏文古籍文档图像；藏文古籍文档图像子块生成单元，用于将所述待处理的藏文古籍文档图像进行图像切片，生成多个藏文古籍文档图像子块；第二判断单元，用于将所有所述藏文古籍文档图像子块依次输入至所述训练好的U-Net网络模型中，判断所有所述藏文古籍文档图像子块是否均输入至所述训练好的U-Net网络模型中，得到第二判断结果；合并单元，用于若所述第二判断结果表示为所有所述藏文古籍文档图像子块均放大后输入至所述训练好的U-Net网络模型中，合并所述藏文古籍文档图像子块，并将合并后的藏文古籍文档图像缩小至与所述待处理的藏文古籍文档图像相同的尺寸；第二二值化后的藏文古籍文档图像生成单元，用于利用大津二值化算法对缩小后的藏文古籍文档图像进行二值化处理，生成第二二值化后的藏文古籍文档图像；最终的二值化结果图生成单元，用于整合所述第一二值化后的藏文古籍文档图像以及所述第二二值化后的藏文古籍文档图像，生成最终的二值化结果图。

图9为使用本发明方法生成的二值局部实例对照图，上面一行是原图，下面一行是本发明处理后对应的二值图。由图9可以看出，采用本发明得到的最终的二值化图像能够更清楚且准确的显示出藏文古籍文档图像的字迹，更有助于对藏文古籍文档图像的研究。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种藏文古籍文档图像二值化方法，其特征在于，包括：

2.根据权利要求1所述的藏文古籍文档图像二值化方法，其特征在于，所述根据所述初步二值化图确定估计二值化图，并对所述估计二值化图进行标注，确定藏文古籍文档图像标注图，具体包括：

3.根据权利要求1所述的藏文古籍文档图像二值化方法，其特征在于，所述利用所述藏文古籍文档图像标注图以及所述藏文古籍文档图像对改进后的U-Net网络模型进行训练，生成训练好的U-Net网络模型，并保存网络模型参数，具体包括：

4.根据权利要求3所述的藏文古籍文档图像二值化方法，其特征在于，所述将所述藏文古籍文档图像以及与所述藏文古籍文档图像对应的藏文古籍文档图像标注图作为藏文古籍文档图像数据集，并对所述藏文古籍文档图像数据集进行数据增广处理，确定增广后的藏文古籍文档图像数据集，具体包括：

5.根据权利要求3所述的藏文古籍文档图像二值化方法，其特征在于，所述将待处理的藏文古籍文档图像进行切片处理，并将切片后的藏文古籍文档图像以及所述待处理的藏文古籍文档图像放大后输入至所述训练好的U-Net网络模型中，确定最终的二值化结果图，具体包括：

6.一种藏文古籍文档图像二值化系统，其特征在于，包括：

7.根据权利要求6所述的藏文古籍文档图像二值化系统，其特征在于，所述标注模块具体包括：

8.根据权利要求6所述的藏文古籍文档图像二值化系统，其特征在于，所述训练模块具体包括：

9.根据权利要求8所述的藏文古籍文档图像二值化系统，其特征在于，所述增广处理单元具体包括：

10.根据权利要求8所述的藏文古籍文档图像二值化系统，其特征在于，所述最终的二值化结果图确定模块具体包括：