CN110852326B

CN110852326B - 一种手写体版面分析和多风格古籍背景融合方法

Info

Publication number: CN110852326B
Application number: CN201911076162.2A
Authority: CN
Inventors: 赵芳云; 田瑶琳; 张仕学; 赵富佳
Original assignee: Guizhou University of Engineering Science
Current assignee: Guizhou University of Engineering Science
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2022-11-04
Anticipated expiration: 2039-11-06
Also published as: CN110852326A

Abstract

本发明提供一种手写体版面分析和多风格古籍背景融合方法，所述方法包括：分析调整古籍原图像版面，得到版面整齐的文字图像；构建深度卷积生成对抗网络DCGAN模型，基于DCGAN模型训练古籍纹理图数据集合成目标纹理图像；融合目标纹理图像和版面整齐的文字图像，生成文本背景。本发明利用PR算法和生成对抗网络实现了面向多种古籍的多风格的修复美化，将深度学习技术应用于古籍背景合成及融合，采用微调的DCGAN模型合成效果较好古籍版面，对推进古籍的数字化进程作出了一些有益的贡献。另外，通过采用二分类交叉熵损失函数和FID对合成结果进行评估，进一步提升了模型收敛的效率，有效避免了GANs过拟合和模式崩溃等问题。

Description

一种手写体版面分析和多风格古籍背景融合方法

技术领域

本发明主要涉及古籍修复相关技术领域，具体是一种手写体版面分析和多风格古籍背景融合方法。

背景技术

我国是历史悠久的文明古国，拥有卷帙浩繁的文献典籍。据统计，我国现存古籍总数3千余万册，其中善本古籍超过250万册。这些古籍是中华文化的瑰宝和中华民族智慧的结晶。因此，古籍数字化对历史研究和文化传承有着深远的意义。然而，具有不可再生性的古籍正以较快的速度消失，面临着前所未有的严峻挑战。一方面，大量散存的古籍文献在恶劣的收藏条件下发生霉变、粘连、残缺、破损、消字、熏黑等毁坏，重要信息丢失。另一方面，古籍数字化加工过程受环境和采集设备影响较大，难以避免透光或反射光影响，从而降低了数字化图像的可辨识度。因此，如何科学地保存古籍中的有效信息逐渐成为研究焦点。然而，随着图像处理技术的进一步发展，计算机技术在古籍数字化中的应用有望使古籍数字化水平进一步提高。

古籍数字化包括古籍收藏、古籍整理、古籍修复等环节，是一个融合了多门学科于一体的保护手段，因此需要精通语言知识和计算机技术的复合型人才来操作。为了分析并保留古籍页面信息，我们往往需要采用版面分析技术对版面内容进行检测和提取；为了实现古籍的修复，则需要利用图像合成技术对损毁较大的背景信息进行合成修复以尽可能还原古籍原貌。

现有技术中，将文献版面分析技术和背景风格修复两者相结合的有关研究甚少，而基于此的古籍风格化复原工作更是迟迟无法展开，因此提供一种古籍版面分析和风格融合网方法是本领域技术人员需要解决的一项技术问题。

发明内容

为解决目前技术的不足，本发明结合现有技术，从实际应用出发，提供一种手写体版面分析和多风格古籍背景融合方法。

本发明的技术方案如下：

一种手写体版面分析和多风格古籍背景融合方法，所述方法包括：

分析调整古籍原图像版面，得到版面整齐的文字图像；

构建深度卷积生成对抗网络DCGAN模型，基于DCGAN模型训练古籍纹理图数据集合成目标纹理图像；

融合目标纹理图像和版面整齐的文字图像，生成文本背景。

进一步，所述分析调整古籍原图像版面，得到版面整齐的文字图像包括：前景文字检测分割以及对分割后的单个文字进行版面重排列；

所述前景文字检测分割包括：采用自顶向下的投影法进行版面分析，并在检测前针对不同背景的手写样本采取不同的方式进行图像预处理，预处理后进行文字的检测分割，基于检测分割的结果获取整张古籍图像上单个文字的位置信息，并得到文字位置信息列表；

所述对分割后的单个文字进行版面重排列包括：在不改变古籍原段落划分的基础上，进行横排纵列的文字对齐。

进一步，所述采取不同的方式进行图像预处理，包括：

采用非局部平均去噪的方法去除噪声，再腐蚀膨胀得到二值化图像；

以及，根据图像亮度分布不均的问题采用自适应阈值化，再用中值滤波去除背景中的椒盐噪声，最终腐蚀膨胀得到二值化图像；

所述预处理后进行文字的检测分割方法包括：

基于投影的方法对文字行中的单个文字进行检测分割；

以及，采用MSER检测算法与非极大值抑制结合的方法进行文字的检测分割。

进一步，所述在不改变古籍原段落划分的基础上，进行横排纵列的文字对齐包括：

同一纵列的每个元素和该列第一个元素的边框左上角对应的横坐标保持一致，对于横排，找到文字最多的一列并进行间距调整后作为对齐的标兵列，其余列的文字向标兵列对齐，找到横排距离最小的的元素与之对齐，调整当前元素的左上角纵坐标与其左上角纵坐标保持一致。

进一步，所述DCGAN模型包括生成器和判别器；

在生成器中，输入100维的随机噪声向量，通过全连接层使用微步幅卷积进行上采样，步长为2×2，通过四层卷积核为5×5的反卷积层，输出合成的的64×64×3合成图像；

在判别器中，输入合成的64×64×3图像，通过卷积核为5×5的四层卷积层对生成的图像进行特征提取，判断生成器生成图像的真假。

进一步，所述DCGAN模型除生成器输出层和判别器输入层外的每层卷积后附加有一个批量标准化；模型采用Adam优化算法优化训练过程，损失函数采用交叉熵损失；对于生成器，输出层的激活函数采用Tanh，其余层均采用ReLU；对于判别器，所有的激活层均采用LeakyReLU。

进一步，基于DCGAN模型，对于生成器的输入和判别器的输出，通过调整先验噪声的类型及其维度实现多模态训练；在模型输出层附加一层SoftMax分类器实现对输出图像纹理风格的控制；DCGAN模型的训练在当前损失函数最小的情况下进行，通过比较评估指标FID的大小，得到性能最佳的微调模型。

融合目标纹理图像和版面整齐的文字图像时，将各个风格的古籍纹理图像均归一化为宽高为64×64PX规格大小，作为网络的输入；采用插值法将输出图像放大至2048×2048PX规格大小。

进一步，基于DCGAN模型训练古籍纹理图数据集合成目标纹理图像后，结合交叉熵损失函数和FID对背景纹理合成结果进行评估。

进一步，采用二分类交叉熵作为模型的损失函数，选择sigmoid作为卷积神经网络最后一层的激活函数，sigmoid激活函数公式如下：

其中，σ(x)为预测输出，x为上一层卷积网络的输出；

交叉熵的数学表达式如下：

其中，y为训练样本的标签，a为网络的实际输出输出，n＝2；

损失函数公式如下：

FID评估公式如下：

其中，m表示均值，C表示协方差。(m,C)表示随机一张生成图片的高斯统计量，(m_w,C_w)表示随机一张真实图片的高斯统计量。

本发明的有益效果：

本发明中，首先利用生成对抗网络(GANs)和深度卷积生成对抗网络(DCGAN)模型进行模型训练，生成了多风格的古籍纹理；接着，利用本发明提出的PR(PositionRearrangement)重排列算法进行版面分析，调整前景文字的排列位置；最后，通过前景文字和古籍风格背景的融合，实现任意文本背景的多风格生成。实验中，以古彝文、古汉语(秦小篆)、女真文的古籍和古画作为数据样本，对DCGAN模型进行参数上和结构上的微调提高模型的合成性能，结合交叉熵损失函数和Fréchet Inception Distance(FID)对合成结果进行评估，最终得到在FID上表现最佳的训练模型M8，与传统DCGAN模型相比，合成性能提高19.26％，图像合成质量有了明显提升。

附图说明

图1为本发明的网络框架流程。

图2为PR重排算法效果图。

图3为训练模型M8结构图。

图4为综合性图像融合策略流程图。

图5为预测输出变化曲线。

具体实施方式

结合附图和具体实施例，对本实施例作进一步说明。应理解，这些实施例仅用于说明本实施例而不用于限制本实施例的范围。此外应理解，在阅读了本实施例讲授的内容之后，本领域技术人员可以对本实施例作各种改动或修改，这些等价形式同样落于本申请所限定的范围。

本实施例通过长期的数据搜集和人工整理，将搜集整理的古彝文、古汉语(秦小篆)、女真文和古画作为数据样本，以进行模型训练及测试。本实施例以生成对抗网络和版面分析作为关键技术依托，对不同类型的古籍进行了版面调整和多风格背景纹理融合，最终实现古籍的风格化复原。

如图1所示，为本实施例提出的古籍版面分析和风格融合网络整体框架流程，网络整体框架可分为两个子流程，一个用于合成目标图像，一个用于形成版面整齐的文字图像。其中，古籍原图像经过版面调整后得到整齐的文字版面；纹理数据集在指定的模型下训练合成纹理图像并对合成效果进行评估。最终，将两者融合得到古籍修复图。

在本实施例的具体实施方式中，使用的古籍纹理图主要有三个来源：

(1)通过修改关键字，在多个搜索引擎中进行多次数据的爬取，并随后进行清洗，并在纹理数据集ETH Synthesizability、DTD、KTH-TIPS中挑选合适的图片；

(2)在《阿买恳》、《举着布数》等文献资料中选取背景纹理保留较好的彝文古籍，截取辨识度较高的纹理图作为素材；

(3)在对外展出的古籍资料中，进行人工的背景截取。

经过多次筛选清洗，最终得到可用于训练和测试的数据总量为3382，共分为8种纹理类型。其中，87.2％来源于网页爬取，8.9％来源于公开数字图书馆，3.9％来源于研究团队现有的彝文古籍。随后，按照统一规则对数据集命名和归一化，整理在同一个文件夹“Dataset”中，最后将“Dataset”中的全部数据按照CelebA数据集标注标签的方式生成数据集标签。

本实施例的版面分析包含前景文字检测分割和对分割后的单个文字进行版面重排列两个子步骤。

对于前景文字检测分割部分，本实施例采用自顶向下的投影法进行版面分析，并在检测前针对不同的手写体样本采取不同的策略进行图像预处理。

针对背景颜色单一的图像(扫描图像背景为单一的白色)，先采用非局部平均去噪的方法去除噪声，再腐蚀膨胀得到二值化图像；针对复杂背景的古籍手写体，先根据图像亮度分布不均的问题采用自适应阈值化，再用中值滤波去除背景中的椒盐噪声，最终腐蚀膨胀得到二值化图像。预处理后，背景简单的古籍图像采用传统的基于投影的方法对文字行中的单个文字进行检测分割；对于背景极为复杂的古籍图像则采用MSER检测算法与非极大值抑制(Non-Maximum Suppression,NMS)结合的方法进行文字的检测分割。最终，基于检测分割的结果获取整张古籍图像上单个文字的位置信息，并得到文字位置信息列表(列表项形如(left-top_x,left-top_y,width,height))，记作position。

针对古籍版面排列不齐的问题，本实施例提出一种文字位置重排列的算法PR(position rearrangement)。在不改变古籍原段落划分的基础上，进行横排纵列的文字对齐，旨在美化古籍版面，增加古籍可阅读性。由于书写习惯的不同，某些文献出现了行间距过小的情形，因此必要时需要优先对行间距进行微调，避免文字重叠。

具体PR算法如下：

算法描述：同一纵列的每个元素和该列第一个元素的边框左上角对应的横坐标保持一致。对于横排，需找到文字最多的一列并进行间距调整后作为对齐的“标兵列”，其余列的文字向标兵列对齐，找到横排距离最小的的元素与之对齐，即调整当前元素的左上角纵坐标与其左上角纵坐标保持一致。

如图2所示，为采用本实施例的PR算法重排后的古籍单页效果图。其中a为经书排列前效果图，b为经书排列后效果图，c为兰亭集序排列前效果图，d为兰亭集序排列后效果图。

深度卷积生成对抗网络(DCGAN)是经典的无监督训练生成模型，模型易于扩展，训练结果的输出质量较高。该模型结合卷积神经网络(CNN)强大的特征提取能力以提高GANs生成模型的学习效果，并通过批量标准化(Batch Normalization,BN)解决因糟糕的初始化引起的训练问题，有效提高了训练结果的稳定性。这是因为Batch Normalization证明了生成模型初始化的重要性，避免产生模式崩溃——生成的所有样本都收敛到一个点上，即生成的样本相同。这是训练GANs经常遇到的失败现象。

尽管相比于随后提出的其他GANs模型，DCGAN存在训练自由度高、没有严格意义上对生成的数据模式进行控制等问题，但由于DCGAN模型具有以下特征，因此可作为本实施例的最优模型选择。

(1)在生成器和判别器的特征提取层采用卷积神经网络代替GANs中的多层感知机，网络结构具有较大的灵活性、可塑性强。

(2)模型中的超参数设置灵活度高，输入和输出模式多样化，具有较好的拓展性。

(3)训练不针对某一特定的数据集，模型结构清晰简单，具有广泛的实用性和较好的迁移性。

(4)与其他非监督方法相比，DCGAN的判别器提取到的图像特征更有效，适合于图像分类任务。

本实施例模型的构建可分为生成器和判别器两个部分。在生成器中，输入100维的随机噪声向量，通过全连接层使用“微步幅卷积”进行上采样，步长(stride)为2×2，通过四层卷积核为5×5的反卷积层，输出合成的64×64×3的合成图像；在判别器中，输入合成的64×64×3图像，通过卷积核为5×5的的四层卷积层对生成的图像进行特征提取，判断生成器生成图像的真假。为了使梯度能传播更深层次，在模型除生成器输出层和判别器输入层外的每层卷积后附加一个批量标准化(Batch Norm)层以提高模型的稳定性。同时，模型采用Adam优化算法优化训练过程，损失函数采用交叉熵损失。此外，对于生成器，输出层的激活函数采用Tanh，其余层均采用ReLU；对于判别器，所有的激活层均采用LeakyReLU。

在样本输入中添加噪声是改善神经网络泛化能力一种有效方法。研究证明，在样本输入中添加噪声等价于神经网络结构设计的正则化方法，而正则化系数则与噪声方差有关。一般地，输入噪声的方差过大或过小，测试误差均会变大。在输入噪声方差为0.1左右时，测试误差最小。由于高斯噪声是概率密度函数服从正态分布的噪声，其方差大小比随机噪声更具有可控性。因此，基于上述DCGAN模型，本实施例从模型生成器的输入和判别器的输出入手，通过调整先验噪声的类型及其维度实现多模态训练，同时，通过在模型输出层附加一层SoftMax分类器实现对输出图像纹理风格的控制。模型的训练在当前损失函数最小的情况下进行，通过比较评估指标FID score的大小，得到了性能最佳的微调模型M8，其结构如图3所示。

为了进一步改善模型输出结果，提高模型泛化能力，本实施例在DCGAN模型的基础上深入探究，构建了微调模型M0～M9，模型参数如表1所示。通过控制模型训练参数本实施例得到了各个模型的训练输出，随后，对各个模型生成器的合成性能进行评估，选出其中鲁棒性最好的模型作为纹理合成训练最终模型以应对未来数据集扩充时的性能需求。

表2微调的训练模型

在数据处理阶段，各个风格的古籍纹理图像均归一化为宽高为64×64PX的规格大小，作为网络的输入。为了提高训练效率，GANs直接输出的图像规格不应过大，因此本实施例训练合成的古籍纹理图像规格为64×64PX。随后采用插值法将输出图像放大至适用于多数版面的2048×2048PX规格大小，以便于后续批量处理。由于古籍图像版面信息排列方式千差万别，2048×2048PX不一定能容纳当前古籍页中全部的文字信息，故针对少数较为特殊的版面，需要将原版面大小和输出的古籍纹理的大小进行对比，在尽力保留版面提取内容的基础上实现古籍背景风格复原。上述综合性图像融合策略流程如图4所示。

使用交叉熵作为损失函数能有效加快网络收敛速率、提高评估网络的拟合程度，从而防止模型过拟合。因此，本发明采用二分类交叉熵作为模型的损失函数。

模型选择sigmxoid作为卷积神经网络最后一层的激活函数，sigmoid激活函数的定义如下公式所示，其中x为上一层卷积网络的输出。

预测输出σ(x)随变量x的变化曲线如图5所示。可见，sigmoid激活函数的预测输出具有明显代数特点，即当变量x的绝对值很大的时候会出现过饱和现象，因此可将sigmoid函数的输出限制在[0,1]区间内。

交叉熵的数学表达式如下所示，其中y为训练样本的标签，a为网络的实际输出

显然，对于上述有a＝σ(x)成立。在GANs中，判别器判定来自真实数据样本的标签为1，而来自生成样本的标签为0，由此可见这是个二分类问题，且对于二分类交叉熵有n＝2。因此，其优化过程是类似sigmoid的二分类，即sigmoid的交叉熵。因此，损失函数如下公式所示：

可见，预测输出σ(x)越接近真实样本标签1，损失函数Loss越小；越接近生成样本标签0，损失函数Loss越大。同时，预测输出σ(x)与样本标签y的差值越大，损失函数Loss的值越大，即对当前模型的“惩罚”越大，这是由对数函数本身的特性所决定的，故模型会倾向于让预测输出更接近真实样本标签。

为了评估GANs模型的合成结果，往往需要对大量图像进行比较，因此需要借助某些自动化的方法来计算大型图像集合中的指示性度量。一般地，用于评估图像合成的指标主要有两个，一个是生成图像和原始图像的结构相似性(structural similarity index,SSIM)；另一个是图像多样性评估指标Inception Score，其原理是将预训练的神经网络应用于生成的图像并计算其输出或特定隐藏层的统计量。

本实施例采用了FID作为相似性评估策略以定量的对背景合成的结果进行评估。其公式如下：

其中，m表示均值，C表示协方差。(m,C)表示随机一张生成图片的高斯统计量，(m_w,C_w)表示随机一张真实图片的高斯统计量。FID取值(即FID score，下同)越小，表示生成模型的性能越好，合成的图像也越真实。

本发明所提供的方法在GPU 1060，8GB内存硬件条件下，通过PyCharm编程环境和TensorFlow框架进行实现，并借助TensorBoard和matplotlib等可视化工具对训练输出及融合结果进行可视化。

实验证明，本发明利用PR算法和生成对抗网络实现了面向多种古籍的多风格的修复美化，将深度学习技术应用于古籍背景合成及融合，采用微调的DCGAN模型合成效果较好古籍版面，对推进古籍的数字化进程作出了一些有益的贡献。另外，通过采用二分类交叉熵损失函数和FID对合成结果进行评估，进一步提升了模型收敛的效率，有效避免了GANs过拟合和模式崩溃等问题。

Claims

1.一种手写体版面分析和多风格古籍背景融合方法，其特征在于，所述方法包括：

分析调整古籍原图像版面，得到版面整齐的文字图像；

融合目标纹理图像和版面整齐的文字图像，生成文本背景。

2.如权利要求1所述的一种手写体版面分析和多风格古籍背景融合方法，其特征在于，所述分析调整古籍原图像版面，得到版面整齐的文字图像包括：前景文字检测分割以及对分割后的单个文字进行版面重排列；

3.如权利要求2所述的一种手写体版面分析和多风格古籍背景融合方法，其特征在于，所述采取不同的方式进行图像预处理，包括：

所述预处理后进行文字的检测分割方法包括：

基于投影的方法对文字行中的单个文字进行检测分割；

4.如权利要求3所述的一种手写体版面分析和多风格古籍背景融合方法，其特征在于，所述在不改变古籍原段落划分的基础上，进行横排纵列的文字对齐包括：

同一纵列的每个元素和该列第一个元素的边框左上角对应的横坐标保持一致，对于横排，找到文字最多的一列并进行间距调整后作为对齐的标兵列，其余列的文字向标兵列对齐，找到横排距离最小的元素与之对齐，调整当前元素的左上角纵坐标与其左上角纵坐标保持一致。

5.如权利要求1所述的一种手写体版面分析和多风格古籍背景融合方法，其特征在于，所述DCGAN模型包括生成器和判别器；

在生成器中，输入100维的随机噪声向量，通过全连接层使用微步幅卷积进行上采样，步长为2×2，通过四层卷积核为5×5的反卷积层，输出合成的64×64×3合成图像；

6.如权利要求5所述的一种手写体版面分析和多风格古籍背景融合方法，其特征在于，所述DCGAN模型除生成器输出层和判别器输入层外的每层卷积后附加有一个批量标准化；模型采用Adam优化算法优化训练过程，损失函数采用交叉熵损失；对于生成器，输出层的激活函数采用Tanh，其余层均采用ReLU；对于判别器，所有的激活层均采用LeakyReLU。

7.如权利要求6所述的一种手写体版面分析和多风格古籍背景融合方法，其特征在于，基于DCGAN模型，对于生成器的输入和判别器的输出，通过调整先验噪声的类型及其维度实现多模态训练；在模型输出层附加一层SoftMax 分类器实现对输出图像纹理风格的控制；DCGAN模型的训练在当前损失函数最小的情况下进行，通过比较评估指标FID的大小，得到性能最佳的微调模型。

8.如权利要求7所述的一种手写体版面分析和多风格古籍背景融合方法，其特征在于，融合目标纹理图像和版面整齐的文字图像时，将各个风格的古籍纹理图像均归一化为宽高为64×64PX规格大小，作为网络的输入；采用插值法将输出图像放大至2048×2048PX规格大小。

9.如权利要求8所述的一种手写体版面分析和多风格古籍背景融合方法，其特征在于，基于DCGAN模型训练古籍纹理图数据集合成目标纹理图像后，结合交叉熵损失函数和FID对背景纹理合成结果进行评估。

10.如权利要求9所述的一种手写体版面分析和多风格古籍背景融合方法，其特征在于，采用二分类交叉熵作为模型的损失函数，选择sigmoid作为卷积神经网络最后一层的激活函数，sigmoid激活函数公式如下：

其中，σ(x)为预测输出，x为上一层卷积网络的输出；

交叉熵的数学表达式如下：

其中，y为训练样本的标签，a为网络的实际输出，n＝2；

损失函数公式如下：

FID评估公式如下：

其中，m表示均值，C表示协方差；(m,C)表示随机一张生成图片的高斯统计量，(m_w,C_w)表示随机一张真实图片的高斯统计量。