CN111507351B

CN111507351B - 一种古籍文档数字化的方法

Info

Publication number: CN111507351B
Application number: CN202010298720.6A
Authority: CN
Inventors: 马伟洪; 金连文; 汪嘉鹏; 伍思航; 毛慧芸
Original assignee: South China University of Technology SCUT; Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Current assignee: South China University of Technology SCUT; Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Priority date: 2020-04-16
Filing date: 2020-04-16
Publication date: 2023-05-30
Anticipated expiration: 2040-04-16
Also published as: CN111507351A

Abstract

本发明公开一种古籍文档数字化的方法，包括：收集数据，再利用收集的数据训练单字检测模型，得到单字输出结果；同时训练单字分类模型，对检测后的单字输出分类结果，结合单字的检测以及识别结果最终得到文档的识别结果；利用图形形态学的方法提取文档版面的直线，并设计算法解决文档双列夹注的问题，为文档结构化输出提供条件，最后输出图片对应的文档数字化结果，完成文档数字化的工作。本发明方法解决了版面复杂，密集文档下的单字检测以及较大的文档背景中包括污渍干扰等问题，具有简单高效，识别精度高的优点，将现代计算机信息技术与传统人文文化相结合，对于数字遗产保护，信息发现，纸质文档转录等工作具有重要的积极作用。

Description

一种古籍文档数字化的方法

技术领域

本发明涉及图像精确定位及分类技术领域，特别是涉及一种古籍文档数字化的方法。

背景技术

中华文化源远流长，广博精深，古籍文献蕴藏着我国五千年历史的全部智慧精髓，它不仅是中国悠久文化的传统明证，也是中华民族的立世之本，更是我们不可或缺的精神力量。古籍文献本身所具有的历史文物性、学术资料性以及艺术代表性，对研究我国古代的社会风貌以及生产、科学文化的发展都具有极其重要的作用。中国拥有的古籍文献数量多达几万册，其记载了中国的悠久历史文化,是非常宝贵的非物质文化遗产。为避免馆藏中古籍文献由于时间的流逝而老化或消失,也为了挖掘和利用古籍文献中蕴含的丰富知识,古籍文档数字化的工作就显得尤为重要。与古籍文档数字化工作密切相关的是光学字符识别(OCR)技术，即对纸上的文字利用光学技术和计算机技术读取出来,从而得到对应的文字输出结果。

近年来，随着深度神经网络的发展，基于深度学习的OCR技术在固定版式上，如身份证验证、车牌识别等都取得显著的成果，既降低了人力成本，同时也很大程度的提高了人们的工作效率。然而古籍文档转录方面的研究却发展缓慢，主要的技术难点包括古籍文档排版复杂，很难提取结构化的输出信息；图像较为模糊，分辨率低，背景的干扰严重等因素，这些技术难点严重影响了文字的检测和识别。

因此，急需一种简单高效的古籍文档数字化的方法，以及时地对古籍文档进行纸质文档转录，以保护古籍文档。

发明内容

本发明的目的是提供一种古籍文档数字化的方法，以解决上述现有技术存在的问题，使古籍文档被精确地进行纸质文档转录。

为实现上述目的，本发明提供了如下方案：本发明提供一种古籍文档数字化的方法，包括如下内容：

S1.获取数据：收集古籍文档的图像数据，对所述图像数据进行篇幅级别的单字标注以及文本行标注，得到训练数据集；

S2.训练单字检测模型并进行检测：对所述训练数据集进行预处理；基于通用目标检测框架YOLO-v3，设置尺度不同的anchor大小，然后将所述预处理后的训练数据集在所述YOLO-v3检测框架下进行训练，得到单字检测模型；利用训练好的单字检测模型，直接输入整图图像进行检测得到单字检测结果；

S3.训练单字分类模型并进行分类：步骤S1中所述单字标注会得到单个字符的图片，利用卷积神经网络构建单字分类模型，利用所述单个字符的图片对所述单字分类模型进行训练，得到单字分类模型；利用训练好的单字分类模型，输入单字图片得到分类识别结果；

S4.提取版面直线：检测所述古籍文档中的直线位置，将古籍文档内容不同区域块的部分提取出来，得到各个区域块间的位置关系；

S5.结构化输出文档：结合单字检测以及单字分类结果，再利用步骤S4得到的所述各个区域块间的位置关系，输出数字化的古籍文档内容。

优选地，步骤S1中收集的古籍包括版面简单的图片TKH、版面复杂的图片MTH1000及MTH1200。

优选地，步骤S1中所述单字标注的内容包括单字符的位置、单字符对应的分类类别；文本行标注即按照古籍文档的阅读顺序从右到左，从上到下标注文本行的坐标以及对应的序列内容。

优选地，步骤S3中数据预处理包括对步骤S1中图像数据进行自适应阈值二值化、添加高斯噪声、随机补白或切掉部分像素区域。

优选地，步骤S3中，根据形态学膨胀腐蚀的方法，同时结合投影法，提取古籍文档版面的直线，得到各个区块间的位置关系。

优选地，步骤S5中根据单字检测的坐标以及版面提取出来的位置，对双列下的字进行排序，从而进行输出。

本发明公开了以下技术效果：本发明解决了版面复杂、文档密集的古籍文档的单字检测以及在较大的文档背景中存在污渍干扰的问题，可以简单、高效地识别古籍文档中的内容，将现代计算机信息技术和传统的人文文化巧妙地相结合，对于数字遗产保护、信息发现、纸质文档转录等工作具有重要的作用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明古籍文档数字化方法的流程图；

图2是本发明使用的数据集采样介绍；

图3是本发明单字符分类模型示意图；

图4是本发明的检测结果实例示意图；

图5是本发明的版面提取结果实例示意图；

图6是本发明的结构化输出结果实例示意图；

图7是通过本发明古籍文档数字化方法得到的最终结果实例示意图；

图8为图2中标号为c的图片的局部放大图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1-8所示，本发明提供一种古籍文档数字化的方法，具体内容如下：图1为本发明古籍文档数字化方法的流程图，首先，获取待文档内容数字化的古籍数据集，本实施例古籍数据集由简单版面的图片以及复杂版面的图片组成，分别命名为TKH、MTH1000及MTH1200，其依次分别有1000、1000、1200共计3200张图像数据，然后对这3200张图像数据进行篇幅级别的标注，具体包括符合阅读顺序的文本行级别标注、单字级别的标注，古籍数据集采样的图片如图2所示，图8为图2中标号为c的图片的放大图。文字分为常用字以及生僻字，生僻字出现的频次较低，只有部分的常用字出现的次数达到最高，最多的一个数据集中单字有1000张图片的类别，MTH1200的类别数最多，TKH出现的类别数最少，具体的数据统计如表1所示。

表1.古籍数据集分布情况统计

	TKH	MTH1000	MTH1200
				页面总数	1000	1000	1200
文本行总数	23468	27559	21416
				字符总数	323501	420548	337613
字符种类数	1487	5341	5292
				双列文本行占比	0	9.0％	27％

训练单字检测模型：将获取的古籍数据集中的所有3200张图片按照4:1的比例随机分成训练数据集和测试数据集两部分，即训练数据集中有2560张图片，测试数据集中有640张图片。基于YOLO-v3检测模型，对比全图级别(Full input)以及基于滑动窗口(Sliceinput)的方法来分析检测结果。在训练过程中将训练数据集的所有2560张图片缩放到固定的2048x2048大小，再利用K-means聚类方法来设置anchor的大小。经过利用训练数据集中的图片数据对单字符检测模型进行训练后，再利用测试数据集中的640张图片对训练完毕的单字符检测模型进行测试，得到如表2所示的测试结果。从表2可以看出，滑动窗口的输入能够减少单张图片中的文字框的个数，显著地提高高IoU下的指标，并且滑动窗口作为一种数据预处理操作，在解决密集物体以及高分辨率图片的检测时效果是显著和通用的。本实施例单字符检测结果如附图4所示。

表2.单字检测对比试验结果

	IoU＝0.5	IoU＝0.6	IoU＝0.7	IoU＝0.8
					全图输入	98.32％	97.36％	93.55％	73.28％
滑窗后图片输入	99.22％	98.61％	96.40％	86.66％

训练单字分类网络模型：通过数据预处理，利用旋转变换来做数据增强操作处理后，采用的单字符分类网络模型如图3所示，具体包括卷积层(卷积核大小为3x3，输入通道数为1，输出通道数为32)、正则化层+Relu激活层+池化层(池化核大小为2x2)、卷积层(卷积核大小为3x3，输入通道数32，输出通道数为64)；正则化层+Relu激活层+池化层(池化核大小为2x2)；卷积层(卷积核大小为3x3，输入通道数为64，输出通道数为128)；正则化层+Relu激活层+池化层(池化核大小为2x2)；卷积层(卷积核大小为3x3，输入通道数为128，输出通道数为256)，正则化层+Relu激活层+池化层(池化核大小为2x2)；全连接层(输出节点数为512)；正则化层+Relu激活层+dropout层(dropout比例为0.3，防止过拟合)，全连接(输入节点数为512，输出节点数为单字类别数)。最后训练单字分类网络的Top1准确率为97.111％，Top-5准确率为98.87％。

其中，数据预处理操作包括对步骤S1中图像数据进行自适应阈值二值化、添加高斯噪声、随机补白或切掉部分像素区域。通过对图像数据进行自适应阈值二值化可以避免不同图片背景造成的干扰，由于二值化常会引入噪声，添加高斯噪声可以增加模型的泛化能力，由于单字检测模型不能保证单字能够回归的特别精准,随机补白可以提高单字分类网络模型的鲁棒性。

提取版面直线：通过图像处理方法，结合投影法检测文档中的直线位置，将古籍文档内容不同区域块的部分提取出来，最终得到各个区域块的位置关系，得到的效果图如附图5所示。

文档结构化输出：古籍文档结构化输出需要还原出文本的位置以及文档内容，特别地，古籍文档结构化输出重点需要解决的一个技术问题是如何解决文档中双列夹住的问题，解决这个问题需要对单列按照从上到下的顺序输出，再对双列中的内容按照从右到左的顺序进行输出。本发明为解决这个问题，设计了如下表伪代码所示的算法：

最后通过输入一张古籍文档图片，经过文档数字化方法，得到的最后的结果如附图6所示。

本发明通过分析传统方法以及深度学习方法的不足之处,提出了一些针对古籍文档数字化的新思路，主要包括利用滑动窗口的方法来提高文字检测的精度,以及通过形态学的方法较快的得到版面提取的结果，最后通过设计的识别网络以及数据增强技巧,结构化的输出双列的文字内容，具有实现简单、识别精度高、识别速度快的优点。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

以上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种古籍文档数字化的方法，其特征在于，包括如下步骤：

S3.训练单字分类模型并进行分类：步骤S1中所述单字标注会得到单个字符的图片，对所述图片进行自适应阈值二值化、添加高斯噪声、随机补白或切掉部分像素区域，利用卷积神经网络构建单字分类模型，利用所述单个字符的图片对所述单字分类模型进行训练，得到单字分类模型；利用训练好的单字分类模型输入单字图片得到分类识别结果；

S5.结构化输出文档：对单列按照从上到下的顺序输出，再对双列中的内容按照从右到左的顺序进行输出；

所述训练单字检测模型包括基于YOLO-v3检测模型，对比全图级别以及基于滑动窗口的方法来分析检测结果。

2.根据权利要求1所述的古籍文档数字化的方法，其特征在于，步骤S1中收集的古籍包括版面简单的图片TKH、版面复杂的图片MTH1000及MTH1200。

3.根据权利要求1所述的古籍文档数字化的方法，其特征在于，步骤S1中所述单字标注的内容包括单字符的位置、单字符对应的分类类别；文本行标注即按照古籍文档的阅读顺序从右到左，从上到下标注文本行的坐标以及对应的序列内容。

4.根据权利要求1所述的古籍文档数字化的方法，其特征在于，步骤S3中，根据形态学膨胀腐蚀的方法，同时结合投影法，提取古籍文档版面的直线，得到各个区块间的位置关系。

5.根据权利要求1所述的古籍文档数字化的方法，其特征在于，步骤S5：结合单字检测以及单字分类结果，再利用步骤S4得到的所述各个区域块间的位置关系，输出数字化的古籍文档内容。