CN117437647A

CN117437647A - 基于深度学习和计算机视觉的甲骨文字检测方法

Info

Publication number: CN117437647A
Application number: CN202311753411.3A
Authority: CN
Inventors: 付新然; 杨溪; 周日鑫
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2023-12-20
Filing date: 2023-12-20
Publication date: 2024-01-23
Anticipated expiration: 2043-12-20
Also published as: CN117437647B

Abstract

本发明涉及人工智能与古文字方向交叉技术领域，特别是涉及基于深度学习和计算机视觉的甲骨文字检测方法，包括：获取待检测甲骨文拓片；将所述甲骨文拓片输入预设的检测模型中，获取所述甲骨文拓片上的甲骨文字区域预测结果，其中，所述检测模型基于训练集训练获得，所述训练集包括甲骨文拓片图像和甲骨文单字图像，所述检测模型采用轻量级神经网络构建。本发明充分利用已有甲骨文字体数据，借助深度学习算法，将甲骨文字的结构先验信息引入到检测模型中，使深度学习模型在优化的过程中学习并利用甲骨文字特有的形状特征，正确区分文字与非文字区域，提升甲骨文字检测结果的准确性。

Description

基于深度学习和计算机视觉的甲骨文字检测方法

技术领域

本发明涉及人工智能与古文字方向交叉技术领域，特别是涉及基于深度学习和计算机视觉的甲骨文字检测方法。

背景技术

近年来，我国对古文字研究的重视程度不断提高。目前，我国在甲骨文等古文字领域的研究虽然成果显著，但总体上看后备人才匮乏依然是一个突出的问题。识别甲骨文是开展甲骨文研究的基础，需要依靠专业古文字学者的专业知识，但由于专业学者的数量有限，识别大量的甲骨文字对于每个古文字学者来说是个巨大的工作量。

尽管一些研究人员针对甲骨文字的特定字形结构提出了自动识别甲骨文的算法，例如李峰等人将甲骨文视为一种无向图并抽取其拓扑特征，对特征进行分类并识别不同的甲骨文字。与传统方法相比，深度卷积神经网络在光学文字识别和海量图像分类等计算机视觉任务中取得了巨大的进步，并且可以迁移到甲骨文字检测的任务中。现有的基于深度学习的甲骨文字检测方法通常直接采用街景文字检测领域已有的方法。其中的一种方法利用深度回归模型直接拟合包围文字边界的矩形框的参数表示，在这类算法中，例如候选边界框的生成方式和后处理非极大值抑制等手工设计的算法不仅操作复杂，而且会对训练过程和预测结果产生影响；另一种即利用语义分割深度学习模型对文字区域和非文字区域进行区分，随后通过后处理算法将判断为文字的区域框选出来，得到甲骨文字检测结果，这类算法虽然可以避免回归模型中设计复杂的问题，但忽略了场景文字与背景差异较大但甲骨文与背景区域较为相近这一区别，场景文字例如广告牌、店面招牌和书的封面等涵盖的文字区域与非文字区域有明显差别，产生的特征也会区别明显；然而拓片中的甲骨文字区域与其他如划痕或破裂的区域形式相似，会导致模型无法区分最终产生错误预测结果。同时，文字检测的算法仅仅考虑文字包围框的参数特征，也没有将甲骨文字独有的结构信息引入到模型训练中。

从上述分析可以看出，如果将甲骨文自动化检测的结果交给专业考古学者去判断，将可以提高甲骨文字检测的工作效率，减轻古文字学者的工作量。同时，针对场景文字识别提出的算法具有借鉴价值，但由于甲骨文拓片和甲骨文字的特殊性质使得仅仅应用原有算法无法满足准确检测的需求。

因此，亟需基于深度学习和计算机视觉的甲骨文字检测方法。

发明内容

本发明的目的是提供基于深度学习和计算机视觉的甲骨文字检测方法，利用深度学习算法，将甲骨文字的结构先验信息引入到检测模型中，使检测模型学习并利用甲骨文字特有的形状特征，提升甲骨文字检测结果的准确性。

为实现上述目的，本发明提供了如下方案：

基于深度学习和计算机视觉的甲骨文字检测方法，包括：

获取待检测甲骨文拓片；

将所述甲骨文拓片输入预设的检测模型中，获取所述甲骨文拓片上的甲骨文字区域预测结果，其中，所述检测模型基于训练集训练获得，所述训练集包括甲骨文拓片图像和甲骨文单字图像，所述检测模型采用轻量级神经网络构建。

进一步地，基于所述训练集训练所述检测模型之前，还包括对所述训练集进行预处理，所述预处理包括：

对所述甲骨文拓片图像上甲骨文字进行位置标注，标注的格式是矩形边界框的左下角顶点坐标和右上角顶点坐标；

对所述甲骨文单字图像进行分类，相同的甲骨文单字被分为同一类别。

进一步地，所述预处理还包括：

对所述甲骨文拓片图像进行数据增强以及尺寸调整，获取相同大小的训练集样本。

进一步地，所述检测模型包括：骨干网络模块、类别预测模块、区域预测模块，所述骨干网络模块用于通过卷积运算提取输入图像的特征图；所述类别预测模块用于基于所述特征图进行类别预测，获取类别预测图；所述区域预测模块用于基于所述类别预测图和特征图融合后进行区域预测，输出区域预测图。

进一步地，所述骨干网络模块采用编码器-解码器骨干网络，所述类别预测模块采用若干残差结构组成的卷积网络，所述区域预测模块采用转置卷积网络、批量归一化层。

进一步地，所述甲骨文字区域预测结果表示形式为甲骨文字的矩形包围框的参数，包括左下角的像素坐标和右上角的像素坐标。

进一步地，在所述检测模型训练过程中，通过对所述类别预测图和区域预测图进行监督，使用梯度下降法更新模型参数。

进一步地，在所述检测模型训练过程中，还包括为甲骨文字提供类别伪标签，获取所述类别伪标签的过程包括：

输入甲骨文单字图像到残差神经网络中，输出所述甲骨文单字图像的高维向量；

将所述高维向量输入到类别预测器中，输出所述甲骨文单字图像属于各个类别的概率，选取最高概率的类别作为所述甲骨文单字图像的类别，获取所述类别伪标签。

本发明的有益效果为：

本发明使用轻量级神经网络，参数量少，前向计算过程速度快，可以实时检测拓片中的甲骨文字；在训练过程中对甲骨文字区域进行建模，能够输出字符级别的区域预测结果；且与传统检测方法相比，本发明所提出的方法对甲骨文字的准确率和召回率大大提高，能够为甲骨文拓片中的甲骨文字自动识别提供可靠解决方案。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的基于深度学习和计算机视觉的甲骨文字检测方法流程图；

图2为本发明实施例的待检测甲骨文拓片图片；

图3为本发明实施例的通过检测模型得到的甲骨文拓片图片检测结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本实施例提供了基于深度学习和计算机视觉的甲骨文字检测方法，如图1所示，包括：

获取待检测的甲骨文拓片图片；

将待检测的甲骨文拓片图片输入预设的检测模型中，获取甲骨文拓片上的甲骨文字区域预测结果。

检测模型的构建具体包括以下步骤：

步骤1.收集甲骨文拓片图像和甲骨文单字数据，分别构建数据集。

收集甲骨文拓片图像，构建甲骨文字识别数据集，包括训练集和测试集，其中，训练集包含4600张图像，测试集包括4500张图像；甲骨文拓片图像上的每个甲骨文字都有位置标注，标注的格式是矩形边界框的左下角顶点坐标和右上角顶点坐标。

收集甲骨文单字图像，构建甲骨文单字分类数据集，包括训练集和测试集，在该数据集中，相同的甲骨文单字被分为同一类别。

步骤2.构建检测模型。

检测模型包括骨干网络模块、类别预测模块、区域预测模块；骨干网络模块采用编码器-解码器骨干网络，用于通过卷积运算提取输入图像的特征图；类别预测模块采用若干残差结构组成的卷积网络，用于基于特征图进行类别预测，获取类别预测图；区域预测模块采用转置卷积网络、批量归一化层，用于基于类别预测图和特征图融合后进行区域预测，输出区域预测图。

在预测阶段，首先通过神经网络的全部前向过程计算出区域预测图，然后将区域搜索算法应用于区域预测图，可以获得区域预测的边界表示，作为最终的预测结果，最终预测结果的形式是每个甲骨文字的矩形包围框的参数表示，包括左下角的像素坐标和右上角的像素坐标。

步骤3.对检测模型进行训练和测试，保留准确度最高的模型参数。

将甲骨文拓片图像数据集和甲骨文单字分类数据集分别随机划分成训练数据集和测试数据集，训练数据集和测试数据集均包括简单样本和复杂样本。

网络模型参数全部使用随机初始化，设定网络优化超参数，使用训练数据集对网络训练直至收敛，并用测试数据进行性能检测。选取不同的网络优化超参数进行训练并测试，保留准确度最高的模型参数。

另外，为了在检测模型训练过程中引入甲骨文字独特的结构信息，为每一个甲骨文字提供额外的类别伪标签信息。

利用残差神经网络（ResNet）学习甲骨文字的具体类别，即每个甲骨文字对应了哪一个汉字，并以此作为每个甲骨文字的类别伪标签，用于检测模型训练过程。获得类别伪标签的具体过程为：

输入一张甲骨文字图像到残差神经网络中，输出该甲骨文字图像的高维向量表示；将高维向量输入到类别预测器中，输出该图像属于各个类别的概率，选取最高概率的类别作为该图像的类别，并存储到相应文件中。

之所以称之为伪标签，是因为该标注信息是由神经网络根据文字的高维特征向量预测得到，而非由考古学者标注得到。通过实验发现，伪标签可以作为区分不同形态甲骨文字的依据，提供文字特有的结构信息，且伪标签的生成不需要过多的人力成本，可以自动化完成。

根据输出的标签信息为甲骨文拓片图像上的每个甲骨文字标注类别伪标签；得到伪标签后，根据二维高斯分布，生成用于监督位置预测信息的区域图（Region Map）和用于监督类别信息的伪标签图(Pseudo Category Map)。区域图以及伪标签图的尺寸与输出的甲骨文拓片图像尺寸相同。

本实施例不仅使用常见的区域分割预测模块，还引入了经过伪标签训练的类别预测模块，用于将不同甲骨文字所含有的独特信息传递给检测模型。在本实施例中，所有的甲骨文拓片图像首先经过颜色扰动的数据增强以获得更泛化的训练样本，随后通过尺寸调整操作规范化到相同的大小。经过处理的图像被传入编码器-解码器骨干网络，通过卷积运算提取该图像的特征图，随后该特征图先经过由残差模块结构组成的卷积网络输出类别预测图。接下来，骨干网络输出的特征图和类别预测图进行像素级别的特征融合，通过特征图和类别预测图的按位加和操作，类别预测图将所含有的结构信息融入到特征图中，成为指导模型学习的一部分。融合后的特征图传入由转置卷积、批量归一化层组成的区域分割预测模块，最终输出区域预测图。

通过对类别预测图和区域预测图的监督，使用梯度下降法更新模型参数，将不同甲骨文字的特征信息引入到模型中，实现甲骨文字的精准检测。

本实施例全部由Python开源代码实现，所涉及依赖库包括Pytorch, OpenCV及其他系统库等。本实施例作为后端算法，可嵌入到网页端或手机程序等软件开发中，实现甲骨文字检测的需求。

导入一张甲骨文拓片图片，如图2所示。在拓片的中间区域包含位置较为集中的甲骨文字，且部分甲骨文字与破损区域重合。这些情况在甲骨拓片中属于常见情况。将甲骨文拓片图片输入检测模型中，通过检测模型的前向计算过程，得到甲骨文字检测结果，如图3所示。

根据与原有的骨干网络进行检查结果对比可知，本实施例所提出的方法对公开甲骨文字检测数据集达到了74.5%的准确率，与原有的骨干网络的检测结果相比提高了3%；同时还达到了72.5%的召回率，与原有骨干网络的检测结果相比提升了1%。

以上所述的实施例仅是对本发明优选方式进行的描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.基于深度学习和计算机视觉的甲骨文字检测方法，其特征在于，包括：

获取待检测甲骨文拓片；

将所述甲骨文拓片输入预设的检测模型中，获取所述甲骨文拓片上的甲骨文字区域预测结果，其中，所述检测模型基于训练集训练获得，所述训练集包括甲骨文拓片图像和甲骨文单字图像，所述检测模型采用轻量级神经网络构建；

所述检测模型包括：骨干网络模块、类别预测模块、区域预测模块，所述骨干网络模块用于通过卷积运算提取输入图像的特征图；所述类别预测模块用于基于所述特征图进行类别预测，获取类别预测图；所述区域预测模块用于基于所述类别预测图和特征图融合后进行区域预测，输出区域预测图。

2.根据权利要求1所述的基于深度学习和计算机视觉的甲骨文字检测方法，其特征在于，基于所述训练集训练所述检测模型之前，还包括对所述训练集进行预处理，所述预处理包括：

3.根据权利要求2所述的基于深度学习和计算机视觉的甲骨文字检测方法，其特征在于，所述预处理还包括：

4.根据权利要求1所述的基于深度学习和计算机视觉的甲骨文字检测方法，其特征在于，所述骨干网络模块采用编码器-解码器骨干网络，所述类别预测模块采用若干残差结构组成的卷积网络，所述区域预测模块采用转置卷积网络、批量归一化层。

5.根据权利要求1所述的基于深度学习和计算机视觉的甲骨文字检测方法，其特征在于，所述甲骨文字区域预测结果表示形式为甲骨文字的矩形包围框的参数，包括左下角的像素坐标和右上角的像素坐标。

6.根据权利要求1所述的基于深度学习和计算机视觉的甲骨文字检测方法，其特征在于，在所述检测模型训练过程中，通过对所述类别预测图和区域预测图进行监督，使用梯度下降法更新模型参数。

7.根据权利要求6所述的基于深度学习和计算机视觉的甲骨文字检测方法，其特征在于，在所述检测模型训练过程中，还包括为甲骨文字提供类别伪标签，获取所述类别伪标签的过程包括：