CN113673384A

CN113673384A - Lm滤波器组引导纹理特征自主学习的甲骨文字检测方法

Info

Publication number: CN113673384A
Application number: CN202110900543.9A
Authority: CN
Inventors: 宋传鸣; 王一琦; 何熠辉; 洪飏; 王相海
Original assignee: Liaoning Normal University
Current assignee: Liaoning Normal University
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2021-11-19

Abstract

本发明公开一种LM滤波器组引导纹理特征自主学习的甲骨文字检测方法，首先，采用大津法和多条件连通区域填充算法得到输入图像I的粗去噪结果；其次，以VGG16网络为基础，在首端和末端各引进1组可训练卷积层，通过逐层冻结的训练方式，实现浅层特征和高层特征的知识迁移；然后，在网络前部引进1组Inception子网络，在网络后部引进1组Leung‑Malik方向滤波器组，从而适应文字的尺度和角度变化，并引导可训练卷积层有效获取文字区域的差异性纹理特征；最后，利用文本注意力机制、区域建议子网络计算感兴趣区域的评分，再通过特征降维子网络和区域分类子网络确定文字区域。

Description

LM滤波器组引导纹理特征自主学习的甲骨文字检测方法

技术领域

本发明涉及数字图像处理和古文字信息处理的交叉领域，尤其是一种可有效抵抗龟甲和兽骨所存在的点状噪声、钻凿坑洞、灼烧裂痕的干扰，能适应契刻过程所引起的文字行列分布规律不明显、线素方向复杂多变的特点，准确性高、鲁棒性好、角度自适应能力强的LM滤波器组引导纹理特征自主学习的甲骨文字检测方法。

背景技术

作为计算甲骨学的重要基础研究领域之一，甲骨文字检测的根本目的是借助计算机视觉技术，在甲骨拓片图像上自动定位甲骨卜辞文字的区域位置，进而为刻辞文本识别及语义释读等环节提供字形图像或字形图像集合。它对于保证后续的文字分割和字形复原质量、提高字形特征提取和自动识别精度具有基础且重要的意义，亦是计算机辅助甲骨文字形研究、碎片缀合、文意释读等研究工作的基础任务。然而，欲在干扰严重、字迹与龟甲边缘相互混叠的复杂背景中实现甲骨卜辞文字的自动准确检测，至今仍是一项非常有挑战性的计算机视觉处理任务。

依据待检测的文字对象所处的年代，现有的文字检测技术包括面向现代文字的检测方法和面向古代文字的检测方法两大类。

首先，面向现代文字的检测技术可进一步被划分为四类：基于传统方法的文字检测、基于回归的深度学习文字检测、基于分割的深度学习文字检测、基于组件连接的深度学习文字检测。

⑴在基于传统方法的文字检测方面，Epshtein等人在边缘检测结果的基础上，利用局部梯度选取成对边缘两端点并计算其宽度，从而区分笔画像素和非笔画像素，再通过过滤和合并连通域构成最终的文本行；Neumann等人采用最大稳定极值区域(MaximallyStable Extremal Regions,MSERs)检测得到MSERs集合，再利用支持向量机过滤集合中的非文本元素得到检测结果。不过，对于多方向、场景复杂的待检测图像，这一类方法无法取得有效的检测结果。

⑵在基于回归的深度学习文字检测方面，廖明辉等人将SSD网络结构中用于实现多重特征融合的编码器替换为旋转敏感回归编码器，并将传统卷积结构替换为定向响应卷积，使得改进后的深度网络结构可以提取旋转敏感卷积特征；为克服SSD网络对于小目标检测鲁棒性差的不足，Shi等人提出一种文本检测框架TextBoxes，通过调整候选框默认长宽比、滤波器尺度，提升了深度网络对水平方向的长文本检测性能；为解决TextBoxes对于非水平方向文本检测效果不理想的问题，廖明辉等人将传统水平方向的候选框替换为带有方向信息的任意四边形候选框，融入了带有方向信息的回归损失，从而提出一种面向文字区域检测的TextBoxes++方法。上述几种技术的缺点在于，对文字的排布方向、字符间距存在较为明显的依赖性，当字符间距较大或者文字呈现曲线、垂直方向排列或者带有旋转角度的文本时，其检测性能尚不够令人满意。为克服这一不足，Zhou等人提出一种快速文本检测方法EAST，通过在确定候选区域时融入旋转角通道信息的方式生成文本四边形和带有角度信息的文本区域候选框；He等人提出一种融合区域注意力机制的文本检测方法，利用文本注意力模块强化对文字特征的注意，引入层次式Inception模块增强网络对文本尺度的鲁棒性，进而融入角度信息以适应不同方向文本目标的检测场景；Zhang等人提出一种融合局部信息及全局信息的全卷积多方向文本检测方法，采用全卷积网络对文本块进行检测，结合MSER区域的局部信息对文本块进行文本行提取，从而通过一个全卷积网络获取字符质心的显著性区域映射；Busta等人提出一种整合文字检测与识别的可训练端到端框架，使用改进的YOLOv2框架进行特征提取及区域推荐得到候选区域，通过双线性采样将尺度不同的文本区域特征映射为尺度一致的变长特征序列，进而利用循环神经网络RNN计算概率矩阵，并借助CTC实现字符串区域判断。有研究表明，由于网络的感受野尺度有限，这一类方法大多对长文本的检测效果不理想，且在低对比度、密集文本、零散分布区域中的检测效果较差。

⑶基于分割的深度学习文字检测方面，Deng等人基于实例分割思想，实现了像素级的文本判别预测及链接预测，即预测当前像素是否为文本像素以及像素间是否属于同一文本实例，提出了一种场景文本检测方法PixelLink；Li等人引进基于宽度优先搜索和尺度渐进的分割方式，提出了一种渐进式扩展网络PSENet，在一定程度上缓解了对行距较小的文本行被重叠识别的现象；Xu等人提出一种基于文本域的文本检测方法TextField，通过方向场的编码实现文本区域与非文本区域的分离；Yao等人对文本区域、字符以及相邻字符的链接方向概率等属性进行评估来构建图模型，从而提出一种基于HED模型的自然场景图像文本检测方法；Lyu等人使用角点检测器代替了传统的目标检测并融入位置信息，更好地适应不同的文字方向、长宽比及字形尺度，提出一种角点定位和区域分割的多角度场景文本检测方法Corner；Lyu等人采用ResNet作为主干网络来建立语义特征图，通过RPN分支确定候选区域，并由Faster-RCNN分支完成回归及分类任务，提出了一种用于任意形状文本检测识别的端到端神经网络Mask TextSpotter；Ye等人通过多路径特征融合策略设计了一种文本检测框架TextFuse，利用弱监督学习机制和单词级标注指导字符级训练样本的检索，从而实现了字符级实例的无标注学习和检测。遗憾的是，这一类方法对图像质量具有较高的要求，当待分析的图像出现模糊、亮度对比度不理想、文字被背景纹理遮挡、类文本区域混杂等情况时，其文字检测精度将出现显著下降。

⑷基于组件连接的深度学习文字检测方面，Tian等人提出一种基于垂直锚点机制的文本检测方法CTPN，将候选框设置为较小的固定宽度，并将区域推荐时返回的参数数量缩减为两个，进而对候选框之间的垂直重叠度、间距等条件进行组件合并；Shi等人通过对连接关系的学习得到不同候选框的连接置信度，再对候选框进行连接得到文本行检测结果，从而提出了一种基于文本片段连接的文本检测方法SegLink；Beak等人采用卷积神经网络对文本区域之间的亲和度进行评价，实现由字符到单词实例的组装，进而提出了一种基于文本区域感知技术的文本检测方法CRAFT；Zhang等人以带有FPN的VGG16作为主干网络，利用共享卷积特征分析文本组件的几何属性，供局部图模块建立组件间的连接关系，再通过关系推理网络实现文本组件的组合，进而提出了一种深度关系推理图网络的文本检测方法。由于字符的连通域会直接影响网络对组件关系的判断，此类方法对于存在形变、间隔不均匀、版式排布复杂、笔画粘连情况的文字检测普遍表现出较大的敏感性，性能尚不具备较好的鲁棒性。

其次，面向古代文字的检测技术可进一步被划分为两类：基于传统图像处理方法的文字检测、基于深度学习的古代文字检测。

⑴基于传统图像处理方法的文字检测方面，史小松等人提出一种结合数学形态学和阈值分割的甲骨拓片文字定位方法，首先对原始拓片图像进行增强，然后采用最大类间方差法实现阈值化，形成候选文字区，再利用数学形态学的连通分量标注及其连通面积统计进行处理，进而确定甲骨文字区域。其不足之处在于对噪声干扰的鲁棒性较差；黄勇杰等人提出一种面向甲骨拓片图像的目标自动定位方法，以目标形状估计作为稀疏活动轮廓模型的约束，仅对图像中部分像素的位置进行回归，再利用共同勾画算法在待定位图中扫描出与模型匹配度最高的区域；何颖等人提出一种采用FCM结合小波变换的甲骨文字图像分割算法，利用二进小波边缘检测和FCM聚类算法对文本边缘进行跟踪和拟合，进而在FCM聚类隶属度的计算过程中引入边缘信息，获得更加精细的分割结果。

⑵基于深度学习的古代文字检测方面，王浩彬采用特征金字塔网络对甲骨文刻辞图像进行特征提取，并结合字符动态增广算法实现了基于字模数据的甲骨文刻辞文本检测，从而提出一种基于全卷积神经网络的甲骨文检测模型。其不足之处在于，对尺寸较小或存在残缺的文本检测性能较差；邢济慈则提出了两种基于改进YOLOv3网络架构的甲骨文检测方法，通过集成模拟噪声、锚框聚类等多种优化策略，提升了甲骨文字检测准确度。不过，该方法对于密集小尺寸的甲骨文检测性能较差。

总体来看，尽管上述的现有技术已取得了一定的文字检测效果，可是仍然存在以下三个方面的不足：

第一，现代汉字与甲骨文字的特征之间存在显著差异，并且现代汉字的背景干扰较弱，版面分布也呈现明显的文本行特性。一方面，甲骨表面均有不同程度的损坏，其卜辞文字多已模糊不清，而且龟甲和兽骨的质地亦不光滑，本身又存在齿缝、兆纹、盾纹、刻痕等纹理，导致甲骨文字往往被大量的琐碎边缘和固有纹理所干扰。另一方面，甲骨文的文例和版面分布又具有“沿中缝而刻辞向外，在右右行，在左左行，沿首尾之两边而刻辞者，向内，在右左行，在左右行”的独特规律，文字行不明显，明显有别于现代书写规范。因此，面向现代文字的检测技术均不适用甲骨卜辞文字的自动检测，无法在复杂的背景中准确定位到甲骨文字。

第二，现有的面向古代文字的检测技术目前仅能在甲骨刻辞图像中定位到拓片的位置，却无法准确地实现甲骨文字的提取，且鲁棒性较差，对钻凿坑洞、灼烧裂痕等干扰的抵抗能力较差。

第三，甲骨刻辞文字的分布与边缘方向存在密切关系，其笔画往往带有一定倾斜角度。在对《甲骨文合集》收录的甲骨拓片统计结果显示，约有20.35％的笔画的梯度分布在0°、45°、90°、135°以外的其他方向上。其根本原因在于，甲骨外缘存在一定弧度，在契刻过程中需要沿着平行于外缘的方向从外侧向内侧书写，使得甲骨文字本身就会具有一定倾角。然而，无论是面向现代文字的检测技术，还是面向古代文字的检测技术，均无法有效处理具有复杂线素方向的甲骨刻辞文字。

综上所述，目前尚没有一种可有效抵抗龟甲和兽骨所存在的点状噪声、钻凿坑洞、灼烧裂痕的干扰，尤其是能适应契刻过程所引起的文字行列分布规律不明显、线素方向复杂多变的特点，准确性高、鲁棒性好、角度自适应能力强的甲骨卜辞文字自动检测方法。

发明内容

本发明是为了解决现有技术所存在的上述技术问题，提供一种可有效抵抗龟甲和兽骨所存在的点状噪声、钻凿坑洞、灼烧裂痕的干扰，能适应契刻过程所引起的文字行列分布规律不明显、线素方向复杂多变的特点，准确性高、鲁棒性好、角度自适应能力强的LM滤波器组引导纹理特征自主学习的甲骨文字检测方法。

本发明的技术解决方案是：一种LM滤波器组引导纹理特征自主学习的甲骨文字检测方法，其特征在于按照如下步骤进行：

步骤1.建立并初始化用于甲骨刻辞文字检测的深度卷积神经网络N_obc，包含1个用于特征提取的子网络N_feature、1个用于甲骨文字区域建议的子网络N_rpn、1个用于甲骨文字区域特征降维的子网络N_dim和1个用于区域分类的子网络N_cls；

步骤1.1建立并初始化子网络N_feature，含有2组以迁移方式完成训练的卷积层、4组以标准方式完成训练的卷积层、2组文本注意力模块、1组方向滤波器组层，分别为Trans1、Conv4、Inception1、Conv1、Conv2、Conv3、Attention1、Attention2、LM1，各层的前后布局顺序为Trans1、Inception1、Attention1、Conv1、Conv2、Attention2、Conv3、LM1、Conv4；

所述Trans1包含3组卷积操作，分别为Trans_A、Trans_B、Trans_C，其中，Trans_A包含一层大小为3×3的、以Xavier方法进行初始化的16个卷积核；Trans_B包含一层大小为3×3的、以Xavier方法进行初始化的16个卷积核；Trans_C包含一层大小为3×3的、以Xavier方法进行初始化的16个卷积核；

所述Inception1包含3组卷积操作，分别为Inception_A、Inception_B、Inception_C，其中，Inception_A包含一层大小为1×1的、以Xavier方法进行初始化的16个卷积核，记为Inception_{A_1}，一层大小为1×1的、以Xavier方法进行初始化的64个卷积核，记为Inception_{A_2}；Inception_B包含一层大小为1×1的、以Xavier方法进行初始化的16个卷积核，记为Inception_{B_1}，一层大小为3×3的、以Xavier方法进行初始化的32个卷积核，记为Inception_{B_2}，一层大小为1×1的、以Xavier方法进行初始化的64个卷积核，记为Inception_{B_3}；Inception_C包含一层大小为1×1的、以Xavier方法进行初始化的16个卷积核，记为Inception_{C_1}，一层大小为3×3的、以Xavier方法进行初始化的32个卷积核，记为Inception_{C_2}，一层大小为3×3的、以Xavier方法进行初始化的48个卷积核，记为Inception_{C_3}，一层大小为1×1的、以Xavier方法进行初始化的64个卷积核，记为Inception_{C_4}；Inception_A、Inception_B、Inception_C的输出分别为Output_{inception_A}、Output_{inception_B}、Output_{inception_C}，并根据公式(1)的定义计算Inception1层的输出Output_inception；

Output_inception←(Output_{inception_A}+Output_{inception_B}+Output_{inception_C})·C_inception (1)

其中，“·”表示内积运算，C_inception表示一个预设的常量；

所述Attention1模块包含三组卷积操作，分别记为Attention1_Unit_Conv_1、Attention1_Unit_Conv_2、Attention1_Unit_Conv_3，其中，Attention1_Unit_Conv_1包含一层大小为1×1、以Xavier方法进行初始化的1个卷积核，记为Attention1_Unit_Conv_1_r1；Attention1_Unit_Conv_2包含一层大小为3×3、以Xavier方法进行初始化的1个卷积核，记为Attention1_Unit_Conv_2_r1，一层大小为3×3、以Xavier方法进行初始化、膨胀率为3的1个空洞卷积核，记为Attention1_Unit_Conv_2_r3，一层大小为3×3、以Xavier方法进行初始化、膨胀率为5的1个空洞卷积核，记为Attention1_Unit_Conv_2_r5，以及一层大小为3×3、以Xavier方法进行初始化、膨胀率为7的1个空洞卷积核，记为Attention1_Unit_Conv_2_r7；Attention1_Unit_Conv_3包含一层大小为1×1、以Xavier方法进行初始化的1个卷积核，记为Attention1_Unit_Conv_3_r1；

所述Attention2模块包含三组卷积操作，分别记为Attention2_Unit_Conv_1、Attention2_Unit_Conv_2、Attention2_Unit_Conv_3，其中，Attention2_Unit_Conv_1包含一层大小为1×1、以Xavier方法进行初始化的1个卷积核，记为Attention2_Unit_Conv_1_r1；Attention2_Unit_Conv_2包含一层大小为3×3、以Xavier方法进行初始化的1个卷积核，记为Attention2_Unit_Conv_2_r1，一层大小为3×3、以Xavier方法进行初始化、膨胀率为3的1个空洞卷积核，记为Attention2_Unit_Conv_2_r3，一层大小为3×3、以Xavier方法进行初始化、膨胀率为5的1个空洞卷积核，记为Attention2_Unit_Conv_2_r5，以及一层大小为3×3、以Xavier方法进行初始化、膨胀率为7的1个空洞卷积核，记为Attention2_Unit_Conv_2_r7；Attention2_Unit_Conv_3包含一层大小为1×1、以Xavier方法进行初始化的1个卷积核，记为Attention2_Unit_Conv_3_r1；

所述Conv1包含1层池化操作和2层卷积操作，其中，池化层以大小为2×2的池化核、以SAME填充模式进行最大池化运算，每个卷积层含有128个大小为3×3的、以Xavier方法进行初始化的卷积核，每个卷积核以1个像素为步长进行卷积运算；

所述Conv2包含1层池化操作和3层卷积操作，其中，池化层以大小为2×2的池化核、以SAME填充模式进行最大池化运算，每个卷积层含有256个大小为3×3的、以Xavier方法进行初始化的卷积核，每个卷积核以1个像素为步长进行卷积运算；

所述Conv3包含1层池化操作和3层卷积操作，其中，池化层以大小为2×2的池化核、以SAME填充模式进行最大池化运算，每个卷积层含有512个大小为3×3的、以Xavier方法进行初始化的卷积核，每个卷积核以1个像素为步长进行卷积运算；

所述Conv4包含1层池化操作和3层卷积操作，其中，池化层以大小为2×2的池化核、以SAME填充模式进行最大池化运算，每个卷积层含有512个大小为3×3的、以Xavier方法进行初始化的卷积核，每个卷积核以1个像素为步长进行卷积运算；

所述LM1包含1层Leung-Malik方向滤波操作，含有由公式(2)定义的6方向、3尺度的18个高斯1阶导数组成的边缘滤波器，由公式(3)定义的6方向、3尺度的18个高斯2阶导数组成的柱状滤波器，8个由公式(4)定义的高斯—拉普拉斯滤波器以及4个高斯滤波器；

G′＝G_xcosθ+G_ysinθ (2)

G″＝G_xxcos²θ+G_yysin²θ-2G_xycosθsinθ (3)

其中，G表示高斯核函数，G_x表示G沿着水平方向的一阶偏导数，G_y表示G沿着竖直方向的一阶偏导数，G_xx表示G沿着水平方向的二阶偏导数，G_yy表示G沿着竖直方向的二阶偏导数，G_xy表示G的二阶混合偏导数，θ∈{0°,30°,60°,90°,120°,150°}表示边缘滤波器和柱状滤波器的角度，每个边缘滤波器和柱状滤波器各包含3个滤波尺度，分别为σ₁、σ₂、σ₃，高斯—拉普拉斯滤波器包含8个滤波尺度，分别为

高斯滤波器包含4个滤波尺度，分别为

步骤1.2建立并初始化子网络N_rpn，含有3组卷积层，分别为RpnConv、RpnPred和RpnScore；

所述RpnConv包含1层卷积操作，含有512个大小为3×3的卷积核，每个卷积核以1个像素为步长、以SAME填充模式进行卷积运算，并采用均值为0、标准差为0.01的高斯分布进行初始化；

所述RpnPred包含1层卷积操作，含有36个大小为1×1的卷积核，每个卷积核以1个像素为步长、以VALID填充模式进行卷积运算，并采用均值为0、标准差为0.01的高斯分布进行初始化；

所述RpnScore包含1层卷积操作，含有18个大小为1×1的卷积核，每个卷积核以1个像素为步长、以VALID填充模式进行卷积运算，并采用均值为0、标准差为0.01的高斯分布进行初始化；

步骤1.3建立并初始化子网络N_dim，含有1组剪裁池化层和2组全连接层，分别为CropPool、Fc1和Fc2；

所述CropPool包含1层缩放操作和1层池化操作，其中，缩放操作用于将候选区域的尺寸变换为14×14像素，池化层以大小为2×2的池化核、以SAME填充模式进行最大池化运算；

所述Fc1有4096个输出单元，并且采用ReLU激活函数，以Xavier方法进行权值初始化；

所述Fc2有4096个输出单元，并且采用ReLU激活函数，以Xavier方法进行权值初始化；

步骤1.4建立并初始化子网络N_cls，含有2组全连接层，分别为Fc3和Fc4；

所述Fc3有4096个输入单元和8个输出单元，并采用均值为0、标准差为0.001的高斯分布进行初始化；

所述Fc4有4096个输入单元和2个输出单元，并采用均值为0、标准差为0.01的高斯分布进行初始化；

步骤2.输入甲骨刻辞图像训练集和人工已标注的每幅训练图像的甲骨文字区域坐标集、甲骨文字区域标签集，对深度卷积神经网络N_obc进行初始训练；

步骤2.1对于训练集中的每幅图像T及其人工已标注的甲骨文字区域坐标集C_ref和甲骨文字区域标签集C_label，令迭代次数iter←1，执行步骤2.2～2.11；

步骤2.2将图像T的颜色空间从RGB转换到HSV，并将其V分量记为T_V；

步骤2.3采用最大类间方差法计算T_V的最优全局阈值，并将T_V进行二值化，而保持图像T的饱和度分量T_S和色调分量T_H不变；

步骤2.4将二值化后的T_V分量与饱和度分量T_S、色调分量T_H从HSV颜色空间转换到RGB空间，令所得图像为T′；

步骤2.5采用子网络N_feature提取图像T′的特征图；

步骤2.5.1利用卷积层Trans1对T′进行计算，得到TF_trans；

步骤2.5.2利用卷积层Inception1对TF_trans进行计算，得到卷积特征图TF₁；

步骤2.5.3利用文本注意力模块Attention1对卷积特征图TF₁进行计算，得到叠加注意力的卷积特征图TF_A1；

步骤2.5.3.1利用Attention1_Unit_Conv_1对TF₁进行处理，得到特征图TF_{1_A1_Conv1}，再分别利用Attention1_Unit_Conv_2_r1、Attention1_Unit_Conv_2_r3、Attention1_Unit_Conv_2_r5和Attention1_Unit_Conv_2_r7对TF_{1_A1_Conv1}进行计算，得到特征图TF_{1_A1_Conv2_r1}、TF_{1_A1_Conv2_r3}、TF_{1_A1_Conv2_r5}和TF_{1_A1_Conv2_r7}；

步骤2.5.3.2将TF_{1_A1_Conv2_r1}、TF_{1_A1_Conv2_r3}、TF_{1_A1_Conv2_r5}和TF_{1_A1_Conv2_r7}进行连接操作，得到特征图TF_{1_A1_C}，再利用Attention1_Unit_Conv_3对TF_{1_A1_C}做卷积操作，得到特征图TF_{1_A1_DEC}，进而根据公式(5)的定义，计算得到融合注意力的特征图TF_A1；

其中，“σ”表示Sigmoid函数，

表示矩阵的逐元素乘法；

步骤2.5.4利用卷积层Conv1对卷积特征图TF_A1进行池化和卷积运算，得到更大尺度下的卷积特征图TF₂；

步骤2.5.5利用卷积层Conv2对卷积特征图TF₂进行池化和卷积运算，得到更大尺度下的卷积特征图TF₃；

步骤2.5.6利用文本注意力模块Attention2对卷积特征图TF₃进行计算，得到叠加注意力的卷积特征图TF_A2；

步骤2.5.6.1利用Attention2_Unit_Conv_1对特征图TF₃进行处理，得到特征图TF_{3_A2_Conv1}，再分别利用Attention2_Unit_Conv_2_r1、Attention2_Unit_Conv_2_r3、Attention2_Unit_Conv_2_r5和Attention2_Unit_Conv_2_r7对TF_{3_A2_Conv1}进行卷积计算，得到特征图TF_{3_A2_Conv2_r1}、TF_{3_A2_Conv2_r3}、TF_{3_A2_Conv2_r5}和TF_{3_A2_Conv2_r7}；

步骤2.5.6.2对TF_{3_A2_Conv2_r1}、TF_{3_A2_Conv2_r3}、TF_{3_A2_Conv2_r5}、TF_{3_A2_Conv2_r7}进行连接操作，得到特征图TF_{3_A2_C}，再利用Attention2_Unit_Conv_3对TF_{3_A2_C}做卷积操作，得到特征图TF_{3_A2_DEC}，进而根据公式(6)的定义，计算得到融合注意力的特征图TF_A2；

步骤2.5.7利用卷积层Conv3对卷积特征图TF_A2进行池化和卷积运算，得到更大尺度下的卷积特征图TF₄；

步骤2.5.8利用方向滤波器组层LM1对卷积特征图TF₄进行多尺度方向滤波，得到多方向边缘特征图TF_LM；

步骤2.5.9利用卷积层Conv4对多方向边缘特征图TF_LM进行池化和卷积运算，得到更大尺度下的卷积特征图TF₅；

步骤2.6采用子网络N_rpn选取图像T′的候选甲骨文字区域；

步骤2.6.1利用卷积层RpnConv对卷积特征图TF₅进行卷积运算，得到初始区域建议结果TR_init；

步骤2.6.2利用卷积层RpnPred对初始区域建议结果TR_init进行处理，得到区域建议的预测集合TR_pred；

步骤2.6.3利用卷积层RpnScore对初始区域建议结果TR_init进行处理，然后经过softmax激活函数，计算得到区域建议的可能性评估结果集合TR_score；

步骤2.6.4根据TR_pred和TR_score，利用非极大值抑制方法获得图像T′的候选区域集合TR_ROIs；

步骤2.7对于TR_ROIs的每个候选甲骨文字区域TR_ROI，采用子网络N_dim提取该区域的卷积特征图；

步骤2.7.1将每个候选甲骨文字区域TR_ROI作为掩码，提取出TF₅中处于该区域的卷积特征子图TF′₅；

步骤2.7.2采用剪裁池化层CropPool将卷积特征子图TF′₅缩放变换为14×14像素，得到尺寸归一化后的卷积特征子图TF″₅；

步骤2.7.3按照光栅扫描的顺序，将TF″₅拉伸成长度为25088的一维向量TF_1d；

步骤2.7.4利用全连接层Fc1对TF_1d进行全连接操作，得到一维向量TF′₆；

步骤2.7.5利用全连接层Fc2对TF′₆进行全连接运算，得到一维向量TF′_1d；

步骤2.8对于TR_ROIs的每个候选甲骨文字区域TR_ROI，根据TR_ROI所对应的TF′_1d，采用子网络N_cls对其进行分类，计算得出其候选区域的顶点坐标集合、分类置信度向量和分类预测结果；

步骤2.8.1利用全连接层Fc3对TF′_1d进行处理，得到候选甲骨文字区域TR_ROI的顶点坐标集合TB′_pred；

步骤2.8.2利用全连接层Fc4对TF′_1d进行处理，得到候选甲骨文字区域TR_ROI的分类置信度向量TS_cls，再经过softmax激活函数，得出最终的分类预测结果TS′_pred；

步骤2.9将图像T′的每个候选文字区域的顶点坐标集合TB′_pred取并集，得到图像T′的所有候选文字区域的集合TB_pred；

步骤2.10分别计算分类置信度向量TS_cls与人工标注的甲骨文字区域标签集C_label的交叉熵损失Loss₁、所有候选文字区域的集合TB_pred与人工标注的甲骨文字区域坐标集C_ref的重叠度损失Loss₂、区域建议的可能性评估结果集合TR_score与人工标注的甲骨文字区域标签集C_label的交叉熵损失Loss₃、区域建议的预测集合TR_pred与人工标注的甲骨文字区域坐标集C_ref的重叠度损失Loss₄，根据公式(7)～公式(9)的定义计算甲骨文字区域的预测损失TotalLoss；

Loss＝Loss₁+Loss₂+Loss₃+Loss₄ (7)

RLoss＝||Loss₁||₁+||Loss₂||₁+||Loss₃||₁+||Loss₄||₁ (8)

TotalLoss＝Loss+RLoss (9)

其中，||·||₁表示L₁-范数；

步骤2.11若训练集中的所有图像均已处理完毕，则转入步骤2.12，否则从训练集中取出一幅未处理的图像，令其为T，返回步骤2.2；

步骤2.12令iter←iter+1，若迭代次数iter>Total_iter，则得到初始的深度卷积神经网络N_obc，转入步骤3，否则利用基于随机梯度下降法的反向误差传播算法和预测损失TotalLoss更新N_obc的参数，返回步骤2.2重新处理训练集中的所有图像，所述Total_iter表示预设的迭代次数；

步骤3.输入甲骨刻辞图像训练集和人工已标注的每幅训练图像的甲骨文字区域坐标集、甲骨文字区域标签集，并将训练集中所有图像的状态重新设置为“未处理”，采用贪心策略对深度卷积神经网络N_obc进行第一次迁移训练；

步骤3.1对于训练集中的每幅图像T及其人工已标注的甲骨文字区域坐标集C_ref和甲骨文字区域标签集C_label，令迭代次数iter←1，执行步骤3.2～3.3；

步骤3.2执行步骤2.2～步骤2.10，计算得到甲骨文字区域的预测损失TotalLoss；

步骤3.3若训练集中的所有图像均已处理完毕，则转入步骤3.4，否则从训练集中取出一幅未处理的图像，令其为T，返回步骤3.2；

步骤3.4令iter←iter+1，若迭代次数iter>Total_iter_trans，则得到第一次迁移训练后的深度卷积神经网络N_obc，转入步骤4，否则利用基于随机梯度下降法的反向误差传播算法和预测损失TotalLoss更新N_obc的Trans1层和Conv4层的参数并保持N_obc的Inception1、Attention1、Conv1、Conv2、Attention2、Conv3、LM1层的参数不变，返回步骤3.2重新处理训练集中的所有图像，所述Total_iter_trans表示预设的迭代次数；

步骤4.输入甲骨刻辞图像训练集和人工已标注的每幅训练图像的甲骨文字区域坐标集、甲骨文字区域标签集，并将训练集中所有图像的状态重新设置为“未处理”，采用贪心策略对深度卷积神经网络N_obc进行第二次迁移训练；

步骤4.1对于训练集中的每幅图像T及其人工已标注的甲骨文字区域坐标集C_ref和甲骨文字区域标签集C_label，令迭代次数iter←1，执行步骤4.2～4.3；

步骤4.2执行步骤2.2～步骤2.10，计算得到甲骨文字区域的预测损失TotalLoss；

步骤4.3若训练集中的所有图像均已处理完毕，则转入步骤4.4，否则从训练集中取出一幅未处理的图像，令其为T，返回步骤4.2；

步骤4.4令iter←iter+1，若迭代次数iter>Total_iter_trans，则得到第二次迁移训练后的深度卷积神经网络N_obc，转入步骤5，否则利用基于随机梯度下降法的反向误差传播算法和预测损失TotalLoss更新N_obc的Trans1层的参数，并保持N_obc的Inception1、Attention1、Conv1、Conv2、Attention2、Conv3、LM1、Conv4层的参数不变，返回步骤4.2重新处理训练集中的所有图像；

步骤5.输入甲骨刻辞图像训练集和人工已标注的每幅训练图像的甲骨文字区域坐标集、甲骨文字区域标签集，并将训练集中所有图像的状态重新设置为“未处理”，采用贪心策略对深度卷积神经网络N_obc进行第三次迁移训练；

步骤5.1对于训练集中的每幅图像T及其人工已标注的甲骨文字区域坐标集C_ref和甲骨文字区域标签集C_label，令迭代次数iter←1，执行步骤5.2～5.3；

步骤5.2执行步骤2.2～步骤2.10，计算得到甲骨文字区域的预测损失TotalLoss；

步骤5.3若训练集中的所有图像均已处理完毕，则转入步骤5.4，否则从训练集中取出一幅未处理的图像，令其为T，返回步骤5.2；

步骤5.4令iter←iter+1，若迭代次数iter>Total_iter_trans，则得到第三次迁移训练后的深度卷积神经网络N_obc，转入步骤6，否则利用基于随机梯度下降法的反向误差传播算法和预测损失TotalLoss更新N_obc的Attention1层和Attention2层的参数，并保持N_obc的Trans1、Inception1、Conv1、Conv2、Conv3、LM1、Conv4层的参数不变，返回步骤5.2重新处理训练集中的所有图像；

步骤6.输入待处理的甲骨刻辞图像I，其颜色空间为RGB，采用已完成训练的深度卷积神经网络N_obc检测I中的甲骨文字区域；

步骤6.1将I的颜色空间从RGB转换到HSV，并将其V分量记为I_V；

步骤6.2采用最大类间方差法计算I_V的最优全局阈值，并将I_V进行二值化，保持I的饱和度分量I_S和色调分量I_H不变；

步骤6.3利用多条件连通区域填充算法对I_V进行处理，得到图像I的粗去噪结果；

步骤6.3.1采用尺寸为10×10像素的矩形结构元素，对I_V施加形态学开运算，并标记出全部的8-连通区域，令8-连通区域的总数为N_c；

步骤6.3.2采用OpenCV的contourArea方法，计算第i(1≤i≤N_c)个8-连通区域的面积与图像总面积的比值S_i；

步骤6.3.3采用OpenCV的convexHull方法，计算第i个8-连通区域的凸包，进而利用contourArea方法计算第i个8-连通区域的轮廓面积与其凸包面积的比值K_i；

步骤6.3.4采用OpenCV的approxPolyDP多边拟合方法，计算第i个8-连通区域的多边形逼近角点数N_i；

步骤6.3.5对于第i个8-连通区域，若其满足K_i<0.4，或S_i<0.001，或0.002<S_i<0.014，或N_i>12且S_i<0.05，则将该8-连通区域用黑色像素进行填充；

步骤6.3.6将处理后的I_V分量与饱和度分量I_S、色调分量I_H从HSV颜色空间转换到RGB空间，令所得图像为I′；

步骤6.4采用子网络N_feature提取图像I′的特征图；

步骤6.4.1利用卷积层Trans1对图像I′进行计算，得到F_trans；

步骤6.4.2利用卷积层Inception1对F_trans进行计算，得到卷积特征图F₁；

步骤6.4.3利用文本注意力模块Attention1对卷积特征图F₁进行计算，得到叠加注意力的卷积特征图F_A1；

步骤6.4.3.1利用Attention1_Unit_Conv_1对F₁进行处理，得到特征图F_{1_A1_Conv1}，再分别利用Attention1_Unit_Conv_2_r1、Attention1_Unit_Conv_2_r3、Attention1_Unit_Conv_2_r5和Attention1_Unit_Conv_2_r7对F_{1_A1_Conv1}进行计算，得到特征图F_{1_A1_Conv2_r1}、F_{1_A1_Conv2_r3}、F_{1_A1_Conv2_r5}和F_{1_A1_Conv2_r7}；

步骤6.4.3.2对F_{1_A1_Conv2_r1}、F_{1_A1_Conv2_r3}、F_{1_A1_Conv2_r5}和F_{1_A1_Conv2_r7}进行连接操作，得到特征图F_{1_A1_C}，再利用Attention1_Unit_Conv_3层对F_{1_A1_C}做卷积操作，得到特征图F_{1_A1_DEC}，再根据公式(5)计算得到融合注意力的特征图F_A1；

步骤6.4.4利用卷积层Conv1对卷积特征图F_A1进行池化和卷积运算，得到更大尺度下的卷积特征图F₂；

步骤6.4.5利用卷积层Conv2对卷积特征图F₂进行池化和卷积运算，得到更大尺度下的卷积特征图F₃；

步骤6.4.6利用文本注意力模块Attention2对特征图F₃进行计算，得到叠加注意力的卷积图F_A2；

步骤6.4.6.1利用Attention2_Unit_Conv_1对特征图F₃进行处理，得到特征图F_{3_A2_Conv1}，再分别利用Attention2_Unit_Conv_2_r1、Attention2_Unit_Conv_2_r3、Attention2_Unit_Conv_2_r5和Attention2_Unit_Conv_2_r7对F_{3_A2_Conv1}进行卷积计算，得到特征图F_{3_A2_Conv2_r1}、F_{3_A2_Conv2_r3}、F_{3_A2_Conv2_r5}和F_{3_A2_Conv2_r7}；

步骤6.4.6.2对F_{3_A2_Conv2_r1}、F_{3_A2_Conv2_r3}、F_{3_A2_Conv2_r5}和F_{3_A2_Conv2_r7}进行连接操作，得到特征图F_{3_A2_C}，再利用Attention2_Unit_Conv_3对F_{3_A2_C}做卷积操作，得到特征图F_{3_A2_DEC}，进而根据公式(6)计算得到融合注意力的特征图F_A2；

步骤6.4.7利用卷积层Conv3对卷积特征图F_A2进行池化和卷积运算，得到更大尺度下的卷积特征图F₄；

步骤6.4.8利用方向滤波器组层LM1对卷积特征图F₄进行多尺度方向滤波，得到多方向边缘特征图F_LM；

步骤6.4.9利用卷积层Conv4对多方向边缘特征图F_LM进行池化和卷积运算，得到更大尺度下的卷积特征图F₅；

步骤6.5采用子网络N_rpn选取图像I′的候选甲骨文字区域；

步骤6.5.1利用卷积层RpnConv对卷积特征图F₅进行卷积运算，得到初始区域建议结果R_init；

步骤6.5.2利用卷积层RpnPred对初始区域建议结果R_init进行处理，得到区域建议的预测集合R_pred；

步骤6.5.3利用卷积层RpnScore对初始区域建议结果R_init进行处理，然后经过softmax激活函数，计算得到区域建议的可能性评估结果集合R_score；

步骤6.5.4根据R_pred和R_score，利用非极大值抑制方法获得甲骨文字的候选区域集合R_ROIs，并相应地更新可能性评估结果集合R_score；

步骤6.6对于甲骨文字的候选区域集合R_ROIs的每个候选甲骨文字区域R_ROI，采用子网络N_dim提取该区域的卷积特征图；

步骤6.6.1将每个候选甲骨文字区域R_ROI作为掩码，提取出卷积特征图F₅中处于该区域的卷积特征子图F′₅；

步骤6.6.2采用剪裁池化层CropPool将卷积特征子图F′₅缩放变换为14×14像素，得到尺寸归一化后的卷积特征子图F″₅；

步骤6.6.3按照光栅扫描的顺序，将卷积特征子图F″₅拉伸成长度为25088的一维向量F_1d；

步骤6.6.4利用全连接层Fc1对F_1d进行全连接运算，得到一维向量F′₆；

步骤6.6.5利用全连接层Fc2对F′₆进行全连接运算，得到一维向量F′_1d；

步骤6.7对于R_ROIs的每个候选甲骨文字区域R_ROI，根据R_ROI所对应的一维向量F′_1d，采用子网络N_cls对其进行分类，计算得到其候选框的顶点坐标集合、分类置信度向量和分类预测结果；

步骤6.7.1利用全连接层Fc3对一维向量F′_1d进行处理，得到候选区域的顶点坐标集合B′_pred；

步骤6.7.2利用全连接层Fc4对一维向量F′_1d进行处理，得到候选甲骨文字区域R_ROI的分类置信度向量S_cls，再经过softmax激活函数，得出最终的分类预测结果S′_pred；

步骤6.7.3若分类预测结果S′_pred为“甲骨文字区域”，则保留R_ROI，否则从R_ROIs中将R_ROI删除，从R_score中删除R_ROI所对应的评分，并删除顶点坐标集合B′_pred；

步骤6.8根据R_ROIs中每个候选文字区域R_ROI的顶点坐标及其评分结果，利用非极大值抑制算法去除重叠的候选框，进而获得最终的甲骨文字区域的顶点坐标集合B_final，并更新可能性评估结果集合R_score；

步骤6.9根据顶点坐标集合B_final和可能性评估结果集合R_score，在待处理图像I上绘制矩形候选框及其置信度，并输出带有框选标记的结果图像。

本发明与现有技术相比，具有如下优点：第一，引进迁移学习策略，在特征提取网络的前端和末端各自设置一组可训练卷积层，并通过逐层冻结的训练方式，兼顾实现了浅层特征和高层特征的知识迁移，从而保证特征提取网络能够有效反映图像在不同方向、不同尺度上的纹理特征，尤其是引导网络学习得到文字区域的差异性纹理特征，抑制网络对非文字区域特征的响应；第二，将一组由三层堆叠的可训练卷积层组成的卷积层组作为特征提取网络的前端，采用迁移学习方式完成训练，有利于为后续网络提供纹理更丰富、辨识度更高的关于点状噪声、钻凿坑洞、灼烧裂痕、文字笔画线素等浅层的甲骨边缘特征；第三，在特征提取网络的次末端，利用Leung-Malik方向滤波器组在不同尺度下、沿着不同方向对特征提取网络前端所获取的边缘特征进行自适应分解，得到方向更加丰富的文字笔画线素，有效增强了网络对甲骨卜辞文字的角度自适应能力；第四，将Leung-Malik方向分解的结果输入特征提取网络末端的可训练卷积层组，引导其产生辨识度更强的高层边缘语义特征，有利于提高网络对文字区域的检测精度并抑制非文字区域对检测结果的干扰，从而提高检测过程对龟甲、兽骨的点状噪声、片状斑纹和固有纹理等干扰的鲁棒性。因此，本发明具有准确性高、鲁棒性好、方向自适应能力强等优点，能够有效抵抗龟甲和兽骨所存在的点状噪声、钻凿坑洞、灼烧裂痕的干扰，适应契刻过程所引起的文字行列分布规律不明显、线素方向复杂多变等特点，其平均查全率达到90.41％，平均查准率达到了84.65％，整体F1值为87.44％。

附图说明

图1是本发明对不同甲骨拓片图像的文字检测结果图。

具体实施方式

本发明的LM滤波器组引导纹理特征自主学习的甲骨文字检测方法，按照如下步骤进行；

其中，“·”表示内积运算，C_inception表示一个预设的常量；

G′＝G_xcosθ+G_ysinθ (2)

G″＝G_xxcos²θ+G_yysin²θ-2G_xycosθsinθ (3)

高斯滤波器包含4个滤波尺度，分别为

在本实施例中，令

步骤2.5采用子网络N_feature提取图像T′的特征图；

步骤2.5.1利用卷积层Trans1对T′进行计算，得到TF_trans；

其中，“σ”表示Sigmoid函数，

表示矩阵的逐元素乘法；

步骤2.6采用子网络N_rpn选取图像T′的候选甲骨文字区域；

Loss＝Loss₁+Loss₂+Loss₃+Loss₄ (7)

RLoss＝||Loss₁||₁+||Loss₂||₁+||Loss₃||₁+||Loss₄||₁ (8)

TotalLoss＝Loss+RLoss (9)

其中，||·||₁表示L₁-范数；

步骤6.1将I的颜色空间从RGB转换到HSV，并将其V分量记为I_V；

步骤6.4采用子网络N_feature提取图像I′的特征图；

步骤6.4.1利用卷积层Trans1对图像I′进行计算，得到F_trans；

步骤6.5采用子网络N_rpn选取图像I′的候选甲骨文字区域；

从《甲骨文合集》中选取1000幅甲骨卜辞文字拓片图像，分别采用Corner方法、CTPN方法、EAST方法、Mask TextSpotter方法、TextFuse方法和本发明进行甲骨卜辞文字检测得到的平均查全率、平均查准率和平均F1值结果如表1。各种方法对不同甲骨卜辞拓片图像的文字检测结果如图1(a)～(f)所示，其中，图1(a)为Corner方法的检测结果，图1(b)为CTPN方法的检测结果，图1(c)为EAST方法的检测结果，图1(d)为Mask TextSpotter方法的检测结果，图1(e)为TextFuse方法的检测结果，图1(f)为本发明的检测结果。

从表1可见，尽管CTPN、EAST、Corner、Mask TextSpotter和TextFuse能在自然场景下对现代文字取得优良的检测精度，可是由于它们无法适应甲骨拓片图像的特征并有效捕获甲骨卜辞文字的特点，其查全率、查准率和F1值均不能令人满意。第一，Corner方法和EAST方法受到龟甲和兽骨上的点状噪声、片状斑纹和固有纹理的严重干扰，并且没有充分发掘甲骨文字的本质特征，其查全率、查准率和F1值均低于10％。第二，Mask TextSpotter方法仅对10个阿拉伯数字和26个英文字母能取得较好的检测效率，却无法有效处理甲骨卜辞文字，并且由于忽略了全局上下文，总是基于有限的视觉信息来完成检测，它容易在点状噪声和片状斑纹的影响下产生较多的虚警现象，其查全率、查准率和F1值平均只达到了21.99％。第三，CTPN方法将文本检测转化为了若干个较小尺度下的文本检测，使得甲骨卜辞文字和噪声之间更加具有更强的可分性，从而在一定程度上克服了各类噪声的影响，但是它对非水平方向的文本检测效果却并不理想，将查全率、查准率和F1值平均仅达到32.88％。第四，尽管TextFuse方法综合利用了字符级别的、单词级别的、全局级别的多层次特征，可是它仍旧无法将甲骨卜辞文字从复杂的噪声背景中有效提取出来，其查全率、查准率和F1值平均只达到了43.00％。第五，本发明在特征提取网络的前端和末端各自设置一组可训练卷积层，并在Leung-Malik方向滤波器组的引导下通过逐层冻结的训练方式，兼顾实现了浅层特征和高层特征的知识迁移，从而保证特征提取网络能够有效反映图像在不同方向、不同尺度上的纹理特征，充分发掘甲骨刻辞文字与固有纹理、噪声的边缘特征差异对两者进行有效区分，抑制网络对非文字区域特征的响应，提高了检测过程对点状噪声、片状斑纹、固有纹理干扰和文字倾斜角度的鲁棒性；同时，本发明利用渐进宽度的卷积层来自适应地为不同尺寸的文字适配卷积核，获得不同尺度的边缘特征的自适应权重，实现多尺度稀疏边缘特征的加权融合和最优的图像边缘表征，进而对字号变化、文字倾斜和噪声干扰表现出更好的鲁棒性。因此，本发明的查全率、查准率和F1值平均达到了87.50％，显著高于CTPN、EAST、Corner、Mask TextSpotter和TextFuse方法。

从图1可见，对于(a)～(f)中前两列所示的、检测难度较低的待检测甲骨拓片图像，除EAST方法以外的其他方法都能获得有效的检测结果，而本发明的查全率与查准率表现最佳，能够准确地标记出每一个甲骨单字的区域；对于(a)～(f)中后三列所示的含有齿缝、盾纹、片状噪声和坑洞等复杂干扰的待检测图像，Corner、CTPN、EAST和MaskTextSpotter方法普遍表现出较差的鲁棒性，检测结果均不理想，甚至在个别图像上完全无法定位到甲骨卜辞文字，而本发明则检测出了全部28个甲骨文字中的27个，其查全率高达96.43％，查准率达到了100％。

综合表1和图1可见，本发明能够有效抵抗龟甲和兽骨所存在的点状噪声、钻凿坑洞、灼烧裂痕的干扰，适应文字行列分布规律不明显、线素方向复杂多变等特点，准确地检测出甲骨卜辞拓片图像中的文字区域，其检测精度明显高于CTPN、EAST、Corner、MaskTextSpotter和TextFuse等代表性方法，为提高后续的甲骨文字自动分割和识别的精度奠定了坚实基础。

表1不同方法的甲骨卜辞文字检测结果比较