CN117809318B

CN117809318B - 基于机器视觉的甲骨文识别方法及其系统

Info

Publication number: CN117809318B
Application number: CN202410233869.4A
Authority: CN
Inventors: 洪鑫亮
Original assignee: Weishan Tongtong Electronic Information Technology Co ltd
Current assignee: Weishan Tongtong Electronic Information Technology Co ltd
Priority date: 2024-03-01
Filing date: 2024-03-01
Publication date: 2024-05-28
Anticipated expiration: 2044-03-01
Also published as: CN117809318A

Abstract

本发明公开了基于机器视觉的甲骨文识别方法及其系统，方法包括数据采集、数据预处理、图像增强、建立甲骨文识别模型和甲骨文识别。本发明属于文字识别技术领域，具体是指基于机器视觉的甲骨文识别方法及其系统，本方案建立双U‑Net模型，分别完成去噪过程中噪声的预测和数据分布的变换，在上采样阶段将相应位置的特征图进行通道连接，使用组归一化代替批量归一化操作，在骨干层和下采样层的每个残差块之后都使用了Dropout层；建立的模型每个空间核在两个独立的分支中独立地卷积输入图像，通过生成的特征图中的神经元直接捕获两个相距很远的像素之间的相关性，通过特征组合和底部分支处理，提取全局时空特征。

Description

基于机器视觉的甲骨文识别方法及其系统

技术领域

本发明涉及文字识别技术领域，具体是指基于机器视觉的甲骨文识别方法及其系统。

背景技术

甲骨文识别方法主要是通过计算机视觉和人工智能技术的应用，实现对甲骨文图像的自动化分析、翻译和学习，为解读和研究甲骨文提供支持和帮助。但是一般甲骨文识别过程中存在原始图像不清晰，存在噪声，从而影响图像的可读性，使得图像在后续处理和识别任务准确性降低的问题；一般甲骨文识别模型存在无法捕捉全局时空相关性，提取多尺度和上下文感知特征能力差，从而导致模型识别准确率低的问题。

发明内容

针对上述情况，为克服现有技术的缺陷，本发明提供了基于机器视觉的甲骨文识别方法及其系统，针对一般甲骨文识别过程中存在原始图像不清晰，存在噪声，从而影响图像的可读性，使得图像在后续处理和识别任务准确性降低的问题，本方案建立双U-Net模型，分别完成去噪过程中噪声的预测和数据分布的变换，在上采样阶段将相应位置的特征图进行通道连接，提高网络的恢复能力，减少特征损失；使用组归一化代替批量归一化操作，以避免批量归一化的影响；在骨干层和下采样层的每个残差块之后都使用了Dropout层，以避免模型的过拟合问题；每个x_t和t都与训练好的数据分布转换网络一起输入，并与y_t相加，以避免神经网络训练过程的随机性；提高网络的恢复能力和减少特征损失，确保网络的处理能力；针对一般甲骨文识别模型存在无法捕捉全局时空相关性，提取多尺度和上下文感知特征能力差，从而导致模型识别准确率低的问题，本方案所建立的模型每个空间核在两个独立的分支中独立地卷积输入图像，通过生成的特征图中的神经元直接捕获两个相距很远的像素之间的相关性；避免批归一化操作的影响以避免模型的过拟合问题；通过特征组合和底部分支处理，提取全局时空特征，使得图像更具有全局上下文信息。

本发明采取的技术方案如下：本发明提供的基于机器视觉的甲骨文识别方法，该方法包括以下步骤：

步骤S1：数据采集；

步骤S2：数据预处理；

步骤S3：图像增强；

步骤S4：建立甲骨文识别模型；

步骤S5：甲骨文识别。

进一步地，在步骤S1中，所述数据采集是采集甲骨文图像数据集，包括不同类型的甲骨文图像。

进一步地，在步骤S2中，所述数据预处理是对采集的图像进行数据集标注和划分数据集。

进一步地，在步骤S3中，所述图像增强是建立双U-Net模型，分别完成去噪过程中噪声的预测和数据分布的变换；模型在经历了五次下采样后，将输入图像的大小从256×256转换为8×8；下采样过程中，使用残差模块来提取输入图像的特征信息，并在上采样阶段将相应位置的特征图进行通道拼接；主干层中包含两个残差块，每个残差块包含一个单步卷积层；在图像恢复过程中，使用了五个上采样步骤逐渐完成；模型使用了分组归一化；此外，在主干层和下采样层的每个残差块之后，使用了Dropout层；具体包括以下内容：

步骤S31：降级处理，对降质图像x₀和参考图像y₀降级处理，基于权重对图像进行缩放，并加入噪声项，所用公式如下：

；

式中，x_t和y_t分别是经过t步降级的x₀和y₀的图像；是降级权重；δ是服从均值为 0、协方差矩阵为单位矩阵的高斯分布N(0，I)的随机噪声；

步骤S32：设计去噪网络的损失函数，对于去噪网络，为了近似估计p_θ(x_t-1|x_t,x₀)，即在给定当前降质图像x_t和初始降质图像x₀的情况下，对前一步降级图像x_t-1的条件概率分布，去噪网络通过预测随机噪声来优化参数θ，损失函数表示如下：

；

式中，loss_θ是去噪网络的损失函数;是对所有降质图像x₀、随机噪声δ和步数t的期望值；是去噪网络预测的噪声项；是L2范数的平方；

步骤S33：设计数据分布转换网络的损失函数，数据分布转换网络通过学习将输入数据的分布转换为输出数据的分布，表示如下：

；

式中，是数据分布转换网络的损失函数；是在x_t和时间t 上通过取得的图像与参考图像之间的差异；

步骤S34：训练去噪模型和转换模型，包括：

步骤S341：随机选择(x₀,y₀)；选择满足N(0，I)；计算梯度以更新参数θ，所用公式如下：

；

式中，表示去噪网络基于参数θ，接收x₀作为输入图像，以及经过处理的x₀和/>作为附加输入，根据时间t生成的输出图像；

步骤S342：计算梯度以更新参数，所用公式如下：

；

式中，是数据分布转换网络的输出；

步骤S343：更新参数，训练模型直到模型收敛；

步骤S35：初步增强，将x₀作为条件输入到去噪网络中；经过训练的去噪网络网络预测时刻t的噪声分布；使用参数重构方法，逐步从x_t生成x₁，x₁是重构图像；每个x_t和t都与训练好的数据分布转换网络一起输入，并与y_t相加；经过去噪网络和数据分布转换网络生成的增强图像满足正态分布，表示如下：

；

式中，是经过去噪网络和数据分布转换网络生成的初步增强图像；/>表示生成的增强图像满足正态分布，/>表示生成图像的均值，/>表示生成图像的方差；

步骤S36：重新组合，使用裁剪策略将像素限制在[-1，1]的范围内以生成高质量的增强图像；在每次去噪网络和数据分布转换网络输出叠加之后进行分布重新组合，表示如下：

；

式中，是经过分布重新组合后的增强图像；μ_t是在每次去噪网络和数据分布转换网络输出叠加之后进行分布重新组合的均值；/>是α_t的均值。

进一步地，在步骤S4中，所述建立甲骨文识别模型具体包括以下步骤：

步骤S41：卷积层设计，卷积层对特征图上的局部特征区域进行加权求和，其中滑动的卷积核与局部区域共享权重，表示如下：

；

式中，是卷积操作后在第l层中的第j个输出特征图；是偏置项；是第l-1层的输入特征图中的第i个特征图；是应用在第l层上用于生成第j个输出特征图的卷积核，i是输入特征图索引，j是输出特征图索引；和分别是第l-1层和第l层的通道数，即卷积核数量；是卷积操作；

步骤S42：池化层设计，池化作为子采样步骤，在保留主要信息的同时降低维数；对输入特征映射上的每个局部区域进行平均池化，表示如下：

；

式中，是平均池化操作后在第l层中的第i个输出特征图；average(·)表示将输入特征映射上的每个局部区域进行平均池化操作；表示第l-1层中的第i个输入特征图上的第r个局部区域；S是总区域数；

步骤S43：批归一化并恢复特征表示，批归一化用以缓解内部协变量偏移，表示如下：

；

式中，是归一化后的第l-1层的第i个输入特征图；E[·]是对训练批次和像素位置的期望；Var[·]是取方差；是批归一化的输出；是缩放参数；是平移参数；

步骤S44：全连接层设计，用以接受来自卷积和池化层生成的特征图向量化，表示如下：

；

式中，是表示在第l层中的第z个神经元的输出；是第l层中的第z个神经元的偏置参数；是第l层中的第z个神经元与前一层特征之间的连接权重；Z是神经元数量；

步骤S45：整体映射，所建立的模型基于3×3的卷积核通过卷积操作从输入图像中提取局部特征；应用批归一化来标准化数据，基于批归一化操作计算输入特征图的均值和方差，并对特征图进行归一化处理；输入图像被填充以保持尺寸一致；从输入图像到顶部分支的输出特征图的整体映射表示如下：

；

式中，是顶部分支生成的特征图；max(·)是逐元素应用的最大操作符；是在输入图像上应用的卷积和批归一化操作，X⁰是输入图像，是所有训练参数；

步骤S46：底部架构设计，底部架构考虑了全局相关性，通过使用空间分离的1D卷积核和随后的外积运算，产生具有全局时空相关性嵌入的特征图，具体而言，采用了两个不同的1D卷积核来处理输入图像，其中一个卷积核与输入图像的高度相同，另一个卷积核与输入图像的宽度相同，这两个卷积核分别在输入图像上进行卷积操作，生成两个不同的特征图，表示如下：

；

式中，和分别是垂直方向和水平方向的特征图；和分别是垂直方向和水平方向的偏置项；和分别是垂直方向和水平方向的权重参数；是底部分支的输出通道数；

步骤S47：特征组合，为提取全局时空特征，通过外积将获得的特征图组合起来，以得到2D形式的新特征，表示如下：

；

式中，是通过向量外积产生的特征图；是向量外积操作；

步骤S48：底部分支处理，在ReLU激活之前应用批归一化，表示如下；

；

式中，是底部分支的特征图；是底部分支中批归一化的实现函数；

步骤S49：平均池化，采用2×2的池化区域和步幅为2的平均池化来减小每个空间维度的大小一半；在应用平均池化之前，首先对来自局部和全局分支的特征图进行通道级的拼接，表示如下：

；

式中，是合并后的特征图；和分别是局部分支和全局分支的特征图；是生成的特征图；(·)是参数化所确定的整个映射；是维度为( 的张量，其中c_L表示局部特征图的通道数，c_G表示全局特征图的通道数，n和m分别表示特征图的高度和宽度；是维度为的张量，其中c表示通道数；

步骤S410：分类，全局平均池化产生一个与最后一个3×3卷积中的通道数相同长度的向量；随后，将生成的向量输入到全连接层中进行分类；浅层神经网络被部署为仅具有输入和输出层的全连接分类器；最后，softmax激活为输出层的每个类别分配概率，其中具有最高概率的类别被视为输入数据的最终分类，表示如下：

；

式中，是模型预测输出；是全连接层函数；是对输入特征图Γ进行全局平均池化操作；R^C是一个C维的向量空间，表示具有C个类别的输出空间。

进一步地，在步骤S5中，所述甲骨文识别是利用训练完成的甲骨文识别模型，实时采集甲骨文图像，在经过预处理和图像增强后，输入至甲骨文识别模型中，模型输出甲骨文所属类别。

本发明提供的基于机器视觉的甲骨文识别系统，包括数据采集模块、数据预处理模块、图像增强模块、甲骨文识别模型建立模块和甲骨文识别模块；

所述数据采集模块采集甲骨文图像数据集，并将数据发送至数据预处理模块；

所述数据预处理模块对采集的图像进行数据集标注和划分数据集，并将数据发送至图像增强模块；

所述图像增强模块建立双U-Net模型，分别完成去噪过程中噪声的预测和数据分布的变换，并将数据发送至甲骨文识别模型建立模块；

所述甲骨文识别模型建立模块通过特征组合和底部分支处理，提取全局时空特征，以此构建甲骨文识别模型，并将数据发送至甲骨文识别模块；

所述甲骨文识别模块利用训练完成的甲骨文识别模型，对实时采集甲骨文图像识别类别。

采用上述方案本发明取得的有益效果如下：

（1）针对一般甲骨文识别过程中存在原始图像不清晰，存在噪声，从而影响图像的可读性，使得图像在后续处理和识别任务准确性降低的问题，本方案建立双U-Net模型，分别完成去噪过程中噪声的预测和数据分布的变换，在上采样阶段将相应位置的特征图进行通道连接，提高网络的恢复能力，减少特征损失；使用组归一化代替批量归一化操作，以避免批量归一化的影响；在骨干层和下采样层的每个残差块之后都使用了Dropout层，以避免模型的过拟合问题；每个x_t和t都与训练好的数据分布转换网络一起输入，并与y_t相加，以避免神经网络训练过程的随机性；提高网络的恢复能力和减少特征损失，确保网络的处理能力。

（2）针对一般甲骨文识别模型存在无法捕捉全局时空相关性，提取多尺度和上下文感知特征能力差，从而导致模型识别准确率低的问题，本方案所建立的模型每个空间核在两个独立的分支中独立地卷积输入图像，通过生成的特征图中的神经元直接捕获两个相距很远的像素之间的相关性；避免批归一化操作的影响以避免模型的过拟合问题；通过特征组合和底部分支处理，提取全局时空特征，使得图像更具有全局上下文信息。

附图说明

图1为本发明提供的基于机器视觉的甲骨文识别方法的流程示意图；

图2为本发明提供的基于机器视觉的甲骨文识别系统的示意图；

图3为步骤S3的流程示意图；

图4为步骤S4的流程示意图。

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

实施例一，参阅图1，本发明提供的基于机器视觉的甲骨文识别方法，该方法包括以下步骤：

步骤S1：数据采集，采集甲骨文图像数据集；

步骤S2：数据预处理，对采集的图像进行数据集标注和划分数据集；

步骤S3：图像增强，建立双U-Net模型，分别完成去噪过程中噪声的预测和数据分布的变换；

步骤S4：建立甲骨文识别模型，通过特征组合和底部分支处理，提取全局时空特征，以此构建甲骨文识别模型；

步骤S5：甲骨文识别。

实施例二，参阅图1，该实施例基于上述实施例，在步骤S1中，甲骨文图像数据集包括不同类型的甲骨文图像，包括甲骨骨片和甲骨铭文；图像具有不同的大小、形状、旋转和光照条件。

实施例三，参阅图1，该实施例基于上述实施例，在步骤S2中，数据集标注是对采集到的甲骨文图像进行人工标注，标注每个图像中的甲骨文部分的位置和内容；划分数据集是将数据集划分为训练集、验证集和测试集；训练集用于模型的训练，验证集用于调整模型的超参数和监控模型的训练进度，测试集用于评估模型的性能和泛化能力。

实施例四，参阅图1和图3，该实施例基于上述实施例，在步骤S3中，图像增强是建立双U-Net模型，分别完成去噪过程中噪声的预测和数据分布的变换；模型在经历了五次下采样后，将输入图像的大小从256×256转换为8×8；下采样过程中，使用残差模块来提取输入图像的特征信息，并在上采样阶段将相应位置的特征图进行通道拼接；主干层中包含两个残差块，每个残差块包含一个单步卷积层；在图像恢复过程中，使用了五个上采样步骤逐渐完成；模型使用了分组归一化；此外，在主干层和下采样层的每个残差块之后，使用了Dropout层；具体包括以下内容：

；

步骤S34：训练去噪模型和转换模型，包括：

；

步骤S342：计算梯度以更新参数，所用公式如下：

；

式中，是数据分布转换网络的输出；

步骤S343：更新参数，训练模型直到模型收敛；

；

通过执行上述操作，针对一般甲骨文识别过程中存在原始图像不清晰，存在噪声，从而影响图像的可读性，使得图像在后续处理和识别任务准确性降低的问题，本方案建立双U-Net模型，分别完成去噪过程中噪声的预测和数据分布的变换，在上采样阶段将相应位置的特征图进行通道连接，提高网络的恢复能力，减少特征损失；使用组归一化代替批量归一化操作，以避免批量归一化的影响；在骨干层和下采样层的每个残差块之后都使用了Dropout层，以避免模型的过拟合问题；每个x_t和t都与训练好的数据分布转换网络一起输入，并与y_t相加，以避免神经网络训练过程的随机性；提高网络的恢复能力和减少特征损失，确保网络的处理能力。

实施例五，参阅图1和图4，该实施例基于上述实施例，在步骤S4中，建立甲骨文识别模型具体包括以下步骤：

；

式中，是通过向量外积产生的特征图；是向量外积操作；

；

通过执行上述操作，针对一般甲骨文识别模型存在无法捕捉全局时空相关性，提取多尺度和上下文感知特征能力差，从而导致模型识别准确率低的问题，本方案所建立的模型每个空间核在两个独立的分支中独立地卷积输入图像，通过生成的特征图中的神经元直接捕获两个相距很远的像素之间的相关性；避免批归一化操作的影响以避免模型的过拟合问题；通过特征组合和底部分支处理，提取全局时空特征，使得图像更具有全局上下文信息。

实施例六，参阅图1，该实施例基于上述实施例，在步骤S5中，甲骨文识别是利用训练完成的甲骨文识别模型，实时采集甲骨文图像，在经过预处理和图像增强后，输入至甲骨文识别模型中，模型输出甲骨文所属类别。

实施例七，参阅图2，该实施例基于上述实施例，本发明提供的基于机器视觉的甲骨文识别系统，包括数据采集模块、数据预处理模块、图像增强模块、甲骨文识别模型建立模块和甲骨文识别模块；

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型。

以上对本发明及其实施方式进行了描述，这种描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.基于机器视觉的甲骨文识别方法，其特征在于：该方法包括以下步骤：

步骤S1：数据采集,采集甲骨文图像数据集；

步骤S2：数据预处理,对采集的图像进行数据集标注和划分数据集；

步骤S3：图像增强,建立双U-Net模型，分别完成去噪过程中噪声的预测和数据分布的变换；模型在经历了五次下采样后，将输入图像的大小从256×256转换为8×8；下采样过程中，使用残差模块来提取输入图像的特征信息，并在上采样阶段将相应位置的特征图进行通道拼接；主干层中包含两个残差块，每个残差块包含一个单步卷积层；在图像恢复过程中，使用了五个上采样步骤逐渐完成；模型使用了分组归一化；此外，在主干层和下采样层的每个残差块之后，使用了Dropout层；

步骤S4：建立甲骨文识别模型,通过特征组合和底部分支处理，提取全局时空特征，以此构建甲骨文识别模型；

步骤S5：甲骨文识别,利用训练完成的甲骨文识别模型,模型输出甲骨文所属类别；

在步骤S4中，所述建立甲骨文识别模型具体包括以下步骤：

；

式中，是卷积操作后在第l层中的第j个输出特征图；/>是偏置项；/>是第l-1层的输入特征图中的第i个特征图；/>是应用在第l层上用于生成第j个输出特征图的卷积核，i是输入特征图索引，j是输出特征图索引；/>和/>分别是第l-1层和第l层的通道数，即卷积核数量；/>是卷积操作；

；

式中，是平均池化操作后在第l层中的第i个输出特征图；average(·)表示将输入特征映射上的每个局部区域进行平均池化操作；/>表示第l-1层中的第i个输入特征图上的第r个局部区域；S是总区域数；

；

式中，是归一化后的第l-1层的第i个输入特征图；E[·]是对训练批次和像素位置的期望；Var[·]是取方差；/>是批归一化的输出；/>是缩放参数；/>是平移参数；

；

式中，是表示在第l层中的第z个神经元的输出；/>是第l层中的第z个神经元的偏置参数；/>是第l层中的第z个神经元与前一层特征之间的连接权重；Z是神经元数量；

；

式中，是顶部分支生成的特征图；max(·)是逐元素应用的最大操作符；/>是在输入图像上应用的卷积和批归一化操作，X⁰是输入图像，/>是所有训练参数；

；

式中，和/>分别是垂直方向和水平方向的特征图；/>和/>分别是垂直方向和水平方向的偏置项；/>和/>分别是垂直方向和水平方向的权重参数；/>是底部分支的输出通道数；

；

式中，是通过向量外积产生的特征图；/>是向量外积操作；

；

式中，是底部分支的特征图；/>是底部分支中批归一化的实现函数；

；

式中，是合并后的特征图；/>和/>分别是局部分支和全局分支的特征图；/>是生成的特征图；/>(·)是参数化所确定的整个映射；/>是维度为(/>的张量，其中c_L表示局部特征图的通道数，c_G表示全局特征图的通道数，n和m分别表示特征图的高度和宽度；/>是维度为/>的张量，其中c表示通道数；

；

式中，是模型预测输出；/>是全连接层函数；/>是对输入特征图Γ进行全局平均池化操作；R^C是一个C维的向量空间，表示具有C个类别的输出空间。

2.根据权利要求1所述的基于机器视觉的甲骨文识别方法，其特征在于：在步骤S3中，所述图像增强具体包括以下内容：

；

式中，x_t和y_t分别是经过t步降级的x₀和y₀的图像；是降级权重；δ是服从均值为0、协方差矩阵为单位矩阵的高斯分布N(0，I)的随机噪声；

；

式中，loss_θ是去噪网络的损失函数;是对所有降质图像x₀、随机噪声δ和步数t的期望值；/>是去噪网络预测的噪声项；/>是L2范数的平方；

；

式中，是数据分布转换网络的损失函数；/>是在x_t和时间t上通过取得的图像与参考图像之间的差异；

步骤S34：训练去噪模型和转换模型，包括：

；

步骤S342：计算梯度以更新参数，所用公式如下：

；

式中，是数据分布转换网络的输出；

步骤S343：更新参数，训练模型直到模型收敛；

；

3.根据权利要求1所述的基于机器视觉的甲骨文识别方法，其特征在于：在步骤S1中，所述数据采集是采集甲骨文图像数据集，包括不同类型的甲骨文图像。

4.根据权利要求1所述的基于机器视觉的甲骨文识别方法，其特征在于：在步骤S2中，所述数据预处理是对采集的图像进行数据集标注和划分数据集。

5.根据权利要求1所述的基于机器视觉的甲骨文识别方法，其特征在于：在步骤S5中，所述甲骨文识别是利用训练完成的甲骨文识别模型，实时采集甲骨文图像，在经过预处理和图像增强后，输入至甲骨文识别模型中，模型输出甲骨文所属类别。

6.基于机器视觉的甲骨文识别系统，用于实现如权利要求1-5中任一项所述的基于机器视觉的甲骨文识别方法，其特征在于：包括数据采集模块、数据预处理模块、图像增强模块、甲骨文识别模型建立模块和甲骨文识别模块；