CN117809318B - 基于机器视觉的甲骨文识别方法及其系统 - Google Patents
基于机器视觉的甲骨文识别方法及其系统 Download PDFInfo
- Publication number
- CN117809318B CN117809318B CN202410233869.4A CN202410233869A CN117809318B CN 117809318 B CN117809318 B CN 117809318B CN 202410233869 A CN202410233869 A CN 202410233869A CN 117809318 B CN117809318 B CN 117809318B
- Authority
- CN
- China
- Prior art keywords
- image
- oracle
- feature map
- layer
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 147
- 230000008569 process Effects 0.000 claims abstract description 74
- 238000010606 normalization Methods 0.000 claims abstract description 44
- 238000012545 processing Methods 0.000 claims abstract description 20
- 210000002569 neuron Anatomy 0.000 claims abstract description 16
- 230000009466 transformation Effects 0.000 claims abstract description 14
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims abstract description 13
- 239000000284 extract Substances 0.000 claims abstract description 7
- 238000005070 sampling Methods 0.000 claims abstract description 7
- 238000011176 pooling Methods 0.000 claims description 33
- 238000006243 chemical reaction Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 19
- 238000007781 pre-processing Methods 0.000 claims description 17
- 238000011084 recovery Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 9
- 238000005215 recombination Methods 0.000 claims description 9
- 230000006798 recombination Effects 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 8
- 238000012935 Averaging Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000015556 catabolic process Effects 0.000 claims description 6
- 238000006731 degradation reaction Methods 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000009940 knitting Methods 0.000 claims description 4
- 238000013519 translation Methods 0.000 claims description 4
- 230000000593 degrading effect Effects 0.000 claims description 3
- 238000013213 extrapolation Methods 0.000 claims description 3
- 238000005096 rolling process Methods 0.000 claims description 3
- 210000000988 bone and bone Anatomy 0.000 description 5
- 230000008447 perception Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000013456 study Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了基于机器视觉的甲骨文识别方法及其系统,方法包括数据采集、数据预处理、图像增强、建立甲骨文识别模型和甲骨文识别。本发明属于文字识别技术领域,具体是指基于机器视觉的甲骨文识别方法及其系统,本方案建立双U‑Net模型,分别完成去噪过程中噪声的预测和数据分布的变换,在上采样阶段将相应位置的特征图进行通道连接,使用组归一化代替批量归一化操作,在骨干层和下采样层的每个残差块之后都使用了Dropout层;建立的模型每个空间核在两个独立的分支中独立地卷积输入图像,通过生成的特征图中的神经元直接捕获两个相距很远的像素之间的相关性,通过特征组合和底部分支处理,提取全局时空特征。
Description
技术领域
本发明涉及文字识别技术领域,具体是指基于机器视觉的甲骨文识别方法及其系统。
背景技术
甲骨文识别方法主要是通过计算机视觉和人工智能技术的应用,实现对甲骨文图像的自动化分析、翻译和学习,为解读和研究甲骨文提供支持和帮助。但是一般甲骨文识别过程中存在原始图像不清晰,存在噪声,从而影响图像的可读性,使得图像在后续处理和识别任务准确性降低的问题;一般甲骨文识别模型存在无法捕捉全局时空相关性,提取多尺度和上下文感知特征能力差,从而导致模型识别准确率低的问题。
发明内容
针对上述情况,为克服现有技术的缺陷,本发明提供了基于机器视觉的甲骨文识别方法及其系统,针对一般甲骨文识别过程中存在原始图像不清晰,存在噪声,从而影响图像的可读性,使得图像在后续处理和识别任务准确性降低的问题,本方案建立双U-Net模型,分别完成去噪过程中噪声的预测和数据分布的变换,在上采样阶段将相应位置的特征图进行通道连接,提高网络的恢复能力,减少特征损失;使用组归一化代替批量归一化操作,以避免批量归一化的影响;在骨干层和下采样层的每个残差块之后都使用了Dropout层,以避免模型的过拟合问题;每个xt和t都与训练好的数据分布转换网络一起输入,并与yt相加,以避免神经网络训练过程的随机性;提高网络的恢复能力和减少特征损失,确保网络的处理能力;针对一般甲骨文识别模型存在无法捕捉全局时空相关性,提取多尺度和上下文感知特征能力差,从而导致模型识别准确率低的问题,本方案所建立的模型每个空间核在两个独立的分支中独立地卷积输入图像,通过生成的特征图中的神经元直接捕获两个相距很远的像素之间的相关性;避免批归一化操作的影响以避免模型的过拟合问题;通过特征组合和底部分支处理,提取全局时空特征,使得图像更具有全局上下文信息。
本发明采取的技术方案如下:本发明提供的基于机器视觉的甲骨文识别方法,该方法包括以下步骤:
步骤S1:数据采集;
步骤S2:数据预处理;
步骤S3:图像增强;
步骤S4:建立甲骨文识别模型;
步骤S5:甲骨文识别。
进一步地,在步骤S1中,所述数据采集是采集甲骨文图像数据集,包括不同类型的甲骨文图像。
进一步地,在步骤S2中,所述数据预处理是对采集的图像进行数据集标注和划分数据集。
进一步地,在步骤S3中,所述图像增强是建立双U-Net模型,分别完成去噪过程中噪声的预测和数据分布的变换;模型在经历了五次下采样后,将输入图像的大小从256×256转换为8×8;下采样过程中,使用残差模块来提取输入图像的特征信息,并在上采样阶段将相应位置的特征图进行通道拼接;主干层中包含两个残差块,每个残差块包含一个单步卷积层;在图像恢复过程中,使用了五个上采样步骤逐渐完成;模型使用了分组归一化;此外,在主干层和下采样层的每个残差块之后,使用了Dropout层;具体包括以下内容:
步骤S31:降级处理,对降质图像x0和参考图像y0降级处理,基于权重对图像进行缩放,并加入噪声项,所用公式如下:
;
;
式中,xt和yt分别是经过t步降级的x0和y0的图像;是降级权重;δ是服从均值为
0、协方差矩阵为单位矩阵的高斯分布N(0,I)的随机噪声;
步骤S32:设计去噪网络的损失函数,对于去噪网络,为了近似估计pθ(xt-1|xt,x0),即在给定当前降质图像xt和初始降质图像x0的情况下,对前一步降级图像xt-1的条件概率分布,去噪网络通过预测随机噪声来优化参数θ,损失函数表示如下:
;
式中,lossθ是去噪网络的损失函数;是对所有降质图像x0、随机噪声δ和步
数t的期望值;是去噪网络预测的噪声项;是L2范数的平方;
步骤S33:设计数据分布转换网络的损失函数,数据分布转换网络通过学习将输入数据的分布转换为输出数据的分布,表示如下:
;
式中,是数据分布转换网络的损失函数;是在xt和时间t
上通过取得的图像与参考图像之间的差异;
步骤S34:训练去噪模型和转换模型,包括:
步骤S341:随机选择(x0,y0);选择满足N(0,I);计算梯度以更新参数θ,所用公式如下:
;
式中,表示去噪网络基于参数θ,接收x0作为输入图像,以及经过处理的x0和/>作为附加输入,根据时间t生成的输出图像;
步骤S342:计算梯度以更新参数,所用公式如下:
;
式中,是数据分布转换网络的输出;
步骤S343:更新参数,训练模型直到模型收敛;
步骤S35:初步增强,将x0作为条件输入到去噪网络中;经过训练的去噪网络网络预测时刻t的噪声分布;使用参数重构方法,逐步从xt生成x1,x1是重构图像;每个xt和t都与训练好的数据分布转换网络一起输入,并与yt相加;经过去噪网络和数据分布转换网络生成的增强图像满足正态分布,表示如下:
;
式中,是经过去噪网络和数据分布转换网络生成的初步增强图像;/>表示生成的增强图像满足正态分布,/>表示生成图像的均值,/>表示生成图像的方差;
步骤S36:重新组合,使用裁剪策略将像素限制在[-1,1]的范围内以生成高质量的增强图像;在每次去噪网络和数据分布转换网络输出叠加之后进行分布重新组合,表示如下:
;
;
式中,是经过分布重新组合后的增强图像;μt是在每次去噪网络和数据分布转换网络输出叠加之后进行分布重新组合的均值;/>是αt的均值。
进一步地,在步骤S4中,所述建立甲骨文识别模型具体包括以下步骤:
步骤S41:卷积层设计,卷积层对特征图上的局部特征区域进行加权求和,其中滑动的卷积核与局部区域共享权重,表示如下:
;
式中,是卷积操作后在第l层中的第j个输出特征图;是偏置项;是第l-1层
的输入特征图中的第i个特征图;是应用在第l层上用于生成第j个输出特征图的卷积
核,i是输入特征图索引,j是输出特征图索引;和分别是第l-1层和第l层的通道数,即
卷积核数量;是卷积操作;
步骤S42:池化层设计,池化作为子采样步骤,在保留主要信息的同时降低维数;对输入特征映射上的每个局部区域进行平均池化,表示如下:
;
式中,是平均池化操作后在第l层中的第i个输出特征图;average(·)表示将输
入特征映射上的每个局部区域进行平均池化操作;表示第l-1层中的第i个输入特征图
上的第r个局部区域;S是总区域数;
步骤S43:批归一化并恢复特征表示,批归一化用以缓解内部协变量偏移,表示如下:
;
;
式中,是归一化后的第l-1层的第i个输入特征图;E[·]是对训练批次和像素
位置的期望;Var[·]是取方差;是批归一化的输出;是缩放参数;是平移参数;
步骤S44:全连接层设计,用以接受来自卷积和池化层生成的特征图向量化,表示如下:
;
式中,是表示在第l层中的第z个神经元的输出;是第l层中的第z个神经元的
偏置参数;是第l层中的第z个神经元与前一层特征之间的连接权重;Z是神经元数量;
步骤S45:整体映射,所建立的模型基于3×3的卷积核通过卷积操作从输入图像中提取局部特征;应用批归一化来标准化数据,基于批归一化操作计算输入特征图的均值和方差,并对特征图进行归一化处理;输入图像被填充以保持尺寸一致;从输入图像到顶部分支的输出特征图的整体映射表示如下:
;
式中,是顶部分支生成的特征图;max(·)是逐元素应用的最大操作符;
是在输入图像上应用的卷积和批归一化操作,X0是输入图像,是所有训练参数;
步骤S46:底部架构设计,底部架构考虑了全局相关性,通过使用空间分离的1D卷积核和随后的外积运算,产生具有全局时空相关性嵌入的特征图,具体而言,采用了两个不同的1D卷积核来处理输入图像,其中一个卷积核与输入图像的高度相同,另一个卷积核与输入图像的宽度相同,这两个卷积核分别在输入图像上进行卷积操作,生成两个不同的特征图,表示如下:
;
;
式中,和分别是垂直方向和水平方向的特征图;和分别是垂直方向和
水平方向的偏置项;和分别是垂直方向和水平方向的权重参数;是底部分支的输出
通道数;
步骤S47:特征组合,为提取全局时空特征,通过外积将获得的特征图组合起来,以得到2D形式的新特征,表示如下:
;
式中,是通过向量外积产生的特征图;是向量外积操作;
步骤S48:底部分支处理,在ReLU激活之前应用批归一化,表示如下;
;
式中,是底部分支的特征图;是底部分支中批归一化的实现函数;
步骤S49:平均池化,采用2×2的池化区域和步幅为2的平均池化来减小每个空间维度的大小一半;在应用平均池化之前,首先对来自局部和全局分支的特征图进行通道级的拼接,表示如下:
;
;
式中,是合并后的特征图;和分别是局部分支和全局分支的特征图;是生成
的特征图;(·)是参数化所确定的整个映射;是维度为(
的张量,其中cL表示局部特征图的通道数,cG表示全局特征图的通道数,n和m分别表示特征
图的高度和宽度;是维度为的张量,其中c表示通道数;
步骤S410:分类,全局平均池化产生一个与最后一个3×3卷积中的通道数相同长度的向量;随后,将生成的向量输入到全连接层中进行分类;浅层神经网络被部署为仅具有输入和输出层的全连接分类器;最后,softmax激活为输出层的每个类别分配概率,其中具有最高概率的类别被视为输入数据的最终分类,表示如下:
;
式中,是模型预测输出;是全连接层函数;是对输入特征
图Γ进行全局平均池化操作;RC是一个C维的向量空间,表示具有C个类别的输出空间。
进一步地,在步骤S5中,所述甲骨文识别是利用训练完成的甲骨文识别模型,实时采集甲骨文图像,在经过预处理和图像增强后,输入至甲骨文识别模型中,模型输出甲骨文所属类别。
本发明提供的基于机器视觉的甲骨文识别系统,包括数据采集模块、数据预处理模块、图像增强模块、甲骨文识别模型建立模块和甲骨文识别模块;
所述数据采集模块采集甲骨文图像数据集,并将数据发送至数据预处理模块;
所述数据预处理模块对采集的图像进行数据集标注和划分数据集,并将数据发送至图像增强模块;
所述图像增强模块建立双U-Net模型,分别完成去噪过程中噪声的预测和数据分布的变换,并将数据发送至甲骨文识别模型建立模块;
所述甲骨文识别模型建立模块通过特征组合和底部分支处理,提取全局时空特征,以此构建甲骨文识别模型,并将数据发送至甲骨文识别模块;
所述甲骨文识别模块利用训练完成的甲骨文识别模型,对实时采集甲骨文图像识别类别。
采用上述方案本发明取得的有益效果如下:
(1)针对一般甲骨文识别过程中存在原始图像不清晰,存在噪声,从而影响图像的可读性,使得图像在后续处理和识别任务准确性降低的问题,本方案建立双U-Net模型,分别完成去噪过程中噪声的预测和数据分布的变换,在上采样阶段将相应位置的特征图进行通道连接,提高网络的恢复能力,减少特征损失;使用组归一化代替批量归一化操作,以避免批量归一化的影响;在骨干层和下采样层的每个残差块之后都使用了Dropout层,以避免模型的过拟合问题;每个xt和t都与训练好的数据分布转换网络一起输入,并与yt相加,以避免神经网络训练过程的随机性;提高网络的恢复能力和减少特征损失,确保网络的处理能力。
(2)针对一般甲骨文识别模型存在无法捕捉全局时空相关性,提取多尺度和上下文感知特征能力差,从而导致模型识别准确率低的问题,本方案所建立的模型每个空间核在两个独立的分支中独立地卷积输入图像,通过生成的特征图中的神经元直接捕获两个相距很远的像素之间的相关性;避免批归一化操作的影响以避免模型的过拟合问题;通过特征组合和底部分支处理,提取全局时空特征,使得图像更具有全局上下文信息。
附图说明
图1为本发明提供的基于机器视觉的甲骨文识别方法的流程示意图;
图2为本发明提供的基于机器视觉的甲骨文识别系统的示意图;
图3为步骤S3的流程示意图;
图4为步骤S4的流程示意图。
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
实施例一,参阅图1,本发明提供的基于机器视觉的甲骨文识别方法,该方法包括以下步骤:
步骤S1:数据采集,采集甲骨文图像数据集;
步骤S2:数据预处理,对采集的图像进行数据集标注和划分数据集;
步骤S3:图像增强,建立双U-Net模型,分别完成去噪过程中噪声的预测和数据分布的变换;
步骤S4:建立甲骨文识别模型,通过特征组合和底部分支处理,提取全局时空特征,以此构建甲骨文识别模型;
步骤S5:甲骨文识别。
实施例二,参阅图1,该实施例基于上述实施例,在步骤S1中,甲骨文图像数据集包括不同类型的甲骨文图像,包括甲骨骨片和甲骨铭文;图像具有不同的大小、形状、旋转和光照条件。
实施例三,参阅图1,该实施例基于上述实施例,在步骤S2中,数据集标注是对采集到的甲骨文图像进行人工标注,标注每个图像中的甲骨文部分的位置和内容;划分数据集是将数据集划分为训练集、验证集和测试集;训练集用于模型的训练,验证集用于调整模型的超参数和监控模型的训练进度,测试集用于评估模型的性能和泛化能力。
实施例四,参阅图1和图3,该实施例基于上述实施例,在步骤S3中,图像增强是建立双U-Net模型,分别完成去噪过程中噪声的预测和数据分布的变换;模型在经历了五次下采样后,将输入图像的大小从256×256转换为8×8;下采样过程中,使用残差模块来提取输入图像的特征信息,并在上采样阶段将相应位置的特征图进行通道拼接;主干层中包含两个残差块,每个残差块包含一个单步卷积层;在图像恢复过程中,使用了五个上采样步骤逐渐完成;模型使用了分组归一化;此外,在主干层和下采样层的每个残差块之后,使用了Dropout层;具体包括以下内容:
步骤S31:降级处理,对降质图像x0和参考图像y0降级处理,基于权重对图像进行缩放,并加入噪声项,所用公式如下:
;
;
式中,xt和yt分别是经过t步降级的x0和y0的图像;是降级权重;δ是服从均值为
0、协方差矩阵为单位矩阵的高斯分布N(0,I)的随机噪声;
步骤S32:设计去噪网络的损失函数,对于去噪网络,为了近似估计pθ(xt-1|xt,x0),即在给定当前降质图像xt和初始降质图像x0的情况下,对前一步降级图像xt-1的条件概率分布,去噪网络通过预测随机噪声来优化参数θ,损失函数表示如下:
;
式中,lossθ是去噪网络的损失函数;是对所有降质图像x0、随机噪声δ和步
数t的期望值;是去噪网络预测的噪声项;是L2范数的平方;
步骤S33:设计数据分布转换网络的损失函数,数据分布转换网络通过学习将输入数据的分布转换为输出数据的分布,表示如下:
;
式中,是数据分布转换网络的损失函数;是在xt和时间t
上通过取得的图像与参考图像之间的差异;
步骤S34:训练去噪模型和转换模型,包括:
步骤S341:随机选择(x0,y0);选择满足N(0,I);计算梯度以更新参数θ,所用公式如下:
;
式中,表示去噪网络基于参数θ,接收x0作为输入图像,以及经过处理的x0和/>作为附加输入,根据时间t生成的输出图像;
步骤S342:计算梯度以更新参数,所用公式如下:
;
式中,是数据分布转换网络的输出;
步骤S343:更新参数,训练模型直到模型收敛;
步骤S35:初步增强,将x0作为条件输入到去噪网络中;经过训练的去噪网络网络预测时刻t的噪声分布;使用参数重构方法,逐步从xt生成x1,x1是重构图像;每个xt和t都与训练好的数据分布转换网络一起输入,并与yt相加;经过去噪网络和数据分布转换网络生成的增强图像满足正态分布,表示如下:
;
式中,是经过去噪网络和数据分布转换网络生成的初步增强图像;/>表示生成的增强图像满足正态分布,/>表示生成图像的均值,/>表示生成图像的方差;
步骤S36:重新组合,使用裁剪策略将像素限制在[-1,1]的范围内以生成高质量的增强图像;在每次去噪网络和数据分布转换网络输出叠加之后进行分布重新组合,表示如下:
;
;
式中,是经过分布重新组合后的增强图像;μt是在每次去噪网络和数据分布转换网络输出叠加之后进行分布重新组合的均值;/>是αt的均值。
通过执行上述操作,针对一般甲骨文识别过程中存在原始图像不清晰,存在噪声,从而影响图像的可读性,使得图像在后续处理和识别任务准确性降低的问题,本方案建立双U-Net模型,分别完成去噪过程中噪声的预测和数据分布的变换,在上采样阶段将相应位置的特征图进行通道连接,提高网络的恢复能力,减少特征损失;使用组归一化代替批量归一化操作,以避免批量归一化的影响;在骨干层和下采样层的每个残差块之后都使用了Dropout层,以避免模型的过拟合问题;每个xt和t都与训练好的数据分布转换网络一起输入,并与yt相加,以避免神经网络训练过程的随机性;提高网络的恢复能力和减少特征损失,确保网络的处理能力。
实施例五,参阅图1和图4,该实施例基于上述实施例,在步骤S4中,建立甲骨文识别模型具体包括以下步骤:
步骤S41:卷积层设计,卷积层对特征图上的局部特征区域进行加权求和,其中滑动的卷积核与局部区域共享权重,表示如下:
;
式中,是卷积操作后在第l层中的第j个输出特征图;是偏置项;是第l-1层
的输入特征图中的第i个特征图;是应用在第l层上用于生成第j个输出特征图的卷积
核,i是输入特征图索引,j是输出特征图索引;和分别是第l-1层和第l层的通道数,即
卷积核数量;是卷积操作;
步骤S42:池化层设计,池化作为子采样步骤,在保留主要信息的同时降低维数;对输入特征映射上的每个局部区域进行平均池化,表示如下:
;
式中,是平均池化操作后在第l层中的第i个输出特征图;average(·)表示将输
入特征映射上的每个局部区域进行平均池化操作;表示第l-1层中的第i个输入特征图
上的第r个局部区域;S是总区域数;
步骤S43:批归一化并恢复特征表示,批归一化用以缓解内部协变量偏移,表示如下:
;
;
式中,是归一化后的第l-1层的第i个输入特征图;E[·]是对训练批次和像素
位置的期望;Var[·]是取方差;是批归一化的输出;是缩放参数;是平移参数;
步骤S44:全连接层设计,用以接受来自卷积和池化层生成的特征图向量化,表示如下:
;
式中,是表示在第l层中的第z个神经元的输出;是第l层中的第z个神经元的
偏置参数;是第l层中的第z个神经元与前一层特征之间的连接权重;Z是神经元数量;
步骤S45:整体映射,所建立的模型基于3×3的卷积核通过卷积操作从输入图像中提取局部特征;应用批归一化来标准化数据,基于批归一化操作计算输入特征图的均值和方差,并对特征图进行归一化处理;输入图像被填充以保持尺寸一致;从输入图像到顶部分支的输出特征图的整体映射表示如下:
;
式中,是顶部分支生成的特征图;max(·)是逐元素应用的最大操作符;
是在输入图像上应用的卷积和批归一化操作,X0是输入图像,是所有训练参数;
步骤S46:底部架构设计,底部架构考虑了全局相关性,通过使用空间分离的1D卷积核和随后的外积运算,产生具有全局时空相关性嵌入的特征图,具体而言,采用了两个不同的1D卷积核来处理输入图像,其中一个卷积核与输入图像的高度相同,另一个卷积核与输入图像的宽度相同,这两个卷积核分别在输入图像上进行卷积操作,生成两个不同的特征图,表示如下:
;
;
式中,和分别是垂直方向和水平方向的特征图;和分别是垂直方向和
水平方向的偏置项;和分别是垂直方向和水平方向的权重参数;是底部分支的输出
通道数;
步骤S47:特征组合,为提取全局时空特征,通过外积将获得的特征图组合起来,以得到2D形式的新特征,表示如下:
;
式中,是通过向量外积产生的特征图;是向量外积操作;
步骤S48:底部分支处理,在ReLU激活之前应用批归一化,表示如下;
;
式中,是底部分支的特征图;是底部分支中批归一化的实现函数;
步骤S49:平均池化,采用2×2的池化区域和步幅为2的平均池化来减小每个空间维度的大小一半;在应用平均池化之前,首先对来自局部和全局分支的特征图进行通道级的拼接,表示如下:
;
;
式中,是合并后的特征图;和分别是局部分支和全局分支的特征图;是生成
的特征图;(·)是参数化所确定的整个映射;是维度为(
的张量,其中cL表示局部特征图的通道数,cG表示全局特征图的通道数,n和m分别表示特征
图的高度和宽度;是维度为的张量,其中c表示通道数;
步骤S410:分类,全局平均池化产生一个与最后一个3×3卷积中的通道数相同长度的向量;随后,将生成的向量输入到全连接层中进行分类;浅层神经网络被部署为仅具有输入和输出层的全连接分类器;最后,softmax激活为输出层的每个类别分配概率,其中具有最高概率的类别被视为输入数据的最终分类,表示如下:
;
式中,是模型预测输出;是全连接层函数;是对输入特征
图Γ进行全局平均池化操作;RC是一个C维的向量空间,表示具有C个类别的输出空间。
通过执行上述操作,针对一般甲骨文识别模型存在无法捕捉全局时空相关性,提取多尺度和上下文感知特征能力差,从而导致模型识别准确率低的问题,本方案所建立的模型每个空间核在两个独立的分支中独立地卷积输入图像,通过生成的特征图中的神经元直接捕获两个相距很远的像素之间的相关性;避免批归一化操作的影响以避免模型的过拟合问题;通过特征组合和底部分支处理,提取全局时空特征,使得图像更具有全局上下文信息。
实施例六,参阅图1,该实施例基于上述实施例,在步骤S5中,甲骨文识别是利用训练完成的甲骨文识别模型,实时采集甲骨文图像,在经过预处理和图像增强后,输入至甲骨文识别模型中,模型输出甲骨文所属类别。
实施例七,参阅图2,该实施例基于上述实施例,本发明提供的基于机器视觉的甲骨文识别系统,包括数据采集模块、数据预处理模块、图像增强模块、甲骨文识别模型建立模块和甲骨文识别模块;
所述数据采集模块采集甲骨文图像数据集,并将数据发送至数据预处理模块;
所述数据预处理模块对采集的图像进行数据集标注和划分数据集,并将数据发送至图像增强模块;
所述图像增强模块建立双U-Net模型,分别完成去噪过程中噪声的预测和数据分布的变换,并将数据发送至甲骨文识别模型建立模块;
所述甲骨文识别模型建立模块通过特征组合和底部分支处理,提取全局时空特征,以此构建甲骨文识别模型,并将数据发送至甲骨文识别模块;
所述甲骨文识别模块利用训练完成的甲骨文识别模型,对实时采集甲骨文图像识别类别。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型。
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
Claims (6)
1.基于机器视觉的甲骨文识别方法,其特征在于:该方法包括以下步骤:
步骤S1:数据采集,采集甲骨文图像数据集;
步骤S2:数据预处理,对采集的图像进行数据集标注和划分数据集;
步骤S3:图像增强,建立双U-Net模型,分别完成去噪过程中噪声的预测和数据分布的变换;模型在经历了五次下采样后,将输入图像的大小从256×256转换为8×8;下采样过程中,使用残差模块来提取输入图像的特征信息,并在上采样阶段将相应位置的特征图进行通道拼接;主干层中包含两个残差块,每个残差块包含一个单步卷积层;在图像恢复过程中,使用了五个上采样步骤逐渐完成;模型使用了分组归一化;此外,在主干层和下采样层的每个残差块之后,使用了Dropout层;
步骤S4:建立甲骨文识别模型,通过特征组合和底部分支处理,提取全局时空特征,以此构建甲骨文识别模型;
步骤S5:甲骨文识别,利用训练完成的甲骨文识别模型,模型输出甲骨文所属类别;
在步骤S4中,所述建立甲骨文识别模型具体包括以下步骤:
步骤S41:卷积层设计,卷积层对特征图上的局部特征区域进行加权求和,其中滑动的卷积核与局部区域共享权重,表示如下:
;
式中,是卷积操作后在第l层中的第j个输出特征图;/>是偏置项;/>是第l-1层的输入特征图中的第i个特征图;/>是应用在第l层上用于生成第j个输出特征图的卷积核,i是输入特征图索引,j是输出特征图索引;/>和/>分别是第l-1层和第l层的通道数,即卷积核数量;/>是卷积操作;
步骤S42:池化层设计,池化作为子采样步骤,在保留主要信息的同时降低维数;对输入特征映射上的每个局部区域进行平均池化,表示如下:
;
式中,是平均池化操作后在第l层中的第i个输出特征图;average(·)表示将输入特征映射上的每个局部区域进行平均池化操作;/>表示第l-1层中的第i个输入特征图上的第r个局部区域;S是总区域数;
步骤S43:批归一化并恢复特征表示,批归一化用以缓解内部协变量偏移,表示如下:
;
;
式中,是归一化后的第l-1层的第i个输入特征图;E[·]是对训练批次和像素位置的期望;Var[·]是取方差;/>是批归一化的输出;/>是缩放参数;/>是平移参数;
步骤S44:全连接层设计,用以接受来自卷积和池化层生成的特征图向量化,表示如下:
;
式中,是表示在第l层中的第z个神经元的输出;/>是第l层中的第z个神经元的偏置参数;/>是第l层中的第z个神经元与前一层特征之间的连接权重;Z是神经元数量;
步骤S45:整体映射,所建立的模型基于3×3的卷积核通过卷积操作从输入图像中提取局部特征;应用批归一化来标准化数据,基于批归一化操作计算输入特征图的均值和方差,并对特征图进行归一化处理;输入图像被填充以保持尺寸一致;从输入图像到顶部分支的输出特征图的整体映射表示如下:
;
式中,是顶部分支生成的特征图;max(·)是逐元素应用的最大操作符;/>是在输入图像上应用的卷积和批归一化操作,X0是输入图像,/>是所有训练参数;
步骤S46:底部架构设计,底部架构考虑了全局相关性,通过使用空间分离的1D卷积核和随后的外积运算,产生具有全局时空相关性嵌入的特征图,具体而言,采用了两个不同的1D卷积核来处理输入图像,其中一个卷积核与输入图像的高度相同,另一个卷积核与输入图像的宽度相同,这两个卷积核分别在输入图像上进行卷积操作,生成两个不同的特征图,表示如下:
;
;
式中,和/>分别是垂直方向和水平方向的特征图;/>和/>分别是垂直方向和水平方向的偏置项;/>和/>分别是垂直方向和水平方向的权重参数;/>是底部分支的输出通道数;
步骤S47:特征组合,为提取全局时空特征,通过外积将获得的特征图组合起来,以得到2D形式的新特征,表示如下:
;
式中,是通过向量外积产生的特征图;/>是向量外积操作;
步骤S48:底部分支处理,在ReLU激活之前应用批归一化,表示如下;
;
式中,是底部分支的特征图;/>是底部分支中批归一化的实现函数;
步骤S49:平均池化,采用2×2的池化区域和步幅为2的平均池化来减小每个空间维度的大小一半;在应用平均池化之前,首先对来自局部和全局分支的特征图进行通道级的拼接,表示如下:
;
;
式中,是合并后的特征图;/>和/>分别是局部分支和全局分支的特征图;/>是生成的特征图;/>(·)是参数化所确定的整个映射;/>是维度为(/>的张量,其中cL表示局部特征图的通道数,cG表示全局特征图的通道数,n和m分别表示特征图的高度和宽度;/>是维度为/>的张量,其中c表示通道数;
步骤S410:分类,全局平均池化产生一个与最后一个3×3卷积中的通道数相同长度的向量;随后,将生成的向量输入到全连接层中进行分类;浅层神经网络被部署为仅具有输入和输出层的全连接分类器;最后,softmax激活为输出层的每个类别分配概率,其中具有最高概率的类别被视为输入数据的最终分类,表示如下:
;
式中,是模型预测输出;/>是全连接层函数;/>是对输入特征图Γ进行全局平均池化操作;RC是一个C维的向量空间,表示具有C个类别的输出空间。
2.根据权利要求1所述的基于机器视觉的甲骨文识别方法,其特征在于:在步骤S3中,所述图像增强具体包括以下内容:
步骤S31:降级处理,对降质图像x0和参考图像y0降级处理,基于权重对图像进行缩放,并加入噪声项,所用公式如下:
;
;
式中,xt和yt分别是经过t步降级的x0和y0的图像;是降级权重;δ是服从均值为0、协方差矩阵为单位矩阵的高斯分布N(0,I)的随机噪声;
步骤S32:设计去噪网络的损失函数,对于去噪网络,为了近似估计pθ(xt-1|xt,x0),即在给定当前降质图像xt和初始降质图像x0的情况下,对前一步降级图像xt-1的条件概率分布,去噪网络通过预测随机噪声来优化参数θ,损失函数表示如下:
;
式中,lossθ是去噪网络的损失函数;是对所有降质图像x0、随机噪声δ和步数t的期望值;/>是去噪网络预测的噪声项;/>是L2范数的平方;
步骤S33:设计数据分布转换网络的损失函数,数据分布转换网络通过学习将输入数据的分布转换为输出数据的分布,表示如下:
;
式中,是数据分布转换网络的损失函数;/>是在xt和时间t上通过取得的图像与参考图像之间的差异;
步骤S34:训练去噪模型和转换模型,包括:
步骤S341:随机选择(x0,y0);选择满足N(0,I);计算梯度以更新参数θ,所用公式如下:
;
式中,表示去噪网络基于参数θ,接收x0作为输入图像,以及经过处理的x0和/>作为附加输入,根据时间t生成的输出图像;
步骤S342:计算梯度以更新参数,所用公式如下:
;
式中,是数据分布转换网络的输出;
步骤S343:更新参数,训练模型直到模型收敛;
步骤S35:初步增强,将x0作为条件输入到去噪网络中;经过训练的去噪网络网络预测时刻t的噪声分布;使用参数重构方法,逐步从xt生成x1,x1是重构图像;每个xt和t都与训练好的数据分布转换网络一起输入,并与yt相加;经过去噪网络和数据分布转换网络生成的增强图像满足正态分布,表示如下:
;
式中,是经过去噪网络和数据分布转换网络生成的初步增强图像;/>表示生成的增强图像满足正态分布,/>表示生成图像的均值,/>表示生成图像的方差;
步骤S36:重新组合,使用裁剪策略将像素限制在[-1,1]的范围内以生成高质量的增强图像;在每次去噪网络和数据分布转换网络输出叠加之后进行分布重新组合,表示如下:
;
;
式中,是经过分布重新组合后的增强图像;μt是在每次去噪网络和数据分布转换网络输出叠加之后进行分布重新组合的均值;/>是αt的均值。
3.根据权利要求1所述的基于机器视觉的甲骨文识别方法,其特征在于:在步骤S1中,所述数据采集是采集甲骨文图像数据集,包括不同类型的甲骨文图像。
4.根据权利要求1所述的基于机器视觉的甲骨文识别方法,其特征在于:在步骤S2中,所述数据预处理是对采集的图像进行数据集标注和划分数据集。
5.根据权利要求1所述的基于机器视觉的甲骨文识别方法,其特征在于:在步骤S5中,所述甲骨文识别是利用训练完成的甲骨文识别模型,实时采集甲骨文图像,在经过预处理和图像增强后,输入至甲骨文识别模型中,模型输出甲骨文所属类别。
6.基于机器视觉的甲骨文识别系统,用于实现如权利要求1-5中任一项所述的基于机器视觉的甲骨文识别方法,其特征在于:包括数据采集模块、数据预处理模块、图像增强模块、甲骨文识别模型建立模块和甲骨文识别模块;
所述数据采集模块采集甲骨文图像数据集,并将数据发送至数据预处理模块;
所述数据预处理模块对采集的图像进行数据集标注和划分数据集,并将数据发送至图像增强模块;
所述图像增强模块建立双U-Net模型,分别完成去噪过程中噪声的预测和数据分布的变换,并将数据发送至甲骨文识别模型建立模块;
所述甲骨文识别模型建立模块通过特征组合和底部分支处理,提取全局时空特征,以此构建甲骨文识别模型,并将数据发送至甲骨文识别模块;
所述甲骨文识别模块利用训练完成的甲骨文识别模型,对实时采集甲骨文图像识别类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410233869.4A CN117809318B (zh) | 2024-03-01 | 2024-03-01 | 基于机器视觉的甲骨文识别方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410233869.4A CN117809318B (zh) | 2024-03-01 | 2024-03-01 | 基于机器视觉的甲骨文识别方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117809318A CN117809318A (zh) | 2024-04-02 |
CN117809318B true CN117809318B (zh) | 2024-05-28 |
Family
ID=90422037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410233869.4A Active CN117809318B (zh) | 2024-03-01 | 2024-03-01 | 基于机器视觉的甲骨文识别方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117809318B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310760A (zh) * | 2020-02-13 | 2020-06-19 | 辽宁师范大学 | 结合局部先验特征和深度卷积特征的甲骨刻辞文字检测方法 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
CN112906702A (zh) * | 2021-02-19 | 2021-06-04 | 辽宁师范大学 | 多尺度稀疏边缘特征自主融合学习的甲骨刻辞文字检测方法 |
WO2021146937A1 (zh) * | 2020-01-21 | 2021-07-29 | 京东方科技集团股份有限公司 | 文字识别方法、文字识别装置和存储介质 |
WO2022147965A1 (zh) * | 2021-01-09 | 2022-07-14 | 江苏拓邮信息智能技术研究院有限公司 | 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统 |
CN116524596A (zh) * | 2023-05-08 | 2023-08-01 | 大连理工大学 | 一种基于动作粒度分组结构的体育视频动作识别方法 |
WO2023185243A1 (zh) * | 2022-03-29 | 2023-10-05 | 河南工业大学 | 基于注意力调制上下文空间信息的表情识别方法 |
CN117315686A (zh) * | 2023-10-07 | 2023-12-29 | 华中科技大学 | 基于分类模型的甲骨文辅助破译分类方法及系统 |
CN117333887A (zh) * | 2023-09-18 | 2024-01-02 | 西南大学 | 一种基于深度学习的甲骨文字体分类方法 |
CN117333881A (zh) * | 2023-10-07 | 2024-01-02 | 华中科技大学 | 基于条件扩散模型的甲骨文辅助破译方法 |
CN117437647A (zh) * | 2023-12-20 | 2024-01-23 | 吉林大学 | 基于深度学习和计算机视觉的甲骨文字检测方法 |
-
2024
- 2024-03-01 CN CN202410233869.4A patent/CN117809318B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021146937A1 (zh) * | 2020-01-21 | 2021-07-29 | 京东方科技集团股份有限公司 | 文字识别方法、文字识别装置和存储介质 |
CN111310760A (zh) * | 2020-02-13 | 2020-06-19 | 辽宁师范大学 | 结合局部先验特征和深度卷积特征的甲骨刻辞文字检测方法 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
WO2022147965A1 (zh) * | 2021-01-09 | 2022-07-14 | 江苏拓邮信息智能技术研究院有限公司 | 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统 |
CN112906702A (zh) * | 2021-02-19 | 2021-06-04 | 辽宁师范大学 | 多尺度稀疏边缘特征自主融合学习的甲骨刻辞文字检测方法 |
WO2023185243A1 (zh) * | 2022-03-29 | 2023-10-05 | 河南工业大学 | 基于注意力调制上下文空间信息的表情识别方法 |
CN116524596A (zh) * | 2023-05-08 | 2023-08-01 | 大连理工大学 | 一种基于动作粒度分组结构的体育视频动作识别方法 |
CN117333887A (zh) * | 2023-09-18 | 2024-01-02 | 西南大学 | 一种基于深度学习的甲骨文字体分类方法 |
CN117315686A (zh) * | 2023-10-07 | 2023-12-29 | 华中科技大学 | 基于分类模型的甲骨文辅助破译分类方法及系统 |
CN117333881A (zh) * | 2023-10-07 | 2024-01-02 | 华中科技大学 | 基于条件扩散模型的甲骨文辅助破译方法 |
CN117437647A (zh) * | 2023-12-20 | 2024-01-23 | 吉林大学 | 基于深度学习和计算机视觉的甲骨文字检测方法 |
Non-Patent Citations (4)
Title |
---|
刘梦婷.基于深度卷积神经网络的甲骨文字识别研究.中国优秀硕士学位论文全文数据库信息科技辑.2021,1-80. * |
张晶 ; 吴磊 ; 贺建军 ; 刘文鹏 ; .基于深度卷积神经网络的手写哈萨克文字母识别方法.大连民族大学学报.2017,(05),74-79. * |
李文英 ; 曹斌 ; 曹春水 ; 黄永祯 ; .一种基于深度学习的青铜器铭文识别方法.自动化学报.2018,(11),105-112. * |
鲁绪正 ; 蔡恒进 ; 林莉 ; .基于Capsule网络的甲骨文构件识别方法.智能系统学报.2018,(02),57-68. * |
Also Published As
Publication number | Publication date |
---|---|
CN117809318A (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022036777A1 (zh) | 基于卷积神经网络的人体动作姿态智能估计方法及装置 | |
CN110084156B (zh) | 一种步态特征提取方法及基于步态特征的行人身份识别方法 | |
CN109117864B (zh) | 基于异构特征融合的冠心病风险预测方法、模型及系统 | |
CN111950649B (zh) | 基于注意力机制与胶囊网络的低照度图像分类方法 | |
CN106778687B (zh) | 基于局部评估和全局优化的注视点检测方法 | |
CN109558811B (zh) | 一种基于运动前景关注及非监督的关键帧提取的动作识别方法 | |
CN110060273B (zh) | 基于深度神经网络的遥感影像滑坡测图方法 | |
CN113902761A (zh) | 基于知识蒸馏的肺部疾病病灶无监督分割方法 | |
WO2019136591A1 (zh) | 基于弱监督时空级联神经网络的显著目标检测方法及系统 | |
CN113688862B (zh) | 一种基于半监督联邦学习的脑影像分类方法及终端设备 | |
CN112766165B (zh) | 基于深度神经网络与全景分割的跌倒预判方法 | |
CN114842238B (zh) | 一种嵌入式乳腺超声影像的识别方法 | |
CN111178121B (zh) | 基于空间特征和深度特征强化技术的害虫图像定位识别方法 | |
CN112749675A (zh) | 一种基于卷积神经网络的马铃薯病害识别方法 | |
CN112419202A (zh) | 基于大数据及深度学习的野生动物图像自动识别系统 | |
CN112950780A (zh) | 一种基于遥感影像的网络地图智能生成方法及系统 | |
CN113344077A (zh) | 一种基于卷积胶囊网络结构的抗噪茄科病害识别方法 | |
CN116129426A (zh) | 一种宫颈细胞涂片18类别的细粒度分类方法 | |
CN111539320A (zh) | 基于互相学习网络策略的多视角步态识别方法及系统 | |
CN114494786A (zh) | 一种基于多层协调卷积神经网络的细粒度图像分类方法 | |
CN114445620A (zh) | 一种改进Mask R-CNN的目标分割方法 | |
CN117809318B (zh) | 基于机器视觉的甲骨文识别方法及其系统 | |
CN116824241A (zh) | 一种基于迭代学习的马铃薯病害多分类和检测方法 | |
CN116597424A (zh) | 一种基于人脸识别的疲劳驾驶检测系统 | |
CN115719357A (zh) | 一种脑部医学图像多结构分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |