CN111126404B - 一种基于改进YOLO v3的古文字及字体识别方法 - Google Patents
一种基于改进YOLO v3的古文字及字体识别方法 Download PDFInfo
- Publication number
- CN111126404B CN111126404B CN201911277782.2A CN201911277782A CN111126404B CN 111126404 B CN111126404 B CN 111126404B CN 201911277782 A CN201911277782 A CN 201911277782A CN 111126404 B CN111126404 B CN 111126404B
- Authority
- CN
- China
- Prior art keywords
- ancient
- training
- image
- pictures
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000001514 detection method Methods 0.000 claims abstract description 9
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 68
- 238000012360 testing method Methods 0.000 claims description 24
- 238000012795 verification Methods 0.000 claims description 22
- 239000004575 stone Substances 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 210000004027 cell Anatomy 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 230000008034 disappearance Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 claims description 3
- 239000010931 gold Substances 0.000 claims description 3
- 229910052737 gold Inorganic materials 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000001454 recorded image Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000007500 overflow downdraw method Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 abstract description 4
- 238000000354 decomposition reaction Methods 0.000 abstract 1
- 238000000605 extraction Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000004744 fabric Substances 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 229910000906 Bronze Inorganic materials 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000010974 bronze Substances 0.000 description 1
- KUNSUQLRTQLHQQ-UHFFFAOYSA-N copper tin Chemical compound [Cu].[Sn] KUNSUQLRTQLHQQ-UHFFFAOYSA-N 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种基于改进YOLO v3的古文字及字体识别方法。该方法基于深度学习的目标检测方法,利用深层的神经网络结构,学习到古文字图像中“整体‑部分”的分解关系,通过特征提取网络获得有用的特征信息,并进行检测定位,再将图片的特征信息送入分类器进行分类识别,并使用包围框在图像中框选出古文字的位置。该方法解决了古文字具有复杂的内部结构,以及使用这些特征进行识别时精度低的问题。本方法提出的改进YOLO v3使用ShuffleNet v2作为模型的主干结构,使其更加高效。在对古文字及字体的识别上准确率达到98.81%,并且具有较好的稳定性和良好的鲁棒性,能够应用于古文字文本、碑帖等古文字识别场景。
Description
技术领域
本发明涉及了一种基于深度学习的目标检测算法的图像识别方法,尤其是涉及了一种基于改进YOLO v3的古文字图像识别方法。
背景技术
古文字记录着古时人们的社会生活,对古文字的研究作为钥匙,打开了研究古人的生活的方便之门。古文字学在研究中国古代历史和文化具有重大作用。在一些实物资料如甲骨、青铜器、石碑、古书等上面的文字内容里,包含有许多重要的历史信息,这些古文字的释读有助于对当时社会情况的了解。但是,古文字图像非常复杂,具有丰富性和逻辑性的结构信息。古文字具有复杂的内部结构,笔画多、笔画复杂、文字的相似度高,以及不同时期书写汉字的风格多变,使得古文字的识别比现代文字识别难度更高。目前存在多为现代汉字或者手写汉字识别,光学字符识别,前者识别准确率较低,很难适用于古文字识别,后者可用于古汉字识别但不能识别其字体。
发明内容
为了解决背景技术中的识别准确率问题,本发明提出了一种基于深度学习目标检测算法改进YOLO v3的古文字图像识别方法,能高准确地识别古汉字及其字体并具有良好稳定性。
本发明的技术方案包括以下步骤:
1)根据每个字的原始数据量能否满足神经网络训练的要求和是否属于常用古汉字,收集来自互联网的古文字图片,包含三种不同字体,分别为甲骨文、金文和楚系简帛;
2)对收集的古文字图片进行扩充处理,获得古文字样本图像;
3)遍历古文字样本图像,对每张图像用包围框对古文字进行字形字体标记处理,获得对应的label文件,它与古文字样本图像共同构成图像数据集;
4)将图像数据集划分为训练验证集和测试集,将训练验证集划分为训练集和验证集,针对图像数据集中的古文字样本图像和label文件进行同比例缩放;
5)网络调整,对YOLO v3网络进行轻量化,调整后的主干网络依次为Conv0,Conv1,Stage2,Stage3,Stage4,Stage5,Stage6。Conv0和Conv1均为3×3的1步长卷积块。每个Stage的开始阶段都是一个Shuffle空间上采样单元;然后接入N个Shuffle基本单元,Stage2~Stage6的N值分别为2、4、6、6、4;Shuffle基本单元构成为:接入的通道均分为两部分后,一部分通过1×1的1步长Conv(卷积块)+3×3的1步长DWConv(深度卷积块)+1×1的1步长Conv后与另一部分进行拼接,然后进行通道随机混合。Shuffle空间上采样单元构成为:接入通道分别通过3×3的2步长DWConv+1×1的1步长Conv,1×1的1步长Conv+3×3的2步长DWConv+1×1的1步长Conv,对两者的输出进行拼接后再进行通道随机混合操作。使用通道随机混合操作,将深度不同的两个分支的卷积结果合并在一起,从而实现了高级和低级信息的特征融合;
6)模型的训练,每次选取多个训练集样本进行训练,获得训练模型,使用Adam算法基于训练数据迭代更新神经网络的权重。训练过程中在验证集样本中对训练模型进行验证,计算得到训练集以及验证集上的损失,观察网络的训练效果,最终选择损失值最小的模型作为model;
7)在测试集上对步骤6)最终获得的model进行测试,在测试集样本图像上预测并标注出古文字及字体的类别和置信度;
8)从拓印本和石碑上获取属于识别类别范围内的古文字图片,经过图像预处理后,输入model中,获得检测结果。
所述的步骤1)中,针对每个类别的古文字在数据集筛选中需要满足其数量较为充足,能够给模型的训练提供足够的样本,才能够获得更好的特征用以分类。实际筛选过程中,选择的是原始图片超过30张的古文字作为数据集。整个数据集包含三种字体100个字共计4000张原始图片。
所述步骤2)中,使用到数据增强,一般而言神经网络的参数都是数以百万计,而要得到可以正确工作的参数需要大量的数据进行训练。为了增加训练的数据量,提高模型的泛化能力,本方法增加了噪声数据,提升模型的鲁棒性。对图片进行缩放、调整亮度与对比度、翻转、旋转、添加噪声、模糊等操作;
所述步骤3)中,利用标注工具对图片集进行标定,使用一个长方形框作为包围框将古文字框定并标定其真实类别,将长方形框的左上角和右下角的横纵坐标以及标定类别信息记录在.xml类型的label文件中,每张图片对应一个label文件,每张古文字图片最多含有一个包围框。步骤3)中的数据集则是按上述方法获得。
所述步骤4)中,调整图像尺寸为416×416,对应的label文件也作同比例缩放,然后将数据集按照大约2:1的比例区分训练验证集和测试集,训练验证集再按照大约9:1的比例区分测试集和验证集。
图像缩放使用的方法为双线性插值法,其原理如下::
记图像的映射函数为f,在任意点(i,j),其像素值为y=f(i,j),其中0<i≤w,0<j≤h,且i,j为整数,w,h分别为图像宽度和高度。已知f(x1,y1),f(x2,y2),f(x3,y3),f(x4,y4),要插值的点为f(x,y):
在x轴方向线性插值,由实心圆表示的点得到空心圆表示的点:
得到:
在y轴方向线性插值,由空心圆表示的点得到三角形表示的点:
得到:
最后结果:
所述步骤5)中,DWConv的构成为:卷积层+批归一化层,Conv的构成为:卷积层+批归一化层+带泄露修正线性单元层。
所述步骤6)中,每次选取12个训练集样本构成mini-batch进行训练。每个mini-batch是一次迭代训练中随机选择训练数据集的一个小部分,所有mini-batch构成整个训练数据集。每一次迭代训练过程中,每个mini-batch不尽相同,这样的随机性有助于降低模型训练过程中停止在鞍点(Saddle Point)和局部最小点(Local Minimum)的可能性,提升模型的训练速度。同时还引入了批标准化(Batch Normalization)处理,对每个隐藏层神经元,把逐渐向非线性函数映射后向取值区间极限饱和区靠拢的输入分布强制拉回到均值为0方差为1的比较标准的正态分布,使得非线性变换函数的输入值落在对输入比较敏感的区域,以此避免梯度消失问题。批标准化的使用还能够防止过拟合问题,因此删除了网络中的Dropout层。在参数训练中使用Adam(Adaptive Moment Estimation,自适应矩估计)算法替代SGD(Stochastic Gradient Descent,随机梯度下降)算法,所需内存更少,计算更高效。
所述步骤7)中,改进YOLO v3借鉴了特征金字塔,通过上采样和融合的方法,获得13×13,26×26,52×52这三个尺度的特征图并进行预测。输入古文字的图像,使用步骤4)所述的双线性插值方法对图像进行缩放后输入给模型,最终在三个尺度的特征图上分别作预测。
所述步骤8)中,从拓印本和石碑上获取属于识别类别范围内的古文字图片是指使用相机拍摄的拓印本和石碑的照片,然后从中裁剪出属于模型识别范围内的古汉字图片。
本发明具有的有益的效果是:
该方法解决了传统识别方法在古文字识别上精确度低的问题,以及缺少利用深度学习的目标检测算法对古汉字及字体进行检测识别。基于测试集的测试结果,该方法在对古文字及字体上的检测识别均值平均精度可达98.81%。同时对取自拓印本和石碑的古文字图片进行识别的结果表明,该识别方法的准确率达到85.51%,可应用于古文字文本、碑帖等识别。
附图说明
图1为本方法实施例采用的ShuffleNet的基本构件。
图2为本方法实施例古文字图像数据集示例。
图3为本方法实施例数据增强效果图。
图4为本方法实施例采用的双线性插值示意图。
图5为本方法实施例获得识别模型的算法流程图。
图6为本方法实施例采用的改进YOLO v3网络框架结构图。
图7为本方法实施例获得的拓印本古文字示意图。
图8为本方法实施例识别结果图。
具体实施方式
下面结合附图5及具体实施例对本发明作进一步详细说明。
1)根据每个字的原始数据量能否满足神经网络训练的要求和是否属于常用古汉字,选择的原始图片超过30张的古文字作为数据集。整个数据集包含甲骨文、金文和楚系简帛这三种字体100个字共计4000张原始图片,如图2所示;
2)对收集的古文字图片进行扩充处理,获得古文字样本图像;
所述步骤2)中,使用到数据增强,一般而言神经网络的参数都是数以百万计,而要得到可以正确工作的参数需要大量的数据进行训练。为了增加训练的数据量,提高模型的泛化能力,本方法增加了噪声数据,提升模型的鲁棒性。对图片进行缩放、调整亮度与对比度、翻转、旋转、添加噪声、模糊等操作(增强效果见图3)。图3中(a1)为楚系简帛的“夏”字的原始图片,(a2)为进行翻转和添加背景噪声的图片,(b1)为楚系简帛的“君”字的原始图片,(b2)为进行背景加噪和模糊的图片。
3)遍历古文字样本图像,对每张图像用包围框对古文字进行字形字体标记处理,获得对应的label文件,它与古文字样本图像共同构成图像数据集;
对每张图像用包围框对古文字进行字形字体标记处理具体为:利用标注工具对图片集进行标定,使用一个长方形框作为包围框将古文字框定并标定其真实类别,将长方形框的左上角和右下角的横纵坐标以及标定类别信息记录在.xml类型的label文件中,每张图片对应一个label文件,每张古文字图片最多含有一个包围框。
4)将图像数据集划分为训练验证集和测试集,将训练验证集划分为训练集和验证集,针对图像数据集中的古文字样本图像和label文件进行同比例缩放;调整图像尺寸为416×416,对应的label文件也作同比例缩放,然后将数据集按照大约2:1的比例区分训练验证集和测试集,训练验证集再按照大约9:1的比例区分测试集和验证集。
图像缩放使用的方法为双线性插值法,其原理如下::
记图像的映射函数为f,在任意点(i,j),其像素值为y=f(i,j),其中0<i≤w,0<j≤h,且i,j为整数,w,h分别为图像宽度和高度。已知f(x1,y1),f(x2,y2),f(x3,y3),f(x4,y4),要插值的点为f(x,y):
在x轴方向线性插值,如图4(a)所示由实心圆表示的点得到空心圆表示的点:
得到:
在y轴方向线性插值,如图4(b)所示由空心圆表示的点得到三角形表示的点:
得到:
最后结果:
5)网络调整,对YOLO v3网络进行轻量化,调整后的主干网络依次为Conv0,Conv1,Stage2,Stage3,Stage4,Stage5,Stage6。Conv0和Conv1均为3×3的1步长卷积块。每个Stage的开始阶段都是一个Shuffle空间上采样单元;然后接入N个Shuffle基本单元,Stage2~Stage6的N值分别为2、4、6、6、4;Shuffle基本单元构成为:接入的通道均分为两部分后,一部分通过1×1的1步长Conv(卷积块)+3×3的1步长DWConv(深度卷积块)+1×1的1步长Conv后与另一部分进行拼接,然后进行通道随机混合。Shuffle空间上采样单元构成为:接入通道分别通过3×3的2步长DWConv+1×1的1步长Conv,1×1的1步长Conv+3×3的2步长DWConv+1×1的1步长Conv,对两者的输出进行拼接后再进行通道随机混合操作。使用通道随机混合操作,将深度不同的两个分支的卷积结果合并在一起,从而实现了高级和低级信息的特征融合;其中DWConv的构成为:卷积层+批归一化层,Conv的构成为:卷积层+批归一化层+带泄露修正线性单元层,如图1所示;
6)模型的训练
每次选取12个训练集样本构成mini-batch进行训练。每个mini-batch是一次迭代训练中随机选择训练数据集的一个小部分,所有mini-batch构成整个训练数据集。每一次迭代训练过程中,每个mini-batch不尽相同,这样的随机性有助于降低模型训练过程中停止在鞍点(Saddle Point)和局部最小点(Local Minimum)的可能性,提升模型的训练速度。同时还引入了批标准化(Batch Normalization)处理,对每个隐藏层神经元,把逐渐向非线性函数映射后向取值区间极限饱和区靠拢的输入分布强制拉回到均值为0方差为1的比较标准的正态分布,使得非线性变换函数的输入值落在对输入比较敏感的区域,以此避免梯度消失问题。批标准化的使用还能够防止过拟合问题,因此删除了网络中的Dropout层。在参数训练中使用Adam(Adaptive Moment Estimation,适应性矩估计)算法替代传统随机梯度下降(Stochastic Gradient Decscent)算法,所需内存更少,计算更高效。
7)在测试集上对步骤6)最终获得的model进行测试,在测试集样本图像上预测并标注出古文字及字体的类别和置信度;
改进YOLO v3借鉴了特征金字塔,通过上采样和融合的方法,获得13×13,26×26,52×52这三个尺度的特征图并进行预测。改进YOLO v3的网络框架结构如图6所示,输入古文字的图像,使用步骤4)所述的双线性插值方法对图像进行缩放后输入给模型,最终在三个尺度的特征图上分别作预测。
8)从拓印本和石碑上获取属于识别类别范围内的古文字图片是指使用相机拍摄的拓印本和石碑的照片,然后从中裁剪出属于模型识别范围内的古汉字图片,如图7所示。
本发明的实施例如下:
实验图片共有20000张,其中用于训练的图片有13200张,测试图片6800张,包含100种古文字及字体类别。
采用本文训练的检测模型model去检测古文字测试集图片,得到的结果(部分)如表1所示:
表1古文字检测结果
其中缺省格表示无此类别。由表可知,对测试图片的均值平均精度(mAP)达到98.81%,其中14个类别的AP(平均精度)如图8所示:甲骨文的“夏”、“德”、“牢”、“礼”为99.92%、97.38%、99.73%、99.57%,对金文的“德”、“皇”、“君”、“公”为99.57%、97.32%、99.23%、97.67%,对楚系简帛的“夏”、“牢”、“礼”、“君”、“公”、“乐”为97.38%、97.03%、99.62%、99.89%、98.79%、99.04%。
由此可见,本发明能够实现古文字及字体的识别,并具有较高的准确率,并且具有稳定性好,抗干扰能力强,通用性高等优点,能够应用于古文字文本、碑帖等识别系统中。
上述具体实施方式用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (9)
1.一种基于改进YOLO v3的古文字及字体识别方法,其特征在于,包括以下步骤:
1)根据每个字的原始数据量能否满足神经网络训练的要求和是否属于常用古汉字,收集来自互联网的古文字图片,包含三种不同字体,分别为甲骨文、金文和楚系简帛;
2)对收集的古文字图片进行扩充处理,获得古文字样本图像;
3)遍历古文字样本图像,对每张图像用包围框对古文字进行字形字体标记处理,获得对应的label文件,它与古文字样本图像共同构成图像数据集;
4)将图像数据集划分为训练验证集和测试集,将训练验证集划分为训练集和验证集,针对图像数据集中的古文字样本图像和label文件进行同比例缩放;
5)网络调整,对YOLO v3网络进行轻量化,调整后的主干网络依次为Conv0,Conv1,Stage2,Stage3,Stage4,Stage5,Stage6;Conv0和Conv1均为3×3的1步长卷积块;每个Stage的开始阶段都是一个Shuffle空间上采样单元;然后接入N个Shuffle基本单元,Stage2~Stage6的N值依次为2、4、6、6、4;Shuffle基本单元构成为:接入的通道均分为两部分后,一部分通过1×1的1步长Conv+3×3的1步长DWConv+1×1的1步长Conv后与另一部分进行拼接,然后进行通道随机混合;Shuffle空间上采样单元构成为:接入通道分别通过3×3的2步长DWConv+1×1的1步长Conv,1×1的1步长Conv+3×3的2步长DWConv+1×1的1步长Conv,对两者的输出进行拼接后再进行通道随机混合操作;使用通道随机混合操作,将深度不同的两个分支的卷积结果合并在一起,从而实现了高级和低级信息的特征融合,其中DWConv为深度卷积块;
6)模型的训练,每次选取多个训练集样本进行训练,获得训练模型,使用Adam算法基于训练数据迭代更新神经网络的权重;训练过程中在验证集样本中对训练模型进行验证,计算得到训练集以及验证集上的损失,观察网络的训练效果,最终选择损失值最小的模型作为model;
7)在测试集上对步骤6)最终获得的model进行测试,在测试集样本图像上预测并标注出古文字及字体的类别和置信度;
8)从拓印本和石碑上获取属于识别类别范围内的古文字图片,经过图像预处理后,输入model中,获得检测结果。
2.根据权利要求1所述的一种基于改进YOLO v3的古文字及字体识别方法,其特征在于:所述的步骤1)中,选择的是原始图片,超过30张的古文字图片作为数据集;整个数据集包含三种字体100个字共计4000张原始图片。
3.根据权利要求1所述的一种基于改进YOLO v3的古文字及字体识别方法,其特征在于:对收集的古文字图片进行扩充处理具体为对图片进行缩放、调整亮度与对比度、翻转、旋转、添加噪声、模糊。
4.根据权利要求1所述的一种基于改进YOLO v3的古文字及字体识别方法,其特征在于:所述步骤3)中,对每张图像用包围框对古文字进行字形字体标记处理,具体为:利用标注工具对图片集进行标定,使用一个长方形框作为包围框将古文字框定并标定其真实类别,将长方形框的左上角和右下角的横纵坐标以及标定类别信息记录在.xml类型的label文件中,每张图片对应一个label文件,每张古文字图片最多含有一个包围框。
5.根据权利要求1所述的一种基于改进YOLO v3的古文字及字体识别方法,其特征在于:所述步骤4)中,调整图像尺寸为416×416,对应的label文件也作同比例缩放,然后将数据集按照大约2:1的比例区分训练验证集和测试集,训练验证集再按照大约9:1的比例区分测试集和验证集;
图像缩放使用的方法为双线性插值法,其原理如下:
记图像的映射函数为f,在任意点(i,j),其像素值为y=f(i,j),其中0<i≤w,0<j≤h,且i,j为整数,w,h分别为图像宽度和高度;已知f(x1,y1),f(x2,y2),f(x3,y3),f(x4,y4)为图像上任意四个点,要插值的点为f(x,y):
在x轴方向线性插值;
得到:
在y轴方向线性插值:
得到:
最后结果:
6.根据权利要求1所述的一种基于改进YOLO v3的古文字及字体识别方法,其特征在于:所述步骤5)中,DWConv的构成为:卷积层+批归一化层,Conv的构成为:卷积层+批归一化层+带泄露修正线性单元层。
7.根据权利要求1所述的一种基于改进YOLO v3的古文字及字体识别方法,其特征在于:所述步骤6)中,每次选取12个训练集样本构成mini-batch进行训练;每个mini-batch是一次迭代训练中随机选择训练数据集的一个小部分,所有mini-batch构成整个训练数据集;每一次迭代训练过程中,每个mini-batch不尽相同,这样的随机性有助于降低模型训练过程中停止在鞍点和局部最小点的可能性,提升模型的训练速度;同时引入了批标准化处理,对每个隐藏层神经元,把逐渐向非线性函数映射后向取值区间极限饱和区靠拢的输入分布强制拉回到均值为0方差为1的比较标准的正态分布,使得非线性变换函数的输入值落在对输入比较敏感的区域,以此避免梯度消失问题。
8.根据权利要求5所述的一种基于改进YOLO v3的古文字及字体识别方法,其特征在于:所述步骤7)中,YOLO v3借鉴了特征金字塔,通过上采样和融合的方法,获得13×13,26×26,52×52三个尺度的特征图并进行预测;输入古文字的图像,使用步骤4)所述的双线性插值法对图像进行缩放后输入给模型,最终在三个尺度的特征图上分别作预测。
9.根据权利要求1所述的一种基于改进YOLO v3的古文字及字体识别方法,其特征在于:所述步骤8)中,从拓印本和石碑上获取属于识别类别范围内的古文字图片是指使用相机拍摄的拓印本和石碑的照片,然后从中裁剪出属于模型识别范围内的古汉字图片。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911277782.2A CN111126404B (zh) | 2019-12-11 | 2019-12-11 | 一种基于改进YOLO v3的古文字及字体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911277782.2A CN111126404B (zh) | 2019-12-11 | 2019-12-11 | 一种基于改进YOLO v3的古文字及字体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111126404A CN111126404A (zh) | 2020-05-08 |
CN111126404B true CN111126404B (zh) | 2023-08-22 |
Family
ID=70498544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911277782.2A Active CN111126404B (zh) | 2019-12-11 | 2019-12-11 | 一种基于改进YOLO v3的古文字及字体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111126404B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767854B (zh) * | 2020-06-29 | 2022-07-01 | 浙江大学 | 一种结合场景文本语义信息的slam回环检测方法 |
CN111964723A (zh) * | 2020-08-18 | 2020-11-20 | 合肥金果缘视觉科技有限公司 | 一种基于人工智能的花生米短芽检测系统 |
CN112418208B (zh) * | 2020-12-11 | 2022-09-16 | 华中科技大学 | 基于Tiny-YOLO v3的焊缝胶片字符识别方法 |
CN113030108A (zh) * | 2021-03-08 | 2021-06-25 | 哈尔滨工程大学 | 一种基于机器视觉的涂层缺陷检测系统与方法 |
CN113034548B (zh) * | 2021-04-25 | 2023-05-26 | 安徽科大擎天科技有限公司 | 一种适用于嵌入式终端的多目标跟踪方法及其系统 |
CN113221823B (zh) * | 2021-05-31 | 2024-06-07 | 南通大学 | 一种基于改进轻量级YOLOv3的交通信号灯倒计时识别方法 |
CN113486898B (zh) * | 2021-07-08 | 2024-05-31 | 西安电子科技大学 | 一种基于改进ShuffleNet的雷达信号RD图像干扰辨识方法及系统 |
CN114092700B (zh) * | 2021-11-25 | 2022-09-20 | 吉林大学 | 基于目标检测和知识图谱的古文字识别方法 |
CN115205164B (zh) * | 2022-09-15 | 2022-12-13 | 腾讯科技(深圳)有限公司 | 图像处理模型的训练方法、视频处理方法、装置及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830192A (zh) * | 2018-05-31 | 2018-11-16 | 珠海亿智电子科技有限公司 | 车载环境下基于深度学习的车辆与车牌检测方法 |
CN110490874A (zh) * | 2019-09-04 | 2019-11-22 | 河海大学常州校区 | 基于yolo神经网络的纺织布匹表面瑕疵检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9881234B2 (en) * | 2015-11-25 | 2018-01-30 | Baidu Usa Llc. | Systems and methods for end-to-end object detection |
-
2019
- 2019-12-11 CN CN201911277782.2A patent/CN111126404B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830192A (zh) * | 2018-05-31 | 2018-11-16 | 珠海亿智电子科技有限公司 | 车载环境下基于深度学习的车辆与车牌检测方法 |
CN110490874A (zh) * | 2019-09-04 | 2019-11-22 | 河海大学常州校区 | 基于yolo神经网络的纺织布匹表面瑕疵检测方法 |
Non-Patent Citations (1)
Title |
---|
李思瑶 ; 刘宇红 ; 张荣芬 ; .基于迁移学习与模型融合的犬种识别方法.智能计算机与应用.2019,(第06期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111126404A (zh) | 2020-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111126404B (zh) | 一种基于改进YOLO v3的古文字及字体识别方法 | |
CN109800754B (zh) | 一种基于卷积神经网络的古字体分类方法 | |
RU2661750C1 (ru) | Распознавание символов с использованием искусственного интеллекта | |
CN104881662B (zh) | 一种单幅图像行人检测方法 | |
CN110175613A (zh) | 基于多尺度特征和编解码器模型的街景图像语义分割方法 | |
CN113128442B (zh) | 基于卷积神经网络的汉字书法风格识别方法和评分方法 | |
CN112819686B (zh) | 基于人工智能的图像风格处理方法、装置及电子设备 | |
CN109635883A (zh) | 基于深度堆叠网络的结构信息指导的中文字库生成方法 | |
CN111753828A (zh) | 一种基于深度卷积神经网络的自然场景水平文字检测方法 | |
CN106778852A (zh) | 一种修正误判的图像内容识别方法 | |
CN113762269B (zh) | 基于神经网络的中文字符ocr识别方法、系统及介质 | |
CN108664975A (zh) | 一种维吾尔文手写字母识别方法、系统及电子设备 | |
CN110517270B (zh) | 一种基于超像素深度网络的室内场景语义分割方法 | |
CN110751606B (zh) | 一种基于神经网络算法的泡沫图像处理方法及系统 | |
CN107767416A (zh) | 一种低分辨率图像中行人朝向的识别方法 | |
CN109858570A (zh) | 图像分类方法及系统、计算机设备及介质 | |
CN112381082A (zh) | 基于深度学习的表格结构重建方法 | |
CN116012835A (zh) | 一种基于文本分割的两阶段场景文本擦除方法 | |
CN113936195A (zh) | 敏感图像识别模型的训练方法、训练装置和电子设备 | |
CN112132257A (zh) | 基于金字塔池化及长期记忆结构的神经网络模型训练方法 | |
CN112037239A (zh) | 基于多层次显式关系选择的文本指导图像分割方法 | |
CN108038467B (zh) | 一种镜像图与粗细层次结合的稀疏人脸识别方法 | |
CN110188662A (zh) | 一种水表数字的ai智能识别方法 | |
CN109815889A (zh) | 一种基于特征表示集的跨分辨率人脸识别方法 | |
CN108416389A (zh) | 基于降噪稀疏自动编码器和密度空间采样的图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |