CN111126404A - 一种基于改进YOLO v3的古文字及字体识别方法 - Google Patents

一种基于改进YOLO v3的古文字及字体识别方法 Download PDF

Info

Publication number
CN111126404A
CN111126404A CN201911277782.2A CN201911277782A CN111126404A CN 111126404 A CN111126404 A CN 111126404A CN 201911277782 A CN201911277782 A CN 201911277782A CN 111126404 A CN111126404 A CN 111126404A
Authority
CN
China
Prior art keywords
ancient
training
image
ancient character
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911277782.2A
Other languages
English (en)
Other versions
CN111126404B (zh
Inventor
董哲康
石杰
高明煜
齐冬莲
林辉品
吴俊洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201911277782.2A priority Critical patent/CN111126404B/zh
Publication of CN111126404A publication Critical patent/CN111126404A/zh
Application granted granted Critical
Publication of CN111126404B publication Critical patent/CN111126404B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于改进YOLO v3的古文字及字体识别方法。该方法基于深度学习的目标检测方法,利用深层的神经网络结构,学习到古文字图像中“整体‑部分”的分解关系,通过特征提取网络获得有用的特征信息,并进行检测定位,再将图片的特征信息送入分类器进行分类识别,并使用包围框在图像中框选出古文字的位置。该方法解决了古文字具有复杂的内部结构,以及使用这些特征进行识别时精度低的问题。本方法提出的改进YOLO v3使用ShuffleNet v2作为模型的主干结构,使其更加高效。在对古文字及字体的识别上准确率达到98.81%,并且具有较好的稳定性和良好的鲁棒性,能够应用于古文字文本、碑帖等古文字识别场景。

Description

一种基于改进YOLO v3的古文字及字体识别方法
技术领域
本发明涉及了一种基于深度学习的目标检测算法的图像识别方法,尤其是涉及了一种基于改进YOLO v3的古文字图像识别方法。
背景技术
古文字记录着古时人们的社会生活,对古文字的研究作为钥匙,打开了研究古人的生活的方便之门。古文字学在研究中国古代历史和文化具有重大作用。在一些实物资料如甲骨、青铜器、石碑、古书等上面的文字内容里,包含有许多重要的历史信息,这些古文字的释读有助于对当时社会情况的了解。但是,古文字图像非常复杂,具有丰富性和逻辑性的结构信息。古文字具有复杂的内部结构,笔画多、笔画复杂、文字的相似度高,以及不同时期书写汉字的风格多变,使得古文字的识别比现代文字识别难度更高。目前存在多为现代汉字或者手写汉字识别,光学字符识别,前者识别准确率较低,很难适用于古文字识别,后者可用于古汉字识别但不能识别其字体。
发明内容
为了解决背景技术中的识别准确率问题,本发明提出了一种基于深度学习目标检测算法改进YOLO v3的古文字图像识别方法,能高准确地识别古汉字及其字体并具有良好稳定性。
本发明的技术方案包括以下步骤:
1)根据每个字的原始数据量能否满足神经网络训练的要求和是否属于常用古汉字,收集来自互联网的古文字图片,包含三种不同字体,分别为甲骨文、金文和楚系简帛;
2)对收集的古文字图片进行扩充处理,获得古文字样本图像;
3)遍历古文字样本图像,对每张图像用包围框对古文字进行字形字体标记处理,获得对应的label文件,它与古文字样本图像共同构成图像数据集;
4)将图像数据集划分为训练验证集和测试集,将训练验证集划分为训练集和验证集,针对图像数据集中的古文字样本图像和label文件进行同比例缩放;
5)网络调整,对YOLO v3网络进行轻量化,调整后的主干网络依次为Conv0,Conv1,Stage2,Stage3,Stage4,Stage5,Stage6。Conv0和Conv1均为3×3的1步长卷积块。每个Stage的开始阶段都是一个Shuffle空间上采样单元;然后接入N个Shuffle基本单元,Stage2~Stage6的N值分别为2、4、6、6、4;Shuffle基本单元构成为:接入的通道均分为两部分后,一部分通过1×1的1步长Conv(卷积块)+3×3的1步长DWConv(深度卷积块)+1×1的1步长Conv后与另一部分进行拼接,然后进行通道随机混合。Shuffle空间上采样单元构成为:接入通道分别通过3×3的2步长DWConv+1×1的1步长Conv,1×1的1步长Conv+3×3的2步长DWConv+1×1的1步长Conv,对两者的输出进行拼接后再进行通道随机混合操作。使用通道随机混合操作,将深度不同的两个分支的卷积结果合并在一起,从而实现了高级和低级信息的特征融合;
6)模型的训练,每次选取多个训练集样本进行训练,获得训练模型,使用Adam算法基于训练数据迭代更新神经网络的权重。训练过程中在验证集样本中对训练模型进行验证,计算得到训练集以及验证集上的损失,观察网络的训练效果,最终选择损失值最小的模型作为model;
7)在测试集上对步骤6)最终获得的model进行测试,在测试集样本图像上预测并标注出古文字及字体的类别和置信度;
8)从拓印本和石碑上获取属于识别类别范围内的古文字图片,经过图像预处理后,输入model中,获得检测结果。
所述的步骤1)中,针对每个类别的古文字在数据集筛选中需要满足其数量较为充足,能够给模型的训练提供足够的样本,才能够获得更好的特征用以分类。实际筛选过程中,选择的是原始图片超过30张的古文字作为数据集。整个数据集包含三种字体100个字共计4000张原始图片。
所述步骤2)中,使用到数据增强,一般而言神经网络的参数都是数以百万计,而要得到可以正确工作的参数需要大量的数据进行训练。为了增加训练的数据量,提高模型的泛化能力,本方法增加了噪声数据,提升模型的鲁棒性。对图片进行缩放、调整亮度与对比度、翻转、旋转、添加噪声、模糊等操作;
所述步骤3)中,利用标注工具对图片集进行标定,使用一个长方形框作为包围框将古文字框定并标定其真实类别,将长方形框的左上角和右下角的横纵坐标以及标定类别信息记录在.xml类型的label文件中,每张图片对应一个label文件,每张古文字图片最多含有一个包围框。步骤3)中的数据集则是按上述方法获得。
所述步骤4)中,调整图像尺寸为416×416,对应的label文件也作同比例缩放,然后将数据集按照大约2:1的比例区分训练验证集和测试集,训练验证集再按照大约9:1的比例区分测试集和验证集。
图像缩放使用的方法为双线性插值法,其原理如下::
记图像的映射函数为f,在任意点(i,j),其像素值为y=f(i,j),其中0<i≤w,0<j≤h,且i,j为整数,w,h分别为图像宽度和高度。已知f(x1,y1),f(x2,y2),f(x3,y3),f(x4,y4),要插值的点为f(x,y):
在x轴方向线性插值,由实心圆表示的点得到空心圆表示的点:
Figure BDA0002313695920000031
Figure BDA0002313695920000032
得到:
Figure BDA0002313695920000033
Figure BDA0002313695920000034
在y轴方向线性插值,由空心圆表示的点得到三角形表示的点:
Figure BDA0002313695920000035
得到:
Figure BDA0002313695920000036
最后结果:
Figure BDA0002313695920000037
所述步骤5)中,DWConv的构成为:卷积层+批归一化层,Conv的构成为:卷积层+批归一化层+带泄露修正线性单元层。
所述步骤6)中,每次选取12个训练集样本构成mini-batch进行训练。每个mini-batch是一次迭代训练中随机选择训练数据集的一个小部分,所有mini-batch构成整个训练数据集。每一次迭代训练过程中,每个mini-batch不尽相同,这样的随机性有助于降低模型训练过程中停止在鞍点(Saddle Point)和局部最小点(Local Minimum)的可能性,提升模型的训练速度。同时还引入了批标准化(Batch Normalization)处理,对每个隐藏层神经元,把逐渐向非线性函数映射后向取值区间极限饱和区靠拢的输入分布强制拉回到均值为0方差为1的比较标准的正态分布,使得非线性变换函数的输入值落在对输入比较敏感的区域,以此避免梯度消失问题。批标准化的使用还能够防止过拟合问题,因此删除了网络中的Dropout层。在参数训练中使用Adam(Adaptive Moment Estimation,自适应矩估计)算法替代SGD(Stochastic Gradient Descent,随机梯度下降)算法,所需内存更少,计算更高效。
所述步骤7)中,改进YOLO v3借鉴了特征金字塔,通过上采样和融合的方法,获得13×13,26×26,52×52这三个尺度的特征图并进行预测。输入古文字的图像,使用步骤4)所述的双线性插值方法对图像进行缩放后输入给模型,最终在三个尺度的特征图上分别作预测。
所述步骤8)中,从拓印本和石碑上获取属于识别类别范围内的古文字图片是指使用相机拍摄的拓印本和石碑的照片,然后从中裁剪出属于模型识别范围内的古汉字图片。
本发明具有的有益的效果是:
该方法解决了传统识别方法在古文字识别上精确度低的问题,以及缺少利用深度学习的目标检测算法对古汉字及字体进行检测识别。基于测试集的测试结果,该方法在对古文字及字体上的检测识别均值平均精度可达98.81%。同时对取自拓印本和石碑的古文字图片进行识别的结果表明,该识别方法的准确率达到85.51%,可应用于古文字文本、碑帖等识别。
附图说明
图1为本方法实施例采用的ShuffleNet的基本构件。
图2为本方法实施例古文字图像数据集示例。
图3为本方法实施例数据增强效果图。
图4为本方法实施例采用的双线性插值示意图。
图5为本方法实施例获得识别模型的算法流程图。
图6为本方法实施例采用的改进YOLO v3网络框架结构图。
图7为本方法实施例获得的拓印本古文字示意图。
图8为本方法实施例识别结果图。
具体实施方式
下面结合附图5及具体实施例对本发明作进一步详细说明。
1)根据每个字的原始数据量能否满足神经网络训练的要求和是否属于常用古汉字,选择的原始图片超过30张的古文字作为数据集。整个数据集包含甲骨文、金文和楚系简帛这三种字体100个字共计4000张原始图片,如图2所示;
2)对收集的古文字图片进行扩充处理,获得古文字样本图像;
所述步骤2)中,使用到数据增强,一般而言神经网络的参数都是数以百万计,而要得到可以正确工作的参数需要大量的数据进行训练。为了增加训练的数据量,提高模型的泛化能力,本方法增加了噪声数据,提升模型的鲁棒性。对图片进行缩放、调整亮度与对比度、翻转、旋转、添加噪声、模糊等操作(增强效果见图3)。图3中(a1)为楚系简帛的“夏”字的原始图片,(a2)为进行翻转和添加背景噪声的图片,(b1)为楚系简帛的“君”字的原始图片,(b2)为进行背景加噪和模糊的图片。
3)遍历古文字样本图像,对每张图像用包围框对古文字进行字形字体标记处理,获得对应的label文件,它与古文字样本图像共同构成图像数据集;
对每张图像用包围框对古文字进行字形字体标记处理具体为:利用标注工具对图片集进行标定,使用一个长方形框作为包围框将古文字框定并标定其真实类别,将长方形框的左上角和右下角的横纵坐标以及标定类别信息记录在.xml类型的label文件中,每张图片对应一个label文件,每张古文字图片最多含有一个包围框。
4)将图像数据集划分为训练验证集和测试集,将训练验证集划分为训练集和验证集,针对图像数据集中的古文字样本图像和label文件进行同比例缩放;调整图像尺寸为416×416,对应的label文件也作同比例缩放,然后将数据集按照大约2:1的比例区分训练验证集和测试集,训练验证集再按照大约9:1的比例区分测试集和验证集。
图像缩放使用的方法为双线性插值法,其原理如下::
记图像的映射函数为f,在任意点(i,j),其像素值为y=f(i,j),其中0<i≤w,0<j≤h,且i,j为整数,w,h分别为图像宽度和高度。已知f(x1,y1),f(x2,y2),f(x3,y3),f(x4,y4),要插值的点为f(x,y):
在x轴方向线性插值,如图4(a)所示由实心圆表示的点得到空心圆表示的点:
Figure BDA0002313695920000051
Figure BDA0002313695920000052
得到:
Figure BDA0002313695920000053
Figure BDA0002313695920000054
在y轴方向线性插值,如图4(b)所示由空心圆表示的点得到三角形表示的点:
Figure BDA0002313695920000061
得到:
Figure BDA0002313695920000062
最后结果:
Figure BDA0002313695920000063
5)网络调整,对YOLO v3网络进行轻量化,调整后的主干网络依次为Conv0,Conv1,Stage2,Stage3,Stage4,Stage5,Stage6。Conv0和Conv1均为3×3的1步长卷积块。每个Stage的开始阶段都是一个Shuffle空间上采样单元;然后接入N个Shuffle基本单元,Stage2~Stage6的N值分别为2、4、6、6、4;Shuffle基本单元构成为:接入的通道均分为两部分后,一部分通过1×1的1步长Conv(卷积块)+3×3的1步长DWConv(深度卷积块)+1×1的1步长Conv后与另一部分进行拼接,然后进行通道随机混合。Shuffle空间上采样单元构成为:接入通道分别通过3×3的2步长DWConv+1×1的1步长Conv,1×1的1步长Conv+3×3的2步长DWConv+1×1的1步长Conv,对两者的输出进行拼接后再进行通道随机混合操作。使用通道随机混合操作,将深度不同的两个分支的卷积结果合并在一起,从而实现了高级和低级信息的特征融合;其中DWConv的构成为:卷积层+批归一化层,Conv的构成为:卷积层+批归一化层+带泄露修正线性单元层,如图1所示;
6)模型的训练
每次选取12个训练集样本构成mini-batch进行训练。每个mini-batch是一次迭代训练中随机选择训练数据集的一个小部分,所有mini-batch构成整个训练数据集。每一次迭代训练过程中,每个mini-batch不尽相同,这样的随机性有助于降低模型训练过程中停止在鞍点(Saddle Point)和局部最小点(Local Minimum)的可能性,提升模型的训练速度。同时还引入了批标准化(Batch Normalization)处理,对每个隐藏层神经元,把逐渐向非线性函数映射后向取值区间极限饱和区靠拢的输入分布强制拉回到均值为0方差为1的比较标准的正态分布,使得非线性变换函数的输入值落在对输入比较敏感的区域,以此避免梯度消失问题。批标准化的使用还能够防止过拟合问题,因此删除了网络中的Dropout层。在参数训练中使用Adam(Adaptive Moment Estimation,适应性矩估计)算法替代传统随机梯度下降(Stochastic Gradient Decscent)算法,所需内存更少,计算更高效。
7)在测试集上对步骤6)最终获得的model进行测试,在测试集样本图像上预测并标注出古文字及字体的类别和置信度;
改进YOLO v3借鉴了特征金字塔,通过上采样和融合的方法,获得13×13,26×26,52×52这三个尺度的特征图并进行预测。改进YOLO v3的网络框架结构如图6所示,输入古文字的图像,使用步骤4)所述的双线性插值方法对图像进行缩放后输入给模型,最终在三个尺度的特征图上分别作预测。
8)从拓印本和石碑上获取属于识别类别范围内的古文字图片是指使用相机拍摄的拓印本和石碑的照片,然后从中裁剪出属于模型识别范围内的古汉字图片,如图7所示。
本发明的实施例如下:
实验图片共有20000张,其中用于训练的图片有13200张,测试图片6800张,包含100种古文字及字体类别。
采用本文训练的检测模型model去检测古文字测试集图片,得到的结果(部分)如表1所示:
表1古文字检测结果
Figure BDA0002313695920000071
其中缺省格表示无此类别。由表可知,对测试图片的均值平均精度(mAP)达到98.81%,其中14个类别的AP(平均精度)如图8所示:甲骨文的“夏”、“德”、“牢”、“礼”为99.92%、97.38%、99.73%、99.57%,对金文的“德”、“皇”、“君”、“公”为99.57%、97.32%、99.23%、97.67%,对楚系简帛的“夏”、“牢”、“礼”、“君”、“公”、“乐”为97.38%、97.03%、99.62%、99.89%、98.79%、99.04%。
由此可见,本发明能够实现古文字及字体的识别,并具有较高的准确率,并且具有稳定性好,抗干扰能力强,通用性高等优点,能够应用于古文字文本、碑帖等识别系统中。
上述具体实施方式用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (9)

1.一种基于改进YOLO v3的古文字及字体识别方法,其特征在于,包括以下步骤:
1)根据每个字的原始数据量能否满足神经网络训练的要求和是否属于常用古汉字,收集来自互联网的古文字图片,包含三种不同字体,分别为甲骨文、金文和楚系简帛;
2)对收集的古文字图片进行扩充处理,获得古文字样本图像;
3)遍历古文字样本图像,对每张图像用包围框对古文字进行字形字体标记处理,获得对应的label文件,它与古文字样本图像共同构成图像数据集;
4)将图像数据集划分为训练验证集和测试集,将训练验证集划分为训练集和验证集,针对图像数据集中的古文字样本图像和label文件进行同比例缩放;
5)网络调整,对YOLO v3网络进行轻量化,调整后的主干网络依次为Conv0,Conv1,Stage2,Stage3,Stage4,Stage5,Stage6;Conv0和Conv1均为3×3的1步长卷积块;每个Stage的开始阶段都是一个Shuffle空间上采样单元;然后接入N个Shuffle基本单元,Stage2~Stage6的N值依次为2、4、6、6、4;Shuffle基本单元构成为:接入的通道均分为两部分后,一部分通过1×1的1步长Conv+3×3的1步长DWConv+1×1的1步长Conv后与另一部分进行拼接,然后进行通道随机混合;Shuffle空间上采样单元构成为:接入通道分别通过3×3的2步长DWConv+1×1的1步长Conv,1×1的1步长Conv+3×3的2步长DWConv+1×1的1步长Conv,对两者的输出进行拼接后再进行通道随机混合操作;使用通道随机混合操作,将深度不同的两个分支的卷积结果合并在一起,从而实现了高级和低级信息的特征融合,其中DWConv为深度卷积块;
6)模型的训练,每次选取多个训练集样本进行训练,获得训练模型,使用Adam算法基于训练数据迭代更新神经网络的权重;训练过程中在验证集样本中对训练模型进行验证,计算得到训练集以及验证集上的损失,观察网络的训练效果,最终选择损失值最小的模型作为model;
7)在测试集上对步骤6)最终获得的model进行测试,在测试集样本图像上预测并标注出古文字及字体的类别和置信度;
8)从拓印本和石碑上获取属于识别类别范围内的古文字图片,经过图像预处理后,输入model中,获得检测结果。
2.根据权利要求1所述的一种基于改进YOLO v3的古文字及字体识别方法,其特征在于:所述的步骤1)中,;选择的是原始图片,超过30张的古文字图片作为数据集;整个数据集包含三种字体100个字共计4000张原始图片。
3.根据权利要求1所述的一种基于改进YOLO v3的古文字及字体识别方法,其特征在于:对收集的古文字图片进行扩充处理具体为对图片进行缩放、调整亮度与对比度、翻转、旋转、添加噪声、模糊。
4.根据权利要求1所述的一种基于改进YOLO v3的古文字及字体识别方法,其特征在于:所述步骤3)中,对每张图像用包围框对古文字进行字形字体标记处理,具体为:利用标注工具对图片集进行标定,使用一个长方形框作为包围框将古文字框定并标定其真实类别,将长方形框的左上角和右下角的横纵坐标以及标定类别信息记录在.xml类型的label文件中,每张图片对应一个label文件,每张古文字图片最多含有一个包围框。
5.根据权利要求1所述的一种基于改进YOLO v3的古文字及字体识别方法,其特征在于:所述步骤4)中,调整图像尺寸为416×416,对应的label文件也作同比例缩放,然后将数据集按照大约2:1的比例区分训练验证集和测试集,训练验证集再按照大约9:1的比例区分测试集和验证集;
图像缩放使用的方法为双线性插值法,其原理如下:
记图像的映射函数为f,在任意点(i,j),其像素值为y=f(i,j),其中0<i≤w,0<j≤h,且i,j为整数,w,h分别为图像宽度和高度;已知f(x1,y1),f(x2,y2),f(x3,y3),f(x4,y4)为图像上任意四个点,要插值的点为f(x,y):
在x轴方向线性插值;
Figure FDA0002313695910000021
Figure FDA0002313695910000022
得到:
Figure FDA0002313695910000023
Figure FDA0002313695910000024
在y轴方向线性插值:
Figure FDA0002313695910000025
得到:
Figure FDA0002313695910000026
最后结果:
Figure FDA0002313695910000031
6.根据权利要求1所述的一种基于改进YOLO v3的古文字及字体识别方法,其特征在于:所述步骤5)中,DWConv的构成为:卷积层+批归一化层,Conv的构成为:卷积层+批归一化层+带泄露修正线性单元层。
7.根据权利要求1所述的一种基于改进YOLO v3的古文字及字体识别方法,其特征在于:所述步骤6)中,每次选取12个训练集样本构成mini-batch进行训练;每个mini-batch是一次迭代训练中随机选择训练数据集的一个小部分,所有mini-batch构成整个训练数据集;每一次迭代训练过程中,每个mini-batch不尽相同,这样的随机性有助于降低模型训练过程中停止在鞍点和局部最小点的可能性,提升模型的训练速度;同时引入了批标准化处理,对每个隐藏层神经元,把逐渐向非线性函数映射后向取值区间极限饱和区靠拢的输入分布强制拉回到均值为0方差为1的比较标准的正态分布,使得非线性变换函数的输入值落在对输入比较敏感的区域,以此避免梯度消失问题。
8.根据权利要求1所述的一种基于改进YOLO v3的古文字及字体识别方法,其特征在于:所述步骤7)中,YOLO v3借鉴了特征金字塔,通过上采样和融合的方法,获得13×13,26×26,52×52三个尺度的特征图并进行预测;输入古文字的图像,使用步骤4)所述的双线性插值方法对图像进行缩放后输入给模型,最终在三个尺度的特征图上分别作预测。
9.根据权利要求1所述的一种基于改进YOLO v3的古文字及字体识别方法,其特征在于:所述步骤8)中,从拓印本和石碑上获取属于识别类别范围内的古文字图片是指使用相机拍摄的拓印本和石碑的照片,然后从中裁剪出属于模型识别范围内的古汉字图片。
CN201911277782.2A 2019-12-11 2019-12-11 一种基于改进YOLO v3的古文字及字体识别方法 Active CN111126404B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911277782.2A CN111126404B (zh) 2019-12-11 2019-12-11 一种基于改进YOLO v3的古文字及字体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911277782.2A CN111126404B (zh) 2019-12-11 2019-12-11 一种基于改进YOLO v3的古文字及字体识别方法

Publications (2)

Publication Number Publication Date
CN111126404A true CN111126404A (zh) 2020-05-08
CN111126404B CN111126404B (zh) 2023-08-22

Family

ID=70498544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911277782.2A Active CN111126404B (zh) 2019-12-11 2019-12-11 一种基于改进YOLO v3的古文字及字体识别方法

Country Status (1)

Country Link
CN (1) CN111126404B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767854A (zh) * 2020-06-29 2020-10-13 浙江大学 一种结合场景文本语义信息的slam回环检测方法
CN111964723A (zh) * 2020-08-18 2020-11-20 合肥金果缘视觉科技有限公司 一种基于人工智能的花生米短芽检测系统
CN112418208A (zh) * 2020-12-11 2021-02-26 华中科技大学 基于Tiny-YOLO v3的焊缝胶片字符识别方法
CN113030108A (zh) * 2021-03-08 2021-06-25 哈尔滨工程大学 一种基于机器视觉的涂层缺陷检测系统与方法
CN113034548A (zh) * 2021-04-25 2021-06-25 安徽科大擎天科技有限公司 一种适用于嵌入式终端的多目标跟踪方法及其系统
CN113221823A (zh) * 2021-05-31 2021-08-06 南通大学 一种基于改进轻量级YOLOv3的交通信号灯倒计时识别方法
CN113486898A (zh) * 2021-07-08 2021-10-08 西安电子科技大学 一种基于改进ShuffleNet的雷达信号RD图像干扰辨识方法及系统
CN114092700A (zh) * 2021-11-25 2022-02-25 吉林大学 基于目标检测和知识图谱的古文字识别方法
CN115205164A (zh) * 2022-09-15 2022-10-18 腾讯科技(深圳)有限公司 图像处理模型的训练方法、视频处理方法、装置及设备
CN113486898B (zh) * 2021-07-08 2024-05-31 西安电子科技大学 一种基于改进ShuffleNet的雷达信号RD图像干扰辨识方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170147905A1 (en) * 2015-11-25 2017-05-25 Baidu Usa Llc Systems and methods for end-to-end object detection
CN108830192A (zh) * 2018-05-31 2018-11-16 珠海亿智电子科技有限公司 车载环境下基于深度学习的车辆与车牌检测方法
CN110490874A (zh) * 2019-09-04 2019-11-22 河海大学常州校区 基于yolo神经网络的纺织布匹表面瑕疵检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170147905A1 (en) * 2015-11-25 2017-05-25 Baidu Usa Llc Systems and methods for end-to-end object detection
CN108830192A (zh) * 2018-05-31 2018-11-16 珠海亿智电子科技有限公司 车载环境下基于深度学习的车辆与车牌检测方法
CN110490874A (zh) * 2019-09-04 2019-11-22 河海大学常州校区 基于yolo神经网络的纺织布匹表面瑕疵检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李思瑶;刘宇红;张荣芬;: "基于迁移学习与模型融合的犬种识别方法" *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767854B (zh) * 2020-06-29 2022-07-01 浙江大学 一种结合场景文本语义信息的slam回环检测方法
CN111767854A (zh) * 2020-06-29 2020-10-13 浙江大学 一种结合场景文本语义信息的slam回环检测方法
CN111964723A (zh) * 2020-08-18 2020-11-20 合肥金果缘视觉科技有限公司 一种基于人工智能的花生米短芽检测系统
CN112418208A (zh) * 2020-12-11 2021-02-26 华中科技大学 基于Tiny-YOLO v3的焊缝胶片字符识别方法
CN112418208B (zh) * 2020-12-11 2022-09-16 华中科技大学 基于Tiny-YOLO v3的焊缝胶片字符识别方法
CN113030108A (zh) * 2021-03-08 2021-06-25 哈尔滨工程大学 一种基于机器视觉的涂层缺陷检测系统与方法
CN113034548A (zh) * 2021-04-25 2021-06-25 安徽科大擎天科技有限公司 一种适用于嵌入式终端的多目标跟踪方法及其系统
CN113221823A (zh) * 2021-05-31 2021-08-06 南通大学 一种基于改进轻量级YOLOv3的交通信号灯倒计时识别方法
CN113486898A (zh) * 2021-07-08 2021-10-08 西安电子科技大学 一种基于改进ShuffleNet的雷达信号RD图像干扰辨识方法及系统
CN113486898B (zh) * 2021-07-08 2024-05-31 西安电子科技大学 一种基于改进ShuffleNet的雷达信号RD图像干扰辨识方法及系统
CN114092700A (zh) * 2021-11-25 2022-02-25 吉林大学 基于目标检测和知识图谱的古文字识别方法
CN114092700B (zh) * 2021-11-25 2022-09-20 吉林大学 基于目标检测和知识图谱的古文字识别方法
CN115205164A (zh) * 2022-09-15 2022-10-18 腾讯科技(深圳)有限公司 图像处理模型的训练方法、视频处理方法、装置及设备
CN115205164B (zh) * 2022-09-15 2022-12-13 腾讯科技(深圳)有限公司 图像处理模型的训练方法、视频处理方法、装置及设备

Also Published As

Publication number Publication date
CN111126404B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN111126404A (zh) 一种基于改进YOLO v3的古文字及字体识别方法
CN110059694B (zh) 电力行业复杂场景下的文字数据的智能识别方法
CN111080628B (zh) 图像篡改检测方法、装置、计算机设备和存储介质
CN109800754B (zh) 一种基于卷积神经网络的古字体分类方法
CN111325203B (zh) 一种基于图像校正的美式车牌识别方法及系统
CN106803069B (zh) 基于深度学习的人群高兴程度识别方法
CN107273502B (zh) 一种基于空间认知学习的图像地理标注方法
CN113128442B (zh) 基于卷积神经网络的汉字书法风格识别方法和评分方法
CN110675368B (zh) 一种融合图像分割与分类的细胞图像语义分割方法
CN104881662B (zh) 一种单幅图像行人检测方法
CN110175613A (zh) 基于多尺度特征和编解码器模型的街景图像语义分割方法
CN110517270B (zh) 一种基于超像素深度网络的室内场景语义分割方法
CN110751606B (zh) 一种基于神经网络算法的泡沫图像处理方法及系统
CN113936195B (zh) 敏感图像识别模型的训练方法、训练装置和电子设备
CN107767416A (zh) 一种低分辨率图像中行人朝向的识别方法
CN114663665A (zh) 基于梯度的对抗样本生成方法与系统
CN110348339B (zh) 一种基于实例分割的手写文档文本行的提取方法
CN112839185A (zh) 用于处理图像的方法、装置、设备和介质
CN107729992B (zh) 一种基于反向传播的深度学习方法
CN110659724A (zh) 一种基于目标尺度范围的目标检测卷积神经网络构建方法
CN109815889A (zh) 一种基于特征表示集的跨分辨率人脸识别方法
CN115512331A (zh) 一种交通标志检测方法、装置、计算机设备及计算机可读存储介质
CN110909161B (zh) 基于密度聚类和视觉相似度的英文单词分类方法
CN111931665B (zh) 一种基于类内变化字典建模的欠采样人脸识别方法
CN114170589A (zh) 一种基于nas的岩石岩性识别方法、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant