CN113837186A - 一种基于卷积神经网络的东巴象形文字识别方法及装置 - Google Patents

一种基于卷积神经网络的东巴象形文字识别方法及装置 Download PDF

Info

Publication number
CN113837186A
CN113837186A CN202111427357.4A CN202111427357A CN113837186A CN 113837186 A CN113837186 A CN 113837186A CN 202111427357 A CN202111427357 A CN 202111427357A CN 113837186 A CN113837186 A CN 113837186A
Authority
CN
China
Prior art keywords
image
network model
residual error
pictograph
dongba
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111427357.4A
Other languages
English (en)
Inventor
毕晓君
骆彦龙
李霞丽
赵悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Minzu University of China
Original Assignee
Minzu University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Minzu University of China filed Critical Minzu University of China
Priority to CN202111427357.4A priority Critical patent/CN113837186A/zh
Publication of CN113837186A publication Critical patent/CN113837186A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本公开是关于一种基于卷积神经网络的东巴象形文字识别方法及装置。基于卷积神经网络的东巴象形文字识别方法包括:获取待识别图像,待识别图像中包括东巴象形文字;基于深度残差网络模型对待识别图像进行特征识别,得到东巴象形文字对应的文字释义,深度残差网络模型包括至少一个残差跳跃连接结构,残差跳跃连接结构包括多个相邻堆叠的卷积层。通过本公开实施例,能够提高东巴象形文字识别的准确率。

Description

一种基于卷积神经网络的东巴象形文字识别方法及装置
技术领域
本公开涉及图像识别技术领域,尤其涉及一种基于卷积神经网络的东巴象形文字识别方法及装置。
背景技术
东巴象形文字由纳西族祖先创造,至今已有两千多年的历史,可以用来写信、记账、写诗作文,至今仍被使用,因此被称为世界上“唯一活着的象形文字”。目前流传于世的东巴经典多达三万余卷,共一千四百多种,但是这些珍贵的经典大部分还无法破译,被人们称为“沉睡的宝藏”。东巴经典自古以来都由东巴口耳相传记在心中,离开东巴就无法释读东巴经典,他们现都年事已高,人类这一文明瑰宝即将面临无人释读的濒危状况。
东巴象形文字具有书写随意性大、部分文字相似度高、异体字多等特点,对其进行识别研究有很大的难度。深度学习模型是目前公认的识别效果最好的方法,如何根据东巴象形文字的图画特点,合理设计深度学习模型结构,提取更多东巴象形文字图像特征,取得优异的识别效果成为亟需解决的问题。
发明内容
为克服相关技术中存在的问题,本公开提供一种基于卷积神经网络的东巴象形文字识别方法及装置。
根据本公开实施例的第一方面,提供一种基于卷积神经网络的东巴象形文字识别方法,所述基于卷积神经网络的东巴象形文字识别方法包括:获取待识别图像,所述待识别图像中包括象形文字;基于深度残差网络模型对所述待识别图像进行特征识别,得到所述东巴象形文字对应的文字释义,所述深度残差网络模型包括至少一个残差跳跃连接结构,所述残差跳跃连接结构包括多个相邻堆叠的卷积层。
在一些实施例中,所述深度残差网络模型包括多个卷积层以及多个最大池化层,所述深度残差网络模型包括多个卷积层以及多个最大池化层,所述多个卷积层用于提取所述待识别图像的第一特征图像;所述最大池化层用于对所述待识别图像的第一特征图像进行下采样。
在一些实施例中,所述深度残差网络模型还包括平均池化层以及全连接层,基于深度残差网络模型对所述待识别图像进行特征识别,得到所述东巴象形文字对应的文字释义,包括:基于所述平均池化层整合相邻所述卷积层输出的第一特征图像中的特征信息,得到第二特征图像;通过所述全连接层对所述第二特征图像进行特征转换,得到第三特征图像;基于所述第三特征图像,得到所述东巴象形文字对应的文字释义。
在一些实施例中,所述深度残差网络模型的输入为多个所述东巴象形文字图像,所述深度残差网络模型的输出为多个所述东巴象形文字图像分别对应的文字释义,所述深度残差网络模型采用如下方式训练得到:获取训练样本与测试样本,其中,所述训练样本与所述测试样本中包括多个东巴象形文字图像;利用所述训练样本对所述深度残差网络模型进行多次迭代训练,并利用所述测试样本对所述深度残差网络模型进行评估,得到所述深度残差网络模型。
在一些实施例中,所述获取训练样本与测试样本,包括:基于所述东巴象形文字的书写规律,创建所述东巴象形文字对应的同属异体字,其中,具有相同文字释义的所述东巴象形文字对应至少一个所述同属异体字;将多个所述同属异体字确定为所述训练样本与所述测试样本。
在一些实施例中,所述利用训练样本对所述深度残差网络模型进行多次迭代训练,并利用所述测试样本对所述深度残差网络模型进行评估,得到所述深度残差网络模型,包括:基于梯度优化函数,利用所述训练样本对所述深度残差网络模型进行多次迭代训练,所述梯度优化函数包括适应性矩估计函数;以及基于损失函数,利用所述测试样本对所述深度残差网络模型进行评估,所述损失函数包括交叉熵函数。
在一些实施例中,所述残差跳跃连接结构还包括:批量归一化层以及修正线性单元层,所述批量归一化层用于对所述卷积层执行批量归一化操作,所述修正线性单元用于作为所述残差跳跃连接结构的激活函数。
在一些实施例中,所述方法还包括:对所述待识别图像进行预处理,所述预处理包括以下至少一种方式:对所述待识别图像进行灰度化处理、进行所述待识别图像的二值化处理、所述待识别图像的尺寸归一化处理以及对所述待识别图像的编码标注。
根据本公开实施例的第二方面,提供一种基于卷积神经网络的东巴象形文字识别装置,基于卷积神经网络的东巴象形文字识别装置包括:获取单元,用于获取待识别图像,所述待识别图像中包括象形文字;确定单元,用于基于深度残差网络模型对所述待识别图像进行特征识别,得到所述东巴象形文字对应的文字释义,所述深度残差网络模型包括至少一个残差跳跃连接结构,所述残差跳跃连接结构包括多个相邻堆叠的卷积层。
在一些实施例中,所述深度残差网络模型包括多个卷积层以及多个最大池化层,所述多个卷积层用于提取所述待识别图像的第一特征图像;所述最大池化层用于对所述待识别图像的第一特征图像进行下采样。
在一些实施例中,所述深度残差网络模型还包括平均池化层以及全连接层,所述确定单元采用如下方式基于深度残差网络模型对所述待识别图像进行特征识别,得到所述东巴象形文字对应的文字释义:基于所述平均池化层整合相邻所述卷积层输出的第一特征图像中的特征信息,得到第二特征图像;通过所述全连接层对所述第二特征图像进行特征转换,得到第三特征图像;基于所述第三特征图像,得到所述东巴象形文字对应的文字释义。
在一些实施例中,所述深度残差网络模型的输入为多个所述东巴象形文字图像,所述深度残差网络模型的输出为多个所述东巴象形文字图像分别对应的文字释义,所述深度残差网络模型采用如下方式训练得到:获取训练样本与测试样本,其中,所述训练样本与所述测试样本中包括多个东巴象形文字图像;利用所述训练样本对所述深度残差网络模型进行多次迭代训练,并利用所述测试样本对所述深度残差网络模型进行评估,得到所述深度残差网络模型。
在一些实施例中,所述获取训练样本与测试样本,包括:基于所述东巴象形文字的书写规律,创建所述东巴象形文字对应的同属异体字,其中,具有相同文字释义的所述东巴象形文字对应至少一个所述同属异体字;将多个所述同属异体字确定为所述训练样本与所述测试样本。
在一些实施例中,所述利用训练样本对所述深度残差网络模型进行多次迭代训练,并利用所述测试样本对所述深度残差网络模型进行评估,得到所述深度残差网络模型,包括:基于梯度优化函数,利用所述训练样本对所述深度残差网络模型进行多次迭代训练,所述梯度优化函数包括适应性矩估计函数;以及基于损失函数,利用所述测试样本对所述深度残差网络模型进行评估,所述损失函数包括交叉熵函数。
在一些实施例中,所述残差跳跃连接结构还包括:批量归一化层以及修正线性单元层,所述批量归一化层用于对所述卷积层执行批量归一化操作,所述修正线性单元用于作为所述残差跳跃连接结构的激活函数。
在一些实施例中,所述基于卷积神经网络的东巴象形文字识别装置还包括:预处理单元,用于对所述待识别图像进行预处理,所述预处理包括以下至少一种方式:对所述待识别图像进行灰度化处理、进行所述待识别图像的二值化处理、所述待识别图像的尺寸归一化处理以及对所述待识别图像的编码标注。
根据本公开实施例的第三方面,提供一种基于卷积神经网络的东巴象形文字识别装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为:执行前述任意一项所述的基于卷积神经网络的东巴象形文字识别方法。
根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,当存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行前述任意一项所述的基于卷积神经网络的东巴象形文字识别方法。
本公开的实施例提供的技术方案可以包括以下有益效果:通过获取包括东巴象形文字的待识别图像,基于深度残差网络模型对待识别图像进行特征识别,并确定东巴象形文字对应的文字释义,深度残差网络模型包括至少一个残差跳跃连接结构,残差跳跃连接结构包括多个相邻堆叠的卷积层,有效利用特征图,降低网络参数量和复杂度,提高东巴象形文字识别的准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据本公开一示例性实施例示出的一种基于卷积神经网络的东巴象形文字识别方法的流程图。
图2是根据本公开一示例性实施例示出的东巴象形文字识别网络框架图。
图3是根据本公开一示例性实施例示出的残差跳跃连接结构示意图。
图4是根据本公开一示例性实施例示出的一种训练深度残差网络模型方法的流程图。
图5是根据本公开一示例性实施例示出的一种获取训练样本与测试样本方法的流程图。
图6是根据本公开一示例性实施例示出的创建同一东巴象形文字对应的多个异体字示意图。
图7是根据本公开一示例性实施例示出的利用训练样本对深度残差网络模型进行多次迭代训练,并利用测试样本对深度残差网络模型进行评估,得到深度残差网络模型方法的流程图。
图8是根据本公开一示例性实施例示出的一种基于卷积神经网络的东巴象形文字识别方法的流程图。
图9a-图9b示出了移动终端中识别东巴象形文字的应用示意图。
图10是根据本公开一示例性实施例示出的一种基于卷积神经网络的东巴象形文字识别装置框图。
图11是根据本公开又一示例性实施例示出的一种基于卷积神经网络的东巴象形文字识别装置框图。
图12根据本公开一示例性实施例示出的一种用于基于卷积神经网络的东巴象形文字识别的装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
东巴文作为一种复杂的象形文字,由纳西族祖先创造,其书写符号属于象形文字,2003年,东巴古籍文献被联合国教科文组织列为“世界记忆遗产”名录,在世界语言文字研究中的重要地位和巨大影响力,是人类共同拥有的宝贵财富。东巴象形文字的识别一直是研究的热点和重点,然而,仅有少数相关领域的专家才能读懂其文字释义。
东巴象形文字内容广泛、字数多,可分为天文、地理、建筑等;相似度高,结构相似的东巴象形文字因其细节部分不同,其字义亦不同;书写随意性较大,不同人书写的东巴象形文字会有不规则的形变。当前技术中,东巴象形文字识别存在识别字数少且识别准确率低等问题。
由此,本公开提供一种东巴象形文字识别方法,基于深度残差网络模型进行东巴象形文字的识别,确定东巴象形文字对应的文字释义,提高东巴象形文字识别的准确率。
图1是根据本公开一示例性实施例示出的一种基于卷积神经网络的东巴象形文字方法的流程图,如图1所示,该方法包括以下步骤。
在步骤S101中,获取待识别图像,待识别图像中包括东巴象形文字。
在步骤S102中,基于深度残差网络模型对待识别图像进行特征识别,得到东巴象形文字对应的文字释义,深度残差网络模型包括至少一个残差跳跃连接结构,残差跳跃连接结构包括多个相邻堆叠的卷积层。
在本公开实施例中,获取东巴象形文字的待识别图像,可以是通过终端中的图像采集装置拍摄包括东巴象形文字的图片,还可以是获取来自网络或者终端图库中东巴象形文字的图片。
在本公开实施例中,基于深度残差网络模型对待识别图像进行特征识别,从而确定东巴象形文字对应的文字释义。在本公开实施例中,采用ResNet模型作为基准模型,ResNet模型包含残差连接(Residual Connection)结构,能够改善网络加深带来的梯度消失,有效提取更多的图像细节特征。
根据本公开实施例,采用改进的ResNet模型,获取包括东巴象形文字的待识别图像,基于改进的ResNet模型对待识别图像进行特征识别,改进的ResNet模型包括至少一个残差跳跃连接结构,能够有效利用特征图像,降低网络参数量和复杂度,确定东巴象形文字对应的文字释义,提高东巴象形文字识别的准确率。
图2是根据本公开一示例性实施例示出的东巴象形文字识别网络框架图,改进的ResNet模型中包括输入层、特征提取层、下采样层、以及全连接层。
在本公开实施例中,改进的ResNet模型输入层输入图像的分辨率可以是64×64,也可以是其它分辨率的图像,例如,80×80、112×112等。可以理解地,输入图像可以是单通道图像,也可以是多通道图像。特征提取层,由残差跳跃连接结构堆叠而成,能够解决神经网络随着深度增加出现性能退化的问题。将神经网络的恒等映射H(x)=x设计为H(x)=F(x)+x,能够将神经网络难学习的恒等映射转化为容易学习的残差映射F(x)= H(x)-x,并且F(x)对输出变化更加敏感,参数的调整幅度更大,从而加快学习速度,提高网络的优化性能。
在本公开实施例中,改进的ResNet模型将最大池化层作为下采样层,能够使输入的特征图经过最大池化层后尺寸缩减。最大池化层的大小可以是2×2,也可以为其它大小,例如3×3、4×4等。例如,最大池化层大小为2×2,步长为2时,经过该最大池化层的特征图尺寸缩减为输入的特征图尺寸的二分之一。最大池化层大小为4×4,步长为4时,其可将输入的特征图大小缩减为原来的四分之一。可以理解地,下采样层也可以选择平均池化、混合池化等。
在本公开实施例中,全连接层用于将下采样后的特征图像进行特征转换,以识别东巴象形文字的中文释义。
参照图2,本公开实施例中的改进的ResNet模型在进行东巴象形文字的识别时,输入的待识别东巴象形文字图像为64×64×1,即图像大小为64×64,通道数为1。最大池化层大小为2×2,步长为2。输入的待识别东巴象形文字图像经过特征提取层进行特征提取,特征提取层由2个残差跳跃连接组成,得到第一特征图像为64×64×64。第一特征图像经过最大池化层进行下采样,得到特征图像32×32×64。经过特征提取层进行特征提取,特征提取层由2个残差跳跃连接组成,得到第一特征图像为32×32×128。经过最大池化层进行下采样,得到特征图像16×16×128。再经过特征提取层进行特征提取,特征提取层由4个残差跳跃连接组成,得到第一特征图像16×16×256,再经过最大池化层进行下采样,得到特征图像8×8×256。经过特征提取层进行特征提取,特征提取层由4个残差跳跃连接组成,得到第一特征图像8×8×512。经过最大池化层进行下采样,得到特征图像4×4×512。经过特征提取层进行特征提取,特征提取层由4个残差跳跃连接组成,得到第一特征图像4×4×1024。再经过平均池化层整合该第一特征图像(4×4×1024),得到第二特征图像1×1×1024,这里选用的平均池化层大小为4×4,步长为4,最后通过全连接层对第二特征图像进行特征转换,得到第三特征图像,并基于第三特征图像得到东巴象形文字的中文释义。
在本公开实施例中,采用最大池化层来获得丰富的纹理特征。最大池化层的公式可以表示为:
Figure DEST_PATH_IMAGE001
其中,ykij表示与第k个特征图像有关的在矩形区域Rij的最大池化输出,xkpq表示矩形区域Rij中位于(p,q)处的元素。
根据本公开实施例,通过改进的ResNet模型中采用最大池化层实现下采样,提取特征图局部区域内的像素最大值,降低特征图维度,减少网络模型的参数量,防止过拟合现象的发生,降低特征图背景的无关信息,使网络模型提取更多有用的前景特征,降低背景特征干扰。
在本公开实施例中,改进的ResNet模型基于多个卷积层分别提取待识别图像的第一特征图像,通过最大池化层对第一特征图像进行下采样。基于平均池化层,整合相邻卷积层输出的第一特征图像中的特征信息,得到第二特征图像。平均池化层的公式可以表示为:
Figure DEST_PATH_IMAGE002
其中,ykij表示与第k个特征图像有关的在矩形区域Rij的平均池化输出,xkpq表示矩形区域Rij中位于(p,q)处的元素,|Rij|表示矩形区域Rij中元素个数。
图3是根据本公开一示例性实施例示出的残差跳跃连接结构示意图,参照图3,残差映射F(x)的公式可以表示为F(x)= W2σ(W1x),残差跳跃连接的输出y和输入x的关系式可以表示为,y=σ(W2σ(W1x)+x)。其中,σ均表示ReLU激活函数,W1和W2分别表示卷积层学习的参数。
根据本公开实施例,残差跳跃连接结构包括多个相邻堆叠的卷积层,在有效重复利用特征图的同时,降低网络参数量和复杂度。
在本公开实施例中,残差跳跃连接结构中选用的卷积核可以包括多个3×3卷积核,东巴象形文字字数多、字形相似,单个3×3卷积核能够捕获特征图像素四周的信息,多个3×3卷积核的叠加能够降低计算量,增加ResNet模型网络深度,增强特征提取能力,改善对东巴象形文字的识别效果。并且对卷积层执行批量归一化(Batch Normalization)操作,并使用修正线性单元ReLU(Rectified Linear Units)f(x)=max(0,x)作为激活函数,增强网络的非线性表达能力,在x>0时保持梯度不衰减,缓解网络出现的梯度消失问题,防止网络过拟合,加快网络训练速度。
图4是根据本公开一示例性实施例示出的一种训练深度残差网络模型方法的流程图,如图4所示,该方法包括以下步骤。
在步骤S201中,获取训练样本与测试样本,其中,训练样本与测试样本中包括多个东巴象形文字图像。
在步骤S202中,利用训练样本对深度残差网络模型进行多次迭代训练,并利用测试样本对深度残差网络模型进行评估,得到深度残差网络模型。
在本公开实施例中,基于训练样本训练改进的ResNet模型,改进的ResNet模型的输入为多个东巴象形文字的图像,模型的输出为多个东巴象形文字的图像分别对应的文字释义。在数据集中随机选取多个图像计算其均值和方差,然后将图像分辨率归一化处理后输入网络。随机选取数据集图片总数的80%作为训练样本,其余20%的图片作为测试样本。
根据本公开实施例,利用训练样本对改进的ResNet模型进行多次迭代训练,并利用测试样本对改进的ResNet模型进行评估,得到最优网络模型,有效提高模型识别质量。
图5是根据本公开一示例性实施例示出的一种获取训练样本与测试样本方法的流程图,如图5所示,该方法包括以下步骤。
在步骤S301中,基于东巴象形文字的书写规律,创建东巴象形文字对应的同属异体字,其中,具有相同文字释义的东巴象形文字对应至少一个同属异体字。
在步骤S302中,将多个同属异体字确定为训练样本与测试样本。
在本公开实施例中,根据东巴象形文字字典中象形文字的书写规律,采用人工仿写等方法创建具有相同文字释义的东巴象形文字对应的至少一个同属异体字,将多个东巴象形文字及其分别对应的至少一个异体字确定为训练样本以及测试样本。
图6是根据本公开一示例性实施例示出的创建同一东巴象形文字对应的多个异体字示意图,如图6所示,每一行中包括图片同属异体字,共有相同的释义,例如,第一行图片中的东巴象形文字对应的文字释义为“云”,第二行图片中的东巴象形文字对应的文字释义为“石头”,第三行图片中的东巴象形文字对应的文字释义为“背靠”。
根据本公开实施例,基于训练样本训练深度残差网络模型,创建具有相同文字释义的同一东巴象形文字对应的多个同属异体字,将东巴象形文字及其对应的多个异体字确定为训练样本,有效扩充了训练数据集的规模,解决了东巴象形文字的异体字问题,增加了可识别东巴象形文字的数量。
图7是根据本公开一示例性实施例示出的利用训练样本对深度残差网络模型进行多次迭代训练,并利用测试样本对深度残差网络模型进行评估,得到深度残差网络模型方法的流程图,如图7所示,该方法包括以下步骤。
在步骤S401中,基于梯度优化函数,利用训练样本对深度残差网络模型进行多次迭代训练,梯度优化函数包括适应性矩估计函数。
在步骤S402中,基于损失函数,利用测试样本对深度残差网络模型进行评估,损失函数包括交叉熵函数。
在本公开实施例中,梯度优化函数选择适应性矩估计(Adaptive momentestimation,Adam)函数,公式如下:
Figure DEST_PATH_IMAGE003
其中,gt为梯度,mt为一阶矩估计,vt为二阶矩估计,β1取值可以为0.9,β2的取值可以为0.9999,
Figure DEST_PATH_IMAGE004
为一阶矩估计的校正,
Figure DEST_PATH_IMAGE005
为二阶矩估计的校正,θt+1为更新的参数,ε设为1e-8,η为学习率。
在本公开实施例中,损失函数使用交叉熵函数,可以如下式所示:
Figure DEST_PATH_IMAGE006
其中,xj代表全连接层第j个网络节点输出值,迭代次数可以设置为80,初始学习率η可以设置为1e-3,每50次迭代将学习率降低为原来的三分之一,直到迭代次数运行结束。
图8是根据本公开一示例性实施例示出的一种基于卷积神经网络的东巴象形文字识别方法的流程图,如图8所示,该方法包括以下步骤。
在步骤S501中,获取待识别图像,待识别图像中包括东巴象形文字。
在步骤S502中,对待识别图像进行预处理。
在步骤S503中,基于深度残差网络模型对待识别图像进行特征识别,得到东巴象形文字对应的文字释义,深度残差网络模型包括至少一个残差跳跃连接结构,残差跳跃连接结构包括多个相邻堆叠的卷积层。
在本公开实施例中,基于ResNet模型对包括东巴象形文字的待识别图像进行特征识别,确定东巴象形文字对应的文字释义。对待处理图像进行预处理,以在模型训练时,提高东巴象形文字数据集的质量,从而提高东巴象形文字识别的准确率。
对待识别图像进行预处理包括对待识别图像的灰度化处理,黑白两种颜色反差较大,使用加权平均值法进行图像灰度化处理,能够去除图像的颜色信息,将三通道的彩色图像转换成单通道的灰度图像,提高东巴象形文字识别的效果。灰度化公式可以如下式所示。
Figure DEST_PATH_IMAGE007
其中,Rij、Gij、Bij分别为待识别图像在(i,j)处的红、绿、蓝三种颜色分量像素值,Grayij为待识别图像在(i,j)处的灰度值。
对待识别图像进行预处理包括对待识别图像的二值化处理,二值化公式如下所示。
Figure DEST_PATH_IMAGE008
其中,bij为待识别图像二值化后,图像在(i,j)处的像素值,通过对待识别图像的二值化处理,能够减少图像数据量,减少图像无关像素信息,使整个图像呈现出明显的黑白效果,凸显东巴象形文字轮廓。
对待识别图像进行预处理包括对待识别图像尺寸的归一化处理,在本公开实施例中,基于像素区域关系重采样法进行尺寸归一化操作,首先计算下式:
Figure DEST_PATH_IMAGE009
其中,Ys为待识别图像按不同的像素区域划分得到的像素矩阵,s可以按照尺寸归一化的要求取值,当尺寸归一化的大小是64×64时,s的取值为1到64×64,尺寸归一化的大小是80×80时,s的取值为1到80×80……,βs是与像素矩阵Ys相对应的像素系数矩阵,其元素取值范围为(0,1],⊙表示Hadamard积。最后用像素加权矩阵As中所有元素的和除以像素系数矩阵βs中所有元素的和,将As变换为像素值fs,公式如下:
Figure DEST_PATH_IMAGE010
As、βs中的元素分别表示为
Figure DEST_PATH_IMAGE011
Figure DEST_PATH_IMAGE012
,依次求解f1,f2,…fs,并将它们按照Y1,Y2,…Ys的位置关系组合,即可得到尺寸归一化后的图像。根据本公开实施例,基于像素区域关系重采样法进行尺寸归一化操作,能够保留完整图像信息的条件下,将输入图像尺寸最大程度减小,大幅度减少图像像素数以及数据量。
对待识别图像进行预处理包括对待识别图像的编码标注,编码标注具体可以理解用于标注目标文字图像含义的信息,可以是计算机可直接识别的二进制数,也可以是阿拉伯数字或文字等类型的信息。根据目标文字图像的实际含义,对目标文字图像进行标注,生成各目标文字图像的标注信息,实现对待识别图像的编码标注。
表1示出了本公开实施例的ResNet网络模型与残差加传统池化、无残差加最大池化网络模型进行识别效果对比。
Figure DEST_PATH_IMAGE013
表1
从表1可以看出,本公开实施例的ResNet网络模型的识别准确率相较于残差连接加传统池化的网络模型提高了0.54%,相较于无残差连接加最大池化下采样的网络模型提高了1.01%,提高了对于东巴象形文字的识别准确率。
表2示出了本公开实施例的ResNet网络模型与ResNet18网络模型、VGGNet网络模型、20层ResNet网络模型以及ResNet34网络模型识别效果对比。
Figure DEST_PATH_IMAGE014
表2
从表2中可以看出,本公开实施例的ResNet网络模型识别准确率最高,相较于ResNet18网络模型提高了0.43%,相较于VGGNet网络模型提高了0.31%,相较于20层ResNet网络模型提高了0.95%,34层网络模型的识别准确率低于本公开实施例的ResNet网络模型。
根据本公开实施例,采用ResNet模型作为改进的网络结构,获取包括东巴象形文字的待识别图像,基于深度残差网络模型对待识别图像进行特征识别,深度残差网络模型包括至少一个残差跳跃连接结构,能够有效利用特征图,降低网络参数量和复杂度,并确定东巴象形文字对应的文字释义,提高东巴象形文字识别的准确率。
在一些实施例中,将本公开实施例的ResNet模型封装成安卓系统中应用,实现通过终端利用应用拍照或导入识别东巴象形文字,增强了模型使用的应用广泛性和便捷性。
图9a-图9b示出了移动终端中识别东巴象形文字的应用示意图,应用界面可以是以东巴象形文字作为背景,可以有“拍照”和“导入”按钮,点击“拍照”按钮可以调用手机相机拍摄东巴象形文字并识别,点击“导入”按钮可以导入手机相册中的东巴象形文字图片并识别。图9a显示通过“拍照”方式得到“太阳”的识别结果,图9b显示通过“导入”方式得到“太阳”的识别结果。
根据本公开实施例,利用ResNet模型进行东巴象形文字识别准确率高,识别速度非常快。
基于相同的构思,本公开实施例还提供一种基于卷积神经网络的东巴象形文字识别装置。
可以理解的是,本公开实施例提供的装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤,本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本公开实施例的技术方案的范围。
图10是根据本公开一示例性实施例示出的一种基于卷积神经网络的东巴象形文字识别装置框图。参照图10,基于卷积神经网络的东巴象形文字识别装置100包括:获取单元101和确定单元102。
获取单元101,用于获取待识别图像,待识别图像中包括东巴象形文字。
确定单元102,用于基于深度残差网络模型对待识别图像进行特征识别,得到东巴象形文字对应的文字释义,深度残差网络模型包括至少一个残差跳跃连接结构,残差跳跃连接结构包括多个相邻堆叠的卷积层。
在一些实施例中,深度残差网络模型包括多个卷积层以及多个最大池化层,多个卷积层用于提取待识别图像的第一特征图像;最大池化层用于对待识别图像的第一特征图像进行下采样。
在一些实施例中,深度残差网络模型还包括平均池化层以及全连接层,确定单元采用如下方式基于深度残差网络模型对待识别图像进行特征识别,得到东巴象形文字对应的文字释义:基于平均池化层整合相邻卷积层输出的第一特征图像中的特征信息,得到第二特征图像;通过全连接层对第二特征图像进行特征转换,得到第三特征图像;基于第三特征图像,得到东巴象形文字对应的文字释义。
在一些实施例中,深度残差网络模型的输入为多个东巴象形文字图像,深度残差网络模型的输出为多个东巴象形文字图像分别对应的文字释义,深度残差网络模型采用如下方式训练得到:获取训练样本与测试样本,其中,训练样本与测试样本中包括多个东巴象形文字图像;利用训练样本对深度残差网络模型进行多次迭代训练,并利用测试样本对深度残差网络模型进行评估,得到深度残差网络模型。
在一些实施例中,获取训练样本与测试样本,包括:基于东巴象形文字的书写规律,创建东巴象形文字对应的同属异体字,其中,具有相同文字释义的东巴象形文字对应至少一个同属异体字;将多个同属异体字确定为训练样本与测试样本。
在一些实施例中,利用训练样本对深度残差网络模型进行多次迭代训练,并利用测试样本对深度残差网络模型进行评估,得到深度残差网络模型,包括:基于梯度优化函数,利用训练样本对深度残差网络模型进行多次迭代训练,梯度优化函数包括适应性矩估计函数;以及基于损失函数,利用测试样本对深度残差网络模型进行评估,损失函数包括交叉熵函数。
在一些实施例中,残差跳跃连接结构还包括:批量归一化层以及修正线性单元层,批量归一化层用于对卷积层执行批量归一化操作,修正线性单元用于作为残差跳跃连接结构的激活函数。
图11是根据本公开又一示例性实施例示出的一种基于卷积神经网络的东巴象形文字识别装置框图,基于卷积神经网络的东巴象形文字识别装置100还包括:预处理单元103。
预处理单元103,用于对待识别图像进行预处理,预处理包括以下至少一种方式:对待识别图像中包括的文字进行字符裁剪、进行待识别图像的灰度化处理、进行待识别图像的二值化处理、待识别图像的尺寸归一化处理以及对所述待识别图像的编码标注。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图12是根据本公开一示例性实施例示出的一种用于基于卷积神经网络的东巴象形文字识别的装置200的框图。例如,装置200可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图12,装置200可以包括以下一个或多个组件:处理组件202,存储器204,电力组件206,多媒体组件208,音频组件210,输入/输出(I/O)的接口212,传感器组件214,以及通信组件216。
处理组件202通常控制装置200的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件202可以包括一个或多个处理器220来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件202可以包括一个或多个模块,便于处理组件202和其他组件之间的交互。例如,处理组件202可以包括多媒体模块,以方便多媒体组件208和处理组件202之间的交互。
存储器204被配置为存储各种类型的数据以支持在装置200的操作。这些数据的示例包括用于在装置200上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件206为装置200的各种组件提供电力。电力组件206可以包括电源管理系统,一个或多个电源,及其他与为装置200生成、管理和分配电力相关联的组件。
多媒体组件208包括在所述装置200和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件208包括一个前置摄像头和/或后置摄像头。当装置200处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件210被配置为输出和/或输入音频信号。例如,音频组件210包括一个麦克风(MIC),当装置200处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器204或经由通信组件216发送。在一些实施例中,音频组件210还包括一个扬声器,用于输出音频信号。
I/O接口212为处理组件202和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件214包括一个或多个传感器,用于为装置200提供各个方面的状态评估。例如,传感器组件214可以检测到装置200的打开/关闭状态,组件的相对定位,例如所述组件为装置200的显示器和小键盘,传感器组件214还可以检测装置200或装置200一个组件的位置改变,用户与装置200接触的存在或不存在,装置200方位或加速/减速和装置200的温度变化。传感器组件214可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件214还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件214还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件216被配置为便于装置200和其他设备之间有线或无线方式的通信。装置200可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件216还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器204,上述指令可由装置200的处理器220执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
可以理解的是,本公开中“多个”是指两个或两个以上,其它量词与之类似。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
进一步可以理解的是,术语“第一”、“第二”等用于描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开,并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。
进一步可以理解的是,除非有特殊说明,“连接”包括两者之间不存在其他构件的直接连接,也包括两者之间存在其他元件的间接连接。
进一步可以理解的是,本公开实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利范围指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利范围来限制。

Claims (17)

1.一种基于卷积神经网络的东巴象形文字识别方法,其特征在于,所述方法包括:
获取待识别图像,所述待识别图像中包括东巴象形文字;
基于深度残差网络模型对所述待识别图像进行特征识别,得到所述东巴象形文字对应的文字释义,所述深度残差网络模型包括至少一个残差跳跃连接结构,所述残差跳跃连接结构包括多个相邻堆叠的卷积层。
2.根据权利要求1所述的基于卷积神经网络的东巴象形文字识别方法,其特征在于,所述深度残差网络模型包括多个卷积层以及多个最大池化层,
所述多个卷积层用于提取所述待识别图像的第一特征图像;
所述最大池化层用于对所述待识别图像的第一特征图像进行下采样。
3.根据权利要求2所述的基于卷积神经网络的东巴象形文字识别方法,其特征在于,所述深度残差网络模型还包括平均池化层以及全连接层;
基于深度残差网络模型对所述待识别图像进行特征识别,得到所述东巴象形文字对应的文字释义,包括:
基于所述平均池化层整合相邻所述卷积层输出的第一特征图像中的特征信息,得到第二特征图像;
通过所述全连接层对所述第二特征图像进行特征转换,得到第三特征图像;
基于所述第三特征图像,得到所述东巴象形文字对应的文字释义。
4.根据权利要求1-3中任一所述的基于卷积神经网络的东巴象形文字识别方法,其特征在于,所述深度残差网络模型的输入为多个所述东巴象形文字图像,所述深度残差网络模型的输出为多个所述东巴象形文字图像分别对应的文字释义,所述深度残差网络模型采用如下方式训练得到:
获取训练样本与测试样本,其中,所述训练样本与所述测试样本中包括多个东巴象形文字图像;
利用所述训练样本对所述深度残差网络模型进行多次迭代训练,并利用所述测试样本对所述深度残差网络模型进行评估,得到所述深度残差网络模型。
5.根据权利要求4所述的基于卷积神经网络的东巴象形文字识别方法,其特征在于,所述获取训练样本与测试样本,包括:
基于所述东巴象形文字的书写规律,创建所述东巴象形文字对应的同属异体字,其中,具有相同文字释义的所述东巴象形文字对应至少一个所述同属异体字;
将多个所述同属异体字确定为所述训练样本与所述测试样本。
6.根据权利要求5所述的基于卷积神经网络的东巴象形文字识别方法,其特征在于,所述利用训练样本对所述深度残差网络模型进行多次迭代训练,并利用所述测试样本对所述深度残差网络模型进行评估,得到所述深度残差网络模型,包括:
基于梯度优化函数,利用所述训练样本对所述深度残差网络模型进行多次迭代训练,所述梯度优化函数包括适应性矩估计函数;以及
基于损失函数,利用所述测试样本对所述深度残差网络模型进行评估,所述损失函数包括交叉熵函数。
7.根据权利要求6所述的基于卷积神经网络的东巴象形文字识别方法,其特征在于,所述残差跳跃连接结构还包括:批量归一化层以及修正线性单元层,所述批量归一化层用于对所述卷积层执行批量归一化操作,所述修正线性单元用于作为所述残差跳跃连接结构的激活函数。
8.根据权利要求7所述的基于卷积神经网络的东巴象形文字识别方法,其特征在于,所述方法还包括:
对所述待识别图像进行预处理,所述预处理包括以下至少一种方式:
对所述待识别图像进行灰度化处理、进行所述待识别图像的二值化处理、所述待识别图像的尺寸归一化处理以及对所述待识别图像的编码标注。
9.一种基于卷积神经网络的东巴象形文字识别装置,其特征在于,所述装置包括:
获取单元,用于获取待识别图像,所述待识别图像中包括象形文字;
确定单元,用于基于深度残差网络模型对所述待识别图像进行特征识别,得到所述东巴象形文字对应的文字释义,所述深度残差网络模型包括至少一个残差跳跃连接结构,所述残差跳跃连接结构包括多个相邻堆叠的卷积层。
10.根据权利要求9所述的基于卷积神经网络的东巴象形文字识别装置,其特征在于,所述深度残差网络模型包括多个卷积层以及多个最大池化层,
所述多个卷积层用于提取所述待识别图像的第一特征图像;
所述最大池化层用于对所述待识别图像的第一特征图像进行下采样。
11.根据权利要求10所述的基于卷积神经网络的东巴象形文字识别装置,其特征在于,所述深度残差网络模型还包括平均池化层以及全连接层,
所述确定单元采用如下方式基于深度残差网络模型对所述待识别图像进行特征识别,得到所述东巴象形文字对应的文字释义:
基于所述平均池化层整合相邻所述卷积层输出的第一特征图像中的特征信息,得到第二特征图像;
通过所述全连接层对所述第二特征图像进行特征转换,得到第三特征图像;
基于所述第三特征图像,得到所述东巴象形文字对应的文字释义。
12.根据权利要求9-11中任一所述的基于卷积神经网络的东巴象形文字识别装置,其特征在于,所述深度残差网络模型的输入为多个所述东巴象形文字图像,所述深度残差网络模型的输出为多个所述东巴象形文字图像分别对应的文字释义,所述深度残差网络模型采用如下方式训练得到:
获取训练样本与测试样本,其中,所述训练样本与所述测试样本中包括多个东巴象形文字图像;
利用所述训练样本对所述深度残差网络模型进行多次迭代训练,并利用所述测试样本对所述深度残差网络模型进行评估,得到所述深度残差网络模型。
13.根据权利要求12所述的基于卷积神经网络的东巴象形文字识别装置,其特征在于,所述获取训练样本与测试样本,包括:
基于所述东巴象形文字的书写规律,创建所述东巴象形文字对应的同属异体字,其中,具有相同文字释义的所述东巴象形文字对应至少一个所述同属异体字;
将多个所述同属异体字确定为所述训练样本与所述测试样本。
14.根据权利要求13所述的基于卷积神经网络的东巴象形文字识别装置,其特征在于,所述利用训练样本对所述深度残差网络模型进行多次迭代训练,并利用所述测试样本对所述深度残差网络模型进行评估,得到所述深度残差网络模型,包括:
基于梯度优化函数,利用所述训练样本对所述深度残差网络模型进行多次迭代训练,所述梯度优化函数包括适应性矩估计函数;以及
基于损失函数,利用所述测试样本对所述深度残差网络模型进行评估,所述损失函数包括交叉熵函数。
15.根据权利要求14所述的基于卷积神经网络的东巴象形文字识别装置,其特征在于,所述残差跳跃连接结构还包括:批量归一化层以及修正线性单元层,所述批量归一化层用于对所述卷积层执行批量归一化操作,所述修正线性单元用于作为所述残差跳跃连接结构的激活函数。
16.根据权利要求15所述的基于卷积神经网络的东巴象形文字识别装置,其特征在于,所述基于卷积神经网络的东巴象形文字识别装置还包括:
预处理单元,用于对所述待识别图像进行预处理,所述预处理包括以下至少一种方式:
对所述待识别图像进行灰度化处理、进行所述待识别图像的二值化处理、所述待识别图像的尺寸归一化处理以及对所述待识别图像的编码标注。
17.一种基于卷积神经网络的东巴象形文字识别装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:执行权利要求1至8中任意一项所述的基于卷积神经网络的东巴象形文字识别方法。
CN202111427357.4A 2021-11-29 2021-11-29 一种基于卷积神经网络的东巴象形文字识别方法及装置 Pending CN113837186A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111427357.4A CN113837186A (zh) 2021-11-29 2021-11-29 一种基于卷积神经网络的东巴象形文字识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111427357.4A CN113837186A (zh) 2021-11-29 2021-11-29 一种基于卷积神经网络的东巴象形文字识别方法及装置

Publications (1)

Publication Number Publication Date
CN113837186A true CN113837186A (zh) 2021-12-24

Family

ID=78971810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111427357.4A Pending CN113837186A (zh) 2021-11-29 2021-11-29 一种基于卷积神经网络的东巴象形文字识别方法及装置

Country Status (1)

Country Link
CN (1) CN113837186A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200026951A1 (en) * 2018-07-19 2020-01-23 Tata Consultancy Services Limited Systems and methods for end-to-end handwritten text recognition using neural networks
CN111291696A (zh) * 2020-02-19 2020-06-16 南京大学 一种基于卷积神经网络的手写东巴文识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200026951A1 (en) * 2018-07-19 2020-01-23 Tata Consultancy Services Limited Systems and methods for end-to-end handwritten text recognition using neural networks
CN111291696A (zh) * 2020-02-19 2020-06-16 南京大学 一种基于卷积神经网络的手写东巴文识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KAIMING HE 等: "Deep Residual Learning for Image Recognition", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
张珂 等: "图像分类的深度卷积神经网络模型综述", 《中国图象图形学报》 *
谢裕睿 等: "基于ResNet网络的东巴象形文字识别研究", 《计算机时代》 *

Similar Documents

Publication Publication Date Title
CN109977956B (zh) 一种图像处理方法、装置、电子设备以及存储介质
CN108121952B (zh) 人脸关键点定位方法、装置、设备及存储介质
CN109544560B (zh) 图像处理方法及装置、电子设备和存储介质
CN109543714B (zh) 数据特征的获取方法、装置、电子设备及存储介质
CN106778928B (zh) 图像处理方法及装置
CN108921225B (zh) 一种图像处理方法及装置、计算机设备和存储介质
WO2019100724A1 (zh) 训练多标签分类模型的方法和装置
CN112200062B (zh) 一种基于神经网络的目标检测方法、装置、机器可读介质及设备
US11741578B2 (en) Method, system, and computer-readable medium for improving quality of low-light images
CN109859096A (zh) 图像风格迁移方法、装置、电子设备及存储介质
CN109871843B (zh) 字符识别方法和装置、用于字符识别的装置
CN106228556B (zh) 图像质量分析方法和装置
US11398016B2 (en) Method, system, and computer-readable medium for improving quality of low-light images
CN110929805A (zh) 神经网络的训练方法、目标检测方法及设备、电路和介质
CN115620384B (zh) 模型训练方法、眼底图像预测方法及装置
US20210256667A1 (en) Method and terminal for improving color quality of images
CN103854019A (zh) 图像中的字段提取方法及装置
CN111539256A (zh) 一种虹膜特征提取方法、装置及存储介质
CN113096023A (zh) 神经网络的训练方法、图像处理方法及装置、存储介质
CN113837186A (zh) 一种基于卷积神经网络的东巴象形文字识别方法及装置
WO2021244138A1 (zh) 表盘生成方法、装置、电子设备和计算机可读存储介质
CN117011534A (zh) 光谱重建方法、装置、电子设备和存储介质
US20210174553A1 (en) Image processing method and apparatus, and storage medium
CN115223018A (zh) 伪装对象协同检测方法及装置、电子设备和存储介质
CN113888432A (zh) 一种图像增强方法、装置和用于图像增强的装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211224

RJ01 Rejection of invention patent application after publication