CN114724145A - 一种字符图像识别方法、装置、设备及介质 - Google Patents

一种字符图像识别方法、装置、设备及介质 Download PDF

Info

Publication number
CN114724145A
CN114724145A CN202210378882.XA CN202210378882A CN114724145A CN 114724145 A CN114724145 A CN 114724145A CN 202210378882 A CN202210378882 A CN 202210378882A CN 114724145 A CN114724145 A CN 114724145A
Authority
CN
China
Prior art keywords
image
training
verification
target domain
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210378882.XA
Other languages
English (en)
Inventor
周涛
吴婕
邵蒙悦
庄林志
李天鹏
吴吉灵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Boguan Intelligent Technology Co Ltd
Original Assignee
Jinan Boguan Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Boguan Intelligent Technology Co Ltd filed Critical Jinan Boguan Intelligent Technology Co Ltd
Priority to CN202210378882.XA priority Critical patent/CN114724145A/zh
Publication of CN114724145A publication Critical patent/CN114724145A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种字符识别方法、装置、设备及介质,包括:将目标域数据集和源域数据集分别进行图像预处理,以获取与所述目标域数据集对应的目标域图像和与所述源域数据集对应的源域图像;利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练,并利用所述编码器对所述源域图像进行有监督分类训练与验证;判断当前是否满足预设训练结束条件,如果否则重新跳转至所述利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练的步骤,直到满足所述预设训练结束条件,以得到字符识别模型;利用所述字符识别模型确定所述目标域数据集对应的字符识别结果。通过上述方案,能够对字符图像进行精确识别。

Description

一种字符图像识别方法、装置、设备及介质
技术领域
本发明涉及图像识别技术领域,特别涉及一种字符图像识别方法、装置、设备及介质。
背景技术
光学字符识别(Optical Character Recognition,OCR)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。当前光学字符识别方法主要采用传统的深度学习方法进行识别,目的是识别出图像中的字符。由于深度学习方法需要大量的有标签样本进行有监督训练,但是标注大量的样本会极大增加训练成本;因此在实际应用中,有标签样本数量通常较少,那么在样本不充足的情况下,训练通常难以得到泛化性高的模型,这导致在新增样本识别任务中,极易出现误识别问题;同时在制造、供应、办公、交通等场景下,字符字体、背景等纷繁复杂,对识别结果产生严重干扰,导致字符识别的准确度难以提高。
综上可见,如何提高字符识别的准确度并降低训练成本是本领域有待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种字符识别方法、装置、设备及介质,能够提高字符识别的准确度并降低训练成本。其具体方案如下:
第一方面,本申请公开了一种字符识别方法,包括:
将目标域数据集和源域数据集分别进行图像预处理,以获取与所述目标域数据集对应的目标域图像和与所述源域数据集对应的源域图像;
利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练,并利用所述编码器对所述源域图像进行有监督分类训练与验证;
判断当前是否满足预设训练结束条件,如果否则重新跳转至所述利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练的步骤,直到满足所述预设训练结束条件,以得到字符识别模型;
利用所述字符识别模型确定所述目标域数据集对应的字符识别结果。
可选的,所述将目标域数据集和源域数据集分别进行图像预处理,包括:
将目标域数据集和源域数据集中任一字符图像映射成初始灰度图,并对所述初始灰度图进行高斯滤波降噪,以获得所述字符图像对应的灰度图像;
将所述字符图像进行高斯平滑处理以得到高斯平滑后图像,并利用边缘检测算子对所述高斯平滑后图像进行边缘特征提取,以获得所述字符图像对应的边缘特征图;
提取所述字符图像的梯度的方向分布,以获得所述字符图像对应的方向梯度直方图;
分别将所述目标域数据集和所述源域数据集中每一所述字符图像对应的所述灰度图像、所述边缘特征图以及所述方向梯度直方图进行拼接,以得到所述目标域数据集中每一所述字符图像对应的目标域图像以及所述源域数据集中每一所述字符图像对应的源域图像。
可选的,所述利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练,包括:
利用自编码器模型中的编码器提取所述目标域图像的特征向量,并利用所述自编码器模型中的解码器以及所述特征向量进行图像重建,以得到重建后图像;
计算出所述目标域图像和所述重建后图像对应的第一损失函数结果,以实现自监督重建训练,并基于所述第一损失函数结果判断当前是否满足预设训练结束条件。
可选的,所述利用所述编码器对所述源域图像进行有监督分类训练与验证,包括:
对所述源域图像进行小样本采样以得到与所述源域图像对应的训练支持集、训练查询集、验证支持集和验证查询集,并基于元学习的训练方式,利用所述编码器对所述训练支持集、所述训练查询集、所述验证支持集和所述验证查询集进行有监督分类训练与验证。
可选的,所述对所述源域图像进行小样本采样以得到与所述源域图像对应的训练支持集、训练查询集、验证支持集和验证查询集,包括:
将所述源域图像划分为训练集和验证集;所述训练集和所述验证集中的每个图像样本均携带相应的类别标签;
按照第一预设数量个目标类别标签以及在一次采样过程中每个所述目标类别标签对应的第一采样需求量和第二采样需求量,分别对所述训练集中具有相应类别标签的图像样本进行采样得到相应的训练支持集和训练查询集,以利用当前得到的所述训练支持集和所述训练查询集展开相应的有监督分类训练,然后重新跳转至所述对所述训练集中具有相应类别标签的图像样本进行采样的步骤,直到采样次数达到第一预设次数;
按照第二预设数量个目标类别标签以及在一次采样过程中每个所述目标类别标签对应的第三采样需求量和第四采样需求量,分别对所述验证集中具有相应类别标签的图像样本进行采样以得到相应的验证支持集和验证查询集,以利用当前得到的所述验证支持集和所述验证查询集展开相应的模型验证操作,然后重新跳转至所述对所述验证集中具有相应类别标签的图像样本进行采样的步骤,直到采样次数达到第二预设次数。
可选的,所述字符识别方法,还包括:
分别计算所述训练支持集和所述验证支持集中每个类别标签对应的原型;任一所述类别标签对应的所述原型为该类别标签对应的图像样本的特征向量的均值;
分别计算所述训练查询集中每个图像样本的特征向量与所述训练查询集中每个所述原型之间的欧氏距离,通过归一化指数函数计算所述训练查询集的预测结果的损失值;
计算验证查询集中每个图像样本的特征向量与所述验证查询集中每个所述原型之间的欧氏距离,并基于所述欧氏距离确定所述验证查询集中每个图像样本对应的预测类别。
第三方面,本申请公开了一种字符识别装置,包括:
图像获取模块,用于将目标域数据集和源域数据集分别进行图像预处理,以获取与所述目标域数据集对应的目标域图像和与所述源域数据集对应的源域图像;
单次训练模块,用于利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练,并利用所述编码器对所述源域图像进行有监督分类训练与验证;
迭代训练模块,用于判断当前是否满足预设训练结束条件,如果否则重新跳转至所述利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练的步骤,直到满足所述预设训练结束条件,以得到字符识别模型;
字符识别模块,用于利用所述字符识别模型确定所述目标域数据集对应的字符识别结果。
第三方面,本申请公开了一种电子设备,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现前述公开的字符识别方法的步骤。
第四方面,本申请公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的字符识别方法的步骤。
可见,本申请首先将目标域数据集和源域数据集分别进行图像预处理,以获取与所述目标域数据集对应的目标域图像和与所述源域数据集对应的源域图像;利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练,并利用所述编码器对所述源域图像进行有监督分类训练与验证;判断当前是否满足预设训练结束条件,如果否则重新跳转至所述利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练的步骤,直到满足所述预设训练结束条件,以得到字符识别模型;利用所述字符识别模型确定所述目标域数据集对应的字符识别结果。由此可见,本申请首先将目标域数据集和源域数据集分别进行图像预处理,以缓解因不同域字符图像的风格差异导致后续对字符图像识别所产生干扰问题;利用自编码器中的编码器对源域图像进行有监督分类训练,利用自编码器模型对目标域图像进行自监督重建训练,这种交叉训练的方法有利于增强字符识别模型对目标域字符图像的特征提取能力,同时降低训练成本,实现模型在保持高精度的识别效果的前提下,仅依赖于少量样本就能实现字符识别的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种字符识别方法流程图;
图2为本申请公开的一种具体的字符识别方法流程图;
图3为本申请公开的一种具体的图像预处理示意图;
图4为本申请公开的一种具体的字符识别方法流程图;
图5为本申请公开的一种具体的字符识别方法流程图;
图6为本申请公开的一种具体的字符图像特征提取示意图;
图7为本申请公开的一种具体的预测类别示意图;
图8为本申请公开的一种具体的交叉训练方式示意图;
图9为本申请公开的一种字符识别装置结构示意图;
图10为本申请公开的一种电子设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
当前光学字符识别方法主要采用传统的深度学习方法进行识别,目的是识别出图像中的字符。由于深度学习方法需要大量的有标签样本进行有监督训练,但是标注大量的样本会极大增加训练成本;因此在实际应用中,有标签样本数量通常较少,那么在样本不充足的情况下,训练通常难以得到泛化性高的模型,这导致在新增样本识别任务中,极易出现误识别问题;同时在制造、供应、办公、交通等场景下,字符字体、背景等纷繁复杂,对识别结果产生干扰,导致字符识别的准确度难以提高。
为此本申请相应的提供了一种字符识别方案,能够提高字符识别的准确度并降低训练成本。
参见图1所示,本发明实施例公开了一种字符识别方法,包括:
步骤S11:将目标域数据集和源域数据集分别进行图像预处理,以获取与所述目标域数据集对应的目标域图像和与所述源域数据集对应的源域图像。
本实施例中,所述将目标域数据集和源域数据集分别进行图像预处理,包括:将目标域数据集和源域数据集中任一字符图像映射成初始灰度图,并对所述初始灰度图进行高斯滤波降噪,以获得所述字符图像对应的灰度图像;将所述字符图像进行高斯平滑处理以得到高斯平滑后图像,并利用边缘检测算子对所述高斯平滑后图像进行边缘特征提取,以获得所述字符图像对应的边缘特征图;提取所述字符图像的梯度的方向分布,以获得所述字符图像对应的方向梯度直方图;分别将所述目标域数据集和所述源域数据集中每一所述字符图像对应的所述灰度图像、所述边缘特征图以及所述方向梯度直方图进行拼接,以得到所述目标域数据集中每一所述字符图像对应的目标域图像以及所述源域数据集中每一所述字符图像对应的源域图像。需要注意的是,可以将源域数据集同目标域数据集一并进行自监督重建训练,以提升模型的特征表达能力和泛化能力。
步骤S12:利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练,并利用所述编码器对所述源域图像进行有监督分类训练与验证。
本实施例中,所述利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练,具体包括:利用自编码器模型中的编码器提取所述目标域图像的特征向量,并利用所述自编码器模型中的解码器以及所述特征向量进行图像重建,以得到重建后图像;计算出所述目标域图像和所述重建后图像对应的第一损失函数结果,通过反向传播来更新自编码器权重,以实现自监督重建训练,并基于所述第一损失函数结果判断当前是否满足预设训练结束条件。
本实施例中,所述利用所述编码器对所述源域图像进行有监督分类训练与验证,具体包括:对所述源域图像进行小样本采样以得到与所述源域图像对应的训练支持集、训练查询集、验证支持集和验证查询集,并基于元学习的训练方式,利用所述编码器对所述训练支持集、所述训练查询集、所述验证支持集和所述验证查询集进行有监督分类训练与验证。其中,所述元学习(meta-learning)的训练方式目的在于使得有监督训练模型学会如何学习,即利用以往的知识经验来指导新任务的学习,具有学会学习的能力。
可以理解的是,分别对目标域图像进行一次自监督重建训练和对源域图像进行一次有监督分类训练为一次完整的交叉训练过程,且对进行自监督重建训练和有监督分类训练的先后顺序不做限定。
步骤S13:判断当前是否满足预设训练结束条件,如果否则重新跳转至所述利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练的步骤,直到满足所述预设训练结束条件,以得到字符识别模型。
在一种具体实施例中,所述满足预设训练结束条件可以为到达预设迭代次数,即分别对目标域图像进行自监督重建训练,对源域图像进行有监督分类训练,直到交叉训练次数到达预设训练次数。
在另一种具体实施例中,所述满足预设训练结束条件也可以为每次对目标域图像进行自监督重建训练后的自监督模型以及对源域图像进行有监督分类训练后的有监督模型满足预设收敛条件。
步骤S14:利用所述字符识别模型确定所述目标域数据集对应的字符识别结果。
可以理解的是,在利用字符识别模型对目标域数据集进行识别的过程中,根据元学习方式以及基于原型网络(Prototypical Network,简称ProtoNet)的欧式距离计算方法预测目标域数据集对应的字符识别结果。其中原型网络能够识别出在训练过程中从未见过的新的类别,并对于每个类别只需要少量的有标签样本,因此能够减少训练成本。
可见,本申请首先将目标域数据集和源域数据集分别进行图像预处理,以获取与所述目标域数据集对应的目标域图像和与所述源域数据集对应的源域图像;利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练,并利用所述编码器对所述源域图像进行有监督分类训练与验证;判断当前是否满足预设训练结束条件,如果否则重新跳转至所述利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练的步骤,直到满足所述预设训练结束条件,以得到字符识别模型;利用所述字符识别模型确定所述目标域数据集对应的字符识别结果。由此可见,本申请首先将目标域数据集和源域数据集分别进行图像预处理,此操作能够缓解因不同域字符图像的风格差异导致后续对字符图像识别所产生干扰问题;利用自编码器中的编码器对源域图像进行有监督分类训练,利用自编码器模型对目标域图像进行自监督重建训练,这种交叉训练的方法有利于增强字符识别模型对目标域字符图像的特征提取能力,同时降低训练成本,实现模型在保持高精度的识别效果的前提下,仅依赖于少量样本就能实现字符识别的目的。
参见图2所示,本发明实施例公开了一种具体的字符识别方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:
步骤S21:分别对目标域数据集和源域数据集中每一字符图像进行图像预处理,通过将每一所述字符图像对应的灰度图像、边缘特征图以及方向梯度直方图进行拼接,以得到所述目标域数据集中每一所述字符图像对应的目标域图像以及所述源域数据集中每一所述字符图像对应的源域图像。
本实施例中,由于实际场景易出现源域数据集中的字符图像和目标域数据集中的字符图像风格差异巨大的问题,这可能导致模型受到相对之下数据量较大的源域样本风格的影响,导致模型在目标域中的识别效果差。例如仅是图像色彩空间就有RGB(Red,Green,Blue,即RGB色彩模式)、HSV(Hue,Saturation,Value,即HSV颜色模型)、YUV(LuminanceChrominance,色彩编码方法)、灰度、二值化等,模型在提取内容特征的同时还需要做到不能被色彩特征影响。字符图像风格特征差异的存在大大增加了模型跨越域间差异的难度。所以本实施例对任一字符图像进行图像预处理,具体包括:将所述字符图像映射成初始灰度图,并对所述初始灰度图进行高斯滤波降噪,以获得所述字符图像对应的灰度图像;将所述字符图像进行高斯平滑处理以得到高斯平滑后图像,并利用边缘检测算子(Canny算子)对所述高斯平滑后图像进行边缘特征提取,以获得所述字符图像对应的边缘特征图;提取所述字符图像的梯度的方向分布,以获得所述字符图像对应的方向梯度直方图(Histogramof Oriented Gradient,即HOG)。可以理解的是,图像预处理中,除了提取灰度图、边缘特征图、方向梯度直方图,还可以采用其他特征图提取算法,例如SIFT(Scale-invariantfeature transform,即尺度不变特征变换)、SURF(Speeded Up Robust Features,即兴趣点检测和描述方法)、ORB(Oriented FAST and Rotated BRIEF)、LBP(Local BinaryParttern,局部二值模式)、Haar-like中任意一种特征图提取算法。其中,高斯滤波的计算公式如下:
Figure BDA0003591778900000091
其中,x为字符图像像素坐标中的横坐标,y为字符图像像素坐标中的横坐标,σ为字符图像中所有像素的标准差,G(x,y)的值作为高斯滤波的模板系数。
本实施例中,分别将所述目标域数据集和所述源域数据集中每一所述字符图像对应的所述灰度图像、所述边缘特征图以及所述方向梯度直方图进行拼接,例如图3所示的具体的图像预处理示意图,对于“万”字符图像和“0”字符图像的字体、颜色、背景差异较大,对“万”字符图像和“0”字符图像进行图像预处理后并分别进行拼接,得到各自对应的字符图像,消除了干扰因素,以便提高后续对字符图像识别的准确度。
步骤S22:利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练,并利用所述编码器对所述源域图像进行有监督分类训练与验证。
步骤S23:判断当前是否满足预设训练结束条件,如果否则重新跳转至所述利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练的步骤,直到满足所述预设训练结束条件,以得到字符识别模型。
步骤S24:利用所述字符识别模型确定所述目标域数据集对应的字符识别结果。
由此可见,本申请在对每一字符图像进行图像预处理过程中,得到每一所述字符图像各自对应的灰度图像、边缘特征图以及方向梯度直方图,并分别将每一字符图像对应的灰度图像、边缘特征图以及方向梯度直方图进行拼接,以获得无干扰因素的字符图像,为后续进行字符图像识别排除无关信息,有效缩减字符图像风格差异对后续进行自监督重建训练和有监督分类训练的影响。
参见图4和图5所示,本发明实施例公开了一种具体的字符识别方法,包括:
步骤S31:将目标域数据集和源域数据集分别进行图像预处理,以获取与所述目标域数据集对应的目标域图像和与所述源域数据集对应的源域图像。
步骤S32:利用自编码器模型中的编码器提取所述目标域图像的特征向量,并利用所述自编码器模型中的解码器以及所述特征向量进行图像重建,以得到重建后图像;计算出所述目标域图像和所述重建后图像对应的第一损失函数结果,以实现自监督重建训练,并基于所述第一损失函数结果判断当前是否满足预设训练结束条件。
本实施例中,如图6所示,首先利用自编码器模型(Autoencoder,即AE)中包含Conv4的编码器提取目标域图像的特征向量,并使得目标域图像的通道数由初始通道数扩大至预设通道数;其次利用自编码器模型中包含反卷积模块的解码器基于目标域图像的特征向量进行图像重建以得到重建后图像,并使得目标域图像的通道数由预设通道数还原至初始通道数;然后计算出所述目标域图像和所述重建后图像对应的第一损失函数结果,以实现自监督重建训练,并基于所述第一损失函数结果判断当前是否满足预设训练结束条件。例如首先利用编码器提取目标域图像的特征向量,并使得目标域图像的通道数由3扩大至64;其次利用包含4个反卷积模块的解码器基于目标域图像的特征向量进行图像重建以得到重建后图像,并使得目标域图像的通道数由64还原至3;然后利用MSE Loss损失函数(Mean Squared Error Loss,即均方误差损失函数)计算出所述目标域图像和所述重建后图像对应的第一损失函数结果。需要注意的是,除了使用MSE Loss损失函数,还可以使用其他的图像重构损失函数,例如MAE Loss(Mean Absolute Error Loss,即平均绝对值误差损失函数)、SSIM Loss(Structural Similarity Index measure Loss,即结构相似性损失函数)以及MS-SSIM Loss(multi-scale Structural Similarity Index measure Loss,即多尺度结构相似损失函数)任意一种或几种损失函数。其中,MSE Loss损失函数计算公式如下:
Figure BDA0003591778900000111
其中,n为目标域图像中字符图像的样本个数,y为重建后图像中的字符图像,y为目标域图像中的字符图像,ωi为比例系数。
步骤S33:对所述源域图像进行小样本采样以得到与所述源域图像对应的训练支持集、训练查询集、验证支持集和验证查询集,并基于元学习的训练方式,利用所述编码器对所述训练支持集、所述训练查询集、所述验证支持集和所述验证查询集进行有监督分类训练与验证。
本实施例中,所述对所述源域图像进行小样本采样以得到与所述源域图像对应的训练支持集、训练查询集、验证支持集和验证查询集,具体包括:将所述源域图像划分为训练集和验证集;按照K个目标类别标签以及在一次采样过程中每个所述目标类别标签对应的第一采样需求量N和第二采样需求量n,分别对所述训练集中具有相应类别标签的图像样本进行采样得到相应的训练支持集(support set 1)和训练查询集(query set 1),以利用当前得到的所述训练支持集和所述训练查询集展开相应的有监督分类训练,然后重新跳转至所述对所述训练集中具有相应类别标签的图像样本进行采样的步骤,直到采样次数达到第一预设次数(episode 1);按照K个目标类别标签以及在一次采样过程中每个所述目标类别标签对应的第三采样需求量N和第四采样需求量n,分别对所述验证集中具有相应类别标签的图像样本进行采样以得到相应的验证支持集(support set 2)和验证查询集(queryset 2),以利用当前得到的所述验证支持集和所述验证查询集展开相应的模型验证操作,然后重新跳转至所述对所述验证集中具有相应类别标签的图像样本进行采样的步骤,直到采样次数达到第二预设次数(episode 2)。重新跳转至所述对所述训练集中具有相应类别标签的图像样本进行采样的步骤,直到采样次数达到第三预设次数(epoch)。
本实施例中,如图7所示的预测类别示意图,所述利用当前得到的所述验证支持集和所述验证查询集展开相应的模型测试操作的过程中,具体包括:分别计算所述训练支持集和所述验证支持集中每个类别标签对应的原型;任一所述类别标签对应的所述原型为该类别标签对应的图像样本的特征向量的均值;分别计算所述训练查询集中每个图像样本的特征向量与所述训练查询集中每个所述原型之间的欧氏距离,通过归一化指数函数(softmax)计算所述训练查询集的预测结果的损失值;计算验证查询集中每个图像样本的特征向量与所述验证查询集中每个所述原型之间的欧氏距离,并基于所述欧氏距离确定所述验证查询集中每个图像样本对应的预测类别。需要注意的是,任一类别标签的原型为该类别标签对应的图像样本的特征向量的均值;分别计算训练支持集和验证支持集中每个类别标签对应的原型。可以理解的是,欧氏距离越小,则表示验证查询集中每个图像样本的特征向量与每个所述原型之间的相似度越高,因此验证查询集中每个图像样本对应的预测类别为与对应的欧式距离最小的原型,其中,原型计算公式如下所示:
Figure BDA0003591778900000121
其中,ck为第k个类别的原型,n为类别个数,
Figure BDA0003591778900000122
表示某种映射,S表示验证支持集,xi为图像样本,yi为与xi为图像样本对应的类别标签。
其中,归一化指数函数计算公式如下:
Figure BDA0003591778900000123
其中,xi表示验证查询集中图像样本与第i个原型的欧式距离,C为原型的个数。
步骤S34:判断当前是否满足预设训练结束条件,如果否则重新跳转至所述利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练的步骤,直到满足所述预设训练结束条件,以得到字符识别模型。
本实施例中,判断当前是否满足预设训练结束条件,如果否则重新跳转至所述利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练的步骤,例如图8所示,进行自监督重建训练和有监督分类训练的交叉训练,直到满足预设训练次数,以得到字符识别模型。
步骤S35:利用所述字符识别模型确定所述目标域数据集对应的字符识别结果。
由此可见,本申请利用对目标域图像进行自监督重建训练和对源域图像进行有监督分类训练的交叉训练的方法,有益于增强字符识别模型对不同特征的提取能力,并且能够使字符识别模型在源域图像的字符样本中学习特征提取的同时对目标域图像的字符图像的风格有一定了解,缓解字符识别模型在后续跨域时特征提取能力学习的难度。
参见图9所示,本发明实施例公开了一种字符识别装置,包括:
图像获取模块11,用于将目标域数据集和源域数据集分别进行图像预处理,以获取与所述目标域数据集对应的目标域图像和与所述源域数据集对应的源域图像;
单次训练模块12,用于利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练,并利用所述编码器对所述源域图像进行有监督分类训练与验证;
迭代训练模块13,用于判断当前是否满足预设训练结束条件,如果否则重新跳转至所述利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练的步骤,直到满足所述预设训练结束条件,以得到字符识别模型;
字符识别模块14,用于利用所述字符识别模型确定所述目标域数据集对应的字符识别结果。
可见,本申请首先将目标域数据集和源域数据集分别进行图像预处理,以获取与所述目标域数据集对应的目标域图像和与所述源域数据集对应的源域图像;利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练,并利用所述编码器对所述源域图像进行有监督分类训练与验证;判断当前是否满足预设训练结束条件,如果否则重新跳转至所述利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练的步骤,直到满足所述预设训练结束条件,以得到字符识别模型;利用所述字符识别模型确定所述目标域数据集对应的字符识别结果。由此可见,本申请首先将目标域数据集和源域数据集分别进行图像预处理,因此能够避免因字符图像的特征差异导致后续对字符图像识别时产生干扰的情况;利用自编码器中的编码器对源域图像进行有监督分类训练,利用自编码器模型对目标域图像进行自监督重建训练,这种交叉训练的方法有利于增强字符识别模型对目标域字符图像的特征提取能力,同时降低新类别的训练成本,实现模型在保持高精度的识别效果的前提下,仅依赖于少量样本就能实现字符识别的目的。
图10为本申请实施例提供的一种电子设备的结构示意图。具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的由计算机设备执行的字符识别方法中的相关步骤。
本实施例中,电源23用于为计算机设备20上的各硬件设备提供工作电压;通信接口24能够为计算机设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
其中,处理器21可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器21可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器21可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器21还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源包括操作系统221、计算机程序222及数据223等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制计算机设备20上的各硬件设备以及计算机程序222,以实现处理器21对存储器22中海量数据223的运算与处理,其可以是Windows、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由计算机设备20执行的字符识别方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223除了可以包括计算机设备接收到的由外部设备传输进来的数据,也可以包括由自身输入输出接口25采集到的数据等。
进一步的,本申请实施例还公开了一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,实现前述任一实施例公开的由字符识别过程中执行的方法步骤。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种字符识别方法、装置、设备及介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (9)

1.一种字符识别方法,其特征在于,包括:
将目标域数据集和源域数据集分别进行图像预处理,以获取与所述目标域数据集对应的目标域图像和与所述源域数据集对应的源域图像;
利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练,并利用所述编码器对所述源域图像进行有监督分类训练与验证;
判断当前是否满足预设训练结束条件,如果否则重新跳转至所述利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练的步骤,直到满足所述预设训练结束条件,以得到字符识别模型;
利用所述字符识别模型确定所述目标域数据集对应的字符识别结果。
2.根据权利要求1所述的字符识别方法,其特征在于,所述将目标域数据集和源域数据集分别进行图像预处理,包括:
将目标域数据集和源域数据集中任一字符图像映射成初始灰度图,并对所述初始灰度图进行高斯滤波降噪,以获得所述字符图像对应的灰度图像;
将所述字符图像进行高斯平滑处理以得到高斯平滑后图像,并利用边缘检测算子对所述高斯平滑后图像进行边缘特征提取,以获得所述字符图像对应的边缘特征图;
提取所述字符图像的梯度的方向分布,以获得所述字符图像对应的方向梯度直方图;
分别将所述目标域数据集和所述源域数据集中每一所述字符图像对应的所述灰度图像、所述边缘特征图以及所述方向梯度直方图进行拼接,以得到所述目标域数据集中每一所述字符图像对应的目标域图像以及所述源域数据集中每一所述字符图像对应的源域图像。
3.根据权利要求1所述的字符识别方法,其特征在于,所述利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练,包括:
利用自编码器模型中的编码器提取所述目标域图像的特征向量,并利用所述自编码器模型中的解码器以及所述特征向量进行图像重建,以得到重建后图像;
计算出所述目标域图像和所述重建后图像对应的第一损失函数结果,以实现自监督重建训练,并基于所述第一损失函数结果判断当前是否满足预设训练结束条件。
4.根据权利要求1所述的字符识别方法,其特征在于,所述利用所述编码器对所述源域图像进行有监督分类训练与验证,包括:
对所述源域图像进行小样本采样以得到与所述源域图像对应的训练支持集、训练查询集、验证支持集和验证查询集,并基于元学习的训练方式,利用所述编码器对所述训练支持集、所述训练查询集、所述验证支持集和所述验证查询集进行有监督分类训练与验证。
5.根据权利要求4所述的字符识别方法,其特征在于,所述对所述源域图像进行小样本采样以得到与所述源域图像对应的训练支持集、训练查询集、验证支持集和验证查询集,包括:
将所述源域图像划分为训练集和验证集;所述训练集和所述验证集中的每个图像样本均携带相应的类别标签;
按照第一预设数量个目标类别标签以及在一次采样过程中每个所述目标类别标签对应的第一采样需求量和第二采样需求量,分别对所述训练集中具有相应类别标签的图像样本进行采样得到相应的训练支持集和训练查询集,以利用当前得到的所述训练支持集和所述训练查询集展开相应的有监督分类训练,然后重新跳转至所述对所述训练集中具有相应类别标签的图像样本进行采样的步骤,直到采样次数达到第一预设次数;
按照第二预设数量个目标类别标签以及在一次采样过程中每个所述目标类别标签对应的第三采样需求量和第四采样需求量,分别对所述验证集中具有相应类别标签的图像样本进行采样以得到相应的验证支持集和验证查询集,以利用当前得到的所述验证支持集和所述验证查询集展开相应的模型验证操作,然后重新跳转至所述对所述验证集中具有相应类别标签的图像样本进行采样的步骤,直到采样次数达到第二预设次数。
6.根据权利要求4或5任一项所述的字符识别方法,其特征在于,还包括:
分别计算所述训练支持集和所述验证支持集中每个类别标签对应的原型;任一所述类别标签对应的所述原型为该类别标签对应的图像样本的特征向量的均值;
分别计算所述训练查询集中每个图像样本的特征向量与所述训练查询集中每个所述原型之间的欧氏距离,通过归一化指数函数计算所述训练查询集的预测结果的损失值;
计算验证查询集中每个图像样本的特征向量与所述验证查询集中每个所述原型之间的欧氏距离,并基于所述欧氏距离确定所述验证查询集中每个图像样本对应的预测类别。
7.一种字符识别装置,其特征在于,包括:
图像获取模块,用于将目标域数据集和源域数据集分别进行图像预处理,以获取与所述目标域数据集对应的目标域图像和与所述源域数据集对应的源域图像;
单次训练模块,用于利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练,并利用所述编码器对所述源域图像进行有监督分类训练与验证;
迭代训练模块,用于判断当前是否满足预设训练结束条件,如果否则重新跳转至所述利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练的步骤,直到满足所述预设训练结束条件,以得到字符识别模型;
字符识别模块,用于利用所述字符识别模型确定所述目标域数据集对应的字符识别结果。
8.一种电子设备,其特征在于,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现如权利要求1至6任一项所述的字符识别方法的步骤。
9.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的字符识别方法的步骤。
CN202210378882.XA 2022-04-12 2022-04-12 一种字符图像识别方法、装置、设备及介质 Pending CN114724145A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210378882.XA CN114724145A (zh) 2022-04-12 2022-04-12 一种字符图像识别方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210378882.XA CN114724145A (zh) 2022-04-12 2022-04-12 一种字符图像识别方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN114724145A true CN114724145A (zh) 2022-07-08

Family

ID=82243608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210378882.XA Pending CN114724145A (zh) 2022-04-12 2022-04-12 一种字符图像识别方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN114724145A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116167990A (zh) * 2023-01-28 2023-05-26 阿里巴巴(中国)有限公司 基于图像的目标识别、神经网络模型处理方法
CN117253233A (zh) * 2023-09-05 2023-12-19 广东奥普特科技股份有限公司 一种字符擦除方法、装置和设备
CN117496531A (zh) * 2023-11-02 2024-02-02 四川轻化工大学 一种可减少汉字识别资源开销的卷积自编码器构建方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116167990A (zh) * 2023-01-28 2023-05-26 阿里巴巴(中国)有限公司 基于图像的目标识别、神经网络模型处理方法
CN117253233A (zh) * 2023-09-05 2023-12-19 广东奥普特科技股份有限公司 一种字符擦除方法、装置和设备
CN117253233B (zh) * 2023-09-05 2024-05-17 广东奥普特科技股份有限公司 一种字符擦除方法、装置和设备
CN117496531A (zh) * 2023-11-02 2024-02-02 四川轻化工大学 一种可减少汉字识别资源开销的卷积自编码器构建方法
CN117496531B (zh) * 2023-11-02 2024-05-24 四川轻化工大学 一种可减少汉字识别资源开销的卷积自编码器构建方法

Similar Documents

Publication Publication Date Title
CN110647829A (zh) 一种票据的文本识别方法及系统
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN113313111B (zh) 文本识别方法、装置、设备和介质
CN114724145A (zh) 一种字符图像识别方法、装置、设备及介质
CN114463586A (zh) 图像识别模型的训练与图像识别方法、装置、设备和介质
US8103058B2 (en) Detecting and tracking objects in digital images
CN111680690A (zh) 一种文字识别方法及装置
CN110874618A (zh) 基于小样本的ocr模板学习方法、装置、电子设备及介质
CN112215190A (zh) 基于yolov4模型的违章建筑检测方法
CN111507337A (zh) 基于混合神经网络的车牌识别方法
CN112836692A (zh) 用于处理图像的方法、装置、设备和介质
CN115099358A (zh) 基于字典创建与领域自适应的开放世界目标检测训练方法
JP7320570B2 (ja) 画像を処理するための方法、装置、機器、媒体およびプログラム
CN113223011B (zh) 基于引导网络和全连接条件随机场的小样本图像分割方法
CN111898544B (zh) 文字图像匹配方法、装置和设备及计算机存储介质
CN111797830A (zh) 票据图像快速红章检测方法、系统、装置
CN110310341B (zh) 颜色算法中默认参数的生成方法、装置、设备和存储介质
CN115359468A (zh) 一种目标网站识别方法、装置、设备及介质
CN116110066A (zh) 票据文本的信息提取方法、装置、设备及存储介质
CN113408517B (zh) 一种图像显示方法及装置、电子设备
CN113011468B (zh) 图像特征提取方法及装置
CN114266901A (zh) 文档轮廓提取模型构建方法、装置、设备及可读存储介质
CN114266308A (zh) 检测模型训练方法及装置、图像检测方法及装置
KR20190093752A (ko) 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템
CN113052176A (zh) 一种字符识别模型训练方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination