CN111126410A - 字符识别方法、装置、设备及可读存储介质 - Google Patents

字符识别方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN111126410A
CN111126410A CN201911418197.XA CN201911418197A CN111126410A CN 111126410 A CN111126410 A CN 111126410A CN 201911418197 A CN201911418197 A CN 201911418197A CN 111126410 A CN111126410 A CN 111126410A
Authority
CN
China
Prior art keywords
character
feature map
feature
bar
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911418197.XA
Other languages
English (en)
Other versions
CN111126410B (zh
Inventor
韩涛
李梓赫
毛钺铖
王丹
王光新
谭昶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iflytek Information Technology Co Ltd
Original Assignee
Iflytek Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iflytek Information Technology Co Ltd filed Critical Iflytek Information Technology Co Ltd
Priority to CN201911418197.XA priority Critical patent/CN111126410B/zh
Publication of CN111126410A publication Critical patent/CN111126410A/zh
Application granted granted Critical
Publication of CN111126410B publication Critical patent/CN111126410B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

本申请实施例公开了一种字符识别方法、装置、设备及可读存储介质,将具有待识别的字符的图像按照字符的排列方向裁剪为若干字符条,利用全卷积网络识别模型获取字符条的特征图,对字符条的特征图进行变形处理,得到字符条的携带上下文信息的特征序列,基于该特征序列预测字符条中的字符。由于卷积运算不依赖于前一步的状态且与输入序列的长度无关,因此可以进行并行计算,大大加快了特征序列的建模过程,而且,相对于循环神经网络,卷积网络参数少,计算复杂度较低,占用的内存空间和运行时间也较少,易于部署。

Description

字符识别方法、装置、设备及可读存储介质
技术领域
本申请涉及信息处理技术领域,更具体地说,涉及一种字符识别方法、装置、设备及可读存储介质。
背景技术
光学字符识别(Optical Character Recognition,简称OCR)是计算机视觉的子方向,目标是从图像数据中识别出文字,并保存为计算机文本数据。
目前,多采用基于循环神经网络(如长短期记忆网络LSTM,或双向LSTM)的识别模型进行字符识别,但基于循环神经网络的识别模型在训练过程中很难收敛,也很难进行并行计算,而且由于数据量和运算量比较大,在后期的实际部署过程也比较困苦。另外,目前的字符识别方法的识别精度较低,易出现多字、漏字、错字等问题。
因此,有必要提供一种字符识别方法,以至少部分的克服现有的字符识别方法存在的缺陷。
发明内容
有鉴于此,本申请提供了一种字符识别方法、装置、设备及可读存储介质,以至少部分的克服现有的字符识别方法存在的缺陷。
为了实现上述目的,现提出的方案如下:
一种字符识别方法,包括:
获得图像,所述图像中具有待识别的字符;
按照字符的排列方向,将所述图像裁剪为若干字符条,每个字符条中具有一排字符;
对于每一个字符条,利用预先训练好的全卷积网络识别模型处理该字符条,得到该字符条的字符识别结果,所述全卷积网络识别模型至少被配置为:接收输入的字符条,获取所述输入的字符条的特征图,对所述特征图进行变形处理,以获得所述输入的字符条的携带上下文信息的特征序列,并根据所述特征序列预测所述输入的字符条中的各个字符;所述特征序列中的不同元素为所述字符条中不同区域的特征表示。
上述方法,优选的,所述获取所述输入的字符条的特征图,包括:
获取所述输入的字符条的初始特征图;
利用特征提取块对所述初始特征图进行特征提取,得到所述输入的字符条的特征图;其中,所述特征提取块由至少两个子特征提取块级联构成,每个子特征提取块被配置为:
对输入该子特征提取块的特征图进行稠密卷积处理,得到第一中间特征图;
对所述第一中间特征图进行前景增强处理,得到第二中间特征图;
最后一级子特征提取块输出的第二中间特征图为所述输入的字符条的特征图。
上述方法,优选的,所述对所述第一中间特征图进行前景增强处理,包括:
基于残差注意力机制对所述第一中间特征图进行前景增强处理。
上述方法,优选的,所述基于残差注意力机制对所述第一中间特征图进行前景增强处理,包括:
对所述第一中间特征图进行特征提取,得到第三中间特征图;
基于所述第三中间特征图计算所述第三中间特征图中各个元素的权重;
将所述第三中间特征图中的各个元素乘以对应的权重,所得的结果与所述第三中间特征图相加,得到并输出第二中间特征图。
上述方法,优选的,所述对所述特征图进行变形处理,包括:
将所述特征图变形为初始特征序列,所述初始特征序列中元素的个数为所述特征图的高度和宽度的乘积,所述初始特征序列中每个元素是长度为所述特征图的通道数的向量;
将所述初始特征序列中的各个元素组合得到第四中间特征图,所述第四中间特征图的通道数为1,高度为所述特征图的通道数,宽度为所述初始特征序列中元素的个数;
对所述第四中间特征图进行卷积处理,得到第五中间特征图;
将所述第五中间特征图变形,得到所述输入的字符条的携带上下文信息的特征序列,所述输入的字符条的特征序列中元素的个数为所述第五中间特征图的宽度,所述输入的字符条的特征序列中每个元素是长度为所述第五中间特征图的高度的向量。
上述方法,优选的,所述全卷积网络识别模型为利用标注有字符信息和字符结构信息的字符条样本训练得到。
上述方法,优选的,每个字符标注有13种字符结构中的至少一种字符结构。
上述方法,优选的,所述全卷积网络识别模型通过如下方式训练得到:
接收输入的至少一个字符条样本;
对于每一个字符条样本,获取该字符条样本的特征图;
对该字符条样本的特征图进行变形处理,以获得该字符条样本的特征序列,并根据该字符条样本的特征序列预测该字符条样本中的各个字符;该字符条样本的特征序列中的不同元素为该字符条样本的中不同区域的特征表示;
利用该字符条样本的特征图,对该字符条样本中的各个字符针对每个字符结构进行二分类,得到该字符条样本中的各个字符对应每个字符结构的二分类结果;
利用所述至少一个字符条样本的字符预测结果和标注的字符,以及所述至少一个字符条样本的中的各个字符对应每个字符结构的二分类结果和标注的字符结构对所述全卷积网络识别模型的参数进行更新。
一种字符识别装置,包括:
获得模块,用于获得图像,所述图像中具有待识别的字符;
裁剪模块,用户按照字符的排列方向,将所述图像裁剪为若干字符条,每个字符条中具有一排字符;
识别模块,用于对于每一个字符条,利用预先训练好的全卷积网络识别模型处理该字符条,得到该字符条的字符识别结果,所述全卷积网络识别模型至少被配置为:接收输入的字符条,获取所述输入的字符条的特征图,对所述特征图进行变形处理,以获得所述输入的字符条的特征序列,并根据所述特征序列预测所述输入的字符条中的各个字符;所述特征序列中的不同元素为所述字符条中不同区域的特征表示。
上述装置,优选的,所述识别模块包括:
第一卷积控制模块,用于获取所述输入的字符条的初始特征图;
特征提取块控制模块,用于利用特征提取块对所述初始特征图进行特征提取,得到所述输入的字符条的特征图;其中,所述特征提取块由至少两个子特征提取块级联构成,每个子特征提取块被配置为:
对输入该子特征提取块的特征图进行稠密卷积处理,得到第一中间特征图;
对所述第一中间特征图进行前景增强处理,得到第二中间特征图;
最后一级子特征提取块输出的第二中间特征图为所述输入的字符条的特征图。
上述装置,优选的,所述特征提取块控制模块在通过子特征提取块对所述第一中间特征图进行前景增强处理时,具体用于:通过子特征提取块基于残差注意力机制对所述第一中间特征图进行前景增强处理。
上述装置,优选的,所述特征提取块控制模块在通过子特征提取块基于残差注意力机制对所述第一中间特征图进行前景增强处理时,具体用于:
通过子特征提取块对所述第一中间特征图进行特征提取,得到第三中间特征图;
通过子特征提取块基于所述第三中间特征图计算所述第三中间特征图中各个元素的权重;
通过子特征提取块将所述第三中间特征图中的各个元素乘以对应的权重,所得的结果与所述第三中间特征图相加,得到并输出第二中间特征图。
上述装置,优选的,所述识别模块包括变形处理模块,用于:
将所述特征图变形为初始特征序列,所述初始特征序列中元素的个数为所述特征图的高度和宽度的乘积,所述初始特征序列中每个元素是长度为所述特征图的通道数的向量;
将所述初始特征序列中的各个元素组合得到第四中间特征图,所述第四中间特征图的通道数为1,高度为所述特征图的通道数,宽度为所述初始特征序列中元素的个数;
对所述第四中间特征图进行卷积处理,得到第五中间特征图;
将所述第五中间特征图变形,得到所述输入的字符条的携带上下文信息的特征序列,所述输入的字符条的特征序列中元素的个数为所述第五中间特征图的宽度,所述输入的字符条的特征序列中每个元素是长度为所述第五中间特征图的高度的向量。
上述装置,优选的,所述全卷积网络识别模型为利用标注有字符信息和字符结构信息的字符条样本训练得到。
上述装置,优选的,每个字符标注有13种字符结构中的至少一种字符结构。
上述装置,优选的,所述字符识别装置还包括训练模块,用于对所述全卷积网络识别模型进行训练,包括:将至少一个字符条样本输入全卷积网络识别模型,以使全卷积网络识别模型执行以下过程:
接收输入的至少一个字符条样本;
对于每一个字符条样本,获取该字符条样本的特征图;
对该字符条样本的特征图进行变形处理,以获得该字符条样本的特征序列,并根据该字符条样本的特征序列预测该字符条样本中的各个字符;该字符条样本的特征序列中的不同元素为该字符条样本的中不同区域的特征表示;
利用该字符条样本的特征图,对该字符条样本中的各个字符针对每个字符结构进行二分类,得到该字符条样本中的各个字符对应每个字符结构的二分类结果;
利用所述至少一个字符条样本的字符预测结果和标注的字符,以及所述至少一个字符条样本的中的各个字符对应每个字符结构的二分类结果和标注的字符结构对所述全卷积网络识别模型的参数进行更新。
一种字符识别设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上任一项所述的字符识别方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上任一项所述的字符识别方法的各个步骤。
从上述的技术方案可以看出,本申请实施例提供的字符识别方法、装置、设备及可读存储介质,将具有待识别的字符的图像按照字符的排列方向裁剪为若干字符条,利用全卷积网络识别模型获取字符条的特征图,对字符条的特征图进行变形处理,得到字符条的携带上下文信息的特征序列,基于该特征序列预测字符条中的字符。由于卷积运算不依赖于前一步的状态且与输入序列的长度无关,因此可以进行并行计算,大大加快了特征序列的建模过程,而且,相对于循环神经网络,卷积网络参数少,计算复杂度较低,占用的内存空间和运行时间也较少,易于部署。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的字符识别方法的一种实现流程图;
图2为本申请实施例公开的全卷积网络识别模型的一种结构示意图;
图3为本申请实施例公开的注意力模块的一种结构示意图;
图4为本申请实施例公开的特征提取模块提取的特征图的示例图;
图5为本申请实施例公开的基于初始特征序列得到的第四中间特征图的示意图;
图6为本申请实施例公开的四个颜色、长短、字体、字间距都不相同的数据,各个数据在最后一级子特征提取块输出的第二中间特征图的可视化图,以及最后的识结果的示例图;
图7为本申请实施例公开的字符结构示例图;
图8为本申请实施例公开的全卷积网络识别模型的字符识别流程的整体网络框架;
图9为本申请实施例公开的字符识别装置的一种结构示意图;
图10为本申请实施例公开的字符识别设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的发明人研究发现,传统的字符识别方法是首先通过字符检测器检测出单个字符,然后利用神经网络对每个字符分别进行识别。然而,大量的字符间和字符内混淆会大大降低整个识别网络的性能。因此,这些方法在很大程度上依赖于精确的字符检测器。
而随着神经网络在图像分类、图像识别任务上的巨大成功,一些方法采用端到端框架进行场景文本识别,而不检测单个字。比如,将文本识别作为一个序列识别问题,这些字符识别方法有一个共同的问题就是,必须引入循环神经网络,例如长短期记忆网络(LongShort-Term Memory,LSTM),或双向LSTM,或者,循环神经网络(Recurrent NeuralNetwork,RNN)等。而循环神经网络会导致基于循环神经网络的识别模型在训练过程中很难收敛,也很难进行并行计算,而且由于数据量和运算量比较大,在后期的实际部署过程也比较困苦。另外,目前的字符识别方法的识别精度较低,易出现多字、漏字、错字等问题。
为了至少部分解决现有的字符识别方法存在的缺陷,本申请实施例提供的方案的基本思想是:将具有待识别的字符的图像按照字符的排列方向裁剪为若干字符条,利用全卷积网络识别模型获取字符条的特征图,对字符条的特征图进行变形处理,得到字符条的携带上下文信息的特征序列,基于该特征序列预测字符条中的字符。由于卷积运算不依赖于前一步的状态且与输入序列的长度无关,因此可以进行并行计算,大大加快了特征序列的建模过程,而且,相对于循环神经网络,卷积网络参数少,计算复杂度较低,占用的内存空间和运行时间也较少,易于部署。在此基础上,本申请引入稠密卷积和残差注意力机制,结合字符结构对模型进行进一步优化,以克服目前的字符识别方法的识别精度较低,易出现多字、漏字、错字等问题。
基于上述基本思想,本申请实施例提供的字符识别方法的一种实现流程图如图1所示,可以包括:
步骤S11:获得图像,该图像中具有待识别的字符。
该图像可以是由图像采集装置实时采集的,也可以是从内存中读取的。该图像中的待识别字符可以是现代汉字,也可以是繁体字。该图像中的字符排列方向可以是横向排列,也可以是竖向排列。比如,现代的文献、资料等通常是现代汉字,排列方向通常是横向排列,而一些历史档案中通常是历史久远的繁体字,排列方向通常是竖向排列。
步骤S12:按照字符的排列方向,将图像裁剪为若干字符条,每个字符条中具有一排字符。
如果图像中字符是横向排列,则将图像中每一行字符裁剪为一个字符条,而如图图像中的字符是竖向排列,则将图像中的每一列字符裁剪为一个字符条。每个字符条即为图像的一个子图像。
可选的,为了便于计算,若图像中的字符是横向排列,则各个字符条的高度可以保持一致,若图像中的字符是竖向排列,则各个字符条的宽度可以保持一致。
步骤S13:对于每一个字符条,利用预先训练好的全卷积网络识别模型处理该字符条,得到该字符条的字符识别结果,该全卷积网络识别模型至少被配置为:接收输入的字符条,获取输入的字符条的特征图,对该特征图进行变形处理,以获得输入的字符条的携带上下文信息的特征序列,并根据特征序列预测输入的字符条中的各个字符;上述特征序列中的不同元素为字符条中不同区域的特征表示。
本申请实施例中,通过预先训练好的全卷积网络识别模型对字符条进行特征提取,得到字符条的特征图,然后对特征图进行变形处理,获取输入的字符条的特征序列,该特征序列中不同元素为字符条中不同区域的特征表示,由于全卷积网络识别模型提取的字符条的特征图是携带上下文信息的,因而,由字符条变形得到的特征序列也是携带上下文信息的。通过特征序列可以显著性的反映出序列关系。
其中,全卷积网络识别模型可以通过多层卷积层对字符条进行特征提取,获取字符条的特征图。
本申请实施例提供的字符识别方法,由全卷积网络识别模型实现了序列到序列的学习,而由于卷积运算不依赖于前一步的状态,且与输入序列的长度无关,因此可以进行并行计算,大大加快了特征序列的建模过程,而且,相对于循环神经网络,卷积网络参数少,计算复杂度较低,占用的内存空间和运行时间也较少,易于部署。
在一可选的实施例中,全卷积网络识别模型的一种结构示意图如图2所示,可以包括:第一卷积层21,特征提取块22,变形模块23和识别模块24;其中,
第一卷积层21,用于获取输入的字符条的初始特征图。该第一卷积层21可以包含至少一个子卷积层。
特征提取块22,用于对初始特征图进行特征提取,得到输入的字符条的特征图。
可选的,该特征提取块22由至少两个子特征提取块级联构成,每个子特征提取块被配置为:
稠密卷积块,用于对输入该子特征提取块的特征图进行稠密卷积处理,得到第一中间特征图。可以通过稠密卷积块对输入该子特征提取块的特征图进行稠密卷积处理。稠密卷积块的各层之间存在着直接的联系,具体的,对于每一层,该层的输入是有所有先前层生成的特征图的连接,因此,每一层都可以从前面的所有层获得信息,并将其传输到后面的所有层。此外,训练过程中,层和层之间不仅梯度反向传播,且每一层都可以得到深度的监督,从而使得学习和收敛变得更轻松。
注意力块,用于对第一中间特征图进行前景增强处理,得到第二中间特征图。对于自然图像中的文本,往往存在一些干扰,比如阴影、无关符号或者背景纹理等。这些因素常常使表象各异的文本产生混淆。基于此,本申请实施例中,在对特征图进行稠密卷积处理得到第一中间特征图后,对第一中间特征图进行处理,以增强前景,抑制背景噪声。具体可以基于残差注意力机制对第一中间特征图进行前景增强处理,因而,注意力块也可以称为残差注意力块。
最后一级子特征提取块输出的第二中间特征图为输入的字符条的特征图。可选的,注意力模块的一种结构示意图如图3所示,可以包括:
第三中间特征图提取模块31,权重计算模块32和第二中间特征图确定模块33;其中,
第三中间特征图提取模块31用于对第一中间特征图进行特征提取,得到第三中间特征图。第三中间特征图提取模块31可以通过第二卷积层对第一中间特征图进行特征提取,得到第三中间特征图。第二卷积层可以包含至少一个子卷积层。
权重计算模块32用于基于第三中间特征图计算第三中间特征图中各个元素的权重。
可选的,权重计算模块32可以通过第三卷积层对第一中间特征图进行特征提取,得到第六中间特征图;对第一中间特征图先进行第一次下采样,对第一次下采样得到的特征图通过第四卷积层进行卷积得到第七中间特征图,并对第一次下采样得到的特征图进行第二次下采样,然后对第二次下采样得到特征图进行第一次上采样,将第一次上采样得到的特征图与第七中间特征图相加,对相加得到的特征图进行第二次上采样,将第二次上采样得到的特征图与第六中间特征图相加,对相加得到的特征图中的元素进行归一化,得到注意力图,该注意力图中的每个元素均为0到1之间的值,作为第三中间特征图中相应元素的注意力权重。可以利用sigmoid函数对相加得到的特征图中的元素进行归一化。
第二中间特征图确定模块33用于将第三中间特征图中的各个元素乘以对应的权重,所得的结果与第三中间特征图相加,得到并输出第二中间特征图。
考虑到注意力权重在0到1之间,第三中间特征图中的元素与对应的注意力权重直接相乘可能会导致有用信息的严重退化,因此,本申请中引入了残差注意力来解决这一问题,具体的,将第三中间特征图中的各个元素乘以对应的权重,所得的结果与第三中间特征图相加,得到并输出第二中间特征图。这样注意力模块可以有效地感知文本区域并生成注意力感知特征。
通过稠密卷积块和注意力块交替叠加,可以逐步细化特征表示。不同的注意力块生成与相应特征相适应的注意力图。低层级的注意力块(比如前两层)主要集中在外观特征的提取,比如,边缘,颜色和纹理,而高层次的注意力块则会提取更多的语义信息。这样特征提取块22就可以在噪声抑制过程中获得更有鉴别性的特征图。有效解决了字符识别结果中多字少字的问题。
变形模块23,用于对特征提取块22得到的特征图进行变形处理,以获得输入的字符条的携带上下文信息的特征序列。通常,特征提取块22提取到的特征图通常是多通道特征图,即三维特征图,比如,特征提取块22提取到的特征图为通道数为C,高度为H,宽度为W的三维特征图。
可选的,可以先将三维特征图转换为初始特征序列,然后进一步对初始特征序列进行特征提取,得到最终的特征序列(即输入的字符条的携带上下文信息的特征图序列)。需要说明的是,初始特征序列也携带上下文信息,而进一步对初始特征序列进行特征提取得到最终的特征序列相比于初始特征序列,所携带的上下文信息更加清晰。
将三维特征图(其通道数为C,高度为H,宽度为W)转换为初始特征序列的过程可以为:沿着三维特征图的宽度方向,将三维特征图拆解为W个二维特征图,则每个二维特征图的大小为H×C,然后将每个二维特征图平展为H个向量,得到初始特征序列,则该初始特征序列中,元素的个数为三维特征图的宽度W和高度H的乘积,每个元素为一个向量,该向量的长度为三维特征图的通道数C。
比如,假设特征提取模块22提取的特征图为图4所示特征图,该特征图通道数为4,高度为3,宽度为2,则对该三维特征图变形得到的初始特征序列中,元素数为3×2=6,每个元素的长度为4,假设4个通道中位于第i行第j列的元素分别:Aij,Bij,Cij,Dij,则图4所示特征图拉伸得到的初始特征序列中的元素依次为[a1,a2,a3,a4,a5,a6],则a1中的元素为A11,B11,C11,D11;a2中的元素为A21,B21,C21,D21;a3中的元素为A31,B31,C31,D31;a4中的元素为A12,B12,C12,D12;a5中的元素为A22,B22,C22,D22;a6中的元素为A32,B32,C32,D32。
在对初始特征序列进行进一步处理时,为了可以对该初始特征序列中的各个特征进行同步处理,可以再对该初始特征序列进行变形,得到通道数为1的三维特征图,即二维特征图。该二维特征图中的每一列都与原始字符条的局部区域相关联。具体的,
可以将初始特征序列中的各个元素组合得到第四中间特征图,该第四中间特征图的通道数为1,高度为初始特征序列中元素的长度,宽带为初始特征序列中元素的个数。以根据图4所示三维特征图得到的初始特征序列[a1,a2,a3,a4,a5,a6]为例,基于该初始特征序列得到的第四中间特征图的示意图如图5所示,该二维特征图的高度为4,宽度为6。
对由初始特征序列变形得到的第四中间特征图进行卷积处理,得到第五中间特征图。第五中间特征图也为二维特征图,即第五中间特征图的通道数为1。通过对第四中间特征图进行卷积处理,可以进一步提取字符条中的上下文层次表示,从而对序列依赖关系进行建模。依赖范围可以由对第四中间特征图进行卷积处理的卷积层的数量来控制。
将第五中间特征图进行变形,得到上述输入的字符条的携带上下文信息的特征序列,该特征序列中元素的个数为第五中间特征图的宽度,该特征序列中每个元素是长度为第五中间特征图的高度的向量。
识别模块24,用于根据特征序列预测输入的字符条中的各个字符。
识别模块24可以通过一个线性层将特征序列转换成字符标签空间上的概率分布,然后采用联结时态分类(Connectionist Temporal Classification,CTC)模型将概率分布转换为一个标签序列。具体实现过程可以参看已有技术,这里不再详述。
如图6所示,为本申请实施例提供的四个颜色、长短、字体、字间距都不相同的数据(见图6中的a0,b0,c0,d0),以及各个数据在最后一级子特征提取块输出的第二中间特征图(即输入的字符条的特征图)的可视化图(见图6中的a1,b1,c1,d1),以及最后的识结果的示例图(见图6中的a2,b2,c2,d2)。可以看出,基于本申请的方案,可以很好的提取字符条的前景部分,抑制背景噪声和字间距特征,可以很好的规避最后识别结果出现的多字少字等问题。
在一可选的实施例中,为了克服字符识别易出现形近字错误等问题,本申请实施例中,在对全卷积网络进行训练时,考虑了字符结构的损失。也就是说,全卷积网络识别模型为利用标注有字符和字符结构的字符条样本训练得到。
本申请的发明人研究发现,汉字不同于英文或者阿拉伯文等,汉字是具有独特的属性的,是有偏旁部首的结构信息的,这个在汉字的识别过程中很重要,能够很好的区分形近字。据不完全统计2万多个汉字的基础上,本申请将汉字的结构分为13种,如图7所示,为本申请实施例提供的字符结构示例图,如图7-b所示,为本申请定义的12种字符结构的示例图,还有一种单字结构(如,鬼、来、毋等),未给出示例,这里认为如果一个字不具有上述12种结构中的任意一种结构,则认为这个字是单字结构。而且,有的汉字还不止一种结构,如图7-a所示,为本申请实施例提供的“呈報仰祈”四个字的结构示意图,很明显,“報”、“仰”两个字都不止一个结构。在古档繁体字中,繁体字字体结构复杂,结构信息多样化,这种一个字多结构的情况更加明显。所以,如何合理添加结构信息到全卷积网络识别模型中变得尤为重要。
因为不同的汉字的结构信息不同,本申请实施例中,将13个结构信息进行one-hot编码,每个汉字的标签信息都是固定成13个,即判断是否含有每个结构信息。以“呈”字为例,“呈”只有上下结构,而若上下结构是处于one-hot编码的第二个结构信息的位置,所以“呈”字的标签为“0100000000000”。根据字中包含的结构的种类,每个字符可以标注13种字符结构中的至少一种字符结构,如“呈”字只标注一种结构即可,而“報”字包含3种结构(一共有4个结构),则“報”字需要标注3种结构,则one-hot编码中有3个位置的取值为1。
对于每一个送入全卷积网络识别模型的字符条,该字符条的数据标签维度为T×13,T表示字符条中汉字的个数。
可选的,本申请实施例提供的全卷积网络识别模型可以通过如下方式训练得到:
接收输入的至少一个字符条样本。
对于每一个字符条样本,获取该字符条样本的特征图。
对该字符条样本的特征图进行变形处理,以获得该字符条样本的特征序列,并根据该字符条样本的特征序列预测该字符条样本中的各个字符;该字符条样本的特征序列中的不同元素为该字符条样本的中不同区域的特征表示。
利用该字符条样本的特征图,对该字符条样本中的各个字符针对每个字符结构进行二分类,得到该字符条样本中的各个字符对应每个字符结构的二分类结果。也就是说,对应每一个字符条样本,其关于结构信息的输出为2通道的,一个通道表征字符条中的每个汉字包含各个结构的概率,另一个通道表征字符条中的每个汉字不包含各个结构的概率。
利用所述至少一个字符条样本的字符预测结果和标注的字符信息,以及所述至少一个字符条样本的中的各个字符对应每个字符结构的二分类结果和标注的字符结构信息对全卷积网络识别模型的参数进行更新。
其中,可以将字符预测结果对应的损失函数和字符结构的二分类结果对应的损失函数加权求和,作为全卷积网络识别模型的损失函数。
字符预测结果对应的损失函数可以为CTC损失函数,而字符结构的二分类结果对应的损失函数可以为交叉熵损失函数。
本申请实施例中,在全卷积网络识别模型训练过程中,引入了字符结构信息,很好的解决了汉字识别过程中的形近字识别错误的问题。
请参阅图8,图8为本申请实施例提供的全卷积网络识别模型的字符识别流程的整体网络框架。对于每一个字符条,全卷积网络识别模型对字符条的处理流程包括:
先通过一个卷积层进行卷积处理,得到初始特征图;
初始特征图输入到由稠密卷积块和残差注意力块构成的特征提取块,该特征提取块中包括三个稠密卷积块和三个残差注意力块,稠密卷积块和残差注意力块交替出现。其中,残差注意力块被划分为两个分支,记为特征分支和注意力分支,其中,特征分支执行前馈过程(即图中的上采样、下采样主分支),注意力分支(即图中的卷积分支)用于自适应地生成相应特征的注意力权重。注意力分支采用自底向上自顶向下的结构设计,获取高层级的语音信息,指导识别特征的选择。其中,每个下采样单元包含一个最大池化层和一个卷积层,每个上采样单元包含一个双线性插值层和一个卷积层。通过对下采样单元的输出进行多次叠加,可以快速增加接收域,以收集全局信息。通过采用下采样单元和上采样单元的对称结构来恢复特征图的分辨率。另外,在自底向上和自顶向下部分之间添加残差连接,以融合具有不同规模的信息。并利用sigmoid函数对注意力图中的权值进行归一化,得到注意力图。
最后一个残差注意力块输出的特征图先被转换为初始特征序列;
为了对初始特征序列中的特征进行同步处理,该初始特征序列又被转换为通道为1的特征图;
通道为1的特征图经过卷积处理后,得到通道为1的另一特征图;
该通道为1的另一特征图又被转换为特征序列;
该特征序列被输入到识别模块,得到识别结果。
与方法实施例相对应,本申请实施例还提供一种字符识别装置。本申请实施例提供的字符识别装置的一种结构示意图如图9所示,可以包括:
获得模块91,裁剪模块92和识别模块93;其中,
获得模块91用于获得图像,所述图像中具有待识别的字符;
裁剪模块92用户按照字符的排列方向,将所述图像裁剪为若干字符条,每个字符条中具有一排字符;
识别模块92用于对于每一个字符条,利用预先训练好的全卷积网络识别模型处理该字符条,得到该字符条的字符识别结果,所述全卷积网络识别模型至少被配置为:接收输入的字符条,获取所述输入的字符条的特征图,对所述特征图进行变形处理,以获得所述输入的字符条的特征序列,并根据所述特征序列预测所述输入的字符条中的各个字符;所述特征序列中的不同元素为所述字符条中不同区域的特征表示。
本申请实施例提供的字符识别装置,由全卷积网络识别模型实现了序列到序列的学习,而由于卷积运算不依赖于前一步的状态且与输入序列的长度无关,因此可以进行并行计算,大大加快了特征序列的建模过程,而且,相对于循环神经网络,卷积网络参数少,计算复杂度较低,占用的内存空间和运行时间也较少,易于部署。
在一可选的实施例中,所述识别模块92包括:
第一卷积控制模块,用于获取所述输入的字符条的初始特征图;
特征提取块控制模块,用于利用特征提取块对所述初始特征图进行特征提取,得到所述输入的字符条的特征图;其中,所述特征提取块由至少两个子特征提取块级联构成,每个子特征提取块被配置为:
对输入该子特征提取块的特征图进行稠密卷积处理,得到第一中间特征图;
对所述第一中间特征图进行前景增强处理,得到第二中间特征图;
最后一级子特征提取块输出的第二中间特征图为所述输入的字符条的特征图。
在一可选的实施例中,所述特征提取块控制模块在通过子特征提取块对所述第一中间特征图进行前景增强处理时,具体用于:通过子特征提取块基于残差注意力机制对所述第一中间特征图进行前景增强处理。
在一可选的实施例中,所述特征提取块控制模块在通过子特征提取块基于残差注意力机制对所述第一中间特征图进行前景增强处理时,具体用于:
通过子特征提取块对所述第一中间特征图进行特征提取,得到第三中间特征图;
通过子特征提取块基于所述第三中间特征图计算所述第三中间特征图中各个元素的权重;
通过子特征提取块将所述第三中间特征图中的各个元素乘以对应的权重,所得的结果与所述第三中间特征图相加,得到并输出第二中间特征图。
在一可选的实施例中,所述识别模块92包括变形处理模块,用于:
将所述特征图变形为初始特征序列,所述初始特征序列中元素的个数为所述特征图的高度和宽度的乘积,所述初始特征序列中每个元素是长度为所述特征图的通道数的向量;
将所述初始特征序列中的各个元素组合得到第四中间特征图,所述第四中间特征图的通道数为1,高度为所述特征图的通道数,宽度为所述初始特征序列中元素的个数;
对所述第四中间特征图进行卷积处理,得到第五中间特征图;
将所述第五中间特征图变形,得到所述输入的字符条的携带上下文信息的特征序列,所述输入的字符条的特征序列中元素的个数为所述第五中间特征图的宽度,所述输入的字符条的特征序列中每个元素是长度为所述第五中间特征图的高度的向量。
在一可选的实施例中,所述全卷积网络识别模型为利用标注有字符信息和字符结构信息的字符条样本训练得到。
在一可选的实施例中,每个字符标注有13种字符结构中的至少一种字符结构。
在一可选的实施例中,所述字符识别装置还包括训练模块,用于对所述全卷积网络识别模型进行训练,包括:将至少一个字符条样本输入全卷积网络识别模型,以使全卷积网络识别模型执行以下过程:
接收输入的至少一个字符条样本;
对于每一个字符条样本,获取该字符条样本的特征图;
对该字符条样本的特征图进行变形处理,以获得该字符条样本的特征序列,并根据该字符条样本的特征序列预测该字符条样本中的各个字符;该字符条样本的特征序列中的不同元素为该字符条样本的中不同区域的特征表示;
利用该字符条样本的特征图,对该字符条样本中的各个字符针对每个字符结构进行二分类,得到该字符条样本中的各个字符对应每个字符结构的二分类结果;
利用所述至少一个字符条样本的字符预测结果和标注的字符,以及所述至少一个字符条样本的中的各个字符对应每个字符结构的二分类结果和标注的字符结构对所述全卷积网络识别模型的参数进行更新。
本申请实施例提供的字符识别装置可应用于字符识别设备,如PC终端、云平台、服务器及服务器集群等。可选的,图10示出了字符识别设备的硬件结构框图,参照图10,字符识别设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获得图像,所述图像中具有待识别的字符;
按照字符的排列方向,将所述图像裁剪为若干字符条,每个字符条中具有一排字符;
对于每一个字符条,利用预先训练好的全卷积网络识别模型处理该字符条,得到该字符条的字符识别结果,所述全卷积网络识别模型至少被配置为:接收输入的字符条,获取所述输入的字符条的特征图,对所述特征图进行变形处理,以获得所述输入的字符条的携带上下文信息的特征序列,并根据所述特征序列预测所述输入的字符条中的各个字符;所述特征序列中的不同元素为所述字符条中不同区域的特征表示。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
获得图像,所述图像中具有待识别的字符;
按照字符的排列方向,将所述图像裁剪为若干字符条,每个字符条中具有一排字符;
对于每一个字符条,利用预先训练好的全卷积网络识别模型处理该字符条,得到该字符条的字符识别结果,所述全卷积网络识别模型至少被配置为:接收输入的字符条,获取所述输入的字符条的特征图,对所述特征图进行变形处理,以获得所述输入的字符条的携带上下文信息的特征序列,并根据所述特征序列预测所述输入的字符条中的各个字符;所述特征序列中的不同元素为所述字符条中不同区域的特征表示。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种字符识别方法,其特征在于,包括:
获得图像,所述图像中具有待识别的字符;
按照字符的排列方向,将所述图像裁剪为若干字符条,每个字符条中具有一排字符;
对于每一个字符条,利用预先训练好的全卷积网络识别模型处理该字符条,得到该字符条的字符识别结果,所述全卷积网络识别模型至少被配置为:接收输入的字符条,获取所述输入的字符条的特征图,对所述特征图进行变形处理,以获得所述输入的字符条的携带上下文信息的特征序列,并根据所述特征序列预测所述输入的字符条中的各个字符;所述特征序列中的不同元素为所述字符条中不同区域的特征表示。
2.根据权利要求1所述的方法,其特征在于,所述获取所述输入的字符条的特征图,包括:
获取所述输入的字符条的初始特征图;
利用特征提取块对所述初始特征图进行特征提取,得到所述输入的字符条的特征图;其中,所述特征提取块由至少两个子特征提取块级联构成,每个子特征提取块被配置为:
对输入该子特征提取块的特征图进行稠密卷积处理,得到第一中间特征图;
对所述第一中间特征图进行前景增强处理,得到第二中间特征图;
最后一级子特征提取块输出的第二中间特征图为所述输入的字符条的特征图。
3.根据权利要求2所述的方法,其特征在于,所述对所述第一中间特征图进行前景增强处理,包括:
基于残差注意力机制对所述第一中间特征图进行前景增强处理。
4.根据权利要求3所述的方法,其特征在于,所述基于残差注意力机制对所述第一中间特征图进行前景增强处理,包括:
对所述第一中间特征图进行特征提取,得到第三中间特征图;
基于所述第三中间特征图计算所述第三中间特征图中各个元素的权重;
将所述第三中间特征图中的各个元素乘以对应的权重,所得的结果与所述第三中间特征图相加,得到并输出第二中间特征图。
5.根据权利要求1所述的方法,其特征在于,所述对所述特征图进行变形处理,包括:
将所述特征图变形为初始特征序列,所述初始特征序列中元素的个数为所述特征图的高度和宽度的乘积,所述初始特征序列中每个元素是长度为所述特征图的通道数的向量;
将所述初始特征序列中的各个元素组合得到第四中间特征图,所述第四中间特征图的通道数为1,高度为所述特征图的通道数,宽度为所述初始特征序列中元素的个数;
对所述第四中间特征图进行卷积处理,得到第五中间特征图;
将所述第五中间特征图变形,得到所述输入的字符条的携带上下文信息的特征序列,所述输入的字符条的特征序列中元素的个数为所述第五中间特征图的宽度,所述输入的字符条的特征序列中每个元素是长度为所述第五中间特征图的高度的向量。
6.根据权利要求1所述的方法,其特征在于,所述全卷积网络识别模型为利用标注有字符信息和字符结构信息的字符条样本训练得到。
7.根据权利要求6所述的方法,其特征在于,每个字符标注有13种字符结构中的至少一种字符结构。
8.根据权利要求6或7所述的方法,其特征在于,所述全卷积网络识别模型通过如下方式训练得到:
接收输入的至少一个字符条样本;
对于每一个字符条样本,获取该字符条样本的特征图;
对该字符条样本的特征图进行变形处理,以获得该字符条样本的特征序列,并根据该字符条样本的特征序列预测该字符条样本中的各个字符;该字符条样本的特征序列中的不同元素为该字符条样本的中不同区域的特征表示;
利用该字符条样本的特征图,对该字符条样本中的各个字符针对每个字符结构进行二分类,得到该字符条样本中的各个字符对应每个字符结构的二分类结果;
利用所述至少一个字符条样本的字符预测结果和标注的字符,以及所述至少一个字符条样本的中的各个字符对应每个字符结构的二分类结果和标注的字符结构对所述全卷积网络识别模型的参数进行更新。
9.一种字符识别装置,其特征在于,包括:
获得模块,用于获得图像,所述图像中具有待识别的字符;
裁剪模块,用户按照字符的排列方向,将所述图像裁剪为若干字符条,每个字符条中具有一排字符;
识别模块,用于对于每一个字符条,利用预先训练好的全卷积网络识别模型处理该字符条,得到该字符条的字符识别结果,所述全卷积网络识别模型至少被配置为:接收输入的字符条,获取所述输入的字符条的特征图,对所述特征图进行变形处理,以获得所述输入的字符条的特征序列,并根据所述特征序列预测所述输入的字符条中的各个字符;所述特征序列中的不同元素为所述字符条中不同区域的特征表示。
10.一种字符识别设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1-8中任一项所述的字符识别方法的各个步骤。
11.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-8中任一项所述的字符识别方法的各个步骤。
CN201911418197.XA 2019-12-31 2019-12-31 字符识别方法、装置、设备及可读存储介质 Active CN111126410B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911418197.XA CN111126410B (zh) 2019-12-31 2019-12-31 字符识别方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911418197.XA CN111126410B (zh) 2019-12-31 2019-12-31 字符识别方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111126410A true CN111126410A (zh) 2020-05-08
CN111126410B CN111126410B (zh) 2022-11-18

Family

ID=70506862

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911418197.XA Active CN111126410B (zh) 2019-12-31 2019-12-31 字符识别方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111126410B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814796A (zh) * 2020-06-29 2020-10-23 北京市商汤科技开发有限公司 字符序列识别方法及装置、电子设备和存储介质
CN112016543A (zh) * 2020-07-24 2020-12-01 华为技术有限公司 一种文本识别网络、神经网络训练的方法以及相关设备
CN112163514A (zh) * 2020-09-26 2021-01-01 上海大学 中文繁体字识别方法及装置、可读存储介质
CN113221885A (zh) * 2021-05-13 2021-08-06 中国科学技术大学 一种基于整字和偏旁部首的层次化建模方法及系统
CN113221884A (zh) * 2021-05-13 2021-08-06 中国科学技术大学 一种基于低频字存储记忆的文本识别方法及系统
WO2022022704A1 (zh) * 2020-07-30 2022-02-03 上海高德威智能交通系统有限公司 序列识别方法、装置、图像处理设备和存储介质
CN114241467A (zh) * 2021-12-21 2022-03-25 北京有竹居网络技术有限公司 一种文本识别方法及其相关设备
JP2022172292A (ja) * 2022-01-06 2022-11-15 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド テキスト認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180137350A1 (en) * 2016-11-14 2018-05-17 Kodak Alaris Inc. System and method of character recognition using fully convolutional neural networks with attention
CN109117846A (zh) * 2018-08-22 2019-01-01 北京旷视科技有限公司 一种图像处理方法、装置、电子设备和计算机可读介质
CN109447078A (zh) * 2018-10-23 2019-03-08 四川大学 一种自然场景图像敏感文字的检测识别方法
CN109961068A (zh) * 2017-12-26 2019-07-02 阿里巴巴集团控股有限公司 图像识别、训练、搜索方法和装置及设备、介质
CN110162628A (zh) * 2019-05-06 2019-08-23 腾讯科技(深圳)有限公司 一种内容识别方法及装置
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180137350A1 (en) * 2016-11-14 2018-05-17 Kodak Alaris Inc. System and method of character recognition using fully convolutional neural networks with attention
CN109961068A (zh) * 2017-12-26 2019-07-02 阿里巴巴集团控股有限公司 图像识别、训练、搜索方法和装置及设备、介质
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN109117846A (zh) * 2018-08-22 2019-01-01 北京旷视科技有限公司 一种图像处理方法、装置、电子设备和计算机可读介质
CN109447078A (zh) * 2018-10-23 2019-03-08 四川大学 一种自然场景图像敏感文字的检测识别方法
CN110162628A (zh) * 2019-05-06 2019-08-23 腾讯科技(深圳)有限公司 一种内容识别方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
NIJA BABU ET AL: "Character Recognition in Historical Handwritten Documents–A Survey", 《2019 INTERNATIONAL CONFERENCE ON COMMUNICATION AND SIGNAL PROCESSING (ICCSP)》 *
艾合麦提江·麦提托合提等: "基于深度学习的场景文字检测与识别综述", 《电视技术》 *
蔡梦倩等: "基于全卷积网络的数字仪表字符识别方法", 《现代计算机》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814796A (zh) * 2020-06-29 2020-10-23 北京市商汤科技开发有限公司 字符序列识别方法及装置、电子设备和存储介质
CN112016543A (zh) * 2020-07-24 2020-12-01 华为技术有限公司 一种文本识别网络、神经网络训练的方法以及相关设备
WO2022017245A1 (zh) * 2020-07-24 2022-01-27 华为技术有限公司 一种文本识别网络、神经网络训练的方法以及相关设备
WO2022022704A1 (zh) * 2020-07-30 2022-02-03 上海高德威智能交通系统有限公司 序列识别方法、装置、图像处理设备和存储介质
CN112163514A (zh) * 2020-09-26 2021-01-01 上海大学 中文繁体字识别方法及装置、可读存储介质
CN113221885A (zh) * 2021-05-13 2021-08-06 中国科学技术大学 一种基于整字和偏旁部首的层次化建模方法及系统
CN113221884A (zh) * 2021-05-13 2021-08-06 中国科学技术大学 一种基于低频字存储记忆的文本识别方法及系统
CN113221884B (zh) * 2021-05-13 2022-09-06 中国科学技术大学 一种基于低频字存储记忆的文本识别方法及系统
CN113221885B (zh) * 2021-05-13 2022-09-06 中国科学技术大学 一种基于整字和偏旁部首的层次化建模方法及系统
CN114241467A (zh) * 2021-12-21 2022-03-25 北京有竹居网络技术有限公司 一种文本识别方法及其相关设备
JP2022172292A (ja) * 2022-01-06 2022-11-15 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド テキスト認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP7418517B2 (ja) 2022-01-06 2024-01-19 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド テキスト認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Also Published As

Publication number Publication date
CN111126410B (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
CN111126410B (zh) 字符识别方法、装置、设备及可读存储介质
CN107766894B (zh) 基于注意力机制和深度学习的遥感图像自然语言生成方法
CN112232149B (zh) 一种文档多模信息和关系提取方法及系统
CN112966691B (zh) 基于语义分割的多尺度文本检测方法、装置及电子设备
CN110428428A (zh) 一种图像语义分割方法、电子设备和可读存储介质
CN106599940B (zh) 图片文字的识别方法及装置
CN116258719B (zh) 基于多模态数据融合的浮选泡沫图像分割方法和装置
CN114283430A (zh) 跨模态图文匹配训练方法及装置、存储介质、电子设备
CN109918560A (zh) 一种基于搜索引擎的问答方法和装置
CN111723841A (zh) 文本检测方法、装置、电子设备及存储介质
CN114092930B (zh) 一种文字识别方法及系统
CN111598112A (zh) 多任务的目标检测方法、装置、电子设备及存储介质
CN114140786B (zh) 基于HRNet编码与双分支解码的场景文本识别方法
CN112700460B (zh) 图像分割方法及系统
CN111538809A (zh) 一种语音服务质量检测方法、模型训练方法及装置
CN113780283A (zh) 模型训练方法、文本检测方法、装置及轻量级网络模型
CN115457568A (zh) 一种基于生成对抗网络的历史文档图像降噪方法及系统
Shinde et al. Handwritten mathematical equation solver
CN114332509B (zh) 图像处理方法、模型训练方法、电子设备及自动驾驶车辆
CN113496228A (zh) 一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法
CN113627466A (zh) 图像标签识别方法、装置、电子设备及可读存储介质
CN116958981B (zh) 一种文字识别方法及装置
CN117423116B (zh) 一种文本检测模型的训练方法、文本检测方法及装置
CN117037170A (zh) 图像信息提取方法和装置、电子设备、存储介质
CN114792423B (zh) 文档图像的处理方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant