CN116030474A - 手写文本识别方法及装置 - Google Patents
手写文本识别方法及装置 Download PDFInfo
- Publication number
- CN116030474A CN116030474A CN202111241173.9A CN202111241173A CN116030474A CN 116030474 A CN116030474 A CN 116030474A CN 202111241173 A CN202111241173 A CN 202111241173A CN 116030474 A CN116030474 A CN 116030474A
- Authority
- CN
- China
- Prior art keywords
- handwritten text
- image
- feature map
- feature extraction
- extraction layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Discrimination (AREA)
Abstract
本申请提供一种手写文本识别方法及装置,该手写文本识别方法包括:获取第一待识别手写文本图像;获取第一待识别手写文本图像的第一特征图和第二特征图,其中,第一特征图是经第一特征提取层对第一待识别手写文本图像进行特征提取得到的,第二特征图是依次经第一特征提取层和第二特征提取层进行特征提取得到的,第二特征提取层进行卷积运算的维度高于第一特征提取层进行卷积运算的维度;对第二特征图和第一特征图进行上采样融合,得到第三特征图;对第三特征图和第二特征图进行降采样融合,得到第四特征图;基于第四特征图对第一待识别手写文本图像进行识别,得到手写文本识别结果。本申请能够提高手写文本识别的准确率。
Description
技术领域
本申请主要涉及图像识别技术领域,具体涉及一种手写文本识别方法及装置。
背景技术
为了方便收集、整理、存储、传输文稿等重要的纸质文件,可通过摄像设备对重要文件进行采集和传播。在一些场景中,需要对电子图片上的内容质量进行审核,确保文件图像中包含必须的签收人姓名、身份证号码和签收时间。对于未含有所需信息的文件图片,可以通过审核算法的反馈监督当事人进行填写并重新进行图像采集,从而对纸质文件进行自动化的质量审核。这种替代人工审核的自动化方式,节省了大量的人工和时间成本,并且统一审核标准避免了人工判别标准不一致的问题。
现有的手写文本按语义信息分类方法,建立在对手写文本语义识别和翻译的基础上。使用长短期记忆网络、循环神经网络等OCR识别网络对手写数字、印刷体文本进行识别。循环神经网络在处理手写数字、手写字符等简单数据上有较好的识别效果,但难以处理复杂的中文汉字,并且网络的推理需要耗费大量的时间。手写文本图像的质量,受手写个体、拍摄环境、手持设备参数等的影响。随着手写人的不同,同一字符的特征差异较大,相似字符间的特征差异较小;由于拍摄环境的影响,容易出现模糊,字迹不清等情况增加文本检测和辨识的难度;对于目标类,姓名、日期、身份证号以外的其他类,包含的手写种类多,类内差异大,特征较为分散。基于以上的难点,现有的OCR识别技术难以解决姓名、日期等的中文字符识别问题。
也即,现有技术中手写文本识别的准确率不高。
发明内容
本申请提供一种手写文本识别方法及装置,旨在解决现有技术中手写文本识别的准确率不高的问题。
第一方面,本申请提供一种手写文本识别方法,应用于手写文本分类模型,其中,所述手写文本分类模型包括第一特征提取层和第二特征提取层,所述手写文本识别方法包括:
获取第一待识别手写文本图像;
获取所述第一待识别手写文本图像的第一特征图和第二特征图,其中,所述第一特征图是经所述第一特征提取层对所述第一待识别手写文本图像进行特征提取得到的,所述第二特征图是依次经所述第一特征提取层和所述第二特征提取层对所述第一待识别手写文本图像进行特征提取得到的,所述第二特征提取层进行卷积运算的维度高于所述第一特征提取层进行卷积运算的维度;
对所述第二特征图和所述第一特征图进行上采样融合,得到第三特征图;
对所述第三特征图和所述第二特征图进行降采样融合,得到第四特征图;
基于所述第四特征图对所述第一待识别手写文本图像进行识别,得到手写文本识别结果。
可选地,所述获取所述第一待识别手写文本图像的第一特征图和第二特征图,包括:
对所述第一待识别手写文本图像进行特征提取,得到第五特征图;
对所述第五特征图进行通道注意力特征提取,得到通道注意力特征图;
基于所述通道注意力特征图和所述第五特征图确定所述第一特征图。
可选地,所述基于所述通道注意力特征图和所述第五特征图确定所述第一特征图,包括:
融合所述通道注意力特征图和所述第五特征图,得到第六特征图;
对所述第六特征图进行空间注意力特征提取,得到空间注意力特征图;
融合所述空间注意力特征图和所述第六特征图,得到第一特征图。
可选地,所述手写文本分类模型在训练阶段使用圆损失和交叉熵损失的加权和作为总损失函数,其中,所述交叉熵损失的权重系数大于所述圆损失的权重系数。
可选地,所述获取第一待识别手写文本图像,包括:
获取第二待识别手写文本图像和手写文本检测模型,其中,所述手写文本检测模型为使用预设图像集对预设目标检测模型训练得到的,所述预设图像集包括多个样本图像,所述样本图像中标注有手写文本区域的标注框;
基于所述手写文本检测模型检测所述第二待识别手写文本图像,得到手写文本检测框;
对所述第二待识别手写文本图像中位于所述手写文本检测框中的图像裁剪,得到所述第一待识别手写文本图像。
可选地,所述获取第二待识别手写文本图像和手写文本检测模型,包括:
裁剪所述预设图像集中第一目标样本图像的所述标注框中的图像,得到裁剪图像;
将所述裁剪图像移动至第二目标样本图像中的随机位置;
若所述裁剪图像与所述第二目标样本图像的标注框的交并比小于预设值,则将所述裁剪图像粘贴于所述第二目标样本图像,得到第三目标样本图像;
将所述第三目标样本图像增加至所述预设图像集;
基于所述预设图像集对所述预设目标检测模型训练,得到手写文本检测模型。
可选地,所述手写文本检测模型包括多个子检测模型,所述多个子检测模型由多个不同的子训练集训练得到,所述子训练集为所述预设图像集的子集,所述基于所述手写文本检测模型检测所述第二待识别手写文本图像,得到手写文本检测框,包括:
将所述第二待识别手写文本图像分别输入多个子检测模型,得到多个子检测模型的检测框和检测框对应的置信度;
基于多个检测框的置信度对所述多个子检测模型的检测框进行加权,得到所述手写文本检测框。
第二方面,本申请提供一种手写文本识别装置,其中存储有手写文本分类模型,其中,所述手写文本分类模型包括第一特征提取层和第二特征提取层,所述手写文本识别装置包括:
第一获取单元,用于获取第一待识别手写文本图像;
第二获取单元,用于获取所述第一待识别手写文本图像的第一特征图和第二特征图,其中,所述第一特征图是经所述第一特征提取层对所述第一待识别手写文本图像进行特征提取得到的,所述第二特征图是依次经所述第一特征提取层和所述第二特征提取层对所述第一待识别手写文本图像进行特征提取得到的,所述第二特征提取层进行卷积运算的维度高于所述第一特征提取层进行卷积运算的维度;
上采样融合单元,用于对所述第二特征图和所述第一特征图进行上采样融合,得到第三特征图;
降采样融合单元,用于对所述第三特征图和所述第二特征图进行降采样融合,得到第四特征图;
识别单元,用于基于所述第四特征图对所述第一待识别手写文本图像进行识别,得到手写文本识别结果。
可选地,所述第二获取单元,用于:
对所述第一待识别手写文本图像进行特征提取,得到第五特征图;
对所述第五特征图进行通道注意力特征提取,得到通道注意力特征图;
基于所述通道注意力特征图和所述第五特征图确定所述第一特征图。
可选地,所述第二获取单元,用于:
融合所述通道注意力特征图和所述第五特征图,得到第六特征图;
对所述第六特征图进行空间注意力特征提取,得到空间注意力特征图;
融合所述空间注意力特征图和所述第六特征图,得到第一特征图。
可选地,所述手写文本分类模型在训练阶段使用圆损失和交叉熵损失的加权和作为总损失函数,其中,所述交叉熵损失的权重系数大于所述圆损失的权重系数。
可选地,所述第一获取单元,用于:
获取第二待识别手写文本图像和手写文本检测模型,其中,所述手写文本检测模型为使用预设图像集对预设目标检测模型训练得到的,所述预设图像集包括多个样本图像,所述样本图像中标注有手写文本区域的标注框;
基于所述手写文本检测模型检测所述第二待识别手写文本图像,得到手写文本检测框;
对所述第二待识别手写文本图像中位于所述手写文本检测框中的图像裁剪,得到所述第一待识别手写文本图像。
可选地,所述第一获取单元,用于:
裁剪所述预设图像集中第一目标样本图像的所述标注框中的图像,得到裁剪图像;
将所述裁剪图像移动至第二目标样本图像中的随机位置;
若所述裁剪图像与所述第二目标样本图像的标注框的交并比小于预设值,则将所述裁剪图像粘贴于所述第二目标样本图像,得到第三目标样本图像;
将所述第三目标样本图像增加至所述预设图像集;
基于所述预设图像集对所述预设目标检测模型训练,得到手写文本检测模型。
可选地,所述手写文本检测模型包括多个子检测模型,所述多个子检测模型由多个不同的子训练集训练得到,所述子训练集为所述预设图像集的子集,所述第一获取单元,用于:
将所述第二待识别手写文本图像分别输入多个子检测模型,得到多个子检测模型的检测框和检测框对应的置信度;
基于多个检测框的置信度对所述多个子检测模型的检测框进行加权,得到所述手写文本检测框。
第三方面,本申请提供一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储器;以及
一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现第一方面中任一项所述的手写文本识别方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行第一方面中任一项所述的手写文本识别方法中的步骤。
本申请提供一种手写文本识别方法及装置,该手写文本识别方法应用于手写文本分类模型,其中,手写文本分类模型包括第一特征提取层和第二特征提取层,手写文本识别方法包括:获取第一待识别手写文本图像;获取第一待识别手写文本图像的第一特征图和第二特征图,其中,第一特征图是经第一特征提取层对第一待识别手写文本图像进行特征提取得到的,第二特征图是依次经第一特征提取层和第二特征提取层对第一待识别手写文本图像进行特征提取得到的,第二特征提取层进行卷积运算的维度高于第一特征提取层进行卷积运算的维度;对第二特征图和第一特征图进行上采样融合,得到第三特征图;对第三特征图和第二特征图进行降采样融合,得到第四特征图;基于第四特征图对第一待识别手写文本图像进行识别,得到手写文本识别结果。本申请利用串联的第一特征提取层和第二特征提取层对第一待识别手写文本图像进行特征提取,得到较高维度卷积运算得到的第二特征图和较低维度卷积运算得到的第一特征图,对第一特征图和第二特征图进行自高向低维度的上采样融合,再对得到的结果进行自低向高维度的降采样融合。使用这种网络结构,自高向低传达强语义特征,而自低向高传达强定位特征,对不同的检测层进行参数聚合,增强了特征对于全局和局部的表达,从而能够提高模型预测准确性,提高手写文本识别的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的手写文本识别系统的场景示意图;
图2是本申请实施例中提供的手写文本识别方法的一个实施例流程示意图;
图3是本申请实施例中提供的手写文本识别方法的一个实施例中S201的流程示意图;
图4是本申请实施例中手写文本分类模型的一个实施例网络结构示意图;
图5是本申请实施例中提供的手写文本识别装置的一个实施例结构示意图;
图6是本申请实施例中提供的计算机设备的一个实施例结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本申请中,“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本申请,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本申请。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本申请的描述变得晦涩。因此,本申请并非旨在限于所示的实施例,而是与符合本申请所公开的原理和特征的最广范围相一致。
本申请实施例提供一种手写文本识别方法及装置,以下分别进行详细说明。
请参阅图1,图1为本申请实施例所提供的手写文本识别系统的场景示意图,该手写文本识别系统可以包括计算机设备100,计算机设备100中集成有手写文本识别装置。
本申请实施例中,该计算机设备100可以是独立的服务器,也可以是服务器组成的服务器网络或服务器集群,例如,本申请实施例中所描述的计算机设备100,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中,云服务器由基于云计算(Cloud Computing)的大量计算机或网络服务器构成。
本申请实施例中,上述的计算机设备100可以是一个通用计算机设备或者是一个专用计算机设备。在具体实现中计算机设备100可以是台式机、便携式电脑、网络服务器、掌上电脑(Personal Digital Assistant,PDA)、移动手机、平板电脑、无线终端设备、通信设备、嵌入式设备等,本实施例不限定计算机设备100的类型。
本领域技术人员可以理解,图1中示出的应用环境,仅仅是本申请方案的一种应用场景,并不构成对本申请方案应用场景的限定,其他的应用环境还可以包括比图1中所示更多或更少的计算机设备,例如图1中仅示出1个计算机设备,可以理解的,该手写文本识别系统还可以包括一个或多个可处理数据的其他计算机设备,具体此处不作限定。
另外,如图1所示,该手写文本识别系统还可以包括存储器200,用于存储数据。
需要说明的是,图1所示的手写文本识别系统的场景示意图仅仅是一个示例,本申请实施例描述的手写文本识别系统以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着手写文本识别系统的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
首先,本申请实施例中提供一种手写文本识别方法,该手写文本识别方法应用于手写文本分类模型,其中,手写文本分类模型包括第一特征提取层和第二特征提取层,手写文本识别方法包括:获取第一待识别手写文本图像;获取第一待识别手写文本图像的第一特征图和第二特征图,其中,第一特征图是经第一特征提取层对第一待识别手写文本图像进行特征提取得到的,第二特征图是依次经第一特征提取层和第二特征提取层对第一待识别手写文本图像进行特征提取得到的,第二特征提取层进行卷积运算的维度高于第一特征提取层进行卷积运算的维度;对第二特征图和第一特征图进行上采样融合,得到第三特征图;对第三特征图和第二特征图进行降采样融合,得到第四特征图;基于第四特征图对第一待识别手写文本图像进行识别,得到手写文本识别结果。
如图2所示,图2是本申请实施例中提供的手写文本识别方法的一个实施例流程示意图,该手写文本识别方法应用于手写文本分类模型,其中,手写文本分类模型包括第一特征提取层和第二特征提取层。该手写文本识别方法包括如下步骤S201~S205:
S201、获取第一待识别手写文本图像。
本申请实施例中,第一待识别手写文本图像可以是使用相机对写有手文本的运单、文件等拍照得到的图像。手写文本指的是人工手写的字体,是相对于印刷体而言,例如,人手工写的签名、日期、身份证号等等。
S202、获取第一待识别手写文本图像的第一特征图和第二特征图。
其中,第一特征图是经第一特征提取层对第一待识别手写文本图像进行特征提取得到的,第二特征图是依次经第一特征提取层和第二特征提取层对第一待识别手写文本图像进行特征提取得到的,第二特征提取层进行卷积运算的维度高于第一特征提取层进行卷积运算的维度。
在一个具体的实施例中,第一特征提取层包括MBConv1(k3x3)。第二特征提取层包括MBConv6(k3x3)。第一特征提取层进行卷积运算的维度为1维,进行1维矩阵卷积运算;第二特征提取层进行卷积运算的维度为6维,进行6维矩阵卷积运算。
为了将有限的计算资源用在较重要的特征上,本申请在特征提取时使用注意力机制。在一个具体的实施例中,获取第一待识别手写文本图像的第一特征图和第二特征图,可以包括:
(1)对第一待识别手写文本图像进行特征提取,得到第五特征图。
具体的,将第一待识别手写文本图像的尺寸预处理至224×224×40,将224×224×40的第一待识别手写文本图像输入Conv3×3进行特征提取,得到112×112×24的第五特征图。
(2)对第五特征图进行通道注意力特征提取,得到通道注意力特征图。
具体的,使用第一特征提取层的MBConv1(k3x3)将第五特征图依次进行1x1卷积升维、BN归一化、Swish激活函数、3x3深度可分离卷积、senet注意力层、1x1卷积降维,得到通道注意力特征图。
注意力机制(Attention Mechanism)是机器学习中的一种数据处理方法,广泛应用在自然语言处理、图像识别及语音识别等各种不同类型的机器学习任务中。通俗来讲:注意力机制就是希望网络能够自动学出来图片或者文字序列中的需要注意的地方。比如人眼在看一幅画的时候,不会将注意力平等地分配给画中的所有像素,而是将更多注意力分配给人们关注的地方。从实现的角度来讲:注意力机制通过神经网络的操作生成一个掩码,掩码上的值一个打分,评价当前需要关注的点的评分。注意力机制可以分为通道注意力机制和空间注意力机制。通道注意力机制:对通道生成掩码;通道注意力机制可以是senet、Channel Attention Module等。空间注意力机制:对空间进行生成掩码,空间注意力机制可以是Spatial Attention Module。
(3)基于通道注意力特征图和第五特征图确定第一特征图。
其中,第一特征图的尺寸为112×112×32。
在一个具体的实施例中,将通道注意力特征图和第一特征图点乘,得到第一特征图。加入通道注意力模块对图像进行通道维度的特征提取,强调通道维度上的有意义特征,确定各个特征通道的重要性,然后针对不同的任务增强或者抑制不同的通道,从而提高模型的计算效率和准确率。
在另一个具体的实施例中,基于通道注意力特征图和第五特征图确定第一特征图,可以包括:
(1)融合通道注意力特征图和第五特征图,得到第六特征图。
具体的,将通道注意力特征图和第五特征图点乘,得到第六特征图。
(2)对第六特征图进行空间注意力特征提取,得到空间注意力特征图。
具体的,在一个具体的实施例中,在通道维度上对第三特征图进行最大池化和平均池化,得到通道最大池化结果和通道平均池化结果。将通道最大池化结果和通道平均池化结果拼接起来作为pointwise卷积层的输入并通过Sigmoid函数生成最终的空间注意力特征图。
(3)融合空间注意力特征图和第六特征图,得到第一特征图。
具体的,将空间注意力特征图和第六特征图点乘,得到第一特征图。
加入通道注意力模块和空间注意力模块对图像进行通道和空间两种维度的特征提取,强调通道维度和空间维度上的有意义特征,确定各个特征通道和各个特征空间的重要性,然后针对不同的任务增强或者抑制不同的通道和空间,从而提高模型的计算效率和准确率。
进一步的,在得到第一特征图之后,将112×112×32的第一特征图输入第二特征提取层中的MBConv6(k3x3),得到56×56×48的第二特征图。具体的,MBConv6(k3x3)对第一特征图依次经过1x1卷积、BN归一化、Swish激活函数,通道数扩大6倍,再经过5x5的深度可分离卷积、senet注意力层和1x1卷积恢复原通道数,得到56×56×48的第二特征图。
S203、对第二特征图和第一特征图进行上采样融合,得到第三特征图。
在一个具体的实施例中,对第二特征图和第一特征图进行上采样融合,得到第三特征图,包括:对56×56×48的第二特征图进行2倍上采样,得到112×112×48的上采样特征图;将112×112×48的上采样特征图和112×112×32的第一特征图融合,得到第三特征图。上采样(upsample)的主要目的是放大原图像,从而可以显示在更高分辨率的显示设备上。
S204、对第三特征图和第二特征图进行降采样融合,得到第四特征图。
在一个具体的实施例中,对第三特征图和第二特征图进行降采样融合,得到第四特征图,包括:对第三特征图进行2倍降采样,得到降采样特征图;将降采样特征图和第二特征图融合,得到第四特征图。降采样(downsample)的主要目的有两个:1、使得图像符合显示区域的大小;2、生成对应图像的缩略图。
S205、基于第四特征图对第一待识别手写文本图像进行识别,得到手写文本识别结果。
具体的,将第四特征图依次输出池化层、全连接层以及softmax层,得到手写文本识别结果。其中,手写文本识别结果包括手写文本类别和对应的置信度。手写文本类别包括姓名类别、日期类别、身份证类别。例如,一张第一待识别手写文本图像输入后,得到的手写文本识别结果为:姓名类别,置信度0.1;日期类别,置信度0.8;身份证类别,置信度0.1。将置信度最高的手写文本类别输出。
在一个具体的实施例中,手写文本分类模型在训练阶段使用圆损失和交叉熵损失的加权和作为总损失函数,其中,交叉熵损失的权重系数大于圆损失的权重系数。例如,交叉熵损失的权重系数为1,圆损失的权重系数为0.001。
具体的,总损失函数根据公式(1)(2)(3)联立求得。
Lloss=Lclassify+0.001Lcircle (1)
αp i=[Op-sp i]+,αn j=[sn j-On]+ (3)
其中{sn j}(j=1,2,...,L)表示对特征空间的一个单个样例x的L个类间关于x的相似性得分,{sp i}(i=1,2,...,K)表示对x的K个类内关于x的相似性得分。γ是一个尺度因子,在计算中设置Op=1+m,On=-m,m是一个阈值。Lloss是总损失函数,Lclassify是交叉熵损失,Lcircle是圆损失。
圆损失(circle loss)重新加权欠优化的相似性得分,更灵活的惩罚单一相似性分数,使学习到的特征分布更合理并利于特征区分。使用联合损失函数更好地学习特征的分布同时优化模型的分类,加快学习的进程,提高模型分类的准确率。
进一步的,参阅图3,图3是本申请实施例中提供的手写文本识别方法的一个实施例中S201的流程示意图。本申请实施例中,获取第一待识别手写文本图像,包括如下步骤S301~S303:
S301、获取第二待识别手写文本图像和手写文本检测模型,其中,手写文本检测模型为使用预设图像集对预设目标检测模型训练得到的,预设图像集包括多个样本图像,样本图像中标注有手写文本区域的标注框。
由于拍的图像有时不会正好将手写文本区域拍下来,可能会有其他内容,需要识别手写文本区域。第二待识别手写文本图像为包含手写文本区域的图像,也可能包含其他内容,比如印章、印刷字体等。
本申请实施例中,预设图像集中的样本图像可以通过人工标注。标准框为手写文本的外接矩形。标注框的位置由标注框的左上、右上、右下和左下四个点的坐标来表示。样本图像中还包括标注框的所属类别,即标注框属于印章区域或是手写文本区域。
在一个具体的实施例中,获取第二待识别手写文本图像和手写文本检测模型,可以包括:
(1)裁剪预设图像集中第一目标样本图像的标注框中的图像,得到裁剪图像。
其中,第一目标样本图像可以是预设图像集中任意一个样本图像。当然,第一目标样本图像也可以预设样本集中清晰度高于预定清晰度的样本图像。
(2)将裁剪图像移动至第二目标样本图像中的随机位置。
(3)若裁剪图像与第二目标样本图像的标注框的交并比小于预设值,则将裁剪图像粘贴于第二目标样本图像,得到第三目标样本图像。
其中,交并比指的是裁剪图像与第二目标样本图像的标注框之间交集和并集的比值。具体的,预设值可以为0.9。若裁剪图像与第二目标样本图像的标注框的交并比小于预设值,说明裁剪图像放入第二目标样本图像中不会影响第二目标样本图像的标注框的识别,将裁剪图像粘贴于第二目标样本图像,得到第三目标样本图像。第三目标样本图像为新生成的样本,因此根据现有的第一目标样本图像和第二目标样本图像生成了新的样本,实现了预设图像集的扩充。
(4)将第三目标样本图像增加至预设图像集。
第三目标样本图像为新生成的样本,将第三目标样本图像增加至预设图像集,扩充了预设图像集,从而可以提高模型训练效果。
(5)基于预设图像集对预设目标检测模型训练,得到手写文本检测模型。
其中,预设目标检测模型可以是YOLOV5、SSD等目标检测模型,根据具体情况选用即可。
S302、基于手写文本检测模型检测第二待识别手写文本图像,得到手写文本检测框。
为了进一步提高手写文本检测的准确性,在一个具体的实施例中,手写文本检测模型包括多个子检测模型,多个子检测模型由多个不同的子训练集训练得到,子训练集为预设图像集的子集,基于手写文本检测模型检测第二待识别手写文本图像,得到手写文本检测框,包括:将第二待识别手写文本图像分别输入多个子检测模型,得到多个子检测模型的检测框和检测框对应的置信度;基于多个检测框的置信度对多个子检测模型的检测框进行加权,得到手写文本检测框。
具体的,将预设图像集等分成10份,得到10个子图像集。提取其中的一份子图像集a作为验证集,其余为子训练集,以此子训练集训练预设目标检测模型,得到子检测模型A。提取10等份中不同于子图像集a的一子图像集b为验证集,其余为训练集,以此子训练集训练预设目标检测模型,得到子检测模型B;提取10等份中不同于a、b的一个子图像集c为验证集,其余为子训练集,以此子训练集训练预设目标检测模型,得到子检测模型C;如此得到子检测模型A、子检测模型B以及子检测模型C,共3个子检测模型,防止因训练集验证集数据分布不一致而导致的检测结果偏向性问题,提高模型泛化性能。
S303、对第二待识别手写文本图像中位于手写文本检测框中的图像裁剪,得到第一待识别手写文本图像。
对第二待识别手写文本图像中位于手写文本检测框中的图像裁剪,得到第一待识别手写文本图像,第一待识别手写文本图像剔除了手写文本区域之外的其他内容,将手写文本分类模型进行识别的区域定位在手写文本区域,能够提高分类准确度。
上述实施例仅仅阐述了手写文本分类模型包括第一特征提取层和第二特征提取层的情况,手写文本分类模型还可以包括更多特征提取层。
参阅图4,图4是本申请实施例中手写文本分类模型的一个实施例网络结构示意图。
本申请实施例中,手写文本分类模型的各个模块参数如表一所示。手写文本分类模型包括第一特征提取层MBConv1(k3x3)、第二特征提取层MBConv6(k3x3)、第三特征提取层MBConv6(k5x5)、第四特征提取层MBConv6(k3x3)、第五特征提取层MBConv6(k5x5)、第六特征提取层MBConv6(k5x5)、第七特征提取层MBConv6(k3x3)。
Stage | Operator | Resolution | Channels | Layers |
1 | Conv 3x3 | 224x224 | 40 | 1 |
2 | MBConv1(k3x3) | 112x112 | 24 | 2 |
3 | MBConv6(k3x3) | 112x112 | 32 | 3 |
4 | MBConv6(k5x5) | 56x56 | 48 | 3 |
5 | MBConv6(k3x3) | 28x28 | 96 | 5 |
6 | MBConv6(k5x5) | 14x14 | 136 | 5 |
7 | MBConv6(k5x5) | 14x14 | 232 | 6 |
8 | MBConv6(k3x3) | 7x7 | 384 | 2 |
9 | Conv1x1&Pooling&FC | 7x7 | 1536 | 1 |
表一:手写文本分类模型的各个模块参数表
结合图4和表一,将第一待识别手写文本图像的尺寸预处理至224×224×40,将224×224×40的第一待识别手写文本图像输入Conv3×3进行特征提取,得到112×112×24的第五特征图;将112×112×24的第五特征图依次输入第一特征提取层MBConv1(k3x3)、第二特征提取层MBConv6(k3x3)、第三特征提取层MBConv6(k5x5)、第四特征提取层MBConv6(k3x3)、第五特征提取层MBConv6(k5x5)、第六特征提取层MBConv6(k5x5)、第七特征提取层MBConv6(k3x3)。
对第七特征提取层MBConv6(k3x3)输出的特征图P5进行2倍上采样并与第四特征提取层MBConv6(k3x3)输出的特征图融合,得到特征图P4。对特征图P4进行2倍上采样并与第二特征提取层MBConv6(k3x3)输出的特征图融合,得到特征图P3。对特征图P3进行2倍上采样并与第一特征提取层MBConv1(k3x3)输出的特征图融合,得到特征图P2。完成自高向低的金字塔特征提取。
对特征图P2进行Conv1x1卷积,得到特征图N2;对特征图N2进行2倍降采样并与特征图P3融合,得到特征图N3。对特征图N3进行2倍降采样并与特征图P4融合,得到特征图N4。对特征图N4进行2倍降采样并与特征图P5融合,得到特征图N5。完成自低向高的金字塔特征提取。
将特征图N5依次输出池化层、全连接层以及softmax层,得到手写文本识别结果。
为了更好实施本申请实施例中手写文本识别方法,在手写文本识别方法基础之上,本申请实施例中还提供一种手写文本识别装置,如图5所示,手写文本识别装置500包括:
第一获取单元501,用于获取第一待识别手写文本图像;
第二获取单元502,用于获取第一待识别手写文本图像的第一特征图和第二特征图,其中,第一特征图是经第一特征提取层对第一待识别手写文本图像进行特征提取得到的,第二特征图是依次经第一特征提取层和第二特征提取层对第一待识别手写文本图像进行特征提取得到的,第二特征提取层进行卷积运算的维度高于第一特征提取层进行卷积运算的维度;
上采样融合单元503,用于对第二特征图和第一特征图进行上采样融合,得到第三特征图;
降采样融合单元504,用于对第三特征图和第二特征图进行降采样融合,得到第四特征图;
识别单元505,用于基于第四特征图对第一待识别手写文本图像进行识别,得到手写文本识别结果。
可选地,第二获取单元502,用于:
对第一待识别手写文本图像进行特征提取,得到第五特征图;
对第五特征图进行通道注意力特征提取,得到通道注意力特征图;
基于通道注意力特征图和第五特征图确定第一特征图。
可选地,第二获取单元502,用于:
融合通道注意力特征图和第五特征图,得到第六特征图;
对第六特征图进行空间注意力特征提取,得到空间注意力特征图;
融合空间注意力特征图和第六特征图,得到第一特征图。
可选地,手写文本分类模型在训练阶段使用圆损失和交叉熵损失的加权和作为总损失函数,其中,交叉熵损失的权重系数大于圆损失的权重系数。
可选地,第一获取单元501,用于:
获取第二待识别手写文本图像和手写文本检测模型,其中,手写文本检测模型为使用预设图像集对预设目标检测模型训练得到的,预设图像集包括多个样本图像,样本图像中标注有手写文本区域的标注框;
基于手写文本检测模型检测第二待识别手写文本图像,得到手写文本检测框;
对第二待识别手写文本图像中位于手写文本检测框中的图像裁剪,得到第一待识别手写文本图像。
可选地,第一获取单元501,用于:
裁剪预设图像集中第一目标样本图像的标注框中的图像,得到裁剪图像;
将裁剪图像移动至第二目标样本图像中的随机位置;
若裁剪图像与第二目标样本图像的标注框的交并比小于预设值,则将裁剪图像粘贴于第二目标样本图像,得到第三目标样本图像;
将第三目标样本图像增加至预设图像集;
基于预设图像集对预设目标检测模型训练,得到手写文本检测模型。
可选地,手写文本检测模型包括多个子检测模型,多个子检测模型由多个不同的子训练集训练得到,子训练集为预设图像集的子集,第一获取单元501,用于:
将第二待识别手写文本图像分别输入多个子检测模型,得到多个子检测模型的检测框和检测框对应的置信度;
基于多个检测框的置信度对多个子检测模型的检测框进行加权,得到手写文本检测框。
本申请实施例还提供一种计算机设备,其集成了本申请实施例所提供的任一种手写文本识别装置,计算机设备包括:
一个或多个处理器;
存储器;以及
一个或多个应用程序,其中一个或多个应用程序被存储于存储器中,并配置为由处理器执行上述手写文本识别方法实施例中任一实施例中的手写文本识别方法的步骤。
如图6所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解,图中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器601是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器601可包括一个或多个处理核心;处理器601可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,优选的,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。
存储器602可用于存储软件程序以及模块,处理器601通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器601对存储器602的访问。
计算机设备还包括给各个部件供电的电源603,优选的,电源603可以通过电源管理系统与处理器601逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元604,该输入单元604可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器601会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器601来运行存储在存储器602中的应用程序,从而实现各种功能,如下:
获取第一待识别手写文本图像;
获取第一待识别手写文本图像的第一特征图和第二特征图,其中,第一特征图是经第一特征提取层对第一待识别手写文本图像进行特征提取得到的,第二特征图是依次经第一特征提取层和第二特征提取层对第一待识别手写文本图像进行特征提取得到的,第二特征提取层进行卷积运算的维度高于第一特征提取层进行卷积运算的维度;
对第二特征图和第一特征图进行上采样融合,得到第三特征图;
对第三特征图和第二特征图进行降采样融合,得到第四特征图;
基于第四特征图对第一待识别手写文本图像进行识别,得到手写文本识别结果。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。其上存储有计算机程序,计算机程序被处理器进行加载,以执行本申请实施例所提供的任一种手写文本识别方法中的步骤。例如,计算机程序被处理器进行加载可以执行如下步骤:
获取第一待识别手写文本图像;
获取第一待识别手写文本图像的第一特征图和第二特征图,其中,第一特征图是经第一特征提取层对第一待识别手写文本图像进行特征提取得到的,第二特征图是依次经第一特征提取层和第二特征提取层对第一待识别手写文本图像进行特征提取得到的,第二特征提取层进行卷积运算的维度高于第一特征提取层进行卷积运算的维度;
对第二特征图和第一特征图进行上采样融合,得到第三特征图;
对第三特征图和第二特征图进行降采样融合,得到第四特征图;
基于第四特征图对第一待识别手写文本图像进行识别,得到手写文本识别结果。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对其他实施例的详细描述,此处不再赘述。
具体实施时,以上各个单元或结构可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元或结构的具体实施可参见前面的方法实施例,在此不再赘述。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种手写文本识别方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种手写文本识别方法,其特征在于,应用于手写文本分类模型,其中,所述手写文本分类模型包括第一特征提取层和第二特征提取层,所述手写文本识别方法包括:
获取第一待识别手写文本图像;
获取所述第一待识别手写文本图像的第一特征图和第二特征图,其中,所述第一特征图是经所述第一特征提取层对所述第一待识别手写文本图像进行特征提取得到的,所述第二特征图是依次经所述第一特征提取层和所述第二特征提取层对所述第一待识别手写文本图像进行特征提取得到的,所述第二特征提取层进行卷积运算的维度高于所述第一特征提取层进行卷积运算的维度;
对所述第二特征图和所述第一特征图进行上采样融合,得到第三特征图;
对所述第三特征图和所述第二特征图进行降采样融合,得到第四特征图;
基于所述第四特征图对所述第一待识别手写文本图像进行识别,得到手写文本识别结果。
2.根据权利要求1所述的手写文本识别方法,其特征在于,所述获取所述第一待识别手写文本图像的第一特征图和第二特征图,包括:
对所述第一待识别手写文本图像进行特征提取,得到第五特征图;
对所述第五特征图进行通道注意力特征提取,得到通道注意力特征图;
基于所述通道注意力特征图和所述第五特征图确定所述第一特征图。
3.根据权利要求2所述的手写文本识别方法,其特征在于,所述基于所述通道注意力特征图和所述第五特征图确定所述第一特征图,包括:
融合所述通道注意力特征图和所述第五特征图,得到第六特征图;
对所述第六特征图进行空间注意力特征提取,得到空间注意力特征图;
融合所述空间注意力特征图和所述第六特征图,得到第一特征图。
4.根据权利要求1所述的手写文本识别方法,其特征在于,所述手写文本分类模型在训练阶段使用圆损失和交叉熵损失的加权和作为总损失函数,其中,所述交叉熵损失的权重系数大于所述圆损失的权重系数。
5.根据权利要求1-4任意一项所述的手写文本识别方法,其特征在于,所述获取第一待识别手写文本图像,包括:
获取第二待识别手写文本图像和手写文本检测模型,其中,所述手写文本检测模型为使用预设图像集对预设目标检测模型训练得到的,所述预设图像集包括多个样本图像,所述样本图像中标注有手写文本区域的标注框;
基于所述手写文本检测模型检测所述第二待识别手写文本图像,得到手写文本检测框;
对所述第二待识别手写文本图像中位于所述手写文本检测框中的图像裁剪,得到所述第一待识别手写文本图像。
6.根据权利要求5所述的手写文本识别方法,其特征在于,所述获取第二待识别手写文本图像和手写文本检测模型,包括:
裁剪所述预设图像集中第一目标样本图像的所述标注框中的图像,得到裁剪图像;
将所述裁剪图像移动至第二目标样本图像中的随机位置;
若所述裁剪图像与所述第二目标样本图像的标注框的交并比小于预设值,则将所述裁剪图像粘贴于所述第二目标样本图像,得到第三目标样本图像;
将所述第三目标样本图像增加至所述预设图像集;
基于所述预设图像集对所述预设目标检测模型训练,得到手写文本检测模型。
7.根据权利要求5所述的手写文本识别方法,其特征在于,所述手写文本检测模型包括多个子检测模型,所述多个子检测模型由多个不同的子训练集训练得到,所述子训练集为所述预设图像集的子集,所述基于所述手写文本检测模型检测所述第二待识别手写文本图像,得到手写文本检测框,包括:
将所述第二待识别手写文本图像分别输入多个子检测模型,得到多个子检测模型的检测框和检测框对应的置信度;
基于多个检测框的置信度对所述多个子检测模型的检测框进行加权,得到所述手写文本检测框。
8.一种手写文本识别装置,其特征在于,其中存储有手写文本分类模型,其中,所述手写文本分类模型包括第一特征提取层和第二特征提取层,所述手写文本识别装置包括:
第一获取单元,用于获取第一待识别手写文本图像;
第二获取单元,用于获取所述第一待识别手写文本图像的第一特征图和第二特征图,其中,所述第一特征图是经所述第一特征提取层对所述第一待识别手写文本图像进行特征提取得到的,所述第二特征图是依次经所述第一特征提取层和所述第二特征提取层对所述第一待识别手写文本图像进行特征提取得到的,所述第二特征提取层进行卷积运算的维度高于所述第一特征提取层进行卷积运算的维度;
上采样融合单元,用于对所述第二特征图和所述第一特征图进行上采样融合,得到第三特征图;
降采样融合单元,用于对所述第三特征图和所述第二特征图进行降采样融合,得到第四特征图;
识别单元,用于基于所述第四特征图对所述第一待识别手写文本图像进行识别,得到手写文本识别结果。
9.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储器;以及
一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现权利要求1至7中任一项所述的手写文本识别方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行权利要求1至7中任一项所述的手写文本识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111241173.9A CN116030474A (zh) | 2021-10-25 | 2021-10-25 | 手写文本识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111241173.9A CN116030474A (zh) | 2021-10-25 | 2021-10-25 | 手写文本识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116030474A true CN116030474A (zh) | 2023-04-28 |
Family
ID=86076334
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111241173.9A Pending CN116030474A (zh) | 2021-10-25 | 2021-10-25 | 手写文本识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116030474A (zh) |
-
2021
- 2021-10-25 CN CN202111241173.9A patent/CN116030474A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543690B (zh) | 用于提取信息的方法和装置 | |
CN110348294B (zh) | Pdf文档中图表的定位方法、装置及计算机设备 | |
US20190385054A1 (en) | Text field detection using neural networks | |
RU2571545C1 (ru) | Классификация изображений документов на основании контента | |
US20190294921A1 (en) | Field identification in an image using artificial intelligence | |
CN111914835A (zh) | 票据要素提取方法、装置、电子设备及可读存储介质 | |
CN111353491B (zh) | 一种文字方向确定方法、装置、设备及存储介质 | |
CN110874618B (zh) | 基于小样本的ocr模板学习方法、装置、电子设备及介质 | |
CN108491866B (zh) | 色情图片鉴定方法、电子装置及可读存储介质 | |
CN111209827B (zh) | 一种基于特征检测的ocr识别票据问题的方法及系统 | |
CN113742483A (zh) | 文档分类的方法、装置、电子设备和存储介质 | |
CN110866529A (zh) | 字符识别方法、装置、电子设备及存储介质 | |
CN114092938B (zh) | 图像的识别处理方法、装置、电子设备及存储介质 | |
CN113011144A (zh) | 表单信息的获取方法、装置和服务器 | |
CN112434690A (zh) | 动态解析文本图像特征现象的元素自动捕获理解方法、系统及存储介质 | |
CN110807362A (zh) | 一种图像检测方法、装置和计算机可读存储介质 | |
CN115937887A (zh) | 文档结构化信息的提取方法及装置、电子设备、存储介质 | |
CN113673528B (zh) | 文本处理方法、装置、电子设备和可读存储介质 | |
CN113255501B (zh) | 生成表格识别模型的方法、设备、介质及程序产品 | |
CN113780116A (zh) | 发票分类方法、装置、计算机设备和存储介质 | |
CN114463767A (zh) | 信用证识别方法、装置、计算机设备和存储介质 | |
US20220392243A1 (en) | Method for training text classification model, electronic device and storage medium | |
CN115620315A (zh) | 手写文本检测方法、装置、服务器和存储介质 | |
JP7364639B2 (ja) | デジタル化された筆記の処理 | |
CN115880702A (zh) | 数据处理方法、装置、设备、程序产品及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |