CN115439859A - 一种基于字符移动任务的自监督文本识别方法 - Google Patents
一种基于字符移动任务的自监督文本识别方法 Download PDFInfo
- Publication number
- CN115439859A CN115439859A CN202211017001.8A CN202211017001A CN115439859A CN 115439859 A CN115439859 A CN 115439859A CN 202211017001 A CN202211017001 A CN 202211017001A CN 115439859 A CN115439859 A CN 115439859A
- Authority
- CN
- China
- Prior art keywords
- character
- image
- mapping module
- loc
- text recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种基于字符移动任务的自监督文本识别方法,包括以下步骤:首先移动手写单词图像中的字符,然后预测字符移动的像素值,通过电子设备获得手写单词的图像,然后对单词图像进行数据增强和字符移动,再构建神经网络来进行预训练,分别是对同一张原图的不同数据增强的图像进行对比学习和对经过字符移动的图像进行分类,最后,文本识别模型读入预训练阶段的编码器参数来对手写单词图像及对应标签进行微调训练;本发明设计的字符移动任务通过辅助整词级别的对比学习可以有效地在预训练阶段学习到单词图像的特征表示,从而在网络微调阶段达到收敛速度更快和识别率更高的效果。
Description
技术领域
本发明属于模式识别与人工智能技术领域,特别涉及一种基于字符移动任务的自监督文本识别方法。
背景技术
文本识别对于各种纸质文档数字化具有重要意义。目前大多数的文本识别模型都是基于全监督的训练方法,这种方法依赖大量的标注数据,而数据的标注需要耗费大量的人力物力。同时,现在随着互联网技术的发展,数据的获取更加简单,数据的规模甚至可以达到万亿级。对于这些无标注数据,进行人工标注是不现实的,所以探索一种自监督的、无需使用人工标注的训练方式是非常必要的。
近几年随着各种深度学习技术的发展,基于对比学习的自监督学习方法在通用目标的检测和识别展现出了巨大的潜力。它通过将同一张图像的不同数据增强方式的图像进行对比学习来学习到通用目标的特征表示,从而可以加速下游任务的收敛速度,也可以达到少量的训练数据实现较好的任务效果。
目前,针对手写文本,基于对比学习的自监督学习方法SeqCLR方法(Aberdam A,Litman R,Tsiper S,et al.Sequence-to-sequence contrastive learning for textrecognition[C].In:Proceedings of the IEEE Conference on Computer Vision andPattern Recognition(CVPR),2021.15302-15312.)利用了文本的序列化组成的特点,在特征提取后加入了实例映射函数来使文本的特征向量序列化,然后进行对比学习来学习文本的特征表示。但是,SeqCLR方法在序列化过程中会存在对原始文本的过分割和欠分割的现象,所以这种序列化的方式其实是不够准确的。此外,SeqCLR方法也没有很好地利用原始的文本图像的独特先验知识。
发明内容
本发明的目的是为了有效利用深度网络模型的特征表示能力和手写文本图像的独特属性,学习文本图像数据样本的分布,从而实现了一种自监督文本识别方法。该方案具有加快下游任务收敛和提高识别准确性等特点,具有很高的使用价值。
本发明至少通过如下技术方案之一实现。
一种基于字符移动任务的自监督文本识别方法,包括以下步骤:
(1)通过电子设备获取手写单词的图像;
(2)对单词图像进行数据预处理;
(3)对单词图像进行字符定位、字符选取和字符移动,然后确定字符移动的标签;
(4)构建神经网络进行预训练,分别是对同一张原图的不同数据增强的图像进行对比学习和对经过字符移动的图像进行分类;
(5)将步骤(4)预训练得到的神经网络的编码器参数读入到文本识别模型的编码器中,然后使用文本识别模型对手写单词图像及标签进行调整。
进一步地,使用能够手写输入的电子设备获得手写单词的灰度图像。
进一步地,所述步骤(2)的预处理是对原图I进行数据增强T(·),包括仿射变换、笔画抖动、笔画覆盖和笔画粗细变化,其中各增强方式的相关参数每次在设置的范围内随机选取;在设置范围内随机选取一组参数t1,得到第一图像在设置范围内随机选取一组参数t2,得到第二图像然后对第一图像Ik和第二图像Iq进行图像大小调整,调整为H×W,其中H为图像高度,W为图像宽度;然后将第一图像Ik归一化到[0,1]。
进一步地,所述步骤(3)的字符定位包括以下步骤:
(311)对于第二图像Iq,通过垂直投影得到垂直投影分布Sta;
首先对第二图像Iq进行自适应二值化,然后归一化到[0,1],这时文本所在的区域值为1,再进行行求和得到垂直投影分布Sta;
(312)对于垂直投影分布Sta中小于数值m的数置零,其中m取Sta中倒数第二小的投影值,然后从垂直投影分布Sta中得到字符块区域集U={u1,u2,...,ui...,ul},其中ui定义为字符块区域,即投影值非零的连续区域;l表示字符块区域数量。
进一步地,所述步骤(3)的字符选取包括以下步骤:
(321)从字符块区域集U中随机选取两个位置locb和loca分别作为字符移动前所在位置和字符移动的目标位置,关于locb和loca的选取分为以下三种情况:
如果|U|=0,说明没有字符块区域,令m为Sta中最小的投影值,返回步骤(312)继续求得字符块区域集U;
如果|U|=1,说明只有一个字符块区域,即U=u1,此时,从u1的前40%的位置h1和后40%的位置h2中各选取一个位置,然后再将这两个位置随机作为locb和loca;
如果|U|≥2,说明有两个及以上的字符块区域,此时,从U中随机选取两个字符块区域ub和ua分别作为字符所在的初始字符块区域和移动的目标字符块区域;然后从ub中随机选定一个位置作为locb,从ua中随机选定一个位置作为loca;
(322)确定需要移动的字符宽度,最终选取出需要移动的字符图像;初始的需要移动的字符图像半宽设定为:
其中W为第二图像Iq的宽度;设定字符移动的目标位置loca与图像边界的最小距离为bordera,字符移动前所在位置locb与图像边界的最小距离为borderb,需要移动的字符图像的半宽为:
wmove=min(wini,bordera,borderb) (1)
选取出需要移动的字符图像为:
imgb=Iq[0:H,locb-wmove:locb+wmove]
其中H为第二图像Iq的高度,wmove为需要移动的字符图像的半宽。
进一步地,所述步骤(3)的字符移动包括以下步骤:
字符移动的目标位置原图片为:
imga=Iq[0:H,loca-wmove:loca+wmove]
将需要移动的字符图像imgb以1-λ的比例叠加到第二图像Iq的imga上,第二图像Iq的其他位置保持不变,然后得到移动图像MI,即
imga=λimga+(1-λ)imgb (2)
其中λ表示叠加比例,0<λ<1。
进一步地,确定字符移动的标签具体为:
字符移动的像素值pixelmove=loca-locb,当pixelmove<0时,表示字符向左移动;当pixelmove>0时,表示字符向右移动;将字符移动任务定义为分类任务,令分类的标签label=pixelmove+W,其中W为第二图像Iq的宽度。
进一步地,所述神经网络包括编码映射模块Q、动量编码映射模块K和多层感知器;
所述编码映射模块Q包括编码器E和映射器,编码映射模块Q根据随机梯度下降优化器来训练;将编码映射模块Q中编码器E的输出特征输入到多层感知器中,然后将输出的特征向量进行分类以预测图像中字符移动的像素值;
所述动量编码映射模块K与编码映射模块Q具有相同网络结构,使用编码映射模块Q的参数进行动量更新;设编码映射模块Q中编码器E和映射器的参数为θq,动量编码映射模块K中编码器和映射器的参数为θk,动量更新的公式为:
nθk+(1-n)θq→θk (3)
其中n表示动量大小,0<n<1。
其中,C为负样本的长度;τ为超参数;MIq为经过编码映射模块Q后的特征向量;k+是经过动量编码映射模块K后的特征向量,是MIq的正样本,与MIq来自同一张原图;ki是经过动量编码映射模块K后的特征向量,是MIq的负样本,即与MIq不来自同一张原图,i=1...C;
对于负样本,预设一个负样本的大小,然后将每次经过动量编码映射模块K后的特征向量进行存储,在达到预设的负样本量之后,将最先存储的特征向量进行删除,然后储存新的特征向量;
对于经过数据增强以及字符移动后得到的移动图像MI,除了将其经过编码映射模块Q的输出向量参与公式(4)的计算外,还会将编码映射模块Q中编码器E的输出特征输入到多层感知器中,然后将多层感知器输出的特征向量进行分类来预测图像中字符移动的像素值,分类的公式为:
其中N为批大小;yi为移动图像MI对应的字符移动标签的one-hot向量;pi为多层感知器预测出的概率向量,计算公式为:
其中F(MIi)为一个批中第i张移动图像MI经过编码映射模块Q的编码器E和多层感知器的输出特征向量;MIi为一个批中第i张移动图像MI;MIj为一个批中第j张移动图像MI;最终总的损失函数为其中α为超参数。
进一步地,文本识别模型采用编码器-解码器的结构,文本识别模型的编码器的结构与编码映射模块Q的编码器E相同;
训练过程需要先将步骤(4)预训练得到的神经网络的编码器参数读入到文本识别模型的编码器中,而解码器的参数随机初始化,然后再根据输入的手写单词图像和对应标签对整个文本识别模型进行微调训练。
与现有的技术相比,本发明的有益效果为:
(1)本发明针对手写文本图像的独特属性,提出一个字符移动任务。通过移动文本图像中的字符,然后使网络预测字符移动的像素值,从而实现字符级别的特征学习。
(2)本发明的预训练阶段通过字符级别和整词级别这两个层次来联合学习手写文本图像的特征表示,从而学习到有效的文本图像表征。
(3)预训练阶段无需使用人工标注数据,从而节省大量的人力物力,并且可以利用成千上万的无标注数据,具有重大的应用价值。
(4)本发明预训练阶段得到的编码器参数可以加快下游的文本识别任务的收敛速度,并且达到更好的识别准确率。
附图说明
图1是实施例一种基于字符移动任务的自监督文本识别方法的流程示意图;
图2是实施例的深度模型示意图;
图3是实施例的字符移动示例图。
具体实施方式
下面结合实施例和附图对本发明做进一步地说明,但本发明的实施方式不限于此。
实施例1
本实施例的一种基于字符移动任务的自监督文本识别方法如图1所示,包括下列步骤:
(1)数据获取:使用手机、平板等可以手写输入的电子设备获得手写单词的灰度图像。由于后续的字符定位是通过垂直投影来定位,所以这里获得由字母横向序列化组合成为单词的语言,如英语、德语、法语等。
(2)数据处理,包括以下步骤:
(2-1)对原图I分别进行两次数据增强并调整图像大小为H×W,其中H为图像高度,W为图像宽度,然后得到第一图像Ik和第二图像Iq。数据增强包括仿射变换、笔画抖动、笔画覆盖和笔画粗细变化等,其中各增强方式的相关参数每次在特定范围内随机选取。例如对于仿射变换的放缩的范围是[0.5,1.05],对于笔画抖动的抖动范围是图片宽度的[0.2,0.5],对于笔画覆盖的旋转叠加角度是[-8,8],对于笔画粗细变化是原始粗细的倍数范围是[0.2,3]。
(2-2)对于第二图像Iq,通过垂直投影得到垂直投影分布Sta。
首先对第二图像Iq进行自适应二值化,然后归一化到[0,1]。这时文本所在的区域值为1,再进行行求和得到垂直投影分布Sta,该分布可以反映单词图像中各字符的大致位置。
(2-3)为粗略消除手写笔画黏连问题,对于垂直投影分布Sta中小于数值m的数置零,其中m可取Sta中倒数第二小的投影值。然后从垂直投影分布Sta中就可以得到字符块区域集U={u1,u2,...,ui...,ul},其中ui定义为字符块区域,即投影值非零的连续区域;l表示字符块区域数量。
(2-4)从字符块区域集U中随机选取两个位置locb和loca分别作为字符移动前所在位置和字符移动的目标位置。关于locb和loca的选取分为以下三种情况:
如果|U|=0,说明没有字符块区域。令m为Sta中最小的投影值,返回步骤(2-3)继续求得字符块区域集U。
如果|U|=1,说明只有一个字符块区域,即U=u1。此时,从u1的前40%的位置h1和后40%的位置h2中各选取一个位置,然后再将这两个位置随机作为locb和loca。
如果|U|≥2,说明有两个及以上的字符块区域。此时,从U中随机选取两个字符块区域ub和ua分别作为字符移动前后的字符块区域。然后从ub中随机选定一个位置作为locb,从ua中随机选定一个位置作为loca。
(2-5)确定字符移动的宽度,然后将需要移动的字符叠加到移动的目标位置上。
wmove=min(wini,bordera,borderb) (1)
此时需要移动的字符图片为:
imgb=Iq[0:H,locb-wmove:locb+wmove]
其中H为第二图像Iq的高度,wmove为需要移动的字符图像的半宽,由公式(1)得到。
字符移动的目标位置原图片为:
imga=Iq[0:H,loca-wmove:loca+wmove]
最后将需要移动的字符图像imgb以1-λ的比例叠加到第二图像Iq的imga上,第二图像Iq的其他位置保持不变,然后得到移动图像MI,即
imga=λimga+(1-λ)imgb (2)
其中λ表示叠加比例(0<λ<1)。
(2-6)确定字符移动的标签。
字符移动的像素值pixelmove=loca-locb。当pixelmove<0时,表示字符向左移动;当pixelmove>0时,表示字符向右移动。这里将字符移动任务定义为分类任务,令分类的标签label=pixelmove+W,其中W为图像Iq的宽度。由于先将图像Iq调整宽度为W再进行字符移动,所以左右移动像素的最大值为W,分类的类别数为2W+1。
(3)网络预训练,包括以下步骤:
(3-1)构建神经网络,包括编码器、映射器和多层感知器。所述编码器,如表1所示。映射器包括节点数为512和128的全连接层,如表2所示。多层感知器结构如表3所示,包括节点数为512和201的全连接层。
表1编码器结构
表2映射器结构
网络层 | 具体设置 | 特征图尺寸 |
全连接层 | 节点数512 | 512×512 |
全连接层 | 节点数128 | 512×128 |
表3多层感知器结构
网络层 | 具体设置 | 特征图尺寸 |
全连接层 | 节点数512 | 512×512 |
全连接层 | 节点数201 | 512×201 |
首先由编码器E和映射器组合为编码映射模块Q,此模块根据随机梯度下降优化器来训练。与模块Q具有相同网络结构的动量编码映射模块K使用模块Q的参数来进行动量更新。设模块Q的参数为θq,模块K的参数为θk,更新的公式为
nθk+(1-n)θq→θk (3)
其中n表示动量大小(0<n<1)。
(3-2)进行预训练。图像Ik和图像MI分别经过模块K和模块Q,然后计算损失值,损失函数的公式为
其中,C为负样本的长度,τ为超参数;MIq为经过编码映射模块Q后的特征向量;k+是经过动量编码映射模块K后的特征向量,是MIq的正样本,即与MIq来自同一张原图;ki(i=1...C)是经过动量编码映射模块K后的特征向量,是MIq的负样本,即与MIq不来自同一张原图。
对于负样本,会预设一个负样本的大小,然后将每次经过模块K后的特征向量进行存储,在达到预设的负样本量之后,会将最先的那批特征向量进行删除,然后储存新的特征向量。
对于图像MI,会将编码映射模块Q中编码器E的输出特征输入到多层感知器中,然后将输出的特征向量进行分类来预测图像中字符移动的像素值,分类的公式为
其中N为批大小;yi为移动图像MI对应的字符移动标签的one-hot向量;pi为多层感知器预测出的概率向量,计算公式为:
其中F(MIi)为一个批中第i张移动图像MI经过编码映射模块的编码器E和多层感知器的输出特征向量;MIi为一个批中第i张移动图像MI;MIj为一个批中第j张移动图像MI。
(4)将预训练得到的神经网络的编码器参数读入到文本识别模型的编码器中,然后使用文本识别模型对手写单词图像及标签进行微调。
文本识别模型采用“编码器-解码器”的结构,编码器的结构与步骤(3)预训练的编码器模型结构相同,解码器可以采用基于CTC或者是基于Attention或者是基于Transformer的序列解码器。例如基于Attention的解码器是隐藏层节点数为256的Attention模型。
微调训练过程需要先将步骤(3)预训练得到的神经网络的编码器参数读入到文本识别模型的编码器中,而解码器的参数随机初始化。然后再根据输入的手写单词图像和对应标签对整个文本识别模型进行微调训练。在图2所示的实例中,显示本发明的模型示意图。
本发明首先针对这种过分割和欠分割现象进行改进,即不进行序列化的过程,直接从整词级别的对比学习来有效学习文本图像中的整体表示。同时,本发明还基于手写文本图像的独特先验属性,提出了一个字符级别的字符移动任务,即移动图像中的字符然后预测移动的像素值。本发明通过这个字符级别的移动任务去辅助整词级别的对比学习可以有效地学习到文本图像中的特征表示,从而加快了下游文本识别任务的收敛速度和识别准确性,具有较高的应用价值。
实施例2
本实施例的一种基于字符移动任务的自监督文本识别方法与实施例1的不同是步骤(3-2)的预训练模型中数据获取的不同。其他步骤与实施例1的相同。
本实施例的预训练数据获取是对于一张原图I,连续进行四次不同的数据增强得到四张图像Ik,连续进行四次不同的数据增强和字符移动得到四张图像MI。然后在一个批次中,每次来自相同原图的四张图像Ik会相邻排列输入动量编码映射模块K中进行特征提取;每次来自相同原图的四张图像MI会相邻排列输入编码映射模块Q中进行特征提取。因此,本实施例的批大小是实施例1中的四倍。
实施例3
本实施例的一种基于字符移动任务的自监督文本识别方法与实施例1的不同是步骤(3-2)的预训练模型中数据获取和对比学习损失函数的输入不同。其他步骤与实施例1的相同。
本实施例的预训练数据获取是对于原图I分别进行两次数据增强后得到第一图像Ik和第二图像Iq,然后对第二图像Iq进行字符移动得到图像MI。
然后第一图像Ik和第二图像Iq分别经过动量编码映射模块K和编码映射模块Q,然后计算损失值,损失函数的公式为
其中,C为负样本的长度,τ为超参数;q为图像Iq经过编码映射模块Q后的特征向量;k+是经过动量编码映射模块K后的特征向量,是q的正样本,即与q来自同一张原图;ki(i=1...C)是经过动量编码映射模块K后的特征向量,是q的负样本,即与q不来自同一张原图。
同时,图像MI经过编码映射模块Q中的编码器E和多层感知器,编码器E和多层感知器的结构与实施例1的相同。然后进行分类来预测图像中字符移动的像素值,分类的公式如实施例1的公式(5)所示。
本发明的实施方式并不受上述实施例的限制,其他任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种基于字符移动任务的自监督文本识别方法,其特征在于,包括以下步骤:
(1)通过电子设备获取手写单词的图像;
(2)对单词图像进行数据预处理;
(3)对单词图像进行字符定位、字符选取和字符移动,然后确定字符移动的标签;
(4)构建神经网络进行预训练,分别是对同一张原图的不同数据增强的图像进行对比学习和对经过字符移动的图像进行分类;
(5)将步骤(4)预训练得到的神经网络的编码器参数读入到文本识别模型的编码器中,然后使用文本识别模型对手写单词图像及标签进行训练。
2.根据权利要求1所述的一种基于字符移动任务的自监督文本识别方法,其特征在于,使用能够手写输入的电子设备获得手写单词的灰度图像。
4.根据权利要求1所述的一种基于字符移动任务的自监督文本识别方法,其特征在于,所述步骤(3)的字符定位包括以下步骤:
(311)对于第二图像Iq,通过垂直投影得到垂直投影分布Sta;
首先对第二图像Iq进行自适应二值化,然后归一化到[0,1],这时文本所在的区域值为1,再进行行求和得到垂直投影分布Sta;
(312)对于垂直投影分布Sta中小于数值m的数置零,其中m取Sta中倒数第二小的投影值,然后从垂直投影分布Sta中得到字符块区域集U={u1,u2,...,ui...,ul},其中ui定义为字符块区域,即投影值非零的连续区域;l表示字符块区域数量。
5.根据权利要求4所述的一种基于字符移动任务的自监督文本识别方法,其特征在于,所述步骤(3)的字符选取包括以下步骤:
(321)从字符块区域集U中随机选取两个位置locb和loca分别作为字符移动前所在位置和字符移动的目标位置,关于locb和loca的选取分为以下三种情况:
如果|U|=0,说明没有字符块区域,令m为Sta中最小的投影值,返回步骤(312)继续求得字符块区域集U;
如果|U|=1,说明只有一个字符块区域,即U=u1,此时,从u1的前40%的位置h1和后40%的位置h2中各选取一个位置,然后再将这两个位置随机作为locb和loca;
如果|U|≥2,说明有两个及以上的字符块区域,此时,从U中随机选取两个字符块区域ub和ua分别作为字符所在的初始字符块区域和移动的目标字符块区域;然后从ub中随机选定一个位置作为locb,从ua中随机选定一个位置作为loca;
(322)确定需要移动的字符宽度,最终选取出需要移动的字符图像;初始的需要移动的字符图像半宽设定为:
其中W为第二图像Iq的宽度;设定字符移动的目标位置loca与图像边界的最小距离为bordera,字符移动前所在位置locb与图像边界的最小距离为borderb,需要移动的字符图像的半宽为:
wmove=min(wini,bordera,borderb) (1)
选取出需要移动的字符图像为:
imgb=Iq[0:H,locb-wmove:locb+wmove]
其中H为第二图像Iq的高度,wmove为需要移动的字符图像的半宽。
6.根据权利要求5所述的一种基于字符移动任务的自监督文本识别方法,其特征在于,所述步骤(3)的字符移动包括以下步骤:
字符移动的目标位置原图片为:
imga=Iq[0:H,loca-wmove:loca+wmove]
将需要移动的字符图像imgb以1-λ的比例叠加到第二图像Iq的imga上,第二图像Iq的其他位置保持不变,然后得到移动图像MI,即
imga=λimga+(1-λ)imgb (2)
其中λ表示叠加比例,0<λ<1。
7.根据权利要求6所述的一种基于字符移动任务的自监督文本识别方法,其特征在于,确定字符移动的标签具体为:
字符移动的像素值pixelmove=loca-locb,当pixelmove<0时,表示字符向左移动;当pixelmove>0时,表示字符向右移动;将字符移动任务定义为分类任务,令分类的标签label=pixelmove+W,其中W为第二图像Iq的宽度。
8.根据权利要求1所述的一种基于字符移动任务的自监督文本识别方法,其特征在于,所述神经网络包括编码映射模块Q、动量编码映射模块K和多层感知器;
所述编码映射模块Q包括编码器E和映射器,编码映射模块Q根据随机梯度下降优化器来训练;将编码映射模块Q中编码器E的输出特征输入到多层感知器中,然后将输出的特征向量进行分类以预测图像中字符移动的像素值;
所述动量编码映射模块K与编码映射模块Q具有相同网络结构,使用编码映射模块Q的参数进行动量更新;设编码映射模块Q中编码器E和映射器的参数为θq,动量编码映射模块K中编码器和映射器的参数为θk,动量更新的公式为:
nθk+(1-n)θq→θk (3)
其中n表示动量大小,0<n<1。
9.根据权利要求8所述的一种基于字符移动任务的自监督文本识别方法,其特征在于,神经网络的预训练包括:将经过数据增强后得到的第一图像Ik和经过数据增强以及字符移动后得到的移动图像MI分别经过动量编码映射模块K与编码映射模块Q,然后计算损失值,损失函数的公式为:
其中,C为负样本的长度;τ为超参数;MIq为经过编码映射模块Q后的特征向量;k+是经过动量编码映射模块K后的特征向量,是MIq的正样本,与MIq来自同一张原图;ki是经过动量编码映射模块K后的特征向量,是MIq的负样本,即与MIq不来自同一张原图,i=1...C;
对于负样本,预设一个负样本的大小,然后将每次经过动量编码映射模块K后的特征向量进行存储,在达到预设的负样本量之后,将最先存储的特征向量进行删除,然后储存新的特征向量;
对于经过数据增强以及字符移动后得到的移动图像MI,除了将其经过编码映射模块Q的输出向量参与公式(4)的计算外,还会将编码映射模块Q中编码器E的输出特征输入到多层感知器中,然后将多层感知器输出的特征向量进行分类来预测图像中字符移动的像素值,分类的公式为:
其中N为批大小;yi为移动图像MI对应的字符移动标签的one-hot向量;pi为多层感知器预测出的概率向量,计算公式为:
10.根据权利要求1~9任一项所述的一种基于字符移动任务的自监督文本识别方法,其特征在于,文本识别模型采用编码器-解码器的结构,文本识别模型的编码器的结构与编码映射模块Q的编码器E相同;
训练过程需要先将步骤(4)预训练得到的神经网络的编码器参数读入到文本识别模型的编码器中,而解码器的参数随机初始化,然后再根据输入的手写单词图像和对应标签对整个文本识别模型进行微调训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211017001.8A CN115439859A (zh) | 2022-08-23 | 2022-08-23 | 一种基于字符移动任务的自监督文本识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211017001.8A CN115439859A (zh) | 2022-08-23 | 2022-08-23 | 一种基于字符移动任务的自监督文本识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115439859A true CN115439859A (zh) | 2022-12-06 |
Family
ID=84244635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211017001.8A Pending CN115439859A (zh) | 2022-08-23 | 2022-08-23 | 一种基于字符移动任务的自监督文本识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115439859A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116523914A (zh) * | 2023-07-03 | 2023-08-01 | 智慧眼科技股份有限公司 | 一种动脉瘤分类识别装置、方法、设备、存储介质 |
-
2022
- 2022-08-23 CN CN202211017001.8A patent/CN115439859A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116523914A (zh) * | 2023-07-03 | 2023-08-01 | 智慧眼科技股份有限公司 | 一种动脉瘤分类识别装置、方法、设备、存储介质 |
CN116523914B (zh) * | 2023-07-03 | 2023-09-19 | 智慧眼科技股份有限公司 | 一种动脉瘤分类识别装置、方法、设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368896B (zh) | 基于密集残差三维卷积神经网络的高光谱遥感图像分类方法 | |
CN111191583B (zh) | 基于卷积神经网络的空间目标识别系统及方法 | |
CN107330127B (zh) | 一种基于文本图片检索的相似文本检测方法 | |
CN105631479B (zh) | 基于非平衡学习的深度卷积网络图像标注方法及装置 | |
CN106650721A (zh) | 一种基于卷积神经网络的工业字符识别方法 | |
Mahmud et al. | A complete OCR system for continuous Bengali characters | |
CN107704859A (zh) | 一种基于深度学习训练框架的文字识别方法 | |
CN110223310B (zh) | 一种基于深度学习的线结构光中心线和箱体边缘检测方法 | |
CN110414616B (zh) | 一种利用空间关系的遥感图像字典学习分类方法 | |
CN110135446B (zh) | 文本检测方法及计算机存储介质 | |
CN111986125A (zh) | 一种用于多目标任务实例分割的方法 | |
Tereikovskyi et al. | The method of semantic image segmentation using neural networks | |
CN113221956B (zh) | 基于改进的多尺度深度模型的目标识别方法及装置 | |
CN109543585A (zh) | 基于卷积神经网络的水下光学目标检测与识别方法 | |
CN111652273A (zh) | 一种基于深度学习的rgb-d图像分类方法 | |
CN111127360A (zh) | 一种基于自动编码器的灰度图像迁移学习方法 | |
CN117218434A (zh) | 基于混合神经网络的混凝土结构表面缺陷分类方法与系统 | |
CN114898472A (zh) | 基于孪生视觉Transformer网络的签名鉴定方法和系统 | |
CN115439859A (zh) | 一种基于字符移动任务的自监督文本识别方法 | |
CN116563862A (zh) | 一种基于卷积神经网络的数字识别方法 | |
US20220027662A1 (en) | Optical character recognition using specialized confidence functions | |
CN111310820A (zh) | 基于交叉验证深度cnn特征集成的地基气象云图分类方法 | |
CN113344069B (zh) | 一种基于多维关系对齐的无监督视觉表征学习的图像分类方法 | |
CN114387592A (zh) | 一种复杂背景下字符定位和识别方法 | |
CN114926420B (zh) | 一种基于跨级特征增强的目标馕的识别及计数方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |