CN114241495B - 一种用于脱机手写文本识别的数据增强方法 - Google Patents
一种用于脱机手写文本识别的数据增强方法 Download PDFInfo
- Publication number
- CN114241495B CN114241495B CN202210183766.2A CN202210183766A CN114241495B CN 114241495 B CN114241495 B CN 114241495B CN 202210183766 A CN202210183766 A CN 202210183766A CN 114241495 B CN114241495 B CN 114241495B
- Authority
- CN
- China
- Prior art keywords
- handwritten
- image
- character
- text line
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000009466 transformation Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013434 data augmentation Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Character Input (AREA)
Abstract
本发明涉及一种用于脱机手写文本识别的数据增强方法,包括以下步骤:选定脱机中文手写数据库,此数据库分为手写单字符图像数据库和手写文本行图像数据库;对于手写单字符图像数据库,解析所有数据文件,将相同字符的手写单字符图像存储到同一文件夹下,手写单字符图像以书写作者的索引号命名,并将手写单字符图像数据库里所涉及的各个字符及每个字符所对应的编码存储为用于对手写单字符图像进行检索的字典,构建手写单字符图像数据集;基于语料库构建文本行文件;生成对应的手写文本行图像,每一行文本对应生成一张手写文本行图像;获得添加噪声背景的手写文本行图像;实现手写文本行图像数据库的数据增强。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种用于脱机手写文本识别的数据增强方法。
背景技术
随着计算机的计算与存储性能的快速提升,近年来,以深度学习和大数据为基础的人工智能技术在人脸识别、语音识别、目标检测、自然语言处理等众多领域得到了快速的发展与应用。深度神经网络在许多任务中表现良好,但这些网络通常需要大量数据才能避免过度拟合。遗憾的是,许多场景无法获得大量数据,这些数据往往需要人工进行标注和整理,十分耗时耗力。数据增强(Data Augmentation)是一种使用有限的数据产生更多的等价数据来扩展训练数据集的技术,它是克服训练数据不足的有效手段。
手写文本识别任务,根据使用场景可分为联机识别和脱机识别。其中,联机识别使用书写的笔划坐标特征,应用于手机等电子设备的联机手写输入识别,其特点是笔划清晰、背景干净;脱机识别是对图像中的文字区域进行检测后识别,应用场景更为复杂和广泛,难度也更大。对于脱机的手写文本识别任务,模型通常需要依赖大量手写文本行图像进行训练。目前,公开的手写数据集通常包括手写单字符数据和手写文本行数据,但手写文本行图像的样本数据量十分有限。由于缺乏训练数据,脱机手写文本识别的效果很难提升。
发明内容
本发明提供一种用于脱机手写文本识别的数据增强方法,基于手写单字符图像数据库和语料库,通过一系列数据增强方法扩充手写文本行图像数据集,用于训练手写文本识别模型,从而提高模型识别的准确率和适应性。本发明提出的技术方案如下:
一种用于脱机手写文本识别的数据增强方法,包括以下步骤:
步骤S1:选定脱机中文手写数据库,此数据库分为手写单字符图像数据库和手写文本行图像数据库,所述手写单字符图像数据库为每个书写作者建立一个数据文件,该数据文件包含由该书写作者书写的若干手写单字符图像;
步骤S2:对于手写单字符图像数据库,解析所有数据文件,将相同字符的手写单字符图像存储到同一文件夹下,手写单字符图像以书写作者的索引号命名,并将手写单字符图像数据库里所涉及的各个字符及每个字符所对应的编码存储为用于对手写单字符图像进行检索的字典,构建手写单字符图像数据集;
步骤S3:基于语料库构建文本行文件;
步骤S4:由所述步骤S3得到的文本行文件生成对应的手写文本行图像,每一行文本对应生成一张手写文本行图像,方法为:
步骤S41:选取文本行文件的文本行对应的手写单字符图像:对文本行文件的每行文本按字符进行遍历,利用所述步骤S2所获得的字典,从手写单字符图像数据集中依次查找和选取字符对应的手写单字符图像,为同一文本行选取的手写单字符图像来自同一书写作者;
步骤S42:对文本行文件每个文本行生成固定大小的背景图,背景图的宽度根据最长文本长度设定;为文本行文件的文本行选定缩放值,对选取的手写单字符图像进行缩放;
步骤S43:将所述选取的手写单字符图像依次水平粘贴在背景图中,生成一张手写文本行图像;
步骤S5:对所述步骤S4生成的手写文本行图像添加噪声背景,获得添加噪声背景的手写文本行图像;
步骤S6:对于步骤S5所获得的添加噪声背景的手写文本行图像,确定变换概率,以所确定的变换概率每次随机进行一项图像变换并保存,构建用于扩充步骤S1所述手写文本行图像数据库的手写文本行图像,实现手写文本行图像数据库的数据增强。
进一步地,步骤S3的方法为:
步骤S31:设定要生成的文本行的行数;
步骤S32:设定随机字符数量,按字符遍历语料库的文本,选取存在于步骤S2所述字典中的字符,在达到所述的随机字符数量时,将所选取的字符序列保存至文本行文件;
步骤S33:重复步骤S32直至达到所述要生成的文本行的行数后停止遍历,获得基于语料库构建的文本行文件。
进一步地,所述的随机字符数量设定为10至20之间的整数。
进一步地,步骤S43中将所述选取的手写单字符图像依次水平粘贴在背景图中的方法如下:记背景图的宽度和高度分别为W和H,当前所要粘贴的手写单字符图像的宽度和高度分别为w和h;记初始点水平坐标,上一个手写单字符图像的宽度为,设定字符间隔为i,当前所要粘贴的手写单字符图像左上角点应在背景图中的位置记为(x, y);在水平方向上,若当前所要粘贴的手写单字符图像粘贴后超出背景图范围,即+w > W,则丢弃此文本行;否则,设定x=+i+w,在竖直方向上,若当前所要粘贴的字符为高位字符,则设定y=randomint(0, H//4);若当前所要粘贴的字符为低位字符,则设定y=randomint(H//2, (H-h)),否则,设定y=randomint((H-h)//2-4, (H-h)//2+4),其中,函数randomint(s,t)表示从整数s和t之间取随机整数;在所设定的位置粘贴相应的手写单字符图像。
进一步地,步骤S5具体如下:
步骤S51:为所述步骤S4生成的手写文本行图像添加Alpha通道,前景像素点的值设置为1,背景像素点设置为0;
步骤S52:生成与所述手写文本行图像相同尺寸的背景图,随机选取灰度值a,设定方差,将背景图像素值转换为均值为a、方差为设定值的噪声背景图;
步骤S53:将所述步骤S51生成的添加Alpha通道的手写文本行图像和步骤S52得到的噪声背景图进行融合,得到添加噪声背景的手写文本行图像。
进一步地,所述图像变换包括模糊、扭曲、亮度变化和对比度变化。
本发明提出的用于脱机手写文本识别的数据增强方法,使用公开的手写数据库中的手写单字符图像,结合语料库文本,依照语料库文本中的语句选取对应的手写单字符图像进行拼接和处理,得到合成的手写文本行图像。由于可以根据语料库文本内容选取手写单字符图像进行组合,因此能够获得无数类似人工书写的手写文本行图像,扩充了用于脱机手写文本识别的数据集,从而提高识别准确率和适应性。
附图说明
图1 实施流程图。
图2 CASIA手写单字符图像示例图。
图3 解析和存储的手写单字符图像示例图。
图4生成的手写文本行图像示例图。
图5图像变换效果示例图。
图6手写文本识别模型的网络结构图。
具体实施方式
为了更加清晰地阐述本发明的操作过程和加深对本发明的理解,下面将结合附图和实例对本发明做进一步详细的阐述,该实施例仅用于解释本发明,并不对本发明的保护范围构成限定。
本发明的实施流程图如图1所示,提供了一种用于脱机手写文本识别的数据增强方法,使用手写单字符图像数据库和语料库文本合成手写文本行图像数据集,具体包括以下步骤:
步骤S1:选定脱机中文手写数据库,本实施例使用CASIA脱机中文手写数据库,该数据库由中国科学院自动化所召集1020名作者书写而成,包含约390万字符样本,覆盖了GB2312-80标准中的所有6763个汉字。该数据库分为手写单字符图像数据库(HWDB1.0-1.2)和手写文本行图像数据库(HWDB2.0-2.2),同一作者书写的样本被组织和存储到一个数据文件,并以作者索引号命名,该数据文件包含由该书写作者书写的若干手写单字符图像。
步骤S2:对于手写单字符图像数据库,解析所有数据文件,将相同字符的手写单字符图像存储到同一文件夹下,手写单字符图像以书写作者的索引号命名,并将相应的字符及其编码存储为用于对手写单字符图像进行检索的字典,构建手写单字符图像数据集。所述手写单字符图像数据库共有1020个数据文件,每个数据文件包含由同一作者书写的若干手写单字符图像,如图2所示。解析所有数据文件,将相同类别的手写单字符图像存储到同一文件夹下,文件夹以字符的GB2312-80编码命名,手写单字符图像以书写作者的索引号命名,并将字符及其编码存储为字典,以便对手写单字符图像的检索。例如,解析到由3号作者书写的字符“啊”,其GB2312-80编码为“B0A1”,故将该手写单字符图像存储到名为“B0A1”的文件夹下,命名为“3.png”,如图3所示;同时,将{“啊”:“B0A1”}存入所述字典。
步骤S3:从语料库构建文本行,具体如下:
步骤S31:设定要生成的文本行的行数;
步骤S32:设定随机字符数量,按字符遍历语料库的文本,选取存在于步骤S2所述字典中的字符,在达到所述的随机字符数量时,将所选取的字符序列保存至文本行文件;
步骤S33:重复步骤S32直至达到所述要生成的文本行的行数后停止遍历,获得基于语料库构建的文本行文件。
本实施过程选取一万篇人民日报语料库2006年的新闻报导,将每篇新闻报导的文本切分为随机字符数量的文本行进行保存。其中,设定要生成的文本行的行数为50万行,随机字符数量设定为10至20之间的整数,切分时,按字符遍历新闻报导文本,选取存在于步骤S2所述字典中的字符,达到设定的字符数量时,将选取的字符序列保存至文本行文件,并重新设定随机字符数量继续遍历语料库文本。最终得到50万行文本,覆盖6千多种字符。
步骤S4:由所述步骤S3得到的文本行文件生成对应手写文本行图像,每一行文本对应生成一张手写文本行图像。该步骤包括选取、调整、拼接手写单字符图像三个子步骤,具体如下:
步骤S41:选取文本行文件的文本行对应的手写单字符图像:对文本行文件的每行文本按字符进行遍历,利用所述步骤S2所获得的字典,从手写单字符图像数据集中依次查找和选取字符对应的手写单字符图像,为同一文本行选取的手写单字符图像来自同一书写作者,从而生成的同一手写文本行图像的书写风格一致,更加接近真实书写;同时尽可能使用所有所述手写单字符图像。
步骤S42:对文本行文件每个文本行生成固定大小的背景图,背景图的宽度根据最长文本长度设定;为文本行文件的文本行选定缩放值,对选取的手写单字符图像进行缩放。
步骤S43:将所述选取的手写单字符图像依次水平粘贴在背景图中,生成一张手写文本行图像。具体为:将所述选取的手写单字符图像依次水平粘贴在背景图中。所述粘贴手写单字符图像的方法,是根据手写单字符图像的左上角点在背景图中的坐标,使用Pillow工具中的Image.paste()方法进行粘贴。
所述粘贴手写单字符图像的具体过程为,记背景图的宽度和高度分别为W和H,当前手写单字符图像的宽度和高度分别为w和h(单位为像素,下同)。记初始点水平坐标=randomint(0, 5),上一个手写单字符图像的宽度为,设定字符间隔为i=randomint(2,6),该手写单字符图像左上角点应在背景图中的位置记为(x, y)。在水平方向上,若当前手写单字符图像粘贴后超出背景图范围,即+w > W,则丢弃此文本行;否则x=+i+w。在竖直方向上,若字符为引号等高位字符,则y=randomint(0, H//4),若字符为逗号等低位字符,则y=randomint(H//2, (H-h)),否则y=randomint((H-h)//2-4, (H-h)//2+4)。其中,randomint(x, y)为从整数x和y之间取随机整数。通过所述方法,能够生成仿照真实书写风格的手写文本行图像,生成的手写文本行图像示例如图4所示。
步骤S5:对所述步骤S4生成的手写文本行图像添加噪声背景,具体为:
步骤S51:为所述生成的手写文本行图像添加Alpha通道,前景像素点的值设置为1,背景(白色)的像素点设置为0。
步骤S52:生成与所述手写文本行图像相同尺寸的背景图,随机选取灰度值a,使用OpenCV工具包将背景图像素值转换为均值为a、方差为20的噪声背景图。
步骤S53:使用OpenCV工具包将所述步骤S51得到的添加了Alpha通道的手写文本行图像和步骤S52得到的噪声背景图进行融合,得到添加噪声背景的手写文本行图像。
步骤S6:对步骤S53所述的添加噪声背景的手写文本行图像,以0.5的概率随机进行一项图像变换并保存,构建用于扩充步骤S1所述手写文本行图像数据库的手写文本行图像,实现手写文本行图像数据库的数据增强。所述图像变换包括模糊、扭曲、亮度变化、对比度变化等,单一图像变换效果如图5所示。所述图像变换方法可使用OpenCV工具包实现。在保存图像时,将图像保存路径和文本行内容按照lmdb格式写入标注文件中。所述lmdb格式是对每张图像及其标注信息按照“[图像相对路径]\t[图像标注信息]\n”的形式存储。
步骤S7:加载和训练模型,并测试数据增强的效果。具体为:
步骤S71:搭建手写文本识别模型,其网络结构如图6所示,该网络结构包含三个部分,从下到上依次为卷积层、循环层和转录层。其中,卷积层由卷积(Convolution)、最大池化(MaxPooling)和批标准化(Batch Normalization)等操作构成,提取输入图像的视觉特征,图6中“k”、“s”、“p”分别代表卷积核(kernel)大小、步长(stride)和填充(padding)大小;循环层由两层双向长短期记忆(Bidirectional-LSTM)网络构成,捕获视觉特征的上下文信息;转录层使用CTC损失,把从循环层获取的一系列标签分布转换成最终的标签序列。本发明所采用的网络结构主要借鉴了下列文献:Shi B, Bai X, Yao C. An end-to-endtrainable neural network for image-based sequence recognition and itsapplication to scene text recognition[J]. IEEE transactions on patternanalysis and machine intelligence, 2016, 39(11): 2298-2304.
由于卷积神经网络的视野有限,不能有效结合距离较远的像素点信息,无法有效提取图像的上下文信息;而长短期记忆网络是一种循环神经网络,能够对结合序列的上下文信息。因此,在卷积神经网络后加上双向长短期记忆网络,能更好地提取图像的特征和上下文信息。采用CTC转录使模型在解码时可以自动对齐,无需进行字符分割和字符级别的标注,解决了字符分割的难题。
由于语料库是依据人们使用语言的经验和特点构建而成,依照语料库生成的文本行包含上下文语义信息,这与循环神经网络模型能够有效结合上下文信息的特点相契合。因此,依照语料库中的文本生成手写文本行图像对模型的训练更为有效。
步骤S72:对比训练模型。解析步骤S1中的手写文本行图像数据库,得到HWDB手写文本行图像数据集,作为基础数据集;在基础数据集上加入通过以上步骤得到的数据增强的手写文本行图像数据集作为数据增强数据集。分别对以上两个数据集按照9:1的比例划分为各自的训练集和测试集。训练时,读取手写文本行图像及其对应标注信息,通过所述神经网络正向传播,采用CTC损失计算模型输出与标注信息之间的误差,反向传播更新神经网络的参数,直到测试集的损失值不再下降时停止训练,选择在测试集上准确率最高的模型作为最终模型。
通过以上方法分别对手写基础数据集和数据增强数据集进行对比训练和测试,使用本发明进行数据增强的模型识别的准确率提升了8.6%,能更好地应用于真实场景的手写文本识别。
以上具体实施例只是对本发明进行了示例性描述,本发明具体实现不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围之内。
Claims (6)
1.一种用于脱机手写文本识别的数据增强方法,其特征在于,包括以下步骤:
步骤S1:选定脱机中文手写数据库,此数据库分为手写单字符图像数据库和手写文本行图像数据库,所述手写单字符图像数据库为每个书写作者建立一个数据文件,该数据文件包含由该书写作者书写的若干手写单字符图像;
步骤S2:对于手写单字符图像数据库,解析所有数据文件,将相同字符的手写单字符图像存储到同一文件夹下,手写单字符图像以书写作者的索引号命名,并将手写单字符图像数据库里所涉及的各个字符及每个字符所对应的编码存储为用于对手写单字符图像进行检索的字典,构建手写单字符图像数据集;
步骤S3:基于语料库构建文本行文件;
步骤S4:由所述步骤S3得到的文本行文件生成对应的手写文本行图像,每一行文本对应生成一张手写文本行图像,方法为:
步骤S41:选取文本行文件的文本行对应的手写单字符图像:对文本行文件的每行文本按字符进行遍历,利用所述步骤S2所获得的字典,从手写单字符图像数据集中依次查找和选取字符对应的手写单字符图像,为同一文本行选取的手写单字符图像来自同一书写作者;
步骤S42:对文本行文件每个文本行生成固定大小的背景图,背景图的宽度根据最长文本长度设定;为文本行文件的文本行选定缩放值,对选取的手写单字符图像进行缩放;
步骤S43:将所述选取的手写单字符图像依次水平粘贴在背景图中,生成一张手写文本行图像;
步骤S5:对所述步骤S4生成的手写文本行图像添加噪声背景,获得添加噪声背景的手写文本行图像;
步骤S6:对于步骤S5所获得的添加噪声背景的手写文本行图像,确定变换概率,以所确定的变换概率每次随机进行一项图像变换并保存,构建用于扩充步骤S1所述手写文本行图像数据库的手写文本行图像,实现手写文本行图像数据库的数据增强。
2.根据权利要求1所述的数据增强方法,其特征在于,步骤S3的方法为:
步骤S31:设定要生成的文本行的行数;
步骤S32:设定随机字符数量,按字符遍历语料库的文本,选取存在于步骤S2所述字典中的字符,在达到所述的随机字符数量时,将所选取的字符序列保存至文本行文件;
步骤S33:重复步骤S32直至达到所述要生成的文本行的行数后停止遍历,获得基于语料库构建的文本行文件。
3.根据权利要求2所述的数据增强方法,其特征在于,所述的随机字符数量设定为10至20之间的整数。
4.根据权利要求1所述的数据增强方法,其特征在于,步骤S43中将所述选取的手写单字符图像依次水平粘贴在背景图中的方法如下:记背景图的宽度和高度分别为W和H,当前所要粘贴的手写单字符图像的宽度和高度分别为w和h;记初始点水平坐标,上一个手写单字符图像的宽度为,设定字符间隔为i,当前所要粘贴的手写单字符图像左上角点应在背景图中的位置记为(x, y);在水平方向上,若当前所要粘贴的手写单字符图像粘贴后超出背景图范围,即+w > W,则丢弃此文本行;否则,设定x=+i+w,在竖直方向上,若当前所要粘贴的字符为高位字符,则设定y=randomint(0, H//4);若当前所要粘贴的字符为低位字符,则设定y=randomint(H//2, (H-h)),否则,设定y=randomint((H-h)//2-4, (H-h)//2+4),其中,函数randomint(s,t)表示从整数s和t之间取随机整数;在所设定的位置粘贴相应的手写单字符图像。
5.根据权利要求1所述的数据增强方法,其特征在于,步骤S5具体如下:
步骤S51:为所述步骤S4生成的手写文本行图像添加Alpha通道,前景像素点的值设置为1,背景像素点设置为0;
步骤S52:生成与所述手写文本行图像相同尺寸的背景图,随机选取灰度值a,设定方差,将背景图像素值转换为均值为a、方差为设定值的噪声背景图;
步骤S53:将所述步骤S51生成的添加Alpha通道的手写文本行图像和步骤S52得到的噪声背景图进行融合,得到添加噪声背景的手写文本行图像。
6.根据权利要求1所述的数据增强方法,其特征在于,所述图像变换包括模糊、扭曲、亮度变化和对比度变化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210183766.2A CN114241495B (zh) | 2022-02-28 | 2022-02-28 | 一种用于脱机手写文本识别的数据增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210183766.2A CN114241495B (zh) | 2022-02-28 | 2022-02-28 | 一种用于脱机手写文本识别的数据增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114241495A CN114241495A (zh) | 2022-03-25 |
CN114241495B true CN114241495B (zh) | 2022-05-03 |
Family
ID=80748230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210183766.2A Active CN114241495B (zh) | 2022-02-28 | 2022-02-28 | 一种用于脱机手写文本识别的数据增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114241495B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111563563A (zh) * | 2020-07-16 | 2020-08-21 | 南京华苏科技有限公司 | 一种手写体识别的联合数据的增强方法 |
CN111738167A (zh) * | 2020-06-24 | 2020-10-02 | 华南理工大学 | 一种无约束手写文本图像的识别方法 |
CN111832564A (zh) * | 2020-07-20 | 2020-10-27 | 浙江诺诺网络科技有限公司 | 一种图像文字识别方法、系统及电子设备和存储介质 |
CN112001397A (zh) * | 2020-08-25 | 2020-11-27 | 广东光速智能设备有限公司 | 一种智慧工地的身份证字符识别训练数据生成方法及系统 |
AU2021100391A4 (en) * | 2021-01-22 | 2021-04-15 | GRG Banking Equipment Co.,Ltd | Natural Scene Text Recognition Method Based on Sequence Transformation Correction and Attention Mechanism |
-
2022
- 2022-02-28 CN CN202210183766.2A patent/CN114241495B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738167A (zh) * | 2020-06-24 | 2020-10-02 | 华南理工大学 | 一种无约束手写文本图像的识别方法 |
CN111563563A (zh) * | 2020-07-16 | 2020-08-21 | 南京华苏科技有限公司 | 一种手写体识别的联合数据的增强方法 |
CN111832564A (zh) * | 2020-07-20 | 2020-10-27 | 浙江诺诺网络科技有限公司 | 一种图像文字识别方法、系统及电子设备和存储介质 |
CN112001397A (zh) * | 2020-08-25 | 2020-11-27 | 广东光速智能设备有限公司 | 一种智慧工地的身份证字符识别训练数据生成方法及系统 |
AU2021100391A4 (en) * | 2021-01-22 | 2021-04-15 | GRG Banking Equipment Co.,Ltd | Natural Scene Text Recognition Method Based on Sequence Transformation Correction and Attention Mechanism |
Non-Patent Citations (2)
Title |
---|
Handwriting Text-line Detection and Recognition in Answer Sheet Composition with Few Labeled Data;Wensheng Li et.al;《IEEE》;20201231;第129-132页 * |
High Performance Offline Handwritten Chinese Text Recognition with a New Data Preprocessing and Augmentation Pipeline;Canyu Xie et.al;《DAS 2020: Document Analysis Systems》;20200814;第45-59页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114241495A (zh) | 2022-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
CN112101357B (zh) | 一种rpa机器人智能元素定位拾取方法及系统 | |
Dong et al. | Tablesense: Spreadsheet table detection with convolutional neural networks | |
CN108288078B (zh) | 一种图像中字符识别方法、装置和介质 | |
Wilkinson et al. | Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections | |
CN111476284A (zh) | 图像识别模型训练及图像识别方法、装置、电子设备 | |
CN113762269B (zh) | 基于神经网络的中文字符ocr识别方法、系统及介质 | |
CN112347284B (zh) | 一种组合商标图像检索方法 | |
CN111738169B (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN114596566B (zh) | 文本识别方法及相关装置 | |
CN111191649A (zh) | 一种识别弯曲多行文本图像的方法与设备 | |
CN110674777A (zh) | 一种专利文本场景下的光学字符识别方法 | |
CN113378815B (zh) | 一种场景文本定位识别的系统及其训练和识别的方法 | |
CN112837297B (zh) | 一种渐进式多尺度的颅面骨骨折检测方法 | |
CN112633431A (zh) | 一种基于crnn和ctc的藏汉双语场景文字识别方法 | |
CN112381082A (zh) | 基于深度学习的表格结构重建方法 | |
CN113936295A (zh) | 基于迁移学习的人物检测方法和系统 | |
CN114187595A (zh) | 基于视觉特征和语义特征融合的文档布局识别方法及系统 | |
CN112084788B (zh) | 一种影像字幕隐式情感倾向自动标注方法及系统 | |
CN114330247A (zh) | 一种基于图像识别的自动化保险条款解析方法 | |
CN113780116A (zh) | 发票分类方法、装置、计算机设备和存储介质 | |
CN114241495B (zh) | 一种用于脱机手写文本识别的数据增强方法 | |
CN110929013A (zh) | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 | |
CN114579796B (zh) | 机器阅读理解方法及装置 | |
CN113052156B (zh) | 光学字符识别方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |