CN112836702A - 一种基于多尺度特征提取的文本识别方法 - Google Patents

一种基于多尺度特征提取的文本识别方法 Download PDF

Info

Publication number
CN112836702A
CN112836702A CN202110003584.8A CN202110003584A CN112836702A CN 112836702 A CN112836702 A CN 112836702A CN 202110003584 A CN202110003584 A CN 202110003584A CN 112836702 A CN112836702 A CN 112836702A
Authority
CN
China
Prior art keywords
text
feature extraction
network
image
step length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110003584.8A
Other languages
English (en)
Other versions
CN112836702B (zh
Inventor
卜佳俊
邓雅卿
顾静军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110003584.8A priority Critical patent/CN112836702B/zh
Publication of CN112836702A publication Critical patent/CN112836702A/zh
Application granted granted Critical
Publication of CN112836702B publication Critical patent/CN112836702B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Character Discrimination (AREA)

Abstract

一种基于多尺度特征提取的文本识别方法,包括:1)获取可用于训练的大型文本图像数据集,其中包含文本图片及其对应的文本标签;2)对数据集中的图片进行训练集和验证集的划分,在文本识别模型上进行多次训练得到最优模型;3)对步骤2)中定义的文本识别模型,选用CTC损失函数进行训练;4)将以上步骤训练的模型应用到文本图像识别场景中,对文本图像的内容进行识别。相较于现有的主流文本识别模型CRNN,本发明能够在充分利用多尺度信息提升文本识别准确度的基础上,降低模型的参数量,以更小的开销获得更准确的识别结果。

Description

一种基于多尺度特征提取的文本识别方法
技术领域
本发明主要针对自然场景下的文本识别技术领域,尤其涉及基于多尺度特征提取的文本识别方法。
背景技术
随着信息技术的不断发展,计算机已然成为了信息传递的一种重要媒介,因此将图像中的文字转换为计算机可进行处理的格式有利于人们对信息的理解、加工和传递。许多视觉领域内和文本相关的任务,如图像检索、智能无障碍辅助设施等都需要以精确的文本识别结果进行构建。OCR(Optical Character Recognition,光学字符识别)就是将视觉文字转化为计算机文本格式的技术,其中又主要分为文本检测和文本识别两个任务。文本检测主要用于定位图像中的文字区域,而文本识别则对裁剪后的文字区域进行文本内容提取,最终得到计算机可进行处理的文本格式。
目前有许多基于深度学习的文本识别模型用于解决文本识别问题,其中CRNN模型是一种主流的文本识别模型,因其模型较小,训练速度快,识别效果好仍是当前最广泛使用的文本识别模型之一。但是为了加快训练速度,每次读取多张图片进行训练,需要将每张图片都缩放到相同的大小,但是这种缩放对于图片的拉伸和压缩处理都难以避免会造成图片的变形,而导致图片上信息分布的不一致,从而对卷积模板区域内的特征提取过程造成影响,最终会影响文本识别模型的准确度。
发明内容
本发明要克服现有技术的上述缺点,提出了一种基于多尺度特征提取的文本识别方法,并且对CRNN的网络层数进行改进,以更小的模型开销提高文本识别模型的准确度。
一种基于多尺度特征提取的文本识别方法,包括以下步骤:
1)获取可用于训练的大型文本图像数据集,其中包含文本图片及其对应的文本标签。文本图片表示仅含文本内容的图片,可以通过已有的其它文本检测模型定位文本内容,再进行裁剪得到。
2)对数据集中的图片进行训练集和验证集的划分,在文本识别模型上进行多次训练得到最优模型。所述的文本识别模型,其具体网络结构描述如下:
21)首先定义网络结构中的多尺度特征提取基本块。基本块的整体组织结构如说明书附图内的图2所示。其对应的详细参数描述如下:对应图2中的模块①选用大小为1的卷积核,设置步长为1,填充为0,输出维度为64;模块②选用大小为1的卷积核,设置步长为1,填充为0,输出维度为48;模块③选用大小为5的卷积核,设置步长为1,填充为2,输出维度为64;模块④选用大小为3的卷积核,设置步长为1,填充为1,输出维度为64;模块⑤和模块⑥选用大小为3的卷积核,设置步长为1,填充为1,输出维度为96;模块⑦设定为范围卷积核为3的池化层,设置步长为1,填充为1;模块⑧选用大小为1的卷积核,设置步长为1,填充为1,输出是多尺度特征提取基本块的一个输入参数;模块⑨选用大小为3的卷积核,设置步长为1,填充为0,输出是多尺度特征提取基本块的输入参数;对模块①、③、⑥、⑧的输出,在特征维度上进行拼接得到高维的语义特征,最后通过模块⑨得到最终的输出。
22)利用21)中提到的多尺度特征提取模块,设计文本识别网络特征提取层详述如下:首先在输入层后接入第一个多尺度特征提取模块,指定输出维度为64;然后接入一个模板大小为2的池化层,设置步长为2;然后接入第二个多尺度特征提取模块,指定输出维度为128;然后接入一个模板大小为2的池化层,设置步长为2;然后接入两个多尺度特征提取模块,都指定输出维度为256;然后接入池化层,在宽度和高度方向上分别设定模板大小为1和2,并将步长也设置成对应值,填充分别为0和1;然后接入两个多尺度特征提取模块,都指定输出维度为512;在特征提取阶段的最后接入一个池化层,在宽度和高度方向上分别设定模板大小为2和4,并将步长也设置成对应值,填充分别为0和2。
23)利用22)中提到的文本识别网络特征提取层,设计文本识别模型的总体架构详述如下:在22)所述的特征提取层后,接入两个双向的LSTM网络层,同时设置该网络层的隐层特征维度为256。双向LSTM层的作用在于将图像的视觉特征进行长短期记忆的联系处理,该网络层读取图像按宽度帧切分的特征序列,对不同帧特征之间的联系进行建模,从而将输入的图像特征转化为更高层的语义特征,并根据特征翻译出每个帧内不同字符对应的概率。
3)对步骤2)中定义的文本识别模型,选用CTC损失函数进行训练。该损失函数的主要作用主要在于将LSTM层输出的每个时刻的字符概率进行组合,以此可以将网络的字符概率输出和图像的文本标签进行对齐,从而将网络各层结构组织起来进行训练。其中网络的概率输出有一个特殊字符类对应‘blank’,根据该类字符可以将网络的概率输出以不同的路径组合方式对齐真实文本标签。比如‘spe[blank]eed’和‘spee[blank]ed’都可以转录成‘speed’单词。因此,最终网络输出当前单词的概率,是对所有可以转化为该单词的路径概率进行求和。计算CTC损失的主要步骤详述如下:
单条路径的概率为每个时刻对应字符的概率求和,如下公式所示:
Figure BDA0002882689580000041
其中s表示网络对应的输入,而w表示文本识别模型的输出序列,wt表示时刻t对应w中第t个字符的概率。最后,对应的单词概率为所有可以转录为该单词的路径概率和,表示为以下公式:
Figure BDA0002882689580000042
其中l表示目标文本序列,根据以上概率公式可求得对应的网络损失函数设定为概率的负对数,表示为以下公式:
L=-ln pr(l|s) (3)
最后利用以上所述损失函数,每次读取batch张图片,同时将读取的图片缩放到宽度为100像素,高度为32像素的大小,对网络进行训练。
4)将以上步骤训练的模型应用到文本图像识别场景中,对文本图像的内容进行识别。对含有多行文本的图片可以选取现有文本检测模型对图像中的文本进行定位,裁剪出含有文本内容的部分图片,再使用本发明的文本识别模型对文本内容进行识别。
优选地,本发明还包括步骤5)检索图像,具体包括:用户通过输入单个关键词,和图像中的文本内容进行匹配。图像检索任务使用预训练的NLP模型如word2vec等词嵌入的模型,该模型的主要作用是用于提取关键词和文本单词的高维特征。采用预训练的NLP模型分别提取用户输入关键词的语义特征和图像中识别出的所有单词的语义特征,再通过相似度度量方式如余弦相似度的评估方法,计算用户输入关键词和所有图像中的文本单词的相似度平均值,该值对应关键词和图像之间的匹配程度。该相似度平均值可直接用于对图像集合中的图像进行匹配排序,选取和关键词最为接近的K张图像;也可用于和基于内容的图像检索方法进行加权结合,作为相似度匹配的其中一个因素。
Figure BDA0002882689580000051
本发明的优点是:
1)相对于目前主流文本识别模型CRNN,本方法训练后的模型能够取得更高的准确度。
2)原CRNN模型文件的大小是32M,而本方法训练后的模型文件大小为27M。本方法以更小的存储开销取得了更高的准确度。
附图说明
图1是本发明的思路概述图。
图2是本发明的多尺度特征提取模块总体结构图。
具体实施方式
下面结合附图,进一步说明本发明的技术方案。
本实施例是应用本发明的一种图像检索方法,具体包括如下步骤:
1)获取可用于训练的大型文本图像数据集,其中包含文本图片及其对应的文本标签。文本图片表示仅含文本内容的图片,可以通过已有的其它文本检测模型定位文本内容,再进行裁剪得到。
2)对数据集中的图片进行训练集和验证集的划分,在文本识别模型上进行多次训练得到最优模型。所述的文本识别模型,其具体网络结构描述如下:
21)首先定义网络结构中的多尺度特征提取基本块。基本块的整体组织结构如说明书附图内的图2所示。其对应的详细参数描述如下:对应图2中的模块①选用大小为1的卷积核,设置步长为1,填充为0,输出维度为64;模块②选用大小为1的卷积核,设置步长为1,填充为0,输出维度为48;模块③选用大小为5的卷积核,设置步长为1,填充为2,输出维度为64;模块④选用大小为3的卷积核,设置步长为1,填充为1,输出维度为64;模块⑤和模块⑥选用大小为3的卷积核,设置步长为1,填充为1,输出维度为96;模块⑦设定为范围卷积核为3的池化层,设置步长为1,填充为1;模块⑧选用大小为1的卷积核,设置步长为1,填充为1,输出是多尺度特征提取基本块的一个输入参数;模块⑨选用大小为3的卷积核,设置步长为1,填充为0,输出是多尺度特征提取基本块的输入参数;对模块①、③、⑥、⑧的输出,在特征维度上进行拼接得到高维的语义特征,最后通过模块⑨得到最终的输出。
22)利用21)中提到的多尺度特征提取模块,设计文本识别网络特征提取层详述如下:首先在输入层后接入第一个多尺度特征提取模块,指定输出维度为64;然后接入一个模板大小为2的池化层,设置步长为2;然后接入第二个多尺度特征提取模块,指定输出维度为128;然后接入一个模板大小为2的池化层,设置步长为2;然后接入两个多尺度特征提取模块,都指定输出维度为256;然后接入池化层,在宽度和高度方向上分别设定模板大小为1和2,并将步长也设置成对应值,填充分别为0和1;然后接入两个多尺度特征提取模块,都指定输出维度为512;在特征提取阶段的最后接入一个池化层,在宽度和高度方向上分别设定模板大小为2和4,并将步长也设置成对应值,填充分别为0和2。
23)利用22)中提到的文本识别网络特征提取层,设计文本识别模型的总体架构详述如下:在22)所述的特征提取层后,接入两个双向的LSTM网络层,同时设置该网络层的隐层特征维度为256。双向LSTM层的作用在于将图像的视觉特征进行长短期记忆的联系处理,该网络层读取图像按宽度帧切分的特征序列,对不同帧特征之间的联系进行建模,从而将输入的图像特征转化为更高层的语义特征,并根据特征翻译出每个帧内不同字符对应的概率。
3)对步骤2)中定义的文本识别模型,选用CTC损失函数进行训练。该损失函数的主要作用主要在于将LSTM层输出的每个时刻的字符概率进行组合,以此可以将网络的字符概率输出和图像的文本标签进行对齐,从而将网络各层结构组织起来进行训练。其中网络的概率输出有一个特殊字符类对应‘blank’,根据该类字符可以将网络的概率输出以不同的路径组合方式对齐真实文本标签。比如‘spe[blank]eed’和‘spee[blank]ed’都可以转录成‘speed’单词。因此,最终网络输出当前单词的概率,是对所有可以转化为该单词的路径概率进行求和。计算CTC损失的主要步骤详述如下:
单条路径的概率为每个时刻对应字符的概率求和,如下公式所示:
Figure BDA0002882689580000081
其中s表示网络对应的输入,而w表示文本识别模型的输出序列,wt表示时刻t对应w中第t个字符的概率。最后,对应的单词概率为所有可以转录为该单词的路径概率和,表示为以下公式:
Figure BDA0002882689580000082
其中l表示目标文本序列,根据以上概率公式可求得对应的网络损失函数设定为概率的负对数,表示为以下公式:
L=-ln pr(l|s) (3)
最后利用以上所述损失函数,每次读取batch张图片,同时将读取的图片缩放到宽度为100像素,高度为32像素的大小,对网络进行训练。
4)将以上步骤训练的模型应用到文本图像识别场景中,对文本图像的内容进行识别。对含有多行文本的图片可以选取现有文本检测模型对图像中的文本进行定位,裁剪出含有文本内容的部分图片,再使用本发明的文本识别模型对文本内容进行识别。
5)本发明可用于基于文本的图像检索任务中,用户通过输入单个关键词,和图像中的文本内容进行匹配。图像检索任务使用预训练的NLP模型如word2vec等词嵌入的模型,该模型的主要作用是用于提取关键词和文本单词的高维特征。采用预训练的NLP模型分别提取用户输入关键词的语义特征和图像中识别出的所有单词的语义特征,再通过相似度度量方式如余弦相似度的评估方法,计算用户输入关键词和所有图像中的文本单词的相似度平均值,该值对应关键词和图像之间的匹配程度。该相似度平均值可直接用于对图像集合中的图像进行匹配排序,选取和关键词最为接近的K张图像;也可用于和基于内容的图像检索方法进行加权结合,作为相似度匹配的其中一个因素。
Figure BDA0002882689580000091
本发明将自然场景下的裁剪文本图片通过多尺度图像特征提取得到高维语义图,然后将高维语义图经过序列编码和文本特征翻译过程恢复图像中的文本内容。相较于现有的主流文本识别模型CRNN,本发明能够在充分利用多尺度信息提升文本识别准确度的基础上,降低模型的参数量,以更小的开销获得更准确的识别结果。

Claims (2)

1.一种基于多尺度特征提取的文本识别方法,包括下列步骤:
1)获取可用于训练的大型文本图像数据集,其中包含文本图片及其对应的文本标签;文本图片表示仅含文本内容的图片,可以通过已有的其它文本检测模型定位文本内容,再进行裁剪得到;
2)对数据集中的图片进行训练集和验证集的划分,在文本识别模型上进行多次训练得到最优模型;所述的文本识别模型,其具体网络结构描述如下:
21)首先定义网络结构中的多尺度特征提取基本块;基本块的整体组织结构如说明书附图内的图2所示;其对应的详细参数描述如下:对应图2中的模块①选用大小为1的卷积核,设置步长为1,填充为0,输出维度为64;模块②选用大小为1的卷积核,设置步长为1,填充为0,输出维度为48;模块③选用大小为5的卷积核,设置步长为1,填充为2,输出维度为64;模块④选用大小为3的卷积核,设置步长为1,填充为1,输出维度为64;模块⑤和模块⑥选用大小为3的卷积核,设置步长为1,填充为1,输出维度为96;模块⑦设定为范围卷积核为3的池化层,设置步长为1,填充为1;模块⑧选用大小为1的卷积核,设置步长为1,填充为1,输出是多尺度特征提取基本块的一个输入参数;模块⑨选用大小为3的卷积核,设置步长为1,填充为0,输出是多尺度特征提取基本块的输入参数;对模块①、③、⑥、⑧的输出,在特征维度上进行拼接得到高维的语义特征,最后通过模块⑨得到最终的输出;
22)利用21)中提到的多尺度特征提取模块,设计文本识别网络特征提取层详述如下:首先在输入层后接入第一个多尺度特征提取模块,指定输出维度为64;然后接入一个模板大小为2的池化层,设置步长为2;然后接入第二个多尺度特征提取模块,指定输出维度为128;然后接入一个模板大小为2的池化层,设置步长为2;然后接入两个多尺度特征提取模块,都指定输出维度为256;然后接入池化层,在宽度和高度方向上分别设定模板大小为1和2,并将步长也设置成对应值,填充分别为0和1;然后接入两个多尺度特征提取模块,都指定输出维度为512;在特征提取阶段的最后接入一个池化层,在宽度和高度方向上分别设定模板大小为2和4,并将步长也设置成对应值,填充分别为0和2;
23)利用22)中提到的文本识别网络特征提取层,设计文本识别模型的总体架构详述如下:在22)所述的特征提取层后,接入两个双向的LSTM网络层,同时设置该网络层的隐层特征维度为256;双向LSTM层的作用在于将图像的视觉特征进行长短期记忆的联系处理,该网络层读取图像按宽度帧切分的特征序列,对不同帧特征之间的联系进行建模,从而将输入的图像特征转化为更高层的语义特征,并根据特征翻译出每个帧内不同字符对应的概率;
3)对步骤2)中定义的文本识别模型,选用CTC损失函数进行训练;该损失函数的主要作用主要在于将LSTM层输出的每个时刻的字符概率进行组合,以此可以将网络的字符概率输出和图像的文本标签进行对齐,从而将网络各层结构组织起来进行训练;其中网络的概率输出有一个特殊字符类对应‘blank’,根据该类字符可以将网络的概率输出以不同的路径组合方式对齐真实文本标签;比如‘spe[blank]eed’和‘spee[blank]ed’都可以转录成‘speed’单词;因此,最终网络输出当前单词的概率,是对所有可以转化为该单词的路径概率进行求和;计算CTC损失的主要步骤详述如下:
单条路径的概率为每个时刻对应字符的概率求和,如下公式所示:
Figure FDA0002882689570000031
其中s表示网络对应的输入,而w表示文本识别模型的输出序列,wt表示时刻t对应w中第t个字符的概率;最后,对应的单词概率为所有可以转录为该单词的路径概率和,表示为以下公式:
Figure FDA0002882689570000032
其中l表示目标文本序列,根据以上概率公式可求得对应的网络损失函数设定为概率的负对数,表示为以下公式:
L=-lnpr(l|s) (3)
最后利用以上所述损失函数,每次读取batch张图片,同时将读取的图片缩放到宽度为100像素,高度为32像素的大小,对网络进行训练;
4)将以上步骤训练的模型应用到文本图像识别场景中,对文本图像的内容进行识别;对含有多行文本的图片可以选取现有文本检测模型对图像中的文本进行定位,裁剪出含有文本内容的部分图片,再使用本发明的文本识别模型对文本内容进行识别。
2.如权利要求1所述的一种基于多尺度特征提取的文本识别方法,其特征在于:还包括步骤5)检索图像,具体包括:用户通过输入单个关键词,和图像中的文本内容进行匹配;图像检索任务使用预训练的NLP模型如word2vec等词嵌入的模型,该模型提取关键词和文本单词的高维特征;采用预训练的NLP模型分别提取用户输入关键词的语义特征和图像中识别出的所有单词的语义特征,再通过相似度度量方式如余弦相似度的评估方法,计算用户输入关键词和所有图像中的文本单词的相似度平均值,该值对应关键词和图像之间的匹配程度;该相似度平均值可直接用于对图像集合中的图像进行匹配排序,选取和关键词最为接近的K张图像;也可用于和基于内容的图像检索方法进行加权结合,作为相似度匹配的其中一个因素。
Figure FDA0002882689570000041
CN202110003584.8A 2021-01-04 2021-01-04 一种基于多尺度特征提取的文本识别方法 Active CN112836702B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110003584.8A CN112836702B (zh) 2021-01-04 2021-01-04 一种基于多尺度特征提取的文本识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110003584.8A CN112836702B (zh) 2021-01-04 2021-01-04 一种基于多尺度特征提取的文本识别方法

Publications (2)

Publication Number Publication Date
CN112836702A true CN112836702A (zh) 2021-05-25
CN112836702B CN112836702B (zh) 2022-10-18

Family

ID=75927434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110003584.8A Active CN112836702B (zh) 2021-01-04 2021-01-04 一种基于多尺度特征提取的文本识别方法

Country Status (1)

Country Link
CN (1) CN112836702B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065537A (zh) * 2021-06-03 2021-07-02 江苏联著实业股份有限公司 一种基于模型优化的ocr文件格式转化方法及系统
CN113343958A (zh) * 2021-08-06 2021-09-03 北京世纪好未来教育科技有限公司 一种文本识别方法、装置、设备及介质
CN113591864A (zh) * 2021-07-28 2021-11-02 北京百度网讯科技有限公司 文本识别模型框架的训练方法、装置及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447078A (zh) * 2018-10-23 2019-03-08 四川大学 一种自然场景图像敏感文字的检测识别方法
CN109977950A (zh) * 2019-03-22 2019-07-05 上海电力学院 一种基于混合cnn-lstm网络的文字识别方法
US10423852B1 (en) * 2018-03-20 2019-09-24 Konica Minolta Laboratory U.S.A., Inc. Text image processing using word spacing equalization for ICR system employing artificial neural network
US10671892B1 (en) * 2019-03-31 2020-06-02 Hyper Labs, Inc. Apparatuses, methods, and systems for 3-channel dynamic contextual script recognition using neural network image analytics and 4-tuple machine learning with enhanced templates and context data
CN111428718A (zh) * 2020-03-30 2020-07-17 南京大学 一种基于图像增强的自然场景文本识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10423852B1 (en) * 2018-03-20 2019-09-24 Konica Minolta Laboratory U.S.A., Inc. Text image processing using word spacing equalization for ICR system employing artificial neural network
CN109447078A (zh) * 2018-10-23 2019-03-08 四川大学 一种自然场景图像敏感文字的检测识别方法
CN109977950A (zh) * 2019-03-22 2019-07-05 上海电力学院 一种基于混合cnn-lstm网络的文字识别方法
US10671892B1 (en) * 2019-03-31 2020-06-02 Hyper Labs, Inc. Apparatuses, methods, and systems for 3-channel dynamic contextual script recognition using neural network image analytics and 4-tuple machine learning with enhanced templates and context data
CN111428718A (zh) * 2020-03-30 2020-07-17 南京大学 一种基于图像增强的自然场景文本识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065537A (zh) * 2021-06-03 2021-07-02 江苏联著实业股份有限公司 一种基于模型优化的ocr文件格式转化方法及系统
CN113591864A (zh) * 2021-07-28 2021-11-02 北京百度网讯科技有限公司 文本识别模型框架的训练方法、装置及系统
CN113343958A (zh) * 2021-08-06 2021-09-03 北京世纪好未来教育科技有限公司 一种文本识别方法、装置、设备及介质

Also Published As

Publication number Publication date
CN112836702B (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN112004111B (zh) 一种全域深度学习的新闻视频信息抽提方法
CN112836702B (zh) 一种基于多尺度特征提取的文本识别方法
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN110347857B (zh) 基于强化学习的遥感影像的语义标注方法
CN113836992B (zh) 识别标签的方法、训练标签识别模型的方法、装置及设备
CN111242033A (zh) 一种基于视频和文字对判别分析的视频特征学习方法
CN114444507A (zh) 基于水环境知识图谱增强关系的上下文参数中文实体预测方法
US20240161531A1 (en) Transformer-based multi-scale pedestrian re-identification method
CN112037239B (zh) 基于多层次显式关系选择的文本指导图像分割方法
CN114596566A (zh) 文本识别方法及相关装置
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN117010500A (zh) 一种多源异构知识联合增强的视觉知识推理问答方法
CN114694255A (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN110704665A (zh) 一种基于视觉注意力机制的图像特征表达方法及系统
CN114168773A (zh) 一种基于伪标签和重排序的半监督草图图像检索方法
CN112269892B (zh) 一种基于多模态多层次统一交互的短语定位识别方法
CN112016592B (zh) 基于交叉领域类别感知的领域适应语义分割方法及装置
US11494431B2 (en) Generating accurate and natural captions for figures
CN113792121B (zh) 阅读理解模型的训练方法及装置、阅读理解方法及装置
WO2022127333A1 (zh) 图像分割模型的训练方法、图像分割方法、装置、设备
CN114722798A (zh) 一种基于卷积神经网络和注意力机制的反讽识别模型
CN114299510A (zh) 一种手写英文行识别系统
CN114692715A (zh) 一种样本标注方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant