CN110427938A - 一种基于深度学习的不规则文字识别装置和方法 - Google Patents

一种基于深度学习的不规则文字识别装置和方法 Download PDF

Info

Publication number
CN110427938A
CN110427938A CN201910688434.8A CN201910688434A CN110427938A CN 110427938 A CN110427938 A CN 110427938A CN 201910688434 A CN201910688434 A CN 201910688434A CN 110427938 A CN110427938 A CN 110427938A
Authority
CN
China
Prior art keywords
text
network
image
sub
character image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910688434.8A
Other languages
English (en)
Inventor
赵朝阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sino-Tech Visual Language (beijing) Technology Co Ltd
Original Assignee
Sino-Tech Visual Language (beijing) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sino-Tech Visual Language (beijing) Technology Co Ltd filed Critical Sino-Tech Visual Language (beijing) Technology Co Ltd
Priority to CN201910688434.8A priority Critical patent/CN110427938A/zh
Publication of CN110427938A publication Critical patent/CN110427938A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/247Aligning, centring, orientation detection or correction of the image by affine transforms, e.g. correction due to perspective effects; Quadrilaterals, e.g. trapezoids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

一种基于深度学习的不规则文字识别装置,包括:存储器,用于存储指令和文字图像;处理器,配置为执行所述指令,以便:输入含有不规则文字的原始文字图像至神经网络模型;识别文字图像中文字并输出;其中所述神经网络模型包括:矫正子网络,用于对含有不规则文字的原始文字图像进行矫正,并输出矫正后的文字图像;识别子网络,与所述矫正子网络输出端连接,用于接收该矫正子网络所输出的文字图像,并识别该文字图像之中的文字。

Description

一种基于深度学习的不规则文字识别装置和方法
技术领域
本发明涉及计算机视觉领域,尤其涉及一种基于深度学习的不规则文字识别装置和方法。
背景技术
文字识别是计算机视觉中的热门研究课题之一,也是基于视觉的模式识别应用的一个重要研究方向。它需要将定位到的文字区域转化为计算机可辨识和操作的符号,由于自然场景中的文字往往呈现多种不同的形态,因此文字的特征表示需要有极强的表达能力和判别力。而传统的手工设计的基于图像全局或局部的特征在文字识别这个问题上很难做到较好的效果。
深度学习是近年来机器学习领域一个热门研究方向,已经在计算机视觉、自然语言处理等领域获得了巨大的成功。尤其是深度卷积神经网络,凭借局部感受野、共享权值以及空间或时序的下采样这三大结构特点,能够从二维图像中提取出语义信息丰富和判别力强的特征,在大规模图像分类和物体检测任务中均表现出优越的性能。这两年,已经出现一些将深度学习应用于文字识别的技术,现有技术中提出了先进行字符分割,然后利用卷积神经网络对分割得到的单个字符进行分类;现有技术中还提出了采用卷积神经网络提取图像文字特征,然后利用递归神经网络依次实现汉字前、后部分、数字、字母、标点符号或者空白的识别。
现有的基于深度学习的文字识别技术尚有以下不足:首先,他们设计或采用的深度神经网络还比较浅,而通常来说,在训练数据足够多的情况下,更深的神经网络的判别能力和泛化能力更强,能够区分出相似文字之间精细的区别;其次,现有方法采用预先分割然后逐字识别的思路,或者将文本行看作从左到右排列的水平序列进行识别,而自然场景中不规则文字(不规则文字指非正面视角非水平排列的文字,包括侧视角拍摄的透视文本和弯曲的文本行等)的文本行往往形态多变,呈现多种不同的排布形式,而且成像视角也会造成文本行的形状表观变化,因此文字分割难度大,不精确的分割会造成后续识别的错误,而在文本行弯曲、倾斜等情况下,基于水平方向的识别方法也不再有效;最后,在识别过程中,现有的方法无法有效抑制无关信息的干扰,容易造成误识。
发明内容
(一)要解决的技术问题
本发明提出了一种基于深度学习的不规则文字识别装置和方法,以至少部分解决现有方法中存在的判别能力和泛化能力较弱,自然场景中文字分割不精确以及无法有效抑制无关信息干扰的问题。
(二)技术方案
根据本发明的一方面,提供了一种基于深度学习的不规则文字识别装置,包括:存储器,用于存储指令和文字图像;处理器,配置为执行所述指令,以便:输入含有不规则文字的原始文字图像至神经网络模型;识别文字图像中文字并输出;其中所述神经网络模型包括:矫正子网络,用于对含有不规则文字的原始文字图像进行矫正,并输出矫正后的文字图像;识别子网络,与所述矫正子网络输出端连接,用于接收该矫正子网络所输出的文字图像,并识别该文字图像之中的文字。
在进一步的方案中,所述的矫正子网络,包括:定位网络,包括多个卷积层和多个全连接层,用于定位含有不规则文字的原始文字图像的待预测基准点坐标值并输出;网格生成器,与所述定位网络输出端连接,接收所述定位网络输出的待预测基准点坐标值,用于计算输入图像与目标图像坐标位置对应关系;采样器,与网格生成器输出端连接,用于根据所述网格生成器输出的坐标位置对应关系对原始输入图像进行采样并输出至目标图像。
在进一步方案中,所述的识别子网络,包括:编码器,包括多个卷积层和多个双向长短期记忆层,用于提取图像特征,以及对图像中文字的上下文信息进行编码;解码器,包括循环神经网络,用于预测不定长的文字序列和对隐式语言模型建模;所述的解码器为双向解码器,包括:前向解码器,用于利用文本行中的历史信息进行解码;反向解码器,用于利用文本行中的未来信息进行解码。
本发明的另一方面,提供了一种基于深度学习的不规则文字识别方法,包括:
所述处理器收集原始文字图像,并存储至所述存储器中;
所述处理器在该原始文字图像中标注文字位置,组成文字检测数据集;
利用文字检测数据集,训练文字检测模型,输出为文字所在区域的矩形框;
根据矩形框裁切出只包含文字所在区域的图像,并标注文字内容标签,组成文字识别数据集;
将所述只包含文字所在区域的图像输入至矫正子网络;
矫正子网络利用循环矫正结构对不规则文字进行变换,再将变换后的文字图像输出至识别子网络;
识别子网络对文字图像中文字内容识别并输出;
利用文字内容标签的监督,对所述矫正子网络和识别子网络进行联合训练。
在进一步方案中,所述的识别子系统采用了薄板样条插值变换函数来对不规则文字进行矫正,所述的薄板样条插值变换函数的参数为基于两组基准点的映射关系的约束中求解所得,所述的两组基准点,一组为网络预测得到的待变换图像中的基准点,另一组为人为定义的变换后图像中的基准点,同时,所述基准点的坐标包含了变换参数信息。
在进一步方案中,所述的矫正子网络将预测所得的基准点映射回原始文字图像。
在进一步方案中,所述的矫正子网络为循环矫正结构,矫正过程为基于上一次矫正的结果,同时,该矫正子网络在每次迭代过程中都对原始文字图像进行变换,用于恢复上一步矫正过程中损失的文字信息。
在进一步方案中,所述的识别子网络为基于注意力解码的识别模型,并对所述编码器输出的图像特征进行自适应的加权,该识别子网络的前向解码器和反向解码器各输出一识别结果,其中得分高的输出为最终的识别结果。
在进一步方案中,,所述训练文字检测模型为基于EAST(An Efficient andAccurate Scene Text Detector,一种高效精确的场景文字检测器)算法。
(三)有益效果
从上述技术方案可以看出,本发明的基于深度学习的不规则文字识别装置和方法至少具有以下有益效果:
基于基准点的薄板样条插值变换函数可以建模非线性变换,因此可以有效地矫正形态多变的文本行;
矫正子网络可以自适应地对不规则文本进行矫正;
循环矫正的结构不会引入额外的参数,能够在同样的数据规模下,获得更优的矫正结果;
基准点精细化的结构使得原始的文字信息一直得以保留,若上一步的矫正结果不够精确,损失了部分文字信息,在下一步中可以进行有效的恢复;
识别子网络中多层的卷积层足以从大量文字图片中学习到丰富的语义信息和具有判别力的特征表达;
识别子网络利用循环神经网络可以递归地预测不定长的文字序列;
识别子网络在解码过程中可以自适应地关注最相关的字符特征,获得更加具有判别力的表达,同时,识别子网络的双向解码器可以充分利用文字序列中的上下文信息。
附图说明
图1为本发明实施例的基于深度学习的不规则文字识别装置结构图;
图2为本发明实施例的流程示意图;
图3为本发明实施例神经网络模型结构示意图;
图4为本发明实施例矫正子网络结构示意图;
图5为本发明实施例识别子网络结构示意图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
本发明提供了一种基于深度学习的不规则文字识别装置,包括:存储器,用于存储指令和文字图像;处理器,配置为执行所述指令,以便:输入含有不规则文字的原始文字图像至神经网络模型;识别文字图像中文字并输出;其中所述神经网络模型包括:矫正子网络,用于对含有不规则文字的原始文字图像进行矫正,并输出矫正后的文字图像;识别子网络,与所述矫正子网络输出端连接,用于接收该矫正子网络所输出的文字图像,并识别该文字图像之中的文字。
所述的矫正子网络,包括:定位网络,包括多个卷积层和多个全连接层,用于定位含有不规则文字的原始文字图像的待预测基准点坐标值并输出;网格生成器,与所述定位网络输出端连接,接收所述定位网络输出的待预测基准点坐标值,用于计算输入图像与目标图像坐标位置对应关系;采样器,与网格生成器输出端连接,用于根据所述网格生成器输出的坐标位置对应关系对原始输入图像进行采样并输出至目标图像。
所述的识别子网络,包括:编码器,包括多个卷积层和多个双向长短期记忆层,用于提取图像特征,以及对图像中文字的上下文信息进行编码;解码器,包括循环神经网络,用于预测不定长的文字序列和对隐式语言模型建模;所述的解码器为双向解码器,包括:前向解码器,用于利用文本行中的历史信息进行解码;反向解码器,用于利用文本行中的未来信息进行解码。
图1为本发明实施例的基于深度学习的不规则文字识别装置结构图,如图1所示,包括存储器和处理器,其中所述存储器包括ROM,用于存储所述神经网络模型的指令集,在本发明的示例实施例中,所述ROM存储器可以为Nand Flash、Nor Flash或EMMC;RAM存储器,用于缓存所述神经网络模型工作中的各种数据,如文字位置,文字区域所在的矩形框等;可选的,存储器还可以包括外部存储设备,如硬盘或U盘,用于存储原始文字图像和以及包含识别结果的文本文件;所述处理器可为通用处理器或神经网络专用处理器;可选的,还可以包括至少一显示设备,用于显示原始文字图像以及识别结果。
本发明还提供了一种基于深度学习的不规则文字识别方法,图2为本发明实施例的流程示意图,如图2所示,步骤包括:
所述处理器收集原始文字图像,并存储至所述存储器中;
所述处理器在该原始文字图像中标注文字位置,组成文字检测数据集;
利用文字检测数据集,训练文字检测模型,输出为文字所在区域的矩形框;
根据矩形框裁切出只包含文字所在区域的图像,并标注文字内容标签,组成文字识别数据集;
将所述只包含文字所在区域的图像输入至矫正子网络;
矫正子网络利用循环矫正结构对不规则文字进行变换,再将变换后的文字图像输出至识别子网络;
识别子网络对文字图像中文字内容识别并输出;
利用文字内容标签的监督,对所述矫正子网络和识别子网络进行联合训练。
在本发明的示例实施例中,所述的识别子系统采用了薄板样条插值变换函数来对不规则文字进行矫正,所述的薄板样条插值变换函数的参数为基于两组基准点的映射关系的约束中求解所得,所述的两组基准点,一组为网络预测得到的待变换图像中的基准点,另一组为人为定义的变换后图像中的基准点,同时,所述基准点的坐标包含了变换参数信息。
在本发明的示例实施例中,所述的矫正子网络将预测所得的基准点映射回原始文字图像。
在本发明的示例实施例中,所述的矫正子网络为循环矫正结构,矫正过程为基于上一次矫正的结果,同时,该矫正子网络在每次迭代过程中都对原始文字图像进行变换,用于恢复上一步矫正过程中损失的文字信息。
在本发明的示例实施例中,所述的识别子网络为基于注意力解码的识别模型,并对所述编码器输出的图像特征进行自适应的加权,该识别子网络的前向解码器和反向解码器各输出一识别结果,其中得分高的输出为最终的识别结果。
在本发明的示例实施例中,所述训练文字检测模型为基于EAST算法。
图3为本发明实施例神经网络模型结构示意图,如图3所示,所述神经网络模型包括矫正子网络和识别子网络,矫正子网络利用循环矫正结构将输入图像中的不规则文字变换为利于识别的标准形式,识别子网络对矫正后的文本行进行识别。
图4为本发明实施例矫正子网络结构示意图,如图4所示,矫正子网络包括定位网络、网格生成器和采样器。
在本发明的示例实施例中,所述定位网络包括1个输入层,6个卷积层,5个下采样层和2个全连接层,其中5个下采样层分别接在前5个卷积层之后,均为最大值pooling(池化层),所有的卷积层的卷积核均为3*3,下采样层的卷积核均为2*2,卷积层的通道个数分别为32,64,128,256,256,256,2个全连接层的输出单元数分别为512和40。
每个卷积层之后先接一个batchnorm(Batch Normalization,批规范化)层,这一层具体是由一个batchnorm层和一个scale(尺度放缩步骤)层组成,batchnorm负责对输入做0均值1方差的归一化,scale则负责对输入做缩放和平移,batchnorm的均值和方差来自于输入,而scale的缩放和平移参数需要从数据中学习。batchnorm层过对网络输入做归一化,有效的消除了网络内部的协变量转移,加快了网络的收敛,同时也是一种正则化机制,有效的防止了网络过拟合。batchnorm层之后接一个激活函数层,在本实施例中,采用的是ReLU(Rectified Linear Unit,线性整流函数)。
所述定位网络输出待预测基准点的坐标值后,网格生成器根据基准点坐标的预测值计算出变换函数的参数,并通过矩阵运算,计算出目标图像中的每个位置对应原图中的坐标位置,采样器根据网格生成器得到的坐标信息,在原始图像中进行采样,将原图中的像素复制到目标图像中,即可得到变换后的图像。
每一步的矫正结果都作为下一次矫正子网络的输入,根据上一步的基础,预测基准点坐标的偏移,逐步精细化基准点的坐标值,然后把预测所得的基准点映射回原始图像,然后计算变换参数,并对原始的输入图像进行变换。重复此过程3次,不断对矫正结果进行修正,并将最后一次的矫正结果作为识别子网络的输入。
图5为本发明实施例识别子网络结构示意图,如图5所示,所述识别子网络包括编码器和解码器。
在本发明的示例实施例中,所述编码器由1个输入层,45个卷积层,2个双向长短期记忆层组成,45个卷积层分为6个block模块,第一个block包含一个3*3的卷积层,后五个block分别包含3,4,6,6,3个残差单元,每个残差单元由一个1*1的卷积层和一个3*3的卷积层组成,每个block的卷积层的通道数分别为32,64,128,256,512。每个卷积层之后同样先接一个batchnorm层,再接一个ReLU激活函数层。每个双向长短期记忆层的隐单元数目为256。
所述解码器包括前向解码器和反向解码器,前向解码器按照从左到右的顺序进行识别,相应地,反向解码器按照从右到左的顺序进行识别,每个解码器由一层隐单元数为256的长短期记忆层构成,每个时刻根据上一时刻的隐状态向量对输入的图像特征做加权和,具体方式为:
et,j=vTtanh(Wst-1+Uhj+b)
其中,st-1为长短期记忆层上一时刻的隐状态向量;hj为图像整体特征h中第j个特征向量;et,j为对齐分数,表示当前时刻待预测字符与第j个特征之间的相关程度;αt,j为第j个特征的权重,是根据对齐分数归一化后得到的;gt为加权后的特征;W,U,v,b为可学习的网络参数。
加权后的特征将作为当前时刻的特征输入,随后解码器更新当前时刻隐状态并输出在类别空间上的概率分布,重复此过程直到输出终止符为止。
在本实施例中,直接选择解码器每一时刻概率最大的字符,然后从前向解码器和反向解码器的输出结果中选择得分较高的作为最终的识别结果。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种基于深度学习的不规则文字识别装置,包括:
存储器,用于存储指令和数据,其中所述数据包括原始文字图像、文字区域所在的矩形框、文字内容标签等;
处理器,配置为执行所述指令,以便:
输入含有不规则文字的原始文字图像至神经网络模型;
识别原始文字图像中文字并输出所述文字的文本信息;
其中所述神经网络模型包括:
矫正子网络,用于对含有不规则文字的原始文字图像进行矫正,并输出矫正后的文字图像;
识别子网络,用于接收该矫正子网络所输出的文字图像,并识别该文字图像之中的文字。
2.根据权利要求1所述的装置,其中所述的矫正子网络,包括:
定位网络,包括多个卷积层和多个全连接层,用于定位含有不规则文字的原始文字图像的待预测基准点坐标值并输出;
网格生成器,与所述定位网络输出端连接,接收所述定位网络输出的待预测基准点坐标值,用于计算输入图像与目标图像坐标位置对应关系;
采样器,与网格生成器输出端连接,用于根据所述网格生成器输出的坐标位置对应关系对原始输入图像进行采样并输出至目标图像。
3.根据权利要求1所述的装置,其中所述的识别子网络,包括:
编码器,包括多个卷积层和多个双向长短期记忆层,用于提取图像特征,以及对图像中文字的上下文信息进行编码;
解码器,包括循环神经网络,用于预测不定长的文字序列和对隐式语言模型建模。
4.根据权利要求3所述的装置,其中所述的解码器为双向解码器,包括:
前向解码器,用于利用文本行中的历史信息进行解码;
反向解码器,用于利用文本行中的未来信息进行解码。
5.一种应用权利要求1-4任一所述的装置对不规则文字识别方法,包括:
所述处理器接收原始文字图像,并将该原始文字图像数据存储至所述存储器中;
在该原始文字图像中标注文字位置,组成文字检测数据集;
利用文字检测数据集,训练文字检测模型,输出为文字所在区域的矩形框;
根据矩形框裁切出只包含文字所在区域的图像,并标注文字内容标签,组成文字识别数据集;
将所述只包含文字所在区域的图像输入至矫正子网络;
矫正子网络利用循环矫正结构对不规则文字进行变换,再将变换后的文字图像输出至识别子网络;
识别子网络对文字图像中文字内容识别并输出原始文字图像的文本信息;
利用文字内容标签的监督,对所述矫正子网络和识别子网络进行联合训练。
6.根据权利要求5所述的方法,其中所述的识别子系统采用了薄板样条插值变换函数来对不规则文字进行矫正。
7.根据权利要求6所述的方法,其中所述的薄板样条插值变换函数的参数为基于两组基准点的映射关系的约束中求解所得。
8.根据权利要求7所述的方法,其中所述的两组基准点,一组为网络预测得到的待变换图像中的基准点,另一组为人为定义的变换后图像中的基准点。
9.根据权利要求7所述的方法,其中所述基准点的坐标包含了变换参数信息。
10.根据权利要求5所述的方法,其中所述的矫正子网络为循环矫正结构,矫正过程为基于上一次矫正的结果。
11.根据权利要求5所述的方法,所述的矫正子网络将预测所得的基准点映射回原始文字图像。
12.根据权利要求5所述的方法,所述的矫正子网络在每次迭代过程中都对原始文字图像进行变换,用于恢复上一步矫正过程中损失的文字信息。
13.根据权利要求5所述的方法,其中所述的识别子网络为基于注意力解码的识别模型,并对所述编码器输出的图像特征进行自适应的加权。
14.根据权利要求5所述的方法,所述识别子网络的前向解码器和反向解码器各输出一识别结果,其中得分高的输出为最终的识别结果。
15.根据权利要求5所述的方法,所述训练文字检测模型为基于EAST算法。
CN201910688434.8A 2019-07-26 2019-07-26 一种基于深度学习的不规则文字识别装置和方法 Pending CN110427938A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910688434.8A CN110427938A (zh) 2019-07-26 2019-07-26 一种基于深度学习的不规则文字识别装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910688434.8A CN110427938A (zh) 2019-07-26 2019-07-26 一种基于深度学习的不规则文字识别装置和方法

Publications (1)

Publication Number Publication Date
CN110427938A true CN110427938A (zh) 2019-11-08

Family

ID=68412900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910688434.8A Pending CN110427938A (zh) 2019-07-26 2019-07-26 一种基于深度学习的不规则文字识别装置和方法

Country Status (1)

Country Link
CN (1) CN110427938A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889404A (zh) * 2019-11-21 2020-03-17 山东浪潮人工智能研究院有限公司 一种基于修正网络的不规则文本识别系统及方法
CN110969154A (zh) * 2019-11-29 2020-04-07 上海眼控科技股份有限公司 文本识别方法、装置、计算机设备和存储介质
CN111027553A (zh) * 2019-12-23 2020-04-17 武汉唯理科技有限公司 一种圆形印章文字识别方法
CN111144411A (zh) * 2019-12-27 2020-05-12 南京大学 一种基于显著图的不规则文本修正与识别方法及系统
CN111223065A (zh) * 2020-01-13 2020-06-02 中国科学院重庆绿色智能技术研究院 图像矫正方法、不规则文本识别方法、装置、存储介质和设备
CN111260586A (zh) * 2020-01-20 2020-06-09 北京百度网讯科技有限公司 扭曲文档图像的矫正方法和装置
CN111507333A (zh) * 2020-04-21 2020-08-07 腾讯科技(深圳)有限公司 一种图像矫正方法、装置、电子设备和存储介质
CN111612009A (zh) * 2020-05-21 2020-09-01 腾讯科技(深圳)有限公司 文本识别方法、装置、设备和存储介质
CN113033531A (zh) * 2019-12-24 2021-06-25 上海智臻智能网络科技股份有限公司 一种图像中文本识别方法、装置及电子设备
WO2021135254A1 (zh) * 2019-12-31 2021-07-08 深圳云天励飞技术股份有限公司 车牌号码识别方法、装置、电子设备及存储介质
CN113449013A (zh) * 2021-06-21 2021-09-28 北京思路智园科技有限公司 一种特殊作业过程数据采集系统及存储系统
CN113807340A (zh) * 2021-09-07 2021-12-17 南京信息工程大学 一种基于注意力机制的不规则自然场景文本识别方法
CN114283431A (zh) * 2022-03-04 2022-04-05 南京安元科技有限公司 一种基于可微分二值化的文本检测方法
WO2022088946A1 (zh) * 2020-10-31 2022-05-05 华为技术有限公司 一种弯曲文本的字符选择方法、装置和终端设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977659A (zh) * 2016-10-25 2018-05-01 北京搜狗科技发展有限公司 一种文字识别方法、装置及电子设备
CN109753971A (zh) * 2017-11-06 2019-05-14 阿里巴巴集团控股有限公司 扭曲文字行的矫正方法及装置、字符识别方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977659A (zh) * 2016-10-25 2018-05-01 北京搜狗科技发展有限公司 一种文字识别方法、装置及电子设备
CN109753971A (zh) * 2017-11-06 2019-05-14 阿里巴巴集团控股有限公司 扭曲文字行的矫正方法及装置、字符识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BAOGUANG SHI等: "ASTER: An Attentional Scene Text Recognizer with Flexible Rectification", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889404A (zh) * 2019-11-21 2020-03-17 山东浪潮人工智能研究院有限公司 一种基于修正网络的不规则文本识别系统及方法
CN110969154A (zh) * 2019-11-29 2020-04-07 上海眼控科技股份有限公司 文本识别方法、装置、计算机设备和存储介质
CN111027553A (zh) * 2019-12-23 2020-04-17 武汉唯理科技有限公司 一种圆形印章文字识别方法
CN113033531B (zh) * 2019-12-24 2023-10-27 上海智臻智能网络科技股份有限公司 一种图像中文本识别方法、装置及电子设备
CN113033531A (zh) * 2019-12-24 2021-06-25 上海智臻智能网络科技股份有限公司 一种图像中文本识别方法、装置及电子设备
CN111144411A (zh) * 2019-12-27 2020-05-12 南京大学 一种基于显著图的不规则文本修正与识别方法及系统
CN111144411B (zh) * 2019-12-27 2024-02-27 南京大学 一种基于显著图的不规则文本修正与识别方法及系统
WO2021135254A1 (zh) * 2019-12-31 2021-07-08 深圳云天励飞技术股份有限公司 车牌号码识别方法、装置、电子设备及存储介质
CN111223065A (zh) * 2020-01-13 2020-06-02 中国科学院重庆绿色智能技术研究院 图像矫正方法、不规则文本识别方法、装置、存储介质和设备
US11756170B2 (en) 2020-01-20 2023-09-12 Beijing Baidu Netcom Science Technology Co., Ltd. Method and apparatus for correcting distorted document image
CN111260586A (zh) * 2020-01-20 2020-06-09 北京百度网讯科技有限公司 扭曲文档图像的矫正方法和装置
CN111507333B (zh) * 2020-04-21 2023-09-15 腾讯科技(深圳)有限公司 一种图像矫正方法、装置、电子设备和存储介质
CN111507333A (zh) * 2020-04-21 2020-08-07 腾讯科技(深圳)有限公司 一种图像矫正方法、装置、电子设备和存储介质
CN111612009B (zh) * 2020-05-21 2021-10-22 腾讯科技(深圳)有限公司 文本识别方法、装置、设备和存储介质
CN111612009A (zh) * 2020-05-21 2020-09-01 腾讯科技(深圳)有限公司 文本识别方法、装置、设备和存储介质
WO2022088946A1 (zh) * 2020-10-31 2022-05-05 华为技术有限公司 一种弯曲文本的字符选择方法、装置和终端设备
CN113449013A (zh) * 2021-06-21 2021-09-28 北京思路智园科技有限公司 一种特殊作业过程数据采集系统及存储系统
CN113807340A (zh) * 2021-09-07 2021-12-17 南京信息工程大学 一种基于注意力机制的不规则自然场景文本识别方法
CN113807340B (zh) * 2021-09-07 2024-03-15 南京信息工程大学 一种基于注意力机制的不规则自然场景文本识别方法
CN114283431A (zh) * 2022-03-04 2022-04-05 南京安元科技有限公司 一种基于可微分二值化的文本检测方法

Similar Documents

Publication Publication Date Title
CN110427938A (zh) 一种基于深度学习的不规则文字识别装置和方法
CN109389091B (zh) 基于神经网络和注意力机制结合的文字识别系统及方法
CN109948475B (zh) 一种基于骨架特征和深度学习的人体动作识别方法
CN110334589B (zh) 一种基于空洞卷积的高时序3d神经网络的动作识别方法
CN112329760B (zh) 基于空间变换网络端到端印刷体蒙古文识别翻译的方法
CN111259786A (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN110414498A (zh) 一种基于交叉注意力机制的自然场景文本识别方法
CN110929092A (zh) 一种基于动态注意力机制的多事件视频描述方法
CN111369522B (zh) 基于生成对抗卷积神经网络的光场显著性目标检测方法
CN111428727B (zh) 基于序列变换纠正及注意力机制的自然场景文本识别方法
CN111680550B (zh) 情感信息识别方法、装置、存储介质及计算机设备
CN111814611A (zh) 一种嵌入高阶信息的多尺度人脸年龄估计方法及系统
CN111507184B (zh) 基于并联空洞卷积和身体结构约束的人体姿态检测方法
CN113780059B (zh) 一种基于多特征点的连续手语识别方法
CN116524593A (zh) 一种动态手势识别方法、系统、设备及介质
CN115393396B (zh) 一种基于掩码预训练的无人机目标跟踪方法
CN110473267A (zh) 基于注意力特征提取网络的社交网络图像描述生成方法
CN115294655A (zh) 一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备
CN114187506B (zh) 视点意识的动态路由胶囊网络的遥感图像场景分类方法
CN114581905A (zh) 一种基于语义增强机制的场景文本识别方法及系统
CN115909488A (zh) 一种姿态引导和动态特征提取的遮挡行人重识别方法
CN116110059A (zh) 一种基于深度学习的离线手写数学公式识别的方法
CN114240811A (zh) 一种基于多张图像生成新图像的方法
CN115082778B (zh) 一种基于多分支学习的宅基地识别方法及系统
CN116452795A (zh) 一种智能弹药识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191108