CN112801095A - 一种基于注意力机制的图神经网络集装箱文本识别方法 - Google Patents

一种基于注意力机制的图神经网络集装箱文本识别方法 Download PDF

Info

Publication number
CN112801095A
CN112801095A CN202110163054.XA CN202110163054A CN112801095A CN 112801095 A CN112801095 A CN 112801095A CN 202110163054 A CN202110163054 A CN 202110163054A CN 112801095 A CN112801095 A CN 112801095A
Authority
CN
China
Prior art keywords
image
text
network
neural network
container
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110163054.XA
Other languages
English (en)
Inventor
陈雪莹
孙宇平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202110163054.XA priority Critical patent/CN112801095A/zh
Publication of CN112801095A publication Critical patent/CN112801095A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于注意力机制的图神经网络集装箱文本识别方法,包括以下步骤:S1:获取包括原始集装箱场景的图像;S2:对所述原始集装箱场景的图像进行预处理,获取图像中的文本部分图像;S3:对图像中的文本部分图像进行特征提取;S4:将提取的特征送入预训练好的GTC识别网络,识别出文本信息;S5:输出文本信息。本发明通过将处理后的图像输入设计的迭代矫正网络,通过同一个矫正网络迭代地矫正图像,再通过GTC识别网络获取识别结果,达到世界先进的识别效果,且相对基于Attention的方法有很大的速度提升。

Description

一种基于注意力机制的图神经网络集装箱文本识别方法
技术领域
本发明涉及深度学习领域,更具体地,涉及一种基于注意力机制的图神经网络集装箱文本识别方法。
背景技术
集装箱自动识别系统在海关物流监控、港口集装箱管理、运输行业集装箱管理等方面有着广泛的应用,一个识别准确率高的集装箱识别系统是十分有必要的。
传统的字符识别(OCR光学字符识别)技术历经多年的发展已经相对成熟,但它只是针对背景单一、分辨率及对比度较高的扫描型文档进行识别,在对集装箱场景中的文字进行识别时因为摄像头所捕捉的集装箱场景文本图像中存在不均匀的光照、模糊等复杂问题时总是不能取得令人满意的效果,而且人工录入数据也是一份十分庞大耗时耗力的工作。近些年来,随着深度学习的不断发展,研究人员可以转向自动特征提取的深度学习模型,并从更深入的研究开始。最重要的是,深度学习使研究人员摆脱了设计和测试手工制作功能的繁琐工作,并且深度学习方法对集装箱场景下的文本有着较高的识别率。
公开日为2019年03月29日,公开号为CN109543667A的中国专利公开了一种基于注意力机制的文本识别方法,基于空间注意力的网络SAN是一个端到端的文本识别模型,文本识别模型包括带有局部神经网络、残差神经网络和坐标信息的特征提取器以及基于注意力机制的空间解码器。文本识别模型基于编码解码结构,所以文本识别模型也可以理解为编码器和解码器。编码器是用于对输入的图像进行编码,得到解码器可以识别的编码特征序列。解码器用于解码编码器的编码特征,从而实现识别图像中的文本。该专利在处理集装箱场景文本图像中准确率不足。
CTC(Connectionist Temporal Classification)和Attention是序列识别模型中主要使用的两种技术。基于CTC的方法由于采用了并行的解码方式,速度较快,但是CTC损失函数的机制不利于特征对齐和特征表示。基于Attention的方法则可以得到更好的对齐和特征表示,但是由于其非并行的解码方式,这类方法速度较慢。对于以上问题,本方法采用通过Attention指导CTC模型的训练,并通过GCN建模特征序列的局部联系的结合。此外,针对集装箱场景的不规则文本,本方法利用矫正网络以及识别网络进行端到端的训练,通过识别网络的识别精度反向传播梯度指导矫正网络将非规则矫正成规则文本然后送入识别网络正确识别,从而解决非规则文本的识别问题。
发明内容
本发明提供一种基于注意力机制的图神经网络集装箱文本识别方法,能够以较高的正确率对原始图像中的文本进行识别。
为解决上述技术问题,本发明的技术方案如下:
一种基于注意力机制的图神经网络集装箱文本识别方法,包括以下步骤:
S1:获取包括原始集装箱场景的图像;
S2:对所述原始集装箱场景的图像进行预处理,获取图像中的文本部分图像;
S3:对图像中的文本部分图像进行特征提取;
S4:将提取的特征送入预训练好的GTC识别网络,识别出文本信息;
S5:输出文本信息。
优选地,步骤S2后还对图像中的文本部分图像输入至迭代矫正网络中进行图像矫正。
优选地,所述对图像中的文本部分图像输入至迭代矫正网络中进行图像矫正,具体为:
通过定位网络学习一个K阶多项式来表示待矫正图像的文本中心线;
将所述文本中心线分为L段,学习每一段的切线方程的两个参数以及rl,所述rl表示场景中文本行的中线两侧的线段长度,得到L个线段;
对得到的L个线段重复进行多项式拟合以及TPS变换,将文本按照变换后的L个线段排列,将不规则的文本转变为规则的文本。
优选地,所述K阶多项式具体为:
以图像中心设置为原点并标准化文本部分图像中每个像素的x-y坐标,使用K阶多项式来建模场景中文本线的中线,如下所示:
y=aK*xK+aK-1*xK-1+L+a1*x+a0
其中,aK、aK-1、…、a1均为系数。
优选地,所述L个线段通过以下方式建模:
y=b1,l*x+b0,l|rl,l=1,2,L,L
其中,b1,l、b0,l均为系数。
优选地,所述重复进行多项式拟合以及TPS变换,具体为:
将图像输入至定位网络中进行多项式拟合,定位网络的输出与该图像加在一起进行TPS变换,TPS变换的输出再输入至定位网络中进行多项式拟合,重复以上步骤。
优选地,步骤S3对图像中的文本部分图像进行特征提取,具体为:
采用ResNet50作为主干网络,图像中的文本部分图像输入至主干网络后得到特征。
优选地,所述采用ResNet50作为主干网络,将ResNet50中原始的残差块中步长为2的卷积改为步长为1,并添加了两个最大池化层做下采样。
优选地,步骤S4中的GTC识别网络,具体为:
采用了Attention解码器,通过循环神经网络,由主干网络ResNet的输出得到长度为T的目标序列;
在BiLSTM前加入了一个GCN层形成GCN+CTC解码器,并在GCN层中,结合相似度邻接矩阵和距离矩阵来描述空间上下文的关联。
优选地,在GCN+CTC解码器中,h1~hT为主干网络ResNet提取的特征,邻接矩阵AS计算两两特征之间的相似度如下,其中ci为hi的线性变换:
AS(i,j)=f(ci,cj)
Figure BDA0002937268860000031
距离矩阵AD为GCN关注相邻特征的相似度,距离矩阵AD的定义如下:
Figure BDA0002937268860000032
其中,dij=|i-j|,β是比例因子;
整个GCN+CTC的过程可由如下数学公式描述:
X=(AS*AD)HWg
其中H是向下的采样率,Wg是可选的权重矩阵,然后将X传递给BiLSTM进行序列建模:
logits=Seq(X)Wc
其中,Wc是用于分类的权重矩阵,Seq是BiLSTM,隐藏大小为512。
其中,Wc是用于分类的权重矩阵,Seq是BiLSTM,隐藏大小为512。
与现有技术相比,本发明技术方案的有益效果是:
本发明通过将处理后的图像输入设计的迭代矫正网络,通过同一个矫正网络迭代地矫正图像,再通过GTC识别网络获取识别结果,达到世界先进的识别效果,且相对基于Attention的方法有很大的速度提升。
附图说明
图1为本发明的方法流程示意图。
图2为本发明的迭代矫正网络内部流程图。
图3为迭代矫正网络中基于多项式拟合中心线获取ControlPoints的主要过程。
图4为识别网络所使用的GTC方法的整体结构。
图5为实施例中针对处理的集装箱场景图像。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提供一种基于注意力机制的图神经网络集装箱文本识别方法,如图1,包括以下步骤:
S1:获取包括原始集装箱场景的图像,如图5;
S2:对所述原始集装箱场景的图像进行预处理,获取图像中的文本部分图像;
S3:对图像中的文本部分图像进行特征提取;
S4:将提取的特征送入预训练好的GTC识别网络,识别出文本信息;
S5:输出文本信息。
步骤S2后还对图像中的文本部分图像输入至迭代矫正网络中进行图像矫正。
所述对图像中的文本部分图像输入至迭代矫正网络中进行图像矫正,具体为:
通过定位网络学习一个K阶多项式来表示待矫正图像的文本中心线;
将所述文本中心线分为L段,学习每一段的切线方程的两个参数以及rl,所述rl表示场景中文本行的中线两侧的线段长度,得到L个线段;
对得到的L个线段重复进行多项式拟合以及TPS变换,将文本按照变换后的L个线段排列,将不规则的文本转变为规则的文本。
所述K阶多项式具体为:
以图像中心设置为原点并标准化文本部分图像中每个像素的x-y坐标,使用K阶多项式来建模场景中文本线的中线,如下所示:
y=aK*xK+aK-1*xK-1+L+a1*x+a0
其中,aK、aK-1、…、a1均为系数。
所述L个线段通过以下方式建模:
y=b1,l*x+b0,l|rl,l=1,2,L,L
其中,b1,l、b0,l均为系数。
所述重复进行多项式拟合以及TPS变换,如图2和图3,具体为:
将图像输入至定位网络中进行多项式拟合,定位网络的输出与该图像加在一起进行TPS变换,TPS变换的输出再输入至定位网络中进行多项式拟合,重复以上步骤。图2中T表示薄板样条曲线变换(TPS),P1,P2,...表示由定位网络预测的变换参数,Iter表示整流迭代次数,N是预定迭代次数。所提出的整流网络通过采用定位网络和图像卷积来迭代回归估计拟合线参数,表1给出了定位网络(Localizationnetwork)的详细结构,定位网络的训练不需要任何额外的拟合线注释,而是完全由从识别网络反向传播的梯度驱动。基本原理是,当更好地估计和纠正场景文本失真时,通常可以实现更高的识别性能。一旦估计了拟合线参数,就可以确定L个线段{tj|j=1,...,2L}的两个端点的坐标。在对图片变形时,ASTER学习到TPS变换后仅做一次变换,本算法循环TPS变换N次。表1中“卷积”是指卷积层,包括其内核大小,输出通道,步幅和填充。所有“剩余块”的步幅都设置为1。“最大池”和“平均池”的配置表示其内核大小,步幅和填充。总的向下采样率W:1/4,H:1/16。
表1:
Layers Out Size Configurations
Block1 16×50 3×3conv,32,2×2pool
Block2 8×25 3×3conv,64,2×2pool
Block3 4×13 3×3conv,128,2×2pool
FC1 512 -
FC2 3L+K+1 -
步骤S3对图像中的文本部分图像进行特征提取,具体为:
采用ResNet50作为主干网络,图像中的文本部分图像输入至主干网络后得到特征。
所述采用ResNet50作为主干网络,将ResNet50中原始的残差块中步长为2的卷积改为步长为1,并添加了两个最大池化层做下采样。ResNet50主干网络的结构如表2所示:
表2
Figure BDA0002937268860000061
步骤S4中的GTC识别网络,如图4,具体为:
采用了Attention解码器,通过循环神经网络,由主干网络ResNet的输出得到长度为T的目标序列;
在BiLSTM前加入了一个GCN层形成GCN+CTC解码器,并在GCN层中,结合相似度邻接矩阵和距离矩阵来描述空间上下文的关联。
在GCN+CTC解码器中,h1~hT为主干网络ResNet提取的特征,邻接矩阵AS计算两两特征之间的相似度如下,其中ci为hi的线性变换:
AS(i,j)=f(ci,cj)
Figure BDA0002937268860000071
距离矩阵AD为GCN关注相邻特征的相似度,距离矩阵AD的定义如下:
Figure BDA0002937268860000072
其中,dij=|i-j|,β是比例因子;
整个GCN+CTC的过程可由如下数学公式描述:
X=(AS*AD)HWg
其中H是向下的采样率,Wg是可选的权重矩阵,然后将X传递给BiLSTM进行序列建模:
logits=Seq(X)Wc
其中,Wc是用于分类的权重矩阵,Seq是BiLSTM,隐藏大小为512。
图4中CTC Loss仅用于更新GCN+CTC解码器部分,CE loss用于更新特征提取和Attentional Guidance部分。识别网络GTC通过attention指导CTC模型的训练,并通过GCN建模特征序列的局部联系,网络由特征提取、AttentionalGuidance和GCN+CTC解码器组成。首先,特征提取采用ResNet50作为主干网络提取输入图像的特征;AttentionalGuidance机制可以利用Attention解码器,通过循环神经网络,由主干网络RestNet的输出得到长度为T的目标序列;最后通过GCN层,经由LSTM解码出最后的识别结果并输出;迭代矫正检测网络能有效的促进识别网络的识别效率。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于注意力机制的图神经网络集装箱文本识别方法,其特征在于,包括以下步骤:
S1:获取包括原始集装箱场景的图像;
S2:对所述原始集装箱场景的图像进行预处理,获取图像中的文本部分图像;
S3:对图像中的文本部分图像进行特征提取;
S4:将提取的特征送入预训练好的GTC识别网络,识别出文本信息;
S5:输出文本信息。
2.根据权利要求1所述的基于注意力机制的图神经网络集装箱文本识别方法,其特征在于,步骤S2后还对图像中的文本部分图像输入至迭代矫正网络中进行图像矫正。
3.根据权利要求2所述的基于注意力机制的图神经网络集装箱文本识别方法,其特征在于,所述对图像中的文本部分图像输入至迭代矫正网络中进行图像矫正,具体为:
通过定位网络学习一个K阶多项式来表示待矫正图像的文本中心线;
将所述文本中心线分为L段,学习每一段的切线方程的两个参数以及rl,所述rl表示场景中文本行的中线两侧的线段长度,得到L个线段;
对得到的L个线段重复进行多项式拟合以及TPS变换,将文本按照变换后的L个线段排列,将不规则的文本转变为规则的文本。
4.根据权利要求3所述的基于注意力机制的图神经网络集装箱文本识别方法,其特征在于,所述K阶多项式具体为:
以图像中心设置为原点并标准化文本部分图像中每个像素的x-y坐标,使用K阶多项式来建模场景中文本线的中线,如下所示:
y=aK*xK+aK-1*xK-1+L+a1*x+a0
其中,aK、aK-1、…、a1均为系数。
5.根据权利要求4所述的基于注意力机制的图神经网络集装箱文本识别方法,其特征在于,所述L个线段通过以下方式建模:
y=b1,l*x+b0,l|rl,l=1,2,L,L
其中,b1,l、b0,l均为系数。
6.根据权利要求5所述的基于注意力机制的图神经网络集装箱文本识别方法,其特征在于,所述重复进行多项式拟合以及TPS变换,具体为:
将图像输入至定位网络中进行多项式拟合,定位网络的输出与该图像加在一起进行TPS变换,TPS变换的输出再输入至定位网络中进行多项式拟合,重复以上步骤。
7.根据权利要求6所述的基于注意力机制的图神经网络集装箱文本识别方法,其特征在于,步骤S3对图像中的文本部分图像进行特征提取,具体为:
采用ResNet50作为主干网络,图像中的文本部分图像输入至主干网络后得到特征。
8.根据权利要求7所述的基于注意力机制的图神经网络集装箱文本识别方法,其特征在于,所述采用ResNet50作为主干网络,将ResNet50中原始的残差块中步长为2的卷积改为步长为1,并添加了两个最大池化层做下采样。
9.根据权利要求8所述的基于注意力机制的图神经网络集装箱文本识别方法,其特征在于,步骤S4中的GTC识别网络,具体为:
采用了Attention解码器,通过循环神经网络,由主干网络ResNet的输出得到长度为T的目标序列;
在BiLSTM前加入了一个GCN层形成GCN+CTC解码器,并在GCN层中,结合相似度邻接矩阵和距离矩阵来描述空间上下文的关联。
10.根据权利要求9所述的基于注意力机制的图神经网络集装箱文本识别方法,其特征在于,在GCN+CTC解码器中,h1~hT为主干网络ResNet提取的特征,邻接矩阵AS计算两两特征之间的相似度如下,其中ci为hi的线性变换:
AS(i,j)=f(ci,cj)
Figure FDA0002937268850000021
距离矩阵AD为GCN关注相邻特征的相似度,距离矩阵AD的定义如下:
Figure FDA0002937268850000022
其中,dij=|i-j|,β是比例因子;
整个GCN+CTC的过程可由如下数学公式描述:
X=(AS*AD)HWg
其中H是向下的采样率,Wg是可选的权重矩阵,然后将X传递给BiLSTM进行序列建模:
logits=Seq(X)Wc
其中,Wc是用于分类的权重矩阵,Seq是BiLSTM,隐藏大小为512。
CN202110163054.XA 2021-02-05 2021-02-05 一种基于注意力机制的图神经网络集装箱文本识别方法 Pending CN112801095A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110163054.XA CN112801095A (zh) 2021-02-05 2021-02-05 一种基于注意力机制的图神经网络集装箱文本识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110163054.XA CN112801095A (zh) 2021-02-05 2021-02-05 一种基于注意力机制的图神经网络集装箱文本识别方法

Publications (1)

Publication Number Publication Date
CN112801095A true CN112801095A (zh) 2021-05-14

Family

ID=75814527

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110163054.XA Pending CN112801095A (zh) 2021-02-05 2021-02-05 一种基于注意力机制的图神经网络集装箱文本识别方法

Country Status (1)

Country Link
CN (1) CN112801095A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113887535A (zh) * 2021-12-03 2022-01-04 北京世纪好未来教育科技有限公司 模型训练方法、文本识别方法、装置、设备和介质
CN116243716A (zh) * 2023-05-08 2023-06-09 中铁第四勘察设计院集团有限公司 一种融合机器视觉的集装箱智能举升控制方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543184A (zh) * 2018-11-20 2019-03-29 中国石油大学(华东) 一种基于深度学习的集装箱文本识别方法
CN109543681A (zh) * 2018-11-20 2019-03-29 中国石油大学(华东) 一种基于注意力机制的自然场景下文字识别方法
CN110738262A (zh) * 2019-10-16 2020-01-31 北京市商汤科技开发有限公司 文本识别方法和相关产品
CN111325203A (zh) * 2020-01-21 2020-06-23 福州大学 一种基于图像校正的美式车牌识别方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543184A (zh) * 2018-11-20 2019-03-29 中国石油大学(华东) 一种基于深度学习的集装箱文本识别方法
CN109543681A (zh) * 2018-11-20 2019-03-29 中国石油大学(华东) 一种基于注意力机制的自然场景下文字识别方法
CN110738262A (zh) * 2019-10-16 2020-01-31 北京市商汤科技开发有限公司 文本识别方法和相关产品
CN111325203A (zh) * 2020-01-21 2020-06-23 福州大学 一种基于图像校正的美式车牌识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵高照 等: ""基于矫正网络的场景文本识别应用与研究"", 智能计算机与应用, vol. 10, no. 12, 31 December 2020 (2020-12-31), pages 80 - 85 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113887535A (zh) * 2021-12-03 2022-01-04 北京世纪好未来教育科技有限公司 模型训练方法、文本识别方法、装置、设备和介质
CN116243716A (zh) * 2023-05-08 2023-06-09 中铁第四勘察设计院集团有限公司 一种融合机器视觉的集装箱智能举升控制方法及系统

Similar Documents

Publication Publication Date Title
CN108596024B (zh) 一种基于人脸结构信息的肖像生成方法
CN113343707B (zh) 一种基于鲁棒性表征学习的场景文本识别方法
CN108376244B (zh) 一种自然场景图片中的文本字体的识别方法
CN113627266B (zh) 基于Transformer时空建模的视频行人重识别方法
CN110322495A (zh) 一种基于弱监督深度学习的场景文本分割方法
CN110570481A (zh) 基于风格迁移的书法字库自动修复方法及系统
CN112801095A (zh) 一种基于注意力机制的图神经网络集装箱文本识别方法
CN111161364B (zh) 一种针对单视角深度图的实时形状补全和姿态估计方法
CN113379833B (zh) 一种基于神经网络的图像可见水印的定位和分割方法
CN112580515A (zh) 一种基于高斯热图回归的轻量级人脸关键点检测方法
CN110675421B (zh) 基于少量标注框的深度图像协同分割方法
CN110570443B (zh) 一种基于结构约束条件生成模型的图像线状目标提取方法
CN111104912B (zh) 一种书法字体类型与文字内容同步识别方法
CN112836748A (zh) 一种基于crnn-ctc的铸件标识字符识别方法
CN115393396B (zh) 一种基于掩码预训练的无人机目标跟踪方法
Sui et al. FFNet-M: Feature fusion network with masks for multimodal facial expression recognition
CN111612802B (zh) 一种基于现有图像语义分割模型的再优化训练方法及应用
CN113744148A (zh) 一种碑刻书法图像去噪模型建立、去噪方法及系统
CN111401434A (zh) 一种基于无监督特征学习的图像分类方法
CN112784800B (zh) 一种基于神经网络和形状约束的人脸关键点检测方法
CN112926684B (zh) 一种基于半监督学习的文字识别方法
CN114898439B (zh) 一种基于分段策略和多头卷积注意力的视频人脸识别方法
Liu et al. Design and Implementation of Occlusion Image Recognition Algorithm Based on Deep Convolution Generative Adversarial Network
CN116128945B (zh) 一种改进的akaze图像配准方法
CN115861663B (zh) 一种基于自监督学习模型的文档图像内容比对方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination