CN109492679A - 基于注意力机制与联结时间分类损失的文字识别方法 - Google Patents
基于注意力机制与联结时间分类损失的文字识别方法 Download PDFInfo
- Publication number
- CN109492679A CN109492679A CN201811246139.9A CN201811246139A CN109492679A CN 109492679 A CN109492679 A CN 109492679A CN 201811246139 A CN201811246139 A CN 201811246139A CN 109492679 A CN109492679 A CN 109492679A
- Authority
- CN
- China
- Prior art keywords
- sample
- feature
- neural network
- label
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Abstract
本发明公开了一种基于注意力机制与联结时间分类损失的文字识别方法,包括如下步骤:S1:采集数据集;S2:对图片样本进行尺度缩放,灰度转换和像素归一化等预处理;S3:对样本的标签序列进行处理,包括填补,编码和词嵌入;S4:构建卷积神经网络,对经过S3处理后的文本图像进行特征提取;S5:使用堆叠式双向循环神经网络对S4提取的特征进行编码,得到编码特征;S6:将S5得到的编码特征输入到联结时间分类模型中计算预测概率;S7:使用注意力机制计算不同编码特征的权重,得到编码后的语义向量。
Description
技术领域
本发明属于光学字符识别领域,具体涉及一种基于注意力机制与联结主义时间分类的文字识别方法。
背景技术
随着智能化和移动终端的大力普及,自然场景图像的语义信息在自动驾驶,智能交通,视觉辅助等领域发挥越来越重要的作用。
为解决自然场景文本图像识问题,Strokelets通过对图像块聚类来获取文本中的笔画特征,利用HOG特征检测字符并结合随机森林分类器对字符进行分类。而PhotoOCR系统利用HOG特征分类器对分割得到的候选结果进行打分,再结合N元语言模型的BeamSearch算法得到候选字符集合,最后利用语言模型和形状模型对候选字符组合进行重新排序。Jaderberg M等提出的算法结合文本/非文本分类器、字符分类器和二元语言模型分类器,对图像进行密集滑动窗口扫描,并利用固定词典对图片中的单词进行分析,从而达到对文本语义分割和识别的目的。上述方法仍存在以下问题:1)识别的特征依赖人工定义,而人工定义的特征难以捕获图片的深层语义,制作耗时且通用性不高。2)基于单个字符的识别会脱离上下文环境,易导致歧义。3)文本结构复杂、语义多变,需要对字符进行分割预处理,而强行分割会破坏字符结构。4)过度依赖分类字典。分类字典的选取直接影响识别结果,导致识别模型泛化能力差。
发明内容
为解决上述问题,本发明提出了一种基于注意力机制和联结时间分类损失的端到端自然场景文本识别算法。该算法由多尺度特征提取层,长短使其记忆网络编码层,基于注意力机制和联结时间分类损失的解码层组成。输入为自然场景文本图像,输出为解码后的文本,实现了从图像到文本的端到端识别机制。在提升识别率的同时改善了神经网络在文本识别方向的适用性。
为实现上述目的,本发明的技术方案为一种基于注意力机制与联结时间分类损失的文字识别方法,包括如下步骤:
S1:采集数据集:采集各种自然场景下的文本,并将这些文本合并;将数据集划分为训练数据集,验证数据集,测试数据集三部分;先将原始的数据集打乱,然后按比例进行切分,切分比例为7:2:1;训练数据集作为优化模型参数使用,验证数据集作为模型选择使用,测试数据集作为模型最终评估使用;
将挑选的数据集记作T={(x1,y1),(x2,y2),…,(xN,yN)},其中xi表示第i张图片,yi表示第i个图片对应的标签,N表示样本的总数;
S2:对图片样本进行尺度缩放,灰度转换和像素归一化等预处理;
S3:对样本的标签序列进行处理,包括填补,编码和词嵌入;
S4:构建卷积神经网络,对经过S3处理后的文本图像进行特征提取;
S5:使用堆叠式双向循环神经网络对S4提取的特征进行编码,得到编码特征;
S6:将S5得到的编码特征输入到联结时间分类模型中计算预测概率;
S7:使用注意力机制计算不同编码特征的权重,得到编码后的语义向量。
进一步的,所述步骤S2具体包括如下步骤:
S2.1:选取B个样本作为一个批次的训练数据β,其中β={x1,x2,…,xB};B个样本可能有不同的高和宽,样本维度为
Shape={(h1,w1,3),(h2,w2,3),…,(hB,wB,3)};
将样本集β中每个样本进行等比例缩放,其中高固定为32个像素,得到新数据样本集,此时新样本的维度为
Shape={(32,w′1,3),(32,w′2,3),…,(32,w′B,3)};
获取新样本集中文本图片的最大宽度值wmax=max(w′1,w′2,…,w′B),其中max(·)表示其中元素的最大值;通过填补,镜像或者缩放等方法将新样本集中的宽度变换到最大的宽度,高固定为32,获得新的样本数据集β′,新样本集的维度为Shape={(32,wmax,3),(32,wmax,3),…,(32,wmax,3)};
S2.2:对β′中每一个样本进行灰度转换和像素归一化处理,步骤如下:
S2.2.1:对训练集T′中每张彩色图像进行灰度转换,变化公式如下:
x′gray=xr*0.299+xg*0.587+xb*0.114
其中,x为彩色图片样本,xr,xg,xb分别为样本的红色,绿色,蓝色通道的数值,xgray为变换后的灰色样本的像素值;
S2.2.2:对灰度转换后样本进行像素归一化,即将[0,255]的像素值转换到[-0.5,0.5];
其中,xgray为S3.1转换后得到的灰色图像,xnorm为像素归一化后的数值。
进一步的,所述步骤S3具体包括如下步骤:
S3.1:B个样本对应的标签为Y={y1,y2,…,yB},第i个样本对应的标签为yi={s1,s2,…,sm},m为组成第i个标签的序列的长度,sj为第j个标签的序列的第j个字符;每个标签的序列长度为len={m1,m2,…,mB};获得最大的长度值lmax=max(m1,m2,…,mB),并将所有的序列填补成相同的长度;
S3.2:对S3.1得到的标签进行编码和和词嵌入,得到词嵌入后的向量;具体步骤如下:
S3.2.1:创建编码字典,将标签中出现的字符或字符串转换为对应的数字编码;
S3.2.2:构建词嵌入模型,将编码后的标签输入到词嵌入模型中,将离散的数字映射到连续区域,最终每个标签得到固定的长度的词向量。
进一步的,所述步骤S4具体包括如下步骤:
S4.1:构建Inception V2结构的卷积神经网络提取文本特征,Inception V2的结构为1x1,3x3,5x5的卷积层和3x3的pooling层并行堆叠在一起,并在每一层前都使用上一层1x1的卷积层作为特征降维;
S4.2:每一层Inception结构后堆叠批标准化层(BN),批标准化变换公式为
其中,β为一个训练批次的样本集,表示为β={x1,x2,…,xB},i表示样本集β中的第i个样本,μβ表示样本集β的样本均值,为样本集β的样本方差,ε为防止分母等于零增加的极小数;γ和β是学习的参数;
S4.3:重复堆叠Inception和BN层,经过构建后的网络使得特征图输出维度为shape=[B,1,w,c],其中B为一个批次的样本数量,1为经过卷积网络后特征的高,w为特征图的宽度,c为特征图的通道数量。
进一步的,所述步骤S5具体包括如下步骤:
S5.1:构建循环神经网络使用堆叠式双向循环神经网络对S4.1提取的特征进行编码,得到编码特征序列;循环神经网络由三部分组成:首先是一个全连接网络层用来嵌入经过编码后的特征,然后将特征输入至LSTM(长短时期记忆网络)的双向循环神经网络,进行两层双向LSTM堆叠,具体操作步骤如下:
S5.1.1:构建第一层双向循环神经网络,双向循环神经网络为两个单向其方向相反的循环神经网络,前向网络和反向网络的结合,在每一个时刻t,网络的输出由这两个方向相反的单向循环神经网络共同决定,设置nin=512,nstep=w,nnums=256,其中nin为LSTM的双向循环神经网络的输入层神经元数目,nstep代表循环神经网络的循环次数,此处为特征图的宽度,nnums表示为LSTM隐藏层神经元的数目;
S5.1.2:构建第二层双向循环神经网络,设置nin=256,nstep=w,nnums=256,其中nin为循环神经网络的输入,此处为第一层循环神经网络的输出,nstep代表循环神经网络的循环次数,nnums表示为LSTM隐藏层神经元个数;双向循环神经网络的输出为h=[h1,h2,…,hw],即编码后的特征序列。
进一步的,所述步骤S6具体包括如下步骤:
S6.1:构建输出层的全连接网络:将LSTM的隐含层输出作为全连接的输入,设置nin=512,nout=65;nin为全连接层的输入,维度与S5提取的编码特征一致;nout为全连接的输出,与最终识别的字符个数相同;
S6.2:将S5得到的特征序列依次输入到堆叠式双向循环神经网络中,最终得到的输出特征向量为O=[o1,o2,…,ow],oi为第i个特征序列对应的输出,
oi=f(Whi+b)
其中,W为全连接层的网络权重,b为网络的偏置;h为S5得到的编码特征序列;W的维度为512×65,b的维度为65,o的维度65,f为ReLU函数
S6.3:构建softmax层,将O作为softmax的输入,将数值归一化到0到1之间,作为概率输出,归一化公式如下
其中,i为预测的第i个字符,o为全连接的输出,p为归一化后的概率值,y为预测输出的字符;
S6.4:构建连接时间分类损失模型,具体操作步骤如下:
S6.4.1:计算对齐概率:
其中t为解码的第t步,x为S7得到的特征序列,w为特征序列长度,p为已知特征序列x,解码出路径π的概率;y为由softmax归一化后的概率;
S6.4.2:构建多到一的映射β,将预测相同的路径合并为一条路径,如β(a-ab-)=β(-aa--abb)=aab;
S6.4.3:计算所有的路径的概率和,计算公式如下:
其中x为输入的特征序列,π为某一条路径,β为路径合并映射方法;L为输出的标签集合,p(l|x)表示为已知输入特征x,得到标签的l概率;
S6.4.5:最终输出给定输入序列下的最可能的标记输出
进一步的,所述步骤S7具体包括如下步骤:
S7.1:计算每一步解码时输入特征序列的权重,具体操做步骤如下:
S7.1.1:计算输入特征和解码特征之间的匹配分数,计算公式如下:
其中,t为解码的第t时刻,i为S5编码得到的第i个输入特征序列,h为输入的特征序列,v和W为可训练的参数;
S7.1.2:使用softmax函数对分数进行归一化,作为每个输入特征的权重,计算公式如下:
其中ait为t时刻编码网络的第i个特征向量的权重;
S7.1.3:对输入特征进行加权平均得到解码时输入的中间语义向量c,计算公式如下:
S7.2:使用堆叠式双向循环神经网络进行解码,将S7得到的预测概率,S8处理后得到的中间语义和S6处理后的词向量标签作为解码网络的输入;此时输入为:
x′t=[octc;xt;ct-1]
其中,t为解码的t时刻,xt为当前的S3得到的标签的词嵌入向量,ct-1为t-1时刻通过S7.1计算出的中间语义向量,octc为S6计算的预测概率;输出的隐含层的输出为h=[h1,h2,…,hl],其中l为标签的长度;
S7.3:将S7.2计算得到的输出的向量经过全连接层和softmax层,得到预测的输出。
本发明的有益效果是:
1、本发明使用了两层基于LSTM的双向循环神经网络,第一层LSTM可以对获取文本图像特征的双向依赖关系,为解码网络提供更加丰富的信息,第二层LSTM可以获得字符之间的依赖关系,隐式的学习了高级的语义模型。
2、本发明融合了注意力机制和连接时间分类损失,该网络在解码时使用注意力机制获得全局的特征,但连接时间分类损失可以对解码网络进行约束,使其对局部的特征分配更大的权重,更符合文本图像的特点。
附图说明
图1为本发明基于注意力机制和联结时间分类损失的自然场景文本识别的步骤流程图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,本发明的基于注意力机制与联结时间分类损失的文字识别方法,具体实施步骤如下:
S1:采集数据集。采集各种自然场景下的文本,并将这些文本合并。将数据集划分为训练数据集,验证数据集,测试数据集三部分。为保证训练集,验证集和测试集有相同的样本分布,先将原始的数据集打乱,然后按比例进行切分,切分比例为7:2:1。训练数据集作为优化模型参数使用,验证数据集作为模型选择使用,测试数据集作为模型最终评估使用。将挑选的数据集记作T={(x1,y1),(x2,y2),…,(xN,yN)},其中xi表示第i张图片,yi表示第i个图片对应的标签,N表示样本的总数。
S2:对图片样本进行尺度缩放,灰度转换和像素归一化等预处理,具体操作有:
S2.1:选取B个样本作为一个批次的训练数据β,其中β={x1,x2,…,xB}。B个样本可能有不同的高和宽,样本维度为Shape={(h1,w1,3),(h2,w2,3),…,(hB,wB,3)};
将样本集β中每个样本进行等比例缩放,其中高固定为32个像素,得到新数据样本集,此时新样本的维度为Shape={(32,w′1,3),(32,w′2,3),…,(32,w′B,3)}。获取新样本集中文本图片的最大宽度值wmax=max(w′1,w′2,…,w′B),其中max(·)表示其中元素的最大值。通过填补,镜像或者缩放等方法将新样本集中的宽度变换到最大的宽度,高固定为32,获得新的样本数据集β′,新样本集的维度为Shape={(32,wmax,3),(32,wmax,3),…,(32,wmax,3)}
S2.2:对β′中每一个样本进行灰度转换和像素归一化处理,步骤如下:
S2.2.1:对训练集T′中每张彩色图像进行灰度转换,变化公式如下:
x′gray=xr*0.299+xg*0.587+xb*0.114
其中,x为彩色图片样本,xr,xg,xb分别为样本的红色,绿色,蓝色通道的数值,xgray为变换后的灰色样本的像素值。
S2.2.2:对灰度转换后样本进行像素归一化,即将[0,255]的像素值转换到[-0.5,0.5]。
其中,xgray为S3.1转换后得到的灰色图像,xnorm为像素归一化后的数值。
S3:对样本的标签序列进行处理,包括填补,编码和词嵌入,具体操作有:
S3.1:B个样本对应的标签为Y={y1,y2,…,yB},第i个样本对应的标签为yi={s1,s2,…,sm},m为组成第i个标签的序列的长度,sj为第j个标签的序列的第j个字符。此时每个标签的序列长度为len={m1,m2,…,mB}。获得最大的长度值lmax=max(m1,m2,…,mB),并将所有的序列填补成相同的长度。
S3.2:对S3.1得到的标签进行编码和和词嵌入,得到词嵌入后的向量。具体步骤如下:
S3.2.1:创建编码字典,将标签中出现的字符或字符串转换为对应的数字编码。
S3.2.2:构建词嵌入模型,将编码后的标签输入到词嵌入模型中,将离散的数字映射到连续区域,最终每个标签得到固定的长度的词向量。
S4:构建卷积神经网络,对经过S3处理后的文本图像进行特征提取。具体操作步骤如下:
S4.1:构建Inception V2结构的卷积神经网络提取文本特征,Inception V2的结构为1x1,3x3,5x5的卷积层和3x3的pooling层并行堆叠在一起,并在每一层前都使用上一层1x1的卷积层作为特征降维。
S4.2:每一层Inception结构后堆叠批标准化层(BN),批标准化变换公式为
其中,β为一个训练批次的样本集,表示为β={x1,x2,…,xB},i表示样本集β中的第i个样本,μβ表示样本集β的样本均值,为样本集β的样本方差,ε为防止分母等于零增加的极小数。γ和β是学习的参数。
S4.3:重复堆叠Inception和BN层,经过构建后的网络使得特征图输出维度为shape=[B,1,w,c],其中B为一个批次的样本数量,1为经过卷积网络后特征的高,w为特征图的宽度,c为特征图的通道数量。
S5:使用堆叠式双向循环神经网络对S4提取的特征进行编码,得到编码特征,具体操作步骤如下:
S5.1:构建循环神经网络使用堆叠式双向循环神经网络对S4.1提取的特征进行编码,得到编码特征序列。循环神经网络由三部分组成:首先是一个全连接网络层用来嵌入经过编码后的特征,然后将特征输入至LSTM(长短时期记忆网络)的双向循环神经网络,进行两层双向LSTM堆叠,具体操作步骤如下:
S5.1.1:构建第一层双向循环神经网络,双向循环神经网络为两个单向其方向相反的循环神经网络(前向网络和反向网络)的结合,在每一个时刻t,网络的输出由这两个方向相反的单向循环神经网络共同决定,设置nin=512,nstep=w,nnums=256,其中nin为LSTM的双向循环神经网络的输入层神经元数目,nstep代表循环神经网络的循环次数,此处为特征图的宽度,nnums表示为LSTM隐藏层神经元的数目。
S5.1.2:构建第二层双向循环神经网络,设置nin=256,nstep=w,nnums=256,其中nin为循环神经网络的输入,此处为第一层循环神经网络的输出,nstep代表循环神经网络的循环次数,nnums表示为LSTM隐藏层神经元个数。双向循环神经网络的输出为h=[h1,h2,…,hw],即编码后的特征序列。
S6:将S5得到的编码特征输入到联结时间分类模型中计算预测概率。具体步骤为:
S6.1:构建输出层的全连接网络。将LSTM的隐含层输出作为全连接的输入,设置nin=512,nout=65。nin为全连接层的输入,维度与S5提取的编码特征一致。nout为全连接的输出,与最终识别的字符个数相同(52个大小写字符,10个数字,3个特殊的标识符)。
S6.2:将S5得到的特征序列依次输入到堆叠式双向循环神经网络中,最终得到的输出特征向量为O=[o1,o2,…,ow],oi为第i个特征序列对应的输出,
oi=f(Whi+b)
其中,W为全连接层的网络权重,b为网络的偏置。h为S5得到的编码特征序列。W的维度为512×65,b的维度为65,o的维度65,f为ReLU函数
S6.3:构建softmax层,将O作为softmax的输入,将数值归一化到0到1之间,作为概率输出,归一化公式如下
其中,i为预测的第i个字符,o为全连接的输出,p为归一化后的概率值,y为预测输出的字符。
S6.4:构建连接时间分类损失模型,具体操作步骤如下:
S6.4.1:计算对齐概率:
其中t为解码的第t步,x为S7得到的特征序列,w为特征序列长度,p为已知特征序列x,解码出路径π的概率。y为由softmax归一化后的概率。
S6.4.2:构建多到一的映射β,将预测相同的路径合并为一条路径,如β(a-ab-)=β(-aa--abb)=aab
S6.4.3:计算所有的路径的概率和,计算公式如下:
其中x为输入的特征序列,π为某一条路径,β为路径合并映射方法。L为输出的标签集合,p(l|x)表示为已知输入特征x,得到标签的l概率
S6.4.5:最终输出给定输入序列下的最可能的标记输出
S7:使用注意力机制计算不同编码特征的权重,得到编码后的语义向量。具体操作步骤如下:
S7.1:计算每一步解码时输入特征序列的权重,具体操做步骤如下:
S7.1.1:计算输入特征和解码特征之间的匹配分数,计算公式如下:
其中,t为解码的第t时刻,i为S5编码得到的第i个输入特征序列,h为输入的特征序列,v和W为可训练的参数。
S7.1.2:使用softmax函数对分数进行归一化,作为每个输入特征的权重,计算公式如下:
其中ait为t时刻编码网络的第i个特征向量的权重。
S7.1.3:对输入特征进行加权平均得到解码时输入的中间语义向量c,计算公式如下:
S7.2:使用堆叠式双向循环神经网络进行解码,将S7得到的预测概率,S8处理后得到的中间语义和S6处理后的词向量标签作为解码网络的输入。此时输入为:
x′t=[octc;xt;ct-1]
其中,t为解码的t时刻,xt为当前的S3得到的标签的词嵌入向量,ct-1为t-1时刻通过S7.1计算出的中间语义向量,octc为S6计算的预测概率。输出的隐含层的输出为h=[h1,h2,…,hl],其中l为标签的长度。
S7.3:将S7.2计算得到的输出的向量经过全连接层和softmax层,得到预测的输出。
Claims (7)
1.基于注意力机制与联结时间分类损失的文字识别方法,包括如下步骤:
S1:采集数据集:采集各种自然场景下的文本,并将这些文本合并;将数据集划分为训练数据集,验证数据集,测试数据集三部分;先将原始的数据集打乱,然后按比例进行切分,切分比例为7:2:1;训练数据集作为优化模型参数使用,验证数据集作为模型选择使用,测试数据集作为模型最终评估使用;
将挑选的数据集记作T={(x1,y1),(x2,y2),…,(xN,yN)},其中xi表示第i张图片,yi表示第i个图片对应的标签,N表示样本的总数;
S2:对图片样本进行尺度缩放,灰度转换和像素归一化等预处理;
S3:对样本的标签序列进行处理,包括填补,编码和词嵌入;
S4:构建卷积神经网络,对经过S3处理后的文本图像进行特征提取;
S5:使用堆叠式双向循环神经网络对S4提取的特征进行编码,得到编码特征;
S6:将S5得到的编码特征输入到联结时间分类模型中计算预测概率;
S7:使用注意力机制计算不同编码特征的权重,得到编码后的语义向量。
2.如权利要求1所述的基于注意力机制与联结时间分类损失的文字识别方法,其特征在于:所述步骤S2具体包括如下步骤:
S2.1:选取B个样本作为一个批次的训练数据β,其中β={x1,x2,…,xB};B个样本可能有不同的高和宽,样本维度为Shape={(h1,w1,3),(h2,w2,3),…,(hB,wB,3)};
将样本集β中每个样本进行等比例缩放,其中高固定为32个像素,得到新数据样本集,此时新样本的维度为
Shape={(32,w′1,3),(32,w′2,3),…,(32,w′B,3)};
获取新样本集中文本图片的最大宽度值wmax=max(w′1,w′2,…,w′B),其中max(·)表示其中元素的最大值;通过填补,镜像或者缩放等方法将新样本集中的宽度变换到最大的宽度,高固定为32,获得新的样本数据集β′,新样本集的维度为Shape={(32,wmax,3),(32,wmax,3),…,(32,wmax,3)};
S2.2:对β′中每一个样本进行灰度转换和像素归一化处理,步骤如下:
S2.2.1:对训练集T′中每张彩色图像进行灰度转换,变化公式如下:
x′gray=xr*0.299+xg*0.587+xb*0.114
其中,x为彩色图片样本,xr,xg,xb分别为样本的红色,绿色,蓝色通道的数值,xgray为变换后的灰色样本的像素值;
S2.2.2:对灰度转换后样本进行像素归一化,即将[0,255]的像素值转换到[-0.5,0.5];
其中,xgray为S3.1转换后得到的灰色图像,xnorm为像素归一化后的数值。
3.如权利要求1所述的基于注意力机制与联结时间分类损失的文字识别方法,其特征在于:所述步骤S3具体包括如下步骤:
S3.1:B个样本对应的标签为Y={y1,y2,…,yB},第i个样本对应的标签为yi={s1,s2,…,sm},m为组成第i个标签的序列的长度,sj为第j个标签的序列的第j个字符;每个标签的序列长度为len={m1,m2,…,mB};获得最大的长度值lmax=max(m1,m2,…,mB),并将所有的序列填补成相同的长度;
S3.2:对S3.1得到的标签进行编码和和词嵌入,得到词嵌入后的向量;具体步骤如下:
S3.2.1:创建编码字典,将标签中出现的字符或字符串转换为对应的数字编码;
S3.2.2:构建词嵌入模型,将编码后的标签输入到词嵌入模型中,将离散的数字映射到连续区域,最终每个标签得到固定的长度的词向量。
4.如权利要求1所述的基于注意力机制与联结时间分类损失的文字识别方法,其特征在于:所述步骤S4具体包括如下步骤:
S4.1:构建Inception V2结构的卷积神经网络提取文本特征,Inception V2的结构为1x1,3x3,5x5的卷积层和3x3的pooling层并行堆叠在一起,并在每一层前都使用上一层1x1的卷积层作为特征降维;
S4.2:每一层Inception结构后堆叠批标准化层(BN),批标准化变换公式为
其中,β为一个训练批次的样本集,表示为β={x1,x2,…,xB},i表示样本集β中的第i个样本,μβ表示样本集β的样本均值,为样本集β的样本方差,ε为防止分母等于零增加的极小数;γ和β是学习的参数;
S4.3:重复堆叠Inception和BN层,经过构建后的网络使得特征图输出维度为shape=[B,1,w,c],其中B为一个批次的样本数量,1为经过卷积网络后特征的高,w为特征图的宽度,c为特征图的通道数量。
5.如权利要求1所述的基于注意力机制与联结时间分类损失的文字识别方法,其特征在于:所述步骤S5具体包括如下步骤:
S5.1:构建循环神经网络使用堆叠式双向循环神经网络对S4.1提取的特征进行编码,得到编码特征序列;循环神经网络由三部分组成:首先是一个全连接网络层用来嵌入经过编码后的特征,然后将特征输入至LSTM(长短时期记忆网络)的双向循环神经网络,进行两层双向LSTM堆叠,具体操作步骤如下:
S5.1.1:构建第一层双向循环神经网络,双向循环神经网络为两个单向其方向相反的循环神经网络,前向网络和反向网络的结合,在每一个时刻t,网络的输出由这两个方向相反的单向循环神经网络共同决定,设置nin=512,nstep=w,nnums=256,其中nin为LSTM的双向循环神经网络的输入层神经元数目,nstep代表循环神经网络的循环次数,此处为特征图的宽度,nnums表示为LSTM隐藏层神经元的数目;
S5.1.2:构建第二层双向循环神经网络,设置nin=256,nstep=w,nnums=256,其中nin为循环神经网络的输入,此处为第一层循环神经网络的输出,nstep代表循环神经网络的循环次数,nnums表示为LSTM隐藏层神经元个数;双向循环神经网络的输出为h=[h1,h2,…,hw],即编码后的特征序列。
6.如权利要求1所述的基于注意力机制与联结时间分类损失的文字识别方法,其特征在于:所述步骤S6具体包括如下步骤:
S6.1:构建输出层的全连接网络:将LSTM的隐含层输出作为全连接的输入,设置nin=512,nout=65;nin为全连接层的输入,维度与S5提取的编码特征一致;nout为全连接的输出,与最终识别的字符个数相同;
S6.2:将S5得到的特征序列依次输入到堆叠式双向循环神经网络中,最终得到的输出特征向量为O=[o1,o2,…,ow],oi为第i个特征序列对应的输出,
oi=f(Whi+b)
其中,W为全连接层的网络权重,b为网络的偏置;h为S5得到的编码特征序列;W的维度为512×65,b的维度为65,o的维度65,f为ReLU函数
S6.3:构建softmax层,将O作为softmax的输入,将数值归一化到0到1之间,作为概率输出,归一化公式如下
其中,i为预测的第i个字符,o为全连接的输出,p为归一化后的概率值,y为预测输出的字符;
S6.4:构建连接时间分类损失模型,具体操作步骤如下:
S6.4.1:计算对齐概率:
其中t为解码的第t步,x为S7得到的特征序列,w为特征序列长度,p为已知特征序列x,解码出路径π的概率;y为由softmax归一化后的概率;
S6.4.2:构建多到一的映射β,将预测相同的路径合并为一条路径,如β(a-ab-)=β(-aa--abb)=aab;
S6.4.3:计算所有的路径的概率和,计算公式如下:
其中x为输入的特征序列,π为某一条路径,β为路径合并映射方法;L为输出的标签集合,p(l|x)表示为已知输入特征x,得到标签的l概率;
S6.4.5:最终输出给定输入序列下的最可能的标记输出
7.如权利要求1所述的基于注意力机制与联结时间分类损失的文字识别方法,其特征在于:所述步骤S7具体包括如下步骤:
S7.1:计算每一步解码时输入特征序列的权重,具体操做步骤如下:
S7.1.1:计算输入特征和解码特征之间的匹配分数,计算公式如下:
其中,t为解码的第t时刻,i为S5编码得到的第i个输入特征序列,h为输入的特征序列,v和W为可训练的参数;
S7.1.2:使用softmax函数对分数进行归一化,作为每个输入特征的权重,计算公式如下:
其中ait为t时刻编码网络的第i个特征向量的权重;
S7.1.3:对输入特征进行加权平均得到解码时输入的中间语义向量c,计算公式如下:
S7.2:使用堆叠式双向循环神经网络进行解码,将S7得到的预测概率,S8处理后得到的中间语义和S6处理后的词向量标签作为解码网络的输入;此时输入为:
x′t=[octc;xt;ct-1]
其中,t为解码的t时刻,xt为当前的S3得到的标签的词嵌入向量,ct-1为t-1时刻通过S7.1计算出的中间语义向量,octc为S6计算的预测概率;输出的隐含层的输出为h=[h1,h2,…,hl],其中l为标签的长度;
S7.3:将S7.2计算得到的输出的向量经过全连接层和softmax层,得到预测的输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811246139.9A CN109492679A (zh) | 2018-10-24 | 2018-10-24 | 基于注意力机制与联结时间分类损失的文字识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811246139.9A CN109492679A (zh) | 2018-10-24 | 2018-10-24 | 基于注意力机制与联结时间分类损失的文字识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109492679A true CN109492679A (zh) | 2019-03-19 |
Family
ID=65691540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811246139.9A Pending CN109492679A (zh) | 2018-10-24 | 2018-10-24 | 基于注意力机制与联结时间分类损失的文字识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109492679A (zh) |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948615A (zh) * | 2019-03-26 | 2019-06-28 | 中国科学技术大学 | 多语言文本检测识别系统 |
CN109977861A (zh) * | 2019-03-25 | 2019-07-05 | 中国科学技术大学 | 离线手写体数学公式识别方法 |
CN109977950A (zh) * | 2019-03-22 | 2019-07-05 | 上海电力学院 | 一种基于混合cnn-lstm网络的文字识别方法 |
CN109993164A (zh) * | 2019-03-20 | 2019-07-09 | 上海电力学院 | 一种基于rcrnn神经网络的自然场景文字识别方法 |
CN110070042A (zh) * | 2019-04-23 | 2019-07-30 | 北京字节跳动网络技术有限公司 | 文字识别方法、装置和电子设备 |
CN110070085A (zh) * | 2019-04-30 | 2019-07-30 | 北京百度网讯科技有限公司 | 车牌识别方法和装置 |
CN110084172A (zh) * | 2019-04-23 | 2019-08-02 | 北京字节跳动网络技术有限公司 | 文字识别方法、装置和电子设备 |
CN110083692A (zh) * | 2019-04-22 | 2019-08-02 | 齐鲁工业大学 | 一种金融知识问答的文本交互匹配方法及装置 |
CN110097019A (zh) * | 2019-05-10 | 2019-08-06 | 腾讯科技(深圳)有限公司 | 字符识别方法、装置、计算机设备以及存储介质 |
CN110097049A (zh) * | 2019-04-03 | 2019-08-06 | 中国科学院计算技术研究所 | 一种自然场景文本检测方法及系统 |
CN110135427A (zh) * | 2019-04-11 | 2019-08-16 | 北京百度网讯科技有限公司 | 用于识别图像中的字符的方法、装置、设备和介质 |
CN110188669A (zh) * | 2019-05-29 | 2019-08-30 | 华南理工大学 | 一种基于注意力机制的空中手写字符轨迹恢复方法 |
CN110222693A (zh) * | 2019-06-03 | 2019-09-10 | 第四范式(北京)技术有限公司 | 构建字符识别模型与识别字符的方法和装置 |
CN110276351A (zh) * | 2019-06-28 | 2019-09-24 | 中国科学技术大学 | 多语言场景文本检测与识别方法 |
CN110334741A (zh) * | 2019-06-06 | 2019-10-15 | 西安电子科技大学 | 基于循环神经网络的雷达一维距离像识别方法 |
CN110414498A (zh) * | 2019-06-14 | 2019-11-05 | 华南理工大学 | 一种基于交叉注意力机制的自然场景文本识别方法 |
CN110543560A (zh) * | 2019-08-08 | 2019-12-06 | 厦门市美亚柏科信息股份有限公司 | 基于卷积神经网络的长文本分类识别方法、装置及介质 |
CN110889385A (zh) * | 2019-12-02 | 2020-03-17 | 山东浪潮人工智能研究院有限公司 | 一种基于局部邻近注意力的手写文本识别方法 |
CN111126454A (zh) * | 2019-12-05 | 2020-05-08 | 东软集团股份有限公司 | 图像处理方法、装置、存储介质及电子设备 |
CN111160343A (zh) * | 2019-12-31 | 2020-05-15 | 华南理工大学 | 一种基于Self-Attention的离线数学公式符号识别方法 |
CN111222325A (zh) * | 2019-12-30 | 2020-06-02 | 北京富通东方科技有限公司 | 一种双向栈式循环神经网络的医疗语义标注方法和系统 |
CN111539410A (zh) * | 2020-04-16 | 2020-08-14 | 深圳市商汤科技有限公司 | 字符识别方法及装置、电子设备和存储介质 |
CN111553467A (zh) * | 2020-04-30 | 2020-08-18 | 陈永聪 | 一种实现通用人工智能的方法 |
CN111553350A (zh) * | 2020-04-26 | 2020-08-18 | 佛山市南海区广工大数控装备协同创新研究院 | 一种基于深度学习的注意力机制文本识别方法 |
CN111596292A (zh) * | 2020-04-02 | 2020-08-28 | 杭州电子科技大学 | 基于重要性网络和双向堆叠循环神经网络的雷达目标识别方法 |
CN111783960A (zh) * | 2020-07-09 | 2020-10-16 | 中国人民解放军国防科技大学 | 基于自动编码器和双向lstm的船舶轨迹预测方法及系统 |
CN112036290A (zh) * | 2020-08-27 | 2020-12-04 | 哈尔滨工业大学(深圳) | 一种基于类标编码表示的复杂场景文字识别方法及系统 |
CN112052889A (zh) * | 2020-08-28 | 2020-12-08 | 西安电子科技大学 | 基于双门控递归单元解码的喉镜图像识别方法 |
WO2021000362A1 (zh) * | 2019-07-04 | 2021-01-07 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
CN112365207A (zh) * | 2020-11-10 | 2021-02-12 | 上海汽车集团股份有限公司 | 一种装箱方法、装置及计算机可读存储介质 |
WO2021098689A1 (zh) * | 2019-11-20 | 2021-05-27 | 中国科学院深圳先进技术研究院 | 自然场景的文本识别方法、存储装置和计算机设备 |
CN113095314A (zh) * | 2021-04-07 | 2021-07-09 | 科大讯飞股份有限公司 | 一种公式识别方法、装置、存储介质及设备 |
CN113538030A (zh) * | 2020-10-21 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 一种内容推送方法、装置及计算机存储介质 |
CN113705713A (zh) * | 2021-09-03 | 2021-11-26 | 华南理工大学 | 一种基于全局和局部注意力机制的文本识别方法 |
CN113762050A (zh) * | 2021-05-12 | 2021-12-07 | 腾讯云计算(北京)有限责任公司 | 图像数据处理方法、装置、设备以及介质 |
CN114613004A (zh) * | 2022-02-28 | 2022-06-10 | 电子科技大学 | 一种人体动作的轻量化在线检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108121824A (zh) * | 2018-01-12 | 2018-06-05 | 北京融快线科技有限公司 | 一种面向金融服务的聊天机器人及系统 |
CN108305634A (zh) * | 2018-01-09 | 2018-07-20 | 深圳市腾讯计算机系统有限公司 | 解码方法、解码器及存储介质 |
CN108399419A (zh) * | 2018-01-25 | 2018-08-14 | 华南理工大学 | 基于二维递归网络的自然场景图像中中文文本识别方法 |
CN108491836A (zh) * | 2018-01-25 | 2018-09-04 | 华南理工大学 | 一种自然场景图像中中文文本整体识别方法 |
CN108509881A (zh) * | 2018-03-22 | 2018-09-07 | 五邑大学 | 一种无切分的脱机手写汉字文本识别方法 |
CN108647603A (zh) * | 2018-04-28 | 2018-10-12 | 清华大学 | 基于注意力机制的半监督连续手语翻译方法及装置 |
-
2018
- 2018-10-24 CN CN201811246139.9A patent/CN109492679A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108305634A (zh) * | 2018-01-09 | 2018-07-20 | 深圳市腾讯计算机系统有限公司 | 解码方法、解码器及存储介质 |
CN108121824A (zh) * | 2018-01-12 | 2018-06-05 | 北京融快线科技有限公司 | 一种面向金融服务的聊天机器人及系统 |
CN108399419A (zh) * | 2018-01-25 | 2018-08-14 | 华南理工大学 | 基于二维递归网络的自然场景图像中中文文本识别方法 |
CN108491836A (zh) * | 2018-01-25 | 2018-09-04 | 华南理工大学 | 一种自然场景图像中中文文本整体识别方法 |
CN108509881A (zh) * | 2018-03-22 | 2018-09-07 | 五邑大学 | 一种无切分的脱机手写汉字文本识别方法 |
CN108647603A (zh) * | 2018-04-28 | 2018-10-12 | 清华大学 | 基于注意力机制的半监督连续手语翻译方法及装置 |
Non-Patent Citations (3)
Title |
---|
BAOGUANG SHI等: ""An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition"", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
SERGEY IOFFE等: ""Batch Normalization Accelerating Deep Network Training by Reducing Internal Covariate Shift"", 《ARXIV》 * |
SUYOUN KIM等: ""Joint CTC-attention based end-to-end speech recognition using multi-task learning"", 《ICASSP》 * |
Cited By (56)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109993164A (zh) * | 2019-03-20 | 2019-07-09 | 上海电力学院 | 一种基于rcrnn神经网络的自然场景文字识别方法 |
CN109977950A (zh) * | 2019-03-22 | 2019-07-05 | 上海电力学院 | 一种基于混合cnn-lstm网络的文字识别方法 |
CN109977861A (zh) * | 2019-03-25 | 2019-07-05 | 中国科学技术大学 | 离线手写体数学公式识别方法 |
CN109948615B (zh) * | 2019-03-26 | 2021-01-26 | 中国科学技术大学 | 多语言文本检测识别系统 |
CN109948615A (zh) * | 2019-03-26 | 2019-06-28 | 中国科学技术大学 | 多语言文本检测识别系统 |
CN110097049A (zh) * | 2019-04-03 | 2019-08-06 | 中国科学院计算技术研究所 | 一种自然场景文本检测方法及系统 |
CN110135427A (zh) * | 2019-04-11 | 2019-08-16 | 北京百度网讯科技有限公司 | 用于识别图像中的字符的方法、装置、设备和介质 |
CN110135427B (zh) * | 2019-04-11 | 2021-07-27 | 北京百度网讯科技有限公司 | 用于识别图像中的字符的方法、装置、设备和介质 |
CN110083692A (zh) * | 2019-04-22 | 2019-08-02 | 齐鲁工业大学 | 一种金融知识问答的文本交互匹配方法及装置 |
CN110083692B (zh) * | 2019-04-22 | 2023-01-24 | 齐鲁工业大学 | 一种金融知识问答的文本交互匹配方法及装置 |
CN110084172B (zh) * | 2019-04-23 | 2022-07-29 | 北京字节跳动网络技术有限公司 | 文字识别方法、装置和电子设备 |
CN110084172A (zh) * | 2019-04-23 | 2019-08-02 | 北京字节跳动网络技术有限公司 | 文字识别方法、装置和电子设备 |
CN110070042A (zh) * | 2019-04-23 | 2019-07-30 | 北京字节跳动网络技术有限公司 | 文字识别方法、装置和电子设备 |
CN110070085B (zh) * | 2019-04-30 | 2021-11-02 | 北京百度网讯科技有限公司 | 车牌识别方法和装置 |
CN110070085A (zh) * | 2019-04-30 | 2019-07-30 | 北京百度网讯科技有限公司 | 车牌识别方法和装置 |
CN110097019B (zh) * | 2019-05-10 | 2023-01-10 | 腾讯科技(深圳)有限公司 | 字符识别方法、装置、计算机设备以及存储介质 |
CN110097019A (zh) * | 2019-05-10 | 2019-08-06 | 腾讯科技(深圳)有限公司 | 字符识别方法、装置、计算机设备以及存储介质 |
WO2020228519A1 (zh) * | 2019-05-10 | 2020-11-19 | 腾讯科技(深圳)有限公司 | 字符识别方法、装置、计算机设备以及存储介质 |
CN110188669A (zh) * | 2019-05-29 | 2019-08-30 | 华南理工大学 | 一种基于注意力机制的空中手写字符轨迹恢复方法 |
CN110188669B (zh) * | 2019-05-29 | 2021-01-19 | 华南理工大学 | 一种基于注意力机制的空中手写字符轨迹恢复方法 |
CN110222693B (zh) * | 2019-06-03 | 2022-03-08 | 第四范式(北京)技术有限公司 | 构建字符识别模型与识别字符的方法和装置 |
CN110222693A (zh) * | 2019-06-03 | 2019-09-10 | 第四范式(北京)技术有限公司 | 构建字符识别模型与识别字符的方法和装置 |
CN110334741A (zh) * | 2019-06-06 | 2019-10-15 | 西安电子科技大学 | 基于循环神经网络的雷达一维距离像识别方法 |
CN110414498A (zh) * | 2019-06-14 | 2019-11-05 | 华南理工大学 | 一种基于交叉注意力机制的自然场景文本识别方法 |
CN110276351B (zh) * | 2019-06-28 | 2022-09-06 | 中国科学技术大学 | 多语言场景文本检测与识别方法 |
CN110276351A (zh) * | 2019-06-28 | 2019-09-24 | 中国科学技术大学 | 多语言场景文本检测与识别方法 |
WO2021000362A1 (zh) * | 2019-07-04 | 2021-01-07 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
US11941522B2 (en) | 2019-07-04 | 2024-03-26 | Zhejiang University | Address information feature extraction method based on deep neural network model |
CN110543560A (zh) * | 2019-08-08 | 2019-12-06 | 厦门市美亚柏科信息股份有限公司 | 基于卷积神经网络的长文本分类识别方法、装置及介质 |
WO2021098689A1 (zh) * | 2019-11-20 | 2021-05-27 | 中国科学院深圳先进技术研究院 | 自然场景的文本识别方法、存储装置和计算机设备 |
CN110889385A (zh) * | 2019-12-02 | 2020-03-17 | 山东浪潮人工智能研究院有限公司 | 一种基于局部邻近注意力的手写文本识别方法 |
CN111126454A (zh) * | 2019-12-05 | 2020-05-08 | 东软集团股份有限公司 | 图像处理方法、装置、存储介质及电子设备 |
CN111126454B (zh) * | 2019-12-05 | 2024-03-26 | 东软集团股份有限公司 | 图像处理方法、装置、存储介质及电子设备 |
CN111222325A (zh) * | 2019-12-30 | 2020-06-02 | 北京富通东方科技有限公司 | 一种双向栈式循环神经网络的医疗语义标注方法和系统 |
CN111160343A (zh) * | 2019-12-31 | 2020-05-15 | 华南理工大学 | 一种基于Self-Attention的离线数学公式符号识别方法 |
CN111160343B (zh) * | 2019-12-31 | 2023-03-28 | 华南理工大学 | 一种基于Self-Attention的离线数学公式符号识别方法 |
CN111596292B (zh) * | 2020-04-02 | 2023-08-25 | 杭州电子科技大学 | 基于重要性网络和双向堆叠循环神经网络的雷达目标识别方法 |
CN111596292A (zh) * | 2020-04-02 | 2020-08-28 | 杭州电子科技大学 | 基于重要性网络和双向堆叠循环神经网络的雷达目标识别方法 |
CN111539410A (zh) * | 2020-04-16 | 2020-08-14 | 深圳市商汤科技有限公司 | 字符识别方法及装置、电子设备和存储介质 |
CN111553350B (zh) * | 2020-04-26 | 2023-11-24 | 佛山市南海区广工大数控装备协同创新研究院 | 一种基于深度学习的注意力机制文本识别方法 |
CN111553350A (zh) * | 2020-04-26 | 2020-08-18 | 佛山市南海区广工大数控装备协同创新研究院 | 一种基于深度学习的注意力机制文本识别方法 |
CN111553467A (zh) * | 2020-04-30 | 2020-08-18 | 陈永聪 | 一种实现通用人工智能的方法 |
CN111783960A (zh) * | 2020-07-09 | 2020-10-16 | 中国人民解放军国防科技大学 | 基于自动编码器和双向lstm的船舶轨迹预测方法及系统 |
CN112036290A (zh) * | 2020-08-27 | 2020-12-04 | 哈尔滨工业大学(深圳) | 一种基于类标编码表示的复杂场景文字识别方法及系统 |
CN112036290B (zh) * | 2020-08-27 | 2023-11-03 | 哈尔滨工业大学(深圳) | 一种基于类标编码表示的复杂场景文字识别方法及系统 |
CN112052889A (zh) * | 2020-08-28 | 2020-12-08 | 西安电子科技大学 | 基于双门控递归单元解码的喉镜图像识别方法 |
CN112052889B (zh) * | 2020-08-28 | 2023-05-05 | 西安电子科技大学 | 基于双门控递归单元解码的喉镜图像识别方法 |
CN113538030B (zh) * | 2020-10-21 | 2024-03-26 | 腾讯科技(深圳)有限公司 | 一种内容推送方法、装置及计算机存储介质 |
CN113538030A (zh) * | 2020-10-21 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 一种内容推送方法、装置及计算机存储介质 |
CN112365207A (zh) * | 2020-11-10 | 2021-02-12 | 上海汽车集团股份有限公司 | 一种装箱方法、装置及计算机可读存储介质 |
CN113095314A (zh) * | 2021-04-07 | 2021-07-09 | 科大讯飞股份有限公司 | 一种公式识别方法、装置、存储介质及设备 |
CN113762050A (zh) * | 2021-05-12 | 2021-12-07 | 腾讯云计算(北京)有限责任公司 | 图像数据处理方法、装置、设备以及介质 |
CN113705713B (zh) * | 2021-09-03 | 2023-08-22 | 华南理工大学 | 一种基于全局和局部注意力机制的文本识别方法 |
CN113705713A (zh) * | 2021-09-03 | 2021-11-26 | 华南理工大学 | 一种基于全局和局部注意力机制的文本识别方法 |
CN114613004B (zh) * | 2022-02-28 | 2023-08-01 | 电子科技大学 | 一种人体动作的轻量化在线检测方法 |
CN114613004A (zh) * | 2022-02-28 | 2022-06-10 | 电子科技大学 | 一种人体动作的轻量化在线检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492679A (zh) | 基于注意力机制与联结时间分类损失的文字识别方法 | |
CN109165306B (zh) | 基于多任务哈希学习的图像检索方法 | |
CN109524006B (zh) | 一种基于深度学习的汉语普通话唇语识别方法 | |
CN110414498B (zh) | 一种基于交叉注意力机制的自然场景文本识别方法 | |
CN111783705A (zh) | 一种基于注意力机制的文字识别方法及系统 | |
CN112560831B (zh) | 一种基于多尺度空间校正的行人属性识别方法 | |
CN109165563B (zh) | 行人再识别方法和装置、电子设备、存储介质、程序产品 | |
CN111898736B (zh) | 基于属性感知的高效行人重识别方法 | |
KR101777601B1 (ko) | 초서체 또는 흘림체로 작성된 문자의 판별 방법 및 시스템 | |
Sun et al. | Robust text detection in natural scene images by generalized color-enhanced contrasting extremal region and neural networks | |
CN112307883B (zh) | 训练方法、装置、电子设备以及计算机可读存储介质 | |
CN110188827B (zh) | 一种基于卷积神经网络和递归自动编码器模型的场景识别方法 | |
CN107403153A (zh) | 一种基于卷积神经网络和哈希编码的掌纹图像识别方法 | |
CN112507800A (zh) | 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法 | |
CN114387641A (zh) | 基于多尺度卷积网络和ViT的虚假视频检测方法及系统 | |
CN111259785A (zh) | 基于时间偏移残差网络的唇语识别方法 | |
CN109858351B (zh) | 一种基于层级实时记忆的步态识别方法 | |
CN114613004A (zh) | 一种人体动作的轻量化在线检测方法 | |
CN117392578A (zh) | 基于两阶段时空注意力的动作检测方法及系统 | |
KR101066343B1 (ko) | 상호 정보 최대화 기반의 국부 이진 패턴 코드를 이용한 패턴 인식 방법, 장치 및 그 기록 매체 | |
CN112446432B (zh) | 基于量子自学习自训练网络的手写体图片分类方法 | |
CN113887504B (zh) | 强泛化性的遥感图像目标识别方法 | |
CN113254575B (zh) | 一种基于多步证据推理的机器阅读理解方法与系统 | |
CN114581920A (zh) | 一种双分支多层次特征解码的分子图像识别方法 | |
CN112990210A (zh) | 一种基于二维空间注意力的车牌识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190319 |
|
RJ01 | Rejection of invention patent application after publication |