CN110659641B - 一种文字识别的方法、装置及电子设备 - Google Patents

一种文字识别的方法、装置及电子设备 Download PDF

Info

Publication number
CN110659641B
CN110659641B CN201810691282.2A CN201810691282A CN110659641B CN 110659641 B CN110659641 B CN 110659641B CN 201810691282 A CN201810691282 A CN 201810691282A CN 110659641 B CN110659641 B CN 110659641B
Authority
CN
China
Prior art keywords
space
time
sequence
picture
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810691282.2A
Other languages
English (en)
Other versions
CN110659641A (zh
Inventor
程战战
钮毅
罗兵华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN201810691282.2A priority Critical patent/CN110659641B/zh
Publication of CN110659641A publication Critical patent/CN110659641A/zh
Application granted granted Critical
Publication of CN110659641B publication Critical patent/CN110659641B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种文字识别的方法、装置及电子设备,所述方法包括:从目标文字图片中提取特征图;对所述特征图进行滑窗处理,得到时空特征序列;将所述时空特征序列输入到预先训练的时空注意力模型,以由所述时空注意力模型对所述时空特征序列编码处理得到时空语义编码,并对所述时空语义编码解码输出识别出的所述目标文字图片中的文字信息。本申请技术方案,可以基于目标文字图片的两个维度的信息识别目标文字图片包含的文字信息,有效提高了识别率。

Description

一种文字识别的方法、装置及电子设备
技术领域
本申请涉及图像处理领域,特别涉及一种文字识别的方法、装置及电子设备。
背景技术
在自然场景下,文字识别的识别率会因为受到自然场景的复杂性影响而下降。比如,场景中与文字相似的纹理会对文字识别造成干扰,导致识别错误。随着深度学习技术发展迅速,注意力模型(Attention Model)被应用于文字识别后,改进了自然场景下的文字识别效果。
在相关技术中,通过卷积神经网络(Convolutional Neural Network)对文字图片(该文字图片可以是监控指定场景而获得的视频帧)提取时间特征序列,然后利用时序注意力模型对上述时间特征序列解码,从而识别出文字图片中的文字。
然后,相关技术在对文字图片提取时间特征序列的过程中,丢失了部分文字图片的特征信息,使得后续识别文字的识别结果仍然不够理想。
发明内容
有鉴于此,本申请提供一种文字识别的方法、装置及电子设备,用以充分提取文字图片的特征信息,从而准确地实现文字识别,提高识别率。
具体地,本申请是通过如下技术方案实现的:
一种文字识别的方法,包括:
从目标文字图片中提取特征图;
对所述特征图进行滑窗处理,得到时空特征序列;
将所述时空特征序列输入到预先训练的时空注意力模型,以由所述时空注意力模型对所述时空特征序列编码处理得到时空语义编码,并对所述时空语义编码解码输出识别出的所述目标文字图片中的文字信息。
在所述文字识别的方法中,所述对所述特征图进行滑窗处理,得到时空特征序列,包括:
将预设的滑窗置于所述特征图的一端,分割出该滑窗所在位置的局部特征图;
基于预设的步长移动该滑窗,并分割出移动后的该滑窗所在位置的局部特征图;
重复这个过程,直到所述滑窗移动至所述特征图的另一端,获取到的多个局部特征图为时空特征序列。
在所述文字识别的方法中,所述时空注意力模型输出的文字信息为图片序列,所述图片序列指示所述目标文字图片中的文字信息;所述方法还包括:
将所述图片序列输入到预设的全连接层,以由所述全连接层对所述图片序列进行分类,并输出字符形式的文字信息。
在所述文字识别的方法中,所述对所述时空特征序列编码处理得到时空语义编码,并对所述时空语义编码解码输出识别出的所述目标文字图片中的文字信息,包括:
计算获得所述时空特征序列的权值因子;
基于所述权值因子和所述时空特征序列,计算得到所述时空语义编码;
基于所述时空特征序列和所述时空语义编码,利用循环神经网络计算得到若干循环神经网络的状态单元的隐变量;
基于所述状态单元的隐变量,计算得到所述目标文字图片中的文字信息,并输出所述目标文字图片中的文字信息;其中,所述文字信息为图片序列,所述图片序列指示所述目标文字图片中的文字信息。
在所述文字识别的方法中,所述计算获得所述时空特征序列的权值因子,包括:
基于前一时刻所述时空注意力模型的状态单元的隐变量和所述时空特征序列,计算所述时空特征序列确定当前时刻的时空语义编码时所述时空特征序列中各时空特征对应的权值因子;其中,各时空特征对应的权值因子与该时空特征的维度相同。
在所述文字识别的方法中,所述基于所述权值因子和所述时空特征序列,计算得到所述时空语义编码,包括:
将所述时空特征序列中各时空特征与该时空特征对应的权值因子相乘,并累加各乘积,得到所述时空语义编码。
在所述文字识别的方法中,所述时空注意力模型的神经网络不包含全连接层。
在所述文字识别的方法中,所述时空注意力模型输出的文字信息为图片序列,所述图片序列指示所述目标文字图片中的文字信息;
所述时空注意力模型通过如下步骤训练得到:
搭建基于神经网络的时空注意力模型;其中,所述神经网络包括卷积神经网络和循环神经网络;
获取训练样本,所述训练样本包括文字图片的时空特征序列和指示所述文字图片包含的文字信息的图片序列;
将所述时空特征序列输入所述神经网络,以由所述神经网络输出图片序列,根据所述神经网络输出的图片序列和所述训练样本中的图片序列之间的差异,对所述神经网络的网络参数进行训练;
对所述神经网络经过一定数量的训练样本的训练后,得到训练好的时空注意力模型。
一种文字识别的装置,包括:
提取单元,用于从目标文字图片中提取特征图;
拆分单元,用于对所述特征图进行滑窗处理,得到时空特征序列;
识别单元,用于将所述时空特征序列输入到预先训练的时空注意力模型,以由所述时空注意力模型对所述时空特征序列编码处理得到时空语义编码,并对所述时空语义编码解码输出识别出的所述目标文字图片中的文字信息。
在所述文字识别的装置中,所述拆分单元,进一步用于:
将预设的滑窗置于所述特征图的一端,分割出该滑窗所在位置的局部特征图;
基于预设的步长移动该滑窗,并分割出移动后的该滑窗所在位置的局部特征图;
重复这个过程,直到所述滑窗移动至所述特征图的另一端,获取到的多个局部特征图为时空特征序列。
在所述文字识别的装置中,所述时空注意力模型输出的文字信息为图片序列,所述图片序列指示所述目标文字图片中的文字信息;所述识别单元,进一步用于:
将所述图片序列输入到预设的全连接层,以由所述全连接层对所述图片序列进行分类,并输出字符形式的文字信息。
在所述文字识别的装置中,所述识别单元,进一步用于:
计算获得所述时空特征序列的权值因子;
基于所述权值因子和所述时空特征序列,计算得到所述时空语义编码;
基于所述时空特征序列和所述时空语义编码,利用循环神经网络计算得到若干循环神经网络的状态单元的隐变量;
基于所述状态单元的隐变量,计算得到所述目标文字图片中的文字信息,并输出所述目标文字图片中的文字信息;其中,所述文字信息为图片序列,所述图片序列指示所述目标文字图片中的文字信息。
在所述文字识别的装置中,所述识别单元,进一步用于:
基于前一时刻所述时空注意力模型的状态单元的隐变量和所述时空特征序列,计算所述时空特征序列确定当前时刻的时空语义编码时所述时空特征序列中各时空特征对应的权值因子;其中,各时空特征对应的权值因子与该时空特征的维度相同。
在所述文字识别的装置中,所述识别单元,进一步用于:
将所述时空特征序列中各时空特征与该时空特征对应的权值因子相乘,并累加各乘积,得到所述时空语义编码。
在所述文字识别的装置中,所述时空注意力模型的神经网络不包含全连接层。
在所述文字识别的装置中,所述时空注意力模型输出的文字信息为图片序列,所述图片序列指示所述目标文字图片中的文字信息;
所述装置还包括训练单元,用于:
搭建基于神经网络的时空注意力模型;其中,所述神经网络包括卷积神经网络和循环神经网络;
获取训练样本,所述训练样本包括文字图片的时空特征序列和指示所述文字图片包含的文字信息的图片序列;
将所述时空特征序列输入所述神经网络,以由所述神经网络输出图片序列,根据所述神经网络输出的图片序列和所述训练样本中的图片序列之间的差异,对所述神经网络的网络参数进行训练;
对所述神经网络经过一定数量的训练样本的训练后,得到训练好的时空注意力模型。
一种电子设备,所述电子设备搭载了处理器,以及,用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为:
从目标文字图片中提取特征图;
对所述特征图进行滑窗处理,得到时空特征序列;
将所述时空特征序列输入到预先训练的时空注意力模型,以由所述时空注意力模型对所述时空特征序列编码处理得到时空语义编码,并对所述时空语义编码解码输出识别出的所述目标文字图片中的文字信息。
在本申请技术方案中,从目标文字图片中提取特征图,并利用滑窗拆分上述特征图后,可以获得上述目标文字图片的时空特征序列;其中,上述时空特征序列包括上述目标文字图片的两个维度的信息(时间维度和空间维度);然后将上述时空特征序列输入到预先训练的时空注意力模型,以由时空注意力模型对上述时空特征序列编码处理得到时空语义编码,并对上述时空语义编码解码输出图片序列;
由于时空注意力模型可以基于上述目标文字图片的两个维度的信息对上述时空特征序列进行识别,从而准确地提高了文字识别的识别率。
附图说明
图1是本申请示出的一种文字识别的方法的流程示意图;
图2是本申请示出的一种注意力模型的结构示意图;
图3是本申请示出的一种文字识别的方法的流程图;
图4是本申请示出的一种滑窗处理的示意图;
图5是本申请示出的一种计算注意力模型的权值因子的示意图;
图6是本申请示出的一种计算时空语义编码的示意图;
图7是本申请示出的一种计算状态单元的隐变量的示意图;
图8是本申请示出的一种计算目标信息的示意图;
图9是本申请示出的另一种文字识别的方法的流程示意图;
图10是本申请示出的一种文字识别的装置的实施例框图;
图11是本申请示出的一种电子设备的硬件结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对相关技术方案和本发明实施例中的技术方案作进一步详细的说明。
在相关技术中,为实现文字识别,通常在提取文字图片的包含若干个规格相同的向量的特征序列后,对上述特征序列进行聚焦,得到特征向量,然后利用长短记忆网络(Long Short-Term Memory NetWorks,LSTMs)对特征向量进行识别,输出字符串。
然而,相关技术在文字图片中提取到的实际上是一维的时间特征序列,忽略了文字图片中的空间结构信息(比如笔画信息)。而在自然场景下,待识别的文字图片可能包含大量的干扰信息,仅仅依据文字图片的部分特征进行文字识别,识别结果不够理想,识别率较低。
有鉴于此,本申请提出了一种新的文字识别的方法,在获得目标文字图片的两个维度的特征序列后,基于已训练的时空注意力模型对上述特征序列进行识别,从而获得目标文字图片包含的文字信息;相比相关技术,提高了文字识别的识别率。
参见图1,为本申请示出的一种文字识别的方法的流程示意图,如图1所示,由于提取了包括空间结构信息在内的两个维度的特征序列,在解码识别后,可以输出保留目标文字图片中文字的空间结构信息的图片序列(结果1),通过该图片序列指示上述目标文字图片中的文字信息,从而解码输出了识别出的上述目标文字图片中的文字信息。
这就意味着,即使目标文字图片中的干扰信息较多,使得后续无法获得理想的识别结果,由于直接输出了保留目标文字图片中文字的空间结构信息的图片序列,使得用户可以主观地依据上述空间结构信息对文字信息进行二次识别,从而提升了文字识别的识别结果的可用性。
本申请主要包括时空注意力模型的训练过程和时空注意力模型的应用过程。下面首先介绍训练过程。
第一步,搭建基于神经网络的时空注意力模型。其中,上述神经网络包括卷积神经网络和循环神经网络。
卷积神经网络通常包括卷积层、池化层和全连接层。卷积层用于对输入的特征图进行计算,获取新的特征图;池化层用于降低特征图的维度,避免卷积神经网络过拟合。
作为一种实施例,本申请的时空注意力模型的神经网络可以不包含全连接层,以此降低利用时空注意力模型识别文字的过程中对硬件的要求,提高硬件的运行速度。
第二步,获取训练样本,上述训练样本包括文字图片的时空特征序列和指示上述文字图片包含的文字信息的图片序列。该样本上还标记该文字图片包含的文字信息。
第三步,将上述时空特征序列输入到上述神经网络,以由上述神经网络输出图片序列,然后根据上述神经网络输出的图片序列和上述训练样本中的图片序列之间的差异,对上述神经网络的网络参数进行训练。
比如:若文字图片包含的文字信息为“SCHOOL”,则训练样本中的图片序列可以包括分别指示“S”、“C”、“H”、“O”、“O”和“L”的六张图片。然后分别计算神经网络输出的图片序列中各图片与上述图片序列的各图片的每一像素点的指定参数之差,确定差异;其中,上述指定参数可以是图片格式的任一分量的值(比如:如果图片为YUV格式,指定参数可以是Y分量的值)。
需要指出的是,上述网络参数包括时空注意力模型的参数和卷积计算过程中涉及的相关参数。通过梯度反向传播,修改上述网络参数,使得输出的图片序列和训练样本中的图片序列之间的差异最小。
重复执行上述第二步和第三步,在对上述神经网络经过一定数量的样本的训练后,得到训练好的时空注意力模型。
参见图2,为本申请示出的一种时空注意力模型的结构图,如图2所示,该时空注意力模型的最底部h1、h2、h3……hT表示输入的时空特征;αt,1、αt,2、αt,3……αt,T,以及αt+1,1、αt+1,2、αt+1,3……αt+1,T表示时空特征序列的权值因子;gt、gt+1表示时空特征的时空语义编码;St-1、St、St+1表示时空注意力模型的循环神经网络的状态单元的隐变量;yt-1、yt、yt+1表示该时空注意力模型的输出的目标信息,在本申请中,即为指示文字信息的图片序列。
下面介绍上述时空注意力模型的应用过程。参见图3,为本申请示出的一种文字识别的方法的流程图,该方法包括以下步骤:
步骤301:从目标文字图片中提取特征图。
其中,上述方法可以应用于涉及文字识别的电子设备,比如,十字路口的监控设备,当然,也可以是监控系统的后台服务器。
具体地,可以将上述目标文字图片输入到预设的卷积神经网络,以由该卷积神经网络对上述目标文字图片进行卷积计算后,输出特征图(feature map)。其中,特征图的通道数由上述卷积神经网络的最后一个卷积层的卷积核的数量而定,最后一个卷积层的每一卷积核可计算出一个通道的特征图。
步骤302:对所述特征图进行滑窗处理,得到时空特征序列。
其中,上述滑窗的规格适配于卷积神经网络提取得到的上述特征图。比如,如果上述特征图的尺寸大小为A×B,其中,A为上述特征图的纵向上划分的像素点的数量,B为上述特征图的横向上划分的像素点的数量;则滑窗的尺寸大小可为A×A,表示滑窗在纵向和横向上占用的像素点均为A。
具体地,可以利用滑窗和预设的步长依次拆分上述特征图,从而得的拆分后的若干局部特征图,其中,步长指滑窗每次移动的距离,比如,若步长为2,则表示滑窗在横向每次移动两个像素点的距离。
参见图4,为本申请示出的一种滑窗处理的示意图。
如图4所示,将滑窗置于特征图的一端,然后分割出滑窗所在位置的局部特征图。接着,基于上述步长移动滑窗,然后分割出移动后的滑窗所在位置的局部特征图。重复这个过程,直到滑窗移动至特征图的另一端。
在滑窗处理以后,获得多个局部特征图,由于各二维的局部特征图保留了目标文字图片中文字的空间结构信息,因此,上述局部特征图包含空间特征。
此外,由于利用提取到的多个特征参数进行文字识别时,多个特征参数具有确定的时序,换而言之,通过长短记忆网络进行文字识别的多个特征参数本身即包含时间特征。其中,特征参数在相关技术中为特征向量,在本申请技术方案中为局部特征图。
因此,上述局部特征图即为包含时间特征和空间特征的时空特征。拆分出的每帧局部特征图的大小为A×A。当然,由于上述特征图包括多个通道,因此,拆分出的每帧局部特征图也包括多个通道。需要注意的是,后续利用时空注意力模型识别时空特征序列时,每帧局部特征图可以只用一个通道的数据。
以Z表示步长,则最终得到的局部特征图的数量为:(B-A)/Z+1。
需要指出的是,利用滑窗和预设的步长拆分特征图时,可能最终剩下多余的部分无法被滑窗覆盖。比如:如果特征图的尺寸大小为2×7,滑窗的尺寸大小为2×3,步长为3。则滑窗滑动一次后,横向剩余1个像素点的长度无法被覆盖。
在这种情况下,需为特征图添加填充值,使得滑窗能够基于步长滑动最后一次以后,覆盖剩余的部分。比如:如果特征图的尺寸大小为2×7,滑窗的尺寸大小为2×3,步长为3,则可以在该特征图横向两端分别添加一列像素点,使得该特征图的尺寸大小变为2×9。在这种情况下,滑窗可以滑动两次,将特征图的全部内容拆分出局部特征图。其中,添加的像素点的值可以置零。
为避免拆分出的第一个局部特征图和最后一个局部特征图中添加填充值,可以将上述预设的步长设为适配于上述特征图。
比如:假设上述特征图的尺寸大小为8×20,上述滑窗的尺寸大小为8×8,则上述步长可以是1、2、3、4或6。
步骤303:将所述时空特征序列输入到预先训练的时空注意力模型,以由所述时空注意力模型对所述时空特征序列编码处理得到时空语义编码,并对所述时空语义编码解码输出识别出的所述目标文字图片中的文字信息。
在示出的一种实施方式中,将上述时空特征序列输入到上述时空注意力模型后,可以首先基于训练得到的网络参数计算上述时空特征序列的权值因子。上述权值因子可以由以下公式得到:
εt,k=w*tanh(W*St-1+V*Hk+b) (1)
Figure BDA0001712561160000101
其中,公式(1)当中的w、W、V和b为已训练的时空注意力模型的参数。St-1表示第t-1时刻循环神经网络的状态单元的隐变量,Hk表示输入时空注意力模型的时空特征,εt,k表示计算出的时空特征序列确定第t时刻的时空语义编码时该时空特征序列中第k个时空特征对应的权值因子。公式(2)表示的权值因子的归一化处理过程,αt,k表示归一化处理后的权值因子。
由上述公式可见,基于前一时刻(t-1时刻)上述时空注意力模型的状态单元的隐变量和上述时空特征序列,从而计算上述时空特征序列确定当前时刻(t时刻)的时空语义编码时上述时空特征序列中各时空特征对应的权值因子。
参见图5,为本申请示出的一种计算注意力模型的权值因子的示意图,其中,虚线表示计算过程。
如图5所示,以计算时空特征H1求取第t时刻的时空语义编码gt的权值因子εt,1为例,需将时空特征H1和时空注意力模型第t-1时刻的状态单元的隐变量St-1代入上述公式(1)计算。
同理,在计算其它时空特征求取第t时刻的时空语义编码gt的权值因子时,需分别将每一时空特征和时空注意力模型第t-1时刻的状态单元的隐变量St-1代入上述公式(1)计算。
计算完成后,得到总计T个时空特征求取第t时刻的时空语义编码gt的权值因子εt,1、εt,2、εt,3……εt,T
需要指出的是,由于时空特征为保留了空间特征的二维的局部特征图,权值因子也是二维的,换而言之,各时空特征对应的权值因子与该时空特征的维度相同。比如:若用于计算的时空特征为8×8的矩阵,则权值因子也是一个8×8的矩阵。
在计算获得各时空特征求取第t时刻的时空语义编码gt的权值因子后,可以利用上述公式(2)对各权值因子进行归一化处理。
以对时空特征H1求取第t时刻的时空语义编码gt的权值因子εt,1进行归一化处理为例,归一化处理后的权值因子为:
Figure BDA0001712561160000111
归一化后的权值因子仍为一个二维的矩阵,矩阵中的各元素为0到1之间的值。
计算出用于求取第t时刻的时空语义编码gt的权值因子后,可以进一步求取时空语义编码gt和时空注意力模型第t时刻的状态单元的隐变量St。具体详见下文相关描述。
在计算获得第t时刻的状态单元的隐变量St后,可进一步计算各时空特征求取第t+1时刻的时空语义编码gt+1的权值因子。
需要指出的是,在计算各时空特征求取第1个时空语义编码g1的权值因子时,S0可以为0。
在计算得到权值因子后,进一步地,可以基于上述权值因子和上述时空特征序列,计算得到上述时空特征序列的时空语义编码。上述时空语义编码可以由以下公式(3)得到:
Figure BDA0001712561160000121
由上述公式(3)可知,将上述时空特征序列中各时空特征与该时空特征对应的权值因子相乘,并累加各乘积,从而得到上述时空语义编码,时空语义编码实际为上述权值因子和上述时空特征序列的线性加权和。
参见图6,为本申请示出的一种计算使用语义编码的示意图,其中,虚线表示计算过程。
如图6所示,在计算第t个时空语义编码gt时,可以将各时空特征H1、H2、H3……HT分别乘以该时空特征求取该时空语义编码的权值因子αt,1、αt,2、αt,3……αt,T,然后累加各乘积结果。
对于目标值有N个的时空特征序列,需计算出N个时空语义编码。时空注意力模型可自主确定需计算的时空语义编码的个数。
在获得时空语义编码后,实现了对上述时空特征的特征信息的有效提取。后续可以对上是时空语义编码进行解码处理,并解码输出目标信息。
对时空语义编码的解码过程包括:
首先,基于上述时空特征序列和计算出的上述时空语义编码,利用循环神经网络计算得到若干循环神经网络的状态单元的隐变量。其中,上述循环神经网络的状态单元可以是卷积长短时记忆模型(Convolutional Long Short-Term Memory,ConvLSTM)。上述状态单元的计算过程可由以下公式(4)表示,在此不再赘述:
st=ConvLSTM(yt-1,gt,st-1) (4)
参见图7,为本申请示出的一种计算状态单元的隐变量的示意图,其中,虚线表示计算过程。
如图7所示,计算获得第t时刻的时空语义编码gt后,可以将该时空注意力模型输出的第t-1个目标信息yt-1、第t时刻的时空语义编码gt和第t-1时刻状态单元的隐变量St-1输入至作为状态单元的卷积长短时记忆模型,通过卷积长短时记忆模型计算得到第t时刻的状态单元的隐变量St
需要指出的是,时空注意力模型中的循环神经网络的状态单元,可视为神经网络的记忆细胞。各时刻的状态单元的隐变量即为记忆细胞当前时刻的记忆,任一状态单元的隐变量都是由此前神经网络的记忆(前一状态单元的隐变量和目标信息)和当前时刻的新学到的内容(当前时刻的时空语义编码)结合得到。通过上述机制,可使得各状态单元输出的隐变量和基于隐变量计算的目标信息更准确。
进一步地,基于上述若干循环神经网络的状态单元的隐变量,计算得到上述目标文字图片中的文字信息,并输出上述目标文字图片中的文字信息。具体计算过程可由以下公式(5)表示:
yt~Generate(U*st) (5)
其中,U可表示预设的卷积层,通过对第t时刻的状态单元的隐变量St的卷积计算,可以获得第t个目标信息。
参见图8,为本申请示出的一种计算目标信息的示意图,其中,虚线表示计算过程。
如图8所示,在计算获得第t时刻的状态单元的隐变量St之后,对该隐变量进行卷积计算,获得第t个目标信息yt
需要指出的是,本申请为降低时运行空注意力模型对硬件的性能要求,可以取消时空注意力模型中神经网络的全连接层(比如:LSTM当中包含全连接层,而ConvLSTM当中不包含全连接层,以ConvLSTM替代LSTM可取消循环神经网络的状态单元中的全连接层),在这情况下,识别完成后的文字信息为指示文字信息的图片序列。
在获得上述指示文字信息的图片序列后,可以直接输出上述图片序列,以示出上述目标文字图片包含的文字信息。如图1所示的结果1,由于图片序列可以保留目标文字图片中文字的空间结构信息,可以使得用户更清楚地确定目标文字图片中包含的文字信息。
在示出的一种实施方式中,在获得上述指示文字信息的图片序列后,也可以对上述图片序列做进一步的处理,从而得到字符形式的文字信息。参见图9,为本申请示出的另一种文字识别的方法的流程示意图,如图9所示,在上述时空注意力模型之外,需预设一个全连接层。
获得上述图片序列后,可以将上述图片序列输出到上述全连接层,以由该全连接层对上述图片序列进行分类,并输出字符形式的文字信息。在这种情况下,由于整套方案只在最后一步用到一个全连接层,对硬件的运行速度不会造成很大的影响。
综上所述,在本申请技术方案中,从目标文字图片中提取特征图,并利用滑窗拆分上述特征图后,可以获得上述目标文字图片的时空特征序列;其中,上述时空特征序列包括上述目标文字图片的两个维度的信息(时间维度和空间维度);然后将上述时空特征序列输入到预先训练的时空注意力模型,以由时空注意力模型对上述时空特征序列编码处理得到时空语义编码,并对上述时空语义编码解码输出识别出的上述目标文字图片中的文字信息;
由于时空注意力模型可以基于上述目标文字图片的两个维度的信息对上述时空特征序列进行识别,从而准确地提高了文字识别的识别率;
此外,本申请输出的文字信息可以是指示文字信息的图片序列,因此,当目标文字图片中客观存在的干扰信息过多时,直接输出图片序列可使得用户可以主观地依据上述空间结构信息对文字信息进行二次识别,从而提升了文字识别的识别结果的可用性;
此外,本申请中,注意力模型可以不包括全连接层,计算过程都由卷积层完成,可以充分捕获图像中的空间结构信息,也降低了对硬件的要求,提高硬件的运行速度。
与前述文字识别的方法的实施例相对应,本申请还提供了文字识别的装置的实施例。
参见图10,为本申请示出的一种文字识别的装置的实施例框图:
如图10所示,该文字识别的装置10包括:
提取单元110,用于从目标文字图片中提取特征图。
拆分单元120,用于对所述特征图进行滑窗处理,得到时空特征序列。
识别单元130,用于将所述时空特征序列输入到预先训练的时空注意力模型,以由所述时空注意力模型对所述时空特征序列编码处理得到时空语义编码,并对所述时空语义编码解码输出识别出的所述目标文字图片中的文字信息。
在本例中,所述拆分单元120,进一步用于:
将预设的滑窗置于所述特征图的一端,分割出该滑窗所在位置的局部特征图;
基于预设的步长移动该滑窗,并分割出移动后的该滑窗所在位置的局部特征图;
重复这个过程,直到所述滑窗移动至所述特征图的另一端,获取到的多个局部特征图为时空特征序列。
在本例中,所述时空注意力模型输出的文字信息为图片序列,所述图片序列指示所述目标文字图片中的文字信息;
所述识别单元130,进一步用于:
将所述图片序列输入到预设的全连接层,以由所述全连接层对所述图片序列进行分类,并输出字符形式的文字信息。
在本例中,所述识别单元130,进一步用于:
计算获得所述时空特征序列的权值因子;
基于所述权值因子和所述时空特征序列,计算得到所述时空语义编码;
基于所述时空特征序列和所述时空语义编码,利用循环神经网络计算得到若干循环神经网络的状态单元的隐变量;
基于所述状态单元的隐变量,计算得到所述目标文字图片中的文字信息,并输出所述目标文字图片中的文字信息;其中,所述文字信息为图片序列,所述图片序列指示所述目标文字图片中的文字信息。
在本例中,所述识别单元130,进一步用于:
基于前一时刻所述时空注意力模型的状态单元的隐变量和所述时空特征序列,计算所述时空特征序列确定当前时刻的时空语义编码时所述时空特征序列中各时空特征对应的权值因子;其中,各时空特征对应的权值因子与该时空特征的维度相同。
在本例中,所述识别单元130,进一步用于:
将所述时空特征序列中各时空特征与该时空特征对应的权值因子相乘,并累加各乘积,得到所述时空语义编码。
在本例中,所述时空注意力模型的神经网络不包含全连接层。
在本例中,所述时空注意力模型输出的文字信息为图片序列,所述图片序列指示所述目标文字图片中的文字信息;
所述装置还包括训练单元140(图中未示出),用于:
搭建基于神经网络的时空注意力模型;其中,所述神经网络包括卷积神经网络和循环神经网络;
获取训练样本,所述训练样本包括文字图片的时空特征序列和指示所述文字图片包含的文字信息的图片序列;
将所述时空特征序列输入所述神经网络,以由所述神经网络输出图片序列,根据所述神经网络输出的图片序列和所述训练样本中的图片序列之间的差异,对所述神经网络的网络参数进行训练;
对所述神经网络经过一定数量的训练样本的训练后,得到训练好的时空注意力模型。
本申请文字识别的装置的实施例可以应用在电子设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。
从硬件层面而言,如图11所示,为本申请文字识别的装置所在电子设备的一种硬件结构图,除了图11所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的电子设备通常根据该文字识别的装置的实际功能,还可以包括其他硬件,对此不再赘述。其中,该电子设备的内存和非易失性存储器中还分别搭载了上述提取单元110对应的机器可执行指令、上述拆分单元120对应的机器可执行指令、上述识别单元130对应的机器可执行指令和上述训练单元140(图中未示出)对应的机器可执行指令。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (13)

1.一种文字识别的方法,其特征在于,包括:
从目标文字图片中提取特征图,包括:将目标文字图片输入到预设的卷积神经网络,以由该卷积神经网络对目标文字图片进行卷积计算后,输出特征图;
将预设的滑窗置于所述特征图的一端,分割出该滑窗所在位置的局部特征图;基于预设的步长移动该滑窗,并分割出移动后的该滑窗所在位置的局部特征图;重复这个过程,直到所述滑窗移动至所述特征图的另一端,获取到的多个局部特征图为时空特征序列;
将所述时空特征序列输入到预先训练的时空注意力模型,以由所述时空注意力模型对所述时空特征序列编码处理得到时空语义编码,并对所述时空语义编码解码输出图片序列,所述图片序列指示所述目标文字图片中的文字信息;
其中,所述时空注意力模型通过如下步骤训练得到:
搭建基于神经网络的时空注意力模型;其中,所述神经网络包括卷积神经网络和循环神经网络;
获取训练样本,所述训练样本包括文字图片的时空特征序列和指示所述文字图片包含的文字信息的图片序列;
将所述时空特征序列输入所述神经网络,以由所述神经网络输出图片序列,根据所述神经网络输出的图片序列和所述训练样本中的图片序列之间的差异,对所述神经网络的网络参数进行训练。
2.根据权利要求1所述的方法,其特征在于,所述时空注意力模型输出的文字信息为图片序列,所述图片序列指示所述目标文字图片中的文字信息;所述方法还包括:
将所述图片序列输入到预设的全连接层,以由所述全连接层对所述图片序列进行分类,并输出字符形式的文字信息。
3.根据权利要求1所述的方法,其特征在于,所述对所述时空特征序列编码处理得到时空语义编码,并对所述时空语义编码解码输出识别出的所述目标文字图片中的文字信息,包括:
计算获得所述时空特征序列的权值因子;
基于所述权值因子和所述时空特征序列,计算得到所述时空语义编码;
基于所述时空特征序列和所述时空语义编码,利用循环神经网络计算得到若干循环神经网络的状态单元的隐变量;
基于所述状态单元的隐变量,计算得到所述目标文字图片中的文字信息,并输出所述目标文字图片中的文字信息;其中,所述文字信息为图片序列,所述图片序列指示所述目标文字图片中的文字信息。
4.根据权利要求3所述的方法,其特征在于,所述计算获得所述时空特征序列的权值因子,包括:
基于前一时刻所述时空注意力模型的状态单元的隐变量和所述时空特征序列,计算所述时空特征序列确定当前时刻的时空语义编码时所述时空特征序列中各时空特征对应的权值因子;其中,各时空特征对应的权值因子与该时空特征的维度相同。
5.根据权利要求3所述的方法,其特征在于,所述基于所述权值因子和所述时空特征序列,计算得到所述时空语义编码,包括:
将所述时空特征序列中各时空特征与该时空特征对应的权值因子相乘,并累加各乘积,得到所述时空语义编码。
6.根据权利要求1所述的方法,其特征在于,所述时空注意力模型的神经网络不包含全连接层。
7.一种文字识别的装置,其特征在于,包括:
提取单元,用于从目标文字图片中提取特征图,包括:将目标文字图片输入到预设的卷积神经网络,以由该卷积神经网络对目标文字图片进行卷积计算后,输出特征图;
拆分单元,用于将预设的滑窗置于所述特征图的一端,分割出该滑窗所在位置的局部特征图;基于预设的步长移动该滑窗,并分割出移动后的该滑窗所在位置的局部特征图;重复这个过程,直到所述滑窗移动至所述特征图的另一端,获取到的多个局部特征图为时空特征序列;
识别单元,用于将所述时空特征序列输入到预先训练的时空注意力模型,以由所述时空注意力模型对所述时空特征序列编码处理得到时空语义编码,并对所述时空语义编码解码输出图片序列,所述图片序列指示所述目标文字图片中的文字信息;
其中,所述时空注意力模型通过如下步骤训练得到:
搭建基于神经网络的时空注意力模型;其中,所述神经网络包括卷积神经网络和循环神经网络;
获取训练样本,所述训练样本包括文字图片的时空特征序列和指示所述文字图片包含的文字信息的图片序列;
将所述时空特征序列输入所述神经网络,以由所述神经网络输出图片序列,根据所述神经网络输出的图片序列和所述训练样本中的图片序列之间的差异,对所述神经网络的网络参数进行训练。
8.根据权利要求7所述的装置,其特征在于,所述时空注意力模型输出的文字信息为图片序列,所述图片序列指示所述目标文字图片中的文字信息;所述识别单元,进一步用于:
将所述图片序列输入到预设的全连接层,以由所述全连接层对所述图片序列进行分类,并输出字符形式的文字信息。
9.根据权利要求7所述的装置,其特征在于,所述识别单元,进一步用于:
计算获得所述时空特征序列的权值因子;
基于所述权值因子和所述时空特征序列,计算得到所述时空语义编码;
基于所述时空特征序列和所述时空语义编码,利用循环神经网络计算得到若干循环神经网络的状态单元的隐变量;
基于所述状态单元的隐变量,计算得到所述目标文字图片中的文字信息,并输出所述目标文字图片中的文字信息;其中,所述文字信息为图片序列,所述图片序列指示所述目标文字图片中的文字信息。
10.根据权利要求9所述的装置,其特征在于,所述识别单元,进一步用于:
基于前一时刻所述时空注意力模型的状态单元的隐变量和所述时空特征序列,计算所述时空特征序列确定当前时刻的时空语义编码时所述时空特征序列中各时空特征对应的权值因子;其中,各时空特征对应的权值因子与该时空特征的维度相同。
11.根据权利要求9所述的装置,其特征在于,所述识别单元,进一步用于:
将所述时空特征序列中各时空特征与该时空特征对应的权值因子相乘,并累加各乘积,得到所述时空语义编码。
12.根据权利要求7所述的装置,其特征在于,所述时空注意力模型的神经网络不包含全连接层。
13.一种电子设备,其特征在于,所述电子设备搭载了处理器,以及,用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为:
从目标文字图片中提取特征图;
将预设的滑窗置于所述特征图的一端,分割出该滑窗所在位置的局部特征图;基于预设的步长移动该滑窗,并分割出移动后的该滑窗所在位置的局部特征图;重复这个过程,直到所述滑窗移动至所述特征图的另一端,获取到的多个局部特征图为时空特征序列;
将所述时空特征序列输入到预先训练的时空注意力模型,以由所述时空注意力模型对所述时空特征序列编码处理得到时空语义编码,并对所述时空语义编码解码输出图片序列,所述图片序列指示所述目标文字图片中的文字信息;
其中,所述时空注意力模型通过如下步骤训练得到:
搭建基于神经网络的时空注意力模型;其中,所述神经网络包括卷积神经网络和循环神经网络;
获取训练样本,所述训练样本包括文字图片的时空特征序列和指示所述文字图片包含的文字信息的图片序列;
将所述时空特征序列输入所述神经网络,以由所述神经网络输出图片序列,根据所述神经网络输出的图片序列和所述训练样本中的图片序列之间的差异,对所述神经网络的网络参数进行训练。
CN201810691282.2A 2018-06-28 2018-06-28 一种文字识别的方法、装置及电子设备 Active CN110659641B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810691282.2A CN110659641B (zh) 2018-06-28 2018-06-28 一种文字识别的方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810691282.2A CN110659641B (zh) 2018-06-28 2018-06-28 一种文字识别的方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN110659641A CN110659641A (zh) 2020-01-07
CN110659641B true CN110659641B (zh) 2023-05-26

Family

ID=69027421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810691282.2A Active CN110659641B (zh) 2018-06-28 2018-06-28 一种文字识别的方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN110659641B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242113B (zh) * 2020-01-08 2022-07-08 重庆邮电大学 一种任意方向自然场景文本识别方法
CN111582382B (zh) * 2020-05-09 2023-10-31 Oppo广东移动通信有限公司 状态识别方法、装置以及电子设备
CN112329744B (zh) * 2021-01-04 2021-04-06 太极计算机股份有限公司 一种图片文字识别方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066973A (zh) * 2017-04-17 2017-08-18 杭州电子科技大学 一种利用时空注意力模型的视频内容描述方法
CN107273800A (zh) * 2017-05-17 2017-10-20 大连理工大学 一种基于注意机制的卷积递归神经网络的动作识别方法
CN107368831A (zh) * 2017-07-19 2017-11-21 中国人民解放军国防科学技术大学 一种自然场景图像中的英文文字和数字识别方法
CN107703564A (zh) * 2017-10-13 2018-02-16 中国科学院深圳先进技术研究院 一种降雨预测方法、系统及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066973A (zh) * 2017-04-17 2017-08-18 杭州电子科技大学 一种利用时空注意力模型的视频内容描述方法
CN107273800A (zh) * 2017-05-17 2017-10-20 大连理工大学 一种基于注意机制的卷积递归神经网络的动作识别方法
CN107368831A (zh) * 2017-07-19 2017-11-21 中国人民解放军国防科学技术大学 一种自然场景图像中的英文文字和数字识别方法
CN107703564A (zh) * 2017-10-13 2018-02-16 中国科学院深圳先进技术研究院 一种降雨预测方法、系统及电子设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting;Xingjian Shi et al.;《arXiv》;20150919;摘要、正文第3、4章 *
Detecting Text in Natural Image with Connectionist Text Proposal Network;Zhi Tian et al.;《arXiv》;20160912;正文第1章 *
Focusing Attention: Towards Accurate Text Recognition in Natural Images;Zhanzhan Cheng et al.;《arXiv》;20171017;正文第2-4章 *
基于注意力矫正的自然场景文字识别;浦世亮 等;《中国公共安全》;20170901;第1卷(第9期);全文 *

Also Published As

Publication number Publication date
CN110659641A (zh) 2020-01-07

Similar Documents

Publication Publication Date Title
CN110033003B (zh) 图像分割方法和图像处理装置
US11200424B2 (en) Space-time memory network for locating target object in video content
WO2020228446A1 (zh) 模型训练方法、装置、终端及存储介质
CN107766894B (zh) 基于注意力机制和深度学习的遥感图像自然语言生成方法
CN106960206B (zh) 字符识别方法和字符识别系统
CN108549839B (zh) 自适应特征融合的多尺度相关滤波视觉跟踪方法
CN110532884B (zh) 行人重识别方法、装置及计算机可读存储介质
CN110929622A (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
CN112639828A (zh) 数据处理的方法、训练神经网络模型的方法及设备
CN112464807A (zh) 视频动作识别方法、装置、电子设备和存储介质
CN109934300B (zh) 模型压缩方法、装置、计算机设备及存储介质
CN112446342B (zh) 关键帧识别模型训练方法、识别方法及装置
CN112883227B (zh) 一种基于多尺度时序特征的视频摘要生成方法和装置
CN110659641B (zh) 一种文字识别的方法、装置及电子设备
CN111695673B (zh) 训练神经网络预测器的方法、图像处理方法及装置
KR102093577B1 (ko) 학습네트워크를 이용한 예측 영상 생성 방법 및 예측 영상 생성 장치
WO2023174098A1 (zh) 一种实时手势检测方法及装置
CN110738103A (zh) 活体检测方法、装置、计算机设备和存储介质
CN114283352A (zh) 一种视频语义分割装置、训练方法以及视频语义分割方法
CN112232140A (zh) 人群计数方法、装置、电子设备及计算机存储介质
CN110991298B (zh) 图像的处理方法和装置、存储介质及电子装置
CN116977674A (zh) 图像匹配方法、相关设备、存储介质及程序产品
CN116310462B (zh) 一种基于秩约束自表示的图像聚类方法及装置
CN111242114A (zh) 文字识别方法及装置
CN113313127B (zh) 文本图像识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant