CN111144469A - 基于多维关联时序分类神经网络的端到端多序列文本识别方法 - Google Patents
基于多维关联时序分类神经网络的端到端多序列文本识别方法 Download PDFInfo
- Publication number
- CN111144469A CN111144469A CN201911321107.5A CN201911321107A CN111144469A CN 111144469 A CN111144469 A CN 111144469A CN 201911321107 A CN201911321107 A CN 201911321107A CN 111144469 A CN111144469 A CN 111144469A
- Authority
- CN
- China
- Prior art keywords
- sequence
- text
- time sequence
- probability
- dimensional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 238000013507 mapping Methods 0.000 claims abstract description 16
- 238000010586 diagram Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 18
- 238000009826 distribution Methods 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 230000010354 integration Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000002360 preparation method Methods 0.000 claims 1
- 230000007480 spreading Effects 0.000 claims 1
- 238000003892 spreading Methods 0.000 claims 1
- 238000002474 experimental method Methods 0.000 abstract description 8
- 230000008901 benefit Effects 0.000 abstract description 3
- 238000013461 design Methods 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000013459 approach Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明属于人工智能技术领域,具体为一种基于多维关联时序分类神经网络的端到端多序列文本识别方法。本发明设计了编码器、多维关联时序分类神经网络和解码器;对含有多个文本序列的图片进行编码解码,编码器将原始的图片映射到特征空间,多维关联时序分类神经网在特征空间上捕获图片的空间时序信息,并利用该信息对各个位置进行文本识别,解码器则根据分类得到的最大概率类别图进行解码生成多序列文本。本发明方法框架简单、使用方便、可扩展性强、可解释性强。本发明设计了多个数据集和实用场景并在其上进行了实验,能够有效的识别图片中的多文本序列。本发明能够为多序列文本识别等底层的计算机视觉任务,提供基础框架和算法的支持。
Description
技术领域
本发明属于人工智能技术领域,具体涉及基于多维关联时序分类神经网络的端到端多序列文本识别方法。
背景技术
从初始的光学字符识别问题到如今的图像文本识别问题,文本识别在模式识别与计算机视觉领域一直是重要的研究课题。其应用非常广泛,如手写字识别、身份证识别、图像理解等。尽管文本识别问题在技术上取得了重大进展,但考虑到各种复杂的应用场景,这一问题远未得到很好的解决。
现有的图像文本识别主要采用文本检测模块和文本识别模块组成的流水线方式。前者用于检测图像中的文本部分(如字符、单词或文本序列),后者负责识别裁剪后的文本图像。从技术上讲,我们可以将这些工作归类为非端到端(NEE)方法。对于包含多个文本序列的图像,这些方法必须首先检测多个序列,裁剪后逐个进行识别。
随着深度学习的普及,越来越多的人尝试以“端到端”的方式识别文本,首先对检测模块和识别模块分别进行预训练,然后对检测和识别模块进行联合训练。与早期的NEE方法不同,它们将检测模块和识别模块集成到一个统一的网络中,但仍然使用文本和位置标注(如检测框)训练整个模型。我们称之为准端到端(QEE)方法。
后续提出了一种基于注意力机制的纯端到端(PEE)文本识别方法。我们称之为PEE方法,因为训练图像只标注文本内容,不需要位置信息。然而,这种方法只能从图像中识别出一个文本序列。虽然目标文本序列可以在图像中分成若干行,但它们将所有文本行作为一个整体的序列来处理,并且构成序列的文本行的顺序必须预先定义。本质上,该方法只能处理单序列识别问题。
本发明试图解决一个新的且更具挑战性的问题:通过纯端到端学习从图像中识别多个文本序列。这个问题难点有两个方面:(1)多文本序列识别。每个图像可能包含多个不同布局的独立文本序列,我们尝试识别所有文本序列。所以这是一个多序列识别问题。图1为多序列识别问题的若干样例。(2)纯端到端(PEE)学习。每个训练图像都只有文本注释。我们的目标是用PEE方法解决MSR问题。现有的NEE和QEE方法无法处理我们的问题,因为它们不是PEE方法。此外,针对单序列识别(SSR)问题的方法同样不能直接应用于我们的问题。所以我们必须探索新的方法。
发明内容
针对以上现有技术中的问题,本发明的目的在于提出一种解决多序列识别问题的纯端到端方法。
本发明提出的解决多序列识别问题的纯端到端方法,是一种基于多维关联时序分类神经网络的端到端多序列文本识别方法。所谓多序列文本识别问题的描述如下:有且仅有含有多个文本序列的图片,需要输出所有的文本序列。
本发明方法,受关联时序分类技术中一维概率路径概念的启发,可以在给定的多维概率空间中寻找最优概率路径,路径搜索就是寻找潜在目标序列的过程。另外,本发明方法使用无序和独立的文本标注进行训练,这意味着在训练期间可以接受任何顺序的序列级标注。本发明的算法,更进一步的优化了关联时序分类技术中的缺陷与不足。通过多维时序信息多角度的利用序列上下文信息对当前时序点进行预测。图2展示了本发明的概率路径搜索方式与时序点预测过程。
本发明提出的基于多维关联时序分类神经网络的端到端多序列文本识别方法,首先要构建一个编码器,一个多维关联时序分类神经网络,一个解码器;其中:
(1)所述编码器,由多层神经网络构成,为带有池化操作的卷积神经网络,使用非线性激活函数;主要功能是将图片从原始RGB颜色空间映射到高维特征子空间;
(2)所述多维关联时序分类神经网络,由特征整合模块和关联时序分类模块组成;特征整合模块对编码器输出的高维空间特征进行维度变换,以适配多维关联时序分类模块的要求;关联时序分类模块用于捕获特征空间中多个文本序列的对应表示,并对捕获的内容利用序列上下文信息对其进行分类,得到最大概率类别图;
(3)所述解码器,由最大概率类别图映射模块构成,主要功能是将最大概率类别图映射到多文本序列上;该模块专注于学习特定任务的映射方式。
其流程为,编码器将数据从原始的图像映射到高维的特征空间,在高维的特征空间上,利用多维关联时序分类神经网络来学习图片中多个文本序列的空间时序信息;多维关联时序分类模块捕获特征空间中文本序列的对应表示,利用序列内部的上下文特征对上述表示逐位分类,得到最大概率类别图;解码器从最大概率类别图中解码出多个文本序列。
本发明的基于多维关联时序分类神经网络的端到端多序列文本识别方法,具体步骤如下:
步骤1,对图片数据集中的标注文件进行类别统计与分析,确定最大类别等全局参数,并对数据集中的每张图片进行数据预处理(包括对数据进行标准化处理,减均值除标准差),并将这些数据划分为训练集和测试集;
步骤2,使用随机排序算法对训练集中的所有样本进行处理,每次选择一批样本将其图像信息与多文本序列标注信息一同输入到编码器进行编码;
步骤3,对于编码得到的高维空间特征,利用关联时序分类神经网络依次对多个文本序列进行捕获;捕获过程是将高维特征放在二维时序空间中,逐步计算每个时序点匹文本序列某个位置的概率;在单次捕获过程中,利用已捕获的序列上下文信息对当前时序点进行分类,得到当前时序点的类别概率分布;
步骤4,单次捕获过程结束后,得到二维时序空间中所有时序点的类别概率分布,根据此类别分布设计模型的优化目标函数,具体如下:
其中,是训练集,X是编码器提取样本图片信息得到的三维特征向量,Z={l1,l2,...,lN}是样本的文本序列集合;p(li|X)表示给定输入特征X时预测序列为li的条件概率;对该优化目标函数计算其关于模型参数X的导数,并进行反向传播更新参数;在此使用ADADELTA算法进行参数更新;
步骤5,重复步骤2、步骤3、步骤4,直到目标函数收敛,得到最终训练完毕的模型;
步骤6,利用训练完毕得到的模型在测试集上进行图片多序列文本识别。在测试过程中还需要输出具体的文本序列。具体如下:经过步骤2、步骤3,得到每个时序位置的类别概率分布。取分布中概率最大值作为每个时序点的类别,得到每个时序点的类别,即最大概率类别图。
步骤7,将计算出的最大概率类别图输入解码器中,解码器根据当前任务的映射模式将其映射到一个序列集合。
本发明步骤3中,以多维关联时序分类模块计算的过程为例来阐述具体过程。其中是二维时序空间从起点走到终点路径上的字符拼接起来的字符串;关联时序分类模块主要工作是利用已捕获的序列上下文信息对当前时序点进行分类,其分别计算匹配序列l′某一段的前缀概率与后缀概率,l′为原文本序列l在首位和字符之间添加空白字符之后扩展而来的新序列。寻找最优概率路径的前缀概率计算称为前向算法,其工作方式为:
αi,j(s)=σ(g(αi,j-1,s),g(αi-1,j,s))=λ1g(αi,j-1,s)+λ2g(αi-1,j,s)
其中,是序列到序列的多对一映射(连续相同字符简化为一个字符),是其逆映射,即表示一个序列集合。是对序列路径的遍历,it,jt是匹配的时序点索引。表示时序点(it,jt)匹配的概率。λ1,λ2是超参数,用来决定不同时序方向对当前时序点的影响。αi,j(s)表示在时序坐标(i,j)处从前向后匹配到序列中位置s处字符的前缀概率。
根据前缀概率,p(l|X)计算方式如下:
p(l|X)=αH′,W′(|l′|-1)+αH′,w′(|l′|-2).
其中,H′,W′表示二维时序空间的大小,|l′|表示序列扩展后的长度
本发明步骤4中,所述的模型优化函数中目标函数关于模型参数的导数计算。导数计算方式如下:
其中,lab(l,k)={s:l′s=k},表示所有类型等于k的字符,在序列中的位置集合。βi,j(s)表示在时序坐标(i,j)处从后向前匹配序列中位置s处字符的后缀概率。寻找最优概率路径的后缀概率计算称为后向算法,计算方式如下:
βi,j(s)=λ1g′(βi,j+1,s)+λ2g′(βi+1,j,s),
神经网络训练过程中,反向传播是模型优化与收敛的关键步骤。其要求每一个目标函数要给出严格、正确的求导计算方式。
本发明训练利用了深度学习反向传播的优点,能够端到端的进行训练。本发明方法框架简单、使用方便,可扩展性强、可解释性强,本发明设计了多个数据集和实用场景并在其上进行了实验,能够有效的识别图片中的多文本序列。本发明能够为多序列文本识别等底层的计算机视觉任务,提供基础框架和算法的支持。
附图说明
图1为多序列识别问题的样例。
图2为本发明的概率路径搜索方式与时序点预测过程。
图3为本发明前向算法与后向算法的说明。
图4为本发明的最优概率路径匹配过程说明。
图5为MS-MNIST数据集中的样例。
图6为IDN、BCN、HV-MNIST、SET数据集中的样例。
具体实施方式
下面通过具体例子,进一步介绍本发明方法,并进行性能测试与分析。
本发明提供的多序列文本识别方法,是基于深度神经网络的端到端训练的有监督学习的方法,需要预先准备好用于训练的含有多个文本序列的图像,以及图像中的文本标注。
本发明方法的具体步骤如下:
步骤1,对图片数据集中的标注文件进行类别统计与分析,确定最大类别等全局参数,并对数据集中的每张图片进行数据预处理(对数据进行标准化处理,减均值除标准差),并将这些数据划分为训练集和测试集;
步骤2,使用随机排序算法对训练集中的所有样本进行处理,每次选择一批样本将其图像信息与多文本序列标注信息一同输入到编码器进行编码;
步骤3,对于编码得到的高维空间特征,利用关联时序分类神经网络依次对多个文本序列进行捕获。捕获过程是将高维特征放在二维时序空间中,逐步计算每个时序点匹文本序列某个位置的概率。在单次捕获过程中,利用已捕获的序列上下文信息对当前时序点进行分类,得到当前时序点的类别概率分布;
步骤4,单次捕获过程结束后,得到二维时序空间中所有时序点的类别概率分布,根据此类别分布设计的模型的优化目标函数如下:
其中,是训练集,X是编码器提取样本图片信息得到的三维特征向量,Z={l1,l2,...,lN}是样本的文本序列集合。p(li|X)表示给定输入特征X时预测序列为li的条件概率。对该优化目标函数计算其关于模型参数X的导数,并进行反向传播更新参数。在此使用ADADELTA算法进行参数更新;
步骤5,重复步骤2、步骤3、步骤4,直到目标函数收敛,得到最终训练完毕的模型;
步骤6,训练完毕得到的模型可用于测试集进行图片多序列文本识别。在测试过程中还需要输出具体的文本序列。具体如下:经过步骤2、步骤3,得到每个时序位置的类别概率分布。取分布中概率最大值作为每个时序点的类别,得到每个时序点的类别,即最大概率类别图;
步骤7,将计算出的最大概率类别图输入解码器中,解码器根据当前任务的映射模式将其映射到一个序列集合。
性能测试与分析
1、实验使用基于MNIST生成的多文本序列数据集、四个主要基于实际应用场景生成的数据集进行方法的分析:(1)MS-MNIST:随机从MNIST数据集(MNIST是一个手写数字数据集,共有0到9共10个类别)中选择数字图像,并把他们连接成字符序列,保证一张图片中不超过5个字符序列。每个从MNIST中选择的字符像素大小为28×28。在横向上有±3像素的随机偏移,旋转角度上有±10的偏移。字符串长度近似服从正态分布。每个字符串长度大小不超过14。MS-MNIST[n]表示不超过n个序列的图像数据集。(2)IDN:身份证卡号数据集。识别身份证所有的数字信息。(3)BCN:银行卡号数据集。识别161家银行的有效数字信息。(4)HV-MNIST:两个序列分别具有横向朝向与纵向朝向的数据集。(5)SET:英文生成文本数据集。对于每个数据集,我们均采用了27000张图片作为训练样本,3000张图片作为测试样本。
2、训练设置及超参数设置
本发明使用7层卷积神经网络,采用的卷积核大小均为3。每一层卷积网络后都采用非线性激活函数PRelu,并在第一层、第二层、第四层、第六层卷积层后采用池化层对图片进行降采样,核大小为2。为了方便实验对比,本实验都采用ADADELTA优化算法,初始学习率设置为1e-4,mini-batch的大小设置为32。λ1,λ2分别设置为0.9,0.1。
实验均采用NVIDIATeslaP40显卡、128GRAM与IntelXeon(R)E5-2650 2.30GHzCPU。神经网络通过caffe框架实现。
3、对比方法
为了比较本发明方法的性能,我们选择基于注意力机制(Attention based)的网络与基于关联时序分类(CTC based)的网络与本发明方法进行比较,三种方法使用架构相同的主干网络分别进行训练。本发明的方法缩写为MSRA(Multiple Sequence RecognitionApproach)。
4、性能测试结果
评价指标:本实验采用NED、SA、IA作为算法性能的评价指标。NED是根据序列长度归一化后的编辑距离。SA是序列准确率。IA是图像准确率。对于数据集中的每个图像与其文本标注,计算出相应的指标,并对所有图像的指标取平均作为最终的性能指标,具体见表1、2。
表1在MS-MNIST数据集上的识别结果
从表1可以看出,MSRA方法在所有情况下都比其他两种方法获得更好的性能,并且基于CTC的方法无法识别具有多个文本序列的图像。虽然基于Attention的方法在包含序列数较少的情况下表现出可接受的性能,但当包含序列数增加到5个时,其性能会迅速下降。更重要的是,MSRA支持在序列标注无序情况下进行训练,而基于Attention的方法要求训练图像中的文本序列自上而下进行标注,这实际上给出了一定程度的位置标注。
表2在IDN、BCN、HV-MNIST、SET数据集上的识别结果
Datasets | NED | SA | IA |
IDN | 0.59 | 97.59 | 90.39 |
BCN | 0.12 | 98.12 | 96.23 |
HV-MNIST | 1.87 | 90.99 | 82.73 |
SET | 1.48 | 68.57 | 47.90 |
对于这四个数据集,实验中使用的网络结构与MS-MNIST数据集的网络结构相似。区别在于池化层的数量和位置以及输入层的参数略有不同。这些实验中必须确保高维空间特征能够在水平和垂直方向上保存多个文本序列。例如,在HV-MNIST数据集中,为了覆盖标注字符串序列的扩展长度(11),将高维空间特征的大小控制为14×14,并使用一些额外的空白区域来确保开始时序点和结束时序点的标注为空白类。
表2给出了该方法在4个数据集上的识别结果。可以看到本发明方法仍然取得了很好的性能。MSRA在IDN和BCN上的性能令人满意,尽管这些数据集中的数据是基于实际应用的。在HV-MNIST上的结果表明MSRA可以处理具有不同朝向文本序列的复杂MSR问题。本发明方法在SET上表现较差,是因为SET中的数据在类的数量和序列的长度方面更为复杂。类别量的增加意味着对于每个时序点,都面临更多的匹配选项。而序列长度的增加意味着需要更大的高维空间特征来容纳序列信息。总之,尽管这些数据集包含了复杂背景、不同方向、字体大小和类型等多方面因素的噪声,MSRA仍然表现良好。
本发明提出了一种基于多维关联时序分类神经网络的端到端多序列文本识别方法。模型可以端到端的进行训练,并且只需对数据进行文本标注,无需位置标注。此外,本发明采用ADADELTA算法来优化此模型,使其能够高效且可扩展,适用于大规模数据集。在五个数据集的实验结果表明,该模型在解决MSR问题中能够取得良好的效果,并且优于其他两种主流思路所改进的方法。
Claims (4)
1.一种基于多维关联时序分类神经网络的端到端多序列文本识别方法,所谓多序列文本识别问题,描述如下:有且仅有含有多个文本序列的图片,需要输出所有的文本序列;其特征在于,
首先,构建一个编码器,一个多维关联时序分类神经网络,一个解码器;其中:
(1)所述编码器,由多层神经网络构成,为带有池化操作的卷积神经网络,使用非线性激活函数;其功能是将图片从原始RGB颜色空间映射到高维特征子空间;
(2)所述多维关联时序分类神经网络,由特征整合模块和关联时序分类模块组成;特征整合模块对编码器输出的高维空间特征进行维度变换,以适配多维关联时序分类模块的要求;关联时序分类模块用于捕获特征空间中多个文本序列的对应表示,并对捕获的内容利用序列上下文信息对其进行分类,得到最大概率类别图;
(3)所述解码器,由最大概率类别图映射模块构成,主要功能是将最大概率类别图映射到多文本序列上;该模块专注于学习特定任务的映射方式;
其工作流程为:编码器将数据从原始的图像映射到高维的特征空间,在高维的特征空间上,利用多维关联时序分类神经网络来学习图片中多个文本序列的空间时序信息;多维关联时序分类模块捕获特征空间中文本序列的对应表示,利用序列内部的上下文特征对上述表示逐位分类,得到最大概率类别图;解码器从最大概率类别图中解码出多个文本序列。
2.根据权利要求1所述的基于多维关联时序分类神经网络的端到端多序列文本识别方法,其特征在于法具体步骤如下:
步骤1,对图片数据集中的标注文件进行类别统计与分析,确定最大类别等全局参数,并对数据集中的每张图片进行数据预处理,并将这些数据划分为训练集和测试集;
步骤2,使用随机排序算法对训练集中的所有样本进行处理,每次选择一批样本将其图像信息与多文本序列标注信息一同输入到编码器进行编码;
步骤3,对于编码得到的高维空间特征,利用关联时序分类神经网络依次对多个文本序列进行捕获;捕获过程是将高维特征放在二维时序空间中,逐步计算每个时序点匹文本序列某个位置的概率;在单次捕获过程中,利用已捕获的序列上下文信息对当前时序点进行分类,得到当前时序点的类别概率分布;
步骤4,单次捕获过程结束后,得到二维时序空间中所有时序点的类别概率分布,根据此类别分布设计模型,其优化目标函数如下:
其中,是训练集,X是编码器提取样本图片信息得到的三维特征向量,Z={l1,l2,...,lN}是样本的文本序列集合;p(li|X)表示给定输入特征X时预测序列为li的条件概率;对该优化目标函数计算其关于模型参数X的导数,并进行反向传播更新参数;参数更新使用ADADELTA算法;
步骤5,重复步骤2、步骤3、步骤4,直到目标函数收敛,得到最终训练完毕的模型;
步骤6,利用训练完毕得到的模型在测试集进行图片多序列文本识别;在测试过程中需要输出具体的文本序列,具体如下:经过步骤2、步骤3,得到每个时序位置的类别概率分布;取分布中概率最大值作为每个时序点的类别,得到每个时序点的类别,即最大概率类别图;
步骤7,将计算出的最大概率类别图输入解码器中,解码器根据当前任务的映射模式将其映射到一个序列集合。
3.根据权利要求2所述的基于多维关联时序分类神经网络的端到端多序列文本识别方法,其特征在于,步骤3所述的关联时序分类神经网络中,多维关联时序分类模块计算的过程为:利用已捕获的序列上下文信息对当前时序点进行分类,其分别计算匹配序列l′某一段的前缀概率与后缀概率,l′为原文本序列l在首位和字符之间添加空白字符之后扩展而来的新序列;是二维时序空间从起点走到终点路径上的字符拼接起来的字符串;寻找最优概率路径的前缀概率计算称为前向算法,其计算式为:
αi,j(s)=σ(g(αi,j-1,s),g(αi-1,j,s))=λ1g(αi,j-1,s)+λ2g(αi-1,j,s),
其中,是序列到序列的多对一映射,连续相同字符简化为一个字符,是其逆映射,即表示一个序列集合;是对序列路径的遍历,it,jt是匹配的时序点索引;表示时序点(it,jt)匹配的概率,λ1,λ2是超参数,用来决定不同时序方向对当前时序点的影响;αi,j(s)表示在时序坐标(i,j)处从前向后匹配到序列中位置s处字符的前缀概率;
根据前缀概率,p(l|X)计算式如下:
p(l|X)=αH′,W′(|l′|-1)+αH′,W′(|l′|-2)
其中,H′,W′表示二维时序空间的大小,|l′|表示序列扩展后的长度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911321107.5A CN111144469B (zh) | 2019-12-20 | 2019-12-20 | 基于多维关联时序分类神经网络的端到端多序列文本识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911321107.5A CN111144469B (zh) | 2019-12-20 | 2019-12-20 | 基于多维关联时序分类神经网络的端到端多序列文本识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111144469A true CN111144469A (zh) | 2020-05-12 |
CN111144469B CN111144469B (zh) | 2023-05-02 |
Family
ID=70519037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911321107.5A Active CN111144469B (zh) | 2019-12-20 | 2019-12-20 | 基于多维关联时序分类神经网络的端到端多序列文本识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111144469B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112967518A (zh) * | 2021-02-01 | 2021-06-15 | 浙江工业大学 | 一种公交专用道条件下公交车辆轨迹的Seq2Seq预测方法 |
CN113159820A (zh) * | 2021-02-05 | 2021-07-23 | 浙江华坤道威数据科技有限公司 | 一种基于5g消息的交互式营销管理方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543667A (zh) * | 2018-11-14 | 2019-03-29 | 北京工业大学 | 一种基于注意力机制的文本识别方法 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
-
2019
- 2019-12-20 CN CN201911321107.5A patent/CN111144469B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN109543667A (zh) * | 2018-11-14 | 2019-03-29 | 北京工业大学 | 一种基于注意力机制的文本识别方法 |
Non-Patent Citations (2)
Title |
---|
YIPENG SUN,等: "Irregular Text Reading from Images with an End-to-End Trainable Network" * |
张艺玮;赵一嘉;王馨悦;董兰芳;: "结合密集神经网络与长短时记忆模型的中文识别" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112967518A (zh) * | 2021-02-01 | 2021-06-15 | 浙江工业大学 | 一种公交专用道条件下公交车辆轨迹的Seq2Seq预测方法 |
CN112967518B (zh) * | 2021-02-01 | 2022-06-21 | 浙江工业大学 | 一种公交专用道条件下公交车辆轨迹的Seq2Seq预测方法 |
CN113159820A (zh) * | 2021-02-05 | 2021-07-23 | 浙江华坤道威数据科技有限公司 | 一种基于5g消息的交互式营销管理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111144469B (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111126360B (zh) | 基于无监督联合多损失模型的跨域行人重识别方法 | |
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
CN112100346B (zh) | 基于细粒度图像特征和外部知识相融合的视觉问答方法 | |
Lin et al. | STAN: A sequential transformation attention-based network for scene text recognition | |
Michel et al. | Scale invariant and deformation tolerant partial shape matching | |
CN109033978B (zh) | 一种基于纠错策略的cnn-svm混合模型手势识别方法 | |
Saba et al. | Online versus offline Arabic script classification | |
Mhiri et al. | Word spotting and recognition via a joint deep embedding of image and text | |
CN110598022B (zh) | 一种基于鲁棒深度哈希网络的图像检索系统与方法 | |
CN111144469B (zh) | 基于多维关联时序分类神经网络的端到端多序列文本识别方法 | |
Jiang et al. | Tabcellnet: Deep learning-based tabular cell structure detection | |
Zhang et al. | Locality-constrained affine subspace coding for image classification and retrieval | |
CN114581918A (zh) | 一种文本识别模型训练方法及装置 | |
Zhao et al. | Adversarial learning based attentional scene text recognizer | |
Ge et al. | Deep spatial attention hashing network for image retrieval | |
CN108845999B (zh) | 一种基于多尺度区域特征比对的商标图像检索方法 | |
CN110766003A (zh) | 一种基于卷积神经网络的片段和链接的场景文字的检测方法 | |
CN116091946A (zh) | 一种基于YOLOv5的无人机航拍图像目标检测方法 | |
CN115457332A (zh) | 基于图卷积神经网络和类激活映射的图像多标签分类方法 | |
Wang et al. | Human reading knowledge inspired text line extraction | |
Kataria et al. | CNN-bidirectional LSTM based optical character recognition of Sanskrit manuscripts: A comprehensive systematic literature review | |
CN115100694A (zh) | 一种基于自监督神经网络的指纹快速检索方法 | |
CN108334884B (zh) | 一种基于机器学习的手写文档检索方法 | |
CN112329389B (zh) | 一种基于语义分割与禁忌搜索的汉字笔画自动提取方法 | |
CN114241470A (zh) | 一种基于注意力机制的自然场景文字检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |