CN111160348A - 自然场景的文本识别方法、存储装置和计算机设备 - Google Patents

自然场景的文本识别方法、存储装置和计算机设备 Download PDF

Info

Publication number
CN111160348A
CN111160348A CN201911143472.1A CN201911143472A CN111160348A CN 111160348 A CN111160348 A CN 111160348A CN 201911143472 A CN201911143472 A CN 201911143472A CN 111160348 A CN111160348 A CN 111160348A
Authority
CN
China
Prior art keywords
sequence
network
text
prediction probability
text recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911143472.1A
Other languages
English (en)
Inventor
周翊民
陈鹏
吴庆甜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201911143472.1A priority Critical patent/CN111160348A/zh
Publication of CN111160348A publication Critical patent/CN111160348A/zh
Priority to PCT/CN2020/129556 priority patent/WO2021098689A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

本申请公开了一种自然场景的文本识别方法、存储装置和计算机设备。该自然场景的文本识别方法包括:利用深度卷积网络对待识别图像进行特征提取,以获取多个特征向量;利用结合有残差模块的编码用二维递归网络对多个特征向量进行编码,以获得编码特征序列;利用解码用二维递归网络对编码特征序列进行解码,以获得预测标签序列;利用连接时间分类模型对预测标签序列进行校正,以形成输出文本序列。通过上述方式,本申请能够提升文本识别准确率,改善文本识别方法的性能。

Description

自然场景的文本识别方法、存储装置和计算机设备
技术领域
本申请涉及文本识别技术领域,特别是涉及一种自然场景的文本识别方法、存储装置和计算机设备。
背景技术
OCR技术发展多年来,从应用场景来看,已经在图像识别,身份证识别,包括银行保险的票据等方面都有应用,从技术层面来看,早先的传统文字识别手法基本都采用基于模板匹配的方式,对特征描述要求非常苛刻,很难满足复杂场景下的识别任务。而自从第三次人工智能浪潮兴起,在算法以及算力都有大幅度突破的情况下,深度学习抛弃了传统人工设计特征的方式,利用海量标定样本数据以及大规模GPU集群的优势让机器自动学习特征和模型参数,能一定程度上弥补底层特征与高层语义之间的不足。
就在最近这几年,基于深度学习的图像识别达到了前所未有的高度,这也让OCR技术有了广阔的场景。与传统文档图像相比,场景图像中文字多语言混合、背景复杂、模糊、文字变形、文本角度不同等情况,所以与传统的文字识别相比,场景文本识别面临更多的挑战。
尽管使用场景文本识别网络的结构已经存在,但仍存在很多的不足之处。目前很多文本识别方法的识别度不够准确,文本识别网络的性能不佳,且容易出现训练难、速度慢、梯度爆炸或消失等情况。
发明内容
本申请主要提供一种自然场景的文本识别方法、存储装置和计算机设备,以解决场景文本识别方法的性能不佳的问题。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种自然场景的文本识别方法。该自然场景的文本识别方法包括:利用深度卷积网络对待识别图像进行特征提取,以获取多个特征向量;利用结合有残差模块的编码用二维递归网络对多个特征向量进行编码,以获得编码特征序列;利用解码用二维递归网络对编码特征序列进行解码,以获得预测标签序列;利用连接时间分类模型对预测标签序列进行校正,以形成输出文本序列。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种计算机设备。该计算机设备包括处理器和存储器,处理器耦接存储器,存储器用于存储程序,处理器用于执行程序以实现如上述的自然场景的文本识别方法。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种存储装置。该存储装置存储有程序,程序被执行时能够实现如上述的自然场景的文本识别方法。
本申请的有益效果是:区别于现有技术的情况,本申请公开了一种自然场景的文本识别方法、存储装置和计算机设备。通过设置深度卷积网络对待识别图像进行特征提取,以获取多个特征向量,并利用结合有残差模块的编码用二维递归网络对多个特征向量进行编码,以获得编码特征序列,残差模块能够解决在训练过程中的梯度爆炸、消失问题并加快收敛速度,之后利用解码用二维递归网络对编码特征序列进行解码,以获得预测标签序列,利用连接时间分类模型对预测标签序列进行校正,以形成输出文本序列,从而能够提升识别准确率,改善文本识别方法的性能。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,其中:
图1是本申请提供的自然场景的文本识别方法一实施例的流程示意图;
图2是本申请提供的计算机设备一实施例的结构示意图;
图3是本申请提供的存储介质一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其他实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其他实施例相结合。
请参阅图1,图1是本申请提供的自然场景的文本识别方法一实施例的流程示意图,本实施例中,该自然场景的文本识别方法包括:
S11:利用深度卷积网络对待识别图像进行特征提取,以获取多个特征向量。
该待识别图像为自然场景下携带有文本的图像,自然场景下的文本可以是来自于街道上的广告牌、宣传页等。
该待识别图像被取后,被输入到深度卷积网络中,并利用该深度卷积网络对该待识别图像进行特征提取,该深度卷积网络经过丰富的样本数据训练,从而能够准确且快速地从该待识别图像中获取多个特征图,并进一步从多个特征图中获取多个特征向量。
例如,该待识别图像为一份宣传页的图像,深度卷积网络识别出该待识别图像上的文字区域,并对文字区域进行网格划分,从而形成多个特征图,并提取特征图的特征向量。
可选地,该深度卷积网络为Yolo3(You only look once v3)网络。
Yolo3网络是以darknet-53网络为基础,修改了其结构,删除了最后的全连接层,保留前52层卷积层,Yolo3网络是一个全卷积网络,52层卷积层间大量使用残差的跳层连接。Yolo3网络结构中,使用的是步长为2的卷积来进行降采样,同时Yolo3网络中还使用了上采样、route操作,还在一个网络结构中进行3次检测,分别是在32倍降采样、16倍降采样和8倍降采样时进行检测。Yolo3网络能够快速和准确地提取多个特征向量,并形成待识别图像的特征序列。
该深度卷积网络还可以是Yolo1网络或Yolo2网络,本申请对该深度卷积网络具体选用哪一版的Yolo网络不作限制。
S12:利用结合有残差模块的编码用二维递归网络对多个特征向量进行编码,以获得编码特征序列。
编码用二维递归网络用于将待识别图像的多个特征向量转换成图像特征序列。
将上述步骤中提取的多个特征向量输入结合有残差模块的编码用二维递归网络中,利用结合有残差模块的编码用二维递归网络对多个特征向量进行编码,以获得编码特征序列。
其中,该编码用二维递归网络为第一Bi-LSTM网络(Bidirectional Long Short-Term Memory,双向长短记忆网络)。
长短记忆网络(LSTM)是一种改进型的循环神经网络(Recurrent NeuralNetworks,RNN),其与RNN结构本质相同,只是使用了不同的函数去计算隐藏层的状态。
RNN对处理文本序列问题有独特的优势,但RNN有一个较大的缺陷,RNN上的残差在时间维度上反向传递时,每经过一个时刻,就会导致信号的大幅度衰减,随着时间间隔增加会出现梯度消失现象。
针对此问题,LSTM在网络内部计算中采用加法操作,在反向传播中避免小梯度的乘法运算,进而LSTM可以通过特殊的门结构让信息有选择性地影响RNN每个时刻的状态,降低了梯度消失的概率。
但LSTM在时间序列上仍是个深度网络,训练过程中的过拟合和梯度爆炸问题并没有根本解决,其网络收敛较慢,模型训练比较困难。经过研究发现,可以通过在LSTM加入残差模块(ResNet),解决在训练过程中的梯度爆炸、消失问题,并加快收敛速度。
LSTM网络具有方向性,它只能利用过去的信息,如果特征序列(x1,x2,x3,…,xT),从左到右顺序输入到LSTM,则LSTM只能利用当前序列左边的信息。然而,在基于场景图像的序列中,两个方向的上下文是相互有用且互补的。例如,一个词组“梯度”,词组的字符组合具有一定的顺序,且字符之间的联系比较紧密,若按单一方向的序列信息将导致解读特征序列的信息的效率及准确率不高,因此利用两个LSTM组成深度双向Bi-LSTM,Bi-LSTM克服了单向LSTM的缺点,可以同时根据上下文学习特征序列信息。
具体地,残差模块短接于第一Bi-LSTM网络的输入层的输出端和输出层的输入端之间,并利用残差模块将输入层对特征向量的第一转化结果与输出端和输出层之间的中间层对特征向量的第二转化结果进行合并后输入至输出层。即残差模块将特征向量中易使得第一Bi-LSTM网络梯度爆炸或消失的部分转换成第一转化结果,而中间层对特征向量中不引发第一Bi-LSTM网络梯度爆炸或消失的部分转换成第二转化结果,之后将第一转化结果和第二转化结果合并作为编码特征序列输出。
举例说明,设定F(x)是没有加入残差之前的网络,令y=F(x)。假定:x=5,F(5)=5.1,则F(x)=5.1。
设定H(x)是加入残差后的网络,y=H(x),则H(x)=F′(x)+x。同样假定:x=5,则H(5)=F′(x)+x=0.1+5,F′(x)=0.1。
在第一Bi-LSTM网络训练中,在反向传播的梯度计算中,输出对梯度的影响比较大。假定输出从5.1变为5.2,F(x)的变化为:(5.2-5.1)/5.1×100%=20%;F′(x)的变化为(5.2-5.1)/0.1×100%=100%。
通过F(x),F′(x)计算可以看出,加入残差模块后,第一Bi-LSTM网络输出变化对权重的调整作用更大,第一Bi-LSTM网络对输出变化更灵敏,在反向传播的梯度计算中,梯度不易消失,有利于第一Bi-LSTM网络的训练。
S13:利用解码用二维递归网络对编码特征序列进行解码,以获得预测标签序列。
解码用二维递归网络用于将编码特征序列转换成预测标签序列,该预测标签序列用于指示对应字符的含义。
将编码特征序列输入至二维递归网络,并利用解码用二维递归网络对编码特征序列进行解码,以获得预测标签序列。
其中,该解码用二维递归网络为第二Bi-LSTM网络。
Bi-LSTM网络是进行了序列的双向输入,产生两个方向的结果,然后进行线性变换得到最终结果。也就是说,经过一层Bi-LSTM结构,可将一个序列转换成另一个序列,相当于编译或译码的过程,经过多次的译码或编码过程得到最终的译码结果。
即第一Bi-LSTM网络为编码网络,用于将多个特征向量转换成编码特征序列。第二Bi-LSTM网络为解码网络,用于将编码特征序列解码成预测标签序列。
其中,由多个特征向量向预测标签序列的转换还存在准确率的问题,若转换结果有误差,则将导致识别出的语序和语义不准确。因而之后还执行步骤S14以对预测标签序列进行校正。
S14:利用连接时间分类模型对预测标签序列进行校正,以形成输出文本序列。
由于Bi-LSTM网络中的隐藏层序列输入长度与序列输出长度一致,因此译码出来的预测标签序列长度一般大于实际文本长度,存在着无效字符和重复字符。那么,在通过Bi-LSTM网络获得译码的序列后,可以通过与Bi-LSTM网络中最后一层Bi-LSTM网络连接的连接时间分类模型(Connectionist Temporal Classification,CTC)对字符串进行校正。
校正时,连接时间分类模型可计算多个字符标签所表征的字符所形成的至少一个输出文本中每个输出文本的概率,进而确定至少一个输出文本中概率最高的输出文本为待识别文本图像对应的识别文本。
例如,若输入识别装置的待识别文本图像中的文本为“birth”,依次通过深度卷积网络、编码用二维递归网络和解码用二维递归网络的处理后,得到n个字符标签的译码序列。连接时间分类模型使用横线代表译码序列中的无效字符,得到的译码序列为“-bb—i-rtt—h-”,则连接时间分类模型可以确定该译码序列对应的每个输出文本的概率,例如可能对应的输出文本包括bbirtth、birth或birtth,连接时间分类模型计算(例如通过正向传播公式)各个文本的概率,若确定“birth”概率最大,则得到文本识别结果为“birth”。
但连接时间分类模型每次输出都是单个字符的概率,这将导致其只是针对局部信息进行预测,忽略了整体信息,因此无法有效预测长文本序列。
因而,本申请中,连接时间分类模型进一步结合有注意力机制(AttentionMechanism,AM)。相对于CTC的局部预测,注意力机制直接预测文本序列而不需要计算隐变量和做出预测标签序列相互独立的假设,直接计算联合预测序列的概率。
具体地,利用连接时间分类模型计算由预测标签序列中的每个预测标签所表征的字符形成的多个候选文本序列中的每个候选文本序列的第一预测概率,利用注意力模型计算每个候选文本序列的第二预测概率,将每个候选文本序列的第一预测概率和第二预测概率进行合并,以获得综合预测概率,选择综合预测概率最高的候选文本序列作为输出文本序列。
其中,将每个候选文本序列的第一预测概率和第二预测概率进行合并的方式包括:将第一预测概率的对数值与第二预测概率的对数值进行加权求和。或者,将第一预测概率的数值和第二预测概率的数值进行加权求和。
连接时间分类模型结合注意力机制的方法避免了对预测标签进行额外对齐预处理和后续语法处理,在加快训练收敛速度的同时显著提高了文本识别率,对字体模糊、背景复杂的文本图像都具有很好的鲁棒性。
区别于现有技术的情况,本申请公开了一种自然场景的文本识别方法、存储装置和计算机设备。通过设置深度卷积网络对待识别图像进行特征提取,以获取多个特征向量,并利用结合有残差模块的编码用二维递归网络对多个特征向量进行编码,以获得编码特征序列,残差模块能够解决在训练过程中的梯度爆炸、消失问题并加快收敛速度,之后利用解码用二维递归网络对编码特征序列进行解码,以获得预测标签序列,利用连接时间分类模型对预测标签序列进行校正,以形成输出文本序列,从而能够提升识别准确率,改善文本识别方法的性能。
基于此,本申请还提供一种计算机设备100,请参阅图2,图2是本申请计算机设备第一实施例的结构示意图,该实施方式中,计算机设备100包括处理器110和存储器120,处理器110耦接存储器120,存储器120用于存储程序,处理器110用于执行程序以实现上述任一实施例自然场景的文本识别方法。
计算机设备100可以是编解码器。处理器110还可以称为CPU(Central ProcessingUnit,中央处理单元)。处理器110可以是一种集成电路芯片,具有信号的处理能力。处理器110还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器110可以是微处理器或者该处理器也可以是任何常规的处理器等。
基于此,本申请还提供一种存储装置200,请参阅图3,图3是本申请提供的存储装置一实施例的结构示意图,该实施方式中,存储装置200存储有程序210,程序210被执行时能够实现上述任一实施例自然场景的文本识别方法。
其中,该程序210可以以软件产品的形式存储在上述存储装置200中,包括若干指令用以使得一个设备或处理器执行本申请各个实施方式方法的全部或部分步骤。
存储装置200是计算机存储器中用于存储某种不连续物理量的媒体。而前述的具有存储功能的存储装置200包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序210代码的介质。
区别于现有技术的情况,本申请公开了一种自然场景的文本识别方法、存储装置和计算机设备。通过设置深度卷积网络对待识别图像进行特征提取,以获取多个特征向量,并利用结合有残差模块的编码用二维递归网络对多个特征向量进行编码,以获得编码特征序列,残差模块能够解决在训练过程中的梯度爆炸、消失问题并加快收敛速度,之后利用解码用二维递归网络对编码特征序列进行解码,以获得预测标签序列,利用连接时间分类模型对预测标签序列进行校正,以形成输出文本序列,从而能够提升识别准确率,改善文本识别方法的性能。
在本申请所提供的几个实施方式中,应该理解到,所揭露的系统,装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其他的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。
以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种自然场景的文本识别方法,其特征在于,包括:
利用深度卷积网络对待识别图像进行特征提取,以获取多个特征向量;
利用结合有残差模块的编码用二维递归网络对所述多个特征向量进行编码,以获得编码特征序列;
利用解码用二维递归网络对所述编码特征序列进行解码,以获得预测标签序列;
利用连接时间分类模型对所述预测标签序列进行校正,以形成输出文本序列。
2.根据权利要求1所述的方法,其特征在于,所述深度卷积网络为Yolo3网络。
3.根据权利要求1所述的方法,其特征在于,所述编码用二维递归网络为第一Bi-LSTM网络。
4.根据权利要求3所述的方法,其特征在于,所述残差模块短接于所述第一Bi-LSTM网络的输入层的输出端和输出层的输入端之间;
所述利用结合有残差模块的编码用二维递归网络对所述多个特征向量进行编码的步骤包括:
利用所述残差模块将所述输入层对所述特征向量的第一转化结果与所述输出端和输出层之间的中间层对所述特征向量的第二转化结果进行合并后输入至所述输出层。
5.根据权利要求1所述的方法,其特征在于,所述解码用二维递归网络为第二Bi-LSTM网络。
6.根据权利要求1所述的方法,其特征在于,所述连接时间分类模型进一步结合有注意力机制。
7.根据权利要求6所述的方法,其特征在于,所述利用连接时间分类模型对所述预测标签序列进行校正的步骤包括:
利用所述连接时间分类模型计算由所述预测标签序列中的每个预测标签所表征的字符形成的多个候选文本序列中的每个候选文本序列的第一预测概率;
利用注意力模型计算每个所述候选文本序列的第二预测概率;
将每个所述候选文本序列的所述第一预测概率和所述第二预测概率进行合并,以获得综合预测概率;
选择所述综合预测概率最高的所述候选文本序列作为所述输出文本序列。
8.根据权利要求7所述的方法,其特征在于,所述将每个所述候选文本序列的所述第一预测概率和所述第二预测概率进行合并的步骤包括:
将所述第一预测概率的对数值与所述第二预测概率的对数值进行加权求和。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述处理器耦接所述存储器,所述存储器用于存储程序,所述处理器用于执行所述程序以实现如权利要求1-8任一项所述的自然场景的文本识别方法。
10.一种存储装置,其特征在于,所述存储装置存储有程序,所述程序被执行时能够实现如权利要求1-8任一项所述的自然场景的文本识别方法。
CN201911143472.1A 2019-11-20 2019-11-20 自然场景的文本识别方法、存储装置和计算机设备 Pending CN111160348A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911143472.1A CN111160348A (zh) 2019-11-20 2019-11-20 自然场景的文本识别方法、存储装置和计算机设备
PCT/CN2020/129556 WO2021098689A1 (zh) 2019-11-20 2020-11-17 自然场景的文本识别方法、存储装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911143472.1A CN111160348A (zh) 2019-11-20 2019-11-20 自然场景的文本识别方法、存储装置和计算机设备

Publications (1)

Publication Number Publication Date
CN111160348A true CN111160348A (zh) 2020-05-15

Family

ID=70556023

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911143472.1A Pending CN111160348A (zh) 2019-11-20 2019-11-20 自然场景的文本识别方法、存储装置和计算机设备

Country Status (2)

Country Link
CN (1) CN111160348A (zh)
WO (1) WO2021098689A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163596A (zh) * 2020-09-04 2021-01-01 华南理工大学 复杂场景文本识别方法、系统、计算机设备及存储介质
WO2021098689A1 (zh) * 2019-11-20 2021-05-27 中国科学院深圳先进技术研究院 自然场景的文本识别方法、存储装置和计算机设备
CN113283336A (zh) * 2021-05-21 2021-08-20 湖南大学 一种文本识别方法与系统
CN113837282A (zh) * 2021-09-24 2021-12-24 上海脉衍人工智能科技有限公司 一种自然场景文本识别的方法及计算设备
CN114398486A (zh) * 2022-01-06 2022-04-26 北京博瑞彤芸科技股份有限公司 一种智能定制获客宣传语的方法和装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536782B (zh) * 2021-07-09 2023-12-26 平安国际智慧城市科技股份有限公司 敏感词识别方法、装置、电子设备及存储介质
CN113792854B (zh) * 2021-09-09 2024-02-13 北京百度网讯科技有限公司 一种模型训练及字库建立方法、装置、设备及存储介质
CN115270943B (zh) * 2022-07-18 2023-06-30 青软创新科技集团股份有限公司 一种基于注意力机制的知识标签提取模型
CN117809314A (zh) * 2023-11-21 2024-04-02 中化现代农业有限公司 文字识别方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016197381A1 (en) * 2015-06-12 2016-12-15 Sensetime Group Limited Methods and apparatus for recognizing text in an image
CN106845371A (zh) * 2016-12-31 2017-06-13 中国科学技术大学 一种城市路网机动车尾气排放遥感监控系统
CN108399419A (zh) * 2018-01-25 2018-08-14 华南理工大学 基于二维递归网络的自然场景图像中中文文本识别方法
CN108764009A (zh) * 2018-03-21 2018-11-06 苏州大学 基于深度残差长短时记忆网络的视频事件识别方法
CN109215662A (zh) * 2018-09-18 2019-01-15 平安科技(深圳)有限公司 端对端语音识别方法、电子装置及计算机可读存储介质
CN109948714A (zh) * 2019-03-22 2019-06-28 华南理工大学 基于残差卷积和递归神经网络的中文场景文本行识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107071439B (zh) * 2011-03-10 2021-12-28 夏普株式会社 图像解码装置及方法、以及记录介质
CN110321755A (zh) * 2018-03-28 2019-10-11 中移(苏州)软件技术有限公司 一种识别方法及装置
CN109492679A (zh) * 2018-10-24 2019-03-19 杭州电子科技大学 基于注意力机制与联结时间分类损失的文字识别方法
CN111160348A (zh) * 2019-11-20 2020-05-15 中国科学院深圳先进技术研究院 自然场景的文本识别方法、存储装置和计算机设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016197381A1 (en) * 2015-06-12 2016-12-15 Sensetime Group Limited Methods and apparatus for recognizing text in an image
CN106845371A (zh) * 2016-12-31 2017-06-13 中国科学技术大学 一种城市路网机动车尾气排放遥感监控系统
CN108399419A (zh) * 2018-01-25 2018-08-14 华南理工大学 基于二维递归网络的自然场景图像中中文文本识别方法
CN108764009A (zh) * 2018-03-21 2018-11-06 苏州大学 基于深度残差长短时记忆网络的视频事件识别方法
CN109215662A (zh) * 2018-09-18 2019-01-15 平安科技(深圳)有限公司 端对端语音识别方法、电子装置及计算机可读存储介质
CN109948714A (zh) * 2019-03-22 2019-06-28 华南理工大学 基于残差卷积和递归神经网络的中文场景文本行识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐克虎 等: "智能计算方法及其应用", vol. 1, 北京邮电大学出版社, pages: 154 - 155 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021098689A1 (zh) * 2019-11-20 2021-05-27 中国科学院深圳先进技术研究院 自然场景的文本识别方法、存储装置和计算机设备
CN112163596A (zh) * 2020-09-04 2021-01-01 华南理工大学 复杂场景文本识别方法、系统、计算机设备及存储介质
CN112163596B (zh) * 2020-09-04 2024-01-05 华南理工大学 复杂场景文本识别方法、系统、计算机设备及存储介质
CN113283336A (zh) * 2021-05-21 2021-08-20 湖南大学 一种文本识别方法与系统
CN113837282A (zh) * 2021-09-24 2021-12-24 上海脉衍人工智能科技有限公司 一种自然场景文本识别的方法及计算设备
CN113837282B (zh) * 2021-09-24 2024-02-02 上海脉衍人工智能科技有限公司 一种自然场景文本识别的方法及计算设备
CN114398486A (zh) * 2022-01-06 2022-04-26 北京博瑞彤芸科技股份有限公司 一种智能定制获客宣传语的方法和装置

Also Published As

Publication number Publication date
WO2021098689A1 (zh) 2021-05-27

Similar Documents

Publication Publication Date Title
CN111160348A (zh) 自然场景的文本识别方法、存储装置和计算机设备
CN110738090B (zh) 使用神经网络进行端到端手写文本识别的系统和方法
WO2023015941A1 (zh) 文本检测模型的训练方法和检测文本方法、装置和设备
CN113313022B (zh) 文字识别模型的训练方法和识别图像中文字的方法
CN109919174A (zh) 一种基于门控级联注意力机制的文字识别方法
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
US20220245347A1 (en) Entity recognition method, apparatus, electronic device and computer readable storage medium
CN115116066A (zh) 一种基于字符距离感知的场景文本识别方法
CN115578735B (zh) 文本检测方法和文本检测模型的训练方法、装置
CN116311310A (zh) 一种结合语义分割和序列预测的通用表格识别方法和装置
Li et al. Adapting clip for phrase localization without further training
CN114492646A (zh) 一种基于跨模态互注意力机制的图文匹配方法
CN116229482A (zh) 网络舆情分析中视觉多模态文字检测识别及纠错方法
Belharbi et al. Deep neural networks regularization for structured output prediction
CN113159053A (zh) 图像识别方法、装置及计算设备
CN117422065A (zh) 基于强化学习算法的自然语言数据处理系统
CN115565177B (zh) 文字识别模型训练、文字识别方法、装置、设备及介质
CN114120074B (zh) 基于语义增强的图像识别模型的训练方法和训练装置
Cai et al. HCADecoder: a hybrid CTC-attention decoder for chinese text recognition
CN115270792A (zh) 一种医疗实体识别方法及装置
Jiang et al. Text recognition in natural scenes based on deep learning
CN114299510A (zh) 一种手写英文行识别系统
CN117371447A (zh) 命名实体识别模型的训练方法、装置及存储介质
Wan et al. Contextual transformer sequence-based recognition network for medical examination reports
CN114821603B (zh) 票据识别方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination