CN111738251B - 一种融合语言模型的光学字符识别方法、装置和电子设备 - Google Patents

一种融合语言模型的光学字符识别方法、装置和电子设备 Download PDF

Info

Publication number
CN111738251B
CN111738251B CN202010867945.9A CN202010867945A CN111738251B CN 111738251 B CN111738251 B CN 111738251B CN 202010867945 A CN202010867945 A CN 202010867945A CN 111738251 B CN111738251 B CN 111738251B
Authority
CN
China
Prior art keywords
feature vector
visual
recognition
character
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010867945.9A
Other languages
English (en)
Other versions
CN111738251A (zh
Inventor
钱泓锦
刘占亮
窦志成
刘家俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhiyuan Artificial Intelligence Research Institute
Original Assignee
Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhiyuan Artificial Intelligence Research Institute filed Critical Beijing Zhiyuan Artificial Intelligence Research Institute
Priority to CN202010867945.9A priority Critical patent/CN111738251B/zh
Publication of CN111738251A publication Critical patent/CN111738251A/zh
Application granted granted Critical
Publication of CN111738251B publication Critical patent/CN111738251B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种融合语言模型的光学字符识别方法、装置和电子设备。该方法包括:提取待识别文字图片的视觉特征向量;对所述视觉特征向量进行预分类得到预分类文本序列;利用预先训练的语言模型,根据所述预分类文本序列提取语义特征向量;根据所述视觉特征向量和语义特征向量对所述待识别的文字图片进行最终分类,得到识别结果。本发明提高了OCR模型文本识别的准确率以及对于质量较差的文本图片的鲁棒性。

Description

一种融合语言模型的光学字符识别方法、装置和电子设备
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种融合语言模型的光学字符识别方法、装置和电子设备。
背景技术
OCR(Optical Character Recognition,光学字符识别)利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。
在现有的OCR系统中,先提取文字图片的视觉特征向量,再通过分类器将字符识别出来。分类器通常采用模板匹配的方式进行分类。对于文字行,通过识别出每一个字符来确定最终文字行内容。因此需要对文字行进行字符切分,以得到单个文字,其中,分割-动态规划是最常见的切分方法。由于单个字符可能会由于切分位置的原因产生多个识别结果,例如“如”字在切分不当时会被切分成“女口”,因此一种方法是对候选字符进行过分割,使其足够破碎,之后通过动态规划合并分割碎片,得到最优组合,这一过程需要人工通过特征工程设计损失函数,识别效果较差。还有另一种方法是通过滑动窗口对每一个可能的字符进行匹配,这种方法的准确率则依赖于滑动窗口的滑动窗尺寸,如果滑动窗尺寸过大会造成信息丢失,而太小则会使计算需求大幅增加。而且,若文本质量较差或者其中部分文字脏污,则更加难以准确识别文字。
上述方法通过识别每个单字符以实现全文的识别,这一过程导致了上下文信息的丢失。虽然对于单个字符有较高的识别正确率,但其条目识别正确率却难以保证。例如识别具有18个字的句子的场景下,即使单字符识别正确率高达99%,其条目正确率只能到0.9918=83%,如果切分也存在1%的损失(即正确率99%),条目正确率则只有(0.99∗0.99)18=70%。
发明内容
为了解决现有技术的不足,本发明提供了如下发明内容:
本发明一方面提供了一种融合语言模型的光学字符识别方法,包括:
提取待识别文字图片的视觉特征向量;
对所述视觉特征向量进行预分类得到预分类文本序列;
利用预先训练的语言模型,根据所述预分类文本序列提取语义特征向量;
根据所述视觉特征向量和语义特征向量对所述待识别的文字图片进行最终分类,得到识别结果。
优选地,所述提取待识别文字图片的视觉特征向量,包括:
获取待识别文字图片;
利用卷积神经网络提取待识别文字图片的视觉特征向量。
优选地,所述对所述视觉特征向量进行预分类得到预分类文本序列之后还包括:对所述预分类文本序列进行归一化处理。
优选地,所述预先训练的语言模型为基于LSTM的深度语言模型。
优选地,所述根据所述视觉特征向量和语义特征向量对所述待识别的文字图片进行最终分类得到识别结果,包括:
将所述视觉特征向量和语义特征向量融合,得到融合特征向量;
根据所述融合特征向量对所述待识别的文字图片进行分类,得到识别结果。
优选地,所述根据所述融合特征向量对所述待识别的文字图片进行分类,得到识别结果,包括:
将所述融合特征向量输入循环神经网络,得到多模态融合的特征向量;
利用分类器对所述多模态融合的特征向量进行分类,得到识别结果。
优选地,利用预先训练的OCR识别模型实施所述光学字符识别方法,在所述OCR识别模型的训练中采用如下的损失函数:
Figure 125163DEST_PATH_IMAGE001
其中,
Figure 589642DEST_PATH_IMAGE002
为最终分类步骤的CTC损失,
Figure 789679DEST_PATH_IMAGE003
为预分类和提取语义特征向量步骤的损失,
Figure 314201DEST_PATH_IMAGE004
为实时训练轮数,
Figure 620197DEST_PATH_IMAGE005
为训练总轮数,
Figure 153947DEST_PATH_IMAGE006
为可调整的参数,
Figure 208490DEST_PATH_IMAGE006
大于0且小于1。
本发明的另一方面提供了一种融合语言模型的光学字符识别装置,包括:
视觉特征向量提取模块,用于提取待识别文字图片的视觉特征向量;
预分类模块,用于对所述视觉特征向量进行预分类得到预分类文本序列;
语义特征提取模块,用于利用预先训练的语言模型,根据所述预分类文本序列提取语义特征向量;
最终分类模块,用于根据所述视觉特征向量和语义特征向量对所述待识别的文字图片进行最终分类,得到识别结果。
本发明还提供了一种存储器,存储有多条指令,所述指令用于实现上述的方法。
本发明还提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行上述的方法。
本发明的有益效果是:本发明提供的技术方案,首先提取待识别文字图片的视觉特征向量,然后对视觉特征向量进行预分类,得到预分类文本序列,再然后提取预分类文本序列的语义特征向量,最后根据语义特征向量与视觉特征向量对待识别的文字图片进行分类,得到识别结果。该技术方案将字符级语言模型引入OCR系统,融合了文本图片的视觉信息和语义信息,不仅提高了OCR模型识别准确率,而且提高了OCR模型对于质量较差的文本图片的鲁棒性;另外,本发明提供的方法使用的损失函数,保证了OCR识别模型的训练效果,且收敛速度更快,能收敛到较小损失得分;而且,该损失函数也解决了训练前期由于预分类准确性不高而导致语义信息噪音较大的问题。
附图说明
图1为本发明所述融合语言模型的光学字符识别方法流程示意图;
图2为本发明所述融合语言模型的光学字符识别方法具体应用过程示意图;
图3为本发明所述融合语言模型的光学字符识别装置结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
在现有的OCR文本识别中,字符串的语义信息完全被忽略,如若文本质量较差或者其中部分文字脏污,最终的文字识别结果会比较差。
文字作为语言的一种表达形式,其字符间拥有很强的依赖关系,如果能将这样的语义信息引入OCR系统,会给模型的表现带来很大的提升。
语言模型是自然语言任务的基石。总的来说,语言模型是在大规模未标注文本数据上训练出来的模型,旨在发现文本字符间的语义依赖关系。
得益于神经网络模型的蓬勃发展,近年来深度语言模型大放异彩。这些模型中大部分都是词级别的,例如Word2Vec,ELMo,BERT等,它们极大地促进自然语言相关任务的发展。同时也有一些基于字符的语言模型,能够挖掘更细粒度的字符间语义依赖关系,例如Flair。这些语言模型在文本生成任务上表现优异,有的时候甚至能媲美人类,例如GPT2。
本发明提供的方法将语言模型引入OCR模型,通过从预分类结果中获取语义信息,再融合语义信息和视觉信息进行字符识别,提升了识别的准确率。另外,通过提出全新设计的损失函数,使得本发明提供的方法的精度和适用性更好。
本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。存储器可用于存储指令、程序、代码、代码集或指令。
显示屏用于显示各个应用程序的用户界面。
除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
实施例一
如图1所示,本发明实施例提供了一种融合语言模型的光学字符识别方法,包括:
S101,提取待识别文字图片的视觉特征向量;
S102,对所述视觉特征向量进行预分类得到预分类文本序列;
S103,利用预先训练的语言模型,根据所述预分类文本序列提取语义特征向量;
S104,根据所述视觉特征向量和语义特征向量对所述待识别的文字图片进行最终分类,得到识别结果。
上述方法中,首先获取待识别文字图片,然后提取其视觉特征向量。得到视觉特征向量之后,对其进行预分类,得到预分类文本序列。由于预分类过程中,是通过识别每个单字符以实现全文的识别,这一过程导致了上下文信息的丢失,所以即使每个字符的识别正确率高达99%,文字条目的正确率也很低。本发明中,在得到预分类文本序列后,提取其语义特征向量,然后根据语义特征向量与视觉特征向量对待识别的文字图片进行分类。该方法中,通过将语言模型引入OCR模型中,使语义信息和视觉信息融合后进行字符识别,提升了文字图片的识别准确率。
执行步骤S101,提取待识别文字图片的视觉特征向量,包括:
获取待识别文字图片;
利用卷积神经网络提取待识别文字图片的视觉特征向量。
卷积神经网络(Convolutional Neural Network CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元。卷积神经网络由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成,同时也包括关联权重和池化层(poolinglayer)。这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网络在图像和语音识别方面能够给出更好的结果。
在实际应用过程中,将待识别文字图片输入到卷积神经网络中,利用卷积神经网络提取待识别文字图片的视觉特征向量。
执行步骤S102,对所述视觉特征向量进行预分类得到预分类文本序列。具体为,使用辅助分类器对所述视觉特征向量进行预分类得到预分类文本序列。
这个过程可以写成:S0=argmax(Linear 0(R v ))。
其中,S0表示预分类文本序列,R v 表示卷积神经网络提取的视觉特征向量,Linear 0()表示全连接层。
在本发明的一个优选实施例中,在得到预分类文本序列后,对其进行归一化处理。
执行步骤S103,利用预先训练的语言模型,根据所述预分类文本序列提取语义特征向量。
其中,预先训练的语言模型为基于LSTM的深度语言模型。
实际应用时,将所述预分类文本序列输入到预先训练的基于LSTM的深度语言模型中,得到语义特征向量;
这个过程可以表示为:R n =Linear 1(LM(S0))。
其中,R n 表示语义特征向量,LM()表示基于LSTM的深度语言模型,S0表示预分类文本序列,Linear 1()表示全连接层。
执行步骤S104,根据所述视觉特征向量和语义特征向量对所述待识别的文字图片进行最终分类,得到识别结果。具体包括:
将所述视觉特征向量和语义特征向量融合,得到融合特征向量,其中,所述融合特征向量与视觉特征向量等宽,即向量的长度相同;
这个过程可以表示为:R f :=[R v ;R n ]
其中,R f 表示融合特征向量,R v 表示卷积神经网络提取的视觉特征向量,R n 表示语义特征向量。
将所述融合特征向量输入循环神经网络,得到多模态融合的特征向量;
利用分类器对所述多模态融合的特征向量进行分类,得到识别结果。
其中,辅助分类器和分类器可采用现有的分类方法,其可以相同或不同。
本发明提供的融合语言模型的光学字符识别方法,实际应用过程可如图2所示,具体为:先使用卷积神经网络对图2顶部包含不完整的字母“P”的文字图片进行视觉特征的提取,使用辅助分类器对视觉信息进行预分类,得到预分类文本序列,然后将这个预分类文本序列先归一化,然后输入预训练的深度语言模型,得到编码这个序列的语义特征向量。在预测下一个字符的时候,再将这个融合了视觉信息和语义信息的融合特征向量输入分类器,得到最终预测的序列。
在本发明的一个优选实施例中,利用预先训练的OCR识别模型实施所述光学字符识别方法,在所述OCR识别模型的训练中采用如下的损失函数:
Figure 169493DEST_PATH_IMAGE007
其中,
Figure 942277DEST_PATH_IMAGE008
为最终分类步骤的CTC损失,
Figure 951821DEST_PATH_IMAGE009
为预分类和提取语义特征向量步骤的损失,
Figure 923188DEST_PATH_IMAGE004
为实时训练轮数,
Figure 992776DEST_PATH_IMAGE005
为训练总轮数,
Figure 252856DEST_PATH_IMAGE006
为可调整的参数,
Figure 862828DEST_PATH_IMAGE006
大于0且小于1。
Figure 157544DEST_PATH_IMAGE010
Figure 165076DEST_PATH_IMAGE011
可采用现有方法计算得到,
Figure 974769DEST_PATH_IMAGE006
可根据实际情况及经验进行设置。
在实际应用本发明方法的过程中发现,如果只进行CTC损失计算,对视觉特征向量进行预分类的步骤中会产生非常大的噪音,尤其是模型训练之初,噪音尤其大,导致OCR识别模型未能收敛,最终无法得到识别结果。如果在计算最终分类的CTC损失的同时,计算预分类步骤的损失,并按照相同的损失函数进行反向传播,由于模型训练之初,预分类步骤的噪音大,同样使得OCR识别模型未能收敛,最终无法得到识别结果。
基于上述发现,本发明实施例中,OCR识别模型训练过程中,同时计算预分类和提取语义特征向量步骤的损失以及最终分类步骤的CTC损失,在反向传播时,采用了如下的损失函数计算损失:
Figure 919591DEST_PATH_IMAGE007
采用这个损失函数,预分类和提取语义特征向量步骤的结果对最终的模型影响很小,得到了收敛的OCR识别模型,最终得到了识别结果,而且收敛速度快。解决了训练前期由于预分类准确性不高而导致语义信息噪音较大的问题。
本发明实施例中,当OCR识别模型训练完成后,可以部署该模型,对文本图片进行字符识别。
本发明提供的上述方法,具有如下的有益效果:
(1)本发明提供的方法,将字符级深度语言模型引入OCR系统,以增强OCR系统的识别准确率。相比现有的OCR模型的字符识别方法,本发明提供的方法中,融合了文本图片的视觉信息和语义信息,不仅提高了OCR模型识别准确率,而且提高了OCR模型对于质量较差的文本图片的鲁棒性。
(2)本发明的方法中提供了新的损失函数,保证了OCR识别模型的训练效果,收敛速度更快,且能收敛到较小损失得分;另外,该损失函数也解决了训练前期由于预分类准确性不高而导致语义信息噪音较大的问题。
(3)本发明提供的方法采用二次分类的流程,基于预分类能够有效提取语义特征,再将视觉特征和语义特征融合进行分类,能够提高识别准确率,且采用该流程便于对实施方法的模型进行训练和优化。
(4)本发明提供的方法中,提取视觉信息的卷积神经网络模块不限于具体网络架构;提取文本语义信息的模块不限于具体深度语言模型。同时,本发明提供的方法不限于具体语种,适用于所有语言。
实施例二
如图3所示,本发明的另一方面还包括和前述方法流程完全对应一致的功能模块架构,即本发明实施例还提供了一种融合语言模型的光学字符识别装置,包括:
视觉特征向量提取模块201,用于提取待识别文字图片的视觉特征向量;
预分类模块202,用于对所述视觉特征向量进行预分类得到预分类文本序列;
语义特征提取模块203,用于利用预先训练的语言模型,根据所述预分类文本序列提取语义特征向量;
最终分类模块204,用于根据所述视觉特征向量和语义特征向量对所述待识别的文字图片进行最终分类,得到识别结果。
进一步地,所述视觉特征向量提取模块进一步包括:
获取子模块,用于获取待识别文字图片;
卷积神经网络,用于提取待识别文字图片的视觉特征向量。
进一步地,所述装置还包括归一化处理模块,用于对所述预分类文本序列进行归一化处理。
进一步地,所述语义特征提取模块包括语言模型,所述语言模型可选地为基于LSTM的深度语言模型。
进一步地,所述最终分类模块具体包括:
融合子模块,用于将所述视觉特征向量和语义特征向量融合,得到融合特征向量;
分类子模块,用于根据所述融合特征向量对所述待识别的文字图片进行分类,得到识别结果。
其中,所述分类子模块进一步包括:
循环神经网络,用于根据所述融合特征向量得到多模态融合的特征向量;
分类器,用于对所述多模态融合的特征向量进行分类,得到识别结果。
进一步地,所述融合语言模型的光学字符识别装置实现为OCR识别模型,在所述OCR识别模型的训练中采用如下的损失函数:
Figure 803234DEST_PATH_IMAGE007
其中,
Figure 274011DEST_PATH_IMAGE008
为最终分类步骤的CTC损失,
Figure 977525DEST_PATH_IMAGE009
为预分类和提取语义特征向量步骤的损失,
Figure 726038DEST_PATH_IMAGE004
为实时训练轮数,
Figure 526504DEST_PATH_IMAGE005
为训练总轮数,
Figure 171111DEST_PATH_IMAGE006
为可调整的参数,
Figure 893080DEST_PATH_IMAGE006
大于0且小于1。
该装置可实现实施例一提供的融合语言模型的光学字符识别方法,具体的方法步骤可参见实施例一中的描述,在此不再赘述。
本发明还提供了一种存储器,存储有多条指令,所述指令用于实现如实施例一所述的方法。
本发明还提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如实施例一所述的方法。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种融合语言模型的光学字符识别方法,其特征在于,包括:
提取待识别文字图片的视觉特征向量;
对所述视觉特征向量进行预分类得到预分类文本序列;
利用预先训练的语言模型,根据所述预分类文本序列提取语义特征向量;
根据所述视觉特征向量和语义特征向量对所述待识别的文字图片进行最终分类,得到识别结果,包括:将所述视觉特征向量和语义特征向量融合,得到融合特征向量;将所述融合特征向量输入循环神经网络,得到多模态融合的特征向量;利用分类器对所述多模态融合的特征向量进行分类,得到识别结果;
利用预先训练的OCR识别模型实施所述光学字符识别方法,在所述OCR识别模型的训练中采用如下的损失函数:
Figure DEST_PATH_IMAGE002
,
其中,L CTC 为最终分类步骤的CTC损失,
Figure DEST_PATH_IMAGE003
为预分类和提取语义特征向量步骤的损失,
Figure DEST_PATH_IMAGE004
为实时训练轮数,
Figure DEST_PATH_IMAGE005
为训练总轮数,
Figure DEST_PATH_IMAGE006
为可调整的参数,
Figure 163443DEST_PATH_IMAGE006
大于0且小于1。
2.如权利要求1所述的融合语言模型的光学字符识别方法,其特征在于,所述提取待识别文字图片的视觉特征向量,包括:
获取待识别文字图片;
利用卷积神经网络提取待识别文字图片的视觉特征向量。
3.如权利要求1所述的融合语言模型的光学字符识别方法,其特征在于,所述对所述视觉特征向量进行预分类得到预分类文本序列之后还包括:对所述预分类文本序列进行归一化处理。
4.如权利要求1所述的融合语言模型的光学字符识别方法,其特征在于,所述预先训练的语言模型为基于LSTM的深度语言模型。
5.一种融合语言模型的光学字符识别装置,其特征在于,包括:
视觉特征向量提取模块,用于提取待识别文字图片的视觉特征向量;
预分类模块,用于对所述视觉特征向量进行预分类得到预分类文本序列;
语义特征提取模块,用于利用预先训练的语言模型,根据所述预分类文本序列提取语义特征向量;
最终分类模块,用于根据所述视觉特征向量和语义特征向量对所述待识别的文字图片进行最终分类,得到识别结果;所述最终分类模块具体包括:融合子模块,用于将所述视觉特征向量和语义特征向量融合,得到融合特征向量;循环神经网络,用于根据所述融合特征向量得到多模态融合的特征向量;分类器,用于对所述多模态融合的特征向量进行分类,得到识别结果;
所述融合语言模型的光学字符识别装置实现为OCR识别模型,在所述OCR识别模型的训练中采用如下的损失函数:
Figure DEST_PATH_IMAGE002A
,
其中,L CTC 为最终分类步骤的CTC损失,
Figure 270989DEST_PATH_IMAGE003
为预分类和提取语义特征向量步骤的损失,
Figure 103947DEST_PATH_IMAGE004
为实时训练轮数,
Figure 309800DEST_PATH_IMAGE005
为训练总轮数,
Figure 161081DEST_PATH_IMAGE006
为可调整的参数,
Figure 168089DEST_PATH_IMAGE006
大于0且小于1。
6.一种存储器,其特征在于,存储有多条指令,所述指令用于实现如权利要求1-4任一项所述的方法。
7.一种电子设备,其特征在于,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如权利要求1-4任一项所述的方法。
CN202010867945.9A 2020-08-26 2020-08-26 一种融合语言模型的光学字符识别方法、装置和电子设备 Active CN111738251B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010867945.9A CN111738251B (zh) 2020-08-26 2020-08-26 一种融合语言模型的光学字符识别方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010867945.9A CN111738251B (zh) 2020-08-26 2020-08-26 一种融合语言模型的光学字符识别方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN111738251A CN111738251A (zh) 2020-10-02
CN111738251B true CN111738251B (zh) 2020-12-04

Family

ID=72658892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010867945.9A Active CN111738251B (zh) 2020-08-26 2020-08-26 一种融合语言模型的光学字符识别方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN111738251B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257426A (zh) * 2020-10-14 2021-01-22 北京一览群智数据科技有限责任公司 一种文字识别方法、系统、训练方法、存储介质及设备
CN112612911A (zh) * 2020-12-30 2021-04-06 华为技术有限公司 一种图像处理方法、系统、设备及介质、程序产品
CN112733768B (zh) * 2021-01-15 2022-09-09 中国科学技术大学 基于双向特征语言模型的自然场景文本识别方法及装置
CN112633423B (zh) * 2021-03-10 2021-06-22 北京易真学思教育科技有限公司 文本识别模型的训练方法、文本识别方法、装置及设备
CN113033431B (zh) * 2021-03-30 2023-08-08 北京百度网讯科技有限公司 光学字符识别模型训练和识别方法、装置、设备及介质
CN113343981A (zh) * 2021-06-16 2021-09-03 北京百度网讯科技有限公司 一种视觉特征增强的字符识别方法、装置和设备
CN113435210A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 社交图片文本识别方法、装置、计算机设备及存储介质
CN113591864B (zh) * 2021-07-28 2023-04-07 北京百度网讯科技有限公司 文本识别模型框架的训练方法、装置及系统
CN113657274B (zh) * 2021-08-17 2022-09-20 北京百度网讯科技有限公司 表格生成方法、装置、电子设备及存储介质
CN114694152B (zh) * 2022-04-01 2023-03-24 江苏行声远科技有限公司 基于三源ocr结果的印刷文本可信度融合方法及装置
CN114520693B (zh) * 2022-04-20 2022-06-17 北京邮电大学 一种面向文本传输的语义光通信系统和方法
CN117917702A (zh) * 2022-10-20 2024-04-23 华为技术有限公司 一种数据处理方法及相关设备
CN116071759B (zh) * 2023-03-06 2023-07-18 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种融合gpt2预训练大模型的光学字符识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376658A (zh) * 2018-10-26 2019-02-22 信雅达系统工程股份有限公司 一种基于深度学习的ocr方法
CN109582972A (zh) * 2018-12-27 2019-04-05 信雅达系统工程股份有限公司 一种基于自然语言识别的光学字符识别纠错方法
CN109753966A (zh) * 2018-12-16 2019-05-14 初速度(苏州)科技有限公司 一种文字识别训练系统及方法
CN110298338A (zh) * 2019-06-20 2019-10-01 北京易道博识科技有限公司 一种文档图像分类方法及装置
US20200117961A1 (en) * 2018-05-18 2020-04-16 Sap Se Two-dimensional document processing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200117961A1 (en) * 2018-05-18 2020-04-16 Sap Se Two-dimensional document processing
CN109376658A (zh) * 2018-10-26 2019-02-22 信雅达系统工程股份有限公司 一种基于深度学习的ocr方法
CN109753966A (zh) * 2018-12-16 2019-05-14 初速度(苏州)科技有限公司 一种文字识别训练系统及方法
CN109582972A (zh) * 2018-12-27 2019-04-05 信雅达系统工程股份有限公司 一种基于自然语言识别的光学字符识别纠错方法
CN110298338A (zh) * 2019-06-20 2019-10-01 北京易道博识科技有限公司 一种文档图像分类方法及装置

Also Published As

Publication number Publication date
CN111738251A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN111738251B (zh) 一种融合语言模型的光学字符识别方法、装置和电子设备
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
US20220351487A1 (en) Image Description Method and Apparatus, Computing Device, and Storage Medium
CN107239560B (zh) 一种基于深度学习的文本蕴含关系识别方法
CN110114776A (zh) 使用全卷积神经网络的字符识别的系统和方法
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN113035311A (zh) 一种基于多模态注意力机制的医学图像报告自动生成方法
CN106227836B (zh) 基于图像与文字的无监督联合视觉概念学习系统及方法
CN111985525A (zh) 基于多模态信息融合处理的文本识别方法
CN111581970A (zh) 一种网络语境的文本识别方法、装置及存储介质
CN110991515B (zh) 一种融合视觉上下文的图像描述方法
CN114722822B (zh) 命名实体识别方法、装置、设备和计算机可读存储介质
Tymoshenko et al. Real-Time Ukrainian Text Recognition and Voicing.
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
CN111680684A (zh) 一种基于深度学习的书脊文本识别方法、设备及存储介质
CN112015903B (zh) 题目判重方法、装置、存储介质、计算机设备
CN116167362A (zh) 模型训练方法、中文文本纠错方法、电子设备和存储介质
CN114298031A (zh) 文本处理方法、计算机设备及存储介质
CN115661846A (zh) 数据处理方法、装置、电子设备和存储介质
CN112528653A (zh) 短文本实体识别方法和系统
CN110750669B (zh) 一种图像字幕生成的方法及系统
CN115359323B (zh) 图像的文本信息生成方法和深度学习模型的训练方法
CN115130437B (zh) 一种文档智能填写方法、装置及存储介质
Kaddoura A Primer on Generative Adversarial Networks
CN114332476A (zh) 维语识别方法、装置、电子设备、存储介质和产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant