CN113591862A - 文本识别的方法及装置 - Google Patents

文本识别的方法及装置 Download PDF

Info

Publication number
CN113591862A
CN113591862A CN202110782638.5A CN202110782638A CN113591862A CN 113591862 A CN113591862 A CN 113591862A CN 202110782638 A CN202110782638 A CN 202110782638A CN 113591862 A CN113591862 A CN 113591862A
Authority
CN
China
Prior art keywords
text
feature map
input image
image
text recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110782638.5A
Other languages
English (en)
Inventor
崔淼
陈成才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xiaoi Robot Technology Co Ltd
Original Assignee
Shanghai Xiaoi Robot Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xiaoi Robot Technology Co Ltd filed Critical Shanghai Xiaoi Robot Technology Co Ltd
Priority to CN202110782638.5A priority Critical patent/CN113591862A/zh
Publication of CN113591862A publication Critical patent/CN113591862A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种文本识别的方法及装置,该方法包括:对输入图像中文本的方向进行矫正,得到候选图像,所述输入图像为建筑图像;获取所述候选图像的特征图;基于所述文本的上下文信息对所述特征图进行特征增强,得到目标特征图;基于所述目标特征图进行文本识别,得到所述输入图像的文本识别结果。本申请实施例中的方法能够提高文本识别的准确率。

Description

文本识别的方法及装置
技术领域
本申请涉及图像识别技术领域,具体涉及一种文本识别的方法及装置。
背景技术
随着人工智能的快速发展,图像识别技术在各个领域得到了广泛的应用,而作为其重要应用方向的光学字符识别(optical character recognition,OCR)也受到了越来越多的关注。
目前,建筑设计行业通常使用计算机辅助设计(computer aided design,CAD)软件绘制建筑设计图,绘制好的建筑设计图需要进行审核,以判断其是否存在违背国家标准的地方。目前,主要依靠经验丰富的工程师来对建筑设计图进行审核,但是,审核任务的工作量大、效率低。因此,使用计算机代替人工进行自动化审图已迫在眉睫。
建筑设计图中通常包括图纸名称、描述信息、图纸编号等各种文字,为了实现自动化审图,需要准确地检测出建筑设计图中的文字。但是,建筑设计图中往往包括很多线条和构件,会对其文字的识别造成影响,从而导致文字识别的精度不高。
发明内容
有鉴于此,本申请实施例致力于提供一种文本识别的方法及装置,能够提高文本识别的准确率。
第一方面,提供了一种文本识别的方法,该方法包括:对输入图像中文本的方向进行矫正,得到候选图像,所述输入图像为建筑图像;获取所述候选图像的特征图;基于所述文本的上下文信息对所述特征图进行特征增强,得到目标特征图;基于所述目标特征图进行文本识别,得到所述输入图像的文本识别结果。
在本申请实施例中,对输入图像中文本的方向进行矫正,可以使所述输入图像中文本的方向一致,能够有效降低文本识别的难度,基于所述文本的上下文信息进行特征增强,可以提高所述目标特征图中文本特征的鲁棒性,此时,基于所述目标特征图进行文本识别,能够提高文本识别的准确率。
可选地,所述对输入图像中文本的方向进行矫正,得到候选图像,包括:对所述输入图像进行语义分割,得到语义分割图,所述语义分割图用于指示所述输入图像中的文本;基于所述语义分割图对输入图像进行文本检测,得到文本检测结果,所述文本检测结果用于指示所述输入图像中的文本区域;基于所述文本检测结果对所述文本的方向进行矫正,得到所述候选图像。
可选地,所述候选图像中文本的方向一致。
可选地,所述基于所述文本的上下文信息对所述特征图进行增强,得到目标特征图,包括:使用深度学习模型,基于所述文本的上下文信息对所述特征图进行增强,得到目标特征图,所述深度学习模型包括由编码器、解码器及注意力机制组成的双向模型结构。
在本申请实施例中,使用深度学习模型,基于所述文本的上下文信息对所述特征图进行增强,可以使所述目标特征图中融入所述上下文信息(比如各文字之间的关联或依赖特征),降低所述输入图像中的背景干扰,提高所述目标特征图中文本特征的鲁棒性,此时,基于所述目标特征图进行文本识别,能够提高文本识别的准确率。
可选地,所述深度学习模型可以为双向transformer模型。
可选地,所述使用深度学习模型,基于所述文本的上下文信息对所述特征图进行增强,得到目标特征图,包括:使用特征金字塔网络对所述特征图进行卷积,得到多尺度特征图;使用所述深度学习模型,基于所述文本的上下文信息对所述多尺度特征图进行增强,得到目标特征图。
在本申请实施例中,使用特征金字塔网络确定所述多尺度特征图,可以提高模型(即文本识别模型)的感受野,此时,使用所述深度学习模型对所述多尺度特征图进行增强得到目标特征图,并基于所述目标特征图进行文本识别,能够提高文本识别的准确率。
可选地,所述基于所述目标特征图进行文本识别,得到所述输入图像的文本识别结果,包括:使用连接时序分类CTC模型基于所述目标特征图进行文本识别,得到所述文本识别结果。
可选地,所述获取所述候选图像的特征图,包括:使用轻量级网络提取所述候选图像的特征图。
在本申请实施例中,使用轻量级网络提取所述候选图像的特征图,可以提高模型(即文本识别模型)的运行速度,从而能够提高文本识别的效率。
可选地,所述轻量级网络由分离卷积、包括3x3卷积的瓶颈层及池化层组成。
第二方面,提供了一种文本识别的装置,包括:文本检测单元,用于对输入图像进行文本检测,得到文本检测结果,所述文本检测结果用于指示所述输入图像中的文本区域,所述输入图像为建筑图像;矫正单元,用于基于所述文本检测结果对所述文本的方向进行矫正,得到候选图像,所述输入图像为建筑图像;获取单元,用于获取所述候选图像的特征图;特征增强单元,用于基于所述文本的上下文信息对所述特征图进行特征增强,得到目标特征图;文本识别单元,用于基于所述目标特征图进行文本识别,得到所述输入图像的文本识别结果。
第三方面,本发明提供了一种文本识别的装置,所述装置用于执行所述第一方面或者第一方面的任一可能的实现方式中的方法。
第四方面,提供了一种文本识别的装置,所述装置包括存储介质和处理器,所述存储介质可以是非易失性存储介质,所述存储介质中存储有计算机可执行程序,所述处理器与所述非易失性存储介质连接,并执行所述计算机可执行程序以实现所述第一方面或者第一方面的任一可能的实现方式中的方法。
第五方面,提供一种芯片,所述芯片包括处理器与数据接口,所述处理器通过所述数据接口读取存储器上存储的指令,执行第一方面或第一方面的任一可能的实现方式中的方法。
可选地,作为一种实现方式,所述芯片还可以包括存储器,所述存储器中存储有指令,所述处理器用于执行所述存储器上存储的指令,当所述指令被执行时,所述处理器用于执行第一方面或第一方面的任一可能的实现方式中的方法。
第六方面,提供一种计算机可读存储介质,所述计算机可读介质存储用于设备执行的程序代码,所述程序代码包括用于执行第一方面或者第一方面的任一可能的实现方式中的方法的指令。
在本申请实施例中,对输入图像中文本的方向进行矫正,可以使所述输入图像中文本的方向一致,能够有效降低文本识别的难度,基于所述文本的上下文信息进行特征增强,可以提高所述目标特征图中文本特征的鲁棒性,此时,基于所述目标特征图进行文本识别,能够提高文本识别的准确率。
附图说明
图1为适用于本申请实施例的一个应用场景图。
图2为本申请一个实施例中的文本识别的方法的示意性框图。
图3为本申请另一个实施例中的文本识别的方法的示意性框图。
图4为本申请一个实施例中的文本识别模型的结构示意图。
图5为本申请一个实施例中的文本识别的装置的示意性框图。
图6为本申请另一个实施例中的文本识别的装置的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例中的方法可以应用于各种对待处理图像进行图像处理的场景,本申请实施例中对此并不限定。例如,本申请实施例中的方法可以应用于对建筑图像进行文本识别的场景。
图1为适用于本申请实施例的一个应用场景图。图1中的应用场景100可以包括待处理图像110及图像处理装置120。
需要说明的是,图1所示的应用场景仅为示例而非限定,图1所示的应用场景中可以包括更多或更少的装置或设备,本申请实施例中对此并不限定。
其中,所述待处理图像110可以为基于计算机辅助设计(computer aided design,CAD)得到的建筑设计图,该待处理图像110中可以包括一个或多个文字,这些文字可以用于表示图纸名称、描述信息、图纸编号等内容,本申请实施例中对所述待处理图像110中包含的文字的个数或类型并不限定。
为了便于描述,本申请实施例中可以将待处理图像110中的文字组成的短语或句子等统一称为文本(或者也可以称为文本行),本申请实施例中对所述待处理图像110中包含的文本的个数并不限定。
例如,待处理图像110可以为使用AutoCAD软件绘制的建筑图像(或者也可以称为建筑设计图像),所述待处理图像100中可以包括图纸名称、描述信息、图纸编号或其他描述或说明文字。或者,待处理图像110也可以为使用其他方法或其他CAD软件绘制的建筑图像,本申请实施例中对建筑图像的类型和格式等并不限定。
所述图像处理装置120可以为计算机设备、服务器(例如,云端服务器)或其他能够对待处理图像进行图像处理(例如,基于建筑图像进行文本识别)的装置或设备。
例如,所述图像处理装置120可以为计算机设备,所述计算机设备可以是通用型计算机或者由专用的集成电路组成的计算机装置等,本申请实施例中对此不做限定。
本领域技术人员可以知晓,上述计算机设备的数量可以为一个或大于一个,多个计算机设备的类型可以相同或者不同。本申请实施例中对终端的数量和设备类型不加以限定。
计算机设备中可以部署有神经网络模型,用于对待处理图像进行图像处理,得到用于指示待处理图像的图像处理结果。
例如,计算机设备可以通过其中部署的神经网络模型(例如,所述神经网络模型可以为文本识别模型)对建筑图像(即待处理图像)进行文本识别,以得到建筑图像的文本识别结果。
计算机设备可以为服务器或云端服务器,直接对待处理图像进行图像处理。
或者,计算机设备也可以与服务器(图1中未示出)之间通过通信网络相连。计算机设备可以将其待处理图像等发送给服务器,利用服务器中的神经网络模型对待处理图像进行图像处理,并且将得到的图像处理结果(如待处理图像的文本识别结果)存储为样本图像,以对服务器中的神经网络模型进行训练,得到用于进行图像处理的神经网络模型。
计算机设备还可以从服务器中获取待处理图像,进而通过神经网络模型对待处理图像进行图像处理,以得到待处理图像的图像处理结果(如待处理图像的文本识别结果),本申请实施例中对具体的实现方式并不做限定。
通常,建筑设计图中会包括图纸名称、描述信息、图纸编号等各种文字。为了实现自动化审图,需要准确地检测出建筑设计图中的文字。但是,建筑设计图中的背景对文本识别干扰很大,例如,建筑设计图中往往包括很多线条和构件,会出现文字、线条及构件与文字重叠等情况,而且文字的样式也比较多(例如,建筑设计图中会出现各种方向的文字),这些都会对建筑设计图中文字的识别造成影响,从而导致文字识别的精度不高。
基于上述问题,本申请实施例中提出一种文本识别的方法,能够提高文本识别的准确率。
图2是本申请一个实施例的文本识别的方法200的示意性框图。所述方法200可以由图1中的所述图像处理装置120执行,应理解,图2示出了方法200的步骤或操作,但这些步骤或操作仅是示例,本申请实施例还可以执行其他操作或者图2中方法200的各个操作的变形,或者,并不是所有步骤都需要执行,或者,这些步骤可以按照其他顺序执行。所述方法200可以包括步骤S210至S240,具体如下:
S210,对输入图像中文本的方向进行矫正,得到候选图像。
其中,所述输入图像可以为图1中的待处理图像110。可选地,所述输入图像可以为建筑图像(或者,也可以称为建筑设计图),所述输入图像中可以包括一个或多个文字。
可选地,该一个或多个文字还可以组成一个或多个文本(或者也可以称为文本行)。本申请实施例中对文本中文字的排列方式并不限定,例如,所述输入图像中文本中的文字可以按直线排列,或者,也可以按曲线,或者,还可以按其他任意线条或形式排列。
可选地,所述输入图像中包括的文本的方向可以不同。例如,所述输入图像中可以包括竖的(90度或270度)文字、颠倒的(180度)文字,或者,也可以包括其他任意方向(或任意角度)的文字。
在一些实施例中,对输入图像中文本的方向进行矫正,是指使所述输入图像中各文本的方向一致,也就是说,矫正后得到的所述候选图像中文本的方向一致。
例如,可以将所述输入图像中文本的方向矫正为水平(0度)。当然,也可以将所述输入图像中文本的方向矫正为其他任意方向(或任意角度),本申请实施例中对此并不限定。
进一步地,也可以对所述输入图像中文本中的文字的方向进行矫正。例如,可以对所述输入图像中文本进行透视变化(或称为透视变形),以矫正该文本中的文字的方向(或角度)。透视变化(或称为透视变形)的具体方法可以参考现有技术,本申请实施例对此不再赘述。当然,也可以使用其他方法矫正文字的方向,本申请实施例对此不再赘述。
可选地,可以对所述输入图像中文本中的文字的方向进行矫正,以使得所述输入图像中各文本中的文字的方向(或角度)均一致。
在一些实施例中,在S210中,可以对所述输入图像进行语义分割,得到语义分割图;可以基于所述语义分割图对输入图像进行文本检测,得到文本检测结果;可以基于所述文本检测结果对所述文本的方向进行矫正,得到所述候选图像。
其中,所述语义分割图可以用于指示所述输入图像中的文本,所述文本检测结果可以用于指示所述输入图像中的文本区域。
例如,可以使用语义分割模型对所述输入图像进行语义分割,得到语义分割图,可以基于预设的阈值将该语义分割图转换为二值图(例如,可以将语义分割图中大于或等于该阈值的元素置为1,将小于该阈值的元素置为0,具体方法不做限定),随后,可以使用聚合操作(例如连通域操作等)将该二值图转换为文本检测结果,最后,可以基于该文本检测结果对所述输入图像中文本的方向进行矫正,得到候选图像。
S220,获取所述候选图像的特征图。
在一些实施例中,可以使用轻量级网络提取所述候选图像的特征图。这样,可以提高模型(即文本识别模型)的运行速度,从而能够提高文本识别的效率。
可选地,所述轻量级网络可以由分离卷积、瓶颈层及池化层组成,所述瓶颈层可以包括3x3卷积。
例如,所述轻量级网络可以为ShuffleNetV2网络。当然,在本申请实施例中也可以使用其他轻量级网络,本申请实施例中对此并不限定。
例如,如图4所示,可以选择ShuffleNetV2网络的前4层作为骨干网络,将ShuffleNetV2网络中第一阶段的第二块对应的层(stage1/block2层)作为基础层,提取所述候选图像的特征图。具体的实施例可以如图3中方法300所述,这里不再赘述。
S230,基于所述文本的上下文信息对所述特征图进行特征增强,得到目标特征图。
在一些实施例中,在所述S230中可以使用深度学习模型,基于所述文本的上下文信息对所述特征图进行增强,得到目标特征图。
在本申请实施例中,使用深度学习模型,基于所述文本的上下文信息对所述特征图进行增强,可以使所述目标特征图中融入所述上下文信息(比如各文字之间的关联或依赖特征),降低所述输入图像中的背景干扰,提高所述目标特征图中文本特征的鲁棒性,此时,基于所述目标特征图进行文本识别,能够提高文本识别的准确率。
其中,所述深度学习模型可以包括由编码器、解码器及注意力机制组成的双向模型结构。
例如,所述深度学习模型可以为双向transformer模型。
当然,所述深度学习模型也可以为能够提取所述输入图像中各文本的上下文信息的其他模型,本申请实施例中对此并不限定。
在一些实施例中,在所述S230之前,还可以使用特征金字塔网络(featurepyramid networks,FPN)对所述特征图进行卷积,得到多尺度特征图,随后,可以使用所述深度学习模型,基于所述文本的上下文信息对所述多尺度特征图进行增强,得到目标特征图。
例如,如图4所示,所述特征金字塔网络可以包括4层(4个卷积层),这4层的通道个数可以分别为32、64、128、256,这4层的步长可以均为3*3。具体的实施例可以如图3中方法300所述,这里不再赘述。
在本申请实施例中,使用特征金字塔网络确定所述多尺度特征图,可以提高模型(即文本识别模型)的感受野,此时,使用所述深度学习模型对所述多尺度特征图进行增强得到目标特征图,并基于所述目标特征图进行文本识别,能够提高文本识别的准确率。
S240,基于所述目标特征图进行文本识别,得到所述输入图像的文本识别结果。
在一些实施例中,可以使用连接时序分类(connectionist temporalclassification,CTC)模型,基于所述目标特征图进行文本识别,得到所述文本识别结果。具体的文本识别方法可以参照现有技术,本申请实施例中不再赘述。
在本申请实施例中,对输入图像中文本的方向进行矫正,可以使所述输入图像中文本的方向一致,能够有效降低文本识别的难度,基于所述文本的上下文信息进行特征增强,可以提高所述目标特征图中文本特征的鲁棒性,此时,基于所述目标特征图进行文本识别,能够提高文本识别的准确率。
下面结合图3,以图4所示的一种具体的文本识别模型为例,对本申请实施例中的文本识别的方法进行描述。
图3是本申请一个实施例的文本识别的方法300的示意性框图。所述方法300可以由图1中的所述图像处理装置120执行,应理解,图3示出了方法300的步骤或操作,但这些步骤或操作仅是示例,本申请实施例还可以执行其他操作或者图3中方法300的各个操作的变形,或者,并不是所有步骤都需要执行,或者,这些步骤可以按照其他顺序执行。所述方法300可以包括步骤S310至S350,具体如下:
S310,对输入图像进行文本检测,得到文本检测结果。
其中,所述输入图像可以为建筑图像(或者,也可以称为建筑设计图),所述输入图像中可以包括一个或多个文字。
可选地,该一个或多个文字还可以组成一个或多个文本(或者也可以称为文本行)。本申请实施例中对文本中文字的排列方式并不限定,例如,所述输入图像中文本中的文字可以按直线排列,或者,也可以按曲线,或者,还可以按其他任意线条或形式排列。
可选地,所述输入图像中包括的文本的方向可以不同。例如,所述输入图像中可以包括竖的(90度或270度)文字、颠倒的(180度)文字,或者,也可以包括其他任意方向(或任意角度)的文字。
在一些实施例中,可以对所述输入图像进行语义分割,得到语义分割图;可以基于所述语义分割图对输入图像进行文本检测,得到文本检测结果。
其中,所述语义分割图可以用于指示所述输入图像中的文本,所述文本检测结果可以用于指示所述输入图像中的文本区域。
例如,可以对所述输入图像进行语义分割,得到语义分割图,可以基于预设的阈值将该语义分割图转换为二值图(例如,可以将语义分割图中大于或等于该阈值的元素置为1,将小于该阈值的元素置为0,具体方法不做限定),随后,可以使用聚合操作(例如连通域操作等)将该二值图转换为文本检测结果。
S320,基于所述文本检测结果对所述输入图像中文本的方向进行矫正,得到候选图像。
在一些实施例中,对输入图像中文本的方向进行矫正,是指使所述输入图像中各文本的方向一致,也就是说,矫正后得到的所述候选图像中文本的方向一致。
例如,可以将所述输入图像中文本的方向矫正为水平(0度)。当然,也可以将所述输入图像中文本的方向矫正为其他任意方向(或任意角度),本申请实施例中对此并不限定。
进一步地,也可以对所述输入图像中文本中的文字的方向进行矫正。例如,可以对所述输入图像中文本进行透视变化(或称为透视变形),以矫正该文本中的文字的方向(或角度)。透视变化(或称为透视变形)的具体方法可以参考现有技术,本申请实施例对此不再赘述。当然,也可以使用其他方法矫正文字的方向,本申请实施例对此不再赘述。
可选地,可以对所述输入图像中文本中的文字的方向进行矫正,以使得所述输入图像中各文本中的文字的方向(或角度)均一致。
需要说明的是,所述S310和S320也可以由图1中的所述图像处理装置120执行;或者,可选地,所述S310和S320也可以由文本识别模型中的单元或模块执行,也就是说,本申请实施例中的文本识别模型也可以包括用于执行S310和S320的单元或模块(图4所示的文本识别模型中未示出)。
S330,基于所述候选图像进行文本识别,得到所述输入图像的文本识别结果。
在一些实施例中,可以使用图4所示的文本识别模型对所述候选图像进行文本识别,得到所述文本识别结果。
可选地,可以使用轻量级网络提取所述候选图像的特征图。这样,可以提高模型(即文本识别模型)的运行速度,从而能够提高文本识别的效率。
例如,如图4所示,可以选择ShuffleNetV2网络的前4层作为骨干网络,将ShuffleNetV2网络中第一阶段的第二块对应的层(stage1/block2层)作为基础层,提取所述候选图像的特征图。具体的实施例可以如图3中方法300所述,这里不再赘述。
可选地,可以使用特征金字塔网络对所述特征图进行卷积,得到多尺度特征图。
例如,如图4所示,所述特征金字塔网络可以包括4层(4个卷积层),这4层的通道个数可以分别为32、64、128、256,这4层的步长可以均为3*3。
可选地,可以使用深度学习模型,基于所述文本的上下文信息对所述特征图进行增强,得到目标特征图。
其中,所述深度学习模型可以包括由编码器、解码器及注意力机制组成的双向模型结构。可选地,所述深度学习模型可以为双向transformer模型。
例如,如图4所示,可以先对所述多尺度特征图进行融合(例如,拼接(concat)),再对其进行步长为1*1,通道个数为256的卷积,随后,再使用双向transformer模型对(concat和卷积处理后)得到的结果进行特征增强,得到所述目标特征图。
可选地,可以使用识别模型,基于所述目标特征图进行文本识别,得到所述文本识别结果。
例如,如图4所示,可以使用CTC模型,对所述目标特征图进行文本识别,得到所述文本识别结果。
在本申请实施例中,对输入图像中文本的方向进行矫正,可以使所述输入图像中文本的方向一致,能够有效降低文本识别的难度,基于所述文本的上下文信息进行特征增强,可以提高所述目标特征图中文本特征的鲁棒性,此时,基于所述目标特征图进行文本识别,能够提高文本识别的准确率。
图5是本申请一个实施例提供的文本识别的装置500的示意性框图。应理解,图5示出的装置500仅是示例,本申请实施例的装置500还可包括其他模块或单元。应理解,装置500能够执行图2及图3的方法中的各个步骤,为了避免重复,此处不再详述。
矫正单元510,用于对输入图像中文本的方向进行矫正,得到候选图像,所述输入图像为建筑图像;
获取单元520,用于获取所述候选图像的特征图;
特征增强单元530,用于基于所述文本的上下文信息对所述特征图进行特征增强,得到目标特征图;
文本识别单元540,用于基于所述目标特征图进行文本识别,得到所述输入图像的文本识别结果。
可选地,所述矫正单元510具体用于:对所述输入图像进行语义分割,得到语义分割图,所述语义分割图用于指示所述输入图像中的文本;基于所述语义分割图对输入图像进行文本检测,得到文本检测结果,所述文本检测结果用于指示所述输入图像中的文本区域;基于所述文本检测结果对所述文本的方向进行矫正,得到所述候选图像。
可选地,所述候选图像中文本的方向一致。
可选地,所述特征增强单元530具体用于:使用深度学习模型,基于所述文本的上下文信息对所述特征图进行增强,得到目标特征图,所述深度学习模型包括由编码器、解码器及注意力机制组成的双向模型结构。
可选地,所述特征增强单元530具体用于:使用特征金字塔网络对所述特征图进行卷积,得到多尺度特征图;使用所述深度学习模型,基于所述文本的上下文信息对所述多尺度特征图进行增强,得到目标特征图。
可选地,所述文本识别单元540具体用于:使用连接时序分类CTC模型基于所述目标特征图进行文本识别,得到所述文本识别结果。
可选地,所述获取单元520具体用于:使用轻量级网络提取所述候选图像的特征图。
可选地,所述轻量级网络由分离卷积、包括3x3卷积的瓶颈层及池化层组成。
应理解,这里的装置500以功能模块的形式体现。这里的术语“模块”可以通过软件和/或硬件形式实现,对此不作具体限定。例如,“模块”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(application specificintegrated circuit,ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。
作为一个示例,本申请实施例提供的装置500可以是处理器或芯片,以用于执行本申请实施例所述的方法。
图6是本申请一个实施例的文本识别的装置400的示意性框图。图6所示的装置400包括存储器401、处理器402、通信接口403以及总线404。其中,存储器401、处理器402、通信接口403通过总线404实现彼此之间的通信连接。
存储器401可以是只读存储器(read only memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(random access memory,RAM)。存储器401可以存储程序,当存储器401中存储的程序被处理器402执行时,处理器402用于执行本申请实施例的方法的各个步骤,例如,可以执行图2及图3所示实施例的各个步骤。
处理器402可以采用通用的中央处理器(central processing unit,CPU),微处理器,应用专用集成电路(application specific integrated circuit,ASIC),或者一个或多个集成电路,用于执行相关程序,以实现本申请方法实施例的方法。
处理器402还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请实施例的方法的各个步骤可以通过处理器402中的硬件的集成逻辑电路或者软件形式的指令完成。
上述处理器402还可以是通用处理器、数字信号处理器(digital signalprocessing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gatearray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器401,处理器402读取存储器401中的信息,结合其硬件完成本申请实施例中文本识别的装置包括的单元所需执行的功能,或者,执行本申请方法实施例的方法,例如,可以执行图2及图3所示实施例的各个步骤/功能。
通信接口403可以使用但不限于收发器一类的收发装置,来实现装置400与其他设备或通信网络之间的通信。
总线404可以包括在装置400各个部件(例如,存储器401、处理器402、通信接口403)之间传送信息的通路。
应理解,本申请实施例所示的装置400可以是处理器或芯片,以用于执行本申请实施例所述的方法。
应理解,本申请实施例中,该处理器可以为中央处理单元(central processingunit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
应理解,在本申请实施例中,“与A相应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够读取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字通用光盘(digital video disc,DVD))或者半导体介质(例如,固态硬盘(solid state disk,SSD))等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (11)

1.一种文本识别的方法,其特征在于,包括:
对输入图像中文本的方向进行矫正,得到候选图像,所述输入图像为建筑图像;
获取所述候选图像的特征图;
基于所述文本的上下文信息对所述特征图进行特征增强,得到目标特征图;
基于所述目标特征图进行文本识别,得到所述输入图像的文本识别结果。
2.根据权利要求1所述的方法,其特征在于,所述对输入图像中文本的方向进行矫正,得到候选图像,包括:
对所述输入图像进行语义分割,得到语义分割图,所述语义分割图用于指示所述输入图像中的文本;
基于所述语义分割图对输入图像进行文本检测,得到文本检测结果,所述文本检测结果用于指示所述输入图像中的文本区域;
基于所述文本检测结果对所述文本的方向进行矫正,得到所述候选图像。
3.根据权利要求2所述的方法,其特征在于,所述候选图像中文本的方向一致。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述基于所述文本的上下文信息对所述特征图进行增强,得到目标特征图,包括:
使用深度学习模型,基于所述文本的上下文信息对所述特征图进行增强,得到目标特征图,所述深度学习模型包括由编码器、解码器及注意力机制组成的双向模型结构。
5.根据权利要求3所述的方法,其特征在于,所述使用深度学习模型,基于所述文本的上下文信息对所述特征图进行增强,得到目标特征图,包括:
使用特征金字塔网络对所述特征图进行卷积,得到多尺度特征图;
使用所述深度学习模型,基于所述文本的上下文信息对所述多尺度特征图进行增强,得到目标特征图。
6.根据权利要求4所述的方法,其特征在于,所述基于所述目标特征图进行文本识别,得到所述输入图像的文本识别结果,包括:
使用连接时序分类CTC模型基于所述目标特征图进行文本识别,得到所述文本识别结果。
7.根据权利要求5所述的方法,其特征在于,所述获取所述候选图像的特征图,包括:
使用轻量级网络提取所述候选图像的特征图。
8.根据权利要求6所述的方法,其特征在于,所述轻量级网络由分离卷积、包括3x3卷积的瓶颈层及池化层组成。
9.一种文本识别的装置,其特征在于,包括:
矫正单元,用于对输入图像中文本的方向进行矫正,得到候选图像,所述输入图像为建筑图像;
获取单元,用于获取所述候选图像的特征图;
特征增强单元,用于基于所述文本的上下文信息对所述特征图进行特征增强,得到目标特征图;
文本识别单元,用于基于所述目标特征图进行文本识别,得到所述输入图像的文本识别结果。
10.一种文本识别的装置,其特征在于,包括处理器和存储器,所述存储器用于存储程序指令,所述处理器用于调用所述程序指令来执行权利要求1至8中任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,包括计算机指令,当所述计算机指令在计算机上运行时,使得所述计算机执行如权利要求1至8中任一项所述的方法。
CN202110782638.5A 2021-07-09 2021-07-09 文本识别的方法及装置 Pending CN113591862A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110782638.5A CN113591862A (zh) 2021-07-09 2021-07-09 文本识别的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110782638.5A CN113591862A (zh) 2021-07-09 2021-07-09 文本识别的方法及装置

Publications (1)

Publication Number Publication Date
CN113591862A true CN113591862A (zh) 2021-11-02

Family

ID=78246997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110782638.5A Pending CN113591862A (zh) 2021-07-09 2021-07-09 文本识别的方法及装置

Country Status (1)

Country Link
CN (1) CN113591862A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022172292A (ja) * 2022-01-06 2022-11-15 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド テキスト認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022172292A (ja) * 2022-01-06 2022-11-15 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド テキスト認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP7418517B2 (ja) 2022-01-06 2024-01-19 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド テキスト認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Similar Documents

Publication Publication Date Title
CN107545262B (zh) 一种在自然场景图像中检测文本的方法及装置
US11482023B2 (en) Method and apparatus for detecting text regions in image, device, and medium
US9076056B2 (en) Text detection in natural images
CN111046971A (zh) 图像识别方法、装置、设备及计算机可读存储介质
WO2023001059A1 (zh) 检测方法、装置、电子设备及存储介质
CN110543879A (zh) 基于se模块的ssd目标检测方法及计算机存储介质
CN112926531A (zh) 特征信息提取方法、模型训练方法、装置及电子设备
CN112926462A (zh) 训练方法、装置、动作识别方法、装置及电子设备
CN115600157A (zh) 一种数据处理的方法、装置、存储介质及电子设备
US9922263B2 (en) System and method for detection and segmentation of touching characters for OCR
CN113591862A (zh) 文本识别的方法及装置
CN112686122A (zh) 人体及影子的检测方法、装置、电子设备、存储介质
CN110969640A (zh) 视频图像的分割方法、终端设备以及计算机可读存储介质
CN110852261B (zh) 目标检测方法、装置、电子设备和可读存储介质
CN112287905A (zh) 车辆损伤识别方法、装置、设备及存储介质
CN113642398A (zh) 空间区域识别的方法及装置
CN117095198A (zh) 遥感图像检索网络训练方法、应用方法、电子设备及介质
CN113591939A (zh) 图层分类的方法及装置
CN114065868B (zh) 文本检测模型的训练方法、文本检测方法及装置
CN112819953B (zh) 三维重建方法、网络模型训练方法、装置及电子设备
CN112785601B (zh) 一种图像分割方法、系统、介质及电子终端
CN116052175A (zh) 文字检测方法、电子设备、存储介质及计算机程序产品
CN114117062A (zh) 文本向量表示方法、装置及电子设备
CN110287943B (zh) 图像的对象识别方法、装置、电子设备及存储介质
CN114359160A (zh) 一种屏幕的检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination