CN113642398A - 空间区域识别的方法及装置 - Google Patents
空间区域识别的方法及装置 Download PDFInfo
- Publication number
- CN113642398A CN113642398A CN202110782637.0A CN202110782637A CN113642398A CN 113642398 A CN113642398 A CN 113642398A CN 202110782637 A CN202110782637 A CN 202110782637A CN 113642398 A CN113642398 A CN 113642398A
- Authority
- CN
- China
- Prior art keywords
- text
- result
- image
- processed
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种空间区域识别的方法及装置,包括:对待处理图像进行空间区域分割,得到空间区域分割结果,所述空间区域分割结果用于指示所述待处理图像中的一个或多个空间区域;基于所述区域分割结果进行文本检测,得到文本检测结果,所述文本检测结果用于指示所述一个或多个空间区域对应的文本;基于所述文本检测结果进行文本识别,得到文本识别结果,所述文本识别结果包括所述一个或多个空间区域对应的文本的识别结果;基于所述文本识别结果对所述一个或多个空间区域进行识别,得到空间区域识别结果。本申请实施例中的方法能够提高空间区域识别的准确率。
Description
技术领域
本申请涉及图像识别技术领域,具体涉及一种空间区域识别的方法及装置。
背景技术
目前,建筑设计行业通常使用计算机辅助设计(computer aided design,CAD)软件绘制建筑设计图,绘制好的建筑设计图需要进行审核,以判断其是否存在违背国家标准的地方。目前,主要依靠经验丰富的工程师来对建筑设计图进行审核,但是,审核任务的工作量大、效率低。因此,使用计算机代替人工进行自动化审图已迫在眉睫。
空间区域检测是建筑设计图审核的重要内容,为了实现自动化审图,需要准确地识别出建筑设计图中的空间区域。通常,建筑设计图的空间区域可以包括卫生间、书房、客厅、卧室、餐厅、厨房等区域。但是,建筑设计图中有些空间区域的几何特征非常相似,例如,书房和卧室在几何特征上非常接近,这会导致建筑设计图的空间区域识别的精度不高。
发明内容
有鉴于此,本申请实施例致力于提供一种空间区域识别的方法及装置,能够提高空间区域识别的准确率。
第一方面,提供了一种空间区域识别的方法,包括:对待处理图像进行空间区域分割,得到空间区域分割结果,所述待处理图像为建筑图像,所述空间区域分割结果用于指示所述待处理图像中的一个或多个空间区域;基于所述区域分割结果进行文本检测,得到文本检测结果,所述文本检测结果用于指示所述一个或多个空间区域对应的文本;基于所述文本检测结果进行文本识别,得到文本识别结果,所述文本识别结果包括所述一个或多个空间区域对应的文本的识别结果;基于所述文本识别结果对所述一个或多个空间区域进行识别,得到空间区域识别结果。
在本申请实施例中,将所述待处理图像分割为一个或多个空间区域,对该一个或多个空间区域进行文本检测,得到各空间区域对应的文本检测结果,并对各空间区域对应的文本检测结果进行文本识别,此时,基于各空间区域对应的文本识别结果就可以准确地确定出该一个或多个空间区域的空间区域识别结果,从而能够提高空间区域识别的准确率。
可选地,所述基于所述文本识别结果对所述一个或多个空间区域进行识别,得到空间区域识别结果,包括:将所述文本识别结果中各文本识别结果所对应的空间区域类别,作为其对应的所述一个或多个空间区域对应的所述空间区域识别结果。
可选地,所述对待处理图像进行空间区域分割,得到空间区域分割结果,包括:获取所述待处理图像的特征图;基于所述特征图确定多尺度特征图;基于所述特征图和所述多尺度特征图进行特征融合,得到目标特征图;基于所述目标特征图确定所述空间区域分割结果。
可选地,所述基于所述区域分割结果进行文本检测,得到文本检测结果,包括:使用文本检测模型对所述区域分割结果进行文本检测,得到所述文本检测结果,所述文本检测模型由包括3x3卷积的瓶颈层、可变卷积及可微分二值化组成。
可选地,所述对所述文本检测结果进行文本识别,得到文本识别结果,包括:基于所述文本检测结果对所述待处理图像中各空间区域对应的文本的方向进行矫正,得到候选图像;基于所述文本的上下文信息对所述候选图像的特征图进行特征增强,得到目标特征图;基于所述目标特征图进行文本识别,得到所述文本识别结果。
可选地,所述基于所述文本的上下文信息对所述候选图像的特征图进行特征增强,得到目标特征图,包括:使用第一深度学习模型,基于所述文本的上下文信息对所述特征图进行特征增强,得到目标特征图,所述第一深度学习模型包括由编码器、解码器及注意力机制组成的双向模型结构。
可选地,在所述对待处理图像进行空间区域分割,得到空间区域分割结果之前,所述方法还包括:使用第二深度学习模型对初始建筑图像中的待处理图像进行检测,得到检测图框,所述第二深度学习模型包括卷积神经网络、激活函数、dropblock模块及特征金字塔结构;基于所述检测图框确定所述待处理图像。
第二方面,提供了一种空间区域识别的装置,包括:分割单元,用于对待处理图像进行空间区域分割,得到空间区域分割结果,所述空间区域分割结果用于指示一个或多个空间区域;文本检测单元,用于基于所述区域分割结果进行文本检测,得到文本检测结果,所述文本检测结果用于指示所述一个或多个空间区域对应的文本;文本识别单元,用于基于所述文本检测结果进行文本识别,得到文本识别结果,所述文本识别结果包括所述一个或多个空间区域对应的文本的识别结果;识别单元,用于基于所述文本识别结果对所述一个或多个空间区域进行识别,得到空间区域识别结果。
第三方面,本发明提供了一种空间区域识别的装置,所述装置用于执行所述第一方面或者第一方面的任一可能的实现方式中的方法。
第四方面,提供了一种空间区域识别的装置,所述装置包括存储介质和处理器,所述存储介质可以是非易失性存储介质,所述存储介质中存储有计算机可执行程序,所述处理器与所述非易失性存储介质连接,并执行所述计算机可执行程序以实现所述第一方面或者第一方面的任一可能的实现方式中的方法。
第五方面,提供一种芯片,所述芯片包括处理器与数据接口,所述处理器通过所述数据接口读取存储器上存储的指令,执行第一方面或第一方面的任一可能的实现方式中的方法。
可选地,作为一种实现方式,所述芯片还可以包括存储器,所述存储器中存储有指令,所述处理器用于执行所述存储器上存储的指令,当所述指令被执行时,所述处理器用于执行第一方面或第一方面的任一可能的实现方式中的方法。
第六方面,提供一种计算机可读存储介质,所述计算机可读介质存储用于设备执行的程序代码,所述程序代码包括用于执行第一方面或者第一方面的任一可能的实现方式中的方法的指令。
在本申请实施例中,将所述待处理图像分割为一个或多个空间区域,对该一个或多个空间区域进行文本检测,得到各空间区域对应的文本检测结果,并对各空间区域对应的文本检测结果进行文本识别,此时,基于各空间区域对应的文本识别结果就可以准确地确定出该一个或多个空间区域的空间区域识别结果,从而能够提高空间区域识别的准确率。
附图说明
图1为适用于本申请实施例的一个应用场景图。
图2为本申请一个实施例中的空间区域识别的方法的示意性框图。
图3为本申请另一个实施例中的空间区域识别的方法的示意性框图。
图4为本申请一个实施例中的空间区域分割模型的结构示意图。
图5为本申请一个实施例中的空间区域识别的装置的示意性框图。
图6为本申请另一个实施例中的空间区域识别的装置的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例中的方法可以应用于各种对待处理图像进行图像处理的场景,本申请实施例中对此并不限定。例如,本申请实施例中的方法可以应用于对建筑图像进行空间区域识别的场景。
图1为适用于本申请实施例的一个应用场景图。图1中的应用场景100可以包括待处理图像110及图像处理装置120。
需要说明的是,图1所示的应用场景仅为示例而非限定,图1所示的应用场景中可以包括更多或更少的装置或设备,本申请实施例中对此并不限定。
其中,所述待处理图像110可以为基于计算机辅助设计(computer aided design,CAD)得到的建筑设计图(或建筑平面布局图),该待处理图像110中可以包括一个或多个空间区域,这些空间区域可以包括卫生间、书房、客厅、卧室、餐厅、厨房等区域。
例如,待处理图像110可以为使用AutoCAD软件绘制的建筑图像(或称为建筑设计图像或建筑平面布局图),所述待处理图像100中可以包括一个或多个空间区域。或者,待处理图像110也可以为使用其他方法或其他CAD软件绘制的建筑图像,本申请实施例中对建筑图像的类型和格式等并不限定。
所述图像处理装置120可以为计算机设备、服务器(例如,云端服务器)或其他能够对待处理图像进行图像处理(例如,基于建筑图像进行空间区域识别)的装置或设备。
例如,所述图像处理装置120可以为计算机设备,所述计算机设备可以是通用型计算机或者由专用的集成电路组成的计算机装置等,本申请实施例中对此不做限定。
本领域技术人员可以知晓,上述计算机设备的数量可以为一个或大于一个,多个计算机设备的类型可以相同或者不同。本申请实施例中对终端的数量和设备类型不加以限定。
计算机设备中可以部署有神经网络模型,用于对待处理图像进行图像处理,得到用于指示待处理图像的图像处理结果。
例如,计算机设备可以通过其中部署的神经网络模型(例如,所述神经网络模型可以为空间区域识别模型)对建筑图像(即待处理图像)进行空间区域识别,以得到建筑图像的空间区域识别结果。
计算机设备可以为服务器或云端服务器,直接对待处理图像进行图像处理。
或者,计算机设备也可以与服务器(图1中未示出)之间通过通信网络相连。计算机设备可以将其待处理图像等发送给服务器,利用服务器中的神经网络模型对待处理图像进行图像处理,并且将得到的图像处理结果(如待处理图像的空间区域识别结果)存储为样本图像,以对服务器中的神经网络模型进行训练,得到用于进行图像处理的神经网络模型。
计算机设备还可以从服务器中获取待处理图像,进而通过神经网络模型对待处理图像进行图像处理,以得到待处理图像的图像处理结果(如待处理图像的空间区域识别结果),本申请实施例中对具体的实现方式并不做限定。
通常,建筑设计图的空间区域可以包括卫生间、书房、客厅、卧室、餐厅、厨房等区域。为了实现自动化审图,需要准确地识别出建筑设计图中的空间区域。但是,建筑设计图中有些空间区域的几何特征非常相似,例如,书房和卧室在几何特征上非常接近,这会导致建筑设计图的空间区域识别的精度不高。
基于上述问题,本申请实施例中提出一种空间区域识别的方法,能够提高空间区域识别的准确率。
图2是本申请一个实施例的空间区域识别的方法200的示意性框图。所述方法200可以由图1中的所述图像处理装置120执行,应理解,图2示出了方法200的步骤或操作,但这些步骤或操作仅是示例,本申请实施例还可以执行其他操作或者图2中方法200的各个操作的变形,或者,并不是所有步骤都需要执行,或者,这些步骤可以按照其他顺序执行。所述方法200可以包括步骤S210至S240,具体如下:
S210,对待处理图像进行空间区域分割,得到空间区域分割结果。
其中,所述待处理图像可以为建筑图像。例如,所述待处理图像可以为建筑设计图或建筑平面布局图,所述待处理图像中可以包括一个或多个空间区域(例如,该一个或多个空间区域可以包括卫生间、书房、客厅、卧室、餐厅、厨房等区域)。
可选地,所述空间区域分割结果可以用于指示所述待处理图像中的一个或多个空间区域。例如,所述空间区域分割结果可以为语义分割图,该语义分割图用于指示所述待处理图像中的一个或多个空间区域;或者,所述空间区域分割结果也可以为(对所述待处理图像进行分割或裁剪后得到的)该一个或多个空间区域对应的图像,比如,卫生间、书房、客厅、卧室、餐厅、厨房等区域对应的图像。
在一些实施例中,可以获取所述待处理图像的特征图,基于所述特征图确定多尺度特征图,基于所述特征图和所述多尺度特征图进行特征融合,得到目标特征图,并基于所述目标特征图确定所述空间区域分割结果。
可选地,可以使用空间区域分割模型对待处理图像进行空间区域分割,得到空间区域分割结果。例如,所述空间区域分割模型的结构可以如图4所示。
在一些实施例中,所述待处理图像可以是对初始建筑图像进行裁剪后得到的。比如,在所述S210之前,还可以对初始建筑图像中的待处理图像进行检测,得到检测图框,基于所述检测图框确定所述待处理图像。
可选地,初始建筑图像可以为大分辨率的图像。例如,该初始建筑图像可以为某一楼层的建筑设计图,该初始建筑图像中包括多个局部图像(例如,多个独立的房间、空间或区域),此时,可以使用SSD(single shot multibox detector)算法对初始建筑图像中的待处理图像进行检测,得到检测图框,并基于所述检测图框确定所述待处理图像。
其中,所述SSD算法可以通过第二深度学习模型实现,所述第二深度学习模型可以包括卷积神经网络、激活函数、dropblock模块及特征金字塔结构。
相应地,可以使用所述第二深度学习模型对初始建筑图像中的待处理图像进行检测,得到检测图框,并基于所述检测图框确定所述待处理图像。
S220,基于所述区域分割结果进行文本检测,得到文本检测结果。
其中,所述文本检测结果可以用于指示所述一个或多个空间区域对应的文本。
在一些实施例中,可以使用文本检测模型对所述区域分割结果进行文本检测,得到所述文本检测结果。
其中,所述文本检测模型可以由包括3x3卷积的瓶颈层、可变卷积及可微分二值化组成。例如,所述文本检测模型可以为DBnet模型。
具体的文本检测方法可以参考现有技术,本申请实施例中对此不再赘述。
S230,基于所述文本检测结果进行文本识别,得到文本识别结果。
其中,所述文本识别结果可以包括所述一个或多个空间区域对应的文本的识别结果。
所述一个或多个空间区域对应的文本可以指,所述待处理中位于所述一个或多个空间区域内的文本,或者,用于描述所述一个或多个空间区域的文本,或者,对所述一个或多个空间区域进行说明或注释的文本。所述空间区域识别结果可以为所述一个或多个空间区域对应的类别,例如,书房或卧室。
可选地,所述一个或多个空间区域对应的文本可以为所述一个或多个空间区域对应的文字说明或其他注释信息。
可选地,所述文本检测结果可以为一个或多个框(例如文本框),该一个或多个框可以用于指示所述一个或多个空间区域对应的文本。
在一些实施例中,可以基于所述文本检测结果对所述待处理图像中各空间区域对应的文本的方向进行矫正,得到候选图像;随后,可以提取所述候选图像的特征图,并基于所述文本的上下文信息对所述特征图进行特征增强,得到目标特征图;最后,可以基于所述目标特征图进行文本识别,得到所述文本识别结果。
可选地,所述文本识别结果中包括的文本的方向可以不同。例如,所述文本识别结果中可以包括竖的(90度或270度)文字、颠倒的(180度)文字,或者,也可以包括其他任意方向(或任意角度)的文字。
在一些实施例中,对所述待处理图像中各空间区域对应的文本的方向进行矫正,可以是指使所述待处理图像中各空间区域对应的文本的方向一致,也就是说,矫正后得到的所述待处理图像中各空间区域对应的文本的方向一致。
例如,可以将各空间区域对应文本的方向矫正为水平(0度)。当然,也可以将各空间区域对应文本的方向矫正为其他任意方向(或任意角度),本申请实施例中对此并不限定。
进一步地,可以使用第一深度学习模型,基于所述文本的上下文信息对所述候选图像的特征图进行特征增强,得到目标特征图。
其中,所述第一深度学习模型可以包括由编码器、解码器及注意力机制组成的双向模型结构。例如,所述第一深度学习模型可以为双向transformer模型。
进一步地,可以使用识别模型(例如,连接时序分类(connectionist temporalclassification,CTC)模型),对所述目标特征图进行文本识别,得到所述文本识别结果。
S240,基于所述文本识别结果对所述一个或多个空间区域进行识别,得到空间区域识别结果。
在本申请实施例中,将所述待处理图像分割为一个或多个空间区域,对该一个或多个空间区域进行文本检测,得到各空间区域对应的文本检测结果,并对各空间区域对应的文本检测结果进行文本识别,此时,基于各空间区域对应的文本识别结果就可以准确地确定出该一个或多个空间区域的空间区域识别结果,从而能够提高空间区域识别的准确率。
在一些实施例中,可以将所述文本识别结果中各文本识别结果所对应的空间区域类别,作为其对应的所述一个或多个空间区域对应的所述空间区域识别结果。
例如,(所述一个或多个空间区域中的)一个空间区域对应的文本识别结果为书房,那么该空间区域对应的类别(或者说空间区域识别结果)就是书房。
再例如,(所述一个或多个空间区域中的)另一个空间区域对应的文本识别结果为浴缸,那该空间区域对应的类别(或者说空间区域识别结果)就是卫生间。
可以看出,在上述第二种情况中,所述待处理图像中的文字并不是描述该空间区域的类别,而是表示该空间区域中的物体,那么也可以根据这些文字推测出该空间区域的类别。例如,又一个空间区域对应的文本识别结果为沙发,那该空间区域对应的类别就是客厅。
当然,本申请实施例中并不限定于上述两种情况,某一空间区域对应的文本可以为所述一个或多个空间区域对应的文字说明或其他注释信息。相应地,当某一空间区域对应的文本指示其他内容时,也可以根据文本识别结果确定该空间区域对应的类别,本申请实施例中对空间区域对应的文本的内容和类型等均不限定。
下面结合图3,以图4所示的一种具体的文本识别模型为例,对本申请实施例中的空间区域识别的方法进行描述。
图3是本申请一个实施例的空间区域识别的方法300的示意性框图。所述方法300可以由图1中的所述图像处理装置120执行,应理解,图3示出了方法300的步骤或操作,但这些步骤或操作仅是示例,本申请实施例还可以执行其他操作或者图3中方法300的各个操作的变形,或者,并不是所有步骤都需要执行,或者,这些步骤可以按照其他顺序执行。所述方法300可以包括步骤S310至S350,具体如下:
S310,对初始建筑图像进行裁剪,得到待处理图像。
可选地,初始建筑图像可以为大分辨率的图像。例如,该初始建筑图像可以为某一楼层的建筑设计图或建筑平面布局图,该初始建筑图像中可以包括多个局部图像(例如,多个独立的房间、空间或区域),所述待处理图像可以该初始建筑图像中的局部图像。此时,可以使用SSD算法对初始建筑图像检测,得到检测图框,所述检测图框可以指示所述初始建筑图像中的中的待处理图像;此时,可以基于所述检测图框对初始建筑图像进行裁剪,得到所述待处理图像。
其中,所述SSD算法可以通过第二深度学习模型实现,所述第二深度学习模型可以包括卷积神经网络、激活函数、dropblock模块及特征金字塔结构。
相应地,可以使用所述第二深度学习模型对初始建筑图像中的待处理图像进行检测,得到检测图框,并基于所述检测图框确定所述待处理图像。
S320,对所述待处理图像进行空间区域分割,得到空间区域分割结果。
在一些实施例中,可以使用图4所示的空间区域分割模型对所述待处理图像进行空间区域分割,得到所述空间区域分割结果。
可选地,可以使用轻量级网络提取所述待处理图像的特征图。这样,可以提高模型(即空间区域分割模型)的运行速度,从而能够提高空间区域识别的效率。
例如,如图4所示,可以选择ShuffleNetV2网络的前4层作为骨干网络,将ShuffleNetV2网络中第一阶段的第二块对应的层(stage1/block2层)作为基础层,提取所述待处理图像的特征图。
可选地,可以使用特征金字塔网络对所述特征图进行卷积,得到多尺度特征图。
例如,如图4所示,所述特征金字塔网络可以包括4层(4个卷积层),这4层的通道个数可以分别为32、64、128、256,这4层的步长可以均为3*3。
可选地,可以基于所述特征图和所述多尺度特征图进行特征融合,得到目标特征图。在本申请中,通过将所述特征图和所述多尺度特征图进行特征融合,可以提高模型(即空间区域分割模型)的感受野,从而能够提高空间区域识别的准确率。
例如,如图4所示,可以先对所述多尺度特征图进行融合(例如,拼接(concat)),再对其进行步长为1*1,通道个数为256的卷积,随后,再将所述特征图和卷积结果进行融合(例如,拼接),
可选地,可以基于所述目标特征图确定所述空间区域分割结果。
例如,如图4所示,可以对(所述特征图和卷积结果)融合后的结果进行上采样,得到目标特征图,最后,可以基于所述目标特征图分割空间区域,得到所述空间区域分割结果。
S330,基于所述空间区域结果进行文本检测,得到文本检测结果。
其中,所述文本检测结果可以用于指示所述一个或多个空间区域对应的文本。
在一些实施例中,可以使用文本检测模型对所述区域分割结果进行文本检测,得到所述文本检测结果。其中,所述文本检测模型可以由包括3x3卷积的瓶颈层、可变卷积及可微分二值化组成。例如,所述文本检测模型可以为DBnet模型。具体的文本检测方法可以参考现有技术,本申请实施例中对此不再赘述。
S340,基于所述文本检测结果进行文本识别,得到文本识别结果。
在一些实施例中,可以基于所述文本检测结果对所述待处理图像中各空间区域对应的文本的方向进行矫正,得到候选图像;随后,可以提取所述候选图像的特征图,并基于所述文本的上下文信息对所述特征图进行特征增强,得到目标特征图;最后,可以基于所述目标特征图进行文本识别,得到所述文本识别结果。
可选地,可以使用轻量级网络提取所述候选图像的特征图。例如,所述轻量级网络可以为ShuffleNetV2网络。
进一步地,可选地,可以使用特征金字塔网络对所述特征图进行卷积,得到多尺度特征图。
进一步地,可以使用第一深度学习模型提取所述候选图像中各空间区域对应的文本的上下文信息,基于所述文本的上下文信息对所述特征图进行特征增强,得到目标特征图。其中,所述第一深度学习模型可以包括由编码器、解码器及注意力机制组成的双向模型结构。例如,所述第一深度学习模型可以为双向transformer模型。
进一步地,可以使用识别模型(例如,连接时序分类(connectionist temporalclassification,CTC)模型),对所述目标特征图进行文本识别,得到所述文本识别结果。
S350,基于所述文本识别结果对所述待处理图像中的空间区域进行识别,得到空间区域识别结果。
在一些实施例中,可以将所述文本识别结果中各文本识别结果所对应的空间区域类别,作为其对应的所述一个或多个空间区域对应的所述空间区域识别结果。
例如,(所述一个或多个空间区域中的)一个空间区域对应的文本识别结果为书房,那么该空间区域对应的类别(或者说空间区域识别结果)就是书房。
再例如,(所述一个或多个空间区域中的)另一个空间区域对应的文本识别结果为浴缸,那该空间区域对应的类别(或者说空间区域识别结果)就是卫生间。
当然,本申请实施例中并不限定于上述两种情况,某一空间区域对应的文本可以为所述一个或多个空间区域对应的文字说明或其他注释信息。相应地,当某一空间区域对应的文本指示其他内容时,也可以根据文本识别结果确定该空间区域对应的类别,本申请实施例中对空间区域对应的文本的内容和类型等均不限定。
在本申请实施例中,将所述待处理图像分割为一个或多个空间区域,对该一个或多个空间区域进行文本检测,得到各空间区域对应的文本检测结果,并对各空间区域对应的文本检测结果进行文本识别,此时,基于各空间区域对应的文本识别结果就可以准确地确定出该一个或多个空间区域的空间区域识别结果,从而能够提高空间区域识别的准确率。
图5是本申请一个实施例提供的空间区域识别的装置500的示意性框图。应理解,图5示出的装置500仅是示例,本申请实施例的装置500还可包括其他模块或单元。应理解,装置500能够执行图2及图3的方法中的各个步骤,为了避免重复,此处不再详述。
分割单元510,用于对待处理图像进行空间区域分割,得到空间区域分割结果,所述空间区域分割结果用于指示所述待处理图像中的一个或多个空间区域;
文本检测单元520,用于基于所述区域分割结果进行文本检测,得到文本检测结果,所述文本检测结果用于指示所述一个或多个空间区域对应的文本;
文本识别单元530,用于基于所述文本检测结果进行文本识别,得到文本识别结果,所述文本识别结果包括所述一个或多个空间区域对应的文本的识别结果;
识别单元540,用于基于所述文本识别结果对所述一个或多个空间区域进行识别,得到空间区域识别结果。
可选地,所述识别单元540具体用于:
将所述文本识别结果中各文本识别结果所对应的空间区域类别,作为其对应的所述一个或多个空间区域对应的所述空间区域识别结果。
可选地,所述分割单元510具体用于:
获取所述待处理图像的特征图;基于所述特征图确定多尺度特征图;基于所述特征图和所述多尺度特征图进行特征融合,得到目标特征图;基于所述目标特征图确定所述空间区域分割结果。
可选地,所述文本检测单元520具体用于:
使用文本检测模型对所述区域分割结果进行文本检测,得到所述文本检测结果,所述文本检测模型由包括3x3卷积的瓶颈层、可变卷积及可微分二值化组成。
可选地,所述文本识别单元530具体用于:
基于所述文本检测结果对所述待处理图像中各空间区域对应的文本的方向进行矫正,得到候选图像;基于所述文本的上下文信息对所述候选图像的特征图进行特征增强,得到目标特征图;基于所述目标特征图进行文本识别,得到所述文本识别结果。
可选地,所述文本识别单元530具体用于:
使用第一深度学习模型,基于所述文本的上下文信息对所述特征图进行特征增强,得到目标特征图,所述第一深度学习模型包括由编码器、解码器及注意力机制组成的双向模型结构。
可选地,所述装置500还包括确定单元550,用于:
使用第二深度学习模型对初始建筑图像中的待处理图像进行检测,得到检测图框,所述第二深度学习模型包括卷积神经网络、激活函数、dropblock模块及特征金字塔结构;基于所述检测图框确定所述待处理图像。
应理解,这里的装置500以功能模块的形式体现。这里的术语“模块”可以通过软件和/或硬件形式实现,对此不作具体限定。例如,“模块”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(application specificintegrated circuit,ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。
作为一个示例,本申请实施例提供的装置500可以是处理器或芯片,以用于执行本申请实施例所述的方法。
图6是本申请一个实施例的空间区域识别的装置400的示意性框图。图6所示的装置400包括存储器401、处理器402、通信接口403以及总线404。其中,存储器401、处理器402、通信接口403通过总线404实现彼此之间的通信连接。
存储器401可以是只读存储器(read only memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(random access memory,RAM)。存储器401可以存储程序,当存储器401中存储的程序被处理器402执行时,处理器402用于执行本申请实施例的方法的各个步骤,例如,可以执行图2及图3所示实施例的各个步骤。
处理器402可以采用通用的中央处理器(central processing unit,CPU),微处理器,应用专用集成电路(application specific integrated circuit,ASIC),或者一个或多个集成电路,用于执行相关程序,以实现本申请方法实施例的方法。
处理器402还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请实施例的方法的各个步骤可以通过处理器402中的硬件的集成逻辑电路或者软件形式的指令完成。
上述处理器402还可以是通用处理器、数字信号处理器(digital signalprocessing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gatearray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器401,处理器402读取存储器401中的信息,结合其硬件完成本申请实施例中空间区域识别的装置包括的单元所需执行的功能,或者,执行本申请方法实施例的方法,例如,可以执行图2及图3所示实施例的各个步骤/功能。
通信接口403可以使用但不限于收发器一类的收发装置,来实现装置400与其他设备或通信网络之间的通信。
总线404可以包括在装置400各个部件(例如,存储器401、处理器402、通信接口403)之间传送信息的通路。
应理解,本申请实施例所示的装置400可以是处理器或芯片,以用于执行本申请实施例所述的方法。
应理解,本申请实施例中,该处理器可以为中央处理单元(central processingunit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
应理解,在本申请实施例中,“与A相应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够读取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字通用光盘(digital video disc,DVD))或者半导体介质(例如,固态硬盘(solid state disk,SSD))等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种空间区域识别的方法,其特征在于,包括:
对待处理图像进行空间区域分割,得到空间区域分割结果,所述空间区域分割结果用于指示所述待处理图像中的一个或多个空间区域;
基于所述区域分割结果进行文本检测,得到文本检测结果,所述文本检测结果用于指示所述一个或多个空间区域对应的文本;
基于所述文本检测结果进行文本识别,得到文本识别结果,所述文本识别结果包括所述一个或多个空间区域对应的文本的识别结果;
基于所述文本识别结果对所述一个或多个空间区域进行识别,得到空间区域识别结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述文本识别结果对所述一个或多个空间区域进行识别,得到空间区域识别结果,包括:
将所述文本识别结果中各文本识别结果所对应的空间区域类别,作为其对应的所述一个或多个空间区域对应的所述空间区域识别结果。
3.根据权利要求1或2所述的方法,其特征在于,所述对待处理图像进行空间区域分割,得到空间区域分割结果,包括:
获取所述待处理图像的特征图;
基于所述特征图确定多尺度特征图;
基于所述特征图和所述多尺度特征图进行特征融合,得到目标特征图;
基于所述目标特征图确定所述空间区域分割结果。
4.根据权利要求1或2所述的方法,其特征在于,所述基于所述区域分割结果进行文本检测,得到文本检测结果,包括:
使用文本检测模型对所述区域分割结果进行文本检测,得到所述文本检测结果,所述文本检测模型由包括3x3卷积的瓶颈层、可变卷积及可微分二值化组成。
5.根据权利要求1或2所述的方法,其特征在于,所述基于所述文本检测结果进行文本识别,得到文本识别结果,包括:
基于所述文本检测结果对所述待处理图像中各空间区域对应的文本的方向进行矫正,得到候选图像;
基于所述文本的上下文信息对所述候选图像的特征图进行特征增强,得到目标特征图;
基于所述目标特征图进行文本识别,得到所述文本识别结果。
6.根据权利要求5所述的方法,其特征在于,所述基于所述文本的上下文信息对所述候选图像的特征图进行特征增强,得到目标特征图,包括:
使用第一深度学习模型,基于所述文本的上下文信息对所述特征图进行特征增强,得到目标特征图,所述第一深度学习模型包括由编码器、解码器及注意力机制组成的双向模型结构。
7.根据权利要求1或2所述的方法,其特征在于,在所述对待处理图像进行空间区域分割,得到空间区域分割结果之前,所述方法还包括:
使用第二深度学习模型对初始建筑图像中的待处理图像进行检测,得到检测图框,所述第二深度学习模型包括卷积神经网络、激活函数、dropblock模块及特征金字塔结构;
基于所述检测图框确定所述待处理图像。
8.一种空间区域识别的装置,其特征在于,包括:
分割单元,用于对待处理图像进行空间区域分割,得到空间区域分割结果,所述待处理图像为建筑图像,所述空间区域分割结果用于指示一个或多个空间区域;
文本检测单元,用于基于所述区域分割结果进行文本检测,得到文本检测结果,所述文本检测结果用于指示所述一个或多个空间区域对应的文本;
文本识别单元,用于基于所述文本检测结果进行文本识别,得到文本识别结果,所述文本识别结果包括所述一个或多个空间区域对应的文本的识别结果;
识别单元,用于基于所述文本识别结果对所述一个或多个空间区域进行识别,得到空间区域识别结果。
9.一种空间区域识别的装置,其特征在于,包括处理器和存储器,所述存储器用于存储程序指令,所述处理器用于调用所述程序指令来执行权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,包括计算机指令,当所述计算机指令在计算机上运行时,使得所述计算机执行如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110782637.0A CN113642398A (zh) | 2021-07-09 | 2021-07-09 | 空间区域识别的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110782637.0A CN113642398A (zh) | 2021-07-09 | 2021-07-09 | 空间区域识别的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113642398A true CN113642398A (zh) | 2021-11-12 |
Family
ID=78417072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110782637.0A Pending CN113642398A (zh) | 2021-07-09 | 2021-07-09 | 空间区域识别的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113642398A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111880488A (zh) * | 2020-06-29 | 2020-11-03 | 海尔优家智能科技(北京)有限公司 | 用于获取家电设备位置的方法及装置、设备 |
-
2021
- 2021-07-09 CN CN202110782637.0A patent/CN113642398A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111880488A (zh) * | 2020-06-29 | 2020-11-03 | 海尔优家智能科技(北京)有限公司 | 用于获取家电设备位置的方法及装置、设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11379699B2 (en) | Object detection method and apparatus for object detection | |
CN109145867B (zh) | 人体姿态估计方法、装置、系统、电子设备、存储介质 | |
CN108875723B (zh) | 对象检测方法、装置和系统及存储介质 | |
US9076056B2 (en) | Text detection in natural images | |
US20120057745A9 (en) | Detection of objects using range information | |
CN111104925B (zh) | 图像处理方法、装置、存储介质和电子设备 | |
CN110427915B (zh) | 用于输出信息的方法和装置 | |
CN111242083A (zh) | 基于人工智能的文本处理方法、装置、设备、介质 | |
CN114120221A (zh) | 基于深度学习的环境核查方法、电子设备及存储介质 | |
US20130322758A1 (en) | Image processing apparatus, image processing method, and program | |
CN115600157A (zh) | 一种数据处理的方法、装置、存储介质及电子设备 | |
CN113642398A (zh) | 空间区域识别的方法及装置 | |
US9846949B2 (en) | Determine the shape of a representation of an object | |
CN112686122A (zh) | 人体及影子的检测方法、装置、电子设备、存储介质 | |
JP7396076B2 (ja) | 番号認識装置、方法及び電子機器 | |
CN112287905A (zh) | 车辆损伤识别方法、装置、设备及存储介质 | |
CN113591939A (zh) | 图层分类的方法及装置 | |
CN111259764A (zh) | 文本检测方法、装置、电子设备及存储装置 | |
CN108776959B (zh) | 图像处理方法、装置及终端设备 | |
CN116052175A (zh) | 文字检测方法、电子设备、存储介质及计算机程序产品 | |
CN115761778A (zh) | 一种文献重构方法、装置、设备和存储介质 | |
CN108875770B (zh) | 行人检测误报数据的标注方法、装置、系统和存储介质 | |
CN115004245A (zh) | 目标检测方法、装置、电子设备和计算机存储介质 | |
CN107092702B (zh) | 基于重叠比例的地理信息要素位置对比检查方法及装置 | |
CN112949526A (zh) | 人脸检测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |