CN113256822B - 空间关系预测、数据处理方法、设备及存储介质 - Google Patents
空间关系预测、数据处理方法、设备及存储介质 Download PDFInfo
- Publication number
- CN113256822B CN113256822B CN202010087000.5A CN202010087000A CN113256822B CN 113256822 B CN113256822 B CN 113256822B CN 202010087000 A CN202010087000 A CN 202010087000A CN 113256822 B CN113256822 B CN 113256822B
- Authority
- CN
- China
- Prior art keywords
- space
- spatial
- image
- feature
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 85
- 238000003062 neural network model Methods 0.000 claims abstract description 77
- 230000004927 fusion Effects 0.000 claims abstract description 70
- 230000007246 mechanism Effects 0.000 claims abstract description 25
- 230000008569 process Effects 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims description 46
- 238000004364 calculation method Methods 0.000 claims description 33
- 230000015654 memory Effects 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 15
- 238000002372 labelling Methods 0.000 claims description 11
- 238000009826 distribution Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000005291 magnetic effect Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 241001122767 Theaceae Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 230000008713 feedback mechanism Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Architecture (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供一种空间关系预测、数据处理方法、设备及存储介质。在空间关系预测方法中,输入神经网络模型的待处理图像组由空间对应的全景图像和空间连接处对应的全景图像组成,可对空间关系进行整体建模,并为空间关系预测过程提供更加丰富的视觉信息。在此基础上,通过注意力机制获取待处理图像组整体的融合特征,有利于从整体的角度更加准确地预测单空间之间的连接关系,提升空间关系预测方法的鲁棒性和可靠性。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种空间关系预测、数据处理方法、设备及存储介质。
背景技术
三维全景导览技术日益得到发展,为人们的生活提供了更多便利。例如,可基于三维室内导览图向用户提供沉浸感较强的远程看房服务,或者基于三维车站导览地图向用户提供更直观易懂的车站导览服务。
对空间场景进行三维建模是实现三维全景导览的重要环节。对空间场景进行三维建模的过程中,若空间场景包含多个单空间,则需要确定多个单空间的关联关系。
现有技术提供的空间关系预测方法的鲁棒性和可靠性较差。因此,有待提出一种新的解决方案。
发明内容
本申请的多个方面提供一种空间关系预测、数据处理方法、设备及存储介质,用以提升空间关系预测方法的鲁棒性和可靠性。
本申请实施例提供一种空间关系预测方法,包括:将待处理图像组输入神经网络模型,所述待处理图像组包括第一空间对应的第一全景图像、第二空间对应的第二全景图像以及空间连接处对应的第三全景图像;在所述神经网络模型中的第一网络层,基于注意力机制获取所述待处理图像组的融合特征;在所述神经网络模型中的第二网络层,根据所述待处理图像组的融合特征,预测所述第一空间、所述第二空间以及所述空间连接处的连接关系。
本申请实施例还提供一种数据处理方法,包括:将样本图像组输入神经网络模型,所述样本图像组包括第一空间对应的第一全景图像、第二空间对应的第二全景图像以及空间连接处对应的第三全景图像;在所述神经网络模型中的第一网络层,基于注意力机制获取所述样本图像组的融合特征;将所述第一空间、第二空间以及空间连接处的连接关系作为监督信号,根据所述样本图像组的融合特征,优化所述神经网络模型的模型参数。
本申请实施例还提供一种数据处理方法,包括:获取目标空间的多个图像数据,其中,所述目标空间包括多个子空间;基于所述多个图像数据,对所述目标空间进行重建;对所述多个图像数据进行识别,以识别所述多个子空间各自包含的对象;展示所述目标空间对应的重建图像,并在所述重建图像上标注所述多个子空间各自包含的对象。
本申请实施例还提供一种数据处理方法,包括:获取目标空间的多个图像数据,其中,所述目标空间包括多个子空间;基于所述多个图像数据,对所述目标空间进行重建;展示所述目标空间对应的重建图像;响应对所述重建图像的调整操作,动态展示所述重建图像的调整效果。
本申请实施例还提供一种数据处理方法,包括;获取目标空间的多个图像数据,所述多个图像数据包括多个单空间对应的多个空间全景图像以及连接所述多个单空间的多个空间连接处的全景图像;根据所述多个空间全景图像和所述多个空间连接处的全景图像各自包含的特征点,从所述多个图像数据中确定存在重叠区域的第一空间全景图像和第一空间连接处的全景图像;根据所述重叠区域的像素分布特征,对所述第一空间全景图像和所述第一空间连接处的全景图像进行修正。
本申请实施例还提供一种电子设备,包括:存储器和处理器;所述存储器用于存储一条或多条计算机指令;所述处理器用于执行所述一条或多条计算机指令以用于:执行本申请实施例提供的空间关系预测方法或者数据处理方法。
本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被处理器执行时能够实现本申请实施例提供的空间关系预测方法或者数据处理方法。
本申请实施例提供的空间关系预测方法中,输入神经网络模型的待处理图像组由空间对应的全景图像和空间连接处对应的全景图像组成,可对空间关系进行整体建模,并为空间关系预测过程提供更加丰富的视觉信息。在此基础上,通过注意力机制获取待处理图像组整体的融合特征,有利于从整体的角度更加准确地预测单空间之间的连接关系,提升空间关系预测方法的鲁棒性和可靠性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请一示例性实施例提供的数据处理方法的流程示意图;
图2为本申请一示例性实施例提供的神经网络模型的结构示意图;
图3为本申请一示例性实施例提供的空间关系预测方法的流程示意图;
图4a为本申请一示例性实施例提供的应用场景实例的示意图;
图4b为本申请另一示例性实施例提供的数据处理方法的流程示意图;
图4c为本申请又一示例性实施例提供的数据处理方法的流程示意图;
图4d为本申请又一示例性实施例提供的数据处理方法的流程示意图;
图5为本申请一示例性实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
针对空间关系预测方法的鲁棒性和可靠性较差的技术问题,在本申请一些实施例中,提供了一种解决方案,该解决方案主要基于神经网络模型(Neural Networks,NN)实现空间关系预测。
其中,神经网络可包括:卷积神经网络(Convolutional Neural Networks,CNN)、深度神经网络(Deep Neural Network,DNN)、图卷积神经网络(Graph ConvolutionalNetworks,GCN)、循环神经网络(Recurrent Neural Network,RNN)以及长短期记忆神经网络(Long Short-Term Memory,LSTM)一种或多种,或者可由上述一种或多种神经网络变形得到,本实施例不做限制。
接下来,将结合附图,对训练该用于空间关系预测的神经网络模型的可选实施方式进行示例性说明。
针对目标场景(例如室内场景)进行三维建模时,可将完整的目标场景定义为多个单空间的组合,不同的单空间之间由实体墙或者虚拟墙分隔,相邻的单空间在门口(或虚拟门框)处产生连接。其中,虚拟墙指的是为分割不同单空间而划定的虚拟障碍物。目标场景可以是任意的室内场景,例如住宅房屋,办公场所、展览馆、商场等。
例如,室内场景为一套房屋,该房屋中的厨房、客厅、餐厅、卫生间以及卧室等,可被定义为一套房屋内的多个单空间。其中,厨房与客厅之前通过实体墙分割,且客厅和厨房在厨房门处产生连接。餐厅与客厅通过虚拟墙分割,并在虚拟的餐厅门处产生连接。客厅与卫生间之间通过实体墙分割,且客厅与卫生间在卫生间门处产生连接。卧室与可客厅通过实体墙分割,且卧室与客厅在卧室门处产生连接。
在本实施例中,为便于描述,将连接相邻单空间的门口或者虚拟门框,描述为空间连接处。例如,承接上述一套房屋的例子,厨房和客厅之间的空间连接处为厨房门,客厅与餐厅之间的空间连接处可以是虚拟的餐厅门。
训练神经网络模型所采用的样本图片,可通过对目标场景进行拍摄得到。可选地,可获取目标场景对应的多张全景图像,该多张全景图像包括多个单空间各自对应的全景图像以及多个空间连接处各自对应的全景图像。即,可使用全景设备在每个单空间内均拍摄一张全景图像,得到单空间对应的全景图像,并在每个空间连接处均拍摄一张全景图像,得到多个空间连接处的全景图像。
空间连接处的全景图像包含相连接的单空间的部分图像特征,基于单空间的全景图像以及空间连接处的全景图像中重合的部分特征,可为空间关系预测提供更加丰富的视觉信息,进一步提升空间连接关系预测的准确性。
其中,全景图,指的是一种广角图,其水平方向上的视角范围从-180°到180°,垂直方向上的视角范围从-90°到90°。针对任一单空间而言,根据该单空间对应的全景图,可重建该单空间对应的立方体,即上、下、前、后、左、右六个面形成的立方体。
在一些实施例中,拍摄到的全景图像呈现法式等距长方投影(equirectangular),全景照片的长宽比例固定为2:1,本实施例不做限制。
在获取到目标场景对应的多张全景图像后,可根据多张全景图像,生成多个样本图像组。其中,每个样本图像组包含两个单空间对应的全景图像以及一个空间连接处对应的全景图像。
可选的,该样本图像组可实现为由三张全景图像组成的三元组。该三元组可描述为<Si,Sj,Ck>。其中,Si表示空间i的全景图像,Sj表示空间j的全景图像,Ck表示间连接处k的全景图像。基于该三元组,可对不同空间的连接关系进行整体建模,从而将预测不同空间之间的连接关系的过程转化为预测三元组整体关系的过程。
在样本图像组中,空间对应的全景图像和空间连接处对应的全景图像可随机进行组合,以形成正例样本和负例样本。
在正例样本中,全景图像Ck包含全景图像Si与全景图像Sj的连接区域,即空间i和空间j通过空间连接处k相连。
在负例样本中,全景图像Ck与全景图像Si相连,但与全景图像Sj不相连,即:空间i与空间连接处k相连,但空间j不与空间连接处k相连。或者,全景图像Ck可以与全景图像Sj相连,但与全景图像Si不相连,即:空间j与空间连接处k相连,但空间i不与空间连接处k相连。或者,全景图像Ck与全景图像Sj和全景图像Si均不相连,即:空间i与空间连接处k不相连,空间j与空间连接处k也不相连。上述正例样本和负例样本,有利于提升神经网络模型的学习能力和鲁棒性。
获取到多个样本图像组后,可根据多个样本图像组和设定的损失函数,对神经网络模型进行训练,即通过迭代计算来优化神经网络模型中的模型参数。
接下来,将以多个样本图像组中的任意一个样本图像组为例,对神经网络模型的训练过程进行进一步示例性说明。
图1为本申请一示例性实施例提供的数据处理方法的流程示意图,如图1所示,该方法包括:
步骤101、将样本图像组输入神经网络模型,所述样本图像组包括第一空间对应的第一全景图像、第二空间对应的第二全景图像以及空间连接处对应的第三全景图像。
步骤102、在所述神经网络模型中的第一网络层,基于注意力机制获取所述样本图像组的融合特征。
步骤103、将所述第一空间、第二空间以及空间连接处的连接关系作为监督信号,根据所述样本图像组的融合特征,优化所述神经网络模型的模型参数。
需要说明的是,在本申请实施例中,采用“第一”、“第二”、“第三”等方式对描述对象进行限定,仅用于方便表述和区分,并不对其顺序、类型或者关系构成限制。
其中,神经网络模型中的第一网络层,可包含一个或多个网络层,该一个或多个网络层用于对输入的样本图像组进行特征提取。在本实施例中,第一网络层可基于注意力机制(Attention Mechanism),获取样本图像组的融合特征。该融合特征用于从整体上表征样本图像组的特征。
其中,注意力机制,源于对人类视觉的研究。在认知科学中,由于存在信息瓶颈,人类会选择性地关注信息中的一部分,同时忽略其他可见的信息。在机器学习领域中,基于注意力机制可从输入数据中选择特定的特征,进而可以使机器学习模型专注于对输入数据的一个子集进行处理。
在本实施例中,基于注意力机制,可从输入的样本图像组中选择特定的特征,并基于该特定的特征,生成输入样本图像组的融合特征。基于该融合特征进行空间关系预测后,可基于预测结果,通过反馈机制训练神经网络模型从输入的样本图像组中提取该特定的特征的能力。
通过反馈机制对神经网络模型进行训练时,可将样本图像组表征的空间连接关系作为训练时的监督信号。该样本图像组表征的空间连接关系,即为第一空间、第二空间以及空间连接处的连接关系。
基于该监督信号,神经网络模型的学习目标实现为:从输入的样本图像组中提取合适的特征以获取样本图像组的融合特征,并根据样本图像组的融合特征准确地识别样本图像组表征的空间连接关系。基于该学习目标,可通过大量输入样本图像组进行迭代计算,优化神经网络模型的空间关系预测能力。
本实施例中,在样本图像中增加空间连接处的全景图像,可为空间关系预测过程提供更加丰富的视觉信息。在此基础上,根据空间连接处的全景图像、以及两个单空间对应的全景图像组成的样本图像组,实现了基于三元组网络结构对空间关系进行整体建模,有利于基于整体建模结果更加准确地预测单空间之间的连接关系。
在一些可选的实施方式中,在第一网络层中,基于注意力机制提取样本图像组的融合特征时,可首先对样本图像组包含的全景图像进行特征提取,即:对第一空间对应的第一全景图像进行特征提取,得到第一空间特征;对第二空间对应的第二全景图像进行特征提取,得到第二空间特征;对空间连接处对应的第三全景图像进行特征提取,得到空间连接处的特征。
可选地,第一网络层可包含一个“编码-解码网络(Encoder-Decoder Networks)”,如图2所示。样本图像组输入第一网络层后,该“编码-解码”网络可采用相同的网络结构且可基于共享的权值参数分别对第一全景图像、第二全景图像以及第三全景图像进行特征提取。
接下来,可基于第一网络层提供的注意力掩膜(Attentional mask),从前序步骤提取到的图像特征中提取注意力特征。其中,注意力掩膜,用于基于注意力机制,从输入的特征图像中提取特定特征,注意力掩膜中的每个元素表示从特征图上提取对应元素的概率。
可选地,可采用第一注意力掩膜从空间连接处的特征中提取第一注意力特征,采用第二注意力掩膜,从空间连接处的特征中提取第二注意力特征。其中,第一注意力掩膜和第二注意力掩膜的尺寸与空间连接处的特征对应的特征图的尺寸相同,且元素位置一一对应。其中,注意力掩膜中的元素,指的是注意力掩膜上的最小信息单元。特征图中的元素,指的是特征图中表示特征的最小信息单元。
可选地,提取注意力特征采用的计算操作可以为元素积操作。即,采用注意力掩膜上用于表示概率的元素与特征图上的用于表示特征的元素进行元素积操作。上述操作可表示为如下数学公式:
其中,f()表示特征提取操作,f(Ck)表示提取到的空间连接处的特征;mik表示第一注意力掩膜,mjk表示第二注意力掩膜;f1表示第一注意力特征,f2表示第二注意力特征;表示元素积操作。
接下来,可根据第一注意力特征、第二注意力特征、第一空间特征以及第二空间特征,生成样本图像组的融合特征。
可选地,对第一注意力特征和第一空间特征执行元素级计算,得到第一计算结果;以及,对第二注意力特征和第二空间特征执行元素级计算,得到第二计算结果;接着,将第一计算结果和第二计算结果进行融合操作,得到样本图像组的融合特征。
其中,获取元素级计算的操作可表示为如下数学公式:
其中,表示元素级计算。f(Si)表示提取到的第一空间特征,f(Sj)表示提取到的第二空间特征,/>表示第一计算结果,/>表示第二计算结果。
可选地,该元素级计算,包括:元素加计算、元素积计算、元素间的门限计算中的至少一种,本实施例不做限制。
可选地,第一计算结果和第二计算结果之间的融合操作,可包括:拼接操作和/或双线性池化操作。以拼接操作为例,可将第一计算结果对应的向量和第二计算结果对应的向量进行向量拼接,得到用于表示融合特征的向量。
该向量可表示为:
获取样本图像组的融合特征后,可根据该融合特征对神经网络模型进行训练。
在一些可选的实施方式中,在神经网络模型中的第二网络层,可根据第二网络层的参数和样本图像组的融合特征,计算样本图像组对应的空间关系预测值;接着,根据该空间关系预测值、监督信号以及设定的损失函数,优化神经网络模型的模型参数。
可选地,该第二网络层可实现为神经网络模型中的全连接层。第二网络层的计算可表示为如下数学公式:
其中,wT表示第二网络层的参数,σ()为激活函数,表示空间关系的预测值。/>的计算结果为0或者1。在一些场景下,若/>为1则可认为样本图像组表征的第一空间、第二空间以及空间连接处存在连接关系;若/>为1,则可认为第一空间、第二空间以及空间连接处存在连接关。
在一些可选的实施例中,优化神经网络模型中的模型参数所采用的监督信号包括:
监督信号1:用于表征第一空间和空间连接处的连接关系的第一真值yik;若第一空间和空间连接处相连,则yik=1,若第一空间和空间连接处不相连,则yik=0。
监督信号2:用于表征第二空间和空间连接处的连接关系的第二真值yjk;若第人空间和空间连接处相连,则yjk=1,若第二空间和空间连接处不相连,则yjk=0。
监督信号3:用于表征第一空间、空间连接处以及第二空间的连接关系的第三真值y。若第一空间、空间连接处以及第二空间相连,则y=1,若第一空间、空间连接处以及第二空间相连,则y=0。
可选地,训练神经网络模型所需的损失函数可由对比损失函数(ContrastiveLoss)和交叉熵损失函数(Cross-Entropy Loss)构成。以下将结合上述监督信号,进一步示例性说明构造损失函数的可选实施方式。
其中,对比损失是一种降维方法,目标是学习一种映射关系,以使得高维空间中相同类别的两个点变换到低维空间时距离缩小,而不同类别的点经变换后距离扩大。基于对比损失函数,可有效表达二元配对样本的匹配程度。
可选地,可基于第一注意力特征、第一空间特征和第一真值,构造第一对比损失函数如以下公式所示:
同时,可基于第二注意力特征、第二空间特征以及第二真值,构造第二对比损失函数如以下公式所示:
其中,B表示参与计算的元素的数量,b表示元素的序号,max()表示取最大值函数,d()表示距离计算函数,M1和M2为常量。
其中,交叉熵为两个概率分布之间差异性的一种测度,交叉熵损失可用于表示目标值(分布)与预测值(分布)之间的误差;误差越小,模型预测越准确。
在本实施例中,目标值为第三真值,预测值为该空间关系预测值,基于二者构造得到的交叉熵损失函数可采用如下公式表示:
基于上述,接下来可根据第一对比损失函数、第二对比损失函数、交叉熵损失函数,确定训练神经网络模型所需的损失函数。
可选地,在一些实施例中,可将第一对比损失函数、第二对比损失函数以及交叉熵损失函数进行叠加,得到训练神经网络模型所需的损失函数,即:
获取到损失函数后,可根据样本图像组的融合特征,对神经网络模型进行迭代训练,直至损失函数收敛至特定范围,不再赘述。
可选地,迭代训练的过程中,神经网络模型中待优化的模型参数,可包括:第一注意力掩膜、第二注意力掩膜以及第二网络层的参数中的至少一种。第二网络层实现为全连接层时,第二网络层的参数可包括全连接层的权值参数。
可选地,优化神经网络模型中的模型参数的过程,可基于梯度下降算法或者随机梯度下降算法实现,此处不做赘述。
基于前述各实施例提供的数据处理方法,可训练得到用于预测空间关系的“端到端”的神经网络模型。基于该神经网络模型,本申请实施例还提供一种空间关系预测方法,以下将结合附图进行示例性说明。
图3是本申请一示例性实施例提供的空间关系预测方法的流程示意图,如图3所示,该方法可包括:
步骤301、将待处理图像组输入神经网络模型,所述待处理图像组包括第一空间对应的第一全景图像、第二空间对应的第二全景图像以及空间连接处对应的第三全景图像。
步骤302、在所述神经网络模型中的第一网络层,基于注意力机制获取所述待处理图像组的融合特征。
步骤303、在所述神经网络模型中的第二网络层,根据所述待处理图像组的融合特征,预测所述第一空间、所述第二空间以及所述空间连接处的连接关系。
可选地,在本实施例中,第一空间和第二空间,是待进行空间关系预测的单空间。第一全景图像、第二全景图像以及第三全景图像,是预测第一空间和第二空间之间的连接关系所需的图像。
神经网络模型包含第一网络层和第二网络层,其中,第一网络层用于对输入的待处理图像组进行整体特征提取,第二网络层用于根据输入的整体特征对待处理图像组进行打分,以预测空间连接关系。
在一些可选的实施例中,基于注意力机制获取所述待处理图像组的融合特征的一种方式,包括:分别对所述第一全景图像、所述第二全景图像以及所述第三全景图像进行特征提取,得到第一空间特征、第二空间特征以及空间连接处的特征;分别采用第一注意力掩膜和第二注意力掩膜,从所述空间连接处的特征中提取第一注意力特征和第二注意力特征;根据所述第一注意力特征、所述第二注意力特征、所述第一空间特征以及所述第二空间特征,生成所述待处理图像组的融合特征。具体可参考前述实施例记载的训练神经网络模型的部分内容,此处不赘述。
在一些可选的实施例中,根据所述第一注意力特征、所述第二注意力特征、所述第一空间特征以及所述第二空间特征,生成所述待处理图像组的融合特征的一种方式,包括:对所述第一注意力特征和所述第一空间特征执行元素级计算,得到第一计算结果;以及,对所述第二注意力特征和所述第二空间特征执行元素级计算,得到第二计算结果;将所述第一计算结果和所述第二计算结果进行融合操作,得到所述待处理图像组的融合特征。具体可参考前述实施例记载的训练神经网络模型的部分内容,此处不赘述。
在一些可选的实施例中,在所述神经网络模型中的第二网络层,根据所述待处理图像组的融合特征,预测所述第一空间、所述第二空间以及所述空间连接处的连接关系的一种方式,包括:在所述第二网络层,根据所述第二网络层的参数和所述待处理图像组的融合特征,计算所述待处理图像组对应的空间关系预测值;具体可参考前述实施例记载的训练神经网络模型的部分内容。
可选地,若所述空间关系预测值满足设定条件,则确定所述第一空间和所述第二空间通过所述空间连接进行连接。例如,若所述空间关系预测值大于设定的阈值,可认为所述第一空间和所述第二空间通过所述空间连接进行连接。该设定的阈值可以为0.5、0.8、0.85、0.9或者0.95,本实施例不做限制。反之,则可认为所述第一空间和所述第二空间并非通过所述空间连接进行连接。
在一些可选的实施例中,该方法还包括:获取目标场景对应的多张全景图像,所述目标场景包含多个单空间;根据所述多张全景图像,生成多个样本图像组;其中,每个样本图像组包含两个单空间对应的全景图像以及一个空间连接处对应的全景图像;根据所述多个样本图像组和设定的损失函数,对所述神经网络模型的模型参数进行优化。其中,对神经网络模型的模型参数进行优化的可选实施方式可参考前述实施例的记载,此处不再赘述。
本实施例中,输入神经网络模型的待处理图像组由空间对应的全景图像和空间连接处对应的全景图像组成,可基于三元组网络结构对空间关系进行整体建模,并为空间关系预测过程提供更加丰富的视觉信息。在此基础上,通过注意力机制获取待处理图像组整体的融合特征,有利于从整体的角度更加准确地预测单空间之间的连接关系,提升空间关系预测方法的鲁棒性和可靠性。
图4a示意了本申请实施例的一种典型的应用场景,在图4a的示意中,可拍摄一套房屋内每个房间的全景图像以及房间门处的全景图像。每个房间的全景图像以及房间门处的全景图像输入计算机设备,通过计算机设备预测房间之间的连接关系,并基于连接关系和拍摄到的全景图像,重建这套房屋。
计算机设备可根据任意两个房间的全景图像和任意一个房间门处的全景图像构建三元组,得到待处理图像组。图4a中以房间1、房间2以及房间门1为例对待处理图像组进行了示意。在实际中,针对任一房间对应的全景图像,可遍历所有其他房间对应的全景图像和房间门对应的全景图像来构造三元组,以避免遗漏可能存在的连接关系。
获取到待处理图像组后,计算机设备表可将待处理图像组输入神经网络模型。该神经网络模型可基于注意力机制从待处理图像组中提取需要关注的特征,并生成用于表征待处理图像组的整体特征的融合特征。基于融合特征,神经网络模型可预测房间1、房间2以及门1的连接关系。例如,神经网络模型的输出为1时,可认为房间1、房间2以及门1存在连接关系,即房间1通过门1与房间2连接。预测多个房间之间的连接关系后,可基于房间之间的连接关系,进行房屋重建。
图4b为本申请一示例性实施例提供的数据处理方法的流程示意图,如图4b所示,该方法包括:
步骤401b、获取目标空间的多个图像数据,其中,所述目标空间包括多个子空间。
步骤402b、基于所述多个图像数据,对所述目标空间进行重建。
步骤403b、对所述多个图像数据进行识别,以识别所述多个子空间各自包含的对象。
步骤404b、展示所述目标空间对应的重建图像,并在所述重建图像上标注所述多个子空间各自包含的对象。
其中,目标空间可实现为前述各实施例记载的目标场景所在的空间。目标空间包含多个子空间,即前述实施例记载的单空间。目标空间的多个图像数据,可包括在目标场景内拍摄的到的多个单空间各自对应的全景图像以及多个空间连接处各自对应的全景图像,不再赘述。
其中,根据多个图像数据对目标空间进行重建的可选实施方式可参考前述各实施例的记载,此处不做赘述。在重建目标空间的基础上,基于本实施例提供的数据处理方法,可进一步对重建结果进行标注。以下将结合步骤403b和步骤404b进行说明。
在步骤403b中,对多个图像数据进行识别的方法可通过基于神经网络的图像主体识别的方法实现,本实施例不做限制。基于图像识别的步骤,可识别多个图像数据各自包含的对象,并可基于图像数据和子空间的对应关系,确定多个子空间包含的对象。
其中,子空间包含的对象,指的是子空间包含的物件、家具、设备、装饰品等等。例如,对一全景图像进行识别,得到“沙发”、“茶几”、“电视柜”、“落地灯”等对象;若该全景图像与客厅对应的子空间对应,则可确定客厅中摆放有:“沙发”、“茶几”、“电视柜”、“落地灯”等家具。
在步骤404b中,展示目标空间对应的重建图像。可选地,重建图像可以是二维或者三维的,本实施例不做限制。在展示重建图像时,可根据每个子空间各自包含的对象,在重建图像上标注每个子空间各自包含的对象,以便于用户查看。
在一些可选的实施例中,还可根据该多个图像数据包含的图像内容,识别该多个图像数据对应的拍摄点位。其中,该拍摄点位包括对多个子空间进行拍摄的拍摄点位以及在多个子空间对应的空间连接处的拍摄点位。
获取到拍摄点位后,可在在重建图像中标注该拍摄点位。例如,一套房屋的重建图中,可标注客厅中的拍摄点位、卧室内的拍摄点位、卧室门的拍摄点位、入户门的拍摄点位等等。可选地,标注拍摄点位方法可以采用文字标注的方法、高亮标注的方法或者星标标注的方法等等,本实施例不做限制。
在本实施例中,在对目标空间进行重建后,在重建图像上进行信息标注,可更直观地展示重建效果,便于用户查看。
图4c为本申请另一示例性实施例提供的数据处理方法的流程示意图,如图4c所示,该方法包括:
步骤401c、获取目标空间的多个图像数据,其中,所述目标空间包括多个子空间。
步骤402c、基于所述多个图像数据,对所述目标空间进行重建。
步骤403c、展示所述目标空间对应的重建图像。
步骤404c、响应对所述重建图像的调整操作,动态展示所述重建图像的调整效果。
其中,目标空间可实现为前述各实施例记载的目标场景所在的空间。目标空间包含多个子空间,即前述实施例记载的单空间。目标空间的多个图像数据,可包括在目标场景内拍摄的到的多个单空间各自对应的全景图像以及多个空间连接处各自对应的全景图像,不再赘述。
其中,根据多个图像数据对目标空间进行重建的可选实施方式可参考前述各实施例的记载,此处不做赘述。在重建目标空间的基础上,基于本实施例提供的数据处理方法,可进一步动态展示重建结果。
其中,对重建图像的调整操作可由用户发起。例如,该目标空间实现为一套房屋时,该用户可以是看房用户或者装修设计师用户等。用户可根据需求对重建图像进行调整。
可选地,对重建图像进行调整操作,包括:对重建图像中的对象的移动操作、对重建图像中的对象的删除操作以及在重建图像中新增至少一个对象的操作。
基于上述操作,可模拟对目标空间的布置操作,或者装修操作等等。例如,针对一套房屋的重建图像,用户可通过触控或者鼠标拖动方式移动房屋内的家具或者装饰物品,以模拟房间的布置操作;或者,可通过删除已有家具并新增其他家具的操作来模拟家具的替换操作,不再赘述。
本实施例中,在重建目标空间后,展示目标空间的重建图像,并可响应对重建图像的调整操作,动态展示重建图像的调整效果。进而,可基于重建图像,向用户提供针对目标空间的模拟调整操作。
图4d为本申请又一示例性实施例提供的数据处理方法的流程示意图,如图4d所示,该方法包括:
步骤401d、获取目标空间的多个图像数据,所述多个图像数据包括多个单空间对应的多个空间全景图像以及连接所述多个单空间的多个空间连接处的全景图像。
步骤402d、根据所述多个空间全景图像和所述多个空间连接处的全景图像各自包含的特征点,从所述多个图像数据中确定存在重叠区域的第一空间全景图像和第一空间连接处的全景图像。
步骤403d、根据所述重叠区域的像素分布特征,对所述第一空间全景图像和所述第一空间连接处的全景图像进行修正。
其中,根据多个空间全景图像和多个空间连接处的全景图像各自包含的特征点,从多个图像数据中确定存在重叠区域的第一空间全景图像和第一空间连接处的全景图像的操作,可通过特征点检测以及特征点匹配的方式实现,具体可参考前述实施例的记载,此处不赘述。
第一空间全景图像和第一空间连接处的全景图像存在重叠区域,指的是第一空间全景图像表征的空间区域和第一空间连接处的全景图像表征的空间区域存在重叠区域。例如,厨房对应的全景图像表征的空间区域为厨房,厨房门对应的全景图像表征的空间区域包括厨房的一部分区域以及餐厅的一部分区域,那么二者表征的空间区域存在一部分重叠的空间区域,即厨房的一部分区域。基于重叠区域的像素分布特征,对可第一空间全景图像和第一空间连接处的全景图像进行修正。其中,修正可包括对重叠区域中存在误差的像素点进行修正,对图像中的几何线条进行规范,或者对图像中的模糊区域进行清晰度补偿等等,本实施例包含但不限于此。
本实施例中,根据空间全景图像和空间连接处的全景图像之间的重叠区域,可对空间全景图像和空间连接处的全景图像进行修正,进而可获取到质量较高的图像,有利于为空间重建提供更稳定的数据支撑。
需要说明的是,上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤301至步骤303的执行主体可以为设备A;又比如,步骤301和302的执行主体可以为设备A,步骤303的执行主体可以为设备B;等等。
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如301、302等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
图5是本申请一示例性实施例提供的电子设备的结构示意图,如图5所示,该电子设备包括:存储器501以及处理器502。
存储器501,用于存储计算机程序,并可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
其中,存储器501可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器502,与存储器501耦合,用于执行存储器501中的计算机程序,以用于:将待处理图像组输入神经网络模型,所述待处理图像组包括第一空间对应的第一全景图像、第二空间对应的第二全景图像以及空间连接处对应的第三全景图像;在所述神经网络模型中的第一网络层,基于注意力机制获取所述待处理图像组的融合特征;在所述神经网络模型中的第二网络层,根据所述待处理图像组的融合特征,预测所述第一空间、所述第二空间以及所述空间连接处的连接关系。
进一步可选地,处理器502在基于注意力机制获取所述待处理图像组的融合特征时,具体用于:分别对所述第一全景图像、所述第二全景图像以及所述第三全景图像进行特征提取,得到第一空间特征、第二空间特征以及空间连接处的特征;分别采用第一注意力掩膜和第二注意力掩膜,从所述空间连接处的特征中提取第一注意力特征和第二注意力特征;根据所述第一注意力特征、所述第二注意力特征、所述第一空间特征以及所述第二空间特征,生成所述待处理图像组的融合特征。
进一步可选地,处理器502在根据所述第一注意力特征、所述第二注意力特征、所述第一空间特征以及所述第二空间特征,生成所述待处理图像组的融合特征时,具体用于:对所述第一注意力特征和所述第一空间特征执行元素级计算,得到第一计算结果;以及,对所述第二注意力特征和所述第二空间特征执行元素级计算,得到第二计算结果;将所述第一计算结果和所述第二计算结果进行融合操作,得到所述待处理图像组的融合特征。
进一步可选地,处理器502在在所述神经网络模型中的第二网络层,根据所述待处理图像组的融合特征,预测所述第一空间、所述第二空间以及所述空间连接处的连接关系时,具体用于:在所述第二网络层,根据所述第二网络层的参数和所述待处理图像组的融合特征,计算所述待处理图像组对应的空间关系预测值;若所述空间关系预测值满足设定条件,则确定所述第一空间和所述第二空间通过所述空间连接进行连接。
进一步可选地,处理器502还用于:获取目标场景对应的多张全景图像,所述目标场景包含多个单空间;根据所述多张全景图像,生成多个样本图像组;其中,每个样本图像组包含两个单空间对应的全景图像以及一个空间连接处对应的全景图像;根据所述多个样本图像组和设定的损失函数,对所述神经网络模型的模型参数进行优化。
进一步,如图5所示,该电子设备还包括:通信组件503、显示组件504、电源组件505、音频组件506等其它组件。图5中仅示意性给出部分组件,并不意味着电子设备只包括图5所示组件。
其中,通信组件503被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如WiFi,2G、3G、4G或5G,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件可基于近场通信(NFC)技术、射频识别(RFID)技术、红外数据协会(IrDA)技术、超宽带(UWB)技术、蓝牙(BT)技术和其他技术来实现。
其中,显示组件504包括屏幕,其屏幕可以包括液晶显示组件(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
其中,电源组件505,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
本实施例中,输入神经网络模型的待处理图像组由空间对应的全景图像和空间连接处对应的全景图像组成,可基于三元组网络结构对空间关系进行整体建模,并为空间关系预测过程提供更加丰富的视觉信息。在此基础上,通过注意力机制获取待处理图像组整体的融合特征,有利于从整体的角度更加准确地预测单空间之间的连接关系,提升空间关系预测方法的鲁棒性和可靠性。
除前述各实施例记载的处理逻辑外,图5所示的电子设备中,处理器502还可执行以下记载的处理逻辑:将样本图像组输入神经网络模型,所述样本图像组包括第一空间对应的第一全景图像、第二空间对应的第二全景图像以及空间连接处对应的第三全景图像;在所述神经网络模型中的第一网络层,基于注意力机制获取所述样本图像组的融合特征;将所述第一空间、第二空间以及空间连接处的连接关系作为监督信号,根据所述样本图像组的融合特征,优化所述神经网络模型的模型参数。
进一步可选地,处理器502在基于注意力机制获取所述样本图像组的融合特征时,具体用于:分别对所述第一全景图像、所述第二全景图像以及所述第三全景图像进行特征提取,得到第一空间特征、第二空间特征以及空间连接处的特征;分别采用第一注意力掩膜和第二注意力掩膜,从所述空间连接处的特征中提取第一注意力特征和第二注意力特征;根据所述第一注意力特征、所述第二注意力特征、所述第一空间特征以及所述第二空间特征,生成所述样本图像组的融合特征。
进一步可选地,处理器502在根据所述第一注意力特征、所述第二注意力特征、所述第一空间特征以及所述第二空间特征,生成所述样本图像组的融合特征时,具体用于:对所述第一注意力特征和所述第一空间特征执行元素级计算,得到第一计算结果;以及,对所述第二注意力特征和所述第二空间特征执行元素级计算,得到第二计算结果;将所述第一计算结果和所述第二计算结果进行融合操作,得到所述样本图像组的融合特征。
进一步可选地,所述元素级计算,包括:元素加计算、元素积计算、元素间的门限计算中的至少一种。
进一步可选地,所述融合操作,包括:拼接操作和/或双线性池化操作。
进一步可选地,处理器502在将所述第一空间、第二空间以及空间连接处的连接关系作为监督信号,根据所述样本图像组的融合特征,优化所述神经网络模型的模型参数时,具体用于:在所述神经网络模型中的第二网络层,根据所述第二网络层的参数和所述样本图像组的融合特征,计算所述样本图像组对应的空间关系预测值;根据所述空间关系预测值、所述监督信号以及设定的损失函数,优化所述神经网络模型的模型参数。
进一步可选地,处理器502在优化所述神经网络模型的模型参数时,具体用于:优化所述第一注意力掩膜、所述第二注意力掩膜以及所述第二网络层的参数中的至少一种。
进一步可选地,所述监督信号包括:用于表征所述第一空间和所述空间连接处的连接关系的第一真值;用于表征所述第二空间和所述空间连接处的连接关系的第二真值;以及,用于表征所述第一空间、所述空间连接处以及所述第二空间的连接关系的第三真值。
进一步可选地,处理器502还用于:基于所述第一注意力特征、所述第一空间特征和所述第一真值,构造第一对比损失函数;基于所述第二注意力特征、所述第二空间特征以及所述第二真值,构造第二对比损失函数;基于所述空间关系预测值和所述第三真值,构造交叉熵损失函数;根据所述第一对比损失函数、所述第二对比损失函数、所述交叉熵损失函数,确定所述设定的损失函数。
本实施例中,在样本图像中增加空间连接处的全景图像,可为空间关系预测过程提供更加丰富的视觉信息。在此基础上,根据空间连接处的全景图像、以及两个单空间对应的全景图像组成的样本图像组,实现了基于三元组网络结构对空间关系进行整体建模,有利于基于整体建模结果更加准确地预测单空间之间的连接关系。
除前述实施例记载的处理逻辑之外,图5示意的电子设备还可执行如下的处理逻辑:通过处理器502获取目标空间的多个图像数据,其中,所述目标空间包括多个子空间;基于所述多个图像数据,对所述目标空间进行重建;对所述多个图像数据进行识别,以识别所述多个子空间各自包含的对象;展示所述目标空间对应的重建图像,并在所述重建图像上标注所述多个子空间各自包含的对象。
进一步可选地,处理器502还用于:根据所述多个图像数据包含的图像内容,识别所述多个图像数据对应的拍摄点位;在所述重建图像中标注所述拍摄点位;其中,所述拍摄点位包括所述多个子空间中的拍摄点位以及在所述多个子空间对应的空间连接处的拍摄点位。
除前述实施例记载的处理逻辑之外,图5示意的电子设备还可执行如下的处理逻辑:通过处理器502获取目标空间的多个图像数据,其中,所述目标空间包括多个子空间;基于所述多个图像数据,对所述目标空间进行重建;展示所述目标空间对应的重建图像;响应对所述重建图像的调整操作,动态展示所述重建图像的调整效果。
进一步可选地,所述调整操作包括以下至少一种:对所述重建图像中的对象的移动操作;对所述重建图像中的对象的删除操作;在所述重建图像中新增至少一个对象的操作。
除前述实施例记载的处理逻辑之外,图5示意的电子设备还可执行如下的处理逻辑:通过处理器502获取目标空间的多个图像数据,所述多个图像数据包括多个单空间对应的多个空间全景图像以及连接所述多个单空间的多个空间连接处的全景图像;根据所述多个空间全景图像和所述多个空间连接处的全景图像各自包含的特征点,从所述多个图像数据中确定存在重叠区域的第一空间全景图像和第一空间连接处的全景图像;根据所述重叠区域的像素分布特征,对所述第一空间全景图像和所述第一空间连接处的全景图像进行修正。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现上述方法实施例中可由电子设备执行的各步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (19)
1.一种空间关系预测方法,其特征在于,包括:
将待处理图像组输入神经网络模型,所述待处理图像组包括第一空间对应的第一全景图像、第二空间对应的第二全景图像以及空间连接处对应的第三全景图像;
在所述神经网络模型中的第一网络层,基于注意力机制获取所述待处理图像组的融合特征;
在所述神经网络模型中的第二网络层,根据所述待处理图像组的融合特征,预测所述第一空间、所述第二空间以及所述空间连接处的连接关系;
其中,基于注意力机制获取所述待处理图像组的融合特征,包括:分别对所述第一全景图像、所述第二全景图像以及所述第三全景图像进行特征提取,得到第一空间特征、第二空间特征以及空间连接处的特征;分别采用第一注意力掩膜和第二注意力掩膜,从所述空间连接处的特征中提取第一注意力特征和第二注意力特征;根据所述第一注意力特征、所述第二注意力特征、所述第一空间特征以及所述第二空间特征,生成所述待处理图像组的融合特征。
2.根据权利要求1所述的方法,其特征在于,根据所述第一注意力特征、所述第二注意力特征、所述第一空间特征以及所述第二空间特征,生成所述待处理图像组的融合特征,包括:
对所述第一注意力特征和所述第一空间特征执行元素级计算,得到第一计算结果;以及,
对所述第二注意力特征和所述第二空间特征执行元素级计算,得到第二计算结果;
将所述第一计算结果和所述第二计算结果进行融合操作,得到所述待处理图像组的融合特征。
3.根据权利要求1所述的方法,其特征在于,在所述神经网络模型中的第二网络层,根据所述待处理图像组的融合特征,预测所述第一空间、所述第二空间以及所述空间连接处的连接关系,包括:
在所述第二网络层,根据所述第二网络层的参数和所述待处理图像组的融合特征,计算所述待处理图像组对应的空间关系预测值;
若所述空间关系预测值满足设定条件,则确定所述第一空间和所述第二空间通过所述空间连接进行连接。
4.根据权利要求1-3任一项所述的方法,其特征在于,还包括:
获取目标场景对应的多张全景图像,所述目标场景包含多个单空间;
根据所述多张全景图像,生成多个样本图像组;其中,每个样本图像组包含两个单空间对应的全景图像以及一个空间连接处对应的全景图像;
根据所述多个样本图像组和设定的损失函数,对所述神经网络模型的模型参数进行优化。
5.一种数据处理方法,其特征在于,包括:
将样本图像组输入神经网络模型,所述样本图像组包括第一空间对应的第一全景图像、第二空间对应的第二全景图像以及空间连接处对应的第三全景图像;
在所述神经网络模型中的第一网络层,基于注意力机制获取所述样本图像组的融合特征;
将所述第一空间、第二空间以及空间连接处的连接关系作为监督信号,根据所述样本图像组的融合特征,优化所述神经网络模型的模型参数;
其中,基于注意力机制获取所述样本图像组的融合特征,包括:分别对所述第一全景图像、所述第二全景图像以及所述第三全景图像进行特征提取,得到第一空间特征、第二空间特征以及空间连接处的特征;分别采用第一注意力掩膜和第二注意力掩膜,从所述空间连接处的特征中提取第一注意力特征和第二注意力特征;根据所述第一注意力特征、所述第二注意力特征、所述第一空间特征以及所述第二空间特征,生成所述样本图像组的融合特征。
6.根据权利要求5所述的方法,其特征在于,根据所述第一注意力特征、所述第二注意力特征、所述第一空间特征以及所述第二空间特征,生成所述样本图像组的融合特征,包括:
对所述第一注意力特征和所述第一空间特征执行元素级计算,得到第一计算结果;以及,
对所述第二注意力特征和所述第二空间特征执行元素级计算,得到第二计算结果;
将所述第一计算结果和所述第二计算结果进行融合操作,得到所述样本图像组的融合特征。
7.根据权利要求6所述的方法,其特征在于,所述元素级计算,包括:元素加计算、元素积计算、元素间的门限计算中的至少一种。
8.根据权利要求6所述的方法,其特征在于,所述融合操作,包括:拼接操作和/或双线性池化操作。
9.根据权利要求6所述的方法,其特征在于,将所述第一空间、第二空间以及空间连接处的连接关系作为监督信号,根据所述样本图像组的融合特征,优化所述神经网络模型的模型参数,包括:
在所述神经网络模型中的第二网络层,根据所述第二网络层的参数和所述样本图像组的融合特征,计算所述样本图像组对应的空间关系预测值;
根据所述空间关系预测值、所述监督信号以及设定的损失函数,优化所述神经网络模型的模型参数。
10.根据权利要求9所述的方法,其特征在于,优化所述神经网络模型的模型参数,包括:
优化所述第一注意力掩膜、所述第二注意力掩膜以及所述第二网络层的参数中的至少一种。
11.根据权利要求9所述的方法,其特征在于,所述监督信号包括:
用于表征所述第一空间和所述空间连接处的连接关系的第一真值;
用于表征所述第二空间和所述空间连接处的连接关系的第二真值;以及,
用于表征所述第一空间、所述空间连接处以及所述第二空间的连接关系的第三真值。
12.根据权利要求11所述的方法,其特征在于,还包括:
基于所述第一注意力特征、所述第一空间特征和所述第一真值,构造第一对比损失函数;
基于所述第二注意力特征、所述第二空间特征以及所述第二真值,构造第二对比损失函数;
基于所述空间关系预测值和所述第三真值,构造交叉熵损失函数;
根据所述第一对比损失函数、所述第二对比损失函数、所述交叉熵损失函数,确定所述设定的损失函数。
13.一种数据处理方法,其特征在于,包括:
获取目标空间的多个图像数据,其中,所述目标空间包括多个子空间;
基于所述多个图像数据,对所述目标空间进行重建;在对所述目标空间进行重建的过程中,采用权利要求1-12任一项所述的方法,根据所述多个图像数据,预测所述多个子空间的连接关系;
对所述多个图像数据进行识别,以识别所述多个子空间各自包含的对象;
展示所述目标空间对应的重建图像,并在所述重建图像上标注所述多个子空间各自包含的对象。
14.根据权利要求13所述的方法,其特征在于,还包括:
根据所述多个图像数据包含的图像内容,识别所述多个图像数据对应的拍摄点位;
在所述重建图像中标注所述拍摄点位;
其中,所述拍摄点位包括所述多个子空间中的拍摄点位以及在所述多个子空间对应的空间连接处的拍摄点位。
15.一种数据处理方法,其特征在于,包括:
获取目标空间的多个图像数据,其中,所述目标空间包括多个子空间;
基于所述多个图像数据,对所述目标空间进行重建;在对所述目标空间进行重建的过程中,采用权利要求1-12任一项所述的方法,根据所述多个图像数据,预测所述多个子空间的连接关系;
展示所述目标空间对应的重建图像;
响应对所述重建图像的调整操作,动态展示所述重建图像的调整效果。
16.根据权利要求15所述的方法,其特征在于,所述调整操作包括以下至少一种:
对所述重建图像中的对象的移动操作;
对所述重建图像中的对象的删除操作;
在所述重建图像中新增至少一个对象的操作。
17.一种数据处理方法,其特征在于,包括;
获取目标空间的多个图像数据,所述多个图像数据包括多个单空间对应的多个空间全景图像以及连接所述多个单空间的多个空间连接处的全景图像;
根据所述多个空间全景图像和所述多个空间连接处的全景图像各自包含的特征点,从所述多个图像数据中确定存在重叠区域的第一空间全景图像和第一空间连接处的全景图像;在确定存在重叠区域的所述第一空间全景图像和所述第一空间连接处的全景图像的过程中,采用权利要求1-12任一项所述的方法,根据所述多个空间全景图像以及连接所述多个空间连接处的全景图像,预测所述多个单空间以及所述多个单空间的空间连接处的连接关系;
根据所述重叠区域的像素分布特征,对所述第一空间全景图像和所述第一空间连接处的全景图像进行修正。
18.一种电子设备,其特征在于,包括:存储器和处理器;
所述存储器用于存储一条或多条计算机指令;
所述处理器用于执行所述一条或多条计算机指令以用于:执行权利要求1-4任一项所述的空间关系预测方法或者权利要求5-12任一项所述的数据处理方法或者权利要求13-17任一项所述的数据处理方法。
19.一种存储有计算机程序的计算机可读存储介质,其特征在于,计算机程序被处理器执行时能够实现权利要求1-4任一项所述的空间关系预测方法或者权利要求5-12任一项所述的数据处理方法或者权利要求13-17任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010087000.5A CN113256822B (zh) | 2020-02-11 | 2020-02-11 | 空间关系预测、数据处理方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010087000.5A CN113256822B (zh) | 2020-02-11 | 2020-02-11 | 空间关系预测、数据处理方法、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113256822A CN113256822A (zh) | 2021-08-13 |
CN113256822B true CN113256822B (zh) | 2024-02-13 |
Family
ID=77219594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010087000.5A Active CN113256822B (zh) | 2020-02-11 | 2020-02-11 | 空间关系预测、数据处理方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113256822B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113256808A (zh) * | 2020-02-11 | 2021-08-13 | 阿里巴巴集团控股有限公司 | 空间关系计算方法、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013097161A1 (en) * | 2011-12-30 | 2013-07-04 | Honeywell International Inc. | Target aquisition in a three dimensional building display |
WO2017032243A1 (zh) * | 2015-08-26 | 2017-03-02 | 阿里巴巴集团控股有限公司 | 图像特征提取方法、装置、终端设备及系统 |
EP3414707A2 (en) * | 2016-02-09 | 2018-12-19 | HRL Laboratories, LLC | System and method for the fusion of bottom-up whole-image features and top-down entity classification for accurate image/video scene classification |
CN110378349A (zh) * | 2019-07-16 | 2019-10-25 | 北京航空航天大学青岛研究院 | Android移动端室内场景三维重建及语义分割方法 |
CN110570522A (zh) * | 2019-08-22 | 2019-12-13 | 天津大学 | 一种多视图三维重建方法 |
-
2020
- 2020-02-11 CN CN202010087000.5A patent/CN113256822B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013097161A1 (en) * | 2011-12-30 | 2013-07-04 | Honeywell International Inc. | Target aquisition in a three dimensional building display |
WO2017032243A1 (zh) * | 2015-08-26 | 2017-03-02 | 阿里巴巴集团控股有限公司 | 图像特征提取方法、装置、终端设备及系统 |
EP3414707A2 (en) * | 2016-02-09 | 2018-12-19 | HRL Laboratories, LLC | System and method for the fusion of bottom-up whole-image features and top-down entity classification for accurate image/video scene classification |
CN110378349A (zh) * | 2019-07-16 | 2019-10-25 | 北京航空航天大学青岛研究院 | Android移动端室内场景三维重建及语义分割方法 |
CN110570522A (zh) * | 2019-08-22 | 2019-12-13 | 天津大学 | 一种多视图三维重建方法 |
Non-Patent Citations (2)
Title |
---|
Multi-Scale Semantic Segmentation and Spatial Relationship Recognition of Remote Sensing Images Based on an Attention Model;Wei Cui;《Remote Sensing》;全文 * |
结合注意力机制与特征融合的场景图生成模型;黄勇韬;《计算机科学》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113256822A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11165959B2 (en) | Connecting and using building data acquired from mobile devices | |
US11494973B2 (en) | Generating floor maps for buildings from automated analysis of visual data of the buildings' interiors | |
US11189078B2 (en) | Automated understanding of three dimensional (3D) scenes for augmented reality applications | |
CN114119849B (zh) | 三维场景渲染方法、设备以及存储介质 | |
US20230032888A1 (en) | Automated Determination Of Acquisition Locations Of Acquired Building Images Based On Determined Surrounding Room Data | |
US10572970B2 (en) | Extracting 2D floor plan from 3D GRID representation of interior space | |
US10482674B1 (en) | System and method for mobile augmented reality | |
CA3113355C (en) | Automated control of image acquisition via use of acquisition device sensors | |
US11405549B2 (en) | Automated generation on mobile devices of panorama images for building locations and subsequent use | |
US11514674B2 (en) | Automated analysis of image contents to determine the acquisition location of the image | |
US10334168B2 (en) | Threshold determination in a RANSAC algorithm | |
CN114119839A (zh) | 三维模型重建与图像生成方法、设备以及存储介质 | |
Agha-Mohammadi et al. | Confidence-rich grid mapping | |
CN106156693A (zh) | 用于面部识别的基于多模型表示的鲁棒错误纠正方法 | |
US20230125295A1 (en) | Automated Analysis Of Visual Data Of Images To Determine The Images' Acquisition Locations On Building Floor Plans | |
CN113034425B (zh) | 数据处理方法、设备及存储介质 | |
CN118298127B (zh) | 三维模型重建与图像生成方法、设备、存储介质及程序产品 | |
US20240161348A1 (en) | Automated Inter-Image Analysis Of Multiple Building Images For Building Information Determination | |
US20240347079A1 (en) | Methods and systems for generating interactive composite media assets comprising common objects | |
CN113256822B (zh) | 空间关系预测、数据处理方法、设备及存储介质 | |
CN116664770A (zh) | 拍摄实体的图像处理方法、存储介质及系统 | |
CN110852939A (zh) | 一种基于二维对象和相关关系的三维布局预测方法及系统 | |
Kopanas et al. | Improving nerf quality by progressive camera placement for unrestricted navigation in complex environments | |
Yang et al. | Simultaneous active camera array focus plane estimation and occluded moving object imaging | |
CN113256808A (zh) | 空间关系计算方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |