CN114723894A - 一种三维坐标获取方法、装置及电子设备 - Google Patents

一种三维坐标获取方法、装置及电子设备 Download PDF

Info

Publication number
CN114723894A
CN114723894A CN202210469197.8A CN202210469197A CN114723894A CN 114723894 A CN114723894 A CN 114723894A CN 202210469197 A CN202210469197 A CN 202210469197A CN 114723894 A CN114723894 A CN 114723894A
Authority
CN
China
Prior art keywords
coordinate
pixel
pixels
target
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210469197.8A
Other languages
English (en)
Other versions
CN114723894B (zh
Inventor
王海君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210469197.8A priority Critical patent/CN114723894B/zh
Publication of CN114723894A publication Critical patent/CN114723894A/zh
Application granted granted Critical
Publication of CN114723894B publication Critical patent/CN114723894B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Image Processing (AREA)

Abstract

本公开提供了一种三维坐标获取方法、装置及电子设备,涉及人工智能领域,尤其涉及计算机视觉、虚拟实现、增强现实、深度学习领域。具体实现方案为:获取目标对象的全景图;预测全景图中像素的深度值;基于全景图中像素的深度值,获取候选三维坐标集合,候选三维坐标集合包括全景图中像素的三维坐标;基于目标像素集的候选三维坐标,计算目标像素集中目标像素的修正三维坐标,目标像素集包括的目标像素为全景图中属于目标对象的目标位置的像素;依据修正三维坐标更新候选三维坐标集合中目标像素的三维坐标,得到全景图对应的三维坐标集合。可以实现对目标位置的像素的三维坐标进行修正,从而可以提高得到的全景图对应的三维坐标的准确性。

Description

一种三维坐标获取方法、装置及电子设备
技术领域
本公开涉及计算机视觉、虚拟实现、增强现实、深度学习等人工智能技术领域,尤其涉及一种三维坐标获取方法、装置及电子设备。
背景技术
通过虚拟现实(Virtual Reality,VR)查看对象(例如,房子等)等场景中,需要获取对象的三维坐标。
目前,常用的方式是获取对象的全景图中像素的深度值,将像素的深度值映射为三维坐标。
发明内容
本公开提供了一种用于三维坐标获取方法、装置、设备以及存储介质。
根据本公开的一方面,提供了一种实施例的三维坐标获取方法,包括:
获取目标对象的全景图;
预测所述全景图中像素的深度值;
基于所述全景图中像素的深度值,获取候选三维坐标集合,所述候选三维坐标集合包括所述全景图中像素的三维坐标;
基于目标像素集的候选三维坐标,计算所述目标像素集中目标像素的修正三维坐标,所述目标像素集包括的所述目标像素为所述全景图中属于所述目标对象的目标位置的像素;
依据所述修正三维坐标更新所述候选三维坐标集合中所述目标像素的三维坐标,得到所述全景图对应的三维坐标集合。
根据本公开的另一方面,提供了一种实施例的三维坐标获取装置,包括:
第一获取模块,用于获取目标对象的全景图;
预测模块,用于预测所述全景图中像素的深度值;
第二获取模块,用于基于所述全景图中像素的深度值,获取候选三维坐标集合,所述候选三维坐标集合包括所述全景图中像素的三维坐标;
坐标计算模块,用于基于目标像素集的候选三维坐标,计算所述目标像素集中目标像素的修正三维坐标,所述目标像素集包括的所述目标像素为所述全景图中属于所述目标对象的目标位置的像素;
更新模块,用于依据所述修正三维坐标更新所述候选三维坐标集合中所述目标像素的三维坐标,得到所述全景图对应的三维坐标集合。
第三方面,本公开一个实施例还提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开如第一方面提供的目标检测方法。
第四方面,本公开一个实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开如第一方面提供的方法。
第五方面,本公开一个实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开如第一方面提供的方法。
在本公开的实施例中,由于可通过目标像素集的候选三维坐标,计算目标像素集中目标像素的修正三维坐标,并将候选三维坐标集合中目标位置的像素的三维坐标更新为目标像素的修正三维坐标,这样可以实现对目标位置的像素的三维坐标进行修正,从而可以提高得到的全景图对应的三维坐标的准确性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开提供的一个实施例的三维坐标获取方法的流程示意图;
图2是本公开提供的一个实施例的网络模型的结构示意图;
图3是一种预测的墙与地板的连接线以及预测的墙与天花板的连接线示意图;
图4是本公开提供的墙与地板的连接线以及墙与天花板的连接线修正后的示意图;
图5是本公开提供的一个实施例的三维坐标获取装置的结构示意图;
图6是用来实现本公开实施例的三维坐标获取方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
如图1所示,根据本公开的实施例,本公开提供一种三维坐标获取方法,可应用于电子设备,该方法包括:
步骤S101:获取目标对象的全景图。
目标对象可以是具有三维立体结构的任一对象,例如,建筑物,或者,房车等,其中,建筑物可包括房子、车库、地下室等以及构筑物等。
全景图可以用于VR浏览。
步骤S102:预测全景图中像素的深度值。
得到全景图后,可获取全景图中像素的深度值,可以理解全景图中像素的深度值可构成全景图对应的深度图。上述预测全景图中像素的深度值可以是,预测全景图中多个或者每个像素的深度值。
步骤S103:基于全景图中像素的深度值,获取候选三维坐标集合,候选三维坐标集合包括全景图中像素的三维坐标。
通过像素的深度值获取像素的三维坐标的方式有多种,在本公开实施例中,对获取像素的三维坐标的方式不作具体限定,例如,作为一个示例,在获得全景图中像素的深度值后,可通过3D立体几何获取全景图中像素的三维坐标。
步骤S104:基于目标像素集的候选三维坐标,计算所述目标像素集中目标像素的修正三维坐标,所述目标像素集包括的所述目标像素为所述全景图中属于所述目标对象的目标位置的像素。
上述计算所述目标像素集中目标像素的修正三维坐标可以是,计算所述目标像素集中每个或者多个目标像素的修正三维坐标。
由于已获取了全景图中像素的候选三维坐标,即已获取候选三维坐标,可从候选三维坐标集中获取全景图形中属于目标对象的目标位置的像素的候选三维坐标,具体是利用目标位置的像素的候选三维坐标计算目标位置的像素的修正三维坐标。例如,候选三维坐标集合包括像素A、像素B、像素C、像素D和像素E,目标像素集的候选三维坐标包括像素A的三维坐标、像素B的三维坐标、像素C的三维坐标和像素D的三维坐标,需要计算像素A的修正三维坐标、像素B的修正三维坐标、像素C的修正三维坐标以及像素D的修正三维坐标,具体可利用候选三维坐标集合中像素A的三维坐标、像素B的三维坐标、像素C的三维坐标以及像素D的三维坐标,来计算像素A的修正三维坐标、像素B的修正三维坐标、像素C的修正三维坐标以及像素D的修正三维坐标。
上述目标位置为预先设定的位置,例如:满足预设位置特征的位置,如上述目标对象内的物体之间的连接位置,或者,上述目标对象内的某物体边缘位置。
步骤S105:依据修正三维坐标更新候选三维坐标集合中目标像素的三维坐标,得到全景图对应的三维坐标集合。
也即是,将候选三维坐标集合中目标像素的三维坐标更新为目标像素的修正三维坐标,实现对候选三维坐标集合的更新,得到全景图对应的三维坐标集合。例如,如上述举例,将候选三维坐标集合中像素A的三维坐标更新为像素A的修正坐标,将候选三维坐标集合中像素B的三维坐标更新为像素B的修正坐标,将候选三维坐标集合中像素C的三维坐标更新为像素C的修正坐标,以及将候选三维坐标集合中像素D的三维坐标更新为像素D的修正坐标,候选三维坐标集合中像素E的三维坐标不变,得到全景图对应的三维坐标集合。需要说明的是,三维坐标集合可以理解是三维(3D)点云,每个点可表示一个三维坐标,可以直接使用三维点云,或者可进一步根据三维点云生成三维模型等。
在本公开的实施例中,由于可通过目标像素集的候选三维坐标,计算目标像素集中目标像素的修正三维坐标,并将候选三维坐标集合中目标位置的像素的三维坐标更新为目标像素的修正三维坐标,这样可以实现对目标位置的像素的三维坐标进行修正,从而可以提高得到的全景图对应的三维坐标的准确性。
在一个实施例中,目标位置包括:
目标对象中两个子对象相连,且与水平面平行的第一位置;
目标对象中两个子对象相连,且与水平面垂直的第二位置。
目标对象中可包括至少两个子对象,例如,对于建筑物,可包括墙、地板以及天花板等子对象,需要说明的是,对于不同的墙,可以理解是不同的子对象。目标位置可以包括第一位置和第二位置,第一位置可以包括两个子对象相连且与水平面平行的位置,而第二位置可以包括两个子对象相连且与水平面垂直的位置。
由于全景图中子对象相连的位置的三维坐标更加容易不准确,在本实施例中,可对目标对象中两个子对象相连,且与水平面平行的第一位置的像素进行修正,即实现对平行于水平面的两个子对象相连的位置的像素的修正,提高第一位置的像素的三维坐标的准确性,也可对目标对象中两个子对象相连,且与水平面垂直的第二位置的像素进行修正,即实现对垂直于水平面的两个子对象相连的位置的像素的修正,提高第二位置的像素的三维坐标的准确性,从而可提高得到的目标对象的全景图对应的三维坐标集合的准确性。这样,可使得目标对象的三维坐标更加真实,便于用户观看对象。
在一个实施例中,在目标对象包括建筑物的情况下,第一位置包括墙与地板的连接位置以及墙与天花板的连接位置中的至少一项。
其中,上述建筑物可以是房子、车库、地下室等。
在VR看房的场景下,房子的三维坐标越准确,越能体现房子的真实性,在本实施例中,第一位置包括墙与地板的连接位置以及墙与天花板的连接位置中的至少一项,也即是,可对墙与地板的连接位置以及墙与天花板的连接位置中的至少一项位置的像素的三维坐标进行修正,以提高墙与地板的连接位置以及墙与天花板的连接位置中的至少一项位置的像素的三维坐标的准确性,提高房子的全景图对应的三维坐标集合的准确性。这样,可使得房子的三维坐标更加真实,便于用户看房。
在一个实施例中,基于目标像素集的候选三维坐标,计算目标像素集中目标像素的修正三维坐标,包括如下至少一项:
基于第一位置的第一像素集的候选三维坐标中的x坐标,计算第一像素集中目标像素的修正x坐标,得到第一像素集中目标像素的修正三维坐标,其中,第一像素集中目标像素的修正三维坐标中的y坐标和z坐标与对应的候选三维坐标中的y坐标和z坐标相同;
基于第二位置的第二像素集的候选三维坐标中的y坐标,计算第二像素集中目标像素的修正y坐标,得到第二像素集中目标像素的修正三维坐标,其中,第二像素集中目标像素的修正三维坐标中的x坐标和z坐标与对应的候选三维坐标中的x坐标和z坐标相同。
可以理解,目标像素集包括第一像素集以及第二像素集,像素的三维坐标包括x坐标、y坐标和z坐标,在本实施例中,对于第一位置的第一像素集的三维坐标的修正,是针对x坐标的修正,y坐标和z坐标不修正,即第一像素集中目标像素的修正三维坐标中的y坐标和z坐标与对应的候选三维坐标中的y坐标和z坐标相同,而对于第二位置的第二像素集的三维坐标的修改正,是针对y坐标的修正,x坐标和z坐标不修正,即第二像素集中目标像素的修正三维坐标中的x坐标和z坐标与对应的候选三维坐标中的x坐标和z坐标相同。
在本实施例中,针对第一位置的第一像素集,对候选三维坐标中的x坐标进行修正,针对第二位置的第二像素集,对候选三维坐标中的y坐标进行修正,即针对与水平面平行的第一位置和与水平面垂直的第二位置,采用不同的修正方式进行像素的三维坐标修正,以提高对目标位置中不同位置的像素的三维坐标修正的准确性,从而提高得到的三维坐标集合的准确性。
在一个实施例中,第一像素集中目标像素的修正x坐标为第一坐标,在第一像素集中第一像素数目大于x坐标大于其他x坐标的像素数目,第一像素数目为第一像素集的候选三维坐标中x坐标为第一坐标的像素数目,其他x坐标为除第一坐标之外的任一x坐标;
第二像素集中目标像素的修正y坐标为第二坐标,在第二像素集中第二像素数目大于y坐标大于其他y坐标的像素数目,第二像素数目为第二像素集的候选三维坐标中x坐标为第二坐标的像素数目,其他y坐标为除第二坐标之外的任一y坐标。
上述第一像素集中目标像素的修正x坐标为第一坐标可以是,第一像素集中每个或者多个目标像素的修正x坐标为第一坐标;上述第二像素集中目标像素的修正y坐标为第二坐标可以是,第二像素集中每个或者多个目标像素的修正y坐标为第二坐标。
例如,第一像素集中的像素总数为m,m至少为2,第一像素集为{像素A1,像素A2,……,像素Am-1,像素Am},第一像素集的候选三维坐标中x坐标包括多个不同坐标,例如,第一像素集中像素A1到Ak1的候选三维坐标中x坐标均为坐标X1,即为坐标X1的像素数目为k1,第一像素集中像素Ak1+1到AL1的候选三维坐标中x坐标为坐标X2,即坐标X2的像素数目为L1-k1,第一像素集中像素AL1+1到Am的候选三维坐标中x坐标均为坐标X3,即为坐标X3的像素数目为m-L1,其中,若k1大于L1-k1,且大于m-L1,则第一像素数目为k1,第一坐标为坐标X1,其他x坐标分别为X2、X3。可将上述第一像素集中第一待修正像素的三维坐标中x坐标修正为X1坐标,第一待修正像素即为第一像素集中x坐标不为X1坐标的像素,这样,可确保第一像素集中像素的修正坐标为X1坐标,实现第一像素集的三维坐标的修正。
又例如,第二像素集的像素总数为n,n至少为2,第二像素集为{像素B1,像素B2,……,像素Bn-1,像素Bn},第二像素集的候选三维坐标中y坐标包括多个不同坐标,例如,第二像素集中像素B1到Bk2的候选三维坐标中y坐标均为坐标Y1,即为坐标Y1的像素数目为k2,第二像素集中像素Bk2+1到BL2的候选三维坐标中y坐标为坐标Y2,即坐标Y2的像素数目为L2-k2,第二像素集中像素BL2+1到Bn的候选三维坐标中y坐标均为坐标Y3,即为坐标Y3的像素数目为n-L2,其中,若k2大于L2-k2,且大于n-L2,则第二像素数目为k2,第二坐标为坐标Y1,其他y坐标分别为Y2、Y3。可将上述第二像素集中第二待修正像素的三维坐标中y坐标修正为Y1坐标,第二待修正像素即为第二像素集中y坐标不为Y1坐标的像素,这样,可确保第二像素集中像素的修正坐标为Y1坐标,实现第二像素集的三维坐标的修正。
另外,需要说明的是,若第一位置包括墙与地板的连接位置和墙与天花板的连接位置中至少一项,第一位置的第一像素集可包括墙与地板的连接位置的第一子像素集和墙与天花板的连接位置的第二子像素集中的至少一项,第一坐标包括第一子坐标和第二子坐标中至少一项,第一子像素集中目标像素的修正x坐标为第一子坐标,在第一子像素集中第一子像素数目大于x坐标大于其他x坐标的像素数目,第一子像素数目为第一子像素集的候选三维坐标中x坐标为第一子坐标的像素数目,此处的其他x坐标为除第一子坐标之外的任一x坐标;第二子像素集中目标像素的修正x坐标为第二子坐标,在第二子像素集中第二子像素数目大于x坐标大于其他x坐标的像素数目,第二子像素数目为第二子像素集的候选三维坐标中x坐标为第二子坐标的像素数目,此处的其他x坐标为除第二子坐标之外的任一x坐标。
可以理解,在本实施例中,采用少数服从多数的策略得到目标像素的修正坐标,以确保修正坐标的准确性。
在一个实施例中,预测全景图中像素的深度值,包括:
将全景图输入到预先获取的网络模型执行预测操作,得到全景图中像素的属性,属性包括深度值,以及还包括是否属于目标位置的指示信息。
预先已进行模型训练得到网络模型,在预测深度值的过程中,可将全景图输入至网络模型进行预测操作,得到全景图中各像素或者多个像素的属性,由于属性包括深度值,即实现全景图中各像素或者多个像素的深度值的预测。另外,网络模型还可得到是否属于目标位置的指示信息,指示信息可用于指示像素是否属于目标位置,可通过得到的全景图像中像素的指示信息,来确定目标像素,例如,一个像素的指示信息指示该像素属于目标位置,则可将该像素作为一个目标像素。作为一个示例,指示信息可以包括概率值,即通过网络模型可得到像素属于目标位置的概率值,例如,一个像素的概率值大于预设概率阈值,则可确定该像素属于目标位置,可将该像素作为一个目标像素。另外,在一个示例中,上述网络模型可以是深度学习模型,例如,可以是但不限于Unet结构的模型(即U型网络模型),在本公开实施例中,对网络模型不作具体限定。
需要说明的是,在另一种实施方式中,可先预测全景图中像素值的深度值,生成全景图的深度图,然后提取深度图的深度特征,基于深度特征预测像素的指示信息。在又一种实施方式中,可先生成全景图的深度图,提取深度图的深度特征,再通过另一个模型预测目标像素。
在本实施例中,可将全景图像输入到预先获取的网络模型进行预测操作,即可得到全景图中像素的属性,实现全景图中像素的深度值的预测,可提高得到全景图中像素的深度值的准确性以及效率。
在一个实施例中,在目标位置包括N个位置的情况下,属性包括N个指示信息,N个指示信息分别用于指示像素是否属于N个位置,N为大于1的整数。
可以理解,N个指示信息与N个位置一一对应,例如,参考指示信息可用于指示像素是否属于参考位置,参考指示信息为N个指示信息中的任一指示信息,参考位置为N个位置中与参考指示信息对应的一个位置。
例如,若目标对象包括建筑物,N个位置包括墙与地板的连接位置以及墙与天花板的连接位置,N个指示信息可包括是否属于墙与地板的连接位置的指示信息以及是否属于墙与天花板的连接位置的指示信息。
在本实施例中,在目标位置包括N个位置的情况下,通过网络模型基于输入的全景图进行预测操作,不但可得到全景图的深度值,还可以得到N个指示信息,且得到的N个指示信息分别用于指示像素是否属于N个位置,这样,可确定目标像素,目标像素即包括属于N个位置的像素,提高目标像素的准确性。
在一个实施例中,预测操作包括:
通过网络模型中的编码层和解码层提取图像特征,编码层和解码层为跳跃连接;
通过网络模型中的卷积层基于图像特征预测全景图中像素的属性。
网络模型可以采用Unet结构的模型,包括下采样层(即编码层)和上采样层(即解码层),且网络模型的编码层和解码层之间采用跳跃连接,这样,在进行图像特征提取过程中,可增加特征细节,防止特征退化,如此,卷积层基于提取的图像特征进行全景图中像素的属性的预测,可提高预测的全景图中像素的属性的准确性。
下面以一个具体实施例对上述方法的过程加以具体说明。以目标对象为房子、目标位置包括墙与地板的连接位置以及墙与天花板的连接位置、指示信息为概率值以及网络模型为Unet模型为例进行说明。
首先,预先进行模型训练,以得到Unet模型。
在模型训练过程中,先进行训练数据准备,获取M1张大小相同的全景图,全景图可以为RGB图(红绿蓝三颜色通道图),M1为正整数,一张全景图的总像素数目为M2,M2为正整数。还需获取M1张全景图中每张全景图对应的实际深度图(包括全景图的各像素的实际深度值)以及每张全景图中墙与地板的连接位置和墙与天花板的连接位置。
创建初始Unet模型,初始Unet模型的结构如图2所示,可包括编码器、解码器以及卷积层,输入为全景图,经过编码器-解码器类Unet结构的深度网络模型进行特征提取后,使用卷积层进行预测输出,其中,卷积层可以是卷积核为1×1的卷积层。预测输出的属性包括3通道的数据,分别为输入全景图的各像素的深度值(depth)、像素属于墙与地板的连接位置的概率值以及像素属于墙与天花板的连接位置的概率值。该网络模型的编码器和解码器之间使用跳跃连接,目的是增加特征细节,防止特征退化。
利用准备的训练数据对初始Unet模型进行模型训练,训练过程中,优化器可采用adam优化器(一种深度学习中较常用的优化器),训练损失(loss)的公式可采用:
Figure BDA0003621269960000101
其中,
Figure BDA0003621269960000111
表示第j张全景图的第i个像素的实际深度值,
Figure BDA0003621269960000112
表示模型得到的第j张全景图的第i个像素的预测深度值,
Figure BDA0003621269960000113
为第j张全景图的第i个像素被预测为墙与地板的连接位置的概率值,
Figure BDA0003621269960000114
为第j张全景图的第i个像素被预测为墙与天花板的连接位置的概率值。
其次,利用训练得到的Unet模型对待预测的全景图V进行深度值预测,得到全景图V的各像素的深度值,通过3D立体几何即可获取到全景图V中每个像素的三维坐标。而对于属于墙与天花板的连接位置、墙与地板的连接位置上的目标像素,可以计算出较精准的修正三维坐标。将目标像素的修正三维坐标的x坐标替换目标像素的上述预测的三维坐标中的x坐标,即可获得较精准的墙体的三维坐标。
如图3所示,为预测的墙与地板的连接线以及预测的墙与天花板的连接线图,得到的三维坐标准确性较差,导致出现墙面不平整,出现凹凸的线条,通过本公开实施例的方法,可对属于墙与地板的连接位置、墙与天花板的连接位置上的目标像素的三维坐标进行修正,使墙与地板的连接位置上的像素点的修正x坐标均第一子坐标,使墙与天花板的连接位置上的像素点的修正x坐标均第二子坐标,提高墙与地板的连接位置、墙与天花板的连接位置的三维坐标的准确性,解决墙与地板的连接位置、墙与天花板的连接位置的线条凹凸的问题,使墙体更加平整,如图4所示。
如图5所示,根据本公开的实施例,本公开还提供一种三维坐标获取装置500,可应用于电子设备,装置包括:
第一获取模块501,用于获取目标对象的全景图;
预测模块502,用于预测全景图中像素的深度值;
第二获取模块503,用于基于全景图中像素的深度值,获取候选三维坐标集合,候选三维坐标集合包括全景图中像素的三维坐标;
坐标计算模块504,用于基于目标像素集的候选三维坐标,计算目标像素集中目标像素的修正三维坐标,目标像素集包括的目标像素为全景图中属于目标对象的目标位置的像素;
更新模块505,用于依据修正三维坐标更新候选三维坐标集合中目标像素的三维坐标,得到全景图对应的三维坐标集合。
在一个实施例中,目标位置包括:
目标对象中两个子对象相连,且与水平面平行的第一位置;
目标对象中两个子对象相连,且与水平面垂直的第二位置。
在一个实施例中,坐标计算模块504,用于如下至少一项:
基于第一位置的第一像素集的候选三维坐标中的x坐标,计算第一像素集中目标像素的修正x坐标,得到第一像素集中目标像素的修正三维坐标,其中,第一像素集中目标像素的修正三维坐标中的y坐标和z坐标与对应的候选三维坐标中的y坐标和z坐标相同;
基于第二位置的第二像素集的候选三维坐标中的y坐标,计算第二像素集中目标像素的修正y坐标,得到第二像素集中目标像素的修正三维坐标,其中,第二像素集中目标像素的修正三维坐标中的x坐标和z坐标与对应的候选三维坐标中的x坐标和z坐标相同。
在一个实施例中,第一像素集中目标像素的修正x坐标为第一坐标,在第一像素集中第一像素数目大于x坐标大于其他x坐标的像素数目,第一像素数目为第一像素集的候选三维坐标中x坐标为第一坐标的像素数目,其他x坐标为除第一坐标之外的任一x坐标;
第二像素集中目标像素的修正y坐标为第二坐标,在第二像素集中第二像素数目大于y坐标大于其他y坐标的像素数目,第二像素数目为第二像素集的候选三维坐标中x坐标为第二坐标的像素数目,其他y坐标为除第二坐标之外的任一y坐标。
在一个实施例中,在目标对象包括建筑物的情况下,第一位置包括如下至少一项:
墙与地板的连接位置;
墙与天花板的连接位置。
在一个实施例中,预测全景图中像素的深度值,包括:
将全景图输入到预先获取的网络模型执行预测操作,得到全景图中像素的属性,属性包括深度值,以及还包括是否属于目标位置的指示信息。
在一个实施例中,在目标位置包括N个位置的情况下,属性包括N个指示信息,N个指示信息分别用于指示像素是否属于N个位置,N为大于1的整数。
在一个实施例中,预测操作包括:
通过网络模型中的编码层和解码层提取图像特征,编码层和解码层为跳跃连接;
通过网络模型中的卷积层基于图像特征预测全景图中像素的属性。
上述各实施例的三维坐标获取装置为实现上述各实施例的三维坐标获取方法的装置,技术特征对应,技术效果对应,在此不再赘述。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如三维坐标获取方法。例如,在一些实施例中,三维坐标获取方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的三维坐标获取方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行三维坐标获取方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (19)

1.一种三维坐标获取方法,包括:
获取目标对象的全景图;
预测所述全景图中像素的深度值;
基于所述全景图中像素的深度值,获取候选三维坐标集合,所述候选三维坐标集合包括所述全景图中像素的三维坐标;
基于目标像素集的候选三维坐标,计算所述目标像素集中目标像素的修正三维坐标,所述目标像素集包括的所述目标像素为所述全景图中属于所述目标对象的目标位置的像素;
依据所述修正三维坐标更新所述候选三维坐标集合中所述目标像素的三维坐标,得到所述全景图对应的三维坐标集合。
2.根据权利要求1所述的方法,其中,所述目标位置包括:
所述目标对象中两个子对象相连,且与水平面平行的第一位置;
所述目标对象中两个子对象相连,且与水平面垂直的第二位置。
3.根据权利要求2所述的方法,其中,所述基于目标像素集的候选三维坐标,计算所述目标像素集中目标像素的修正三维坐标,包括如下至少一项:
基于所述第一位置的第一像素集的候选三维坐标中的x坐标,计算所述第一像素集中目标像素的修正x坐标,得到所述第一像素集中目标像素的修正三维坐标,其中,所述第一像素集中目标像素的修正三维坐标中的y坐标和z坐标与对应的候选三维坐标中的y坐标和z坐标相同;
基于所述第二位置的第二像素集的候选三维坐标中的y坐标,计算所述第二像素集中目标像素的修正y坐标,得到所述第二像素集中目标像素的修正三维坐标,其中,所述第二像素集中目标像素的修正三维坐标中的x坐标和z坐标与对应的候选三维坐标中的x坐标和z坐标相同。
4.根据权利要求3所述的方法,其中,所述第一像素集中目标像素的修正x坐标为第一坐标,在所述第一像素集中第一像素数目大于x坐标大于其他x坐标的像素数目,所述第一像素数目为所述第一像素集的候选三维坐标中x坐标为所述第一坐标的像素数目,所述其他x坐标为除所述第一坐标之外的任一x坐标;
所述第二像素集中目标像素的修正y坐标为第二坐标,在所述第二像素集中第二像素数目大于y坐标大于其他y坐标的像素数目,所述第二像素数目为所述第二像素集的候选三维坐标中x坐标为所述第二坐标的像素数目,所述其他y坐标为除所述第二坐标之外的任一y坐标。
5.根据权利要求2至4中任一项所述的方法,其中,在所述目标对象包括建筑物的情况下,所述第一位置包括如下至少一项:
墙与地板的连接位置;
墙与天花板的连接位置。
6.根据权利要求1至4中任一项所述的方法,其中,所述预测所述全景图中像素的深度值,包括:
将所述全景图输入到预先获取的网络模型执行预测操作,得到所述全景图中像素的属性,所述属性包括深度值,以及还包括是否属于所述目标位置的指示信息。
7.根据权利要求6所述的方法,其中,在所述目标位置包括N个位置的情况下,所述属性包括N个指示信息,所述N个指示信息分别用于指示像素是否属于所述N个位置,N为大于1的整数。
8.根据权利要求6所述的方法,其中,所述预测操作包括:
通过所述网络模型中的编码层和解码层提取图像特征,所述编码层和解码层为跳跃连接;
通过所述网络模型中的卷积层基于所述图像特征预测所述全景图中像素的属性。
9.一种三维坐标获取装置,包括:
第一获取模块,用于获取目标对象的全景图;
预测模块,用于预测所述全景图中像素的深度值;
第二获取模块,用于基于所述全景图中的像素的深度值,获取候选三维坐标集合,所述候选三维坐标集合包括所述全景图中像素的三维坐标;
坐标计算模块,用于基于目标像素集的候选三维坐标,计算所述目标像素集中目标像素的修正三维坐标,所述目标像素集包括的所述目标像素为所述全景图中属于所述目标对象的目标位置的像素;
更新模块,用于依据所述修正三维坐标更新所述候选三维坐标集合中所述目标像素的三维坐标,得到所述全景图对应的三维坐标集合。
10.根据权利要求9所述的装置,其中,所述目标位置包括:
所述目标对象中两个子对象相连,且与水平面平行的第一位置;
所述目标对象中两个子对象相连,且与水平面垂直的第二位置。
11.根据权利要求10所述的装置,其中,所述坐标计算模块,用于如下至少一项:
第一坐标计算模块,用于基于所述第一位置的第一像素集的候选三维坐标中的x坐标,计算所述第一像素集中目标像素的修正x坐标,得到所述第一像素集中目标像素的修正三维坐标,其中,所述第一像素集中目标像素的修正三维坐标中的y坐标和z坐标与对应的候选三维坐标中的y坐标和z坐标相同;
第二坐标计算模块,用于基于所述第二位置的第二像素集的候选三维坐标中的y坐标,计算所述第二像素集中目标像素的修正y坐标,得到所述第二像素集中目标像素的修正三维坐标,其中,所述第二像素集中目标像素的修正三维坐标中的x坐标和z坐标与对应的候选三维坐标中的x坐标和z坐标相同。
12.根据权利要求11所述的装置,其中,所述第一像素集中目标像素的修正x坐标为第一坐标,在所述第一像素集中第一像素数目大于x坐标大于其他x坐标的像素数目,所述第一像素数目为所述第一像素集的候选三维坐标中x坐标为所述第一坐标的像素数目,所述其他x坐标为除所述第一坐标之外的任一x坐标;
所述第二像素集中目标像素的修正y坐标为第二坐标,在所述第二像素集中第二像素数目大于y坐标大于其他y坐标的像素数目,所述第二像素数目为所述第二像素集的候选三维坐标中x坐标为所述第二坐标的像素数目,所述其他y坐标为除所述第二坐标之外的任一y坐标。
13.根据权利要求10至12中任一项所述的装置,其中,在所述目标对象包括建筑物的情况下,所述第一位置包括如下至少一项:
墙与地板的连接位置;
墙与天花板的连接位置。
14.根据权利要求9至12中任一项所述的装置,其中,所述预测所述全景图中像素的深度值,包括:
将所述全景图输入到预先获取的网络模型执行预测操作,得到所述全景图中像素的属性,所述属性包括深度值,以及还包括是否属于所述目标位置的指示信息。
15.根据权利要求14所述的装置,其中,在所述目标位置包括N个位置的情况下,所述属性包括N个指示信息,所述N个指示信息分别用于指示像素是否属于所述N个位置,N为大于1的整数。
16.根据权利要求14所述的装置,其中,所述预测操作包括:
通过所述网络模型中的编码层和解码层提取图像特征,所述编码层和解码层为跳跃连接;
通过所述网络模型中的卷积层基于所述图像特征预测所述全景图中像素的属性。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。
CN202210469197.8A 2022-04-28 2022-04-28 一种三维坐标获取方法、装置及电子设备 Active CN114723894B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210469197.8A CN114723894B (zh) 2022-04-28 2022-04-28 一种三维坐标获取方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210469197.8A CN114723894B (zh) 2022-04-28 2022-04-28 一种三维坐标获取方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN114723894A true CN114723894A (zh) 2022-07-08
CN114723894B CN114723894B (zh) 2023-10-13

Family

ID=82244776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210469197.8A Active CN114723894B (zh) 2022-04-28 2022-04-28 一种三维坐标获取方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN114723894B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116704129A (zh) * 2023-06-14 2023-09-05 维坤智能科技(上海)有限公司 基于全景图的三维图像生成方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012094953A (ja) * 2010-10-25 2012-05-17 Dainippon Printing Co Ltd 三次元画像の疑似的提示装置
CN113012210A (zh) * 2021-03-25 2021-06-22 北京百度网讯科技有限公司 深度图的生成方法、装置、电子设备和存储介质
CN114022531A (zh) * 2021-11-04 2022-02-08 上海肇观电子科技有限公司 图像处理方法、电子设备和存储介质
WO2022041257A1 (zh) * 2020-08-31 2022-03-03 深圳市大疆创新科技有限公司 三维地图处理方法、装置、可移动平台及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012094953A (ja) * 2010-10-25 2012-05-17 Dainippon Printing Co Ltd 三次元画像の疑似的提示装置
WO2022041257A1 (zh) * 2020-08-31 2022-03-03 深圳市大疆创新科技有限公司 三维地图处理方法、装置、可移动平台及存储介质
CN113012210A (zh) * 2021-03-25 2021-06-22 北京百度网讯科技有限公司 深度图的生成方法、装置、电子设备和存储介质
CN114022531A (zh) * 2021-11-04 2022-02-08 上海肇观电子科技有限公司 图像处理方法、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116704129A (zh) * 2023-06-14 2023-09-05 维坤智能科技(上海)有限公司 基于全景图的三维图像生成方法、装置、设备及存储介质
CN116704129B (zh) * 2023-06-14 2024-01-30 维坤智能科技(上海)有限公司 基于全景图的三维图像生成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN114723894B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
EP4027299A2 (en) Method and apparatus for generating depth map, and storage medium
CN112652036B (zh) 道路数据的处理方法、装置、设备及存储介质
CN115409933B (zh) 多风格纹理贴图生成方法及其装置
CN113077548B (zh) 针对物体的碰撞检测方法、装置、设备和存储介质
CN115797565A (zh) 三维重建模型训练方法、三维重建方法、装置及电子设备
CN113298910A (zh) 生成交通标志线地图的方法、设备和存储介质
CN113902696A (zh) 图像处理方法、装置、电子设备和介质
CN114299242A (zh) 高精地图中图像处理方法、装置、设备以及存储介质
CN114723894A (zh) 一种三维坐标获取方法、装置及电子设备
CN115222879A (zh) 一种模型减面处理方法、装置、电子设备及存储介质
CN114283398A (zh) 车道线的处理方法、装置和电子设备
CN114461720A (zh) 处理地图数据的方法、装置、设备、存储介质及程序产品
CN114092673A (zh) 图像处理的方法、装置、电子设备和存储介质
EP4102466A1 (en) Collision detection method and apparatus for objects, and device and storage medium
CN114581586A (zh) 一种模型基底的生成方法、装置、电子设备及存储介质
CN114723796A (zh) 一种三维点云生成方法、装置及电子设备
CN114373051A (zh) 地图更新方法、装置、电子设备及存储介质
CN114564268A (zh) 一种设备管理方法、装置、电子设备和存储介质
CN113362438A (zh) 全景渲染的方法、装置、电子设备、介质及程序
CN113593046A (zh) 全景切换方法、装置、电子设备和存储介质
CN113099231B (zh) 确定亚像素插值位置的方法、装置、电子设备和存储介质
EP3937125B1 (en) Method, apparatus for superimposing laser point clouds and high-precision map and electronic device
CN113989349B (zh) 图像生成方法、图像处理模型的训练方法、图像处理方法
CN113538478B (zh) 基于图像的箱体边界提取方法、系统、设备及存储介质
CN113658277B (zh) 立体匹配方法、模型训练方法、相关装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant