CN116129082B - 一种面向无人货柜的TIN-NeRF新视角图像标注方法 - Google Patents

一种面向无人货柜的TIN-NeRF新视角图像标注方法 Download PDF

Info

Publication number
CN116129082B
CN116129082B CN202310203413.9A CN202310203413A CN116129082B CN 116129082 B CN116129082 B CN 116129082B CN 202310203413 A CN202310203413 A CN 202310203413A CN 116129082 B CN116129082 B CN 116129082B
Authority
CN
China
Prior art keywords
point
target object
point cloud
unmanned container
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310203413.9A
Other languages
English (en)
Other versions
CN116129082A (zh
Inventor
张健
熊友曹
贺建飚
任子欣
陶泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202310203413.9A priority Critical patent/CN116129082B/zh
Publication of CN116129082A publication Critical patent/CN116129082A/zh
Application granted granted Critical
Publication of CN116129082B publication Critical patent/CN116129082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Image Processing (AREA)

Abstract

本申请涉及一种面向无人货柜的TIN‑NeRF新视角图像标注方法,包括依次进行的如下步骤:利用无人货柜的3D摄像头构建目标物体的表面点云,将点云所在空间划分为三维格网体元;采用三角剖分算法建立目标物体三维格网体元的不规则三角网表示;将不规则三角网表示的目标物体图像用于训练神经辐射场网络,建立目标物体的神经辐射场表示;选取多个视角中其中任一视角进行标注,并采用布尔莎七参数模型获得其他视角下的标注框参数。将不规则三角网与神经辐射场结合,能够在得到一个表征物体表面的点云基础上构建不规则三角网,利用不规则三角网做代理,可以迅速找到物体表面,从而实现新视角场景的快速渲染。

Description

一种面向无人货柜的TIN-NeRF新视角图像标注方法
技术领域
本申请涉及计算机视觉技术的领域,尤其是涉及一种面向无人货柜的TIN-NeRF新视角图像标注方法。
背景技术
在实际情况中,我们主要关注无人售货柜商品与人的交互行为,如拿出某样商品、放回某样商品以及其他一些异常行为等。一般消费者的购物流程主要包括:伸手进入货柜选择商品,再将商品拿出,或者重复以上行为若干次反复挑选商品最终确定购买。由此可见,消费者主要通过控制手完成购物,并且选取的货物会跟随手离开货柜,若商品被取出则可以认为消费者购买了此商品。
现阶段通过对商品进行多视角下的标注实现用户购买行为的识别,但在多个视角下对同一商品进行标注的工作量十分庞大,且由于拍摄视角有限无法构建多视角下的训练数据集,所以导致多视角数据的利用、挖掘不足,商品和用户购物行为识别准确性较低。用户选购时,商品极易受购物场景等因素影响造成不同程度的遮挡,对商品识别造成极大困难,严重时甚至只能依赖后台人工值守观看视频甄别。
发明内容
为了在多视角下准确且高效完成无人货柜的商品检测和用户行为识别,本申请提供的一种面向无人货柜的TIN-NeRF新视角图像标注方法。
本申请提供的一种面向无人货柜的TIN-NeRF新视角图像标注方法采用如下的技术方案:
一种面向无人货柜的TIN-NeRF新视角图像标注方法,包括依次进行的如下步骤:
S1:利用无人货柜的3D摄像头构建目标物体的表面点云,将点云所在空间划分为三维格网体元;
S2:采用三角剖分算法建立目标物体三维格网体元的不规则三角网表示;
S3:将不规则三角网表示的目标物体图像用于训练神经辐射场网络,建立目标物体的神经辐射场表示;
S4:选取多个视角中其中任一视角进行标注,并采用布尔莎七参数模型获得其他视角下的标注框参数。
优选的,步骤S1具体为:利用无人货柜的3D摄像头获得的场景位深信息构建目标物体的表面点云,将点云所在空间划分为三维格网体元,若体元中存在多个点时计算这些点云的质心,遍历所有的三维格网体元得到多个质心,以该质心代替三维格网体元中的点云。
优选的,步骤2具体为:将质心点云利用三角剖分算法建立目标物体的不规则三角网表示。
优选的,步骤S3具体为:
从无人货柜的3D摄像头向场景发出光线r,寻找光线r穿过的三角面片及交点x,获得该三角面片的三个顶点对应的三个三维格网体元内的K个点云;
MLP网络F将给定光线r的方向与三个体元内K个点云位置pi(i=1…K)进行编码ε(·),并与点pi的特征向量fi一起回归点pi相关的/>颜色,
ε(pi)=(sin(20πpi),cos(20πpi),…,sin(2L-1πpi),cos(2L-1πpi)),
其中,d表示三维极坐标系中的坐标信息,L为编码数量,位置编码L=10,方向编码L=4,为回归点云在神经辐射场相关的颜色;
并使用MLP网络T利用每个点云pi坐标及特征向量fi与回归pi的体密度σi
σi=T(fi,ε(pi))
利用K个点云的颜色和体密度σi结合体渲染公式计算光线r对应的图像像素值当中构造反距离加权:
其中为点云pi到光线r与三角面片交点x的距离。
优选的,步骤S3由损失函数监督:
其中c(r)为光线r对应的真实像素颜色,X为整幅图像像素点对应的光线集合。
优选的,步骤S4具体为:
在多个视角中选择并标注一个视角拍摄到的画面,人为框选目标物体,得到位于标注框内的目标物体画面,获取标注框任一顶点像素点在图像中的坐标和在摄像坐标系下的坐标,以及标注框的宽度和高度;
通过三角函数和布尔莎七参数模型,计算出另一视角下标注框已选点像素点在图像中的坐标以及新视角下新标注框参数。
综上所述,本申请包括以下至少一种有益技术效果:
1.神经辐射场(NeRF)单独用于新视角合成问题时需要做一些等距的采样点划分,并且创建两个网络Coarse和Fine,Fine在Coarse的基础上预测物体表面的信息,再进行二次重采样时会导致渲染效率低下;而将不规则三角网与神经辐射场结合,在一个表征物体表面的点云基础上构建不规则三角网(TIN),TIN是已经建立好的表示物体表面的三角面片模型,求得了虚拟光线与三角面片的交点自然就找到物体表面,不需要二次重采样,从而实现新视角场景的快速渲染;同时抽稀减少了三角剖分算法的计算量,快速建立TIN。
2.通过构造反距离加权能够快速获得投影位置x的加权特征向量,减少计算过程,加快渲染速度。
3.损失函数监督渲染过程,使得生成视角下的图像颜色与目标物体尽可能相近,保证生成视角的图像中的目标物体与原图像目标物体有良好的一致性。
附图说明
图1是本申请中新视角合成方法的流程图。
图2是本申请中点云抽稀、体密度和颜色回归图。
图3是本申请中图像标注的流程图。
图4是标注框横坐标求解示意图。
图5是标注框左上角点在图像坐标系和摄像头坐标系中的关系图。
图6是三维坐标系变换图。
具体实施方式
以下结合附图4-6对本申请作进一步详细说明。
本申请实施例公开一种面向无人货柜的TIN-NeRF新视角图像标注方法,TIN表示不规则三角网,NeRF表示神经辐射场。
按照如下步骤依次进行:
S1:利用无人货柜的3D摄像头获得的场景位深信息构建目标物体的表面点云,一个像素点对应一个点云,将点云所在空间划分为三维格网体元,若体元中存在多个点时计算这些点云的质心,遍历所有的三维格网体元得到多个质心,以该质心代替三维格网体元中的点云。
S2:将质心点云利用三角剖分算法建立目标物体的不规则三角网表示,不规则三角网即在空间中形成的三角面片。
S3:从无人货柜的3D摄像头向场景发出光线r,寻找光线r穿过的三角面片及交点x,获得该三角面片的三个顶点对应的三个三维格网体元内的K个点云;
某点云临近区域的空间几何与环境信息由卷积神经网络CNN网络R对输入图像进行填充卷积,得到与原图大小一致的多维特征图之后,将点云在不同特征图上对应像素点的值关联起来,从而得三个体元内K个点云坐标pi(i=1…K)的特征向量fi
MLP网络F将给定光线r的方向与三个体元内K个点云位置pi(i=1…K)进行编码ε(·),并与点pi的特征向量fi一起回归点pi相关的/>颜色,
ε(pi)=(sin(20πpi),cos(20πpi),…,sin(2L-1πpi),cos(2L-1πpi)) (1),
其中,d表示三维极坐标系中的坐标信息,L为编码数量,位置编码L=10,方向编码L=4,为回归点云在神经辐射场相关的颜色;
并使用MLP网络T利用每个点云pi坐标及特征向量fi与回归pi的体密度σi
σi=T(fi,ε(pi)) (3),
利用K个点云的颜色和体密度σi结合体渲染公式计算光线r对应的图像像素值当中构造反距离加权,距离交点x越远的点云对颜色渲染的贡献越小:
其中为点云pi到光线r与三角面片交点x的距离。
整个步骤S3损失函数监督:
其中c(r)为光线r对应的真实像素颜色,X为整幅图像像素点对应的光线集合。
S4:在多个视角中选择并标注一个视角拍摄到的画面,人为框选目标物体,得到位于标注框内的目标物体画面,获取标注框左上角像素点在图像中的坐标和在摄像坐标系下的坐标,以及标注框的宽度和高度,在其他实施例中也可以是标注框其他顶点的坐标;
通过三角函数和布尔莎七参数模型,计算出另一视角下标注框已选点像素点在图像中的坐标以及新视角下新标注框参数。
步骤S4具体如下:
参照图4,
(下文中存在的与上文中相同的参数字母,以下文中的释义为准)
选取其中一个视角的画面进行标注。O,O'为动态柜中的两个视角。XOY为以O为原点,Y轴竖直X水平的笛卡尔坐标系。X'O'Y'为坐标原点相对O向右平移d,并绕原点O'顺时针旋转角度α得到的坐标系。光线OA,OB为摄像头O的视锥母线,其夹角为θ,CD为成像平面与Y轴垂直,距离摄像头的竖直高度为l,O在CD面上的投影为E。光线O'A',O'B'为摄像头O'的视锥母线,其夹角亦为θ,其中O'A'与CD的夹角为γ,与C'D'夹角为β。C'D'为摄像头O'成像平面且与Y'轴垂直,O'在CD面上的投影为E'。上述摄像头平移距离d、转角度α以及竖直高度l均可测量得到。
当某一货物从某层货架被取出,根据摄像头O拍摄的画面,得到标注框左上角像素点在图像中的坐标(x,y)和在摄像坐标系下的坐标(X,Y,Z)与标注框宽高(w,h),中心点设为F,此时竖直高度l=Z,我们要计算出以F为中心点的目标在O'摄像头下的标注框坐标。
在ΔA'O'E'中,
A'E'=lcotγ (6),
由(6)到(11):
在ΔA'C'F中由正弦定理得:
以中心点为F的物体在C'D'上投影的长度为:
w′=wcosα (14),
结合l=Z变换后的标注框左上角像素点在图像中的横坐标为:
对于变换后的y坐标,我们考虑在以O和O'为原点的三维坐标系下求解,即在两平面直角坐标系中再考虑过O和O'添加垂直直面向外的Z轴,在此坐标系中标注框左上角点在图像坐标系中的y坐标与该点在此三维坐标系下的Z坐标相加为图像长度L的一半,如图5所示即:
此时ΔxΔyΔz分别为O'相对于O平移参数,εxεyεz分别为XYZ轴旋转角度参数,如图6所示。
根据布尔莎七参数模型得到在O坐标系中的点向O'坐标系的坐标转换公式:
其中ΔxΔyΔz为平移参数,k为比例缩放因子,R为变换矩阵,
在动态柜场景中,Δx=d,Δy=0,Δz=0,εx=0,εy=χ,εz=α,k=0,其中εy为摄像头绕Y'轴旋转角度,亦可测量得到。
R矩阵化简为:
在O'坐标系我们仅需解出Z'坐标即可:
Z'=X sinχcosα+Y sinχsinα+Z cosχ (19),
结合(21)得变换后的标注框左上角像素点在图像中的纵坐标为:
由(16)(17)(22)得到在O'视角下新标注框参数为:
(x',y',w',h) (21)。
目标的宽h在此过程中可以认为保持不变。
以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的结构、形状、原理所做的等效变化,均应涵盖于本申请的保护范围之内。

Claims (4)

1.一种面向无人货柜的TIN-NeRF新视角图像标注方法,其特征在于:包括依次进行的如下步骤:
S1:利用无人货柜的3D摄像头构建目标物体的表面点云,将点云所在空间划分为三维格网体元;
S2:采用三角剖分算法建立目标物体三维格网体元的不规则三角网表示;
S3:将不规则三角网表示的目标物体图像用于训练神经辐射场网络,建立目标物体的神经辐射场表示;
S4:选取多个视角中其中任一视角进行标注,并采用布尔莎七参数模型获得其他视角下的标注框参数;
步骤S3具体为:
从无人货柜的3D摄像头向场景发出光线r,寻找光线r穿过的三角面片及交点x,获得该三角面片的三个顶点对应的三个三维格网体元内的K个点云;
MLP网络F将给定光线r的方向与三个体元内K个点云位置pi(i=1…K)进行编码ε(·),并与点pi的特征向量fi一起回归点pi相关的/>颜色,
ε(pi)=(sin(20πpi),cos(20πpi),…,sin(2L-1πpi),cos(2L-1πpi)),
其中,d表示三维极坐标系中的坐标信息,L为编码数量,位置编码L=10,方向编码L=4,为回归点云在神经辐射场相关的颜色;
并使用MLP网络T利用每个点云pi坐标及特征向量fi与回归pi的体密度σi
σi=T(fi,ε(pi)),
利用K个点云的颜色和体密度σi结合体渲染公式计算光线r对应的图像像素值当中构造反距离加权:
其中 为点云pi到光线r与三角面片交点x的距离;
步骤S3由损失函数监督:
其中c(r)为光线r对应的真实像素颜色,X为整幅图像像素点对应的光线集合。
2.根据权利要求1所述的一种面向无人货柜的TIN-NeRF新视角图像标注方法,其特征在于:步骤S1具体为:利用无人货柜的3D摄像头获得的场景位深信息构建目标物体的表面点云,将点云所在空间划分为三维格网体元,若体元中存在多个点时计算这些点云的质心,遍历所有的三维格网体元得到多个质心,以该质心代替三维格网体元中的点云。
3.根据权利要求2所述的一种面向无人货柜的TIN-NeRF新视角图像标注方法,其特征在于:步骤2具体为:将质心点云利用三角剖分算法建立目标物体的不规则三角网表示。
4.根据权利要求1所述的一种面向无人货柜的TIN-NeRF新视角图像标注方法,其特征在于:
步骤S4具体为:
在多个视角中选择并标注一个视角拍摄到的画面,人为框选目标物体,得到位于标注框内的目标物体画面,获取标注框任一顶点像素点在图像中的坐标和在摄像坐标系下的坐标,以及标注框的宽度和高度;
通过三角函数和布尔莎七参数模型,计算出另一视角下标注框已选点像素点在图像中的坐标以及新视角下新标注框参数。
CN202310203413.9A 2023-03-06 2023-03-06 一种面向无人货柜的TIN-NeRF新视角图像标注方法 Active CN116129082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310203413.9A CN116129082B (zh) 2023-03-06 2023-03-06 一种面向无人货柜的TIN-NeRF新视角图像标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310203413.9A CN116129082B (zh) 2023-03-06 2023-03-06 一种面向无人货柜的TIN-NeRF新视角图像标注方法

Publications (2)

Publication Number Publication Date
CN116129082A CN116129082A (zh) 2023-05-16
CN116129082B true CN116129082B (zh) 2024-01-23

Family

ID=86304707

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310203413.9A Active CN116129082B (zh) 2023-03-06 2023-03-06 一种面向无人货柜的TIN-NeRF新视角图像标注方法

Country Status (1)

Country Link
CN (1) CN116129082B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117953544A (zh) * 2024-03-26 2024-04-30 安徽农业大学 一种目标行为监测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113706714A (zh) * 2021-09-03 2021-11-26 中科计算技术创新研究院 基于深度图像和神经辐射场的新视角合成方法
CN114898028A (zh) * 2022-04-29 2022-08-12 厦门大学 基于点云的场景重建兼渲染的方法、存储介质和电子设备
CN115115688A (zh) * 2022-05-31 2022-09-27 荣耀终端有限公司 一种图像处理方法及电子设备
CN115439606A (zh) * 2022-08-31 2022-12-06 华为技术有限公司 三维重建方法、图形界面、系统及相关装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784333B (zh) * 2019-01-22 2021-09-28 中国科学院自动化研究所 基于点云带权通道特征的三维目标检测方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113706714A (zh) * 2021-09-03 2021-11-26 中科计算技术创新研究院 基于深度图像和神经辐射场的新视角合成方法
CN114898028A (zh) * 2022-04-29 2022-08-12 厦门大学 基于点云的场景重建兼渲染的方法、存储介质和电子设备
CN115115688A (zh) * 2022-05-31 2022-09-27 荣耀终端有限公司 一种图像处理方法及电子设备
CN115439606A (zh) * 2022-08-31 2022-12-06 华为技术有限公司 三维重建方法、图形界面、系统及相关装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
三维模型面片链码表示方法;魏巍;刘勇奎;段晓东;郭晨;;计算机辅助设计与图形学学报(03);全文 *
复合绝缘子放电紫外图谱时空特性及智能诊断研究;牛雷雷;《中国硕士论文数据辑》;全文 *

Also Published As

Publication number Publication date
CN116129082A (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
CN109118582B (zh) 一种商品三维重建系统及重建方法
CN112150575B (zh) 场景数据获取方法及模型训练方法、装置及计算机设备
EP3570253B1 (en) Method and device for reconstructing three-dimensional point cloud
CN108401461A (zh) 三维建图方法、装置、系统、云端平台、电子设备和计算机程序产品
TW202034215A (zh) 利用視訊資料映射物件實體
CN109242855B (zh) 基于多分辨率三维统计信息的屋顶分割方法、系统及设备
EP0559978A1 (en) Image processing method
CN111079565B (zh) 视图二维姿态模板的构建方法及识别方法、定位抓取系统
CN116129082B (zh) 一种面向无人货柜的TIN-NeRF新视角图像标注方法
CN107015654A (zh) 基于增强现实的导航方法及装置
US8675013B1 (en) Rendering spherical space primitives in a cartesian coordinate system
CN111161398B (zh) 一种图像生成方法、装置、设备及存储介质
CN111653175B (zh) 一种虚拟沙盘展示方法及装置
CN112733641A (zh) 物体尺寸测量方法、装置、设备及存储介质
Ye et al. Exploiting depth camera for 3d spatial relationship interpretation
CN115375836A (zh) 基于多元置信度滤波的点云融合三维重建方法和系统
CN111443808A (zh) 一种生成目标的三维信息数据的方法及陀螺仪系统
WO2023004559A1 (en) Editable free-viewpoint video using a layered neural representation
Song et al. Real-time terrain reconstruction using 3D flag map for point clouds
Chen Lens effect on synthetic image generation based on light particle theory
Hyeon et al. Automatic spatial template generation for realistic 3d modeling of large-scale indoor spaces
Nagy et al. New algorithm to find isoptic surfaces of polyhedral meshes
CN114596407A (zh) 资源对象三维模型生成交互方法和装置,显示方法和装置
Li et al. Design and application of parallel stereo matching algorithm based on CUDA
Lin et al. Robust improvement in 3D object landmark inference for semantic mapping

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant