CN114758081A - 基于神经辐射场的行人重识别三维数据集构建方法和装置 - Google Patents

基于神经辐射场的行人重识别三维数据集构建方法和装置 Download PDF

Info

Publication number
CN114758081A
CN114758081A CN202210670964.1A CN202210670964A CN114758081A CN 114758081 A CN114758081 A CN 114758081A CN 202210670964 A CN202210670964 A CN 202210670964A CN 114758081 A CN114758081 A CN 114758081A
Authority
CN
China
Prior art keywords
ray
data set
pedestrian
dimensional
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210670964.1A
Other languages
English (en)
Inventor
王宏升
陈�光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210670964.1A priority Critical patent/CN114758081A/zh
Publication of CN114758081A publication Critical patent/CN114758081A/zh
Priority to PCT/CN2022/116174 priority patent/WO2023093186A1/zh
Priority to US17/950,033 priority patent/US20230410560A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • G06T15/55Radiosity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/08Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Graphics (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Geometry (AREA)
  • Image Processing (AREA)
  • Image Generation (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于神经辐射场的行人重识别三维数据集构建方法和装置,包括如下步骤:S1:通过一组不同视角的相机对待录入行人进行图像采集;S2:通过场景中的相机射线,采样生成一个三维空间位置点集,将所述三维空间位置点集所对应相机的观察方向转换为三维笛卡尔单位向量;S3:将所述三维空间位置点集及其转换为三维笛卡尔单位向量的观察方向输入多层感知器,输出对应的密度和颜色;本发明一种基于神经辐射场的行人重识别三维数据集构建方法和装置,给出了一种全新的行人重识别数据集构建的方法,提供了数据集构建的新思路。相比于传统的数据集构建方法,通过多设备所采集的图像和空间位置,获取数据方式更加直接明了。

Description

基于神经辐射场的行人重识别三维数据集构建方法和装置
技术领域
本发明涉及行人重识别技术领域,特别涉及一种基于神经辐射场的行人重识别三维数据集构建方法和装置。
背景技术
行人重识别亦称行人再识别,被广泛认为是图像检索的一个子问题。其利用计算机视觉技术,判断视频和图像中是否存在特定行人,且在给定行人图像的情况下,对该行人的图像进行跨设备检索。行人重识别技术可与多种技术相结合,并应用于安保、视频监控、犯人监测等方向。
行人重识别技术存在许多的优势,如利用步态、身体特征和衣着等条件,更加全面地识别人物,且可以在多摄像设备网络下,跨设备对行人进行检索。无论是单独使用还是与其他技术相结合,都能发挥很大的价值,但同时也带来了巨大挑战,如易受穿着、遮挡、姿态和视角等影响。
在采集行人重识别数据时,需要考虑的因素有:数据采集需跨设备;公开的数据集规模远小于实际需求;影响识别的因素众多,处理难度大;监控涉及数据和行人的隐私问题等。都对行人重识别提出了挑战和研究重点。
早期数据集相比于实际的监控网络,数据集中行人和摄像头的数目少,数据量小;时间跨度短,光照条件变化少,缺少不同光照下的数据;场景单一,场景覆盖范围小;更有人工标注费用高、数据采集繁琐困难等不足。数据质量亟待提升,需要更加准确的方法去构建数据集。
发明内容
本发明提供了一种基于神经辐射场的行人重识别三维数据集构建方法和装置,提供数据录入方法的新思路:通过输入表示五维场景的参数,优化并渲染一组图像渲染一组捕获图像;同时通过对方法的改进,可生成不同的渲染图像,丰富和完善数据集,用以应对数据规模小、数据采集难的挑战。
为实现上述目的,本发明提供如下技术方案:
本发明公开了一种基于神经辐射场的行人重识别三维数据集构建方法,包括如下步骤:
S1:通过一组不同视角的相机对待录入行人进行图像采集;
S2:通过场景中的相机射线,采样生成一个三维空间位置点集,将所述三维空间位置点集所对应相机的观察方向转换为三维笛卡尔单位向量;
S3:将所述三维空间位置点集及其转换为三维笛卡尔单位向量的观察方向输入多层感知器,输出对应的密度和颜色;
S4:使用神经体渲染方法,将经过每个像素的射线颜色累积到步骤S1中采集的图像中,子步骤如下:
S41:用连续积分定义相机射线的累计透明率,并据此生成射线颜色的定义;
S42:采用求积法对射线颜色进行估计,将射线的近边界到远边界划分为N个间隔均匀的区间,并用分层抽样的方法均匀选取离散点;
S5:引用位置编码、多层级采样以提高步骤S4中射线颜色累计所生成图像的质量,具体为:
S51:引入位置编码:对点的空间位置进行编码,将输入神经网络的三维向量转化为指定维数,增加生成图像的精度;
S52:引入多层级采样:首先采用分层抽样采集一组点,并对神经网络进行初步评估,基于这个初步评估的神经网络的输出,生成概率密度函数,然后沿着每条射线以该概率密度函数进行采集,再结合两次采样的点,对神经网络进行更精确的评估;
S6:将生成图像打上标签,存入数据集。
作为优选的,所述步骤S2中所述三维空间位置点集指所述相机所在的三维空间位置
Figure 771389DEST_PATH_IMAGE001
,所述三维空间位置点集所对应相机的观察方向为
Figure 422950DEST_PATH_IMAGE002
,可将其转化为三维笛卡尔单位向量。
作为优选的,所述步骤S3的具体过程为:采用一个多层感知器,输入相机的空间位置和观察方向
Figure 733846DEST_PATH_IMAGE003
,输出点的颜色和密度
Figure 925793DEST_PATH_IMAGE004
,其中
Figure 271324DEST_PATH_IMAGE005
为空间位置
Figure 828207DEST_PATH_IMAGE001
Figure 626399DEST_PATH_IMAGE002
为观察方向所转化成的三维笛卡尔单位向量,
Figure 359387DEST_PATH_IMAGE006
表示颜色,
Figure 825003DEST_PATH_IMAGE007
为体积密度。
作为优选的,所述步骤S4中神经体渲染方法具体如下:追踪场景的光线,并对规定长度的光线进行积分来生成图像或者视频,在从三维标量数据生成图像的方法中,需渲染通过场景的任何一条射线的颜色以渲染成为图像。
作为优选的,所述步骤S41的具体过程为:将相机射线标记为
Figure 349526DEST_PATH_IMAGE008
Figure 838276DEST_PATH_IMAGE009
为射线原点,
Figure 106446DEST_PATH_IMAGE002
为观察方向,t指相机射线经过的空间某点的位置,射线颜色的具体定义如下:
Figure 426569DEST_PATH_IMAGE010
其中
Figure 387572DEST_PATH_IMAGE011
Figure 160356DEST_PATH_IMAGE012
是射线的近边界和远边界,
Figure 169900DEST_PATH_IMAGE006
表示颜色,
Figure 610109DEST_PATH_IMAGE007
表示体积密度,
Figure 476433DEST_PATH_IMAGE013
是射线从
Figure 736513DEST_PATH_IMAGE011
Figure 549749DEST_PATH_IMAGE014
这一段路径上的累积透明度,即这条射线从
Figure 578885DEST_PATH_IMAGE011
到t路径上没有击中任何粒子的概率,具体为:
Figure 147269DEST_PATH_IMAGE015
作为优选的,所述步骤S42具体为:将射线的近边界
Figure 629066DEST_PATH_IMAGE011
Figure 245992DEST_PATH_IMAGE012
远边界之间的距离
Figure 395214DEST_PATH_IMAGE016
分成N个间隔均匀的区间,然后从每个区间中随机抽取一个样本,即
Figure 868920DEST_PATH_IMAGE017
服从均匀分布:
Figure 41276DEST_PATH_IMAGE018
则可将射线颜色
Figure 993051DEST_PATH_IMAGE019
的积分公式简化为:
Figure 823928DEST_PATH_IMAGE020
其中
Figure 734115DEST_PATH_IMAGE021
Figure 190504DEST_PATH_IMAGE022
表示体积密度,
Figure 149233DEST_PATH_IMAGE023
表示颜色。
作为优选的,所述步骤S51中引入位置编码的具体方法为:对空间位置
Figure 7467DEST_PATH_IMAGE005
和观察方向
Figure 822977DEST_PATH_IMAGE002
进行标准化,并对空间位置和观察方向中的每一个坐标值进行如下编码:
Figure 766662DEST_PATH_IMAGE024
作为优选的,所述步骤S52中引入多层级采样的具体子步骤如下:
步骤一:采用分层抽样在射线上采集
Figure 529082DEST_PATH_IMAGE025
个点;
步骤二:输入采样点,并在所述采样点位置用求积法对神经网络进行初步评估;
步骤三:通过归一化处理,生成概率密度函数,将所述步骤S42中积分公式重写为:
Figure 241823DEST_PATH_IMAGE026
其中
Figure 228233DEST_PATH_IMAGE027
,再将
Figure 659215DEST_PATH_IMAGE028
进行归一化
Figure 959746DEST_PATH_IMAGE029
,从而生成一个分段常数的概率密度函数;
步骤四:基于上述概率密度函数,沿着每条射线采集
Figure 58152DEST_PATH_IMAGE030
个点;
步骤五:使用上述采集的
Figure 949885DEST_PATH_IMAGE031
个点来对神经网络进行更精确的评估,更好地渲染射线颜色。
本发明还公开了一种基于神经辐射场的行人重识别三维数据集构建装置,所述装置包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述基于神经辐射场的行人重识别三维数据集构建方法。
本发明的有益效果:本发明一种基于神经辐射场的行人重识别三维数据集构建方法和装置,给出了一种全新的行人重识别数据集构建的方法,提供了数据集构建的新思路。相比于传统的数据集构建方法,通过多设备所采集的图像和空间位置,获取数据方式更加直接明了;引入了神经辐射场,在已有数据的基础之上重新构建三维图像,并通过改进构建不同效果的图像,模拟了不同场景、不同光照下的图像,很大程度上丰富了数据集;在采集数据并重新构建后,便将数据打上标签,减少了后期人工标注的费用;通过本方法构建的三维数据集,包含更全面、更完善的信息。
附图说明
图1为基于神经辐射场的行人重识别三维数据集构建方法和装置的架构图;
图2为多层级采样的示意图;
图3为本发明实施例的装置示意图;
图2中:1-相机、2-相机射线、3-采样点、4-神经体渲染方法积累的颜色、5-采样物体。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
神经辐射场,作为一项全新的技术,是一种通过输入多张图像,使用多层感知器(神经网络)进行连接并表示三维场景的方法,该多层感知器可存储于一个与压缩图像大小相当的文件之中。在此技术的表示之下,渲染出的图形表现出了让人满意的精度,并可以渲染出任意视角的细节,对复杂场景进行高分辨率的建模。同时,神经辐射场克服了离散体素网格的高存储成本问题。
鉴于此,本发明提供了一种基于神经辐射场的行人重识别三维数据集构建方法和装置,提供数据录入方法的新思路:通过输入表示五维场景的参数,优化并渲染一组图像渲染一组捕获图像;同时通过对方法的改进,可生成不同的渲染图像,丰富和完善数据集,用以应对数据规模小、数据采集难的挑战。
如图1所示,本发明实施例提供一种基于神经辐射场的行人重识别三维数据集构建方法,所述方法包括如下步骤:
步骤一:图像采集:
通过一组不同视角的相机对待录入行人进行多次图像采集,针对一个特定的待录入行人,需要提供大量相机参数已知的图像,即空间位置和观察方向已知的图像。
步骤二:相机空间位置和观察方向数据采集:
通过场景中的相机射线生成一个采样的三维点集,获取点所在的三维空间位置
Figure 71424DEST_PATH_IMAGE005
表示为
Figure 972384DEST_PATH_IMAGE001
和相机的观察方向
Figure 394138DEST_PATH_IMAGE002
,表示为
Figure 987931DEST_PATH_IMAGE032
实际上,三维空间位置点集所对应相机的观察方向,可转换为三维笛卡尔单位向量。
步骤三:神经网络输出密度和颜色:
多层感知器,也称人工神经网络,包括输入层、输出层,还有中间的多个隐层,其将每一个输入的维度加权得到输出的维度,并在其中加入激活函数,得到能够学习非线性关系的模型,因而能取得较好的效果。
本发明采用一个多层感知器
Figure 331187DEST_PATH_IMAGE033
。其输入为
Figure 35838DEST_PATH_IMAGE005
,一个空间位置
Figure 843257DEST_PATH_IMAGE001
Figure 345301DEST_PATH_IMAGE002
为观察方向,用三维笛卡尔单位向量表示;输出为点的颜色和密度,即
Figure 972592DEST_PATH_IMAGE006
为RGB颜色
Figure 418617DEST_PATH_IMAGE034
,
Figure 814963DEST_PATH_IMAGE007
为体积密度。
使用上述方法,可优化其权重
Figure 750558DEST_PATH_IMAGE035
,将上述所采集的三维空间位置点集及其观察方向,输入该映射得到对应的体积密度和颜色。
步骤四:体渲染技术合成图像:
体渲染方法,指以三维标量数据生成图像的多种方法,通过常规路径跟踪、光子映射等方式,在复杂的光照下可视化体数据。而神经体渲染是指追踪场景的光线,并对一定长度的光线进行积分来生成图像或者视频的一种方法。
本发明使用经典的体渲染方法,即神经体渲染,估计经过该场景的任何一条射线的颜色。将相机射线标记为
Figure 865144DEST_PATH_IMAGE008
Figure 849281DEST_PATH_IMAGE009
为射线原点,
Figure 631292DEST_PATH_IMAGE002
为前述观察方向,t指相机射线经过的空间某点的位置。射线颜色用连续积分定义,具体定义如下:
Figure 472209DEST_PATH_IMAGE036
其中
Figure 74092DEST_PATH_IMAGE011
Figure 861919DEST_PATH_IMAGE012
是射线的近边界和远边界,
Figure 232858DEST_PATH_IMAGE013
是射线从
Figure 510255DEST_PATH_IMAGE011
Figure 537117DEST_PATH_IMAGE014
这一段路径上的累积透明度,即这条射线从
Figure 925373DEST_PATH_IMAGE011
到t路径上没有击中任何粒子的概率,具体为:
Figure 416397DEST_PATH_IMAGE015
上述连续神经辐射场渲染视图,需要估计通过所需通过虚拟摄像机每个像素的射线颜色,即估计连续积分
Figure 599117DEST_PATH_IMAGE019
,在本发明中采用求积法对这个连续积分进行数值估计。鉴于多层感知器的特性,它只能查询一组固定的离散点,故而用于渲染离散体素网格的确定性正交会限制场景表示的分辨率。本发明采用分层抽样的方法,:将射线的近边界
Figure 378854DEST_PATH_IMAGE011
Figure 305222DEST_PATH_IMAGE012
远边界之间的距离
Figure 650752DEST_PATH_IMAGE016
分成N个间隔均匀的区间,然后从每个区间中随机抽取一个样本,即
Figure 269953DEST_PATH_IMAGE017
服从均匀分布:
Figure 271407DEST_PATH_IMAGE018
在整个过程中,分层采样使得多层感知器在连续位置进行评估优化,所以,尽管使用离散样本集估计积分,但能够表示连续场景。则可将积分简化为:
Figure 4395DEST_PATH_IMAGE037
其中
Figure 204432DEST_PATH_IMAGE021
Figure 994534DEST_PATH_IMAGE022
表示体积密度,
Figure 483284DEST_PATH_IMAGE023
表示颜色。
将经过每个像素的射线颜色积累到图像之中,从而生成图像。
步骤五:利用改进方法提高图像质量:
上述过程描述了基于神经辐射场技术的参数采集和图像生成,为提高生成图像的质量,同时对数据集进行进一步的扩充,可对以上方法进行如下两种改进:
改进一:位置编码
深度网络更加倾向于低频函数学习。在输入传递到网络之前,使用高频函数将输入映射到更高维度的空间,能够使结果包含高频变化的数据,从而有更好的表现。据此,对空间位置
Figure 751454DEST_PATH_IMAGE005
和观察方向
Figure 71577DEST_PATH_IMAGE002
进行标准化,并对空间位置和观察方向中的每一个坐标值进行如下编码:
Figure 32580DEST_PATH_IMAGE024
在本发明中,对于
Figure 539784DEST_PATH_IMAGE038
L设置为10,即得到长度为60的向量;对于
Figure 814908DEST_PATH_IMAGE039
L设置为4,得到长度为24的向量。位置编码引入了更高维度的空间,因此,使用此位置编码使得多层感知器逼近高频率函数。
重新定义一个多层感知器
Figure 255117DEST_PATH_IMAGE040
,其中
Figure 121441DEST_PATH_IMAGE041
是一个普通的多层感知器。在此多层感知器输出的基础之上,再对场景中的射线颜色进行渲染,使得图像更加接近真实。
改进二:多层级采样
如图2所示,前述的渲染策略沿着每条相机射线进行估计,对没有有效信息的空间、遮挡区域仍然重复采样,这导致了该策略的低效。此改进方案提出了一种多层级采样,为了提高渲染策略的效率,按预期效果的比例在最终的渲染中采集样本。
图2中的(1)表示“粗”网络的点的采集,也就是按照前文所描述的分层抽样随机采点,采样点数量为
Figure 584784DEST_PATH_IMAGE042
,图2中的(2)表示按照归一化处理后生成的概率密度函数采样的点与(1)图中采点合在一起的情况,采样点数量为
Figure 194757DEST_PATH_IMAGE031
在这个方案中,优化的不只是一个网络,而是同时对 “粗”网络和“细”网络进行优化,以表示场景。首先,用分层抽样采集一组点,并评估“粗”网络。基于这个“粗”网络的输出,生成概率密度函数,然后沿着每条射线以该概率密度函数进行采集,再结合两次采样的点进行“细”网络的评估。具体步骤如下:
1、采用分层抽样在射线上采集
Figure 489472DEST_PATH_IMAGE042
个点;
2、输入采样点,并在这些位置用求积法对神经网络进行初步评估,及对网络进行“粗”评估,具体为通过上述公式(2)进行评估;
3、通过归一化处理,生成概率密度函数,将公式(2)重写为
Figure 526698DEST_PATH_IMAGE026
其中
Figure 274074DEST_PATH_IMAGE027
,再将
Figure 891000DEST_PATH_IMAGE028
进行归一化
Figure 774643DEST_PATH_IMAGE029
,从而生成一个分段常数的概率密度函数,
Figure 513929DEST_PATH_IMAGE022
表示体积密度,
Figure 686284DEST_PATH_IMAGE023
表示颜色;
4、基于上述概率密度函数,沿着每条射线采集
Figure 638059DEST_PATH_IMAGE030
个点;
5、使用上述采集的
Figure 910296DEST_PATH_IMAGE031
个点来对神经网络进行更精确的评估,即使用上述采集的
Figure 492587DEST_PATH_IMAGE031
个点来估计“细”网络,更好地渲染射线颜色。
值得一提的是,利用上述位置编码、多层级采样两种改进方法生成的图像拥有更高的图像质量,但并不代表步骤四中生成的图像失去了价值。由于行人重识别技如易受穿着、遮挡、姿态、视角和天气等的影响,不同质量、不同状态下的图像都能够丰富行人重识别数据集,为更好的行人重识别创造条件。
步骤六:将生成的图像存入数据集:
将生成的图像打上行人所对应的标签,即以该行人名称标记该图像,得到含有不同质量图像的该行人数据,存入数据集之中。重复以上步骤,最终生成含有多行人的较为完备的数据集。
参见图3,本发明实施例还提供了一种基于神经辐射场的行人重识别三维数据集构建装置,还包括存储器和一个或多个处理器,存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中的基于神经辐射场的行人重识别三维数据集构建方法。
本发明一种基于神经辐射场的行人重识别三维数据集构建装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本发明一种基于神经辐射场的行人重识别三维数据集构建装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于神经辐射场的行人重识别三维数据集构建方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于神经辐射场的行人重识别三维数据集构建方法,其特征在于:包括如下步骤:
S1:通过一组不同视角的相机对待录入行人进行图像采集;
S2:通过场景中的相机射线,采样生成一个三维空间位置点集,将所述三维空间位置点集所对应相机的观察方向转换为三维笛卡尔单位向量;
S3:将所述三维空间位置点集及其转换为三维笛卡尔单位向量的观察方向输入多层感知器,输出对应的密度和颜色;
S4:使用神经体渲染方法,将经过每个像素的射线颜色累积到步骤S1中采集的图像中,子步骤如下:
S41:用连续积分定义相机射线的累计透明率,并据此生成射线颜色的定义;
S42:采用求积法对射线颜色进行估计,将射线的近边界到远边界划分为N个间隔均匀的区间,并用分层抽样的方法均匀选取离散点;
S5:引用位置编码、多层级采样以提高步骤S4中射线颜色累计所生成图像的质量,具体为:
S51:引入位置编码:对点的空间位置进行编码,将输入神经网络的三维向量转化为指定维数,增加生成图像的精度;
S52:引入多层级采样:首先采用分层抽样采集一组点,并对神经网络进行初步评估,基于这个初步评估的神经网络的输出,生成概率密度函数,然后沿着每条射线以该概率密度函数进行采集,再结合两次采样的点,对神经网络进行更精确的评估;
S6:将生成图像打上标签,存入数据集。
2.如权利要求1所述的基于神经辐射场的行人重识别三维数据集构建方法,其特征在于:所述步骤S2中所述三维空间位置点集指所述相机所在的三维空间位置
Figure DEST_PATH_IMAGE001
,所述三维空间位置点集所对应相机的观察方向为
Figure DEST_PATH_IMAGE002
,可将其转化为三维笛卡尔单位向量。
3.如权利要求1所述的基于神经辐射场的行人重识别三维数据集构建方法,其特征在于:所述步骤S3的具体过程为:采用一个多层感知器,输入相机的空间位置和观察方向
Figure DEST_PATH_IMAGE003
,输出点的颜色和密度
Figure DEST_PATH_IMAGE004
,其中
Figure DEST_PATH_IMAGE005
为空间位置
Figure 288311DEST_PATH_IMAGE001
Figure 939872DEST_PATH_IMAGE002
为观察方向所转化成的三维笛卡尔单位向量,
Figure DEST_PATH_IMAGE006
表示颜色,
Figure DEST_PATH_IMAGE007
为体积密度。
4.如权利要求1所述的基于神经辐射场的行人重识别三维数据集构建方法,其特征在于:所述步骤S4中神经体渲染方法具体如下:追踪场景的光线,并对规定长度的光线进行积分来生成图像或者视频,在从三维标量数据生成图像的中,渲染通过场景的任何一条射线的颜色以渲染成为图像。
5.如权利要求1所述的基于神经辐射场的行人重识别三维数据集构建方法,其特征在于:所述步骤S41的具体过程为:将相机射线标记为
Figure DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
为射线原点,
Figure 408025DEST_PATH_IMAGE002
为观察方向,t指相机射线经过的空间某点的位置,射线颜色的具体定义如下:
Figure DEST_PATH_IMAGE010
其中
Figure DEST_PATH_IMAGE011
Figure DEST_PATH_IMAGE012
是射线的近边界和远边界,
Figure 288388DEST_PATH_IMAGE006
表示颜色,
Figure 446968DEST_PATH_IMAGE007
表示体积密度,
Figure DEST_PATH_IMAGE013
是射线从
Figure 144796DEST_PATH_IMAGE011
Figure DEST_PATH_IMAGE014
这一段路径上的累积透明度,即这条射线从
Figure 83933DEST_PATH_IMAGE011
到t路径上没有击中任何粒子的概率,具体为:
Figure DEST_PATH_IMAGE015
6.如权利要求5所述的基于神经辐射场的行人重识别三维数据集构建方法,其特征在于:所述步骤S42具体为:将射线的近边界
Figure 95883DEST_PATH_IMAGE011
Figure 436866DEST_PATH_IMAGE012
远边界之间的距离
Figure DEST_PATH_IMAGE016
分成N个间隔均匀的区间,然后从每个区间中随机抽取一个样本,即
Figure DEST_PATH_IMAGE017
服从均匀分布:
Figure DEST_PATH_IMAGE018
则可将射线颜色
Figure DEST_PATH_IMAGE019
的积分公式简化为:
Figure DEST_PATH_IMAGE020
其中
Figure DEST_PATH_IMAGE021
Figure DEST_PATH_IMAGE022
表示体积密度,
Figure DEST_PATH_IMAGE023
表示颜色。
7.如权利要求1所述的基于神经辐射场的行人重识别三维数据集构建方法,其特征在于:所述步骤S51中引入位置编码的具体方法为:对空间位置
Figure 869377DEST_PATH_IMAGE005
和观察方向
Figure 561390DEST_PATH_IMAGE002
进行标准化,并对空间位置和观察方向中的每一个坐标值进行如下编码:
Figure DEST_PATH_IMAGE025
8.如权利要求6所述的基于神经辐射场的行人重识别三维数据集构建方法,其特征在于:所述步骤S52中引入多层级采样的具体子步骤如下:
步骤一:采用分层抽样在射线上采集
Figure DEST_PATH_IMAGE026
个点;
步骤二:输入采样点,并在所述采样点位置用求积法对神经网络进行初步评估;
步骤三:通过归一化处理,生成概率密度函数;将所述步骤S42中积分公式重写为:
Figure DEST_PATH_IMAGE027
其中
Figure DEST_PATH_IMAGE028
,再将
Figure DEST_PATH_IMAGE029
进行归一化
Figure DEST_PATH_IMAGE030
,从而生成一个分段常数的概率密度函数;
步骤四:基于上述概率密度函数,沿着每条射线采集
Figure DEST_PATH_IMAGE031
个点;
步骤五:使用上述采集的
Figure DEST_PATH_IMAGE032
个点来对神经网络进行更精确的评估,更好地渲染射线颜色。
9.一种基于神经辐射场的行人重识别三维数据集构建装置,其特征在于:所述装置包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-8任一项所述基于神经辐射场的行人重识别三维数据集构建方法。
CN202210670964.1A 2022-06-15 2022-06-15 基于神经辐射场的行人重识别三维数据集构建方法和装置 Pending CN114758081A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202210670964.1A CN114758081A (zh) 2022-06-15 2022-06-15 基于神经辐射场的行人重识别三维数据集构建方法和装置
PCT/CN2022/116174 WO2023093186A1 (zh) 2022-06-15 2022-08-31 基于神经辐射场的行人重识别三维数据集构建方法和装置
US17/950,033 US20230410560A1 (en) 2022-06-15 2022-09-21 Method and apparatus for constructing three-dimensional data set of pedestrian re-identification based on neural radiation field

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210670964.1A CN114758081A (zh) 2022-06-15 2022-06-15 基于神经辐射场的行人重识别三维数据集构建方法和装置

Publications (1)

Publication Number Publication Date
CN114758081A true CN114758081A (zh) 2022-07-15

Family

ID=82336702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210670964.1A Pending CN114758081A (zh) 2022-06-15 2022-06-15 基于神经辐射场的行人重识别三维数据集构建方法和装置

Country Status (3)

Country Link
US (1) US20230410560A1 (zh)
CN (1) CN114758081A (zh)
WO (1) WO2023093186A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115243025A (zh) * 2022-09-21 2022-10-25 深圳市明源云科技有限公司 三维渲染方法、装置、终端设备以及存储介质
CN115761565A (zh) * 2022-10-09 2023-03-07 名之梦(上海)科技有限公司 视频生成方法、装置、设备与计算机可读存储介质
WO2023093186A1 (zh) * 2022-06-15 2023-06-01 之江实验室 基于神经辐射场的行人重识别三维数据集构建方法和装置
CN116958492A (zh) * 2023-07-12 2023-10-27 数元科技(广州)有限公司 一种基于NeRf重建三维底座场景渲染的VR编辑应用
CN117893693A (zh) * 2024-03-15 2024-04-16 南昌航空大学 一种密集slam三维场景重建方法及装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116977525B (zh) * 2023-07-31 2024-03-01 之江实验室 一种图像渲染方法、装置、存储介质及电子设备
CN117036639B (zh) * 2023-08-21 2024-04-30 北京大学 一种面向受限空间的多视角几何场景建立方法和装置
CN116778061B (zh) * 2023-08-24 2023-10-27 浙江大学 一种基于非真实感图片的三维物体生成方法
CN117422829A (zh) * 2023-10-24 2024-01-19 南京航空航天大学 一种基于神经辐射场的人脸图像合成优化方法
CN117173343B (zh) * 2023-11-03 2024-02-23 北京渲光科技有限公司 一种基于神经辐射场的重新照明方法及系统
CN117333609B (zh) * 2023-12-01 2024-02-09 北京渲光科技有限公司 图像渲染方法、网络的训练方法、设备及介质
CN117710583A (zh) * 2023-12-18 2024-03-15 中铁第四勘察设计院集团有限公司 基于神经辐射场的空地影像三维重建方法、系统及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117823A (zh) * 2018-08-31 2019-01-01 常州大学 一种基于多层神经网络的跨场景行人重识别的方法
CN113099208A (zh) * 2021-03-31 2021-07-09 清华大学 基于神经辐射场的动态人体自由视点视频生成方法和装置
CN114004941A (zh) * 2022-01-04 2022-02-01 苏州浪潮智能科技有限公司 一种基于神经辐射场的室内场景三维重建系统及方法
CN114119839A (zh) * 2022-01-24 2022-03-01 阿里巴巴(中国)有限公司 三维模型重建与图像生成方法、设备以及存储介质
WO2022104299A1 (en) * 2020-11-16 2022-05-19 Google Llc Deformable neural radiance fields
WO2022104178A1 (en) * 2020-11-16 2022-05-19 Google Llc Inverting neural radiance fields for pose estimation
CN114549731A (zh) * 2022-04-22 2022-05-27 清华大学 视角图像的生成方法、装置、电子设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11288857B2 (en) * 2019-04-04 2022-03-29 Google Llc Neural rerendering from 3D models
CN114758081A (zh) * 2022-06-15 2022-07-15 之江实验室 基于神经辐射场的行人重识别三维数据集构建方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117823A (zh) * 2018-08-31 2019-01-01 常州大学 一种基于多层神经网络的跨场景行人重识别的方法
WO2022104299A1 (en) * 2020-11-16 2022-05-19 Google Llc Deformable neural radiance fields
WO2022104178A1 (en) * 2020-11-16 2022-05-19 Google Llc Inverting neural radiance fields for pose estimation
CN113099208A (zh) * 2021-03-31 2021-07-09 清华大学 基于神经辐射场的动态人体自由视点视频生成方法和装置
CN114004941A (zh) * 2022-01-04 2022-02-01 苏州浪潮智能科技有限公司 一种基于神经辐射场的室内场景三维重建系统及方法
CN114119839A (zh) * 2022-01-24 2022-03-01 阿里巴巴(中国)有限公司 三维模型重建与图像生成方法、设备以及存储介质
CN114549731A (zh) * 2022-04-22 2022-05-27 清华大学 视角图像的生成方法、装置、电子设备及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023093186A1 (zh) * 2022-06-15 2023-06-01 之江实验室 基于神经辐射场的行人重识别三维数据集构建方法和装置
CN115243025A (zh) * 2022-09-21 2022-10-25 深圳市明源云科技有限公司 三维渲染方法、装置、终端设备以及存储介质
CN115243025B (zh) * 2022-09-21 2023-01-24 深圳市明源云科技有限公司 三维渲染方法、装置、终端设备以及存储介质
CN115761565A (zh) * 2022-10-09 2023-03-07 名之梦(上海)科技有限公司 视频生成方法、装置、设备与计算机可读存储介质
CN116958492A (zh) * 2023-07-12 2023-10-27 数元科技(广州)有限公司 一种基于NeRf重建三维底座场景渲染的VR编辑应用
CN116958492B (zh) * 2023-07-12 2024-05-03 数元科技(广州)有限公司 一种基于NeRf重建三维底座场景渲染的VR编辑方法
CN117893693A (zh) * 2024-03-15 2024-04-16 南昌航空大学 一种密集slam三维场景重建方法及装置
CN117893693B (zh) * 2024-03-15 2024-05-28 南昌航空大学 一种密集slam三维场景重建方法及装置

Also Published As

Publication number Publication date
US20230410560A1 (en) 2023-12-21
WO2023093186A1 (zh) 2023-06-01

Similar Documents

Publication Publication Date Title
CN114758081A (zh) 基于神经辐射场的行人重识别三维数据集构建方法和装置
Zhang et al. Image engineering
CN105378796B (zh) 可伸缩体积3d重构
EP3211596A1 (en) Generating a virtual world to assess real-world video analysis performance
DE102019130889A1 (de) Schätzung der tiefe eines mit einer monokularen rgb-kamera aufgenommenen videodatenstroms
CN109191369A (zh) 2d图片集转3d模型的方法、存储介质和装置
CN111291639B (zh) 基于分层变分自编码的跨源舰船特征融合学习与识别方法
CN112530019B (zh) 三维人体重建方法、装置、计算机设备和存储介质
CN106155299B (zh) 一种对智能设备进行手势控制的方法及装置
CN110503686A (zh) 基于深度学习的物体位姿估计方法及电子设备
CN112215129A (zh) 一种基于排序损失和双分支网络的人群计数方法及系统
CN114581571A (zh) 基于imu和前向变形场的单目人体重建方法及装置
CN116580161B (zh) 基于图像及NeRF模型的建筑三维模型构建方法及系统
CN117237740B (zh) 一种基于CNN和Transformer的SAR图像分类方法
CN116721210A (zh) 基于神经有符号距离场的实时高效三维重建方法及装置
CN113160210A (zh) 基于深度相机的排水管道缺陷检测方法及装置
CN116934977A (zh) 一种基于三维占用预测和神经渲染的视觉三维感知方法及系统
CN116758212A (zh) 基于自适应去噪算法的3d重建方法、装置、设备及介质
Khan et al. A review of benchmark datasets and training loss functions in neural depth estimation
Roobini et al. Self-intelligence with human activities recognition based in convolutional neural network
Liu et al. A Multilevel Visual Feature-Based Approach for Measuring the Spatial Information in Remote Sensing Images
Amirshahi et al. CNN feature similarity: Paintings are more self-similar at all levels
Alsisan et al. Variation-Factored Encoding of Facade Images.
Pini et al. Video Frame Synthesis Combining Conventional and Event Cameras
Wang et al. Application of Image Processing Technology in the Visual Design of Motion Health under the Background of Wireless Communication: Take Swimming as an Example

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220715

RJ01 Rejection of invention patent application after publication