CN115398483A - 用目标三维(3d)对象增强监视空间的录像片段以训练人工智能(ai)模型的方法和系统 - Google Patents
用目标三维(3d)对象增强监视空间的录像片段以训练人工智能(ai)模型的方法和系统 Download PDFInfo
- Publication number
- CN115398483A CN115398483A CN202180023301.4A CN202180023301A CN115398483A CN 115398483 A CN115398483 A CN 115398483A CN 202180023301 A CN202180023301 A CN 202180023301A CN 115398483 A CN115398483 A CN 115398483A
- Authority
- CN
- China
- Prior art keywords
- target
- ground plane
- model
- objects
- relative position
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
- G06V20/647—Three-dimensional objects by matching two-dimensional images to three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Graphics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Processing Or Creating Images (AREA)
Abstract
公开了一种用于从一个或多个角度用目标三维(3D)对象增强监视空间的录像片段以训练人工智能(AI)模型的方法,包括:从监视空间的目标相机获取录像片段;确定地平面和地平面的拐角的屏幕坐标;归一化来自地平面的屏幕坐标并确定每个对象在地平面中的相对位置;准备用于训练AI模型的目标3D对象的模型;迭代地生成目标3D对象在地平面中的随机位置和随机旋转,用于将目标3D对象定位在地平面中的对象中的干扰对象之前或之后;渲染在地平面上的目标3D对象的模型,并将渲染的3D对象和地平面与获取的录像片段合成以生成合成图像;以及计算边界框的坐标,该边界框框住目标3D对象在合成图像中的相对位置。
Description
技术领域
本公开涉及用于从一个或多个角度用目标三维(3D)对象来增强监视空间的录像片段(video footage)以训练人工智能(AI)模型的方法。此外,本公开还涉及用于从一个或多个角度用目标三维(3D)对象增强监视空间的录像片段以训练人工智能(AI)模型的系统。
背景技术
通常,计算机视觉中使用的人工智能(AI)模型需要像任何其他AI模型一样进行训练。对于目标检测,要训练的目标3D对象的图像连同“标签”一起呈现给AI模型,标签包括描述图像中目标3D对象的位置和类别的小数据文件。通常,训练AI模型需要向AI模型呈现数千个此类标记图像。获取足够大数量的标记的训练图像的常用技术包括使用包含期望目标3D对象的录像片段,并使用人类识别与录像片段相关联的图像中的对象,在识别的对象周围绘制边界框并选择一个对象类。另一种已知的获取足够数量的标记的训练图像的技术包括使用“游戏引擎”(如,Zumo标签)创建一个虚拟模拟环境,其中包含目标3D对象,然后计算边界框,渲染大量带有适当标签的图像。
然而,获取足够多的标记的训练图像具有挑战性。使用人类识别图像中的对象的方法是极其持久且昂贵的过程。在创建虚拟模拟环境的方法中,主要缺点是没有真实世界背景的对象看起来非常干净,这创建用于训练的较弱训练集,从而导致目标检测不太准确。
因此,鉴于前述讨论,需要克服与现有技术相关的上述缺陷,以提供用于从一个或多个角度用目标三维(3D)对象增强录像片段用于训练人工智能(AI)模型的方法和系统。
发明内容
本公开寻求提供一种从一个或多个角度用目标三维(3D)对象来增强监视空间的录像片段以用于训练人工智能(AI)模型的方法。本公开还寻求提供一种用于从一个或多个角度用目标3D对象来增强监视空间的录像片段以训练AI模型的系统。本公开的目的是提供一种解决方案,该解决方案通过提供一种用于(半)自动地用目标3D对象增强来自实际监视相机的录像片段的技术,至少部分地克服现有技术中遇到的问题。使用包含“干扰”对象和混合可能性的真实录像片段作为3D对象的训练集来训练AI模型,显着减少训练时间并显着提高训练质量。
在一个方面,本公开提供了一种从一个或多个角度用目标三维(3D)对象增强监视空间的录像片段以用于训练人工智能(AI)模型的方法,该方法包括:
-从监视空间中的目标相机获取录像片段;
-确定录像片段中的地平面和地平面的一个或多个角的一个或多个屏幕坐标;
-通过从地平面计算单应矩阵并确定一个或多个对象中的每个对象在地平面中的相对位置来归一化一个或多个屏幕坐标;
-准备用于训练AI模型的目标3D对象的模型;
-迭代地为在地平面中的目标3D对象生成随机位置和随机旋转,以将目标3D对象定位在地平面中的一个或多个对象中的干扰对象的前面或后面;
-在地平面上渲染目标3D对象的模型,并将渲染的3D对象和地平面与获取的录像片段合成以生成合成图像,其中,当目标3D对象在地平面上的相对位置在干扰对象的相对位置后面时,干扰对象的掩模用于遮挡目标3D对象;和
-计算边界框的坐标,边界框在合成图像中框定目标3D对象的相对位置,并将合成图像与边界框的坐标一起保存,以供随后用于训练AI模型。
在另一方面,本公开的实施例提供了一种用于从一个或多个角度用目标三维(3D)对象来增强监视空间的录像片段以训练人工智能(AI)模型的系统,该系统包括:
-目标相机,设置在监视空间中并通信地耦接到服务器,其中,目标相机被配置为捕获监视空间的录像片段并将捕获的录像片段传输到服务器;和
-服务器通信地耦接到目标相机并且包括:
-存储器,存储器存储一组模块;和
-处理器,处理器执行用于从一个或多个角度用目标3D对象增强监视空间的录像片段以训练AI模型的一组模块,模块包括:
-镜头采集模块,用于从在监视空间中的目标相机获取录像片段;
-地平面模块,用于:
-确定在录像片段中的地平面和地平面拐角的一个或多个屏幕坐标;和
-通过从地平面计算单应矩阵并确定一个或多个对象中的每个对象在地平面中的相对位置来归一化一个或多个屏幕坐标;
-模型准备模块,用于准备用于训练AI模型的目标3D对象的模型;
-3D对象定位模块,用于迭代地为在地平面中的目标3D对象生成随机位置和随机旋转,以将目标3D对象定位在地平面中的一个或多个对象中的干扰对象的前面或后面;
-渲染模块,用于在地平面上渲染目标3D对象的模型,并将渲染的3D对象和地平面与获取的录像片段合成以生成合成数据,其中,当目标3D对象在地平面上的相对位置在干扰对象的相对位置后面时,干扰对象的掩模用于遮挡目标3D对象;和
-训练数据模块,用于计算边界框的坐标,边界框在合成图像中框定目标3D对象的相对位置,并将合成图像与边界框的坐标一起保存,以供随后用于训练AI模型。
本公开的实施例基本上消除或至少部分地解决了现有技术中的上述问题,并且通过训练目标3D对象以用作训练视频或图像,能够(半)自动地增强来自监视相机的录像片段。
本公开的其他方面、优点、特征和目的将从附图和结合所附权利要求解释的说明性实施例的详细描述中变得明显。
应当理解,本公开的特征易于以各种组合进行组合,而不脱离由所附权利要求限定的本公开的范围。
附图说明
当结合附图阅读时,以上概述以及说明性实施例的以下详细描述将得到更好的理解。为了说明本公开,在附图中示出了本公开的示例性构造。然而,本公开不限于本文公开的特定方法和工具。此外,本领域技术人员将理解附图不是按比例绘制的。在可能的情况下,相同的元件已用相同的数字表示。
现在将仅通过示例的方式参考以下图表来描述本公开的实施例,其中:
图1示出了根据本公开的实施例的用于从一个或多个角度用目标三维(3D)对象增强监视空间的录像片段以训练人工智能(AI)模型的系统的示意图;
图2A示出了根据示例性场景在监视空间中的目标相机视图;
图3示出了根据示例性场景的使用单应矩阵从地平面生成的归一化地平面的屏幕坐标;
图4示出了根据示例性场景的归一化地平面上的对象的相对位置;
图5A示出了根据示例性场景的具有被掩模的潜在遮挡对象的监视空间的目标相机视图;
图5B示出了根据示例性场景的在单独渲染的目标相机视图中的目标3D对象;
图6A示出了根据示例性场景的在灰色背景上用阴影渲染的目标3D对象以便更容易合成;
图6B示出了根据示例性场景放置在掩模目标3D对象后面的干扰对象;
图7A示出了根据示例性场景的具有用于训练的边界框的目标3D对象;
图7B示出了根据示例性场景的放置在被掩模的干扰对象后面的目标3D对象,掩模用于遮挡目标3D对象;
图8A示出了根据示例性场景的作为渲染对象的结果而获得的对象的毫米波(mmWave)传感器点反射;
图8B示出了根据示例性场景的作为渲染目标3D对象的结果而获得的目标3D对象的毫米波(mmWave)传感器点反射;以及
图9A至图9B示出了根据本公开的实施例的用于从一个或多个角度用目标三维(3D)对象增强监视空间的录像片段以训练人工智能(AI)模型的方法的步骤。
在附图中,使用带下划线的数字来表示带下划线的数字所位于的项目或与带下划线的数字相邻的项目。不带下划线的数字与由将不带下划线的数字连接到该项目的线标识的项目相关。当一个数字不带下划线并带有一个相关的箭头时,这个不带下划线的数字用于标识箭头所指的一般项目。
具体实施方式
以下详细描述说明了本公开的实施例以及它们可以实现的方式。尽管已经公开了执行本公开的一些模式,但是本领域技术人员将认识到用于执行或实践本公开的其他实施例也是可行的。
在一个方面,本公开提供了一种从一个或多个角度用目标三维(3D)对象增强监视空间的录像片段以用于训练人工智能(AI)模型的方法,该方法包括:
-从监视空间中的目标相机获取录像片段;
-确定录像片段中的地平面和地平面的一个或多个拐角的一个或多个屏幕坐标;
-通过从地平面计算单应矩阵并确定一个或多个对象中的每个对象在地平面中的相对位置来归一化一个或多个屏幕坐标;
-准备用于训练AI模型的目标3D对象模型;
-迭代地为在地平面中的目标3D对象生成随机位置和随机旋转,以将目标3D对象定位在地平面中的一个或多个对象中的干扰对象的前面或后面;
-在地平面上渲染目标3D对象的模型,并将渲染的3D对象和地平面与获取的录像片段合成以生成合成图像,其中,当目标3D对象在地平面上的相对位置在干扰对象的相对位置后面时,干扰对象的掩模用于遮挡目标3D对象;和
-计算边界框的坐标,边界框在合成图像中框定目标3D对象的相对位置,并将合成图像与边界框的坐标一起保存,以供随后用于训练AI模型。
在另一方面,本公开的实施例提供了一种用于从一个或多个角度用目标三维(3D)对象来增强监视空间的录像片段以训练人工智能(AI)模型的系统,该系统包括:
-目标相机,设置在监视空间中并通信地耦接到服务器,其中,目标相机被配置为捕获监视空间的录像片段并将捕获的录像片段传输到服务器;以及
-服务器通信地耦接到目标相机并且包括:
-存储器,存储器存储一组模块;以及
-处理器,处理器执行用于从一个或多个角度用目标3D对象增强监视空间的录像片段以训练AI模型的一组模块,模块包括:
-镜头采集模块,用于从在监视空间中的目标相机获取录像片段;
-地平面模块,用于:
-确定在录像片段中的地平面和地平面拐角的一个或多个屏幕坐标;以及
-通过从地平面计算单应矩阵并确定一个或多个对象中的每个对象在地平面中的相对位置来归一化一个或多个屏幕坐标;
-模型准备模块,用于准备用于训练AI模型的目标3D对象的模型;
-3D对象定位模块,用于迭代地为在地平面中的目标3D对象生成随机位置和随机旋转,以将目标3D对象定位在地平面中的一个或多个对象中的干扰对象的前面或后面;
-渲染模块,用于在地平面上渲染目标3D对象的模型,并将渲染的3D对象和地平面与获取的录像片段合成以生成合成数据,其中,当目标3D对象在地平面上的相对位置在干扰对象的相对位置后面时,干扰物对象的掩模用于遮挡目标3D对象;以及
-训练数据模块,用于计算边界框的坐标,边界框在合成图像中框定目标3D对象的相对位置,并将合成图像与边界框的坐标一起保存,以供随后用于训练AI模型。
本公开提供了一种用于从一个或多个角度用目标三维(3D)对象来增强监视空间的录像片段以训练人工智能(AI)模型的方法和系统。在各种实施例中,利用渲染的目标3D对象或从其生成的人工数据,监视视频或其他传感器镜头被增强并与之合并。在另一个实施例中,来自一个或多个角度的多个图像或数据组被组合并用于训练AI模型。
本公开的方法通过使用包括“干扰”对象和混合可能性的真实录像片段作为用于训练AI模型的3D对象的训练集,显着减少了训练时间并显着提高了训练质量。本发明的方法能够获取足够多的标记的训练图像来训练AI模型。此外,本公开的方法能够从一个或多个角度用目标三维(3D)对象来增强监视空间的录像片段以进行训练,而无需用于识别对象的任何人工干预,因此与涉及手动识别的其他公知技术相比,成本更低且速度更快。此外,本公开的方法创建具有真实世界的外观和感觉的训练图像,从而在用于训练时创建更强的训练集,与其他已知技术相比(使用实时游戏引擎创建的图像),导致更精确的目标检测。
该方法包括从监视空间中的目标相机获取录像片段。在整个本公开中,术语“录像片段”是指包括使用目标相机(例如,监视相机)记录的视觉分量的数字内容。可以从存储录像片段的数据库接收录像片段。
可选地,录像片段可以包括覆盖监视相机所看到的整个区域的360度录像片段,包括例如人走过走廊或廊桥的录像片段。目标相机可通信地耦接到服务器。
该方法包括确定录像片段中地平面和地平面的一个或多个拐角的一个或多个屏幕坐标。地平面可以通过使用本领域已知的一种或多种计算机视觉算法来生成。在确定地平面时,通过比较几个连续的视频帧并在没有移动对象的情况下从图像区域合成背景来生成干净的背景图像。在确定地平面之后,识别地平面的一个或多个边缘。此外,使用地平面的已知纵横比来确定地平面相对于已知相机位置和镜头特性的3D旋转、缩放和/或平移。在一个实施例中,当获取录像片段时,将已知图案(例如,大棋盘)放置在视频中的地平面上,以便确定地平面相对于已知相机位置的3D旋转、缩放和/或平移,而不在光学上找到地平面的一个或多个边缘。在另一实施例中,仅计算地平面的一个或多个边缘的纵横比并且随后将其用于合成。
可选地,地平面的一个或多个拐角可以由人工通过点击它们来手动标记。如果已经在图像中手动标记了地平面的角点,则根据标记确定屏幕坐标并用于后续步骤。
该方法包括通过从地平面计算单应矩阵并确定一个或多个对象中的每个对象在地平面中的相对位置来归一化一个或多个屏幕坐标。这里,术语“单应”是指将一个图像中的一个或多个点映射到另一图像中的对应点的变换(矩阵)。在计算机视觉领域,空间中同一平面的任何两个图像都通过单应性关联(假设针孔相机模型)。从估计的单应矩阵中提取相机旋转和平移后,此信息可以用于导航,或将3D对象模型插入图像或视频中,以便以正确的角度渲染它们并看起来像是一部分的原始场景。
可选地,该方法进一步包括:在确定每个对象在地平面中的相对位置之前,通过找到围绕一个或多个对象中的每个对象的边界框来掩模树立在地平面上的一个或多个对象。
在若干实施例中,将计算机视觉算法应用于录像片段以找到并掩模树立在地平面上的一个或多个对象。通过与干净的背景图像进行比较或通过运行计算机视觉算法以找到一个或多个对象并计算每个对象周围的边界框来掩模树立在地平面上的一个或多个对象。随后,通过将单应矩阵乘以与对象相关联的边界框的下边缘的中心位置来计算一个或多个对象中的每个对象在地平面上的相对位置。相对位置可以是二维(2D)坐标的形式,该坐标表示一个或多个对象在归一化地平面上的位置。在使用干净的背景时省略此步骤。
该方法包括准备用于训练AI模型的目标3D对象的模型。目标3D对象的模型包括3D模型,并包括要训练AI模型的正确着色器和表面属性。可选地,如果使用除视频以外的其他传感器,则3D模型的材料属性与实际表面材料的材料属性相匹配,例如金属的属性是毫米波(mmWave)雷达的强反射体。
该方法包括迭代地生成目标3D对象在地平面中的随机位置和随机旋转,以将目标3D对象定位在地平面中的一个或多个对象中的干扰对象的前面或后面。在实施例中,随机位置和随机旋转被迭代地生成,用于将目标3D对象定位在干扰对象前面或后面,而不与干扰对象的相对位置发生冲突。
如果目标3D对象与干扰对象的位置发生冲突或超出地平面(例如,床的一半伸入墙壁),则会生成新的随机位置/旋转,直到目标3D对象干净地放置在地平面上在任何干扰对象的前面或后面。如果目标3D对象在地平面上的相对位置在干扰对象之后,则使用干扰对象的掩模来遮挡目标3D对象。
可选地,在包含360度录像片段的录像片段上,在渲染目标3D对象的模型之前,通过以下方式基于全局照明来照亮目标3D对象:
-基于目标3D对象相对于地平面的随机位置,通过匹配目标3D对象的位置和录制录像片段的位置,从录像片段中确定要用作大球体上的纹理的随机图像;以及
-将录像片段中的随机图像放置在大球体上,为目标3D对象提供写实的照明。
可选地,可以从与目标对象的位置对应的位置获取来自360度录像片段的图像。在本实施例中,可以通过将360度相机以预定模式在监视区域内移动来获取录像片段,因此可以根据图像时间戳计算相机位置。
随机图像为反射提供环境映射。在一个实施例中,目标3D对象相对于地平面的随机位置可用于确定来自360度视频的图像以用作大球体上的纹理,从而近似和匹配目标3D对象的位置以及录制360度视频的位置。
该方法包括在地平面上渲染目标3D对象的模型并将渲染的目标3D对象和地平面与所获取的录像片段合成以生成合成图像。当目标3D对象在地平面上的相对位置位于干扰对象的相对位置后面时,使用干扰对象的掩模来遮挡目标3D对象。
树立在不可见地平面上的目标3D对象在3D渲染应用程序(例如308Max、Blender、Maya、Cinema40等)或实时“游戏引擎”(包括例如Unity30、Unreal等)中渲染。可选地,接触阴影被渲染到不可见地平面上。可选地,从环绕的360度球体中的光源投射的阴影也可以渲染到地平面上。
该方法包括-计算边界框的坐标,边界框在合成图像中框定目标3D对象的相对位置,并将合成图像与边界框的坐标一起保存,以供随后用于训练AI模型。
可选地,计算边界框的坐标包括将目标3D对象包围在不可见的3D长方体中并且计算在监视空间中面向不可见的3D长方体的角的一个或多个相机的坐标。
可选地,对于其他类型的传感器数据,例如毫米波雷达或光探测和测距(LIDAR),该方法包括合并以下各项中的至少一项:来自环境场景的多个静态反射或多个时序反射,一个或多个干扰对象具有由目标3D对象的模拟表面材料属性生成的多个模拟反射并生成用于训练AI模型的边界立方体(例如,在点云传感器的情况下)。
可选地,识别视频的给定帧中表示的至少一个音频产生对象包括:
-采用至少一种图像处理算法来识别在给定帧中表示的多个对象;以及
-采用至少一个神经网络从多个对象中识别至少一个音频产生对象。
本公开还涉及如上所述的系统。上面公开的各种实施例和变体加上适当的变更适用于该系统。
本公开的系统通过使用包括“干扰”对象和混合可能性的真实录像片段作为用于训练AI模型的3D对象的训练集,显着减少了训练时间并显着提高了训练质量。本公开的系统能够获取足够多的标记的训练图像来训练AI模型。此外,本公开的系统能够从一个或多个角度用目标三维(3D)对象来增强监视空间的录像片段以进行训练,而无需用于识别对象的任何人工干预,因此与涉及手动识别的其他公知技术相比,成本更低且速度更快。本公开的系统创建具有真实世界的外观和感觉的训练图像,从而在用于训练时创建更强的训练集,与其他已知技术相比(使用实时游戏引擎创建的图像),导致更精确的目标检测。
该系统包括服务器。这里,术语“服务器”指的是包括被配置为存储、处理和/或共享信息的可编程和/或非可编程组件的结构和/或模块。具体而言,服务器包括能够增强信息以执行各种计算任务的物理或虚拟计算实体的任何布置。此外,应当理解,服务器可以是单个硬件服务器和/或以并行或分布式架构操作的多个硬件服务器。在示例中,服务器可以包括诸如存储器、至少一个处理器、网络适配器等的组件,以存储、处理和/或与其他实体共享信息,例如广播网络或用于接收录像片段的数据库。
可选地,该系统进一步包括边缘确定模块,该边缘确定模块被配置为在对一个或多个屏幕坐标进行归一化之前,确定地平面的一个或多个边缘并使用地平面的纵横比计算相对于相机位置和镜头特性的3D旋转、缩放平移。
可选地,3D对象定位模块进一步被配置为在确定每个对象在地平面中的相对位置之前,通过找到在一个或多个对象中的每个对象周围的边界框来掩模树立在地平面上的一个或多个对象。
可选地,3D对象定位模块进一步被配置为将单应矩阵乘以一个或多个对象中的一个对象的边界框的下边缘的中心位置,生成表示对象在归一化地平面上的相对位置的二维(2D)坐标。
可选地,训练数据模块进一步被配置为将目标3D对象包围在不可见3D长方体中,并计算朝向不可见3D长方体的拐角的一个或多个相机在监视空间中的坐标。
附图的详细说明
参考图1至图9B,根据本公开的实施例,图1描绘了系统100的示意图,该系统100用于从一个或多个角度用目标三维(3D)对象增强监视空间的录像片段以训练人工智能(AI)模型。系统100包括目标相机102和例如通过通信网络(未示出)可通信地耦接到目标相机102的服务器104。目标相机102设置在监视空间中,并被配置为捕获监视空间的录像片段,并将捕获的录像片段传输至服务器104。服务器104包括存储一组模块的存储器106,和处理器108,该处理器108执行该一组模块,用于从一个或多个角度用目标3D对象来增强监视空间的录像片段,以训练AI模型。该一组模块包括镜头获取模块110、地平面模块112、模型准备模块114、3D对象定位模块116、渲染模块118和训练数据模块120。镜头获取模块110被配置为从监视空间中的目标相机获取录像片段。地平面模块112被配置为确定录像片段中的地平面和地平面角的一个或多个屏幕坐标,并通过从地平面计算单应矩阵并确定地平面中一个或多个对象中的每个对象的相对位置来归一化一个或多个屏幕坐标。
模型准备模块114被配置为准备目标3D对象的模型,以训练AI模型。3D对象定位模块116被配置为用于迭代地为在地平面中的目标3D对象生成随机位置和随机旋转,以将目标3D对象定位在地平面中的一个或多个对象中的干扰对象的前面或后面;渲染模块118被配置为用于在地平面上渲染目标3D对象的模型,并将渲染的3D对象和地平面与获取的录像片段合成以生成合成数据,其中,当目标3D对象在地平面上的相对位置在干扰对象的相对位置后面时,干扰对象的掩模用于遮挡目标3D对象;以及训练数据模块120被配置为用于计算边界框的坐标,边界框在合成图像中框定目标3D对象的相对位置,并将合成图像与边界框的坐标一起保存,以随后用于训练AI模型。
可选地,系统100还包括边缘确定模块122,该边缘确定模块122被配置为在对一个或多个屏幕坐标进行归一化之前,确定地平面的一个或多个边缘并使用地平面的纵横比计算相对于相机位置和镜头特性的3D旋转、缩放平移。
可选地,3D对象定位模块116进一步被配置为在确定每个对象在地平面中的相对位置之前,通过找到在一个或多个对象中的每个对象周围的边界框来掩模树立在地平面上的一个或多个对象。
可选地,3D对象定位模块116进一步被配置为将单应矩阵乘以一个或多个对象中的一个对象的边界框的下边缘的中心位置,生成表示对象在归一化地平面上的相对位置的二维(2D)坐标。
可选地,训练数据模块120进一步被配置为将目标3D对象包围在不可见3D长方体中,并计算朝向不可见3D长方体的拐角的一个或多个相机在监视空间中的坐标。
本领域技术人员可以理解,图1仅是为了清楚起见的示例,其不应过度限制本文权利要求的范围。本领域技术人员将认识到本公开的实施例的许多变化、替代和修改。
参考图2A到图8B,图2A示出了根据示例性场景的监视空间中的目标相机视图200。目标相机视图200描绘了树立地平面204上的对象202(例如,人)。图2B示出了图2A的地平面204标记为(灰色)的目标相机视图200。可以通过使用本领域已知的一种或多种计算机视觉算法来生成地平面204。
图3示出了根据示例性场景的使用单应矩阵从地平面204生成的归一化地平面302的屏幕坐标。通过从地平面204计算单应矩阵并确定地平面204中的一个或多个对象中的每个对象的相对位置,对地平面204的一个或多个坐标进行归一化以生成归一化地平面302。
图4示出了根据示例性场景的对象202在归一化地平面302上的相对位置404。通过将单应矩阵乘以与对象202相关联的边界框的下边缘的中心位置来计算对象202的相对位置404。相对位置404可以是表示对象202在归一化地平面302上的位置的2D坐标的形式。
图5A示出了根据示例性场景的具有被掩模的潜在遮挡对象202的监视空间的目标相机视图502。
图5B示出了根据示例性场景的目标相机视图502中单独呈现的目标3D对象(例如,折叠床(cot))504。
图6A示出了根据示例性场景的目标3D对象504,该目标3D对象504用灰色背景上的阴影渲染以便更容易合成。目标3D对象504可以被渲染在地平面204上并且渲染的目标3D对象504和地平面204与录像片段合成以生成合成图像。如图6B所示,当目标3D对象504在地平面204上的相对位置位于干扰对象的相对位置后面时,使用干扰对象的掩模来遮挡目标3D对象。
图6B示出了根据示例性场景的放置在掩模目标3D对象504后面的干扰对象602。干扰对象602的掩模用于遮挡目标3D对象504。
图7A示出了根据示例性场景的具有用于训练的具有边界框702的目标3D对象504。计算在合成图像中框定目标3D对象504的相对位置的边界框702的坐标,并且将合成图像与边界框702的坐标一起保存以随后用于训练AI模型。
图7B示出了根据示例性场景的放置在被掩模的干扰对象602后面的目标3D对象504,掩模用于遮挡目标3D对象504。如果目标3D对象504在地平面204上的相对位置404在干扰对象602的后面,则使用干扰对象602的掩模来遮挡目标3D对象504。
图8A示出了根据示例性场景的作为渲染对象202的结果而获得的对象202的毫米波(mmWave)传感器点反射802。
图8B示出了根据示例性场景的作为渲染目标3D对象504的结果而获得的目标3D对象504的毫米波(mmWave)传感器点反射804。
图9A至图9B示出了根据本公开的实施例的用于从一个或多个角度用目标三维(3D)对象增强监视空间的录像片段以训练人工智能(AI)模型的方法的步骤。在步骤902,接收视听内容,其中视听内容包括视频和音频。在步骤904,在录像片段中确定地平面和地平面的一个或多个拐角的一个或多个屏幕坐标。在步骤906,通过计算来自地平面的单应矩阵来归一化一个或多个屏幕坐标,并且确定地平面中的一个或多个对象中的每个对象的相对位置。在步骤908,准备目标3D对象的模型以用于训练AI模型。在步骤910,迭代地生成目标3D对象在地平面中的随机位置和随机旋转,以将目标3D对象定位在地平面中的一个或多个对象中的干扰对象的前面或后面。在步骤912,目标3D对象的模型被渲染在地平面上,并且渲染的3D对象和地平面与获取的录像片段合成以生成合成图像,其中,当目标3D对象在地平面上的相对位置在干扰对象的相对位置后面时,干扰对象的掩模用于遮挡目标3D对象。在步骤914,在合成图像中计算框定目标3D对象的相对位置的边界框的坐标,并将合成图像与边界框的坐标一起保存,以供随后用于训练AI模型。
在不脱离如所附权利要求所限定的本公开的范围的情况下,对前述本公开的实施例的修改是可能的。用于描述和要求保护本公开的诸如“包括”、“包含”、“含有”、“具有”、“是”的表达意在以非排他的方式解释,即允许项目、组件或元件没有明确描述也存在。对单数的引用也应被解释为与复数有关。
Claims (14)
1.一种从一个或多个角度用目标三维(3D)对象增强监视空间的录像片段以训练人工智能(AI)模型的方法,所述方法包括:
-从所述监视空间中的目标相机获取所述录像片段;
-确定所述录像片段中的地平面和所述地平面的一个或多个拐角的一个或多个屏幕坐标;
-通过从所述地平面计算单应矩阵并确定一个或多个对象中的每个对象在所述地平面中的相对位置,来归一化所述一个或多个屏幕坐标;
-准备用于训练AI模型的目标3D对象的模型;
-迭代地为在所述地平面中的所述目标3D对象生成随机位置和随机旋转,以将所述目标3D对象定位在所述地平面中的所述一个或多个对象中的干扰对象的前面或后面;
-渲染所述地平面上的所述目标3D对象的模型,并将渲染的3D对象和所述地平面与获取的录像片段合成以生成合成图像,其中,当所述目标3D对象在所述地平面上的相对位置在所述干扰对象的相对位置后面时,所述干扰对象的掩模用于遮挡所述目标3D对象;以及
-计算边界框的坐标,所述边界框框定所述目标3D对象在所述合成图像中的相对位置,并将所述合成图像与所述边界框的所述坐标一起保存,以供随后用于训练所述AI模型。
2.根据权利要求1所述的方法,其中,还包括在对所述一个或多个屏幕坐标进行归一化之前,确定所述地平面的一个或多个边缘并使用所述地平面的纵横比计算相对于相机位置和镜头特性的3D旋转、缩放平移。
3.根据权利要求1或2所述的方法,还包括:在确定每个对象在所述地平面中的相对位置之前,通过找到围绕所述一个或多个对象中的每个对象的所述边界框,来掩模树立在所述地平面上的所述一个或多个对象。
4.根据前述权利要求中任一项所述的方法,其中,所述一个或多个对象中的每个对象的相对位置通过以下方式确定:
-将所述单应矩阵与所述一个或多个对象中的一个对象的所述边界框的下边缘的中心位置相乘;以及
-生成表示所述对象在归一化地平面上的相对位置的二维(2D)坐标。
5.根据前述权利要求中任一项所述的方法,其中,在所述录像片段包括360度录像片段时,在渲染所述目标3D对象的模型之前,通过以下方式基于全局照明来照亮所述目标3D对象:
-基于所述目标3D对象相对于所述地平面的所述随机位置,通过匹配所述目标3D对象的位置和录制所述录像片段的位置,从所述录像片段中确定要用作大球体上的纹理的随机图像;以及
-将所述录像片段中的所述随机图像放置在所述大球体上,为所述目标3D对象提供写实的照明。
6.根据前述权利要求中任一项所述的方法,其中,所述地平面是通过应用以下至少一项来确定的:计算机视觉算法或由人手动标记。
7.根据前述权利要求中任一项所述的方法,还包括合并以下中的至少一个:来自环境场景的多个静态反射或多个时序反射,以及具有由所述目标3D对象的模拟表面材料属性生成的多个模拟反射的一个或多个干扰对象,以及生成用于训练所述AI模型的边界立方体。
8.根据前述权利要求中任一项所述的方法,其中,所述录像片段包括360度录像片段。
9.根据前述权利要求中任一项所述的方法,其中,计算所述边界框的坐标包括:
-将所述目标3D对象封闭在不可见3D长方体中;以及
-计算在所述监视空间中朝向所述不可见3D长方体的拐角的一个或多个相机的坐标。
10.一种用于从一个或多个角度用目标三维(3D)对象增强监视空间的录像片段以训练人工智能(AI)模型的系统(100),所述系统包括:
-目标相机(102),设置在所述监视空间中并通信地耦接到服务器(104),其中,所述目标相机被配置为捕获所述监视空间的所述录像片段并将捕获的录像片段传输到所述服务器;以及
-所述服务器(104)通信地耦接到所述目标相机并且包括:
-存储器(106),所述存储器存储一组模块;以及
-处理器(108),所述处理器执行用于从所述一个或多个角度用目标3D对象增强所述监视空间的所述录像片段以训练AI模型的所述一组模块,所述模块包括:
-镜头获取模块(110),用于从在所述监视空间中的所述目标相机获取所述录像片段;
-地平面模块(112),用于:
-确定在所述录像片段中的地平面和所述地平面的拐角的一个或多个屏幕坐标;以及
-通过从所述地平面计算单应矩阵并确定一个或多个对象中的每个对象在所述地平面中的相对位置,来归一化所述一个或多个屏幕坐标;
-模型准备模块(114),用于准备用于训练所述AI模型的所述目标3D对象的模型;
-3D对象定位模块(116),用于迭代地为在所述地平面中的所述目标3D对象生成随机位置和随机旋转,以将所述目标3D对象定位在所述地平面中的所述一个或多个对象中的干扰对象的前面或后面;
-渲染模块(118),用于渲染在所述地平面上的所述目标3D对象的模型,并将渲染的3D对象和所述地平面与获取的录像片段合成以生成合成数据,其中,当所述目标3D对象在所述地平面上的相对位置位于所述干扰对象的相对位置的后面时,使用所述干扰对象的掩模遮挡所述目标3D对象;以及
-训练数据模块(120),用于计算边界框的坐标,所述边界框框定所述目标3D对象在合成图像中的相对位置,并将所述合成图像与所述边界框的坐标一起保存,以随后用于训练所述AI模型。
11.根据权利要求10所述的系统,还包括边缘确定模块(122),所述边缘确定模块被配置为在对所述一个或多个屏幕坐标进行归一化之前,确定所述地平面的一个或多个边缘并使用所述地平面的纵横比计算相对于相机位置和镜头特性的3D旋转、缩放平移。
12.根据权利要求10或11所述的系统,其中,所述3D对象定位模块(116)还被配置为在确定每个对象在所述地平面中的所述相对位置之前,通过找到围绕所述一个或多个对象中的每个对象的所述边界框,来掩模树立在所述地平面上的所述一个或多个对象。
13.根据权利要求10至12中任一项所述的系统,其中,所述3D对象定位模块(116)还被配置为:
-将所述单应矩阵与所述一个或多个对象中的一个对象的所述边界框的下边缘的中心位置相乘;以及
-生成表示所述对象在归一化地平面上的相对位置的二维(2D)坐标。
14.根据权利要求10至13中任一项所述的系统,其中,所述训练数据模块(120)还被配置为:
-将所述目标3D对象封闭在不可见3D长方体中;以及
-计算在所述监视空间中朝向所述不可见3D长方体的拐角的一个或多个相机的坐标。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202062993129P | 2020-03-23 | 2020-03-23 | |
US62/993,129 | 2020-03-23 | ||
PCT/IB2021/052393 WO2021191789A1 (en) | 2020-03-23 | 2021-03-23 | Method and system of augmenting a video footage of a surveillance space with a target three-dimensional (3d) object for training an artificial intelligence (ai) model |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115398483A true CN115398483A (zh) | 2022-11-25 |
Family
ID=75787142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180023301.4A Pending CN115398483A (zh) | 2020-03-23 | 2021-03-23 | 用目标三维(3d)对象增强监视空间的录像片段以训练人工智能(ai)模型的方法和系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230177811A1 (zh) |
EP (1) | EP4128029A1 (zh) |
CN (1) | CN115398483A (zh) |
WO (1) | WO2021191789A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114648715A (zh) * | 2021-11-03 | 2022-06-21 | 深圳友朋智能商业科技有限公司 | 多视角图像对比检测的订单生成方法及智能售货机 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019113510A1 (en) * | 2017-12-07 | 2019-06-13 | Bluhaptics, Inc. | Techniques for training machine learning |
US10867214B2 (en) * | 2018-02-14 | 2020-12-15 | Nvidia Corporation | Generation of synthetic images for training a neural network model |
-
2021
- 2021-03-23 US US17/906,813 patent/US20230177811A1/en active Pending
- 2021-03-23 WO PCT/IB2021/052393 patent/WO2021191789A1/en unknown
- 2021-03-23 EP EP21723365.9A patent/EP4128029A1/en active Pending
- 2021-03-23 CN CN202180023301.4A patent/CN115398483A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2021191789A1 (en) | 2021-09-30 |
EP4128029A1 (en) | 2023-02-08 |
US20230177811A1 (en) | 2023-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mori et al. | A survey of diminished reality: Techniques for visually concealing, eliminating, and seeing through real objects | |
Koyama et al. | Live mixed-reality 3d video in soccer stadium | |
Kim et al. | Keyframe-based modeling and tracking of multiple 3D objects | |
US20090122058A1 (en) | System and method for tracking three dimensional objects | |
CN112639846A (zh) | 一种训练深度学习模型的方法和装置 | |
GB2520338A (en) | Automatic scene parsing | |
JP2006053694A (ja) | 空間シミュレータ、空間シミュレート方法、空間シミュレートプログラム、記録媒体 | |
Frahm et al. | Markerless augmented reality with light source estimation for direct illumination | |
CN111199573B (zh) | 一种基于增强现实的虚实互反射方法、装置、介质及设备 | |
Böhm | Multi-image fusion for occlusion-free façade texturing | |
Pan et al. | Virtual-real fusion with dynamic scene from videos | |
Li et al. | Outdoor augmented reality tracking using 3D city models and game engine | |
CN115398483A (zh) | 用目标三维(3d)对象增强监视空间的录像片段以训练人工智能(ai)模型的方法和系统 | |
EP3007136B1 (en) | Apparatus and method for generating an augmented reality representation of an acquired image | |
Lee et al. | Estimation of illuminants for plausible lighting in augmented reality | |
EP4224429B1 (en) | Systems and methods for visually indicating stale content in environment model | |
Oishi et al. | An instant see-through vision system using a wide field-of-view camera and a 3d-lidar | |
Li et al. | Research on MR virtual scene location method based on image recognition | |
Bastos et al. | Fully automated texture tracking based on natural features extraction and template matching | |
CN118365807B (zh) | 一种合成数据生成方法、装置、介质及设备 | |
US11315334B1 (en) | Display apparatuses and methods incorporating image masking | |
Malek et al. | Tracking chessboard corners using projective transformation for augmented reality | |
Pramod et al. | Techniques in Virtual Reality | |
Yao et al. | A new environment mapping method using equirectangular panorama from unordered images | |
EP4099270A1 (en) | Depth segmentation in multi-view videos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20221125 |