CN110399770A

CN110399770A - 基于利用物理特性增强对象生成针对对象的机器学习模型

Info

Publication number: CN110399770A
Application number: CN201910293151.3A
Authority: CN
Inventors: F·勒奎; V·奥利维拉安托尼诺; S·哈米蒂; G·凯拉
Original assignee: Accenture Global Solutions Ltd
Current assignee: Accenture Global Solutions Ltd
Priority date: 2018-04-24
Filing date: 2019-04-12
Publication date: 2019-11-01
Anticipated expiration: 2039-04-12
Also published as: US20190325265A1; EP3561734B1; CN110399770B; EP3561734A1; US10565475B2

Abstract

本公开的实施例涉及基于利用物理特性增强对象生成针对对象的机器学习模型。本公开涉及一种设备，设备接收视频流的图像、针对图像中的对象的模型和针对对象的物理特性数据，并且将模型和物理特性数据映射到图像中的对象以生成增强数据序列。设备将不同的物理特性应用于增强数据序列中的对象以生成具有不同的被应用的物理特性的增强数据序列，并且基于图像训练机器学习(ML)模型以生成第一经训练的ML模型。设备基于具有不同的被应用的物理特性的增强数据序列训练ML模型以生成第二经训练的ML模型，并且将第一经训练的ML模型与第二经训练的ML模型相比较。设备基于该比较确定第二经训练的ML模型是否被优化，并且在其被优化时提供第二经训练的ML模型。

Description

基于利用物理特性增强对象生成针对对象的机器学习模型

技术领域

本公开的实施例涉及机器学习领域，并且更具体地涉及基于利用物理特性增强对象生成针对对象的机器学习模型。

背景技术

人工智能描述了机器与其周围的世界交互的不同方式。通过先进的、似人类的智能(例如，由软件和硬件提供)，人工智能模型可以模拟人类行为或者执行任务，就好像人工智能模型是人类一样。机器学习是人工智能的方法或者子集，其重点在于学习，而不仅仅是计算机编程。在机器学习中，设备利用复杂的模型来分析大量数据，识别数据当中的模式并且在不需要人编写特定指令的情况下进行预测。机器学习技术需要大量数据来计算稳健且可扩展的模型(例如，用于分类、回归分析、相关的预测任务等的模型)。

发明内容

根据一些实施方式，设备可以包括一个或者多个存储器和一个或者多个处理器，该一个或者多个处理器被通信地耦合至一个或者多个存储器，以接收视频流的图像、图像中的针对对象的三维模型和针对对象的物理特性数据，并且将三维模型和物理特性数据映射到图像中的对象以生成具有对象的增强数据序列。一个或者多个处理器可以基于增强策略将物理特性数据的不同的物理特性应用于增强数据序列中的对象，以生成具有不同的被应用的物理特性的增强数据序列，并且可以基于视频流的图像训练机器学习模型以生成第一经训练的机器学习模型。一个或者多个处理器可以基于具有不同的被应用的物理特性的增强数据序列训练机器学习模型以生成第二经训练的机器学习模型，并且可以将第一经训练的机器学习模型与第二经训练的机器学习模型相比较。一个或者多个处理器可以基于第一经训练的机器学习模型与第二经训练的机器学习模型的比较结果确定第二经训练的机器学习模型是否被优化，并且在第二经训练的机器学习模型被优化时可以提供第二经训练的机器学习模型和不同的被应用的物理特性。

根据一些实施方式，非瞬态计算机可读介质可以存储指令，该指令包括一个或者多个指令，该一个或者多个指令在由一个或者多个处理器执行时使一个或者多个处理器接收视频流的图像、针对图像中的对象的三维模型和针对对象的物理特性数据。视频流的图像可以包括元数据，该元数据标识视频流的图像、图像中的对象、与对象相关联的类、针对图像的边界框、与图像中的对象相关联的坐标和/或对象的名称。三维模型可以包括对象的三维表示、与对象相关联的三维坐标、与对象相关联的法向量和/或对象的名称。物理特性数据可以包括对象的名称、与对象的变形相关联的信息、与针对对象的重力相关联的信息、与对象的旋转相关联的信息、与对象的绘制相关联的信息和/或与对象的碰撞相关联的信息。一个或者多个指令可以使一个或者多个处理器将三维模型和物理特性数据映射到图像中的对象以生成具有对象的增强数据序列，并且将物理特性数据的不同的物理特性应用于增强数据序列中的对象以生成具有不同的被应用的物理特性的增强数据序列。一个或者多个指令可以使一个或者多个处理器基于视频流的图像训练机器学习模型以生成第一机器学习模型，并且基于具有不同的被应用的物理特性的增强数据序列训练机器学习模型以生成第二机器学习模型。一个或者多个指令可以使一个或者多个处理器测试第一机器学习模型和第二机器学习模型，以分别生成第一测试结果和第二测试结果，并且基于将第一测试结果与第二测试结果相比较来确定第二机器学习模型是否被优化。一个或者多个指令可以使一个或者多个处理器在第二机器学习模型被优化时利用第二机器学习模型和不同的被应用的物理特性来进行预测。

根据一些实施方式，方法可以包括：由设备接收视频流的图像、针对图像中的对象的三维模型和针对对象的物理特性数据，以及由设备将三维模型和物理特性数据与图像中的对象相关联以生成具有对象的增强数据序列。方法可以包括：由设备接收增强策略，以及由设备并且基于增强策略将物理特性数据的不同的物理特性应用于增强数据序列中的对象，以便生成具有不同的被应用的物理特性的增强数据序列。方法可以包括：由设备基于视频流的图像训练机器学习模型以生成第一经训练的机器学习模型，并且由设备基于具有不同的被应用的物理特性的增强数据序列训练机器学习模型以生成第二经训练的机器学习模型。方法可以包括：由设备测试第一经训练的机器学习模型和第二经训练的机器学习模型，以分别生成第一测试结果和第二测试结果，并且由设备基于第二测试结果是否在第一测试结果的预定阈值内来确定第二经训练的机器学习模型是否被优化。方法可以包括：当第二经训练的机器学习模型被优化时，由设备提供第二经训练的机器学习模型和不同的被应用的物理特性。

附图说明

图1A至图1G是本文所描述的示例实施方式的概述的示意图；

图2是可以实施本文所描述的系统和/或方法的示例环境的示意图；

图3是图2的一个或者多个设备的示例组件的示意图；以及

图4是用于基于使具有物理特性的对象增强来生成针对对象的机器学习模型的示例过程的流程图。

具体实施方式

下面对示例实施方式的详细描述引用附图。相同的附图标记在不同的附图中可以标识相同的或者相似的元素。

现有机器学习技术通过从初始训练数据集(例如，作为输入被提供)生成和/或引导附加数据来处理有限的训练数据情况。然而，附加数据将噪声添加至有限的训练数据。例如，对于包括视频、视频帧和/或图像的训练数据，附加数据可以包括将修改技术(例如，旋转技术、滑动技术等)应用于视频的对象、视频帧和/或图像。不幸的是，这种修改技术通过人为地和不切实际地修改对象将噪声添加至训练数据。

本文所描述的一些实施方式提供嵌入平台，该嵌入平台基于增强具有物理特性的对象生成针对对象的机器学习模型。例如，嵌入平台可以接收视频流的图像、针对图像中的对象的三维(3D)模型和针对对象的物理特性数据，并且将3D模型和物理特性数据映射到对象以生成增强数据序列。嵌入平台可以基于增强策略将特性数据的不同的物理特性应用于增强数据序列中的对象，以生成具有不同的被应用的物理特性的增强数据序列。嵌入平台可以基于视频流的图像训练机器学习模型以生成第一机器学习模型，并且可以基于具有不同的被应用的物理特性的增强数据序列训练机器学习模型以生成第二机器学习模型。嵌入平台可以测试第一机器学习模型以生成第一机器学习模型测试结果，并且可以测试第二机器学习模型以生成第二机器学习模型测试结果。嵌入平台可以基于比较第一机器学习模型测试结果和第二机器学习模型测试结果，确定第二机器学习模型是否被优化。嵌入平台可以在第二机器学习模型被优化时利用第二机器学习模型和不同的被应用的物理特性。

图1A至图1G是本文所描述的示例实施方式100的概述的示意图。如图1A所示，用户设备可以与嵌入平台相关联。如图1A所示，并且通过附图标记105，用户设备的用户(例如，经由被提供给用户的用户界面)可以使用户设备向嵌入平台提供针对机器学习模型的训练数据(例如，来自视频流的图像、描述图像的元数据等)。在一些实施方式中，图像可以包括对象，诸如，如图1所示，热气球、弹跳球等。如图1A中进一步所示的，并且通过附图标记110，用户可以使用户设备向嵌入平台提供训练数据(例如，对象的名称、针对对象的坐标、针对对象的法向量等)的图像中的针对对象的3D模型。如图1A中进一步所示的，并且通过附图标记115，用户可以使用户设备向嵌入平台提供训练数据(例如，对象的名称、针对对象的变形数据、针对对象的重力数据、针对对象的旋转数据、针对对象的绘制数据等)的图像中的针对对象的物理特性数据。

在一些实施方式中，训练数据、3D模型和/或物理特性数据可能未被存储在用户设备中，但是用户设备可以使训练数据、3D模型和/或物理特性数据从存储有训练数据、3D模型和/或物理特性数据的一个或者多个资源被提供给嵌入平台。在一些实施方式中，嵌入平台可以接收训练数据、3D模型和/或物理特性数据，并且可以将训练数据、3D模型和/或物理特性数据存储在与嵌入平台相关联的存储器中。

如图1B所示，并且通过附图标记105、110和120，嵌入平台可以将3D模型当中的一个3D模型映射到训练数据的图像中的每个对应对象。例如，如果训练数据包括弹跳球作为对象，则嵌入平台可以将针对弹跳球的3D模型映射到弹跳球的对象。在一些实施方式中，嵌入平台可以利用数据映射技术将3D模型中的一个3D模型映射到训练数据的图像中的对象，如本文其它部分所描述的。在一些实施方式中，嵌入平台可以利用非线性数据映射技术将3D模型中的一个3D模型映射到训练数据的图像中的对象，该非线性数据映射技术利用神经网络，如本文其它部分所描述的。

如图1B中进一步所示的，并且通过附图标记115和125，嵌入平台可以将物理特性数据映射到训练数据的图像中的每个对应对象。在一些实施方式中，嵌入平台可以利用数据映射技术将物理特性数据映射到训练数据的图像中的每个对象，如本文其它部分所描述的。在一些实施方式中，嵌入平台可以利用非线性数据映射技术将物理特性数据映射到训练数据的图像中的每个对象，该非线性数据映射技术利用神经网络，如本文其它部分所描述的。如图1B中进一步所示的，并且通过附图标记130，每个映射对象、3D模型和物理特性数据都可以生成本文中涉及的增强数据序列(例如，由对应的3D模型和对应的物理特性数据增强的对象)。

如图1C所示，并且通过附图标记130、135和140，嵌入平台可以基于与增强策略相关联的增强策略数据，将物理特性数据的不同的物理特性应用于增强数据序列中的对象。在一些实施方式中，增强策略数据可以包括策略驱动物理特性，该策略驱动物理特性被应用于增强数据序列中的对象。如图1C中进一步所示的，并且通过附图标记145，将不同的物理特性应用于增强数据序列中的对象可以生成具有被应用于对象的不同的物理特性的增强数据序列。

如图1D所示，并且通过附图标记105和150，嵌入平台可以基于训练数据训练机器学习模型以生成第一机器学习模型(例如，第一经训练的机器学习模型)。在一些实施方式中，第一机器学习模型可以包括对象检测深度学习模型，诸如，单发多框检测器(SSD)模型、基于区域的全卷积网络(R-FCN)模型、基于区域的卷积网络(R-CNN)模型、快速R-CNN模型、加速R-CNN模型等，如本文其它部分所描述的。

如图1D中进一步所示的，并且通过附图标记155，嵌入平台可以测试第一机器学习模型(例如，利用包括已知结果的测试数据)以生成第一机器学习模型测试结果。在一些实施方式中，嵌入平台可以通过基于将训练数据提供给机器学习模型接收预测(例如，指示被提供在训练数据中的对象)并且将预测与训练数据中的已知对象相比较，来测试第一机器学习模型。在一些实施方式中，第一机器学习模型测试结果可以提供预测是否正确的指示。

如图1E所示，并且通过附图标记145和160，嵌入平台可以基于被应用于对象的具有不同的物理特性的增强数据序列训练机器学习模型，以生成第二机器学习模型(例如，第二经训练的机器学习模型)。在一些实施方式中，第二机器学习模型可以包括对象检测深度学习模型，诸如，SSD模型、R-FCN模型、R-CNN模型、快速R-CNN模型、加速R-CNN模型等，如本文的其它部分所描述的。

如图1E中进一步所示的，并且通过附图标记165，嵌入平台可以测试第二机器学习模型(例如，利用包括已知结果的测试数据)以生成第二机器学习模型测试结果。在一些实施方式中，嵌入平台可以通过基于提供具有被应用于对象的不同的物理特性的增强数据序列接收预测(例如，指示被提供在具有被应用于对象的不同的物理特性的增强数据序列中的对象)，并且将预测与具有被应用于对象的不同的物理特性的增强数据序列中的已知对象相比较，来测试第二机器学习模型。在一些实施方式中，第二机器学习模型测试结果可以提供预测是否正确的指示。

如图1F所示，并且通过附图标记170，嵌入平台可以将第一机器学习模型测试结果与第二机器学习模型测试结果相比较，并且可以基于第一机器学习模型测试结果与第二机器学习模型测试结果的比较确定第二机器学习模型是否被优化。在一些实施方式中，当第二机器学习模型测试结果在第一机器学习模型测试结果的预定阈值内时，嵌入平台可以确定第二机器学习模型被优化。

如图1F中进一步所示的，并且通过附图标记175，如果嵌入平台确定第二机器学习模型被优化，则嵌入平台可以输出第二机器学习模型和被应用于对象的不同的物理特性。

如图1F中进一步所示的，并且通过附图标记180，如果嵌入平台确定第二机器学习模型未被优化，则嵌入平台可以修改被应用于对象的不同的物理特性，并且可以基于被应用于对象的经修改的不同的物理特性重新训练和重新测试第二机器学习模型。

如图1G所示的，并且通过附图标记185，用户设备的用户可以使用户设备向嵌入平台提供来自视频流的图像中的未知对象。在一些实施方式中，嵌入平台可以接收未知对象，并且可以利用第二机器学习模型和被应用于对象的不同的物理特性来预测未知对象。例如，嵌入平台可以预测未知对象是在空中飞行的棒球。如图1G中进一步所示的，并且通过附图标记190，嵌入平台可以向用户设备提供信息，该信息指示未知对象是在空中飞行的棒球，并且用户设备可以将指示未知对象是在空中飞行的棒球的信息显示给用户设备的用户(例如，经由用户界面)。

以这种方式，用于基于增强具有物理特性的对象生成针对对象的机器学习模型的过程的几个不同的阶段是自动化的，这可以消除人的主观性和过程中产生的废物，并且这可以提高过程的速度和效率并且节省计算资源(例如，处理器资源、存储器资源等)。此外，本文所描述的实施方式使用严谨的计算机化过程来执行之前未被执行或者之前使用主观的人类直觉或者输入而被执行的任务或者作用。这些作用可以包括：从初始训练数据集生成附加数据、从初始训练数据集引导附加数据等。最后，使用于基于增强具有物理特性的对象来生成针对对象的机器学习模型的过程自动化节省了计算资源(例如，处理器资源、存储器资源等)，这些计算资源(例如，处理器资源、存储器资源等)将会在尝试生成机器学习模型时以其他方式被浪费。

此外，以这种方式，本文所描述的实施方式解决了通过使用视频中的对象、视频帧和/或图像的现实的物理特性来增强视频、视频帧和/或图像的问题。本文所描述的实施方式利用针对机器学习模型的现实的输入来增强初始训练数据集，产生更多跨不同的域的可扩展的且适用的机器学习模型。最后，本文所描述的实施方式计算将被应用于视频、视频帧和/或图像中的任何对象的最合适的和最优的物理特性，并且在准确率、精确率和召回率方面胜过用于处理有限的训练数据情况的现有机器学习技术。

如上所述，仅仅提供图1A至图1G作为示例。其它示例是可能的并且可以与关于图1A至图1G所描述的示例不同。例如，虽然图1A至图1B描述了嵌入平台与图像相关信息一起被使用，但是在一些实施方式中，嵌入平台可以与其它类型的信息一起被利用，该其它类型的信息可以受益于使用于基于增强具有物理特性的对象来生成机器学习模型的过程自动化。

图2是可以实施本文所描述的系统和/或方法的示例环境200的示意图。如图2所示，环境200可以包括用户设备210、嵌入平台220和网络230。环境200的设备可以经由有线连接、无线连接或者有线连接和无线连接的组合相互连接。

用户设备210包括一个或者多个设备，该一个或者多个设备能够接收、生成、存储、处理和/或提供信息，诸如，本文所描述的信息。例如，用户设备210可以包括移动电话(例如，智能电话、无线电话等)、膝上型计算机、平板计算机、台式计算机、手持式计算机、游戏设备、可穿戴通信设备(例如，智能手表、一副智能眼镜等)或者相似类型的设备。在一些实施方式中，用户设备210可以接收来自嵌入平台220的信息和/或将信息发送至嵌入平台220。

嵌入平台220包括一个或者多个设备，该一个或者多个设备基于增强具有物理特性的对象生成针对对象的机器学习模型。在一些实施方式中，嵌入平台220可以被设计成模块化的，使得某些软件组件可以按照特定需要被换入或者换出。这样，嵌入平台220可以被容易地和/或快速地重新配置用于不同的用途。在一些实施方式中，嵌入平台220可以接收来自一个或者多个用户设备210的信息和/或将信息发送至一个或者多个用户设备220。

在一些实施方式中，如图所示，嵌入平台220可以被托管在云计算环境222中。值得注意的是，虽然本文所描述的实施方式描述嵌入平台220被托管在云计算环境222中，但是在一些实施方式中，嵌入平台220可以不是基于云的(即，可以被实施在云计算环境外部)或者可以是部分基于云的。

云计算环境222包括托管嵌入平台220的环境。云计算环境222可以提供计算、软件、数据存取等服务，这些服务不需要托管嵌入平台220的(多个)系统和/或(多个)设备的物理位置和配置的终端用户知识。如图所示，云计算环境222可以包括一组计算资源224(统称为“计算资源224”和单独称为“计算资源224”)。

计算资源224包括一个或者多个个人计算机、工作站计算机、服务器设备或者其它类型的计算和/或通信设备。在一些实施方式中，计算资源224可以托管嵌入平台220。云资源可以包括在计算资源224中执行的计算实例、设置在计算资源224中的存储设备、由计算资源224提供的数据传输设备等。在一些实施方式中，计算资源224可以经由有线连接、无线连接或者有线连接和无线连接的组合与其它计算资源224进行通信。

如图2中进一步所示的，计算资源224包括一组云资源，诸如，一个或者多个应用(“APP”)224-1、一个或者多个虚拟机(“VM”)224-2、虚拟化存储(“VS”)224-3、一个或者多个管理程序(“HYP”)224-4等。

应用224-1包括一个或者多个软件应用，该一个或者多个软件应用可以被提供给用户设备210或者由用户设备210访问。应用224-1可以消除将软件应用安装在用户设备210上或者执行用户设备210上的软件应用的需要。例如，应用224-1可以包括与嵌入平台220相关联的软件和/或能够经由云计算环境222被提供的任何其它软件。在一些实施方式中，一个应用224-1可以经由虚拟机224-2将信息发送至一个或者多个其它应用224-1/接收来自一个或者多个其它应用224-1/的信息。

虚拟机224-2包括执行程序的机器(例如，计算机)的软件实施方式，如物理机。根据虚拟机224-2的用途和虚拟机224-2与任何实体机的对应关系，虚拟机224-2可以是系统虚拟机或者过程虚拟机。系统虚拟机可以提供完整的系统平台，该完整的系统平台支持完整的操作系统(“OS”)的执行。过程虚拟机可以执行单个程序，并且可以支持单个过程。在一些实施方式中，虚拟机224-2可以代表用户(例如，设备210的用户或者嵌入平台220的操作者)执行，并且可以管理云计算环境222的基础设施，诸如，数据管理、同步或者长时间的数据传输。

虚拟化存储224-3包括一个或者多个存储系统和/或一个或者多个设备，其在计算资源224的存储系统或者设备内使用虚拟化技术。在一些实施方式中，在存储系统的背景下，虚拟化的类型可以包括块虚拟化和文件虚拟化。块虚拟化可以指逻辑存储与物理存储的抽象(或者分离)，使得存储系统可以在不考虑物理存储或者异质结构的情况下被访问。分离可以允许存储系统的管理员在其如何管理针对终端用户的存储方面的灵活性。文件虚拟化可以消除在文件级被访问的数据与物理存储有文件的位置之间的依赖关系。这可以实现存储使用、服务器整合和/或无干扰文件迁移的执行的优化。

管理程序224-4可以提供硬件虚拟化技术，该硬件虚拟化技术允许多个操作系统(例如，“客户操作系统”)在诸如计算资源224等主机计算机上同时执行。管理程序224-4可以将虚拟操作平台呈现给客户操作系统，并且可以管理客户操作系统的执行。各种操作系统的多个实例可以共享虚拟化硬件资源。

网络230包括一个或者多个有线和/或无线网络。例如，网络230可以包括蜂窝网络(例如，第五代(5G)网络、长期演进(LTE)网络、第三代(3G)网络、码分多址(CDDMA)网络等)、公用陆地移动网络(PLMN)、局域网(LAN)、广域网(WAN)、城域网(MAN)、电话网络(例如，公用交换电话网(PSTN))、私有网络、自组网络、内联网、互联网、基于光纤的网络等、和/或这些或者其它类型的网络的组合。

图2所示的设备和网络的数目和布置作为示例被提供。实际上，除了图2所示的那些之外，可能还会有附加的设备和/或网络、更少的设备和/或网络、不同的设备和/或网络、或者被不同布置的设备和/或网络。此外，图2所示的两个或者两个以上的设备可以被实施在单个设备内，或者图2所示的单个设备可以被实施为多个分布式设备。附加地或者备选地，环境200的设备集合(例如，一个或者多个设备)可以执行被描述为正由环境200的另一设备集合执行的一个或者多个功能。

图3是设备300的示例组件的示意图。设备300可以与用户设备210、嵌入平台220和/或计算资源224相对应。在一些实施方式中，用户设备210、嵌入平台220和/或计算资源224可以包括一个或者多个设备300和/或设备300的一个或者多个组件。如图3所示，设备300可以包括总线310、处理器320、存储器330、存储组件340、输入组件350、输出组件360和通信接口370。

总线310包括组件，该组件允许设备300的组件之间的通信。处理器320被实施在硬件、固件或者硬件和软件的组合中。处理器320是中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或者另一类型的处理组件。在一些实施方式中，处理器320包括一个或者多个处理器，该一个或者多个处理器能够被编程以执行功能。存储器330包括随机存取存储器(RAM)、只读存储器(ROM)和/或存储供处理器320使用的信息和/或指令的另一类型的动态或者静态存储设备(例如，闪速存储器、磁存储器和/或光学存储器)。

存储组件340存储与设备300的操作和使用相关的信息和/或软件。例如，存储组件340可以包括硬盘(例如，磁盘、光盘、磁光盘和/或固态盘)、压缩盘(CD)、数字多用盘(DVD)、软盘、磁盒、磁带和/或另一类型的非瞬态计算机可读介质连同对应的驱动器。

输入组件350包括组件，该组件允许设备300接收信息，诸如，经由用户输入(例如，触摸屏显示器、键盘、小键盘、鼠标、按钮、开关和/或麦克风)。附加地或者备选地，输入组件350可以包括用于感测信息的传感器(例如，全球定位系统(GPS)组件、加速计、陀螺仪和/或致动器)。输出组件360包括提供来自设备300的输出信息的组件(例如，显示器、扬声器和/或一个或者多个发光二极管(LED))。

通信接口370包括类似收发器的组件(例如，收发器和/或分离的接收器和发送器)，该类似收发器的组件使设备300能够与其它设备通信，诸如，经由有线连接、无线连接或者有线连接和无线连接的组合。通信接口370可以允许设备300接收来自另一设备的信息并且/或者将信息提供给另一设备。例如，通信接口370可以包括以太网接口、光学接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、无线局域网接口、蜂窝网络接口等。

设备300可以执行本文所描述的一个或者多个过程。设备300可以基于处理器320执行由诸如存储器330和/或存储组件340等非瞬态计算机可读介质存储的软件指令来执行这些过程。计算机可读介质在本文中被定义为非瞬态存储器设备。存储器设备包括在单个物理存储设备内的存储器空间或者跨多个物理存储设备散布的存储器空间。

软件指令可以经由通信接口370从另一计算机可读介质或者从另一设备被读入存储器330和/或存储组件340中。当被执行时，被存储在存储器330和/或存储组件340中的软件指令可以使处理器320执行本文所描述的一个或者多个过程。附加地或者备选地，硬连线电路装置可以代替软件指令或者与软件指令结合用以执行本文所描述的一个或者多个过程。因此，本文所描述的实施方式并不限于硬件电路装置和软件的任何特定组合。

图3所示的组件的数目和布置作为示例被提供。实际上，除了图3所示的那些组件之外，设备300还可以包括附加组件、更少的组件、不同的组件或者被不同布置的组件。附加地或者备选地，设备300的一组组件(例如，一个或者多个组件)可以执行被描述为由设备300的另一组件集合执行的一个或者多个功能。

图4是用于基于使具有物理特性的对象增强来生成针对对象的机器学习模型的示例过程400的流程图。在一些实施方式中，图4的一个或者多个过程框可以由嵌入平台220执行。在一些实施方式中，图4的一个或者多个过程框可以由另一设备或者与嵌入平台220分离或者包括嵌入平台220的一组设备，诸如，用户设备210执行。

如图4所示，过程400可以包括：接收视频流的图像、针对图像中的对象的3D模型和针对对象的物理特性数据(框410)。例如，嵌入平台220(例如，使用计算资源224、处理器320、通信接口370等)可以接收视频流的图像、针对图像中的对象的3D模型和针对对象的物理特性数据。在一些实施方式中，用户设备210的用户(例如，经由被提供给用户的用户界面)可以使用户设备210向嵌入平台220提供：针对机器学习模型的训练数据(例如，来自视频流的图像、描述图像的元数据等)、针对训练数据的图像中的对象的3D模型(例如，对象的名称、针对对象的坐标、针对对象的法向量等)和针对训练数据的图像中的对象的物理特性数据(例如，对象的名称、针对对象的变形数据、针对对象的重力数据、针对对象的旋转数据、针对对象的绘制数据等)。

在一些实施方式中，训练数据可以包括视频流、视频帧、视频流中的图像、图像中的对象、描述视频流、视频帧、视频流中的图像和/或图像中的对象的元数据等。在一些实施方式中，元数据可以包括标识视频流的图像、图像中的对象、与对象相关联的类、针对图像的边界框、与图像中的对象相关联的坐标、对象的名称等的数据。在一些实施方式中，元数据可以被提供在可扩展标记语言(XML)文件、数据文件、电子表格文件等中。

在一些实施方式中，3D模型可以包括与训练数据的图像中的对象相对应的对象的3D模型。在一些实施方式中，每个3D模型可以包括对象的3D表示、与对象相关联的3D坐标、与对象相关联的法向量、对象的名称等。在一些实施方式中，每个3D模型可以包括欧特克(Autodesk)(例如，fbx)格式、波前对象格式、立体光刻(例如，stl)格式等。在一些实施方式中，3D模型可以被提供在二进制文件、数据文件、非文本文件等中。

在一些实施方式中，物理特性数据可以包括与训练数据的图像中的对象相关联的物理特性数据。在一些实施方式中，物理特性数据可以被提供在模拟开放框架架构(SOFA)框架中，该SOFA框架为对象提供实时物理模拟。在一些实施方式中，物理特性数据可以包括数据，该数据指示对象的名称、与对象的变形相关联的数学运算、与针对对象的重力相关联的数学运算、与对象的旋转相关联的数学运算、与对象的绘制相关联的数学运算、与对象的碰撞相关联的数学运算等。

以这种方式，嵌入平台220可以接收视频流的图像、针对图像中的对象的3D模型和针对对象的物理特性数据。

如图4中进一步所示的，过程400可以包括：将3D模型和物理特性数据映射到图像中的对象以生成增强数据序列(框420)。例如，嵌入平台220(例如，使用计算资源224、处理器320等)可以将3D模型和物理特性数据映射到图像中的对象以生成增强数据序列。在一些实施方式中，嵌入平台220可以利用数据映射技术将3D模型中的一个3D模型映射到训练数据的图像中的每个对象。数据映射技术可以在两个不同的数据模型(例如，3D模型和对象)之间创建数据元素映射。在一些实施方式中，数据映射技术可以包括数据驱动的映射技术(例如，使用启发法和统计学同时评估两个数据源中的实际数据值，以自动发现两个数据集之间的复杂的映射)、语义映射技术(例如，语义映射技术利用元数据注册表来查找数据元素同义词)等。

在一些实施方式中，嵌入平台220可以利用非线性数据映射技术将3D模型中的一个3D模型映射到训练数据的图像中的每个对应对象，该非线性数据映射技术利用神经网络。通过神经网络进行的非线性数据映射可以包括通过基于无监督技术(例如，向量量化技术、子空间技术、概率密度函数等)、监督技术(例如，学习向量量化技术、子空间技术、概率密度函数等)等被训练的神经网络表示非线性映射。

在一些实施方式中，嵌入平台220可以将物理特性数据映射到训练数据的图像中的每个对象。在一些实施方式中，嵌入平台220可以利用数据映射技术将物理特性数据映射到训练数据的图像中的每个对象，如本文其它部分所描述的。在一些实施方式中，嵌入平台220可以利用非线性数据映射技术将物理特性数据映射到训练数据的图像中的每个对象，该非线性数据映射技术利用神经网络，如本文其它部分所描述的。

在一些实施方式中，每个映射对象、3D模型和物理特性数据都可以生成增强数据序列。在一些实施方式中，嵌入平台220可以生成针对训练数据的图像的增强数据序列。在一些实施方式中，每个增强数据序列都可以包括图像的用映射3D模型和映射物理特性数据增强的对象、与图像相关联的信息等。

以这种方式，嵌入平台220可以将3D模型和物理特性数据映射到图像中的对象以生成增强数据序列。

如图4中进一步所示的，过程400可以包括：基于增强策略将物理特性数据的不同的物理特性应用于增强数据序列中的对象，以生成具有不同的被应用的物理特性的增强数据序列(框430)。例如，嵌入平台220(例如，使用计算资源224、处理器320等)可以基于增强策略将物理特性数据的不同的物理特性应用于增强数据序列中的对象，以生成具有不同的被应用的物理特性的增强数据序列。在一些实施方式中，嵌入平台220可以基于与增强策略相关联的增强策略数据，将不同的物理特性应用于增强数据序列中的对象。

在一些实施方式中，增强策略数据可以包括策略驱动物理特性，该策略驱动物理特性被应用于增强数据序列中的对象。在一些实施方式中，增强策略可以包括指示物理特性将如何被应用于每个增强数据序列的信息。例如，如果增强数据序列中的对象是弹跳球，则增强策略可以指示针对弹跳球的变形的特定值(例如，60％、70％等)、针对与弹跳球相关联的重力的特定值(例如，零)、针对弹跳球的旋转的特定值(例如，10％、20％等)、与弹跳球的绘制相关联的信息(例如，纹理、照明、颜色等)、与弹跳球的碰撞相关联的信息(例如，爆炸、倒塌、回弹等)等。

在一些实施方式中，增强策略可以由嵌入平台220的操作者可配置。在一些实施方式中，增强策略可以使嵌入平台220将不同的物理特性与增强数据序列中的对象对齐。在一些实施方式中，增强策略可以将基于每个对象的物理特性应用于增强数据序列中的每个对象。例如，增强策略可以使嵌入平台220将第一物理特性应用于第一对象(例如，热气球)，并且将于第一物理特性不同的第二物理特性应用于第二对象(例如，弹跳球)。在一些实施方式中，将不同的物理特性应用于增强数据序列中的对象可以生成具有被应用于对象的不同的物理特性的增强数据序列。

以这种方式，嵌入平台220可以基于增强策略将物理特性数据的不同的物理特性应用于增强数据序列中的对象，以生成具有不同的被应用的物理特性的增强数据序列。

如图4中进一步所示的，过程400可以包括：基于视频流的图像训练机器学习模型以生成第一机器学习模型(框440)。例如，嵌入平台220(例如，使用计算资源224、处理器320等)可以基于视频流的图像训练机器学习模型，以生成第一机器学习模型。在一些实施方式中，嵌入平台220可以利用训练数据来训练机器学习模型以生成第一机器学习模型(例如，第一经训练的机器学习模型)。在一些实施方式中，第一机器学习模型可以包括对象检测深度学习模型，诸如，R-CNN模型、快速R-CNN模型、加速R-CNN模型、R-FCN模型、SSD模型等。

在一些实施方式中，R-CNN模型可以包括对象检测深度学习模型，该对象检测深度学习模型使用选择性搜索算法来扫描针对可能的对象的输入图像，以生成多个区域建议(例如，2000个区域建议)。R-CNN模型将卷积神经网络(CNN)应用于区域建议中的每个区域建议以产生针对每个CNN的输出，该每个CNN从每个图像区域提取特征，并且将每个CNN的输入提供给支持向量机(SVM)和线性回归量，以便基于提取的特征分类每个区域。

在一些实施方式中，快速R-CNN模型可以包括基于R-CNN模型的对象检测深度学习模型，该对象检测深度学习模型改进R-CNN模型的检测速度。R-CNN模型通过对建议区域之前的整个原始图像执行特征提取来改进检测速度，因此仅仅将一个CNN应用于整个图像，而不是在对应数目的重叠区域上的多个CNN。R-CNN模型将一个CNN的输出应用于输出类别概率的单个层，从而延伸神经网络以进行预测，而不是创建新的模型。

在一些实施方式中，加速R-CNN模型可以包括对象检测深度学习模型，该对象检测深度学习模型通过采用区域建议网络(RPN)而不是选择性搜索算法来改进快速R-CNN，以生成区域建议。在加速R-CNN模型中，在初始CNN的最后层处，滑动窗口移动跨越特征地图(map)并且映射到低维度。对于每个滑动窗口位置，RPN基于固定比率锚箱(例如，默认边界框)生成多个可能的区域。每个区域建议由针对区域的对象性分数(例如，表示区域包含对象的可能性)和表示区域的边界框的坐标组成。如果对象性分数满足阈值，则坐标作为区域建议被向前传递。

在一些实施方式中，R-FCN模型可以包括对象检测深度学习模型，该对象检测深度学习模型将位置敏感分数地图应用于全卷积网络。每个位置敏感分数地图都表示一个对象类的一个相对位置(例如，特定类型的对象的右上部分)。R-FCN模型将CNN应用于输入图像，添加全卷积层以生成位置敏感分数地图的分数库，并且应用RPN以生成感兴趣的区域。R-FCN模型然后将每个感兴趣的区域分成子区域并且应用分数库来确定子区域是否与对象的对应部分匹配，并且基于例如匹配是否满足阈值来分类感兴趣的区域。

在一些实施方式中，单发检测器(SSD)模型可以包括对象检测深度学习模型，该对象检测深度学习模型通过在其处理图像时同时预测边界框和类，以单发的方式执行区域建议和区域分类，与以分离的步骤执行区域建议和区域分类相反。考虑到输入图像和地面真值标签集合，SSD模型通过一系列卷积层传递图像，产生不同大小的多个特征地图集合。对于这些特征地图中的每个特征地图中的每个位置，SSD模型应用卷积滤波器来评估一小组默认边界框。对于每个框，SSD模型同时预测边界框偏移和类别概率。在训练期间，SSD模型基于联合交叉(IoU)评价度量将地面真值框与预测框匹配，并且将最佳预测框连同具有满足阈值的IoU的其它框标记为正数。

以这种方式，嵌入平台220可以基于视频流的图像训练机器学习模型，以生成第一机器学习模型。

如图4中进一步所示的，过程400可以包括：基于具有不同的应用特性的增强数据序列训练机器学习模型，以生成第二机器学习模型(框450)。例如，嵌入平台220(例如，使用计算资源224、处理器320等)可以基于具有不同的被应用的物理特性的增强数据序列训练机器学习模型，以生成第二机器学习模型。在一些实施方式中，嵌入平台220可以利用具有被应用于对象的不同的物理特性的增强数据序列来训练机器学习模型，以生成第二机器学习模型(例如，第二经训练的机器学习模型)。在一些实施方式中，第二机器学习模型可以包括对象检测深度学习模型，诸如，SSD模型、R-FCN模型、R-CNN模型、快速R-CNN模型、加速R-CNN模型等，如本文的其它部分所描述的。

以这种方式，嵌入平台220可以基于具有不同的应用特性的增强数据序列训练机器学习模型，以生成第二机器学习模型。

如图4中进一步所示的，过程400可以包括：测试第一机器学习模型以生成第一机器学习模型测试结果，并且测试第二机器学习模型以生成第二机器学习模型测试结果(框460)。例如，嵌入平台220(例如，使用计算资源224、处理器320等)可以测试第一机器学习模型以生成第一机器学习模型测试结果，并且可以测试第二机器学习模型以生成第二机器学习模型测试结果。在一些实施方式中，嵌入平台220可以通过基于将训练数据提供给机器学习模型接收预测(例如，指示被提供在训练数据中的对象)并且将预测与训练数据中的已知对象相比较，来测试第一机器学习模型。在一些实施方式中，第一机器学习模型测试结果可以提供预测是否正确的指示(例如，可以提供第一机器学习模型的准确率、精确率和/或召回率的指示)。例如，第一机器学习模型测试结果可以指示第一机器学习模型以第一特定量正确预测训练数据中的已知对象(例如，80％正确预测、90％正确预测等)。

在一些实施方式中，嵌入平台220可以通过基于向机器学习模型提供具有被应用于对象的不同的物理特性的增强数据序列接收预测(例如，指示被提供在具有被应用于对象的不同的物理特性的增强数据序列中的对象)，并且将预测与具有被应用于对象的不同的物理特性的增强数据序列中的已知对象相比较，来测试第二机器学习模型。在一些实施方式中，第二机器学习模型测试结果可以提供预测是否正确的指示(例如，可以提供第二机器学习模型的准确率、精确率和/或召回率的指示)。例如，第二机器学习模型测试结果可以指示第二机器学习模型以第二特定量正确预测具有被应用于对象的不同的物理特性的增强数据序列中的已知对象(例如，60％正确预测、70％正确预测等)。

以这种方式，嵌入平台220可以测试第一机器学习模型以生成第一机器学习模型测试结果，并且可以测试第二机器学习模型以生成第二机器学习模型测试结果。

如图4中进一步所示的，过程400可以包括：基于将第一机器学习模型测试结果与第二机器学习模型测试结果相比较来确定第二机器学习模型是否被优化(框470)。例如，嵌入平台220(例如，使用计算资源224、处理器320等)可以基于将第一机器学习模型测试结果与第二机器学习模型测试结果相比较来确定第二机器学习模型是否被优化。在一些实施方式中，嵌入平台220可以将第一机器学习模型测试结果与第二机器学习模型测试结果相比较，并且可以基于将第一机器学习模型测试结果与第二机器学习模型测试结果相比较来确定第二机器学习模型是否被优化。在一些实施方式中，当第二机器学习模型测试结果在第一机器学习模型测试结果的预定阈值内时，嵌入平台220可以确定第二机器学习模型被优化。

例如，假设第一机器学习模型测试结果指示第一机器学习模型95％的时间正确预测训练数据中的已知对象，并且第二机器学习模型测试结果指示第二机器学习模型75％的时间正确预测具有被应用于对象的不同的物理特性的增强数据序列中的已知对象。进一步假设，预定阈值是10％。在这种示例中，嵌入平台220可以确定第二机器学习模型未被优化，因为第二机器学习模型测试结果(例如，75％)未在第一机器学习模型测试结果(例如，95％)的预定阈值(例如，10％)内

在一些实施方式中，如果嵌入平台220确定第二机器学习模型被优化，则嵌入平台220可以输出第二机器学习模型和被应用于对象的不同的物理特性。在一些实施方式中，嵌入平台220可以将第二机器学习模型和被应用于对象的不同的物理特性存储在与嵌入平台220相关联的存储器中。在一些实施方式中，嵌入平台220可以将第二机器学习模型和被应用于对象的不同的物理特性提供给用户设备210或者另一设备。

在一些实施方式中，如果嵌入平台220确定第二机器学习模型未被优化，则嵌入平台220可以修改被应用于对象的不同的物理特性，并且可以基于被应用于对象的经修改的不同的物理特性重新训练和重新测试第二机器学习模型。在一些实施方式中，嵌入平台220可以迭代地修改被应用于对象的不同的物理特性，并且可以重新训练和重新测试第二机器学习模型，直到第二机器学习模型被优化为止。在这样的实施方式中，嵌入平台220可以进一步修改被应用于对象的不同的物理特性并且因此改进第二机器学习模型的性能。

在一些实施方式中，嵌入平台220可以修改增强策略，以便修改被应用于对象的不同的物理特性。在一些实施方式中，嵌入平台220可以利用超参数优化技术来修改增强策略，诸如，网格搜索技术、随机搜索技术、贝叶斯优化技术、基于梯度优化技术、进化优化技术等。

网格搜索技术可以包括超参数优化技术，该超参数优化技术通过学习算法的超参数空间的手动指定的子集执行穷举搜索。网格搜索技术通过一些性能度量被指导，通常通过对训练集合进行交叉验证或者对留存验证集合进行的评估而被测量。因为机器学习模型的参数空间可以包括针对某些参数的实值或者无界值空间，手动设置边界和离散化可以在应用网格搜索技术之前被应用。

随机搜索技术可以包括超参数优化技术，该超参数优化技术对参数设置进行采样固定次数，而不是执行穷举搜索，诸如，通过网格搜索技术被执行。与穷举搜索相比较，随机搜索技术已经被发现在高维度空间中更有效，因为一些超参数往往不会显著影响损耗。因此，拥有随机分散的数据比对不影响损耗的参数的穷举搜索提供更多的纹理化数据。

贝叶斯优化技术可以包括超参数优化技术，该超参数优化技术提供嘈杂的黑箱函数的全局优化。应用于超参数优化，贝叶斯优化包括：开发从超参数值到在验证集合上被评估的目标的函数的统计模型。贝叶斯优化技术假设存在一些平滑但是嘈杂的函数，该函数充当从超参数到目标的映射。贝叶斯优化依赖于假设函数之上的一般先验概率分布，该函数之上的一般先验概率分布在与所观察到的超参数值和对应的输出结合时产生函数之上的分布。贝叶斯优化技术迭代地选择超参数以根据探索(例如，结果最不确定的超参数)和利用(例如，被期望具有良好的结果的超参数)调整的方式来观察(例如，实验运行)。

基于梯度优化技术可以包括超参数优化技术，该超参数优化技术计算关于超参数的梯度，并且然后使用梯度下降来优化超参数。虽然基于梯度的优化技术的首次使用集中于神经网络，但是基于梯度的优化技术已经被延伸到其它模型，诸如，支持向量机和逻辑回归。获得关于超参数的梯度的备选方法可以包括：使用自动微分区分替代优化算法的步骤。

进化优化技术可以包括超参数优化技术，该超参数优化技术提供嘈杂的黑箱函数的全局优化。进化优化使用进化算法来搜索针对给定算法的超参数空间。进化优化遵循由生物进化概念启发的过程。例如，该过程可以包括：创建随机解的初始种群(例如，随机生成超参数的元组)、评估超参数元组并且获取适应度函数、按照相对适应度排列超参数元组、用通过交叉和变异生成的新的超参数元组替换表现最差的超参数元组、以及继续评估、排列和替换直到实现令人满意的算法性能或者算法性能不再改进为止。

以这种方式，嵌入平台220可以基于比较第一机器学习模型测试结果和第二机器学习模型测试结果，确定第二机器学习模型是否被优化。

如图4中进一步所示的，过程400可以包括：当第二机器学习模型被优化时，利用第二机器学习模型和不同的被应用的物理特性(框480)。例如，当第二机器学习模型被优化时，嵌入平台220(例如，使用计算资源224、处理器320等)可以利用第二机器学习模型和不同的被应用的物理特性。在一些实施方式中，用户设备210的用户可以使用户设备210向嵌入平台220提供来自视频流的图像中的未知对象。在一些实施方式中，嵌入平台220可以接收未知对象，并且可以利用第二机器学习模型和被应用于对象的不同的物理特性来预测未知对象。在一些实施方式中，嵌入平台220可以向用户设备210提供指示对未知对象的预测的信息，并且用户设备210可以将指示对未知对象的预测的信息显示给用户设备210的用户(例如，经由用户界面)。

在一些实施方式中，嵌入平台220可以利用第二机器学习模型来标识图像、视频、视频帧等中的未知对象。在一些实施方式中，嵌入平台220可以利用第二机器学习模型来创建图像、视频、视频帧、在图像、视频和/或视频帧中的对象等的可搜索索引。在一些实施方式中，嵌入平台220可以利用第二机器学习模型在图像、视频、视频帧等中进行实时对象识别(例如，人、东西等)。

以这种方式，嵌入平台220可以在第二机器学习模型被优化时利用第二机器学习模型和不同的被应用的物理特性。

虽然图4示出了过程400的示例框，但是在一些实施方式中，与图4所示的那些相比较，过程400可以包括附加框、更少的框、不同的框或者不同布置的框。附加地或者备选地，过程400的框中的两个或者两个以上的框可以被并行执行。

本文所描述的一些实施方式提供嵌入平台，该嵌入平台基于增强具有物理特性的对象生成针对对象的机器学习模型。例如，嵌入平台可以接收视频流的图像、针对图像中的对象的3D模型和针对对象的物理特性数据，并且可以将3D模型和物理特性数据映射到对象以生成增强数据序列。嵌入平台可以基于增强策略将物理特性数据的不同的物理特性应用于增强数据序列中的对象，以生成具有不同的被应用的物理特性的增强数据序列。嵌入平台可以基于视频流的图像训练机器学习模型以生成第一机器学习模型，并且可以基于具有不同的被应用的物理特性的增强数据序列训练机器学习模型以生成第二机器学习模型。嵌入平台可以测试第一机器学习模型以生成第一机器学习模型测试结果，并且可以测试第二机器学习模型以生成第二机器学习模型测试结果。嵌入平台可以基于比较第一机器学习模型测试结果和第二机器学习模型测试结果确定第二机器学习模型是否被优化。嵌入平台可以在第二机器学习模型被优化时利用第二机器学习模型和不同的被应用的物理特性。

前面的公开内容提供了图示和描述，但是并未旨在于穷举或者使实施方式限于所公开的精确形式。修改和变化鉴于以上公开内容是可能的，或者可以从实施方式的实践中被获得。

如本文所使用的，术语组件旨在被广泛地解释为硬件、固件或者硬件和软件的组合。

某些用户界面已经被描述于本文中和/或被示出于附图中。用户界面可以包括图形用户界面、非图形用户界面、基于文本的用户界面等。用户界面可以提供用于显示的信息。在一些实施方式中，用户可以与信息交互，诸如，通过经由设备的输入组件提供输入，该设备提供用于显示的用户界面。在一些实施方式中，用户界面可以由设备和/或用户可配置(例如，用户可以改变用户界面的大小、经由用户界面提供的信息、经由用户界面提供的信息的位置等)。附加地或者备选地，用户界面可以被预先配置为标准配置、基于显示有用户界面的设备的类型的特定配置、和/或基于与显示有用户界面的设备相关联的能力和/或规范的配置集合。

明显的是，本文所描述的系统和/或方法可以被实施在不同形式的硬件、固件或者硬件和软件的组合中。被用以实施这些系统和/或方法的实际专用控制硬件或者软件代码并不限制这些实施方式。因此，系统和/或方法的操作和行为在没有参考特定软件代码的情况下被描述于本文中，应当理解，软件和硬件可以被设计为基于本文中的描述实施系统和/或方法。

尽管在权利要求书中记载和/或在说明书中公开了特征的特定组合，但是这些组合并不意在限制可能的实施方式的公开。实际上，可以按照未在权利要求中具体记载和/或未在说明书中具体公开的方式对这些特征中的许多特征进行组合。虽然下面列出的每个从属权利要求都可以直接取决于仅仅一个权利要求，但是可能的实施方式的公开内容包括与权利要求集合中的每个其它权利要求结合的每个从属权利要求。

不应当将本文所使用的元素、动作或者指令解释为关键的或是必要的，除非明确被描述为如此。同样，如本文所使用的，冠词“一”和“一个”旨在包括一个或者多个项，并且可以与“一个或者多个”互换使用。此外，如本文所使用的，术语“集合”旨在包括一个或者多个项(例如，相关项、无关项、相关项和无关项的组合等)，并且可以与“一个或者多个”互换使用。在仅有一个项的情况下，使用术语“一个”或者类似的语言。同样，如本文所使用的，术语“具有(has)”、“具有(have)”、“具有(having)”等旨在成为开放式术语。此外，短语“基于”旨在表示“至少部分地基于”，除非另有明确说明。

Claims

1.一种设备，包括：

一个或多个存储器；以及

一个或多个处理器，其被通信地耦合至所述一个或多个存储器，所述一个或多个处理器用以：

接收视频流的图像、针对所述图像中的对象的三维模型和针对所述对象的物理特性数据；

将所述三维模型和所述物理特性数据映射到所述图像中的所述对象，以生成具有所述对象的增强数据序列；

基于增强策略来将所述物理特性数据的不同的物理特性应用于所述增强数据序列中的所述对象，以生成具有不同的被应用的物理特性的增强数据序列；

基于所述视频流的所述图像来训练机器学习模型，以生成第一经训练的机器学习模型；

基于具有所述不同的被应用的物理特性的所述增强数据序列来训练所述机器学习模型，以生成第二经训练的机器学习模型；

将所述第一经训练的机器学习模型和所述第二经训练的机器学习模型相比较；

基于将所述第一经训练的机器学习模型与所述第二经训练的机器学习模型相比较的结果，确定所述第二经训练的机器学习模型是否被优化；以及

当所述第二经训练的机器学习模型被优化时，提供所述第二经训练的机器学习模型和所述不同的被应用的物理特性。

2.根据权利要求1所述的设备，其中所述一个或多个处理器进一步用以：

当所述第二经训练的机器学习模型未被优化时，修改所述不同的被应用的物理特性；

基于经修改的所述不同的被应用的物理特性来重新训练所述机器学习模型，以生成所述第二经训练的机器学习模型；以及

重复所述修改所述不同的被应用的物理特性和所述重新训练，直到所述第二经训练的机器学习模型被优化。

3.根据权利要求1所述的设备，其中所述一个或多个处理器进一步用以：

当所述第二经训练的机器学习模型被优化时，利用所述第二经训练的机器学习模型和所述不同的被应用的物理特性来预测未知对象。

4.根据权利要求1所述的设备，其中所述一个或多个处理器进一步用以：

接收所述机器学习模型和所述增强策略，

其中所述增强策略包括：指示所述不同的物理特性如何被应用于所述增强数据序列中的每个增强数据序列的信息。

5.根据权利要求1所述的设备，其中所述机器学习模型包括以下中的一个或者多个：

单发多框检测器(SSD)模型，

基于区域的全卷积网络(R-FCN)模型，

基于区域的卷积网络(R-CNN)模型，

快速R-CNN模型，或者

加速R-CNN模型。

6.根据权利要求1所述的设备，其中所述一个或多个处理器进一步用以：

当所述第二经训练的机器学习模型未被优化时，基于超参数优化技术来修改所述不同的被应用的物理特性，

其中所述超参数优化技术包括以下中的一种或者多种：

网格搜索技术，

随机搜索技术，

贝叶斯优化技术，

基于梯度优化技术，或者

进化优化技术。

7.根据权利要求1所述的设备，其中所述一个或多个处理器进一步用以：

测试所述第一经训练的机器学习模型以生成第一测试结果；

测试所述第二经训练的机器学习模型以生成第二测试结果；

将所述第一测试结果和所述第二测试结果相比较；以及

基于将所述第一测试结果和所述第二测试结果相比较的结果，确定所述第二经训练的机器学习模型是否被优化。

8.一种存储指令的非瞬态计算机可读介质，所述指令包括：

一个或多个指令，所述一个或多个指令在由一个或多个处理器执行时使所述一个或多个处理器：

接收视频流的图像、针对所述图像中的对象的三维模型和针对所述对象的物理特性数据，

所述视频流的所述图像包括元数据，所述元数据标识以下中的至少两项：

所述视频流的所述图像，

所述图像中的所述对象，

与所述对象相关联的类，

针对所述图像的边界框，

与所述图像中的所述对象相关联的坐标，或者

所述对象的名称，

所述三维模型包括以下中的至少两项：

所述对象的三维表示，

与所述对象相关联的三维坐标，

与所述对象相关联的法向量，或者

所述对象的所述名称，

所述物理特性数据包括以下中的至少两项：

所述对象的所述名称，

与所述对象的变形相关联的信息，

与针对所述对象的重力相关联的信息，

与所述对象的旋转相关联的信息，

与所述对象的绘制相关联的信息，或者

与所述对象的碰撞相关联的信息；

将所述物理特性数据的不同的物理特性应用于所述增强数据序列中的所述对象，以生成具有不同的被应用的物理特性的增强数据序列；

基于所述视频流的所述图像来训练机器学习模型，以生成第一机器学习模型；

基于具有所述不同的被应用的物理特性的所述增强数据序列来训练所述机器学习模型，以生成第二机器学习模型；

分别测试所述第一机器学习模型和所述第二机器学习模型，以生成第一测试结果和第二测试结果，

基于将所述第一测试结果和所述第二测试结果相比较来确定所述第二机器学习模型是否被优化；以及

当所述第二机器学习模型被优化时，利用所述第二机器学习模型和所述不同的被应用的物理特性来做出预测。

9.根据权利要求8所述的非瞬态计算机可读介质，其中所述指令进一步包括：

一个或多个指令，所述一个或多个指令在由所述一个或多个处理器执行时使所述一个或多个处理器：

当所述第二机器学习模型被优化时，提供所述第二机器学习模型和所述不同的被应用的物理特性。

10.根据权利要求8所述的非瞬态计算机可读介质，其中所述指令进一步包括：

当所述第二机器学习模型未被优化时，修改所述不同的被应用的物理特性；

基于经修改的所述不同的被应用的物理特性来重新训练所述机器学习模型，以生成所述第二机器学习模型；

重新测试所述第二机器学习模型，以生成所述第二测试结果；以及

重复所述修改所述不同的被应用的物理特性、所述重新训练和所述重新测试，直到所述第二机器学习模型被优化。

11.根据权利要求8所述的非瞬态计算机可读介质，其中所述不同的被应用的物理特性是可配置的。

12.根据权利要求8所述的非瞬态计算机可读介质，其中所述第一机器学习模型和所述第二机器学习模型中的每个机器学习模型包括以下中的一个或者多个：

单发多框检测器(SSD)模型，

基于区域的全卷积网络(R-FCN)模型，

基于区域的卷积网络(R-CNN)模型，

快速R-CNN模型，或者

加速R-CNN模型。

13.根据权利要求8所述的非瞬态计算机可读介质，其中所述指令进一步包括：

当所述第二机器学习模型未被优化时，基于以下技术中的一种或者多种来修改所述不同的被应用的物理特性：

网格搜索技术，

随机搜索技术，

贝叶斯优化技术，

基于梯度优化技术，或者

进化优化技术。

14.根据权利要求8所述的非瞬态计算机可读介质，其中所述指令进一步包括：

当所述第二测试结果在所述第一测试结果的预定阈值内时，确定所述第二机器学习模型被优化。

15.一种方法，包括：

由设备接收视频流的图像、针对所述图像中的对象的三维模型和针对所述对象的物理特性数据；

由所述设备将所述三维模型和所述物理特性数据与所述图像中的所述对象相关联，以生成具有所述对象的增强数据序列；

由所述设备接收增强策略；

由所述设备基于增强策略来将所述物理特性数据的不同的物理特性应用于所述增强数据序列中的所述对象，以便生成具有不同的被应用的物理特性的增强数据序列；

由所述设备基于所述视频流的所述图像来训练机器学习模型，以生成第一经训练的机器学习模型；

由所述设备基于具有所述不同的被应用的物理特性的所述增强数据序列来训练所述机器学习模型，以生成第二经训练的机器学习模型；

由所述设备分别测试所述第一经训练的机器学习模型和所述第二经训练的机器学习模型，以生成第一测试结果和第二测试结果；

由所述设备基于所述第二测试结果是否在所述第一测试结果的预定阈值内来确定所述第二经训练的机器学习模型是否被优化；以及

当所述第二经训练的机器学习模型被优化时，由所述设备提供所述第二经训练的机器学习模型和所述不同的被应用的物理特性。

16.根据权利要求15所述的方法，进一步包括：

接收具有未知对象的未知图像；以及

当所述第二经训练的机器学习模型被优化时，利用所述第二经训练的机器学习模型和所述不同的被应用的物理特性来标识所述未知对象。

17.根据权利要求15所述的方法，进一步包括：

基于经修改的所述不同的被应用的物理特性来重新训练所述机器学习模型，以生成经更新的第二经训练的机器学习模型；

重新测试所述经更新的第二经训练的机器学习模型以生成经更新的第二测试结果；以及

重复所述修改所述不同的被应用的物理特性、所述重新训练和所述重新测试，直到所述第二经训练的机器学习模型被优化。

18.根据权利要求15所述的方法，其中所述增强策略包括：指示所述不同的物理特性将如何被应用于所述增强数据序列中的每个增强数据序列的可配置信息。

19.根据权利要求15所述的方法，其中所述机器学习模型包括对象检测深度学习模型。

20.根据权利要求15所述的方法，进一步包括：

当所述第二经训练的机器学习模型未被优化时，基于超参数优化技术来修改所述不同的被应用的物理特性。