CN107862387B - 训练有监督机器学习的模型的方法和装置 - Google Patents

训练有监督机器学习的模型的方法和装置 Download PDF

Info

Publication number
CN107862387B
CN107862387B CN201711265502.7A CN201711265502A CN107862387B CN 107862387 B CN107862387 B CN 107862387B CN 201711265502 A CN201711265502 A CN 201711265502A CN 107862387 B CN107862387 B CN 107862387B
Authority
CN
China
Prior art keywords
motion
artificial
target object
data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711265502.7A
Other languages
English (en)
Other versions
CN107862387A (zh
Inventor
颜沁睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Horizon Robotics Science and Technology Co Ltd
Original Assignee
Shenzhen Horizon Robotics Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Horizon Robotics Science and Technology Co Ltd filed Critical Shenzhen Horizon Robotics Science and Technology Co Ltd
Priority to CN201711265502.7A priority Critical patent/CN107862387B/zh
Publication of CN107862387A publication Critical patent/CN107862387A/zh
Application granted granted Critical
Publication of CN107862387B publication Critical patent/CN107862387B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)

Abstract

公开了一种用于训练有监督机器学习的模型的方法和装置。该方法包括:生成多个人造图像,每个人造图像包含相同的目标对象在一个或多个时间段内的不同时间点的运动状态;在生成多个人造图像的过程中记录与目标对象在一个或多个时间段内的运动有关的标注数据;基于多个人造图像来生成包括运动的多媒体流;使用多媒体流的多个帧的数据作为模型的多个输入数据来执行模型中的运算,以获得与运动有关的推导数据;以及比较推导数据和标注数据以确定是否调节模型的参数。通过该方法,能够省去在模型的训练过程中所需的大量的人工标注。

Description

训练有监督机器学习的模型的方法和装置
技术领域
本公开总体上涉及有监督机器学习的模型的技术领域,并且具体地涉及用于训练有监督机器学习的模型的方法和装置。
背景技术
有监督机器学习(supervised machine learning)通常需要使用大量的训练样本对模型进行训练,并根据期望结果与模型通过使用训练样本所得到的推导结果之间的比较结果,来确定是否需要调整模型的参数以及如何调整模型的参数,从而使有模型能够良好地适用于训练样本之外的其他数据(例如,实际的应用数据)。有监督机器学习的模型例如可以包括人工神经网络(例如,卷积神经网络)和决策树等。
已经提供了很多不同的训练样本集合或训练样本库。有监督机器学习的模型的设计人员在使用这样的样本集合或样本库来训练例如用于对目标对象的动作或行为进行识别或预测的有监督机器学习的模型之前,需要针对视频样本中的目标对象的动作或行为进行人工标注。训练的成本很高,但是准确性和效率却很低。
发明内容
一方面,提供了一种用于训练有监督机器学习的模型的方法。该方法可以包括:生成多个人造图像,每个人造图像包含相同的目标对象在一个或多个时间段内的不同时间点的运动状态;在生成多个人造图像的过程中记录与目标对象在一个或多个时间段内的运动有关的标注数据;基于多个人造图像来生成包括运动的多媒体流;使用多媒体流的多个帧的数据作为模型的多个输入数据来执行模型中的运算,以获得与运动有关的推导数据;以及比较推导数据和标注数据以确定是否调节模型的参数。
另一方面,还提供了一种用于训练有监督机器学习的模型的装置。该装置可以包括:渲染引擎,被配置为生成多个人造图像,每个人造图像包含相同的目标对象在一个或多个时间段内的不同时间点的运动状态,在生成多个人造图像的过程中记录与目标对象在一个或多个时间段内的运动有关的标注数据,并且基于多个人造图像来生成包括运动的多媒体流;运算器,被配置为使用多媒体流的多个帧的数据作为模型的多个输入数据来执行模型中的运算,以获得与运动有关的推导数据;以及调节器,被配置为比较推导数据和标注数据以确定是否调节模型的参数。
另一方面,还提供了一种用于训练有监督机器学习的模型的装置。该装置可以包括被配置为执行上述的方法的处理器。
另一方面,还提供了一种非临时性存储介质,在其上存储有程序指令,该程序指令在被计算装置执行时执行上述的方法。
通过根据本公开的实施例的方法和装置,能够省去在有监督机器学习训练过程中所需的人工标注,从而能够减少成本,提高标注的准确度,并提高训练的效率。
附图说明
图1示出根据本公开的实施例的用于训练有监督机器学习的模型的示例方法的流程图。
图2示出根据本公开的实施例的训练有监督机器学习的模型的示例。
图3示出根据本公开的实施例的用于训练有监督机器学习的模型的示例装置的框图。
图4示出根据本公开的实施例的用于训练有监督机器学习的模型的示例装置的框图。
具体实施方式
图1示出根据本公开的实施例的用于训练有监督机器学习的模型的示例方法的流程图。如图1所示,根据本公开的实施例的示例方法100可以包括:步骤S101,生成多个人造图像,每个人造图像包含相同的目标对象在一个或多个时间段内的不同时间点的运动状态;步骤S105,在生成多个人造图像的过程中记录与目标对象在一个或多个时间段内的运动有关的标注数据;步骤S110,基于多个人造图像来生成包括运动的多媒体流;步骤S115,使用多媒体流的多个帧的数据作为模型的多个输入数据来执行模型中的运算,以获得与运动有关的推导数据;以及步骤S120,比较推导数据和标注数据以确定是否调节模型的参数。
下面结合图2的示例来详细地描述该示例方法100。
示例方法100开始于步骤S101,以生成包含相同的目标对象在一个或多个时间段内的不同时间点的运动状态的多个人造图像。在执行步骤S101的过程中,即在生成所述多个人造图像的过程中,示例方法100还执行步骤S105,以同时记录与目标对象在一个或多个时间段内的运动有关的标注数据
在一个实施例中,如图2所示,可以连接资源库200并从资源库200获取一个或多个元件。资源库200可以包括用于生成人造图像的各种不同的元件。例如,资源库200可以包括用于表现“人”的诸如头部、手臂、手、手指、躯干、腿、脚、眼睛、耳朵、鼻子、嘴、头发、胡须、眉毛、衣服、手套、头盔、帽子等各种部件的各种形态的图像、图片或动画,也可以包括诸如剑、扳手、木棒等各种工具的各种形态的图像、图片或动画,还可以包括用于表现诸如动物、植物、车辆、建筑物、自然风景、宇宙物体等各种实体及其各个部件的各种形态的图像、图片或动画。另外,资源库200中所包括的图像图片或视频可以是一维的、二维的、三维的和/或更多维度上的图像图片或视频。资源库200还可以包括音频、文字等其他元件。根据本公开的实施例的方法不局限于资源库200中的所包括的元件的数量、类型、组织(或存储)形式等,也不局限于资源库200的形式、连接方式、访问方式等。
然后,在步骤S101中,可以将所获取的一个或多个元件组合到一起,并且对组合到一起的元件的集合体进行渲染(例如,2D渲染或3D渲染),从而生成多个人造场景。例如,在图2的示例中,可以从资源库200中至少获取元件201(人类的头部)、202(人类的手臂)、203(剑)、204(人类的躯干)、205(人类的腿的一种姿态)、206(人类的腿的另一种姿态),并将所获取的所有元件以不同的形式组合在一起并进行分别渲染,从而生成多个人造场景210、211和212。
所生成的多个人造场景210、211和212包含相同的目标对象(例如,人造场景210、211和212中的手持剑的人),并且在时间上具有关联性。例如,多个人造场景210、211和212分别按照时间次序表现目标对象(即,手持剑的人)在时间轴上的不同时间点的运动状态,使得多个人造场景210、211和212一起可以表现目标对象将手中的剑从上向下进行挥动的动作或行为,其中,人造场景210中的剑尖指向斜上方,人造场景211中的剑尖比人造场景210中的剑尖在位置上相对靠下,人造场景212中的剑尖比人造场景211中的剑尖在位置上相对靠下。人造场景210、211和212所表现的挥剑的动作的运动轨迹如人造场景210或211或212中的箭头向下的弧线箭头所示。
在生成人造场景210、211和212时,可以将元件203的剑尖作为运动的关键点,并将该关键点的起始点坐标和结束点坐标分别设置为(4,5)和(5,4),并将该关键点从起始点到结束点的运动的轨迹或曲线设置为函数y=f(x)所表示的曲线(例如,弧线)。另外,可以将元件205的脚所在的位置坐标设置为(0,0)。然后,可以将资源库200中所选择的元件201至206组合到一起并进行渲染(例如,2D渲染或3D渲染),从而获得多个人造场景,其中,每个人造场景中的剑尖的位置是函数y=f(x)所表示的曲线上的点。由此,可以在步骤S101中根据各个元件的属性以及所规定的运动的属性来生成在时间上相关联的多个人造图像210、211和213。
在这一过程中,可以同时在步骤S105中,记录与用于生成多个人造图像210、211和213的各个元件201至206的相关属性(例如,形状、尺寸、颜色、角度、位置、朝向等)、各个元件201至206的每个集合体的相关属性(例如,至少由元件201至205所表现的目标对象的类型、形状、尺寸、朝向、配饰、职业、状态、距离等)以及与各个元件和/或元件的集合体的运动/动作/行为有关的信息(例如,运动的类型、运动的朝向、运动的起始点、运动的结束点、运动的幅度、运动的速度、运动的加速度、运动的角速度、定义运动轨迹的函数等),并作为目标对象的标注数据以及目标对象在一个时间段内的运动的标注数据。
例如,可以在步骤S101中根据标注数据220中的信息生成在时间上相关联的多个人造场景210至213的过程中,在步骤S105中记录标注数据220。
应当理解,所选择的目标对象不局限于图2中的示例。在另外的示例中,可以将人造场景中的任何一个或多个实体作为一个或多个目标对象。例如,可以将手持剑的人的手中的剑作为目标对象,也可以将手持剑的人的手中的剑以及拿着剑的手一起作为目标对象。
另外,所生成的人造场景的数量不局限于图2中的示例。例如,可以生成更多的或更少的数量的人造场景。然而,为了表现目标对象在一个时间段内的运动或行为,可以生成至少两个人造场景,所生成的每个人造场景分别表现人造场景中的目标对象在时间轴上的不同时间点的运动状态或行为状态。另外,所生成的多个人造场景所表现的目标对象的运动或行为可以是在多个不同的时间段内进行的。另外,目标对象可以出现在所生成的多个人造场景中的每个人造场景中,也可以仅出现在所生成的多个人造场景中的部分人造场景中。另外,目标对象在不同的人造场景中的标注数据可以不同,例如,目标对象在时间点t1时的人造场景中穿着红色的衣服,而在t1之后的某个时间点t2时的人造场景中穿着黑色的衣服并戴有墨镜,等等。
另外,标注数据的表现形式也不局限于图2中的示例,而是可以采用任何适当的方式来表示相同或相似的信息。例如,在图2的示例中,轨迹曲线采用定义关键点在一个或多个时间段内的运动的轨迹的函数(例如,图2的220中的y=f(x))来表示。在另外的示例中,轨迹曲线也可以采用例如目标对象上的某个或某些关键点在一个或多个时间段内的各个时间点的位置的集合或者关键点在各个时间点的位置的拟合曲线。在另外的示例中,可以在目标对象上设置多个关键点(例如,剑尖、手、肘、肩、头、胸、腰等各种不同的位置),规定每个关键点或每组关键点在一个或多个时间段内的运动轨迹,并针对每个关键点或每组关键点分别记录相应的标注数据。
通过在步骤S101和步骤S105,可以同时获得包含目标对象的人造场景或人造图像以及与目标对象和目标对象的运动/行为/动作相关的标注数据,而不必针对所生成的人造场景或人造图像中的目标对象的运动/行为/动作进行另外的人工标注。
在一个实施例中,在步骤S101中,还可以对所生成的每个人造场景进行一个或多个投影,并生成人造图像。例如,在图2的示例中,可以对人造场景210进行鱼眼镜头投影来生成人造图像214。类似地,可以对人造场景211进行鱼眼镜头投影来生成人造图像215,并且对人造场景213进行鱼眼镜头投影来生成人造图像216。在另外的示例中,还可以对人造场景205进行其他类型的投影,例如广角镜头投影、标准镜头投影、远摄镜头投影等,并且可以使用多种类型投影方式。
然后,示例方法100继续到步骤S110,以使用所生成的多个人造图像(例如,图2中的214至216)生成多媒体流230(例如,视频流)。在另外的实施例中,在步骤S110中,也可以使用在步骤S101中所生成的多个人造场景(例如,图2中的210至213)来生成多媒体流。另外,基于所生成的多个人造场景或人造图像,还可以结合来自资源库200的其他元件(例如音频、文本、动画等)来生成多媒体流。可以使用播放器播放所生成的多媒体流,以动态地呈现所生成的多个人造场景或人造图像中的目标对象在一个或多个时间段内的运动/行为/动作/状态。
在另外的实施例中,也可以先基于所生成的多个人造场景来生成媒体流流,然后对所生成的媒体流进行广角镜头投影、标准镜头投影、鱼眼镜头投影和远摄镜头投影中的一个或多个。例如,可以使用鱼眼镜头拍摄所生成的媒体流,从而生成多媒体流230。
然后,可以在示例方法100的步骤S115中将所生成的多媒体流中的多个帧作为要训练的有监督机器学习的模型的多个输入提供给模型,并执行模型中的运算,从而获得与目标对象在一个或多个时间段内的运动/行为/动作/状态有关的推导数据。
例如,如图2所示,可以将在步骤S110中所生成的多媒体流230中的多个帧231至232作为要训练的有监督机器学习的模型250的多个输入,分别地或者同时地提供给模型250。在一个示例中,模型205可以针对每个输入分别获得相应的输出,并根据所获得的多个输出进一步推导出推导数据260。在另外的示例中,模型205可以针对多个输入执行运算并获得推导数据260。
在步骤S115中提供给模型205的多媒体流230的帧的数量与在步骤S110中所生成的多个人造场景或多个人造图像的数量可以相同,也可以不同。
另外,可以从多媒体流中提取出的帧直接提供给模型250,也可以将能够代表该帧所要呈现的图像或信息的数据集提供给模型250(例如,在帧表现3D图像的情况下,可以将3D点的集合提供给模型250)。在另外的实施例中,也可以将与该帧所要呈现的图像或信息相关的其他信息(例如,音频、位置坐标等)提供给模型250。
本公开不局限于模型250的特定类型、特定实现和特定任务(例如,识别、预测、3D重构),也不局限于模型250所接收的数据的特定格式或特定形式。
然后,示例方法可以继续到步骤S120,以比较标注数据220和推导数据260。在一个实施例中,可以比较标注数据220和推导数据260,以确定两个数据是否相同。例如,可以比较标注数据220中的“运动类型”与推导数据260中的“运动类型”是否相同。在另一个实施例中,也可以比较标注数据220和推导数据260,以确定两个数据之间的差异是否超出阈值。例如,可以比较比较标注数据220中的“轨迹曲线”的函数y=f(x)和推导数据260中的“轨迹曲线”的函数y=F(x)之间的差异是否超出阈值。阈值可以由有监督机器学习的模型250的设计人员在设计模型250时指定。
在根据比较结果确定需要调节模型250的参数的情况下,可以调节模型250的参数,并重复步骤S115和S120,直至模型250的输出符合预期要求。
在一个实施例中,可以在步骤S101至S110中生成不同数量的多媒体流,并且在步骤S115和S120中根据模型的类型和训练的预期目标而采用不同的误差比较方法、参数调整方法和预期条件。例如,对于神经网络,可以在步骤S115和S120中采用例如反向传播算法来调整参数,使得误差函数关于参数的偏导数的梯度下降,并最终使得误差函数缩小到可接受的范围。
在根据本公开的实施例的训练方法(例如,图1中的示例方法100)中,在生成人造场景或人造图像或多媒体流的过程中同时记录目标对象的运动/行为/动作的标注数据,从而不必进行另外的人工标注,有利于降低训练的成本,并提高训练的效率。
另外,通常的训练样本集合或训练样本库中的样本往往是对典型的应用中的典型数据进行实际采集的结果,例如,针对特定人群、特定场合、特定应用等使用例如相机或录音机等装置采集的视频、照片、声音、文字等。使用这样的样本,可能使模型或者模型的训练受限于特定人群、特定场合、特定应用或者所使用的训练样本集合或训练样本库等。另外,训练的结果的准确性和可靠性还将取决于针对训练样本集合或训练样本库中的样本的标注结果,或者取决于训练样本集合或训练样本库的提供者所提供的参考数据。例如,经过训练的模型可能对于所使用的训练样本集合或训练样本库中的样本表现良好,但是对于其他训练样本集合或训练样本库中的样本之外的情况可能具有较大的误差。
在根据本公开的实施例的训练方法中,使用所生成的人造场景或人造图像生成多媒体流,并使用所生成的多媒体流进行训练,并且人造场景或人造图像或多媒体流中的目标对象的标注数据以及目标对象在一个或多个时间段内的运动/行为/动作相关的标注数据一定是准确和可靠的(因为人造场景或人造图像或多媒体流是基于这些标注数据来生成的)。因此,根据本公开的实施例的训练方法能够避免训练样本集合或训练样本库中的样本对训练结果的限制,有利于提高训练的准确性和可靠性。
图3和图4示出根据本公开的实施例的用于训练有监督机器学习的模型的示例装置的框图。
如图3所示,示例装置300可以包括渲染引擎301、运算器305和调节器310。
渲染引擎301可以被配置为生成多个人造图像,其中,每个人造图像包含相同的目标对象在一个或多个时间段内的不同时间点的运动状态。渲染引擎301还可以被配置为在生成多个人造图像的过程中记录与目标对象在一个或多个时间段内的运动有关的标注数据,并且基于多个人造图像来生成包括运动的多媒体流。在一个实施例中,渲染引擎301可以包括一个或多个图形处理器(GPU)。
在一个实施例中,渲染引擎301可以被配置为通过对资源库中的一个或多个元件进行组合和渲染来生成多个人造场景,其中,每个人造场景包含目标对象在一个或多个时间段内的不同时间点的运动状态。渲染引擎301还可以被配置为通过对多个人造场景中的每个多个人造场景进行一个或多个投影来生成多个人造图像。在一个实施例中,渲染引擎301可以包括一个或多个相机,以便通过例如广角镜头投影、标准镜头投影、鱼眼镜头投影和远摄镜头投影中的一个或多个投影模式来拍摄所生成的多个人造场景,从而生成多个人造图像。在另外的实施例中,渲染引擎301可以直接通过硬件或软件的方式对多个人造场景进行变换,以将人造场景变换成与采用一个或多个投影模式进行投影后的结果相对应的多个人造图像。在另外的实施例中,也可以通过对多媒体流进行例如广角镜头投影、标准镜头投影、鱼眼镜头投影和远摄镜头投影中的一个或多个。
另外,渲染引擎301可以包括I/O接口(未示出)和缓冲存储器,以便从资源库200接收用于生成人造场景的一个或多个元件,并对所接收的元件和/或所生成的人造图像/人造场景和/或中间结果进行缓存。
在一个实施例中,渲染器301可以被配置为执行例如图1所示的示例方法100的步骤S101、S105和S110。
运算器305可以被配置为使用多媒体流的多个帧的数据作为模型的多个输入数据来执行模型中的运算,以获得与运动有关的推导数据。在一个实施例中,运算器305可以包括通用的中央处理器(CPU)或者模型专用的硬件加速器(例如,在卷积神经网络的情况下的乘法累加器等)。在一个实施例中,渲染器301可以被配置为执行例如图1所示的示例方法100的步骤S115。
调节器310可以被配置为比较推导数据和标注数据以确定是否调节模型的参数。在一个实施例中,调节器310可以包括通用的中央处理器(CPU)和/或比较器(未示出)。另外,调节器310也可以包括I/O接口(未示出),以便接收经调节的模型参数。在一个实施例中,调节器310可以被配置为执行例如图1所示的示例方法100的步骤S120。
如图4所示,示例装置400可以包括一个或多个处理器401、存储器405和I/O接口410。
处理器401可以是具有数据处理能力和/或指令执行能力的任何形式的处理单元,例如通用CPU、GPU或者专用的加速器等。例如,处理器401可以执行根据本公开的实施例的方法。另外,处理器401还可以控制装置400中的其他部件,以执行所期望的功能。处理器401可以通过总线系统和/或其他形式的连接机构(未示出)与存储器405以及I/O接口410相连。
存储器405可以包括各种形式的计算机可读写存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪速存储器等。可读写存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。例如,在配合神经网络专用处理器使用的情况下,存储器405也可以是承载专用处理器的芯片上的RAM。存储器405可以包括用于指示装置400执行根据本公开的实施例的方法的程序指令。
I/O接口410可以用于向处理器401提供参数或数据并且输出经过处理器401处理的结果数据。另外,I/O接口410还可以与资源库200相连以便接收用于生成人造场景或人造图像的一个或多个元件。
应当理解,图3和图4所示的装置300和400仅是示例性的,而非限制性的。根据本公开的实施例的装置可以具有其他部件和/或结构。
除非上下文清楚地另有要求,否则贯穿说明书和权利要求书,措词“包括”、“包含”等应当以与排他性或穷尽性的意义相反的包括性的意义来解释,也就是说,应当以“包括但不限于”的意义来解释。另外,措词“在本文中”、“上文”、“下文”以及相似含义的措词在本申请中使用时应当指作为整体的本申请,而不是本申请的任何具体部分。在上下文允许时,在使用单数或复数的以上描述中的措词也可以分别包括复数或单数。关于在提及两个或多个项目的列表时的措词“或”,该措词涵盖该措词的以下解释中的全部:列表中的任何项目,列表中的所有项目,以及列表中的项目的任何组合。
虽然已经描述了本公开的一些实施例,但是这些实施例仅作为示例而呈现,而不打算限制本公开的范围。实际上,在本文中所描述的方法和系统可以采用多种其他形式来实施。另外,可以在不脱离本公开的范围的情况下,在本文中所描述的方法和系统的形式上做出各种省略、替换和改变。

Claims (12)

1.一种用于训练有监督机器学习的模型的方法,包括:
通过对资源库中的一个或多个元件进行组合和渲染来生成多个人造场景,每个人造场景包含目标对象在所述一个或多个时间段内的不同时间点的运动状态,以及通过对所述多个人造场景中的每个人造场景进行一个或多个投影来生成多个人造图像,每个人造图像包含相同的目标对象在一个或多个时间段内的不同时间点的运动状态;
在生成所述多个人造图像的过程中同时记录与所述目标对象在所述一个或多个时间段内的运动有关的标注数据;
基于所述多个人造图像来生成包括所述运动的多媒体流;
使用所述多媒体流的多个帧的数据作为所述模型的多个输入数据来执行所述模型中的运算,以获得与所述运动有关的推导数据;以及
比较所述推导数据和所述标注数据以确定是否调节所述模型的参数。
2.根据权利要求1所述的方法,其中,所述一个或多个投影包括广角镜头投影、标准镜头投影、鱼眼镜头投影和远摄镜头投影中的一个或多个。
3.根据权利要求1所述的方法,其中,所述标注数据包括所述目标对象的类型、所述目标对象的形状、所述目标对象的尺寸、所述目标对象的距离、所述运动的类型、所述运动的朝向、所述运动的起始点、所述运动的结束点、所述运动的幅度、所述运动的速度、所述运动的加速度、所述目标对象上的关键点在所述一个或多个时间段内的各个时间点的位置的集合、所述关键点在所述各个时间点的位置的拟合曲线和定义所述关键点在所述一个或多个时间段内的运动的轨迹的函数中的一个或多个。
4.根据权利要求1所述的方法,其中,比较所述推导数据和所述标注数据:
确定所述推导数据和所述标注数据是否相同。
5.根据权利要求1所述的方法,其中,比较所述推导数据和所述标注数据:
确定所述推导数据和所述标注数据之间的差异是否超出阈值。
6.一种用于训练有监督机器学习的模型的装置,包括:
渲染引擎,被配置为通过对资源库中的一个或多个元件进行组合和渲染来生成多个人造场景,每个人造场景包含目标对象在所述一个或多个时间段内的不同时间点的运动状态,以及通过对所述多个人造场景中的每个人造场景进行一个或多个投影来生成多个人造图像,每个人造图像包含相同的目标对象在一个或多个时间段内的不同时间点的运动状态,在生成所述多个人造图像的过程中记录与所述目标对象在所述一个或多个时间段内的运动有关的标注数据,并且基于所述多个人造图像来生成包括所述运动的多媒体流;
运算器,被配置为使用所述多媒体流的多个帧的数据作为所述模型的多个输入数据来执行所述模型中的运算,以获得与所述运动有关的推导数据;以及
调节器,被配置为比较所述推导数据和所述标注数据以确定是否调节所述模型的参数。
7.根据权利要求6所述的装置,其中,所述一个或多个投影包括广角镜头投影、标准镜头投影、鱼眼镜头投影和远摄镜头投影中的一个或多个。
8.根据权利要求6所述的装置,其中,所述标注数据包括所述目标对象的类型、所述目标对象的形状、所述目标对象的尺寸、所述目标对象的距离、所述运动的类型、所述运动的朝向、所述运动的起始点、所述运动的结束点、所述运动的幅度、所述运动的速度、所述运动的加速度、所述目标对象上的关键点在所述一个或多个时间段内的各个时间点的位置的集合、所述关键点在所述各个时间点的位置的拟合曲线和定义所述关键点在所述一个或多个时间段内的运动的轨迹的函数中的一个或多个。
9.根据权利要求6所述的装置,其中,所述调节器被配置为确定所述推导数据和所述标注数据是否相同。
10.根据权利要求6所述的装置,其中,所述调节器被配置为确定所述推导数据和所述标注数据之间的差异是否超出阈值。
11.一种用于训练有监督机器学习的模型的装置,包括:
处理器,被配置为执行根据权利要求1至5中的任一项所述的方法。
12.一种非临时性存储介质,在其上存储有程序指令,所述程序指令在被计算装置执行时执行根据权利要求1至5中的任一项所述的方法。
CN201711265502.7A 2017-12-05 2017-12-05 训练有监督机器学习的模型的方法和装置 Active CN107862387B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711265502.7A CN107862387B (zh) 2017-12-05 2017-12-05 训练有监督机器学习的模型的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711265502.7A CN107862387B (zh) 2017-12-05 2017-12-05 训练有监督机器学习的模型的方法和装置

Publications (2)

Publication Number Publication Date
CN107862387A CN107862387A (zh) 2018-03-30
CN107862387B true CN107862387B (zh) 2022-07-08

Family

ID=61704701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711265502.7A Active CN107862387B (zh) 2017-12-05 2017-12-05 训练有监督机器学习的模型的方法和装置

Country Status (1)

Country Link
CN (1) CN107862387B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447240B (zh) * 2018-09-28 2021-07-02 深兰科技(上海)有限公司 图形图像复制模型的训练方法、存储介质及计算设备
CN109376664B (zh) * 2018-10-29 2021-03-09 百度在线网络技术(北京)有限公司 机器学习训练方法、装置、服务器和介质
CN109660870B (zh) * 2018-12-04 2020-12-25 北京奇艺世纪科技有限公司 一种视频遮罩方法、装置及设备
CN112633190A (zh) * 2020-12-28 2021-04-09 南昌工程学院 一种深度学习方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093453A (zh) * 2011-11-18 2013-05-08 微软公司 计算可改变实体的姿势和/或形状
WO2014113346A1 (en) * 2013-01-18 2014-07-24 Microsoft Corporation Part and state detection for gesture recognition
CN105631479A (zh) * 2015-12-30 2016-06-01 中国科学院自动化研究所 基于非平衡学习的深度卷积网络图像标注方法及装置
CN106529485A (zh) * 2016-11-16 2017-03-22 北京旷视科技有限公司 用于获取训练数据的方法及装置
CN106663126A (zh) * 2014-09-09 2017-05-10 微软技术许可有限责任公司 用于运动任务分析的视频处理
CN107392310A (zh) * 2016-05-16 2017-11-24 北京陌上花科技有限公司 神经网络模型训练方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8761437B2 (en) * 2011-02-18 2014-06-24 Microsoft Corporation Motion recognition
US20140306953A1 (en) * 2013-04-14 2014-10-16 Pablo Garcia MORATO 3D Rendering for Training Computer Vision Recognition
CN106295584A (zh) * 2016-08-16 2017-01-04 深圳云天励飞技术有限公司 深度迁移学习在人群属性的识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093453A (zh) * 2011-11-18 2013-05-08 微软公司 计算可改变实体的姿势和/或形状
WO2014113346A1 (en) * 2013-01-18 2014-07-24 Microsoft Corporation Part and state detection for gesture recognition
CN106663126A (zh) * 2014-09-09 2017-05-10 微软技术许可有限责任公司 用于运动任务分析的视频处理
CN105631479A (zh) * 2015-12-30 2016-06-01 中国科学院自动化研究所 基于非平衡学习的深度卷积网络图像标注方法及装置
CN107392310A (zh) * 2016-05-16 2017-11-24 北京陌上花科技有限公司 神经网络模型训练方法及装置
CN106529485A (zh) * 2016-11-16 2017-03-22 北京旷视科技有限公司 用于获取训练数据的方法及装置

Also Published As

Publication number Publication date
CN107862387A (zh) 2018-03-30

Similar Documents

Publication Publication Date Title
KR102523512B1 (ko) 얼굴 모델의 생성
CN107909114B (zh) 训练有监督机器学习的模型的方法和装置
US10860838B1 (en) Universal facial expression translation and character rendering system
CN107862387B (zh) 训练有监督机器学习的模型的方法和装置
US10949649B2 (en) Real-time tracking of facial features in unconstrained video
US9245176B2 (en) Content retargeting using facial layers
US10559062B2 (en) Method for automatic facial impression transformation, recording medium and device for performing the method
CN112884881B (zh) 三维人脸模型重建方法、装置、电子设备及存储介质
CN112614213B (zh) 人脸表情确定方法、表情参数确定模型、介质及设备
US20170024893A1 (en) Scene analysis for improved eye tracking
US20130155063A1 (en) Face Feature Vector Construction
JP2022503647A (ja) クロスドメイン画像変換
US20220398797A1 (en) Enhanced system for generation of facial models and animation
CN112819944A (zh) 三维人体模型重建方法、装置、电子设备及存储介质
US20220398795A1 (en) Enhanced system for generation of facial models and animation
US11282257B2 (en) Pose selection and animation of characters using video data and training techniques
US11887232B2 (en) Enhanced system for generation of facial models and animation
Dundar et al. Unsupervised disentanglement of pose, appearance and background from images and videos
KR102138809B1 (ko) 미세한 표정변화 검출을 위한 2차원 랜드마크 기반 특징점 합성 및 표정 세기 검출 방법
US20200357157A1 (en) A method of generating training data
Kowalski et al. Holoface: Augmenting human-to-human interactions on hololens
TW202244852A (zh) 用於擷取臉部表情且產生網格資料之人工智慧
US20220222898A1 (en) Intermediary emergent content
RU2755396C1 (ru) Нейросетевой перенос выражения лица и позы головы с использованием скрытых дескрипторов позы
KR102160955B1 (ko) 딥 러닝 기반 3d 데이터 생성 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant