CN109190674A - 训练数据的生成方法及装置 - Google Patents

训练数据的生成方法及装置 Download PDF

Info

Publication number
CN109190674A
CN109190674A CN201810880316.2A CN201810880316A CN109190674A CN 109190674 A CN109190674 A CN 109190674A CN 201810880316 A CN201810880316 A CN 201810880316A CN 109190674 A CN109190674 A CN 109190674A
Authority
CN
China
Prior art keywords
generation
training dataset
training
accuracy
control parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810880316.2A
Other languages
English (en)
Other versions
CN109190674B (zh
Inventor
魏楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810880316.2A priority Critical patent/CN109190674B/zh
Publication of CN109190674A publication Critical patent/CN109190674A/zh
Application granted granted Critical
Publication of CN109190674B publication Critical patent/CN109190674B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供一种训练数据的生成方法及装置。该方法包括:根据预设的控制参数,生成训练数据集,生成的训练数据集包括多个训练数据;采用生成的训练数据集对目标模型进行训练;采用测试数据集对训练好的目标模型进行测试,确定生成的训练数据集对应的正确率;根据生成的训练数据集对应的正确率和目标正确率,调整预设的控制参数,目标正确率为真实训练数据集对应的正确率。本发明实施例的方法,减小了生成的训练数据与真实训练数据之间的差异,能够满足模型训练的需求。

Description

训练数据的生成方法及装置
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种训练数据的生成方法及装置。
背景技术
随着人工智能的不断发展,越来越多基于人工智能的应用投入使用,为人们的生活带来了极大的便利,例如无人超市、无人车、无人餐厅、无人机等。
基于人工智能的应用在投入使用之前,需要使用大量已标注的训练数据完成对应用模型的训练。通过人工获取及标注训练数据,远远不能满足模型训练的需求,且人工获取及标注成本高,场景覆盖不足。
为了满足模型训练的需求,目前可以通过计算机模拟的方式生成训练数据,然而采用该方式生成的训练数据与真实的训练数据差别较大,训练出的应用模型精度较差,不能满足实际应用需求。
发明内容
本发明实施例提供一种训练数据的生成方法及装置,用以解决现有技术生成的训练数据与真实的训练数据差别较大,不能满足模型训练需求的问题。
第一方面,本发明实施例提供一种训练数据的生成方法,包括:
根据预设的控制参数,生成训练数据集,生成的训练数据集包括多个训练数据;
采用生成的训练数据集对目标模型进行训练;
采用测试数据集对训练好的目标模型进行测试,确定生成的训练数据集对应的正确率;
根据生成的训练数据集对应的正确率和目标正确率,调整预设的控制参数,目标正确率为真实训练数据集对应的正确率。
在一种可能的实现方式中,根据生成的训练数据集对应的正确率和目标正确率,调整预设的控制参数包括:
根据生成的训练数据集对应的正确率和目标正确率的差值,调整预设的控制参数,直至根据调整后的控制参数生成的训练数据集对应的正确率与目标正确率之间的差值小于预设阈值。
在一种可能的实现方式中,根据生成的训练数据集对应的正确率和目标正确率,调整预设的控制参数包括:
根据生成的训练数据集对应的正确率和目标正确率,确定损失函数;
根据损失函数,基于对抗网络对预设的控制参数进行调整。
在一种可能的实现方式中,根据预设的控制参数,生成训练数据集,包括:
根据预设的控制参数,构建虚拟的三维立体场景;
将设置了标签的物体模型置于三维立体场景中;
通过虚拟摄像机获取物体模型在三维立体场景中的图像数据;
将获取到的图像数据和标签作为训练数据集。
在一种可能的实现方式中,通过虚拟摄像机获取物体模型在三维立体场景中的图像数据包括:
设置虚拟摄像机在三维立体场景中的拍摄轨迹;
当虚拟摄像机沿拍摄轨迹运行时,获取位于不同观察视角的物体模型的图像数据。
在一种可能的实现方式中,预设的控制参数包括以下参数中的一种或者多种:
全局光照属性参数、直接光照属性参数、模拟物体表面材质属性参数和相机镜头属性参数。
第二方面,本发明实施例提供一种训练数据的生成装置,包括:
生成模块,用于根据预设的控制参数,生成训练数据集,生成的训练数据集包括多个训练数据;
训练模块,用于采用生成的训练数据集对目标模型进行训练;
确定模块,用于采用测试数据集对训练好的目标模型进行测试,确定生成的训练数据集对应的正确率;
调整模块,用于根据生成的训练数据集对应的正确率和目标正确率,调整预设的控制参数,目标正确率为真实训练数据集对应的正确率。
在一种可能的实现方式中,调整模块具体用于,
根据生成的训练数据集对应的正确率和目标正确率的差值,调整预设的控制参数,直至根据调整后的控制参数生成的训练数据集对应的正确率与目标正确率之间的差值小于预设阈值。
在一种可能的实现方式中,调整模块具体用于,
根据生成的训练数据集对应的正确率和目标正确率,确定损失函数;
根据损失函数,基于对抗网络对预设的控制参数进行调整。
在一种可能的实现方式中,生成模块具体用于,
根据预设的控制参数,构建虚拟的三维立体场景;
将设置了标签的物体模型置于三维立体场景中;
通过虚拟摄像机获取物体模型在三维立体场景中的图像数据;
将获取到的图像数据和标签作为训练数据集。
在一种可能的实现方式中,通过虚拟摄像机获取物体模型在三维立体场景中的图像数据包括:
设置虚拟摄像机在三维立体场景中的拍摄轨迹;
当虚拟摄像机沿拍摄轨迹运行时,获取位于不同观察视角的物体模型的图像数据。
在一种可能的实现方式中,预设的控制参数包括以下参数中的一种或者多种:
全局光照属性参数、直接光照属性参数、模拟物体表面材质属性参数和相机镜头属性参数。
第三方面,本发明实施例提供一种电子设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面任一项所述的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现如第一方面任一项所述的方法。
本发明实施例提供的训练数据的生成方法及装置,通过预设的控制参数,生成训练数据集用于对目标模型进行训练,在测试数据集上对训练好的目标模型进行测试,确定生成的训练数据集对应的正确率,并以真实训练数据集对应的目标正确率作为参照,不断调整控制参数,不断减小生成的训练数据与真实训练数据之间的差异,使得生成的训练数据集能够满足模型训练的需求,进而提高了采用生成的训练数据训练的模型的精度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为本发明提供的训练数据的生成方法一实施例的流程图;
图2为本发明提供的训练数据的生成方法又一实施例的流程图;
图3为本发明提供的训练数据的生成装置一实施例的结构示意图;
图4为本发明提供的电子设备一实施例的结构示意图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
本发明的说明书和权利要求书中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明中的“第一”和“第二”只起标识作用,而不能理解为指示或暗示顺序关系、相对重要性或者隐含指明所指示的技术特征的数量。“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本发明的说明书中通篇提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
图1为本发明提供的训练数据的生成方法一实施例的流程图。如图1所示,本实施例提供的方法可以包括:
步骤S101、根据预设的控制参数,生成训练数据集,生成的训练数据集包括多个训练数据。
训练数据集中的每一个训练数据都带有标签,即根据预设的控制参数生成的训练数据集是经过标注的。训练数据集中的训练数据的数量可以根据需要进行设置,为了保证目标模型的收敛,通常生成的训练数据集中都包括大量的训练数据。。
可以理解的是,目标模型的应用类别不同,训练数据的类别不同。例如,若目标模型用于文本分析类应用,则训练数据应为文本数据;若目标模型用于语音分析类应用,则训练数据应为音频数据;若目标模型用于图像分析类应用,则训练数据应为图像数据。
可选的,预设的控制参数根据训练数据的类别进行设置。例如,若训练数据为文本数据,则控制参数可以包括构建文本概率分布函数的参数。可选的,文本概率分布函数可以包括文本类别的概率分布函数、文本长度的概率分布函数和关键词的概率分布函数等。若训练数据为图像数据,包括图片和视频数据,则控制参数可以包括全局光照属性参数、直接光照属性参数、模拟物体表面材质属性参数和相机镜头属性参数等能够影响成像结果的参数。若训练数据为音频数据,则控制参数可以包括频率、幅度和相位等。本实施例并不限制控制参数的具体类型和具体数值,可以根据具体应用场景灵活选取。
步骤S102、采用生成的训练数据集对目标模型进行训练。
使用生成的训练数据集中的每一个训练数据对目标模型进行训练,具体的,以训练数据作为目标模型的输入,以训练数据的标签作为目标模型的期望输出,对目标模型进行训练。
需要说明的是,本实施例对于目标模型的具体形式不做限制。例如,目标模型可以是用于目标识别的识别模型,也可以是用于目标分类的分类模型,还可以是用于目标检测与跟踪的模型。目标模型可以根据具体应用场景进行设置。
步骤S103、采用测试数据集对训练好的目标模型进行测试,确定生成的训练数据集对应的正确率。
使用测试数据集中的每一个测试数据作为目标模型的输入,将目标模型对每一个测试数据的输出与该测试数据的标签进行比较,若相同则表示测试正确。将测试正确的数量除以测试数据集中包括的测试数据的总数量,作为生成的训练数据集对应的正确率。
步骤S104、根据生成的训练数据集对应的正确率和目标正确率,调整预设的控制参数,目标正确率为真实训练数据集对应的正确率。
真实训练数据集中的训练数据是由人工采集的现实世界中真实存在的数据,例如,人工拍摄的物体的图片、视频,人工录制的人的语音数据等。采用真实训练数据集对目标模型进行训练,并在测试数据集上进行测试得到的正确率,即为目标正确率。
以目标正确率作为参照,对控制参数进行不断调整,使生成的训练数据集对应的正确率不断逼近目标正确率,则生成的训练数据能够不断的逼近真实的训练数据。使得生成的训练数据能够满足模型训练精度的需求。
可选的,根据生成的训练数据集对应的正确率和目标正确率,调整预设的控制参数可以包括:
根据生成的训练数据集对应的正确率和目标正确率的差值,调整预设的控制参数,直至根据调整后的控制参数生成的训练数据集对应的正确率与目标正确率之间的差值小于预设阈值。
例如,可以采用反向传播的神经网络对生成的训练数据集对应的正确率和目标正确率的差值进行反馈,以便对控制参数进行不断的调整,直至根据调整后的控制参数生成的训练数据集对应的正确率与目标正确率之间的差值小于预设阈值。预设阈值可以根据目标模型的训练精度要求进行设置,对于训练精度要求高的目标模型可以设置较低的阈值。
可选的,根据生成的训练数据集对应的正确率和目标正确率,调整预设的控制参数可以包括:
根据生成的训练数据集对应的正确率和目标正确率,确定损失函数。
可选的,损失函数可以采用平方损失函数、绝对值损失函数、对数损失函数、指数损失函数。
根据损失函数,基于对抗网络对预设的控制参数进行调整。
本实施例提供的训练数据的生成方法,通过预设的控制参数,生成训练数据集用于对目标模型进行训练,在测试数据集上对训练好的目标模型进行测试,确定生成的训练数据集对应的正确率,并以真实训练数据集对应的目标正确率作为参照,不断调整控制参数,不断减小生成的训练数据与真实训练数据之间的差异,使得生成的训练数据集能够满足模型训练的需求,进而提高了采用生成的训练数据训练的模型的精度。
图2为本发明提供的训练数据的生成方法又一实施例的流程图。如图2所示,本实施例提供的方法可以包括:
步骤S201、根据预设的控制参数,生成训练数据集。
步骤S202、采用生成的训练数据集对目标模型进行训练。
步骤S203、采用测试数据集对训练好的目标模型进行测试,确定生成的训练数据集对应的正确率。
步骤S204、判断生成的训练数据集对应的正确率和目标正确率的差值是否小于预设阈值。若否,则继续执行步骤S205;若是,则执行步骤S206。
步骤S205、根据生成的训练数据集对应的正确率和目标正确率的差值对控制参数进行调整,根据调整后的控制参数,生成训练数据集。然后重复执行步骤S202。
步骤S206、根据调整后的控制参数,生成训练数据集。
本实施例提供的训练数据的生成方法,通过预设的控制参数,生成训练数据集用于对目标模型进行训练,在测试数据集上对训练好的目标模型进行测试,确定生成的训练数据集对应的正确率,并以真实训练数据集对应的目标正确率作为参照,不断调整控制参数,直至根据调整后的控制参数生成的训练数据集对应的正确率与目标正确率之间的差值小于预设阈值,减小了生成的训练数据与真实训练数据之间的差异,使得生成的训练数据集能够满足模型训练的需求,进而提高了采用生成的训练数据训练的模型的精度。
在上述任一实施例的基础上,下面采用一个具体的实施例来说明如何根据预设的控制参数,来生成训练数据集。
假如目标模型是用于目标识别的,则需要大量的已标注的图片数据用于训练目标模型。若由数据采集人员使用摄像机进行拍摄并标注,或者,在网络爬取图片并标注,不仅人工成本较高,且耗时较长,而且场景覆盖不够全面。
在本实施例中,根据预设的控制参数,生成训练数据集,可以包括:
根据预设的控制参数,构建虚拟的三维立体场景。
可选的,预设的控制参数包括以下参数中的一种或者多种:
全局光照属性参数、直接光照属性参数、模拟物体表面材质属性参数和相机镜头属性参数。
例如,可以使用Unreal Engine、Unity3D等工具,基于设置的全局光照属性、直接光照属性、模拟物体表面材质属性、相机镜头属性等,搭建需要模拟的虚拟三维立体场景。
将设置了标签的物体模型置于三维立体场景中。
本实施例中的物体模型是三维物体模型,标签可以理解为该物体的名称。例如,可以是杯子的三维物体模型,并且通过改变物体模型的参数,可以生成各种形态各异的杯子。
通过虚拟摄像机获取物体模型在三维立体场景中的图像数据。
使用虚拟三维立体场景中的虚拟摄像机对置于三维立体场景中的物体进行拍摄。
可选的,通过虚拟摄像机获取物体模型在三维立体场景中的图像数据可以包括:
设置虚拟摄像机在三维立体场景中的拍摄轨迹。例如,可以设置拍摄轨迹为以物体模型为圆心,以预设距离为半径的圆形。
当虚拟摄像机沿拍摄轨迹运行时,获取位于不同观察视角的物体模型的图像数据。
以圆形拍摄轨迹为例,可以在虚拟摄像机每移动一度时,对物体模型进行一次拍摄,便可以获取到物体模型360度全方位的图像数据了。
将获取到的图像数据和标签作为训练数据集。
获取到的大量的带有标签的图像数据便形成了训练数据集。
本发明实施例还提供一种训练数据的生成装置,请参见图3所示,本发明实施例仅以图3为例进行说明,并不表示本发明仅限于此。图3为本发明提供的训练数据的生成装置一实施例的结构示意图。如图3所示,本实施例提供的训练数据的生成装置30包括:生成模块301、训练模块302、确定模块303和调整模块304。
生成模块301,用于根据预设的控制参数,生成训练数据集,生成的训练数据集包括多个训练数据。
训练模块302,用于采用生成的训练数据集对目标模型进行训练。
确定模块303,用于采用测试数据集对训练好的目标模型进行测试,确定生成的训练数据集对应的正确率。
调整模块304,用于根据生成的训练数据集对应的正确率和目标正确率,调整预设的控制参数,目标正确率为真实训练数据集对应的正确率。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
可选的,调整模块304具体可以用于,
根据生成的训练数据集对应的正确率和目标正确率的差值,调整预设的控制参数,直至根据调整后的控制参数生成的训练数据集对应的正确率与目标正确率之间的差值小于预设阈值。
可选的,调整模块304具体可以用于,
根据生成的训练数据集对应的正确率和目标正确率,确定损失函数;
根据损失函数,基于对抗网络对预设的控制参数进行调整。
可选的,生成模块301具体可以用于,
根据预设的控制参数,构建虚拟的三维立体场景;
将设置了标签的物体模型置于三维立体场景中;
通过虚拟摄像机获取物体模型在三维立体场景中的图像数据;
将获取到的图像数据和标签作为训练数据集。
可选的,通过虚拟摄像机获取物体模型在三维立体场景中的图像数据可以包括:
设置虚拟摄像机在三维立体场景中的拍摄轨迹;
当虚拟摄像机沿拍摄轨迹运行时,获取位于不同观察视角的物体模型的图像数据。
可选的,预设的控制参数可以包括以下参数中的一种或者多种:
全局光照属性参数、直接光照属性参数、模拟物体表面材质属性参数和相机镜头属性参数。
本发明实施例还提供一种电子设备,请参见图4所示,本发明实施例仅以图4为例进行说明,并不表示本发明仅限于此。图4为本发明提供的电子设备一实施例的结构示意图。如图4所示,本实施例提供的电子设备40包括:存储器401、处理器402和总线403。其中,总线403用于实现各元件之间的连接。
存储器401中存储有计算机程序,计算机程序被处理器402执行时可以实现上述任一方法实施例提供的训练数据的生成方法的技术方案。
其中,存储器401和处理器402之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接,如可以通过总线403连接。存储器401中存储有实现训练数据的生成方法的计算机程序,包括至少一个可以软件或固件的形式存储于存储器401中的软件功能模块,处理器402通过运行存储在存储器401内的软件程序以及模块,从而执行各种功能应用以及数据处理。
存储器401可以是,但不限于,随机存取存储器(Random Access Memory,简称:RAM),只读存储器(Read Only Memory,简称:ROM),可编程只读存储器(ProgrammableRead-Only Memory,简称:PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,简称:EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,简称:EEPROM)等。其中,存储器401用于存储程序,处理器402在接收到执行指令后,执行程序。进一步地,上述存储器401内的软件程序以及模块还可包括操作系统,其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动,并可与各种硬件或软件组件相互通信,从而提供其他软件组件的运行环境。
处理器402可以是一种集成电路芯片,具有信号的处理能力。上述的处理器402可以是通用处理器,包括中央处理器(Central Processing Unit,简称:CPU)、网络处理器(Network Processor,简称:NP)等。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。可以理解,图4的结构仅为示意,还可以包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。图4中所示的各组件可以采用硬件和/或软件实现。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时可以实现上述任一方法实施例提供的训练数据的生成方法。本实施例中的计算机可读存储介质可以是计算机能够存取的任何可用介质,或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备,可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如SSD)等。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (14)

1.一种训练数据的生成方法,其特征在于,包括:
根据预设的控制参数,生成训练数据集,所述生成的训练数据集包括多个训练数据;
采用所述生成的训练数据集对目标模型进行训练;
采用测试数据集对训练好的所述目标模型进行测试,确定所述生成的训练数据集对应的正确率;
根据所述生成的训练数据集对应的正确率和目标正确率,调整所述预设的控制参数,所述目标正确率为真实训练数据集对应的正确率。
2.根据权利要求1所述的方法,其特征在于,所述根据所述生成的训练数据集对应的正确率和目标正确率,调整所述预设的控制参数包括:
根据所述生成的训练数据集对应的正确率和目标正确率的差值,调整所述预设的控制参数,直至根据调整后的控制参数生成的训练数据集对应的正确率与所述目标正确率之间的差值小于预设阈值。
3.根据权利要求1所述的方法,其特征在于,所述根据所述生成的训练数据集对应的正确率和目标正确率,调整所述预设的控制参数包括:
根据所述生成的训练数据集对应的正确率和所述目标正确率,确定损失函数;
根据所述损失函数,基于对抗网络对所述预设的控制参数进行调整。
4.根据权利要求1所述的方法,其特征在于,所述根据预设的控制参数,生成训练数据集,包括:
根据预设的控制参数,构建虚拟的三维立体场景;
将设置了标签的物体模型置于所述三维立体场景中;
通过虚拟摄像机获取所述物体模型在所述三维立体场景中的图像数据;
将获取到的图像数据和所述标签作为训练数据集。
5.根据权利要求4所述的方法,其特征在于,所述通过虚拟摄像机获取所述物体模型在所述三维立体场景中的图像数据包括:
设置所述虚拟摄像机在所述三维立体场景中的拍摄轨迹;
当所述虚拟摄像机沿所述拍摄轨迹运行时,获取位于不同观察视角的所述物体模型的图像数据。
6.根据权利要求4或5所述的方法,其特征在于,所述预设的控制参数包括以下参数中的一种或者多种:
全局光照属性参数、直接光照属性参数、模拟物体表面材质属性参数和相机镜头属性参数。
7.一种训练数据的生成装置,其特征在于,包括:
生成模块,用于根据预设的控制参数,生成训练数据集,所述生成的训练数据集包括多个训练数据;
训练模块,用于采用所述生成的训练数据集对目标模型进行训练;
确定模块,用于采用测试数据集对训练好的所述目标模型进行测试,确定所述生成的训练数据集对应的正确率;
调整模块,用于根据所述生成的训练数据集对应的正确率和目标正确率,调整所述预设的控制参数,所述目标正确率为真实训练数据集对应的正确率。
8.根据权利要求7所述的装置,其特征在于,所述调整模块具体用于,
根据所述生成的训练数据集对应的正确率和目标正确率的差值,调整所述预设的控制参数,直至根据调整后的控制参数生成的训练数据集对应的正确率与所述目标正确率之间的差值小于预设阈值。
9.根据权利要求7所述的装置,其特征在于,所述调整模块具体用于,
根据所述生成的训练数据集对应的正确率和所述目标正确率,确定损失函数;
根据所述损失函数,基于对抗网络对所述预设的控制参数进行调整。
10.根据权利要求7所述的装置,其特征在于,所述生成模块具体用于,
根据预设的控制参数,构建虚拟的三维立体场景;
将设置了标签的物体模型置于所述三维立体场景中;
通过虚拟摄像机获取所述物体模型在所述三维立体场景中的图像数据;
将获取到的图像数据和所述标签作为训练数据集。
11.根据权利要求10所述的装置,其特征在于,所述通过虚拟摄像机获取所述物体模型在所述三维立体场景中的图像数据包括:
设置所述虚拟摄像机在所述三维立体场景中的拍摄轨迹;
当所述虚拟摄像机沿所述拍摄轨迹运行时,获取位于不同观察视角的所述物体模型的图像数据。
12.根据权利要求10或11所述的装置,其特征在于,所述预设的控制参数包括以下参数中的一种或者多种:
全局光照属性参数、直接光照属性参数、模拟物体表面材质属性参数和相机镜头属性参数。
13.一种电子设备,其特征在于,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-6任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-6任一项所述的方法。
CN201810880316.2A 2018-08-03 2018-08-03 训练数据的生成方法及装置 Active CN109190674B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810880316.2A CN109190674B (zh) 2018-08-03 2018-08-03 训练数据的生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810880316.2A CN109190674B (zh) 2018-08-03 2018-08-03 训练数据的生成方法及装置

Publications (2)

Publication Number Publication Date
CN109190674A true CN109190674A (zh) 2019-01-11
CN109190674B CN109190674B (zh) 2021-07-20

Family

ID=64920100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810880316.2A Active CN109190674B (zh) 2018-08-03 2018-08-03 训练数据的生成方法及装置

Country Status (1)

Country Link
CN (1) CN109190674B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257605A (zh) * 2020-10-23 2021-01-22 中国科学院自动化研究所 基于自标注训练样本的三维目标检测方法、系统及装置
CN112859907A (zh) * 2020-12-25 2021-05-28 湖北航天飞行器研究所 少样本条件下基于三维特效仿真的火箭残骸高空检测方法
CN112988727A (zh) * 2021-03-25 2021-06-18 北京百度网讯科技有限公司 数据标注方法、装置、设备、存储介质及计算机程序产品
CN114324124A (zh) * 2021-12-21 2022-04-12 桂林优利特医疗电子有限公司 一种基于概率密度估计的散点样本数据扩充方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009041350A1 (en) * 2007-09-26 2009-04-02 Canon Kabushiki Kaisha Calculation processing apparatus and method
US20090304271A1 (en) * 2006-08-10 2009-12-10 Yusuke Takahashi Object region extracting device
CN106055776A (zh) * 2016-05-27 2016-10-26 大连楼兰科技股份有限公司 基于人工智能有监督学习线性回归方法建立不同车型分区域远程定损系统及方法
US9665800B1 (en) * 2012-10-21 2017-05-30 Google Inc. Rendering virtual views of three-dimensional (3D) objects
CN107451661A (zh) * 2017-06-29 2017-12-08 西安电子科技大学 一种基于虚拟图像数据集的神经网络迁移学习方法
CN107452060A (zh) * 2017-06-27 2017-12-08 西安电子科技大学 全角度自动采集生成虚拟数据集方法
CN107609481A (zh) * 2017-08-14 2018-01-19 百度在线网络技术(北京)有限公司 为人脸识别生成训练数据的方法、装置和计算机存储介质
CN107622056A (zh) * 2016-07-13 2018-01-23 百度在线网络技术(北京)有限公司 训练样本的生成方法和装置
CN107690672A (zh) * 2017-07-25 2018-02-13 深圳前海达闼云端智能科技有限公司 训练数据生成方法、生成装置及其图像语义分割方法
CN107958268A (zh) * 2017-11-22 2018-04-24 用友金融信息技术股份有限公司 一种数据模型的训练方法及装置
CN108133237A (zh) * 2017-12-26 2018-06-08 新智数通(北京)技术服务有限公司 目标任务训练方法及系统
CN108171335A (zh) * 2017-12-06 2018-06-15 东软集团股份有限公司 建模数据的选取方法、装置、存储介质及电子设备
CN108345869A (zh) * 2018-03-09 2018-07-31 南京理工大学 基于深度图像和虚拟数据的驾驶人姿态识别方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090304271A1 (en) * 2006-08-10 2009-12-10 Yusuke Takahashi Object region extracting device
WO2009041350A1 (en) * 2007-09-26 2009-04-02 Canon Kabushiki Kaisha Calculation processing apparatus and method
US9665800B1 (en) * 2012-10-21 2017-05-30 Google Inc. Rendering virtual views of three-dimensional (3D) objects
CN106055776A (zh) * 2016-05-27 2016-10-26 大连楼兰科技股份有限公司 基于人工智能有监督学习线性回归方法建立不同车型分区域远程定损系统及方法
CN107622056A (zh) * 2016-07-13 2018-01-23 百度在线网络技术(北京)有限公司 训练样本的生成方法和装置
CN107452060A (zh) * 2017-06-27 2017-12-08 西安电子科技大学 全角度自动采集生成虚拟数据集方法
CN107451661A (zh) * 2017-06-29 2017-12-08 西安电子科技大学 一种基于虚拟图像数据集的神经网络迁移学习方法
CN107690672A (zh) * 2017-07-25 2018-02-13 深圳前海达闼云端智能科技有限公司 训练数据生成方法、生成装置及其图像语义分割方法
CN107609481A (zh) * 2017-08-14 2018-01-19 百度在线网络技术(北京)有限公司 为人脸识别生成训练数据的方法、装置和计算机存储介质
CN107958268A (zh) * 2017-11-22 2018-04-24 用友金融信息技术股份有限公司 一种数据模型的训练方法及装置
CN108171335A (zh) * 2017-12-06 2018-06-15 东软集团股份有限公司 建模数据的选取方法、装置、存储介质及电子设备
CN108133237A (zh) * 2017-12-26 2018-06-08 新智数通(北京)技术服务有限公司 目标任务训练方法及系统
CN108345869A (zh) * 2018-03-09 2018-07-31 南京理工大学 基于深度图像和虚拟数据的驾驶人姿态识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HELGA INGIMUNDARDÓTTIR ET AL: "Generating Training Data for Learning Linear Composite Dispatching Rules for Scheduling", 《LION 2015: LEARNING AND INTELLIGENT OPTIMIZATION》 *
JUNHUA DING ET AL: "Augmentation and evaluation of training data for deep learning", 《2017 IEEE INTERNATIONAL CONFERENCE ON BIG DATA (BIG DATA)》 *
欧啸天等: "自然场景中Logo标识检测训练数据生成方法研究", 《电子设计工程》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257605A (zh) * 2020-10-23 2021-01-22 中国科学院自动化研究所 基于自标注训练样本的三维目标检测方法、系统及装置
CN112257605B (zh) * 2020-10-23 2021-07-23 中国科学院自动化研究所 基于自标注训练样本的三维目标检测方法、系统及装置
CN112859907A (zh) * 2020-12-25 2021-05-28 湖北航天飞行器研究所 少样本条件下基于三维特效仿真的火箭残骸高空检测方法
CN112988727A (zh) * 2021-03-25 2021-06-18 北京百度网讯科技有限公司 数据标注方法、装置、设备、存储介质及计算机程序产品
US11604766B2 (en) 2021-03-25 2023-03-14 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, device, storage medium and computer program product for labeling data
CN114324124A (zh) * 2021-12-21 2022-04-12 桂林优利特医疗电子有限公司 一种基于概率密度估计的散点样本数据扩充方法

Also Published As

Publication number Publication date
CN109190674B (zh) 2021-07-20

Similar Documents

Publication Publication Date Title
CN109190674A (zh) 训练数据的生成方法及装置
KR20200121274A (ko) 전자 지도를 업데이트하기 위한 방법, 장치 및 컴퓨터 판독 가능한 저장 매체
CN103324937B (zh) 标注目标的方法和装置
US11328401B2 (en) Stationary object detecting method, apparatus and electronic device
CN108921221A (zh) 用户特征的生成方法、装置、设备及存储介质
CN104899579A (zh) 人脸识别方法和装置
US9551579B1 (en) Automatic connection of images using visual features
CN109325429A (zh) 一种关联特征数据的方法、装置、存储介质及终端
RU2331096C1 (ru) Способ моделирования процессов управления техническими средствами и система для его осуществления
CN108460427A (zh) 一种分类模型训练方法、装置以及分类方法及装置
CN115457395A (zh) 基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法
CN109284700B (zh) 图像中多个人脸检测的方法、存储介质、设备及系统
CN110069997B (zh) 场景分类方法、装置及电子设备
CN115081613A (zh) 生成深度学习模型的方法、装置、电子设备及存储介质
CN114461853A (zh) 视频场景分类模型的训练样本生成方法、装置及设备
CN116958267B (zh) 位姿处理方法、装置、电子设备及存储介质
CN116522565B (zh) 一种基于bim的电力工程设计配电网规划方法及计算机设备
CN113780287A (zh) 一种多深度学习模型的最优选取方法及系统
CN111325255B (zh) 特定人群圈定方法、装置、电子设备及存储介质
CN112749894A (zh) 一种缺陷检测模型评价方法以及装置
CN112270748A (zh) 基于图像的三维重建方法及装置
CN111027376A (zh) 一种确定事件图谱的方法、装置、电子设备及存储介质
CN110414792A (zh) 基于bim和大数据的部品集采管理系统及相关产品
CN110017998A (zh) 车辆检测方法、装置和设备
CN113139932B (zh) 一种基于集成学习的深度学习缺陷图像识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant