CN110197190A

CN110197190A - 模型训练和物体的定位方法及装置

Info

Publication number: CN110197190A
Application number: CN201810161865.4A
Authority: CN
Inventors: 王旭; 马星辰; 张彦刚
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2018-02-27
Filing date: 2018-02-27
Publication date: 2019-09-03
Anticipated expiration: 2038-02-27
Also published as: CN110197190B

Abstract

本发明提出一种模型训练和物体的定位方法及装置，其中，方法包括：获取包含标注信息的训练样本图像，其中，训练样本图像包括第一合成图像，而第一合成图像是在真实环境下拍摄得到的第一真实图像，从第一真实图像中提取呈现有训练物体的局部图像，与背景图像进行合成得到的。采用训练样本图像对学习模型进行训练。通过对真实环境下拍摄得到的图像提取呈现有训练物体的局部图像，并将该局部图像与任意的背景图像合成作为训练样本图像，实现了仅需要对少量拍摄图像进行人工标注物体位置后，即可确定训练样本的标注，解决了现有技术中，训练样本图像需要人工进行标注，而模型训练需要大量的训练数据，导致耗费过多的人力，且效率较低的问题。

Description

模型训练和物体的定位方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种模型训练和物体的定位方法及装置。

背景技术

机器学习模型是实现人工智能的基础，而机器学习模型在使用之前需要采集大量的训练样本，进行训练。

相关技术中，机器学习模型的训练样本，是采集大量的数据，并采用人工标注的方式实现，而这种训练样本的标注方法需要耗费大量的人力，效率较低。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明提出一种模型训练方法，通过对真实环境下拍摄得到的图像提取呈现有训练物体的局部图像，并将该局部图像与任意的背景图像合成作为训练样本图像，实现了仅需要对少量拍摄图像进行人工标注物体位置后，即可确定训练样本的标注，提高了训练样本标注的效率，节省了人力。

本发明提出一种物体的定位方法。

本发明提出一种模型训练装置。

本发明提出一种物体的定位装置。

本发明提出一种计算机设备。

本发明提出一种计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种模型训练方法，包括：

获取包含标注信息的训练样本图像，所述标注信息根据对应样本图像中训练物体的位置信息生成；其中，所述训练样本图像包括第一合成图像；所述第一合成图像为从第一真实图像中提取的呈现有训练物体的局部图像，与背景图像进行合成得到的图像；所述第一真实图像为在真实环境下拍摄得到的图像；

采用训练样本图像对学习模型进行训练。

可选地，作为第一方面的第一种可能的实现方式，所述第一合成图像中训练物体的位置信息，根据所述局部图像与所述背景图像合成时的相对位置，以及在所述第一真实图像中已标注的训练物体位置确定。

可选地，作为第一方面的第二种可能的实现方式，所述训练样本图像还包括第二真实图像；所述第二真实图像为在真实环境下拍摄得到的图像。

可选地，作为第一方面的第三种可能的实现方式，在采用训练样本对学习模型进行训练之前，还包括：

获取包含标注信息的预训练样本图像；其中，所述预训练样本包括虚拟图像；所述虚拟图像为在虚拟环境下拍摄得到的图像；

采用预训练样本图像对所述学习模型进行预训练。

可选地，作为第一方面的第四种可能的实现方式，所述虚拟图像中训练物体的位置信息，根据所述虚拟环境下拍摄相机的相机参数，以及训练物体的位姿信息确定。

可选地，作为第一方面的第五种可能的实现方式，在采用训练样本图像对学习模型进行训练之后，还包括：

获取包含标注信息的校正训练样本；其中，所述校正训练样本包括第二合成图像；所述第二合成图像为从第三真实图像中提取的呈现有训练物体的局部图像，与待测环境图像进行合成得到的图像；所述第三真实图像为在真实环境下拍摄得到的图像；所述待测环境图像为在待测的真实场景下拍摄得到的图像；

采用校正训练样本图像对所述学习模型进行继续训练。

可选地，作为第一方面的第六种可能的实现方式，所述第二合成图像中训练物体的位置信息，根据所述第三真实图像中提取的局部图像与所述待测环境图像进行合成时的相对位置，以及所述第三真实图像中已标注的训练物体位置确定。

可选地，作为第一方面的第七种可能的实现方式，在采用校正训练样本图像对所述学习模型进行继续训练之前，还包括：

确认所述学习模型的精度不满足预设要求。

可选地，作为第一方面的第八种可能的实现方式，所述学习模型为神经网络模型。

本发明实施例的模型训练方法中，获取包含标注信息的训练样本图像，其中，训练样本图像包括第一合成图像，而第一合成图像是在真实环境下拍摄得到的第一真实图像，从第一真实图像中提取呈现有训练物体的局部图像，与背景图像进行合成得到的。采用训练样本图像对学习模型进行训练。通过对真实环境下拍摄得到的图像提取呈现有训练物体的局部图像，并将该局部图像与任意的背景图像合成作为训练样本图像，实现了仅需要对少量拍摄图像进行人工标注物体位置后，即可确定训练样本的标注，解决了现有技术中，训练样本图像需要人工进行标注，而模型训练需要大量的训练数据，导致耗费过多的人力，且效率较低的问题。

为达上述目的，本发明第二方面实施例提出了一种物体的定位方法，该方法是基于第一方面所述的模型训练方法得到的学习模型实现的，包括：

将待测图像输入训练得到的学习模型，得到所述待测图像对应的输出值；

根据所述输出值确定待测图像中物体的位置信息。

可选地，作为第二方面的第一种可能的实现方式，每个标注信息根据对应样本图像中一个训练物体的位置信息生成，用于指示一个概率密度函数的期望；

将待测图像输入训练得到的学习模型，得到所述待测图像对应的输出值，包括：

将待测图像输入训练得到的学习模型，得到所述待测图像对应的各概率密度函数的参数值；所述参数值用于指示各概率密度函数的期望、方差和/或在混合概率密度函数中所占的权重；

根据各概率密度函数的参数值，生成混合概率密度函数；

根据所述混合概率密度函数，确定所述待测图像中物体的位置信息。

可选地，作为第二方面的第二种可能的实现方式，所述根据各概率密度函数的参数值，生成混合概率密度函数，包括：

根据用于指示期望和方差的参数值，确定对应概率密度函数的期望和方差；

根据用于指示权重的参数值，对确定期望和方差的概率密度函数进行加权求和，得到所述混合概率密度函数。

可选地，作为第二方面的第三种可能的实现方式，所述根据所述混合概率密度函数，确定所述待测图像中物体的位置信息，包括：

依据所述混合概率密度函数进行采样，得到所述待测图像中多个候选位置；

根据所述多个候选位置，确定所述位置信息。

可选地，作为第二方面的第四种可能的实现方式，所述根据所述多个候选位置，确定所述位置信息，包括：

根据所述多个候选位置之间的距离，对所述多个候选位置进行聚类，以得到至少一个聚簇；

针对每一个聚簇，根据聚簇中所含候选位置的平均值，确定一个位置信息。

可选地，作为第二方面的第五种可能的实现方式，所述定位方法还包括：

对所述多个候选位置进行聚类，以得到至少一个聚簇之后，根据聚簇的个数，确定所述待测图像中呈现物体的个数；

或者，根据所述多个候选位置，确定所述位置信息之后，根据所述位置信息的个数，确定所述待测图像中呈现物体的个数。

可选地，作为第二方面的第六种可能的实现方式，所述位置信息包括所述物体的成像区域的中心位置；所述根据所述输出值确定待测图像中物体的位置信息之后，还包括：

根据所述位置信息，进行物体抓取。

本发明实施例的物体的定位方法，该方法基于第一方面的模型训练方法得到的学习模型来实现，将待测图像输入训练得到的学习模型，得到待测图像对应的输出值，根据输出值确定待测图像中物体的位置信息。以实现通过将学习模型学习各图像特征与各概率密度函数的参数值之间的映射关系，与概率密度函数确定物体位置相结合，实现了物体的定位，同时，可应用于不同的应用场景中。

为达上述目的，本发明第三方面实施例提出了一种模型训练装置，该装置包括：

第一拍摄模块，用于获取包含标注信息的训练样本图像，所述标注信息根据对应训练样本图像中训练物体的位置信息生成；其中，所述训练样本图像包括第一合成图像；所述第一合成图像为从第一真实图像中提取的呈现有训练物体的局部图像，与背景图像进行合成得到的图像；所述第一真实图像为在真实环境下拍摄得到的图像；

第一训练模块，用于采用训练样本图像对学习模型进行训练。

本发明实施例的模型训练装置中，获取包含标注信息的训练样本图像，其中，训练样本图像包括第一合成图像，而第一合成图像是在真实环境下拍摄得到的第一真实图像，从第一真实图像中提取呈现有训练物体的局部图像，与背景图像进行合成得到的。采用训练样本图像对学习模型进行训练。通过对真实环境下拍摄得到的图像提取呈现有训练物体的局部图像，并将该局部图像与任意的背景图像合成作为训练样本图像，实现了仅需要对少量拍摄图像进行人工标注物体位置后，即可确定训练样本的标注，解决了现有技术中，训练样本图像需要人工进行标注，而模型训练需要大量的训练数据，导致耗费过多的人力，且效率较低的问题。

为达上述目的，本发明是第四方面实施例还提出了一种物体的定位装置，该装置包括：

处理模块，用于将待测图像输入训练得到的学习模型，得到所述待测图像对应的输出值；其中，所述学习模型是采用第三方面所述的装置训练得到的；

定位模块，用于根据所述输出值确定待测图像中物体的位置信息。

本发明实施例的物体的定位装置，处理模块用于将待测图像输入训练得到的学习模型，得到待测图像对应的输出值，定位模块用于根据输出值确定待测图像中物体的位置信息。通过训练得到的学习模型实现了物体的定位，同时，可应用于不同的应用场景中。

为达上述目的，本发明第五方面实施例提出了一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如第一方面所述的模型训练方法，和/或，实现如第二方面所述的物体的定位方法。

为了实现上述目的，本发明第六方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现如第一方面所述的模型训练方法，和/或，实现如第二方面所述的物体的定位方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种模型训练方法的流程示意图；

图2为本发明实施例所提供的合成的训练样本图像的示意图；

图3为本申请实施例所提供的另一种模型训练的方法的流程示意图；

图4为本发明实施例所提供的又一种模型训练方法的流程示意图；

图5即为本申请实施例提供的预训练样本图像的示意图；

图6为本发明实施例所提供的再一种模型训练方法的流程示意图；

图7为本申请实施例所提供的一种物体的定位方法的流程示意图；

图8为本发明实施例所提供的另一种物体的定位方法的流程示意图；

图9为本发明实施例提供的一种模型训练装置的结构示意图；

图10为本发明实施例所提供的另一种模型训练装置的结构示意图；

图11为本发明实施例所提供的一种物体的定位装置的结构示意图；

图12为本发明实施例所提供的另一种物体的定位装置的结构示意图；以及

图13示出了适于用来实现本申请实施方式的示例性计算机设备的框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的模型训练和物体的定位方法及装置。

图1为本发明实施例所提供的一种模型训练方法的流程示意图。

如图1所示，该方法包括以下步骤：

步骤101，获取包含标注信息的训练样本图像。

其中，本申请实施例提供的模型训练方法的执行主体，为本申请实施例提供的模型训练装置，该装置可以被配置在包括摄像组件的电子设备中，以通过电子设备采集图像生成训练样本。

具体地，训练样本图像包括第一合成图像，第一合成图像为从第一真实图像中提取的呈现有训练物体的局部图像，与背景图像进行合成得到的图像。

作为一种可能的实现方式，呈现有训练物体的局部图像，可在photoshop软件中将训练物体从第一真实图像中采用抠图的方法提取出来，也就是说，提取的局部图像就是训练物体的图像。

第一真实图像后是在真实环境下通过摄像组件拍摄得到的，第一真实图像在合成第一合成图像之前，先进行人工标注，标注信息根据对应样本图像中训练物体的位置信息生成，位置信息包括物体的成像区域的像素中心位置。例如，训练物体在第一真实图像中为长方体，作为一种可能的实现方式，确定该长方体左下角的顶点的像素坐标和右下角的顶点的像素坐标，通过简单的运算确定该长方体横轴方向上的像素中心点的坐标x1，同理，可确定该长方体在纵轴上的中心点的坐标y1，从而确定该长方体的中心点坐标，该中心点坐标即为第一真实图像中待训练物体的中心点坐标，从而，对该中心点进行标注，完成第一真实图像中训练物体的人工标注。

需要说明的是，如果第一真实图像中训练物体的形状为不规则形状，则将其近似为比较接近的规则形状，根据训练物体的形状特点，进行人工标注中心点。

需要理解的是，第一真实图像中训练物体的标注点，也可以为训练物体的左下的顶点，也可以为其它位置，本实施例中不作限定。

进而，根据局部图像与背景图像合成时的相对位置，以及在第一真实图像中已标注的训练物体的位置，可确定第一合成图像中训练物体的位置信息。

作为一种可能的实现方式，具体地，在背景图像中预设一个像素点为起点，根据已标注的训练物体的中心位置，将训练物体的中心位置放置于该起点位置，将训练物体在背景图像中随机的移动一定的距离，根据训练物体与背景图形合成时移动的相对距离，可计算得到随机移动后训练物体的中心位置的像素位置，随机移动后训练物体的中心位置的像素位置表征训练物体在第一合成图像中的相对位置。从而，可确定训练物体的中心在第一合成图像中的相对位置信息。

例如，在背景图像中预设像素点(5，5)为起点，将已标注的训练物体的中心位置放置于背景图像中像素点(5，5)的位置，随机的向右移动4个像素点，向上移动6个像素点，则根据移动的相对距离，已标注训练物体的中心位置在背景图像中的相对位置为(9，11)。

作为确定第一合成图像中训练物体的位置信息的第二种可能的实现方式，具体地，将标注了位置信息的局部图像与任意背景图像进行合成，作为一种可能的实现方式，可根据本次训练获取的所有的训练物体的中心点，在背景图像中，预先确定一定数量的位置坐标，然后，将训练物体标注的中心点随机置于预先确定的位置坐标上，即可确定训练物体的中心在第一合成图像中的相对位置信息，原理同上一种确定第一合成图像中训练物体的位置信息的实现方式，此处不再赘述。本实施例中预先确定一定数量的位置坐标包括背景图像的像素中心点坐标，对本领域技术人员来讲，也可以以背景图像中其它位置坐标，对此本实施例中不作限定。

图2为本发明实施例所提供的合成的训练样本图像的示意图，如图2中所示，上面的A图是真实拍摄的图像，即本实施例中的第一真实图像，将第一真实图像中的酸奶瓶进行中心位置的标注，如图2中“*”，并将含有标注的酸奶瓶提取出来，和背景图像进行合成，得到下面的B图，B图即合成得到的图像，即第一合成图像，第一合成图像可确定酸奶瓶的中心位置在第二合成图像中的相对位置，即B图中“*”指示的位置。

作为一种可能的实现方式，训练样本还可以包括第二真实图像，第二真实图像是在真实环境下拍摄得到的图像。第二真实图像，可以包括第一真实图像，也可以为在真实环境下拍摄得到的不同于第一真实图像的真实图像。得到第二真实图像后，对第二真实图像进行人工标注，作为训练样本图像。

需要说明的是，获取训练样本对模型进行训练，训练完成的模型可应用于物体的定位，而对物体进行定位的场景为真实的环境场景，第一真实图像和第二真实图像即在该真实环境场景中通过摄像组件拍摄得到的。其中，将训练完成的模型应用于物体的定位方法，下述实施例中会详细解释。

步骤102，采用训练样本图像对学习模型进行训练。

作为一种可能的实现方式，学习模型可为神经网络模型。将训练样本图像输入到学习模型进行训练，使得模型收敛，对于模型训练的方法，下述实施例中会进一步介绍。

本发明实施例的模型训练方法中，获取包含标注信息的训练样本图像，其中，训练样本图像包括第一合成图像，而第一合成图像是在真实环境下拍摄得到的第一真实图像，从第一真实图像中提取呈现有训练物体的局部图像，与背景图像进行合成得到的。采用训练样本图像对学习模型进行训练。通过对真实环境下拍摄得到的图像提取呈现有训练物体的局部图像，并将该局部图像与任意的背景图像合成作为训练样本图像，实现了仅需要对少量拍摄图像进行人工标注物体位置后，即可确定训练样本的标注，从而获取大量的训练样本，解决了现有技术中，模型训练需要的大量的训练样本需要人工进行标注，导致耗费过多的人力，且效率较低的问题。

上述实施例中说明了，如何获取大量含有标注的训练样本，并通过训练样本对模型进行训练的方法，而本申请实施例提出了另一种模型训练的可能的实现方式，图3为本申请实施例所提供的另一种模型训练的方法的流程示意图，进一步清楚的说明了基于上一实施例中获取的大量的训练样本，对模型进行训练的过程，基于上一实施例，步骤102，还可以包括如下子步骤：

步骤1021，将训练样本图像输入学习模型，得到样本图像对应的各概率密度函数的参数值。

其中，学习模型可为神经网络模型，参数值用于指示各概率密度函数的期望、方差和/或在混合概率密度函数中所占的权重。

具体地，将训练样本输入学习模型中，学习模型的输入层根据训练样本对应的图像进行特征提取，学习模型根据提取到的图像特征，确定图像特征对应的学习模型中各概率密度函数的参数值。

步骤1022，根据参数值和训练样本的标注确定损失函数的取值。

具体地，将用于指示期望和方差的参数值，以及训练样本的标注，代入各概率密度函数对应的似然函数，根据各概率密度函数对应的似然函数取值，以及用于指示权重的参数值，进行加权平均求和，确定混合概率密度函数的似然函数取值，根据混合概率密度函数的似然函数取值，确定损失函数取值，从而调整模型参数，使得损失函数取值最小，学习模型尽快收敛。

作为一种可能的实现方式，各概率密度函数符合高斯型分布，单个概率密度函数的似然函数可以用如下公式表示：

其中，t代表标注的取值，μ_i代表每个概率密度函数的期望，代表概率密度函数的方差，x表示需预测的物体位置，例如物体中心坐标。

混合概率密度函数的似然函数公式为：

其中，n为概率密度函数的个数，α_i为各概率密度函数的似然函数在混合概率密度函数中所占的权重，α_i的和为1。

为了提高模型训练效率，作为一种可能的实现方式，可以对混合概率密度函数的似然函数做对数运算，然后取反得到损失函数，损失函数用E表示，则E＝-lnP。以便采用反向梯度算法进行模型训练。

需要说明的是，实际应用中，本领域技术人员会根据实际情况使用各种trick对损失函数进行变换，包括但不限于在对混合概率密度函数的似然函数做对数运算并取反之前，进行指数运算和求和运算等，本实施例中对损失函数的获取方法不做具体限定。

步骤1023，当损失函数取值最小时，学习模型训练完成。

具体地，根据损失函数的取值，调整学习模型的参数，以使得学习模型在确定的模型参数下，获得的损失函数的取值最小，当损失函数取值最小时，学习模型训练完成。

作为一种可能的实现方式，可采用反向梯度算法，逆向确定学习模型的模型参数，具体为：按照步骤2中确定损失函数的取值，然后梯度减小损失函数值，反向调整学习模型的模型参数，同时反向调整学习模型本身的矩阵权值系数，以使得损失函数的取值尽量小，在全部训练数据完成后，达到整体平衡的最优解，即损失函数值最小，从而确定了学习模型的参数，即学习模型训练完成。

本发明实施例的模型训练方法中，通过对真实环境下拍摄得到的图像提取呈现有训练物体的局部图像，并将该局部图像与任意的背景图像合成作为训练样本图像，实现了仅需要对少量拍摄图像进行人工标注物体位置后，即可确定训练样本的标注，从而获取大量的训练样本，将标注的训练样本输入到学习模型进行训练，使得学习模型通过训练样本学习得到各图像特征与各概率密度函数的参数值之间的映射关系，从而使得输入训练样本的图像后，即可输出对应的概率密度函数的参数值，根据该参数值，可用于物体的定位。

上述实施例中说明了，通过拍摄获取少量包含训练物体的真实图像，对真实图像中训练物体的中心位置进行标注，并提取呈现有训练物体的局部图像，将该已标注的局部图像与背景图像合成得到训练样本图像，用于模型训练。而为了提高模型收敛的速度，可以采用虚拟图像对模型进行预训练，使得模型尽快收敛。

为此，本实施例提供了一种可能的模型训练的方法，说明了采用虚拟图像对模型进行预训练的过程，图4为本发明实施例所提供的又一种模型训练方法的流程示意图，如图4所示，在上一实施例的步骤102之前，还可以包括如下步骤：

步骤301，获取包含标注信息的预训练样本图像。

具体地，预训练样本图像包括虚拟图像，虚拟图像为在虚拟环境下拍摄得到的图像，作为一种可能的实现方式，可采用在仿真软件(Gazebo)中设置用来采集图像的相机的参数等内容，从而在Gazebo虚拟环境中生成较大数量的虚拟图像，虚拟图像中包含训练物体。其中，训练物体可以根据学习模型应用的具体场景中的目标物体的实际形状、大小等参数构建得到。同理的，在这种情况下，摄像机的参数便可以根据实际场景中采用的摄像机的实际内部参数及外部参数构建得到。

图5即为本申请实施例提供的预训练样本图像的示意图，如图5所示，即为生成的包含有训练物体及其标注信息的虚拟图像，其中实线“x”即指示虚拟图像中训练物体的标注位置。

虚拟图像中训练物体的位置信息，根据虚拟环境下拍摄相机的相机参数，以及训练物体的位资信息、摄像机的位资信息确定。首先获取预先构建的摄像机的当前位姿信息，以及预先构建的待标注训练物体的当前位姿信息及物理参数，然后根据摄像机的当前位姿信息及待标注训练物体的当前位姿信息，通过坐标变换，得到待标注训练物体在摄像机模型坐标系中的目标位姿信息，再根据摄像机的内部参数矩阵、物理参数及目标位姿信息，确定训练物体在摄像机当前采集图像中的像素位置，最后在图像中标注像素位置。在虚拟环境下，对摄像机采集的图像中待标注物体的像素位置进行标注，免去人工标注工作，且能够快速改变训练物体的位姿，获得大量标注后的图像，极大地提升图像标注效率。

其中，位姿信息可以包括在世界坐标系中的三维位置信息以及三维姿态信息。可以理解的是，在虚拟环境中，摄像机确定后，可以任意调整其位姿，例如，摄像机的旋转、平移等，进而，摄像机的位姿信息也就可以获取到，摄像机的三维姿态信息可以包括摄像机的光轴方向等信息。

而训练物体的物理参数可以为能够标识训练物体模型大小的参数。例如，训练物体为一圆柱形杯子，那么训练物体的物理参数可以为杯子底部圆形的直径、圆心坐标以及杯子的高度等信息。又例如，训练物体为一长方体的盒子，那么训练物体的物理参数可以为盒子的长、宽、高以及某顶点坐标或中心点坐标等信息。步骤302，采用预训练样本图像对学习模型进行预训练。

具体地，采用预训练样本图像对学习模型进行预训练的方法，可参照图2对应实施例中的方法，原理相同，此处不再赘述。

需要说明的是，步骤301和步骤302，可以在步骤101之前执行，也可以在步骤101之后执行，当然，也可以同时执行，步骤301和步骤302执行的顺序，不会对后续步骤产生任何影响。

本发明实施例的模型训练方法中，在虚拟环境下，对摄像机采集的图像中待标注物体的像素位置进行标注，免去人工标注工作，且能够快速改变训练物体的位姿，获得大量标注后的图像，极大地提升图像标注效率。通过标注的虚拟图像样本对学习模型进行预训练，可以提高采用训练样本进行模型训练时，模型收敛的速度。

上述实施例中说明了对模型训练的过程，模型训练完成后，当模型的精度不满足预设要求，或者使用场景发生变化时，模型的精度会有所降低，则需要对模型进行校正，为此本申请实施例还提出了一种模型训练的可能的实现方式，图6为本发明实施例所提供的再一种模型训练方法的流程示意图，如图6所示，上述实施例中的步骤102之后，还可以包括如下步骤：

步骤401，确认学习模型的精度不满足预设要求。

具体地，将标注了位置信息的物体输入到学习模型中，若根据模型输出值确定的物体的位置信息对应的学习模型的损失函数大于阈值，则说明学习模型的精度不满足预设要求，则需要采集训练样本，对模型进行校正训练，提高模型的精度。

步骤402，获取包含标注信息的校正训练样本。

具体地，校正训练样本包含第二合成图像，第二合成图像为从第三真实图像中提取的呈现有训练物体的局部图像，与待测环境图像进行合成得到的图像。其中，第三真实图像为在真实环境下拍摄得到的图像，而待测环境图像为在待测的真实场景下拍摄得到的图像。

其中，第二合成图像中校正训练样本的位置信息的确认方法，可参照图1对应实施例中第一合成图像中训练样本的位置信息的确认方法，原理相同，此处不再赘述。

需要说明的是，待测环境图像是在学习模型使用的新的应用场景的真实环境下拍摄得到的。第三真实图像为在真实环境下拍摄得到的图像，可以为第一真实图像或第二真实图像，也可以为在真实环境下重新拍摄得到的图像。

步骤403，采用校正训练样本对学习模型进行继续训练。

具体地，采用校正训练样本对学习模型进行训练的方法，可参照图2对应实施例中的模型训练方法，原理相同，此处不再赘述。

本发明实施例的模型训练方法中，通过在真实应用场景中获取真实图像并进行标注，从而和待测环境图像合成生成大量的校正训练样本，通过获取包含标注信息的校正训练样本，对学习模型进行继续训练，可以解决当模型使用场景发生变化时，学习模型精度无法达到预设要求时，通过校正训练样本对学习模型进行继续训练，从而提高学习模型的精度。

上述实施例中，说明了学习模型训练的方法，而训练完成的学习模型，可应用于物体定位的场景中，为此，本申请实施例提出了一种物体的定位方法的可能的实现方式，图7为本申请实施例所提供的一种物体的定位方法的流程示意图，如图7所示，该方法包括如下步骤：

步骤501，将待测图像输入训练得到的学习模型，得到待测图像对应的输出值。

其中，本申请实施例提供方法，可以由配置有摄像组件的电子设备执行，以通过电子设备采集图像进行待测图像中物体的定位。其中，该执行本实施定位方法的电子设备和执行前述实施例中模型训练方法的电子设备可以相同也可以不同。

具体地，将待测图像输入训练得到的学习模型，得到待测图像对应的各概率密度函数的参数值，其中，参数值用于指示各概率密度函数的期望、方差和/或在混合概率密度函数中所占的权重。根据各概率密度函数的参数值，生成混合概率密度函数，根据混合概率密度函数，确定待测图像中物体的位置信息。

步骤502，根据输出值确定待测图像中物体的位置信息。本发明实施例的物体的定位方法中，将待测图像输入训练得到的学习模型，得到待测图像对应的输出值，根据输出值确定待测图像中物体的位置信息。通过将模型学习各图像特征与各概率密度函数的参数值之间的映射关系，与概率密度函数确定物体位置相结合，解决了相关技术中仅能够对图像中符合固定个数的物体进行准确定位的技术问题，同时扩展了应用场景，提高了定位的效率。

上述实施例中，将待测图像输入训练完成的学习模型，可获取生成混合概率密度函数的参数值，根据生成的混合概率密度函数确定待测图像中物体的位置，而在实际的应用场景中，例如机器人抓取应用场景中，场景中的物体可能为多个，获取的待测图像中物体个数则也为多个，利用本实施例的方法还可以确定待测图像中物体的个数。

基于上述实施例，本发明还提出了一种物体的定位方法的可能的实现方式，图8为本发明实施例所提供的另一种物体的定位方法的流程示意图，进一步说明了，通过混合概率密度函数确定图像中物体位置时，还可以确定图像中物体的个数，并对图像中的物体进行抓取，如图8所示，该方法包括如下步骤：

步骤601，将待测图像输入训练得到的学习模型，得到待测图像对应的各概率密度函数的参数值。

具体地，将待测图像输入训练好的学习模型中，学习模型的输入层提取图像的图像特征，根据图像特征和各概率密度函数之间的映射关系，得到待测图像的参数值。参数值用于待测图像对应的各概率密度函数的期望、方差和/或在混合概率密度函数中所占的比重。

其中，概率密度函数符合高斯型分布。

步骤602，根据各概率密度函数的参数值，生成混合概率密度函数。

具体地，待测图像中有一个或多个物体，每个物体的像素中心坐标都由混合概率密度函数中的每个概率密度函数共同产生，每个概率密度函数的贡献程度是由概率密度函数在混合概率密度函数中所占的比重决定。每个概率密度函数的期望用于指示在该期望对应的坐标处可能存在一个物体中心，而在物体的中心坐标处，概率密度函数的概率密度值最大，如果待测图像中存在物体的中心，则该概率密度函数在混合概率密度函数中所占的比重也最大，则此时混合概率密度函数对应该期望的中心坐标的概率密度值也最大。

步骤603，根据混合概率密度函数，进行随机采样，得到待测图像中的多个候选位置。

具体地，概率密度函数具有集中性和对称性，生成的混合概率密度函数也同样具有集中性和对称性，由于参数值用于指示各概率密度函数的期望、方差和/在混合概率密度函数中所占的比重，而各概率密度函数在混合概率密度函数中所占的比重，指示了各概率密度函数在混合概率密度函数中存在的概率，也就是说混合概率密度函数可用于指示待测图像中物体处于不同位置的概率。对混合概率密度函数对应的坐标数据进行随机采样，坐标为(x，y)，采样值会大概率集中在物体真实存在的坐标附近，越接近真实物体的中心坐标，采样值处的概率密度值越大。根据采样得到的数据，得到待测图像中多个候选位置。

步骤604，根据多个候选位置进行聚类，得到至少一个聚簇，针对聚簇，确定图像中物体的目标位置和物体的个数。

具体地，将采样确定的多个候选位置，根据多个候选位置之间的距离，采用聚类算法对候选位置进行聚类，得到至少一个聚簇，针对每一个聚簇，根据聚簇中所含候选位置的平均值，确定一个目标位置，进而可确定所有聚簇对应的目标位置。

进一步，根据聚簇个数，可确定待测图像中呈现物体的个数。或者，确定待测图像中物体的目标位置后，根据目标位置的个数，确定待测图像中呈现物体的个数。

本申请实施例不仅可以确定待测图像中物体的目标位置，还可以在待测图像中物体个数不止一个时，确定物体目标位置的同时确定目标物体的个数，相较于现有技术中，仅可在场景中物体个数为固定个数时，才可以确定物体位置，扩展了应用场景，同时可识别图像中多个物体的位置，还提高了定位的效率。

步骤605，根据确定的物体的位置进行抓取。

具体地，确定物体位置后，还可以根据具体的应用场景的需求，对物体进行抓取。例如机器人抓取应用场景中，通过机器人的抓取，解放了人类的双手，给人们的生活带来了便利。

本发明实施例的物体的定位方法，将待测图像输入训练得到的学习模型，得到待测图像对应的输出值，根据输出值确定待测图像中物体的位置信息。通过将学习模型学习各图像特征与各概率密度函数的参数值之间的映射关系，与概率密度函数确定物体位置相结合，能够对图像中物体个数不大于概率密度函数的个数的物体进行准确定位，还可应用于不同的应用场景中。同时，根据候选位置的个数还可以确定待测图像中呈现的物体个数。

为了实现上述实施例，本发明还提出一种模型训练装置。

图9为本发明实施例提供的一种模型训练装置的结构示意图。

如图9所示，该装置包括：第一拍摄模块71和第一训练模块72。

第一拍摄模块71，用于获取包含标注信息的训练样本图像，标注信息根据对应训练样本图像中训练物体的位置信息生成，其中，训练样本图像包括第一合成图像，第一合成图像为从第一真实图像中提取的呈现有训练物体的局部图像，与背景图像进行合成得到的图像，而第一真实图像为在真实环境下拍摄得到的图像。

第一训练模块72，用于采用训练样本图像对学习模型进行训练。

作为一种可能的实现方式，第一合成图像中训练物体的位置信息，根据局部图像与背景图像合成时的相对位置，以及在第一真实图像中已标注的训练物体位置确定。

作为一种可能的实现方式，训练样本图像还包括第二真实图像，第二真实图像为在真实环境下拍摄得到的图像。

需要说明的是，前述对模型训练方法实施例的解释说明，也适用于本实施例的装置，此处不再赘述。

基于上述实施例，本发明实施例还提供了一种模型训练装置的可能的实现方式，图10为本发明实施例所提供的另一种模型训练装置的结构示意图，如图10所示，在上一实施例的基础上，该装置还包括：合成模块73、预训练模块74、确认模块75、第二拍摄模块76和第二训练模块77。

合成模块73，用于获取包含标注信息的预训练样本图像，其中，预训练样本包括虚拟图像，虚拟图像为在虚拟环境下拍摄得到的图像。

预训练模块74，用于采用预训练样本图像对所述学习模型进行预训练。

作为一种可能的实现方式，虚拟图像中训练物体的位置信息，根据虚拟环境下拍摄相机的相机参数，以及训练物体的位姿信息确定。

确认模块75，用于确认学习模型的精度不满足预设要求。

第二拍摄模块76，用于获取包含标注信息的校正训练样本，其中，校正训练样本包括第二合成图像，第二合成图像为从第三真实图像中提取的呈现有训练物体的局部图像，与待测环境图像进行合成得到的图像；第三真实图像为在真实环境下拍摄得到的图像；待测环境图像为在待测的真实场景下拍摄得到的图像。

第二训练模块77，用于采用校正训练样本图像对所述学习模型进行继续训练。

作为一种可能的实现方式，第二合成图像中训练物体的位置信息，根据第三真实图像中提取的局部图像与待测环境图像进行合成时的相对位置，以及第三真实图像中已标注的训练物体位置确定。

作为一种可能的实现方式，学习模型为神经网络模型。

本发明实施例的模型训练装置中，通过虚拟环境合成图像并进行标注，利用标注的虚拟图像对学习模型进行预训练，再采用真实环境下拍摄得到的图像，将其与背景图像合成，作为训练样本，从而仅需要对少量拍摄的图像进行人工标注位置后，便可以确定训练样本的标注，提高了训练样本获取的效率，节省了人力，同时通过虚拟图像预训练后，再采用真实图像进行学习模型训练，提高了模型收敛的速度，当应用场景发生变化，模型的精度无法达到要求时，只需要获取真实环境下拍摄的少量真实图像，将其与在待测真实场景下拍摄的待测环境图像结合作为校正训练样本，对学习模型进行训练，使得学习模型可以应用于不同的应用场景下。

基于上述实施例，本发明实施例还提出了一种物体的定位装置，图11为本发明实施例所提供的一种物体的定位装置的结构示意图，如图11所示，该装置包括：处理模块91和定位模块92。

处理模块91，用于将待测图像输入训练得到的学习模型，得到待测图像对应的输出值；其中，学习模型是采用前述模型训练装置训练得到的。

定位模块92，用于根据输出值确定待测图像中物体的位置信息。

需要说明的是，前述对物体的定位方法的实施例的解释说明，也适用于本实施例的装置，此处不再赘述。

基于上述实施例，本发明实施例还提出了一种可能的物体的定位装置，图12为本发明实施例所提供的另一种物体的定位装置的结构示意图，如图12所示，该装置还包括抓取模块93。

抓取模块93，用于根据位置信息，进行物体抓取。

作为一种可能的实现方式，处理模块91，可以包括：处理单元911、生成单元912、位置确定单元913和数量确定单元914。

处理单元911，用于将待测图像输入训练得到的学习模型，得到待测图像对应的各概率密度函数的参数值，其中，参数值用于指示各概率密度函数的期望、方差和/或在混合概率密度函数中所占的权重。

生成单元912，用于根据各概率密度函数的参数值，生成混合概率密度函数。

位置确定单元913，用于根据混合概率密度函数，确定待测图像中物体的位置信息。

作为一种可能的实现方式，生成单元912，具体用于：

根据用于指示期望和方差的参数值，确定对应概率密度函数的期望和方差，根据用于指示权重的参数值，对确定期望和方差的概率密度函数进行加权求和，得到混合概率密度函数。

作为一种可能的实现方式，位置确定单元913，具体用于：

依据混合概率密度函数进行采样，得到待测图像中多个候选位置，根据多个候选位置，确定位置信息。

作为另一种可能的实现方式，位置确定单元913，具体还可以用于：

根据多个候选位置之间的距离，对多个候选位置进行聚类，以得到至少一个聚簇，针对每一个聚簇，根据聚簇中所含候选位置的平均值，确定一个位置信息。

数量确定单元914，用于对多个候选位置进行聚类，以得到至少一个聚簇之后，根据聚簇的个数，确定待测图像中呈现物体的个数；或者，根据多个候选位置，确定位置信息之后，根据位置信息的个数，确定待测图像中呈现物体的个数。

本发明实施例的物体的定位装置，处理模块用于将待测图像输入训练得到的学习模型，得到待测图像对应的输出值，定位模块用于根据输出值确定待测图像中物体的位置信息。通过训练得到的学习模型学习了各图像特征与各概率密度函数的参数值之间的映射关系，与概率密度函数确定物体位置相结合，能够对图像中物体个数不大于概率密度函数的个数的物体进行准确定位，还可应用于不同的应用场景中。同时，根据候选位置的个数还可以确定待测图像中呈现的物体个数。

为了实现上述实施例，本发明实施例还提出了一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如前述模型训练方法实施例所述的模型训练方法，和/或，实现如前述物体的定位方法实施例所述的物体的定位方法。

为了实现上述实施例，本发明实施例还提出一种计算机可读存储介质，其上存储有计算机程序，当该程序由处理器执行时，实现如前述模型训练方法实施例所述的模型训练方法，和/或，实现如前述物体的定位方法实施例所述的物体的定位方法。

图13示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图13显示的计算机设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图13所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图13未显示，通常称为“硬盘驱动器”)。尽管图13中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种模型训练方法，其特征在于，包括：

采用训练样本图像对学习模型进行训练。

2.根据权利要求1所述的方法，其特征在于，所述第一合成图像中训练物体的位置信息，根据所述局部图像与所述背景图像合成时的相对位置，以及在所述第一真实图像中已标注的训练物体位置确定。

3.根据权利要求1所述的方法，其特征在于，所述训练样本图像还包括第二真实图像；所述第二真实图像为在真实环境下拍摄得到的图像。

4.根据权利要求1所述的方法，其特征在于，在采用训练样本对学习模型进行训练之前，还包括：

采用预训练样本图像对所述学习模型进行预训练。

5.根据权利要求4所述的方法，其特征在于，所述虚拟图像中训练物体的位置信息，根据所述虚拟环境下拍摄相机的相机参数，以及训练物体的位姿信息确定。

6.一种基于权利要求1-5任一所述的方法训练得到的学习模型，实现待测图像中物体的定位方法，包括：

根据所述输出值确定待测图像中物体的位置信息。

7.一种模型训练装置，其特征在于，所述装置包括：

8.一种物体的定位装置，其特征在于，所述装置包括：

处理模块，用于将待测图像输入训练得到的学习模型，得到所述待测图像对应的输出值；其中，所述学习模型是采用权利要求7所述的装置训练得到的；

9.一种计算机设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-5中任一所述的模型训练方法，和/或，实现如权利要求6中所述的物体的定位方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的模型训练方法，和/或，实现如权利要求6中所述的物体的定位方法。