CN116012667A

CN116012667A - 一种模型训练方法、装置、设备及存储介质

Info

Publication number: CN116012667A
Application number: CN202211696845.XA
Authority: CN
Inventors: 周则儒; 孙德兴; 刘云根; 周鹏威
Original assignee: Guangdong Power Grid Co Ltd; Dongguan Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Dongguan Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2023-04-25

Abstract

本发明公开了一种模型训练方法、装置、设备及存储介质。该方法包括：获取训练样本集中预设数量的图像样本；获取第一图像和目标坐标；根据所述目标坐标对所述预设数量的图像样本进行缩放，并根据所述目标坐标将缩放后的图像样本粘贴到第一图像中，得到目标图像样本；通过所述目标图像样本训练第一模型，得到目标模型。通过本发明的技术方案，能够在提升模型训练效率的同时，提升模型的准确度。

Description

一种模型训练方法、装置、设备及存储介质

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种模型训练方法、装置、设备及存储介质。

背景技术

随着人工智能技术的发展，基于视频图像的行人智能标注技术成为一种可能。

现有技术中，基于训练样本集对第一模型进行训练，由于训练样本集中图像样本数量较多，训练时间长，因此，将多张图像样本随机裁剪拼接成一张新的图像样本，通过拼接后的新的图像样本构成的训练样本集对第一模型进行训练，由于新的图像样本是多张图像样本随机裁剪得到的，因此会出现图像样本中的行人数据缺失的情况，进而导致模型学习不充分，模型的准确度较低。

发明内容

本发明实施例提供一种模型训练方法、装置、设备及存储介质，解决了由于新的图像样本是多张图像样本随机裁剪得到的，会出现图像样本中的行人数据缺失的情况，进而导致模型学习不充分，模型的准确度较低的问题。

根据本发明的一方面，提供了一种模型训练方法，包括：

获取训练样本集中预设数量的图像样本；

获取第一图像和目标坐标；

根据所述目标坐标对所述预设数量的图像样本进行缩放，并根据所述目标坐标将缩放后的图像样本粘贴到第一图像中，得到目标图像样本；

通过所述目标图像样本训练第一模型，得到目标模型。

根据本发明的另一方面，提供了一种模型训练装置，该模型训练装置包括：

第一获取模块，用于获取训练样本集中预设数量的图像样本；

第二获取模块，用于获取第一图像和目标坐标；

第一得到模块，用于根据所述目标坐标对所述预设数量的图像样本进行缩放，并根据所述目标坐标将缩放后的图像样本粘贴到第一图像中，得到目标图像样本；

第二得到模块，用于通过所述目标图像样本训练第一模型，得到目标模型。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的模型训练方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的模型训练方法。

本发明实施例通过获取训练样本集中预设数量的图像样本；获取第一图像和目标坐标；根据所述目标坐标对所述预设数量的图像样本进行缩放，并根据所述目标坐标将缩放后的图像样本粘贴到第一图像中，得到目标图像样本；通过所述目标图像样本训练第一模型，得到目标模型，解决了由于新的图像样本是多张图像样本随机裁剪得到的，会出现图像样本中的行人数据缺失的情况，进而导致模型学习不充分，模型的准确度较低的问题，能够在提升模型训练效率的同时，提升模型的准确度。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例一中的一种模型训练方法的流程图；

图2是本发明实施例一中的一种第二图像的示意图；

图3是本发明实施例一中的一种第一模型的示意图；

图4是本发明实施例一中的一种生成特征图的示意图；

图5是本发明实施例二中的一种模型训练装置的结构示意图；

图6是本发明实施例三中的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

可以理解的是，在使用本公开各实施例公开的技术方案之前，均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。

实施例一

图1是本发明实施例一中的一种模型训练方法的流程图，本实施例可适用于行人检测的情况，该方法可以由本发明实施例中的模型训练装置来执行，该装置可采用软件和/或硬件的方式实现，如图1所示，该方法具体包括如下步骤：

S110，获取训练样本集中预设数量的图像样本。

其中，训练样本集可以为待训练模型训练时所需要的样本集，训练样本集中可以包括图像样本。预设数量的图像样本可以根据用户需求进行预设，例如可以是，获取训练样本集中预设的四张图像样本。

S120，获取第一图像和目标坐标。

其中，第一图像可以为随机生成的图片，需要说明的是，第一图像的尺寸需要大于应输入待训练模型中的图片尺寸，例如可以是，第一图像为长为h₀，宽为w₀的灰度3通道图片，待训练模型中的图片长为h_i，宽为w_i，h₀是h_i的1.5倍，w₀是w_i的1.5倍。

其中，目标坐标可以为根据第一图像的尺寸随机产生的坐标，为所有预设数量的图像样本经过处理后的相交点。例如可以是，若预设数量的图像样本为四张图片，第一图像长为h₀，宽为w₀，在第一图像的(0.2w₀～0.8w₀，0.2h₀～0.8h₀)的范围内随机产生一个坐标(x_c，y_c)，该坐标为四张图片经过缩放处理后的右下角、左下角、右上角以及左上角的坐标。

S130，根据目标坐标对预设数量的图像样本进行缩放，并根据目标坐标将缩放后的图像样本粘贴到第一图像中，得到目标图像样本。

其中，目标图像样本为将预设数量的图像样本经过缩放处理后，合理粘贴到第一图像的对应的位置上，再将第一图像缩放至待训练模型中所需的图片尺寸，合成的新的图像为目标图像样本。

具体的，根据目标坐标对预设数量的图像样本进行缩放，并根据目标坐标将缩放后的图像样本粘贴到第一图像中，得到目标图像样本的方式可以为：随机生成一个目标坐标，根据目标坐标将预设数量的图像样本进行缩放，然后将缩放后的图像样本粘贴至第一图像中对应的位置中，然后再将已粘贴图像样本的第一图像缩放至待训练模型中所需的图片尺寸，合成目标图像样本。

可选的，根据所述目标坐标对所述预设数量的图像样本进行缩放，并根据所述目标坐标将缩放后的图像样本粘贴到第一图像中，得到目标图像样本，包括：

根据所述目标坐标和所述图像样本的尺寸确定所述图像样本对应的缩放比；

根据所述图像样本对应的缩放比对所述图像样本进行缩放，得到缩放后的图像样本；

根据所述目标坐标确定预设数量的缩放后的图像样本的粘贴位置；

根据预设数量的缩放后的图像样本的粘贴位置将预设数量的缩放后的图像粘贴到第一图像中，得到第二图像；

对所述第二图像进行缩放，得到目标图像样本。

其中，缩放比为根据目标坐标形成的图像样本粘贴位置的尺寸与图像样本的尺寸的比值。第二图像为在第一图像中粘贴所有预设数量的缩放后的图像样本的图像。需要说明的是，因每个图像样本粘贴的位置不同，即粘贴尺寸也不同，因此对应的缩放比也不同。

具体的，根据所述目标坐标和所述图像样本的尺寸确定所述图像样本对应的缩放比的方式可以为：根据目标坐标确定缩放后的图像样本的尺寸，将确定的缩放后的图像样本的尺寸与图像样本的尺寸的比值确定为缩放比。

具体的，根据所述图像样本对应的缩放比对所述图像样本进行缩放，得到缩放后的图像样本的方式可以为：所有的图像样本在计算对应的缩放比后，图像样本根据对应的缩放比进行缩放，得到所有预设数量的缩放后的图像样本。

具体的，根据所述目标坐标确定预设数量的缩放后的图像样本的粘贴位置的方式可以为：在第一图像中，根据目标坐标和预设数量的缩放后的图像样本划分每个缩放后的图像样本的粘贴位置。

具体的，根据预设数量的缩放后的图像样本的粘贴位置将预设数量的缩放后的图像粘贴到第一图像中，得到第二图像的方式可以为：将预设数量的缩放后的图像样本粘贴至第一图像的对应的位置，将在第一图像中粘贴了预设数量的缩放后的图像样本的图像确定为第二图像。

具体的，对所述第二图像进行缩放，得到目标图像样本的方式可以为：将第二图像缩放至待训练模型中所需的图片尺寸，得到目标图像样本。

在一个具体的例子中，图2是本发明实施例一中的一种第二图像的示意图，如图2所示，选择预设数量为四的四张图像样本，先生成一张长为h₀，宽为w₀的灰度3通道图像，h₀、w₀为待训练模型中所需的图片尺寸h_i、w_i的1.5倍；在生成的灰度3通道图像中，按照(0.2w₀～0.8w₀，0.2h₀～0.8h₀)的范围，随机产生一个坐标(x_c，y_c)，该坐标分别为缩放后的四张图像样本的右下角、左下角、右上角以及左上角的坐标；将四张图像样本按照长边缩放，以第一张图像样本为例，若第一张图像样本的尺寸为h、w，在灰度3通道图片中粘贴位置的尺寸为y_c、x_c，按照长边进行缩放，则缩放比为r＝min(y_c/h，x_c/w)，缩放后的图像尺寸为y_c·r、x_c·r。需要说明的是，剩余三张图像样本的缩放比的计算方式与第一张图像样本的缩放比的计算方式相似，在此不再赘述。在计算四张图像样本对应的缩放比后，根据四张图像样本的缩放比分别对四张图像样本进行缩放，将缩放后的四张图像样本分别粘贴在图2所示的灰度3通道图像中四张图像样本对面的位置，得到合成好的第二图像；最后，将第二图像缩放至待训练模型中所需的图片尺寸h_i、w_i，得到目标图像样本。

S140，通过目标图像样本训练第一模型，得到目标模型。

其中，第一模型为待训练模型，可以为改进后的网络模型，例如可以是，图3是本发明实施例一中的一种第一模型的示意图，如图3所示，第一模型可以为改进后的yolov5网络模型，是将原yolov5网络模型中包含FPN+PAN的三层网络结构改进为四层网络结构，图3中的backbone主要用于提取图像样本中的特征，以供后面的网络使用，而neck是为了更好地利用backbone提取的图像样本中的特征，以便得到预测框。改进后的yolov5网络模型可以更好地提取训练样本集中目标图像样本中的信息，可将顶层较强的语义特征(利于分类)和底层的高分辨率信息(利于定位)进行融合。目标模型为根据目标图像样本对第一模型进行训练，得到的训练完成的模型。

具体的，通过目标图像样本训练第一模型，得到目标模型的方式可以为：确定第一模型和目标图像样本，根据目标图像样本迭代训练第一模型，得到目标模型。

可选的，通过所述目标图像样本训练第一模型，得到目标模型，包括：

根据至少一个目标图像样本生成目标图像样本集；

将所述目标图像样本集中的目标图像输入第一模型中，得到预测框；

根据所述预测框和所述预设数量的图像样本对应的目标框生成的目标函数训练所述第一模型的参数；

返回执行将所述目标图像样本集中的目标图像输入第一模型中，得到预测框的操作，直至得到目标模型。

其中，目标图像样本集可以为根据合成的至少一个目标图像样本生成的样本集，同时也是对第一模型进行训练时的样本集。预测框可以为将目标图像输入第一模型后，得到的在目标图像中标注需采集的行人的外形框。目标框为预设数量的图像样本中标注需采集的行人的外形框。

可选的，所述目标函数包括：框坐标损失函数、置信度损失函数以及预测概率损失函数，所述置信度损失函数为

，其中，S为特征图的宽度或者特征图的高度，S×S为网格的数量，B为anchor box的数量，C为置信度，

为第k个输出特征图，第m个cell，第n个anchor box是否是正样本，如果是正样本则为1，反之为0，

为第k个输出特征图，第m个cell，第n个anchor box是否是负样本，如果是负样本则为1，反之为0，

为第k个输出特征图，第m个cell，第n个anchor box与ignore区域的GIOU是否大于0.5，如果大于0.5则为0，反之为1。

其中，目标函数可以为：

其中，GIoUloss为目标框与预测框的坐标回归的损失，框坐标损失函数为

预测概率损失函数为

其中，K为输出的特征图数量，c为类别，classes为类别的总数，p_m(c)为预测第c个类别的概率。

其中，ignore区域可以为在目标图像中的单独的行人区域，可以为目标图像中的密集人群区域。

需要说明的是，目标函数中的

系数可对ignore区域的GIOU大于0.5的预测框进行过滤，使其不参与损失函数计算。

可选的，将所述目标图像样本集中的目标图像输入第一模型中，得到预测框，包括：

对所述目标图像样本进行下采样，得到第一尺寸的第一特征图；

对第一尺寸的第一特征图进行下采样得到第二尺寸的第一特征图；

对第二尺寸的第一特征图进行下采样得到第三尺寸的第一特征图；

对第三尺寸的第一特征图进行下采样得到第四尺寸的第一特征图；

对第四尺寸的第一特征图进行卷积，得到第四尺寸的第二特征图；

对第四尺寸的第二特征图进行上采样，得到第三尺寸的第二特征图；

根据α₁、β₁、第三尺寸的第二特征图以及第三尺寸的第一特征图生成第三尺寸的第三特征图；

对第三尺寸的第三特征图进行上采样，得到第二尺寸的第二特征图；

根据α₂、β₂、第二尺寸的第二特征图以及第二尺寸的第一特征图生成第二尺寸的第三特征图；

对第二尺寸的第三特征图进行上采样，得到第一尺寸的第二特征图；

根据α₃、β₃、第一尺寸的第二特征图以及第一尺寸的第一特征图生成第一尺寸的第三特征图；

对第一尺寸的第三特征图进行卷积，得到第一尺寸的第四特征图；

对第一尺寸的第四特征图进行下采样，得到第二尺寸的第四特征图；

根据α₄、β₄、第二尺寸的第四特征图以及第二尺寸的第三特征图生成第二尺寸的第五特征图；

对第二尺寸的第五特征图进行下采样，得到第三尺寸的第四特征图；

根据α₅、β₅、第三尺寸的第四特征图以及第三尺寸的第三特征图生成第三尺寸的第五特征图；

对第三尺寸的第五特征图进行下采样，得到第四尺寸的第三特征图；

根据α₆、β₆、第四尺寸的第三特征图以及第四尺寸的第二特征图生成第四尺寸的第四特征图；

将所述第一尺寸的第四特征图、第二尺寸的第五特征图、第三尺寸的第五特征图以及第四尺寸的第四特征图分别输入卷积层，得到目标图像样本的预测框。

其中，下采样可称为降采样，主要是为了缩小图像；上采样可称为图像插值，主要是为了放大图像，从而可以显示在更高分辨率的显示设备上。下采样的原理可以为：对于一张尺寸为M*N的图像，对其进行f倍下采样，即得到(M/f)*(N/f)尺寸的分辨率图像。需要说明的是，f应是M和N的公约数。上采样的原理可以为：采用内插值的方法，即在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素，从而放大图像。需要说明的是，插值算法包括传统插值和基于边缘图像的插值，还包括基于区域的图像插值。

其中，第一特征图、第二特征图、第三特征图、第四特征图以及第五特征图只是为了区分在得到目标图像样本的预测框的过程中的特征图，无其它特殊含义。第一尺寸、第二尺寸、第三尺寸以及第四尺寸分别表示在得到目标图像样本的预测框的过程中的不同尺寸。例如可以是，第一尺寸可以为152*152、第二尺寸可以为76*76、第三尺寸可以为38*38以及第四尺寸可以为19*19。

其中，卷积可以为卷积计算，对特征图进行卷积运算，即为对特征图进行特征提取，生成新的特征图。

其中，α₁、β₁、α₂、β₂、α₃、β₃、α₄、β₄、α₅、β₅、α₆以及β₆均为自适应融合因子。

具体的，根据α₁、β₁、第三尺寸的第二特征图以及第三尺寸的第一特征图生成第三尺寸的第三特征图的方式可以为：将α₁*第三尺寸的第二特征图加上β₁*第三尺寸的第一特征图即可得到第三尺寸的第三特征图。

具体的，根据α₂、β₂、第二尺寸的第二特征图以及第二尺寸的第一特征图生成第二尺寸的第三特征图的方式可以为：将α₂*第二尺寸的第二特征图加上β₂*第二尺寸的第一特征图即可得到第二尺寸的第三特征图。

具体的，根据α₃、β₃、第一尺寸的第二特征图以及第一尺寸的第一特征图生成第一尺寸的第三特征图的方式可以为：将α₃*第一尺寸的第二特征图加上β₃*第一尺寸的第一特征图即可得到第一尺寸的第三特征图。

具体的，根据α₄、β₄、第二尺寸的第四特征图以及第二尺寸的第三特征图生成第二尺寸的第五特征图的方式可以为：将α₄*第二尺寸的第四特征图加上β₄*第二尺寸的第三特征图即可得到第二尺寸的第五特征图。

具体的，根据α₅、β₅、第三尺寸的第四特征图以及第三尺寸的第三特征图生成第三尺寸的第五特征图的方式可以为：将α₅*第三尺寸的第四特征图加上β₅*第三尺寸的第三特征图即可得到第三尺寸的第五特征图。

具体的，根据α₆、β₆、第四尺寸的第三特征图以及第四尺寸的第二特征图生成第四尺寸的第四特征图的方式可以为：将α₆*第四尺寸的第三特征图加上β₆*第四尺寸的第二特征图即可得到第四尺寸的第四特征图。

在一个具体的例子中，图4是本发明实施例一中的一种生成特征图的示意图，如图4所示，目标图像样本为608*608*3，第一尺寸为第一尺寸可以为152*152、第二尺寸为76*76、第三尺寸为38*38以及第四尺寸为19*19，向上的箭头可表示为下采样，向下的箭头可表示为上采样。对目标图像样本进行下采样后，得到152*152的第一特征图；对152*152的第一特征图进行下采样，得到76*76的第一特征图；对76*76的第一特征图进行下采样，得到38*38的第一特征图；对38*38的第一特征图进行下采样，得到19*19的第一特征图；对19*19的第一特征图进行卷积计算，得到19*19的第二特征图；对19*19的第二特征图进行上采样，得到38*38的第二特征图；将α₁*38*38的第二特征图加上β₁*38*38的第一特征图即可得到38*38的第三特征图；对38*38的第三特征图进行上采样，得到76*76的第二特征图；将α₂*76*76的第二特征图加上β₂*76*76的第一特征图即可得到76*76的第三特征图；对76*76的第三特征图上采样，得到152*152的第二特征图；将α₃*152*152的第二特征图加上β₃*152*152的第一特征图即可得到152*152的第三特征图；对152*152的第三特征图进行卷积计算，得到152*152的第四特征图；对152*152的第四特征图进行下采样，得到76*76的第四特征图；将α₄*76*76的第四特征图加上β₄*76*76的第三特征图即可得到76*76的第五特征图；对76*76的第五特征图进行下采样，得到38*38的第四特征图；将α₅*38*38的第四特征图加上β₅*38*38的第三特征图即可得到38*38的第五特征图；对38*38的第五特征图进行下采样，得到19*19的第三特征图；将α₆*19*19的第三特征图加上β₆*19*19的第二特征图即可得到19*19的第四特征图；将152*152的第四特征图、76*76的第五特征图、38*38的第五特征图以及19*19的第四特征图分别输入至卷积层，得到目标图像样本的预测框。

在得到目标图像样本的预测框的过程中，将现有技术中的yolov5的FPN+PAN结构，由原本的三层结构改进为四层结构，增加的一层结构可以更好地检测更小的目标，同时引入自适应融合因子，将两个特征图进行融合，能够获得表达能力更强的特征。

可选的，还包括：

获取第四尺寸的第一特征图经过上采样变成第三尺寸的第二特征图，再经过全局平均池化得到的第一向量；

获取第三尺寸的第一特征图经过1*1卷积，变成与第三尺寸的第二特征图一样通道数的特征图，再经过全局平均池化得到的第二向量；

根据所述第一向量和所述第二向量确定α₁和β₁。

其中，全局平均池化(Golbal Average Pooling)，是为每个类别分配一个特征图，将特征图中的所有像素值相加求平局，得到一个数值，即用该数值表示对应特征图，作为后续softmax层的输入，以此可替代全连接层，能够减少参数数量，减少计算量，减少过拟合。

其中，第一向量和第二向量均为特征图经过全局平均池化后得到的向量。

具体的，根据所述第一向量和所述第二向量确定α₁和β₁的方式可以为：第一向量和第二向量对应的位置元素采用softmax激活得到介于0-1之间的权重值α₁和β₁。

需要说明的是，α₂、β₂、α₃、β₃、α₄、β₄、α₅、β₅、α₆以及β₆的计算方式与α₁和β₁相似，在此不进行赘述。

在一个具体的例子中，α_j和β_j均为自适应融合因子，第三尺寸为38*38，第四尺寸为19*19，其中，19*19的第一特征图经过上采样变成38*38的第二特征图F₁，再经过全局平均池化得到的向量为x₁，向量长度与F₁特征图的通道数一致，38*38的第一特征图经过1*1卷积，变成与38*38的第二特征图F₁一样通道数的特征图P₁，再经过全局平均池化得到的向量为y₁，其长度与x₁一致，向量x₁和向量y₁对应的位置元素采用softmax激活得到介于0-1之间的权重值α₁和β₁，如下公式所述：

其中，i为通道数，α_1i、β_1i分别表示特征图F₁、P₁在i通道上融合时各自的权重，融合后的特征图Y₁为：

Y₁＝α₁F₁+β₁P₁；

其余的α_j和β_j按照相同方式进行计算，其可在神经网络模型训练时进行深度学习，通过自适应融合因子，将两个特征图各通道按照权重进行融合，可以获得表达能力更强的特征。

本实施例的技术方案，通过获取训练样本集中预设数量的图像样本；获取第一图像和目标坐标；根据所述目标坐标对所述预设数量的图像样本进行缩放，并根据所述目标坐标将缩放后的图像样本粘贴到第一图像中，得到目标图像样本；通过所述目标图像样本训练第一模型，得到目标模型，解决了由于新的图像样本是多张图像样本随机裁剪得到的，会出现图像样本中的行人数据缺失的情况，进而导致模型学习不充分，模型的准确度较低的问题，能够在提升模型训练效率的同时，提升模型的准确度。

实施例二

图5是本发明实施例二中的一种模型训练装置的结构示意图。本实施例可适用于行人检测的情况，该装置可采用软件和/或硬件的方式实现，该装置可集成在任何提供模型训练的功能的设备中，如图5所示，所述模型训练装置具体包括：第一获取模块210、第二获取模块220、第一得到模块230和第一得到模块240。

其中，第一获取模块210，用于获取训练样本集中预设数量的图像样本；

第二获取模块220，用于获取第一图像和目标坐标；

第一得到模块230，用于根据所述目标坐标对所述预设数量的图像样本进行缩放，并根据所述目标坐标将缩放后的图像样本粘贴到第一图像中，得到目标图像样本；

第二得到模块240，用于通过所述目标图像样本训练第一模型，得到目标模型。

可选的，所述第一得到模块具体用于：

对所述第二图像进行缩放，得到目标图像样本。

可选的，所述第二得到模块具体用于：

根据至少一个目标图像样本生成目标图像样本集；

可选的，所述第二得到模块具体用于：

可选的，所述第二得到模块还用于：

根据所述第一向量和所述第二向量确定α₁和β₁。

上述产品可执行本发明任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

实施例三

图6是本发明实施例三中的一种电子设备的结构示意图。电子设备10旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图6所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM12以及RAM13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如模型训练方法。

在一些实施例中，模型训练方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM13并由处理器11执行时，可以执行上文描述的模型训练方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行模型训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种模型训练方法，其特征在于，包括：

获取训练样本集中预设数量的图像样本；

获取第一图像和目标坐标；

通过所述目标图像样本训练第一模型，得到目标模型。

2.根据权利要求1所述的方法，其特征在于，根据所述目标坐标对所述预设数量的图像样本进行缩放，并根据所述目标坐标将缩放后的图像样本粘贴到第一图像中，得到目标图像样本，包括：

对所述第二图像进行缩放，得到目标图像样本。

3.根据权利要求1所述的方法，其特征在于，通过所述目标图像样本训练第一模型，得到目标模型，包括：

根据至少一个目标图像样本生成目标图像样本集；

4.根据权利要求3所述的方法，其特征在于，将所述目标图像样本集中的目标图像输入第一模型中，得到预测框，包括：

5.根据权利要求3所述的方法，其特征在于，还包括：

根据所述第一向量和所述第二向量确定α₁和β₁。

6.根据权利要求3所述的方法，其特征在于，所述目标函数包括：框坐标损失函数、置信度损失函数以及预测概率损失函数，所述置信度损失函数为

，

其中，S为特征图的宽度或者特征图的高度，S×S为网格的数量，B为anchor box的数量，C为置信度，

为第k个输出特征图，第m个cell，第n个anchorbox与ignore区域的GIOU是否大于0.5，如果大于0.5则为0，反之为1。

7.一种模型训练装置，其特征在于，包括：

第二获取模块，用于获取第一图像和目标坐标；

8.根据权利要求7所述的装置，其特征在于，所述第一得到模块具体用于：

对所述第二图像进行缩放，得到目标图像样本。

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的模型训练方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-6中任一项所述的模型训练方法。