CN110472593B

CN110472593B - 训练图像获取方法、模型训练方法及相关装置

Info

Publication number: CN110472593B
Application number: CN201910767952.9A
Authority: CN
Inventors: 翟波
Original assignee: Chongqing Unisinsight Technology Co Ltd
Current assignee: Chongqing Unisinsight Technology Co Ltd
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2021-02-09
Anticipated expiration: 2039-08-20
Also published as: CN110472593A

Abstract

本申请提供的应用于物体计数的训练图像获取方法、模型训练方法及相关装置，涉及物体计数领域。该训练图像获取方法包括：获取目标物体的初始图像集；初始图像集包括多个初始图像和每个初始图像对应的初始标注；初始标注表征对应的初始图像中目标物体的特征信息；根据初始标注，提取每张初始图像中的目标物体的图形信息；根据图形信息和至少一种场景图像，生成目标物体的训练图像集；训练图像集包括多张训练图像，每张训练图像包含图形信息与任意一种场景图像的图形组合信息。使用本申请提出的训练图像获取方法，仅需要少量的数据标注即可实现目标物体的训练图像的标注，有效的降低训练图像标注成本，并实现高效的物体计数。

Description

训练图像获取方法、模型训练方法及相关装置

技术领域

本申请涉及物体计数领域，具体而言，涉及训练图像获取方法、模型训练方法及相关装置。

背景技术

基于机器视觉的物体计数技术广泛用于人群密度估计和计数中，是人群监控、拥挤监测、兴趣区域检测、人群统计等应用的主要技术手段。物体计数任务面对的难点主要是目标物体尺度变化大、遮挡多以及场景多变三点。

目前少有个人或机构将计数技术扩展到其它物体的计数应用，计数模型都需要通过有监督方法训练得到，针对每一种计数目标都需要准备10^4及以上量级的标注图片，单目标物体标注个数更是达10^6量级，标注工作量巨大，从而缺少相关的标注数据集。

基于上述的问题，亟需一种应用于物体计数的训练图像获取方法。

发明内容

为了至少克服现有技术中的上述不足，本申请的目的之一在于提供一种训练图像获取方法、模型训练方法及相关装置。

第一方面，本申请实施例提供一种应用于物体计数的训练图像获取方法，所述方法包括：获取目标物体的初始图像集；所述初始图像集包括多个初始图像和每个所述初始图像对应的初始标注；所述初始标注表征对应的初始图像中目标物体的特征信息。根据所述初始标注，提取每张所述初始图像中的目标物体的图形信息。根据所述图形信息和至少一种场景图像，生成所述目标物体的训练图像集；所述训练图像集包括多张训练图像，每张所述训练图像包含所述图形信息与任意一种所述场景图像的图形组合信息。

在可选的实施方式中，所述根据所述图形信息和至少一种场景图像，生成所述目标物体的训练图像集，包括：根据拼接参数和至少一个所述图形信息，获取目标物群图像；所述拼接参数表征所述目标物群图像中目标物体的堆叠信息。根据所述目标物群图像和至少一种所述场景图像，生成所述训练图像集。

在可选的实施方式中，所述根据所述目标物群图像和至少一种所述场景图像，生成所述训练图像集，包括：根据所述目标物群图像和至少一种所述场景图像，生成所述训练图像和所述训练图像对应的所述图形组合信息。将所述训练图像和所述图形组合信息存储至所述训练图像集。

在可选的实施方式中，所述根据所述目标物群图像和至少一种所述场景图像，生成所述训练图像和所述训练图像对应的所述图形组合信息，包括：根据所述目标物群图像和至少一种遮挡物图形，生成待测物图像。根据所述待测物图像和至少一种所述场景图像，生成所述训练图像和所述训练图像对应的所述图形组合信息。

第二方面，本申请实施例提供一种应用于物体计数的模型训练方法，所述方法包括：获取目标物体的训练图像集；所述训练图像集包括多张训练图像，每张所述训练图像包含所述目标物体的图形信息与任意一种场景图像的图形组合信息。将所述训练图像集划分为训练集和验证集。根据所述训练集，获取所述目标物体的第一模型。判断训练轮数是否大于或等于预设轮数，所述训练轮数为执行根据所述训练集，获取所述目标物体的第一模型的步骤的次数。当所述训练轮数大于或等于所述预设轮数时，则将所述第一模型作为所述目标物体的计数模型。

在可选的实施方式中，当所述训练轮数小于所述预设轮数时，所述方法还包括：根据所述验证集，获取所述第一模型的识别准确率。判断所述识别准确率是否大于或等于预设准确率；若所述识别准确率小于所述预设准确率，则返回执行所述根据所述训练集，获取所述目标物体的第一模型的步骤；若所述识别准确率大于或等于所述预设准确率，则判断所述第一模型是否满足模型收敛条件。当所述第一模型不满足所述模型收敛条件时，则返回执行所述根据所述训练集，获取所述目标物体的第一模型的步骤；当所述第一模型满足所述模型收敛条件时，则将所述第一模型作为所述目标物体的计数模型。

在可选的实施方式中，在获取目标物体的训练图像集之后，所述方法还包括：对所述训练图像集进行数据增强处理；所述数据增强处理包括以下的任意一项或组合：添加噪声、调整大小、裁剪、旋转。

第三方面，本申请实施例提供一种训练图像获取装置，包括：采集模块、目标物提取模块和图集生成模块。所述采集模块用于获取目标物体的初始图像集；所述初始图像集包括多个初始图像和每个所述初始图像对应的初始标注；所述初始标注表征对应的初始图像中目标物体的特征信息。所述目标物提取模块用于根据所述初始标注，提取每张所述初始图像中的目标物体的图形信息。所述图集生成模块用于根据所述图形信息和至少一种场景图像，生成所述目标物体的训练图像集；所述训练图像集包括多张训练图像，每张所述训练图像包含所述图形信息与任意一种所述场景图像的图形组合信息。

第四方面，本申请实施例提供一种模型训练装置，包括：获取模块、划分模块、模型生成模块、判断模块。所述获取模块用于获取目标物体的训练图像集；所述训练图像集包括多张训练图像，每张所述训练图像包含所述目标物体的图形信息与任意一种场景图像的图形组合信息。所述划分模块用于将所述训练图像集划分为训练集和验证集。所述模型生成模块用于根据所述训练集，获取所述目标物体的第一模型。所述判断模块用于判断训练轮数是否大于或等于预设轮数，所述训练轮数为执行根据所述训练集，获取所述目标物体的第一模型的步骤的次数。所述模型生成模块还用于当所述训练轮数大于或等于所述预设轮数时，将所述第一模型作为所述目标物体的计数模型。

第五方面，本申请实施例提供一种电子设备，包括：存储器用于存储一个或多个程序；处理器；当所述一个或多个程序被所述处理器执行时，实现如前述实施方式中任一项所述的训练图像获取方法或前述实施方式任一项所述的模型训练方法。

第六方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前述实施方式中任一项所述的训练图像获取方法或前述实施方式任一项所述的模型训练方法。

相对于现有技术而言，本申请具有以下有益效果：

使用本申请提出的训练图像获取方法，仅需要少量的数据标注即可实现目标物体的训练图像的标注，有效的降低训练图像标注成本，并实现高效的物体计数。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种训练图像获取方法的流程示意图；

图2为本申请实施例提供的另一种训练图像获取方法的流程示意图；

图3为本申请实施例提供的另一种训练图像获取方法的流程示意图；

图4为本申请实施例提供的另一种训练图像获取方法的流程示意图；

图5为本申请实施例提供的一种模型训练方法的流程示意图；

图6为本申请实施例提供的一种训练图像获取装置的方框示意图；

图7为本申请实施例提供的一种模型训练装置的方框示意图；

图8为本申请实施例提供的一种电子设备的方框示意图。

图标：40-训练图像获取装置，41-采集模块，42-目标物提取模块，43-图集生成模块，50-模型训练装置，51-获取模块，52-划分模块，53-模型生成模块，54-判断模块，60-电子设备，61-存储器，62-处理器，63-通信接口。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

当前基于机器视觉的物体计数技术主要应用在人群计数中，但是生产生活中需要计数的场景很多，比如畜牧牲畜计数、细胞计数、车辆计数等，基于机器视觉的物体计数技术并没有被很好的推广到这些场景，主要的原因是训练计数模型的监督数据标注成本高昂。

目标物体计数或者密度估计任务的难点在于目标物体尺度变化大、遮挡多、场景多变，另一方面，基于深度学习的物体计数模型对目标物体的细节要求低，极低的清晰度就能达到训练数据的标准。基于此可以通过堆叠目标物体和场景背景图的方式模拟真实场景中的尺度变化和遮挡情况，人工构造包含目标物的图片来训练模型，而无需耗费大量的人力和时间筛选标注真实图片。

基于上述的问题，本申请实施例提供一种应用于物体计数的训练图像获取方法，如图1，图1为本申请实施例提供的一种训练图像获取方法的流程示意图。该训练图像获取方法包括：

步骤S20、获取目标物体的初始图像集。

上述的初始图像集包括多个初始图像和每个初始图像对应的初始标注；初始标注表征对应的初始图像中目标物体的特征信息。例如，上述目标物体可以是人、车辆、牲畜、细胞等，首先采集包含目标物体的初始图像作为初始图像集，为了使获得的训练图像更具有差异性，初始图像集可以包含目标物体的各个角度。可以理解的，初始图像采集完成后需要标注出目标物体的位置和大小，以目标物体的中心点作为标注对象且标出物体边框，将其作为初始标注存储到初始图像集中。通过获取目标物体的初始图像以及初始标注，有利于后续获取符合训练要求的训练图像。

步骤S21、根据初始标注，提取每张初始图像中的目标物体的图形信息。

上述的图形信息可以是目标物体的图形截取部分。例如，当初始标注中包含有目标物体的物体边框信息时，可以将初始图像中的目标物体提取出来，以便后续生成训练图像。在一种可能的情况下，还可以将提取出来图形信息缩放成统一的尺寸，以便统一存储和使用。

步骤S22、根据图形信息和至少一种场景图像，生成目标物体的训练图像集。

上述的训练图像集包括多张训练图像，每张训练图像包含图形信息与任意一种场景图像的图形组合信息。该图形组合信息可以是，但不限于，训练图像中目标物体的位置、大小信息，训练图像的图像种类信息等。

获取少量的目标物体初始图像以及进行少量数据标注，通过图形变换和组合，实现目标物体的训练图像的标注，有效的降低训练图像标注成本。

在可选的实施方式中，为了获取更多的训练图像，在图1的基础上，给出一种可能的实现方式，如图2，图2为本申请实施例提供的另一种训练图像获取方法的流程示意图。针对上述的步骤S22，其可以包括：

步骤S221、根据拼接参数和至少一个图形信息，获取目标物群图像。

该拼接参数表征目标物群图像中目标物体的堆叠信息。以上述的拼接参数包括指定的群体大小m、宽度w、高度h和透视角度α为例，一个拼接参数集包含m组参数，每一组参数包含了一个目标物体的图形信息堆叠时的拼接坐标(x，y)、缩放比例sr、旋转角度β、覆盖优先级cl。计算拼接参数集的具体方法中，随机的在大小为w×h的矩形区域生成m个点坐标的集合为：

D＝{(x_i，y_i)|x_i＝rand(0，w)，y_i＝rand(0，h)}，i＝1，2，3...m

其中rand(0，w)表示随机生成0到w之间的数值，坐标原点表示矩形区域左下角。然后根据y_i对D中m个坐标从大到小排序，得到D₁{(x_i，y_i)}。

接下来根据透视角α计算D₁中m个坐标上图形信息的缩放比例，设(x₁，y₁)对应的图形信息宽度为d₁：

其中，y₁表示D₁中第1个坐标的y值，y_i表示D₁中第i个坐标的y值。

第i个位置上图形信息的旋转角度β_i可表示为：

β_i＝rand(-5°，+5°)

覆盖优先级cl_i可表示为：

cl_i＝i

优先级高的图形可覆盖优先级低的图形。

需要注意的是，上述的拼接参数仅为一种可能的实现方式，还可以选择性的选取上述的某一数据对不同或相同的图形信息进行堆叠，以获取目标物群图像。为了使最终获取的训练图像更可靠，每次生成目标物群图像时，可以在所有的图形信息中有放回的随机选择图形信息来使用。可以理解的，还可以按照其他的选择方式来选择所有图形信息，以生成目标物群图像，例如，循环选取图形信息或选择性的不放回等图形信息选取方式。

步骤S222、根据目标物群图像和至少一种场景图像，生成训练图像集。

通过使用拼接参数和不同的图形信息生成目标物群图像，再结合场景图像，生成训练图像集，可以在初始图像集较少的情况下，获取更多的训练图像。

在可选的实施方式中，为了减少人工标注的工作量，在图2的基础上，给出一种可能的实现方式，如图3，图3为本申请实施例提供的另一种训练图像获取方法的流程示意图。上述的步骤S222，包括：

步骤S222a、根据目标物群图像和至少一种场景图像，生成训练图像和训练图像对应的图形组合信息。

步骤S222b、将训练图像和图形组合信息存储至训练图像集。

例如，将目标物群图像覆盖到场景图像中，同时变换目标物群图像中目标物体的位置、大小信息作为图形组合信息，并基于生成对抗网络对合成图片作风格转换，使训练图像更加自然，最后得到训练图形集。将少量的目标物体图形信息合成到事先准备的场景图片中去，自动生成大量且场景丰富的训练图像，再将生成的训练图像作为监督数据训练计数模型。训练图像集的生成过程是具有记录的，结合目标物体的初始标注等，则可以获得训练图形的图形组合信息，减少大容量训练图像集中人工标注的工作量。

在可选的实施方式中，为了获取更多的训练图像，针对上述的步骤S222a，给出一种可能的实现方式，如图4，图4为本申请实施例提供的另一种训练图像获取方法的流程示意图。步骤S222a，包括：

步骤S222a-1、根据目标物群图像和至少一种遮挡物图形，生成待测物图像。

步骤S222a-2、根据待测物图像和至少一种场景图像，生成训练图像和训练图像对应的图形组合信息。

例如，可以准备多个遮挡物图形，从遮挡物图形重随机挑选加入目标物群图像中，生成待测物图像。该待测物图像可以结合场景图像，以生成训练图像及其对应的图形组合信息。设置遮挡物来生成训练图像，可以提高模型训练的准确性。

基于上述步骤S20～S22的训练图像的获取方法，本申请实施例提供一种应用于物体计数的模型训练方法，如图5，图5为本申请实施例提供的一种模型训练方法的流程示意图。该模型训练方法包括：

步骤S30、获取目标物体的训练图像集。

训练图像集包括多张训练图像，每张训练图像包含目标物体的图形信息与任意一种场景图像的图形组合信息。

步骤S31、将训练图像集划分为训练集和验证集。

例如，可以按照比例将训练图像集中的训练图像及其对应的图形组合信息划分为训练集和验证集，训练集用于训练计数模型，验证集用于测试计数模型。需要说明的是，划分训练集和验证集的方法可以是按照比例，也可以是按照其他方式，训练集和验证集也可以具有重合的部分。

步骤S32、根据训练集，获取目标物体的第一模型。

步骤S33、判断训练轮数是否大于或等于预设轮数。

上述训练轮数为执行步骤S32的次数。设置预设轮数，有利于减少模型训练过程的工作量，提高模型的训练效率。例如，可以将预设轮数设置为30、40或50等，具体数字可以根据计数模型的具体需求进行设置。

当训练轮数大于或等于预设轮数时，则执行步骤S34。

步骤S34、将第一模型作为目标物体的计数模型。

使用本申请实施例所提供的训练图像集，结合模型训练，在标注工作量较少的情况下，获取一个准确度较高的计数模型，有利于提高整个物体计数的效率。

为了提高计数模型的计数准确率，请参见图5，当训练轮数小于预设轮数时，则执行步骤S35。

步骤S35、根据验证集，获取第一模型的识别准确率。

需要说明的是，该识别准确率可以是针对不同的训练图像，获取的计数准确率。

步骤S36、判断识别准确率是否大于或等于预设准确率。

若识别准确率小于预设准确率，则返回执行步骤S32。

若识别准确率大于或等于预设准确率，则执行步骤S37。

步骤S37、判断第一模型是否满足模型收敛条件。

上述的模型收敛条件可以利用损失函数来确定，例如均方误差、学习率设置为10^-5等。

当第一模型不满足模型收敛条件时，则返回执行步骤S32。

当第一模型满足模型收敛条件时，则执行步骤S34。

使用本申请提供的训练图像集，可以在初始图像集仅具有10^2～10^3量级以及初始标注的情况下，获取10^4～10^5量级的训练图像集及图像组合信息，即可实现较高的计数精度，相比常规方法可减少2～3个数量级以上的标注量。

在可选的实施方式中，为了获取一个更加可靠的训练图像集，在步骤S30之后，还可以对训练图像集进行数据增强处理。该数据增强处理包括以下的任意一项或组合：添加噪声、调整大小、裁剪、旋转等。例如，从训练图像集中随机选择40％的训练图像添加随机噪声；从训练图像集中随机选择20％作resize，以0填充多余尺寸；从训练图像集中随机选择20％作crop操作；从训练图像集中随机选择10％作小角度旋转。

针对上述的训练图像获取方法和模型训练方法，以目标物体是人为例，本申请实施例提供一种视频监控人群的方法：

人群计数常用在如火车站、广场、地铁站、商场这类公共场所的视频监控中，因此在准备计数目标即人体图片时可针对性的采集俯视角度的图片。采集不同年龄段、不同角度、不同性别、不同发型头饰的人体图片，然后标注出其中约800个不同的人体边缘，形成初始图像集。并且收集各种不包含人体的风景、室内、室外图片约10000张作为场景图像集。

利用初始标注信息，将标注出的800个人体抠取出来，统一等比例缩放为宽60个像素的图片，形成800张人体图形信息集。

预计需要生成100000组监督数据作为人群计数模型的数据集，所以需要生成100000个人群图像，每一个群体的大小m随机的在0-3000之间取值，宽度w设为1080，高度h设为768，透视角度α随机的在0-20°之间取值。该步骤会生成100000组人群拼接参数，利用本文所述方法可生成100000张人群图像集，每一张人群图像都有对应的人体位置和大小标注信息。

依次为上述生成的100000张人群图像10000张场景数据集中随机选择背景图，根据人群图像在背景图中的相对位置变换各个人体的坐标信息，最后得到人群训练图像集。

选择性地做以下图像增强：从合成标注数据集中随机选择40％的图片添加随机噪声；从图片中随机选择20％作resize，以0填充多余尺寸；从图片中随机选择20％作crop操作；从图片中随机选择10％作小角度旋转。

构建基于深度学习的神经网络模型，以ResNet101神经网络的第1，2，3层作为特征提取主干网络，FCN全卷积层以6个空洞率分别为1，3，5，1，3，5，通道数分别为512，512，512，256，128，64，卷积核大小均为3×3的空洞卷积组成。输出层为一个输出通道数1，卷积核大小3×3的卷积层。模型的损失函数为人群数的MSE误差，学习率设置为1e-5，利用深度学习框架Pytorch或者TensorFlow构建上述模型结构并利用上述的人群训练图像集训练约100轮即可获得较好的人群计数模型。

将训练所得人群计数模型文件进行量化压缩处理后集成到芯片中，即可嵌入到监控摄像头中对视频中人群进行实时计数。

实时计数的过程可以使用CNN特征提取网络、FCN全卷积网络和上采样层，模型的输入为待计数目标的图片，上采样层的输出为目标密度图，对目标密度图求和即可得到目标数量。可以将上述的人群计数模型布设在推理摄像头或个人终端、服务器上。

针对上述的训练图像获取方法和模型训练方法，以目标物体是车辆为例，本申请实施例提供一种视频监控车辆计数的方法：

可采集不同车型、不同角度、不同颜色的车辆图片，然后标注出其中约500个不同的车辆边缘，再对车辆图片做色度、亮度、饱和度的随机变换形成初始图像集。

因为车辆出现场景相对比较简单，只需收集各种不包含车辆的马路、高速路、街道、风景图片约2000张作为场景图像集。

利用标注信息，将步骤1中标注出的500辆车抠取出来，统一等比例缩放为宽200个像素的图片，形成车辆图像集。

预计需生成50000组监督数据作为车辆计数模型的训练数据集，所以需要生成50000个车群图像，每一个车群的大小m随机的在0-1000之间取值，宽度w设为1080，高度h设为768，透视角度α随机的在0-20°之间取值。该步骤会生成50000组车群拼接参数，利用本文所述方法可生成50000张车群图像集，每一张车群图像都有各个车辆的位置和大小标注信息。

利用和上述视频监控人群相似的模型训练方法，获得车辆计数模型，以便实现视频监控的车辆计数。

使用本申请所提供的方法，可以仅需10^2～10^3量级的数据标注即可实现较高的计数精度，相比常规方法可减少多个数量级的标注量，并获得一个较好的计数准确率。

为了实现上述任一训练图像获取方法，本申请实施例提供一种训练图像获取装置，如图6，图6为本申请实施例提供的一种训练图像获取装置的方框示意图。该训练图像获取装置40包括：采集模块41、目标物提取模块42和图集生成模块43。

采集模块41用于获取目标物体的初始图像集；初始图像集包括多个初始图像和每个初始图像对应的初始标注；初始标注表征对应的初始图像中目标物体的特征信息。

目标物提取模块42用于根据初始标注，提取每张初始图像中的目标物体的图形信息。

图集生成模块43用于根据图形信息和至少一种场景图像，生成目标物体的训练图像集；训练图像集包括多张训练图像，每张训练图像包含图形信息与任意一种场景图像的图形组合信息。图集生成模块43用以实现上述的步骤S22以及可能各个子步骤。

使用本申请实施例提供的训练图像获取装置40可以减少人工标注的工作量，获取一个可靠有效的训练图像集。

为了实现上述的任一模型训练方法，本申请实施例提供一种模型训练装置，如图7，图7为本申请实施例提供的一种模型训练装置的方框示意图。该模型训练装置50包括：获取模块51、划分模块52、模型生成模块53、判断模块54。

获取模块51用于获取目标物体的训练图像集；训练图像集包括多张训练图像，每张训练图像包含目标物体的图形信息与任意一种场景图像的图形组合信息。

划分模块52用于将训练图像集划分为训练集和验证集。

模型生成模块53用于根据训练集，获取目标物体的第一模型。

判断模块54用于判断训练轮数是否大于或等于预设轮数，训练轮数为执行根据训练集，获取目标物体的第一模型的步骤的次数。

模型生成模块53还用于当训练轮数大于或等于预设轮数时，将第一模型作为目标物体的计数模型。

基于本申请提供的训练图像集，通过将训练图像集划分为训练集和验证集，可以获取一个较好的计数模型，以便实现物体或人群计数。

本申请实施例提供一种电子设备，如图8，图8为本申请实施例提供的一种电子设备的方框示意图。该电子设备60包括存储器61、处理器62和通信接口63。该存储器61、处理器62和通信接口63相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器61可用于存储软件程序及模块，如本申请实施例所提供的训练图像获取方法或模型训练方法对应的程序指令/模块，处理器62通过执行存储在存储器61内的软件程序及模块，从而执行各种功能应用以及数据处理，如将本申请获得的计数模型布设在存储器61上，处理器62执行该计数模型，进而实现对待测物体的计数。该通信接口63可用于与其他节点设备进行信令或数据的通信。在本申请中该电子设备60可以具有多个通信接口63。

其中，存储器61可以是但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器62可以是一种集成电路芯片，具有信号处理能力。该处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件；也可以是局域网CAN模块，该局域网CAN模块包括CAN控制器和CAN收发器。

电子设备60可以实现本申请提供的任一种训练图像获取方法或模型训练方法。该电子设备60可以是，但不限于，手机、平板电脑、笔记本电脑、服务器或其它具有处理能力的电子设备。该电子设备60还可以具有通过本申请提供的方法而获取的计数模型，通过使用该计数模型，从而实现物体计数的功能。

本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前述实施方式中任一项的训练图像获取方法或模型训练方法。该计算机可读存储介质可以是，但不限于，U盘、移动硬盘、ROM、RAM、PROM、EPROM、EEPROM、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本申请提供的应用于物体计数的训练图像获取方法、模型训练方法及相关装置，涉及物体计数领域。该训练图像获取方法包括：获取目标物体的初始图像集；初始图像集包括多个初始图像和每个初始图像对应的初始标注；初始标注表征对应的初始图像中目标物体的特征信息；根据初始标注，提取每张初始图像中的目标物体的图形信息；根据图形信息和至少一种场景图像，生成目标物体的训练图像集；训练图像集包括多张训练图像，每张训练图像包含图形信息与任意一种场景图像的图形组合信息。使用本申请提出的训练图像获取方法，仅需要少量的数据标注即可实现目标物体的训练图像的标注，有效的降低训练图像标注成本，并实现高效的物体计数。

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种应用于物体计数的训练图像获取方法，其特征在于，所述方法包括：

获取目标物体的初始图像集；所述初始图像集包括多个初始图像和每个所述初始图像对应的初始标注；所述初始标注表征对应的初始图像中目标物体的特征信息；

根据所述初始标注，提取每张所述初始图像中的目标物体的图形信息；

根据拼接参数和至少一个所述图形信息，获取目标物群图像；所述拼接参数表征所述目标物群图像中目标物体的堆叠信息；

根据所述目标物群图像和至少一种场景图像，生成所述目标物体的训练图像集；所述训练图像集包括多张训练图像，每张所述训练图像包含所述图形信息与任意一种所述场景图像的图形组合信息；

所述拼接参数包括p组参数，所述p组参数中的每一组参数都包括一个目标物体的图形信息堆叠时的拼接坐标(x，y)、缩放比例sr、旋转角度β和覆盖优先级cl，所述拼接参数通过以下方式进行获取：

获取在大小为w×h的矩形区域生成m个点坐标的集合为：

D={(x _i ,y _i )|x _i =rand(0,w),y _i =rand(0,h)},i=1,2,3…m

其中，rand(0,w)表示随机生成0到w之间的数值，坐标原点为w×h的矩形区域左下角；

根据y_i对D中m个坐标从大到小排序，得到D₁ {(x _i ,y _i )}；

根据透视角

计算D₁中第i个坐标上图形信息的缩放比例sr _i为：

其中，d ₁为(x ₁ ,y ₁ )对应的图形信息宽度，y ₁表示D₁中第1个坐标的y值，y _i表示D₁中第i个坐标的y值；

获取第i个位置上图形信息的旋转角度

为：

获取覆盖优先级cl _i为：cl _i =i。

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标物群图像和至少一种场景图像，生成所述目标物体的训练图像集，包括：

根据所述目标物群图像和至少一种所述场景图像，生成所述训练图像和所述训练图像对应的所述图形组合信息；

将所述训练图像和所述图形组合信息存储至所述训练图像集。

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标物群图像和至少一种所述场景图像，生成所述训练图像和所述训练图像对应的所述图形组合信息，包括：

根据所述目标物群图像和至少一种遮挡物图形，生成待测物图像；

根据所述待测物图像和至少一种所述场景图像，生成所述训练图像和所述训练图像对应的所述图形组合信息。

4.一种应用于物体计数的模型训练方法，其特征在于，所述方法包括：

获取目标物体的训练图像集；

其中，所述训练图像集包括多张训练图像，每张所述训练图像包含所述目标物体的图形信息与任意一种场景图像的图形组合信息，所述训练图像集是根据拼接参数和至少一个图形信息获取的目标物群图像，并根据所述目标物群图像和至少一种所述场景图像生成的，所述拼接参数表征所述目标物群图像中目标物体的堆叠信息；将所述训练图像集划分为训练集和验证集；

根据所述训练集，获取所述目标物体的第一模型；

判断训练轮数是否大于或等于预设轮数，所述训练轮数为执行根据所述训练集，获取所述目标物体的第一模型的步骤的次数；

当所述训练轮数大于或等于所述预设轮数时，则将所述第一模型作为所述目标物体的计数模型；

获取在大小为w×h的矩形区域生成m个点坐标的集合为：

D={(x _i ,y _i )|x _i =rand(0,w),y _i =rand(0,h)},i=1,2,3…m

根据y_i对D中m个坐标从大到小排序，得到D₁ {(x _i ,y _i )}；

根据透视角

计算D₁中第i个坐标上图形信息的缩放比例sr _i为：

获取第i个位置上图形信息的旋转角度

为：

获取覆盖优先级cl _i为：cl _i =i。

5.根据权利要求4所述的方法，其特征在于，当所述训练轮数小于所述预设轮数时，所述方法还包括：

根据所述验证集，获取所述第一模型的识别准确率；

判断所述识别准确率是否大于或等于预设准确率；

若所述识别准确率小于所述预设准确率，则返回执行所述根据所述训练集，获取所述目标物体的第一模型的步骤；

若所述识别准确率大于或等于所述预设准确率，则判断所述第一模型是否满足模型收敛条件；

当所述第一模型不满足所述模型收敛条件时，则返回执行所述根据所述训练集，获取所述目标物体的第一模型的步骤；

当所述第一模型满足所述模型收敛条件时，则将所述第一模型作为所述目标物体的计数模型。

6.根据权利要求4或5所述的方法，其特征在于，在获取目标物体的训练图像集之后，所述方法还包括：

对所述训练图像集进行数据增强处理；所述数据增强处理包括以下的任意一项或组合：添加噪声、调整大小、裁剪、旋转。

7.一种训练图像获取装置，其特征在于，包括：采集模块、目标物提取模块和图集生成模块；

所述采集模块，用于获取目标物体的初始图像集；所述初始图像集包括多个初始图像和每个所述初始图像对应的初始标注；所述初始标注表征对应的初始图像中目标物体的特征信息；

所述目标物提取模块，用于根据所述初始标注，提取每张所述初始图像中的目标物体的图形信息；

所述图集生成模块，用于根据拼接参数和至少一个所述图形信息，获取目标物群图像；所述拼接参数表征所述目标物群图像中目标物体的堆叠信息；所述拼接参数包括p组参数，所述p组参数中的每一组参数都包括一个目标物体的图形信息堆叠时的拼接坐标(x，y)、缩放比例sr、旋转角度β和覆盖优先级cl，所述拼接参数通过以下方式进行获取：

所述图集生成模块还用于获取在大小为w×h的矩形区域生成m个点坐标的集合为：

D={(x _i ,y _i )|x _i =rand(0,w),y _i =rand(0,h)},i=1,2,3…m

所述图集生成模块还用于根据y_i对D中m个坐标从大到小排序，得到D₁ {(x _i ,y _i )}；

所述图集生成模块还用于根据透视角

计算D₁中第i个坐标上图形信息的缩放比例sr _i为：

所述图集生成模块还用于获取第i个位置上图形信息的旋转角度

为：

所述图集生成模块还用于获取覆盖优先级cl _i为：cl _i =i；

所述图集生成模块，还用于根据所述目标物群图像和至少一种场景图像，生成所述目标物体的训练图像集；所述训练图像集包括多张训练图像，每张所述训练图像包含所述图形信息与任意一种所述场景图像的图形组合信息。

8.一种模型训练装置，其特征在于，包括：获取模块、划分模块、模型生成模块、判断模块；

所述获取模块，用于获取目标物体的训练图像集；

其中，所述训练图像集包括多张训练图像，每张所述训练图像包含所述目标物体的图形信息与任意一种场景图像的图形组合信息，所述训练图像集是根据拼接参数和至少一个图形信息获取的目标物群图像，并根据所述目标物群图像和至少一种场景图像生成的，所述拼接参数表征所述目标物群图像中目标物体的堆叠信息；所述拼接参数包括p组参数，所述p组参数中的每一组参数都包括一个目标物体的图形信息堆叠时的拼接坐标(x，y)、缩放比例sr、旋转角度β和覆盖优先级cl，所述拼接参数通过以下方式进行获取：

所述获取模块还用于获取在大小为w×h的矩形区域生成m个点坐标的集合为：