CN112070137A

CN112070137A - 训练数据集的生成方法、目标对象检测方法及相关设备

Info

Publication number: CN112070137A
Application number: CN202010892590.9A
Authority: CN
Inventors: 周驰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-27
Filing date: 2020-08-27
Publication date: 2020-12-11

Abstract

本申请涉及人工智能技术领域，提供了一种训练数据集的生成方法、目标对象检测方法及相关设备，训练数据集用于对目标检测模型进行训练，所述目标检测模型用于检测图像中的目标对象，该训练数据集的生成方法包括：获取包括检测对象的第一图像，检测对象包括对应于目标对象的正例；对第一图像进行图像处理，得到至少一个第二图像，图像处理包括像素变换、非相似几何变换和对象边界遮挡处理中的至少一项；对背景图像与至少一个目标图像进行合成，得到第三图像，目标图像是所述第一图像或所述第二图像；将所述第三图像和目标图像在所述第三图像中的位置信息关联添加至训练数据集中，实现了自动生成训练数据集。

Description

训练数据集的生成方法、目标对象检测方法及相关设备

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种训练数据集的生成方法、目标对象检测方法及相关设备。

背景技术

在视频节目中，需要将品牌的LOGO(Logotype，图标)添加到视频图像中，即LOGO打码。为了保证LOGO打码的准确性，在完成LOGO打码后，需要对被添加LOGO的视频图像进行检测，以检测识别被打码到视频图像中的LOGO是否准确。相关技术中，通过目标检测模型来对视频图像进行LOGO检测，以判断被打码到视频图像中的LOGO是否为实际需要被打码到视频图像中的LOGO。

在将目标检测模型用于检测视频图像中的LOGO之前，需要通过训练数据集对该目标检测模型进行训练，以保证训练后该目标检测模型可以准确检测和识别图像中的LOGO。因此，在训练目标检测模型之前，需要构建训练数据集。

相关技术中，通过人工收集包括LOGO的图像来构建训练数据集，而为了使训练数据集中训练样本的数量达到一定数目，该种通过人工收集图像的方式存在工作量大、耗时长和效率低的问题。因此，如何提高生成训练数据集的效率是亟待解决的技术问题。

发明内容

本申请的实施例提供了一种训练数据的生成方法、目标对象检测方法及相关设备，进而至少在一定程度上可以解决相关技术中生成训练数据集效率低的问题。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供了一种训练数据集的生成方法，所述训练数据集用于对目标检测模型进行训练，所述目标检测模型用于检测图像中的目标对象，所述方法包括：

获取包括检测对象的第一图像，所述检测对象包括对应于所述目标对象的正例；

对所述第一图像进行图像处理，得到至少一个第二图像，所述图像处理包括像素变换、非相似几何变换和对象边界遮挡处理中的至少一项；

对背景图像与至少一个目标图像进行合成，得到第三图像，所述目标图像是所述第一图像和所述第二图像中的至少一个；

将所述第三图像和所述目标图像在所述第三图像中的位置信息关联添加至所述训练数据集中。

根据本申请实施例的一个方面，提供了一种目标对象检测方法，包括：获取待检测图像；将所述待检测图像输入至目标检测模型中，所述目标检测模型是通过训练数据集进行模型训练得到的，所述训练数据集是根据上述训练数据集的生成方法得到的；由所述目标检测模型对所述待检测图像进行目标对象检测，输出检测结果，所述检测结果至少指示了所述待检测图像中是否包括目标对象。根据本申请实施例的一个方面，提供了一种训练数据集的生成装置，所述训练数据集用于对目标检测模型进行训练，所述目标检测模型用于检测图像中的目标对象，所述装置包括：

获取模块，用于获取包括检测对象的第一图像，所述检测对象包括对应于所述目标对象的正例；

处理模块，用于对所述第一图像进行图像处理，得到至少一个第二图像，所述图像处理包括像素变换、非相似几何变换和对象边界遮挡处理中的至少一项；

合成模块，用于对背景图像与至少一个目标图像进行合成，得到第三图像，所述目标图像是所述第一图像或所述第二图像；

添加模块，用于将所述第三图像和所述目标图像在所述第三图像中的位置信息关联添加至所述训练数据集中。

根据本申请实施例的一个方面，提供了一种目标对象检测装置，包括：图像获取模块，用于获取待检测图像；输入模块，用于将所述待检测图像输入至目标检测模型中，所述目标检测模型是通过训练数据集进行模型训练得到的，所述训练数据集是根据上述训练数据集的生成方法得到的；检测模块，用于由所述目标检测模型对所述待检测图像进行目标对象检测，输出检测结果，所述检测结果至少指示了所述待检测图像中是否包括目标对象。根据本申请实施例的一个方面，提供了一种电子设备，包括：处理器；及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如上所述训练数据集的生成方法或目标对象检测方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被处理器执行时，实现如上所述训练数据集的生成方法或目标对象检测方法。

在本申请的方案中，对包括检测对象的第一图像进行图像处理，得到至少一个第二图像，相当于对包括检测对象的图像进行了扩充；然后将从第一图像和第二图像中所选取的图像作为目标图像，将该目标图像与背景图像进行合成，得到第三图像，最后将第三图像和目标图像在第三图像中的位置信息关联添加至训练数据集中，实现了基于有限的第一图像来自动生成用于进行目标检测模型训练的训练数据集，而不用完全依赖由人工进行训练数据的采集和构建，缩短了构建训练数据集的时间，提高了训练数据集的构建效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图；

图2是根据一实施例示出的训练数据集的生成方法的流程图；

图3是图2对应实施例中步骤230在一实施例中的流程图；

图4是根据一具体实施例示出的生成训练数据集的流程图；

图5是根据一实施例示出的所生成第三图像的示意图；

图6是根据一实施例示出的目标对象检测方法的流程图；

图7是根据一实施例示出的训练数据集的生成装置的框图；

图8是根据一实施例示出的目标对象检测装置的框图；

图9示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理(Nature Language processing，NLP)技术以及机器学习/深度学习等几大方向。

随着人工智能技术发展，人工智能技术已经广泛应用于图像识别和检测领域中，例如采用深度学习的方式进行图像中的目标对象进行检测与识别。具体来说，先通过神经网络构建目标检测模型，然后通过样本数据对检测模型进行训练，再通过训练后的目标检测模型自动识别图像中的目标对象。

在视频节目中，需要将品牌的LOGO(Logotype，图标)添加到视频图像中，即LOGO打码。为了保证LOGO打码的准确性，在完成LOGO打码后，需要对被添加LOGO的视频图像进行检测，以检测识别被打码到视频图像中的LOGO是否准确。相关技术中，通过目标检测模型来检测视频图像中的LOGO，以确认被打码到视频图像中的LOGO是否为实际需要被打码到视频图像中的LOGO。

在将目标检测模型用于识别视频图像中的LOGO之前，需要训练数据集对该目标检测模型进行训练，以保证训练后该目标检测模型可以准确检测和识别图像中的LOGO。因此，在训练目标检测模型之前，需要进行训练数据集的构建。

相关技术中，通过人工收集包括LOGO的图像来生成训练数据集，而为了使训练数据集中训练样本的数量达到一定数目，该种通过人工收集图像的方式存在工作量大、耗时长和效率低的问题。因此，如何提高训练数据集的生成效率是亟待解决的技术问题。

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。

如图1所示，系统架构100可以包括终端设备(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种，当然也可以是台式计算机等等)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

在本申请的一个实施例中，服务器105可以获取终端设备上所上传包括检测对象的第一图像，然后对第一图像进行图像处理，以得到至少一个第二图像；其中，该图像处理可以是像素变换、非相似几何变换、对象边界遮挡处理中的至少一种。再将第一图像和第二图像中的至少一个与背景图像进行合成，得到第三图像。由此，将该包括检测对象的第三图像作为训练数据集中的训练样本，实现了自动生成训练数据集。

进一步的，在目标对象的检测任务中，目标检测模型一方面需要检测出图像中包括哪一目标对象，而且还需要确定所检测出的目标对象在该图像中的位置。因此，在得到第三图像后，将目标图像在第三图像中的位置信息与第三图像关联添加至训练数据集中，该目标图像在第三图像中的位置信息作为该第三图像的标签，用于在通过第三图像进行目标检测模型训练时，确定该目标检测模型所检测确定检测对象在第三图像中的位置是否与实际位置(即目标图像在第三图像中的位置信息所指示的位置)相符，进而，根据该确定结果调整目标检测模型的参数。

在本申请的一个实施例中，服务器105在得到第二图像或者第三图像后，还可以将第二图像或者第三图像反馈至终端设备，由用户基于终端设备进行第二图像和第三图像的筛选，然后，由服务器基于用户所选定的第二图像或第三图像进行后续操作，进而基于用户所选定的第二图像和第三图像生成训练数据集。

在本申请的一个实施例中，服务器105还可以基于所生成训练数据集对目标检测模型进行训练。即：将包括检测对象的第三图像输入到目标检测模型中，由目标检测模型对第三图像进行目标对象检测，得到检测结果。可以理解的是，由于第三图像可能是多个目标图像与背景图像进行合成得到的，因此，第三图像中的多个位置均可能存在目标对象，当然，第三图像中多个位置处的目标对象可以相同也可以不同。因此，目标检测模型针对第三图像所输出的检测结果是与位置相关的，即该检测结果指示了在第三图像中的哪一位置检测出了哪一目标对象。

在得到第三图像的检测结果后，根据该第三图像所对应的标签信息和该第三图像所关联的位置信息判断在对应位置处所检测出的目标对象是否准确。具体来说，先根据第三图像所关联的位置信息确定对应于该位置信息所指示位置的检测结果，如果不存在对应于该位置信息所指示位置的检测结果，则需要调整目标检测模型的参数，然后通过调整参数后的目标检测模型重新对第三图像进行目标对象检测；反之，如果存在对应于该位置信息所指示位置的检测结果，则需要结合该位置信息所对应的检测结果和第三图像对应的标签信息判断检测结果所指示的目标对象与标签信息所指示的目标对象是否一致，如果不一致，则调整目标检测模型的参数，如果一致，则用训练数据集中的下一第三图像进行目标检测模型的训练。

在本申请的一个实施例中，服务器105还可以在通过所生成的训练数据集进行模型训练得到目标检测模型后，通过目标检测模型对待检测图像进行目标对象检测，输出对应的检测结果。所进行的目标对象检测即检测待检测图像中是否包括目标对象。其中，所输出的检测结果至少指示了待检测图像是否包括目标对象。在本申请的一些实施例中，若所输出的检测结果指示待检测图像中包括目标对象，该检测结果还可以进一步包括所检测出目标对象在待检测图像中的位置信息。

需要说明的是，本申请实施例所提供的训练数据集的生成方法以及目标对象检测方法一般由服务器105执行，相应地，训练数据集的生成装置、目标对象检测装置一般设置于服务器105中。但是，在本申请的其它实施例中，终端设备也可以与服务器具有相似的功能，从而执行本申请实施例所提供训练数据集的生成方法或者目标对象检测方法。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

图2是根据一实施例示出的训练数据集的生成方法的流程图，该方法可由图1所示的服务器执行，所述训练数据集用于对目标检测模型进行训练，所述目标检测模型用于检测图像中的目标对象，该方法至少包括如下步骤210-240，详细介绍如下。

步骤210，获取包括检测对象的第一图像，所述检测对象包括对应于所述目标对象的正例。

目标对象泛指通过目标检测模型所要检测识别出的对象。可以理解的是，目标检测模型的检测任务不同，则所要检测的目标对象存在差异。

举例来说，若目标检测模型的检测任务是检测图像中的LOGO，则所要检测确认的LOGO即为目标对象。具体的，若需要检测视频或者图像中“腾讯视频”、“微信支付”、“QQ游戏”的LOGO是否准确，则“腾讯视频”对应的LOGO、“微信支付”对应的LOGO和“QQ游戏”对应的LOGO为目标对象。

又例如，若目标检测模型的检测任务是检测图像中的动物，则所要检测确认的动物为目标对象。具体的，若需要检测视频或图像中的猴子、熊猫和马，则猴子、熊猫、马即为目标对象。

对于任一检测任务的目标检测模型而言，其所用于检测确认的目标对象可以是一个也可以是多个，在此不进行具体限定。

对应于目标对象的正例是指目标对象的真实图像。可以理解的是，以该对应于目标对象的正例来生成训练数据集，可以保证目标检测模型在基于该训练数据集进行训练过程中学习到目标对象的特征，从而使该目标检测模型可以用于检测图像中的目标对象。

在本申请的一些实施例中，第一图像中仅包括检测对象，从而，避免引入其他无关事物的图像，造成后续对第一图像的处理运算量加大。

步骤220，对所述第一图像进行图像处理，得到至少一个第二图像，所述图像处理包括像素变换、非相似几何变换和对象边界遮挡处理中的至少一项。

第二图像泛指对第一图像进行图像处理所得到的图像。

像素变换可以是中值滤波处理、透明度调节、亮度调节中的至少一项。

非相似几何变换是指使第二图像中的检测对象与第一图像中的检测对象并不相似的几何变换。对应的，相似几何变换是指使第二图像中的检测对象与第一图像中的检测对象相似的几何变换。

非相似几何变换可以是横向拉伸变换、纵向拉伸变换、透视变换和仿射变换中的至少一项。其中，横向拉伸变换和纵向拉伸变换由于都是仅在一个方向上进行拉伸，可以将横向拉伸变换和纵向拉伸变换统称为单向拉伸变换。

对象边界遮挡处理是指将第一图像检测对象的边界部分切割，从而使得第二图像中检测对象的边界并不完整。

下面，对上述所提及的图像处理方式进行具体说明。

中值滤波处理是一种非线性平滑技术，它将每一像素点的灰度值设置为该点某邻域窗口内的所有像素点灰度值的中值。换言之，在进行中值滤波后的图像中，像素点的灰度值为以该像素点为中心、区域大小为step*step中多个像素点的灰度值中值。其中，区域的步长step可以根据实际需要进行选用，在此不进行具体限定。在一具体实施例中，步长step的取值区间可以设定为[4，6]或者[10，12]。

相较于第一图像而言，进行中值滤波处理后所得到的图像中椒盐噪声减少，第二图像的清晰度较好。而且，中值滤波处理后所得到的图像中存在部分边缘模糊，原因是对位于边界的像素点进行中值滤波时，其周围部分地方不存在像素点。因此，通过中值滤波处理可以得到检测对象的边缘模糊化的第二图像。

在本申请的一些实施例中，对第一图像进行透明度调节可通过如下过程实现：获取所述第一图像中各像素点在透明度通道的透明度参数；根据为像素点所第一调节参数对所对应像素点的透明度参数进行调节，得到所述第二图像。

对于RGBA格式的图像而言，每一像素点的像素值包括四个分量值，分别为R、G、B和A分量。其中，R代表Red(红色)，B代表Blue(蓝色)，G代表Green(绿色)，A代表Alpha(透明度通道)。通常的，图像按照RGB格式表示，因此，为了获得第一图像中各像素点在透明度通道上的透明度参数，需要先将RGB格式的图像转换为RGBA格式的图像，从而，提取像素点的A分量，即为该像素点在透明度通道上的透明度参数。

其中，RGBA格式的图像中，R、G、B的取值范围为0到255之间的整数或者0％到100％之间的百分数，该三个分量值描述了红绿蓝三原色在预期色彩中的量。像素值中A分量的取值范围为0.0到1.0之间，其指示了所在像素点色彩的透明度/不透明度，其中，1表示完全不透明，0表示完全透明。

在本申请的一些实施例中，第一调节参数可以是为透明度参数设定的比例系数，也就是说，将第一调节参数与所提取像素点的透明度参数相乘，得到调节后的透明度参数。

在本申请的一些实施例中，第一调节参数可以是为透明度参数设定的参数变化量，也就是说，将所提取像素点的透明度参数与第一调节参数相加或者相减，得到调节后的透明度参数。

值得一提的是，为第一图像中各个像素点所设定的第一调节参数可以相同也可以不同，在此不进行具体限定。

在本申请的一些实施例中，第一图像中各像素点的透明度参数为1，为对第一图像进行透明度调节，将第一图像中各像素点的透明度参数随机乘以调节参数，其中，调节参数的取值范围可以为0.85～0.95。

通过对第一图像进行透明度调节，可以得到与第一图像透明度不同的图像。当然，在其他实施例中，为了得到更多样化的第二图像，还可以设定多组不同的调节参数，那么按照该多组不同的调节参数对第一图像分别进行透明度调节，可以得到与第一图像透明度不同的多个第二图像。

在本申请的一些实施例中，对第一图像进行亮度调节可通过如下过程实现，具体包括：将所述第一图像从RGB空间转换到HSV空间；获取所述第一图像各像素点在HSV空间中的亮度分量；按照第二调整参数对所述亮度分量进行调节；按照调节后的亮度分量将所述第一图像逆变换至RGB空间，得到所述第二图像。

对于HSV格式的图像而言，每一像素点的像素值包括三个分量，分别为：H、S、V。其中，H(Hue)表示色调分量，S(Saturation)表示饱和度分量，V(Value)表示亮度分量。具体的，色调分量H用角度度量，其取值范围为0°～360°，从红色开始按逆时针方向计算，红色为0°，绿色为120°，蓝色为240°；饱和度分量S表示颜色接近光谱色的程度，其取值范围为0～100％，其值越大，颜色越饱和；亮度分量V表示颜色明亮的程度，其取值范围为0(黑)～100％(白)。

如上所描述，图像一般按照RGB格式表示，即在RGB空间中进行表示，RGB格式的图像中，每一像素点包括三个分量，分别为：R代表Red(红色)，B代表Blue(蓝色)，G代表Green(绿色)。

因此，为了获得第一图像中各像素点的亮度分量，需要先将第一图像从RGB空间转换到HSV空间。

具体的，可以通过如下公式(1)-(5)将第一图像从RGB空间转换到HSV空间，从而，对应确定第一图像各像素点在HSV空间中的亮度分量。

V＝C_max， (5)

在本申请的一些实施例中，与透明度调节相类似，第二调整参数可以是为亮度分量设定的比例系数，也就是说，将第二调整参数与所提取像素点的亮度分量相乘，得到调节后的亮度分量。

在本申请的一些实施例中，第二调节参数可以是为亮度分量设定的参数变化量，也就是说，将像素点的亮度分量与像素点所对应第二调节参数相加或者相减，得到调节后的亮度分量。

值得一提的是，为第一图像中各个像素点所设定的第二调节参数可以相同也可以不同，在此不进行具体限定。

在本申请的一些实施例中，还可以为第一图像中各个像素点对应的第二调整参数设定取值范围，例如在第二调整参数为亮度分量设定的比例系数时，设定该第二调整参数的取值范围为0.8～1.2，然后，将各像素点的亮度分量随机地乘以该取值范围中的数，得到各像素点进行调整后的亮度分量。

在得到调节后的亮度分量后，按照调节后的亮度分量将第一图像逆变换到RGB空间，可以对应得到RGB格式的第二图像。

透视变换是指利用透视中心、像点和目标点三点共线的条件，按透视旋转定律使承影面(透视面)绕迹线(透视轴)旋转某一角度，破坏原有的投影光线束，仍能保持承影面上投影几何图形不变的变换。

其中，透视变换的通用变换公式为：

其中，u，v是透视变换前图像中像素点的坐标，透视变换所得到图像中像素点的坐标为x，y。其中，

x＝x′/w′， (7)

y＝y′/w′， (8)

上述公式(6)中的矩阵

为透视变换矩阵，其中，透视变换矩阵中，a₃₃等于1。

在本申请的一些实施例中，可以通过如下过程对第一图像进行透视变换，具体包括：获取第一图像中四个第一特征点的坐标，以及为每一第一特征点所指定第一目标点的坐标；根据四个第一特征点的坐标和所对应第一目标点的坐标计算得到透视变换矩阵；按照透视变换矩阵对第一图像进行透视变换，得到第二图像。

其中，第一目标点是所指定进行透视变换后第一特征点的对应点。也就是说，在本实施例中，基于已知变换对应的四个点的坐标来计算透视变换矩阵。

结合上述公式(6)-(8)可以得到：

由此变换后所得到图像中像素点的坐标可以通过公式(9)和公式(10)来确定。

在本实施例中，将所获取第一图像中四个第一特征点的坐标和每一第一特征点所分别对应的第一目标点的坐标代入上述公式(9)和(10)中，可以对应计算得到透视变换矩阵中未知参数a₁₁、a₁₂、a₁₃、a₂₁、a₂₂、a₂₃、a₃₁、a₃₂的值。由此，透视变换矩阵对应确定。

然后，基于所得到的透视变换矩阵，将第一图像中各个像素点的坐标代入上述(9)和(10)中，可以对应得到透视变换后的坐标，进而，透视变换后所得到第二图像中各个像素点的坐标对应确定。

仿射变换又称仿射映射，是指将图像在一个向量空间进行一次线性变换并接上一个平移，变换为另一个向量空间。仿射变换是一种二维坐标到二维坐标之间的线性变换，它保持了二维图形的“平直性”(即直线经过变换之后依然是直线)和“平行性”(即：二维图形之间的相对位置关系保持不变，平行线依然是平行线，且直线上的位置顺序不变)。仿射变换可以通过如下公式表示：

上式(11)中，x，y为仿射变换前像素点的坐标，X′，y′为仿射变换后像素点的坐标，矩阵

为仿射变换矩阵。

在本申请的一些实施例中，可以通过如下的过程对第一图像进行仿射变换，具体包括：获取所述第一图像中三个第二特征点的坐标，以及获取为每一第二特征点所指定第二目标点的坐标；根据所述第二特征点的坐标和所对应第二目标点的坐标计算得到仿射变换矩阵；按照所述仿射变换矩阵对所述第一图像进行仿射变换，得到所述第二图像。

其中，第二目标点是所指定进行仿射变换后第二特征点的对应点。也就是说，在本实施例中，基于已知仿射变换对应的三个点的坐标来计算仿射变换矩阵。

在得到三个第二特征点的坐标和每一第二特征点所对应第二目标点的坐标后，对应带入上述公式(11)中，可以对应计算得到仿射变换矩阵中的参数：a、b、c、d、e、f，从而，仿射变换矩阵确定。

在确定仿射变换矩阵之后，将第一图像中各像素点的坐标分别代入上述公式(11)中，计算得到进行仿射变换后各像素点的坐标，即仿射变换所得到第二图像中各像素点的坐标确定。

在本申请的一些实施例中，非相似几何变换还可以是单向拉伸变换，可以通过如下的过程对第一图像进行单向拉伸变换：获取目标拉伸方向上的拉伸系数，所述目标拉伸方向是所述第一图像的高度方向或宽度方向；按照所述拉伸系数在所述目标拉伸方向上对所述第一图像进行拉伸变换。

单向拉伸变换可以横向拉伸变换，也可以是纵向拉伸变换。横向拉伸变换是指保持图像高度不变，按照拉伸系数对宽度进行拉伸，此种情况下，目标拉伸方向为图像的宽度方向。纵向拉伸变换是指保持图像宽度不变，按照拉伸系数对高度进行拉伸，此种情况下，目标拉伸方向为图像的高度方向。

目标拉伸方向和目标拉伸方向上的拉伸系数可以根据实际需要进行设定，在此不进行具体限定。可以理解的是，为了得到多个第二图像，可以设定多组用于实现纵向拉伸或者横向拉伸的拉伸系数。

在本申请的一些实施例中，所述图像处理包括对象边界遮挡处理，对所述第一图像进行对象边界遮挡处理可以通过如下过程实现：对所述第一图像中的检测对象进行边缘检测，确定所述检测对象的边缘在所述第一图像中的位置；根据所确定边界的位置，在所述第一图像中确定目标移除区域，所述检测对象的边界部分位于所述目标移除区域中；将所述目标移除区域从所述第一图像中移除，得到所述第二图像。

通过进行边缘检测，可以对应确定第一图像中检测对象的边缘所在的位置。由此，以检测对象的边缘所在的位置作为基准，确定对第一图像中检测对象进行切割的切割线。

其中，该切割线可以是距离检测对象中所要被移除的边界设定距离的线。在其他实施例中，该切割线还可以是根据检测对象中所要被移除的边界中的至少两个点所确定的直线。当然，在其他实施例中，该切割还可以是曲线、折线等，在此不进行具体限定。

在确定切割线后，该切割线与检测对象中所要被移除的边界之间围成的区域即为目标移除区域。由此，直接按照切割线对第一图像进行切割，即可实现将目标移除区域从第一图像中移除。

由将部分包括检测对象的边缘的目标移除区域从第一图像中移除，从而，在移除后，第一图像中检测对象的边缘是不完整的，从而，可以视为检测对象的边缘被部分遮挡。从而，将第一图像中目标移除区域进行移除后所得的第二图像可以模拟实际中对象被部分遮挡的情况。因此，基于该进行目标区域移除所得到的第二图像构建的训练数据集对目标检测模型进行训练后，可以使得该目标检测模型可以检测识别边缘被部分遮挡的目标对象。

值得一提的是，在步骤220中，对第一图像所进行的图像处理可以是以上所列举多种像素变换(中值滤波、透明度调节、亮度调节)、多种非相似几何变换(透视变换、仿射变换、横向拉伸变换、纵向拉伸变换)以及对象边界遮挡处理中的至少一项。

可以理解的是，所采用图像处理方式不同，所得到第二图像对应不同。从而采用上述任一种图像处理方式，或者两种及两种以上方式组合对第一图像进行处理，可以得到多个不同的第二图像。换言之，通过步骤220的过程相当于实现对包括检测对象的图像进行了扩充，所扩充得到的第二图像中仍然包括检测对象。由此，可以基于该图像扩充所得到的第二图像以及初始得到的第一图像来生成训练数据集。

从另一个角度讲，在实际中，由于拍摄角度、光线、亮度等的差异，可能会导致所采集包括目标对象的图像存在差异，因此，一般地，为了保证目标检测模型可以识别不同场景下图像中的目标对象，需要采集不同场景下所采集获得包含检测对象的图像来对目标检测模型进行训练。

而通过上述步骤220的过程，对第一图像进行图像处理所得到的第二图像可以等效为在不同场景下所采集到包含目标对象的图像。也就是说，基于同一张包含目标对象的图像(即第一图像)通过图像处理得到多种场景下包含目标对象的图像(即第二图像)，而不需要人工进行实际场景模拟和在各个场景下进行图像采集，从而，大大节约了图像采集的时间和减少了图像采集的工作量。

请继续参阅图2，步骤230，对背景图像与至少一个目标图像进行合成，得到第三图像，目标图像是第一图像或第二图像。

在一次图像合成中，可以是一背景图像与一目标图像进行合成，也可以是一背景图像与两个或者与两个以上的目标图像进行合成，换言之，在一第三图像中，可以包括一个目标图像，也可以包括两个以及以上数量的目标图像。

在进行图像合成的过程中，以背景图像作为背景，将目标图像贴合到背景图像中，得到第三图像。

在本申请的一些实施例中，目标图像的尺寸小于背景图像，以保证将目标图像贴合到背景图像中后，目标图像不完全覆盖背景图像。

在本申请的一些实施例中，可以预先构建一背景图像库，以在需要进行图像合成时，从该背景图像库中选取一图像作为背景图像。其中，该背景图像库中的图像可以来源于公开数据库，还可以是视频中的截图。

在本申请的一具体实施例中，目标检测模型用于检测图形中的LOGO，在此应用场景下，背景图像库中的图像可以来源于OpenLogo数据库，还可以是各类综艺视频中的截图，例如将OpenLogo数据库中的图片和综艺视频中的截图按照1∶1的比例构建该背景图像库。

在本申请的一些实施例中，为便于目标图像的选取，还可以构建一个目标图像库，该目标图像库用于存放第一图像和对第一图像进行图像处理所得到的第二图像。从而，从目标图像库中选取若干图像作为目标图像来进行图像合成。

在本申请的一些实施例中，所述检测对象还包括对应于目标对象的反例。其中，对应于目标对象的反例是指图像与目标对象相类似，但容易被误认为是目标对象的图像。根据包括对应于目标对象的反例的第一图像和包括对应于目标对象的正例的第一图像来生成训练数据集，使得通过该训练数据集所训练的得到目标检测模型不仅具有识别图像中目标对象的能力和还有识别对应于目标对象的反例的能力，从而，降低目标检测模型将与目标对象相类似的图像误检测为目标对象的概率，以此提高目标检测模型对目标对象的检测准确度。

在本申请的一些实施例中，在检测对象还包括对应于目标对象的反例的场景中，还可以将目标图像库划分成正例库和反例库。其中正例库用于存放包括对应于目标对象的正例的第一图像和根据该包括对应于目标对象的正例的第一图像所得到的第二图像，反例库用于存放包括对应于目标对象的反例的第一图像和根据该包括对应于目标对象的反例的第一图像所得到的第二图像。为便于区分，将正例库中图像称为正例图像，将反例库中的图像称为反例图像。

在本申请的一些实施例中，在应用目标检测模型的过程中，还可以将模型误识别为目标对象的图像作为第一图像存入反例库中，并按照上述步骤220对所新存入的第一图像进行图像处理，得到多个第二图像，然后基于该新放入的第一图像以及新生成的第二图像生成第三图像，以基于所新得到的第三图像对目标检测模型进行更新训练。

在本申请的一些实施例中，在与一背景图像进行合成的过程中，可以仅选取正例图像与该背景图像进行合成，还可以选取部分正例图像且选取部分反例图像来与该背景图像进行合成，还可以仅选取反例图像与该背景图像进行合成。

对于选取部分正例图像且选取部分反例图像来与背景图像进行合成的情况，可以先将背景图像与所选取的反例图像进行合成，将进行合成所得到的图像再次作为背景图像，然后所选取的正例图像与前一次合成所得到的图像再次进行图像合成，从而，得到包括反例图像和包括正例图像的第三图像。

步骤240，将所述第三图像和所述目标图像在所述第三图像中的位置信息关联添加至所述训练数据集中。

通过如上步骤210-240的过程，可以实现训练数据集的丰富，进而以该训练数据集中的第三图像以及目标图像在该第三图像中的位置信息对目标检测模型进行训练，目标图像在该第三图像中的位置信息可以用于表征检测对象在第三图像中的位置。

在本申请的一些实施例中，还可以在训练数据集中设置一标记文件，该标记文件用于存储目标图像在第三图像中的位置信息。

如上所描述，由于一第三图像可能是一背景图像与多个目标图像进行合成所得到的，因此，与第三图像所关联的位置信息包括多个。

在本申请的一些实施例中，由于反例图像中包括对应于目标对象的反例，因此，对于根据反例图像所生成的第三图像，以反例图像作为目标图像时，该反例图像在第三图像的中位置信息可以不存入训练数据集中，而仅将以正例图像作为目标图像在第三图像中的位置信息存入训练数据集中。

在本申请的一些实施例中，对于包括正例图像的第三图像，在将第三图像存入训练数据集的同时，还对该第三图像进行标签标记，其中，所标记的标签用于指示第三图像中所包括的目标对象。

在训练数据集中的数据达到设定的样本量时，则可以用该训练数据集中的第三图像以及该第三图像所关联的位置信息作为训练样本，对目标检测模型进行训练。具体来说，将第三图像输入至目标检测模型中，由该目标检测模型提取第三图像的内容特征，然后基于所提取的内容特征确定检测结果，该检测结果用于指示第三图像中是否包括目标对象，如果检测结果指示第三图像中包括目标对象，该检测结果还用于进一步指示目标对象位于第三图像中的位置。

在得到对应于第三图像的检测结果后，根据第三图像的检测结果以及第三图像的标签、与第三图像所关联的位置信息确定是否需要调整目标检测模型的参数。具体来说，如果根据检测结果和与第三图像所关联的位置信息确定该目标检测模型出现误识别，则需要调整目标检测模型的参数，然后通过调整参数后的目标检测模型在此对第三图像进行检测；反之，如果确定目标检测模型生成的检测结果准确，则继续用下训练样本对目标检测模型进行训练，直至目标检测模型的损失函数收敛。

对于目标检测模型出现误识别的情况，包括将第三图像中的其他非目标对象检测识别为目标对象，以及所识别出目标对象在第三图像中的位置与第三图像所关联位置信息所指示目标对象在第三图像中的位置不符。

在本申请的一些实施例中，目标检测模型可以是通过一种或者多种神经网络所构建的，例如，通过卷积神经网络、长短时记忆神经网络、门控循环神经网络等构建。

在本申请的方案中，对包括检测对象的第一图像进行图像处理，得到至少一个第二图像，相当于对包括检测对象的图像进行了扩充，然后将从第一图像和第二图像中所选取的图像作为目标图像，将该目标图像与背景图像进行合成，得到第三图像，最后将第三图像和目标图像在第三图像中的位置信息关联添加至训练数据集中，实现了基于有限的第一图像来自动生成用于进行目标检测模型训练的训练数据集，而不用完全依赖由人工进行训练数据的采集和构建，缩短了构建训练数据集的时间，提高了训练数据集的构建效率。

在本申请的一个实施例中，如图3所示，步骤230包括：

步骤310，获取合成指示信息，所述合成指示信息包括相似几何变换参数和贴合数量。

其中，该贴合数量是指需要在一背景图像中贴合目标图像的数量。

步骤320，根据所述贴合数量选取对应数目的目标图像。

步骤330，按照所述相似几何变换参数对所选取的所述目标图像分别进行相似几何变换。

在本申请的一些实施例中，所述相似几何变换包括比例缩放，所述相似几何变换参数包括贴图比例；步骤330包括：根据所述贴图比例和所述背景图像的尺寸，确定所选取目标图像的目标尺寸；按照所述目标尺寸对所选取的目标图像进行比例缩放，直至所述目标图像的尺寸达到所述目标尺寸。

贴图比例指示了在第三图像中目标图像与背景图像的尺寸比例关系。

在本申请的一些实施例中，可以以背景图像的宽度作为基准，然后根据背景图像的宽度和贴图比例计算得到目标图像的目标宽度；再根据目标图像的实际宽度和所计算得到的目标宽度计算得到缩放因子，以按照该缩放因子对目标图像进行比例缩放，使得比例缩放后目标图像的宽度达到目标宽度。在其他实施例中，还可以以背景图像的高度作为基准来对目标图像进行比例缩放，过程与以背景图像的宽度作为基准进行比例缩放相似，在此不再赘述。

在本申请的一些实施例中，所述相似几何变换包括旋转变换，所述相似几何变换参数包括旋转参数；步骤330包括：按照所述旋转参数所指示的旋转角度和所指示的旋转方向对所选取的目标图像进行旋转。

在本申请的一些实施例中，可以预先设定需要进行旋转变换的比例，从而，在进行图像贴合过程中，一部分目标图像进行旋转变换，而一部分目标图像不进行旋转变换，当然，需要进行旋转变换与实际贴合的目标图像的比例满足所设定的需要进行旋转变换的比例。例如设定需要进行旋转变换的比例为1/6，则对于任一需要进行贴合的目标图像而言，其需要进行旋转变换的概率为1/6。

在本申请的一些实施例中，旋转参数所指示的旋转角度和所指示的旋转方向可以按照设定的规则进行确定。例如预先设定旋转角度的范围10°～45°，设定可选的旋转方向为顺时针和逆时针，则可以从旋转角度范围选择一角度作为旋转角度，从可选的旋转方向中选择一方向作为旋转方向。

在本申请的一些实施例中，还可以为每一贴合数量设定候选贴合比例，在需要进行贴合时，从候选贴合比例中选取一个作为贴合比例。其中，所进行的贴合比例选取可以是由用户进行选取，或者按照设定的规则进行选取，还可以是随机选取，在此不进行具体限定。

在本申请的一些实施例中，贴合数量可以是1(即一背景图像中贴合一目标图像)，也可以是4(即一背景图像中贴合一目标图像)。其中，为贴合数量为1所设定的候选贴合比例包括0.3、0.35、0.4、0.45、0.5、0.6。为贴合数量4所设定的候选贴合比例包括0.05、0.075、0.1、0.125、0.15、0.175、0.2、0.25。

在本申请的一些实施例中，在与同一背景图像进行贴合的过程中，可以仅按照一种贴合比例对目标图像进行相似几何变换，也可以按照多种贴合比例对目标图像进行相似几何变换。举例来说，可以将部分目标图像按照对应于贴合数量为4的候选贴合比例中选取的贴合比例进行相似几何变换，将部分目标图像按照对应于贴合数量为1的候选贴合比例中选取的贴合比例进行相似几何变换。从而，在同一背景图像中，可能存在多种尺寸的目标图像，以便于目标检测模型更好地进行训练。

在本申请的一些实施例中，还可以分别为包括对应于目标对象的正例的目标图像的贴合和为包括对应于目标对象的反例的目标图像的贴合设定候选贴合比例，例如，对应于贴合数量为4，为包括对应于目标对象的正例的目标图像的贴合所设定的候选贴合比例包括：0.05、0.075、0.1、0.125、0.15、0.175、0.2、0.25；而为包括对应于目标对象的反例的目标图像的贴合设定候选贴合比例包括：0.06、0.08、0.1、0.12。

当然，以上仅仅是对候选贴合比例、贴合数量的示例性举例，在其他实施例中，还可以根据实际需要进行候选贴合比例和贴合数量的设定。

请继续参阅图3，步骤340，将进行相似几何变换后的所述目标图像贴合至所述背景图像中，得到所述第三图像。

在本申请的一些实施例中，步骤340，包括：从所述背景图像中选取与所述贴合数量相同数目的贴图区域作为目标区域，所述贴图区域是对所述背景图像进行区域划分确定的；将进行相似几何变换后的目标图像分别贴合于所述目标区域，得到所述第三图像，其中，一目标区域用于贴合一目标图像。

在本申请的一些实施例中，可以按照设定的尺寸大小对背景图像进行区域等分划分，例如将背景图像按照2*2进行网格划分，一网格区间作为一贴图区域；又例如将背景图像按照3*3进行网格划分。

在本申请的一些实施例中，在进行贴合的过程中，先将进行相似几何变换后的目标图像的中心与目标区域的中心对齐，然后再将进行相似几何变换后的目标图像贴合在目标区域中。

在本申请的一些实施例中，在将行相似几何变换后的目标图像贴合至背景图像的目标区域中得到第三图像后，还可以对该第三图像进行图像增强处理。

下面结合一具体实施例对本申请的方案进行进一步说明。

在本实施中，目标检测模型用于检测图像中的LOGO。图4是根据一具体实施例示出的生成训练数据集流程图。如图4所示，分别输入LOGO图像和所采集针对LOGO的反例图像，然后对LOGO图像和反例图像进行像素变换，再进行单向拉伸变换，并将变换后的LOGO图像与背景图像进行贴合，以及将变换后的反例图像与背景图像随机进行贴合。

在该过程中，反例图像与背景图像进行贴合所得到的图像可以再次作为背景图像，用于再次与变换后的LOGO图像进行贴合。

值得一提的是，在所进行的图像处理中，先进行像素变换再进行单向拉伸变换进行是一种示例性举例，两种变换的顺序还可以调换，其中所进行的像素变换可以是上文所列举中的至少一项，所进行的单向拉伸斌换也可以是上文所列举中的至少一项。

在本实施例中，在将LOGO图像或者对LOGO图像进行图像处理所得到的第二图像与背景图像进行贴合的过程中，可以按照为贴合数量为1所设定的候选贴合比例(0.3、0.35、0.4、0.45、0.5、0.6)中至少一候选贴合比例进行比例缩放后贴合(为便于区分，将该种贴合方式称为大尺寸贴合)，还可以按照为贴合数量4所设定的候选贴合比例(0.05、0.075、0.1、0.125、0.15、0.175、0.2、0.25)中至少一候选贴合比例进行比例缩放后贴合(将该种贴合方式称为小尺寸贴合)。

在本实施例中，在反例图像与背景图像进行贴合的过程中，按照为贴合数量4所设定的候选贴合比例(0.06、0.08、0.1、0.12)中至少一候选贴合比例进行比例缩放后贴合。

在本实施例中，与背景图像进行贴合得到第三图像后，进一步对第三图像进行增强处理，然后将增强处理后的第三图像添加至训练数据集中。

图5示出了按照本申请的方法所得到第三图像的示意图，如图5所示，被贴合至背景图像中的目标图像包括LOGO的正例图像(为便于辨别，将被贴合至背景图像中的正例图像在图5中用方框标注出)和反例图像。

假设训练数据集中的第三图像的数量为t，所选取背景图像的数量为k＝0.01t，所收集的LOGO图像的数量为p。在所得到的第三图像中，被贴4个目标图像的第三图像的数量为0.95t，被贴1个目标图像的第三图像的数量为0.05t。

进一步假设对LOGO图像进行扩充后的正例图像不低于50张，则可以计算得到LOGO图像的扩充倍数epoch满足：

epoch≥50/p， (12)

假设每个扩充后的正例图像的使用不超过200次，由于被贴4个目标图像的第三图像的数量为0.95t，则使用正例图像的次数为0.95t*4；由于每个扩充后的正例图像的使用不超过200次，可以得到：

(1+epoch)*z≥(0.95t*4)/200， (13)

根据式(13)可以近似计算得到：

epoch≥(0.95x*4)/200/z＝0.95x/50/z， (14)

结合式(12)和(14)可以得到：LOGO图像的扩充倍数epoch满足：

epoch≥max(0.95x/50/z)，50/z)， (15)

对应的，扩充后LOGO的正例图像的数量为(1+epoch)*z张。由此可以看出，按照本公开的方法可以极大丰富训练数据集中的训练样本数量(即第三图像数量)。

值得一提的是，上述对于每个扩充后的正例图像的使用次数以及对LOGO图像进行扩充后的正例图像数量的限定进行是示例性举例，在其他实施例中，还可以根据实际需要进行设定。

图6是根据一实施例示出的目标对象检测方法的流程图，该方法可由图1所示的服务器执行，该方法至少包括如下步骤610-630，详细介绍如下。

步骤610，获取待检测图像。

步骤620，将所述待检测图像输入至目标检测模型中，所述目标检测模型是通过训练数据集进行模型训练得到的，所述训练数据集是根据上述任一实施例中的训练数据集的生成方法得到的。

步骤630，由所述目标检测模型对所述待检测图像进行目标对象检测，输出检测结果，所述检测结果至少指示了所述待检测图像中是否包括目标对象。

如上所描述，目标检测模型是与检测任务相对应的，该检测任务指示了所要检测的目标对象。由于在生成训练数据集的过程中，是根据包括检测对象的第一图像来进行图像扩充得到的，从而，在通过所生成的训练数据集进行模型训练得到目标检测模型后，该目标检测模型学习到目标对象的图像特征，可以对应检测待检测图像中是否包括目标对象。

其中，目标检测模型可以是通过卷积神经网络、递归神经网络等一种或者多种神经网络构建得到，在此不进行具体限定。

在本申请的一些实施例中，若所输出的检测结果指示待检测图像中包括目标对象，检测结果还可以进一步包括目标对象在待检测图像中的位置信息，该位置信息用于指示目标对象在待检测图像中的位置。

在本申请的方案中，由于按照上述训练数据集的生成方法所得到的训练数据集中除了包括第三图像外，还包括目标图像在第三图像中的位置信息，而目标图像在第三图像中的位置信息即指示了目标对象在第三图像中的位置，因此，通过该训练数据集所训练得到的目标检测模型可以准确检测确定目标对象在待检测图像中的位置，输出位置信息。

通过如上的方案，由于训练数据集是基于包括目标对象的第一图像、和对第一图像进行图像处理所得到的第二图像构建了，从而通过该训练数据集训练得到的目标检测模型可以识别不同状态(例如不同拍摄角度下)图像中的目标对象，可以保证目标对象检测的准确性。通过训练得到的目标检测模型可以自动且快速检测待检测图像是否包括目标对象，大幅提高了目标对象检测的效率和准确率。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的方法。对于本申请装置实施例中未披露的细节，请参照本申请上述的方法实施例。

本申请提供了一种训练数据集的生成装置700，该训练数据集的生成装置700可以配置于图1所示的服务器中，所述训练数据集用于对目标检测模型进行训练，所述目标检测模型用于检测图像中的目标对象，如图7所示，该训练数据集的生成装置700包括：

获取模块710，用于获取包括检测对象的第一图像，所述检测对象包括对应于所述目标对象的正例。

处理模块720，用于对所述第一图像进行图像处理，得到至少一个第二图像，所述图像处理包括像素变换、非相似几何变换和对象边界遮挡处理中的至少一项。

合成模块730，用于对背景图像与至少一个目标图像进行合成，得到第三图像，所述目标图像是所述第一图像或所述第二图像。

添加模块740，用于将所述第三图像和所述目标图像在所述第三图像中的位置信息关联添加至所述训练数据集中。

在本申请的一些实施例中，所述非相似几何变换包括透视变换，处理模块720被配置为：获取所述第一图像中四个第一特征点的坐标，以及为每一第一特征点所指定第一目标点的坐标；根据所述四个第一特征点的坐标和所对应第一目标点的坐标计算得到透视变换矩阵；按照所述透视变换矩阵对所述第一图像进行透视变换，得到所述第二图像。

在本申请的一些实施例中，所述非相似几何变换包括仿射变换，处理模块720被配置为：获取所述第一图像中三个第二特征点的坐标，以及获取为每一第二特征点所指定第二目标点的坐标；根据所述第二特征点的坐标和所对应第二目标点的坐标计算得到仿射变换矩阵；按照所述仿射变换矩阵对所述第一图像进行仿射变换，得到所述第二图像。

在本申请的一些实施例中，所述像素变换包括透明度调节，处理模块720被配置为：获取所述第一图像中各像素点在透明度通道的透明度参数；根据为像素点所第一调节参数对所对应像素点的透明度参数进行调节，得到所述第二图像。

在本申请的一些实施例中，所述像素变换包括亮度调节，处理模块720被配置为：将所述第一图像从RGB空间转换到HSV空间；获取所述第一图像各像素点在HSV空间中的亮度分量；按照第二调整参数对所述亮度分量进行调节；按照调节后的亮度分量将所述第一图像逆变换至RGB空间，得到所述第二图像。

在本申请的一些实施例中，所述非相似几何变换包括单向拉伸变换，处理模块720被配置为：获取目标拉伸方向上的拉伸系数，所述目标拉伸方向是所述第一图像的高度方向或宽度方向；按照所述拉伸系数在所述目标拉伸方向上对所述第一图像进行拉伸变换。

在本申请的一些实施例中，所述图像处理包括对象边界遮挡处理，处理模块720被配置为：对所述第一图像中的检测对象进行边缘检测，确定所述检测对象的边缘在所述第一图像中的位置；根据所确定边界的位置，在所述第一图像中确定目标移除区域，所述检测对象的边界部分位于所述目标移除区域中；将所述目标移除区域从所述第一图像中移除，得到所述第二图像。

在本申请的一些实施例中，合成模块730被配置为：获取合成指示信息，所述合成指示信息包括相似几何变换参数和贴合数量；根据所述贴合数量选取对应数目的目标图像；按照所述相似几何变换参数对所选取的所述目标图像分别进行相似几何变换；将进行相似几何变换后的所述目标图像贴合至所述背景图像中，得到所述第三图像。

在本申请的一些实施例中，在将进行相似几何变换后的所述目标图像贴合至所述背景图像中，得到所述第三图像的步骤中，合成模块730还被配置为：从所述背景图像中选取与所述贴合数量相同数目的贴图区域作为目标区域，所述贴图区域是对所述背景图像进行区域划分确定的；将进行相似几何变换后的目标图像分别贴合于所述目标区域，得到所述第三图像，其中，一目标区域用于贴合一目标图像。

在本申请的一些实施例中，所述相似几何变换包括比例缩放，所述相似几何变换参数包括贴图比例；在所述按照所述相似几何变换参数对所选取的所述目标图像分别进行相似几何变换的步骤中，合成模块730被配置为：根据所述贴图比例和所述背景图像的尺寸，确定所选取目标图像的目标尺寸；按照所述目标尺寸对所选取的目标图像进行比例缩放，直至所述目标图像的尺寸达到所述目标尺寸。

在本申请的一些实施例中，所述相似几何变换包括旋转变换，所述相似几何变换参数包括旋转参数；在所述按照所述相似几何变换参数对所选取的所述目标图像分别进行相似几何变换的步骤中，合成模块730被配置为：按照所述旋转参数所指示的旋转角度和所指示的旋转方向对所选取的目标图像进行旋转。

在本申请的一些实施例中，所述检测对象还包括对应于目标对象的反例。

本申请提供了还一种目标对象检测装置800，该目标对象检测装置800可以配置于图1所示的服务器中，如图8所示，该目标对象检测装置800包括：

图像获取模块810，用于获取待检测图像。

输入模块820，用于将待检测图像输入至目标检测模型中，目标检测模型是通过训练数据集进行模型训练得到的，训练数据集是根据上述任一实施例中训练数据集的生成方法得到的。

检测模块830，用于由目标检测模型对待检测图像进行目标对象检测，输出检测结果，检测结果至少指示了待检测图像中是否包括目标对象。上述装置中各个模块/单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

可以理解，这些模块可以通过硬件、软件、或二者结合来实现。当以硬件方式实现时，这些模块可以实施为一个或多个硬件模块，例如一个或多个专用集成电路。当以软件方式实现时，这些模块可以实施为在一个或多个处理器上执行的一个或多个计算机程序。

需要说明的是，图9示出的电子设备的计算机系统900仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，计算机系统900包括中央处理单元(Central Processing Unit，CPU)901，其可以根据存储在只读存储器(Read-Only Memory，ROM)902中的程序或者从存储部分908加载到随机访问存储器(Random Access Memory，RAM)903中的程序而执行各种适当的动作和处理，例如执行上述实施例中的方法。在RAM 903中，还存储有系统操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(Input/Output，I/O)接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN(Local Area Network，局域网)卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

根据本申请的一个方面，还提供了一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被处理器执行时，实现如上任一实施例中的训练数据集的生成方法或目标对象检测方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种训练数据集的生成方法，其特征在于，所述训练数据集用于对目标检测模型进行训练，所述目标检测模型用于检测图像中的目标对象，所述方法包括：

对背景图像与至少一个目标图像进行合成，得到第三图像，所述目标图像是所述第一图像或所述第二图像；

2.根据权利要求1所述的方法，其特征在于，所述非相似几何变换包括透视变换，所述对所述第一图像进行图像处理，得到至少一个第二图像，包括：

获取所述第一图像中四个第一特征点的坐标，以及为每一第一特征点所指定第一目标点的坐标；

根据所述四个第一特征点的坐标和所对应第一目标点的坐标计算得到透视变换矩阵；

按照所述透视变换矩阵对所述第一图像进行透视变换，得到所述第二图像。

3.根据权利要求1所述的方法，其特征在于，所述非相似几何变换包括仿射变换，所述对所述第一图像进行图像处理，得到至少一个第二图像，包括：

获取所述第一图像中三个第二特征点的坐标，以及获取为每一第二特征点所指定第二目标点的坐标；

根据所述第二特征点的坐标和所对应第二目标点的坐标计算得到仿射变换矩阵；

按照所述仿射变换矩阵对所述第一图像进行仿射变换，得到所述第二图像。

4.根据权利要求1所述的方法，其特征在于，所述像素变换包括透明度调节，所述对所述第一图像进行图像处理，得到至少一个第二图像，包括：

获取所述第一图像中各像素点在透明度通道的透明度参数；

根据为像素点所第一调节参数对所对应像素点的透明度参数进行调节，得到所述第二图像。

5.根据权利要求1所述的方法，其特征在于，所述像素变换包括亮度调节，所述对所述第一图像进行图像处理，得到至少一个第二图像，包括：

将所述第一图像从RGB空间转换到HSV空间；

获取所述第一图像各像素点在HSV空间中的亮度分量；

按照第二调整参数对所述亮度分量进行调节；

按照调节后的亮度分量将所述第一图像逆变换至RGB空间，得到所述第二图像。

6.根据权利要求1所述的方法，其特征在于，所述非相似几何变换包括单向拉伸变换，所述对所述第一图像进行图像处理，得到至少一个第二图像，包括：

获取目标拉伸方向上的拉伸系数，所述目标拉伸方向是所述第一图像的高度方向或宽度方向；

按照所述拉伸系数在所述目标拉伸方向上对所述第一图像进行拉伸变换。

7.根据权利要求1所述的方法，其特征在于，所述图像处理包括对象边界遮挡处理，所述对所述第一图像进行图像处理，得到至少一个第二图像，包括：

对所述第一图像中的检测对象进行边缘检测，确定所述检测对象的边缘在所述第一图像中的位置；

根据所确定边界的位置，在所述第一图像中确定目标移除区域，所述待检测对象的边界部分位于所述目标区域中；

将所述目标区域从所述第一图像中移除，得到所述第二图像。

8.根据权利要求1所述的方法，其特征在于，所述对背景图像与至少一个目标图像进行合成，得到第三图像，包括：

获取合成指示信息，所述合成指示信息包括相似几何变换参数和贴合数量；

根据所述贴合数量选取对应数目的目标图像；

按照所述相似几何变换参数对所选取的所述目标图像分别进行相似几何变换；

将进行相似几何变换后的所述目标图像贴合至所述背景图像中，得到所述第三图像。

9.根据权利要求8所述的方法，其特征在于，所述相似几何变换包括比例缩放，所述相似几何变换参数包括贴图比例；

所述按照所述相似几何变换参数对所选取的所述目标图像分别进行相似几何变换，包括：

根据所述贴图比例和所述背景图像的尺寸，确定所选取目标图像的目标尺寸；

按照所述目标尺寸对所选取的目标图像进行比例缩放，直至所述目标图像的尺寸达到所述目标尺寸。

10.根据权利要求8所述的方法，其特征在于，所述相似几何变换包括旋转变换，所述相似几何变换参数包括旋转参数；

按照所述旋转参数所指示的旋转角度和所指示的旋转方向对所选取的目标图像进行旋转。

11.根据权利要求1所述的方法，其特征在于，所述检测对象还包括对应于目标对象的反例。

12.一种目标对象检测方法，其特征在于，包括：

获取待检测图像；

将所述待检测图像输入至目标检测模型中，所述目标检测模型是通过训练数据集进行模型训练得到的，所述训练数据集是根据如权利要求1-11中任一项所述的方法得到的；

由所述目标检测模型对所述待检测图像进行目标对象检测，输出检测结果，所述检测结果至少指示了所述待检测图像中是否包括目标对象。

13.一种训练数据集的生成装置，其特征在于，所述训练数据集用于对目标检测模型进行训练，所述目标检测模型用于检测图像中的目标对象，所述装置包括：

14.一种电子设备，其特征在于，包括：

处理器；及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如权利要求1至12中任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被处理器执行时，实现如权利要求1至12中的任一项所述的方法。