CN113313215B

CN113313215B - 图像数据处理方法、装置、计算机设备和存储介质

Info

Publication number: CN113313215B
Application number: CN202110867491.XA
Authority: CN
Inventors: 廖彩明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2021-10-29
Anticipated expiration: 2041-07-30
Also published as: CN113313215A

Abstract

本申请公开了一种图像数据处理方法、装置、计算机设备和存储介质，该方法包括：获取包含多个图像块的样本图像；从多个图像块提取训练集；训练集包括前景图像块和背景图像块；前景图像块包含待检测的对象；前景图像块包括标签图像块和无标签图像块；标签图像块中的对象具备标签，无标签图像块中的对象不具备标签；基于训练集中的标签图像块和背景图像块训练特征生成网络，采用训练好的特征生成网络对每个训练图像块进行重构处理，得到每个训练图像块的重构特征；基于每个训练图像块的重构特征、标签图像块和背景图像块训练检测网络。采用本申请，可提高训练好的检测网络对图像中的对象进行检测的准确性，并减少为对象添加标签的成本。

Description

图像数据处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及图像数据处理的技术领域，尤其涉及一种图像数据处理方法、装置、计算机设备和存储介质。

背景技术

随着计算机网络的不断发展，人工智能应用在了生活的方法面面。例如，可以通过人工智能中的机器学习来训练检测网络，进而可以通过该检测网络实现对图像中的对象的检测。

现有应用中，通常是通过包含具有类别标签的物体的图像来对检测网络进行训练，使得训练得到的检测网络在后续可以对训练过的物体进行检测。可见，现有应用中，若要对一个物体进行检测，就需要预先通过携带有该物体的类别标签的图像对检测网络进行检测，当需要进行检测的物体的数量级很大时，对物体添加类别标签也是一项重大的工程，会耗费大量人力，而对于图像中未预先训练过的物体，检测网络通常也会漏检，导致检测并不准确。

发明内容

本申请提供了一种图像数据处理方法、装置、计算机设备和存储介质，可提高训练好的检测网络对图像中的对象进行检测的准确性，并减少为对象添加标签的成本。

本申请一方面提供了一种图像数据处理方法，包括：

获取样本图像，样本图像包含多个图像块；

从多个图像块中提取训练图像块并添加至训练集中；训练集包括从多个图像块中识别到的前景图像块和背景图像块；其中，前景图像块中包含待检测的对象；前景图像块包括标签图像块和无标签图像块；标签图像块中待检测的对象具备标签，无标签图像块中待检测的对象不具备标签；

基于训练集中的标签图像块和背景图像块训练特征生成网络，并采用训练好的特征生成网络对训练集中的每个训练图像块进行重构处理，得到训练集中的每个训练图像块的重构特征；

基于训练集中的每个训练图像块的重构特征、标签图像块和背景图像块训练检测网络；训练好的检测网络用于对图像中的对象进行检测。

本申请一方面提供了一种图像数据处理装置，包括：

样本获取模块，用于获取样本图像，样本图像包含多个图像块；

图像块提取模块，用于从多个图像块中提取训练图像块并添加至训练集中；训练集包括从多个图像块中识别到的前景图像块和背景图像块；其中，前景图像块中包含待检测的对象；前景图像块包括标签图像块和无标签图像块；标签图像块中待检测的对象具备标签，无标签图像块中待检测的对象不具备标签；

重构模块，用于基于训练集中的标签图像块和背景图像块训练特征生成网络，并采用训练好的特征生成网络对训练集中的每个训练图像块进行重构处理，得到训练集中的每个训练图像块的重构特征；

训练模块，用于基于训练集中的每个训练图像块的重构特征、标签图像块和背景图像块训练检测网络；训练好的检测网络用于对图像中的对象进行检测。

可选的，训练集中的背景图像块具有标签，背景图像块的标签用于指示背景图像块属于背景类别；训练集包括特征训练子集，特征训练子集中包括训练集中的标签图像块和背景图像块；

重构模块基于训练集中的标签图像块和背景图像块训练特征生成网络的方式，包括：

获取待训练的初始特征生成网络，并获取特征训练子集中的各个训练图像块的原始图像特征；

采用初始特征生成网络对特征训练子集中的每个训练图像块进行重构处理，生成特征训练子集中的每个训练图像块的初始重构特征；

根据特征训练子集中的每个训练图像块的原始图像特征、初始重构特征和标签确定初始特征生成网络的目标损失函数；

根据目标损失函数修正初始特征生成网络的网络参数，得到训练好的特征生成网络。

可选的，重构模块采用初始特征生成网络对特征训练子集中的每个训练图像块进行重构处理，生成特征训练子集中的每个训练图像块的初始重构特征的方式，包括：

将特征训练子集中的每个训练图像块的标签输入词向量模型，基于词向量模型分别生成特征训练子集中的每个训练图像块的语义特征；

分别对特征训练子集中的每个训练图像块的语义特征和原始图像特征进行拼接，得到特征训练子集中的每个训练图像块的目标图像特征；

将特征训练子集中的每个训练图像块的目标图像特征输入初始特征生成网络，基于初始特征生成网络生成特征训练子集中的每个训练图像块的初始重构特征。

可选的，重构模块根据特征训练子集中的每个训练图像块的原始图像特征、初始重构特征和标签确定初始特征生成网络的目标损失函数的方式，包括：

根据特征训练子集中的每个训练图像块的原始图像特征和初始重构特征确定置信度损失函数；

根据针对特征训练子集中的每个训练图像块的识别类别和特征训练子集中的每个训练图像块的标签所指示的类别确定分类损失函数；

根据特征训练子集中的每个训练图像块的语义特征和初始重构特征确定语义损失函数；

根据初始特征生成网络的初始潜在噪声变量确定特征重构损失函数；

根据置信度损失函数、分类损失函数、语义损失函数和特征重构损失函数确定目标损失函数。

可选的，重构模块根据置信度损失函数、分类损失函数和语义损失函数确定目标损失函数的方式，包括：

获取置信度损失函数对应的第一加权值，并根据第一加权值对置信度损失函数进行加权，得到第一加权损失函数；

获取分类损失函数对应的第二加权值，并根据第二加权值对分类损失函数进行加权，得到第二加权损失函数；

获取语义损失函数对应的第三加权值，并根据第三加权值对语义损失函数进行加权，得到第三加权损失函数；

获取特征重构损失函数对应的第四加权值，并根据第四加权值对特征重构损失函数进行加权，得到第四加权损失函数；

将第一加权损失函数、第二加权损失函数、第三加权损失函数和第四加权损失函数之和确定为目标损失函数。

可选的，训练集包括特征训练子集，特征训练子集中包括训练集中的标签图像块和背景图像块；

重构模块采用训练好的特征生成网络对特征训练子集中的每个训练图像块进行重构，得到特征训练子集中的每个训练图像块的重构特征的方式，包括：

获取训练好的特征生成网络的潜在噪声变量；

基于潜在噪声变量和特征训练子集中每个训练图像块的原始图像特征分别生成特征训练子集中的每个训练图像块的重构特征。

可选的，重构模块采用训练好的特征生成网络对训练集中的无标签图像块进行重构，得到无标签图像块的重构特征的方式，包括：

获取无标签图像块的语义信息和原始图像特征；

基于无标签图像块的语义信息和原始图像特征生成无标签图像块的目标图像特征；

将无标签图像块的目标图像特征输入训练好的特征生成网络，基于训练好的特征生成网络生成无标签图像块的重构特征。

可选的，重构模块基于无标签图像块的语义信息和原始图像特征生成无标签图像块的目标图像特征的方式，包括：

将无标签图像块的语义信息输入词向量模型，基于词向量模型生成无标签图像块的语义特征；

对无标签图像块的语义特征和无标签图像块的原始图像特征进行拼接，得到无标签图像块的目标图像特征。

可选的，背景图像块具有标签，背景图像块的标签用于指示背景图像块属于背景类别；标签图像块的数量为K个，K为正整数；

训练模块基于每个图像块的重构特征、标签图像块和背景图像块训练检测网络的方式，包括：

根据无标签图像块的重构特征、K个标签图像块的重构特征以及K个标签图像块中待检测的对象所具备的标签，确定无标签图像块的标签；

获取标签图像块的原始图像特征以及背景图像块的原始图像特征；

根据每个图像块的重构特征和标签确定第一样本对，根据标签图像块的原始图像特征和标签确定第二样本对，根据背景图像块的原始图像特征和标签确定第三样本对；

基于第一样本对、第二样本对和第三样本对训练检测网络，得到训练好的检测网络。

可选的，训练模块根据无标签图像块的重构特征、K个标签图像块的重构特征以及K个标签图像块中待检测的对象所具备的标签，确定无标签图像块的标签的方式，包括：

获取每个标签图像块的重构特征分别与无标签图像块的重构特征之间的特征相似度；

将K个标签图像块中对应的特征相似度最大的标签图像块确定为目标图像块；

将目标图像块中待检测的对象所具备的标签，作为无标签图像块的标签。

可选的，训练模块基于第一样本对、第二样本对和第三样本对训练检测网络，得到训练好的检测网络的方式，包括：

将第一样本对、第二样本对和第三样本对确定为训练样本对；

基于训练样本对训练置信度预测网络；

基于训练好的置信度预测网络和训练样本对训练检测网络，得到训练好的检测网络；训练好的置信度预测网络用于预测检测网络所生成的检测框的检测置信度。

可选的，样本获取模块从多个图像块中提取训练图像块并添加至训练集中的方式，包括：

对样本图像的对象进行检测，得M个检测框；M为正整数；每个检测框用于指示样本图像中对应的对象所在的位置；每个检测框均具有对应的检测置信度和检测准确度；

从M个检测框中获取每个图像块对应的关联检测框；

将多个图像块中对应的关联检测框的检测置信度大于或等于第一置信度阈值、且检测准确度大于或等于第一准确度阈值的图像块，确定为前景图像块；

将多个图像块中对应的关联检测框的检测置信度小于或等于第二置信度阈值、且检测准确度小于或等于第二准确度阈值的图像块，确定为背景图像块；

根据前景图像块和背景图像块构成训练集。

可选的，上述装置还用于：

在对游戏客户端进行自动化测试时，对游戏客户端进行自动化测试过程中的游戏画面进行截图，得到检测图像；

将检测图像输入训练好的检测网络，基于训练好的检测网络生成对象检测框，并将对象检测框中的对象确定为目标对象；

根据对象检测框确定目标对象在检测图像中的对象位置，并识别目标对象的对象类别；

基于对象位置和对象类别，下发针对目标对象的游戏测试指令。

本申请一方面提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行本申请中一方面中的方法。

本申请一方面提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时使该处理器执行上述一方面中的方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述一方面等各种可选方式中提供的方法。

本申请获取样本图像，样本图像包含多个图像块；从多个图像块中提取训练图像块并添加至训练集中；训练集包括从多个图像块中识别到的前景图像块和背景图像块；其中，前景图像块中包含待检测的对象；前景图像块包括标签图像块和无标签图像块；标签图像块中待检测的对象具备标签，无标签图像块中待检测的对象不具备标签；基于训练集中的标签图像块和背景图像块训练特征生成网络，并采用训练好的特征生成网络对训练集中的每个训练图像块进行重构处理，得到训练集中的每个训练图像块的重构特征；基于训练集中的每个训练图像块的重构特征、标签图像块和背景图像块训练检测网络；训练好的检测网络用于对图像中的对象进行检测。由此可见，本申请提出的方法可以通过无标签图像块以及背景图像块来训练特征生成网络，通过训练好的特征生成网络可以重构得到无标签图像块的重构特征，进而通过训练集中的各个图像块的重构特征、标签图像块以及背景图像块训练检测网络，可以使得训练好的检测网络不仅可以对图像中的未知物体（如不具有标签的对象）进行检测，还可以对图像中的已知物体（如具有标签的对象）进行检测，节省了为无标签图像中的对象添加标签的成本，还提高了对图像中的对象进行检测的准确性。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构的结构示意图；

图2是本申请提供的一种网络训练的场景示意图；

图3是本申请提供的一种图像数据处理方法的流程示意图；

图4是本申请提供的一种图像块提取的场景示意图；

图5是本申请提供的一种网络训练的场景示意图；

图6是本申请提供的一种网络应用的场景示意图；

图7是本申请提供的一种网络训练的场景示意图；

图8是本申请提供的一种游戏测试的场景示意图；

图9是本申请提供的一种游戏测试的场景示意图；

图10是本申请提供的一种图像数据处理方法的流程示意图；

图11是本申请提供的一种网络训练的场景示意图；

图12是本申请提供的一种图像数据处理装置的结构示意图；

图13是本申请提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请涉及到人工智能相关技术。其中，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请中主要涉及到了人工智能中的机器学习。其中，机器学习(MachineLearning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请中所涉及到的机器学习主要指，如何训练得到特征生成网络，进而可以通过训练好的特征生成网络对图像块进行重构，以生成图像块的重构特征。获取到图像块的重构特征后，可以基于该重构特征对检测网络进行训练，所训练得到的检测网络即可用于对图像中的对象进行检测。

请参见图1，图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示，网络架构可以包括服务器200和终端设备集群，终端设备集群可以包括一个或者多个终端设备，这里将不对终端设备的数量进行限制。如图1所示，多个终端设备具体可以包括终端设备100a、终端设备101a、终端设备102a、…、终端设备103a；如图1所示，终端设备100a、终端设备101a、终端设备102a、…、终端设备103a均可以与服务器200进行网络连接，以便于每个终端设备可以通过网络连接与服务器200之间进行数据交互。

如图1所示的服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是：智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视等智能终端。下面以终端设备100a与服务器200之间的通信为例，进行本申请实施例的具体描述。

请一并参见图2，图2是本申请提供的一种网络训练的场景示意图。其中，上述终端设备100a中可以有游戏客户端，游戏客户端可以对用户在游戏过程中的游戏画面进行截图，进而终端设备100a可以将该截图发送给服务器200，通过此种方式，服务器200可以获取到终端设备100a发送的若干截图，服务器200可以将该若干截图作为样本图像，进而通过该样本图像训练检测网络，其具体过程可以是：

如图2所示，样本图像可以包括多个图像块，服务器200可以从该多个图像块中获取到训练集100c，该训练集100c包括从该多个图像块中识别得到的前景图像块和背景图像块，该前景图像块又可以包括标签图像块和无标签图像块，前景图像块中包含待检测的对象，标签图像块中的对象具有标签，该标签可以用于指示对象的类别，无标签图像块中的对象则不具有标签。对标签图像块、无标签图像块以及背景图像块的具体描述可以参见下述图3对应实施例中的描述。

其中，训练集100c中还可以包括特征训练子集，该特征训练子集可以包括训练集100c中的标签图像块和背景图像块。因此，服务器200可以通过该特征训练子集中的标签图像块以及背景图像块训练初始特征生成网络，进而可以训练好的特征生成网络101c，该训练好的特征生成网络101c用于对图像块进行重构，以得到图像块的重构特征。其中，训练初始特征生成网络的具体过程可以参见下述图3对应实施例中的相关描述。

因此，服务器200还可以通过该训练好的特征生成网络101c生成训练集100c中各个图像块的重构特征（如框102c所示），具体包括标签图像块的重构特征、无标签图像块的重构特征以及背景图像块的重构特征。

进而，服务器200可以通过特征训练子集中各个图像块的原始图像特征（可以通过图像块所包含的各个灰度值得到）以及训练集100c中各个图像块的重构特征训练检测网络，训练好的检测网络可以用于对检测图像中的已知物体（经过类别标签训练过的物体，即携带标签的对象）以及未知物体（未经过类别标签训练过的物体，即不携带标签的对象）进行检测（如框104c所示）。其中如何通过原始图像特征以及重构特征训练检测网络的具体过程可以参见下述图3对应实施例中的描述。

本申请中通过标签图像块以及背景图像块训练特征生成网络，进而可以由该特征生成网络生成无标签图像块的重构特征，通过使用无标签图像块的重构特征训练检测网络，可以使得训练得到的检测网络不仅可以对检测图像中的已知物体进行检测，也可以对检测图像中的未知物体进行检测。通过此种方式，可以减少人工标注成本，使得图像中对于某些未标注有标签的对象也可以被识别出来。

请参见图3，图3是本申请提供的一种图像数据处理方法的流程示意图。本申请实施例中的执行主体可以是一个计算机设备或者多个计算机设备所构成的计算机设备集群。该计算机设备可以是服务器，也可以终端设备。因此，本申请实施例中的执行主体可以是服务器，也可以是终端设备，还可以是由服务器和终端设备共同构成，此处以本申请实施例中的执行主体为服务器为例进行说明。如图3所示，该方法可以包括：

步骤S101，获取样本图像，样本图像包含多个图像块；

可选的，服务器可以获取到样本图像，该样本图像中可以包括若干待检测的对象，该样本图像中某些待检测的对象具有标签，某些待检测的对象不具有标签。待检测的对象所具有的标签用于指示待检测的对象的类别。例如，样本图像可以是枪战游戏场景中的图像，则待检测的对象的类别可以包括步枪、冲锋枪、来复枪、小汽车以及手雷等类别。

因此，对于网络（即模型）而言，具有标签的待检测的对象是已知的，而不具有标签的待检测的对象则是未知的，换句话说，模型认识具有标签的待检测的对象，但是不认识不具有标签的待检测的对象。可以将具有标签的待检测的对象称之为是已知对象（即已知物体），将不具有标签的待检测的对象称之为是未知对象（即未知物体）。

但是，需要进行说明的是，在样本图像中的各个待检测的对象（包括具有标签的待检测的对象以及不具有标签的待检测的对象）均具有实际所在的对象框，该对象框指示了待检测的对象在样本图像中的位置。

其中，可以将样本图像划分为多个图像块，例如可以将样本图像划分为9*9共81个图像块。可选的，服务器所获取到的样本图像可以是在游戏过程中所截图得到的图像，或者还可以是在游戏过程所截图得到的图像中另外合成了未知对象的图像。

步骤S102，从多个图像块中提取训练图像块并添加至训练集中；训练集包括从多个图像块中识别到的前景图像块和背景图像块；其中，前景图像块中包含待检测的对象；前景图像块包括标签图像块和无标签图像块；标签图像块中待检测的对象具备标签，无标签图像块中待检测的对象不具备标签；

可选的，服务器可以从样本图像所包括的多个图像块中提取训练图像块并添加至训练集中，即可以将训练集中的图像块称之为训练图像块。该训练集中可以包括从样本图像的多个图像块中识别到的前景图像块和背景图像块。其中，前景图像块可以指识别出的包含待检测的对象的图像块，而背景图像块可以指识别出的不包含待检测的对象的图像块。可选的，前景图像块和背景图像块的数量可以是1:1的关系，进而使得后续通过该前景图像块和背景图像块进行检测网络的训练时，其训练结果可以较为均衡。

进一步地，前景图像块具体还包括标签图像块和无标签图像块，标签图像块是指所包含的待检测的对象具有标签的图像块，同理，无标签图像块则是指所包含的待检测的对象不具有标签的图像块。

具体的，服务器从样本图像所包括的多个图像块中获取训练集的过程可以是：

首先，服务器可以获取到一个边界框预测网络，该边界框预测网络为训练好的可以对图像中的目标（如对象）的边界框进行检测的网络，该边界框预测网络可以理解为可以通过识别图像中各个对象的边界（如边缘）来对对象的位置进行检测的网络。

因此，可以将样本图像输入边界框预测网络，通过该边界框预测网络对样本图像中的对象进行边界框识别，可以将通过边界框预测网络所检测到的对象所在的边界框称之为检测框。通过采用边界框预测网络对样本图像进行检测，可以得到M个检测框，M为正整数，每个检测框都用于指示样本图像中对应的对象所在的位置。

其中，M个检测框中的每个检测框均可以具有对应的检测置信度和检测准确度，其中，检测置信度可以通过yoloV2（一种目标检测网络）来进行检测，例如，可以将上述各个图像块的检测框中所包含的图像特征输入yoloV2进行检测，即可得到各个检测框对应的检测置信度。

更多的，由于一个图像块可以对应所识别到的M个检测框中的多个检测框，可以通过mIoU（maximum Intersection over Union）来表征检测框的准确度。具体的，一个检测框可以对应一个IoU，一个检测框对应的IoU可以是该检测框对应的重叠区域（如重叠区域的面积）除以集合区域（如集合区域的面积）的结果，该重叠区域可以是该检测框对应的图像块中的对象（实际上，对于某些图像块可能不包含对象）实际的对象框与该检测框的交集区域，该集合区域可以是该检测框对应的图像块中的对象（实际上，对于某些图像块可能不包含对象）实际的对象框与该检测框的并集区域，因此，可以理解的是，mIoU可以是一个图像块对应的多个检测框对应的多个IoU中的最大值，一个图像块可以对应一个mIoU。可以将一个图像块对应的一个mIoU称之为该图像块对应的检测准确度。

因此，可以将一个图像块对应的多个检测框中该图像块的mIoU对应的检测框，作为该图像块对应的关联检测框。进而，服务器可以将多个图像块中对应的关联检测框的检测置信度大于或者等于第一置信度阈值、且检测准确度大于或者等于第一准确度阈值的图像块，作为前景图像块。其中，第一置信度阈值可以根据实际应用场景进行设定，例如第一置信度阈值可以设定为0.6，第一准确度阈值也可以根据实际应用场景进行设定，例如第一准确度阈值可以设定为0.5。

更多的，服务器可以将多个图像块中对应的关联检测框的检测置信度小于或者等于第二置信度阈值、且检测准确度小于或者等于第二准确度阈值的图像块，作为背景图像块。或者，若多个图像块中对应的关联检测框的检测置信度小于或者等于第二置信度阈值、且检测准确度小于或者等于第二准确度阈值的若干图像块的数量多于上述前景图像块的数量，则可以从该若干图像块中选取部分图像块作为最终的背景图像块，使得背景图像块的数量与前景图像块的数量相同。

前景图像块和背景图像块均可以有多个，进而可以将多个前景图像块中待检测的对象不具有标签的图像块作为上述无标签图像块，将多个前景图像块中待检测的对象具有标签的图像块作为上述标签图像块。

请参见图4，图4是本申请提供的一种图像块提取的场景示意图。如图4所示，样本图像可以包括20个图像块，服务器可以从该20个图像块中提起训练集，所提取的训练集中包括从该20个图像块中识别得到的前景图像块以及背景图像块。其中，前景图像块又包括无标签图像块和标签图像块，标签图像块和背景图像块又构成了特征训练子集。

步骤S103，基于训练集中的标签图像块和背景图像块训练特征生成网络，并采用训练好的特征生成网络对训练集中的每个训练图像块进行重构处理，得到训练集中的每个训练图像块的重构特征；

可选的，在识别得到背景图像块之后，可以为该背景图像块添加标签，该标签就用于指示背景图像块属于背景类别。进而服务器可以通过训练集中的标签图像块以及背景图像块来训练特征生成网络。其中，如何通过标签图像块以及背景图像块训练特征生成网络的具体过程可以参见下述图6对应实施例中的描述。其中，采用背景图像块一起训练特征生成网络可以是让特征生成网络也对背景图像的特征（如背景图像块的特征）有一定认识，继而可以更好的区分前景图像的特征（如前景图像块的特征）。

在训练好特征生成网络之后（如对特征生成网络训练完成后），就可以采用训练好的特征生成网络对训练集中的各个训练图像块（包括标签图像块、无标签图像块和背景图像块）进行重构处理，以得到训练集中各个训练图像块的重构特征。

通过此种方式，即通过标签图像块以及背景图像块实现了对无标签图像块的中的对象的特征进行了重构，可以理解为，无标签图像块的特征是在标签图像块以及背景图像块之上延伸出来的。

其中，用于训练特征生成网络的图像块的特征重构的方式可以不同于未训练特征生成网络的图像块的特征重构的方式。上述训练集可以包括特征训练子集，该特征训练子集可以包括训练集中的标签图像块和背景图像块。

因此，训练好的特征生成网络可以是条件变分自动编码器（VAR），在通过训练好的特征生成网络对标签图像块以及背景图像块（即特征训练子集中的图像块）的特征进行重构的方式可以是：服务器可以获取到训练好的特征生成网络的潜在噪声变量（也可以称之为随机噪声或者潜在变量Z）。因此，可以通过该潜在噪声变量以及特征训练子集中每个训练图像块的原始图像特征（可以通过训练图像块中的各个灰度值得到）分别生成特征训练子集中每个训练图像块的重构特征，例如，可以将特征训练子集中一个训练图像块的原始图像特征与潜在噪声变量进行拼接，以得到该训练图像块的重构特征。

更多的，通过训练好的特征生成网络对无标签图像块的特征进行重构的方式可以包括：需要进行说明的是，无标签图像块虽然不具有标签，但是无标签图像块可以具有语义信息，该语义信息可以是在游戏过程中通过游戏程序得到的，例如，若无标签图像块包含的对象为手枪，则该无标签图像块的语义信息可以是用于描述手枪的“落在地上、金属、有扳机、无握把、形状类似直角、短小”等信息；再例如，若无标签图像块包含的对象为来复枪，则该无标签图像块的语义信息可以是用于描述来复枪的“落在地上、金属、有扳机、无握把、长度较长”等信息；还例如，若无标签图像块包含的对象为摩托车，则该无标签图像块的语义信息可以是用于描述摩托车的“金属、有两个轮子、无方向盘”等信息。

服务器可以获取无标签图像块的原始图像特征，该原始图像特征可以是通过无标签图像块中的各个灰度值得到。因此，服务器可以通过无标签图像块的语义信息以及原始图像特征生成无标签图像块的目标图像特征，具体可以是：服务器可以获取到一个词向量模型，该词向量模型可以是训练好的用于将文本转化为特征向量的模型。因此，服务器可以将无标签图像块的语义信息输入该词向量模型，进而可以通过该词向量模型生成无标签图像块的语义特征，该语义特征可以是向量。因此，服务器可以将获取到的无标签图像块的语义特征以及原始图像特征进行拼接，即可得到无标签图像块的目标图像特征。

服务器可以将无标签图像块的目标图像特征输入训练好的特征生成网络，进而就可以通过训练好的特征生成网络预测得到无标签图像块的重构特征。

其中，可以理解的是，由于上述训练好的特征生成网络用于根据所输入的图像块的特征（例如图像块的目标图像特征，该目标图像特征可以是对图像块的原始图像特征以及语义特征进行拼接得到，对该目标图像特征的具体描述还可以参见下述图10对应实施例中的描述）来预测图像块的重构特征，因此，通过训练好的特征生成网络来预测图像块的重构特征的过程，就可以理解为是对图像块进行重构处理的过程，顾名思义，重构特征也就是通过在训练好的特征生成网络中输入图像块的目标图像特征进而重新预测得到的图像块的特征。

由于训练好的特征生成模型是通过特征训练子集中的图像块的目标图像特征训练得到，后续，也可以通过在训练好的特征生成网络中输入其他图像块的目标图像块特征以此来预测得到该图像块的重构特征，因此，也可以理解为，图像块的重构特征就是通过图像块的目标图像特征进行重新衍生预测得到的特征。

步骤S104，基于训练集中的每个训练图像块的重构特征、标签图像块和背景图像块训练检测网络；训练好的检测网络用于对图像中的对象进行检测；

可选的，服务器可以通过上述所生成的各个训练图像块的重构特征、标签图像块以及背景图像块一起训练检测网络，该过程可以是：

可以通过标签图像块中的对象所具有的标签来得到无标签图像块的标签：标签图像也可以有多个，假设标签图像有K个，K为正整数，K的具体取值根据实际应用场景决定。训练图像块的重构特征可以是特征图或者特征向量，若是特征图，则也可以将该特征图表示为特征向量，例如可以将特征图中的元素按照每一排依次进行拼接即可表示为特征向量。

因此，服务器可以获取每个标签图像块的重构特征分别与无标签图像块的重构特征之间的特征相似度，例如，该特征相似度可以是标签图像的重构特征（或者重构特征所表示的向量）与无标签图像的重构特征（或者重构特征所表示的向量）之间的向量距离的倒数。一个标签图像块与一个无标签图像块之间可以有一个特征相似度。

进而，服务器可以将K个标签图像块中对应的特征相似度最大的标签图像作为目标图像块，并可以将该目标图像块中的对象所具有的标签，作为无标签图像块的标签。由于无标签图像的重构特征是从标签图像衍生而来，因此，可以通过标签图像中的对象所携带的标签来确定无标签图像中的对象的标签。通过此种方式，训练集中的各个图像块均具有对应的标签。

服务器可以获取到标签图像块的原始图像特征以及背景图像块的原始图像特征，其中，该原始图像特征可以是特征图，标签图像块的原始图像特征可以是标签图像块中的各个灰度值构成的特征，背景图像块的原始图像特征可以是背景图像块中各个灰度值构成的特征。

更多的，服务器可以根据每个图像块（即训练集中的各个图像块）的重构特征和标签得到第一样本对，一个图像块可以对应一个第一样本对，一个第一样本对就包括该图像块对应的重构特征以及标签。

服务器还可以根据标签图像块的原始图像特征和标签得到第二样本对，一个标签图像块可以对应一个第二样本对，一个第二样本对可以包括该标签图像块的原始图像特征和标签。同样，服务器可以根据背景图像块的原始图像特征和标签得到第三样本对，一个背景图像块可以对应一个第三样本对，一个第三样本对可以包括该背景图像块的原始图像特征和标签。

进而，服务器可以通过上述获取到的第一样本对、第二样本对和第三样本对训练检测网络。其中，通过采用无标签图像块对应的第一样本对训练检测网络可以使得训练得到的检测网络对图像中的未知物体（如未携带标签的对象）也能检测出来，而同时采用标签图像块的原始图像特征（如第二样本对）以及背景图像块的原始图像特征（如第二样本对）一起训练检测网络，可以使得训练得到的检测网络对已知物体（如携带有标签的对象）也具有比较高的识别准确度。

其中，服务器通过第一样本对、第二样本对和第三样本对训练检测网络的过程可以是：可以将该第一样本对、第二样本对和第三样本对称之为训练样本对，服务器可以通过该训练样本对训练置信度预测网络，该置信度预测网络用于预测检测网络在图像中对对象所生成的检测框的置信度，最初始的置信度预测网络可以是通过YOLOv2（一种目标检测算法，也可以理解为是一种目标检测网络）训练得到。

在训练置信度预测网络时，该置信度预测网络的损失函数可以是MSE（均方误差）损失函数，该置信度预测网络的损失函数

可以表示为公式（1）的形式：

（1）

其中，

表示真实的特征集合（如可以包括训练集中各个图像块的原始图像特征），

表示通过置信度预测网络预测得到的原始图像特征

的置信度，

表示通过YOLOv2得到的原始的置信度。

表示重构的特征集合（如可以包括训练集中各个图像块的重构特征），

表示通过置信度预测网络预测得到的重构特征

的置信度。可以通过置信度预测网络的损失函数来修正置信度预测网络的网络参数，以得到训练好的置信度预测网络。

在训练好置信度预测网络后，服务器可以通过该置信度预测网络以及训练样本对训练检测网络（可以称之为检测算子），在训练检测网络的过程中，置信度预测网络的网络参数可以再次进行更新，或者，置信度预测网络的网络参数也可以不变。通过此种方式，即可训练得到训练好的检测网络，训练好的检测网络不仅可以对未知物体具有比较高的识别度，还对已知物体具有较高的识别度。

请参见图5，图5是本申请提供的一种网络训练的场景示意图。如图5所示，可以通过标签图像块的原始图像特征、背景图像块的原始图像特征、标签图像块的重构特征、背景图像块的重构特征以及无标签图像块的重构特征，一起训练检测网络，以得到训练好的检测网络。

请参见图6，图6是本申请提供的一种网络应用的场景示意图。如图6所示，可以将图像100d输入训练好的检测网络中，进而通过该检测网络可以识别出图像100d中所包含的已见物体1、已见物体2、已见物体3以及未见物体4。其中，未见物体可以表示训练过程中没有标签的对象，已见物体可以表示训练过程中有标签的对象。

请参见图7，图7是本申请提供的一种网络训练的场景示意图。服务器可以通过重采样得到真实的视觉特征，包括已见物体的视觉特征和背景的视觉特征，其中，已见物体的视觉特征可以是标签图像块的原始图像特征，背景的视觉特征可以是背景图像块的原始图像特征。服务器可以使用已见物体的视觉特征、已见物体的语义特征、背景的视觉特征以及背景的语义特征训练初始特征生成网络，得到训练好的特征生成网络。进而，服务器可以采用该训练好的特征生成网络来合成如框101e中所示的已见物体的重构特征、背景的重构特征以及未见物体的重构特征。

进而，服务器可以通过重采样得到的真实的视觉特征以及框101e中的各个重构特征训练检测网络103e，该检测网络103e可以是CNN网络（卷积神经网络）。服务器可以将包含对象的图像102e输入训练好的检测网络103e，继而通过训练好的检测网络103e即可识别出该图像102e中的未见物体和已见物体。

其中，可以通过训练好的检测网络帮助游戏客户端进行自动化测试，具体可以包括：服务器在对游戏客户端进行自动化测试时，服务器可以对游戏客户端进行自动化测试过程中的游戏画面进行截图，可以将截图得到的图像称之为检测图像。

进而，服务器可以将该检测图像输入训练好的检测网络，通过该训练好的检测网络可以在检测图像中生成对象检测框，可以将对象检测框中的对象称之为目标对象。服务器可以通过所检测得到的对象检测框确定目标对象在检测图像中的对象位置，该对象位置可以是目标对象在检测图像中的位置坐标。服务器还可以通过检测网络识别该目标对象的对象类别，例如步枪的类别、冲锋枪的类别或者小汽车的类别等。

更多的，服务器可以通过所识别得到的目标对象的对象位置以及对象类别，下发针对目标对象的游戏测试指令。例如，若目标对象的对象类别为小汽车的类别，则所下发的针对目标对象的游戏测试指令可以是上车的指令，该游戏测试指令用于指示游戏人物根据小汽车的对象位置进行上车（即坐上小汽车）。

请参见图8，图8是本申请提供的一种游戏测试的场景示意图。终端设备中可以具有游戏客户端，终端设备可以在游戏客户端进行自动化测试的过程中对游戏画面进行截图（即截帧），进而将截图得到的游戏画面图像传输给PC端（电脑端），PC端可以对该游戏画面图像中的对象的对象位置以及对象类别进行识别，进而根据识别结果下发针对游戏客户端的自动化测试指令（即上述游戏测试指令），并可以将该自动化测试指令给到终端设备，使得终端设备中的游戏客户端执行该自动化测试指令。

请参见图9，图9是本申请提供的一种游戏测试的场景示意图。如图9所示，检测图像100f是在对游戏客户端进行自动化测试时进行截帧得到的。服务器可以将检测图像100f输入训练好的检测网络中，通过训练好的检测网络识别检测图像中的小汽车的位置以及类别，继而服务器可以下发针对该小汽车的游戏测试指令，例如该游戏测试指令可以是让虚拟游戏人物上车，即坐上小汽车。

更多的，上述服务器还可以是区块链网络中的区块链节点，上述训练好的特征生成网络以及检测网络均可以通过服务器存储在区块链上。通过将训练好的特征生成网络以及检测网络存储在区块链上，可以保证该训练好的特征生成网络以及检测网络的不可篡改性（如网络参数以及网络结构的不可篡改性）。

后续，当需要对包含新的未知物体的图像块进行重构处理时，就可以从区块链上获取到训练好的特征生成网络，进而通过该训练好的特征生成网络就可以预测生成该包含新的未知物体的图像块的重构特征。进一步地，还可以从区块链上获取到训练好的检测网络，通过使用该包含新的未知物体的图像块的重构特征继续对检测网络进行训练，那么训练得到的检测网络后续也可以对图像中的该新的未知物体进行检测。

可见，采用本申请所提供的方法，无需对未知物体添加标签，也可以通过该未知物体的重构特征训练检测网络，后续训练得到的检测网络也可以对该未知物体进行检测，因此，减少了对未知物体添加标签（如类别标签）的成本。

本申请获取样本图像，样本图像包含多个图像块；从多个图像块中提取训练图像块并添加至训练集中；训练集包括从多个图像块中识别到的前景图像块和背景图像块；其中，前景图像块中包含待检测的对象；前景图像块包括标签图像块和无标签图像块；标签图像块中待检测的对象具备标签，无标签图像块中待检测的对象不具备标签；基于训练集中的标签图像块和背景图像块训练特征生成网络，并采用训练好的特征生成网络对训练集中的每个训练图像块进行重构处理，得到训练集中的每个训练图像块的重构特征；基于训练集中的每个训练图像块的重构特征、标签图像块和背景图像块训练检测网络；训练好的检测网络用于对图像中的对象进行检测。由此可见，本申请提出的方法可以通过无标签图像块以及背景图像块来训练特征生成网络，进而通过该特征生成网络可以重构得到无标签图像块的重构特征，进而通过训练集中的各个图像块的重构特征、标签图像块以及背景图像块训练检测网络，可以使得训练好的检测网络不仅可以对图像中的未知物体（如不具有标签的对象）进行检测，还可以对图像中的已知物体（如具有标签的对象）进行检测，节省了为无标签图像中的对象添加标签的成本，还提高了对图像中的对象进行检测的准确性。

请参见图10，图10是本申请提供的一种图像数据处理方法的流程示意图。本申请实施例中的执行主体可以与上述图3对应实施例中的执行主体相同，如都为服务器，图10对应实施例中所描述的内容可以与上述图3对应实施例中所描述的内容相结合。如图10所示，该方法可以包括：

步骤S201，获取待训练的初始特征生成网络，并获取特征训练子集中的各个训练图像块的原始图像特征；

可选的，服务器可以获取待训练的初始特征生成网络，该待训练的初始特征生成网络可以是未经过训练的条件变分自动编码器（即VAE）。

上述训练集可以包括特征训练子集，该特征训练子集可以包括训练集中的标签图像块和背景图像块。其中，该训练集中的背景图像块具有标签，背景图像块的标签用于指示背景图像块属于背景类别。

服务器可以获取特征训练子集中各个训练图像块的原始图像特征，一个训练图像块的原始图像特征可以是由该训练图像块中的各个灰度值构成。

步骤S202，采用初始特征生成网络对特征训练子集中的每个训练图像块进行重构处理，生成特征训练子集中的每个训练图像块的初始重构特征；

可选的，服务器可以将特征训练子集中每个训练图像块的标签（属于文本内容）输入上述词向量模型，进而通过该词向量模型可以生成特征训练子集中的每个训练图像块对应的语义特征（可以是向量的形式）。服务器可以将特征训练子集中每个训练图像块（即图像块）的语义特征以及原始图像特征进行拼接，即可分别得到特征训练子集中每个训练图像块的目标图像特征。

服务器可以将特征训练子集中每个训练图像块的目标图像特征输入初始特征生成网络，通过初始特征生成网络对特征训练子集中每个训练图像块的特征进行重构，可以将通过初始特征生成网络所重构得到的各个训练图像块的特征称之为初始重构特征。

步骤S203，根据特征训练子集中的每个训练图像块的原始图像特征、初始重构特征和标签确定初始特征生成网络的目标损失函数；

可选的，对于初始特征生成网络而言，其具备特征重构损失函数，该特征重构损失函数可以通过最小化KL（相对熵）散度差异使得条件后验分布趋近于真实先验得到，该特征重构损失函数

具体可以如下述公式（2）所示：

（2）

其中，

表示初始特征生成网络的初始潜在噪声变量，

表示图像块（如用于训练的标签图像块或者背景图像块）的原始图像特征（可以称之为原始特征），

表示图像块的语义特征，条件变分自动编码器包括编码器E和解码器G，

表示编码器中

较于

的后验分布，

表示解码器中

较于

的后验分布。

表示真实的特征集合（如标签图像块和背景图像块的原始图像特征的集合），

表示数学期望。

可以表示

的先验分布，训练过程中，可以使其趋近于正态分布。

更多的，上述初始特征生成网络还可以包括视觉一致性检测器，通过该视觉一致性检测器可以生成针对初始特征生成网络的另外3个辅助的损失函数，该3个辅助的损失函数具体可以包括置信度损失函数、分类损失函数以及语义损失函数。

其中，置信度损失函数（也可以称之为置信度一致性损失函数）用于使得重构特征与原始特征具有相同或者相似的置信度得分；分类损失函数（也可以称之为分类一致性损失函数）用于保证重构特征具有足够的差异化，才能被识别为原始类别；语义损失函数用于使得重构特征与其类别语义保持一直，该类别语义可以指图像块的语义特征。因此，通过上述3个损失函数可以保证通过特征生成网络所重构得到的特征与原始图像特征（可以称之为原始特征）之间具有相同或者相似的置信度得分，并且具有足够的差异化，以及与对应的语义特征基本保持一致。

其中，可以根据特征训练子集中每个训练图像块的原始图像特征以及初始重构特征得到上述置信度损失函数，例如，可以将每个训练图像块的原始图像特征以及初始重构特征输入YOLOv2网络，以得到每个训练图像块的原始图像特征对应的置信度以及初始重构特征对应的置信度，通过原始图像特征对应的置信度以及初始重构特征对应的置信度之间的差异即可得到该置信度损失函数。

更多的，可以通过针对特征训练子集中每个训练图像块的识别类别以及特征训练子集中各个图像块的标签所指示的类别得到上述分类损失函数。该识别类别可以是通过一个对象类别识别网络识别得到，该对象类别识别网络可以是训练好的用于对对象的类别进行识别的网络。

更多的，可以通过上述特征训练子集中各个训练图像块的语义特征以及初始重构特征得到上述语义损失函数，例如通过各个训练图像块的语义特征与对应的初始重构特征之间的差异得到该语义损失函数。

因此，可以通过上述所得到的特征重构损失函数、置信度损失函数、分类损失函数以及语义损失函数得到初始特征生成网络最终的损失函数，可以将初始特征生成网络最终的损失函数称之为目标损失函数。

具体的，服务器通过特征重构损失函数、置信度损失函数、分类损失函数以及语义损失函数得到目标损失函数的过程可以是：

服务器可以分别获取各个损失函数（包括重构损失函数、置信度损失函数、分类损失函数以及语义损失函数）对应的加权值，可以将置信度损失函数对应的加权值称之为第一加权值，可以将分类损失函数的加权值称之为第二加权值，可以将语义损失函数对应的加权值称之为第三加权值，可以将特征重构损失函数的加权值称之为第四加权值。其中，第一加权值、第二加权值、第三加权值以及第四加权值均可以通过实际应用场景决定，对此不做限制，例如，第一加权值、第二加权值和第三加权值均可以等于1/3，第四加权值可以等于1（因为第四加权值对应的特征重构损失函数属于初始特征生成网络的主要损失函数，因此，特征重构损失函数的加权值可以为1，保持特征重构损失函数不被削弱）。

服务器可以通过各个损失函数对应的加权值对应对各个损失函数进行加权（相乘）求和，即可得到上述目标损失函数。具体的，服务器可以通过第一加权值对置信度损失函数进行加权（如相乘），可以将加权后所得到的结果称之为第一加权损失函数；服务器还可以通过第二加权值对分类损失函数进行加权，可以将加权后所得到的结果称之为第二加权损失函数；服务器还可以通过第三加权值对语义损失函数进行加权，可以将加权后所得到的结果称之为第三加权损失函数；服务器还可以通过第四加权值对特征重构损失函数进行加权，可以将加权后所得到的结果称之为第四加权损失函数。可以将上述第一加权损失函数、第二加权损失函数、第三加权损失函数和第四加权损失函数之和作为针对初始特征生成网络的目标损失函数。

其中，可以将上述特征重构损失函数表示为

，将上述置信度损失函数表示为

，将上述分类损失函数记为

，将上述语义损失函数记为

，将第一加权值记为

，将第二加权值记为

，将第三加权值记为

，将第四加权值记为

，因此，上述目标损失函数

可以表示为公式（3）中的形式：

（3）

通过上述过程即可得到初始特征生成网络最终的目标损失函数。

步骤S204，根据目标损失函数修正初始特征生成网络的网络参数，得到训练好的特征生成网络；

可选的，通过上述获取到的目标损失函数即可修整初始特征生成网络的网络参数，可以将网络参数修正完成的初始特征生成网络称之为训练好的特征生成网络。可选的，当初始特征生成网络的网络参数修正至收敛时，可以认为初始特征生成网络的网络参数修正完成。

请参见图11，图11是本申请提供的一种网络训练的场景示意图。初始特征生成网络包括条件变分自动编码器以及一致性检测器，该条件变分自动编码器又包括编码器和解码器。服务器可以通过将特征训练子集中的图像块的原始图像特征以及语义特征拼接后的特征（即目标图像特征）输入编码器，通过变分自动编码器中的潜在噪声变量以及图像块的原始图像特征即可得到图像块的重构特征，此时条件变分自动编码器具有自身的条件变分自编码损失（即上述特征重构损失函数对应的损失）。

此外，服务器可以将通过条件变分自动编码器所得到的图像块的重构特征输入一致性检测器，进而通过一致性检测器中的属性预测器得到属性损失，该属性损失即为上述语义损失函数对应的损失（此处的属性可以指语义属性），并可以通过一致性检测器中的置信度预测器得到置信度损失，该置信度损失即为上述置信度损失函数对应的损失，以及可以通过一致性检测器中的类别预测器得到类别损失，该类别损失可以为上述分类损失函数对应的损失。因此，通过上述4种损失（包括条件变分自编码损失、属性损失、类别损失以及置信度损失）即可修正初始特征生成网络的网络参数，得到训练好的特征生成网络。训练好的特征生成网络可以包括训练好的编码器和解码器。

请参见图12，图12是本申请提供的一种图像数据处理装置的结构示意图。该图像数据处理装置可以是运行于计算机设备中的一个计算机程序（包括程序代码），例如该图像数据处理装置为一个应用软件，该图像数据处理装置可以用于执行本申请实施例提供的方法中的相应步骤。如图12所示，该图像数据处理装置1可以包括：样本获取模块11、图像块提取模块12、重构模块13和训练模块14。

样本获取模块11，用于获取样本图像，样本图像包含多个图像块；

图像块提取模块12，用于从多个图像块中提取训练图像块并添加至训练集中；训练集包括从多个图像块中识别到的前景图像块和背景图像块；其中，前景图像块中包含待检测的对象；前景图像块包括标签图像块和无标签图像块；标签图像块中待检测的对象具备标签，无标签图像块中待检测的对象不具备标签；

重构模块13，用于基于训练集中的标签图像块和背景图像块训练特征生成网络，并采用训练好的特征生成网络对训练集中的每个训练图像块进行重构处理，得到训练集中的每个训练图像块的重构特征；

训练模块14，用于基于训练集中的每个训练图像块的重构特征、标签图像块和背景图像块训练检测网络；训练好的检测网络用于对图像中的对象进行检测。

重构模块13基于训练集中的标签图像块和背景图像块训练特征生成网络的方式，包括：

可选的，重构模块13采用初始特征生成网络对特征训练子集中的每个训练图像块进行重构处理，生成特征训练子集中的每个训练图像块的初始重构特征的方式，包括：

可选的，重构模块13根据特征训练子集中的每个训练图像块的原始图像特征、初始重构特征和标签确定初始特征生成网络的目标损失函数的方式，包括：

可选的，重构模块13根据置信度损失函数、分类损失函数和语义损失函数确定目标损失函数的方式，包括：

重构模块13采用训练好的特征生成网络对特征训练子集中的每个训练图像块进行重构，得到特征训练子集中的每个训练图像块的重构特征的方式，包括：

获取训练好的特征生成网络的潜在噪声变量；

可选的，重构模块13采用训练好的特征生成网络对训练集中的无标签图像块进行重构，得到无标签图像块的重构特征的方式，包括：

获取无标签图像块的语义信息和原始图像特征；

可选的，重构模块13基于无标签图像块的语义信息和原始图像特征生成无标签图像块的目标图像特征的方式，包括：

训练模块14基于每个图像块的重构特征、标签图像块和背景图像块训练检测网络的方式，包括：

可选的，训练模块14根据无标签图像块的重构特征、K个标签图像块的重构特征以及K个标签图像块中待检测的对象所具备的标签，确定无标签图像块的标签的方式，包括：

可选的，训练模块14基于第一样本对、第二样本对和第三样本对训练检测网络，得到训练好的检测网络的方式，包括：

基于训练样本对训练置信度预测网络；

可选的，样本获取模块11从多个图像块中提取训练图像块并添加至训练集中的方式，包括：

从M个检测框中获取每个图像块对应的关联检测框；

根据前景图像块和背景图像块构成训练集。

可选的，上述装置1还用于：

根据本申请的一个实施例，图3所示的图像数据处理方法所涉及的步骤可由图12所示的图像数据处理装置1中的各个模块来执行。例如，图3中所示的步骤S101可由图12中的样本获取模块11来执行，图3中所示的步骤S102可由图12中的图像块提取模块12来执行；图3中所示的步骤S103可由图12中的重构模块13来执行，图3中所示的步骤S104可由图12中的训练模块14来执行。

本申请获取样本图像，样本图像包含多个图像块；从多个图像块中提取训练图像块并添加至训练集中；训练集包括从多个图像块中识别到的前景图像块和背景图像块；其中，前景图像块中包含待检测的对象；前景图像块包括标签图像块和无标签图像块；标签图像块中待检测的对象具备标签，无标签图像块中待检测的对象不具备标签；基于训练集中的标签图像块和背景图像块训练特征生成网络，并采用训练好的特征生成网络对训练集中的每个训练图像块进行重构处理，得到训练集中的每个训练图像块的重构特征；基于训练集中的每个训练图像块的重构特征、标签图像块和背景图像块训练检测网络；训练好的检测网络用于对图像中的对象进行检测。由此可见，本申请提出的装置可以通过无标签图像块以及背景图像块来训练特征生成网络，进而通过该特征生成网络可以重构得到无标签图像块的重构特征，进而通过训练集中的各个图像块的重构特征、标签图像块以及背景图像块训练检测网络，可以使得训练好的检测网络不仅可以对图像中的未知物体（如不具有标签的对象）进行检测，还可以对图像中的已知物体（如具有标签的对象）进行检测，节省了为无标签图像中的对象添加标签的成本，还提高了对图像中的对象进行检测的准确性。

根据本申请的一个实施例，图12所示的图像数据处理装置1中的各个模块可以分别或全部合并为一个或若干个单元来构成，或者其中的某个（些）单元还可以再拆分为功能上更小的多个子单元，可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的，在实际应用中，一个模块的功能也可以由多个单元来实现，或者多个模块的功能由一个单元实现。在本申请的其它实施例中，图像数据处理装置1也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的一个实施例，可以通过在包括中央处理单元（CPU）、随机存取存储介质（RAM）、只读存储介质（ROM）等处理元件和存储元件的例如计算机的通用计算机设备上运行能够执行如图3中所示的相应方法所涉及的各步骤的计算机程序（包括程序代码），来构造如图12中所示的图像数据处理装置1，以及来实现本申请实施例的图像数据处理方法。上述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

请参见图13，图13是本申请提供的一种计算机设备的结构示意图。如图13所示，计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏（Display）、键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如WI-FI接口）。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图13所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图13所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

获取样本图像，样本图像包含多个图像块；

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图3对应实施例中对上述图像数据处理方法的描述，也可执行前文图12所对应实施例中对上述图像数据处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有前文提及的图像数据处理装置1所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图3所对应实施例中对图像数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

作为示例，上述程序指令可被部署在一个计算机设备上执行，或者被部署位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链网络。

上述计算机可读存储介质可以是前述任一实施例提供的图像数据处理装置或者上述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡（smart media card，SMC），安全数字（secure digital， SD）卡，闪存卡（flash card）等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前文图3对应实施例中对上述图像数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图中的一个流程或多个流程和/或结构示意图中的一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图中的一个流程或多个流程和/或结构示意图中的一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图中的一个流程或多个流程和/或结构示意图中的一个方框或多个方框中指定的功能的步骤。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种图像数据处理方法，其特征在于，所述方法包括：

获取样本图像，所述样本图像包含多个图像块；

从所述多个图像块中提取训练图像块并添加至训练集中；所述训练集包括从所述多个图像块中识别到的前景图像块和背景图像块；其中，所述前景图像块中包含待检测的对象；所述前景图像块包括标签图像块和无标签图像块；所述标签图像块中待检测的对象具备标签，所述无标签图像块中待检测的对象不具备标签；

基于所述训练集中的所述标签图像块和所述背景图像块训练特征生成网络，并采用训练好的特征生成网络对所述训练集中的每个训练图像块进行重构处理，得到所述训练集中的每个训练图像块的重构特征；

基于所述训练集中的每个训练图像块的重构特征、所述标签图像块和所述背景图像块训练检测网络；训练好的检测网络用于对图像中的对象进行检测；

其中，检测网络基于第一样本对、第二样本对和第三样本对进行训练，所述第一样本对是根据所述每个训练图像块的重构特征和标签构建得到，所述无标签图像块的标签是根据所述无标签图像块的重构特征、所述标签图像块的重构特征及所述标签图像块中对象所具备的标签所确定，所述背景图像块的标签用于指示所述背景图像块属于背景类别，所述第二样本对是根据所述标签图像块的原始图像特征和标签构建得到，所述第三样本对是根据所述背景图像块的原始图像特征和标签构建得到。

2.根据权利要求1所述的方法，其特征在于，所述训练集中的背景图像块具有标签，所述背景图像块的标签用于指示所述背景图像块属于背景类别；所述训练集包括特征训练子集，所述特征训练子集中包括所述训练集中的所述标签图像块和所述背景图像块；

所述基于所述训练集中的所述标签图像块和所述背景图像块训练特征生成网络，包括：

获取待训练的初始特征生成网络，并获取所述特征训练子集中的各个训练图像块的原始图像特征；

采用所述初始特征生成网络对所述特征训练子集中的每个训练图像块进行重构处理，生成所述特征训练子集中的每个训练图像块的初始重构特征；

根据所述特征训练子集中的每个训练图像块的原始图像特征、初始重构特征和标签确定所述初始特征生成网络的目标损失函数；

根据所述目标损失函数修正所述初始特征生成网络的网络参数，得到训练好的特征生成网络。

3.根据权利要求2所述的方法，其特征在于，所述采用所述初始特征生成网络对所述特征训练子集中的每个训练图像块进行重构处理，生成所述特征训练子集中的每个训练图像块的初始重构特征，包括：

将所述特征训练子集中的每个训练图像块的标签输入词向量模型，基于所述词向量模型分别生成所述特征训练子集中的每个训练图像块的语义特征；

分别对所述特征训练子集中的每个训练图像块的语义特征和原始图像特征进行拼接，得到所述特征训练子集中的每个训练图像块的目标图像特征；

将所述特征训练子集中的每个训练图像块的目标图像特征输入所述初始特征生成网络，基于所述初始特征生成网络生成所述特征训练子集中的每个训练图像块的初始重构特征。

4.根据权利要求3所述的方法，其特征在于，所述根据所述特征训练子集中的每个训练图像块的原始图像特征、初始重构特征和标签确定所述初始特征生成网络的目标损失函数，包括：

根据所述特征训练子集中的每个训练图像块的原始图像特征和初始重构特征确定置信度损失函数；

根据针对所述特征训练子集中的每个训练图像块的识别类别和所述特征训练子集中的每个训练图像块的标签所指示的类别确定分类损失函数；

根据所述特征训练子集中的每个训练图像块的语义特征和初始重构特征确定语义损失函数；

根据所述初始特征生成网络的初始潜在噪声变量确定特征重构损失函数；

根据所述置信度损失函数、所述分类损失函数、所述语义损失函数和所述特征重构损失函数确定所述目标损失函数。

5.根据权利要求4所述的方法，其特征在于，所述根据所述置信度损失函数、所述分类损失函数和所述语义损失函数确定所述目标损失函数，包括：

获取所述置信度损失函数对应的第一加权值，并根据所述第一加权值对所述置信度损失函数进行加权，得到第一加权损失函数；

获取所述分类损失函数对应的第二加权值，并根据所述第二加权值对所述分类损失函数进行加权，得到第二加权损失函数；

获取所述语义损失函数对应的第三加权值，并根据所述第三加权值对所述语义损失函数进行加权，得到第三加权损失函数；

获取所述特征重构损失函数对应的第四加权值，并根据所述第四加权值对所述特征重构损失函数进行加权，得到第四加权损失函数；

将所述第一加权损失函数、所述第二加权损失函数、所述第三加权损失函数和所述第四加权损失函数之和确定为所述目标损失函数。

6.根据权利要求1所述的方法，其特征在于，所述训练集包括特征训练子集，所述特征训练子集中包括所述训练集中的所述标签图像块和所述背景图像块；

采用训练好的特征生成网络对所述特征训练子集中的每个训练图像块进行重构，得到所述特征训练子集中的每个训练图像块的重构特征，包括：

获取训练好的特征生成网络的潜在噪声变量；

基于所述潜在噪声变量和所述特征训练子集中每个训练图像块的原始图像特征分别生成所述特征训练子集中的每个训练图像块的重构特征。

7.根据权利要求1所述的方法，其特征在于，采用训练好的特征生成网络对所述训练集中的所述无标签图像块进行重构，得到所述无标签图像块的重构特征，包括：

获取所述无标签图像块的语义信息和原始图像特征；

基于所述无标签图像块的语义信息和原始图像特征生成所述无标签图像块的目标图像特征；

将所述无标签图像块的目标图像特征输入训练好的特征生成网络，基于训练好的特征生成网络生成所述无标签图像块的重构特征。

8.根据权利要求7所述的方法，其特征在于，所述基于所述无标签图像块的语义信息和原始图像特征生成所述无标签图像块的目标图像特征，包括：

将所述无标签图像块的语义信息输入词向量模型，基于所述词向量模型生成所述无标签图像块的语义特征；

对所述无标签图像块的语义特征和所述无标签图像块的原始图像特征进行拼接，得到所述无标签图像块的目标图像特征。

9.根据权利要求1所述的方法，其特征在于，所述标签图像块的数量为K个，K为正整数；

所述基于所述训练集中的每个训练图像块的重构特征、所述标签图像块和所述背景图像块训练检测网络，包括：

根据所述无标签图像块的重构特征、所述K个标签图像块的重构特征以及所述K个标签图像块中待检测的对象所具备的标签，确定所述无标签图像块的标签；

获取所述标签图像块的原始图像特征以及所述背景图像块的原始图像特征；

根据所述训练集中的每个训练图像块的重构特征和标签确定所述第一样本对，根据所述标签图像块的原始图像特征和标签确定所述第二样本对，根据所述背景图像块的原始图像特征和标签确定所述第三样本对；

基于所述第一样本对、所述第二样本对和所述第三样本对训练所述检测网络，得到训练好的检测网络。

10.根据权利要求9所述的方法，其特征在于，所述根据所述无标签图像块的重构特征、所述K个标签图像块的重构特征以及所述K个标签图像块中待检测的对象所具备的标签，确定所述无标签图像块的标签，包括：

获取每个标签图像块的重构特征分别与所述无标签图像块的重构特征之间的特征相似度；

将所述K个标签图像块中对应的特征相似度最大的标签图像块确定为目标图像块；

将所述目标图像块中待检测的对象所具备的标签，作为所述无标签图像块的标签。

11.根据权利要求9所述的方法，其特征在于，所述基于所述第一样本对、所述第二样本对和所述第三样本对训练所述检测网络，得到训练好的检测网络，包括：

将所述第一样本对、所述第二样本对和所述第三样本对确定为训练样本对；

基于所述训练样本对训练置信度预测网络；

基于训练好的置信度预测网络和所述训练样本对训练所述检测网络，得到训练好的检测网络；训练好的置信度预测网络用于预测所述检测网络所生成的检测框的检测置信度。

12.根据权利要求1所述的方法，其特征在于，所述从所述多个图像块中提取训练图像块并添加至训练集中，包括：

对所述样本图像的对象进行检测，得M个检测框；M为正整数；每个检测框用于指示所述样本图像中对应的对象所在的位置；所述每个检测框均具有对应的检测置信度和检测准确度；

从所述M个检测框中获取所述多个图像块中的每个图像块对应的关联检测框；

将所述多个图像块中对应的关联检测框的检测置信度大于或等于第一置信度阈值、且检测准确度大于或等于第一准确度阈值的图像块，确定为所述前景图像块；

将所述多个图像块中对应的关联检测框的检测置信度小于或等于第二置信度阈值、且检测准确度小于或等于第二准确度阈值的图像块，确定为所述背景图像块；

根据所述前景图像块和所述背景图像块构成所述训练集。

13.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在对游戏客户端进行自动化测试时，对所述游戏客户端进行自动化测试过程中的游戏画面进行截图，得到检测图像；

将所述检测图像输入训练好的检测网络，基于训练好的检测网络生成对象检测框，并将所述对象检测框中的对象确定为目标对象；

根据所述对象检测框确定所述目标对象在所述检测图像中的对象位置，并识别所述目标对象的对象类别；

基于所述对象位置和所述对象类别，下发针对所述目标对象的游戏测试指令。

14.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1-13中任一项所述方法的步骤。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适用于由处理器加载并执行权利要求1-13任一项所述的方法。