CN111666919A

CN111666919A - 一种对象识别方法、装置、计算机设备和存储介质

Info

Publication number: CN111666919A
Application number: CN202010591233.9A
Authority: CN
Inventors: 黄超
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-09-15
Anticipated expiration: 2040-06-24
Also published as: CN111666919B

Abstract

本申请实施例公开了一种对象识别方法、装置、计算机设备和存储介质，可获取基于第二虚拟场景样本图像和已标注目标虚拟对象位置的第一虚拟场景样本图像训练得到的对象识别模型；基于模型的特征提取模块从待识别图像中提取特征图，该特征图包括第一、二虚拟场景的图像间的共有特征信息；基于对象识别模块，根据特征图对待识别图像进行目标虚拟对象检测；基于检测结果确定待识别图像中目标虚拟对象的预测位置信息，本申请的模型可学习到多个虚拟场景图像的共有特征信息，所以尽管第二虚拟场景样本图像未标注目标虚拟对象，模型对第二虚拟场景图像的识别效果良好，可实现一个模型对多个虚拟场景中同类虚拟对象的准确识别。

Description

一种对象识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种对象识别方法、装置、计算机设备和存储介质。

背景技术

目前，对于虚拟场景中特定对象类型的虚拟对象的识别，一般是获取虚拟场景对应的带有标注的样本图像，该样本图像中标注有特定对象类型的虚拟对象的位置信息，然后基于该样本图像训练识别模型，得到可以识别该虚拟场景中特定对象类型的虚拟对象的识别模型。

相关技术中，对于不同虚拟场景，即使是同类型的虚拟对象，一般也是训练不同的识别模型进行识别，例如在虚拟游戏A和B中都具有游戏人物类型的虚拟对象，即虚拟人物，在这种情况下，若想对不同虚拟场景中相同对象类型的虚拟对象进行识别，一般需要获取不同需场景的带有上述标注的样本图像，然后基于带有标注的样本图像对不同的识别模型进行训练。得到两个识别模型，采样这种方案，需要的识别模型较多，会耗费大量的训练时间。

发明内容

本发明实施例提供一种对象识别方法、装置、计算机设备和存储介质，可实现一个对象识别模型对不同虚拟场景中相同类型虚拟对象的准确识别，有利于降低模型训练所需时间。

本发明实施例提供一种对象识别方法，该方法包括：

获取待识别图像，所述待识别图像为第二虚拟场景的图像；

获取训练完成的对象识别模型，所述对象识别模型包括特征提取模块和对象识别模块，所述对象识别模型基于第二虚拟场景样本图像和已标注目标虚拟对象位置的第一虚拟场景样本图像训练得到；

基于所述特征提取模块从所述待识别图像中提取特征图，所述特征图包括所述第一虚拟场景的图像和第二虚拟场景的图像之间的共有特征信息；

基于所述对象识别模块，根据所述特征图对所述待识别图像进行目标虚拟对象检测；

基于检测结果，确定所述待识别图像中的目标虚拟对象的预测位置信息。

本发明实施例提供一种对象识别装置，该装置包括：

待识别图像获取单元，用于获取待识别图像，所述待识别图像为第二虚拟场景的图像；

模型获取单元，用于获取训练完成的对象识别模型，所述对象识别模型包括特征提取模块和对象识别模块，所述对象识别模型基于第二虚拟场景样本图像和已标注目标虚拟对象位置的第一虚拟场景样本图像训练得到；

特征提取单元，用于基于所述特征提取模块从所述待识别图像中提取特征图，所述特征图包括所述第一虚拟场景的图像和第二虚拟场景的图像之间的共有特征信息；

对象识别单元，用于基于所述对象识别模块，根据所述特征图对所述待识别图像进行目标虚拟对象检测；

对象确定单元，用于基于所述检测结果，确定所述待识别图像中的目标虚拟对象的预测位置信息。

可选的，装置还包括：模型训练单元，包括：

训练子单元，用于获取完成第一阶段训练的对象识别模型，在所述第一阶段训练中，所述对象识别模型基于所述第一虚拟场景样本图像训练得到，

第二样本获取子单元，用于获取第二虚拟场景样本图像，其中，所述第二虚拟场景样本图像中未标注所述目标虚拟对象的位置；

特征提取子单元，用于通过所述特征提取模块，对所述第一虚拟场景样本图像和第二虚拟场景样本图像进行特征提取，分别得到第一特征图和第二特征图；

场景识别子单元，用于通过场景识别模型基于所述第一特征图和第二特征图，确定所述第二特征图对应的虚拟场景为所述第一虚拟场景的第二概率；

损失确定子单元，用于基于所述第二概率，确定所述第二特征图对应的第二场景分类损失函数；

对象识别模型调整子单元，用于基于所述第二场景分类损失函数调整所述对象识别模型的参数。

可选的，训练子单元，用于：

获取第一虚拟场景样本图像，所述第一虚拟场景样本图像的标签包括所述目标虚拟对象的目标位置信息，和目标对象类型信息；

通过所述特征提取模块获取所述第一虚拟场景样本图像的特征图；

通过所述对象识别模块，从所述第一虚拟场景样本图像的特征图中检测出所述目标虚拟对象的候选检测框，并对所述候选检测框中的图像内容进行目标虚拟对象检测得到对应的预测对象类型信息；

基于所述预测对象类型信息和所述目标对象类型信息，确定所述第一虚拟场景样本图像对应的类型损失函数；

基于所述候选检测框的位置信息和所述目标位置信息，确定所述第一虚拟场景样本图像对应的位置损失函数；

基于所述候选检测框的位置信息和所述目标位置信息，确定所述第一虚拟场景样本图像对应的位置损失函数。

可选的，训练子单元，用于：

通过所述特征提取模块获取所述第一虚拟场景样本图像的至少两种尺度的特征图；

通过所述对象识别模块，从各特征图中检测出尺寸与特征图尺度对应的待识别候选检测框，并对各特征图中的待识别候选检测框中的图像内容进行目标虚拟对象检测得到对应的预测对象类型信息。

可选的，所述第一虚拟场景样本图像的标签还包括第一场景标识信息，所述第一场景标识信息用于指示所述第一虚拟场景样本图像的期望虚拟场景为所述第一虚拟场景；

场景识别子单元，用于：通过所述场景识别模型对所述第一特征图和第二特征图分别进行虚拟场景识别，得到第一预测场景信息和第二预测场景信息；

损失确定子单元，用于基于所述第二预测场景信息，确定所述第二特征图的虚拟场景为所述第一虚拟场景的第二概率；

本实施例的装置还包括场景识别模型调整单元，用于基于所述第一预测场景信息、第一场景标识信息和所述第二预测场景信息，调整所述场景识别模型的参数。

可选的，场景识别模型包括生成器模型和判别器模型，场景识别子单元，用于：

通过所述生成器模型将所述第一特征图转换为预设维度的第一特征向量，通过所述判别器模型基于所述第一特征向量进行虚拟场景识别，得到第一预测场景信息；

通过所述生成器模型将所述第二特征图转换为所述预设维度的第二特征向量，通过所述判别器模型基于所述第二特征向量进行虚拟场景识别，得到第二预测场景信息；

场景识别模型调整单元，用于基于所述第一预测场景信息、第一场景标识信息和所述第二预测场景信息，调整所述判别器模型的参数。

可选的，特征提取子单元，用于通过所述特征提取模块，对所述第一虚拟场景样本图像和第二虚拟场景样本图像进行特征提取，分别得到至少两种尺度的第一特征图和至少两种尺度的第二特征图；

场景识别子单元，用于：

通过所述生成器模型将每种尺度的第一特征图转换为所述预设维度的第一特征向量，通过所述判别器模型基于同一第一虚拟场景样本图像对应的第一特征向量，预测所述第一特征图对应的虚拟场景，得到第一预测场景信息；

通过所述生成器模型将每种尺度的第二特征图转换为所述预设维度的第二特征向量，通过所述判别器模型基于同一第二虚拟场景样本图像对应的第二特征向量，预测所述第二特征图对应的虚拟场景，得到第二预测场景信息。

可选的，模型训练单元，用于对象识别模型调整子单元，用于基于所述第二场景分类损失函数调整所述特征提取模块的参数；并控制返回所述通过所述特征提取模块，对所述第一虚拟场景样本图像和第二虚拟场景样本图像进行特征提取，分别得到第一特征图和第二特征图的步骤，直到满足所述对象识别模型对应的共享模型训练结束条件时，得到训练完成的对象识别模型。

可选的，对象识别模型调整子单元，用于在返回所述通过所述特征提取模块，对所述第一虚拟场景样本图像和第二虚拟场景样本图像进行特征提取，分别得到第一特征图和第二特征图的步骤前，通过调整参数后的特征提取模块，获取所述第一虚拟场景样本图像的特征图；通过所述对象识别模块从所述特征图中检测出所述目标虚拟对象的候选检测框，并对所述候选检测框中的图像内容进行目标虚拟对象检测得到对应的预测对象类型信息；基于所述预测对象类型信息和所述目标对象类型信息，确定所述第一虚拟场景样本图像对应的类型损失函数；基于所述候选检测框的位置信息和所述目标位置信息，确定所述第一虚拟场景样本图像对应的位置损失函数；基于所述类型损失函数和所述位置损失函数，调整所述对象识别模型的参数。

可选的，对象识别单元，用于基于所述对象识别模块，从所述特征图中检测出所述目标虚拟对象的候选检测框，并对所述候选检测框中的图像内容进行目标虚拟对象检测。

可选的，本实施例中，特征提取单元，用于基于所述特征提取模块，从所述待识别图像中提取至少两种尺度的特征图；

对象识别单元，包括候选框选择子单元和对象检测子单元：

候选框选择子单元，用于通过所述对象识别模块，从所述待识别图像的各特征图中检测出尺寸与特征图尺度对应的候选检测框；

对象检测子单元，用于对各特征图的候选检测框中的图像内容进行目标虚拟对象检测，得到各候选检测框对应的预测对象类型信息；

对象确定单元，包括检测框确定子单元和对象确定子单元：

检测框确定子单元，用于基于各候选检测框的预测对象类型信息，确定对象类型为所述目标虚拟对象的概率不低于预设概率阈值的候选检测框作为选定检测框；

对象确定子单元，用于基于所述选定检测框的位置信息，确定所述待识别图像中所述目标虚拟对象的预测位置信息。

在本发明的一些实施例中，还可以提供一种存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如上所述方法的步骤。

在本发明的一些实施例中，还可以提供一种计算机设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述方法的步骤。

采用本发明实施例，可以获取待识别图像，所述待识别图像为第二虚拟场景的图像，获取训练完成的对象识别模型，对象识别模型包括特征提取模块和对象识别模块，对象识别模型基于第二虚拟场景样本图像和已标注目标虚拟对象位置的第一虚拟场景样本图像训练得到；基于特征提取模块从待识别图像中提取特征图，所述特征图包括所述第一虚拟场景的图像和第二虚拟场景的图像之间的共有特征信息；基于所述对象识别模块，根据所述特征图对所述待识别图像进行目标虚拟对象检测；基于检测结果，确定待识别图像中的目标虚拟对象的预测位置信息，本发明实施例的对象识别模型可以提取第一虚拟场景和第二虚拟场景的图像之间的共有特征信息，所以尽管第二虚拟场景样本图像中未标注目标虚拟对象的位置信息，对象识别模型的对象识别模块从已标注的第一虚拟场景样本图像中学习到的针对目标虚拟对象的对象识别方案，还是可以运用在第二虚拟场景的图像的对象识别中，并且取得良好的识别效果，实现一个模型对多个虚拟场景中相同类型的虚拟对象的准确识别。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的对象识别系统的结构示意图；

图1b是本发明实施例提供的对象识别方法的流程图；

图2是本发明实施例提供的第一虚拟场景样本图像的标注示意图；

图3是本发明实施例提供的yolo3(You only look once)网络的结构示意图；

图4是本发明实施例提供的生成对抗网络的结构示意图；

图5是本发明实施例提供的对象识别装置的结构示意图；

图6是本发明实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种对象识别方法、装置、计算机设备和存储介质。

本发明实施例提供了一种对象识别系统，对象识别系统包括适用于计算机设备的对象识别装置。其中，计算机设备可以为终端或服务器等设备。

终端可以为手机、平板电脑、笔记本电脑等终端设备，也可以为穿戴设备、智能电视或其他具有显示模块的智能终端。

其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器，但并不局限于此。

本实施例的对象识别装置可以集成在对象识别终端或者服务器中，具体的，可以以应用程序等形式集成于对象识别终端或服务器中。

参考图1a，本实施例提供的对象识别系统包括对象识别终端10和服务器20等。

对象识别终端10，可以用于获取第二虚拟场景的待识别图像，将该图像发送给服务器20。

服务器20，可以用于获取训练完成的对象识别模型，对象识别模型包括特征提取模块和对象识别模块，所述对象识别模型基于第二虚拟场景样本图像和已标注目标虚拟对象位置的第一虚拟场景样本图像训练得到；基于所述特征提取模块从所述待识别图像中提取特征图，所述特征图包括所述第一虚拟场景的图像和第二虚拟场景的图像之间的共有特征信息；基于所述对象识别模块，根据所述特征图对所述待识别图像进行目标虚拟对象检测；基于检测结果，确定所述待识别图像中的目标虚拟对象的预测位置信息。

当然，可以理解的是，在一个示例中，上述已经训练完成的对象识别模型，可以集成在终端10中，上述服务器20进行的对象识别步骤，可以由终端10执行，实现终端对待识别图像中目标虚拟对象的识别。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本发明实施例将从对象识别装置的角度进行描述，该对象识别装置具体可以集成在终端中，例如，可以以客户端的形式集成在终端中。

本发明实施例提供的一种对象识别方法，该方法可以由终端或服务器的处理器执行，本实施例中的对象识别模型是基于计算机视觉技术的一种应用，计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本实施例中训练完成的对象识别模型是一种可以识别特定类型的虚拟对象的模型，其基于AI(Artificial Intellegence，人工智能)技术实现，尤其是基于人工智能技术中的计算机视觉(Computer Vision)和机器学习(Machine Learning，ML)。

计算机视觉技术中的图像识别技术实现，同时，本实施例中最终训练出来的对象识别模型是可以识别多个虚拟场景的同类型虚拟对象的模型，例如，识别不同游戏中的虚拟人物，或者同类武器如枪支。这种对多个不同虚拟场景的相同类型虚拟对象的识别能力，可以是基于机器学习实现的。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本实施例中，对象识别模型的上述识别能力，可以基于机器学习中的迁移学习实现，即对象识别模型先学习对一种虚拟场景中的某类型虚拟对象的识别能力，再利用迁移学习技术，将该识别能力迁移到另一种虚拟场景中该类型虚拟对象上。

如图1b所示，该对象识别方法的流程可以如下：

101、获取待识别图像，所述待识别图像为第二虚拟场景的图像；

本实施例中的虚拟场景包括但不限于：游戏场景、动画场景、以及VR(VirtualReality，虚拟现实)场景等等，本实施例的待识别图像可以是从第二虚拟场景的视频中获取的，以游戏场景为例，待识别图像可以是从游戏视频中获取的图像帧，或者对游戏视频进行截图得到的，本实施例对此没有限制。

在一个示例中，可以通过本实施例对第二虚拟场景的视频中的图像进行持续的对象识别。

可选的，步骤“获取待识别图像”，可以包括：

从第二虚拟场景的目标视频中，获取待识别图像。

其中，可以按照时间顺序获取第二虚拟场景的目标视频中的每一帧图像作为待识别图像进行本实施例的对象识别，也可以在第二虚拟场景的目标视频中按照预设时间间隔或预设帧数间隔，获取待识别图像。

102、获取训练完成的对象识别模型，所述对象识别模型包括特征提取模块和对象识别模块，所述对象识别模型基于第二虚拟场景样本图像和已标注目标虚拟对象位置的第一虚拟场景样本图像训练得到；

本实施例中，训练完成的对象识别模型是由第一虚拟场景和第二虚拟场景共享的模型，其特征提取模块可以从第一虚拟场景的图像或第二虚拟场景的图像中提取特征图，无论从哪个虚拟场景的图像中提取出来的特征图都包括两个虚拟场景的图像间的共有特征信息。本实施例的特征提取模块可以将第一虚拟场景和第二虚拟场景的图像映射到相同的特征空间中，并且在该特征空间中，第一虚拟场景和第二虚拟场景的图像具有相似的特征分布。在本实施例的特征提取模块的权重参数中，两个虚拟场景的图像之间共有的特征信息的权重参数会更大，使得通过权重参数的映射后，两个虚拟场景的图像中的共有特征信息会更突出，这也使得特征空间中两个虚拟场景的图像特征分布相似。

具体的，本实施例中的共有特征信息，在一个示例中，可以理解为可以用于将第一虚拟场景的图像和第二虚拟场景的图像都识别为第一虚拟场景图像的特征信息。

本实施例的第一虚拟场景和第二虚拟场景可以是相同类型的虚拟场景，或者也可以是不同类型的虚拟场景，本实施例对此没有限制。例如第一虚拟场景和第二虚拟场景都为游戏场景，或者第一虚拟场景为游戏场景，第二虚拟场景为动画场景。

本实施例中的特征提取模块的结构不限，例如可以是基于卷积层构成的卷积特征提取模块。

本实施例中，特征提取模块的作用包括：对各虚拟场景的图像提取特征图，对象识别模块的作用包括基于特征提取模块提取的特征图，输出虚拟场景的图像中目标虚拟对象的候选检测框的位置信息，以及输出各候选检测框的分值，该分值可以表示候选检测框中包含目标虚拟对象的概率。

本实施例的虚拟对象可以是虚拟场景中出现的任意对象，不限于虚拟的人、或物品等等，以游戏场景为例，虚拟对象可以是虚拟角色，或者虚拟武器如虚拟枪支等等。

本实施例中，在步骤“获取训练完成的对象识别模型”前，还可以包括：

获取完成第一阶段训练的对象识别模型，在所述第一阶段训练中，所述对象识别模型基于所述第一虚拟场景样本图像训练得到，

获取第二虚拟场景样本图像，其中，所述第二虚拟场景样本图像中未标注所述目标虚拟对象的位置；

通过所述特征提取模块，对所述第一虚拟场景样本图像和第二虚拟场景样本图像进行特征提取，分别得到第一特征图和第二特征图；

通过场景识别模型基于所述第一特征图和第二特征图，确定所述第二特征图对应的虚拟场景为所述第一虚拟场景的第二概率；

基于所述第二概率，确定所述第二特征图对应的第二场景分类损失函数；

基于所述第二场景分类损失函数调整所述对象识别模型的参数。

本实施例中，对象识别模型的第一阶段训练中的训练样本还可以包括其他虚拟场景的样本图像，本实施例对此没有限制。

本实施例中，在计算第二场景分类损失函数时，第二特征图的期望虚拟场景可以为第一虚拟场景，第二概率对应的期望概率可以为1，确定所述第二特征图对应的第二场景分类损失函数时，可以以该期望概率和第二概率进行计算，第二场景分类损失函数使用的函数类型不限。

可选的，步骤“获取完成第一阶段训练的对象识别模型”，可以包括：

基于所述类型损失函数和所述位置损失函数，调整所述对象识别模型的参数，得到完成第一阶段训练的对象识别模型。

本实施例中，获取第一虚拟场景样本图像时，可以先获取第一虚拟场景的图像，其中，对第一虚拟场景的图像进行标注，得到带有标签的第一虚拟场景样本图像。

上述的目标对象类型信息可以用于表述目标虚拟对象所属的对象类型，本实施例中虚拟对象的类型不限，以游戏为例，虚拟对象的对象类型包括但不限于：人、水池，墙体，花，狗枪支等等。

可选的，本实施例中步骤“获取第一虚拟场景样本图像”，可以包括：

获取第一虚拟场景对应的第一视频，对第一视频按照第一预设采样规则进行采样，得到第一采样图像；

去除第一采样图像中的冗余图像；

对第一采样图像进行标注，得到第一虚拟场景样本图像，其中，第一虚拟场景样本图像的标签包括：目标虚拟对象的目标类型信息，以及目标虚拟对象在第一虚拟场景样本图像中的目标位置信息。

类似的，本实施例中，第二虚拟场景样本图像的获取过程可以包括：

获取第二虚拟场景对应的第二视频，对第二视频按照第二预设采样规则进行采样，得到第二采样图像；

去除第二采样图像中的冗余图像，得到第二虚拟场景样本图像。

本实施例中的冗余图像，可以是不具有目标检测对象，或者目标检测对象尺寸太小(如小于最小尺寸阈值)的图像。

其中，本实施例中第一虚拟场景样本图像的标签中目标位置信息，可以包括目标虚拟对象的目标检测框的位置信息，可以由四元素(x，y，h，w)表示，(x，y)表示目标检测框的左上角的坐标，h和w分别表示目标检测框的高度和宽度。例如，对目标检测框的位置信息参考图2所示。

本实施例中，第一虚拟场景样本图像和第二虚拟场景样本图像可以在不同的时刻获取，本实施例对此没有限制，可以先获取第一虚拟场景样本图像，也可以先获取第二虚拟场景样本图像。

例如，以虚拟场景为枪战游戏场景为例。假设第一虚拟场景为枪战游戏A，第二虚拟场景为枪战游戏B，目标虚拟对象的目标对象类型信息为人物类型。

对于枪战游戏A，首先，可以通过玩家录制枪战游戏的视频，或者从网上下载等方式，获取第一视频，以2秒的采样间隔对第一视频进行采样，得到第一采样图像，采样完之后，人工筛选样本，去除冗余的样本图像，得到样本图像集合后，手工标注第一虚拟场景样本图像中虚拟人物的目标位置信息和目标类型信息。

对于枪战游戏B，也可以通过玩家录制枪战游戏的视频，或者从网上下载等方式，，得到第二视频，以2秒的采样间隔对第二视频进行采样，得到第二采样图像，采样完之后，人工筛选样本，去除冗余的样本图像，得到第二虚拟场景样本图像，对于枪战游戏B，其样本图像无需标注虚拟人物的目标位置。

其中，如果相邻的采样图像之间相似度较大，如大于预设相似度阈值，则可以确认其中任意一张采样图像为冗余的图像，然后进行删除，这样做可以防止对象识别模型过拟合，并且，还可以去除目标虚拟对象的面积过小的采样图像，例如，若目标虚拟对象的面积小于图像面积的1/400，则删除对应图像，这样做可以减小对象识别模型的训练难度，防止对象识别模型难以收敛。

本实施例中，预测对象类型信息可以用于表示候选检测框中的图像内容中包含目标虚拟对象的概率，和/或，不包含目标虚拟对象的概率。

例如，可以以标识符表示对象类型，以1表示对象类型为目标虚拟对象的对象类型，以0表示目标对象类型为背景，以1表示目标对象类型为人(即虚拟人物角色)。第一虚拟场景样本图像的标签中，目标类型信息为1，表示目标虚拟对象的实际类型为人。候选检测框的预测对象类型信息可以是对象类别为1的概率0.8，表示候选检测框中包含人的概率为0.8，或者对象类别为0的概率为0.6，表示候选检测框中图像内容为背景的概率为0.6。

其中，待训练的对象识别模型，可以是任意结构的分类模型，如YOLOV3模型，为了加快模型收敛，也可以选择基于大数据预训练过的分类模型，如基于大数据库ImageNet预训练的darknet53深度网络模型。

本实施例中，可以采用多个尺度的特征图进行对象识别，以提升对象识别模型的识别精确度，步骤“通过所述特征提取模块获取所述第一虚拟场景样本图像的特征图”，可以包括：

所述通过所述对象识别模块，从所述第一虚拟场景样本图像的特征图中检测出所述目标虚拟对象的候选检测框，并对所述候选检测框中的图像内容进行目标虚拟对象检测得到对应的预测对象类型信息，包括：

通过所述对象识别模块，从各所述特征图中检测出尺寸与特征图尺度对应的待识别候选检测框，并对各特征图中的待识别候选检测框中的图像内容进行目标虚拟对象检测得到对应的预测对象类型信息。

本实施例中，特征图的尺度数量不限，可以根据需要设置，例如可以是2、3、4等等数值。

还是以游戏A为例，先对第一虚拟场景样本图像进行尺寸变换，转换为符合对象识别模型输入标准的图像，例如转换为416X416像素的图像。然后通过对象识别模型中多个不同大小的卷积层提取图像的卷积谱特征，随后，通过特征金字塔的方式提取三种尺度的卷积层特征，得到三种尺度的第一特征图，如大小分别为52X52、26X26以及13X13的第一特征图。

其中，可以通过52X52的第一特征图预测小尺度的目标虚拟对象，通过26X26的第一特征图预测中等尺度的目标虚拟对象，通过13X13的第一特征图预测大尺度的目标虚拟对象。

本实施例中，对象识别模型的损失函数包括类型损失函数和位置损失函数。

其中，类型损失函数可以采用任意可以用的损失函数形式，本实施例对此没有限制，在一个示例中，可以使用经典的类别交叉熵损失，类型损失可以用于优化分类结果的预测，类型损失函数的公式如下：

y'_i＝h(x_i)

其中，N是候选检测框的数量，C是对象识别模型的对象类型分类的数量(可选的，C为2，第一类对象类型分类结果为背景类型，第二类对象类型分类结果为人物类型，可以选的，若对象识别模型可以识别的虚拟对象的类型有n个，则上述的C为n+1，例如，可以识别的虚拟对象的类型包括人以及狗，则上述的C为3，分别对应人、狗、背景这三类识别结果。)，y_i,k表示候选检测框i内的对象实际上是否是第k个类别，可以基于样本图像的标签确定，y'_i,k是对象识别模型对候选目标矩形框i是第k个类别的打分，x_i表示第i个候选检测框对应的图像区域，h代表该图像区域到对象识别模型的类别打分的映射。

本实施例中，位置拟合的损失可以采用经典的L1损失，位置损失用于优化目标检测框的位置检测。位置损失函数的公式如下：

其中，g_i表示第i个真实的目标检测框的位置信息，x_i是第i个真实的目标检测框所对应的候选检测框i对应的图像区域，b_i是第i个真实的目标检测框所对应的候选检测框i的位置信息。f(x_i,b_i)代表候选检测框i最终预测的人物位置。本实施例的对象识别模型预测的是位置的偏差值，通过目标检测框与候选检测框的位置信息处理得到最终的结果。

本实施例中，可以给予分类损失和位置损失不同的权重，对两种损失进行加权求和，得到第一虚拟场景样本图像对应的总损失，基于该总损失对对象识别模型的参数进行调整。本方案中，可以通过损失梯度后向传递的方式优化模型参数。

以yolo3为例，对对象识别模型的训练过程进行描述。Yolo3的整体架构参考图3，采用两种不同灰度的颜色块表示卷积层和残差层。提取第一虚拟场景样本图像的三种尺度的第一特征图，如尺度一对应的13X13大小的第一特征图，尺度二对应的26X26大小的第二特征图，尺度三对应的52X52大小的第三特征图。最终基于三种不同尺度的第一特征图进行目标虚拟对象的位置预测。图中的X4、X8、X2分别表示：重复4次，重复8次，重复2次。

本实施例中，对于基于第一虚拟场景样本图像的训练，训练结束条件包括但不限于：模型训练次数达到阈值，或模型的总损失下降幅度低于阈值。

103、基于所述特征提取模块从所述待识别图像中提取特征图，所述特征图包括所述第一虚拟场景的图像和第二虚拟场景的图像之间的共有特征信息；

根据上述对对象识别模型的训练可知，对象识别模型可以提取多个尺度的特征图。可选的，步骤“基于所述特征提取模块从待识别图像中提取特征图”，可以包括：

基于所述特征提取模块从待识别图像中提取至少两种尺度的特征图。

其中，特征图的尺度和尺度数量，根据特征提取模块的设计而定，例如在上述的yolo3网络中，特征图的尺度可以有三种。

104、基于所述对象识别模块，根据所述特征图对所述待识别图像进行目标虚拟对象检测；

可选的，步骤“基于所述对象识别模块，根据所述特征图对所述待识别图像进行目标虚拟对象检测”，可以包括：

基于所述对象识别模块，从所述特征图中检测出所述目标虚拟对象的候选检测框，并对所述候选检测框中的图像内容进行目标虚拟对象检测。

本实施例中，对象识别模块对目标虚拟对象的检测方式不限，可以是先从特征图中检测出所有可能出现目标虚拟对象的检测框作为候选检测框，再对检测框中的图像内容进行针对性的检测，确定其中出现目标虚拟对象的概率，其中该检测的图像内容指的是特征图中位于候选检测框中的图像内容。

或者，在一个示例中，对象识别模块还可以先将特征图划分为n*n个网格单元，其中，每个网格单元对应m个检测框，对象识别模型可以基于网格单元对每个检测框中的图像内容进行检测，从而可以同时得到这个检测框的置信度(置信度可以表示检测框中包含某对象的确定程度，置信度与检测框中具体是什么对象无关，只与检测框的形状大小有关)和分类得分(即检测框中包括的对象为目标虚拟对象的概率)，其中，对象识别模块可以将检测框的置信度和分类得分整合成一个最终得分，该最终得分可以用来表示检测框中包含某个特定类型的对象(在本实施例中是目标虚拟对象)的概率(即本实施例中的预测对象类型信息)。

本实施例中，候选检测框可以是置信度高于置信度阈值的检测框，例如置信度高于30％的检测框会被确认为候选检测框，在第二个示例中，候选检测框的确定和候选检测框中图像内容的虚拟对象检测是在相同的过程中实现的，所以候选检测框确定的时，其预测对象类型信息同时被确定。

在特征图的尺度有多种的情况下，每个特征图都需要进行上述的检测，但是可以采用不同的特征图对不同尺度的目标虚拟对象进行检测，提升检测准确性。

可选的，步骤“基于所述对象识别模块，从所述特征图中检测出所述目标虚拟对象的候选检测框，并对所述候选检测框中的图像内容进行目标虚拟对象检测”，可以包括：

通过所述对象识别模块，从所述待识别图像的各特征图中检测出尺寸与特征图尺度对应的候选检测框；

对各特征图的候选检测框中的图像内容进行目标虚拟对象检测，得到各候选检测框对应的预测对象类型信息。

本实施例中，特征图的尺度和其用于检测的目标虚拟对象的尺寸，由对象识别模型中的设计决定，设计者可以根据特征图的尺度的种数设置，本实施例对此没有限制。

105、基于检测结果，确定所述待识别图像中的目标虚拟对象的预测位置信息。

可选的，步骤“基于检测结果，确定所述待识别图像中的目标虚拟对象的预测位置信息”，可以包括：

基于各尺度的特征图中候选检测框的预测对象类型信息，确定待识别图像中目标虚拟对象的预测位置信息。

本实施例中基于预测对象类型信息，可以确定候选检测框中包括目标虚拟对象的概率，所以基于该预测对象类型信息，可以确定待识别图像中包括目标虚拟对象的候选检测框，从而确定目标虚拟对象的预测位置信息。

可选的，步骤“基于各尺度的特征图中候选检测框的预测对象类型信息，确定待识别图像中目标虚拟对象的预测位置信息”，可以包括：

基于各候选检测框的预测对象类型信息，确定对象类型为所述目标虚拟对象的概率不低于预设概率阈值的候选检测框作为选定检测框；

基于所述选定检测框的位置信息，确定所述待识别图像中所述目标虚拟对象的预测位置信息。

本实施例中，各候选检测框的预测对象类型信息中，可以包括各个候选检测框中对象的对象类型为目标虚拟对象的概率。预设概率阈值可以根据实际需要设置，例如设置为0.8、0.9、0.95、或者0.85等等数值，本实施例对此没有限制。本实施例的对象识别模块还可以输出各个候选检测框的位置信息，所以在基于预设概率阈值确定选定检测框之后，可以将选定检测框的位置信息作为待识别图像中目标虚拟对象的预测位置信息。

本实施例中，第一虚拟场景样本图像的标签还包括第一场景标识信息，所述第一场景标识信息用于指示所述第一虚拟场景样本图像的期望虚拟场景为所述第一虚拟场景；

步骤“通过场景识别模型基于所述第一特征图和第二特征图，确定所述第二特征图对应的虚拟场景为所述第一虚拟场景的第二概率”，可以包括：

通过所述场景识别模型对所述第一特征图和第二特征图分别进行虚拟场景识别，得到第一预测场景信息和第二预测场景信息；

基于所述第二预测场景信息，确定所述第二特征图的虚拟场景为所述第一虚拟场景的第二概率；

所述对象识别方法还包括：

基于所述第一预测场景信息、第一场景标识信息和所述第二预测场景信息，调整所述场景识别模型的参数。

本实施例中，场景识别模型的目标，可以是尽量准确地识别各个图像对应的虚拟场景为其来源的虚拟场景，以该目标设置损失函数以调整模型参数。

可选的，步骤“基于所述第一预测场景信息、第一场景标识信息和所述第二预测场景信息，调整所述场景识别模型的参数”，可以包括：

基于第一预测场景信息以及第一场景标识信息，确定对象识别模型的第一场景分类损失函数；

以第二虚拟场景作为第二特征图对应的期望虚拟场景，基于所述期望虚拟场景和第二预测场景信息确定第二特征图对应的第三场景分类损失函数；

基于第一场景分类损失函数和第三场景分类损失函数，调整场景识别模型的参数。

可选的，一个示例中，第一特征图或第二特征图的尺度可以只有一个，场景识别模型可以基于该尺度的特征图进行虚拟场景识别。

在另一个示例中，第一特征图的尺度数量有至少两个，如三个，需要对特征图进行处理。本实施例中，可以基于生成对抗网络的原理，将对象识别模型的对象识别能力，迁移到第一虚拟场景中。

可选的，场景识别模型包括生成器模型和判别器模型；

步骤“通过所述场景识别模型对所述第一特征图和第二特征图分别进行虚拟场景识别，得到第一预测场景信息和第二预测场景信息”，可以包括：

通过生成器模型将第一特征图转换为预设维度的第一特征向量，通过判别器模型基于第一特征向量进行虚拟场景识别，得到第一预测场景信息。

通过生成器模型将第二特征图转换为预设维度的第二特征向量，通过判别器模型基于第二特征向量进行虚拟场景识别，得到第二预测场景信息。

步骤“基于所述第一预测场景信息、第一场景标识信息和所述第二预测场景信息，调整所述场景识别模型的参数”，可以包括：

基于第一场景分类损失函数和第三场景分类损失函数，调整判别器模型的参数。

具体的，可以按照前述示例中的步骤，计算第一场景分类损失函数和第三场景分类损失函数；基于该第一场景分类损失函数和第三场景分类损失函数调整判别器模型的参数。具体的，可以对第一场景分类损失函数和第三场景分类损失函数的加权求和，得到判别器模型的总的场景分类损失函数，然后基于该总的场景分类损失函数调整判别器模型的参数。

本实施例中，在同一样本图像的特征图的尺度有至少两种的场景下，通过生成器模型将第一特征图转换为预设维度的第一特征向量，通过判别器模型基于第一特征向量进行虚拟场景识别，得到第一预测场景信息，包括：通过生成器模型将每种尺度的第一特征图转换为预设维度的第一特征向量，通过判别器模型基于同一第一虚拟场景样本图像对应的第一特征向量，预测该第一虚拟场景样本图像对应的虚拟场景，得到第一预测场景信息。

对应的，通过生成器模型将第二特征图转换为预设维度的第二特征向量，通过判别器模型基于第二特征向量进行虚拟场景识别，得到第二预测场景信息，包括：通过生成器模型将每种尺度的第二特征图转换为预设维度的第二特征向量，通过判别器模型基于同一第二虚拟场景样本图像对应的第一特征向量，预测该第二虚拟场景样本图像对应的虚拟场景，得到第二预测场景信息。

本实施例中，预设维度根据判别器模型的结构设置。例如，在一个示例中，判别器模型可以包括三层全连接层，第一层全连接层的维度为1024维度，三层全连接层的核大小分别为512、256、2，则该预设维度为1024，匹配判别器模型的第一层全连接层的输入维度。当然，在其他示例中，判别器模型还可以设置为其他可以实现场景分类的模型结构。

在本实施例中，生成器模型可以由卷积层和全连接层构成，对于特征图的每个尺度，生成器模型中均设置有对应的生成器子模型，每个生成器子模型可以由卷积层和全连接层构成。例如，参考图4所示的对抗网络结构，针对尺度三，即52X52的特征图，采用4个步长为2，核大小为3，核个数为256的卷积层和1个全连接层构成生成器子模型，将其转换成1024维的特征向量；针对尺度二，即26X26的特征图，采用3个步长为2，核大小为3，核个数为256的卷积层和1个全连接层构成生成器子模型，将其转换成1024维的特征向量；针对尺度一，即13X13的特征图，采用2个步长为2，核大小为3，核个数为256的卷积层和1个全连接层构成生成器子模型，将其转换成1024维的特征向量。随后，将特征向量输入判别器模型进行虚拟场景识别。

本实施例中的判别器模型的目标是尽量取得更高的分类精度。判别器模型的总损失包括上述的第一场景分类损失函数和第三场景分类损失函数。判别器模型的总损失L_D可以通过如下的公式计算：

其中，N₁是第一虚拟场景样本图像的样本数量，a_i是第i个第一虚拟场景样本图像，N₂是第二虚拟场景样本图像的样本数量，b_j是第j个第二虚拟场景样本图像。G(.)代表生成器模型输出的1024维的特征向量,D(.)代表判别器模型的打分，D(G(ai))表示判别器模型判断第一虚拟场景样本图像属于第一虚拟场景的概率(记为第一概率)，D(G(bi))表示判别器模型判断第二虚拟场景样本图像属于第一虚拟场景的概率(即上述的第二概率)。

本实施例中，生成器模型的目标是让判别器无法区分不同虚拟场景如游戏A和游戏B的图像，生成器模型的第二场景分类损失函数L_G的计算公式如下所示：

其中，L_G代表生成器模型的损失，N代表第二虚拟场景样本图像的样本数量，D(.)代表判别器的打分，这个打分是指第二虚拟场景样本图像的特征向量被识别属于第一虚拟场景的概率，G(.)代表网络输出的1024维特征向量,b_n是第n张第二虚拟场景样本图像。

本实施例中，通过两个网络模型的对抗，模型能学习两个枪战游戏较为通用的特征。

本实施例中，第一虚拟场景和第二虚拟场景的样本图像共同参与的针对对象识别模型的参数调整过程，可以理解为对对象识别模型的第二阶段训练。

本实施例中，步骤“基于所述第二场景分类损失函数调整所述对象识别模型的参数”，包括：

基于所述第二场景分类损失函数调整所述特征提取模块的参数；

返回所述通过所述特征提取模块，对所述第一虚拟场景样本图像和第二虚拟场景样本图像进行特征提取，分别得到第一特征图和第二特征图的步骤，直到满足所述对象识别模型对应的共享模型训练结束条件时，得到训练完成的对象识别模型。

本实施例中，对象识别模型中的特征提取模块其实可以理解构成生成对抗网络中的生成器网络的一部分，即该特征提取模块与场景识别模型中的生成器模型共同组成生成器网络，可以将虚拟场景的图像转换为预设维度如1024维度的特征向量。

本实施例中，基于所述第二场景分类损失函数调整所述对象识别模型的参数，还可以是基于第二场景分类损失函数调整生成器模型的参数和对象识别模型中的特征提取模块的参数，其中，在调整这些参数的时候，可以是以最小化第二场景分类损失函数为目的调整的。

由此，对象识别模型的权重参数中，不同虚拟场景的图像之间的共有特征信息的权重会被逐渐调高，对象识别模型可以逐步学习到不同虚拟场景的图像之间的共有特征信息，将在第一虚拟场景中学习到的对象识别能力迁移到第二虚拟场景中。

本实施例中，可以在基于第二场景分类损失函数调整对象识别模型的参数的基础上，以最小化对象识别模型的总损失函数为优化目标，提升对象识别模型的检测精度。

可选的，返回所述通过所述特征提取模块，对所述第一虚拟场景样本图像和第二虚拟场景样本图像进行特征提取，分别得到第一特征图和第二特征图的步骤前，本实施例的方法还可以包括：

通过调整参数后的特征提取模块，提取所述第一虚拟场景样本图像的特征图；

通过所述对象识别模块，从所述特征图中检测出所述目标虚拟对象的候选检测框，并对所述候选检测框中的图像内容进行目标虚拟对象检测得到对应的预测对象类型信息；

基于所述预测对象类型信息和所述第一虚拟场景样本图像的标签中的目标类型信息，确定所述第一虚拟场景样本图像对应的类型损失函数；

基于所述候选检测框的位置信息和所述第一虚拟场景样本图像的标签中的目标位置信息，确定所述第一虚拟场景样本图像对应的位置损失函数；

基于所述类型损失函数和所述位置损失函数，调整所述对象识别模型的参数。

本实施例中，对象识别模型的第二阶段训练的训练结束条件，也即上述的共享模型训练结束条件包括但不限于迭代次数达到预设阈值如20万次，或者对象识别模型的总损失函数达到收敛条件，如总损失的变化低于0.001。

在对象识别模型训练完成后，可以对第二虚拟场景或第一虚拟场景对应的图像进行识别。

本实施例中的待识别图像，可以是来自于第二虚拟场景的视频中的，可选的，在当前的待识别图像的识别完成后，可以从视频中读取未识别过的图像作为新的待识别图像进行新一轮的对象识别。

在对待识别图像进行对象识别时，对象识别模型可以先对待识别图像提取多种尺度的特征图，例如前述的52X52、26X26、13X13这三种尺度的特征图，然后基于这三种尺度的特征图，预测不同尺寸的目标虚拟对象。得到目标虚拟对象的候选检测框的位置信息以及候选检测框中目标虚拟对象的预测对象类型信息。

本实施例中，基于对抗网络的半监督训练方式，实现了对对象识别模型的训练，可以在仅提供新的虚拟场景的样本图像的情况下，快速实现对该新的虚拟场景的对象识别模型迁移，能显著降低人力成本，让模型学习到不同虚拟场景的较为通用的特征，提升识别模型的泛化能力。

为了更好地实施以上方法，相应的，本发明实施例还提供一种对象识别装置，该对象识别装置具体集成在对象识别终端。

参考图5，该对象识别装置包括：

待识别图像获取单元501，用于获取待识别图像，所述待识别图像为第二虚拟场景的图像；

模型获取单元502，用于获取训练完成的对象识别模型，所述对象识别模型包括特征提取模块和对象识别模块，所述对象识别模型基于第二虚拟场景样本图像和已标注目标虚拟对象位置的第一虚拟场景样本图像训练得到；

特征提取单元503，用于基于所述特征提取模块从所述待识别图像中提取特征图，所述特征图包括所述第一虚拟场景的图像和第二虚拟场景的图像之间的共有特征信息；

对象识别单元504，用于基于所述对象识别模块，根据所述特征图对所述待识别图像进行目标虚拟对象检测；

对象确定单元505，用于基于所述检测结果，确定所述待识别图像中的目标虚拟对象的预测位置信息。

可选的，装置还包括：模型训练单元，包括：

可选的，训练子单元，用于：

场景识别子单元，用于：

对象识别单元，包括候选框选择子单元和对象检测子单元：

对象确定单元，包括检测框确定子单元和对象确定子单元：

采用本发明实施例，可以只对第一虚拟场景的第一虚拟场景样本图像进行目标虚拟对象的位置和类型标注，对第二虚拟场景样本图像可以不进行类似的标注，降低获取第二虚拟场景样本图像所需的时间，有利于提升对象识别模型的训练效率，并且还可以基于第二场景分类损失函数对对象识别模型的参数调整，将对象识别模型对第一虚拟场景图像中目标虚拟对象的识别能力，迁移到第二虚拟场景的图像中，实现对象识别模型对第一虚拟场景和第二虚拟场景中目标虚拟对象的识别。

此外，本发明实施例还提供一种计算机设备，该计算机设备可以为终端或者服务器，如图6所示，其示出了本发明实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解，图6中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器601是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器601可包括一个或多个处理核心；优选的，处理器601可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器601中。

存储器602可用于存储软件程序以及模块，处理器601通过运行存储在存储器602的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器602还可以包括存储器控制器，以提供处理器601对存储器602的访问。

计算机设备还包括给各个部件供电的电源603，优选的，电源603可以通过电源管理系统与处理器601逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元604，该输入单元604可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器601会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器601来运行存储在存储器602中的应用程序，从而实现各种功能，如下：

获取待识别图像，所述待识别图像为第二虚拟场景的图像；

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例还提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的对象识别方法。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的对象识别方法中的步骤，因此，可以实现本发明实施例所提供的对象识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种对象识别方法、装置、计算机设备和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种对象识别方法，其特征在于，包括：

获取待识别图像，所述待识别图像为第二虚拟场景的图像；

2.根据权利要求1所述的对象识别方法，其特征在于，所述获取训练完成的对象识别模型前，还包括：

3.根据权利要求2所述的对象识别方法，其特征在于，所述获取完成第一阶段训练的对象识别模型，包括：

4.根据权利要求3所述的对象识别方法，其特征在于，所述通过所述特征提取模块获取所述第一虚拟场景样本图像的特征图，包括：

5.根据权利要求2所述的对象识别方法，其特征在于，所述第一虚拟场景样本图像的标签还包括第一场景标识信息，所述第一场景标识信息用于指示所述第一虚拟场景样本图像的期望虚拟场景为所述第一虚拟场景；

所述通过场景识别模型基于所述第一特征图和第二特征图，确定所述第二特征图对应的虚拟场景为所述第一虚拟场景的第二概率，包括：

所述对象识别方法还包括：

6.根据权利要求5所述的对象识别方法，其特征在于，所述场景识别模型包括生成器模型和判别器模型；

所述通过所述场景识别模型对所述第一特征图和第二特征图分别进行虚拟场景识别，得到第一预测场景信息和第二预测场景信息，包括：

所述基于所述第一预测场景信息、第一场景标识信息和所述第二预测场景信息，调整所述场景识别模型的参数，包括：

基于所述第一预测场景信息、第一场景标识信息和所述第二预测场景信息，调整所述判别器模型的参数。

7.根据权利要求6所述的对象识别方法，其特征在于，所述通过所述特征提取模块，对所述第一虚拟场景样本图像和第二虚拟场景样本图像进行特征提取，分别得到第一特征图和第二特征图，包括：

通过所述特征提取模块，对所述第一虚拟场景样本图像和第二虚拟场景样本图像进行特征提取，分别得到至少两种尺度的第一特征图和至少两种尺度的第二特征图；

所述通过所述生成器模型将所述第一特征图转换为预设维度的第一特征向量，通过所述判别器模型基于所述第一特征向量进行虚拟场景识别，得到第一预测场景信息，包括：

通过所述生成器模型将每种尺度的第一特征图转换为所述预设维度的第一特征向量，通过所述判别器模型基于同一第一虚拟场景样本图像对应的第一特征向量，预测所述第一虚拟场景样本图像对应的虚拟场景，得到第一预测场景信息；

所述通过所述生成器模型将所述第二特征图转换为所述预设维度的第二特征向量，通过所述判别器模型基于所述第二特征向量进行虚拟场景识别，得到第二预测场景信息，包括：

通过所述生成器模型将每种尺度的第二特征图转换为所述预设维度的第二特征向量，通过所述判别器模型基于同一第二虚拟场景样本图像对应的第二特征向量，预测所述第二虚拟场景样本图像对应的虚拟场景，得到第二预测场景信息。

8.根据权利要求2-7任一项所述的对象识别方法，其特征在于，所述基于所述第二场景分类损失函数调整所述对象识别模型的参数，包括：

9.根据权利要求8所述的对象识别方法，其特征在于，返回所述通过所述特征提取模块，对所述第一虚拟场景样本图像和第二虚拟场景样本图像进行特征提取，分别得到第一特征图和第二特征图的步骤前，还包括：

通过调整参数后的特征提取模块，获取所述第一虚拟场景样本图像的特征图；

10.根据权利要求1-7任一项所述的对象识别方法，其特征在于，所述基于所述对象识别模块，根据所述特征图对所述待识别图像进行目标虚拟对象检测，包括：

11.根据权利要求10所述的对象识别方法，其特征在于，所述基于所述特征提取模块从所述待识别图像中提取特征图，包括：

基于所述特征提取模块，从所述待识别图像中提取至少两种尺度的特征图；

所述基于所述对象识别模块，从所述特征图中检测出所述目标虚拟对象的候选检测框，并对所述候选检测框中的图像内容进行目标虚拟对象检测，包括：

对各特征图的候选检测框中的图像内容进行目标虚拟对象检测，得到各候选检测框对应的预测对象类型信息；

所述基于检测结果，确定所述待识别图像中的目标虚拟对象的预测位置信息包括：

12.一种对象识别装置，其特征在于，包括：

13.一种计算机设备，其特征在于，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1-11任一项所述方法的步骤。

14.一种存储介质，其上存储有计算机程序，其特征在于，当计算机程序在计算机上运行时，使得所述计算机执行如权利要求1至11任一项所述方法的步骤。