CN112926609B

CN112926609B - 图像处理方法及装置

Info

Publication number: CN112926609B
Application number: CN201911235269.7A
Authority: CN
Inventors: 程战战
Original assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Current assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2023-01-24
Anticipated expiration: 2039-12-05
Also published as: CN112926609A

Abstract

本发明实施例提供一种图像处理方法及装置，该方法包括：获取第一识别任务对应的待识别图像，所述待识别图像包括至少一种对象类型的对象；将所述待识别图像输入到第一模型中，得到识别结果，所述识别结果包括至少一个对象和每个对象的对象类型；其中，所述第一模型是根据多张样本图像对第二识别任务对应的第二模型训练得到的，每张样本图像中包括至少两个对象，所述至少两个对象为对象集合中的对象，所述对象集合包括所述第一识别任务对应的M个第一图像中的对象和所述第二识别任务对应的N个第二图像中的对象，所述M小于等于所述N。本发明实施例提供的图像处理方法及装置，能解决现有域适配技术无法应用于多标签分类的图像识别的问题。

Description

图像处理方法及装置

技术领域

本发明实施例涉及图像处理技术领域，尤其涉及一种图像处理方法及装置。

背景技术

在机器学习领域，常涉及到图像特征的识别，在现实场景中，图像往往是多标签的，且不同的图像可能对应不同的场景。在对多标签图像进行特征识别时，容易出现多标签图像识别模型训练过程中样本不足问题。

具体来说，对于某种特定场景的图像数据，往往面临样本不足的问题，而现有的机器学习模型都是基于大量的样本来进行训练的，样本不足会直接导致在使用现有的机器学习模型进行训练时，得到的模型的识别率较低，泛化性较差的问题，无法满足图像识别的要求。现有的方法是对多标签场景进行域适配(Domain Adaptation)，也即对A场景(一般具有较多的多标签样本，性能好)的样本进行场景迁移到B场景(一般场景特异，样本稀少)，使B场景具备A场景的识别能力。然而，现有方案存在的问题是，多标签图像往往是以多个标签形式存在，现有的域适配技术仅仅支持单标签分类，而不支持多标签，无法满足多标签分类的要求。

因此，现在亟需一种方案，解决现有的域适配技术无法应用于多标签分类的图像识别的问题。

发明内容

本发明实施例提供一种图像处理方法及装置，以解决现有域适配技术无法应用于多标签分类的图像识别的问题。

第一方面，本发明实施例提供一种图像处理方法，包括：

获取第一识别任务对应的待识别图像，所述待识别图像包括至少一种对象类型的对象；

将所述待识别图像输入到第一模型中，得到识别结果，所述识别结果包括至少一个对象和每个对象的对象类型；

其中，所述第一模型是根据多张样本图像对第二识别任务对应的第二模型训练得到的，每张样本图像中包括至少两个对象，所述至少两个对象为对象集合中的对象，所述对象集合包括所述第一识别任务对应的M个第一图像中的对象和所述第二识别任务对应的N个第二图像中的对象，所述M小于等于所述N。

在一种可能的实现方式中，所述第一模型通过以下步骤获取：

对多张所述样本图像进行分类，得到第一样本图像和第二样本图像，所述第一样本图像中的至少两个对象为所述第一图像中的对象或者所述第二图像中的对象，所述第二样本图像包括所述第一图像中的对象和所述第二图像中的对象；

将所述第一样本图像和所述第二样本图像输入所述第二模型中进行训练，得到所述第一模型。

在一种可能的实现方式中，在所述对多张所述样本图像进行分类，得到第一样本图像和第二样本图像之前，所述方法还包括：

获取M个所述第一图像和N个所述第二图像；

对M个所述第一图像和N个所述第二图像中的对象进行提取，得到所述对象集合，所述对象集合中包括多个对象和每个对象的属性信息，所述属性信息包括识别任务标识和对象类型；

根据所述对象集合中包括多个对象和每个对象的属性信息，对所述对象集合中的对象进行组合处理，得到多张所述样本图像。

在一种可能的实现方式中，所述对M个所述第一图像和N个所述第二图像中的对象进行提取，得到所述对象集合，包括：

对于每一张所述第一图像，提取所述第一图像中的对象，并对所述第一图像中的对象进行分类，得到对应的第一对象和第一对象的对象类型，所述第一对象的识别任务标识为第一识别任务；

对于每一张所述第二图像，提取所述第二图像中的对象，并对所述第二图像中的对象进行分类，得到对应的第二对象和第二对象的对象类型，所述第二对象的识别任务标识为第二识别任务；

根据所述第一对象、所述第一对象的对象类型和识别任务标识、所述第二对象以及所述第二对象的对象类型和识别任务标识，得到所述对象集合。

在一种可能的实现方式中，所述将所述第一样本图像和所述第二样本图像输入所述第二模型中进行训练，得到所述第一模型，包括：

执行第一操作，所述第一操作包括：将所述第一样本图像输入至所述第二模型中，得到第一识别结果，根据所述第一识别结果和所述第一样本图像中对象的对象类型，得到第一损失函数，其中，所述第一识别结果为所述第二模型对所述第一样本图像中的各个对象的对象类型进行识别得到的识别结果；

执行第二操作，所述第二操作包括：基于所述第一识别结果，将所述第一样本图像和所述第二样本图像输入至所述第二模型中，得到第二识别结果，并根据第二识别结果和所述各个对象的对象类型，得到第二损失函数，其中，所述第二识别结果为所述第二模型对各个对象的对象类型进行识别得到的识别结果；

执行第三操作，所述第三操作包括：根据所述第一损失函数和第二损失函数得到总的损失函数，并根据所述总的损失函数调整所述第二模型的参数；

重复执行所述第一操作、所述第二操作和所述第三操作，直至所述总的损失函数小于或等于预设值时，根据最后一次参数调整后的第二模型得到所述第一模型。

在一种可能的实现方式中，所述对多张所述样本图像进行分类，得到第一样本图像和第二样本图像，包括：

根据所述样本图像中的对象的识别任务标识和对象类型，对多张所述样本图像进行分类，得到第一子样本图像、第二子样本图像、第三子样本图像和第四子样本图像，其中，所述第一子样本图像中的对象的识别任务标识相同，对象类型不同；所述第二子样本图像中的对象的识别任务标识相同，对象类型相同；所述第三子样本图像中的对象的识别任务标识不同，对象类型不同；所述第四子样本图像中的对象的识别任务标识不同，对象类型相同；

根据所述第一子样本图像和所述第二子样本图像得到所述第一样本图像；

根据所述第三子样本图像和所述第四子样本图像得到所述第二样本图像。

在一种可能的实现方式中，所述基于所述第一识别结果，将所述第一样本图像和所述第二样本图像输入至所述第二模型中，得到第二识别结果，并根据第二识别结果和所述各个对象的对象类型，得到第二损失函数，包括：

基于所述第一识别结果，对所述第一样本图像和所述第二样本图像进行判别，得到判别结果，并根据所述判别结果和样本图像的类别，得到判别损失函数，其中，所述判别结果为对样本图像分类得到的结果，所述判别结果中包括目标样本图像，所述目标样本图像是由所述对象集合中识别任务标识不同但对象类型相同的对象得到的样本图像；

对所述目标样本图像进行训练，得到生成结果，并根据所述生成结果和所述目标样本图像中对象的对象类型，得到生成损失函数，其中，所述生成结果为对目标样本图像中的对象进行分类得到的结果；

根据所述判别损失函数和所述生成损失函数，得到所述第二损失函数。

第二方面，本发明实施例提供一种图像处理装置，包括：

获取模块，用于获取第一识别任务对应的待识别图像，所述待识别图像包括至少一种对象类型的对象；

识别模块，用于将所述待识别图像输入到第一模型中，得到识别结果，所述识别结果包括至少一个对象和每个对象的对象类型；

在一种可能的实现方式中，还包括训练模块，所述训练模块具体用于：

在一种可能的实现方式中，所述训练模块具体用于：

获取M个所述第一图像和N个所述第二图像；

在一种可能的实现方式中，所述训练模块具体用于：

第三方面，本发明实施例提供一种图像处理设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如第一方面任一项所述的图像处理方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面任一项所述的图像处理方法。

本发明实施例提供的图像处理方法及装置，通过获取第一识别任务对应的待识别图像，将待识别图像输入到第一模型中，得到识别结果，来实现对待识别图像中的多个对象和对象的对象类型进行识别，其中第一模型是根据多张样本图像对第二识别任务对应的第二模型训练得到的，通过域适配技术将第二识别任务对应的场景迁移到第一识别任务对应的场景，每张样本图像中包括至少两个对象，样本图像是根据多个第一识别任务对应的第一图像和多个第二识别任务对应的第二图像中的对象进行处理得到的。本发明实施例提供的图像处理方法，针对第一识别任务对应的图像样本不足的问题，采用多张样本图像对第二识别任务对应的第二模型进行训练得到第一模型，其中第一图像和第二图像中均包括多个对象，每个对象有对应的标签，因此第一图像和第二图像中均对应多个标签，实现第二识别任务对应的域到第一识别任务对应的域的适配，得到了多张样本图像实现对模型的训练，缓解了多标签对象的样本不足问题，解决了通过域适配技术对多标签图像的识别问题，并提高了对第一识别任务对应的多标签的待识别图像的对象的识别能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种图像处理的应用场景示意图；

图2为本发明实施例提供的图像处理方法的流程示意图；

图3为本发明实施例提供的图像处理系统的结构示意图；

图4为本发明实施例提供的图像处理系统的各模块执行示意图；

图5为本发明实施例提供的第一模型的训练过程的流程示意图；

图6为本发明实施例提供的图像场景示意图；

图7为本发明实施例提供的对第一图像中的对象提取分类示意图；

图8为本发明实施例提供的对第二图像中的对象提取分类示意图；

图9为本发明实施例提供的获取对象集合的示意图；

图10为本发明实施例提供的对象组合处理示意图；

图11为本发明实施例提供的图像处理方法的数据流执行示意图；

图12为本发明实施例提供的图像处理装置的结构示意图；

图13为本发明实施例提供的图像处理设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种图像处理的应用场景示意图，如图1所示，该系统包括服务器11和客户端12，服务器11和客户端12之间通过有线或无线网络连接。客户端12主要用于获取第一识别任务对应的待识别图像，然后将待识别图像发送给服务器11。服务器11用于将获取到的待识别图像输入到第一模型中，得到对应的识别结果。

本发明实施例提供的方案可应用于图像识别中，多标签图像是指图像中包括多个对象，且对象的对象类型可能不同。由于每张图像都有对应的场景，即不同的识别任务，对于某一种识别任务下的图像，其样本数量可能面临不足的问题，因此，本发明实施例提供的图像处理系统，首先由客户端12获取多张样本图像并发送给服务器11，服务器11根据多张样本图像对第二识别任务对应的第二模型进行训练，得到第一模型。然后客户端12向服务器11发送待识别图像，服务器11接收到待识别图像后，将第一识别任务对应的待识别图像输入第一模型，得到待识别图像上的对象和每个对象的对象类型，实现多标签图像的识别。

下面以具体的实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

图2为本发明实施例提供的图像处理方法的流程示意图，如图2所示，包括：

步骤21，获取第一识别任务对应的待识别图像，所述待识别图像包括至少一种对象类型的对象。

本发明实施例中的待识别图像为多标签图像，即待识别图像上可以有一个或多个对象，各个对象的对象类型可以相同，也可以不同。每个对象均有对应的标签，即对象的对象类型，待识别图像中包括至少一种对象类型的对象，即待识别图像中的对象至少有一个标签。

识别任务指的是在不同的场景下对对象的识别，本发明实施例中涉及到两个识别任务，分别为第一识别任务和第二识别任务，第一识别任务和第二识别任务对应不同的图像场景。可以理解的是，本发明实施例中的两个识别任务仅仅是指不同的两个图像场景，而并不构成对具体的图像场景的限定。

进一步的，第一识别任务和第二识别任务并非完全不同的两个识别任务，而是有一定的关联，第一识别任务对应的图像中的对象和第二识别任务对应的图像中的对象是类似的。例如，第一识别任务对应的图像为车牌图像，第一识别任务为在车牌图像上识别车牌号，第二识别任务对应的图像为报纸图像，第二识别任务为在报纸图像上识别报纸上的字。第一识别任务和第二识别任务对应的场景不同，第一识别任务对应的场景是车牌，车牌图像上的对象为车牌号，第二识别任务对应的场景为报纸，报纸图像上的对象为报纸上的字，同时车牌号和报纸上的字同属于文字范畴，等等。

步骤22，将所述待识别图像输入到第一模型中，得到识别结果，所述识别结果包括至少一个对象和每个对象的对象类型；

在对第一识别任务对应的待识别图像进行识别之前，由于第一识别任务对应的图像的样本通常较少，因此面对样本不足的问题，直接训练针对第一识别任务下的图像的识别模型，得到的模型的识别率较低，泛化性也较差，因此本发明实施例采取的方案是通过迁移学习的方法，来缓解多标签学习过程中样本不足的问题。

在本发明实施例中，针对第二识别任务的样本图像较多，而针对第一识别任务的样本图像较少，所以直接采用针对第一识别任务的样本图像来训练模型，得到的模型对待识别图像的识别结果较差。因此，本发明实施例获取第一识别任务对应的M个第一图像和第二识别任务对应的N个第二图像，并根据第一图像和第二图像中的对象得到对象集合，进而根据对象集合得到多张样本图像。最后，根据多张样本图像对第二识别任务对应的第二模型进行训练，得到的第一模型。其中，针对第一识别任务的第一图像的数量小于等于针对第二识别任务的第二图像的数量，即M小于等于N。

得到的第一模型既可对第一识别任务的待识别图像进行识别，也可对第二识别任务的待识别图像进行识别。由于第二识别任务对应的样本较多，因此第一模型多用于对第一识别任务的待识别图像进行识别，得到的识别结果包括识别出的对象以及每个对象的对象类型，其中，每个对象的对象类型即为每个对象的标签。

本发明实施例提供的图像处理方法，通过获取第一识别任务对应的待识别图像，将待识别图像输入到第一模型中，得到识别结果，来实现对待识别图像中的多个对象和对象的对象类型进行识别，其中第一模型是根据多张样本图像对第二识别任务对应的第二模型训练得到的，通过域适配技术将第二识别任务对应的场景迁移到第一识别任务对应的场景，每张样本图像中包括至少两个对象，样本图像是根据多个第一识别任务对应的第一图像和多个第二识别任务对应的第二图像中的对象进行处理得到的。本发明实施例提供的图像处理方法，针对第一识别任务对应的图像样本不足的问题，采用多张样本图像对第二识别任务对应的第二模型进行训练得到第一模型，其中第一图像和第二图像中均包括多个对象，每个对象有对应的标签，因此第一图像和第二图像中均对应多个标签，实现第二识别任务对应的域到第一识别任务对应的域的适配，得到了多张样本图像实现对模型的训练，缓解了多标签对象的样本不足问题，解决了通过域适配技术对多标签图像的识别问题，并提高了对第一识别任务对应的多标签的待识别图像的对象的识别能力。

下面结合图3，并采用具体的实施例，对图2实施例中第一模型的训练过程进行详细说明。图3为本发明实施例提供的图像处理系统的结构示意图，如图3所示，包括对象提取单元31、对象拆解单元32、域适配单元33以及训练单元34，对象提取单元31主要用于对第一图像和第二图像中的对象进行提取，得到每一张图像上的对象。对象拆解单元32主要用于对第一图像中的对象和第二图像中的对象进行分类和对应的特征表征的过程，得到对象结合，对象集合中包括多个对象。域适配单元33主要用于将对象集合中的多个对象进行组合，产生一系列样本图像，每个样本图像中包括至少两个对象。训练单元34主要用于根据样本图像对第二模型进行训练，得到第一模型，第一模型可以用于对第一识别任务对应的待识别图像进行识别。

图4为本发明实施例提供的图像处理系统的各模块执行示意图，如图4所示，包括：

步骤41，对象提取单元对第一图像和第二图像中的对象进行提取；

步骤42，对象拆解单元对提取出的多个对象进行拆解，得到多个对象和每个对象的属性信息；

步骤43，域适配单元对多个对象进行域适配，得到多个样本图像；

步骤44，训练单元将样本图像输入第二模型，得到输出结果；

步骤45，训练单元根据输出结果判断第二模型是否收敛，若是，则执行步骤46，若否，则执行步骤41；

步骤46，训练单元输出第一模型。

为了更清楚的对本发明实施例中第一模型的训练过程说明，下面将结合图5进行更详细的解释。

图5为本发明实施例提供的第一模型的训练过程的流程示意图，如图5所示，包括：

步骤51，获取M个所述第一图像和N个所述第二图像。

M个第一图像为第一识别任务对应的图像，N个第二图像为第二识别任务对应的图像，且第二识别任务对应的图像的数量不少于第一识别任务对应的图像的数量，即N大于等于M。每张第一图像上包括多个对象，每个对象都有对应的标签，因此每张第一图像上对应有多个标签。同样的，每张第二图像上也包括多个对象，每张第二图像上对应有多个标签。第一图像和第二图像对应的识别任务不同，即对应的场景不同。下面以一个例子来对图像中的对象和场景来进行举例说明。

图6为本发明实施例提供的图像场景示意图，如图6所示，左边为A图像61，右边为B图像62。在A图像61中，是一张在室内的图像，图像中有一个桌子，桌子上放置有一个苹果63。在B图像62中，是一张在室外的图像，图像中有太阳，还有一根绳子吊着一个苹果64。在A图像61和B图像62中，均包括苹果这一对象，而现在需要对图像中的苹果这一对象进行识别。

现有的样本大多是在室内的场景，与A图像61中的场景类似，即现有的图像大多是在室内的苹果的图像，而在室外的苹果的图像较少。在图6中，A图像61即为第二识别任务对应的第二图像，第二识别任务即为识别在室内场景下的苹果63，A图像61中的光线较暗，B图像62即为第一识别任务对应的第一图像，第一识别任务即为识别在室外场景下的苹果64，B图像62中的光线较强。

由于室内的苹果的图像样本足够，因此可以直接训练模型对A图像61识别，而室外的苹果的图像样本不足，直接训练模型对B图像62识别，效果较差。但是由于A图像61中的苹果63和B图像62中的苹果64是属于同一对象类型的，特征类似，因此可以采用域适应和迁移学习的方法，将第二识别任务对应的第二模型进行训练，来实现对B图像62中的苹果64的识别。

可以理解的是，上述图6仅仅是对图像的对象和场景的一种举例，并不构成对对象或场景的限制，例如，对象也可以是其他的类型，包括但不限于人、动物、植物、文字、建筑等等，一张图像上可以包括多个对象，场景也不仅仅是指光线的明暗，也包括背景的不同、场地的不同等等，例如，对象为文字，报纸上的文字和车牌上的文字的场景也不同，对应的识别任务分别为对报纸上的文字进行识别和对车牌上的文字进行识别，等等。

步骤52，对M个所述第一图像和N个所述第二图像中的对象进行提取，得到所述对象集合，所述对象集合中包括多个对象和每个对象的属性信息，所述属性信息包括识别任务标识和对象类型。

具体的，对于每一张所述第一图像，首先提取所述第一图像中的对象。该步骤指对第一图像的初步对象提取过程。对第一图像的初步对象的提取，可以通过预先训练好的模型来完成，模型的选取可以根据实际需要，例如卷积神经网络模型(Convolutional NeuralNetworks，以下简称CNN)、长短期记忆网络模型(Long Short-Term Memory，以下简称LSTM)等。例如，通过CNN对图像特征进行提取，得到高层级的图像特征对应的对象，此处高层级的图像特征与低层级的图像特征相对，是一种更易被机器模型识别的特征，而低层级图像特征，例如视觉表征层次的特征则相对不易被机器模型识别；也或者通过CNN/LSTM对图像数据进行对象抽取，得到高层的语义特征对应的对象等。这一步骤是由图像处理系统中的对象提取单元31来完成的。

提取到第一图像中的对象后，会对第一图像中的对象进行分类，得到对应的第一对象和第一对象的对象类型，第一对象的识别任务标识为第一识别任务。

具体的，在分类任务中，该步骤主要是通过随着算法的训练的进行，逐步获取分类对象对应的特征表征的过程，称之为对象特征拆解。具体来说，在机器学习模型中，当某个类别被分类正确时，其对应的特征空间的某些支撑特征(关键特征)会被给予较高的关注度(权值或响应值)，这里以响应值的高低或者权值大小来衡量被关注目标区域的显著性。

举例来说，当进行类别C_1的预测时，记作经过的某层CNN后的图像feature map的响应值A，而被关注的权值(可以是梯度值或注意力权值)记作W，那么该对象的特征表征为R(C_1)＝AW。那么在这种情况下，可以对图像中的多个标签对象进行特征表征，达到每个对象在图像的高层级特征空间中被表示出来，称之为对象特征拆解。可以理解的是，关注度的学习可以在不同的算法中有不同的阐述，例如，在序列学习中则可能是对应的注意力权值，而在单纯分类任务中则可能是对应的类激活响应(class activation response)值。该步骤是由图像处理系统中的对象拆解单元32完成的。

由于第一图像上包括多个对象，在将多个对象提取后，会对其进行分类，在分类完成后，每个对象会有对应的对象类型。由于第一图像是第一识别任务对应的图像，因此从第一图像中提取的第一对象的识别任务标识为第一识别任务。第一对象的对象类型和识别任务标识共同构成了第一对象的属性信息。

为了更形象的对图像中的对象进行提取和分类的过程进行展示，下面将结合图7来说明。图7为本发明实施例提供的对第一图像中的对象提取分类示意图，如图7所示，包括第一图像71，第一图像71的场景在室外，在第一图像71上有多个物体，包括人711、小车712、小狗713和足球714，每个物体对应一个对象。首先对第一图像71中的对象进行提取，得到提取后的第一图像72，提取后的第一图像72中包括A对象721、B对象722、C对象723和D对象724，A对象721对应人711，B对象722对应小车712，C对象723对应小狗713，D对象724对应足球714。得到提取后的第一图像72后，会对各个对象进行分类，如图7所示，提取后的第一图像72中的对象被分为四类，第一类为人，包括A对象721，第二类为车，包括B对象722，第三类为狗，包括C对象723，第四类为足球，包括D对象724。分类完成后，就得到了各个对象和各个对象的属性信息，包括各个对象的对象类型和对应的识别任务标识。

对于每一张所述第二图像，提取所述第二图像中的对象，并对所述第二图像中的对象进行分类，得到对应的第二对象和第二对象的对象类型，所述第二对象的识别任务标识为第二识别任务。

对每一张第二图像，也需要现提取第二图像中的对象，并对第二图像中的对象进行分类，提取对象和对象分类的过程与对第一图像中进行对象提取和分类的过程类似，此处不再赘述。对对象进行提取和分类后，得到了第二图像对应的第二对象，以及第二对象的属性信息，包括第二对象的对象类型和第二对象的识别任务标识，且第二对象的识别任务标识为第二识别任务。

图8为本发明实施例提供的对第二图像中的对象提取分类示意图，如图8所示，包括第二图像81，第二图像81的场景在室内，在第二图像81上有多个物体，包括人811、相框812、小狗813和足球814，每个物体对应一个对象。首先对第二图像81中的对象进行提取，得到提取后的第二图像82，提取后的第二图像82中包括E对象821、F对象822、G对象823和H对象824，E对象821对应人811，F对象822对应相框812，G对象823对应小狗813，H对象824对应足球814。

得到提取后的第二图像82后，会对各个对象进行分类，如图8所示，提取后的第二图像82中的对象被分为四类，第一类为人，包括E对象821，第二类为相框，包括F对象822，第三类为狗，包括G对象823，第四类为足球，包括H对象824。分类完成后，就得到了各个对象和各个对象的属性信息，包括各个对象的对象类型和对应的识别任务标识。

得到第一对象和第二对象后，根据第一对象、第一对象的对象类型和识别任务标识、第二对象以及第二对象的对象类型和识别任务标识，得到对象集合

图9为本发明实施例提供的获取对象集合的示意图，如图9所示，经过图7和图8中所示的对对象的提取和分类后，得到各个对象以及每个对象的属性信息，然后将各个对象形成一个集合，即对象集合91，对象集合里面包括第一图像和第二图像中的每个对象以及每个对象的属性信息。例如，A对象721和E对象821均为人，A对象721和E对象821的对象类型相同，但是A对象721的识别任务标识为第一识别任务，E对象821的识别任务标识为第二识别任务，因此A对象721和E对象821是不同的对象。

步骤53，根据所述对象集合中包括多个对象和每个对象的属性信息，对所述对象集合中的对象进行组合处理，得到多张所述样本图像。

具体的，对对象集合中的各个对象进行组合，得到一系列样本图像，每个样本图像中至少包括两个对象，以每个样本图像中包括两个对象为例进行说明，可以根据对象的属性信息来得到不同类别的样本图像。

例如，样本图像可分为六个类别，图10为本发明实施例提供的对象组合处理示意图，如图10所示，根据对象的对象类型和识别任务标识，将对象集合中的对象组合，分为如下六类样本图像：

G1：样本图像中的对象的识别任务标识均为第二识别任务，对象的对象类型相同；

G2：样本图像中的对象的识别任务标识不同(一个对象的识别任务标识为第一识别任务，一个对象的识别任务标识为第二识别任务)，对象的对象类型相同；

G3：样本图像中的对象的识别任务标识均为第二识别任务，对象的对象类型不同；

G4：样本图像中的对象的识别任务标识不同(一个对象的识别任务标识为第一识别任务，一个对象的识别任务标识为第二识别任务)，对象的对象类型不同；

G5：样本图像中的对象的识别任务标识均为第一识别任务，对象的对象类型相同；

G6：样本图像中的对象的识别任务标识均为第一识别任务，对象的对象类型不同。

如图10所示，在图10的左边的第一列为第二识别任务下的各个对象，第二列为第一识别任务下的各个对象，根据第一列和第二列的各个对象组合得到的G2类样本图像和G4类样本图像如图10右边的第一列和第二列所示。

在图10的左边的第三列和第四列为同一识别任务下的各个对象，同为第一识别任务或同为第二识别任务，当第三列和第四列同为第一识别任务下的各个对象时，得到的是G5类样本图像和G6类样本图像，当第三列和第四列同为第二识别任务下的各个对象时，得到的是G1类样本图像和G2类样本图像，如图10右边的第三列和第四列所示。

进一步的，对对象集合中的对象进行组合处理，得到样本图像不止上述一种方式，例如还可以分为如下四类样本图像：

G1：样本图像中的对象的识别任务标识相同，对象的对象类型相同；

G2：样本图像中的对象的识别任务标识相同，对象的对象类型不同；

G3：样本图像中的对象的识别任务标识不同，对象的对象类型相同；

G4：样本图像中的对象的识别任务标识不同，对象的对象类型不同。

具体的分类方式可以根据实际需要确定。

步骤54，对多张所述样本图像进行分类，得到第一样本图像和第二样本图像，所述第一样本图像中的至少两个对象为所述第一图像中的对象或者所述第二图像中的对象，所述第二样本图像包括所述第一图像中的对象和所述第二图像中的对象。

具体的，根据所述样本图像中的对象的识别任务标识和对象类型，对多张所述样本图像进行分类，得到第一子样本图像、第二子样本图像、第三子样本图像和第四子样本图像，其中，所述第一子样本图像中的对象的识别任务标识相同，对象类型不同；所述第二子样本图像中的对象的识别任务标识相同，对象类型相同；所述第三子样本图像中的对象的识别任务标识不同，对象类型不同；所述第四子样本图像中的对象的识别任务标识不同，对象类型相同；

根据所述第一子样本图像和所述第二子样本图像得到所述第一样本图像，根据所述第三子样本图像和所述第四子样本图像得到所述第二样本图像。

图11为本发明实施例提供的图像处理方法的数据流执行示意图，如图11所示，包括Part1、Part2和Part3三个部分。在Part1部分，分别包括第一图像和第二图像，第一图像中包括两个对象，分别是对象圆形和对象菱形，第二图像中包括两个对象，分别是对象矩形和对象菱形。

在Part2部分，基于分类响应的目标显著区域提取，将第一图像和第二图像中的对象提取出来，对对象进行组合，得到多张样本图像。对多张样本图像进行分类，将包含识别任务标识相同但对象类型不同的对象作为第一子样本图像，将包含识别任务标识相同且对象类型相同的对象作为第二子样本图像，将包含识别任务标识不同且对象类型不同的对象作为第三子样本图像，将包含识别任务标识不同但对象类型相同的对象作为第四子样本图像。

在Part3部分，包括L1分支和L2分支，其中，L1分支中为第一样本图像，第一样本图像中包括的至少两个对象的识别任务标识相同，同为第一识别任务或同为第二识别任务，第一样本图像包括第一子样本图像和第二子样本图像，L2分支中为第二样本图像，第二样本图像中包括的至少两个对象的识别任务标识不同，包括第一识别任务和第二识别任务，第二样本图像包括第三子样本图像和第四子样本图像。

步骤55，将所述第一样本图像和所述第二样本图像输入所述第二模型中进行训练，得到所述第一模型。

具体的，执行第一操作，所述第一操作包括：将所述第一样本图像输入至所述第二模型中，得到第一识别结果，根据所述第一识别结果和所述第一样本图像中对象的对象类型，得到第一损失函数L1，其中，所述第一识别结果为所述第二模型对所述第一样本图像中的各个对象的对象类型进行识别得到的识别结果。

执行第二操作，所述第二操作包括：基于所述第一识别结果，将所述第一样本图像和所述第二样本图像输入至所述第二模型中，得到第二识别结果，并根据第二识别结果和所述各个对象的对象类型，得到第二损失函数L2，其中，所述第二识别结果为所述第二模型对各个对象的对象类型进行识别得到的识别结果。

具体的，基于所述第一识别结果，对所述第一样本图像和所述第二样本图像进行判别，得到判别结果，并根据所述判别结果和样本图像的类别，得到判别损失函数，其中，所述判别结果为对样本图像分类得到的结果，所述判别结果中包括目标样本图像，所述目标样本图像是由所述对象集合中识别任务标识不同但对象类型相同的对象得到的样本图像。

在判别阶段，对第一样本图像和第二样本图像进行分类，得到判别结果，然后根据判别结果和第一样本图像和第二样本图像的实际类别，得到判别损失函数L_D，其中：

L_D为判别损失函数，g_i为样本图像类别，为G1-G6中的任一个，D表示对象提取操作，S表示图像中的对象，φ表示映射，可以为softmax函数，y为对象的对象类型，也即对象的标签。判别阶段的目的是正确区分G1-G6这六组样本图像，掌握不同对象类型的样本图像之间的差异。

对所述目标样本图像进行训练，得到生成结果，并根据所述生成结果和所述目标样本图像中对象的对象类型，得到生成损失函数，其中，所述生成结果为对目标样本图像中的对象进行分类得到的结果。

在生成阶段，固定模型参数，通过反向传播训练L1分支，使得L1分支能够逐渐从源场景迁移到目标场景。得到的生成损失函数为：

其中，L_G为生成损失函数，g_i为样本图像类别，为G1-G6中的任一个，D表示对象提取操作，S表示图像中的对象，φ表示映射，可以为softmax函数，y为对象的对象类型，也即对象的标签。在公式(2)中，每一项

中，g_m的样本图像中的识别任务标识和g_n的样本图像中的识别任务标识不同，即g_m对应的场景和g_n对应的场景不同，例如G1和G2，G3和G4等等。生成阶段的目的为了使得第二模型难以区分不同场景(不同识别任务标识)中的对象，上述对抗训练策略，能够让在第二识别任务对应的第二模型逐渐从第二识别任务迁移到第一识别任务上。

得到判别损失函数和生成损失函数后，将两者相加，即可得到第二损失函数：

L2＝L_D+L_G，

其中，L2为第二损失函数，L_D为判别损失函数，L_G为生成损失函数。

执行第三操作，所述第三操作包括：根据所述第一损失函数和第二损失函数得到总的损失函数，并根据所述总的损失函数调整所述第二模型的参数。

总的损失函数为：

L＝λL1+L2，

其中，L为总的损失函数，L1为第一损失函数，L2为第二损失函数，λ为权重系数，用于调整第一损失函数和第二损失函数在总的损失函数中所占的权重，其具体取值可以根据实际需要确定，此处不作特别限定。

重复执行第一操作、第二操作和第三操作，其中第一操作和第二操作之间交替进行执行，交替执行可以等间隔，也可以不等间隔，根据每次的总的损失函数来对第二模型的参数进行调整，直至总的损失函数小于或等于预设值时，根据最近一次参数调整后的第二模型得到第一模型，表示场景迁移完成。

图12为本发明实施例提供的图像处理装置的结构示意图，如图12所示，包括获取模块121和识别模块122，其中：

获取模块121用于获取第一识别任务对应的待识别图像，所述待识别图像包括至少一种对象类型的对象；

识别模块122用于将所述待识别图像输入到第一模型中，得到识别结果，所述识别结果包括至少一个对象和每个对象的对象类型；

在一种可能的实现方式中，所述训练模块具体用于：

获取M个所述第一图像和N个所述第二图像；

在一种可能的实现方式中，所述训练模块具体用于：

本发明实施例提供的装置，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图13为本发明实施例提供的图像处理设备的硬件结构示意图，如图13所示，该图像处理设备包括：至少一个处理器131和存储器132。其中，处理器131和存储器132通过总线133连接。

可选地，该模型确定还包括通信部件。例如，通信部件可以包括接收器和/或发送器。

在具体实现过程中，至少一个处理器131执行所述存储器132存储的计算机执行指令，使得至少一个处理器131执行如上的图像处理方法。

处理器131的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述图13所示的实施例中，应理解，处理器可以是中央处理单元(英文：CentralProcessing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：DigitalSignal Processor，简称：DSP)、专用集成电路(英文：Application Specific IntegratedCircuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上所述的图像处理方法。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种图像处理方法，其特征在于，包括：

其中，所述第一模型是根据多张样本图像对第二识别任务对应的第二模型训练得到的，每张样本图像中包括至少两个对象，所述至少两个对象为对象集合中的对象，所述对象集合包括所述第一识别任务对应的M个第一图像中的对象和所述第二识别任务对应的N个第二图像中的对象，所述M小于等于所述N；

所述第一模型通过以下步骤获取：

将所述第一样本图像和所述第二样本图像输入所述第二模型中进行训练，得到所述第一模型；

其中，所述多张样本图像是根据所述对象集合中包括多个对象和每个对象的属性信息，对所述对象集合中的对象进行组合处理得到的，所述对象集合是通过对M个所述第一图像和N个所述第二图像中的对象进行提取得到的，所述对象集合中包括多个对象和每个对象的属性信息，所述属性信息包括识别任务标识和对象类型。

2.根据权利要求1所述的方法，其特征在于，在所述对多张所述样本图像进行分类，得到第一样本图像和第二样本图像之前，所述方法还包括：

获取M个所述第一图像和N个所述第二图像；

对M个所述第一图像和N个所述第二图像中的对象进行提取，得到所述对象集合；

3.根据权利要求2所述的方法，其特征在于，所述对M个所述第一图像和N个所述第二图像中的对象进行提取，得到所述对象集合，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述第一样本图像和所述第二样本图像输入所述第二模型中进行训练，得到所述第一模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述对多张所述样本图像进行分类，得到第一样本图像和第二样本图像，包括：

6.根据权利要求4或5所述的方法，其特征在于，所述基于所述第一识别结果，将所述第一样本图像和所述第二样本图像输入至所述第二模型中，得到第二识别结果，并根据第二识别结果和所述各个对象的对象类型，得到第二损失函数，包括：

7.一种图像处理装置，其特征在于，包括：

还包括训练模块，所述训练模块具体用于：

8.一种图像处理设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至6任一项所述的图像处理方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至6任一项所述的图像处理方法。