CN113627402A

CN113627402A - 一种图像识别方法及相关装置

Info

Publication number: CN113627402A
Application number: CN202111184580.0A
Authority: CN
Inventors: 袁宇辰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-10-12
Filing date: 2021-10-12
Publication date: 2021-11-09
Anticipated expiration: 2041-10-12
Also published as: CN113627402B

Abstract

本申请实施例公开了一种人工智能领域的图像识别方法及相关装置，其中该方法包括：获取目标图像对应的目标参考图像；对目标参考图像进行分割处理，得到目标垂类下目标类别对应的图像掩膜；目标类别是目标垂类对应的感兴趣类别，目标类别对应的图像掩膜包括目标参考图像中各个像素点属于目标类别的概率；根据目标参考图像和目标类别对应的图像掩膜，确定目标参考图像对应的图像输入特征；根据目标参考图像对应的图像输入特征，确定目标垂类下目标图像对应的标签。该方法能够提高图像标签的识别准确度，本申请实施例可应用于云技术、人工智能、智慧交通等各种场景，具体可以应用于这些场景中基于视频标签实现的应用。

Description

一种图像识别方法及相关装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种图像识别方法及相关装置。

背景技术

在图像推荐、图像检索、基于图像的广告投放等与图像相关的领域中，图像标签识别是一项极为重要的基础功能，其在很大程度上决定了这些领域中相关功能的实现效果。例如，在图像推荐领域中，准确地识别图像对应的标签有助于准确归纳用户感兴趣的图像类别，进而便于向用户准确地推荐其感兴趣的图像；又例如，在图像检索领域中，能否准确地识别图像对应的标签，将决定图像检索结果的准确性；等等。

相关技术中，识别图像对应的标签时，通常直接利用图像标签识别模型对图像本身进行处理，并获取该图像标签识别模型输出的该图像对应的标签。

经本申请发明人研究发现，上述图像标签识别方法在一些垂类下取得的识别效果并不理想，其难以充分利用图像中对于识别这些垂类下的标签具有较高参考价值的内容。例如，在场景、风格等垂类下识别图像对应的标签时，由于图像标签识别模型通常倾向于关注在图像中处于显著位置的人物或动物，而忽略图像中对于识别场景标签、风格标签等具有较高参考价值的背景区域，因此，容易导致识别得到的该种垂类下的图像标签并不准确。

发明内容

本申请实施例提供了一种图像识别方法及相关装置，能够提高图像标签的识别准确度。

有鉴于此，本申请第一方面提供了一种图像识别方法，所述方法包括：

获取目标图像对应的目标参考图像；

对所述目标参考图像进行分割处理，得到目标垂类下目标类别对应的图像掩膜；所述目标类别是所述目标垂类对应的感兴趣类别，所述目标类别对应的图像掩膜包括所述目标参考图像中各个像素点属于所述目标类别的概率；

根据所述目标参考图像和所述目标类别对应的图像掩膜，确定所述目标参考图像对应的图像输入特征；

根据所述目标参考图像对应的图像输入特征，确定所述目标垂类下所述目标图像对应的标签。

本申请第二方面提供了一种图像识别装置，所述装置包括：

图像获取模块，用于获取目标图像对应的目标参考图像；

图像分割模块，用于对所述目标参考图像进行分割处理，得到目标垂类下目标类别对应的图像掩膜；所述目标类别是所述目标垂类对应的感兴趣类别，所述目标类别对应的图像掩膜包括所述目标参考图像中各个像素点属于所述目标类别的概率；

特征融合模块，用于根据所述目标参考图像和所述目标类别对应的图像掩膜，确定所述目标参考图像对应的图像输入特征；

图像识别模块，用于根据所述目标参考图像对应的图像输入特征，确定所述目标垂类下所述目标图像对应的标签。

本申请第三方面提供了一种电子设备，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序，执行上述第一方面所述的图像识别方法的步骤。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述第一方面所述的图像识别方法的步骤。

本申请第五方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面所述的图像识别方法的步骤。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例提供了一种图像识别方法，该方法在识别目标图像在目标垂类下对应的标签之前，先对该目标图像对应的目标参考图像进行分割处理，得到目标垂类下目标类别对应的图像掩膜，此处的目标类别是目标垂类对应的感兴趣类别，该目标类别对应的图像掩膜包括该目标参考图像中各个像素点属于目标类别的概率；进而，根据该目标参考图像和该目标类别对应的图像掩膜，确定该目标参考图像对应的图像输入特征；并基于该目标参考图像对应的图像输入特征识别目标垂类下该目标图像对应的标签。本申请实施例提供的方法通过对目标参考图像进行分割处理，确定该目标参考图像中各个像素点属于目标垂类对应的感兴趣类别的概率，进而，在识别目标图像在目标垂类下对应的标签时，综合考虑该目标参考图像本身和该目标参考图像中各个像素点属于感兴趣类别的概率，利用目标参考图像中各个像素点属于感兴趣类别的概率，相应地强化目标参考图像中对于识别目标垂类下的标签具有较高参考价值的区域，同时弱化目标参考图像中对于识别目标垂类下的标签具有较低参考价值的区域，实现在图像标签识别过程中有针对性地参考图像中各部分区域的特征，从而提高特定垂类下图像标签识别的准确性。

附图说明

图1为本申请实施例提供的图像识别方法的应用场景示意图；

图2为本申请实施例提供的图像识别方法的流程示意图；

图3为本申请实施例提供的示例性的图像分割结果的示意图；

图4为本申请实施例提供的一种图像处理模型训练方法的流程示意图；

图5为本申请实施例提供的另一种图像处理模型训练方法的流程示意图；

图6为本申请实施例提供的图像识别方法的实现架构示意图；

图7为本申请实施例提供的第一种图像识别装置的结构示意图；

图8为本申请实施例提供的第二种图像识别装置的结构示意图；

图9为本申请实施例提供的第三种图像识别装置的结构示意图；

图10为本申请实施例提供的第四种图像识别装置的结构示意图；

图11为本申请实施例提供的第五种图像识别装置的结构示意图；

图12为本申请实施例提供的第六种图像识别装置的结构示意图；

图13为本申请实施例提供的第七种图像识别装置的结构示意图；

图14为本申请实施例提供的终端设备的结构示意图；

图15为本申请实施例提供的服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

计算机视觉技术（Computer Vision，CV）是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例提供的方案涉及人工智能的计算机视觉技术，具体通过如下实施例进行说明：

为了解决相关技术中因没有充分利用图像中对于识别特定垂类下的标签具有较高参考价值的区域，而导致所识别的该种垂类下的图像标签不准确的问题，本申请实施例提供了一种图像识别方法。

在该图像识别方法中，先获取目标图像对应的目标参考图像。然后，对该目标参考图像进行分割处理，得到目标垂类下目标类别对应的图像掩膜；此处的目标类别是目标垂类对应的感兴趣类别，目标类别对应的图像掩膜中包括目标参考图像中各个像素点属于该目标类别的概率。进而，根据该目标参考图像和该目标类别对应的图像掩膜，确定该目标参考图像对应的图像输入特征。最终，根据该目标参考图像对应的图像输入特征，确定目标垂类下目标图像对应的标签。

上述图像识别方法通过对目标参考图像进行分割处理，确定该目标参考图像中各个像素点属于目标垂类对应的感兴趣类别的概率，进而，在识别目标图像在目标垂类下对应的标签时，综合考虑该目标参考图像本身和该目标参考图像中各个像素点属于感兴趣类别的概率，利用目标参考图像中各个像素点属于感兴趣类别的概率，相应地强化目标参考图像中对于识别目标垂类下的标签具有较高参考价值的区域，同时弱化目标参考图像中对于识别目标垂类下的标签具有较低参考价值的区域，实现在图像标签识别过程中有针对性地参考图像中各部分区域的特征，从而提高特定垂类下图像标签识别的准确性。

应理解，本申请实施例提供的图像识别方法可以应用于任意具备图像处理能力的电子设备，如终端设备或服务器。其中，终端设备具体可以为智能手机、平板电脑、计算机、个人数字助理（Personal Digital Assistant，PDA）、智能语音交互设备、智能家电、车载终端等等。服务器具体可以为应用服务器或Web服务器，实际部署时，可以为独立的物理服务器，也可以为集群服务器或云服务器。

为了便于理解本申请实施例提供的图像识别方法，下面以该图像识别方法的执行主体为服务器为例，对该图像识别方法适用的应用场景进行示例性介绍。

参见图1，图1为本申请实施例提供的图像识别方法的应用场景示意图。如图1所示，该应用场景中包括终端设备110和服务器120，终端设备110与服务器120之间可以通过网络通信。其中，终端设备110具备图像拍摄能力，其可以将所拍摄的图像发送给服务器120；服务器120用于执行本申请实施例提供的图像识别方法，针对所接收的图像识别其在目标垂类下对应的标签。

在实际应用中，用户可以使用终端设备110拍摄目标图像，并通过终端设备110中运行的目标应用程序提供的图像上传接口，将所拍摄的目标图像通过网络发送给服务器120。例如，假设终端设备110中运行有具备视频分享功能的目标应用程序，用户使用该目标应用程序提供的视频录制功能时，将利用终端设备110录制目标视频（即目标图像），在确认完成目标视频的录制并且需要将该目标视频上传至视频分享平台时，终端设备110将相应地通过该目标应用程序提供的视频上传接口，将该目标视频发送给服务器120。

服务器120接收到终端设备110发送的目标图像后，可以先获取该目标图像对应的目标参考图像。示例性的，当终端设备110发送的目标图像为目标视频时，服务器120可以从该目标视频中抽取若干个目标视频帧作为目标参考图像；当终端设备110发送的目标图像为目标图片时，服务器120可以直接确定该目标图片本身为目标参考图像。

然后，服务器120可以对目标参考图像进行分割处理，得到目标垂类下目标类别对应的图像掩膜；此处的目标类别是目标垂类对应的感兴趣类别，目标类别对应的图像掩膜中包括目标参考图像中各个像素点属于目标类别的概率。在本申请实施例中，目标垂类可以对应多种类别，如场景垂类对应的类别可以包括前景和背景；服务器120对目标参考图像进行分割处理时，可以利用图像分割模型对该目标参考图像进行分割处理，得到多种类别各自对应的图像掩膜，每种类别对应的图像掩膜中包括目标参考图像中各个像素点属于该种类别的概率，对于目标参考图像中的每个像素点，该像素点在多种类别各自对应的图像掩膜中的概率值之和为1；服务器120针对目标图像识别其在目标垂类下对应的标签时，仅需利用目标垂类对应的感兴趣类别的图像掩膜，例如，假设场景垂类对应的感兴趣类别为背景，则服务器120识别目标图像在目标垂类下对应的标签时，仅需利用目标参考图像中各像素点属于背景的概率。

进而，服务器120可以根据目标参考图像和该目标类别对应的图像掩膜，确定该目标参考图像对应的图像输入特征。即，利用目标参考图像中各个像素点属于目标垂类对应的感兴趣类别的概率，强化目标参考图像中对于识别目标垂类下的标签具有较高参考价值的区域的特征表示，并弱化目标参考图像中对于识别目标垂类下的标签具有较低参考价值的区域的特征表示。

最终，服务器120可以根据目标参考图像对应的图像输入特征，确定目标图像在目标垂类下对应的标签。示例性的，当目标图像为目标视频，目标参考图像为目标视频中的目标视频帧时，服务器120可以针对每个目标视频帧，利用图像处理模型对该目标视频帧对应的图像输入特征进行特征提取处理，进而基于从各个目标视频帧对应的图像输入特征中提取出的特征，确定目标视频在目标垂类下对应的标签；当目标图像和目标参考图像均为目标图片时，服务器120可以先利用图片处理模型对目标图片对应的图像输入特征进行特征提取处理，进而基于从目标图片对应的图片输入特征中提取出的特征，确定目标图片在目标垂类下对应的标签。

应理解，图1所示的应用场景仅为示例，在实际应用中，本申请实施例提供的图像识别方法还可以应用于其它场景；例如，服务器120可以从用于存储图像的数据库中调取目标图像，并识别该目标图像在目标垂类下对应的标签；又例如，可以由终端设备110独立完成对于目标图像在目标垂类下对应的标签的识别；本申请实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通等，在此不对本申请实施例提供的图像识别方法适用的应用场景做任何限定。

下面通过方法实施例对本申请提供的图像识别方法进行详细介绍。

参见图2，图2为本申请实施例提供的图像识别方法的流程示意图。为了便于描述，下述实施例以该图像识别方法的执行主体为服务器为例进行介绍。如图2所示，该图像识别方法包括以下步骤：

步骤201：获取目标图像对应的目标参考图像。

在实际应用中，为了实现图像推荐、图像检索等功能，服务器通常需要针对图像识别其在不同垂类下对应的标签，以实现针对该图像的全方面、多维度定位。例如，针对包括动物及其所处的场景的图像，服务器可以针对该图像识别其在动物垂类下对应的标签、以及其在场景垂类下对应的标签，以通过该图像在动物垂类下对应的标签反映该图像中包括的动物品种（如猫、狗等等），通过该图像在场景垂类下对应的标签反映该图像中包括的场景类型（如室内、公园、森林、海边等等）。

在一种可能的实现方式中，服务器可以接收终端设备上传的图像作为目标图像。例如，终端设备上可以运行有支持图像分享功能的应用程序（如短视频应用程序、社交应用程序等等），用户可以使用该应用程序提供的图像拍摄功能拍摄图像，终端设备检测到用户确认完成图像拍摄，并且需要将该图像上传至图像分享平台后，可以通过网络将用户拍摄的图像发送给服务器，相应地，服务器可以将其接收的该终端设备发送的图像作为目标图像。

在另一种可能的实现方式中，服务器可以从用于存储图像的数据库中，调取需要识别其对应的标签的图像作为目标图像。例如，用于存储图像的数据库中存储有大量尚未配置标签的图像，服务器可以从中随机调取任一图像作为目标图像，识别该目标图像在目标垂类下对应的标签。

应理解，上述获取目标图像的方式仅为示例，在实际应用中，服务器也可以采用其它方式获取目标图像，本申请在此不对目标图像的获取方式做任何限定。

需要说明的是，在本申请实施例中，目标图像可以是目标视频，此时该目标图像对应的目标参考图像可以是从该目标视频中抽取的目标视频帧；示例性的，服务器可以从目标视频中随机抽取预设数量的视频帧作为目标视频帧，或者服务器也可以从目标视频中等间隔地抽取预设数量的视频帧作为目标视频帧。或者，目标图像也可以是目标图片，此时该目标图像对应的目标参考图像也是该目标图片，即目标图像与目标参考图像相同，均是目标图片本身。

步骤202：对所述目标参考图像进行分割处理，得到目标垂类下目标类别对应的图像掩膜；所述目标类别是所述目标垂类对应的感兴趣类别，所述目标类别对应的图像掩膜包括所述目标参考图像中各个像素点属于所述目标类别的概率。

服务器获取到目标参考图像后，可以通过图像分割模型，对该目标参考图像进行分割处理，得到目标垂类下各种类别各自对应的图像掩膜，进而，服务器可以从中提取目标类别对应的图像掩膜。

需要说明的是，目标垂类可以是图像识别领域中任意一种垂类，如动物垂类、人物垂类、场景垂类、风格垂类等等，本申请在此不对该目标垂类做任何限定。目标垂类下可以包括多种类别，目标垂类下包括的类别可以根据实际需求设定，例如，场景垂类下可以包括前景和背景两种类别，又例如，场景垂类下也可以包括草地、森林、道路、人物、动物、车辆这六种类别，本申请在此不对目标垂类下包括的类别做具体限定。

目标垂类下的目标类别即是目标垂类对应的感兴趣类别，目标类别通常是预先设定的，图像中属于该目标类别的像素点对于识别该图像在目标垂类下对应的标签具有较高的参考价值，反之，图像中不属于该目标类别的像素点对于识别该图像在目标垂类下的标签具有较低的参考价值。例如，在场景垂类包括前景和背景这两种类别的情况下，背景为场景垂类对应的感兴趣类别；又例如，在场景垂类包括草地、森林、道路、人物、动物、车辆这六种类别的情况下，草地、森林和道路这三种类别均为场景垂类对应的感兴趣类别。本申请在此不对目标垂类下的目标类别做具体限定，也不对目标垂类下目标类别的数量做具体限定。

需要说明的是，图像分割模型的具体模型结构也可以根据实际需求设定，在本申请实施例中，该图像分割模型包括但不限于全卷积神经网络（Fully ConvolutionalNetwork，FCN）模型、语义分割网络（DeepLabV3）模型、GloRe（Global Reasoning Unit）模型，本申请在此不对该图像分割模型的模型结构做任何限定。

具体实现时，服务器可以将目标参考图像输入图像分割模型，例如，将尺寸为W×H×3（其中，W为目标参考图像的宽，H为目标参考图像的高，3表示RGB（Red、Green、Blue）三通道的值）的目标参考图像输入图像分割模型，该图像分割模型对目标参考图像进行相应地处理后，将输出尺寸为W×H×C（其中，C表示目标垂类下的类别数目，例如，假设目标垂类下包括前景和背景两种类别，则C等于2）的图像分割结果，该图像分割结果即是C个与所输入的目标参考图像尺寸相同的图像掩膜（mask）。每个图像掩膜对应一个类别，图像掩膜中每个像素点的取值均在0到1之间，其用于表征该像素点属于该图像掩膜对应的类别的概率；例如，在目标垂类包括前景和背景两种类别的情况下，图像分割模型输出的图像分割结果为W×H×2，该图像分割结果中包括对应于前景的图像掩膜（W×H）₁和对应于背景的图像掩膜（W×H）₂，图像掩膜（W×H）₁中包括目标参考图像中各像素点属于前景的概率，图像掩膜（W×H）₂中包括目标参考图像中各像素点属于背景的概率；图3所示即为该种情况下的图像分割结果，其中区域301为前景区域，区域302为背景区域；各个图像掩膜中同一像素点对应的概率值之和为1，表示该像素点所属于所有类别的概率之和为100%。在本申请实施例中，仅保留目标垂类对应的感兴趣类别（即目标类别）对应的图像掩膜，例如，假设目标垂类对应的感兴趣类别为背景，则仅保留图像掩膜（W×H）₂用作后续处理即可。

需要说明的是，在一些情况下，目标垂类对应的感兴趣类别可能包括多种，即目标类别可能包括多种，此时，服务器可以对多种目标类别各自对应的图像掩膜进行合并处理，得到合并图像掩膜。示例性的，假设目标垂类下包括草地、森林、道路、人物、动物、车辆这六种类别，目标垂类对应的感兴趣类别包括草地、森林和道路，此时，服务器可以对草地、森林和道路各自对应的图像掩膜进行合并处理，即将针对目标参考图像中的每个像素点，将这三种类别各自对应的图像掩膜中该像素点属于对应类别的概率值相加，最终得到尺寸为W×H的合并图像掩膜。

步骤203：根据所述目标参考图像和所述目标类别对应的图像掩膜，确定所述目标参考图像对应的图像输入特征。

服务器获取到目标类别对应的图像掩膜后，可以根据目标参考图像本身、以及对该目标参考图像进行图像分割处理得到的目标类别对应的图像掩膜，确定该目标参考图像对应的图像输入特征，该图像输入特征将用于辅助识别目标图像在目标垂类下对应的标签。

应理解，在目标垂类对应的感兴趣类别包括多种的情况下，即目标类别包括多种的情况下，服务器对这多种目标类别各自对应的图像掩膜进行合并处理后，会得到合并图像掩膜；相应地，服务器确定目标参考图像对应的图像输入特征时，可以根据目标参考图像本身和该合并图像掩膜，确定该目标参考图像对应的图像输入特征。

在一种可能的实现方式中，服务器可以采用加权处理的方式，根据目标参考图像和目标类别对应的图像掩膜，确定该目标参考图像对应的图像输入特征。即，服务器可以针对目标参考图像中的每个像素点，根据图像掩膜中该像素点属于目标类别的概率，分别对该像素点的红色通道值、绿色通道值和蓝色通道值进行加权处理，得到该像素点对应的参考红色通道值、参考绿色通道值和参考蓝色通道值；进而，服务器可以根据目标参考图像中各个像素点各自对应的参考红色通道值、参考绿色通道值和参考蓝色通道值，确定该目标参考图像对应的图像输入特征。

具体的，服务器可以利用图像掩膜中每个像素点属于目标类别的概率，相应地对目标参考图像中每个像素点的RGB通道值进行调整，从而强化目标参考图像中对于识别目标垂类下的标签具有较高参考价值的区域，并且弱化目标参考图像中对于识别目标垂类下的标签具有较低参考价值的区域。例如，假设目标垂类为场景垂类，该场景垂类下的目标类别为背景，相应地该目标类别对应的图像掩膜中属于背景的像素点对应的概率值较大，而不属于背景的像素点对应的概率值较小；根据该图像掩膜中像素点属于背景的概率，对目标参考图像中各像素点的RGB通道值进行加权处理，将强化目标参考图像中背景区域的信息，弱化目标参考图像中非背景区域的信息。

作为一种示例，服务器确定像素点对应的参考红色通道值、参考绿色通道值和参考蓝色通道值时，可以直接利用图像掩膜中像素点属于目标类别的概率，分别对像素点的红色通道值、绿色通道值和蓝色通道值进行点乘处理，从而得到该像素点对应的参考红色通道值、参考绿色通道值和参考蓝色通道值。

具体的，服务器可以利用目标类别对应的图像掩膜（W×H）分别与目标参考图像的RGB三通道（W×H×3）进行点乘，最终得到尺寸为W×H×3的目标参考图像对应的图像输入特征。在该种实现方式中，经过上述处理的目标参考图像的RGB尺寸无改变，可与后续图像处理模型无缝衔接。仍以目标垂类为场景垂类为例，从加权处理后的效果来看，目标参考图像中所属于背景的概率较大的像素点，其对应的RGB通道值乘以一个较大的概率值，将使该像素点的信息倾向于保留，而目标参考图像中所属于背景的概率较小的像素点，其对应的RGB通道值乘以一个较小的概率值，将使该像素点的信息倾向于抑制。

作为另一种示例，服务器确定像素点对应的参考红色通道值、参考绿色通道值和参考蓝色通道值时，可以先根据图像掩膜中像素点属于目标类别的概率与预设概率阈值之间的大小关系，将该像素点属于目标类别的概率转换为参考标准概率；进而，服务器可以利用该参考标准概率，分别对该像素点的红色通道值、绿色通道值和蓝色通道值进行点乘处理，得到该像素点对应的参考红色通道值、参考绿色通道值和参考蓝色通道值。

具体的，服务器可以对图像掩膜中像素点属于目标类别的概率进行二值化处理；例如，服务器可以将预设概率阈值设置为0.5，若图像掩膜中像素点属于目标类别的概率大于或等于0.5，则将该像素点属于目标类别的概率转换为对应的参考标准概率即1，若图像掩膜中像素点属于目标类别的概率小于0.5，则将该像素点属于目标类别的概率转换为对应的参考标准概率即0。在实际应用中，服务器也可以根据实际需求设置多种预设概率阈值区间，并且针对不同的预设概率阈值区间设置其对应的参考标准概率，相应地，服务器可以根据图像掩膜中像素点属于目标类别的概率与这多种预设概率阈值区间的所属关系，将该像素点属于目标类别的概率转换为对应的参考标准概率。

进而，服务器可以利用转换后得到的像素点对应的参考标准概率，对该像素点的RGB通道值进行点乘处理，得到该像素点对应的参考红色通道值、参考绿色通道值和参考蓝色通道值，从而使得目标参考图像中对于识别目标垂类下的标签具有较高参考价值的区域得到更进一步的强化，并且使得目标参考图像中对于识别目标垂类下的标签具有较高参考价值的区域得到更进一步的弱化。

在另一种可能的实现方式中，服务器可以采用特征拼接的方式，根据目标参考图像和目标类别对应的图像掩膜，确定该目标参考图像对应的图像输入特征。即，服务器可以针对目标参考图像中的每个像素点，将该像素点的红色通道值、绿色通道值、蓝色通道值和图像掩膜中该像素点属于目标类别的概率拼接起来，得到该像素点对应的输入特征；进而，将该目标参考图像中各个像素点各自对应的输入特征作为该目标参考图像对应的图像输入特征。

具体的，服务器可以将目标类别对应的图像掩膜作为一个全新的通道，将该通道与目标参考图像已有的RGB三通道（W×H×3）拼接起来，得到尺寸为W×H×4的该目标参考图像对应的图像输入特征。这种特征拼接的方式能够更完整地保留目标参考图像原有的RGB信息，使得拼接得到的图像输入特征具有更多信息量，但是由于特征拼接后得到的图像输入特征的尺寸相比原本的图像输入特征的尺寸（即目标参考图像的RGB三通道）有所改变，即由W×H×3变为W×H×4，因此用于处理该图像输入特征的图像处理模型的输入层结构也要相应地改变，下文将通过另一方法实施例对用于处理该种尺寸发生改变的图像输入特征的图像处理模型的训练方式进行详细介绍。

在又一种可能的实现方式中，服务器可以在采用特征拼接的方式将目标参考图像与目标类别对应的图像掩膜拼接起来后，对拼接得到的特征做进一步地卷积处理，得到目标参考图像对应的图像输入特征。即，服务器可以针对目标参考图像中的每个像素点，将该像素点的红色通道值、绿色通道值、蓝色通道值、和图像掩膜中该像素点属于目标类别的概率拼接起来，得到该像素点对应的输入特征；进而，通过卷积结构对该目标参考图像中各个像素点各自对应的输入特征进行卷积处理，得到该目标参考图像对应的图像输入特征。

具体的，在服务器将目标类别对应的图像掩膜作为一个全新的通道，将其目标参考图像已有的RGB三通道拼接起来，得到尺寸为W×H×4的特征后，服务器可以进一步通过卷积层对该尺寸为W×H×4的特征进行卷积处理，使该特征还原为三通道，即还原得到尺寸为W×H×3的特征作为目标参考图像对应的图像输入特征。如此，既可以使图像输入特征具有更多的信息量，又可以保留原有的图像处理模型的结构。

可选的，在上述两种实现方式中，服务器对图像掩膜中像素点属于目标类别的概率与像素点的RGB通道值进行拼接处理前，可以先对图像掩膜中像素点属于目标类别的概率进行标准化处理，进而再利用标准化处理后得到的概率值与像素点的RGB通道值拼接。即，服务器可以先针对目标参考图像中的每个像素点，根据图像掩膜中该像素点属于目标类别的概率与预设概率阈值之间的大小关系，将该像素点属于目标类别的概率转换为该像素点对应的参考标准概率；进而，服务器可以将该像素点的红色通道值、绿色通道值、蓝色通道值、和该像素点对应的参考标准概率拼接起来，得到该像素点对应的输入特征。

示例性的，服务器可以对图像掩膜中像素点属于目标类别的概率进行二值化处理；例如，服务器可以将预设概率阈值设置为0.5，若图像掩膜中像素点属于目标类别的概率大于或等于0.5，则将该像素点属于目标类别的概率转换为对应的参考标准概率即1，若图像掩膜中像素点属于目标类别的概率小于0.5，则将该像素点属于目标类别的概率转换为对应的参考标准概率即0。当然，服务器也可以根据实际需求设置多种预设概率阈值区间，并且针对不同的预设概率阈值区间设置其对应的参考标准概率，相应地，服务器可以根据图像掩膜中像素点属于目标类别的概率与多种预设概率阈值区间的所属关系，将该像素点属于目标类别的概率转换为对应的参考标准概率。进而，服务器可以针对目标参考图像中的每个像素点，将该像素点的RGB通道值与该像素点对应的参考标准概率拼接起来，得到该像素点对应的输入特征。

应理解，上文介绍的几种确定目标参考图像对应的图像输入特征的方式仅为示例，在实际应用中，服务器也可以采用其它方式根据目标参考图像和目标类别对应的图像掩膜，确定该目标参考图像对应的图像输入特征，本申请在此不对确定目标参考图像对应的图像输入特征的实现方式做任何限定。

步骤204：根据所述目标参考图像对应的图像输入特征，确定所述目标垂类下所述目标图像对应的标签。

服务器确定出目标参考图像对应的图像输入特征后，即可调用图像处理模型对该目标参考图像对应的图像输入特征做进一步的特征提取处理，该图像处理模型示例性的可以为卷积神经网络（Convolutional Neural Networks，CNN）模型；进而，根据从目标参考图像对应的图像输入特征中提取出的特征，确定目标垂类下目标参考图像所对应的目标图像的标签。

在一种可能的实现方式中，在目标图像为目标视频，目标参考图像为从该目标视频中抽取出的若干目标视频帧的情况下，服务器可以通过以下方式确定目标垂类下目标视频对应的标签：针对每个目标视频帧，通过图像处理模型对该目标视频帧对应的图像输入特征进行特征提取处理，得到该目标视频帧对应的视频帧特征，此处使用的图像处理模型能够在提取视频帧特征的过程中融入视频序列信息；进而，通过目标垂类对应的视频标签识别模型，根据多个目标视频帧各自对应的视频帧特征，确定目标垂类下该目标视频对应的标签。

具体的，服务器可以通过步骤202和步骤203对从目标视频中抽取出的每个目标视频帧进行相应地处理，得到每个目标视频帧对应的图像输入特征。然后，服务器可以针对每个目标视频帧，利用图像处理模型对该目标视频帧对应的图像输入特征进行进一步的特征提取处理，得到该目标视频帧对应的视频帧特征；需要说明的是，此处使用的图像处理模型是专用于提取视频帧特征的模型，其可以根据自身对于视频帧的处理顺序，相应地在提取视频帧特征的过程中融入视频序列信息，即融入视频帧之间的顺序关联信息，从而使得所提取出的视频帧特征更有利于识别目标视频对应的标签。

服务器得到目标视频中各个目标视频帧各自对应的视频帧特征后，可以将各个目标视频帧各自对应的视频帧特征输入目标垂类对应的视频标签识别模型，该视频标签识别模型示例性的可以为NeXtVLAD模型；视频标签识别模型对各个目标视频帧各自对应的视频帧特征进行局部聚类处理后，可以相应地输出该目标视频在目标垂类下对应的标签。

可选的，在上述视频标签识别方式的基础上，本申请实施例还可以在识别视频标签的过程中融入目标视频帧的图片特征，以使视频标签的识别过程参考更多信息，提高所识别的视频标签的准确度。即，服务器可以针对每个目标视频帧，通过图片特征提取模型，对该目标视频帧对应的图像输入特征进行特征提取处理，得到该目标视频帧对应的图片特征；进而，通过目标垂类对应的视频标签识别模型，根据多个目标视频帧各自对应的视频帧特征和图片特征，确定目标垂类下该目标视频对应的标签。

具体的，服务器可以针对通过步骤202和步骤203获取到的目标视频帧对应的图像输入特征，调用图片特征提取模型对该图像输入特征进行特征提取处理，得到该目标视频帧对应的图片特征；需要说明的是，相比上文中用于提取视频帧特征的图像处理模型，图片特征提取模型只会纯粹地提取目标视频帧本身的图片特征，并不会在特征提取的过程中融入视频序列信息。进而，服务器针对目标视频识别其在目标垂类下对应的标签时，可以将该目标视频中各个目标视频帧各自对应的视频帧特征和图片特征，均输入目标垂类对应的视频标签识别模型，该视频标签识别模型对输入的数据进行相应地分析处理后，将相应地输出该目标视频在目标垂类下对应的标签。

可选的，在上述视频标签识别方式的基础上，本申请实施例还可以在识别视频标签的过程中融入目标视频对应的文本特征，以使视频标签的识别过程参考更多信息，提高所识别的视频标签的准确度。即，服务器可以获取目标视频对应的文本特征，该文本特征可以是根据目标视频的标签和/或目标视频中的字幕确定的；进而，通过目标垂类对应的视频标签识别模型，根据多个目标视频帧各自对应的视频帧特征和该目标视频对应的文本特征，确定目标垂类下该目标视频对应的标签。

具体的，服务器还可以获取目标视频的标题和/或目标视频中的字幕，进而利用文本特征提取模型对目标视频的标题和/或目标视频中的字幕进行特征提取处理，得到该目标视频对应的文本特征。相应地，服务器针对目标视频识别其在目标垂类下对应的标签时，可以将该目标视频中各个目标视频帧各自对应的视频帧特征和该目标视频对应的文本特征，均输入目标垂类对应的视频标签识别模型，该视频标签识别模型对输入的数据进行相应地分析处理后，将相应地输出该目标视频在目标垂类下对应的标签。

应理解，在实际应用中，服务器识别目标视频在目标垂类下对应的标签时，也可以同时参考目标视频中各个目标视频帧各自对应的视频帧特征和图片特征、以及目标视频对应的文本特征；此外，服务器除了可以参考视频帧的图片特征和目标视频对应的文本特征外，还可以参考其它与目标视频相关的特征，如目标视频的制作者特征、目标视频对应的音频特征等等，本申请在此不对识别目标视频在目标垂类下对应的标签时所参考的特征做任何限定。

在另一种可能的实现方式中，在目标图像和目标参考图像均为目标图片本身的情况下，服务器可以通过以下方式确定目标垂类下目标图片对应的标签：通过图像处理模型对该目标图片对应的图像输入特征进行特征提取处理，得到该目标图片对应的图片特征，进而，通过目标垂类对应的图片标签识别模型，根据目标图片对应的图片特征确定目标垂类下该目标图片对应的标签；或者，也可以直接通过图像处理模型对该目标图片对应的图像输入特征进行处理，得到目标垂类下该目标图片对应的标签。

本申请实施例提供的图像识别方法，通过对目标参考图像进行分割处理，确定该目标参考图像中各个像素点属于目标垂类对应的感兴趣类别的概率，进而，在识别目标图像在目标垂类下对应的标签时，综合考虑该目标参考图像本身和该目标参考图像中各个像素点属于感兴趣类别的概率，利用目标参考图像中各个像素点属于感兴趣类别的概率，相应地强化目标参考图像中对于识别目标垂类下的标签具有较高参考价值的区域，同时弱化目标参考图像中对于识别目标垂类下的标签具有较低参考价值的区域，实现在图像标签识别过程中有针对性地参考图像中各部分区域的特征，从而提高特定垂类下图像标签识别的准确性。

相关技术中，训练图像处理模型前，通常会寻找对应的主干网络（backbone）在大规模数据集上已经训练好的参数进行加载，从而仅对模型中发生变化的结构（通常为最后的损失函数层）进行随机初始化，该种操作被称为预训练；相比对整个模型的模型参数均进行随机初始化处理，预训练可以使得模型的主干部分提取获得已经在大规模数据集上取得泛化能力的参数，从而大幅度降低模型训练的难度。然而，预训练的实现前提是待训练的模型中所有层的结构都与基于大规模数据集训练好的基础模型完全相同，若模型中部分结构与基础模型中相应的结构不同，将导致无法将基础模型中此部分结构的模型参数加载至所需训练的模型上。

正如上文所介绍的，在本申请实施例提供的图像识别方法中，根据目标参考图像和目标类别对应的图像掩膜，确定该目标参考图像对应的图像输入特征时，一种可能的实现方式是将目标类别对应的图像掩膜作为一个新的通道，将其与该目标参考图像的RGB通道拼接起来，得到该目标参考图像对应的图像输入特征。基于该种实现方式确定目标参考图像对应的图像输入特征，将导致图像输入特征的尺寸发生变化，即使得图像处理模型的输入通道由3变为4，相应地导致采用预训练的方式训练目标图像处理模型时，输入层结构的模型参数无法加载。

为了保证仍可以采用预训练的方式对图像处理模型进行训练，保证图像处理模型的训练效率，本申请实施例在此针对上述情况提出了两种用于训练该图像处理模型的方法，下面通过方法实施例对这两种用于训练该图像处理模型的方法分别进行介绍。

参见图4，图4为本申请实施例提供的第一种图像处理模型的训练方法的流程示意图。为了便于描述，仍以该图像处理模型训练方法的执行主体为服务器为例，对该图像处理模型训练方法进行介绍；应理解，在实际应用中，该图像处理模型训练方法的执行主体也可以为其它具备模型训练能力的电子设备，如终端设备。如图4所示，该图像处理模型的训练方法包括以下步骤：

步骤401：获取初始图像处理模型；所述初始图像处理模型的模型参数是预先基于参考训练样本集训练得到的。

服务器通过预训练的方式训练图像处理模型之前，需要先获取初始图像处理模型，该初始图像处理模型是已经利用大规模训练样本集（即参考训练样本集）训练好的图像处理模型。或者，也可以将此步骤的实现方式理解为，服务器获取利用参考训练样本集训练得到的基础图像处理模型的模型参数，进而，将该基础图像处理模型的模型参数相应地加载至本申请中待训练的图像处理模型中，得到初始图像处理模型。

应理解，当本申请实施例提供的图像识别方法用于识别视频标签时，该初始图像处理模型即是用于提取视频帧特征的图像处理模型，其应具备参考视频序列特征的能力；当本申请实施例提供的图像识别方法用于识别图片标签时，该初始图像处理模型即是用于提取图片特征的图像处理模型。在本申请实施例中，图像处理模型具体可以是卷积神经网络模型，当然，该图像处理模型也可以为其它类型的模型，本申请在此不对该图像处理模型的类型做任何限定。

步骤402：基于所述图像输入特征的尺寸调整所述初始图像处理模型的输入层结构，随机初始化所述输入层结构的模型参数；并将所述初始图像处理模型中所述输入层结构的学习率设置为第一学习率，将所述初始图像处理模型中除所述输入层结构外的其它结构的学习率设置为0；所述第一学习率大于0。

服务器获取到初始图像处理模型后，可以基于图像输入特征的尺寸相应地调整该初始图像处理模型的输入层结构；例如，假设初始图像处理模型此前用于处理尺寸为W×H×3的图像输入特征，而在采用本申请实施例提供的方法识别图像标签时所需处理的图像输入特征的尺寸为W×H×4，则服务器需要相应地对该初始图像处理模型的输出层结构进行调整，使该输入层结构适用于处理尺寸为W×H×4的图像输入特征；同时针对调整后的输入层结构需要随机初始化其模型参数。对于初始图像处理模型中除该输入层结构外的其它结构，由于其仍可适应相应的后续处理，因此无需对初始图像处理模型中除输入层结构外的其它结构进行调整。

经上述调整处理后，初始图像处理模型中输入层结构的处理性能与其它结构的处理性能将相差很多，为了尽快提高输入层结构的处理性能，使其与其它结构的处理性能相接近，在本申请实施例中，服务器可以将输入层结构的学习率设置为第一学习率（大于0），将除输入层结构外的其它结构的学习率均设置为0，从而实现对于输入层结构的专门训练。

步骤403：基于所述初始图像处理模型中各部分结构的学习率，利用训练样本集对所述初始图像处理模型进行第一轮训练；当满足所述第一轮训练的训练结束条件时，确定所述初始图像处理模型为参考图像处理模型。

服务器完成上述针对初始图像处理模型中各部分结构的学习率的设置后，可以基于该初始图像处理模型中各部分结构的学习率，利用训练样本集中的训练样本对该初始图像处理模型进行第一轮训练。由于初始图像处理模型中只有输入层结构的学习率不为0，因此，该第一轮训练本质上即是对初始图像处理模型中的输入层结构进行专门的训练。

确定上述第一轮训练满足对应的训练结束条件后，可以相应地将所训练的初始图像处理模型视为参考图像处理模型。示例性的，第一轮训练对应的训练结束条件可以是初始图像处理模型的模型性能的提高幅度低于预设幅度阈值，例如，服务器可以利用多组不同的测试样本对初始图像处理模型进行测试，得到初始图像处理模型处理这多组测试样本时的准确率或召回率，若服务器确定初始图像处理模型处理这多组测试样本的准确率相差较小，或者处理这多组测试样本的召回率相差较小，则可以确定已满足第一轮训练对应的训练结束条件。当然，第一轮训练对应的训练结束条件也可以根据实际需求设定，本申请在此不对该第一轮训练对应的训练结束条件做任何限定。

步骤404：将所述参考图像处理模型中各部分结构的学习率均设置为第二学习率；所述第二学习率大于0。

服务器经第一轮训练得到参考图像处理模型后，可以解除对于除输入层结构外的其它结构的学习率为0的限制，即可以针对该参考图像处理模型中各部分结构均设置第二学习率（大于0）。由于此时的参考图像处理模型已与图像处理模型的理想参数比较接近，因此可以设置较小的第二学习率。

步骤405：基于所述参考图像处理模型中各部分结构的学习率，利用所述训练样本集对所述参考图像处理模型进行第二轮训练；当满足所述第二轮训练的训练结束条件时，确定所述参考图像处理模型为所述图像处理模型。

服务器完成针对参考图像处理模型中各部分结构的学习率的设置后，可以基于该参考图像处理模型中各部分结构的学习率，利用训练样本集中的训练样本对该参考图像处理模型进行第二轮训练。

确定上述第二轮训练满足对应的训练结束条件后，可以确定已完成模型训练过程，即可以将训练好的参考图像处理模型视为可投入实际应用的图像处理模型。示例性的，第二轮训练对应的训练结束条件，可以是参考图像处理模型的模型性能已达到预设标准（如准确率达到预设准确率阈值、召回率达到预设召回率阈值等），也可以是参考图像处理模型的模型性能不再有大幅度的提升（如多次测试的准确率相差较小、多次测试的召回率相差较小），还可以是对于参考图像处理模型的迭代训练次数达到预设训练次数阈值，本申请在此不对该第二轮训练对应的训练结束条件做任何限定。

通过上述两阶段的模型训练方式，可以快速地提高图像处理模型中输入层结构的处理性能，使该输入层结构的处理性能与图像处理模型中其它具备预训练参数的结构的处理性能相接近，降低模型训练的难度，同时确保模型训练的效率以及训练得到的模型的性能。

参见图5，图5为本申请实施例提供的第二种图像处理模型的训练方法的流程示意图。为了便于描述，仍以该图像处理模型训练方法的执行主体为服务器为例，对该图像处理模型训练方法进行介绍；应理解，在实际应用中，该图像处理模型训练方法的执行主体也可以为其它具备模型训练能力的电子设备，如终端设备。如图5所示，该图像处理模型的训练方法包括以下步骤：

步骤501：获取初始图像处理模型；所述初始图像处理模型的模型参数是预先基于参考训练样本集训练得到的。

步骤501的实现方式与上文中步骤401的实现方式相类似，详细可参见上文中步骤401的相关介绍内容。

步骤502：基于所述图像输入特征的尺寸调整所述初始图像处理模型的输入层结构，随机初始化所述输入层结构的模型参数。

服务器获取到初始图像处理模型后，可以基于图像输入特征的尺寸相应地调整该初始图像处理模型的输入层结构；同时针对调整后的输入层结构需要随机初始化其模型参数。对于初始图像处理模型中除该输入层结构外的其它结构，由于其仍可适应相应的后续处理，因此无需对初始图像处理模型中除输入层结构外的其它结构进行调整。

步骤503：将所述初始图像处理模型中所述输入层结构的学习率设置为第三学习率，将所述初始图像处理模型中除所述输入层结构外的其它结构的学习率设置为第四学习率；所述第三学习率大于所述第四学习率。

进而，服务器可以将初始图像处理模型中输入层结构的学习率设置为第三学习率，将初始图像处理模型中除输入层结构外的其他结构的学习率设置为第四学习率。由于初始图像处理模型中输入层结构的模型参数是随机初始化的，而初始图像处理模型中除输入层结构外的其它结构的模型参数是基于大规模训练样本集训练得到的，因此初始图像处理模型中输入层结构的处理性能与其它结构的处理性能相差较多，为了在模型训练的过程中，使得初始图像处理模型中输入层结构的处理性能接近其它结构的处理性能，服务器可以针对输入层结构设置较大的第三学习率，针对除输入层结构外的其它结构设置较小的第四学习率。

步骤504：基于所述初始图像处理模型中各部分结构的学习率，利用训练样本集对所述初始图像处理模型进行训练；当满足训练结束条件时，确定所述初始图像处理模型为所述图像处理模型。

服务器完成针对初始图像处理模型中各部分结构的学习率的设置后，可以基于该初始图像处理模型中各部分结构的学习率，利用训练样本集中的训练样本对该初始图像处理模型进行训练。

确定满训练结束条件后，可以确定已完成模型训练过程，即可以将训练好的初始图像处理模型作为可投入实际应用的图像处理模型。示例性的，上述训练结束条件可以是初始图像处理模型的模型性能已达到预设标准（如准确率达到预设准确率阈值、召回率达到预设召回率阈值等），也可以是初始图像处理模型的模型性能不再有大幅度的提升（如多次测试的准确率相差较小、多次测试的召回率相差较小），还可以是对于初始图像处理模型的迭代训练次数达到预设训练次数阈值，本申请在此不对该训练结束条件做任何限定。

通过上述针对模型中不同结构设置不同的学习率的模型训练方式，可以使图像处理模型中输入层结构的处理性能逐渐接近其它结构的处理性能，使经预训练得到的图像处理模型可以应用在本申请实施例提供的图像识别方法中，提高模型训练效率，并且确保训练得到的模型性能。

为了便于进一步理解本申请实施例提供的图像识别方法，下面以该图像识别方法应用在识别视频在场景垂类下对应的标签的场景中为例，结合图6所示的该图像识别方法在该场景中的实现架构示意图，对该图像识别方法进行整体示例性介绍。

如图6所示，服务器针对视频识别其在场景垂类下对应的标签时，可以先对该视频进行抽帧处理；例如，服务器可以根据实际需求设置需要从视频中抽取的视频帧的数量，进而可以采用随机抽取或者等时间间隔抽取等方式，从视频中抽取满足该数量的视频帧。

然后，服务器可以通过图像分割模型，针对从视频中抽取出的每个视频帧进行图像分割处理；此处使用的图像分割模型可以根据实际需求选取，典型的用于图像分割处理的模型结构包括但不限于FCN、DeepLabV3、GloRe。假设输入的视频帧（即RGB图片）的尺寸为W×H×3，经图像分割模型对其进行分割处理后，将输出尺寸为W×H×C的分割结果，其中C场景垂类下包括的总类别数（例如，如果场景垂类只包括前景和背景这两种类别，则C等于2），该分割结果本质上即是C个与原视频帧等大的图像掩膜，每个图像掩膜对应场景垂类下的一种类别，其中每个像素的取值范围均在0到1之间，代表对应位置的像素点属于该图像掩膜对应的类别的概率，各个图像掩膜中相同位置处的概率值之和为1，表示该位置处的像素点属于各个类别的概率之和等于100%；在本申请实施例中，仅保留场景垂类的感兴趣类别对应的图像掩膜用作后续处理，如仅保留背景类别对应的图像掩膜用作后续处理。

当场景垂类对应的感兴趣类别包括多种时，服务器可以将这多种感兴趣类别各自对应的图像掩膜进行合并处理。例如，如果通过图像分割模型得到草地、森林、道路、人物、动物和汽车这六种类别各自对应的图像掩膜，而其中草地、森林和道路均属于背景，即均属于场景垂类对应的感兴趣类别，此时，服务器可以将这三种类别各自对应的图像掩膜直接在最后一个维度相加，得到合并图像掩膜。

服务器得到场景垂类的感兴趣类别对应的图像掩膜后，可以将其与原始的视频帧（即RGB图片）融合，以使该图像掩膜发挥作用。

在一种可能的实现方式中，服务器可以将图像掩膜（尺寸为W×H）分别与RGB图片（尺寸为W×H×3）的三通道进行点乘，得到尺寸仍为W×H×3的图像输入特征。由于经过处理得到的图像输入特征的尺寸无变化，因此该图像输入特征可以与后续图像处理模型无缝衔接。在识别场景垂类下视频对应的标签的场景中，图像掩膜中属于背景的概率较大的像素，其对应的RGB像素相应地会乘以一个较大的权重，倾向于保留，而图像掩膜中属于背景的概率较小的像素，其对应的RGB像素相应地会乘以一个较小的权重，倾向于抑制，通过这种操作方法可以达到强化背景信息的目的。实际应用中，也可以预先设置概率阈值（如0.5），进而，基于该概率阈值对图像掩膜中的像素进行二值化操作，即所有大于概率阈值的像素固定设为1，反之设为0，通过这种方式可以进一步强化背景、抑制前景。

在另一种可能的实现方式中，服务器可以将图像掩膜作为一个新的通道，将其与视频帧已有的RGB三通道进行拼接，得到尺寸为W×H×4的图像输入特征；与上种方式相类似，此处也可以采用阈值二值化的方式对图像掩膜中的像素进行二值化处理。该种作为新通道拼接的融合方式可以在应用图像掩膜的同时，完整地保留原有的RGB信息，具有更多信息量，在实际应用中可以取得更好的效果。

服务器通过上述处理，得到所抽取的各视频帧各自对应的图像输入特征后，可以通过视频级主干网络对各的各视频帧各自对应的图像输入特征进行处理，得到视频级特征。具体的，服务器可以先针对每个视频帧，利用图像处理模型对该视频帧对应的图像输入特征做进一步的特征提取处理，得到该视频帧对应的视频帧特征，该图像处理模型可以在提取视频帧特征的过程中根据其对于各视频帧的处理顺序相应地融入视频序列信息；进而，服务器可以利用视频特征提取模型，对各视频帧各自对应的视频帧特征进行聚类处理，得到视频级特征。

可选的，服务器还可以针对各个视频帧，分别利用图片特征提取模型对视频帧对应的图像输入特征做进一步的特征提取处理，得到各个视频帧各自对应的图片级特征。服务器还可以利用文本特征提取模型对视频的标题进行特征提取处理，得到该视频对应的文本特征。

进而，服务器可以根据上述视频级特征、各个视频帧各自对应的图片级特征和视频对应的文本特征确定全局特征，利用场景垂类对应的图像标签识别模型对该全局特征进行处理，得到该视频在场景垂类下对应的标签。

针对上文描述的图像识别方法，本申请还提供了对应的图像识别装置，以使上述图像识别方法在实际中得以应用及实现。

参见图7，图7是与上文图2所示的图像识别方法对应的一种图像识别装置700的结构示意图。如图7所示，该图像识别装置700包括：

图像获取模块701，用于获取目标图像对应的目标参考图像；

图像分割模块702，用于对所述目标参考图像进行分割处理，得到目标垂类下目标类别对应的图像掩膜；所述目标类别是所述目标垂类对应的感兴趣类别，所述目标类别对应的图像掩膜包括所述目标参考图像中各个像素点属于所述目标类别的概率；

特征融合模块703，用于根据所述目标参考图像和所述目标类别对应的图像掩膜，确定所述目标参考图像对应的图像输入特征；

图像识别模块704，用于根据所述目标参考图像对应的图像输入特征，确定所述目标垂类下所述目标图像对应的标签。

可选的，在图7所示的图像识别装置的基础上，参见图8，图8为本申请实施例提供的另一种图像识别装置800的结构示意图。如图8所示，所述特征融合模块703包括：

加权处理子模块801，用于针对所述目标参考图像中的每个像素点，根据所述图像掩膜中所述像素点属于所述目标类别的概率，分别对所述像素点的红色通道值、绿色通道值和蓝色通道值进行加权处理，得到所述像素点对应的参考红色通道值、参考绿色通道值和参考蓝色通道值；

输入特征确定子模块802，用于根据所述目标参考图像中各个像素点各自对应的参考红色通道值、参考绿色通道值和参考蓝色通道值，确定所述目标参考图像对应的图像输入特征。

可选的，在图8所示的图像识别装置的基础上，所述加权处理子模块801具体用于：

利用所述图像掩膜中所述像素点属于所述目标类别的概率，分别对所述像素点的红色通道值、绿色通道值和蓝色通道值进行点乘处理，得到所述像素点对应的参考红色通道值、参考绿色通道值和参考蓝色通道值；

或者，根据所述图像掩膜中所述像素点属于所述目标类别的概率与预设概率阈值之间的大小关系，将所述像素点属于所述目标类别的概率转换为参考标准概率；利用所述参考标准概率，分别对所述像素点的红色通道值、绿色通道值和蓝色通道值进行点乘处理，得到所述像素点对应的参考红色通道值、参考绿色通道值和参考蓝色通道值。

可选的，在图7所示的图像识别装置的基础上，参见图9，图9为本申请实施例提供的另一种图像识别装置900的结构示意图。如图9所示，所述特征融合模块703包括：

特征拼接子模块901，用于针对所述目标参考图像中的每个像素点，将所述像素点的红色通道值、绿色通道值、蓝色通道值、和所述图像掩膜中所述像素点属于所述目标类别的概率拼接起来，得到所述像素点对应的输入特征；

输入特征确定子模块902，用于将所述目标参考图像中各个像素点各自对应的输入特征，作为所述目标参考图像对应的图像输入特征。

可选的，在图7所示的图像识别装置的基础上，参见图10，图10为本申请实施例提供的另一种图像识别装置1000的结构示意图。如图10所示，所述特征融合模块703包括：

特征拼接子模块1001，用于针对所述目标参考图像中的每个像素点，将所述像素点的红色通道值、绿色通道值、蓝色通道值、和所述图像掩膜中所述像素点属于所述目标类别的概率拼接起来，得到所述像素点对应的输入特征；

卷积处理子模块1002，用于通过卷积结构，对所述目标参考图像中各个像素点各自对应的输入特征进行卷积处理，得到所述目标参考图像对应的图像输入特征。

可选的，在图9或图10所示的图像识别装置的基础上，所述特征拼接子模块具体用于：

针对所述目标参考图像中的每个像素点，根据所述图像掩膜中所述像素点属于所述目标类别的概率与预设概率阈值之间的大小关系，将所述像素点属于所述目标类别的概率转换为所述像素点对应的参考标准概率；

将所述像素点的红色通道值、绿色通道值、蓝色通道值、和所述像素点对应的参考标准概率拼接起来，得到所述像素点对应的输入特征。

可选的，在图7所示的图像识别装置的基础上，参见图11，图11为本申请实施例提供的另一种图像识别装置1100的结构示意图。在所述目标类别包括多种的情况下，所述装置还包括：

掩膜合并模块1101，用于对多种所述目标类别各自对应的图像掩膜进行合并处理，得到合并图像掩膜；

则所述特征融合模块703具体用于：

根据所述目标参考图像和所述合并图像掩膜，确定所述目标参考图像对应的图像输入特征。

可选的，在图7所示的图像识别装置的基础上，参见图12，图12为本申请实施例提供的另一种图像识别装置1200的结构示意图。在图像识别装置1200中，所述图像识别模块704具体用于：

通过图像处理模型，根据所述目标参考图像对应的图像输入特征，确定所述目标垂类下所述目标图像对应的标签；

如图12所示，所述装置还包括第一模型训练模块1201；所述第一模型训练模块1201包括：

模型获取子模块，用于获取初始图像处理模型；所述初始图像处理模型的模型参数是预先基于参考训练样本集训练得到的；

参数设置子模块，用于基于所述图像输入特征的尺寸调整所述初始图像处理模型的输入层结构，随机初始化所述输入层结构的模型参数；并将所述初始图像处理模型中所述输入层结构的学习率设置为第一学习率，将所述初始图像处理模型中除所述输入层结构外的其它结构的学习率设置为0；所述第一学习率大于0；

训练子模块，用于基于所述初始图像处理模型中各部分结构的学习率，利用训练样本集对所述初始图像处理模型进行第一轮训练；当满足所述第一轮训练的训练结束条件时，确定所述初始图像处理模型为参考图像处理模型；

所述参考设置子模块，还用于基于所述初始图像处理模型中各部分结构的学习率，利用训练样本集对所述初始图像处理模型进行第一轮训练；当满足所述第一轮训练的训练结束条件时，确定所述初始图像处理模型为参考图像处理模型；

所述模型训练子模块，还用于基于所述参考图像处理模型中各部分结构的学习率，利用所述训练样本集对所述参考图像处理模型进行第二轮训练；当满足所述第二轮训练的训练结束条件时，确定所述参考图像处理模型为所述图像处理模型。

可选的，在图7所示的图像识别装置的基础上，参见图13，图13为本申请实施例提供的另一种图像识别装置1300的结构示意图。在图像识别装置1300中，所述图像识别模块704具体用于：

如图13所示，所述装置还包括第二模型训练模块1301；所述第二模型训练模块1301包括：

参数设置子模块，用于基于所述图像输入特征的尺寸调整所述初始图像处理模型的输入层结构，随机初始化所述输入层结构的模型参数；将所述初始图像处理模型中所述输入层结构的学习率设置为第三学习率，将所述初始图像处理模型中除所述输入层结构外的其它结构的学习率设置为第四学习率；所述第三学习率大于所述第四学习率；

模型训练子模块，用于基于所述初始图像处理模型中各部分结构的学习率，利用训练样本集对所述初始图像处理模型进行训练；当满足训练结束条件时，确定所述初始图像处理模型为所述图像处理模型。

可选的，在图7所示的图像识别装置的基础上，在所述目标图像为目标视频，所述目标参考图像为所述目标视频中的目标视频帧，且所述目标视频包括多个所述目标视频帧的情况下，所述图像识别模块704具体用于：

针对每个所述目标视频帧，通过图像处理模型，对所述目标视频帧对应的图像输入特征进行特征提取处理，得到所述目标视频帧对应的视频帧特征；所述图像处理模型用于在提取视频帧特征的过程中融入视频序列信息；

通过所述目标垂类对应的视频标签识别模型，根据多个所述目标视频帧各自对应的视频帧特征，确定所述目标垂类下所述目标视频对应的标签。

可选的，在所述目标图像为目标视频，所述目标参考图像为所述目标视频中的目标视频帧，且所述目标视频包括多个所述目标视频帧的情况下，所述图像识别模块704还用于：

针对每个所述目标视频帧，通过图片特征提取模型，对所述目标视频帧对应的图像输入特征进行特征提取处理，得到所述目标视频帧对应的图片特征；

相应地，通过所述目标垂类对应的视频标签识别模型，根据多个所述目标视频帧各自对应的视频帧特征和图片特征，确定所述目标垂类下所述目标视频对应的标签。

获取所述目标视频对应的文本特征；所述文本特征是根据所述目标视频的标题和所述目标视频的字幕中的至少一种确定的；

相应地，通过所述目标垂类对应的视频标签识别模型，根据多个所述目标视频帧各自对应的视频帧特征、以及所述目标视频对应的文本特征，确定所述目标垂类下所述目标视频对应的标签。

本申请实施例提供的图像识别装置，通过对目标参考图像进行分割处理，确定该目标参考图像中各个像素点属于目标垂类对应的感兴趣类别的概率，进而，在识别目标图像在目标垂类下对应的标签时，综合考虑该目标参考图像本身和该目标参考图像中各个像素点属于感兴趣类别的概率，利用目标参考图像中各个像素点属于感兴趣类别的概率，相应地强化目标参考图像中对于识别目标垂类下的标签具有较高参考价值的区域，同时弱化目标参考图像中对于识别目标垂类下的标签具有较低参考价值的区域，实现在图像标签识别过程中有针对性地参考图像中各部分区域的特征，从而提高特定垂类下图像标签识别的准确性。

本申请实施例还提供了一种用于识别图像的设备，该设备具体可以是终端设备或者服务器，下面将从硬件实体化的角度对本申请实施例提供的终端设备和服务器进行介绍。

参见图14，图14是本申请实施例提供的终端设备的结构示意图。如图14所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理、销售终端（Point ofSales，POS）、车载电脑等任意终端设备，以终端为计算机为例：

图14示出的是与本申请实施例提供的终端相关的计算机的部分结构的框图。参考图14，计算机包括：射频（Radio Frequency，RF）电路1410、存储器1420、输入单元1430（其中包括触控面板1431和其他输入设备1432）、显示单元1440（其中包括显示面板1441）、传感器1450、音频电路1460（其可以连接扬声器1461和传声器1462）、无线保真（wirelessfidelity，WiFi）模块1470、处理器1480、以及电源1490等部件。本领域技术人员可以理解，图14中示出的计算机结构并不构成对计算机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器1420可用于存储软件程序以及模块，处理器1480通过运行存储在存储器1420的软件程序以及模块，从而执行计算机的各种功能应用以及数据处理。存储器1420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据计算机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器1420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1480是计算机的控制中心，利用各种接口和线路连接整个计算机的各个部分，通过运行或执行存储在存储器1420内的软件程序和/或模块，以及调用存储在存储器1420内的数据，执行计算机的各种功能和处理数据，从而对计算机进行整体监控。可选的，处理器1480可包括一个或多个处理单元；优选的，处理器1480可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1480中。

在本申请实施例中，该终端所包括的处理器1480还具有以下功能：

获取目标图像对应的目标参考图像；

可选的，所述处理器1480还用于执行本申请实施例提供的图像识别方法的任意一种实现方式的步骤。

参见图15，图15为本申请实施例提供的一种服务器1500的结构示意图。该服务器1500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（central processing units，CPU）1522（例如，一个或一个以上处理器）和存储器1532，一个或一个以上存储应用程序1542或数据1544的存储介质1530（例如一个或一个以上海量存储设备）。其中，存储器1532和存储介质1530可以是短暂存储或持久存储。存储在存储介质1530的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1522可以设置为与存储介质1530通信，在服务器1500上执行存储介质1530中的一系列指令操作。

服务器1500还可以包括一个或一个以上电源1526，一个或一个以上有线或无线网络接口1550，一个或一个以上输入输出接口1558，和/或，一个或一个以上操作系统，例如Windows Server^TM，Mac OS X^TM，Unix^TM, Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图15所示的服务器结构。

其中，CPU 1522用于执行如下步骤：

获取目标图像对应的目标参考图像；

可选的，CPU 1522还可以用于执行本申请实施例提供的图像识别方法的任意一种实现方式的步骤。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行前述各个实施例所述的一种图像识别方法中的任意一种实施方式。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前述各个实施例所述的一种图像识别方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储计算机程序的介质。

应当理解，在本申请中，“至少一个（项）”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项（个）或复数项（个）的任意组合。例如，a，b或c中的至少一项（个），可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

获取目标图像对应的目标参考图像；

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标参考图像和所述目标类别对应的图像掩膜，确定所述目标参考图像对应的图像输入特征，包括：

针对所述目标参考图像中的每个像素点，根据所述图像掩膜中所述像素点属于所述目标类别的概率，分别对所述像素点的红色通道值、绿色通道值和蓝色通道值进行加权处理，得到所述像素点对应的参考红色通道值、参考绿色通道值和参考蓝色通道值；

根据所述目标参考图像中各个像素点各自对应的参考红色通道值、参考绿色通道值和参考蓝色通道值，确定所述目标参考图像对应的图像输入特征。

3.根据权利要求2所述的方法，其特征在于，所述根据所述图像掩膜中所述像素点属于所述目标类别的概率，分别对所述像素点的红色通道值、绿色通道值和蓝色通道值进行加权处理，得到所述像素点对应的参考红色通道值、参考绿色通道值和参考蓝色通道值，包括以下任一种：

根据所述图像掩膜中所述像素点属于所述目标类别的概率与预设概率阈值之间的大小关系，将所述像素点属于所述目标类别的概率转换为参考标准概率；利用所述参考标准概率，分别对所述像素点的红色通道值、绿色通道值和蓝色通道值进行点乘处理，得到所述像素点对应的参考红色通道值、参考绿色通道值和参考蓝色通道值。

4.根据权利要求1所述的方法，其特征在于，所述根据所述目标参考图像和所述目标类别对应的图像掩膜，确定所述目标参考图像对应的图像输入特征，包括：

针对所述目标参考图像中的每个像素点，将所述像素点的红色通道值、绿色通道值、蓝色通道值、和所述图像掩膜中所述像素点属于所述目标类别的概率拼接起来，得到所述像素点对应的输入特征；

将所述目标参考图像中各个像素点各自对应的输入特征，作为所述目标参考图像对应的图像输入特征。

5.根据权利要求1所述的方法，其特征在于，所述根据所述目标参考图像和所述目标类别对应的图像掩膜，确定所述目标参考图像对应的图像输入特征，包括：

通过卷积结构，对所述目标参考图像中各个像素点各自对应的输入特征进行卷积处理，得到所述目标参考图像对应的图像输入特征。

6.根据权利要求4或5所述的方法，其特征在于，所述方法还包括：

则所述将所述像素点的红色通道值、绿色通道值、蓝色通道值、和所述图像掩膜中所述像素点属于所述目标类别的概率拼接起来，得到所述像素点对应的输入特征，包括：

7.根据权利要求1所述的方法，其特征在于，在所述目标类别包括多种的情况下，所述方法还包括：

对多种所述目标类别各自对应的图像掩膜进行合并处理，得到合并图像掩膜；

所述根据所述目标参考图像和所述目标类别对应的图像掩膜，确定所述目标参考图像对应的图像输入特征，包括：

8.根据权利要求4所述的方法，其特征在于，所述根据所述目标参考图像对应的图像输入特征，确定所述目标垂类下所述目标图像对应的标签，包括：

所述图像处理模型是通过以下方式训练的：

获取初始图像处理模型；所述初始图像处理模型的模型参数是预先基于参考训练样本集训练得到的；

基于所述图像输入特征的尺寸调整所述初始图像处理模型的输入层结构，随机初始化所述输入层结构的模型参数；并将所述初始图像处理模型中所述输入层结构的学习率设置为第一学习率，将所述初始图像处理模型中除所述输入层结构外的其它结构的学习率设置为0；所述第一学习率大于0；

基于所述初始图像处理模型中各部分结构的学习率，利用训练样本集对所述初始图像处理模型进行第一轮训练；当满足所述第一轮训练的训练结束条件时，确定所述初始图像处理模型为参考图像处理模型；

将所述参考图像处理模型中各部分结构的学习率均设置为第二学习率；所述第二学习率大于0；

基于所述参考图像处理模型中各部分结构的学习率，利用所述训练样本集对所述参考图像处理模型进行第二轮训练；当满足所述第二轮训练的训练结束条件时，确定所述参考图像处理模型为所述图像处理模型。

9.根据权利要求4所述的方法，其特征在于，所述根据所述目标参考图像对应的图像输入特征，确定所述目标垂类下所述目标图像对应的标签，包括：

所述图像处理模型是通过以下方式训练的：

基于所述图像输入特征的尺寸调整所述初始图像处理模型的输入层结构，随机初始化所述输入层结构的模型参数；

将所述初始图像处理模型中所述输入层结构的学习率设置为第三学习率，将所述初始图像处理模型中除所述输入层结构外的其它结构的学习率设置为第四学习率；所述第三学习率大于所述第四学习率；

基于所述初始图像处理模型中各部分结构的学习率，利用训练样本集对所述初始图像处理模型进行训练；当满足训练结束条件时，确定所述初始图像处理模型为所述图像处理模型。

10.根据权利要求1所述的方法，其特征在于，在所述目标图像为目标视频，所述目标参考图像为所述目标视频中的目标视频帧，且所述目标视频包括多个所述目标视频帧的情况下，所述根据所述目标参考图像对应的图像输入特征，确定所述目标垂类下所述目标图像对应的标签，包括：

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

所述通过所述目标垂类对应的视频标签识别模型，根据多个所述目标视频帧各自对应的视频帧特征，确定所述目标垂类下所述目标视频对应的标签，包括：

通过所述目标垂类对应的视频标签识别模型，根据多个所述目标视频帧各自对应的视频帧特征和图片特征，确定所述目标垂类下所述目标视频对应的标签。

12.根据权利要求10或11所述的方法，其特征在于，所述方法还包括：

通过所述目标垂类对应的视频标签识别模型，根据多个所述目标视频帧各自对应的视频帧特征、以及所述目标视频对应的文本特征，确定所述目标垂类下所述目标视频对应的标签。

13.一种图像识别装置，其特征在于，所述装置包括：

图像获取模块，用于获取目标图像对应的目标参考图像；

14.一种电子设备，其特征在于，所述设备包括处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行权利要求1至12中任一项所述的图像识别方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1至12中任一项所述的图像识别方法。

16.一种计算机程序产品，包括计算机程序或者指令，其特征在于，所述计算机程序或者所述指令被处理器执行时，实现权利要求1至12中任一项所述的图像识别方法。