CN110516671B

CN110516671B - 神经网络模型的训练方法、图像检测方法及装置

Info

Publication number: CN110516671B
Application number: CN201910794384.1A
Authority: CN
Inventors: 王子愉; 黄浩智; 姜文浩; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2022-06-07
Anticipated expiration: 2039-08-27
Also published as: CN110516671A

Abstract

本发明提供了一种用于图像检测的神经网络模型的训练方法、图像检测方法、装置、设备及存储介质；方法包括：通过神经网络模型对源域和目标域中的图像进行特征提取，根据提取到的图像的特征确定候选区域；并确定候选区域中围绕实例的目标区域、以及实例的分类结果；对图像进行分类，得到包括图像属于目标域的类别的分类结果，并根据分类结果确定图像域分类的损失；通过神经网络模型对实例进行分类，得到包括实例属于目标域的类别的分类结果，并根据分类结果确定实例域分类的损失；将实例域分类的损失和图像域分类的损失分别代入损失函数，根据损失函数确定梯度，并根据梯度更新神经网络模型的参数。通过本发明，能够提高图像目标检测的精度。

Description

神经网络模型的训练方法、图像检测方法及装置

技术领域

本发明涉及人工智能领域的图像检测技术，尤其涉及一种用于图像检测的神经网络模型的训练方法、图像检测方法、装置、电子设备及存储介质。

背景技术

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。人工智能现如今得到快速发展，并广泛应用于各种行业。

计算机视觉技术(CV，Computer Vision)是人工智能的典型应用，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。典型地如进行图像中的目标检测，可以广泛应用于诸如图像识别、智能监控等应用场景。

对于图像中目标检测而言，需要通过输入样本数据训练神经网络模型，以使训练后的神经网络模型可用于对图像中的目标进行准确检测。但是当训练的样本数据量少时，无法对神经网络模型进行充分训练，导致训练后的神经网络模型不能对图像中的目标进行准确检测，从而影响图像目标检测的精度。

发明内容

本发明实施例提供一种用于图像检测的神经网络模型的训练方法、图像检测方法、装置、电子设备及存储介质，能够提高图像目标检测的精度。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种用于图像检测的神经网络模型的训练方法，所述方法包括：

通过所述神经网络模型对源域和目标域中的图像进行特征提取，根据提取到的图像的特征确定所述图像中的候选区域；

通过所述神经网络模型确定所述候选区域中围绕实例的目标区域、以及所述实例的分类结果；

通过所述神经网络模型对所述图像进行分类，得到包括所述图像属于目标域的类别的分类结果，并根据所述图像的分类结果确定图像域分类的损失；

通过所述神经网络模型对所述实例进行分类，得到包括所述实例属于目标域的类别的分类结果，并根据所述实例的分类结果确定实例域分类的损失；

将所述实例域分类的损失和所述图像域分类的损失分别代入损失函数，根据所述损失函数确定梯度，并根据所述梯度更新所述神经网络模型的参数。

本发明实施例提供一种用于图像检测的神经网络模型的训练装置，包括：

检测模块，用于通过所述神经网络模型对源域和目标域中的图像进行特征提取，根据提取到的图像的特征确定所述图像中的候选区域；通过所述神经网络模型确定所述候选区域中围绕实例的目标区域、以及所述实例的分类结果；

域分类模块，用于通过所述神经网络模型对所述图像进行分类，得到包括所述图像属于目标域的类别的分类结果，并根据所述图像的分类结果确定图像域分类的损失；通过所述神经网络模型对所述实例进行分类，得到包括所述实例属于目标域的类别的分类结果，并根据所述实例的分类结果确定实例域分类的损失；

训练模块，用于将所述实例域分类的损失和所述图像域分类的损失分别代入损失函数，根据所述损失函数确定梯度，并根据所述梯度更新所述神经网络模型的参数。

上述方案中，所述检测模块，还用于通过所述特征提取网络提取源域和目标域中的图像的特征；通过所述区域候选网络截取所述图像中的特征，以确定所述图像中的候选区域，其中，所述候选区域中包括所述实例。

上述方案中，所述检测模块，还用于通过所述包围框网络将所述候选区域进行包围盒回归，得到所述候选区域中围绕实例的目标区域；通过所述分类网络将所述目标区域中的实例进行分类，得到所述实例的分类结果。

上述方案中，所述域分类模块，还用于通过所述图像域分类网络确定所述图像中包含的像素点；通过所述图像域分类网络对所述图像中包含的像素点进行分类，得到所述图像中每个像素点属于目标域的概率。

上述方案中，所述域分类模块，还用于获取表征所述图像属于源域或目标域的图像标识；根据所述图像中每个像素点属于目标域的概率和对应的图像标识，确定所述图像中每个像素点属于目标域的概率、和所述图像标识之间的第一分布性差异；基于所述第一分布性差异确定所述图像域分类的损失。

上述方案中，所述域分类模块，还用于根据预设标签对所述实例进行分类，以获得多个标签不同的实例；根据所述实例的标签分类结果，将多个标签不同的实例对应传输至不同的实例域分类网络中，其中，所述不同的实例域分类网络之间的参数相互独立；通过所述实例域分类网络分别对多个标签不同的实例进行分类，得到所述实例属于目标域的概率。

上述方案中，所述域分类模块，还用于获取表征所述实例属于源域或目标域的实例标识；根据所述实例属于目标域的概率和对应的实例标识，确定所述实例属于目标域的概率、和所述实例标识之间的第二分布性差异；基于所述第二分布性差异确定所述实例域分类的损失。

上述方案中，所述训练模块，还用于通过梯度下降确定所述目标损失函数取得最小值时，对应的所述神经网络模型的参数；根据所确定的神经网络模型的参数更新所述神经网络模型。

本发明实施例提供一种基于上述方案中的神经网络模型的图像检测方法，所述方法包括：

通过所述神经网络模型对图像进行特征提取，根据提取到的图像的特征确定所述图像中的候选区域；

通过所述神经网络模型确定所述候选区域中围绕实例的目标区域、以及所述实例的分类结果。

本发明实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的用于图像检测的神经网络模型的训练方法或基于上述方案中的神经网络模型的图像检测方法。

本发明实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的用于图像检测的神经网络模型的训练方法或基于上述方案中的神经网络模型的图像检测方法。

本发明实施例具有以下有益效果：

通过神经网络模型对源域和目标域中的图像进行特征提取，并确定图像中围绕实例的目标区域、以及实例的分类结果；分别对实例和图像进行域分类，确定实例域分类和图像域分类的损失，并分别应用于损失函数，根据损失函数更新神经网络模型的参数，能够达到对目标域的图像增强，从而增加训练样本的多样性，提高神经网络模型鲁棒性，避免过拟合，提高了图像目标检测的精度。

附图说明

图1是本发明实施例提供的图像检测系统的一个可选的架构示意图；

图2是本发明实施例提供的电子设备的结构示意图；

图3是本发明实施例提供的用于图像检测的神经网络模型的训练装置的结构示意图；

图4A是本发明实施例提供的用于图像检测的神经网络模型的训练方法的一个可选的流程示意图；

图4B是本发明实施例提供的用于图像检测的神经网络模型的训练方法的一个可选的流程示意图；

图4C是本发明实施例提供的用于图像检测的神经网络模型的训练方法的一个可选的流程示意图；

图5是本发明实施例提供的图像检测方法的一个可选的流程示意图；

图6是本发明实施例提供的用于图像检测的神经网络模型的训练方法的一个可选的原理示意图；

图7是本发明实施例提供的图像检测方法的一个可选的应用场景示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)域适应(Domain Adaptation)，在迁移学习中，当源域(Source Domain)和目标域(Target Domain)的数据分布不同，但两个任务相同时，这种迁移学习是域适应。

2)目标域，目标域中的数据和需要进行图像目标检测任务的数据来源相同，例如：当图像目标检测任务是对视频帧中的广告检测时，目标域可以是视频中采样出来的视频帧。

3)源域，源域中的数据和需要进行图像目标检测任务的数据来源不同，例如：当图像目标检测任务是对视频帧中的广告检测时，源域可以是一切非从视频中采样出来的视频帧的图像数据。

4)损失函数，用于表征预测值和真实值的误差程度，损失函数越小，神经网络模型鲁棒性越好，可通过损失函数确定梯度，并根据梯度更新神经网络模型的参数。

5)神经网络模型的参数，在神经网络模型的训练过程中自动更新或自行学习所获得的参数，包括有特征权重、偏置等。

6)神经网络模型的超参数，在神经网络模型开始训练之前设置的参数，包括有学习率、网络结构、使用的激活函数等。

本发明实施例提供一种用于图像检测的神经网络模型的训练方法、图像检测方法、装置、电子设备及存储介质，下面说明本发明实施例提供的用于图像检测的神经网络模型的训练方法的示例性应用，本发明实施例提供的用于图像检测的神经网络模型的训练方法可以由各种电子设备实施，例如可以由一个服务器单独实施，也可以由多个服务器协同实施，当然，也可以由终端(例如电脑、具有人工智能芯的智能手机等)实施。

下面，以由多个服务器协同实施为例说明本发明实施例，参见图1，图1是本发明实施例提供的图像检测系统1000的一个可选的架构示意图，当本发明实施例提供的图像检测系统1000用于对用户上传的视频进行广告检测时，服务器100可以是客户端200-1的后台服务器，可以对用户通过客户端200-1上传的视频进行检测。服务器400可以是云服务器，可以提供训练神经网络模型的服务。

在一些实施例中，首先服务器100将神经网络模型的超参数、目标域和源域中的图像通过网络300发送至服务器400，其中，目标域中的图像是从视频中采样出来的视频帧，源域中的图像是非从视频中采样出来的视频帧；服务器400根据接收的神经网络模型的超参数构造神经网络模型，将目标域和源域中的图像作为样本数据训练神经网络模型，并将训练后的神经网络模型发送至服务器100。当用户通过客户端200-1上传视频至网络300时，客户端200-1的后台服务器100可将用户上传的视频进行解码以获得视频帧，并通过训练后的神经网络模型检测该视频帧中是否包含广告，若包含广告，则可禁止用户上传该视频至网络300；若不包含广告，则允许用户上传该视频至网络300。

接下来说明本发明实施例提供的电子设备的结构，参见图2，图2是本发明实施例提供的电子设备500的结构示意图，可以为图2所示的电子设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可理解，总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本发明实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

显示模块553，用于经由一个或多个与用户接口530相关联的输出装置531(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块554，用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的用于图像检测的神经网络模型的训练装置可以采用软件方式实现，图2示出了存储在存储器550中的用于图像检测的神经网络模型的训练装置555，其可以是程序和插件等形式的软件，包括以下软件模块：待训练的神经网络模型以及用于训练神经网络模型的训练模块5553；其中，神经网络模型用于实现本发明实施例提供的图像检测方法中检测图像目标的功能。训练模块5553用于实现本发明实施例提供的神经网络模型的训练功能，其中，待训练的神经网络模型包括检测模块5551和域分类模块5552。这些模块是可以是逻辑功能模块，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本发明实施例提供的用于图像检测的神经网络模型的训练装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的用于图像检测的神经网络模型的训练方法或基于上述的神经网络模型的图像检测方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

参见图3和图4A，图3是本发明实施例提供的用于图像检测的神经网络模型的训练装置555的结构示意图，待训练的神经网络模型由检测模块5551和域分类模块5552组成，其中，检测模块5551包括：特征提取模块5551A、区域候选模块5551B、包围框模块5551C、以及分类模块5551D；域分类模块5552包括：图像域分类模块5552A、预设标签分类模块5552B和多个实例域分类模块5552C(图3中示例性示出了实例域分类模块5552C-1、5552C-2和5552C-3)。图4A是本发明实施例提供的用于图像检测的神经网络模型的训练方法的一个可选的流程示意图，将结合图3对图4A示出的步骤进行说明。

在步骤S101中，通过神经网络模型对源域和目标域中的图像进行特征提取，根据提取到的图像的特征确定图像中的候选区域。

在一些实施例中，神经网络模型包括：特征提取网络和区域候选网络；通过特征提取网络提取源域和目标域中的图像的特征；通过区域候选网络截取图像中的特征，以确定图像中的候选区域。

作为示例，本发明实施例应用于对视频帧中的广告检测时，目标域可以是视频中采样出来的视频帧，源域可以是一切非从视频中采样出来的视频帧的图像数据。

作为示例，当发明实施例应用于对摄像头采集的图像数据进行人脸检测时，目标域可以是从摄像头采集的图像数据，源域可以是一切非从摄像头采集的图像数据。

作为示例，参见图3，通过神经网络模型中的特征提取模块5551A提取目标域和源域中的图像的特征，通过区域候选模块5551B对提取出对图像的特征截取，以确定图像中的候选区域。

本发明实施例通过引入远大于目标域数据的数据量，将源域和目标域的数据特征对齐，扩充了训练样本数据量，可以极大的帮助检测装置提高性能，增强模型泛化性，防止模型过拟合。

在步骤S102中，通过神经网络模型确定候选区域中围绕实例的目标区域、以及实例的分类结果。

在一些实施例中，神经网络模型包括：包围框网络和分类网络；通过包围框网络将候选区域进行包围盒回归，得到候选区域中围绕实例的目标区域；通过分类网络将目标区域中的实例进行分类，得到实例的分类结果。

作为示例，当发明实施例应用于对视频帧的广告检测时，上述实例可以是广告，通过包围框网络将包括广告的候选区域进行包围盒回归，得到候选区域中围绕广告的目标区域；通过分类网络将目标区域中的广告进行分类，得到广告的分类结果。

作为示例，参见图3，通过包围框模块5551C将候选区域进行包围盒回归，得到候选区域中围绕实例的目标区域，并通过分类模块5551D将目标区域中的实例进行分类，得到实例的分类结果。

在步骤S103中，通过神经网络模型对图像进行分类，得到包括图像属于目标域的类别的分类结果，并根据图像的分类结果确定图像域分类的损失。

在一些实施例中，神经网络模型包括：图像域分类网络；通过图像域分类网络确定图像中包含的像素点；通过图像域分类网络对图像中包含的像素点进行分类，得到图像中每个像素点属于目标域的概率，并根据图像中每个像素点属于目标域的概率确定图像域分类的损失。

作为示例，参见图3，图像域分类模块5552A接收检测模块5551输入的图像，并确定图像中包含的像素点；通过图像域分类模块5552A对图像中包含的像素点进行分类，得到图像中每个像素点属于目标域的概率，并根据图像中每个像素点属于目标域的概率确定图像域分类的损失。

在一些实施例中，参见图4B，基于图4A，步骤S103还可以通过步骤S1031至步骤S1033来具体实现。

在步骤S1031中，通过图像域分类网络确定图像中包含的像素点，并对图像中包含的像素点进行分类，得到图像中每个像素点属于目标域的概率。

在一些实施例中，图像域分类网络由一个小型的全卷积网络(FCN，FullyConvolutional Networks)实现，可以对图像进行像素级分类，图像经过一个卷积核大小为1×1，输出维度为512维的卷积层，再经过一个卷积核大小为1×1，输出维度为2维的卷积层，通过最大似然(Softmax)函数即可计算出每个像素点属于目标域的概率。

在步骤S1032中，通过图像域分类网络获取表征图像属于源域或目标域的图像标识。

在一些实施例中，输入目标域和源域中的图像训练神经网络模型时，已对训练样本图像是属于源域或目标域进行标注，因此，输入至神经网络模型训练的图像已具备该图像是来自源域还是目标域的标识。通过图像域分类网络获取表征图像属于源域或目标域的图像标识。

在步骤S1033中，根据图像中每个像素点属于目标域的概率和对应的图像标识，确定图像中每个像素点属于目标域的概率、和图像标识之间的第一分布性差异，基于第一分布性差异确定图像域分类的损失。

在一些实施例中，求取图像中每个像素点属于目标域的概率和对应的图像标识的交叉熵，并将图像中每个像素点属于目标域的概率与对应的图像标识的交叉熵取平均值，以获得第一分布性差异，基于第一分布性差异确定图像域分类的损失。

在步骤S104中，通过神经网络模型对实例进行分类，得到包括实例属于目标域的类别的分类结果，并根据实例的分类结果确定实例域分类的损失。

在一些实施例中，神经网络模型包括：多个实例域分类网络；根据预设标签对实例进行分类，以获得多个标签不同的实例；根据实例的标签分类结果，将多个标签不同的实例对应传输至不同的实例域分类网络中，其中，不同的实例域分类网络之间的参数相互独立；通过实例域分类网络分别对多个标签不同的实例进行分类，得到实例属于目标域的概率，并根据实例属于目标域的概率确定实例域分类的损失。

作为示例，参见图3，通过预设标签分类网络5552B对检测模块5551输入的实例进行分类，获得标签不同的实例1、实例2和实例3，并将标签不同的实例1、实例2和实例3对应传输至不同的实例域分类网络5552C-1、5552C-2和5552C-3中分别进行分类，得到实例属于目标域的概率。

在一些实施例中，参见图4C，基于图4A，步骤S104还可以通过步骤S1041至步骤S1045来具体实现。

在步骤S1041中，根据预设标签对实例进行分类，以获得多个标签不同的实例。

作为示例，当对图像中的广告进行检测时，可将图像中的广告分为三类，分别是：海报，有框广告和无框广告。其中，有框的广告就是有框广告，海报和无框广告都是无框的，而海报的出现位置一般都在墙壁上，无框广告的出现位置与海报基本不重叠，多出现在屏幕等地方。

在步骤S1042中，根据实例的标签分类结果，将多个标签不同的实例对应传输至不同的实例域分类网络中，其中，不同的实例域分类网络之间的参数相互独立。

在一些实施例中，根据每个实例被分配的标签，标签类别相同的实例使用同一个实例域分类网络，标签类别不同的实例被分配到不同的实例域分类网络中进行训练，不同的实例域分类网络之间参数相互独立。

作为示例，当对图像中的广告进行检测时，已将图像中的广告分为三类：海报，有框广告和无框广告。因此，实例域分类网络需要设置三个。分别将三种不同类型的广告输入至不同的实例域分类网络进行分类。

在步骤S1043中，通过实例域分类网络分别对多个标签不同的实例进行分类，得到实例属于目标域的概率。

在一些实施例中，不同的实例域分类网络的结构相同，由4096×1024，1024×1024，1024×2三个全连接层相连组成，全连接层之间均使用了线性整流函数(RectifiedLinear Unit，ReLU)以及参数为0.5的正则化(Dropout)层，将实例输入到该实例对应的实例域分类网络中，通过Softmax函数即可计算出该实例属于目标域的概率。

在步骤S1044中，通过实例域分类网络获取表征实例属于源域或目标域的实例标识；

在一些实施例中，输入目标域和源域中的图像训练神经网络模型时，已对训练样本图像是属于源域或目标域进行标注，因此，输入至神经网络模型训练的图像已具备该图像是来自源域还是目标域的标识。实例与图像来自源域还是目标域的标识保持一致，例如：一张图像是来自源域，那么该图像中所有的实例均来自源域。通过实例域分类网络获取表征实例属于源域或目标域的实例标识。

在步骤S1045中，根据实例属于目标域的概率和对应的实例标识，确定实例属于目标域的概率、和实例标识之间的第二分布性差异；基于第二分布性差异确定实例域分类的损失。

在一些实施例中，求取实例属于目标域的概率和对应的实例标识的交叉熵，并将实例属于目标域的概率与对应的图像标识的交叉熵取平均值，以获得第二分布性差异，基于第二分布性差异确定实例域分类的损失。

本发明实施例通过将不同标签分类结果的实例传输至不同的实例域分类网络中进行分类，避免了由于所有实例共用一个实例域分类网络进行分类而导致因为其特征的不同将其分类到不同的域，从而能够提高实例域分类过程的准确性。

在步骤S105中，将实例域分类的损失和图像域分类的损失分别代入损失函数，根据损失函数确定梯度，并根据梯度更新神经网络模型的参数。

在一些实施例中，将实例域分类的损失和图像域分类的损失分别代入损失函数，根据损失函数确定梯度，通过梯度下降确定目标损失函数取得最小值时，对应的神经网络模型的参数；根据所确定的神经网络模型的参数更新神经网络模型。

在一些实施例中，将实例域分类的损失和图像域分类的损失分别代入损失函数，根据损失函数确定梯度，通过梯度下降确定目标损失函数取得最小值时，对应的特征提取网络、区域候选网络、包围框网络和分类网络中的参数；根据所确定的参数更新对应的特征提取网络、区域候选网络、包围框网络和分类网络。

在一些实施例中，通过训练模块5553将域分类模块5552输出的实例域分类的损失和图像域分类的损失进行加权，得到神经网络模型的损失函数，通过神经网络模型的损失函数确定梯度，并根据梯度运行反向传播算法逐层更新检测模块5551中的参数，直至损失函数收敛。

作为示例，参见图3，通过训练模块5553将域分类模块5552输出的实例域分类的损失和图像域分类的损失进行加权，得到神经网络模型的损失函数，通过神经网络模型的损失函数确定梯度，并根据梯度运行反向传播算法逐层更新检测模块5551中的参数，直至损失函数收敛。

参见图5，图5是本发明实施例提供的图像检测方法的一个可选的流程示意图，将结合各步骤进行说明。

在步骤S201中，通过神经网络模型对图像进行特征提取，根据提取到的图像的特征确定图像中的候选区域。

作为示例，参见图3，通过神经网络模型中的特征提取模块5551A提取图像的特征，通过区域候选模块5551B对提取出对图像的特征截取，以确定图像中的候选区域。

在步骤S202中，通过神经网络模型确定候选区域中围绕实例的目标区域、以及实例的分类结果。

作为示例，参见图3，通过包围框模块5551C将候选区域进行包围盒回归，得到候选区域中围绕实例的目标区域，并通过分类模块5551D将目标区域中的实例进行分类，得到实例分类结果。

图6是本发明实施例提供的用于图像检测的神经网络模型的训练方法的一个可选的原理示意图，图7是本发明实施例提供的图像检测方法的一个可选的应用场景示意图。

作为示例，将结合图6和图7说明本发明实施例所提供的神经网络模型应用于对电视剧或视频中广告位置的检测，例如，在图7中检测出广告牌的位置。

图像的目标检测框架通常是两阶段检测器，第一阶段提出感兴趣区域并对其进行初步位置回归，第二阶段对已经进行过初步回归的感兴趣区域进行物体分类和进一步的位置回归。在对电视剧或视频中广告位置的检测任务中，由于视频数据收集比较困难，包含广告的数据量较少，因此需要从互联网和公开数据集中引入更多的包含广告的图片数据加入至训练样本。

在对电视剧或视频中广告位置的检测任务中，目标域为视频中采样出来的视频帧，这些视频帧中包含的广告数据数量较少，在目标(即上述的实例)检测中通常用域适应来引入大量其他域的数据，将其他域的特征迁移到目标域，达到对目标域的数据进行增强的效果，从而提升目标检测的性能。通过对齐目标域和源域的特征可以实现域适应。在目标检测框架中加入图像级别域分类器(Domain Classifier)来判断当前图片是来自源域还是目标域，在特征层将域分类器的梯度进行反向(Gradient Reverse)回传到检测框架，使整个框架倾向于调整特征使域分类器难以区分，从而使源域和目标域的特征趋于统一，达到特征对齐的效果。实例级别(Instance-level)的特征对齐可以进一步促进源域和目标域的特征对齐。对于每个实例，通过目标检测的区域候选(RPN，Region Proposal Network)策略可以大致确定实例范围，通过感兴趣区域对齐(ROI Align)可以截取该实例的范围内的特征，将该特征输入实例级别域分类器(Domain Classifier)，判断该实例是来自于源域还是目标域，类似于图像级别域分类器，可以通过梯度反向层(Gradient Reversal Layer)使源域和目标域特征趋于统一。由于图像级别域分类器和实例级别域分类器的目的一致，为了保证图像和实例一致性，可以通过一致性损失(Consistency Loss)来使实例级别域分类器的结果尽量靠近图像级别域分类器的效果。

参见图6，图6中，A过程和B过程是从骨干网络中提取出整张图片的特征；C过程是通过ROI Align截取到的单个实例的特征，D过程是将实例特征经过一次全连接层后得到的向量。神经网络模型的训练过程具体如下：

快速目标检测框架(Faster R-CNN，Faster Regions with Convolution NeuralNetwork Features)：首先通过骨干网络提取图片特征，其中，骨干网络通常为卷积神经网络(Convolution Neural Network，CNN)；然后通过区域候选网络提出感兴趣区域并判断该区域是否有物体，对预测为有物体的候选区域进行包围盒回归，其中，区域候选网络通常为小型卷积神经网络；最后检测头部通过感兴趣区域对齐截取候选区域的特征，将区域候选网络中得到的有物体的候选区域进行进一步的包围盒回归和物体类别预测，其中，检测头部通常为目标检测框架(R-CNN，Regions with CNN Features)。

梯度反向层(GRL)：在梯度反向层中，输入特征在进行梯度回传时，会将梯度取反，即乘以-1，再乘以反向系数α，取反后的梯度能够使输入的特征调节到倾向于混淆域分类器，使域分类器与目标检测主干网络对抗，α调整对抗强度，本发明实施例中设置α为0.1。

图像级别域分类器：经过骨干网络提取到的图像的特征为(W/4)×(H/4)×256，W和H分别为原图像的宽和高。域分类器由一个小型的全卷积网络(FCN，FullyConvolutional Networks)实现，可以对图像特征进行像素级分类。图像特征经过一个卷积核大小为1×1，输出维度为512维的卷积层，再经过一个卷积核大小为1×1，输出维度为2维的卷积层，通过Softmax函数计算出每个像素点属于源域和目标域的概率。

实例级别域分类器：由于在此广告位置预测任务中，将广告分为三类：海报，有框广告和无框广告。其中，源域和目标域的数据均具有完备标签(即，图像级别分类标签有此图像是来自源域还是目标域的信息，实例级别分类标签有此实例是属于三类广告中的哪一类的标签。对于该实例是来自源域还是目标域这一标签，实例与图像保持一致，例如：一张图片是来自源域，则该图中所有实例的域标签都是源域)和包围盒。当目标域的数据具有实例级别的分类标签时，可以进行更加细致化的特征对齐，防止不同域的图片中的不同类实例特征被对齐。具体步骤如下：根据每个实例被分配的标签，标签类别相同的实例使用同一个域分类器，标签类别不同的实例被分配到不同的域分类器中进行训练，不同的域分类器之间参数相互独立，由于广告仅被分为三类：海报，有框广告和无框广告，即实例域分类器需要设置三个。其中，所有实例级别域分类器的结构相同，均为4096×1024，1024×1024，1024×2三个全连接层相连组成，全连接层之间均使用了ReLU非线性激活函数以及参数为0.5的Dropout层，经过RPN和ROI Align得到每个候选区域的特征为7×7×4096，经全局平均池化(Global Average Pooling)操作之后得到一个4096维的向量，将此向量输入到该实例对应的域分类器中，最后通过Softmax函数即可得到域分类结果。

一致性损失：对于同一张图片，既有图像级别的域分类概率，维度为(W/4)×(H/4)×2，又有实例级别的域分类概率，每个实例的域分类概率为一个2维向量。将图像级别的域分类结果在空间维度取平均，即对于(W/4)×(H/4)个位置取平均，得到一个2维向量，使每个实例的域分类结果接近于这个2维向量。具体可以将此2维向量固定，即不回传梯度，与每个实例的域分类概率做均方误差，作为一项损失。

目标损失函数：神经网络模型整体的目标损失函数为：

L＝L_det+λ(L_image-da+L_instance-da+L_consistency) (1)

L_det＝L_rpn+L_rcnn (2)

其中，L_det表示目标检测的总体损失，L_rpn表示RPN网络的损失，L_rcnn表示RCNN网络的损失，L_rcnn包含物体的分类损失和定位损失。

L_det也表示Faster R-CNN的损失函数，分别由RPN部分和R-CNN部分构成。RPN部分包含两个损失(Loss)项，分别是分类的预测概率和包围盒的回归Loss，分类的预测概率为交叉熵，RPN为二分类，即有物体类和无物体类，包围盒的回归Loss为smooth_l1函数，预测物体中心点和长高与标签相比的偏移量，四个变量以(x，y，w，h)的形式进行回归，x表示中心点横坐标，y表示中心点纵坐标，w表示物体宽度，h表示物体高度。R-CNN部分也包含两个Loss项，分别是分类的预测概率和包围盒的回归Loss，分类的预测概率为交叉熵，R-CNN在广告位置预测中也为二分类，分为广告类和非广告类，包围盒的回归Loss与RPN中相同。

L_image-da为图像级域分类器的Loss，为每个像素点的域分类概率与标签的交叉熵的平均值，此处每个点为二分类，即该像素点表示的特征属于源域或者目标域，采用Softmax函数进行输出。

L_instance-da为实例级域分类器的Loss，为每个实例的域分类概率与标签的交叉熵的平均值，每个实例的分类为二分类，即该实例表示的特征属于源域或者目标域，采用Softmax函数进行输出。

L_consistency为一致性损失，为同一张图片中每个实例的分类的域分类概率与图像的域分类概率的在像素级别取平均后的概率的差值的平方之和。假设一张图片中有K个实例，每个实例经过感兴趣区域池化之后的特征大小均相同，其特征均为m行n列，即每一个实例的特征均有m×n个像素，则：

其中，P_k为第k个实例的域分类概率，p_ij为图像特征在第i行第j列处的分类概率。

λ是神经网络模型的超参数，可将λ作为一个系数来平衡目标检测的损失和域分类器的损失，λ取值范围为任意正数，本发明实施例中将λ设置为0.1。

最后根据目标损失函数采用随机梯度下降更新神经网络模型中的参数。

神经网络模型的应用过程具体如下：

图像中广告位置检测过程：使用在计算机视觉系统识别项目(ImageNet)上预训练的CNN作为提取特征的网络的初始化，把提取的作为模型的输入，预训练的CNN跟随模型的其余部分一起进行训练，图像域分类器和实例域分类器与检测主网络同时训练，训练后即可得到可用的模型参数，测试时将数据输入整体网络进行前向计算就可以得到检测结果。对于检测出的广告实例，会给予一个定位和置信度，当置信度低于阈值时，认为此实例不是广告，当整张图片中所有检测出的广告实例置信度均低于阈值时，可认为此图像中不包含广告，由此可以判断图像中是否包含广告。

下面继续说明本发明实施例提供的用于图像检测的神经网络模型的训练装置555的实施为软件模块的示例性结构，在一些实施例中，如图2和图3所示，存储在存储器550的用于图像检测的神经网络模型的训练装置555中的软件模块可以包括：待训练的神经网络模型以及用于训练神经网络模型的训练模块5553。其中，待训练的神经网络模型由检测模块5551和域分类模块5552组成。检测模块5551包括：特征提取模块5551A、区域候选模块5551B、包围框模块5551C、以及分类模块5551D；域分类模块5552包括：图像域分类模块5552A、预设标签分类模块5552B和多个实例域分类模块5552C(图3中示例性示出了实例域分类模块5552C-1、5552C-2和5552C-3)

检测模块5551，用于对源域和目标域中的图像进行特征提取，根据提取到的图像的特征确定所述图像中的候选区域；通过所述神经网络模型确定所述候选区域中围绕实例的目标区域、以及所述实例的分类结果；

域分类模块5552，用于对所述图像进行分类，得到包括所述图像属于目标域的类别的分类结果，并根据所述图像的分类结果确定图像域分类的损失；通过所述神经网络模型对所述实例进行分类，得到包括所述实例属于目标域的类别的分类结果，并根据所述实例的分类结果确定实例域分类的损失；

训练模块5553，用于将所述实例域分类的损失和所述图像域分类的损失分别代入损失函数，根据所述损失函数确定梯度，并根据所述梯度更新所述神经网络模型的参数。

在一些实施例中，所述检测模块5551，还用于通过所述特征提取模块5551A提取源域和目标域中的图像的特征；通过所述区域候选模块5551B截取所述图像中的特征，以确定所述图像中的候选区域，其中，所述候选区域中包括所述实例。

在一些实施例中，所述检测模块5551，还用于通过所述包围框模块5551C将所述候选区域进行包围盒回归，得到所述候选区域中围绕实例的目标区域；通过所述分类模块5551D将所述目标区域中的实例进行分类，得到所述实例的分类结果。

在一些实施例中，所述域分类模块5552，还用于通过所述图像域分类模块5552A确定所述图像中包含的像素点；通过所述图像域分类模块5552A对所述图像中包含的像素点进行分类，得到所述图像中每个像素点属于目标域的概率。

在一些实施例中，所述域分类模块5552，还用于通过所述图像域分类模块5552A获取表征所述图像属于源域或目标域的图像标识；根据所述图像中每个像素点属于目标域的概率和对应的图像标识，确定所述图像中每个像素点属于目标域的概率、和所述图像标识之间的第一分布性差异；基于所述第一分布性差异确定所述图像域分类的损失。

在一些实施例中，所述域分类模块5552，还用于根据预设标签对所述实例进行分类，以获得多个标签不同的实例；根据所述实例的标签分类结果，将多个标签不同的实例对应传输至不同的实例域分类模块5552C中，其中，所述不同的实例域分类模块5552C之间的参数相互独立；通过所述实例域分类模块5552C分别对多个标签不同的实例进行分类，得到所述实例属于目标域的概率。

在一些实施例中，所述域分类模块5552，还用于通过所述实例域分类模块5552C获取表征所述实例属于源域或目标域的实例标识；根据所述实例属于目标域的概率和对应的实例标识，确定所述实例属于目标域的概率、和所述实例标识之间的第二分布性差异；基于所述第二分布性差异确定所述实例域分类的损失。

在一些实施例中，所述训练模块5553，还用于通过梯度下降确定所述目标损失函数取得最小值时，对应的所述神经网络模型的参数；根据所确定的神经网络模型的参数更新所述神经网络模型。

本发明实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的方法，例如，如图4A示出的方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在HTML文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，本发明实施例具有以下有益效果：

1)通过域适应方法引入远大于目标域数据的数据量，将源域和目标域的数据特征对齐，扩充了数据量，可以极大的帮助检测器提高性能，增强模型泛化性，防止模型过拟合。

2)分别对实例和图像进行域分类，确定实例域分类和图像域分类的损失，并分别应用于损失函数，根据损失函数更新神经网络模型的参数，能够达到对目标域的图像增强，从而增加训练样本的多样性，提高神经网络模型鲁棒性，避免过拟合，提高了图像目标检测的效果。

3)通过将不同标签分类结果的实例传输至不同的实例域分类网络中进行分类，避免了由于所有实例共用一个实例域分类网络进行分类而导致因为其特征的不同将其分类到不同的域，从而能够提高实例域分类过程的准确性。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种用于图像检测的神经网络模型的训练方法，其特征在于，所述方法包括：

通过所述神经网络模型包括的图像域分类网络确定所述图像中包含的像素点，并通过所述图像域分类网络对所述图像中包含的像素点进行分类，得到所述图像中每个像素点属于目标域的概率；

通过所述图像域分类网络获取表征所述图像属于源域或目标域的图像标识；

确定所述图像中每个像素点属于目标域的概率和对应的图像标识的交叉熵，并将所述图像中每个像素点属于目标域的概率与对应的图像标识的交叉熵取平均值，以获得第一分布性差异；

基于所述第一分布性差异确定图像域分类的损失；

根据预设标签对所述实例进行分类，以获得多个标签不同的实例；

通过所述神经网络模型包括的多个实例域分类网络对所述多个标签不同的实例进行分类，将得到的所述实例属于目标域的概率作为所述实例属于目标域的类别的分类结果，其中，所述多个标签与所述多个实例域分类网络一一对应，所述多个实例域分类网络之间的参数相互独立；

根据所述实例的分类结果确定实例域分类的损失；

将所述实例域分类的损失和所述图像域分类的损失分别代入损失函数，通过梯度下降确定所述损失函数取得最小值时，对应的所述神经网络模型的参数，并根据所确定的神经网络模型的参数更新所述神经网络模型。

2.根据权利要求1所述的方法，其特征在于，

所述神经网络模型包括：特征提取网络和区域候选网络；

所述通过所述神经网络模型对源域和目标域中的图像进行特征提取，根据提取到的图像的特征确定所述图像中的候选区域，包括：

通过所述特征提取网络提取源域和目标域中的图像的特征；

通过所述区域候选网络截取所述图像中的特征，以确定所述图像中的候选区域，其中，所述候选区域中包括所述实例。

3.根据权利要求1所述的方法，其特征在于，

所述神经网络模型包括：包围框网络和分类网络；

所述通过所述神经网络模型确定所述候选区域中围绕实例的目标区域、以及所述实例的分类结果，包括：

通过所述包围框网络将所述候选区域进行包围盒回归，得到所述候选区域中围绕实例的目标区域；

通过所述分类网络将所述目标区域中的实例进行分类，得到所述实例的分类结果。

4.根据权利要求1所述的方法，其特征在于，所述根据所述实例的分类结果确定实例域分类的损失，包括：

获取表征所述实例属于源域或目标域的实例标识；

根据所述实例属于目标域的概率和对应的实例标识，确定所述实例属于目标域的概率、和所述实例标识之间的第二分布性差异；

基于所述第二分布性差异确定所述实例域分类的损失。

5.一种基于权利要求1至4任一项所述的神经网络模型的图像检测方法，其特征在于，所述方法包括：

6.一种用于图像检测的神经网络模型的训练装置，其特征在于，所述装置包括：

域分类模块，用于通过所述神经网络模型包括的图像域分类网络确定所述图像中包含的像素点，并通过所述图像域分类网络对所述图像中包含的像素点进行分类，得到所述图像中每个像素点属于目标域的概率；通过所述图像域分类网络获取表征所述图像属于源域或目标域的图像标识；确定所述图像中每个像素点属于目标域的概率和对应的图像标识的交叉熵，并将所述图像中每个像素点属于目标域的概率与对应的图像标识的交叉熵取平均值，以获得第一分布性差异；基于所述第一分布性差异确定图像域分类的损失；根据预设标签对所述实例进行分类，以获得多个标签不同的实例；通过所述神经网络模型包括的多个实例域分类网络对所述多个标签不同的实例进行分类，将得到的所述实例属于目标域的概率作为所述实例属于目标域的类别的分类结果，其中，所述多个标签与所述多个实例域分类网络一一对应，所述多个实例域分类网络之间的参数相互独立；根据所述实例的分类结果确定实例域分类的损失；

训练模块，用于将所述实例域分类的损失和所述图像域分类的损失分别代入损失函数，通过梯度下降确定所述损失函数取得最小值时，对应的所述神经网络模型的参数，并根据所确定的神经网络模型的参数更新所述神经网络模型。

7.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至5任一项所述的用于图像检测的神经网络模型的训练方法。

8.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至5任一项所述的用于图像检测的神经网络模型的训练方法。