CN110580487A

CN110580487A - 神经网络的训练方法、构建方法、图像处理方法和装置

Info

Publication number: CN110580487A
Application number: CN201810586637.1A
Authority: CN
Inventors: 陈岩
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2018-06-08
Filing date: 2018-06-08
Publication date: 2019-12-17
Also published as: EP3579147A1; US20190377949A1; WO2019233343A1; US10990825B2

Abstract

本申请涉及一种神经网络的训练方法和装置、检测方法、图像处理方法和装置、移动终端、计算机可读存储介质。所述方法包括：将包含有指定图像类别和指定对象类别的训练图像输入到神经网络，进行检测得到反映所述训练图像中背景图像所属指定图像类别的第一预测置信度与第一真实置信度之间的差异的第一损失函数，以及得到反映所述训练图像中前景目标所属指定对象类别的第二预测置信度与第二真实置信度之间的差异的第二损失函数；将所述第一损失函数和第二损失函数进行加权求和得到目标损失函数；根据所述目标损失函数调整所述神经网络的参数，对所述神经网络进行训练。可以获取更多的图像信息。

Description

神经网络的训练方法、构建方法、图像处理方法和装置

技术领域

本申请涉及计算机应用领域，特别是涉及一种神经网络的训练方法和装置、构建方法、图像处理方法和装置、移动终端、计算机可读存储介质。

背景技术

随着移动终端的普及，越来越多的用户使用移动终端拍摄，记录所见的场景。传统的图像处理只能识别图像整体类别，无法获取更多的信息。

发明内容

本申请实施例提供一种神经网络的训练方法和装置、构建方法、图像处理方法和装置、移动终端、计算机可读存储介质，可以获取更多的信息。

一种神经网络的训练方法，包括：

将包含有指定图像类别和指定对象类别的训练图像输入到神经网络，通过所述神经网络的基础网络层进行特征提取，将提取的图像特征输入到分类网络层和目标检测网络层，在所述分类网络层得到反映所述训练图像中背景图像所属指定图像类别的第一预测置信度与第一真实置信度之间的差异的第一损失函数，在所述目标检测网络层得到反映所述训练图像中前景目标所属指定对象类别的第二预测置信度与第二真实置信度之间的差异的第二损失函数；

将所述第一损失函数和第二损失函数进行加权求和得到目标损失函数；

根据所述目标损失函数调整所述神经网络的参数，对所述神经网络进行训练。

一种神经网络的训练装置，包括：

获取模块，用于将包含有指定图像类别和指定对象类别的训练图像输入到神经网络，通过所述神经网络的基础网络层进行特征提取，将提取的图像特征输入到分类网络层和目标检测网络层，在所述分类网络层得到反映所述训练图像中背景图像所属指定图像类别的第一预测置信度与第一真实置信度之间的差异的第一损失函数，在所述目标检测网络层得到反映所述训练图像中前景目标所属指定对象类别的第二预测置信度与第二真实置信度之间的差异的第二损失函数；

计算模块，用于将所述第一损失函数和第二损失函数进行加权求和得到目标损失函数；

参数调整模块，用于根据所述目标损失函数调整所述神经网络的参数，对所述神经网络进行训练。

一种神经网络的构建方法，包括：

构建至少包含一个输入层、n个中间层和两个输出层的神经网络，其中，将第i个中间层配置为图像特征提取层，所述第j个中间层级联到所述神经网络的第一支路，将所述第k个中间层级联到所述神经网络的第二支路，其中，i小于j,j小于k；i、j、k、n均为正整数，且i、j、k均小于n；一个输出层位于所述第一支路，一个输出层位于所述第二支路；

将所述神经网络的第一支路的第一输出配置为在用所述神经网络进行图像检测时输出第一置信度，所述第一置信度表示采用所述神经网络检测出的背景图像所属指定图像类别的置信度；

将所述神经网络的第二支路的第二输出配置为在用所述神经网络进行图像检测时输出每个预选的默认边界框相对于指定对象所对应的真实边界框的偏移量参数和所属指定对象类别的第二置信度。

一种图像处理方法，包括：

获取待检测图像；

将所述待检测图像输入到神经网络的输入层；

通过所述神经网络的基础网络层对所述待检测图像进行特征提取，将提取的图像特征输入到分类网络层和目标检测网络层；

通过所述分类网络层进行分类检测输出背景图像所属指定图像类别的置信度；

通过所述目标检测网络层进行目标检测得到前景目标所属指定对象类别的置信度。

一种图像处理装置，包括：

图像输入模块，用于获取待检测图像，将所述待检测图像输入到神经网络的输入层；

特征提取模块，用于通过所述神经网络的基础网络层对所述待检测图像进行特征提取，将提取的图像特征输入到分类网络层和目标检测网络层；

分类检测模块，用于通过所述分类网络层进行分类检测输出背景图像所属指定图像类别的置信度；

目标检测模块，用于通过所述目标检测网络层进行目标检测得到前景目标所属指定对象类别的置信度。

一种移动终端，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述的神经网络的训练方法的步骤，或者执行所述的图像处理方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的神经网络的训练方法的步骤，或者实现所述的图像处理方法的步骤。

本申请实施例中神经网络的训练方法和装置、构建方法、图像处理方法和装置、移动终端、计算机可读存储介质，通过背景图像所属指定图像类别所对应的第一损失函数和前景目标所属指定对象类别所对应的第二损失函数的加权求和得到目标损失函数，根据目标损失函数调整神经网络的参数，使得训练的神经网络后续可以同时识别出图像分类和前景目标，获取更多的信息。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中神经网络的训练方法的流程图；

图2为一个实施例中拍摄场景的类别示意图；

图3为一个实施例中神经网络的架构示意图；

图4为另一个实施例的神经网络的训练方法的流程图；

图5为一个实施例中训练图像中目标位置确定示意图；

图6为另一个实施例中神经网络的架构示意图；

图7为一个实施例中神经网络的训练装置的结构框图；

图8为一个实施例中神经网络的构建方法的流程图；

图9为一个实施例中神经网络的构建装置的结构框图；

图10为一个实施例中图像处理方法的流程图；

图11为一个实施例中图像处理装置的结构框图；

图12A为一个实施例中移动终端的内部结构示意图；

图12B为一个实施例中服务器的内部结构示意图；

图13为一个实施例中图像处理电路的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中神经网络的训练方法的流程图。如图1所示，一种神经网络的训练方法，包括步骤102至步骤106。其中：

步骤102，将包含有指定图像类别和指定对象类别的训练图像输入到神经网络，通过该神经网络的基础网络层进行特征提取，将提取的图像特征输入到分类网络层和目标检测网络层，在该分类网络层得到反映该训练图像中背景图像所属指定图像类别的第一预测置信度与第一真实置信度之间的差异的第一损失函数，在该目标检测网络层得到反映该训练图像中前景目标所属指定对象类别的第二预测置信度与第二真实置信度之间的差异的第二损失函数。

指定图像类别是指预先定义的图像的分类类别，图像的分类类别可包括风景、海滩、雪景、蓝天、绿地、夜景、黑暗、背光、日出/日落、室内、烟火、聚光灯等。指定对象类别是指预先定义的图像中的目标的类别。对象的类别可包括人像、婴儿、猫、狗、美食等。图像分类类别和指定对象类别还可为文本文档、微距等。

在统计学中，一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信度是被测量参数的测量值的可信程度。

神经网络包括输入层、基础网络层、分类网络层、目标检测网络层和输出层。输入层级联到基础网络层。输入层接收到训练图像，并将训练图像传递给基础网络层。

基础网络层用于对输入的图像进行特征提取，得到图像特征。基础网络层可采用SIFT(Scale-invariant feature transform)特征、方向梯度直方图(Histogram ofOriented Gradient，HOG)特征、VGG、googlenet等网络层提取特征。VGG提取特征可采用VGG16中取前几层提取图像特征。VGG16接收输入的图像如为300*300*3，首先可对输入图像进行预处理，再使用两个黄色的卷积层(卷积核为3*3*3)进行卷积处理，通过对一个三维的27个数求和，然后滑窗移动计算出一维的298*298的矩阵，填充得到300*300*1，在第一个卷积层安置有64个卷积核，则得到300*300*64，然后再按照步长为2，池化采用2*2*64，可以得到150*150*64，第二个卷积层有128个卷积核，处理后可得到75*75*128，依次类推逐层卷积、池化处理得到图像特征。

分类网络层可采用卷积层对训练图像的背景图像类别进行分类，然后级联到softmax层输出背景图像类别所属指定图像类别的置信度。分类网络层可为Mobilenet层或Mobilenet V2层，Mobilenet层可以为深度卷积和一个点卷积(1*1卷积核)。深度卷积将每个卷积核应用到每一个通道，点卷积用来组合通道卷积的输出。点卷积后面可接batchnorm和激活层ReLU，然后输入到softmax层进行分类，输出背景图像所属指定图像类别的第一预测置信度与第一真实置信度直接的差异的第一损失函数。Mobilenet V2是Mobilenet的改进，在深度卷积之前增加了一个1*1的扩张层，以提升通道数，获得更多特征，并在最后采用Linear，防止ReLU破坏特征。

在神经网络进行训练时，softmax层可配置训练集{(x⁽¹⁾,y⁽¹⁾),...,(x^(m),y^(m))}，有y⁽ⁱ⁾∈{1,2,3,...,k}，总共有k个分类。对于每个输入x都会有对应每个类别的概率，即p(y＝j|x)。softmax的代价函数定为如下，其中包含了示性函数1{j＝y⁽ⁱ⁾}，表示如果第i个样本的类别为j,则y_ij＝1，代价函数可看成是最大化似然函数，也即是最小化负对数似然函数。然后通过梯度下降算法来最小化代价函数。

目标检测网络层为在基础网络层的末尾增加卷积特征层。卷积特征层可以使用一组卷积滤波器产生固定的预测集合来对多尺度特征图进行检测。对于具有p个通道的大小为m*n的特征层，可以使用3*3*p卷积核卷积操作，得到每一个指定对象类别对应的第二预测置信度。目标检测网络层级联softmax层，输出前景目标所属指定对象类别的置信度。对背景图像进行检测得到第一预测置信度，对前景目标进行检测得到第二预测置信度。第一预测置信度为采用该神经网络预测出的该训练图像中背景图像所属指定图像类别的置信度。第二预测置信度为采用该神经网络预测出的该训练图像中前景目标所属指定对象类别的置信度。

训练图像中可以预先标注指定图像类别和指定对象类别，得到第一真实置信度和第二真实置信度。该第一真实置信度表示在该训练图像中预先标注的背景图像所属指定图像类别的置信度。第二真实置信度表示在该训练图像中预先标注的前景目标所属指定对象类别的置信度。真实置信度可以表示为1(或正值)和0(或负值)，分别用以表示属于指定图像类别和不属于指定图像类别。

求取第一预测置信度与第一真实置信度之间的差异得到第一损失函数，求取第二预测置信度与第二真实置信度之间的差异得到第二损失函数。第一损失函数和第二损失函数均可采用对数函数、双曲线函数、绝对值函数等。

如图2所示，训练图像的拍摄场景可包括指定图像类别、指定对象类别和其他。指定图像类别为背景图像类别，可包括风景、海滩、雪景、蓝天、绿地、夜景、黑暗、背光、日出/日落、室内、烟火、聚光灯等。指定对象类别为前景目标所属类别，可为人像、婴儿、猫、狗、美食等。其他可为文本文档、微距等。

步骤104，将该第一损失函数和第二损失函数进行加权求和得到目标损失函数。

首先给第一损失函数和第二损失函数分别配置对应的权重值，该权重值可根据识别场景进行调整。将第一损失函数乘以对应的第一权重值a，第二损失函数乘以对应的第二权重值b，再求取两个乘积之和得到目标损失函数。

步骤106，根据该目标损失函数调整该神经网络的参数，对该神经网络进行训练。

具体地，神经网络的参数是指每层网络层的权重值。利用目标损失函数调整神经网络的参数，使得第一损失函数和第二损失函数均最小化，也就是使得预测置信度与真实置信度之间的差异都最小从而得到训练好的神经网络。目标损失函数调整神经网络的参数可通过反向传播算法逐级调整每层网络的参数。反向传播算法是通过目标损失函数输出值与实际值的误差利用链式法则调整神经网络的参数的值，不断迭代，直至收敛。

本申请实施例中，通过对背景图像所属指定图像类别所对应的第一损失函数和前景目标所属指定对象类别所对应的第二损失函数的加权求和得到目标损失函数，根据目标损失函数调整神经网络的参数，使得训练的神经网络后续可以同时识别出图像类别和前景目标类别，获取更多的信息，且提高了识别效率。

在一个实施例中，上述神经网络的训练方法还包括：该神经网络包括至少一个输入层、基础网络层、分类网络层、目标检测网络层和两个输出层，该两个输出层包括与该分类网络层级联的第一输出层和与该目标检测网络层级联的第二输出层；其中，在训练阶段，该输入层用于接收该训练图像，该第一输出层用于输出该分类网络层检测的背景图像所属指定图像类别的第一预测置信度；该第二输出层用于输出该目标检测网络层检测的前景目标所属指定对象类别的第二预测置信度。

为了得到训练图像中的背景图像所属指定图像类别的第一预测置信度和前景目标所属指定对象类别的第二预测置信度，首先对每个输入的训练图像，向神经网络的输入层输入与该训练图像相同大小的第一真实置信度和第二真实置信度。通常属于指定图像类别或指定对象类别，则真实置信度为1，不属于指定图像类别或指定对象类别，则真实置信度为0。

图3为一个实施例中神经网络的架构示意图。如图3所示，神经网络的输入层接收带有图像类别标签的训练图像，通过基础网络(如VGG网络)进行特征提取，并将提取的图像特征输出给目标检测网络层的特征层，由该特征层进行背景图像的检测得到第一损失函数，以及进行前景目标的检测得到第二损失函数，将第一损失函数和第二损失函数进行加权求和得到目标损失函数。

图4为另一个实施例的神经网络的训练方法的流程图，如图4所示，该神经网络的训练方法包括步骤402至步骤406。

步骤402，将包含有指定图像类别、指定对象类别和指定对象类别所对应的真实边界框的训练图像输入到神经网络，通过该神经网络的基础网络层进行特征提取，将提取的图像特征输入到分类网络层和目标检测网络层，在该分类网络层得到反映该训练图像中背景图像所属指定图像类别的第一预测置信度与第一真实置信度之间的差异的第一损失函数，在该目标检测网络层得到反映该训练图像中前景目标所属指定对象类别的第二预测置信度与第二真实置信度之间的差异的第二损失函数，以及每个预选的默认边界框相对于指定对象类别所对应的真实边界框的偏移量参数，根据该偏移量参数构建位置损失函数。

指定对象类别的真实边界框是训练图像中预先标注的指定对象类别所在的真实位置的边界框。可记录真实边界框的左上角点和右下角点的绝对坐标值，或者左上角点的绝对坐标值和右下角点相对左上角点的相对坐标值，或者右下角绝对坐标值和左上角点相对于右下角点的相对坐标值，或者真实边界框的中心点坐标值、长度和宽度。对于每个真实边界框，从默认边界框集合中选择对应的默认边界框，得到预选的默认边界框。预先的默认边界框随位置、纵横比和尺度而变化。将默认边界框与jaccard重叠高于阈值(如0.5)的任何真实边界框相匹配，建立默认边界框与真实边界框的对应关系。每个预选的默认边界框相对于指定对象类别所对应的真实边界框的偏移量参数可包括默认边界框的中心点坐标(cx,cy)、宽度偏移(w)和高度偏移(h)。根据该偏移量参数构建位置损失函数。

如图5所示，对于位于训练图像500的指定对象类别的真实边界框510的中心像素点坐标(x0,y0)，预选的默认边界框520的中心像素点坐标(x1,y1)，默认边界框520相对于真实边界框510的宽度偏移量为w，高度偏移量为h，w为x1-x0,h为y1-y0。根据4个偏移量参数(x1,y1,w,h)构建位置损失函数。

步骤404，将该第一损失函数、第二损失函数和位置损失函数进行加权求和得到目标损失函数。

具体地，为第一损失函数、第二损失函数和位置损失函数分别配置对应的权重值，该权重值可根据识别场景进行调整。将第一损失函数乘以对应的第一权重值a，第二损失函数乘以对应的第二权重值b，位置损失函数乘以对应的第三权重值c,再求取三个乘积之和得到目标损失函数。

步骤406，根据该目标损失函数调整该神经网络的参数，以最小化该第一损失函数、第二损失函数和位置损失函数。

具体地，位置损失函数可以预选的默认边界框与真实边界框的偏移量参数的平滑损失。

本申请实施例中，通过对指定图像类别所对应的第一损失函数、指定对象类别所对应的第二损失函数和指定对象类别所对应的位置损失函数加权求和得到目标损失函数，根据目标损失函数调整神经网络的参数，使得训练的神经网络后续可以同时识别出图像类别和前景目标类别，以及前景目标的位置，获取了图像更多的信息，且同时识别，提高了识别效率。

在一个实施例中，神经网络包括至少一个输入层、基础网络层、分类网络层、目标检测网络层和两个输出层，该两个输出层包括与该分类网络层级联的第一输出层和与该目标检测网络层级联的第二输出层；其中，在训练阶段，该输入层用于接收该训练图像，该第一输出层用于输出该分类网络层检测的背景图像所属指定图像类别的第一预测置信度；该第二输出层用于输出该目标检测网络层检测的每个预选的默认边界框所属相对于指定对象所对应的真实边界框的偏移量参数和所属指定对象类别的第二预测置信度。图6为另一个实施例中神经网络的架构示意图。如图6所示，神经网络的输入层接收带有图像类别标签的训练图像，通过基础网络(如VGG网络)进行特征提取，并将提取的图像特征输出给特征层，由该特征层对图像进行类别检测得到第一损失函数，对前景目标根据图像特征进行目标检测得到第二损失函数，对前景目标根据前景目标进行位置检测得到位置损失函数，将第一损失函数、第二损失函数和位置损失函数进行加权求和得到目标损失函数。神经网络包括数据输入层、基础网络层、分类网络层、目标检测网络层和两个输出层。数据输入层用于接收原始图像数据。基础网络层对输入层输入的图像进行预处理以及特征提取。该预处理可包括去均值、归一化、降维和白化处理。去均值是指将输入数据各个维度都中心化为0，目的是将样本的中心拉回到坐标系原点上。归一化是将幅度归一化到同样的范围。白化是指对数据各个特征轴上的幅度归一化。图像数据进行特征提取，例如利用VGG16的前5层卷积层对原始图像进行特征提取，再将提取的特征输入到分类网络层和目标检测网络层。在分类网络层可采用如Mobilenet网络或Mobilenet V2的深度卷积、点卷积对特征进行检测，然后输入到输出层得到图像分类所属指定图像类别的第一预测置信度，然后根据第一预测置信度与第一真实置信度求差得到第一损失函数；在目标检测网络层可采用如SSD网络，在VGG16的前5层的卷积层后级联卷积特征层，在卷积特征层使用一组卷积滤波器来预测指定对象类别所对应的预选默认边界框相对于真实边界框的偏移量参数和指定对象类别所对应的第二预测置信度。感兴趣区域为预选默认边界框的区域。根据偏移量参数构建位置损失函数，根据第二预测置信度与第二真实置信度的差异得到第二损失函数。将第一损失函数、第二损失函数和位置损失函数加权求和得到目标损失函数，根据目标损失函数采用反向传播算法调整神经网络的参数，对神经网络进行训练。采用训练好的神经网络对待检测图像进行识别时，神经网络输入层接收输入的待检测图像，提取待检测图像的特征，输入到分类网络层进行图像分类识别，在第一输出层通过softmax分类器输出背景图像所属各个指定图像类别的置信度，选取置信度最高且超过置信度阈值的图像类别作为该图像的背景图像所属的图像类别。将提取的待检测图像的特征输入到目标检测网络层进行前景目标检测，在第二输出层通过softmax分类器输出前景目标所属指定对象类别的置信度及对应的位置，选取置信度最高且超过置信度阈值的指定对象类别作为该图像中前景目标所属的对象类别，并输出该对象类别对应的位置。

图7为一个实施例中神经网络的训练装置的结构框图。如图7所示，一种神经网络的训练装置，包括获取模块710、计算模块720和参数调整模块730。其中：

获取模块710用于将包含有指定图像类别和指定对象类别的训练图像输入到神经网络，通过该神经网络的基础网络层进行特征提取，将提取的图像特征输入到分类网络层和目标检测网络层，在该分类网络层得到反映该训练图像中背景图像所属指定图像类别的第一预测置信度与第一真实置信度之间的差异的第一损失函数，在该目标检测网络层得到反映该训练图像中前景目标所属指定对象类别的第二预测置信度与第二真实置信度之间的差异的第二损失函数。

计算模块720用于将该第一损失函数和第二损失函数进行加权求和得到目标损失函数。

参数调整模块730用于根据该目标损失函数调整该神经网络的参数，对该神经网络进行训练。

本申请实施例中，在一个实施例中，神经网络包括至少一个输入层、基础网络层、分类网络层、目标检测网络层和两个输出层，该两个输出层包括与该分类网络层级联的第一输出层和与该目标检测网络层级联的第二输出层；其中，在训练阶段，该输入层用于接收该训练图像，该第一输出层用于输出该分类网络层检测的背景图像所属指定图像类别的第一预测置信度；该第二输出层用于输出该目标检测网络层检测的前景目标所属指定对象类别的第二预测置信度。在一个实施例中，基础网络层为VGG层，该分类网络层为Mobilenet层MobilenetV2层，该目标检测网络层为SSD层，该输出层为softmax分类器。

在一个实施例中，计算模块720还用于将该提取的图像特征输入到该目标检测网络层进行位置训练，得到每个预选的默认边界框相对于指定对象类别所对应的真实边界框的偏移量参数，根据该偏移量参数构建位置损失函数，以及将该第一损失函数、第二损失函数和位置损失函数进行加权求和得到目标损失函数。

参数调整模块730还用于根据该目标损失函数调整该神经网络的参数，以最小化该第一损失函数、第二损失函数和位置损失函数。

在一个实施例中，神经网络包括至少一个输入层、基础网络层、分类网络层、目标检测网络层和两个输出层，该两个输出层包括与该分类网络层级联的第一输出层和与该目标检测网络层级联的第二输出层；其中，在训练阶段，该输入层用于接收该训练图像，该第一输出层用于输出该分类网络层检测的背景图像所属指定图像类别的第一预测置信度；该第二输出层用于输出该目标检测网络层检测的每个预选的默认边界框所属相对于指定对象所对应的真实边界框的偏移量参数和所属指定对象类别的第二预测置信度。

图8为一个实施例中神经网络的构建方法的流程图。如图8所示，一种神经网络的构建方法，包括：

步骤802，构建至少包含一个输入层、n个中间层和两个输出层的神经网络，其中，将第i个中间层配置为图像特征提取层，该第j个中间层级联到该神经网络的第一支路，将该第k个中间层级联到该神经网络的第二支路，其中，i小于j,j小于k；i、j、k、n均为正整数，且i、j、k均小于n；一个输出层位于该第一支路，一个输出层位于该第二支路。

步骤804，将该神经网络的第一支路的第一输出配置为在用该神经网络进行图像检测时输出第一置信度，该第一置信度表示采用该神经网络检测出的背景图像所属指定图像类别的置信度。

步骤806，将该神经网络的第二支路的第二输出配置为在用该神经网络进行图像检测时输出每个预选的默认边界框相对于指定对象所对应的真实边界框的偏移量参数和所属指定对象类别的第二置信度。

本申请实施例中的神经网络的构建方法，通过构建检测背景图像类别、前景目标类别和前景目标位置的检测网络，并根据三者的检测结果加权求和得到目标损失函数，根据目标损失函数调整神经网络，后续通过该神经网络可同时检测图像的背景图像类别和前景目标类别及目标位置，获取更多的图像信息，且提高了检测效率。

图9为一个实施例中神经网络的构建装置的结构框图。如图9所示，一种神经网络的构建装置，包括构建模块910、第一配置模块920和第二配置模块930。其中：

构建模块910用于构建至少包含一个输入层、n个中间层和两个输出层的神经网络，其中，将第i个中间层配置为图像特征提取层，该第j个中间层级联到该神经网络的第一支路，将该第k个中间层级联到该神经网络的第二支路，其中，i小于j,j小于k；i、j、k、n均为正整数，且i、j、k均小于n；一个输出层位于该第一支路，一个输出层位于该第二支路。

第一配置模块910用于将该神经网络的第一支路的第一输出配置为在用该神经网络进行图像检测时输出第一置信度，该第一置信度表示采用该神经网络检测出的背景图像所属指定图像类别的置信度。

第二配置模块920用于将该神经网络的第二支路的第二输出配置为在用该神经网络进行图像检测时输出每个预选的默认边界框相对于指定对象所对应的真实边界框的偏移量参数和所属指定对象类别的第二置信度。

本申请实施例中的神经网络的构建装置，通过构建检测背景类别、前景目标类别和前景目标位置的检测网络，并根据三者的检测结果加权求和得到目标损失函数，可以同时检测图像的背景类别、前景目标类别和前景目标位置，提高了检测效率。

图10为一个实施例中图像处理方法的流程图。如图10所示，一种图像处理方法，包括：

步骤1002，获取待检测图像，将该待检测图像输入到神经网络的输入层。

待检测图像可为任意的图像。如从网络下载的图像，或者移动终端本地相册的图像或拍摄的图像。

步骤1004，通过该神经网络的基础网络层对该待检测图像进行特征提取，将提取的图像特征输入到分类网络层和目标检测网络层。

步骤1006，通过该分类网络层进行分类检测输出背景图像所属指定图像类别的置信度。

步骤1008，通过该目标检测网络层进行目标检测得到前景目标所属指定对象类别的置信度。

本申请实施例的图像处理方法，通过神经网络对待检测图像进行检测，同时检测了图像的背景类别和前景目标类别，输出了更多的图像信息。

在一个实施例中，上述图像处理方法，还包括：该神经网络包括至少一个输入层、基础网络层、分类网络层、目标检测网络层和两个输出层，该两个输出层包括与该分类网络层级联的第一输出层和与该目标检测网络层级联的第二输出层；其中，在训练阶段，该输入层用于接收该训练图像，该第一输出层用于输出该分类网络层检测的背景图像所属指定图像类别的第一预测置信度；该第二输出层用于输出该目标检测网络层检测的前景目标所属指定对象类别的第二预测置信度。

在一个实施例中，上述图像处理方法，还包括：神经网络是利用第一损失函数和第二损失函数进行加权得到的目标损失函数训练得到的；该第一损失函数反映该训练图像中背景图像所属指定图像类别的第一预测置信度与第一真实置信度之间的差异；该第二损失函数反映该训练图像中前景目标所属指定对象类别的第二预测置信度与第二真实置信度之间的差异，该第一预测置信度为采用该神经网络预测出的训练图像中背景图像所属指定图像类别的置信度，该第一真实置信度表示在该训练图像中预先标注的指定图像类别的置信度；该第二预测置信度为采用该神经网络预测出的该训练图像中前景目标所属指定对象类别的置信度，该第二真实置信度表示在该训练图像中预先标注的指定对象类别的置信度。

在一个实施例中，上述图像处理方法，还包括：通过该目标检测网络层进行目标检测得到前景目标的位置及所属指定对象类别的置信度。

神经网络包括至少一个输入层、基础网络层、分类网络层、目标检测网络层和两个输出层，该两个输出层包括与该分类网络层级联的第一输出层和与该目标检测网络层级联的第二输出层；其中，在训练阶段，该输入层用于接收该训练图像，该第一输出层用于输出该分类网络层检测的背景图像所属指定图像类别的第一预测置信度；该第二输出层用于输出该目标检测网络层检测的每个预选的默认边界框所属相对于指定对象类别所对应的真实边界框的偏移量参数和所属指定对象类别的第二预测置信度。

神经网络是该神经网络是利用第一损失函数、第二损失函数和位置损失函数进行加权得到的目标损失函数训练得到的；该神经网络是利用第一损失函数和第二损失函数进行加权得到的目标损失函数训练得到的；该第一损失函数反映该训练图像中背景图像所属指定图像类别的第一预测置信度与第一真实置信度之间的差异；该第二损失函数反映该训练图像中前景目标所属指定对象类别的第二预测置信度与第二真实置信度之间的差异；该位置损失函数是根据每个预选的默认边界框相对于指定对象类别所对应的真实边界框的偏移量参数构建的；该第一预测置信度为采用该神经网络预测出的训练图像中背景图像所属指定图像类别的置信度，该第一真实置信度表示在该训练图像中预先标注的指定图像类别的置信度；该第二预测置信度为采用该神经网络预测出的该训练图像中前景目标所属指定对象类别的置信度，该第二真实置信度表示在该训练图像中预先标注的指定对象类别的置信度。

图11为一个实施例中图像处理装置的结构框图。如图11所示，一种图像处理装置，包括图像输入模块1110、特征提取模块1120、分类检测模块1130和目标检测模块1140。其中：

图像输入模块1110用于获取待检测图像，将该待检测图像输入到神经网络的输入层。

特征提取模块1120用于通过该神经网络的基础网络层对该待检测图像进行特征提取，将提取的图像特征输入到分类网络层和目标检测网络层。

分类检测模块1130用于通过该分类网络层进行分类检测输出背景图像所属指定图像类别的置信度。

目标检测模块1140用于通过该目标检测网络层进行目标检测得到前景目标所属指定对象类别的置信度。在一个实施例中，神经网络包括至少一个输入层、基础网络层、分类网络层、目标检测网络层和两个输出层，该两个输出层包括与该分类网络层级联的第一输出层和与该目标检测网络层级联的第二输出层；其中，在训练阶段，该输入层用于接收该训练图像，该第一输出层用于输出该分类网络层检测的背景图像所属指定图像类别的第一预测置信度；该第二输出层用于输出该目标检测网络层检测的前景目标所属指定对象类别的第二预测置信度。神经网络是利用第一损失函数和第二损失函数进行加权得到的目标损失函数训练得到的；该第一损失函数反映该训练图像中背景图像所属指定图像类别的第一预测置信度与第一真实置信度之间的差异；该第二损失函数反映该训练图像中前景目标所属指定对象类别的第二预测置信度与第二真实置信度之间的差异，该第一预测置信度为采用该神经网络预测出的训练图像中背景图像所属指定图像类别的置信度，该第一真实置信度表示在该训练图像中预先标注的指定图像类别的置信度；该第二预测置信度为采用该神经网络预测出的该训练图像中前景目标所属指定对象类别的置信度，该第二真实置信度表示在该训练图像中预先标注的指定对象类别的置信度。

在一个实施例中，目标检测模块1140还用于通过该目标检测网络层进行目标检测得到前景目标的位置及所属指定对象类别的置信度神经网络包括至少一个输入层、基础网络层、分类网络层、目标检测网络层和两个输出层，该两个输出层包括与该分类网络层级联的第一输出层和与该目标检测网络层级联的第二输出层；其中，在训练阶段，该输入层用于接收该训练图像，该第一输出层用于输出该分类网络层检测的背景图像所属指定图像类别的第一预测置信度；该第二输出层用于输出该目标检测网络层检测的每个预选的默认边界框所属相对于指定对象所对应的真实边界框的偏移量参数和所属指定对象类别的第二预测置信度。神经网络是该神经网络是利用第一损失函数、第二损失函数和位置损失函数进行加权得到的目标损失函数训练得到的；该神经网络是利用第一损失函数和第二损失函数进行加权得到的目标损失函数训练得到的；该第一损失函数反映该训练图像中背景图像所属指定图像类别的第一预测置信度与第一真实置信度之间的差异；该第二损失函数反映该训练图像中前景目标所属指定对象类别的第二预测置信度与第二真实置信度之间的差异；该位置损失函数是根据每个预选的默认边界框相对于指定对象所对应的真实边界框的偏移量参数构建的；该第一预测置信度为采用该神经网络预测出的训练图像中背景图像所属指定图像类别的置信度，该第一真实置信度表示在该训练图像中预先标注的指定图像类别的置信度；该第二预测置信度为采用该神经网络预测出的该训练图像中前景目标所属指定对象类别的置信度，该第二真实置信度表示在该训练图像中预先标注的指定对象类别的置信度。

应该理解的是，虽然图1、图4、图8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1、图4、图8中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

上述神经网络的训练装置、神经网络的构建装置或图像处理装置中各个模块的划分仅用于举例说明，在其他实施例中，可将神经网络的训练装置、构建装置或图像处理装置按照需要划分为不同的模块，以完成上述神经网络训练装置、神经网络的构建装置或图像处理装置的全部或部分功能。

本申请实施例还提供一种移动终端。该移动终端包括存储器及处理器，该存储器中储存有计算机程序，该计算机程序被该处理器执行时，使得该处理器执行该的神经网络的训练方法的步骤。

该移动终端包括存储器及处理器，该存储器中储存有计算机程序，该计算机程序被该处理器执行时，使得该处理器执行该的图像处理方法的步骤。

本申请实施例还提供一种计算机可读存储介质。一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现该的神经网络的训练方法的步骤。

本申请实施例还提供一种计算机可读存储介质。一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现该的图像处理方法的步骤。

图12A为一个实施例中移动终端的内部结构示意图。如图12A所示，该移动终端包括通过系统总线连接的处理器、存储器和网络接口。其中，该处理器用于提供计算和控制能力，支撑整个移动终端的运行。存储器用于存储数据、程序等，存储器上存储至少一个计算机程序，该计算机程序可被处理器执行，以实现本申请实施例中提供的适用于移动终端的无线网络通信方法。存储器可包括非易失性存储介质及内存储器。非易失性存储介质存储有操作系统和计算机程序。该计算机程序可被处理器所执行，以用于实现以下各个实施例所提供的一种神经网络的训练方法、构建方法或图像处理方法。内存储器为非易失性存储介质中的操作系统计算机程序提供高速缓存的运行环境。网络接口可以是以太网卡或无线网卡等，用于与外部的移动终端进行通信。该移动终端可以是手机、平板电脑或者个人数字助理或穿戴式设备等。

图12B为一个实施例中服务器(或云端等)的内部结构示意图。如图12B所示，该服务器包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中，该处理器用于提供计算和控制能力，支撑整个移动终端的运行。存储器用于存储数据、程序等，存储器上存储至少一个计算机程序，该计算机程序可被处理器执行，以实现本申请实施例中提供的适用于移动终端的无线网络通信方法。存储器可包括非易失性存储介质及内存储器。非易失性存储介质存储有操作系统和计算机程序。该计算机程序可被处理器所执行，以用于实现以下各个实施例所提供的一种神经网络的训练方法、构建方法或图像处理方法。内存储器为非易失性存储介质中的操作系统计算机程序提供高速缓存的运行环境。网络接口可以是以太网卡或无线网卡等，用于与外部的移动终端进行通信。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本领域技术人员可以理解，图12B中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的服务器的限定，具体的服务器可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本申请实施例中提供的神经网络的训练装置、构建装置或图像处理装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在移动终端或服务器上运行。该计算机程序构成的程序模块可存储在移动终端或服务器的存储器上。该计算机程序被处理器执行时，实现本申请实施例中所描述方法的步骤。

一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行神经网络模型处理方法或图像处理方法。

本申请实施例还提供一种移动终端。上述移动终端中包括图像处理电路，图像处理电路可以利用硬件和/或软件组件实现，可包括定义ISP(Image Signal Processing，图像信号处理)管线的各种处理单元。图13为一个实施例中图像处理电路的示意图。如图13所示，为便于说明，仅示出与本申请实施例相关的图像处理技术的各个方面。

如图13所示，图像处理电路包括ISP处理器1340和控制逻辑器1350。成像设备1310捕捉的图像数据首先由ISP处理器1340处理，ISP处理器1340对图像数据进行分析以捕捉可用于确定和/或成像设备1310的一个或多个控制参数的图像统计信息。成像设备1310可包括具有一个或多个透镜1312和图像传感器1314的照相机。图像传感器1314可包括色彩滤镜阵列(如Bayer滤镜)，图像传感器1314可获取用图像传感器1314的每个成像像素捕捉的光强度和波长信息，并提供可由ISP处理器1340处理的一组原始图像数据。传感器1320(如陀螺仪)可基于传感器1320接口类型把采集的图像处理的参数(如防抖参数)提供给ISP处理器1340。传感器1320接口可以利用SMIA(Standard Mobile Imaging Architecture，标准移动成像架构)接口、其它串行或并行照相机接口或上述接口的组合。

此外，图像传感器1314也可将原始图像数据发送给传感器1320，传感器1320可基于传感器1320接口类型把原始图像数据提供给ISP处理器1340，或者传感器1320将原始图像数据存储到图像存储器1330中。

ISP处理器1340按多种格式逐个像素地处理原始图像数据。例如，每个图像像素可具有8、10、12或14比特的位深度，ISP处理器1340可对原始图像数据进行一个或多个图像处理操作、收集关于图像数据的统计信息。其中，图像处理操作可按相同或不同的位深度精度进行。

ISP处理器1340还可从图像存储器1330接收图像数据。例如，传感器1320接口将原始图像数据发送给图像存储器1330，图像存储器1330中的原始图像数据再提供给ISP处理器1340以供处理。图像存储器1330可为存储器装置的一部分、存储设备、或移动终端内的独立的专用存储器，并可包括DMA(Direct Memory Access，直接直接存储器存取)特征。

当接收到来自图像传感器1314接口或来自传感器1320接口或来自图像存储器1330的原始图像数据时，ISP处理器1340可进行一个或多个图像处理操作，如时域滤波。处理后的图像数据可发送给图像存储器1330，以便在被显示之前进行另外的处理。ISP处理器1340从图像存储器1330接收处理数据，并对该处理数据进行原始域中以及RGB和YCbCr颜色空间中的图像数据处理。ISP处理器1340处理后的图像数据可输出给显示器1370，以供用户观看和/或由图形引擎或GPU(Graphics Processing Unit，图形处理器)进一步处理。此外，ISP处理器1340的输出还可发送给图像存储器1330，且显示器1370可从图像存储器1330读取图像数据。在一个实施例中，图像存储器1330可被配置为实现一个或多个帧缓冲器。此外，ISP处理器1340的输出可发送给编码器/解码器1360，以便编码/解码图像数据。编码的图像数据可被保存，并在显示于显示器1370设备上之前解压缩。编码器/解码器1360可由CPU或GPU或协处理器实现。

ISP处理器1340确定的统计数据可发送给控制逻辑器1350单元。例如，统计数据可包括自动曝光、自动白平衡、自动聚焦、闪烁检测、黑电平补偿、透镜1312阴影校正等图像传感器1314统计信息。控制逻辑器1350可包括执行一个或多个例程(如固件)的处理器和/或微控制器，一个或多个例程可根据接收的统计数据，确定成像设备1310的控制参数及ISP处理器1340的控制参数。例如，成像设备1310的控制参数可包括传感器1320控制参数(例如增益、曝光控制的积分时间、防抖参数等)、照相机闪光控制参数、透镜1312控制参数(例如聚焦或变焦用焦距)、或这些参数的组合。ISP控制参数可包括用于自动白平衡和颜色调整(例如，在RGB处理期间)的增益水平和色彩校正矩阵，以及透镜1312阴影校正参数。

以下为运用图13中图像处理技术实现上述的图像处理方法的步骤。

本申请所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。合适的非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)，它用作外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种神经网络的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述神经网络包括至少一个输入层、基础网络层、分类网络层、目标检测网络层和两个输出层，所述两个输出层包括与所述分类网络层级联的第一输出层和与所述目标检测网络层级联的第二输出层；其中，在训练阶段，所述输入层用于接收所述训练图像，所述第一输出层用于输出所述分类网络层检测的背景图像所属指定图像类别的第一预测置信度；所述第二输出层用于输出所述目标检测网络层检测的前景目标所属指定对象类别的第二预测置信度。

3.根据权利要求2所述的方法，其特征在于，所述基础网络层为VGG层，所述分类网络层为Mobilenet层或Mobilenet V2，所述目标检测网络层为SSD层，所述输出层为softmax分类器。

4.根据权利要求1所述的方法，其特征在于，所述训练图像包含有指定对象类别所对应的真实边界框；所述方法还包括：

将所述提取的图像特征输入到所述目标检测网络层进行位置训练，得到每个预选的默认边界框相对于指定对象类别所对应的真实边界框的偏移量参数，根据所述偏移量参数构建位置损失函数；

所述将所述第一损失函数和第二损失函数进行加权求和得到目标损失函数，包括：

将所述第一损失函数、第二损失函数和位置损失函数进行加权求和得到目标损失函数；

根据所述目标损失函数调整所述神经网络的参数，对所述神经网络进行训练，包括：

根据所述目标损失函数调整所述神经网络的参数，以最小化所述第一损失函数、第二损失函数和位置损失函数。

5.根据权利要求4所述的方法，其特征在于，所述神经网络包括至少一个输入层、基础网络层、分类网络层、目标检测网络层和两个输出层，所述两个输出层包括与所述分类网络层级联的第一输出层和与所述目标检测网络层级联的第二输出层；其中，在训练阶段，所述输入层用于接收所述训练图像，所述第一输出层用于输出所述分类网络层检测的背景图像所属指定图像类别的第一预测置信度；所述第二输出层用于输出所述目标检测网络层检测的每个预选的默认边界框所属相对于指定对象所对应的真实边界框的偏移量参数和所属指定对象类别的第二预测置信度。

6.一种神经网络的训练装置，其特征在于，包括：

7.一种神经网络的构建方法，其特征在于，包括：

8.一种图像处理方法，其特征在于，包括：

获取待检测图像，将所述待检测图像输入到神经网络的输入层；

9.根据权利要求8所述的方法，其特征在于，所述神经网络包括至少一个输入层、基础网络层、分类网络层、目标检测网络层和两个输出层，所述两个输出层包括与所述分类网络层级联的第一输出层和与所述目标检测网络层级联的第二输出层；其中，在训练阶段，所述输入层用于接收所述训练图像，所述第一输出层用于输出所述分类网络层检测的背景图像所属指定图像类别的第一预测置信度；所述第二输出层用于输出所述目标检测网络层检测的前景目标所属指定对象类别的第二预测置信度。

10.根据权利要求9所述的方法，其特征在于，所述神经网络是利用第一损失函数和第二损失函数进行加权得到的目标损失函数训练得到的；所述第一损失函数反映所述训练图像中背景图像所属指定图像类别的第一预测置信度与第一真实置信度之间的差异；所述第二损失函数反映所述训练图像中前景目标所属指定对象类别的第二预测置信度与第二真实置信度之间的差异，所述第一预测置信度为采用所述神经网络预测出的训练图像中背景图像所属指定图像类别的置信度，所述第一真实置信度表示在所述训练图像中预先标注的指定图像类别的置信度；所述第二预测置信度为采用所述神经网络预测出的所述训练图像中前景目标所属指定对象类别的置信度，所述第二真实置信度表示在所述训练图像中预先标注的指定对象类别的置信度。

11.根据权利要求8所述的方法，其特征在于，所述方法还包括：

通过所述目标检测网络层进行目标检测得到前景目标的位置及所属指定对象类别的置信度。

12.根据权利要求11所述的方法，其特征在于，所述神经网络包括至少一个输入层、基础网络层、分类网络层、目标检测网络层和两个输出层，所述两个输出层包括与所述分类网络层级联的第一输出层和与所述目标检测网络层级联的第二输出层；其中，在训练阶段，所述输入层用于接收所述训练图像，所述第一输出层用于输出所述分类网络层检测的背景图像所属指定图像类别的第一预测置信度；所述第二输出层用于输出所述目标检测网络层检测的每个预选的默认边界框所属相对于指定对象所对应的真实边界框的偏移量参数和所属指定对象类别的第二预测置信度。

13.根据权利要求12所述的方法，其特征在于，所述神经网络是所述神经网络是利用第一损失函数、第二损失函数和位置损失函数进行加权得到的目标损失函数训练得到的；所述神经网络是利用第一损失函数和第二损失函数进行加权得到的目标损失函数训练得到的；所述第一损失函数反映所述训练图像中背景图像所属指定图像类别的第一预测置信度与第一真实置信度之间的差异；所述第二损失函数反映所述训练图像中前景目标所属指定对象类别的第二预测置信度与第二真实置信度之间的差异；所述位置损失函数是根据每个预选的默认边界框相对于指定对象所对应的真实边界框的偏移量参数构建的；所述第一预测置信度为采用所述神经网络预测出的训练图像中背景图像所属指定图像类别的置信度，所述第一真实置信度表示在所述训练图像中预先标注的指定图像类别的置信度；所述第二预测置信度为采用所述神经网络预测出的所述训练图像中前景目标所属指定对象类别的置信度，所述第二真实置信度表示在所述训练图像中预先标注的指定对象类别的置信度。

14.一种图像处理装置，包括：

15.一种移动终端，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至5中任一项所述的神经网络的训练方法的步骤，或者执行如权利要求8至13中任一项所述的图像处理方法的步骤。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的神经网络的训练方法的步骤，或者实现如权利要求8至13中任一项所述的图像处理方法的步骤。