CN110516536A

CN110516536A - 一种基于时序类别激活图互补的弱监督视频行为检测方法

Info

Publication number: CN110516536A
Application number: CN201910630472.8A
Authority: CN
Inventors: 俞俊; 朱素果; 方振影; 曾焕滨
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2019-11-29
Anticipated expiration: 2039-07-12
Also published as: CN110516536B

Abstract

本发明公开了一种基于时序类别激活图互补的弱监督视频行为检测方法。本发明步骤如下：1、对视频数据和视频的类别标注进行预处理，2、特征嵌入模块，来学习嵌入后的特征，3、在线生成时序类别激活图，4、生成时序类别激活图的互补激活图，5、生成检测结果，6、模型训练，利用反向传播算法训练神经网络参数。本发明提出一种弱监督时序行为检测领域中在线生成时序类别激活图并基于此生成互补激活图的方法，以及在弱监督时序行为检测中更加适用的特征嵌入结构，并且获得了目前在弱监督时序行为检测领域中的较好效果，相比于原始的时序类别激活图的方法性能有了很大提升。

Description

一种基于时序类别激活图互补的弱监督视频行为检测方法

技术领域

本发明涉及一种针对弱监督视频行为检测(Weakly Supervised TemporalAction Detection，WSTAD)的深度神经网络，尤其涉及一种在线生成时序类别激活图的方法以及对学习时序类别激活图的补充区域进行建模表达。

背景技术

视频分析是计算机视觉领域的一个重要领域，主要是对于已有视频进行分析得到需要的内容。视频分析包含了很多热门的研究方向，如视频行为分类(ActionRecognition)，视频描述(Video Caption)，视频行为检测(Temporal Action Detection)，弱监督视频行为检测(Weakly Supervised Temporal Action Detection)等。视频行为检测的目标是给一段长视频模型来检测出视频中发生的一个或多个行为的类别以及每个行为对应的开始时间和结束时间，视频行为检测的模型训练时输入为一个视频和它对应的行为类别和每个类别的起止时间。弱监督视频行为检测的目标在于训练数据仅仅包含输入视频中发生行为的类别，而没有这些行为对应的开始时间和结束时间，但是在模型预测时需要输出预测视频中发生的行为的类别以及每个类别对应的起止时间。

随着近年来深度学习的迅速发展，使用深度神经网络，如深度卷积神经网络(Convolutional Neural Networks,CNN)和深度循环神经网络(Recurrent NeuralNetworks,RNN)进行特征提取、问题建模成为目前计算机视觉方向上的主流研究方向。在弱监督视频行为检测算法中，引入深度卷积神经网络进行视频的时空特征提取，同时对提取得到的特征设计适当的网络结构进行建模，直接输出视频中发生的动作类别以及进一步的得到每个类别对应的起止时间是一个值得深入探索的研究问题。

在实际应用方面，弱监督视频行为检测算法具有非常广泛的应用场景。例如在视频网站的大量视频中，自动生成体育运动(足球比赛，篮球比赛等)中的精彩片段，检测商场监控视频中的异常行为，同时还能够为视频描述等任务提供更有效的视频数据。

综上所述,基于弱监督视频行为检测算法是一个值得深入研究的方向，本课题拟从该任务中几个关键的难点问题切入，解决目前方法存在的问题，并最终形成一套完整的视频行为检测系统。

由于自然场景下的视频内容复杂，且视频分辨率有高有低；这使得弱监督视频行为检测算法面临巨大的挑战。具体而言，主要存在如下三方面的难点：

(1)大部分对于视频的特征提取都是使用3D卷积直接提取时空特征，或者使用TVL-1算法抽取出视频中的光流，使用光流提取视频的时序信息同时使用视频的图像帧提取视频的空间信息。但是这些方法使用的特征提取器一般是使用在视频识别数据集上预训练的深度卷积神经网络，对于弱监督行为检测任务来说，这种提取到的特征并不一定是最好的。所以如何得到更加适用于弱监督行为检测任务的视频特征是对弱监督视频行为检测算法性能影响的重要因素。

(2)如何在训练时直接生成针对视频的类别激活图：弱监督的视频行为检测由于训练数据中没有行为的开始时间和结束时间的标注，因此一般使用时序类别激活图，然后再激活图上使用阈值方法来得到行为片段，一般的方法是使用最后一个分类层的每一个类别对应的权重去乘以分类之前的特征，之后将对应相乘之后得到的结果相加得到针对该类别的时序类别激活图。这种方法存在的缺点是，必须先将模型训练好，然后使用分类层的权重来得到结果。那么，如果可以在训练的同时生成时序类别激活图，则可以针对生成的激活图进行进一步的优化，以得到更加精确的结果。

(3)由于时序类别激活图是在对于整个视频进行分类的过程中得到的，那么时序类别激活图可能只对要检测的整个行为片段中的一部分帧有高的响应值，如何使得另外一部分帧的响应值提高以使得弱监督视频行为检测的结果更加精确也是影响算法结果性能的至关重要的环节。

本发明提出了一种针对弱监督视频行为检测任务的深度神经网络架构，以解决如上三个难点问题。1.提出一种特征嵌入模块以使得使用视频分类模型提取的特征更加适用于弱监督视频行为检测任务；2.提出了一种可以在训练过程中直接生成时序类别激活图的方法；3.基于在训练过程中生成的时序类别激活图，提出了一个互补的深度卷积神经网络来学习实际行为片段中在时序类别激活图中响应较低的区域。

发明内容

本发明的目的是针对现有技术的不足，提供一种基于时序类别激活图互补的弱监督视频行为检测方法。

本发明解决其技术问题所采用的技术方案如下：

首先给定视频数据v，视频中出现的行为类别a，构成二元组v，a作为训练集。具体实现步骤如下：

步骤(1)、数据预处理，对视频数据v使用现有的经典的抽取视频时空特征的网络结构提取时空特征；

视频数据v预处理：

首先抽取所有视频数据v对应的图像帧和光流；其次使用预训练的特征提取网络分别提取图像帧和光流所对应的特征。

行为类别a预处理：

每个视频可能包含多个类别，假设有n个类别，首先将视频中出现的行为类别转换成答案字典中的索引值，最后转换为一个n维编码的答案向量。

先将所有视频以25FPS抽取图像帧，同时使用TVL-1算法抽取视频的光流，对于抽取好的图像帧和光流，使用基于Kinetics数据集预训练的I3D模型，无重叠的每16帧抽取图像帧和光流对应的1024维度的特征。

步骤(2)、特征嵌入(Feature embedding)模块

本文在基于预训练模型的基础上，提出了一个特征嵌入模块，使得视频特征对于弱监督视频行为检测任务更加有效，并且基于神经网络实现该模块，其流程如图1所示。

步骤(3)、在线生成时序类别激活图模块

其流程如图2所示，首先将嵌入后得到的视频特征经过注意力网络，得到每个视频特征对应的全部类别的重要度(所述的重要度与类别无关，所以这里是对应得到全部类别的重要度，不区分特定类别)。将每个视频特征的重要度与嵌入后得到的视频特征对应相乘得到重要度特征I，然后根据重要度特征I及分类结果生成对应每一个分类类别的时序类别激活图I(所述的时序类别激活图是基于特定的类别而言，对于任意一个特定的分类结果，得到与其分类类别对应的激活图)。

步骤(4)、时序类别激活图互补网络

如图3所示，将时序类别激活图I中大于设定阈值的区域，在嵌入后得到的视频特征中做擦除操作，获得擦除后的视频特征；将擦除后的视频特征经过注意力网络，再次得到每个视频特征对应的全部类别的重要度。将每个视频特征的重要度与擦除后的视频特征对应相乘得到重要度特征II，然后根据重要度特征II及分类结果生成对应每一个分类类别的时序类别激活图II。

步骤(5)、生成检测结果

将得到的时序类激活图I和时序类激活图II合并，然后使用阈值法得到检测结果。

步骤(6)、模型训练

根据产生的分类预测值(注：这个分类预测值指的就是上面的步骤(3)和步骤(4)各自的分类器产生的分类结果，然后这两个分类器各自计算一个交叉熵损失，而网络的总分类损失是这两个交叉熵损失之和，然后网络利用这个总损失进行反向传播，使得这两个分类器的分类结果趋于相同，这样的话这两个分类器生成的时序类别激活图就都是对同一个分类类别而言，此时才能将这两个对应同一个类别的时序类别激活图进行合并，并产生最终的定位图)同该视频的实际动作标签的差异，并利用反向传播算法(Back-Propagation，BP)对上述定义的神经网络的模型参数进行训练，直至整个网络模型收敛。

步骤(1)数据预处理，对视频数据v提取时空特征：

1-1.对视频数据v以25FPS抽取图像帧，同时使用TVL-1算法抽取视频的光流。对于抽取好的图像帧和光流，使用基于Kinetics数据集预训练的I3D模型，无重叠的每16帧抽取图像帧和光流对应的1024维度的特征，最终得到视频特征v_f，其中T是视频使用无重叠每16帧抽取特征得到的片段数，1024是每个片段得到的特征维度。

1-2.对于行为类别a，直接将类别替换成答案字典中的索引a_i，然后将答案转化成一个n维且只在a_i元素上值为1，其余元素全为0的答案向量ans，其中n是数据集中总的行为类别的个数。

步骤(2)所述的特征嵌入(Feature embedding)模块，具体如下：

由I3D网络提取的原始视频特征v_f经过带有整形流线单元(ReLU)激活函数的通道数为512的1×1卷积之后，得到T×512维度的特征I；将特征I经过一个跟上述相同的网络将此特征转化为另一个T×512维度的特征II；对特征II使用带有整形流线单元激活函数，通道数为1024的1×1卷积之后，得到一个新的T×1024维度的特征III，将此特征III与原始视频特征v_f相加，得到嵌入后的特征υ_emb，此特征维度为T×1024，其中T为视频的片段数量。具体公式如下：

υ_emb＝v_f+ReLU(con，υ₃(ReLU(conυ₂(ReLU(conυ₁(v_f)))))) (1)

其中conυ₁，conv₂，conυ₃分别是通道数为512、512、1024的1×1卷积。

步骤(3)所述的在线生成时序类别激活图模块，具体如下：

首先叙述原始的生成时序类别激活图(T-CAM)的方法，再叙述在线生成时序类别激活图的方法：

原始的时序类别激活图生成方法如下：

通过使用分类网络训练好之后(注：原始方法必须先训练好分类网络后才能生成对应分类类别的T-CAM，因为它使用的是分类层权重回乘的方法；相比之下我们的方法用1×1卷积代替了权重回乘的方法，可以在分类的同时生成对应分类类别的T-CAM)，使用中间生成的注意力权重与特征图整合之前的特征图f_zp相乘得到新的特征图f_np，之后拿出最后分类层的权重w_fc，其中c是特征图的个数且此处为1024，n是类别数。使用预测出来的类别与w_fc中对应的向量相乘，然后将相乘后的特征图对应值相加得到对于当前类别的时序激活图。

在线生成时序类别激活图的方法如下：

3-1.在训练过程中将嵌入特征υ_emb和注意力权重a_emb相乘得到注意力特征υ_att：

v_att＝υ_emmb×a_emb (2)

其中，由注意力网络得出，T为视频的片段个数。

3-2.使用1×1的卷积将原来的1024维特征转换成n维特征，此时该卷积层的与原始的生成方法的最后一层分类层的参数相同，如果二者执行相同的初始化方法，那么在网络收敛时他们的参数应该几乎相同。此时卷积之后的每个特征图对应了每个类别的时序激活图。因此，可以在线地在训练分类网络的过程中得到对应分类类别的时序类别激活图I。公式如下：

υ_act＝conυ_act(v_att) (3)

其中，conυ_act是输出通道数为n的1×1卷积。

步骤(4)所述的时序类别激活图互补网络具体如下：

将时序类别激活图Iv_act，经过sigmoid函数得到v_sig：

υ_sig＝Sigmoid(υ_act) (4)

然后以阈值法得到第一个分支关注度比较高的片段，在υ_emb中将这些关注度v_sig大于设定阈值的片段的特征置为0，获得擦除后的视频特征υ_era-emb。将视频特征υ_era-emb再次经过步骤3-1和3-2的操作，得到新的对应分类类别的时序类别激活图II。

步骤(5)所述的生成检测结果，具体如下：

根据得到的对应分类类别的时序类别激活图I和时序类别激活图II，取对应位置的最大值进行合并，得到最终的时序类别激活图。

对于步骤(3)中得到的分类结果，将分类得分大于0.1的所有类别视为该视频包含的行为类别，在这些行为类别的时序激活图上，将v_sig的值大于0.5的片段作为检测结果。

步骤(6)所述的训练模型，具体如下：

将步骤(3)和步骤(4)两个分支的时序类别激活图各自对每个特征图求和，得到1×n的向量，经过sigmoid函数即可得到该分支的预测值，两个分支经过sigmoid函数之后分别记为：pred₁，pred₂；将pred₁，pred₂分别与步骤(1)中产生的答案向量ans输入到定义的损失函数BCELoss中，然后两者相加得到损失值loss，具体公式如下：

loss＝BCELoss(pred₁，ans)+BCELoss(pred₂，ans) (5)

其中BCELoss公式如下：

BCELoss＝ans·log(pred)+(1-ans)·log(1-pred) (6)

根据计算得到的损失值loss，利用反向传播算法(Back-Propagation，BP)调整网络中的参数。

本发明有益效果如下：

本发明提出了一种基于时序类别激活图互补的弱监督视频行为检测方法。尽管基于预训练好的网络提取视频特征可以得到不错的结果，但是这些网络通常是使用视频分类的数据集进行预训练，得到的特征并不完全适用于弱监督视频检测，因此本发明首先提出了一种特征嵌入模块，来得到更加适用于弱监督视频检测任务的特征表达。同时，传统的生成时序类别激活图的方法需要等训练结束后，提取最后分类层的权重来得到时序类别激活图，这样无法在训练过程中基于时序类别激活图来进行互补网络的训练，因此本发明提出了一种在线生成时序类别激活图的方法，可以在训练过程中生成时序类别激活图。最后，基于时序类别激活图的弱监督视频行为检测方法大多在分类过程中仅仅对于整个行为片段的一部分有比较高的响应，这会导致检测出来的结果并不准确。因此，本发明提出了一种互补的时序类别激活图的生成方法，通过消除掉原始时序类别激活图关注度比较高的区域，用互补的网络来学习其他区域的关注度，由此互补网络可以学习到除去时序类别激活图关注度高的区域的周围区域，使得周围区域也有较高的关注度。最后，合并两个网络的时序类别激活图，来得到更加准确的检测结果。本发明的方法相比于传统的基于时序类别激活图的方法得到了较大的性能提升。

附图说明

图1为特征嵌入模块流程图

图2为在线生成时序类别激活图模块流程图

图3为本发明完整流程图

具体实施方式

下面对本发明的详细参数做进一步具体说明

如图3所示，本发明提供一种针对弱监督时序行为检测的深度神经网络框架。

步骤(1)、数据预处理，对视频数据v提取时空特征

针对输入视频数据v，以25FPS抽取视频图像帧，即每秒视频抽取25张图像帧，同时使用OpenCV库中的TVL-1算法抽取视频的光流。抽取后的图像在保持纵横比的情况下将最小边缩放到256，中心剪切到224×224之后，每16帧输入到预训练的I3D网络中得到1024维的视频特征。

对于视频的类别标注a，将其映射到一个一维的答案向量ans，ans向量中对应的类别的下标处的值为1，其余为0。

步骤(2)、特征嵌入模块

如图1所示，由I3D网络提取的原始视频特征v_f经过带有整形流线单元(ReLU)激活函数的通道数为512的1×1卷积之后，得到T×512维度的特征I；将特征I经过一个跟上述相同的网络将此特征转化为另一个T×512维度的特征II；对特征II使用带有整形流线单元激活函数，通道数为1024的1×1卷积之后，得到一个新的T×1024维度的特征III，将此特征III与原始视频特征v_f相加，得到嵌入后的特征υ_emb，此特征维度为T×1024其中T为视频的片段数量。具体公式如下：

υ_emb＝υ_f+ReLU(conv₃(ReLU(conv₂(ReLU(conv₁(v_f)))))) (7)

其中conv₁，conv₂，conv₃分别是通道数为512、512、1024的1×1卷积。

步骤(3)、在线生成时序类别激活图模块

使用嵌入后的特征υ_emb作为该模块的输入，首先使用两个全连接层得到每个视频片段的一个总体重要度，即注意力得分a_emb：

a_emb＝Sigmoid(fc₂(ReLU(fc₁(υ_emb)))) (8)

其中输出的特征维度分别为256、1。因此最后得到的且每个值介于0和1之间。

嵌入特征υ_emb和注意力权重a_emb相乘得到注意力特征v_att：

v_att＝υ_emb×a_emb (9)

其中，T为视频的片段数。

基于得到的注意力特征v_att，使用输出通道数为n的1×1卷积conυ_act，即可在线得到时序类别激活图：

υ_act＝conυ_act(v_att) (10)

其中，T为视频的片段数，n为类别数。

步骤(4)、时序类别激活图互补网络

基于步骤(3)在线得到的时序类别激活图υ_act，得到视频的标签所对应的时序类别激活图I，然后使用Sigmoid函数将时序类别激活图I的值映射到0到1之间，将映射后的值大于0.53的片段作为步骤(3)中得到的高响应片段，同时，将嵌入特征υ_emb中这些高响应片段对应的特征值置为0，得到擦除后的新的嵌入特征υ_era-emb，使用该特征作为步骤(3)的输入可以得到新的时序类别激活图II，该时序类别激活图II可以补充步骤(3)中时序类别激活图I在真实类别片段中关注度小的部分，从而提升性能。

步骤(5)所述的生成检测结果，具体如下：

最终的检测结果由步骤(3)得到的时序类别激活图I和步骤(4)得到的时序类别激活图II合并得到。合并方法为：根据步骤(3)和步骤(4)分别得到的时序类别激活图I和II，取对应位置的最大值可以得到最终的时序类别激活图。对于步骤(3)中得到的分类结果，将分类得分大于0.1的所有类别视为该视频包含的行为类别，在这些行为类别的时序类别激活图上将值大于0.5的片段作为检测结果。

步骤(6)模型训练

对于步骤(3)和步骤(4)分别会得到对于输入视频的类别的预测，然后根据视频的真是类别，使用BCELoss可得到当前的损失，并利用反向传播算法(Back-Propagation，BP)对神经网络的参数进行训练，直至整个网络收敛。

表1是本文所述的方法在Thumos’14数据集中对于不同IoU下的mAP结果，以及平均的mAP。

	0.1	0.2	0.3	0.4	0.5	AVG
							原始的方法	52	44.7	35.5	25.8	16.9	35
我们的方法	57.9	50.8	41.4	30.1	20.6	40.1

Claims

1.一种基于时序类别激活图互补的弱监督视频行为检测方法，其其特征在于：

首先给定视频数据v，视频数据v中出现的行为类别a，构成二元组v，a作为训练集，具体实现步骤如下：

步骤(1)、数据预处理：对视频数据v使用现有的经典的抽取视频时空特征的网络结构提取时空特征；

视频数据v预处理：

首先抽取所有视频数据v对应的图像帧和光流；其次使用预训练的特征提取网络分别提取图像帧和光流所对应的特征；

行为类别a预处理：

每个视频可能包含多个类别，假设有n个类别，首先将视频中出现的行为类别转换成答案字典中的索引值，最后转换为一个n维编码的答案向量；

步骤(2)、特征嵌入模块

基于预训练模型，增加特征嵌入模块，使得视频特征对于弱监督视频行为检测任务更加有效；

步骤(3)、在线生成时序类别激活图模块

首先将嵌入后得到的视频特征经过注意力网络，得到每个视频特征对应的全部类别的重要度；将每个视频特征的重要度与嵌入后得到的视频特征对应相乘得到重要度特征I，然后根据重要度特征I及分类结果生成对应每一个分类类别的时序类别激活图I；

步骤(4)、时序类别激活图互补网络

将时序类别激活图I中大于设定阈值的区域，在嵌入后得到的视频特征中做擦除操作，获得擦除后的视频特征；将擦除后的视频特征经过注意力网络，再次得到每个视频特征对应的全部类别的重要度；将每个视频特征的重要度与擦除后的视频特征对应相乘得到重要度特征II，然后根据重要度特征II及分类结果生成对应每一个分类类别的时序类别激活图II；

步骤(5)、生成检测结果

将得到的时序类激活图I和时序类激活图II合并，然后使用阈值法得到检测结果；

步骤(6)、模型训练

根据产生的分类预测值同该视频的实际动作标签的差异，并利用反向传播算法(Back-Propagation，BP)对上述定义的神经网络的模型参数进行训练，直至整个网络模型收敛；

所述的分类预测值指步骤(3)和步骤(4)各自的分类器产生的分类结果。

2.根据权利要求1所述的一种基于时序类别激活图互补的弱监督视频行为检测方法，其其特征在于步骤(1)具体实现如下：

1-1.对视频数据v以25 FPS抽取图像帧，同时使用TVL-1算法抽取视频的光流；对于抽取好的图像帧和光流，使用基于Kinetics数据集预训练的I3D模型，无重叠的每16帧抽取图像帧和光流对应的1024维度的特征，最终得到视频特征v_f，其中T是视频使用无重叠每16帧抽取特征得到的片段数，1024是每个片段得到的特征维度；

3.根据权利要求2所述的一种基于时序类别激活图互补的弱监督视频行为检测方法，其其特征在于步骤(2)具体如下：

由I3D网络提取的原始视频特征υ_f经过带有整形流线单元激活函数的通道数为512的1×1卷积之后，得到T×512维度的特征I；将特征I经过一个跟上述相同的网络将此特征转化为另一个T×512维度的特征II；对特征II使用带有整形流线单元激活函数，通道数为1024的1×1卷积之后，得到一个新的T×1024维度的特征III，将此特征III与原始视频特征υ_f相加，得到嵌入后的特征υ_emb，此特征维度为T×1024,其中T为视频的片段数量；具体公式如下：

v_emb＝v_f+ReLU(conv₃(ReLU(conv₂(ReLU(conv₁(v_f)))))) (1)

4.根据权利要求3所述的一种基于时序类别激活图互补的弱监督视频行为检测方法，其其特征在于步骤(3)所述的在线生成时序类别激活图模块，具体如下：

3-1.在训练过程中将嵌入特征υ_emb和注意力权重a_emb相乘得到注意力特征v_att:

v_att＝v_emb×a_emb (2)

其中，由注意力网络得出，T为视频的片段个数；

3-2.使用1×1的卷积将原来的1024维特征转换成n维特征，此时该卷积之后的每个特征图对应了每个类别的时序激活图；因此能够在线地在训练分类网络的过程中得到对应分类类别的时序类别激活图I；公式如下：

v_act＝conv_act(v_att) (3)

其中，conv_act是输出通道数为n的1×1卷积。

5.根据权利要求4所述的一种基于时序类别激活图互补的弱监督视频行为检测方法，其其特征在于步骤(4)所述的时序类别激活图互补网络具体如下：

将时序类别激活图Iv_act，经过sigmoid函数得到v_sig：

v_sig＝Sigmoid(v_act) (4)

然后以阈值法得到第一个分支关注度比较高的片段，在v_emb中将这些关注度υ_sig大于设定阈值的片段的特征置为0，获得擦除后的视频特征v_era-emb；将视频特征v_era-emb再次经过步骤3-1和3-2的操作，得到新的对应分类类别的时序类别激活图II。

6.根据权利要求5所述的一种基于时序类别激活图互补的弱监督视频行为检测方法，其其特征在于步骤(5)所述的生成检测结果，具体如下：

根据得到的对应分类类别的时序类别激活图I和时序类别激活图II，取对应位置的最大值进行合并，得到最终的时序类别激活图；

对于步骤(3)中得到的分类结果，将分类得分大于0.1的所有类别视为该视频包含的行为类别，在这些行为类别的时序激活图上，将υ_sig的值大于0.5的片段作为检测结果。

7.根据权利要求6所述的一种基于时序类别激活图互补的弱监督视频行为检测方法，其特征在于步骤(6)所述的训练模型，具体如下：

将步骤(3)和步骤(4)两个分支的时序类别激活图各自对每个特征图求和，得到1×n的向量，经过sigmoid函数即可得到该分支的预测值，两个分支经过sigmoid函数之后分别记为：pred₁，pred₂；将pred₁，pred₂分别与步骤(1)中产生的答案向量ans输入到定义的损失函数BCELoss中，然后两者相加得到损失值loss,具体公式如下：

loss＝BCELoss(pred₁，ans)+BCELoss(pred₂，ans) (5)

其中BCELoss公式如下：

BCELoss＝ans·log(pred)+(1-ans)·log(1-pred) (6)

根据计算得到的损失值loss，利用反向传播算法调整网络中的参数。