CN109919110A

CN109919110A - 视频关注区域检测方法、装置及设备

Info

Publication number: CN109919110A
Application number: CN201910189770.8A
Authority: CN
Inventors: 李甲; 付奎; 穆凯; 赵沁平
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2019-06-21
Anticipated expiration: 2039-03-13
Also published as: CN109919110B

Abstract

本发明实施例提供一种视频关注区域检测方法、装置及设备，该方法包括：获得时空联合模型，时空联合模型用于获得视频帧图像中的关注区域，关注区域由时域特征和空域特征表征；时空联合模型根据学生模型生成，学生模型包括用于获得时域特征的时域子模型和用于获得空域特征的空域子模型，时域子模型是根据学生模型对应的时域教师模型生成，空域子模型是根据学生模型对应的空域教师模型生成；将待检测的视频帧图像输入时空联合模型，得到待检测的视频帧图像的关注区域。本发明可以在保证关注区域检测精度的基础上降低模型的复杂度。

Description

视频关注区域检测方法、装置及设备

技术领域

本发明实施例涉及计算机视觉和图像理解领域，尤其涉及一种视频关注区域检测方法、装置及设备。

背景技术

目前，随着科技的发展，对于视频的关注区域进行检测的需求越来越多，例如，可以对无人机航拍获得的航拍视频的关注区域进行检测。

现有技术中，深度学习方法已成为对视频的关注区域进行检测采用的主要方法。例如，可以通过卷积神经网络模型对无人机航拍获得的航拍视频进行处理，以实现对于航拍视频中关注区域的检测。并且，为了获得更好的检测性能，深度学习方法获得的模型的复杂度也不断提高，模型的计算成本以及存储成本也随之不断提高。

因此，在保证检测精度的基础上，如何降低模型的复杂度，成为目前亟待解决的问题。

发明内容

本发明实施例提供一种视频关注区域检测方法、装置及设备，以克服采用现有技术，深度学习方法获得的模型的复杂度较高，模型的计算成本以及存储成本较高的问题。

第一方面，本发明实施例提供一种视频关注区域检测方法，包括：

获得时空联合模型，所述时空联合模型用于获得视频帧图像中的关注区域，所述关注区域由时域特征和空域特征表征；所述时空联合模型根据学生模型生成，所述学生模型包括用于获得所述时域特征的时域子模型和用于获得所述空域特征的空域子模型，所述时域子模型是根据所述学生模型对应的时域教师模型生成，所述空域子模型是根据所述学生模型对应的空域教师模型生成；

将待检测的视频帧图像输入所述时空联合模型，得到所述待检测的视频帧图像的关注区域。

在一种可能的设计中，所述获得时空联合模型，包括：

根据第一样本视频帧图像和第一标签，对时域教师网络和空域教师网络进行训练，得到所述时域教师模型和空域教师模型；所述第一标签用于指示所述样本视频帧图像中的关注区域；

将所述第一样本视频帧图像输入所述时域教师模型和所述空域教师模型，得到所述时域教师模型和所述空域教师模型输出的第二标签；

根据第二样本视频帧图像、所述第一标签和所述第二标签，对学生网络进行训练，得到所述学生模型；所述第二样本视频帧图像为将所述第一样本视频帧图像的分辨率由第一分辨率变为第二分辨率所得到的图像，所述第一分辨率大于所述第二分辨率；

根据所述学生模型生成时空联合模型。

在一种可能的设计中，所述学生网络包括：第一子网络、第二子网络、第三子网络、第四子网络、第五子网络和第六子网络；

所述第一子网络，用于根据第一视频帧图像，得到当前视频帧图像的第一特征，所述第一特征表征所述当前视频帧图像的关注区域的时域特征和空域特征；

所述第二子网络，用于根据下一视频帧图像，得到所述下一视频帧图像的第二特征，所述第二特征表征所述下一视频帧图像的关注区域的时空域特征；

所述第三子网络，用于根据所述第一特征得到所述当前视频帧图像的第一空域特征；所述第四子网络，用于根据所述第一空域特征得到所述当前视频帧图像的第二空域特征；所述第一空域特征和所述第二空域子特征均表征所述当前视频帧图像的关注区域的空域特征；

所述第五子网络，用于根据所述第一特征和所述第二特征得到所述下一视频帧图像的第一时域特征；所述第六子网络，用于根据所述第一时域特征得到所述下一视频帧图像的第二时域特征；所述第一时域特征和所述第二时域特征均表征所述下一视频帧图像的关注区域的时域特征。

在一种可能的设计中，所述时空联合网络包括：所述第一子网络、所述第二子网络、所述第三子网络、所述第五子网络和第七子网络；

所述第七子网络，用于根据所述第一空域特征和所述第一时域特征，得到所述下一视频帧图像的第三特征；所述第三特征表征所述下一视频帧图像的关注区域的时空域特征。

在一种可能的设计中，所述根据所述学生模型，生成所述时空联合模型，包括：

根据所述学生模型的参数，对时空联合网络的参数进行初始化，得到初始化的时空联合网络；

根据所述第二样本视频帧图像、所述第一标签，对所述初始化的时空联合网络进行训练，生成所述时空联合模型。

在一种可能的设计中，所述将待检测视频帧图像输入至所述时空联合模型，包括：

将所述待检测视频帧图像的分辨率从第四分辨率转换为第五分辨率，得到转换后的所述待检测视频帧图像，并将转换后的所述待检测视频帧图像输入至所述时空联合模型，所述第四分辨率小于所述第五分辨率。

第二方面，本发明实施例提供一种视频关注区域检测装置，包括：

获取模块，用于获得时空联合模型，所述时空联合模型用于获得视频帧图像中的关注区域，所述关注区域由时域特征和空域特征表征；所述时空联合模型根据学生模型生成，所述学生模型包括用于获得所述时域特征的时域子模型和用于获得所述空域特征的空域子模型，所述时域子模型是根据所述学生模型对应的时域教师模型生成，所述空域子模型是根据所述学生模型对应的空域教师模型生成；

检测模块，用于将待检测的视频帧图像输入所述时空联合模型，得到所述待检测的视频帧图像的关注区域。

在一种可能的设计中，所述获取模块具体用于：

根据所述学生模型生成时空联合模型。

在一种可能的设计中，所述获取模块具体用于：

根据所述学生模型生成时空联合模型。

在一种可能的设计中，所述获取模块还具体用于：

在一种可能的设计中，所述检测模块具体用于：

将所述待检测视频帧的分辨率从第三分辨率转换为第四分辨率，得到转换后的所述待检测视频帧，并将转换后的所述待检测视频帧输入至所述时空联合模型，所述第四分辨率小于所述第三分辨率。

第三方面，本发明实施例提供一种视频关注区域检测设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如第一方面任一项所述的视频关注区域检测方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面任一项所述的视频关注区域检测方法。

本实施例提供的视频关注区域检测方法及装置，通过将待检测的视频帧图像输入时空联合模型，得到待检测的视频帧图像的关注区域，其中，时空联合模型是根据学生模型生成的，而学生模型是根据时域教师模型和空域教师模型生成的，由于学生模型是对教师模型的知识蒸馏得到，通过知识蒸馏可以在保持与教师模型检测关注区域的精度一致的基础上得到复杂度低于教师模型的学生模型，并且由于教师模型区分时域教师模型和空域教师模型，与教师模型未区分时域教师模型和空域教师模型相比，可以降低教师模型的复杂度，因此时空联合模型可以在保证关注区域检测精度的基础上实现模型复杂度的降低。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的视频关注区域检测方法的流程示意图一；

图2为本发明实施例提供的视频关注区域检测方法的流程示意图二；

图3为本发明实施例提供的学生网络的结构示意图；

图4为本发明实施例提供的时空联合网络的结构示意图；

图5为本发明实施例提供的训练时空联合模型的原理示意图；

图6为本发明实施例提供的视频关注区域检测装置的结构示意图；

图7为本发明实施例提供的视频关注区域检测设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的视频关注区域检测方法的流程示意图一，如图1所示，该方法包括：

S101、获得时空联合模型，所述时空联合模型用于获得视频帧图像中的关注区域，所述关注区域由时域特征和空域特征表征；所述时空联合模型根据学生模型生成，所述学生模型包括用于获得所述时域特征的时域子模型和用于获得所述空域特征的空域子模型，所述时域子模型是根据所述学生模型对应的时域教师模型生成，所述空域子模型是根据所述学生模型对应的空域教师模型生成；

可选的，学生模型的时域子模型是根据所述学生模型对应的时域教师模型生成的，空域子模型是根据学生模型对应的空域教师模型生成。具体地，训练时域教师网络和空域教师网络，分别生成时域教师模型和空域教师模型。时域教师模型和空域教师模型生成的第二标签中分别包含时域软标签和空域然标签，再用时域软标签和空域然标签分别来训练学生网络的时域子网络和空域子网络，得到学生模型的时域子模型和空域子模型。

具体的，在本实施例中，教师模型通过训练教师网络得到的，教师网络是计算密集型和内存密集型的卷积神经网络结构，训练得到的教师模型结构稀疏，存在冗余，复杂度较高。这里，由于学生模型是根据教师模型输出的时域软标签和空域软标签生成的，而时域软标签中蕴含的时域教师模型中内嵌的时域知识和空域软标签中蕴含的空域教师模型中内嵌的空域知识，因此实现了通过对时域教师模型和空域教师模型进行知识蒸馏得到学生模型，所得到的学生模型与教师模型相比结构更简单、紧凑、复杂度更低，并且，所得到的学生模型检测视频关注区域的准确度可以与教师模型保持一致。

另外，通过将教师模型区分为时域教师模型和空域教师模型，可以降低教师模型的复杂度。

进一步地，时空联合模型是根据学生模型生成的。时空联合模型是通过将时域子模型和空域子模型融合叠加得到时空联合网络，再对时空联合网络进行训练得到时空联合模型。

S102、将待检测的视频帧图像输入所述时空联合模型，得到所述待检测的视频帧图像的关注区域。

可选的，在获取待检测的视频帧图像之后，将获取到的待检测的视频帧图像输入时空联合模型模型，将转换后的待检测的视频帧图像输入时空联合模型，得到待检测图像的时空联合显著性图，时空联合显著性图能够清楚地显示待检测视频帧图像的时空域特征，进而得到待检测的视频帧图像的关注区域。

本实施例提供的视频关注区域检测方法，通过将待检测的视频帧图像输入时空联合模型，得到待检测的视频帧图像的关注区域，其中，时空联合模型是根据学生模型生成的，而学生模型是根据时域教师模型和空域教师模型生成的，由于学生模型是对教师模型的知识蒸馏得到，通过知识蒸馏可以在保持与教师模型检测关注区域的精度一致的基础上得到复杂度低于教师模型的学生模型，并且由于教师模型区分时域教师模型和空域教师模型，与教师模型未区分时域教师模型和空域教师模型相比，可以降低教师模型的复杂度，因此时空联合模型可以在保证关注区域检测精度的基础上实现模型复杂度的降低。

下面结合具体的实施例，对如何获得时空联合模型进行进一步详细说明。图2为本发明实施例提供的视频关注区域检测方法的流程示意图二，如图2所示，该方法包括：

S201、根据第一样本视频帧图像和第一标签，对时域教师网络和空域教师网络进行训练，得到所述时域教师模型和空域教师模型；所述第一标签用于指示所述第一样本视频帧图像中的关注区域；

可选地，根据第一样本视频帧图像和第一标签训练空域教师网络生成空域教师模型，空域教师模型用于生成空域显著图。可选地，根据第一样本视频帧图像和第一标签，对空域教师网络进行训练，生成时域教师模型，时域教师模型用于生成时域显著图。其中，第一标签可以用于指示第一样本视频帧图像的关注区域，也可以称为硬标签。

S202、将所述第一样本视频帧图像输入所述时域教师模型和所述空域教师模型，得到所述时域教师模型和所述空域教师模型输出的第二标签；

可选的，空域教师网络包括深度视觉注意(Deep Visual Attention，DVA)，显著性网络(Saliency Network，SalNet)和空域显著性网络(Spatial Saliency Network，SSNet)等卷积神经网络。具体的，训练空域教师网络得到空域教师模型后，将第一样本视频帧图像的单帧视频帧图像作为空域教师模型的输入，通过特定的卷积神经网络提取空域教师模型的空域特征。

可选的，时域教师网络包含时域显著性网络(Time Saliency Network，TSNet)。具体的，训练空域教师网络得到空域教师模型后，将第一样本视频帧图像中的连续的两帧视频帧图像计算出来的光流图作为空域教师模型的输入，通过特定的卷积神经网络来提取视频帧间的时域特征。

并且得到时域教师模型和空域教师模型输出的第二标签，第二标签包含空域软标签和时域软标签，空域软标签中蕴含了空域教师模型中内嵌的空域知识，时域软标签中蕴含了时域教师模型中内嵌的时域知识。

具体的，空域软标签是将第一样本视频帧图像的单帧视频帧图像输入空域教师模型得到的，时域软标签将第一样本视频帧图像中的连续的两帧视频帧图像计算出来的光流图输入空域教师模型的得到的。

S203、根据第二样本视频帧图像、所述第一标签和所述第二标签，对学生网络进行训练，得到所述学生模型；所述第二样本视频帧图像为将所述第一样本视频帧图像的分辨率由第一分辨率变为第二分辨率所得到的图像，所述第一分辨率大于所述第二分辨率；

可选的，如图3所示，图3为本发明实施例提供的学生网络的结构示意图，学生网络30包括：空域子网络31和时域子网络32，空域子网络31和时域子网络32为对称结构。可选的，空域子网络31包括第一子网络301、第二子网络302、第三子网络303、第四子网络304，其中，第一子网络301，用于根据第一视频帧图像，得到当前视频帧图像的第一特征，所述第一特征表征所述当前视频帧图像的关注区域的时域特征和空域特征；第三子网络303，用于根据所述第一特征得到所述当前视频帧图像的第一空域特征；第一空域特征和所述第二空域子特征均表征当前视频帧图像的关注区域的空域特征；第四子网络304，用于根据所述第一空域特征得到所述当前视频帧图像的第二空域特征。

可选的，时域子网络32包括第一子网络301、第二子网络302、第五子网络305、第六子网络306，其中，第二子网络302，用于根据下一视频帧图像，所述下一视频帧图像的第二特征，第二特征表征所述下一视频帧图像的关注区域的时空域特征；第五子网络305，用于根据所述第一特征和所述第二特征得到所述下一视频帧图像的第一时域特征；第六子网络306，用于根据第一时域特征得到所述下一视频帧图像的第二时域特征；所述第一时域特征和所述第二时域特征均表征所述下一视频帧图像的关注区域的时域特征。

可选的，第一子网络301包括7层神经网络，依次分别为第一卷积层、第二卷积层、归一化层、第一池化层、第三卷积层、第二池化层和第四卷层。可选的，第一卷积层和第二卷机层为16位的卷积层，第三卷积层为32位的卷积层，第四第卷积层为64位的卷积层。

其中，四个卷积层采用3乘以3的卷积核，并且采用线性整流函数(RectifiedLinear Unit，ReLU)提升当前视频帧图像的特征表达能力；归一化层用于收敛学生网络，使得学生网路更加容易训练；池化层用于提升当前视频帧图像的感受野，获取更多特征信息。

进一步地，当前视频帧图像经过第一子网络301的7个网络层得到其第一特征，第一特征可以理解为当前视频帧图像的初级特征。

可选的，第二子网络302和第一子网络301采用相同的结构，且第二子网络302和第一子网络301的同一层的参数共享，即第一子网络301和第二子网络302的同一层的参数保持一致。进一步地，下一视频帧图像经过第二子网络302的7个网络层得到其第二特征，第二特征可以理解为下一视频帧图像的初级特征。

可选的，第三子网络303包含两层神经网络，依次分别为第五卷积层和第六卷积层。可选的，第五卷积层为64位的卷积层，第六卷积层为128位的卷积层。可选的，第五卷积层和第六卷积层采用1乘以1的卷积核，用于对经过第一子网络的当前视频帧图像进行降维。进一步地，当前视频帧图像经过第一子网络301后经过再经过第三子网络303得到其第一空域特征，第一空域特征可以理解为当前视频帧图像的中级特征。

可选的，第五子网络305和第三子网络303采用相同的结构，并且第五子网络305和第三子网络303同一层的参数不共享，即第五子网络305和第三子网络303的同一层采用不同的参数。进一步地，下一视频帧图像经过第二子网络302得到的第二特征与当前视频帧图像经过第一子网络301得到的第一特征做差值运算后得到的差值再经过第五子网络305得到下一视频帧图像的第一时域特征，第一时域特征可以理解为下一视频帧图像的中级特征。

可选的，第四子网络304包括6层神经网络，依次分别为第七卷积层、第八卷积层、第九卷积层、第十卷积层、第一反卷积层和第二反卷积层。可选的，第七卷积层、第八卷积层、第九卷积层为32位卷积层，第十卷积层为16位卷积层，第一反卷积层为8位反卷积层，第二反卷积层为1位反卷积层，第八卷积层、第九卷积层、第十卷积层用于提取当前视频帧图像的高级特征，反卷积层用于对经过第三子网络303的当前视频帧图像进行上采样。当前视频帧图像经过第三子网络303后再经过第四子网络304得到当前视频帧图像的第二空域特征，第二空域特征最终的第一样本视频帧图像的空域特征，可以理解为第一样本视频帧图像的高级特征。

可选的，第六子网络306和第四子网络304采用相同的结构，并且第六子网络306和第四子网络304同一层的参数不共享，即第六子网络306和四子网络304的同一层采用不同的参数。下一视频帧图像经过第五子网络305后再经过第六子网络306得到下一视频帧图像的第二时域特征，第二时域特征最终的第一样本视频帧图像的时域特征，可以理解为第一样本视频帧图像的高级特征。

需要说明的是，上述学生网络的空域子网络和时域子网络，在训练完成之后可以对应生成所述空域子模型和时域子模块。

这里，通过将第一子网络得到的当前帧图像的第一特征(可以理解为时域和空域的初级特征)输入到第三子网络，得到当前帧图像的第一空域特征(可以理解为空域的中级特征)，再将第三特征输入第四子网络得到待检测视频帧图像的第二空域特征(可以理解为空域的高级特征)，通过这种方式，空域特征经过的不断的提取和压缩，最终能够得到比较高层次的空域特征，提高了待检测测视频帧图像的空域特征表达能力。

另外，通过将第一子网络得到的当前帧图像的第一特征(可以理解为时域和空域的初级特征)和第二子网络得到的下一帧图像的第二特征(可以理解为时域和空域的初级特征)做差值运算后的得到待检测视频帧图像的运动特征，再将运动特征输入到第五子网络，得到待检测视频帧图像的第一时域特征(可以理解为时域的中级特征)，再将第五子网络得到待检测视频帧图像的时域的中级特征输入第六子网络得到待检测视频帧图像的第二时域特征(可以理解为时域的高级特征)，通过这种方式，时域特征经过的不断的提取和压缩，最终能够得到比较高层次的时域特征，提高了待检测测视频帧图像的时域特征表达能力。

可选的，第二样本视频帧图像、第一标签和第二标签，对学生网络进行训练，调整学生网络中每层神经网络的参数，使经过学生网络后的第二空域特征第二时域特征层和第一标签之间的差值达到最小时，学生网络训练完成，得到学生模型。第二空域特征第二时域特征层和第一标签之间的差值记为损失函数。可选的，在训练学生网络的过程中，可以使用平衡参数，调整第一标签和第二标签的权重，使损失函数达到最小。

S204、根据所述学生模型生成时空联合模型。

可选的，调整好学生网络中每层神经网络的参数得到学生模型后，使用学生模型的第一子网络和第二子网络的参数对时空联合网络初始化，得到初始化的时空联合网络。

可选的，如图4所示，图4位本发明实施例提供的时空联合网络的结构示意图，时空联合网络40也包括第一子网络401、第二子网络402、第三子网络403、第五子网络404，并且时空联合网络还包括第七子网络407。其中，第一子网络401、第二子网络402、第三子网络403、第五子网络404是使用学生模型的第一子网络301、第二子网络302、第三子网络303和第五子网络305的参数对时空联合网络40初始化得到的，即初始化的时空联合网络中第一子网络401、第二子网络402、第三子网络402和第五子网络404的参数分别跟学生模型的第一子网络301、第二子网络302、第三子网络303和第五子网络305的参数保持一致。

可选的，第七子网络405是通过将学生模型的第四子网络304和第六子网络306进行融合得到的，第七子网络405的参数随机进行初始化，结构与第四子网络304和第六子网络306保持一致。第七子网络405用于根据第一空域特征和第一时域特征，得到下一视频帧图像的第三特征，第三特征表征下一视频帧图像的关注区域的时空特征，即为待检测视频帧图像的高级特征。

这里，时空联合网络包括学生网络中的第一子网络、第二子网络、第三子网络、第五子网络以及学生网络之外的第七子网络，其中，第一子网络、第二子网络、第三子网络实现了提取待检测视频帧图像空域的中级特征，第一子网络、第二子网络、第五子网络实现了提取待检测视频帧图像的时域的中级特征，第七子网路实现了将空域的中级特征和时域的中级特征联合输出待检测视频帧图像的时域和空域的高级特征，在提高待检测视频帧图像的特征表达能力的同时，进而实现了在时空联合网络中可以根据学生网络中得到的能够表征时域和空域特征进行联合输出的时空域特征，实现了学生网络中时域特征和空域特征的联合。

可选的，根据第二样本视频帧图像、第一标签，对初始化的时空联合网络进行训练，调整时空联合网络中每层神经网络的参数，使经过时空联合网络后的特征第二时域和第一标签之间的差值达到最小时，时空联合网络训练完成，生成时空联合模型。

可选的，生成时空联合模型后，将待检测视频帧图像的分辨率从第三分辨率转换为第四分辨率，得到转换后的所述待检测视频帧图像，并将转换后的所述待检测视频帧图像输入至所述时空联合模型，第四分辨率小于所述第三分辨率，得到所述待检测的视频帧图像的关注区域。由于第四分辨率为较低的分辨率，将经过转化的较低分辨率待检测视频帧图像输入时空联合模型，可以极大的减少时空联合模型的计算成本和内存空间的使用。优选的，第三分辨率可以等于第一分辨率，第四分辨率可以等于第二分辨率，使训练时空联合模型的样本视频帧图像和使用时空联合模型检测的待检测视频帧图像的分辨率保持一致，可以提高检测的准确度。

本实施例提供的视频关注区域检测方法，通过根据第一样本视频帧图像和第一标签，对时域教师网络和空域教师网络进行训练，得到所述时域教师模型和空域教师模型；根据第二样本视频帧图像、所述第一标签和时域教师模型和空域教师模型输出的所述第二标签，对学生网络进行训练，得到所述学生模型；其中，所述第二样本视频帧图像的分辨率低于所述第一样本视频帧图像的分辨率，实现了使用高分辨率视频帧对教师网络进行训练得到教师模型，使用低分辨率视频帧对学生网络进行训练，得到学生模型，通过这种方式，教师模型中的学习到的先验知识可以迁移到学生模型中，使得学生模型能够具有更好的泛化能力。

下面结合图5，对本发明实施例提供的视频关注区域检测方法进一步进行说明。图5为本发明实施例提供的训练时空联合模型的原理示意图。

结合图5，首先通过知识蒸馏的方法对复杂稀疏的时域和空域教师网络进行压缩成简单紧凑的时域和空域的学生网络。之后将学生网络的时域和空域的知识迁移到时空联合网络中，对时域和空域的特征进行融合，训练一个时空联合检测器。最后，输入低分辨率的待检测视频图像中相邻帧对，利用训练好的时空联合检测器对关注区域进行检测。

在知识蒸馏过程中，定义数据集I是待检测视频的图片输入，Y是数据集关注区域的标注。将空域教师网络，时域教师网络和学生网络分别定义为学生网络的结构如图3所示。使用最优化空间损失和时间损失来训练二分支的学生网络。空域损失为时域损失为 μ作为平衡软损失和硬损失的参数设为1.0，软损失和硬损失均为损失，定义为 W和H分别为图片输入的长和宽。

在时空联合优化过程中，即训练时空联合网络得到时空联合模型的过程中，将学生网络学到的时空知识转移到时空联合网络中，通过时空联合网络融合空域上和时域上的特征，产生最终的关注区域的检测。学生网络时一个全卷积网络，两个分支，端到端训练。使用低分辨率的待检测视频帧图像对作为输入，使用ReLU作为每层卷积层的激活函数。通过卷积操作获得当前帧和下一帧的特征图。由于输入分辨率小于数据集中关注区域标注的分辨率，所以需要学生网络更好的提取局部信息的能力，所以学生网络中的卷积层采用3x3的卷积核。同时学生网络中增加了两个最大池化层以提高感受野大小。第一子网络和第二子网络的共享参数，用于提取低级和中级特征。然后将时空共享的部分提取到的当前帧图像和下一帧图像的特征图记为和两者之间的差异则为图片It的运动特征。我通过计算出空域分支的输出。然后将空域特征图和运动特征进行相连操作，作为第六子网络的输入，通过计算出时域子网络的输出。同时，第三子网络和第五子网络使用两层卷积层来提取中层空域和时域的特征，之后第四子网络和第六子网络采用一层1x1的卷积层以减少特征图的维度，减少参数。为提取高级特征，四子网络和第六子网络使用了三个级联的卷积层。最后，四子网络和第六子网络使用两个反卷积层用于上采样特征图以产生和输入分辨率相同大小的关注区域检测结果。

对于时空联合网络，第一子网络、第二子网络、第三子网络和第五子网络的网络结构和学生网络相同。之后将第三子网络和第五子网络的时域和空域输出相连，作为融合子网络，即第七子网络的输入。融合子网络是一个单支的网络，与学生网络的第六子网络有相同的网络结构。通过这种方法，可以将空域特征和时域特征相融合，以提取更好的时空特征图。而时空联合网络使用时空损失进行训练，且只使用硬损失为了迁移学生网络学到的先验知识，使用学生网络的参数对时空联合网络的参数进行初始化。

在训练过程中，对学生网络的所有参数使用截断的正态随机分布进行初始化，学生网络的学习率为1x10-3，批大小为128，使用亚当(Adam)优化器对空域损失和时域损失进行优化。使用学生网络的参数对联合网络的前九层进行初始化。同时时空联合网络的学习率和批大小(batchsize)与知识蒸馏过程中的学生网络保持一致。

图6为本发明实施例提供的视频关注区域检测装置，如图6所示，该装置包括：获取模块601以及检测模块602。

获取模块601，用于获得时空联合模型，所述时空联合模型用于获得视频帧图像中的关注区域，所述关注区域由时域特征和空域特征表征；所述时空联合模型根据学生模型生成，所述学生模型包括用于获得所述时域特征的时域子模型和用于获得所述空域特征的空域子模型，所述时域子模型是根据所述学生模型对应的时域教师模型生成，所述空域子模型是根据所述学生模型对应的空域教师模型生成；

检测模块602，用于将待检测的视频帧图像输入所述时空联合模型，得到所述待检测的视频帧图像的关注区域。

可选的，获取模块601具体用于：

根据所述学生模型生成时空联合模型。

可选的，获取模块601还具体用于：

可选的，检测模块602具体用于：

将所述待检测视频帧图像的分辨率从第三分辨率转换为第四分辨率，得到转换后的所述待检测视频帧图像，并将转换后的所述待检测视频帧图像输入至所述时空联合模型，所述第三分辨率小于所述第四分辨率。

本实施例提供的装置，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

图7为本发明实施例提供的视频关注区域检测设备的硬件结构示意图。如图7所述，本实施例提供的视频关注区域检测设备70包括：

处理器701、存储器702；其中

存储器702，用于存储计算机执行指令。

处理器701，用于执行存储器存储的计算机执行指令。

处理器701通过执行存储器存储的计算机执行指令，实现了上述实施例中视频关注区域检测装置所执行的各个步骤。具体可以参见上述方法实施例中的相关描述。

可选地，存储器702既可以是独立的，也可以跟处理器701集成在一起，本实施例不做具体限定。

当存储器702独立设置时，该网络切换设备还包括总线703，用于连接所述存储器702、处理器701。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上所述的动态图像识别方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本申请各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种视频关注区域检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获得时空联合模型，包括：

根据所述学生模型生成时空联合模型。

3.根据权利要求2所述的方法，其特征在于，所述学生网络包括：第一子网络、第二子网络、第三子网络、第四子网络、第五子网络和第六子网络；

4.根据权利要求3所述的方法，其特征在于，所述时空联合网络包括：所述第一子网络、所述第二子网络、所述第三子网络、所述第五子网络和第七子网络；

5.根据权利要求4所述的方法，其特征在于：所述根据所述学生模型，生成所述时空联合模型，包括：

根据所述学生模型的参数，对时空联合网络的参数进行初始化，得到初始化的所述时空联合网络；

根据所述第二样本视频帧图像、所述第一标签，对初始化的所述时空联合网络进行训练，生成所述时空联合模型。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述将待检测视频帧图像输入至所述时空联合模型，包括：

将所述待检测视频帧图像的分辨率从第三分辨率转换为第四分辨率，得到转换后的所述待检测视频帧图像，并将转换后的所述待检测视频帧图像输入至所述时空联合模型，所述第四分辨率小于所述第三分辨率。

7.一种视频关注区域检测装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述获取模块具体用于：

根据所述学生模型生成时空联合模型。

9.一种视频关注区域检测设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至6任一项所述的视频关注区域检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至6任一项所述的视频关注区域检测方法。