CN114463689A

CN114463689A - 目标识别网络的训练方法、装置、电子设备及存储介质

Info

Publication number: CN114463689A
Application number: CN202210384507.6A
Authority: CN
Inventors: 朱文涛; 刘文献; 李吉祥; 邓锦灿; 张德兵; 杨森; 刘霁
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-04-13
Filing date: 2022-04-13
Publication date: 2022-05-10
Anticipated expiration: 2042-04-13
Also published as: CN114463689B

Abstract

本公开关于一种目标识别网络的训练方法、装置、电子设备及存储介质，属于视频处理技术领域。方法包括：从识别超网络的多个候选识别子网络中，确定教师子网络和学生子网络；以样本视频中每个视频帧的标签为监督，基于教师子网络对样本视频的识别结果，调整教师子网络的模型参数；以样本视频中每个视频帧的标签、教师子网络对样本视频的识别结果为监督，基于学生子网络对样本视频的识别结果，调整学生子网络的模型参数；从调整后的教师子网络和调整后的学生子网络中，确定用于识别边界视频帧的目标识别网络。该方法中，学生子网络的准确率能够得到较大的提高，进而保证了从教师子网络和学生子网络中确定出的目标识别网络的准确率较高。

Description

目标识别网络的训练方法、装置、电子设备及存储介质

技术领域

本公开涉及视频处理技术领域，尤其涉及一种目标识别网络的训练方法、装置、电子设备及存储介质。

背景技术

一个视频通常是由多个视频片段组成的，每个视频片段包含一个镜头的视频画面，则视频片段的边界视频帧即为镜头的边界视频帧。在分割视频时，可以调用识别网络识别视频中的边界视频帧，从而将视频从该边界视频帧所在的位置分割，得到多个视频片段，以便在视频智能剪辑或者视频合成过程中使用这多个视频片段。因此，如何训练识别网络成为亟待解决的问题。

发明内容

本公开提供了一种目标识别网络的训练方法、装置、电子设备及存储介质，提高了目标识别网络的准确率。本公开的技术方案包括以下方面。

根据本公开实施例的一方面，提供一种目标识别网络的训练方法，所述方法包括：

从识别超网络的多个候选识别子网络中，确定教师子网络和学生子网络，所述教师子网络的准确率高于所述学生子网络的准确率，所述候选识别子网络是对所述识别超网络进行网络搜索得到的；

以样本视频中每个视频帧的标签为监督，基于所述教师子网络对所述样本视频的识别结果，调整所述教师子网络的模型参数，所述标签指示所述视频帧是否为边界视频帧；

以所述样本视频中每个所述视频帧的标签、所述教师子网络对所述样本视频的识别结果为监督，基于所述学生子网络对所述样本视频的识别结果，调整所述学生子网络的模型参数；

从调整后的所述教师子网络和调整后的所述学生子网络中，确定用于识别边界视频帧的目标识别网络，所述目标识别网络的准确率高于其他的所述候选识别子网络的准确率。

在一些实施例中，所述以样本视频中每个视频帧的标签为监督，基于所述教师子网络对所述样本视频的识别结果，调整所述教师子网络的模型参数，包括：

基于所述教师子网络对所述样本视频的识别结果和每个所述视频帧的标签，确定所述教师子网络的损失值；

基于所述教师子网络的损失值，调整所述教师子网络的模型参数。

在一些实施例中，所述以所述样本视频中每个所述视频帧的标签、所述教师子网络对所述样本视频的识别结果为监督，基于所述学生子网络对所述样本视频的识别结果，调整所述学生子网络的模型参数，包括：

基于所述样本视频中每个所述视频帧的标签、所述教师子网络对所述样本视频的识别结果以及所述学生子网络对所述样本视频的识别结果，确定所述学生子网络的损失值；

基于所述学生子网络的损失值，调整所述学生子网络的模型参数。

在一些实施例中，所述基于所述样本视频中每个所述视频帧的标签、所述教师子网络对所述样本视频的识别结果以及所述学生子网络对所述样本视频的识别结果，确定所述学生子网络的损失值，包括：

基于所述学生子网络对所述样本视频的识别结果和每个所述视频帧的标签，确定所述学生子网络的第一损失值；

基于所述学生子网络对所述样本视频的识别结果和所述教师子网络对所述样本视频的识别结果，确定所述学生子网络的第二损失值；

按照所述第一损失值和所述第二损失值的权重，对所述第一损失值和所述第二损失值进行加权融合，得到所述学生子网络的损失值。

在一些实施例中，所述以所述样本视频中每个所述视频帧的标签、所述教师子网络对所述样本视频的识别结果为监督，基于所述学生子网络对所述样本视频的识别结果，调整所述学生子网络的模型参数之后，所述方法还包括：

按照所述教师子网络的权重和所述学生子网络的权重，对所述教师子网络的模型参数以及所述学生子网络的模型参数进行加权融合，得到所述学生子网络更新后的模型参数，所述教师子网络的权重与所述学生子网络的权重之和为1。

在一些实施例中，所述从识别超网络的多个候选识别子网络中，确定教师子网络和学生子网络之前，所述方法还包括：

确定初始的识别超网络；

从所述识别超网络中采样得到识别子网络，基于所述识别子网络对所述样本视频的识别结果，调整所述识别超网络的模型参数；

对所述识别超网络进行网络搜索，得到多个所述候选识别子网络。

在一些实施例中，所述从所述识别超网络中采样得到识别子网络，基于所述识别子网络对所述样本视频的识别结果，调整所述识别超网络的模型参数，包括：

从所述识别超网络中采样得到当前的识别子网络；

基于当前的所述识别子网络对所述样本视频的识别结果，确定当前的所述识别子网络的损失值；

在所述损失值不符合损失值条件的情况下，基于所述损失值，调整所述识别超网络的模型参数；

从调整后的所述识别超网络中采样得到下一个识别子网络，对于下一个所述识别子网络重复执行上述步骤，直至当前的所述识别子网络的损失值符合所述损失值条件，得到当前的所述识别超网络。

在一些实施例中，所述对所述识别超网络进行网络搜索，得到多个所述候选识别子网络之后，所述方法还包括：

对于每个所述候选识别子网络，基于所述候选识别子网络对所述样本视频的识别结果，确定所述候选识别子网络的损失值，在所述候选识别子网络的损失值不符合损失值条件的情况下，基于所述候选识别子网络的损失值，调整所述候选识别子网络的模型参数，对于调整后的所述候选识别子网络重复上述步骤，直至所述候选识别子网络的损失值符合所述损失值条件，得到训练后的多个所述候选识别子网络。

在一些实施例中，所述方法还包括：

获取待识别的视频，所述视频包括多个视频帧；

基于所述目标识别网络对所述视频进行识别，得到识别结果，所述识别结果包括每个所述视频帧的识别标签，所述识别标签指示所述视频帧是边界视频帧的可能性；

基于所述识别结果，确定所述视频的边界视频帧；

将所述视频从所述边界视频帧所在的位置进行分割，得到多个视频片段。

在一些实施例中，所述目标识别网络包括特征提取网络和分类网络；所述基于所述目标识别网络对所述视频进行识别，得到识别结果，包括：

调用所述特征提取网络，对所述视频中的每个所述视频帧进行特征提取，得到每个所述视频帧的视频帧特征；

调用所述分类网络，基于每个所述视频帧的视频帧特征进行分类，得到每个所述视频帧的识别标签。

在一些实施例中，所述特征提取网络包括特征提取模块和自注意力模块；所述调用所述特征提取网络，对所述视频中的每个所述视频帧进行特征提取，得到每个所述视频帧的视频帧特征，包括：

调用所述特征提取模块，对每个所述视频帧进行特征提取，得到每个所述视频帧的视频帧特征；

调用所述自注意力模块，对每个所述视频帧的视频帧特征进行处理，得到每个所述视频帧处理后的视频帧特征。

根据本公开实施例的另一方面，提供一种目标识别网络的训练装置，所述装置包括：

第一确定单元，被配置为执行从识别超网络的多个候选识别子网络中，确定教师子网络和学生子网络，所述教师子网络的准确率高于所述学生子网络的准确率，所述候选识别子网络是对所述识别超网络进行网络搜索得到的；

训练单元，被配置为执行以样本视频中每个视频帧的标签为监督，基于所述教师子网络对所述样本视频的识别结果，调整所述教师子网络的模型参数，所述标签指示所述视频帧是否为边界视频帧；

所述训练单元，还被配置为执行以所述样本视频中每个所述视频帧的标签、所述教师子网络对所述样本视频的识别结果为监督，基于所述学生子网络对所述样本视频的识别结果，调整所述学生子网络的模型参数；

所述第一确定单元，还被配置为执行从调整后的所述教师子网络和调整后的所述学生子网络中，确定用于识别边界视频帧的目标识别网络，所述目标识别网络的准确率高于其他的所述候选识别子网络的准确率。

在一些实施例中，所述训练单元，被配置为执行：

在一些实施例中，所述装置还包括：

融合单元，被配置为执行按照所述教师子网络的权重和所述学生子网络的权重，对所述教师子网络的模型参数以及所述学生子网络的模型参数进行加权融合，得到所述学生子网络更新后的模型参数，所述教师子网络的权重与所述学生子网络的权重之和为1。

在一些实施例中，所述装置还包括：

第二确定单元，被配置为执行确定初始的识别超网络；

所述训练单元，还被配置为执行从所述识别超网络中采样得到识别子网络，基于所述识别子网络对所述样本视频的识别结果，调整所述识别超网络的模型参数；

搜索单元，被配置为执行对所述识别超网络进行网络搜索，得到多个所述候选识别子网络。

在一些实施例中，所述训练单元，被配置为执行：

从所述识别超网络中采样得到当前的识别子网络；

在一些实施例中，所述装置还包括：

所述训练单元，还被配置为执行对于每个所述候选识别子网络，基于所述候选识别子网络对所述样本视频的识别结果，确定所述候选识别子网络的损失值，在所述候选识别子网络的损失值不符合损失值条件的情况下，基于所述候选识别子网络的损失值，调整所述候选识别子网络的模型参数，对于调整后的所述候选识别子网络重复上述步骤，直至所述候选识别子网络的损失值符合所述损失值条件，得到训练后的多个所述候选识别子网络。

在一些实施例中，所述装置还包括：

获取单元，被配置为执行获取待识别的视频，所述视频包括多个视频帧；

识别单元，被配置为执行基于所述目标识别网络对所述视频进行识别，得到识别结果，所述识别结果包括每个所述视频帧的识别标签，所述识别标签指示所述视频帧是边界视频帧的可能性；

第三确定单元，被配置为执行基于所述识别结果，确定所述视频的边界视频帧；

分割单元，被配置为执行将所述视频从所述边界视频帧所在的位置进行分割，得到多个视频片段。

在一些实施例中，所述目标识别网络包括特征提取网络和分类网络；所述识别单元，包括：

特征提取子单元，被配置为执行调用所述特征提取网络，对所述视频中的每个所述视频帧进行特征提取，得到每个所述视频帧的视频帧特征；

分类子单元，被配置为执行调用所述分类网络，基于每个所述视频帧的视频帧特征进行分类，得到每个所述视频帧的识别标签。

在一些实施例中，所述特征提取网络包括特征提取模块和自注意力模块；所述特征提取子单元，被配置为执行：

根据本公开实施例的再一方面，提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

用于存储所述一个或多个处理器可执行指令的存储器；

其中，所述一个或多个处理器被配置为执行上述方面所述的目标识别网络的训练方法。

根据本公开实施例的又一方面，提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述方面所述的目标识别网络的训练方法。

根据本公开实施例的又一方面，提供一种计算机程序产品，该计算机程序产品包括计算机程序，所述计算机程序被处理器执行以实现上述方面所述的目标识别网络的训练方法。

本公开实施例提供了一种目标识别网络的训练方案，将识别超网络的多个识别子网络中准确率较高的识别子网络作为教师子网络，将其他识别子网络作为学生子网络，由于教师子网络的准确率较高，教师子网络对样本视频的识别结果较为准确，该识别结果可以作为学生子网络训练过程中的标签，这样学生子网络不仅能够以视频帧携带的标签为监督，还能够以教师子网络提供的标签为监督，从而调整学生子网络的模型参数，以使学生子网络的准确率能够得到较大的提高，进而保证了从教师子网络和学生子网络中确定出的目标识别网络的准确率较高。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种目标识别网络的训练方法的流程图；

图2是根据一示例性实施例示出的一种第一模块的示意图；

图3是根据一示例性实施例示出的一种第二模块的示意图；

图4是根据一示例性实施例示出的一种第三模块的示意图；

图5是根据一示例性实施例示出的一种第四模块的示意图；

图6是根据一示例性实施例示出的一种识别超网络的示意图；

图7是根据一示例性实施例示出的另一种目标识别网络的训练方法的流程图；

图8是根据一示例性实施例示出的一种神经架构搜索过程的示意图；

图9是根据一示例性实施例示出的一种数据集SHOT与数据集1的对比示意图；

图10是根据一示例性实施例示出的一种边界视频帧的识别过程的流程图；

图11是根据一示例性实施例示出的一种目标识别网络的训练装置的框图；

图12是根据一示例性实施例示出的一种终端的结构框图；

图13是根据一示例性实施例示出的一种服务器的结构框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图说明中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

需要说明的是，本公开所使用的术语“至少一个”、“多个”、“每个”、“任一”等，至少一个包括一个、两个或两个以上，多个包括两个或两个以上，每个是指对应的多个中的每一个，任一是指多个中的任意一个。举例来说，多个视频帧包括3个视频帧，而每个视频帧是指这3个视频帧中的每一个视频帧，任一是指这3个视频帧中的任意一个，可以是第一个，可以是第二个，也可以是第三个。

需要说明的是，本公开所涉及的信息（包括但不限于用户设备信息、用户个人信息等）、数据（包括但不限于用于分析的数据、存储的数据、展示的数据等）以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本公开中涉及到的视频都是在充分授权的情况下获取的。

本公开实施例的执行主体为电子设备。可选地，电子设备为终端或服务器。其中，该终端可以为手机、平板电脑、计算机等多种类型的终端，该服务器为一台服务器、或者由若干服务器组成的服务器集群，或者是一个云计算服务中心。

本公开实施例提供了一种训练用于识别边界视频帧的目标识别网络的方案。在一些实施例中，电子设备训练识别网络，存储训练后的识别网络；在需要识别视频中的边界视频帧时，获取待识别的视频，调用训练后的识别网络，识别视频中的边界视频帧。或者，电子设备训练识别子网络，将训练后的识别网络部署在其他电子设备上，从而部署有识别网络的电子设备能够识别视频中的边界视频帧。

图1是根据一示例性实施例示出的一种目标识别网络的训练方法的流程图，参见图1，该方法应用于电子设备中，包括以下步骤。

在步骤101中，电子设备从识别超网络的多个候选识别子网络中，确定教师子网络和学生子网络，教师子网络的准确率高于学生子网络的准确率，候选识别子网络是对识别超网络进行网络搜索得到的。

其中，识别超网络包括备选的多个模块，也即识别超网络的架构未确定。电子设备从识别超网络包括的备选的多个模块中选择部分模块，将被选定的模块构成识别子网络，则识别子网络的架构是确定的，从而实现了对识别超网络的网络搜索。在本公开实施例中，通过对识别超网络进行多次网络搜索，得到多个候选识别子网络。后续，电子设备还需要从多个候选识别子网络中确定出用于识别边界视频帧的目标识别网络，从而基于目标识别网络对视频进行边界视频帧的识别。

在本公开实施例中，电子设备将多个候选识别子网络中准确率最高的候选识别子网络，确定为教师子网络，将多个候选识别子网络中除教师子网络以外的其他候选识别子网络，确定为学生子网络。或者，电子设备将多个候选识别子网络中准确率按从大到小排序靠前的目标数量个候选识别子网络确定为教师子网络，本公开实施例对此不加以限定。

在步骤102中，电子设备以样本视频中每个视频帧的标签为监督，基于教师子网络对样本视频的识别结果，调整教师子网络的模型参数。

其中，样本视频中每个视频帧的标签指示视频帧是否为边界视频帧，这些标签是经人工标注得到的真实标签，该标签可以看作是视频帧的硬标签。在一些实施例中，视频帧的标签为0或1，视频帧的标签为0表示视频帧不是边界视频帧，视频帧的标签为1表示视频帧是边界视频帧。

其中，教师子网络的输入数据为样本视频，输出数据为样本视频的识别结果。该样本视频的识别结果包括由教师子网络确定的样本视频中每个视频帧的识别标签，任一视频帧的识别标签指示由教师子网络预测出的该视频帧是边界视频帧的可能性。

在本公开实施例中，教师子网络以视频帧的标签为训练目标，根据教师子网络对样本视频的识别结果，来调整教师子网络的模型参数，使得教师子网络对样本视频的识别结果能够趋近于视频帧的标签，从而使得调整后的教师子网络的准确率更高。

在一些实施例中，样本视频是视频采集设备采集到的视频，或者是对采集到的视频进行处理后得到的视频。可选地，电子设备对采集到的视频进行重采样，得到样本视频，以使样本视频中的各个视频帧的尺寸一致。其中，重采样后得到的视频帧的尺寸可以根据需要设置，例如视频帧的尺寸为48mm×27mm（mm表示毫米）。电子设备将重采样后的视频帧组成视频片段，每个视频片段对应一个镜头的视频画面，电子设备将两个视频片段拼接在一起，得到样本视频，这样能够保证样本视频中存在边界视频帧，从而为识别超网络的训练提供足够的正样本。

在步骤103中，电子设备以样本视频中每个视频帧的标签、教师子网络对样本视频的识别结果为监督，基于学生子网络对样本视频的识别结果，调整学生子网络的模型参数。

其中，学生子网络的输入数据是样本视频，输出数据是样本视频的识别结果。该样本视频的识别结果包括由学生子网络确定的样本视频中每个视频帧的识别标签，任一视频帧的识别标签指示由教师子网络预测出的该视频帧是边界视频帧的可能性。

在本公开实施例中，教师子网络是准确率较高的候选识别子网络，那么教师子网络对样本视频的识别结果的准确率较高，则教师子网络确定的视频帧的识别标签可以看作是该视频帧的软标签。学生子网络在训练过程中，不仅以视频帧的真实标签为训练目标，还以教师子网络确定的视频帧的识别标签为训练目标，使得学生子网络对视频帧的识别标签趋近于视频帧的真实标签以及教师子网络对视频帧的识别标签，以使学生子网络能够学习到教师子网络的识别能力，这样学生子网络能够结合视频帧的硬标签和软标签，来调整学生子网络的模型参数，从而调整模型参数之后的学生子网络的准确率较高。

需要说明的是，候选识别子网络的训练过程需要大量的样本视频，也即样本视频的数量为多个。电子设备事先设置候选识别子网络的训练过程所包括的迭代次数以及1次迭代所使用的样本量（batch size）。每次迭代，电子设备获取batch size的样本视频，训练候选识别子网络。其中，batch size可以根据需要设置，如batch size为10、20或者30等，本公开实施例对batch size的设置不加以限定。在本公开实施例中，以batch size为1为例进行说明，在batch size大于1时，候选识别子网络的训练过程与batch size为1时的训练过程同理，在此不再赘述。

在步骤104中，电子设备从调整后的教师子网络和调整后的学生子网络中，确定用于识别边界视频帧的目标识别网络，目标识别网络的准确率高于其他的候选识别子网络的准确率。

在本公开实施例中，目标识别网络是基于识别超网络得到的，下面对本公开实施例提供的识别超网络的结构进行说明。

其中，识别超网络包括第一特征提取网络和分类网络，第一特征提取网络包括备选的多个特征提取模块。特征提取模块用于提取视频的视频特征，分类网络用于基于视频特征确定识别结果。其中，识别结果包括视频中每个视频帧的识别标签，任一视频帧的识别标签指示该视频帧是否为边界视频帧。视频特征包括视频中每个视频帧的视频帧特征，则分类网络用于基于每个视频帧的视频帧特征确定每个视频帧的识别标签。

在一些实施例中，第一特征提取网络中的特征提取模块为三维卷积网络模块，例如特征提取模块为DDCNN（Depthwise Disout Convolutional Neural Network，深度离散卷积神经网络）。相应地，第一特征提取网络包括以下至少两种特征提取模块。

第一模块（DDCNNV2）：第一模块包括多个空间卷积层、多个时间卷积层、拼接层（concat）、批归一化层以及激活层，空间卷积层与时间卷积层一一对应连接，多个时间卷积层均与拼接层连接，拼接层、批归一化层以及激活层依次连接。

其中，时间卷积层可以使用空洞卷积实现。空间卷积层与时间卷积层的数量相同且可以根据需要设置，本公开对此不加以限定，例如，空间卷积层与时间卷积层的数量n _d均为4或5，并且空间卷积层的输出通道的数量也可以根据需要设置，例如输出通道的数量n _c为1、2或3倍的输入通道的数量。

可选地，第一模块如下公式所示：

其中，第一模块中的每个空间卷积层后面连接一个时间卷积层，h为第一模块的输出，ReLU为激活层对应的激活函数（Rectified Linear Units），BN为批归一化层对应的函数（Batch Normalization），Concat为拼接层对应的函数，i为时间卷积层以及空间卷积层的序号，n _d为时间卷积层的数量也是空间卷积层的数量，x为第一模块的输入，S _i为第i个空间卷积层，T _i为第i个时间卷积层，h _i为第i个时间卷积层的输出。

例如，参见图2，第一模块中的空间卷积层S _i为1×3×3的二维空间卷积层，通道数为n _c /n _d，时间卷积层T _i为3×1×1的一维时间卷积层，通道数为4F/n _d，且时间卷积层T _i的空洞率分别为2^i-1，拼接层的通道数为4F，F为第一模块的输入x的维度，也是空间卷积层的输入通道的数量。第一模块是由二维空间卷积层和一维时间卷积层构成的三维卷积网络模块，这样能够将3x3x3大小的三维卷积核的参数量从3x3x3=27降为3x3+3=12，从而实现了卷积核的低秩分解，降低了可学习的参数量，进而减少了模型训练过程中的过拟合。

第二模块（DDCNNV2A）：第二模块包括空间卷积层、多个时间卷积层、拼接层、批归一化层以及激活层，空间卷积层分别与每个时间卷积层连接，多个时间卷积层均与拼接层连接，拼接层、批归一化层以及激活层依次连接。

其中，时间卷积层的数量可以根据需要设置，本公开对此不加以限定，例如，数量为4或5，并且空间卷积层的输出通道的数量也可以根据需要设置，例如输出通道的数量为4、6或8倍的输入通道的数量。

可选地，第二模块如下公式所示：

其中，第二模块中的空间卷积层后面连接有n _d个时间卷积层，h为第二模块的输出，ReLU为激活层对应的激活函数，BN为批归一化层对应的函数，Concat为拼接层对应的函数，i为时间卷积层的序号，n _d为时间卷积层的数量，x为第二模块的输入，S为空间卷积层，T _i为第i个时间卷积层，h _i为第i个时间卷积层的输出。

例如，参见图3，第二模块通过一个共享的空间卷积层S来实现空间卷积，空间卷积层S为1×3×3的二维空间卷积层，通道数为n _c，时间卷积层T _i为3×1×1的一维时间卷积层，通道数为4F/n _d，且时间卷积层T _i的空洞率分别为2^i-1，拼接层的通道数为4F，F为第二模块的输入x的维度，也是空间卷积层S的输入通道的数量。

第三模块（DDCNNV2B）：第三模块包括第一空间卷积层、第二空间卷积层、多个时间卷积层、拼接层、融合层、批归一化层以及激活层，第一空间卷积层分别与第二空间卷积层、每个时间卷积层连接，多个时间卷积层均与拼接层连接，第二空间卷积层与拼接层分别与融合层连接，融合层、批归一化层以及激活层依次连接，融合层用于将第二空间卷积层输出的特征以及拼接层输出的特征进行逐元素融合。

其中，时间卷积层的数量n _d可以根据需要设置，本公开对此不加以限定，例如，数量为4或5。第二空间卷积层输出的特征与拼接层输出的特征可以使用融合层进行逐元素融合。融合方式可以为求和，也即逐元素相加。为了保证特征能够逐元素融合，第一空间卷积层和第二空间卷积层的输出通道数均为4F，F为第三模块的输入x的维度，也是空间卷积层的输入通道的数量。

可选地，第三模块如下公式所示：

其中，第三模块中的第一空间卷积层后面连接有第二空间卷积层和n _d个时间卷积层，h为第三模块的输出，ReLU为激活层对应的激活函数，BN为批归一化层对应的函数，Concat为拼接层对应的函数，n _d为时间卷积层的数量，x为第三模块的输入，S ₁为第一空间卷积层，S ₂为第二空间卷积层，i是时间卷积层的序号，T _i为第i个时间卷积层。

例如，参见图4，第三模块中的两个空间卷积层相连接，第二空间卷积层的输出与拼接层的输出通过融合层进行融合，第一空间卷积层S ₁与第二空卷积层S ₂均为1×3×3的二维空间卷积层，通道数为n _c，时间卷积层T _i为3×1×1的一维时间卷积层，通道数为4F/n _d，且时间卷积层T _i的空洞率分别为2^i-1，拼接层的通道数为4F，F为第三模块的输入x的维度，也是第一空间卷积层S ₁与第二空间卷积层S ₂的输入通道的数量。

第四模块（DDCNNV2C）：第四模块包括空间卷积层、多个时间卷积层、拼接层、融合层、批归一化层以及激活层，空间卷积层分别每个时间卷积层连接，多个时间卷积层均与拼接层连接，空间卷积层与拼接层分别与融合层连接，融合层、批归一化层以及激活层依次连接，融合层用于将空间卷积层输出的特征以及拼接层输出的特征进行逐元素融合。

其中，融合方式可以为求和，也即逐元素相加。

可选地，第四模块如下公式所示：

其中，第四模块中的空间卷积层后面连接有n _d个时间卷积层，h为第四模块的输出，ReLU为激活层对应的激活函数，BN为批归一化层对应的函数，Concat为拼接层对应的函数，i是时间卷积层的序号，n _d为时间卷积层的数量，x为第四模块的输入，S为空间卷积层，T _i为第i个时间卷积层。

例如，参见图5，第四模块中的空间卷积层S的输出与拼接层的输出通过融合层进行融合，空间卷积层S为1×3×3的二维空间卷积层，通道数为n _c，时间卷积层T _i为3×1×1的一维时间卷积层，通道数为4F/n _d，且时间卷积层T _i的空洞率分别为2^i-1，拼接层的通道数为4F，F为第四模块的输入x的维度，也是空间卷积层S的输入通道的数量。

在本公开实施例中，通过在第一特征提取网络中设置多种架构的特征提取模块，从而能够对识别超网络进行网络搜索，得到不同架构的识别子网络。

需要说明的是，本公开实施例中的特征提取网络包括的多个特征提取模块的连接方式可以根据需要设置，本公开对此不加以限定，例如多个特征提取模块可以依次连接或者跳连。

在一些实施例中，第一特征提取网络还包括备选的多个自注意力（self-attention）模块，不同自注意力模块包括的自注意力层的层数不同。在另一些实施例中，第一特征提取网络还包括备选的自注意力层，自注意力层的数量未确定。

例如，参见图6，第一特征提取网络包括6个特征提取模块和自注意力层，第一特征提取网络还包括融合层、平均池化层、压平层（Flatten）和拼接层。其中，融合层用于将两个特征提取模块的输出进行融合，将融合得到的特征输入平均池化层。平均池化层为1×2×2的大小。可学习相似特征（Learnable similarities）是基于多个平均池化层的输出确定的，用于表示相邻视频帧之间的相似特征。RGB（Red Green Blue，红绿蓝）直方图特征（histsimilarities）是对输入数据也即输入视频进行特征提取得到的特征。其中，输入视频包括的视频帧的数量为N，视频帧的尺寸为48mm×27mm，维度为3。分类网络包括多个全连接层（Dense）、多个激活层以及随机失活层（Dropout）。其中，随机失活层的失活概率rate可以根据需要设置，例如0.5。需要说明的是激活层对应的激活函数可以根据需要设置，例如位于随机失活层之前的激活层对应的激活函数为ReLU，位于随机失活层之后的激活层对应的激活函数为sigmoid函数。

图7是根据一示例性实施例示出的另一种目标识别网络的训练方法的流程图，参见图7，该方法由电子设备执行，该方法包括以下步骤。

在步骤701中，电子设备确定初始的识别超网络。

其中，识别超网络包括第一特征提取网络和分类网络，电子设备分别确定识别超网络中的第一特征提取网络和分类网络的结构，参见上述对识别超网络的结构的说明，本公开实施例在此不再赘述。

在步骤702中，电子设备从识别超网络中采样得到当前的识别子网络。

在本公开实施例中，电子设备从识别超网络中备选的多个模块中选择模块，将被选定的模块构成识别子网络，从而实现了对识别超网络的搜索。在本公开实施例中，第一特征提取网络包括备选的多个特征提取模块。在一些实施例中，每个特征提取模块的结构是已确定的，例如上述第一模块、第二模块、第三模块或第四模块等。电子设备将被选定的特征提取模块构成当前的第二特征提取网络；将当前的第二特征提取网络与分类网络构成当前的识别子网络。通过事先确定好每个特征提取模块的结构，这样在训练识别超网络的过程中能够直接选择已确定好结构的特征提取模块，缩小了搜索空间的范围，提高了训练速度。

可选地，第一特征提取网络中的每个特征提取模块中的时间卷积层的数量以及空间卷积层中的输出通道的数量中的至少一项未确定。则电子设备从多个特征提取模块中确定被选定的特征提取模块，确定该被选定的特征提取模块中时间卷积层以及空间卷积层中的输出通道的数量中的至少一项，将已确定时间卷积层、空间卷积层中的输出通道的数量的特征提取模块构成第二特征提取网络。

其中，对于第一模块和第二模块，时间卷积层的数量与空间卷积层中的输出通道的数量均未确定，且第一模块所确定出的空间卷积层的数量与时间卷积层的数量相同。对于第三模块和第四模块，时间卷积层的数量未确定，而空间卷积层中的输出通道的数量已确定，例如输出通道的数量为为空间卷积层的输入通道的数量的4倍。

在本公开实施例中，第一特征提取网络中提供了备选的多个特征提取模块，而且每个特征提取模块还可以作为一个搜索空间，这样能够在特征提取模块内部确定具体的架构，从而能够确定出更多种架构的识别子网络，从而训练出的识别超网络更加准确。

可选地，第一特征提取网络还包括备选的多个自注意力模块，不同自注意力模块包括的自注意力层的层数不同，则电子设备将被选定的特征提取模块与被选定的自注意力模块构成当前的第二特征提取网络。或者，第一特征提取网络还包括备选的自注意力层且自注意力层的数量未确定，则电子设备确定自注意力层的数量，将被选定的特征提取模块与所确定数量的自注意力层构成当前的第二特征提取网络。

例如，若第一模块中时间卷积层的数量存在2种选择：4或5，且空间卷积层中的输出通道的数量存在3种选择：1、2或3倍的输入通道的数量，则第一模块共有2×3=6种选择，第二模块同理，共有2×3=6种选择。若第三模块中时间卷积层的数量存在2种选择：4或5，则第三模块共有2种选择，第四模块同理，共有2种选择。则特征提取模块能够提供6+6+2+2=16种选择，以第一特征提取网络存在6个连接的特征提取模块为例，共有16⁶个选择。以第一特征提取网络还包括自注意力层为例，若自注意力层的数量存在5种选择：0、1、2、3或4，则自注意力层共有5种选择，则第一特征提取网络共有（16⁶）×5=8.39×10⁷种选择。

在步骤703中，电子设备基于当前的识别子网络对该样本视频的识别结果，确定当前的识别子网络的损失值。

其中，样本视频的识别结果包括由当前的识别子网络确定的样本视频中每个视频帧的识别标签，任一视频帧的识别标签指示由当前的识别子网络预测出的该视频帧是边界视频帧的可能性。识别子网络的输入是样本视频中的每个视频帧，输出是每个视频帧的识别标签。在本公开实施例中，识别子网络对样本视频中的每个视频帧进行识别，以识别该视频帧是否为边界视频帧，从而输出该视频帧的识别标签。可选地，识别标签以概率的形式表示，则识别子网络的输出分布包括每个视频帧的概率。

在一些实施例中，识别子网络包括第二特征提取网络和分类网络，则电子设备调用第二特征提取网络，对样本视频中的每个视频帧进行特征提取，得到每个视频帧的视频帧特征；调用分类网络，基于每个视频帧的视频帧特征进行分类，得到每个视频帧的识别标签。其中，电子设备将样本视频输入第二特征提取网络，得到每个视频帧的视频帧特征，将每个视频帧的视频帧特征输入分类网络，得到每个视频帧的识别标签。在本公开实施例中，第二特征提取网络提取到的视频帧特征能够表示视频帧的相关信息，从而分类网络能够根据视频帧特征，确定该视频帧是边界视频帧的可能性，也即得到识别标签，从而实现了对视频中的边界视频帧的自动识别，由于确定识别标签的过程参考了视频帧的相关信息，这样确定出的识别标签的准确率较高。

在该实施例的一种可选实现方式中，第一特征提取网络还包括备选的多个自注意力模块。相应地，电子设备调用第二特征提取网络，对样本视频中的每个视频帧进行特征提取，得到每个视频帧的视频帧特征的实现方式包括：电子设备调用被选定的特征提取模块，对每个视频帧进行特征提取，得到每个视频帧的视频帧特征；调用被选定的自注意力模块，对每个视频帧的视频帧特征进行处理，得到每个视频帧处理后的视频帧特征。

在本公开实施例中，被选定的自注意力模块包含至少一个自注意力层，通过在得到每个视频帧的视频帧特征之后，再通过自注意力模块提供的自注意力机制来对视频帧特征进行处理，从而加强了视频帧的特征提取，使得处理后的视频帧特征能够更好的表示视频帧的相关信息，从而提高了确定出的视频帧特征的准确率。

在一些实施例中，电子设备基于识别子网络对该样本视频的识别结果和损失函数，确定识别子网络的损失值。其中，损失函数可以根据需要设置，本公开实施例对此不加以限定。例如损失函数为交叉熵损失函数，则电子设备基于如下公式确定识别子网络的损失值：

其中，L为损失值，i为样本视频的序号，i=1，…，N，N为样本视频的数量，j为样本视频中视频帧的序号，j=1，…，N _F，N _F为样本视频包括的视频帧的数量，y _i,j为第i个样本视频中的第j个视频帧的识别标签，y’ _i,j为第i个样本视频中的第j个视频帧的标签，log（·）是取对数函数。

在本公开实施例中，以视频帧的标签为训练目标，通过确定识别子网络预测到的视频帧的识别标签与视频帧的真实标签之间的交叉熵损失值，使得识别子网络预测到的视频帧的识别标签趋近于视频帧的真实标签，从而提高了识别子网络的准确率。

一个视频片段包含一个镜头的视频画面，而视频可能包含突变镜头或者渐变镜头，则视频中的边界视频帧可以是突变边界，也可以渐变边界。以视频包含两个镜头为例，对于包含突变镜头的视频，该视频的边界视频帧的数量为2，对于包含渐变镜头的视频，该视频的边界视频帧的数量大于2。可选地，样本视频中的每个视频帧携带两个标签，第一标签指示视频帧是否为突变边界视频帧，第二标签指示视频帧是否为渐变边界视频帧。在训练识别超网络的过程中，电子设备调用分类网络确定样本视频的两个识别结果，第一识别结果包括的样本视频中每个视频帧的识别标签指示视频帧是突变边界视频帧的可能性，第二识别结果包括的样本视频中每个视频帧的识别标签指示视频帧是渐变边界视频帧的可能性。例如，参见图6，识别超网络分别通过两个激活层输出第一识别结果和第二识别结果。

以损失函数为交叉熵损失函数为例，电子设备基于如下公式确定识别子网络的损失值。

其中，L为损失值，i为样本视频的序号，i=1，…，N，N为样本视频的数量，j为样本视频中视频帧的序号，j=1，…，N _F，N _F为样本视频包括的视频帧的数量，λ ₁是第一识别结果的权重，λ ₂是第二识别结果的权重，y _i,j为第一识别结果中第i个样本视频中的第j个视频帧的识别标签，y’ _i,j为第i个样本视频中的第j个视频帧的第一标签，z _i,j为第二识别结果中第i个样本视频中的第j个视频帧的识别标签，z’ _i,j为第i个样本视频中的第j个视频帧的第二标签，log（·）是取对数函数。

在本公开实施例中，通过调用分类网络，从突变边界视频帧和渐变边界视频帧两个角度来确定样本视频的识别结果，从而确定出的识别结果更加准确。

在步骤704中，电子设备在损失值不符合损失值条件的情况下，基于损失值，调整识别超网络的模型参数；从调整后的识别超网络中采样得到下一个识别子网络，对于下一个识别子网络重复执行上述步骤，直至当前的识别子网络的损失值符合损失值条件，得到当前的识别超网络。

其中，损失值条件可以根据需要设置，例如损失值条件为损失值低于损失值阈值，或者损失值条件为连续的多个迭代过程中的损失值均低于损失值阈值，其中，损失值阈值和多个迭代过程的数量可以根据需要设置，本公开对此不加以限定。可选地，电子设备以随机梯度下降的方式，基于损失值调整识别超网络的模型参数。

在本公开实施例中，识别超网络相当于一个模型框架，而确定出的识别子网络是一个具体的模型，从而能够基于该识别子网络的损失值调整识别超网络的模型参数，使得后续确定的识别子网络能够共享识别超网络的模型参数，通过重复这个过程，能够训练得到准确率较高的识别超网络。

在本公开实施例中，步骤702-步骤704是电子设备基于识别子网络对样本视频的识别结果，调整识别超网络的模型参数的一种实现方式。可选地，如下公式所示，电子设备以单路径均匀采样的方式训练识别超网络：

其中，W为模型参数，A为识别超网络，W _A为识别超网络A的模型参数，argmin（·）为使（·）取最小值时的变量值，ζ _train为训练过程的损失值，N表示从识别超网络中搜索识别子网络，E为期望，u（·）为均匀分布，a为从识别超网络的搜索空间中以均匀分布的方式搜索到的识别子网络，W _a为识别子网络a的模型参数。

在本公开实施例中，模型参数包括网络中每个网络层的权重，识别超网络的训练采用了权重共享的策略。权重共享的策略指的是对一个超网络中的搜索空间进行编码，超网络中的候选架构均共享该超网络的权重。也即是搜索得到的每个识别子网络均使用识别超网络中的权重。

在一些实施例中，电子设备获取验证集，该验证集包括多个验证视频，该验证视频用于验证识别超网络的性能，例如获取200个视频作为验证视频。电子设备基于验证视频验证识别超网络，若验证通过，则表示识别超网络训练完成，若验证不通过，则执行步骤702-步骤704，继续训练识别超网络。其中，验证通过的条件可以根据需要设置，例如准确率高于阈值。

在步骤705中，电子设备对识别超网络进行网络搜索，得到多个候选识别子网络。

可选地，电子设备结合贝叶斯优化搜索和高斯过程模型的方式，基于训练后的识别超网络，确定多个候选识别子网络。其中，贝叶斯优化搜索的轮数可以根据需要设置，例如轮数为100。其中，高斯过程模型的训练数据为识别子网络以及该识别子网络的标签，该标签指示该识别子网络的准确率。高斯过程模型的输入数据为识别子网络，则输出数据为该识别子网络的准确率。其中，标签还可以为识别子网络的F₁分数，其中，F₁分数为平衡F分数，也即准确率和召回率的调和平均数。

其中，电子设备先基于贝叶斯优化搜索，确定识别子网络，然后基于高斯过程模型确定该识别子网络的准确率，从而将准确率高于阈值的识别子网络确定为候选识别子网络。其中，贝叶斯优化搜索的采集（acquisition）函数可以基于可信性概率（Probabilityof Feasibility，PoF）确定。高斯过程模型的高斯过程参数可以基于最大似然估计来确定，如下公式所示：

其中，K为汉明核函数，a为识别子网络，F ₁为准确率和召回率的调和平均数，μ和σ均为参数且基于最大边际似然估计的方式确定，I为条件概率，p为因变量，N为高斯概率分布。

在本公开实施例中，电子设备采用神经架构搜索的方式获取目标识别网络。其中，神经架构搜索（Neural Architecture Search，NAS）是指在预定义的搜索空间中自动找出效果出色的识别子网络。神经架构搜索包括搜索空间、搜索策略以及模型效果评估三部分，其中，搜索空间是指预定义的包含备选的多个模块的空间，也即识别超网络，搜索策略是预定义的、用于指示在搜索空间如何从一个模块开始搜索得到识别子网络，可根据需要搜索的识别子网络定义对应的搜索策略，模型效果评估是指对搜索得到的识别子网络对应的准确率进行预测，以确定搜索得到的识别子网络对应的准确率。

参见图8所示的神经架构搜索过程，第一部分是识别超网络的训练过程，空心圆表示未被选定的模块，实心圆表示被选定的模块，箭头表示模块之间的连接。第二部分是网络搜索过程，也即是从训练后的识别超网络中搜索得到多个候选识别子网络的过程，每个由实心圆连接而成的模块表示候选识别子网络，曲线图为候选识别子网络的准确率曲线，曲线图的横轴为确定的候选识别子网络，曲线图的纵轴为候选识别子网络的准确率。第三部分是对候选识别子网络重新进行训练的过程。

可选地，神经架构搜索的过程如下公式所示：

其中，W为模型参数，A为识别超网络，W _A为识别超网络A的模型参数，argmin（·）为使（·）取最小值时的变量值，ζ _train为训练过程的损失值，N表示从识别超网络中搜索识别子网络，a为从识别超网络的搜索空间中搜索到的识别子网络，a*是搜索到的效果最优的识别子网络，EER（Equal Error Rate，平均错误概率）为识别子网络的效果的评价指标，val表示验证集（validation），W _a为识别子网络a的模型参数。通过基于验证集中的验证视频对识别子网络进行验证，基于识别子网络的EER对识别子网络进行评价，从而得到效果最优的识别子网络。

在一些实施例中，对于步骤705中确定出的每个候选识别子网络，电子设备直接执行步骤706的操作。或者，电子设备先基于样本视频对每个候选识别子网络进行训练，则训练后的候选识别子网络的准确率能够进一步地提升，再执行步骤706的操作。可选地，电子设备基于样本视频对每个候选识别子网络进行训练的实现方式包括：对于每个候选识别子网络，电子设备基于候选识别子网络对样本视频的识别结果，确定候选识别子网络的损失值，在候选识别子网络的损失值不符合损失值条件的情况下，基于候选识别子网络的损失值，调整候选识别子网络的模型参数，对于调整后的候选识别子网络重复上述步骤，直至候选识别子网络的损失值符合损失值条件，得到训练后的多个候选识别子网络。

其中，损失值条件可以根据需要设置，例如损失值条件为损失值低于损失值阈值，或者损失值条件为连续的多个迭代过程中的损失值均低于损失值阈值。损失值阈值和多个迭代过程的数量可以根据需要设置，本公开对此不加以限定。

在本公开实施例中，候选识别子网络的准确性相较于识别子网络的准确性有所提升，在此基础上，通过基于样本视频对候选识别子网络进行训练，能够进一步地提高候选识别子网络的准确性。

在步骤706中，电子设备从识别超网络的多个候选识别子网络中，确定教师子网络和学生子网络，教师子网络的准确率高于学生子网络的准确率，候选识别子网络是对识别超网络进行网络搜索得到的。

在本公开实施例中，电子设备基于每个候选识别子网络的准确率，来确定教师子网络和学生子网络。在一些实施例中，电子设备确定每个候选识别子网络的准确率，将准确率最高的候选识别子网络作为教师子网络，将其他候选识别子网络作为学生子网络。或者，电子设备将多个候选识别子网络中准确率按从大到小排序靠前的多个候选识别子网络确定为教师子网络，将其他候选识别子网络作为学生子网络。可选地，电子设备确定每个候选识别子网络的准确率的实现方式包括：电子设备基于验证集中的验证数据对每个候选识别子网络进行验证，得到每个候选识别子网络的准确率。

在步骤707中，电子设备以样本视频中每个视频帧的标签为监督，基于教师子网络对样本视频的识别结果，调整教师子网络的模型参数，标签指示视频帧是否为边界视频帧。

其中，教师子网络的输入数据的样本视频，输出数据是样本视频的识别结果。可选地，步骤707的实现方式包括：电子设备基于教师子网络对样本视频的识别结果和每个视频帧的标签，确定教师子网络的损失值；基于教师子网络的损失值，调整教师子网络的模型参数。可选地，电子设备基于损失函数，确定教师子网络的损失值，例如损失函数为交叉熵损失函数。教师子网络以视频帧的真实标签为训练目标，通过确定教师子网络预测到的视频帧的识别标签与视频帧的真实标签之间的交叉熵损失值，使得教师子网络预测到的视频帧的识别标签趋近于视频帧的真实标签，以提高教师子网络的准确率。

在本公开实施例中，教师子网络以视频帧的真实标签为训练目标，根据教师子网络对样本视频进行识别得到的识别结果，来调整教师子网络的模型参数，从而使得调整后的教师子网络的准确率更高，能够识别出更加准确地识别结果。

在步骤708中，电子设备以样本视频中每个视频帧的标签、教师子网络对样本视频的识别结果为监督，基于学生子网络对样本视频的识别结果，调整学生子网络的模型参数。

其中，学生子网络的输入数据是样本视频，输出数据是样本视频的识别结果。可选地，步骤708的实现方式包括：电子设备基于教师子网络对样本视频的识别结果、每个视频帧的标签以及学生子网络对样本视频的识别结果，确定学生子网络的损失值；基于学生子网络的损失值，调整学生子网络的模型参数。

在本公开实施例中，学生子网络以视频帧的真实标签和教师子网络对样本视频的识别结果为训练目标，根据学生子网络对样本视频进行识别得到的识别结果，来调整学生子网络的模型参数，从而使得调整后的学生子网络的准确率更高，能够识别出更加准确地识别结果。

可选地，电子设备基于教师子网络对样本视频的识别结果、每个视频帧的标签以及学生子网络对样本视频的识别结果，确定学生子网络的损失值的实现方式包括：电子设备基于学生子网络对样本视频的识别结果和每个视频帧的标签，确定学生子网络的第一损失值；基于学生子网络对样本视频的识别结果和教师子网络对样本视频的识别结果，确定学生子网络的第二损失值；按照第一损失值和第二损失值的权重，对第一损失值和第二损失值进行加权融合，得到学生子网络的损失值。

其中，电子设备可以基于损失函数确定第一损失值和第二损失值，例如损失函数为交叉熵损失函数。在本公开实施例中，一方面，学生子网络以视频帧的真实标签为训练目标，通过确定学生子网络预测到的视频帧的识别标签与视频帧的真实标签之间的交叉熵损失值，使得学生子网络预测到的视频帧的识别标签趋近于视频帧的真实标签；另一方面，学生子网络以教师子网络的输出分布，也即教师子网络对视频帧的识别标签为训练目标，通过确定学生子网络对的视频帧的识别标签与教师子网络对视频帧的识别标签之间的交叉熵损失值，使得学生子网络对视频帧的识别标签趋近于教师子网络对视频帧的识别标签，以使学生子网络能够学习到教师子网络的识别能力，准确率能够进一步提高。

其中，第一损失值的权重与第二损失值的权重之和为1。第一损失值的权重、第二损失值的权重以及加权融合的方式可以根据需要确定，本公开对此不加以限定。例如加权融合的方式为加权求和，第一损失值的权重为0.2，第二损失值的权重为0.8。

在本公开实施例中，由于教师子网络的准确率较高，则教师子网络对样本视频的识别结果较为准确，因此教师子网络确定出的每个视频帧的识别标签可以看作是软标签，而每个视频帧所携带的标签可以看作是硬标签，则学生子网络的第一损失值是以硬标签为监督确定的，第二损失值是以软标签为监督确定的，这样加权融合得到的学生子网络的损失值结合软标签和硬标签两者的信息，因此通过知识蒸馏的方式，将教师子网络在训练过程的知识蒸馏给了学生子网络，使得确定出的学生子网络的损失值更加准确。

可选地，以样本视频中每个视频帧的标签、教师子网络对样本视频的识别结果为监督，基于学生子网络对样本视频的识别结果，调整学生子网络的模型参数之后，本公开实施例供的目标识别网络的训练方法还包括：电子设备按照教师子网络的权重和学生子网络的权重，对调整后的教师子网络的模型参数以及调整后的学生子网络的模型参数进行加权融合，得到学生子网络更新后的模型参数，教师子网络的权重与学生子网络的权重之和为1。

其中，模型参数的加权融合方式可以为加权求和。可选地，电子设备通过如下公式确定学生子网络更新后的模型参数：

其中，α是学生子网络的权重，1-α是教师子网络的权重，A和c是预设的超参数，H（·）是模型参数的熵，l是网络层，W是模型参数，M ₁是教师子网络，W _l ^M1是教师子网络的模型参数，M ₂是学生子网络，W _l ^M2是学生子网络的模型参数，W _l ^M2 ’是学生子网络更新后的模型参数。

在本公开实施例中，通过结合教师子网络的模型参数以及学生子网络的模型参数来更新学生子网络的模型参数，从而实现了将教师子网络的模型参数嫁接到学生子网络上，使得学生子网络的模型参数更加准确，从而通过结合知识蒸馏和模型参数嫁接的方式，大大提高了训练过程中学生子网络的模型参数的准确率。

本公开实施例以步骤707-步骤708所示的教师子网络和学生子网络的一次迭代过程为例进行说明。需要说明的是，教师子网络和学生子网络的训练过程包括至少一次迭代过程，在每次迭代过程中，在教师子网络的损失值或学生子网络的损失值中的至少一项不符合损失值条件的情况下，对于调整后的教师子网络和学生子网络重复上述步骤707-步骤708，直至教师子网络的损失值和学生子网络的损失值均符合损失值条件，得到调整后的教师子网络和调整后的学生子网络，也即训练后的教师子网络和训练后的学生子网络。

在步骤709中，电子设备从调整后的教师子网络和调整后的学生子网络中，确定用于识别边界视频帧的目标识别网络，目标识别网络的准确率高于其他的候选识别子网络的准确率。

在一些实施例中，对于调整后的教师子网络和调整后的学生子网络，也即训练后的多个候选识别子网络，电子设备基于验证集中的样本数据对每个候选识别子网络进行验证，得到每个候选识别子网络的准确率，将准确率最高的候选识别子网络确定为目标识别网络。

在一些实施例中，电子设备从调整后的学生子网络中，确定用于识别边界视频帧的目标识别网络，目标识别网络的准确率高于其他的学生子网络的准确率。这是由于，对同一个识别超网络进行网络搜索得到的多个子网络中，教师子网络的准确率较高，但是网络结构较为复杂，使用教师子网络进行识别会导致计算量过大，延迟过高。而学生子网络的准确率较低，网络结构较为简单，使用学生子网络进行识别时的计算量较小，延迟较低。而通过知识蒸馏的方法，能够让学生子网络学习到教师子网络的识别能力，提高准确率。那么在训练之后，不再选取教师子网络，而选取准确率最高的学生子网络，既能够保证准确率，还能降低计算量，减少延迟，提高识别效率。

下面对目标识别网络的确定过程进行说明：

通过随机拼接两个视频片段来构建样本视频，每个样本视频包括的视频帧的数量为70。超参数λ₁、λ₂、A、c、熵计算中的箱数和等式中的嫁接网络的数量分别为5、0.1、0.4、1.0、10和3，学习率为0.1，动量为0.9，批处理大小为16。在神经架构搜索过程中，每个历元的种群数为48个，时代总数为100个，初始化时间为20个历元。

识别超网络的训练：依据搜索空间构造识别超网络，使用随机梯度下降、交叉熵函数以及单路径均匀采样的方式来训练识别超网络；然后是候选识别子网络的确定：从训练后的识别超网络中确定候选识别子网络a₀，确定候选识别子网络a₀的准确率，将候选识别子网络a₀和候选识别子网络a₀的准确率加入到队列Q，训练高斯过程模型，基于高斯过程模型确定候选识别子网络a₀的预测准确率，该预测准确率是高斯过程模型在训练过程中确定的准确率，从而基于该准确率更新高斯过程模型的参数；基于采集函数，获取新的候选识别子网络a_i，i=1，…，n₁，i是候选识别子网络的序号，n₁为设置的搜索轮数，确定候选识别子网络a_i的准确率，将候选识别子网络a_i和a_i的准确率加入到队列Q，使用队列Q，训练高斯过程模型，更新高斯过程模型的参数，直至高斯过程模型训练结束，得到n₁个候选识别子网络；然后基于样本视频训练n₁个候选识别子网络，从训练后的n₁个候选识别子网络中确定目标识别网络。

短视频通常是指长度小于两分钟的视频。短视频的视频长度使短视频更容易传播但由于视频长度较小，这就增加了短视频中边界视频帧的检测难度。为了实现对短视频的边界视频帧的检测，本公开实施例提供了一个数据集SHOT，该数据集SHOT是针对于短视频的数据集。该数据集SHOT用于视频的边界视频帧检测，该数据集SHOT包括853个样本视频以及11706个镜头注释。该数据集SHOT包括200个测试视频，这200个测试视频共有2716个镜头转换位置，由技术人员进行了两轮注释。其中，1个镜头转换位置对应两个边界视频帧，853个视频是从短视频平台上收集到的，帧总数为970794帧，接近10万帧。

本公开实施例针对每个样本视频，进行了基于视频缩略图的标签标注，帧号显示在每一帧的左上角，这大大减少了技术人员进行帧数检查的工作。如果在帧号位置上的像素值较暗，则以浅色显示帧号。否则以深色显示帧号。本公开实施例通过技术人员人工完成970794个视频帧的标签标注。通过人工检查，发现存在2%的错误率，考虑到镜头定义的模糊性和注释者的注释差异，本公开实施例认为2%的错误率是可以接受的。

测试集上的标签质量，即数据集的质量直接影响到识别子网络的准确性评价。为了保证测试集上的边界视频帧的标注的质量，本公开实施例通过3位技术人员对标注的394个短视频中随机选择200个短视频作为测试集。对于200个测试视频，通过两轮标注，其中第一轮产生2616个镜头转换位置。第二轮则调用相关技术中针对传输网络模型（TransNet）的改进模型（TransNetV2）以及本公开实施例的目标识别网络（AutoShot）来对标注进行了检查，修复了部分假阳性标注，第二轮产生2716个镜头转换位置，即从假阴性中重新收集100个镜头转换位置。

在数据集上，本公开实施例验证了三个公开且广泛使用的数据集：数据集1，数据集2和数据集3。这三个数据集与本公开的数据集SHOT有很大的不同。数据集2中每个视频大约有50分钟，整个数据集包含了大约4900个镜头转换位置和670个场景。数据集3包括10个视频，每个视频的长度大约是半小时。数据集1包括数千个视频。数据集SHOT与相关技术中的三个数据集在属性上的比较如表1所示。

表1

其中，虚拟场景指的是由虚拟画面构成的视频片段，三元视频指的是垂直三元结构的视频，也即相邻几个视频帧的画面中间部分发生变化，而上面和下面的区域显示相同内容。可见，数据集SHOT的视频质量要优于其他三个数据集。

参见图9，通过将本公开实施例提供的数据集SHOT与现有技术中的数据集1在视频长度和镜头长度上进行比较，可见，数据集SHOT中的视频和数据集1中的视频之间很少有视频长度范围的重叠，数据集SHOT中视频的视频长度大都小于100秒，而数据集1中视频的视频长度大都大于120秒，也即数据集SHOT和数据集1之间的视频长度存在巨大差异。并且数据集SHOT中的视频的镜头长度在6秒内，而数据集1中视频的镜头长度从2秒到30秒不等，因此数据集SHOT中的视频比数据集1中的剪贴视频更适合用于边界视频帧的检测。

短视频的视频长度较短，因此镜头长度也较短，参见图9，数据集SHOT中的镜头长度大多在5秒内，而数据集1中的镜头长度大多在2秒到30秒之间。因此对于数据集1这种传统的数据集由于视频长度和镜头长度的分布较为分散且差异较大，可能不适合用于短视频的边界视频帧的检测。然而短视频的边界视频帧检测更具挑战性，因为短视频的场景比传统的视频复杂。例如，短视频的镜头转换通常利用几个复杂的镜头渐进转换的组合来实现，例如垂直三元结构的视频。

本公开实施例通过在封装有多种三维卷积网络模块的搜索空间中进行神经架构搜索，来优化用于检测边界视频帧的模型设计。在训练好目标识别网络之后，从相关技术中选取了4个识别子网络：深度模型（Deep Structured Models）、空间-时间卷积网络模型（Spatio-Temporal ConvNets）、传输网络模型（TransNet）以及针对TransNet的改进模型（TransNetV2），并且在三个数据集上分别进行测试，来比较目标识别网络与4个识别子网络的性能。其中，评价指标采用F₁分数。测试结果如表2所示。

表2

从表2中可以看出，将搜索到的目标识别网络应用于三个数据集，能获得比相关技术中的识别子网络更好的F₁分数，这充分验证了目标识别网络的有效性和良好的通用性。本公开实施例提供的目标识别网络在三个数据集上的F₁分数比改进模型分别高出1.1%、0.9%和1.2%。

此外，以本公开实施例提供的数据集SHOT进行测试，评价指标包括准确率和F₁分数，测试结果如表3所示。

表3

从表3中可以看出，根据F₁分数和准确率目标识别网络比改进模型分别高出4.2%和3.5%。

本公开实施例对不同的搜索空间进行了测试，包括AutoShot-S，AutoShot-M和AutoShot-L。其中，AutoShot-S只在搜索空间中使用DDCNNV2A，每个特征提取模块有6个搜索选项。AutoShot-M在搜索空间中使用了DDCNNV2和DDCNNV2A，每个特征提取模块有12个搜索选项。AutoShot-L的搜索空间包括各种3DConvNet变体，即DDCNNV2、DDCNNV2A、DDCNNV2B和DDCNNV2C，从而提高了再训练和搜索后的候选架构中的F₁分数，AutoShot中更多的搜索选项允许确定最优组合。评价指标采用F₁分数，测试结果如表4所示。

表4

参见表4，AutoShot-L获得了最好的F₁分数。

对于训练多个候选识别子网络的过程，本公开实施例还针对使用多种方式训练得到的候选识别子网络进行了性能的测试。其中，多种训练方式包括知识蒸馏、模型参数的嫁接以及知识蒸馏与模型参数的嫁接的结合。其中，评价指标采用F₁分数。测试结果如表5所示。

表5

可见，在无知识蒸馏的情况下，F₁分数范围为0.825-0.837，在有知识蒸馏的情况下，F₁分数范围为0.832-0.838，通过结合模型参数的嫁接，进一步提高了F₁分数。

并且经过测试，本公开实施例训练得到的模型浮点运算数为37GMACs（GigaMultiply-Accumulation operations per second，每秒千兆次乘法累加运算），而相关技术中的TransNetV2的浮点运算数为41GMACs，可见，本公开实施例训练得到的目标识别网络的模型复杂度要低于相关技术中使用的识别模型的模型复杂度。

在确定好目标识别网络之后，电子设备可以基于目标识别网络对视频进行识别。相应地，下面对边界视频帧的识别过程进行说明。

图10是根据一示例性实施例示出的一种边界视频帧的识别过程的流程图，参见图10，该方法由电子设备执行，包括以下步骤。

在步骤1001中，电子设备获取待识别的视频，视频包括多个视频帧。

其中，待识别的视频可以是电子设备从数据库中获取的视频，或者待识别的视频也可以是电子设备从其他电子设备处获取的。例如电子设备为服务器，终端采集视频，向服务器发送识别请求，该识别请求用于指示识别视频中的边界视频帧，该识别请求携带有该视频，服务器响应于该识别请求，获取识别请求中的视频，从而对该视频中的边界视频帧进行识别。

在一些实施例中，电子设备可以对视频进行重采样，得到视频帧大小一致的视频。其中，重采样后的视频帧的尺寸可以根据需要设置，例如视频帧的宽×高为48mm×27mm。电子设备还可以将视频切分成固定长度的视频片段，以便于目标识别网络识别，并且切分后的视频片段的前后固定长度的视频帧分别与上个视频片段以及下个视频片段重合，以便于目标识别网络提取相邻视频帧之间的相似特征。其中，视频片段的长度以及重合的长度可以根据需要设置，例如视频片段长度为110帧，重合长度为25帧。

在步骤1002中，电子设备基于目标识别网络对视频进行识别，得到识别结果，识别结果包括每个视频帧的识别标签，识别标签指示视频帧是边界视频帧的可能性。

其中，目标识别网络是基于步骤701-步骤709确定的，本公开实施例在此不做赘述。

可选地，目标识别网络包括特征提取网络和分类网络；步骤1002包括：电子设备调用特征提取网络，对视频中的每个视频帧进行特征提取，得到每个视频帧的视频帧特征；调用分类网络，基于每个视频帧的视频帧特征进行分类，得到每个视频帧的识别标签。

电子设备在获取到待识别的视频之后，调用目标识别网络，由于目标识别网络包括特征提取网络，则电子设备调用特征提取网络，通过特征提取网络对视频进行特征提取，得到每个视频帧的视频帧特征。在一些实施例中，特征提取网络包括特征提取模块和自注意力模块；则电子设备调用特征提取模块，对每个视频帧进行特征提取，得到每个视频帧的视频帧特征；调用自注意力模块，对每个视频帧的视频帧特征进行处理，得到每个视频帧处理后的视频帧特征。

在本公开实施例中，由于特征提取模块能够提取特征，自注意力模块能够基于自注意力机制对提取的视频帧特征进行进一步地特征提取，从而确定出的视频帧特征的准确率较高。

其中，每个视频帧可以有一个或两个识别标签，一个识别标签指示视频帧是突变边界视频帧的可能性，另一个识别标签指示视频帧是渐变边界视频帧的可能性。

在一些实施例中，若目标识别网络的输入数据为存在重合视频帧的视频片段，则电子设备保留视频片段中除重合视频帧外的其他视频帧的识别标签。

在本公开实施例中，通过基于目标识别网络中的特征提取网络和分类网络来对视频进行识别，从而得到识别结果，由于特征提取网络提取到的视频帧特征能够表示视频帧的相关信息，这样分类得到的识别标签与视频相关，从而能确定出较为准确的识别标签，提高了识别的准确率。

在一些实施例中，确定出对视频的识别结果之后，电子设备可以基于识别结果分割视频，相应地，电子设备执行步骤1003-步骤1004的操作。

在步骤1003中，电子设备基于识别结果，确定视频的边界视频帧。

其中，每个视频帧的识别标签指示该视频帧为边界视频帧的可能性。可选地，识别标签以概率的形式表示，则电子设备将概率大于概率阈值的视频帧确定为边界视频帧，其中，概率阈值可以根据需要设置，本公开实施例对此不加以限定。

在步骤1004中，电子设备将视频从边界视频帧所在的位置进行分割，得到多个视频片段。

对于视频而言，若相邻两个视频帧均为边界视频帧，则表示这相邻两个视频帧为视频的两个视频片段的连接处，则电子设备能够将视频从边界视频帧在的位置进行分割，从而得到多个视频片段。

本公开实施例提供了一种识别边界视频帧的方案，方案中使用的目标识别网络是从识别超网络的多个候选识别子网络中确定的，通过基于样本视频对多个候选识别子网络中的教师子网络和学生子网络进行知识蒸馏训练，来提升候选识别子网络的准确率，从而得到准确率较高的目标识别网络，这样基于目标识别网络所识别到的视频中的边界视频帧的准确性较高，由于识别结果是目标识别网络确定的，准确率较高，则基于识别结果确定出的边界视频帧的准确率加高，从而分割得到的多个视频片段的准确率较高。

图11是根据一示例性实施例示出的一种目标识别网络的训练装置的框图。参见图11，该装置包括：

第一确定单元1101，被配置为执行从识别超网络的多个候选识别子网络中，确定教师子网络和学生子网络，教师子网络的准确率高于学生子网络的准确率，候选识别子网络是对识别超网络进行网络搜索得到的；

训练单元1102，被配置为执行以样本视频中每个视频帧的标签为监督，基于教师子网络对样本视频的识别结果，调整教师子网络的模型参数，标签指示视频帧是否为边界视频帧；

训练单元1103，还被配置为执行以样本视频中每个视频帧的标签、教师子网络对样本视频的识别结果为监督，基于学生子网络对样本视频的识别结果，调整学生子网络的模型参数；

第一确定单元1101，还被配置为执行从调整后的教师子网络和调整后的学生子网络中，确定用于识别边界视频帧的目标识别网络，目标识别网络的准确率高于其他的候选识别子网络的准确率。

在一些实施例中，训练单元1102，被配置为执行：

基于教师子网络对样本视频的识别结果和每个视频帧的标签，确定教师子网络的损失值；

基于教师子网络的损失值，调整教师子网络的模型参数。

在一些实施例中，训练单元1102，被配置为执行：

基于样本视频中每个视频帧的标签、教师子网络对样本视频的识别结果以及学生子网络对样本视频的识别结果，确定学生子网络的损失值；

基于学生子网络的损失值，调整学生子网络的模型参数。

在一些实施例中，训练单元1102，被配置为执行：

基于学生子网络对样本视频的识别结果和每个视频帧的标签，确定学生子网络的第一损失值；

基于学生子网络对样本视频的识别结果和教师子网络对样本视频的识别结果，确定学生子网络的第二损失值；

按照第一损失值和第二损失值的权重，对第一损失值和第二损失值进行加权融合，得到学生子网络的损失值。

在一些实施例中，装置还包括：

融合单元，被配置为执行按照教师子网络的权重和学生子网络的权重，对教师子网络的模型参数以及学生子网络的模型参数进行加权融合，得到学生子网络更新后的模型参数，教师子网络的权重与学生子网络的权重之和为1。

在一些实施例中，装置还包括：

第二确定单元，被配置为执行确定初始的识别超网络；

训练单元1102，还被配置为执行从识别超网络中采样得到识别子网络，基于识别子网络对样本视频的识别结果，调整识别超网络的模型参数；

搜索单元，被配置为执行对识别超网络进行网络搜索，得到多个候选识别子网络。

在一些实施例中，训练单元1102，被配置为执行：

从识别超网络中采样得到当前的识别子网络；

基于当前的识别子网络对样本视频的识别结果，确定当前的识别子网络的损失值；

在损失值不符合损失值条件的情况下，基于损失值，调整识别超网络的模型参数；

从调整后的识别超网络中采样得到下一个识别子网络，对于下一个识别子网络重复执行上述步骤，直至当前的识别子网络的损失值符合损失值条件，得到当前的识别超网络。

在一些实施例中，装置还包括：

训练单元1102，还被配置为执行对于每个候选识别子网络，基于候选识别子网络对样本视频的识别结果，确定候选识别子网络的损失值，在候选识别子网络的损失值不符合损失值条件的情况下，基于候选识别子网络的损失值，调整候选识别子网络的模型参数，对于调整后的候选识别子网络重复上述步骤，直至候选识别子网络的损失值符合损失值条件，得到训练后的多个候选识别子网络。

在一些实施例中，装置还包括：

获取单元，被配置为执行获取待识别的视频，视频包括多个视频帧；

识别单元，被配置为执行基于目标识别网络对视频进行识别，得到识别结果，识别结果包括每个视频帧的识别标签，识别标签指示视频帧是边界视频帧的可能性；

第三确定单元，被配置为执行基于识别结果，确定视频的边界视频帧；

分割单元，被配置为执行将视频从边界视频帧所在的位置进行分割，得到多个视频片段。

在一些实施例中，目标识别网络包括特征提取网络和分类网络；识别单元，包括：

特征提取子单元，被配置为执行调用特征提取网络，对视频中的每个视频帧进行特征提取，得到每个视频帧的视频帧特征；

分类子单元，被配置为执行调用分类网络，基于每个视频帧的视频帧特征进行分类，得到每个视频帧的识别标签。

在一些实施例中，特征提取网络包括特征提取模块和自注意力模块；特征提取子单元，被配置为执行：

调用特征提取模块，对每个视频帧进行特征提取，得到每个视频帧的视频帧特征；

调用自注意力模块，对每个视频帧的视频帧特征进行处理，得到每个视频帧处理后的视频帧特征。

关于上述实施例中的目标识别网络的训练装置，其中各个模块执行操作的具体方式已经在有关该目标识别网络的训练方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在示例性实施例中，提供了一种电子设备，该电子设备包括一个或多个处理器，以及用于存储该一个或多个处理器可执行指令的存储器；其中，该一个或多个处理器被配置为执行上述实施例中的目标识别网络的训练方法。

在一种可能实现方式中，该电子设备提供为终端。图12是根据一示例性实施例示出的一种终端1200的结构框图。该终端1200可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器（Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3）、MP4（Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4）播放器、笔记本电脑或台式电脑。终端1200还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

终端1200包括有：处理器1201和存储器1202。

处理器1201可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1201可以采用DSP（Digital Signal Processing，数字信号处理）、FPGA（Field－Programmable Gate Array，现场可编程门阵列）、PLA（Programmable Logic Array，可编程逻辑阵列）中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU（Central ProcessingUnit，中央处理器）；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1201可以集成有GPU（Graphics Processing Unit，图像处理器），GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1201还可以包括AI（Artificial Intelligence，人工智能）处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1202可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1202中的非暂态的计算机可读存储介质用于存储至少一条指令，该至少一条指令用于被处理器1201所执行以实现本公开中方法实施例提供的目标识别网络的训练方法。

在一些实施例中，终端1200还可选包括有：外围设备接口1203和至少一个外围设备。处理器1201、存储器1202和外围设备接口1203之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1203相连。具体地，外围设备包括：射频电路1204、显示屏1205、摄像头组件1206、音频电路1207、定位组件1208和电源1209中的至少一种。

外围设备接口1203可被用于将I/O（Input/Output，输入/输出）相关的至少一个外围设备连接到处理器1201和存储器1202。在一些实施例中，处理器1201、存储器1202和外围设备接口1203被集成在同一芯片或电路板上；在一些其他实施例中，处理器1201、存储器1202和外围设备接口1203中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1204用于接收和发射RF（Radio Frequency，射频）信号，也称电磁信号。射频电路1204通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1204将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1204包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1204可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络（2G、3G、4G及5G）、无线局域网和/或WiFi（Wireless Fidelity，无线保真）网络。在一些实施例中，射频电路1204还可以包括NFC（Near Field Communication，近距离无线通信）有关的电路，本公开对此不加以限定。

显示屏1205用于显示UI（User Interface，用户界面）。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1205是触摸显示屏时，显示屏1205还具有采集在显示屏1205的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1201进行处理。此时，显示屏1205还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1205可以为一个，设置在终端1200的前面板；在另一些实施例中，显示屏1205可以为至少两个，分别设置在终端1200的不同表面或呈折叠设计；在另一些实施例中，显示屏1205可以是柔性显示屏，设置在终端1200的弯曲表面上或折叠面上。甚至，显示屏1205还可以设置成非矩形的不规则图形，也即异形屏。显示屏1205可以采用LCD（Liquid Crystal Display，液晶显示屏）、OLED（Organic Light-EmittingDiode，有机发光二极管）等材质制备。

摄像头组件1206用于采集图像或视频。可选地，摄像头组件1206包括前置摄像头和后置摄像头。前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR（Virtual Reality，虚拟现实）拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1206还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1207可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1201进行处理，或者输入至射频电路1204以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1200的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1201或射频电路1204的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1207还可以包括耳机插孔。

定位组件1208用于定位终端1200的当前地理位置，以实现导航或LBS（LocationBased Service，基于位置的服务）。定位组件1208可以是基于美国的GPS（GlobalPositioning System，全球定位系统）、中国的北斗系统、俄罗斯的格雷纳斯定位系统或欧盟的伽利略定位系统的定位组件。

电源1209用于为终端1200中的各个组件进行供电。电源1209可以是交流电、直流电、一次性电池或可充电电池。当电源1209包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1200还包括有一个或多个传感器1210。该一个或多个传感器1210包括但不限于：加速度传感器1211、陀螺仪传感器1212、压力传感器1213、指纹传感器1214、光学传感器1215以及接近传感器1216。

加速度传感器1211可以识别以终端1200建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1211可以用于识别重力加速度在三个坐标轴上的分量。处理器1201可以根据加速度传感器1211采集的重力加速度信号，控制显示屏1205以横向视图或纵向视图进行用户界面的显示。加速度传感器1211还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1212可以识别终端1200的机体方向及转动角度，陀螺仪传感器1212可以与加速度传感器1211协同采集用户对终端1200的3D动作。处理器1201根据陀螺仪传感器1212采集的数据，可以实现如下功能：动作感应（比如根据用户的倾斜操作来改变UI）、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1213可以设置在终端1200的侧边框和/或显示屏1205的下层。当压力传感器1213设置在终端1200的侧边框时，可以识别用户对终端1200的握持信号，由处理器1201根据压力传感器1213采集的握持信号进行左右手识别或快捷操作。当压力传感器1213设置在显示屏1205的下层时，由处理器1201根据用户对显示屏1205的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1214用于采集用户的指纹，由处理器1201根据指纹传感器1214采集到的指纹识别用户的身份，或者，由指纹传感器1214根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1201授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1214可以被设置在终端1200的正面、背面或侧面。当终端1200上设置有物理按键或厂商Logo时，指纹传感器1214可以与物理按键或厂商Logo集成在一起。

光学传感器1215用于采集环境光强度。在一个实施例中，处理器1201可以根据光学传感器1215采集的环境光强度，控制显示屏1205的显示亮度。具体地，当环境光强度较高时，调高显示屏1205的显示亮度；当环境光强度较低时，调低显示屏1205的显示亮度。在另一个实施例中，处理器1201还可以根据光学传感器1215采集的环境光强度，动态调整摄像头组件1206的拍摄参数。

接近传感器1216，也称距离传感器，设置在终端1200的前面板。接近传感器1216用于采集用户与终端1200的正面之间的距离。在一个实施例中，当接近传感器1216识别到用户与终端1200的正面之间的距离逐渐变小时，由处理器1201控制显示屏1205从亮屏状态切换为息屏状态；当接近传感器1216识别到用户与终端1200的正面之间的距离逐渐变大时，由处理器1201控制显示屏1205从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图12中示出的结构并不构成对终端1200的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在另一种可能实现方式中，该电子设备提供为服务器。图13是根据一示例性实施例示出的一种服务器的结构框图，该服务器1300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（Central Processing Units，CPU）1301和一个或一个以上的存储器1302，其中，存储器1302中存储有至少一条程序代码，该至少一条程序代码由处理器1301加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述目标识别网络的训练方法。可选地，计算机可读存储介质可以是ROM（只读存储器，Read Only Memory）、RAM（随机存取存储器，Random Access Memory）、CD-ROM（只读光盘，Compact Disc Read-Only Memory）、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序被处理器执行以实现上述目标识别网络的训练方法。

在一些实施例中，本公开实施例所涉及的计算机程序可被部署在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行，分布在多个地点且通过通信网络互连的多个电子设备可以组成区块链系统。

本领域技术人员在考虑说明书及实践这里的公开后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种目标识别网络的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的目标识别网络的训练方法，其特征在于，所述以样本视频中每个视频帧的标签为监督，基于所述教师子网络对所述样本视频的识别结果，调整所述教师子网络的模型参数，包括：

3.根据权利要求1所述的目标识别网络的训练方法，其特征在于，所述以所述样本视频中每个所述视频帧的标签、所述教师子网络对所述样本视频的识别结果为监督，基于所述学生子网络对所述样本视频的识别结果，调整所述学生子网络的模型参数，包括：

4.根据权利要求3所述的目标识别网络的训练方法，其特征在于，所述基于所述样本视频中每个所述视频帧的标签、所述教师子网络对所述样本视频的识别结果以及所述学生子网络对所述样本视频的识别结果，确定所述学生子网络的损失值，包括：

5.根据权利要求3所述的目标识别网络的训练方法，其特征在于，所述以所述样本视频中每个所述视频帧的标签、所述教师子网络对所述样本视频的识别结果为监督，基于所述学生子网络对所述样本视频的识别结果，调整所述学生子网络的模型参数之后，所述方法还包括：

6.根据权利要求1-5任一项所述的目标识别网络的训练方法，其特征在于，所述从识别超网络的多个候选识别子网络中，确定教师子网络和学生子网络之前，所述方法还包括：

确定初始的识别超网络；

7.根据权利要求6所述的目标识别网络的训练方法，其特征在于，所述从所述识别超网络中采样得到识别子网络，基于所述识别子网络对所述样本视频的识别结果，调整所述识别超网络的模型参数，包括：

从所述识别超网络中采样得到当前的识别子网络；

8.根据权利要求6所述的目标识别网络的训练方法，其特征在于，所述对所述识别超网络进行网络搜索，得到多个所述候选识别子网络之后，所述方法还包括：

9.根据权利要求1-5任一项所述的目标识别网络的训练方法，其特征在于，所述方法还包括：

获取待识别的视频，所述视频包括多个视频帧；

基于所述识别结果，确定所述视频的边界视频帧；

10.根据权利要求9所述的目标识别网络的训练方法，其特征在于，所述目标识别网络包括特征提取网络和分类网络；所述基于所述目标识别网络对所述视频进行识别，得到识别结果，包括：

11.根据权利要求10所述的目标识别网络的训练方法，其特征在于，所述特征提取网络包括特征提取模块和自注意力模块；所述调用所述特征提取网络，对所述视频中的每个所述视频帧进行特征提取，得到每个所述视频帧的视频帧特征，包括：

12.一种目标识别网络的训练装置，其特征在于，所述装置包括：

13.根据权利要求12所述的目标识别网络的训练装置，其特征在于，所述训练单元，被配置为执行：

14.根据权利要求12所述的目标识别网络的训练装置，其特征在于，所述训练单元，被配置为执行：

15.根据权利要求14所述的目标识别网络的训练装置，其特征在于，所述训练单元，被配置为执行：

16.根据权利要求14所述的目标识别网络的训练装置，其特征在于，所述装置还包括：

17.根据权利要求12-16任一项所述的目标识别网络的训练装置，其特征在于，所述装置还包括：

第二确定单元，被配置为执行确定初始的识别超网络；

18.根据权利要求17所述的目标识别网络的训练装置，其特征在于，所述训练单元，被配置为执行：

从所述识别超网络中采样得到当前的识别子网络；

19.根据权利要求17所述的目标识别网络的训练装置，其特征在于，所述装置还包括：

20.根据权利要求12-16任一项所述的目标识别网络的训练装置，其特征在于，所述装置还包括：

21.根据权利要求20所述的目标识别网络的训练装置，其特征在于，所述目标识别网络包括特征提取网络和分类网络；所述识别单元，包括：

22.根据权利要求21所述的目标识别网络的训练装置，其特征在于，所述特征提取网络包括特征提取模块和自注意力模块；所述特征提取子单元，被配置为执行：

23.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

用于存储所述一个或多个处理器可执行指令的存储器；

其中，所述一个或多个处理器被配置为执行如权利要求1至权利要求11任一项所述的目标识别网络的训练方法。

24.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至权利要求11任一项所述的目标识别网络的训练方法。