CN111444819B

CN111444819B - 切割帧确定方法、网络训练方法、装置、设备及存储介质

Info

Publication number: CN111444819B
Application number: CN202010214521.2A
Authority: CN
Inventors: 张沁怡
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2024-01-23
Anticipated expiration: 2040-03-24
Also published as: CN111444819A

Abstract

本公开提供一种切割帧确定方法、网络训练方法、装置、设备及存储介质，涉及云计算领域，包括将待处理的视频划分为多个视频单元；将视频单元的首帧画面和尾帧画面输入预设的分类网络，并通过分类网络确定首帧画面和尾帧画面的相似度；在相似度满足预设条件的目标视频单元中，确定切割帧画面。本公开提供的方案中，通过将视频切分为视频单元的方式，能够过滤掉一部分不存在切割帧画面的视频单元，从而仅对包括切割帧画面的视频单元进行进一步的处理，能够降低数据处理量。此外，本公开提供的方案利用预设分类网络确定画面帧之间的相似度，非现有技术中仅利用低层次特征识别画面帧之间的相似度，从而能够更好的理解画面内容，降低漏检情况的发生。

Description

切割帧确定方法、网络训练方法、装置、设备及存储介质

技术领域

本公开涉及人工智能技术，尤其涉及云计算领域。

背景技术

视频序列的镜头分割，亦称镜头变化检测，是视频数据库技术中的关键技术之一。视频镜头边界检测技术就是将完整的视频按镜头边界划分为一系列的镜头片段。

现有的关于视频的分割方法，首先通过提取视频帧的特征，比如颜色、纹理、形状、运动等，通过对视频帧之间的相似度关系进行判断，从而找到视频的镜头边界。

但是，在确定相似度时，需要对视频帧进行两两比对，造成处理速度较慢的问题。

发明内容

本公开提供一种切割帧确定方法、网络训练方法、装置、设备及存储介质。

本公开第一个方面提供了一种在视频中的切割帧画面确定方法，包括：

将待处理的视频划分为多个视频单元；

将所述视频单元的首帧画面和尾帧画面输入预设的分类网络，并通过所述分类网络确定所述首帧画面和所述尾帧画面的相似度；

在相似度满足预设条件的目标视频单元中，确定切割帧画面。

在一种可选的实施例中，所述通过所述分类网络确定所述首帧画面和所述尾帧画面的相似度，包括：

通过所述分类网络中全连接层之前的部分提取所述首帧画面的第一特征、所述尾帧画面的第二特征；

根据所述第一特征、所述第二特征确定所述首帧画面和所述尾帧画面的相似度。

在这种实施例中，利用分类网络的骨干网络提取一视频单元首帧画面和尾帧画面对应的特征，再确定特征间的相似度，从而通过量化的方式衡量两帧画面的之间的差异。

在一种可选的实施例中，所述根据所述第一特征、所述第二特征确定所述首帧画面和所述尾帧画面的相似度，包括：

将所述第一特征与所述第二特征的欧式距离确定为所述首帧画面和所述尾帧画面的相似度。

在这种可选的实施方式中，通过确定两帧画面特征距离的方式确定二者相似度，能够更加准确的确定两帧画面是否相似。

在一种可选的实施例中，所述在相似度满足预设条件的目标视频单元中，确定切割帧画面，包括：

根据所述相似度确定首帧画面与尾帧画面不相似的所述目标视频单元；

在所述目标视频单元中确定所述切割帧画面。

在这种实施方式中，可以过滤掉首帧画面与尾帧画面相似的视频单元，在首帧画面与尾帧画面不相似的目标视频单元中确定切割帧画面，能够有效的降低数据处理量。

在一种可选的实施例中，所述根据所述相似度确定首帧画面与尾帧画面不相似的目标视频单元，包括：

将所述相似度大于预设阈值的视频单元确定为所述目标视频单元。

其中，若一视频单元的首帧画面与尾帧画面的相似度大于预设阈值，则说明首帧画面和尾帧画面的特征相差较多，二者不相似，因此，可以将该视频单元作为包括切割帧的目标视频单元，并对其进行进一步的处理。

在一种可选的实施例中，确定所述切割帧画面，包括：

将所述目标视频单元中相邻的两帧画面输入所述分类网络，通过所述分类网络确定所述相邻的两帧画面的相似度；

根据所述相邻的两帧画面的相似度，在所述目标视频单元中确定切割帧画面。

在这种可选的实施方式中，可以通过分类网络对目标视频单元中的帧画面进行处理，从而确定相邻两帧画面中是否存在镜头突变的情况，通过仅对目标视频单元进行进一步的处理，能够降低确定切割帧的数据处理量。同时，通过分类网络对帧画面进行识别，能够更好的理解帧画面。

在一种可选的实施例中，所述方法还包括：

根据预设视频中标注的切割帧画面对所述预设视频进行切割，得到多个视频片段；

根据所述视频片段中的内容对所述视频片段进行分类；

对所述视频片段进行拆分得到多个帧画面，并利用所述帧画面及其所属的所述视频片段的类别对预先搭建的网络进行训练，得到所述分类网络。

这种可选的实施方式中，通过切割帧对视频进行分割，并根据分割得到的视频片段拆分得到帧画面，从而得到用于训练网络的数据，使得训练完成的分类网络能够更好的理解视频。

本公开第二个方面提供了一种分类网络的训练方法，包括：

根据所述视频片段中的内容对所述视频片段进行分类；

对所述视频片段进行拆分得到多个帧画面，并利用所述帧画面及其所属的所述视频片段的类别对预先搭建的网络进行训练，得到分类网络。

本公开第三个方面提供了一种在视频中的切割帧画面确定装置，包括：

切割模块，用于将待处理的视频划分为多个视频单元；

相似度确定模块，用于将所述视频单元的首帧画面和尾帧画面输入预设的分类网络，并通过所述分类网络确定所述首帧画面和所述尾帧画面的相似度；

切割帧确定模块，用于在相似度满足预设条件的目标视频单元中，确定切割帧画面。

本公开第四个方面提供了一种分类网络的训练装置，包括：

切割模块，用于根据预设视频中标注的切割帧画面对所述预设视频进行切割，得到多个视频片段；

分类模块，用于根据所述视频片段中的内容对所述视频片段进行分类；

拆分模块，用于对所述视频片段进行拆分得到多个帧画面；

训练模块，用于利用所述帧画面及其所属的所述视频片段的类别对预先搭建的网络进行训练，得到分类网络。

本公开第五个方面提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面所述的在视频中的切割帧画面确定方法或者如第二方面所述的分类网络的训练方法。

本公开第六个方面提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行执行如第一方面所述的在视频中的切割帧画面确定方法或者如第二方面所述的分类网络的训练方法。

本公开提供的切割帧确定方法、网络训练方法、装置、设备及存储介质，包括将待处理的视频划分为多个视频单元；将视频单元的首帧画面和尾帧画面输入预设的分类网络，并通过分类网络确定首帧画面和尾帧画面的相似度；在相似度满足预设条件的目标视频单元中，确定切割帧画面。本公开提供的切割帧确定方法、网络训练方法、装置、设备及存储介质中，通过将视频切分为视频单元的方式，能够过滤掉一部分不存在切割帧画面的视频单元，从而仅对包括切割帧画面的视频单元进行进一步的处理，能够降低数据处理量。此外，本实施例提供的方案利用预设分类网络确定画面帧之间的相似度，而非现有技术中仅利用低层次特征识别画面帧之间的相似度，从而能够更好的理解画面内容，降低漏检情况的发生。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请一示例性实施例示出的应用场景图；

图2为本申请另一示例性实施例示出的应用场景图；

图3为本申请一示例性实施例示出的在视频中的切割帧画面确定方法的流程图；

图4为本申请另一示例性实施例示出的在视频中的切割帧画面确定方法的流程图；

图5为本申请一示例性实施例示出的分类网络对输入画面进行处理的流程图；

图6为本申请一示例性实施例示出的分类网络的训练方法的流程图；

图7为本申请另一示例性实施例示出的分类网络的训练方法的流程图；

图8为本申请另一示例性实施例示出的分类网络的帧画面分类示意图；

图9为本申请一示例性实施例示出的在视频中的切割帧画面确定装置的结构图；

图10为本申请另一示例性实施例示出的在视频中的切割帧画面确定装置的结构图；

图11为本申请一示例性实施例示出的分类网络的训练装置的结构图；

图12为本申请另一示例性实施例示出的分类网络的训练装置的结构图；

图13为本申请一示例性实施例示出的电子设备的结构图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

视频序列的镜头分割，亦称镜头变化检测，是视频数据库技术中的关键技术之一。视频镜头边界检测技术就是将完整的视频按镜头边界划分为一系列的镜头片段。目前的镜头分割指的是在镜头画面发生突变时进行切割，镜头突变是指视频序列中画面变化不连续。然后对每个镜头进行后续的分析，比如给每个镜头片段标注其类型、场景，包含的人物、行为等等。由于长视频中的场景活动等都会变化，因此将长视频切分为一系列的镜头片段，可以进行更加细粒度的分析。在对视频标注标签之后，可以通过这些标签对视频进行关联、推荐、搜索等，最终将最符合条件的视频呈现给用户。

近些年，现有的关于视频的分割方法，主要首先通过提取视频帧的特征，通过对视频帧之间的相似度关系进行判断，从而找到视频的镜头边界。也就是将每一帧与前一帧的特征计算相似度，若连续两帧画面不相似，则可以认为此处是镜头边界。

其中，这种方式需要对视频中的画面进行逐帧比对，导致对视频进行分割的速度较慢。

本申请提供一种在视频中确定切割帧画面的方案，该方案中，将视频分割为多个视频单元，通过一视频单元的首帧画面和尾帧画面间的相似度，确定该视频单元用是否可能存在切割帧。若存在，则再对该视频单元进行处理，在其中确定切割帧画面。本申请的方案中，能够提前过滤一部分不会存在切割帧画面的视频单元，从而降低数据处理量，提高数据处理速度。

图1为本申请一示例性实施例示出的应用场景图。

如图1所示，可以将本实施例提供的方法设置在服务器11中，用户可以操作用户终端12，从而使用户终端12向服务器11发送视频，服务器11可以基于本实施例提供的方法在接收的视频中确定切割帧画面。

服务器11还可以在视频中标注出确定的切割帧画面，并反馈给用户终端12侧。

其中，服务器11可以与多个用户终端12连接，从而处理不同用户终端12下发的任务。

图2为本申请另一示例性实施例示出的应用场景图。

如图2所示，还可以将本实施例提供的方法设置在用户终端侧。用户可以在用户终端中选择需要处理的视频，用户终端可以通过内置的本实施例提供的方法对该视频进行处理，确定其中的切割帧画面。

用户终端还可以在视频中标注出确定的切割帧画面，从而使用户能够直观的了解切割帧画面信息。

图3为本申请一示例性实施例示出的在视频中的切割帧画面确定方法的流程图。

如图3所示，本申请提供的在视频中的切割帧画面确定方法，包括：

步骤301，将待处理的视频划分为多个视频单元。

本实施例提供的方法可以由具备计算能力的电子设备执行，例如可以是图1中的服务器，或者图2中的用户终端。上述服务器可以是单台服务器，还可以分布式服务器、云平台等形式。上述用户终端可以是计算机，还可以是平板电脑、智能手机等形式。

其中，电子设备接收到在视频中确定切割帧画面的任务或指令后，可以将待处理的视频进行分割，划分为多个视频单元。

具体的，一种方式中，可以预先设置预设时长，比如2s，从而将视频划分为多个与预设时长长度相符的视频单元。比如划分出多个2s时长的视频单元。

进一步的，时序相邻的视频单元之间可以有重叠部分，也可以没有重叠部分。比如，可以将第1帧到第120帧画面划分为一个视频单元，将121帧画面到第240帧画面划分为一个视频单元。再例如，还可以将第1帧到第120帧画面划分为一个视频单元，将100帧画面到第220帧画面划分为一个视频单元.

实际应用时，可以以视频单元为单位进行处理，筛选出可能存在切割帧的视频单元。

步骤302，将视频单元的首帧画面和尾帧画面输入预设的分类网络，并通过分类网络确定首帧画面和尾帧画面的相似度。

其中，针对每个视频单元都可以执行步骤302。

具体的，针对一视频单元，可以获取其首帧画面和尾帧画面。在时序上，视频单元中的第一帧画面是首帧画面，视频单元中的最后一帧画面是尾帧画面，可以根据视频单元中各个画面帧的时间，确定其中的首帧画面和尾帧画面。

具体的，还可以通过训练得到一预设分类网络，将一个视频单元的首帧画面和尾帧画面输入该分类网络，从而通过分类网络确定首帧画面和尾帧画面的相似度。

进一步的，可以预先准备带有标识的图片，比如那些图片属于同一类，再利用这些图片数据对预先搭建的模型进行训练，得到预设分类网络。该预设分类网络能够提取图像特征，还能够确定两幅图像是否属于同一类别。

实际应用时，可以从视频中提取画面作为训练用的图片，比如，根据预先标注的切割帧对视频进行分割，再对分割得到的视频片段进行分类，属于同一类别的视频片段具有相同的标识，那么这些视频片段中的图像帧也具有相应标识。通过这样的方式，可以得到训练用的数据。

其中，预先搭建的模型可以是基于神经网络搭建的模型，通过神经网络对图像进行深度理解，从而能够更加准确的提取图像的特征。

实际应用时，可以通过预设分类网络提取首帧画面与尾帧画面的特征，再通过预设分类网络的全连接层对两个画面进行分类，比如属于同一类则相似度为1，不属于同一类则相似度为0。

其中，在另一种实施方式中，可以利用预设分类网络的骨干网络提取首帧画面与尾帧画面的特征，再通过预设算法确定特征间距离，将这一距离确定为首帧画面与尾帧画面的相似度。

具体的，针对每个视频单元，都可以确定其首帧画面与尾帧画面之间的相似度。

步骤303，在相似度满足预设条件的目标视频单元中，确定切割帧画面。

进一步的，还可以预先设置一预设条件，当相似度满足预设条件时，说明一视频单元的首帧画面与尾帧画面不相似。因此，当相似度满足该预设条件时，可以认为该视频单元中可能存在切割帧画面。

比如，通过预设分类网络直接对首帧画面和尾帧画面进行分类，并基于分类结果输出相似度时，则可以将预设条件设置为相似度为0。若相似度为1，则认为首帧画面与尾帧画面相似，若相似度为0，则认为首帧画面与尾帧画面不相似。

再比如，还可以通过预设分类网络提取首帧画面和尾帧画面的特征，并进行比对，比如计算特征间的距离，并将距离作为首帧画面与尾帧画面间的相似度，这种情况下，可以将预设条件设置为相似度大于一阈值。若相似度大于一阈值，则认为首帧画面与尾帧画面不相似。若相似度小于或等于该阈值，则认为首帧画面与尾帧画面相似。

实际应用时，若一视频单元的首帧画面与尾帧画面不相似，则在该视频单元中必定存在至少一个画面，使得与首帧画面类似的帧画面切换到了与尾帧画面类似的帧画面。因此，相似度满足预设条件的视频单元中包括至少一个切割帧画面。

其中，若视频单元的时长过长，有可能导致漏检的情况，因此，可以根据需求设置视频单元的时长，尽量减少漏检的情况，同时还能够降低数据处理量。比如设置2s时长的视频单元。

具体的，若相似度满足预设条件，则可以将该视频单元确定为目标视频单元，并在目标视频单元中识别切割帧画面。针对每个目标视频单元，都可以在其中确定切割帧画面。

进一步的，可以将目标视频单元中每相邻的两帧画面输入预设分类网络，并通过分类网络确定这两帧画面的相似度。具体的方式与确定首帧画面和所述尾帧画面的相似度类似，不再赘述。

实际应用时，若目标视频单元中，连续两帧画面的相似度满足预设条件，则可以认为这两帧画面不相似，那么可以将时间靠后的帧画面确定为切割帧画面，认为从这一帧开始，视频中的镜头发生了改变。

本实施例提供的方法用于在视频中确定切割帧画面，该方法由设置有本实施例提供的方法的设备执行，该设备通常以硬件和/或软件的方式来实现。

本实施例提供的在视频中的切割帧画面确定方法，包括：将待处理的视频划分为多个视频单元；将视频单元的首帧画面和尾帧画面输入预设的分类网络，并通过分类网络确定首帧画面和尾帧画面的相似度；在相似度满足预设条件的目标视频单元中，确定切割帧画面。本实施例提供的方法中，通过将视频切分为视频单元的方式，能够过滤掉一部分不存在切割帧画面的视频单元，从而仅对包括切割帧画面的视频单元进行进一步的处理，能够降低数据处理量。此外，本实施例提供的方法利用预设分类网络确定画面帧之间的相似度，而非现有技术中仅利用低层次特征识别画面帧之间的相似度，从而能够更好的理解画面内容，降低漏检情况的发生。

图4为本申请另一示例性实施例示出的在视频中的切割帧画面确定方法的流程图。

如图4所示，本申请提供的在视频中的切割帧画面确定方法，包括：

步骤401，根据预设视频中标注的切割帧画面对所述预设视频进行切割，得到多个视频片段。

具体的，可以预先准备训练数据，该训练数据可以是预设视频。

进一步的，可以采集大量的预设视频，该预设视频中标注有切割帧画面。可以由人工对其进行标注，以保证预设视频中的切割帧符合用户的观看习惯。还可以通过现有技术中的方法自动在预设视频中标注切割帧画面，并由人工对其进行检测，以免标注的切割帧画面有误。

实际应用时，可以根据预设视频中标注的切割帧画面对预设视频进行切割，得到多个视频片段。使得每个视频片段中的画面变化是连续的。

其中，比如一视频中的第20帧、第60帧画面是切割帧画面，则可以将第1帧画面到第19帧画面切割为一个视频片段，将第20帧画面到第59帧画面切割为一个视频片段，将第60帧画面到视频结束作为一个视频片段。

步骤402，根据所述视频片段中的内容对所述视频片段进行分类。

具体的，可以对切割得到的视频片段进行分类。一些情况下，由于镜头来回切换，可能会导致不连续的视频片段拍摄的内容一致。比如前3分钟视频中的镜头画面是主席台，具体拍摄的内容是A在主席台演讲。第4分钟视频中的镜头画面时观众台，具体拍摄的内容是观众反应。第5-6分钟又切换回了主席台，那么前3分钟的视频片段与第5-6分钟的视频片段中的内容一致，可以将其划分为一类。

进一步的，在对视频片段进行分类时，可以基于视频片段中的内容的对其进行分类，将镜头内容一致的视频片段划分为同一类。

实际应用时，视频中的内容具体可以包括主体、场景、活动，若两个视频片段中的主体、场景、活动均相同，则可以将这两个视频片段划分为同一类。

其中，可以标注视频片段的类别，比如一视频片段的类别为类别A，另一视频片段的类别为类别B。

步骤403，对所述视频片段进行拆分得到多个帧画面，并利用所述帧画面及其所属的所述视频片段的类别对预先搭建的网络进行训练，得到分类网络。

具体的，本实施例提供的方法，可以将每个视频片段进行拆分，得到多个帧画面。同时，拆分得到的帧画面能够继承其所属视频片段的类别。比如一视频片段的类别是A，则该视频片段中的帧画面的类别也是A。

进一步的，通过对各个视频片段进行拆分，能够得到多个带有类别信息的帧画面，也就是带有标注信息的数据，可以利用这些带有类别信息的帧画面对预先搭建的网络进行训练，进而得到分类网络。

实际应用时，可以预先搭建一神经网络，通过对其进行训练，能够得到分类网络。该神经网络例如可以是Resnet网络。将带有类别信息的帧画面对搭建的网络进行训练，能够能够使网络更好的分辨视频中的内容，也就是语义信息。

实际应用时，通过训练得到的分类网络可以对视频中的画面进行处理，从而通过分类网络提取视频画面中的特征，对视频中的画面进行处理。

步骤404，将待处理的视频划分为多个视频单元。

步骤404与步骤301的具体原理和实现方式类似，此处不再赘述。

步骤405，将视频单元的首帧画面和尾帧画面输入预设的分类网络，通过分类网络中全连接层之前的部分提取首帧画面的第一特征、尾帧画面的第二特征。

其中，本步骤中的将视频单元的首帧画面和尾帧画面输入预设的分类网络，与步骤302中将视频单元的首帧画面和尾帧画面输入预设的分类网络类似。

具体的，本实施例使用的分类网络是通过步骤401-403训练得到的。

进一步的，本实施例提供的方法中，可以利用分类网络中全连接层之前的部分提取首帧画面的第一特征、尾帧画面的第二特征。即利用分类网络中的骨干网络对输入的画面进行处理。

实际应用时，可以去掉分类网络中的全连接层留下骨干网络，并利用骨干网络提取输入图像的特征。

图5为本申请一示例性实施例示出的分类网络对输入画面进行处理的流程图。

如图5所示，画面被输入到分类网络中后，分类网络中的骨干网络部分能够提取画面的特征，比如骨干网络部分可以设置多个卷积层，通过对输入的画面进行卷积计算得到画面对应的特征。

将提取的特征输入到全连接层，由全连接层根据特征对画面进行分类。

本实施例提供的方法中，可以利用分类网络中的骨干网络提取一视频单元中首帧画面的第一特征，还可以提取尾帧画面的第二特征。该骨干网络还可以输出第一特征和第二特征。

步骤406，根据第一特征、第二特征确定首帧画面和尾帧画面的相似度。

其中，可以根据两帧画面的特征，确定这两帧画面的相似度，进而根据相似度确定这两帧画面是否相似。若第一特征和第二特征一致，则可以认为一视频单元的首帧画面和尾帧画面相似。若第一特征和第二特征不一致，则可以认为一视频单元的首帧画面和尾帧画面不相似。

在一种实施方式中，可以确定第一特征与第二特征之间的距离，将该距离作为第一特征与第二特征之间的相似度，从而通过该距离来衡量第一特征与第二特征之间的差异。若距离较大，则可以说明第一特征与第二特征之间差异较大，反之，则可以说明第一特征与第二特征之间差异较小。

实际应用时，可以计算第一特征与第二特征的欧式距离，并将欧式距离确定为首帧画面和尾帧画面的相似度。

步骤407，根据相似度确定首帧画面与尾帧画面不相似的目标视频单元。

其中，相似度可以衡量一视频单元中首帧画面与尾帧画面是否相似，若视频单元中首帧画面与尾帧画面不一致，则可以认为该视频单元中包括切割帧，因此，可以将首帧画面与尾帧画面不相似的视频单元确定为目标单元。

对于首帧画面与尾帧画面相似的视频单元，可以直接抛弃这些视频单元数据，不对其进行进一步的处理。

具体的，若将第一特征与第二特征间的距离确定为首帧画面和尾帧画面的相似度，则可以将相似度大于预设阈值的视频单元确定为目标视频单元。若相似度大于预设阈值，则说明首帧画面和尾帧画面的特征相差较多，二者不相似。

预设阈值可以根据需求进行设置。

步骤408，将目标视频单元中相邻的两帧画面输入分类网络，通过分类网络确定相邻的两帧画面的相似度。

步骤409，根据相邻的两帧画面的相似度，在目标视频单元中确定切割帧画面。

具体的，由于目标视频单元的首帧画面与尾帧画面不相似，因此，目标视频单元中必定存在至少一个切割帧，使得与首帧类似的画面切换到与尾帧类似的画面。因此，可以在目标视频单元中确定切割帧画面。

进一步的，可以利用预设的分类网络中，从而利用该分类网络在目标视频单元中确定切割帧画面。

实际应用时，可以将目标视频单元中每相邻的两帧画面输入预设的分类网络，从而通过分类网络确定这两帧相邻的画面的相似度。具体的方式与步骤302中确定一视频单元首帧画面与尾帧画面相似度的方式类似。

其中，相邻的两帧画面是指在时序上相邻的画面，比如目标视频单元中共包括120帧画面，那么第一帧画面与第二帧画面是相邻的画面，第二帧画面与第三帧画面是相邻的画面。

具体的，可以根据相邻两帧画面的相似度，确定这两帧画面是否相似，若不相似，则可以将时序靠后的画面帧作为切割帧，即从这一帧画面开始，镜头发生了切换。

具体根据相邻的两帧画面的相似度确定画面是否相似的方式，与根据首帧画面与尾帧画面的相似度确定首帧画面与尾帧画面是否相似的方式类似。

另一方面，本申请实施例还提供一种分类网络的训练方案。

现有技术中，在视频中确定分割帧时，主要通过提取视频中的一些低级层次的特征，如视频一些图像帧的颜色、纹理、形状、运动等，一些先进的研究通过训练物体识别能力好神经网络，通过对视频帧中一些物体的识别，达到对视频内容在图像帧层次的更好理解。但由于场景内容多种多样，角度各异，因而需要理解视频中的内容，包括其拍摄的主体和场景，对于这些视频中一些较高层次的内容，比如视频中发生的事件、视频的场景等，仍然是研究的热点难点。

本申请提供的方案中，通过预设视频获取用于训练分类网络的图像，再利用这些图像对预先搭建的网络进行训练，得到的分类网络能够更好的理解视频中的内容。

图6为本申请一示例性实施例示出的分类网络的训练方法的流程图。

如图6所示，本实施例提供的方法包括：

步骤601，根据预设视频中标注的切割帧画面对预设视频进行切割，得到多个视频片段。

其中，本实施例提供的方法可以由具备计算能力的电子设备来执行，例如可以是计算机。通过该电子设备训练完成的分类网络可以应用在如图3或4所示出的实施例中，该分类网络可以对视频中的画面进行分析处理，并利用处理结果确定画面间的相似度。

步骤602，根据视频片段中的内容对视频片段进行分类。

步骤603，对视频片段进行拆分得到多个帧画面，并利用帧画面及其所属的视频片段的类别对预先搭建的网络进行训练，得到分类网络。

本实施例提供的方法用于训练分类网络，该方法由设置有本实施例提供的方法的设备执行，该设备通常以硬件和/或软件的方式来实现。

本实施例提供的分类网络的训练方法，包括：根据预设视频中标注的切割帧画面对预设视频进行切割，得到多个视频片段；根据视频片段中的内容对视频片段进行分类；对视频片段进行拆分得到多个帧画面，并利用帧画面及其所属的视频片段的类别对预先搭建的网络进行训练，得到分类网络。本实施例提供的分类网络的训练方法，通过切割帧对视频进行分割，并根据分割得到的视频片段拆分得到帧画面，从而得到用于训练网络的数据，使得训练完成的分类网络能够更好的理解视频。

图7为本申请另一示例性实施例示出的分类网络的训练方法的流程图。

如图7所示，本实施例提供的分类网络的训练方法，包括：

步骤701，根据预设视频中标注的切割帧画面对预设视频进行切割，得到多个视频片段。

步骤701与步骤601的具体原理和实现方式类似，此处不再赘述。

步骤702，将视频内容相同的视频片段分为一类：

主体、场景、活动。

其中，可以将主体、场景、活动一致的视频片段划分为同一类视频片段。

具体的，主体是指视频内容拍摄的主体，比如发表演讲的人，再比如现场的多个观众。

进一步的，场景是指视频内容中包括的场景，比如背景，再比如拍摄画面所在的环境等。例如拍摄背景是一花园，或广场等，均可以作为是视频内容中的场景。

实际应用时，活动是指视频内容中正在进行的活动，比如现场观众鼓掌，再比如现场观众在敬礼，这是两种不同的活动。

图8为本申请另一示例性实施例示出的分类网络的帧画面分类示意图。

如图8所示，第一视频片段中包括第一行画面，这些画面为包括一人演讲的帧画面，第二视频片段中包括第二行画面，这些帧画面为观众画面，第三视频片段中包括第三行画面，第三行的画面也是观众画面。由于第一行画面与第二行画面之间发生了突变，因此，可以将第一行画面分为一类，第二行画面分为一类。同时，第二行与第三行画面虽然拍摄的具体人物不一致，但都属于观众，且场景和活动一致，即均为在台下听演讲的观众，因此，可以将第三行和第四行的画面分为一类。

步骤703，对视频片段进行拆分得到多个帧画面，并利用帧画面及其所属的视频片段的类别训练Resnet网络，训练过程中使用triplet loss作为损失函数。

其中，可以将各个视频片段进行拆分，从而得到多个帧画面，每个帧画面可以继承其所属视频片段的类别，具体的方式可以参见步骤603。

具体的，本申请预先搭建的的网络是Resnet网络，可以利用带有类别信息的帧画面对Resnet网络进行训练，得到分类网络。

进一步的，在对网络进行训练时，需要设置损失函数。通过损失函数确定网络输出结果与标准结果之间的差异，例如，通过网络对输入的帧画面进行识别，输出其类别，而帧画面具有的类别信息是其标准结果。确定出差异之后再进行特征回传，修正网络中的参数，通过这样的循环过程，能够使网络中的参数越来越准确，当通过损失函数确定网络输出的结果与标准结果之间的差异符合需求时，可以停止对其进行训练，得到分类网络。

实际应用时，训练过程中使用triplet loss作为损失函数。

其中，基于上述方式对视频片段进行分类时，一般来说会有非常非常多的类别，因为一个视频切分出来的段落会非常非常多，如果训练数据多的话，我们的类别可能会达到几千或几万甚至更高。如此多的类别只用Resnet网络的softmax交叉熵loss，效果必然不好，且这样的分类网络不能表示图片与图片之间的相似度，只能够得到它们是不是同一个类别。因此这里采用人脸识别中常用的triplet loss，它能够使同类样本之间的距离尽可能缩小，不同类样本之间的距离尽可能放大，从而能够学习出针对某个特定任务的度量距离函数。这样的网络提取出来的特征能够很好地表示出图片在我们的任务中所属类别，以及与其他类别的距离。

步骤704，将待处理的视频划分为多个视频单元。

步骤705，将视频单元的首帧画面和尾帧画面输入训练完成的分类网络，并通过分类网络确定首帧画面和尾帧画面的相似度。

其中，此处的分类网络可以是利用步骤701-704训练得到的分类网络。

其中，针对每个视频单元都可以执行步骤705。

具体的，可以将一个视频单元的首帧画面和尾帧画面输入分类网络，从而通过分类网络确定首帧画面和尾帧画面的相似度。

步骤706，在相似度满足预设条件的目标视频单元中，确定切割帧画面。

比如，通过分类网络直接对首帧画面和尾帧画面进行分类，并基于分类结果输出相似度时，则可以将预设条件设置为相似度为0。若相似度为1，则认为首帧画面与尾帧画面相似，若相似度为0，则认为首帧画面与尾帧画面不相似。

本申请提供的方案中，可以训练得到能够更好理解视频内容的分类网络，再利用该分类网络在视频中确定切割帧，从而提高识别的准确度。

图9为本申请一示例性实施例示出的在视频中的切割帧画面确定装置的结构图。

如图9所示，本申请实施例提供的在视频中的切割帧画面确定装置，包括：

切割模块91，用于将待处理的视频划分为多个视频单元；

相似度确定模块92，用于将所述视频单元的首帧画面和尾帧画面输入预设的分类网络，并通过所述分类网络确定所述首帧画面和所述尾帧画面的相似度；

切割帧确定模块93，用于在相似度满足预设条件的目标视频单元中，确定切割帧画面。

本实施例提供的在视频中的切割帧画面确定装置，包括：将待处理的视频划分为多个视频单元；将视频单元的首帧画面和尾帧画面输入预设的分类网络，并通过分类网络确定首帧画面和尾帧画面的相似度；在相似度满足预设条件的目标视频单元中，确定切割帧画面。本实施例提供的装置中，通过将视频切分为视频单元的方式，能够过滤掉一部分不存在切割帧画面的视频单元，从而仅对包括切割帧画面的视频单元进行进一步的处理，能够降低数据处理量。此外，本实施例提供的装置利用预设分类网络确定画面帧之间的相似度，而非现有技术中仅利用低层次特征识别画面帧之间的相似度，从而能够更好的理解画面内容，降低漏检情况的发生。

本实施例提供的在视频中的切割帧画面确定装置的具体原理和实现方式均与图3所示的实施例类似，此处不再赘述。

图10为本申请另一示例性实施例示出的在视频中的切割帧画面确定装置的结构图。

如图10所示，本申请实施例提供的在视频中的切割帧画面确定装置，在上述实施例的基础上，可选的，所述相似度确定模块92，包括：

特征确定单元921，用于通过所述分类网络中全连接层之前的部分提取所述首帧画面的第一特征、所述尾帧画面的第二特征；

相似度确定单元922，用于根据所述第一特征、所述第二特征确定所述首帧画面和所述尾帧画面的相似度。

可选的，所述相似度确定单元922具体用于：

可选的，所述切割帧确定模块93包括：

目标确定单元931，用于根据所述相似度确定首帧画面与尾帧画面不相似的所述目标视频单元；

切割帧确定单元932，用于在所述目标视频单元中确定所述切割帧画面。

可选的，所述目标确定单元931具体用于：

可选的，所述切割帧确定模块93具体用于：

可选的，所述装置还包括训练模块94，用于：

根据所述视频片段中的内容对所述视频片段进行分类；

图11为本申请一示例性实施例示出的分类网络的训练装置的结构图。

如图11所示，本申请实施例提供的分类网络的训练装置，包括：

切割模块111，用于根据预设视频中标注的切割帧画面对所述预设视频进行切割，得到多个视频片段；

分类模块112，用于根据所述视频片段中的内容对所述视频片段进行分类；

拆分模块113，用于对所述视频片段进行拆分得到多个帧画面；

训练模块114，用于利用所述帧画面及其所属的所述视频片段的类别对预先搭建的网络进行训练，得到分类网络。

本实施例提供的分类网络的训练装置，包括：根据预设视频中标注的切割帧画面对预设视频进行切割，得到多个视频片段；根据视频片段中的内容对视频片段进行分类；对视频片段进行拆分得到多个帧画面，并利用帧画面及其所属的视频片段的类别对预先搭建的网络进行训练，得到分类网络。本实施例提供的分类网络的训练装置，通过切割帧对视频进行分割，并根据分割得到的视频片段拆分得到帧画面，从而得到用于训练网络的数据，使得训练完成的分类网络能够更好的理解视频。

本实施例提供的分类网络的训练装置的具体原理和实现方式均与图6所示的实施例类似，此处不再赘述。

图12为本申请另一示例性实施例示出的分类网络的训练装置的结构图。

如图12所示，本申请实施例提供的分类网络的训练装置，在上述实施例基础上，可选的，所述拆分模块113具体用于：

将下述视频内容相同的所述视频片段分为一类：

主体、场景、活动。

可选的，所述训练模块114具体用于：

利用所述帧画面及其所属的所述视频片段的类别训练Resnet网络。

可选的，训练过程中使用triplet loss作为损失函数。

可选的，所述装置还包括分割帧确定模块115，用于：

将待处理的视频划分为多个视频单元；

将所述视频单元的首帧画面和尾帧画面输入训练完成的所述分类网络，并通过所述分类网络确定所述首帧画面和所述尾帧画面的相似度；

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图13所示，是根据本申请实施例的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图13所示，该电子设备包括：一个或多个处理器1301、存储器1302，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图13中以一个处理器1301为例。

存储器1302即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的在视频中的切割帧画面确定方法或分类网络的训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的在视频中的切割帧画面确定方法或分类网络的训练方法。

存储器1302作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的在视频中的切割帧画面确定方法或分类网络的训练方法对应的程序指令/模块(例如，附图9所示的切割模块91、相似度确定模块92和切割帧确定模块93，再例如附图11所示出的切割模块1101、分类模块1102、拆分模块1103和训练模块1104)。处理器1301通过运行存储在存储器1302中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的在视频中的切割帧画面确定方法或分类网络的训练方法。

存储器1302可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器1302可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1302可选包括相对于处理器1301远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

电子设备还可以包括：输入装置1303和输出装置1304。处理器1301、存储器1302、输入装置1303和输出装置1304可以通过总线或者其他方式连接，图13中以通过总线连接为例。

输入装置1303可接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1304可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用AS I C(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种在视频中的切割帧画面确定方法，其特征在于，包括：

将待处理的视频划分为多个视频单元；

将所述视频单元的首帧画面和尾帧画面输入预设的分类网络，并通过所述分类网络对所述首帧画面和所述尾帧画面分类，并基于分类结果确定所述首帧画面和所述尾帧画面的相似度；

在相似度满足预设条件的目标视频单元中，确定切割帧画面；

所述方法还包括：

根据预设视频中标注的切割帧画面对所述预设视频进行切割，得到多个视频片段，每个所述视频片段中的画面变化是连续的；

根据所述视频片段中的内容对所述视频片段进行分类，并对所述视频片段进行标注，同一类视频片段中的图像帧具有相同的标识，所述视频片段中的内容包括：主体、活动和场景，所述视频片段中的主体、活动和场景均相同则为同一类视频片段，所述活动为所述视频片段中正在进行的活动；

对所述视频片段进行拆分得到多个帧画面，并利用所述帧画面及其所属的所述视频片段的类别对预先搭建的网络进行训练，得到所述分类网络，所述预先搭建的网络为Resnet网络，且在训练过程中使用triplet loss作为损失函数。

2.根据权利要求1所述的方法，其特征在于，所述将所述视频单元的首帧画面和尾帧画面输入预设的分类网络之后，所述方法还包括：

通过所述预设分类网络中的骨干网络部分提取首帧画面与尾帧画面的特征；

相应的，所述通过所述分类网络对所述首帧画面和所述尾帧画面分类包括：

将所述骨干网络提取的特征输入至所述预设分类网络中的全连接层，所述全连接层根据所述特征对所述首帧画面和所述尾帧画面进行分类。

3.根据权利要求2所述的方法，其特征在于，所述通过所述预设分类网络中的骨干网络部分提取首帧画面与尾帧画面的特征，包括：

通过所述骨干网络中的多个卷积层，对输入的所述首帧画面和所述尾帧画面分别进行卷积计算，分别得到所述首帧画面对应的特征和所述尾帧画面对应的特征。

4.根据权利要求1-3任一项所述的方法，其特征在于，基于分类结果确定所述首帧画面和所述尾帧画面的相似度，包括：

若所述分类结果属于一类，则所述相似度为1，若分类结果不属于同一类，则所述相似度为0。

5.根据权利要求1-3任一项所述的方法，其特征在于，所述在相似度满足预设条件的目标视频单元中，确定切割帧画面，包括：

在所述目标视频单元中确定所述切割帧画面。

6.根据权利要求5所述的方法，其特征在于，所述预设条件为所述相似度为0。

7.根据权利要求1-3任一项所述的方法，其特征在于，确定所述切割帧画面，包括：

8.一种在视频中的切割帧画面确定装置，其特征在于，包括：

切割模块，用于将待处理的视频划分为多个视频单元；

相似度确定模块，用于将所述视频单元的首帧画面和尾帧画面输入预设的分类网络，并通过所述分类网络对所述首帧画面和所述尾帧画面分类，并基于分类结果确定所述首帧画面和所述尾帧画面的相似度；

切割帧确定模块，用于在相似度满足预设条件的目标视频单元中，确定切割帧画面；

所述装置还包括训练模块，用于：

9.根据权利要求8所述的装置，其特征在于，所述相似度确定模块，包括：

特征确定单元，用于通过所述预设分类网络中的骨干网络部分提取首帧画面与尾帧画面的特征；

相似度确定单元，用于将所述骨干网络提取的特征输入至所述预设分类网络中的全连接层，所述全连接层根据所述特征对所述首帧画面和所述尾帧画面进行分类。

10.根据权利要求9所述的装置，其特征在于，所述特征确定单元，具体用于通过所述骨干网络中的多个卷积层，对输入的所述首帧画面和所述尾帧画面分别进行卷积计算，分别得到所述首帧画面对应的特征和所述尾帧画面对应的特征。

11.根据权利要求8-10任一项所述的装置，其特征在于，所述相似度确定单元，还用于若所述分类结果属于一类，则所述相似度为1，若分类结果不属于同一类，则所述相似度为0。

12.根据权利要求8-10任一项所述的装置，其特征在于，所述切割帧确定模块包括：

目标确定单元，用于根据所述相似度确定首帧画面与尾帧画面不相似的所述目标视频单元；

切割帧确定单元，用于在所述目标视频单元中确定所述切割帧画面。

13.根据权利要求12所述的装置，其特征在于，所述预设条件为所述相似度为0。

14.根据权利要求8-10任一项所述的装置，其特征在于，所述切割帧确定模块具体用于：

15.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-7任一项所述的方法。