CN110263729A

CN110263729A - 一种镜头边界检测的方法、模型训练方法以及相关装置

Info

Publication number: CN110263729A
Application number: CN201910549556.9A
Authority: CN
Inventors: 胡东方
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2019-09-20

Abstract

本申请公开了一种镜头边界检测的方法，包括：获取待检测视频，待检测视频包括至少一个视频片段；获取待检测视频中视频片段对应的镜头类型，镜头类型为第一镜头类型或者第二镜头类型；若镜头类型属于第一镜头类型，则确定待检测视频所对应的图像变化值，其中，图像变化值为对待检测视频中相邻两帧图像进行计算后得到的；根据图像变化值确定待检测视频的镜头边界信息，其中，镜头边界信息包括镜头变化类型以及镜头变化位置。本申请还公开一种模型训练方法及装置。本申请结合深度学习算法以及相邻图像帧统计的方法，能够为镜头边界的检测提供更丰富的信息，从而减小镜头边界的漏检率，提升镜头边界的检测效果。

Description

一种镜头边界检测的方法、模型训练方法以及相关装置

技术领域

本申请涉及人工智能领域，尤其涉及一种镜头边界检测的方法、模型训练方法以及相关装置。

背景技术

镜头边界检测的基础在于，同一个镜头内的视觉内容相近，而不同镜头间的视频内容差异大，且特征区别明显。视频的镜头变化主要分为突变(cut)和渐变(gradual)两种类型，突变是前一个镜头的末帧没有过渡地紧接着下一个镜头的首帧，而渐变是值在一段时间内逐渐完成镜头的变换，一般持续几帧到十几帧。

目前，传统的镜头检测算法通常是对视频内容的变化进行分析，比如获取图像强度的变化情况，根据图像强度的变化检测出视频中的镜头边界。又比如基于直方图来分析得到视频中的镜头边界。

然而，现有的镜头检测算法对渐变镜头的漏检率很高，而对于突变镜头而言，如果两侧的镜头颜色内容比较相似，也容易被误认为是相同镜头，从而导致镜头边界的检测效果较差。

发明内容

本申请实施例提供了一种镜头边界检测的方法、模型训练方法以及相关装置，结合深度学习算法以及相邻图像帧统计的方法，能够为镜头边界的检测提供更丰富的信息，从而减小镜头边界的漏检率，提升镜头边界的检测效果。

有鉴于此，本申请第一方面提供一种镜头边界检测的方法，包括：

获取待检测视频，其中，所述待检测视频包括至少一个视频片段，所述一个视频片段包括多帧连续的图像；

获取所述待检测视频中视频片段对应的镜头类型，其中，所述镜头类型为第一镜头类型或者第二镜头类型，所述第一镜头类型表示具有变化的镜头，所述第二镜头类型表示不具有变化的镜头；

若所述镜头类型属于所述第一镜头类型，则确定所述待检测视频中视频片段对应的图像变化值，其中，所述图像变化值为对所述待检测视频中视频片段内相邻两帧图像进行计算后得到的；

根据所述图像变化值确定所述待检测视频中视频片段的镜头边界信息，其中，所述镜头边界信息包括镜头变化类型以及镜头变化位置。

本申请第二方面提供一种模型训练的方法，包括：

获取待训练视频片段集合，其中，所述待训练视频片段集合包括至少一个待训练视频片段；

获取所述待训练视频片段集合中每个待训练视频片段所对应的预测镜头类型，其中，所述预测镜头类型为第一镜头类型或者第二镜头类型，所述第一镜头类型表示具有变化的镜头，所述第二镜头类型表示不具有变化的镜头；

根据所述每个待训练视频片段所对应的预测镜头类型以及真实镜头类型，采用损失函数对所述待训练镜头边界预测模型进行训练，得到模型参数，其中，所述真实镜头类型为预先对待训练视频片段进行标注后得到的；

根据所述模型参数生成镜头边界预测模型。

本申请第三方面提供一种镜头边界检测装置，包括：

获取模块，用于获取待检测视频，其中，所述待检测视频包括至少一个视频片段，所述一个视频片段包括多帧连续的图像；

所述获取模块，还用于获取所述待检测视频中视频片段对应的镜头类型，其中，所述镜头类型为第一镜头类型或者第二镜头类型，所述第一镜头类型表示具有变化的镜头，所述第二镜头类型表示不具有变化的镜头；

确定模块，用于若所述获取模块获取的所述镜头类型属于所述第一镜头类型，则确定所述待检测视频中视频片段对应的图像变化值，其中，所述图像变化值为对所述待检测视频中视频片段内相邻两帧图像进行计算后得到的；

所述确定模块，还用于根据所述图像变化值确定所述待检测视频中视频片段的镜头边界信息，其中，所述镜头边界信息包括镜头变化类型以及镜头变化位置。

在一种可能的设计中，在本申请实施例的第三方面的第一种实现方式中，

所述获取模块，具体用于获取片段提取信息，其中，所述片段提取信息包括视频片段的批次值、通道数、所述视频片段中图像的高度、所述视频片段中图像的宽度以及所述视频片段中图像的帧数；

根据所述片段提取信息获取所述视频片段，其中，所述视频片段属于所述待检测视频。

在一种可能的设计中，在本申请实施例的第三方面的第二种实现方式中，

所述获取模块，具体用于获取第一片段提取信息，其中，所述片段提取信息包括第一视频片段的批次值、通道数、所述第一视频片段中图像的高度、所述第一视频片段中图像的宽度以及所述第一视频片段中图像的帧数；

获取第二片段提取信息，其中，所述片段提取信息包括第二视频片段的批次值、通道数、所述第二视频片段中图像的高度、所述第二视频片段中图像的宽度以及所述第二视频片段中图像的帧数；

根据所述第一片段提取信息获取所述第一视频片段，其中，所述第一视频片段包括M个连续的图像，所述第一视频片段属于所述待检测视频；

根据所述第二片段提取信息获取所述第二视频片段，其中，所述第二视频片段包括M个连续的图像，所述第二视频片段属于所述待检测视频，所述第一视频片段与所述第二视频片段具有相同的N个连续图像，所述N为大于或等于1，且小于所述M的整数。

在一种可能的设计中，在本申请实施例的第三方面的第三种实现方式中，

所述获取模块，具体用于通过镜头边界预测模型获取所述第一视频片段对应的镜头类型；

通过镜头边界预测模型获取所述第二视频片段对应的镜头类型；

所述确定模块，具体用于若所述第一视频片段对应的镜头类型与所述第二视频片段对应的镜头类型均为所述第一镜头类型，则根据所述第一视频片段以及所述第二视频片段生成目标视频片段，其中，所述目标视频片段包括(2M-N)个连续图像；

根据所述目标视频片段确定所述图像变化值。

在一种可能的设计中，在本申请实施例的第三方面的第四种实现方式中，

所述确定模块，具体用于从所述待检测视频的视频片段中获取第一图像帧、第二图像帧以及第三图像帧，其中，所述第一图像帧为所述第二图像帧相邻的前一帧图像，所述第二图像帧为所述第三图像帧相邻的前一帧图像；

获取所述第一图像帧所对应的第一色彩模型、所述第二图像帧所对应的第二色彩模型以及所述第三图像帧所对应的第三色彩模型，其中，所述第一色彩模型包括第一色调参数、第一饱和度参数以及第一明度参数，所述第二色彩模型包括第二色调参数、第二饱和度参数以及第二明度参数，所述第三色彩模型包括第三色调参数、第三饱和度参数以及第三明度参数；

根据所述第一色调参数以及所述第二色调参数计算得到第一色调差值，根据所述第一饱和度参数以及所述第二饱和度参数计算得到第一饱和度差值，根据所述第一明度参数以及所述第二明度参数计算得到第一明度差值；

根据所述第一色调差值、所述第一饱和度差值以及所述第一明度差值，计算得到第一平均差值；

根据所述第二色调参数以及所述第三色调参数计算得到第二色调差值，根据所述第二饱和度参数以及所述第三饱和度参数计算得到第二饱和度差值，根据所述第二明度参数以及所述第三明度参数计算得到第二明度差值；

根据所述第二色调差值、所述第二饱和度差值以及所述第二明度差值，计算得到第一平均差值；

根据所述第一平均差值以及第二平均差值，确定所述待检测视频中视频片段对应的图像变化值。

在一种可能的设计中，在本申请实施例的第三方面的第五种实现方式中，

所述确定模块，具体用于若所述待检测视频中视频片段所对应的图像变化值大于或等于第一阈值，则确定所述待检测视频中视频片段的所述镜头变化类型为镜头突变；

若所述待检测视频中视频片段所对应的图像变化值小于所述第一阈值，则确定所述待检测视频中视频片段的所述镜头变化类型为镜头渐变；

根据所述镜头变化类型确定所述镜头变化位置。

在一种可能的设计中，在本申请实施例的第三方面的第六种实现方式中，

所述确定模块，具体用于若所述镜头变化类型为所述镜头突变，且所述第一平均差值大于所述第二平均差值，则确定所述镜头变化位置为所述第一图像帧与所述第二图像帧之间；

若所述镜头变化类型为所述镜头突变，且所述第二平均差值大于所述第一平均差值，则确定所述镜头变化位置为所述第二图像帧与所述第三图像帧之间。

在一种可能的设计中，在本申请实施例的第三方面的第七种实现方式中，

所述确定模块，具体用于若所述镜头变化类型为所述镜头渐变，且所述第一平均差值大于第二阈值，则确定所述镜头变化位置包括所述第一图像帧以及所述第二图像帧；

若所述镜头变化类型为所述镜头渐变，且所述第二平均差值大于所述第二阈值，则确定所述镜头变化位置包括所述第二图像帧以及所述第三图像帧；

若所述镜头变化类型为所述镜头渐变，且所述第一平均差值与所述第二平均差值均大于所述第二阈值，则确定所述镜头变化位置包括所述第一图像帧、所述第二图像帧以及所述第三图像帧。

本申请第四方面提供一种模型训练装置，包括：

获取模块，用于获取待训练视频片段集合，其中，所述待训练视频片段集合包括至少一个待训练视频片段；

所述获取模块，还用于获取所述待训练视频片段集合中每个待训练视频片段所对应的预测镜头类型，其中，所述预测镜头类型为第一镜头类型或者第二镜头类型，所述第一镜头类型表示具有变化的镜头，所述第二镜头类型表示不具有变化的镜头；

训练模块，用于根据所述获取模块获取的所述每个待训练视频片段所对应的预测镜头类型以及真实镜头类型，采用损失函数对所述待训练镜头边界预测模型进行训练，得到模型参数，其中，所述真实镜头类型为预先对待训练视频片段进行标注后得到的；

生成模块，用于根据所述模型参数生成镜头边界预测模型。

在一种可能的设计中，在本申请实施例的第四方面的第一种实现方式中，所述模型训练装置包括确定模块；

所述确定模块，用于所述获取模块获取待训练视频片段集合之后，根据所述待训练视频片段集合，确定所述每个待训练视频片段所对应的真实镜头类型，其中，所述真实镜头类型为第一子镜头类型、第二子镜头类型或所述第一镜头类型，且所述第一子镜头类型以及所述第二子镜头类型均属于所述第一镜头类型；

所述确定模块，还用于根据所述每个待训练视频片段所对应的真实镜头类型，确定所述第二镜头类型的数量、所述第一子镜头类型的数量以及第二子镜头类型的数量；

所述确定模块，还用于根据所述第二镜头类型的数量、所述第一子镜头类型的数量以及第二子镜头类型的数量，确定所述第二镜头类型的第一预权重、所述第一子镜头类型的第二预权重以及所述第二子镜头类型的第三预权重；

所述训练模块，具体用于根据所述第一预权重、所述第二预权重以及所述第三预权重，采用所述损失函数对所述待训练镜头边界预测模型进行训练，得到模型参数。

本申请第五方面提供一种终端设备，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

根据所述图像变化值确定所述待检测视频中视频片段的镜头边界信息，其中，所述镜头边界信息包括镜头变化类型以及镜头变化位置；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

本申请第六方面提供一种服务器，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

根据所述模型参数生成镜头边界预测模型；

本申请的第七方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种镜头边界检测的方法，首先获取待检测视频，然后获取待检测视频中视频片段对应的镜头类型，其中，镜头类型为第一镜头类型或者第二镜头类型，第一镜头类型表示具有变化的镜头，第二镜头类型表示不具有变化的镜头，若镜头类型属于第一镜头类型，则确定待检测视频所对应的图像变化值，最后根据图像变化值确定待检测视频的镜头边界信息，其中，镜头边界信息包括镜头变化类型以及镜头变化位置。通过上述方式，对于不同的镜头类型设计了两层检测机制，先利用深度学习算法对视频片段做初步的镜头类型判定，对于有镜头变化的视频片段再做进一步的分析，确定属于镜头突变还是镜头渐变，基于不同的镜头检测出具体的变化位置，因此，结合深度学习算法以及相邻图像帧统计的方法，能够为镜头边界的检测提供更丰富的信息，从而减小镜头边界的漏检率，提升镜头边界的检测效果。

附图说明

图1为本申请实施例中镜头边界检测系统的一个架构示意图；

图2为本申请实施例中镜头边界检测的方法一个流程示意图；

图3为本申请实施例中镜头边界检测的方法一个实施例示意图；

图4为本申请实施例中选取视频片段的一个实施例示意图；

图5为本申请实施例中镜头混搭错误的一个实施例示意图；

图6为本申请实施例中基于变化镜头生成镜头边界信息的一个流程示意图；

图7为本申请实施例中镜头突变的一个实施例示意图；

图8为本申请实施例中镜头渐变的一个实施例示意图；

图9为本申请实施例中模型训练方法一个实施例示意图；

图10为本申请实施例中镜头边界预测模型的一个结构示意图；

图11为本申请实施例中基本块的一个结构示意图；

图12为本申请实施例中镜头边界检测装置一个实施例示意图；

图13为本申请实施例中模型训练装置的一个实施例示意图；

图14为本申请实施例中模型训练装置的另一个实施例示意图；

图15为本申请实施例中终端设备的一个结构示意图；

图16为本申请实施例中服务器的一个结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

随着网络传输速度的大幅提高，多媒体技术得到了广泛的应用，极大地丰富了人们的日常生活，而在多媒体信息之中，视频数据信息占据了很大比重。随着视频数据与日俱增，对海量视频信息进行有效地组织、管理、查询和检索也成为迫切的需求。

应理解，本申请提供的镜头边界检测方法可以用于视频中的关键帧提取，根据视频内容粒度由粗到细的顺序，可以分为四个层次，视频(video)、场景(scene)、镜头(shot)以及关键帧(key frame)，其中，场景是指语义上相关、时间上相邻的一组镜头，它是视频在语义层的基本单元，能够表达视频所蕴含的高层概念或故事等。镜头是指由摄像机的单操作产生的图像序列，视频通常是由一个或多个镜头组成。视频的结构化包括镜头分割以及关键帧提取，镜头分割又称为镜头变化检测，是视频结构层次化的基础。基于镜头分割结果可以提取到关键帧，关键帧是镜头场景视觉内容的代表，关键帧的选择大幅减少了视频索引的数据量，很大程度上改善了网络中视频信息的传输、存储以及管理，有效地减小了网络传输压力。对关键帧进行视觉特征提取并提取所属镜头的运动特征，将其存储至大规模视频数据库中，提取用户输入视频的特征与数据库中的视频特征进行匹配，从而实现视频检索。镜头分割还可以为动作识别任务和动画识别任务提供镜头数据以及基于镜头的关键帧数据。在安全拦截中，镜头分割为台标检测识别任务和惊悚识别任务提供抽样的镜头边界。镜头分割得到的关键帧还可以应用于视频的封面图生成，从而展示具有代表性的封面图像。

为了便于理解，本申请提出了一种镜头边界检测的方法，该方法应用于图1所示的镜头边界检测系统，请参阅图1，图1为本申请实施例中镜头边界检测系统的一个架构示意图，如图所示，本申请可以在离线或者在线的情况下实现镜头边界的检测。在离线的状态下，客户端获取用户拍摄的待检测视频，或者直接提取本地存储的待检测视频，然后将待检测视频输入至已经训练得到的镜头边界预测模型，其中，一个待检测视频可以划分为至少一个视频片段，通过镜头边界预测模型输出每个视频片段所对应的镜头类型。对于有变化的镜头类型还需进一步检测镜头边界信息。在在线的状态下，客户端获取用户拍摄的待检测视频，或者直接提取本地存储的待检测视频，或者从服务器下载待检测视频，然后将待检测视频输入至已经训练得到的镜头边界预测模型，镜头边界预测模型存储在服务器侧，因此，需要将待检测视频发送至服务器，服务器通过镜头边界预测模型输出待检测视频中每个视频片段所对应的镜头类型。

需要说明的是，客户端部署于终端设备上，其中，终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机、语音交互设备及个人电脑(personal computer，PC)，此处不做限定。

应理解，本申请提供了一个镜头边界检测的流程，请参阅图2，图2为本申请实施例中镜头边界检测的方法一个流程示意图，如图所示，具体地：

步骤S1中，首先获取一段视频，该视频具体可以是待检测视频；

步骤S2中，从视频中获取时间序列上的图像；

步骤S3中，从该时间序列上采集视频片段，可以采集至少一个视频片段，每个视频片段时间具有重叠度，且重叠度可以设置为视频片段中帧数的一半；

步骤S4中，将视频片段输入至镜头边界预测模型；

步骤S5中，由镜头边界预测模型输出视频片段的镜头变化类型，进而对具有镜头变化的视频片段进行关键帧定位；

步骤S6中，确定具体的关键帧位置。

结合上述介绍，下面将对本申请中镜头边界检测的方法进行介绍，请参阅图3，本申请实施例中镜头边界检测的方法一个实施例包括：

101、获取待检测视频，其中，待检测视频包括至少一个视频片段，一个视频片段包括多帧连续的图像；

本实施例中，镜头边界检测装置获取待检测视频，其中，该镜头边界检测装置通常部署于在终端设备上，在实际应用中，也可以部署在服务器上，此处不做限定。待检测视频可以是用户拍摄得到的，也可以是存储在数据库中的，还可以是从云端下载的，此处不做限定。待检测视频的类型包含但不仅限于体育视频，新闻以及电影等。

待检测视频包括至少一个视频片段，视频片段是按照时序从待检测视频中划分出来的，假设待检测视频共有160帧图像，一个视频片段具有16帧图像，那么可以将待检测视频划分为10个视频片段，可以理解的是，也可以划分为10个以上的视频片段，每个视频片段之间具有一定的重合度。

102、获取待检测视频中视频片段对应的镜头类型，其中，镜头类型为第一镜头类型或者第二镜头类型，第一镜头类型表示具有变化的镜头，第二镜头类型表示不具有变化的镜头；

本实施例中，镜头边界检测装置在获取到待检测视频中各个视频片段之后，可以将每个视频片段输入至镜头边界预测模型，也可以将部分视频片段输入至镜头边界预测模型中，由该镜头边界预测模型输出视频片段所对应的镜头类型。可以理解的是，镜头类型可以是第一镜头类型或者第二镜头类型，第一镜头类型表示具有变化的镜头，第二镜头类型表示不具有变化的镜头。采用镜头边界预测模型进行检测，一方面无需人工参阅，能够提升检测效率，另一方面，镜头边界预测模型具有更强的检测能力，从而提升检测结果的准确性。

其中，一个镜头是指从前一个光学转换到后一个光学转换之间的完整片段，镜头分割是把待检测视频分割成若干个镜头。镜头与镜头之间一般有很清楚的边界，即为边界帧，分割后的镜头包含能代表该镜头的关键帧。

可以理解的是，镜头边界检测装置还可以采用其他的方式检测镜头类型，比如每间隔0.5秒检测一次视频片段是否发送镜头变化。

该镜头边界预测模型可以选用resnet-18网络，具体包括卷积层、批归一化层、激活函数层、最大池化层、基本块、平均池化层以及线性回归层。

可以理解的是，最后一层也可以是softmax分类器，本申请使用线性回归层，然而不应理解为对本申请的限定。

103、若镜头类型属于第一镜头类型，则确定待检测视频中视频片段对应的图像变化值，其中，图像变化值为对待检测视频中视频片段内相邻两帧图像进行计算后得到的；

本实施例中，如果检测到待检测视频中视频片段的镜头类型属于第一镜头类型，则镜头边界检测装置确定该视频片段的图像变化值，图像变化值为对视频片段中相邻两帧图像进行计算后得到的。假设待检测视频包括10个视频片段，其中3个视频片段属于第一镜头类型，则根据视频片段中相邻两帧图像计算得到对应的图像变化值，另外7个视频片段属于第二镜头类型，即无需对这7个是视频片段进行图像变化值的计算。因此，整个待检测视频包括这3个视频片段所对应的图像变化值。

104、根据图像变化值确定待检测视频中视频片段的镜头边界信息，其中，镜头边界信息包括镜头变化类型以及镜头变化位置。

本实施例中，镜头边界检测装置根据待检测视频中具有镜头变化的视频片段，进一步检测这些视频片段的镜头边界信息，进而得到待检测视频的镜头边界信息。假设待检测视频包括10个视频片段，其中3个视频片段属于第一镜头类型，则根据视频片段中相邻两帧图像计算得到对应的图像变化值，再基于这3个视频片段的图像变化值分别确定每个视频片段的镜头边界信息，从而得到整个待检测视频的镜头边界信息。其中，镜头边界信息包括镜头变化类型以及镜头变化位置，镜头变化类型可以是镜头突变或者镜头渐变，而镜头变化位置可以是指镜头突变情况下的变化切点，也可以是镜头渐变情况下的变化区域。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的镜头边界检测的方法一个可选实施例中，获取待检测视频，可以包括：

获取片段提取信息，其中，片段提取信息包括视频片段的批次值、通道数、视频片段中图像的高度、视频片段中图像的宽度以及视频片段中图像的帧数；

根据片段提取信息获取视频片段，其中，视频片段属于待检测视频。

本实施例中，介绍了一种从待检测视频中确定一个视频片段的方法。首先，获取片段提取信息，片段提取信息可以表示为BatchCHWD，比如BatchCHWD＝batch1*3*128*128*16，即表示批次值为batch1，通道数为3，一个视频片段中图像的高度为128个像素，一个视频片段中图像的宽度为128个像素，一个视频片段中图像的帧数为16。根据片段提取信息从待检测视频中确定视频片段。

可以理解的是，视频片段的批次值、通道数、图像的高度、图像的宽度以及图像帧数仅为一个示意，还可以根据实际情况设定为其他值，此处不做限定。

基于上述介绍，可以从待检测视频中确定多个视频片段，这些视频片段均可用于镜头边界检测，无需从中剔除部分的视频片段，这是由于镜头边界预测模型使用图形处理器(Graphics Processing Unit，GPU)，经实验可使用残差神经网络(Residual NeuralNetwork，ResNet)-18，ResNet-18已经达到了每秒处理帧数(Frames Per Second，FPS)为1430，即使考虑了传输速度之后也有一千以上。而初步筛选视频片段并不会明显加快处理速度，并且会带来遗失渐变镜头的风险。当然，在实际应用中，也可以对这些视频片段进行筛选。

其次，本申请实施例中，提供了一种获取视频片段的方法，即根据片段提取信息获取视频片段，其中，视频片段属于待检测视频。通过上述方式，能够利用已设置的片段提取信息准确地从待检测视频中定义至少一个视频片段，从而便于后续检测。

获取第一片段提取信息，其中，片段提取信息包括第一视频片段的批次值、通道数、第一视频片段中图像的高度、第一视频片段中图像的宽度以及第一视频片段中图像的帧数；

获取第二片段提取信息，其中，片段提取信息包括第二视频片段的批次值、通道数、第二视频片段中图像的高度、第二视频片段中图像的宽度以及第二视频片段中图像的帧数；

根据第一片段提取信息获取第一视频片段，其中，第一视频片段包括M个连续的图像，第一视频片段属于待检测视频；

根据第二片段提取信息获取第二视频片段，其中，第二视频片段包括M个连续的图像，第二视频片段属于待检测视频，第一视频片段与第二视频片段具有相同的N个连续图像，N为大于或等于1，且小于M的整数。

本实施例中，介绍了另一种从待检测视频中确定多个视频片段的方法。为了便于理解，请参阅图4，图4为本申请实施例中选取视频片段的一个实施例示意图，如图所示，获取第一片段提取信息以及第二片段提取信息，第一片段提取信息可以表示为BatchCHWD1，第二片段提取信息可以表示为BatchCHWD2，其中，BatchCHWD1＝batch1*3*128*128*16，BatchCHWD2＝batch2*3*128*128*16，即第一视频片段和第二视频片段都包括16帧图像，此时，M为16，如图4所示，M为16时，第一视频片段包括第1帧至第16帧的图像，第二视频片段包括第9帧至第24帧的图像，其中，第9帧至第16帧图像同时出现在第一视频片段与第二视频片段中，因此，这8帧图像属于重叠图像，即N为8。

可以理解的是，在模型训练的时候无需对两个视频片段进行重叠取样，但是在实际预测的时候，需要重叠一半的图像数据，即前一个视频片段取样(例如16个图像)，后一个视频片段的取样开始位置是前一个视频片段的中间帧(从前面片段的第9张图开始向后取样16个图像)。

可以理解的是，第一视频片段和第二视频片段的批次值、通道数、图像的高度、图像的宽度、图像帧数M以及重合图像帧数N都为一个示意，还可以根据实际情况设定为其他值，此处不做限定。

其次，本申请实施例中，提供了另一种获取视频片段的方法，当待检测视频中存在多个视频片段的时候，还需要采用滑动窗口的方式提取不同的视频片段。通过上述方式，可以大幅地减少取样视频片段的衔接处可能为镜头切割点的情况，从而提升镜头边界检测的准确性。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的镜头边界检测的方法一个可选实施例中，获取待检测视频中视频片段对应的镜头类型，可以包括：

通过镜头边界预测模型获取第一视频片段对应的镜头类型；

通过镜头边界预测模型获取第二视频片段对应的镜头类型；

若镜头类型属于第一镜头类型，则确定待检测视频中视频片段对应的图像变化值，可以包括：

若第一视频片段对应的镜头类型与第二视频片段对应的镜头类型均为第一镜头类型，则根据第一视频片段以及第二视频片段生成目标视频片段，其中，目标视频片段包括(2M-N)个连续图像；

根据目标视频片段确定图像变化值。

本实施例中，介绍了一种将具有镜头变化的连续两帧视频片段融合到一起的方法。也就是说，如果前后两个相邻的视频片段都具有镜头变化，那么就将这两个视频片段合并为一个视频片段，合并后的视频片段为目标视频片段。可以理解的是，如果有两帧以上的连续视频片段都具有镜头变化，那么将这些视频片段都合并为一个视频片段，得到目标视频片段。

为了便于理解，请参阅图5，图5为本申请实施例中镜头混搭错误的一个实施例示意图，如图所示，将第一视频片段和第二视频片段分别输入至镜头边界预测模型，如果镜头边界预测模型输出的结果为第一视频片段和第二视频片段均属于第一镜头类型，那么可以将两个视频片段进行合并，图5中的阴影部分表示第一视频片段与第二视频片段的图像重叠部分，假设第一视频片段具有M帧图像(比如16帧图像)，第二视频片段也具有M帧图像(比如16帧)，图像重合部分具有N帧图像(比如8帧图像)，合并后得到的目标视频片段具有(2M-N)帧图像(比如24帧图像)。

再次，本申请实施例中，提供了一种视频片段合并的方法，即若第一视频片段对应的镜头类型与第二视频片段对应的镜头类型均为第一镜头类型，则根据第一视频片段以及第二视频片段生成目标视频片段，根据目标视频片段确定图像变化值。通过上述方式，考虑到相邻视频片段具有镜头变化的距离可能会小于采样间隔，从而出现混搭错误的情况，因此，对于这样的相邻视频片段可以进行合并，将合并后的视频片段与其他视频片段共同进行后续的处理，避免出现混搭错误。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的镜头边界检测的方法一个可选实施例中，确定待检测视频中视频片段对应的图像变化值，可以包括：

从待检测视频的视频片段中获取第一图像帧、第二图像帧以及第三图像帧，其中，第一图像帧为第二图像帧相邻的前一帧图像，第二图像帧为第三图像帧相邻的前一帧图像；

获取第一图像帧所对应的第一色彩模型、第二图像帧所对应的第二色彩模型以及第三图像帧所对应的第三色彩模型，其中，第一色彩模型包括第一色调参数、第一饱和度参数以及第一明度参数，第二色彩模型包括第二色调参数、第二饱和度参数以及第二明度参数，第三色彩模型包括第三色调参数、第三饱和度参数以及第三明度参数；

根据第一色调参数以及第二色调参数计算得到第一色调差值，根据第一饱和度参数以及第二饱和度参数计算得到第一饱和度差值，根据第一明度参数以及第二明度参数计算得到第一明度差值；

根据第一色调差值、第一饱和度差值以及第一明度差值，计算得到第一平均差值；

根据第二色调参数以及第三色调参数计算得到第二色调差值，根据第二饱和度参数以及第三饱和度参数计算得到第二饱和度差值，根据第二明度参数以及第三明度参数计算得到第二明度差值；

根据第二色调差值、第二饱和度差值以及第二明度差值，计算得到第一平均差值；

根据第一平均差值以及第二平均差值，确定待检测视频中视频片段对应的图像变化值。

本实施例中，介绍了一种基于待检测视频中视频片段所对应的图像变化值的计算方法。，根据视频片段的图像变化值进而确定该视频片段的镜头变化类型，一个待检测视频可以包括多个视频片段，从而可以得到多个图像变化值，进而确定待检测视频中存在的镜头边界信息。

为了便于理解，请参阅图6，图6为本申请实施例中基于变化镜头生成镜头边界信息的一个流程示意图，如图所示，在步骤A1中，从待检测视频中提取一个视频片段，该视频片段包括多帧红绿蓝(red green blue，RGB)三个通道的图像，在步骤A2中，将每个RGB图像转换为色彩模型(hue saturation value，HSV)。在步骤A3中，分别计算视频片段中每相邻两个图像之间的三个通道差值之和，在步骤A4中，基本步骤A3的结果计算得到视频片段的图像变化值。若图像变化值大于或等于阈值，则进入步骤A5，即确定该视频片段为镜头突变，进而确定镜头突变的变化位置。若图像变化值小于阈值，则进入步骤A6，即确定该视频片段为镜头渐变，进而确定镜头渐变的区域。

其中，RGB图像是从颜色发光的原理来设计定的，红、绿和蓝三个颜色通道每种颜色各分为256阶亮度。当三色灰度数值相同时，产生不同灰度值的灰色调，即三色灰度都为0时，是最暗的黑色调；三色灰度都为255时，是最亮的白色调。

HSV图像是一种比较直观的颜色模型，这个模型中颜色的参数分别是色调、饱和度和明度。色调用角度度量，取值范围为0°至360°，从红色开始按逆时针方向计算，红色为0°，绿色为120°,蓝色为240°。它们的补色是黄色为60°，青色为180°,品红为300°。饱和度表示颜色接近光谱色的程度。一种颜色可以看成是某种光谱色与白色混合的结果。其中光谱色所占的比例愈大，颜色接近光谱色的程度就愈高，颜色的饱和度也就愈高。饱和度高，颜色则深而艳。光谱色的白光成分为0，饱和度达到最高。通常取值范围为0％至100％，值越大，颜色越饱和。明度表示颜色明亮的程度，对于光源色，明度值与发光体的光亮度有关，对于物体色，明度值和物体的透射比或反射比有关。通常取值范围为0％(黑)到100％(白)。

具体地，先从待检测视频中选择一个视频片段，如果该对待检测视频仅包括一个视频片段，则直接对该待检测视频进行图像帧的提取。以提取三帧图像为例，这三帧图像分别为第一图像帧、第二图像帧以及第三图像帧，第一图像帧为第二图像帧相邻的前一帧图像，第二图像帧为第三图像帧相邻的前一帧图像，然后分别生成第一图像帧对应的第一色彩模型，第二图像帧对应的第二色彩模型，第三图像帧对应的第三色彩模型。请参阅表1，表1为视频片段中多帧图像所对应的色彩模型一个示意。

表1

	色调(H)通道	饱和度(S)通道	明度(V)通道
				第一图像帧	200	250	180
第二图像帧	100	230	170
				第三图像帧	50	140	120

由表1可见，第一图像帧的第一色调参数为200，第一饱和度参数为250，第一明度参数为180，第二图像帧的第二色调参数为100，第二饱和度参数为230，第二明度参数为170，第三图像帧的第三色调参数为50，第三饱和度参数为140，第三明度参数为120。计算第一图像帧与第二图像帧的差值平均。首先根据第一色调参数以及第二色调参数计算得到第一色调差值，即：

200-100＝100

根据第一饱和度参数以及第二饱和度参数计算得到第一饱和度差值，即：

250-230＝20

根据第一明度参数以及第二明度参数计算得到第一明度差值，即：

180-170＝10

根据第一色调差值、第一饱和度差值以及第一明度差值，计算得到第一平均差值，即：

(100+20+10)/3＝43.33

即第一图像帧与第二图像帧的差值平均为43.33，也就是第一平均差值为43.33。

计算第二图像帧与第三图像帧的差值平均。首先根据第二色调参数以及第三色调参数计算得到第二色调差值，即：

100-50＝50

根据第二饱和度参数以及第三饱和度参数计算得到第二饱和度差值，即：

230-140＝90

根据第二明度参数以及第三明度参数计算得到第二明度差值，即：

170-120＝50

根据第二色调差值、第二饱和度差值以及第二明度差值，计算得到第二平均差值，即：

(50+90+50)/3＝63.33

即第二图像帧与第三图像帧的差值平均为63.33，也就是第二平均差值为63.33。

基于第一平均差值以及第二平均差值，可以计算图像变化值，假设待检测视频仅包括一个视频片段，且该待检测视频仅包括第一图像帧、第二图像帧以及第三图像帧，那么根据第一平均差值以及第二平均差值计算得到均值为(43.33+63.33)/2＝53.33。

S²＝[(43.33-53.33)²+(43.33-53.33)²]/2＝100

即在三帧图像的图像变化值为100，可以理解的是，在实际应用中，待检测视频还可以包括多个视频片段，每个视频片段包括多帧图像，这些视频片段的图像变化值计算方式如上所述，此处不做赘述。

其次，本申请实施例中，提供了一种基于待检测视频中视频片段的图像变化值计算方式，即先获取各个图像帧所对应的色彩模型，基于色彩模型计算各个相邻两帧图像之间的平均差值，基于多个平均差值计算得到图像变化值。通过上述方式，能够计算出待检测视频中每个视频片段的图像变化值，从而能够根据图像变化值进行镜头变化类型的判断，由此提升方案的可行性和可操作性。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的镜头边界检测的方法一个可选实施例中，根据图像变化值确定待检测视频中视频片段的镜头边界信息，可以包括：

若待检测视频中视频片段所对应的图像变化值大于或等于第一阈值，则确定待检测视频中视频片段的镜头变化类型为镜头突变；

若待检测视频中视频片段所对应的图像变化值小于第一阈值，则确定待检测视频中视频片段的镜头变化类型为镜头渐变；

根据镜头变化类型确定镜头变化位置。

本实施例中，介绍了一种检测待检测视频中视频片段的镜头变化类型的方法。具体地，以待检测视频中的一个视频片段为例，假设该视频片段的图像变化值为S1，于是需要判断S1是否大于第一阈值，如果图像变化值S1大于或等于第一阈值，则确定待检测视频中的该视频片段的镜头变化类型为镜头突变，如果图像变化值S1小于第一阈值，则确定待检测视频中的该视频片段的镜头变化类型为镜头渐变，基于待检测视频中不同视频片段的图像变化值，可以出现部分镜头突变的视频片段，部分镜头渐变的视频片段，进而得到整个待检测视频的镜头变化类型。在确定待检测视频的镜头变化类型之后，可以根据不同视频片段的镜头变化类型确定镜头变化位置。

可以理解的是，第一阈值可以设置为2.6，在实际应用中，第一阈值还可以设置为其他的值，此次仅为一个示意，不应理解为本申请的限定。

再次，本申请实施例中，提供了一种镜头变化类型的确定方法，若待检测视频所对应的图像变化值大于或等于第一阈值，则确定待检测视频的镜头变化类型为镜头突变，若待检测视频所对应的图像变化值小于第一阈值，则确定待检测视频的镜头变化类型为镜头渐变。通过上述方式，利用图像变化值确定镜头变化类型，图像变化值能够很好地体现镜头变化的幅度以及图像数据波动的情况，从而提升检测镜头变化类型的可靠性。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的镜头边界检测的方法一个可选实施例中，根据镜头变化类型确定镜头变化位置，可以包括：

若镜头变化类型为镜头突变，且第一平均差值大于第二平均差值，则确定镜头变化位置为第一图像帧与第二图像帧之间；

若镜头变化类型为镜头突变，且第二平均差值大于第一平均差值，则确定镜头变化位置为第二图像帧与第三图像帧之间。

本实施例中，介绍一种基于镜头突变确定镜头变化位置的方法，请参阅图7，图7为本申请实施例中镜头突变的一个实施例示意图，如图所示，当两帧图像在短时间内发生较大变化时，表示为镜头突变。

具体地，对于镜头突变的情况而言，选择平均差值最大的地方作为突变切点，以待检测视频中一个视频片段的三帧图像为例，即第一图像帧、第二图像帧以及第三图像帧，其中，该视频片段确定为镜头突变的类型，第一图像帧与第二图像帧对应于第一平均差值，第二图像帧与第三图像帧对应于第二平均差值。如果一平均差值大于第二平均差值，那么确定镜头变化位置为第一图像帧与第二图像帧之间。如果二平均差值大于第一平均差值，那么确定镜头变化位置为第二图像帧与第三图像帧之间。

再次，本申请实施例中，提供了一种确定镜头变化位置的方法，即若镜头变化类型为镜头突变，且第一平均差值大于第二平均差值，则确定镜头变化位置为第一图像帧与第二图像帧之间，若镜头变化类型为镜头突变，且第二平均差值大于第一平均差值，则确定镜头变化位置为第二图像帧与第三图像帧之间。通过上述方式，对于镜头突变的情况选择平均差值最大的地方作为突变切点，从而得到更合适的镜头变化位置。

若镜头变化类型为镜头渐变，且第一平均差值大于第二阈值，则确定镜头变化位置包括第一图像帧以及第二图像帧；

若镜头变化类型为镜头渐变，且第二平均差值大于第二阈值，则确定镜头变化位置包括第二图像帧以及第三图像帧；

若镜头变化类型为镜头渐变，且第一平均差值与第二平均差值均大于第二阈值，则确定镜头变化位置包括第一图像帧、第二图像帧以及第三图像帧。

本实施例中，介绍一种基于镜头渐变确定镜头变化位置的方法，请参阅图8，图8为本申请实施例中镜头渐变的一个实施例示意图，如图所示，当两帧图像在一段时间内发生较小变化时，表示为镜头渐变。

具体地，对于镜头渐变的情况而言，选择平均差值大于第二阈值的区域作为渐变区域，以待检测视频中一个视频片段的三帧图像为例，即第一图像帧、第二图像帧以及第三图像帧，其中，该视频片段确定为镜头渐变的类型，第一图像帧与第二图像帧对应于第一平均差值，第二图像帧与第三图像帧对应于第二平均差值。如果第一平均差值大于第二阈值，那么确定镜头变化位置包括第一图像帧以及第二图像帧，即第一图像帧以及第二图像帧均属于渐变区域。如果第二平均差值大于第二阈值，那么确定镜头变化位置包括第二图像帧以及第三图像帧，即第二图像帧以及第三图像帧均属于渐变区域。如果第一平均差值和第二平均差值都分别大于第二阈值，那么确定镜头变化位置包括第一图像帧、第二图像帧以及第三图像帧，即第一图像帧、第二图像帧以及第三图像帧均属于渐变区域。

可以理解的是，第二阈值可以设置为10，在实际应用中，第二阈值还可以设置为其他的值，此次仅为一个示意，不应理解为本申请的限定。

再次，本申请实施例中，提供了一种确定镜头变化位置的方法，即若镜头变化类型为镜头渐变，且第一平均差值大于第二阈值，则确定镜头变化位置包括第一图像帧以及第二图像帧，若镜头变化类型为镜头渐变，且第二平均差值大于第二阈值，则确定镜头变化位置包括第二图像帧以及第三图像帧，若镜头变化类型为镜头渐变，且第一平均差值与第二平均差值均大于第二阈值，则确定镜头变化位置包括第一图像帧、第二图像帧以及第三图像帧。通过上述方式，对于镜头渐变的情况选择平均差值大于阈值的图像作为渐变区域，从而得到更合适的镜头变化位置。

结合上述介绍，下面将对本申请中模型训练的方法进行介绍，请参阅图9，本申请实施例中模型训练的方法一个实施例包括：

201、获取待训练视频片段集合，其中，待训练视频片段集合包括至少一个待训练视频片段；

本实施例中，模型训练装置获取待训练视频片段集合，其中，待训练视频片段集合包括至少一个待训练视频片段，每个待训练视频片段可以包括16帧图像，且各个待训练视频片段不包括相同的图像。

202、通过待训练镜头边界预测模型获取待训练视频片段集合中每个待训练视频片段所对应的预测镜头类型，其中，预测镜头类型为第一镜头类型或者第二镜头类型，第一镜头类型表示具有变化的镜头，第二镜头类型表示不具有变化的镜头；

本实施例中，模型训练装置将每个待训练视频片段输入至待训练镜头边界预测模型，从而输出相应的预测镜头类型，预测镜头类型为第一镜头类型或者第二镜头类型，第一镜头类型表示具有变化的镜头，第二镜头类型表示不具有变化的镜头。

其中，一个待训练视频片段的数据格式表示为videopath begin_frame_indicelabel，videopath begin_frame表示待训练视频片段的起始帧号，indice label表示待训练视频片段的真实标签。采集待训练视频片段的时候可以从begin_frame_indice(起始帧号标识)开始的sample_duration(取样帧数)帧数据都是标签(label)。

在对待训练视频片段进行标注的时候，可以采用三类标签，即无镜头变化(label＝0)，镜头渐变(label＝1),镜头突变(label＝2)，其中，渐变镜头和突变镜头均属于第一镜头类型，无镜头变化为第二镜头类型。

203、根据每个待训练视频片段所对应的预测镜头类型以及真实镜头类型，采用损失函数对待训练镜头边界预测模型进行训练，得到模型参数，其中，真实镜头类型为预先对待训练视频片段进行标注后得到的；

本实施例中，模型训练装置根据每个待训练视频片段所对应的预测镜头类型以及真实镜头类型，采用损失函数对待训练镜头边界预测模型进行训练，得到模型参数。其中，损失函数表示预测结果和实际结果的差异，根据损失函数逆推导到各个网络层的参数。

204、根据模型参数生成镜头边界预测模型。

本实施例中，模型训练装置根据模型参数生成镜头边界预测模型。请参阅图10以及图11，图10为本申请实施例中镜头边界预测模型的一个结构示意图，图11为本申请实施例中基本块的一个结构示意图，如图所示，该镜头边界预测模型可以选用resnet-18网络，具体包括卷积层(Convolutional layer)、批归一化(Batch Normalization)层、激活函数(Rectified Linear Units，ReLu)层、最大池化(max pool)层、基本块(block)，平均池化层以及线性回归(linear-regression)层，即最后一层线性回归层代替softmax分类器，输出类别为分类数目。

本申请实施例中，提供了一种模型训练的方法，首先获取待训练视频片段集合，然后通过待训练镜头边界预测模型获取待训练视频片段集合中每个待训练视频片段所对应的预测镜头类型，再根据每个待训练视频片段所对应的预测镜头类型以及真实镜头类型，采用损失函数对待训练镜头边界预测模型进行训练，得到模型参数，最后根据模型参数生成镜头边界预测模型。通过上述方式，能够基于待训练视频片段集合中样本的数量进行训练，从而有利于提升模型训练的准确性。

可选地，在上述图9对应的各个实施例的基础上，本申请实施例提供的模型训练的方法一个可选实施例中，获取待训练视频片段集合之后，还可以包括：

根据待训练视频片段集合，确定每个待训练视频片段所对应的真实镜头类型，其中，真实镜头类型为第一子镜头类型、第二子镜头类型或第一镜头类型，且第一子镜头类型以及第二子镜头类型均属于第一镜头类型；

根据每个待训练视频片段所对应的真实镜头类型，确定第二镜头类型的数量、第一子镜头类型的数量以及第二子镜头类型的数量；

根据第二镜头类型的数量、第一子镜头类型的数量以及第二子镜头类型的数量，确定第二镜头类型的第一预权重、第一子镜头类型的第二预权重以及第二子镜头类型的第三预权重；

采用损失函数对待训练镜头边界预测模型进行训练，得到模型参数，可以包括：

根据第一预权重、第二预权重以及第三预权重，采用损失函数对待训练镜头边界预测模型进行训练，得到模型参数。

本实施例中，介绍一种基于不同类别数据样本量进行权重设定的方法。具体地，对于待训练视频片段集合而言，往往会出现数据严重不均衡的问题，以表2为例，表2为各个标签分类的数量统计一个示意。

表2

标签	0	1	2
				样本数量	247374	25414	224312

由表2可见，标签为0表示无镜头变化(即第二镜头类型)，标签为1表示为镜头渐变(第一子镜头类型)，标签为2表示镜头突变(第二子镜头类型)，其中，没有镜头变化的数量较多，镜头突变和镜头渐变的数量也存在严重的不均衡。于是采用如下方式进行数据均衡，即把各类的标签数量取倒数作为各类别的预权重。

例如，第一预权重的计算方式为：

a＝(247374+25414+224312)/247374＝2.01

第二预权重的计算方式为：

b＝(247374+25414+224312)/25414＝19.56

第三预权重的计算方式为：

c＝(247374+25414+224312)/224312＝2.22

基于根据第一预权重、第二预权重以及第三预权重，采用损失函数对待训练镜头边界预测模型进行训练，得到模型参数，即损失函数可以表示为：

L＝a*L1+b*L2+c*L3

其中，L为表示损失函数，a表示第一预权重，L1表示基于第二镜头类型的损失函数，b表示第二预权重，L2表示基于第一子镜头类型的损失函数，c表示第三预权重，L3表示基于第二子镜头类型的损失函数。

其次，本申请实施例中，提供了一种考虑不同类别数据样本量的情况，即根据第一预权重、第二预权重以及第三预权重，采用损失函数对待训练镜头边界预测模型进行训练，得到模型参数。通过上述方式，能够对样本的数量进行均衡处理，解决了数据严重不均衡的问题，从而有利于提升模型训练的准确性。

基于上述各个实施例提供的镜头边界检测方法，下面将采用线上测试数据进行具体说明，实验中随机选择22个视频，通过本申请提供的镜头边界预测模型检测出421个镜头，其中，大于5帧的渐变镜头有7个，且没有出现检测遗漏，并且检测结果准确。还有5帧内的渐变镜头(或者称为慢突变镜头)32个，漏检5个，都是新闻类(即内容是密集人群)，检测结果都正确。快突变镜头382个，检测错误的有11个镜头(错误的都是动漫或者大字报播报片段)，漏检58个镜头，请参阅表3，表3为各个指标的检测情况。

表3

本申请提供的方案	准确率	召回率	F1分数
				指标	0.973871734	0.869834711	0.918917912

如表3所示，测试的数据集是线上数据，测试指标的衡量标准见视频检索国际权威评测(TRECVID)标准。召回率(recall)体现了镜头边界预测模型对正样本的识别能力，recall越高，说明镜头边界预测模型对正样本的识别能力越强，准确率(precision)体现了镜头边界预测模型对负样本的区分能力，准确率越高，说明镜头边界预测模型对负样本的区分能力越强。F1分数(F1-score)是准确率和召回率的综合，F1分数越高，说明镜头边界预测模型越稳健。

下面对本申请中的镜头边界检测装置进行详细描述，请参阅图12，图12为本申请实施例中镜头边界检测装置一个实施例示意图，镜头边界检测装置30包括：

获取模块301，用于获取待检测视频，其中，所述待检测视频包括至少一个视频片段，所述一个视频片段包括多帧连续的图像；

所述获取模块301，还用于获取所述待检测视频中视频片段对应的镜头类型，其中，所述镜头类型为第一镜头类型或者第二镜头类型，所述第一镜头类型表示具有变化的镜头，所述第二镜头类型表示不具有变化的镜头；

确定模块302，用于若所述获取模块301获取的所述镜头类型属于所述第一镜头类型，则确定所述待检测视频中视频片段对应的图像变化值，其中，所述图像变化值为对所述待检测视频中视频片段内相邻两帧图像进行计算后得到的；

所述确定模块302，还用于根据所述图像变化值确定所述待检测视频中视频片段的镜头边界信息，其中，所述镜头边界信息包括镜头变化类型以及镜头变化位置。

本实施例中，获取模块301获取待检测视频，其中，所述待检测视频包括至少一个视频片段，所述一个视频片段包括多帧连续的图像，所述获取模块301获取所述待检测视频中视频片段对应的镜头类型，其中，所述镜头类型为第一镜头类型或者第二镜头类型，所述第一镜头类型表示具有变化的镜头，所述第二镜头类型表示不具有变化的镜头，若所述获取模块301获取的所述镜头类型属于所述第一镜头类型，则确定模块302确定所述待检测视频中视频片段对应的图像变化值，其中，所述图像变化值为对所述待检测视频中视频片段内相邻两帧图像进行计算后得到的，所述确定模块302根据所述图像变化值确定所述待检测视频中视频片段的镜头边界信息，其中，所述镜头边界信息包括镜头变化类型以及镜头变化位置。

本申请实施例中，提供了一种镜头边界检测装置，首先获取待检测视频，然后获取待检测视频中视频片段对应的镜头类型，其中，镜头类型为第一镜头类型或者第二镜头类型，第一镜头类型表示具有变化的镜头，第二镜头类型表示不具有变化的镜头，若镜头类型属于第一镜头类型，则确定待检测视频所对应的图像变化值，最后根据图像变化值确定待检测视频的镜头边界信息，其中，镜头边界信息包括镜头变化类型以及镜头变化位置。通过上述方式，对于不同的镜头类型设计了两层检测机制，先利用深度学习算法对视频片段做初步的镜头类型判定，对于有镜头变化的视频片段再做进一步的分析，确定属于镜头突变还是镜头渐变，基于不同的镜头检测出具体的变化位置，因此，结合深度学习算法以及相邻图像帧统计的方法，能够为镜头边界的检测提供更丰富的信息，从而减小镜头边界的漏检率，提升镜头边界的检测效果。

可选地，在上述图12所对应的实施例的基础上，本申请实施例提供的镜头边界检测装置30的另一实施例中，

所述获取模块301，具体用于获取片段提取信息，其中，所述片段提取信息包括视频片段的批次值、通道数、所述视频片段中图像的高度、所述视频片段中图像的宽度以及所述视频片段中图像的帧数；

所述获取模块301，具体用于获取第一片段提取信息，其中，所述片段提取信息包括第一视频片段的批次值、通道数、所述第一视频片段中图像的高度、所述第一视频片段中图像的宽度以及所述第一视频片段中图像的帧数；

所述获取模块301，具体用于通过镜头边界预测模型获取所述第一视频片段对应的镜头类型；

所述确定模块302，具体用于若所述第一视频片段对应的镜头类型与所述第二视频片段对应的镜头类型均为所述第一镜头类型，则根据所述第一视频片段以及所述第二视频片段生成目标视频片段，其中，所述目标视频片段包括(2M-N)个连续图像；

根据所述目标视频片段确定所述图像变化值。

所述确定模块302，具体用于从所述待检测视频的视频片段中获取第一图像帧、第二图像帧以及第三图像帧，其中，所述第一图像帧为所述第二图像帧相邻的前一帧图像，所述第二图像帧为所述第三图像帧相邻的前一帧图像；

所述确定模块302，具体用于若所述待检测视频中视频片段所对应的图像变化值大于或等于第一阈值，则确定所述待检测视频中视频片段的所述镜头变化类型为镜头突变；

根据所述镜头变化类型确定所述镜头变化位置。

所述确定模块302，具体用于若所述镜头变化类型为所述镜头突变，且所述第一平均差值大于所述第二平均差值，则确定所述镜头变化位置为所述第一图像帧与所述第二图像帧之间；

所述确定模块302，具体用于若所述镜头变化类型为所述镜头渐变，且所述第一平均差值大于第二阈值，则确定所述镜头变化位置包括所述第一图像帧以及所述第二图像帧；

下面对本申请中的模型训练装置进行详细描述，请参阅图13，图12为本申请实施例中模型训练装置一个实施例示意图，模型训练装置40包括：

获取模块401，用于获取待训练视频片段集合，其中，所述待训练视频片段集合包括至少一个待训练视频片段；

所述获取模块401，还用于获取所述待训练视频片段集合中每个待训练视频片段所对应的预测镜头类型，其中，所述预测镜头类型为第一镜头类型或者第二镜头类型，所述第一镜头类型表示具有变化的镜头，所述第二镜头类型表示不具有变化的镜头；

训练模块402，用于根据所述获取模块401获取的所述每个待训练视频片段所对应的预测镜头类型以及真实镜头类型，采用损失函数对所述待训练镜头边界预测模型进行训练，得到模型参数，其中，所述真实镜头类型为预先对待训练视频片段进行标注后得到的；

生成模块403，用于根据所述训练模块402训练得到的所述模型参数生成镜头边界预测模型。

本实施例中，获取模块401获取待训练视频片段集合，其中，所述待训练视频片段集合包括至少一个待训练视频片段，所述获取模块401获取所述待训练视频片段集合中每个待训练视频片段所对应的预测镜头类型，其中，所述预测镜头类型为第一镜头类型或者第二镜头类型，所述第一镜头类型表示具有变化的镜头，所述第二镜头类型表示不具有变化的镜头，训练模块402根据所述获取模块401获取的所述每个待训练视频片段所对应的预测镜头类型以及真实镜头类型，采用损失函数对所述待训练镜头边界预测模型进行训练，得到模型参数，其中，所述真实镜头类型为预先对待训练视频片段进行标注后得到的，生成模块403根据所述训练模块402训练得到的所述模型参数生成镜头边界预测模型。

可选地，在上述图13所对应的实施例的基础上，请参阅图14，本申请实施例提供的模型训练装置40的另一实施例中，所述模型训练装置40包括确定模块404；

所述确定模块404，用于所述获取模块401获取待训练视频片段集合之后，根据所述待训练视频片段集合，确定所述每个待训练视频片段所对应的真实镜头类型，其中，所述真实镜头类型为第一子镜头类型、第二子镜头类型或所述第一镜头类型，且所述第一子镜头类型以及所述第二子镜头类型均属于所述第一镜头类型；

所述确定模块404，还用于根据所述每个待训练视频片段所对应的真实镜头类型，确定所述第二镜头类型的数量、所述第一子镜头类型的数量以及第二子镜头类型的数量；

所述确定模块404，还用于根据所述第二镜头类型的数量、所述第一子镜头类型的数量以及第二子镜头类型的数量，确定所述第二镜头类型的第一预权重、所述第一子镜头类型的第二预权重以及所述第二子镜头类型的第三预权重；

所述训练模块402，具体用于根据所述第一预权重、所述第二预权重以及所述第三预权重，采用所述损失函数对所述待训练镜头边界预测模型进行训练，得到模型参数。

本申请实施例还提供了另一种镜头边界检测装置，如图15所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、销售终端设备(Point of Sales，POS)、车载电脑等任意终端设备，以终端设备为手机为例：

图15示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图15，手机包括：射频(Radio Frequency，RF)电路510、存储器520、输入单元530、显示单元540、传感器550、音频电路560、无线保真(wireless fidelity，WiFi)模块570、处理器580、以及电源590等部件。本领域技术人员可以理解，图15中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图15对手机的各个构成部件进行具体的介绍：

RF电路510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器580处理；另外，将设计上行的数据发送给基站。通常，RF电路510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器520可用于存储软件程序以及模块，处理器580通过运行存储在存储器520的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元530可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元530可包括触控面板531以及其他输入设备532。触控面板531，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板531上或在触控面板531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器580，并能接收处理器580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板531。除了触控面板531，输入单元530还可以包括其他输入设备532。具体地，其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元540可包括显示面板541，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板541。进一步的，触控面板531可覆盖显示面板541，当触控面板531检测到在其上或附近的触摸操作后，传送给处理器580以确定触摸事件的类型，随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图15中，触控面板531与显示面板541是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板531与显示面板541集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板541的亮度，接近传感器可在手机移动到耳边时，关闭显示面板541和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路560、扬声器561，传声器562可提供用户与手机之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号，传输到扬声器561，由扬声器561转换为声音信号输出；另一方面，传声器562将收集的声音信号转换为电信号，由音频电路560接收后转换为音频数据，再将音频数据输出处理器580处理后，经RF电路510以发送给比如另一手机，或者将音频数据输出至存储器520以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图15示出了WiFi模块570，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器580是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器580可包括一个或多个处理单元；可选的，处理器580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器580中。

手机还包括给各个部件供电的电源590(比如电池)，可选的，电源可以通过电源管理系统与处理器580逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端设备所包括的处理器580还具有以下功能：

可选地，处理器580具体用于执行如下步骤：

通过镜头边界预测模型获取所述待检测视频中视频片段对应的镜头类型，其中，所述镜头边界预测模型包括线性回归层，所述镜头边界预测模型为根据第一预权重、第二预权重以及第三预权重训练得到的，所述第一预权重与第二镜头类型的数量具有关联关系，所述第二预权重与第一子镜头类型具有关联关系，所述第三预权重与第二子镜头类型具有关联关系，所述第一子镜头类型以及所述第二子镜头类型均属于所述第一镜头类型。

可选地，处理器580具体用于执行如下步骤：

获取片段提取信息，其中，所述片段提取信息包括视频片段的批次值、通道数、所述视频片段中图像的高度、所述视频片段中图像的宽度以及所述视频片段中图像的帧数；

可选地，处理器580具体用于执行如下步骤：

获取第一片段提取信息，其中，所述片段提取信息包括第一视频片段的批次值、通道数、所述第一视频片段中图像的高度、所述第一视频片段中图像的宽度以及所述第一视频片段中图像的帧数；

可选地，处理器580具体用于执行如下步骤：

通过镜头边界预测模型获取所述第一视频片段对应的镜头类型；

若所述第一视频片段对应的镜头类型与所述第二视频片段对应的镜头类型均为所述第一镜头类型，则根据所述第一视频片段以及所述第二视频片段生成目标视频片段，其中，所述目标视频片段包括(2M-N)个连续图像；

根据所述目标视频片段确定所述图像变化值。

可选地，处理器580具体用于执行如下步骤：

从所述待检测视频的视频片段中获取第一图像帧、第二图像帧以及第三图像帧，其中，所述第一图像帧为所述第二图像帧相邻的前一帧图像，所述第二图像帧为所述第三图像帧相邻的前一帧图像；

可选地，处理器580具体用于执行如下步骤：

若所述待检测视频中视频片段所对应的图像变化值大于或等于第一阈值，则确定所述待检测视频中视频片段的所述镜头变化类型为镜头突变；

根据所述镜头变化类型确定所述镜头变化位置。

可选地，处理器580具体用于执行如下步骤：

若所述镜头变化类型为所述镜头突变，且所述第一平均差值大于所述第二平均差值，则确定所述镜头变化位置为所述第一图像帧与所述第二图像帧之间；

可选地，处理器580具体用于执行如下步骤：

若所述镜头变化类型为所述镜头渐变，且所述第一平均差值大于第二阈值，则确定所述镜头变化位置包括所述第一图像帧以及所述第二图像帧；

图16是本发明实施例提供的一种服务器结构示意图，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在服务器600上执行存储介质630中的一系列指令操作。

服务器600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，和/或，一个或一个以上操作系统641，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图16所示的服务器结构。

在本申请实施例中，该服务器所包括的CPU 622还具有以下功能：

根据所述模型参数生成镜头边界预测模型。

可选地，CPU 622还用于执行如下步骤：

根据所述待训练视频片段集合，确定所述每个待训练视频片段所对应的真实镜头类型，其中，所述真实镜头类型为第一子镜头类型、第二子镜头类型或所述第一镜头类型，且所述第一子镜头类型以及所述第二子镜头类型均属于所述第一镜头类型；

根据所述每个待训练视频片段所对应的真实镜头类型，确定所述第二镜头类型的数量、所述第一子镜头类型的数量以及第二子镜头类型的数量；

根据所述第二镜头类型的数量、所述第一子镜头类型的数量以及第二子镜头类型的数量，确定所述第二镜头类型的第一预权重、所述第一子镜头类型的第二预权重以及所述第二子镜头类型的第三预权重；

所述采用损失函数对所述待训练镜头边界预测模型进行训练，得到模型参数，包括：

根据所述第一预权重、所述第二预权重以及所述第三预权重，采用所述损失函数对所述待训练镜头边界预测模型进行训练，得到模型参数。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种镜头边界检测的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述待检测视频中视频片段对应的镜头类型，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取待检测视频，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取待检测视频，包括：

5.根据权利要求4所述的方法，其特征在于，所述获取所述待检测视频中视频片段对应的镜头类型，包括：

所述若所述镜头类型属于所述第一镜头类型，则确定所述待检测视频中视频片段对应的图像变化值，包括：

根据所述目标视频片段确定所述图像变化值。

6.根据权利要求1所述的方法，其特征在于，所述确定所述待检测视频中视频片段对应的图像变化值，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述图像变化值确定所述待检测视频中视频片段的镜头边界信息，包括：

根据所述镜头变化类型确定所述镜头变化位置。

8.根据权利要求7所述的方法，其特征在于，所述根据所述镜头变化类型确定所述镜头变化位置，包括：

9.根据权利要求7所述的方法，其特征在于，所述根据所述镜头变化类型确定所述镜头变化位置，包括：

10.一种模型训练的方法，其特征在于，包括：

根据所述模型参数生成镜头边界预测模型。

11.根据权利要求10所述的方法，其特征在于，所述获取待训练视频片段集合之后，所述方法还包括：

12.一种镜头边界检测装置，其特征在于，包括：

13.一种终端设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

14.一种服务器，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

根据所述模型参数生成镜头边界预测模型；

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至9中任一项所述的方法，或，执行如权利要求10至11中任一项所述的方法。