CN112087661B

CN112087661B - 视频集锦生成方法、装置、设备及存储介质

Info

Publication number: CN112087661B
Application number: CN202010863896.1A
Authority: CN
Inventors: 李廷天; 孙子荀
Original assignee: Tencent Technology Shanghai Co Ltd
Current assignee: Tencent Technology Shanghai Co Ltd
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2022-07-22
Anticipated expiration: 2040-08-25
Also published as: CN112087661A

Abstract

本申请涉及一种视频集锦生成方法、装置、设备及存储介质。该方法包括：获取待检测视频，从待检测视频中提取待检测高亮图像集；将待检测高亮图像集输入第一目标对象检测模型进行第一目标对象的检测，获取第一数量的第一检测高亮图像；将第一数量的第一检测高亮图像输入第二目标对象检测模型进行第二目标对象的检测，获取第二数量的第二检测高亮图像；基于第二数量的第二检测高亮图像和所述待检测高亮图像集，确定目标视频片段；根据所述目标视频片段，生成目标事件的视频集锦。目标事件的检测可以更加快速和准确，从而生成视频集锦能够更加高效，并且不需要训练样本的大量标注以及目标对象检测时可以减少颜色多样性的影响。

Description

视频集锦生成方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种视频集锦生成方法、装置、设备及存储介质。

背景技术

在视频搜索和观看中，用户希望搜索的视频中全部是自己感兴趣的，或者用户仅观看搜索的视频中自己感兴趣的片段。特别是对体育视频，比如篮球游戏视频，用户可能只希望看到篮球游戏视频中的扣篮视频集锦，并不想观看其它的内容。因此现在一般会对游戏视频内容进行分类，得到分类后的视频集锦，使得用户可以搜索到自己感兴趣的视频集锦。但是现有的分类方式都是人工分类，这样会消耗大量人力和时间；或者是通过神经网络分类，但还是需要人工收集和观看大量视频、人工标注视频中的视频片段的类型以及人工剪辑视频集锦，这也十分消耗人力和时间。而且现在神经网络对训练样本的颜色变化要求较高。

发明内容

有鉴于上述存在的技术问题，本申请提出了一种视频集锦生成方法、装置、设备及存储介质。

根据本申请的一方面，提供了一种视频集锦生成方法，包括：

获取待检测视频，从所述待检测视频中提取待检测高亮图像集；

将所述待检测高亮图像集输入第一目标对象检测模型进行第一目标对象的检测，获取第一数量的第一检测高亮图像；

将所述第一数量的第一检测高亮图像输入第二目标对象检测模型进行第二目标对象的检测，获取第二数量的第二检测高亮图像；

基于所述第二数量的第二检测高亮图像和所述待检测高亮图像集，确定目标视频片段；

根据所述目标视频片段，生成目标事件的视频集锦；

其中，所述第一目标对象和所述第二目标对象为所述目标事件关联的两个目标对象。

根据本申请的另一方面，提供了一种视频集锦生成装置，包括：

待检测高亮图像集提取模块，用于获取待检测视频，从所述待检测视频中提取待检测高亮图像集；

第一检测高亮图像获取模块，用于将所述待检测高亮图像集输入第一目标对象检测模型进行第一目标对象的检测，获取第一数量的第一检测高亮图像；

第二检测高亮图像获取模块，用于将所述第一数量的第一检测高亮图像输入第二目标对象检测模型进行第二目标对象的检测，获取第二数量的第二检测高亮图像；

目标视频片段确定模块，用于基于所述第二数量的第二检测高亮图像和所述待检测高亮图像集，确定目标视频片段；

视频集锦生成模块，用于根据所述目标视频片段，生成目标事件的视频集锦；

根据本申请的另一方面，提供了一种视频集锦生成设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行上述方法。

根据本申请的另一方面，提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现上述方法。

本申请通过第一目标对象检测模型和第二目标对象检测模型，进行目标事件的视频集锦的生成，可以从待检测视频中自动且快速地检测出目标事件的视频片段，从而全自动、快速地生成目标事件的视频集锦，可以实现非人工干预，节省大量人力和时间。并且，通过设置第一目标对象检测模型和第二目标对象检测模型的输入为高亮图像，可以避免颜色多样性的要求，比如目标事件为扣篮事件的情况下，在获取训练样本时，可以不用对球员着装、护臂、生理特征等颜色多样性进行标注，从而避免标注巨量的标签，并且标注会更加准确；在检测时，对高亮图像进行检测，减少了颜色多样性的影响，可以使得检测更加快速和准确。

另外，通过将目标事件的检测转换为第一目标对象和第二目标对象的检测，使得模型的训练样本的标注可以较简单，不需要对目标事件的其它特征进行标注，检测时可以使得检测目标较单一和明确，从而使得检测更加准确。

根据下面参考附图对示例性实施例的详细说明，本申请的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面，并且用于解释本申请的原理。

图1示出根据本申请一实施例提供的一种应用系统的示意图。

图2示出根据本申请一实施例的第一目标对象检测模型的训练方法流程图。

图3a和图3b示出根据本申请一实施例的第一样本训练图像集的示意图。

图4示出根据本申请一实施例的第二目标对象检测模型的训练方法流程图。

图5a示出根据本申请一实施例的第二目标对象的截图的示意图。

图5b示出根据本申请一实施例的图像中mask区域的示意图。

图6a示出根据本申请一实施例的第二图像的示意图。

图6b和图6c示出根据本申请一实施例的干扰处理后的第二图像的示意图。

图7示出根据本申请一实施例的对对第二图像集中的第二图像进行尺寸矫正，获取矫正后的第二样本训练图像的方法流程图。

图8示出根据本申请一实施例的视频集锦生成方法的流程图。

图9示出根据本申请一实施例的第一目标对象检测模型的检测框示意图。

图10示出根据本申请一实施例的第二目标对象检测模型的检测框示意图。

图11示出根据本申请一实施例的扣篮事件的视频集锦的示意图。

图12示出根据本申请一实施例的视频集锦生成方法的流程图。

图13示出根据本申请一实施例的所述对所述第一数量的第一检测高亮图像进行验证，筛选出第三数量的第一验证高亮图像的方法流程图。

图14示出根据本申请一实施例的霍夫变换的检测点示意图。

图15a示出根据本申请一实施例的第一参考图像的示意图。

图15b示出根据本申请一实施例的第一验证高亮图像的示意图。

图15c示出根据本申请一实施例的第一高亮图像的示意图。

图16示出根据本申请一实施例的视频集锦生成方法的流程图。

图17示出根据本申请一实施例的所述对所述第二数量的第二检测高亮图像进行验证，筛选出第二高亮图像的方法流程图。

图18示出根据本申请一实施例的视频集锦生成装置的框图。

图19是根据一示例性实施例示出的一种用于图像的视频集锦生成装置1900的框图。

具体实施方式

以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本申请，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本申请同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本申请的主旨。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

近年来，随着人工智能技术研究和进步，人工智能技术在多个领域得到广泛应用，本申请实施例提供的方案涉及计算机视觉等技术，具体通过如下实施例进行说明：

请参阅图1，图1示出根据本申请一实施例提供的一种应用系统的示意图。所述应用系统可以用于本申请的视频集锦生成方法。如图1所示，该应用系统至少可以包括服务器01和终端02。

本申请实施例中，所述服务器01可以包括独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

本申请实施例中，所述终端02可以包括智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、智能可穿戴设备等类型的实体设备。实体设备，也可以包括运行于实体设备中的软体，例如应用程序等。本申请实施例中终端02上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。

本说明书实施例中，上述终端02以及服务器01可以通过有线或无线通信方式进行直接或间接地连接，本申请对此不作限定。

所述终端02可以用于提供面向用户的视频集锦处理。用户可以在终端02上传待检测视频，终端02还可以接收并显示视频集锦。终端02提供面向用户的视频集锦处理的方式可以包括但不限于应用程序方式、网页方式等。

需要说明的是，本申请实施例中，可以由服务器01执行视频集锦生成方法，优选地，在服务器01中实现所述视频集锦生成方法、第一目标对象检测模型和第二目标对象检测模型的训练。以便减轻终端的数据处理压力，改善面向用户的终端的设备性能。

在一个具体的实施例中，服务器02为分布式系统时，该分布式系统可以为区块链系统，分布式系统为区块链系统时，可以由多个节点(接入网络中的任意形式的计算设备，如服务器、用户终端)形成，节点之间形成组成的点对点(P2P，Peer To Peer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission Control Protocol)协议之上的应用层协议。在分布式系统中，任何机器如服务器、终端都可以加入而成为节点，节点包括硬件层、中间层、操作系统层和应用层。具体的，区块链系统中各节点的功能，涉及的功能可以包括：

1)路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其他节点，供其他节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

需要说明的是，以下图中示出的是一种可能的步骤顺序，实际上并不限定必须严格按照此顺序。有些步骤可以在互不依赖的情况下并行执行。

在介绍本申请的第一目标对象检测模型和第二目标对象检测模型的训练、视频集锦生成方法之前，先介绍下本申请的第一目标对象、第二目标对象和第三目标对象，本申请的第一目标对象、第二目标对象和第三目标对象是通过目标事件关联的。目标事件可以是指视频集锦的主题，比如对于体育类的视频集锦，目标事件可以包括不同的动作主题，从而使得目标事件可以包括扣篮事件、上篮事件、抢篮板事件等。可以预先设置目标事件关联的第一目标对象、第二目标对象和第三目标对象，比如对于扣篮事件来说，第一目标对象可以是篮板，因为扣篮动作会发生在篮板的中下方，这样可以利用第一目标对象检测模型对待检测视频中的图像进行初步筛查；第二目标对象可以是指扣篮动作，这里可以将扣篮动作等价为手臂连接篮筐这个特征，这样则可以将第二目标对象设置为手臂连接篮筐；第三目标对象可以是篮球，可以通过验证篮球在篮板区域的位置，验证检测的扣篮动作是否有效。再比如上篮事件，上篮事件对应的第一目标对象和第三目标对象可以和上述扣篮事件的相同，第二目标对象可以是手臂与篮筐的距离处于预设距离范围内。也就是说，可以根据目标事件，具体地设置第一目标对象、第二目标对象和/或第三目标对象，只要设置的第一目标对象、第二目标对象和/或第三目标对象能够有效检测和验证视频中的目标事件即可，本申请对此不作限定。以下介绍中，均以扣篮事件为例进行介绍。

具体地，图2示出根据本申请一实施例的第一目标对象检测模型的训练方法流程图。如图2所示，该方法可以包括：

S201，获取所述第一目标对象的原始图像集和第一背景图像集。

本说明书实施例中，第一目标对象的原始图像集可以包括多个第一目标对象图像，该第一目标对象图像可以是指第一目标对象的截图，比如篮板的截图。在实际应用中，比如在NBA类游戏场景中，可以通过截图的方式，从游戏画面中截取篮板的截图，从而得到篮板的截图，例如，可以截取50张篮板的截图，从而可以将该50张篮板的截图作为第一目标对象的原始图像集。NBA类游戏可以包括NBA2K在线游戏，本申请对此不作限定。

基于获取第一目标对象的原始图像集的相似方式，可以通过截图的方式，获取第一背景图像集，比如可以是NBA类游戏的球场图像集。

S203，基于所述第一目标对象的原始图像集和所述第一背景图像集，生成第一图像集；其中，所述第一图像集可以包括第一图像和对应的图像标签。

本说明书实施例中，可以通过随机贴图的方式，将第一目标对象的原始图像集中的第一目标对象图像随机贴入第一背景图像集中的第一背景图像中，从而可以生成第一图像集。并可以获取每张第一图像中第一目标对象的最小外接矩形的四个顶点坐标作为每张第一图像对应的四个顶点坐标，可以将第一目标对象和每张第一图像对应的四个顶点坐标作为每张第一图像对应的图像标签。

在一种可能的实现方式中，可以利用掩模mask技术将第一目标对象图像中的第一目标对象标示出来，即可以将第一目标对象图像中的第一目标对象的像素标为1、其它部分的像素标为0。也就是说可以利用mask为1来指示第一目标对象图像中哪些像素为第一目标对象。这样在将第一目标对象图像随机贴入第一背景图像时，可以仅将第一目标对象图像中标为1的部分显示在第一背景图像中，标为0的部分设置为透明，不显示在第一背景图像中，可以使得第一目标对象图像贴入到第一背景图像时，可以更加自然和真实，更利于模型的学习。作为一个示例，可以利用下面公式(1)实现该基于mask的随机贴入方式。

其中，

为第一图像集中的第一图像。I_b为第一目标对象图像，M_b为第一目标对象图像中的第一目标对象，即第一目标对象图像中mask为1的区域；B₁为第一背景图像；B₁*(1-M_b)为第一背景图像中该mask为1所占区域以外的区域。

S205，对所述第一图像集中的第一图像进行高亮转化，得到第一样本训练图像集。

本说明书实施例中，为了避免模型对颜色多样性的要求，可以对第一图像集中的第一图像进行高亮转化，例如利用HSV(Hue,Saturation,Value；色调，饱和度，明度)算法对第一图像进行高亮转化，得到第一图像的高亮图像，可以将第一图像的高亮图像作为第一样本训练图像集，如图3a和图3b所示，以用于后续的第一目标对象检测模型的训练。

S207，基于所述第一样本训练图像集和对应的图像标签，对预设神经网络进行训练，获取所述第一目标对象检测模型。

本说明书实施例中，可以基于第一样本训练图像集和对应的图像标签，对预设神经网络进行训练，直到预设神经网络的输出与图像标签匹配，比如直到预设神经网络的输出与图像标签的误差满足预设误差阈值，可以将当前的预设神经网络作为第一目标对象检测模型。本申请对预设误差阈值不作限定。其中，预设神经网络可以为运行速度较快的YOLOV3(You Only Look Once第3版)神经网络，在检测时，只需要1～2秒。本申请对预设神经网络不作限定。

图4示出根据本申请一实施例的第二目标对象检测模型的训练方法流程图。如图4所示，该方法可以包括：

S401，获取所述第二目标对象的原始图像集和第二背景图像集。

本说明书实施例中，第二目标对象的原始图像集可以包括多个第二目标对象图像；该第二目标对象图像可以是指第二目标对象的截图，比如扣篮的截图。本说明书实施例中将扣篮等价为手臂连接篮筐这个特征，则相应的，可以获取手臂连接篮筐的截图，如图5a所示。在实际应用中，比如在NBA类游戏场景中，可以通过截图的方式，从游戏画面中截取手臂连接篮筐的截图，从而可以得到多个手臂连接篮筐的截图，例如可以是200个手臂连接篮筐的截图，本申请对此不作限定。

基于获取第二目标对象的原始图像集的相似方式，可以通过截图的方式，获取第二背景图像集，比如可以是NBA类游戏的球场图像集。

S403，对所述第二目标对象的原始图像集中的第二目标对象图像进行增强处理，获取增强处理后的原始图像集。

本说明书实施例中，增强处理可以包括随机翻转，尺寸改变(随机放大、缩小)以及仿射变换等。可以对第二目标对象图像进行增强处理，得到增强处理后的第二目标对象图像。作为一个示例，可以利用下面公式(2)实现该增强处理。

其中，I_patch为第二目标对象图像；这里的flip、resize、affine分别为随机翻转、尺寸改变、仿射变换操作；

为I_patch增强后的版本，即增强处理后的第二目标对象图像。

可选地，可以将增强处理后的第二目标对象图像组成增强处理后的原始图像集。

S405，基于所述增强处理后的原始图像集和所述第二背景图像集，生成第二图像集；其中，所述第二图像集可以包括第二图像和对应的图像标签。

该步骤S405的实现方式可以参见步骤S203，在此不再赘述。第二图像对应的图像标签可以是第二目标对象和第二图像中第二目标对象的最小外接矩形的四个顶点坐标。例如，第二目标对象为扣篮时，第二图像对应的图像标签可以是扣篮以及第二图像中扣篮(手臂连接篮筐)的最小外接矩形的四个顶点坐标。

作为一个示例，可以利用下面公式(3)将增强处理后的原始图像集中的图像贴入第二背景图像。

其中，

为第二图像集中的第二图像；

为增强处理后的原始图像集中的图像(增强处理后的第二目标对象图像)，M为增强处理后的原始图像集中的图像中的第二目标对象区域，即增强处理后的原始图像集中的图像中mask为1的区域，如图5b所示的白色区域；B₂为第二背景图像；B₂*(1-M)为第二背景图像中该mask为1所占区域以外的区域。

也就是说，在将增强处理后的原始图像集中的图像贴入第二背景图像时，仅将该图像中mask为1的区域(这里的mask为1可以用于指示该图像中哪些像素为第二目标对象)，即图5b中白色区域对应的手臂连接篮筐贴入第二背景图像；而该图像中mask为0的区域，即图5b中黑色区域没有贴入第二背景图像，也可以说图5b中黑色区域在第二背景图像中为透明。

通过上述方式能够使增强处理后的原始图像集中的图像随机贴入第二背景图像的各种位置，从而可以生成大量的第二图像，比如生成100000张第二图像，这些大量的第二图像可以组成第二图像集。因此可以使用少量原始图像杠杆式地生成大量包含第二目标对象的第二图像，以用于后续第二目标对象检测模型的训练，避免了收集和标注大量样本的困难。

S407，对所述第二图像集中的第二图像进行干扰处理，获取干扰图像集。

本说明书实施例中，上述的第二图像集可以看作是进行第二目标对象检测模型的正样本，而为了提高第二目标对象检测模型后续的检测准确率，可以对第二图像进行干扰处理，在一个示例中，可以将第二目标对象划分至少两个子目标对象：第一子目标对象和第二子目标对象，这样可以单独将子目标对象(第一子目标对象和/或第二子目标对象)的截图贴入第二图像，实现对第二图像的干扰处理，也就是说将第一子目标对象和/或第二子目标对象作为负样本对第二图像进行干扰处理。例如，当第二目标对象为手臂连接篮筐时，可以截取手臂截图和篮筐截图，将手臂截图和/或篮筐截图随机贴入第二图像中，从而得到干扰处理后的第二图像，可以将干扰处理后的第二图像组成干扰图像集。作为一个示例，可以通过下面的公式(4)对第二图像进行干扰处理。

其中，I_final为干扰处理后的第二图像；

为第二图像集中的第二图像；

为篮筐的截图，即第一子目标对象的截图；

为手臂的截图，即第二子目标对象的截图；

为第一子目标对象的截图中第一子目标对象，即篮筐；

为二子目标对象的截图中第二子目标对象，即手臂。n₁为一张第二图像中贴入的第一子目标对象的数量；n₂为一张第二图像中贴入的第二子目标对象的数量。n₁和n₂可以根据实际需要设置，本申请对此不作限定。在一个示例中，如图6a～6b所示，图6a为第二图像；图6b和图6c为干扰处理后的第二图像，具体地，图6b对应的是n₁＝0,n₂＝5；图6c对应的是n₁＝3,n₂＝0。

上述的第一子目标对象可以利用mask技术在第一子目标对象的截图中标示，即可以将第一子目标对象的截图中的第一子目标对象的像素标示为1，那么第一子目标对象区域可以是指第一子目标对象的截图中mask为1的区域。同理，第二子目标对象区域可以是指第二子目标对象的截图中mask为1的区域。

S409，对所述干扰图像集中的图像进行高亮转化，得到第二样本训练图像集。

本说明书实施例中，为了减小颜色多样性的影响，可以对干扰图像集中的图像进行高亮转化，通过转化后的HSV亮度分量来避免颜色多样性的影响。比如，在扣篮事件训练和检测时，可以减小球员不同的衣着以及肤色的影响。从而可以得到干扰图像集。这里可以参见步骤S205的实现方式，在此不再赘述。

可选地，在实际应用中，比如游戏玩家对游戏的配置不同，可能会导致游戏的画面大小不同，这样会使得获取的第二目标对象的截图和第二背景图像的尺寸不同导致第二样本训练图像集中的图像的尺寸不同。虽然不同尺寸的图像也可以直接用于训练第二目标对象检测模型，但是相比于该多尺寸的训练方式，利用单一尺寸的图像训练的模型，不仅训练过程的处理可以更加简单，还可以使训练好的第二目标对象检测模型具有更高的检测准确率。因此，在对第二图像集中的第二图像进行干扰处理之前，即在步骤S407之前，可以对第二图像集中的第二图像进行尺寸矫正，获取矫正图像集；并可以对矫正图像集中的图像进行干扰处理，获取干扰图像集，进而转入步骤S409。其中，干扰处理不会改变矫正图像集中的图像的尺寸以及矫正图像集中的图像中第二子目标对象的尺寸。

在一种可能的实现方式中，如图7所示，对第二图像集中的第二图像进行尺寸矫正，获取矫正图像集，可以包括以下步骤：

S701，获取第二参考图像的尺寸以及所述第二参考图像中第二子目标对象的尺寸。

本说明书实施例中，第二参考图像可以是包括第二目标对象的图像，并且，该第二参考图像的尺寸和第二参考图像中第二子目标对象的尺寸可以为预先设置的。其中，该第二子目标对象可以是第二目标对象中的一个子对象。例如，第二目标对象为手臂连接篮筐时，第二子目标对象可以为手臂。

S703，基于所述第二参考图像的尺寸以及所述第二参考图像中第二子目标对象的尺寸，矫正所述第二图像集中的第二图像的尺寸以及所述第二图像集中的第二图像中第二子目标对象的尺寸，得到矫正图像集。

本说明书实施例中，可以对第二图像集中的第二图像以及第二图像集中的第二图像中的第二子目标对象进行放大或缩小、水平移动和垂直移动等操作，实现对第二图像集中的第二图像的尺寸以及第二图像集中的第二图像中第二子目标对象的尺寸的矫正，以得到矫正图像集。例如，可以通过以下公式(5)～(7)实现该矫正处理。

其中，

为第二参考图像中第二子目标对象最小外接矩形的最左参考横坐标；

为第二参考图像中第二子目标对象最小外接矩形的最右参考横坐标；

为第二参考图像中第二子目标对象最小外接矩形的最上方参考纵坐标；

为第二参考图像中第二子目标对象最小外接矩形的最下方参考纵坐标；x₁为第二图像集中的第二图像中第二子目标对象最小外接矩形的最左横坐标；x₂为第二图像集中的第二图像中第二子目标对象最小外接矩形的最右横坐标；y₁为第二图像集中的第二图像中第二子目标对象最小外接矩形的最上方纵坐标；y₂为第二图像集中的第二图像中第二子目标对象最小外接矩形的最下方纵坐标；r为视野放大比例；s_h为水平移动量；s_v为垂直移动量。接下来，可以根据公式(8)实现公式(5)～(7)的自动操作。

view_new＝Shift(resize(I,r),s_h,s_v) (8)

其中，I为第二图像；resize为根据r放大、缩小操作，Shift为根据S_h,s_v移动视野的操作。

也就是说，通过矫正后，不仅矫正后的第二图像集中的第二图像的尺寸与第二参考图像的尺寸相同，并且，矫正后的第二图像集中的第二图像中的第二子目标对象的尺寸、位置与第二参考图像中的第二子目标对象的尺寸、位置也相同。

S411，基于所述第二样本训练图像集和对应的图像标签，对预设神经网络进行训练，获取所述第二目标对象检测模型。

这里的步骤S411的实现方式可以参见步骤S207，在此不再赘述。

在扣篮事件的检测中，通过将扣篮等价为手臂连接篮筐这个特征，可以使用少量扣篮截图生成包含大量图像的第二样本训练图像集，达到类似零样本学习zero-shot的效果。并且可以避免对大量球员、着装、肤色等特征的标注。

实际应用中，可以利用上述训练好的第一目标对象检测模型和第二目标对象检测模型，检测第一目标对象和第二目标对象，从而用于视频集锦的生成。图8示出根据本申请一实施例的视频集锦生成方法的流程图。如图8所示，该方法可以包括：

S801，获取待检测视频，从所述待检测视频中提取待检测高亮图像集。

本说明书实施例中，可以获取待检测视频，并可以从待检测视频中提取待检测图像集，可以对待检测图像集中的待检测图像进行高亮转化，得到待检测高亮图像，从而可以将待检测高亮图像组成待检测高亮图像集。对于待检测图像进行高亮转化的具体方法，可以参见S205，在此不再赘述。

作为一个示例，可以提取待检测视频中的每一帧作为待检测图像，从而可以将每一帧待检测图像作为待检测图像集中的图像。其中，待检测图像集中的待检测图像可以按照待检测视频中视频帧的时间序列进行排列。从而可以使得待检测高亮图像集中的图像可以按照待检测视频中视频帧的时间序列进行排列，即待检测高亮图像集可以包括按照待检测视频中视频帧的时间序列排列的多个待检测高亮图像。

S803，将所述待检测高亮图像集输入第一目标对象检测模型进行第一目标对象的检测，获取第一数量的第一检测高亮图像。

本说明书实施例中，第一检测高亮图像可以是第一目标对象检测模型输出的检测类型为第一目标对象对应的待检测高亮图像。可以将所述待检测高亮图像集输入第一目标对象检测模型，得到输出结果，该输出结果可以包括分类结果及对应的待检测高亮图像。比如第一目标对象为篮板，分类结果可以包括篮板和非篮板，可以获取篮板对应的待检测高亮图像作为第一检测高亮图像。

在实际应用中，例如第一目标对象检测模型应用于篮球游戏NBA2K的游戏视频中的检测效果，可以如图9所示，检测框定位很准确，检测框与第一目标对象所在的区域重合的比例可以大于0.959。

S805，将所述第一数量的第一检测高亮图像输入第二目标对象检测模型进行第二目标对象的检测，获取第二数量的第二检测高亮图像；其中，第一目标对象和第二目标对象为所述目标事件关联的两个目标对象。

具体方式可以参见上述步骤S803，在此不再赘述。通过该步骤S805，可以获取第二检测高亮图像，也就是对第一检测高亮图像进行筛选，从第一检测高亮图像中，筛选出分类结果为扣篮对应的第一检测高亮图像作为第二检测高亮图像。

在实际应用中，例如第二目标对象检测模型应用于篮球游戏NBA2K的游戏视频中的检测效果，可以如图10所示，检测框定位很准确，该检测框与第二目标对象所在的第二区域的重合比例可以达到0.959～0.999。

S807，基于所述第二数量的第二检测高亮图像和所述待检测高亮图像集，确定目标视频片段。

本说明书实施例中，由于扣篮动作具有持续性，可以将第二检测高亮图像以及与第二检测高亮图像相邻的待检测高亮图像作为目标视频片段。在一种可能的实现方式中，S807可以通过以下步骤实现：

从所述待检测高亮图像集中，获取所述第二检测高亮图像对应的初始高亮图像，所述初始高亮图像包括所述第二检测高亮图像对应的时间序列前面的预设时间内的第一初始高亮图像和/或在所述第二高亮图像对应的时间序列后面的预设时间内的第二初始高亮图像。

本说明书实施例中，预设时间可以为1秒，本申请对此不作限定，可以根据实际要检测的目标事件而设定。在检测到第二检测高亮图像后，由于第二目标对象的连续性，因此为了体现第二目标对象的完整性，可以从待检测高亮图像集中，获取第二检测高亮图像对应的初始高亮图像。例如，获取第二检测高亮图像对应的时间序列之前和/或之后的预设时间内的待检测高亮图像，并可以将所述第二检测高亮图像前面的预设时间内的待检测高亮图像作为第一初始高亮图像；将在所述第二检测高亮图像后面的预设时间内的待检测高亮图像作为第二初始高亮图像。第一初始高亮图像和/或第二初始高亮图像可以作为第二检测高亮图像对应的初始高亮图像。

本说明书实施例中，将所述第二检测高亮图像以及所述初始高亮图像，作为所述目标视频片段。即可以将每一张第二高亮图像以及对应的初始高亮图像，作为目标视频片段，用于视频集锦的生成。

可选地，可以选择第二检测高亮图像对应的时间序列之前第一预设数量的待检测高亮图像和/或对应的时间序列之后第二预设数量的待检测高亮图像。可以将该第一预设数量的待检测高亮和/或该第二预设数量的待检测高亮图像作为目标高亮图像；可以将该目标高亮图像与第二检测高亮图像一起作为目标视频片段。

其中，第一预设数量和第二预设数量可以相同。本申请对此不作限定。

S809，根据所述目标视频片段，生成目标事件的视频集锦。

本说明书实施例中，可以将步骤S807确定的目标视频片段进行合并，生成目标事件的视频集锦，例如扣篮事件的视频集锦，如图11所示。在一个示例中，可以使用跨平台计算机视觉和机器学习软件库或者FFmpeg库的脚本来合并检测出的目标视频片段。该跨平台计算机视觉和机器学习软件库可以包括OpenCV库。

在一种可能的实现方式中，为了提高第二目标对象检测模型检测准确率，可以输入单一尺寸的图像至第二目标对象检测模型以提高检测准确率。并且还可以对第一目标对象检测模型的输出结果(第一检测高亮图像)进行初步验证，可以将验证后、且单一尺寸的第一高亮图像输入第二目标对象检测模型，以提高检测准确率以及降低漏检率。图12示出根据本申请一实施例的视频集锦生成方法的流程图。如图12所示，该方法还可以包括：

S1201，对所述第一数量的第一检测高亮图像进行验证，筛选出第三数量的第一验证高亮图像。

本说明书实施例中，主要是基于检测出的第一目标对象，验证第一检测高亮图像是否包含第二目标对象，将不包含第二目标对象的第一检测高亮图像进行过滤，筛选出第一验证高亮图像。本申请对具体的验证方式不作限定。

在一种可能的实现方式中，待检测高亮图像集可以包括按照所述待检测视频中视频帧的时间序列排列的多个待检测高亮图像。图13示出根据本申请一实施例的所述对所述第一数量的第一检测高亮图像进行验证，筛选出第三数量的第一验证高亮图像的方法流程图。如图13所示，S1201可以包括：

S1301，从所述待检测高亮图像集中，分别获取在每一第一检测高亮图像对应时间序列之前的预设数量的待检测高亮图像作为每一第一检测高亮图像对应的第三高亮图像。

本说明书实施例中，由于待检测高亮图像是按照时间序列排列的，可以先确定每一第一检测高亮图像对应时间序列中的待检测高亮图像，可以获取在每一第一检测高亮图像对应时间序列之前的预设数量的待检测高亮图像作为第三高亮图像，该第三高亮图像与每一第一检测高亮图像对应。该预设数量可以是10帧，本申请对此不作限定。

S1303，确定每一第一检测高亮图像与对应的第三高亮图像的第一交并比值。

本说明书实施例中，可以有效利用待检测高亮图像的时间序列顺序，也就是利用第三高亮图像与第一检测高亮图像的第一交并比值来验证第一检测高亮图像是否包含第一目标对象，比如验证第一检测高亮图像是否是包含篮板的图像。具体地，可以计算每一第一检测高亮图像的检测框与对应的第三高亮图像的检测框的第一交并比值，从而验证第一检测高亮图像是否包含第一目标对象。检测框可以是指第一目标对象检测模型在检测时选择的检测框。

S1305，将所述第一数量的第一检测高亮图像中与对应的第三高亮图像的第一交并比值大于交并比阈值的第一检测高亮图像，作为第二验证高亮图像。

在一个示例中，可以利用下面公式(9)，从第一数量的第一检测高亮图像中，筛选出第一交并比值大于交并比阈值的第二验证高亮图像。其中，以交并比阈值为0.3、预设数量为10为例。

其中，bbox_i为第i个第一检测高亮图像的检测框；bbox_j为第i个第一检测高亮图像对应的第j个第三高亮图像的检测框。

本说明书实施例中，10帧之内，如果存在第一交并比值大于交并比阈值，即存在结果为True时，可以认为对应的第一检测高亮图像为包括第一目标对象的图像。以此类推，对每一个第一检测高亮图像进行这样的验证，从而可以从所述第一检测高亮图像中，筛选出第一交并比值大于交并比阈值的第二验证高亮图像。

S1307，利用霍夫变换算法，检测所述第二验证高亮图像的第一目标对象所在的第一区域是否存在第三目标对象。

本说明书实施例中，第三目标对象可以是与目标事件关联的目标对象。这里利用霍夫变换算法对第三目标对象的验证，是为后续第二目标对象检测模型服务的，对不包含第二目标对象的图像进行初步筛选。霍夫变换算法是一种特征检测，被广泛应用在图像分析、计算机视觉以及数位影像处理中。能够识别任何形状，例如圆形、椭圆形等。

在一个示例中，第三目标对象可以是篮球，第二目标对象可以是扣篮。由于篮球体积较小、图像质量低等问题，神经网络检测篮球容易发生误检。所以选择在第二目标对象检测模型之前，通过对篮球的验证以实现对扣篮检测作初步过滤；并且考虑到整个图像中干扰较多，而篮板区域内干扰较少，比较容易检测，选择检测第一区域是否存在第三目标对象，即篮板区域是否存在篮球，如果存在，则认为图像不包含扣篮动作。基于这些，选择使用霍夫变换来检测篮板区域是否存在篮球，由于篮球为圆形，即可以使用霍夫变换来检测篮板区域是否存在圆形物体。霍夫变换在检测圆形物体时，是在参数空间找聚集点，先检测出圆的边缘，然后沿着边缘画不同半径的圆，如果图像中存在一个圆(需要检测的圆)，必定可以找到一个半径使以边缘为圆心的圆全部相交于该需要检测的圆的圆心。若找不到一个半径使以边缘为圆心的圆全部相交于该需要检测的圆的圆心，则认为图像中没有圆。具体地，可以在边缘上选择预设检测点数量的点，比如图14所示，选择4个检测点。本申请对此不作限定，可以根据需要的检测敏感度来设置该预设检测点数量。

需要说明的是，该步骤使用霍夫变换进行验证，可以根据实际应用的需求选择使用或不使用。在选择使用时，也可以根据实际需要检测物体的形状进行检测。本申请对此均不作限定。

S1309，将不存在第三目标对象的第二验证高亮图像作为所述第一验证高亮图像。

本说明书实施例中，通过霍夫变换算法，将不存在第三目标对象的第二验证高亮图像作为所述第一验证高亮图像，在第二目标对象检测模型之前，可以初步过滤不包含第二目标对象的图像，避免错检和漏检。

S1203，对所述第一验证高亮图像进行尺寸矫正，获取第一高亮图像。

在一种可能的实现方式中，该步骤S1203可以包括：获取第一参考图像的尺寸以及所述第一参考图像中第一目标对象的尺寸；基于所述第一参考图像的尺寸以及所述第一参考图像中第一目标对象的尺寸，矫正所述第一验证高亮图像的尺寸以及所述第一验证高亮图像中第一目标对象的尺寸，得到所述第一高亮图像。

本说明书实施例中，第一参考图像可以是包括第一目标对象的图像，并且，该第一参考图像的尺寸和第一参考图像中第一目标对象的尺寸可以为预先设置的。比如预设设置包括篮板的第一参考图像的尺寸以及篮板的尺寸。

矫正的具体实现方式可以参见S703，在此不再赘述。通过矫正后，不仅矫正后的第一验证高亮图像的尺寸与第一参考图像的尺寸相同，并且，矫正后的第一验证高亮图像中第一目标对象的尺寸、位置与第一参考图像中的第一目标对象的尺寸、位置也相同，即若第一参考图像和第一高亮图像(矫正后的第一验证高亮图像)均以左下角顶点坐标(或者其它顶点坐标)为坐标原点的话，第一参考图像中的第一目标对象的最小外接矩形的四个顶点坐标与第一高亮图像中的第一目标对象的最小外接矩形的四个顶点坐标相同。例如，可以通过对第一验证高亮图像以及所述第一验证高亮图像中第一目标对象进行放大或缩小、水平移动和垂直移动等操作，实现对第一验证高亮图像的尺寸以及所述第一验证高亮图像中第一目标对象的尺寸的矫正，从而得到第一高亮图像。

基于上述的S1201和S1203，在一种可能的实现方式中，将所述第一数量的第一检测高亮图像输入第二目标对象检测模型进行第二目标对象的检测，获取第二数量的第二检测高亮图像，可以包括：S1205，将所述第一高亮图像输入第二目标对象检测模型进行第二目标对象的检测，获取第二数量的第二检测高亮图像。

在一个示例中，第一参考图像可以如图15a；第一验证高亮图像可以如图15b；矫正后的第一验证高亮图像、即第一高亮图像可以如图15c。

图16示出根据本申请一实施例的视频集锦生成方法的流程图。如图16所示，在将所述第一数量的第一检测高亮图像输入第二目标对象检测模型进行第二目标对象的检测，获取第二数量的第二检测高亮图像之后，所述方法还可以包括：

S1601，对所述第二数量的第二检测高亮图像进行验证，筛选出第二高亮图像。

本说明书实施例中，为了进一步避免漏检或错检，可以对第二检测高亮图像进行验证，从而筛选出第二高亮图像。本申请对该具体的验证方式不作限定。

在一种可能的实现方式中，图17示出根据本申请一实施例的所述对所述第二数量的第二检测高亮图像进行验证，筛选出第二高亮图像的方法流程图。如图17所示，S1601可以包括：

S1701，确定所述第二数量的第二检测高亮图像中的第一目标对象所在的第一区域和第二目标对象所在的第二区域。

本说明书实施例中，第一区域和第二区域可以分别通过第一目标对象检测模型的检测框和第二目标对象检测模型的检测框来确定。

S1703，从所述第二数量的第二检测高亮图像中，筛选出第一区域和第二区域的相对位置满足预设条件的第三验证高亮图像。

本说明书实施例中，预设条件可以是预设相对位置，例如，检测扣篮动作时，第一区域可以是篮板区域，第二区域可以是扣篮区域(手臂连接篮筐的区域)。预设条件可以是第二区域在第一区域的中下方。从而可以从第二检测高亮图像中，筛选出第二区域在第一区域的中下方的第二检测高亮图像作为第三验证高亮图像。

S1705，从所述待检测高亮图像集中，分别获取每一第三验证高亮图像之前的预设数量的待检测高亮图像作为每一第三验证高亮图像对应的第四高亮图像；

S1707，确定每一第三验证高亮图像与对应的第四高亮图像的第二交并比值；

S1709，将所述满足预设条件的第三验证高亮图像中与对应的第四高亮图像的第二交并比值大于交并比阈值的第三验证高亮图像，作为第四验证高亮图像。

步骤S1705～S1709的实现方式，可以参见步骤S1301～S1305，在此不再赘述。

S1711，获取所述第四验证高亮图像中第二目标对象所在的第二区域的特征变化值；

S1713，根据所述第二目标对象所在的第二区域的特征变化值和区域特征变化阈值，筛选出所述第二高亮图像。

本说明书实施例中，可以使用现有的区域特征变化测量法来获取第四验证高亮图像中第二目标对象所在的第二区域的特征变化值，例如，可以使用光流法获取第四验证高亮图像中第二区域的特征变化值。以光流法为例，可以利用下面公式(10)～(12)获取特征变化值。

ΔH_RGB＝‖H_RGB(bbox(I_i))-H_RGB(bbox(I_i-1))‖₁ (10)

ΔHOG＝‖HOG(bbox(I_i))-HOG(bbox(I_i-1))‖₁ (11)

其中，H_RGB为RGB直方图计算操作；HOG为HOG(Histogram of Oriented Gradient,方向梯度直方图)特征向量的计算操作；ΔH_RGB和ΔHOG为特征变化值；bbox(I_i)为第i个第四验证高亮图像中第二区域；bbox(I_i-1)为待检测高亮图像中，在所述第i个第四验证高亮图像前一帧的待检测高亮图像中的第二区域；Dunk_val为True表示第二区域验证通过，即扣篮动作验证通过。δ₁和δ₂为区域特征变化阈值，可以根据实际需求设置，本申请不作限定。需要说明的是，可以利用第i个第四验证高亮图像中第二区域的坐标，确定第i个第四验证高亮图像前一帧的待检测高亮图像中的第二区域，即第i个第四验证高亮图像中第二区域的坐标可以与第i个第四验证高亮图像前一帧的待检测高亮图像中的第二区域的坐标相同。

可选地，可以将验证通过的第四验证高亮图像作为第二高亮图像。进一步地，基于所述第二检测高亮图像和所述待检测高亮图像集，确定目标视频片段，可以包括：S1603，基于所述第二高亮图像和所述待检测高亮图像集，确定目标视频片段。具体可以参见S807，在此不再赘述。

通过该特征变化值的验证，在检测扣篮动作时，由于扣篮区域在前后帧之间的变化较大，所以可以有效验证图像中是否存在扣篮动作。

图18示出根据本申请一实施例的视频集锦生成装置的框图。如图18所示，该装置可以包括：

待检测高亮图像集提取模块1801，用于获取待检测视频，从所述待检测视频中提取待检测高亮图像集；

第一检测高亮图像获取模块1803，用于将所述待检测高亮图像集输入第一目标对象检测模型进行第一目标对象的检测，获取第一数量的第一检测高亮图像；

第二检测高亮图像获取模块1805，用于将所述第一数量的第一检测高亮图像输入第二目标对象检测模型进行第二目标对象的检测，获取第二数量的第二检测高亮图像；

目标视频片段确定模块1807，用于基于所述第二数量的第二检测高亮图像和所述待检测高亮图像集，确定目标视频片段；

视频集锦生成模块1809，用于根据所述目标视频片段，生成目标事件的视频集锦；

在一种可能的实现方式中，所述装置还可以包括：

第一验证高亮图像筛选模块，用于对所述第一数量的第一检测高亮图像进行验证，筛选出第三数量的第一验证高亮图像；

第一高亮图像获取模块，用于对所述第一验证高亮图像进行尺寸矫正，获取第一高亮图像；

第二检测高亮图像获取模块1805，还用于将所述第一高亮图像输入第二目标对象检测模型进行第二目标对象的检测，获取第二数量的第二检测高亮图像。

在一种可能的实现方式中，所述待检测高亮图像集可以包括按照所述待检测视频中视频帧的时间序列排列的多个待检测高亮图像，第一验证高亮图像筛选模块，可以包括：

第三高亮图像获取单元，用于从所述待检测高亮图像集中，分别获取在每一第一检测高亮图像对应时间序列之前的预设数量的待检测高亮图像作为每一第一检测高亮图像对应的第三高亮图像；

第一交并比值确定单元，用于确定每一第一检测高亮图像与对应的第三高亮图像的第一交并比值；

第二验证高亮图像获取单元，用于将所述第一数量的第一检测高亮图像中与对应的第三高亮图像的第一交并比值大于交并比阈值的第一检测高亮图像，作为第二验证高亮图像；

第三目标对象检测单元，用于利用霍夫变换算法，检测所述第二验证高亮图像的第一目标对象所在的第一区域是否存在第三目标对象；

第一验证高亮图像筛选单元，用于将不存在第三目标对象的第二验证高亮图像作为所述第一验证高亮图像。

在一种可能的实现方式中，所述第一高亮图像获取模块可以包括：

第一参考尺寸获取单元，用于第一参考图像的尺寸以及所述第一参考图像中第一目标对象的尺寸；

第一高亮图像获取单元，用于基于所述第一参考图像的尺寸以及所述第一参考图像中第一目标对象的尺寸，矫正所述第一验证高亮图像的尺寸以及所述第一验证高亮图像中第一目标对象的尺寸，得到所述第一高亮图像。

在一种可能的实现方式中，所述装置还可以包括：

第二高亮图像筛选模块，用于对所述第二数量的第二检测高亮图像进行验证，筛选出第二高亮图像；

目标视频片段确定模块1807，还用于基于所述第二高亮图像和所述待检测高亮图像集，确定目标视频片段。

在一种可能的实现方式中，第二高亮图像筛选模块还可以包括：

区域确定单元，用于确定所述第二数量的第二检测高亮图像中的第一目标对象所在的第一区域和第二目标对象所在的第二区域；

第三验证高亮图像筛选单元，用于从所述第二数量的第二检测高亮图像中，筛选出第一区域和第二区域的相对位置满足预设条件的第三验证高亮图像；

第四高亮图像获取单元，用于从所述待检测高亮图像集中，分别获取每一第三验证高亮图像之前的预设数量的待检测高亮图像作为每一第三验证高亮图像对应的第四高亮图像；

第二交并比值确定单元，用于确定每一第三验证高亮图像与对应的第四高亮图像的第二交并比值；

第四验证高亮图像获取单元，用于将所述满足预设条件的第三验证高亮图像中与对应的第四高亮图像的第二交并比值大于交并比阈值的第三验证高亮图像，作为第四验证高亮图像；

特征变化值获取单元，用于获取所述第四验证高亮图像中第二目标对象所在的第二区域的特征变化值；

第二高亮图像筛选单元，用于根据所述第二目标对象所在的第二区域的特征变化值和区域特征变化阈值，筛选出所述第二高亮图像。

在一种可能的实现方式中，视频集锦生成模块1809可以包括：

初始高亮图像获取单元，用于从所述待检测高亮图像集中，获取所述第二检测高亮图像对应的初始高亮图像，所述初始高亮图像包括所述第二检测高亮图像对应的时间序列前面的预设时间内的第一初始高亮图像和/或所述第二检测高亮图像对应的时间序列后面的预设时间内的第二初始高亮图像；

目标视频片段确定单元，用于将所述第二检测高亮图像以及所述初始高亮图像，作为所述目标视频片段。

在一种可能的实现方式中，该装置还可以包括：

第二原始图像集获取模块，用于获取所述第二目标对象的原始图像集和第二背景图像集；

增强处理模块，用于对所述第二目标对象的原始图像集中的第二目标对象图像进行增强处理，获取增强处理后的原始图像集；

第二图像集生成模块，用于基于所述增强处理后的原始图像集和所述第二背景图像集，生成第二图像集；其中，所述第二图像集包括第二图像和对应的图像标签；

干扰图像集获取模块，用于对所述第二图像集中的第二图像进行干扰处理，获取干扰图像集；

第二样本训练图像集获取模块，用于对所述干扰图像集中的图像进行高亮转化，得到第二样本训练图像集；

第二目标对象检测模型生成模块，用于基于所述第二样本训练图像集和对应的图像标签，对预设神经网络进行训练，获取所述第二目标对象检测模型。

在一种可能的实现方式中，该装置还可以包括：

第一原始图像集获取模块，用于获取所述第一目标对象的原始图像集和第一背景图像集；

第一图像集生成模块，用于基于所述第一目标对象的原始图像集和所述第一背景图像集，生成第一图像集；其中，所述第一图像集包括第一图像和对应的图像标签；

第一样本训练图像集获取模块，用于对所述第一图像集中的第一图像进行高亮转化，得到第一样本训练图像集；

第一目标对象检测模型生成模块，用于基于所述第一样本训练图像集和对应的图像标签，对预设神经网络进行训练，获取所述第一目标对象检测模型。

关于上述实施例中的装置，其中各个模块和单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

另一方面，本申请提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的各种可选实现方式中提供的视频集锦生成方法。

图19是根据一示例性实施例示出的一种用于视频集锦生成装置1900的框图。例如，装置1900可以被提供为一服务器。参照图19，装置1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述方法。

装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理，一个有线或无线网络接口1950被配置为将装置1900连接到网络，和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作系统，例如Windows ServerTM，MacOS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器1932，上述计算机程序指令可由装置1900的处理组件1922执行以完成上述方法。

本申请可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本申请的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本申请的各个方面。

这里参照根据本申请实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种视频集锦生成方法，其特征在于，所述方法包括：

获取待检测视频，从所述待检测视频中提取待检测高亮图像集；所述待检测高亮图像集是基于色调-饱和度-明度HSV对所述待检测视频中的待检测图像集进行高亮转化得到的；

根据所述目标视频片段，生成目标事件的视频集锦；

2.根据权利要求1所述的方法，其特征在于，在所述将所述待检测高亮图像集输入第一目标对象检测模型进行第一目标对象的检测，获取第一数量的第一检测高亮图像之后，所述方法还包括：

对所述第一数量的第一检测高亮图像进行验证，筛选出第三数量的第一验证高亮图像；

对所述第一验证高亮图像进行尺寸矫正，获取第一高亮图像；

将所述第一数量的第一检测高亮图像输入第二目标对象检测模型进行第二目标对象的检测，获取第二数量的第二检测高亮图像，包括：将所述第一高亮图像输入第二目标对象检测模型进行第二目标对象的检测，获取第二数量的第二检测高亮图像。

3.根据权利要求2所述的方法，其特征在于，所述待检测高亮图像集包括按照所述待检测视频中视频帧的时间序列排列的多个待检测高亮图像，所述对所述第一数量的第一检测高亮图像进行验证，筛选出第三数量的第一验证高亮图像，包括：

从所述待检测高亮图像集中，分别获取在每一第一检测高亮图像对应时间序列之前的预设数量的待检测高亮图像作为每一第一检测高亮图像对应的第三高亮图像；

确定每一第一检测高亮图像与对应的第三高亮图像的第一交并比值；

将所述第一数量的第一检测高亮图像中与对应的第三高亮图像的第一交并比值大于交并比阈值的第一检测高亮图像，作为第二验证高亮图像；

利用霍夫变换算法，检测所述第二验证高亮图像的第一目标对象所在的第一区域是否存在第三目标对象；

将不存在第三目标对象的第二验证高亮图像作为所述第一验证高亮图像。

4.根据权利要求2所述的方法，其特征在于，所述对所述第一验证高亮图像进行尺寸矫正，获取第一高亮图像，包括：

获取第一参考图像的尺寸以及所述第一参考图像中第一目标对象的尺寸；

基于所述第一参考图像的尺寸以及所述第一参考图像中第一目标对象的尺寸，矫正所述第一验证高亮图像的尺寸以及所述第一验证高亮图像中第一目标对象的尺寸，得到所述第一高亮图像。

5.根据权利要求1所述的方法，其特征在于，在将所述第一数量的第一检测高亮图像输入第二目标对象检测模型进行第二目标对象的检测，获取第二数量的第二检测高亮图像之后，所述方法还包括：

对所述第二数量的第二检测高亮图像进行验证，筛选出第二高亮图像；

基于所述第二检测高亮图像和所述待检测高亮图像集，确定目标视频片段，包括：基于所述第二高亮图像和所述待检测高亮图像集，确定目标视频片段。

6.根据权利要求5所述的方法，其特征在于，所述对所述第二数量的第二检测高亮图像进行验证，筛选出第二高亮图像，包括：

确定所述第二数量的第二检测高亮图像中的第一目标对象所在的第一区域和第二目标对象所在的第二区域；

从所述第二数量的第二检测高亮图像中，筛选出第一区域和第二区域的相对位置满足预设条件的第三验证高亮图像；

从所述待检测高亮图像集中，分别获取每一第三验证高亮图像之前的预设数量的待检测高亮图像作为每一第三验证高亮图像对应的第四高亮图像；

确定每一第三验证高亮图像与对应的第四高亮图像的第二交并比值；

将所述满足预设条件的第三验证高亮图像中与对应的第四高亮图像的第二交并比值大于交并比阈值的第三验证高亮图像，作为第四验证高亮图像；

获取所述第四验证高亮图像中第二目标对象所在的第二区域的特征变化值；

根据所述第二目标对象所在的第二区域的特征变化值和区域特征变化阈值，筛选出所述第二高亮图像。

7.根据权利要求1所述的方法，其特征在于，所述待检测高亮图像集包括按照所述待检测视频中视频帧的时间序列排列的多个待检测高亮图像，所述基于所述第二检测高亮图像和所述待检测高亮图像集，确定目标视频片段，包括：

从所述待检测高亮图像集中，获取所述第二检测高亮图像对应的初始高亮图像，所述初始高亮图像包括所述第二检测高亮图像对应的时间序列前面的预设时间内的第一初始高亮图像和/或所述第二检测高亮图像对应的时间序列后面的预设时间内的第二初始高亮图像；

将所述第二检测高亮图像以及所述初始高亮图像，作为所述目标视频片段。

8.根据权利要求1所述的方法，其特征在于，还包括：

获取所述第二目标对象的原始图像集和第二背景图像集；

对所述第二目标对象的原始图像集中的第二目标对象图像进行增强处理，获取增强处理后的原始图像集；

基于所述增强处理后的原始图像集和所述第二背景图像集，生成第二图像集；其中，所述第二图像集包括第二图像和对应的图像标签；

对所述第二图像集中的第二图像进行干扰处理，获取干扰图像集；

对所述干扰图像集中的图像进行高亮转化，得到第二样本训练图像集；

基于所述第二样本训练图像集和对应的图像标签，对预设神经网络进行训练，获取所述第二目标对象检测模型。

9.根据权利要求1所述的方法，其特征在于，还包括：

获取所述第一目标对象的原始图像集和第一背景图像集；

基于所述第一目标对象的原始图像集和所述第一背景图像集，生成第一图像集；其中，所述第一图像集包括第一图像和对应的图像标签；

对所述第一图像集中的第一图像进行高亮转化，得到第一样本训练图像集；

基于所述第一样本训练图像集和对应的图像标签，对预设神经网络进行训练，获取所述第一目标对象检测模型。

10.一种视频集锦生成装置，其特征在于，包括：

待检测高亮图像集提取模块，用于获取待检测视频，从所述待检测视频中提取待检测高亮图像集；所述待检测高亮图像集是基于色调-饱和度-明度HSV对所述待检测视频中的待检测图像集进行高亮转化得到的；

11.一种视频集锦生成设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令以实现权利要求1至9中任意一项所述的方法。

12.一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至9中任意一项所述的方法。