CN112990159B

CN112990159B - 视频感兴趣片段截取方法、电子设备和存储介质

Info

Publication number: CN112990159B
Application number: CN202110531257.XA
Authority: CN
Inventors: 许大政; 刘长赛
Original assignee: Tsing I Beijing Technology Co ltd
Current assignee: Tsing I Beijing Technology Co ltd
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2021-09-24
Anticipated expiration: 2041-05-17
Also published as: CN112990159A

Abstract

根据本公开的示例实施例，提供了一种基于神经网络的视频感兴趣片段截取方法，包括：确定待处理视频中的第一和第二特定区域，这两个区域分别具有固定不变的且彼此不同的位置；利用用于检测的第一神经网络，获取数量不定的多个目标的多个第一边界框；响应于在某一帧识别到多个第一边界框中的一个第一边界框首次出现在第一特定区域内，将相应的目标设定为待跟踪的单目标，该帧视为第一帧；利用该一个第一边界框对用于单目标跟踪的第二神经网络的第二边界框进行初始化且在第一帧中跟踪单目标；利用第二神经网络或第一和第二神经网络两者，对单目标进行跟踪；响应于第二边界框出现在第二特定区域中，结束跟踪；以及基于跟踪结果，对待处理视频进行截取。

Description

视频感兴趣片段截取方法、电子设备和存储介质

技术领域

本公开的实施例主要涉及基于神经网络的视频感兴趣片段截取方法，并且更具体地，涉及用于基于神经网络的视频感兴趣片段截取方法、电子设备和计算机可读存储介质。

背景技术

在体育行业，教练员和运动员通常需要通过视频来回看自己的运动动作，一般情况下需要在训练场地安装一个摄像头来对体育运动进行采集，这种采集一般是在不中断的情况下自动进行的。但是教练员一般只对进行特定训练的视频片段感兴趣，一般需要教练员手动截取其所感兴趣的片段，或者拖动播放条来选择感兴趣的片段。这种手动操作无疑很麻烦，且不具备可复制性。

此外，在体育场馆中，通常摄像头并非对于一个运动员的训练而安装的，由于训练器材的摆放问题，该摄像头可能对多个运动员的运动进行采集。在所采集的视频中，存在多个运动员，这些运动员的训练服装和动作可能不同，也可能是类似的。在摄像机的视角下，多个运动员的运动视频中可能造成严重遮挡、动作变形大和光照发生变化等一些列问题。

在这种情况下，存在对多个类似运动员中的一个特定运动员进行识别和跟踪的需求，这些类似运动员都进行变形很大的运动，且需要对包括感兴趣动作的视频片段进行截取。

发明内容

为了解决现有技术中的上述问题中的至少一个方面，本发明提出了一种基于神经网络的视频感兴趣片段截取方法，该方法能够通过对待处理视频进行处理，而从待处理视频中自动截取出感兴趣的片段。

根据本公开的第一方面，提供了一种基于神经网络的视频感兴趣片段截取方法，包括：确定待处理视频的图片序列中的第一特定区域和第二特定区域，第一特定区域和第二特定区域在待处理视频所包含的所有图片中分别具有固定不变的位置，且第一特定区域不同于第二特定区域；利用用于检测的第一神经网络，获取待处理视频中的多个目标的多个第一边界框，多个目标随着时间具有变化的数量；响应于在某一帧识别到多个第一边界框中的一个第一边界框首次出现在第一特定区域内，将一个第一边界框对应的目标设定为单目标，且将待处理视频的该帧作为第一帧；利用所识别的一个第一边界框对用于单目标跟踪的第二神经网络的第二边界框进行初始化且利用初始化的第二边界框在第一帧中跟踪单目标；利用第二神经网络或者第一神经网络和第二神经网络两者，在待处理视频的第一帧之后的剩余帧中对所出现的单目标进行跟踪；在剩余帧中，响应于第二神经网络所预测的第二边界框出现在第二特定区域中，结束跟踪且基于跟踪结果，对待处理视频的单目标被跟踪片段进行截取。

在本公开的一些实施例中，利用第二神经网络，在待处理视频的第一帧之后的剩余帧中对所出现的单目标进行跟踪包括：在待处理视频的第一帧之后的剩余帧的每一帧中，通过利用第二神经网络预测单目标的第二边界框，而对所出现的单目标进行跟踪。

在本公开的一些实施例中，利用第一神经网络和第二神经网络两者，在待处理视频的第一帧之后的剩余帧中对所出现的单目标进行跟踪包括针对当前帧执行如下操作：利用第一神经网络，获取单目标的第一边界框；利用第二神经网络，获取单目标的第二边界框；将单目标的第一边界框与基准框进行比较，以得到第一差值；将单目标的第二边界框与基准框进行比较，以得到第二差值；以及基于第一差值、第二差值和基准框，获取单目标的针对当前帧的跟踪框；以及基于针对当前帧的跟踪框，对当前帧的单目标进行跟踪，其中，第一帧中的跟踪框为被初始化的第二边界框，且基准框是在当前帧的前一帧的跟踪框。

在本公开的一些实施例中，利用第一神经网络和第二神经网络两者，在待处理视频的第一帧之后的剩余帧中对所出现的单目标进行跟踪包括针对当前帧执行如下操作：利用第一神经网络，获取单目标的第一边界框；利用第二神经网络，获取单目标的第二边界框；将单目标的第一边界框与基准框进行比较，以得到第一差值；将单目标的第二边界框与基准框进行比较，以得到第二差值；基于第一差值、第二差值和基准框，获取单目标的针对当前帧的跟踪框；以及基于针对当前帧的跟踪框，对当前帧的单目标进行跟踪，其中，基准框为针对当前帧的跟踪框预测框，其中基于前一帧的跟踪框，获取针对当前帧的跟踪框预测框，以及第一帧的跟踪框为被初始化的第二边界框，且第二帧的跟踪框预测框也设定为被初始化的第二边界框。

在本公开的一些实施例中，基于前一帧的跟踪框，获取针对当前帧的跟踪框预测框包括：针对第二帧：将初始化的第二边界框设定为第一帧的跟踪框和第二帧的跟踪框预测框。基于前一帧的跟踪框，获取针对当前帧的跟踪框预测框还包括：针对从第三帧开始的每一帧：计算当前帧之前的两个帧的跟踪框之间的第三差值；以及对当前帧的前一帧的跟踪框和第三差值进行求和，获取针对当前帧的跟踪框预测框。

在本公开的一些实施例中，基于第一差值、第二差值和基准框，获取单目标的针对当前帧的跟踪框包括：响应于第一差值小于阈值且第二差值大于阈值，将第一边界框设定为当前帧跟踪框；或响应于第一差值大于阈值且第二差值小于阈值，将第二边界框设定为当前帧的跟踪框；或响应于第一差值大于阈值且第二差值大于阈值，将基准框设定为当前帧跟踪框；或响应于第一差值小于阈值且第二差值小于阈值，对第一边界框和第二边界框进行加权，以得到当前帧跟的踪框。

在本公开的一些实施例中，利用第一神经网络，获取单目标的第一边界框包括：利用第一神经网络，获取待处理视频中的多个目标的多个第一边界框；将多个第一边界框与基准框进行比较，获取与基准框最近的第一边界框作为单目标的第一边界框。

在本公开的一些实施例中，利用第一神经网络，获取单目标的第一边界框包括：针对当前帧，利用第一神经网络，对待处理视频中的多个目标中的每个目标赋予一种类别和一个第一边界框；响应于第一神经网络没有获取所述单目标的类别和第一边界框，将所述基准框定义为所述单目标的针对当前帧的第一边界框。

在本公开的第二方面，提供一种电子设备，包括：处理器；以及与所述处理器耦合的存储器，所述存储器具有存储于其中的指令，所述指令在被处理器执行时使所述设备执行动作。所述动作包括：确定待处理视频的图片序列中的第一特定区域和第二特定区域，所述第一特定区域和第二特定区域在所述待处理视频所包含的所有图片中分别具有固定不变的位置，且第一特定区域不同于第二特定区域；利用用于检测的第一神经网络，获取待处理视频中的多个目标的多个第一边界框，所述多个目标随着时间具有变化的数量；响应于在某一帧识别到多个第一边界框中的一个第一边界框首次出现在第一特定区域内，将所述一个第一边界框对应的目标设定为所述单目标，且将待处理视频的该帧作为第一帧；利用所识别的一个第一边界框，对用于单目标跟踪的第二神经网络的第二边界框进行初始化且利用初始化的第二边界框在第一帧中跟踪所述单目标；利用第二神经网络或者利用第一神经网络和第二神经网络两者，在待处理视频的第一帧之后的剩余帧中对所出现的单目标进行跟踪；以及在所述剩余帧中，响应于第二神经网络所预测的第二边界框出现在第二特定区域中，结束跟踪且基于跟踪结果，对待处理视频的单目标被跟踪片段进行截取。

在本公开的第三方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的第一方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素。

图1A和图1B示出了本公开的多个实施例能够在其中实现的示例环境的示意图。

图2示出了根据本公开的一些实施例的视频感兴趣片段截取方法的过程的流程图。

图3示出了根据本公开的一些实施例的利用第一神经网络和第二升级网络以及初始化结果对单目标进行跟踪的一个示例的示意图。

图4示出了根据本公开的一些实施例的利用第一神经网络和第二升级网络以及初始化结果对单目标进行跟踪的另一示例的示意图。

图5A-5C示出了示出了针对某一帧的多个目标的示例性第一边界框。

图6示出了能够实施本公开的多个实施例的计算设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

以下将参照附图来具体描述本公开的实施例。

在以下具体实施方式中，参考了附图，附图形成本文的一部分，并且在附图中通过图示的方式示出了其中可以实践本发明的具体实施例。应当理解，在不脱离本发明的范围的情况下，可以利用其他实施例并且可以进行结构或逻辑的改变。因此，以下具体实施方式不应被视为具有限制意义，并且本发明的范围由所附权利要求限定。应当理解，除非另外特别指出，否则本文所述的各种示例性实施例的特征可以彼此组合。

图1A和图1B示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。示例环境100中的计算设备102可以是任何具有计算能力的设备。作为非限制性示例，计算设备102可以是任意类型的固定计算设备、移动计算设备或便携式计算设备，包括但不限于台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、多媒体计算机、移动电话等；计算设备102的全部组件或一部分组件可以分布在云端。

在该示例环境100中，如图1A所示，计算设备102包括或部署有检测模块103、跟踪模块104。下文相对于计算设备102描述的动作具体可以由检测模块103、跟踪模块104执行。

检测模块103可以被配置为从待处理视频中检测到多个目标。在一个实施例中，该检测模块103可以通过yolo-v5等检测用神经网络来实现。通常在一个视频的图像中，存在多个目标，这些目标中中的一些或全部能够被检测模块103检测到，该检测模块103可以对每个对象提供一个检测框，该检测框在每张图片上都具有像素坐标。在蹦床训练管的示例场景中，摄像机的位置固定，并且蹦床相对于摄像机的位置也是固定不变的。在另一示例场景中，摄像机拍摄整个花样滑冰运动场，摄像机固定，那么滑冰场入口的位置在所拍摄的视频的所有图片中都是固定不变的。

在将待处理视频输入到检测用神经网络中之后，检测模块103可以对视频中的所有目标或一部分对象进行检测，例如对运动员、工作人员和教练（他们都属于人类）进行检测，该检测不特定于某一个运动员。因此，仅仅利用检测模块103无法实现对某个特定运动员的检测和跟踪。

在蹦床的示例场景中，一般需要识别到离摄像机最近的那个蹦床上的运动员，并且对该运动员进行跟踪，然后基于跟踪的结果对运动员运动时的视频进行截取，而不存储没有运动员进行运动时的视频。在其他运动场景中，可能也需要对特定的运动员的一段时间的运动进行跟踪，例如对跳水、滑冰、球类运动、田径、体操等运动中的某一个运动员在进行相关训练时进行跟踪并且将他们进行运动时的视频截取下来。

为了对某个位置上（例如离摄像机最近的一个蹦床）的运动员进行检测且截取该运动员的视频，首先需要对某个位置（即，第一特定区域）进行设定。该第一特定区域的四个边长具有特定的像素坐标，在多个目标中的一个目标的检测框的底边位置（框的下边缘的像素坐标）落入到该第一特定区域之内时，可以确定检测到有一个目标对象进入到第一特定区域。在蹦床的示例场景中，将离摄像机最近的一个蹦床的网面区域设定为上述的第一特定区域。在摄像机的光轴垂直于蹦床的纵向长度的情况下，将网面区域的纵向的左右两边的区域和蹦床网面以下的区域设定为第二特定区域。网面的左右两边一般是运动员不慎跳落到网面以外的情况下所达到的区域，网面竖直方向下面的区域一般是运动员结束训练从蹦床上下来所经过的区域。也就是在计算机的视野中，将运动员在正常运动过程中无法到达的区域设定为第二特定区域。在所有运动员的多个检测框中的一个检测框的下边缘首次进入到该第一特定区域之内时，可以确定一个运动员进入到第一个蹦床（即离摄像机最近的一个蹦床）的网面上。在进行此检测时，可以对检测到的关键帧前后连续的多帧进行判定，以判定该运动员最终站立在蹦床的网面上，以避免出现某一帧检测框的下边缘在蹦床的网面区域中，而下一帧已经从蹦床上下去或者进入到蹦床的其他无关区域，例如运动员先站立到蹦床的网面上，但是在很短的一段之后，又从蹦床上下去的情况是不需要对运动员进行跟踪和对该视频进行截取的。

在花样滑冰的示例场景中，可以将冰场的入口设定为第一特定区域，且将冰场以外的区域设定为第二特定区域，该第二特定区域是运动员运动过程中无法到达的区域。在单人滑冰的情况下，在运动员首次进入冰场的入口之后，确定目标已经进入到第一特定区域，开启跟踪模式。在运动员离开冰场进入冰场以外的区域之后，确定运动员要结束训练，从而结束跟踪模式。在其他未列出的运动场景中，都可以采用类似的方法来设定第一特定区域和第二特定区域。例如，在跳远运动中，可以将助跑跑道设定为第一特定区域，并且将沙坑的远端边缘附近的区域设定为第二特定区域。

为了实现对特定目标的跟踪，根据本公开的实施例还包括跟踪模块104。跟踪模块104可以被配置为在待处理视频的多个图片中跟踪到单个特定对象。在本公开的一个实施例中，该跟踪模块104可以通过SOT（单目标跟踪模型）来实现。单目标跟踪神经网络的跟踪框往往需要被初始化，为了便于仅仅对与第一特定区域相关的单目标进行跟踪，可以将上述识别的初次进入到第一特定区域（例如，蹦床的网面）的特定目标的检测框作为第二神经网络的被初始化的第二边界框，从而在该帧中，跟踪到该特定目标。单目标跟踪模块104在待处理视频的每一帧中都可以为单目标预测一个第二边界框，因此在第一帧之后的每一帧中，基于所提议的第二边界框，可以对该帧中的单目标进行跟踪。

在示例的场景中，蹦床上的运动员在站立在网面上之后，会进行一些蹦跳动作。在结束这些动作之后，运动员会离开第一个蹦床，那么此时第二神经网络所提议的第二边界框的底边像素将进入第二特定区域，此时结束跟踪模式。基于跟踪的结果，也就是基于跟踪的起始时间点，可以将待处理视频中的运动员进入第一特定区域至运动员进入第二特定区域的时间段截取下来。在其他的运动场景中，也可以采用第二神经网络所提议的第二边界框和第二特定区域的关系来结束跟踪。例如，在跳远运动场景中，将助跑跑道的起始位置设定为第一特定区域，将沙坑的远端设定为第二特定区域，在运动员进入第一特定区域时，开始跟踪；在运动员离开第二特定区域时，结束跟踪。

在另一实施例中，在上述的示例场景中，在空中翻腾期间，会做出屈体、展体、团体等一些列动作。在进行这些运动时，身体发生形变，因此跟踪框（一般为矩形跟踪框）的长宽都进行变化。例如在展体（身体基本上展开成一条直线）时，跟踪框的长度最大，且大于宽度。在团体（即大腿贴合到前胸，大腿与小腿贴合）期间，该跟踪框的长度和宽度大致相等。在屈体（大腿贴合前胸，大腿和小腿基本在一条直线上）期间，跟踪框的长度大于宽度。在上述的示例场景中，运动员进入到蹦床网面之后，会先进行一些预热活动，例如身体直立在网面上上下蹦跳，该上下蹦跳等预热活动一般是教练员不感兴趣的运动，一般教练员仅仅对起跳、团体、展体和屈体等动作感兴趣。为了识别到上述感兴趣的运动，在根据本公开的一个实施例中，根据跟踪框的长宽变化，可以识别到运动员在进行变形较大的运动，也就是实现对感兴趣动作的识别。通过该识别方法，不需要采用耗时验证的行为/动作识别方面的模型来判断运动员的动作。

通过上述的检测模块103和跟踪模块104的配合，在所拍摄的视频中，如果单目标与背景场景或人物存在较大的差异，也就是特征差异较大时，通过利用检测模块103所提议的检测框对跟踪模块104的跟踪框进行初始化，之后利用跟踪模块104即可准确地跟踪到所需要跟踪的单目标。

在跟踪模块104准确地跟踪到单目标的前提下，计算设备102通过跟踪的起始时间点，能够截取在起始时间点之间的视频片段。

在一些干扰较多的场景下，一个摄像机能够拍摄多个运动场地（例如体操馆中的多个蹦床上）上的多个运动员，辅助人员和教练员等。例如，多个蹦床在摄像机的视野中并排排列，摄像机可以看见多个运动员的侧面运动情况，这些运动员的衣着和动作都是类似的，且位置上挨得很近，因此这些运动员的特征类似，或者在出现严重遮挡和光照发生变化等情况时，那么该跟踪模块104也可能出现跟踪不到特定对象或者跟踪错误的情况。

为了解决上述问题，如图1B所示，根据本公开的实施例的实例环境还包括一个比较模块105。该比较模块将第一神经网络所预测的单目标的第一边界框与前一帧的跟踪框进行比较，以得到第一差值；且将第二神经网络所预测的单目标的第二边界框与前一帧的跟踪框进行比较，以得到第二差值。当前帧的跟踪框根据如下将详细描述的方式来确定，前一帧的跟踪框也根据如下将详细描述的方式来确定。在对当前帧的下一帧的跟踪框进行确定时，当前帧的跟踪框将作为称为比较基准的基准框。

上述的比较是距离比较（DIOU），也就是将第一边界框或第二边界框的像素坐标（例如中心坐标）与前一帧所确定的跟踪框的像素坐标（例如中心坐标）进行比较。该比较也可是交联比较（IOU），例如计算第一边界框或第二边界框与前一帧所确定的跟踪框的面积的交集。在第一差值小于阈值且第二差值大于阈值的情况下，将第一边界框设定为当前帧跟踪框。也就是说，在这种情况下，第一边界框更加靠近前一帧的跟踪框，而第二神经网络所预测的第二边界框在此刻可能是错误的，其可能跟踪到了其他的目标对象，而非上一帧的运动目标对象。在第一差值大于阈值且第二差值小于阈值，将第二边界框设定为当前帧跟踪框。也就是说，在这种情况下，第二边界框更加靠近前一帧的跟踪框，而第一神经网络所预测的第一边界框在此刻可能是错误的，其可能检测到了其他的目标对象，而非上一帧的运动目标对象。在第一差值大于阈值且第二差值大于阈值的情况下，将前一帧的跟踪框设定为当前帧跟踪框。也就是说，在这种情况下，第一边界框和第二边界框都远离前一帧的跟踪框，第一神经网络所预测的第一边界框和第二神经网络所预测的第二边界框在此刻可能都是错误的，其可能识别到了其他的目标对象，而非上一帧的运动目标对象。在第一差值小于阈值且第二差值小于阈值，对第一边界框和第二边界框进行加权，以得到当前帧跟踪框。也就是说，在这种情况下，第一边界框和第二边界框都靠近前一帧的跟踪框，第一神经网络所预测的第一边界框和第二神经网络所预测的第二边界框在此刻可能是正确的。如果判定第一边界框更加靠近前一帧的跟踪框，则对第一边界框赋予更大的权重。

通过比较模块105所执行的上述操作，能够基于上一帧的跟踪框来判定当前帧的第一边界框和第二边界框是否是正确的。也就是对当前帧的跟踪结果施加时间序列上的约束，从而在第一神经网络出现检测错误和第二神经网络出现跟踪错误时，能够对错误的结果进行更正。因此，在遮挡较为严重、各个目标对象类似且光线变化剧烈的情况下，也能够对单目标实现较好的跟踪。

在一些特殊的运动场景中，例如高速的运动场景中，或者在摄像机的帧率较低的情况下，运动员在前后两帧中的位置会出现很大的变化。在该情况下，需要另外一种比较方法。

在该比较方法中，比较模块105将针对第一帧执行如下的操作：，利用初始化的第二边界框，检测到第一帧中的单目标且将初始化的第二边界框作为第一帧的跟踪框。

在该比较方法中，比较模块105还针对第二帧执行如下的操作：将第一帧的跟踪框设置为针对当前帧（即第二帧）的跟踪框预测框；利用第一神经网络，获取单目标的第一边界框；利用第二神经网络，获取单目标的第二边界框；将单目标的第一边界框与针对当前帧的跟踪框预测框进行比较，以得到第一差值；将单目标的第二边界框与针对当前帧的跟踪框预测框进行比较，以得到第二差值；以及基于第一差值、第二差值和针对当前帧的跟踪框预测框，获取单目标的针对当前帧（即第二帧）的跟踪框；以及基于针对当前帧的跟踪框，对当前帧的单目标进行跟踪。

在该比较方法中，比较模块105还针对从第三帧开始的每一帧执行如下的操作：基于前一帧的跟踪框计算针对当前帧的跟踪框预测框；利用第一神经网络，获取单目标的第一边界框；利用第二神经网络，获取单目标的第二边界框；将单目标的第一边界框与针对当前帧的跟踪框预测框进行比较，以得到第一差值；将单目标的第二边界框与针对当前帧的跟踪框预测框进行比较，以得到第二差值；基于第一差值、第二差值和针对当前帧的跟踪框预测框，获取单目标的针对当前帧的跟踪框；以及基于针对当前帧的跟踪框，对当前帧的单目标进行跟踪。基于前一帧的跟踪框计算针对当前帧的跟踪框预测框包括：计算当前帧之前的两个帧的跟踪框之间的第三差值，该差值可是跟踪框的中心的像素坐标的差值；以及对当前帧的前一帧的跟踪框和第三差值进行求和，获取针对当前帧的跟踪框预测框。例如，当前帧之前的一帧的跟踪框的中心的坐标为（x1，y1），当前帧之前的两帧的跟踪框的中心的坐标为（x2，y2），则当前帧跟踪框预测框的中心坐标（x，y）通过如下的公式来计算：

x=x1 +（x1-x2）

y= y1 +（y1-y2）

由于第三差值（x1-x2）以及（y1-y2）与运动的速度相关，因此当前帧的跟踪框预测框也与运动速度相关。因此，即使在高速运动的场景下也能够准确地预测针对当前帧的跟踪框。

以下将参考图2来描述根据本公开的实施例的基于神经网络的视频感兴趣片段截取方法。

如图2所示，该基于神经网络的视频感兴趣片段截取的方法200包括：步骤201）确定待处理视频的图片序列中的第一特定区域和第二特定区域。该第一特定区域和第二特定区域在待处理视频所包含的所有图片中分别具有固定不变的位置，且第一特定区域不同于第二特定区域。在一般的训练场馆中，摄像机都安装在固定的位置，在预设的视角和焦距下，拍摄在特定的训练器材或场地上进行训练的运动员的运动。因此，视频中的训练器材或场地的位置相对于摄像机而言一般都是固定不动的，因此一般可以将进入训练必经的特定位置设定为第一特定区域，并且将离开训练必经的位置设定为第二特定区域。

如图2所示，该方法还包括：步骤202）利用用于检测的第一神经网络，获取待处理视频中的多个目标的多个第一边界框。多个目标随着时间具有变化的数量。在一般的运动场景中，不可能只存在一个人，可能在一个时刻仅包括运动员，但是在下一时刻可能包括运动员、教练员和辅助工作人员等多种身份的人员。因此，用于检测的神经网络可以检测到训练场地上的多个人。该方法还包括：步骤203）判定在第一特定区域内是否首次出现第一边界框。如果判定结果为是，则过程进行到步骤204，将一个第一边界框对应的目标设定为待跟踪的单目标，且将待处理视频的该帧作为第一帧。如果判定结果为否，则过程返回到步骤202。在步骤203中，如果一个被检测到的检测框首次出现在第一特定区域，这表明该检测框所对应的运动员将要开始进行训练。因此，可以将该帧作为待截取的视频的第一帧。

如图2所示，该方法还包括：步骤205）利用所识别的一个第一边界框对用于单目标跟踪的第二神经网络的第二边界框进行初始化且利用初始化的第二边界框在第一帧中跟踪单目标。用于单目标跟踪的神经网络通常需要指定待被跟踪的目标，通过使用所识别的进入第一特定区域的边界框对个跟踪网络的跟踪目标进行初始化，能够准确地定义跟踪模式的起始时间以及自动地指定需要被跟踪的目标对象。该方法还包括：步骤206）利用第二神经网络或第一和第二神经网络两者，在待处理视频的第一帧之后的剩余帧中对所出现的单目标进行跟踪。该方法还包括：步骤207）判定在第二特定区域中是否出现第二边界框。如果判定结果为是，则过程进行到步骤208）结束跟踪且基于跟踪结果，对待处理视频的单目标被跟踪片段进行截取，如果判定结果为否，则过程返回到步骤206，以继续进行跟踪模式。该第二特定区域一般是运动员在运动的过程中无法到达的区域，因此一旦运动员进入到第二特定区域，且表明运动已经结束，且可以结束跟踪模式，基于跟踪的起始时间和结束时间，能够对待处理视频进行截取。

在一些示例性的训练场景中，例如在摄像机的视野中，在同一时刻仅一个人进行训练的情况下，例如在单人跳水、单人滑冰、单人蹦床等的情况下，在此情况下可以存在其他辅助人员，但这些辅助人员不进行类似的训练，待跟踪的人员与其他人员的特征差异较大，仅利用第二神经网络即可对单目标进行跟踪。在这些单人训练的场景中，通过规定该特定场景中的特定区域，且通过利用检测用神经网络来检测进入到该特定区域中的人员，来对需要跟踪的对象进行初始化，也就是初始化第二跟踪用神经网络的第一帧的第二边界框。在只有一个运动员进行训练的情况下，即使存在一些辅助人员和教练员等人员，由于在第一帧中已经对所需要跟踪的对象进行了初始化，且该单个运动员和上述人员也存在较大的区别，仅利用该用于单目标跟踪的第二神经网络也能够在视频的图片序列的每个图片中准确预测待跟踪的单目标的边界框，进而根据所预测的第二边界框能够对该单目标进行跟踪。

在一些干扰较多的场景下，一个摄像机能够拍摄多个运动场地（例如体操馆中的多个蹦床上）上的多个运动员，辅助人员和教练员等。例如，多个蹦床在摄像机的视野中并排排列，摄像机可以看见多个运动员的侧面运动情况，这些运动员的衣着和动作都是类似的，且位置上挨得很近，因此这些运动员的特征类似，或者在出现严重遮挡和光照发生变化等情况时，用于单目标跟踪的第二神经网络可能没有跟踪到需要跟踪的第一个蹦床上的运动员，而是跟踪到了第二个蹦床上的进行类似运动的运动员。在另一实例场景中，在两个运动员进行类似的且基本同时的跳水运动时，用于单目标跟踪的第二神经网络的跟踪对象也可能出现错误。如图3所示的示例流程采用第一和第二神经网络两者来解决这个问题，以下将参考图3来说明基于初始化的第二边界框以及第一和第二神经网络，对单目标进行跟踪的一示例性流程。

如图3所示，基于所初始化的第二边界框且利用第一和第二神经网络，在待处理视频的第一帧之后的剩余帧中对所出现的单目标进行跟踪的过程300包括：步骤301）利用第一神经网络，获取单目标的第一边界框。对所出现的单目标进行跟踪还包括：步骤302）利用第二神经网络，获取单目标的第二边界框；步骤303）将单目标的第一边界框与前一帧的跟踪框进行比较，以得到第一差值；步骤304）将单目标的第二边界框与前一帧的跟踪框进行比较，以得到第二差值；以及步骤305）基于第一差值、第二差值和前一帧的跟踪框，获取单目标的针对当前帧的跟踪框；以及步骤306）基于针对当前帧的跟踪框，对当前帧的单目标进行跟踪。

在该示例中，第一帧中的跟踪框被设定为被初始化的第二边界框，也就是说在第一帧中，利用所检测到的第一边界框来初始化第二边界框，且基于被初始化的第二边界框，对该第一帧中的单目标进行跟踪。在第二帧中，所定义的前一帧跟踪框即为该被初始化的第二边界框，在第二帧中所识别的第一边界框和第二边界框都与该被初始化的第二边界框进行对比，以得到第一差值和第二差值。在第三帧中，所定义的前一帧跟踪框即为针对第二帧的跟踪框。因此，在该实施例中，后一帧的跟踪框都基于与前一帧的跟踪框的比较而获得，而不仅仅依靠跟踪用神经网络所预测的边界框来确定被跟踪的目标，因此能够进一步提高跟踪的准确度。在如图3所示的示例流程中，如详细描述的，通过在每个运动员的运动图片序列中施加一些时间上的约束条件，能够很好地解决在跟踪对象较多、遮挡严重且基本类似的情况下出现的跟踪错误问题。

在用于检测的神经网络（即第一神经网络）能够准确地预测待跟踪单目标的第一边界框的情况下，步骤301可以包括如下的操作：利用第一神经网络，获取待处理视频中的多个目标的多个第一边界框；将多个第一边界框与前一帧的跟踪框进行比较，获取与前一帧的跟踪框最近的第一边界框作为单目标的第一边界框。本领域的技术人员应当理解，前一帧的跟踪框也根据与获取当前帧的跟踪框类似的方法获得。

在一些场景下，在两个相似的运动员靠近且在摄像机的视野中出现一定重叠的情况下，或者在待跟踪运动员被其他事物遮挡而无法被检测到，用于检测的神经网络很可能将所需要的单目标（例如离摄像机较近的运动员）漏检。在这种情况下，用于检测的神经网络检测到与该单目标靠近的不需要被跟踪的运动员且预测出第一边界框，并且将该第一边界框作为待跟踪对象的边界框，这显然是不合理的。为了解决上述的问题，步骤301可以执行如下的操作：针对当前帧，利用第一神经网络，对待处理视频中的多个目标中的每个目标赋予一种类别和一个第一边界框；响应于第一神经网络没有获取所述单目标的类别和第一边界框，将所述基准框定义为所述单目标的针对当前帧的第一边界框。

为了更加详细地解释第一神经网络所执行的对目标进行分类和预测边界框的操作，如下将参考图5A至5C来进行说明。

图5A至5C示出了针对某一帧的多个目标的示例性第一边界框。如图5A所示，框50表示待跟踪单目标的前一帧的跟踪框或者当前帧的跟踪框预测框，框51表示人眼观察到的当前帧待跟踪单目标的第一边界框，框52表示人眼观察到的当前帧不需跟踪的目标的第一边界框。在如图5A所示的场景中，框51和框52出现一定面积的遮挡，框51和框52都归属于“1”类。但是在其他示例场景中，框51和框52也可能不存在遮挡而是相距很远，但是它们也都归属于“1”类。如图5A所示，框52与框51的距离或重叠面积明显小于框51与框50的距离或重叠面积。如果将框52预测为待跟踪单目标的第一边界框，那么显然出现误检的情况。

如图5B所示，框50表示待跟踪单目标的前一帧的跟踪框或者当前帧的跟踪框预测框，框51’以浅色表示，其表示在当前帧，用于检测的第一神经网络并未预测到待跟踪单目标的第一边界框，框52表示用于检测的第一神经网络预测到当前帧不需跟踪的目标的第一边界框。在如图5B所示的场景中，框51’和框52都归属于“1”类，在该场景中，检测用神经网络并未预测到待跟踪目标的第一边界框51’而预测到了不需跟踪的目标的第一边界框52，由于框51’和框52都归属于“1”类，所以检测用神经网络会把框52视为待跟踪单目标的第一边界框。由于，框52与框51’的位置相差很大，在此情况下，会造成很大的预测误差。

如图5C所示，框50表示待跟踪单目标的前一帧的跟踪框或者当前帧的跟踪框预测框，框51’以浅色表示，其表示在当前帧，用于检测的第一神经网络并未预测到待跟踪单目标的第一边界框，框52’表示用于检测的第一神经网络预测到当前帧不需跟踪的目标的第一边界框，在如图5C所示的场景中，框51’归属于“1”类，框52’归属于“2”类。由于“2”类不是所需要跟踪的单目标的类别，因此忽略该被检测到的“2”类框52’，而是将框50作为当前帧的待跟踪单目标的第一边界框。因此，通过对多个目标进行分类，能够有效地避免所预测到的错误边界框当做单目标的预测框，从而利用第一神经网络更加精确地预测到单目标的第一边界框。

在一些特殊的运动场景中，例如高速的运动场景中，或者在摄像机的帧率较低的情况下，运动员在前后两帧中的位置会出现很大的变化。如果按照图3所示的方法基于前一帧的跟踪框以及上述的第一差值和第二差值来计算当前帧的跟踪框，可能会出现一定误差。以下将参考图4来说明基于初始化的第二边界框以及第一和第二神经网络，对单目标进行跟踪的一示例性流程400。在如下所述的方法中，通过在比较基准中引入与速度相关的变量，能够在高速运动的物体的跟踪中，进一步提高跟踪的精确度。

如图4所示，基于所初始化的第二边界框且利用第一和第二神经网络，所出现的单目标进行跟踪包括：步骤401）基于前一帧的跟踪框，获取针对当前帧的跟踪框预测框；步骤402）利用第一神经网络，获取单目标的第一边界框。对所出现的单目标进行跟踪还包括：步骤403）利用第二神经网络，获取单目标的第二边界框；步骤404）将单目标的第一边界框与针对当前帧的跟踪框预测框进行比较，以得到第一差值；步骤405）将单目标的第二边界框与针对当前帧的跟踪框预测框进行比较，以得到第二差值；步骤406）基于第一差值、第二差值和针对当前帧的跟踪框预测框，获取单目标的针对当前帧的跟踪框；以及步骤407）基于针对当前帧的跟踪框，对当前帧的单目标进行跟踪。

在该方法中，用于检测的神经网络（即第一神经网络）能够准确地预测待跟踪单目标的第一边界框的情况下，步骤401可以包括如下的操作：利用第一神经网络，获取待处理视频中的多个目标的多个第一边界框；将多个第一边界框与前一帧的跟踪框进行比较，获取与前一帧的跟踪框最近的第一边界框作为单目标的第一边界框。本领域的技术人员应当理解，前一帧的跟踪框也根据与获取当前帧的跟踪框类似的方法获得。

在一些场景下，在两个相似的运动员靠近且在摄像机的视野中出现一定重叠的情况下，或者在待跟踪运动员被其他事物遮挡而无法被检测到，用于检测的神经网络很可能将所需要的单目标（例如离摄像机较近的运动员）漏检。为了解决上述的问题，步骤401可以执行如下的操作：针对当前帧，利用第一神经网络，对待处理视频中的多个目标中的每个目标赋予一种类别和一个第一边界框；响应于第一神经网络没有获取所述单目标的类别和第一边界框，将所述基准框定义为所述单目标的针对当前帧的第一边界框。

在该示例方法中，第一帧的跟踪框为初始化的第二边界框。针对第二帧，该帧的跟踪框预测框被设定为初始化的第二边界框。针对从第三帧开始的每一帧，通过如下的方式来计算针对当前帧的跟踪框预测框：计算当前帧之前的两个帧的跟踪框之间的第三差值；以及对当前帧的前一帧的跟踪框和第三差值进行求和，获取针对当前帧的跟踪框预测框。该第三差值为当前帧的之前一帧的跟踪框和之前两帧的跟踪框之间的差值，该差值与两帧之间的位置变化有关，即与速度相关，因此与该第三差值相关的当前帧的跟踪框预测框也与运动速度相关。因此，即使在高速运动的场景下也能够准确地预测针对当前帧的跟踪框。

图6示出了可以用来实施本公开的实施例的示例设备600的示意性框图。设备600可以用于实现图1的计算设备102。如图所示，设备600包括中央处理单元（CPU）601，其可以根据存储在只读存储器（ROM）602中的计算机程序指令或者从存储单元608加载到随机访问存储器（RAM）603中的计算机程序指令，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出（I/O）接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元601执行上文所描述的各个方法和处理，例如过程200至400中的任一个。例如，在一些实施例中，过程200至400中的任一个可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由CPU 601执行时，可以执行上文描述的过程200和900中的任一个的一个或多个步骤。备选地，在其他实施例中，CPU 601可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行过程200至400中的任一个。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种基于神经网络的视频感兴趣片段截取方法，包括：

确定待处理视频的图片序列中的第一特定区域和第二特定区域，所述第一特定区域和第二特定区域在所述待处理视频所包含的所有图片中分别具有固定不变的位置，且第一特定区域不同于第二特定区域；

利用用于检测的第一神经网络，获取待处理视频中的多个目标的多个第一边界框，所述多个目标随着时间具有变化的数量；

响应于在某一帧识别到多个第一边界框中的一个第一边界框首次出现在第一特定区域内，将所述一个第一边界框对应的目标设定为待跟踪的单目标，且将待处理视频的该帧作为第一帧；

利用所识别的一个第一边界框，对用于单目标跟踪的第二神经网络的第二边界框进行初始化且利用初始化的第二边界框在第一帧中跟踪所述单目标；

利用第二神经网络或者利用第一神经网络和第二神经网络两者，在待处理视频的第一帧之后的剩余帧中对所出现的单目标进行跟踪；以及

在所述剩余帧中，响应于第二神经网络所预测的第二边界框出现在第二特定区域中，结束跟踪且基于跟踪结果，对待处理视频的单目标被跟踪片段进行截取，

其中，利用第二神经网络，在待处理视频的第一帧之后的剩余帧中对所出现的单目标进行跟踪包括：在待处理视频的第一帧之后的剩余帧的每一帧中，通过利用第二神经网络预测单目标的第二边界框，而对所出现的单目标进行跟踪，以及

利用第一神经网络和第二神经网络两者，在待处理视频的第一帧之后的剩余帧中对所出现的单目标进行跟踪包括：

针对当前帧：

利用第一神经网络，获取所述单目标的第一边界框；

利用第二神经网络，获取所述单目标的第二边界框；

将所述单目标的第一边界框与基准框进行比较，以得到第一差值；

将所述单目标的第二边界框与基准框进行比较，以得到第二差值；以及

基于第一差值、第二差值和基准框，获取所述单目标的针对当前帧的跟踪框；以及

基于针对当前帧的跟踪框，对当前帧的所述单目标进行跟踪。

2.根据权利要求1所述的视频感兴趣片段截取方法，其特征在于，第一帧的跟踪框为被初始化的第二边界框，且

所述基准框是当前帧的前一帧的跟踪框。

3.根据权利要求1所述的视频感兴趣片段截取方法，其特征在于，所述基准框为针对当前帧的跟踪框预测框，其中基于前一帧的跟踪框，获取针对当前帧的跟踪框预测框，以及

第一帧的跟踪框为被初始化的第二边界框，且第二帧的跟踪框预测框也设定为被初始化的第二边界框。

4.根据权利要求3所述的视频感兴趣片段截取方法，其特征在于，基于前一帧的跟踪框，获取针对当前帧的跟踪框预测框包括：

针对第二帧：

将被初始化的第二边界框设定为第一帧的跟踪框和第二帧的跟踪框预测框；以及

针对从第三帧开始的每一帧：

计算当前帧之前的两个帧的跟踪框之间的第三差值；以及

对当前帧的前一帧的跟踪框和第三差值进行求和，获取针对当前帧的跟踪框预测框。

5.根据权利要求1所述的视频感兴趣片段截取方法，其特征在于，基于第一差值、第二差值和基准框，获取所述单目标的针对当前帧的跟踪框包括：

响应于第一差值小于阈值且第二差值大于所述阈值，将所述第一边界框设定为所述当前帧的跟踪框；或

响应于第一差值大于所述阈值且第二差值小于所述阈值，将所述第二边界框设定为所述当前帧的跟踪框；或

响应于第一差值大于所述阈值且第二差值大于所述阈值，将基准框设定为所述当前帧的跟踪框；或

响应于第一差值小于所述阈值且第二差值小于所述阈值，对第一边界框和第二边界框进行加权，以得到所述当前帧的跟踪框。

6.根据权利要求1所述的视频感兴趣片段截取方法，其特征在于，利用第一神经网络，获取所述单目标的第一边界框包括：

针对当前帧，利用第一神经网络，获取待处理视频中的多个目标的多个第一边界框；以及

将多个第一边界框与基准框进行比较，获取与基准框最近的第一边界框作为所述单目标的第一边界框。

7.根据权利要求1所述的视频感兴趣片段截取方法，其特征在于，利用第一神经网络，获取所述单目标的第一边界框包括：

针对当前帧，利用第一神经网络，对待处理视频中的多个目标中的每个目标赋予一种类别和一个第一边界框；

响应于第一神经网络没有获取所述单目标的类别和第一边界框，将所述基准框定义为所述单目标的针对当前帧的第一边界框。

8.一种电子设备，包括：

处理器；以及

与所述处理器耦合的存储器，所述存储器具有存储于其中的指令，所述指令在被处理器执行时使所述设备执行动作，所述动作包括：

针对当前帧：

利用第一神经网络，获取所述单目标的第一边界框；

利用第二神经网络，获取所述单目标的第二边界框；

9.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1-7中任一项所述的基于神经网络的视频感兴趣片段截取方法。