CN113453067B

CN113453067B - 视频处理装置、视频处理方法和机器可读存储介质

Info

Publication number: CN113453067B
Application number: CN202010230229.XA
Authority: CN
Inventors: 杨静; 李斐; 汪君楚; 刘汝杰
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2023-11-14
Anticipated expiration: 2040-03-27
Also published as: CN113453067A; JP2021157794A

Abstract

本公开涉及一种视频处理装置、视频处理方法和机器可读存储介质。视频处理装置包括：获取单元，其基于动作视频剪辑得到初始标记帧；设置单元，其基于关于所述动作视频剪辑的信息来设置滑动窗；匹配单元，其将所述初始标记帧与所述动作视频剪辑在所述滑动窗中的每个帧进行相似度匹配；以及选择单元，其基于相似度匹配的结果，选择所述动作视频剪辑在所述滑动窗中的一个帧作为标记帧。该视频处理装置可以在周期动作片段中正确地捕捉某一次动作实例。

Description

视频处理装置、视频处理方法和机器可读存储介质

技术领域

本公开涉及视频处理的技术领域，具体地涉及用于动作次数计数的视频处理装置、视频处理方法和机器可读存储介质。

背景技术

这个部分提供了与本公开有关的背景信息，这不一定是现有技术。

周期性或准周期性的动作广泛存在于视频理解任务中。最近，在视频监控、虚拟现实等领域，对这类动作进行检测和周期性统计的需求逐渐增多。在现有技术中，基于深度学习的方法，能够在时序上比较精确地定位不同动作的开始和结束，而当需要在重复多次的同一动作的视频片断中对其中一次动作实例的开始结束进行定位时，问题往往就会变得更具有挑战性。如何在周期动作片段中正确地捕捉某一次动作实例成为了该领域研究中的重要课题。

发明内容

这个部分提供了本公开的一般概要，而不是其全部范围或其全部特征的全面披露。

本公开的目的在于提供一种用于在周期动作片段中正确地捕捉某一次动作实例的视频处理装置、视频处理方法和机器可读存储介质。

根据本公开的一方面，提供了一种视频处理装置，该装置包括：获取单元，其基于动作视频剪辑得到初始标记帧；设置单元，其基于关于所述动作视频剪辑的信息来设置滑动窗；匹配单元，其将所述初始标记帧与所述动作视频剪辑在所述滑动窗中的每个帧进行相似度匹配；以及选择单元，其基于相似度匹配的结果，选择所述动作视频剪辑在所述滑动窗中的一个帧作为标记帧。

根据本公开的另一方面，提供了一种视频处理方法，包括：基于动作视频剪辑得到初始标记帧；基于关于所述动作视频剪辑的信息来设置滑动窗；将所述初始标记帧与所述动作视频剪辑在所述滑动窗中的每个帧进行相似度匹配；以及基于相似度匹配的结果，选择所述动作视频剪辑在所述滑动窗中的一个帧作为标记帧。

根据本公开的另一方面，提供了一种机器可读存储介质，其上携带有包括存储在其中的机器可读指令代码的程序产品，其中，所述指令代码当由计算机读取和执行时，能够使所述计算机执行根据本公开的视频处理方法。

使用根据本公开的视频处理装置、视频处理方法和机器可读存储介质，可以通过在动作视频剪辑中搜索符合条件的标记帧来在动作视频剪辑中正确地捕捉某一次动作实例。

从在此提供的描述中，进一步的适用性区域将会变得明显。这个概要中的描述和特定例子只是为了示意的目的，而不旨在限制本公开的范围。

附图说明

在此描述的附图只是为了所选实施例的示意的目的而非全部可能的实施，并且不旨在限制本公开的范围。在附图中：

图1为图示根据本公开的实施例的视频处理装置的结构的框图；

图2为图示根据本公开的另一实施例的视频处理装置的结构的框图；

图3为图示根据本公开的实施例的视频处理装置中的获取单元的结构的框图；

图4为图示根据本公开的另一实施例的视频处理装置的结构的框图；

图5为图示根据本公开的另一实施例的视频处理装置的部分详细结构的框图；

图6为图示根据本公开的实施例的视频处理方法的流程图；

图7为图示根据本公开的另一实施例的视频处理方法的流程图；以及

图8为其中可以实现根据本公开的实施例的视频处理装置和方法的通用个人计算机的示例性结构的框图。

虽然本公开容易经受各种修改和替换形式，但是其特定实施例已作为例子在附图中示出，并且在此详细描述。然而应当理解的是，在此对特定实施例的描述并不打算将本公开限制到公开的具体形式，而是相反地，本公开目的是要覆盖落在本公开的精神和范围之内的所有修改、等效和替换。要注意的是，贯穿几个附图，相应的标号指示相应的部件。

具体实施方式

现在参考附图来更加充分地描述本公开的例子。以下描述实质上只是示例性的，而不旨在限制本公开、应用或用途。

提供了示例实施例，以便本公开将会变得详尽，并且将会向本领域技术人员充分地传达其范围。阐述了众多的特定细节如特定部件、装置和方法的例子，以提供对本公开的实施例的详尽理解。对于本领域技术人员而言将会明显的是，不需要使用特定的细节，示例实施例可以用许多不同的形式来实施，它们都不应当被解释为限制本公开的范围。在某些示例实施例中，没有详细地描述众所周知的过程、众所周知的结构和众所周知的技术。

本公开提出了一种基于相似度匹配的周期性动作的次数计数方案。在一段仅包含一类类别已知且重复多次的动作的动作视频剪辑中，假设总是存在这样的标记帧，它在动作执行一次的过程中仅出现一次。基于这个假设，将动作视频剪辑中动作的重复次数计数问题转化为符合条件的标记帧的搜索问题。观察发现，大多数人对视频中重复动作进行观测时，总是会有意识地选取符合某些特征的帧，作为一次动作实例的开始，当这一帧再次出现时，就作为下一个动作实例的开始，以此来计数，因此该假设是合理的。以下结合图1来说明根据本公开的实施例的视频处理装置如何在周期动作视频剪辑中正确地捕捉某一次动作实例。

图1图示了根据本公开的实施例的视频处理装置100的结构。如图1所示，根据本公开的实施例的视频处理装置100可以包括获取单元110、设置单元120、匹配单元130和选择单元140。

获取单元110可以基于动作视频剪辑得到初始标记帧Mark0。在本公开中，动作视频剪辑可以包括多次重复的同一类动作。通常，动作类别是已知的。具体地，获取单元110可以选择动作视频剪辑中的第一个帧作为初始标记帧，也可以采用其它方式来基于动作视频剪辑得到初始标记帧，这将在后面结合图3进行详细描述。

进一步，设置单元120可以基于关于动作视频剪辑的信息来设置滑动窗。关于动作视频剪辑的信息指示设置滑动窗所需要的信息。

进一步，匹配单元130可以将初始标记帧与动作视频剪辑在滑动窗中的每个帧进行相似度匹配。对于两帧图像相似度的度量，采用帧差或相关系数等常用的度量方式均可。

需要注意的是，如果在一段动作视频剪辑中，背景本身在变化或由于摄像机位置不固定导致了背景也在运动，则需要使用ROI检测或图像分割等技术将计算相似度的区域锁定在运动的目标附近而不能用全图。在这种情况下，根据本公开的实施例的视频处理装置100还可以包括感兴趣区域ROI单元(未示出)，其可以针对初始标记帧以及动作视频剪辑在滑动窗中的每个帧，执行ROI检测或分割。

进一步，选择单元140可以基于相似度匹配的结果来选择动作视频剪辑在滑动窗中的一个帧作为标记帧。例如，选择单元140可以搜索滑动窗中与Mark0最相似的帧。

下面通过示例性实施例来说明可以由设置单元120、匹配单元130和选择单元140执行的处理。

首先，关于滑动窗的设置，需要确定两个参数：滑动窗的开始位置和滑动窗的长度。一般的做法是将开始位置设在Mark0的下一帧，长度尽可能大，以确保滑动窗中一定会出现与Mark0接近的标记帧。但是这种类似于穷举的做法会导致过多的时间消耗并且引入更多的噪音。为了避免出现这样的问题，根据本公开的实施例的设置单元120根据动作视频剪辑中包括的动作的速度来设置滑动窗的开始位置和长度，使滑动窗长度尽量短的同时，又能保证滑动窗内有标记帧。

具体地，假设当前动作视频剪辑中的动作执行一次所需的帧数的下界和上界分别是Speed_inf和Speed_sup，这意味着理论上，两个标记帧之间间隔的帧数不会低于Speed_inf，同时不会超过Speed_sup。则显然，要搜索与Mark0最接近的下一个标记帧，设置单元120可以将搜索区间即滑动窗设置在Mark0的位置后，第Speed_inf帧起，到Speed_sup的区间即可。进一步地，为了减少误差的影响，如Mark0的初始化等，添加一个偏置项b。最终，设置单元120可以将滑动窗设置为：Mark0后，第Speed_inf-b帧起到Speed_sup+b的区间。

接下来，匹配单元130可以计算Mark0与滑动窗[Speed_inf-b，Speed_sup+b]内所有帧的相似度，得到一个相似度序列。

理想情况下，该相似度序列中仅出现一个峰值，即我们要搜索的目标标记帧。然而，很多情况下，一旦Speed_sup超过Speed_inf的一倍以上,该序列中就很容易出现多峰的情况。为了找到最合适的一个峰值，选择单元140可以按照如下思想来寻找相似度序列中最符合条件的峰值：设相似度峰值出现位置为Mark0后的{loc_peak1,loc_peak2,…,loc_peakn}处，其中Speed_inf-b<loc_peak1<…<loc_peakn<Speed_sup+b，记滑动窗的中间位置为Mid，显然，Mid＝(Speed_inf+Speed_sup)/2。设Mid左侧的峰值的最大值所在的位置为loc_peaki,右侧峰值的最大值所在的位置为loc_peakj,若loc_peakj-loc_peaki＝loc_peaki-0+δ，其中δ是一个较小的整数,则该等式说明loc_peaki、loc_peakj均可能是标记帧。否则，认为[Speed_inf-b,loc_peakj]内不具有周期性，loc_peakj即为Mark0后的下一个标记帧。对于前一种情况，由于搜索目标是离Mark0最近的标记帧，排除loc_peaki之后的搜索区间，但[Speed_inf-b,loc_peaki]区间内仍然有周期性，这时，计算Mid’＝(loc_peaki-(Speed_inf-b))/2,直到[Speed_inf-b,loc_peaki]区间内仅有一个峰值。通过类似迭代的峰值选择方式，选择单元140可以确定最终的Mark0后的标记帧Mark1所在的位置。

需要注意的是，在标记帧的匹配和搜索中，根据本公开的实施例的视频处理装置100采用了计算两两图像间的相似度来对标记帧进行匹配，而没有选择训练一个深度学习的分类器来判断某两帧是否为标记帧或是否相似，主要有两个原因：首先，即使是同一类动作，不同人由于习惯的不同，很难设定一个统一的标准来定义标记帧，更不用说为各种动作收集足够多的标记帧样本也需要相当高的时间成本。其次，同一动作片段中的标记帧和非标记帧在外观上的差异通常是非常细微的，而基于卷积网络的算法框架虽然擅长于解决语义层面的分类问题，但对图像中的位置关系不够敏感。因此，使用无需提前定义的标记帧和基于像素级特征的方法来确定和搜索标记帧，更加有效和实用。

由此，根据本公开的实施例的视频处理装置100可以通过在动作视频剪辑中搜索符合条件的标记帧来在动作视频剪辑中正确地捕捉某一次动作实例。

优选地，如图2所示，根据本公开的另一实施例的视频处理装置200可以进一步包括输入视频处理单元250。图2中所示的获取单元210、设置单元220、匹配单元230和选择单元240对应于图1所示的获取单元110、设置单元120、匹配单元130和选择单元140。

输入视频处理单元250可以使用深度神经网络DNN对输入视频进行深度学习处理，以得到动作视频剪辑和关于动作视频剪辑的信息。例如，对于任意给定长度的输入视频，输入视频处理单元250可以首先对不同动作进行定位和切分，得到多个不同的动作视频剪辑，使得该动作视频剪辑中仅包含同一类动作。此定位和切分通常可以通过一些该领域已有的深度学习网络来实现。此外，输入视频处理单元250还可以输出关于动作视频剪辑的其他信息，例如深度学习的分类层输出当前帧属于某类动作的置信度等。

进一步，输入视频处理单元250可以向获取单元210、设置单元220和匹配单元230提供动作视频剪辑和关于动作视频剪辑的各种信息。

根据本公开的实施例的视频处理装置200基于深度学习的时序定位结果。由于借助了深度学习技术，动作的类别是已知的，考虑到同一类动作通常具有某些共性，利用这些共性来确定标记帧或搜索标记帧使得本公开利用到了更多有用的先验知识。

为了更好地理解本公开的技术方案，下面针对本公开的视频处理装置进行更加详细地描述。

根据本公开的优选实施例，图3示出了根据本公开的实施例的视频处理装置中的获取单元的结构。图3所示的获取单元300对应于图1所示的获取单元110。如图3所示，获取单元300包括动作视频剪辑选定部310、置信度获取部320、速度得分计算部330以及初始标记帧确定部340。

获取单元300可以基于动作视频剪辑中的每个帧的标记置信度和速度得分中的至少一个来确定初始标记帧。以下将详细描述由动作视频剪辑选定部310、置信度获取部320、速度得分计算部330以及初始标记帧确定部340执行的处理。

通过观察发现，被选定为标记帧的帧通常至少具有以下两个特征：1.处于标记帧状态时，动作的速率较慢；2.标记帧相对于相邻帧，具有更突出的外观特征。这两个特征使得人的视觉感知能在一定的时间内对其产生最强的响应，每次看到该标记帧出现时，对动作重复次数进行计数。

根据这两个特征，获取单元300执行如下的标记帧初始化方法。

首先，动作视频剪辑选定部310可以选定动作视频剪辑的前m帧，{a0,a1,…,am}(为了避免其中出现周期性，m通常情况不会很大)。然后，动作视频剪辑选定部310可以将所选定的动作视频剪辑的前m帧提供至速度得分计算部330和置信度获取部320。

进一步，速度得分计算部330可以针对所获得的动作视频剪辑的前m帧计算速度得分。具体地，速度得分计算部330可以使用基于光流的运动分析来计算速度得分。速度得分计算部330通过光流抽取算法，计算每一帧相对于前一帧每个像素的位移(vx,vy)，其中vx，vy分别表示水平和竖直方向的位移。对于某一帧ai,速度得分计算部330计算每个像素位移的模长，保留大于固定阈值的速度，得到图中有明显运动的运动块，对运动块内的速度取平均，即得到a0,…am中各自运动块的平均速度{V0,…,Vm}，此为特征1的量化结果。

对于特征2，置信度获取部320可以获取动作视频剪辑的前m帧中的每个帧的标记置信度。例如，置信度获取部320可以从图2中的输入视频处理单元250获取m帧中每一帧属于某类动作的置信度。由于通常对外观特征突出的图像具有较强的响应，置信度更高，因此可以选用深度学习的输出结果作为外观特征的量化，表示为{conf0,…,confm}，其中0<confi<＝1,表示某一帧被预测为当前动作视频剪辑所属动作类别的置信度。

进一步，初始标记帧确定部340可以结合这两个特征设计某种准则以确定最有资格作为初始标记帧的帧。这里的准则，可以通过设置阈值或者归一化后取加权平均的方式。另外，对于运动速度是匀速运动的动作(如匀速圆周运动)，则只需要考虑外观特征即可。

由此，包括获取单元300的根据本公开的实施例的视频处理装置可以结合基于光流的运动分析和标记置信度来初始化标记帧。通过将运动分析结果与深度学习的预测结果进行融合，可以有效获得最适合的初始标记帧，从而可以有助于在动作视频剪辑中更正确地捕捉某一次动作实例，进而也可以提高周期性动作的计数的准确性。

根据本公开的优选实施例，图4示出了根据本公开的另一实施例的视频处理装置400的结构，并且图5示出了图4中所示的视频处理装置的部分详细结构500。

图4中的视频处理装置400可以进一步包括判定单元450和计算单元460。图4中所示的获取单元410、设置单元420、匹配单元430和选择单元440对应于图1所示的获取单元110、设置单元120、匹配单元130和选择单元140。另外，视频处理装置400也可以包括类似于图2中所示的输入视频处理单元250的输入视频处理单元。

下面将结合图4详细描述由判定单元450和计算单元460执行的处理，并且将结合图5详细描述由图4中的设置单元420、匹配单元430和选择单元440执行的处理。

图4中的获取单元410执行与图1中的获取单元110和图3中的获取单元300类似的处理以获得初始标记帧Mark0，在此不再重复对其的描述。

如图5所示，在图4中的视频处理装置400中可以包括多个设置单元520-1至520-n、多个匹配单元530-1至530-n和多个选择单元540-1至540-n，以找出动作视频剪辑中包括的所有标记帧。多个设置单元520-1至520-n对应于图4中的设置单元420，多个匹配单元530-1至530-n对应于图4中的匹配单元430，并且多个选择单元540-1至540-n对应于图4中的选择单元440。

具体地，设置单元520-1、匹配单元530-1和选择单元540-1可以执行与图1中的视频处理装置100中的设置单元120、匹配单元130和选择单元140执行的处理类似的处理，以找出标记帧Mark1，在此不再重复对其的描述。

接下来，设置单元520-2可以基于对标记帧Mark1的选择来重新设置滑动窗。具体地，设置单元520-2可以根据Mark0和Mark1来确定新的滑动窗。同样，根据动作执行一次所需的帧数确定滑动窗的开始位置和长度，但是不同于第一个滑动窗，这里的Mark0和Mark1间隔的帧数(记为Speed1)，正好就是当前动作在当前动作视频剪辑中执行一次所需的帧数。同样再加上一个容忍误差的偏置项b’，则滑动窗很容易地被确定为Mark1后，第Speed1-b’帧到第Speed1+b’帧的区间。

接下来，与匹配单元130类似地，匹配单元530-2可以将标记帧Mark1与动作视频剪辑在重新设置的滑动窗中的每个帧进行相似度匹配。

接下来，与选择单元140类似地，选择单元540-2基于相似度匹配的结果，选择动作视频剪辑在重新设置的滑动窗中的一个帧作为新的标记帧，从而得到下一个标记帧Mark2。

针对前一选择单元找出的新的标记帧，设置单元520-3至520-n、匹配单元530-3至530-n和选择单元540-3至540-n分别执行与设置单元520-2、匹配单元530-2和选择单元540-2执行的处理类似的处理。

进一步，图4中的判定单元450可以判定动作视频剪辑是否被滑动窗完全滑过，并且在动作视频剪辑未被滑动窗完全滑过的情况下，针对新的标记帧，视频处理装置400重复地进行上面描述的处理：重新设置滑动窗，进行相似度匹配，以及选择标记帧。

进一步，计算单元460可以计算标记帧和新的标记帧的数目之和，作为动作视频剪辑中的动作重复次数。

以这种方式，多个设置单元520-1至520-n、多个匹配单元530-1至530-n和多个选择单元540-1至540-n如上执行处理，直到滑动窗滑动到动作视频剪辑的结束位置为止。搜索出多少标记帧，则在该动作视频剪辑中动作就重复了多少次。

由此，根据本公开的实施例的视频处理装置400可以对动作视频剪辑中的周期性动作的次数进行计数。并且，在整个标记帧搜索过程中，总是以最新得到的标记帧作为搜索下一个标记帧的主要依据。这是考虑到真实场景中，随着时间的流逝，动作的主体可能发生平移以及相机可能出现轻微移动和对焦模糊等。以最新的标记帧作为参考，有助于追踪类似的变化，得到更准确的结果。

下面结合图6和图7来描述根据本公开的实施例的视频处理方法。

如图6所示，根据本公开的实施例的视频处理方法开始于步骤S110。在步骤S110中，基于动作视频剪辑得到初始标记帧。

接下来，在步骤S120中，基于关于动作视频剪辑的信息来设置滑动窗。

接下来，在步骤S130中，将初始标记帧与动作视频剪辑在滑动窗中的每个帧进行相似度匹配。

接下来，在步骤S140中，基于相似度匹配的结果，选择动作视频剪辑在滑动窗中的一个帧作为标记帧。在这之后，过程结束。

根据本公开的实施例，该方法可以进一步包括：使用深度神经网络DNN对输入视频进行深度学习处理，以得到动作视频剪辑和关于动作视频剪辑的信息。

根据本公开的实施例，基于动作视频剪辑得到初始标记帧包括：使选择动作视频剪辑中的第一个帧作为初始标记帧；或者基于动作视频剪辑中的每个帧的标记置信度和速度得分中的至少一个来确定初始标记帧。

根据本公开的实施例，该方法使用基于光流的运动分析来计算速度得分。

根据本公开的实施例，进行相似度匹配的步骤包括：基于初始标记帧的像素与动作视频剪辑在滑动窗中的每个帧的像素来进行相似度匹配。

根据本公开的实施例，在进行相似度匹配的步骤之前，该方法还包括：针对初始标记帧以及动作视频剪辑在滑动窗中的每个帧，执行感兴趣区域ROI检测或分割。

由此，根据本公开的实施例的视频处理方法可以通过在动作视频剪辑中搜索符合条件的标记帧来在动作视频剪辑中正确地捕捉某一次动作实例。

图7示出了根据本公开的另一实施例的视频处理方法的流程图。图7中的步骤S210至S240与图6中的S110至S140相同，将省略对其的描述。

接下来，在步骤S250中，基于对标记帧的选择来重新设置滑动窗。

接下来，在步骤S260中，将标记帧与动作视频剪辑在重新设置的滑动窗中的每个帧进行相似度匹配。

接下来，在步骤S270中，基于相似度匹配的结果，选择动作视频剪辑在重新设置的滑动窗中的一个帧作为新的标记帧。

接下来，在步骤S280中，判定动作视频剪辑是否被滑动窗完全滑过。

在步骤S280中判定动作视频剪辑未被滑动窗完全滑过的情况下，返回到步骤S250。针对新的标记帧，重复执行步骤S250中重新设置滑动窗的步骤、步骤S260中相似度匹配的步骤以及步骤S270中选择标记帧的步骤。

此外，在步骤S280中判定动作视频剪辑被滑动窗完全滑过的情况下，进行到步骤S290。在步骤S290中，计算标记帧和新的标记帧的数目之和，作为动作视频剪辑中的动作重复次数。在这之后，过程结束。

根据本公开的实施例，进行相似度匹配的步骤包括：基于标记帧的像素与动作视频剪辑在重新设置的滑动窗中的每个帧的像素来进行相似度匹配。

根据本公开的实施例，在进行相似度匹配的步骤之前，该方法还包括：针对标记帧以及动作视频剪辑在重新设置的滑动窗中的每个帧，执行感兴趣区域ROI检测或分割。

由此，根据本公开的实施例的视频处理方法可以对动作视频剪辑中的周期性动作的次数进行计数。并且，在整个搜索过程中，总是以最新得到的标记帧作为搜索下一个标记帧的主要依据。这是考虑到真实场景中，随着时间的流逝，动作的主体可能发生平移以及相机可能出现轻微移动和对焦模糊等。以最新的标记帧作为参考，有助于追踪类似的变化，得到更准确的结果。

根据本公开的实施例的视频处理方法的上述步骤的各种具体实施方式前面已经作过详细描述，在此不再重复说明。

显然，根据本公开的视频处理方法的各个操作过程可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

而且，本公开的目的也可以通过下述方式实现：将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备，并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。此时，只要该系统或者设备具有执行程序的功能，则本公开的实施方式不局限于程序，并且该程序也可以是任意的形式，例如，目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。

上述这些机器可读存储介质包括但不限于：各种存储器和存储单元，半导体设备，磁盘单元例如光、磁和磁光盘，以及其它适于存储信息的介质等。

另外，计算机通过连接到因特网上的相应网站，并且将依据本公开的计算机程序代码下载和安装到计算机中然后执行该程序，也可以实现本公开的技术方案。

如图8所示，CPU 1301根据只读存储器(ROM)1302中存储的程序或从存储部分1308加载到随机存取存储器(RAM)1303的程序执行各种处理。在RAM 1303中，也根据需要存储当CPU 1301执行各种处理等等时所需的数据。CPU 1301、ROM 1302和RAM 1303经由总线1304彼此连接。输入/输出接口1305也连接到总线1304。

下述部件连接到输入/输出接口1305：输入部分1306(包括键盘、鼠标等等)、输出部分1307(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，以及扬声器等)、存储部分1308(包括硬盘等)、通信部分1309(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1309经由网络比如因特网执行通信处理。根据需要，驱动器1310也可连接到输入/输出接口1305。可拆卸介质1311比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1310上，使得从中读出的计算机程序根据需要被安装到存储部分1308中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1311安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图8所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1311。可拆卸介质1311的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 1302、存储部分1308中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

在本公开的系统和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

以上虽然结合附图详细描述了本公开的实施例，但是应当明白，上面所描述的实施方式只是用于说明本公开，而并不构成对本公开的限制。对于本领域的技术人员来说，可以对上述实施方式作出各种修改和变更而没有背离本公开的实质和范围。因此，本公开的范围仅由所附的权利要求及其等效含义来限定。

关于包括以上实施例的实施方式，还公开下述的附记：

附记1.一种视频处理装置，包括：

获取单元，其基于动作视频剪辑得到初始标记帧；

设置单元，其基于关于所述动作视频剪辑的信息来设置滑动窗；

匹配单元，其将所述初始标记帧与所述动作视频剪辑在所述滑动窗中的每个帧进行相似度匹配；以及

选择单元，其基于相似度匹配的结果，选择所述动作视频剪辑在所述滑动窗中的一个帧作为标记帧。

附记2.根据附记1所述的视频处理装置，还包括：

输入视频处理单元，其使用深度神经网络DNN对输入视频进行深度学习处理，以得到所述动作视频剪辑和关于所述动作视频剪辑的信息。

附记3.根据附记1所述的视频处理装置，其中，所述获取单元选择所述动作视频剪辑中的第一个帧作为所述初始标记帧，或者基于所述动作视频剪辑中的每个帧的标记置信度和速度得分中的至少一个来确定所述初始标记帧。

附记4.根据附记1所述的视频处理装置，其中，

所述设置单元基于对所述标记帧的选择来重新设置所述滑动窗；

所述匹配单元将所述标记帧与所述动作视频剪辑在重新设置的滑动窗中的每个帧进行相似度匹配；以及

所述选择单元基于相似度匹配的结果，选择所述动作视频剪辑在重新设置的滑动窗中的一个帧作为新的标记帧。

附记5.根据附记4所述的视频处理装置，还包括判定单元，其判定所述动作视频剪辑是否被所述滑动窗完全滑过，并且

在所述动作视频剪辑未被所述滑动窗完全滑过的情况下，针对新的标记帧，所述视频处理装置重复地进行以下处理：所述设置单元重新设置所述滑动窗，所述匹配单元进行相似度匹配，以及所述选择单元选择标记帧。

附记6.根据附记5所述的视频处理装置，进一步包括：

计算单元，其计算所述标记帧和新的标记帧的数目之和，作为所述动作视频剪辑中的动作重复次数。

附记7.根据附记3所述的视频处理装置，其中，所述获取单元使用基于光流的运动分析来计算所述速度得分。

附记8.根据附记1所述的视频处理装置，还包括：

感兴趣区域ROI单元，其针对所述初始标记帧以及所述动作视频剪辑在所述滑动窗中的每个帧，执行ROI检测或分割。

附记9.一种视频处理方法，包括：

基于动作视频剪辑得到初始标记帧；

基于关于所述动作视频剪辑的信息来设置滑动窗；

将所述初始标记帧与所述动作视频剪辑在所述滑动窗中的每个帧进行相似度匹配；以及

基于相似度匹配的结果，选择所述动作视频剪辑在所述滑动窗中的一个帧作为标记帧。

附记10.根据附记9所述的方法，还包括：

使用深度神经网络DNN对输入视频进行深度学习处理，以得到所述动作视频剪辑和关于所述动作视频剪辑的信息。

附记11.根据附记9所述的方法，其中，基于所述动作视频剪辑得到所述初始标记帧包括：

选择所述动作视频剪辑中的第一个帧作为所述初始标记帧；或者

基于所述动作视频剪辑中的每个帧的标记置信度和速度得分中的至少一个来确定所述初始标记帧。

附记12.根据附记9所述的方法，进一步包括：

基于对所述标记帧的选择来重新设置所述滑动窗；

将所述标记帧与所述动作视频剪辑在重新设置的滑动窗中的每个帧进行相似度匹配；以及

基于相似度匹配的结果，选择所述动作视频剪辑在重新设置的滑动窗中的一个帧作为新的标记帧。

附记13.根据附记12所述的方法，其中，针对新的标记帧重复执行重新设置所述滑动窗的步骤、相似度匹配的步骤以及选择标记帧的步骤，直到所述动作视频剪辑被所述滑动窗完全滑过为止。

附记14.根据附记13所述的方法，进一步包括：

计算所述标记帧和新的标记帧的数目之和，作为所述动作视频剪辑中的动作重复次数。

附记15.根据附记11所述的方法，其中，使用基于光流的运动分析来计算所述速度得分。

附记16.根据附记9所述的方法，其中，进行相似度匹配的步骤包括：

基于所述初始标记帧的像素与所述动作视频剪辑在所述滑动窗中的每个帧的像素来进行相似度匹配。

附记17.根据附记9所述的方法，其中，在进行相似度匹配的步骤之前，所述方法还包括：

针对所述初始标记帧以及所述动作视频剪辑在所述滑动窗中的每个帧，执行感兴趣区域ROI检测或分割。

附记18.根据附记12所述的方法，其中，进行相似度匹配的步骤包括：

基于所述标记帧的像素与所述动作视频剪辑在重新设置的滑动窗中的每个帧的像素来进行相似度匹配。

附记19.根据附记12所述的方法，其中，在进行相似度匹配的步骤之前，所述方法还包括：

针对所述标记帧以及所述动作视频剪辑在重新设置的滑动窗中的每个帧，执行感兴趣区域ROI检测或分割。

附记20.一种机器可读存储介质，其上携带有包括存储在其中的机器可读指令代码的程序产品，其中，所述指令代码当由计算机读取和执行时，能够使所述计算机执行根据附记9至19所述的视频处理方法。

Claims

1.一种视频处理装置，包括：

获取单元，其基于动作视频剪辑得到初始标记帧，所述动作视频剪辑包括多次重复的同一类动作；

选择单元，其基于相似度匹配的结果，选择所述动作视频剪辑在所述滑动窗中的一个帧作为标记帧，

其中，所述获取单元包括：

动作视频剪辑选定部，其选定所述动作视频剪辑的前多帧图像；

速度得分计算部，其使用基于光流的运动分析来计算所述多帧图像中每一帧的速度得分；

置信度获取部，其通过深度神经网络获取所述多帧图像中的每个帧属于所述动作的标记置信度；以及

初始标记帧确定部，其结合所述速度得分和所述标记置信度来确定所述初始标记帧。

2.根据权利要求1所述的视频处理装置，还包括：

3.根据权利要求1所述的视频处理装置，其中，

4.根据权利要求3所述的视频处理装置，还包括判定单元，其判定所述动作视频剪辑是否被所述滑动窗完全滑过，并且

5.根据权利要求4所述的视频处理装置，进一步包括：

6.根据权利要求1所述的视频处理装置，还包括：

7.一种视频处理方法，包括：

基于动作视频剪辑得到初始标记帧，所述动作视频剪辑包括多次重复的同一类动作；

基于关于所述动作视频剪辑的信息来设置滑动窗；

基于相似度匹配的结果，选择所述动作视频剪辑在所述滑动窗中的一个帧作为标记帧，

其中，通过以下方法来得到所述初始标记帧：

选定所述动作视频剪辑的前多帧图像；

使用基于光流的运动分析来计算所述多帧图像中每一帧的速度得分；

通过深度神经网络获取所述多帧图像中的每个帧属于所述动作的标记置信度；以及

结合所述速度得分和所述标记置信度来确定所述初始标记帧。

8.一种机器可读存储介质，其上携带有包括存储在其中的机器可读指令代码的程序产品，其中，所述指令代码当由计算机读取和执行时，能够使所述计算机执行根据权利要求7所述的视频处理方法。