CN109195011A

CN109195011A - 一种视频处理方法、装置、设备及存储介质

Info

Publication number: CN109195011A
Application number: CN201811249465.5A
Authority: CN
Inventors: 刘袁; 马林; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-10-25
Filing date: 2018-10-25
Publication date: 2019-01-11
Anticipated expiration: 2038-10-25
Also published as: CN109195011B

Abstract

本发明实施例公开了一种视频处理方法、装置、设备及存储介质，本发明实施例可以获取待处理视频；从待处理视频中提取出多个候选动作视频片段；按照预设划分策略集合中的不同划分策略对候选动作视频片段进行划分，并获取划分得到的动作视频子片段的视频特征，得到视频特征集合；通过机器学习模型并基于视频特征集合，从多个候选动作视频片段中筛选出动作视频片段；其中根据预设划分策略集合中不同划分策略所划分得到的动作视频子片段的时长不同。该方案不仅可以划分候选动作视频片段得到不同时长的动作视频子片段，而且可以通过机器学习模型基于动作视频子片段的视频特征对动作视频片段进行筛选，提高了从视频中筛选动作视频片段的准确性及召回率。

Description

一种视频处理方法、装置、设备及存储介质

技术领域

本发明涉及视频处理技术领域，具体涉及一种视频处理方法、装置、设备及存储介质。

背景技术

视频处理技术在智能安防及监控等领域有着广泛的应用，视频处理是对视频中所出现的目标物进行分析，有利于从大量视频信息中挖掘有价值的信息，例如可以是对视频中人的行为进行分析，然而准确的视频处理结果是确定用户行为的关键，比如分析出暴力或斗殴等行为。

现有技术中，在对视频中人的行为进行分析的过程中，主要是利用滑窗机制对视频进行处理，例如，可以通过滑窗机制预先生成大量的窗口，并根据该窗口对视频进行划分，得到时长一致的视频段，随后判别窗口所划分得到的视频段中是否包含人的动作行为。

在对现有技术的研究和实践过程中，本发明的发明人发现，由于视频中人的动作行为产生的时间长短不一，对滑窗机制划分得到的同一时长视频段分析，会使得视频段中大多不包含人的行为或者仅包含局部人的行为(即与实际包含人完整行为的视频只有很少的重叠度)，不仅导致找出包含人的动作行为的视频段不全(即召回率较低)，而且分析得到包含人的行为的视频段的准确性非常低。

发明内容

本发明实施例提供一种视频处理方法、装置、设备及存储介质，旨在提高从视频中筛选动作视频片段的准确性及召回率。

为解决上述技术问题，本发明实施例提供以下技术方案：

一种视频处理方法，包括：

获取待处理视频；

从所述待处理视频中提取出多个候选动作视频片段；

按照预设划分策略集合中的不同划分策略对所述候选动作视频片段进行划分，并获取划分得到的动作视频子片段的视频特征，得到视频特征集合；

通过机器学习模型并基于所述视频特征集合，从所述多个候选动作视频片段中筛选出动作视频片段；

其中，根据预设划分策略集合中不同划分策略所划分得到的动作视频子片段的时长不同。

一种视频处理装置，包括：

第一获取单元，用于获取待处理视频；

提取单元，用于从所述待处理视频中提取出多个候选动作视频片段；

划分单元，用于按照预设划分策略集合中的不同划分策略对所述候选动作视频片段进行划分，并获取划分得到的动作视频子片段的视频特征，得到视频特征集合；

筛选单元，用于通过机器学习模型并基于所述视频特征集合，从所述多个候选动作视频片段中筛选出动作视频片段；

一种视频处理设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

获取待处理视频；

从所述待处理视频中提取出多个候选动作视频片段；

一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例提供的任一种视频处理方法中的步骤。

本发明实施例可以获取待处理视频，以及从待处理视频中提取出多个候选动作视频片段，然后按照预设划分策略集合中的不同划分策略对候选动作视频片段进行划分，并获取划分得到的动作视频子片段的视频特征，得到视频特征集合，其中，根据预设划分策略集合中不同划分策略所划分得到的动作视频子片段的时长不同；此时，可以通过机器学习模型并基于视频特征集合，从多个候选动作视频片段中筛选出动作视频片段。该方案不仅可以按照不同划分策略划分候选动作视频片段得到不同时长的动作视频子片段，而且可以通过机器学习模型并基于动作视频子片段的视频特征对动作视频片段进行筛选，提高了从视频中筛选动作视频片段的准确性及召回率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的视频处理方法的场景示意图；

图2是本发明实施例提供的视频处理方法的流程示意图；

图3是本发明实施例提供的视频处理方法的另一流程示意图；

图4是本发明实施例提供的从待处理视频中提取候选动作视频片段的示意图；

图5是本发明实施例提供的对候选动作视频片段进行划分的示意图；

图6是本发明实施例提供的从候选动作视频片段中筛选目标动作视频片段的示意图；

图7是本发明实施例提供的计算预测动作视频片段与实际动作视频片段之间重合度的示意图；

图8是本发明实施例提供的从目标动作视频片段中筛选出动作视频片段的示意图；

图9是本发明实施例提供的视频处理装置的结构示意图；

图10是本发明实施例提供的视频处理装置的另一结构示意图；

图11是本发明实施例提供的视频处理装置的另一结构示意图；

图12是本发明实施例提供的视频处理设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种视频处理方法、装置、设备及存储介质。

请参阅图1，图1为本发明实施例所提供的视频处理方法的场景示意图，该视频处理方法可以应用于视频处理装置，该视频处理装置具体可以集成在服务器中，例如，该服务器可以获取待处理视频，例如，服务器可以接收监控设置、电脑或手机等终端发送的待处理视频，以及从待处理视频中提取出多个候选动作视频片段，例如，可以按照预设提取策略集合中的不同提取策略，从待处理视频中提取出多个不同时长的候选动作视频片段(例如，候选动作视频片段A 至候选动作视频片段B等)。然后，按照预设划分策略集合中的不同划分策略对候选动作视频片段进行划分，得到动作视频子片段，例如，对候选动作视频片段A进行划分可以得到动作视频子片段1至动作视频子片段n，对候选动作视频片段B进行划分可以得到动作视频子片段1至动作视频子片段m等，其中n和 m的取值可以根据实际需要进行灵活设置，以及获取划分得到的动作视频子片段的视频特征，得到视频特征集合，例如，可以获取待处理视频通过预设的三维卷积神经网络中预设卷积层输出的特征信息，得到待处理视频对应的目标视频特征，并根据目标视频特征获取划分得到的动作视频子片段的视频特征，得到视频特征集合；其中，根据预设划分策略集合中不同划分策略所划分得到的动作视频子片段的时长不同。此时，可以通过机器学习模型并基于视频特征集合，从多个候选动作视频片段中筛选出动作视频片段，例如，可以通过机器学习模型并基于视频特征集合，从多个候选动作视频片段中筛选出包含目标对象动作的动作视频片段，得到目标动作视频片段，以及获取目标动作视频片段中目标对象的预测动作信息与实际动作信息，计算预测动作信息与实际动作信息之间的重合度，从目标动作视频片段中筛选出重合度大于预设阈值的动作视频片段；等等。

需要说明的是，图1所示的视频处理方法的场景示意图仅仅是一个示例，本发明实施例描述的视频处理的场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域普通技术人员可知，随着视频处理方法的演变和新业务场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

以下分别进行详细说明。

在本实施例中，将从视频处理装置的角度进行描述，该视频处理装置具体可以集成在服务器或网关等网络设备中。

一种视频处理方法，包括：获取待处理视频；从待处理视频中提取出多个候选动作视频片段；按照预设划分策略集合中的不同划分策略对候选动作视频片段进行划分，并获取划分得到的动作视频子片段的视频特征，得到视频特征集合；通过机器学习模型并基于视频特征集合，从多个候选动作视频片段中筛选出动作视频片段；其中，根据预设划分策略集合中不同划分策略所划分得到的动作视频子片段的时长不同。

请参阅图2，图2是本发明一实施例提供的视频处理方法的流程示意图。该视频处理方法可以包括：

在步骤S101中，获取待处理视频。

例如，具体可以通过手机、照相机或摄像头等录制得到待处理视频，或者，可以通过在互联网上搜索或者从视频数据库中获取待处理视频等，当然，待处理视频的获取方式还可以是其他的获取方式，具体内容在此处不作限定。

其中，该待处理视频可以包括一个或多个，该待处理视频中可以包括运动对象，该运动对象可以包括人、车辆或动物等，可以将其中的一个或者多个运动对象设置为目标对象，以便后续可以从待处理视频中分析出包含目标对象动作的动作视频片段等，例如，将用户A设置为目标对象，此时可以从待处理视频中分析出包含用户A动作的动作视频片段等。

在步骤S102中，从待处理视频中提取出多个候选动作视频片段。

为了准确地从待处理视频中分析出包含目标对象动作的动作视频片段，此时，首先从待处理视频中提取出多个候选动作视频片段，其中，该多个候选动作视频片段的时长可以一致，也可以不一致，以及该多个候选动作视频片段中可以存在重叠的时间段，例如，对于一个总时长为10分钟的待处理视频，可以从该待处理视频中提取出0至1分钟、1至2分钟、0至3分钟、1至3分钟、2至5 分钟、4至7分钟、6至8分钟、8至10分钟、以及9至10分钟等视频片段，得到多个候选动作视频片段。其中，该多个候选动作视频片段可以随机提取或按照不同提取策略提取得到，该多个候选动作视频片段可以包括目标对象、目标对象执行动作或不存在目标对象(例如仅包括背景)等。

在某些实施方式中，从待处理视频中提取出多个候选动作视频片段的步骤可以包括：按照预设提取策略集合中的不同提取策略，从待处理视频中提取出多个不同时长的候选动作视频片段。

其中，预设提取策略集合中的不同提取策略可以根据实际需要进行灵活设置，由于一个待处理视频中可能存在不同时长的动作，例如，对于同一用户A，在一个待处理视频可能在1至2分钟或6至18分钟等不同时间段均存在用户A动作，为了精准地捕获不同时长的动作视频片段，可以预先设置提取策略集合，该提取策略集合可以包括多种不同提取策略，每种提取策略提取出的候选动作视频片段的时长或个数等可以不同，同一提取策略提取出的候选动作视频片段的时长或个数等可以相同，例如，提取策略A可以是按照每间隔6秒钟的时间分辨率从待处理视频中提取出多个候选动作视频片段，提取策略B可以是按照每间隔1分钟的时间分辨率从待处理视频中提取出多个候选动作视频片段，提取策略C可以是按照每间隔5分钟的时间分辨率从待处理视频中提取出多个候选动作视频片段，等等。此时，按照预设提取策略集合中的不同提取策略，可以从待处理视频中提取出多个不同时长的候选动作视频片段，其中，多个不同时长的候选动作视频片段中包括多种时长的候选动作视频片段，而且每种时长的候选动作视频片段可以包括多个。

在某些实施方式中，按照预设提取策略集合中的不同提取策略，从待处理视频中提取出多个不同时长的候选动作视频片段的步骤可以包括：

获取待处理视频的总时长；按照预设提取策略集合中的不同提取策略，基于总时长设置多个不同的子时长；根据多个不同的子时长，从待处理视频中提取出多个不同时长的候选动作视频片段。

例如，可以检测出待处理视频的总时长为L，以及可以按照不同提取策略，设置多个不同的子时长分别为L/2、L/4、L/8、L/16、L/32、L/64、L/128、及L/256等，即按照第一提取策略设置的子时长为L/2，按照第二提取策略设置的子时长为L/4，按照第八提取策略设置的子时长为L/256等，其中多个不同的子时长还可以包括其他类型的时长，在此处不作限定。此时，可以根据多个不同的子时长，从待处理视频中提取出多个不同时长的动作视频片段，得到多个不同时长的候选动作视频片段，例如，可以根据子时长为L/2从待处理视频中提取出多个时长为L/2的动作视频片段，可以根据子时长为L/16从待处理视频中提取出多个时长为L/16的动作视频片段等。这样可以针对待处理视频中待捕获的动作时间跨度较大，例如短至1秒，长至数分钟等情况，按照不同提取策略设置多个不同的子时长(即不同时间分辨率)来提取出多个不同时长的动作视频片段，可以提高对多种时长的动作视频片段的捕获能力。

需要说明的是，为了提高提取效率，可以利用卷积神经网络从待处理视频中提取出多个候选动作视频片段，例如，给定一定长度的待处理视频(例如输入的待处理视频长度为L)，通过设置卷积神经网络的多个不同时间分辨率(即提取的间隔时长)的输出层，例如，设置8个输出层的时间分辨率分别为L/2、 L/4、L/8、L/16、L/32、L/64、L/128、及L/256等，从而可以利用具有不同时间分辨率的多个输出层从待处理视频中捕获不同时间长度(即时长)的动作视频片段，得到多个候选动作视频片段。其中，时间分辨率低的层用于捕获时长较长的动作视频片段，时间分辨率高的层用于捕获时长较短的动作视频片段。

在某些实施方式中，根据多个不同的子时长，从待处理视频中提取出多个不同时长的候选动作视频片段的步骤可以包括：

获取至少一个时长调整参数；根据时长调整参数分别对多个不同的子时长进行调整，得到调整后时长；根据调整后时长从待处理视频中提取出多个不同时长的候选动作视频片段。

为了进一步提升对多种时长的候选动作视频片段的捕获能力，以及提高候选动作视频片段的多样性，可以对子时长进行调整，例如，可以获取0.5、0.75、 1及1.5等时长调整参数，并根据每个时长调整参数分别对多个不同的子时长进行调整，得到调整后时长，例如，利用时长调整参数0.5对子时长L/2进行调整，得到调整后时长为a＝0.5*L/2，利用时长调整参数0.5对子时长L/8进行调整，得到调整后时长为b＝0.5*L/8，利用时长调整参数0.5对子时长L/32进行调整，得到调整后时长为c＝0.5*L/32；或者是，利用时长调整参数1.5对子时长L/2进行调整，得到调整后时长为d＝1.5*L/2，利用时长调整参数1.5对子时长L/16进行调整，得到调整后时长为e＝1.5*L/16等。在得到调整后时长后，可以根据调整后时长从待处理视频中提取出多个不同时长的动作视频片段，得到多个不同时长的候选动作视频片段，此时，最终得到的候选动作视频片段中可以包括根据多个不同的子时长从待处理视频中提取出的动作视频片段，以及根据调整后时长从待处理视频中提取出动作视频片段。

需说明的是，当利用卷积神经网络从待处理视频中提取出多个候选动作视频片段时，对于每个输出层，可以在相应的时间分辨率基础上，设置每个输出层相应的分辨率调整参数：0.5、0.75、1及1.5等，这样使得卷积神经网络不仅可以输出多个不同的子时长对应的动作视频片段，而且可以输出调整后时长对应的动作视频片段，从而提升了对多种时长的候选动作视频片段的捕获能力，增加了召回率，以及提高了提取效率。

在步骤S103中，按照预设划分策略集合中的不同划分策略对候选动作视频片段进行划分，并获取划分得到的动作视频子片段的视频特征，得到视频特征集合。

其中，根据预设划分策略集合中不同划分策略所划分得到的动作视频子片段的时长不同，该预设划分策略集合中不同划分策略可以根据实际需要进行灵活设置。

在某些实施方式中，按照预设划分策略集合中的不同划分策略对候选动作视频片段进行划分的步骤可以包括：

按照预设划分策略集合中的第一划分策略对候选动作视频片段进行划分，得到多个第一动作视频子片段；按照预设划分策略集合中的第二划分策略对候选动作视频片段进行划分，得到多个第二动作视频子片段；其中，第二动作视频子片段与第一动作视频子片段的时长不同。

为了提高基于视频特征筛选动作视频片段的准确性，可以按照不同划分策略将候选动作视频片段平均分为多个动作视频子片段，例如，可以按照第一划分策略将候选动作视频片段平均分为5个动作视频子片段，得到多个第一动作视频子片段，此时，当候选动作视频片段的时长为15分钟时，得到的多个第一动作视频子片段均为3分钟；以及，可以按照第二划分策略将候选动作视频片段平均分为2个动作视频子片段，得到多个第二动作视频子片段，此时，当候选动作视频片段的时长为2分钟时，得到的多个第一动作视频子片段均为1分钟；以及，可以按照第三划分策略将候选动作视频片段平均分为10个动作视频子片段，得到多个第三动作视频子片段，此时，当候选动作视频片段的时长为 10分钟时，得到的多个第三动作视频子片段均为1分钟；等等，预设划分策略集合中包括的划分策略的数量可以根据实际需要进行灵活设置，当候选动作视频片段为多个时，可以按照不同划分策略对每个候选动作视频片段分别进行划分。此时，在按照预设划分策略集合中的不同划分策略分别对每个候选动作视频片段进行划分后，对于每个候选动作视频片段，可以对应得到多个动作视频子片段，该多个动作视频子片段中可以包括时长不同的动作视频子片段。

在某些实施方式中，获取划分得到的动作视频子片段的视频特征，得到视频特征集合的步骤可以包括：

获取待处理视频通过预设的三维卷积神经网络中预设卷积层输出的特征信息，得到待处理视频对应的目标视频特征；根据目标视频特征获取划分得到的动作视频子片段的视频特征，得到视频特征集合。

在按照不同划分策略对候选动作视频片段进行划分得到动作视频子片段后，可以获取划分得到的动作视频子片段的视频特征，得到视频特征集合。为了提高获取视频特征的效率及准确性，可以利用预设的三维卷积神经网络获取待处理视频对应的目标视频特征，具体地，可以将待处理视频输入预设的三维卷积神经网络，并通过该三维卷积神经网络的预设卷积层输出特征信息，以及根据输出的特征信息生成待处理视频的目标视频特征。其中，目标视频特征可以包括人物、人物的动作、背景、颜色分布、及光流等有效的特征信息，通过特征提取实现了对待处理视频进行降维压缩的操作，例如，可以是每8帧视频图像压缩得到1*1024维的特征信息(即特征向量)，该特征信息可以是以数据表的形式进行存储。预设卷积层可以根据实际需要进行灵活设置，例如，可以提取三维卷积神经网络提取中间卷积层(例如倒数第5层)输出的特征信息，由于三维卷积神经网络可以包括十几层甚至是几十层的卷积层，而前面的卷积层输出为底层，后面的卷积层输出为高层，因此通过该三维卷积神经网络的预设卷积层输出特征信息可以为高层特征信息。在得到待处理视频的目标视频特征后，可以根据目标视频特征获取划分得到的各个动作视频子片段的视频特征，得到视频特征集合。

需要说明的是，在利用三维卷积神经网络获取待处理视频对应的目标视频特征之前，可以预先对该三维卷积神经网络进行训练：可以获取多个视频样本，根据视频样本对三维卷积神经网络进行训练，例如，利用三维卷积神经网络计算视频样本的预测特征信息，以及获取视频样本的真实特征信息，将预测特征信息与真实特征信息进行比较，以通过损失函数对预测特征信息与真实特征信息进行收敛，从而可以调整三维卷积神经网络的参数至合适值，得到训练后的三维卷积神经网络。

在某些实施方式中，根据目标视频特征获取划分得到的动作视频子片段的视频特征，得到视频特征集合的步骤可以包括：

获取动作视频子片段的时间节点；根据动作视频子片段的时间节点，确定划分得到的动作视频子片段在待处理视频的位置；根据动作视频子片段在待处理视频的位置，从目标视频特征中提取出动作视频子片段的视频特征，得到视频特征集合。

具体地，当动作视频子片段包括多个时，可以获取第一动作视频子片段的时间节点，并根据第一动作视频子片段的时间节点确定第一动作视频子片段在待处理视频的位置，根据第一动作视频子片段在待处理视频的位置从目标视频特征中提取出第一动作视频子片段的视频特征；以及，可以获取第二动作视频子片段的时间节点，并根据第二动作视频子片段的时间节点确定第二动作视频子片段在待处理视频的位置，根据第二动作视频子片段在待处理视频的位置从目标视频特征中提取出第二动作视频子片段的视频特征；以及，可以获取第三动作视频子片段的时间节点，并根据第三动作视频子片段的时间节点确定第三动作视频子片段在待处理视频的位置，根据第三动作视频子片段在待处理视频的位置从目标视频特征中提取出第三动作视频子片段的视频特征；等等。

例如，由于从待处理视频中提取出的多个候选动作视频片段对应的时长的长短不一，因此可以采用多尺度的方式提取出不同时间分辨率的动作视频子片段的视频特征。

在阶段一中，可以将候选动作视频片段A平均分成多个(例如5个)动作视频子片段，对于第i个动作视频子片段，获取第i个动作视频子片段的时间节点，其时间节点为[s_1i，e_1i]，该第i个动作视频子片段的视频特征可以表示为：

其中，在得到第i个动作视频子片段的时间节点后，可以根据动作视频子片段的时间节点，确定划分得到的动作视频子片段在待处理视频的位置，例如可以是在待处理视频中从时间节点s_1i至e_1i之间的位置，然后根据动作视频子片段在待处理视频的位置从目标视频特征中提取出动作视频子片段的视频特征 p_t，p_t是利用三维卷积神经网络获取到待处理视频的目标视频特征中的局部视频特征，在候选动作视频片段A对应的每个动作视频子片段的视频特征均计算完毕后，若该候选动作视频片段A被划分为5个动作视频子片段，则该候选动作视频片段A在阶段一中的视频特征f₁可以表示为：

其中，和分别表示这5个动作视频子片段的视频特征，此时由于阶段一中候选动作视频片段A被划分得到的动作视频子片段数量较多，因此通过阶段一获取的视频特征表示具有较高的时间分辨率，但感受野较小。

在阶段二中，候选动作视频片段A被平均分成多个(例如2个)动作视频子片段，按照上述公式(1)分别计算这2个动作视频子片段的视频特征，相应得到的候选动作视频片段在阶段二中的视频特征f₂可以表示为：

其中，和分别表示这2个动作视频子片段的视频特征，此时由于阶段二中候选动作视频片段A被划分得到的动作视频子片段数量较少，因此，通过阶段二获取的视频特征，时间分辨率较低，但感受野大。

然后，将这两个阶段获取的视频特征串联，从而可以获得对候选动作视频片段A整体的视频特征表示：

f＝[f₁,f₂] (4)

以此类推，可以按照上述方式分别对多个候选动作视频片段(例如，候选动作视频片段B、候选动作视频片段C、候选动作视频片段D、候选动作视频片段E、候选动作视频片段F、候选动作视频片段G、及候选动作视频片段H等) 分别划分得到的动作视频子片段进行视频特征提取，得到视频特征集合。

需要说的是，也可以直接利用三维卷积神经网络获取每个动作视频子片段的视频特征，例如，按照预设划分策略集合中的不同划分策略对候选动作视频片段进行划分，得到多个动作视频子片段后，可以将多个动作视频子片段分别输入三维卷积神经网络，并通过该三维卷积神经网络的预设卷积层输出特征信息，以及，根据输出的特征信息生成动作视频子片段的视频特征，得到视频特征集合，

在步骤S104中，通过机器学习模型并基于视频特征集合，从多个候选动作视频片段中筛选出动作视频片段。

其中，机器学习模型可以根据实际需要进行灵活设置，具体内容在此处不作限定，例如，机器学习模型可以是卷积神经网络，该机器学习模型用于筛选动作视频片段，例如，筛选出包含目标对象动作等动作视频片段，为了提高机器学习模型对动作视频片段进行筛选的精准性，可以预先对机器学习模型进行训练。

在某些实施方式中，通过机器学习模型并基于视频特征集合，从多个候选动作视频片段中筛选出动作视频片段的步骤之前，视频处理方法还可以包括：

获取多个不同时长的动作视频片段样本及动作视频片段样本的视频特征；根据动作视频片段样本和视频特征对预设模型进行训练，得到动作视频片段样本中样本对象的预测动作信息；获取动作视频片段样本中样本对象的实际动作信息；采用预设损失函数对预测动作信息和实际动作信息进行收敛，得到机器学习模型。

其中，多个不同时长的动作视频片段样本(也可以称为训练样本集合)可以包括时长为1分钟的10个动作视频片段、时长为2分钟的6个动作视频片段、时长为2分钟的9个动作视频片段、时长为3分钟的11个动作视频片段、时长为4 分钟的20个动作视频片段、以及时长为5分钟的30个动作视频片段等，该动作视频片段样本中可以包括目标对象，该目标对象可以包括人、车辆或动物等，该动作视频片段样本中可以包括正样本和负样本，该正样本可以是包含目标对象实际动作的动作视频片段，该负样本可以是不包含目标对象实际动作的动作视频片段。可以根据动作视频片段样本及其视频特征对预设模型进行训练，该预设模型可以是未训练的机器学习模型，对于一个动作视频片段样本对 Ki＝(pi，ni)，对预设模型进行训练的目标是使得正样本的概率输出远大于负样本的概率输出，具体可以如下：

其中，K是训练样本集合，p_i表示正样本，n_i表示负样本，f(p_i)表示对正样本相应的概率输出，f(n_i)表示对负样本相应的概率输出。

对预设模型进行训练时，可以利用该预设模型计算动作视频片段样本中样本对象(例如人)的预测动作信息，该预测动作信息可以包括行走、打架、偷东西或摔倒等，以及，获取动作视频片段样本中样本对象的实际动作信息，该实际动作信息可以是人工提供的真实的动作信息，然后采用预设损失函数对预测动作信息和实际动作信息进行收敛，以调整预设模型的参数至合适值，得到机器学习模型(即训练后的机器学习模型)。

其中，训练过程中采用的预设损失函数可以是如下所示：

其中，公式(6)中的各个参数与上述类似，在此不做赘述，该预设损失函数可以有利于预设模型更好地区分正样本和负样本。

在某些实施方式中，通过机器学习模型并基于视频特征集合，从多个候选动作视频片段中筛选出动作视频片段的步骤可以包括：

通过机器学习模型并基于视频特征集合，从多个候选动作视频片段中筛选出包含目标对象动作的动作视频片段，得到目标动作视频片段；获取目标动作视频片段中目标对象的预测动作信息与实际动作信息；计算预测动作信息与实际动作信息之间的重合度；从目标动作视频片段中筛选出重合度大于预设阈值的动作视频片段。

具体地，机器学习模型可以包括背景分类器和完整性分类器等，该背景分类器可以用于筛选包含目标对象动作的动作视频片段，例如筛选出存在人动作的动作视频片段；该完整性分类器可以用于筛选出重合度大于预设阈值的动作视频片段，例如，筛选出存在人动作、且人动作的预测动作信息与实际动作信息之间的重合度大于预设阈值的动作视频片段。其中，背景分类器可以给每个候选动作视频片段设置一个概率值以判断其属于背景还是包含目标对象动作，完整性分类器则判别目标动作视频片段是否完整地包含了目标对象的实际动作，通过这两种分类器的相互配合，结合分类器输出的概率值，可以实现对动作视频片段的重排序，从而提升整体效果。该完整性分类的器的输入可以包含目标动作视频片段上下文信息(例如，包含目标动作视频片段开始时间点前第一预设时间段的动作视频片段，以及结束时间点后第二预设时间段的动作视频片段)，以便于更好地判断目标动作视频片段的完整性。

此时，可以通过机器学习模型中的背景分类器并基于视频特征集合，从多个候选动作视频片段中筛选出包含目标对象动作的动作视频片段，得到目标动作视频片段，该目标动作视频片段可以包括多个，例如，从多个候选动作视频片段中筛选出存在人打架、偷东西、或摔倒等异常行为的动作视频片段。然后，可以通过机器学习模型中的完整性分类器计算目标动作视频片段中目标对象的预测动作信息与实际动作信息，以及计算预测动作信息与实际动作信息之间的重合度，以便得到目标动作视频片段的置信度，该重合度可以是预测动作信息与实际动作信息之间存在重合的概率，此时可以从目标动作视频片段中筛选出重合度大于预设阈值的动作视频片段，筛选出的动作视频片段可以包括多个，该预设阈值可以根据实际需要进行灵活设置，从而实现对大量视频的高效筛选，以及以使得可以把包含实际动作的动作视频片段全部找出来，提高了召回率。

需要说明的是，当存在多个目标动作视频片段时，可以将多个目标动作视频片段按照重合度从高至低顺序进行排序，得到排序后动作视频片段，然后，从排序后动作视频片段中，筛选出排在最前一个或多个重合度大于预设阈值的动作视频片段，有利于质量更好的动作视频片段获得更多的重视，进一步提升召回率，还可以将排在最前的动作视频片段的时间节点设置为目标对象的动作时间段。

以下将对本发明的应用场景进行举例说明，例如，在安防领域，本发明实施例可以高效定位出存在可疑动作的动作视频片段，对于发现有效信息提供帮助。具体地，首先通过安防摄像头采集待处理视频，该待处理视频可以是在安防领域中大量未经处理的视频信息，该待处理视频中可以包括用户运动等。然后，为了准确地从待处理视频中分析出包含用户动作的动作视频片段，此时可以按照预设提取策略集合中的不同提取策略，从待处理视频中提取出多个不同时长的候选动作视频片段。其次，按照预设划分策略集合中的不同划分策略对候选动作视频片段进行划分，并获取划分得到的动作视频子片段的视频特征，得到视频特征集合，其中，根据预设划分策略集合中不同划分策略所划分得到的动作视频子片段的时长不同。最后，可以通过机器学习模型并基于视频特征集合，从多个候选动作视频片段中筛选出动作视频片段，例如，通过机器学习模型并基于视频特征集合，从多个候选动作视频片段中筛选出包含用户动作的动作视频片段，得到目标动作视频片段，获取目标动作视频片段中用户的预测动作信息与实际动作信息，计算预测动作信息与实际动作信息之间的重合度，从目标动作视频片段中筛选出重合度大于预设阈值的动作视频片段。从而可以从大量未经处理的视频中筛选出有人类活动的动作视频片段，有利于从大量视频信息中挖掘有价值的信息，对于找寻有用信息以及发现重要线索都能提供很大帮助，能够极大减少安防工作人员的工作量，能够尽快发现关键人物，以及节省视频处理时间，极大地提升了效率。

又例如，在视频集锦集制作方面，本发明实施例可以在视频处理等方面也发挥着巨大作用。具体地，首先通过摄像头采集待处理视频，该待处理视频可以是需要进行视频集锦集制作的大量未经处理的视频信息，该待处理视频中可以包括用户运动等。然后，为了准确地从待处理视频中分析出包含用户动作的动作视频片段，此时可以按照预设提取策略集合中的不同提取策略，从待处理视频中提取出多个不同时长的候选动作视频片段。其次，按照预设划分策略集合中的不同划分策略对候选动作视频片段进行划分，并获取划分得到的动作视频子片段的视频特征，得到视频特征集合，其中，根据预设划分策略集合中不同划分策略所划分得到的动作视频子片段的时长不同。最后，可以通过机器学习模型并基于视频特征集合，从多个候选动作视频片段中筛选出动作视频片段，例如，通过机器学习模型并基于视频特征集合，从多个候选动作视频片段中筛选出包含用户动作的动作视频片段，得到目标动作视频片段，获取目标动作视频片段中用户的预测动作信息与实际动作信息，计算预测动作信息与实际动作信息之间的重合度，从目标动作视频片段中筛选出重合度大于预设阈值的动作视频片段。从而可以从大量未经处理的视频中筛选出有人类活动的动作视频片段，筛选出的动作视频片段通常含有较为丰富的信息，因而在视频集锦集的制作方面也可以大量减少人类的工作量。此外，筛选出的动作视频片段也为动作分类，视频理解提供了基础，即为理解视频的语义信息提供了帮助，提高了视频集锦集制作的效率。

由上可知，本发明实施例可以获取待处理视频，以及从待处理视频中提取出多个候选动作视频片段，然后按照预设划分策略集合中的不同划分策略对候选动作视频片段进行划分，并获取划分得到的动作视频子片段的视频特征，得到视频特征集合，其中，根据预设划分策略集合中不同划分策略所划分得到的动作视频子片段的时长不同；此时，可以通过机器学习模型并基于视频特征集合，从多个候选动作视频片段中筛选出动作视频片段。该方案不仅可以按照不同划分策略划分候选动作视频片段得到不同时长的动作视频子片段，从而可以捕获到目标对象产生的时间长短不一动作，而且可以通过机器学习模型并基于动作视频子片段的视频特征对动作视频片段进行筛选，提高了从视频中筛选动作视频片段的准确性及召回率。

根据上述实施例所描述的方法，以下将举例作进一步详细说明。

本实施例以视频处理装置为服务器为例，并以服务器从待处理视频中筛选出包含完整的用户A动作的动作视频片段为例进行详细说明。

请参阅图3，图3为本发明实施例提供的视频处理方法的流程示意图。该方法流程可以包括：

S201、服务器获取待处理视频，并按照预设提取策略集合中的不同提取策略，从待处理视频中提取出多个不同时长的候选动作视频片段。

例如，服务器可以接收监控设备、电脑或手机等终端发送的待处理视频，该待处理视频中可以包括用户A，还可以包括其他的物体。

由于待处理视频中可能存在不同时长的用户A动作，为了精准地从待处理视频中分析出用户A动作对应的不同时长的动作视频片段，此时，首先服务器可以预先设置包括不同提取策略的预设提取策略集合，每种提取策略提取出的候选动作视频片段的时长或个数等可以不同，同一提取策略提取出的候选动作视频片段的时长或个数等可以相同。然后，服务器可以按照预设提取策略集合中的不同提取策略从待处理视频中提取出多个不同时长的候选动作视频片段，其中，其中，多个不同时长的候选动作视频片段中包括多种时长的候选动作视频片段，而且每种时长的候选动作视频片段可以包括多个，以及该多个候选动作视频片段中可以存在重叠的时间段。

其中，从待处理视频中提取出多个不同时长的候选动作视频片段可以理解为视频动作提名，该视频动作提名是指生成一批可能包含用户A动作的动作视频片段，而不需要对动作视频片段进行动作分类。

具体地，为了提高提取效率，服务器可以利用卷积神经网络从总时长为L 的待处理视频中提取出多个候选动作视频片段：可以按照不同提取策略设置卷积神经网络的多个不同时间分辨率的输出层，例如，设置8个输出层的时间分辨率分别为L/2、L/4、L/8、L/16、L/32、L/64、L/128、及L/256等，从而可以利用具有不同时间分辨率的多个输出层从待处理视频中捕获到不同时长的动作视频片段，得到多个候选动作视频片段。例如，可以根据子时长为L/2从待处理视频中提取出多个时长为L/2的动作视频片段，可以根据子时长为L/256从待处理视频中提取出多个时长为L/256的动作视频片段等。其中，时间分辨率低的层用于捕获时长较长的动作视频片段，时间分辨率高的层用于捕获时长较短的动作视频片段。这样可以针对待处理视频中待捕获的用户A动作时间跨度较大，例如短至1秒，长至数分钟等情况，服务器可以按照不同提取策略对应的不同时间分辨率，来提取出多个不同时长的动作视频片段，因此可以提高对多种时长的动作视频片段的捕获能力。

需要说明的是，对于每个输出层，服务器还可以设置每个输出层相应的分辨率调整参数：0.5、0.75、1及1.5等，并根据分辨率参数分别对多个不同的时间分辨率进行调整，得到调整后时间分辨率，可以利用具有调整后时间分辨率的多个输出层从待处理视频中捕获到不同时长的动作视频片段，得到多个候选动作视频片段，这样不仅提升了对多种时长的候选动作视频片段的捕获能力，增加了召回率，而且提高了提取效率。

例如，如图4所示，当待处理视频的总时长为20分钟时，服务器可以根据第一提取策略从待处理视频中提取出时长为1分钟的候选动作视频片段(例如 A、E、F、及G等)，以及，可以根据第二提取策略从待处理视频中提取出时长为2分钟的候选动作视频片段(例如B和D等)，以及，可以根据第三提取策略从待处理视频中提取出时长为3分钟的候选动作视频片段(例如C和H等)，以及，可以根据第四提取策略、第五提取策略、第六提取策略、及第七提取策略分别从待处理视频中提取出时长为5分钟的候选动作视频片段(例如I等)、时长为6分钟的候选动作视频片段(例如L等)、时长为7分钟的候选动作视频片段 (例如J等)、时长为10分钟的候选动作视频片段(例如K等)，等等。其中，候选动作视频片段I与候选动作视频片段B、C和J之间可以存在重合的时间段，候选动作视频片段J与候选动作视频片段C、D和K之间可以存在重合的时间段，候选动作视频片段K与候选动作视频片段E、F、G、L和H之间可以存在重合的时间段，等等。

S202、服务器按照预设划分策略集合中的不同划分策略对候选动作视频片段进行划分，得到动作视频子片段集合，

为了提高基于视频特征筛选动作视频片段的准确性，服务器可以按照不同划分策略将候选动作视频片段平均分为多个动作视频子片段，当候选动作视频片段为多个时，可以按照不同划分策略对每个候选动作视频片段分别进行划分，此时，对于每个候选动作视频片段，可以对应得到多个动作视频子片段，该多个动作视频子片段中可以包括时长不同的动作视频子片段。

例如，如图5所示，服务器可以按照第一划分策略将总时长为10分钟的候选动作视频片段平均分为10个动作视频子片段，得到的每个动作视频子片段的时长为1分钟；以及按照第二划分策略将总时长为10分钟的候选动作视频片段平均分为5个动作视频子片段，得到的每个动作视频子片段的时长为2分钟；以及按照第三划分策略将总时长为10分钟的候选动作视频片段平均分为2个动作视频子片段，得到的每个动作视频子片段的时长为5分钟；等等。

S203、服务器利用预设的三维卷积神经网络获取待处理视频对应的目标视频特征，以及根据目标视频特征获取动作视频子片段集合的视频特征，得到视频特征集合。

为了提高获取视频特征的效率及准确性，服务器可以将待处理视频输入预设的三维卷积神经网络，并通过该三维卷积神经网络的预设卷积层(例如倒数第5层)输出特征信息，以及根据输出的特征信息生成待处理视频的目标视频特征。其中，目标视频特征可以包括用户A动作、背景、颜色分布、及光流等有效的特征信息，通过特征提取实现了对待处理视频进行降维压缩的操作，例如，可以是每8帧视频图像压缩得到1*1024维的特征向量，该特征向量可以是以数据表的形式进行存储。

在得到待处理视频对应的目标视频特征后，服务器可以获取动作视频子片段的时间节点，根据动作视频子片段的时间节点，确定划分得到的动作视频子片段在待处理视频的位置，然后根据动作视频子片段在待处理视频的位置，从目标视频特征中提取出动作视频子片段的视频特征，得到视频特征集合。

例如，由于从待处理视频中提取出的多个候选动作视频片段对应的时长的长短不一，因此可以采用多尺度的方式提取出不同时间分辨率的动作视频子片段的视频特征。具体可以分为多个阶段，在每个阶段分别将候选动作视频片段平均分成多个动作视频子片段，然后获取每个阶段对应的动作视频子片段的视频特征，所有阶段中动作视频子片段的视频特征的并集即为视频特征集合。

例如，如图5中，在第一阶段中，服务器可以将总时长为10分钟的候选动作视频片段平均分为10个动作视频子片段，并根据10个动作视频子片段的时间节点分别从目标视频特征中获取每个动作视频子片段的视频特征；以及，在第二阶段中，将总时长为10分钟的候选动作视频片段平均分为5个动作视频子片段，并根据5个动作视频子片段的时间节点分别从目标视频特征中获取每个动作视频子片段的视频特征；以及，在第三阶段中，将总时长为10分钟的候选动作视频片段平均分为2个动作视频子片段，并根据2个动作视频子片段的时间节点分别从目标视频特征中获取每个动作视频子片段的视频特征；等等。

S204、服务器通过机器学习模型并基于视频特征集合，从多个候选动作视频片段中筛选出包含目标对象动作的动作视频片段，得到目标动作视频片段。

其中，机器学习模型可以包括背景分类器和完整性分类器等，该背景分类器可以用于筛选包含用户A动作的动作视频片段，例如，背景分类器可以给每个候选动作视频片段设置一个概率值以判断其属于背景还是包含用户A动作，对于包含用户A动作越多，其概率值越高，对于包含用户A动作越少，其概率值越低；该完整性分类器可以用于筛选出重合度大于预设阈值的动作视频片段，即判别目标动作视频片段是否完整地包含了用户A的动作。对于背景分类器和完整性分类器，其对正样本产生的概率值比负样本的概率值高。例如，以背景分类器为例，正样本可以是超过80％的部分包含目标对象动作的动作视频片段(也可以称为80％的部分处在实际动作片段中)，负样本可以是指80％的部分处在背景区间内的动作视频片段。相应地，对于完整性分类器，正样本可以是指80％的部分处在实际动作片段中，且预测动作信息与实际动作信息之间彼此的重合度高于70％；负样本则可以是80％的部分处在实际动作片段中，且预测动作信息与实际动作信息之间彼此的重合度低于30％。

此时，服务器可以通过机器学习模型中的背景分类器并基于视频特征集合，从多个候选动作视频片段中筛选出包含用户A动作的动作视频片段，得到目标动作视频片段，该目标动作视频片段可以包括多个。

例如，如图6所示，可以从多个候选动作视频片段中筛选出包含用户A行走、跑步、踢脚、摔倒、或弯腰等动作的动作视频片段，得到目标动作视频片段。其中，多个目标动作视频片段中，可以存在刚好完整包含用户A动作的动作视频片段，也可以包含用户A多个动作的动作视频片段，还可以包含用户A 局部动作的动作视频片段，或者包含背景及用户A动作的动作视频片段，等等。

S205、服务器获取目标动作视频片段中目标对象的预测动作信息与实际动作信息，以及计算预测动作信息与实际动作信息之间的重合度。

服务器可以通过机器学习模型中的完整性分类器计算目标动作视频片段中目标对象的预测动作信息与实际动作信息，以及计算预测动作信息与实际动作信息之间的重合度，以便得到目标动作视频片段的置信度，该重合度可以是预测动作信息与实际动作信息之间存在重合的概率。

例如，如图7所示，在目标动作视频片段中，若重合动作视频片段中重合动作信息为c，预测动作视频片段中预测动作信息为a，实际动作视频片段中实际动作信息为b，则预测动作信息与实际动作信息之间重合度d为：d＝c/(a+b)。

S206、服务器从目标动作视频片段中筛选出重合度大于预设阈值的动作视频片段。

在得到重合度后，服务器可以从目标动作视频片段中筛选出重合度大于预设阈值的动作视频片段，筛选出的动作视频片段可以包括多个，该预设阈值可以根据实际需要进行灵活设置，例如，如图8所示，服务器可以从多个候选动作视频片段中筛选出完整包含用户A动作的动作视频片段，且该动作视频片段中可以不存在背景。从而基于背景分类器和完整性分类器对候选动作视频片段进行判别，实现对大量视频的高效筛选，以及以使得可以把包含用户A实际动作的动作视频片段全部找出来，提高了召回率。

本发明实施例中，可以按照不同提取策略从待处理视频中提取出多个不同时长的候选动作视频片段，以及按照不同划分策略划分候选动作视频片段得到不同时长的动作视频子片段，从而可以捕获到用户A产生的时间长短不一动作，而且可以利用三维卷积神经网络获取视频特征，以及通过机器学习模型并基于动作视频子片段的视频特征对动作视频片段进行筛选，提高了从视频中筛选动作视频片段的准确性及召回率。另外，在安防领域中存在大量未经处理的视频信息，利用本发明实施例提供的技术方案，可以从大量未经处理的视频中筛选出有人类活动的动作视频片段，有利于从大量视频信息中挖掘有价值的信息，对于找寻有用信息以及发现重要线索都能提供很大帮助，也为动作识别，视频语义理解提供了帮助，能够极大减少人类工作量，能够尽快发现关键人物，以及节省视频处理时间，极大地提升了效率。此外，动作视频片段通常含有较为丰富的信息，因而在视频集锦集的制作等方面也可以大量减少人类的工作量。另一方面，生成的动作视频片段也为动作分类，视频理解提供了基础，为计算机直接理解视频的语义信息提供了帮助。

为便于更好的实施本发明实施例提供的视频处理方法，本发明实施例还提供一种基于上述视频处理方法的装置。其中名词的含义与上述视频处理方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图9，图9为本发明实施例提供的视频处理装置的结构示意图，其中该视频处理装置可以包括第一获取单元301、提取单元302、划分单元303及筛选单元304等。

其中，第一获取单元301，用于获取待处理视频。

例如，第一获取单元301可以通过手机、照相机或摄像头等录制得到待处理视频，或者，可以通过在互联网上搜索或者从视频数据库中获取待处理视频等，当然，待处理视频的获取方式还可以是其他的获取方式，具体内容在此处不作限定。

提取单元302，用于从待处理视频中提取出多个候选动作视频片段。

为了准确地从待处理视频中分析出包含目标对象动作的动作视频片段，此时，提取单元302可以从待处理视频中提取出多个候选动作视频片段，其中，该多个候选动作视频片段的时长可以一致，也可以不一致，以及该多个候选动作视频片段中可以存在重叠的时间段，该多个候选动作视频片段可以随机提取或按照不同提取策略提取得到，该多个候选动作视频片段可以包括目标对象、目标对象执行动作或不存在目标对象(例如仅包括背景)等。

在某些实施方式中，如图10所示，提取单元302可以包括：

提取子单元3021，用于按照预设提取策略集合中的不同提取策略，从待处理视频中提取出多个不同时长的候选动作视频片段。

其中，预设提取策略集合中的不同提取策略可以根据实际需要进行灵活设置，由于一个待处理视频中可能存在不同时长的动作，例如，对于同一用户A，在一个待处理视频可能在1至2分钟或6至18分钟等不同时间段均存在用户A动作，为了精准地捕获不同时长的动作视频片段，提取子单元3021可以预先设置提取策略集合，该提取策略集合可以包括多种不同提取策略，每种提取策略提取出的候选动作视频片段的时长或个数等可以不同，同一提取策略提取出的候选动作视频片段的时长或个数等可以相同。此时，提取子单元3021可以按照预设提取策略集合中的不同提取策略，可以从待处理视频中提取出多个不同时长的候选动作视频片段，其中，多个不同时长的候选动作视频片段中包括多种时长的候选动作视频片段，而且每种时长的候选动作视频片段可以包括多个。

在某些实施方式中，如图11所示，提取子单元3021可以包括：

获取模块30211，用于获取待处理视频的总时长；

设置模块30212，用于按照预设提取策略集合中的不同提取策略，基于总时长设置多个不同的子时长；

提取模块30213，用于根据多个不同的子时长，从待处理视频中提取出多个不同时长的候选动作视频片段。

例如，获取模块30211可以检测出待处理视频的总时长为L，以及设置模块 30212可以按照不同提取策略，设置多个不同的子时长分别为L/2、L/4、L/8、 L/16、L/32、L/64、L/128、及L/256等，其中多个不同的子时长还可以包括其他类型的时长，在此处不作限定。此时，提取模块30213可以根据多个不同的子时长，从待处理视频中提取出多个不同时长的动作视频片段，得到多个不同时长的候选动作视频片段，这样可以针对待处理视频中待捕获的动作时间跨度较大，例如短至1秒，长至数分钟等情况，按照不同提取策略设置多个不同的子时长来提取出多个不同时长的动作视频片段，可以提高对多种时长的动作视频片段的捕获能力。

在某些实施方式中，提取模块30213具体可以用于：获取至少一个时长调整参数；根据时长调整参数分别对多个不同的子时长进行调整，得到调整后时长；根据调整后时长从待处理视频中提取出多个不同时长的候选动作视频片段。

为了进一步提升对多种时长的候选动作视频片段的捕获能力，以及提高候选动作视频片段的多样性，提取模块30213可以对子时长进行调整，例如提取模块30213，可以获取0.5、0.75、1及1.5等时长调整参数，并根据每个时长调整参数分别对多个不同的子时长进行调整，得到调整后时长。然后，可以根据调整后时长从待处理视频中提取出多个不同时长的动作视频片段，得到多个不同时长的候选动作视频片段，此时，最终得到的候选动作视频片段中可以包括根据多个不同的子时长从待处理视频中提取出的动作视频片段，以及根据调整后时长从待处理视频中提取出动作视频片段。

划分单元303，用于按照预设划分策略集合中的不同划分策略对候选动作视频片段进行划分，并获取划分得到的动作视频子片段的视频特征，得到视频特征集合。

在某些实施方式中，划分单元303可以包括：

划分子单元，用于按照预设划分策略集合中的第一划分策略对候选动作视频片段进行划分，得到多个第一动作视频子片段；以及，按照预设划分策略集合中的第二划分策略对候选动作视频片段进行划分，得到多个第二动作视频子片段；其中，第二动作视频子片段与第一动作视频子片段的时长不同。

为了提高基于视频特征筛选动作视频片段的准确性，划分子单元可以按照不同划分策略将候选动作视频片段平均分为多个动作视频子片段，例如，可以按照第一划分策略将候选动作视频片段平均分为5个动作视频子片段，得到多个第一动作视频子片段，此时，当候选动作视频片段的时长为15分钟时，得到的多个第一动作视频子片段均为3分钟；以及，可以按照第二划分策略将候选动作视频片段平均分为2个动作视频子片段，得到多个第二动作视频子片段，此时，当候选动作视频片段的时长为2分钟时，得到的多个第一动作视频子片段均为1分钟；等等，预设划分策略集合中包括的划分策略的数量可以根据实际需要进行灵活设置，当候选动作视频片段为多个时，可以按照不同划分策略对每个候选动作视频片段分别进行划分。此时，在按照预设划分策略集合中的不同划分策略分别对每个候选动作视频片段进行划分后，对于每个候选动作视频片段，可以对应得到多个动作视频子片段，该多个动作视频子片段中可以包括时长不同的动作视频子片段。

在某些实施方式中，划分单元303可以包括：

第一获取子单元，用于获取待处理视频通过预设的三维卷积神经网络中预设卷积层输出的特征信息，得到待处理视频对应的目标视频特征；

第二获取子单元，用于根据目标视频特征获取划分得到的动作视频子片段的视频特征，得到视频特征集合。

为了提高获取视频特征的效率及准确性，第一获取子单元可以利用预设的三维卷积神经网络获取待处理视频对应的目标视频特征，具体地，可以将待处理视频输入预设的三维卷积神经网络，并通过该三维卷积神经网络的预设卷积层(例如倒数第5层)输出特征信息，以及根据输出的特征信息生成待处理视频的目标视频特征，预设卷积层可以根据实际需要进行灵活设置。其中，目标视频特征可以包括人物、人物的动作、背景、颜色分布、及光流等有效的特征信息，通过特征提取实现了对待处理视频进行降维压缩的操作，例如，可以是每8帧视频图像压缩得到1*1024维的特征信息。在得到待处理视频的目标视频特征后，第二获取子单元可以根据目标视频特征获取划分得到的各个动作视频子片段的视频特征，得到视频特征集合。

在某些实施方式中，第二获取子单元具体可以用于：获取动作视频子片段的时间节点；根据动作视频子片段的时间节点，确定划分得到的动作视频子片段在待处理视频的位置；根据动作视频子片段在待处理视频的位置，从目标视频特征中提取出动作视频子片段的视频特征，得到视频特征集合。

例如，由于从待处理视频中提取出的多个候选动作视频片段对应的时长的长短不一，因此第二获取子单元可以采用多尺度的方式提取出不同时间分辨率的动作视频子片段的视频特征。

在阶段一中，可以将候选动作视频片段A平均分成多个(例如5个)动作视频子片段，对于第i个动作视频子片段，获取第i个动作视频子片段的时间节点，其时间节点为[s_1i，e_1i]，该第i个动作视频子片段的视频特征可以按照上述公式(1)进行计算。

其中，在得到第i个动作视频子片段的时间节点后，可以根据动作视频子片段的时间节点，确定划分得到的动作视频子片段在待处理视频的位置，例如可以是在待处理视频中从时间节点s_1i至e_1i之间的位置，然后根据动作视频子片段在待处理视频的位置从目标视频特征中提取出动作视频子片段的视频特征 p_t，p_t是利用三维卷积神经网络获取到待处理视频的目标视频特征中的局部视频特征，在候选动作视频片段A对应的每个动作视频子片段的视频特征均计算完毕后，若该候选动作视频片段A被划分为5个动作视频子片段，则该候选动作视频片段A在阶段一中的视频特征f₁可以用上述公式(2)表示。此时由于阶段一中候选动作视频片段A被划分得到的动作视频子片段数量较多，因此通过阶段一获取的视频特征表示具有较高的时间分辨率，但感受野较小。

在阶段二中，候选动作视频片段A被平均分成多个(例如2个)动作视频子片段，按照上述公式(1)分别计算这2个动作视频子片段的视频特征，相应得到的候选动作视频片段在阶段二中的视频特征f₂可以用上述公式(3)表示。此时由于阶段二中候选动作视频片段A被划分得到的动作视频子片段数量较少，因此，通过阶段二获取的视频特征，时间分辨率较低，但感受野大。

然后，将这两个阶段获取的视频特征串联，从而可以获得对候选动作视频片段A整体的视频特征可以用上述公式(4)表示。以此类推，可以按照上述方式分别对多个候选动作视频片段分别划分得到的动作视频子片段进行视频特征提取，得到视频特征集合。

筛选单元304，用于通过机器学习模型并基于视频特征集合，从多个候选动作视频片段中筛选出动作视频片段。

在某些实施方式中，视频处理装置还可以包括：

第二获取单元，用于获取多个不同时长的动作视频片段样本及动作视频片段样本的视频特征；

训练单元，用于根据动作视频片段样本和视频特征对预设模型进行训练，得到动作视频片段样本中样本对象的预测动作信息；

第三获取单元，用于获取动作视频片段样本中样本对象的实际动作信息；

收敛单元，用于采用预设损失函数对预测动作信息和实际动作信息进行收敛，得到机器学习模型。

其中，多个不同时长的动作视频片段样本可以根据实际需要进行灵活设置，该动作视频片段样本中可以包括目标对象，该目标对象可以包括人、车辆或动物等，该动作视频片段样本中可以包括正样本和负样本，该正样本可以是包含目标对象实际动作的动作视频片段，该负样本可以是不包含目标对象实际动作的动作视频片段。在第二获取单元获取到动作视频片段样本后，训练单元可以根据动作视频片段样本及其视频特征对预设模型进行训练，该预设模型可以是未训练的机器学习模型。对预设模型进行训练时，第三获取单元可以利用该预设模型计算动作视频片段样本中样本对象(例如人)的预测动作信息，该预测动作信息可以包括行走、打架、偷东西或摔倒等，以及，第三获取单元获取动作视频片段样本中样本对象的实际动作信息，该实际动作信息可以是人工提供的真实的动作信息，然后收敛单元采用预设损失函数对预测动作信息和实际动作信息进行收敛，以调整预设模型的参数至合适值，得到机器学习模型(即训练后的机器学习模型)。

在某些实施方式中，筛选单元304具体可以用于：通过机器学习模型并基于视频特征集合，从多个候选动作视频片段中筛选出包含目标对象动作的动作视频片段，得到目标动作视频片段；获取目标动作视频片段中目标对象的预测动作信息与实际动作信息；计算预测动作信息与实际动作信息之间的重合度；从目标动作视频片段中筛选出重合度大于预设阈值的动作视频片段。

具体地，机器学习模型可以包括背景分类器和完整性分类器等，该背景分类器可以用于筛选包含目标对象动作的动作视频片段，例如筛选出存在人动作的动作视频片段；该完整性分类器可以用于筛选出重合度大于预设阈值的动作视频片段，例如，筛选出存在人动作、且人动作的预测动作信息与实际动作信息之间的重合度大于预设阈值的动作视频片段。其中，背景分类器可以给每个候选动作视频片段设置一个概率值以判断其属于背景还是包含目标对象动作，完整性分类器则判别目标动作视频片段是否完整地包含了目标对象的实际动作，通过这两种分类器的相互配合，结合分类器输出的概率值，可以实现对动作视频片段的重排序，从而提升整体效果。该完整性分类的器的输入可以包含目标动作视频片段上下文信息，以便更好地判断目标动作视频片段的完整性。

此时，筛选单元304可以通过机器学习模型中的背景分类器并基于视频特征集合，从多个候选动作视频片段中筛选出包含目标对象动作的动作视频片段，得到目标动作视频片段，该目标动作视频片段可以包括多个，例如，从多个候选动作视频片段中筛选出存在人打架、偷东西、或摔倒等异常行为的动作视频片段。然后，可以通过机器学习模型中的完整性分类器计算目标动作视频片段中目标对象的预测动作信息与实际动作信息，以及计算预测动作信息与实际动作信息之间的重合度，以便得到目标动作视频片段的置信度，该重合度可以是预测动作信息与实际动作信息之间存在重合的概率，此时可以从目标动作视频片段中筛选出重合度大于预设阈值的动作视频片段，筛选出的动作视频片段可以包括多个，该预设阈值可以根据实际需要进行灵活设置，从而实现对大量视频的高效筛选，以及以使得可以把包含实际动作的动作视频片段全部找出来，提高了召回率。例如，在安防领域方面，本发明实施例可以高效定位出存在可疑动作的时间段，对于发现有效信息提供帮助。另外，在视频集锦集制作方面，本发明实施例可以在视频处理等方面也发挥着巨大作用。

由上可知，本发明实施例可以由第一获取单元301获取待处理视频，以及由提取单元302从待处理视频中提取出多个候选动作视频片段，然后由划分单元303按照预设划分策略集合中的不同划分策略对候选动作视频片段进行划分，并获取划分得到的动作视频子片段的视频特征，得到视频特征集合，其中，根据预设划分策略集合中不同划分策略所划分得到的动作视频子片段的时长不同；此时，筛选单元304可以通过机器学习模型并基于视频特征集合，从多个候选动作视频片段中筛选出动作视频片段。该方案不仅可以按照不同划分策略划分候选动作视频片段得到不同时长的动作视频子片段，从而可以捕获到目标对象产生的时间长短不一动作，而且可以通过机器学习模型并基于动作视频子片段的视频特征对动作视频片段进行筛选，提高了从视频中筛选动作视频片段的准确性及召回率。

本发明实施例还提供一种视频处理设备，该视频处理设备可以是服务器或终端等，如图12所示，其示出了本发明实施例所涉及的视频处理设备的结构示意图，具体来讲：

该视频处理设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图12中示出的视频处理设备结构并不构成对视频处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该视频处理设备的控制中心，利用各种接口和线路连接整个视频处理设备的各个部分，通过运行或执行存储在存储器402内的软件程序和 /或模块，以及调用存储在存储器402内的数据，执行视频处理设备的各种功能和处理数据，从而对视频处理设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器 402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据视频处理设备的使用所创建的数据等。此外，存储器402 可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402 还可以包括存储器控制器，以提供处理器401对存储器402的访问。

视频处理设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该视频处理设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，视频处理设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，视频处理设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器 401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取待处理视频；从待处理视频中提取出多个候选动作视频片段；按照预设划分策略集合中的不同划分策略对候选动作视频片段进行划分，并获取划分得到的动作视频子片段的视频特征，得到视频特征集合；通过机器学习模型并基于视频特征集合，从多个候选动作视频片段中筛选出动作视频片段；其中，根据预设划分策略集合中不同划分策略所划分得到的动作视频子片段的时长不同。

可选地，从待处理视频中提取出多个候选动作视频片段的步骤可以包括：按照预设提取策略集合中的不同提取策略，从待处理视频中提取出多个不同时长的候选动作视频片段。

可选地，获取划分得到的动作视频子片段的视频特征，得到视频特征集合的步骤可以包括：获取待处理视频通过预设的三维卷积神经网络中预设卷积层输出的特征信息，得到待处理视频对应的目标视频特征；根据目标视频特征获取划分得到的动作视频子片段的视频特征，得到视频特征集合。

可选地，通过机器学习模型并基于视频特征集合，从多个候选动作视频片段中筛选出动作视频片段的步骤可以包括：通过机器学习模型并基于视频特征集合，从多个候选动作视频片段中筛选出包含目标对象动作的动作视频片段，得到目标动作视频片段；获取目标动作视频片段中目标对象的预测动作信息与实际动作信息；计算预测动作信息与实际动作信息之间的重合度；从目标动作视频片段中筛选出重合度大于预设阈值的动作视频片段。

例如，在安防领域，本发明实施例可以高效定位出存在可疑动作的动作视频片段，对于发现有效信息提供帮助。具体地，首先通过安防摄像头采集待处理视频，该待处理视频可以是在安防领域中大量未经处理的视频信息，该待处理视频中可以包括用户运动等。然后，为了准确地从待处理视频中分析出包含用户动作的动作视频片段，此时可以按照预设提取策略集合中的不同提取策略，从待处理视频中提取出多个不同时长的候选动作视频片段。其次，按照预设划分策略集合中的不同划分策略对候选动作视频片段进行划分，并获取划分得到的动作视频子片段的视频特征，得到视频特征集合，其中，根据预设划分策略集合中不同划分策略所划分得到的动作视频子片段的时长不同。最后，可以通过机器学习模型并基于视频特征集合，从多个候选动作视频片段中筛选出动作视频片段，例如，通过机器学习模型并基于视频特征集合，从多个候选动作视频片段中筛选出包含用户动作的动作视频片段，得到目标动作视频片段，获取目标动作视频片段中用户的预测动作信息与实际动作信息，计算预测动作信息与实际动作信息之间的重合度，从目标动作视频片段中筛选出重合度大于预设阈值的动作视频片段。从而可以从大量未经处理的视频中筛选出有人类活动的动作视频片段，有利于从大量视频信息中挖掘有价值的信息，对于找寻有用信息以及发现重要线索都能提供很大帮助，能够极大减少安防工作人员的工作量，能够尽快发现关键人物，以及节省视频处理时间，极大地提升了效率。

又例如，在视频集锦集制作方面，本发明实施例可以在视频处理等方面也发挥着巨大作用，按照上述步骤可以从大量未经处理的视频中筛选出有人类活动的动作视频片段，筛选出的动作视频片段通常含有较为丰富的信息，因而在视频集锦集的制作方面也可以大量减少人类的工作量。此外，筛选出的动作视频片段也为动作分类，视频理解提供了基础，即为理解视频的语义信息提供了帮助，提高了视频集锦集制作的效率。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对视频处理方法的详细描述，此处不再赘述。

由上可知，本发明实施例可以获取待处理视频，以及从待处理视频中提取出多个候选动作视频片段，然后按照预设划分策略集合中的不同划分策略对候选动作视频片段进行划分，并获取划分得到的动作视频子片段的视频特征，得到视频特征集合，其中，根据预设划分策略集合中不同划分策略所划分得到的动作视频子片段的时长不同；此时，可以通过机器学习模型并基于视频特征集合，从多个候选动作视频片段中筛选出动作视频片段。该方案不仅可以按照不同划分策略划分候选动作视频片段得到不同时长的动作视频子片段，而且可以通过机器学习模型并基于动作视频子片段的视频特征对动作视频片段进行筛选，提高了从视频中筛选动作视频片段的准确性及召回率。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种视频处理方法中的步骤。例如，该指令可以执行如下步骤：

可选地，该指令还可以执行如下步骤：

按照预设提取策略集合中的不同提取策略，从待处理视频中提取出多个不同时长的候选动作视频片段。

可选地，该指令还可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种视频处理方法中的步骤，因此，可以实现本发明实施例所提供的任一种视频处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种视频处理方法、装置、设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频处理方法，其特征在于，包括：

获取待处理视频；

从所述待处理视频中提取出多个候选动作视频片段；

2.根据权利要求1所述的视频处理方法，其特征在于，所述从所述待处理视频中提取出多个候选动作视频片段的步骤包括：

按照预设提取策略集合中的不同提取策略，从所述待处理视频中提取出多个不同时长的候选动作视频片段。

3.根据权利要求2所述的视频处理方法，其特征在于，所述按照预设提取策略集合中的不同提取策略，从所述待处理视频中提取出多个不同时长的候选动作视频片段的步骤包括：

获取所述待处理视频的总时长；

按照预设提取策略集合中的不同提取策略，基于所述总时长设置多个不同的子时长；

根据多个不同的子时长，从所述待处理视频中提取出多个不同时长的候选动作视频片段。

4.根据权利要求3所述的视频处理方法，其特征在于，所述根据多个不同的子时长，从所述待处理视频中提取出多个不同时长的候选动作视频片段的步骤包括：

获取至少一个时长调整参数；

根据所述时长调整参数分别对多个不同的子时长进行调整，得到调整后时长；

根据所述调整后时长从所述待处理视频中提取出多个不同时长的候选动作视频片段。

5.根据权利要求1所述的视频处理方法，其特征在于，所述按照预设划分策略集合中的不同划分策略对所述候选动作视频片段进行划分的步骤包括：

按照预设划分策略集合中的第一划分策略对所述候选动作视频片段进行划分，得到多个第一动作视频子片段；

按照预设划分策略集合中的第二划分策略对所述候选动作视频片段进行划分，得到多个第二动作视频子片段；

其中，所述第二动作视频子片段与所述第一动作视频子片段的时长不同。

6.根据权利要求1所述的视频处理方法，其特征在于，所述获取划分得到的动作视频子片段的视频特征，得到视频特征集合的步骤包括：

获取所述待处理视频通过预设的三维卷积神经网络中预设卷积层输出的特征信息，得到所述待处理视频对应的目标视频特征；

根据所述目标视频特征获取划分得到的动作视频子片段的视频特征，得到视频特征集合。

7.根据权利要求6所述的视频处理方法，其特征在于，所述根据所述目标视频特征获取划分得到的动作视频子片段的视频特征，得到视频特征集合的步骤包括：

获取动作视频子片段的时间节点；

根据所述动作视频子片段的时间节点，确定划分得到的动作视频子片段在所述待处理视频的位置；

根据所述动作视频子片段在所述待处理视频的位置，从所述目标视频特征中提取出所述动作视频子片段的视频特征，得到视频特征集合。

8.根据权利要求1至7任一项所述的视频处理方法，其特征在于，所述通过机器学习模型并基于所述视频特征集合，从所述多个候选动作视频片段中筛选出动作视频片段的步骤之前，所述方法还包括：

获取多个不同时长的动作视频片段样本及动作视频片段样本的视频特征；

根据所述动作视频片段样本和视频特征对预设模型进行训练，得到所述动作视频片段样本中样本对象的预测动作信息；

获取所述动作视频片段样本中样本对象的实际动作信息；

采用预设损失函数对所述预测动作信息和实际动作信息进行收敛，得到机器学习模型。

9.根据权利要求1至7任一项所述的视频处理方法，其特征在于，所述通过机器学习模型并基于所述视频特征集合，从所述多个候选动作视频片段中筛选出动作视频片段的步骤包括：

通过机器学习模型并基于所述视频特征集合，从所述多个候选动作视频片段中筛选出包含目标对象动作的动作视频片段，得到目标动作视频片段；

获取所述目标动作视频片段中目标对象的预测动作信息与实际动作信息；

计算所述预测动作信息与实际动作信息之间的重合度；

从所述目标动作视频片段中筛选出重合度大于预设阈值的动作视频片段。

10.一种视频处理装置，其特征在于，包括：

第一获取单元，用于获取待处理视频；

11.根据权利要求10所述的视频处理装置，其特征在于，所述提取单元包括：

提取子单元，用于按照预设提取策略集合中的不同提取策略，从所述待处理视频中提取出多个不同时长的候选动作视频片段。

12.根据权利要求11所述的视频处理装置，其特征在于，所述提取子单元包括：

获取模块，用于获取所述待处理视频的总时长；

设置模块，用于按照预设提取策略集合中的不同提取策略，基于所述总时长设置多个不同的子时长；

提取模块，用于根据多个不同的子时长，从所述待处理视频中提取出多个不同时长的候选动作视频片段。

13.一种视频处理设备，包括存储器和处理器，其特征在于，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

获取待处理视频；

从所述待处理视频中提取出多个候选动作视频片段；

14.根据权利要求13所述的视频处理设备，其特征在于，所述处理器还执行以下步骤：

计算所述预测动作信息与实际动作信息之间的重合度；

15.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至11任一项所述的视频处理方法中的步骤。