CN112381071A

CN112381071A - 一种视频流中目标的行为分析方法、终端设备及介质

Info

Publication number: CN112381071A
Application number: CN202110030548.0A
Authority: CN
Inventors: 李成功; 童志军; 丁小羽
Original assignee: Shanghai Readsense Network Technology Co ltd; Shenzhen Yixin Vision Technology Co ltd
Current assignee: Shanghai Readsense Network Technology Co ltd; Shenzhen Yixin Vision Technology Co ltd
Priority date: 2021-01-11
Filing date: 2021-01-11
Publication date: 2021-02-19

Abstract

本申请适用于视频处理技术领域，提供了一种视频流中目标的行为分析方法、终端设备及介质，所述方法包括：从视频流中提取出待处理的视频帧序列，所述待处理的视频帧序列包括第一数量的第一样本视频帧；从所述待处理的视频帧序列中裁剪出目标图像序列，所述目标图像序列包括预设目标的多个人头图像帧；采用预设的基础网络从所述目标图像序列中提取出所述目标的多个特征；根据所述人头图像帧序列的多个特征，确定所述目标的行为。通过上述方法，能够减小行为分析过程中的计算量，增强行为分析的准确性。

Description

一种视频流中目标的行为分析方法、终端设备及介质

技术领域

本申请属于视频处理技术领域，尤其涉及一种视频流中目标的行为分析方法、终端设备及介质。

背景技术

随着科技的发展，图像、视频处理技术得到了很大的进步。行为识别作为视频处理中热门的方向，一直吸引着大量研究人员的注意。但是行为识别中面临着很多待解决的困难，比如行为动作的场景适应性、行为动作的时序长短、行为分析方法的复杂性等。针对具体的教室场景中目标站立行为分析，其中会存在更多实际应用的问题，比如前后目标的遮挡、目标站立过程的快慢、目标相似动作干扰等。同时，如何对实时视频进行在线行为分析，如何更好地解决目前存在的这些问题，是行为分析类方法落地到实际应用中的关键。

目前目标行为分析主要有两大研究方向，一类是双流法，即光流图像和RGB图像结合；另一类是3D卷积方法。

现有的这些方法中，都是针对公开测试集进行的验证和调试，没有考虑到实际应用场景中各种干扰、动作行为多变等问题。同时，现有方法中光流信息的提取和3D卷积网络的计算，都会产生非常大的计算量，增加了在线实时分析的难度。另一方面，这些方法都是针对离线已裁剪视频或者图像序列操作，不能很好的适应在线视频的实时行为分析。

发明内容

本申请实施例提供了一种视频流中目标的行为分析方法、终端设备及介质，可以提高行为分析的准确率。

第一方面，本申请实施例提供了一种视频流中目标的行为分析方法，包括：

从视频流中提取出待处理的视频帧序列，所述待处理的视频帧序列包括第一数量的第一样本视频帧；

从所述待处理的视频帧序列中裁剪出目标图像序列，所述目标图像序列包括预设目标的多个人头图像帧；

采用预设的基础网络从所述目标图像序列中提取出所述目标的多个特征；

根据所述目标图像序列的多个特征，确定所述目标的行为。

第二方面，本申请实施例提供了一种视频流中目标的行为分析装置，包括：

视频帧序列提取模块，用于从视频流中提取出待处理的视频帧序列，所述待处理的视频帧序列包括第一数量的第一样本视频帧；

目标图像序列获取模块，用于从所述待处理的视频帧序列中裁剪出目标图像序列，所述目标图像序列包括预设目标的多个人头图像帧；

特征提取模块，用于采用预设的基础网络从所述目标图像序列中提取出所述目标的多个特征；

分析模块，用于根据所述目标图像序列的多个特征，确定所述目标的行为。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的方法。

本申请实施例与现有技术相比存在的有益效果是：在本申请实施例中，从视频流中提取出待处理的视频帧序列，然后根据视频帧序列提取出对应的目标图像序列；然后采用基础网络提取目标图像序列中每个图像的多个特征，并根据每个人头图像帧对应的多个特征，获取目标图像序列的融合特征，再根据融合特征，确定目标的行为。在本申请中，采用基于RGB图像的2D基础网络进行特征提取，可以大大降低本方法的计算量，从而更好地进行实时视频的在线处理；同时，在分析行为时，采用了融合特征，可以增强行为分析的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一提供的一种视频流中目标的行为分析方法的流程示意图；

图2是本申请实施例一提供的在初始时刻提取视频帧序列的示意图；

图3是本申请实施例一提供的视频帧序列与视频流的关系对应图；

图4是本申请实施例一提供的在t+1时刻提取视频帧序列的示意图；

图5是本申请实施例二提供的一种视频流中目标的行为分析方法的流程示意图；

图6是本申请实施例二提供的图像处理过程的示意图；

图7是本申请实施例二提供的特征融合过程的示意图；

图8是本申请实施例三提供的一种视频流中目标的行为分析方法的模型示意图；

图9是本申请实施例四提供的一种视频流中目标的行为分析装置的结构示意图；

图10是本申请实施例五提供的一种终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

双流法是TSN，即TemporalSegmentNetworks。该方法处理的是已裁剪的视频图像。对输入的视频图像，按照视频长度对其进行一定数目的等分，然后从每份截断视频中随机选择一帧RGB图像作为输入图像，输入到RGB特征网络中提取RGB图像的特征。同时，对视频提取其光流图像，对所有的光流图像序列进行同样的等分操作，然后从每个等份中选择光流图像作为输入图像，输入到光流特征网络中提取光流图像的特征。针对多份RGB图像特征和光流图像特征，分别进行同类特征融合后得到每类图像的行为分析结果，最后再对两类分析结果进行求平均融合，提升行为识别的准确性。双流法在视频采样过程中，还是按照离线视频处理方法，对已裁剪的视频进行固定数目的切分操作，而对于实时在线视频是不适合的；同时，对于多个RGB图像的特征或者多个光流图像特征的融合过程，选取了求平均的融合方式，忽略了输入图像序列的时序特性，降低了行为分析结果的准确性；另一方面，双流法中需要提取视频图像的光流图像信息，光流信息的加入虽然可以在一定程度上提升动作行为分析的结果，但是提取图像光流需要非常大的计算量，对行为分析的实时性造成了很大的影响。

还有另外一种对视频目标行为分析方法是3D卷积和光流信息结合的方法I3D，即Inflated3DConvNet，该方法处理的仍然是已裁剪视频图像。对输入的视频图像，采用固定帧间隔采样得到固定数目的帧图像组成RGB图像序列作为3D网络输入，在保证足够采样帧的前提下，随机选择采样起始帧图像。同样，对视频提取光流图像，采用相同的采样策略得到光流图像序列输入到3D光流网络中。分别得到RGB图像3D网络的行为分类结果和光流图像3D网络的行为分类结果，最后再对两类分析结果进行求平均融合。I3D方法使用了3D网络和双流结构两种融合的方法。同样，对于视频提取光流图像信息，需要耗费很大的计算资源；同时，采用3D卷积对行为图像序列进行时序融合，可以比求平均融合方式取得更好的结果，但是整体3D网络的复杂度也是普通2D网络的几何倍增长。这两种结构融合虽然能够很好的提升I3D在公开测试集中的测试结果，但是因为庞大的计算复杂度，非常不适合在线视频的实时处理。另一方面，对于输入图像序列的随机采样方式也是针对裁剪后离线视频做出的处理方法，不能够很好的处理在线实时视频。

实时视频和已经裁剪的离线视频不同，没法给出行为动作序列的具体长度，所以对于视频的采样策略，不论是等分后随机抽帧采样还是随机选择起始帧后固定帧间隔采样，都不适合。针对于此，本实施例中，在选取样本视频帧时，采用了非等间隔采样方式，对靠近当前帧一段时间内的视频段采用小间隔采样，对远离当前帧的相同时间段的视频段进行大间隔采样。结合不同时间间隔的视频帧信息，可以对不同长短时间的动作行为进行有效处理，避免了随机采样或者等间隔采样所面临的无法兼顾长短行为分析问题。

下面结合具体的实施例对本申请提供的视频流中目标的行为分析方法进行介绍。

图1是本申请实施例一提供的一种视频流中目标的行为分析方法的流程示意图，如图1所示，所述方法包括：

S101，从视频流中提取出待处理的视频帧序列。

具体地，本实施例中方法的执行主体为终端设备。本实施例中方法具体可以用于分析教室场景中的举手和站立行为。

上述视频流可以为实时视频，上述待处理的视频帧序列为进行一次行为分析时所提取的样本，每个视频帧序列中包括第一数量的第一样本视频帧。由于视频流为实时视频，故视频流中会不断地输入新的视频帧，每当视频流中重新输入一些视频帧时，可以提取一次视频帧序列，进行行为分析。

具体地，可以确定视频流中初始位置的初始视频帧；将从初始视频帧开始且长度为第一数量的视频帧序列作为初始视频帧序列。从初始视频帧序列中，确定第二数量的第二样本视频帧；当视频流中新输入第三数量的临时视频帧时，从第三数量的临时视频帧中提取出第四数量的临时样本视频帧；按照时间顺序，将第二样本视频帧和临时样本视频帧组合成待处理的视频帧序列；当视频流中再次输入第三数量的临时视频帧时，根据待处理的视频帧序列和再次输入的临时视频帧，确定新的待处理的视频帧序列。其中，第二数量与第四数量的和等于第一数量，第三数量大于所述第四数量。

相当于，待处理的视频帧序列由视频流中新输入的视频帧以及前一个视频帧序列决定，因此，提取出的视频帧序列中既包括了历史图像信息，也包括了当前的图像信息。

待处理的视频帧序列的提取方法，具体可以如下：

a.在视频流开始阶段，直接将前N帧图像输入到样本帧序列中，N为视频帧序列的长度。

b. 对样本帧序列进行抽样，得到新的采样帧序列，其中新的采样帧序列的帧图像数目为n，n<N。抽样帧间隔主要考虑因素是待分析的动作行为整体持续时长。如果采样帧间隔过大，那么当前采样帧序列中图像保留的就会比较少。在下一次基础网络的分析过程中，历史图像信息就会变少，整体行为分析会更有利于短时行为过程的判断。反之，则会更有利于长时行为过程的分析。

c. 对视频流中新输入的视频帧图像进行临时保存处理。将视频流中新输入的视频帧图像放到到待处理的临时图像序列中，等待该临时图像序列中的图像数大于指定数目K，数目K要求不小于N - n。

d. 当临时图像序列中图像帧数目大于指定数目K时，对临时图像序列进行抽样处理。如果K大于N - n，则对临时图像序列进行等间隔抽帧处理。抽样帧间隔由最终序列长度N - n决定，最终得到新的长度为N - n的临时图像序列。

e. 将b中抽样后的新采样帧序列和d中新长度为N - n的临时图像序列组成新的样本视频帧图像序列，序列长度为N。组合过程中依然需要保持图像的时序顺序。

f. 跳转步骤b重复流程。

具体地，图2是本实施例提供的在初始时刻提取视频帧序列的示意图，如图2所示，是以N等于4为例来进行说明的，同时将n设置为2，K设置为4。参照图2，初始时刻，可以将初始时刻视频流中的前四帧图像作为初始视频帧序列，图2 中的初始视频帧序列中的四个样本视频帧Frame0、Frame1、Frame2和Frame3，分别对应视频流的第一帧视频、第二帧视频、第三帧视频和第四帧视频。从初始视频帧序列中采样得到2个视频帧，即从初始视频帧序列中，等间隔抽取初始视频帧序列中的2个视频帧Frame1和Frame3；等待视频流中新输入4个视频帧后，从新输入的4个视频帧中再抽样2个视频帧；将从初始样本视频帧序列中采样得到的2个视频帧，和从新输入的4个视频帧中抽样得到的2个视频帧，作为第二样本视频帧序列。再次从第二样本视频帧序列中采样得到2个视频帧，等待视频流中再次新输入4个视频帧后，从新输入的4个视频帧中抽样2个视频帧；将从第二样本视频帧序列中采样得到的2个视频帧，和从新输入的4个视频帧中抽样得到的2个视频帧，作为第三样本视频帧序列。以此类推进行采样。图3是本实施例提供的视频帧序列与视频流的关系对应图。图3的视频帧序列可以为第三样本视频帧序列，参照图3，视频帧序列中的前两帧图像的间隔为4，而后两帧图像的间隔为2。

图4是本实施例提供的在t+1时刻提取视频帧序列的示意图。参照图4，在t时刻确定了一个视频帧序列后，从t时刻确定的视频帧序列中以等间隔选择两个视频帧Frame1和Frame3；当视频流中重新输入4个视频帧到t+1时刻时，从视频流在t时刻和t+1时刻之间输入的4个视频帧中选择2个视频帧。将从t时刻确定的视频帧序列中选择的两个视频帧Frame1和Frame3，和视频流在t时刻和t+1时刻之间输入的4个视频帧中选择的2个视频帧，组合为t+1时刻的视频帧序列，然后基于t+1时刻确定的视频帧序列，对t时刻和t+1时刻之间的目标行为进行分析。t时刻确定的视频帧序列中选择的两个视频帧Frame1和Frame3，分别相当于t+1时刻确定的视频帧序列中的Frame0和Frame1。

S102，从所述待处理的视频帧序列中裁剪出目标图像序列。

上述目标图像序列可以包括预设目标的多个人头图像帧，预设目标是指需要进行行为分析的对象，例如，预设目标可以为教室中的某一位学生。

视频帧中，除了需要进行行为分析的目标外，还可能包括其他背景，在进行行为分析时，可以从视频帧中，裁剪出需要的目标图像，只对目标图像进行处理。

具体地，每个样本视频帧帧中可以包括裁剪一个目标图像，从视频帧序列中裁剪出对应的多个目标图像，将多个目标图像按时间顺序组合为目标图像序列。

S103，采用预设的基础网络从所述目标图像序列中提取出所述目标的多个特征。

具体地，上述基础网络可以为Inception、ResNet、ShuffleNet、MobileNet等。采用基础网络对目标图像序列中的各个图像进行特征提取，可以获取到每帧图像对应的多维行为特征。目标图像序列中的每个图像都对应提取出一个多维特征，则一个图像队列中可以对应提取出多个特征。

S104，根据所述目标图像序列的多个特征，确定所述目标的行为。

具体地，目标图像序列中的每帧图像对应一个多维行为特征，按照时间先后顺序，将各个行为特征组合为一个多维的融合向量，融合向量的维数可以等于每帧图像对应的行为特征的维数与上述第一数量的乘积。

将新生成的多维的融合向量输入一个简单的卷积网络，通过卷积网络对时序行为特征进行更好的学习。经过卷积网络学习后输出新的融合特征，将融合特征输入后续分类网络并结合前置条件得到对于目标的行为分析结果。

在本实施例中，采用了非等间隔采样的方式从视频流中提取样本视频帧，使得提取的视频帧序列中既可以包括历史图像信息，便于分析目标的长时间行为过程；又包括新输入的视频帧的信息，便于分析目标的短时间行为过程。因此以基于提取的视频帧序列，结合不同时间间隔的帧信息，可以对不同长短时间的动作行为进行有效处理，从而更好地分析目标的行为。

图5是本申请实施例二提供的一种视频流中目标的行为分析方法的流程示意图，参照图5，所述方法包括：

S501，在所述视频流的每一视频帧中检测目标人头图像，并将检测到的所述目标人头图像的位置坐标添加到预设的跟踪队列中。

具体地，本申请实施例的执行主体为终端设备。本实施例中方法可以应用在教室场景中，用于分析教室中学生的站立和举手行为。

具体地，在对目标的行为进行分析时，可以采用目标的人头图像进行分析。可以采用目标追踪算法，检测每一个视频帧中的人头图像，获取人头图像的位置坐标。

具体地，上述视频流为实时视频，视频流中会不断输入新的视频帧，可以对视频流中的每一帧图像进行人头检测和跟踪，并保存每帧图像中人头跟踪结果到预设的跟踪队列中。

S502，当所述视频流中的视频帧数量大于预设阈值时，计算所述跟踪队列中的目标人头图像的平均位置坐标。

具体地，当视频流中持续帧数超过一定数目时，开始对跟踪队列中每个人头的跟踪结果进行统计分析。

具体地，在视频流的每一视频帧中检测目标人头图像，可以得到每一个视频帧中目标人头图像的位置坐标，基于这些位置坐标，可以计算跟踪队列中目标人头图像的平均位置坐标。

S503，根据所述平均位置坐标，修正所述跟踪队列中的异常位置坐标。

具体地，可以通过平均位置坐标值对跟踪结果中的异常偏离点进行过滤，再对平均坐标值进行修正。

具体地，计算当前视频帧中相应目标人头图像的位置坐标与平均位置坐标的距离差值，该距离差值可以作为后续站立行为的判断条件之一。当站立行为发生时，目标人头位置都会有一个向上的运动偏移。通过设置合适的距离阈值，可以对抬头、弯腰、俯身等相似干扰动作进行过滤，加强整体行为分析的准确性。

S504，确定修正后的所述跟踪队列中每个目标人头图像的裁剪范围。

具体地，根据目标人头图像的位置坐标确定目标人头图像的裁剪范围，裁剪范围可以对目标人头的跟踪结果进行一定规则的比例扩大。

具体地，S501-S504的图像处理过程可以如图6所示。参照图6，对当前帧图像进行人头检测跟踪，然后将跟踪结果加入到每个对应人头的结果跟踪队列中，判断跟踪队列的长度是否超过设定阈值，若不超过，则继续进行人头检测跟踪，并将跟踪结果加入到每个对应人头的结果跟踪队列中；若跟踪队列的长度超过设定阈值，则计算相应人头跟踪队列中对应的平均位置坐标，再对平均位置坐标进行修正，计算当前人头位置与平均位置之间的距离差值，并根据人头跟踪结果计算裁剪图像范围，然后依据裁剪图像范围，可以对图像进行裁剪。

对视频流中图像进行处理，可以得到多个跟踪队列，每个跟踪队列可以对应一个人头。例如，可以根据识别结果为教室中的每个学生建立一个跟踪队列。

S505，从视频流中提取出待处理的视频帧序列。

本实施例中的S505与上述实施例一中的S101相似，可以相互参考，在此不赘述。

S506，根据每个所述第一样本视频帧对应的目标人头图像的裁剪范围，分别从所述第一样本视频帧中裁剪出多个目标图像；

具体地，根据每个第一样本视频帧对应的目标人头图像的裁剪范围，从第一样本视频帧中裁剪出人头图像。该人头图像为预设的一个目标，即，裁剪出的人头图像是同一个人在不同的视频帧中的图像。

S507，按时间顺序，将所述多个目标图像组合为所述目标图像序列。

具体地，可以将裁剪出来的各个人头图像组合为目标图像序列。

S508，采用预设的基础网络从所述目标图像序列中提取出所述目标的多个特征；

具体地，可以由基础网络对输入的视频帧帧序列中的图像进行行为特征提取，分别获得每帧图像的行为特征，每个行为特征可以为一个多维向量。目标图像序列包括多个人头图像帧，因此可以从目标图像序列中提取出多个特征。

S509，根据时间顺序，将所述目标图像序列的多个特征转换为融合向量；

具体地，依据目标图像帧序列中对应图像的时间先后顺序，将所有特征进行重新组合为一个多维的融合向量。融合向量的维数可以等于每帧图像对应的行为特征的维数与待处理的视频帧序列中的视频帧个数的乘积。

S510，将所述融合向量输入到预设的卷积网络中进行处理，得到所述待处理的视频帧序列的融合特征；

具体地，可以将新生成的多维的融合向量输入一个简单的卷积网络，通过卷积网络对时序行为特征进行更好的学习。卷积网络可以直接由卷积层和激活层组成，或者使用多层感知机等都可以达到相同的功能。

S511，根据所述融合特征，确定所述目标的行为。

具体地，经过卷积网络学习后可以得到新的融合特征，将融合特征输入后续的分类网络中，可以基于分类网络的输出结果并结合前置条件共同得到最终的行为分析结果。

S508-S511中的特征融合过程可以如图7所示。图7中，C为从每一个目标图像帧中的提取出的特征的维数，若一个视频帧序列中包括N个样本视频帧为，则一个视频帧序列可以对应提取出的N个C维特征，将N个C维特征基于时间先后顺序进行融合得到一个N*C维向量，然后将该N*C维向量输入到卷积网络中，获取到该视频帧序列对应的融合特征。之后可以基于该融合特征进行行为分析。

具体地，本实施例中，可以综合短时和长时动作行为的分析需求，能够更好的完成在线实时行为分析过程；另外，利用行为动作时序特性的特征融合方法，相比于简单融合方式，在增加微小计算量的情况下，大大提升了动作行为分析的准确性和鲁棒性。

图8是本申请实施例三提供的一种视频流中目标的行为分析方法的模型示意图。如图8所示，该模型可以包括视频采样处理、图像处理、基础网络以及特征融合四个模块。具体地，可以从视频流中进行视频采样，获取采样帧序列；然后对采样帧序列中的图像进行图像裁剪，获取人头图像序列；再将裁剪后的图像序列输入到基础网络中，输出各个人头图像的特征；对各个采样帧序列中的各个视频帧的特征进行特征融合；输出融合特征再根据融合特征分析目标行为。

该模型可以对在线视频进行实时行为分析，在线视频目标实时行为分析过程中，首先依据在线视频采样处理策略，采样得到待处理的视频帧图像序列。在针对教室场景中，学生目标比较密集且容易发生遮挡等各种情况，所以需要进行图像处理。对视频中的目标人头进行检测跟踪，通过对跟踪目标时序上的前后关联，对跟踪目标扩大一定范围后裁剪图像得到待分析目标的图像序列。将图像序列输入到基础网络中，提取每帧图像的行为特征。最后，对多帧行为特征进行时序融合处理，对融合后行为特征进行分类得到最终的行为分析结果。

本实施例中，在保证行为分析结果准确性的前提下，舍弃了常见行为分析方法中对计算资源需求比较大的部分，保证了分析方法的实时性，有利于在线视频实时行为分析能够更高效、更稳定的工作。

图9是本申请实施例四提供的一种视频流中目标的行为分析装置的结构示意图，参照图9，所述装置包括：

视频帧序列提取模块91，用于从视频流中提取出待处理的视频帧序列，所述待处理的视频帧序列包括第一数量的第一样本视频帧；

目标图像序列获取模块92，用于从所述待处理的视频帧序列中裁剪出目标图像序列，所述目标图像序列包括预设目标的多个人头图像帧；

特征提取模块93，用于采用预设的基础网络从所述目标图像序列中提取出所述目标的多个特征；

分析模块94，用于根据所述目标图像序列的多个特征，确定所述目标的行为。

上述视频帧序列提取模块91包括：

初始视频帧序列确定子模块，用于从所述视频流中确定初始视频帧序列；

第二样本视频帧确定子模块，用于从所述初始视频帧序列中，确定第二数量的第二样本视频帧；

临时样本视频帧确定子模块，用于当所述视频流中新输入第三数量的临时视频帧时，从所述第三数量的临时视频帧中提取出第四数量的临时样本视频帧；

待处理视频帧序列组合子模块，用于按照时间顺序，将所述第二样本视频帧和所述临时样本视频帧组合成待处理的视频帧序列；

新的待处理的视频帧序列确定子模块，用于当所述视频流中再次输入第三数量的所述临时视频帧时，根据所述待处理的视频帧序列和再次输入的所述临时视频帧，确定新的待处理的视频帧序列。

上述初始视频帧序列确定子模块包括：

初始视频帧确定单元，用于确定所述视频流中初始位置的初始视频帧；

初始视频帧序列截取单元，用于将从所述初始视频帧开始且长度为所述第一数量的视频帧序列作为所述初始视频帧序列。

上述装置还包括：

人头图像检测模块，用于在所述视频流的每一视频帧中检测目标人头图像，并将检测到的所述目标人头图像的位置坐标添加到预设的跟踪队列中；

平均位置坐标计算模块，用于当所述视频流中的视频帧数量大于预设阈值时，计算所述跟踪队列中的目标人头图像的平均位置坐标；

修正模块，用于根据所述平均位置坐标，修正所述跟踪队列中的异常位置坐标；

裁剪范围确定模块，用于确定修正后的所述跟踪队列中每个目标人头图像的裁剪范围。

上述目标图像序列获取模块92包括：

裁剪子模块，用于根据每个所述第一样本视频帧对应的目标人头图像的裁剪范围，分别从所述第一样本视频帧中裁剪出多个目标图像；

组合子模块，用于按时间顺序，将所述多个目标图像组合为所述目标图像序列。

上述分析模块94包括：

融合向量确定子模块，用于根据时间顺序，将所述目标图像序列的多个特征转换为融合向量；

融合特征确定子模块，用于将所述融合向量输入到预设的卷积网络中进行处理，得到所述待处理的视频帧序列的融合特征；

行为分析子模块，用于根据所述融合特征，确定所述目标的行为。

图10为本申请实施例五提供的一种终端设备的结构示意图。如图10所示，该实施例的终端设备10包括：至少一个处理器100（图10中仅示出一个）处理器、存储器110以及存储在所述存储器110中并可在所述至少一个处理器100上运行的计算机程序120，所述处理器100执行所述计算机程序120时实现上述任意各个方法实施例中的步骤。

所述终端设备10可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括，但不仅限于，处理器100、存储器110。本领域技术人员可以理解，图10仅仅是终端设备10的举例，并不构成对终端设备10的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器100可以是中央处理单元(CentralProcessingUnit，CPU)，该处理器100还可以是其他通用处理器、数字信号处理器 (DigitalSignalProcessor，DSP)、专用集成电路 (ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列 (Field-ProgrammableGateArray，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器110在一些实施例中可以是所述终端设备10的内部存储单元，例如终端设备10的硬盘或内存。所述存储器110在另一些实施例中也可以是所述终端设备10的外部存储设备，例如所述终端设备10上配备的插接式硬盘，智能存储卡（SmartMediaCard，SMC），安全数字（SecureDigital，SD）卡，闪存卡（FlashCard）等。进一步地，所述存储器110还可以既包括所述终端设备10的内部存储单元也包括外部存储设备。所述存储器110用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器110还可以用于暂时地存储已经输出或者将要输出的数据。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，RandomAccessMemory）、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种视频流中目标的行为分析方法，其特征在于，包括：

根据所述目标图像序列的多个特征，确定所述目标的行为。

2.如权利要求1所述的方法，其特征在于，所述从视频流中提取出待处理的视频帧序列，包括：

从所述视频流中确定初始视频帧序列；

从所述初始视频帧序列中，确定第二数量的第二样本视频帧；

当所述视频流中新输入第三数量的临时视频帧时，从所述第三数量的临时视频帧中提取出第四数量的临时样本视频帧；

按照时间顺序，将所述第二样本视频帧和所述临时样本视频帧组合成待处理的视频帧序列；

当所述视频流中再次输入第三数量的所述临时视频帧时，根据所述待处理的视频帧序列和再次输入的所述临时视频帧，确定新的待处理的视频帧序列。

3.如权利要求2所述的方法，其特征在于，所述从所述视频流中确定初始视频帧序列，包括：

确定所述视频流中初始位置的初始视频帧；

将从所述初始视频帧开始且长度为所述第一数量的视频帧序列作为所述初始视频帧序列。

4.如权利要求2所述的方法，其特征在于，所述第二数量与所述第四数量的和等于所述第一数量，所述第三数量大于所述第四数量。

5.如权利要求1-4任一项所述的方法，其特征在于，在从视频流中提取出待处理的视频帧序列之前，还包括：

在所述视频流的每一视频帧中检测目标人头图像，并将检测到的所述目标人头图像的位置坐标添加到预设的跟踪队列中；

当所述视频流中的视频帧数量大于预设阈值时，计算所述跟踪队列中的目标人头图像的平均位置坐标；

根据所述平均位置坐标，修正所述跟踪队列中的异常位置坐标；

确定修正后的所述跟踪队列中每个目标人头图像的裁剪范围。

6.如权利要求5所述的方法，其特征在于，所述从所述目标视频帧序列中裁剪出目标图像序列，包括：

根据每个所述第一样本视频帧对应的目标人头图像的裁剪范围，分别从所述第一样本视频帧中裁剪出多个目标图像；

按时间顺序，将所述多个目标图像组合为所述目标图像序列。

7.如权利要求1-4或6任一项所述的方法，其特征在于，所述根据所述目标图像序列的多个特征，确定所述目标的行为，包括：

根据时间顺序，将所述目标图像序列的多个特征转换为融合向量；

将所述融合向量输入到预设的卷积网络中进行处理，得到所述待处理的视频帧序列的融合特征；

根据所述融合特征，确定所述目标的行为。

8.一种视频流中目标的行为分析装置，其特征在于，包括：

分析模块，用于根据所述人头图像帧序列的多个特征，确定所述目标的行为。

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。