CN114863320A

CN114863320A - 目标对象行为识别方法、装置、电子设备及介质

Info

Publication number: CN114863320A
Application number: CN202210358688.5A
Authority: CN
Inventors: 韦国钧
Original assignee: Zebred Network Technology Co Ltd
Current assignee: Zebred Network Technology Co Ltd
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2022-08-05

Abstract

本说明书实施例提供了一种目标对象行为识别方法、装置、电子设备及介质，通过将目标对象在场景中的目标行为拆分为子行为，在此基础上，对输入视频进行采样，得到按照时间先后顺序排列的待识别图像序列，然后经过特征提取，得到特征数据序列，接着，基于特征数据序列进行子行为预测，得到输入视频中目标对象的子行为预测结果，该结果中包括待识别图像序列对应的时间段中目标对象所产生的子行为类别；再根据子行为预测结果，得到目标对象在待识别图像序列中发生的目标行为类别识别结果，有利于提高行为识别结果的准确性。

Description

目标对象行为识别方法、装置、电子设备及介质

技术领域

本说明书实施例涉及计算机技术领域，尤其涉及一种目标对象行为识别方法、装置、电子设备及介质。

背景技术

现今，视频行为识别技术作为计算机视觉领域的研究热点，已经被广泛应用在了智能监控、人机交互如手势识别等众多领域。以车内行为识别场景为例，可以通过采集车内人员尤其是驾驶员的视频图像，实时分析车内人员的行为，在识别到车内人员存在危险行为时进行提醒，以尽量避免安全事故的发生，提高行驶安全性。在这个过程中，如果出现过多漏识别或误识别的情况，不仅会影响车辆安全性，还容易对用户造成不必要的打扰，影响用户体验。因此，行为识别结果的准确性尤为重要。

发明内容

本说明书实施例提供了一种目标对象行为识别方法、装置、电子设备及介质。

第一方面，本说明书实施例提供了一种目标对象行为识别方法，用于识别视频中目标对象的目标行为，所述目标行为被拆分为多个子行为，所述方法包括：

对输入视频进行采样，得到待识别图像序列，所述待识别图像序列包括按照时间先后顺序排列的多帧图像；

对所述待识别图像序列进行特征提取，得到特征数据序列；

基于所述特征数据序列，得到所述输入视频中目标对象的子行为预测结果，所述子行为预测结果包括：所述待识别图像序列对应的时间段中目标对象所产生的子行为类别；

基于所述子行为预测结果，得到目标对象在所述待识别图像序列中发生的目标行为类别识别结果。

进一步地，在得到所述目标行为类别识别结果之后，还包括：

若所述识别结果为未发生所述目标行为，且所述子行为预测结果中包含所述多个子行为中的特征子行为，则按照预设步长增大采样周期，并根据增大后的采样周期重新采样待识别图像序列，对重新采样的待识别图像序列进行目标对象行为识别，得到新的目标行为类别识别结果；

其中，增大后采样周期的起始时间点位于所述特征子行为对应的时间点之前，终止时间点位于增大前采样周期的终止时间点之后。

若所述识别结果为未发生所述目标行为，且所述子行为预测结果中不包含所述多个子行为中的特征子行为，或者，所述目标行为识别结果为发生所述目标行为，则按照当前采样周期继续进行下一周期的目标对象行为识别。

进一步地，对所述待识别图像序列进行特征提取，得到特征数据序列，包括：

对所述待识别图像序列中的每帧图像进行特征提取，得到一个特征图；

对所述特征图进行特征提取，并对所提取的特征按照时间维度进行拆分，得到时间特征序列；

将所述时间特征序列输入预先训练的循环神经网络，得到所述特征数据序列，其中，所述循环神经网络利用连接时序分类损失函数训练得到。

进一步地，所述对所述待识别图像序列中的每帧图像进行特征提取，得到一个特征图，包括：

对所述待识别图像序列中的每帧图像分别进行特征提取，得到所述每帧图像的序列特征；

按照时间顺序对所得到的序列特征进行拼接，并对拼接结果进行维度转换，得到所述特征图。

进一步地，所述基于所述子行为预测结果，得到目标对象在所述待识别图像序列中发生的目标行为类别识别结果，包括：

对所述子行为预测结果中包含的子行为类别进行组合处理，得到子行为组合结果；

通过将所述子行为组合结果与预设的行为组合策略进行匹配，确定目标对象在所述待识别图像序列中发生的目标行为类别识别结果，其中，所述行为组合策略包括每种目标行为对应的子行为组合策略。

进一步地，所述子行为预测结果中还分布有分隔占位符，对所述子行为预测结果中包含的子行为类别进行组合处理，得到子行为组合结果，包括：

对所述子行为预测结果中相邻且重复的子行为类别进行去重处理；

在完成所述去重处理后，删除所述子行为预测结果中的分隔占位符，得到所述子行为组合结果。

进一步地，所述基于所述特征数据序列，得到目标对象的子行为预测结果，包括：

将所述特征数据序列输入预设的激活函数，得到所述输入视频中目标对象的子行为预测结果。

进一步地，所述输入视频为车载摄像头采集的车内或车外目标人员的视频数据，所述目标对象为所述车内或车外目标人员。

第二方面，本说明书实施例提供了一种目标对象行为识别装置，用于识别视频中目标对象的目标行为，所述目标行为被拆分为多个子行为，所述装置包括：

采样模块，用于对输入视频进行采样，得到待识别图像序列，所述待识别图像序列包括按照时间先后顺序排列的多帧图像；

特征提取模块，用于对所述待识别图像序列进行特征提取，得到特征数据序列；

预测模块，用于基于所述特征数据序列，得到所述输入视频中目标对象的子行为预测结果，所述子行为预测结果包括：所述待识别图像序列对应的时间段中目标对象所产生的子行为类别；

识别模块，用于基于所述子行为预测结果，得到目标对象在所述待识别图像序列中发生的目标行为类别识别结果。

第三方面，本说明书实施例提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述第一方面提供的目标对象行为识别方法的步骤。

第四方面，本说明书实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面提供的目标对象行为识别方法的步骤。

本说明书一个实施例提供的目标对象行为识别方法，将目标对象在视频场景中的目标行为拆分为子行为，通过对输入视频进行采样，得到按照时间先后顺序排列的待识别图像序列，然后经过特征提取，得到特征数据序列，接着，基于特征数据序列进行子行为预测，得到输入视频中目标对象的子行为预测结果，该结果中包括待识别图像序列对应的时间段中目标对象所产生的子行为类别；再根据子行为预测结果，得到目标对象在待识别图像序列中发生的目标行为类别识别结果。相较于直接输出行为类别的方案，本方案将目标对象的目标行为进行拆解预测，先预测子行为类别，如车内行为识别场景中驾驶员的打哈欠行为展现的张嘴闭嘴这些子行为动作，然后基于子行为预测结果解析出最终的目标行为类别，这样能够有效地减少两个目标行为部分相似而导致的预测错误情况，有利于提高行为识别结果的准确性。

附图说明

图1为本说明书实施例第一方面提供的一种目标对象行为识别方法的流程图；

图2为本说明书实施例中第一阶段特征提取网络结构图；

图3为本说明书实施例中第二阶段特征提取网络结构图；

图4为常规方案对不同长短采样周期输入的处理流程图；

图5为本说明书实施例中不同长度的采样周期对应的子行为预测结果示意图；

图6为本说明书实施例第二方面提供的一种目标对象行为识别装置的模块框图；

图7为本说明书实施例第三方面提供的一种电子设备的结构示意图。

具体实施方式

为了更好的理解本说明书实施例提供的技术方案，下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明，应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明，而不是对本说明书技术方案的限定，在不冲突的情况下，本说明书实施例以及实施例中的技术特征可以相互组合。

需要说明的是，本说明书实施例提供的目标对象行为识别方法可以应用在各种需要进行视频行为识别的场景中，本实施例主要以车内行为识别场景以及手势识别场景为例进行说明，不作为对应用场景的限制。

举例来讲，在车内行为识别场景中，可以通过车载摄像头采集车内或车外目标人员如驾驶员或行人等的视频图像，将目标人员作为目标对象，通过内部芯片针对采集的视频图像执行本说明书实施例提供的目标对象行为识别方法，实现车内或车外目标人员的目标行为识别，并根据实际场景需要对识别结果进行响应。例如，在一种应用场景中，可以将目标行为配置为危害驾驶安全的行为，这样在识别到车内或车外目标人员存在危险行为时，可以触发警示功能，提醒相关人员及时停止危险行为，以保障行车安全。

在手势识别场景中，可以通过设备中设置的摄像头采集设备用户的视频图像，然后设备针对采集的视频图像执行本说明书实施例提供的目标对象行为识别方法，实现视频中用户目标行为的识别，并根据实际场景需要对识别结果进行响应。例如，在用户通过手势控制设备的音量与歌曲控制场景中，可以将目标行为配置为该场景中需要用到的操作行为如音量增加操作，上一曲操作，下一曲操作，音量增加并下一曲操作等，在识别出这些操作行为时，就可以进入相应的功能处理进程。

下面就本说明书实施例提供的具体技术方案进行详细说明。

第一方面，本说明书实施例提供了的一种目标对象行为识别方法，用于识别视频中目标对象的目标行为。具体实施时，需要预先确定场景中涉及的目标行为，并预先根据行为动作过程将目标行为拆分为多个子行为，即确定子行为类别，具体目标行为的确定以及子行为的拆分可以根据实际应用场景进行。需要说明的是，具体应用场景中，可以设置一种目标行为，或者，也可以根据识别需要设置多种不同目标行为。同一场景中，不同目标行为拆分得到的子行为组合不完全相同，可以存在部分重叠。其中，不完全相同可以包括两种情况，一种是至少存在一种不同子行为，另一种是拆分成的子行为类别完全相同但各子行为的组合顺序不同。

以车内或车外目标人员的行为识别场景为例，可以预先将危险行为配置为目标行为，再对这些目标行为进行拆分，确定子行为类别。例如，若目标对象为驾驶员，目标行为可以包括打哈欠，捡东西等不利于行车安全的行为，进一步再将打哈欠拆分为张嘴+闭嘴两个动作，将捡东西拆分为蹲下+伸手+站起来三个动作，每个动作作为一类子行为。以音量以及歌曲控制场景为例，目标行为可以包括各类该场景需要用到的操作行为如音量增加并下一曲操作等，例如，可以将音量增加并下一曲操作拆分为上、上、左、左四类手势，每一类手势作为一类子行为。

在此基础上，就可以通过采集图像序列，进行特征提取以及子行为预测，最终解析出目标对象的目标行为。具体过程请参阅图1，本说明书实施例提供的目标对象行为识别方法可以至少包括以下步骤S101至步骤S104。

步骤S101，对输入视频进行采样，得到待识别图像序列，待识别图像序列包括按照时间先后顺序排列的多帧图像。

输入视频即为需要识别目标对象行为的视频帧，具体来源可以根据实际应用场景确定，本实施例对此不做限制。例如，在车内或车外目标人员行为识别场景中，输入视频可以是车载摄像头实时采集到的车内或车外目标人员的视频数据；在手势识别场景中，输入视频可以是识别设备中的摄像头实时采集到的设备用户的手势视频数据。

具体实施时，可以通过设定时间长度的滑动窗口对输入视频数据进行采样，得到每个采样周期的待识别图像序列。需要说明的是，初始采样周期以及采样间隔可以根据实际应用场景以及多次试验配置，如可以是2秒或3秒等。待识别图像序列中包括按照时间先后顺序排列的多帧图像，具体帧数根据采样周期的长短确定。在确定当前周期的待识别图像序列后，就可以执行以下步骤S102，即进入特征提取阶段。

步骤S102，对待识别图像序列进行特征提取，得到特征数据序列。

具体来讲，对待识别图像序列进行特征提取也就是获取待识别图像序列中各帧图像的时空特征表达，具体实施方式有多种，可以根据实际场景的算力因子进行配置。

在一种可选的实施方式中，可以进行两个阶段的特征提取，第一阶段：对待识别图像序列中的每帧图像进行特征提取，得到一个特征图；第二阶段：对特征图进行特征提取，并对所提取的特征按照时间维度进行拆分，得到时间特征序列，将时间特征序列输入预先训练的循环神经网络，得到上述的特征数据序列。

其中，第一阶段的特征提取是将待识别图像序列包含的图像依次送入预设的第一特征提取网络进行特征提取，得到的特征更多是对输入信息的空间语义的一种表达。因此，第一阶段的特征提取网络除了应用于本方案以外，还可以用作其他如车内人脸检测、人脸关键点检测等任务的网络输入，即第一阶段的特征提取网络可以同时用于其他深度学习任务的特征提取，从而大大地提高产品的效率。而第二阶段的特征提取是对第一阶段输出的特征进行深层次的时空特征提取，增加了时间上的相关性，有利于得到更全面的时空特征表达，从而能够利用输入信息的空间与时间维度特征实现目标行为的更准确识别。

在一种可选的实施方式中，第一阶段的特征提取过程可以包括：对待识别图像序列中的每帧图像分别进行特征提取，得到每帧图像的序列特征；按照时间先后顺序对所得到的序列特征进行拼接，并对拼接结果进行维度转换，得到特征图。

例如，如图2所示，可以依次将待识别图像序列中的每帧图像(例如维度为：w*h)输入由Resnet34-150系列、Inception或VGG等backbone网络构成的第一特征提取网络，得到每帧图像对应的输出张量(例如维度为：c*w′*h′)，然后通过池化操作，得到每帧图像对应的序列特征，如图中示出的一系列c*1*1的特征表达。然后，对这一系列的序列特征按照时间先后顺序进行拼接，得到尺寸为c*1*T的特征。其中，T为时间维度。接着，对拼接结果进行维度转换，得到维度为1*c*T的特征张量。这样可以将特征张量看作是一张特征图，方便后续第二阶段的特征提取。

如图3所示，将得到的特征图进一步输入预设的第二特征提取网络。例如，第二特征提取网络可以通过系列卷积网络与下采样实现，根据具体实施时硬件算力的不同，此处的卷积层数量可以在3-7层之间选择。以三次下采样为例，输入的1*c*T的特征张量依次经过三次下采样(如图3中示出的layer1、layer2和layer3)后，得到的输出张量尺寸为c1*c/8*T/8，例如，每一层可以由con2d(3*3)+BatchNorm+Relu+Maxpool2d结构构成。然后，再经过一层卷积(如conv+BN+Relu结构)处理过后，对c维度进行全局池化，保留时序维度，得到尺寸为c2*1*T/8输出特征。进一步地，对第二特征提取网络的输出特征按照时间维度进行拆分，就可以得到时间特征序列。例如，在上述示例中，该时间特征序列包括T/8组对应于不同时间节点的特征数据。如T＝80，就有10组不同时间节点的特征数据。

进一步地，将上述示例得到的尺寸为c2*1*T/8的时间特征序列输入预先训练好的循环神经网络如LSTM(Long Short-Term Memory，长短期记忆)网络，更好地实现空间特征与时间特征的特征相关性表达，为后面更好地预测结果提供性能支撑。例如，循环神经网络可以输出尺寸为num_class*1*T/8的特征数据序列，即包含了T/8组不同时间节点的特征数据。其中，num_class表示子行为类别数量。

另外，在一种可选的实施方式中，为了进一步提高识别结果的准确性，上述循环神经网络可以基于连接时序分类(Connectionist Temporal Classification，CTC)损失函数进行训练。也就是说，对网络结构进行训练的过程中，在经过上述第二阶段的特征提取输出之后，采用CTC损失函数计算损失进行梯度回传(预测时，则将第二阶段特征提取网络输出的特征数据序列接入激活函数实现子行为类别的分类预测)。这样能够实现一个很长的结果序列对应一个较短的标签进行训练，即实现预测结果维度数(如图中示出的T/8)>类别数(如图中示出的num_class)的情况。而且，依据循环神经网络共享权重的特性，能够实现对不同长短的序列特征进行提取。这样就可以在无需更改特征提取网络结构的情况下，调整采样周期的长度，提高网络结构的适用性。方便在后续使用过程中根据需要自适应增大采样周期，即实现可变长的采样周期策略，以减少采样到一半的行为导致识别错误甚至识别不出来的情况，从而进一步提高识别结果的准确性。

可以理解的是，常规的行为识别方法，采样周期和采样间隔的设定受限于网络自身参数多、芯片算力有限等原因一般在选定后不会更改，如果基于固定的采样周期与采样间隔进行采样识别，则容易出现采样到一半的行为导致识别错误甚至识别不出来的情况。即使加大采样周期和优化采样间隔策略，也依然存在采样周期长导致丢失关键帧进而导致模型预测错误以及泛化性差的情况。

具体原因在于，以图4中示出的网络结构为例，对于不同长度序列的输入，按照常规方案的思路，通常会在P1处先抽取固定数量帧，再输入到后续网络中，这样就容易导致关键帧信息丢失的风险。如果单纯只是在P2部分即全连接层分类部分采用循环神经网络，虽然可以避免P1部分抽样的问题，但是全连接层的输出维度也需要跟着变更，即仍然存在网络结构需要更改的情况，需要在实际部署中部署多个不同全连接层的网络，效率较低。

本说明书实施例采用上述分两个阶段进行特征提取，并采用CTC约束进行模型训练的方案，能够将采样周期进行细分，第一阶段的特征提取不受采样周期限制，且第二阶段的时空特征的提取引入了循环神经网络，依据循环神经网络共享权重的特性，能够达到对不同长短的序列特征进行提取。同时，由于惩罚项选用了ctc约束，保证了方案所设计的网络的可训练性与预测的稳定性。

需要说明的是，在模型训练过程中，上述两个阶段的特征提取网络可以分开训练，或者，也可以作为一个整体进行训练，具体可以根据实际场景的需要选择训练方式。例如，当第一阶段的特征提取网络需要应用于其他深度学习任务时，可以采用分开训练的方式。

还需要说明的是，除了上述示例的特征提取方式以外，在本说明书其他实施方式中，也可以采样其他适用的特征提取网络完成对待识别图像序列的特征提取，本实施例对此不做限制。

在完成特征提取阶段后，就可以进一步执行以下步骤S103，即进入子行为预测阶段。

步骤S103，基于特征数据序列，得到输入视频中目标对象的子行为预测结果，子行为预测结果包括：待识别图像序列对应的时间段中目标对象所产生的子行为类别。

具体来讲，可以将特征数据序列输入预设的激活函数，确定待识别图像序列对应的时间段中目标对象所产生的子行为类别。

以上述示例中得到的特征数据序列(num_class*1*T/8)为例，将其输入激活函数，就可以得到T/8组子行为类别概率分布。然后，将每组子行为类别概率分布中概率最大的子行为类别作为预测子行为类别，就可以得到由T/8个预测子行为类别组成的子行为预测结果。例如，激活函数可以采用适用于多分类的softmax函数，当然，也可以采用其他适用的激活函数，本实施例对此不做限制。

进一步地，就可以执行以下步骤S104，进入目标行为类别解析阶段。

步骤S104，基于子行为预测结果，得到目标对象在待识别图像序列中发生的目标行为类别识别结果。

举例来讲，可以根据子行为拆分方式预先设置并存储行为组合策略，行为组合策略包括每种目标行为对应的子行为组合策略，例如，打哈欠行为的子行为组合策略为“张嘴闭嘴”；捡东西行为的子行为组合策略为“蹲下伸手站起来”；音量增加并下一曲行为的子行为组合策略为“上上左左”。

具体实施时，可以基于子行为预测结果与预设的行为组合策略，确定目标对象在待识别图像序列中发生的目标行为类别识别结果。例如，可以将子行为预测结果与行为组合策略进行匹配，将匹配成功的目标行为作为目标对象在待识别图像序列中发生的目标行为类别识别结果。

在一种可选的实施方式中，上述基于子行为预测结果与预设的行为组合策略，确定目标行为类别识别结果的过程可以包括：对子行为预测结果中包含的子行为类别进行组合处理，得到子行为组合结果；然后再将子行为组合结果与预设的行为组合策略进行匹配，确定目标对象在待识别图像序列中发生的目标行为类别识别结果。

例如，考虑某些子行为可能持续时间较长，子行为预测结果中容易持续存在重复的子行为，因此，为了便于后续匹配，上述组合处理可以包括去重处理。如子行为预测结果为：张嘴张嘴闭嘴闭嘴，经过去重处理后，得到的子行为组合结果为：张嘴闭嘴。

另外，若在特征提取阶段采用了上述分两个阶段进行特征提取加CTC约束的方案，子行为预测结果中还分布有分隔占位符，例如，本文中可以用“/”示意。此时，上述组合处理过程可以包括：对子行为预测结果中相邻且重复的子行为类别进行去重处理；在完成去重处理后，删除子行为预测结果中的分隔占位符，得到子行为组合结果。

以手势识别为例，如子行为预测结果为：上///上//左////左，经过上述预处理后，就可以得到子行为组合结果：上上左左(即实际子行为组合)，再将其与预设的行为组合策略进行匹配，就可以匹配出目标行为的类别识别结果为：音量增加并上一曲，从而响应于该操作行为，进入预先配置的功能处理进程。因为分隔占位符的存在，在训练时对采样的周期长度和间隔都有一定的自适应能力，不必刻意考虑将整个行为正好切割出来，在实际应用中具有重要的价值。

进一步地，在得到目标行为类别识别结果之后，本说明书实施例提供的目标对象行为识别方法还包括：根据目标行为类别识别结果，判断目标对象是否发生目标行为，以及判断子行为预测结果中是否包含所拆分出的多个子行为中的特征子行为。需要说明的是，两个判断过程可以按照前述顺序依次进行，即在判定目标对象未发生目标行为的情况下，再判断子行为预测结果中是否包含特征子行为；或者，两个判断过程也可以同时进行，或者是按照相反的顺序执行，本实施例对此不做限制。

若识别结果为未发生目标行为，且子行为预测结果中包含多个子行为中的特征子行为，表示当前采样周期可能仅采样到了目标行为发生时间段的一部分，因此，子行为预测结果不完整，导致无法识别出该目标行为。此时，可以按照预设步长增大采样周期，并根据增大后的采样周期重新采样待识别图像序列，对重新采样的待识别图像序列进行目标对象行为识别，得到新的目标行为类别识别结果。也就是说，针对重新采样的待识别图像序列执行上述步骤S102至步骤S104，重新得到扩大采样周期后的目标行为类别识别结果。例如，若从重新采样的待识别图像序列能够识别出目标行为，则继续按照增大后的采样周期进行下一周期的采样及行为识别，若仍然无法识别出目标行为，则可以继续重复执行上述按照预设步长增大采样周期，并根据增大后的采样周期重新采样待识别图像序列，对重新采样的待识别图像序列进行目标对象行为识别，得到新的目标行为类别识别结果的步骤。具体实施时，可以预先配置采样周期增大的上限值，即采样周期最大不能超过该上限值，具体可以根据实际场景配置，此处不再详述。

由此，本发明实施例能够很好地对小时序范围内的子行为进行识别，有效地改善实际生产过程中出现的采样周期正好结束在目标行为的开头或者采样周期正好开始于目标行为的结尾而导致的模型难以预测或预测错误的问题，有利于进一步提高识别结果的准确性。

其中，特征子行为可以根据实际应用场景的需要设置，例如，在一种应用场景中，可以将由目标子行为拆分而来的所有子行为均作为特征子行为。此时，子行为预测结果包含有任意一种子行为，均认为子行为预测结果包含特征子行为。又例如，可以将目标行为的起始子行为，以及，从起始子行为开始的连续若干个子行为(除最后一个子行为以外)的组合作为特征子行为。如目标行为1可以拆分成子行为“abc”，则可以将子行为“a”以及子行为“ab”作为目标子行为。此时，子行为预测结果仅包含任意一目标行为的起始子行为，或者，包含任意一目标行为的从起始子行为开始的连续若干个子行为组合，且该组合后不包含其他子行为，则认为子行为预测结果包含有特征子行为。

具体实施时，预设步长可以通过对具体应用场景中所涉及的目标行为的持续时间设置，例如，可以设置为1秒，2秒或3秒等。并且，在上述采样周期变长策略中，增大后采样周期的起始时间点位于特征子行为对应的时间点之前，终止时间点位于增大前采样周期的终止时间点之后。这样就可以使得重新采样的待识别图像序列中第一帧图像位于特征子行为对应的图像帧之前，重新采样的待识别图像序列中最后一帧图像位于重新采样前待识别图像序列中最后一帧图像之后，从而尽量保证重新采样的待识别图像序列覆盖住目标对象的整个目标行为发生阶段。

例如，可以将增大后采样周期的起始时间点相比于更新前的起始时间点前移预设的固定时间长度。或者，也可以根据特征子行为在子行为预测结果中的位置，确定起始时间点相比于更新前的前移时间长度。仍以目标行为1为例，假设更新前的子行为预测结果为“///aa”，该结果无法识别出目标行为1，但包含有特征子行为a，按照从末位到首位的顺序，特征子行为a位于2/5位置，则可以将起始时间点前移2/5*T1+ΔT，其中，T1表示更新前的采样周期，ΔT为预先根据多次试验设置的时间调整量。

当然，若识别结果为未发生目标行为，且子行为预测结果中不包含多个子行为中的特征子行为，则按照当前采样周期继续进行下一周期的目标对象行为识别。若目标行为识别结果为发生目标行为，一方面，可以根据识别到的目标行为类别执行相应的后续操作，具体操作根据实际应用场景对应设置，例如，在车内驾驶员行为识别场景中，可以向驾驶员发起语音提醒，如“检测到您存在XX行为，请注意行车安全”；另一方面，按照当前采样周期继续进行下一周期的目标对象行为识别。需要说明的是，在目标行为有多种的场景中，上述发生目标行为可以是发生了其中任意一类目标行为。

为了更清楚地理解上述过程，下面参照图5进行举例说明。图5示出了不同长度的采样周期下得到的子行为预测结果示意图，图中，黑色区域表示目标行为1发生的时间段，灰色区域表示时间序列，虚线框表示采样周期，相邻两个虚线框的交叠区域表示相邻两个采样周期的交叉区域。可以理解的是，采样周期越长，对应的时间节点越多，得到的子行为预测结果也就越长。

从图5中可以看出，在采样周期为T1的情况下，通过本方案对该周期下采样得到的待识别图像序列进行识别，若得到的子行为预测结果为“/////”，即表示没有行为发生。而随着采样的推进，若存在某一周期下得到的子行为预测结果为“///aa”，其中a表示一种特征子行为，此时会再次进行一次扩大周期的采样，使得扩大后的采样周期覆盖目标行为1发生的整个时间段，如扩大为图5中示意的T2周期，对重新采样后的待识别图像序列的子行为预测结果为“///aabbc///”，则可以根据该结果识别出目标对象存在目标行为1。需要说明的是，由于上述两阶段的特征提取网络中采用了共享权重的循环神经网络，且训练过程中采用了CTC约束，所以能够预测不同采样周期长度下的子行为结果。

由图5可见，常规的一次采样周期进入本方案设计的网络后进行了时序上的子模块化，能够很好地避免行为发生一半所导致的识别错误，在发现有疑似行为发生后，采样周期可以进行扩大，进而完整地识别整个行为过程，不需要额外的网络结构更改，也不需要像3D卷积那样重新因扩大采样周期而出现丢失关键帧的风险，既提高了识别的准确度，又保证了时效性。

综上所述，本方案通过将目标对象的目标行为进行拆解预测，先预测子行为类别，如车内行为识别场景中驾驶员的打哈欠行为展现的张嘴闭嘴这些子行为动作，然后基于子行为预测结果解析出最终的目标行为类别，相较于通过3D卷积或CNN+RNN网络直接端到端输出如打哈欠、捡东西等行为类别的方案，对组合行为的预测更加准确。并且，能够有效地减少因两个目标行为部分相似而导致的预测错误情况，有利于提高行为识别结果的准确性。

另外，采样上述两个阶段的特征提取网络和CTC约束能够很好地对小时序范围内的子行为进行识别，有效地解决实际生产过程中出现的采样周期正好结束在目标行为的开头或者采样周期正好开始于目标行为的结尾而导致的模型难以预测或预测错误的问题。并且，第一阶段的特征提取网络可以用作其他如车内人脸检测、人脸关键点检测等任务的网络输入，即第一阶段的特征提取网络可以同时用于其他深度学习任务的特征提取，大大地提高了产品的效率。

第二方面，基于与前述第一方面实施例提供的目标对象行为识别方法同样的发明构思，本说明书实施例还提供了一种目标对象行为识别装置，用于识别视频中目标对象的目标行为，其中，目标行为被拆分为多个子行为。如图6所示，该目标对象行为识别装置60包括：

采样模块601，用于对输入视频进行采样，得到待识别图像序列，所述待识别图像序列包括按照时间先后顺序排列的多帧图像；

特征提取模块602，用于对所述待识别图像序列进行特征提取，得到特征数据序列；

预测模块603，用于基于所述特征数据序列，得到所述输入视频中目标对象的子行为预测结果，所述子行为预测结果包括：所述待识别图像序列对应的时间段中目标对象所产生的子行为类别；

识别模块604，用于基于所述子行为预测结果，得到目标对象在所述待识别图像序列中发生的目标行为类别识别结果。

在一种可选的实施方式中，上述识别模块604还用于：

在一种可选的实施方式中，上述特征提取模块602包括：

第一提取子模块，用于对所述待识别图像序列中的每帧图像进行特征提取，得到一个特征图；

第二提取子模块，用于对所述特征图进行特征提取，并对所提取的特征按照时间维度进行拆分，得到时间特征序列；

输入子模块，用于将所述时间特征序列输入预先训练的循环神经网络，得到所述特征数据序列，其中，所述循环神经网络利用连接时序分类损失函数训练得到。

在一种可选的实施方式中，上述第一提取子模块用于：

在一种可选的实施方式中，上述识别模块604具体用于：

在一种可选的实施方式中，所述子行为预测结果中还分布有分隔占位符，上述识别模块604具体用于：

在一种可选的实施方式中，上述预测模块603具体用于：

在一种可选的实施方式中，所述输入视频为车载摄像头采集的车内或车外目标人员的视频数据，所述目标对象为所述车内或车外目标人员。

需要说明的是，本说明书实施例所提供的目标对象行为识别装置60，其中各个模块执行操作的具体方式已经在上述第一方面提供的方法实施例中进行了详细描述，具体实施过程可以参照上述第一方面提供的方法实施例，此处将不做详细阐述说明。

第三方面，基于与前述实施例提供的目标对象行为识别方法同样的发明构思，本说明书实施例还提供了一种电子设备。如图7所示，该电子设备包括存储器704、一个或多个处理器702及存储在存储器704上并可在处理器702上运行的计算机程序，处理器702执行该程序时实现前文第一方面提供的目标对象行为识别方法的任一实施例的步骤。例如，电子设备可以是车载终端设备，或者，也可以是安装有摄像头且具有手势识别功能的电子设备如智能手机、智能电视、虚拟现实设备或头戴式智能设备等，本实施例对此不做限制。

其中，在图7中，总线架构(用总线700来代表)，总线700可以包括任意数量的互联的总线和桥，总线700将包括由处理器702代表的一个或多个处理器和存储器704代表的存储器的各种电路链接在一起。总线700还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口705在总线700和接收器701和发送器703之间提供接口。接收器701和发送器703可以是同一个元件，即收发机，提供用于在传输介质上与各种其他装置通信的单元。处理器702负责管理总线700和通常的处理，而存储器704可以被用于存储处理器702在执行操作时所使用的数据。

可以理解的是，图7所示的结构仅为示意，本说明书实施例提供的电子设备还可包括比图7中所示更多或者更少的组件，或者具有与图7所示不同的配置。图7中所示的各组件可以采用硬件、软件或其组合实现。

第四方面，基于与前述实施例中提供的目标对象行为识别方法同样的发明构思，本说明书实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前文第一方面提供的目标对象行为识别方法的任一实施例的步骤。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品，该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本说明书的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。

显然，本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样，倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内，则本说明书也意图包含这些改动和变型在内。

Claims

1.一种目标对象行为识别方法，其特征在于，用于识别视频中目标对象的目标行为，所述目标行为被拆分为多个子行为，所述方法包括：

对所述待识别图像序列进行特征提取，得到特征数据序列；

2.根据权利要求1所述的方法，其特征在于，在得到所述目标行为类别识别结果之后，还包括：

3.根据权利要求1所述的方法，其特征在于，在得到所述目标行为类别识别结果之后，还包括：

4.根据权利要求1所述的方法，其特征在于，对所述待识别图像序列进行特征提取，得到特征数据序列，包括：

5.根据权利要求4所述的方法，其特征在于，对所述待识别图像序列中的每帧图像进行特征提取，得到一个特征图，包括：

6.根据权利要求4所述的方法，其特征在于，所述基于所述子行为预测结果，得到目标对象在所述待识别图像序列中发生的目标行为类别识别结果，包括：

7.根据权利要求6所述的方法，其特征在于，所述子行为预测结果中还分布有分隔占位符，对所述子行为预测结果中包含的子行为类别进行组合处理，得到子行为组合结果，包括：

8.根据权利要求1所述的方法，其特征在于，所述基于所述特征数据序列，得到所述输入视频中目标对象的子行为预测结果，包括：

9.根据权利要求1所述的方法，其特征在于，所述输入视频为车载摄像头采集的车内或车外目标人员的视频数据，所述目标对象为所述车内或车外目标人员。

10.一种目标对象行为识别装置，其特征在于，用于识别视频中目标对象的目标行为，所述目标行为被拆分为多个子行为，所述装置包括：

11.一种电子设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1-9中任一项所述方法的步骤。

12.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现权利要求1-9中任一项所述方法的步骤。