CN112633100B

CN112633100B - 行为识别方法、装置、电子设备和存储介质

Info

Publication number: CN112633100B
Application number: CN202011476704.8A
Authority: CN
Inventors: 陈海波; 曹东
Original assignee: Shenlan Artificial Intelligence Application Research Institute Shandong Co ltd
Current assignee: Shenlan Artificial Intelligence Application Research Institute Shandong Co ltd
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2023-08-08
Anticipated expiration: 2040-12-14
Also published as: CN112633100A

Abstract

本申请实施例涉及计算机视觉技术领域，提供了一种行为识别方法、装置、电子设备和存储介质，所述方法包括：确定待识别视频的图像序列；将图像序列输入至行为识别模型，得到行为识别模型输出的行为识别结果；行为识别模型是基于样本视频的样本图像序列和样本行为识别结果训练得到的；其中，行为识别模型用于构建图像序列中各帧图像的场景图，对各帧图像的场景图转换所得的文本进行行为识别，并将文本识别结果与图像识别结果和光流识别结果相结合，图像识别结果和光流识别结果是对图像序列进行行为识别得到的。本申请提供的方法、装置、电子设备和存储介质，增强了行为识别模型的可读性和可解释性，有助于提高行为识别的鲁棒性。

Description

行为识别方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种行为识别方法、装置、电子设备和存储介质。

背景技术

随着计算机处理能力的增强，基于视频的行为识别技术应运而生，并且在视频监控、机器人等领域具有广阔的应用前景。

当前，基于视频的行为识别方法大多基于深度神经网络实现。虽然深度神经网络的应用能够在某些场景下提升行为识别的准确性，但是深度神经网络的黑盒子属性导致了信息被抽象处理的原理无法明确，基于深度神经网络训练所得的行为识别模型本身不具备可解释性，行为识别的可靠性差。

发明内容

本申请提供一种行为识别方法、装置、电子设备和存储介质，以实现可解释的、高可靠性的行为识别。

本申请提供一种行为识别方法，包括：

确定待识别视频的图像序列；

将所述图像序列输入至行为识别模型，得到所述行为识别模型输出的行为识别结果；所述行为识别模型是基于样本视频的样本图像序列和样本行为识别结果训练得到的；

其中，所述行为识别模型用于构建所述图像序列中各帧图像的场景图，对各帧图像的场景图转换所得的文本进行行为识别，并将文本识别结果与图像识别结果和光流识别结果相结合，所述图像识别结果和光流识别结果是对所述图像序列进行行为识别得到的。

根据本申请提供的一种行为识别方法，所述将所述图像序列输入至行为识别模型，得到所述行为识别模型输出的行为识别结果，包括：

将所述图像序列输入至所述行为识别模型的场景图构建层，得到所述场景图构建层输出的各帧图像的场景图；

将所述各帧图像的场景图输入至所述行为识别模型的文本识别层，得到所述文本识别层输出的所述文本识别结果；

将所述图像序列输入至所述行为识别模型的图像识别层，得到所述图像识别层输出的图像识别结果；

将所述图像序列输入至所述行为识别模型的光流识别层，得到所述光流识别层输出的光流识别结果；

将所述文本识别结果、所述图像识别结果和所述光流识别结果输入至所述行为识别模型的融合层，得到所述融合层输出的所述行为识别结果。

根据本申请提供的一种行为识别方法，所述将所述图像序列输入至所述行为识别模型的场景图构建层，得到所述场景图构建层输出的各帧图像的场景图，包括：

将所述图像序列中的各帧图像分别输入至所述场景图构建层的实体检测层，得到所述实体检测层输出的各帧图像包含实体的区域图像和类型；

将各帧图像包含实体的区域图像分别输入至所述场景图构建层的关系预测层，得到所述关系预测层输出的各帧图像包含实体之间的关系；

将各帧图像包含实体的类型，以及各帧图像包含实体之间的关系输入至所述场景图构建层的场景图输出层，得到所述场景图输出层输出的各帧图像的场景图。

根据本申请提供的一种行为识别方法，所述将所述各帧图像的场景图输入至所述行为识别模型的文本识别层，得到所述文本识别层输出的所述文本识别结果，包括：

将各帧图像的场景图输入至所述文本识别层的转换层，得到所述转换层输出的各场景图的场景文本；

将各场景图的场景文本拼接所得的文本序列输入至所述文本识别层的分类层，得到所述分类层输出的所述文本识别结果。

根据本申请提供的一种行为识别方法，所述文本序列是根据各场景图对应图像在图像序列中的时序，对各场景图的场景文本进行拼接得到的。

根据本申请提供的一种行为识别方法，所述行为识别模型的训练方法包括：

基于所述样本图像序列，以及所述样本图像序列中各帧样本图像的样本场景图，训练得到场景图构建模型；

基于所述样本图像序列中各帧样本图像的样本场景图，以及所述样本图像序列的样本行为识别结果，训练得到文本识别模型；

基于所述场景图构建模型和所述文本识别模型的参数，对行为识别模型进行参数初始化，基于所述样本图像序列和样本行为识别结果对参数初始化后的行为识别模型进行训练。

根据本申请提供的一种行为识别方法，所述确定待识别视频的图像序列，包括：

将所述待识别视频转换为视频图像序列；

对所述视频图像序列进行抽帧，得到所述图像序列。

本申请还提供一种行为识别装置，包括：

序列确定单元，用于确定待识别视频的图像序列；

行为识别单元，用于将所述图像序列输入至行为识别模型，得到所述行为识别模型输出的行为识别结果；所述行为识别模型是基于样本视频的样本图像序列和样本行为识别结果训练得到的；

根据本申请提供的一种行为识别装置，所述行为识别单元包括：

场景图构建单元，用于将所述图像序列输入至所述行为识别模型的场景图构建层，得到所述场景图构建层输出的各帧图像的场景图；

文本识别单元，用于将所述各帧图像的场景图输入至所述行为识别模型的文本识别层，得到所述文本识别层输出的所述文本识别结果；

图像识别单元，用于将所述图像序列输入至所述行为识别模型的图像识别层，得到所述图像识别层输出的图像识别结果；

光流识别单元，用于将所述图像序列输入至所述行为识别模型的光流识别层，得到所述光流识别层输出的光流识别结果；

融合单元，用于将所述文本识别结果、所述图像识别结果和所述光流识别结果输入至所述行为识别模型的融合层，得到所述融合层输出的所述行为识别结果。

根据本申请提供的一种行为识别装置，所述场景图构建单元用于：

根据本申请提供的一种行为识别装置，所述文本识别单元用于：

根据本申请提供的一种行为识别装置，所述文本序列是根据各场景图对应图像在图像序列中的时序，对各场景图的场景文本进行拼接得到的。

本申请还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述行为识别方法的步骤。

本申请还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述行为识别方法的步骤。

本申请提供的行为识别方法、装置、电子设备和存储介质，在行为识别过程中构建了各帧图像的场景图，并将场景图转换所得的文本应用于行为识别，实现了基于视频的行为识别。在此过程中，场景图的应用，从高水平的语义信息层面对行为识别起到的辅助作用，同时场景图作为一种通过节点与边的连接表示复杂非线性关系的数据结构，为行为识别提供了清晰的视觉概念，增强了行为识别模型的可读性和可解释性，有助于提高行为识别的鲁棒性。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的行为识别方法的流程示意图；

图2是本申请提供的行为识别方法中步骤120的实施方式的流程示意图；

图3是本申请提供的行为识别方法中步骤121的实施方式的流程示意图；

图4是本申请提供的行为识别方法中步骤122的实施方式的流程示意图；

图5是本申请提供的行为识别模型的训练方法的流程示意图；

图6是本申请提供的场景图构建模型的训练方法的流程示意图；

图7是本申请提供的行为识别方法中步骤110的实施方式的流程示意图；

图8是本申请提供的行为识别模型的结构示意图；

图9是本申请提供的行为识别装置的结构示意图之一；

图10是本申请提供的行为识别装置的行为识别单元的结构示意图；

图11是本申请提供的行为识别装置的结构示意图之二；

图12是本申请提供的行为识别装置的序列确定单元的结构示意图；

图13是本申请提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，基于视频的行为识别方法多为如下两种：

一种是通过膨胀3D双流卷积网络模型实现行为识别，此处模型输入为RGB图像序列和光流图像序列，对RGB图像序列和光流图像序列在两个分支上分别进行图像分类。此处膨胀3D双流卷积网络可以是将双流模型中的2D卷积核和池化核扩展到3D后得到的。

另一种是通过相似图网络进行行为识别。具体可以通过目标检测从每一帧图像中选出兴趣区域，将所有图像的兴趣区域的特征向量作为图结构的节点，在所有兴趣区域中计算彼此特征向量的相似度。若相似度高，则两者之间存在关系。然后通过图卷积网络对整个视频的图进行直接分类。

上述方法中，基于膨胀3D双流卷积网络模型的方法，由于模型属性难以明确信息被抽象处理的原理，导致模型的解释性和鲁棒性无法控制。基于相似图网络的方法中，相似度的度量是像素特征的比较，从低水平的图像像素出发进行特征提取，缺乏可读性特征的输出，同样不利于模型的回溯分析。对此，本申请提供一种可解释的行为识别方法，图1是本申请提供的行为识别方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待识别视频的图像序列。

具体地，待识别视频即需要进行行为识别的视频，此处待识别视频可是预先拍摄并存储的视频，也可以是实时采集的视频流，本申请实施例对不作具体限定。图像序列是对待识别视频进行采样得到的，图像序列包含多帧图像，每帧图像均来源于待识别视频，且多帧图像按照待识别视频中的时间顺序排列，从而形成图像序列。需要说明的是，在对待识别视频进行采集时，通常是基于待识别视频的总帧数进行均匀的顺序采集，由此得到的每帧图像之间的时间间隔相等。

步骤120，将图像序列输入至行为识别模型，得到所行为识别模型输出的行为识别结果；行为识别模型是基于样本视频的样本图像序列和样本行为识别结果训练得到的；

其中，行为识别模型用于构建图像序列中各帧图像的场景图，对各帧图像的场景图转换所得的文本进行行为识别，并将文本识别结果与图像识别结果和光流识别结果相结合，图像识别结果和光流识别结果是对图像序列进行行为识别得到的。

具体地，行为识别模型用于对输入的图像序列中的各帧图像进行分析，从而得到图像序列对应的行为识别结果。行为识别模型在进行行为识别的过程中，具体划分了三条支路分别进行行为识别，即基于场景图的行为识别、基于图像的行为识别以及基于光流图的行为识别，对应得到的识别结果分别是文本识别结果、图像识别结果和光流识别结果。

在三条支路中，基于图像的行为识别以及基于光流图的行为识别可以通过现有的行为识别方式实现，例如可以通过膨胀3D双流卷积网络实现。而基于场景图的行为识别，可以是针对各帧图像中的实体，以及实体之间的关系，构建各帧图像分别对应的场景图。此处，场景图中的节点即对应图像中的实体，场景图中各个节点之间的连接关系即对应图像中实体之间的关系。并在此基础上，对各帧图像的场景图进行文本表示，从而实现场景图到文本的转换，在转换得到文本之后，对文本进行分类识别，从而得到文本识别结果。

最后，行为识别模型可以结合文本识别结果、图像识别结果和光流识别结果输出最终的行为识别结果。

在执行步骤120之前，还可以预先训练得到行为识别模型，具体可以通过如下方式训练得到行为识别模型：首先，收集大量样本视频，提取样本视频的样本图像序列，并通过人工标注得到样本视频的样本行为识别结果。随即，将样本视频的样本图像序列以及样本行为识别结果输入至初始模型进行训练，从而得到行为识别模型。

本申请实施例提供的方法，在行为识别过程中构建了各帧图像的场景图，并将场景图转换所得的文本应用于行为识别，实现了基于视频的行为识别。在此过程中，场景图的应用，从高水平的语义信息层面对行为识别起到的辅助作用，同时场景图作为一种通过节点与边的连接表示复杂非线性关系的数据结构，为行为识别提供了清晰的视觉概念，增强了行为识别模型的可读性和可解释性，有助于提高行为识别的鲁棒性。

基于上述实施例，行为识别模型包括场景图构建层、文本识别层、图像识别层、光流识别层和融合层；其中，场景图构建层、文本识别层属于基于场景图的行为识别分支，图像识别层、光流识别层分别属于基于图像和基于光流的行为识别分支，融合层用于实现上述三个分支的识别结果的融合。

图2是本申请提供的行为识别方法中步骤120的实施方式的流程示意图，如图2所示，步骤120包括：

步骤121，将图像序列输入至行为识别模型的场景图构建层，得到场景图构建层输出的各帧图像的场景图；

步骤122，将各帧图像的场景图输入至行为识别模型的文本识别层，得到文本识别层输出的文本识别结果。

具体地，场景图构建层用于构建图像序列中各帧图像分别对应的场景图，从而将各帧图像中非结构化的视觉信息转换为结构化的场景图，从高水平的语义角度和实体级别理解视觉场景中各个实体之间的关系，以增强行为识别模型的可读性和可解释性。

文本识别层用于将各帧图像的场景图转换为文本，从文本层面上体现各帧图像的表观信息，同时结合各帧图像在图像序列中的排列时序，对各帧图像对应的文本进行拼接，从而从拼接顺序上体现各帧图像之间的运动信息。在此基础上，文本识别层基于拼接所得的文本序列进行行为识别，从而得到基于场景图转换所得文本的识别结果，即文本识别结果。

步骤123，将图像序列输入至行为识别模型的图像识别层，得到图像识别层输出的图像识别结果。

步骤124，将图像序列输入至行为识别模型的光流识别层，得到光流识别层输出的光流识别结果。

具体地，图像识别层和光流识别层分别从图像和光流的层面上进行行为识别。其中，图像识别层可以是膨胀3D卷积网络，图像识别层可以对输入的图像序列中的各帧RGB图像进行行为分类，从而得到基于RGB图像的识别结果，即图像识别结果。光流识别层可以包括光流网络和膨胀3D卷积网络，光流识别层可以通过光流网络对输入的图像序列中每两个相邻帧图像进行计算，从而得到相对应的光流图，再基于膨胀3D卷积网络对光流图进行行为分类，从而得到基于光流图的识别结果，即光流识别结果。

需要说明的是，本申请不对步骤121与122、步骤123、步骤124的执行顺序作具体限定，步骤121与122可以和步骤123、124同步执行，可以在步骤1223、124之前或者之后执行。

步骤125，将文本识别结果、图像识别结果和光流识别结果输入至行为识别模型的融合层，得到融合层输出的行为识别结果。

具体地，融合层用于融合文本识别结果、图像识别结果和光流识别结果，融合层可以通过全连接层和softmax函数实现，其中全连接层可以是在训练过程中自适应学习上述三个分支分别得到的文本识别结果、图像识别结果和光流识别结果的融合参数，以实现三者的融合。

基于上述任一实施例，场景图构建层包括实体检测层、关系预测层和场景图输出层；图3是本申请提供的行为识别方法中步骤121的实施方式的流程示意图，如图3所示，步骤121包括：

步骤1211，将图像序列中的各帧图像分别输入至场景图构建层的实体检测层，得到实体检测层输出的各帧图像包含实体的区域图像和类型。

此处，实体检测层用于对输入的各帧图像分别进行实体检测，从而输出各帧图像中包含实体的区域图像，以及实体的类型。此处实体的区域图像可以是基于实体检测所得的检出框分割得到的图像，实体的类型即实体对应的语义信息。实体检测层可以基于常用的目标检测模型结构实现，例如端到端的YOLO模型(You Only Look Once，目标检测模型)。

步骤122，将各帧图像包含实体的区域图像分别输入至场景图构建层的关系预测层，得到关系预测层输出的各帧图像包含实体之间的关系。

具体地，关系预测层可以对输入的各帧图像中的区域图像之间的关系进行预测，进一步地，可以将各帧图像中的区域图像进行两两组对后输入到关系预测层中进行对应两个实体之间的关系预测。此处得到的实体之间的关系可以包括空间距离层面上的关系，例如“A在B的上方”，也可以包括属性层面上的关系，例如“B抱着A”。

步骤123，将各帧图像包含实体的类型，以及各帧图像包含实体之间的关系输入至场景图构建层的场景图输出层，得到场景图输出层输出的各帧图像的场景图。

具体地，在得到实体检测层和关系预测层的输出之后，可以将各帧图像包含实体的类型，以及各帧图像包含实体之间的关系输入至场景图输出层，由场景图输出层基于各帧图像中包含的实体的类型，以及各帧图像中包含的实体之间的关系，进行场景图构建，从而输出各帧图像分别对应的场景图。

基于上述任一实施例，文本识别层包括转换层和分类层；图4是本申请提供的行为识别方法中步骤122的实施方式的流程示意图，如图4所示，步骤122包括：

步骤1221，将各帧图像的场景图输入至文本识别层的转换层，得到转换层输出的各场景图的场景文本；

步骤1222，将各场景图的场景文本拼接所得的文本序列输入至文本识别层的分类层，得到分类层输出的文本识别结果。

具体地，转换层用于实现场景图到场景文本的转换，此处的场景文本用于描述场景图的结构化信息，从文本层面上体现各帧图像的表观信息。将各场景图的场景文本进行拼接，即可得到同时包含了时序信息的文本序列。分类层用于对文本序列进行行为识别，从而输出文本识别结果。

基于上述任一实施例，文本序列是根据各场景图对应图像在图像序列中的时序，对各场景图的场景文本进行拼接得到的。

具体地，可以按照图像序列中各帧图像排列的先后顺序，依次对各帧图像对应场景图的场景文本进行拼接，由此拼接得到的文本序列本身即反映了各个实体及其之间关系的变化过程，即包含了待识别视频的运动信息。由此得到的文本序列，兼顾了各帧图像的表观信息，以及各帧图像变化过程中的运动信息，基于文本序列进行行为识别，能够提高行为识别的稳定性。

基于上述任一实施例，图5是本申请提供的行为识别模型的训练方法的流程示意图，如图5所示，训练方法包括：

步骤510，基于样本图像序列，以及样本图像序列中各帧样本图像的样本场景图，训练得到场景图构建模型；

步骤520，基于样本图像序列中各帧样本图像的样本场景图，以及样本图像序列的样本行为识别结果，训练得到文本识别模型。

具体地，场景图构建模型用于实现场景图的构建，其实现功能对应于行为识别模型中的场景图构建层，文本识别模型用于实现基于场景图的行为识别，其实现功能对应于行为识别模型中的文本识别层。

在对行为识别模型整体进行训练之前，可以对其中的场景图构建层和文本识别层分别进行预训练。具体可以是基于预先收集的图像序列，以及样本图像序列中各帧样本图像的样本场景图进行场景图构建模型的训练，基于预先收集的样本图像序列中各帧样本图像的样本场景图，以及样本图像序列的样本行为识别结果进行文本识别模型的训练。

步骤530，基于场景图构建模型和文本识别模型的参数，对行为识别模型进行参数初始化，基于样本图像序列和样本行为识别结果对参数初始化后的行为识别模型进行训练。

具体地，在完成场景图构建模型和文本识别模型的训练后，可以将场景图构建模型和文本识别模型的参数分别应用于行为识别模型中场景图构建层和文本识别层的参数初始化，并在此基础上对行为识别模型整体进行训练，使得行为识别模型能够快速收敛。

基于上述任一实施例，各帧样本图像的样本场景图是基于标注所得的各帧样本图像中包含的实体类型和实体区域图像，以及实体之间的关系构建的。

在标注时，需要预先设定每类行为对应的必要的实体类型和关系类型，并在标注样本行为识别结果指示行为对应的样本图像序列时，着重体现该行为对应的必要的实体类型和关系类型。此外，为了保证实体检测时能够在对象全覆盖的基础上边框区域最小且边界清晰，需要以细粒度的标准进行实体边界框的标注。再者，对于各组样本图像序列，在标注时，需要全面标注样本图像序列中前预设数量帧样本图像，后续各帧需要着重标注关键对象及变动区域，主客体可重复，关系组不超过50条。基于上述明确的标注原则，可以统一标注流程，减少不同标注工作者的主观性误差。

此外，标注所得的各类样本，可以保存为xml的格式，以便于训练时解析。

基于上述任一实施例，图6是本申请提供的场景图构建模型的训练方法的流程示意图，如图6所示，该方法包括：

首先，将标注好的各帧样本图像的样本场景图解析为可训练的文件格式。

其次，对标注好的样本场景图进行数据统计，得到其中包含的实体类别和关系类别，生成词典文件。

接着，将生成的可训练场景图数据作为样本标签，连同对应的样本图像序列输入场景图创建模型进行训练。

此处的场景图创建模型主要包含实体检测和关系预测两部分。可以先利用有限标签和知识词库补充训练样本中的缺失关系，然后用所有训练样本重新训练整个场景图创建模型。

在此基础上，即可训练得到完整的场景图创建模型。

基于上述任一实施例，图7是本申请提供的行为识别方法中步骤110的实施方式的流程示意图，如图7所示，步骤110包括：

步骤111，将待识别视频转换为视频图像序列；

步骤112，对视频图像序列进行抽帧，得到图像序列。

具体地，可以将待识别视频按照预先设定的视频帧率进行转换，从而得到RGB格式的视频图像序列。此处，预先设定的视频帧率可以是25fps。在此基础上，可以对视频图像序列进行均匀抽样，从而得到图像序列。此处的抽帧操作，能够减少相似帧过多造成的重复工作量和数据冗余。

基于上述任一实施例，图8是本申请提供的行为识别模型的结构示意图，如图8所示，行为识别模型包括场景图构建层、文本识别层、图像识别层、光流识别层和融合层。

其中，场景图构建层、文本识别层属于基于场景图的行为识别分支，分别用于构建图像序列中各帧图像分别对应的场景图，以及对场景图转换所得的文本进行行为识别。

图像识别层可以基于膨胀3D卷积网络构建，用于输入的图像序列中的各帧RGB图像进行行为分类。光流识别层可以包括光流网络和膨胀3D卷积网络，光流识别层可以通过光流网络对输入的图像序列中每两个相邻帧图像进行计算，从而得到相对应的光流图，再基于膨胀3D卷积网络对光流图进行行为分类。

融合层可以通过全连接层和softmax函数实现，用于融合文本识别结果、图像识别结果和光流识别结果，得到行为识别结果。

下面对本申请提供的行为识别装置进行描述，下文描述的行为识别装置与上文描述的行为识别方法可相互对应参照。

图9是本申请提供的行为识别装置的结构示意图之一，如图9所示，行为识别装置包括：

序列确定单元910，用于确定待识别视频的图像序列；

行为识别单元920，用于将所述图像序列输入至行为识别模型，得到所述行为识别模型输出的行为识别结果；所述行为识别模型是基于样本视频的样本图像序列和样本行为识别结果训练得到的；

本申请提供的装置，在行为识别过程中构建了各帧图像的场景图，并将场景图转换所得的文本应用于行为识别，实现了基于视频的行为识别。在此过程中，场景图的应用，从高水平的语义信息层面对行为识别起到的辅助作用，同时场景图作为一种通过节点与边的连接表示复杂非线性关系的数据结构，为行为识别提供了清晰的视觉概念，增强了行为识别模型的可读性和可解释性，有助于提高行为识别的鲁棒性。

基于上述任一实施例，图10是本申请提供的行为识别装置的行为识别单元的结构示意图，如图10所示，行为识别单元920包括：

场景图构建单元921，用于将所述图像序列输入至所述行为识别模型的场景图构建层，得到所述场景图构建层输出的各帧图像的场景图；

文本识别单元922，用于将所述各帧图像的场景图输入至所述行为识别模型的文本识别层，得到所述文本识别层输出的所述文本识别结果；

图像识别单元923，用于将所述图像序列输入至所述行为识别模型的图像识别层，得到所述图像识别层输出的图像识别结果；

光流识别单元924，用于将所述图像序列输入至所述行为识别模型的光流识别层，得到所述光流识别层输出的光流识别结果；

融合单元925，用于将所述文本识别结果、所述图像识别结果和所述光流识别结果输入至所述行为识别模型的融合层，得到所述融合层输出的所述行为识别结果。

基于上述任一实施例，所述场景图构建单元921用于：

基于上述任一实施例，所述文本识别单元922用于：

基于上述任一实施例，所述文本序列是根据各场景图对应图像在图像序列中的时序，对各场景图的场景文本进行拼接得到的。

基于上述任一实施例，图11是本申请提供的行为识别装置的结构示意图之二，如图11所示，该装置还包括模型训练单元930，模型训练单元930用于：

基于上述任一实施例，图12是本申请提供的行为识别装置的序列确定单元的结构示意图，如图12所示，序列确定单元910包括：

序列转换单元911，用于将所述待识别视频转换为视频图像序列；

抽帧单元912，用于对所述视频图像序列进行抽帧，得到所述图像序列。

本申请实施例提供的行为识别装置用于执行上述行为识别方法，其实施方式与本申请提供的行为识别方法的实施方式一致，且可以达到相同的有益效果，此处不再赘述。

图13示例了一种电子设备的实体结构示意图，如图13所示，该电子设备可以包括：处理器(processor)1310、通信接口(Communications Interface)1320、存储器(memory)1330和通信总线1340，其中，处理器1310，通信接口1320，存储器1330通过通信总线1340完成相互间的通信。处理器1310可以调用存储器1330中的逻辑指令，以执行行为识别方法，该方法包括：确定待识别视频的图像序列；将所述图像序列输入至行为识别模型，得到所述行为识别模型输出的行为识别结果；所述行为识别模型是基于样本视频的样本图像序列和样本行为识别结果训练得到的；其中，所述行为识别模型用于构建所述图像序列中各帧图像的场景图，对各帧图像的场景图转换所得的文本进行行为识别，并将文本识别结果与图像识别结果和光流识别结果相结合，所述图像识别结果和光流识别结果是对所述图像序列进行行为识别得到的。

此外，上述的存储器1330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例提供的电子设备中的处理器1310可以调用存储器1330中的逻辑指令，实现上述行为识别方法，其实施方式与本申请提供的行为识别方法的实施方式一致，且可以达到相同的有益效果，此处不再赘述。

另一方面，本申请还提供一种计算机程序产品，下面对本申请提供的计算机程序产品进行描述，下文描述的计算机程序产品与上文描述的行为识别方法可相互对应参照。

所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的行为识别方法，该方法包括：确定待识别视频的图像序列；将所述图像序列输入至行为识别模型，得到所述行为识别模型输出的行为识别结果；所述行为识别模型是基于样本视频的样本图像序列和样本行为识别结果训练得到的；其中，所述行为识别模型用于构建所述图像序列中各帧图像的场景图，对各帧图像的场景图转换所得的文本进行行为识别，并将文本识别结果与图像识别结果和光流识别结果相结合，所述图像识别结果和光流识别结果是对所述图像序列进行行为识别得到的。

本申请实施例提供的计算机程序产品被执行时，实现上述行为识别方法，其实施方式与本申请提供的行为识别方法的实施方式一致，且可以达到相同的有益效果，此处不再赘述。

又一方面，本申请还提供一种非暂态计算机可读存储介质，下面对本申请提供的非暂态计算机可读存储介质进行描述，下文描述的非暂态计算机可读存储介质与上文描述的行为识别方法可相互对应参照。

本申请还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的行为识别方法，该方法包括：确定待识别视频的图像序列；将所述图像序列输入至行为识别模型，得到所述行为识别模型输出的行为识别结果；所述行为识别模型是基于样本视频的样本图像序列和样本行为识别结果训练得到的；其中，所述行为识别模型用于构建所述图像序列中各帧图像的场景图，对各帧图像的场景图转换所得的文本进行行为识别，并将文本识别结果与图像识别结果和光流识别结果相结合，所述图像识别结果和光流识别结果是对所述图像序列进行行为识别得到的。

本申请实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时，实现上述行为识别方法，其实施方式与本申请提供的行为识别方法的实施方式一致，且可以达到相同的有益效果，此处不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种行为识别方法，其特征在于，包括：

确定待识别视频的图像序列；

其中，所述行为识别模型用于构建所述图像序列中各帧图像的场景图，对各帧图像的场景图转换所得的文本进行行为识别，并将文本识别结果与图像识别结果和光流识别结果相结合，所述图像识别结果和光流识别结果是对所述图像序列进行行为识别得到的；

所述将所述图像序列输入至行为识别模型，得到所述行为识别模型输出的行为识别结果，包括：

2.根据权利要求1所述的行为识别方法，其特征在于，所述将所述图像序列输入至所述行为识别模型的场景图构建层，得到所述场景图构建层输出的各帧图像的场景图，包括：

3.根据权利要求1所述的行为识别方法，其特征在于，所述将所述各帧图像的场景图输入至所述行为识别模型的文本识别层，得到所述文本识别层输出的所述文本识别结果，包括：

4.根据权利要求3所述的行为识别方法，其特征在于，所述文本序列是根据各场景图对应图像在图像序列中的时序，对各场景图的场景文本进行拼接得到的。

5.根据权利要求1所述的行为识别方法，其特征在于，所述行为识别模型的训练方法包括：

6.根据权利要求1至5中任一项所述的行为识别方法，其特征在于，所述确定待识别视频的图像序列，包括：

将所述待识别视频转换为视频图像序列；

对所述视频图像序列进行抽帧，得到所述图像序列。

7.一种行为识别装置，其特征在于，包括：

序列确定单元，用于确定待识别视频的图像序列；

所述行为识别单元包括：

8.根据权利要求7所述的行为识别装置，其特征在于，所述场景图构建单元用于：

9.根据权利要求7所述的行为识别装置，其特征在于，所述文本识别单元用于：

10.根据权利要求9所述的行为识别装置，其特征在于，所述文本序列是根据各场景图对应图像在图像序列中的时序，对各场景图的场景文本进行拼接得到的。

11.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述行为识别方法的步骤。

12.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述行为识别方法的步骤。