CN112016540B

CN112016540B - 一种基于静态图像的行为识别方法

Info

Publication number: CN112016540B
Application number: CN202011200755.8A
Authority: CN
Inventors: 谢毓湘; 宫铨志; 张家辉; 栾悉道; 闫洁; 魏迎梅; 康来; 蒋杰; 白亮
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-01-12
Anticipated expiration: 2040-11-02
Also published as: CN112016540A

Abstract

本发明公开一种基于静态图像的行为识别方法，包括如下步骤：获取待识别图像，对待识别图像中的目标信息进行标注，得到第一标注信息；将待识别图像与第一标注信息输入至行为识别模型；基于CBOW模型对第一标注信息进行识别，得到第一行为预测概率分布；基于DenseNet模型对待识别图像进行识别，得到第二行为预测概率分布；将第一行为预测概率分布与第二行为预测概率分布中相同的行为信息对应的概率值进行加权，选取最大概率值所对应的行为信息作为识别结果并输出。结合行为要素共现信息作为辅助的深度学习框架来进行静态图像行为识别，实现对图像中行为的有效识别，提高静态图像行为识别的准确性，满足应用中的基本需求。

Description

一种基于静态图像的行为识别方法

技术领域

本发明涉及多媒体信息处理技术领域，具体是一种基于静态图像的行为识别方法，其实质是词语共现信息提取、行为特征提取和行为特征分类方法，是一种能够适应多种行为的识别方法。

背景技术

随着网络时代的到来，信息传输速度的加快，图像与视频逐渐展现出文字所没有的独特优势，越来越多地受到了人们的欢迎与使用。同时，人工智能突飞猛进地发展，计算机的计算能力也在不断增加。这样的背景下，通过计算机程序进行的图像和视频的理解也进入到了语义层次。在计算机视觉领域，对于图像的识别根据所关注的内容而被划分为目标识别、行为识别、场景识别等等。

行为识别一直是一个十分热门的研究问题，主要任务是利用视觉数据对目标行为类别进行识别。根据输入的不同，通常行为识别会分为视频的行为识别和静态图像的行为识别。视频行为识别常用于网络视频的查验，公共场所监控的异常检测与视频内容抽取等。其特点在于有时序和空间两部分信息，可以通过时序信息带来的轨迹等内容构造模型，提取行为特征，结合关键帧的图像信息完成行为识别任务。而相对于视频，图像行为识别的视觉数据没有时序特征，在数据上没有连续图像可供参考，只能通过单幅图像完成行为识别，从而在技术上难度更高。实际上，行为识别并非无时序信息就无法完成，视频本身来自连续图像的信息红利并不是必要的。相对的，图像数据小，预处理简易，识别速度快，应用广泛等优势使得图像行为识别的研究热度也很高。

图像行为识别并不是一个技术顶点，在此基础上可以做更多的学术研究。例如，进一步利用图像行为信息可以促进视频识别，完善人机交互等。对于这个任务的研究可以影响其他相关领域的研究，因此，在学术上它有很高的价值。

静态图像中的人体行为识别不但具有重要的学术研究意义，还有着广泛的现实应用价值。常见的图像行为识别的应用有人物行为意图分析，图像标签自动生成以及图像的检索等，在这些场景下，此技术起着不可替代的作用。

对图像中人物行为的理解识别有助于自动地对图像中人物的行为意图进行分析，便于进一步对事态分析或人物组织关系的研究。同时还有助于对图像进行自动标注，避免了人工标注耗时耗力的现状，减少了标注成本，为其他学术研究提供便利。在图像检索方面，行为识别技术可以对使得检索范围从实体的目标拓宽到抽象的行为，更好地满足使用者的需求。

目前静态图像的行为识别技术大多使用传统方法构成，人为设计与提取识别线索。这种方法取得了一定的识别效果，但却受限于人类自身对图像的理解，在很多情况下这种方法的适用性受限，不能有效满足图像标签自动生成与图像检索的需要。因此研究多样化的深度学习网络技术解决静态图像行为识别很有价值。

发明内容

针对上述现有技术中的不足，本发明提供一种基于静态图像的行为识别方法，结合行为要素共现信息作为辅助的深度学习框架来进行静态图像行为识别，实现对图像中行为的有效识别，提高静态图像行为识别的准确性，满足应用中的基本需求。

为实现上述目的，本发明提供一种基于静态图像的行为识别方法，包括如下步骤：

步骤1，获取待识别图像，并对待识别图像中的目标信息进行标注，得到第一标注信息；

步骤2，将待识别图像与第一标注信息输入至行为识别模型，其中，所述识别模型包括CBOW模型与DenseNet模型；

步骤3，基于CBOW模型对第一标注信息进行识别，得到第一标注信息中目标信息所对应行为信息的第一行为预测概率分布；

步骤4，基于DenseNet模型对待识别图像进行识别，得到待识别图像中目标信息所对应行为信息的第二行为预测概率分布；

步骤5，将第一行为预测概率分布与第二行为预测概率分布中相同的行为信息对应的概率值进行加权，得到最终行为预测概率分布，选取最终行为预测概率分布中最大概率值所对应的行为信息作为识别结果并输出。

在其中一个实施例中，步骤3中，所述基于CBOW模型对第一标注信息进行识别，具体包括：

步骤3.1，构建第一训练样本库，所述第一训练样本库包括若干第二标注信息，其中，所述第二标注信息包括目标信息以及与目标信息对应的行为信息；

步骤3.2，基于第一训练样本库对CBOW模型进行训练，得到训练后的CBOW模型；

步骤3.3，基于训练后的CBOW模型对第一标注信息进行识别，得到第一标注信息中目标信息所对应行为信息的第一行为预测概率分布。

在其中一个实施例中，步骤3.2中，所述基于第一训练样本库对CBOW模型进行训练，得到训练后的CBOW模型，具体包括：

步骤3.2.1，选取第二标注信息；

步骤3.2.2，将选取的第二标注信息输入至CBOW模型，并将第二标注信息对应的目标信息与行为信息转换成one-hot词向量；

步骤3.2.3，将步骤3.2.2中目标信息转化的得到的one-hot词向量乘以CBOW模型的第一权重矩阵，作为目标信息在CBOW模型下的词向量格式；

步骤3.2.4，将步骤3.2.3中乘积所得的结果相加，进行平均操作，再将平均后结果乘以CBOW模型的第二个权重矩阵，得到第一结果词向量；

步骤3.2.5，对第一结果词向量进行softmax激活函数处理，得到格式与one-hot向量相同的第一输出词向量，并基于第一输出词向量与步骤3.2.2中行为信息转化的得到的one-hot词向量进行损失计算，得到第一损失结果；

步骤3.2.6，判断第一损失结果是否小于第一设定阈值，若是则完成CBOW模型的训练，否则在调整第一权重矩阵与第二权重矩阵后选取新的第二标注信息后重复步骤3.2.2-3.2.6。

在其中一个实施例中，步骤3.2.6中，采用随机梯度下降算法调整第一权重矩阵与第二权重矩阵。

在其中一个实施例中，步骤3.3中，所述基于训练后的CBOW模型对第一标注信息进行识别，具体为：

步骤3.3.1，将第一标注信息输入至训练后的CBOW模型，并将第一标注信息对应的目标信息转换成one-hot词向量；

步骤3.3.2，将步骤3.3.1中目标信息转化的得到的one-hot词向量乘以CBOW模型的第一权重矩阵，作为目标信息在CBOW模型下的词向量格式；

步骤3.3.3，将步骤3.3.2中乘积所得的结果相加，进行平均操作，再将平均后结果乘以CBOW模型的第二个权重矩阵，得到第二结果词向量；

步骤3.3.4，对第二结果词向量进行softmax激活函数处理，得到格式与one-hot向量相同的第二输出词向量，即得到第一标注信息中目标信息所对应行为信息的第一行为预测概率分布。

在其中一个实施例中，步骤4中，所述基于DenseNet模型对待识别图像进行识别，具体包括：

步骤4.1，构建第二训练样本库，所述第二训练样本库包括若干具有目标信息与行为信息的样本图像；

步骤4.2，基于第二训练样本库对DenseNet模型进行训练，得到训练后的DenseNet模型；

步骤4.3，基于训练后的DenseNet模型对待识别图像进行识别，得到待识别图像中目标信息所对应行为信息的第二行为预测概率分布。

在其中一个实施例中，步骤4.2中，所述基于第二训练样本库对DenseNet模型进行训练，具体包括：

步骤4.2.1，选取样本图像；

步骤4.2.2，将选取的样本图像传输进DenseNet模型中进行处理，得到训练结果；

步骤4.2.3，对训练结果进行softmax激活处理，得到样本图像中行为信息的第一行为训练预测概率分布；

步骤4.2.4，将样本图像对应的目标信息输入至训练后的CBOW模型，得到样本图像中目标信息所对应行为信息的第二行为训练预测概率分布；

步骤4.2.5，将第一行为训练预测概率分布与第二行为训练预测概率分布中相同的行为信息对应的概率值进行加权，得到最终行为训练预测概率分布，并选取最终行为训练预测概率分布中最大概率值所对应的行为信息作为训练结果，对得到该训练结果的第二输出词向量；

步骤4.2.6，基于第二输出词向量与样本图像中行为信息转化的得到的one-hot词向量进行损失计算，得到第二损失结果；

步骤4.2.7，判断第二损失结果是否小于第二设定阈值，若是则完成DenseNet模型的训练，否则在调整DenseNet模型中卷积层的参数后选取新的样本图像后重复步骤4.2.2-4.2.7。

在其中一个实施例中，步骤4.2.7中，采用随机梯度下降算法调整DenseNet模型中卷积层的参数。

在其中一个实施例中，步骤4.3，所述基于训练后的DenseNet模型对待识别图像进行识别，具体包括：

步骤4.3.1，将待识别图像输入至训练后的DenseNet模型；

步骤4.3.2，基于训练后的DenseNet模型对待识别图像进行处理，得到处理结果；

步骤4.3.3，将步骤4.3.2中的处理结果进行softmax激活处理，即得到待识别图像中目标信息所对应行为信息的第二行为预测概率分布。

本发明提供的一种基于静态图像的行为识别方法，结合行为要素共现信息作为辅助的深度学习框架来进行静态图像行为识别，不仅可以针对不同行为图片进行自适应的特征设计与图像表示，来达到更智能化的图像行为识别，同时利用CBOW模型带来的辅助影响提高了识别准确率，使其具有了更强的整体性与更好的识别效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例中基于静态图像的行为识别方法的流程示意图；

图2为本发明实施例中CBOW模型的训练流程示意图；

图3为本发明实施例中CBOW模型的识别流程示意图；

图4为本发明实施例中DenseNet模型的训练流程示意图；

图5为本发明实施例中DenseNet模型的识别流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示（诸如上、下、左、右、前、后……）仅用于解释在某一特定姿态（如附图所示）下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“连接”、“固定”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接，还可以是物理连接或无线通信连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

如图1-5所示为本实施例公开的一种基于静态图像的行为识别方法，该方法具体包括如下步骤：

步骤1，获取待识别图像，并对待识别图像中的目标信息进行标注，得到第一标注信息，其中，待识别图像为描述人体行为的静态图像。

步骤2，将待识别图像与第一标注信息输入至行为识别模型。本实施例中，识别模型由CBOW模型与改造的DenseNet模型两个分支组成，且CBOW模型与DenseNet模型分别具有对应的输入接收端口。接收文字信息的输入接收端口将第一标注信息输入至CBOW模型中，接收图像信息的输入接收端口将待识别图像输入至DenseNet模型中。

步骤3，利用CBOW模型对第一标注信息中的目标信息进行行为类别范围的划定，将其作为辅助工具提高DenseNet模型对行为的判定准确率。行为的关键要素包含行为的执行者和被执行者，在行为发生的过程中，行为类别与其关键要素的共现信息有密切的联系，而行为识别模型本身并不会特化地针对这种联系进行识别。这种共现信息可以通过目标对与行为的出现频次来表示，而使用CBOW模型可以通过学习目标对词汇与行为词汇的共现信息来进行行为的预测，并通过结果划定行为类别范围。因此在步骤3中基于CBOW模型对第一标注信息进行识别，得到第一标注信息中目标信息所对应行为信息的第一行为预测概率分布，其具体过程为：

步骤3.1，构建以“目标对-行为”为体现的第一训练样本库，获得CBOW模型的训练资源，第一训练样本库包括若干第二标注信息，其中，第二标注信息包括目标信息以及与目标信息对应的行为信息。可以考虑从样本图像中提取语料资源，将样本图像中的关键目标对与行为组合成语句格式作为第二标注信息，例如以“目标1-行为-目标二”的形式，提取行为关键要素的共现信息，其中，“目标1”、“目标2”即为第二标注信息中的目标信息，“行为”即为第二标注信息中的行为信息。

步骤3.2，基于第一训练样本库对CBOW模型进行训练，得到训练后的CBOW模型，其训练过程具体为：

步骤3.2.1，选取第二标注信息；

步骤3.2.4，将步骤3.2.3中乘积所得的结果相加，进行平均操作，再将平均后结果乘以CBOW模型的第二个权重矩阵，得到第一结果词向量，其中，第一结果词向量为第二标注信息的预测结果在CBOW模型下的状态；

步骤3.2.5，对第一结果词向量进行softmax激活函数处理，得到格式与one-hot向量相同的第一输出词向量，即是第二标注信息的行为预测概率分布；再基于第一输出词向量与步骤3.2.2中行为信息转化的得到的one-hot词向量进行损失计算，得到第一损失结果，其中，损失计算过程为所属领域的常规技术手段，因此本实施例中不再赘述；

步骤3.2.6，判断第一损失结果是否小于第一设定阈值，若是则完成CBOW模型的训练，否则在调整第一权重矩阵与第二权重矩阵后选取新的第二标注信息后重复步骤3.2.2-3.2.6，其中优选地，采用随机梯度下降算法调整第一权重矩阵与第二权重矩阵。

步骤3.3，基于训练后的CBOW模型对第一标注信息进行识别，得到第一标注信息中目标信息所对应行为信息的第一行为预测概率分布，其识别过程具体为：

步骤3.3.3，将步骤3.3.2中乘积所得的结果相加，进行平均操作，再将平均后结果乘以CBOW模型的第二个权重矩阵，得到第二结果词向量，其中，第二结果词向量为第一标注信息的预测结果在CBOW模型下的状态；

步骤4，基于DenseNet模型对待识别图像进行识别，得到待识别图像中目标信息所对应行为信息的第二行为预测概率分布，其中，DenseNet模型具体为DenseNet-121网络，即四个Dense Block中包含的1*1和3*3卷积层组分别为6、12、24、16组。DenseNet模型的识别过程具体为：

步骤4.1，构建第二训练样本库，第二训练样本库包括若干具有目标信息与行为信息的样本图像；

步骤4.2，基于第二训练样本库对DenseNet模型进行训练，得到训练后的DenseNet模型，在训练过程中，要考虑到与CBOW模型组合时，CBOW模型带来的影响，因此在训练DenseNet模型时，要在基本的训练流程中加入额外的处理，其具体过程为：

步骤4.2.1，选取样本图像；

步骤4.2.7，判断第二损失结果是否小于第二设定阈值，若是则完成DenseNet模型的训练，否则在调整DenseNet模型中卷积层的参数后选取新的样本图像后重复步骤4.2.2-4.2.7，其中优选地，采用随机梯度下降算法调整DenseNet模型中卷积层的参数。

步骤4.3，基于训练后的DenseNet模型对待识别图像进行识别，得到待识别图像中目标信息所对应行为信息的第二行为预测概率分布，其过程具体包括：

步骤4.3.1，将待识别图像输入至训练后的DenseNet模型；

相较于当前绝大多数较成熟的静态图像行为识别研究，即使用人工设计的特征来对图像进行特定的信息抓取与表示，从而完成行为识别。本实施例说公开的方法可以针对不同行为图片进行自适应的特征设计与图像表示，来达到更智能化的图像行为识别，同时利用CBOW模型带来的辅助影响提高了识别准确率。而且在DenseNet网络的训练过程，使CBOW模型的影响同时体现在训练与应用中，使得本方法的整体性更强，识别效果也更好。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种基于静态图像的行为识别方法，其特征在于，包括如下步骤：

步骤4，基于DenseNet模型对待识别图像进行识别，得到待识别图像中目标信息所对应行为信息的第二行为预测概率分布，其中，所述DenseNet模型的训练过程是基于训练后的CBOW模型进行的；

2.根据权利要求1所述基于静态图像的行为识别方法，其特征在于，步骤3中，所述基于CBOW模型对第一标注信息进行识别，具体包括：

3.根据权利要求2所述基于静态图像的行为识别方法，其特征在于，步骤3.2中，所述基于第一训练样本库对CBOW模型进行训练，得到训练后的CBOW模型，具体包括：

步骤3.2.1，选取第二标注信息；

4.根据权利要求3所述基于静态图像的行为识别方法，其特征在于，步骤3.2.6中，采用随机梯度下降算法调整第一权重矩阵与第二权重矩阵。

5.根据权利要求2或3或4所述基于静态图像的行为识别方法，其特征在于，步骤3.3中，所述基于训练后的CBOW模型对第一标注信息进行识别，具体为：

6.根据权利要求5所述基于静态图像的行为识别方法，其特征在于，步骤4中，所述基于DenseNet模型对待识别图像进行识别，具体包括：

7.根据权利要求6所述基于静态图像的行为识别方法，其特征在于，步骤4.2中，所述基于第二训练样本库对DenseNet模型进行训练，具体包括：

步骤4.2.1，选取样本图像；

步骤4.2.5，将第一行为训练预测概率分布与第二行为训练预测概率分布中相同的行为信息对应的概率值进行加权，得到最终行为训练预测概率分布，并选取最终行为训练预测概率分布中最大概率值所对应的行为信息作为训练结果，并得到该训练结果的第二输出词向量；

8.根据权利要求7所述基于静态图像的行为识别方法，其特征在于，步骤4.2.7中，采用随机梯度下降算法调整DenseNet模型中卷积层的参数。

9.根据权利要求6所述基于静态图像的行为识别方法，其特征在于，步骤4.3，所述基于训练后的DenseNet模型对待识别图像进行识别，具体包括：

步骤4.3.1，将待识别图像输入至训练后的DenseNet模型；