CN112084889A

CN112084889A - 一种图像行为识别方法、装置、计算设备及存储介质

Info

Publication number: CN112084889A
Application number: CN202010839740.XA
Authority: CN
Inventors: 吉长江
Original assignee: Beijing Moviebook Technology Corp ltd
Current assignee: Beijing Moviebook Technology Corp ltd
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2020-12-15

Abstract

本申请公开了一种图像行为识别方法、装置、计算设备及存储介质。所述方法及装置包括：视频输入；预处理，得到训练样本集和测试样本集；构造3D卷积神经网络；提取特征向量；进行分类训练；对模型进行测试，测试合格则对待测图像进行人体行为识别，测试不合格则重新训练。所述计算设备包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，所述处理器执行所述计算机程序时实现本发明所述的方法。所述存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现本发明所述的方法。

Description

一种图像行为识别方法、装置、计算设备及存储介质

技术领域

本申请涉及图像处理领域，特别是涉及一种图像行为识别方法、装置、计算设备及存储介质。

背景技术

识别图像中的人或动物的各种行为，通常采用的模型是卷积神经网络CNN，该模型支持向量积SVM，优化不好，在原始输入中提取人工特征过于复杂，所以很难检测到目标具有的特征，导致行为识别结果不准确，且计算分析数据慢，降低了识别速度。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种图像行为识别方法，包括：

逐帧读取输入的视频图像信息，并根据所述视频图像信息筛选人体行为特征明显的图像，将筛选后的图像进行保存；

将所述筛选后的图像进行预处理，并将预处理后的图像分为训练样本和测试样本两部分；

对训练样本和测试样本均提取灰度、x和y方向的光流、以及x和y方向的梯度共计五个通道信息，并将所述光流和梯度信息进行标记；

计算训练样本和测试样本每张图像灰度值的变化率；

对所述五个通道信息中的每个通道分别进行卷积和下采样操作，得到每一层卷积层和下采样层的特征图的大小；

利用训练样本的特征图构建3D卷积神经网络模型；

将第二层采样层得到的特征图拉伸成一个向量，并对所述向量进行降维，将降维后的向量作为图像的特征向量；

利用所述特征向量对所述3D卷积神经网络模型进行训练；

利用训练后的3D卷积神经网络模型对测试样本进行测试；

当测试结果合格时，利用所述的训练后的3D卷积神经网络模型对待测视频图像进行图像行为识别；

当测试结果不合格时，对所述3D卷积神经网络模型重新训练，直至测试结果合格为止。

可选地，所述的筛选后的图像为KTH数据集。

可选地，所述的将所述筛选后的图像进行预处理包括：

将筛选后的图像尺寸进行统一。

可选地，所述的利用所述特征向量对所述3D卷积神经网络模型进行训练包括：

采用线性分类器对所述特征向量进行分类；

采用反向传播BP算法对训练样本进行在线训练。

根据本申请的另一个方面，还提供了一种图像行为识别装置，包括：

筛选模块，其配置成逐帧读取输入的视频图像信息，并根据所述视频图像信息筛选人体行为特征明显的图像，将筛选后的图像进行保存；

预处理模块，其配置成将所述筛选后的图像进行预处理，并将预处理后的图像分为训练样本和测试样本两部分；

信息提取模块，其配置成对训练样本和测试样本均提取灰度、x和y方向的光流、以及x和y方向的梯度共计五个通道信息，并将所述光流和梯度信息进行标记；

计算模块，其配置成计算训练样本和测试样本的每张图像灰度值的变化率；

特征图获取模块，其配置成对所述五个通道信息中的每个通道分别进行卷积和下采样操作，得到每一层卷积层和下采样层的特征图的大小；

模型构建模块，其配置成利用训练样本的特征图构建3D卷积神经网络模型；

特征向量获取模块，其配置成将第二层采样层得到的特征图拉伸成一个向量，并对所述向量进行降维，将降维后的向量作为图像的特征向量；

训练模块，其配置成利用所述特征向量对所述3D卷积神经网络模型进行训练；

测试模块，其配置成利用训练后的3D卷积神经网络模型对测试样本进行测试，当测试结果合格时，启动识别模块，否则，重新启动训练模块；

识别模块，其配置成当测试结果合格时，利用所述的训练后的3D卷积神经网络模型对待测视频图像进行图像行为识别。

可选地，所述的筛选后的图像为KTH数据集。

可选地，所述的将所述筛选后的图像进行预处理包括：

将筛选后的图像尺寸进行统一。

采用线性分类器对所述特征向量进行分类；

采用反向传播BP算法对训练样本进行在线训练。

根据本申请的第三个方面，还提供了一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现本发明所述的方法。

根据本申请的第四个方面，还提供了一种存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现本发明所述的方法。

本申请由于采用了3D卷积神经网络，因此可以使用图像直接作为网络的输入，通过3D卷积操作核在时间和空间维度上提取视频数据特征，从而避免了传统方法中的图像预处理(传统的维度低，需要剔除的信息数据多，所以识别不准确)、在原始输入中提取的人工特征、以及图像识别后的数据重建(数据重建会导致识别不准确)过程，从而使得本申请对人体行为的识别更加准确。

进一步地，本申请由于标记准确，训练高效，因此提取的特征代表性性高、特征提取速度快，进而使人体行为识别的速度得到提高。

进一步地，本申请由于利用光流法实现对人体检测和运动估计，因此可以在对场景背景和场景物体完全无先验背景的情况对运动人体进行检测。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请一个实施例的一种图像行为识别方法的示意性流程图；

图2是根据本申请一个实施例的一种图像行为识别方法及装置的示意性原理框图；

图3是根据本申请一个实施例的一种图像行为识别装置的示意性结构框图；

图4是根据本申请一个实施例的一种计算设备的示意性结构框图；

图5是根据本申请一个实施例的一种存储介质的示意性结构框图。

具体实施方式

图1是根据本申请一个实施例的一种图像行为识别方法的示意性流程图，图2给出了所述方法的原理框图。所述图像行为识别方法一般性地可包括：

S1、逐帧读取输入到计算机的视频图像信息，所述视频图像为KTH数据集中的视频图像，然后根据所述视频图像信息筛选人体行为特征明显的图像，将筛选后的图像进行保存。

S2、将所述筛选后的图像进行预处理，并将预处理后的图像分为训练样本和测试样本两部分；所述预处理主要包括将筛选后的图像尺寸进行统一到120×160像素，得到统一大小后的图像；然后分类标记图像信息，将统一大小后的图像均分为5份，1-4份作为训练样本集，第5份作为测试样本集，得到标记后的图像。

S3、对训练样本和测试样本均提取灰度、x和y方向的光流、以及x和y方向的梯度共计五个通道信息，并将所述光流和梯度信息进行标记。

S4、计算训练样本和测试样本每张图像灰度值的变化率。

S5、对所述五个通道信息中的每个通道分别进行卷积和下采样操作，得到每一层卷积层和下采样层的特征图的大小。

S6、利用训练样本的特征图构建3D卷积神经网络模型。

S7、将第二层采样层得到的特征图拉伸成一个向量，并对所述向量进行降维，将降维后的向量作为图像的特征向量。

S8、利用所述特征向量对所述3D卷积神经网络模型进行训练，具体包括：

S81、在第二层采样层中得到64张大小为12×17像素的特征图，将每一张特征图map拉伸成一个向量，得到向量维数为13056维的神经元；

S82、通过普通神经网络进行降维，设定第一层全连接层的神经元个数为6528，则第二层全连接层的神经元个数为1000，得到的第二层神经元为图像的特征向量；

S83、连接分类器，用所述特征向量对所述分类器进行分类训练，所述分类训练具体包括：

A、采用线性分类器对特征向量进行分类；

B、采用反向传播BP(BackPropagation)算法对训练样本集进行在线训练，得到训练文件。

S9、将测试样本集在训练文件中进行测试，并输出测试结果。

S10、当测试结果合格时，利用所述的训练后的3D卷积神经网络模型对待测视频图像进行图像行为识别；

S11、当测试结果不合格时，修改反馈因子，并对所述3D卷积神经网络模型重新训练，直至测试结果合格为止。

图3是根据本申请一个实施例的一种图像行为识别装置的结构示意图，图2给出了所述装置的原理框图。所述图像行为识别装置一般性地可包括：

筛选模块1，其配置成逐帧读取输入的视频图像信息，并根据所述视频图像信息筛选人体行为特征明显的图像，将筛选后的图像进行保存；

预处理模块2，其配置成将所述筛选后的图像进行预处理，并将预处理后的图像分为训练样本和测试样本两部分；

信息提取模块3，其配置成对训练样本和测试样本均提取灰度、x和y方向的光流、以及x和y方向的梯度共计五个通道信息，并将所述光流和梯度信息进行标记；

计算模块4，其配置成计算训练样本和测试样本的每张图像灰度值的变化率；

特征图获取模块5，其配置成对所述五个通道信息中的每个通道分别进行卷积和下采样操作，得到每一层卷积层和下采样层的特征图的大小；

模型构建模块6，其配置成利用训练样本的特征图构建3D卷积神经网络模型；

特征向量获取模块7，其配置成将第二层采样层得到的特征图拉伸成一个向量，并对所述向量进行降维，将降维后的向量作为图像的特征向量；

训练模块8，其配置成利用所述特征向量对所述3D卷积神经网络模型进行训练；

测试模块9，其配置成利用训练后的3D卷积神经网络模型对测试样本进行测试，当测试结果合格时，启动识别模块10，否则，修改反馈因子，并重新启动训练模块8；

识别模块10，其配置成当测试结果合格时，利用所述的训练后的3D卷积神经网络模型对待测视频图像进行图像行为识别。

本实施方式提供的图像行为识别装置能够执行前述图像行为识别方法的步骤。

本申请实施例还提供了一种计算设备，参照图4，该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序，该计算机程序存储于存储器1120中的用于程序代码的空间1130，该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。

本申请实施例还提供了一种计算机可读的存储介质。参照图5，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的方法步骤的程序1131′，该程序被处理器执行。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetictape)，软盘(英文：floppydisk)，光盘(英文：opticaldisc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种图像行为识别方法，包括：

计算训练样本和测试样本每张图像灰度值的变化率；

利用训练样本的特征图构建3D卷积神经网络模型；

利用所述特征向量对所述3D卷积神经网络模型进行训练；

利用训练后的3D卷积神经网络模型对测试样本进行测试；

2.根据权利要求1所述的方法，其特征在于，所述的筛选后的图像为KTH数据集。

3.根据权利要求1或2所述的方法，其特征在于，所述的将所述筛选后的图像进行预处理包括：

将筛选后的图像尺寸进行统一。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述的利用所述特征向量对所述3D卷积神经网络模型进行训练包括：

采用线性分类器对所述特征向量进行分类；

采用反向传播BP算法对训练样本进行在线训练。

5.一种图像行为识别装置，包括：

6.根据权利要求5所述的装置，其特征在于，所述的筛选后的图像为KTH数据集。

7.根据权利要求5或6所述的装置，其特征在于，所述的将所述筛选后的图像进行预处理包括：

将筛选后的图像尺寸进行统一。

8.根据权利要求5-7中任一项所述的装置，其特征在于，所述的利用所述特征向量对所述3D卷积神经网络模型进行训练包括：

采用线性分类器对所述特征向量进行分类；

采用反向传播BP算法对训练样本进行在线训练。

9.一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1-4中任一项所述的方法。

10.一种存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如权利要求1-4中任一项所述的方法。