CN110555417A

CN110555417A - 一种基于深度学习的视频图像识别系统及方法

Info

Publication number: CN110555417A
Application number: CN201910843125.3A
Authority: CN
Inventors: 李家志; 常磊
Original assignee: Fujian Keya Animation Polytron Technologies Inc
Current assignee: Fujian Keya Animation Polytron Technologies Inc
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2019-12-10

Abstract

本发明涉及基于深度学习的视频图像识别系统及方法，其方法包括以下步骤：采集视频信息和第一图片信息，将视频信息分解成多幅连续单帧图片，得到第二图片信息；第一图片信息和/或第二图片信息输入聚类模型进行聚类分类；确定每类姿态的聚类中心，并对每类姿态样本划分子集；根据划分出的子集，以课程学习的训练策略优化神经网络模型；接收待识别图片信息，利用优化后的神经网络模型进行姿态识别。相对现有技术，本发明能提取更加有效的更加有区分力度的特征，使得训练的分类器有更好的泛化性能，处理速度快，提高姿态分类识别效果，图片识别精准度高。

Description

一种基于深度学习的视频图像识别系统及方法

技术领域

本发明涉及视频图像识别技术领域，特别涉及一种基于深度学习的视频图像识别系统及方法。

背景技术

人体姿态识别是指对图像中的人体进行自动分析处理，对人体姿势信息按照预先设计的分类标注。姿态识别是行为识别中的一个基本问题，可靠而准确地识别人体姿态可以用于人体行为分析、人员工作状态或学习状态的判别，从而为各行各业的智能化管理自动提供信息。

现有技术中，申请号为201710395795.4的一种基于图像识别的学生坐姿检测与纠正系统，包括人脸图像检测模块，用于检测进入拍摄区域的人脸图像；人脸姿态估计模块，用于获取人脸器官的几何特征，定位人脸特征点并利用获得的人脸特征点构建人脸特征三角形；当人脸发生姿态变化时，利用该人脸特征三角形的位置变化进行姿态参数的估计，获得估计姿态参数：音频输出模块，用于比较估计姿态参数与标准姿态参数，并根据比较结果输出姿态纠正提示音频。本发明在不直接接触学生身体的情况下，通过视频图像实现对学生坐姿的实时监控，对错误姿态进行语音提示，从而达到及时发现和纠正错误坐姿的目的。但是现有技术方案，处理模型复杂，推理时间长，成本高，处理速度慢，且图片识别精准度低。

发明内容

本发明的目的是提供一种基于深度学习的视频图像识别系统，所要解决的技术问题是：如何轻量化模型，提升处理速度及图片识别精准度。

本发明解决上述技术问题的技术方案如下：基于深度学习的视频图像识别方法，包括：

步骤1、采集视频信息和第一图片信息，将视频信息分解成多幅连续单帧图片，得到第二图片信息；

步骤2、第一图片信息和/或第二图片信息输入聚类模型进行聚类分类；确定每类姿态的聚类中心，并对每类姿态样本划分子集；

步骤3、根据划分出的子集，以课程学习的训练策略优化神经网络模型；

步骤4、接收待识别图片信息，利用优化后的神经网络模型进行姿态识别。

本发明的有益效果是：将课程学习的训练策略引入到姿态识别，可以提取更加有效的更加有区分力度的特征，使得训练的分类器有更好的泛化性能，处理速度快，提高姿态分类识别效果，图片识别精准度高。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，将每类姿态样本划分出的三个子集分别进行混合，得到三个总子集，每个总子集中均包含七种姿态，所述总子集包括简单总子集、困难总子集、非常困难总子集；

由简单总子集、困难总子集到非常困难总子集的顺序对神经网络模型进行优化训练，得到优化训练后的神经网络模型。

采用上述进一步方案的有益效果是：通过对姿态样本进行划分，提升对神经网络模型的优化效率，提升神经网络模型的处理精度。

进一步，上述实施例中，所述步骤3中还包括以下步骤：

步骤3.1、利用优化训练后的神经网络模型学习网络时序特征，并选定的网络层；对该网络层的网络层参数进行评估和裁剪，提出恢复机制对剪枝后模型精度进行即刻恢复；

步骤3.2、对剪枝后的模型利用导师网络进行加速重训练；根据剪枝后重训练的模型的表现力和复杂度，得到反馈激励，用增强学习方法更新神经网络模型；

步骤3.3、选取反馈激励最高的5个模型作为新一轮神经网络模型的输入，重复步骤3.1和步骤3.2，直至神经网络模型不再产生更优的剪枝决策时终止训练过程，得到最优的剪枝后神经网络模型。

采用上述进一步方案的有益效果是：从简到难逐步剪枝，最小化剪枝过程的模型精度损失；在保证模型精度的情况下，极大压缩模型体积，降低了成本。

进一步，所述步骤3中还包括以下步骤：

对剪枝后神经网络模型进行参数微调；利用原始神经网络模型作为蒸馏算法的老师网络，将经过参数微调的剪枝后的模型作为蒸馏算法的学生网络，根据蒸馏算法，通过老师网络来指导学生网络进行训练；

将经过蒸馏算法训练的学生网络作为压缩后的神经网络模型。

采用上述进一步方案的有益效果是：将剪枝法和蒸馏法的联合使用，通过剪枝法大大压缩了网络模型的规模，提高了蒸馏算法的收敛速度，保持了性能，达到了压缩神经网络模型的目标。

进一步，所述步骤4中接收待识别图片信息，利用优化后的神经网络模型进行姿态识别的具体步骤为：

步骤4.1、神经网络模型接收待识别图片信息，利用对视频帧中的人体关节点定位，得到关节点坐标，写入坐标文本文件中；

步骤4.2、将离散的坐标用矩阵标识相邻关节点之间的连接关系，四肢角度与方向信息由特征向量表示；利用支持向量机分类器进行分类识别。

采用上述进一步方案的有益效果是：通过对关节点进行定位，标识相邻关节点之间的连接关系，将信息向量化，通过支持向量机分类器进行分类识别，提升识别效率和精度。

进一步，所述步骤4.1中神经网络模型接收待识别图片信息，利用对视频帧中的人体关节点定位，得到关节点坐标，写入坐标文本文件中的具体步骤为：

步骤4.1.1、加载神经网络模型，将收待识别图片信息输入神经网络模型，得到各个人体所在的大致区域，输出包围人体矩形框的位置信息；

步骤4.1.2、从矩形框所框选范围内，直接生成不同尺度的图像；基于每个尺度，计算网络预测的各个关节点的响应图，得到不同尺度下各个关节点的响应图；

步骤4.1.3、对于每个关节点，依次累加每个关节点对应的所有尺度的响应图，得到总响应图；

步骤4.1.4、在每个关节点的总响应图上，找出分数最大的点，则该最大值所在位置即为预测的关节点位置，选取图片左上角作为坐标原点；

步骤4.1.5、将关节点坐标依次写入坐标文本文件中，生成关节点信息。

采用上述进一步方案的有益效果是：通过对图片中各个关节点进行定位，便于将多个关节点进行联系，从而快速识别出图片中人体的动作，提升识别效率。

上述实施例中，所述的关节点具体顺序依次为头部，颈部，右肩，右肘，右腕，左肩，左肘，左腕，右臀，右膝，右脚踝，左臀，左膝，左脚踝。

进一步，所述步骤4.2中将离散的坐标用矩阵标识相邻关节点之间的连接关系，四肢角度与方向信息由特征向量表示；利用支持向量机分类器进行分类识别的具体步骤为：

步骤4.2.1、根据关节点连接信息构造关节点连接矩阵，标识相邻关节点之间的连接关系；

步骤4.2.2、根据关节点连接矩阵，为人体中的三连续关节区域构造人体姿态描述向量；

步骤4.2.3、将人体姿态描述向量输入支持向量机分类器，利用支持向量机分类器进行分类识别，当分类出设定姿态时，则认定为色情、低俗的图片或视频。

采用上述进一步方案的有益效果是：利用神经网络模型从图片中提取人体关节点信息，并对人体姿态进行分类识别，实现了视频监控中人体姿态的实时识别，能提升对色情、低俗的图片或视频的识别效率和精度。

本发明解决上述技术问题的另一技术方案如下：基于深度学习的视频图像识别系统，包括：

采集模块，所述采集模块采集视频信息和第一图片信息，将视频信息分解成多幅连续单帧图片，得到第二图片信息；

聚类分类模块，所述聚类分类模块输入第一图片信息和/或第二图片信息，利用聚类模型进行聚类分类；确定每类姿态的聚类中心，并对每类姿态样本划分子集；

训练优化模块，所述训练优化模块根据划分出的子集，以课程学习的训练策略优化神经网络模型；

姿态识别模块，所述姿态识别模块接收待识别图片信息，利用优化后的神经网络模型进行姿态识别。

附图说明

图1为本发明基于深度学习的视频图像识别方法的流程图；

图2为本发明基于深度学习的视频图像识别系统的模块框图。

附图中，各标号所代表的部件列表如下：

1、信息采集模块，2、聚类分类模块，3、训练优化模块，4、姿态识别模块。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

实施例1：

如图1所示，基于深度学习的视频图像识别方法，包括：

本实施例通过对第一图片信息和/或第二图片信息进行聚类分类，将课程学习的训练策略引入到姿态识别，可以提取更加有效的更加有区分力度的特征，使得训练的分类器有更好的泛化性能，处理速度快，提高姿态分类识别效果，图片识别精准度低。

上述实施例中，所述步骤3中的具体包括以下步骤：

将每类姿态样本划分出的三个子集分别进行混合，得到三个总子集，每个总子集中均包含七种姿态，所述总子集包括简单总子集、困难总子集、非常困难总子集；

通过对姿态样本进行划分，提升对神经网络模型的优化效率，提升神经网络模型的处理精度。

上述实施例中，所述步骤3中还包括以下步骤：

本实施例通过主动学习网络各层的重要性，生成剪枝优先级，做出合理的剪枝决策，优先在影响力最小的网络层剪枝，从简到难逐步剪枝，最小化剪枝过程的模型精度损失；同时以模型最终损失为导向，多角度、高效、灵活快速地评估卷积核重要性，以保证全流程模型压缩的正确性和有效性，为后续的大模型移植到便携设备提供技术支撑；在保证模型精度的情况下，极大压缩模型体积。

上述实施例中，所述步骤3中还包括以下步骤：

本实施例将剪枝法和蒸馏法的联合使用，不仅通过剪枝法大大压缩了网络模型的规模，提高了蒸馏算法的收敛速度，而且使得压缩后的神经网络模型的性能可以与原始模型的性能相当，从而充分达到了压缩神经网络模型的目标，更有利于在实践中应用。

上述实施例中，所述步骤4中接收待识别图片信息，利用优化后的神经网络模型进行姿态识别的具体步骤为：

通过对关节点进行定位，标识相邻关节点之间的连接关系，将信息向量化，通过支持向量机分类器进行分类识别，提升识别效率和精度。

上述实施例中，所述步骤4.1中神经网络模型接收待识别图片信息，利用对视频帧中的人体关节点定位，得到关节点坐标，写入坐标文本文件中的具体步骤为：

通过对图片中各个关节点进行定位，便于将多个关节点进行联系，从而快速识别出图片中人体的动作，提升识别效率。

由上至下对人体的多个关节点进行定位，能有效识别出图片中人体的动作，提升识别效率。

上述实施例中，所述步骤4.2中将离散的坐标用矩阵标识相邻关节点之间的连接关系，四肢角度与方向信息由特征向量表示；利用支持向量机分类器进行分类识别的具体步骤为：

利用神经网络模型从图片中提取人体关节点信息，并对人体姿态进行分类识别，实现了视频监控中人体姿态的实时识别，能提升对色情、低俗的图片或视频的识别效率和精度。

实施例2：

如图2所示，基于深度学习的视频图像识别系统，包括：

采集模块1，所述采集模块1采集视频信息和第一图片信息，将视频信息分解成多幅连续单帧图片，得到第二图片信息；

聚类分类模块2，所述聚类分类模块2输入第一图片信息和/或第二图片信息，利用聚类模型进行聚类分类；确定每类姿态的聚类中心，并对每类姿态样本划分子集；

训练优化模块3，所述训练优化模块3根据划分出的子集，以课程学习的训练策略优化神经网络模型；

姿态识别模块4，所述姿态识别模块4接收待识别图片信息，利用优化后的神经网络模型进行姿态识别。

将课程学习的训练策略引入到姿态识别，可以提取更加有效的更加有区分力度的特征，使得训练的分类器有更好的泛化性能，处理速度快，提高姿态分类识别效果，图片识别精准度高。

上述实施例中，所述步骤3中的具体包括以下步骤：

上述实施例中，所述步骤3中还包括以下步骤：

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于深度学习的视频图像识别方法，其特征在于，包括：

2.根据权利要求1所述的基于深度学习的视频图像识别方法，其特征在于：所述步骤3中的具体包括以下步骤：

3.根据权利要求2所述的基于深度学习的视频图像识别方法，其特征在于：所述步骤3中还包括以下步骤：

4.根据权利要求3所述的基于深度学习的视频图像识别方法，其特征在于：所述步骤3中还包括以下步骤：

5.根据权利要求1所述的基于深度学习的视频图像识别方法，其特征在于：所述步骤4中接收待识别图片信息，利用优化后的神经网络模型进行姿态识别的具体步骤为：

6.根据权利要求5所述的基于深度学习的视频图像识别方法，其特征在于：所述步骤4.1中神经网络模型接收待识别图片信息，利用对视频帧中的人体关节点定位，得到关节点坐标，写入坐标文本文件中的具体步骤为：

7.根据权利要求6所述的基于深度学习的视频图像识别方法，其特征在于：

所述的关节点具体顺序依次为头部，颈部，右肩，右肘，右腕，左肩，左肘，左腕，右臀，右膝，右脚踝，左臀，左膝，左脚踝。

8.根据权利要求6所述的基于深度学习的视频图像识别方法，其特征在于：所述步骤4.2中将离散的坐标用矩阵标识相邻关节点之间的连接关系，四肢角度与方向信息由特征向量表示；利用支持向量机分类器进行分类识别的具体步骤为：

9.基于深度学习的视频图像识别系统，其特征在于，包括：

信息采集模块(1)，所述信息采集模块(1)采集视频信息和第一图片信息，将视频信息分解成多幅连续单帧图片，得到第二图片信息；

聚类分类模块(2)，所述聚类分类模块(2)输入第一图片信息和/或第二图片信息，利用聚类模型进行聚类分类；确定每类姿态的聚类中心，并对每类姿态样本划分子集；

训练优化模块(3)，所述训练优化模块(3)根据划分出的子集，以课程学习的训练策略优化神经网络模型；

姿态识别模块(4)，所述姿态识别模块(4)接收待识别图片信息，利用优化后的神经网络模型进行姿态识别。