CN109934106A

CN109934106A - 一种基于视频图像深度学习的用户行为分析方法

Info

Publication number: CN109934106A
Application number: CN201910090765.1A
Authority: CN
Inventors: 全绍军; 邓路路; 董经武; 林格; 周凡
Original assignee: Changshi Technology Co Ltd
Current assignee: Changshi Technology Co Ltd
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2019-06-25

Abstract

本发明涉及一种基于视频图像深度学习的用户行为分析方法，我们将用户行为分析方法分为三个部分：后端部分，用于实现对用户行为分析的视频图像数据收集和网络训练，包括视频有效帧提取，低质视频图像的增强处理，视频和图像的标签化，数据库和数据集的构建以及基于卷积神经网络的深度学习算法，用于学习用户行为分析能力；前端部分，包括输入实时监控数据等实际数据，实现分析结果的实时显示、异常行为的多态预警以及获得用户对于分析结果的评价指标等交互界面，用于实现反馈机制；扩展部分，包括扩展用户行为的标签种类、丰富视频图像数据库等操作，用于实现深度学习的性能提升。本发明对视频和图像进行智能地用户行为分析，保证了分析的可靠性和高效性，设计分析方法的可扩展性。

Description

一种基于视频图像深度学习的用户行为分析方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于视频和图像深度学习的用户行为分析方法。

背景技术

用户行为分析方法作为计算机视觉领域的重要课题之一，用户行为分析问题已经引起广泛关注，它能够应用于民用和军事的许多领域,例如智能监控、智能交通、人机交互、机器人视觉、无人驾驶和虚拟现实等。

用户行为分析方法一般可以分为基于监控目标识别的分析算法和基于视频序列的分析算法。在基于监控目标识别的分析算法中，将用户行为分析问题看成是一个多目标识别分类问题，算法一般分为两个步骤，首先根据混合高斯模型等方法对图像进行预处理，从而识别不同目标，然后根据事先定义好的行为模式对不同目标之间的关系进行运动估计和模式识别，从而检测出用户的行为模式以及异常行为；在基于视频序列的分析算法中，将用户行为分析问题看成是一个图像特征识别问题，一般采取的方法有时域运动特征提取、空间局部特征提取、通过矩阵分解进行特征降维和最大似然估计等，简单的说就是学习降维后的融合特征，然后寻找对该融合特征的最佳拟合作为行为分析的结果。

近年来，由于视频和图像深度学习的方法在识别领域具有高准确度、抽象特征识别和简单扩展迁移应用等优点，基于视频和图像深度学习的用户行为分析方法吸引了众多研究者的目光。基于视频和图像深度学习的分析方法，首先通过带标签的视频数据库切分为训练数据集和测试数据集，调用基于深度递归神经网络的深度学习模块，来训练视频和图像的行为分析模块，获得具有用户行为分析能力的行为分析模块。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种基于视频和图像深度学习的可扩展的用户行为分析方法，能利用带标签的视频数据库进行快速行为分析的同时，能够通过不断完善标签的种类以及丰富视频数据库的数据量，进而获得极强的可扩展性和升级特性。传统的基于SVM 等机器学习方法的用户行为分析方法的缺陷是行为表示有限，抽象复杂场景分析困难，可优化性和扩展性比较困难。

为了解决上述问题，本发明提出了一种基于视频和图像深度学习的可扩展的用户行为分析方法，所述方法包括：

输入所要分析的视频和图像；

对视频和图像进行预处理；

构建带标签的视频和图像数据库；

CNN的深度学习模块，对网络进行训练；

基于实时输入、结果显示、实时预警和用户评价的用户交互前台；

根据前台的数据对标签数据库进行智能的扩展；

基于反馈结果对网络进行优化。

优选地，根据前台的数据对标签数据库进行智能的扩展，包括：

根据前台部分的用户评价模块的数据智能生成实时测试数据的标签，将新生成的标签数据添加进入数据集，根据需要，对标签种类进行智能扩展，为降低人工工作量，可应用半监督学习方法优化。

优选地，基于反馈结果对网络进行优化，包括：

根据反馈的用户评价指标对网络性能进行分级，为了提高最高的综合性能，需要对标签权重W进行调整，对于复杂的问题可以考虑增大网络的深度或者修改网络的结构，修改基本的配置参数，利用图像处理手段对网络输入数据集进行增容。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例的基于视频和图像深度学习的用户行为分析方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例的基于视频和图像深度学习的用户行为分析方法的流程示意图，如图1所示，该方法包括：

S1，构建所要分析类型的视频和图像数据库。

S2，对数据库的视频进行有效帧的提取，然后灰度化，作为标签化的输入，根据输入的视频图像的梯度能量判断是否需要进行视频图像的增强处理，根据所要分析的行为类型对数据库中所有的视频和图像进行标签化；

S3，将输入数据分成两个部分，一部分作为训练数据集，一部分作为测试数据集。

S4，将带标签的数据集作为深度学习模块的输入，生成用户行为分析模块。

S5，将监控设备等来源的视频图像作为实时的输入，生成并显示实时的分析结果和异常预警。

S6，用户对前台数据进行评价，并根据评价自动生成实时视频图像的标签。

S7，将新生成的带标签的视频图像添加到数据库，同时可以根据需要扩展标签的种类。

步骤S1，具体如下：

S1-1，将大数据背景下的大量监控视频和图像以及从网络中爬出的人物视频和图像作为原始视频图像数据；

S1-2，对原始视频图像进行灰度化、图像增强等预处理，调用基于特征匹配的有效帧提取算法进行有效帧提取，人工判断有效帧中用户的行为并添加标签，刚开始的时候标签应该不多于3种，后面逐渐增加标签种类。

S1-3,将处理后的带标签的视频图像加入到数据库。

步骤S2，具体如下：

S2-1，在视频中抽取连续的帧[L₁,L₂]，进行特征匹配，追踪目标对象，其中L₁和L₂是连续帧的边界。

S2-2，设置连续性阈值的百分数，当匹配率低于Q₁的时候，L₁＝L₁+1， L₂＝max(L₁,L₂)，当匹配率高于Q₂的时候，L₂＝L₂+1,目标函数是：

S2-3，修改阈值，重复操作1和2，人工或者自适应调整得到最佳的阈值。

S2-4，使用3中获得的最佳阈值对视频进行操作1和2。

步骤S4，具体如下：

S4-1，将数据库中的视频图像，提取带标签的有效帧I作为训练网络的输入，初始化深度学习模块中特征提取的连接权重参数；

S4-2，然后计算输入相对应的输出标签L_k，计算和人工标记的标签L_0k的差值d_k,差值：d_k＝f(L_k,L_0k)*W_k。其中f(L_k,L_0k)＝(L_k＝＝L_0k)，是第k个标签的权值。

S4-3，直至所有的有效帧图像遍历完，参数训练完毕。

S4-4，对输入数据进行分类，按照行为类型和异常预警类型生成多维的视频图像列表。

本发明实施例提出的基于视频图像深度学习的用户行为分析方法，同时对响应输出进行分析来检测是否发生偏差和遗漏，当检测出发生偏差时，通过修改网络的结构和深度，可以提高网络的性能，当检测出遗漏时，应该增大异常预警对应的权值系数。该方法能利用基于视频图像深度学习的用户行为分析的优势，同时利用优化结构和扩展数据库和功能，保证分析的成功率和实用性。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的基于视频图像深度学习的用户行为分析方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于视频和图像深度学习的用户行为分析方法，其特征在于，所述方法包括：

后台部分，用于视频图像处理和视频图像深度学习，包括视频有效帧的提取算法、带标签的数据库构建、标签种类的半监督化学习扩展以及用户行为分析方法的深度学习模块。

前台部分，用于实现对实时用户行为分析结果进行人工评分，包括连接监控设备、视频图像处理、多维的异常预警以及智能的标签生成。

扩展部分，用于实现功能的扩展，包括智能生成带标签的视频图像，标签种类的扩展。

2.如权利要求1所述的基于视频和图像深度学习的用户行为分析方法，其特征在于，在获得原始数据之后，并且在深度学习模块的训练步骤之前，还包括：

对原始视频进行有效帧的提取；

根据视频和图像的质量决定是否需要图像增强；

应用视频和图像处理的方法对数据集进行扩容；

对数据进行标签化。

3.如权利要求2所述的对原始视频进行有效帧的提取，其特征在于：

设定两个阈值Q₁和Q₂，控制有效帧的比例在阈值之间；

人工地调整阈值，直至获得最佳的有效帧区域，或者人工进行有效帧标注，对两个阈值Q₁和Q₂进行自适应训练，直至获得最佳的有效帧区域。

4.如权利要求3所述的对两个阈值Q₁和Q₂进行自适应训练，其特征在于，可以使用机器学习等方法极大缩短阈值确定的时间。

5.如权利要求2所述的根据视频和图像的质量决定是否需要图像增强，其特征在于，在检测出视频和图像的梯度能量过大的时候，先对其进行去噪和去模糊的操作。

6.如权利要求2所述的应用视频和图像处理的方法对数据集进行扩容，其特征在于，在所述的视频和图像处理的方法中，包括：

视频和图像的剪切，分割，旋转，遮挡等操作。

7.如权利要求2所述的对数据进行标签化，其特征在于，在所述的标签化步骤中，还包括：

用以下方法对数据进行智能的标签化，人工标注标签、人工+机器、添加标签的种类。

8.如权利要求1所述的连接监控设备、视频图像处理、多维的异常预警以及智能的标签生成，其特征在于，在所述的连接监控设备、视频图像处理和多维的异常预警的步骤中，还包括：使用连接监控设备的方法实现实时输入的应用。