CN109948528B

CN109948528B - 一种基于视频分类的机器人行为识别方法

Info

Publication number: CN109948528B
Application number: CN201910205515.8A
Authority: CN
Inventors: 路露; 方小永; 郭新宇; 舒峻峰; 曹玉君; 母志伟
Original assignee: Nanjing Lijian Photoelectric Technology Research Institute Co ltd
Current assignee: Nanjing Lijian Photoelectric Technology Research Institute Co ltd
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2023-04-07
Anticipated expiration: 2039-03-18
Also published as: CN109948528A

Abstract

本发明公开了一种基于视频分类的机器人行为识别方法，该方法首先对机器人行为进行定义并获取相应的视频数据，然后定义深度学习的视频分类模型及算法并利用视频数据对模型进行训练，然后利用训练好的模型对机器人的行为视频进行分类，最后根据分类结果对机器人行为进行识别。本发明为机器人行为识别提供了一种基于视觉的可行方法，具有可识别长时间的、复杂的机器人行为，准确度可持续提高，可扩展性好、实用性强的优点。

Description

一种基于视频分类的机器人行为识别方法

技术领域

本发明涉及人工智能应用技术领域，具体涉及一种基于视频分类的机器人行为识别方法。

背景技术

近年来，随着深度学习等人工智能技术的蓬勃发展，计算机视觉在机器人领域的应用越来越广泛。行为识别是机器人应用领域的一个重要方向，例如在军事上，可应用于人机对抗训练环境构建、无人作战装备研制等。目前，机器人行为识别方法主要分为两大类：一是传统方法，主要依靠机械控制、信号传输与控制等技术，主要缺点是灵活性差、场景及动作单一、实用性不好等；二是基于计算机视觉的方法，主要有两个分支，一是通过视觉检测机器人骨骼关节然后应用图像分类的方法判读行为，主要缺点是图像质量要求高、动作识别限制多、准确度不高、实用性差；二是通过视频分析的方法，例如利用光流方法分析视频中的时间空间特征进而判读行为，近年来利用深度学习技术识别人的行为的研究方兴未艾，目前而言，利用深度学习网络识别简单的、持续时间短的动作已经取得初步进展，但识别机器人长时间的、复杂的行为目前进展缓慢。综上所述，研究基于深度学习视频分析技术的行为识别方法大势所趋，且具有重要的实际应用价值。

发明内容

本发明的目的在于解决现有行为识别方法准确度低、灵活性差，且不能识别长时间的、复杂的机器人行为方面存在的不足，旨在提供一种基于计算机视觉的、可扩展性好、实用性强、准确度可持续提高的机器人行为识别方法。

一种基于视频分析的机器人行为识别方法，包括：机器人行为视频分类模型及算法的定义、训练及应用的过程，具体包括如下步骤：

步骤1：定义机器人行为类型及行为识别输出结果；

步骤2：获取所有类型的机器人行为视频并形成原始数据集；

步骤3：建立深度学习的视频分类模型及算法；

步骤4：按照模型及算法的要求对机器人行为视频进行处理，生成训练数据集；

步骤5：利用训练数据集对视频分类模型及算法进行训练；

步骤6：得到训练好的模型；

步骤7：获取新的机器人行为视频数据；

步骤8：利用训练好的视频分类模型及算法对视频数据进行处理并输出结果；

步骤9：根据输出结果，按照定义的机器人行为类型，识别视频中的机器人行为。

所述步骤1具体为：步骤1-1：将机器人行为定义为n种类型Ty1、Ty2、Ty3……Tyn；步骤1-2：机器人行为识别方法的输出结果为n种类型Ty1、Ty2、Ty3……Tyn中的唯一。

所述步骤2具体为：步骤2-1：利用摄像机、录像机视频采集设备获取机器人行为视频并形成数据集D；步骤2-2：根据步骤1-1的定义，将数据集D划分为n个不相交的独立数据集D1、D2……Dn，使得每个独立数据集Dx与每种类型Tyx一一对应，即：每个独立数据集Dx包含的视频均为每种类型Tyx的行为视频，其中1 ≤ x ≤ n，此为原始数据集。

所述步骤3具体为：步骤3-1：以卷积神经网络为基础建立视频分类模型Model；步骤3-2：定义视频分类模型Model的输入数据为视频数据Video或标签数据Label；步骤3-3：定义视频分类模型Model的输出数据为步骤1-2所述；步骤3-4：基于卷积神经网络理论以及深度学习技术构建视频分类模型Model的结构及算法。

所述步骤4具体为：步骤4-1：基于独立数据集D1、D2……Dn，产生视频数据集V1、V2……Vn，其中每个视频数据集Vx从每个独立数据集Dx产生，1 ≤ x ≤ n；步骤4-2：对于独立数据集Dx，1 ≤ x ≤ n，利用视频处理软件逐个读取每个独立数据集Dx中的每个视频；步骤4-3：对于每个视频，按顺序逐个视频帧生成该视频对应的所有图像，然后选取Num张连续的图像并按顺序编号，Num为大于0的整数；如果不够Num张，则补充空的图像文件，使得总数为Num张；步骤4-4：对于独立数据集Dx，1 ≤ x ≤ n，将步骤4-2、步骤4-3最终产生的所有图像集中后生成每个视频数据集Vx，1 ≤ x ≤ n；步骤4-5：根据独立数据集Dx与类型Tyx的对应关系生成视频数据集Vx与类型Tyx的对应关系，使得每个视频数据集Vx与每种类型Tyx一一对应，其中1 ≤ x ≤ n；步骤4-6：基于类型Tyx，1 ≤ x ≤ n，产生Label数据集L，L={Ty1,Ty2……Tyn}；步骤4-7：将视频数据集Vx和Label数据集L组合成为视频分类模型Model的训练数据集。

所述步骤5具体为：步骤5-1：利用服务器计算机构建视频分类模型Model的硬件运行环境；步骤5-2：按照视频分类模型Model的要求配置软件运行环境；步骤5-3：通过设置训练次数time或者设置模型精度acc，设置训练终止条件；步骤5-4：将视频数据集Vx，1 ≤ x≤ n，和Label数据集L作为输入，利用深度学习技术对视频分类模型Model进行训练；步骤5-5：训练的基本规则包括：1每Num张图像输出一个分类结果TyTrain，分类结果TyTrain的值为{Ty1,Ty2……Tyn}中唯一；2通过比较分类结果TyTrain的值与该Num张图像对应的每种类型Tyx的值是否一致来调整模型参数，其中1 ≤ x ≤ n，具体方法是：首先依据步骤4-2、步骤4-3、步骤4-4确定该Num张图像所在的视频数据集Vx，然后依据步骤4-5确定该视频数据集Vx对应的类型Tyx，最后比较分类结果TyTrain的值与该类型Tyx的值是否一致来调整模型参数；步骤5-6：依据步骤5-4、步骤5-5训练视频分类模型Model，直到满足步骤5-3设定的终止条件后终止。

所述步骤6具体为：步骤6-1：依据步骤5-6得到训练好的模型M；步骤6-2：模型M的输入数据只有一种，即：视频数据Video；步骤6-3：模型M的输出数据等同于视频分类模型Model，由步骤3-3、步骤1-2、步骤5-5得出。

所述步骤7具体为：利用摄像机、录像机等视频采集设备获取新的机器人行为视频数据Dtest。

所述步骤8具体为：步骤8-1：依据步骤5-1、步骤5-2构建模型M的软硬件运行环境；步骤8-2：利用视频处理软件读取机器人行为视频数据Dtest，按时间顺序每Num帧图像生成一个测试数据集Vtest；步骤8-3：将测试数据集Vtest作为模型M的输入，模型M输出结果TyTest，结果TyTest的值为{Ty1,Ty2……Tyn}中的唯一。

所述步骤9具体为：按照步骤1定义，依据结果TyTest的值输出机器人行为类型。

相较于现有技术，本发明具有以下有益效果：

一、可识别长时间的机器人行为。通过设置Num参数，可对时间长短不同的行为进行识别；

二、可识别复杂的机器人行为。与基于骨骼检测与图像分类的识别方法不同，本文方法可直接处理视频，从而实现了复杂行为的识别；

三、识别准确度可持续提高。本文方法基于深度学习技术，随着模型的持续使用，可用于模型再训练的数据也持续增加，模型得到更加充分的训练后，其准确度必定得到提高；

四、可扩展性好、实用性强。机器人行为类型可任意扩展，对于新增加的行为，只需使用对应类型的行为视频数据对模型进行再训练后即可识别，因此实用性很强。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1示出了本发明所提基于视频分类的机器人行为方法流程图。

图2是本文所提方法的实施示意图。

图3是训练数据集的生成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。另外，本发明所提方法可通过一般可执行程序代码实现。

如图1所示，为本发明所提一种基于视频分类的机器人行为方法流程图。

步骤1：定义机器人行为类型及行为识别输出结果。具体步骤如下：

第一步，请参阅图2，将机器人行为定义为3种类型：Ty1、Ty2、Ty3，其中Ty1意为“跑”，Ty2意为“走”，Ty3意为“静止不动”；

第二步，本文方法的输出结果是Ty1、Ty2、Ty3中唯一；

步骤2：获取所有类型的机器人行为视频并形成原始数据集。具体步骤如下：

第一步，如图2所示，利用摄像机获取机器人行为视频并形成数据集D；

第二步，将D划分为3个不相交的独立数据集D1、D2、D3，即：D1包含的视频均是机器人“跑”的行为视频，D2包含的视频均是机器人“走”的行为视频，D3包含的视频均是机器人“静止不动”的行为视频。此为原始数据集。

步骤3：建立深度学习的视频分类模型及算法。具体步骤如下：

第一步，选择三维卷积神经网络C3D作为本文方法的视频分类模型；

第二步，C3D的输入数据为两种，一种是视频数据Video，一种是标签数据Label；

第三步，C3D的输出数据为Ty1、Ty2、Ty3中唯一；

第四步，采用C3D的网络结构及算法。

如图3所示，步骤4：按照模型及算法的要求对机器人行为视频进行处理，生成训练数据集。具体步骤如下，：

第一步，基于数据集D1、D2、D3，产生Video数据集V1、V2、V3，其中Vx从Dx产生（1 ≤x ≤ 3）；

第二步，对于每个Dx（1 ≤ x ≤ 3），利用视频处理软件ffmpeg逐个读取Dx中每个视频；

第三步，令Num=16，对于每个视频，按顺序逐个视频帧生成该视频对应的所有图像，然后选取16张连续的图像并按顺序编号，如果不够16张，则补充空的图像文件，使得总数为16张；

第四步，对于每个Dx（1 ≤ x ≤ 3），将第二步、第三步最终产生的所有图像集中后生成Vx（1 ≤ x ≤ 3）；

第五步，根据Dx与Tyx（1 ≤ x ≤ 3）的对应关系生成Vx与Tyx的对应关系，使得Vx与Tyx一一对应，其中1 ≤ x ≤ 3；

第六步，基于Tyx（1 ≤ x ≤ 3）产生Label数据集L={Ty1,Ty,Ty3}；

第七步，Vx（1 ≤ x ≤ 3）和L成为C3D的训练数据集。

步骤5：利用训练数据集对视频分类模型及算法进行训练。具体步骤如下：

第一步，请参阅图2，构建C3D的硬件运行环境：台式服务器，ubuntu16.04系统；内存大于或等于16G；CPU Intel 酷睿i5-8400 2.8GHz；1块GPU NVIDIA GeForce GTX 1080；

第二步，请参阅图2，构建C3D的软件运行环境：python3.6、tensorflow-gpu、opencv-python等；

第三步，设置训练终止条件为：训练次数time=5000；

第四步，将 Vx（1 ≤ x ≤ 3）和L作为输入，对C3D进行再训练；

第五步，训练的基本规则有两个：（1）每16张图像输出一个分类结果TyTrain，TyTrain值为{Ty1,Ty2,Ty3}中唯一；（2）通过比较TyTrain值与该16张图像对应的Tyx值是否一致来调整模型参数，其中1 ≤ x ≤ 3；

第六步，按照上述方法对C3D再训练，直到满足time=5000后终止。

步骤6：得到训练好的模型。具体步骤如下：

第一步，依据Step5得到训练好的模型C3Dnew；

第二步，C3Dnew的输入数据只有一种，即：视频数据Video；

第三步，C3Dnew的输出数据等同于C3D。

步骤7：获取新的机器人行为视频数据。具体步骤如下：

请参阅图2，利用摄像机获取新的机器人行为视频数据Dtest。

步骤8：利用训练好的视频分类模型及算法对视频数据进行处理并输出结果。具体步骤如下：

第一步，依据Step5构建C3Dnew的软硬件运行环境；

第二步，利用视频处理软件ffmpeg读取Dtest，按时间顺序每16帧图像生成一个测试数据集Vtest；

第三步，将Vtest作为C3Dnew的输入，C3Dnew将输出结果TyTest，TyTest值为{Ty1,Ty2,Ty3}中唯一。

步骤9：根据输出结果，按照定义的机器人行为类型，识别视频中的机器人行为。具体步骤如下：

第一步，确定Tytest值；

第二步，若Tytest=Ty1，则机器人行为识别结果是“跑”；

若Tytest=Ty2，则机器人行为识别结果是“走”；

若Tytest=Ty3，则机器人行为识别结果是“静止不动”。

Claims

1.一种基于视频分类的机器人行为识别方法，其特征在于，具体包括如下步骤：

步骤1：定义机器人行为类型及行为识别输出结果；

步骤2：获取所有类型的机器人行为视频并形成原始数据集；

步骤3：建立深度学习的视频分类模型及算法；

步骤5：利用训练数据集对视频分类模型及算法进行训练；

步骤6：得到训练好的模型；

步骤7：获取新的机器人行为视频数据；

步骤9：根据输出结果，按照定义的机器人行为类型，识别视频中的机器人行为；

所述步骤1具体为：

步骤1-1：将机器人行为定义为n种类型Ty1、Ty2、Ty3……Tyn；

步骤1-2：机器人行为识别方法的输出结果为n种类型Ty1、Ty2、Ty3……Tyn中的唯一；

所述步骤2具体为：

步骤2-1：利用摄像机、录像机视频采集设备获取机器人行为视频并形成数据集D；

步骤2-2：根据步骤1-1的定义，将数据集D划分为n个不相交的独立数据集D1、D2……Dn，使得每个独立数据集Dx与每种类型Tyx一一对应，即：每个独立数据集Dx包含的视频均为每种类型Tyx的行为视频，其中1 ≤ x ≤ n，此为原始数据集；

所述步骤3具体为：

步骤3-1：以卷积神经网络为基础建立视频分类模型Model；

步骤3-2：定义视频分类模型Model的输入数据为视频数据Video或标签数据Label；

步骤3-3：定义视频分类模型Model的输出数据为步骤1-2所述；

步骤3-4：基于卷积神经网络理论以及深度学习技术构建视频分类模型Model的结构及算法；

所述步骤4具体为：

步骤4-1：基于独立数据集D1、D2……Dn，产生视频数据集V1、V2……Vn，其中每个视频数据集Vx从每个独立数据集Dx产生，1 ≤ x ≤ n；

步骤4-2：对于独立数据集Dx，1 ≤ x ≤ n，利用视频处理软件逐个读取每个独立数据集Dx中的每个视频；

步骤4-3：对于每个视频，按顺序逐个视频帧生成该视频对应的所有图像，然后选取Num张连续的图像并按顺序编号，Num为大于0的整数；如果不够Num张，则补充空的图像文件，使得总数为Num张；

步骤4-4：对于独立数据集Dx，1 ≤ x ≤ n，将步骤4-2、步骤4-3最终产生的所有图像集中后生成每个视频数据集Vx，1 ≤ x ≤ n；

步骤4-5：根据独立数据集Dx与类型Tyx的对应关系生成视频数据集Vx与类型Tyx的对应关系，使得每个视频数据集Vx与每种类型Tyx一一对应，其中1 ≤ x ≤ n；

步骤4-6：基于类型Tyx，1 ≤ x ≤ n，产生Label数据集L，L={Ty1,Ty2……Tyn}；

步骤4-7：将视频数据集Vx和Label数据集L组合成为视频分类模型Model的训练数据集；

所述步骤5具体为：

步骤5-1：利用服务器计算机构建视频分类模型Model的硬件运行环境；

步骤5-2：按照视频分类模型Model的要求配置软件运行环境；

步骤5-3：通过设置训练次数time或者设置模型精度acc，设置训练终止条件；

步骤5-4：将视频数据集Vx，1 ≤ x ≤ n，和Label数据集L作为输入，利用深度学习技术对视频分类模型Model进行训练；

步骤5-5：训练的基本规则包括：（1）每Num张图像输出一个分类结果TyTrain，分类结果TyTrain的值为Ty1,Ty2……Tyn中唯一；（2）通过比较分类结果TyTrain的值与该Num张图像对应的每种类型Tyx的值是否一致来调整模型参数，其中1 ≤ x ≤ n，具体方法是：首先依据步骤4-2、步骤4-3、步骤4-4确定该Num张图像所在的视频数据集Vx，然后依据步骤4-5确定该视频数据集Vx对应的类型Tyx，最后比较分类结果TyTrain的值与该类型Tyx的值是否一致来调整模型参数；

步骤5-6：依据步骤5-4、步骤5-5训练视频分类模型Model，直到满足步骤5-3设定的终止条件后终止；

所述步骤6具体为：

步骤6-1：依据步骤5-6得到训练好的模型M；

步骤6-2：模型M的输入数据只有一种，即：视频数据Video；

步骤6-3：模型M的输出数据等同于视频分类模型Model，由步骤3-3、步骤1-2、步骤5-5得出；

所述步骤7具体为：

利用摄像机、录像机视频采集设备获取新的机器人行为视频数据Dtest；

所述步骤8具体为：

步骤8-1：依据步骤5-1、步骤5-2构建模型M的软硬件运行环境；

步骤8-2：利用视频处理软件读取机器人行为视频数据Dtest，按时间顺序每Num帧图像生成一个测试数据集Vtest；

步骤8-3：将测试数据集Vtest作为模型M的输入，模型M输出结果TyTest，结果TyTest的值为Ty1,Ty2……Tyn中的唯一；

所述步骤9具体为：

按照步骤1定义，依据结果TyTest的值输出机器人行为类型。