CN110717422A

CN110717422A - 基于卷积神经网络的交互动作的识别方法和系统

Info

Publication number: CN110717422A
Application number: CN201910914052.2A
Authority: CN
Inventors: 宋波
Original assignee: Beijing Yingpu Technology Co Ltd
Current assignee: Beijing Yingpu Technology Co Ltd
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2020-01-21

Abstract

本申请公开了一种基于卷积神经网络的交互动作的识别方法和系统，该方法包括：将采集到的包含人的肢体动作的图片进行标注并分类，将分类后的多个肢体动作图片作为训练数据集；将训练数据集中的训练样本输入DCNN深度卷积神经网络获得训练样本的类别特征向量；利用FNN模糊神经网络计对DCNN深度卷积神经网络进行优化，得到交互动作的DCNN‑FNN训练模型；采用该训练模型识别待识别图片的肢体动作的类别。本申请利用FNN模糊神经网络优化算法可以加快深度卷积神经网络DCNN的收敛速度，以快速得到交互动作的DCNN‑FNN训练模型，从而可以快速、准确地识别待识别图片的肢体动作的类别。

Description

基于卷积神经网络的交互动作的识别方法和系统

技术领域

本申请涉及交互动作的图像识别领域，特别是涉及一种基于卷积神经网络的交互动作的识别方法和系统。

背景技术

人体交互动作识别方法一般分为基于整体的人体交互动作和基于个体的人体交互动作的识别方法。

其中，基于整体的人体交互动作的识别方法是指将人体交互动作当作一个整体来描述，包括视频中参与交互动作所有的人；现有技术中的一种识别方法是把交互动作当作一个单人动作处理，并结合了全局特征和局部特征来识别人体的交互动作；还有一些识别方法是利用密度轨迹与四种先进的特征编码方法来进行识别的；但是上述基于整体的人体交互动作的识别方法需要相对复杂的特征表示形式以此来提高识别模型分类的准确率，同时也容易忽略人体交互动作的内在属性。

而现有技术中的基于个体的人体交互动作识别方法是把人体交互动作理解成单人个体原子动作的组合；首先，分别分析交互动作中每个个体的动作；接着分析个体之间的特征信息；根据该特征信息最终获得最终的分类结果。

现有技术中还有一种识别方法是基于人体交互动作发生的过程所考虑的，该现有技术提出了分层结构的交互动作识别方法，即根据时间顺序将动作分成动作开始时期、动作执行时期和动作结束时期，在动作开始与结束时期把交互动作分别看作个体动作，在交互动作执行时期将交互动作当作一个整体以提取动作的特征，并在动作分类阶段将分类结果加权融合，该方法由于需要分层，因此识别过程比较复杂；

另外还有按照时间顺序关键姿势的交互动作识别方法，该交互方法是将交互动作的两人看作两个独立的个体，分别学习每个个体的模型参数以进行识别，但是该种识别方法却不能捕捉人的交互信息，因此这一识别方法主要对个体的动作进行分析处理，由于存在个体遮挡与自遮挡现象，因此会干扰动作分类的结果。

综上所述，现有技术中的交互动作的识别方法存在识别过程复杂、准确率低。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种基于卷积神经网络的交互动作的识别方法，该识别方法包括：

采集步骤：采集包含人的肢体动作的视频流，将人的肢体动作进行标注并分类，获得多个肢体动作图片，将所述多个肢体动作图片作为训练数据集；

训练步骤：将所述训练数据集中的训练样本输入DCNN深度卷积神经网络中，提取所述训练样本的HOG特征向量，并利用SVM分类器对所述HOG特征向量进行分类，获得训练样本的类别特征向量；

优化步骤：利用FNN模糊神经网络计算所述训练样本的类别特征向量的最小化整体误差函数，利用该最小化整体误差函数对DCNN深度卷积神经网络进行优化，得到交互动作的DCNN-FNN训练模型；

识别步骤：采用所述交互动作的DCNN-FNN训练模型识别待识别图片的肢体动作的类别。

可选的，在获得训练样本的类别特征向量前确定该训练样本中的图片的对比度：

计算训练样本中的图片的累积直方图以得到该图片的实际累积频率；

基于所述训练样本中的图片的累积直方图的线性回归和实际累积频率，计算该训练样本中的图片的对比度。

可选的，所述FNN模糊神经网络包括输入层、隐藏层和输出层，该输出层的特征向量值在[0-1]之间。

可选的，其中，所述DCNN深度卷积神经网络包括多个DCNN网络层；

当输出层输出的特征向量值高于预设的阈值时，将该特征向量馈送到HOG-SVM分类单元中；

当所述输出层输出的特征向量值低于隐藏层所输出的特征向量值的阈值时，或者HOG-SVM分类单元输出的特征向量值为负值时，则对于下一层的DCNN重复进行所述优化步骤。

可选的，利用FNN模糊神经网络计算所述训练样本的类别特征向量的最小化整体误差函数，其优化公式如下：

其中，e(y)是最小化整体误差函数，w_e是训练样本中的图片的像素坐标，m是DCNN的总层数，l是DCNN层数的序号；y_l是DCNN每层的类别特征向量数值；f_l(y_l)是训练样本中的图片的各图层所需的函数值；λ是预设的参数。

可选的，采用所述交互动作的DCNN-FNN训练模型提取待识别图片的肢体动作的HOG特征向量,计算该待识别图片的肢体动作的HOG特征向量与所述交互动作的DCNN-FNN训练模型中的所有HOG特征向量的欧氏距离，并把训练样本的类别作为距离最近的待识别图片的肢体动作的类别。

根据本申请的另一个方面，提供了一种基于卷积神经网络的交互动作的识别系统，该识别系统包括：

采集模块，用于采集包含人的肢体动作的视频流，将人的肢体动作进行标注并分类，获得多个肢体动作图片，将所述多个肢体动作图片作为训练数据集；

训练模块，用于将所述训练数据集中的训练样本输入DCNN深度卷积神经网络中，提取所述训练样本的HOG特征向量，并利用SVM分类器对所述HOG特征向量进行分类，获得训练样本的类别特征向量；

优化模块：利用FNN模糊神经网络计算所述训练样本的类别特征向量的最小化整体误差函数，利用该最小化整体误差函数对DCNN深度卷积神经网络进行优化，得到交互动作的DCNN-FNN训练模型；

识别模块：采用所述交互动作的DCNN-FNN训练模型识别待识别图片的肢体动作的类别。

可选的，所述识别系统还包括确定模块，用于在获得训练样本的类别特征向量前确定该训练样本中的图片的对比度；所述确定模块执行以下操作：

可选的，所述DCNN深度卷积神经网络包括多个DCNN网络层；

当所述输出层输出的特征向量值低于隐藏层所输出的特征向量值的阈值时，或者HOG-SVM分类单元输出的特征向量值为负值时，则优化模块对于下一层的DCNN网络层重复进行优化。

根据本申请的另一个方面，提供了一种计算机电子设备，该计算设备包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，该计算机程序存储于存储器中的用于程序代码的空间，该计算机程序在由处理器执行时实现用于执行任一项根据本发明的识别方法步骤。

根据本申请的另一个方面，提供了一种计算机可读存储介质，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的方法步骤的程序，该程序被处理器执行。

根据本申请的另一个方面，提供了一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的识别方法步骤。

本实施例通过将视频流中的人的肢体动作进行标注分类，利用DCNN深度卷积神经网络提取训练样本的类别特征向量；并利用FNN模糊神经网络对该特征向量进行优化，最终获得交互动作的DCNN-FNN训练模型；利用FNN模糊神经网络优化算法可以加快深度卷积神经网络DCNN的收敛速度，以快速得到交互动作的DCNN-FNN训练模型，从而可以利用该训练模块快速、准确地识别待识别图片的肢体动作的类别。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请实施例的基于卷积神经网络的交互动作的识别方法的流程示意图；

图2是根据本申请实施例的基于卷积神经网络的交互动作的识别系统的结构示意图；

图3是根据本申请实施例的计算设备示意图；

图4是根据本申请实施例的计算机可读存储介质示意图。

具体实施方式

本实施例利用DCNN深度卷积神经网络提取人的肢体动作的特征向量，并采用FNN模糊神经网络将所述人的肢体动作的特征向量反馈到DCNN深度卷积神经网络的HOG-SVM分类单元中，以加快该DCNN深度卷积神经网络的收敛速度。

图1是根据本申请实施例的基于卷积神经网络的交互动作的识别方法的流程示意图；参见图1所知，本申请实施例提供的识别方法可以包括以下步骤：

S100，采集步骤：采集包含人的肢体动作的视频流，将人的肢体动作进行标注并分类，获得多个肢体动作图片，将所述多个肢体动作图片作为训练数据集；

可选的，所述人的肢体动作例如包括举手、扭头、抬腿、弯腰的等动作。

S200，训练步骤：将所述训练数据集中的训练样本输入DCNN深度卷积神经网络中，提取所述训练样本的HOG特征向量，并利用SVM分类器对所述HOG特征向量进行分类，获得训练样本的类别特征向量；可以理解的，所述DCNN深度卷积神经网络包括多个DCNN网络层；

可选的，为了消除对比度变化对训练样本中的图片的影响；本实施例还需要在获得训练样本的类别特征向量前确定该训练样本中的图片的对比度T₁，具体包括以下子步骤：

1、计算训练样本中的图片的累积直方图以得到该图片的实际累积频率RCF(y_l)；

2、基于所述训练样本中的图片的累积直方图的线性回归freq(y_l)和实际累积频率RCF(y_l)，计算该训练样本中的图片的对比度，该对比度是通过下列公式获得的：

T₁＝RMSE(RCF(y_l)-freq(y_l))；

S300，优化步骤：利用FNN模糊神经网络计算所述训练样本的类别特征向量的最小化整体误差函数，利用该最小化整体误差函数对DCNN深度卷积神经网络进行优化，得到交互动作的DCNN-FNN训练模型；

本实施例中的FNN模糊神经网络包括输入层、隐藏层和输出层，其中，该输出层的特征向量值在[0-1]之间。

这里的FNN模糊神经网络还可以当做分类器，即当所述输出层输出的特征向量值高于预设的阈值时，该输出层将该特征向量馈送到HOG-SVM分类单元中；当所述输出层输出的特征向量值低于输入要素(即隐藏层所输出的特征向量值)的阈值时，或者HOG-SVM分类单元输出的特征向量值为负值时，则对于下一层的DCNN重复进行步骤300；

优选的，所述预设的阈值是在提取到训练样本的类别特征向量后，基于练样本的类别特征向量并利用FNN模糊神经网络所获得的。

上述HOG-SVM分类单元的输出的(即训练样本的类别特征向量)都可以输入至FNN模糊神经网络中，在所有DCNN深度卷积神经网络的HOG-SVM分类单元均分类失败的情况下，DCNN深度卷积神经网络输出的所有训练样本的类别特征向量将均输入至FNN模糊神经网络中。

由于不是所有的训练样本中的图片均具有反馈，即有的训练样本的图片仅具有语义特征，这使得DCNN深度卷积神经网络在提取到所述类别特征向量时会缺失部分空间的特征，利用FNN模糊神经网络可以显著减少使用HOG-SVM分类单元的时间。

其中，本实施例中的所述模糊神经网络FNN是一种基于遗传参数结合模拟退火(SA)的自适应演化优化算法，可以适用于拓扑网络，用于在DCNN深度卷积神经网络和FNN模糊神经网络对训练样本同时训练时，以对所述训练样本的类别特征向量进行优化。

可选的，基于训练样本的类别特征向量获得所述最小化整体误差函数，其优化公式如下：

利用模糊神经网络FNN可以最小化训练样本的类别特征向量的整体误差，从而可以加快深度卷积神经网络DCNN的收敛速度，以快速、准确地得到交互动作的DCNN-FNN训练模型。

S400，识别步骤：采用所述交互动作的DCNN-FNN训练模型识别待识别图片的肢体动作的类别。

可选的，采用所述交互动作的DCNN-FNN训练模型提取待识别图片的肢体动作的HOG特征向量,计算该待识别图片的肢体动作的HOG特征向量与所述交互动作的DCNN-FNN训练模型中的所有HOG特征向量的欧氏距离，并把训练样本的类别作为距离最近的待识别图片的肢体动作的类别，以完成识别动作。

基于同一发明构思，如图2所示，本申请实施例还提供了一种基于卷积神经网络的交互动作的识别系统，该识别系统包括：

可选的，所述DCNN深度卷积神经网络包括多个DCNN网络层；

本实施例提供的上述识别系统，可以执行上述任一基于卷积神经网络的交互动作的识别方法中的实施例所提供的方法，详细过程详见方法实施例中的描述，此处不赘述。

本申请实施例还提供了一种计算设备，参照图3，该计算设备包括存储器520、处理器510和存储在所述存储器520内并能由所述处理器510运行的计算机程序，该计算机程序存储于存储器520中的用于程序代码的空间530，该计算机程序在由处理器510执行时实现用于执行任一项根据本发明的识别方法步骤531。

本申请实施例还提供了一种计算机可读存储介质。参照图4，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的识别方法步骤的程序531′，该程序被处理器执行。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于卷积神经网络的交互动作的识别方法，该识别方法包括：

2.根据权利要求1所述的识别方法，其特征在于：在获得训练样本的类别特征向量前确定该训练样本中的图片的对比度：

3.根据权利要求1所述的识别方法，其特征在于：所述FNN模糊神经网络包括输入层、隐藏层和输出层，该输出层的特征向量值在[0-1]之间。

4.根据权利要求3所述的识别方法，其特征在于：其中，所述DCNN深度卷积神经网络包括多个DCNN网络层；

5.根据权利要求1所述的识别方法，其特征在于：利用FNN模糊神经网络计算所述训练样本的类别特征向量的最小化整体误差函数，其优化公式如下：

6.根据权利要求1-5任一项所述的识别方法，其特征在于：采用所述交互动作的DCNN-FNN训练模型提取待识别图片的肢体动作的HOG特征向量，计算该待识别图片的肢体动作的HOG特征向量与所述交互动作的DCNN-FNN训练模型中的所有HOG特征向量的欧氏距离，并把训练样本的类别作为距离最近的待识别图片的肢体动作的类别。

7.一种基于卷积神经网络的交互动作的识别系统，该识别系统包括：

8.根据权利要求7所述的识别系统，其特征在于，所述识别系统还包括确定模块，用于在获得训练样本的类别特征向量前确定该训练样本中的图片的对比度；所述确定模块执行以下操作：

9.根据权利要求7或8所述的识别系统，其特征在于：所述FNN模糊神经网络包括输入层、隐藏层和输出层，该输出层的特征向量值在[0-1]之间。

10.根据权利要求9所述的识别系统，其特征在于：所述DCNN深度卷积神经网络包括多个DCNN网络层；