CN111401189A

CN111401189A - 基于闭合主曲线和掩码区域卷积神经网络的肢体识别算法

Info

Publication number: CN111401189A
Application number: CN202010161793.0A
Authority: CN
Inventors: 许粲昊; 彭涛; 田宏伟; 刘雪兰; 黄鑫
Original assignee: Suzhou Ziguang Artificial Intelligence Technology Research And Development Co ltd
Current assignee: Suzhou Ziguang Artificial Intelligence Technology Research And Development Co ltd
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2020-07-10

Abstract

本发明公开了一种基于闭合主曲线和掩码区域卷积神经网络的肢体识别算法，首先通过掩码区域卷积神经网络进行近似区域肢体识别；再结合改进的闭合主曲线(CPL)和BNNM，对结果微调，此过程反复训练，得到肢体形态的算法结果。本发明设计巧妙，结合闭合主曲线(CPL)和BNNM算法，不仅利用模型参数共同表达光滑轮廓的数学模型，而且反复训练缩小误差，最终寻求高精度、光滑轮廓的获取，实现高效肢体识别，有效提高肢体识别效率。

Description

基于闭合主曲线和掩码区域卷积神经网络的肢体识别算法

技术领域

本发明涉及机器学习图像识别技术领域，尤其涉及一种基于闭合主曲线和掩码区域卷积神经网络的肢体识别算法。

背景技术

目前广为应用的肢体识别算法主要包括卡内基梅隆大学的 OpenPose以及上海交通大学的AlphaPose等等。其技术仍然在研发中，存在识别率和识别效率等缺陷。基于此，本专利提出了基于闭合主曲线和掩码区域神经网络的肢体识别算法，可以有效解决上述问题。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的一种基于闭合主曲线和掩码区域卷积神经网络的肢体识别算法。

基于闭合主曲线和掩码区域卷积神经网络的肢体识别算法，首先通过掩码区域卷积神经网络进行近似区域肢体识别；

再结合改进的闭合主曲线(CPL)和BNNM，对结果微调，此过程反复训练，得到肢体形态的算法结果。

优选的，所述掩码区域卷积神经网络由由主干网结构、区域提议网络和ROIAlign组成；

其中：

主干网络结构主要用于提取整幅图像的特征；

区域提议网络主要用于为每个位置和名为锚的区域生成预先设置的目标帧；

ROIAlign主要用于调整区域大小。

优选的，所述BNNM是反向传播神经网络，用于训练多层神经网络的机器学习算法，BNNM由输入层，隐含层和输出层组成。

优选的，所述闭合主曲线(CPL)由主流程、外循环和内循环组成，且最终输出的数据序列作为BNNM算法的输入数据

本发明设计巧妙，结合闭合主曲线(CPL)和BNNM算法，不仅利用模型参数共同表达光滑轮廓的数学模型，而且反复训练缩小误差，最终寻求高精度、光滑轮廓的获取，实现高效肢体识别，有效提高肢体识别效率。

附图说明

图1为本发明提出的CPL-BNNM算法的流程图；

图2为本发明提出的k段主曲线从点到曲线的投影图。

具体实施方式

下面结合具体实施例对本发明作进一步解说。

基于MRCNN的方法，细节如下：

参照图1，MRCNN是一个卷积神经网络，主要由三个网络组成：主干网结构，区域提议网络(Region Proposal Network，RPN)和 ROIAlign。主干网络结构主要用于提取整幅图像的特征，其深度决定了深度学习的精度；RPN主要用于为每个位置和名为锚的区域生成预先设置的目标帧；RoIAlign主要用于调整区域大小。

(1)主干网结构

网络的深度决定了深度学习的精度，而更深的网络意味着更高的精度。然而，它可能导致不收敛和梯度爆炸问题。使用ResNet101和特征金字塔网络模型(Feature PyramidNetworks model，FPN)作为主干结构的关键部分。ResNet101的体系架构如下表1所示，针对不同层，得到对应的不同网络布局。其中，ResNet101的关键内部架构由五个部分组成，分别是conv1，conv2_x，conv3_x，conv4_x和 conv5_x。注意，表1中的“#”是由输入尺寸决定的，表示随机输入尺寸。表1为ResNet101的架构。

表1 ResNet101的架构

(2)RPN和RoIAlign

依赖于特征地图上的滑动窗口，RPN被用于为每个位置和名为锚的区域生成预先设置的目标帧。当锚生成后，用RPN判断锚是否覆盖目标，并校正属于前景的锚的坐标。根据特征地图中预选框的坐标，使用RoIAlign将相应区域汇集成固定大小的特征地图。

(3)MRCNN的主要参数

在本文中，采用表2表示MRCNN的主要参数，其中几个关键参数将在下面进行分析。“每个GPU的图像”定义为GPU同时处理的图像数，设定值越大，GPU的性能就越高；“每个训练次数的步骤”表示在每个迭代步骤中需要获得的图像数量，其中设定值影响训练时间和模型精度。设定参数越大，训练时间越长，模型越精确。但是，不能太大，否则可能发生过拟合。“验证步骤”总是用来帮助用户判断设定的训练参数是否正常。“RPN NMS阈值”和“缺陷NMS阈值”这两个参数共同决定候选盒的筛选。

表2 MRCNN的主要使用参数

(4)MRCNN的优化

在预处理过程中，我们已经使用MRCNN完成全自动的粗分割，为了获得高精度轮廓，我们提出轮廓优化步骤进行分割结果的微调。

本步骤具体是通过结合改进CPL和BNNM，对预处理分割结果进行优化，从而获得更高精度的结果。考虑到具有一个隐含层的前馈神经网络可以用来近似任意连续函数，可以选择只含一个隐含层的BNNM 来实现图像提取。

基于多边形线段和闭合主曲线的方法，细节如下：

1.k段主曲线

在d维空间Rd中，当曲线f(t)满足三个条件时，首先f(t)不与自身相交；其次f(t)在d维空间Rd中任何有界子集内具有有限长度；第三f(t)是自相关的，其被看作是主曲线。主曲线f(t)的特性可以定义为f(t)＝E(X|tf(X)＝t)。如图2。

投影指标tf(xi)是使f(t)最接近xi的t；投影指标的表达式如下所示：

t_f(x_i)＝sup{t:||x_i-f(t)||＝inf_τ||x_i-f(t)||} (1)

通过对曲线长度的约束，可以确定该方法的优缺点。对于数据分布X，我们认为f被描述为k段-主曲线(K-SegmentPrincipalCurve， KSPC)，其中主曲线的约束长度为L。对于长度不大于L的所有曲线， f的最小距离函数使用以下公式表示：

Δ(f)＝Δ(X,f)＝E[Δ(X,f)]＝E[||X-f(t_f(X))||²] (2)

KSPC是收敛的，这保证了主曲线的学习能力，基于此可以提出寻找KSPC的多边形算法。

2.多边形算法

多边形线算法的两个关键步骤是投影和顶点优化。

(1)投影步

在投影步骤中，数据点根据它们投影的段或顶点进行分类。设f 是由顶点{v1,v2,…,vk+1}和线段{s1,s2,…,sk}组成，si连接vi， vi+1，其中i∈(1,k)，i为正整数。数据集Xn分为2k+1个不相交集合，由{V1,V2,…,Vk+1}和{S1,S2,…,Sk}组成，称为属于顶点vi或线段si的采样点。

V_i＝{x∈X_n:Δ(x,v_i)＝Δ(x,f),Δ(x,v_i)＜Δ(x,v_m),m＝1,2,...,i-1} (3)

(2)顶点优化步

在顶点优化步骤中，根据采样点到主曲线的距离最小的原则，调整每个顶点的位置。根据梯度最小化原则最小化惩罚距离函数，从而使全部点的位置发生改变，此时每条线段也随之发生变动。

G’_n(f)＝Δ’_n(f)+λ_pp(f) (5)

其中，G’_n(f)表示为最小惩罚距离函数，是由线段si产生并且无限延伸到f上的线段sj。当Δ’_n(f)表示拟合等级很低时，折线将越来越拟合数据集。p(f)是平均曲率惩罚，影响折线的平滑度。λp是用于平衡Δ’_n(f)和p(f)的惩罚因子，其中λ_p＝λ’_pkn^-1/3Δ_n(f_k,n)^1/2r^-1，通过反复的实验验证得出，惩罚因子λp的最佳取值为0.13。

在顶点优化步骤中，将长度约束转化成角度约束，通过惩罚角度得到光滑的主曲线。顶点vi的约束条件P(vi)可以通过以下公式得到：

3.反向传播神经网络BNNM

BNNM是用于训练多层神经网络的机器学习算法。它是具有迭代梯度下降特性的多层前馈神经网络。该BNNM是由输入层，隐含层和输出层。在此，我们总结用于实现BNNM的基本表示方法。

对于一组训练向量X，它存在与X相关联的输出向量集Y。神经网络的实际输出与预期输出之间的均方误差可定义为：

其中Auto是实际输出，Gt是预测输出。

为了提高机器学习模型的收敛性，我们经常通过最小化全局误差函数E实现该目标。因此，E被我们用于评估机器学习模型收敛性的评价指标，E的表达方法如下所示：

其中m是E的基数，当全局误差函数E达到设定的最小值时，训练过程终止，结果为正(表示训练过程成功)；否则，训练过程将继续运行，结果为负。当E在给定的训练次数内达到设定的最小值时，训练过程成功，否则，则训练过程失败，退出循环。

4.数据序列获取

算法数据序列的获取按照下列步骤进行：

第一步，首先将全部输入的ROI点{x1,x2,…,xn}归一化，并且记录数据集的坐标(xi,yi)(i＝1,2,…,n)。然后，为了统一引入，采用由坐标形式组成的数据集进行处理。将所有数据集规范化到范围 {(-1,-1)～(1,1)}中；

第二步，起始于小正方形，作为起始步，其中小正方形表示为：

V＝{V1,V2,V3,V4,V5}＝{(-0.1,-0.1),(-0.1,0.1),(0.1,0.1),(0. 1,-0.1),(-0.1,-0.1)}(9)

第三步，进入外循环并计算外循环距离函数的值；

第四步，运行内循环并调整每个顶点的位置。当直线之间的角度大于90o且形状闭合时，通过将数据集投影到直线和顶点投影，可以计算数据点到曲线的距离函数。当距离函数的值变小，顶点的位置将根据顶点优化步骤的准则进行改变。将当前距离函数的值与上一个内循环距离函数的值进行比较，当偏差值小于最大距离偏差Δs＝0.002 时，则达到内循环停止条件，执行第五步。否则，将添加新顶点并重新执行第四步；

在第五步中，将当前距离函数的值与前一个外循环距离函数的值进行比较，当减小的值小于最大距离偏差Δs＝0.002时，达到外循环停止条件，并获得由分段直线形成的闭合多边形，然后进入第六步。不同的是，将添加新顶点，并进入第三步以重新执行外循环操作步骤；

在第六步中，可以通过将数据集投影到闭合多边形来实现数据集的投影索引{t1,t2,…,tn}。根据从小到大的投影指标ti的顺序，对数据集(xi,yi)(i＝1,2,…,n)进行依次排序。最后，所得的数据序列由有序投影指标组成，并可得到相应的数据点 {(t,(xi,yi)),i＝1,2,…,n,0≤t1<t2<…<tn≤1}。

5.算法总体思路

在处理闭合数据集时，第一主成分线常被作为起始曲线。如果使用传统多边形线算法(Polygonal Line method，PL)获取数据序列，无法正确描述闭合数据集的投影指标，在训练步骤中无法得到预期的结果。针对这个问题，我们提出CPL-BNNM来寻找光滑的主曲线。所提出的CPL-BNNM算法的流程图如图1所示。所提的方法由改进的闭合多边形线算法和反向传播神经网络模型组成。改进的CPL由主流程，外循环和内循环组成，最终输出的数据序列则作为BNNM算法的输入。结合BNNM算法，不仅利用模型参数共同表达光滑轮廓的数学模型，而且反复训练缩小误差，最终寻求高精度、光滑轮廓的获取。

6.算法训练过程

通过寻找一个连续的、可微的、可积的光滑函数，利用主曲线逼近数据集点的分布。由于函数关系复杂，简单回归法不能很好地拟合。 BNNM将数据集的全局误差降到最小，使其逼近函数，拟合曲线，得到光滑的主曲线。

BNNM为三层(输入层，隐含层和输出层)网络，是一种多层感知机。为了确保隐含层适用于所有有用的功能，多层网络必须使用非线性激活函数。此处选择使用Sigmoid激活函数，表示为：

陡度参数λ决定激活函数的激活区域。当陡度参数λ从无穷大变为零时，Sigmoid激活函数也从单位阶跃函数变为常数0.5。

前馈网络包含一个隐含层，可以近似任何连续函数。考虑到包含一个隐含层的前馈网络是一个通用的函数逼近器，本文选择包含单个隐含层的BNNM进行训练。为了找出有序投影指标与相应数据点之间的关系，可以将x和y分别看作t上的连续函数x(t)和y(t)，其中投影指数作为自变量，初始点的坐标作为因变量。相应的主曲线数学表达式可以表示为：

关于上式的相关参数表示如下：

N：隐含层的神经元数量；

wi：从输入层到隐含层中第i个神经元的权重；

Ti：隐含层的第i个神经元的输出阈值；

vi,k：从隐含层的第i个神经元到输出层的第k个神经元的权重；

rk：输出层的第k个神经元的输出阈值；

其中，i＝1,2,…,N,k＝1,2。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.基于闭合主曲线和掩码区域卷积神经网络的肢体识别算法，其特征在于：

首先通过掩码区域卷积神经网络进行近似区域肢体识别；

2.根据权利要求1所述的基于闭合主曲线和掩码区域卷积神经网络的肢体识别算法，其特征在于，所述掩码区域卷积神经网络由由主干网结构、区域提议网络和ROIAlign组成；

其中：

主干网络结构主要用于提取整幅图像的特征；

ROIAlign主要用于调整区域大小。

3.根据权利要求1所述的基于闭合主曲线和掩码区域卷积神经网络的肢体识别算法，其特征在于，所述BNNM是反向传播神经网络，用于训练多层神经网络的机器学习算法，BNNM由输入层，隐含层和输出层组成。

4.根据权利要求1所述的基于闭合主曲线和掩码区域卷积神经网络的肢体识别算法，其特征在于，所述闭合主曲线(CPL)由主流程、外循环和内循环组成，且最终输出的数据序列作为BNNM算法的输入数据。