CN109215036A

CN109215036A - 基于卷积神经网络的人体分割方法

Info

Publication number: CN109215036A
Application number: CN201810861949.9A
Authority: CN
Inventors: 秦硕; 周礼; 许淞斐
Original assignee: Zhejiang Deep Eye Technology Co Ltd
Current assignee: Zhejiang Deep Eye Technology Co Ltd
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2019-01-15

Abstract

本发明公开了一种基于卷积神经网络的人体分割方法，包括以下步骤。步骤S3：随机分布人体分割模型的网络参数，应用数据集反复迭代以更新网络参数。步骤S4：对于视频图像的人体位置进行预测以标示视频图像中的感兴趣区域。步骤S5：对于步骤S4的感兴趣区域进行人体分割，以获取视频图像中的人体。本发明公开的基于卷积神经网络的人体分割方法，能够人体运动过程特别是高速人体运动过程中实时识别人体和实时分割人体，较好地满足了视频实时性需求，较传统技术具有较高的识别准确率和稳定性。同时，对于视频或图像的质量要求不高，视频图像清晰度不佳的情况下依然能够完成人体识别和人体分割。

Description

基于卷积神经网络的人体分割方法

技术领域

本发明属于基于深度学习的人工智能技术领域，具体涉及一种基于卷积神经网络的人体分割方法。

背景技术

随着科技的高速发展，人工智能、计算机视觉产业所占比例大幅增长，基础设施GPU服务器/处理器可以满足大量计算量，计算速度越来越快，传统的图像处理方法已经不能满足现在的需求场景了。

传统的图像分割技术准确率低，稳定性差，对图像的质量要求较高。对一般的图像都是如此，因此人体的识别和分割难度更大，需要先把人从背景中识别出来，然后再从中抠取。对于不是很清晰的图像识别不准确，且准确率不高。

发明内容

本发明针对现有技术的状况，克服上述缺陷，提供一种基于卷积神经网络的人体分割方法。

本发明采用以下技术方案，所述基于卷积神经网络的人体分割方法包括以下步骤：

步骤S1：构建用于训练的数据集，上述数据集包括两部分，其中一部分为人体处于复杂背景中的图片，另一部分为已手动标注的人体轮廓；

步骤S2：构建基于卷积神经网络的人体分割模型，上述人体分割模型由一个具有15个卷积层且首尾相连组成的具有链状结构的卷积神经网络、一个全连接层和一个全卷积层组成；

步骤S3：随机分布该人体分割模型的网络参数，应用上述数据集反复迭代以更新上述网络参数，每次迭代结束判断更新后的网络参数是否满足预置的网络参数准确性指标，如果是则执行步骤S4，否则重复执行步骤S3；

步骤S4：根据步骤S3确定的人体分割模型的网络参数，同时应用上述人体分割模型的全连接层，对于视频图像的人体位置进行预测以标示视频图像中的感兴趣区域；

步骤S5：根据步骤S3确定的人体分割模型的网络参数，同时应用上述人体分割模型的全卷积层，对于步骤S4的感兴趣区域进行人体分割，以获取视频图像中的人体。

根据上述技术方案，在步骤S1中，上述卷积神经网络表征为：

S(i,j)＝(I*K)(i,j)＝∑_m∑_nI(m,n)K(i-m,j-n)；

其中，I是输入图像，K是一个大小为m×n的卷积核。

根据上述技术方案，在步骤S3中，每次迭代包括以下步骤：

步骤S3.1：通过正向传播计算全连接层和全卷积层的总损失函数；

步骤S3.2：通过反向传播算法更新上述网络参数。

根据上述技术方案，在步骤S3中，每次迭代包括以下步骤：

步骤S3.2：通过反向传播更新上述网络参数。

根据上述技术方案，在步骤S3.1中，上述总损失函数包括第一至第三损失函数。

根据上述技术方案，第一损失函数为：L_cls＝-t log(i)+(1-t)log(1-i)；

第二损失函数为：L_box(t,v)＝∑(t-v)²；

第三损失函数为：L_mask＝∑_m∑_n-t log(i)；

总损失函数为：L＝L_cls+L_box+L_mask。

根据上述技术方案，在步骤S3.2中，上述反向传播包括以下步骤：

步骤S3.2.1：通过链式法则计算网络参数的梯度：

步骤S3.2.2：根据上述梯度更新网络参数：

本发明公开的基于卷积神经网络的人体分割方法，其有益效果在于，能够人体运动过程特别是高速人体运动过程中实时识别人体和实时分割人体，较好地满足了视频实时性需求，较传统技术具有较高的识别准确率和稳定性。同时，对于视频或图像的质量要求不高，视频图像清晰度不佳的情况下依然能够完成人体识别和人体分割。

附图说明

图1是卷积神经网络的结构示意图。

图2是本发明优选实施例的流程示意图。

具体实施方式

本发明公开了一种基于卷积神经网络的人体分割方法，下面结合优选实施例，对本发明的具体实施方式作进一步描述。

参见附图的图1和图2，图1示出了卷积神经网络的一般结构，图2示出了所述基于卷积神经网络的人体分割方法的概要流程。

值得一提的是，本发明专利申请所涉及的卷积神经网络，是指一种前向人工神经网络，通过卷积核提取图像的局部特征。随着神经网络层数和参数的增加，神经网络拥有很强的表达能力。

本发明专利申请公开的基于卷积神经网络的人体分割方法所对应的基于卷积神经网络的人体分割模型，该模型由一个15层的卷积神经网络、一个全连接层(FC,fullyconnected)和一个全卷积(Fully convolutional)层组成。

其中，卷积神经网络负责提取图像特征，全连接层负责找出人体的位置的感兴趣区域(ROI)，在感兴趣区域内通过全卷积网络进行像素级的分割。

其中，“卷积核”作为中介，同一个卷积核在所有图像内都是共享的。图像通过卷积操作后仍然保留原先的位置关系。卷积神经网络的每一层会输出多个特征图(featuremap),每个特征图(feature map)通过一种卷积滤波器提取输入的一种特征，每个特征图(feature map)由多个神经元组成，假如某个特征图(feature map)的大小是a*b,则该特征图(feature map)有a*b个神经元。对于卷积层会有卷积核(kernel)，记录上一层的特征图(feature map)与当前层的卷积核的权重，假设当前层的卷积核数为c，则卷积核(kernel)的大小为a*b*c。

优选地，所述基于卷积神经网络的人体分割方法包括以下步骤：

步骤S2：构建基于卷积神经网络的人体分割模型，上述人体分割模型由一个具有15个卷积层且首尾相连组成的具有链状结构的卷积神经网络、一个全连接层(FC,fullyconnected)和一个全卷积(Fully convolutional)层组成；

步骤S4：根据步骤S3确定的人体分割模型的网络参数，同时应用上述人体分割模型的全连接层(具有经过迭代优化最终确认的网络参数的人体分割模型的全连接层)，对于视频图像的人体位置进行预测以标示视频图像中的感兴趣区域；

步骤S5：根据步骤S3确定的人体分割模型的网络参数，同时应用上述人体分割模型的全卷积层(具有经过迭代优化最终确认的网络参数的人体分割模型的全卷积层)，对于步骤S4的感兴趣区域进行人体分割，以获取视频图像中的人体。

进一步地，在步骤S1中，上述卷积神经网络表征为：

S(i，j)＝(I*K)(i，j)＝∑_m∑_nI(m，n)K(i-m，j-n)；

其中，I是输入图像，K是一个大小为m×n的卷积核。

进一步地，在步骤S3中，每次迭代包括以下步骤：

步骤S3.2：通过反向传播更新上述网络参数。

其中，在步骤S3.1中，上述总损失函数包括第一至第三损失函数。

其中，第一损失函数为：L_cls＝-t log(i)+(1-t)log(1-i)；

其中，第二损失函数为：L_box(t,v)＝∑(t-v)²；

其中，第三损失函数为：L_mask＝∑_m∑_n-t log(i)；

其中，总损失函数为：L＝L_cls+L_box+L_mask。

其中，在步骤S3.2中，上述反向传播包括以下步骤：

步骤S3.2.1：通过链式法则计算网络参数的梯度：

换而言之，写成矩阵的形式就变为：

步骤S3.2.2：根据上述梯度更新网络参数：

根据上述优选实施例，其中卷积神经网络可表征为：

S(i,j)＝(I*K)(i,j)＝∑_m∑_nI(m,n)K(i-m，j-n)；

其中，I是输入图像，K是一个大小为m×n的卷积核，通过这个操作，神经网络可以提取图像的局部特征。

将多个卷积层收尾相连成一个链状结构，就构成了一个深度卷积神经网络。

通常，在卷积操作之后，会添加一个激活操作，常用的激活函数有：

Sigmoid函数：

或者ReLU函数：

它们的作用是增加多层网络的非线性，从而增加网络提取特征的能力。

在构建好提取特征的网络后，需要定义一个损失函数(loss function)，来度量网络输出结果和图片真值之间的差异。本发明设计了三个损失函数，通过这三个损失函数的和来定义总的损失函数。

其中，第一损失函数可表征为：

L_cls＝-t log(i)+(1-t)log(1-i)；

该第一损失函数定义了分类的准确度，即落在框内的物体的种类。

其中，第二损失函数可表征为：

L_box(t,v)＝∑(t-v)²；

该第二损失函数定义了画出来的方形区域的准确性。

其中，第三损失函数可表征为：

L_mask＝∑_m∑_n-t log(i)；

该第三损失函数定义了对图像进行像素级分类的准确性。

因此，最终的总损失函数为：

L＝L_cls+L_box+L_mask；

训练过程是一个反向传播的过程，通过链式法则来动态更新神经网络的参数。通过链式法则计算参数的梯度的过程为：

写成矩阵的形式就变为：

在得到梯度以后，就可以对参数进行更新：

上述过程是参数更新的一次迭代过程。该过程在整个数据集上运行多次，直至准确率达到要求。

根据上述优选实施例，本发明专利申请公开的基于卷积神经网络的人体分割方法，相比于传统的人体分割算法具有明显优势。其中，传统的人体分割算法大体可分为2部分：人体检测步骤和边缘分割步骤。人体检测算法通常使用人工设计的图像特征，如HOG(histogram of Oriented Gradient),SIFT(Scale-invariant feature transform)，使用这些特征进行分类。在检测过程中，图像的质量、亮度、色域等对特征提取和分类效果的影响非常大。人体分割算法通常有基于阈值的方法(如阈值分割，大津(OSTU)算法，基于图论的算法(如图割算法)。这两种分割算法都对图像质量有非常严格的要求，并且需要设置许多超参数。而本发明中使用的神经网络可以直接对图像中的人进行识别和分割，不需要手动设计图像特征，算法中的超参数通过训练直接得到，无需人工干预。本发明经过证明比传统方法有更高的准确性和鲁棒性。

对于本领域的技术人员而言，依然可以对前述各实施例所记载的技术方案进行修改，或对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围。

Claims

1.一种基于卷积神经网络的人体分割方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于卷积神经网络的人体分割方法，其特征在于，在步骤S1中，上述卷积神经网络表征为：

S(i,j)＝(I*K)(i,j)＝∑_m∑_nI(m,n)K(i-m,j-n)；

其中，I是输入图像，K是一个大小为m×n的卷积核。

3.根据权利要求1所述的基于卷积神经网络的人体分割方法，其特征在于，在步骤S3中，每次迭代包括以下步骤：

步骤S3.2：通过反向传播算法更新上述网络参数。

4.根据权利要求2所述的基于卷积神经网络的人体分割方法，其特征在于，在步骤S3中，每次迭代包括以下步骤：

步骤S3.2：通过反向传播更新上述网络参数。

5.根据权利要求3或者4中任一权利要求所述的基于卷积神经网络的人体分割方法，其特征在于，在步骤S3.1中，上述总损失函数包括第一至第三损失函数。

6.根据权利要求5所述的基于卷积神经网络的人体分割方法，其特征在于：

第一损失函数为：L_cls＝-t log(i)+(1-t)log(1-i)；

第二损失函数为：L_box(t,v)＝∑(t-v)²；

第三损失函数为：L_mask＝∑_m∑_n-t log(i)；

总损失函数为：L＝L_cls+L_box+L_mask。

7.根据权利要求3或者4中任一权利要求所述的基于卷积神经网络的人体分割方法，其特征在于，在步骤S3.2中，上述反向传播包括以下步骤：

步骤S3.2.1：通过链式法则计算网络参数的梯度：

步骤S3.2.2：根据上述梯度更新网络参数：