CN111462133A - 一种实时视频人像分割的系统、方法、存储介质和设备 - Google Patents
一种实时视频人像分割的系统、方法、存储介质和设备 Download PDFInfo
- Publication number
- CN111462133A CN111462133A CN202010241753.7A CN202010241753A CN111462133A CN 111462133 A CN111462133 A CN 111462133A CN 202010241753 A CN202010241753 A CN 202010241753A CN 111462133 A CN111462133 A CN 111462133A
- Authority
- CN
- China
- Prior art keywords
- module
- image
- size
- layer
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种实时视频人像分割的系统、方法、存储介质和设备,属于图像处理技术领域。通过获取实时视频图像并将调整后的视频图像输入训练好的卷积神经网络模型进行特征提取,并进行视频图像推断,得到人像分割图;所述卷积神经网络模型采用编码‑解码结构,编码网络利用标准卷积、深度可分离卷积和空洞卷积层提取图像特征;解码网络通过融合模块进行特征融合重构,完成图像特征解码;采用双线性差值模块,将图像进行恢复,并利用交叉熵损失函数对进行视频图像推断,输出分割完毕的人像分割图。该方法所采用的卷积神经网络模型的参数少,运算速度快,从而能够快速地对视频图像进行实时人像分割,克服了现有方法分割速度慢的问题。
Description
技术领域
本发明属于图像处理技术领域,具体涉及一种实时视频人像分割的系统、方法、存储介质和设备。
背景技术
人像分割技术是指将图像中的人像和背景分离的技术,随着技术的发展,人像分割技术广泛应用于摄影摄像、影视制作、视频监控等诸多领域,因此,出现了很多人像分割方法以满足不同领域对的需求。在视频领域,对于人像分割技术的要求非常高,因为相对于静态的图像,视频是动态的,是由连续的若干帧视频图像构成的,要从连续播放的视频图像中将人像分割出来,对于技术的要求非常高,因此在视频领域进行人像背景分离是十分困难的。其中,一方面是受制于速度,因为在视频播放的过程中,要进行实时分割,至少需要达到跟视频播放同样的帧率,这样才不会有卡顿的现象;另一方面,对分割精度也有一定的要求,太粗糙的话,对后续的处理会产生很大的不良效果,如对背景虚化或者背景替换,就需要对精度有较高的要求。
随着人工智能和图像处理技术的发展,提出了很多将人工智能的方法应用到人像分割技术中,以实现快速准确地将图像中的人像和背景分离,尤其是将神经网络方法,应用到人像分割技术中,极大地提高了人像分割技术的速度和精度。例如申请号为201811333344.9的中国专利公开了一种人像分割方法,该方法对原始图像进行预处理,获得待处理图像利用训练好的人像分割模型对待处理图像进行处理,获得人像分割模型输出的人像分割掩膜,人像分割模型包括编码器以及与编码器连接的解码器,编码器用于利用普通卷积、深度可分离卷积以及带洞卷积提取待处理图像的图像特征,解码器用于根据图像特征生成人像分割掩膜;根据人像分割掩膜从原始图像中分割出人像。然而,该方法在进行人像分割的过程中,需要对原始图像进行预处理,然后通过卷积神经网络模型进行人像分割,并且所采用的卷积神经网络结构复杂,因此极大地降低了人像分割的速度,需要性能较好的设备才能达到较好的图像分割效果,尤其是针对视频图像的分割,因此该方法应用到视频图像实时视频人像分割时,很难满足速度上的要求。
发明内容
技术问题:本发明提供一种实时视频人像分割的系统、方法、存储介质和设备,利用基于深度可分离卷积和空洞卷积搭建的卷积神经网络模型,能够快速高效地对视频人像进行实时分割,解决了实时视频人像分割时,速度慢的问题。
技术方案:本发明的实时视频人像分割的系统,包括:
图像采集模块,用于采集实时视频图像;
图像处理模块,用于对视频图像进行实时视频人像分割,所述图像处理模块采用卷积神经网络模型对视频图像进行神经网络推理,进行特征提取,并进行视频图像推断,得到人像分割图;
所述卷积神经网络模型包括编码网络和与编码网络连接的解码网络,所述编码网络包括依次连接的一个标准编码模块和若干个通用编码模块,所述通用编码模块利用标准卷积、深度可分离卷积和空洞卷积层提取图像特征;所述解码网络包括若干个依次连接的融合模块,通过融合模块将编码网络中的两个通用编码模块的输出进行融合重构,或将解码模块的输出与通用编码模块的输出进行融合重构,完成图像特征解码;采用双线性差值模块,将图像恢复到与输入图像相同大小。
进一步地,所述的卷积神经网络模型的网络结构:
编码网络包括依次连接的标准编码模块M1、第一通用编码模块GM1、第二通用编码模块GM2、第三通用编码模块GM3、第四通用编码模块GM4、第五通用编码模块GM5、第六通用编码模块GM6、第七通用编码模块GM7;
解码网络:包括依次连接的第一融合模块、第二融合模块和双线性差值模块UP2,所述第三通用编码模块GM3的输出与第七通用编码模块GM7的输出通过第一融合模块进行特征融合和重构;所述第一通用编码模块GM1的输出与第一融合模块的输出通过第二融合模块进行特征融合和重构;双线性差值模块UP2将第二融合模块输出的图像特征放大。
进一步地,所述通用编码模块包括依次连接的标准卷积层C1、深度可分离卷积层DW1、空洞卷积层D1、标准卷积层C2。
进一步地,所述融合模块包括两个网络分支:
第一网络分支:包括依次连接的双线性差值模块、空洞卷积层D2、批标准化层B1;
第二网络分支:包括依次连接的标准卷积层C3、批标准化层B2;
第一网络分支和第二网络分支通过add层进行融合连接,得到所述融合模块。
进一步地,所述编码网络的各个解码模块的网络层的参数为:
标准编码模块M1:包括一个标准卷积层,卷积核大小为3×3,通道数为3;
第一通用编码模块GM1:标准卷积层C1卷积核大小为3×3;深度可分离卷积层DW1的卷积核大小为3×3,步长为2;空洞卷积层D1的卷积核大小为3×3,空洞率为2;的标准卷积层C2的卷积核大小为1×1,通道数为16;
第二通用编码模块GM2:标准卷积层C1卷积核大小为3×3;深度可分离卷积层DW1的卷积核大小为3×3,步长为1;空洞卷积层D1的卷积核大小为3×3,空洞率为2;的标准卷积层C2的卷积核大小为1×1,通道数为24;
第三通用编码模块GM3:标准卷积层C1卷积核大小为3×3;深度可分离卷积层DW1的卷积核大小为3×3,步长为2;空洞卷积层D1的卷积核大小为3×3,空洞率为2;的标准卷积层C2的卷积核大小为1×1,通道数为44;
第四通用编码模块GM4:标准卷积层C1卷积核大小为3×3;深度可分离卷积层DW1的卷积核大小为3×3,步长为1;空洞卷积层D1的卷积核大小为3×3,空洞率为2;的标准卷积层C2的卷积核大小为1×1,通道数为24;
第五通用编码模块GM5:标准卷积层C1卷积核大小为3×3;深度可分离卷积层DW1的卷积核大小为3×3,步长为2;空洞卷积层D1的卷积核大小为3×3,空洞率为4;的标准卷积层C2的卷积核大小为1×1,通道数为80;
第六通用编码模块GM6:标准卷积层C1卷积核大小为3×3;深度可分离卷积层DW1的卷积核大小为3×3,步长为1;空洞卷积层D1的卷积核大小为3×3,空洞率为4;的标准卷积层C2的卷积核大小为1×1,通道数为120;
第七通用编码模块GM7:标准卷积层C1卷积核大小为3×3;深度可分离卷积层DW1的卷积核大小为3×3,步长为1;空洞卷积层D1的卷积核大小为3×3,空洞率为4;的标准卷积层C2的卷积核大小为1×1,通道数为120。
进一步地,采用交叉熵损失函数进行视频图像推断。
本发明的实时视频人像分割的方法,采用所述的实时视频人像分割的系统进行实时视频人像分割,包括:
利用视频采集模块,获取实时视频图像;
将视频图像输入图像处理模块,利用卷积神经网络进行神经网络推理,视频图像依次通过编码网络的标准编码模块和若干个通用编码模块,进行编码,完成特征提取,然后进入解码网络,通过依次连接的若干融合模块,进行特征融合重构,完成图像特征解码;采用双线性差值模块,将图像恢复到与输入图像相同大小,然后利用交叉熵损失函数进行视频推断,并输出分割完毕的人像分割图。
进一步地,所述的卷积神经网络模型的训练过程如下:
S1:对COCO数据集进行数据清洗,筛选出该COCO数据集中包括人像的图像样本,并筛选人像区域面积占整个图像1/10以上的图像样本作为训练样本,构建样本数据集;
S2:将步骤S1得到的样本数据集进行预处理,将样本数据集中的图像样本进行数据增广,包括随机水平翻转、随机旋转、随机裁剪;
S3:采用经过步骤S2处理后的样本数据集对卷积神经网络模型进行训练,在进行卷积神经网络模型训练时,将初始学习率设置为0.001,并采用Adam作为优化器,损失函数采用交叉熵损失函数,并保存训练好的模型权值文件。
本发明的存储介质,存储所述的实时视频人像分割的系统的计算机指令,以及所述的实时视频人像分割的系统方法的计算机指令。
本发明的设备,采用所述的实时视频人像分割的系统进行实时视频人像分割。
有益效果:本发明与现有技术相比,具有以下优点:
(1)本发明采用卷积神经网络模型,对视频图像进行神经网络推理,完成特征图像提取,然后进行视频图像推断,最终得到人像分割图。本发明的卷积神经网络模型,采用编码-解码网络,采用深度可分离卷积和空洞卷积构建编码模块,极大地减少了卷积神经网络模型的参数量,从而提高了卷积神经网络模型的运算速度,从而快速地将视频图像中人像快速地实时分割出来,有效地克服了现有技术中,人像分割速度慢,难以满足视频人像实时分割需求的问题。
(2)本发明在训练卷积神经网络模型时,通过对COCO数据集进行数据筛选冲洗,只筛选包括人像的图像样本来构建样本训练集,并用于卷积神经网络模型训练,使得本发明的卷积神经网络模型具有更好的处理效果。
附图说明
图1为本发明的实时人像分割的系统的流程图;
图2为本发明的通用编码模块的网络结构图;
图3为本发明的融合模块的网络结构图;
图4为本发明的卷积神经网络模型的网络结构图;
图5为本发明的实施例中视频图像的原图;
图6为本发明的实施例中视频图像分割后的效果图。
具体实施方式
下面结合实施例和说明书附图对本发明作进一步的说明。
在本发明的描述中,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性,此外,需要说明的是,除非另有明确的规定或限定,术语“连接”、“相连”等词应作广义理解,例如可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
如图1所示,本发明的实时视频人像分割的系统,包括图像采集模块,用于实时采集视频图像;图像处理模块,用于对视频图像进行实时视频人像分割,所述图像处理模块采用卷积神经网络模型对视频图像进行神经网络推理,进行特征提取,并进行视频图像推断,得到人像分割图。
本发明的卷积神经网络模型包括编码网络和与编码网络连接的解码网络,其中编码网络包括依次连接的一个标准编码模块和若干个通用编码模块,所述通用编码模块利用标准卷积、深度可分离卷积和空洞卷积层提取图像特征。所述解码网络包括若干个依次连接的融合模块,通过融合模块将编码网络中的两个通用编码模块的输出进行融合,或将融合模块的输出与一个通用编码模块的输出进行融合,完成图像特征解码,并采用双线性差值模块,对图像进行放大操作,将图像恢复到输入图像的大小,经视频推断后,输出分割完毕的人像特征图。
标准编码模块和通用编码模块的目的是对视频图像进行编码,完成图像特征提取。标准编码模块包括依次连接的若干个标准卷积层,例如,在本发明的实施例中,标准编码模块只包括一个标准卷积层。
如图2所示,通用编码模块包括依次连接的标准卷积层C1、深度可分离卷积层DW1、空洞卷积层D1、标准卷积层C2。当卷积神经网络模型包括多个通用编码模块时,各通用编码模块的深度可分离卷积层DW1的步长是可变的,并且空洞卷积层D1的空洞率也可根据需要进行调整。通用编码模块采用这样的网络结构,是为了尽可能的压缩网络的参数数量,深度可分离卷积相较于标准卷积,参数数量有效地减少,增加空洞卷积,能够使网络获得更大的感受野,通过增大感受野,可以有效地提高视频图像的分割效果。
解码网络是将编码网络输出的人像特征图进行解码,从而输出分割完毕的图像。在本发明的解码网络中,通过依次连接的若干个融合模块对图像特征进行融合,实现特征图像解码。本发明的实施例中,如图3所示,融合模块包括两个网络分支:
第一网络分支:依次连接的双线性差值模块UP1、空洞卷积层D2、批标准化层B1;在本发明的实施例中,双线性差值模块UP1采用2倍双线性差值;
第二网络分支:依次连接的标准卷积层C3、批标准化层B2;
第一网络分支和第二网络分支通过add层进行融合连接,得到所述融合模块。
融合模块能够将编码网络中的两个通用编码模块的输出进行融合,并进行特种重构,或将融合模块的输出与通用编码模块的输出进行融合,并进行特征重构,完成图像特征解码,并采用双线性差值模块,对特征图像进行放大,将图像恢复到输入图像大小,输出分割完毕的人像分割图。
在本发明的优选的实施例中,卷积神经网络模型的网络结构如图4所示,编码网络包括一个标准编码模块和7个通用编码模块,具体为:包括依次连接的标准编码模块M1、第一通用编码模块GM1、第二通用编码模块GM2、第三通用编码模块GM3、第四通用编码模块GM4、第五通用编码模块GM5、第六通用编码模块GM6、第七通用编码模块GM7。
解码网络包括两个融合模块和一个双线性差值模块,具体为:依次连接的第一融合模块、第二融合模块和双线性差值模块UP2。所述第三通用编码模块GM3的输出与第七通用编码模块GM7的输出通过第一融合模块进行特征融合解码,在具体的网络中,第三通用编码模块GM3的输出与第一融合模块的第一网络分支连接。所述第一通用编码模块GM1的输出与第一融合模块的输出通过第二融合模块进行特征融合解码,在具体的网络结构中,第一通用编码模块GM1的输出与第二融合模块的第一网络分支连接,第一融合模块的输出与第一融合模块的第二网络分支连接。第二融合模块与双线性差值模块UP2连接,从第二融合模块输出的特征图像经双线性差值模块UP2放大,经推断后,输出分割后图像。在本发明的实施例中双线性差值模块UP2采用4倍双线性差值。
具体的,本发明的实施例中,卷积神经网络模型的编码网络的各模块的网络层的参数为:
标准编码模块M1:包括一个标准卷积层,该标准卷积层的卷积核大小为3×3,步长为2,通道数为3。
第一通用编码模块GM1:标准卷积层C1卷积核大小为3×3,步长为1;深度可分离卷积层DW1的卷积核大小为3×3,步长为2;空洞卷积层D1的卷积核大小为3×3,空洞率为2;标准卷积层C2的卷积核大小为1×1,通道数为16。
第二通用编码模块GM2:标准卷积层C1卷积核大小为3×3;深度可分离卷积层DW1的卷积核大小为3×3,步长为1;空洞卷积层D1的卷积核大小为3×3,空洞率为2;标准卷积层C2的卷积核大小为1×1,通道数为24。
第三通用编码模块GM3:标准卷积层C1卷积核大小为3×3;深度可分离卷积层DW1的卷积核大小为3×3,步长为2;空洞卷积层D1的卷积核大小为3×3,空洞率为2;标准卷积层C2的卷积核大小为1×1,通道数为44。
第四通用编码模块GM4:标准卷积层C1卷积核大小为3×3;深度可分离卷积层DW1的卷积核大小为3×3,步长为1;空洞卷积层D1的卷积核大小为3×3,空洞率为2;标准卷积层C2的卷积核大小为1×1,通道数为24。
第五通用编码模块GM5:标准卷积层C1卷积核大小为3×3;深度可分离卷积层DW1的卷积核大小为3×3,步长为2;空洞卷积层D1的卷积核大小为3×3,空洞率为4;标准卷积层C2的卷积核大小为1×1,通道数为80。
第六通用编码模块GM6:标准卷积层C1卷积核大小为3×3;深度可分离卷积层DW1的卷积核大小为3×3,步长为1;空洞卷积层D1的卷积核大小为3×3,空洞率为4;标准卷积层C2的卷积核大小为1×1,通道数为120。
第七通用编码模块GM7:标准卷积层C1卷积核大小为3×3;深度可分离卷积层DW1的卷积核大小为3×3,步长为1;空洞卷积层D1的卷积核大小为3×3,空洞率为4;标准卷积层C2的卷积核大小为1×1,通道数为120。
解码网络中,融合模块的结构是相同的,其中双线性差值模块UP1采用2倍双线性差值,空洞卷积层D2的卷积核大小为3,空洞率为1标准卷积层C3的卷积核大小为1×1,步长为1。
应该说明的是,上述参数,是本发明的实施例中优选的参数,对于未给出的参数,本领域技术人员可以根据需求进行调整。值得说明的是,在本发明的实施过程中,神经网络模型中所有的卷积层,包括标准卷积层、空洞卷积层、深度可分离卷积层后都会默认的采用一个批标准化层对卷积层的输出进行标准化,并采用Relu函数进行激活,并且对于未特殊说明的,卷积层的步长默认为1。
此外,本发明的神经网络的输出时采用交叉熵损失函数,用来对图像特征进行推断,判断图像的每个像素是否属于人像,从而最终得出人像分割图。
基于本发明的实时人像分割的系统,可以利用该系统,进行实时人像分割,具体方法为:利用视频采集模块,获取实时视频图像;将视频图像输入图像处理模块,利用卷积神经网络进行神经网络推理,视频图像依次通过编码网络的标准编码模块和若干个通用编码模块,进行编码,完成特征提取,然后进入解码网络,通过依次连接的若干融合模块,进行特征融合重构,完成图像特征解码;采用双线性差值模块,将图像恢复到与输入图像相同大小,然后利用交叉熵损失函数进行视频推断,并输出分割完毕的人像分割图。
更具体地,在本发明的实施例中,视频图像进入图像处理模块后,依次通过标准编码模块M1、第一通用编码模块GM1、第二通用编码模块GM2、第三通用编码模块GM3、第四通用编码模块GM4、第五通用编码模块GM5、第六通用编码模块GM6、第七通用编码模块GM7。第三通用编码模块GM3的输出与第七通用编码模块GM7的输出通过第一融合模块进行特征融合解码,第一通用编码模块GM1的输出与第一融合模块的输出通过第二融合模块进行特征融合解码,第二融合模块输出的特征图像经双线性差值模块UP2进行4倍放大,经推断后,然后输出分割后图像。
在利用本发明的系统进行实时人像分割时,在将视频图像输入图像处理模块前,需对卷积神经网络模型进行训练,以便得到参数最优的卷积神经网络模型,在训练卷积神经网络模型时,具体的训练过程如下:
S1:构建样本数据集
本发明中,采用COCO数据集作为原始数据集,然后对COCO数据集进行数据清洗,具体地,筛选出COCO数据集中包括人像的图像样本,然后从包括人像的图像样本中做进一步筛选,选择人像区域面积占整个图像1/10以上的图像样本作为训练样本,构建本发明用于训练卷积神经网络的样本训练集。在本发明的实施例中,共筛选了60000张样本图像构建本发明的样本数据集。
S2:数据样本预处理
将步骤S1建立的样本数据集中的图像样本进行预处理,对样本数据集中的图像样本进行数据增广,包括随机水平翻转、随机旋转、随机裁剪等操作。
S3:训练卷积神经网络模型
采用经过步骤S2处理后的图像样本对搭建的卷积神经网络模型进行训练,本发明在训练过程中,将初始学习率设置为0.001,并采用Adam作为优化器,损失函数采用交叉熵损失函数。
说明的是,在对神经网络模型进行训练时,为了能够监控网络训练,在第七通用编码模块后可引入交叉熵损失函数作为辅助函数。在本发明的实施例中,卷积神经网络模型在进过200000次迭代后,模型收敛,将训练好的模型权值文件保存,可用于部署在硬件设备上。
将本发明与现有技术进行比较,现有技术中,应用于嵌入式设备的特征分割网络主要为MobileNet V2,将本发明方法与MobileNet V2对比,在模型参数上,本发明的卷积神经网络模型的参数量约为MobileNet V2的1/10,对同一张图像进行人像分割时,本发明的方法在速度上约为MobileNet V2的7倍,因此,本发明的方法,具有更快的速度,更高的效率,更适用于实时视频人像的提取,更适用于视频图像实时人像分割。进一步地,图5和图6分别给出了采用本发明进行实时视频人像分割时,图像的原图和分割效果图,从图6中可以看出,采用本发明进行实时视频人像分割时,分割的效果图过渡比较流畅自然,分割效果较好。因此可以看出,本发明不仅能够较高质量的对视频图像进行分割,同时具有较快的速度,满足视频图像实时分割的需求。
本发明还提供了一种存储介质,该存储介质能够存储用于执行所述的实时视频人像分割的方法的计算机指令,运行所述计算机指令,能够执行相应的运算操作,完成实时视频人像分割。
此外,本发明还提供一种电子设备,该电子设备包括视频图像采集模块,用于实时采集视频图像;图像处理模块,采用卷积神经网络模型,将所述视频图像采集模块采集的图像进行处理,并输出分割后的人像特征图;显示模块,将分割后的人像特征图显示。
综上,本发明采用卷积神经网络模型对视频图像进行特征提取,并进行视频图像推断,完成视频图像实时分割,输出人像分割图,所采用的卷积神经网络型采用编码-解码结构,利用深度可分离卷积和空洞卷积,降低了卷积神经网络模型的参数量,提高了卷积神经网络模型的速度,从而极大地提高了实时视频人像的分割效率,更能适用于各领域对人像分割技术的需求。
上述实施例仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和等同替换,这些对本发明权利要求进行改进和等同替换后的技术方案,均落入本发明的保护范围。
Claims (10)
1.一种实时视频人像分割的系统,其特征在于,包括:
图像采集模块,用于采集实时视频图像;
图像处理模块,用于对视频图像进行实时视频人像分割,所述图像处理模块采用卷积神经网络模型对视频图像进行神经网络推理,进行特征提取,并进行视频图像推断,得到人像分割图;
所述卷积神经网络模型包括编码网络和与编码网络连接的解码网络,所述编码网络包括依次连接的一个标准编码模块和若干个通用编码模块,所述通用编码模块利用标准卷积、深度可分离卷积和空洞卷积层提取图像特征;所述解码网络包括若干个依次连接的融合模块,通过融合模块将编码网络中的两个通用编码模块的输出进行融合重构,或将解码模块的输出与通用编码模块的输出进行融合重构,完成图像特征解码;采用双线性差值模块,将图像恢复到与输入图像相同大小。
2.根据权利要求1所述的一种实时视频人像分割的系统,其特征在于,所述的卷积神经网络模型的网络结构:
编码网络包括依次连接的标准编码模块M1、第一通用编码模块GM1、第二通用编码模块GM2、第三通用编码模块GM3、第四通用编码模块GM4、第五通用编码模块GM5、第六通用编码模块GM6、第七通用编码模块GM7;
解码网络:包括依次连接的第一融合模块、第二融合模块和双线性差值模块UP2,所述第三通用编码模块GM3的输出与第七通用编码模块GM7的输出通过第一融合模块进行特征融合和重构;所述第一通用编码模块GM1的输出与第一融合模块的输出通过第二融合模块进行特征融合和重构;双线性差值模块UP2将第二融合模块输出的图像特征放大。
3.根据权利要求2所述的一种实时视频人像分割的系统,其特征在于,所述通用编码模块包括依次连接的标准卷积层C1、深度可分离卷积层DW1、空洞卷积层D1、标准卷积层C2。
4.根据权利要求3所述的一种实时视频人像分割的系统,其特征在于,所述融合模块包括两个网络分支:
第一网络分支:包括依次连接的双线性差值模块、空洞卷积层D2、批标准化层B1;
第二网络分支:包括依次连接的标准卷积层C3、批标准化层B2;
第一网络分支和第二网络分支通过add层进行融合连接,得到所述融合模块。
5.根据权利要求4所述的一种实时视频人像分割的方法,其特征在于,所述编码网络的各个解码模块的网络层的参数为:
标准编码模块M1:包括一个标准卷积层,卷积核大小为3×3,通道数为3;
第一通用编码模块GM1:标准卷积层C1卷积核大小为3×3;深度可分离卷积层DW1的卷积核大小为3×3,步长为2;空洞卷积层D1的卷积核大小为3×3,空洞率为2;的标准卷积层C2的卷积核大小为1×1,通道数为16;
第二通用编码模块GM2:标准卷积层C1卷积核大小为3×3;深度可分离卷积层DW1的卷积核大小为3×3,步长为1;空洞卷积层D1的卷积核大小为3×3,空洞率为2;的标准卷积层C2的卷积核大小为1×1,通道数为24;
第三通用编码模块GM3:标准卷积层C1卷积核大小为3×3;深度可分离卷积层DW1的卷积核大小为3×3,步长为2;空洞卷积层D1的卷积核大小为3×3,空洞率为2;的标准卷积层C2的卷积核大小为1×1,通道数为44;
第四通用编码模块GM4:标准卷积层C1卷积核大小为3×3;深度可分离卷积层DW1的卷积核大小为3×3,步长为1;空洞卷积层D1的卷积核大小为3×3,空洞率为2;的标准卷积层C2的卷积核大小为1×1,通道数为24;
第五通用编码模块GM5:标准卷积层C1卷积核大小为3×3;深度可分离卷积层DW1的卷积核大小为3×3,步长为2;空洞卷积层D1的卷积核大小为3×3,空洞率为4;的标准卷积层C2的卷积核大小为1×1,通道数为80;
第六通用编码模块GM6:标准卷积层C1卷积核大小为3×3;深度可分离卷积层DW1的卷积核大小为3×3,步长为1;空洞卷积层D1的卷积核大小为3×3,空洞率为4;的标准卷积层C2的卷积核大小为1×1,通道数为120;
第七通用编码模块GM7:标准卷积层C1卷积核大小为3×3;深度可分离卷积层DW1的卷积核大小为3×3,步长为1;空洞卷积层D1的卷积核大小为3×3,空洞率为4;的标准卷积层C2的卷积核大小为1×1,通道数为120。
6.根据权利要求1-5任一项所述的一种实时视频人像分割的系统,其特征在于,采用交叉熵损失函数进行视频图像推断。
7.一种实时视频人像分割的方法,其特征在于,采用权利要求1-6任一项所述的实时视频人像分割的系统进行实时视频人像分割,包括:
利用视频采集模块,获取实时视频图像;
将视频图像输入图像处理模块,利用卷积神经网络进行神经网络推理,视频图像依次通过编码网络的标准编码模块和若干个通用编码模块,进行编码,完成特征提取,然后进入解码网络,通过依次连接的若干融合模块,进行特征融合重构,完成图像特征解码;采用双线性差值模块,将图像恢复到与输入图像相同大小,然后利用交叉熵损失函数进行视频推断,并输出分割完毕的人像分割图。
8.根据权利要求7所述的一种实时视频人像分割的方法,其特征在于,所述的卷积神经网络模型的训练过程如下:
S1:对COCO数据集进行数据清洗,筛选出该COCO数据集中包括人像的图像样本,并筛选人像区域面积占整个图像1/10以上的图像样本作为训练样本,构建样本数据集;
S2:将步骤S1得到的样本数据集进行预处理,将样本数据集中的图像样本进行数据增广,包括随机水平翻转、随机旋转、随机裁剪;
S3:采用经过步骤S2处理后的样本数据集对卷积神经网络模型进行训练,在进行卷积神经网络模型训练时,将初始学习率设置为0.001,并采用Adam作为优化器,损失函数采用交叉熵损失函数,并保存训练好的模型权值文件。
9.一种存储介质,其特征在于,存储权利要求1~6任一项所述的实时视频人像分割的系统的计算机指令,以及权利要求7~8任一项所述的实时视频人像分割的系统方法的计算机指令。
10.一种设备,其特征在于,采用权利要求要求1~6任一项所述的实时视频人像分割的系统进行实时视频人像分割。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010241753.7A CN111462133B (zh) | 2020-03-31 | 2020-03-31 | 一种实时视频人像分割的系统、方法、存储介质和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010241753.7A CN111462133B (zh) | 2020-03-31 | 2020-03-31 | 一种实时视频人像分割的系统、方法、存储介质和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111462133A true CN111462133A (zh) | 2020-07-28 |
CN111462133B CN111462133B (zh) | 2023-06-30 |
Family
ID=71685065
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010241753.7A Active CN111462133B (zh) | 2020-03-31 | 2020-03-31 | 一种实时视频人像分割的系统、方法、存储介质和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111462133B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112053363A (zh) * | 2020-08-19 | 2020-12-08 | 苏州超云生命智能产业研究院有限公司 | 视网膜血管分割方法、装置及模型构建方法 |
CN112800963A (zh) * | 2021-01-28 | 2021-05-14 | 新华三大数据技术有限公司 | 基于深度神经网络的版面分析方法、模型及电子设备 |
CN112950652A (zh) * | 2021-02-08 | 2021-06-11 | 深圳市优必选科技股份有限公司 | 机器人及其手部图像分割方法和装置 |
CN113192089A (zh) * | 2021-04-12 | 2021-07-30 | 温州医科大学附属眼视光医院 | 一种用于图像分割的双向交叉连接的卷积神经网络 |
CN113207004A (zh) * | 2021-04-30 | 2021-08-03 | 华中科技大学 | 基于jpeg-ls帧间扩展的遥感图像压缩算法硬件实现方法 |
CN113205519A (zh) * | 2021-04-21 | 2021-08-03 | 西安电子科技大学 | 一种基于多支路特征融合的图像分割方法及系统 |
CN113344884A (zh) * | 2021-06-11 | 2021-09-03 | 广州逅艺文化科技有限公司 | 一种视频图形区域检测及压缩方法、装置及介质 |
CN115565148A (zh) * | 2022-11-09 | 2023-01-03 | 福思(杭州)智能科技有限公司 | 道路图像的检测方法、装置、存储介质和电子装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108010031A (zh) * | 2017-12-15 | 2018-05-08 | 厦门美图之家科技有限公司 | 一种人像分割方法及移动终端 |
CN109493350A (zh) * | 2018-11-09 | 2019-03-19 | 重庆中科云丛科技有限公司 | 人像分割方法及装置 |
US10304193B1 (en) * | 2018-08-17 | 2019-05-28 | 12 Sigma Technologies | Image segmentation and object detection using fully convolutional neural network |
CN110689542A (zh) * | 2018-07-04 | 2020-01-14 | 清华大学 | 一种基于多级卷积神经网络的人像分割处理方法及装置 |
-
2020
- 2020-03-31 CN CN202010241753.7A patent/CN111462133B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108010031A (zh) * | 2017-12-15 | 2018-05-08 | 厦门美图之家科技有限公司 | 一种人像分割方法及移动终端 |
CN110689542A (zh) * | 2018-07-04 | 2020-01-14 | 清华大学 | 一种基于多级卷积神经网络的人像分割处理方法及装置 |
US10304193B1 (en) * | 2018-08-17 | 2019-05-28 | 12 Sigma Technologies | Image segmentation and object detection using fully convolutional neural network |
CN109493350A (zh) * | 2018-11-09 | 2019-03-19 | 重庆中科云丛科技有限公司 | 人像分割方法及装置 |
Non-Patent Citations (2)
Title |
---|
王泽荣: "移动端实时人像分割算法研究", 《现代计算机(专业版)》 * |
金?等: "基于Mobile U-Net的多目标(行人)检测算法", 《工业控制计算机》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112053363B (zh) * | 2020-08-19 | 2023-12-15 | 苏州超云生命智能产业研究院有限公司 | 视网膜血管分割方法、装置及模型构建方法 |
CN112053363A (zh) * | 2020-08-19 | 2020-12-08 | 苏州超云生命智能产业研究院有限公司 | 视网膜血管分割方法、装置及模型构建方法 |
CN112800963A (zh) * | 2021-01-28 | 2021-05-14 | 新华三大数据技术有限公司 | 基于深度神经网络的版面分析方法、模型及电子设备 |
CN112950652A (zh) * | 2021-02-08 | 2021-06-11 | 深圳市优必选科技股份有限公司 | 机器人及其手部图像分割方法和装置 |
CN112950652B (zh) * | 2021-02-08 | 2024-01-19 | 深圳市优必选科技股份有限公司 | 机器人及其手部图像分割方法和装置 |
CN113192089B (zh) * | 2021-04-12 | 2022-07-19 | 温州医科大学附属眼视光医院 | 一种用于图像分割的双向交叉连接的卷积神经网络 |
CN113192089A (zh) * | 2021-04-12 | 2021-07-30 | 温州医科大学附属眼视光医院 | 一种用于图像分割的双向交叉连接的卷积神经网络 |
CN113205519B (zh) * | 2021-04-21 | 2023-07-25 | 西安电子科技大学 | 一种基于多支路特征融合的图像分割方法及系统 |
CN113205519A (zh) * | 2021-04-21 | 2021-08-03 | 西安电子科技大学 | 一种基于多支路特征融合的图像分割方法及系统 |
CN113207004A (zh) * | 2021-04-30 | 2021-08-03 | 华中科技大学 | 基于jpeg-ls帧间扩展的遥感图像压缩算法硬件实现方法 |
CN113207004B (zh) * | 2021-04-30 | 2024-02-02 | 华中科技大学 | 基于jpeg-ls帧间扩展的遥感图像压缩算法硬件实现方法 |
CN113344884A (zh) * | 2021-06-11 | 2021-09-03 | 广州逅艺文化科技有限公司 | 一种视频图形区域检测及压缩方法、装置及介质 |
CN115565148A (zh) * | 2022-11-09 | 2023-01-03 | 福思(杭州)智能科技有限公司 | 道路图像的检测方法、装置、存储介质和电子装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111462133B (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111462133B (zh) | 一种实时视频人像分割的系统、方法、存储介质和设备 | |
CN110120011B (zh) | 一种基于卷积神经网络和混合分辨率的视频超分辨方法 | |
CN111369565A (zh) | 一种基于图卷积网络的数字病理图像的分割与分类方法 | |
CN111028177B (zh) | 一种基于边缘的深度学习图像去运动模糊方法 | |
JP2022548712A (ja) | フィーチャーピラミッドを融合した敵対的生成ネットワークによる画像ヘイズ除去方法 | |
CN110443768B (zh) | 基于多重一致性约束的单帧图像超分辨率重建方法 | |
CN108596841B (zh) | 一种并行实现图像超分辨率及去模糊的方法 | |
CN108198625B (zh) | 一种分析高维医疗数据的深度学习方法和装置 | |
CN112070114B (zh) | 基于高斯约束注意力机制网络的场景文字识别方法及系统 | |
CN110189260B (zh) | 一种基于多尺度并行门控神经网络的图像降噪方法 | |
CN112200732B (zh) | 一种清晰特征融合的视频去模糊方法 | |
CN111524060B (zh) | 一种实时人像背景虚化的系统、方法、存储介质和设备 | |
CN114187191A (zh) | 一种基于高频-低频信息融合的图像去模糊方法 | |
CN112381723A (zh) | 一种轻量高效的单幅图像去烟雾方法 | |
CN117274059A (zh) | 基于图像编码-解码的低分辨率图像重构方法及其系统 | |
CN112819716A (zh) | 基于高斯-拉普拉斯金字塔的无监督学习x光图像增强方法 | |
CN112669234A (zh) | 基于神经网络的高分辨率图像复原方法及系统 | |
CN113516604B (zh) | 图像修复方法 | |
CN111950496B (zh) | 一种蒙面人身份识别方法 | |
Yang et al. | RSAMSR: A deep neural network based on residual self-encoding and attention mechanism for image super-resolution | |
CN111462161B (zh) | 一种实时视频人像提取的系统、方法、存储介质和设备 | |
CN112508121A (zh) | 一种工业机器人感知外界的方法和系统 | |
CN117097853A (zh) | 一种基于深度学习的实时抠像方法及系统 | |
CN116524387A (zh) | 一种基于深度学习网络的超高清视频压缩损伤等级评估方法 | |
CN110853040A (zh) | 一种基于超分辨率重建的图像协同分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |