CN110956097B

CN110956097B - 遮挡人体提取方法及模块、场景转换方法及装置

Info

Publication number: CN110956097B
Application number: CN201911109202.9A
Authority: CN
Inventors: 樊硕
Original assignee: Beijing Moviebook Science And Technology Co ltd
Current assignee: Beijing Moviebook Science And Technology Co ltd
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2023-07-21
Anticipated expiration: 2039-11-13
Also published as: CN110956097A

Abstract

本申请公开了一种遮挡人体提取方法及模块、场景转换方法及装置。所述遮挡人体提取方法及模块使用GAN对输入的具有遮挡人体的待检测图像进行修补；使用MaskR‑CNN模型在修补后的数据集上进行微调训练；使用微调训练后的MaskR‑CNN模型检测待检测图像中的人体，并为检测到的人体对象生成分割掩码表示；对检测到的人体对象进行分离操作，实现遮挡人体的提取。所述场景转换方法及装置包括：对检测到的每一个人体对象赋予单独的编号数组值；将新场景图像大小设置为与待检测图像相同的大小；选取替换到新场景图像中的人体对象；将所述的人体对象均匀布置在所述的新场景图像中。

Description

遮挡人体提取方法及模块、场景转换方法及装置

技术领域

本申请涉及计算机视觉领域，特别是涉及遮挡人体提取方法及模块、场景转换方法及装置。

背景技术

计算机视觉是计算机科学的一个分支领域，旨在构造智能算法和程序来“观察”这个世界。物体检测是计算机视觉的重要研究方向，应用于智能驾驶、自动监控等各个领域，其任务是用框标出图像中物体的位置，并给出物体的类别。物体检测算法通常由三个步骤组成，第一个步骤是检测窗口的选择，第二个步骤是特征的设计，第三个步骤是分类器的设计。在传统检测算法中，第一个步骤最简单的方式是使用暴力遍历的方式寻找检测窗口，但这种方式计算量很大并且效率不高，所以在实际中并不能很好的应用，传统的区域提取的方法例如Selective Search、EdgeBox等，能够在一定程度上减少计算量并提高计算效率；在特征选择上较常用的有Haar特征、HOG特征等；采用的传统分类器有SVM分类器、决策树分类器、随机森林等。后来随着深度学习在计算机视觉领域的快速发展，物体检测领域更多的采用基于深度学习的方式，例如采用活动窗口的方式进行区域提取，采用CNN(Convolutional NeuralNetworks，卷积神经网络)或RNN(Recurrent Neural Networks，循环神经网络)提取物体特征，例如R-CNN和Fast R-CNN，R-CNN是一种可扩展的物体检测算法，Fast R-CNN模型能够提高R-CNN的准确度和速度，将Fast-RCNN与区域推荐网络(RPN，Region Proposal Network)相结合，能够消除选择性搜索算法。

随着互联网的快速发展，图像和视频数量日益增多，单纯的物体检测技术已不能满足人们的多样性需求，场景理解逐渐融入物体检测技术。场景理解是指具体分析场景图像的语义信息，例如在驾驶安全的背景下，视觉系统需要识别附近的人和车辆，预测他们的运动，推断交通模式并检测道路状况。在物体检测和场景理解方向，已有一些相关研究基础，例如使用场景理解来推荐尚未出现在图像中的灵感和可购买的兼容产品，可以应用于服装、室内、室外等领域的整体美学研究，并通过视觉搜索技术有效地预测产品。

基于以上关于物体检测和场景理解相关领域技术的介绍，可以看到两者结合的模型已在某些领域具有研究，但仍不够全面。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种遮挡人体提取方法，包括：

使用GAN对输入的具有遮挡人体的待检测图像进行修补；

使用经过预训练的MaskR-CNN模型在修补后的数据集上进行微调训练；

使用微调训练后的MaskR-CNN模型检测待检测图像中的人体，并为检测到的人体对象生成分割掩码表示；

对检测到的人体对象进行分离操作，实现遮挡人体的提取。

可选地，所述的GAN中生成器的编码器采用10个卷积层的CNN模型，其中设置5个卷积层为下采样操作，5个卷积层为上采样操作。

可选地，所述的GAN中生成器的解码器采用设置上采样的5个卷积层。

可选地，所述的待检测图像属于COCO数据集。

根据本申请的另一个方面，提供了一种遮挡人体提取模块，包括：

修补单元，其配置成使用GAN对输入的具有遮挡人体的检测图像进行修补；

微调训练单元，其配置成使用经过预训练的MaskR-CNN模型在修补后的数据集上进行微调训练；

检测单元，其配置成使用微调训练后的MaskR-CNN模型检测待检测图像中的人体，并为检测到的人体对象生成分割掩码表示；和

分离单元，其配置成将检测到的人体对象进行分离操作，实现遮挡人体的提取。

可选地，所述的待检测图像属于COCO数据集。

根据本申请的另一个方面，提供了一种基于上述遮挡人体提取方法的场景转换方法，包括：

对检测到的每一个人体对象赋予单独的编号数组值；

选取替换的新场景图像，并将所述的新场景图像大小设置为与待检测图像相同的大小；

选取替换到新场景图像中的人体对象；

判断所选取的替换到新场景图像中的人体对象的数量，当所述的数量为1时，将所述的人体对象放置于所述的新场景的中央位置，当所述的数量大于1时，将所述的人体对象均匀布置在所述的新场景图像中。

根据本申请的另一个方面，提供了一种包含上述遮挡人体提取模块的场景转换装置，包括：

遮挡人体提取模块，其配置成对待检测图像进行人体对象的提取；

编号模块，其配置成对检测到的每一个人体对象赋予单独的编号数组值；

新场景选取模块，其配置成选取替换的新场景图像，并将所述的新场景图像大小设置为与待检测图像相同的大小；

人体对象选取模块，其配置成选取替换到新场景图像中的人体对象；和

替换模块，其配置成判断所选取的替换到新场景图像中的人体对象的数量，当所述的数量为1时，将所述的人体对象放置于所述的新场景的中央位置，当所述的数量大于1时，将所述的人体对象均匀布置在所述的新场景图像中。

本申请的面向多图像的遮挡人体提取方法及模块由于对现有的物体检测模型做出了改进，因此很好地提取多图像的人体对象，增强了模型的适用性。基于上述人体提取方法的场景转换方法和包含上述遮挡人体提取模块的场景转换装置，由于将物体检测和场景理解相结合，能够将从不同图像中提取出来的多人体对象放置在一张新的场景图像中，能够针对背景嘈杂混乱的图像进行人体场景转换。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请一个实施例的一种遮挡人体提取方法的示意性流程图；

图2是根据本申请一个实施例的一种遮挡人体提取装置的示意性结构框图；

图3是根据本申请一个实施例的场景转换方法的示意性结构框图；

图4是根据本申请一个实施例的场景转换方法装置的示意性结构框图；

图5是根据本申请一个实施例的一种计算设备的示意性结构框图；

图6是根据本申请一个实施例的另一种计算设备的示意性结构框图；

图7是根据本申请一个实施例的一种计算机可读存储介质的示意性结构框图；

图8是根据本申请一个实施例的另一种计算机可读存储介质的示意性结构框图。

具体实施方式

本实施例提供了一种遮挡人体提取方法，图1是所述的遮挡人体提取方法的示意性流程图。所述的遮挡人体提取方法一般性地可包括：

S1、使用GAN对输入的具有遮挡人体的待检测图像进行修补。

本实施例提供的遮挡人体提取方法用于对包含实例分段标记的各种对象的常场景图像进行人体对象识别，本实施例使用的数据集为COCO数据集，使用该数据集能够改进计算机视觉技术以理解视觉场景并识别出对象，包括对象与场景的语义描述的关系。为了证明本实施例的遮挡人体提取方法具有良好的适应性，可以在步骤S1之前对COCO数据集中的图像人为增加遮挡，例如在图像的随机位置增加黑色遮挡框。

GAN(GenerativeAdversarialNetwork，生成对抗网络)由生成器和鉴别器两个部分组成。生成器由编码器和解码器组成，编码器采用10个卷积层的CNN(ConvolutionalNeuralNetworks，卷积神经网络)模型，设置其中5个卷积层为下采样操作，5个卷积层为上采样操作。解码器采用设置上采样操作的5个卷积层。编码器的输入为存在被遮挡人体的图像，通过编码器提取图像特征，再将其送入解码器进行修补图像的生成操作。鉴别器的作用是对生成器生成的修补图像进行“真”或“假”的判别，生成器和鉴别器通过博弈过程使得生成器能够生成修补效果较好的修补图像，实现遮挡部分的修补。

S2、使用经过预训练的MaskR-CNN模型在修补后的数据集上进行微调训练；

本实施例所述的遮挡人体提取方法采用的物体检测模型为MaskR-CNN，该模型在物体检测方面表现出优异的性能，能够为每个实例生成分割掩码表示。在微调训练前，先对MaskR-CNN模型进行预训练，所述的预训练是指采用大型语料库对MaskR-CNN模型进行参数训练，采用这种预训练的方式能够使MaskR-CNN模型包含更多丰富语义信息并且提高正式训练的模型收敛速度。使用预训练的Mask R-CNN模型参数的权重，将其在修补后的数据集上进行微调训练，使其能够检测图像中的人体并为其生成分割掩码表示。

S3、使用微调训练后的Mask R-CNN模型检测待检测图像中的人体，并为检测到的人体对象生成分割掩码表示；

S4、对检测到的人体对象进行分离操作，实现遮挡人体的提取。

本实施例的遮挡人体提取方法能够实现能够有效处理人体被遮挡的情况，实现多图像的人体提取。

本实施例还提供了一种遮挡人体提取模块1，图2是所述的遮挡人体提取模块1的示意性结构框图。所述的遮挡人体提取模块1一般性地可包括修补单元11、微调训练单元12、检测单元13、和分离单元14：

所述的修补单元11，其配置成使用GAN对输入的具有遮挡人体的检测图像进行修补。

本实施例所述的遮挡人体提取模块1使用的数据集为COCO数据集，它用于对包含实例分段标记的各种对象的日常场景图像进行对象识别，使用该数据集能够改进计算机视觉技术以理解视觉场景并识别出对象，包括对象与场景的语义描述的关系。为了证明本实施例的遮挡人体提取方法具有良好的适应性，可以在步骤S1之前对COCO数据集中的图像人为增加遮挡，例如在图像的随机位置增加黑色遮挡框。

GAN(Generative Adversarial Network，生成对抗网络)由生成器和鉴别器两个部分组成。生成器由编码器和解码器组成，编码器采用10个卷积层的CNN(ConvolutionalNeural Networks，卷积神经网络)模型，设置其中5个卷积层为下采样操作，5个卷积层为上采样操作。解码器采用设置上采样操作的5个卷积层。编码器的输入为存在被遮挡人体的图像，通过编码器提取图像特征，再将其送入解码器进行修补图像的生成操作。鉴别器的作用是对生成器生成的修补图像进行“真”或“假”的判别，生成器和鉴别器通过博弈过程使得生成器能够生成修补效果较好的修补图像，实现遮挡部分的修补。

所述的微调训练单元12配置成使用Mask R-CNN模型在修补后的数据集上进行微调训练。

本实施例所述的微调训练单元12采用的物体检测模型为Mask R-CNN，该模型在物体检测方面表现出优异的性能，能够为每个实例生成分割掩码表示。使用预训练的Mask R-CNN模型参数权重，将其在修补后的数据集上进行微调训练，使其能够检测图像中的人体并为其生成分割掩码表示。

所述的检测单元13配置成使用微调训练后的MaskR-CNN模型检测待检测图像中的人体，并为检测到的人体对象生成分割掩码表示；和

所述的分离单元14配置成将检测到的人体对象进行分离操作，实现遮挡人体的提取。

本实施例的遮挡人体提取模块1能够实现能够有效处理人体被遮挡的情况，实现多图像的人体提取。

本实施例还提供了一种基于上述遮挡人体提取方法的场景转换方法，图3是所述的场景转换方法的示意性流程图。所述的场景转换方法一般性地可包括：

S5、对检测到的每一个人体对象赋予单独的编号数组值；

S6、选取替换的新场景图像，并将所述的新场景图像大小设置为与待检测图像相同的大小；

S7、选取替换到新场景图像中的人体对象；

S8、判断所选取的替换到新场景图像中的人体对象的数量，当所述的数量为1时，将所述的人体对象放置于所述的新场景的中央位置，当所述的数量大于1时，将所述的人体对象均匀布置在所述的新场景图像中。

本实施例还提供了一种包括上述遮挡人体提取模块1的场景转换装置，图4是所述的场景转换装置的示意性结构框图。所述的场景转换装置一般性地可包括：

遮挡人体提取模块1，其配置成对待检测图像进行人体对象的提取；

编号模块2，其配置成对检测到的每一个人体对象赋予单独的编号数组值；

新场景选取模块3，其配置成选取替换的新场景图像，并将所述的新场景图像大小设置为与待检测图像相同的大小；

人体对象选取模块4，其配置成选取替换到新场景图像中的人体对象；和

替换模块5，其配置成判断所选取的替换到新场景图像中的人体对象的数量，当所述的数量为1时，将所述的人体对象放置于所述的新场景的中央位置，当所述的数量大于1时，将所述的人体对象均匀布置在所述的新场景图像中。

本实施例提供的场景转换装置可以通过物体检测模型提取图像中的人体形象并将其转换到新的背景中，并在现有物体检测模型的基础上极性改进和扩展，使其能够提取遮挡的人体形象，并可以实现多图像多人物的人体提取，增强模型的适用性。

本申请实施例还提供了一种计算设备，参照图5，该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序，该计算机程序存储于存储器1120中的用于程序代码的空间1130，该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的遮挡人体提取方法步骤1131。

本申请实施例还提供了另一种计算设备，参照图6，该计算设备包括存储器2120、处理器2110和存储在所述存储器2120内并能由所述处理器2110运行的计算机程序，该计算机程序存储于存储器2120中的用于程序代码的空间2130，该计算机程序在由处理器2110执行时实现用于执行任一项根据本发明的场景转换方法步骤2131。

本申请实施例还提供了一种计算机可读存储介质。参照图7，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的遮挡人体提取方法步骤的程序1131′，该程序被处理器执行。

本申请实施例还提供了另一种计算机可读存储介质。参照图8，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的场景转换方法步骤的程序2131′，该程序被处理器执行。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetictape)，软盘(英文：floppydisk)，光盘(英文：opticaldisc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种遮挡人体提取方法，包括：

使用GAN对输入的具有遮挡人体的待检测图像进行修补；

使用经过预训练的Mask R-CNN模型在修补后的数据集上进行微调训练；

使用微调训练后的Mask R-CNN模型检测待检测图像中的人体，并为检测到的人体对象生成分割掩码表示；

对检测到的人体对象进行分离操作，实现遮挡人体的提取。

2.根据权利要求1所述的方法，其特征在于，所述的GAN中生成器的编码器采用10个卷积层的CNN模型，其中设置5个卷积层为下采样操作，5个卷积层为上采样操作。

3.根据权利要求2所述的方法，其特征在于，所述的GAN中生成器的解码器采用设置上采样的5个卷积层。

4.根据权利要求3所述的方法，其特征在于，所述的待检测图像属于COCO数据集。

5.一种遮挡人体提取模块，包括：

微调训练单元，其配置成使用经过预训练的Mask R-CNN模型在修补后的数据集上进行微调训练；

检测单元，其配置成使用微调训练后的Mask R-CNN模型检测待检测图像中的人体，并为检测到的人体对象生成分割掩码表示；和

6.根据权利要求5所述的模块，其特征在于，所述的GAN中生成器的编码器采用10个卷积层的CNN模型，其中设置5个卷积层为下采样操作，5个卷积层为上采样操作。

7.根据权利要求6所述的模块，其特征在于，所述的GAN中生成器的解码器采用设置上采样的5个卷积层。

8.根据权利要求7所述的模块，其特征在于，所述的待检测图像属于COCO数据集。

9.一种场景转换方法，基于权利要求1至4中任一项所述方法，包括：

对检测到的每一个人体对象赋予单独的编号数组值；

选取替换到新场景图像中的人体对象；

10.一种场景转换装置，包含权利要求5至8中任一项所述模块，还包括：