CN114022496A

CN114022496A - 图像处理方法、系统、装置及存储介质

Info

Publication number: CN114022496A
Application number: CN202111129259.2A
Authority: CN
Inventors: 郝德禄; 肖冠正; 甘心
Original assignee: iMusic Culture and Technology Co Ltd
Current assignee: iMusic Culture and Technology Co Ltd
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2022-02-08
Anticipated expiration: 2041-09-26
Also published as: CN114022496B

Abstract

本发明公开了一种图像处理方法、系统、装置及存储介质，包括：获取图像，并根据所述图像确定对应的语义标签及人像抠图结果；所述图像包括人像和物像；对所述图像中的物像进行检测，并计算所述物像与所述语义标签的相关度；将达到预设相关度的物像进行边缘检测，并根据边缘检测的结果对所述达到预设相关度的物像进行分割；将分割后的所述达到预设相关度的物像加入到人像抠图结果中得到目标图像。本发明实施例能够在人像抠图过程中将与人体行为强相关的物像进行保留，使基于人像抠图的语义更完整，可广泛应用于图像处理技术领域。

Description

图像处理方法、系统、装置及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种图像处理方法、系统、装置及存储介质。

背景技术

人像抠图技术的核心是识别图像中的人体轮廓，并将人体轮廓与背景进行分离，广泛应用于人像抠图美化、照片或视频背景替换、证件照制作或隐私保护等场景。目前的人像抠图功能，主要是将图像或视频中的人体进行单独抠图，进而与其他的背景图像或视频进行叠加，生成新的图像或视频。但是上述抠图功能的应用中，有一类需求无法得到满足，即在原始图像或视频中存在于抠图的目标人体的行为动作具备强相关性的物体，如运动员手中的球拍、厨师手中的炒锅等，这些物体在抠图后的结果图像中无法得到保留，当抠图结果图像叠加到新的背景图像或视频中时，原图像或视频中人体行为由于缺乏相应的相关性物体的配合，使得整个人体行为的语义完整性被破坏，叠加后的图像或视频也无法完整呈现人体行为所携带的语义信息，造成了信息缺失，影响了人像抠图功能在这一类需求场景中的应用。

发明内容

有鉴于此，本发明实施例的目的是提供一种图像处理方法、系统、装置及存储介质，能够在人像抠图过程中将与人体行为强相关的物像进行保留，使基于人像抠图的语义更完整。

第一方面，本发明实施例提供了一种图像处理方法，包括以下步骤：

获取图像，并根据所述图像确定对应的语义标签及人像抠图结果；所述图像包括人像和物像；

对所述图像中的物像进行检测，并计算所述物像与所述语义标签的相关度；

将达到预设相关度的物像进行边缘检测，并根据边缘检测的结果对所述达到预设相关度的物像进行分割；

将分割后的所述达到预设相关度的物像加入到人像抠图结果中得到目标图像。

可选地，所述根据所述图像确定对应的语义标签，具体包括：

将所述图像输入到图像生成编码器获得所述图像的特征向量；

将所述图像的特征向量输入到语义分离器获得所述图像的语义标签。

可选地，所述对所述图像中的物像进行检测，具体包括：

对所述图像中的物像进行检测，获取所述物像的名称及物象框位置。

可选地，所述物象框位置通过将所述图像输入到目标检测网络获得，所述目标检测网络包括骨架网络、颈部网络和头部网络，具体包括：

将所述图像输入到所述骨架网络提取特征；

将所述特征输入到所述颈部网络得到不同尺度的特征图集合；

将所述不同尺度的特征图集合输入到所述头部网络生成预测框，并根据所述预测框的置信度确定所述物象框位置。

可选地，所述计算所述物像与所述语义标签的相关度，具体包括：

将所述物像的名称输入到词向量网络获得第一词向量；

将所述语义标签输入到词向量网络获得第二词向量；

将所述第一词向量及所述第二词向量输入到相关度分类器获得所述物像与所述语义标签的相关度。

可选地，所述将达到预设相关度的物像进行边缘检测，具体包括：

根据达到预设相关度的物像的物象框位置获取局部图像；

将所述局部图像输入到图像生成编码器获得局部图像的特征向量；

将所述局部图像的特征向量输入到边缘检测分类器获得所述局部图像的每个像素点属于达到预设相关度的物象的概率。

可选地，所述根据边缘检测的结果对所述达到预设相关度的物像进行分割，具体包括：

将所述局部图像的每个像素点属于达到预设相关度的物象的概率转换成对应的像素点透明度值；其中，每个像素点属于达到预设相关度的物象的概率越高，对应的像素点透明度值越低。

根据所述像素点透明度值分割得到达到预设相关度的物像。

第二方面，本发明实施例提供了一种图像处理系统，包括：

第一模块，用于获取图像，并根据所述图像确定对应的语义标签及人像抠图结果；所述图像包括人像和物像；

第二模块，用于对所述图像中的物像进行检测，并计算所述物像与所述语义标签的相关度；

第三模块，用于将达到预设相关度的物像进行边缘检测，并根据边缘检测的结果对所述达到预设相关度的物像进行分割；

第四模块，用于将分割后的所述达到预设相关度的物像加入到人像抠图结果中得到目标图像。

第三方面，本发明实施例提供了一种图像处理装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如上述的图像处理方法。

第四方面，本发明实施例提供了一种存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行如上所述的图像处理方法。

实施本发明实施例包括以下有益效果：本发明实施例首先通过图像确定对应的语义标签，然后对图像中的物象进行检测并计算物象与语义标签的相关度；然后对达到预设相关度的物象进行分割，并将分割后的物像加入到人像抠图结果中得到目标图像；即通过计算物像与语义标签的相关度确定是否对物像进行分割并加入到人像抠图结果中，从而实现在人像抠图过程中将与人体行为强相关的物像进行保留，使基于人像抠图的语义更完整。

附图说明

图1是本发明实施例提供的一种图像处理方法的步骤流程示意图；

图2是本发明实施例提供的一种根据图像确定对应的语义标签的步骤流程示意图；

图3是本发明实施例提供的一种根据图像的特征向量得到语义标签的步骤流程示意图；

图4是本发明实施例提供的一种根据图像获取物像框位置的步骤流程示意图；

图5是本发明实施例提供的一种计算物像与语义标签的相关度的步骤流程示意图；

图6是本发明实施例提供的一种对达到预设相关度的物像进行边缘检测的步骤流程示意图；

图7是本发明实施例提供的一种根据边缘检测的结果对达到预设相关度的物像进行分割的步骤流程示意图；

图8是本发明实施例提供的一种图像处理系统的结构框图；

图9是本发明实施例提供的一种图像处理装置的结构框图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

如图1所示，本发明实施例提供了一种图像处理方法，其包括的步骤如下所示，具体包括步骤S100至步骤S400。

S100、获取图像，并根据所述图像确定对应的语义标签及人像抠图结果；所述图像包括人像和物像。

本领域技术人员可以理解的是，当处理的对象为视频文件时，将视频文件切分成若干帧图像，然后再对若干帧图像分别进行处理，最后对处理后的若干帧图像合成视频文件。

需要说明的是，根据图像获取人像抠图结果采用现有技术；其中，图像一般包括人像和物像，物像可能与人像具有较强的相关性，物像也可能与人像具有较弱的相关性，甚至没有相关性。

可选地，所述根据所述图像确定对应的语义标签，参阅图2，具体包括步骤S110至步骤S120：

S110、将所述图像输入到图像生成编码器获得所述图像的特征向量。

具体地，图像生成编码器是基于CNN(Convolutional Neural Networks，卷积神经网络)。基于CNN的图像生成编码器负责将一张图片的每个像素点，通过计算映射到某一个高维分布上。图像生成编码器包括骨架网络和特征编码模块。具体流程如下：首先将图像输入到骨架网络进行特征提取，通过骨架网络提取到形状如(C，H，W)的特征图，其中，C为通道数，H为特征图的高，W为特征图的宽；然后特征编码模块将骨架网络提取到的特征经过多尺度并行卷积，并对结果进行通道维度的加和，从而进行高维度编码以方便后续下游任务更高效的使用提取到的特征。为了针对不同大小的目标都能高效的提取特征以及进行特征编码，设置了不同大小卷积核如：7×7，5×5，3×3的多尺度卷积模块，特征编码模块的输入是骨架网络提取到的特征图，通过并行卷积层的结构将特征送入不同大小卷积核的卷积层，为得到大小统一的特征图，根据卷积核的大小对输入的特征图边缘进行补零。最后对不同卷积核卷积的结果进行通道维度的相加，如：多尺度并行卷积中某层的输出为(C₁，H，W)，另一层的输出为(C₂，H，W)，通道加和的结果即为(C₁+C₂，H，W)。对加和的结果进行多次标准卷积，得到最终的编码结果(编码矩阵)：对相加的结果进行多次连续的标准卷积得到最终的编码结果得到最后形如(C₃，H1，W₁)编码矩阵。标准卷积的具体次数，C₃、H₁及W₁的具体数值可以根据编码模块的规模进行设定。

其中，可以利用残差结构、金字塔池化、注意力机制等构建高效的特征编码模块，特征编码模块的骨架网络可以使用经典神经网络的骨架网络，包括但不限于使用VGGNet、ResNet、DenseNet、transformer等，采用这些经典的骨架网络时，可以直接利用在大规模数据集上训练好的参数来初始化模型，加快网络在小规模数据集上的收敛速度。

S120、将所述图像的特征向量输入到语义分离器获得所述图像的语义标签。

需要说明的是，语义分离器是基于LSTM(Long Short-Term Memory，长短期记忆)，语义标签包括烹饪或打篮球等。

具体地，语义分离器包括语义编码模块、注意力神经网络及分类器模块，参阅图3，过程具体如下：

S121、将图像生成编码器生成图像的特征向量，即每一帧图像的编码矩阵输入到语义编码模块，语义编码模块输出该帧图像的视频语义编码矩阵；

S122、将每一帧的语义编码矩阵输入注意力神经网络，注意力神经网络输出每一帧语义编码矩阵的注意力权重向量，向量的每一个元素代表该帧的语义编码矩阵的权重；将每一帧的语义编码矩阵根据注意力权重进行加权求和，得到图像加权后的语义编码矩阵；

S123、将图像的语义编码矩阵，输入分类器模块获取每个语义分类标签的概率，并将概率最高的分类标签作为图像中人体行为的语义分类标签；其中分类器模块包括一个全连接网络层及一个softmax分类层。

S200、对所述图像中的物像进行检测，并计算所述物像与所述语义标签的相关度。

具体地，首先对图像中的所有物象进行检测，并分别计算检测到的物象与语义标签的相关度。

可选地，所述对所述图像中的物像进行检测，具体包括：

S210、对所述图像中的物像进行检测，获取所述物像的名称及物象框位置。

可选地，所述物象框位置通过将所述图像输入到目标检测网络获得，所述目标检测网络包括骨架网络、颈部网络和头部网络，参阅图4，具体包括步骤S211至步骤S213：

S211、将所述图像输入到所述骨架网络提取特征；

S212、将所述特征输入到所述颈部网络得到不同尺度的特征图集合；

S213、将所述不同尺度的特征图集合输入到所述头部网络生成预测框，并根据所述预测框的置信度确定所述物象框位置。

具体地，目标检测网络是基于YOLO网络，目标检测网络包括骨架网络、颈部网络和头部网络；其中，骨架网络是卷积神经网络，用于在不同图像细粒度上聚合并形成图像特征；颈部网络是一系列混合和组合图像特征的网络层，用于将图像特征传递到预测层；头部网络用于对图像特征进行预测，并生成边界框和预测类别名称。骨架网络可以使用经典神经网络的骨架网络，包括但不限于使用VGGNet、ResNet、DenseNet、transformer等，采用这些经典的骨架网络时，可以直接利用在大规模数据集上训练好的参数来初始化模型，加快网络在小规模数据集上的收敛速度。通过骨架网络提取到形状如(C，H，W)的特征图。颈部网络将骨架网络提取到的特征图进行通过卷积池化等操作，变成三个尺度的特征图集合如(C₁，H₁，W₁)、(C₂，H₂，W₂)或(C₃，H₃，W₃)，其中当原始输入的大小为(608，608)时，特征图的大小一般设置为76*76、38*38及19*19。头部网络分别对每张特征图上生成不同尺度的预测框，再通过判断预测框的置信度，得到置信度最高的预测框，最后将在不同尺度特征图得到的预测框，归一化并输出到原始图像上。

检测步骤如下：将图像输入骨架网络提取特征；颈部网络将提取到的特征变为不同尺度的特征图集合；头部网络对不同尺度的特征图生成预测框，并判断预测框的置信度，并给出预测的目标类别；对置信度高的预测框进行聚类去重，将最终结果输出。

可选地，所述计算所述物像与所述语义标签的相关度，参阅图5，具体包括步骤S221至步骤S223：

S221、将所述物像的名称输入到词向量网络获得第一词向量；

S222、将所述语义标签输入到词向量网络获得第二词向量；

S223、将所述第一词向量及所述第二词向量输入到相关度分类器获得所述物像与所述语义标签的相关度。

本领域技术人员可以理解的是，词向量网络为一个词的索引和一个词向量矩阵，矩阵的每一行为一个词的词向量；首先输入物体名称词，获得该词的索引；然后根据该索引，获取词向量矩阵指定行的向量，即为该物体名称词的词向量。

具体地，相关度分类器为一个全连接层和一个softmax层组成的神经网络；首先将第一词向量和第二词向量进行拼接得到拼接向量，然后将拼接向量输入到相关度分类器得到相关度概率，将相关度概率作为物象和语义标签的相关度。

S300、将达到预设相关度的物像进行边缘检测，并根据边缘检测的结果对所述达到预设相关度的物像进行分割。

具体地，预设相关度可以设置一个具体数值；或者对图像中每个物体进行相关度计算，并按照相关度从高到低对所有物像进行排序，排序前N个物体即为图像中与人体行为语义最相关的物体，其中N为指定的相关物体数量。

可选地，所述将达到预设相关度的物像进行边缘检测，参阅图6，具体包括步骤S311至步骤S313：

S311、根据达到预设相关度的物像的物象框位置获取局部图像；

S312、将所述局部图像输入到图像生成编码器获得局部图像的特征向量；

S313、将所述局部图像的特征向量输入到边缘检测分类器获得所述局部图像的每个像素点属于达到预设相关度的物象的概率。

本领域技术人员可以理解的是，局部图像可以理解为包括达到预设相关度的物像的范围内图像。

具体地，边缘检测分类器包括解码网络和softmax分类网络，首先将局部图像的特征向量输入到解码网络得到解码向量，然后将解码向量输入到softmax分类网络得到局部图像中每个像素的属于达到预设相关度的物象的分类概率。

可选地，所述根据边缘检测的结果对所述达到预设相关度的物像进行分割，参阅图7，具体包括步骤S321至步骤S322：

S321、将所述局部图像的每个像素点属于达到预设相关度的物象的概率转换成对应的像素点透明度值；其中，每个像素点属于达到预设相关度的物象的概率越高，对应的像素点透明度值越低。

S322、根据所述像素点透明度值分割得到达到预设相关度的物像。

具体地，例如局部图像的某个像素点属于达到预设相关度的物象的概率为100％，则该像素点的透明度值为0；又例如局部图像的某个像素点属于达到预设相关度的物象的概率为0，则该像素点的透明度值为100％。通过设置局部图像的每个像素点的透明度值的大小，将图像中达到预设相关度的物像与背景图像进行分割，从而得到达到预设相关度的物像。

S400、将分割后的所述达到预设相关度的物像加入到人像抠图结果中得到目标图像。

需要说明的是，如果图像中没有达到预设相关度的物像，则直接对图像中的人像直接抠图即可，无需进行物像的分割。

下面以一个具体实施例说明图像的处理方法。

处理的对象是视频文件，视频中的人在烹饪，具体的处理过程如下：

步骤一、首先将视频文件切分成若干帧图像；然后将若干帧图像的每一帧图像进行人像抠图，并确定图像的语义标签为烹饪。

步骤二、对每一帧图像中的物像进行检测，如检测到砂锅、燃气灶、冰箱及水槽等，计算砂锅、燃气灶、冰箱及水槽等与烹饪的相关度，获得相关度最高的是砂锅和燃气灶。

步骤三、对砂锅和燃气灶的局部图像进行边缘检测，获得砂锅和燃气灶的精确边缘范围，并根据砂锅和燃气灶的精确边缘范围从图像中将砂锅和燃气灶分割出来。

步骤四、将每一帧分割出来的砂锅和燃气灶加入到对应的人像抠图结果中得到系列的目标图像，然后将系列的目标图像合成为视频文件。

如图8所示，本发明实施例提供了一种图像处理系统，包括：

可见，上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

如图9所示，本发明实施例提供了一种图像处理装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

可见，上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

此外，本申请实施例还公开了一种计算机程序产品或计算机程序，计算机程序产品或计算机程序存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行上述的图像处理的方法。同样地，上述方法实施例中的内容均适用于本存储介质实施例中，本存储介质实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种图像处理方法，其特征在于，包括：

对所述图像中的所述物像进行检测，并计算所述物像与所述语义标签的相关度；

2.根据权利要求1所述的图像处理方法，其特征在于，所述根据所述图像确定对应的语义标签，具体包括：

3.根据权利要求1所述的图像处理方法，其特征在于，所述对所述图像中的物像进行检测，具体包括：

4.根据权利要求3所述的图像处理方法，其特征在于，所述物象框位置通过将所述图像输入到目标检测网络获得，所述目标检测网络包括骨架网络、颈部网络和头部网络，具体包括：

将所述图像输入到所述骨架网络提取特征；

5.根据权利要求3所述的图像处理方法，其特征在于，所述计算所述物像与所述语义标签的相关度，具体包括：

将所述物像的名称输入到词向量网络获得第一词向量；

将所述语义标签输入到词向量网络获得第二词向量；

6.根据权利要求3所述的图像处理方法，其特征在于，所述将达到预设相关度的物像进行边缘检测，具体包括：

根据达到预设相关度的物像的物象框位置获取局部图像；

7.根据权利要求6所述的图像处理方法，其特征在于，所述根据边缘检测的结果对所述达到预设相关度的物像进行分割，具体包括：

将所述局部图像的每个像素点属于达到预设相关度的物象的概率转换成对应的像素点透明度值；其中，每个像素点属于达到预设相关度的物象的概率越高，对应的像素点透明度值越低；

根据所述像素点透明度值分割得到达到预设相关度的物像。

8.一种图像处理系统，其特征在于，包括：

9.一种图像处理装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-7任一项所述的图像处理方法。

10.一种存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-7任一项所述的图像处理方法。