CN115810103A

CN115810103A - 一种前景图像的提取方法、装置、设备及介质

Info

Publication number: CN115810103A
Application number: CN202210914725.6A
Authority: CN
Inventors: 李煜; 李文成; 朱锦程; 王军鹏; 钱翔; 卢隆; 李永
Original assignee: Tianyi Cloud Technology Co Ltd
Current assignee: Tianyi Cloud Technology Co Ltd
Priority date: 2022-08-01
Filing date: 2022-08-01
Publication date: 2023-03-17

Abstract

本申请实施例提供了一种前景图像的提取方法、装置、设备及介质，用于解决现有技术中提取到的前景图像的准确性差的问题。由于在本申请实施例中，获取待提取前景图像的第一图像，将第一图像输入到语义分割模型中，基于语义分割模型，可以在第一图像中分割得到前景图像，由于语义分割模型考虑了图像中的语义信息，因此可以在图像中提取出与背景相似的前景，从而提高前景图像提取的准确性。

Description

一种前景图像的提取方法、装置、设备及介质

技术领域

本发明涉及图像分割技术领域，尤其涉及一种前景图像的提取方法、装置、设备及介质。

背景技术

大数据时代，监控摄像头遍布人们公共生活的各个角落，如何有效利用这些摄像头数据进行分析是目前工业界的一个非常重要的问题。前景提取作为计算机视觉领域的一个传统问题，在视频监控，交通运动分析，视频浓缩等重要领域都有着广泛的应用，越来越多不同种类的应用也对前景提取算法的效率和精度提出了各种不同的挑战。

传统基于图像处理的前景提取方法通常使用基于像素值的机器学习模型对背景图像建模，然后计算输入图像与建模背景图像之差作为图像中的运动成分，并对此运动成分进行二值化得到前景掩膜，这种基于像素值的模型无法分离与背景相似的运动物体，导致提取到的前景图像的准确性差。

发明内容

本发明实施例提供一种前景图像的提取方法、装置、设备及介质，用以解决提取到的前景图像的准确性差的问题。

第一方面，本申请实施例提供了一种前景图像的提取方法，所述方法包括：

获取待提取前景图像的第一图像；

将所述第一图像作为输入图像输入到语义分割模型中；

基于所述语义分割模型，输出所述第一图像中的前景图像的分割结果。

第二方面，本申请实施例还提供了一种前景图像的提取装置，所述装置包括：

获取单元，用于获取待提取前景图像的第一图像；

输入单元，用于将所述第一图像输入到语义分割模型中；

输出单元，用于基于所述语义分割模型，输出所述第一图像中的前景图像的分割结果。

第三方面，本申请实施例还提供了一种电子设备，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如上述任一项所述前景图像的提取方法的步骤。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述前景图像的提取方法的步骤。

在本申请中，获取待提取前景图像的第一图像，将第一图像输入到语义分割模型中，基于语义分割模型，可以在第一图像中分割得到前景图像，由于语义分割模型考虑了图像中的语义信息，因此可以在图像中提取出与背景相似的前景，从而提高前景图像提取的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请的一些实施例提供的一种前景图像的提取过程示意图；

图2为本申请的一些实施例提供的一种前景图像的提取方法流程示意图；

图3为本申请的一些实施例提供的一种前景图像的提取装置结构示意图；

图4为本申请的一些实施例提供的一种电子设备结构示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

本申请实施例提供了一种前景图像的提取方法、装置、设备及介质，该方法中获取待提取前景图像的第一图像，将第一图像输入到语义分割模型中，基于所述语义分割模型，可以在第一图像中分割得到前景图像，由于语义分割模型考虑了图像中的语义信息，因此可以在图像中提取出与背景相似的前景，从而提高前景图像提取的准确性。

为了提高前景图像提取的准确性，本申请提供了一种前景图像的提取方法、装置、设备及介质。

实施例1：

图1为本申请的一些实施例提供的一种前景图像的提取过程示意图，该过程包括：

S101：获取待提取前景图像的第一图像。

本申请实施例提供的前景图像的提取方法应用于电子设备，该电子设备可以是PC(personal computer，个人电脑)、服务器、图像采集设备等。

其中，待提取前景图像的第一图像可以是实时采集到的图像，也就是说可以在实时采集到的图像中提取前景图像，即第一图像可以是当前帧图像。如果电子设备非图像采集设备，则该S101中，电子设备可以从图像采集设备中获取实时采集到的第一图像。

或者，待提取前景图像的第一图像可以是历史采集到的图像，也就是说可以在历史采集到的图像中提取前景图像。示例的，电子设备中可以保存有历史采集到的图像。

S102：将第一图像作为输入图像输入到语义分割模型中。

在该步骤中，语义分割模型的输入图像包括第一图像。

示例的，输入图像可以是第一图像。

又一示例的，输入图像可以包括第一图像和多个时间尺度的第二图像。例如，输入图像可以是第一图像和多个时间尺度的第二图像的拼接图像。

又一示例的，输入图像可以包括第一图像和对该第一图像进行预处理后得到的预处理图像。例如输入可以包括第一图像和预处理图像的拼接图像。可选的，预处理可以是实例分割处理，预处理图像为实例分割图像。

又一示例的，输入图像可以包括第一图像、多个时间尺度的第二图像和预处理图像。

语义分割模型可以是预先训练完成的模型，语义分割模型通常是将图像分割成具有一定语义含义的区域块，并识别出每个区域块的语义类别，从而得到语义标注的分割图像，因此在本申请实施例中将语义分割模型用于提取前景图像，可以关注到输入图像中的语义信息，从而分离与背景相似的前景，并且不局限于物体类别，对于特定类别的物体，以及不特定类别的物体(如高速公路抛洒物，高空抛物等物体)也能够分离出。可见，本申请实施例适用多样的场景，例如适用静态前景的提取场景、也适用动态前景的提取场景，又如适用特定类别前景的提取场景、也适用不特定类别前景的提取场景。

S103：基于语义分割模型，输出第一图像中的前景图像的分割结果。

该步骤输出的分割结果，即针对第一图像中的语义信息，在第一图像中分割得到的前景图像。

其中分割结果可以包括前景图像、或者可以在第一图像中对前景图像进行标记后得到的图像，在此对标记方式不做限制。

在本申请实施例中，获取待提取前景图像的第一图像，将所述第一图像输入到语义分割模型中，基于语义分割模型，可以在第一图像中分割得到前景图像，由于语义分割模型考虑了图像中的语义信息，因此可以在图像中提取出与背景相似的前景，从而提高了前景图像提取的准确性。

实施例2：

为了提高前景图像提取的准确性，在上述实施例的基础上，在本申请实施例中，所述方法还包括：

针对多个时间尺度，从视频流中提取该时间尺度的至少一帧图像，确定至少一帧图像的像素值统计结果，以及根据像素值统计结果，确定该时间尺度的第二图像；

将第一图像作为输入图像输入到语义分割模型中，包括：

将第一图像和所述多个时间尺度的第二图像的拼接图像作为输入图像输入到语义分割模型中。

时间尺度可以是以当前帧图像为基准，位于当前帧图像之前，且与当前帧图像间隔一定的时长，例如时间尺度可以是当前帧图像的前几秒，也可以是当前帧图像的前几分钟，或者是当前帧图像的前几小时等，在此不做限制。

采集视频流时的帧速率是一定的，因此可以根据帧速率对应的时间尺度可以在视频流中获取对应的图像。例如帧速率可以是但不限于每秒25帧，也可以是每秒30帧。当然，也可以根据用户的实际需求确定时间尺度，以及在视频流中时间尺寸对应的图像。

其中在视频流中提取时间尺度的至少一帧图像时，可以是在视频流中针对该时间尺度提取时间上连续的多帧图像，或者提取时间不连续(如设定间隔提取，或者随机提取)的多帧图像，或者是提取一帧图像。

至少一帧图像的像素值统计结果可以包括但不限于像素值均值、像素值中值，或者是像素值众值等。

根据像素值统计结果，确定时间尺度的第二图像时，可以在视频流中提取与该像素值统计结果匹配的图像作为第二图像；或者可以根据像素值统计结果生成新图像作为第二图像，如根据像素值统计结果中每一个像素位置的统计值，作为新图像中相应像素位置的像素值。

确定拼接图像时，可以是将第一图像和多个时间尺度的第二图像在图像通道维度上进行拼接，还可以将第一图像和多个时间尺度的第二图像在时间维度上拼接。

以一个具体的例子说明，图像采集设备实时读取视频流帧数据，将采集到的历史帧数据以及当前帧图像数据保存在内存buffer(缓冲器)中，图像采集设备利用保存在内存buffer中的历史数据计算当前帧之前2秒视频的逐像素均值，并确定了一张2秒种时间尺度的第二图像，再利用保存在内存buffer中的历史数据计算当前帧图像之前2分钟的逐像素均值，并确定了一张2分钟时间尺度的第二图像。而后将当前帧图像、2秒钟时间尺度的第二图像和2分钟时间尺度的第二图像在图像通道维度上进行拼接。这里将多个时间尺度确定的第二图像作为视频流数据的历史信息，供当前帧图像即第一图像作为参考。

在本申请实施例中，针对多个时间尺度，提取每个时间尺度的至少一帧图像，确定像素值统计结果，继而根据像素值统计结果确定对应时间尺度的第二图像，将第一图像与多个时间尺度的第二图像的拼接图像作为语义分割模型的输入，语义分割模型的输入图像中包含的语义信息更丰富，有利于提高前景图像提取的准确性。

实施例3：

为了降低前景图像提取的复杂性，以及提高前景图像提取的准确性，在上述各实施例的基础上，在本申请实施例中，方法还包括：

将第一图像输入到实例分割模型中；

基于实例分割模型，输出第一图像的实例分割图像；

所述将第一图像作为输入图像输入到语义分割模型中，包括：

将第一图像和实例分割图像的拼接图像作为输入图像输入到语义分割模型中。

实例分割模型可以是预先训练完成的模型，实例分割模型通常是从图像中用目标检测的方法框出不同的实例，然后用语义分割的方法在不同的实例区域内进行逐像素标记，得到图像的实例分割图像。

确定拼接图像时，可以是将第一图像和实例分割图像在图像通道维度上进行拼接，还可以将第一图像和实例分割图像在时间维度上拼接，可以是将第一图像、多个时间尺度的第二图像和实例分割图像在图像通道维度上进行拼接，还可以将第一图像、多个时间尺度的第二图像和实例分割图像在时间维度上拼接。

以一个具体的例子说明，图像采集设备可以是将当前帧图像以及上述2秒钟时间尺度的第二图像、2分钟时间尺度的第二图像和实例分割图像在图像通道维度上进行拼接，得到拼接图像，将上述拼接图像输入到语义分割模型中。

可选的，语义分割模型和实例分割模型保存在电子设备中。

在本申请实施例中，实例分割模型通过第一图像进行预处理，在第一图像中预先分割出实例分割图像，将语义信息显著化，可以在一定程度上降低前景提取结果的复杂性，也有利于提高前景提取结果的准确性。

实施例4：

为了提高前景提取结果的准确性，在上述各实施例的基础上，在本申请实施例中，基于所述语义分割模型，输出第一图像中的前景图像的分割结果，包括：

基于语义分割模型，对输入图像进行特征编码，得到输入图像的图像特征；

基于语义分割模型，对图像特征进行特征解码，得到特征图像；

基于语义分割模型，对特征图像进行二值化处理，确定第一图像中的前景图像的分割结果。

语义分割模型可以实现特征编码，例如语义分割模型中可以包括特征编码单元，特征编码单元可以对输入图像进行特征编码得到图像特征。示例的，电子设备将输入图像输入到特征编码单元，经过多个卷积层和多个池化层可以得到图像特征为小尺寸的编码后数据。

语义分割模型可以实现特征解码，例如语义分割模型中可以包括特征解码单元，特征解码单元可以对图像解码进行解码得到特征图像。示例的，电子设备将图像特征输入到特征解码单元，经过多个卷积层和上采样层，进一步提取特征，增大图像尺寸，输出与原始输入图像尺寸相同的输出图像。

电子设备对特征图像进行二值化处理，可以突出特征图像中需要关注的特征(前景的特征)，忽略不需要关注的部分(背景的特征)，减少不需要关注的部分带来的噪声。具体而言，电子设备可以根据保存的阈值，对特征图像进行二值化处理，其中阈值可以通过手动设置得到，或使用设定算法如：最大类间方差法等得到。可选的，该二值化处理过程针对逐个像素进行。

在本申请实施例中，对特征图像进行了二值化处理，则通常输出的特征图像的通道维度为1，且经过二分类逻辑回归，其每个像素值大小均在0-1之间，如果输出的特征图像的通道数不为1，则可另外增加一个1x1的卷积层(仅为示例)，令其输出特征的通道数为1。

下面一个具体的例子进行说明，参见图2，电子设备获取第一图像，以及电子设备视频流中提取每个时间尺度的至少一帧图像，确定至少一帧图像的均值，并确定每个时间尺度的第二图像(即第一尺度均值图像，…，第N尺度均值图像)，电子设备还基于第一图像，获取到第一图像的实例分割图像。电子设备将第一图像、第一尺度均值图像，…，第N尺度均值图像和实例分割图像的拼接图像输入到语义分割模型的特征编码单元，得到图像特征，将图像特征输入到语义分割模型的特征解码单元，得到特征图像。然后电子设备对特征图像进行二值化，得到图像二值化结果，即为第一图像中的前景图像的分割结果。

在本申请实施例中，电子设备将输入图像输入到语义分割模型中，进行特征编码，得到该输入图像的图像特征，然后对图像特征进行特征解码，得到特征图像，而后对上述特征图像进行二值化，得到当前帧图像的前景图像和背景图像，实现第一图像中前景图像的分割，有效利用了图像中的语义信息，提高对与背景相似的物体的提取效果，因此可以提高前景图像提取的准确性。

实施例5：

为了提高前景提取结果的准确性，在上述各实施例的基础上，在本申请实施例中，基于所述语义分割模型，对第一图像进行特征编码，得到第一图像的图像特征，包括：

基于语义分割模型中特征编码单元的第一神经网络层和第二神经网络层，对第一图像进行特征编码，得到第一图像的图像特征。

特征编码单元包括但不限于第一神经网络层和第二神经网络层，基于第一神经网络层和第二神经网络层可以实现图像的特征编码。

示例的，第一神经网络层包括但不限于(一个或多个)卷积层，第二神经网络层包括但不限于(一个或多个)池化层。

特征编码单元一般采用图像金字塔结构，输入图像经过第一神经网络层和第二神经网络层，第一神经网络层包括多个卷积层，每经过第一神经网络层，其特征图像的通道维数都会增加；第二神经网络层包括多个池化层，每经过第二神经网络层，其特征图像的宽高降低，即减小上述特征图像的尺寸，输出的图像特征为小尺寸的编码后的数据。多个卷积层和多个池化层可以充分提取图像中的语义信息，提高对与背景相似的物体的提取效果。

具体的，在本申请实施例中，特征编码单元结构包括：VGGNet(深度学习网络)、ResNet(深度残差网络)网络等全卷积的backbone(主干网络)结构。

在本申请实施例中，电子设备将输入图像输入到特征编码单元中，经过了卷积层和池化层，可以充分提取图像中的语义信息，提高对与背景相似的物体的提取效果，从而提高前景图像提取的准确性。

实施例6：

为了提高前景提取结果的准确性，在上述各实施例的基础上，在本申请实施例中，基于语义分割模型，对图像特征进行特征解码，得到特征图像，包括：

基于语义分割模型中特征解码单元的第三神经网络层和第四神经网络层，对图像特征进行特征解码，得到特征图像。

特征解码单元包括但不限于第三神经网络层和第四神经网络层，基于第三神经网络层和第四神经网络层可以实现特征解码。

示例的，第三神经网络层包括但不限于(一个或多个)卷积层，第四神经网络层包括但不限于(一个或多个)上采样层和/或(一个或多个)反卷积层。

例如，特征解码单元使用卷积层和上采样层作为网络结构，输入的图像特征经过多个卷积层来进一步提取特征；输入的图像特征经过多个上采样层来增大图像尺寸，最终得到与原始输入图像即第一图像或拼接图像尺寸相同的输出的特征图像。

又如特征解码单元使用卷积层和反卷积层作为网络结构，输入的图像特征经过多个卷积层来进一步提取特征；输入的特征图像经过多个反卷积层，图像尺度增大，特征图像的维度增加，最终得到与原始输入图像即第一图像或拼接图像尺寸相同的输出的特征图像。

在本申请实施例中，电子设备将图像特征输入到特征解码单元中，经过了卷积层和上采样层/反卷积层，可以充分提取图像中的语义信息，提高对与背景相似的物体的提取效果，从而提高前景图像提取的准确性。

实施例7：

为了提高前景图像提取的复杂性，在上述各实施例的基础上，在本申请实施例中，第三神经网络层的输入包括第四神经网络层的输出结果，和/或特征图像。

在第三神经网络层的卷积层中除了可以使用第四神经网络层的上采样层后的结果作为输入，还可以使用特征编码单元中与该第三神经网络层尺寸相对应的特征图像作为输入，省去了中间再次经过几个卷积层、池化层和上采样层的步骤，可以降低了前景图像提取的复杂性，且经过卷积层进一步提取特征，经过上采样层增大图像尺度，得到的输出图像与原始输入图像尺度相同。

实施例8：

基于相同的技术构思，在上述各实施例的基础上，本申请提供了一种前景图像的提取装置，图3为本申请的一些实施例提供的一种前景图像的提取装置结构示意图，如图3所示，该装置包括：

获取模块301，用于获取待提取前景图像的第一图像；

输入模块302，用于将第一图像作为输入图像输入到语义分割模型中；

输出模块303，用于基于语义分割模型，输出第一图像中的前景图像的分割结果。

在一种可能的实施方式中，所述装置还包括：

确定模块304，用于针对多个时间尺度，从视频流中提取时间尺度的至少一帧图像，确定至少一帧图像的像素值统计结果，以及根据像素值统计结果，确定时间尺度的第二图像。

输入模块302，具体用于将第一图像和多个时间尺度的第二图像的拼接图像作为输入图像输入到语义分割模型中。

在一种可能的实施方式中，确定模块304，用于将第一图像输入到实例分割模型中，基于实例分割模型，输出第一图像的实例分割图像。

输入模块302，具体用于将第一图像和实例分割图像的拼接图像作为输入图像输入到语义分割模型中。

在一种可能的实施方式中，输出模块303，具体用于基于语义分割模型，对输入图像进行特征编码，得到输入图像的图像特征；基于语义分割模型，对图像特征进行特征解码，得到特征图像；基于语义分割模型，对特征图像进行二值化处理，确定第一图像中的前景图像的分割结果。

在一种可能的实施方式中，输出模块303，具体用于基于语义分割模型中特征编码单元的第一神经网络层和第二神经网络层，对第一图像进行特征编码，得到第一图像的图像特征，其中第一神经网络层包括卷积层，第二神经网络层包括池化层。

在一种可能的实施方式中，输出模块303，具体用于基于语义分割模型中特征解码单元的第三神经网络层和第四神经网络层，对图像特征进行特征解码，得到特征图像，其中第三神经网络层包括卷积层，第四神经网络层包括上采样层和/或反卷积层。

在一种可能的实施方式中，第三神经网络层的输入包括第四神经网络层的输出结果，和/或特征图像。

实施例9：

基于相同的技术构思，本申请还提供了一种电子设备，图4为本申请实施例提供的一种电子设备结构示意图，如图4所示，包括：处理器401、通信接口402、存储器403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信；

存储器403中存储有计算机程序，当程序被处理器401执行时，使得处理器401执行如下步骤：

获取待提取前景图像的第一图像；

将第一图像作为输入图像输入到语义分割模型中；

基于语义分割模型，输出第一图像中的前景图像的分割结果。

在一种可能的实施方式中，处理器401，具体用于获取待提取前景图像的第一图像；

将第一图像作为输入图像输入到语义分割模型中；

进一步地，处理器401还用于：

针对多个时间尺度，从视频流中提取时间尺度的至少一帧图像，确定至少一帧图像的像素值统计结果，以及根据像素值统计结果，确定时间尺度的第二图像；

将第一图像和多个时间尺度的第二图像的拼接图像作为输入图像输入到语义分割模型中。

进一步地，处理器401还用于：

将第一图像输入到实例分割模型中；

基于实例分割模型，输出第一图像的实例分割图像；

进一步地，处理器401具体用于：基于语义分割模型，对输入图像进行特征编码，得到输入图像的图像特征；

进一步地，处理器401具体用于：基于语义分割模型中特征编码单元的第一神经网络层和第二神经网络层，对第一图像进行特征编码，得到第一图像的图像特征，其中第一神经网络层包括卷积层，第二神经网络层包括池化层。

进一步地，处理器401具体用于：基于语义分割模型中特征解码单元的第三神经网络层和第四神经网络层，对图像特征进行特征解码，得到特征图像，其中第三神经网络层包括卷积层，第四神经网络层包括上采样层和/或反卷积层。

进一步地，第三神经网络层的输入包括第四神经网络层的输出结果，和/或特征图像。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口402用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字指令处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

实施例10：

基于相同的技术构思，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质内存储有可由电子设备执行的计算机程序，当程序在电子设备上运行时，使得电子设备执行时实现如下步骤：

获取待提取前景图像的第一图像；

将第一图像作为输入图像输入到语义分割模型中；

在一种可能的实施方式中，还包括：

将第一图像作为输入图像输入到语义分割模型中，包括：

在一种可能的实施方式中，还包括：

将第一图像输入到实例分割模型中；

基于实例分割模型，输出第一图像的实例分割图像；

将第一图像作为输入图像输入到语义分割模型中，包括：

在一种可能的实施方式中，基于语义分割模型，输出第一图像中的前景图像的分割结果，还包括：

在一种可能的实施方式中，基于语义分割模型，对第一图像进行特征编码，得到第一图像的图像特征，还包括：

基于语义分割模型中特征编码单元的第一神经网络层和第二神经网络层，对第一图像进行特征编码，得到第一图像的图像特征，其中第一神经网络层包括卷积层，第二神经网络层包括池化层。

在一种可能的实施方式中，基于语义分割模型，对图像特征进行特征解码，得到特征图像，还包括：

基于语义分割模型中特征解码单元的第三神经网络层和第四神经网络层，对图像特征进行特征解码，得到特征图像，其中第三神经网络层包括卷积层，第四神经网络层包括上采样层和/或反卷积层。

上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD)等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种前景图像的提取方法，其特征在于，所述方法包括：

获取待提取前景图像的第一图像；

将所述第一图像作为输入图像输入到语义分割模型中；

2.如权利要求1所述的方法，其特征在于，所述方法还包括:

针对多个时间尺度，从视频流中提取所述时间尺度的至少一帧图像，确定所述至少一帧图像的像素值统计结果，以及根据所述像素值统计结果，确定所述时间尺度的第二图像；

所述将所述第一图像作为输入图像输入到语义分割模型中，包括：

将所述第一图像和所述多个时间尺度的第二图像的拼接图像作为输入图像输入到语义分割模型中。

3.如权利要求1所述的方法，其特征在于，所述方法还包括:

将所述第一图像输入到实例分割模型中；

基于所述实例分割模型，输出所述第一图像的实例分割图像；

将所述第一图像和所述实例分割图像的拼接图像作为输入图像输入到语义分割模型中。

4.如权利要求1-3任一项所述的方法，其特征在于，所述基于所述语义分割模型，输出所述第一图像中的前景图像的分割结果，包括：

基于所述语义分割模型，对所述输入图像进行特征编码，得到所述输入图像的图像特征；

基于所述语义分割模型，对所述图像特征进行特征解码，得到特征图像；

基于所述语义分割模型，对所述特征图像进行二值化处理，确定所述第一图像中的前景图像的分割结果。

5.如权利要求4所述的方法，其特征在于，所述基于所述语义分割模型，对所述第一图像进行特征编码，得到所述第一图像的图像特征，包括：

基于所述语义分割模型中特征编码单元的第一神经网络层和第二神经网络层，对所述第一图像进行特征编码，得到所述第一图像的图像特征，其中所述第一神经网络层包括卷积层，所述第二神经网络层包括池化层。

6.如权利要求4所述的方法，其特征在于，所述基于所述语义分割模型，对所述图像特征进行特征解码，得到特征图像，包括：

基于所述语义分割模型中特征解码单元的第三神经网络层和第四神经网络层，对所述图像特征进行特征解码，得到特征图像，其中所述第三神经网络层包括卷积层，所述第四神经网络层包括上采样层和/或反卷积层。

7.如权利要求6所述的方法，其特征在于，所述第三神经网络层的输入包括所述第四神经网络层的输出结果，和/或所述特征图像。

8.一种前景图像的提取装置，其特征在于，所述装置包括：

获取模块，用于获取待提取前景图像的第一图像；

输入模块，用于将所述第一图像作为输入图像输入到语义分割模型中；

输出模块，用于基于所述语义分割模型，输出所述第一图像中的前景图像的分割结果。

9.一种电子设备，其特征在于，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7任一项所述的一种前景图像的提取方法的步骤。

10.一种计算机存储介质，其特征在于，其存储有可由电子设备执行的计算机程序，当所述程序在所述电子设备上运行时，使得所述电子设备执行权利要求1-7任一项所述的一种前景图像的提取方法的步骤。