CN108154086B

CN108154086B - 一种图像提取方法、装置及电子设备

Info

Publication number: CN108154086B
Application number: CN201711276216.0A
Authority: CN
Inventors: 高万顺
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2017-12-06
Filing date: 2017-12-06
Publication date: 2022-06-03
Anticipated expiration: 2037-12-06
Also published as: CN108154086A

Abstract

本发明实施例提供了一种图像提取方法、装置及电子设备，方法包括：获取连续的视频帧；按预设周期，在预设周期内的全部视频帧中，选取基准视频帧；将基准视频帧输入图像语义分割网络，并得到与基准视频帧对应的三值图，三值图中至少包括预设目标的轮廓与背景之间的过渡区域；通过三值图，确定出预设周期内的每一个视频帧中，与三值图中的过渡区域对应的图像区域，并针对每一个视频帧，确定出图像区域是否属于该视频帧中的目标图像，当图像区域属于该视频帧中的目标图像时，将图像区域加入目标图像中；提取每一个视频帧中的目标图像。从而可以在不需要人工确定预设目标轮廓位置的情况下，能够提取出轮廓清晰，具有完整细节的目标图像。

Description

一种图像提取方法、装置及电子设备

技术领域

本发明涉及图像处理技术领域，特别是涉及一种图像提取方法、装置及电子设备。

背景技术

随着各类视频采集技术的不断更新，对于视频图像的处理越来越得到人们的关注。各类视频图像梳理方法中，从视频图像中提取各类特定的目标的图像的方法，尤其是从实时采集的视频图像中，实时提取特定的目标图像的技术手段，由于存在众多的应用领域，从而更加值得进行研究。

例如，在视频直播领域中，可以从实时采集的视频图像中，提取用户感兴趣的特定目标图像，如，从视频图像中，提取仅含有主播的人物图像，并将该图像进行渲染或其他处理，并实时的将经过处理的含有主播的人物图像，发送至播放终端，使观看直播的用户具有更好的观看体验。

由于现有的图像提取技术在提取特定目标图像时，当目标具有比较复杂的背景，或者目标的轮廓较为复杂时，一般需要人工对所要提取的目标的边缘轮廓位置进行标记或选择，从而才能够较为准确的，提取具有完整细节的目标图像。然而，当需要在获取的视频图像中，提取每一帧视频图像中的目标图像时，显然不能通过人工的方式对所要提取的目标的边缘位置进行标记或选择，所以，可能会造成所提取目标图像边缘不清晰，或者遗漏该目标边缘所具有的细节特征的问题。

发明内容

本发明实施例的目的在于提供一种图像提取方法、装置及电子设备，以实现能够从实时获取的视频图像中，提取出边缘清晰，并且边缘具有完整细节特征的目标图像。具体技术方案如下：

本发明实施例提供了一种图像提取方法，包括：

获取连续的视频帧，所述连续的视频帧中的每一个视频帧中均含有预设目标的目标图像；

按预设周期，在所述预设周期内的全部视频帧中，选取基准视频帧；

将所述基准视频帧输入图像语义分割网络，得到与所述基准视频帧对应的三值图，所述三值图中至少包括所述预设目标的轮廓与背景之间的过渡区域，所述图像语义分割网络为使用与所述预设目标的类型相同的样本进行训练后的深度学习模型；

通过所述三值图，确定出所述预设周期内的每一个视频帧中，与所述三值图中的过渡区域对应的图像区域，并针对每一个视频帧，确定出所述图像区域是否属于该视频帧中的目标图像，当所述图像区域属于该视频帧中的目标图像时，将所述图像区域加入所述目标图像中；

针对所述预设周期内的每一个视频帧，提取该视频帧中的所述目标图像。

可选的，所述按预设周期，在所述预设周期内的全部视频帧中，选取基准视频帧，包括：

按所述预设周期，将所述预设周期内的首个视频帧，作为基准视频帧。

可选的，所述三值图包括：第一区域，第二区域和所述过渡区域，所述第一区域为已确定的为所述预设目标的目标图像，所述第二区域为已确定的非所述预设目标的背景图像，所述过渡区域为所述预设目标的轮廓与背景之间的待定图像。

可选的，所述将所述基准视频帧输入图像语义分割网络，得到与所述基准视频帧对应的三值图，包括：

将所述基准视频帧输入图像语义分割网络，通过图像语义分割网络确定所述基准视频帧中每一个像素点的特征值；

针对所述基准视频帧中任一个像素点，当该像素点的特征值大于第一预设阈值时，则所述像素点属于所述第一区域；

或者，当该像素点的特征值小于第二预设阈值时，则所述像素点属于所述第二区域，所述第一预设阈值大于所述第二预设阈值；

或者，当该像素点的特征值大于或等于所述第二预设阈值，且小于或等于所述第一预设阈值时，则所述像素点属于所述过渡区域；

遍历所述基准视频帧中的每一个像素点，得到与所述基准视频帧对应的三值图。

可选的，所述通过所述三值图，确定出所述预设周期内的每一个视频帧中，与所述三值图中的过渡区域对应的图像区域，并针对每一个视频帧，确定出所述图像区域是否属于该视频帧中的目标图像，当所述图像区域属于该视频帧中的目标图像时，将所述图像区域加入所述目标图像中，包括：

针对所述预设周期内的任一个视频帧，根据所述三值图，将该视频帧中所述第一区域对应的图像作为目标图像，并确定出该视频帧中与所述过渡区域对应的图像区域；

通过预设算法，判断该视频帧的所述图像区域中的每一个像素点，是否属于该视频帧中的目标图像；

针对所述图像区域中的任一个像素点，当该像素点属于该视频帧中的目标图像时，将该像素点加入该视频帧中的目标图像。

可选的，在所述针对所述预设周期内的每一个视频帧，提取该视频帧中的所述目标图像之后，所述方法还包括：

将所述预设周期内的每一个视频帧中所提取的目标图像，分别与预设背景图像进行合成。

本发明实施例还提供了一种图像提取装置，包括：

获取模块，用于获取连续的视频帧，所述连续的视频帧中的每一个视频帧中均含有预设目标的目标图像；

选择模块，用于按预设周期，在所述预设周期内的全部视频帧中，选取基准视频帧；

计算模块，用于将所述基准视频帧输入图像语义分割网络，得到与所述基准视频帧对应的三值图，所述三值图中至少包括所述预设目标的轮廓与背景之间的过渡区域，所述图像语义分割网络为使用与所述预设目标的类型相同的样本进行训练后的深度学习模型；

匹配模块，用于通过所述三值图，确定出所述预设周期内的每一个视频帧中，与所述三值图中的过渡区域对应的图像区域，并针对每一个视频帧，确定出所述图像区域是否属于该视频帧中的目标图像，当所述图像区域属于该视频帧中的目标图像时，将所述图像区域加入所述目标图像中；

提取模块，用于针对所述预设周期内的每一个视频帧，提取该视频帧中的所述目标图像。

可选的，所述选择模块，具体用于：

可选的，所述计算模块中的所述三值图包括：第一区域，第二区域和所述过渡区域，所述第一区域为已确定的为所述预设目标的目标图像，所述第二区域为已确定的非所述预设目标的背景图像，所述过渡区域为所述预设目标的轮廓与背景之间的待定图像。

可选的，所述计算模块，具体用于：

针对所述基准视频帧中任一个像素点，当该像素点的特征值大于第一预设阈值时，则所述像素点属于所述第一区域；或者，当该像素点的特征值小于第二预设阈值时，则所述像素点属于所述第二区域，所述第一预设阈值大于所述第二预设阈值；或者，当该像素点的特征值大于或等于所述第二预设阈值，且小于或等于所述第一预设阈值时，则所述像素点属于所述过渡区域；

可选的，所述匹配模块，具体用于：

可选的，所述装置还包括：

合成模块，用于将所述预设周期内的每一个视频帧中所提取的目标图像，分别与预设背景图像进行合成。

本发明实施例还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的图像提取方法。

在本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的图像提取方法。

在本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的图像提取方法。

本发明实施例提供的图像实时提取方法及装置，可以获取连续的视频帧，然后按预设周期，从设周期内全部视频帧中，选取基准视频帧，并将该基准视频帧输入经过训练的图像语义分割网络，得到与基准视频帧对应的三值图，根据该三值图，可以对预设周期内的每一个视频帧进行判断，确定出每一个视频帧中与三值图的过渡区域所对应的图像区域，是否属于该视频帧中的目标图像，并且当属于目标图像时，将该图像区域加入该目标图像，再从预设周期内的每一个视频帧中提取目标图像从而可以得到完整且准确的目标图像。从而可以在不需要人工确定预设目标轮廓位置的情况下，通过对每一个视频帧中过渡区域所对应的图像区域的判断，能够提取出轮廓清晰，轮廓具有完整细节特征的目标图像，并且可以实现从实时采集并获取的连续的视频帧中提取预设目标的目标图像。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的图像提取方法的流程图；

图2为本发明实施例提供的基准视频帧对应的三值图；

图3为本发明实施例提供的图像提取装置的结构图；

图4为本发明实施例提供的电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

参见图1，图1为本发明实施例提供的图像提取方法的流程图，包括：

步骤101，获取连续的视频帧，该连续的视频帧中的每一个视频帧中均含有预设目标的目标图像。

本发明实施例可以应用于各类电子设备，例如，手机、平板电脑、智能眼镜等等。

电子设备可以获取连续的视频帧，连续的视频帧可以是一段预存的视频影像，或者连续的视频帧也可以是电子设备实时采集并获取的视频影像。例如，利用手机进行直播，手机可以实时采集连续的视频帧，并且通过手机可以对实时采集的连续的视频帧按本发明实施例提供的图像提取方法进行处理。

预设目标可以是预先设定的任意类型的目标，例如，预设目标可以是人，或者某种类型的物品，如，汽车、衣服等。

电子设备获取的连续的视频帧中均含有预设目标的目标图像，例如，当通过手机进行直播时，可以将主播作为预设目标，手机所采集的视频帧中都可以含有该主播的图像。

当然，在个别情况下，电子设备获取的连续的视频帧中可以会有个别视频帧中不含有预设目标的图像，例如，在直播时，主播将手机转向其他景物，则所采集的连续的视频帧中会出现不含有主播的视频帧。对于不含有预设目标的视频帧，不需要执行本发明实施例提供的图像提取方法，可以直接跳过，直到连续的视频帧中出现预设目标时，再按本发明实施例提供的图像提取方法进行处理。

步骤102，按预设周期，在预设周期内的全部视频帧中，选取基准视频帧。

预设周期可以是预先认为设置的周期，具体的时间可以根据需要进行设置，一般可以为0.5秒，1秒，2秒等。预设周期用于对连续的视频帧按时间进行分段，当连续的视频帧是实时采集的视频帧时，从当前时刻起，在一个预设周期内，如1秒内，所采集并获取的视频帧，可以为该预设周期内的视频帧；当连续的视频帧是已经保存的一段视频影像时，可以按预设周期对该一段视频影像进行划分，一个预设周期内的视频帧，即为该预设周期内的视频帧。

在实际应用中，一般采用1秒作为预设周期，一般情况下，视频在1秒内具有30个视频帧，所以一个预设周期内的视频帧数量一般为30。

电子设备在获得一个预设周期内的视频帧后，可以从该预设周期内的全部视频帧中，选择出一个视频帧，作为基准视频帧。基准视频帧可以作为该预设周期内全部视频帧的代表。所以，可以选择预设周期内的全部视频帧中最为清晰的一个视频帧作为基准视频帧，也可以选择目标图像面积最大的视频帧作为基准视频帧，还可以选择预设周期内最先得到的视频帧作为基准视频帧。

步骤103，将基准视频帧输入图像语义分割网络，得到与基准视频帧对应的三值图，三值图中至少包括预设目标的轮廓与背景之间的过渡区域，图像语义分割网络为使用与预设目标的类型相同的样本进行训练后的深度学习模型。

电子设备确定出基准视频帧后，就可以将该基准视频帧输入图像语义分割网络中。图像语义分割网络是一种深度学习模型，通过使用样本对图像语义分割网络进行训练，经过训练后，图像语义分割网络可以从一张完整的图像中，确定出该图像中所包含的与样本类型相同的对象的图像。例如，使用大量的人的图像对图像语义分割网络进行训练，则该图像语义分割网络就可以从，其他的含有人的图像中，确定出人这一对象的图像。具体的，图像语义分割网络可以是基于linux下的基于深度学习caffe框架搭建的图像语义分割网络，例如，CRFasRNN或者ICNet，其中CRFasRNN或者ICNet为一种图像语义分割网络的类型。

在本发明实施例中，图像语义分割网络为使用与预设目标的类型相同的样本进行训练。例如，预设目标为人时，可以采样大量的含有人的图像对该图像语义分割网络进行训练。

将该基准视频帧输入图像语义分割网络之后，通过图像语义分割网络对该基准视频帧的处理，可以将该基准视频帧转化为该基准视频帧对应的三值图。三值图为至少含有三种颜色的图像，一般三值图中仅含有黑、白和灰三种颜色，也可以为其他三种颜色，每一种颜色对应一个图像区域。

通过图像语义分割网络对该基准视频帧进行处理，但图像语义分割网络一般不能准确的识别出预设目标的轮廓，尤其当预设目标的轮廓与预设目标所在的背景图像较为接近的时候，图像语义分割网络很难准确的确定出预设目标的轮廓与背景之间的界限。

所以，三值图中所含有的三个图像区域中，至少可以包括预设目标的轮廓与背景之间的过渡区域。即该过渡区域为不确定属于预设目标或背景的图像区域。

步骤104，通过三值图，确定出预设周期内的每一个视频帧中，与三值图中的过渡区域对应的图像区域，并针对每一个视频帧，确定出图像区域是否属于该视频帧中的目标图像，当图像区域属于该视频帧中的目标图像时，将图像区域加入目标图像中。

在连续的视频帧内，目标图像的位置和大小可能会发生一定的变化，但由于一个预设周期的时间很短，所以在一个预设周期内，目标图像在每一个视频帧内的变化幅度很小，可以认为基本不发生变化，例如，预设周期为1秒时，在这1秒内，目标图像在视频帧内的面积大小和位置等可以认为基本不发生变化。

电子设备所获得的三值图，为该预设周期内的基准视频帧对应的三值图，所以该三值图可以作为与预设周期内的每一个视频帧进行比较的三值图。该三值图中的过渡区域，可以作为预设周期内的每一个视频帧中的预设目标的轮廓与预设目标所在的背景图像之间的过渡区域。所以只要将该三值图和每一个视频帧进行对比，每一个视频帧中，与三值图中的过渡区域对应的图像区域，即为该视频帧中的过渡区域。从而可以不需要通过图像语义分割网络对每一个视频帧进行处理，可以提高处理效率，进而可以满足对电子设备所采集并获取的连续的视频帧进行实时处理的需要。

电子设备通过三值图，确定出预设周期内的每一个视频帧中，与三值图中的过渡区域对应的图像区域后，可以针对每一个视频帧，判断该视频帧中与三值图中的过渡区域对应的图像区域，是属于为目标图像的一部分，或者属于背景图像的一部分。

具体的，可以通过闭合型抠图算法等方式确定出该图像区域是否属于目标图像。闭合型抠图算法可以对该图像区域进行更细致的划分，然后精确的比较每一个划分出的子区域属于目标图像或背景图像。除了闭合型抠图算法以外，在现有技术中，有很多可以用于确定局部图像从属关系的图像算法，只要能够实现本发明实施例中的作用，都可以应用于本发明实施例中，并都属于本发明实施例的保护范围。

针对预设周期内的每一个视频帧，当该视频帧中的上述图像区域属于该视频帧中的目标图像时，将该图像区域加入目标图像中，从而可以实现对目标图像的修正，确定出完整的目标图像。

步骤105，针对预设周期内的每一个视频帧，提取该视频帧中的目标图像。

当对预设周期内的每一个视频帧，都确定出该视频帧内的完整的目标图像后，就可以从该视频帧中提取出该目标图像，即从视频帧中抠出仅含有该目标图像的局部图像。具体的，从该视频帧中提取出该目标图像，可以采用现有的各类抠图方法，在此不再赘述。

在本发明实施例中，电子设备可以获取连续的视频帧，然后按预设周期，从设周期内全部视频帧中，选取基准视频帧，并将该基准视频帧输入经过训练的图像语义分割网络，得到与基准视频帧对应的三值图，根据该三值图，可以对预设周期内的每一个视频帧进行判断，确定出每一个视频帧中与三值图的过渡区域所对应的图像区域，是否属于该视频帧中的目标图像，并且当属于目标图像时，将该图像区域加入该目标图像，再从预设周期内的每一个视频帧中提取目标图像从而可以得到完整且准确的目标图像。从而可以在不需要人工确定预设目标轮廓位置的情况下，通过对每一个视频帧中过渡区域所对应的图像区域的判断，能够提取出轮廓清晰，并且轮廓具有完整细节特征的目标图像，并且由于通过图像语义分割网络和传统的闭合型抠图算法相结合的形式，提高了提取效率，可以实现从实时采集并获取的连续的视频帧中提取预设目标的目标图像。

结合上述实施例，步骤102，按预设周期，在预设周期内的全部视频帧中，选取基准视频帧，包括：

按预设周期，将预设周期内的首个视频帧，作为基准视频帧。

当电子设备在对每一个预设周期，确定该预设周期的基准视频帧时，为了进一步提高选择的效率，可以将该预设周期内的首个视频帧作为基准视频帧。例如，电子设备实时采集并获得连续的视频帧，预设周期为1秒，从当前时刻起，在1秒的时间内，所获得的首个视频帧，可以为该1秒内的获取的全部视频帧的基准视频帧，即该首个视频帧为该1秒的预设周期的基准视频帧。

通过将首个视频帧作为基准视频帧，可以实现对基准视频帧快速选择，并且，当电子设备对采集并获得连续的视频帧进行处理时，将首个视频帧作为基准视频帧，可以一个预设周期该开始的时候就利用图像语义分割网络对该基准视频帧进行处理，在最短时间内得到三值图，从而可以提高运行本发明实施例提供的图像提取方法的实时性。

结合前面的实施例，在本发明实施例提供的图像采集方法中的三值图包括：第一区域，第二区域和过渡区域，第一区域为已确定的为预设目标的目标图像，第二区域为已确定的非预设目标的背景图像，过渡区域为预设目标的轮廓与背景之间的待定图像。

基准视频帧通过图像语义分割网络的处理，可以从该基准视频帧中确定出三个不同的区域，即第一区域，第二区域和过渡区域。图像语义分割网络可以直接确定出的目标图像为第一区域，直接确定出的不属于目标图像的背景图像为第二区域，由于图像语义分割网络不能十分精确的确定出目标图像的个别轮廓边缘属于目标图像还是属于背景图像，所以可以将该部分不能准确确定的图像区域，作为过渡区域。

当通过图像语义分割网络，针对基准视频帧确定出上述三个区域后，就可以生成含有上述三个区域的三值图。三值图与基准视频帧尺寸相同，但只含有三种颜色，用于分别表示上述的三个区域，一般可以通过黑、白、灰三种颜色，分别对应上述三个区域。在三值图中仅通过不同的颜色代表不同的区域，而每一个区域的具体细节都可以被忽略。

获得三值图后，可以利用该三值图与预设周期内的每一个视频帧进行比对，即将第一区域，第二区域和过渡区域映射至每一个视频帧中。通过对比，可以快速的确定出每一个视频帧中预设目标的目标图像所在的图像区域，背景图像所在的图像区域，以及不能确定属于目标图像或背景图像的待定的图像区域，从而可以进一步提高运行效率，并且可以为后续步骤奠定基础。

结合上述实施例，在本发明实施例提供的图像提取方法中，步骤103，将基准视频帧输入图像语义分割网络，得到与基准视频帧对应的三值图，包括：

步骤103a，将基准视频帧输入图像语义分割网络，通过图像语义分割网络确定基准视频帧中每一个像素点的特征值。

电子设备将所选择出的基准视频帧输入图像语义分割网络后，图像语义分割网络可以对该基准视频帧中每一个像素点确定出该像素点对应的特征值。特征值为图像语义分割网络中的固有的输出参数，用于描述该像素点与属于预设目标的可能性的大小。根据不同类型的图像语义分割网络，该特征值还可以为相似度或置信度等参数。

步骤103b，针对基准视频帧中任一个像素点，当该像素点的特征值大于第一预设阈值时，则像素点属于第一区域。或者，当该像素点的特征值小于第二预设阈值时，则像素点属于第二区域，第一预设阈值大于第二预设阈值。或者，当该像素点的特征值大于或等于第二预设阈值，且小于或等于第一预设阈值时，则像素点属于过渡区域。

第一预设阈值和第二预设阈值用来衡量每一个像素点的特征值，从而确定出该像素点属于第一区域、第二区域或过渡区域。如果该像素点的特征值大于第一预设阈值，则可以认为该像素点极大概率属于目标图像，即属于第一区域；同理，当该像素点的特征值小于第二预设阈值，则可以认为该像素点极大概率不属于目标图像，而属于背景图像即第二区域；当该像素点的特征值位于第一预设阈值和第二预设阈值之间，则该像素点不确定属于第一区域或第二区域，所以可以将认为该像素点属于过渡区域。

第一预设阈值和第二预设阈值均为预先设定的阈值，在实际应用中可以根据需要进行设定或配置，在此不做限定。例如，可以采用多组不同的第一预设阈值和第二预设阈值进行多次试验，确定出能够输出较为准确的三值图的第一预设阈值和第二预设阈值。

步骤103c，遍历基准视频帧中的每一个像素点，得到与基准视频帧对应的三值图。

图像语义分割网络可以遍历基准视频帧中的每一个像素点，对每一个像素点都获得该像素点对应的特征值，然后根据该特征值与，第一预设阈值和第二预设阈值进行比较，可以确定出基准视频帧中的每一个像素点所属于的区域，从而可以得到与基准视频帧对应的三值图。

在本发明实施例中，通过获得每一个像素点的特征值，并且利用该特征值与，第一预设阈值和第二预设阈值进行比较，可以更加准确的确定出每一个像素点在三值图中所属于的区域，进而可以得到更加准确的三值图。

结合上述实施例，在本发明实施例提供的图像提取方法中，步骤104，通过三值图，确定出预设周期内的每一个视频帧中，与三值图中的过渡区域对应的图像区域，并针对每一个视频帧，确定出图像区域是否属于该视频帧中的目标图像，当图像区域属于该视频帧中的目标图像时，将图像区域加入目标图像中，可以包括：

步骤104a，针对预设周期内的任一个视频帧，根据三值图，将该视频帧中第一区域对应的图像作为目标图像，并确定出该视频帧中与过渡区域对应的图像区域。

通过三值图与预设周期内的每一个视频帧进行比较，可以确定出每一个视频帧中，与三值图中的第一区域所对应的图像，该图像为确定属于目标图像的图像，所以可以先将视频帧中第一区域对应的图像作为目标图像。并且，可以根据三值图，确定出该视频帧中与三值图中的过渡区域对应的图像区域。该图像区域为暂时不能确定属于目标图像或者属于背景的待定图像区域。

步骤104b，通过预设算法，判断该视频帧的所述图像区域中的每一个像素点，是否属于该视频帧中的目标图像。

预设算法可以是现有的闭合型抠图算法，例如，可以为Closed Form Matting(闭合型抠图)等方法。

当针对一个视频帧中，将该视频帧中，与三值图中的第一区域对应的图像作为目标图像之后，可以通过预设算法，判断该视频帧中，过渡区域对应的图像区域中的每一个像素点是否属于该视频帧中的目标图像。具体的，通过预设算法对每一个像素点进行判断的步骤和方法，在现有技术中有很多实现方式，可以根据需要进行选择，在此不再赘述。

步骤104c，针对所述图像区域中的任一个像素点，当该像素点属于该视频帧中的目标图像时，将该像素点加入该视频帧中的目标图像。

通过预设算法可以对该视频帧中过渡区域对应的图像区域中的每一个像素点进行判断，当像素点属于目标图像时，可以将该像素点加入目标图像中，遍历视频帧中过渡区域对应的图像区域中的每一个像素点，从而可以实现对目标图像的修正，经过修正的目标图像为准确且完整的目标图像。

在本发明实施例中，通过对视频帧中过渡区域对应的图像区域中的每一个像素点进行判断，可以更加精确的确定出该视频帧中过渡区域对应的图像区域是否属于目标图像，从而可以确定出更加准确的目标图像。

结合前面的实施例，在本发明实施例提供的图像采集方法中，在步骤105，在针对预设周期内的每一个视频帧，提取该视频帧中的目标图像之后，该方法还包括：

将预设周期内的每一个视频帧中所提取的目标图像，分别与预设背景图像进行合成。

当电子设备将针对预设周期内的每一个视频帧，提取该视频帧中的目标图像之后，可以将每一个视频帧中所提取的目标图像，与预设的背景图像进行合成，形成新的视频帧，从而可以实现目标图像所在场景的切换。其中预设背景可以为各类布景或场景。

在本发明实施例的一个应用实例中，电子设备可以用于视频直播，使用该电子设备的主播可以作为预设目标，电子设备将实时采集的连续的视频帧，按本发明实施例提供的图像采集方法进行处理，从所采集的连续的视频帧中提取出主播图像，然后将该主播图像与其他的背景进行合成后，形成新的连续的视频帧，再将新形成的连续的视频帧向观看视频直播的观众发送，从而提高视频直播的趣味性，进而可以提高用户体验。

下面结合一个具体的实施例，介绍本发明实施例提供的图像采集方法。

电子设备可以获取视频影像，该视频影像可以是实时采集的，也可以存储在电子设备中的视频影像，该视频影像的每秒传输帧数为30，即每一秒具有30个连续的视频帧。

以1秒为预设周期，在1秒内，将首个视频帧作为该预设周期的基准视频帧。将画面中的人物，作为预设目标。该基准视频帧中含有预设目标的目标图像和目标图像所在的背景图像。

将该基准视频帧输入图像语义分割网络中，得到如图2所示的三值图，该三值图中，含有第一预设区域201，第二预设区域202，和过渡区域203，第一区域201为已确定的背景图像，第二区域202为已确定的为该人物的目标图像，过渡区域203为人物的轮廓与背景之间的待定图像。

通过三值图，确定出1秒内的30个视频帧中，与三值图中的过渡区域203对应的图像区域，并针对每一个视频帧，确定出图像区域是否属于该视频帧中的目标图像，当图像区域属于该视频帧中的目标图像时，将图像区域加入目标图像中。然后针对预设周期内的每一个视频帧，提取该视频帧中的目标图像。

将预设周期内的每一个视频帧中所提取的目标图像，分别与预设背景图像进行合成。将预设目标的目标图像提取出来后，可以将该目标图像加入进其他的预设背景中，从而切换了预设目标所在的场景。

参见图3，图3为本发明实施例提供的图像提取装置的结构图，包括：

获取模块301，用于获取连续的视频帧，所述连续的视频帧中的每一个视频帧中均含有预设目标的目标图像；

选择模块302，用于按预设周期，在所述预设周期内的全部视频帧中，选取基准视频帧；

计算模块303，用于将所述基准视频帧输入图像语义分割网络，得到与所述基准视频帧对应的三值图，所述三值图中至少包括所述预设目标的轮廓与背景之间的过渡区域，所述图像语义分割网络为使用与所述预设目标的类型相同的样本进行训练后的深度学习模型；

匹配模块304，用于通过所述三值图，确定出所述预设周期内的每一个视频帧中，与所述三值图中的过渡区域对应的图像区域，并针对每一个视频帧，确定出所述图像区域是否属于该视频帧中的目标图像，当所述图像区域属于该视频帧中的目标图像时，将所述图像区域加入所述目标图像中；

提取模块305，用于针对所述预设周期内的每一个视频帧，提取该视频帧中的所述目标图像。

在本发明实施例中，可以在不需要人工确定预设目标轮廓位置的情况下，通过对每一个视频帧中过渡区域所对应的图像区域的判断，能够提取出轮廓清晰，并且轮廓具有完整细节特征的目标图像，并且由于通过图像语义分割网络和传统的闭合型抠图算法相结合的形式，提高了提取效率，可以实现从实时采集并获取的连续的视频帧中提取预设目标的目标图像。

可选的，在本发明实施例提供的图像提取装置中，所述选择模块302，具体用于：

可选的，在本发明实施例提供的图像提取装置中，所述计算模块303中的所述三值图包括：第一区域，第二区域和所述过渡区域，所述第一区域为已确定的为所述预设目标的目标图像，所述第二区域为已确定的非所述预设目标的背景图像，所述过渡区域为所述预设目标的轮廓与背景之间的待定图像。

可选的，在本发明实施例提供的图像提取装置中，所述计算模块303，具体用于：

可选的，在本发明实施例提供的图像提取装置中，所述匹配模块304，具体用于：

可选的，在本发明实施例提供的图像提取装置中，所述装置还包括：

本发明实施例还提供了一种电子设备，如图4所示，包括处理器401、通信接口402、存储器403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信，

存储器403，用于存放计算机程序；

处理器401，用于执行存储器403上所存放的程序时，实现如下步骤：

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral PomponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Ne twork Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Applica tion SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的图像提取方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的图像提取方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种图像提取方法，其特征在于，包括：

针对所述预设周期内的每一个视频帧，提取该视频帧中的所述目标图像；

所述三值图包括：第一区域，第二区域和所述过渡区域，所述第一区域为已确定的为所述预设目标的目标图像，所述第二区域为已确定的非所述预设目标的背景图像，所述过渡区域为所述预设目标的轮廓与背景之间的待定图像。

2.根据权利要求1所述的方法，其特征在于，所述按预设周期，在所述预设周期内的全部视频帧中，选取基准视频帧，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述基准视频帧输入图像语义分割网络，得到与所述基准视频帧对应的三值图，包括：

4.根据权利要求1或3所述的方法，其特征在于，所述通过所述三值图，确定出所述预设周期内的每一个视频帧中，与所述三值图中的过渡区域对应的图像区域，并针对每一个视频帧，确定出所述图像区域是否属于该视频帧中的目标图像，当所述图像区域属于该视频帧中的目标图像时，将所述图像区域加入所述目标图像中，包括：

5.根据权利要求1所述的方法，其特征在于，在所述针对所述预设周期内的每一个视频帧，提取该视频帧中的所述目标图像之后，所述方法还包括：

6.一种图像提取装置，其特征在于，包括：

提取模块，用于针对所述预设周期内的每一个视频帧，提取该视频帧中的所述目标图像；

所述计算模块中的所述三值图包括：第一区域，第二区域和所述过渡区域，所述第一区域为已确定的为所述预设目标的目标图像，所述第二区域为已确定的非所述预设目标的背景图像，所述过渡区域为所述预设目标的轮廓与背景之间的待定图像。

7.根据权利要求6所述的装置，其特征在于，所述选择模块，具体用于：

8.根据权利要求6所述的装置，其特征在于，所述计算模块，具体用于：

9.根据权利要求6或8所述的装置，其特征在于，所述匹配模块，具体用于：

10.根据权利要求6所述的装置，其特征在于，所述装置还包括：

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。