CN112019868A

CN112019868A - 人像分割方法、装置及电子设备

Info

Publication number: CN112019868A
Application number: CN201910479428.1A
Authority: CN
Inventors: 李益永; 叶海佳; 吴晓东; 林哲; 任高生
Original assignee: Guangzhou Huya Information Technology Co Ltd
Current assignee: Guangzhou Huya Information Technology Co Ltd
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2020-12-01

Abstract

本申请实施例提供一种人像分割方法、装置及电子设备，通过将视频采集设备实时采集到的当前视频帧导入至预先训练得到的人像识别模型中进行识别，以得到当前视频帧对应的掩膜图像。并根据掩膜图像中的各个像素点的标识划定出当前视频帧中的人像区域，再将当前视频帧的人像区域与当前视频帧的上一视频帧的人像区域进行比对，确定当前视频帧的目标区域。如此，基于确定出的目标区域可对视频帧进行多样化的处理，以改善直播场景单一、直播效果不佳的问题。

Description

人像分割方法、装置及电子设备

技术领域

本申请涉及互联网直播领域，具体而言，涉及一种人像分割方法、装置及电子设备。

背景技术

随着互联网行业的发展，带动了视频直播行业的快速发展。目前，在视频直播领域，一般是基于主播的实时直播场景、直播动作及直播互动信息等生成直播视频流以实现视频直播。这种直播方式无法对视频直播效果进行多样化设置，难以满足用户多样化需求，存在直播场景单一的问题，直播效果不尽如人意。

发明内容

有鉴于此，本申请实施例的目的在于提供一种人像分割方法、装置及电子设备，以解决或者改善上述问题。

根据本申请实施例的一个方面，提供一种人像分割方法，所述方法包括：

将视频采集设备实时采集到的当前视频帧导入至预先训练得到的人像识别模型中进行识别，输出所述当前视频帧对应的掩膜图像；

根据所述掩膜图像中的各个像素点的标识划定出所述当前视频帧中的人像区域；

将所述当前视频帧的人像区域与所述当前视频帧的上一视频帧的人像区域进行比对，确定所述当前视频帧的目标区域；

将所述当前视频帧的目标区域发送至直播接收终端。

目标根据本申请实施例的另一方面，提供一种人像分割装置，所述装置包括：

识别模块，用于将视频采集设备实时采集到的当前视频帧导入至预先训练得到的人像识别模型中进行识别，输出所述当前视频帧对应的掩膜图像；

划定模块，用于根据所述掩膜图像中的各个像素点的标识划定出所述当前视频帧中的人像区域；

确定模块，用于将所述当前视频帧的人像区域与所述当前视频帧的上一视频帧的人像区域进行比对，确定所述当前视频帧的目标区域；

发送模块，用于将所述当前视频帧的目标区域发送至直播接收终端。

根据本申请实施例的另一方面，提供一种电子设备，包括一个或多个存储介质和一个或多个与存储介质通信的处理器，一个或多个存储介质存储有处理器可执行的机器可执行指令，当电子设备运行时，处理器执行所述机器可执行指令，以执行上述的人像分割方法。

根据本申请实施例的另一方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有机器可执行指令，所述机器可执行指令被执行时实现上述的人像分割方法。

基于上述任一方面，本申请实施例通过将视频采集设备实时采集到的当前视频帧导入至预先训练得到的人像识别模型中进行识别，以得到当前视频帧对应的掩膜图像。并根据掩膜图像中的各个像素点的标识划定出当前视频帧中的人像区域，再将当前视频帧的人像区域与当前视频帧的上一视频帧的人像区域进行比对，确定当前视频帧的目标区域。如此，基于确定出的目标区域可对视频帧进行多样化的处理，以改善直播场景单一、直播效果不佳的问题。

为使本申请实施例的上述目的、特征和优点能更明显易懂，下面将结合实施例，并配合所附附图，作详细说明。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的直播系统的示意图。

图2为本申请实施例提供的人像分割方法的流程图。

图3为本申请实施例提供的人像识别模型的层级结构示意图。

图4为图2中步骤210的子步骤的流程图。

图5为本申请实施例提供的第一卷积层的层级结构示意图。

图6为本申请实施例提供的第二卷积层的层级结构示意图。

图7为本申请实施例提供的第三卷积层的层级结构示意图。

图8为图2中步骤220的子步骤的流程图。

图9为图2中步骤230的子步骤的流程图。

图10为本申请实施例提供的电子设备的示例性组件示意图。

图11为本申请实施例提供的人像分割装置的功能模块框图。

图标：10-直播系统；100-直播提供终端；110-存储介质；120-处理器；130-人像分割装置；131-识别模块；132-划定模块；133-确定模块；134-发送模块；140-通信接口；200-直播服务器；300-直播接收终端；400-视频采集设备。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1所示为本申请实施例提供的直播系统10的示意图，其中，该直播系统10可以是用于实现互联网直播的服务平台。该直播系统 10可以包括直播提供终端100、直播服务器200、直播接收终端300。直播服务器200分别与直播提供终端100和直播接收终端300通信连接，用于为直播提供终端100以及直播接收终端300提供直播服务。例如，直播提供终端100可以将直播视频流发送给直播服务器200，观众可以通过直播接收终端300访问直播服务器200以观看直播视频。其中，直播服务器200推送的直播视频流可以是当前正在直播平台中直播的视频流或者直播完成后形成的完整视频流。可以理解，图1所示的直播系统10仅为一种可行的示例，在其它可行的实施例中，该直播系统10也可以仅包括图1所示组成部分的其中一部分或者还可以包括其它的组成部分。

本实施例中，直播提供终端100和直播接收终端300可以是，但不限于，智能手机、个人数字助理、平板电脑、个人计算机、笔记本电脑、虚拟现实终端设备、增强现实终端设备等。其中，直播提供终端100和直播接收终端300中可以安装用于提供互联网直播服务的互联网产品，例如，互联网产品可以是计算机或智能手机中使用的与互联网直播服务相关的应用程序APP、Web网页、小程序等。

本实施例中，直播系统10还可以包括用于采集主播视频帧的视频采集设备400，视频采集设备400可以是，但不限于摄像头、数码照相机的镜头、监控摄像头或者网络摄像头等。视频采集设备400可以直接安装或集成于直播提供终端100。例如，视频采集设备400可以是配置在直播提供终端100上的摄像头，直播提供终端100中的其他模块或组件可以经由内部总线接收从视频采集设备400处发送的视频、图像。或者，视频采集设备400也可以独立于直播提供终端 100，两者之间通过有线或无线的方式进行通信。

图2示出了本申请实施例提供的人像分割方法的流程示意图，该人像分割方法可由图1中所示的直播提供终端100或直播服务器200 执行。应当理解，在其它实施例中，本实施例的人像分割方法其中部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。该人像分割方法的详细步骤介绍如下。

步骤210，将视频采集设备400实时采集到的当前视频帧导入至预先训练得到的人像识别模型中进行识别，输出所述当前视频帧对应的掩膜图像。

步骤220，根据所述掩膜图像中的各个像素点的标识划定出所述当前视频帧中的人像区域。

步骤230，将所述当前视频帧的人像区域与所述当前视频帧的上一视频帧的人像区域进行比对，确定所述当前视频帧的目标区域。

步骤240，将所述当前视频帧的目标区域发送至直播接收终端300。

在本实施例中，在步骤210中，可通过视频采集设备400实时采集主播在直播过程中的当前视频帧，该当前视频帧中可能包含主播图像。可将采集到的当前视频帧导入至预先训练得到的人像识别模型中进行识别，以得到当前视频帧对应的掩膜图像。其中，人像识别模型根据预先采集的包含主播图像的样本图像对神经网络模型进行训练而获得。

在将当前视频帧导入至人像识别模型进行识别之前，可先对当前视频帧进行预处理，可以包括但不限于去均值处理、归一化处理及 PCA降维处理等。请参阅图3，在本实施例中，根据神经网络模型训练得到的人像识别模型包括第一网络层、第二网络层、第三网络层以及第四网络层，请结合参阅图4，在上述步骤210中具体可以通过以下方式获得当前视频帧对应的掩膜图像：

步骤211，分别利用所述第一网络层和第二网络层对所述当前视频帧进行卷积操作，得到所述当前视频帧的特征图。

步骤212，利用所述第三网络层对所述特征图进行特征提取及特征融合处理，得到所述当前视频帧的特征融合图像。

步骤213，利用所述第四网络层对所述特征融合图像进行卷积操作及上采样操作，得到所述当前视频帧对应的掩膜图像。

在本实施例中，第一网络层包括多个第一卷积层(图3中D1-D4) 及多个第二卷积层(图3中C1-C6)，第一卷积层和第二卷积层交替设置。其中，相邻两个第一卷积层之间具有至少一个第二卷积层，第二网络层包括多个依次连接的第三卷积层(图3中E1-E7)。

在上述步骤211中，在分别利用第一网络层和第二网络层对当前视频帧进行卷积操作得到当前视频帧的特征图时，具体可以将当前视频帧的图像依次输入第一网络层中的第一卷积层和第二卷积层进行卷积操作，得到第一特征图像。再将得到的第一特征图像依次输入第二网络层中的多个第三卷积层进行卷积处理，得到当前视频帧的特征图。

其中，各个第一卷积层对输入的图像进行卷积操作得到对应的第一卷积特征图，将该第一卷积特征图输出至该第一卷积层的下一卷积层。该下一卷积层可以是连接在该第一卷积层之后的第二卷积层，或者是连接在该第一卷积层之后的第二网络层中的第三卷积层。

在本实施例中，各个第一卷积层的具体层级结构可如图5中所示，第一卷积层对输入的图像首先以卷积核1*1(Conv1*1)进行卷积操作，再进行激励处理，例如可采用Relu6进行处理，即在得到的结果小于或等于0时则取值为0，在大于或等于6时，则取值为6。如此，避免出现过拟合现场。然后，再以卷积核3*3(Dwise3*3)进行卷积操作，并进行激励处理。最后再以卷积核1*1(Conv1*1)进行卷积操作，得到第一卷积特征图输出至下一卷积层。第一卷积层在进行卷积操作时，其步长可设置为2。

各个第二卷积层对输入的图像进行特征提取后得到第二卷积特征图，并将该第二卷积特征图以及输入该第二卷积层的图像一起输出至下一卷积层。该下一卷积层可以是连接在该第二卷积层之后的第一卷积层，也可以是其他的第二卷积层。

在本实施例中，各个第二卷积的具体层级结构可如图6中所示，第二卷积层对输入的图像首先以卷积核1*1(Conv1*1)进行卷积操作，并进行激励操作，同样可采用Relu6进行处理。再以卷积核3*3 (Dwise3*3)进行卷积操作，再次进行激励操作。最后再以卷积核1*1(Conv1*1)进行卷积操作，得到第二卷积特征图。再将得到的第二卷积特征图及输入该层的图像一起输出至下一卷积层。其中，第二卷积层在进行卷积操作时，步长可设置为1。

其中，各个第三卷积层对输入的图像进行卷积操作得到对应的第三卷积特征图，将该第三卷积特征图输出至该第三卷积层的下一卷积层。该下一卷积层可以是连接在该第三卷积层之后的其他第三卷积层，也可以是连接在其后的第四网络层中的卷积层。

本实施例中，各个第三卷积层的具体层级结构可如图7中所示，第三卷积层对输入的图像首先以卷积核3*3(Dwise3*3)进行卷积操作，并进行激励处理，同样可采用Relu6进行处理。再以卷积核1*1 (Conv1*1)进行卷积操作，最后再进行激励操作，得到第三卷积特征图，并输出。第三卷积层在进行卷积操作时，步长可设置为1。

在本实施例中，第三网络层包括多个第四卷积层(图3中F1-F4) 以及一个第五卷积层(图3中C7)。在上述步骤212中，具体可以通过以下方式根据第四网络层获得当前视频帧的特征融合图像：

将当前视频帧的特征图输入至各第四卷积层分别进行特征提取处理得到多个第四卷积特征图，并将得到的各第四卷积特征图输出至第五卷积层。第五卷积层对各第四卷积特征图进行特征融合处理，得到当前视频帧的特征融合图像。

在本实施例中，第四卷积层的具体层级结构与第三卷积层的层级结构相同，而第五卷积层的层级结构与第二卷积层的层级结构相同，在此不作赘述。

进一步地，在本实施例中，第四网络层包括上采样层(图3中 U1)以及第六卷积层(图3中C8)，该第六卷积层分别连接至上采样层以及第一网络层中的其中一个第一卷积层或其中一个第二卷积层。图3中示例性的示出了第六卷积层C8分别连接至上采样层U1及第一网络层中的第二卷积层C3，应当理解，并不限定于该连接方式。在上述步骤213中，具体可以通过以下方式获得当前视频帧对应的掩膜图像：

将当前视频帧的特征融合图像输入至上采样层进行上采样操作得到采样图像并输出至第六卷积层。第六卷积层接收所连接的第一卷积层输出的第一卷积特征图或第二卷积层输出的第二卷积特征图以及上采样层输出的采样图像。例如，可以是接收第一卷积特征图及采样图像，或者也可以是接收第二卷积特征图及采样图像。第六卷积层对接收到的图像进行融合处理得到融合图像，并对融合图像进行卷积操作得到当前视频帧对应的掩膜图像。

在本实施例中，第六卷积层的具体层级结构与第二卷积层的层级结构相同，在此不作赘述。此外，在第四网络层中还可包括上采样层 U2及第六卷积层C9，其中上采样层U2和上采样层U1、第六卷积层 C8和第六卷积层C9的具体操作分别相同，在此不作赘述。通过将上采样层输出的采样图像与第一卷积特征图或第二卷积特征图进行融合，可将上采样过程中得到的新的特征图与前面卷积过程得到的高像素特征进行结合，以一定程度上保留前面卷积过程得到的一些重要特征信息，提高最终的识别效果。

本实施例提供的人像识别模型，相比现有的常用神经网络模型其层级结构更为简洁，并且其结构中不包含全连接层，可以很大程度上减少需要训练的参数，网络结构能够更高效的运行。并且，整个层级结构呈现为特殊的“U”形结构，即后面层级可以与前面层级实现级联，以保留前面层级所获得的一些重要的特征信息，提高了最终的识别精确度。将该人像识别模型运用于处理能力有限的终端设备进行人像识别时，例如个人计算机、笔记本电脑等，可以实现快速、准确地识别效果，避免出现现有常用的神经网络模型运用在该类终端设备进行人像识别时，因该神经网络模型层级复杂且终端设备的处理能力限制导致的处理效率不理想、处理滞后的问题。

本实施例中，输入至第一网络层的图像的像素可为256*256*3，在经过第一网络层、第二网络层的处理之后，得到的图像的像素可为16*16*128。第二网络层输出的图像在经过第三网络层的处理之后，得到的图像的像素可为16*16*16，而再经过第四网络层的处理之后，最终得到的图像的像素可为256*256*2，输出图像以掩膜图像的形式呈现。

通过视频采集设备400采集到的当前视频帧经过上述处理得到对应的掩膜图像，该掩膜图像中包括多个像素点，各个像素点标识为 0或1。其中，标识为1的像素点可以是前景图像的像素点，标识为 0的像素点可能是背景图像像素点。请结合参阅图8，本实施例中，在执行上述步骤220时，具体可通过以下方式确定出当前视频帧中的人像区域：

步骤221，利用最小矩形框框定所述掩膜图像中标识为1的所有像素点。

步骤222，根据所述最小矩形框内标识为1的像素点在所述最小矩形框的所有像素点中的占比，判断所述掩膜图像中是否包含人像区域。若包含人像区域，则执行以下步骤223，若不包含人像区域，则执行以下步骤224。

步骤223，根据所述掩膜图像中的人像区域划定出所述当前视频帧的人像区域。

步骤224，将当前视频帧直接发送至直播接收终端300。

为了检测当前视频帧中是否包含人像图像，本实施例中，首先可利用最小矩形框框定掩膜图像中标识为1的所有像素点。再根据该最小矩形框内标识为1的像素点在该最小矩形框的所有像素点中的占比，判断该掩膜图像中是否包含人像区域。若确定该掩膜图像中包含人像区域时，可根据该掩膜图像中的人像区域划定出当前视频帧的人像区域。若不包含人像区域，则无需进行后续的目标区域的获取，可将当前视频帧直接发送至直播接收终端300。

可选地，在利用最小矩形框框定掩膜图像中标识为1的所有像素点时，可通过获取掩膜图像中标识为1的所有像素点中分别在横轴方向和纵轴方向具有极值的像素点，包括极大值和极小值。即针对掩膜图像，可分别获得该掩膜图像的上、下、左、右四个方向上最边缘的标识为1的像素点。再根据获取到的具有极值的像素点在掩膜图像中的位置划设最小矩形框，该最小矩形框的各边线经过其中一个具有极值的像素点。如此，该最小矩形框即为能够将掩膜图像中所有标识为 1的像素点框定在内的最小的矩形框。

应当理解，在该最小矩形框内除了包含标识为1的像素点之外，还包括标识为0的像素点。本实施例中，可通过最小矩形框内标识为 1的像素点在该最小矩形框的所有像素点的占比，判断掩膜图像中是否包含人像区域。

不失一般性地，人像图像中各个像素点之间较为集中，因此，若标识为1的像素点对应为人像图像，则标识为1的像素点较为集中，标识为1的像素点在最小矩形框内的占比应当较大。基于此考虑，在本实施例中，可计算最小矩形框内由标识为1的像素点组成的区域的第一面积，并计算最小矩形框的第二面积。再计算第一面积与第二面积之间的比值，在该比值大于预设值时，则可确定掩膜图像中标识为 1的像素点构成的区域为人像区域。

或者，作为另一种可能的实施方式，也可以统计最小矩形框内标识为1的像素点的个数以及最小矩形框内所有像素点的个数。再计算标识为1的像素点的个数与最小矩形框内所有像素点的个数之间的比值是否大于预设值，在大于预设值时，可确定标识为1的像素点构成的区域为人像区域。

在确定掩膜图像中的人像区域的基础上，则当前视频帧中对应掩膜图像的人像区域的区域，即为当前视频帧的人像区域。

本实施例中，考虑到人像识别模型在一些情况下可能存在识别误差，为了保障识别结果的稳定性，在确定出当前视频帧中的人像区域之后，将通过比对当前视频帧的人像区域与当前视频帧的上一视频帧的人像区域的方式，确定出当前视频帧最终的目标区域。

本实施例中，请结合参阅图9，在执行上述步骤230时，具体可以通过以下方式确定出当前视频帧的目标区域：

步骤231，计算得到所述当前视频帧的人像区域与所述当前视频帧的上一视频帧的人像区域之间的坐标偏差值，检测所述坐标偏差值是否小于或等于预设阈值，若小于或等于预设阈值，则执行以下步骤 232，否则，执行以下步骤233。

步骤232，根据所述上一视频帧的人像区域的坐标在所述当前视频帧中划定出目标区域。

步骤233，将所述当前视频帧的人像区域作为所述目标区域。

一般地，主播在进行直播的过程中往往处于运动状态，相邻两帧图像中的人像区域之间应当存在一定的位置偏差。基于此考虑，本实施例中，可计算当前视频帧的人像区域与当前视频帧的上一视频帧的人像区域之间的坐标偏差值。在得到的坐标偏差值小于或等于预设阈值时，则可确定可能存在识别误差，导致未准确识别出相邻两帧之间的人像的偏移。在这种情况下，可采用上一视频帧中的人像区域作为最终的目标区域。即可根据上一视频帧的人像区域的坐标在当前视频帧中划定出目标区域。

而若得到的坐标偏差值大于预设阈值时，可确定针对当前视频帧的人像识别结果准确，可将当前视频帧的人像区域作为最终的目标区域。

本实施例中，考虑到主播在进行直播的过程中，可能只是身体的某些部位处于运动状态，例如头部处于运动状态，或者只有腿部处于运动状态，或者只有手臂处于运动状态。这种情况下，若以人像区域整体作为比对对象，则对比结果存在准确率不高的缺陷。

基于上述考虑，在本实施例中，可按相同划分规则分别将当前视频帧的人像区域划分为多个第一子区域，将上一视频帧划分为多个第二子区域。其中，所述的相同划分规则可以是，将人像区域划分为上、下两部分，或者将人像区域划分为上、中、下三部分，具体地在本实施例中不作限制。

针对当前视频帧中的每个第一子区域，计算得到第一子区域的重心点与对应的上一视频帧的第二子区域的重心点之间的坐标偏差值。在其中一个第一子区域的重心点与对应的第二子区域的重心点之间的坐标偏差值大于预设阈值时，可确定对当前视频帧的识别结果准确，可将当前视频帧的人像区域作为目标区域。而若任意一个第一子区域的重心点与对应的第二子区域的重心点之间的坐标偏差值均小于或等于预设阈值，则将上一视频帧的人像区域作为当前视频帧的目标区域。

在确定出当前视频帧的目标区域之后，可将当前视频帧的目标区域发送至直播接收终端300。作为一种实施方式，可将目标区域携带在视频流中，同视频流一并发送至直播接收终端300。作为另一种实施方式，也可以是将目标区域的关键信息，例如目标区域的边角点的坐标信息，单独发送至直播接收终端300。直播接收终端300在获得当前视频帧的目标区域之后，可基于当前视频帧的目标区域实现视频帧的多样化处理，以丰富视频直播效果。例如，可将提取出的目标区域与不同的背景图像进行融合，以实现直播背景的多样化。又例如，可将接收到的互动信息，例如弹幕信息、图片信息等，显示在直播界面中当前视频帧的目标区域之外，以避免互动信息对目标区域中的主播图像造成遮挡，提升直播效果。

本实施例中，通过对当前视频帧进行人像分析识别，以确定出当前视频帧中包含人像的目标区域，后续可利用获得的目标区域，以为直播场景多样化、提高直播效果提供支持。

请参阅图10，为本申请实施例提供的电子设备的示例性组件示意图，该电子设备可为图1中所示的直播提供终端100或直播服务器 200。该电子设备可包括存储介质110、处理器120、人像分割装置 130及通信接口140。本实施例中，存储介质110与处理器120均位于电子设备中且二者分离设置。然而，应当理解的是，存储介质110 也可以是独立于电子设备之外，且可以由处理器120通过总线接口来访问。可替换地，存储介质110也可以集成到处理器120中，例如，可以是高速缓存和/或通用寄存器。

人像分割装置130可以理解为上述电子设备，或电子设备的处理器120，也可以理解为独立于上述电子设备或处理器120之外的在电子设备控制下实现上述人像分割方法的软件功能模块。

如图11所示，上述人像分割装置130可以包括识别模块131、划定模块132、确定模块133以及发送模块134，下面分别对该人像分割装置130的各个功能模块的功能进行详细阐述。

识别模块131，用于将视频采集设备400实时采集到的当前视频帧导入至预先训练得到的人像识别模型中进行识别，输出所述当前视频帧对应的掩膜图像。可以理解，该识别模块131可以用于执行上述步骤210，关于该识别模块131的详细实现方式可以参照上述对步骤 210有关的内容。

划定模块132，用于根据所述掩膜图像中的各个像素点的标识划定出所述当前视频帧中的人像区域。可以理解，该划定模块132可以用于执行上述步骤220，关于该划定模块132的详细实现方式可以参照上述对步骤220有关的内容。

确定模块133，用于将所述当前视频帧的人像区域与所述当前视频帧的上一视频帧的人像区域进行比对，确定所述当前视频帧的目标区域。可以理解，该确定模块133可以用于执行上述步骤230，关于该确定模块133的详细实现方式可以参照上述对步骤230有关的内容。

发送模块134，用于将所述当前视频帧的目标区域发送至直播接收终端300。可以理解，该发送模块134可以用于执行上述步骤240，关于该发送模块134的详细实现方式可以参照上述对步骤240有关的内容。

进一步地，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有机器可执行指令，机器可执行指令被执行时实现上述实施例提供的人像分割方法。

综上所述，本申请实施例提供的人像分割方法、装置及电子设备，通过将视频采集设备400实时采集到的当前视频帧导入至预先训练得到的人像识别模型中进行识别，以得到当前视频帧对应的掩膜图像。并根据掩膜图像中的各个像素点的标识划定出当前视频帧中的人像区域，再将当前视频帧的人像区域与当前视频帧的上一视频帧的人像区域进行比对，确定当前视频帧的目标区域。如此，基于确定出的目标区域可对视频帧进行多样化的处理，以改善直播场景单一、直播效果不佳的问题。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种人像分割方法，其特征在于，所述方法包括：

将所述当前视频帧的目标区域发送至直播接收终端。

2.根据权利要求1所述的人像分割方法，其特征在于，所述人像识别模型根据预先采集的包含主播图像的样本图像通过神经网络模型训练而得到。

3.根据权利要求1所述的人像分割方法，其特征在于，所述人像识别模型包括第一网络层、第二网络层、第三网络层以及第四网络层；

所述将视频采集设备实时采集到的当前视频帧导入至预先训练得到的人像识别模型中进行识别，输出所述当前视频帧对应的掩膜图像的步骤，包括：

分别利用所述第一网络层和第二网络层对所述当前视频帧进行卷积操作，得到所述当前视频帧的特征图；

利用所述第三网络层对所述特征图进行特征提取及特征融合处理，得到所述当前视频帧的特征融合图像；

利用所述第四网络层对所述特征融合图像进行卷积操作及上采样操作，得到所述当前视频帧对应的掩膜图像。

4.根据权利要求3所述的人像分割方法，其特征在于，所述第一网络层包括多个第一卷积层及多个第二卷积层，第一卷积层和第二卷积层交替设置，相邻两个第一卷积层之间具有至少一个第二卷积层，所述第二网络层包括多个依次连接的第三卷积层；

所述分别利用所述第一网络层和第二网络层对所述当前视频帧进行卷积操作得到所述当前视频帧的特征图的步骤，包括：

将所述当前视频帧的图像依次输入所述第一网络层中的第一卷积层和第二卷积层进行卷积操作，得到第一特征图像；

将所述第一特征图像依次输入所述第二网络层中的多个第三卷积层进行卷积处理，得到所述当前视频帧的特征图；

其中，各所述第一卷积层对输入的图像进行卷积操作得到对应的第一卷积特征图，将该第一卷积特征图输出至该第一卷积层的下一卷积层；

各所述第二卷积层对输入的图像进行特征提取后得到第二卷积特征图，并将该第二卷积特征图以及输入该第二卷积层的图像一起输出至下一卷积层；

各所述第三卷积层对输入的图像进行卷积操作得到对应的第三卷积特征图，将该第三卷积特征图输出至该第三卷积层的下一卷积层。

5.根据权利要求3所述的人像分割方法，其特征在于，所述第三网络层包括多个第四卷积层以及一个第五卷积层；

所述利用所述第三网络层对所述当前视频帧的特征图进行特征提取及特征融合处理，得到所述当前视频帧的特征融合图像的步骤，包括：

将所述当前视频帧的特征图输入至各所述第四卷积层分别进行特征提取处理得到多个第四卷积特征图，并将得到的各第四卷积特征图输出至所述第五卷积层；

所述第五卷积层对各所述第四卷积特征图进行特征融合处理，得到所述当前视频帧的特征融合图像。

6.根据权利要求4所述的人像分割方法，其特征在于，所述第四网络层包括上采样层以及第六卷积层，该第六卷积层分别连接至所述上采样层以及所述第一网络层中的其中一个第一卷积层或其中一个第二卷积层；

所述利用所述第四网络层对所述当前视频帧的特征融合图像进行卷积操作及上采样操作，得到所述当前视频帧对应的掩膜图像的步骤，包括：

将所述当前视频帧的特征融合图像输入所述上采样层进行上采样操作得到采样图像并输出至所述第六卷积层；

所述第六卷积层接收所连接的第一卷积层输出的第一卷积特征图或第二卷积层输出的第二卷积特征图以及所述上采样层输出的采样图像，对接收到的图像进行融合处理得到融合图像，并对所述融合图像进行卷积操作得到所述当前视频帧对应的掩膜图像。

7.根据权利要求1-6任意一项所述的人像分割方法，其特征在于，所述根据所述掩膜图像中的各个像素点的标识划定出所述当前视频帧的人像区域的步骤，包括：

利用最小矩形框框定所述掩膜图像中标识为1的所有像素点；

根据所述最小矩形框内标识为1的像素点在所述最小矩形框的所有像素点中的占比，判断所述掩膜图像中是否包含人像区域；

若包含人像区域，则根据所述掩膜图像中的人像区域划定出所述当前视频帧的人像区域。

8.根据权利要求7所述的人像分割方法，其特征在于，所述利用最小矩形框框定所述掩膜图像中标识为1的所有像素点的步骤，包括：

获取所述掩膜图像中标识为1的所有像素点中分别在横轴方向和纵轴方向具有极值的像素点，其中，该极值包括极大值和极小值；

根据获取到的具有极值的像素点在所述掩膜图像中的位置划设最小矩形框，该最小矩形框的各边线经过其中一个具有极值的像素点。

9.根据权利要求7所述的人像分割方法，其特征在于，所述根据所述最小矩形框内标识为1的像素点在所述最小矩形框的所有像素点中的占比，判断所述掩膜图像中是否包含人像区域的步骤，包括：

计算所述最小矩形框内由标识为1的像素点组成的区域的第一面积，并计算所述最小矩形框的第二面积；

计算所述第一面积与所述第二面积之间的比值；

在所述比值大于预设值时，确定所述掩膜图像中标识为1的像素点构成的区域为人像区域。

10.根据权利要求1-6任意一项所述的人像分割方法，其特征在于，所述将所述当前视频帧的人像区域与所述当前视频帧的上一视频帧的人像区域进行比对，确定所述当前视频帧的目标区域的步骤，包括：

计算得到所述当前视频帧的人像区域与所述当前视频帧的上一视频帧的人像区域之间的坐标偏差值；

在所述坐标偏差值小于或等于预设阈值时，根据所述上一视频帧的人像区域的坐标在所述当前视频帧中划定出目标区域；

在所述坐标偏差值大于所述预设阈值时，将所述当前视频帧的人像区域作为所述目标区域。

11.根据权利要求10所述的人像分割方法，其特征在于，所述计算得到所述当前视频帧的人像区域与所述当前视频帧的上一视频帧的人像区域之间的坐标偏差值的步骤，包括：

按相同划分规则分别将所述当前视频帧的人像区域划分为多个第一子区域，将所述上一视频帧的人像区域划分为多个第二子区域；

针对每个所述第一子区域，计算得到所述第一子区域的重心点与对应的第二子区域的重心点之间的坐标偏差值。

12.一种人像分割装置，其特征在于，所述装置包括：

13.一种电子设备，其特征在于，包括一个或多个存储介质和一个或多个与存储介质通信的处理器，一个或多个存储介质存储有处理器可执行的机器可执行指令，当电子设备运行时，处理器执行所述机器可执行指令，以执行权利要求1-11中任意一项所述的人像分割方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有机器可执行指令，所述机器可执行指令被执行时实现权利要求1-11中任意一项所述的人像分割方法。