CN108010037B

CN108010037B - 图像处理方法、装置及存储介质

Info

Publication number: CN108010037B
Application number: CN201711225375.8A
Authority: CN
Inventors: 张志辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2019-09-13
Anticipated expiration: 2037-11-29
Also published as: CN108010037A

Abstract

本申请公开了一种图像处理方法，其特征在于，包括：采集直播视频图像的过程中，响应于对终端屏幕的选取指令，确定该选取指令对应的帧图像以及终端屏幕上的选定区域；根据所述终端屏幕上的选定区域确定该帧图像中的第一区域；确定该帧图像中的第一图像特征信息和第二图像特征信息；确定该帧图像中各像素点的第一标识；将所述第一图像特征信息、所述第二图像特征信息及所述各像素点的第一标识输入统计预测模型；及确定该统计预测模型输出的该帧图像中各像素点的第二标识；根据该帧图像中的所述第一图像部分、所述第二图像部分，确定该帧之后的其他各帧图像中的第一图像部分及第二图像部分。本申请还提出了相应的装置及存储介质。

Description

图像处理方法、装置及存储介质

技术领域

本申请涉及图像处理领域，尤其涉及一种图像处理方法、装置及存储介质。

背景技术

随着图像处理技术的发展，人们对图像分割的需求也日益广泛。在各种图像应用中，对图像目标进行提取和测量都离不开图像分割，图像分割广泛应用在监视、视频图像、遥感及生物医学图像中。

目前随着深度学习技术的发展，智能监控、人脸道具直播、智能图片识别等领域都有快速的发展。而直播技术目前已经广泛应用在教育、体育、外卖等领域。在目前的直播场景中，由于移动端的处理能力有限及深度学习技术目前还不能精确的对对象进行分割，因此这就限制了直播的发展，在直播场景中如何将前景跟背景快速准确的分割开来就成了一个难题。

发明内容

本申请实例提供一种图像处理方法，能够在终端进行前景、背景分离时降低资源消耗，该方法包括：

采集直播视频图像的过程中，响应于对终端屏幕的选取指令，获取该选取指令对应的帧图像以及终端屏幕上的选定区域；

根据所述终端屏幕上的选定区域获取该帧图像中的第一区域，所述第一区域位于所述帧图像中的前景部分；

确定该帧图像中的第一图像特征信息和第二图像特征信息，所述第一图像特征信息根据该帧图像中所述第一区域而确定，所述第二图像特征信息根据该帧图像中除所述第一区域之外的第二区域而确定；

设置该帧图像中各像素点的第一标识，所述第一标识用以表征对应像素点属于所述第一区域还是属于所述第二区域；

将所述第一图像特征信息、所述第二图像特征信息及所述各像素点的第一标识输入统计预测模型；及

确定该统计预测模型输出的该帧图像中各像素点的第二标识，该第二标识用以表征对应像素点属于所述第一区域对应的第一图像部分还是属于所述第二区域对应的第二图像部分，所述第一图像部分为所述帧图像中的前景部分，所述第二图像部分为所述帧图像中的背景部分；

根据该帧图像中的所述第一图像部分、所述第二图像部分，确定该帧之后所述选取指令对应的其他各帧图像中的第一图像部分及第二图像部分。

本申请实例还提供了一种图像处理装置，包括：

选取单元，用于采集直播视频图像的过程中，响应于对终端屏幕的选取指令，获取该选取指令对应的帧图像以及终端屏幕上的选定区域；

特征信息确定单元，用于确定该帧图像中的第一图像特征信息和第二图像特征信息，所述第一图像特征信息根据该帧图像中所述第一区域而确定，所述第二图像特征信息根据该帧图像中除所述第一区域之外的第二区域而确定；

第一标识设置单元，用于设置该帧图像中各像素点的第一标识，所述第一标识用以表征对应像素点属于所述第一区域还是属于所述第二区域；

输入单元，用以将所述第一图像特征信息、所述第二图像特征信息及所述各像素点的第一标识输入统计预测模型；及

第二标识确定单元，用于确定该统计预测模型输出的该帧图像中各像素点的第二标识，该第二标识用以表征对应像素点属于所述第一区域对应的第一图像部分还是属于所述第二区域对应的第二图像部分，所述第一图像部分为所述帧图像中的前景部分，所述第二图像部分为所述帧图像中的背景部分；

本申请实例还提供了一种计算机可读存储介质，存储有计算机可读指令，可以使至少一个处理器执行如上述所述的方法。

采用本申请的上述方案，在终端上实现图像分离时减低资源消耗。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例涉及的系统构架图；

图2是本申请一个实施例图像处理方法的流程图；

图3是本申请一个实施例录制视频页面结构示意图；

图4是本申请一个实施例确定选定区域的结构示意图；

图5是本申请一个实施例图像处理装置的结构示意图；以及

图6为本申请实例中的计算设备组成结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提出了一种图像处理方法、装置及存储介质，该方法可应用于图1所示的系统构架中。如图1所示，该系统架构包括：第一客户端101、直播服务器102、以及第二客户端103。其中，第一客户端101、第二客户端103与直播服务器102之间通过互联网连接。第一客户端101可以为直播场景中的推流客户端(直播场景中发送直播视频流的客户端，即直播场景中发送直播的客户端)例如，直播场景中的直播人员使用的客户端，该推流客户端可以为直播应用APP，通过权限审核的直播人员利用该直播应用APP录制视频，发送直播。此外，用户通过直播应用APP还可以观看直播。当用户通过直播应用APP录制视频发送直播时，调用该直播应用APP所在终端的摄像头进行视频，直播应用APP将采集的音视频编码后进行封装，媒体数据流的封装可以采用TS(Transport Stream，传输流)、FLV(Flash Video，流媒体)等封装格式。第一客户端101在向直播服务器102进行推流时，可以采用RTMP(Real TimeMessaging Protocol，实时消息传输协议)协议、RTSP(Real Time Streaming Protocol，实时流传输协议)协议及HLS(HTTP Live Streaming，HTTP流媒体协议)协议等。直播服务器将接收到的媒体数据流发送给第二客户端103，第二客户端103将媒体数据流解码后展示音视频。其中，第二客户端为终端用户客户端，该第二客户端为拉流客户端(直播场景中获取直播视频流的客户端，即直播场景中观看直播的客户端)该用户客户端也可以为直播应用APP，用户通过该直播应用APP观看直播。

在上述直播场景中，需要进行图像分割，例如图像前景背景分离，以使得对划分后的前景或背景进行处理，例如前景的美化、背景的替换、背景虚化等。在一些实例中，可以在采集端，即上述第一客户端101处对采集的图像进行前景背景分离，将分离后的图像叠加特效后编码发送给直播服务器，然后再由直播服务器转发给播放终端，如第二客户端103。还可以在直播服务器102处对视频流进行解码，然后再对解码后的各帧图像进行前景背景分离，之后将分离后的图像重新编码发送给第二客户端103。此外还可以在第二客户端103处对解码后的视频流进行前景、背景的分离。在该实例中，在直播服务器侧做前景、背景分离的方法导致直播服务器增加了解码、分离、编码等额外的资源消耗。在推流客户端处进行前景背景分离时，如果要进行精确的前景背景分离，需要用到深度学习，但由于推流客户端所在终端的性能限制，在该终端上进行深度学习的效率很低；在第二客户端103处进行前景背景分离，同样因为终端的性能限制而无法实现。

为解决以上技术问题，本申请提出了一种图像处理方法，应用于第一客户端101，如图2所示，该方法包括步骤：

201：采集直播视频图像的过程中，响应于对终端屏幕的选取指令，获取该选取指令对应的帧图像以及终端屏幕上的选定区域。

当用户通过第一客户端101录制视频发送直播时，第一客户端101响应于用户对直播控件的操作，调用第一客户端101所处的终端的摄像头进行录制视频，录制视频的页面图如图3所示。在图3所示的录制页面上，包括当前用户的标识301，例如直播人员的标识，录制中标识302，录制时间304及录制结束控件303及录制图像305。在录制视频的过程中，响应于用户对终端屏幕的选取指令，确定该选取指令对应的帧图像，以及确定终端屏幕上的选定区域。第一客户端101获取该选取指令的时间，同时根据采集的帧图像的时间，可以确定该选取指令对应哪一帧图像，例如，确定用户的选取指令对应第i帧图像。同时，确定该选取指令对应的终端屏幕上的选定区域。例如，对于触摸屏的终端，用户在终端屏幕上点击4个点A、B、C、D，客户端响应于用户对终端屏幕的点击，获取所述4个点的位置数据，根据该4个点的位置数据，确定终端屏幕上的选定区域306。对于使用鼠标的终端，通过对鼠标的点击操作，也可以获取上述4个点及对应的选定区域。还可以采用其他个数的点击数获取对应的选定区域，以及在终端屏幕上滑动闭合区域的轨迹的方式获取所述选定区域。所述选定区域对应的图像中的部分为用户想要分割的图像中的前景区域。例如，在采集的图像中包括一人物，所述选定区域可以为对应用户脸部的一区域，该区域可以为对应脸部的一部分区域，从而在后续的处理中，根据该部分区域将图像中的完整的人脸分离出来作为图像中的前景部分，图像中的其余部分为背景。

202：根据所述终端屏幕上的选定区域获取该帧图像中的第一区域。

在步骤201中的选取区域为终端屏幕上的选定区域，其中终端屏幕上的坐标与图像坐标存在一对应关系，即终端屏幕上的坐标与图像像素坐标之间存在换算矩阵，根据该换算矩阵及终端屏幕上的坐标可以确定图像中对应的像素坐标。从而根据步骤201中确定的选取区域可以确定图像中像素的第一区域，该第一区域与选取指令相对应，例如，在采集视频的过程中，第一客户端根据用户在终端屏幕上的选取指令确定与该选取指令对应的图像上的第一区域，例如，该第一区域为用户选取的当前图像中人物脸部的一部分区域，后续根据该脸部的一部分区域将整个脸部图像分离出来。

203：确定该帧图像中的第一图像特征信息和第二图像特征信息，所述第一图像特征信息根据该帧图像中所述第一区域而确定，所述第二图像特征信息根据该帧图像中除所述第一区域之外的第二区域而确定。

在步骤202确定第一区域后，图像中处第一区域之外的其余区域为第二区域。计算确定第一区域的第一图像特征信息及第二区域的第二图像特征信息，后续根据该第一区域的第一图像特征信息及第二区域的第二图像特征信息将第一区域对应的图像中的前景部分与第二区域对应的图像中的背景部分进行分离。本申请中图像的前景背景分离通过统计预测模型得到，该统计预测模型可以为马尔可夫随机场模型，在马尔可夫随机场模型中，包括标号场先验模型和特征场模型(也称为灰度场模型)，通过标号场先验模型和特征场模型对图像进行分割。在本申请中，将图像分割为前景和背景，在图像分割的过程中，通过标号场先验模型确定出一个像素点属于前景的概率、属于背景的概率，通过特征场模型确定出一个像素点属于前景的概率、属于背景的概率，将确定的一个像素点属于前景的两个概率的乘积作为该像素点属于前景的概率；将确定的一个像素点属于背景的两个概率的乘积作为该像素点属于背景的概率。其中对于特征场模型，是拟合原始的观测数据，尽可能反映出每一个分类的特征信息。在本申请中，在第一区域为一个的情况下，图像最终被分割为两个区域，所述第一区域所在的前景区域及其余的背景区域。特征场模型描述所述第一区域的灰度分布及所述第二区域的灰度分布，该特征场模型的参数包括所述第一区域的灰度均值及方差、第二区域的灰度均值及方差，所述第一区域中像素点占图像中总像素点的比例，第二区域中像素点占图像中总像素点的比例。其中，所述第一图像特征信息包括第一区域的灰度均值及方差、第一区域中像素点占图像中总像素点的比例，所述第二图像特征信息包括第二区域的灰度均值及方差、第二区域中像素点占图像中总像素点的比例。根据第一图像特征信息及第二图像特征信息确定特征场模型。

204：设置该帧图像中各像素点的第一标识，所述第一标识用以表征对应像素点属于所述第一区域还是属于所述第二区域。

将第一区域中的各像素点设置第一标识，将第二区域中各像素点设置第二标识。根据所述第一区域、第二区域确定图像中各像素点的第一标识，其中第一区域中包括的像素点的第一标识可以为1，表征该像素点属于前景，第二区域中包括的像素点的第一标识可以为0，表征该像素点属于背景。马尔可夫随机场模型中包括标号场先验模型，如上所述，标号场先验模型可以确定一个像素点属于前景的概率及属于背景的概率，当确定一个像素点属于前景的概率时，根据各像素点的第一标识确定一个像素点属于前景的势团，根据该势团确定一个像素点属于前景的概率。相对应的，当确定一个像素点属于背景的概率时，根据各像素点的第一标识确定一个像素点属于背景的势团，根据该势团确定一个像素点属于背景的概率。

205：将所述第一图像特征信息、所述第二图像特征信息及所述各像素点的第一标识输入统计预测模型；及确定该统计预测模型输出的该帧图像中各像素点的第二标识，该第二标识用以表征对应像素点属于所述第一区域对应的第一图像部分还是属于所述第二区域对应的第二图像部分。

第一区域对应的第一图像部分，例如，用户的选取指令对应的第一区域为人物的脸部的一块区域，则第一区域为图像中的人物的整个脸部区域。具体地，用户在录制视频的过程中，在人物脸部图像对应的终端屏幕上选取一区域时，该终端屏幕上的选定区域仅对应脸部图像的部分区域。通过模型确定的第一图像部分为整个脸部图像。图像上第一区域之外的部分为第二区域，图像上除第一图像部分之外的部分为第二图像部分。当用户选取所述选定区域用以进行图像分离时，该第一图像部分对应图像中的前景、该第二图像部分为图像中的背景。第一区域及第二区域中的各像素点的标识为第一标识，第一标识用以表征对应像素点属于第一区域还是第二区域，第一图像部分、第二图像部分中各像素点的标识为第二标识，该第二标识，例如，可以指示对应像素点属于前景还是背景。

该统计预测模型可以为马尔可夫随机场模型，马尔可夫随机场模型中包括特征场模型与标号场先验模型。在通过统计预测模型确定一个像素点属于前景的概率、属于背景的概率时，通过标号场先验模型确定该像素点属于前景的概率、属于背景的概率，通过特征场模型确定该像素点属于前景的概率、属于背景的概率，将通过标号场先验模型确定的该像素点属于前景的概率与通过特征场模型确定的该像素点属于前景的概率的乘积作为该像素点属于前景的概率，同时将通过标号场先验模型确定的该像素点属于背景的概率与通过特征场模型确定的该像素点属于背景的概率的乘积作为该像素点属于背景的概率。当该像素点属于前景的概率大时，将该像素点标记为前景，例如用1标识，当该像素点属于背景的概率大时，将该像素点标记为背景，例如用0标识。根据图像中各像素点的第一标识，经过一次预测模型计算后，各像素点的标识更新一遍，更新后的各像素点的标识作为下一次的预测模型的输入，进行迭代运算，迭代运算的结束条件可以是迭代次数达到预设值。各前景像素点构成的区域形成所述第一图像部分，各背景像素点构成的区域形成所述第二图像部分。

其中，当根据特征场模型确定一个像素点属于前景的概率、属于背景的概率时，根据第一像素点的标识，根据步骤203中确定的第一区域中各像素点的灰度均值、方差，第一区域中像素点数占总像素点数的比例，确定该像素点属于前景的概率；相应地，根据步骤203中确定的第二区域中各像素点的灰度均值、方差，第二区域中像素点数占总像素点数的比例，确定该像素点属于背景的概率。

当根据标号场先验模型确定一个像素点属于前景的概率、属于背景的概率时，根据各像素点的第一标识，确定该像素点属于前景的势团、属于背景的势团，根据该像素点属于前景的势团确定该像素点属于前景的概率，根据该像素点属于背景的势团确定该像素点属于背景的概率。

206：根据该帧图像中的所述第一图像部分、所述第二图像部分，确定该帧之后所述选取指令对应的其他各帧图像中的第一图像部分及第二图像部分。

在用户选取的选定区域没有改变的情况下，通过步骤201-206分离出一帧图像的第一图像部分及第二图像部分后，该帧图像之后的图像的分离，可以根据所述第一图像部分及第二图像部分采用追踪识别的方式分离后续各帧图像的第一图像部分及第二图像部分。具体地，当根据前述步骤201-205确定出一帧图像的第一图像部分，例如前景部分，及第二图像部分，例如背景部分时，根据确定出的第一图像部分及第二图像部分确定该帧之后的其他各帧图像的第一图像部分及第二图像部分。以只有一个前景部分为例进行说明，根据分割后的该帧图像中的前景部分，追踪识别之后的其他各帧中确定出对应的前景部分，例如，对于之后的第i帧图像，遍历该帧图像，确定出多个与所述前景部分相同大小的区域，分别计算各区域与所述前景部分的区域中的灰度值的均方差，将均方差值最小的区域确定为该帧图像中的前景部分，其余区域为背景部分。

在采集图像的过程中，用户可以实时改变选定区域，例如，通过改变对屏幕的选取指令的操作位置改变选定区域，当选定区域改变后，执行上述的步骤201-206，即根据该新的选定区域确定所述选取指令对应的帧图像及该帧图像之后的各帧图像的第一图像部分(例如，前景)及第二图像部分(例如，背景)根据用户选取的区域进行图像分离，具有较好的互动性，例如，当用户选取的区域位于图像中的一人物的脸部区域时，则将图像中的脸部区域与其余区域分离开来，当用户选取的区域位于图像中的一人物的手部区域时，则将图像中的手部区域与其余区域分离开来。

采用本申请提供的图像处理方法，确定用户的选取指令对应的图像中的第一区域的第一图像特征信息，确定第一区域之外的第二区域的图像特征信息，同时根据第一区域及第二区域确定图像中各像素点的第一标识，将第一图像特征信息、第二图像特征信息及各像素点的第一标识输入统计预测模型，确定统计预测模型输出的各像素点属于第一图像部分还是第二图像部分的第二标识，从而将图像分离为第一图像部分及第二图像部分。采用统计预测模型对图像进行分离，该统计预测模型相对于深度学习资源消耗小，从而在终端实现图像分离时资源消耗小。在一些实例中，其中，所述选取指令包括多个选取指令，所述获取该选取指令对应的帧图像以及终端屏幕上的选定区域包括：

S301：获取所述终端屏幕上所述多个选取指令对应的多个子选定区域。

在图2所示的实例中，选取指令为一个，对应的屏幕上的选定区域为一个，根据该选定区域可以将图像划分为前景、背景两个区域。在该实例中，用户可以选取多个子选定区域，例如，获取多个如图4中的选择框。用以提取图像中的多个前景部分及背景部分。

其中，在上述步骤202中，在执行所述根据所述终端屏幕上的选定区域确定该帧图像中的第一区域包括：

S302：根据所述多个子选定区域确定该帧图像中的多个子区域，所述多个子区域组成所述第一区域。

根据步骤S301中确定的多个选定区域，确定各选定区域对应的图像中的子区域，各子区域构成所述第一区域。每个选定区域对应到图像中的一个子区域，每一个子区域属于不同的前景部分，例如图像中人物的头部对应一个前景，胳膊对应一个前景等。其中不同的子区域对应不同的第一标识，假设有2个子区域，一个子区域在图像中人物的脸部，另一个子区域在胳膊处，则可以用第一标识“1”表征脸部的子区域，用第一标识“2”表征胳膊处的子区域，其余区域用标识“0”表征。

其中，所述第一图像特征信息包括：根据所述多个子区域确定的各子区域的图像特征信息；其中，所述像素点的所述第一标识用以表征该像素点所属的子区域或者所属的第二区域。其中，所述第一图像部分包括所述多个子区域对应的多个子图像部分；所述像素点的第二标识用以表征该像素点所属的子图像部分或者所属的第二图像部分。

第二图像特征信息仍然对应于背景区域的图像特征信息，第一图像特征信息包括各子区域的图像特征信息，例如，标识为“1”的区域的第一图像特征信息及标识为“2”的区域的第一图像特征信息。最终通过统计预测模型确定的各像素点的标识，当标识为“0”时，表征对应像素点属于背景，当标识为“1”时，表征对应像素点属于脸部的前景，当标识为“2”时，表征对应像素点属于胳膊处前景。即可以确定图像中属于脸部的子图像部分、图像中属于胳膊的子图像部分及背景图像部分。

在一些实例中，本申请提供的图像处理方法进一步包括步骤：

S401：将采集到的每一帧图像中的第一图像部分或第二图像部分进行特效处理，将处理后的每一帧图像进行编码后形成直播数据流。

在该实例中，推流客户端将采集的每帧图像进行前景背景分离后，可以对前景或者背景进行处理，例如，替换背景、虚化背景及美化前景等。其中，当用户的选定区域包括多个时，图像中对应的前景有多个子部分，可以对该多个子部分整体进行特效处理。推流客户端将处理后的前景部分或背景部分进行编码后形成直播数据流，

S402：将所述直播数据流发送给直播服务器，以使该直播服务器将该直播数据流发送给播放客户端。

将形成的直播数据流发送给直播服务器，由直播服务器发送给播放客户端，由播放客户端对直播数据流进行解码后，形成所述第一图像部分或第二图像部分。播放客户端在渲染该第一图像部分或第二图像部分形成视频时，例如，当只有第二图像部分，即背景部分时，播放客户端根据第二图像部分渲染形成的图像只有背景部分，播放客户端可以在前景图像部分设置预定的图像，例如，设置卡通人物等，或者将前景部分的各像素点设置为白色。

在一些实例中，本申请提供的图像处理方法，进一步包括：

S501：将采集到的每一帧图像中的第一图像部分和第二图像部分分别进行第一特效处理和第二特效处理，将处理后的每一帧图像进行编码后形成直播数据流。

在该实例中，推流客户端将采集的图像中的第一图像部分(例如，前景部分)及第二图像部分(例如，背景部分)都进行发送。同时由推流客户端对图像中的前景部分及背景部分进行不同的特效处理，例如，可以对前景部分进行美化处理，对背景部分进行虚化处理。

S502：将所述直播数据流发送给直播服务器，以使该直播服务器将该直播数据流发送给播放客户端。

该步骤与上述S402的步骤相同，在此步骤赘述。

在一些实例中，本申请提供的图像处理方法，进一步包括：

S601：将采集到的每一帧图像中的多个子图像部分及第二图像部分分别进行各子图像部分对应的特效处理及第二图像部分对应的特效处理，将处理后的每一帧图像进行编码后形成直播数据流。

在该实例中，图像中的第一图像部分包括多个子图像部分，例如前景部分中的多个子图像部分，在对图像进行特效处理时，将各个子图像部分进行不同的特效处理。

S602：将所述直播数据流发送给直播服务器，以使该直播服务器将该直播数据流发送给播放客户端。

该步骤与上述S402、S502中的步骤相同，在此不再赘述。

在一些实例中，本申请提供的图像处理方法进一步包括：

S701：将所述处理后的每一帧图像在采集窗口进行渲染；

在该实例中，对特效处理后的图像进行预览，可以在采集图像的过程中，在采集窗口中渲染处理后的图像。例如，对图像进行特效处理时，可以在图4所示的采集页面上，通过操作控件307实现对图像的特效处理，同时在图4中的采集窗口中展示处理后的每帧图像。

其中，在上述步骤S402、S502及S602中，在执行所述将所述直播数据流发送给直播服务器时，包括步骤：

S702：响应于对该采集窗口上的采集确认控件的操作，展示发送页面，响应于对该发送页面上的发送控件的操作，获取发送指示，根据该发送指示将所述直播数据流发送给直播服务器。

响应于对图4中的控件303的操作，结束图像的采集，跳转到发送页面，在该发送页面上展示有发送控件，第一客户端响应于用户对发送控件的操作，获取发送指示，根据该发送指示将形成的直播数据流发送给直播服务器。

在一些实例中，本申请提供的图像处理方法进一步包括：

将每一帧图像中的第一图像部分及第二图像部分进行编码后形成直播数据流；

设置该直播数据流的交互指示；

将所述直播数据流及所述交互指示发送给直播服务器，以使所述直播服务器根据所述交互指示，对所述直播数据流进行解码后形成的各帧图像中的所述第一图像部分和/或所述第二图像部分进行特效处理，将处理后的各帧图像编码后形成新的直播数据流，并将该新的直播数据流发送给播放客户端。

在该实例中，例如，第一图像部分及第二图像部分分别为前景部分及背景部分时，推流客户端将采集的每帧图像的前景部分及背景部分都进行发送，由服务器进行特效处理。将前景部分、背景部分进行编码形成直播数据流，该直播数据流中同时还包括前景部分中各像素点的标识及背景部分中各像素点的标识。同时设置该直播数据流的交互指示，在图4所示的推流客户端的视频采集页面中，设置有设置控件307，点击该设置控件307，展示有换背景控件308，虚化背景控件309及美化前景控件310，当点击换背景控件308时，展示有多个背景标识，用户选取其中一个背景标识，所述交互指示中包括选取的背景的标识，将该交互指示发送给直播服务器时，直播服务器根据该交互指示将视频的每帧图像的背景部分替换为所述背景标识对应的背景。当用户选取美化前景控件310时，交互指示中包括美化标识，当将该交互指示发送给直播服务器，以使直播服务器根据该交互指示，对直播数据流中的每帧图像的前景部分进行美化处理。在图4所示的页面中，还可以包括其他的特效处理控件，以实现对直播数据流中的图像进行相应的特效处理。

在一些实例中，本申请提出的图像处理方法，进一步包括：

将每一帧图像中的第一图像部分或第二图像部分进行编码后形成直播数据流；

设置该直播数据流的交互指示；

将所述直播数据流及所述交互指示发送给直播服务器，以使直播服务器根据所述交互指示，对所述直播数据流进行解码后形成的所述第一图像部分或所述第二图像部分各帧图像行特效处理，将处理后的所述第一图像部分或第二图像部分进行编码后形成新的直播数据流，并将该新的直播数据流发送给播放客户端，以使播放客户端根据该直播数据流展示所述第一图像部分或第二图像部分。

该实例与上一实例类似，不同点在于，上一实例将采集的完整帧图像发送给直播服务器，由直播服务器完成特效处理，在该实例中，根据需要可以只发送采集图像中的前景部分或背景部分，由直播服务器对前景部分或背景部分进行特效处理。其中，播放客户端在渲染该第一图像部分或第二图像部分形成视频时，例如，当只有第二图像部分，即背景部分时，播放客户端根据第二图像部分渲染形成的图像只有背景部分，播放客户端可以在前景图像部分设置预定的图像，例如，设置卡通人物等，或者将前景部分的各像素点设置为白色。其余部分与上一实例相同，在此不再赘述。

在一些实例中，本申请提出的图像处理方法进一步包括：

接收直播服务器发送的所述新的直播数据流；

根据所述新的直播数据流在预览窗口渲染图像；

响应于对该预览窗口上确认控件的操作，获取发送指示，将该发送指示发送给直播服务器，以使直播服务器在收到该发送指示之后将所述新的直播数据流发送给播放客户端。

在该实例中，在直播服务器将特效处理后的图像重新编码后形成新的直播数据流，在将该新的直播数据流发送给播放客户端之前，直播服务器将特效处理后形成的新的直播数据流先发送给推流客户端进行预览，推流客户端根据接收到的所述新的直播数据流，将该新的直播数据流解码后形成的图像在预览窗口中渲染，以对特效处理的视频进行预览。预览后，当用户确认要发送该直播视频后，用户点击预览窗口上的确认控件，推流客户端获取发送指示，将该发送指示发送给直播服务器，使得直播服务器根据该发送指示将所述新的直播数据流发送给播放客户端。

在一些实例中，本申请提供的图像处理方法进一步包括：

将每一帧图像中的第一图像部分及第二图像部分行编码后形成直播数据流；

设置该直播数据流的交互指示；

将所述直播数据流及所述交互指示发送给直播服务器，以使直播服务器将所述直播数据流及所述交互指示发送给播放客户端，以使播放客户端根据所述交互指示对所述直播数据流进行解码后形成的各帧图像中的所述第一图像部分和/或第二图像部分进行特效处理，并将处理的每一帧图像进行渲染。

在该实例中，推流客户端将采集的各帧图像中的第一图像部分、第二图像部分都进行发送，将第一图像部分、第二图像部分进行编码后形成直播数据流，该直播数据流中同时还包括第一图像部分中各像素点的标识及第二图像部分中各像素点的标识。同时设置该直播数据流的交互指示，该交互指示表征该直播数据流中的图像是经过前景背景分离的。推流客户端将直播数据流以及所述交互指示发送给直播服务器，由直播服务器转发给播放客户端，播放客户端根据该交互指示，根据具体的播放需要，对直播数据流进行解码处理后得到的图像进行特效处理，该特效处理可以针对前景进行处理、也可以针对背景进行特效处理，或者对前景、背景都进行特效处理，在进行特效处理时，根据像素点的标识确定出所述第一图像部分、所述第二图像部分。当第一图像部分、第二图像部分分别对于前景部分、背景部分时，特效处理方式包括：替换背景、虚化背景、美化前景、增加道具等。

在一些实例中，本申请提供的图像处理方法，进一步包括：

设置该直播数据流的交互指示；

将所述直播数据流及所述交互指示发送给直播服务器，以使直播服务器将所述直播数据流及所述交互指示发送给播放客户端，以使播放客户端根据所述交互指示对所述直播数据流进行解码后形成的所述第一图像部分或所述第二图像部分进行特效处理，将处理后的所述各帧图像进行渲染。

该实例与上一实例相类似，不同点在于，在上一实例中，推流客户端将采集的每一帧图像的整帧图像发送给直播服务器，由直播服务器转发给播放客户端，由播放客户端进行特效处理。在该实例中，推流客户端只发送每一帧图像中的第一图像部分或第二图像部分，例如前景部分或后背景部分，将采集的每一帧图像中的前景部分的像素点或背景部分的像素点进行编码后形成直播数据流，将该直播数据流经直播服务器发送给播放客户端，由播放客户端根据该直播数据流渲染所述第一图像部分或第二图像部分，根据具体的播放需要，还可以对第一图像部分或第二图像部分进行特效处理。其中，播放客户端在渲染该第一图像部分或第二图像部分形成视频时，例如，当只有第二图像部分，即背景部分时，播放客户端根据第二图像部分渲染形成的图像只有背景部分，播放客户端可以在前景图像部分设置预定的图像，例如，设置卡通人物等，或者将前景部分的各像素点设置为白色。

本申请还提供了一种图像处理装置500，如图5所示，包括：

选取单元501，用于采集直播视频图像的过程中，响应于对终端屏幕的选取指令，获取该选取指令对应的帧图像以及终端屏幕上的选定区域；

根据所述终端屏幕上的选定区域获取该帧图像中的第一区域；

特征信息确定单元502，用于确定该帧图像中的第一图像特征信息和第二图像特征信息，所述第一图像特征信息根据该帧图像中所述第一区域而确定，所述第二图像特征信息根据该帧图像中除所述第一区域之外的第二区域而确定；

第一标识设置单元503，用于设置该帧图像中各像素点的第一标识，所述第一标识用以表征对应像素点属于所述第一区域还是属于所述第二区域；

输入单元504，用以将所述第一图像特征信息、所述第二图像特征信息及所述各像素点的第一标识输入统计预测模型；及

第二标识确定单元505，用于确定该统计预测模型输出的该帧图像中各像素点的第二标识，该第二标识用以表征对应像素点属于所述第一区域对应的第一图像部分还是属于所述第二区域对应的第二图像部分；

采用本申请提供的图像处理装置，在推流端采用统计预测模型进行图像的前景背景分离，该统计预测模型相对于深度学习消耗资源小，在性能不高的推流端的终端处可以实现图像的前景背景分离。同时可以实时接收用户的选取指令，根据选取指令改变前景和背景，具有较好的交互性。

本申请还提供了一种计算机可读存储介质，存储有计算机可读指令，可以使至少一个处理器执行如上述所述的方法。

图6示出了图像处理装置500所在的计算设备的组成结构图。如图6所示，该计算设备包括一个或者多个处理器(CPU)602、通信模块604、存储器606、用户接口610，以及用于互联这些组件的通信总线608。

处理器602可通过通信模块604接收和发送数据以实现网络通信和/或本地通信。

用户接口610包括一个或多个输出设备612，其包括一个或多个扬声器和/或一个或多个可视化显示器。用户接口610也包括一个或多个输入设备614，其包括诸如，键盘，鼠标，声音命令输入单元或扩音器，触屏显示器，触敏输入板，姿势捕获摄像机或其他输入按钮或控件等。

存储器606可以是高速随机存取存储器，诸如DRAM、SRAM、DDR RAM、或其他随机存取固态存储设备；或者非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备，或其他非易失性固态存储设备。

存储器606存储处理器602可执行的指令集，包括：

操作系统616，包括用于处理各种基本系统服务和用于执行硬件相关任务的程序；

应用618，包括图像处理的各种应用程序，这种应用程序能够实现上述各实例中的处理流程，比如可以包括图像处理装置500的部分或全部单元或者模块。图像处理装置500中的各单元中的至少一个单元可以存储有机器可执行指令。处理器602通过执行存储器606中各单元中至少一个单元中的机器可执行指令，进而能够实现上述各单元或模块中的至少一个模块的功能。

需要说明的是，上述各流程和各结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分，实际实现时，一个模块可以分由多个模块实现，多个模块的功能也可以由同一个模块实现，这些模块可以位于同一个设备中，也可以位于不同的设备中。

各实施例中的硬件模块可以以硬件方式或硬件平台加软件的方式实现。上述软件包括机器可读指令，存储在非易失性存储介质中。因此，各实施例也可以体现为软件产品。

各例中，硬件可以由专门的硬件或执行机器可读指令的硬件实现。例如，硬件可以为专门设计的永久性电路或逻辑器件(如专用处理器，如FPGA或ASIC)用于完成特定的操作。硬件也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。

另外，本申请的每一个实施例可以通过如计算机执行的数据处理程序来实现。显然，数据处理程序构成了本申请。此外，通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此，这样的存储介质也构成了本申请。存储介质可以使用任何类型的记录方式，例如纸张存储介质(如纸带等)、磁存储介质(如软盘、硬盘、闪存等)、光存储介质(如CD-ROM等)、磁光存储介质(如MO等)等。

图6模块对应的机器可读指令可以使计算机上操作的操作系统等来完成这里描述的部分或者全部操作。非易失性计算机可读存储介质可以是插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器上。安装在扩展板或者扩展单元上的CPU等可以根据指令执行部分和全部实际操作。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种图像处理方法，其特征在于，包括：

根据所述终端屏幕上的选定区域获取该帧图像中的第一区域，所述第一区域位于该帧图像中的前景部分；

确定该统计预测模型输出的该帧图像中各像素点的第二标识，该第二标识用以表征对应像素点属于所述第一区域对应的第一图像部分还是属于所述第二区域对应的第二图像部分，所述第一图像部分为该帧图像中的前景部分，所述第二图像部分为该帧图像中的背景部分；

2.根据权利要求1所述的方法，其中，所述选取指令包括多个选取指令，所述获取该选取指令对应的帧图像以及终端屏幕上的选定区域包括：

获取所述终端屏幕上所述多个选取指令对应的多个子选定区域；

其中，所述根据所述终端屏幕上的选定区域确定该帧图像中的第一区域包括：

根据所述多个子选定区域确定该帧图像中的多个子区域，所述多个子区域组成所述第一区域；

其中，所述第一图像特征信息包括：根据所述多个子区域确定的各子区域的图像特征信息；

其中，所述像素点的所述第一标识用以表征该像素点所属的子区域或者所述第二区域；

其中，所述第一图像部分包括所述多个子区域对应的多个子图像部分；所述像素点的第二标识用以表征该像素点所属的子图像部分或者所属的第二图像部分。

3.根据权利要求1所述的方法，进一步包括：

将采集到的每一帧图像中的第一图像部分或第二图像部分进行特效处理，将处理后的每一帧图像进行编码后形成直播数据流；

将所述直播数据流发送给直播服务器，以使该直播服务器将该直播数据流发送给播放客户端。

4.根据权利要求1所述的方法，进一步包括：

将采集到的每一帧图像中的第一图像部分和第二图像部分分别进行第一特效处理和第二特效处理，将处理后的每一帧图像进行编码后形成直播数据流；

5.根据权利要求2所述的方法，进一步包括：

将采集到的每一帧图像中的多个子图像部分及第二图像部分分别进行各子图像部分对应的特效处理及第二图像部分对应的特效处理，将处理后的每一帧图像进行编码后形成直播数据流；

6.根据权利要求3-5中任一项所述的方法，进一步包括：

将所述处理后的每一帧图像在采集窗口进行渲染；

其中，所述将所述直播数据流发送给直播服务器包括：

响应于对该采集窗口上的采集确认控件的操作，展示发送页面，响应于对该发送页面上的发送控件的操作，获取发送指示，根据该发送指示将所述直播数据流发送给直播服务器。

7.根据权利要求1所述的方法，进一步包括：

设置该直播数据流的交互指示；

8.根据权利要求1所述的方法，进一步包括：

设置该直播数据流的交互指示；

将所述直播数据流及所述交互指示发送给直播服务器，以使直播服务器根据所述交互指示，对所述直播数据流进行解码后形成的所述第一图像部分或所述第二图像部分进行特效处理，将处理后的所述第一图像部分或第二图像部分进行编码后形成新的直播数据流，并将该新的直播数据流发送给播放客户端，以使播放客户端根据该直播数据流展示所述第一图像部分或第二图像部分。

9.根据权利要求7或8所述的方法，进一步包括：

接收直播服务器发送的所述新的直播数据流；

根据所述新的直播数据流在预览窗口渲染图像；

10.根据权利要求1所述的方法，进一步包括：

设置该直播数据流的交互指示；

11.根据权利要求1所述的方法，进一步包括：

设置该直播数据流的交互指示；

12.一种图像处理装置，其特征在于，包括：

第二标识确定单元，用于确定该统计预测模型输出的该帧图像中各像素点的第二标识，该第二标识用以表征对应像素点属于所述第一区域对应的第一图像部分还是属于所述第二区域对应的第二图像部分，所述第一图像部分为该帧图像中的前景部分，所述第二图像部分为该帧图像中的背景部分；

13.一种计算机可读存储介质，其特征在于：存储有计算机可读指令，可以使至少一个处理器执行如权利要求1-11任一项所述的方法。