CN111340921A

CN111340921A - 染色方法、装置和计算机系统及介质

Info

Publication number: CN111340921A
Application number: CN201811549517.0A
Authority: CN
Inventors: 刘享军; 毛伟; 杨超
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2020-06-26

Abstract

本公开提供了一种染色方法、装置和计算机系统及介质，该染色方法包括：获取视频流，所述视频流包括至少一个视频帧；对于所述至少一个视频帧中的一个视频帧，获取视频帧的待染色区域，至少基于所述待染色区域的灰度图和染料的三原色值得到染色后的视频帧；以及至少基于所述染色后的视频帧得到染色后的视频流。

Description

染色方法、装置和计算机系统及介质

技术领域

本公开涉及计算机技术领域，更具体地，涉及一种染色方法、装置和计算机系统及介质。

背景技术

增强现实(Augmented Reality，简称AR)技术是一种实时计算摄像机位置和姿态，并在现实世界场景中叠加图像、视频和三维渲染模型的技术。这种技术从20世纪90年代被首次提出，在提出之后的一段时间内，受设备计算能力的限制，没有被广泛普及。但是随着电子产品计算能力的提升，增强现实的应用越来越广泛。例如，AR技术被用于AR染发、AR试妆、AR试衣、AR量脚等等，AR技术的普及与应用给人们生活带来了耳目一新的体验，也方便了人们的生活，使得用户已高科技、低成本的方式来体验各种产品。

在实现本公开构思的过程中，发明人发现现有技术中至少存在如下问题：现有的AR试用技术通常不支持实时的动态AR效果，例如，AR染发通常是基于照片形式的染发方案，无法做到实时，用户只能事先准备好一张拍好的照片，通过算法对照片进行染发，对用户来说，无法实时动态的感受染发在自己身上的使用效果。

发明内容

有鉴于此，本公开提供了一种使得用户可以实时动态的感受染色在自己身上的使用效果的染色方法、装置和计算机系统及介质。

本公开的一个方面提供了一种染色方法，包括：获取视频流，所述视频流包括至少一个视频帧，其中，对于所述至少一个视频帧中的一个视频帧，首先，获取视频帧的待染色区域，然后，至少基于所述待染色区域的灰度图和染料的三原色值得到染色后的视频帧，这样就可以至少基于所述染色后的视频帧得到染色后的视频流。其中，待染色区域可以为头发区域、衣服区域、脖子区域、眼睛区域等，这样可以实现不同部位的AR实时染色效果，且染色效果更自然。

根据本公开的实施例，所述获取视频流可以包括如下操作，接收视频流，或者，通过摄像头采集视频流。这样可实时通过摄像头采集视频以得到实时的AR染色效果，也可以输入已经拍摄好的视频进行染色处理。

根据本公开的实施例，所述方法还可以包括如下操作，在获取视频流之后，对所述视频流的至少一个视频帧进行标准化处理，得到标准化图像，其中，所述标准化图像具有以下任意一种或多种特征：预设的分辨率和预设的图像格式。这样可以有效提升染色处理速度。

根据本公开的实施例，所述获取视频帧的待染色区域可以包括如下操作：首先，将一个视频帧输入待染色区域获取模型，得到遮罩图，所述遮罩图为二值图，所述待染色区域对应所述二值图中一种值的区域，然后，基于所述遮罩图和所述视频帧得到所述待染色区域。

根据本公开的实施例，在一种实施方式中，所述至少基于所述待染色区域的灰度图和染料的三原色值得到染色后的视频帧可以包括如下操作，首先，获取所述视频帧的灰度图，然后，基于染料的三原色值对所述视频帧的灰度图进行染色，得到染色视频帧，接着，利用所述遮罩图对所述染色视频帧和所述视频帧进行混合，这样就可以实现对视频进行实施染色。在另一种实施方式中，所述至少基于所述待染色区域的灰度图和染料的三原色值得到染色后的视频帧可以包括如下操作，首先，获取所述视频帧的灰度图，然后，基于所述遮罩图和所述视频帧的灰度图得到待染色区域的灰度图，接着，基于染料的三原色值对所述待染色区域的灰度图进行染色，得到染色区域，然后，将所述染色区域和所述视频帧进行混合。

根据本公开的实施例，所述方法还可以包括如下操作，在得到遮罩图之后，对所述遮罩图的图像边缘进行模糊处理，得到模糊化遮罩图，相应地，所述基于所述遮罩图和所述视频帧得到所述待染色区域包括基于所述模糊化遮罩图和所述视频帧得到所述待染色区域。这样可以有效避免直接利用遮罩图进行染色会造成边缘锯齿现象。

根据本公开的实施例，所述对所述遮罩图的图像边缘进行模糊处理具体可以包括如下操作，首先，将所述遮罩图发送给图像处理器，然后，在着色器中对每个像素进行领域采样，得到每个像素的颜色值，接着，按照高斯核对每个像素的颜色值进行加权平均处理。

根据本公开的实施例，所述待染色区域获取模型包括编码器部分和解码器部分，所述编码器部分和所述解码器部分分别为卷积神经网络，所述编码器部分对应的卷积神经网络的最后一层为卷积层，所述解码器部分对应的卷积神经网络与所述编码器部分对应的卷积神经网络的各层次相对应，且所述解码器部分对应的卷积神经网络无需进行归一化和激活函数运算。

根据本公开的实施例，所述编码器部分依次包括输入层、卷积层、第一指定个数瓶颈层和卷积层，所述解码器部分依次包括第二指定个数上采样层、卷积层和输出层。所述待染色区域获取模型的计算量和参数数量较少，使得该模型可以应用在移动端平台，这样可以利用如智能手机实时采集用户自己或朋友等的视频，并在智能手机中直接进行AR实时染色，便于用户随时查看染色效果。

根据本公开的实施例，所述待染色区域获取模型可以通过以下方式进行训练，首先，将第二版移动端深度学习网络的网络参数作为所述待染色区域获取模型的初始化参数，然后，将训练数据输入所述待染色区域获取模型进行训练，所述训练数据包括待染色区域标识信息。这样可以有效减少模型训练用时。

根据本公开的实施例，所述方法还可以包括如下操作，在至少基于所述染色后的视频帧得到染色后的视频流之后，展示所述染色后的视频流。这样用户可以实时在客户端，如手机上直观地查看染色后的效果，以便于用户确定该颜色是否适合自己或亲友等。

本公开的另一个方面提供了一种染色装置，包括视频流获取模块、染色模块和合成模块，其中，所述视频流获取模块用于获取视频流，所述视频流包括至少一个视频帧，所述染色模块用于对于所述至少一个视频帧中的一个视频帧，首先，获取视频帧的待染色区域，然后，至少基于所述待染色区域的灰度图和染料的三原色值得到染色后的视频帧，所述合成模块用于至少基于所述染色后的视频帧得到染色后的视频流。

根据本公开的实施例，所述装置还可以包括标准化模块，该标准化模块用于在获取视频流之后，对所述视频流的至少一个视频帧进行标准化处理，得到标准化图像，其中，所述标准化图像具有以下任意一种或多种特征：预设的分辨率和预设的图像格式。

根据本公开的实施例，在一种实施方式中，所述染色模块可以包括：遮罩图获取单元、第一灰度图获取单元、第一染色单元和第一混合单元，其中，所述遮罩图获取单元用于将一个视频帧输入待染色区域获取模型，得到遮罩图，所述遮罩图为二值图，所述待染色区域对应所述二值图中一种值的区域，所述第一灰度图获取单元用于获取所述视频帧的灰度图，所述第一染色单元用于基于染料的三原色值对所述视频帧的灰度图进行染色，得到染色视频帧，所述第一混合单元用于利用所述遮罩图对所述染色视频帧和所述视频帧进行混合。在另一种实施方式中，所述染色模块可以包括：遮罩图获取单元、第二灰度图获取单元、第三灰度图获取单元、第二染色单元和第二混合单元，其中，所述遮罩图获取单元用于将一个视频帧输入待染色区域获取模型，得到遮罩图，所述遮罩图为二值图，所述待染色区域对应所述二值图中一种值的区域，所述第二灰度图获取单元用于获取所述视频帧的灰度图，所述第三灰度图获取单元，用于基于所述遮罩图和所述视频帧的灰度图得到待染色区域的灰度图，所述第二染色单元用于基于染料的三原色值对所述待染色区域的灰度图进行染色，得到染色区域，所述第二混合单元用于将所述染色区域和所述视频帧进行混合。

根据本公开的实施例，所述染色模块还可以包括模糊处理单元，该模糊处理单元用于在得到遮罩图之后，对所述遮罩图的图像边缘进行模糊处理，得到模糊化遮罩图。

根据本公开的实施例，所述模糊处理单元可以包括发送子单元、采样子单元和模糊处理子单元，其中，所述发送子单元用于将所述遮罩图发送给图像处理器，所述采样子单元用于在着色器中对每个像素进行领域采样，得到每个像素的颜色值，所述模糊处理子单元用于按照高斯核对每个像素的颜色值进行加权平均处理。

根据本公开的实施例，所述待染色区域获取模型包括编码器部分和解码器部分，所述编码器部分和所述解码器部分分别为卷积神经网络，所述编码器部分对应的卷积神经网络的最后一层为卷积层，所述解码器部分对应的卷积神经网络与所述编码器部分对应的卷积神经网络的各层次相对应，且所述解码器部分对应的卷积神经网络无需进行归一化和激活函数运算。其中，所述编码器部分依次包括输入层、卷积层、第一指定个数瓶颈层和卷积层，所述解码器部分依次包括第二指定个数上采样层、卷积层和输出层。

根据本公开的实施例，所述装置还可以包括展示模块，所述展示模块，用于在至少基于所述染色后的视频帧得到染色后的视频流之后，展示所述染色后的视频流。

本公开的另一个方面提供了一种计算机系统，包括一个或多个处理器以及存储装置，该存储装置用于存储可执行指令，所述可执行指令在被所述处理器执行时，实现如上所述的方法。

本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

本公开的另一方面提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

根据本公开的实施例，由于分别对视频流中的各视频帧的特定区域进行染色，进而可以对视频流的特定区域进行染色，实现了实时的AR染色等，且染色效果更自然。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1A示意性示出了根据本公开实施例的染色方法、装置和计算机系统及介质的应用场景；

图1B示意性示出了根据本公开实施例的可以应用染色方法、装置和计算机系统及介质的示例性系统架构；

图2A示意性示出了根据本公开实施例的染色方法的流程图；

图2B示意性示出了根据本公开实施例的遮罩图的示意图；

图2C示意性示出了根据本公开实施例的获取染色后的视频帧的示意图；

图2D示意性示出了根据本公开另一实施例的获取染色后的视频帧的示意图；

图3A示意性示出了根据本公开实施例的待染色区域获取模型的结构示意图；

图3B示意性示出了根据本公开实施例的待染色区域获取模型的训练方法的流程图；

图3C示意性示出了根据本公开实施例的待染色区域获取模型的训练数据的标注示意图；

图4示意性示出了根据本公开实施例的染色装置的框图；以及

图5示意性示出了根据本公开实施例的适于实现染色方法的计算机系统的方框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

图1A示意性示出了根据本公开实施例的染色方法、装置和计算机系统及介质的应用场景。

用户在购买一些商品之前，通常希望先试下效果，如口红试用、衣服试穿等，但是有些商品不便于试用，如染发剂等。此外，用户通过网上购物时由于不在实体店中也不便于试用产品，如不便于试用口红。为了解决上述问题，现有技术可以将用户的照片通过客户端发送给电商平台，由电商平台对用户的照片进行染色处理，然后反馈给客户端进行展示。然而，现有技术只能对静态的照片进行染色处理，无法给用户展示动态的染色效果，如用户在使用染色剂对头发进行试染色后，想多方位的观看染色后效果时，则无法实现。本公开针对视频流对待染色区域进行逐帧染色，让用户能够以零成本的方式，实时的体验染色的真实效果。

如图1A所示，本公开提供的技术方案使得用户可以采用摄像头采集视频流或录制视频流，以帧为单位对识别出的待染色区域进行染色，然后合成染色后的视频流，这样便于用户更全面的了解试用效果，提升用户体验度，如用户在电商平台选取一款染发剂后，点击试用，则客户端，如手机会通过摄像头采集用户的视频，并实时的进行染色处理，然后再将染色后的视频流实时的展示给用户，像照镜子一样，只是播放的视频中的头发区域已经根据用户选取的染发剂进行染色。这样可以便于帮助用户确定是否购买当前试用的这款染发剂。

图1B示意性示出了根据本公开实施例的可以应用染色方法、装置和计算机系统及介质的示例性系统架构。需要注意的是，图1B所示仅为可以应用本公开实施例的系统架构100的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1B所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，此外还可以是具有摄像头的电子设备以便于采集视频，包括但不限于智能手机、平板电脑、膝上型便携计算机、互联网电视、台式计算机和智能音箱等等。其中，当在终端设备101、102、103上对视频流进行染色处理时，可以通过图形处理器GPU进行图像处理以提升图像处理速度。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是，本公开实施例所提供的染色方法一般可以由终端设备101、102、103或者服务器105执行。相应地，本公开实施例所提供的染色装置一般可以设置于终端设备101、102、103或者服务器105中。本公开实施例所提供的染色方法也可以由不同于终端设备101、102、103或者服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的染色装置也可以设置于不同于终端设备101、102、103或者服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

应该理解，终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2A示意性示出了根据本公开的实施例的用于多个机器人中每个机器人的通信方法的流程图。

如图2A所示，该方法可以包括操作S201～操作S203。

在操作S201，获取视频流，所述视频流包括至少一个视频帧。

在本实施例中，所述获取视频流可以包括：接收视频流，或者，通过摄像头采集视频流。具体地，如果客户端具有染色处理的能力，如较强的运算能力和图像处理能力时，可以通过自身的摄像头采集视频，并进行实时染色处理。如果客户端的图像处理能力较弱，则可以通过摄像头采集视频并发送给服务端，或者将预先录制的视频发送给服务端，由服务端进行染色处理，然后，将染色处理后的视频发送给客户端以便于进行展示。

具体地，所述视频流可以包括多个视频帧，每个视频帧中都可以包括待染色区域，或者只有部分视频帧中包括待染色区域，也可以所有视频帧中都不包括待染色区域，当确定一个视频帧中不包括待染色区域时，则不对该视频帧进行染色处理。

然后，在操作S202，对于所述至少一个视频帧中的一个视频帧，获取视频帧的待染色区域，至少基于所述待染色区域的灰度图和染料的三原色值得到染色后的视频帧。

在本实施例中，所述获取视频帧的待染色区域可以包括如下操作，首先，将一个视频帧输入待染色区域获取模型，得到遮罩图，所述遮罩图为二值图，所述待染色区域对应所述二值图中一种值的区域，然后，基于所述遮罩图和所述视频帧得到所述待染色区域。

可以采用全卷积语义分割网络(Fully Convolutional Networks for SemanticSegmentation，FCN)、编码器-解码器结构的图像分割网络(A Deep ConvolutionalEncoder-Decoder Architecture for Image，Segnet)等语义分割网络，还可以采用移动端深度学习网络(Mobile Networks，MobileNet)，又或者采用在MobileNet基础上提出的第二版移动端深度学习网络(Mobile Networks，MobileNetV2)等进行待染色区域分割。只要是能满足待染色区域识别及分割的模型都可以适用。当上述染色方法适用于客户端，如智能手机时，优选采用对计算能力要求低且能满足实时染色处理的模型。

下面参考图2B～图2D，结合具体实施例对图2A所示的方法做进一步说明。

图2B示意性示出了根据本公开实施例的遮罩图的示意图。如图2B的左图所示，为视频流中的一个视频帧，以头发为待染色区域为例进行说明，将该视频帧输入待染色区域获取模型，则可以得到一个二值图形式的遮罩图，其中，待染色区域为数值“0”或数值“1”所在区域。此外，待染色区域还可以是嘴唇区域、眉毛区域、脸颊区域、额头区域、鼻子区域、牙齿区域、上衣区域、裤子区域、裙子区域、手指区域、指甲区域、脖子区域、睫毛区域、耳朵区域、鞋子区域等中的任意一种或多种。例如，对于口红试用，可以预先训练该待染色区域获取模型以识别出嘴唇区域；对于腮红试用，可以预先训练该待染色区域获取模型以识别出脸颊区域；对于睫毛膏试用，可以预先训练该待染色区域获取模型以识别出睫毛区域；对于指甲油试用，可以预先训练该待染色区域获取模型以识别出指甲区域，在此不再一一列举。

图2C示意性示出了根据本公开实施例的获取染色后的视频帧的示意图。

如图2C所示，在一种实施方式中，以头发为待染色区域，染料为染发剂为例进行说明，所述至少基于所述待染色区域的灰度图和染料的三原色值得到染色后的视频帧可以包括如下操作。

首先，获取所述视频帧的灰度图。

具体地，计算视频帧的灰度图的公式可以如式(1)所示。

G＝dot(C_p,vec3(0.299,0.587,0.114))(1)

其中，C_p为当前片元对应的视频帧颜色值，vec3为三原色值，其中，0.299对应红色转换系数，0.587对应绿色转换系数，0.114对应蓝色转换系数。

然后，基于染料的三原色值对所述视频帧的灰度图进行染色，得到染色视频帧。该染色视频帧可以参考图2C中间图的最上方图所示。

具体地，基于染料的三原色值对所述视频帧的灰度图进行染色的公式可以如式(2)所示。

C_h＝C_r*G(2)

其中，C_r为染发剂颜色值。

接着，利用所述遮罩图对所述染色视频帧和所述视频帧进行混合。

具体地，利用遮罩图(参考图2C的中间图的第二幅图)混合视频帧原图与染色视频帧的公式可以如式(3)所示。

C_final＝mix(C_p,C_h,M)(3)

其中，M为当前片视频帧对应的遮罩图灰度图。

图2D示意性示出了根据本公开另一实施例的获取染色后的视频帧的示意图。

如图2D所示，在另一种实施方式中，以头发为待染色区域，染料为染发剂为例进行说明，所述至少基于所述待染色区域的灰度图和染料的三原色值得到染色后的视频帧可以包括如下操作。

首先，获取所述视频帧的灰度图。

然后，基于所述遮罩图和所述视频帧的灰度图得到待染色区域的灰度图。

接着，基于染料的三原色值对所述待染色区域的灰度图进行染色，得到染色区域。参考2D的中间图的第一、第二和第三幅图所示。

将所述染色区域和所述视频帧进行混合。

通过以上两个实施例即可生成染色后的视频帧。

在另一个实施例中，为了提升染色处理的效率，所述方法还可以包括操作S204。

在操作S204中，在获取视频流之后，对所述视频流的至少一个视频帧进行标准化处理，得到标准化图像，其中，所述标准化图像具有以下任意一种或多种特征：预设的分辨率和预设的图像格式。

具体地，视频帧的图片在输入待染色区域获取模型之前，可以进行预处理得到标准化图片，保证待染色区域获取模型(如分割网络)高效率的实时性。一般采用对图片进行压缩至256*256这个分辨率，并且标准化为png-8格式，这样可以减少计算量与内存消耗。

在又一个实施例中，为了避免直接根据遮罩图进行染色会造成边缘锯齿现象，所述方法还可以包括如下操作。

在得到遮罩图之后，对所述遮罩图的图像边缘进行模糊处理，得到模糊化遮罩图。

在本实施例中，可以采用各种模糊化方案对遮罩图的图像边缘进行模糊处理。

例如，所述对所述遮罩图的图像边缘进行模糊处理可以包括如下操作。

首先，将所述遮罩图发送给图像处理器GPU。由于图像处理器的图像处理能力较强，可以提升处理速率。然后，在着色器中对每个像素进行领域采样，得到每个像素的颜色值。接着，按照高斯核对每个像素的颜色值进行加权平均处理。

可选地，为了满足客户端(如智能手机、平板电脑等)的实时帧率要求，可以通过着色语言(GLSL语言)在GPU完成这一步运算。即将遮罩图提交到GPU，在片元着色器中，对每个像素进行领域采样，最后按照高斯核进行加权平均处理，最后输出为该像素的颜色值。具体地，高斯核可以如表1所示。

表1高斯核示意表

0.0751	0.1238	0.0751
			0.1238	0.2042	0.1238
0.0751	0.1238	0.0751

相应地，所述基于所述遮罩图和所述视频帧得到所述待染色区域包括基于所述模糊化遮罩图和所述视频帧得到所述待染色区域。

在操作S203，至少基于所述染色后的视频帧得到染色后的视频流。具体地，将多个视频帧合成视频流即可。

此外，所述方法还可以包括操作S206。

在操作S206中，在至少基于所述染色后的视频帧得到染色后的视频流之后，展示所述染色后的视频流。

具体地，当在客户端进行染色处理时，可以在染色处理完成后就在本地进行展示，也可以发送给其它客户端进行展示，或同步展示，在此不做限定。当在服务端进行染色处理时，可以将染色后的视频流发送给拍摄视频的客户端进行展示，也可以发送给多个相关的客户端进行展示。

本公开提供的染色方法可以对视频流的特定区域进行染色，实现了实时的AR染色等，且染色效果更自然。

图3A示意性示出了根据本公开实施例的待染色区域获取模型的结构示意图。

如图3A所示，所述待染色区域获取模型包括编码器部分和解码器部分，所述编码器部分和所述解码器部分分别为卷积神经网络，所述编码器部分对应的卷积神经网络的最后一层为卷积层，所述解码器部分对应的卷积神经网络与所述编码器部分对应的卷积神经网络的各层次相对应，且所述解码器部分对应的卷积神经网络无需进行归一化和激活函数运算。

在一种实施方式中，以第二版移动端深度学习网络(MobilenetV2)作为基础网络，为了优化实时在客户端对视频帧中的待染色区域进行分割的目的，参照编码器-解码器(encoder-decoder)结构进行重新设计，总体分为编码器部分和解码器部分。

具体地，编码器部分是在MobilenetV2的基础上做修改，为了做像素级分割，去掉最后的全连接层，代之以卷积层。

解码器部分的层次结构与编码器部分的层次基本对应。每一层在进行反卷积运算后与特征提取部分相同尺寸的特征图(feature map)做通道融合，得到新的feature map后再运行一次卷积。最后一层通过双线性的方式进行固定参数形式的上采样。值得注意的是由于解码器部分的作用是对低分辨率的特征还原成高分辨率的特征，所以在每次卷积之后无需进行归一化和激活函数运算。

可选地，所述编码器部分依次包括输入层、卷积层、第一指定个数瓶颈层(Bottleneck层)和卷积层。所述解码器部分依次包括第二指定个数上采样层、卷积层和输出层。

例如，第一指定个数可以为7个，第二指定个数为4。如图3A所示，所述编码器部分的输入层未图示，用于接收视频帧的图像。图3A中的第一图层(112*112*32)示意普通卷积层，第二图层(112*112*16)至第七图层(7*7*160)分别示意七个瓶颈层(Bottleneck层)，第八图层(7*7*320)示意普通卷积层；图3A的第九图层(14*14*64)至第十二图层(112*112*64)分别示意一个上采样层，其中，每个上采样层将一个Bottleneck层的输出的特征还原成一个更高分辨率的特征，然后通过一个输出层输出给下一个上采样层，经过多个上采样层后将卷积形成的低分辨率的特征还原成与第一图层示意的普通卷积层中特征具有相同分辨率的特征；图3A的第十三图层(112*112*1)示意普通卷积层，第十四图层(224*224*1)示意输出层。需要说明的是，所述编码器部分没有池化层和全连接层。Bottleneck层通常是指的全连接层之前的最后一层或数层，在本实施例中由于利用卷积层代替了传统的全连接层，该Bottleneck层指的第八图层(7*7*320)示意普通卷积层之前的数层。

本公开提供的待染色区域获取模型减少了卷积核的冗余表达，在计算量和参数数量明显下降之后，使得卷积网络可以应用在移动端平台。例如，图像的头发分割属于像素级的语义分割，该待染色区域获取模型在中高端机型可达到每帧耗时50ms左右，基本达到了实时处理的效果。

上述待染色区域获取模型的训练方法可以同现有技术，例如，采用具有待染色区域标注信息的图片输入到模型中，通过调整模型参数使得模型的输出趋近于待染色区域标注信息。

图3B示意性示出了根据本公开实施例的待染色区域获取模型的训练方法的流程图。

如图3B所示，为了提升模型训练效率和训练精准度，考虑到该模型结构是在MobilenetV2的基础上做修改得到的，该MobilenetV2的模型参数可以作为参考。因此，所述待染色区域获取模型通过以下操作进行训练。

在操作S301中，将第二版移动端深度学习网络(MobilenetV2)的网络参数作为所述待染色区域获取模型的初始化参数。

在操作S302中，将训练数据输入所述待染色区域获取模型进行训练，所述训练数据包括待染色区域标识信息。

其中，所述训练数据可以为收集的多个图片(如4000张、6000张、8000张等)，至少部分图片中包括待染色区域。为了增加训练数据的数量，可以对收集的多个图片进行数据增广，例如，可以通过剪裁、微小旋转、镜像、改变通道颜色、轻度模糊等中的一种或多种方法生成新的图片。然后，可以对收集的多个图片进行待染色区域标注，得到训练数据。

图3C示意性示出了根据本公开实施例的待染色区域获取模型的训练数据的标注示意图。

如图3C所示，多个标注点形成的多边形区域即为待染色区域。具体地，可以采用Labelme工具对收集的图像或数据增广处理后的图像进行多边形标注，以头发作为待染色区域为例，标注效果如图3C所示。

图4示意性示出了根据本公开实施例的染色装置的框图。

如图4所示，染色装置400可以包括视频流获取模块410、染色模块420和合成模块430。每个模块所执行的操作可以参考方法的相应部分。

其中，所述视频流获取模块410用于获取视频流，所述视频流包括至少一个视频帧。

所述染色模块420用于对于所述至少一个视频帧中的一个视频帧，获取视频帧的待染色区域，至少基于所述待染色区域的灰度图和染料的三原色值得到染色后的视频帧。

合成模块430用于至少基于所述染色后的视频帧得到染色后的视频流。

所述装置400还可以包括标准化模块440。

该标准化模块440用于在获取视频流之后，对所述视频流的至少一个视频帧进行标准化处理，得到标准化图像，其中，所述标准化图像具有以下任意一种或多种特征：预设的分辨率和预设的图像格式。

在一种实施方式中，所述染色模块420可以包括：遮罩图获取单元、第一灰度图获取单元、第一染色单元和第一混合单元。

其中，所述遮罩图获取单元用于将一个视频帧输入待染色区域获取模型，得到遮罩图，所述遮罩图为二值图，所述待染色区域对应所述二值图中一种值的区域，所述第一灰度图获取单元用于获取所述视频帧的灰度图，所述第一染色单元用于基于染料的三原色值对所述视频帧的灰度图进行染色，得到染色视频帧，所述第一混合单元用于利用所述遮罩图对所述染色视频帧和所述视频帧进行混合。

在另一种实施方式中，所述染色模块420可以包括：遮罩图获取单元、第二灰度图获取单元、第三灰度图获取单元、第二染色单元和第二混合单元。

其中，所述遮罩图获取单元用于将一个视频帧输入待染色区域获取模型，得到遮罩图，所述遮罩图为二值图，所述待染色区域对应所述二值图中一种值的区域，所述第二灰度图获取单元用于获取所述视频帧的灰度图，所述第三灰度图获取单元，用于基于所述遮罩图和所述视频帧的灰度图得到待染色区域的灰度图，所述第二染色单元用于基于染料的三原色值对所述待染色区域的灰度图进行染色，得到染色区域，所述第二混合单元用于将所述染色区域和所述视频帧进行混合。

为了避免直接利用上述遮罩图对视频帧进行染色导致边缘锯齿现象发生，所述染色模块420还可以包括模糊处理单元，该模糊处理单元用于在得到遮罩图之后，对所述遮罩图的图像边缘进行模糊处理，得到模糊化遮罩图。

具体地，所述模糊处理单元可以包括发送子单元、采样子单元和模糊处理子单元。

其中，所述发送子单元用于将所述遮罩图发送给图像处理器，所述采样子单元用于在着色器中对每个像素进行领域采样，得到每个像素的颜色值，所述模糊处理子单元用于按照高斯核对每个像素的颜色值进行加权平均处理。

根据本公开的实施例，所述待染色区域获取模型可以包括编码器部分和解码器部分，所述编码器部分和所述解码器部分分别为卷积神经网络，所述编码器部分对应的卷积神经网络的最后一层为卷积层，所述解码器部分对应的卷积神经网络与所述编码器部分对应的卷积神经网络的各层次相对应，且所述解码器部分对应的卷积神经网络无需进行归一化和激活函数运算。

在一个实施例中，所述编码器部分依次包括输入层、卷积层、第一指定个数瓶颈层和卷积层，所述解码器部分依次包括第二指定个数上采样层、卷积层和输出层。

此外，所述装置400还可以包括展示模块450，所述展示模块450用于在至少基于所述染色后的视频帧得到染色后的视频流之后，展示所述染色后的视频流。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，视频流获取模块410、染色模块420和合成模块430、标准化模块440以及展示模块450中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，视频流获取模块410、染色模块420和合成模块430、标准化模块440以及展示模块450中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，视频流获取模块410、染色模块420和合成模块430、标准化模块440以及展示模块450中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图5示意性示出了根据本公开实施例的适于实现上文描述的方法的计算机系统的方框图。图5示出的计算机系统仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图5所示，根据本公开实施例的计算机系统500包括处理器501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。处理器501例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器501还可以包括用于缓存用途的板载存储器。处理器501可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 503中，存储有系统500操作所需的各种程序和数据。处理器501、ROM 502以及RAM 503通过总线504彼此相连。处理器501通过执行ROM 502和/或RAM 503中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 502和RAM 503以外的一个或多个存储器中。处理器501也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，系统500还可以包括输入/输出(I/O)接口505，输入/输出(I/O)接口505也连接至总线504。系统500还可以包括连接至I/O接口505的以下部件中的一项或多项：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口505。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被处理器501执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 502和/或RAM 503和/或ROM 502和RAM 503以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种染色方法，包括：

获取视频流，所述视频流包括至少一个视频帧；

对于所述至少一个视频帧中的一个视频帧，

获取视频帧的待染色区域，

至少基于所述待染色区域的灰度图和染料的三原色值得到染色后的视频帧；以及

至少基于所述染色后的视频帧得到染色后的视频流。

2.根据权利要求1所述的方法，其中，所述获取视频流包括：

接收视频流；或者

通过摄像头采集视频流。

3.根据权利要求1所述的方法，还包括：

在获取视频流之后，对所述视频流的至少一个视频帧进行标准化处理，得到标准化图像，

其中，所述标准化图像具有以下任意一种或多种特征：预设的分辨率和预设的图像格式。

4.根据权利要求1所述的方法，其中，所述获取视频帧的待染色区域包括：

将一个视频帧输入待染色区域获取模型，得到遮罩图，所述遮罩图为二值图，所述待染色区域对应所述二值图中一种值的区域；以及

基于所述遮罩图和所述视频帧得到所述待染色区域。

5.根据权利要求4所述的方法，其中：

所述至少基于所述待染色区域的灰度图和染料的三原色值得到染色后的视频帧包括：

获取所述视频帧的灰度图；

基于染料的三原色值对所述视频帧的灰度图进行染色，得到染色视频帧；

利用所述遮罩图对所述染色视频帧和所述视频帧进行混合；

或者

获取所述视频帧的灰度图；

基于所述遮罩图和所述视频帧的灰度图得到待染色区域的灰度图；

基于染料的三原色值对所述待染色区域的灰度图进行染色，得到染色区域；以及

将所述染色区域和所述视频帧进行混合。

6.根据权利要求4所述的方法，还包括：

在得到遮罩图之后，对所述遮罩图的图像边缘进行模糊处理，得到模糊化遮罩图；以及

所述基于所述遮罩图和所述视频帧得到所述待染色区域包括基于所述模糊化遮罩图和所述视频帧得到所述待染色区域。

7.根据权利要求6所述的方法，其中，所述对所述遮罩图的图像边缘进行模糊处理包括：

将所述遮罩图发送给图像处理器；

在着色器中对每个像素进行领域采样，得到每个像素的颜色值；以及

按照高斯核对每个像素的颜色值进行加权平均处理。

8.根据权利要求4所述的方法，其中，所述待染色区域获取模型包括编码器部分和解码器部分，所述编码器部分和所述解码器部分分别为卷积神经网络，所述编码器部分对应的卷积神经网络的最后一层为卷积层，所述解码器部分对应的卷积神经网络与所述编码器部分对应的卷积神经网络的各层次相对应，且所述解码器部分对应的卷积神经网络无需进行归一化和激活函数运算。

9.根据权利要求8所述的方法，其中：

所述编码器部分依次包括输入层、卷积层、第一指定个数瓶颈层和卷积层；以及

所述解码器部分依次包括第二指定个数上采样层、卷积层和输出层。

10.根据权利要求8所述的方法，其中，所述待染色区域获取模型通过以下方式进行训练：

将第二版移动端深度学习网络的网络参数作为所述待染色区域获取模型的初始化参数；以及

将训练数据输入所述待染色区域获取模型进行训练，所述训练数据包括待染色区域标识信息。

11.根据权利要求1所述的方法，还包括：

在至少基于所述染色后的视频帧得到染色后的视频流之后，展示所述染色后的视频流。

12.一种染色装置，包括：

视频流获取模块，用于获取视频流，所述视频流包括至少一个视频帧；

染色模块，用于对于所述至少一个视频帧中的一个视频帧，

获取视频帧的待染色区域，

合成模块，用于至少基于所述染色后的视频帧得到染色后的视频流。

13.根据权利要求12所述的装置，还包括：

标准化模块，用于在获取视频流之后，对所述视频流的至少一个视频帧进行标准化处理，得到标准化图像，

14.根据权利要求12所述的装置，其中：

所述染色模块包括：

遮罩图获取单元，用于将一个视频帧输入待染色区域获取模型，得到遮罩图，所述遮罩图为二值图，所述待染色区域对应所述二值图中一种值的区域；

第一灰度图获取单元，用于获取所述视频帧的灰度图；

第一染色单元，用于基于染料的三原色值对所述视频帧的灰度图进行染色，得到染色视频帧；

第一混合单元，用于利用所述遮罩图对所述染色视频帧和所述视频帧进行混合；

或者

所述染色模块包括：

第二灰度图获取单元，用于获取所述视频帧的灰度图；

第三灰度图获取单元，用于基于所述遮罩图和所述视频帧的灰度图得到待染色区域的灰度图；

第二染色单元，用于基于染料的三原色值对所述待染色区域的灰度图进行染色，得到染色区域；以及

第二混合单元，用于将所述染色区域和所述视频帧进行混合。

15.根据权利要求14所述的装置，其中，所述染色模块还包括：

模糊处理单元，用于在得到遮罩图之后，对所述遮罩图的图像边缘进行模糊处理，得到模糊化遮罩图。

16.根据权利要求15所述的装置，其中，所述模糊处理单元包括：

发送子单元，用于将所述遮罩图发送给图像处理器；

采样子单元，用于在着色器中对每个像素进行领域采样，得到每个像素的颜色值；以及

模糊处理子单元，用于按照高斯核对每个像素的颜色值进行加权平均处理。

17.根据权利要求14所述的装置，其中：

所述待染色区域获取模型包括编码器部分和解码器部分，所述编码器部分和所述解码器部分分别为卷积神经网络，所述编码器部分对应的卷积神经网络的最后一层为卷积层，所述解码器部分对应的卷积神经网络与所述编码器部分对应的卷积神经网络的各层次相对应，且所述解码器部分对应的卷积神经网络无需进行归一化和激活函数运算；

其中，所述编码器部分依次包括输入层、卷积层、第一指定个数瓶颈层和卷积层；以及

18.根据权利要求12所述的装置，还包括：

展示模块，用于在至少基于所述染色后的视频帧得到染色后的视频流之后，展示所述染色后的视频流。

19.一种计算机系统，包括：

一个或多个处理器；

存储装置，用于存储可执行指令，所述可执行指令在被所述处理器执行时，实现根据权利要求1～11中任一项所述的方法。

20.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时实现根据权利要求1～11中任一项所述的方法。