CN113924597A

CN113924597A - 利用卷积神经网络跟踪多个目标的图像处理

Info

Publication number: CN113924597A
Application number: CN202080039718.5A
Authority: CN
Inventors: 布伦丹·杜克; 阿卜杜拉·艾哈迈德; 艾德蒙·彭; 埃琳娜·克泽勒; 帕汉姆·阿拉比
Original assignee: Ba Lioulaiya
Current assignee: Ba Lioulaiya
Priority date: 2019-04-30
Filing date: 2020-04-29
Publication date: 2022-01-11
Also published as: JP7498195B2; WO2020220126A1; EP3948775A4; JP2022530907A; US11410314B2; EP3948775A1; US20200349711A1; KR20220002995A

Abstract

提出了一种用于指甲跟踪的卷积神经网络(CNN)模型，以及一种用于指甲油渲染的方法设计。使用当前的软件和硬件，渲染指甲油的CNN模型和方法可以在iOS和Web平台上实时运行。使用损失均值池(LMP)与级联模型架构同时实现像素精确的指甲预测，分辨率高达640×480。所提出的后处理和渲染方法利用模型的多个输出预测在单个指甲上渲染渐变，并通过在指甲的方向拉伸指甲罩在自然指甲上渲染时隐藏浅色远端边缘提示。本文的教导可应用于跟踪除指甲之外的对象并应用除颜色之外的外观效果。

Description

利用卷积神经网络跟踪多个目标的图像处理

技术领域

以下涉及使用与卷积神经网络(CNN)适配的计算设备处理图像，包括视频图像，其中此类计算设备可以包括面向消费者的智能手机或平板电脑，更具体地涉及使用CNN跟踪的图像处理(例如语义分割)多个对象，例如视频中的指甲。

背景技术

指甲跟踪问题是从视频流中以像素精度实时定位和识别指甲。此外，需要支持渲染技术以适配来自视频流的图像，例如提供增强现实。可能需要在图像中定位和识别除指甲之外的对象，包括在视频流中。

发明内容

提出了一种端到端的解决方案，用于同时实时跟踪指甲和指甲油的渲染。收集了具有语义分割和地标标签的全新数据集。为移动设备开发了高分辨率神经网络模型，并使用新数据集进行训练。除了提供语义分割外，该模型还提供方向性信息，例如指示方向。为指甲油试用提供后处理和渲染操作，这些操作至少使用模型的一些输出。

尽管关于指甲进行了描述，但是可以类似地处理其他对象以用于分割和用于图像更新。此类其他物体也可能是具有简单边界的小物体(例如指甲、脚趾甲、鞋子、汽车(乘用车)、车牌或汽车上的汽车零件等)。这里的术语“小”是与比例和整个图像的尺寸相关的相对术语。例如，与在包括指甲的图像中捕获的手的尺寸相比，指甲相对较小。远处成像的一组汽车中的汽车与在桌子上成像的一组李子(或其他水果)相似地小。该模型非常适合于泛化，以对具有已知计数和群集的对象集合进行分类(如这里，对手的指尖进行分类)。

提供了一种计算设备，其包括处理器和与其耦接的存储设备，存储设备存储CNN和指令，当由处理器执行时，指令将计算设备配置为：利用CNN处理包括多个对象的图像，CNN被配置为语义上分割图像内的多个对象，CNN包括级联语义分割模型架构，该级联语义分割模型架构具有：提供低分辨率特征的深度学习的第一分支；以及提供高分辨率特征的浅层学习的第二分支；其中，CNN组合来自第一分支和第二分支的相应预测以输出包括前景/背景和对象类分割的信息。

CNN可以组合来自第一分支和第二分支的相应预测，使得从CNN输出的信息还包括方向性信息。

第一分支可以包括产生第一分支的相应预测的编码器-解码器骨干。第一分支的相应预测包括在第一分支的编码器阶段之后产生的初始预测与在第一分支的解码器阶段的进一步处理之后产生的进一步预测的组合。可以使用第一分支融合块来组合初始预测和进一步预测，以产生第一分支的相应预测，以提供与第二分支的相应预测的进一步组合。

第二分支的相应预测可以在第二分支的编码器阶段的处理之后产生，与第一分支级联。可以使用第二分支融合块将第一分支的相应预测(F₁)与第二分支的相应预测(F₂)组合。F₁可以包括上采样的低分辨率、高语义信息特征并且F₂可以包括高分辨率、低语义信息特征。因此，第二个分支融合块将F₁和F₂组合在一起，以在第二个分支的解码器阶段产生高分辨率融合特征F₂'。CNN可以使用应用于相应预测F₁的卷积分类器来生成下采样类标签。为了处理F₂，CNN可以使用多个输出解码器分支来生成前景/背景和对象类分割以及方向性信息。

多个输出解码器分支可以包括：第一输出解码器分支，具有产生前景/背景分割的1x1卷积块和激活函数；第二个输出解码器分支，具有产生对象类分割的1x1卷积块和激活函数；以及第三个输出解码器分支，具有产生方向性信息的1x1卷积块方向性信息。

CNN可以使用用于克服语义分割中的逐像素(pixel-wise)类不平衡的损失最大池(LMP)损失函数进行训练，以确定前景/背景分割。

可以使用负对数似然损失(NLL)函数对CNN进行训练，以确定前景/背景和对象类分割。

可以使用Huber损失函数来训练CNN，以确定方向性信息。

每个对象可以包括基部和尖端，并且方向性信息可以包括基部-尖端方向场。

可以使用MobileNetV2编码器-解码器结构来定义第一分支，并且可以使用来自MobileNetV2编码器-解码器结构的编码器结构来定义第二分支。CNN最初可以使用来自ImageNet的训练数据进行训练，然后使用对象跟踪数据集对标记有地面实况的多个对象进行训练。

这些指令可以将计算设备进一步配置为执行图像处理，以使用输出的信息中的至少一些从图像产生更新的图像。为了执行图像处理，可以使用前景/背景和对象类分割以及方向性信息中的至少一些来改变外观，诸如多个对象的颜色。

计算设备可以包括相机，并且被配置为：呈现用户界面以接收应用于多个对象的外观选择，并且从相机接收自拍视频图像以用作图像；处理自拍视频图像以使用外观选择产生更新的图像；并且显示更新后的图像以模拟增强现实。

计算设备可以包括智能手机或平板电脑。

图像可以包括手的具有指甲的至少一部分，并且多个对象可以包括指甲。CNN可以被定义为提供输出信息的拉普拉斯金字塔。

提供了一种计算设备，该计算设备包括处理器和与其耦接的存储设备，该存储设备存储指令，当该指令被该处理器执行时，将计算设备配置为：接收用于由CNN语义分割的多个对象中的每一个的前景/背景和对象类分割以及方向性信息的CNN输出，该CNN已经处理了包括多个对象的图像；并且通过在根据前景/背景分割(和对象类分割)分割的多个对象中的每一个上绘制所选颜色的梯度来处理图像以产生更新的图像，所选颜色垂直于由方向性信息所指示的每个对象的相应方向绘制。

计算设备可以被配置为在梯度上为多个对象中的每一个应用相应的镜面反射分量并且混合结果。

计算设备可以被配置为在绘制之前，拉伸由前景/背景分割所标识的多个对象中的每一个的相应区域，以确保包括诸如其尖端的边缘用于绘制。计算设备可以被配置为，在绘制之前，利用从多个对象确定的平均颜色，对在拉伸的多个对象中的每一个的相应区域之外的至少一些相邻区域进行着色；并且使拉伸的多个对象中的每一个的相应区域和相邻区域模糊。

计算设备可以被配置为接收在绘制时使用的所选颜色。

提供了一种计算设备，其包括处理器和与其耦接的存储设备，存储设备存储CNN和指令，当由处理器执行时，指令将计算设备配置为：利用CNN处理包括多个对象的图像，CNN被配置为语义上分割图像内的多个对象，CNN包括级联语义分割模型架构，该级联语义分割模型架构具有：提供低分辨率特征的深度学习的第一分支；以及提供高分辨率特征的浅层学习的第二分支；其中，CNN组合来自第一分支和第二分支的相应预测以输出包括前景/背景和对象类分割的信息，并且其中，使用损失平均轮询损失函数对CNN进行训练。

图像包括多个像素，并且图像内的多个对象由少量的多个像素表示。CNN可以组合来自第一分支和第二分支的相应预测，以进一步输出包括对象类分割的信息，并且其中，使用NLL损失函数对CNN进行进一步训练。CNN可以组合来自第一分支和第二分支的相应预测以进一步输出包括方向性信息的信息，并且可以使用Huber损失函数或L2损失函数对CNN进行进一步训练。

CNN可以被定义为提供输出信息的拉普拉斯金字塔。

提供了一种计算设备，包括处理器和与其耦接的存储设备，该存储设备存储指令，当由处理器执行时，该指令将计算设备配置为：提供注释图像数据集的图形用户界面(GUI)以训练CNN，GUI具有显示要注释的相应图像的图像显示部分，该显示部分配置为接收勾勒(分割)相应图像中显示的相应对象的输入，以及接收指示相应图像中的每一个的方向性信息的输入；接收注释图像的输入；以及将与注释相关联的图像保存以定义数据集。

计算设备可以被配置为提供控制以接收对各个对象中的每一个进行语义分类的输入。

CNN可以被配置为语义上分割图像内的多个对象，CNN包括级联语义分割模型架构，该级联语义分割模型架构具有：提供低分辨率特征的深度学习的第一分支；和提供高分辨率特征的浅层学习的第二分支；其中，CNN组合来自第一分支和第二分支的相应预测以输出包括前景/背景和对象类分割的信息。

计算设备可被配置为具有本文中的计算设备方面或特征中的任一者。显然，为每个计算设备方面和特征提供了相关的方法方面和特征以及相关的计算机程序产品方面和特征。这些和其他对于本领域普通技术人员将是显而易见的。

附图说明

图1是根据示例的图形用户界面(GUI)的屏幕截图，利用该图形用户界面(GUI)定义数据集的注释数据。

图2是根据示例的GUI的屏幕截图的一部分，利用该图形用户界面(GUI)定义数据集的注释数据。

图3是根据示例的处理图像的CNN的图示。

图4和图5分别是图3的CNN的部分的图示。

图6是根据本文的示例使用CNN处理的4×4图像阵列，示出了前景和背景掩模和方向性信息。

图7A-7C是图6的放大部分。

图8是根据本文的示例使用CNN处理的4×4图像阵列，示出对象类分割掩模对各个指甲的应用的示例。

图9是图8的放大部分。

图10是操作的流程图

图11是用于操作的伪代码的图示。

通过本发明的某些实施例最好地描述本发明构思，在此参照附图对其进行描述，其中相同的附图标记始终指代相同的特征。应当理解，术语“发明”在本文中使用时意在暗示作为下面描述的实施例的基础的发明构思，而不仅仅是实施例本身。还应当理解的是，本发明的总体构思不限于下面描述的说明性实施例，并且应当根据这样的角度来阅读下面的描述。可以示出和描述多于一个的发明概念，并且除非另外说明，每个发明概念可以独立地或与一个或多个其他发明概念组合。

具体实施方式

经过培训的模型部署在两个硬件平台上：iOS^TM通过Core ML^TM(例如，苹果公司产品上的本地应用程序实现，如iPhone^TM支持这样的环境)，以及通过Tensorflow.js[1](更不可知平台)的web浏览器。以下是苹果公司的商标：iOS、Core ML和iPhone。模型和后处理操作足够灵活，以支持更高计算的本机iOS平台以及更多资源受限的web平台，只对模型架构进行了微小的调整，并且对性能没有任何重大的负面影响。

所选特征如下：

·创建了一个数据集，包括来自照片和视频的1438个图像，并用前景背景、每个手指类别和基部-尖端方向场标签进行注释。

·提出了一种新的用于语义分割的神经网络结构，该结构既适用于在移动设备上运行，又适用于对小对象进行精确分割。

·已经证明，损失最大池具鲁棒性地产生小对象的精确分割掩模，这导致空间(或逐像素)类不平衡。

·开发了后处理操作，其使用来自指甲跟踪模型的多个输出来分割指甲和定位单个指甲，以及找到它们的2D方向。

·后处理(包括渲染)操作使用这些单独的指甲位置和方向来渲染梯度，并隐藏自然指甲的浅色远侧边缘。

5.1相关工作

MobileNetV2[2]构成了编码器-解码器神经网络体系结构编码器的基础。本工作以MobileNetV2为基础，将其作为级联语义分割模型体系结构中的骨干。此外，该模型与所使用的特定编码器模型是不可知的，因此来自文献[3，4，5，6]的任何现有有效模型都可以用作编码器的直接替代品，任何未来的有效模型，包括手工设计和自动发现的模型(例如，通过网络修剪)也可以使用。MobileNetV2满足效率要求，以使得能够在诸如智能手机中可用的更小或更少资源(例如，具有比诸如膝上型计算机、台式计算机、游戏计算机等更大计算机更少的图形处理资源)上存储和执行模型。

损失最大池(LMP)损失函数基于[7]，其中p范数参数固定为p＝1，因为这简化了函数，同时根据[7]将性能保持在最佳p范数参数性能的标准误差范围内。将LMP应用于指甲分割的本质类不平衡任务，实验进一步支持了LMP在克服语义分割中的像素级类不平衡方面的有效性。

级联结构与ICNet[8]有关，因为此处的神经网络模型结合了浅/高分辨率和深/低分辨率分支。与ICNet不同的是，该模型被设计成运行在移动设备上，因此编码器和解码器完全根据这一要求进行了重新设计。

5.2数据集

由于缺乏专门针对指甲跟踪的先前工作，为此任务创建了一个全新的数据集。以自我为中心的数据是从参与者那里收集的，他们被要求拍摄他们的手的照片或视频，就好像他们在社交媒体上炫耀自己的指甲一样。

使用多边形创建密集的语义分割标签，多边形是一种易于注释和精确的标签类型，用于诸如指甲之类的刚性对象。由于模型是在密集标签上训练的，多边形标注方法也可以用逐像素的标注来代替。图1和图2中示出的是用于通过三种标签类型的组合来创建指甲注释的接口100的示例。图1示出了具有部分102的界面100，部分102显示和接收要针对数据集注释的图像的输入。接口100还包括部分104，部分104具有多个控件，例如设置数据(例如，标志)的单选按钮控件。部分104中的其他控件可用于定义多边形和标记地标(例如尖端地标106A和基部地标106B)等。

接口100因此启用：

1.包围指甲像素的多边形(即，将前景指甲与背景分开)。

2.每多边形类标签，以识别单个指甲。数据集中的每个多边形代表一个指甲，并被分类为十个指甲类别之一，即“左小指”、“右拇指”等，参见图2中的102。

3.定义每个多边形方向的基部和尖端地标。指甲基部/尖端地标用于生成密集方向场，该密集方向场与输入图像具有相同的空间分辨率，并且每个像素具有表示该像素所属的指甲的从基部到尖端的x和y方向的一对值。

新的带注释的数据集总共包括1438个带注释的图像，其基于贡献图像的参与者被分成训练、验证和测试集(即，每个参与者的图像仅属于训练、验证或测试)。分割数据集包含941、254和243个图像，每个图像分别在训练、验证和测试中。在实验中，模型在训练集上进行训练，并在验证集上进行评估。

5.3模型

指甲跟踪系统(例如，如本文所述配置的计算设备)的核心是经训练以输出前景/背景和指甲类分割以及方向性信息(例如，基部-尖端方向场)的编码器-解码器卷积神经网络(CNN)架构。模型体系结构与ICNet相关[8]，但是为了使模型足够快地运行在移动设备上，并产生多任务输出，进行了更改。模型体系结构的顶层视图如图3所示。

图3示出了使用两个分支处理输入(图像)302的模型300。第一分支300A(图3中的上分支)包括块304-324。图3中的第二分支300B(下部)包括块326-338。应当理解，这些亮线区分可以被修改。例如，块326可以是第一分支300A的块。块304是下采样×2块。块306-320(也被称为stage_low1、stage_low2、...stage-low8)是进一步描述的编码器-解码器骨干(具有编码器相位和解码器相位)的块。块322是上采样×2块，块324是进一步描述的第一分支融合块。块326也是上采样X2块。块326-332(也被称为stage_high1、stage_high2、...stage-high4)是进一步描述的编码器阶段的块。编码器-解码器骨干基于MobileNetV2[2]。更多细节如表1所示。第二分支的编码器相位(框328-332)也基于MobileNetV2[2]的编码器建模。

模型的编码器用MobileNetV2[2]在ImageNet[9]上预先训练的模型权重进行初始化。使用了两个α＝1.0MobileNetV2编码器主干(即编码器相位)的级联，两者都在224×224ImageNet图像上预训练。编码器级联(来自各个分支)由一个具有高分辨率输入的浅网络(stage_high1...4)和一个具有低分辨率输入的深网络(stage_low1...8)组成，这两个网络都是完整MobileNetV2的前缀。对于第一分支级6的低分辨率编码器，从步幅2改变为步幅1，并且为了补偿该改变，在级7和8中使用了扩张的2×卷积。因此，低分辨率编码器的输出步长相对于其输入为16×，而不是原始MobileNetV2中的32×。详细的逐层描述见表1。表1示出了指甲分割模型体系结构的详细概述。每个层名称对应于如本文所述的图3和图4中的块。高度H和宽度W是指全分辨率H×W输入尺寸。对于投影408和扩张层410，p∈{16，8}。对于阶段stage3_low到阶段7_low，括号中的信道数目用于阶段的第一层(未示出)，其增加到用于相同阶段中的后续层的未括号数目。

表1

模型300的解码器被示出在图3的中间和右下角(例如，块324和336(包括融合块)以及上采样块322和326)，并且在图4中示出了块324和336中的每一个的解码器融合模型的详细视图。对于大小为H×W的原始输入，解码器将来自stage_low4(来自块312)的

特征与来自stage_low8导出的块322的上采样特征融合，然后上采样(块326)，并经由融合块336将所得特征与stage_high4的

特征融合(块334)。

图4示出了使用块408、410、412和加法器414在解码器中用于将由特征映射F₁(402)表示的上采样低分辨率、高语义信息特征与由特征映射F₂(404)表示的高分辨率、低语义信息特征融合以产生由特征映射F₂′(406)表示的高分辨率融合特征的融合模块400。关于框324，从框322输出特征映射F₁(402)，并且从框312输出特征映射F₂(404)。在326处对来自块324的特征映射F₂′(406)进行上采样，以提供给块336作为模型400的块实例中的特征映射F₁(402)。在框336中，输出从框334接收的特征映射F₂(404)，并且将特征映射F₂′(406)作为输出提供给框338。块338对输入分辨率/4进行上采样，然后将得到的特征图提供给解码器模型340。解码器模型340在图5中示出。解码器模型340产生图像的三种类型的信息(例如，3声道输出342)，如关于图5进一步描述的。

如图4所示，将1×1卷积分类器412应用于上采样F₁特征，其用于预测下采样标签。与[10]中一样，这种输出的“拉普拉斯金字塔”优化了更高分辨率、更小的接收场特征图，以专注于从低分辨率、更大的接收场特征图中改进预测。因此，在模型400中，来自块412的特征图(未示出)本身不用作输出。相反，在训练中，损失函数以金字塔输出正则化的形式应用(即图5中应用的损失)。

框342表示来自解码器的一个全局输出，其包括与来自图5的三个分支502、504和506的块的输出相对应的三个通道。第一通道包括每像素分类(例如，前景/背景掩模或对象分割掩模)，第二通道包括将分割掩模分类为各个指尖类，并且第三通道包括每分割掩模像素的2D方向性矢量的场(例如，每像素(x，y))。

如图5所示，解码器使用多个输出解码器分支502、504和506来提供在指甲尖端上渲染所需的方向性信息(例如，第三通道中从基部到尖端的矢量)，以及使用连接组件找到指甲实例所需的指甲类别预测(在第二通道中)。这些附加解码器被训练以产生仅在图像的带注释的指甲区域中出院于不利地位的密集预测。每个分支采用根据该示例的相应损失函数。而在分支502和504中示出了归一化指数函数(softmax)，可以使用用于分割/分类的另一激活函数。应当理解，这里的尺寸是代表性的，并且可以适用于不同的任务。例如，在图5中，分支502、504涉及10个类并相应地确定尺寸。

二进制(即指甲与背景)预测与方向场预测一起在图6中可视化。即，图6示出了从被处理的输入图像产生的更新图像的4×4阵列600。前景/背景蒙版用于识别相应的指甲进行着色。指甲区域是逐像素着色的(尽管这里用灰度表示)，以显示与真实情况以及前景/背景蒙版中的假阳性和假阴性识别一致。阵列600的更新图像还显示了方向性信息。图6A、6B和6C示出了来自阵列600的放大图像602、604和606，带有注释，其中白色箭头指向假阳性区域而黑色箭头指向假阴性区域。在图像604中，显示了一种常见的故障模式，其中看不见的手姿势导致过度分割。在图像606中，示出了由于看不见的照明/指甲颜色组合而导致的欠分割的示例。预计可以通过添加相关的训练数据来改进这两种故障情况。

每个手/手指组合(例如，左小指)的个体类别预测仅在指甲区域中在图8的4×4阵列800中可视化。图9示出了具有注释(白色箭头900)的放大图像802，注释指示一个类别(无名指)泄漏到另一个类别(中指)中。类泄漏的原因是由于相机的视角导致指甲重叠。这可以通过密集CRF或引导滤波器后处理来改善。

5.4推理(训练细节)

神经网络模型是用PyTorch[11]训练的。训练后的模型使用Core ML部署到iOS上，并使用Tensorflow.js[1]部署到web浏览器上。

数据增强包括对比度归一化和频率噪声α混合增强，以及随机尺度、宽高比、旋转和裁剪增强。对比度归一化通过将每个像素值I_ij缩放为127+α(I_ij-127)来调整对比度，其中，α∈[0.5,2.0]。频率噪声α混合使用频率噪声掩模混合两个图像源。从[1/2,2]开始有均匀的随机抽样比例放大，从[2/3,3/2]开始有展弦比拉伸放大，从±180°，开始有旋转放大，从给定的下采样训练图像的较短边长随机裁剪出边长为14/15的正方形图像。

考虑到当前的软件实现，即Core ML和Tensorflow.js，以及当前的移动设备硬件，该系统可以在640×480(本地移动)和480×360(web移动)的所有分辨率下实时运行(即，在10FPS)，模型分别在448×448和336×336的输入分辨率上训练。所有输入图像通过ImageNet数据集的平均值和标准偏差归一化。MobileNetV2编码器骨干在ImageNet上使用Nestrov动量为0.9的SGD进行400个次的预训练，并在200和300个时期将10^(-2)的初始学习率降低10倍。

码器-解码器模型在指甲跟踪数据集上训练400次。为了保留预先训练的权重值，对于所有预先训练的层，即stage_high1..4和stage_low1..8，使用5×10^-3的较低初始学习速率，而对于所有其他层，使用5x10^-2的初始学习速率。在前面的工作[12]之后，根据

使用多项式衰减学习速率调度，其中l_t是迭代t处的学习速率，T是步骤的总数。使用的批次大小为32。优化器是SGD，Nestrov动量为0.99，模型权重衰减为10^-4。在1.0时有限幅梯度。LMP损失函数将损失计算为具有最高损失值的10％像素的平均损失。

5.5目标函数讨论

为了处理背景(高代表类)和指甲(低代表类)之间的类不平衡，在目标函数中，通过按每个像素的损失幅度排序，对小批量中的所有像素使用损失最大池[7]，并将像素顶部10％以上的平均值作为小批量损失。研究发现，与仅将指甲类加权比背景高出20×的基线相比，使用最大损失池得到的增益为≈2％mIoU，其中mIoU的改善反映在沿着类边界更尖锐的指甲边缘外观上(原始基线始终过度分段)。

使用了与图5所示模型的三个输出相对应的三个损失函数。指甲类和前景/背景预测都使等式1中给出的多项式分布的负对数似然性最小化，其中c是地面真值类，

是模型对第c类的预softmax预测，并且

是在(x,y)＝(i，j)处的像素的损失。

对于类预测，c∈{1，2，..，10}，而对于前景/背景预测，c∈{1，2}。LMP仅用于前景/背景预测；由于指甲类别预测仅在指甲区域中有效，所以这些类别是平衡的并且不需要LMP。

在式2中，

阈值τ为

第最高损失像素的损失值。[·]操作符为指标函数。

对于方向场输出，对于地面实况指甲内的每个像素，在归一化的基础上对指甲的尖端方向应用了Huber损失。这是为了在近似正确时不再强调场损失，因为渲染所需的全部是基部-尖端方向的近似正确性，这可以防止方向场损失减损二进制和类指甲分割损失。系统中也可以使用其他损失函数(例如L₂和L₁误差)来代替Huber损失。

在等式3中，索引(i,j)覆盖所有空间像素位置，而k∈{0,1}索引基部-尖端方向向量的(x,y)方向。此外，每个标量场预测

被归一化，使得向量vector

是一个单位向量，即

场方向标签也被归一化，使得

对于方向场和指甲类损失不存在类不平衡问题，因此它们只是各自损失的均值，即

和

其中N_class＝H×W和N_field＝2×H×W。整体损失为l＝l_fgbg+l_class+l_field。

5.6后处理和渲染

来自模型的输出可用于处理输入图像以及产生和更新的图像。在方法1(参见图10)中，描述了一种后处理和渲染方法，该方法使用CNN模型的跟踪预测的输出在用户的指甲上绘制逼真的指甲油。该方法使用由指甲跟踪模块(使用CNN模型)预测的单个指甲位置和方向性信息来呈现渐变，并隐藏自然指甲的浅色远端边缘。

图10示出了计算设备的操作1000。计算设备包括如这里所示和描述的CNN模型以及配置计算设备的指令。操作1000示出计算设备在步骤1002呈现用户界面(例如GUI)以接收应用于多个对象(例如指甲)的外观选择。在1004，操作例如从计算设备的相机接收作为源图像。源图像可以是自拍静止图像或自拍视频图像作为待处理图像。在1006，指令将计算设备配置为处理图像以确定多个对象，在1008处理图像以应用外观选择，并且在1010产生示出应用的外观选择的更新图像。可以存在更新的图像(在1012)以模拟增强现实。

图11示出了包括伪代码1100的“方法1”，用于在由CNN使用来自CNN的输出进行处理之后可以使用的操作。方法1显示了后处理和指甲油渲染操作。这些操作首先使用预测的指甲方向在每个指甲上绘制用户选择颜色的渐变，垂直于指甲方向，并被指甲罩遮住。然后，它从原始指甲复制镜面反射组件，并将它们混合到渐变之上。

6杂集

可以理解的是，在模型进行处理之前，可以使用预处理，例如产生所需尺寸的输入、将图像的所需部分居中、校正照明等。

尽管关于指甲进行了描述，但本领域普通技术人员可以按照描述跟踪其他对象，并对本文的教导进行了修改。尽管颜色外观效果被描述为应用于产生更新的图像，但也可以使用其他外观效果。

可以在所跟踪的对象的位置处或附近应用外观效果。除计算设备方面外，普通技术人员将理解公开了计算机程序产品方面，其中指令存储在非瞬态存储设备(例如，存储器、CD-ROM、DVD-ROM、RAM、磁带、盘等)中，由处理器执行，以配置计算设备以执行此处存储的任何方法方面。处理器可以是CPU、GPU或其他可编程设备或任何此类设备中的一个或多个的组合。如本文所述，使用来自苹果公司的基于iOS的iPhone产品的Core ML来准备一个实现。

实际实施可能包括本文所述的任何或所有特征。这些和其他方面、特征和各种组合可以被表达为方法、装置、系统、用于执行功能的手段、程序产品，以及以其他方式组合在此描述的特征。多个实施例已经被描述了。然而，应当理解，在不脱离本文描述的方法和技术的精神和范围的情况下，可以进行各种修改。另外，可以从所描述的过程中提供其他步骤，或者可以消除步骤，并且可以将其他组件添加到所描述的系统中或者从所描述的系统中去除其他组件。相应地，其他实施例在所附权利要求书的范围内。

在本说明书的说明书和权利要求书中，词语“包括(comprise)”和“包含(contain)”是指“包括(including)但不限于”，它们并不旨在(也不)排除其他组件、整体或步骤。在本说明书中，除非上下文另有要求，单数包括复数。特别地，在使用不定冠词的情况下，除非上下文另有要求，否则说明书应被理解为考虑复数和单数。例如，本文中关于“A和/或B”的术语“和/或”是指A、B中的一个以及A和B两者。

结合本发明的特定方面、实施方案或实例描述的特征、整数特征、化合物、化学部分或基团应理解为适用于任何其他方面、实施方案或实例，除非与之不相容。本文公开的所有特征(包括任何所附权利要求书、摘要和附图)和/或如此公开的任何方法或过程的所有步骤可以以任何组合进行组合，除了其中至少一些这样的特征和/或步骤互斥的组合之外。本发明不限于任何前述实例或实施例的细节。本发明扩展到本说明书(包括任何所附权利要求、摘要和附图)中公开的特征的任何新的一个或任何新的组合，或者扩展到所公开的任何方法或过程的步骤的任何新的一个或任何新的组合。

7结论

提供了一个用于指甲跟踪和指甲油渲染操作的模型。使用当前的软件和硬件，用户计算设备(例如智能手机或平板电脑)可以配置为在iOS和网络平台上实时运行。LMP的使用与级联模型架构设计相结合，同时能够以高达640×480的分辨率实现像素精确的指甲预测。建议的后处理操作利用模型的多个输出预测在单个指甲上渲染渐变，并在通过沿指甲尖方向拉伸指甲罩在自然指甲顶部渲染时隐藏浅色远端边缘。

参考文献

下面列出的每个参考文献[1]至[13]均通过引用并入本文：

[1]Daniel Smilkov,Nikhil Thorat,Yannick Assogba,Ann Yuan,NickKreeger,Ping Yu,Kangyi Zhang,Shanqing Cai,Eric Nielsen,David Soergel,StanBileschi,Michael Terry,Charles Nicholson,Sandeep N.Gupta,Sarah Sirajuddin,D.Sculley,Rajat Monga,Greg Corrado,Fernanda B.Viégas,and MartinWattenberg.Tensorflow.js:Machine learning for the web and beyond.arXivpreprint arXiv:1901.05350,2019.

[2]Mark Sandler,Andrew Howard,Menglong Zhu,Andrey Zhmoginov,andLiang-Chieh Chen.Mobilenetv2:Inverted residuals and linear bottlenecks.In TheIEEE Conference on Computer Vision and Pattern Recognition(CVPR),June 2018.

[3]Xiangyu Zhang,Xinyu Zhou,Mengxiao Lin,and Jian Sun.Shufflenet:Anextremely efficient convolutional neural network for mobile devices.In TheIEEE Conference on Computer Vision and Pattern Recognition(CVPR),2018.

[4]Robert J Wang,Xiang Li,and Charles X Ling.Pelee:A real-time objectdetection system on mobile devices.In Advances in Neural InformationProcessing Systems 31,2018.

[5]Forrest N.Iandola,Song Han,Matthew W.Moskewicz,Khalid Ashraf,William J.Dally,and Kurt Keutzer.Squeezenet:Alexnet-level accuracy with 50xfewer parameters and<0.5mb model size.arXiv:1602.07360,2016.

[6]Barret Zoph,Vijay Vasudevan,Jonathon Shlens,and Quoc V.Le.Learningtransferable architectures for scalable image recognition.In The IEEEConference on Computer Vision and Pattern Recognition(CVPR),2018.

[7]Samuel Rota Bulò,Gerhard Neuhold,and Peter Kontschieder.Loss max-pooling for semantic image segmentation.In The IEEE Conference on ComputerVision and Pattern Recognition(CVPR),2017.

[8]Hengshuang Zhao,Xiaojuan Qi,Xiaoyong Shen,Jianping Shi,and JiayaJia.Icnet for realtime semantic segmentation on high-resolution images.InECCV,2018.

[9]J.Deng,W.Dong,R.Socher,L.-J.Li,K.Li,and L.Fei-Fei.ImageNet:ALarge-Scale Hierarchical Image Database.In The IEEE Conference on ComputerVision and Pattern Recognition(CVPR),2009.

[10]Golnaz Ghiasi and Charless C.Fowlkes.Laplacian reconstruction andrefinement for semantic segmentation.In ECCV,2016.

[11]Adam Paszke,Sam Gross,Soumith Chintala,Gregory Chanan,EdwardYang,Zachary DeVito,Zeming Lin,Alban Desmaison,Luca Antiga,and AdamLerer.Automatic differentiation in pytorch.In NIPS-W,2017.

[12]Liang-Chieh Chen,George Papandreou,Iasonas Kokkinos,Kevin Murphy,and Alan L.Yuille.Deeplab:Semantic image segmentation with deep convolutionalnets,atrous convolution,and fully connected crfs.arXiv preprint arXiv:1606.00915,2016.

[13]C.Grana,D.Borghesani,and R.Cucchiara.Optimized block-basedconnected components labeling with decision trees.IEEE Transactions on ImageProcessing,2010.

Claims

1.一种计算设备，包括处理器和与其耦接的存储设备，所述存储设备存储CNN和指令，所述指令在由所述处理器执行时将所述计算设备配置为：

利用所述CNN处理包括多个对象的图像，所述CNN被配置为在语义上分割所述图像内的所述多个对象，所述CNN包括级联语义分割模型架构，所述级联语义分割模型架构具有：

提供低分辨率特征的深度学习的第一分支；以及

提供高分辨率特征的浅层学习的第二分支；

其中，所述CNN组合来自所述第一分支和所述第二分支的相应预测以输出包括前景/背景和对象类分割的信息。

2.根据权利要求1所述的计算设备，其中，所述CNN组合来自所述第一分支和所述第二分支的相应预测，使得从所述CNN输出的所述信息还包括方向性信息。

3.根据权利要求1或权利要求2所述的计算设备，其中，所述第一分支包括产生所述第一分支的相应预测的编码器-解码器骨干。

4.根据权利要求3所述的计算设备，其中，所述第一分支的相应预测包括在所述第一分支的编码器阶段之后产生的初始预测与在所述第一分支的解码器阶段的进一步处理之后产生的进一步预测的组合。

5.根据权利要求4所述的计算设备，其中，使用第一分支融合块来组合所述初始预测和所述进一步预测，以产生所述第一分支的相应预测，用以提供与所述第二分支的相应预测的进一步组合。

6.根据权利要求1至3中任一项所述的计算设备，其中，所述第二分支的相应预测是在所述第二分支的编码器阶段的处理之后产生的，与所述第一分支级联。

7.根据权利要求6所述的计算设备，其中，使用第二分支融合块将所述第一分支的相应预测(F₁)与所述第二分支的相应预测(F₂)组合。

8.根据权利要求7所述的计算设备，其中，F₁包括上采样低分辨率、高语义信息特征，F₂包括高分辨率、低语义信息特征，并且其中，所述第二分支融合块组合F₁和F₂，以在第二分支的解码器阶段中产生高分辨率融合特征F₂'。

9.根据权利要求8所述的计算设备，其中，所述CNN使用应用于相应预测F₁的卷积分类器来产生下采样类标签。

10.根据从属于权利要求2的权利要求8所述的计算设备，其中，为了处理F₂，所述CNN使用多个输出解码器分支来产生所述前景/背景和对象类分割以及所述方向性信息。

11.根据权利要求10所述的计算设备，其中，所述多个输出解码器分支包括：

第一输出解码器分支，具有产生所述前景/背景分割的1x1卷积块和激活函数；

第二输出解码器分支，具有产生所述对象类分割的1x1卷积块和激活函数；以及

第三输出解码器分支，具有产生所述方向性信息的1x1卷积块。

12.根据权利要求1至11中任一项所述的计算设备，其中，使用用于克服语义分割中的逐像素类不平衡的损失最大池(LMP)损失函数对所述CNN进行训练，以确定所述前景/背景分割。

13.根据权利要求1至12中任一项所述的计算设备，其中，使用负对数似然损失(NLL)函数对所述CNN进行训练以确定所述前景/背景和对象类分割。

14.根据从属于权利要求2的权利要求2至13中任一项所述的计算设备，其中，使用Huber损失函数对所述CNN进行训练以确定所述方向性信息。

15.根据从属于权利要求2的权利要求2至14中任一项所述的计算设备，其中，每个对象具有基部和尖端，并且所述方向性信息包括基部-尖端方向场。

16.根据权利要求1至15中任一项所述的计算设备，其中，使用MobileNetV2编码器-解码器结构定义所述第一分支，并且使用来自所述MobileNetV2编码器-解码器结构的编码器结构定义所述第二分支；并且其中，最初使用来自ImageNet的训练数据对所述CNN进行训练，然后使用用于标有地面实况的所述多个对象的对象跟踪数据集进行训练。

17.根据权利要求1至16中任一项所述的计算设备，其中，所述指令还将所述计算设备配置为执行图像处理，以使用输出的所述信息中的至少一些从所述图像产生更新的图像。

18.根据从属于权利要求2的权利要求17所述的计算设备，其中，为了执行图像处理，使用所述前景/背景和对象类分割以及方向性信息中的至少一些来改变外观，诸如，所述多个对象的颜色。

19.根据权利要求17或18所述的计算设备，包括相机，并且其中，所述指令将所述计算设备配置为：

呈现用户界面以接收应用于所述多个对象的外观选择，并且从所述相机接收自拍视频图像以用作所述图像；

处理所述自拍视频图像以使用所述外观选择产生所述更新的图像；并且

呈现所述更新的图像以模拟增强现实。

20.根据权利要求1至19中任一项所述的计算设备，包括智能手机或平板电脑。

21.根据权利要求1至20中任一项所述的计算设备，其中，所述图像包括手的具有指甲的至少一部分，并且其中，所述多个对象包括指甲。

22.一种计算设备，包括处理器和与其耦接的存储设备，所述存储设备存储指令，所述指令在由所述处理器执行时将所述计算设备配置为：

接收包括用于由CNN语义分割的多个对象中的每一个对象的前景/背景和对象类分割以及方向性信息的CNN输出，所述CNN已处理包括所述多个对象的图像；并且

通过以下方式处理所述图像以产生更新的图像：

在根据所述前景/背景分割(和对象类分割)分割的所述多个对象中的每一个对象上绘制所选颜色的梯度，所述所选颜色垂直于由所述方向性信息指示的所述对象中的每一个对象的相应方向绘制。

23.根据权利要求22所述的计算设备，还被配置为在所述梯度上为所述多个对象中的每一个对象应用相应的镜面反射分量并且混合结果。

24.根据权利要求22或权利要求23所述的计算设备，还被配置为在绘制之前，拉伸由所述前景/背景分割所标识的所述多个对象中的每一个对象的相应区域，以确保包括诸如其尖端的边缘用于绘制。

25.根据权利要求24所述的计算设备，还被配置为，在绘制之前，

利用从所述多个对象确定的平均颜色，对拉伸的所述多个对象中的每一个对象的所述相应区域之外的至少一些相邻区域进行着色；并且

使拉伸的所述多个对象中的每一个对象的所述相应区域和所述相邻区域模糊。

26.根据权利要求22至25中任一项所述的计算设备，还被配置为接收在绘制时使用的所选颜色。

27.根据权利要求22至26中任一项所述的计算设备，其中，根据从属于权利要求2的权利要求2至21中任一项进一步定义所述计算设备。

28.一种计算设备，包括处理器和与其耦接的存储设备，所述存储设备存储CNN和指令，所述指令在由所述处理器执行时将所述计算设备配置为：

提供低分辨率特征的深度学习的第一分支；以及

提供高分辨率特征的浅层学习的第二分支；

其中，所述CNN组合来自所述第一分支和所述第二分支的相应预测以输出包括前景/背景分割的信息，并且其中，使用损失均值轮询损失函数对所述CNN进行训练。

29.根据权利要求28所述的计算设备，其中，所述图像包括多个像素，并且其中，所述图像内的所述多个对象由少量的所述多个像素表示。

30.根据权利要求28或29所述的计算设备，其中，所述CNN组合来自所述第一分支和所述第二分支的相应预测，以进一步输出包括对象类分割的信息，并且其中，使用NLL损失函数对所述CNN进行进一步训练。

31.根据权利要求28至30中任一项所述的计算设备，其中，所述CNN组合来自所述第一分支和所述第二分支的相应预测，以进一步输出包括方向性信息的信息，并且其中，使用Huber损失函数或者L2损失函数对所述CNN进行进一步训练。

32.根据权利要求1至31中任一项所述的计算设备，其中，所述CNN被定义为提供输出信息的拉普拉斯金字塔。

33.一种计算设备，包括处理器和与其耦接的存储设备，所述存储设备存储指令，所述指令在由所述处理器执行时将所述计算设备配置为：

提供注释图像的数据集的图形用户界面(GUI)以训练CNN，所述GUI具有显示要注释的相应图像的图像显示部分，所述显示部分被配置为接收勾勒(分割)在所述相应图像中显示的相应对象的输入，并且接收指示所述相应图像中的每一个图像的方向性信息的输入；

接收注释所述图像的输入；并且

将与注释相关联的所述图像保存以定义所述数据集。

34.根据权利要求33所述的计算设备，还被配置为提供控制以接收对所述相应对象中的每一个对象进行语义分类的输入。

35.根据权利要求33或权利要求34所述的计算设备，其中，所述CNN被配置为在语义上分割所述图像内的所述多个对象，所述CNN包括级联语义分割模型架构，所述级联语义分割模型架构具有：

提供低分辨率特征的深度学习的第一分支；以及

提供高分辨率特征的浅层学习的第二分支；

36.一种方法，包括：

利用卷积神经网络(CNN)处理包括多个对象的图像，所述CNN被配置为在语义上分割所述图像内的所述多个对象，所述CNN包括级联语义分割模型架构，所述级联语义分割模型架构具有：

提供低分辨率特征的深度学习的第一分支；以及

提供高分辨率特征的浅层学习的第二分支；

37.根据权利要求36所述的方法，其中，所述CNN组合来自所述第一分支和所述第二分支的相应预测，使得所述CNN输出的信息还包括方向性信息。

38.根据权利要求36或权利要求37所述的方法，其中，所述第一分支包括产生所述第一分支的相应预测的编码器-解码器骨干。

39.根据权利要求38所述的方法，其中，所述第一分支的相应预测包括在所述第一分支的编码器阶段之后产生的初始预测与在所述第一分支的解码器阶段的进一步处理之后产生的进一步预测的组合。

40.根据权利要求39所述的方法，其中，所述CNN使用第一分支融合块来组合所述初始预测和所述进一步预测，以产生所述第一分支的相应预测，用以提供与所述第二分支的相应预测的进一步组合。

41.根据权利要求36至38中任一项所述的方法，其中，所述第二分支的相应预测是由所述CNN在所述第二分支的编码器阶段的处理之后产生的，与所述第一分支级联。

42.根据权利要求41所述的方法，其中，使用第二分支融合块将所述第一分支的相应预测(F₁)与所述第二分支的相应预测(F₂)组合。

43.根据权利要求42所述的方法，其中，F₁包括上采样低分辨率、高语义信息特征，F₂包括高分辨率、低语义信息特征，并且其中，所述第二分支融合块组合F₁和F₂，以在所述第二分支的解码器阶段中产生高分辨率融合特征F₂'。

44.根据权利要求43所述的方法，其中，所述CNN使用应用于相应预测F₁的卷积分类器来产生下采样类标签。

45.根据从属于权利要求2的权利要求43所述的方法，其中，为了处理F₂，所述CNN使用多个输出解码器分支来产生所述前景/背景和对象类分割以及所述方向性信息。

46.根据权利要求45所述的方法，其中，所述多个输出解码器分支包括：

47.根据权利要求36至47中任一项所述的方法，其中，使用用于克服语义分割中的逐像素类不平衡的损失最大池(LMP)损失函数对所述CNN进行训练，以确定所述前景/背景分割。

48.根据权利要求36至47中任一项所述的方法，其中，使用负对数似然损失(NLL)函数对所述CNN进行训练，以确定所述前景/背景和对象类分割。

49.根据从属于权利要求37的权利要求37至48中任一项所述的方法，其中，使用Huber损失函数对所述CNN进行训练，以确定所述方向性信息。

50.根据从属于权利要求37的权利要求37至49中任一项所述的方法，其中，每个对象具有基部和尖端，并且所述方向性信息包括基部-尖端方向场。

51.根据权利要求36至50中任一项所述的方法，其中，使用MobileNetV2编码器-解码器结构定义所述第一分支，并且使用来自所述MobileNetV2编码器-解码器结构的编码器结构定义所述第二分支；并且其中，最初使用来自ImageNet的训练数据对所述CNN进行训练，然后使用用于标有地面实况的所述多个对象的对象跟踪数据集对进行训练。

52.根据权利要求36至51中任一项所述的方法，包括执行图像处理，以使用从所述CNN输出的所述信息中的至少一些从所述图像生成更新的图像。

53.根据从属于权利要求37的权利要求52所述的方法，其中，执行图像处理使用所述前景/背景和对象类分割和方向性信息中的至少一些来改变外观，诸如所述多个对象的颜色。

54.根据权利要求52或53所述的方法，包括：

呈现用户界面以接收应用于多个对象的外观选择；

从照相机接收自拍视频图像以用作所述图像；

处理所述自拍视频图像以使用所述外观选择产生所述更新的图像；和

显示所述更新的图像以模拟增强现实。

55.根据权利要求36至54中任一项所述的方法，其中，所述方法由包括智能手机或平板电脑的计算设备执行。

56.根据权利要求36至55中任一项所述的方法，其中，所述图像包括手的具有指甲的至少一部分，并且其中，所述多个对象包括指甲。

57.一种方法，包括：

接收包括用于由卷积神经网络(CNN)语义分割的多个对象中的每一个对象的前景/背景和对象类分割以及方向性信息的输出，所述CNN已处理包括所述多个对象的图像；以及

通过以下方式处理所述图像以产生更新的图像：

在根据所述前景/背景分割(和对象类分割)而分割的所述多个对象中的每一个对象上绘制所选颜色的梯度，所述所选颜色垂直于由所述方向性信息指示的所述对象中的每一个对象的相应方向绘制。

58.根据权利要求57所述的方法，还包括在所述梯度上为所述多个对象中的每一个对象应用相应的镜面反射分量并且混合。

59.根据权利要求57或权利要求58所述的方法，还包括在绘制之前，拉伸由所述前景/背景分割所标识的所述多个对象中的每一个对象的相应区域，以确保包括诸如其尖端的边缘用于绘制。

60.根据权利要求59所述的方法，还包括，在绘制之前，

利用从所述多个对象确定的平均颜色，对拉伸的所述多个对象中的每一个对象的所述相应区域之外的至少一些相邻区域进行着色；

61.根据权利要求57至60中任一项所述的方法，包括接收绘制时使用的所选颜色。

62.根据权利要求57至61中任一项所述的方法，其中，所述方法由计算设备执行，所述计算设备由根据从属于权利要求2的权利要求2至21中任一项定义。

63.一种方法，包括：

提供低分辨率特征的深度学习的第一分支；以及

提供高分辨率特征的浅层学习的第二分支；

64.根据权利要求63所述的方法，其中，所述图像包括多个像素，并且其中，所述图像内的所述多个对象由少量的所述多个像素表示。

65.根据权利要求63或64所述的方法，其中，所述CNN组合来自所述第一分支和所述第二分支的相应预测，以进一步输出包括对象类分割的信息，并且其中，使用NLL损失函数对所述CNN进行进一步训练。

66.根据权利要求63至65中任一项所述的方法，其中，所述CNN组合来自所述第一分支和所述第二分支的相应预测，以进一步输出包括方向性信息的信息，并且其中，使用Huber损失函数或者L2损失函数对所述CNN进行进一步训练。

67.根据权利要求63至66中任一项所述的方法，还包括更新所述图像以产生更新的图像，其中，更新包括使用从所述CNN输出的所述信息中的至少一些。

68.根据权利要求36至67中任一项所述的方法，其中，所述CNN被定义为提供输出信息的拉普拉斯金字塔。

69.一种方法，包括：

提供注释图像的数据集的图形用户界面(GUI)以训练CNN，所述GUI具有显示要注释的相应图像的图像显示部分，所述显示部分被配置为接收勾勒(分割)所述相应图像中显示的相应对象的输入，并且接收指示所述相应图像中的每一个图像的方向性信息的输入；

接收注释所述图像的输入；以及

保存与注释相关联的所述图像以定义所述数据集。

70.根据权利要求69所述的方法，其中，所述GUI还被配置为提供控制以接收对所述相应对象中的每一个对象进行语义分类的输入。

71.根据权利要求69或权利要求70所述的方法，其中，所述CNN被配置为在语义上分割所述图像内的所述多个对象，所述CNN包括级联语义分割模型架构，所述级联语义分割模型架构具有：

提供低分辨率特征的深度学习的第一分支；以及

提供高分辨率特征的浅层学习的第二分支；

其中，所述CNN组合来自所述第一分支和所述第二分支的相应预测，以输出包括前景/背景和对象类分割的信息。