CN107851174B

CN107851174B - 图像语义标注的设备和方法及其模型的生成方法和系统

Info

Publication number: CN107851174B
Application number: CN201580081584.2A
Authority: CN
Inventors: 汤晓鸥; 刘子纬; 李晓潇; 罗平; 吕健勤
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2015-07-08
Filing date: 2015-07-08
Publication date: 2021-06-01
Anticipated expiration: 2035-07-08
Also published as: US20180129919A1; US10699170B2; CN107851174A; WO2017004803A1

Abstract

公开了一种图像语义标注的设备和方法及其模型的生成方法和系统，所述生成方法包括：分别形成第一CNN和第二CNN；随机地将第一CNN初始化；将原始图像和多个预定标签真值标注输入到第一CNN，以迭代地更新第一CNN的权值，从而使得从第一CNN输出的、原始图像的类别标签概率接近预定标签真值标注；随机地将第二CNN初始化；将类别标签概率输入到第二CNN，以校正输入的类别标签概率，以确定类别标签概率的分类误差；通过反向传播分类误差来更新第二CNN；将更新的第一CNN与更新的第二CNN进行级联；将原始图像中的每个像素分类为多个通用对象类别中的一个；以及将分类误差反向传播通过级联的CNN，以更新级联的CNN的权值，直到分类误差小于预定阈值。

Description

图像语义标注的设备和方法及其模型的生成方法和系统

技术领域

本公开涉及一种图像语义标注的设备和方法及其模型的生成方法和系统。

背景技术

马尔可夫随机场(MRF)或条件随机场(CRF)在语义图像标注方面已经取得了巨大成功，而语义图像标注是计算机视觉最具挑战性的问题之一。现有的工作一般可以基于MRF的一元项(unary term)和二元项(pairwise term)的定义而被分成两组。

在第一组中，研究人员通过探索丰富的信息以定义二元(pairwise)的功能，包括远程依赖性(long-range dependency)、高阶电位(high-order potential)和语义标签上下文,从而提高了标注准确性。例如，基米-雷克南(Kr¨ahenb¨uhl)等人通过在全连接图上进行推断来获得准确的分割边界。维尼特(Vineet)等人通过定义像素之间的高阶(high-order)和远程项(long-range terms)来扩展全连接图。最近也有人在研究标签之间的全局或局部语义上下文。尽管他们得到了有希望的结果，但他们是将一元项建模为SVM或Adaboost，而它们的学习能力则是瓶颈。复杂的二元项的学习和推断通常是比较昂贵的。

在第二组中，人们通过利用深度学习的新发展(诸如，卷积神经网络(CNN))来学习强一元分类器。利用深度模型，这些工作使用二元函数的简单定义或甚至忽略该函数，从而获得了令人鼓舞的结果。例如，龙(Long)等人将CNN的全连接层变换成卷积层，从而使得通过对目前的CNN架构进行预先训练就有可能实现准确的逐像素(per-pixel)分类。基于最新的发展可以通过将MRF推断的误差向后传播到CNN来共同训练CNN和MRF，但在反向传播(BP)期间，每个训练图像均需要采用MRF的迭代推断，例如均值场算法(MF)。郑(Zheng)等人进一步表明MF推断的程序可以表示为递归神经网络(RNN)，但它们的计算成本类似。直接将上述的CNN和MRF进行组合效率低下，因为CNN一般具有数百万个参数，而MRF也需要推断数千个潜在的变量；并且更糟的是，将复杂的二元项合并到MRF中是不切实际的，从而限制了整个系统的性能。

发明内容

下面简要地概述本公开的内容，以基本理解本公开的一些方面。发明内容部分并非是本申请公开内容的详细概述。它既不是用来标识本公开的关键或重要元素，也不用来描述本公开的特定实施方案的任何范围或权利要求书的任何范围。该发明内容唯一的目的是以简化的形式给出本公开的一些概念，作为后面更详细描述的序言。

本申请公开了一种用于针对任意大小的原始图像，实时地产生逐像素类别标签图的端对端解决方案。初始输入是具有真值(ground truth)类别标签图的原始图像数据集。原始图像数据集及其类别标签图标注馈入到所谓的“一元项预先训练单元”或类似的单元/模块/装置中，其输出的是预先训练的一元项及其对应的类别标签概率。由预先训练的一元项模型和真值类别标签图产生的类别标签概率馈入到“二元项预先训练单元”或类似的单元/模块/装置中，其输出的是预先训练的二元项模型。将预先训练的一元项模型和预先训练的二元项模型形成的级联模型、以及原始图像数据集及其类别标签图标注馈入到“微调单元”或类似的单元/模型/装置中，其输出的是微调后的最终模型。在给定任何原始图像(具有任意大小)作为输入的情况下，微调后的最终模型采用微调后的最终模型来预测逐像素类别标签图。

端对端解决方案包括深度解析网络(下文称为DPN或第二CNN)。为了训练PDN，训练阶段中的若干重要概念详述如下：

1.标准训练：迭代地更新模型的权值，从而使得模型的输出(预测)可以接近真值标注。例如，在语义图像标注任务中，模型训练的目标是：预测应该与现实情况(标注)对齐的每个像素的特定类别标签(例如，“行人”、“小汽车”等)的存在。通常，模型的权值随机地初始化。

2.预先训练：预先训练使模型具有良好的初始化情况以便进一步调整。因此，预先训练的模型通常充当微调模型的起始点。

微调：微调也类似标准训练，不同之处是：权值不是随机地初始化，而是使用预先训练的模型中的权值进行初始化。

在一方面，公开了一种图像语义标注模型的生成方法，其包括：分别形成第一CNN和第二CNN；随机地将所述第一CNN初始化；将原始图像和多个预定标签真值标注输入到所述第一CNN，以迭代地更新所述第一CNN的权值，从而使得从所述第一CNN输出的、所述原始图像的类别标签概率接近所述预定标签真值标注；随机地将所述第二CNN初始化；将所述类别标签概率输入到所述第二CNN，以对输入的类别标签概率进行校正，从而确定所述类别标签概率的分类误差；通过反向传播所述分类误差来更新所述第二CNN；将更新的第一CNN和更新的第二CNN进行级联；将所述原始图像中的每个像素分类为多个通用对象类别中的一个；以及将所述分类误差反向传播通过所述级联的CNN以更新所述级联的CNN的权值，直到所述分类误差小于预定阈值。

可选的，所述第二CNN用于在空间域(三元惩罚)中，从所述类别标签概率确定每个像素的上下文信息。

可选的，所述第二CNN用于计算所述图像中的当前参考像素与其邻近像素的相似性关系，其中，所计算出的相似性关系随不同的参考像素而改变，所述第二CNN利用多个局部共享过滤器来更新所述相似性关系，使得相似的像素具有相似的类别标签。

可选的，所述第二CNN利用多个全局共享过滤器来更新所述像素的局部标签上下文；其中每个所述全局共享过滤器产生所述标签上下文的匹配成本，并且匹配成本最小的全局共享过滤器表示一种类型的局部标签上下文。

可选的，使用逐像素类别标签图、类别边界框作、图像级标记和图像级描述语句中的之一作为监督来训练所述第一CNN。

本申请的另一方面公开了图像语义标注方法。该方法包括：

为图像中的每个像素确定类别标签概率；

在空间域中从确定出的类别标签概率确定每个像素的上下文信息；

从确定出的类别标签概率中为每个像素确定局部标签上下文；

将所述上下文信息乘以所述局部标签上下文以获得用于所述类别标签概率的调整因数；

将所述调整因数应用于所述类别标签概率，以更新所述类别标签概率。

可选的，所述为图像中的每个像素确定类别标签概率还包括：通过预先训练的第一CNN为图像中的每个像素确定出类别标签概率。

可选的，所述在空间域中从所述类别标签概率确定每个像素的上下文信息还包括：通过预先训练的第二CNN，在空间域中从所述类别标签概率确定出每个像素出的上下文信息，所述第二CNN与所述第一CNN具有不同的架构。

可选的，所述方法还包括通过下列处理来训练所述第二CNN：接收图像和真值类别标签；使用预先训练的第一CNN将接收的图像中的每个像素与所述真值类别标签进行比较，从而为所述接收的图像中的每个像素预测类别标签，以获得用于将特定标签分配给该像素的类别标签概率；以及将所述真值类别标签和所获得的类别标签概率馈入到所述预先训练的第二CNN中来更新所述第二CNN。

可选的，所述方法还包括：将更新的第一CNN和更新的第二CNN进行级联；通过将原始图像中的每个像素分类为多个通用对象类别中的一个而获得分类误差；以及将所述分类误差反向传播通过级联的CNN，以更新所述级联的CNN的权值，直到所述分类误差小于预定阈值。

可选的，所述在空间域中从所述类别标签概率确定每个像素的上下文信息还包括：计算当前参考像素与其邻近像素的相似性关系，其中，所计算出的相似性关系随不同的参考像素而改变，所述第二CNN利用多个局部共享过滤器来更新所述相似性关系，使得相似像素应具有相似的类别标签。

可选的，在所述从所述类别标签概率中为每个像素确定局部标签上下文中，所述第二CNN利用多个全局共享过滤器来更新所述局部标签上下文；其中每个全局共享过滤器产生所述标签上下文的匹配成本，并且匹配成本最小的全局共享过滤器就是所述标签上下文。

本申请的另一方面公开了一种图像语义标注模型的生成系统。该系统包括：一元项预先训练单元，其用于：随机地将第一CNN初始化；基于输入的原始图像和预定标签真值标注来迭代地更新所述第一CNN的权值，从而使得从所述第一CNN输出的类别标签概率接近所述预定标签真值标注；二元项预先训练单元，其用于：随机地将第二CNN初始化；校正所述类别标签概率以确定所述类别标签概率的分类误差；以及通过反向传播所述分类误差来更新所述第二CNN；微调单元，其用于：将更新的第一CNN与更新的第二CNN进行级联；通过将所述原始图像中的每个像素分类为多个通用对象类别中的一个而获得分类误差；以及将所述分类误差反向传播通过级联的CNN以更新所述级联的CNN的权值，直到所述分类误差小于预定阈值。

可选的，所述第二CNN用于在空间域中从所述类别标签概率确定每个像素的上下文信息。

可选的，所述二元项预先训练单元用于计算所述图像中的当前参考像素与其邻近像素的相似性关系，其中所计算的相似性关系随不同的参考像素而改变，所述二元项预先训练单元利用多个局部共享过滤器来更新所述相似性关系，使得相似像素具有相似的类别标签。

可选的，所述二元项预先训练单元利用多个全局共享过滤器来更新所述像素的局部标签上下文；其中每个全局共享过滤器产生所述标签上下文的匹配成本，并且匹配成本最小的全局共享过滤器表示一种类型的局部标签上下文。

在又一方面，公开了一种图像语义标注设备，其包括：一元项单元，其用于为图像中的每个像素确定类别标签概率；二元项单元，其用于在空间域中从确定出的类别标签概率确定每个像素的上下文信息；以及用于从确定出的类别标签概率中确定每个像素的局部标签上下文；以及微调单元，其用于将所述上下文信息乘以所述局部标签上下文，以获得用于类别标签概率的调整因数；以及将所述调整因数应用于所述类别标签概率，以更新所述类别标签概率。

可选的，所述二元项单元还用于在空间域中从所述类别标签概率确定每个像素的上下文信息。

可选的，所述二元项单元还用于计算当前参考像素与其邻近像素的相似性关系，其中所计算出的相似性关系随不同的参考像素而改变，所述二元项单元利用多个局部共享过滤器对所述相似性关系进行建模，使得相似像素具有相似的类别标签。

可选的，所述二元项单元利用多个全局共享过滤器对所述局部标签上下文进行建模；其中每个全局共享过滤器产生所述标签上下文的匹配成本，并且具有最小匹配成本的全局共享过滤器表示一种类型的局部标签上下文。

可选的，所述微调单元用于将一元项单元和所述二元项单元统一到端对端系统中。

在又一方面，公开了一种图像语义标注模型的生成系统，其包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，计算机程序中的相应指令被运行，以实现本公开实施例提供的任一种图像语义标注模型的生成方法中的步骤。

在又一方面，公开了一种图像语义标注设备，其包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，计算机程序中的相应指令被运行，以实现本公开实施例提供的任一种图像语义标注方法中的步骤。

附图说明

下文参考附图描述本发明的示例性非限制实施方案。附图是说明性的，并且一般不按确切比例。不同图上的相同或类似元件引用相同的参考编号。

图1示出了根据本申请的一个实施方案的、图像语义标注模型的生成方法。

图2示出了根据本申请的实施方案的步骤S102进行检测的详细过程。

图3示出了根据本申请的实施方案的步骤S103的详细过程。

图4示出了根据本申请的实施方案的步骤S104的详细过程。

图5示出了根据本申请的一个实施方案的图像语义标注方法的详细过程。

图6示出了根据本申请的一个实施方案的完整图像预测/测试。

图7是示出了根据本申请的一个实施方案的、图像语义标注模型的生成系统的示意图。

图8是示出了根据本申请的一个实施方案的、图像语义标注设备的示意图。

图9示出了根据本申请的实施方案的、图像语义标注模型的生成系统。

图10示出了根据本申请的实施方案的、图像语义标注生成系统。

具体实施方式

下面将详细地描述本发明的一些具体实施方案，包括发明人预期的用于实施本发明的最佳模式。附图中示出的是这些具体实施方案的示例。尽管结合这些具体实施方案描述了本发明，但应理解这并不是用于将本发明限于所述的实施方案。相反，这些描述的用于涵盖可以包括在如所附权利要求书限定的本发明的精神和范围内的替代方案、修改和等效物。以下描述中列出了许多具体细节，以提供对本发明的彻底理解。在实践中本发明还可以去除这些具体细节中的一些或全部。在其他情况下，没有详细地描述众所周知的过程操作，以免不必要地使本发明变得模糊。

本文中使用的术语仅仅是出于描述特定实施方案的目的，而并不用于限制本发明。除非上下文另有明确指出，否则本文中使用的单数形式“一”、“一个”和“所述”也用于包括复数形式。还应理解，本说明书中使用的术语“包括(comprises)”和/或“包括(comprising)”用于说明存在所述特征、整数、步骤、操作、元件和/或部件，但并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件和/或它们的组合。

图1示出了根据本申请的实施方案的、图像语义标注模型的生成方法1000。所生成的语义图像标注模型可用于预测图像中的每个像素的类别标签。具体而言，所生成的模型的目标是自动地输出标签图，该标签图将原始图像分割成若干语义部分。它在智能家居、无人驾驶、图像编辑等方面具有很大的应用潜力。例如，在智能家居中，语义部分是‘沙发’、‘椅子’和‘餐桌’，而在无人驾驶中，语义部分将是‘天空’、‘建筑’、‘行人’、‘小汽车’和‘道路’。

如图所示，在步骤S101将分别形成第一CNN和第二CNN。所形成的第一CNN可以是包括至少一个卷积层和至少一个池化层的任一传统的CNN。由于卷积层和池化层是本领域中公知的，因此本文中将省略其详细描述。

在步骤S102处，随机地将所形成的第一CNN初始化，将原始图像以及与其对应的预定标签真值标注输入到第一CNN，以迭代地更新第一CNN的权值以使得从第一CNN输出的类别标签概率接近预定标签真值标注，这将参考下面的图2所示的实施方案进一步论述。

在步骤S103处，随机地将第二CNN初始化，将类别标签概率输入到第二CNN，以校正输入的类别标签概率，从而确定类别标签概率的分类误差；并且通过反向传播分类误差来更新第二CNN，这将参考下面图3所示的实施方案进一步论述。

在步骤S104处，过程1000将更新的第一CNN与更新的第二CNN进行级联、将原始图像中的每个像素分类为通用对象类别中的一个，并且将分类误差反向传播通过级联的CNN，以更新级联的CNN的权值，直到分类误差小于预定阈值。

图2示出了根据本申请的实施方案的步骤S102的过程。在本实施方案中，在不同的训练设置中可使用不同的监督(supervisions)。在每个训练设置中，只使用一个监督。作为示例，以下示出不同的训练策略：

1.逐像素(Per-pixel)类别标签图作为监督：

在此设置中，可以根据真值类别标签图自然地调整网络参数，以进行准确的逐像素预测。

2.类别边界框作为监督：

由于类别边界框表明在区域级上存在某一对象，因此，可以将它们视作粗类别标签图监督。以这种方式训练的一元项在所产生的标签图上得到良好的定位性能。

3.图像级标记作为监督：

当利用图像级标记预测的任务(通过添加额外的分类层)来训练一元项时，一元项的顶层具有对对象位置的高响应。并且那些响应图可以容易调整为一元项的输出。

4.图像级描述语句作为监督：

首先，使用递归神经网络(RNN)来将描述语句转换成潜在图像级标记。那么，随后的训练策略类似于上面一个。

以下描述只是将“类别标签图监督”作为示例。其他监督可以以类似方式使用。

在步骤S201处，随机地将第一CNN的权值初始化。在步骤S202处，将原始图像及其对应的标签真值标注输入到第一CNN。CNN进行操作以将输入图像中的每个像素分类为N个通用对象类别中的一个、将每个对象类别与对应的标签真值标注进行比较，以计算分类误差，即，分类出的对象类别与对应的预定标签真值标注之间的差异。

在步骤S203处，确定上述计算出的分类误差是否小于预定阈值，如果否，则在步骤S204处，将分类误差反向传播通过第一CNN以更新权值，直到新计算出的分类误差小于预定阈值。

本发明是端对端解决方案，以无缝的方式将直接标签预测(一元项)和上下文标签细化(二元项)整合，因而可以共同地优化并且形成简单但有力的解决方案。为此，提出第二CNN来得到丰富的上下文信息。具体而言，第二CNN在空间域(三元惩罚(triple penalty))和标签域(局部标签上下文)中考虑上下文信息，因而实现最先进的性能。特别地，第二CNN采用局部共享过滤器来计算三元惩罚。通过混合的全局共享过滤器和块最小池化(blockminimum pooling)来对局部标签上下文进行建模。

在本申请的一个实施方案中，第二CNN(在本文中也称为“二元项模型”)是包括三元惩罚层(局部共享过滤器)、局部标签上下文层(全局共享过滤器的混合)以及块最小池化层的新深度学习架构。最终模型就是一元项模型和二元项模型的级联。

过滤器是施加于输入数据并且导致输出数据的网络参数。局部共享的过滤器拥有不同位置的不同参数，而全局共享的过滤器具有不同位置的相同参数。

·局部共享过滤器

在第二CNN(在本文中也称为“二元项模型”)中，采用局部共享过滤器来计算三元惩罚。三元惩罚带来的直观效果是：相似像素(例如，都是蓝色)应具有相似类别标签(例如，‘天空’)。为此，第二CNN必须计算当前参考像素与其邻近像素的相似性关系。当第二CNN考虑不同的参考像素时，相似性关系也改变。这就是局部共享过滤器(其拥有不同位置的不同参数)用来对这种相似性关系进行建模的原因。

·全局共享过滤器的混合：

在二元项模型中，采用全局共享过滤器的模型对局部标签上下文进行建模。局部标签上下文带来的直观效果是：标签具有某些同时出现的情况(例如，‘天空’和‘飞机’更可能一起出现)和具有某些配置(例如，‘人’更有可能在‘摩托车’上面)。由于此类标签上下文在图像的不同位置上共享，因此使用全局共享过滤器对它们进行建模。为了进一步增强建模能力，可包括更多的全局共享过滤器以形成混合。(每个全局共享过滤器捕获一种类型的局部标签上下文；并且更多的全局共享过滤器能够捕获各种类型的局部标签上下文。)通过这种方式，可以捕获丰富的标签上下文。

·块最小池化：

如上所述，采用全局共享过滤器的混合对标签上下文进行建模。混合中的每个全局共享过滤器相对于输入产生标签上下文的匹配成本。具有最小匹配成本的全局共享过滤器就是要寻找的标签上下文。为了找到这个对应的全局共享过滤器，使用块最小池化。这个池化操作将所有全局共享过滤器的匹配成本作为输入并且挑出最小的一个。通过这种方式，可以获得对应的标签上下文。

图3示出了根据本申请的实施方案的步骤S103的详细过程。

在步骤S301处，接收图像和真值类别标签作为对第一CNN的输入，所述真值类别标签指的是语义对象，诸如，“天空”、“人”等。

在步骤S302处，预先训练的第一CNN将所接收的图像中的每个像素与真值类别标签进行比较，以预测所接收的图像中的每个像素的类别标签来获得每个像素的类别标签概率，该概率表示某一标签被分配给像素的置信度。例如，如果一个像素的类别标签概率为：0.8(“人”)和0.2(“天空”)，那么将使用大得多的置信度来将这个像素分类为“人”。

在步骤S303处，将真值类别标签和所获得的类别标签概率馈入到随机初始化后的第二CNN(PDN)中。第二CNN校正输入的类别标签概率，以确定类别标签概率的分类误差。这里的每个模型将输出其自己的类别标签概率。通过参考对应的类别标签概率来作出所有的分类决定。例如，如果一个像素的类别标签概率为：0.8(“人”)和0.2(“天空”)，那么将这个像素分类为“人”。通过将预测的标签与图像中的所有像素的真值标签进行比较来获得分类误差。第二CNN通过调整第一CNN产生的概率来更新其权值，以作出正确的预测。例如，如果上述像素的类别标签实际上是“天空”，那么这个分类误差将引导第二CNN增加“天空”的概率并且降低“人”的概率，例如，0.4(“人”)和0.6(“天空”)。在这种情况下，最终的分类结果将是“天空”，这与真值标签更一致。应注意，第二CNN基本上确定对第一CNN产生的概率的调整(在这里，对“人”的调整是-0.4并且对“天空”是+0.4)。

在步骤S304处，通过将反向传播分类误差来更新第二CNN，直到误差小于预定阈值，该预定阈值在本领域中是公知的。

图4示出根据本申请的实施方案的步骤S104的详细过程。

在步骤S401处，将更新的第一CNN(“一元项模型”)和更新的第二CNN(“二元项模型”)级联起来。

在步骤S402处，将原始图像中的每个像素分类为多个通用对象类别中的一个，并且将每个分类出的对象与对应的真值进行比较，以获得分类误差。具体而言，通过将预测的类别标签(分类出的通用对象类别)与真值类别标签进行比较来获得每个像素的分类误差。如果它们一致，那么将没有分类误差(即，0)；否则，将存在分类误差(即，1)。最后，对图像中的所有像素的分类误差进行计算。

在步骤S403处，将分类误差反向传播通过级联的CNN，以更新级联的CNN的权值，直到分类误差小于预定阈值。

下文将参考图5论述根据本申请的一个实施方案的语义图像标注方法5000。

在步骤S501处，在给定输入的原始图像的情况下，由级联的两个CNN来确定图像中的每个像素的类别标签概率，如在步骤S403中论述的那样。在本申请的一个实施方案中，可以由级联的CNN中的第一CNN来确定图像中的每个像素的类别标签概率。

在步骤S502处，通过级联的两个CNN，在空间域(三元惩罚)中从类别标签概率确定每个像素的上下文信息。

在步骤S503处，从馈入的类别标签概率中确定每个像素的局部标签上下文，并且在步骤S504处，将确定的上下文信息乘以确定的局部标签上下文，以获得用于对第一CNN所产生的概率进行调整的因数(adjustments)。通过将调整因数应用于原始概率来获得更改的概率。通过参考更改的概率来确定最终的标注结果。

方法5000可以将任何原始完整图像作为输入并且馈入到微调后的最终模型(DPN)中。具体而言，首先提取关于各种图像区域的对象建议(proposal)。随后，将每个对象建议馈入到DPN中，以得到其对应区域标签图。通过将所有这些区域标签图组合成完整图像的标签图来获得最终结果。为清楚起见，图6中示出了完整图像的预测/测试，其中图6(a)示出了完整图像的预测/测试，并且图6(b)示出了对象建议区域预测/测试，但应注意，还可以自然地延伸到其他测试策略。

图7是示出了根据本申请的一个实施方案的图像语义标注模型的生成系统7000的示意图。

如图所示，图像语义标注模型的生成系统7000可包括一元项预先训练单元701、二元项预先训练单元702和微调单元703。

一元项预先训练单元701用于：随机地将第一CNN初始化；基于输入的原始图像和预定标签真值标注通过反向传播分类误差来迭代地更新第一CNN的权值。在本文中，通过在预先训练期间将预测的标签与真值标签/标注进行比较来获得分类误差。在预先训练的每次迭代中均具有用于更新权值而计算出的分类误差。在收敛之后，通过将对应的原始图像向前馈入到具有更新的权值的第一CNN中来获得每个图像的类别标签概率，即，类别标签概率就是第一CNN的输出。

二元项预先训练单元702用于：随机地将第二CNN初始化；校正所述类别标签概率以确定类别标签概率的分类误差；以及通过反向传播分类误差来更新第二CNN，如参考图3论述的那样。

微调单元703用于：将更新的第一CNN与更新的第二CNN进行级联；将原始图像中的每个像素分类为多个通用对象类别中的一个，以获得分类误差；以及将分类误差反向传播通过级联的CNN，以更新级联的CNN的权值直到分类误差小于预定阈值，这已经参考图4论述。

如上文所述，第二CNN可以用于在空间域(三元惩罚)中从类别标签概率中确定出每个像素的上下文信息。二元项预先训练单元702可以用于计算图像中的当前参考像素与其邻近像素的相似性关系。对于不同的参考像素，所计算的相似性关系也会随之改变。二元项预先训练单元702可以利用多个局部共享过滤器(其拥有图像中的不同位置的像素的不同参数)对相似性关系进行建模，使得相似像素(例如，两者都是蓝色)应具有相似的类别标签，以及利用多个全局共享过滤器(其拥有图像中的不同位置的像素的相同参数)来更新像素的局部标签上下文/进行建模；其中每个全局共享过滤器产生标签上下文的匹配成本，并且具有最小匹配成本的全局共享过滤器表示一种类型的局部标签上下文。

图8是示出根据本申请的一个实施方案的图像语义标注设备8000的示意图。

如图所示，语义图像标注设备8000可以包括：一元项单元801，其用于确定图像中的每个像素的类别标签概率；二元项单元802，其用于在空间域(三元惩罚)中，从馈入的类别标签概率中为每个像素确定上下文信息，以及用于从馈入的类别标签概率中确定每个像素的局部标签上下文；以及微调单元803，其用于将确定的上下文信息乘以确定的局部标签上下文，以获得用于对第一CNN所产生的概率进行调整的因数。通过将调整因数应用于原始概率来获得更改的概率。通过参考更改的概率来确定最终的标注结果。在实施方案中，微调单元803还用于将一元项单元801和二元项单元802统一(unify)到端对端系统中。一元项单元和二元项单元的权值同时更新。因此，一元项部件和二元项部件可以更协作并且更有效地起作用。

在本申请的一个实施方案中，二元项单元802还用于在空间域(三元惩罚)中从馈入的类别标签概率中确定出每个像素的上下文信息。二元项单元802另外可以用于计算当前参考像素与其邻近像素的相似性关系。对于不同的参考像素，所计算的相似性关系也会随之改变。在本申请的一个实施方案中，二元项单元802利用多个局部共享过滤器(其拥有图像中的不同位置的像素的不同参数)对相似性关系进行建模，使得相似像素(例如，两者都是蓝色)应具有相似的类别标签。二元项单元802还可以利用多个全局共享过滤器(其拥有图像中的不同位置的像素的相同参数)来更新局部标签上下文/进行建模；其中每个全局共享过滤器产生标签上下文的匹配成本，并且具有最小匹配成本的全局共享过滤器就是标签上下文。

图9示出了符合本申请的实施方案的、图像语义标注模型的生成系统9000。在此实施方案中，如图1所示的过程可以由系统9000中的软件实施。参考图9，系统9000包括存储可执行部件的存储器91，以及处理器92，所述处理器电耦合到存储器91以执行可执行部件从而执行系统9000的操作。可执行部件可包括：一元项预先训练部件93，其用于随机地将第一CNN初始化；基于输入的原始图像和预定标签真值标注来迭代地更新第一CNN的权值，从而使得从第一CNN输出的类别标签概率接近预定标签真值标注；以及二元项预先训练部件94，其用于随机地将第二CNN初始化；校正所述类别标签概率，以确定类别标签概率的分类误差；以及通过反向传播分类误差来更新第二CNN。可执行部件还可以包括微调单元95，其用于：将更新的第一CNN与更新的第二CNN进行级联；将原始图像中的每个像素分类为通用对象类别中的一个；以及将分类误差反向传播通过级联的CNN，以更新级联的CNN的权值，直到分类误差小于预定阈值。在实施方案中，第二CNN用于在空间域(三元惩罚)中，从类别标签概率确定出每个像素的上下文信息。二元项预先训练部件用于计算图像中的当前参考像素与其邻近像素的相似性关系。对于不同的参考像素，所计算的相似性关系也改变。二元项预先训练部件利用多个局部共享的过滤器来更新相似性关系/进行建模，使得相似像素应具有相似的类别标签。二元项预先训练部件利用多个全局共享的过滤器(其拥有图像中的不同位置的像素的相同参数)对像素的局部标签上下文进行建模；其中每个全局共享的过滤器产生标签上下文的匹配成本，并且具有最小匹配成本的全局共享的过滤器表示一种类型的局部标签上下文。

图10示出符合本申请的实施方案的图像语义标注模型的生成系统100。在此实施方案中，如图5所示的过程可以由系统100中的软件实施。参考图10，系统100包括存储可执行部件的存储器101，以及处理器102，所述处理器电耦合到存储器101以执行可执行部件，以便执行系统100的操作。可执行部件可以包括：一元项部件103，其用于确定图像中的每个像素的类别标签概率；二元项部件104，其用于在空间域(三元惩罚)中从馈入的类别标签概率中确定出每个像素的上下文信息，以及用于从馈入的类别标签概率中确定每个像素的局部标签上下文；以及微调部件105，其用于将确定的上下文信息乘以确定的局部标签上下文，以获得用于对第一CNN所产生的概率进行调整的因数。通过将调整因数应用于原始概率来获得更改的概率。通过参考更改的概率来确定最终的标注结果。此外，微调部件105还用于将一元项部件和二元项部件统一到端对端系统中。一元项部件和二元项部件的权值同时更新。因此，一元项部件和二元项部件可以更协作并且更有效地起作用。

二元项部件103还用于在空间域(三元惩罚)中从馈入的类别标签概率中为每个像素确定上下文信息。

二元项部件104还用于计算当前参考像素与其邻近像素的相似性关系。对于不同的参考像素，所计算的相似性关系也随之改变。二元项部件104利用多个局部共享过滤器对相似性关系进行建模，使得相似像素具有相似的类别标签。二元项部件104利用多个全局共享过滤器对局部标签上下文进行建模。每个全局共享过滤器产生标签上下文的匹配成本，并且具有最小匹配成本的全局共享过滤器表示一种类型的局部标签上下文。

尽管已描述了本发明的优选示例，但在了解本发明基本概念后，本领域的技术人员可以对这些示例作出变化或更改。所附权利要求书用于包括落入本发明的范围内的优选示例和所有变化或更改。

显然，在不脱离本发明的精神和范围的情况下，本领域的技术人员可以对本发明作出变化或更改。因此，如果这些变化或更改属于权利要求书和等效技术的范围，那么它们也将落入本发明的范围内。

Claims

1.一种图像语义标注模型的生成方法，包括：

分别形成第一CNN和第二CNN；

随机地将所述第一CNN初始化；

将原始图像和多个预定标签真值标注输入到所述第一CNN，以迭代地更新所述第一CNN的权值，从而使得从所述第一CNN输出的、所述原始图像的类别标签概率接近所述预定标签真值标注；

随机地将所述第二CNN初始化；

将所述类别标签概率输入到所述第二CNN，以对输入的类别标签概率进行校正，从而确定所述类别标签概率的分类误差；

通过反向传播所述分类误差来更新所述第二CNN；

将更新的第一CNN和更新的第二CNN进行级联；

将所述原始图像中的每个像素分类为多个通用对象类别中的一个；以及

将所述分类误差反向传播通过所述级联的CNN以更新所述级联的CNN的权值，直到所述分类误差小于预定阈值。

2.根据权利要求1所述的方法，其中，所述第二CNN用于在空间域中，从所述类别标签概率确定每个像素的上下文信息。

3.根据权利要求1或2所述的方法，其中，所述第二CNN用于计算所述图像中的当前参考像素与其邻近像素的相似性关系，

其中，所计算出的相似性关系随不同的参考像素而改变，

所述第二CNN利用多个局部共享过滤器来更新所述相似性关系，使得相似的像素具有相似的类别标签。

4.根据权利要求3所述的方法，其中，所述第二CNN利用多个全局共享过滤器来更新所述像素的局部标签上下文；其中每个所述全局共享过滤器产生所述标签上下文的匹配成本，并且匹配成本最小的全局共享过滤器表示一种类型的局部标签上下文。

5.根据权利要求3所述的方法，使用逐像素类别标签图、类别边界框作、图像级标记和图像级描述语句中的之一作为监督来训练所述第一CNN。

6.一种图像语义标注方法，包括：

为图像中的每个像素确定类别标签概率；

在空间域中从所述类别标签概率确定每个像素的上下文信息；

从所述类别标签概率中为每个像素确定局部标签上下文；

将所述上下文信息乘以所述局部标签上下文以获得用于所述类别标签概率的调整因数；以及

7.根据权利要求6所述的方法，其中，所述为图像中的每个像素确定类别标签概率还包括：

通过预先训练的第一CNN为图像中的每个像素确定出类别标签概率。

8.根据权利要求7所述的方法，其中，所述第一CNN包括至少一个卷积层和至少一个池化层，

其中，所述第一CNN通过以下处理进行训练：

随机地将所述卷积层和池化层中的每一层的权值初始化；

通过将所述图像中的每个像素分类为多个通用对象类别中的一个而计算出分类误差；以及

将所述分类误差反向传播通过所述第一CNN，以迭代地更新所述权值直到新计算的分类误差小于预定阈值。

9.根据权利要求7所述的方法，其中，所述在空间域中从所述类别标签概率确定每个像素的上下文信息还包括：

通过预先训练的第二CNN，在空间域中从所述类别标签概率确定出每个像素出的上下文信息，所述第二CNN与所述第一CNN具有不同的架构。

10.根据权利要求9所述的方法，其中，所述方法还包括通过下列处理来训练所述第二CNN：

接收图像和真值类别标签；

使用所述第一CNN将接收的图像中的每个像素与所述真值类别标签进行比较，从而为所述接收的图像中的每个像素预测类别标签，以获得用于将特定标签分配给该像素的类别标签概率；以及

将所述真值类别标签和所获得的类别标签概率馈入到所述第二CNN中来更新所述第二CNN。

11.根据权利要求10所述的方法，还包括：

将更新的第一CNN和更新的第二CNN进行级联；

通过将原始图像中的每个像素分类为多个通用对象类别中的一个而获得分类误差；以及

将所述分类误差反向传播通过级联的CNN，以更新所述级联的CNN的权值，直到所述分类误差小于预定阈值。

12.根据权利要求9所述的方法，其中，所述在空间域中从所述类别标签概率确定每个像素的上下文信息还包括：

计算当前参考像素与其邻近像素的相似性关系，

其中，所计算出的相似性关系随不同的参考像素而改变，

所述第二CNN利用多个局部共享过滤器来更新所述相似性关系，使得相似像素应具有相似的类别标签。

13.根据权利要求12所述的方法，其中，在所述从所述类别标签概率中为每个像素确定局部标签上下文中，所述第二CNN利用多个全局共享过滤器来更新所述局部标签上下文；其中每个全局共享过滤器产生所述标签上下文的匹配成本，并且匹配成本最小的全局共享过滤器就是所述标签上下文。

14.一种图像语义标注模型的生成系统，包括：

一元项预先训练单元，其用于：随机地将第一CNN初始化；基于输入的原始图像和预定标签真值标注来迭代地更新所述第一CNN的权值，从而使得从所述第一CNN输出的类别标签概率接近所述预定标签真值标注；

二元项预先训练单元，其用于：随机地将第二CNN初始化；校正所述类别标签概率以确定所述类别标签概率的分类误差；以及通过反向传播所述分类误差来更新所述第二CNN；

微调单元，其用于：将更新的第一CNN与更新的第二CNN进行级联；通过将所述原始图像中的每个像素分类为多个通用对象类别中的一个而获得分类误差；以及将所述分类误差反向传播通过级联的CNN以更新所述级联的CNN的权值，直到所述分类误差小于预定阈值。

15.根据权利要求14所述的系统，其中，所述第二CNN用于在空间域中从所述类别标签概率确定每个像素的上下文信息。

16.根据权利要求14或15所述的系统，其中，所述二元项预先训练单元用于计算所述图像中的当前参考像素与其邻近像素的相似性关系，

其中所计算的相似性关系随不同的参考像素而改变，

所述二元项预先训练单元利用多个局部共享过滤器来更新所述相似性关系，使得相似像素具有相似的类别标签。

17.根据权利要求16所述的系统，其中所述二元项预先训练单元利用多个全局共享过滤器来更新所述像素的局部标签上下文；其中每个全局共享过滤器产生所述标签上下文的匹配成本，并且匹配成本最小的全局共享过滤器表示一种类型的局部标签上下文。

18.一种图像语义标注设备，其包括：

一元项单元，其用于为图像中的每个像素确定类别标签概率；

二元项单元，其用于在空间域中从所述类别标签概率确定每个像素的上下文信息；以及用于从所述类别标签概率中确定每个像素的局部标签上下文；以及

微调单元，其用于将所述上下文信息乘以所述局部标签上下文，以获得用于类别标签概率的调整因数；以及将所述调整因数应用于所述类别标签概率，以更新所述类别标签概率。

19.根据权利要求18所述的设备，其中所述二元项单元还用于在空间域中从所述类别标签概率确定每个像素的上下文信息。

20.根据权利要求19所述的设备，其中所述二元项单元还用于计算当前参考像素与其邻近像素的相似性关系，

其中所计算出的相似性关系随不同的参考像素而改变，

所述二元项单元利用多个局部共享过滤器对所述相似性关系进行建模，使得相似像素具有相似的类别标签。

21.根据权利要求20所述的设备，其中所述二元项单元利用多个全局共享过滤器对所述局部标签上下文进行建模；其中每个全局共享过滤器产生所述标签上下文的匹配成本，并且具有最小匹配成本的全局共享过滤器表示一种类型的局部标签上下文。

22.根据权利要求18至21中任一项所述的设备，其中所述微调单元用于将一元项单元和所述二元项单元统一到端对端系统中。

23.一种图像语义标注模型的生成系统，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，计算机程序中的相应指令被运行，以实现上述权利要求1-5中任一项所述的方法中的步骤。

24.一种图像语义标注设备，其包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，计算机程序中的相应指令被运行，以实现上述权利要求6-13中任一项所述的方法中的步骤。