CN109196514B

CN109196514B - 图像分类和标记

Info

Publication number: CN109196514B
Application number: CN201780020533.8A
Authority: CN
Inventors: 桑德拉·莫; 萨贝桑·希瓦帕兰
Original assignee: See Out Pty Ltd
Current assignee: See Out Pty Ltd
Priority date: 2016-02-01
Filing date: 2017-02-01
Publication date: 2022-05-10
Anticipated expiration: 2037-02-01
Also published as: AU2021203831A1; US20200401851A1; US11687781B2; EP3411828A1; SG11201806541RA; AU2021203831B2; WO2017134519A1; CN109196514A; US20230316079A1; WO2017134519A4; US11074478B2; JP6908628B2; JP2019505063A; AU2023263508A1; AU2017214619A1; JP7232288B2; US20210279521A1; JP2021168162A; EP3411828A4

Abstract

训练图像分类模型的方法包括获得与标签相关联的训练图像，其中标签中的两个或更多个标签与每个训练图像相关联，并且其中两个或更多个标签中的每个标签对应于图像分类类。该方法还包括使用深度卷积神经网络将训练图像分类为一个或多个类，以及将训练图像的分类与关联于训练图像的标签进行比较。该方法还包括基于训练图像的分类与关联于训练图像的标签的比较来更新深度卷积神经网络的参数。

Description

图像分类和标记

相关申请的交叉引用

本申请根据35U.S.C.第119(e)节要求于2016年2月1日提交的题为“Method forTraining an Algorithm to Classify Elements and Objects in Images(用于训练算法以对图像中的元素和对象进行分类的方法)”的美国临时专利申请第62/289,902号的优先权，其全部内容通过引用方式结合于此。

技术领域

本公开一般涉及图像分类，并且更具体地涉及基于与多个类相关联的训练图像来训练图像分类模型，并使用经训练的图像分类模型将图像分类为多个类。

背景技术

商标、徽标、其他图形设计的图像以及其他品牌相关的知识产权是重要的商业资产。许多国家通过商标注册和外观设计专利注册为人们和公司提供保护其知识产权(包括商标、外观设计等，其中可能包括图形设计的图像)的正式机制。例如，商标注册系统可以使公司在商标数据库中注册其名称和徽标，并反对或强制执行可能类似的其他名称或徽标。同样，美国的外观设计专利和其他国家或地区(如欧洲)的工业品外观设计注册为具有各种图形表示(包括线条图、3D CAD模型以及2D透视图、2D图像，比如图形用户界面和表面装饰等)的设计提供了正式保护。

世界各地的许多商标局利用关键字或代码列表(例如，美国的设计代码，欧洲的维也纳代码和澳大利亚的图像成分)来标记商标，它们在语义上描述例如图形图像内部的元素或对象。为了说明，美国设计代码和维也纳代码是在语义上描述图像中的图像和/或对象的类标签。这些类标签具有分层结构，用于对图像的图形元素进行分类。一般而言，某些IP注册系统中使用的标签的层次结构从一般到更具体，例如，考虑层级中的商标的图形元素，从类别开始，然后是分部，然后是小节。一些IP注册系统可以使用单级(非分层)系统，而其他IP层级可以具有少于或多于三个级别的层级。

对于外观设计专利和工业设计，许多知识产权局采用称为洛迦诺分类和产品指示的分类系统来描述产品及其外观。美国有自己的一套设计分类，称为美国设计分类。洛迦诺分类和美国设计分类本质上是分层的，顶层通常描述产品的功能，子类描述特定功能特征、独特装饰外观或形式。非政府组织也可以使用类似类型的标签来对图形资产(例如徽标和设计)进行分类和/或注释。

知识产权所有者必须通过观察和解决潜在的侵权行为以及注册类似商标和外观设计的努力来强制执行其知识产权。然而，例如，在电子商务网站上发现侵权使用图像，或者在社交网络或互联网中发现品牌滥用可能具有挑战性。此外，公司在搜索注册商标或设计以确定是否使用和/或尝试注册名称、徽标或外观设计方面存在挑战。

在包括美国和欧洲在内的许多IP登记系统中，多个标签可以与图像或图像中的元素/对象(例如，商标或外观设计)相关联。标签也可以是分层标签。可以与图像或图像对象/元素相关联的标签在本文中可以称为多标签。

因此，期望能够将图像和/或图像中的对象/元素分类为多个类的系统和方法。

发明内容

本公开一般涉及图像分类，并且更具体地涉及基于与多个类(具有类标签)相关联的训练图像来训练图像分类模型，并且使用经训练的图像分类模型将图像分类为多个类(具有类标签)。在示例实施例中，训练图像分类模型的方法包括获得与标签相关联的训练图像，其中标签中的两个或更多个标签与每个训练图像相关联，并且其中两个或更多个标签中的每个标签对应于图像分类类。该方法还包括使用深度卷积神经网络将训练图像分类为一个或更多个类，以及将训练图像的分类与关联于训练图像的标签进行比较。该方法还包括基于训练图像的分类与关联于训练图像的标签的比较来更新深度卷积神经网络的参数。

在另一示例实施例中，一种使用一个或更多个图像分类模型对图像进行分类的方法包括：由图像处理设备获得与标签相关联的训练图像，其中，标签的两个或更多个标签与每个训练图像相关联，其中两个或更多个标签中的每个标签对应于图像分类类。该方法还包括由图像处理设备使用训练图像和与训练图像相关联的标签来训练深度卷积神经网络。该方法还包括由图像处理设备基于经训练的深度卷积神经网络将输入图像分类为两个或更多个类。

在又一示例实施例中，一种用于使用一个或更多个图像分类模型对图像进行分类的系统包括：训练图像源，该训练图像源包括与标签相关联的训练图像，其中标签中的两个或更多个标签与每个训练图像相关联。该系统还包括可通信地耦合到训练图像源的图像处理设备，其中图像处理设备被配置为从训练图像源获得训练图像并使用训练图像和与训练图像相关联的标签来训练深度卷积神经网络。该系统还可以包括输入图像源，该输入图像源包括要被分类成类的输入图像，其中将输入图像分类成多个类将输入图像与对应于多个类的多个类相关联。

根据以下描述和所附权利要求，这些和其他方面、目的、特征和实施例将是显而易见的。

附图说明

现在将参考附图，附图不一定按比例绘制，并且其中：

图1示出了根据示例实施例的用于训练图像分类模型和用于对图像进行分类的系统；

图2示出了根据示例实施例的训练图像分类模型和对图像进行分类的方法；

图3示出了根据示例实施例的训练图像分类模型(即，卷积神经网络)的方法；

图4示出了根据示例实施例的使用经训练的分类模型对图像进行分类的方法；

图5示出了使用图1的系统并且基于图2、图3和图4的方法对图像进行分类/加标签；以及

图6-8示出了根据示例实施例的基于针对多标签的每个层级的经训练的分类模型对输入图像的分类。

附图仅示出了示例实施例，因此不应视为对范围的限制。附图中示出的元件和特征不一定按比例绘制，而是将重点放在清楚地示出示例实施例的原理上。另外，某些尺寸或放置可能被夸大以帮助在视觉上传达这些原理。在附图中，附图标记表示相似或相应但不一定相同的元件。

具体实施方式

在以下段落中，将参考附图进一步详细描述示例实施例。在说明书中，省略或简要描述了公知的组件、方法和/或处理技术。此外，对实施例的各种特征的引用并不意味着所有实施例都必须包括所引用的特征。

在一些示例实施例中，基于卷积神经网络的系统和方法可用于将图像分类为多个类，使得每个图像与相应的多个标签相关联。为了说明，首先训练一个或多个卷积神经网络(这里也称为分类模型)，然后使用经训练的卷积神经网络对图像进行分类。可以与单个图像或图像中的元素/对象相关联的标签在本文中可以称为标签、多个标签或多标签。

在一些示例实施例中，在训练操作期间，可以训练卷积神经网络(例如，深度卷积神经网络)，使得使用描述图像的视觉语义含义的多标签(例如，手动)加标记的训练图像来学习网络的参数。在分类操作期间，经训练的卷积神经网络用于对其他图像进行分类，使得多标签与图像相关联。例如，由经训练的网络分类的图像可以被加标记或以其他方式与描述图像的视觉语义含义的多标签相关联。如下面更详细描述的，经训练的卷积神经网络(即，经训练的分类模型)可以包括若干层，包括卷积、合并、激活、门控、密集连接和退出以鲁棒地对图像进行分类，使得图像与适当的多标签相关联。

在一些示例实施例中，与训练图像相关联并且还用于对图像进行分类的多标签可以是分层标签。为了说明，当多标签是分层标签时，可以针对分层标签的每个级别训练相应的经训练分类模型(即，相应的卷积神经网络)。例如，当训练图像被加标记或以其他方式与具有三个层级的多标签相关联时，可以训练三个卷积神经网络。在分类操作期间，可以使用多个经训练的分类模型来对图像进行分类，使得图像被加标记或以其他方式与每个层级的分层多标签相关联。

为了说明，在商标数据库中使用的图像和相关联的语义描述标签(例如美国设计代码、维也纳代码和关键字图像成分)可用于训练能够将语义信息编码成特征图的非常大的深度卷积神经网络。然后可以使用经训练的卷积神经网络(即，由训练操作产生的分类模型)来对其他图像进行分类，使得图像与商标数据库中使用的各个语义描述标签相关联。

例如，表1示出了基于可以在美国注册为商标的图像的语义描述的示例标签。请注意，已经加标记或以其他方式与标签相关联的特定图像未在表1中示出。

如表1所示，多标签旨在提供关于图像1和图像2的语义描述信息。表1中的标签也具有分层结构，其中层级是“类别”、“分部”和“小节”。例如，与较低层级相比，最高层级“类别”提供了更一般的图像的语义描述。次高层级“分部”提供了与较低层级“分部”相比较更一般的图像的语义描述，但是具有比最高层级“类别”更具体的语义描述。在一些替代实施例中，分层多标签在不脱离本公开的范围的情况下，可以具有与表1中所示不同的层级关系。与一些图像数据库/数据集相比，表1中的每个图像与每个层级处的多个标签相关联。

图1示出了根据示例实施例的用于训练图像分类模型和用于对图像进行分类的系统100。系统100可以包括图像处理设备102、训练图像源104、输入图像源106。图像处理设备102可以通过网络108与训练图像源104和输入图像源106进行通信。例如，网络108可以是因特网、局域网、广域网或其组合。替代地或另外地，网络108可以是或可以包括电缆连接，例如通用串行总线(USB)电缆连接。

在一些示例实施例中，训练图像源104可以包括被加标记或以其他方式与多标签相关联的图像的一个或多个数据库。来自训练图像源104的图像可以由图像处理设备102使用以训练卷积神经网络(即，分类模型)，其可以用于对诸如来自输入图像源106的图像的其他图像进行分类。训练图像可以是图形设计的图像(例如，线条图，3D CAD模型的2D透视图，2D绘图等)，照片，其他类型的图像，或者前述两个或更多个的组合。训练图像可以是商标、徽标和产品设计，包括在外观设计专利和工业设计注册等中使用的图像。训练图像源104可以包括图像数据库，其包括取决于特定应用的数百万图像或少量图像。训练图像源104可以是一个或多个独立数据存储设备，计算机或计算机网络的数据存储设备，或可用于提供图像以及相关联的多标签的另一设备或系统。例如，训练图像源104可以包括存储设备(例如，静态随机存取存储器或其他类型的计算机可读介质)。与训练图像源104提供给图像处理设备102的各个训练图像相关联的多标签可以是各个训练图像的元数据的形式，或者是以其它方式将各个训练图像与相应的多标签相关联的另外的格式。在一些示例实施例中，可能使用数百或数千个可能的视觉语义(即，语义描述)标签来对训练图像加标签。训练图像源104可以是能通信地耦合到图像处理设备102的存储设备(例如，静态随机存取存储器等)。

在一些示例实施例中，与来自训练图像源104的图像相关联的多标签可以具有如上所述的分层结构。可替代地，多标签可以是非分层的。作为非限制性示例，训练图像源104可以包括一个或多个IP注册组织(例如美国专利和商标局)的数据库，并且多标签可以是语义描述标签，例如美国设计代码或其他语义描述代码。

在一些示例实施例中，输入图像源106可以包括图像的一个或多个数据库，其可以由图像处理设备102使用利用训练图像训练的卷积神经网络(即，分类模型)来分类，训练图像被加标记或以其它方式与多标签相关联并且由训练图像源104来提供。输入图像源106中包括的图像可以是图形设计的图像(例如，线条图、3D CAD模型的2D透视图、2D绘图等)，照片，其他类型的图像，或前述两种或更多种的组合。由输入图像源106提供的图像可以是包括在外观设计专利和工业设计注册中使用的图像的商标、徽标、产品设计等。输入图像源106可以包括图像数据库，其包括数百万个图像或少量图像，这取决于特定应用，并且可以分类为数百或数千个类(即，图像可以由一些可能的数百或数千个标签标记)。输入图像源106可以是一个或多个独立数据存储设备、计算机或计算机网络的数据存储设备或可用于提供由图像处理设备102分类的图像的另一设备或系统。例如，输入图像源106可以包括存储设备(例如，静态随机存取存储器或其他类型的计算机可读介质)。在一些示例实施例中，输入图像源106可以包括提交用户想要由图像处理设备102分类的一个或多个图像的用户设备。可选地或另外地，输入图像源106可以包括网页，网页包括具有元数据的图像。

在一些示例实施例中，图像处理设备102包括处理单元110，诸如中央处理单元，存储器设备112，存储设备114，以及网络接口116以及支持图像处理设备102用于训练分类模型和分类图像的功能的其他组件。网络接口116可以由图像处理设备102用于与包括训练图像源104和输入图像源106的其他设备进行通信。例如，训练图像源104和输入图像源106中的一个或两个可以是通过网络接口106通过相应的电缆(例如，USB电缆或CAT 5电缆)可通信地耦合到图像处理设备102的本地存储设备。在一些示例实施例中，训练图像源104和输入图像源106可以是单个设备，其包括具有相关联的多标签的训练图像以及需要被分类的图像。

在一些示例实施例中，处理单元110可以包括多个处理器单元，包括专用(例如，图形)处理单元。例如，计算机可执行代码可以存储在存储介质112中，并且可以由处理单元110执行，以基于训练图像来实现分类模型的训练并且基于经训练的分类模型来进行图像分类。例如，存储器设备112可以包括一个或多个静态随机存取存储器设备或另一种类型的非暂时性计算机可读介质。

在一些示例实施例中，存储设备114可以用于存储可执行代码和/或数据，包括与分类模型的训练和图像的分类有关的图像数据、标签和/或其他信息。例如，在一些实施例中，存储设备114可以用于存储先前从训练图像源104接收的训练图像或具有相关标签的另一训练图像源。替代地或另外地，存储设备114可以用于存储要由图像处理设备102分类的图像。存储设备114可以包括一个或多个静态随机存取存储器设备或另一种类型的非暂时性计算机可读介质。

在一些示例实施例中，存储器设备112和/或存储设备114可以用于存储适用于训练图像的特定数据库的多标签列表。例如，组织用于对商标或设计图像(例如，图形设计的图像)进行分类的完整或特定部分的语义描述性标签可以存储在存储设备114中以供图像处理设备102在分类模型训练期间和/或图像分类期间使用。

通过使用训练图像和与训练图像的各个图像相关联的多个标签训练的卷积神经网络，系统100可以将图像可靠地分类为多个类。与限制于互斥标签的系统和神经网络相比，使用本文所述的卷积神经网络对图像进行分类通过将图像分类为多个类(即，将图像与多个标签相关联)来改善图像处理设备102的图像分类能力，其中每个图像(或图像中的一组像素)与单个标签相关联并相应地分类。例如，在限于互斥标签的系统和神经网络中，可以认为图像包含“汽车”或“人”标签，但不包括两者。相反，系统100使用的标签可以是非互斥标签，其中标签可以与多个图像或图像中的对象相关联。此外，系统100使标签能够与多类图像相关联。例如，如果一类图像是狗的图像而另一类图像是猫的图像，则系统100使得语义描述性标签(例如，毛茸茸)能够与来自两个类的两个图像相关联。

在一些示例实施例中，图像处理设备102可以使用硬件(例如，FPGA或微处理器)、软件或硬件和软件的组合来实现。此外，在不脱离本公开的范围的情况下，可以省略图像处理设备102的一些组件或将其集成到单个组件中。虽然图像处理设备102被示为单个设备，但是在一些示例实施例中，图像处理设备102可以是多个组件/设备的系统。尽管图1中示出了系统100的特定组件，系统100可包括比所示更少或更多的组件。这里提供的关于一个或多个图像的描述可以适用于图像中的对象/元素。

图2示出了根据示例实施例的训练图像分类模型和对图像进行分类的方法200。参照图1和图2，在一些示例实施例中，方法200包括在步骤202获得具有相关标签的训练图像。例如，图像处理设备102可以从训练图像源104获得被加标记或以其他方式与多标签相关联的训练图像。可替代地，图像处理设备102可以从诸如存储设备114的另一设备获得训练图像和关联标签。

方法200包括在步骤204训练一个或多个分类模型(即，卷积神经网络)。例如，可以使用图1的系统100来训练一个或多个卷积神经网络。卷积层的基本概念是权重共享和编码多个特征图。权重共享允许提取视觉信息而不管空间位置(平移不变性)，并且多个平行特征图允许同时提取图像的不同类型/级别的细节。卷积神经网络的描述可以在Y.LeCun，L.Bottou，Y.Bengio和P.Haffner，“Gradient-based learning applied to documentrecognition，”Proc.IEEE，第86卷，第11期，pp.2278-2323,1998中找到，其内容通过引用并入本文。

如关于图3更详细地描述的那样，基于在步骤200获得的训练图像训练的卷积神经网络可以是包括若干层的深度卷积神经网络。卷积神经网络的训练包括通过对标记数据(例如，人类标记数据)迭代地进行梯度优化来调整/更新网络核的权重和偏差。与在分类层使用softmax激活或S形激活的卷积神经网络相比，系统100和方法200中使用的卷积神经网络使用下面描述的软S形激活来将图像可靠地分类成多个类(即，将多个图像与图像相关联)。例如，在分类层使用softmax激活的卷积神经网络需要互斥的类/标签。在分类层使用S形激活或在训练期间使用目标函数的最后一层或S形交叉熵的S形激活的卷积神经网络可能遭受负饱和并且悬挂在局部最小值内。通过使用在分类层处具有软S形激活的卷积神经网络或在训练期间用于目标函数的软S形交叉熵，系统100和图像处理设备102可以使用被加标记或以其它方式与多个标签(即，多标签)相关联的图像来训练一个或多个卷积神经网络，并且可以使用经训练的一个或多个卷积神经网络可靠且高效地将图像分类为多个类别(即，将图像与多个标签相关联)。在一些备选实施例中，系统100和方法200可以使用不同的手段来防止或从负饱和中恢复，而不脱离本公开的范围。

在一些示例实施例中，可以基于与图像或图像中的对象/元素相关联的分层多标签(例如，美国设计代码、维也纳代码等)的每个层级来训练相应的卷积神经网络。通常，在系统100和方法200中使用的卷积神经网络的训练中使用的训练图像和相关联的多标签可以是非分层的或分层的。

在一些示例实施例中，可以可选地预处理训练图像，例如，用于更好的数据增强。例如，可以将训练图像的大小调整为固定的高度和宽度。可以通过用例如黑色、白色和边缘颜色填充较短的尺寸来保持图像的纵横比。RGB图像的灰度和二进制版本也可以用作数据增强。作为预处理的另一示例，训练图像可以被预先白化，并且还可以在每次迭代期间应用随机对比度、随机亮度和随机翻转和旋转。

在一些示例实施例中，方法200可以包括在步骤206测试经训练的卷积神经网络(即，经训练的分类模型)。例如，来自训练图像源104或另一源的训练图像和相关多标签的样本可以提供给图像处理设备102，以对经训练的卷积神经网络进行测试/定基准。如果系统100或方法200的性能低于阈值，则可以(例如，使用更多训练图像)执行卷积神经网络的附加细化。在一些备选实施例中，在不脱离本公开的范围的情况下，可以省略对训练的分类模型的测试。

在一些示例实施例中，方法200包括在步骤208使用一个或多个经训练的分类模型(即，经训练的卷积神经网络)对输入图像进行分类。例如，可以由图像处理设备102从输入图像源106或从诸如存储设备114的另一个源接收输入图像。图像处理设备102可以基于一个或多个经训练的分类模型对输入图像进行分类。例如，对于要基于非分层标签分类的图像的特定数据集，系统100可以训练用于对相应输入图像进行分类的单个分类模型。对于要基于分层标签分类的图像的另一数据集，系统100可以训练用于对相应输入图像进行分类的单个分类模型。通过将输入图像分类为多个类，图像处理设备102有效地加标签、加标记或以其他方式将分类的输入图像与多标签相关联。在一些示例实施例中，当图像或图像中的对象/元素仅落入单个类别时，输入图像中的一个或多个可以被分类为单个类。

图3示出了根据示例实施例的训练图像分类模型(即，卷积神经网络)的方法/系统300。参见图1-3，深度卷积神经网络可以包括卷积和合并层306、完全连接层310和对数层312，如图3所示。在卷积层中，在输入特征图(先前层的图像或输出)上扫描权重共享内核，并且使用诸如ReLU、ELU、S形等的非线性激活函数来为下一组层生成输入。使用权重共享内核可以实现平移不变性，并且多个并行内核可以提取不同的视觉信息。

在卷积层之间使用合并层以减小输入特征图的维度。在合并中，使用超过一个像素的步长(通常使用两个步长)来扫描权重共享内核，并在内核区域内获得最大值。可以使用任何统计聚合函数来代替最大值(最大值：最大-合并，最小：min-合并等)。合并层有助于降低维度并忽略噪音。

卷积和合并层306的这些卷积层和合并层重复多次，以确保以多个级别(从全局细节到更精细的细节)提取视觉信息。当网络更深而具有多个卷积和合并层时，使用门控308将来自网络开始的图像信息传送到网络的更深侧。

基于图像数据的复杂性和应用中使用的标签的数量来设置网络的超参数(层数、内核大小、门控数量和内核数量)。如果应用更复杂并且需要学习到不同的分类标签的更多特征图，则网络的一部分也可以并行重复并级联在一起，从而导致网络相对较宽。

通常，卷积和合并层306执行以下主要操作：1)在预处理的输入图像上对权重共享内核求卷积；2)在生成的特征图上应用相关合并(最大，平均，最小)以适应图像不变性(例如，平移)；3)使用适当的激活函数(ReLU、S形、ELU等)将合并的特征映射到非线性输出。这些主要操作通过不同内核大小(3x3,5x5,11x11)、激活函数和门控(高速，跳过)的的组合而重复，以捕获不同级别的视觉特征。通过更深层次的卷积网络，使用更小的内核大小和更多数量的特征图来使较小的感知域适应更精细的细节。

卷积和合并层306的最后卷积层的输出被级联在一起并密集地映射到完全连接层310。使用不同的丢失规模来确保网络不过度拟合。完全连接层310确保从卷积层提取的视觉信息变窄以映射分类标签。

对数层(即，软S形层)312用于映射最后完全连接层(H)的输出以获得每个分类标签的置信度分数。软S形层定义为：

软S形：

其中Fs是S形函数。Fg是满足

的任何非线性函数，(对于所有输入范围具有非零梯度值的函数)。在该上下文中起作用的示例函数是softmax。其他激活函数如ReLU、ELU也满足此要求。γ将权重设置为Fg和Fs。在卷积神经网络的训练期间，γ被设置为与累积的交叉熵损失相关的函数(当模型具有更高的损失时提升Fg)。这个过程有助于恢复在S形负饱和区域中悬挂的假阳性和假阴性置信度分数。在使用经训练的卷积神经网络对输入图像进行分类期间，将γ设置为0以产生每个标签的独立置信分数。

使用具有多标签304的图像302训练卷积神经网络是通过反向传播网络来完成的，以最小化软S形激活对数和地面真实标记之间的交叉熵。优化和更新模块316基于软S形交叉熵模块314的输出来执行诸如权重和偏差之类的参数的更新以及其他优化。来自随机混洗输入图像数据队列的大小为(64,128,256)的小批量可以用作输入以概括属于不同类的训练图像之间的损失函数。

如上所述，当标签304具有分层结构时，针对标签层级的每个级别训练单独的模型。卷积层数、内核大小、激活类型、合并和门控、完全连接层数、完全连接层上的神经元数量随标签数量、使用的训练图像数量、使用的标签类型和训练图像的类型而变化。例如，如果网络需要对大量标签(数千或更多)进行分类，则具有大量层的卷积神经网络(类似于vgg16，Resnet101)更适合捕获视觉特征的复杂结构。

图4示出了根据示例实施例的使用经训练的分类模型对图像进行分类的方法/系统400。参见图1-4，由上述分类模型的训练产生的经训练的分类模型(即经训练的卷积神经网络)包括卷积和合并层406、完全连接层410和对数层412，如图4所示。图4的经训练的卷积神经网络实际上是在训练过程结束时的图3的卷积神经网络。为了说明，卷积和合并层406对应于卷积神经网络306，完全连接层410对应于完全连接层310，并且对数层412对应于对数层312，除了参数设置的差异。需要分类的输入图像402可以从诸如输入图像源106或其他源的图像源提供。在一些示例实施例中，输入图像可以以与关于训练图像描述的类似方式预处理。

对于给定的输入图像，来自方法200的步骤204和来自方法300的经训练分类模型输出每个标签的置信分数。与使用softmax激活的卷积神经网络相比，软S形激活对数层412的输出为每个标签生成独立的S形置信度分数，导致在所有标签之间分配的置信度分数具有等于1的分数总和。置信度分数表示图像或图像中的对象在特定类(即，特定标签)中被正确分类的置信水平。例如，分数1可以指示最高置信水平，而分数0可以指示最低置信水平。通过使用软S形激活，方法200、300和400使得能够将图像和图像中的对象/元素分类为多个类，如分类/标记输出414所示。即，多个标签(即，多标签)可以与图像相关联。例如，图像可以用多个标签加标记，并且可以不限于单个类。

图5示出了使用系统100并基于方法200、300和400对图像(例如，图形设计的图像)进行分类/加标签。如图5所示，图像502被分类为三个类(即，与三个多标签相关联)，如类/标签504所示，以及以百分比提供的置信度分数506。

图6-8示出了根据示例实施例的基于针对多标签的每个层级的经训练分类模型对输入图像的分类。在一些示例实施例中，可以针对分级标签的每个级别的层级来训练单独的分类模型，如上所述。为了说明，美国设计代码和维也纳代码等商标标签建立在“类别”→“分部”→“小节”的层次结构之上，如表1所示。每个层级的经训练分类模型(例如，用于“类别”的H(C)，用于“分部”的H(D)和用于小节的H(S))可以用于确定图像或图像中的对象的最终分类。层级信息与来自先前统计的每个分类模型的信息一起可用于对每个类别、分部和小节标签进行稳健地分类。图6-8示出了如何使用每个层级的识别标签来细化最终分数。

为了说明，在层级中从较高级别到较低级别标签计算每个类/标签的概率分数。计算每个模型的较高级别标签的置信度分数并对其求平均，如图6所示。对于每个较低级别，当前级别标签的概率分数乘以相应的较高级别标签的概率分数，如图7和图8所示。

利用大量训练图像，每个分类模型的可靠性的先前统计数据正确地指示与输入图像相关联的类/标签也可以被合并到计算分数中。为了说明，测量对于给定类别的每个层级分类模型的准确性的先验概率(例如，对于“类别”的H(C)，对于“分部”的H(D)和对于小节的H(S))是基于从例如数百万个训练数据中提取的统计数据来预先计算的。例如，P(C|c1)是预测c1类的类别模型有多好。通过将来自其相关模型的其子标签的最大置信度(D(c(di)＝＝c1)或S(c(si)＝＝c1))与给定标签的分类模型置信度分数的先验统计量相乘来计算标签(例如，c1)其子模型(D或S)的标签的置信度分数(例如，c1)。标签的最终置信度分数可以通过每个子模型的置信度乘以父概率来定义。父概率(置信度分数)由子标签所属的上层层级标签的概率定义。

上述系统和方法可用于训练深度卷积神经网络，以基于可具有分层结构的语义描述(语义视觉)标签对图像进行分类。美国设计代码中用于描述商标图像的三级层次标签的示例描述在上面的表1中示出。设计专利/工业设计领域中的多标签示例包括洛迦诺分类和产品指示。

如上所述，在训练图像分类系统的方法的示例实施例中，大规模徽标数据集可以用于训练卷积神经网络(即，分类模型)。商标图像(通常是图形设计的图像)和商标图像代码用作标记作为深度学习系统(即，基于深度卷积神经网络的系统)的输入。使用商标作为训练图像数据集提供了大量图像资源，其可用于训练深度卷积神经网络以用于图像、徽标等的分类。如上所述，本文描述的系统和方法可用于涉及工业品外观设计以及商标和外观设计的组合的分类的应用中。

可以针对徽标数据集(商标)和大规模照片数据集(ImageNet)执行系统基准测试，以及对更多应用程序特定数据集，例如电子商务站点图像(通常是产品照片，可以是照片、数字改变的商品、或只是普通徽标)执行系统基准测试。如上所述，图像(训练图像和要分类的输入图像)可以经历预处理以标准化白平衡，去除噪声，缩放图像等。

另外，可以预处理包括标签和其他相关信息的元数据。并非所有商标元数据通常都是有用的，一些描述符比其他描述符更有意义(例如，将图像描述为包含段不如将图像描述为形成复选标记的2个连接段更有用)。可以预先收集这些标签的相关性统计数据，以提供给深度网络的监督训练过程。

另外，如上所述，可以区分不同级别的元数据(即，分级标签)，从最特定的到最不特定的。例如，图像的非常具体的元数据标签可能是商标申请号11111(识别的商标)，更高级别的标签是品牌名称“Twitter”(品牌/所有者)，更高级别又是“麻雀”、“鸟”、“动物”(例如，像VC类别、分部、小节层级，例如“02.01.01”，“02.01”，“02”)。这些不同级别的描述和标签用于训练。

上述格式化信息可用于训练卷积神经网络(即，分类模型)，其包括交替卷积和最大合并层的多级架构，通常具有作为分类器的最终层，如以上所描述的。在示例实施例中，上述标签可用于训练最后一层。在基于卷积神经网络的系统和方法中，卷积和最大合并通过有效地聚类由卷积产生的特征来降低维度。每个卷积层提供一组具有不同表示的较高级特征。了解哪种架构适合语义标签的级别将有助于训练。

本文描述的系统和方法使得能够在图形设计的图像(例如商标、徽标和包括产品设计的工业设计的图像)中精确分类视觉元素或对象。通过训练每层级分类模型来利用多标签的层级可以导致更可靠的分类。还可以使用本文描述的系统和方法对照片中的对象和元素进行分类。应用包括改进基于图像的商标(和普通法律徽标)和工业设计的清关搜索和监视以防止侵权，以及在媒体监控、安全和消费者应用等各种领域的广泛适用性。

本文描述的系统和方法可以用在许多应用中。例如，通过使用已经建立的成像标签的代码标准，系统和方法可用于保护图形设计图像的知识产权，其中图像由审查员根据行业标准(维也纳代码、设计代码和关键字，等等)来加标签。如上所述，标签可用于训练分层标记类的分类模型，并且经训练的分类模型可用于在新注册期间为审查员生成代码建议，并通过提供希望注册到这里描述的分类系统的图像或图像中的对象来帮助找到类似的设计/商标图像。这种代码生成能力也可以与设计专利和工业设计注册一起使用。经训练的分类模型也可用于通过图形图像的类似设计来查找侵权。

在一些示例实施例中，可以基于类标签来执行图像搜索。为了说明，对象标签的组合描述了一个的唯一性。经训练的分类模型可用于标记或以其他方式与标签图像和图像中的对象相关联。通过使用可以自动生成对象标签的所有组合的经训练分类模型，可以针对大规模数据集搜索图像以获得相似性。

在一些示例实施例中，可以基于元数据来执行web图像搜索。如上所述的类似方法可用于在web上搜索类似图像。在元数据上训练的分类模型也可用于自动将上载的图像索引到数据库。这里描述的系统和方法还可以用于执行商标和设计清关搜索并提供监视服务。

在一些示例实施例中，可以使用本文描述的系统和方法以及来自经训练网络的输出的附加特征(可视编码的特征图-中间网络层和/或自动生成的语义标签)来执行反向图像搜索。此外，通过具有用于不同层级标签的单独模型，可以执行图像搜索以研究不同级别的细节的相似性。例如，可以执行匹配的推特徽标，期望获得这样的结果：i)推特徽标的确切形状/颜色/纹理；ii)具有标志着飞行中的鸟类或展开的翅膀、啄木鸟、其他鸟类的组合；鸽子；渡鸦；知更鸟；乌鸦；红衣凤头鸟；鸠的徽标；iii)动物类型；或iv)具有任何动物的徽标。

通常，本文描述的系统和方法可用于在世界上最大的徽标训练图像数据库上训练非常大(宽/深)的深度学习模型，其具有独立的、分层的、多标签信息。这些系统和方法可以在训练过程中轻松处理超过500万个商标图像和数千个类标签。

尽管已经描述了方法的实施例，但是应该理解，这样的系统不必限于所描述的特定特征或算法。相反，公开了特定特征和算法作为实现这种系统的示例形式。

尽管这里已经详细描述了一些实施例，但是这些描述是作为示例。这里描述的实施例的特征是代表性的，并且在替代实施例中，可以添加或省略某些特征、元件和/或步骤。另外，在不脱离所附权利要求的精神和范围的情况下，本领域技术人员可以对本文描述的实施例的各方面进行修改，所述权利要求的范围被赋予最广泛的解释以包含变型结构和等同结构。

Claims

1.一种计算机实现的使用一个或多个图像分类模型对图像进行分类的方法，所述方法包括：

获得与标签相关联的训练图像，其中，所述训练图像中的一个或多个训练图像均与所述标签中的两个或更多个标签相关联，并且其中，所述标签中的一个或多个标签均对应于图像分类类，所述标签具有分层结构；

使用所述训练图像和与所述训练图像相关联的分层结构的标签来训练至少两个深度卷积神经网络，针对所述分层结构的每个级来训练单独的深度卷积神经网络；以及

基于经训练的至少两个深度卷积神经网络将输入图像分类为两个或更多个类。

2.如权利要求1所述的方法，其中，所述至少两个深度卷积神经网络的分类层基于软S形激活，其中，软S形层定义为：

软S形：

其中H为完全连接层，Fs是S形函数，Fg是满足

的任何非线性函数，γ为权重。

3.如权利要求1所述的方法，其中，所述训练图像和所述输入图像包括图形设计的图像。

4.如权利要求1所述的方法，其中，所述标签是非互斥标签。

5.如权利要求1所述的方法，其中，所述标签是商标注册组织使用的代码。

6.如权利要求1所述的方法，其中，所述标签是用于对设计专利图像或工业设计图像进行分类的代码。

7.如权利要求1所述的方法，其中，所述标签能作为与所述标签相关联的训练图像的元数据而获得。

8.如权利要求1所述的方法，其中，基于经训练的至少两个深度卷积神经网络将所述输入图像分类为两个或更多个类包括利用对应于所述两个或更多个类的两个或更多个标签来对所述输入图像加标记或加标签。

9.如权利要求1所述的方法，还包括预处理所述训练图像，其中，使用所述训练图像和与所述训练图像相关联的标签训练所述至少两个深度卷积神经网络包括使用预处理的训练图像以及与所述训练图像相关联的标签来训练所述至少两个深度卷积神经网络。

10.一种计算机实现的训练图像分类模型的方法，所述方法包括：

针对所述分层结构的每个级使用至少一个深度卷积神经网络将训练图像分类为一个或多个类；

将所述训练图像的分类与关联于所述训练图像的标签进行比较；以及

基于所述训练图像的分类与关联于所述训练图像的标签的比较，更新每个相应的所述深度卷积神经网络的参数。

11.如权利要求10所述的方法，其中，所述训练图像包括图形设计的图像。

12.如权利要求10所述的方法，其中，所述标签是商标注册组织使用的代码。

13.如权利要求10所述的方法，还包括在对所述训练图像进行分类之前预处理所述训练图像，所述预处理包括对所述预处理的训练图像进行分类。

14.如权利要求10所述的方法，其中，每个相应的深度卷积神经网络的分类层基于软S形激活，其中，软S形层定义为：

软S形：

其中H为完全连接层，Fs是S形函数，Fg是满足

的任何非线性函数，γ为权重。

15.一种使用一个或多个图像分类模型对图像进行分类的系统，所述系统包括：

训练图像源，包括与标签相关联的训练图像，所述训练图像中的一个或多个训练图像与所述标签中的两个或更多个标签相关联，所述标签中的两个或更多个标签具有分层结构；

通信地耦合到所述训练图像源的图像处理设备，其中，所述图像处理设备被配置为从所述训练图像源获得训练图像并使用所述训练图像和与所述训练图像相关联的分层结构的标签来训练至少两个深度卷积神经网络，针对所述分层结构的每个级来训练单独的深度卷积神经网络；以及

输入图像源，包括要被分类为图像分类类的输入图像，其中，所述输入图像基于训练的至少两个深度卷积神经网络被分类为两个或更多个图像分类类。

16.如权利要求15所述的系统，其中，所述至少两个深度卷积神经网络的分类层基于软S形激活，其中，软S形层定义为：

软S形：

其中H为完全连接层，Fs是S形函数，Fg是满足

的任何非线性函数，γ为权重。

17.如权利要求15所述的系统，其中，所述标签包括由美国专利和商标局使用的美国设计代码、维也纳代码、关键字图像成分或洛迦诺分类所使用的代码中的一个或多个。