CN107077487A

CN107077487A - 利用深度网络对个人照片加标签

Info

Publication number: CN107077487A
Application number: CN201580056088.1A
Authority: CN
Inventors: 梅涛; 傅建龙; 杨奎元; 芮勇
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-10-23
Filing date: 2015-10-07
Publication date: 2017-08-18
Also published as: WO2016064576A1; US9754188B2; US20160117574A1; EP3210133A1

Abstract

方便自动加标签的技术和构造可以提供图像存储和搜索中的改进。构造可以使得能够使用加标签的源图像和目标图像来训练深度网络。构造还可以使用个人照片本体来训练深度网络的顶层。构造还可以从本体中选择一个或多个概念以用于对个人数字图像加标签。

Description

利用深度网络对个人照片加标签

背景技术

当相机已经变成便携式数字设备的重要部分并且拥有便携式数字设备的用户的数量已经继续以前所未有的速率增长时，个人照片的数量空前的高。管理这样的数量不断增长的照片的基本挑战之一是在那些照片上具有合适的标签。通常，用户可以手动地审查每个图像并将一个或多个关键字或标签添加到每个照片。标签可以识别图片的位置、图片被拍摄的事件等。然而，人们一般不情愿花时间来对他们的照片加标签。一些自动加标签技术已经出现，但是存在对用于更好地对个人照片加标签的自动加标签的解决方案的需要。

发明内容

本公开内容描述了用于向个人照片提供标签的系统和方法。在至少一个示例中，使用堆叠(stacked)的卷积自动编码器和连接的顶层，使用加标签的源图像、目标图像以及个人照片本体，来训练深度网络。深度网络可以被用于对概念进行评分，概念可以被用于对个人照片加标签。本文中描述的技术还可以至少部分地基于所评分的概念来对个人照片加标签。在一些实现方式中，评分还可以基于与个人照片相关联的元数据来得到。

提供本发明内容以便以简化的形式介绍下面在具体实施方式中进一步描述的概念选择。本发明内容不旨在识别要求保护的主题的关键或必要特征，也不旨在用作确定要求保护的主题的范围的辅助。术语“技术”例如可以是指如由以上描述的上下文允许的和贯穿本文档的系统、方法、计算机可读指令、模块、算法、硬件逻辑和/或操作。

附图说明

参考附图描述具体实施方式。在附图中，附图标记的最左边的(一个或多个)数字识别该附图标记首次出现的附图。相同的附图标记在不同的附图中指示相似或相同的项。

图1是描绘如本文中描述的用于实现个人照片加标签的示例环境的框图。

图2是描绘分布式计算资源的示例计算设备的框图。

图3是描绘可以执行个人照片加标签的示例处理架构的框图。

图4是可以被用于对个人照片加标签的示例本体的框图。

具体实施方式

概述

本文中描述的示例提供使用包括例如处理单元和加速器的资源来对数字图像加标签的技术和构造。这样的资源可以使用专门的编程和/或利用特定指令编程的硬件来实现，以实现指定功能。例如，资源可以具有不同的执行模型，对于图形处理单元(GPU)和计算机处理单元(CPU)就是这种情况。

前所未有的数量的人们现在拥有被装备具有相机的个人数字设备。结果，那些人们正在拍摄越来越多的数字照片。尽管那些照片一般具有元数据(包括时间戳)，但是在数字个人照片中进行组织和/或搜索是困难的。若干应用允许用户将标签与他们的照片相关联，但是用户一般不情愿花费时间来对他们的照片加标签。最近，已经开发了一些自动加标签方案。一些这样的方案已经是基于模型的和一些无模型的。一般地，基于模型的方法严重地依赖利用机器学习算法的预训练的分类器，而无模型方法将标签传播通过视觉邻居的加标签行为。然而，两种方法都假设具有与目标域相同的或至少相似的数据分布的良好标记的数据集的可用性，因此良好标记的数据集可以确保用于训练和传播两者的良好的泛化能力。传统方案可以通过从商业图像搜索引擎爬取顶部排名的图像来收集带标记的数据集。然而，个人照片可能不会良好地映射到商业图像。个人照片的语义分布仅仅是Web图像的总体词汇的子集。例如，社会名流的个人姓名和非常具体的项不太可能出现在个人照片中。此外，个人照片中的语义分布可以偏向较少的概念。另外，个人照片一般是较低质量的，并且可以包括比被拍摄以传达单个对象的商业照片更多的对象。

本文中描述的系统可以向个人照片提供一个或多个标签。本文中描述的技术可以使用深度学习技术，来从原图像像素和/或从高级本体先验中发现中级特征抽象。这些技术可以用于对单个照片加标签，或者可以用于对一组照片加标签。

在各种示例中，用于对个人照片加标签的算法可以通过设计例如针对个人照片的特定域本体来确定。所描述的技术可以使用来自具有加标签的照片的源域的图像和来自具有未加标签的个人照片的目标域的图像，从而以自底向上的转移来训练深度网络。这些技术可以之后对网络进行精细调谐。在一些实施例中，架构可以使用本体以自顶向下的转移来训练深度网络的顶层。

一旦被训练，深度网络可以被用于在个人照片上应用来自本体的标签。网络可以考虑单个个人照片，或者多个照片可以被批处理。在一些实现方式中，通过批处理，应用深度网络对照片加标签还可以考虑来自照片的元数据。例如，时间或位置数据可以在一次考虑多于一个照片时应用标签中是有意义的。

在下面的描述和附图中更详细地呈现个人照片加标签框架的示例。

在具有两周时段内含有2千1百万用户和4千1百万查询的大规模搜索日志的商业图像搜索引擎上，采用本文中描述的技术的实验表明：本文中描述的框架提供超过现有系统的高达50％的更好的查询预测。在以下附图的描述中更详细地呈现示例实验结果。

本文中描述的示例提供可适用于对个人数字图像加标签的技术和构造。在各种实例中，经由根据模块或API的编程被配置为执行如本文中所描述的技术的处理单元可以包括以下中的一个或多个：GPU、现场可编程门阵列(FPGA)、另一类的数字信号处理器(DSP)、或可以在一些实例中由CPU驱动的其他硬件逻辑组件。例如但不限于，可以被使用的说明性类型的硬件逻辑组件包括：专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)系统、复杂可编程逻辑器件(CPLD)等。

参考图1-4进一步描述各种示例、情景和方面。

说明性环境

图1示出了示例环境100，对个人照片加标签的示例可以在其中操作。在一些示例中，环境100的各种设备和/或组件包括可以与彼此进行通信并且经由一个或多个网络104与外部设备进行通信的分布式计算资源102。

例如，网络104可以包括公共网络(诸如互联网)、私有网络(诸如机构和/或个人内联网)、或者私有网络和公共网络的某个组合。网络104还可以包括任何类型的有线网络和/或无线网络，包括但不限于局域网(LAN)、广域网(WAN)、卫星网络、线缆网络、Wi-Fi网络、WiMax网络、移动通信网络(例如3G、4G等)或其任何组合。网络104可以利用通信协议，通信协议包括基于分组的和/或基于数据报的协议，诸如互联网协议(IP)、传输控制协议(TCP)、用户数据报协议(UDP)、或其他类型的协议。此外，网络104还可以包括方便网络通信和/或形成针对网络的硬件基础的许多设备，诸如交换机、路由器、网关、接入点、防火墙、基站、中继器、骨干设备等。

在一些示例中，网络104还可以包括使得能够连接到无线网络的诸如无线接入点(WAP)的设备。网络可以支持通过在各种电磁频率(例如，射频)上发送和接收数据的WAP的连接性，包括支持电子和电气工程师协会(IEEE)802.11标准(例如，802.11g、802.11n等)和其他标准的WAP。

在各种示例中，分布式计算资源102包括设备106(1)-106(N)。在本公开内容的实现方式中，分布式计算资源102包括搜索引擎，或结合搜索引擎进行操作。示例支持其中设备106可以包括在聚类或其他分组的配置中操作以共享资源、平衡负载、提高性能、提供故障转移支持或冗余、或用于其他目的的一个或多个计算设备的情景。设备106可以属于各种种类或类别的设备，诸如传统服务器类型的设备、台式计算机类型的设备、移动类型的设备、专用类型的设备、嵌入式设备和/或可穿戴式设备。因此，尽管被图示为台式计算机，但是设备106可以包括各种各样的设备类型，并且不限于特定类型的设备。设备106可以表示但不限于台式计算机、服务器计算机、web服务器计算机、个人计算机、移动计算机、膝上型计算机、平板电脑、可穿戴计算机、植入式计算设备、电信设备、汽车用计算机、网络使能电视、瘦客户端、终端、个人数据助理(PDA)、游戏控制台、游戏设备、工作站、媒体播放器、个人视频记录仪(PVR)、机顶盒、相机、用于包含在计算设备中的集成组件、器具或任何其他种类的计算设备。

设备106可以包括具有一个或多个处理单元108的任何计算设备，一个或多个处理单元108可诸如经由总线112操作连接到计算机可读介质110，总线112在一些实例中可以包括以下中的一个或多个：系统总线、数据总线、地址总线、PCI总线、微型PCI总线、和任何种类的本地总线、外围总线和/或独立总线。存储在计算机可读介质110上的可执行指令可以包括例如操作系统114、个人图像加标签框架116、和/或可由处理单元108加载和执行的其他模块、程序或应用。备选地或另外，本文描述的功能可以至少部分地由一个或多个硬件逻辑组件(诸如加速器)来执行。例如但不限于，可以被使用的说明性类型的硬件逻辑组件包括FPGA、ASIC、ASSP、SOC、CPLD等。例如，加速器可以表示混合设备，诸如来自包括嵌入于FPGA结构中的CPU进程的ZYLEX或ALTERA的一个。

设备106还可以包括一个或多个网络接口118，以使得能够在设备106与其他联网设备(诸如客户端计算设备120或其他设备106)之间进行通信。这样的网络接口118可以包括用于通过网络发送和接收通信的一个或多个网络接口控制器(NIC)或其他类型的收发器设备。为简单起见，从图示的设备106中省略其他组件。

客户端计算设备120被包含在本文中描述的个人图像加标签系统中。客户端计算设备120被图示为手持式或移动式设备。然而，设备120可以属于各种种类或类别的设备(其可以与设备106相同或不同)，诸如传统客户端类型的设备、台式计算机类型的设备、移动类型设备、专用类型的设备、嵌入式设备和/或可穿戴式设备。因此，尽管被图示为移动计算设备(其可以具有比设备106更少的计算资源)，但是客户端计算设备120可以包括各种各样的设备类型，并且不限于任何特定类型的设备。客户端计算设备120可以包括但不限于：计算机导航类型的客户端计算设备(诸如基于卫星的导航系统，包括全球定位系统(GPS)设备和其他基于卫星的导航系统设备)、诸如移动电话的电信设备、平板电脑、移动电话/平板混合设备、个人数据助理(PDA)、膝上型计算机、其他移动计算机、可穿戴计算机、植入式计算设备、台式计算机、个人(例如，台式)计算机、汽车用计算机、网络使能电视、瘦客户端、终端、游戏控制台、游戏设备、工作站、媒体播放器、个人视频记录仪(PVR)、机顶盒、相机、用于包含在计算设备中的集成组件、器具或被配置为接收用户输入的任何其他种类的计算设备。一般地，设备120中的每个可以是可以存储数字图像并且能够与在分布式计算资源102上或结合分布式计算资源102进行操作的个人图像加标签框架进行通信的任何设备。

用户122还被图示为与客户端计算设备120相关联。在一些实现方式中，用户122还可以或备选地包括用户的一个或多个被指派者，诸如用户的助手、用户的导师、用户的配偶、用户的父母、和/或用户对其授予访问特定用户的客户端设备120的许可的另一实体。

各种种类或类别的客户端计算设备120可以表示具有一个或多个处理单元124的任何类型的计算设备，一个或多个处理单元124可诸如经由总线128操作连接到计算机可读介质126，总线128在一些实例中可以包括以下中的一个或多个：系统总线、数据总线、地址总线、PCI总线、微型PCI总线、和任何各种本地总线、外围总线和/或独立总线。

存储在计算机可读介质126上的可执行指令可以包括例如操作系统130、和/或可由处理单元124加载和执行的模块、程序或应用。备选地或另外，本文描述的功能可以至少部分地由一个或多个硬件逻辑组件(诸如加速器)来执行。例如但不限于，可以被使用的说明性类型的硬件逻辑组件包括FPGA、ASIC、ASSP、SOC、CPLD等。例如，加速器可以表示混合设备，诸如来自包括嵌入于FPGA结构中的CPU进程的ZYLEX或ALTERA的一个。

客户端计算设备120还包括用于存储个人图像的图像存储132。图像可以使用设备关联的相机134来捕获，但是在一些实施例中，图像可以使用除了相机134之外的设备来捕获。在一些实施例中，设备120可以不包括相机134，但是图像可以(例如，从被装备有相机的设备)被上传或以其他方式传输到计算设备120。

客户端计算设备120还可以包括一个或多个网络接口136，以使得能够通过网络104在客户端计算设备120与其他联网设备之间进行通信，其他联网设备诸如为其他客户端计算设备120(例如，以在由单个用户122拥有的多个设备120之间共享信息和/或将信息相关联)或设备106。这样的网络接口136可以包括用于通过网络发送和接收通信的一个或多个网络接口控制器(NIC)或其他类型的收发器设备。在一个示例中，客户端计算设备120可以将数字图像文件发送到远程设备106，以用于通过个人图像加标签框架116加标签。客户端计算设备120可以之后接收一个或多个标签以用于与所发送的图像文件相关联。

图2是描绘分布式计算资源的示例计算设备200(诸如，来自图1的设备106)的框图。在设备200中，其可以为图1的处理单元108的一个或多个处理单元202可以表示例如CPU类型处理单元、GPU类型处理单元、FPGA、另一类别的数字信号处理器(DSP)、或可以在一些实例中由CPU驱动的其他硬件逻辑组件。例如但不限于，可以被使用的说明性类型的硬件逻辑组件包括ASIC、ASSP、SOC、CPLD等。

在一些示例中，计算机可读介质204(其可以为图1的计算机可读介质110)可以存储可由处理单元202执行的指令，如以上所讨论的，处理单元202可以表示包含在设备200中的处理单元。计算机可读介质204还可以存储可由外部处理单元(诸如由外部CPU、外部GPU)执行的、和/或可由外部加速器(诸如FPGA类型加速器、DSP类型加速器、或任何其他内部或外部加速器)执行的指令。在各种示例中，至少一个CPU、GPU和/或加速器被包含在设备200中，而在一些示例中，CPU、GPU和/或加速器中的一个或多个在设备200外部。

在图示的示例中，计算机可读介质204还包括数据存储206。在一些示例中，数据存储206包括诸如数据库、数据仓库、或其他类型的结构化或非结构化数据存储之类的数据存储。在一些示例中，数据存储206包括语料库和/或具有一个或多个表、索引、存储的过程等以使得能够进行数据访问的关系数据库，一个或多个表包括以下中的一个或多个：例如，超文本标记语言(HTML)表、资源描述框架(RDF)表、web本体语言(OWL)表和/或可扩展标记语言(XML)表。数据存储206可以存储用于存储在计算机可读介质204中的和/或由处理单元和/或加速器202执行的处理、应用、组件和/或模块的操作的数据。数据存储206可以存储经训练的深度网络、用于训练深度网络的源图像、或可以被用于辅助对图像加标签的其他信息。以上提及的数据中的一些或全部可以被存储在一个或多个处理单元202板上的单独的存储器208上，诸如CPU类型处理器、GPU类型处理器、FPGA类型加速器、DSP类型加速器和/或另一加速器板上的存储器。

设备200还可以包括一个或多个输入/输出(I/O)接口210，以允许设备200与输入/输出设备进行通信，输入/输出设备诸如为：包括外围输入设备(例如，键盘、鼠标、笔、游戏控制器、语音输入设备、触摸输入设备、手势输入设备等)的用户输入设备、和/或包括外围输出设备(例如，显示器、打印机、音频扬声器、触觉输出等)的输出设备。另外，在设备200中，一个或多个网络接口212(其可以为图1中示出的网络接口118)可以表示例如用于通过网络发送和接收通信的网络接口控制器(NIC)或其他类型的收发器设备。

在图示的示例中，计算机可读介质204包括操作系统214，其可以为图1的操作系统114。计算机可读介质204还包括个人图像加标签框架116。框架116可以包括一个或多个模块和/或API，其被图示为框216、218、220、222、224、226、228和230，但是这仅仅是示例，并且数量可以变化为更高或更低。与框216、218、220、222、224、226、228和230相关联地描述的功能可以被组合以由更少数量的模块和/或API执行，或者该功能可以被拆分并且由更大数量的模块和/或API执行。

在图示中，框216和218总体上分别表示源图像储存库模块和目标图像储存库模块，每个框具有将设备200的处理单元202编程为访问源图像/目标图像的逻辑，源图像/目标图像可以为来自存储在数据存储206或外部数据存储中的图像储存库的图像。源图像是被加标签的数字图像。目标图像可以被加标签或可以不被加标签，但是在本文中描述的各种示例中，不考虑目标图像的标签。在一些示例中，源图像和/或目标图像可以是来自基于web的源的数字照片。在至少一个示例中，源图像可以从ImageNet获得，并且目标图像可以从Flickr获得。

框220总体上表示本体储存库模块，其具有将设备200的处理单元202编程为访问本体的逻辑，本体可以被存储在数据存储206或外部数据存储中。在一些示例中，本体可以为树结构，其中每个文本标签表示叶节点，并且叶节点被分组成多个中级节点。中级节点可以被合并成单个根节点。下面将参考图4更详细地描述示例本体。

框222总体上包括卷积自动编码器(CAE)训练模块，其具有将设备200的处理单元202编程为对至少一个CAE进行训练的逻辑。在一些实施例中，CAE包括堆叠布置中的多个CAE。在一些实施例中，以非监督式方式在源域和目标域两者上对CAE进行训练，由此可以从原像素中发现共享的深度特征抽象。抽象可以跨两个域被发现，两个域即为源域中的加标签的照片和目标域中的未加标签的照片。

框224总体上表示精细调谐模块，其具有将设备200的处理单元202编程为对共享的深度特征抽象进行精细调谐的逻辑，共享的深度特征抽象可以为由框222的CAE训练模块确定的抽象。精细调谐处理可以使用监督在源域中实现，以提供具有更强辨别能力的网络。

框226总体上表示顶级训练模块，其具有将设备200的处理单元202编程为对深度网络的顶层进行训练的逻辑。顶层可以是具有本体先验的完全连接的层(FCO层)。顶层的训练可以包括在框224中获得的经精细调谐的共享的深度特征抽象。

框222、224和226总体上表示训练模块，其具有将设备200的处理单元202编程为对深度网络进行训练的逻辑。在一些实施例中，框222和224可以表示利用自底向上的转移的深度学习的处理，例如其可以确保在转移学习中的良好泛化能力。如以上所指出的，框222可以是非监督训练，而框224可以受源域和目标域监督。框226可以表示利用自顶向下的转移的深度学习的处理，例如以考虑跨两个域的本体。在一些实现方式中，少于所有三个模块可以被用于训练深度网络。例如，可以仅使用自底向上或自顶向下的转移。然而，使用所有三个模块可以产生更好的加标签结果。例如，因为共享的深度特征抽象和本体跨两个域起作用，所以结果参数可以被转移到目标域，以获得中级特征表示和高置信水平。

框228总体上表示加标签模块，其具有将设备200的处理单元202编程为确定针对一个或多个图像的一个或多个标签的逻辑。深度网络被用于分析照片。深度网络可以提供用于对概念加标签的评分，其中标签由加标签模块基于评分来选择。例如，加标签模块可以选择具有高于阈值评分的评分的所有标签，或者加标签模块可以选择具有最高评分的预定数量的标签。此外，在确定标签时，加标签模块可以一次考虑单个图像，或者可以考虑多个图像。例如，与图像文件相关联的元数据可以跨多个图像是有用的。

框230表示输出模块，其具有将设备200的处理单元202编程为将标签与图像相关联的逻辑。输出模块还可以将标签发送到输入/输出接口210和/或网络接口212。

总线234可以将计算机可读介质204操作连接到处理单元202，总线234可以为总线112，并且总线234在一些实例中可以包括以下中的一个或多个：系统总线、数据总线、地址总线、PCI总线、微型PCI总线、以及任何各种本地、外围和/或独立总线。

图3是描绘个人图像加标签框架116可以执行以方便图像加标签的处理的示例架构300的框图。架构300的各个部分可以经由离线处理和/或经由查询时处理来完成。在一些示例中，用户可以将用于加标签的一个或多个图像上传到设备102，或包含架构的一些的应用可以被包含在设备120上。在一些示例中，深度网络可以在设备120上被训练，但是经由设备120上的应用来完成加标签。

架构300包括在302建立个人照片本体。本体可以特定于个人照片(因为针对Web图像的词汇可能在一些方面中太大)，但是未特定于个人照片的某些属性。在一个示例中，针对个人照片的本体可以通过确定可能出现在个人照片中的概念(即语义词或短语)来开发。这些概念是可以根据本公开内容的实现方式被应用到照片的标签。概念可以被认为是树结构中的叶节点，并且根据它们的语义相关性而被手动地分组成中级节点或种类。中级节点还可以被合并成根节点。

图4图示了三层树结构的本体，诸如刚刚描述的那个。在图4中，402表示根节点；404-1、404-2、404-3、…表示中级节点或种类；以及406-1、406-2等表示叶节点或概念。在该本体中，概念(例如海滩406-1、天空406-2)表示可以与图像相关联的文本标签。当然，本体不限于该示例本体的大小或结构。此外，如贯穿本公开内容描述的，本体被用于训练网络以及对图像加标签。因此，在一些实施例中，本体中的概念可以由于它们在源数据库中的使用而被选择。例如，本体可以优选“年轻女孩”和“年轻男孩”作为“青少年”的概念，因为源数据库使用前者。

架构300包括源图像302和目标图像304上的操作。源图像302可以是加标签的图像，而目标图像是未加标签的个人照片。源图像和目标图像可以来自公共图像数据库。在一些实例中，本体概念可以被调节为对应于已经在源数据库中使用的概念。将参考示例实现方式描述架构300的各方面。参考示例仅仅是一个非限制性示例，并且在本文中被提供为可以被包含在架构内的可能实施例的细节。在示例中，是具有d维的N个训练数据的集合，并且是对应的标记矩阵。目标域中的标记是未知的，而在源域中，每个标记y_i是针对本体中的叶节点的K维输出。本体中的正确概念被分配以1的值，而在其他情况下分配0。在该示例中，W表示用于在堆叠的CAE中使用的参数集(例如，权重和偏置)，并且B表示顶部FCO层的参数，D表示在CAE之后的转换的特征的维度。给定X，参数学习可以通过在Y上的条件分布来确定，这可以根据如下方程(1)来以公式表示：

其中W和B可以使用转移深度学习流程来优化。

具体地，架构可以使用由308和310表示的两步流程来优化W。例如，在步骤308处，架构300对堆叠的CAE进行训练，并且在310处，架构310对结果进行精细调谐。在一些示例中，308以非监督式方式对CAE进行训练，以学习共享的中级特征抽象。抽象可以之后在310处使用源域和目标域以监督式方式来精细调谐。下面将描述这些技术的一些示例。

在308，自动编码器(AE)可以被用于构建深度网络，其可以被用于学习原始数据的有效编码，而不使用监督标记。AE总体上包括编码器函数f_W(x_i)和解码器函数g_W′(x_i)，其中x_i是输入，并且W和W’分别是编码器和解码器的参数。完全连接的AE是基本形式，并且可以被使用，但是完全连接的AE可以不考虑图像的高维和空间结构。在本公开内容的一些实施例中，CAE被使用。在CAE中，在输入中的所有位置之中共享权重，并且CAE很好地缩放至现实大小的高维图像，因为针对共享的权重的自由参数的数量不取决于输入维度。对于输入x_i，第j个特征映射的隐藏表示可以被给出为如方程(2)所示：

其中，σ是激活函数，并且*表示二维卷积。x_i的重建(即，r_i)被获得为如方程(3)所示：

r_i＝g_W(f_W(x_i))＝σ(∑_j∈Hh_j*W′_j) (3)

其中，H表示所有隐藏特征映射的集合，并且W’通常被强制为W的转置。成本函数可以被定义，以使用均方差来使在所有训练数据上的重建误差最小化。例如，成本函数可以被定义为如方程(4)所示：

在示例实施例中，如在一些传统深度网络中的，成本函数可以通过后向传播算法来求解。

架构300可以包括若干卷积自动编码器以形成堆叠的CAE。该布置可以构建深度网络。在一个示例中，五个CAE被堆叠。非监督式训练可以在堆叠的CAE中以贪婪逐层的方式来执行。该非监督式训练可以很好地引导学习并支持来自训练集的更好的泛化。步骤310中的精细调谐还可以在步骤310中通过监督式精细调谐来增强辨别能力。例如，当W表示在精细调谐之后的CAE层的总体参数时，并且一旦W被学习，就可以通过将方程(1)修改为如方程(5)所示来表示针对X的经转换的特征表示：

在312，可以学习具有本体先验的完全连接的顶层(“FCO层”)。FCO层在源域中的共享的特征抽象上学习，并且被转移到目标域。在一些示例中，本体中的不同概念之间的关系可以跨两个域来继承。通过非限制性示例的方式，中级节点“动物”可以包括源域和目标域两者中的相同的叶节点(例如“牛”、“鸟”等)。基于共享的特征抽象和继承的关系，FCO层的参数可以从源域中学习，并在几乎没有间隙的情况下被转移到目标。本体先验可以增强在接近的概念之间的相关性，并弱化在不相似的概念之间的相关性，由此提升预测准确性。本体先验可以通过固定W并使方程(6)最大化而被引入到方程(5)中，因为W已经从CAE中学习到：

P(Y|X)＝∑_B,θP(Y|f_W(X),B)P(B|θ)P(θ) (6)

其中，和θ＝[θ₁,…,θ_M]T∈R^M×D分别是所定义的本体中的叶节点和中级节点的先验。M和K分别是中级节点和叶节点的数量。在一些示例中，在叶节点上的先验在条件概率的形式中受其直接中级节点(即父节点)的约束。函数parent(*)可以被定义为从叶节点到它们的中级节点的映射。在该示例中，如果k和m分别是叶节点和中级节点的索引，则parent(k)＝m。

在该示例中，先验B和θ的选择可以为高斯分布。B和θ可以因此根据方程(7)的形式来描述：

其中，表示针对第k个叶节点的先验，其均值由其父θ_parent(k)确定，并且ID是对角协方差。θ_M是本体中的第m个中级节点的先验，并且包括β_K叶节点的集合，其中parent(k)＝m。当Cm＝|{k|parent(k)＝m}|并且|·|表示集合的基数时。当β_K和θ_M在该示例中是高斯分布时，给定β_K，θ_M可以被表示为如方程(8)所示：

其中，MAP估计可以被应用，以例如通过使方程(9)最大化来确定FCO层的参数B和θ的值：

logP(Y|f_W(X),B)+logP(B|θ)+logP(θ). (9)

在一些示例中，均方差可以被选择以表示损失，并且损失函数可以被表达为如方程(10)所示：

在该示例中，方程(10)的损失函数可以通过将θ∈R^M×D矩阵转换成与B相同的维度来有效地求解。更具体地，当θ＝[θ_parent(1),θ_parent(2)…,θ_parent(K)]T∈R^K×D时，方程(10)可以被简化为如方程(11)所示：

此外，固定θ将方程(11)的B的导数设置为零，并且B可以根据方程(12)来更新：

B＝(2Yf_W(X)^T+λ₁θ)(2f_W(X)f_W(X)^T+λ₁I)^-1 (12)

其中，I是单位矩阵。利用该更新的B，θ可以通过方程(8)来重新计算并且再次被转换。因此，方程(11)可以通过迭代地更新B和θ直到在两个连续迭代之间的差低于阈值而被优化。在一些示例中，阈值可以为10^-4。

前文描述使用具有源数据和目标数据的FTO层来训练深度网络的示例。在314处，架构300接收用于加标签的照片。网络可以被用于一次一个地或者使用批处理对个人照片加标签。在两种处理中，架构可以在316处获得置信评分，并且在318处基于那些评分来确定标签。

在对单个图像加标签的示例中，可以表示单个照片的原像素。将x输入到CAE中将得到经转换的特征表示在该方法中，加标签问题可以公式表示为如方程(13)所示：

其中，表示指示针对每个概念的置信评分的标记向量。y的闭合形式的解之后由方程(14)示出：

y＝Bf_W(x) (14)

在该示例中，值y可以被用于识别针对加标签结果的最可能的候选。在一些示例中，值可以被排名，其中与某个数量的顶部评分相关联的标签被用于对照片加标签。在其他示例中，与高于阈值评分的评分相关联的标签可以被选择为加标签结果。

在一些示例中，可能更期望一次考虑多个照片并对多个照片加标签。时常，用户将拍摄事物、事件或个人的多个图片，并且一次考虑那些照片中的多于一个照片可以提供更好的结果。诸如地理位置、时间戳等的元数据常常与数字照片一起被存储。绝对时间戳可能对使用算法来理解照片不是特别有用，但是针对照片集合中的多个照片的时间戳可能在发现照片之间的关系时有用，由此潜在地提高加标签性能。例如，如果两个照片的时间戳是接近的，则可以推断它们来自同一事件，并且两个事件的加标签结果应当是紧密相关的。类似地，与一组照片的位置相关的信息可以提供另外的相关信息。其他元数据还可以或备选地可以被使用。

在一个示例中，时间戳被用于改进对包含N个照片的照片集合和标记矩阵的加标签。在该示例中，相似矩阵可以根据方程(15)来构建：

其中，t_i表示照片i的时间戳，γ是控制衰减速率的自由参数，并且T是阈值。在照片集合中，如果在两个照片之间的时间戳的差小于T，则两个照片有可能共享加标签结果。同时考虑时间约束和视觉线索，可以根据方程(16)来确定批处理模式的目标函数：

其中，L＝A-1/2(A-S)A-1/2，并且A是被定义为在对角线上具有度a₁、…、a_N的对角矩阵的度矩阵(degree matrix)，并且通过将Y的导数设置为零，以上优化具有如方程(17)中示出的闭合形式的解：

Y＝2Bf_W(x)(L+L^T+2I)^-1 (17)

其中，I是单位矩阵，并且矩阵Y指示整个集合的加标签结果，其中每列是集合中的单个照片的置信评分的集合。标签可以基于置信评分而被应用到每个照片。例如，与高于阈值的评分相关联的标签可以被应用到照片，或者与某个预定数量的最高置信评分相关联的标签可以被应用，或者其某个组合可以被用于对照片加标签。

示例条款

A：一种方法，包括：提供针对个人数字图像的本体，本体包括包含多个概念的层次结构，多个概念被分组成层次结构的多个节点，多个概念中的每个概念包括用于与一个或多个个人数字图像相关联的文本描述符；提供来自源域的多个源数字图像，源数字图像中的每个源数字图像具有至少一个相关联的文本描述符；提供来自目标域的多个目标数字图像；在计算设备上使用源数字图像、目标数字图像以及本体来训练深度网络；在计算设备处接收一个或多个个人数字图像；使用计算设备将深度网络应用到一个或多个个人数字图像，以确定用于与一个或多个个人数字图像中的每个个人数字图像相关联的概念中的一个或多个概念；以及将概念中的一个或多个概念中的至少一个概念与一个或多个个人数字图像中的每个个人数字图像相关联。

B：根据段落A记载的方法，其中，训练深度网络包括确定深度特征抽象。

C：根据段落A或B记载的方法，其中，确定深度特征抽象包括在源数字图像和目标数字图像上训练多个卷积自动编码器。

D：根据段落A-C中的任一个记载的方法，还包括使用本体来对深度特征抽象进行精细调谐，以获得经精细调谐的深度特征抽象。

E：根据段落A-D中的任一个记载的方法，其中，应用深度网络包括将经精细调谐的深度特征抽象应用到个人数字图像中的一个或多个个人数字图像。

F：根据段落A-E中的任一个记载的方法，还包括通过以下来创建针对个人数字图像的本体：识别多个概念；将多个概念分组成多个种类，多个种类中的每个种类包括多个概念中的一个或多个概念；以及将每个概念与和在源域中使用的源文本表达匹配的概念文本表达相关联，以识别在源域中存储的图像中的概念。

G：根据段落A-F中的任一个记载的方法，其中，指令代表性图像对所识别的用户的显示在缺乏由所识别的用户进行的同时发生的搜索的情况下被执行。

H：根据段落A-G中的任一个记载的方法，其中，将深度网络应用到个人数字图像中的一个或多个个人数字图像包括：考虑个人数字图像中的一个或多个个人数字图像的属性，以分配一个或多个概念。

I：一种计算机可读介质，其上具有计算机可执行指令，计算机可执行指令用于将计算机配置为执行根据段落A-H中的任一个记载的方法。

J：一种设备，包括：计算机可读介质，其上具有计算机可执行指令，计算机可执行指令用于将计算机配置为执行根据段落A-H中的任一个记载的方法；处理单元，其适于执行指令以执行根据段落A-H中的任一个记载的方法。

K：一种设备，包括：一个或多个计算机可读介质，其上具有多个模块、源图像储存库、目标图像储存库以及本体储存库；处理单元，其可操作地耦合到计算机可读介质，处理单元适于执行包括以下的多个模块中的模块：卷积自动编码器训练模块，其用于使用来自源图像储存库的源图像和来自目标图像储存库的目标图像，来训练包括深度网络的一个或多个卷积自动编码器；顶级训练模块，其用于使用来自本体储存库的本体来训练深度网络的顶级；评分模块，其用于针对多个图像中的个体图像，使用深度网络和与多个图像相关联的元数据，来确定针对本体中的多个概念中的每个概念的置信评分；以及加标签模块，其用于至少部分地基于置信评分来选择多个概念中的一个或多个概念，以用于对多个图像中的每个图像加标签。

L：根据段落K记载的设备，其中，训练一个或多个卷积自动编码器包括：从源图像和目标图像的原像素中发现共享的深度特征抽象。

M：根据段落K或段落L记载的设备，还包括精细调谐模块，精细调谐模块用于使用源图像以监督式方式对共享的深度特征抽象进行精细调谐。

N：根据段落K-M中的任一个记载的设备，其中，卷积自动编码器包括多个卷积自动编码器的堆叠(stack)。

O：根据段落K-N中的任一个记载的设备，其中，顶层是完全连接的顶层。

P：根据段落K-O中的任一个记载的设备，其中，加标签模块选择与高于阈值评分的置信评分相对应的概念，以用于对多个图像中的每个图像加标签。

Q：根据段落K-P中的任一个记载的设备，其中，加标签模块选择与预定数量的最高置信评分相对应的概念，以用于对多个图像中的每个图像加标签。

R：一个或多个计算机可读介质，其上具有计算机可执行指令，计算机可执行指令在执行时将计算机配置为执行包括以下的操作：使用来自源图像储存库的加标签的源图像和来自目标图像储存库的目标图像，以非监督式方式训练包括卷积自动编码器的堆叠的深度网络，以从源图像和目标图像的原像素中发现深度特征抽象；使用来自加标签的源图像数据的标签以监督式方式对深度特征抽象进行精细调谐，以获得经精细调谐的深度特征抽象；以及使用个人照片本体来训练深度网络的完全连接的顶层。

S：根据段落R记载的介质，还包括针对个人数字图像中的个体个人数字图像，通过将经精细调谐的深度特征抽象和训练的完全连接的顶层应用到个体个人照片，来获得描述本体中的概念与个体个人数字图像之间的关系的置信评分。

T：根据段落R或S记载的介质，还包括至少基于置信评分来选择本体中的概念中的一个或多个概念，以对个人照片中的个体个人照片加标签。

U：根据段落R-T中的任一个记载的介质，其中，获得置信评分还包括考虑来自个人照片的元数据。

V：根据段落R-U中的任一个记载的介质，其中，元数据包括位置或时间戳中的至少一个。

结论

尽管已经以特定于结构特征和/或方法动作的语言描述了技术，但是要理解所附权利要求不必限于所描述的特征或动作。相反，特征和动作被描述为这样的技术的示例实现方式。

示例处理的操作被图示在个体框中并参考那些框来概述。处理被图示为框的逻辑流程，其中的每个框可以表示可以硬件、软件或其组合来实施的一个或多个操作。在软件的上下文中，操作表示存储在一个或多个计算机可读介质上的计算机可执行指令，计算机可执行指令当由一个或多个处理器执行时，使得一个或多个处理器能够执行所记载的操作。总体上，计算机可执行指令包括例程、程序、对象、模块、组件、数据结构等，其执行特定功能或实现特定抽象数据类型。操作被描述的顺序不旨在被解释为限制，并且任何数量的所描述的操作可以以任何顺序执行、以任何顺序进行组合、被细分成多个子操作和/或并行地被执行以实施所描述的处理。所描述的处理可以由与一个或多个设备106、120和/或200相关联的资源(诸如一个或多个内部或外部CPU或GPU、和/或一个或多个硬件逻辑块(诸如FPGA、DSP、或其他类型的加速器))来执行。

以上描述的所有方法和处理可以被体现在由一个或多个通用计算机或处理器执行的软件代码模块中、并且经由该软件代码模块被完全自动化。代码模块可以被存储在任何类型的计算机可读存储介质或其他计算机存储设备中。方法中的一些或全部方法可以备选地被体现在专门的计算机硬件中。

除其它之外，诸如“可以”、“能够”、“可能”或“可能会”的条件性语言在上下文内被理解为呈现：特定示例包括(而其他示例不包括)特定特征、元件和/或步骤，除非另行明确陈述。因此，这样的条件性语言一般不旨在暗示：一个或多个示例以任何方式需要特定特征、元件和/或步骤，或者一个或多个示例必定包括用于在具有或没有用户输入或提示的情况下决策的逻辑，而无论特定特征、元件和/或步骤是否被包含或者要在任何特定示例中被执行。除非另行明确陈述，诸如短语“X、Y或Z中的至少一个”的连接性语言要被理解为呈现：项目、术语等可以是X、Y或Z、或其组合。

本文中描述的和/或在随附附图中描绘的流程图中的任何例程描述、元件或框应当被理解为可能表示模块、片段或代码部分，其包括用于实现例程中的特定逻辑功能或元件的一个或多个可执行指令。如将由本领域技术人员理解的，备选实现方式被包含在本文中描述的示例的范围内，其中取决于所涉及的功能，元件或功能可以被删除，或以与示出或讨论的顺序不同的顺序来执行，包括实质上同步地或以相反的顺序来执行。应当强调，可以对上述示例进行许多变化和修改，上述示例的元件要被理解为处于其他可接受示例之中。所有这样的修改和变化旨在于在本公开内容的范围内被包含在本文中，并且由所附权利要求保护。

Claims

1.一种方法，包括：

提供针对个人数字图像的本体，所述本体包括层次结构，所述层次结构包含多个概念，所述多个概念被分组成所述层次结构的多个节点，所述多个概念中的每个概念包括用于与一个或多个个人数字图像相关联的文本描述符；

提供来自源域的多个源数字图像，所述源数字图像中的每个源数字图像具有至少一个关联的文本描述符；

提供来自目标域的多个目标数字图像；

在计算设备上使用所述源数字图像、所述目标数字图像以及所述本体来训练深度网络；

在所述计算设备处接收一个或多个个人数字图像；

使用所述计算设备将所述深度网络应用到所述一个或多个个人数字图像，以确定所述概念中的、用于与所述一个或多个个人数字图像中的每个个人数字图像相关联的一个或多个概念；以及

将所述概念中的所述一个或多个概念中的至少一个概念与所述一个或多个个人数字图像中的每个个人数字图像相关联。

2.根据权利要求1所述的方法，其中训练所述深度网络包括：在所述源数字图像和所述目标数字图像上训练多个卷积自动编码器，以确定深度特征抽象。

3.根据权利要求1或2所述的方法，还包括使用所述本体来对所述深度特征抽象进行精细调谐以获得经精细调谐的深度特征抽象，并且其中应用所述深度网络包括：将所述经精细调谐的深度特征抽象应用到所述个人数字图像中的所述一个或多个个人数字图像。

4.根据权利要求1-3中的任一项所述的方法，还包括通过以下来创建针对个人数字图像的所述本体：

识别所述多个概念；

将所述多个概念分组成多个种类，所述多个种类中的每个种类包括所述多个概念中的一个或多个概念；以及

将每个概念与概念文本表达相关联，以识别在源域中存储的图像中的概念，所述概念文本表达与在所述源域中使用的源文本表达匹配。

5.根据权利要求1-4中的任一项所述的方法，其中将所述深度网络应用到所述个人数字图像中的一个或多个个人数字图像包括：考虑所述个人数字图像中的所述一个或多个个人数字图像的属性，以分配所述一个或多个概念。

6.一种设备，包括：

一个或多个计算机可读介质，其上具有多个模块、源图像储存库、目标图像储存库以及本体储存库；

处理单元，其可操作地耦合到所述计算机可读介质，所述处理单元适于执行包括以下的所述多个模块中的模块：

卷积自动编码器训练模块，其用于使用来自所述源图像储存库的源图像和来自所述目标图像储存库的目标图像，来训练包括深度网络的一个或多个卷积自动编码器；

顶级训练模块，其用于使用来自所述本体储存库的本体来训练所述深度网络的顶级；

评分模块，其用于针对多个图像中的个体图像，使用所述深度网络和与所述多个图像相关联的元数据，来确定针对所述本体中的多个概念中的每个概念的置信评分；以及

加标签模块，其用于至少部分地基于所述置信评分来选择所述多个概念中的一个或多个概念，以用于对所述多个图像中的每个图像加标签。

7.根据权利要求6所述的设备，其中训练所述一个或多个卷积自动编码器包括：从所述源图像和所述目标图像的原像素中发现共享的深度特征抽象。

8.根据权利要求6或7所述的设备，还包括精细调谐模块，所述精细调谐模块用于使用所述源图像以监督式方式对所述共享的深度特征抽象进行精细调谐。

9.根据权利要求6-8中的任一项所述的设备，其中所述卷积自动编码器包括多个卷积自动编码器的堆叠。

10.根据权利要求6-9中的任一项所述的设备，其中所述顶级是完全连接的顶层。

11.根据权利要求6-10中的任一项所述的设备，其中所述加标签模块选择与高于阈值评分的置信评分相对应的概念、或与预定数量的最高置信评分相对应的概念，以用于对所述多个图像中的每个图像加标签。

12.一个或多个计算机可读介质，其上具有计算机可执行指令，所述计算机可执行指令在执行时将计算机配置为执行包括以下的操作：

使用来自源图像储存库的加标签的源图像和来自目标图像储存库的目标图像，以非监督式方式训练包括卷积自动编码器的堆叠的深度网络，以从所述源图像和所述目标图像的原像素中发现深度特征抽象；

使用来自所述加标签的源图像数据的标签，以监督式方式来对所述深度特征抽象进行精细调谐，以获得经精细调谐的深度特征抽象；以及

使用个人照片本体来训练所述深度网络的完全连接的顶层。

13.根据权利要求12所述的计算机可读介质，还包括：针对个人数字图像中的个体个人数字图像，通过将所述经精细调谐的深度特征抽象和经训练的所述完全连接的顶层应用到个体个人照片，来获得描述所述本体中的概念与所述个体个人数字图像之间的关系的置信评分。

14.根据权利要求12或13所述的计算机可读介质，还包括：至少基于所述置信评分来选择所述本体中的所述概念中的一个或多个概念，以对所述个人照片中的所述个体个人照片加标签。

15.根据权利要求13或14所述的计算机可读介质，其中获得所述置信评分还包括：考虑来自所述个人照片的位置或时间戳中的至少一个。