CN102741815A - 基于跨域上下文来对图像加标签 - Google Patents

基于跨域上下文来对图像加标签 Download PDF

Info

Publication number
CN102741815A
CN102741815A CN2011800083441A CN201180008344A CN102741815A CN 102741815 A CN102741815 A CN 102741815A CN 2011800083441 A CN2011800083441 A CN 2011800083441A CN 201180008344 A CN201180008344 A CN 201180008344A CN 102741815 A CN102741815 A CN 102741815A
Authority
CN
China
Prior art keywords
territory
mark
image
probability
digital picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800083441A
Other languages
English (en)
Other versions
CN102741815B (zh
Inventor
S·J·贝克
A·卡珀
华刚
林达华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN102741815A publication Critical patent/CN102741815A/zh
Application granted granted Critical
Publication of CN102741815B publication Critical patent/CN102741815B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/30Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/048Fuzzy inferencing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

本文描述的方法包括接收数字图像,其中该数字图像包括对应于第一域的第一元素和对应于第二域的第二元素。该方法还包括至少部分基于关于一标记对应于数字图像中的第一元素的计算得到的概率来向该第一元素自动分配该标记,其中该概率是通过利用被配置成推断第一域中的元素的标记的第一模型和被配置成推断第二域中的元素的标记的第二模型来计算得到的。第一模型接收标识第一域中的元素与第二域中的元素之间的所习得的关系的数据,并且该概率是至少部分基于所习得的关系通过第一模型计算得到的。

Description

基于跨域上下文来对图像加标签
背景
至少部分由于技术的不断进步和成本的持续降低,数码相机极其流行。例如,当前许多便携式蜂窝电话都配备有数码相机。数码相机允许用户随时间捕捉相对大量的图像并将它们存储在计算设备的数据储存库中。传统上,这些所捕捉的图像是基于捕捉每一相应图像的时间来自动组织的。图像的所有者可向图像手动提供名称,以提供关于图像内容的指示(例如,谁在特定图像中,等等)。
允许个人向图像提供标签或标记的数字图像组织应用在当前是可供使用的。例如,某一个人可审阅图像并向其分配指示该图像中捕捉到了特定人的标签。此后,该个人可以基于分配给这些图像的标签来组织图像。在一示例中,如果该个人希望向自己提供包括某一特定人的所有图像,则该个人可通过选择与该特定人相对应的图形图标来组织图像。这可使得向该个人呈现图像集合,其中该集合中的每一图像包括该特定人。
尽管允许用户对图像加标签是一种用于组织图像的相对高效的机制,但对大集合的图像中的图像加标签可能是相当耗时的。因此,脸部识别应用已被合并到图像组织应用中,以帮助基于图像中识别出的脸部来自动和/或半自动地对图像加标签。一般而言,可以分析图像,并且可以从中提取与该图像中的各人的身份有关的特征,如某一个人的眼睛颜色、所穿衣服的颜色、某一个人的鼻子形状、以及其他特征。这些特征被提供给用于脸部识别的数学模型,并且该数学模型被配置成以特定概率来输出图像中的脸部对应于特定人。尽管利用脸部识别应用来帮助自动对照片加标签在提高对图像加标签的效率方面是有益的,但脸部识别应用的准确性可能不尽如人意。
概述
以下是在本文更详细描述的主题的简要概述。本概述不旨在是关于权利要求的范围的限制。
本文描述了与通过使用一种稳健的框架来向图像自动及半自动分配标签有关的各种技术。本文描述的框架包括多个域的模型和所习得的这些域之间的关系模型。在一示例中,该框架可包括语义层和特征层。语义层可包括多个域的模型。例如,这些域可包括表示可被包括在某一图像集合中的人的人域、表示与图像相对应的一个或多个事件的事件域、以及表示与图像相对应的位置的位置域。每一图像可具有对应于域的一个或多个元素。例如,一图像可包括三个不同的个人,其中这些个人中的每一个都可以是人域中的元素。在另一示例中,该图像可对应于某一事件,其中该事件可以是事件域中的元素。类似地,该图像可与特定位置有关,其中该特定位置可以是位置域中的元素。
图像中的每一元素可具有与之相关联的合乎需要地推断出的标记。例如,该图像可包括多个个人,并且推断出这些个人中的每一个的名字可能是合乎需要的。在另一示例中,该图像可与特定事件有关,并且推断出这一事件的名称可能是合乎需要的。在对图像中的元素的标记进行推断方面,可使用来自补充源的信息。
第一源可以是某一图像集合中的各图像中的观察到的特征。例如,某一图像中的每一元素可由一个或多个观察到的特征来表征。例如,一个人可以由他或她的相貌和衣着来描述。类似地,对应于数字图像的时间戳可被用来表征该数字图像中捕捉的事件。在另一示例中,某一图像中观察到的活动可被用来表征事件。此外,GPS标签可以提供与捕捉该图像的位置有关的信息。在另一示例中,自动背景场景分析可被用来表征位置(例如,色彩签名可以表征位置)。
用来推断元素的标记的第二补充源可以是跨域上下文(例如,某一域中的某一元素的标记如何影响其他域中的元素标记)。具体而言,元素共同出现在某一图像中可构成语义上下文。由于习得的共同出现元素之间的关系,这些语义上下文可传达与要如何对元素进行标记有关的信息。因此,该框架在对图像中的不同域中的元素的标记进行推断方面利用该语义上下文。例如,该框架可被配置成考虑以下各项之间的关系:哪些人参加了哪个事件、哪些人往往处于同一图像中、哪个事件发生在哪个位置、以及哪些人处于特定位置。因而,该框架可包括关于特定域的多个概率模型,其中这些概率模型被用来推断元素在特定域中的标记。这些概率模型可利用从图像中提取的特征来作出这些推断,并且还可利用跨域所习得的元素之间的关系。
在操作中,可向该框架提供某一数字图像集合。此后,可从这些图像中提取特征,包括脸部特征、在数字图像中捕捉到的个人所穿的衣服的特征、对应于数字图像的时间戳、与数字图像中捕捉的背景场景有关的数据,等等。可邀请用户对与该数字图像集合中的图像相对应的一小组人、事件、以及位置手动地加标记。至少部分地基于所提取的特征和用户所提供的标记,可以至少部分基于用户所提供的标记和由概率模型为元素推断出的标记来按迭代的方式学习域之间的关系模型。
在阅读并理解了附图和描述后,将明白其他方面。
附图简述
图1是便于向一图像集合自动分配标记的示例系统的功能框图。
图2是示出多个语义模型和所习得的它们之间的关系模型的功能框图。
图3是不同的域的各元素之间的关系的示例描绘。
图4是示例关系表。
图5是在向图像分配标记方面可使用的示例图形用户界面。
图6是示出用于向图像自动分配标记的示例方法的流程图。
图7是示出用于向至少一个图像分配至少一个标记的示例方法的流程图。
图8是示例计算系统。
详细描述
现在将参考附图来描述关于向数字图像自动分配一个或多个标记的各种技术,在全部附图中相同的附图标记表示相同的元素。另外,本文出于解释的目的示出并描述了各示例系统的若干功能框图;然而要理解,被描述为由特定系统组件执行的功能可以由多个组件来执行。类似地,例如,一组件可被配置成执行被描述为由多个组件执行的功能。
参考图1,示出了便于向一图像集合中的至少一个图像自动或半自动分配一个或多个标记的示例系统100。系统100包括数据存储102,它可以是硬盘驱动器、存储器、便携式闪存驱动器、CD、DVD、或其他合适的计算机实现的数据存储。数据存储102包括图像104的集合、分配给这些图像104的多个标记106、以及标记跨图像104的子集的共同出现。如在下文中更详细地描述的,标记106的第一子集可由一个或多个用户分配给图像104的某一子集,且标记106的第二子集可通过机器学习和推断来自动分配给图像104的某一子集。
界面组件110可以访问数据存储102并检索图像104的子集以呈现给用户112。根据一示例,界面组件106可使得图形用户界面被生成并在计算设备的显示屏上显示给用户112,其中该图形用户界面便于从用户接收一图像或一系列图像的标记。界面组件110可以接收由用户分配给图像的标记,并且可使得这些标记与适当的图像相对应地被存储。例如,用户可a)向某一图像分配指示该图像中的一个或多个人的身份的第一标记;b)向某一图像分配指示对应于该图像的事件的第二标记;和/或c)向某一图像分配指示对应于该图像的位置的第三标记。界面组件110可被配置成向用户指示就一个或多个图像而言要分配多少标记。
用户112分配给图像104的子集的这些标记可被用于该系统中,以自动学习域之间的关系并自动推断分配给图像的标记。如本文所使用的,“域”可指某一类型的标记:例如,第一类型的标记可以是人的身份,第二类型的标记可以是对应于图像的事件,而第三类型的标记可以是对应于图像的位置。因而,界面组件110能以交互式的方式来操作,请求用户112向某些图像分配标记并向用户112提供与图像的标记有关的、用户112可以确认的猜测。这一交互性可以使得对图像的自动加标记能以更加用户友好且高效的方式来发生。
提取器组件114能访问数据存储102中的图像104,并且能从图像104中的一个或多个中提取一个或多个特征。可由提取器组件114提取的特征可包括与图像104中的人的身份相对应的特征、关于图像104所发生的事件、和/或关于图像104的位置。例如,提取器组件114可被配置成识别图像中存在的一个或多个脸部并可提取关于这些脸部的特征,包括例如眼睛颜色、一个或多个脸部特征的形状、发色,等等。另外,提取器组件114可被配置成提取与某些个人所穿的衣服有关的数据。此外,提取器组件114可以提取与对应于图像中的一个或多个图像的事件有关的数据,如图像的时间戳、图像中标识的活动(例如,某一个人正在奔跑或跳跃)等等。此外,提取器组件114可被配置成提取与对应于图像的位置有关的数据。例如,配备有GPS功能的数码相机可将地理坐标嵌入图像中,提取器组件114可被配置成从图像中提取这些坐标。在另一示例中,提取器组件114可被配置成生成与图像的背景场景有关的色彩签名或可指示关于图像的位置的其他特征。
系统100还包括可访问数据存储102并从中检索标记106和共同出现108的访问器组件116。共同出现指示图像具有对应于第一域的第一标记以及对应于第二域的第二标记。在一示例中,共同出现108可包括指示以下信息的数据:某一图像包括标识第一人的标记并包括该图像对应于第一事件的另一标记。因而,第一人和第一事件是该图像中的共同出现。这些共同出现108可以从由用户112分配给图像的标记中以及自动分配给数据存储102中的图像的标记中获得。
系统100还包括被配置成对某些域以及不同域的元素之间的关系进行建模的多个计算机实现的模型118。具体而言,多个模型118包括被配置成对两个不同的域进行建模的两个模型120-122。例如,模型120-122可以是隐马尔科夫模型、贝叶斯网络、分类器集合、或其他合适的模型。多个模型120-122可对应于任何合适的多个域。在一示例中,第一模型120可对应于人域而第二模型122可对应于事件域,使得第一模型120被配置成输出在图像中捕捉到的人的标记而第二模型122被配置成输出关于图像的事件的标记。对于任何图像,人域可具有例如多个元素(图像中捕捉的人)和这些元素的多个类(不同的可能标记)。在人域示例中,图像中的元素可以是人并且分类可以是这个人的名字。在事件域中,对于特定图像,元素可以是对应于该图像的事件,而类可以是该事件的可能标记(生日宴会、圣诞宴会、家庭团圆)。因而,至少部分基于由用户112分配给图像的子集的标记和特征提取器组件114所提取的特征,模型120和122可各自被配置成输出图像104中的元素的标记的概率推断,其中来自第一模型120的概率推断对应于第一域中的元素而来自第二模型122的概率推断对应于第二域中的元素。
多个模型118还包括对由模型120和122建模的域的各元素之间的关系进行建模的关系模型124。例如,第一模型120可以对人域进行建模,而第二模型122可以对事件域进行建模。在这一示例中,关系模型124可以指示哪些人可能参加关于图像的哪些事件(并还可指示在已知图像中的人的身份时在该图像中哪些事件可能被捕捉)。在一示例中,关系模型124可以是关系表的形式,其中该表的各值指示不同域的元素在一图像中彼此相对应的似然性。
可以用由访问器组件116访问的数据和由提取器组件114提取的特征来配置模型120和122以及关系模型124。具体而言,第一模型120和第二模型122可以接收数据存储102中的标记106、由提取器组件114从图像104中提取的特征、以及关系模型124的当前状态。在初始阶段,关系模型124的状态可以是某一常数(例如,0)。
推断组件126可以分析模型120和122的状态,并且可输出至少部分基于模型120和122的状态来为图像104中的元素推断出的标记。在一示例中,推断组件126可以输出概率推断。例如,推断组件126可以输出图像中的元素的标记连同该标记正确的概率的某一指示。这样的推断(连同相关联的概率)可与标记106一起被保留在数据存储102中,并且可至少部分基于这些标记(由用户112分配给图像的标记和推断组件126所输出的推断出的标记)来更新共同出现108。
系统100还可包括可被用来估计/学习关系模型124(例如,学习关系表的各值)的学习组件128。在一示例中,学习组件128可以接收来自数据存储102的标记106和共同出现108,并可基于这些标记106和共同出现108来估计/学习关系模型124。如上所示,由关系模型124表示的所习得的关系可被用来配置模型120和122,并且可至少部分基于所习得的关系来推断图像的标记。可至少部分基于推断出的标记来更新所习得的关系。这一过程可以迭代,直至以阈值概率推断出标记或对应于标记的概率收敛为止。
标记分配器组件130可以接收推断组件126所输出的推断,并且可至少部分基于这些推断来向数据存储102中的图像104的子集自动分配标记。在另一示例中,标记分配器组件130可在从用户112接收到标记正确的指示时向图像分配标记。例如,标记分配器组件118可从推断组件126接收关于图像中的某一元素的特定标记,其中该特定标记具有相对应的某一概率。标记分配器组件130可将这一概率与预定义阈值相比较,并且如果该概率高于阈值,则标记分配器组件130可以用推断组件126所输出的该标记来对元素加标记。如果该概率低于阈值,则标记分配器组件130可以与推断组件110进行通信,并且可通知推断组件110图像中的特定元素不能用该标记正确的足够高的概率来加标记。推断组件110随后可请求用户112向所标识的元素分配标记。
现在将提供关于提取器组件114的更多细节。如上所示,提取器组件114可被配置成从图像104提取特征。提取器组件114可以将所提取的特征之间的距离转换成表示特征之间的相似性的核心值。这可通过利用以下算法来进行:
Figure BDA00001971879700091
在d(x1,x2)和k(x1,x2)分别是特征x1和x2之间的以核心值为单位的距离。可分别通过交叉确认来为不同类型的特征设置核心参数σ。如果提取器组件114所提取的特征是时间戳,则在各时间戳处于同一时间单位内时核心值可被设置成1,否则为0。可基于应用来设置时间单位。例如,时间单位可以是一天、一小时、一星期,等等。
现在,将关于生成包括域的模型以及关系模型的概率框架来提供更多细节。可以假定,存在M个域,并且第Y个域可由Yu表示。Yu中的元素和不同标记的数量可分别由Nu和Ku表示。Yu中每一元素的标记可由随机变量yu:i来建模,yu:i可取值{1,...,Ku},其中i是元素Yu的下标。对应于元素yu:i的特征可由xu:i表示。此外,可假定,如果两个不同元素(不同域或同一域中)与同一图像相关联,则它们共同出现。元素在域Yu和Yv中的共同出现可由通过以下算法定义的指示符函数couv和covu来捕捉:
Figure BDA00001971879700101
Ruv可表示域YU和Yv(例如,由模型120和122所建模的域)之间的关系模型(例如,关系模型124),它可由大小为Ku×Kv的矩阵来参数化。条目Ruv(k,l)可以是域Yu的类k与Yv的类l之间的耦合系数。较大值的耦合系数可以指示对应类的元素与同一图像相关联的较高概率。
图册中各元素的标记可被认为是一个整体,并且可通过经由一系列潜在项来实施元素之间的统计相关性来用公式表示联合分布。联合概率分布的对数如下:
log p ( Y * | X * ; R * ) = Σ u = 1 M α u Φ u ( Y u | X u ) + Σ ( u , v ) : u ↔ v α uv Φ uv ( Y u , Y v | R uv -
log ZX * ; R * - - - ( 2 )
在此,Y*、X*和R*分别表示标记、特征、和关系模型,而Yu、Xu表示域Yu的标记和特征。αu和αuv是可控制不同项在等式(2)中的贡献的正权重。
项Φu可被称为亲和势,它捕捉域Yu中的元素之间的基于特征的亲和力。亲和势可被如下定义:
在此,wu(i,j)是yu,i和yu,j之间基于特征的亲和力,它可被设为对应特征xu,i和xu,j之间的相似性值。
Figure BDA00001971879700111
是指示符,其中在标记yu,i和yu,j基本相似时,
Figure BDA00001971879700112
等于1,且其他情况下等于0。δk也是指示符,它由
Figure BDA00001971879700113
来定义。亲和势Φu可以反映具有相似特征的元素可能处于同一类中的基本原理。
项Φuv可被称为关系势,它可捕捉域Yu和YYv之间的上下文关系。关系势可由以下算法给出:
Φ uv ( Y u , Y v | R uv ) = Σ i = 1 N u Σ j = 1 N v co uv ( i , j ) φ uv ( y u : i , y v : j ) , - - - ( 4 )
其中共同出现势Φuv可由以下算法给出:
Φ uv ( y u : i , y v : j ) = Σ k = 1 K u Σ l = 1 K v R uv ( k , l ) δ k ( y u : i ) δ l ( y v : j ) . - - - ( 5 )
从等式(4)中可以看出,关系势是Yu和Yv之间所有共同出现对的势的总和。在元素被分配了具有高耦合系数的一对标记时,可获得高共同出现势Φuv(yu:i,yv:j)。因此,Φuv可被理解成标记分配对于关系模型117的遵从性。尽管在向图像加标签的上下文中描述了模型120和122以及关系模型124,将理解,利用关系模型来改进概率模型的输出可被应用于其他上下文。
上述公式隐式地假定同一类中的元素往往具有相似特征。尽管这对于诸如相貌等固有特征是合理的,但在以基本相似的方式来处理某些其他特征的情况下,它可能误导。例如,人在参与不同事件时可能穿不同的衣服。条件特征可被用来对这些情况进行建模。例如,只有当确定检测到的两个人在同一事件时(例如,通过模型114来确定在同一事件),才比较他们的衣服。因而,基于衣服特征的亲和势可如下定义:
Figure BDA00001971879700121
在该示例中,YP和XC分别表示人和衣服特征的标记,wC(i,j)是第i和第j个人的衣服之间的相似性。ei和ej是与捕捉到这两个人的图像相关联的事件的标记。等式(6)和(3)之间的主要差别是等式(6)中包括因子
Figure BDA00001971879700122
该因子可担当例如在跨事件来比较特征时将这些特征关闭的开关。
此外,一些特征实际上可能是不可用的。例如,由于遮挡而失去了脸部特征,或在图像传送和处理期间丢失了时间戳。在这种情况下,当第i或第j元素的对应特征不可用时,w(i,j)可被设为0。
现在将参考关系模型124来提供更多细节。关系模型124可能是事先未知的,并且可从用户给出的标记(标签)以及来自模型120和122的推断出的标记中习得。由于用户加标记的训练集合可能相对小,所以可以利用适当的正则化。例如,由于推断而错误发生的偶然共同出现可能导致不稳定或甚至虚假关系,这在被用于推断时可能误导。因而,关系模型124可只包括被事件的重复共同出现所充分证实的关系。共同出现元素之间的稀疏关系可通过实施稀疏性约束来过滤,这可例如通过结合L1正则化来完成。此外,在许多图像集合中,各个类的大小可能是不平衡的。例如,一些家庭成员可能出现多次,这可造成耦合系数的高度不均的值。结果,相对小的类中的许多元素可能被分类到大的类中。为了平衡系数,可以应用L2正则化。通过组合使用L1和L2正则化,关系模型124的先验模型可以如下:
Figure BDA00001971879700123
其中||R||1和||R||2分别是耦合系数矩阵的L1和L2范数。
现在将提供关于推断组件126和学习组件128的更多细节。给定图像集合104以及用户112经由推断组件110提供的初始标记,学习组件128可以通过例如最大后验估计来学习关系模型124。在一示例中,就关系模型124而言可最大化以下对象:
J o ( R ) = log p ( Y L | X ; R ) + log p ( R ) = log Σ Y u p ( Y L , Y U | X ; R ) + log p ( R ) - - - ( 8 )
在此,YL和YU可分别表示用户所标记的元素的标记和未标记元素的标记。推断组件126可以至少部分基于充分优化的R来推断YU的分布。系统100(学习组件128和推断组件126)的学习和推断阶段都可以利用多环概率网络上的YL的边际化,这在计算上是难以处理的。
这一计算上的难以处理性可通过采用变分方法来解决。例如,并非直接将Jo(R)最大化,学习组件128可以改为如下将变量下限最大化:
J ( R , q ) = Σ Y U q ( Y U ) log p ( Y L , Y U | X ; R ) - Σ Y U q ( Y U ) log q ( Y U ) -
log Z ( X ; R ) + log p ( R ) , - - - ( 9 )
其中q是YU的分布。此外,可得到下式:
J ( R , q ) ≤ J 0 ( R ) , ∀ q , - - - ( 10 )
并且在q(YU)等于YU的后验(例如,p(YL,YU|X;R))时,等式成立。因而,通过将变分目标J(R,q)充分最大化,学习组件128可以学习关系模型124并且推断组件126可以基本上同时推断出标记的后验分布。在一示例中,这可以经由坐标上升(coordinate ascent)策略来学习,这可如下迭代地更新R和q:
q ^ ( t + 1 ) = arg max q J ( R ^ ( t ) , q ) - - - ( 11 )
R ^ ( t + 1 ) = arg max R J ( R , q ^ ( t + 1 ) ) - - - ( 12 )
这两个公式分别对应于标记推断(如推断组件126所进行的)和如学习组件128所进行的关系学习。因为这两个公式都对同一目标进行优化,所以可以保证收敛。
现在将描述与在输出对标记的推断方面使用的模型120或122中的一个或多个有关的更多细节。模型120和/或122可以通过将q约束成如下因式分解的分布来使得上述计算易于处理:
q ( Y U ) = Π u = 1 M q u ( Y u : U ) = Π u = 1 M Π i ∈ U u q u : i ( y u : i ) , - - - ( 13 )
其中Yu:U和Uu分别表示所有未标记元素的标记变量和索引。使用这样的因式分解的近似,对每一元素而言,可以在其他元素固定的情况下迭代地更新qu:i。更新公式可如下导出:
q ^ u : i ( k ) = exp ( ψ u : i ( k ) ) Σ k ′ = 1 K u exp ( ψ u : i ( k ′ ) ) , - - - ( 14 )
其中ψu:i(k)可被理解成将标记k分配给Yu中的第i元素的权重,并且qu:i(k)可以是ψu:i(k)的归一化指数。ψu:i(k)的值可以如下:
ψ u : i ( k ) = α u ψ u : i ( u ) ( k ) + Σ v = 1 M α uv ψ u : i ( v → u ) ( k ) , - - - ( 15 )
其中
Figure BDA00001971879700144
可如下给出:
ψ u : i ( u ) ( k ) = Σ j = 1 N u w u ( i , j ) q u : j ( k ) - - - ( 16 )
该项捕捉来自具有相似特征的元素的信息,并且将同一域中的其他元素的标记分布进行组合并根据特征亲和性来对它们的贡献进行加权。
对于上述条件特征,权重wu(i,j)可以被修改成
Figure BDA00001971879700146
换言之,可通过亲和性权重与基本上相似的事件相关联的概率来调制这些亲和性权重。如果存在被用来表征该域中的元素的多个特征,则亲和性权重可相加在一起。
(k)可表示从域Yv到Yu的消息,它可由下式给出:
ψ u : i ( v → u ) ( k ) = Σ j = 1 N v co uv ( i , j ) Σ l = 1 K v R ( k , l ) q v : j ( l ) - - - ( 17 )
这一公式可以如下被描述:该公式首先挑选出域Yv中共同出现的元素(通过couv(i,j)),并随后检索它们的标记(由l表示)。将元素分配到类k的权重可由其与共同出现标记的耦合系数(由R(k,l)给出)来确定。该公式仅仅是这样的推理过程的概率版本。
现在提供关于关系模型124的附加细节。根据等式(12),给定推断出的后验q,学习组件128可以通过最大化以下目标函数来学习关系模型124:
Eq{logp(YL,YU|X;R)}-logZ(X;R)+logp(R)(18)
在对这一问题求解时,面对了以下困难:对数分拆函数logZ(X;R)的计算是难以处理的。因为概率公式化是在指数族中,所以对数分拆函数logZ(X;R)的上限可以使用重置权重树近似(tree reweighted approximation)来导出。即,原始模型可被分成较简单子模型的凸组合,并且这些子模型的对数分拆函数的相应凸组合构成了原始对数分拆函数的上限。
更详细而言,概率网络可被分成域内亲和图和跨域关系图的凸组合。结果,logZ(X;R)的上限可如下获得:
Σ u = 1 M θ u A u = Σ u ↔ v θ uv B uv ( R uv / θ uv ) - - - ( 19 )
在此,Au是与域YU的域内亲和图相对应的对数分拆函数,它不依赖于关系模型。Buv是与域Yu和Yv之间的跨域关系图相对应的对数分拆函数,它是Ruv的函数。θu和θuv是凸组合系数,它们满足
Figure BDA00001971879700154
在一示例中,θu可被设为0,且
Figure BDA00001971879700155
个关系。
如果共同出现图是稀疏的,则这样的图可以如下被近似:
B uv ( R ) = Σ i = 1 N u Σ j = 1 N v co uv ( i , j ) Σ k = 1 K u Σ l = 1 K v exp ( R uv ( k , l ) ) - - - ( 20 )
Buv(R)的复杂度是O(mu,Ku,Kv),其中mu是Yu和Yv之间的共同出现对的数量。
用等式(19)中给出的logZ(X;R)的上限来替换logZ(X;R)造成了要将原始目标的凹下限最大化的变分学习问题。在该问题中,对每一关系模型的学习是分开的。具体而言,可通过将以下目标最大化来求解Ruv
Equv(Yu,Yv|Ruv)}-θuvB(R/θuv)+logp(Ruv),(21)
其中
E q { Φ uv ( Y u , Y v | R uv ) } =
Σ i = 1 N u Σ j = 1 N v co uv ( i , j ) Σ k = 1 K u Σ l = 1 K v R ( k , l ) q u : i ( k ) q v : j ( l ) - - - ( 22 )
在一示例中,可使用L-BFGS算法来求解这一问题。因为目标函数是凹的,所以保证了全局最大值。
总而言之,图1中描述的框架包括多个概率模型,这些概率模型中的至少两个被配置成对域进行建模,其中在推断某一域的元素的标记方面可使用每一模型。在使用概率模型来推断要分配给元素的标记时,可以学习提供跨域上下文的关系模型。这些概率模型可被配置成在执行推断方面利用跨域上下文,并且通过利用这些模型所生成的推断可被用来学习关系模型。这一框架可被用于各种设置。上述示例设置包括利用该框架来向图像分配标记(标签)。
现在参考图2,示出了可在对图像中的元素自动加标记方面使用的示例框架200。框架200包括关于事件域的第一概率模型202。即,在概率上推断对应于图像的事件方面使用第一概率模型202。框架200还包括关于人域的第二概率模型204(例如,在概率上推断图像集合中的图像中所捕捉的人的身份方面使用第二概率模型204)。框架200还包括关于位置域的第三概率模型206。具体而言,在概率上推断对应于图像集合中的图像的位置方面使用第三概率模型206。
位置/事件关系模型208被配置成对事件域和位置域中的元素之间的关系进行建模。例如,位置/事件关系模型208可被用来对事件与位置之间的关系进行建模(例如,假定图像对应于第一事件,那么该图像对应于特定位置的概率是多少?)。人/位置关系模型210可对人域中的元素与位置域中的元素之间的关系进行建模。例如,人/位置模型210可被用来指示特定人将出现在特定位置的概率(且反之亦然)。
事件/人关系模型212可被用来对事件域中的元素与人域中的元素之间的关系进行建模。例如,事件/人关系模型212可指示特定人可能参加特定事件(在图像集合中的图像中捕捉到的)的概率和/或特定事件可能包括特定一组人的概率。人/人关系模型214可对人域中的元素之间的关系进行建模。例如,人/人关系模型214可被用来指示特定人将一起出现在图像中的概率。例如,如果人X出现在图像中,则人Y有确实的概率也出现在该图像中。
关系模型208-214可以是关系表的形式,其内容可如上所述地习得。此外,要注意,人/人关系模型214对同一域中的元素之间的关系进行建模。分开的域的元素之间的这些所习得的关系(由关系模型208-214来表示)可被用来精制就分配给关于模型202-206的域的元素的标记而言通过利用模型202-206生成的推断。另外,通过利用模型202-206所生成的推断可被用来精制关系模型208-214。
现在参考图3,示出了分开的域的元素之间的关系的示例描绘300。在该示例中,示出了人域302中的元素和事件域304中的元素之间的关系。人域302包括四个人(元素)306、308、310、和312。这四个人中的每一个可出现在图像集合中的希望被分配标记/标签的图像中。具体而言,任何图像可包括人306-312中的一个或多个。
事件域304被示为包括两个事件(元素)314和316。因而,图像集合中的图像可关于事件314或316之一。如上所示,时间戳318可以是事件域304中的事件的特征,并且脸部特征320和衣着特征322可以是人域302中表示的人的特征。
如可查明的,存在着人域302和事件域304中的元素的共同出现。具体而言,如果第一事件314被检测到出现在某一图像中,发现第一人306和第二人308与第一事件314共同出现。类似地,第三人310和第四人312与第二事件316共同出现。因此,如果在图像中检测到第三人310,则存在着该图像对应于第二事件316的确实概率。
现在参考图4,描绘了表示不同域中的元素的共同出现的似然性的指示的示例关系表。关系表400描绘了在图3中图形地描绘的关系。具体而言,如果在图像中检测到第一人,关系表中的值(0.9)指示存在着该图像对应于第一事件的某一确实的似然性(例如,越高的数据值指示共同出现的越高似然性)。在另一示例中,如果在图像中检测到第三人,则关系表中的值(0)指示存在着第一事件对应于该图像的一不同似然性。
现在参考图5,示出了可结合上述框架使用的示例图形用户界面500。图形用户界面500包括显示来自图像集合的一个或多个图像的第一区502。第二区504可被用来接收来自用户的与对应于第一区502中示出的图像中的元素的标记有关的信息。例如,用户可以利用第二区504来输入关于第一区502中示出的至少一个图像中的人、对应于第一区502中示出的至少一个图像的事件、和/或对应于第一区502中示出的至少一个图像的位置的标记。图形用户界面500还可包括可被用户选择来向对应于图像的元素加标记的多个图形图标506。例如,图形图标506可以是对应于用户的联系人的图标,其中选择图标之一造成图像被标记为包括对应于所选图标的联系人。第三区508可包括对用户的关于该用户要如何对第一区502中示出的图像中的元素加标记以充分优化上述框架的性能的指示。例如,这些指示可包括用于对特定数量的人加标记的指示、请求用户对希望被自动加标记的每一个人加标记的指示、以及其他指示。此外,这些指示可包括与该框架所生成的标记的概率有关的信息。例如,第三区508可包括指示出某一实体已被以特定概率加了标记但需要来自用户的确认的文本。
现在参考图6-7,示出并描述了各示例方法。尽管各方法被描述为顺序地执行的一系列动作,但可以理解,这些方法不受该顺序的次序的限制。例如,一些动作能以与本文描述的不同的次序发生。另外,动作可以与另一动作同时发生。此外,在一些情况下,实现本文描述的方法并不需要所有动作。
此外,本文描述的动作可以是可由一个或多个处理器实现的和/或存储在一个或多个计算机可读介质上的计算机可执行指令。计算机可执行指令可包括例程、子例程、程序、执行线程等。另外,这些方法的动作的结果可以存储在计算机可读介质中、显示在显示设备上,等等。
现在参考图6,示出了便于向数字图像自动分配标记的方法600。方法600开始于602,并且在604接收数字图像。例如,可以从诸如CD、DVD、硬盘驱动器、计算设备的存储器、闪存驱动器等计算机可读媒质或介质接收数字图像。
在606,至少部分基于所习得的跨域关系来向数字图像自动分配标记。具体而言,至少部分基于关于标记对应于数字图像中的元素的计算得到的概率来分配该标记。可通过利用被配置成推断多个相应域(如人域、事件域、以及位置域)中的元素的标记的多个计算机实现的模型来计算概率。该概率还可通过利用对不同域的元素之间的关系(跨域上下文)进行建模的至少一个关系模型来计算。如上所示,各个域的计算机实现的模型中的每一个可被配置成计算与各个域中的每一个对应的元素的至少一个标记的概率。
现在参考图7,示出了用于向各域中的元素自动分配标记的示例方法700。方法700始于702,并且在704,接收一组标记,其中这些标记被用户分配给数字图像集合中的数字图像。例如,用户可以标识图像中的人、对应于图像的事件、和/或对应于图像的位置。
在706,从数字图像的集合中的至少一个数字图像提取一个或多个特征。所提取的特征可以例如是图像中的个人的脸部特征、关于图像中的个人所穿衣服的数据、分配给图像的时间戳、分配给图像的位置数据、图像的背景场景数据,等等。
在708,学习关系模型,其中该关系模型被配置成对不同域中的元素之间的关系进行建模。例如,该关系模型可以是指示不同域中的元素在任何特定图像中的共同出现的概率的关系表。
在710,至少部分基于在704用户所分配的标记、在706提取的至少一个特征、以及跨域的元素之间的至少一个习得的关系来推断至少一个域中的元素的标记。在712,根据该推断向至少一个数字图像分配至少一个标记。任选地,在向数字图像分配标记之前,用户可以确认该标记是正确的(或不正确的),并可使得关系模型基于这一输入而被精制。方法700在714完成。
现在参考图8,示出了可以根据本文公开的系统和方法使用的示例计算设备800的高级图示。例如,计算设备800可在支持对数字图像中的各元素自动加标记的系统中使用。在另一示例中,计算设备800的至少一部分可以用在支持从数字图像中自动提取特征的系统中。计算设备800包括执行存储在存储器804中的指令的至少一个处理器802。这些指令可以是例如用于实现被描述为由上述一个或多个组件执行的功能的指令或用于实现上述方法中的一个或多个方法的指令。处理器802可以通过系统总线806访问存储器804。除了存储可执行指令,存储器804还可存储关系模型、概率模型、数字图像等等。
计算设备800还包括可由处理器802通过系统总线806访问的数据存储808。数据存储808可以包括可执行指令、所习得的模型、数字图像等等。计算设备800还包括允许外部设备与计算设备800进行通信的输入接口810。例如,可以使用输入接口810来从外部计算机设备、从个人等接收指令。计算设备800还包括将计算设备800与一个或多个外部设备进行接口的输出接口812。例如,计算设备800可以通过输出接口812显示文本、图像等。
另外,尽管被示为单个系统,但可以理解,计算设备800可以是分布式系统。因此,例如,若干设备可以通过网络连接进行通信并且可共同执行被描述为由计算设备800执行的任务。
如此处所使用的,术语“组件”和“系统”旨在涵盖硬件、软件、或硬件和软件的组合。因此,例如,系统或组件可以是进程、在处理器上执行的进程、或处理器。此外,系统或组件可以是一系列晶体管或计算机存储器的一部分。另外,组件或系统可以位于单个设备上或分布在若干设备之间。
注意,出于解释目的提供了若干示例。这些示例不应被解释为限制所附权利要求书。另外,可以认识到,本文提供的示例可被完全改变而仍然落入权利要求的范围内。

Claims (15)

1.一种方法,包括以下计算机可执行的动作:
接收数字图像,其中所述数字图像包括对应于第一域的第一元素和对应于第二域的第二元素;以及
至少部分基于一标记对应于所述数字图像中的所述第一元素的计算得到的概率来向该第一元素自动分配该标记,其中所述概率是通过利用被配置成推断所述第一域中的元素的标记的第一模型和被配置成推断所述第二域中的元素的标记的第二模型来计算得到的,其中所述第一模型接收标识所述第一域中的元素与所述第二域中的元素之间的所习得的关系的数据,并且其中所述概率是至少部分基于所习得的关系通过所述第一模型计算得到的。
2.如权利要求1所述的方法,其特征在于,还包括从所述数字图像提取特征,其中所述概率是至少部分基于所述特征来计算得到的。
3.如权利要求2所述的方法,其特征在于,所述特征是所述第一域中的元素的特征,其中所述特征被所述第一模型用来计算所述概率。
4.如权利要求2所述的方法,其特征在于,所述特征是所述第二域中的元素的特征,其中所述特征被所述第二模型用来计算所述第二元素要被分配第二标记的第二概率,并且其中所述第一域中的元素与所述第二域中的元素之间的所习得的关系是至少部分基于所述第二概率来计算得到的。
5.如权利要求2所述的方法,其特征在于,所述特征是以下之一:所述数字图像中的个人所穿的衣服、所述数字图像的色彩签名、分配给所述数字图像的时间戳、或分配给所述数字图像的位置数据。
6.如权利要求1所述的方法,其特征在于,所述第一模型被配置成在概率上推断人域、位置域、或事件域之一中的元素的标记方面被使用,并且所述第二模型被配置成在概率上推断所述人域、所述位置域、所述事件域之一中的元素的标记方面被使用。
7.如权利要求1所述的方法,其特征在于,所述标记标识以下各项之一:所述数字图像中的个人、对应于所述数字图像的事件、或关于所述数字图像的位置。
8.如权利要求1所述的方法,其特征在于,所习得的关系是通过最大化后验估计的方式来学习的。
9.如权利要求1所述的方法,其特征在于,还包括:
接收多个数字图像;以及
向所述多个图像中的每一图像自动分配标签。
10.一种系统,包括以下计算机可执行组件:
接收数字图像并从所述数字图像提取至少一个特征的提取器组件;以及
向所述数字图像中的元素自动分配标记的标记分配器组件,其中所述元素对应于第一域,并且其中所述标记分配器组件至少部分基于所述第一域中的元素与第二域中的元素之间的所习得的上下文关系来向所述数字图像分配所述标记。
11.如权利要求10所述的系统,其特征在于,所述第一域是以下之一:人域、事件域、或位置域,并且其中所述第二域是以下之一:人域、事件域、或位置域。
12.如权利要求10所述的系统,其特征在于,所述标记分配器组件至少部分基于所述第一域中的元素之间的所习得的关系来向所述数字图像中的元素自动分配所述标记。
13.如权利要求10所述的系统,其特征在于,所习得的关系包括不同域中的元素共同出现在所述数字图像中的概率。
14.如权利要求13所述的系统,其特征在于,还包括提供图形用户界面的界面组件,所述图形用户界面被配置成从人类接收与分配给多个数字图像中的元素的标记有关的输入。
15.如权利要求14所述的系统,其特征在于,所述界面组件被配置成接收确认分配给所述元素的标记正确的用户输入。
CN201180008344.1A 2010-02-04 2011-02-04 基于跨域上下文来对图像加标签 Active CN102741815B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/699,889 US8645287B2 (en) 2010-02-04 2010-02-04 Image tagging based upon cross domain context
US12/699,889 2010-02-04
PCT/US2011/023795 WO2011097517A2 (en) 2010-02-04 2011-02-04 Image tagging based upon cross domain context

Publications (2)

Publication Number Publication Date
CN102741815A true CN102741815A (zh) 2012-10-17
CN102741815B CN102741815B (zh) 2015-11-25

Family

ID=44342491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180008344.1A Active CN102741815B (zh) 2010-02-04 2011-02-04 基于跨域上下文来对图像加标签

Country Status (5)

Country Link
US (3) US8645287B2 (zh)
EP (1) EP2531913A4 (zh)
CN (1) CN102741815B (zh)
HK (1) HK1174992A1 (zh)
WO (1) WO2011097517A2 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005982A (zh) * 2014-04-04 2015-10-28 影像搜索者公司 包括对象选择的图像处理
WO2021243898A1 (zh) * 2020-06-05 2021-12-09 北京旷视科技有限公司 数据分析方法、装置、电子设备及存储介质

Families Citing this family (214)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8463053B1 (en) 2008-08-08 2013-06-11 The Research Foundation Of State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US9672478B2 (en) 2009-02-26 2017-06-06 Oracle International Corporation Techniques for semantic business policy composition
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8645287B2 (en) 2010-02-04 2014-02-04 Microsoft Corporation Image tagging based upon cross domain context
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8949236B2 (en) 2010-02-26 2015-02-03 Oracle International Corporation Techniques for analyzing data from multiple sources
JP2011215963A (ja) * 2010-03-31 2011-10-27 Sony Corp 電子機器、画像処理方法及びプログラム
US9400958B2 (en) * 2010-06-30 2016-07-26 Oracle International Corporation Techniques for display of information related to policies
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8566329B1 (en) * 2011-06-27 2013-10-22 Amazon Technologies, Inc. Automated tag suggestions
JP5814700B2 (ja) * 2011-08-25 2015-11-17 キヤノン株式会社 画像処理システム及び画像処理方法
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
JP5754306B2 (ja) * 2011-09-01 2015-07-29 富士ゼロックス株式会社 画像識別情報付与プログラム及び画像識別情報付与装置
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9165217B2 (en) * 2013-01-18 2015-10-20 International Business Machines Corporation Techniques for ground-level photo geolocation using digital elevation
KR20240132105A (ko) 2013-02-07 2024-09-02 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10223454B2 (en) 2013-05-01 2019-03-05 Cloudsight, Inc. Image directed search
US9830522B2 (en) 2013-05-01 2017-11-28 Cloudsight, Inc. Image processing including object selection
US10140631B2 (en) 2013-05-01 2018-11-27 Cloudsignt, Inc. Image processing server
US9575995B2 (en) 2013-05-01 2017-02-21 Cloudsight, Inc. Image processing methods
US9639867B2 (en) 2013-05-01 2017-05-02 Cloudsight, Inc. Image processing system including image priority
US9569465B2 (en) 2013-05-01 2017-02-14 Cloudsight, Inc. Image processing
US9665595B2 (en) 2013-05-01 2017-05-30 Cloudsight, Inc. Image processing client
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
US10387729B2 (en) * 2013-07-09 2019-08-20 Outward, Inc. Tagging virtualized content
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10013639B1 (en) * 2013-12-16 2018-07-03 Amazon Technologies, Inc. Analyzing digital images based on criteria
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10614119B2 (en) 2016-01-19 2020-04-07 Regwez, Inc. Masking restrictive access control for a user on multiple devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9965269B2 (en) * 2016-04-06 2018-05-08 Orcam Technologies Ltd. Systems and methods for determining and distributing an update to an inference model for wearable apparatuses
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
TWI617931B (zh) * 2016-09-23 2018-03-11 李雨暹 適地性空間物件遠距管理方法與系統
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
CN108399414B (zh) * 2017-02-08 2021-06-01 南京航空航天大学 应用于跨模态数据检索领域的样本选择方法及装置
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
CN107222580A (zh) * 2017-07-28 2017-09-29 郑州云海信息技术有限公司 一种利用图片实现跨域传递数据的方法
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US11455501B2 (en) 2018-02-21 2022-09-27 Hewlett-Packard Development Company, L.P. Response based on hierarchical models
AU2018201311B2 (en) * 2018-02-22 2023-11-30 Artlife Solutions Pty Ltd A system and method for sorting digital images
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US11995564B2 (en) 2018-06-21 2024-05-28 Samsung Electronics Co., Ltd. System and method for generating aspect-enhanced explainable description-based recommendations
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11604844B2 (en) 2018-11-05 2023-03-14 Samsung Electronics Co., Ltd. System and method for cross-domain recommendations
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11354351B2 (en) 2019-01-31 2022-06-07 Chooch Intelligence Technologies Co. Contextually generated perceptions
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11562172B2 (en) 2019-08-08 2023-01-24 Alegion, Inc. Confidence-driven workflow orchestrator for data labeling
US11367268B2 (en) * 2019-08-27 2022-06-21 Nvidia Corporation Cross-domain image processing for object re-identification
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US20210192394A1 (en) * 2019-12-19 2021-06-24 Alegion, Inc. Self-optimizing labeling platform
CN111291471B (zh) * 2020-01-17 2021-12-17 中山大学 一种基于l1正则无迹变换的约束多模型滤波方法
CN113449126B (zh) * 2020-03-24 2023-07-14 中移(成都)信息通信科技有限公司 图像检索方法、装置、电子设备及计算机存储介质
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060239515A1 (en) * 2005-04-21 2006-10-26 Microsoft Corporation Efficient propagation for face annotation
CN101393641A (zh) * 2008-11-07 2009-03-25 华中科技大学 一种基于上下文的机场目标解译方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3069173A (en) 1959-12-16 1962-12-18 United Aircraft Corp Sealing means for compressor drive shaft
US6973201B1 (en) * 2000-11-01 2005-12-06 Koninklijke Philips Electronics N.V. Person tagging in an image processing system utilizing a statistical model based on both appearance and geometric features
US7587101B1 (en) * 2005-02-28 2009-09-08 Adobe Systems Incorporated Facilitating computer-assisted tagging of object instances in digital images
US7809192B2 (en) 2005-05-09 2010-10-05 Like.Com System and method for recognizing objects from images and identifying relevancy amongst images and information
KR100798917B1 (ko) * 2005-12-07 2008-01-29 한국전자통신연구원 디지털 사진 컨텐츠 처리 시스템 및 그 시스템에서의디지털 사진 컨텐츠 송/수신 방법 및 장치
EP1826723B1 (en) * 2006-02-28 2015-03-25 Microsoft Corporation Object-level image editing
US7953295B2 (en) * 2006-06-29 2011-05-31 Google Inc. Enhancing text in images
US20080204317A1 (en) * 2007-02-27 2008-08-28 Joost Schreve System for automatic geo-tagging of photos
EP2040185B1 (en) 2007-05-09 2021-11-24 BlackBerry Limited User Interface for Selecting a Photo Tag
US8667384B2 (en) * 2007-05-09 2014-03-04 Blackberry Limited User interface for editing photo tags
US20080298643A1 (en) * 2007-05-30 2008-12-04 Lawther Joel S Composite person model from image collection
KR20090052014A (ko) * 2007-11-20 2009-05-25 삼성디지털이미징 주식회사 인물별 자동분류 패킹 서비스를 제공하는 방법 및 이를제공하는 키오스크
US9143573B2 (en) 2008-03-20 2015-09-22 Facebook, Inc. Tag suggestions for images on online social networks
EP2281248A1 (en) * 2008-04-02 2011-02-09 Google, Inc. Method and apparatus to incorporate automatic face recognition in digital image collections
US8131066B2 (en) * 2008-04-04 2012-03-06 Microsoft Corporation Image classification
US8645287B2 (en) 2010-02-04 2014-02-04 Microsoft Corporation Image tagging based upon cross domain context

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060239515A1 (en) * 2005-04-21 2006-10-26 Microsoft Corporation Efficient propagation for face annotation
CN101393641A (zh) * 2008-11-07 2009-03-25 华中科技大学 一种基于上下文的机场目标解译方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NAAMAN M等: "Leveraging context to resolve identity in photo albums", 《DIGITAL LIBRARIES, 2005. JCDL "05. PROCEEDINGS OF THE 5TH ACM/IEEE-CS JOINT CONFERENCE ON 》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005982A (zh) * 2014-04-04 2015-10-28 影像搜索者公司 包括对象选择的图像处理
CN105005982B (zh) * 2014-04-04 2019-06-14 云视公司 包括对象选择的图像处理
WO2021243898A1 (zh) * 2020-06-05 2021-12-09 北京旷视科技有限公司 数据分析方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
EP2531913A4 (en) 2017-05-03
US20190362247A1 (en) 2019-11-28
WO2011097517A2 (en) 2011-08-11
US10275714B2 (en) 2019-04-30
US8645287B2 (en) 2014-02-04
US11544588B2 (en) 2023-01-03
US20110191271A1 (en) 2011-08-04
WO2011097517A3 (en) 2011-12-01
EP2531913A2 (en) 2012-12-12
US20140129489A1 (en) 2014-05-08
HK1174992A1 (zh) 2013-06-21
CN102741815B (zh) 2015-11-25

Similar Documents

Publication Publication Date Title
CN102741815B (zh) 基于跨域上下文来对图像加标签
Li et al. Zero-shot event detection via event-adaptive concept relevance mining
US11494616B2 (en) Decoupling category-wise independence and relevance with self-attention for multi-label image classification
Joly et al. A look inside the Pl@ ntNet experience: The good, the bias and the hope
US9898647B2 (en) Systems and methods for detecting, identifying and tracking objects and events over time
Huang et al. Instance-aware image and sentence matching with selective multimodal lstm
CN110276366A (zh) 使用弱监督模型来检测对象
Joly et al. Overview of LifeCLEF 2018: a large-scale evaluation of species identification and recommendation algorithms in the era of AI
Tracewski et al. Repurposing a deep learning network to filter and classify volunteered photographs for land cover and land use characterization
KR20180091043A (ko) 사용자 포트레이트를 획득하는 방법 및 장치
CN110162599A (zh) 招聘面试方法、装置及计算机可读存储介质
CN105224075A (zh) 基于传感器的移动搜索、相关方法和系统
CN110073369A (zh) 时间差分模型的无监督学习技术
Li et al. Patch transformer for multi-tagging whole slide histopathology images
Kalliatakis et al. Exploring object-centric and scene-centric CNN features and their complementarity for human rights violations recognition in images
CN116862931A (zh) 医学图像分割方法、装置、存储介质及电子设备
Stacchio et al. Toward a holistic approach to the socio-historical analysis of vernacular photos
Belongie et al. Visipedia circa 2015
CN103377381B (zh) 识别图像的内容属性的方法和装置
Acharjya et al. A review on forensic science and criminal investigation through a deep learning framework
Feng et al. Adaptive all-season image tag ranking by saliency-driven image pre-classification
Nikolaev Multi-label Human activity recognition on image using deep learning
KR102198359B1 (ko) UBT에 적용할 딥러닝을 사용한 이미지 Auto Tagging 관리 시스템 및 방법
Zhu Image-Based Storytelling for Tourist Using Deep Learning
Onana SMART ATTENDANCE SYSTEM BY FACE RECOGNITION

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1174992

Country of ref document: HK

ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150724

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150724

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1174992

Country of ref document: HK