CN106682060B

CN106682060B - 根据图像的结构化的知识建模、提取和局部化

Info

Publication number: CN106682060B
Application number: CN201610816024.3A
Authority: CN
Inventors: S·D·科恩; W·W-T·常; B·L·普赖斯; M·H·M·A·埃尔霍塞尼
Original assignee: Adobe Systems Inc
Current assignee: Adobe Inc
Priority date: 2015-11-11
Filing date: 2016-09-09
Publication date: 2022-03-15
Anticipated expiration: 2036-09-09
Also published as: GB2544379B; CN106682060A; GB201615373D0; DE102016010909A1; GB2544379A

Abstract

本申请的各实施例涉及根据图像的结构化的知识建模、提取和局部化。描述了用于根据图像对知识建模和从图像提取知识的技术和系统。一种数字媒体环境，被配置为学习和使用模型以自动地和无用户干预地计算输入图像的描述性概括。获得训练数据以使用机器学习来训练模型以便生成用作输入图像的描述性概括的结构化的图像表示。处理图像和关联的文本以从文本提取结构化的语义知识，该结构化的语义知识然后与图像关联。与对应图像一起处理结构化的语义知识以使用机器学习来训练模型，从而使得模型描述结构化的语义知识的文本特征之间的关系。一旦模型被训练，模型就可用于处理输入图像以生成图像的结构化的图像表示。

Description

根据图像的结构化的知识建模、提取和局部化

相关申请的交叉引用

本申请要求对通过完全引用而将公开内容结合于此、提交于2015年11月11日并且名称为“Structured Knowledge Modeling,Extraction,and Localization from Images”的第62/254,147号美国临时专利申请的优先权。

技术领域

本申请的各实施例涉及根据图像的结构化的知识建模、提取和局部化。

背景技术

图像搜索涉及匹配搜索请求中的文本与关联于图像(例如，标签等)的文本这样的挑战。例如，有创造力的专业人士可以捕获图像和关联具有用来对图像定位的文本的标签。另一方面，试图在图像搜索中对图像定位的用户录入一个或者多个关键词。因而，这要求有创造力的专业人士和用户达成关于如何使用文本来描述图像的共识以便用户对图像定位和以便有创造力的专业人士使图像可用于需要图像的用户。这样，常规标签和关键词搜索可能易出错、错误理解和不同解释，因此导致不准确的搜索结果。

另外，用于图像的常规搜索技术由于常规图像加标签和搜索的限制而不支持高精确语义图像搜索。这是因为常规技术仅关联标签与图像、但是不定义在标签之间以及与图像本身的关系。这样，常规搜索技术不能实现用于复杂搜索查询(比如“男人喂食给高脚椅子中的婴儿而婴儿拿着玩具”的准确搜索结果。因而，这些常规搜索技术迫使用户经常使用多个搜索请求来在数十、数百和甚至数千个图像中导航以便对感兴趣的图像定位。

发明内容

描述了用于从图像提取结构化的知识和对结构化的知识建模的技术和系统。在一个或者多个实现方式中，数字媒体环境被配置为学习和使用模型以自动地和无地用户干预地计算输入图像的描述性概括。首先获得训练数据(例如，图像和无结构文本，比如说明)以使用机器学习来训练模型以便生成用作输入图像的描述性概括的结构化的图像表示。

然后处理图像和关联的文本以从文本提取然后与图像关联的结构化的语义知识。结构化的语义知识可以采用多种形式，比如<主语，定语>和<主语，谓语，属性>元组，这些元组用作经由谓语将主语链接到宾语的语句。这可以包括通过被称为“局部化”的过程与作为整体的图像和/或在图像内的对象的关联。

然后与对应图像一起处理结构化的语义知识以使用机器学习来训练模型，从而使得模型描述在结构化的语义知识内的文本特征(例如，主语和宾语)与图像的图像特征(例如，图像的在包括主语或者宾语的边界框中定义的部分)之间的关系。

一旦学习了模型，模型然后就可用来处理输入图像以生成图像的结构化的图像表示。结构化的图像表示可以包括以描述在图像中的对象与图像本身之间的关系的方式被结构化的文本。结构化的图像表示可以用来支持多种功能，包括图像搜索、自动说明和元数据生成、对象加标签等等。

这一发明内容以简化的形式介绍了以下在具体实施方式中进一步描述的概念的选集。这样，这一发明内容未旨在于标识要求保护的主题内容的实质特征，它也未旨在于在确定要求保护的主题内容的范围时用作辅助。

附图说明

参照附图描述具体实施方式。在各图中，标号的最左位标识标号首次出现的图。在描述和各图中的不同实例中使用相同标号可以指示相似或者相同项目。在各图中表示的实体可以指示一个或者多个实体，并且因此可以在讨论中可互换地引用实体的单数或者复数形式。

图1是示例实现方式中的环境的图示，该环境可操作用于运用如这里描述的根据图像的知识提取技术。

图2描绘了图像的另一示例，使用图1的知识提取系统从该图像提取知识。

图3描绘了如下系统，该系统更具体地示出了图1的知识提取系统。

图4描绘了一个示例实现方式，该示例实现方式更具体地示出了图3的提取器模块。

图5描绘了如下示例系统，在该示例系统中图4的提取器模块被示出为包括局部化功能作为知识提取的部分。

图6描绘了将结构化的语义知识局部化到图像的部分的示例。

图7描绘了示例实现方式，该示例实现方式更具体地将图3的模型训练模块示出为运用机器学习模块以对在结构化的语义知识与图像之间的关系建模。

图8描绘了示例实现方式，该示例实现方式示出了使用两列机器学习系统对模型的训练。

图9是如下流程图，该流程图描绘了在示例实现方式中的过程，在该示例实现方式中运用数字媒体环境以自动地和无用户干预地从输入图像提取知识。

图10是如下流程图，该流程图描绘了在示例实现方式中的过程，在该示例实现方式中运用数字媒体环境以提取知识并且将文本特征局部化到输入图像的图像特征。

图11描绘了用于结构化的脸部图像嵌入的系统。

图12将模型1和模型2描绘为机器学习的部分。

图13图示了如下示例系统，该示例系统包括示例设备的各种部件，该示例设备可以被实施为如参照图1至图12描述和/或利用的任何类型的计算设备以实施这里描述的技术的实施例。

具体实施方式

概述

描述了支持根据图像的知识提取以便生成图像的描述性概括(该描述性概括然后可以用来支持图像搜索、自动生成用于图像的说明和元数据以及多种其它使用)的技术和系统。描述性概括例如可以如以下进一步描述的那样描述作为整体的图像的质量以及在图像内的属性、对象和对象的相互交互。因而，虽然在下文中描述了涉及图像搜索的示例，但是这些技术同样地适用于多种其它示例，比如自动化的结构化的图像加标签、说明生成等等。

首先获得训练数据以使用机器学习来训练模型以便生成结构化的图像表示。这里描述了如下技术，在这些技术中获得训练数据，该训练数据使用可以从多种来源容易地获得的图像和关联的文本(例如，图像的说明，这些说明包括描述由图像捕获的场景的任何类型的文本配置)。然后自动地和无用户干预地处理图像和关联的文本以从文本提取然后与图像关联的结构化的语义知识。这可以包括通过在下文中被称为“局部化”的过程与作为整体的图像和/或在图像内的对象的关联。对这一训练数据的使用不同于依赖于众包(crowdsourcing)的常规技术，在众包中，人们手动地标注图像，这可能成本高、易出错和效率低。

在一个示例中，使用自然语言处理从文本提取结构化的语义知识。结构化的语义知识可以采用多种形式，比如<主语，定语>和<主语，谓语，属性>元组，这些元组用作经由谓语将主语链接到宾语的语句。然后与对应图像一起处理结构化的语义知识以使用机器学习来训练模型，从而使得模型描述在结构化的语义知识内的文本特征(例如，主语和宾语)与图像的图像特征(例如，图像的在包括主语或者宾语的边界框中定义的部分)之间的关系。在一个示例中，模型是无需将个体单词的大型词汇表精简成小型预定义的概念集合就被构建的联合概率模型，并且这样该模型可以直接地对这一大型词汇表寻址，这使用常规技术是不可能的。

例如，可以运用局部化技术，从而使得结构化的语义知识被映射到在图像内的对应对象。例如，<婴儿，拿着，玩具>元组可以使用谓语“拿着”将在图像中的主语“婴儿”映射到在图像中的宾语“玩具”，并且因此提供用于描述在图像中“什么正在进行”的结构，这在常规无结构的加标签技术中是不可能的。因此，可以用可由计算设备搜索的方式利用对由这里描述的技术提供的显式、结构化的知识的使用。

如果搜寻例如“红色花朵”的图像，则常规词袋方式分开地考虑“红色”和“花朵”，这可能返回不是红色、但是在图像中的别处具有红色的花朵的图像。然而，使用这里描述的技术知道用户正在根据搜索请求的结构寻找<花朵，红色>这一概念，该概念然后用来对具有对应结构的图像定位。以这一方式，模型可以如在下文中关于图5和图6进一步描述的那样实现与依赖于对作为整体的图像的描述的技术相比增加的准确性。

另外，这一映射可以运用公共矢量空间，该公共矢量空间惩罚差异，从而使得相似语义概念在这一空间内相互接近。例如，这可以对于用于文本的特征矢量被执行，从而使得“弯路”和“绕路”在矢量空间中相互较近。相似技术可用来促进用于图像矢量的概念以及使图像矢量和文本矢量相互适应。可以运用多种机器学习技术来训练模型以执行这一映射。在一个这样的示例中，两列深度网络用来学习在结构化的语义信息与图像或者图像的部分(例如，边界框)之间的相关性，在图8中示出这一点的示例。

一旦学习了模型，模型然后就可以用来处理输入图像以通过计算用于描述哪个文本与图像最佳地对应的置信度值来生成图像的结构化的图像表示。模型例如可以对图像的部分的边界框循环以通过计算结构化的文本描述与在图像中的图像特征相同的概念的概率(即，置信度值)来确定哪个结构化的文本(例如，<花朵，红色>)很可能描述图像的该部分(比如对象、属性)和在它们之间的关系。以这一方式，结构化的图像表示提供图像的描述性概括，该描述性概括使用结构化的文本以描述图像和图像的部分。因此可以对于图像计算结构化的图像表示以包括以如以上描述的如下方式被结构化的文本，该方式描述在图像中的对象(例如，花朵)、对象的属性(例如，红色)之间的关系、在(例如，<花朵，红色><婴儿，拿着，玩具>)与图像本身之间的关系。结构化的图像表示可以用来支持多种功能，包括图像搜索、自动说明和元数据生成、自动化的对象加标签等等。在以下章节中包括对这些和其它示例的进一步讨论。

在以下讨论中，首先描述了可以运用这里描述的知识提取技术的示例环境。然后描述了可以在示例环境以及其它环境中执行的示例过程。因而，对示例过程的执行不限于示例环境并且示例环境不限于执行示例过程。

示例环境

图1是在示例实现方式中的环境100的图示，该环境100可操作用于运用这里描述的知识提取技术。图示的环境100包括可以用多种方式被配置的计算设备102。

计算设备102例如可以被配置为台式计算机、膝上型计算机、移动设备(例如，假设如图所示的手持配置，比如平板计算机或者移动电话)、可穿戴设备等等。因此，计算设备102可以范围从具有大量存储器和处理器资源的全资源设备(例如，个人计算机、游戏控制台)到具有有限存储器和/或处理资源的低资源设备(例如，移动设备)。附加地，虽然示出了单个计算设备102，但是计算设备102可以代表多个不同设备，比如由企业用来“在云之上”执行如关于图13进一步描述的操作的多个服务器。

计算设备102被图示为包括知识提取系统104，该知识提取系统104代表用于根据图像108形成结构化的图像表示106的功能，该结构化的图像表示108描述性地概括图像108。结构化的图像表示106可用来支持多种功能，比如由图像搜索模块110用来基于对应的结构化的图像表示来搜索图像114的数据库112。如先前描述的那样，也设想了对结构化的图像表示106的其它使用，比如入由说明生成系统118代表的自动生成用于图像的说明和元数据。附加地，虽然知识提取系统104和图像搜索模块110以及数据库112被图示为使用计算设备102而被实施，但是可以如关于图13进一步描述的那样经由网络116“在云之上”进一步划分这一功能。

结构化的图像表示106提供具有如下结构的概念集合，该结构描述在概念中包括的实体之间的关系。通过这一点，结构化的图像表示可以使用文本不仅描述在图像108中“包括什么”而且描述在图像108中包括的实体和概念的相互关系来用作图像108的中间表示。这可以用来支持在图像搜索中的语义精确度的更高级别，这使用依赖于无结构标签的常规技术是不可能的。

例如，高精确度语义图像搜索涉及发现具有在文本搜索查询中请求的具体内容的图像。例如，用户可以向图像共享服务输入搜索查询“男人喂食给高脚椅子中的婴儿而婴儿拿着玩具”以对可用于许可的感兴趣的图像定位。然而，依赖于无结构标签的常规技术不能准确地满足这一查询。在实践中，常规图像搜索由于这一结构缺乏而提供通常地满足查询中的要素中的一些但是并非所有要素的图像，比如男人喂食给婴儿但是婴儿没有拿着玩具，婴儿在高脚椅子中但是图片中没有男人，女人喂食给拿着玩具的婴儿的图片等等。

然而，结构化的图像表示106提供对关于图像108知道什么的显式表示。这支持有能力确定在搜索查询中的哪些概念在搜索的数据库图像中缺失并且因此提高搜索结果的准确性。因而，在搜索查询与数据库112中的图像114之间的相似度的测量可以并入缺失哪些和多少概念。另外，如果存在与满足查询接近但是缺失概念的图像，则可以运用技术以如在下文中进一步描述的那样使用接近图像和来自包含缺失概念的另一图像的内容来合成新图像。

考虑结构化的图像表示106的使用示例，在该使用示例中，图像108的提取的知识包括以下：

{<男人，微笑>，<婴儿，微笑>，<婴儿，拿着，玩具>，<男人，坐在…处，桌子>，<婴儿，坐在…中，高脚椅子>，<男人，喂食，婴儿>，<婴儿，穿着，蓝色衣服>}。

说明生成系统118被配置为使用这一提取的知识来生成说明如下：

“男人喂食给微笑婴儿而婴儿拿着玩具。婴儿坐在高脚椅子中。男人也开心。可能是爸爸喂食给他的儿子。爸爸和他的儿子在一起过得快乐而妈妈不在”。

因此，结构化的图像表示106的知识的显式表示允许对图像108的场景的多句描述为在这一示例中自动地和无用户干预地被形成的说明。前两句是简单直接包括概念<男人，喂食，婴儿>、<婴儿，拿着，玩具>和<婴儿，坐在…中，高脚椅子>。第三局涉及基于概念<男人，微笑>和<婴儿，微笑>的推理以由说明生成系统118推断男人开心并且添加“也”，因为婴儿和男人均在微笑。第四句也使用对婴儿穿着蓝色衣服这一提取的概念的推理以推断婴儿是男孩。

说明生成系统118也可以使用外部统计知识，例如，男人喂食给男婴的多数时间是爸爸喂食给他的儿子。以上生成的第四句被调和有“可能是……”，因为统计量可能指示该推断中的合理不确定数量以及因为也可能存在由于婴儿穿着蓝色衣服而婴儿是男孩这一推断中的不确定。由于结构化的图像表示106可以用来全部提取关于场景的相关信息，所以信息的不存在也可以用作由说明生成系统118执行的推断的部分。在这一情况下，结构化的图像表示106没有提及女人存在于图像108中。因此，说明生成系统118可以推断“妈妈不在”并且与男人和婴儿在微笑这样的概念组合，生成末句“爸爸和他的儿子在一起过得快乐而妈妈不在”。

注意，说明生成系统118可以避免使用提取的信息中的一些信息。在这一情况下，说明没有提及男人坐在桌子旁，因为说明生成系统118认为该概念在描述场景时不感兴趣或者不重要或者它可以从另一概念(比如婴儿坐在高脚椅子中)以高概率被推断。通过使用结构化的图像表示106作为结构化的知识的集合来使这一推理有可能，该结构化的知识集合用作使用文本对图像106的描述性概括。

结构化的图像表示106也可以包括用于提取的主语、谓语、动作、定语和宾语的词性(POS)标签，比如单数名词、形容词、副词等等。词性标签可以用作如以上描述的推理的部分以及在基于语法的说明生成方式中的空位填充，并且保证如以下进一步描述的那样生成有效句子。

附加地，在图像108内的对象以及对应属性和交互的级别显式提取图像108的知识允许关于中间和更高级别场景性质的进一步推理。关于婴儿是男孩、男人开心以及爸爸和儿子过得快乐而妈妈不在的推断是示例。

图2描绘了图像200的另一示例。在这一示例中，结构化的图像表示106可以包括以下知识，这是从图像200提取的：

{<足球>，<人1，穿着，蓝色汗衫>，<人2，穿着，红色汗衫>，<人3，穿着，红色汗衫>，<人4，穿着，红色汗衫>，<人5，穿着，蓝色汗衫>，<人6，穿着，蓝色汗衫>，<球场>，<人5，踢，足球>，<人6，奔跑>，<人4，追赶，人5>，<人3，奔跑>，<人1，奔跑>。

足球的存在指示人们在玩足球，这得到人们之一在踢足球的知识的进一步支持。仅有两个不同颜色的汗衫指示有两队比赛。这得到穿红色汗衫的人实际上在追赶踢球的穿蓝色汗衫的人并且其他人在球场上奔跑的知识支持。根据这一提取的对象级别知识，场景级别性质可以由说明生成系统118用增强的对象级别描述(比如“在红队与蓝队之间的足球赛”)来推断。

也可以通过构建关于图像的内容的知识库来实现关于场景及其构成对象和动作的进一步推理和推断，其中该知识库然后由推理引擎使用。知识库的构造例如可以取得描述图像的结构化的知识(比如<主语，定语，->、<主语，谓语，宾语>、<主语，-，->、<-，动作，->作为输入。可以从现有图像说明数据库以及在文档中的图像说明和周围文本取得用于构造知识库的输入数据。这里描述的技术的从任何图像提取这样的知识的能力允许图像知识库包括来自无说明和无标签(这是大多数图像)的图像的多得多的数据。图像知识库和对应的推理引擎可以做出推断，比如在以上男人喂食给婴儿的加说明示例中需要的推断。图像知识库也可以提供用于支持在该示例中使用的概率推理，比如推断男人很可能是婴儿的父亲的统计量。如果示例已经包括属性如<男人，年老>，则更可能的推断可以包括男人是婴儿的祖父。

已经描述了环境的示例，在该环境中，结构化的图像表示106用来描述性地概括图像114，在下文中包括对知识提取系统104的用于生成和使用模型作为根据图像的知识提取的部分的操作的进一步讨论。

图3描绘了示例实现方式的系统300，该系统300更具体地示出了图1的知识提取系统104。在这一示例中，知识提取系统104运用机器学习方式以生成结构化的图像表示106。因而，首先由知识提取系统110获得将用来训练模型的训练数据302，该模型然后用来形成结构化的图像表示106。用来在相似情境(例如，图像理解问题)中训练模型的常规技术依赖于用户手动地加标签给图像以形成训练数据302，这可能效率低、成本高、耗时间和易出错。然而，在这里描述的技术中，使用可自动地和无用户干预地执行的技术、使用机器学习来训练模型。

在图示的示例中，训练数据302包括图像304和关联的文本306，比如与图像304关联的说明或者元数据。提取器模块308然后用来使用如关于图4进一步描述的自然语言处理来提取结构化的语义知识310，例如，“<主语，定语>，图像”和“<主语，谓语，宾语>，图像”。提取也可以包括如关于图5和图6进一步描述的那样将结构化的语义知识310局部化到在图像内的对象。

图像304和对应的结构化的语义知识310然后被传递到模型训练模块312。模型训练模块312被图示为包括机器学习模块314，该机器学习模块314代表用于运用机器学习(例如，神经网络、卷积神经网络等等)以使用图像304和结构化的语义知识310来训练模型316的功能。模型316被训练为如关于图7进一步描述的那样定义在结构化的语义知识310中包括的文本特征与在图像中的图像特征之间的关系。

模型316然后由结构化的逻辑确定模块318用来生成用于输入图像108的结构化的图像表示106。结构化的图像表示106例如可以包括如下文本，该文本被构造为即使在图像108不具有文本的实例中仍然定义图像108的概念。实际上，模型316可用来生成这一文本作为结构化的图像表示106的部分，该结构化的图像表示106然后由结构化的图像表示使用模块320用来自动地和无用户干预地控制多种功能，比如图像搜索、说明和元数据生成等等。已经总体上描述了知识提取系统110的示例模块和功能，以下讨论包括对这些模块的更具体描述。

图4描绘了示例实现方式400，该示例实现方式400更具体地示出了图3的提取器模块308。提取器模块308包括自然语言处理模块402，该自然语言处理模块402代表用于使用自然语言处理(NLP)以用于根据与训练数据302中的图像304关联的自由形式(即，无结构的)的文本306的语义知识提取的功能。这样的自由形式的描述在现有图像说明数据库和具有图像的文档(比如网页和PDF文档)中容易地可用，并且因此自然语言处理模块402可以利用这一可用性，这使用常规手动技术是不可能的。然而，也可以运用如下手动技术，在这些手动技术中，工人为图像304生成文本306说明以描述图像304。

结构化的语义知识310在如先前描述的多种方式中可配置，比如“<主语，定语>，图像”406和/或“<主语，谓语，宾语>。图像”408元组。如由提取器模块308执行的说明和结构化的知识元组的示例包括“男孩在看电视之时抚弄狗”，其然后被提取为“<男孩，抚弄，狗>，<男孩，看，电视>”。在另一示例中，说明“褐色马在大片绿色田地中吃草”然后被提取为“<马，褐色>，<田地，绿色>，<马，吃，草>，<马，在…中，田地>”。

多种元组提取解决方案可以由自然语言处理模块402运用。附加地，在一些实例中，多个元组提取技术可以应用于相同图像说明并且在技术之中合意使用以纠正元组中的错误、去除不良元组以及标识高置信度元组或者向元组指派置信度。可以运用如下相似技术，在该技术中，元组提取技术用来对用于相同图像的说明集合联合地执行元组提取并且合意用来纠正元组中的错误、去除不良元组以及标识高置信度元组或者向元组指派置信度。这一数据从现有数据库容易地可获得，因为图像经常具有多个说明。附加地，从众包获得的输入也可以用来确认良好元组以及去除不良元组。

在一个或者多个实现方式中，抽象含义表示(AMR)技术由自然语言处理模块402用来辅助元组提取。AMR以实现对自由形式文本的更深度语义理解为目标。虽然它没有显式地提取形式<主语，定语>或者<主语，谓语，宾语>的知识元组，但是可以从AMR输出提取元组表示。附加地，可以从场景图形(例如，斯坦福场景图形数据集)提取知识元组，该场景图形是用于捕获对象属性和关系用于在语义图像检索中使用的关系的图像表示类型。

图5描绘了如下示例系统500，在该示例系统500中图4的提取器模块308被示出为包括局部化功能作为知识提取的部分。除了提取用于描述作为整体的图像的结构化的语义知识310作为训练数据302的部分之外，也可以在图像内将结构化的语义知识310局部化以提高效率和纠正机器学习。

如果存在例如男人遛狗的复杂场景，则结构化的语义知识310可以被配置为“<男人，遛，狗>，图像数据”而图像数据引用图像304的包括男人遛狗的部分，该部分在下文中被称为边界框504。因此，结构化的语义知识310的元组可以引用在图像内的部分，这些部分的示例被表示为“<主语，定语>，部分”506和“<主语，谓语，宾语>，部分”508。

因而，这可以提高在训练和后续用于具有多个实体和对应动作的图像时的准确性。例如，如果加说明的图像的全部包括多个概念(例如，女人慢跑或者男孩爬树)，则执行的任何机器学习将面临确定图像的哪个部分实际上与<男人，遛，狗>相关。因此，结构化的语义知识301被局部化越多，就会越容易拟合由模型训练模块312将图像和结构化的文本相关的高质量模型。关联文本描述的部分与图像的部分这一问题也被称为“基础化(grounding)”。

基础化和局部化模块502可以运用多种技术以执行局部化。在一个示例中，被配置为标识特定对象和/或对对象进行分类的对象检测器和分类器模块用来处理图像304的部分。区域CNN(卷积神经网络)或者语义分割技术也可以用来将图像中的对象局部化。

在另一示例中，通过如以下进一步描述的那样考虑已经为主语和宾语类局部化了多少类出现的情况来标识结构化的语义知识310元组(比如<主语，定语>和<主语，谓语，宾语>)以及局部化的对象。这也可以包括标识如下主语或者宾语，这些主语或者宾语指示元组描述整个场景，在该情况下，整个训练图像304与结构化的语义知识310的元组关联。为了这样做，使用场景类型的外部列表，例如浴室。

在基础化和局部化模块502可以在边界框中查找在元组的主语或者宾语中提及的对象类之前，用于主语或者宾语的文本被映射到数据库对象的预定义的子集，因为边界框通常地根据那些类标签被存储。例如，可以通过使用分级以执行匹配来将映射问题从主语或者宾语文本“家伙”求解成预定义的类，比如“男人”。

一旦获得了图像304中的用于<主语，谓语，宾语>三元组中的主语类和宾语类的边界框504的集合或者用于<主语，定语>二元组的边界框504，规则和启发法然后由基础化和局部化模块502用来在训练图像304内将结构化的语义知识310的元组局部化。在第一这样的示例中，对于<主语，定语>元组，如果在图像304中仅存在主语类的单个出现(例如，仅一辆小汽车)，则元组与用于该元组的单个边界框关联，因为边界框504包含主语而定语描述在该框内的主语、例如“<小汽车，发亮>”。

对于主语类仅有单个出现和宾语类有一个出现的<主语，谓语，宾语>元组，元组与最小矩形图像区域关联，该最小矩形图像区域覆盖用于主语的边界框和用于宾语的边界框，即，两个边界框的边界框。例如，如果在图像中存在单个人和单条狗，则<人，遛，狗>被局部化到人和狗边界框。这很可能地包含连接人和狗的皮带。一般而言，这里默认假设是使主语和宾语相联系的谓语在主语和宾语附近可见。

对于具有单个主语和单个宾语(“一辆小汽车”而不是“多辆小汽车”)和主语类或者宾语类具有多次出现的<主语，谓语，宾语>元组，确定如下。如果具有来自主语类的一个边界框和来自宾语类的一个边界框的最近一对边界框504在阈值距离内，则这一元组与最近一对边界框的边界框关联。这里假设是在主语与宾语之间的关系可以被良好可见地局部化。在每对之间的距离的分布也可以用来确定由于第二对或者第三对也具有小距离而在这一选择中是否存在不确定。

以上启发法给定在局部化中考虑的信息的类型的示例。附加技术也可以用来辅助由基础化和局部化模块502执行的局部化。这一点的示例由文本语义模块510举例说明，该文本语义模块510代表使用文本理解以辅助将图像中的主语和宾语基础化的功能。在一个示例中，与主语关联的位置定语用来选择或者缩小用于该主语的正确边界框。如果例如在场景中存在若干小汽车，但是说明陈述“有小孩坐在最左边小汽车的引擎盖上”，则文本语义模块510可以辅助在这一说明中和在从它提取的<小孩，坐在…上，小汽车>元组中选择具有与基础的最小水平坐标的边界框作为最左边小汽车。取代在以上示例中使用用于小汽车的所有边界框的边界框，可以使用仅基础化的小汽车的或者匹配“最左边”判据的汽车的子集的边界框。这一确定可以被推广到可以被测量的其它判据，比如颜色。

在对元组基础化时，基础化和局部化模块502首先使用主语和宾语的定语来精简用于它们的边界框的集合以过滤掉不包括这些定语的边界框504。这样的定语包括位置、颜色和与其它可标识区域的邻近，例如，对于“在草地上的小汽车”，草地区域可使用语义分割算法被发现。

相对位置信息也可以用来选择用于位置关系的正确的一对主语类和宾语类边界框。例如，如果说明是“婴儿坐在桌子上面”，则婴儿和桌子被基础化到图像中的矩形而婴儿矩形在餐桌矩形以上。这样，这如果在场景中存在多个婴儿和/或多个桌子则唯一地标识用于与这一元组关联的图像区域。

对于具有在图像中基础化的主语和宾语的<主语，谓语，宾语>元组，具有最小矩形图像区域的元组覆盖用于主语的边界框和用于宾语的边界框。也设想了多个其它示例，比如通过包括比在“紧”边界框中原本包括的区域更大的区域来向边界框添加某个数量的上下文。

图6描绘了在图像108的部分与结构化的语义知识310之间的局部化的示例实现方式600。如图所示，用于“<男人，坐在…上，椅子>”的边界框602包括男人和椅子。用于“<男人，喂食，婴儿>”的边界框604包括男人和婴儿二者。用于“<婴儿，拿着，玩具>”的边界框606包括婴儿和玩具。已经描述了对结构化的语义知识310的提取，以下包括对由模型训练模块312使用这一提取的结构化的语义知识310以训练模型316的讨论。

图7描绘了示例实现方式700，该示例实现方式700更具体地将模型训练模块312示出为运用机器学习模块314以对在从测试306提取的结构化的语义知识310与图像304之间的关系建模。在这一示例中，机器学习模块314被配置为对在结构化的语义知识310的文本特征704与训练数据302的图像304的图像特征之间的关系702建模以便训练模型316。

在这一示例中构建了联合概率模型“P(<主语，定语>，图像I)、P(<主语，谓语，宾语>，图像I)”以输出图像“I”和结构化的文本<主语，定语>或者<主语，谓语，宾语>可见地和文本地代表相同现实概念的概率。在这一示例中的模型316被配置为良好地推广到主语、定语、谓语和宾语的未见过或者罕见的组合并且无需将个体单词的大型词汇表显式精简成概念的小型、预定义的集合。

基于文本的图像搜索涉及将文本查询(例如，使用自然语言元组提取技术被表示为结构化的知识的集合)映射到图像。这通过对图像“I”循环并且检查哪个图像给定用于给定的概念<S,P,O>的高概率“P(结构化的文本<S,P,O>，图像I)”而由如关于图8进一步描述的联合模型支持。通过对可能的概念<S,P,O>循环并且检查哪个概念给定用于给定的图像或者图像部分“I”的高概率“P(结构化的文本<S,P,O>，图像I)”来支持知识提取/加标签。

存在供给建模的两个部分：(1)用于结构化的文本“<S,P,O>”、“<S,A,->”、“<S,-,->”(其中“-”指示用于将所有概念表示为元组的未使用空位)和用于图像的特征表示，以及(2)用于将文本特征“t”704和图像特征“x:P(t,x)”706相关的模型。

结构化的语义知识310“<S,P,O>”和“<S,A>”元组被配置以使得相似结构化的知识概念具有附近和有关表示，例如，如在矢量空间中的矢量。这支持推广和使用大型词汇表。例如，文本特征704表示“<路，弯>”和“<路，绕>”被配置为相似并且在“<狗，遛>”和“<人，遛>”之间的表示由共同动作遛相联系。这可以被执行以使得相似单词在空间中在附近并且矢量空间捕获在单词之间的一些关系。例如，vec(“男人”)+(vec(“女王”)-vec(“女人”))＝vec(“国王”)。

模型训练模块312也可以被配置为在单个单词的语义矢量表示上构建以发展知识元组的矢量表示，该矢量表示捕获在两个概念“<S1,P1,O1>”与“<S2,P2,O2>”之间的关系。具体而言，为“<S,P,O>”元组将特征矢量构建为单个单词表示“vec(S)”、“vec(P)”和“vec(O)”的函数。将“vec(<S,P,P>)”构建为个别单词矢量的级联“vec(<S,P,O>)＝[vec(S)vec(P)vec(O)]”。

在“<S,P,O>”要素(比如在表示“<主语，定语>”时的宾语“O”或者在表示“<主语>”时的谓语“P”和宾语“O”二者)缺失时，使用零来填充对应的矢量空位。因此，仅用于主语的矢量表示落在“S,P,O”空间中的“S”轴上。可以将可见定语寻址为用于朴素主语的修饰语，这些修饰语将“<S,P>”的表示移入“S,P,O”空间的“SP”平面中。另一选项涉及合计个别单词的矢量表示。

对于复合“S”或者“P”或者“O”，用于短语中的每个个别单词的矢量表示被平均以向“[vec(S)vec(P)vec(O)]”表示的目标空位中插入单个矢量。例如，“vec(“跑向”)”等于“0.5*(vec(“奔跑”)+vec(“朝向”))”。在短语中的一些单词带有比其它单词更多的含义时也可以使用非统一加权平均。在一个实现方式中，对于复合短语(比如“跑向”或者“跑离”)通过将这些短语原子地视为现有语义单词嵌入模型中的新词汇要素来直接地学习语义表示(例如，矢量或者概率分布)。

存在可用来捕获图像特征705的语义的多种技术选择。在一个这样的示例中，使用具有从数据直接地学习的多个特征级别的深度机器学习网络。具体而言，已经为图像分类而证实了具有卷积、合并和激活层(例如，将活动阈值化的已纠正线性单位)的卷积神经网络(CNN)。示例包括AlexNet、VGGNet和GoogLeNet。

附加地，已经示出了来自深度分类网的分类特征对其它任务(例如，分类)给定高质量结果，尤其在微调用于其它任务的这些特征之后。因此，从为分类而学习的特征开始然后为另一图像理解任务微调这些特征可以表现在训练方面比从用于新任务的获取(scratch)开始训练有所增加的效率。出于以上原因，采用CNN特征作为基线线性CCA模型中的固定特征。机器学习模块314然后在深度网络中从CNN微调模型316以用于将文本特征704和图像特征706相关。

机器学习模块316被配置为将文本特征“t”704和图像特征“x”706映射到公共矢量空间中并且在相同或者相似概念由“t”和“x”代表时惩罚映射的特征的差异。

可以用来这样做的一种技术包括应用于文本特征704和图像特征706的被称为规范相关性分析(CCA)的线性映射。在CCA中，发现分别将特征矢量“t”和“x”映射到公共矢量空间“t’＝Tt”和“x’＝Xx”中的矩阵“T”和“X”。如果映射被执行到维度“D”的公共空间中并且“t”是在“D_t维空间”中的矢量并且“x”是在“D_x维空间”中的矢量，那么“T”是“(D×D_t)”矩阵，“X”是“(D×D_x)”矩阵，并且映射的表示t’和x’是D维矢量。

可以运用损耗函数以用于基于平方欧几里得距离“||t’-x’||_2^2”或者余弦相似度“dot_product(t’,x’)”或者“angle_between(t’,x’)”使用训练对“(t,x)”的模型拟合，这从余弦相似度测量去除矢量长度。在使用点积时，则CCA相关性函数被表达如下：

f(t，x)＝f_CCA_dp(t，x)＝tr(Tt)*Xx＝tr(t)*M*x＝sum_{i，j}t_iM_{ij}x_j，

其中“tr”等于转置，并且“M＝tr(T)*X是(D_t×D_x)”，并且下标指示矢量分量。这一形式支持在另一个给定时对于图像或者文本的比穷尽更快的搜索。例如，在基于文本的图像搜索中，发现具有特征矢量“x”的图像，从而使得“dot_prod(v,x)”为大，其中“v＝tr(t)*M”。

对于平方欧几里得损耗，CCA相关性函数可以被表达如下：

f(t,x)＝f_CCA_E(t,x)＝||T t–X x||_2^2。

同样，以上相关性函数的简单闭合形式也可以支持在另一个给定时对于图像或者文本的比穷尽更快的搜索。例如，在基于文本的图像搜索中，发现具有特征矢量“x”的图像，从而使得“f_CCA_E(t,x)”对于给定的文本矢量“t”为小。给定来自拟合CCA模型和查询“t”的“(T,X)”，线性代数提供使“f(t,x)”最小化的矢量集合并且发现具有与这一集合接近的特征矢量“x”的图像。

图8描绘了用于将文本和图像相关作为机器学习的部分的深度网络800的示例。深度网络800包括文本机器学习列802和图像机器学习列，这两列被配置为通过非线性映射到公共空间中来学习在结构化的语义知识“<S,P,O>”与图像或者图像部分“I”之间的相关性“f(<S,P,O>,I)”。

文本机器学习列802从包括vec(S)806、vec(P)808和vec(O)810的语义文本矢量表示“t”开始，该语义文本矢量表示然后通过全连接和激活层812的集合被传递以输出非线性映射t->t’作为用于文本814的特征矢量。

图像机器学习列804被配置为从图像816的图像像素开始并且输出用于图像814的特征矢量x’的深度卷积神经网络814(例如，如具有最终层的AlexNet或者VGGNet或者GoogLeNet，这些最终层映射到去除的类的概率)。图像列被初始化为现有CNN的训练结果并且图像特征被微调以将图像与结构化的文本捕获图像属性和交互相关而不是如在现有CNN中的仅对象类鉴别。

在文本机器学习列802和图像机器学习列804中的适配层822、824根据非线性函数适配表示以将它映射到公共空间中，其中图像特征代表相同概念。损耗层828连结列并且惩罚文本机器学习列802和机器学习列804的输出t’和x’的差异以鼓励映射到用于相同概念的公共空间中。

鉴别损耗函数(比如排名损耗)可以用来保证未匹配的文本和图像具有比正确地匹配的文本和图像更小的相关性或者更大的距离。例如，简单排名损耗函数可能需要用于训练示例“(t_i,x_i)”的相关性“dot_prod(t_i’,x_i’)>dot_prod(t_j’,x_i’)”，并且其中用于训练元组t_j的原有元组并不匹配训练图像“x_i”。排名损耗也可以使用语义文本相似度或者外部对象分级(比如ImageNet)以用公式表示损耗以非统一地惩罚不同未匹配。

其它损耗函数和架构是可能的，例如，具有在语义文本表示“t＝[vec(S),vec(P),vec(O)]”与嵌入空间t’之间的更少或者更多适配层或者具有在公共嵌入空间之前的文本层与图像层之间的连接。在一个示例中，通配符损耗也是可能的，该通配符损耗忽略用于二阶事实<S,P>的嵌入矢量的宾语部分和用于一阶事实<S>的嵌入矢量的宾语部分。

回顾图3，这时，结构化的语义知识310由模型训练模块312获得以求解提取与图像区域相关的概念这样的问题。现在对于“P(概念<S,P,O>,图像I)”应用以上建模以提取关于图像的部分的所有高概率概念。这可以被执行而未选择最可能的概念。例如，考虑如下图像区域，该图像区域包含穿着蓝色衬衫的微笑男人。用于这一区域的图像像素数据“I”将具有与“<男人，微笑>”和“<男人，穿着，蓝色衬衫>”二者的高相关性，并且因此可以对于相同图像区域提取这两个概念。

可以通过与来自由对象提议算法标识的区域或者由R-CNN算法标识的对象区域的图像像素数据或者甚至在更密集地对图像区域采样的滑动窗口方式中应用以上模型来求解知识提取任务。为了捕获对象交互，从对象提议对或者R-CNN对象区域对生成边界框。一种方式是试验所有潜在对象区域对以测试可能的交互。另一方式是应用一些启发法以更有选择性，比如不检查在图像中距离远的对。由于可以应用模型以提取关于图像区域的零个、一个或者更多高概率概念，所以提取的<S,P,O>概念可以被局部化到提供对应可见数据的图像区域。

示例过程

以下讨论描述了可以利用先前描述的系统和设备而被实施的知识提取技术。可以在硬件、固件或者软件或者其组合中实施过程中的每个过程的方面。过程倍示出为块的集合，这些块指定由一个或者多个设备执行的操作并且未必限于所示的用于由相应的块执行操作的顺序。在以下讨论的部分中，将参照图1至图8。

图9描绘了在示例实现方式中的过程900，在该过程900中运用数字媒体环境以从输入图像自动地和无用户干预地提取知识。数字媒体环境被描述为学习模型，该模型可用来自动地和无用户干预地计算输入图像的描述性概括。获得包括图像和关联的文本的训练数据(块902)。训练数据320例如可以包括图像304和与图像304关联的无结构文本306，例如，说明和元数据等等。

由至少一个计算设备使用自然语言处理从关联的文本提取结构化的语义知识，该结构化的语义知识描述文本特征(块904)。例如，可以使用自然语言处理来提取结构化的语义知识310以生成元组，比如<主语，定语>、<主语、谓语、宾语>等等。

使用结构化的语义知识和图像来训练模型作为机器学习的部分(块906)。模型训练模块312例如可以使用图像304和结构化的语义知识310来训练神经网络。也可以如关于图10更具体地描述的那样将这一知识局部化。

模型用来形成输入图像的结构化的图像表示作为输入图像的描述性概括，该结构化的图像表示将文本特征的至少部分与输入图像的图像特征显式地相关(块908)。结构化的图像表示例如可以将文本中的概念与图像的部分相关以及对知识的结构寻址以描述在图像中“什么正在进行”作为描述性概括。可以在多种方式中运用这一描述性概括，比如用来对图像定位作为图像搜索的部分、执行说明的自动化生成等。

图10描绘了在示例实现方式中的过程1000，在该过程1000中运用数字媒体环境以提取知识并且将文本特征局部化到输入图像的图像特征。数字媒体环境被描述为学习如下模型，该模型可用来自动地和无用户干预地计算在输入图像内的对象的描述性概括。由至少一个计算设备使用自然语言处理从与图像关联的文本提取结构化的语义知识(块1002)。在相应的所述图像内的对象的图像特征被局部化为对应于结构化的语义知识的文本特征(块1004)。同前，提取结构化的语义知识310。然而，在这一情况下，这一知识被局部化到图像的特定部分并且因此可以通过在图像中的多个概念之间潜在地区分(例如，如图1中所示的婴儿拿着玩具和男人喂食给婴儿)来提高后续建模的准确性。

使用局部化的图像和文本特征来训练模型作为机器学习的部分(块1006)。可以使用多种不同技术，比如执行概率建模。模型用来形成输入图像的结构化的图像表示，该结构化的图像表示将文本特征中的至少一个文本特征与在输入图像中包括的对象的至少一个图像特征显式地相关(块1008)。例如，结构化的逻辑确定模块318可以尤其在输入图像108不包括关联的文本的实例中取得输入图像108并且形成结构化的图像表示106。另外，结构化的图像表示106可以被局部化以将在文本和图像中包括的概念相互相关。同前，结构化的图像表示106可以用来支持多种功能，比如图像搜索、自动化的说明生成等等。

实现方式示例

图11描绘了可用来执行结构化的事实图像嵌入的示例系统1100。这一系统1100支持性质，比如用于以下的能力：(1)可以被连续地馈送新事实而未改变架构，(2)能够用通配符学习以支持所有事实，(3)可以推广到未见或者以别的方式不直接地可观察的事实，以及(4)允许双向检索，比如在图像给定时在语言视图中检索相关事实和在语言视图中的事实给定时检索相关图像。这一系统1100以将图像中的结构化的知识建模为在可见域V和语言域L中具有视图的问题为目标。令“f”为结构化的“事实”(即，概念)并且f_l∈L”表示语言域中的“f”的视图。例如，具有语言视图“f_l＝<S:女孩,P:骑,O:自行车>”的注解的事实将如图11中所示以对应可视视图“f_v”作为该事实出现在其中的图像。

系统被配置为学习如下表示，该表示覆盖一阶事实<S>(对象)、二阶事实<S,P>(动作和属性)以及三阶事实(S,P,O)(交互和位置事实)。这些类型的事实被表示为向“结构化的事实空间”中的嵌入问题。结构化的事实被配置为被表示如下的三个超维度的学习表示：

和

根据事实“f_v”的可见视图的嵌入函数被分别表示如下：

φS，φP，和φO为

和

相似地，根据事实“f_l”的语言视图的嵌入函数被表示如下：

φS，φP和φO

为以下各项中的相应的项：

和

对可见视图超维度的级联被表示为：

对语言视图超维度的嵌入的级联被表示为：

其中以上分别是“f”的可见嵌入和语言嵌入，由此形成：

因此，如从以上清楚的那样，可以通过以下各项将三阶事实<S,P,O>直接地嵌入到结构化的事实空间：

对于图像视图：

以及对于语言视图：

一阶事实是指示对象如<S：人>的事实。二阶事实关于主语更具体，例如，<S：人，P：弹奏>。三阶实施甚至更具体，例如，<S：人，P：弹奏，O：钢琴>。在下文中，高阶事实被定义为应用有附加修饰语的低阶事实。例如，向事实<S：孩子>添加修饰语“P：吃”构造事实<S：孩子，P：吃>。另外，向事实<S：孩子，P：吃>添加修饰语“O：冰淇淋”构造事实<S：孩子，P：吃，O：冰淇淋>。相似地，可以向主语寻址定语作为修饰语，例如，向事实<S：婴儿>应用“P：微笑”构造事实<S：婴儿，P：微笑>。

基于以上事实修饰语观察，可以如在分别用于一阶事实和二阶事实的以下等式中所示将一阶事实和二阶事实表示为通配符。

对于一阶事实将“φP”和“φO”设置成“*”被解释为意味着“P”和“O”修饰语对于一阶事实而言是不感兴趣的。相似地，对于二阶事实将“φO”设置成“*”指示“O”修饰语对于单帧动作和属性而言是不感兴趣的。

一阶事实和二阶事实二者被命名为通配符事实。由于对在可见数据中的结构化的事实建模潜在地允许在来自图像的事实之上的逻辑推理，所以描述的问题在下文中也被称为“夏洛克”问题。

为了训练机器学习模型，该机器学习模型连接L中的结构化的事实语言视图与它在V中的可见视图，在(f_v,f_l)对的形式中收集数据。用于大规模问题的数据收集尤其在以下示例中已经变得越来越有挑战性，因为模型在这样的事实出现时依赖于对结构语言事实“f_l”与图像“f_v”的局部化的关联。具体而言，尤其对于二阶事实<S,P>和三阶事实<S,P,O>，收集注解是一项复杂任务。也可以向相同图像指派多个结构化的语言事实，例如，<S：男人，P：微笑>和<S：男人，P：戴着，O：眼镜>。如果这些事实引用相同男人，则相同图像示例可以用来关于两个事实学习。

如先前描述的那样，讨论了如下技术，在这些技术中从来自图像/说明对这一形式的数据集自动地收集事实注解。例如可以使用自然语言处理从说明数据集获得大量高质量事实。由于说明书写是自由形式，所以这些描述通常地例如从社交网络、预配置的数据集等等容易地可获得。

在以下示例中，描述了两步自动注解过程：(1)根据说明的事实提取，该说明包括与图像关联的描述图像的任何文本；以及(ii)在图像中的事实局部化。首先分析与给定的图像关联的说明以提取被视为图像中的候选<S,P>和<S,P,O>事实的子句集合。子句形成事实但是其本身未必是事实。

说明可以向图像理解系统提供丰富数量的信息。然而，开发自然语言处理系统以从自由形式文本准确地和完整地提取结构化的知识由于以下原因而有挑战性：(1)拼写和标点错误；(2)在子句内的单词意义模糊；以及(3)空间前置词词典，该词典可以包括数百个词项，比如“在…旁边”、“在…上面”以及短语形容词汇集，比如“成组”、“成束”等等。

将图像中的事实局部化的过程受数据集中的信息约束。例如，数据集可以按照训练集合和验证集合包含用于不同对象的对象注解。这允许使用边界框信息来为对象将一阶事实局部化。为了对图像中的高阶事实定位，可见实体被定义为任何名词，该名词是数据集对象或者在预定义的本体论中的名词，该名词是对象之一的直接上位词或者间接上位词。预计可见实体如果它存在则出现在用于候选事实“f_i”的S部分或者O部分中，这允许对用于图像的事实的局部化。在候选三阶事实给定时，首先进行尝试向可见实体之一指派每个“S”和“O”。如果“S”和“O”不是可见实体，则忽略子句。否则，通过若干启发法处理子句。启发法例如可以考虑主语或者宾语是否为单数或者复数或者是场景。例如，在事实<S：男人们，P：追赶，O：足球>中，这里描述的技术可以标识“男人们”可以涉及多个候选边界框的并集，而对于“足球”，预计存在单个边界框。

用于对图像中的事实建模的一种简单直接方式是学习用于每个分离事实的分类器。然而，在这一技术中存在明显伸缩性限制，因为事实的数目有意义，例如，|S|x|P|x|O|，其中|S|、|P|和|O|分别是主语、谓语和宾语的数目。因此，这一数目可能对于现实中的可能的事实达到数百万。除了伸缩性问题之外，这一技术丢弃在事实之间的语义关系，这是允许推广到未见事实或者几乎没有示例的事实的显著性质。例如，在训练期间可能有二阶事实如<S：男孩，P：弹奏>和一阶事实如<S：女孩>、<S：男孩>。在运行时，使用这里描述的技术而被训练的模型理解具有事实<女孩，弹奏>的图像，即使在训练期间未看见这一事实，这显然地不是通过在训练中对于每个事实学习模型而被捕获的。

因而，在这一示例中描述了用来对结构化的事实建模的两视图嵌入问题。例如，结构化的事实嵌入模型可以包括(1)双向检索(即，在给定的语言视图和图像中检索相关事实，以及在语言视图中的事实给定时检索相关图像)；以及(2)支持通配符事实，即一阶事实和二阶事实。

在这一示例中通过使用连接“f”的可见视图和语言视图的生成性模型p(f_v,f_l)来满足第一性质。这一技术首先对下式建模：

其中“s(·,·)”是在由“S”表示的结构化的事实空间之上定义的相似度函数，该结构化的事实空间是事实的鉴别性空间。这被执行以使得相互接近嵌入相同事实的两个视图。

为了对“ф^V(f_v)”建模和训练，CNN编码器用来训练RNN编码器使用的“ф^L(f_l)”。提出了用于学习事实的两个模型，这两个模型在图12的示例实现方式1200中由模型1和模型2表示。模型1和2共享相同结构化的事实语言嵌入和编码器，但是在结构化的事实图像编码器中不同。

这一过程通过定义激活算符“ψ(θ,α)”来开始，其中“α”是驶入而“θ”是可以包括不同层类型(比如四个卷积、一个合并以及另一卷积和合并)的一系列的一个或者多个神经网络层。算符“ψ(θ,α)”逐层应用“θ”参数以计算“θ”子网络在“α”给定时的活性。算符“ψ(·,·)”用来定义模型1和模型2结构化的事实图像编码器。

在模型1中，通过共享卷积层参数(由

表示)和全连接层参数(由

表示)来对结构化的事实可见地编码。然后，应用

和

变换矩阵以如下产生

与模型1对照，在模型2中与用于“P”和“O”不同的卷积层用于“S”，这与“P”和“O”如先前描述的那样是“S”的修饰语的以上讨论一致。从“f_v”开始，具有由

表示的公共卷积层集合，然后网络拆分成两个支路，从而产生两个卷积层集合

和

继而是两个全连接层集合

和

最后，按照变换矩阵

和

如下计算

在两个模型中，使用用于“S、P和O”的RNN单词嵌入矢量来编码结构化的语言事实。因此，在

的情况下，其中

和

是“f_L∈L”的主语部分、谓语部分和宾语部分。对于这些项中的每项，丢弃文字，并且如果

和

中的任一项包含多个单词，则平均矢量被计算为该部分的表示。RNN语言编码器参数由“θ^L”表示。在一个或者多个实现方式中，“θ^L”被固定成用于

和

的预先训练的单词矢量嵌入模型。

用于对用于模型1和模型2的“p(f_v,f_l)”建模的一种方式是假设“p(f_v,f_l)∞＝exp(-loss_w(f_v,f_l))”并且最小化定义如下的“loss_w(f_v,f_l)”距离损耗：

该式最小化在可见视图和语言视图的嵌入之间的距离。一种惩罚通配符事实的解决方案是通过使用加权欧几里得距离来忽略损耗中的通配符修饰语，对该加权欧几里得距离的加权基于特征矢量的对应部分是否存在，这被称为“通配符”损耗。这里，对于<S,P,O>事实，

以及

对于<S,P>事实，

以及

而对于<S>事实，

以及

因此，“loss_w”没有惩罚用于二阶事实的“O”修饰语或者用于一阶事实的“P”和“O”修饰语，这遵从通配符修饰语的以上定义。

因而，这一示例描述关联高阶可见和语言事实的问题。描述了一种用于将可见事实和语言事实映射到公共、连续结构化的事实空间中的神经网络方式，该结构化的事实空间允许自然语言事实与图像关联以及图像与自然语言结构化的描述关联。

示例系统和设备

图13在1300处大体地图示了包括示例计算设备1302的示例系统，该计算设备1302代表可以实施这里描述的各种技术的一个或者多个计算系统和/或设备。这通过包括知识提取系统104被图示。计算设备1302可以例如是服务提供商的服务器、与客户端关联的设备(例如，客户端设备)、片上系统和/或任何其它适当计算设备或者计算系统。

示例计算设备1302如图所示包括相互通信地耦合的处理系统1304、一个或者多个计算机可读介质1306和一个或者多个I/O接口1308。虽然未示出，但是计算设备1302还可以包括相互耦合各种部件的系统总线或者其它数据和命令传送系统。系统总线可以包括不同总线结构(比如存储器总线或者存储器控制器、外围总线、通用串行总线和/或利用多种总线架构中的任何总线架构的处理器或者本地总线)中的任何总线结构或者组合。也设想了多种其它示例，比如控制和数据线。

处理系统1304代表用于使用硬件来执行一个或者多个操作的功能。因而，处理系统1304被图示为包括可以被配置为处理器、功能块等的硬件单元1310。这可以包括在硬件中实施为专用集成电路或者使用一个或者多个半导体形成的其它逻辑器件。硬件单元1310不受形成它们的材料或者其中运用的处理机制所限制。例如，处理器可以由半导体和/或晶体管(例如，电子集成电路(IC))组成。在这样的情境中，处理器可执行指令可以是电子地可执行的指令。

计算机可读存储介质1306被图示为包括存储器/存储装置1312。存储器/存储装置1312代表与一个或者多个计算机可读介质关联的存储器/存储容量。存储器/存储部件1312可以包括易失性介质(比如随机存取存储器(RAM))和/或非易失性介质(比如只读存储器(ROM)、闪存、光盘、磁盘等)。存储器/存储部件1312可以包括固定介质(例如，RAM、ROM、固定硬驱动等)以及可拆卸介质(例如，闪存、可拆卸硬驱动、光盘等)。可以用如以下进一步描述的多种其它方式配置计算机可读介质1306。

输入/输出接口1308代表用于允许用户向计算设备1302录入命令和信息并且也允许向用户呈现信息的功能以及使用各种输入/输出设备的其它部件或者设备。输入设备的示例包括键盘、光标控制设备(例如，鼠标)、麦克风、扫描仪、触摸功能(例如，被配置为检测物理触摸的电容或者其它传感器)、相机(例如，该相机可以运用可见光或者不可见波长(如红外线频率)以识别移动作为未涉及触摸的手势)等等。输出设备的示例包括显示设备(例如，监视器或者投影仪)、扬声器、打印机、网卡、触觉响应设备等等。因此，可以用如以下进一步描述的多种方式配置计算设备1302以支持用户交互。

这里可以在软件、硬件单元或者程序模块的一般情境中描述各种技术。一般而言，这样的模块包括执行特定任务或者实施特定抽象数据类型的例程、程序、对象、单元、部件、数据结构等。如这里所用术语“模块”、“功能”和“部件”一般地表示软件、固件、硬件或者其组合。这里描述的技术的特征独立于平台，这意味着可以在具有多种处理器的多种商用计算平台上实施技术。

可以在某个形式的计算机可读介质上存储或者跨该形式的计算机可读介质传输描述的模块和技术的实现方式。计算机可读介质可以包括计算设备1302可以访问的多种介质。举例而言而无限制，计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。

“计算机可读存储介质”可以是指与仅信号传输、载波或者信号本身对照而言实现信息的持久和/或非瞬态存储的介质和设备。因此，计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括硬件，比如在适合用于存储信息(比如计算机可读指令、数据结构、程序模块、逻辑元件/电路或者其它数据)的方法或者技术中实施的易失性和非易失性、可拆卸和非可拆卸介质和/或存储设备。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或者其它存储器技术、CD-ROM、数字万用盘(DVD)或者其它光存储装置、硬盘、磁盒、磁带、磁盘存储装置或者其它磁存储设备或者适合用来存储希望的信息并且可以由计算机访问的其它存储设备、有形介质或者制造品。

“计算机可读信号介质”可以是指被配置为比如经由网络向计算设备1302的硬件传输指令的信号承载介质。信号介质通常地可以在调制的数据信号(比如载波、数据信号)或者其它传送机制中体现计算机可读指令、数据结构、程序模块或者其它数据。信号介质也包括任何信息递送介质。术语“调制的数据信号”意味着如下信号，该信号让它的特性中的一个或者多个特性以对信号中的信息进行编码这样的方式被设置或者改变。举例而言而非限制，通信介质包括有线介质(比如有线网络或者直接有线连接)和无线介质(比如声学、RF、红外线和其它无线介质)。

如先前描述的那样，硬件单元1310和计算机可读介质1306代表以硬件形式实施的模块、可编程器件逻辑和/或固定器件逻辑，可以在一些实施例中运用该硬件形式以实施这里描述的技术的至少一些方面，比如执行一个或者多个指令。硬件可以包括集成电路或者片上系统的部件、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)和在硅或者其它硬件中的其它实现方式。在本文中，硬件可以作为执行由指令定义的程序任务或者由硬件体现的逻辑的处理设备以及用来存储用于执行的指令的硬件(例如，先前描述的计算机可读存储介质)来操作。

也可以运用前述各项的组合以实施这里描述的各种技术。因而，软件、硬件或者可执行模块可以被实施为在某个形式的计算机可读存储介质上和/或由一个或者多个硬件单元1310体现的一个或者多个指令和/或逻辑。计算设备1302可以被配置为实施与软件和/或硬件模块对应的特定指令和/或功能。因而，可以至少部分地在硬件中(例如，通过使用计算机可读存储介质和/或处理系统1304的硬件单元1310)来实现作为软件可由计算设备1302执行的模块的实现方式。指令和/或功能可以可由一个或者多个制造品(例如，一个或者多个计算设备1302和/或处理系统1304)可执行/可操作以实施这里描述的技术、模块和示例。

这里描述的技术可以由计算设备1302的各种配置支持而不限于这里描述的技术的具体示例。也可以全部或者部分通过使用分布式系统(比如如以下描述的那样经由平台1316在“云”1314之上)实施这一功能。

云1314包括和/或表示用于资源1318的平台1316。平台1316对云1314的硬件(例如，服务器)和软件资源的下层功能进行抽象化。资源1318可以包括可以在从计算设备1302远离的服务器上执行计算机处理之时利用的应用和/或数据。资源1318也可以包括通过因特网和/或通过预订者网络(比如蜂窝或者Wi-Fi网络)提供的服务。

平台1316可以将用于连接计算设备1302与其它计算设备的资源和功能抽象化。平台1316也可以服务于将对资源的缩放抽象化以提供与对于经由平台1316实施的资源1318的所遇需求对应的规模级别。因而，在互连设备实施例中，可以遍及系统1300分布这里描述的功能的实现方式。例如，可以部分在计算设备1302上以及经由将云1314的功能抽象化的平台1316实施该功能。

结论

虽然已经用结构特征和/或方法动作特有的言语描述了本发明，但是将理解，在所附权利要求中定义的本发明未必限于描述的具体特征或者动作。实际上，具体特征和动作被公开为实施要求保护的本发明的示例形式。

Claims

1.一种在数字媒体环境中的由至少一个计算设备实施的系统，所述数字媒体环境用于自动地且无用户干预地学习可用来计算在输入图像内的对象、属性和所述对象如何相互交互的描述性概括的模型，所述系统包括：

模型训练模块，至少部分地在硬件中被实施，响应于由所述至少一个计算设备的一个或多个处理器的执行，所述模型训练模块执行操作，所述操作包括：

由所述至少一个计算设备将在相应的图像内的图像特征局部化为与结构化的语义知识的文本特征相对应，所述结构化的语义知识使用自然语言处理从与所述相应的图像相关联的文本而被提取；以及

由所述至少一个计算设备使用局部化的所述图像和所述文本特征来训练模型作为机器学习的部分；以及

结构化的逻辑确定模块，至少部分地在硬件中被实施，响应于由所述至少一个计算设备的一个或多个处理器的执行，所述结构化的逻辑确定模块执行操作，所述操作包括：通过以下来使用所述模型来形成所述输入图像的结构化的图像表示，所述结构化的图像表示将所述结构化的语义知识中所包括的主语文本特征和单个宾语文本特征与在所述输入图像中包括的所述对象的至少一个图像特征显式地相关：

通过使用将与所述宾语文本特征相关联的类标签标识为对应于所述宾语文本特征的分级将所述宾语文本特征映射到所述类标签，来标识所述类标签；

在与所述类标签相关联的所述输入图像中获得至少两个边界框；

通过确定所述图像的对应于所述主语文本特征的一部分与所述至少两个边界框中的每个相应的边界框之间的相应距离，来确定所述至少两个边界框中的与所述主语文本特征相对应的一个边界框，并且基于与所述一个边界框相关联的所述距离小于阈值距离来将所述一个边界框选择为与所述宾语文本特征相对应；以及

基于所述一个边界框来将所述主语文本特征和所述单个宾语文本特征局部化到所述输入图像。

2.根据权利要求1所述的系统，其中所述模型采用主语和宾语的预定义的类以及所述图像的分别包括所述主语和所述宾语的关联图像区域。

3.根据权利要求1所述的系统，其中所述结构化的语义知识包括<主语，定语>元组或者<主语，谓语，宾语>元组。

4.根据权利要求1所述的系统，其中存在与所述主语文本特征相对应的多个主语类边界框和与所述宾语文本特征相对应的多个宾语类边界框，所述局部化还包括使用相对位置信息来选择一对主语类边界框和宾语类边界框。

5.一种在数字媒体环境中的由至少一个计算设备实施的方法，所述数字媒体环境用于自动地且无用户干预地学习可用来计算在输入图像内的对象、属性和所述对象如何相互交互的描述性概括的模型，所述方法包括：

由所述至少一个计算设备将在相应的图像内的图像特征局部化为对应于结构化的语义知识的文本特征，所述结构化的语义知识使用自然语言处理从与所述相应的图像相关联的文本而被提取；以及

使用所述模型来形成所述输入图像的结构化的图像表示，所述结构化的图像表示将所述结构化的语义知识中所包括的单个主语文本特征和宾语文本特征与在所述输入图像中包括的所述对象的至少一个图像特征显式地相关，包括：

通过使用将与所述主语文本特征相关联的类标签标识为对应于所述主语文本特征的分级将所述主语文本特征映射到所述类标签，来标识所述类标签；

通过确定所述图像的对应于所述宾语文本特征的一部分与所述至少两个边界框中的每个相应的边界框之间的相应距离，来确定所述至少两个边界框中的与所述主语文本特征相对应的一个边界框，并且基于与所述一个边界框相关联的所述距离小于阈值距离来将所述一个边界框选择为与所述主语文本特征相对应；以及

基于所述一个边界框来将所述单个主语文本特征和所述宾语文本特征局部化到所述输入图像。

6.根据权利要求5所述的方法，其中与所述图像关联的所述文本是自由形式并且是非结构化的。

7.根据权利要求6所述的方法，其中所述文本是相应的所述图像的说明或者元数据。

8.根据权利要求5所述的方法，其中所述结构化的语义知识包括<主语，定语>元组或者<主语，谓语，宾语>元组。

9.根据权利要求5所述的方法，其中使用所述模型包括在针对与所述类标签相关联的宾语的图像区域上运行至少一个对象检测器。

10.根据权利要求5所述的方法，其中所述模型采用主语和宾语的预定义的类以及所述图像的分别包括所述主语和所述宾语的关联图像区域。

11.根据权利要求10所述的方法，其中执行使用所述模型以将已经被局部化的主语和对象的所述预定义的类的出现视为指示所述结构化的语义知识的相应的项目描述在相应的所述图像中包括的场景的全部。

12.根据权利要求10所述的方法，其中如果在所述图像中的至少一个图像中存在对于用于主语的相应的所述主语类的单个出现和对于用于宾语的相应的宾语类的单个出现，则所述结构化的语义知识的对应项目与所述至少一个图像的区域关联，所述区域包括所述图像的具有所述主语和所述宾语的各部分。

13.根据权利要求5所述的方法，其中存在与所述主语文本特征相对应的多个主语类边界框和与所述宾语文本特征相对应的多个宾语类边界框，所述局部化还包括使用相对位置信息来选择一对主语类边界框和宾语类边界框。

14.一种在数字媒体环境中的由至少一个计算设备实施的系统，所述数字媒体环境用于自动地和无用户干预地学习可用来计算在输入图像内的对象、属性和所述对象如何相互交互的描述性概括的模型，所述系统包括：

用于由所述至少一个计算设备将在相应的图像内的图像特征局部化为与结构化的语义知识的文本特征相对应的部件，所述结构化的语义知识使用自然语言处理从与所述相应的图像相关联的文本而被提取；以及

用于由所述至少一个计算设备使用局部化的所述图像和所述文本特征来训练模型作为机器学习的部分的部件；以及

用于使用所述模型来形成所述输入图像的结构化的图像表示的部件，所述结构化的图像表示将所述结构化的语义知识中所包括的单个主语文本特征和宾语文本特征与在所述输入图像中包括的所述对象的至少一个图像特征显式地相关，包括：

用于通过使用将与所述主语文本特征相关联的类标签标识为对应于所述主语文本特征的分级将所述主语文本特征映射到所述类标签来标识所述类标签的部件；

用于在与所述类标签相关联的所述输入图像中获得至少两个边界框的部件；

用于通过确定所述图像的对应于所述宾语文本特征的一部分与所述至少两个边界框中的每个相应的边界框之间的相应距离来确定所述至少两个边界框中的与所述主语文本特征相对应的一个边界框、并且基于与所述一个边界框相关联的所述距离小于阈值距离来将所述一个边界框选择为与所述主语文本特征相对应的部件；以及

用于基于所述一个边界框来将所述单个主语文本特征和所述宾语文本特征局部化到所述输入图像的部件。

15.根据权利要求14所述的系统，其中所述宾语文本特征是单个宾语文本特征，与所述单个宾语文本特征相关联的所述输入图像中的一组边界框包括至少两个边界框，并且其中所述确定还包括：

确定所述图像的对应于所述主语文本特征的一部分与所述至少两个边界框中的每个相应的边界框之间的相应距离；以及

基于所述相应距离小于阈值距离来将所述一组边界框中的所述至少两个边界框中的与所述宾语文本特征相关联的一个边界框选择为与所述单个宾语文本特征相对应。

16.根据权利要求14所述的系统，其中所述结构化的语义知识包括<主语，定语>元组或者<主语，谓语，宾语>元组。