CN109388723A

CN109388723A - 基于内容的图像管理和选择

Info

Publication number: CN109388723A
Application number: CN201810902825.0A
Authority: CN
Inventors: 迪维亚·拉梅什; 布拉德·福尔肯斯
Original assignee: Cloud Vision Corp
Current assignee: Cloud Vision Corp; CloudSight Inc
Priority date: 2017-08-10
Filing date: 2018-08-09
Publication date: 2019-02-26
Also published as: CA3012647A1

Abstract

本公开的实施例涉及基于内容的图像管理和选择。包括图像和相关联文本两者的、所发表的多媒体被用来训练神经网络或其他机器学习系统。神经网络被训练，以促进其他图像的标识和选择，用于与其他文本相关联，并随后在多媒体中一起发表。神经网络可选地被配置为接收文本或其表示，并生成图像特征向量作为响应。实施例包括经训练的神经网络的使用，以选择用于在多媒体中发表的图像。

Description

基于内容的图像管理和选择

相关申请的交叉引用

本申请要求于2017年8月10日提交的美国临时专利申请序列号62/543,771和于2018年7月3日提交的美国非临时专利申请序列号16/027,156的优先权，其公开内容由此通过引用并入本文。

技术领域

本发明属于多媒体内容生成领域，并且更具体地，属于针对经混合的媒体内容的图像选择领域。

背景技术

通常期望将图像和文本组合，以产生用于向第三方分布的内容。例如，多媒体内容(诸如，博客、网页、文章、广告等)的制作者通常需要图像来伴随他们的文字。图像(静止和视频)可从照片贮存公司获得，诸如Getty Images公司。然而，大量图像可以使得难以为给定项目选择最合适的图像。

发明内容

本发明的各种实施例被配置为观察图像如何被第三方使用，并且训练机器学习系统，以基于这些观察更好地搜索和选择图像。一旦机器学习系统被训练，来自多媒体内容的文本样本就可以被用来搜索可能与该文本一起被使用的图像。该搜索可选地还基于一个或多个关键词。对图像的搜索可以基于文本的大量部分，例如整个句子、段落或更多。相对于基于简单关键词搜索的结果，这通常产生更好地匹配文本主题的搜索结果。第三方对图像的使用可以包括：在博客、网页、广告、文章和/或其他多媒体内容中的使用。

在一些实施例中，自动化的图像选择系统被配置为分析文本，并选择一个或多个图像，以在包括文本和所选图像中的至少一个图像两者的混合媒体内容中发表。该选择基于文本的处理和与图像相关联的属性向量。自动化的图像选择系统可选地包括图像标签系统。

本发明的各种实施例包括一种图像管理系统，其包括：图像库；图像搜索系统，被配置为供第三方从图像库中选择第一图像，该图像搜索系统包括神经网络；图像分布系统，被配置为用于将所选择的第一图像递送给第三方；跟踪逻辑，被配置为跟踪在多媒体内容中所选择的第一图像的包含，多媒体内容包括所选择的第一图像和第一文本两者；文本提取逻辑，被配置为从多媒体内容中提取第一文本；以及训练逻辑，被配置为训练神经网络以基于第二文本选择第二图像，该训练基于所提取的第一文本和第一图像之间的关联。

本发明的各种实施例包括提供图像的方法，该方法包括：可选地向第三方提供图像(或者备选地，在网页、博客、文章、广告等上定位将由第三方使用的图像)；标识被第三方关联于图像的文本，文本和图像被包括在多媒体中，文本可选地包括句子、段落或更大的文本块；可选地应用自然语言处理器来标识和/或表征文本的部分；使用图像和被标识的文本来训练神经网络，神经网络被训练以标识可能与文本输入一起被使用的图像；从外部源接收文本输入；基于所接收到的文本输入，使用神经网络搜索一个或多个图像，搜索可选地进一步包括将关键词与图像标签匹配；以及将搜索中所标识的一个或多个图像提供给外部源。

本发明的各种实施例包括用于选择图像的系统，该系统包括：文本解析器，被配置为标识文本内的标记；文本分析逻辑，被配置为基于所标识的标记来标识文本的主题；图像搜索逻辑，被配置为使用文本的主题来搜索图像标签的存储，图像标签与图像相关联，并且搜索被配置为标识图像标签中与文本主题匹配的那些成员；以及图像取回逻辑，被配置为取回与所标识的图像标签的成员相关联的一个或多个图像。

本发明的各种实施例包括一种创建混合媒体内容的方法，该方法包括：接收多个图像；为每个图像生成至少一个图像标签，该图像标签表征相应图像的内容；接收文本；解析文本以确定文本的主题；搜索图像标签以标识图像标签中与文本主题匹配的成员；取回至少一个由所标识的成员表征的图像；以及将至少一个图像和文本放置在混合媒体内容中。

附图说明

图1示出了根据本发明的各种实施例的图像管理系统。

图2示出了根据本发明的各种实施例的图像选择系统。

图3示出了根据本发明的各种实施例的管理图像的方法。

具体实施方式

图1图示了根据本发明的各种实施例的图像管理系统100。图像管理系统100的元件可选地分布在多个计算设备中。图像管理系统100包括图像库110。图像库110是可以被免费使用或被用于交换支付费用或其他考虑因素的图像库。这样的图像库有时由诸如GettyImages的第三方图像经销商提供和/或管理，并且因此可选地在图像管理系统100外部。图像库110内的图像可选地由表示图像内容的单词或其他标记来标识。这些标签可以由图像源提供，例如摄影师。备选地，标签可以由专用图像标签系统提供，诸如美国专利9,665,595中和本文引用的其他专利或专利申请中所描述的。标签可以包括诸如“猫”或“订书机”之类的单词。备选地，标签可以包括由机器学习系统生成的属性向量。图像库110可以包括来自不同图像源的多于一个图像库。

图像管理系统100包括图像搜索系统115。图像搜索系统115被配置为供第三方从图像库中选择第一图像。例如，图像搜索系统115可以被配置为供多媒体内容的创建者搜索图像，该图像与创建者对于包括文本、并且搜索到的图像将被添加到其中的内容的特定需求匹配。图像搜索系统115包括经训练的神经网络。如本文其他地方所讨论的，该神经网络使用训练逻辑135来训练。

神经网络被训练，以接收搜索文本，并促进基于所接收的搜索文本从图像库110中选择一个或多个图像。所接收的搜索文本可以包括多于仅几个关键词，例如它可以包括整个短语、句子、段落或更大的文本块。图像搜索系统115被配置为标识可能与多媒体中的特定文本结合使用的图像。

搜索文本可以包括多媒体内容中的文本子集。由此，多媒体内容内的文本的不同部分可以被用来搜索不同的图像。图像搜索系统115可选地被配置为在使用文本来搜索图像之前结构化、标记化搜索文本和/或将自然语言处理器应用于搜索文本。自然语言处理器可选地被包括作为图像搜索系统115的神经网络的一部分，或作为外部神经网络的一部分。在说明性示例中，多媒体的发表者可以向图像搜索系统115提供一段文本。该文本使用自然语言处理器被标记化或向量化，并且标记被提供给图像搜索系统115。图像搜索系统115的输出可选地是可以被用来搜索图像库110内的图像的属性向量。属性向量可以包括图像特征、关键词、所有权、大小、源、日期、位置、分辨率和像素深度等的表示。例如，在一些实施例中，属性向量可以包括使用神经网络和/或标准算法(诸如SURF、ORB、SIFT、BRIEF或KAZE)提取的特征向量。这种特征向量可以包括许多描述符。如本文所使用的，术语“属性向量”旨在包括现有技术中所理解的“特征向量”(例如，参见https://brilliant.org/wiki/feature-vector/)以及图像或图像序列的其他属性。

在一些实施例中，图像搜索系统115被配置为使用关键词和较大的文本块来搜索图像。例如，通过将关键词与图像标签匹配，关键词可以首先被使用来选择图像集。然后，较大的文本片段和神经网络可以被使用来标识该图像集的子集。例如，“雪佛兰伏特”可以被用来选择包括特定汽车模型的图像集。然后所选择的集可以使用整个文本段落来进一步被过滤，以标识适合于该段落的雪佛兰伏特的一个或多个图像。备选地，较大的文本片段和神经网络可以首先被应用，然后是关键词和图像标签被用于进一步缩小搜索结果范围。可选地，基于关键词的搜索是使用简单匹配算法进行的，而基于较大文本片段的搜索是使用神经网络进行的。

图像搜索系统115的神经网络被配置为接收文本，并输出图像特征(例如，属性向量或特征向量)集，该图像特征集表征将与文本良好匹配的图像。然后这些图像特征被用来搜索具有类似特征的图像。特别地，在一些实施例中，图像搜索系统115的神经网络被配置为接收文本作为输入。可选地，该文本可以已经被预处理，以标识结构元素和标记。所接收的文本被用来生成对应的图像特征集，该图像特征集可以被用来搜索匹配的图像。

在各种实施例中，神经网络还被配置为附加地接收图像。可选地，该图像可以已经被预处理，以标识图像内的对象、结构和/或特征(例如，属性向量或特征向量)。在这些实施例中，神经网络的输出可选地是表示图像和文本之间的匹配的值。

图像管理系统100可选地进一步包括图像分布系统120。图像分布系统120被配置为用于将所选择的图像递送给第三方。图像分布系统120的示例包括图像订阅服务，诸如那些由Getty Images公司提供的图像订阅服务。图像分布系统120进一步可以包括图像搜索接口，在图像搜索接口中用户可以向图像搜索系统115提供文本、图像和/或图像特征。文本可以通过提供指向文本的链接或URL、通过在输入字段中输入文本、通过上载文件等来提供。图像分布系统120的部分可选地在图像管理系统100外部。

图像分布系统120可选地被配置为：将唯一标识符添加到分布式图像和/或请求将会包括分布式图像的多媒体内容的地址。例如，图像分布系统120可以被配置为将数字水印添加到图像。水印被配置为标识图像。在一些实施例中，图像可以被许可用于特定可标识的多媒体，例如可寻址博客或网站。

图像管理系统100可选地包括跟踪逻辑125，其被配置为跟踪在多媒体内容中所选择的第一图像的包含。多媒体内容包括被跟踪的图像和与图像相关联的文本两者。相关联的文本可以是用于选择图像的文本，和/或通过一起被发表在多媒体内容中而与该图像相关联的文本。例如，跟踪逻辑125可以标识已经被多媒体发表者关联于图像的文本。然后，该关联可以被用来进一步训练被包括在图像搜索系统115中的神经网络。

跟踪逻辑125可以通过在因特网上搜索第一图像和文本，通过检测唯一标识符，通过从第三方接收链接或URL等来进行操作。在一些实施例中，跟踪逻辑125被配置为管理一个或多个网络爬行器，一个或多个网络爬行器被配置为在因特网上查找图像。网络爬行器和/或跟踪逻辑125可选地被配置为确认图像根据许可条款被使用，和/或标识可以被用来训练图像搜索系统115的神经网络的文本和图像之间的关联。被用于训练的关联不需要包括使用图像标识符而被跟踪的图像。例如，跟踪逻辑125可以仅包括网络爬行器，其被配置为标识适合于神经网络训练的多媒体因特网内容。

图像管理系统100可选地进一步包括文本提取逻辑130，其被配置为从多媒体内容中提取文本，该多媒体内容被发现包括使用跟踪逻辑125而被标识和/或跟踪的图像。例如，如果图像在特定博客或网站上被找到，则文本提取逻辑130可以从该博客或网站提取文本。文本提取逻辑130可选地被配置为标识与图像最密切相关的文本子集。例如，文本提取逻辑130可以被配置为标识网站内特定地引用图像的文本，和/或置于图像附近的文本、或置于引用图像的文本的附近的文本。在一个实施例中，文本提取逻辑130被配置为标识引用图像的文本，然后提取包括该文本的整个段落，或者与该引用相邻的1至5个句子。在说明性示例中，专门用于笔记本电脑设计的网页可以具有不同特征的描述，诸如屏幕亮度、电池寿命、键盘设计等。文本提取逻辑130可以被配置为标识和提取该网页内的文本，该文本特定地与键盘设计相关，并且与键盘的图像相关联。文本提取逻辑130可选地被配置为使用图像标签来促进该标识。

图像管理系统100包括训练逻辑135，其被配置为训练神经网络，以促进基于文本选择图像和/或生成指示图像与文本匹配程度的值。该训练旨在提高神经网络标识最可能关联于文本而被使用的图像的能力。训练通过向训练逻辑135提供图像和相关联的文本的样本而进行。可选地，训练通过提供被发现与在网站、博客或其他因特网源上的文本相关联的图像来执行。例如，由分布系统120提供的图像随后可以通过在因特网上发表的多媒体中找到(使用跟踪逻辑125)。该多媒体内的文本使用文本提取逻辑130来提取。所提取的文本和相关联的图像然后被训练逻辑135用来训练神经网络，该神经网络可以被包括在图像搜索系统115中。训练的目标可以是进化神经网络，以生成更好地匹配相关联图像的属性向量和/或特征向量的属性向量和/或特征向量。

因此，在一些实施例中，图像管理系统100被配置为通过跟踪或标识因特网或其他网络上图像的使用、标识关联于所跟踪或所标识的图像而被使用的文本来训练神经网络，然后使用相关联的所标识的文本和图像来训练神经网络。

图像管理系统100可选地包括图像标签系统140，其被配置为将图像标签与图像库内的图像相关联。这些图像标签可以包括关键词、属性向量和/或特征向量，并且可选地被用于图像库110内的图像搜索，如本文其他地方所述。图像标签系统140可选地在图像管理系统100外部。图像标签系统140可选地包括在美国专利9,665,595、9,959,467、9,639,867、9,830,522、9,575,995、9,569,465和其继续申请(或部分继续申请)中描述的系统中的一个或多个系统。这些专利和专利申请的公开内容从而通过引用并入本文。

图像管理系统100可选地进一步包括确认逻辑145。确认逻辑145被配置为确定在多媒体内容中被跟踪/找到的图像的包含是否被授权。例如，如果来自图像库110的、由跟踪逻辑125跟踪的图像包括唯一标识符并且在特定网站中被找到，则确认逻辑145可以确认：在该网站中的包含并未违反许可或使用协议。

网络190可以被用来提供图像管理系统100、第三方客户端设备150和/或图像标签系统140的外部实施例之间的通信。网络190可以包括因特网、局域网、专用网络、无线网络、蜂窝网络和/或类似网络。客户端设备150被单独标示为150A、150B等。

图2图示了根据本发明的各种实施例的图像选择系统200。图像选择系统200被配置用于从诸如图像库110的图像库中选择图像。该选择基于被接收用于生成神经网络的输出的文本。可选地，该选择进一步基于所接收的关键词。例如，关键词可以被用来首先选择来自图像库110的初始图像集，然后该初始集的子集可以使用更大量的文本和神经网络来选择。神经网络可选地使用图像管理系统100来训练。

图像选择系统200包括在本文其他地方讨论的图像库110或对其的访问。可选地，图像库110内的图像与属性向量、图像特征向量、关键词、和/或类似物相关联地被存储。图像库110可以由第三方管理，和/或其中的图像可以受许可条款的约束。

图像选择系统200包括接口逻辑210，其被配置为从用户接收搜索文本。该搜索文本可以经由文本输入字段、文本编辑器接收或从多媒体发表应用程序自动接收。所接收的文本可以包括短语(例如，至少3、5或10个单词的短语，诸如题目或标题)、句子、两个或更多个句子、段落(例如，两个或更多个相关句子)、章节、文章、网页和/或类似物。在一些实施例中，接口逻辑210还被配置为接收与搜索文本分离的一个或多个关键词。接口逻辑210可选地被配置为向用户提供用户接口，该用户接口被配置为供用户提供文本和/或关键词。用户接口还可以被配置为供用户从图像库110中取回的一个或多个图像中选择图像。在一些实施例中，用户接口包括被配置为自动执行步骤的控件。例如，基于用户提供的文本自动选择一个或多个图像，并将该一个或多个图像呈现给用户。用户接口可以包括控件，该控件被配置为供用户标识文本内的、放置一个或多个取回的图像的位置。

例如，接口逻辑210可以具有文本字段以接收完整段落：

白烟的烟雾变得稍微厚一些，随着白烟从他的肺的内部深处被挤压，穿过他的嘴唇出来，然后进入鹿特丹港的凉爽的夜晚空气中，海军上将Cor Boonsrta，一个头发灰白的高个子男人，在一个十米长的旧木码头上慢慢地上下踱步，研究锚泊货船的线路，在他等待Rob Kypers到来的时候深深地抽着一根玩家牌雪茄。

接口逻辑210还具有文本字段以接收1至5个关键词，诸如“雾”、“港口”和“夜晚”。如本文其他地方另外描述的，关键词“雾”、“港口”和“夜晚”可以被用来选择与类似图像标签相关联的初始图像集，然后该完整段落可以被用来使用神经网络从该初始集中选择图像，神经网络使用图像管理系统100来训练。

在一些实施例中，接口逻辑210包括文本编辑器、网络发表工具等的插件。在这些实施例中，多于几个关键词的文本可以自动地由接口逻辑210接收。例如，文本块可以被突出显示，并使用右键单击菜单向接口逻辑210发送。

图像选择系统200可选地进一步包括文本解析器220，其被配置为解析经由接口逻辑210从用户接收的文本。在一些实施例中，文本解析器220被配置为利用文本来标识标记，例如特定单词或短语、标点符号、结构和/或在自然语言处理中可以被用来解释文本的含义的其他对象。文本解析器220可以被配置为生成表示内容和/或文本含义的文本特征向量，和/或生成表示所接收到的文本的标记集。

图像选择系统200进一步包括神经网络230，其被配置为(例如，被训练)接收从接口逻辑210接收的、基于文本和/或关键词的输入。神经网络230可以被配置为接收以下作为输入：不加改变的文本、表示接收到的文本的标记、使用文本解析器220标记化的文本、使用文本解析器220生成的文本特征向量、关键词、和/或类似物。神经网络230可以被配置为接收包括多于一个句子的文本。可选地，神经网络230使用图像管理系统100和/或使用本文描述的方法来训练。

神经网络230的输出可以包括关键词、图像特征向量和/或通过其可以表征和/或搜索图像的其他标准。由此，在一些实施例中，神经网络230被配置为将文本特征向量转换为图像特征向量。

图像选择系统200进一步包括图像搜索逻辑240。图像搜索逻辑240被配置为通常使用神经网络230来搜索图像库110，以得到期望的图像。该搜索可以是增量的，并且可以基于神经网络230的任何可能输入。例如，图像搜索逻辑240可以被配置为：通过提供文本作为神经网络230的输入并从神经网络230接收回图像特征向量来标识图像库110内的图像集。然后，所接收的图像特征向量被与图像库110内的图像相关联的图像特征向量作比较。然后，图像特征向量与所接收的图像特征向量最接近的那些图像被标识，作为图像搜索逻辑240的输出。

图像搜索逻辑240可以被配置为执行增量搜索，其中第一图像集使用第一标准来选择/标识，然后该第一图像集的子集使用第二标准来选择/标识。第一标准和第二标准可以包括关键词、属性向量、图像特征向量、分类等的任何组合。例如，第一标准可以包括免版税并且匹配关键词“羽毛”的图像，而第二标准可以包括使用神经网络230从文本特征向量生成的图像特征向量。第二标准集可以包括比第一标准集更大量的文本。例如，第一标准可以包括一个或多个关键词，并且第二标准集可以包括含至少三个单词的短语，该短语具有比一个或多个关键词更大量的文本。

与图像库110内的图像相关联的图像特征向量可以在从神经网络230接收图像特征向量之前被计算，并且关联于相应图像而被存储，或者可以响应于从神经网络230接收图像特征向量而被计算，并临时被存储。例如，如果关键词首先被用来选择图像库110内的初始图像集，则这些图像的图像特征向量可以在选择初始集之后被计算。

图像选择系统200进一步包括图像取回逻辑250。图像取回逻辑250被配置为从图像库110取回所选择/标识的图像，并将取回到的图像提供给用户。例如，图像可以被提供给多媒体发表工具。一次可以取回一个、两个或更多个图像。在一些实施例中，图像的取回需要许可的支付。

在各种实施例中，图像选择系统200可选地进一步包括图像分布系统120、图像标签系统140和/或确认逻辑145。图像选择系统210的一个或多个元件可选地被包括在图像管理系统100中。

图3图示了根据本发明的各种实施例的管理图像的方法。这些方法包括两个阶段，其可选地被分离地执行。在第一阶段中，神经网络基于与所发表的多媒体中的文本相关联的图像的实际使用来训练。在第二阶段中，经训练的神经网络被用来基于作为搜索输入的文本搜索图像。搜索输入可以包括含三个或更多个单词的短语、至少一个句子、段落或更大的文本块。搜索输入可选地进一步包括一个或多个关键词。被标识和选择作为搜索结果的图像旨在适于(例如，期望的或优选的)与文本搜索输入一起被包含在多媒体中。

在可选的提供图像步骤310中，图像被提供给第三方，例如，被提供给多媒体的发表者。所提供的图像可以从商业图像源被提供，诸如Getty Images或提供图像步骤310可以包括跟踪所提供的图像在所发表的多媒体内的使用。例如，所提供的图像可以包括唯一标识符，并且该标识符可以在所发表的多媒体内由网络爬行器检测。

在标识多媒体步骤320中，包括文本和图像的多媒体被标识。该多媒体可以在网站、博客、文章、广告或类似物上发表。图像可以是在提供图像步骤310中所提供的图像，或者是来自一些其他源的图像。例如，在标识多媒体步骤320中，网络爬行器可以被用来搜索多媒体内容，该多媒体内容包括文本和与文本相关联的一个或多个图像两者。与图像相关联的文本优选地至少包括含至少三个、五个或10个单词的短语、句子、段落或更大的文本块。在一些示例中，与图像相关联的文本包括标题或题目，或者被包括在置于靠近多媒体内的图像处的段落内。标识多媒体步骤320包括从多媒体中取回文本以及与文本相关联的至少一个图像二者。

在可选的应用NLP(自然语言处理)步骤330中，被取回的文本例如使用文本提取逻辑130来处理。处理的结果可以包括对文本内的结构、标记或对象的标识，或者可以通过对文本的自然语言处理而产生的文本的其他特性。在一些实施例中，应用NLP步骤330包括表征取回的文本的属性向量或文本特征向量的生成。这可选地使用神经网络或文本解析器220来完成。

在训练步骤340中，神经网络(例如神经网络230)使用取回的图像和相关联文本来训练。训练可选地使用训练逻辑135来完成。相关联文本可以已经在应用NLP步骤330中被处理，或者可以不加改变地被使用。在一些实施例中，训练步骤360包括确定针对取回的图像的图像特征向量。然后，神经网络的训练可以通过以下进行：通过提供相关联的文本(或其表示)作为神经网络的输入，并且调整神经网络的系数/权重从而使得神经网络的输出与取回的图像的图像特征向量匹配。该过程可以针对大量图像/文本对而被重复，以便训练神经网络来产生输出，该输出可以被用来标识适合于与多媒体中的文本相关联使用的图像。

在接收文本步骤350中，文本从外部源被接收。所接收的文本可以包括含三个或更多个单词的短语、至少一个句子、段落或更大的文本块。文本可以从远程客户端(诸如客户端设备150A)和/或从多媒体发表应用程序被接收。文本可以经由网络190被接收。

接收文本步骤350可选地进一步包括单独从外部源接收关键词。

在搜索步骤360中，在接收文本步骤350中接收的文本，以及可选地，关键词被用来搜索一个或多个图像，图像适合于与接收的文本在多媒体中一起使用。例如，如果所接收的文字包括“白烟的烟雾变得稍微厚一些，随着白烟从他的肺的内部深处被挤压”，合适的图像可以包括肺部里的烟雾或人喷吐烟雾的图像。如果关键词“码头”和“船”在接收文本步骤350中也被接收到，则合适的图像可以包括一张包括人在码头上吸烟的图像。

搜索步骤360可选地使用图像搜索逻辑240来执行，并且可以包括将应用NLP步骤330应用于在接收文本步骤350中接收的文本。具体地，搜索步骤360可选地包括使用文本解析器220将接收到的文本转换为文本特征向量，向神经网络230提供文本特征向量以生成图像特征向量，以及使用图像搜索逻辑240搜索图像库110以寻找与图像特征向量匹配的图像。

在提供步骤370中，在搜索步骤360中所选择/标识的一个或多个图像被提供给远程目的地，例如，客户端设备150A和/或在接收文本步骤350中接收的文本源。提供步骤370可选地使用图像取回逻辑250来执行。

接收文本步骤350、搜索步骤360和提供步骤370可选地独立于图3的其他步骤而被执行。例如，如果神经网络230的经训练的实例可用，则步骤310至步骤340是可选的。

图像搜索系统115、图像分布系统120、图像标签系统140和图像选择系统200包括被存储在非暂时性计算机可读介质上的硬件、固件和/或软件。同样地，本文公开的“逻辑”包括被存储在非暂时性计算机可读介质上的硬件、固件和/或软件。该逻辑可以在电子电路中被实现，以产生专用计算系统。

若干实施例在本文中被具体示出和/或描述。然而，应当理解，在不脱离本发明的精神和预期范围的情况下，修改和变型由上述教导涵盖，并且在所附权利要求的范围内。例如，虽然本文提供的示例专注于使用文本作为搜索输入来标识适于与文本一起使用的图像，但是在备选实施例中，第一图像可以被用作搜索输入，以标识附加的相关图像。在这些实施例中，两个或更多个图像特征向量可以被提供给神经网络230，并且作为输入的卷积的图像特征向量被生成作为输出。该输出可以被用来在图像库110中搜索附加图像。本文讨论的图像可选地被包括在视频中。图像特征向量可以包括序列中的图像之间的关系。

本文讨论的实施例是对本发明的说明。由于本发明的这些实施例参考图示被描述，对所描述的方法和/或具体结构的各种修改或适应对于本领域技术人员而言可以变得显而易见。依赖于本发明的教导并且通过其，这些教导使本领域技术发展的所有这些修改、适应或变型被认为是在本发明的精神和范围内。因此，这些描述和附图不应当被认为是限制性的，因为应当理解，本发明绝不仅限于所图示的实施例。

本文所指的计算系统可以包括集成电路、微处理器、个人计算机、服务器、分布式计算系统、通信设备、网络设备等、以及上述各项的各种组合。计算系统还可以包括易失性和/或非易失性存储器，诸如随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、磁介质、光介质、纳米介质、硬盘驱动器、光盘、数字通用光盘(DVD)和/或被配置用于存储模拟或数字信息的其他设备，诸如在数据库中。上文提到的逻辑的各种示例可以包括硬件、固件或存储在计算机可读介质上的软件、或者其组合。本文中使用的计算机可读介质明确排除纸张。本文中提到的方法的计算机实现的步骤可以包括存储在计算机可读介质上的指令集，该指令集在被执行时使得计算系统执行这些步骤。被编程为依照来自程序软件的指令执行特定功能的计算系统是用于执行那些特定功能的专用计算系统。由专用计算系统在执行这些特定功能时操纵的数据至少被电子地保存在计算系统的缓冲器中，以在所存储的数据每次改变时，将专用计算系统从一种状态物理地改变为下一种状态。

Claims

1.一种图像管理系统，包括：

图像库；

图像搜索系统，被配置为供第三方从所述图像库选择第一图像，所述图像搜索系统包括神经网络；

图像分布系统，被配置为用于向所述第三方递送所选择的所述第一图像；

跟踪逻辑，被配置为跟踪所选择的所述第一图像在多媒体内容中的包含，所述多媒体内容包括所选择的所述第一图像和第一文本两者；

文本提取逻辑，被配置为从所述多媒体内容中提取所述第一文本；以及

训练逻辑，被配置为训练所述神经网络以基于第二文本选择第二图像，所述训练基于所提取的所述第一文本和所述第一图像之间的关联。

2.根据权利要求1所述的系统，其中所述图像搜索系统进一步被配置为基于由所述第三方提供的关键词、以及所述关键词和与所述第一图像相关联的图像标签之间的匹配来选择所述第一图像。

3.根据权利要求1所述的系统，其中所述第一图像与一个或多个图像标签和图像特征向量相关联。

4.根据权利要求1所述的系统，进一步包括图像标签系统，所述图像标签系统被配置为基于所述第一图像的内容来生成图像标签。

5.根据权利要求1所述的系统，所述跟踪逻辑进一步被配置为搜索因特网以标识所述第一图像的使用。

6.根据权利要求1所述的系统，进一步包括确认逻辑，所述确认逻辑被配置为确定所述第一图像在所述多媒体内容中的包含是否被授权。

7.根据权利要求1所述的系统，其中所述文本提取逻辑进一步被配置为：标识所述多媒体内容中与所述第一图像最密切关联的文本子集，所述多媒体内容包括多于一个图像。

8.一种图像管理系统，包括：

图像库；

图像搜索系统，被配置为从所述图像库选择第一图像，所述图像搜索系统包括神经网络；

跟踪逻辑，被配置为标识被包括在多媒体内容中的一个或多个图像，并且标识所述多媒体内容内与所标识的所述图像相关联的文本子集；

文本提取逻辑，被配置为从所述多媒体内容中提取所述文本子集；以及

训练逻辑，被配置为训练所述神经网络，以基于第二文本选择第二图像，所述训练基于所提取的所述文本子集和被包括在所述多媒体内容中的所述一个或多个图像之间的关联，其中所述神经网络被训练以基于文本输入生成属性向量。

9.根据权利要求8所述的系统，其中所述神经网络被配置为接收所述文本子集作为输入，并且响应于该输入生成图像特征向量作为输出，所述图像库是使用所述图像特征向量可搜索的。

10.根据权利要求9所述的系统，其中所述库是使用所述图像特征向量和关键词两者可搜索的。

11.根据权利要求8所述的系统，进一步包括所述神经网络，其中所述图像搜索系统被配置为：响应于接收到的文本，至少使用由所述神经网络生成的图像特征向量来搜索所述图像库，所述搜索导致所述图像库内的一个或多个图像的标识；以及

图像取回逻辑，被配置为从所述图像库中取回所述一个或多个图像。

12.根据权利要求11所述的系统，其中所述图像搜索系统进一步被配置为：使用关键词搜索所述图像库以标识图像集，并且所标识的所述一个或多个图像是所述图像集的子集。

13.一种图像选择系统，所述系统包括：

图像库；

接口逻辑，被配置为接收文本，其中所述文本至少包括三个单词的短语；

神经网络，被配置为基于所接收的所述文本至少生成图像特征向量；

图像搜索逻辑，被配置为通过将由所述神经网络生成的所述图像特征向量与表征第一图像集的成员的、所存储的特征向量进行比较，基于所述图像特征向量来标识所述第一图像集；以及

图像取回逻辑，被配置为从所述图像库取回所述第一图像集。

14.根据权利要求13所述的系统，进一步包括文本解析器，所述文本解析器被配置为标识文本内的标记，其中所述神经网络被配置为接收所述标记作为输入。

15.根据权利要求13所述的系统，进一步包括文本解析器，所述文本解析器被配置为基于所接收的所述文本来生成文本特征向量，其中所述神经网络被配置为接收所述文本特征向量作为输入。

16.根据权利要求13所述的系统，其中所述文本至少包括含多于一个句子的段落。

17.根据权利要求13所述的系统，其中所述图像搜索逻辑进一步被配置为基于一个或多个关键词来标识所述图像库内的第二图像集，所述第一图像集是所述第二图像集的子集，并且所述接口逻辑进一步被配置为接收所述一个或多个关键词。

18.一种提供图像的方法，所述方法包括：

标识与被发表的多媒体内的图像相关联的文本，所述文本至少包括句子、段落或更大的文本块；

使用所述图像和所标识的文本来训练神经网络，所述神经网络被训练，以产生能用于标识适于在多媒体中使用的图像的输出，所述使用与所述多媒体内的文本相关联；

从外部源接收文本输入；

基于所接收的所述文本输入，使用经训练的所述神经网络来搜索一个或多个图像；以及

将所述搜索中被标识的一个或多个图像提供给所述外部源。

19.根据权利要求18所述的方法，进一步包括将所述图像提供给第三方，并跟踪由所述第三方在所发表的所述多媒体内对所述图像的使用。

20.根据权利要求18所述的方法，进一步包括应用自然语言处理器来标识或表征所标识的所述文本的部分，以生成文本特征向量。

21.根据权利要求18所述的方法，进一步包括从所述外部源接收关键词，其中搜索所述一个或多个图像进一步包括：使用所述关键词来标识所述一个或多个图像。

22.根据权利要求18所述的方法，其中搜索所述一个或多个图像包括：从所接收的所述文本输入生成图像特征向量，并将所生成的所述图像特征向量与所存储的、与被包括在图像库中的图像相关联的图像特征向量进行比较。

23.根据权利要求18所述的方法，其中搜索所述一个或多个图像包括：从所接收的所述文本输入生成文本特征向量，并将所述文本特征向量提供给经训练的所述神经网络。

24.根据权利要求18所述的方法，其中所述图像是视频的一部分。