CN111259185B

CN111259185B - 文本域图像检索系统和方法

Info

Publication number: CN111259185B
Application number: CN201911051551.XA
Authority: CN
Inventors: A·彭塔; M·F·扎曼
Original assignee: Accenture Global Solutions Ltd
Current assignee: Accenture Global Solutions Ltd
Priority date: 2018-12-03
Filing date: 2019-10-31
Publication date: 2023-10-13
Anticipated expiration: 2039-10-31
Also published as: JP2022103227A; US11080324B2; JP2020115321A; EP3663936A3; US20200175061A1; EP3663936A2; CN111259185A

Abstract

本公开的实施例涉及文本域图像检索。图像检索系统可以接收包括图像数据的图像查询。图像检索系统可以基于图像数据确定图像描述符。图像检索系统可以获得与描述符存储库中的图像描述符相关联的文本描述符。图像检索系统可以生成包括搜索参数的文档查询，该搜索参数包括文本描述符。图像检索系统可以基于文档查询在文档数据库中标识文本文档。文本文档可以与文档标识符相关联。图像检索系统可以从文件映射存储库中获得与文档标识符相关联的图像标识符。来自图像检索系统的图像查询结果可以引用与图像标识符相关联的图像。

Description

文本域图像检索系统和方法

技术领域

本公开涉及图像处理，更具体地涉及图像检索和计算机视觉。

背景技术

图像检索涉及基于搜索标准标识图像。在一些图像检索方法中，图像用描述性元数据进行注释。元数据可以基于搜索标准中所包括的关键词被搜索以标识图像。在基于内容的图像检索方法中，可以比较输入图像与存储在一个或多个大型数据库中的历史图像数据。图像结果可以通过像素比较、特征比较和/或其他计算机视觉技术被制定。

附图说明

参考以下附图和描述可以更好地理解实施例。图中的组件不一定按比例绘制。此外，在附图中贯穿不同的视图，相同的附图标记指代对应的部分。

图1图示了图像检索系统的第一示例；

图2图示了图像检索系统的第二示例。

图3图示了系统逻辑示例的流程图；

图4图示了系统逻辑的第二示例的流程图；

图5图示了系统100的逻辑的第三示例的流程图；以及

图6图示了计算机执行环境示例的流程图。

具体实施方式

图像检索涉及基于搜索标准标识图像。在一些图像检索方法中，图像用描述性元数据来注释。元数据可以基于关键词被搜索以标识图像。元数据可以通过手动注释大量图像被建立。在许多示例中，元数据可以描述图像的语义质量，而无需考虑图像在文本中的上下文使用。元数据可以保持固定，而使用图像的上下文可能会随时间变化。

在基于内容的图像检索方法中，输入图像可以与存储在一个或多个大型数据库中的历史图像数据相比较。图像结果可以通过像素比较、特征比较和/或其他内容比较技术被制定。例如，Zhou等人于2018年9月2日由电气和电子工程师学会出版的“Recent Advancein Content-based Image Retrieval:A Literature Survey(基于内容的图像检索的最新进展：文献调查)”(其通过引用并入本文)描述了图像特征被存储在数据库中并且在数据库中被索引的各种图像表示。这些方法无法基于考虑图像内容的语义相似性以外因素的标准来提供可靠的图像查询结果。

因此，公开了针对依赖于图像空间和文本空间中的局部相似性的基于文本的图像检索的系统和方法。通过介绍性示例，图像检索系统可以包括描述符存储库，该描述符库包括多个描述符映射。描述符映射可以包括图像描述符和文本描述符之间的相应关联。该系统还可以包括文件映射存储库。文件映射存储库可以包括文件映射。每个文件映射可以包括对应图像和对应文本文档之间的关联。

系统可以接收图像查询。图像查询可以包括图像数据。系统可以基于图像数据确定图像描述符。系统可以获得与描述符存储库中的图像描述符相关联的文本描述符。该系统可以生成包括搜索参数的文档查询。搜索参数可以包括文本描述符。该系统可以基于文档查询在文档数据库中标识文本文档。文本文档可以与文档标识符相关联。该系统可以从文件映射存储库获得与文档标识符相关联的图像标识符。系统可以将图像查询结果传送到远程设备。图像查询结果可以指示与图像标识符相对应的图像。

本文描述的系统和方法的一个技术优势可以是：基于文本的文档查询可以改进图像检索中所涉及的处理时间。例如，本文描述的系统和方法可以基于图像数据和文本数据之间的映射来执行图像检索。输入图像可以是被映射到文本描述符的经转换的图像描述符。文本描述符可以被编译成针对文档数据库的文档查询。因此，搜索在文本域而不是图像域中被执行，在图像域中图像分析在处理能力和处理时间方面可能很昂贵。

本文描述的系统和方法的另一技术优点可以是：图像可以基于除图像语义含义之外的因素被检索。例如，通过确保将相似的图像映射到具有相同主题的文档来导出图像描述符和文本描述符之间的映射，使得图像检索系统可以在图像空间和文本空间中保留局部相似性。被映射到图像数据的文本数据可能无法描述图像的语义含义。文本和图像描述符之间的映射是使用保留的局部相似性标准从训练数据中精确学习的，这意味着图像域中语义相似的图像对象应当被映射到文本域中语义相似的文本对象。

相应地，图像检索系统可以在不能仅在一个主要对象中减少图像的语义内容而在图像中呈现了多个对象的应用中检索图像，并且仅图像特征的比较能够受到对象规模的限制，同时系统能够将图像描述符映射到多个文本描述符从而增加了特征的表达性。在本文所述的系统和方法中，与现有市场解决方案相比的附加优点、效率和改进是明显的。

图1图示了图像检索系统100的第一示例。系统100可以接收图像查询并以图像查询结果做出响应。图像查询可以包括寻找与图像查询中指定的一个或多个搜索图像相关联或相似的图像的请求。图像查询可以包括图像数据，诸如图像文件、视频帧、RGB数据、图像特征数据和/或根据用于存储、绘制或表示图像的协议布置的任何其他信息。备选地或另外，图像查询可以包括位置，诸如用来接收图像数据的网址或文件路径。

图像查询结果可以包括指示与搜索图像相关联、相似和/或在与其相似的上下文中找到的一个或多个图像的查询结果。图像查询结果可以包括图像数据和/或指定图像的标识信息。备选地或另外，图像查询结果可以包括位置，诸如一个或多个图像的网址或文件路径。在一些示例中，图像查询结果可以包括使得图像从图像检索系统100或某个其他源图像被检索或下载的指令或链接。

描述符存储库

图像检索系统可以包括描述符存储库102。描述符存储库102可以包括图像描述符、文本描述符和/或描述符映射。

图像描述符可以包括图像的视觉特性的描述。例如，图像描述符可以包括图像的特征。这些特征可以包括图像特征度量(metric)。图像特征量度(measure)可以测量图像的基本特性，诸如可以用真实值定义的图像的形状、颜色、纹理和/或一些其他视觉特性。例如，图像描述符可以包括色彩空间，并且图像描述符的特征可以包括每个像素处的RGB值。在一些示例中，图像描述符可以包括对一个或多个特征的描述，这些特征定义边缘、拐角、斑点、脊、感兴趣的区域、和/或其他类型的视觉特性。

表1图示了包括图像描述符的数据结构的示例。通过示例，表1中描述的图像描述符包括颜色分布，其中像素值被分配了权重值。

表1——图像描述符表

图像描述符ID	图像描述符
		IMG_DESC_DOG	颜色分布：红色：10％，黑色10％，棕色45％，...
IMG_DESC_CAT	颜色分布：红色：10％，黑色10％，棕色50％，...
		IMG_DESC_CAR	颜色分布：红色：60％，黑色5％，棕色10％，...

表1中图示出的数据结构是非限制性示例。描述符存储库102可以包括表1中描述的数据结构。在其他示例中，描述符存储库102可以包括存储图像描述符的(多个)附加或备选数据结构。

文本描述符可以包括文本内容的描述。例如，文本描述符可以包括描述文本的字符、单词、句子、语义和/或语言学的特性。文本描述符可以包括多个特征。文本描述符的特征可以包括以真实值测量文本特性的文本特征度量。例如，文本描述符可以包括数值的向量或矩阵。在一些示例中，图像描述符可以包括单词分布，并且图像描述符的特征可以包括文本中特定单词的计数。文本描述符的其他示例可以包括主题、实体、三元组。

表2图示了包括文本描述符的数据结构的示例。通过示例，表2中描述的文本描述符包括单词分布，其中单词计数被标准化。

表2——文本描述符表

表2中图示出的数据结构是非限制性示例。描述符存储库102可以包括表2中描述的数据结构。在其他示例中，描述符存储库102可以包括存储文本描述符的(多个)附加或备选数据结构。

在表2所描述的示例中，文本描述符可以分别对应于从都柏林旅行指南、爱尔兰旅行指南和罗马旅行指南中提取的文本。标准化单词计数表示被分配给“都柏林”、“爱尔兰”和“罗马”的单词计数的权重。如所预期的，单词“都柏林”的标准化计数在文本描述符TXT_DUBLIN_1中最高，该标准化计数对应于都柏林旅行指南的文本描述符。

描述符映射可以包括从大量图像和文本中学习到的关联，其中目标是优化局部描述符相似性。换言之，将在图像域中仿射相似的图像描述符与在文本域中仿射相似的文本描述符映射。例如，当代表图像描述符特征的真实值和/或从真实值导出的加权值大于图像特征相似性的阈值时，图像描述符可以仿射相似。同样地，当文本描述符特征的真实值和/或从真实值导出的权重值大于文本特征相似性的阈值时，文本描述符可以仿射相似。

用于建立相似性的(多个)相似性阈值可以包括公差。在一些示例中，公差可以是可配置的。增加公差可能会减少被标识为相似的描述符的数目，但会增加相似性。降低公差可能会增加被标识为相似的描述符的数目，但会降低相似性的程度。

在示例中，在图像域中，IMG_DESC_DOG可能类似于IMAGE_DESC_CAT，因为它们各自共享权重大于40％的特征(黑色)。在文本域中，TXT_DUBLIN和TXT_IRELAND可能相似，因为在每个文本描述符中“都柏林”和“爱尔兰”的标准化计数都大于0.5。如下表1所示，文本描述符和图像描述符之间的映射由图像描述符和文本描述符之间的多对多链接组成。

描述符映射可以将图像描述符与文本描述符相关联。例如，描述符映射可以包括文本描述符的标识符和图像描述符的标识符。备选地或另外，描述符映射可以包括度量，该度量基于训练数据来测量对映射强度进行测量的可能性。

表3描述了包括描述符映射的数据结构的示例。例如，表3中的每一行可以表示描述符映射。

表3描述符映射表

图像描述符ID	文本描述符ID	权重
			IMG_DESC_DOG	TXT_DUBLIN_1	0.6
IMG_DESC_DOG	TXT_IRELAND_2	0.4
			IMG_DESC_CAT	TXT_DUBLIN_1	0.2
IMG_DESC_CAT	TXT_IRELAND_2	0.8
			IMG_DESC_CAR	TXT_ROME_2	1.0

表3中图示出的数据结构是非限制性示例。该数据结构可以被包括在描述符存储库102中。在其他示例中，描述符存储库102可以包括存储描述符映射的(多个)附加或备选数据结构。

映射控制器

该系统可以包括映射控制器104。映射控制器104可以包括描述符映射选择器105和查询生成器106。描述符映射选择器105可以获得搜索图像。例如，描述符映射选择器105可以获得包括在图像查询中或由图像查询引用的搜索图像。描述符映射选择器105可以基于搜索图像来导出图像描述符。所导出的图像描述符可以与描述符存储库102中的一个或多个历史图像描述符仿射相似。描述符映射选择器105可以比较历史图像描述符与从搜索图像导出的图像描述符。例如，描述符映射选择器105可以标识历史图像描述符，其包括从搜索图像导出的图像描述符中所包括的特征度量的预定义范围内的真实值或权重。描述符映射选择器105可以选择引用所标识的历史描述符的描述符映射。

查询生成器106可以基于一个或多个文本描述符来生成文档查询。例如，查询生成器106可以接收由描述符映射选择器105选择的描述符映射。查询生成器106可以提取由描述符映射引用的文本描述符。查询生成器106将文本描述符编译成文档查询。文档查询可以包括一个或多个搜索参数。搜索参数可以包括文本描述符。例如，使用表3中定义的映射，将“狗”的输入图像转换为以下文本查询，即“爱尔兰，都柏林”。文本查询的建立还可以考虑历史映射和文本描述符中的权重。在上面的示例中，查询策略包括权重大于0的所有映射，并且在文本查询的建立中得分最高的单词被选择作为主要单词。

文本检索系统

系统100还可以包括文档数据库108和/或文本检索系统110或与之通信。文档数据库108可以包括文档型数据库。文档数据库108可以存储信息集，其中每个信息集可以遵循不同的数据结构。例如，文档数据库108可以包括非关系型数据库，其存储结构化或半结构化数据作为文本文档。文本文档的内容或与文本文档相关联的元数据可以基于搜索参数被搜索到，以标识一个或多个相关的文本文档。备选地或另外，文档数据库108可以从文本文档的内容提取元数据。元数据可以被搜索以标识一个或多个文本文档。取决于实现，文档数据库108可以根据诸如XML、YAML、JSON、BSON的标记协议来存储信息。备选地或另外，文档数据库108可以以二进制格式、字符编码格式和/或任何其他合适的文件编码来存储文档。

文本检索系统110可以访问文档数据库108以基于搜索参数标识一个或多个文本文档记录。例如，文本检索系统110可以接收由查询生成器106创建的文档查询。文档查询可以包括和/或引用一个或多个文本描述符。文本检索系统110可以基于文本描述符在文档数据库108中搜索一个或多个文档。文本检索系统110可以生成文档查询结果。

文档查询结果可以包括和/或引用存储在文档数据库108中并基于文档查询被标识的文本文档。例如，文档查询结果可以包括所标识的文档的文本数据和/或文档标识符。文档标识符可以包括文件名、密钥、路径和/或标识特定文档或特定文档在存储器中的位置的任何其他信息。

存储在文档数据库108中的文档可以包括文本文档。文本文档可以包括一个或多个历史文本描述符。如下所述，文本文档可以通过标识图像文件中的被映射到文本描述符的图像描述符而被生成。被映射的文本描述符可以被编译成文本文档，使得存储在图像数据库中的文本文档对应于图像文件。如下所述，文本文档可以被映射到图像文件并且可以基于文本文档来标识图像文件。

文件映射存储库

该系统可以包括文件映射存储库112。文件映射存储库112可以包括文件映射。文件映射可以包括图像文件和文本文档之间的关联。例如，文件映射可以包括图像标识符和文档标识符。图像标识符可以包括文件名、密钥、路径和/或标识索引的图像集中的特定图像的任何其他信息。文档标识符可以包括存储在文档数据库108中的文档的标识符，或标识在索引文档集中的文档的一些其他信息。

表4描述了包括在文件映射存储库112中的数据结构的示例。表4的每一行可以表示文件映射。在其他示例中，文件映射可以包括附加或备选信息，诸如图像数据、文本数据和/或元数据。为了确保图像域和文本域之间的可逆性，图像名称仅需要与一个文档名称相关联，反之亦然。

表4——文件映射表

图像标识符	文档标识符
		Dog.JPG	Dog_Text_Descriptors.txt
...	...

表4中所示的数据结构是非限制性示例。在其他示例中，文件映射存储库112可以包括存储一个或多个文件映射的(多个)附加或备选数据结构。

在一些示例中，系统100还可以包括图像存储库113。图像存储库113可以包括图像和/或图像标识符。例如，图像存储库113可以存储图像查询结果中所包括或引用的图像。存储在图像存储库113中的图像可以用被存储在文档数据库108中的文本文档来映射。由系统100提供的图像查询结果可以基于由文本检索系统110提供的文档查询结果被生成。例如，包括在文档查询结果中的文档标识符可以被包括在文件映射存储库112中所存储的文件映射中。图像标识符可以基于文件映射存储库中所存储的文件映射被映射到文档标识符。因此，图像标识符可以从文件映射数据库中被提取，并被包括在图像查询结果中。

逆映射控制器

系统100可以包括逆映射控制器114。逆映射控制器114可以包括文件映射选择器116和图像结果生成器118。文件映射选择器116可以基于一个或多个文档标识符来标识文件映射。例如，文件映射选择器116可以基于包括在文档查询结果中的文档标识符来选择文件映射。文件映射选择器116可以在文件映射存储库112中选择文件映射。所选择的文件映射可以与文档查询结果中包括的文档标识符相关联。每个选择的文件映射可以与对应的图像标识符相关联。

图像结果生成器118可以生成图像查询结果。在一些示例中，图像结果生成器118可以获得与由文件映射选择器116选择的文件映射相关联的图像标识符。图像结果生成器118可以获得与图像标识符相对应的图像。例如，图像结果生成器118可以从图像存储库113获得图像，并且将图像包括在图像查询结果中。

另外，或作为在图像查询结果中包括图像的备选，图像查询结果可以包括使一个或多个远程设备访问图像的指令。例如，图像查询结果可以包括网址、路径和/或使远程设备访问图像的某种其他指令或链接。备选地或另外，图像查询结果可以使远程设备向图像检索系统或某个其他源请求图像。例如，图像查询结果可以包括使远程设备基于图像标识符从图像检索系统请求图像的指令。图像检索系统可以通过从图像存储库113获得图像并将图像传送到远程设备来响应该请求。

在一些示例中，图像结果生成器118可以将在查询结果中对图像排名。图像结果的排名可以使用查询图像和图像结果生成器118所检索的图像之间的视觉相似性来执行。视觉相似性可以使用图像特征之间的距离被计算。

图2图示了图像检索系统100的第二示例。图像检索系统可以包括映射生成器202。映射生成器202可以接收训练图像和/或训练文本。例如，映射生成器202可以从训练图像存储库204接收训练图像。映射生成器202可以从训练文本存储库206接收文本样本。映射生成器202可以从训练图像生成一个或多个图像描述符。例如，映射生成器202可以使用机器学习算法来执行视觉模式提取以生成图像描述符。

映射生成器202可以从训练文本生成一个或多个文本描述符。例如，映射生成器202可以利用机器学习算法来执行文本模式提取以生成文本描述符。

映射生成器202可以标识仿射相似的图像描述符。如先前参考图1所讨论的，当代表图像描述符的特征的真实值和/或从真实值导出的加权值大于图像特征相似性的阈值时，图像描述符可以仿射相似。同样，当文本描述符的特征的真实值和/或从真实值导出的权重值大于文本特征相似性的阈值时，文本描述符可以仿射相似。

映射生成器202可以将仿射相似的文本描述符映射到仿射相似的图像描述符。映射可以基于优化算法被生成，该优化算法选择最小化根据图像和文本域中的局部相似性而定义的成本函数的映射。成本函数确保训练图像存储库204中的在图像域中相似的图像映射到训练文本存储库206中在文本域中相似的文档中。

系统100可以包括图像转文本(image-to-text)转换器208。图像转文本转换器208可以接收源图像。例如，图像转文本转换器208可以访问来自图像存储库113的一个或多个图像。图像转文本转换器208可以从源图像导出图像描述符。图像转文本转换器208可以将导出的图像描述符与先前从训练图像导出的图像描述符进行比较。图像转文本转换器208可以从描述符存储库102中选择一个或多个映射。所选择的映射可以包括与所导出的图像描述符相同或相似的图像描述符。图像转文本转换器208可以提取与所选择的描述符映射相关联的文本描述符。

图像转文本转换器208可以生成和/或更新文档数据库108。例如，图像转文本转换器208可以将所提取的文本描述符编译成文本文档。在一些示例中，图像转文本转换器208可以基于为每个图像确定的文本描述符来生成文本文档。图像转文本转换器208可以将文本文档插入到文档数据库108中。备选地或另外，图像转文本转换器208可以更新现有的文本文档。

如参考图1所讨论的，文件映射可以将源图像与基于源图像生成的文本文档相关联。图像转文本转换器208可以将文件映射插入文件映射存储库中。在一些示例中，文件映射可以包括图像文件和文本文档之间的一对一的对应关系。

图3图示了系统100的逻辑示例的流程图。映射控制器104可以从远程设备接收图像查询(302)。映射控制器104可以从图像查询中获得一个或多个搜索图像。备选地或另外，映射控制器104可以访问根据图像查询所指定的地址和/或路径来生成图像。

映射控制器104可以基于图像确定图像描述符(304)。例如，映射控制器104可以导出搜索图像的图像数据中所包括的一个或多个特征。这些特征可以包括一个或多个特征度量，该度量测量图像中图像特性的存在。映射控制器104可以将导出的特征与存储在描述符存储库102中的一个或多个历史图像描述符的特征进行比较。映射控制器104可以基于该比较来选择一个或多个历史图像描述符。

映射控制器104可以选择与所选择的图像描述符相关联的一个或多个描述符映射。基于所选择的描述符映射，映射控制器104可以选择一个或多个文本描述符。例如，描述符映射可以包括图像描述符标识符和文本描述符标识符。映射控制器104可以从描述符映射中提取文本描述符标识符。备选地或另外，映射控制器104可以从描述符存储库102和/或直接从描述符映射获得文本描述符。

映射控制器104生成包括文本描述符的文档查询(306)。例如，映射控制器104可以将一个或多个提取的文本描述符编译到文档查询中。文档查询可以包括查询文档数据库108的指令。

文本检索系统110获得存储在文档数据库108中的文本文档的文档标识符(308)。例如，文本检索系统110可以基于文档查询来查询文档数据库108。文档数据库108可以基于文档查询中所包括的文本描述符或文本描述符的部分来标识一个或多个文本文档。文本检索系统110可以生成包括文档和/或文档的标识符的文档查询结果。

逆映射控制器114可以获得先前与文档标识符相关联的图像标识符(310)。例如，逆映射控制器114可以接收一个或多个文本文档或文档标识符。逆映射控制器114可以在文件映射存储库112中搜索与文档标识符相关联的文件映射。逆映射控制器114可以响应于包括文档标识符的文件映射来选择文件映射。逆映射控制器114可以从文件映射中提取图像标识符。

逆映射控制器可以将图像查询结果传送到源设备(312)。例如，逆映射控制器114可以生成图像查询结果。图像查询结果可以包括基于文档查询结果获得的一个或多个图像标识符。备选地或另外，图像查询结果可以包括与图像标识符相对应的图像。在一些示例中，图像查询结果可以包括从源位置获得图像的指令。例如，图像查询结果可以包括生成包括一个或多个图像标识符的消息的指令。逆映射控制器114可以响应于从源设备接收到消息而从图像存储库113获得图像，并将图像发送到源设备。

图4图示了系统100的逻辑的第二示例的流程图。映射生成器202可以接收训练图像数据和训练文本数据(402)。例如，映射生成器202可以从训练图像存储库204接收训练图像数据。备选地或另外，映射生成器202可以从训练文本存储库206接收训练文本。

映射生成器202确定图像描述符和文本描述符(404)。描述符生成器可以生成描述符映射(406)。例如，可以如参考图2所讨论的那样确定文本描述符和图像描述符。描述符映射可以包括图像描述符的标识符和文本描述符的标识符。描述符生成器可以将描述符映射存储在描述符存储库102中(408)。

在一些示例中，映射生成器202可以部署描述符存储库102(410)。例如，映射生成器202可以被部署到包括映射控制器104或与映射控制器104通信的远程服务器。描述符存储库102可以被部署到远程服务器。在一些示例中，可以在部署之前预先填充描述符存储库102。在其他示例中，描述符存储库102可以首先被部署，然后向其填充图像描述符、文本描述符和/或描述符映射。部署可以包括将描述符存储库102发送到服务器，在服务器上配置描述符存储库102，和/或将信息发送到服务器以被存储在服务器上所配置的描述符存储库102中。

图5图示了系统100的逻辑的第三示例的流程图。图像转文本转换器208可以接收源图像(502)。备选地或另外，图像转文本转换器208可以接收源图像的标识符，然后访问源图像。源图像可以被存储在图像存储库113中。

图像转文本转换器208可以基于源图像来确定图像描述符(504)。图像转文本转换器208可以获得与图像描述符相关联的文本描述符(506)。

例如，图像转文本转换器208可以获得与为源图像标识的图像描述符相关联的描述符映射。描述符映射可以将所标识的图像描述符与一个或多个文本描述符相关联。在一些示例中，描述符映射可以将图像描述符的标识符映射到文本描述符的标识符。图像转文本转换器208可以提取文本描述符的标识符。图像转文本转换器208可以基于标识符在描述符数据库或某个其他源中搜索文本描述符。在一些示例中，图像转文本转换器208可以基于为源图像标识的图像描述符和/或描述符映射来标识多个文本描述符。

图像转文本转换器208可以将文本描述符编译成文本文档(508)。例如，可以在文本文档中包括一个或多个文本描述符。在一些示例中，图像转文本转换器208可以修改文本描述符以符合诸如XML、JSON或某种其他合适的标准的标记语言或文档结构。

图像转文本转换器208可以将文本文档存储在文档数据库108中(510)。例如，图像转文本转换器208可以将文本文档传送到文档数据库108。

图像转文本转换器208将文件映射存储在文件映射存储库112中(512)。例如，图像转文本转换器208可以生成文件映射。文件映射可以包括源图像的标识符和所生成的文档的标识符。文件映射可以包括源图像和所生成的文本文档之间的一对一关系。图像转文本转换器208可以将所生成的文件映射插入文件映射存储库112中。

图像转文本转换器208可以部署文件映射存储库112和/或文档数据库108(514)。例如，图像转文本可以将文件映射存储库112和/或文档数据库108传送到配置有逆映射控制器114的服务器。备选地或另外，图像转文本转换器208可以在服务器上配置映射存储库和/或文档数据库108，然后用数据填充映射存储库和/或文档数据库108。在其他示例中，当确定了新的源图像时，图像转文本转换器208可以用新数据更新文件映射存储库112和/或文档数据库108。例如，图像转文本转换器208可以接收附加的源图像。对于接收到的每个源图像，图像转文本转换器208可以生成对应的文本文档和对应的文件映射。

流程图中所示的逻辑可以包括比所示的更多的、不同的或更少的操作。所图示的操作可以以与所图示的顺序不同的顺序来执行。而且，系统100可以用比所图示的更多的、不同的或更少的组件来实现。每个组件可以包括附加的、不同的或更少的组件。例如，系统100可以包括映射控制器104和逆映射控制器114。备选地或另外，系统可以包括映射生成器202和图像转文本转换器。例如，该系统可以包括学习和配置系统，该系统构建、部署和/或更新描述符存储库102、文件映射存储库112和/或文档数据库108。

图6图示了系统100的计算机环境600的示例。计算机环境600可以包括用于图像检索系统100和/或其中的任何子组件的硬件平台。计算机环境600可以包括通信界面612、输入界面628和/或系统电路装置614。系统电路装置614可以包括处理器616或多个处理器。备选地或另外，系统电路装置614可以包括存储器620。

处理器616可以与存储器620通信。在一些示例中，处理器616还可以与诸如通信接口612、输入接口628和/或用户界面的附加元件通信。处理器616的示例可以包括通用处理器、中央处理单元、逻辑CPU/阵列、微控制器、服务器、专用集成电路(ASIC)、数字信号处理器，现场可编程门阵列(FPGA)、和/或数字电路、模拟电路或其某种组合。

处理器616可以是可操作以执行逻辑的一个或多个设备。该逻辑可以包括存储在存储器620或其他存储器中的计算机可执行指令或计算机代码，其在由处理器616执行其指令或代码时使处理器616执行由映射控制器104，逆映射控制器114、文本检索系统110、映射生成器202、图像转文本转换器、描述符存储库102、文件映射存储库112、图像存储库113、文档数据库108、系统100或系统100的任何组件或子组件的逻辑实现的特征。该计算机代码可以包括由处理器616可执行的指令。

存储器620可以是用于存储和检索数据的任何设备或其任何组合。存储器620可以包括非易失性和/或易失性存储器，诸如随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)或闪存。备选地或另外，存储器620可以包括光、磁(硬盘驱动器)、固态驱动器或任何其他形式的数据存储设备。存储器620可以包括以下中的至少一项：映射控制器104、逆映射控制器114、文本检索系统110、映射生成器202、图像转文本转换器、描述符存储库102、文件映射存储库112、图像存储库113、文档数据库108、系统100或系统100的任何组件或子组件。

用户界面618可以包括用于显示图形信息的任何界面。系统电路装置614和/或(多个)通信接口612可以将信号或命令传送到用户界面618，该信号或命令使用户界面显示图形信息。备选地或另外，用户界面618可以远离系统100，并且系统电路装置614和/或(多个)通信接口可以将诸如HTML的指令传送到用户界面，以使用户界面显示、编译、和/或绘制信息内容。在一些示例中，由用户界面618显示的内容可以是交互的或响应于用户输入。例如，用户界面618可以将信号、消息和/或信息传送回通信接口612或系统电路装置614。

系统100可以以许多不同的方式来实现。在一些示例中，系统100可以用一个或多个逻辑组件来实现。例如，系统100的逻辑组件可以是硬件或硬件和软件的组合。逻辑组件可以包括映射控制器104、逆映射控制器114、文本检索系统110、映射生成器202、图像转文本转换器208、描述符存储库102、文件映射存储库112、图像存储库113、文档数据库108、系统100或系统100的任何组件或子组件。在一些示例中，每个逻辑组件可以包括专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字逻辑电路、模拟电路、分立电路、门的组合、或任何其他类型的硬件或其组合。备选地或另外，每个组件可以包括例如诸如存储器620的一部分之类的存储器硬件，其包括由处理器616或其他处理器可执行以实现逻辑组件的一个或多个特征的指令。当逻辑组件中的任何一个包括存储器的包括用处理器616可执行的指令的部分时，该组件可以或可以不包括处理器616。在一些示例中，每个逻辑组件可以仅仅是存储器620或其他物理存储器的部分，该部分包括用处理器616或(多个)其他处理器可执行的指令，以实现对应组件的特征，而该组件不包括任何其他硬件。因为即使当所包括的硬件包括软件时每个组件也包括至少某种硬件，所以每个组件可以被可互换地称为硬件组件。

一些特征被示为存储在计算机可读存储介质中(例如，作为实现为计算机可执行指令的逻辑或实现为存储器中的数据结构)。系统100的全部或部分及其逻辑和数据结构可以被存储在一种或多种类型的计算机可读存储介质上，在其上分布或从中读取。计算机可读存储介质的示例可以包括硬盘、软盘、CD-ROM、闪存驱动器、高速缓存、易失性存储器、非易失性存储器、RAM、闪存或任何其他类型的一种或多种计算机可读存储介质。计算机可读存储介质可以包括任何类型的非瞬态计算机可读介质，诸如CD-ROM、易失性存储器、非易失性存储器、ROM、RAM或任何其他合适的存储设备。

系统100的处理能力可以分布在多个实体之间，诸如分布在多个处理器和存储器之间，可选地包括多个分布式处理系统。参数、数据库和其他数据结构可以分别被存储和被管理，可以合并到单个存储器或数据库中，可以按照许多不同的方式在逻辑上和物理上进行组织，并且可以用不同类型的数据结构诸如链表、哈希表或隐式存储机制来实现。诸如程序或电路装置之类的逻辑可以在多个程序之间组合或分割，分布在多个存储器和处理器中，并且可以在诸如共享库(例如，动态链接库(DLL))的库中实现。

所有讨论，无论所描述的特定实现如何，本质上都是说明性的而不是限制性的。例如，尽管实现的选定方面、特征或组件被描绘为存储在(多个)存储器中，但是一个或多个系统的全部或部分可以被存储在其他计算机可读存储介质上，分布在其他计算机可读存储介质上或从其他计算机可读存储介质读取，例如，辅助存储设备，诸如硬盘、闪存驱动器、软盘和CD-ROM。此外，各种模块、电路装置和屏幕显示功能性仅仅是这种功能性的一个示例，并且包含类似功能性的任何其他配置都是可能的。

可以在计算机可读存储介质上提供用于实现上述过程、方法和/或技术的各个逻辑、软件或指令。附图中图示或本文描述的功能、动作或任务可以响应于存储在计算机可读介质中或计算机可读介质上的一组或多组逻辑或指令而被执行。功能、动作或任务独立于指令集、存储介质、处理器或处理策略的特定类型、并且可以由单独地或组合地操作的软件、硬件、集成电路、固件、微代码等来执行。同样，处理策略可以包括多处理、多任务、并行处理等。在一个示例中，指令被存储在可移除介质设备上，以供本地或远程系统读取。在其他示例中，逻辑或指令被存储在远程位置，以通过计算机网络或通过电话线进行传输。在其他示例中，逻辑或指令被存储在给定的计算机、中央处理单元(“CPU”)、图形处理单元(“GPU”)或系统内。

此外，尽管上面描述了特定的组件，但是本文描述的方法、系统和制品可以包括附加的、更少的或不同的组件。例如，处理器可以被实现为微处理器、微控制器、专用集成电路(ASIC)、离散逻辑或其他类型的电路或逻辑的组合。类似地，存储器可以是DRAM、SRAM、闪存或任何其他类型的存储器。标志、数据、数据库、表、实体和其他数据结构可以分别被存储和被管理，可以被合并到单个存储器或数据库中，可以是分布式的，或可以许多不同的方式在逻辑上和物理上被组织。这些组件可以独立操作，也可以是执行相同程序或不同程序的同一装置的一部分。组件可以驻留在分离的硬件，诸如分离的可移除电路板上，或共享通用硬件，诸如相同的存储器和用于实现来自存储器的指令的处理器。程序可以是单个程序、分离程序的部分，或者分布在多个存储器和处理器中。

可以说第二动作是“响应于”第一动作的，而与第二动作是直接或间接地由第一动作产生的无关。第二动作可以在比第一动作实质上更晚的时间发生并且仍然是响应于第一动作的。类似地，即使在第一动作和第二动作之间发生介入动作，并且即使一个或多个介入动作直接导致第二动作被执行，第二动作也可以说是响应于第一动作的。例如，如果第一动作设置了标记，则第二动作可以是响应于第一动作的，并且无论何时设置了标记，第三动作随后都会发起第二动作。

为了澄清以下短语的使用并特此通知公众，短语“<A>，<B>，...和<N>中的至少一个”或“<A>，<B>，...<N>中的至少一个，或其组合”或“<A>，<B>，……和/或<N>”在最广泛的意义上由申请人定义，除非申请人明确声明，否则将取代上文或下文的任何其他隐含定义，以表示选自包括A，B，…和N的组中的一个或多个元素。换言之，短语表示A，B，…或N元素中的一个或多个的任何组合，该组合包括独自的任何一个元素或者与一个或多个其他元素组合的一个元素，这些其他元素也可以组合地包括未列出的附加元素。

尽管已经描述了各种实施例，但是对于本领域的普通技术人员将明显的是，更多的实施例和实现是可能的。因此，本文描述的实施例是示例，而不是仅有的可能的实施例和实现。

Claims

1.一种图像检索系统，包括：

存储器和处理器，所述存储器包括：

描述符存储库，所述描述符存储库包括多个描述符映射，所述描述符映射包括图像描述符和文本描述符之间的相应关联；

文件映射存储库，所述文件映射存储库包括文件映射，其中所述文件映射中的每个文件映射包括对应图像和对应文本文档之间的关联；

其中所述处理器配置为：

接收图像查询，所述图像查询包括图像数据；

基于所述图像数据确定一个或多个图像描述符，所述确定包括：

导出针对所述图像数据的多个特征度量；以及

基于所述图像描述符的所述特征度量与所述图像数据的所述特征度量的比较，从存储图像描述符与文本描述符之间的多对多映射的所述描述符存储库中选择所述一个或多个图像描述符中的每个图像描述符；

基于所述描述符库中的描述符映射，针对所确定的所述一个或多个图像描述符中的每个图像描述符，获得被映射到所述图像描述符的一个或多个文本描述符；

生成包括搜索参数的文档查询，所述搜索参数基于所述一个或多个文本描述符；

基于所述文档查询，在文档数据库中标识文本文档，所述文本文档与文档标识符相关联；

基于所述文件映射存储库中的所述文件映射，获得与所述文档标识符相关联的图像标识符；

基于所述图像标识符确定图像查询结果；以及

向远程设备传送所述图像查询结果，所述图像查询结果指示

与所述图像标识符相对应的图像。

2.根据权利要求1所述的图像检索系统，其中所述图像查询结果包括与所述图像标识符相对应的图像。

3.根据权利要求1所述的图像检索系统，还包括：

按排名顺序来优先排列所述图像；

生成所述图像查询结果，其中所述图像查询结果指示按所述排名顺序进行优先排列的所述图像。

4.根据权利要求1所述的图像检索系统，其中所述处理器还被配置为生成被存储在所述描述符存储库中的所述描述符映射，其中为了生成所述描述符映射，所述处理器还被配置为：

接收训练图像数据和训练文本数据；

基于所述训练图像数据确定所述图像描述符；

基于所述训练文本数据确定所述文本描述符；以及

基于机器学习模型将所述文本描述符映射到所述图像描述符。

5.根据权利要求1所述的图像检索系统，其中所述处理器还被配置为：

生成针对所述文档数据库的所述文本文档，其中为了生成所述文本文档，所述处理器还被配置为：

从图像存储库获得源图像；

基于源图像的特征，选择所述描述符映射中所包括的先前确定的图像描述符；

从所述描述符存储库中获得与所述先前确定的图像描述符相关联的先前确定的文本描述符；

将所述文本描述符编译成新文本文档；以及

将所述新文本文档存储在所述文档数据库中。

6.根据权利要求5所述的图像检索系统，其中所述处理器还被配置为生成被存储在所述文件映射存储库中的所述文件映射，其中为了生成所述文件映射，所述处理器还被配置为：

生成文件映射，所述文件映射包括所述源图像的标识符和所述新文本文档的标识符；以及

将所述文件映射存储在所述文件映射存储库中。

7.根据权利要求1所述的图像检索系统，其中为了获得所述图像标识符，所述处理器还被配置为：

基于所述文档标识符从所述文件映射存储库中选择所述文件映射；以及

从所述文件映射中提取所述图像标识符。

8.根据权利要求1所述的图像检索系统，其中为了从所述文件映射存储库获得与所述文档标识符相关联的图像标识符，所述处理器还被配置为：

在所述文件映射存储库中标识文件映射，所述文件映射包括所述文档标识符中的至少一个文档标识符和所述图像标识符中的至少一个图像标识符；以及

从所述文件映射中提取所述图像标识符中的所述至少一个图像标识符。

9.一种方法，包括：

接收由远程设备生成的图像查询，所述图像查询包括图像数据；

导出针对所述图像数据的多个特征度量；以及

基于所述图像描述符的所述特征度量与所述图像数据的所述特征度量的比较，从存储图像描述符与文本描述符之间的多对多映射的描述符存储库中选择所述一个或多个图像描述符中的每个图像描述符；

获得一个或多个文本描述符，所述获得包括：针对所确定的所述一个或多个图像描述符中的每个图像描述符，获得被映射到所述描述符存储库中所述图像描述符的所述一个或多个文本描述符；

生成包括搜索参数的文档查询，所述搜索参数包括所述一个或多个文本描述符；

基于所述文档查询，在文档数据库中标识文本文档的文档标识符；

在文件映射存储库中标识被映射到所述文档标识符的图像标识符；以及

向所述远程设备传送图像查询结果，所述图像查询结果指示与所述图像标识符相对应的图像。

10.根据权利要求9所述的方法，其中所述图像查询结果包括指令，所述指令被配置为使所述远程设备从图像存储库访问与所述图像标识符相对应的所述图像中的至少一个图像。

11.根据权利要求9所述的方法，还包括：

按排名顺序来优先排列所述图像；以及

12.根据权利要求9所述的方法，还包括：

接收训练图像数据和训练文本数据；

基于所述训练图像数据确定所述图像描述符；

基于所述训练文本数据确定所述文本描述符；

基于机器学习模型，在所述图像描述符和所述文本描述符之间生成描述符映射；以及

将所述描述符映射存储在所述描述符存储库中。

13.根据权利要求9所述的方法，还包括：

从图像存储库获得源图像；

基于源图像的特征，选择所述描述符存储库中所包括的先前确定的图像描述符；

将所述文本描述符编译成新文本文档；以及

将所述新文本文档存储在所述文档数据库中。

14.根据权利要求13所述的方法，还包括：

将所述文件映射存储在所述文件映射存储库中。

15.一种方法，包括：

通过以下动作针对描述符存储库生成描述符映射：

接收训练图像数据和训练文本数据，

基于所述训练图像数据确定图像描述符，并且基于所述训练文本数据确定文本描述符，所述确定包括：

导出针对所述图像数据的多个特征度量；以及

生成包括所述图像描述符和所述文本描述符之间的关联的描述符映射，以及

将所述描述符映射存储在所述描述符存储库中；

通过以下动作针对文档数据库生成文本文档：

确定所述图像描述符是对源图像的描述，

基于所述描述符映射，检索与所述图像描述符相关联的所述文本描述符，

将所述文本描述符编译成新文本文档，以及

将所述新文本文档存储在所述文档数据库中；

在文件映射存储库中存储文件映射，所述文件映射包括所述源图像的标识符和所述新文本文档的标识符；

通过以下动作响应包括搜索图像数据的图像查询：

基于所述搜索图像数据的特征与所述图像描述符的特征的比较，选择所述图像描述符，

生成文档查询，所述文档查询包括在所述描述符映射中与所述图像描述符关联的所述文本描述符，

基于所述文档查询，接收所述文档数据库中所存储的所述新文本文档的文档标识符，

在所述文件映射存储库中获得与所述文档标识符关联的所述图像标识符；以及

向远程设备传送图像查询结果，所述图像查询结果指示与所述图像标识符相对应的图像。

16.根据权利要求15所述的方法，其中所述源图像是从图像存储库获得的，所述图像存储库包括多个图像，所述图像中的每个图像基于被存储在所述文件映射存储库中的多个文件映射而被映射到对应的文本文档。

17.根据权利要求16所述的方法，还包括：

从所述图像存储库中获得与所述图像标识符相对应的所述图像；以及

生成所述图像查询结果，所述图像查询结果包括所述图像、所述图像的标识符、获得所述图像的指令或其任何组合。