CN110362663B

CN110362663B - 自适应多感知相似度检测和解析

Info

Publication number: CN110362663B
Application number: CN201910277123.2A
Authority: CN
Inventors: M·休厄科; S·辛格
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2018-04-09
Filing date: 2019-04-08
Publication date: 2023-06-13
Anticipated expiration: 2039-04-08
Also published as: US10825071B2; US10755332B2; US20200302505A1; US11276099B2; CN110362663A; US20190311231A1; US20190311415A1

Abstract

实施例涉及一种计算跨图像对象的视觉相似度的智能计算机平台。对象检测算法用于标识图像对象并产生所标识的对象的张量表示。执行对象的多视觉上下文相似度以评估并确定相关对象图像。响应于产品图像选择而动态地执行对相似度的重新评估。重新评估利用相关对象图像的张量表示，由此执行相似度的数学评估和对象图像标识。基于动态重新评估和以最小迭代的对象交互在定向结果上的收敛来标识并选择最终产品。

Description

自适应多感知相似度检测和解析

背景技术

本公开的实施例涉及自然语言处理和电子图像处理。更具体地，实施例涉及认知计算和深度学习以将产品搜索和动机整合在电子环境中。

在人工智能计算机系统的领域，自然语言系统(诸如IBM Watson^TM人工智能计算机系统或者其他自然语言问答系统)基于由系统获取的知识来处理自然语言。为了处理自然语言，系统可以利用从数据源或知识的语料库得到的数据来训练。

机器学习(ML)(其是人工智能(AI)的子集)利用算法以从数据中学习并基于该数据来产生预见。AI是指当机器基于信息能够做出使给定话题中的成功的几率最大化的决策时的智能。更具体地，AI能够从数据集中学习以解决问题并提供相关推荐。AI是认知计算的子集，其是指按规模学习、带着目的进行推理并且自然地与人类交互的系统。认知计算是计算机科学和认知科学的混合。认知计算利用自我教导的算法，其使用数据挖掘、视觉识别、以及自然语言处理来解决问题并优化人类处理。

发明内容

实施例包括用于高效产品标识和收敛的系统、计算机程序产品和方法。

在一个方面中，提供了用于与智能计算机平台一起用于计算视觉相似度并响应于所计算的相似度而标识产品的系统。处理单元被提供为可操作地耦合到存储器并且可操作地耦合到人工智能平台。知识引擎的形式的工具由人工智能平台激活并用于执行相似度评估和产品标识。知识引擎被提供有对象管理器和上下文管理器。对象管理器利用对象检测算法来标识两个或更多个图像对象，并且产生每个标识的对象的张量表示。张量表示是对象图像特征的多特征数学表示。每个对象特征是所表示的对象内的物理分量。上下文管理器评估多视觉上下文相似度。更具体地，上下文管理器针对相关对象图像的对应向量应用向量相似度算法，并且基于从算法返回的相似度上下文来标识一个或多个相似对象。响应于对被表示为图像的产品的选择，上下文管理器基于所选择的产品图像的张量表示与(多个)相关对象图像的张量表示的接近度来动态重新评估相似度上下文。响应于动态重新评估而标识并选择最终产品。

在另一方面中，提供了用于与智能计算机平台一起用于计算视觉相似度并响应于所计算的相似度而标识产品的计算机程序设备。设备具有包含于其中的程序代码。程序代码由处理单元可执行以支持相似度评估以及产品选择和标识。程序代码采用对象检测算法来标识两个或更多个图像对象，并且产生每个图像对象的张量表示。张量表示是对象图像特征的多特征数学表示，每个对象图像特征是对象内的物理分量。程序代码评估多视觉上下文相似度，包括针对一个或多个相关对象图像的一个或多个对应向量应用向量相似度算法。程序代码基于从向量相似度算法返回的相似度上下文来标识一个或多个相似对象。响应于对产品图像的选择，程序代码基于所选择的产品图像的张量表示与一个或多个相关对象图像的张量表示的接近度来动态重新评估相似度上下文。响应于动态重新评估而标识并选择最终产品。

在又一方面中，提供了用于由智能计算机平台用于计算视觉相似度并响应于所计算的相似度而标识产品的方法。方法采用对象检测算法来标识两个或更多个图像对象，每个对象是物理的。产生每个图像对象的张量表示。张量表示是对象图像特征的多特征数学表示，并且每个对象图像特征是对象内的物理分量。评估多视觉上下文相似度。方法包括针对一个或多个相关对象图像的一个或多个对应向量应用向量相似度算法，并且基于从向量相似度算法返回的相似度上下文来标识一个或多个相似对象。响应于选择产品图像，方法基于所选择的产品图像的张量表示与一个或多个相关对象图像的张量表示的接近度来动态重新评估相似度上下文。响应于动态重新评估而标识并选择最终产品。

这些和其他特征和优点将从结合附图进行的(多个)当前优选实施例的以下详细描述中变得显而易见。

附图说明

本文中的附图引用形成本说明书的一部分。附图中示出的特征旨在说明仅仅一些实施例而不是所有实施例，除非另外明确指示。

图1描绘了示出示例性网络化计算机环境的系统图。

图2描绘了示出人工智能系统的示意图的系统图。

图3描绘了示出图2中示出和描述的处理工具以及其相关联的API的框图。

图4描绘了示出用于图像表示的信息处理系统的框图。

图5描绘了示出图像文件和剪裁的区域的框图。

图6描绘了示出图像文件表示的流程图。

图7描绘了示出图像表示和训练的过程流。

图8A和图8B描绘了示出用于利用图像表示用于计算相似度的过程的流程图。

图9A和图9B描绘了示出自适应注意力相似度过程的流程图。

图10描绘了示出产品交互和自适应评价的流程图。

图11描绘了示出产品以及相关联的产品描述数据的产品储存库的流程图。

图12是示出用于实施以上参考图6-10描述的过程的基于云的支持系统的计算机系统/服务器的示例的框图。

图13描绘了示出云计算机环境的框图。

图14描绘了示出由云计算环境提供的功能抽象模型层的集合的框图。

具体实施方式

将容易理解如在本文的附图中总体上描述的和说明的本公开的实施例的部件可以以各种各样的不同配置来布置和设计。因此，如在附图中呈现的本公开的实施例的装置、系统、方法、以及计算机程序产品的实施例的以下详细描述不旨在限制要求保护的实施例的范围，而是仅仅表示选择的实施例。

在本说明书中对“选择的实施例”、“一个实施例”或“实施例”的引用意味着结合实施例描述的特定特征、结构或特性被包含在至少一个实施例中。因此，在本说明书中的各个地方中出现的短语“选择的实施例”、“在一个实施例中”或“在实施例中”不一定指代同一实施例。

说明的实施例将通过参考附图来得到更好理解，其中类似的部分在整个附图中由类似的附图标记来指定。以下描述仅仅意图为示例，并且简单地说明与如本文要求保护的实施例一致的设备、系统以及过程的某些选择的实施例。

本文中示出和描述的实施例涉及人工智能和电子商务的领域，并且更具体地涉及产品推荐系统。以下描述的示例性实施例提供了一种系统、计算机程序产品、以及方法等等以利用最小选择迭代来推荐产品或服务。本文中公开的实施例改进电子商务和产品推荐的技术领域。当利用电子商务场所来搜索产品或服务时，应理解，建议的或推荐的产品被显示以支持到最终物品选择的收敛。还应理解，在推荐迭代与转换为销售之间存在直接关联。因此，本文中描述的实施例涉及加快电子商务场所中的产品搜索，其利用理解动机以最小推荐迭代收敛于用于选择和销售的产品。

参考图1，描绘了根据实施例的示例性网络化计算机环境(100)。网络化计算机环境(100)可以包括使得能够运行产品推荐程序(112)的客户端计算设备(110)。网络化计算机环境(100)还可以包括跨网络(130)与客户端计算设备(110)通信的服务器(120)和(140)。服务器₀(120)被示出为使得能够跨网络(130)运行产品推荐程序(122)。服务器₁(140)被示出为实现跨网络(130)的电子商务网站(142)。网络化计算机环境(100)可以包括多个客户端计算设备(110)，为说明的简洁性而示出其中的仅仅一个。类似地，尽管两个服务器(120)和(140)被示出，但是额外的服务器可以被提供为跨网络(130)通信。根据至少一个实施例，储存库(126)可以被提供为可操作地耦合到服务器中的至少一个，在本文中被示出为在服务器0(120)本地，但是系统中的储存库(126)的位置不应当被认为是限制性的。通信网络(130)可以包括各种类型的通信网络，诸如广域网(WAN)、局域网(LAN)、电信网络、无线网络、公共交换网络、和/或卫星网络。可以认识到，图1提供了仅仅一个实施方式的示出并且不暗示关于不同实施例可以被实施于其中的环境的任何限制。可以基于设计和实施要求来做出对所描绘的环境的许多修改。

客户端计算设备(110)可以经由通信网络(130)与服务器(120)和(140)通信。通信网络(130)可以包括连接，诸如线、无线通信链接、或光纤线缆。如下面所讨论的，服务器(120)和(140)可以包括内部和外部部件，如图2中示出和描述的。类似地，客户端计算设备(110)可以包括内部和外部部件，如图2中示出和描述的。客户端计算设备(110)可以为例如移动设备、个人数字助理、网络、膝上型计算机、平板计算机、台式计算机、或者能够运行程序并访问网络(130)的任何类型的计算设备。

根据实施例，服务器(120)和(140)可以是膝上型计算机、上网本计算机、个人计算机(PC)、台式计算机、或者能够托管产品推荐程序(122)和储存库(126)并且经由网络(130)与客户端设备(110)通信的任何可编程电子设备。服务器(120)和(140)可以包括内部和外部硬件部件，如下面参考图2进一步详细描绘和描述的。服务器(120)和(140)还可以操作于云计算服务模型中，诸如如图11-13中示出和描述的软件即服务(SaaS)、平台即服务(PaaS)、或者基础架构即服务(IaaS)中。服务器(120)和(140)还可以位于云计算部署模型中，诸如私有云、社区云、公共云或混合云中。

根据本公开的实施例，诸如被示出为在服务器(120)本地的产品推荐程序(122)的程序可以运行在客户端计算设备(110)上或者可操作地耦合到网络(130)的另一服务器上。产品推荐程序(112)和(122)可以标识用户捕获的元件内的产品或服务，搜索被确定为与所标识的产品或服务相关的相关产品或服务，并且将相关的产品或服务呈现给用户。下面参考图2-10进一步详细说明产品推荐方法。

根据本公开的实施例，储存库(126)被示出为可操作地耦合到服务器₀(120)。储存库(126)可以包含与产品图像相关联的可以由产品推荐程序(112)和(122)用于标识与捕获的元件相关的产品或服务的标签或关键字。储存库(126)还可以是元储存库。元储存库是通过引用并入其他储存库的储存库。储存库(126)还可以是位于一个或多个服务器(120)和(140)上的一个或多个储存库，为说明的简洁性而示出其中的仅仅一个。

参考图2，描绘了人工智能系统(200)的示意图。如所示出的，服务器(210)被提供为跨网络连接(205)与多个计算设备(280)、(282)、(284)、(286)和(288)通信。服务器(210)被配置具有跨总线与存储器通信的处理单元。服务器(210)被示出为具有用于通过网络(205)从一个或多个计算设备(280)、(282)、(284)、(286)和(288)进行人工智能和/或自然语言处理的知识引擎(250)。更具体地，计算设备(280)、(282)、(284)、(286)和(288)经由一个或多个有线和/或无线数据通信链接与彼此通信并且与其他设备或部件通信，其中每个通信链接可以包括线缆、路由器、交换机、发送器、接收器、等等中的一个或多个。在该网络化布置中，服务器(210)和网络连接(205)可以实现针对一个或多个产品或服务的数字图像识别和解析。服务器(210)的其他实施例可以与除了本文中描绘的那些之外的部件、系统、子系统、和/或设备一起使用。

知识引擎(250)可以被配置为从各种来源接收输入。例如，知识引擎(250)可以从网络(205)、电子图像文件或文件储存库(262)的语料库(260)的一个或多个知识库、图像和向量表示储存库(264)或其他数据、内容用户以及其他可能的输入源接收输入。在选择的实施例中，知识库(260)(其还在本文中被称为语料库)可以包括包含于一个或多个知识数据源或语料库中的结构化、半结构化和/或非结构化内容。与网络(205)通信的各种计算设备(280)、(282)、(284)、(286)和(288)可以包括接入点。计算设备中的一些可以包括将数据的语料库存储为由知识引擎(250)使用的信息的主体以生成产品或服务推荐输出(204)的数据源的设备。在各种实施例中，网络(205)可以包括本地网络连接和远程连接，使得知识引擎(250)可以操作在任何大小的环境中，包括本地和全球(例如互联网)环境中。额外地，知识引擎(250)用作前端系统，其可以使从电子图像文件、网络可访问源和/或结构化数据源提取或被表示在电子图像文件、网络可访问源和/或结构化数据源中的各种知识可获得。以这种方式，一些过程填充知识引擎(250)，其中知识引擎(250)还包括接收请求并相应地做出响应的输入接口。

如所示出的，内容可以采用分别在图像储存库(262)和向量储存库(264)中的一个或多个电子图像文件的形式，用于用作关于知识库(250)的数据的语料库(260)的部分。语料库(260)可以包括任何结构化和非结构化图像文件(262)。语料库(260)还可以包括结构化和非结构化非图像文件(264)，包括但不限于用于由知识引擎(250)使用的任何文件、文本、文章或数据源(例如学术文章、词典、定义、百科全书引用、反馈数据、评论、等等)。内容用户可以经由网络连接或到网络(205)的互联网连接访问知识引擎(250)，并且可以将自然语言输入提交到可以高效地翻译(多个)非图像文件的知识引擎(250)。如下面进一步所描述的，当过程评价文档的给定章节的语义内容时，过程可以使用各种约定以从知识引擎(250)查询它。语义内容是基于诸如词语、短语、符号以及标志的能指(signifier)之间的关系以及它们代表什么、它们的外延或内涵的内容。换言之，语义内容是诸如通过使用自然语言(NL)处理来解读表达的内容。在一个实施例中，各种计算设备(280)-(290)中的一个或多个将良好形成的内容(202)(例如，自然语言文本)发送到知识引擎(250)，使得内容(202)可以被解读并且知识引擎(250)可以提供以一个或多个结果(204)的形式的响应。在一个实施例中，知识引擎(250)可以提供以排序的列表的结果(204)的形式的响应。知识引擎(250)与嵌入工具(252)、(254)、和(270)一起关于知识库(260)工作从而以最小迭代的对象交互来收敛于定向结果。

在一些说明性实施例中，服务器(210)可以是可从纽约阿蒙克市的国际商用机器公司获得的IBM Watson^TM系统，其利用下文描述的说明性实施例的机制来增强。IBMWatson^TM知识管理器系统可以接收输入内容(202)，其然后将其解析以提取内容(202)的特征或特性，这些特征或特性转而被应用到知识库(260)中存储的数据的语料库。基于内容(202)到数据的语料库的应用，通过在数据的语料库上查找具有用于将匹配或互补模式和相关联的对象或对象文件包含到提交的内容(202)的一些可能性的数据的语料库的部分来生成候选结果的集合。

接收到的内容(202)可以由使用各种推理算法在应用内容期间找到的数据的语料库的部分中的每个部分中使用的输入内容(202)和语言上执行分析的IBM Watson^TM服务器(210)处理。可以存在应用的数百个或甚至数千个推理算法，其中的每个执行不同分析，例如比较，并且生成分数。算法涉及图像表示、文本表示、流相似度、以及自适应注意力。

从各种算法获得的分数指示通过输入内容(202)基于推理算法的特定关注领域推断潜在响应(204)的程度。自适应注意力算法捕获在针对特定领域实时建立两个相似产品和相关联的对象图像文件之间的推论时执行的推理算法多么好。

自适应注意力方面可以与自然语言处理分离或结合。关于自然语言处理，系统(210)可以包括信息处理管理器(270)以通过检测并分类文本数据和相关联的文本模式、根据针对模式中的术语的特性元数据来生成和/或标识针对每个检测到的模式的特性并将(多个)所生成的特性与(多个)图像文件和相关联的图像数据关联来标识并分析基于非图像的数据，诸如文本数据。尽管示出为包含在服务器(210)中或与该服务器集成，但是信息处理管理器(270)可以被实施在跨网络(205)连接到服务器(210)的单独的计算系统(例如，290)中。无论被包含在哪里，信息处理管理器(270)支持自然语言处理结合由知识引擎(250)支持的图像处理以创建文本特性数据与图像文件之间的关系，并且基于特性元数据来标识潜在相似对象图像和图像文件。

如所示出的，知识引擎(250)包括对象管理器(252)和上下文管理器(254)。对象管理器(252)利用对象检测算法来标识图像对象和相关联的图像对象文件。在一个实施例中，图像对象是物理产品的视觉显示中的数字表示。对象管理器(252)用于将图像或图像文件转换为以一个或多个向量的形式的数学表示，并且产生每个图像对象的张量表示。张量表示是对象图像特征的多特征数学表示，例如多向量表示。应理解，对象可以由多个分量组成，并且对象的图像表示表示对象及其多个分量。因此，多分量对象的张量表示通过对象管理器(252)产生对象分量的每个图像表示的张量表示。

信息处理管理器(270)利用自然语言处理来标识非结构对象特征。信息处理管理器(270)被示出为可操作地耦合到对象管理器并且用于将(多个)所标识的非结构化对象特征与由对象管理器(252)标识的结构化对象特征相关或者标识其关系或关联。除了特征标识，信息处理管理器(270)将标识的非结构化对象特征转换为结构化格式，诸如向量图。在一个实施例中，信息处理管理器(270)利用自然语言处理来将所标识的非视觉对象转换成一个或多个语言分量，并且在一个实施例中，还标识针对每个语言分量的类别。对象管理器(252)通过将(多个)非结构化对象特征的向量表示并入到张量中来以张量表示与信息处理管理器(270)通信。因此，类似于结构化对象特征，非结构化对象特征被转换为数学表示并且被并入到张量表示中。

上下文管理器(254)利用由对象管理器(252)创建的张量表示以提取对应于由图像对象属性组合表示的视觉特征的向量。上下文管理器(254)针对一个或多个相关的对象图像的一个或多个对应向量或者在一个实施例中针对一个或多个非相关的对象图像的一个或多个对应向量应用向量相似度算法，并且还提取针对被表示在知识库(260)中的一个或多个相似地分类的图像对象的相似向量。在一个实施例中，上下文管理器(254)应用向量相似度算法以标识并提取相似地分类的对象。算法可以由上下文管理器(254)连续地应用以并入非结构化对象特征。例如，在一个实施例中，上下文管理器(254)基于接收到的(例如新的)非结构对象特征来执行动态重新评估。上下文管理器(254)分别咨询图像储存库(262)和向量储存库(264)，以标识并提取针对每个评估的结构化和非结构化对象特征的相似向量。每个表示的图像对象是对象内或与对象相关联的物理分量。

如所示出和描述的，上下文管理器(254)用于评估多视觉上下文相似度。更具体地，上下文管理器(254)创建或呈现以相似度上下文的形式的输出数据。在一个实施例中，上下文管理器基于返回的相似度上下文来对所标识的相似对象进行排序。上下文管理器(254)标识或选择要显示的产品图像。选择包括基于所选择的产品图像或图像分量文件的张量表示与(多个)相关的对象图像文件的张量表示的接近度对相似度上下文的动态重新评估。应理解，当多个图像被呈现并且一个图像被选择时，至少一个图像是非选择的。由上下文管理器(254)执行的排序调节非选择的对象图像的排序，其包括对每个非选择的对象张量与选择的对象张量的接近度的重新评估。由管理器(252)和(254)执行的评估和排序用于基于评估的对象方面的相似度而收敛于最终产品。因此，对象管理器(252)和上下文管理器(254)支持通过数学表示的收敛以及对对象图像和相关联的图像文件的评估。

如所示出和描述的，信息处理管理器(270)用于解决自然语言处理。更具体地，信息处理管理器(270)被配置为应用NL处理来检测源文本段，解析源段中的术语，并将从自然语言输入解析的术语和短语映射到一个或多个潜在模式中，一个或多个潜在模式在一个实施例中可以采用类比模式的形式。如本文中所描述的，信息处理管理器(270)可以执行句子或短语结构分析以解析句子并表示连接的术语。例如，信息处理系统可以使用语言解析器，诸如槽语法逻辑(SGL)解析器，以执行对源句子的解析来检测一个或多个指定模式(例如，“[名词][动词]像[x]作为[y]”或其变型，诸如“[名词][动词短语][比较器][形容词][名词短语]”)。信息处理管理器(270)还可以被配置为应用一个或多个学习方法来将检测到的模式与已知模式匹配以判定并分类转换为文本的源语言。

信息处理管理器(270)可以使用(多个)检测到的模式来在语料库或知识数据库(260)中搜索匹配引用以提供针对(多个)源非结构化图像对象的可能含义的证据。检索到的证据引用可以之后被处理为用于并入相关联的张量中的向量表示。为了支持向量表示，除了与(多个)术语相关联的主要特性之外，信息处理管理器(270)还可以使用(多个)所标识的术语的定义或含义中的词语来帮助分配并解析术语。

可以利用服务器(210)的信息处理系统的类型的范围从小手持设备，诸如手持计算机/移动电话(280)，到大型主机系统，诸如主机计算机(282)。手持计算机(280)的示例包括个人数字助理(PDA)、个人娱乐设备(诸如MP4播放器)、便携式电视、以及紧凑盘播放器。信息处理系统的其他示例包括笔或平板计算机(284)、膝上型或笔记本计算机(286)、个人计算机系统(288)、以及服务器(290)。如所示出的，各种信息处理系统可以使用计算机网络(205)联网在一起。可以用于将各种信息处理系统互相连接的计算机网络(205)的类型包括局域网(LAN)、无线局域网(WLAN)、互联网、公共交换电话网络(PSTN)、其他无线网络、以及可以用于将信息处理系统互相连接的任何其他网络拓扑。信息处理系统中的许多包括非易失性数据存储，诸如硬盘驱动器和/或非易失性存储器。信息处理系统中的一些可以使用单独的非易失性数据存储(例如，服务器(290)利用非易失性数据存储(290a)，并且大型计算机(282)利用非易失性数据存储(282a))。非易失性数据存储(282a)可以是各种信息处理系统外部或者可以在信息处理系统之一内部的部件。

视觉和非视觉对象标识和评估可以经由如图3中示出和描述的API管理或编排平台来访问，并且自然语言输入经由NLU输入路径来接收。参考图3，提供了示出图像对象和NL处理工具以及它们相关联的API的框图(300)。如所示出的，多个工具被嵌入知识引擎(305)内，其中工具包括与API₀(312)相关联的对象管理器(310)、与API₁(322)相关联的上下文管理器(320)、以及与API₂(332)相关联的信息处理管理器(330)。API中的每个可以以一种或多种语言和接口规范来实施。API₀(312)提供与对象管理器(352)相关联的并由其支持的功能；API₁(322)提供与内容管理器(354)相关联的并由其支持的功能；以及API₂(332)提供与信息处理管理器(370)相关联的并由其支持的功能。如所示出的，API(312)、(322)、和(332)中的每个可操作地耦合到API编排器(350)，其还被称为编排层，其在本领域中被理解为用作将单独的API透明地交织一起的抽象层。在一个实施例中，单独的API的功能可以被结合或组合。因此，本文中示出的API的配置不应当被理解为限制性的。因此，如本文中所示出的，工具的功能可以由它们相应的API包含或支持。

参考图4，提供了示出用于图像表示的信息处理系统的框图(400)。图像储存库(410)被填充有图像文件和相关联的图像文件元数据，并且在一个实施例中被称为训练储存库。在一个实施例中，图像储存库是语料库(460)的部分。如所示出的，储存库(410)被示出为存储多个数字图像。在一个实施例中，储存库被组织成层级或分类(420)的层，其中每层定义定义针对存储的图像的类别的类或子类。例如，储存库(410)被示出为具有层级的层的类，在本文中被示出为类₀(412)、类₁(414)、以及类_N(416)，并且每个类具有至少一个子类，分别被示出为子类₀(422)、子类₁(424)、以及子类_N(426)。尽管示出了仅仅三个类并且在每个类中有一个子类，但是这仅仅用于说明性目的并且不应当被认为是限制性的。(多个)存储的图像文件可以是单个图像实体，或者在一个实施例中可以是被存储为单独的数字图像文件的另一图像的剪裁的部分，其在一个实施例中可以被存储在分类(420)中合适地定义的子类(422)、(424)、或(426)中。因此，每个图像文件被分配给储存库(410)中的至少一个类和/或子类。

图像文件可以被分类为父图像或子图像，例如剪裁的图像。示出并描述了图像储存库(410)中的两个不同类的图像。在(450)处示出了示例父图像文件和剪裁的图像文件，包括父图像文件(430)和剪裁的图像文件(440)，其在本文中也被称为子图像。每个图像文件(430)和每个剪裁的图像文件(440)被示出为分别具有对象标识符(432)和(442)。子文件(440)包括引用父图像文件(430)并将子文件(440)定义为包括父图像文件(430)的至少一个分量的额外的对象标识符(444)。本文中表示的每个图像，诸如图像文件(430)和(440)，包括存储在相应图像文件中的额外的元数据，包括但不限于大小、尺度、颜色亮度、等等。这样的元数据也在本文中被称为原始图像特征。

如图4所示，图像数据储存库组织并存储图像文件。图像文件可以采用表示父图像的描绘与子类别有关的概念的区域的剪裁的图像的形式。参考图5，提供了示出图像文件和剪裁的区域的框图(500)。如所示出的，图像文件(510)包含具有本文中示出为区域₀(520)、区域₁(522)、区域₂(524)、区域₃(526)、以及区域₄(528)的五个剪裁的区域的父图像(550)。剪裁的区域的数量是出于说明性目的并且不应当被认为是限制性的。应理解，每个剪裁的区域表示父图像(550)内的概念。如所示出的，父图像(550)和剪裁的区域(520)-(528)两者都被表示在图像文件(510)中，其中每个剪裁的区域被交叉引用到其相关联的父图像，如关于图4中的对象标识符示出和描述的。

参考图6，提供了示出图像文件表示的流程图(600)。储存库包括来自一个或多个源的不同类的类别的图像(602)。图像储存库中的每个图像包括图像标识符和对应于文件的元数据(604)。在一个实施例中，图像标识符是图像元数据的部分。图像元数据的示例包括但不限于类、源、类别、对象、材料、价格、趋势、以及社交媒体。每个图像元数据属性成为训练属性，其可以在不同训练和相似度迭代下被利用。图像储存库中的图像的数量被分配给变量X_Total(606)，并且相关联的图像计数变量被初始化(608)。储存库中的每个图像图像X被预处理以关于大小、尺度以及亮度协调储存库中的文件(610)。在协调之后，图像计数变量被递增(612)并且确定所有图像是否已经被评估和协调(614)。否定响应跟随有返回到步骤(610)，并且肯定响应跟随有将协调的文件存储为训练数据存储库(616)中的图像训练数据。因此，图像文件被处理用于协调并且被存储为储存库或在一个实施例中语料库(260)中的图像训练数据。

参考图7，提供了示出图像表示和训练的过程流(700)。如所示出的，模型体系结构储存库(710)被提供有表示图像特征的一个或多个完整层。每层产生以向量的形式的图像特征的一个或多个数学表示，由此量化图像理解和分类用于相似度计算。层被示出在模型体系结构储存库(710)中，包括学习层(712)、完全连接层(714)以及预测层(716)。学习层(712)被用于正规化；完全连接层(714)将学习汇总在线性多维向量中；以及预测层(716)被用于分类并预测分类标签。过程流利用来自训练数据储存库(720)的图像训练数据以获得用于训练模型权重(732)的训练数据。训练数据储存库(720)面向表示对象和剪裁的对象的图像。在图6中示出并描述了填充训练数据储存库的方面。过程流利用模型体系结构储存库(710)来选择模型以训练其针对给定目标的权重(734)。图像属性被选择用于模型学习(736)并且将图像跨选择的属性区分开。图像属性的示例包括但不限于价格、源、年龄、等等。选择的图像属性被提供在相关联的训练元数据储存库(740)中。在一个实施例中，训练数据储存库(740)提供元数据、类别、以及分数，并且因此提供之后训练数据储存库(720)的数据的不同方面。尽管储存库(720)和(740)在本文中被示出为单独的单元，但是在一个实施例中，它们可以是单个物理元件。因此，过程流利用图像数据的多维方面。

在(736)处的属性选择之后，选择的模型被训练以区分或在一个实施例中分类或预测跨多个图像的以模型权重(738)的形式的选择的属性。训练的模型权重针对模型体系结构和相关联的层(712)-(716)以及其被训练的所有属性的组合以及模型权重储存库(750)中训练对应的时间戳被存储。过程返回到步骤(732)以重复针对每个模型体系结构和属性组合的过程。在一个实施例中，训练可能不能成功地得到令人满意的评价或性能准则。在训练元数据储存库中标识每个成功的训练数据以及时间戳(720)。

如进一步示出的，利用训练图像数据储存库(720)和模型权重储存库(750)针对每个图像或图像对象收集视觉表示数据(760)。针对每个模型，从跨目录或图像源中的所有图像的最后输出层收集图像值(762)。图像值包括针对图像属性中的每个的训练的属性数据。在一个实施例中，图像值采用向量形式。向量被连接以形成张量，例如多维向量，其对应于该图像从不同视角的视觉表示(764)。在一个实施例中，张量中的每个维度对应于模型属性组合。张量针对相应图像被存储在视觉表示张量储存库中(766)，张量包括(多个)对象标识符以及反映模型何时被训练的时间戳。每个张量内的向量表示不同模型和属性向量。每个向量包含从针对给定模型的最后完全连接的层获得的分数以及其被训练的属性。如所示出的，张量被存储在视觉表示张量储存库(770)中。因此，每个图像和其相关联的属性被处理用于以向量形式表示并且被存储在张量储存库中。

如图7所示，图像被处理用于图像表示。参考图8A和图8B，提供了示出利用图像表示用于计算相似度的过程的流程图(800)。每个对象图像文件采用每个图像对象的张量表示。张量是对象图像特征的多特征数学表示，其中每个对象特征是被表示在对象内的物理分量。在本文中示出并利用视觉表示张量储存库(810)。对于填充储存库(810)参考图7。储存库存储针对相应图像标识符、父图像标识符和/或子图像标识符的张量以及指代模型何时被训练的对应时间戳。每个张量包括两个或更多个向量，其中每个向量是图像数据的数学表示。包括张量的向量表示不同模型和属性向量。变量X_Total表示被表示在储存库(812)中的图像的数量，并且相关联的图像计数变量X被初始化(814)。由图像标识符表示的每个图像包括一个或多个对象。对于每个图像(图像_X)，对象的数量被标识为Y_Total(816)，并且相关联的对象计数变量Y被初始化(818)。针对对象X,Y获得视觉表示向量(820)并且提取对应于对象X,Y的视觉特征的向量(822)。因此，对于数据储存库中的每个图像，获得相关联的张量并提取被表示在张量中的视觉特征。

使用对象和图像标识符，提取相同或可比较的分类层或类中的一个或多个相似图像向量(824)。在一个实施例中，对象、模型和属性标识符被用于标识相似对象。在另一实施例中，近似最近邻算法或备选的优化计算被用于标识与对象X,Y相似的对象(826)。在步骤(824)之后，向量相似度算法被应用以获得针对提取的和相似的图像向量(例如，针对相同类别中的其他产品的对应向量)的对象X,Y的相似度分数(828)。在一个实施例中，均值、加权均值或其他均值被利用，并且在一个实施例中被组合成单个分数。头N个相似对象基于数学评估来标识(830)，其中N表示要传送或呈现的相似对象的最大数量。在一个实施例中，变量N是可配置的。对象变量Y被递增(832)，并且确定针对图像的所有对象是否已经被处理(834)。对在步骤(822)处确定的否定响应跟随有返回到步骤(822)，并且肯定响应跟随有对图像计数变量的递增(836)。之后确定储存库中的图像中的每个是否已经被处理(838)。对在步骤(838)处确定的否定响应跟随有返回到步骤(816)，并且肯定响应推断出图像表示处理(840)。因此，每个图像和每个图像对象中的向量被处理以标识相似图像和图像对象。

针对储存库中的每个图像标识相似图像和/或图像对象。在步骤(838)处推断出图像表示处理之后或者在步骤(826)之后，所标识的相似图像被组合并按顺序放置，其在一个实施例中被称为头N个相似对象的序列(842)。序列中的位置对应于对象、模型以及属性标识符的固定组合。在步骤(842)处标识的头N个相似产品被称为头N个产品列表。另外，在步骤(844)处计算相似度列表，其还在本文中被称为列表或多维向量的列表。在步骤(844)处的相似度列表(还在本文中被称为前头产品列表)基于产品、对象、模型以及属性标识符的对应头N个计算。在步骤(842)和(844)处创建的列表被存储在相关联的产品相似度储存库(846)中，其中储存库在本文中被示出为(850)。类似地，在步骤(822)和(824)处提取的向量被存储在相似度特征向量储存库(880)中。该储存库包含每个产品与其他产品的相似度分数的二维向量。在一个实施例中，第一维度对应于利用其比较相似度的其他产品标识符，并且第二维度对应于对象、模型以及属性标识符的组合的向量，针对其相似度分数针对给定产品标识符对比其他产品标识符被存储。因此，来自相似度计算的两个不同类别的数据被存储在相关联的储存库(在本文中被示出为产品相似度储存库和相似度特征向量储存库)中。

存储在对应储存库中的产品相似度和向量相似度两者都被实时用于标识感兴趣的相似产品。参考图9A和图9B，提供了示出自适应注意力相似度过程的流程图(900)。如所示出的，存在两个半并行算法(910)和(970)。算法(910)是指计算并且算法(970)是指相关联的显示端口，其还在本文中被称为在视觉显示器上传达产品标识。初始化(912)迭代计数变量i，并且实体(在本文中还被称为用户)登录到网络并且他们的简档数据被获得(914)。简档数据可以包括但不限于购买、客户关系管理(CRM)数据、位置、地理、浏览器、等等。当实体标识感兴趣的产品或者在一个实施例中感兴趣的服务时，排序和推荐算法用于获得针对相关联的子类别的所标识的产品的产品排序(916)。在步骤(914)的备选步骤中，实体可以被检测为已经登录在针对电子商务的给定子类别的产品登录页面上(972)。在步骤(916)或步骤(972)之后，产品排序推荐被提供给实体(974)。在诸如当实体选择产品时的这样的时间处，相对于选择的产品的头N个相似产品被获得并被呈现给实体(976)。对于面向标识头N个相似产品的细节参见图8A和图8B。因此，注意力相似度过程的第一方面利用图8A和图8B中示出和描述的相似产品算法。

在步骤(976)之后，针对呈现的相似产品中的每个获得产品标识符(918)，例如针对头N个相似产品的标识符。在一个实施例中，从产品相似度储存库获得产品标识符，参见图8A和图8B。选择的产品被顺序地呈现给实体，并且头N个相似产品的代表性图像也被呈现(978)。在诸如当实体做出对代表性图像之一的选择时的时间处，选择的产品与其产品标识符一起被标识，并且在选择的产品之前排序但是未被选择用于迭代的其他产品也与它们相应的产品标识符一起被标识(980)。之后确定在步骤(980)处的选择的产品是否是呈现的产品序列中的图像之一，例如来自头N个相似产品(982)。对在步骤(982)处的确定的否定响应跟随有确定来自产品登录页面的产品是否是在步骤(984)处选择的主体。对在步骤(984)处的确定的肯定响应跟随有标识在选择过程中采用的步骤的数量i(986)并将实体和相关联的交互数据存储在相关联的储存库中(988)。类似地，对在步骤(984)处的确定的否定响应跟随有标识在选择过程中采用的步骤的数量i(990)并将选择过程在相关联的储存库中记录为失败(992)。

已经示出，对在步骤(982)处的确定的肯定响应是相似度产品呈现正由活动的实体考虑的指示。检索来自选择的产品的头N个相似度分数(920)。其后，标识其他候选产品T(922)。基于相对于头N个产品的相似度来选择候选产品。在一个实施例中，候选产品T的数量大于头N个标识的产品，例如T>N。T个产品的默认优先级基于基础产品与候选父产品的相似度和候选产品与其父产品的相似度的积的以下正规化权重分数。利用相似度特征向量储存库，所有候选产品的相似度向量被收集用于该基础产品(924)。向量(还在本文中被称为梯度向量)利用被分配给相似度向量的长度的长度来初始化(926)。其后，计算选择的产品与选择的产品被呈现的页面上的登录产品之间的相似度的差(928)。在一个实施例中，计算的差被称为正梯度向量(PGV)。所有正负梯度(pNG)被计算为拒绝的产品中的每个的相似度向量的差(930)，例如候选相似产品与登录产品之间的差。在一个实施例中，存在多于一个拒绝的积。在一个实施例中，在步骤(930)处，针对具有相关性向量(RV)的每个pNG向量计算点积，其中RV被计算如下：

Mod[-1*dot(PGV.pNG)/abs(dot(PGV.pNG))]

RV的每个元素在PGV和pNG的对应元素的符号相同时为0，并且在它们的符号不同时为1。除了在步骤(930)处的点积计算，计算(932)每个pNG的绝对值的标量和作为它们的权重。标量和计算包括将权重标准化为加起来为1(Sn)，并且获取pNG的加权平均(例如，对应于每个pNG的权重，如Sn)以形成负梯度向量(NGV)，其被标准化。

PGV和NGV两者都具有相关联的学习速率。变量Lp表示针对PGV的学习速率，并且变量Ln表示NGV的学习速率。类似地，变量Ed表示针对每个交互步骤的梯度速度的指数衰减系数。在步骤(932)之后，梯度速度Vi针对这次迭代被计算(934)为：

Vi＝Lp*PGV–Ln*NGV

并且净梯度被计算为：

NG＝Ed*Vi-1+(1-Ed)*Vi

其中Vi-1是来自先前迭代的速度向量。在步骤(932)和(934)处的计算之后，选择的产品被改变为新登录产品并且获得(936)针对对应于新登录产品的所有候选产品的相似度向量。另外，获得(938)新登录产品与先前登录产品之间的相似度向量，并且将NG添加到相似度向量以表示理想相似度向量(ISV)(940)。所有候选产品的ISV和相似度向量之间的相似度利用作为新登录产品的产品标识符的主键产品标识符来计算(942)。其后，候选产品列表中的产品标识符以相似度的顺序来放置，例如排序越高相似度越高，并且列表被呈现为针对先前选择的产品的新登录页面的建议的产品列表(944)。以上描述的步骤中示出的迭代面向针对登录产品的相似度评估和被标识为相似的任何产品的选择。在以上描述的迭代之后，迭代计数变量i被递增(946)，跟随有返回到步骤(980)用于任何随后的产品选择。因此，动态地示出和描述的每次迭代适应产品选择和产品相似度。

如图9A和图9B所示，产品和产品属性之间的相似度被转换为数学评价。对感兴趣产品的收敛采用自适应相似度和非相似度评估。更具体地，收敛采用自适应评价并将它们整合到产品收敛中。参考图10，提供了示出产品交互和自适应评价的流程图(1000)。如所示出的，登录页面被提供在相关联的视觉显示器上并且呈现针对选择的或定义的类别或者在一个实施例中选择的或定义的子类别的多个产品(1002)。响应于从登录页面呈现选择了产品(1004)，标识选择的产品中的属性(1006)。对于每个标识的属性，跨选择的产品的类别中存在的所有属性执行相似评估和非相似评估两者(1008)。对于(多个)相似度和非相似度评估和相关联的计算参见图9A和图9B。权重被应用到产品和(多个)属性的组合(1010)。在一个实施例中，在步骤(1010)处对权重的应用采用针对非选择的产品图像(例如拒绝的产品图像)的相似度的反向顺序。基于相似度计算，标识(1012)并呈现(1014)选择的产品的类别或子类别中的一个或多个产品。响应于随后的产品选择(1016)，分别创建(1018)选择图和创建(1020)拒绝图。选择图和拒绝图用于提供产品导航和(多个)选择的洞察。

选择图是存在于一个或多个选择的产品及其相关联的图像中的属性的评估。如所示出和描述的，选择过程可以限于单个选择，或者在一个实施例中，可以采用多个选择。产品选择过程中的每个先前步骤通过因子λ来打折扣，其中0<＝λ<＝1。折扣因子λ在不存在折扣的情况下被分配给整数1，并且其在仅仅当前产品处于考虑中的情况下被分配给0。例如，在两个迭代的选择过程中，针对第一步骤，折扣采用针对第一选择的折扣因子λ¹，并且折扣采用针对第二选择的因子λ⁰。拒绝图类似于选择图，但是被应用于对存在于一个或多个呈现的且非选择的产品及其相关联的图像中的属性的评估。对于存在于第一登录页面或原始登录页面中的每个拒绝的产品，折扣因子是λ¹，并且对于呈现于当前登录页面中的每个拒绝的产品，折扣因子是λ⁰。

图9A和图9B中示出和描述的相似度评估分别与在步骤(1018)和(1020)处的选择和拒绝图一起被用作自适应地计算并标识用于呈现的相似产品(1022)的输入。更具体地，在步骤(1022)处，针对最近选择的产品或产品图像集中的每个标识的产品属性，包括针对每个先前产品选择迭代的指数折扣因子λ，相似属性和非相似属性两者都跨所有属性被标识。对产品和产品属性的组合进行加权(1024)。在一个实施例中，加权或加权应用采用来自拒绝的产品集的相似度的反向顺序。在步骤(1024)之后，标识产品和产品图像的下一集合以进行呈现(1026)。变量Y_Total被分配给在步骤(1028)处标识的产品的数量。之后确定在下一集合中是否存在多于一个产品(1030)。对在步骤(1030)处的确定的否定响应推断出自适应评价和产品收敛评估，并且对在步骤(1030)处的确定的肯定响应跟随有返回到步骤(1014)。因此，针对拒绝的产品和选择的产品两者执行自适应评估以支持在标识和选择过程中收敛于最终产品。

应理解，每个数字产品图像可以包含非视觉特性，包括但不限于价格、材料、适合类型、样式、等等。参考图11，提供了示出产品和相关联的产品描述数据的产品储存库的流程图(1100)。变量X_Total被分配给储存库中的产品的数量，或者在一个实施例中被分配给产品分类(1102)内的类中的产品的数量，并且相关联的产品计数变量被初始化(1104)。非视觉产品特性的数量针对产品_X被标识并被分配给变量Y_Total(1106)，并且相关联的非视觉产品特性计数变量被初始化(1108)。对于每个产品，非视觉特性X,Y被提取(1110)。应理解，非视觉特性可以是NL处理数据，包括但不限于文本数据或转换为文本数据的口头数据。如图2中示出和描述的，信息处理管理器(270)处理非视觉数据，标识数据内的术语，将非视觉数据转换为向量形式用于存储在知识库(260)中。在步骤(1110)之后，并且结合自然语言处理和信息处理管理器(270)，针对储存库(1112)中的每个产品执行相似度比较。在一个实施例中，相似度比较限于相同类或子类内的产品。根据属性或特性X,Y，任何发现的相似度被存储在非视觉相似度数据库或储存库中(1114)。在步骤(1114)之后，特性计数变量被递增(1116)，并且确定所有非视觉特性是否已经针对相似度被评估(1118)。对在步骤(1118)处的确定的否定响应跟随有返回到步骤(1110)，并且肯定响应跟随有对产品计数变量的递增(1120)。之后确定储存库中的每个产品是否已经被评估(1122)。在步骤(1122)处的否定响应跟随有返回到步骤(1106)以用于另外的(多个)相似度评估，并且肯定响应推断出非视觉特性相似度评估。因此，视觉产品特性和非视觉产品特性两者都针对相似度测量进行评估。

应理解，产品特性可以不是预先计算的值。例如，应理解，产品数据可以出现至少两个不同的类，包括由产品的制造者或销售者提供的一类数据，并且另一类数据可以采用被提供为消费者输入的消费者反馈数据的形式。例如，先前购买者可以完成面向产品的调查，包括外观、适合度、等等。消费者反馈可以以文本形式呈现，并且因此评估或量化起来可能是有挑战的。

如图1-11所示，动态产品评估和收敛基于物理输入实时发生。本文中示出和描述的工具支持交互和收敛。相似度和自适应注意力评估并入视觉对象特性以及自然语言处理。

图1-11中示出和描述的动态经验学习的方面采用一个或多个功能工具以及人工智能平台来支持对象表示、相似度评估、以及自适应注意力。(多个)功能工具(例如知识引擎)的方面以及其相关联的功能可以被包含于处于单个位置中的计算机系统/服务器中，或者在一个实施例中可以被配置在共享计算资源的基于云的系统中。参考图12，提供了示出与基于云的支持系统通信以实施以上参考图1-11描述的过程的计算机系统/服务器(1202)(下文中称为主机(1202))的示例的框图(1200)。主机(1202)利用许多其他通用或专用计算机系统环境或配置可操作。适合于与主机(1202)一起使用的公知的计算系统、环境和/或配置的示例包括但不限于个人计算机系统、服务器计算机系统、薄客户机、厚客户机、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子设备、网络PC、微型计算机系统、大型计算机系统以及包括以上系统、设备和其等价物中的任何的文件系统(例如，分布式存储环境和分布式云计算环境)。

可以在由计算机系统执行的诸如程序模块的计算机系统可执行指令的一般上下文中描述主机(1202)。总体上，程序模块可以包括例程、程序、对象、部件、逻辑、数据结构、等等，其执行特定任务或实现特定抽象数据类型。主机(1202)可以被实践在分布式云计算环境中，其中任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中，程序模块可以被定位在包括存储器存储设备的本地计算机系统存储介质和远程计算机系统存储介质两者中。

如图12中所示出的，主机(1202)以通用计算设备的形式示出。主机(1202)的部件可以包括但不限于一个或多个处理器或处理单元(1204)、系统存储器(1206)以及将包括系统存储器(1106)的各种系统部件耦合到处理器(1204)的总线(1208)。总线(1208)表示若干类型的总线结构中的任何中的一个或多个，包括存储器总线或存储器控制器、外围设备总线、加速图形端口以及使用各种总线体系结构中的任何的处理器或本地总线。通过举例而非限制性的方式，这样的体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强ISA(EISA)总线、视频电子标准联合会(VESA)本地总线、以及外围设备部件互连(PCI)总线。主机(1202)通常包括各种计算机系统可读介质。这样的介质可以为由主机(1202)可访问的任何可用介质，并且其包括易失性介质和非易失性介质、可移除质和不可移除介质两者。

存储器(1206)可以包括以易失性存储器的形式的计算机系统可读介质，例如随机访问存储器(RAM)(1230)和/或高速缓存存储器(1232)。仅仅通过举例的方式，存储设备(1234)可以被提供用于从不可移除的、非易失性磁性介质(未示出并通常被称为“硬盘驱动器”)读取和写入到不可移除的、非易失性磁性介质。尽管未示出，可以提供用于从可移除的、非易失性磁盘(例如，“软盘”)读取和写入到可移除的、非易失性磁盘的磁盘驱动器和用于从可移除的、非易失性光盘读取和写入到可移除的、非易失性光盘(例如，CD-ROM、DVD-ROM或其他光学介质)的光盘驱动器。在这样的实例中，每个可以通过一个或多个数据介质接口被连接到总线(808)。

具有程序模块(1242)的集合(至少一个)的程序/实用工具(1240)可以通过举例而非限制性的方式被存储在存储器(1206)以及操作系统、一个或多个应用程序、其他程序模块和程序数据中。操作系统、一个或多个应用程序、其他程序模块和程序数据或其某种组合中的每个可以包括网络化环境的实施方式。程序模块(1242)一般执行实施例的面向对象表示的数据建模、相似度计算、自适应注意力以及自然语言处理以经历收敛的功能和/或方法。例如，程序模块(1242)的集合可以包括被配置为如图2中所描述的知识引擎、信息处理系统、检测引擎、以及分析的模块。

主机(1202)还可以与以下各项进行通信：诸如键盘、指点设备、感觉输入设备、感觉输出设备等等的一个或多个外部设备(1214)；显示器(1224)；使得用户能够与主机(1202)交互的一个或多个设备；和/或使得主机(1202)能够与一个或多个其他计算设备进行通信的任何设备(例如，网络卡、调制调解器、等等)。这样的通信可以经由(多个)输入/输出(I/O)接口(1122)进行。而且，主机(1202)可以经由网络适配器(1220)与诸如局域网(LAN)、一般的广域网(WAN)、和/或公共网络(例如，互联网)的一个或多个网络进行通信。如所描绘的，网络适配器(1220)经由总线(1208)与主机(1202)的其他部件进行通信。在一个实施例中，分布式文件系统(未示出)的多个节点经由I/O接口(1222)或经由网络适配器(1220)与主机(1202)进行通信。应当理解，尽管未示出，但是可以结合主机(1202)使用其他硬件和/或软件部件。示例包括但不限于：微代码、设备驱动器、冗余处理单元、外部盘驱动阵列、RAID系统、磁带驱动器和数据归档存储系统、等等。

在本文中，术语“计算机程序介质”、“计算机可用介质”以及“计算机可读介质”一般用于指代诸如包括RAM(1230)、高速缓存(1232)、以及存储系统(1234)的主存储器(1206)的介质，诸如可移除存储驱动器和安装于硬盘驱动器中的硬盘。

计算机程序(也被称为计算机控制逻辑)被存储在存储器(1206)中。计算机程序还可以经由诸如网络适配器(1220)的通信接口来接收。这样的计算机程序当运行时使得计算机系统能够执行如本文所讨论的本公开的实施例的特征。具体地，计算机程序当运行时使得处理单元(1204)能够执行计算机系统的特征。因此，这样的计算机程序表示计算机系统的控制器。

在一个实施例中，主机(1202)是云计算环境的节点(1210)。如本领域中已知的，云计算是用于实现对可以以最小管理努力或与服务的提供者的交互快速提供和释放的可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储设备、应用、虚拟机、以及服务)的共享池的方便的按需的网络访问的服务递送的模型。该云模型可以包括至少五种特性、至少三个服务模型、以及至少四个部署模型。这样的特性的示例如下：

按需自助式服务：云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。

广泛的网络接入：计算能力可以通过标准机制在网络上获取，这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、个人数字助理PDA)对云的使用。

资源池：提供者的计算资源被归入资源池并通过多租户(multi-tenant)模式服务于多重消费者，其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下，消费者不能控制或甚至并不知晓所提供的资源的确切位置，但可以在较高抽象程度上指定位置(例如国家、州或数据中心)，因此具有位置无关性。

迅速弹性：能够迅速、有弹性地(有时是自动地)部署计算能力，以实现快速扩展，并且能迅速释放来快速缩小。在消费者看来，用于部署的可用计算能力往往显得是无限的，并能在任意时候都能获取任意数量的计算能力。

可测量的服务：云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量能力，自动地控制和优化资源效用。可以监测、控制和报告资源使用情况，为服务提供者和消费者双方提供透明度。

服务模型如下：

软件即服务(SaaS)：向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件)从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置外，消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础架构。

平台即服务(PaaS)：向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用，这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构，但对其部署的应用具有控制权，对应用托管环境配置可能也具有控制权。

基础架构即服务(IaaS)：向消费者提供的能力是消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构，但是对操作系统、存储和其部署的应用具有控制权，对选择的网络组件(例如主机防火墙)可能具有有限的控制权。

部署模型如下：

私有云：云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。

共同体云：云基础架构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规考虑)的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。

公共云：云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。

混合云：云基础架构由两个或更多部署模型的云(私有云、共同体云或公共云)组成，这些云依然是独特的实体，但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。

云计算环境是面向服务的，特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。

参考图13，说明性云计算网络(1300)。如所示出的，云计算网络(1300)包括具有由云消费者使用的云计算设备可以与之通信的一个或多个云计算节点(1310)的云计算环境(1350)。这些本地计算设备的示例包括但不限于个人数字助理(PDA)或蜂窝电话(1354A)、台式计算机(1354B)、膝上型计算机(1354C)和/或汽车计算机系统(1354N)。节点(1310)内的各个节点还可以与彼此通信。它们可以被物理地或虚拟地分组(未示出)在一个或多个网络中，一个或多个网络诸如为如上文所描述的私有云、社区云、公共云或混合云、或者其组合。这允许云计算环境(1300)提供基础架构、平台和/或软件即服务，对于其云消费者不需要将资源维持在本地计算设备上。应理解，图13中示出的计算设备(1354A-N)的类型旨在仅仅为说明性的并且云计算环境(1350)可以通过任何类型的网络和/或网络可寻址连接(例如，使用web浏览器)与任何类型的计算机设备通信。

参考图14，示出了由图12的云计算网络提供的功能抽象层(1400)的集合。应当首先理解，图14中示出的部件、层以及功能旨在仅仅为说明性的，并且实施例不限于此。如所描绘的，提供了以下层和对应功能：硬件和软件层(1410)、虚拟化层(1420)、管理层(1430)、以及工作负载层(1440)。硬件和软件层(1410)包括硬件和软件部件。硬件部件的示例包括：大型主机，在一个示例中为

系统；基于RISC(精简指令集计算机)体系结构的服务器，在一个示例中为IBM/>

系统；IBM/>

系统；IBM

系统；存储设备；网络和网络化部件。软件部件的示例包括：网络应用服务器软件，在一个示例中为IBM/>

应用服务器软件；以及数据库软件，在一个示例中为IBM/>

数据库软件。(IBM、zSeries、pSeries、xSeries、BladeCenter、WebSphere、以及DB2是国际商用机器公司在全球许多司法辖区内注册的商标)。

虚拟化层(1420)提供抽象层，从该层可以提供虚拟实体的以下示例：虚拟服务器；虚拟存储设备；虚拟网络，包括虚拟私有网络；虚拟应用和操作系统；以及虚拟客户端。

在一个示例中，管理层(1430)可以提供以下功能：资源提供、计量和定价、用户端口、服务层管理、以及SLA规划和实现。资源提供提供对用于执行云计算环境内的任务的计算资源和其他资源的动态获取。计量和定价提供当资源在云计算环境内被利用时的成本跟踪，以及用于消耗这些资源的计费或结算。在一个示例中，这些资源可以包括应用软件许可证。安全提供针对云消费者和任务的身份验证以及针对数据和其他资源的保护。用户端口为消费者和系统管理员提供对云计算环境的访问。服务层管理提供云计算资源分配和管理，使得要求的服务层被满足。服务层协议(SLA)规划和实现提供针对根据SLA预料到未来要求的云计算资源的预先布置和获取。

工作负载层(1440)提供云计算环境可以被用于的功能的示例。可以从该层提供的工作负载和功能的示例包括但不限于：映射和导航；软件部署和生命周期管理；虚拟教室教育递送；数据分析处理；交易处理；以及认知相似度评估。

将认识到，本文中公开了一种用于认知相似度评估、标识收敛、以及确定并传送输出对象的系统、方法、装置、以及计算机程序产品。如所公开的，系统、方法、装置、以及计算机程序产品对非视觉对象应用人工智能处理以有助于对输出对象的标识收敛。

尽管已经示出并描述了本公开的实施例的具体实施例，但是对于本领域技术人员将显而易见的是，基于本文中的教导，可以在不脱离这些实施例及其更宽泛方面的情况下做出改变和修改。因此，随附权利要求应将处于本实施例的真实精神和范围内的所有这样的改变和修改包含在它们的范围内。另外，应理解，实施例仅由随附权利要求限定。本领域技术人员将理解，如果意图介绍的要求保护的元素的特定数量，则这样的意图将被明确地记载在权利要求中，并且在缺少这样的记载的情况下，不存在这样的限制。对于非限制性示例，作为对理解的帮助，以下随附权利要求包含对介绍性词语“至少一个”和“一个或多个”的使用以介绍要求保护的元素。然而，对这样的词语的使用不应当被理解为暗示由不定冠词“一(a)”或“一个(an)”对要求保护的元素的介绍将包含这样的介绍的要求保护的元素的任何特定权利要求限制于包含仅仅一个这样的元素的实施例，即使当相同权利要求包括介绍性词语“一个或多个”或“至少一个”以及诸如“一”或“一个”的不定冠词时；这同样适用于在权利要求中对定冠词的使用。

本公开的实施例可以是系统、方法和/或计算机程序产品。另外，本公开的实施例的选择的方面可以采取完全硬件实施例、完全软件实施例(包括固件、驻存软件、微代码、等等)或者可以全部在本文中总体上被称为“电路”、“模块”或“系统”的组合了软件和/或硬件方面的实施例的形式。另外，本公开的实施例的方面可以采取体现在计算机可读存储介质(或多个介质)中的计算机程序产品的形式，其上具有用于使处理器实现本公开的实施例的方面的计算机可读程序指令。在如此实现的情况下，所公开的系统、方法和/或计算机程序产品可操作用于改进所公开的实施例的功能和操作。

计算机可读存储介质可以是可以保留并存储用于由指令执行设备使用的指令的有形设备。计算机可读存储介质可以例如但不限于，电子存储设备、磁性存储设备、光学存储设备、电磁存储设备、半导体存储设备或前述中的任何适当组合。计算机可读存储介质的更具体示例的非穷举式列表包括以下：便携式计算机磁盘、硬盘、动态或静态随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、磁性存储设备、便携式紧凑盘只读存储器(CD-ROM)、数字多用盘(DVD)、记忆棒、软盘、诸如具有记录在其上的指令的槽中的穿孔卡或凸起结构的机械编码设备以及前述的任何适当组合。如本文中使用的计算机可读存储介质不应被解释为暂态信号本身，所述暂态信号例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤线缆传递的光脉冲)或通过电线传输的电信号。

本文中描述的计算机可读程序指令能够从计算机可读存储介质下载到相应的计算/处理设备或经由网络下载到外部计算机或外部存储设备，所述网络例如互联网、局域网、广域网和/或无线网络。网络可以包括铜传输线缆、光学传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令并将计算机可读程序指令转发以用于存储在相应的计算/处理设备内的计算机可读存储介质中。

用于执行本公开的实施例的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任何组合编写的源代码或目标代码，所述一种或多种编程语言包括诸如Java、Smalltalk、C++等的面向对象编程语言和诸如“C”编程语言或类似的编程语言的传统过程式编程语言。计算机可读程序指令可以全部地运行在用户的计算机上、部分地运行在用户的计算机上、作为独立软件包运行、部分地运行在用户的计算机上并且部分地运行在远程计算机上或全部地运行在远程计算机或服务器或服务器的集群上。在后一种情形下，远程计算机可以通过包括局域网(LAN)或广域网(WAN)的任何类型的网络连接到用户的计算机，或者可以(例如，通过使用互联网服务提供商的互联网)对外部计算机进行连接。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用用于使电子电路个性化的计算机可读程序指令的状态信息来运行计算机可读程序指令以便执行本公开的实施例的方面。

本文中参考根据实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图来描述本公开的实施例的方面。将理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合能够通过计算机可读程序指令来实施。

这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生一种机器，使得经由计算机或其他可编程数据处理装置的处理器运行的指令创建用于实施流程图和/或一个或多个框图框中指定的功能/动作的部件。这些计算机可读程序指令还可以被存储在计算机可读存储介质中，其能够指引计算机、可编程数据处理装置和/或其他设备以特定方式工作，使得具有存储在其中的指令的计算机可读存储介质包括包含实施流程图和/或一个或多个框图框中指定的功能/动作的方面的指令的制品。

计算机可读程序指令还可以被下载到计算机、其他可编程数据处理装置或其他设备上以使一系列操作步骤被执行在计算机、其他可编程数据处理装置或其他设备上从而产生计算机实施的过程，使得运行在计算机、其他可编程装置或其他设备上的指令实施流程图和/或一个或多个框图框中指定的功能/动作。

附图中的流程图和框图示出了根据各个实施例的系统、方法和计算机程序产品的可能实施方式的体系结构、功能和操作。在这一点上，流程图或框图中的每个框可以表示包括用于实施(多个)指定的逻辑功能的一个或多个可执行指令的指令的模块、片段或部分。在一些备选实施方式中，框中指出的功能可以不以附图中指出的顺序发生。例如，取决于涉及的功能，连续示出的两个框实际上可以基本上同时地被运行，或各框可以有时以相反的顺序被运行。还将指出，框图和/或流程图中的每个框以及框图和/或流程图中的框的组合能够通过执行指定功能或动作或执行专用硬件和计算机指令的组合的基于专用硬件的系统来实施。

将认识到，尽管已经在本文中为了说明的目的描述了特定实施例，但是可以在不脱离实施例的精神和范围的情况下做出各种修改。具体地，人工智能平台和相关联的处理可以由不同计算平台执行或者跨多个设备执行。另外，数据存储设备和/或语料库可以在本地、远程或跨多个系统分布。因此，这些实施例的保护范围仅由随附权利要求以及其等效物限制。

Claims

1.一种用于产品标识和收敛的系统，包括：

处理单元，其可操作地耦合到存储器；

人工智能平台，其与所述处理单元和所述存储器通信；

知识引擎，其与所述处理单元通信以计算跨被表示为图像的两个或更多个对象的视觉相似度，所述知识引擎包括：

对象管理器和上下文管理器，所述对象管理器用于：

采用对象检测算法来标识两个或更多个图像对象；以及

产生每个图像对象的张量表示，其中所述张量表示是对象图像特征的多特征数学表示，每个对象图像特征是所述对象内的物理分量；

所述上下文管理器用于：

评估多视觉上下文相似度，包括针对一个或多个相关对象图像的一个或多个对应向量应用向量相似度算法，并且基于从所述向量相似度算法返回的相似度上下文来标识一个或多个相似对象；以及

响应于对产品图像的选择，基于选择的所述产品图像的所述张量表示与所述一个或多个相关对象图像的所述张量表示的接近度来动态重新评估所述相似度上下文；

响应于所述动态重新评估来标识并选择最终产品；

标识选择的产品图像中存在的一个或多个属性；

执行跨每个接受的和拒绝的对象图像的自适应相似度评估，所述评估用于采用指数折扣因子；以及

应用所述产品与标识的一个或多个属性的加权组合以收敛于所述最终产品。

2.根据权利要求1所述的系统，还包括所述知识引擎用于基于返回的所述相似度上下文来对标识的所述相似对象进行排序。

3.根据权利要求2所述的系统，还包括所述知识引擎用于调节每个非选择的相似对象在所述排序中的排序，所述调节包括对每个对象张量表示与所述相似度上下文的接近度的重新评估。

4.根据权利要求2所述的系统，其中所述图像对象还包括多个分量，并且还包括所述对象管理器用于产生所述对象分量的每个图像表示的所述张量表示。

5.根据权利要求3所述的系统，还包括所述上下文管理器用于提取对应于由图像对象属性组合表示的视觉特征的向量，并且提取针对至少一个相似地分类的图像对象的相似向量。

6.根据权利要求1所述的系统，其中所述最终产品表示由所述上下文管理器以最小迭代的对象交互在定向结果上的收敛。

7.一种用于产品标识和收敛的的方法，所述方法包括：

计算跨被表示为图像的两个或更多个对象的视觉相似度的多个上下文，包括：

采用对象检测算法来标识两个或更多个图像对象，每个对象是物理的；

响应于选择产品图像，基于选择的所述产品图像的所述张量表示与所述一个或多个相关对象图像的所述张量表示的接近度来动态重新评估所述相似度上下文；以及

响应于所述动态重新评估来标识并选择最终产品；

标识选择的图像产品中存在的一个或多个属性；

8.根据权利要求7所述的方法，还包括基于返回的所述相似度上下文来对标识的所述相似对象进行排序。

9.根据权利要求8所述的方法，还包括调节每个非选择的相似对象在所述排序中的排序，所述调节包括重新评估每个对象张量表示与所述相似度上下文的接近度。

10.根据权利要求8所述的方法，其中所述图像对象还包括多个分量，并且还包括产生所述对象分量的每个图像表示的所述张量表示。

11.根据权利要求10所述的方法，还包括提取对应于由图像对象属性组合表示的视觉特征的向量，并且提取针对至少一个相似地分类的图像对象的相似向量。

12.根据权利要求7所述的方法，其中所述最终产品表示以最小迭代的对象交互在定向结果上的收敛。

13.一种用于产品标识和收敛的计算机可读存储介质，所述计算机可读存储介质具有包含于其中的程序代码，所述程序代码由处理单元可执行以执行根据权利要求7至12中的任一项所述的方法的步骤。

14.一种用于产品标识和收敛的的装置，包括用于执行根据权利要求7至12中的任一项所述的方法的步骤的部件。