CN111522982A

CN111522982A - 使用基于学习者模型的对话模板的图像对象消歧解决方案

Info

Publication number: CN111522982A
Application number: CN202010045971.3A
Authority: CN
Inventors: V.艾坎巴拉姆; P.戴伊; R.科库; R.S.米塔尔
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-02-05
Filing date: 2020-01-15
Publication date: 2020-08-11
Anticipated expiration: 2040-01-15
Also published as: US20210117628A1; US10956682B2; US20200250273A1; CN111522982B; US11487949B2

Abstract

本文提供了用于图像对象消歧解决方案的方法、系统和计算机程序产品。一种方法的示例包括：发起用于解决与图像中的对象相对应的标签组当中的歧义的对话；使用单词网来确定区分该组内的至少一个第一标签和至少一个第二标签的属性；从属性中选择第一属性以生成问题，其中所述选择至少部分基于用户的学习者模型，该学习者模型包括指示用户对属性中的每一个和一个或多个标签中的每一个的先验知识水平的信息；将信任分数分配给答案；以及基于信任分数与阈值的比较，确定是否呈现至少第二问题来验证第一答案。

Description

使用基于学习者模型的对话模板的图像对象消歧解决方案

技术领域

本申请一般涉及信息技术，并且更具体地，涉及图像识别技术。

背景技术

通常，人们在参与活动时进行学习。使用物理-数字耦合，人们可以把文字附加到他们经历的事情上。

当前具有物理-数字交互的学习应用通常分为两类：应用发起的活动和用户发起的活动。在应用发起的活动中，应用向用户提供上下文，并且用户需要例如找到相关的物理对象并拍照。在用户发起的活动中，用户拍摄用户想要了解更多的对象的照片。然而，很少有应用允许通过数字对象与用户交互。

发明内容

在本公开的一个示例实施例中，提供了用于使用基于学习者模型的对话模板的图像对象消歧(disambiguation)解决方案的技术。示例性计算机实现的方法包括发起与用户的对话，用于解决与图像中的对象相对应的分类标签组当中的歧义。该方法还包括使用单词网(wordweb)来确定一个或多个属性，该一个或多个属性区分组内的分类标签中的至少第一个和分类标签中的至少第二个。该方法还包括至少部分地基于用户的学习者模型选择属性中的第一属性来生成要呈现给用户的问题，其中学习者模型包括指示用户对(i)一个或多个属性中的每一个和(ii)一个或多个分类标签中的每一个的先验知识水平的信息。此外，该方法包括向由用户响应于该问题而输入的回答分配信任分数(belief score)，其中该信任分数至少部分基于用户关于第一属性的先验知识水平。此外，该方法包括至少部分基于信任分数与第一阈值的比较，确定是否向用户呈现至少一个第二问题以验证回答。此外，该方法包括当信任分数超过阈值时，从分类标签组中移除(i)第一分类标签和(ii)第二分类标签中的至少一个。

在实施例的另一示例中，计算机实现的方法包括发起与用户的对话，以解决与图像中的对象相对应的分类标签组当中的歧义。该方法还包括使用单词网来标识一个或多个概念，这些概念区分组内的至少一个第一分类标签和至少一个第二分类标签。该方法还包括对一个或多个概念进行排序，以对用户最可能理解的概念进行优先级排序(prioritize)，其中所述排序至少部分基于学习分数集，该学习分数集指示用户对一个或多个概念中的每一个的知识水平。该方法还包括至少部分基于具有最高排序的概念生成要呈现给用户的问题。另外，该方法包括为用户响应于该问题而输入的回答分配信任分数，其中该信任分数至少部分基于用户对于具有最高排序的概念的学习分数。此外，该方法包括至少部分基于信任分数来确定是否生成至少一个进一步的问题以验证用户的回答。

本发明的另一实施例或其元件可以以有形地包含计算机可读指令的计算机程序产品的形式来实现，当实现时，该计算机可读指令使得计算机执行如本文所述的多个方法步骤。此外，本发明的另一实施例或其元件可以以包括存储器和至少一个处理器的系统的形式来实现，该处理器耦合到存储器并被配置为执行所述方法步骤。此外，本发明的另一实施例或其元件可以以用于执行本文描述的方法步骤的装置或其元件的形式来实现；该装置可以包括(多个)硬件模块或硬件和软件模块的组合，其中软件模块存储在有形的计算机可读存储介质(或多个这样的介质)中。

本发明的这些和其他目的、特征和优点将从下面结合附图阅读的对其说明性实施例的详细描述中变得显而易见。

附图说明

图1是示出根据本发明的示例性实施例的系统架构的图；

图2是示出根据本发明的示例性实施例的单词网的示例的图；

图3是根据本发明的示例性实施例的过程流程图；

图4是根据本发明的示例性实施例的另一过程流程图；

图5是示出根据本发明实施例的技术的流程图；

图6是可以在其上实现本发明的至少一个实施例的示例性计算机系统的系统图；

图7描绘了根据本发明实施例的云计算环境；和

图8描绘了根据本发明实施例的抽象模型层。

具体实施方式

如本文所述，很少有学习应用允许通过数字对象与用户交互。实现这种应用的一些挑战包括，例如，精确检测图像中的对象和检测噪声图像(即，在一帧中包括多个对象的图像)中的特定对象。此外，用户可能会提供意外或不正确的用户输入，诸如不正确地回答简单的问题。例如，如果依赖问题来对图像中的对象消歧，那么依赖这种意外/不正确的用户输入可能导致对象的错误分类。进一步的挑战包括，例如，如何以简单和个性化的方式与用户交互，以及如何处理不完整的信息(诸如，当存在不完整的单词网时，如下面更详细讨论的)。

本文的各种示例性实施例描述了用于通过多模式(multimodal)对话模板进行图像对象识别的技术，这些技术解决了这些和其他挑战。

如本文所述，至少一个示例实施例包括在运行时以最小的长度自动发现并生成与用户的个性化对话，以解决对象识别系统的视觉识别输出推断中的混淆。可以利用与(多个)用户的机会学习者模型和单词嵌入表示相关的信息来生成输出给用户的个性化问题，并且还可以在错误回答或不完整单词网边的情况下实现自动补救。

参考图1，该图是示出根据本发明的各种示例实施例的系统架构的简化框图。作为示例，图1描绘了视觉识别模块104，其分析图像102以生成图像标签集和相应的置信度值，用于分类(或标识)图像102内的至少一个对象。

图1还包括图像消歧模块110，用于当跨图像标签集存在混淆时，通过多模式对话对两个或多个图像标签消歧。图像消歧模块110可以例如通过利用单词网106中的知识来生成并向用户输出112问题。生成的输出112还可以至少部分基于与由图像消歧模块110输出的一个或多个先前问题和用户对这些问题的响应相对应的当前上下文108。

基于当前上下文108更新114图像标签和置信度分数。更新114可以包括移除图像标签和/或改变一个或多个置信度分数。在一些示例中，重复该过程，直到图像标签集中只剩余一个图像标签。如果相应的置信度值超过阈值置信度值，则图像消歧模块110可以基于输出标签116来标记图像102中的至少一个对象。

在一些示例实施例中，图像消歧模块110还可以利用以下中的一个或多个：学习者模型118和单词嵌入表示120，这允许图像消歧模块110例如为用户生成个性化问题和/或处理错误回答上下文或不完整单词网边上下文中的一个或多个。现在在下面更详细地描述图1的各种特征。

在一些示例中，由视觉识别模块104输出的图像标签集包括图像102中对象的前k个(top-k)预测图像标签，并且相应的置信度值(也可以称为置信度分数)包括对象已经被正确标识的置信度水平。作为示例，如果图像102包括老虎，则图像标签集可以是：{老虎，猪，斑马，狗}，并且相应的置信度水平集可以是：{0.7，0.1，0.6，0.5}。对于该示例，这些集指示视觉识别模块为：70％相信图像中的对象是老虎，10％相信图像中的对象是猪，60％相信图像中的对象是斑马，50％相信图像中的对象是狗。注意，这仅仅是一个示例，并且视觉识别模块104的输出可以取决于实现而不同地构造，诸如：{<老虎，0.7>，<猪，0.1>，<斑马，0.6>，<狗，0.5>}或{老虎(0.7)，猪(0.1)，斑马(0.6)，狗(0.5)}，作为非限制性示例。

如上所述，图像消歧模块110可以利用单词网106(或者，可能是多个单词网)的知识来智能地生成(多个)问题。这里使用的“单词网”(例如单词网106)通常是指单词和单词之间的语义关系的网络。根据一些示例实施例，单词网采取图形的形式，其中图形中的每个节点对应于不同的单词。单词网可以包括“实体节点”和“属性节点”，其中实体节点表示其属性正在被学习的主要对象，并且属性节点表示不同实体节点的属性。单词网中的“边”定义了属性节点和实体节点之间的关系(例如语义关系)。单词网中两个节点(即单词)之间的关系的一些非限制性示例包括，例如：位于(atLocation)(例如，“长颈鹿位于草地”)；具有(hasA)(例如，“自行车具有车轮”)；是(isA)(例如，“狮子是哺乳动物”)；能够(capableOf)(例如，“火烈鸟能够飞行”)；和用于(UsedFor)(例如，“汽车用于运输”)。根据一些示例实施例，可以为特定的用户组(例如，诸如为特定年龄的用户组)专门策划单词网。尽管示例实施例在本文中通常被描述为实现单词网，但这并不旨在进行限制，并且通常，也可以使用任何适当的知识图形来实现实施例。

图2示出了根据各种示例实施例的单词网的示例。单词网200包括与不同动物的单词相对应的实体节点(即，具有较暗阴影的节点)，以及与不同动物的不同属性相对应的属性节点(即，未阴影化的节点)。虚线箭头指示“具有”关系，并且实线箭头指示节点之间的“是”关系。因此，可以从单词网200确定，例如，“老虎”是哺乳动物，并且具有口吻部(muzzle)、四条腿、胡须、条纹和爪。注意，仅示出了单词网200的一部分，并且单词网200中可以包括其他动物、属性和/或关系。

根据至少一个示例实施例，(诸如与单词网中的不同属性相对应的)不同的参数用于智能地对单词网中的节点进行优先级排序和/或选择。所选择的节点然后被用于形成问题。这些参数可以包括，例如：

·与给定节点和“混淆的”实体节点集中的节点之间的连接数相对应的参数；即存在混淆的那些实体节点(基于该参数选择节点通常会影响会话中的回合(turn))；

·与给定节点和所有实体节点之间的连接数相对应的参数(基于该参数选择节点通常与用户理解节点的可能性相关)；

·与各种图像标签的置信度值相关的参数；和/或

·与由单词网定义的不同关系相对应的参数(诸如节点是否经由是关系、具有关系等连接)。

当选择节点时，对于不同的算法，参数可以不同的被优先级排序。作为非限制性示例，可以使用以下算法：

1.基于给定属性节点和混淆的实体节点集之间的连接数，对单词网中的属性节点进行排序，以对有助于减少会话回合总数的节点进行优先级排序。

2.基于到单词网中所有实体节点的连接数，对步骤1中具有最多连接的属性节点进行排序，以便对与用户可能更熟悉的更“通用”属性相关的节点进行优先级排序。

3.对于步骤2中具有相同连接数的属性节点，基于实体节点的相应置信度值对属性节点进行排序。

应当理解，上面的算法仅仅是一个示例，选择节点和/或对节点进行优先级排序的其他算法同样适用，诸如使用不同的参数和/或使用不同的参数顺序进行排序。在一些示例中，参数还可以包括与学习者模型、单词嵌入表示和/或其他图形试探法(graphheuristics)相关的参数，以在每个对话级别选择问题。

根据一些示例实施例，考虑到每个参数的动态特性，可以机会性地选择一个或多个参数的组合。例如，可以基于可用性，通过融合多个参数(诸如单词网、学习者模型和/或上下文参数)来进行选择。在一些示例中，如果一个参数的值不可用，则使用其他参数收集相同的信息。类似地，如果一些参数的值指示相同的信息，则可以增加对该信息的置信度。例如，如果学习者模型的值可用于给定单词，则可以使用该给定单词并赋予其最高优先级。在学习者模型的值不可用的情况下，则算法可以动态地使用图形试探法来检索关于单词的信息。如果两个值(来自学习者模型和图形试探法)指示相同的信息，则可以增加该信息的置信度。然后，可以选择具有最高优先级的节点来生成输出(例如，问题)，然后将其呈现给用户。

根据一些示例实施例，当接收到用户的响应(例如，回答)(诸如，经由用户输入)时，更新当前上下文108。基于更新的上下文，可以从图像标签集中移除一个或多个图像标签，和/或可以更新图像标签中的一个或多个的置信度值。如果剩余标签当中仍然存在混淆，则问题被反复生成，直到图像标签集的大小变为1。如果没有要生成的问题，则将与一个剩余图像标签相对应的置信度值与阈值进行比较。如果置信度值大于(或等于)阈值，则用相应的图像标签对对象进行分类(并可能输出给用户)。如果相应的置信度值没有超过阈值，则该过程可以终止，并且可以利用回退机制。例如，回退机制可以包括向用户生成指示对象不能被分类的消息，或者生成向用户呈现的用于确认标签正确的附加问题。

根据一些示例实施例，可以为特定用户跟踪学习者模型(例如，学习者模型118)。例如，学习者模型118基于用户的历史学习行为，诸如用户的学习模式和/或评估(例如，诸如各种大纲(syllabi)的用户的考试分数)。根据一些示例性实施例，学习者模型提供分数，该分数指示用户知道某些概念有多自信。然后，可以利用学习者模型，使用与与参数相关的概念相关联的用户分数来对参数选择进行优先级排序。根据一个示例实施例，基于学习者置信度分数对节点进行排序，使得首先生成非常容易回答的问题。因此，用户很可能知道回答的问题可以被优先级排序。

现在参考图3，该图显示了根据至少一个示例实施例的过程流程图。该过程流程图可以帮助解决当用户错误回答问题时可能导致错误标签选择的情况。在步骤302，生成问题(例如，诸如如上参考图像消歧模块110所述)，并且用户在步骤304提供该问题的回答。在步骤306，基于来自用户学习者模型(例如，学习者模型118)针对与问题相关联的概念的分数，为用户的回答导出“信任分数”。在步骤308，通过将来自步骤306的信任分数与先前确定的信任分数(例如，诸如对所有先前的信任分数进行平均)进行聚合来确定聚合的信任分数。特定概念的学习者分数越高，导致与该概念相关的回答的信任分数就越高。在步骤310，将聚合的信任分数与阈值进行比较。在步骤312，如果信任分数低于阈值，则可以生成附加的相关问题并呈现给用户，诸如通过其他参数验证用户的回答。在一些示例实施例中，跨主要问题和相关问题聚合信任分数，以确认推断，直到聚合的信任分数超过阈值。

作为非限制性示例，假设用户提供了老虎的图像，并且生成了一个问题，询问用户“它有条纹吗？”，如果“条纹”的学习者模型分数较低，则在得出输出标签为“老虎”之前，可能会生成附加问题。例如，与老虎相关的附加问题可能有助于提高聚合的信任分数，直到可以确认输出标签是“老虎”。信任分数增加的量取决于例如与节点相关联的学习者模型分数。

现在参考图4，该图显示了根据至少一个示例性实施例的另一过程流程图。该流程图有助于解决单词网中存在不完整边的情况，从而使系统更加稳健。类似于图3，在步骤402生成问题，并且在步骤404接收该问题的回答。在步骤406，使用单词网检查回答的正确性。例如，当出现以下场景中的至少一种时，系统可以给回答分配信任分数：

·单词网中的两个单词之间缺少边，并且其单词嵌入表示关联分数高(例如，诸如高于阈值)；和

·单词网中的两个单词之间存在边，并且与两个节点相关联的单词嵌入表示较低(例如，诸如低于阈值)。

注意，单词嵌入表示(例如，单词嵌入表示120)是显示单词和其他单词语料库之间的关系的单词的表示。例如，该表示可以是word2vec表示，其中单词被表示为向量空间内的向量，其中向量位于向量空间中，使得语料库中共享公共上下文的单词位于向量空间内紧密邻近(close proximity)的位置。在步骤408，计算信任分数，并将其分配给用户的回答的正确性。信任分数是基于单词网边分数和跨单词的单词嵌入分数之间的冲突影响来计算的。例如，注释器可以手动测试单词网的至少一部分，以确定单词网的完成程度，然后分配指示单词网完成程度的置信度分数。根据至少一个示例性实施例，单词网置信度分数是介于0和1之间的值。在至少一个示例中，单词网置信度分数对应于估计整个图形完成程度的百分比值。在一些示例中，每个边被分配等于单词网置信度分数的边分数。在一些示例中，可以使用其他技术(例如，诸如众包测试(crowd-sourced testing))来分配和/或更新单词网置信度分数或边分数。作为非限制性示例，可以为单词网中的每个边分配等于总体单词网置信度分数的边分数，然后可以经由众包测试来更新各个边分数。

在步骤410，通过将来自步骤406的信任分数与先前确定的信任分数进行聚合来确定聚合的信任分数。在步骤412，将聚合的信任分数与阈值进行比较。在步骤414，如果信任分数低于阈值，则可以生成附加的相关问题并呈现给用户，诸如通过其他参数验证用户的回答。因此，在得出推断之前，可以生成多个问题。注意，对话的长度(例如，问题-回答的数量)可以至少部分取决于跨单词网和单词嵌入表示的冲突影响。注意，在一些示例实施例中，也可以利用来自图3至图4的过程的组合。

作为非限制性示例，假设老虎图像标签和袋鼠图像标签之间存在混淆。还假设毛皮与单词网中的“老虎”相关联，而与“袋鼠”不相关联，并且“袋鼠”和“毛皮”之间的单词嵌入表示关联分数非常高。在该示例中，老虎和袋鼠图像标签之间的消歧不应该仅仅基于“它有毛皮吗？”因此，在得出结论之前会触发附加问题，例如，诸如“它有条纹吗？”

在这种情况下，对话的长度可以至少部分取决于单词网和单词嵌入表示分数之间的差异指数(difference index)。

根据至少一个示例实施例，学习者模型被表示为单词集或单词阵列和相应的分数集或分数阵列。例如，假设特定用户的学习者模型表示为：

·单词＝[鸟，猫科动物，哺乳动物，鸵鸟，袋鼠，老虎，猪，狗，蝙蝠，袋，2条腿，4条腿，条纹，爪，长鼻(snout)，口吻部，...]

·分数＝[0.3，0.2，0.6，0.1，0.8，0.7，0.6，0.2，0.1，空，0.9，0.8，0.7，0.1，0.2，0.9，...]

在该示例中，更接近0的分数指示系统用户没有接触到该单词，更接近1的分数指示用户已经掌握了该单词。在该示例中，用户对于“袋”和“2条腿”的分数分别是0.0和0.9，这指示用户接近掌握单词2条腿，但是不理解或者没有接触到术语“袋”。此外，空值指示学习者对袋的熟练程度尚不清楚。

现在参考上面的学习模型和单词网200描述与各种实施例的一个或多个特征相关的示例。假设用户标识老虎的图像(诸如通过点击图像、上传图像等)。在这种情况下，分析老虎的图像(例如，诸如通过视觉识别模块104)，并且输出以下标签和置信度值：老虎(0.60)、猪(0.62)、袋鼠(0.63)、斑马(0.10)、猫(0.09)。假设阈值0.2以下的图像标签被移除；即斑马和猫的图像标签。移除斑马和猫的图像标签后，剩余标签是老虎(0.60)、猪(0.62)和袋鼠(0.63)。图像消歧模块110基于单词网200确定以下区别属性：

(1)“袋鼠”具有2条腿；“老虎”和“猪”具有4条腿；

(2)“老虎”是猫科动物，并且“猪”和“袋鼠”不是猫科动物；和

(3)“袋鼠”具有袋，并且“猪”和“老虎”不具有袋。

对于(2)，没有选择“猫科动物”，因为单词“猫科动物”的学习者模型分数是0.2，这意味着用户没有充分理解“猫科动物”的概念。对于(3)，袋并不常见(即，它在词网本体中具有相对较低数量的传入边(incoming edge))，因此与“袋”相关的问题没有被优先级排序。请注意，学习者分数对于袋也是未知的(即，分数是空值)，这就是为什么例如可以使用图形试探法。对于(1)来说，2条腿和4条腿的概念在学习者模型中是众所周知的，也是相对常见的。因此，选择单词网200中的单词4条腿，因为与2条腿和袋相比，它具有相对较高数量的传入边。

图像消歧模块110然后生成问题“它具有4条腿吗？”并将它呈现给用户。如果用户回复“是”，则从标签列表中删除“袋鼠”，并且“老虎”和“猪”的置信度分数增加一定量，例如，诸如0.1。随后，图像消歧模块110可以使用单词网200来确定剩余图像标签的以下区别属性：

(1)“老虎”具有条纹，“猪”不具有条纹；和

(2)“老虎”具有口吻部，“猪”具有长鼻。

在这种情况下，没有选择关于“长鼻”的问题，因为用户的对于长鼻的学习者模型分数低(即，0.2)。“条纹”节点比“口吻部”和“长鼻”节点具有更多的传入边，并且还具有相对较高的学习者模型分数(即，0.7)。在该示例中，生成问题“它具有条纹吗？”并呈现给用户。如果用户回复“是”，则“猪”的置信度分数降低某个值(例如，0.1)，因为“猪”和“条纹”之间的单词嵌入分数相对较高。如果“猪”和“条纹”之间的单词嵌入分数相对较低，则可以消除“猪”，或者可以进一步降低置信度分数。

继续该示例，假设过滤后的标签列表是老虎(0.8)，猪(0.6)。如果置信度阈值是0.85，则图像仍然不能被标记为老虎，因为老虎的置信度分数(即0.8)低于该置信度阈值。为了确认图像是“老虎”，至少一个实施例生成另一与老虎相关的问题，并将其呈现给用户。例如，在至少一个实施例中，因为“口吻部”的学习者模型得分相对较高，所以向用户提出“它有口吻部吗？”的问题。如果用户的回复是“是”，则置信度分数再次增加，例如，诸如增加0.1。现在老虎的置信度分数是0.90，其大于阈值0.85。在一些示例中，“猪”的置信度分数也基于冲突影响分数差异而进一步降低。然后可以向用户提供输出，指示上传的图像被标记为老虎。

注意，响应于用户的回答，上述示例中的置信度值增加了静态数(即，0.1)；然而，这不是限制性的，置信度值可以以其他方式和/或由其他值来增加，诸如经由用户配置和/或取决于从列表中移除了多少标签来动态增加。

图5是根据本发明实施例的过程的流程图。该过程的步骤502包括发起与用户的对话，以解决与图像中的对象相对应的分类标签组当中的歧义。

该过程的步骤504包括使用单词网来确定一个或多个属性，这些属性区分该组内的分类标签中的至少第一个和分类标签中的至少第二个。单词网可以包括图形，该图形包括至少与该分类标签组相对应的至少第一节点、至少与一个或多个属性相对应的第二节点、以及定义第一节点和第二节点之间的关系的边。

该过程的步骤506包括至少部分基于用户的学习者模型选择属性中的第一属性，以生成要呈现给用户的问题，其中学习者模型包括指示用户对(i)一个或多个属性中的每一个和(ii)一个或多个分类标签中的每一个的先验知识水平的信息。学习者模型中的信息可以包括至少一个分数集，该至少一个分数集指示用户对(i)一个或多个属性中的每一个和(ii)一个或多个分类标签中的每一个的先验知识水平。

该过程的步骤508包括向由用户响应于该问题而输入的回答分配信任分数，其中该信任分数至少部分基于用户关于第一属性的先验知识水平。单词嵌入分数可以对应于(i)与第一属性相对应的节点的单词嵌入表示和(ii)与回答相对应的节点的单词嵌入表示之间的数学相似性。单词嵌入表示可以包括单词向量表示。数学相似性可以是单词向量表示之间的余弦相似性。边置信度分数可以至少部分基于在单词网上执行的测试以确定单词网的完整性。

该过程的步骤510包括至少部分地基于信任分数与阈值的比较，确定是否向用户呈现至少第二问题以验证回答。

该过程的步骤512包括当信任分数超过阈值时，从分类标签组中移除(i)第一分类标签和(ii)第二分类标签中的至少一个。

根据至少一个示例实施例，该过程可以包括：响应于确定第二问题将被呈现给用户，至少部分地基于学习者模型，选择将用于生成第二问题的、属性中的第二属性；以及至少部分地基于由用户响应于第二问题输入的回答来调整信任分数。

根据至少一个示例实施例，该过程可以包括：响应于确定该组仅包括一个分类标签，使用该组中的该一个分类标签对对象进行分类。

根据至少一个示例实施例，该过程可以包括：至少部分基于(i)与第一属性相对应的节点和与回答相对应的节点之间的单词嵌入分数，和(ii)与第一属性相对应的节点和与回答相对应的节点之间的边的边置信度分数之间的相关性来调整信任分数。

根据至少一个示例实施例，该过程可以包括：在对话期间跟踪用户学习模式，并且至少部分基于所述跟踪来更新用户的学习者模型。

根据至少一个示例实施例，该过程可以包括：响应于用户输入接收图像。

实施例的另一示例是一种过程，该过程包括：发起与用户的对话，以解决与图像中的对象相对应的分类标签组当中的歧义；使用单词网来标识一个或多个概念，这些概念区分组内的至少一个第一分类标签和至少一个第二分类标签；对该一个或多个概念进行排序，以对用户最有可能理解的概念进行优先级排序，其中所述排序至少部分基于学习分数集，所述学习分数集指示用户对一个或多个概念中的每一个的知识水平；至少部分基于具有最高排序的概念生成要呈现给用户的问题；将信任分数分配给由用户响应于该问题而输入的回答，其中该信任分数至少部分基于用户对于具有最高排序的概念的学习分数；至少部分基于信任分数确定是否生成至少一个进一步的问题来验证用户的回答；以及当信任分数超过阈值时，从分类标签组中移除(i)第一分类标签和(ii)第二分类标签中的至少一个。单词网可以包括图形，该图形至少包括：至少与分类标签组内的分类标签中的每一个相对应的第一节点；至少与与分类标签组相关联的特性相对应的第二节点；以及定义第一节点和第二节点之间的关系的边。一个或多个概念中的每一个可以对应于第一节点之一或第二节点之一。该分配可以至少部分基于(i)与具有最高排序的概念相对应的图形的节点和与回答相对应的图形的节点之间的边的边置信度分数，和(ii)与具有最高排序的概念的单词嵌入表示和回答的单词嵌入表示之间的数学相似性相对应的单词嵌入分数之间的差异。该过程还可以包括响应于确定该组仅包括一个分类标签，使用该组中的该一个分类标签对对象进行分类。

如本文所描述的，图5中描述的技术还可以包括提供一种系统，其中该系统包括不同的软件模块，不同的软件模块中的每一个被体现在有形的计算机可读可记录存储介质上。例如，所有模块(或其任何子集)可以在同一介质上，或者每个模块可以在不同的介质上。模块可以包括图中所示和/或本文所述的任何或所有组件。在本发明的实施例中，模块可以例如在硬件处理器上运行。该方法步骤然后可以使用系统的不同软件模块来执行，如上所述，在硬件处理器上执行。此外，计算机程序产品可以包括有形的计算机可读可记录存储介质，其具有适于被执行以执行本文描述的至少一个方法步骤的代码，包括向系统提供不同的软件模块。

此外，图5中描述的技术可以经由计算机程序产品来实现，该计算机程序产品可以包括存储在数据处理系统中的计算机可读存储介质中的计算机可用程序代码，并且其中计算机可用程序代码是通过网络从远程数据处理系统下载的。此外，在本发明的实施例中，计算机程序产品可以包括存储在服务器数据处理系统中的计算机可读存储介质中的计算机可用程序代码，并且其中计算机可用程序代码通过网络下载到远程数据处理系统，用于与远程系统一起在计算机可读存储介质中使用。

本发明的实施例或其元件可以以包括存储器和至少一个处理器的装置的形式实现，该处理器耦合到存储器并被配置为执行示例性方法步骤。

另外，本发明的实施例可以利用在计算机或工作站上运行的软件。参考图6，这种实现可以采用例如处理器602、存储器604和例如由显示器606和键盘608形成的输入/输出接口。本文使用的术语“处理器”旨在包括任何处理设备，例如，诸如包括CPU(中央处理单元)和/或其他形式的处理电路的处理设备。此外，术语“处理器”可以指不止一个单独的处理器。术语“存储器”旨在包括与处理器或CPU相关联的存储器，诸如，例如RAM(随机存取存储器)、ROM(只读存储器)、固定存储器设备(例如硬盘驱动器)、可移动存储器设备(例如软盘)、闪存等。此外，本文使用的短语“输入/输出接口”旨在包括例如用于向处理单元输入数据的机制(例如，鼠标)，以及用于提供与处理单元相关联的结果的机制(例如，打印机)。处理器602、存储器604和诸如显示器606和键盘608的输入/输出接口可以例如经由作为数据处理单元612的一部分的总线610互连。合适的互连，例如经由总线610，也可以被提供给网络接口614，诸如网卡，其可以被提供来与计算机网络接口，以及被提供媒体接口616，诸如软盘或CD-ROM驱动器，其可以被提供来与媒体618接口。

因此，如本文所述，包括用于执行本发明方法的指令或代码的计算机软件可以存储在相关联的存储器设备(例如，ROM、固定或可移动存储器)中，并且当准备好被利用时，部分或全部加载(例如，加载到RAM)并由CPU实现。这种软件可以包括但不限于固件、驻留软件、微码等。

适于存储和/或执行程序代码的数据处理系统将包括通过系统总线610直接或间接耦合到存储器元件604的至少一个处理器602。存储器元件可以包括在程序代码的实际实现期间采用的本地存储器、大容量存储器和高速缓冲存储器，该高速缓冲存储器提供至少一些程序代码的临时存储，以便减少在实现期间必须从大容量存储器检索代码的次数。

输入/输出或I/O设备(包括但不限于键盘608、显示器606、定点设备等)可以直接(诸如经由总线610)或通过中间I/O控制器(为清楚起见省略)耦合到系统。

诸如网络接口614的网络适配器也可以耦合到系统，以使得数据处理系统能够通过中间的私有或公共网络耦合到其他数据处理系统或远程打印机或存储设备。调制解调器、电缆调制解调器和以太网卡只是当前可用的几种网络适配器。

如本文使用的，包括权利要求，“服务器”包括运行服务器程序的物理数据处理系统(例如，如图6所示的系统612)。应当理解，这种物理服务器可以包括也可以不包括显示器和键盘。

本发明可以是处于任何可能的集成技术细节级别的系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质)，用于使处理器执行本发明的实施例。

计算机可读存储介质可以是有形设备，其可以保留和存储指令以供指令执行设备使用。计算机可读存储介质可以是，例如，但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述设备的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备(诸如穿孔卡)或凹槽中的凸起结构(其上记录有指令)，以及前述的任何适当组合。本文使用的计算机可读存储介质不应被解释为暂时信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光缆的光脉冲)、或通过电线传输的电信号。

本文描述的计算机可读程序指令可以经由网络，例如互联网、局域网、广域网和/或无线网络，从计算机可读存储介质下载到相应的计算/处理设备，或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明操作的计算机可读程序指令可以是汇编指令、指令集体系结构(ISA)指令、机器指令、机器相关指令、微码、固件指令、状态设置数据、集成电路的配置数据，或者以一种或多种编程语言的任意组合编写的源代码或目标代码，包括面向对象的编程语言，诸如Smalltalk、C++等，以及过程编程语言，诸如“C”编程语言或类似编程语言。计算机可读程序指令可以完全在用户的计算机上执行，部分在用户的计算机上执行，作为独立软件包，部分在用户的计算机上执行，部分在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一场景下，远程计算机可以通过任何类型的网络连接到用户的计算机，该网络包括局域网(LAN)或广域网(WAN)，或者可以连接到外部计算机(例如，通过使用互联网服务提供商的互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来个性化电子电路来执行计算机可读程序指令，以便执行本发明的实施例。

本文参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图来描述本发明的实施例。将理解，流程图图示和/或框图的每个框以及流程图图示和/或框图中的框的组合可以由计算机可读程序指令实现。

这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中，该计算机可读存储介质可以指示计算机、可编程数据处理装置和/或其他设备以特定方式起作用，使得其中存储有指令的计算机可读存储介质包括制品，该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。

计算机可读程序指令也可以加载到计算机、其他可编程数据处理装置或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，从而产生计算机实现的过程，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。

附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的体系结构、功能和操作。在这方面，流程图或框图中的每个框可以表示模块，段或指令的一部分，其包括用于实现(多个)指定的逻辑功能的一个或多个可执行指令。在一些替代实现中，框中提到的功能可以不按图中所示的顺序发生。例如，取决于所涉及的功能，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行。还将注意到，框图和/或流程图说明的每个框，以及框图和/或流程图说明中的框的组合，可以由执行特定功能或动作或者执行专用硬件和计算机指令的组合的基于专用硬件的系统来实现。

应当注意，本文描述的任何方法可以包括提供一种系统的附加步骤，该系统包括体现在计算机可读存储介质上的不同软件模块；这些模块可以包括例如本文详述的任何或所有组件。方法步骤然后可以使用如上所述在硬件处理器602上执行的系统的不同软件模块和/或子模块来执行。此外，计算机程序产品可以包括具有代码的计算机可读存储介质，该代码适于被实现来执行本文描述的至少一个方法步骤，包括向系统提供不同的软件模块。

在任何情况下，应当理解，本文示出的组件可以以各种形式的硬件、软件或其组合来实现，例如(多个)专用集成电路(ASICS)、功能电路、具有相关联的存储器的适当编程的数字计算机等。给定本文提供的本发明的教导，相关领域的普通技术人员将能够设想本发明组件的其他实现。

首先应当理解，尽管本公开包括关于云计算的详细描述，但其中记载的技术方案的实现却不限于云计算环境，而是能够结合现在已知或以后开发的任何其它类型的计算环境而实现。

云计算是一种服务交付模式，用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源，例如可以是网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。

特征包括：

按需自助式服务：云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。

广泛的网络接入：计算能力可以通过标准机制在网络上获取，这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、个人数字助理PDA)对云的使用。

资源池：提供者的计算资源被归入资源池并通过多租户(multi-tenant)模式服务于多重消费者，其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下，消费者不能控制或甚至并不知晓所提供的资源的确切位置，但可以在较高抽象程度上指定位置(例如国家、州或数据中心)，因此具有位置无关性。

迅速弹性：能够迅速、有弹性地(有时是自动地)部署计算能力，以实现快速扩展，并且能迅速释放来快速缩小。在消费者看来，用于部署的可用计算能力往往显得是无限的，并能在任意时候都能获取任意数量的计算能力。

可测量的服务：云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量能力，自动地控制和优化资源效用。可以监测、控制和报告资源使用情况，为服务提供者和消费者双方提供透明度。

服务模型如下：

软件即服务(SaaS)：向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件)从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置外，消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础架构。

平台即服务(PaaS)：向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用，这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构，但对其部署的应用具有控制权，对应用托管环境配置可能也具有控制权。

基础架构即服务(IaaS)：向消费者提供的能力是消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构，但是对操作系统、存储和其部署的应用具有控制权，对选择的网络组件(例如主机防火墙)可能具有有限的控制权。

部署模型如下：

私有云：云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。

共同体云：云基础架构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规考虑)的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。

公共云：云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。.

混合云：云基础架构由两个或更多部署模型的云(私有云、共同体云或公共云)组成，这些云依然是独特的实体，但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。

云计算环境是面向服务的，特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。

现在参考图7，其中显示了示例性的云计算环境50。如图所示，云计算环境50包括云计算消费者使用的本地计算设备可以与其相通信的一个或者多个云计算节点10，本地计算设备例如可以是个人数字助理(PDA)或移动电话54A，台式电脑54B、笔记本电脑54C和/或汽车计算机系统54N。云计算节点10之间可以相互通信。可以在包括但不限于如上所述的私有云、共同体云、公共云或混合云或者它们的组合的一个或者多个网络中将云计算节点10进行物理或虚拟分组(图中未显示)。这样，云的消费者无需在本地计算设备上维护资源就能请求云计算环境50提供的基础架构即服务(IaaS)、平台即服务(PaaS)和/或软件即服务(SaaS)。应当理解，图7显示的各类计算设备54A-N仅仅是示意性的，云计算节点10以及云计算环境50可以与任意类型网络上和/或网络可寻址连接的任意类型的计算设备(例如使用网络浏览器)通信。

现在参考图8，其中显示了云计算环境50(图7)提供的一组功能抽象层。首先应当理解，图8所示的组件、层以及功能都仅仅是示意性的，本发明的实施例不限于此。如图所示，提供下列层和对应功能：

硬件和软件层60包括硬件和软件组件。硬件组件的例子包括：主机61；基于RISC(精简指令集计算机)体系结构的服务器62；服务器63；刀片服务器64；存储设备65；网络和网络组件66。软件组件的例子包括：网络应用服务器软件67以及数据库软件68。

虚拟层70提供一个抽象层，该层可以提供下列虚拟实体的例子：虚拟服务器71、虚拟存储72、虚拟网络73(包括虚拟私有网络)、虚拟应用和操作系统74，以及虚拟客户端75

在一个示例中，管理层80可以提供下述功能：资源供应功能81：提供用于在云计算环境中执行任务的计算资源和其它资源的动态获取；计量和定价功能82：在云计算环境内对资源的使用进行成本跟踪，并为此提供帐单和发票。在一个例子中，该资源可以包括应用软件许可。安全功能：为云的消费者和任务提供身份认证，为数据和其它资源提供保护。用户门户功能83：为消费者和系统管理员提供对云计算环境的访问。服务水平管理功能84：提供云计算资源的分配和管理，以满足必需的服务水平。服务水平协议(SLA)计划和履行功能85：为根据SLA预测的对云计算资源未来需求提供预先安排和供应。

工作负载层90提供了云计算环境可用于的功能的示例。可以从该层提供的工作负载和功能的示例包括：映射和导航91；软件开发和生命周期管理92；虚拟课堂教育交付93；数据分析处理94；交易处理95；和使用基于学习者模型的对话模板的图像对象消歧解决方案96。

本文使用的术语仅仅是为了描述特定的实施例，而不是为了限制本发明。如本文所使用的，单数形式“一”，“一个”和“该”也旨在包括复数形式，除非上下文另有明确指示。还应当理解，当在本说明书中使用时，术语“包括”和/或“包含”指定所述特征、步骤、操作、元件和/或组件的存在，但不排除另一特征、步骤、操作、元件、组件和/或其组合的存在或添加。

在不以任何方式限制所附出现的权利要求的范围、解释或应用的情况下，至少一个或多个示例实施例的有益效果是通过从具有最少回合数的(多个)单词网中生成运行时对话来解决对象识别系统中的消歧。本文公开的主题的一个或多个示例实施例的另一有益效果是，通过允许更少的用户交互(例如，通过减少回合数)或者向用户提供更有用和可理解的输出来改善用户界面。本文公开的主题的至少一个示例性实施例的另一有益效果是，经由用户界面经由特别策展的单词网智能地为特定用户生成输出。此外，本文公开的主题的至少一个示例实施例的有益效果是，不需要大量注释的对话标记数据。另外，本文公开的主题的至少一个实施例的有益效果是，当用户提供不正确或不完整的回答时，允许用户标识图像标签。此外，本文公开的主题的一个或多个示例性实施例的有益效果是，当存在不完整的信息时，诸如单词网中缺少边时，允许用户标识图像标签。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种计算机实现的方法，包括：

发起与用户的对话，以解决与图像中的对象相对应的分类标签组当中的歧义；

使用单词网来确定一个或多个属性，所述一个或多个属性区分所述组内的所述分类标签中的至少第一个和所述分类标签中的至少第二个；

至少部分基于用户的学习者模型选择所述属性中的第一属性以生成要呈现给用户的问题，其中所述学习者模型包括指示用户关于(i)一个或多个属性中的每一个和(ii)一个或多个分类标签中的每一个的先验知识水平的信息；

将信任分数分配给由用户响应于所述问题而输入的回答，其中所述信任分数至少部分基于用户关于第一属性的先验知识水平；

至少部分基于所述信任分数与阈值的比较，确定是否向用户呈现至少第二问题以验证回答；和

当所述信任分数超过所述阈值时，从所述分类标签组中移除(i)第一分类标签和(ii)第二分类标签中的至少一个；

其中所述方法由至少一个计算设备执行。

2.根据权利要求1所述的计算机实现的方法，其中所述单词网包括图形，所述图形至少包括：

至少与所述分类标签组相对应的第一节点，

至少与所述一个或多个属性相对应的第二节点，以及

定义第一节点和第二节点之间的关系的边。

3.根据权利要求2所述的计算机实现的方法，包括：

至少部分基于(i)与第一属性相对应的节点和与回答相对应的节点之间的单词嵌入分数和(ii)与第一属性相对应的节点和与回答相对应的节点之间的边的边置信度分数之间的相关性来调整所述信任分数。

4.根据权利要求3所述的计算机实现的方法，其中所述单词嵌入分数对应于(i)与第一属性相对应的节点的单词嵌入表示和(ii)与回答相对应的节点的单词嵌入表示之间的数学相似性。

5.根据权利要求4所述的计算机实现的方法，其中所述单词嵌入表示包括单词向量表示。

6.根据权利要求5所述的计算机实现的方法，其中所述数学相似性是所述单词向量表示之间的余弦相似性。

7.根据权利要求3所述的计算机实现的方法，其中所述边置信度分数至少部分基于在所述单词网上执行的测试以确定所述单词网的完整性。

8.根据权利要求1所述的计算机实现的方法，包括：

响应于确定第二问题将被呈现给用户，至少部分地基于所述学习者模型，选择将用于生成第二问题的、所述属性中的第二属性；和

至少部分地基于由用户响应于第二问题而输入的回答来调整所述信任分数。

9.根据权利要求1所述的计算机实现的方法，其中所述学习者模型中的信息包括至少一个分数集，所述至少一个分数集指示用户对(i)一个或多个属性中的每一个和(ii)一个或多个分类标签中的每一个的先验知识水平。

10.根据权利要求1所述的计算机实现的方法，包括：

响应于确定所述组仅包括一个分类标签，使用所述组中的所述一个分类标签对所述对象进行分类。

11.根据权利要求1所述的计算机实现的方法，包括：

在对话期间跟踪用户学习模式，并且至少部分基于所述跟踪更新用户的学习者模型。

12.根据权利要求1所述的计算机实现的方法，包括：

响应于用户输入接收所述图像。

13.一种计算机程序产品，包括计算机可读存储介质，其上体现有程序指令，所述程序指令可由计算设备执行，以使所述计算设备至少执行根据权利要求1-12中任一项所述的方法中的步骤。

14.一种系统，包括：

至少一个存储器；和

至少一个处理器，其可操作地耦合到所述至少一个存储器，并且被配置为至少执行根据权利要求1-12中任一项所述的方法中的步骤。

15.一种系统，包括用于根据执行权利要求1-12中任一项所述的方法中的步骤的装置。

16.一种计算机实现的方法，包括：

使用单词网来标识一个或多个概念，所述一个或多个概念区分所述组内的至少一个第一分类标签和至少一个第二分类标签；

对所述一个或多个概念进行排序，以对用户最有可能理解的概念进行优先级排序，其中所述排序至少部分基于学习分数集，所述学习分数集指示用户对所述一个或多个概念中的每一个的知识水平；

至少部分基于具有最高排序的概念生成要呈现给用户的问题；

将信任分数分配给由用户响应于所述问题而输入的回答，其中所述信任分数至少部分基于用户对于具有最高排序的概念的学习分数；

至少部分基于所述信任分数确定是否生成至少一个附加问题来验证用户的回答；和

当所述信任分数超过阈值时，从所述分类标签组中移除(i)第一分类标签和(ii)第二分类标签中的至少一个；

其中所述方法由至少一个计算设备执行。

17.根据权利要求16所述的计算机实现的方法，其中所述单词网包括图形，所述图形至少包括：

至少与所述分类标签组内的分类标签中的每一个相对应的第一节点；

至少与与所述分类标签组相关联的特性相对应的第二节点；和

定义第一节点和第二节点之间的关系的边，

其中一个或多个概念中的每一个对应于第一节点之一或第二节点之一。

18.根据权利要求17所述的计算机实现的方法，其中所述分配至少部分基于(i)与具有最高排序的概念相对应的图形的节点和与回答相对应的图形的节点之间的边的边置信度分数和(ii)与具有最高排序的概念的单词嵌入表示和回答的单词嵌入表示之间的数学相似性相对应的单词嵌入分数之间的差异。

19.根据权利要求16所述的计算机实现的方法，包括：