CN110431514B

CN110431514B - 用于情境驱动智能的系统和方法

Info

Publication number: CN110431514B
Application number: CN201880007738.7A
Authority: CN
Inventors: S.安托尔; A.本达尔; S.J.吉布斯; 全元锺; 姜炫在; 金志姬; 李博; A.S.利奥特; 罗璐; P.K.米斯特里; Z.英
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-01-19
Filing date: 2018-01-16
Publication date: 2022-05-03
Anticipated expiration: 2038-01-16
Also published as: US20180204059A1; KR102591583B1; KR20190100353A; CN110431514A; EP3568778A4; US10909371B2; WO2018135833A1; EP3568778B1; EP3568778A1

Abstract

一种方法包括：由设备基于图像、设备、用户情境或其组合中的至少一个检索情境信息。基于情境信息和基于至少一个模型在图像中识别的至少一个对象从多个模型中识别至少一个模型。在设备处显示至少一个图标。该至少一个图标与提供附加的信息的应用、服务或其组合中的至少一个相关联。

Description

用于情境驱动智能的系统和方法

技术领域

一个或多个实施例一般地涉及人工智能和机器学习，并且特别地，涉及使用情境(context)信息来增强计算机视觉智能，诸如选择适当的模型以及推荐动作。

背景技术

电子设备托管(host)物理传感器集合和有能力检测或估计许多情境元素的软件机制。基于云的服务可以进一步丰富情境。

有一项研究工作是利用这些物理传感器、软件机制和服务提供智能服务。

附图说明

图1示出了根据一些实施例的用于情境驱动智能的电子系统；

图2示出了根据一些实施例的用于情境驱动智能的示例架构；

图3示出了根据实施例的基于情境的模型选择的示例图；

图4示出了根据实施例的基于情境的应用启动(launch)的示例使用；

图5示出了根据实施例的用于基于情境的应用启动的另一示例使用；

图6示出了根据实施例的包括情境放大反馈回路的情境放大的示例；

图7示出了根据实施例的情境放大的示例使用；

图8示出了根据实施例的引起情境检测和应用推荐的场景识别和传感器输入的示例使用；

图9A-图9C示出了根据实施例的用于层激活的用户界面的示例；

图10A-图10D示出了根据实施例的用于基于情境的模型选择和具有不同层的激活的用户界面的示例；

图11示出了根据一些实施例的用于情境驱动智能的过程的框图；

图12是示出包括用于实施所公开实施例的计算机系统的信息处理系统的示例性高级框图；和

图13示出了根据一些实施例的用于基于情境的模型选择和激活的过程的框图。

具体实施方式

一个或多个实施例涉及：由设备基于图像、设备、用户情境或其组合中的至少一个检索情境信息。基于情境信息和基于至少一个模型在图像中识别的至少一个对象从多个模型中识别至少一个模型。在设备处显示至少一个图标。该至少一个图标与提供附加的信息的应用、服务或其组合中的至少一个相关联。

在一些实施例中，电子设备包括被配置为存储指令的存储器。至少一个处理器，被配置为运行指令以：基于图像、电子设备、用户情境或其组合中的至少一个检索情境信息；基于情境信息和基于至少一个模型在图像中识别的至少一个对象从多个模型中识别至少一个模型；并且在电子设备处显示至少一个图标，该至少一个图标与提供附加的信息的应用、服务或其组合中的至少一个相关联。

在一些实施例中，一种非暂时性处理器可读介质，其包括当由处理器执行时执行方法的程序。该方法包括：由设备基于图像、设备、用户情境或其组合中的至少一个检索情境信息。基于情境信息和基于至少一个模型在图像中识别的至少一个对象从多个模型中标识至少一个模型。在设备处显示至少一个图标。该至少一个图标与提供附加的信息的应用、服务或其组合中的至少一个相关联。

【发明的实施方式】

以下描述是出于说明一个或多个实施例的一般原理的目的而进行的，并不意味着限制本文所要求保护的发明构思。此外，本文描述的特定特征可以与各种可能的组合和置换中的每一个中的其他描述的特征组合使用。除非本文另有明确定义，否则所有术语将给出其最广泛的可能解释，包括说明书中暗示的含义以及本领域技术人员理解的和/或字典、论文等中定义的含义。

一个或多个实施例提供由设备基于图像、设备、用户情境或其组合中的至少一个来检索情境信息。基于情境信息和基于至少一个模型在图像中识别的至少一个对象从多个模型中标识至少一个模型(其中术语模型可以指机器学习模型、深度学习模型、识别模型等)。在设备处显示至少一个图标。该至少一个图标与提供附加的信息的应用、服务或其组合中的至少一个相关联。应注意，术语“至少一个”是指一个或多于一个后面的元素。例如，“a、b、c中的至少一个或其组合”可以解释为单独地“a”、“b”或“c”；或解释为“a”和“b”组合在一起，解释为“b”和“c”组合在一起；解释为“a”和“c”组合在一起；或者解释为“a”、“b”和“c”组合在一起。

图1示出了可以与一个或多个实施例一起使用以用于情境驱动智能的电子系统50。电子系统50包括连接到第二设备56(诸如客户端或服务器)的第一设备52(诸如客户端或服务器)。第一设备52可以用通信路径54(诸如无线或有线网络)与第二设备56通信。

在一些示例中，第一设备52可以是各种联网设备中的任何一种。第一设备52可以直接地或间接地耦合到通信路径54以与第二设备56通信，或者可以是独立设备。

出于说明性目的，电子系统50被描述为具有作为显示设备的第一设备52，但是应理解第一设备52可以是各种不同类型的设备。例如，第一设备52还可以是用于呈现图像或多媒体呈现的设备。多媒体呈现可以是包括声音、流式图像序列或视频反馈或其组合的呈现。作为示例，第一设备52可以是智能电话设备、可穿戴设备、平板设备、相机设备、视频设备、便携式计算设备、自助服务终端、游戏设备、超高清电视(ultra-high definition TV，UHDTV)设备或任何其他类型显示设备(例如，监视器、视频面板、抬头显示器(heads updisplay，HUD)等)。

第二设备56可以是各种集中式或分散式计算设备、图像或视频传输设备中的任何一种。例如，第二设备56可以是智能TV、多媒体计算机、平板电脑、笔记本电脑、台式电脑、视频游戏机、网格计算资源、虚拟化计算机资源、云计算资源、路由器、交换机、对等分布式计算设备、媒体回放设备、数字视频盘(Digital Video Disk，DVD)播放器、支持三维的DVD播放器、诸如相机或摄像机的记录设备、或其组合。在另一示例中，第二设备56可以是用于接收广播或直播流信号的信号接收器，诸如电视接收器、有线电视盒、蝶形卫星接收器或网络使能设备。

第二设备56可以集中在单个房间中、分布在不同的房间中、分布在不同的地理位置、嵌入在电信网络中等。第二设备56可以具有用于与通信路径54耦合以与第一设备52通信的装置。

出于说明性目的，电子系统50被描述为具有作为计算设备的第二设备56，但是应理解第二设备56可以是不同类型的设备。同样为了说明的目的，电子系统50被示出为具有作为通信路径54的端点的第二设备56和第一设备52，但是应当理解，电子系统50可以在第一设备52、第二设备56和通信路径54之间具有不同的分区。例如，第一设备52、第二设备56或其组合也可以用作通信路径54的一部分。

通信路径54可以是各种网络。例如，通信路径54可以包括无线通信、有线通信、光学、超声波或其组合。卫星通信、蜂窝通信、

红外数据协会标准(InfraredData Association standard，IrDA)、无线保真(wireless fidelity，WiFi)和全球微波接入互操作性(worldwide interoperability for microwave access，WiMAX)是可以包括在通信路径54中的无线通信的示例。以太网、数字用户线(digital subscriber line，DSL)、光纤到户(fiber to the home，FTTH)、高清晰度多媒体接口(high-definitionmultimedia interface，HDMI)电缆和普通老式电话服务(plain old telephone service，POTS)是可以包括在通信路径54中的有线通信的示例。

此外，通信路径54可以遍历多个网络拓扑和距离。例如，通信路径54可以包括直接连接、个域网(personal area network，PAN)、局域网(local area network，LAN)、城域网(metropolitan area network，MAN)、广域网(wide area network，WAN)、其组合等。

一个或多个实施例可以提供对以下的处理：基于情境的模型选择和对应动作的激活；通过“真实世界浏览”的基于情境的应用启动，这直接将用户从相机视图带到与所识别的对象相关联的应用或Web视图；通过激活附加模型和视觉情境的新的源的情境放大，该情境放大可以进而导致进一步的模型激活；以及通过识别用户状态和从多个情境源预测用户意图的附加的情境源。

图2示出了根据一些实施例的用于情境驱动智能的示例架构200。随着计算机视觉技术的进步和提高的电子设备的计算能力，相机205本身正在成为情境(context)传感器。相机205(例如，智能相机)检测用户附近的对象和活动。例如，相机图像可用于对用户的位置(“家”、“办公室”、“海滩”等)进行分类，以检测共同的对象，并识别特定的面部和情绪。智能相机205源自利用深度学习技术的计算机视觉和人工智能的进步。深度学习是指用于在非常大的数据集上训练深度多层神经网络的计算技术集合。然后，这些训练的网络(“模型”)可以在诸如移动电话中的低成本硬件上运行。情境信息可用于增强计算机视觉智能，诸如选择适当的模型、推荐与用户相关的动作等。如下所述，参考了模型、“DL模型”或深度学习模型，然而，仅针对一些实施例参考这些模型，并且也可以使用其他类型的模型，诸如基于传统机器学习或计算机视觉技术的模型。在一个实施例中，架构200可以使用DL模型和传统模型的组合。

在一个实施例中，架构200包括电子设备(例如，移动电话设备、平板电脑、可穿戴设备、智能相机设备、移动计算设备等)，其包括相机205、DL处理元素210、情境生成处理220、意图预测处理240、层250、层激活和推荐处理255、相机应用260、传感器230、语音/话音(speech/voice)输入231、因特网或网络连接232、以及安装的应用233。

在一个实施例中，DL处理元素210可以包括视觉分类器结果211，其是来自一个或多个深度学习引擎和对应模型的输出。模型管理处理212负责监视和选择/取消选择多个模型(例如，模型1-N，N是正整数)，以及维护每个模型的生命周期，包括初始化和终止。在一个实施例中，视觉分类器结果211被输入到推荐处理255。情境生成处理220可以包括情境分析器221，其接收来自静态情境222、动态情境223、学习的情境224和推断的情境225的情境。静态情境222从静态源226接收情境信息，例如，静态用户简档信息、用户偏好、设备设置等。动态情境223接收情境信息227，例如，全球定位系统(global positioning system，GPS)信息，一天中的时间、用户活动、天气、网络事件等。学习的情境224接收情境信息228，例如，应用/应用使用、应用/应用活动、设备交互等。推断的情境225接收情境信息229，诸如健康活动、应用/应用使用模式、浏览器高速缓存、cookie等。

在一个实施例中，传感器230、语音/话音输入231、因特网232和安装的应用233可以驻留在与相机205相同的电子设备内，或者可以分布在多个电子设备中。

图3示出了根据实施例的用于基于情境的模型选择的示例图300。在一个实施例中，(图2的层激活和推荐处理255的)激活引擎310管理层/模型的集合330，并从情境生成处理220接收信息。每层(来自图2的层250)包括提供者(例如，移动应用、web服务、或诸如数据库的信息的集合)，可视化331(例如，表示提供者的图标)，关联的层激活规则335和模型336(例如，ML模型、DL模型、识别模型等)。在一个实施例中，层激活具有两个部分：模型选择：用于确定何时应该启动层的模型336(如果存在的话)(这意味着它将接收视觉数据，诸如来自相机205(图2)的帧或其他图像源)；和提供者选择：用于确定何时应该呈现该层的提供者和可视化331。一旦激活了层，就会出现层可视化331，并且用户可以选择该层。该选择可以是经由触摸(例如，用户轻击电子设备(例如，智能电话)的触摸屏显示器上的层图标)、话音(例如，用户说出层名称)或通过诸如指点(pointing)的其他形式的交互(例如，经由鼠标、笔设备等)。当选择该层时，提供者呈现与导致该层的激活的情境元素(诸如识别的对象)相关的信息。

当大量层(具有相关联的模型)被放置在电子设备(例如，图1的设备52)上时，由于设备资源(屏幕空间、存储器、中央处理器单元(central processor unit，CPU)和电力)是有限的，所以并非所有层都能够同时是激活的。因此，关键问题是选择要激活什么层/模型。一种解决方案是让用户选择，但这会给用户带来负担。此外，随着层数的增加，这种负担也会增加。在一个实施例中，另一解决方案是基于情境的模型选择和层激活，其允许在电子设备上运行的系统基于情境元素推荐层/模型激活。在一个实施例中，激活引擎310负责管理层激活。由激活引擎310使用层的激活规则来确定何时应激活该层。激活规则可以采用多种形式，诸如基于规则的系统或使用传统机器学习技术构建的分类器。

示例图300说明了基于情境的模型选择和层激活的一个实施例。情境可以包括，但不限于，从当前运行的模型预测的视觉标签(例如，“计算机鼠标”)加上其他形式的情境，诸如位置321、意图322、用户偏好323、音频情境324和视觉情境325。情境模型选择和层激活的一个示例可以包括：视觉标签和层关键字相似度高于阈值。在此示例中，当通用模型预测到视觉标签与层所关联的关键字相似时，触发层激活。因此激活该层并选择其相关的特定模型336。例如，如果某个视觉标签类似于诸如“购物”、“电子产品”、“书籍”等关键字，则可以激活具有图标“a”的购物层。用于实施单词或单词短语之间的语义相似度的技术包括分布式单词矢量模型(例如，word2vec)，其将单词转换为(相对)低维矢量。单词矢量模型对于分组单词含义做的很好，因此诸如点积(逐元素相乘的总和)的事物可以捕获单词之间的相似度。例如，假设“计算机鼠标”的单词矢量为[0.1，-0.9，0.0]，并且“电子”为[0.2，-0.8，-0.1]，“食物”为[-0.5，0.1，0.9]，然后使用矢量点积，“计算机鼠标”比起“食物”(-0.14)更类似于“电子”(0.74)。注意，为了说明的目的，使用了三个元素矢量，但实际上使用更长的矢量。应该注意的是，通用模型会自动启动并保持运行。通用模型具有层激活规则，就像非通用模型一样。“对象”(通用对象分类)和“场景”(通用场景分类)是示例。通用模型与其他模型(例如，图2的模型管理处理212)和层(图3的层/模型330)位于相同的位置。在一个实施例的用户界面中(例如，图9A-C)，对层进行排序，使得(在列表的顶部)首先出现非通用层。

情境模型选择和层激活的另一示例可以包括：视觉标签置信度高于阈值。在这种情况下，当模型预测到视觉标签具有高于某个阈值的置信度时，由激活引擎310触发层激活。例如，如果“食物模型”识别出某物具有高于90％的置信度，则可以激活“食物网络”层。

情境模型选择和层激活的又一个示例可以包括：指定集合中的视觉标签。在该示例中，当模型336预测视觉标签具有高于某个阈值的置信度并且出现在指定集合中时，触发由激活引擎320进行的层激活。例如，如果模型预测到“老虎”标签或“狮子”标签，则可以激活“国家地理”层。

情境模型选择和层激活的又一个示例可以包括：与其他形式的情境(例如，位置、意图、用户简档)匹配。如果情境元素的其他(非视觉)部分匹配某个值，则激活引擎320可以激活层。例如，如果基于GPS数据用户位于停车场中，则可能激活“使用的汽车服务”层。

情境模型选择和层激活的另一示例可以包括：以上示例的组合。激活引擎320进行的模型选择和层激活可以通过上述的一些逻辑组合来确定。例如，当用户在杂货店并且检测到杂货产品时；然后可以激活提供营养信息的层。

在一个实施例中，第三方可以竞标关键字、位置等以获得设备上的更高可见性。例如，假设汽车公司“F”已获得关键字“汽车”并提供安装在电子设备上的F层。这意味着，如果具有激活引擎320的情境层激活系统正在运行并且汽车被识别出来，则将出现F图标并且用户只需点击一次，就可以访问F网站或移动应用。

在一个实施例中，用户可以定制层激活。例如，用户可以具有电子产品、服装或餐馆推荐的优选提供者。实施情境激活的挑战中的一个是测量特定层与当前情境的相关性所需要的过程。在一个实施例中，采用单词或单词短语之间的语义相似度的度量。该方法的一些优点包括：可以使用单词自然地描述许多不同的信息源(例如，模型336、情境、用户意图等)；并且这种方法允许开放词汇表。由于可以由层提供的各种模型336，因此强制执行一致/有限的词汇表是不切实际的。

图4示出了根据实施例的用于基于情境的应用启动的示例使用400。示例使用400示出了使用架构200的模型选择和应用激活的示例。对于相同的对象(青蛙410)，如果用户的当前情境被标识为“户外，在旧金山动物园”并且意图被确定为“参观”，那么激活引擎310(图3)将自动地选择“SF动物园”模型，在信息“卡”423中将该对象识别为“东方铃蟾(Oriental Fire-Bellied Toad)”，并且能够使用层图标424启动SF动物园应用。在一个实施例中，电子设备(例如，移动电话)的屏幕420包括运行架构200(图2)的增强现实(augmented reality，AR)选择421，并且还提供如图标422的其他应用选择，诸如因特网搜索(例如，

)，字典搜索(例如，

)，视频搜索(例如，

)，地图应用(例如，

)等。

在一个实施例中，用户启动模型选择，诸如通过轻击(tap)由相机205(图2)捕获的相机视图的屏幕420(例如，第一次点击)，由激活引擎310触发情境层激活。这导致激活的层的列表在屏幕上显示为图标422。可以基于层与情境元素的相关性对层进行排序，并且可以扩展最相关的层以显示更多细节(例如，出现在屏幕420底部的信息“卡”423)。

在一个实施例中，层的排名还可以考虑该层是来自第三方还是内置“通用”层。层的排名可以基于各种情境信息，诸如用户的简档和偏好、日常行为、时间、位置等。层排名还可以集成商业考虑，如果层提供商具有产品促销的营销合同，则第三方层可以排名更高。例如，如果用户轻击出现在信息“卡”423中的层图标424(例如，第二次点击)，则启动该层的提供者。在一个实施例中，提供者可以是电子设备上的应用或经由电子设备上的浏览器访问的网站430。如果应用或网页支持“深层链接”(例如，暴露具有用于搜索结果的参数的统一资源定位符(resource locators，URL))，则该启动可以将用户直接带到与触发该启动的视觉相关联的应用视图或网页。这种交互形式被称为“真实世界浏览”，因为用户只需轻击屏幕420上的相机205视图中的对象以调出(bring up)与对象相关的应用视图或网页(例如，网站430网页)。在另一个实施例中，激活引擎310连续运行并且不断地被馈送来自相机205的新的帧。在这种情况下，层图标422自发地出现并且仅需要单击来启动提供者。

图5示出了根据实施例的用于基于情境的应用启动的另一示例使用500。在另一个情境中，架构200(图2)使用情境生成处理220确定用户是“在室内，在图书馆”和“阅读”。激活引擎310(图3)选择识别相同类型的蟾蜍(toad)视图410的“国家地理(NatGeo)”模型，但是示出了能够启动国家地理网页530的“国家地理”图标524。

图6示出了根据实施例的包括情境放大反馈回路630的情境放大的示例600。在一个实施例中，当激活层时，启动附加的模型并且视觉情境的新的源变为激活的。视觉情境通过这些新的源变得丰富，这可能反过来导致进一步的层激活。因此，在情境生成处理220和层/模型330之间存在情境放大反馈回路630，其具有“放大”情境的效果。示例600示出了处理流程，其中物理感测620(使用传感器230)和设备使用信息625被输入到情境生成处理220。这里，模型管理处理212的“模型生命周期管理器”610(还包括激活引擎310)从激活引擎310接收对启动层/模型330的模型336的请求。模型生命周期管理器610负责模型的初始化和终止。模型生命周期管理器610还可以在负载均衡中起作用(例如，发送到模型的节流识别请求)。在一个示例中，层/模型330的当前运行的模型336识别对象，视觉标签被添加到该情境，附加的层被激活并且其他模型336被激活，并且从新激活的模型识别更多的视觉。

图7示出了根据实施例的包括情境放大的示例性使用710、720和730的示例700。在示例使用710中，假设相当通用的对象识别模型正在运行并且它检测到“食物”712和“徽标”711视觉标签并且情境元素是“在餐馆”715。这可以导致包括专门针对在餐馆中发现的对象的“食物”识别模型和专门针对徽标识别的“徽标”模型的激活模型716。当这些新的模型在使用模型720(食品和徽标)中启动时，它可能会为视觉情境贡献标签725(诸如“汉堡包”和

)，这进而导致在使用730中的进一步的模型激活

，诸如

模型740被激活。

模型740的激活在信息卡741中调出

层，该

层包含诸如

的应用图标的UI元素。如果

应用已经安装在设备上，则点击图标742将打开它。否则，点击图标742可以提示用户安装

应用，或打开

网站以提供所识别的BigMac^TM的更多的信息。该方法的明显益处是架构200(图2)是自适应的。不需要复杂的模型管理器来决定运行哪些模型以及停止哪些模型。相反，架构200基于情境自动做出这些选择。

在一些实施例中，采用广泛的源来建模和推断情境信息。该信息源自电子设备内的多个源或来自因特网232(图2)。在一个实施例中，来自电子设备的，可以是来自各种传感器230的原始信息和经处理的信息、话音命令/语音输入231和安装的应用233。在另一个实施例中，来自因特网232的，可能会出现关于当前活动、天气和其他数据的信息。在又一个实施例中，可以组合各种源以生成多模式情境(multi-modal context)，其用于预测用户的意图(例如，使用意图预测处理240，图2)和状态。

图8示出了根据实施例的引起情境检测和应用推荐的场景识别和传感器输入的示例使用800。在一个实施例中，可以由情境分析器221通过识别用户的(情境)状态来推断用户意图。例如，运动传感器可以检测用户的当前速度(例如，行走、跑步、驾驶、飞行、坐着等)，并且GPS传感器可以检测电子设备(例如，智能电话)的位置的快速变化，这导致用户的活动被检测为“行走”。该活动被提供给情境分析器221以生成意图矢量，例如，“观光(sightseeing)”为用户的当前情境。在该过程之后，意图预测处理240机制向激活引擎310(图3，6)提供可动作(actionable)信号。视觉分类器的结果通过情境放大过程(图6)与意图预测机制组合，其被馈送到激活引擎310。

在一个实施例中，示例800包括在电子设备的显示810上示出的通用场景识别结果，其与来自GPS和其他传感器620的读数(readings)一起被馈送到情境生成处理220(图2)的情境分析器221。在显示810上示出了灯塔的图像、以及包括图标811的信息卡423和图标422。产生的显示820示出了检测到用户正在灯塔附近行走的结果。这条位置和运动情境信息被馈送到激活引擎310，该激活引擎310执行语义分析并建议用户最有可能在观光，因此示出用于推荐相关旅行应用的图标830。如图所示，情境分析器221的左侧包括：视觉分类器结果：灯塔；学习的/推断的情境：户外，未来的假期；以及静态情境：休闲旅行者。情境分析器221的右侧包括：意图预测：旅行计划；和推荐：旅行应用830。

在一个实施例中，基于视觉识别和用户情境的模型选择和层激活的用户界面可用于帮助选择从视觉智能识别的大量信息中过滤的最相关内容。在一个实施例中，在屏幕的中心部分中检测到的对象可以提供比边界部分中的对象更多的信息。例如，中心对象的信息可以包括详细描述，而边界对象的信息可以仅包括关键字或索引。在另一个实施例中，如果从屏幕放大一个对象，则将提供具有更多细节的AR信息，而在屏幕上缩小或消失的其他对象具有较低的优先级，并且将提供很少或不提供信息。

在另一个实施例中，在屏幕上获得聚焦的对象被提供有详细信息。例如，如果确定用户在行驶的汽车中，则UI将提供较少的外部对象的AR信息，因为由于车辆的速度，用户很难读取具有对象的快速变化的详细信息。

图9A-图9C示出了根据实施例的当在电子设备910(例如，智能电话)上激活地标识别层时的用户界面的示例。在一个实施例中，在图9A中，电子设备910的屏幕在屏幕的左上侧示出了地图920和地标标记925。在识别地标之后，在屏幕的右上侧显示相关层的集合，包括消息应用930。例如，利用该识别的地标，消息应用可以用于共享该位置的照片。信息卡示出位置，并且图标422被显示在屏幕的下部。图9B示出了在激活具有用于输入消息的消息空间940的消息应用930之后的电子设备910的屏幕。图9C示出了正在屏幕上发送的书写消息941以及与消息941相关联的地标标识符926。

图10A-图10D示出了根据实施例的具有激活的各种层的用户界面的示例。图10A示出了为电子设备1010的相机(例如，图2的相机205)捕获的对象激活的对象识别层(与通用模型相关联)。在该示例中，选择控制器图标1020并且一组应用1030被示出以供选择。图10B示出了为捕获的名片1040激活的文本和对象识别层，该层显示名片识别应用1021。图10C示出了为相机捕获的图像1050激活的位置和地点(例如，地标等)识别层，该层显示消息应用1022。将在该位置处发布的消息1055被示出在图像1050上。图10D示出了为女孩1070用她的手做出心形符号的图像激活的标志(例如，面部和手势)识别层。基于女孩的手势1066和面部表情1070确定术语“心形(heart)”。该层显示心形符号1065集合，并且可以使用特定心形符号1066的选择来添加到女孩的图像1070。在该示例中，可以将所选择的心形对象1066放置在女孩的手势位置上以在该图像上创建增强效果。

图11示出了根据一些实施例的用于情境驱动智能的过程1100的框图。在一个实施例中，在框1110中，过程1100提供：由包括架构200(图2)的设备(例如，图1的电子设备52、图9A-图9C的电子设备910、图10A-图10D的电子设备1010)基于图像、设备、用户情境或其组合检索情境信息。情境信息包括但不限于：使用GPS、基于网络的位置和Wi-Fi数据获得的位置信息；使用运动传感器(例如，加速度计、陀螺仪、磁力计等)获得的活动信息(例如，行走、跑步、坐着等)；使用音频传感器获得的音频环境信息(例如，嘈杂、安静等)；能够检测说出的单词和句子的语音检测和理解；可以估计用户情绪(例如，愤怒、高兴等)、兴趣和意图的文本分析；能够从在设备1010上收集的数据发现关于用户偏好和意图的信息(例如，时间、应用使用、搜索历史、联系人等)的数据分析；和可以进一步丰富情境(例如，从GPS坐标映射到地址的反向地理编码)的云服务。有许多情境感知的用户意图预测方法可用。在一个实施例中，用户意图预测(例如，使用图2的意图预测处理240)，可以通过试图理解情境信息的语义含义(即，语义分析)来完成。不需要大量用户数据的语义分析的一个示例是使用单词嵌入，其中单词含义使用矢量来表示，并且两个单词之间的相似性可以计算为表示每个单词的两个矢量之间的距离。例如，用户情境是“行走”，这导致层关键字“户外”比层关键字“餐馆”得分更高(距离更短)，因此选择了“户外”层及其相关模型。在框1120中，过程1100提供：基于情境信息和基于至少一个模型在图像中识别的至少一个对象从多个模型中识别至少一个模型。在框1130中，过程1000在设备上显示至少一个图标。该至少一个图标与提供附加的信息的应用、服务或其组合相关联。

在一个实施例中，对于过程1100，情境信息可以包括：当前时间、设备的速度、传感器信息、用户语音信息、文本信息、设备应用信息、和位置信息。在一个实施例中，过程1100还可以包括确定与情境信息相关的至少一个学习模型。

在一个实施例中，在过程1100中，基于情境信息从一个或多个模型中选择至少一个模型以提供附加的信息(例如，从应用、服务或其组合)，以及至少一个学习模型包括一个或多个附加的模型(例如，图3的模型336)。在一个实施例中，在过程1100中，在设备处显示至少一个图标是基于模型的相关性的排名、模型的源或其组合中的至少一个。

在一个实施例中，过程1100还可以包括基于至少一个模型的相关性和从设备的用户界面接收输入中的至少一个来激活至少一个模型。过程1100可以附加地包括显示特定于至少一个模型的视图，以及启用附加的模型。

在一个实施例中，过程1100可以包括基于情境信息确定视觉标签。情境信息可以包括相机数据。过程1100还可以包括，基于视觉标签，经由语义相似度、视觉标签置信度、指定集合中的出现或其组合中的至少一个的计算，来确定至少一个模型的相关性。

在一个实施例中，过程1100还可以包括基于来自外部服务和连接到设备的传感器的数据推断情境信息。情境信息还包括设备用户的意图和状态。过程100可以附加地包括从AR信息过滤用户特定内容以获得至少一个对象。在一个实施例中，设备的显示的中心部分中的对象提供比显示的边界部分中的对象更多的AR信息，并且放大的对象提供比显示的放大部分之外的其他对象更多的AR信息。

在一个实施例中，过程1100可以包括确定与正在移动的车辆中的设备有关的情境信息，以及为在设备上显示的对象提供较少的AR信息。

图12是示出包括用于实施所公开实施例的计算机系统1200的信息处理系统的示例性高级框图。计算机系统1200可以并入图1的设备52、56，电子设备910(图9A-图C)，电子设备1010(图10A-图10D)中，并且包括架构200(图2)。计算机系统1200包括一个或多个处理器1201，并且还可以包括电子显示设备1202(用于显示视频、图形、文本和其他数据)，主存储器1203(例如，随机存取存储器(random access memory，RAM))，存储设备1204(例如，硬盘驱动器)，可移除存储设备1205(例如，可移除存储驱动器、可移除存储设备、磁带驱动器、光盘驱动器、其中存储有计算机软件和/或数据的计算机可读介质)，用户接口设备1206(例如，键盘、触摸屏、小键盘、定点设备)和通信接口1207(例如，调制解调器、网络接口(诸如以太网卡)、通信端口、或PCMCIA插槽和卡)。通信接口1207允许软件和数据在计算机系统和外部设备之间传递(例如，通过图1的通信路径54)。系统1200还包括通信基础设施1208(例如，通信总线、交叉条(cross-over bar)或网络)，上述设备/处理器1201至1207连接到该通信基础设施1208。

在一个实施例中，主存储器1203、存储设备1204和可移除存储设备1205各自通过它们自身或以任何组合，可以存储可以由一个或多个处理器1201运行的上述实施例的指令。

信息经由通信接口1207传送可以经由携带信号的通信链路、采用诸如电子、电磁、光学的信号或者能够由通信接口1207接收的其他信号的形式，并且可以使用电线或电缆、光纤、电话线、蜂窝电话链路、射频(radio frequency，RF)链路、和/或其他通信信道来实施。表示这里的框图和/或流程图的计算机程序指令可以被加载到计算机、可编程数据处理装置或处理设备上，以使得在其上执行的一系列操作产生计算机实施的过程。在一些实施例中，用于示例300(图3)、示例600(图6)和示例800(图8)的处理指令和用于过程1100(图11)的处理指令可以作为程序指令存储在存储器1203、存储设备1204和可移除存储设备1205上，用于由处理器1201运行。

图13示出了根据一些实施例的用于基于情境的模型选择和激活的过程1300的框图。在框1310中，使用相机(例如，图2的相机205)检测用户附近的对象和活动。在框1320中，基于对象和活动的检测，过程1300(例如，使用模型管理处理212)从多个模型中选择至少一个模型(例如，图3的模型336)。在框1330中，还基于检测，从多个提供者中选择至少一个提供者(例如，移动应用、web服务或诸如数据库的信息的集合)，并且在视觉上分类该结果(例如，使用视觉分类器结果211和激活引擎310)。在框1340，从传感器(例如，传感器230)，语音/话音输入(例如，语音/话音输入231)，因特网(例如，因特网232)和电子设备应用(例如，安装的应用233)接收信息。在框1350中，将在框1340中接收的信息(例如，通过情境生成处理220)分类为静态情境(例如，静态情境222)、动态情境(例如，动态情境223)、学习的情境(例如，学习的情境224)和推断的情境(例如，推断的情境225)。在框1360中，(例如，通过情境分析器221)分析静态情境、动态情境、学习的情境、推断的情境和在视觉上分类的结果。在框1370中，基于对静态情境、动态情境、学习的情境、推断的情境和在视觉上分类的结果的分析来预测意图(例如，使用意图预测处理240)。在框1380中，过程1300提供：接收层(例如，层250)和对(多)层激活和提供推荐的预测的意图(例如，来自意图预测处理240)(例如，使用层激活和推荐处理255、激活引擎310)，以及提供激活的(多)层和对应用(例如，相机应用260)的推荐。

已经参考方法、装置(系统)和计算机程序产品的流程图说明书和/或框图描述了实施例。这些说明/图的每个块或其组合可以由计算机程序指令实施。当计算机程序指令提供给处理器时，其产生机器，使得经由处理器运行的指令创建用于实施流程图和/或框图中指定的功能/操作的装置。流程图/框图中的每个框可以表示硬件和/或软件处理器/过程或逻辑。在替代实施方式中，框中提到的功能可以不同于图中提到的顺序发生、或同时发生等。

术语“计算机程序介质”，“计算机可用介质”，“计算机可读介质”和“计算机程序产品”通常用于指代诸如主存储器、辅助存储器、可移动存储驱动器、安装在硬盘驱动器中的硬盘、和信号的介质。这些计算机程序产品是用于向计算机系统提供软件的装置。计算机可读介质允许计算机系统从计算机可读介质读取数据、指令、消息或消息分组以及其他计算机可读信息。计算机可读介质例如可以包括非易失性存储器，诸如软盘、ROM、闪存、磁盘驱动器存储器、CD-ROM和其他永久存储。例如，用于在计算机系统之间传输诸如数据和计算机指令的信息是有用的。计算机程序指令可以存储在计算机可读介质中，该计算机可读介质可以指示计算机、其他可编程数据处理装置或其他设备以特定方式起作用，使得存储在计算机可读介质中的指令产生包括指令的制品，该指令实施在流程图和/或框图块或多个块中指定的功能/动作。

如本领域技术人员将理解的，实施例的各方面可以体现为系统、方法或计算机程序产品。因此，实施例的各方面可以采取完全硬件实施例，完全软件实施例(包括固件、驻留软件、微代码等)或者结合软件和硬件方面的实施例的形式，本文中实施例的各方面通常可以均被称为“电路”、“处理器”或“系统”。此外，实施例的各方面可以采取体现在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质具有体现在其上的计算机可读程序代码。

可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读存储介质。计算机可读存储介质可以是，例如但不限于，电子、磁、光、电磁、红外或半导体系统、装置或设备，或前述的任何合适的组合。计算机可读存储介质的更具体的示例(非穷举列表)将包括以下：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器((erasable programmable read-only memory，EPROM)或闪存)、光纤、便携式光盘只读存储器(portable compact disc read-only memory，CD-ROM)、光存储设备、磁存储设备或上述的任何合适的组合。在本文件的情境中，计算机可读存储介质可以是任何有形介质，其可以包含或存储程序以供指令运行系统、装置或设备使用或与其结合使用。

用于执行一个或多个实施例的各方面的操作的计算机程序代码可以用一种或多种编程语言的任何组合来编写，包括诸如Java，Smalltalk，C++等的面向对象的编程语言和诸如“C”编程语言或类似的编程语言的传统的过程编程语言。程序代码可以作为独立的软件包完全在用户的计算机上运行，部分在用户的计算机上运行，部分在用户的计算机上且部分在远程计算机上运行、或完全在远程计算机或服务器上运行。在后一种情况下，远程计算机可以通过任何类型的网络连接到用户的计算机，该网络包括局域网(local areanetwork，LAN)或广域网(wide area network，WAN)，或者可以连接到外部计算机(用于例如，通过使用互联网服务提供商的互联网)。

以上参考方法、装置(系统)和计算机程序产品的流程图说明和/或框图描述了一个或多个实施例的各方面。将理解，流程图说明和/或框图的每个框以及流程图说明和/或框图中的框的组合可以由计算机程序指令实施。这些计算机程序指令可以被提供给专用计算机或其他可编程数据处理装置以产生机器，使得经由计算机的处理器或其他可编程数据处理装置运行的指令创建用于实施在流程图和/或框图块或多个块中指定的功能/动作的装置。

这些计算机程序指令还可以存储在计算机可读介质中，该计算机可读介质可以指示计算机、其他可编程数据处理装置或其他设备以特定方式起作用，使得存储在计算机可读介质中的指令产生包括指令的制品，该指令实施在流程图和/或框图块或多个块中指定的功能/动作。

计算机程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实施的过程，使得在计算机或其他可编程装置上运行的指令提供用于实施在流程图和/或框图块或多个块中指定的功能/动作的过程。

附图中的流程图和框图说明了根据各种实施例的系统、方法和计算机程序产品的可能实施方式的体系结构、功能和操作。在这方面，流程图或框图中的每个框可以表示指令的过程、段或部分，其包括用于实施指定的逻辑功能的一个或多个可执行指令。在一些替代实施方式中，框中提到的功能可以不按图中指示的顺序发生。例如，连续示出的两个框实际上可以基本上同时运行，或者这些框有时可以以相反的顺序运行，这取决于所涉及的功能。还应注意，框图和/或流程图图示的每个框以及框图和/或流程图说明中的框的组合可以由执行特定功能或动作或执行专用硬件和计算机指令的组合的专用基于硬件的系统来实施。

除非明确阐明，否则权利要求中对单数形式的元素的引用并不旨在表示“一个且仅一个”，而是“一个或多个”。本领域普通技术人员当前已知或以后将知道的上述示例性实施例的元素的所有结构和功能等同物都旨在由本权利要求书涵盖。除非使用短语“用于…的装置”或“用于…的步骤”明确叙述了该元素，否则这里的权利要求元素不应根据《美国法典》第35篇第112节第6段的规定来解释。

这里使用的术语仅用于描述特定实施例的目的，而不是要限制本发明。如这里所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非情境另有明确指出。将进一步理解，当在本说明书中使用时，术语“包括”和/或“包含”指定所述特征、整数、步骤、操作、元素和/或组件的存在，但不排除一个或多个其他特征、整数、步骤、操作、元素、组件和/或其组的存在或添加。

以下权利要求中的所有装置或步骤加功能元素的相应结构、材料、动作和等同物旨在包括用于结合具体要求保护的其他要求保护的元素来执行功能的任何结构、材料或动作。已经出于说明和描述的目的呈现了对实施例的描述，但是并不旨在穷举或限制于所公开形式的实施例。在不脱离本发明的范围和精神的情况下，许多修改和变化对于本领域普通技术人员来说是显而易见的。

尽管已经参考其某些版本描述了实施例；但是，其他版本是可能的。因此，所附权利要求的精神和范围不应限于本文包含的优选版本的描述。

Claims

1.一种提供信息的方法，包括：

由设备基于图像、设备、用户情境或其组合中的至少一个检索情境信息；

基于情境信息和基于至少一个视觉识别模型在图像中识别的至少一个对象从多个学习模型中识别两个或更多个模型；

为图像中所识别的至少一个对象激活所述两个或更多个模型；

通过向上下文信息添加由所述两个或更多个模型识别的视觉标签来更新上下文信息；

基于更新的上下文信息，激活所述多个学习模型中的附加的模型；以及

在设备处显示包括至少一个图标的信息，所述至少一个图标与提供附加的信息的应用、服务或其组合中的至少一个相关联，其中附加的信息与附加的模型相关联。

2.根据权利要求1所述的方法，其中，所述情境信息包括以下各项中的至少一个：当前时间、设备的速度、传感器信息、用户语音信息、文本信息、设备应用信息、和位置信息，并且所述两个或更多个模型中的每一个模型包括以下各项中的至少一个：机器模型、深度学习模型、对象识别模型、和通用模型。

3.根据权利要求1所述的方法，其中，在所述设备处显示所述至少一个图标是基于所述两个或更多个学习模型中的每一个与附加的模型和上下文信息之间的相关性的排名、所述两个或更多个模型中的每一个与附加的模型的源或其组合中的至少一个，其中源指示互联网和/或设备内的存储。

4.根据权利要求1所述的方法，还包括：

基于所述两个或更多个模型的相关性、来自所述设备的用户界面的输入或其组合中的至少一个来激活所述两个或更多个模型。

5.根据权利要求1所述的方法，还包括：

基于视觉标签经由语义相似度、视觉标签置信度、指定集合中的出现或其组合中的至少一个的计算来确定所述两个或更多个模型的相关性。

6.根据权利要求2所述的方法，还包括：

基于来自外部服务和耦合到设备的传感器的数据推断情境信息，其中情境信息还包括设备的用户的意图和状态。

7.根据权利要求2所述的方法，还包括：

为在设备上显示的对象提供增强现实(AR)信息，以及

基于确定与正在移动的车辆中的设备相关的情境信息，为在该设备上显示的对象仅提供所述增强现实信息的一部分。

8.一种电子设备，包括：

存储器，被配置为存储指令；

至少一个处理器，被配置为运行指令以：

基于图像、电子设备、用户情境或其组合中的至少一个检索情境信息；

基于情境信息和基于至少一个视觉识别模型在图像中识别的至少一个对象从多个模型中识别两个或更多个模型；

在电子设备处显示包括至少一个图标的信息，所述至少一个图标与提供附加的信息的应用、服务或其组合中的至少一个相关联，其中附加的信息与附加的模型相关联。

9.根据权利要求8所述的电子设备，其中：

所述情境信息包括以下各项中的至少一个：当前时间、设备的速度、传感器信息、用户语音信息、文本信息、设备应用信息、和位置信息；

其中处理器还被配置为基于所述附加的模型的相关性的排名、所述附加的模型的源或其组合中的至少一个，在所述电子设备处显示所述至少一个图标；和

其中所述两个或更多个模型中的每一个包括以下各项中的至少一个：机器模型、深度学习模型、对象识别模型、和通用模型。

10.根据权利要求9所述的电子设备，其中，所述至少一个处理器还被配置为运行所述指令以：

基于所述两个或更多个模型中的每一个的相关性、来自所述电子设备的用户界面的输入或其组合中的至少一个来激活所述两个或更多个模型；

11.根据权利要求9所述的电子设备，其中，所述至少一个处理器还被配置为运行所述指令以：

基于来自外部服务和耦合到电子设备的传感器的数据推断情境信息，其中情境信息还包括电子设备的用户的意图和状态。

12.根据权利要求9所述的电子设备，其中，所述至少一个处理器还被配置为运行所述指令以：

为在设备上显示的对象提供增强现实(AR)信息，以及

基于确定与正在移动的车辆中的电子设备相关的情境信息，为在该电子设备上显示的对象仅提供所述增强现实信息的一部分。

13.一种计算机可读介质，包括程序代码，当所述程序代码由至少一个处理器运行时，使得所述至少一个处理器执行权利要求1至7中任一项所述的方法。