CN107077504A

CN107077504A - 增补信息请求

Info

Publication number: CN107077504A
Application number: CN201580060770.8A
Authority: CN
Inventors: S·拉什特; C·M·特里姆; J·E·博斯蒂克; J·M·甘奇
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2015-01-05
Filing date: 2015-12-30
Publication date: 2017-08-18
Anticipated expiration: 2035-12-30
Also published as: WO2016110775A1; US9633019B2; US20160196264A1; JP6655081B2; CN107077504B; GB2549904A; DE112015005269T5; JP2018501562A; GB201711969D0

Abstract

电子设备包括用于接收对关于未指定对象的信息的口头请求的麦克风。传感器接收关于未指定对象的增补信息。组合逻辑将来自口头请求的信息与增补信息组合成组合格式信息请求。信息检索逻辑然后检索对组合格式信息请求的答复。

Description

增补信息请求

背景技术

本公开涉及信息检索领域，并且具体地涉及基于用户查询的信息检索领域。更具体而言，本公开涉及解释用户生成的查询的领域。

当今，许多移动设备具有从用户接收口头提问然后使用话音合成来响应以答复的能力。

例如，美国专利申请公开No.2012/0016678描述了一种智能自动化助理，其使用自然语言对话与用户接合，以便回答来自用户的具体问题。但是，这样的系统限于来自用户的话音输入，这可能导致移动设备的错误响应。例如，用户可能会询问某个问题，该问题或者没有被系统正确地解释，或者系统根本不理解该问题。这需要用户随后进行额外的语音命令、澄清等等。

其它设备提供关于非言语(即，非话音)输入的信息，但是不允许用户生成和询问关于非言语输入的问题。

例如，美国专利申请公开No.2012/0124461描述了一种用于用覆盖在图像上的上下文信息来注释街道级图像的技术。类似地，美国专利申请公开No.2013/0346068描述了一种用某些用户提供的术语标记数字照片的系统。但是，这种类型的技术限于用预定义的信息自动填充图像，而没有考虑用户可能具有的具体问题。

因此，现有技术无论是单独地还是组合地都不能提供一种允许用户询问问题然后使用澄清该问题的非言语输入来增补该问题的系统。即，现有技术没有提供一种允许用户向设备呈现用户生成的关于非言语输入(诸如视觉图像、气味、声音等)的问题的系统。本发明对这种长久以来感受到的需求提供了一种或多种解决方案。

发明内容

在本公开的实施例中，一种电子设备包括用于接收对关于未指定对象的信息的口头请求的麦克风。传感器接收关于所述未指定对象的增补信息。组合逻辑将来自所述口头请求的信息与所述增补信息组合成组合格式信息请求。信息检索逻辑随后检索对所述组合格式信息请求的答复。

在本公开的实施例中，电子设备中的传感器是化学传感器，其能够“闻到”用户询问的问题所涉及的对象。

在本公开的实施例中，电子设备中的传感器是捕获视频图像的相机，并且未指定对象是没有出现在视频图像中的对象。电子设备访问元数据检索逻辑以从由相机捕获的视频图像中检索描述视频图像的元数据。相关逻辑使来自元数据的信息相关以识别关于未指定对象的信息来生成对组合格式信息请求的答复。

在本公开的实施例中，一种用于增补信息请求的方法包括由信息服务器接收关于对象的信息请求。所述信息请求来自电子设备，并且具有第一格式。所述信息服务器接收关于所述对象的增补信息。所述增补信息由所述电子设备生成，并且具有与所述第一格式不同的第二格式。所述信息服务器基于所述增补信息生成对所述信息请求的响应。

在本公开的实施例中，第一格式用于话音识别，并且第二格式用于照片。请求了关于其的信息的对象被显示在照片中。信息服务器检索照片中嵌入的关于照片中显示的对象的信息。信息服务器基于嵌入信息定位关于照片中的对象的附加信息。

在本公开的实施例中，信息请求由特定用户生成。所述方法还包括将信息请求与特定用户的用户简档相关联，以及基于用户简档定制对信息请求的响应。

在本公开的实施例中，信息服务器接收用户的物理手势，并且利用物理手势作为关于对象的增补信息。

在本公开的实施例中，一种计算机程序产品增补信息请求。所述计算机程序产品包括其中体现有程序代码的计算机可读存储介质，其中所述计算机可读存储介质不是瞬时信号本身，并且其中所述程序代码可由处理器读取并执行以执行一种方法，所述方法包括：接收关于对象的信息请求，其中所述信息请求来自电子设备，并且其中所述信息请求具有第一格式；接收关于对象的增补信息，其中所述增补信息由所述电子设备生成，并且其中所述增补信息具有与所述第一格式不同的第二格式；以及基于所述增补信息生成对所述信息请求的响应。

因此，由于本公开的系统改进了信息请求的效率和准确性，所以本公开的系统相对于现有技术提供了技术优势。更具体地，在没有本公开的教导的情况下，许多(如果不是大多数)口头问题将是无意义的，并且因此不能由智能辅助设备回答。

附图说明

现在将仅通过示例的方式参考附图来描述本发明的实施例，附图中：

图1绘出了根据本公开的实施例的云计算节点；

图2绘出了根据本公开的实施例的云计算环境；

图3绘出了根据本公开的实施例的抽象模型层；

图4示出了可以利用本发明的示例性系统；以及

图5是由一个或多个处理器或其它硬件设备执行的、用以响应来自电子设备的用户生成的信息请求的一个或多个操作的高级流程图。

具体实施方式

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

应当理解，在一种或多种实施例中，本发明能够在云计算环境中实现。

云计算是一种服务交付模型，用于对共享的可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储设备、应用、虚拟机和服务)池进行方便、按需的网络访问，其中可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。

特征如下：

按需自助式服务：云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。

广泛的网络接入：能力可以通过标准机制在网络上获取和访问，这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如，移动电话、膝上型电脑、和PDA)对云的使用。

资源池：提供者的计算资源被归入资源池并通过多租户(multi-tenant)模型服务于多重消费者，其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下，消费者不能控制或甚至并不知晓所提供的资源的确切位置，但可以在较高抽象程度上指定位置(例如国家、州或数据中心)，因此具有位置无关性。

迅速弹性：能够迅速、有弹性地(有时是自动地)部署能力，以实现快速扩展，并且能迅速释放来快速缩小。在消费者看来，可用于部署的能力往往显得是无限的，并能在任意时候都能获取任意数量的该能力。

可测量的服务：云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量能力，自动地控制和优化资源效用。可以监测、控制和报告资源使用情况，为所利用服务的提供者和消费者双方提供透明度。

服务模型如下所示：

软件即服务(SaaS)：向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件)从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置外，消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础架构。

平台即服务(PaaS)：向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用，这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构，但对其部署的应用具有控制权，对应用托管环境配置可能也具有控制权。

基础架构即服务(IaaS)：向消费者提供的能力是消费者能够在其中部署并运行可以包括操作系统和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构，但是对操作系统、存储和其部署的应用具有控制权，对选择的联网组件(例如主机防火墙)可能具有有限的控制权。

部署模型如下：

私有云：云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。

共同体云：云基础架构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规考虑)的特定共同体。共同体云可以由多个组织或第三方管理并且可以存在于该共同体内部或外部。

公共云：云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。

混合云：云基础架构由两个或更多云(私有云、共同体云或公共云)组成，这些云依然是独特的实体，但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。

云计算环境是面向服务的，特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。

现在参考图1，其中显示了云计算节点的示例。云计算节点10仅仅是适合的云计算节点的一个示例，并且没有暗示对本文描述的本发明的实施例的功能或使用范围进行任何限制。总之，云计算节点10能够被用来实现和/或执行以上所述的任何功能。

在云计算节点10中，存在计算机系统/服务器12，其可与许多其它通用或专用计算系统环境或配置一起操作。可能适于与计算机系统/服务器12一起使用的众所周知的计算系统、环境和/或配置的示例包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机系统、大型计算机系统以及包括上述系统或设备中的任何一种的分布式云计算环境，等等。

计算机系统/服务器12可以在由计算机系统执行的诸如程序模块的计算机系统可执行指令的一般语境下描述。通常，程序模块可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。计算机系统/服务器12可以在其中任务由通过通信网络链接的远程处理设备执行的分布式云计算环境中实践。在分布式云计算环境中，程序模块可以位于包括存储器存储设备的本地和远程计算机系统存储介质中。

如图1所示，云计算节点10中的计算机系统/服务器12以通用计算设备的形式示出。计算机系统/服务器12的组件可以包括但不限于一个或多个处理器或处理单元16、系统存储器28、以及将包括系统存储器28的各种系统组件耦合到处理器16的总线18。

总线18表示几种类型的总线结构中的一种或多种，包括存储器总线或存储器控制器、外围总线、加速图形端口、以及使用各种总线架构中的任何一种的处理器或本地总线。作为示例而非限制，这些架构包括工业标准体系架构(ISA)总线、微通道体系架构(MCA)总线、增补型ISA(EISA)总线、视频电子标准协会(VESA)局部总线以及外围组件互连(PCI)总线。

计算机系统/服务器12典型地包括各种计算机系统可读介质。这些介质可以是可由计算机系统/服务器12访问的任何可用介质，并且其包括易失性和非易失性介质、可移动和不可移动介质。

系统存储器28可以包括诸如随机存取存储器(RAM)30和/或高速缓存存储器32之类的易失性存储器形式的计算机系统可读介质。计算机系统/服务器12还可以包括其它可移动/不可移动、易失性/非易失性计算机系统存储介质。仅作为示例，存储系统34可以被提供用于读和写不可移动、非易失性磁介质(图中未示出，通常称为“硬盘驱动器”)。虽然图中未示出，但是可以提供用于对可移动非易失性磁盘(例如，“软盘”)读和写的磁盘驱动器、以及对可移动非易失性光盘(诸如CD-ROM、DVD-ROM或其它光学介质)读或写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或多个数据介质接口连接到总线18。如将在下面进一步绘出和描述的，存储器28可以包括至少一个程序产品，该程序产品具有一组(例如，至少一个)被配置为执行本发明的实施例的功能的程序模块。

具有一组(至少一个)程序模块42的程序/实用工具40可以存储在存储器28中，这样的程序模块42作为示例而非限制包括操作系统、一个或多个应用程序、其它程序模块以及程序数据。操作系统、一个或多个应用程序、其它程序模块和程序数据或其某些组合中的每一个可以包括联网环境的实现。程序模块42通常执行如本文所述的本发明的实施例的功能和/或方法。

计算机系统/服务器12还可以与诸如键盘、指向设备、显示器24等的一个或多个外部设备14通信；还可与使得用户能够与计算机系统/服务器12交互的一个或多个设备通信；和/或与使得计算机系统/服务器12能够与一个或多个其它计算设备通信的任何设备(例如网卡、调制解调器等)通信。这种通信可以经由I/O接口22进行。还有，计算机系统/服务器12可以经由网络适配器20与诸如局域网(LAN)、一般广域网(WAN)和/或公共网络(例如，因特网)的一个或多个网络通信。如图所示，网络适配器20经由总线18与计算机系统/服务器12的其它组件通信。应当理解，虽然图中未示出，但是其它硬件和/或软件组件可以与计算机系统/服务器12结合使用。示例包括但不限于：微码、设备驱动器、冗余处理单元、外部盘驱动阵列、RAID系统、带驱动器和数据归档存储系统等。

在本公开的一种或多种实施例中，外部设备14利用图1所示的计算机系统/服务器12的体系架构。类似地，计算机系统/服务器10的体系架构可以在图4所示的电子设备402和/或信息云服务器404中实现。

现在参考图2，其中绘出了说明性云计算环境50。如图所示，云计算环境50包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点10，本地计算设备例如可以是个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C、和/或汽车计算机系统54N。节点10可以彼此通信。它们可以在一个或多个网络(诸如以上所述的私有云、共同体云、公共云或混合云，或者其组合)中进行物理或虚拟分组(图中未示出)。这允许云消费者无需在本地计算设备上维护资源就能请求云计算环境50提供的基础架构即服务、平台即服务和/或软件即服务。应当理解，图2所示的各类计算设备54A-N仅仅是说明性的，并且计算节点10和云计算环境50可以通过任何类型的网络和/或网络可寻址连接(例如，使用web浏览器)与任何类型的计算机化设备通信。

现在参考图3，其中示出了由云计算环境50(图2)提供的一组功能抽象层。首先应当理解，图3所示的组件、层以及功能仅仅是说明性的，并且本发明的实施例不限于此。如图3所示，提供了以下层和对应功能：

硬件和软件层60包括硬件和软件组件。硬件组件的示例包括大型机，在一个示例中为系统；基于RISC(简化指令集计算机)架构的服务器，在一个示例中为IBM系统；IBM系统；IBM系统；存储设备；网络和联网组件。软件组件的示例包括网络应用服务器软件，在一个示例中为IBM应用服务器软件；以及数据库软件，在一个示例中为IBM数据库软件。(IBM、zSeries、pSeries、xSeries、BladeCenter、WebSphere和DB2是国际商业机器公司在全球许多司法管辖区注册的商标)。

虚拟化层62提供抽象层，从中可以提供以下虚拟实体的示例：虚拟服务器；虚拟存储；虚拟网络，包括虚拟专用网络；虚拟应用和操作系统；以及虚拟客户端。

在一个示例中，管理层64可以提供下述功能。资源供应功能：提供用于在云计算环境内执行任务的计算资源和其它资源的动态获取。计量和定价功能：当资源在云计算环境内被使用时提供成本跟踪，并且为这些资源的消耗提供记账和开具发票。在一个示例中，这些资源可以包括应用软件许可。安全功能：为云消费者和任务提供身份验证，以及为数据和其它资源提供保护。用户门户功能：为消费者和系统管理员提供对云计算环境的访问。服务水平管理功能：提供云计算资源的分配和管理，使得满足必需的服务水平。服务水平协议(SLA)计划和履行功能：为根据SLA预测的对云计算资源的未来需求提供预先安排和获取。

工作负载层66提供利用云计算环境可能实现的功能的示例。可以从该层中提供的工作负载和功能的示例包括：地图绘制和导航；软件开发和生命周期管理；虚拟教室的教学提供；数据分析处理；交易处理；以及如本文所述和由工作负载层66中找到的“信息查询处理”所表示的处理来自电子设备的信息查询。

现在参考图4，示例性系统400绘出了现有技术中未找到的各种新的和新颖的技术特征的技术特性和/或互操作性，并且其中可以利用本发明。更具体而言，图4中绘出并且相对于图5中绘出的操作进一步描述的元素解决了查询逻辑无法清楚且高效地识别用户生成的信息查询的性质和范围的问题。本公开解决了这个问题，想法是使用澄清查询主题的性质的增补传感器(视觉、声音、化学等)。

诸如智能电话、个人数字助理、平板计算机等的电子设备402能够经由网络406与信息云服务器404通信，网络406可以是有线的(例如，因特网)、无线的(例如，Wi-Fi系统)和/或两者的组合。

电子设备402包括用户界面408，其可以提示用户“询问您的问题”，如在“询问您的问题”按钮410中所示。当用户按下“询问您的问题”按钮410(其可以是用户界面408的机械按钮或触敏区域)时，“询问您的问题”按钮410可以变得突出显示，从而指示话音逻辑414已被启用以经由麦克风412接收用户的问题。话音逻辑414将用户的问题转换成数字化格式，其可以由处理器416本地处理和/或由信息云服务器404远程处理。

为了更好地理解用户的问题，向处理器416和/或信息云服务器404提供附加信息作为“增补信息”。这种增补信息可以是以照片、视频、声音、化学签名、对文档的引用、对图形文件的引用等的形式。

在本公开的实施例中，用户的问题(即，对信息的口头请求)最初是关于未指定的对象。例如，问题可能是“这是什么类型的花”？只使用言语问题，系统无法“知道”用户正在询问什么“花”，并且因此所讨论的“花”是未指定的(即，是“未指定对象”)。根据本发明的一种或多种实施例，电子设备402上的传感器提供关于未指定对象的增补信息。

在本公开的实施例中，用于提供这种增补信息的传感器是相机420，其创建照片(即，静态照片)和/或视频(即，运动图像的视觉记录)。相机420通过用户按下相机选择器按钮418进行选择，相机选择器按钮418激活电子设备402上的相机420。在用相机420拍摄花的照片/视频之后，系统现在具有关于查询的增补信息。即，当用户询问“这是什么类型的花”时，处理器416和/或信息云服务器404使用组合逻辑(例如，处理器416的一部分)组合来自口头问题的信息(“这是什么类型的花？”)和由花的照片提供的增加信息以创建组合格式的信息请求。使用这种信息组合，信息检索逻辑(例如，处理器416)现在能够检索(例如，从存储设备430)组合格式的信息请求的答复。因此，数据查询逻辑(例如，图3中的工作负载66中所示的“信息查询处理”的一部分)被提供口头/言语问题以及来自照片/视频的视觉信息两者。这允许数据查询逻辑既“听到”问题又“看到”问题的主题。

在本公开的实施例中，处理器416和/或信息云服务器404使用图像识别软件来识别照片中的对象(例如，“花”)。即，处理器416和/或信息云服务器404生成花的数字表示，包括其形状、颜色、花瓣数量等，并将该数字表示与关于花的数字信息的数据库进行比较，从而将花识别为玫瑰。这种信息(即，花类型是“玫瑰”)与问题(“这是什么类型的花”)组合以创建组合格式的信息请求。在这个示例中，系统简单地根据增补信息返回答复“这朵花是玫瑰”。

在本公开的实施例中，组合格式的信息请求使得数据查询逻辑能够检查相关数据库。例如，仍然假设来自用户的查询是“这是什么类型的花”，并且由来自相机420的照片创建的增补信息揭示花是“玫瑰”。然后，数据查询逻辑可以使用这些关键词(“玫瑰”、“花”)来检查关于“玫瑰”的其它数据库，包括它在哪里生长、它需要什么(水、养料、阳光等)来开花、其物种可替代性(Latin binomial)名称等。话音逻辑414然后可以向用户提示建议，以从所检查的(一个或多个)数据库提供附加信息。在实施例中，这种建议基于存储在数据库中的用户的简档，诸如在图4中的存储设备430中找到的(图中未示出)。例如，如果存储设备430包含用户是园丁的记录，那么可以提供园艺建议，而如果存储设备430包含用户是植物学学生的记录，那么可以提供物种可替代性名称。类似地，如果用户是化学家(根据他/她存储的简档)，那么可以提供哪些香水由这种类型的玫瑰制成的描述。

在本公开的实施例中，数据查询逻辑(例如，处理器416和/或信息云服务器404)可以提供关于用户自己的信息。例如，假设存储设备430包含关于电子设备402的用户的条目，其指示该用户已有过膝盖手术。进一步假设用户用相机420拍摄他/她的膝盖的图片，并且然后询问问题“我的膝盖好吗？”。处理器416然后将膝盖的当前图片与膝盖的先前图片(存储在存储设备430中该用户的简档中)进行比较。如果膝盖看起来像是紧接着在用户先前膝盖受伤时之后的样子，那么数据查询逻辑可以返回回答“你的膝盖看起来像已重新受伤”。但是，如果当与用户没有受伤的膝盖(或其它患者的膝盖)的其它照片相比，膝盖的视觉图像看起来“正常”，那么数据查询逻辑将返回回答“您的膝盖看起来是好的”。

类似地，用户可以询问关于该特定用户的食物选择的数据查询逻辑。例如，假设电子设备402的用户处于低钠饮食，并且站在食物自助餐之前。用户可以用相机420拍摄食物自助餐的照片，并将该照片发送到数据查询逻辑，其中问题是“我应该吃什么？”。数据查询逻辑将使用视觉识别逻辑来识别不同类型的食物；查询关于识别出的食物类型的营养成分的数据库；并且返回指示用户选择照片中低盐的某种食物的响应。

虽然点击相机选择器按钮418使得能够拍摄图像，但是在本发明的实施例中，接合相机选择器按钮418允许数据的实时流与用户的言语问题一起发送到数据查询逻辑。类似地，在实施例中，相机420可以始终处于活动状态，使得用户甚至不需要接合相机选择器按钮418。

因此，如上所述，本公开的一种或多种实施例允许与电子设备402相关联的数据查询逻辑不仅“听到”问题(通过用户点击“询问您的问题”按钮410)，而且还“看到”用户正在询问什么。虽然上述实施例已使用照片来呈现，但是相同的过程可以在视频流上加以利用。

在本公开的实施例中，电子设备402不仅能够“听到”问题(通过用户点击“询问您的问题”按钮410)，而且还能够通过用户按下麦克风选择器按钮422“听到”用户正在询问什么，其中麦克风选择器按钮422激活电子设备402上的麦克风412。例如，假设用户已言语询问问题“那是什么类型的鸟？”。仅使用该言语问题，系统无法“知道”用户正在询问什么“鸟”。但是，电子设备402上的麦克风412(音频/听觉传感器)根据其鸣叫提供关于未指定对象(“鸟”)的增补。在本公开的实施例中，处理器416和/或信息云服务器404使用声音模式识别软件将在声音捕获中听到的“鸟”识别为“草地鹨”。即，处理器416和/或信息云服务器404生成鸟的鸣叫的数字表示，包括其音调、模式、音色等，并将该声音签名与关于鸟鸣的数字信息的数据库进行比较，以便将该鸟识别为草地鹨。这种信息(即，鸟类型是“草地鹨”)与问题(“那是什么类型的鸟？”)组合以返回答复“这只鸟是草地鹨”。因此，数据查询逻辑(例如，在图3中的工作负载66中示出的“信息查询处理”的一部分)被提供口头/言语问题以及来自声音记录/捕获的增补信息。这允许数据查询逻辑既“听到”问题又“听到”问题的主题。在一个示例中，系统根据在声音记录中找到的增补信息简单地返回答复“这只鸟是草地鹨”。

在本公开的实施例中，组合格式的信息请求使得数据查询逻辑能够基于数据查询逻辑从被询问的对象“听到”什么来检查相关数据库。例如，仍然假设来自用户的查询是“这是什么类型的鸟”，并且由来自麦克风412的声音记录创建的增补信息揭示该鸟是草地鹨。然后，数据查询逻辑可以关于“草地鹨”追踪其它数据库，包括它在哪里生存、它是否是猎鸟、其物种可替代性名称等等。然后，话音逻辑414可以向用户提示建议，以提供这种附加信息。在实施例中，这种建议基于用户的简档。例如，如果存储设备430包含用户是猎人的记录，那么数据查询逻辑可以向猎人提供(或自动揭示)草地鹨不是猎鸟(并且因此不被射杀)。类似地，如果存储设备430包含用户是鸟类观察者(鸟类学家)的记录，那么物种可替代性名称可以由数据查询逻辑提供给用户。

在本公开的实施例中，一旦对象通过其图像和/或声音被识别，所建议的动作就可以呈现给用户。例如，假设电子设备402的用户已经对电动机进行了音频/视频记录，并询问了“这个电动机正在正确运行吗？”的问题。图像识别软件将从记录的视频组件中识别电动机的类型。声音模式识别将通过比较记录的音频分量与该电动机的正常和/或异常声音的数字数据库来识别电动机中的任何异常。即，通过比较数字化声音模式与该电动机的已知声音签名(正常和异常)，来自记录的音频部分的数字化声音模式被用于识别电动机的任何问题。然后，系统可以访问用于识别出的问题的解决方案数据库，并将这些(一个或多个)解决方案呈现给用户。例如，如果该电动机的声音签名表明主轴承将破损，那么系统可以提供更换主轴承的方向、哪个零件号与所需的主轴承相关联、对工作将花费多长时间的估计(并且因此使用该电动机的系统将会停止运行多长时间)等等。

在本公开的实施例中，电子设备402不仅能够“听到”问题(通过用户点击“询问您的问题”按钮410)，而且还能够通过用户按下化学传感器选择器按钮424“闻到”用户正在询问什么，其中化学传感器选择器按钮424激活电子设备402上的化学传感器426。例如，假设用户正站在食品供应商车旁边，并询问“这是什么类型的食物？”的问题。仅使用言语问题，系统无法“知道”用户正在询问什么“食物”。但是，电子设备402上的化学传感器426根据其香味提供关于未指定对象的增补。在本公开的实施例中，处理器416和/或信息云服务器404使用化学模式识别软件将由化学传感器捕获接收到的“气味”识别为“热狗”。即，处理器416和/或信息云服务器404生成描述由可检测牛肉、盐、某些香料等的化学签名的化学传感器426内的一个或多个传感器生成的热狗香气的数字文件，并将该化学签名与关于食品的数字信息的数据库进行比较，以便将该食物识别为热狗。这种信息(即，食物类型是“热狗”)与问题(“这是什么类型的食物”)组合以回答“这个食物是热狗”。因此，数据查询逻辑(例如，图3中的工作负载66中示出的“信息查询处理”的一部分)被提供口头/言语问题以及来自化学签名的增补信息。这允许数据查询逻辑既“听到”问题又“闻到”问题的主题。在这个示例中，系统根据在化学签名中找到的增补信息简单地返回答复“这个食物是热狗”。在附加的实施例中，基于用户的简档等，这种信息然后可以用于提供关于该用户是否到底(基于他/她的病史)应该吃热狗的建议、由该供应商提供的哪种热狗被评级最高、附近是否有更高评级的热狗供应商等等。

在本公开的实施例中，并且如图4所示，电子设备402包括收发器434，其能够以无线方式或通过硬连线发送和接收电子消息。收发器434能够将组合格式的请求(如上所述)传送到信息服务器。

在本公开的实施例中，信息服务器是电子设备402上的本地设备，诸如处理器416。因此，任何查询都由电子设备402本地处理。

在本公开的实施例中，信息服务器是能够处理来自多个电子设备的信息请求的远程设备，诸如信息云服务器404。

在本公开的实施例中，信息服务器是本地设备(例如，处理器416)和远程设备(例如，信息云服务器404)的组合。

在本公开的一种或多种实施例中，电子设备402包括诸如所绘出的全球定位系统(GPS)432的定位逻辑。GPS 432利用一系列地球同步卫星来标记电子设备402在任何时间点的位置。其它定位逻辑(图中未绘出)可以是以三角测量系统(其使用来自房间内的发送器的信号来定位设备)、多普勒频移系统(其使用信号从在已知位置处定位的发送器/接收器到电子设备402并返回到定位发送器/接收器所花费的时间)的形式，等等。因此，当问题被询问时和/或当增补信息(例如，照片、声音记录、化学读数等)被生成时的关于电子设备402的实时位置的元数据由GPS 432产生。

在本发明的实施例中，数据查询逻辑(例如，处理器416和/或信息云服务器404)可能没有足够的本地存储的信息来回答关于被观看/闻到等以及被询问的对象的问题。在这种情况下，数据查询逻辑可以访问(一个或多个)信息资源服务器436，诸如提供对诸如网站、数据库等的信息资源的访问的系统。这些信息资源是使用web抓取器、搜索引擎、数据库搜索逻辑等选择性访问/检索的，以便访问特定信息。例如，假设用户询问“哪些香水由这种花制成？”，并且数据查询逻辑既接收到问题又接收到所讨论的花的照片，并且确定该花是玫瑰。然后，数据查询逻辑将抓取/查询由(一个或多个)信息资源服务器436提供的信息资源，以便识别哪些香水(包括产品名称、制造商等)在其配方中使用了玫瑰精华。

现在参考图5，其中呈现了由一个或多个处理器或其它硬件设备执行的、以通过增补信息请求来响应来自电子设备的用户生成的信息请求的一个或多个操作的高级流程图。

在启动器方框502之后，信息服务器接收到关于对象的信息请求(方框504)。如图4所示，信息服务器可以是本地的(例如，处理器416)、远程的(例如，信息云服务器404)和/或其组合。信息请求来自电子设备(例如，图4中的电子设备402)。信息请求具有第一格式，诸如由图4中的话音逻辑414在话音转换/数字化中使用的格式。例如，信息请求可以来自用户向电子设备402“询问”关于特定主题/对象的问题。但是，信息服务器最初不清楚用户正在询问什么问题。

因此，在方框506中，信息服务器接收关于对象的增补信息。该增补信息由电子设备生成，并且具有与第一格式不同的第二格式。例如，第一格式可以是由话音数字化器使用的将用户的口头问题转换为数字化格式的格式。第二格式可以是由照片、视频文件、化学签名、文本文档、图形文件等使用的格式。

如方框508中所述，信息服务器然后能够基于增补信息生成对信息请求的响应。即并且如上所述，诸如“花”和“马达”以及“膝盖”的主题现在通过附带的照片/声音记录/化学签名等更具体地进行描述，从而使得信息服务器能够更好地响应查询。

因此，在本公开的实施例中，第一格式用于话音识别，并且第二格式用于由电子设备上的相机生成的视频文件。

因此，在本公开的实施例中，第一格式用于话音识别，并且第二格式用于由电子设备上的麦克风生成的音频文件。

因此，在本公开的实施例中，第一格式用于话音识别，并且第二格式用于由电子设备上的化学传感器生成的化学签名。

在本公开的实施例中，第一格式用于话音识别，并且第二格式用于从电子设备接收到的文本文档。例如，假设用户已按下图4中的文档选择器按钮428。这使得处理器416和/或信息云服务器404检索先前已存储(例如，在存储设备430中)或正在由在用户界面408上绘制的用户(例如，使用他/她的指尖在专门用于接收转换成ASCII字符的自由格式文本的屏幕的触摸敏感部分上)创建的文本文档。然后，用户可以询问问题，诸如“这个文本文档是关于什么的？”、“这个文档适合发送给客户吗？”等等。类似地，查询可能是“这个文本文档意味着什么？”。然后，数据查询逻辑可以将所选择的文本文档中的文本(或来自其的元标记)与描述文档的数据库进行比较，以便回答这些问题。

在本公开的实施例中，第一格式用于话音识别，并且第二格式用于存储在电子设备上的图形文档。例如，假设用户已按下图4中的文档选择器按钮428。这使得处理器416和/或信息云服务器404检索先前已存储(例如，在存储设备430中)或当前正在由在用户界面408上绘制的用户(例如，使用他/她的指尖在专门用于接收转换成ASCII字符的自由格式文本的屏幕的触摸敏感部分上)创建的图形文件。然后，用户可以询问问题，诸如“这个图在描绘什么？”、“这个图表就当前的销售数字告诉我们什么？”等等。然后，数据查询逻辑可以从该图/图表中(包括元标记)以及描述其它图表/图的数据库中提取信息，以便回答这些问题。

在本公开的实施例中，第一格式用于话音识别，第二格式用于照片，并且被询问的对象被显示在照片中。在该实施例中，信息服务器检索照片中嵌入的关于照片中显示的对象的信息，嵌入的信息描述照片中显示的对象。信息服务器然后基于嵌入的信息定位关于照片中的对象的附加信息，使得附加信息优先于嵌入信息。即，如上所述，照片中诸如元标签的嵌入信息可以用于检索关于照片中所示的对象的附加信息。例如，假设照片是由图4所示的相机420拍摄的，并且GPS 432或类似的定位逻辑已在照片上放置了显示拍摄照片的时间、日期和位置的元标记。进一步假设该照片是用户和朋友的“自拍”，并且(立即或在以后的时间/日期张贴的)问题是“图片右侧我的朋友的出生日期是哪一天”。通过将来自照片的元数据(例如，标识该朋友的标签)与(例如，来自用户被授权访问的社交媒体网站的)信息数据库关联，则该朋友的出生日期可以由数据查询逻辑(例如，图3中的工作负载66中所示的“信息查询处理”)导出。

在本公开的实施例中，第一格式用于话音识别，第二格式用于照片，并且被询问的对象没有在照片中显示。在这种实施例中，信息服务器利用照片中的嵌入信息来检索关于照片中未显示的对象的附加信息，其中附加信息优先于嵌入信息。例如，假设照片是由图4所示的相机420拍摄的，并且GPS 432或类似的定位逻辑已在照片上放置了显示拍摄照片的时间、日期和位置的元标记。进一步假设该照片是用户和朋友在音乐节的“自拍”，并且(立即或在以后的时间/日期张贴的)问题是“拍摄照片时正在表演的是什么乐队”，即使被问及的乐队没有在照片中。通过将来自照片的元数据与乐队在任何特定时间的时间表(并且甚至是播放列表中的歌曲)关联，在照片拍摄时的乐队的名称(和/或那时正在被播放的歌曲)可以通过数据查询逻辑(例如，图3中的工作负载66中所示的“信息查询处理”)导出。

在本公开的实施例中，信息请求由特定用户生成，并且该方法还包括将信息请求与特定用户的用户简档相关联；并基于用户简档定制对信息请求的响应。例如，如上所述，如果用户是猎人或鸟类学家，那么关于鸟的信息将是不同的。

在本公开的实施例中，信息服务器接收用户的物理手势，并且然后利用物理手势作为关于对象的附加增补信息。例如，假设电子设备402的用户正在拍摄一组汽车的视频和/或照片。该用户可能对视频/照片中的特定汽车的制造商和型号(或在赛车在赛道上的情况下，对特定赛车的驾驶员)感兴趣。为了指定哪个车是用户问题“那是什么类型的车”或“谁是那个赛车的驾驶员”的主题，用户可以在照片/视频内包括手势，诸如手指点、由拇指和食指创建的圆圈等，以便指定哪辆车是感兴趣的。

如本文所描述的，并且在一种或多种实施例中，本公开使得用户能够用语音识别软件请求搜索，同时通过使用非语音输入提供关于搜索请求的更多细节。本公开使得具有语音识别能力的智能自动化助手能够分析图纸、照片、声音、化学签名等，以便更好地理解搜索请求的性质。如本文所述，用户可以实时地将移动设备(例如，智能电话)指向对象以发现更多关于对象的特性(例如，视觉、色调、气味等)。因此，本公开提供了迄今为止不可获得和/或本领域技术人员已知的优于现有技术的技术改进。

本文使用的术语仅用于描述特定实施例的目的，并不旨在限制本公开。如本文所使用的，除非上下文另有明确指示，否则单数形式“一”、“一个”和“该”也旨在包括复数形式。将进一步理解，当在本说明书中使用时，术语“包括”和/或“包含”指定所述特征、整数、步骤、操作、元件和/或组件的存在，但不排除存在或添加一个或多个其它特征、整数、步骤、操作、元件、组件和/或其组合。

下面权利要求中的所有装置或步骤加上功能元件的对应结构、材料、动作和等同物旨在包括与具体要求保护的其它要求保护的元件结合执行功能的任何结构、材料或动作。本公开的各种实施例的描述是为了说明和描述的目的而给出，但并不旨在以所公开的形式穷举或限制本发明。在不脱离本公开的范围的情况下，许多修改和变化对于本领域普通技术人员将是显而易见的。选择和描述实施例是为了最好地解释本公开的原理和实际应用，并且使得本领域其他普通技术人员能够理解具有适于预期的特定用途的各种修改的本发明的各种实施例。

本公开中描述的任何方法可以通过使用VHDL(VHSIC硬件描述语言)程序和VHDL芯片来实现。VHDL是现场可编程门阵列(FPGA)、专用集成电路(ASIC)和其它类似电子设备的示例性设计入门语言。因此，本文描述的任何软件实现的方法可以由基于硬件的VHDL程序进行仿真，其然后被应用到VHDL芯片，诸如FPGA。

因此，已经详细描述了本申请的本公开的实施例并参考了其说明性实施例，将显而易见的是，在不脱离所附权利要求中限定的本公开的范围的情况下，修改和变化是可能的。

Claims

1.一种电子设备，包括：

用于接收对关于未指定对象的信息的口头请求的麦克风；

用于接收关于所述未指定对象的增补信息的传感器；

用于将来自所述口头请求的信息与所述增补信息组合成组合格式信息请求的组合逻辑；以及

用于检索对所述组合格式信息请求的答复的信息检索逻辑。

2.如权利要求1所述的电子设备，还包括：

用于将所述组合格式信息请求传送到信息服务器的发送器。

3.如权利要求1所述的电子设备，其中所述传感器是相机。

4.如权利要求1所述的电子设备，其中所述传感器是化学传感器。

5.如权利要求1所述的电子设备，其中所述传感器是捕获视频图像的相机，其中所述未指定对象是没有出现在所述视频图像中的对象，并且其中所述电子设备访问：

元数据检索逻辑，其中所述元数据检索逻辑从由所述相机捕获的视频图像中检索描述所述视频图像的元数据；

相关逻辑，其使来自所述元数据的信息相关以识别关于所述未指定对象的信息来生成对所述组合格式信息请求的答复。

6.一种用于增补信息请求的方法，所述方法包括：

由信息服务器接收关于对象的信息请求，其中所述信息请求来自电子设备，并且其中所述信息请求具有第一格式；

由所述信息服务器接收关于所述对象的增补信息，其中所述增补信息由所述电子设备生成，并且其中所述增补信息具有与所述第一格式不同的第二格式；以及

由所述信息服务器基于所述增补信息生成对所述信息请求的响应。

7.如权利要求6所述的方法，其中所述第一格式用于话音识别，并且其中所述第二格式用于由所述电子设备上的相机生成的视频文件。

8.如权利要求6所述的方法，其中所述第一格式用于话音识别，并且其中所述第二格式用于由所述电子设备上的麦克风生成的音频文件。

9.如权利要求6所述的方法，其中所述第一格式用于话音识别，并且其中所述第二格式用于从所述电子设备接收的文本文档。

10.如权利要求6所述的方法，其中所述第一格式用于话音识别，并且其中所述第二格式用于存储在所述电子设备上的图形文档。

11.如权利要求6所述的方法，其中所述第一格式用于话音识别，并且其中所述第二格式用于由所述电子设备上的化学传感器生成的化学签名。

12.如权利要求6所述的方法，其中所述第一格式用于话音识别，其中所述第二格式用于照片，其中所述对象显示在所述照片中，并且其中所述方法还包括：

由所述信息服务器检索所述照片中的关于所述照片中显示的对象的嵌入信息，其中所述嵌入信息描述所述照片中显示的对象；以及

由所述信息服务器基于所述嵌入信息定位关于所述照片中的对象的附加信息，其中所述附加信息优先于所述嵌入信息。

13.如权利要求6所述的方法，其中所述第一格式用于话音识别，其中所述第二格式用于照片，其中所述对象没有显示在所述照片中，并且其中所述方法还包括：

由所述信息服务器利用所述照片中的嵌入信息来检索关于在所述照片中没有显示的对象的附加信息，其中所述附加信息优先于所述嵌入信息。

14.如权利要求6所述的方法，其中所述信息请求由特定用户生成，并且其中所述方法还包括：

将所述信息请求与所述特定用户的用户简档关联；以及

基于所述用户简档定制对所述信息请求的响应。

15.如权利要求6所述的方法，还包括：

由所述信息服务器接收用户的物理手势；以及

由所述信息服务器利用所述物理手势作为关于所述对象的附加增补信息。

16.一种用于增补信息请求的计算机程序产品，所述计算机程序产品包括其中体现有程序代码的计算机可读存储介质，其中所述计算机可读存储介质不是瞬时信号本身，并且其中所述程序代码可由处理器读取并执行以执行一种方法，所述方法包括：

接收关于对象的信息请求，其中所述信息请求来自电子设备，并且其中所述信息请求具有第一格式；

接收关于对象的增补信息，其中所述增补信息由所述电子设备生成，并且其中所述增补信息具有与所述第一格式不同的第二格式；以及

基于所述增补信息生成对所述信息请求的响应。

17.如权利要求16所述的计算机程序产品，其中所述第一格式用于话音识别，并且其中所述第二格式用于视频文件。

18.如权利要求16所述的计算机程序产品，其中所述第一格式用于话音识别，并且其中所述第二格式用于由所述电子设备上的化学传感器生成的化学签名。

19.如权利要求16所述的计算机程序产品，其中所述第一格式用于话音识别，其中所述第二格式用于照片，其中所述对象显示在所述照片中，并且其中所述方法还包括：

检索所述照片中的关于所述照片中显示的对象的嵌入信息，其中所述嵌入信息描述所述照片中显示的对象；以及

基于所述嵌入信息定位关于所述照片中的对象的附加信息，其中所述附加信息优先于所述嵌入信息。

20.如权利要求16所述的计算机程序产品，其中所述第一格式用于话音识别，其中所述第二格式用于照片，其中所述对象没有显示在所述照片中，并且其中所述方法还包括：

利用所述照片中的嵌入信息来检索关于在所述照片中没有显示的对象的附加信息，其中所述附加信息优先于所述嵌入信息。