CN112805662A

CN112805662A - 信息处理装置、信息处理方法和计算机程序

Info

Publication number: CN112805662A
Application number: CN201980064935.7A
Authority: CN
Inventors: 安德鲁·申; 井手直纪
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2018-10-15
Filing date: 2019-08-16
Publication date: 2021-05-14
Also published as: US20220046310A1; EP3869301A1; WO2020079941A1; EP3869301A4

Abstract

提供辅助用户的装置操作的信息处理装置、信息处理方法和计算机程序。信息处理装置包括：从用户接收输入的输入单元；以及呈现单元，基于输入，呈现与用于操作预定设备的命令有关的信息。输入单元通过语音和手势中的至少一项从用户接收输入。呈现单元呈现由语音和/或手势形成并且与输入部分匹配的命令的候选项。

Description

信息处理装置、信息处理方法和计算机程序

技术领域

本说明书中公开的技术涉及辅助用户的装置操作的信息处理装置、信息处理方法和计算机程序。

背景技术

最近，已开始普及被称为“语音代理”、“助手”或“智能扬声器”的服务，该服务根据用户的使用和状况向用户呈现各种类型的信息，同时通过使用语音等与用户进行对话。语音代理的使用允许用户通过自然交互发出命令，而无需诸如遥控器的装置。此外，如果语音代理配备有相机，则用户可以通过手势发出命令。此外，还假设可以通过将语音代理与家庭中的各种装置连接来发出命令，该各种装置诸如电视装置、录像机、音频设备、照明装置、空调、烹饪设备、冰箱、洗衣机、浴缸和厕所。例如，已提出了一种语音对话代理系统，该系统通过使用语音命令来对与家用电器有关的装置进行语音控制(参见专利文献1)。

引用列表

专利文献

专利文献1：日本专利申请公开号2018-120203

非专利文献

非专利文献1：Prototypical Networks for Few-Shot Learning.Jake SNELL,Kevin Swersky and Richard Zemel.NIPS 2017。

发明内容

本发明要解决的技术问题

本说明书中公开的技术的目的是提供一种辅助用户的装置操作的信息处理装置、信息处理方法和计算机程序。

问题的解决方案

本说明书中公开的技术的第一方面是：

信息处理装置，包括：

输入单元，从用户接收输入；以及

呈现单元，基于输入，呈现与用于操作预定装置的命令有关的信息。

输入单元通过语音和手势中的至少一项从用户接收输入，并且呈现单元呈现包括语音和手势中的至少一项的命令的候选项。

呈现单元呈现与输入部分匹配的命令的候选项。

可替代地，信息处理装置还包括存储单元，存储单元存储每个命令的紧接在先的输入，其中存储单元搜索相似于输入的紧接在先的输入，并且呈现单元呈现与相似的紧接在先的输入对应的命令的候选项。

可替代地，输入单元接收遥控命令，并且呈现单元呈现与遥控命令等效的手势或语音命令。

可替代地，呈现单元呈现被合并为一组的多个装置操作，并且呈现与该组对应的命令的候选项。

可替代地，呈现单元呈现由用户频繁执行的一个或多个装置操作，并且呈现与该装置操作对应的手势命令的候选项。

此外，本说明书中公开的技术的第二方面是：

信息处理方法，包括：

输入步骤，接收来自用户的输入；以及

呈现步骤，基于输入，呈现与用于操作预定装置的命令有关的信息。

此外，本说明书中公开的技术的第三方面是：

以计算机可读格式描述的计算机程序，以便使计算机用作：

输入单元，接收来自用户的输入，以及

根据第三方面的计算机程序限定以计算机可读格式描述的计算机程序，以便在计算机上实现预定处理。换句话说，通过将根据第三方面的计算机程序安装在计算机中，在计算机上施加协作动作，并且可以获得与根据第一方面的信息处理装置的动作和效果相似的动作和效果。

本发明的效果

根据本说明书中公开的技术，可以提供辅助用户的装置操作的信息处理装置、信息处理方法和计算机程序。

注意，本说明书中描述的效果仅是示例，并且本发明的效果不限于此。此外，在一些情况下，本发明除了上述效果之外还具有其他效果。

从基于如稍后描述的实施例和附图的更详细描述，本说明书中公开的技术的其他目的、特征和优点将变得显而易见。

附图说明

图1是示意性地示出能够作为语音代理操作的信息装置100的配置示例的示图。

图2是示出对话系统200的功能配置示例的示图。

图3是示出手势选项的GUI的具体示例的示图。

图4是示出手势选项的GUI的具体示例的示图。

图5是示出手势选项的GUI的具体示例的示图。

图6是示出在与用户交互时由对话系统200执行的处理规程的示例的流程图。

图7是示出在与用户交互时由对话系统200执行的处理规程的另一示例的流程图。

图8是示出在与用户交互时由对话系统200执行的处理规程的另一示例的流程图。

图9是示出对话系统900的功能配置示例的示图。

图10是示出搜索单元903中的操作规程的流程图。

图11是示出在与用户交互时由对话系统900执行的处理规程的示例的流程图。

图12是示出在与用户交互时由对话系统900执行的处理规程的另一示例的流程图。

图13是示出对话系统1300的功能配置示例的示图。

图14是示出在与用户交互时由对话系统1300执行的处理规程的示例的流程图。

图15是用于说明通过自动呈现来注册语音命令的方法的示图，该语音命令用于集中地简化由用户频繁执行的一系列操作。

图16是示出呈现将被注册为命令的一组操作的GUI的配置示例的示图。

图17是示出用于注册语音命令的GUI的配置示例的示图。

图18是示出当用户注册期望的语音命令时的GUI的配置示例的示图。

图19是用于说明手动注册语音命令的方法的示图，该语音命令用于集中地简化由用户频繁执行的一系列操作。

图20是示出呈现将被注册为命令的一组操作的GUI的配置示例的示图。

图21是用于说明将由用户频繁执行的操作注册为手势命令的方法的示图。

图22是示出向用户提出命令注册本身的GUI的配置示例的示图。

图23是示出向用户提出用作命令的手势的GUI的配置示例的示图。

图24是示出当注册用户期望的手势命令时的GUI的配置示例的示图。

具体实施方式

下面将参考附图详细描述本说明书中公开的技术的实施例。

图1示意性地示出能够作为语音代理操作的信息装置100的配置示例。信息装置100可以是作为语音代理操作的专用代理装置，或者可以是预先安装了语音代理应用程序的装置(诸如各种消费电子(CE)装置，包括电视装置、空调、录像机、洗衣机等)以及物联网(IoT)装置。

信息装置100包括处理单元101、通信单元102、显示单元103、语音输入单元104、语音输出单元105、图像捕获单元106、传感器单元107、遥控接收单元108以及存储单元109。

通信单元102使用有线通信诸如以太网(注册商标)或无线通信诸如Wi-Fi(注册商标)连接到外部网络诸如互联网。此外，通信单元102还可包括用于与外部装置(未示出)连接的接口功能。例如，通信单元102还可包括用于经由符合标准的家庭网络诸如数字生活网络联盟(DLNA)(注册商标)与每个家庭CE装置互连的接口功能以及与IoT装置互连的接口功能。

显示单元103包括例如液晶、有机电致发光(EL)元件等。显示单元104可以向用户显示例如语音代理的字符、命令的部分匹配候选项(稍后描述)或消息。然而，显示单元103不是作为语音代理的信息装置100的必要部件。例如，在可以经由通信单元102协作的另一装置(诸如电视装置)中设置的显示器可以代替。

语音输入单元104包括声音收集元件诸如麦克风，并且用于输入在安装了信息装置100的房间中生成的语音。在房间中生成的语音可以包括由用户使用语音代理的话语(语音命令)。语音输入单元104可以包括麦克风阵列，其中组合有多个麦克风。麦克风中的一些或全部可以外部连接到信息装置100。可替代地，可以包括安装在与信息装置100协作的外部装置(诸如智能电话或可穿戴装置)上的麦克风。

语音输出单元105包括声音生成元件，诸如扬声器。声音输出单元105主要用于从语音代理输出合成语音。此外，语音输出单元106可以包括组合有多个扬声器的扬声器阵列(多声道扬声器或超多声道扬声器)。多个扬声器中的一些或全部可以外部连接到信息装置100。

图像捕获单元106包括相机，相机包括图像传感器，诸如互补金属氧化物半导体(CMOS)或电荷耦合器件(CCD)，并且捕获主要在信息装置100的正面方向上的用户的图像，并意图发布手势或语音命令。图像捕获单元106可以是例如使用两个相机的立体相机或使用三个以上相机的多镜头相机。此外，多个相机中的一些或全部可以外部连接到信息装置100。

传感器单元107主要在安装有信息装置100的房间中感测环境信息。传感器单元107的配置，即包括哪种传感器元件是无限制的。例如，传感器单元107可以包括物体检测传感器和深度传感器。此外，传感器单元107可以包括检测环境信息的环境传感器，诸如照度传感器、温度传感器和湿度传感器。此外，传感器单元107可以包括红外传感器或人体传感器。此外，传感器单元107可以包括生物传感器，其检测用户的脉搏、出汗、脑电图、肌电位、呼气等。构成传感器单元107的传感器单元中的一些或全部可以外部连接或无线连接到信息装置100。

遥控接收单元108通过使用红外通信、短距离无线通信等接收并处理从遥控器(未示出)传输的遥控信号，以生成操作命令。遥控器的操作员例如是意图向语音代理发布命令的用户。此外，假设将由遥控器操作的物体不仅是信息装置100的主体，而且是连接到信息装置100的外部装置。

存储单元109包括大容量记录装置，诸如硬盘驱动器(HDD)或固态驱动器(SSD)。例如，在执行语音代理服务时使用的巨量数据(诸如数据库和字典)被存储在存储单元109中。在一些情况下，存储单元109经由诸如通用串行总线(USB)的接口被外部连接或被添加到信息装置100。

处理单元101包括处理器和存储器，并且处理器执行在存储器中加载的程序，执行各种处理，并集中控制信息装置100的操作。在处理单元101中，各种应用程序在基本上由操作系统(OS)提供的执行环境下执行。例如，在多处理器可用作处理器的情况下，或者在由OS启用多线程执行的情况下，可以将可并行执行的所有处理单元读入存储器中并且并行执行。

处理单元101执行预安装在处理单元101中的应用程序，诸如语音代理。此外，处理单元101并行执行多个代理应用程序，由此信息装置100可以用作多个代理装置。此外，在一些情况下，代理功能中的至少一些是与建立在云上的代理服务协作提供的。

第一实施例

语音代理的使用允许用户通过自然交互发布命令，而无需诸如遥控器的装置。此外，如果语音代理配备有相机，则用户可以通过手势发布命令。此外，还假设可以通过将语音代理与家庭中的各种装置连接来发布命令，该装置诸如电视装置、录像机、音频设备、照明装置、空调、烹饪设备、冰箱、洗衣机、浴缸和厕所。

然而，当将各种装置连接到语音代理并且尝试经由语音代理来操作每个装置时，与命令对应的话语和手势的数量增加，并且存在用户无法记住所有它们的担忧。因为用户的记忆含糊不清，所以存在错误的话语或手势导致该装置发生故障或导致另一装置操作的风险。

因此，作为第一实施例，将提出用户通过简单交互而没有错误地在各种装置所连接的语音代理中实现期望装置的操作的几种方法。

作为第一种方法，提出了在来自用户的命令不完善的情况下，通过经由扬声器(语音输出单元105)或显示器(显示单元103)呈现与注册的命令部分匹配的候选项，来辅助用户的命令发布的方法。该方法的优点在于，即使通过手势或话语的命令被记住一半，用户也可发布期望的命令。

例如，当仅说出“音量”时，用户通过部分匹配搜索找到“增大”和“减小”作为候选项。然后，当找到这些部分匹配候选项时，在屏幕的左侧和右侧上呈现“增大”和“减小”。该屏幕可以是安装在语音代理主体上的显示器的屏幕，或者是与语音代理协作的装置(诸如电视装置)的屏幕。然后，如果用户做出指示“左”或“右”的手势，则语音代理可以指定用户命令是增大音量还是减小音量，并因此用户可以通过简单交互来实现命令。

作为另一示例，当仅说出“增大”时，用户通过部分匹配搜索来找到“音量”、“频道”等作为候选项。然后，当找到这些部分匹配候选项时，每个候选项显示在屏幕上。通过根据屏幕的显示由话语或手势执行后续操作，用户可以通过交互来实现命令。

此外，作为扩展示例，例如，当用户在早晨说出“大田区，告诉我今晚的天气和温度”时，仅使“大田区”经受部分匹配搜索，并且所得的部分匹配候选项“上午”、“中午”、“夜晚”、“天气”、“温度”和“交通拥堵”在屏幕上显示。此后，用户可仅用手势进行响应。

第一种方法的特征主要在于通过利用部分匹配搜索来实现不完善的用户命令的处理，以及通过多模态交互来辅助用户命令输入。

图2示出了利用部分匹配搜索和多模态交互的对话系统200的功能配置示例。对话系统200例如以在图1所示的信息装置100上执行预定语音代理应用程序的形式而实现。

图2所示的对话系统200包括语音识别单元201、手势识别单元202、搜索单元203、命令字典204、确定单元205、模态决定单元206、手势呈现单元207、话语呈现单元208、命令生成单元209和命令执行单元210。这些组件中的一些或全部被配置为例如软件模块。

语音识别单元201识别从诸如语音输入单元104的麦克风输入的用户语音，并将其转换为文本(字符串)。例如，用户通过语音输入命令，但是假定该语音命令不完善。

手势识别单元202从由图像捕获单元106等捕获的用户的图像中识别手势类别，并将其转换为文本(字符串)。例如，假设用户做出的手势不完善。

搜索单元203在命令字典204中的文本中搜索从语音识别单元201输入的字符串。在对话系统200中限定的命令的字符串被注册在命令字典204中。还假设从语音识别单元201输入的字符串在中间被中断并且难以理解或不完善。本实施例的特征在于，即使输入字符串不完善，搜索单元203也执行部分匹配搜索或相似性搜索。

此外，搜索单元203从由手势识别单元202识别出的手势类型中搜索对应的命令。手势图案被注册在命令字典204中。还假设由手势识别单元202识别的手势在中间被中断并且难以理解或不完善。本实施例的特征在于，即使由用户做出的手势不完善，搜索单元203也执行部分匹配搜索或相似性搜索。

确定单元205基于由搜索单元203进行的语音命令和手势的搜索结果来确定用户意图的命令。此外，在搜索单元203仅给出语音命令或手势的部分匹配的搜索结果并且未能给出完善命令的情况下，确定单元205执行预测和内插并输出多个命令候选项(部分匹配候选项)。

在确定单元205不能确定完善命令的情况下，模态决定单元206决定用于提示用户从多个命令候选项(部分匹配候选项)中缩小命令范围的模态。在图2所示的对话系统200中，手势和语音可用作用户输入命令的两种类型的模态，但是可以支持其他类型的模态。在决定通过用户的手势来缩小命令候选项范围的情况下，模态决定单元206指示手势呈现单元207呈现用于提示缩小命令候选项范围的手势。此外，在决定通过用户的语音来缩小命令候选项范围的情况下，模态决定单元206指示话语呈现单元208呈现用于提示缩小命令候选项范围的话语内容。

手势呈现单元207向用户呈现用于选择每个命令候选项的手势，并提示用户通过做出任意一个手势来缩小命令候选项范围。例如，手势呈现单元207使用显示单元103(或与对话系统200等协作的电视装置的屏幕)显示图形用户界面(GUI)，在该GUI上呈现用于每个命令候选项的手势，并提示用户做出任意一个该手势。可替代地，通过从语音输出单元105输出解释用于每个命令候选项的手势的语音指导，手势呈现单元207可以提示用户做出任意一个手势以缩小命令候选项范围。

话语呈现单元208向用户呈现用于选择每个命令候选项的话语内容，并提示用户通过说出它们中的任一个来缩小命令候选项范围。例如，话语呈现单元208使用显示单元103(或与对话系统200等协作的电视装置的屏幕)显示GUI，在该GUI上呈现用于每个命令候选项的话语内容，并提示用户说出它们中的任一个。可替代地，通过从语音输出单元105输出解释用于每个命令候选项的话语内容的语音指导，话语呈现单元208可以提示用户通过说出该话语内容中的任一个来缩小命令候选项范围。

命令生成单元209根据从语音识别单元201和手势识别单元202中的一个或两个依次输出的不完善命令来生成完善命令。具体地，命令生成单元209管理对话系统200和用户之间的交互的状态，并且基于当前状态，通过将从语音识别单元201或手势识别单元202先前输出的信息与从语音识别单元201或手势识别单元202新输出的信息进行融合，来生成命令。

命令执行单元210执行由确定单元205确定的完善命令或由命令生成单元209从不完善命令生成的命令。该命令不仅包括用于对话系统200的命令，还包括用于外部装置的命令。在前一种情况下，在作为对话系统200的实体的信息装置100中，处理单元101执行命令的处理。此外，在后一种情况下，例如，命令经由通信单元102被传输到对应的外部装置。

在图2所示的对话系统200中，在从麦克风输入的用户的语音命令不完善的情况下(例如，在中间被中断或成片段的情况下)，或在由用户做出的手势不完善的情况下(例如，在动作不正确或相机未能捕获障碍物后面的手势的部分的情况下)，确定单元205处于不能确定完善命令的状态中。模态决定单元206决定使用手势或语音的哪种模态来提示用户缩小命令范围。

例如，模态决定单元206可以在用户输入(不完善的)手势命令时由手势呈现单元207提示缩小命令候选项范围，或可以在用户输入(不完善的)语音命令时由话语呈现单元208提示缩小命令候选项范围。即，可以以相同的模态执行缩小命令候选项范围。

例如，模态决定单元206可以在用户输入(不完善的)手势命令时由话语呈现单元208提示缩小命令候选项范围，或可以在用户输入(不完善的)语音命令时由手势呈现单元207提示缩小命令候选项范围，即，可以以切换的模态执行缩小命令候选项范围。

模态决定单元206将模态切换为与第一命令输入时的模态不同的模态，由此能够向用户指示对话系统200中可用的模态。例如，曾经仅通过话语做出命令输入的用户有时会知道他或她可以使用手势，并且相反，曾经仅通过手势做出命令输入的用户有时会通过话语做出输入。当然，在用户不能做出完善手势或不能做出完善话语的环境的假设下，模态决定单元206可以选择与第一命令输入时的模态不同的模态。例如，在存在不能以足够的准确度识别用户的话语的环境的情况下，可以将模态切换为手势，并且在相机未能捕获在用户当前位置处的障碍物后面的手势的部分的情况下，可以将模态切换为话语。

图3示出由手势呈现单元207呈现的手势选项的GUI的具体示例。这里，假设在对话系统200与用户之间的先前交互中，用户仅说出“增大”，并且对话系统200通过部分匹配搜索找到“音量”和“频道”作为候选项。

在图3所示的GUI中，列出了通过部分匹配而获得的命令候选项，并且各自呈现用于指示相应命令候选项的手势。该GUI显示向上、向下、向左和向右箭头，其中向右手势指示“频道增大”(切换到较大的频道号)，向左手势指示“频道减小”(切换到较小的频道号)，向上手势指示调高音量，并且向下手势指示调低音量。手势可以是摇头或摇动手或指尖的动作。

命令生成单元209管理用户先前仅说出“增大”的交互的状态，并且基于当前状态，即用户对图3所示的GUI做出的手势，命令生成单元209能够通过将“增大”与频道或音量融合来生成完善的命令。因此，图3所示的GUI可以辅助用户操作装置。

图4示出由手势呈现单元207呈现的手势选项的GUI的另一具体示例。这里，假设这样的情况，其中在仅说出“语音”之后，用户烦恼并且闭嘴，并且手势呈现单元207使用显示单元103来提示用户随后的输入。

图4所示的GUI显示消息“说‘增大音量’以调高音量”。在用户响应于该消息说出“增大音量”的情况下，命令“增大音量”由语音识别单元201进行语音识别，搜索单元203在命令字典204中搜索文本“增大音量”，确定单元205基于搜索结果确定用户的话语是“增大音量”，并且命令执行单元210执行“增大音量”命令。

此外，在用户仅对图4所示的GUI说出“增大”的情况下，命令生成单元209管理用户先前仅说出“语音”的交互的状态，并且基于用户进一步说出“增大”的当前状态，命令生成单元209将“语音”与“增大”融合以生成最终命令“增大音量”，并且该命令可以由命令执行单元210执行。

此外，图4所示的GUI显示消息“或者，将您的脸向上转”、“或者，将您的食指向上指”和“或者，将您的手向上放置”，以及消息“说‘增大音量’以调高音量”。即，模态决定单元206示出从话语到手势的模态切换。例如，曾经仅通过话语做出命令输入的用户可以知道他或她可以使用手势。假定响应于这些消息中的任一个，用户做出以下手势中的任一个：将脸向上转；将食指向上指；以及将手向上放置。尽管这些手势都不是完善的命令，但是命令生成单元209管理用户先前仅说出“语音”的交互的状态，并且基于用户进一步做出了表示“增大”的任何手势的当前状态，命令生成单元209将“语音”与“增大”融合以生成最终命令“增大音量”，并且该命令可以由命令执行单元210执行。因此，图4所示的GUI可以辅助用户操作装置。

图5示出由手势呈现单元207呈现的手势选项的GUI的又一具体示例。这里，假设这样的情况，其中在仅说出“频道”之后，用户烦恼并且闭嘴，并且手势呈现单元207使用显示单元103来提示用户随后的输入。

图5所示的GUI显示消息“说‘增大频道’以调高频道”。在用户响应于该消息说出“增大频道”的情况下，命令“增大频道”由语音识别单元201进行语音识别，搜索单元203在命令字典204中搜索文本“增大频道”，确定单元205基于搜索结果确定用户的话语是“增大频道”，并且命令执行单元210执行“增大频道”命令。

此外，在用户仅对图5所示的GUI说出“增大”的情况下，命令生成单元209管理用户先前仅说出“频道”的交互的状态，并且基于用户进一步说出“增大”的当前状态，命令生成单元209将“频道”与“增大”融合以生成最终命令“增大频道”，并且该命令可以由命令执行单元210执行。

此外，图5所示的GUI显示消息“或者，将您的脸向上转”、“或者，将您的食指向上指”和“或者，将您的手向上放置”，以及消息“说‘增大频道’以调高频道”。即，模态决定单元206示出从话语到手势的模态切换。例如，曾经仅通过话语做出命令输入的用户可以知道他或她可以使用手势。假定响应于这些消息中的任一个，用户做出以下手势中的任一个：将脸向上转；将食指向上指；以及将手向上放置。尽管这些手势都不是完善的命令，但是命令生成单元209管理用户先前仅说出“频道”的交互的状态，并且基于用户进一步做出了表示“增大”的任何手势的当前状态，命令生成单元209将“频道”与“增大”融合以生成最终命令“增大频道”，并且该命令可以由命令执行单元210执行。因此，图5所示的GUI可以辅助用户操作装置。

图6示出在与用户交互时由对话系统200执行的处理规程的示例。

首先，经由语音输入单元104接收来自用户的话语(步骤S601)。语音识别单元201使用户的话语进行语音识别。然后，搜索单元203在命令字典204中搜索语音识别文本的部分匹配(步骤S602)。

搜索单元203或确定单元205对与来自用户的话语部分匹配的命令候选项的数量进行计数(步骤S603)。当模态决定单元206决定通过手势缩小命令候选项范围时，手势呈现单元207检查是否可以在显示单元103上显示针对部分匹配而搜索到的命令候选项的数量。然后，手势呈现单元207使用显示单元103或语音输出单元105呈现可显示数量的命令候选项手势(步骤S604)。

用户从由显示单元103呈现的命令候选项列表中选择并做出手势。然后，由图像捕获单元106捕获来自用户的手势，并且手势识别单元202从用户的所捕获图像的识别结果来估计手势(步骤S605)。

命令生成单元209将在步骤S601中从用户接收的话语管理为先前交互的状态，并且将该话语与在当前状态下，即在步骤S605中估计的手势融合，以生成最终命令(步骤S606)。然后，命令执行单元210执行所生成的命令(步骤S607)。

因此，根据图6所示的处理规程，用户可以借助于对话系统200以简单交互来执行所期望装置的操作。此外，在图6所示的处理规程中，当缩小命令候选项范围时，模态决定单元206执行从话语到手势的模态切换。例如，曾经仅通过话语做出命令输入的用户可以知道他或她可以使用手势。

图7示出在与用户交互时由对话系统200执行的处理规程的另一示例。

首先，经由图像捕获单元106接收来自用户的手势(步骤S701)。手势识别单元202识别用户的手势。然后，搜索单元203在命令字典204中搜索所识别的手势类别的部分匹配(步骤S702)。

搜索单元203或确定单元205对与来自用户的手势部分匹配的命令候选项的数量进行计数(步骤S703)。当模态决定单元206决定通过话语缩小命令候选项范围时，话语呈现单元207检查是否可以显示针对部分匹配而搜索到的命令候选项的数量。然后，话语呈现单元207使用显示单元103或语音输出单元105呈现可显示数量的命令候选项话语(步骤S704)。

用户从呈现的命令候选项中进行选择并发出话语。然后，通过语音输入单元104输入来自用户的话语，并且语音识别单元201使用户的话语进行语音识别(步骤S705)。

命令生成单元209将在步骤S701中从用户接收的手势管理为先前交互的状态，并且将该手势与处于当前状态(即在步骤S705中)的经受语音识别的文本融合，以生成最终命令(步骤S706)。然后，命令执行单元210执行所生成的命令(步骤S707)。

因此，根据图7所示的处理规程，用户可以借助于对话系统200以简单交互来执行所期望装置的操作。此外，在图7所示的处理规程中，当缩小命令候选项范围时，模态决定单元206执行从手势到话语的模态切换。例如，曾经仅通过手势做出命令输入的用户可以知道他或她可以使用话语。

图8示出在与用户交互时由对话系统200执行的处理规程的又一示例。

首先，经由图像捕获单元106接收来自用户的手势(步骤S801)。手势识别单元202识别用户的手势。然后，搜索单元203通过命令执行手势相似性搜索(步骤S802)。

搜索单元203或确定单元205对与用户的手势部分匹配的命令候选项进行计数(步骤S803)。当模态决定单元206决定通过话语缩小命令候选项范围时，话语呈现单元207检查是否可以显示针对部分匹配而搜索到的命令候选项的数量。然后，话语呈现单元207使用显示单元103或语音输出单元105呈现可显示数量的命令候选项话语(步骤S804)。

用户从呈现的命令候选项中进行选择并发出话语。然后，通过语音输入单元104输入来自用户的话语，并且语音识别单元201使用户的话语进行语音识别(步骤S805)。

命令生成单元209将在步骤S701中从用户接收的手势管理为先前交互的状态，并且将该手势与处于当前状态(即在步骤S805中)的经受语音识别的文本融合，以生成最终命令(步骤S806)。然后，命令执行单元210执行所生成的命令(步骤S807)。

因此，根据图8所示的处理规程，用户可以借助于对话系统200以简单交互来执行所期望装置的操作。

随后，将描述用户通过简单交互而没有错误地实现所期望装置的操作的第二种方法。

第二种方法是这样的方法，其中即使在还没有来自用户的交互的状态下，也根据用户的动作、习惯和状况向用户呈现注册的命令，并辅助用户发布命令。该方法的优点在于，即使不通过手势或语音发布命令，用户也可以通过从呈现给用户的装置操作所需的命令中进行选择来简单地发布命令。

作为示例，在发现用户在他或她前倾时意图执行频道操作或音量操作的情况下，将用户前倾的事实本身存储为一种手势。相似地，在用户意图紧接在执行频道操作或音量操作之前说出特定单词的情况下，将用户的话语本身存储为一种语音命令。然后，持续监视用户的动作和话语，并且当存储的动作或话语出现时，呈现后续的话语命令或手势命令以帮助用户的命令选择。因此，用户可以通过简单交互来实现命令。

图9示出了对话系统900的功能配置示例，该对话系统900根据用户的动作、习惯和状况辅助用户发布命令。对话系统900例如以在图1所示的信息装置100上执行预定语音代理应用程序的形式实现。

图9所示的对话系统900包括语音输入单元901、图像输入单元902、搜索单元903、识别字典904、附加识别字典905、手势呈现单元906、话语呈现单元907、命令生成单元908和命令执行单元909。这些部件中的一些或全部被配置为例如软件模块。

语音输入单元901和图像输入单元902可以分别使用例如信息装置100的语音输入单元104和图像捕获单元106来配置。与图2所示的对话系统200不同，对话系统900将不输入语音识别结果或手势识别结果，而是输入语音本身和图像本身。

识别字典904存储现有的话语命令和手势命令。此外，附加识别字典905紧接在用户执行命令发布或装置操作(频道操作、音量操作等)之前存储语音和动作。

搜索单元903针对输入到语音输入单元901和图像输入单元902的用户语音和用户图像，从识别字典904和附加识别字典905中执行话语语命令候选项和手势命令候选项的相似性搜索。

手势呈现单元906向用户呈现用于选择每个命令候选项的手势，并提示用户通过做出手势中的任一个来缩小命令候选项范围。例如，手势呈现单元906使用显示单元103(或与对话系统900等协作的电视装置的屏幕)显示图形用户界面(GUI)，在该GUI上呈现用于每个命令候选项的手势，并提示用户做出该手势中的任一个。可替代地，通过从语音输出单元105输出解释用于每个命令候选项的手势的语音指导，手势呈现单元906可以提示用户做出手势中的任一个以缩小命令候选项范围。

话语呈现单元907向用户呈现用于选择每个命令候选项的话语内容，并提示用户通过说出它们中的任一个来缩小命令候选项范围。例如，话语呈现单元907使用显示单元103(或与对话系统900等协作的电视装置的屏幕)显示GUI，在该GUI上呈现用于每个命令候选项的话语内容，并提示用户说出它们中的任一个。可替代地，通过从语音输出单元105输出解释用于每个命令候选项的话语内容的语音指导，话语呈现单元907可以提示用户通过说出该话语内容中的任一个来缩小命令候选项范围。

命令生成单元908从输入到语音输入单元901和图像输入单元902的用户语音和用户图像生成命令。在输入到语音输入单元901或图像输入单元902的用户语音或用户图像例如对应于存储在识别字典904中的现有话语命令或手势命令的情况下，由命令生成单元908生成命令。

命令执行单元909执行由命令生成单元908生成的命令。该命令不仅包括用于对话系统900的命令，还包括用于外部装置的命令。在前一种情况下，在作为对话系统900的实体的信息装置100中，处理单元101执行命令的处理。此外，在后一种情况下，例如，命令经由通信单元102被传输到对应的外部装置。

图10以流程图的形式示出搜索单元903中的操作规程。然而，假设语音和图像从语音输入单元901和图像输入单元902不断地输入到搜索单元903，并且从语音输入单元901和图像输入单元902输入的语音和图像被存储达一定时间段。

当存在来自语音输入单元901或图像输入单元902的输入时(步骤S1001中为“是”)，搜索单元903针对输入的语音或图像对识别字典904执行相似性搜索(步骤S1002)。

这里，在识别字典904中找到与步骤S1001中输入的语音或图像相似的现有话语命令或手势命令的情况下(步骤S1003中为“是”)，搜索单元903针对从语音输入单元901或图像输入单元902之前紧接地输入的话语或手势，对附加识别字典904执行进一步的相似性搜索(步骤S1004)。

在附加识别字典904中存在紧接在命令之前输入的话语或手势的情况下(步骤S1005中为“是”)，搜索单元903以新输入的数据更新紧接在与附加识别字典904中的在步骤S903中找到的命令对应的命令之前的语音或图像的数据(步骤S1006)。然后，由命令生成单元908基于在步骤S901中输入的语音或图像生成的命令，由命令执行单元909执行，或者在手势呈现单元906和话语呈现单元907中分别呈现手势命令和话语命令候选项，以向用户提示输入手势命令和话语命令(步骤S1007)。

此外，在附加识别字典904中不存在紧接在命令之前输入的语音或图像的情况下(步骤S1005中为“否”)，搜索单元903将输入的语音或图像作为紧接在命令之前的话语或手势添加到附加识别字典904(S1008)。

另一方面，在识别字典904中不存在与步骤S1001中输入的语音或图像相似的现有话语命令或手势命令的情况下(步骤S1003中为“否”)，搜索单元903执行针对当前输入的话语或手势的附加注册字典905的相似性搜索(S1009)。然后，在附加注册字典905中存在当前输入的话语或手势的情况下(步骤S1010中为“是”)，命令执行单元909执行话语命令或手势命令，或者在手势呈现单元906和话语呈现单元907中分别呈现手势命令和话语命令候选项，以向用户提示输入手势命令和话语命令(步骤S1011)。

具体地，当紧接在命令之前的话语或动作注册在附加识别字典905中时，或者当将该话语或动作与识别字典904或附加识别字典905进行对照时，应使用一次性学习的方法。

图11示出在与用户交互时由对话系统900执行的处理规程的示例。然而，假设语音和图像从语音输入单元901和图像输入单元902不断地输入到搜索单元903，并且从语音输入单元901和图像输入单元902输入的语音和图像被存储达一定时间段。

当存在来自语音输入单元901或图像输入单元902的用户输入(话语或手势)时(步骤S1101中为“是”)，搜索单元903存储紧接在先的动作(输入图像)(步骤S1102)。

接下来，搜索单元903通过命令学习紧接在先的手势，并将其存储到附加认证字典905中(步骤S1103)。

接下来，当检测到用户的动作时(步骤S1104中为“是”)，搜索单元903通过命令针对紧接在先的手势执行附加识别字典905的相似性搜索(步骤S1105)。

搜索单元903基于紧接在先的手势对从附加识别字典905中搜索到的命令候选项的数量进行计数(步骤S1106)。然后，如果可以在显示单元103上显示搜索到的命令候选项的数量(步骤S1107中为“是”)，则将候选手势呈现在显示单元103上(步骤S1108)。此外，在搜索到的命令候选项的数量超过可以在显示单元103上显示的数量的情况下(步骤S1107中为“否”)，过程返回到步骤S1101，并且等待下一个用户输入。

手势命令候选项被呈现在显示单元103上，由此提示用户输入手势。然后，当经由图像输入单元902接收到来自用户的手势命令时(步骤S1109中为“是”)，命令生成单元908决定最终命令(步骤S1110)，并且命令执行单元909执行该命令(步骤S1111)。此外，在没有来自用户的手势命令的情况下(步骤S1109中为“否”)，过程返回到步骤S1101，并且等待下一个用户输入。

因此，根据图11所示的处理规程，用户可以借助于对话系统900以简单交互来执行所期望装置的操作，其中在做出话语或手势之前呈现必要的命令。

图12示出在与用户交互时由对话系统900执行的处理规程的另一示例。然而，假设语音和图像从语音输入单元901和图像输入单元902不断地输入到搜索单元903，并且从语音输入单元901和图像输入单元902输入的语音和图像被存储达一定时间段。

当存在来自语音输入单元901或图像输入单元902的用户输入(话语或手势)时(步骤S1201中为“是”)，搜索单元903存储紧接在先的紧接在先的语音(步骤S1202)。这里提到的紧接在先的语音应包括口头语音和非口头语音。

接下来，搜索单元903通过命令学习紧接在先的语音，并将其存储到附加认证字典905中(步骤S1203)。

接下来，当检测到用户的语音时(步骤S1204中为“是”)，搜索单元903通过命令针对紧接在先的语音执行附加识别字典905的相似性搜索(步骤S1205)。

搜索单元903基于紧接在先的语音对从附加识别字典905中搜索到的命令候选项的数量进行计数(步骤S1206)。然后，如果可以在显示单元103上显示搜索到的命令候选项的数量(步骤S1207中为“是”)，则在显示单元103上呈现候选项语音(步骤S1208)。此外，在搜索到的命令候选项的数量超过可以在显示单元103上显示的数量的情况下(步骤S1207中为“否”)，过程返回到步骤S1101，并且等待下一个用户输入。

话语命令候选项被呈现在显示单元103上，由此提示用户输入手势。然后，当经由图像输入单元902接收到来自用户的手势命令时(步骤S1209)，命令生成单元908决定最终命令(步骤S1210)，并且命令执行单元909执行命令(步骤S1211)。此外，在没有来自用户的话语命令的情况下(步骤S1109中为“否”)，过程返回到步骤S1101，并且等待下一个用户输入。

因此，根据图12所示的处理规程，用户可以借助于对话系统900以简单交互来执行所期望装置的操作，其中在做出话语或手势之前呈现必要的命令。

随后，将描述用户通过简单交互而没有错误地实现所期望装置的操作的第三种方法。

第三种方法基本上应用于执行遥控操作的装置。当用户执行遥控操作时，呈现等效的话语或手势，以提示用户存储语音或手势命令。此外，用户了解到可以以另一模态(诸如语音或手势)来执行与遥控的操作相似的操作，并且将执行装置的操作而无需拿起遥控器。

图13示出对话系统1300的功能配置示例，该对话系统1300通知用户可以通过除了遥控之外的模态来发布命令。对话系统1300例如以在图1所示的信息装置100上执行预定的语音代理应用程序的形式实现。

图13所示的对话系统1300包括遥控输入单元1301、命令执行单元1302、搜索单元1303、语音/手势字典1304、新语音/手势字典1305、手势呈现单元1306和话语呈现单元1307。这些部件中的一些或全部被配置为例如软件模块。

例如，遥控输入单元1301对应于图1所示的信息装置100的遥控接收单元108，并且通过使用红外通信、短距离无线通信等来接收并处理从遥控器(未示出)传输的遥控信号，以生成用于操作装置的命令。

命令执行单元1302执行由遥控输入单元1301生成的命令。该命令不仅包括用于对话系统1300的命令，而且包括用于外部装置的命令。在前一种情况下，在作为对话系统1300的实体的信息装置100中，处理单元101执行命令的处理。此外，在后一种情况下，例如，命令经由通信单元102被传输到对应的外部装置。

语音/手势字典1304存储与遥控命令对应的话语命令和手势命令。此外，在不存在与遥控命令对应的现有话语命令或手势命令的情况下，新语音/手势字典1305存储新创建的话语命令和手势命令。

搜索单元1303在语音/手势字典1304或新语音/手势字典1305中搜索与由遥控输入单元1301生成的遥控命令对应的话语命令和手势命令。此外，在与由遥控输入单元1301生成的遥控命令对应的话语命令和手势命令在语音/手势字典1304或新语音/手势字典1305中都不存在的情况下，搜索单元1303创建与遥控命令对应的话语命令和手势命令中的至少一个，并将其存储在新语音/手势字典1305中。

通过呈现手势，手势呈现单元1306辅助用户操作装置。例如，手势呈现单元1306使用显示单元103(或与对话系统1300等协作的电视装置的屏幕)，呈现由搜索单元1303从语音/手势字典1304或新语音/手势字典1305找到的手势命令，并提示用户存储或使用与遥控命令等效的手势命令。可替代地，手势呈现单元1306可以从语音输出单元105输出语音指导，以向用户呈现与遥控命令等效的手势命令。

通过呈现话语，话语呈现单元1307辅助用户操作装置。例如，话语呈现单元1307使用显示单元103(或与对话系统1300等协作的电视装置的屏幕)，呈现由搜索单元1303从语音/手势字典1304或新语音/手势字典1305找到的话语命令，并提示用户存储或使用与遥控命令等效的话语命令。可替代地，手势呈现单元1306可以从语音输出单元105输出语音指导，以向用户呈现与遥控命令等效的话语命令。

注意，如果在每个遥控操作中都呈现了等效的手势命令或话语命令，则用户有时会感到烦恼。因此，可以做出调整，使得为已呈现预定次数以上的手势命令和话语命令降低呈现频率，或为使用数量和使用频率已增加的遥控命令增加等效手势命令和话语命令的呈现频率。

图14示出在与用户交互时由对话系统1300执行的处理规程的又一示例。

当遥控输入单元1301接收到遥控操作时(步骤S1401中为“是”)，遥控输入单元1301生成遥控命令，并将其输出到搜索单元1303和命令执行单元1302中的每个。

搜索单元1303搜索语音/手势字典1304和新语音/手势字典1305(步骤S1402)，以检查是否已经存在与遥控命令对应的手势命令或话语命令(步骤S1403)。

这里，在语音/手势字典1304或新语音/手势字典1305中找到与遥控命令对应的手势命令或话语命令的情况下(步骤S1403中为“是”)，搜索单元1303向手势呈现单元1307或话语呈现单元1308输出手势命令或话语命令(步骤S1404)。然后，手势呈现单元1307和话语呈现单元1308向已操作遥控的用户呈现与遥控操作等效的手势或话语，并提示用户存储和使用与该遥控命令等效的手势命令或话语命令(步骤S1405)。

在语音/手势字典1304或新语音/手势字典1305中不存在与遥控命令对应的手势命令或话语命令的情况下(步骤S1403中为“否”)，搜索单元1303创建与遥控命令对应的话语命令和手势命令中的至少一个(步骤S1406)，并将其存储在新语音/手势字典1305中(步骤S1407)。

此外，搜索单元1303将新创建的手势命令和话语命令输出到手势呈现单元1307和话语呈现单元1308(步骤S1404)。然后，手势呈现单元1307和话语呈现单元1308向已操作遥控的用户呈现与遥控操作等效的手势或话语，并提示用户存储和使用与遥控命令等效的手势命令或话语命令(步骤S1405)。

如上所述，如果不存在与遥控命令对应的话语命令或手势命令，则搜索单元1303新创建与遥控命令对应的话语命令或手势命令，并将其存储在新语音/手势字典1305中。此时，期望的是，新创建的话语命令或手势命令对于用户不一定是方便的，并且对于语音识别或手势识别是容易的(或者对于错误识别是困难的)。例如，避免了已经使用语音或手势的相似的语音或手势。例如，可以预先对每个未使用的话语或手势进行评分，并且当创建新的话语命令或手势命令时，用户可以以评分的顺序来选择话语命令或手势命令。

例如，通过与图2所示的对话系统200或图9中所示的对话系统900组合提供为单个系统，对话系统1300可以构成这样的系统，其允许执行遥控操作，允许也通过语音或手势的命令来执行装置的操作，并通过用户的语音或手势辅助命令发布。

第二实施例

各种多媒体装置可以连接到电视装置。该电视装置不仅用于观看电视节目，而且还用于观看从DVD或蓝光光盘再现的内容以及显示游戏视频。然而，存在的问题是，经常需要为用于每个装置的电视装置请求不同的设置。每当电视装置的电源接通时，执行输入模式和屏幕模式的转换是令人烦恼的。此烦恼不仅在遥控或装置操作中存在，而且相似地在语音操作中存在。

因此，第二实施例提出了一种技术，该技术呈现由用户频繁执行以便被合并为一个语音命令或手势命令的一系列操作，或者允许用户由他或她自己注册指示由用户频繁执行的操作的语音命令或手势命令。根据按照第二实施例的技术，例如，每当电视装置的电源接通时，需要为每个装置执行的设置操作可以被简化成一个语音命令并且易于操作。

这里，将讨论使用电视装置收看DVD的情况。通常，在将要观看的DVD插入DVD播放器中并开始再现之前，需要在电视装置侧上执行以下步骤1至6。

步骤1：接通电视装置的电源。

步骤2：改变输入模式。

步骤3：改变屏幕模式。

步骤4：改变声音模式。

步骤5：调整音量。

步骤6：将期望观看的DVD装入DVD播放器的托盘中。

相似地，当开始不仅使用DVD播放器而且使用连接到电视装置的其他多媒体装置时，经常需要多个步骤。此外，即使在用电视装置观看电视节目的情况下，例如，当接通电源以便在特定时间收看例行新闻节目时，如果电视装置已经在另一频道中被调谐，则必须切换频道。

该方法包括通过自动呈现来注册语音命令或手势命令以用于共同简化由用户频繁执行的一系列操作的方法，以及由他或她自己手动注册语音命令或手势命令以用于共同简化由用户频繁执行的一系列操作的方法。

通过自动呈现来注册语音命令：

首先，将描述通过自动呈现进行注册的方法。

如图15所示，该方法包括以下五个阶段：“用户操作”，其中用户使用遥控器等操作装置；“命令注册呈现”，其中向用户提出基于用户的操作将一系列操作注册为一个共同命令；“命令注册”，其中注册提出的命令；“语音识别/辨别”，其中识别并辨别了说出所注册命令的用户的语音；以及“开始”，其中执行所识别的命令。

例如，由作为语音代理操作的信息装置100(见图1)执行图15中的阶段的处理。此外，每个阶段的处理例如以软件模块的形式实现。每个阶段在下面描述。

1.用户操作：

用户例如通过使用遥控器来操作电视装置。从用户接通电视装置的电源的时间到用户关闭电视装置的时间，记录由用户在电视装置上执行的所有操作，包括“接通”和“关闭”。

2.命令注册呈现：

当用户在电视装置上执行一系列操作，并然后在预定时间或更长时间内没有执行其他操作时，直到该时间点的操作流程和在该时间点的设置被识别为一组。然后，提出将该组注册为对用户的一个快捷命令。

不必为所有组做出此提议。例如，可以提供用于决定是否做出提议的标准，诸如相同的操作流程和设置已重复了预定次数以上。然而，主要关于最终设置来判断是否已重复相同的操作流程和设置，其中忽略了微不足道的要素(诸如准确的音量)。

图16示出GUI的配置示例，该GUI呈现了要被注册为命令的一组操作。在图中，假设使用电视装置的屏幕显示GUI，但是本发明不限于此。例如，相似的GUI可以显示在与电视装置协作的信息终端上，诸如智能电话或平板计算机上。

在图16所示的GUI中，被合并为一组的相应命令的图标(接通(接通电视装置的电源)、设置音量(电视装置的音量设置)和打开托盘(打开DVD播放器的托盘))沿操作流程显示。因此，用户可以容易地确认将多个命令合并为一组的操作流程。此外，设置内容用作常量，而不影响操作流程中的定位(诸如设置的顺序)，诸如输入模式、屏幕模式和语音模式，并在与上述命令的图标的阵列不同的位置显示。

注意，图16所示的GUI假设通过使用电视装置收看DVD的设置，但是可以将多个操作注册为快捷语音命令，其中在不仅用于每个装置的设置而且例如对特定频道等的自动设置的情况下，多个操作相似地分组为一组。

3.命令注册：

图16所示的GUI显示被合并为一组的相应命令的图标，用作常量的设置内容(输入模式、屏幕模式、语音模式等)，以及提示用户确认是否将这些操作命令的组注册为快捷命令的消息(“您想要为以下设置而设置快捷语音命令吗？”)、用于允许注册的“是”按钮和用于拒绝注册的“否”按钮。然后，响应于事实上用户已指示他或她的注册语音命令的意图而决定注册语音命令，其中多个命令已合并为一组，诸如，在此GUI上按下“是”按钮(可替代地，经由遥控选择“是”)。

经由图16所示的GUI完成命令流程的设置后，随后输入用于调用一系列命令的语音命令。例如，假设以自然语音(诸如“DVD”)调用用于使用电视装置收看DVD的一系列命令。此外，在指定频道以用电视装置观看而不是观看DVD的情况下，假设以自然语音(诸如“NHK”或“新闻”)调用对应的一系列命令。

图17示出用于注册语音命令的GUI的配置示例。示出的GUI基于要注册的命令和设置呈现了若干个语音命令候选项。这里，假设了语音命令，该语音命令用于调用使用电视装置观看DVD的一系列命令，并且所示的GUI将“DVD”、“电影”和“影片”呈现为估计的语音命令。此外，该GUI还显示消息(“我们建议的命令如下所示。选择一个或您自己说出它”)，其提示用户选择多个呈现的语音命令候选项中的一个以及用于固定该选择的“完成(已完成)”按钮。用户通过遥控操作或话语来选择任一个语音命令候选项。图17突出示出并显示处于选中状态的语音命令候选项“DVD”。然后，当用户通过遥控操作按下“完成”按钮时(可替代地，用户可以说出“完成(或已完成)”)，则语音命令候选项“DVD”的选择被固定并注册。

图17示出简单的单字语音命令候选项。由于可能已经注册了简单的语音命令，因此给出了多种类型的变体，以免与已经注册的语音命令重叠。例如，可以添加后缀为“DVD1”。可替代地，可以使用两个以上个单词被组合的语音命令。

另外，如图17所示，在注册除了在GUI上呈现的候选项之外的语音命令的情况下，用户可以指定他或她自己期望的命令。在此情况下，为了增强语音识别或辨别的安全性(例如，为了不注册错误识别的语音命令)，期望用户多次重复说出用户期望的语音命令以对其进行注册。

图18示出当用户注册期望的语音命令时的GUI的配置示例。所示的GUI显示指示可以进行语音输入的状态的图标，并显示消息(“请重复您偏好的语音命令3次。”)，该消息提示用户重复说出用户期望的语音命令3次。此外，在右下方显示在用户说话时的频率分析结果。此外，在右上方显示指示语音输入已被固定的“完成(已完成)”按钮。在重复说出所期望的语音命令3次之后，用户按下“完成”按钮(可替代地，用户可以说出“完成”)以固定所输入的语音命令。

4.语音识别/辨别

当如上所述新注册语音命令时，用户进入说出新注册的语音命令的阶段，并且识别并辨别新注册的语音命令。为了识别面部和手势，电视装置的相机需要一直处于激活状态，这成本很高并且会引起隐私问题。在这点上，语音识别/辨别在稳定性和实用性方面成本较低且是有利的。

当辨别新注册的语音命令时，与语音命令对应的样本的数量不可避免地少。因此，在这种情况下，基于大量数据的学习算法是不兼容的。因此，在本实施例中，提出了采用从少量样本中学习的方法。

小样本学习有多种方法。有效模型中的一种是称为原型网络的模型(例如，参见非专利文献1)。在原型网络中，每个类都有要辨别的特定类的m个查询样本，以及是正确的答案候选项的k个类的n个支持样本，并且这称为n样本k路设置。这些n个查询和k×n个支持组成事件。用正在更新的参数来训练模型，使得将查询准确地辨别为对应的支持类。

5.开始：

已注册了语音命令，其中根据上述规程1至4将由用户频繁执行的一系列操作合并为一个，此后，用户可以仅通过说出该语音命令来指示装置执行该系列操作。

例如，如图16所示，当使用电视装置观看DVD时的一系列操作(诸如接通电视装置的电源(接通)、调整音量(设置音量)和装载DVD(打开托盘))，以及多个设置操作(诸如将输入模式设置为“HDMI 1”、将屏幕模式设置为“电影”和将语音模式设置为“电影”)被注册为语音命令“DVD”，如图17所示。在这种情况下，当用户在电视装置的电源被关闭的状态下说出语音命令“DVD”时，该注册命令中包括的该系列命令(即该系列操作诸如接通电视装置的电源(接通)、调整音量(设置音量)和装载DVD(打开托盘))依次开始，并且实现将输入模式设置为“HDMI 1”、将屏幕模式设置为“电影”和将语音模式设置为“电影”的多个设置操作。

通过手动操作注册语音命令：

随后，将描述用户手动注册语音命令以共同简化由用户频繁执行的一系列操作的方法。

如图19所示，该方法包括以下三个阶段：“命令注册”，其中用户注册命令，在该命令中，由用户他或她自己经由界面(诸如GUI)使一系列操作合并为一个；“语音识别/辨别”，其中识别并辨别用户说出所注册的命令的语音；以及“开始”，其中执行所识别的命令。

例如，由作为语音代理操作的信息装置100(参见图1)执行图19中的阶段的处理。此外，每个阶段的处理例如以软件模块的形式实现。每个阶段如下所述。

1.命令注册：

通过基于语音的操作，将多个命令合并为一个是非常困难的。因此，在本实施例中，使用GUI以便通过用户的直观操作容易地引入多个命令。

图20示出当注册命令时使用的GUI的配置示例，在该命令中多个命令合并在一起。所示的GUI显示消息(“按顺序按下用于要分组的命令的按钮。”)，该消息提示用户依次按下与用户期望合并为一个的命令对应的遥控按钮。当用户按照用户期望的执行顺序，按下遥控器上与要根据消息合并在一起的命令对应的按钮时，对应的图标按顺序出现在GUI上。当使用电视装置观看DVD时，图20所示的GUI假设命令注册。当用户以接通(接通电视装置的电源)、设置音量(电视装置的音量设置)和打开托盘(打开DVD播放器的托盘)的顺序，按下遥控器上与这些命令对应的按钮时，以被按下的顺序显示相应命令的图标。此外，当用作不影响操作流程(诸如输入模式、屏幕模式和语音模式)中的定位(诸如设置的顺序)的常量的内容由遥控操作设置时，它们在与上述命令的图标的阵列不同的位置显示。图20示出已执行将输入模式设置为“HDMI 1”、将屏幕模式设置为“电影”以及将语音模式设置为“电影”的多个遥控操作的示例。

如图20所示，用户可以从GUI容易地确认将多个命令合并为一组的操作流程。注意，在由用户通过遥控操作选择的命令的顺序不合适的情况下，或者在存在更优的命令顺序的情况下，可以经由GUI将该事实反馈给用户。然后，当用户通过遥控操作按下“完成”按钮时(可替代地，用户可以说出“完成(已完成)”)，这固定了将在GUI上显示的多个命令合并为一个的语音命令被注册。

注意，图20所示的GUI假设用于通过使用电视装置观看DVD的设置，但是可以将多个操作注册为快捷命令，其中在不仅用于每个装置的设置而且例如对特定频道等的自动设置的情况下，多个操作相似地分组为一组。

然后，当如图20所示，由用户通过GUI的手动操作完成了将多个命令合并在一起的命令的注册时，随后执行语音命令的注册。用户可以通过GUI来选择语音命令的字符串，该GUI呈现从一系列命令估计的若干个语音命令候选项，例如，如图17所示。然后，可以由用户多次重复说出期望的语音命令来注册语音命令。

2.语音识别/辨别

当辨别新注册的语音命令时，与语音命令对应的样本的数量不可避免地少。因此，在这种情况下，基于大量数据的学习算法是不兼容的。因此，在本实施例中，提出了采用从少量样本中学习的方法。小样本学习有多种方法。有效模型中的一种是称为原型网络的模型(例如，参见非专利文献1)。

3.开始

已注册了语音命令，其中，根据上述规程1和2将由用户频繁执行的一系列操作合并为一个，此后用户可以仅通过说出该语音命令来指示装置执行该一系列操作。

例如，如图20所示，当使用电视装置观看DVD时的一系列操作(诸如接通电视装置的电源(接通)、调整音量(设置音量)和装载DVD(打开托盘))，以及多个设置操作(诸如将输入模式设置为“HDMI 1”、将屏幕模式设置为“电影”和将语音模式设置为“电影”)被注册为语音命令“DVD”。在这种情况下，当用户在电视装置的电源关闭的状态下说出语音命令“DVD”时，该注册命令中包括的该一系列命令(即该一系列操作诸如接通电视装置的电源(接通)、调整音量(设置音量)和装载DVD(打开托盘))依次开始，并且实现将输入模式设置为“HDMI 1”、将屏幕模式设置为“电影”和将语音模式设置为“电影”的多个设置操作。

第三实施例

作为第二实施例，上面已描述了一种技术，该技术呈现由用户频繁执行的一系列操作以便合并为一个语音命令，或者允许用户由他或她自己注册指示该一系列操作的语音命令。在将包括“接通”和“关闭”的多个命令合并为一个命令的情况下，语音命令是容易的。然而，除非限于多个命令，否则语音命令不一定优于手势命令。此外，一些用户可能发现手势命令比语音命令更方便。然而，由于手势不直接使用语言，因此认为用户由他或她自己回忆特征命令比回忆语音更困难。

因此，第三实施例提出了一种技术，该技术允许由用户容易地将用户频繁执行的操作注册为手势命令，而不管对装置的操作是单个操作还是多个操作。

如图21所示，用于将由用户频繁执行的操作注册为手势命令的方法包括以下五个阶段：“用户操作”，其中用户使用遥控器等操作装置；“命令注册呈现”，其中向用户提出将由用户频繁执行的操作注册为手势命令；“命令注册”，其中注册所提出的命令；“手势识别/辨别”，其中用户说出所注册的命令的手势被识别和辨别；以及“开始”，其中执行所识别的命令。

与第二实施例相似，最有特征的点是在第二命令注册呈现阶段中不仅提出了手势命令的注册，而且提出了新手势。基于第二实施例注册并由用户实际使用的快捷方式命令的数量很可能受到限制。因此，通过从几十个候选项的池中挑取或者通过组合两个以上手势候选项来提出手势，似乎是足够的。

例如，由作为语音代理操作的信息装置100(参见图1)执行图21中的阶段的处理。此外，每个阶段的处理例如以软件模块的形式实现。每个阶段如下所述。

1.用户操作：

用户例如通过使用遥控器来操作电视装置。记录用户在电视装置上执行的操作。然而，不必记录从用户接通电视装置的电源的时间到用户关闭电视装置的时间的所有操作。

2.命令注册呈现：

在用户在电视装置上频繁执行特定操作之后，向用户提出将操作注册为手势命令。

然而，为其注册手势命令的“特定操作”可以是一个操作或多个操作。例如，当执行一系列操作并然后在预定时间以上内没有执行其他操作时，可以提出将被视为一组的一系列操作注册为手势命令。此外，关于是否频繁执行某个操作，例如，可以提供用于决定是否做出提议的标准，诸如某个操作已在预定时间段内执行了多于预定次数。

命令注册呈现包括命令注册本身的提议和用作命令的手势的提议的两个阶段。

图22示出向用户提出命令注册本身的GUI的配置示例。在图中，假设使用电视装置的屏幕显示GUI，但是本发明不限于此。例如，相似的GUI可以显示在与电视装置协作的信息终端(诸如智能电话或平板计算机)的屏幕上。

图22所示的GUI显示将输入模式设置为“HDMI 1”、将屏幕模式设置为“电影”以及将语音模式设置为“电影”的多个频繁执行的操作。此外，该GUI显示提示用户确认是否将上述操作命令注册为快捷手势命令的消息(“您想要为以下设置而设置快捷手势命令吗？”)、用于允许注册手势命令的“是”按钮和用于拒绝注册的“否”按钮。然后，响应于事实上用户已指示他或她的注册被显示为手势命令的命令的意图，而决定注册手势命令，诸如，在此GUI上按下“是”按钮(可替代地，经由遥控选择“是”)。

图23示出向用户提出用作命令的手势的GUI的配置示例。所示的GUI基于要注册的命令和设置呈现若干个手势命令候选项。例如，显示从几十个候选项的池中挑取的手势命令候选项或组合了两个以上手势的手势命令候选项。此外，在图23中仅列出了手部手势候选项，但是也可以包括这样的手势候选项，其包括脸部或手臂的向上、向下、向左和向右动作以及面部表情诸如眨眼。另外，手势候选项中可以包括各种其他手势诸如笑脸。在任何情况下，通过预先对手势候选项中的每个赋予优先级等，可以以对用户的用户友好性的顺序来提议手势。

此外，图23所示的GUI显示提示用户选择多个呈现的手势命令候选项中的一个的消息(“我们建议的手势如下所示。选择一个或您自己执行它”)，以及用于固定该选择的“完成(已完成)”按钮。用户通过遥控操作或话语来选择任一个手势命令候选项。此外，当用户执行被相机捕获并且经受图像识别的期望的手势时，用户可以选择手势命令候选项。图23突出示出并显示处于选中状态的在GUI中心显示的手势命令候选项。然后，当用户通过遥控操作按下“完成”按钮时(可替代地，用户可以说出“完成(或已完成)”)，手势命令候选项的选择被固定并注册。

3.命令注册：

通过图22所示的GUI选择用于注册手势的命令，并且随后通过图23所示的GUI决定要用作命令的手势。

图24示出当注册用户期望的手势命令时的GUI的配置示例。所示的GUI显示被固定为注册的手势的图标，并显示消息(“请重复您偏好的手势命令3次。”)，该消息提示用户重复执行用户期望的手势命令3次。此外，在右上方显示指示手势输入已被固定的“完成(已完成)”按钮。在重复说出期望的手势命令三次之后，用户按下“完成”按钮(可替代地，用户可以说出“完成”)以固定所输入的手势命令。

4.手势识别/辨别

当如上所述新注册手势命令时，用户进入执行新注册的手势命令的阶段，并且识别并辨别新注册的手势命令。

当辨别新注册的手势命令时，与手势命令对应的样本的数量不可避免地少。因此，在这种情况下，基于大量数据的学习算法是不兼容的。因此，在本实施例中，提出了采用从少量样本中学习的方法。小样本学习有各种方法。有效模型中的一种是称为原型网络的模型(例如，参见非专利文献1)。

5.开始：

已注册了手势命令，在该手势命令中根据上述规程1至4将由用户频繁执行的一系列操作合并为一个，此后，用户可以仅通过发出该手势命令来指示装置执行该一系列操作。

工业适用性

已参考特定实施例详细描述了本说明书中公开的技术。然而，显而易见，本领域技术人员可以在不脱离本说明书中公开的技术的范围的情况下修改或替代实施例。

尽管本说明书主要描述了将本说明书中公开的技术应用于也称为“语音代理”或“助手”的对话系统的实施例，但是本说明书中公开的技术的范围不限于此。本说明书中公开的技术可以应用于各种类型的信息处理装置，其中用户可以发布具有多种模态(诸如话语和手势)的命令。

简而言之，已经以示例的形式描述了本说明书中公开的技术，并且本说明书中的描述内容不应以限制性的方式进行解释。为了判断在本说明书中公开的技术的范围，应该考虑权利要求。

注意，本说明书中公开的技术可以具有以下配置。

(1)一种信息处理装置，包括：

输入单元，从用户接收输入；以及

(2)根据上述(1)的信息处理装置，其中

呈现单元呈现与输入部分匹配的命令的候选项。

(3)根据上述(2)的信息处理装置，其中

输入单元通过语音和手势中的至少一项从用户接收输入，以及

呈现单元呈现包括语音和手势中的至少一项的命令的候选项。

(4)根据上述(2)的信息处理装置，还包括：

命令执行单元，基于输入和由用户选择的命令候选项的组合，来执行命令。

(5)根据上述(1)至(4)中任一项的信息处理装置，其中

呈现单元呈现与输入相关联的命令的候选项。

(6)根据上述(5)的信息处理装置，还包括：

存储单元，为每个命令存储紧接在先的输入，其中

存储单元搜索相似于该输入的紧接在先的输入，并且呈现单元呈现与相似的紧接在先的输入对应的命令的候选项。

(7)根据上述(5)或(6)中任一项的信息处理装置，其中

输入单元通过语音和手势中的至少一项从用户接收输入，

存储单元为每个命令存储紧接在先的语音或手势，以及

呈现单元呈现与来自用户的语音或手势对应的命令的候选项，该语音或手势与由输入单元接收的来自用户的语音或手势相似。

(8)根据上述(5)至(7)中任一项的信息处理装置，还包括：

命令执行单元，基于由用户选择的命令的候选项来执行命令。

(9)根据上述(1)至(8)中任一项的信息处理装置，其中

输入单元以多种类型的模态从用户接收输入，以及

呈现单元呈现与输入等效的另一模态的命令。

(10)根据上述(9)的信息处理装置，其中

输入单元接收遥控命令，以及

呈现单元呈现与遥控命令等效的手势或语音命令。

(11)根据上述(1)至(10)中任一项的信息处理装置，其中

呈现单元呈现被合并为一组的多个装置操作，并呈现与该组对应的命令的候选项。

(12)根据上述(11)的信息处理装置，其中

呈现单元将由用户频繁执行的一系列装置操作呈现为一组。

(13)根据上述(11)的信息处理装置，其中

呈现单元将由用户选择的多个装置操作呈现为一组。

(14)根据上述(11)至(13)中任一项的信息处理装置，其中

呈现单元呈现语音命令候选项。

(15)根据上述(11)至(14)中任一项的信息处理装置，其中

由用户选择的命令候选项被注册为用于装置操作的命令，以及

信息处理装置还包括开始单元，该开始单元响应于从用户输入注册的命令来开始对应装置的操作。

(16)根据上述(1)至(15)中任一项的信息处理装置，其中

呈现单元呈现由用户频繁执行的一个或多个装置操作，并呈现与该装置操作对应的手势命令的候选项。

(17)根据上述(16)的信息处理装置，其中

注册由用户选择的手势命令的候选项，以及

信息处理装置还包括开始单元，该开始单元响应于从用户输入注册的手势命令来开始对应装置的操作。

(18)一种信息处理方法，具有

输入步骤，从用户接收输入，以及

呈现步骤，基于输入呈现与用于操作预定装置的命令有关的信息。

(19)一种计算机程序，该计算机程序以计算机可读格式描述以便使计算机用作

输入单元，从用户接收输入，以及

参考标记列表

100 信息装置

101 处理单元

102 通信单元

103 显示单元

104 语音输入单元

105 语音输出单元

106 图像捕获单元

107 传感器单元

108 遥控接收单元

109 存储单元

200 对话系统

201 语音识别单元

202 手势识别单元

203 搜索单元

204 命令字典

205 确定单元

206 模态决定单元

207 手势呈现单元

208 话语呈现单元

209 命令生成单元

210 命令执行单元

900 对话系统

901 语音输入单元

902 图像输入单元

903 搜索单元

904 识别字典

905 附加识别字典

906 手势呈现单元

907 话语呈现单元

908 命令生成单元

909 命令执行单元

1300 对话系统

1301 遥控输入单元

1302 命令执行单元

1303 搜索单元

1304 语音/手势字典

1305 新语音/手势字典

1306 手势呈现单元

1307 话语呈现单元。

Claims

1.一种信息处理装置，包括：

输入单元，接收来自用户的输入；以及

呈现单元，基于所述输入，呈现与用于操作预定的设备的命令有关的信息。

2.根据权利要求1所述的信息处理装置，其中

所述呈现单元呈现与所述输入部分匹配的命令候选项。

3.根据权利要求2所述的信息处理装置，其中

所述输入单元通过语音和手势中的至少一项从所述用户接收所述输入，以及

所述呈现单元呈现包括所述语音和所述手势中的至少一项的所述命令候选项。

4.根据权利要求2所述的信息处理装置，还包括：

命令执行单元，基于所述输入和由所述用户选择的所述命令候选项的组合，来执行命令。

5.根据权利要求1所述的信息处理装置，其中

所述呈现单元呈现与所述输入相关联的命令候选项。

6.根据权利要求5所述的信息处理装置，还包括：

存储单元，为每个命令存储紧接在先的输入，其中

在所述存储单元中搜索相似于所述输入的所述紧接在先的输入，并且所述呈现单元呈现与相似的所述紧接在先的输入对应的所述命令候选项。

7.根据权利要求5所述的信息处理装置，其中

所述输入单元通过语音和手势中的至少一项从所述用户接收所述输入，

存储单元为每个命令存储紧接在先的语音或手势，以及

所述呈现单元呈现命令候选项，所述命令候选项与由所述输入单元接收的来自所述用户的语音或手势相似的来自所述用户的语音或手势对应。

8.根据权利要求5所述的信息处理装置，还包括：

命令执行单元，基于由所述用户选择的所述命令候选项，来执行命令。

9.根据权利要求1所述的信息处理装置，其中

所述输入单元以多种类型的模态从所述用户接收所述输入，以及

所述呈现单元呈现与所述输入等效的另一模态的命令。

10.根据权利要求9所述的信息处理装置，其中

所述输入单元接收遥控命令，以及

所述呈现单元呈现与所述遥控命令等效的手势命令或语音命令。

11.根据权利要求1所述的信息处理装置，其中

所述呈现单元呈现被合并为一组的多个设备操作，并呈现与所述一组对应的命令候选项。

12.根据权利要求11所述的信息处理装置，其中

所述呈现单元将由所述用户频繁执行的一系列设备操作呈现为一组。

13.根据权利要求11所述的信息处理装置，其中

所述呈现单元将由所述用户选择的所述多个设备操作呈现为一组。

14.根据权利要求11所述的信息处理装置，其中

所述呈现单元呈现语音命令候选项。

15.根据权利要求11所述的信息处理装置，其中

由所述用户选择的所述命令候选项被注册为用于所述设备操作的命令，以及

所述信息处理装置还包括开始单元，所述开始单元响应于从所述用户输入注册的命令来开始对应设备的操作。

16.根据权利要求1所述的信息处理装置，其中

所述呈现单元呈现由所述用户频繁执行的一个或多个设备操作，并呈现与所述设备操作对应的手势命令候选项。

17.根据权利要求16所述的信息处理装置，其中

注册由所述用户选择的所述手势命令候选项，以及

所述信息处理装置还包括开始单元，所述开始单元响应于从所述用户输入注册的手势命令来开始对应设备的操作。

18.一种信息处理方法，包括：

输入步骤，从用户接收输入；以及

呈现步骤，基于所述输入，呈现与用于操作预定的设备的命令有关的信息。

19.一种计算机程序，所述计算机程序以计算机可读格式描述以便使计算机用作：

输入单元，从用户接收输入，以及