CN112088361A

CN112088361A - 信息处理装置、信息处理方法及程序

Info

Publication number: CN112088361A
Application number: CN201980030884.6A
Authority: CN
Inventors: 望月大介; 本间文规; 百谷将佑
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2018-03-16
Filing date: 2019-03-06
Publication date: 2020-12-15
Also published as: WO2019176670A1; US20210200597A1; JPWO2019176670A1

Abstract

使得良好地进行与用户输入对应的处理。通过意图解释部解释用户输入的意图。通过请求发布部发布与解释的意图相应的请求。通过本地处理控制部，基于发布的请求，判断由本地处理执行部或由云处理执行部执行与该请求对应的处理，在判断为由云处理执行部进行执行的情况下，将请求发送到云处理控制部。

Description

信息处理装置、信息处理方法及程序

技术领域

本技术涉及信息处理装置、信息处理方法及程序，特别是涉及一种适合应用于语音代理的信息处理装置等。

背景技术

例如，在语音代理中，也可以考虑在云端进行与用户输入对应的全部处理，而有时在本地侧也能够充分应对，或者优选在本地侧进行处理。

另外，通常为了实现优异的用户界面(UI：User interface)，对用户输入给予基于来自系统的输出的反馈这一点是重要要素。但是，在根据发声进行用户输入的语音UI中，由于与文字输入等相比，在输入过程中包含“语音识别的精度”、“意思分析的精度”这样的不确定性，因此重要的是在早期反馈能够接收到或不能接收到意图的输入。

例如，在专利文献1中记载有一种语音UI(User Interface)框架，该语音UI框架基于用户的发声来启动应用程序(下面，适当地称为“应用”)并执行与该响应对应的处理。

现有专利文献

专利文献

专利文献1：日本特表2017-527844号公报

发明内容

本技术的目的在于能够良好地进行与用户输入对应的处理。

本技术的概念在于一种信息处理装置，具备：

意图解释部，解释用户输入的意图；

请求发布部，发布与上述解释的意图相应的请求；以及

本地处理控制部，基于上述发布的请求，判断是由本地处理执行部还是由云处理执行部执行与该请求对应的处理，在判断为由上述云处理执行部进行执行时，将上述请求发送到云处理控制部。

在本技术中，通过意图解释部解释用户输入的意图。通过请求发布部发布与解释的意图对应的请求。并且，通过本地处理控制部，基于发布的请求，判断是由本地处理执行部还是由云处理执行部执行与该请求对应的处理，在判断为由云处理执行部进行执行时，将请求发送到云处理控制部。例如，也可以设为本地处理控制部在向云处理控制部发送请求时，从云处理控制部接收与请求对应的响应。

例如，也可以设为本地处理控制部将响应所包含的应用请求发送到请求发布部，请求发布部在接收到应用请求时，发布包括该应用请求所包含的应用指定信息的请求。由此，能够通过依次指定的应用来连锁地进行与请求对应的处理。

在这种情况下，例如，也可以设为应用请求所包含的应用指定信息再次指定与响应的产生相关的应用。由此，能够以多级例如二级的方式进行对请求的响应，即使在与请求对应的处理花费时间的情况下，也能够立即向用户进行第一级响应。例如，也可以设为由云处理控制部发布包含应用请求的响应。

此外，例如，也可以设为还具备渲染部，该渲染部基于响应所包含的响应信息来输出语音或影像的信号。并且，在这种情况下，例如也可以设为在与第一请求对应的语音或影像的信号输出中，当与第二请求对应的响应信息发送至渲染部时，该渲染部中止与第一请求对应的语音或影像的信号输出，并开始与第二请求对应的语音或影像的信号的输出。由此，在具有用户输入的中断的情况下，能够优先输出对该中断的响应的语音或影像。

由此在本技术中，基于发布的请求，判断是由本地处理执行部还是由云处理执行部处理与该请求对应的处理，在判断为由云处理执行部进行处理的情况下，将请求发送到云处理控制部。因此，通过本地处理执行部及云处理执行部的协作，能够良好地进行与用户输入对应的处理。

根据本技术，能够良好地进行与用户输入对应的处理。另外，这里所记载的效果并非作为限定，还可以为在本公开所记载的任意效果。

附图说明

图1是示出作为实施方式的信息处理装置的构成例的框图。

图2是示出二级响应的顺序的一个例子的图。

图3是示出调度后响应播放中的中断的顺序的一个例子的图。

图4是示出调度中的中断的顺序的一个例子的图。

图5是示出调度中的中断及超越的顺序的一个例子的图。

图6是示出调度后响应播放中的中断(忽略响应的情形)的顺序的一个例子的图。

图7是示出调度中的中断(忽略响应的情形)的顺序的一个例子的图。

图8是示出调度中的中断及超越(忽略响应的情形)的顺序的一个例子的图。

图9是示意性示出对二级响应的中断的顺序的一个例子的图。

图10是示意性示出对二级响应的中断的顺序的一个例子的图。

图11是示出二级响应中的中断的顺序的一个例子的图。

图12是示出二级响应中的中断的顺序的一个例子的图。

图13是示出二级响应中的中断的顺序的一个例子的图。

图14是示出二级响应中的中断的顺序的一个例子的图。

图15是示出既定的二级响应的顺序的一个例子的图。

图16是示出域目标的推定中的顺序的一个例子的图。

图17是示出域目标的推定中的顺序的一个例子的图。

图18是示出在理解为中断的基础上的响应的顺序的一个例子的图。

具体实施方式

下面，说明用于实施发明的方式(下面作为“实施方式”)。并且，以如下顺序进行说明。

1.实施方式

2.变形例

<1.第一实施方式>

[信息处理装置]

图1示出作为实施方式的信息处理装置10的构成例。该信息处理装置10由本地侧处理装置100和云端处理装置200构成。本地侧处理装置100具有：输入部101、意图解释部(Agent Core，代理核心)102、通知监视部(Event Monitor，事件监控器)103、本地处理控制部(Local App Dispatcher，本地应用程序调度器)104、本地处理执行部(Local AppActions，本地应用程序动作)105、渲染部(App Renderer，应用程序渲染器)106和输出部107。此外，云端处理装置200具有：云处理控制部(Cloud App Dispatcher，云应用程序调度器)201、云处理执行部(Cloud App Actions，云应用程序动作)202和外部服务203。

输入部101由检测用户的发声的麦克风、获取周围图像的图像传感器、用于用户进行输入操作的硬件键、来自网络的通知接收部等构成。输入部101将键输入信息、来自网络的通知信息等作为系统事件输入到通知监视部103。

此外，输入部101将由麦克风检测到的用户的发声、由图像传感器获取的周围图像发送到意图解释部102。意图解释部102对用户的发声进行语音识别，进而解释其意图，并将包含该解释信息的发声事件输入到通知监视部103。此外，意图解释部102对周围图像进行图像分析，进一步解释其意图，并将包含该解释信息的感测事件输入到通知监视部103。

通知监视部103基于各种输入事件，发布应用动作(AppAction，应用程序动作)的请求(Request)即动作请求(ActionRequest)。在这种意义上，通知监视部103也构成请求发布部。在该动作请求中包含类型(type)、意图(intent)、时隙(slots)的各信息。另外，通知监视部103也基于后述的应用请求(AppRequest)的应用事件来发布动作请求，该动作请求还包含应用ID(appId)的信息。

类型表示事件类型。例如，在发声事件的动作请求中，事件类型为“speech”。此外，例如在系统事件的动作请求中为“system”。此外，例如在应用事件的动作请求中，事件类型为“app”。

意图表示各事件中的意图。例如，在具有“告诉我时间”这样的发声的情况下，意图为“CHECK-TIME”。此外，例如在具有“告诉我天气”的发声的情况下，意图为“WEATHER-CHECK”。此外，例如在按下硬件键的情况下，意图为“KEY-PRESSED”。时隙表示补充意图的信息。

例如，下面示出“告诉我今天品川的天气”的用户发声时的动作请求的例子。

type："speech"

intent："WEATHER-CHECK"

slots：{DATE-TIME："2017/11/10 20:34:24",PLACE："品川"}

此外，例如下面示出“在2点设定闹钟”的用户发声时的动作请求的例子。

type："speech"

intent："SET-ALARM"

slots：{DATE-TIME："2017/11/10 14:00:00"}

本地处理控制部104基于由通知监视部103发布的动作请求，判断是由本地处理执行部105执行与该动作请求对应的处理，还是将判断委托给云处理控制部201。在能够由本地处理执行部105进行处理的情况下，本地处理控制部104判断为由本地处理执行部105执行，并将动作请求发送到本地处理执行部105。并且，本地处理控制部104从本地处理执行部105接收作为应用动作(AppAction)的响应(Response)的动作响应(ActionResponse)。

本地处理控制部104具有“如果包含该意图的动作请求到来，则通过存在于本地处理执行部105的该应用动作来执行”这样的对应表。因此，在从通知监视部103接收到的动作请求所包含的意图包含于对应表的情况下，本地处理控制部104判断为由本地处理执行部105来执行，并将动作请求发送到对应的应用动作来进行处理。另外，本地侧的应用动作不像后述的云端的应用动作的那样形成作为集合体的应用体，各应用动作单独存在。

此外，在从通知监视部103接收到的动作请求所包含的意图不包含于对应表的情况下，本地处理控制部104将判断委托给云端即云处理控制部201，并将动作请求发送到云处理控制部201。

本地处理控制部104使本地处理执行部105例如执行如下的动作：在互联网未连接环境下也进行动作、即时进行渲染(感测状况的视觉反馈等)、以专用的模式进行动作(系统更新、Wifi AP连接、启动反馈、用户注册应用等)。例如，由本地处理执行部105执行音量增减的处理等本地侧特有的处理。

本地处理控制部104在向云处理控制部201发送动作请求后，从云控制部201接收动作响应(ActionResponse)。

动作响应包含输出语音(outputSpeech)、输出视觉(outputVisual)、应用请求(appRequest)的各信息。输出语音是用于通过语音来提示响应的信息(语音响应信息)，例如，“告诉我今天的天气”这样的发声与“显示今天的天气”等应答语句的文本数据对应。

输出视觉是用于通过影像来提示响应的信息(画面响应信息)，例如以基于文本的数据格式来提供。应用请求表示以应用动作间的协作为目的的应用执行请求。

例如，下面示出“告诉我今天品川的天气”的用户发声时的动作响应的例子。

outputSpeech："显示今天的天气"

outputVisual：<用于制作显示的布局信息及数据>,

此外，在动作响应的应用请求中包含应用ID(appId)、意图(intent)、时隙(slots)、延迟(delay)的各信息。应用ID表示指定对哪个应用发布动作请求的应用指定信息。意图表示包含于动作请求的意图的信息。时隙表示包含于动作请求的时隙的信息。延迟表示到发布动作请求为止的延迟时间。

例如，下面示出以与接收到的动作请求相同的参数来重新调用自身的应用动作的例子。通过如该例子所示生成动作响应的应用请求，来实现后述的二级响应。

appId：<本应用的应用ID>

intent：<进入ActionRequest的Intent>

slots：<进入ActionRequest的slots>

delay：0

此外，本地处理控制部104将包含于动作响应的响应信息(输出语音、输出视觉)发送到渲染部106。渲染部106基于响应信息执行渲染(声音效果、语音合成、动画)，将生成的语音信号、影像信号发送到输出部107。输出部107具备扬声器等语音输出装置、投影仪等影像输出装置，而输出语音信号、影像信号的语音、影像。

另外，渲染部106在输出与第一动作请求对应的语音信号、影像信号中，从本地处理控制部104发送来与随后的第二动作请求对应的响应信息时，中止与第一动作请求对应的语音信号、影像信号的输出，开始与第二动作请求对应的语音信号、影像信号的输出。由此，实现在存在用户输入的中断时，优先输出对该中断的响应的语音或影像。

在动作响应包含应用请求的情况下，本地处理控制部104将该应用请求作为应用事件发送到通知监视部103。通知监视部103基于该应用事件，在经过了通过延迟(delay)表示的延迟时间后发布动作请求。该动作请求除了如上所述包含类型(type)、意图(intent)、时隙(slots)的各信息以外，还包含应用ID(appId)的信息。在此，意图、时隙、应用ID的各信息与包含于应用请求的各信息相同。

云处理控制部201接收从本地处理控制部104发送来的动作请求，并将该动作请求发送到云处理执行部202。云处理执行部202具备多个应用(云应用)。在此，应用是汇总关联的应用动作的应用，是多个应用动作的集合体。例如，对“CHECK-TIME”进行处理的应用动作和对“SET-ALARM”进行处理的应用动作包含于时钟(Clock)应用。

此外，应用动作是与意图对应而被调用的执行单位，是接收动作请求并返送动作响应的函数。有时，应用动作将访问网络API等外部服务203获取的信息返送为响应信息。

云处理控制部201基于从本地处理控制部104发送来的动作请求所包含的意图的信息，唯一地确定执行该动作请求的应用动作。此外，如果动作请求的类型表示发声事件，并在发声的时隙信息中具有可补充的不足或意思模糊的内容，云处理控制部201解决该时隙信息的不足或模糊。

例如，云处理控制部201能够根据最近返送的动作响应的内容来把握当前显示的画面信息。在画面显示出时刻或场所等信息时，时隙中时刻或场所等信息不足时对其进行补充。此外，在用户发声包含“看这里的天气”这样的指示语的情况下，也同样根据显示信息进行补充。还根据对话历史记录，解决具有多种解释的语言。例如，在过去的对话中存在用户询问“告诉我大崎的天气”并在提示“大崎市”的天气后用户改称为“大崎站”的情况时，在云处理控制部201的内部保持提到大崎就想到大崎站这样的知识，而用于以后的时隙解决。

云处理控制部201将从本地处理控制部104发送来的动作请求发送给存在于云处理执行部202的以上述方式唯一确定的应用动作。此外，云处理控制部201从已进行动作请求的处理的应用动作中接收包含响应信息等的动作响应，并发送给本地处理控制部104。

云处理控制部201针对各应用具有受理何种意图而调用该应用动作这样的对应表。

云处理控制部201按以下顺序进行处理，来确定执行从本地处理控制部104发送来的动作请求的应用动作。

(1)在动作请求包含作为应用指定信息的应用ID的情况下，参照由该应用ID指定的应用的对应表。

(2)在不是上述情况时，参照前台(Foreground)应用即最后进行画面显示的应用的对应表。例如，在具有“看天气”的发声的情况下，显示天气的画面。在这种情况下，天气应用成为前台应用。

(3)在不是上述情况时，参照特别准备的通用(Common)应用的对应表。云处理控制部201也具有该通用应用的对应表。该对应表用于指定应用动作，该应用动作处理在“返回”的发声时返回到前一画面显示等共通动作。

(4)在不是上述情况时，参照默认的对应表。该默认的对应表与各应用的对应表不同，表示意图与应用的对应关系，实际上是参照由该默认的对应表得到的应用的对应表来确定应用动作。

另外，也会存在最终无法确定执行从本地处理控制部104发送来的动作请求的应用动作的情况。在这种情况下，云处理控制部201将包含错误信息的动作响应发送到本地处理控制部104。

“二级响应”

对二级响应进行说明。例如，对于用户的“显示计划”的发声，云端的对应的应用动作询问外部日历服务，因此生成基于来自该外部日历服务的响应的动作响应花费时间。

该二级响应是对于生成响应内容却花费时间的处理的响应的研究。在该二级响应中，在第一级中，应用动作立即响应立刻返送的内容，同时通过应用请求调用其自身。在第二级中，进行与花费时间的处理相关的响应。

图2示出二级响应的顺序的一个例子。在该例子中，为了简化而省略了意图解释部102及通知监视部103的图示。在具有“显示计划”的用户发声时，该发声事件的动作请求(第一级)从本地处理控制部104发送到云处理控制部201，该动作请求还发送到云处理执行部202的对应的应用动作。

在该应用动作中，生成包含“显示本日的计划”的语音响应信息和用于调回其自身的应用请求的第一级的动作响应，如虚线所示，该动作响应通过云处理控制部201发送到本地处理控制部104。

包含于该第一级的动作响应的语音响应信息发送到渲染部106进行渲染，作为第一级响应，开始“显示本日的计划”的语音输出(响应播放)。此外，基于动作响应所包含的应用请求的应用事件的动作请求(第二级)被发送到云处理控制部201，进而该动作请求被发送到云处理执行部202的对应的应用动作。

在该应用动作中，在进行向外部服务的询问等花费时间的处理之后，生成包含“在这里”的语音响应信息和嵌入了计划的日历的画面响应信息的第二级的动作响应，如虚线所示，该动作响应通过云处理控制部201发送到本地处理控制部104。

包含于该第二级的动作响应的语音响应信息及画面响应信息发送到渲染部106进行渲染，在第一级响应完成的状态下，作为第二级响应，开始“在这里”的语音输出并且开始日历画面的显示。

“可以使用二级响应的情形”

对可以使用二级响应的情形进行说明。二级响应在如下所示进行响应生成却花费时间的情形下发挥效果。

(1)在应用动作内部执行外部服务可能花费时间的API(ApplicationProgramming Interface，应用程序编程接口)的情形。

花费时间的主要原因根据外部服务侧的情况而不同，但是可以考虑到的是服务器差且对请求的处理慢(外部服务侧的资源的问题)、委托了本质上花费时间的处理(对大规模数据库的查询)等。

(2)在应用动作内部进行复杂且花费时间的运算的情形。

可认为是进行对用户发声语音的文本的意思分析、基于来自的外部服务(根据情况具有多个)的响应来进行用于响应生成的二次分析(内部使用机器学习等)、以像素级生成/加工用于画面响应的图像(内部进行图像处理)、在应用动作内部进行对大规模数据库的访问等。

(3)在应用动作内部需要进行设置有某些等待时间的处理的情形。

可认为是为了延迟对用户发声的响应，在应用动作内有意地进行休眠(sleep)等。

“第一级的响应生成”

对第一级的响应生成进行说明。在第一级进行何种响应根据应用动作侧的安装情况是自由的，但如果考虑使花费时间的处理延迟在第二级进行响应这样的二级响应的性质，则优选使第一级响应以如下方式返送。

(1)返送能够立即响应的响应。

在这种情况下，仅根据输入信息返送响应。

(2)对用户通知已正确受理请求。

在这种情况下，重复用户的请求内容(镜像)，或者将日期和时间、场所、计划名等具体的请求内容加入到应答语句。

此外，以下虽然不是必须的，但是为了成为更自然的响应而优选加以考虑。

(1)预先准备多种响应模式，返送适当的响应模式(由于每次都是定型的响应会带来机械的印象)。

在这种情况下，进行随机选择、基于发声用户的年龄/男女等用户属性建立优先顺序来进行选择。

(2)配合发声用户的平时的语调来调整响应的语调。

在这种情况下，对于说出“是……啊”的用户，将句尾调整为“是……呀”，对于说出“是……吗”的用户，将句尾调整为“是……的”。

“中断”

对中断进行说明。在具有用户输入的中断的情况下，优先输出对该中断的响应的语音或影像。说明对于发声的中断的基本行为。图3示出了调度后响应播放中的中断的顺序的一个例子。在该例子中，为了简化而省略了意图解释部102及通知监视部103的图示。这一点在下面的顺序例中也相同。

在具有“看今天的天气”的用户发声时，该发声事件的动作请求“request 1”从本地处理控制部104发送到云处理控制部201，该动作请求“request 1”还发送到云处理执行部202的对应的应用动作(1)。

在该应用动作(1)中，执行对动作请求“request 1”的处理，输出包含“今天的天气是……”的语音响应信息的动作响应“response 1”，该动作响应“response 1”通过云处理控制部201发送到本地处理控制部104。包含于该动作响应“response 1”的语音响应信息发送到渲染部106进行渲染，开始“今天的天气是……”的响应语音的输出(播放)。

在该响应语音输出中，具有同一用户或另一用户的“现在几点？”的发声时，该发声事件的动作请求“request 2”从本地处理控制部104发送到云处理控制部201，该动作请求“request 2”还发送到云处理执行部202的对应的应用动作(2)。

在该应用动作(2)中，执行对动作请求“request 2”的处理，生成包含“现在时刻是18:02分”的语音响应信息的动作响应“response 2”，该动作响应“response 2”通过云处理控制部201发送到本地处理控制部104。

包含于该动作响应“response 2”的语音响应信息发送到渲染部106进行渲染，开始“现在时刻是18:02分”的响应语音的输出。另外，在该时点若动作请求“request 1”的响应语音的输出持续，则将其中断。

图4示出了调度中的中断的顺序的一个例子。具有“看今天的天气”的用户发声时，该发声事件的动作请求“request 1”从本地处理控制部104发送到云处理控制部201，该动作请求“request 1”还发送到云处理执行部202的对应的应用动作(1)。

此外，具有同一用户或另一用户的“现在几点？”的发声时，该发声事件的动作请求“request 2”从本地处理控制部104发送到云处理控制部201，该动作请求“request 2”还发送到云处理执行部202的对应的应用动作(2)。

在应用动作(1)中执行对动作请求“request 1”的处理，生成包含“今天的天气是……”的语音响应信息的动作响应“response 1”，该动作响应“response 1”通过云处理控制部201发送到本地处理控制部104。包含于该动作响应“response 1”的语音响应信息发送到渲染部106进行渲染，开始“今天的天气……”的响应语音的输出(播放)。

此外，在应用动作(2)中执行对动作请求“request 2”的处理，生成包含“现在时刻是18:02分”的语音响应信息的动作响应“response 2”，该动作响应“response 2”通过云处理控制部201发送到本地处理控制部104。

图5示出了调度中的中断及超越的顺序的一个例子。具有“看今天的天气”的用户发声时，该发声事件的动作请求“request 1”从本地处理控制部104发送到云处理控制部201，该动作请求“request 1”还发送到云处理执行部202的对应的应用动作(1)。

在应用动作(2)中执行对动作请求“request 2”的处理，生成包含“现在时刻是18:02分”的语音响应信息的动作响应“response 2”，该动作响应“response 2”通过云处理控制部201发送到本地处理控制部104。包含于该动作响应“response 2”的语音响应信息发送到渲染部106进行渲染，开始“现在时刻是18:02分”的响应语音的输出(播放)。

此外，在应用动作(1)中执行对动作请求“request 1”的处理，生成包含“今天的天气是……”的语音响应信息的动作响应“response 1”，该动作响应“response 1”通过云处理控制部201发送到本地处理控制部104。在该时点已经开始对动作请求“request 2”的响应语音的输出，本地处理控制部104知道上述情况，因此忽略对该动作请求“request 1”的动作响应“response 1”。

图6、图7、图8分别示出了与图3、图4、图5相同模式的顺序的一个例子，在这些顺序中，动作响应“response 2”为错误响应时被忽略。在这种情况下，动作请求“request 2”不会对与动作请求“request 1”相关的行为产生影响。

动作响应“response 2”成为错误响应的情况如下：已进行至对动作请求“request2”的应用动作(2)的处理却在其内部发生了错误，或者不能确定处理动作请求“request 2”的应用动作等。另外，虽然在图6、图7、图8中示出了动作请求“request 2”被从云处理控制部201发送至应用动作(2)，但在由云处理控制部201无法确定对动作请求“request 2”进行处理的应用动作的情况下，不向应用动作(2)发送动作请求“request 2”，而由云处理控制部201生成作为错误响应的动作响应“response 2”。

“对二级响应的中断”

说明对二级响应的中断。图9的(a)～(f)、图10的(a)～(d)示意性示出对二级响应的中断的顺序的一个例子。虚线示出了中断的行为。

图9的(a)、(b)、(c)示出了对第一级进行与图3、图4、图5的顺序例相同的中断的情况的顺序例。在这种情况下，与二级响应无关，在对中断的动作请求的动作响应返回的时点取消第一级的响应输出(播放)，进而也取消第二级的动作请求。

图9的(d)、(e)、(f)示出了对第二级进行与图3、图4、图5的顺序例相同的中断的情况的顺序例。在这种情况下，在对中断的动作请求的动作响应返回的时点取消第二级的动作请求。另外，在这种情况下，在该时点第一级的响应输出(播放)仍持续的情况下，当然也将其取消。

图10的(a)～(d)示出了与中断相关的动作请求和动作响应跨越第一级和第二级的情况的顺序例。图11示出了与图10的(a)对应的二级响应中的中断的顺序的一个例子。

具有“显示计划”的用户发声时，该发声事件的动作请求(第一级request)从本地处理控制部104发送到云处理控制部201，该动作请求还发送到云处理执行部202的对应的应用动作(1)。

此外，具有同一用户或另一用户的“现在几点？”的发声时，作为该发声事件的动作请求的中断请求从本地处理控制部104发送到云处理控制部201，该中断请求还发送到云处理执行部202的对应的应用动作(2)。

在应用动作(1)中，生成包含“显示本日的计划”的语音响应信息和用于调回其自身的应用请求的第一级的动作响应，如虚线所示，该动作响应通过云处理控制部201发送到本地处理控制部104。

第一级的动作响应所包含的语音响应信息发送到渲染部106进行渲染，作为第一级响应而开始“显示本日的计划”的响应语音的输出(播放)。此外，包含于动作响应的应用请求的应用事件的动作请求(第二级request)发送到云处理控制部201，该动作请求还发送到云处理执行部202的对应的应用动作(1)。

在应用动作(2)中执行对中断请求的处理，生成作为包含“现在时刻是18:02分”的语音响应信息的动作响应的中断响应，如虚线所示，该中断响应通过云处理控制部201发送到本地处理控制部104。

该中断响应所包含的语音响应信息发送到渲染部106进行渲染，开始“现在时刻是18:02分”的中断的响应语音的输出。另外，在该时点若第一级的动作响应的响应语音的输出持续，则将其中断。

此外，在应用动作(1)中执行对第二级的动作请求的处理，生成第二级的动作响应，如虚线所示，该动作响应通过云处理控制部201发送到本地处理控制部104。在该时点已经开始对中断响应的响应语音的输出，本地处理控制部104知道该情况，因此忽略该动作响应。

图12示出了与图10的(b)对应的二级响应中的中断的顺序的一个例子。

在应用动作(1)中生成包含“显示本日的计划”的语音响应信息和用于调回其自身的应用请求的第一级的动作响应，如虚线所示，该动作响应通过云处理控制部201发送到本地处理控制部104。

该第一级的动作响应所包含的语音响应信息发送到渲染部106进行渲染，作为第一级的响应开始“显示本日的计划”的响应语音的输出(播放)。此外，该动作响应所包含的应用请求的应用事件的动作请求(第二级的request)发送到云处理控制部201，该动作请求还发送到云处理执行部202的对应的应用动作(1)。

在该应用动作(1)中，在进行了询问外部服务等与时间相关的处理之后，生成包含“在这里”的语音响应信息和嵌入有计划的日历的画面响应信息的第二级的动作响应，如虚线所示，该动作响应通过云处理控制部201发送到本地处理控制部104。

该第二级的动作响应所包含的语音响应信息及画面响应信息发送到渲染部106进行渲染，在第一级响应完成的状态下，作为第二级响应而开始“在这里”的语音输出并开始日历画面的显示。

此外，在应用动作(2)中执行对中断请求的处理，生成作为包含“现在时刻是18:02分”的语音响应信息的动作响应的中断响应，如虚线所示，该中断响应通过云处理控制部201发送到本地处理控制部104。

该中断响应所包含的语音响应信息发送到渲染部106进行渲染，开始“现在时刻是18:02分”的中断的响应语音的输出。另外，在该时点若第二级的动作响应的响应(语音、画面)的输出持续，则将其中断。

图13示出了与图10的(c)对应的二级响应中的中断的顺序的一个例子。

发送到本地处理控制部104的第一级的动作响应所包含的语音响应信息发送到渲染部106进行渲染，作为第一级的响应而开始“显示本日的计划”的响应语音的输出(播放)。此外，包含于该动作响应的应用请求的应用事件的动作请求(第二级request)发送到云处理控制部201，该动作请求还发送到云处理执行部202的对应的应用动作(1)。

在应用动作(2)中执行对中断请求的处理，生成包含“现在时刻是18:02分”的语音响应信息的动作响应即中断响应，如虚线所示，该中断响应通过云处理控制部201发送到本地处理控制部104。

此外，在应用动作(1)中执行对第二级的动作请求的处理，生成第二级的动作响应，如虚线所示，该动作响应通过云处理控制部201发送到本地处理控制部104。在该时点已经开始与中断响应的响应语音的输出，本地处理控制部104知道该情况，因此忽略该动作响应。

图14示出了对与图10的(d)对应的二级响应的中断的顺序的一个例子。

发送到本地处理控制部104的第一级的动作响应所包含的语音响应信息发送到渲染部106进行渲染，作为第一级的响应而开始“显示本日的计划”的响应语音的输出(播放)。此外，该动作响应所包含的应用请求的应用事件的动作请求(第二级request)发送到云处理控制部201，该动作请求还发送到云处理执行部202的对应的应用动作(1)。

在该应用动作(1)中，在进行了询问外部服务等与时间相关的处理之后，生成包含“在这里”的语音响应信息和嵌入计划的日历的画面响应信息的第二级的动作响应，如虚线所示，该动作响应通过云处理控制部201发送到本地处理控制部104。

该第二级的动作响应所包含的语音响应信息及画面响应信息发送到渲染部106进行渲染，在第一级的响应完成的状态下，作为第二级的响应而开始“在这里”的语音输出并开始日历画面的显示。

另外，与通常的中断时相同(参照图6～图8)，在中断上述二级响应时，在中断侧的响应(中断响应)为错误响应且被忽略的情形下，不会对现有的行为造成影响(参照图2)。

另外，关于上述二级响应，既可以在应用动作的设计时点以该应用动作因进行花费时间的处理而设为二级响应这样的方式来预先确定，还可以通过如下方式：在知道处理将要花费时间时将应用动作切换为二级响应。

例如，应用动作在接收到动作请求的同时设定计时器(例如1秒)。并且，如果应用动作在计时器触发前全部完成必要的处理，则取消计时器并如通常那样返送动作响应。另一方面，如果应用动作在全部完成必要的处理前触发计时器，而中断执行必要的处理并将方针切换为二级响应，返送相当于二级响应的第一级的动作响应。此后的应用动作的处理与上述二级响应的情况相同。

如上所述，在图1所示的信息处理装置10中，本地处理控制部104基于由通知监视部103发布的动作请求，判断由本地处理执行部105或由云处理执行部202处理与该动作请求对应的处理，在判断为由云处理执行部202进行处理的情况下，将该动作请求发送到云处理控制部201。因此，通过本地处理执行部105及云处理执行部202的协作而能够良好地进行与用户输入对应的处理。

此外，在图1所示的信息处理装置10中，能够使云处理执行部202的应用动作所生成的动作响应包含具有应用指定信息的应用请求，能够由该应用指定信息指定包含自身的应用动作的应用。因此，能够以多级、例如二级进行对动作请求的响应，即使在与动作请求对应的处理花费时间的情况下，也能够立即对用户进行第一级响应。

此外，在图1所示的信息处理装置10中，在与第一动作请求对应的语音或影像的信号输出中，当发送来与第二动作请求(中断请求)对应的响应信息时，渲染部106中止与第一动作请求对应的语音或影像的信号输出，开始与第二动作请求对应的语音或影像的信号的输出。因此，在具有用户输入的中断的情况下，能够优先输出对该中断的响应的语音或影像，能够执行自然的中断响应。

<2.变形例>

另外，在上述实施方式中示出了在二级响应中应用动作也进行第一级响应的例子，但关于该第一级响应，也被认为由云处理控制部201来进行。下面，将这样由云处理控制部201进行第一级响应的二级响应称为“既定的二级响应”。在使用该既定的二级响应时，可以通过设定而使云处理控制部201具有布尔(boolean)值，该布尔值表示在接收某种意图(intent)时是否以既定的二级响应来处理。

图15示出了既定的二级响应的顺序的一个例子。在该例子中，为了简化而省略了意图解释部102及通知监视部103的图示。具有“显示计划”的用户发声时，该发声事件的动作请求(第一级request)从本地处理控制部104发送到云处理控制部201。

云控制处理部201根据包含于该动作请求的意图的信息，判断为以既定的二级响应进行处理。并且，在云控制处理部201中生成第一级的动作响应，该第一级的动作响应包含作为与意图对应的既定的二级响应的“显示本日的计划”的语音响应信息和用于调用实际对动作请求进行处理的应用动作的应用请求，如虚线所示，该动作响应通过云处理控制部201发送到本地处理控制部104。

该第一级的动作响应所包含的语音响应信息发送到渲染部106进行渲染，作为第一级响应而开始“显示本日的计划”的语音输出(响应播放)。此外，包含于动作响应的应用请求的应用事件的动作请求(第二级的request)发送到云处理控制部201，该动作请求还发送到云处理执行部202的对应的应用动作。

在该应用动作中，在进行询问外部服务等与时间相关的处理之后，生成包含“在这里”的语音响应信息和嵌入计划的日历的画面响应信息的第二级的动作响应，如虚线所示，该动作响应通过云处理控制部201发送到本地处理控制部104。

“关于使用既定的二级响应时生成第一级响应”

在此，说明使用既定的二级响应时生成第一级响应。在使用既定的二级响应时，由作为共通部分的云处理控制部201进行第一级响应，因此需要对响应内容进行研究。既定的二级响应中的第一级的响应生成能够通过从以下模式中随机选择来进行。

(1)基于用户发声的方法

通过包含“是{用户发声}吧”“{用户发声}已经了解”等用户发声的镜像来生成响应。

(2)基于意图(intent)的方法

通过若是“intent＝WEATHER-CHECK”则分配“是天气吧”、若是“intent＝SCHEDULE-ADD”则分配“是追加计划吧”等对意图固定地分配的语句(可以是多种变化)来生成响应。

(3)基于意图(intent)+时隙(slot)的方法

对“intent＝WEATHER-CHECK”在时隙中加入“DATE＝"today"”时，通过对“是今天的天气吧”等意图+时隙分配的语句(可以是多种变化)来生成响应。

(4)通用的应答语句

通过“了解了”、“知道了”、“请稍等”等来生成响应。

另外，也可以不是一律随机，而是能够在应用动作侧指定使哪种模式优先的优先级。此外，在应用动作侧，除了“是否以既定的二级响应来处理”的设定以外，还可以将此时的响应内容作为设定进行传递。例如，对于天气的应用，预先设定为“现在就去问一下天气博士”等作为响应内容。在这种情况下，云处理控制部201可以将其直接用作响应，也可以作为上述备选之一。此外，云处理控制部201也可以以与通常的二级响应中的应用动作侧的第一级的响应生成同样的方式进行用户属性的考虑、语调的调整等。

“域目标(intent)的推定”

如在上述实施方式中说明的那样，用户的发声在意图解释部(Agent Core)102中进行语音识别并进行其意图解释。此外，如图16的顺序的一个例子所示，也通过意图解释部102的对话控制功能来进行对省略的发声的用户意图的补充。

例如，在用户的“显示计划”的发声后，在用户进行了“明天是？”的省略的发声的情况下，意图解释部102也将其补充为“明天的计划”。由此，在这种情况下，从通知监视部(Event Monitor)103发布与“明天的计划”相当的动作请求。

在意图解释部102中基本上通过发出另一意图的用户发声来切换上下文。另一方面，有时通过来自应用动作侧的反馈来切换上下文。图17示出了这种情况下的顺序的一个例子。另外，在该例子中，为了简化而省略了通知监视部103的图示。

具有“显示计划”的用户发声时，意图解释部(Agent Core)102进行其意图解释。在这种情况下，意图解释部102的上下文切换为“计划的上下文”。意图解释部102的解释结果被发送到通知监视部(Event Monitor)103，而发布与“显示计划”相当的动作请求。该动作请求从本地处理控制部104发送到云处理控制部201，还发送到云处理执行部202的对应的应用动作。

在应用动作202中进行动作请求的处理。在这种情况下，虽然对计划进行了询问，但生成包含“不是计划而是天气怎么样？”的语音信息和作为天气的话题的反馈“对话状态”的信息的动作响应，如虚线所示，该动作响应通过云处理控制部201发送到本地处理控制部104。

该动作响应所包含的语音响应信息发送到渲染部106进行渲染，开始“不是计划而是天气怎么样？”的语音输出作为响应。此外，作为该动作响应所包含的天气的话题的反馈“对话状态”的信息被发送到意图解释部102，该意图解释部102的上下文被切换为“天气的上下文”。

此后，在用户进行了“明天是？”的加以省略的发声的情况下，与图16的例子不同，在意图解释部102中基于“天气的上下文”并以“明天的天气”的方式进行补充。由此，从通知监视部(Event Monitor)103发布与“明天的天气”相当的动作请求。

“在理解了中断的基础上的响应”

接着，说明在理解了中断的基础上的响应。本地处理控制部(Local AppDispatcher)104例如在以下情形下赋予“中断标志”。

(1)对另一用户发声的调度中或该响应为响应播放中的情况

(2)对另一用户发声的调度中或该响应为响应播放中且被中断的发声和中断的发声为相同的意图(intent)的情况

此外，应用动作(App Action)能够根据中断标志改变响应内容。例如，在显示计划的应用动作接收到“明天的计划”+中断标志的请求的情况下，可以考虑通常应响应为“是明天的计划吧”的情况响应成“噢，是明天吗。了解”等。

图18示出了与在理解了中断的基础上的响应相关的顺序的一个例子。具有“显示计划”的用户发声时，该发声事件的动作请求(第一级request)从本地处理控制部104发送到云处理控制部201，该动作请求还发送到云处理执行部202的对应的应用动作(1)。

发送到本地处理控制部104的第一级的动作响应所包含的语音响应信息发送到渲染部106进行渲染，开始“显示本日的计划”的响应语音的输出(播放)作为第一级响应。此外，包含于该动作响应的应用请求的应用事件的动作请求(第二级request)发送到云处理控制部201，该动作请求还发送到云处理执行部202的对应的应用动作(1)。

此外，具有同一用户或另一用户的“明天是”的发声时，该发声事件的动作请求(中断请求)从本地处理控制部104发送到云处理控制部201，还发送到对应的应用动作(2)。在该中断请求中附加表示中断的中断标志。

在该应用动作(1)中，在进行了向外部服务的询问等与时间相关的处理之后，生成包含“在这里”的语音响应信息和嵌入计划的日历的画面响应信息的第二级的动作响应，如虚线所示，该动作响应通过云处理控制部201发送到本地处理控制部104。

包含于该第二级的动作响应的语音响应信息及画面响应信息发送到渲染部106进行渲染，在第一级的响应完成的状态下，开始“在这里”的语音输出，并开始日历画面的显示作为第二级的响应。

此外，在应用动作(2)中执行对中断请求的处理，能够基于中断标志来制作在理解为中断的基础上的响应。例如，生成作为包含“噢，是明天吗”的语音响应信息的动作响应的中断响应，如虚线所示，该中断响应通过云处理控制部201发送到本地处理控制部104。

该中断响应所包含的语音响应信息发送到渲染部106进行渲染，开始“噢，是明天吗”的中断的响应语音的输出。另外，在该时点若第二级的动作响应的响应(语音、画面)的输出持续，则将其中断。

此外，在上述实施方式中，说明了使用动作响应(ActionResponse)所包含的应用请求(appRequest)进行二级响应的例子，但是并不限定于二级，也可以同样地考虑以三级以上响应。例如，能够应用于欲在切换画面的同时依次提示信息的情形。此外，不仅能够再次调用相同的应用动作，还能够包含其他应用动作并依次调用来进行阶段性的响应。

此外，本技术也能够采取以下构成。

(1)一种信息处理装置，具备：

意图解释部，解释用户输入的意图；

请求发布部，发布与上述解释的意图相应的请求；以及

(2)在所述(1)所述的信息处理装置的基础上，上述本地处理控制部在向上述云处理控制部发送上述请求时，从上述云处理控制部接收与上述请求对应的响应。

(3)在所述(2)所述的信息处理装置的基础上，上述本地处理控制部将上述响应所包含的应用请求发送到上述请求发布部，

上述请求发布部在接收到上述应用请求时，发布包括该应用请求所包含的应用指定信息的请求。

(4)在所述(3)所述的信息处理装置的基础上，上述应用请求所包含的应用指定信息再次指定与上述响应的产生相关的应用。

(5)在所述(4)所述的信息处理装置的基础上，由上述云处理控制部发布包含上述应用请求的响应。

(6)在所述(2)到(5)中任一项所述的信息处理装置的基础上，还具备渲染部，该渲染部基于上述响应所包含的响应信息来输出语音或影像的信号。

(7)在所述(6)所述的信息处理装置的基础上，上述渲染部在与第一请求对应的语音或影像的信号输出中，当与第二请求对应的响应信息发送至上述渲染部时，上述渲染部中止与上述第一请求对应的语音或影像的信号输出，并开始与上述第二请求对应的语音或影像的信号的输出。

(8)一种信息处理方法，包括：

意图解释步骤，意图解释部解释用户输入的意图；

请求发布步骤，请求发布部发布与上述解释的意图相应的请求；以及

本地处理控制步骤，本地处理信息控制部基于上述发布的请求，判断是由本地处理执行部还是由云处理执行部执行与该请求对应的处理，在判断为由上述云处理执行部进行执行时，将上述请求发送到云处理控制部。

(9)在所述(8)所述的信息处理方法的基础上，上述本地处理控制部在向上述云处理控制部发送上述请求时，从上述云处理控制部接收与上述请求对应的响应。

(10)在所述(9)所述的信息处理方法的基础上，上述本地处理控制部将上述响应所包含的应用请求发送到上述请求发布部，

(11)在所述(10)所述的信息处理方法的基础上，上述应用请求所包含的应用指定信息再次指定与上述响应的产生相关的应用。

(12)在所述(11)所述的信息处理方法的基础上，由上述云处理控制部发布包含上述应用请求的响应。

(13)在所述(9)至(12)中任一项所述的信息处理方法的基础上，还包括：渲染步骤，渲染部基于包含于上述响应的响应信息来输出语音或影像的信号。

(14)在所述(13)所述的信息处理方法的基础上，上述渲染部在与第一请求对应的语音或影像的信号输出中，当与第二请求对应的响应信息发送至上述渲染部时，上述渲染部中止与上述第一请求对应的语音或影像的信号输出，并开始与上述第二请求对应的语音或影像的信号的输出。

(15)一种程序，该程序使计算机作为如下单元发挥功能：

意图解释单元，解释用户输入的意图；

请求发布单元，发布与上述解释的意图相应的请求；以及

本地处理控制单元，基于上述发布的请求，判断是由本地处理执行部还是由云处理执行部执行与该请求对应的处理，在判断为由上述云处理执行部进行执行时，将上述请求发送到云处理控制部。

附图标记说明：

10 信息处理装置

100···本地侧处理装置

101···输入部

102···意图解释部

103···通知监视部

104···本地处理控制部

105···本地处理执行部

106···渲染部

107···输出部

200···云端处理装置

201···云处理控制部

202···云处理执行部

203···外部服务。

Claims

1.一种信息处理装置，具备：

意图解释部，解释用户输入的意图；

请求发布部，发布与所述解释的意图相应的请求；以及

本地处理控制部，基于所述发布的请求，判断是由本地处理执行部还是由云处理执行部执行与该请求对应的处理，在判断为由所述云处理执行部进行执行时，将所述请求发送到云处理控制部。

2.根据权利要求1所述的信息处理装置，其中，

所述本地处理控制部在向所述云处理控制部发送所述请求时，从所述云处理控制部接收与所述请求对应的响应。

3.根据权利要求2所述的信息处理装置，其中，

所述本地处理控制部将所述响应所包含的应用请求发送到所述请求发布部，

所述请求发布部在接收到所述应用请求时，发布包括该应用请求所包含的应用指定信息的请求。

4.根据权利要求3所述的信息处理装置，其中，

所述应用请求所包含的应用指定信息再次指定与所述响应的产生相关的应用。

5.根据权利要求4所述的信息处理装置，其中，

由所述云处理控制部发布包含所述应用请求的响应。

6.根据权利要求2所述的信息处理装置，其中，

所述信息处理装置还具备渲染部，所述渲染部基于所述响应所包含的响应信息来输出语音或影像的信号。

7.根据权利要求6所述的信息处理装置，其中，

所述渲染部在与第一请求对应的语音或影像的信号输出中，当与第二请求对应的响应信息发送至所述渲染部时，所述渲染部中止与所述第一请求对应的语音或影像的信号输出，并开始与所述第二请求对应的语音或影像的信号的输出。

8.一种信息处理方法，包括：

意图解释步骤，意图解释部解释用户输入的意图；

请求发布步骤，请求发布部发布与所述解释的意图相应的请求；以及

本地处理控制步骤，本地处理信息控制部基于所述发布的请求，判断是由本地处理执行部还是由云处理执行部执行与该请求对应的处理，在判断为由所述云处理执行部进行执行时，将所述请求发送到云处理控制部。

9.根据权利要求8所述的信息处理方法，其中，

10.根据权利要求9所述的信息处理方法，其中，

11.根据权利要求10所述的信息处理方法，其中，

12.根据权利要求11所述的信息处理方法，其中，

由所述云处理控制部发布包含所述应用请求的响应。

13.根据权利要求9所述的信息处理方法，其中，

所述信息处理方法还包括：渲染步骤，渲染部基于所述响应所包含的响应信息来输出语音或影像的信号。

14.根据权利要求13所述的信息处理方法，其中，

在与第一请求对应的语音或影像的信号输出中，当与第二请求对应的响应信息发送至所述渲染部时，所述渲染部中止与所述第一请求对应的语音或影像的信号输出，并开始与所述第二请求对应的语音或影像的信号的输出。

15.一种程序，该程序使计算机作为如下单元发挥功能：

意图解释单元，解释用户输入的意图；

请求发布单元，发布与所述解释的意图相应的请求；以及

本地处理控制单元，基于所述发布的请求，判断是由本地处理执行部还是由云处理执行部执行与该请求对应的处理，在判断为由所述云处理执行部进行执行时，将所述请求发送到云处理控制部。