CN106462646A

CN106462646A - 控制设备、控制方法和计算机程序

Info

Publication number: CN106462646A
Application number: CN201680001441.0A
Authority: CN
Inventors: 小野淳也
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-03-31
Filing date: 2016-02-04
Publication date: 2017-02-22
Anticipated expiration: 2036-02-04
Also published as: US20170206243A1; CN106462646B; EP3279809A1; US10474669B2; EP3279809A4; WO2016158005A1; JP2016192121A

Abstract

提供一种控制设备，通过该控制设备可以以适当的形式将对由用户在观看内容时说出的关于内容的问题的响应呈现给提出该问题的用户。提供有一种控制设备，该控制设备包括控制单元，该控制单元被配置成执行控制，使得关于输出至至少一个用户的内容生成对来自该用户的询问的响应的详情，并且决定响应被输出至的目标。

Description

控制设备、控制方法和计算机程序

技术领域

本公开内容涉及控制设备、控制方法和计算机程序。

背景技术

公开了下述技术：响应于来自用户的问题，生成包括问题的答案的响应，并且将所生成的响应呈现给提出问题的用户(例如，参见专利文献1)。

引用列表

专利文献

专利文献1JP 2014-225766A

发明内容

技术问题

在用户观看内容时存在关于内容的问题的情形下，用户想要容易地提出该问题而不停止观看内容，并且以适当的形式获得对该问题的响应。

因此，本公开内容提出了一种新颖的和改进的控制设备、控制方法和计算机程序，并且通过所述控制设备、控制方法和计算机程序，可以以适当的形式将对由用户在观看内容时说出的关于内容的问题的响应呈现给提出问题的用户。

问题的解决方案

根据本公开内容，提供有一种控制设备，该控制设备包括控制单元，该控制单元被配置成执行控制，使得关于输出至至少一个用户的内容生成对来自该用户的询问的响应的详情，决定响应被输出至的目标以及输出响应的时机。

根据本公开内容，提供有一种控制设备，该控制设备包括：由计算机执行控制，使得关于输出至至少一个用户的内容生成对来自该用户的询问的响应的详情，决定响应被输出至的目标以及输出响应的时机。

根据本公开内容，提供有一种计算机程序，该计算机程序使计算机执行控制，使得关于输出至至少一个用户的内容生成对来自该用户的询问的响应的详情，决定响应被输出至的目标以及输出响应的时机。

发明的有益效果

如上所述，根据本公开内容，可以提供一种新颖的和改进的控制设备、控制方法和计算机程序，并且通过所述控制设备、控制方法和计算机程序，可以以适当的形式将对由用户在观看内容时说出的关于内容的问题的响应呈现给提出问题的用户。

请注意，上述效果不一定是限制性的。在上述效果的情况下或者取代上述效果，可以实现本说明书中描述的效果中的任何一种效果或者可以从本说明书中掌握的其他效果。

附图说明

[图1]图1是示出根据本公开内容的实施方式的控制设备100的功能性配置示例的说明图。

[图2]图2是示出话语检测单元110的功能性配置示例的说明图。

[图3]图3是示出说话人识别单元140的功能性配置示例的说明图。

[图4]图4是示出话语分析单元150的功能性配置示例的说明图。

[图5]图5是示出知识库系统单元160的功能性配置示例的说明图。

[图6]图6是示出输出控制单元180的功能性配置示例的说明图。

[图7]图7是示出装置管理单元190的功能性配置示例的说明图。

[图8]图8是示出根据本公开内容的实施方式的控制设备100的操作示例的流程图。

[图9]图9是示出话语分析单元150的操作示例的流程图。

[图10]图10是描述获取主节点的说明图。

[图11]图11是描述获取与主节点相关联的节点的列表的说明图。

[图12]图12是描述将主节点彼此映射的说明图。

[图13]图13是描述生成实体的说明图。

[图14]图14是描述实体的分数的递减排序的说明图。

[图15]图15是示出兴趣图表结构的示例的说明图。

[图16]图16是示出使用根据本公开内容的实施方式的控制设备100的使用情况示例的说明图。

[图17]图17是示出使用根据本公开内容的实施方式的控制设备100的使用情况示例的说明图。

[图18]图18是示出使用根据本公开内容的实施方式的控制设备100的使用情况示例的说明图。

[图19]图19是示出使用根据本公开内容的实施方式的控制设备100的使用情况示例的说明图。

[图20]图20是示出使用根据本公开内容的实施方式的控制设备100的使用情况示例的说明图。

[图21]图21是示出使用根据本公开内容的实施方式的控制设备100的使用情况示例的说明图。

[图22]图22是示出使用根据本公开内容的实施方式的控制设备100的使用情况示例的说明图。

[图23]图23是示出使用根据本公开内容的实施方式的控制设备100的使用情况示例的说明图。

[图24]图24是示出使用根据本公开内容的实施方式的控制设备100的使用情况示例的说明图。

[图25]图25是示出硬件配置示例的说明图。

具体实施方式

在下文中，将参照附图来详细描述本公开内容的优选实施方式。在本说明书和附图中，具有基本上相同功能和结构的结构元件用相同的附图标记来表示，并且省略对这些结构元件的重复说明。

将按以下顺序进行描述。

1.本公开内容的实施方式

1.1.背景

1.2.功能性配置示例

1.3.操作示例

2.硬件配置示例

3.结论

<1.本公开内容的实施方式>

[1.1.背景]

首先，在详细描述本公开内容的实施方式之前，将描述本公开内容的实施方式的背景。

虽然用户有许多机会使用TV或个人计算机(PC)来观看视频内容如TV节目和电影，但近年来出现了在使用时由用户穿戴的被称为可穿戴式装置的装置。虽然可穿戴式装置具有各种形式，例如，眼镜式和手表式，但是其共同点是这些可穿戴式装置具有小屏幕。因此，当用户使用这样的具有小屏幕的可穿戴式装置观看内容时，假设下述情况：通过对装置说话来操纵内容而无需直接操纵屏幕。此外，当用户对装置说话时，假设包括使用指示代词如“这个”和“那个”的不明确表达的话语的数目增加。

另一方面，出现了下述装置，当用户使用TV观看内容时，通过该装置可以观看支持大约4000像素(水平)×2000像素(竖直)的称为4K的分辨率的内容。此外，预期即将出现支持大约8000像素(水平)×4000像素(竖直)的称为8K的更高分辨率的内容。因此，在未来，假设多人如家庭使用大屏幕来观看内容的情况增加。即使在用户使用这样的大屏幕来观看内容时，仍假设用户通过对屏幕说话来操纵内容，并且当用户对屏幕说话时，假设包括使用指示代词如“这个”和“那个”的不明确表达的话语的数目增加。

在任何情况下，当用户观看内容并且想知道关于内容的问题的答案时，该用户暂时停止观看内容并且使用用于观看内容的装置或者不用于观看内容的装置来搜索答案，这就干扰了用户观看内容。因此，当用户观看内容并且想知道关于内容的问题的答案时，优选的是用户在不停止观看内容的情况下获得对问题的响应。

此外，如上所述，当用户对装置说话时，假设包括使用指示代词如“这个”和“那个”的不明确表达的话语的数目增加。因此，优选的是准确地解释这样的不明确表达并且将响应呈现给用户。即，当用户观看内容并且问：“这个人是谁？”时，有必要准确地解释用户的问题是关于什么的以及针对该问题要生成的响应的类型。

另外，如上所述，在未来，假设多人如家庭使用大屏幕来观看内容的情况增加。在这种情况下，有必要准确地检测哪个用户说出问题，并且将对话语的响应返回给说出问题的用户。

此处，鉴于上述背景，本发明人对如下技术进行了广泛的研究，通过该技术，当用户观看内容时，可以以适当的形式将对说出的关于内容的问题的响应呈现给说出问题的用户。其结果是，如将在下面描述的，本发明人设计了如下技术：当用户观看内容时，通过该技术对说出的关于内容的问题的意图进行分析，并且可以以适当的形式将对问题的响应呈现给说出问题的用户。

以上描述了本公开内容的实施方式的背景。接着，将详细描述本公开内容的实施方式。

[1.2.功能性配置示例]

首先，示出了根据本公开内容的实施方式的控制设备100的功能性配置示例。图1是示出根据本公开内容的实施方式的控制设备100的功能性配置示例的说明图。图1示出了控制设备100的功能性配置示例，控制设备100被配置成从观看内容的用户接收问题并且生成对问题的响应。在下文中，将参照图1来描述根据本公开内容的实施方式的控制设备100的功能性配置示例。

如图1所示，根据本公开内容的实施方式的控制设备100包括输入单元101、输出单元102、通信单元103和控制单元104。

输入单元101接收来自用户的输入。在本实施方式中，输入单元101被配置成从观看内容的用户接收问题，该内容从设置在控制设备100中的输出单元102输出。输入单元101包括例如：麦克风，该麦克风被配置成收集来自用户的话语的语音；照相机，该照相机被配置成拍摄用户的手势的图像；深度传感器，该深度传感器被配置成检测从输入单元101到用户的距离，等等。输入单元101将通过用户的输入操纵所生成的数据发送至控制单元104。

在根据本实施方式的控制设备100中，当存在多个用户时，为了容易地指定产生话语的用户，在输入单元101中设置有多个麦克风，并且可以执行根据多个麦克风的波束形成。

输出单元102输出在控制单元104中生成的数据。在本实施方式中，输出单元102将内容输出给用户，并且输出从控制单元104生成的对关于内容的问题的响应，所述问题从产生话语的用户输出。输出单元102包括例如：显示器，该显示器被配置成显示字符、图像，和其它可视信息；以及扬声器，该扬声器被配置成输出语音。

通信单元103执行与另一设备的信息通信。例如，通信单元103基于控制单元104的控制执行与另一设备的信息通信，并且可以从该另一设备获取被用作对来自用户的问题的响应的基础的信息。

控制单元104对控制设备100的操作进行控制，并且包括例如中央处理单元(CPU)、图形处理单元(GPU)、只读存储器(ROM)和随机存取存储器(RAM)。在本实施方式中，控制单元104执行操作，以便生成对由用户使用输入单元101输入的问题的响应，并且以适合于用户的形式输出来自输出单元102的响应。

如图1所示，在根据本公开内容的实施方式的控制设备100中包括的控制单元104包括话语检测单元110、手势检测单元120、内容分析单元130、说话人识别单元140、话语分析单元150、知识库系统单元160、响应生成单元170、输出控制单元180和装置管理单元190。

话语检测单元110检测由用户朝向输入单元101产生的话语。然后，当检测到由用户产生的话语时，话语检测单元110将话语的详情转换成文字。此外，当检测到由用户产生的话语时，话语检测单元110将话语的语音片段发送至随后的说话人识别单元140。

图2是示出话语检测单元110的功能性配置示例的说明图。如图2所示，话语检测单元110包括信号处理单元111、话语接收处理单元112和语音识别单元113。

为了提高语音识别的准确度，信号处理单元111对从输入单元101发送的语音信号执行信号处理。例如，为了增加远场中的语音识别的准确度，信号处理单元111执行信号处理，通过该信号处理，从语音信号中去除了噪音或混响。

话语接收处理单元112执行下述处理：接收由用户产生的话语如经过信号处理单元111中的信号处理的语音信号。话语接收处理单元112接收由用户产生的话语并且检测用户的话语片段。以这种方式，当接收到由用户产生的话语并且检测到用户的话语片段以限定话语部分时，可以提高在随后的语音识别单元113中的识别的准确度。另外，以这种方式，当接收到由用户产生的话语并且检测到用户的话语片段以限定话语部分时，可以限定在随后的语音识别单元113中的语音识别的处理周期并且减少功率消耗。

语音识别单元113对由话语接收处理单元112检测到的用户的话语片段执行语音识别处理，并且将语音转换成文字。将语音转换成文字的处理不限于具体的处理。

在如图2所示的配置中，话语检测单元110可以检测由用户产生的话语并且将由用户说出的详情转换成文字。

手势检测单元120检测由用户对输入单元101输入的手势。当检测到用户的手势时，手势检测单元120可以确定在显示在输出单元102上的内容中由用户指示的部分。

内容分析单元130分析显示在输出单元102上的内容的详情。例如，内容分析单元130分析显示在输出单元102上的内容的视频和语音，并且将分析结果发送至话语分析单元150。内容分析单元130将内容中的例如图像、语音和文字进行分离，并且提取与所分离的数据对应的特征值。然后，例如，内容分析单元130将图像的特征值转换成关键字，将语音转换成文字，并且根据语言分析来获取文字的特征值。此外，例如，当元数据被附到显示在输出单元102上的内容时，内容分析单元130分析该元数据的详情，并且将分析结果发送至话语分析单元150。

说话人识别单元140指定朝向输入单元101产生话语的说话人。例如，说话人识别单元140指定说话人产生话语的方向，分析话语的语音，从而指定说话人。

图3是示出说话人识别单元140的功能性配置示例的说明图。如图3所示，说话人识别单元140包括波束形成处理单元141和说话人识别处理单元142。

波束形成处理单元141根据使用在输入单元101中设置的多个麦克风的波束形成来指定说话人产生话语的方向。

说话人识别处理单元142执行指定产生话语的人的处理。例如，说话人识别处理单元142根据由在输入单元101中设置的照相机拍摄的图像的脸部识别处理来指定在由波束形成处理单元141指定的话语方向上的人。另外，例如，说话人识别处理单元142执行下述处理：对话语的语音进行分析，并且指定产生了话语的人。

在如图3所示的配置中，说话人识别单元140可以高准确度地预测朝向输入单元101生成了话语的说话人。将详细描述由根据本实施方式的说话人识别单元140执行的说话人指定处理。

话语分析单元150分析由话语检测单元110检测到的话语的详情。话语分析单元150根据语言分析、语境分析(话语句子的承接)、语义分析等来分析由话语检测单元110检测到的话语的详情。然后，话语分析单元150分析由话语检测单元110检测到的话语的详情，并且当分析结果表明话语的详情包括疑问句时，查询知识库系统单元160。

图4是示出话语分析单元150的功能性配置示例的说明图。如图4所示，话语分析单元150包括语言分析单元151和语义分析单元152。

语言分析单元151分析由话语检测单元110转换的文字的结构。当分析由话语检测单元110转换的文字的结构时，语言分析单元151可以确定来自用户的话语的详情是否包含问题。在分析由话语检测单元110转换的文字的结构时，语言分析单元151可以执行语境分析。语境被分析，来自该用户的先前话语被依次分析，于是被用户省略的表达或者指示代词可以被正确地标准化。

语义分析单元152解释由话语检测单元110转换的文字中包括的不明确表达，并且解释来自用户的话语的意图。语义分析单元152查询知识库系统单元160，并且从而解释不明确表达。

在如图4所示的配置中，话语分析单元150分析由话语检测单元110检测到的话语的详情，而且可以检测来自用户的话语的含义。

知识库系统单元160保持例如一般知识、特定于用户的知识、特定于装置的知识的图表结构化数据库，搜索该数据库，并且执行对不明确表达的推理以解释该不明确表达。知识库系统单元160可以在解释不明确表达时反映用户的偏好。

知识库系统单元160生成对来自话语分析单元150的问题的响应。在本实施方式中，由知识库系统单元160生成的响应也称为响应基础参数。由知识库系统单元160生成的响应基础参数被发送至响应生成单元170，并且被用作用于在响应生成单元170中生成对用户的响应的基础。

图5是示出知识库系统单元160的功能性配置示例的说明图。如图5所示，知识库系统单元160包括知识数据库161和WEB信息保持单元162。

知识数据库161是一般知识、特定于用户的知识、特定于装置的知识的图表结构化数据库。另外，WEB信息保持单元162收集通过因特网提供的信息，并且是该信息的图表结构化数据库。

在如图5所示的配置中，知识库系统单元160可以生成对来自话语分析单元150的问题的响应。另外，在如图5所示的配置中，知识库系统单元160可以分析在话语分析单元150中的不明确表达中的用户意图。下面将描述生成响应以及使用知识库系统单元160来分析在不明确表达中的用户意图的处理。

响应生成单元170基于从知识库系统单元160获得的响应基础参数来生成被用作基础的响应(如响应句子、响应显示或响应语音)。在由响应生成单元170生成的被用作基础的响应中，响应的输出时机和响应的详情由输出控制单元180来控制。

对于由响应生成单元170生成的被用作基础的响应，输出控制单元180控制待输出的响应的输出时机和详情。

图6是示出输出控制单元180的功能性配置示例的说明图。如图6所示，输出控制单元180包括触发确定单元181和个性化输出单元182。

触发确定单元181管理内容的再现和停止，并且确定响应的输出时机。根据本实施方式的控制设备100具有两种类型的模式，包括实时输出响应的模式以及在满足预定条件时输出响应的模式。实时输出响应的模式被称为实时模式，在满足预定条件时输出响应的模式被称为书签模式。触发确定单元181使用的预定条件可以包括例如被输出的内容处于预定状态的条件，或者例如到达预定时间的条件。被输出的内容的预定状态可以是例如在内容为TV节目的情况下内容结束的时机或者内容转换到广告的时机。内容结束的时机包括内容被再现至结束的时机以及用户明确地结束内容的再现的时机二者。预定时间包括从内容结束时间开始已经相对地经过的时间以及与内容的结束无关的时间二者。当使用到达预定时间的条件来输出响应时，不输出内容的状态可以被添加到触发确定单元181使用的预定条件中。

个性化输出单元182执行控制，使得相对于由响应生成单元170生成的被用作基础的响应，根据说出了问题的用户的兴趣水平来优化和输出详情。

在如图6所示的配置中，输出控制单元180可以控制由响应生成单元170生成的被用作基础的响应的输出时机。另外，在如图6所示的配置中，输出控制单元180可以控制由响应生成单元170生成的被用作基础的响应的待输出的详情。

装置管理单元190管理输出控制单元180向其输出响应的装置，并且选择适合于输出响应的装置。

图7是示出装置管理单元190的功能性配置示例的说明图。如图7所示，装置管理单元190包括传感器信息获取单元191和输出装置选择单元192。

传感器信息获取单元191获取从输入单元101的传感器发送的信息。从传感器信息获取单元191获取的传感器的信息用于输出装置选择单元192选择适合于输出响应的装置的处理。

输出装置选择单元192执行下述处理：使用从传感器信息获取单元191获取的传感器信息来选择适合于输出响应的装置。下面将描述输出装置选择单元192选择装置的处理。

在如图7所示的配置中，装置管理单元190管理输出控制单元180向其输出响应的装置，并且可以基于从输入单元101的传感器发送的信息来选择适合于输出响应的装置。

虽然在如图1所示的功能性配置示例中示出了在控制设备100中包括输入单元101和输出单元102的形式。但是本公开内容不限于此。输入单元101和输出单元102可以被设置在不同于控制单元104的设备中。

以上描述了根据本公开内容的实施方式的控制设备100的功能性配置示例。在如图1至图7所示的配置中，根据本公开内容的实施方式的控制设备100可以理解用户关于于所输出的内容说出的问题的意图，并且以适于说出问题的用户的形式来输出对问题的响应。

以上描述了根据本公开内容的实施方式的控制设备100的功能性配置示例。接着，将描述根据本公开内容的实施方式的控制设备100的操作示例。

[1.3.操作示例]

图8是示出根据本公开内容的实施方式的控制设备100的操作示例的流程图。图8示出了当由用户关于所输出的内容说出的问题的答案被生成并且以适于提出问题的用户的形式来输出对问题的响应时控制设备100的操作示例。在下文中，将参照图8来描述根据本公开内容的实施方式的控制设备100的操作示例。

当用户相对于通过输出单元102输出的内容朝向输入单元101产生话语时，首先，控制设备100提取话语句子(步骤S101)。在步骤S101中对话语句子的提取由例如话语检测单元110执行。

当话语句子被提取时，控制设备100检测例如用户的预定操作，并且可以根据检测到该操作而转换到话语接收状态。当根据检测到该操作而将状态转换到话语接收状态时，控制设备100可以限定话语片段，减少在提取话语句子时输入噪音的可能性，并且提高语音识别的准确度。此外，当根据检测到该操作而将状态转换到话语接收状态时，控制设备100可以减少功率消耗，因为控制设备100并不总是有必要激活语音识别。

用于转换到话语接收状态的预定操作可以包括例如遥控器的操纵、预定激活词汇和预定手势。例如，控制设备100执行事先设置了预定激活词汇并且仅识别到该激活词汇的语音识别处理。然后，当识别到激活词汇时，控制设备100激活语音识别并且等待用户的话语。

例如，控制设备100仅运行下述语音识别功能，在该语音识别功能中仅识别预定激活词汇，因此该语音识别功能的功率消耗较低，并且当识别到预定激活词汇时，可以运行识别所有语音的语音识别功能。

此外，例如，当根据识别到预定手势而将状态转换到话语接收状态时，控制设备100使用照相机、深度传感器等检测用户的脸部、手指操纵和视线。例如，当检测到用户的脸部、手指或视线面向显示区域的特定部分达预定时间时，控制设备100可以转换到话语接收状态。

控制设备100在步骤S101中提取用户的话语句子，并且然后执行决定话语主体在下述内容中的位置的处理，在该内容中决定了用户的话语主体在通过输出单元102输出的内容中的位置(步骤S102)。在步骤S102中决定话语主体在内容中的位置的处理由例如手势检测单元120执行。

例如，在步骤S101中，当控制设备100提取话语句子时，可以提取话语句子“屏幕左方的人是谁？”作为结果。控制设备100可以根据话语的详情来决定话语主体在内容中的左方。以这种方式，当用户在一定程度上指定内容中的位置时，控制设备100容易地决定话语主体在内容中的位置。

另一方面，例如，在步骤S101中，当控制设备100提取话语句子时，可以提取话语句子“这个人是谁？”作为结果。如果在产生话语时在通过输出单元102输出的内容中只有一个人时，容易指定该主体。然而，当在在通过输出单元102输出的内容中存在多个人时，控制设备100无法仅使用句子“这个人是谁？”来指定该用户指的是谁。

因此，根据本实施方式的控制设备100检测用户的与话语一起执行的手势。根据本实施方式的控制设备100检测用户的与话语一起执行的手势。因此，即使当说出不明确表达如“这个人是谁？”时，仍然决定了话语主体在内容中的位置。在本实施方式中，用户明确地指示位置的情况被限定为唯一型，而用户未明确指示位置的情况被限定为候选型。

首先，将描述唯一型的情况。例如，当输出单元102中设置有触摸面板并且用户使用该用户的手指来触摸该触摸面板时，控制设备100可以决定触摸位置，作为话语主体在内容中的位置。当用户在没有触摸该触摸面板的情况下指定位置时，控制设备100检测用户的手势，并且从而决定话语主体在内容中的位置。控制设备100检测例如由用户的手指或用户的视线指示的位置，并且从而指定用户指点的部分的位置。

此外，控制设备100可以将用户的手势的检测结果输出至输出单元102。当状态转换到上述话语接收状态时，控制设备100显示内容中由用户的手势指示的位置，并且从而可以将内容中由用户的手势指示的被检测部分反馈给用户。

接着，将描述候选型的情况。当用户没有明确指示相对于内容的位置时，控制设备100向用户询问关于内容中该用户指示的位置。当进行询问时，控制设备100以实时模式和标签模式中的任意模式下询问用户，其中在实时模式下询问被实时返回给用户，在标签模式下根据内容状态——例如，在观看内容结束之后或者在广告期间——将询问返回给用户。

当在实时模式下提供响应时，控制设备100可以将内容暂停，并且缩小用户的候选的范围，或者为了不干扰用户观看内容，可以从用户产生话语的时刻起在另一屏幕上显示内容的屏幕截图。在任何情况下，控制设备100在用户产生话语的时刻向用户显示从输出单元102输出的屏幕，并且允许用户再一次指定位置。当允许用户再一次指定位置时，控制设备100可以指定内容中的位置。

当在书签模式下提供响应时，控制设备100从用户产生话语的时刻起保持内容的屏幕截图，在预定时机处显示屏幕截图，向用户显示从输出单元102输出的屏幕，并且允许用户再一次指定位置。通过允许用户再一次指定位置，控制设备100可以指定内容中的位置。

当用户在任一模式下均未指定位置时，控制设备100可以任意地决定内容中假设由用户指定的位置。例如，如果在用户的偏好中发现用户对女艺人有浓厚的兴趣这一事实，并且用户在出现男性和女性的场景中提出问题“这个人是谁？”，则控制设备100确定指示的是女性而非男性，并且可以指定女性在内容中的位置。

当用户说出问题时，如果在内容中存在多个可能的候选，则根据用户是否指定内容中的位置，候选可以被分为以下形式。

[表1]

(表1：当从多个候选中决定一个候选时的分类)

A-1的情况是允许用户直接指定位置的形式。B-1和B-2的情况是允许用户使用手势来指定位置的形式。B-3的情况是允许用户在与用户通过其观看内容的装置不同的装置中指定位置的形式。选择分立的装置的方法将在下面描述。C-1至C-3的情况是使用用户简档并且系统根据知识库系统的图表结构来自动设置优先级的形式。确定优先级的方法将在下面描述。D-1和D-2的情况是根据知识库系统的层次和大数据分析来设置优先级的形式。确定优先级的方法将在下面描述。

当在步骤S102中决定了话语主体在内容中的位置时，控制设备100然后提取内容的特征值(步骤S103)。在步骤S103中提取内容的特征值的处理由例如内容分析单元130执行。

在步骤S103中，作为提取内容的特征值的处理，分离内容中的图像、语音和文字，并且根据所分离的数据来提取特征值。例如，在图像的情况下，根据图像分析将所提取的特征值转换成关键字，根据语音识别将语音转换成文字，并且可以根据对文字的语言分析来获得特征值。

当用户关于内容说出包括不明确表达的问题“这个人是谁？”或者“这是哪里？”时，内容的特征值对于回答这个问题是必要的。在本实施方式中，关于从检测到用户的话语的时刻起的内容，事先分配给内容的(带标签的)信息被限定为静态特征值，而通过分析内容的图像或语音而获得的信息被限定为动态特征值。

静态特征值对应于预先被标记到内容的与人或位置有关的信息。即使没有被预先标记到内容的信息，仍可以基于知识库系统单元160保持的信息按照内容的时间序列来管理信息。例如，在TV节目中的人按时间序列变化的情况下，关于此人的所有的信息(例如，内容中的位置范围，人的姓名和年龄)可以被保持在内容再现设备中，只有用于识别内容的ID信息可以被保持在内容再现设备中，并且可以通过查询知识库系统单元160来获得关于此人的信息。

动态特征值对应于通过分析内容的图像或语音而获得的信息。此处，根据本实施方式的控制设备100使用感知延迟反馈技术，通过返回从检测到话语的时间起的预定时间来分析内容的图像或语音。

在场景随着时间改变的内容如运动图像中，存在从用户观看内容时起直到该用户产生话语为止的时间滞后。因此，控制设备100可以包括将用户想到问题的时间与用户说出问题的时间进行同步的机制。

在从人类感知到图像或声音时起直到产生语音为止的时间滞后方面存在个体差异。例如，时间滞后根据年龄而变化。因此，控制设备100可以以静态方式事先将从人类感知到图像或声音时起直到用户产生语音为止的时间滞后设置成恒定值，并且可以在指定产生话语的用户之后基于用户简档信息来动态地改变时间滞后。例如，当可以基于用户简档信息来确定产生话语的用户为青少年这一事实时，可以将时间滞后设置得较短。当可以基于用户简档信息来确定产生话语的用户为六十岁这一事实时，可以将时间滞后设置得较长。

然后，控制设备100在考虑时间滞后的情况下获取在先前时间之前从检测到用户的话语起的每一帧的内容信息。以这种方式，当设置时间滞后时，控制设备100可以反馈用户的感知延迟，并且可以包括图像或语音分析目标中用户关注的内容。

当在步骤S103中提取了内容的特征值时，控制设备100然后执行指定产生话语的说话人的处理(步骤S104)。在步骤S104中指定说话人的处理由说话人识别单元140执行。控制设备100使用通过被配置成输出内容的装置的相机传感器、麦克风传感器和深度传感器的感测而获得的数据来执行信号处理、图像分析和说话人识别。

为了指定话语方向，例如，使用麦克风阵列传感器。控制设备100可以使用波束形成技术来确定产生话语的方向，其中借助于波束形成技术，根据在声音经过麦克风阵列时的时间延迟，通过识别产生声音的方向来指定话语方向。

为了指定话语方向，也可以使用例如深度传感器或照相机传感器。控制设备100可以指定由深度传感器或相机传感器检测到的用户的手势的方向作为话语方向。

当识别到用户的语音时，控制设备100使用例如波束形成技术来指定话语方向，然后收集该方向上的语音，并且可以通过将所收集的语音的波形与知识库系统单元160中登记的波形之间进行比较来识别语音。

当识别到产生话语的用户的脸部时，控制设备100使用例如波束形成技术来指定话语方向，然后在该方向上拍摄图像，对所拍摄的图像执行脸部检测处理以提取脸部，并且可以通过将该脸部与知识库系统单元160中登记的脸部图像进行比较来识别该脸部。

控制设备100可以在输出内容的屏幕上显示图标，在该图标中显示在知识库系统单元160中事先登记的脸部或名称或者由照相机拍摄的脸部图像。控制设备100可以允许用户选择图标或图像，并且从而指定说话人。用户对图标或图像的选择可以通过使用触摸面板的直接指定或者使用手势的间接指定来执行。

当在步骤S104中指定了产生话语的说话人时，控制设备100然后执行说话人识别反馈处理(步骤S105)。步骤S105中的说话人识别反馈处理由输出控制单元180执行。

在步骤S105中的说话人识别反馈处理是这样的处理：将接收话语识别、错误以及说话人指定结果反馈给用户。例如，说话人识别反馈处理被执行如下。说话人识别单元140将接收话语识别、错误以及说话人指定结果的参数提供至响应生成单元170。响应生成单元170基于从说话人识别单元140接收到的参数来生成响应，并且将所生成的响应于提供至输出控制单元180。输出控制单元180以将响应叠加在内容上的格式立即输出从响应生成单元170接收到的响应。

控制设备100并不一定执行步骤S105中的说话人识别反馈处理。控制设备100基于用户的设置来确定是否执行说话人识别反馈处理，并且当用户请求说话人识别反馈处理时，可以执行说话人识别反馈处理。可替代地，控制设备100可以仅当不可能识别话语或者不可能指定说话人时才执行说话人识别反馈处理。

当在步骤S105中执行了说话人识别反馈处理时，控制设备100然后执行理解在步骤S101中提取的话语句子的意图的处理(步骤S106)。在步骤S106中理解话语句子的意图的处理由话语分析单元150使用知识库系统单元160来执行。

在本实施方式中，为了理解话语句子的意图，话语分析单元150使用以计算机能够理解的格式存储(结构化)在数据库中的知识(称为知识库)如事实、常识或经验。该知识库不是简单的数据库，而是包括用于利用所存储的知识的搜索或推理机制。知识库系统单元160存储该知识库，并且包括图5中示出的知识数据库161和WEB信息保持单元162。

知识数据库161包括三元组资源描述框架(RDF)结构，在三元组资源描述框架(RDF)结构中，“主语、谓语和宾语”中的每一个的知识被称为节点，并且相连的节点被称为关系，并且构建了连接三元组的知识图表结构。三元组的示例包括“富士山、海拔和3776米。”

数据库大体上被分类为不取决于用户的一般知识(如世界事实、常识和经验)以及取决于用户的用户知识(用户简档)。在本实施方式中，为了使控制设备100决定向其输出响应的装置，装置信息是必要的。用户持有的装置是用户知识。装置的特征信息(例如，屏幕的尺寸以及该装置是否具有屏幕)是一般知识。

当话语分析单元150使用话语句子来搜索存储在知识库系统单元160中的知识时，支持表示法的变化是必要的。在语音识别的情况下，有必要考虑平假名和片假名的差异、日文汉字的差异、以及在没有符号的情况下半角和全角的差异。假设不是数据库中的所有候选都被读取的情况。话语分析单元150动态地改变所提取的话语句子的字符串，增加搜索候选，并且搜索知识库系统单元160。为了动态地改变话语句子的字符串、增加搜索候选并且搜索知识库系统单元160，优选地限定字符串的转换规则，限定根据规则如压缩表示法来转换的字符串，并且在数据库中事先生成压缩表示法。话语分析单元150根据话语句子的字符串来动态地生成压缩表示法，并且执行与存储在知识库系统单元160中的压缩表示法的比较。

因为知识数据库161的量非常巨大，因此为了提高处理速率，话语分析单元150根据例如数据的分数值来执行递减排序，并且当点击数变为默认值时，可以结束搜索处理。

话语分析单元150根据表2中示出的压缩表示法的转换规则，从话语句子的表示法生成压缩表示法。此外，使用相同的压缩表示法的转换规则事先转换知识数据库161。

[表2]

(表2：压缩表示法的转换规则)

知识库系统单元160可以保持同义词数据库。话语分析单元150利用来自同义词数据库的同义词，并且从而可以增加表示法候选。

话语分析单元150解释话语句子的不明确表达，并且确定话语的表示法的域或体裁。由于RDF结构的三元组数据被发布，并且数据库没有统一的格式和方案，因此知识库系统单元160唯一地限定语义属性，并且保持用于映射数据库的属性的条件。

图9是示出话语分析单元150的操作示例的流程图。图9示出了当基于话语句子的详情来搜索知识库系统单元160时话语分析单元150的操作示例。

首先，话语分析单元150基于表2的转换规则来动态地利用话语句子的表示法，并且生成搜索表示法的候选(步骤S111)。当在步骤S111中动态地利用了话语句子的表示法时，话语分析单元150然后根据目标语言等参数来选择待搜索的数据库(步骤S112)。

当在步骤S112中选择了待搜索的数据库时，话语分析单元150然后获取语义属性条件，即，用于确定人、地点名称、音乐等的域或体裁的条件(步骤S113)。当在步骤S113中获取了用于确定域或体裁的条件时，话语分析单元150然后从每个数据库获取主节点并且设置分数(步骤S114)。图10是描述获取主节点的说明图。话语分析单元150从目标语言、表示法列表、搜索数据库列表和语义属性条件中发现提取节点。当发现提取节点时，话语分析单元150根据提取节点跟踪等价关系字符(谓语)，并且发现主节点。然后，话语分析单元150获取所发现的主节点的分数值。

当在步骤S114中获取了主节点并且设置了分数时，话语分析单元150然后获取与主节点相关联的节点的列表(步骤S115)。图11是描述获取与主节点相关联的节点的列表的说明图。话语分析单元150从每个数据库的主节点跟踪等价关系字符并且提取相关联的节点。相关联的节点是简化的表示法和假名读音表示法。

当在步骤S115中获取了与主节点相关联的节点的列表时，话语分析单元150然后将数据库的主节点彼此映射(步骤S116)。图12是描述将主节点彼此映射的说明图。话语分析单元150计算与从相关联的节点获取的主节点之间的链接有关的信息，生成主节点之间的链接，并且连接数据库。

当在步骤S116中映射数据库的主节点时，话语分析单元150然后生成整合的图表结构和实体(步骤S117)。假设在每个数据库中设置了层次。话语分析单元150按照层次顺序来链接数据库，并且创建整合的图表结构。然后，话语分析单元150将具有最高层次的数据库的主节点设置成实体。图13是描述生成实体的说明图。

当在步骤S117中生成了整合的图表结构和实体时，话语分析单元150然后设置实体的分数，并且执行递减排序(步骤S118)。话语分析单元150将每个数据库的主节点的最高分数设置成实体的分数，并且对实体的分数执行递减排序。图14是描述实体的分数的递减排序的说明图。

当话语分析单元150执行图9中示出的一系列操作时，可以基于话语句子的详情来搜索知识库系统单元160，并且理解话语句子的意图。

图9描述了话语分析单元150的一系列操作的具体示例。例如，将描述：当用户说出“Acchan几岁了？”并且基于来自话语分析单元150的分析结果返回了响应“23岁”时话语分析单元150的操作示例。

首先，话语分析单元150通过动态利用话语句子的表示法来生成各种搜索项。当语音识别结果的表示法为并且知识库系统单元160中的表示法为“Acchan”时，话语分析单元150生成不仅针对而且针对“Acchan”的搜索项。此外，当语音识别结果的表示法包括符号时，话语分析单元150删除该符号并且生成搜索项。

接着，话语分析单元150根据目标语言等参数来选择待搜索的数据库。由于在本示例中日语被用作目标，因此话语分析单元150选择以日语存储信息的数据库。

接着，话语分析单元150获取语义属性条件。例如，当内容中反映的人是歌手时，话语分析单元150将语义属性设置为“人：歌手：”

接着，话语分析单元150从所选择的搜索目标数据库中获取主节点并且设置分数。每个数据库保持主语、谓语和宾语的三元组数据。

AA别名Acchan

AB别名Acchan

AA属性人：歌手

AB属性人：艺人

AA年龄23岁

AB年龄32岁

“AA”和“AB”是个人姓名，并且对应于主节点。另外，“Acchan”对应于提取节点。话语分析单元150首先找到“Acchan”的提取节点，跟踪别名，并且可以到达作为主节点的“AA”和“AB”。在本示例中，由于存在两个候选“AA”和“AB”，因此不可能唯一地决定主节点。

接着，话语分析单元150获取与主节点相关联的节点的列表。话语分析单元150获取指示年龄为23岁并且语义属性为“人：歌手”的信息，作为与主节点“AA”相关联的信息。同样地，话语分析单元150获取指示年龄为32岁并且语义属性为“人：艺人”的信息，作为与主节点“AB”相关联的信息。

接着，话语分析单元150生成整合的图表结构和实体。例如，当存在多个搜索目标数据库并且在每个数据库中都包括主节点“AA”的数据时，话语分析单元150收集相同的主节点，作为与主节点相关联的一个合并节点。

接着，话语分析单元150设置实体的分数并且执行递减排序。在本示例中，生成“AA”和“AB”作为实体。因此，话语分析单元150设置用于确定实体的优先级的分数。话语分析单元150根据WEB信息(例如，浏览百科全书站点的数目和SNS中的关键字频率)和访问数据库的节点的频率来计算分数，并且按照降序执行排序。在本示例中，由于“人：歌手”是从内容中的状态得到的，因此话语分析单元150可以将“AA”设置为实体的候选。另一方面，当不可能根据内容中的状态执行指定时，话语分析单元150按照分数的顺序执行排序，并且可以将具有最高分数的实体设置为实体的候选。

话语分析单元150可以通过执行这样的操作来决定实体。然后，当实体可以被确定为“AA”时，话语分析单元150从该实体跟踪年龄信息，并且从而可以生成响应“23岁”。

当在图8的步骤S106中执行了对话语句子的意图的理解时，控制设备100然后生成响应基础参数，其是被用作响应的基础的参数(步骤S107)。在步骤S107中生成响应基础参数的处理由响应生成单元170执行。

基于由话语分析单元150搜索知识库系统单元160而获得的参数，响应生成单元170生成被用作基础的响应句子，响应显示和响应语音。

在图8的步骤S107中，当生成被用作响应基础的参数的响应基础参数时，控制设备100然后控制响应的输出时机(步骤S108)。在步骤S108中对响应的输出时机的控制由输出控制单元180执行。

在本实施方式中，控制设备100根据内容的情况和说出了问题的用户的情况来控制响应时机。控制设备100包括两种模式即实时模式和书签模式，作为响应的输出时机的模式。

实时模式是在用户观看内容时立即返回响应的模式。在实时模式中，用户可以立即获得信息。实时模式基于将响应叠加(交叠)在下述装置上的形式：用户通过所述装置观看内容。控制设备100输出响应而无需用户将该用户的视线改变到另一装置，因此可以在不停止用户所专注的任务(即，观看内容)的情况下呈现对由用户说出的问题的响应。

当以实时模式输出响应时，控制设备100将结果提供至显示内容的屏幕。在考虑通过输出内容的装置与其话语被识别的用户之间的位置关系的情况下决定响应的显示位置。例如，当在显示内容的装置的左方和右方有人并且检测到左方的用户产生了话语时，控制设备100将响应显示在屏幕的左方。

当以实时模式输出响应时，为了强调响应，控制设备100可以通过下述来执行强调：例如降低输出的内容的亮度；用阴影等使内容模糊；以及显示弹出响应。此外，控制设备100可以自动地暂停输出的内容并且将响应叠加在内容上。为了不强调响应结果，控制设备100在屏幕的边缘处弹出结果，因此不会干扰用户观看内容。

当以实时模式输出响应时，存在响应被输出至仅能够输出语音的装置的可能性。当响应被输出至仅能够输出语音的装置时，为了使用户容易地收听响应结果，控制设备100降低输出的内容的音量，将输出的内容设置为背景音，然后可以使用语音输出叠加在背景音上的响应。

另一方面，书签模式是这样的模式：为了尽可能避免干扰用户观看内容而将响应保持在缓冲器中，并且根据用户的情况或者内容的情况来适当地改变输出时机。书签模式是这样的模式：不像上面的情况那样立即输出响应，而是当满足预定条件时输出响应。

当以书签模式输出响应时，控制设备100将响应发送至说出问题的用户的装置。可以根据用户使用的装置的类型来控制响应的信息量。用户使用的装置与响应的信息量之间的关系将在下面描述。

控制设备100可以将响应立即发送至用户的装置。当响应被立即发送至用户的装置时，目的地装置可以是事先登记的装置或者可以是用户经常使用的装置，其根据用户的使用历史来确定。作为响应被立即发送至用户的装置的情况，例如，假设下述情况：在用户观看内容时，该用户操纵与通过输出内容的装置不同的第二装置(平板电脑或PC)。在用户观看内容时，响应被显示在第二装置上。因此，当用户观看在优选时机处显示对问题的响应的第二装置时，可以检查对问题的响应。

可替代地，在响应没有被立即发送至用户的装置的情况下，控制设备100可以在用户观看第二装置时识别脸部，并且基于脸部识别结果将响应显示在第二装置上。

此外，控制设备100可以将响应发送至用户手中持有的装置。当响应被发送至用户手中持有的装置时，控制设备100将响应保持在缓冲器中，检测用户持有装置的时机和用户操纵装置的时机，并且将信息从缓冲器发送至装置。另外，当响应被发送至用户持有的装置时，控制设备100可以检测内容结束的时机并且在该时机处发送响应。

当存在观看内容的多个用户时，控制设备100可以将响应返回给所有的用户。此外，即使当在显示内容的装置的前方不存在多个用户时，控制设备100仍可以将响应发送至所指定的用户的装置。即，即使当作为返回响应的目的地的用户(与正在观看的用户不同的用户)不在输出内容的装置的前方时，控制设备100仍可以将响应返回给话语中解释的用户或者事先设置的用户。例如，当用户说出“将响应返回给爸爸”时，控制设备100可以将返回响应的目的地决定为用户的父亲使用的装置。

当用户被认为专注于内容时，控制设备100可以根据内容的情况输出响应，而不是立即返回响应。作为内容的情况的示例，控制设备100可以例如在内容到达预定时机(例如，当内容转换成广告时，在节目结束之后，以及在内容为音乐的情况下再现结束之后)时将响应返回给用户使用的装置。当在内容的预定时机处返回响应时，控制设备100可以将响应叠加在用户观看内容的装置上，或者可以将响应发送至与用户使用的并且用户观看内容的装置不同的装置。

控制设备100可以根据内容的情况基于响应的输出时机的设置来发送响应。响应的输出时机的设置可以包括事先登记的默认设置以及由用户登记的用户设置。表3示出了默认设置以及针对事先确定的内容的每种体裁设置的输出时机的示例。用户设置是用户可以针对内容的每种体裁登记输出时机的设置。

[表3]

体裁	输出时机
		电影	结束时间
电视剧	广告期间
		音乐会	结束时间
音乐	结束时间
		综艺	立即
WEB浏览器	立即

(表3：响应输出时机的默认设置的示例)

当在图8的步骤S108中控制了响应的输出时机时，控制设备100然后根据个性化来确定兴趣水平(步骤S109)。当输出控制单元180查询知识库系统单元160时，执行步骤S109的根据个性化来确定兴趣水平。

此处，将详细描述控制设备100根据个性化来确定兴趣水平的处理。控制设备100可以为每个用户定制响应的详情并且输出结果。为了为每个用户定制响应的详情，控制设备100参考存储在知识库系统单元160中的用户的个人信息(用户简档)。表4示出了存储在知识库系统单元160中的用户简档的示例。

[表4]

ID	123456789
		姓	XX
名	YY
		昵称	XY
性别	男
		生日	1月1日
血型	A
		出生地	神奈川县横滨市
年龄	30
		最喜欢的运动	网球、滑雪
最喜欢的艺人	AA
		家人	到另一个人的ID的链接
朋友	到另一个人的ID的链接
		同事	到另一个人的ID的链接
行为日志	2/10东京塔
		爱好	网球、滑雪
特殊技能	烹饪
		最喜欢的地方	涩谷

(表4：用户简档的示例)

为了为每个用户定制响应的详情，控制设备100确定用户的兴趣水平。在本实施方式中，用户的兴趣水平分为三个水平。高水平对应于个人兴趣，中等水平对应于特征提取和共现关系，低水平没有对应关系。控制设备100跟踪兴趣图表结构以确定用户的兴趣水平。除了知识库系统单元160中保持的用户简档(表4)以外，兴趣图表结构还生成表5中所示的特征相似性简档以及表6中所示的相关联的用户简档。

[表5]

(表5：特征相似性简档的示例)

[表6]

用户名	除了AA以外还喜欢的艺人
		A	EE、FF
B	GG
		C	HH、II
D	EE、JJ

(表6：相关联的用户简档的示例)

图15是示出可以根据知识库系统单元160中保持的用户简档、特征相似性简档和相关联的用户简档而生成的兴趣图表结构的示例的说明图。基于图15中示出的兴趣图表结构，个人兴趣可以被确定为“AA”，特征提取可以被确定为“BB”，并且共现关系可以被确定为“EE”。然后，控制设备100可以基于与响应的详情的匹配来确定兴趣水平。

控制设备100可以根据所确定的用户的兴趣水平来改变响应的详情的摘要量。例如，控制设备100改变颜色、形状或者图标的数目，或者在使用声音来表达时改变声音的类型或音调，从而可以向用户呈现高兴趣水平或低兴趣水平。表7是示出根据兴趣水平来输出显示的示例的说明图。

[表7]

(表7：根据兴趣水平来输出显示的示例)

当用户说出“这个人是谁？”时，如果内容中有多个候选，并且用户未指定目标，则控制设备100可以通过设置优先级来执行确定。控制设备100基于例如表8中所示的处理规则来跟踪兴趣图表，因此可以生成表9中所示的提取优先级的列表。

[表8]

优先级
	个人兴趣
特征值提取
	共现关系

(表8：处理规则的示例)

[表9]

(表9：提取优先级的列表的示例)

例如，当用户观看的内容为×××电视剧时，控制设备100可以按照“EE”、“GG”和“UU”的顺序来决定优先级，执行与内容中的候选的匹配，并且设置候选的优先级。

控制设备100保持三元组谓语的优先级，并且可以按照谓语的层次顺序来指定实体(主体)。例如，当用户观看的内容为电视剧时，可以按照主角、导演、制片人和配角的顺序来确定谓语。此外，控制设备100例如从SNS或EPG获取WEB信息，假设较高频率的实体指示较高的关注度，则可以按照频率顺序来指定实体。

当在图8的步骤S109中根据个性化确定了兴趣水平时，控制设备100然后根据输出响应的装置来执行对输出的优化(步骤S110)。步骤S110的对输出的优化由输出控制单元180执行。

装置简档被保持在知识库系统单元160中，在装置简档中根据由用户持有的装置是否包括显示器或者根据显示区域的大小来描述响应方法。装置管理单元190从知识库系统单元160中获取装置简档。然后，输出控制单元180基于由装置管理单元190从知识库系统单元160获取的装置简档来执行对输出的优化。表10是示出了装置简档的示例的表。输出控制单元180可以基于表10中示出的装置简档根据输出目的地装置的特征来执行对响应的输出的优化。

[表10]

(表10：装置简档的示例)

以上参照图8描述了根据本公开内容的实施方式的控制设备100的操作示例。根据本公开内容的实施方式的控制设备100执行图8中示出的一系列操作，生成对来自用户的话语的响应，并且可以将所生成的响应以最优形式输出。

[1.4.使用情况示例]

接着，将描述使用根据本公开内容的实施方式的控制设备100的使用情况示例。

(1)将产生话语的人的信息反馈给用户

图16是示出使用根据本公开内容的实施方式的控制设备100的使用情况示例的说明图。图16中示出的使用情况示例是如下示例：使用被设置为输入单元101的照相机来拍摄产生话语的用户的脸部的图像，并且被设置为输出单元102的显示器将脸部叠加在所输出的内容上。图16中示出的使用情况是如下情况：用户A在观看通过显示器输出的内容时说出“这是哪里？”。在这种情况下，控制设备100检测用户A的位置，使用照相机拍摄用户A的图像，并且将用户A的脸部叠加在通过显示器输出的内容上。

此外，在图16中示出的使用情况中，脸部图像可以被叠加在产生了话语的用户的一侧。即，当显示器左方的用户A说出“这是哪里？”时，控制设备100可以将用户A的脸部图像显示在显示器的左方的区域上。

图17是示出使用根据本公开内容的实施方式的控制设备100的使用情况示例的说明图。图17中示出的使用情况示例是如下示例：与产生话语的用户对应的显示被叠加在通过输出单元102输出的内容上。图17中示出的使用情况是如下情况：用户A在观看通过输出单元102输出的内容时说出“这是哪里？”。在这种情况下，控制设备100检测产生话语的用户A，并且将与用户A对应的图标叠加在通过输出单元102输出的内容上。除了图标以外，控制设备100还可以将与用户A对应的颜色、形状或头像叠加在通过输出单元102输出的内容上。

此外，在图17中示出的使用情况中，图标、头像等可以被叠加在产生了话语的用户的一侧。即，当显示器左方的用户A说出“这是哪里？”时，控制设备100可以将与用户A对应的图标显示在显示器的左方的区域上。

图18是示出使用根据本公开内容的实施方式的控制设备100的使用情况示例的说明图。图18中示出的使用情况示例是如下示例：语音响应被返回给产生话语的用户。图18中示出的使用情况是如下情况：用户A在观看通过输出单元102输出的内容时说出“这是哪里？”。在这种情况下，控制设备100检测产生了话语的用户A，并且提供语音响应“用户A，这是×××。”

(2)说话人被指定并且信息被叠加在内容上

图19是示出使用根据本公开内容的实施方式的控制设备100的使用情况示例的说明图。图19中示出的使用情况示例是如下示例：产生了话语的说话人被指定，并且对话语的响应被叠加在内容上。

控制设备100可以将对话语的响应显示在总是固定的默认位置处，并且可以通过根据说话人的位置而动态地改变显示位置来显示对话语的响应。此外，控制设备100分析内容的详情，并且可以将对话语的响应显示在使得该响应不干涉内容的位置处。此外，当输出对话语的语音响应时，控制设备100可以降低所输出的内容的音量。另外，当输出对话语的响应时，控制设备100可以在检测到话语时将内容暂停。

关于在用户观看内容时将信息叠加在内容上时的触发，控制设备100可以使用紧接着话语之后的时间、广告期间以及节目或音乐结束之后的时间。

(3)说话人被指定并且信息被发送至说话人的另一装置

图20是示出使用根据本公开内容的实施方式的控制设备100的使用情况示例的说明图。图20中示出的使用情况示例是如下示例：产生话语的说话人被指定，并且对话语的响应被发送至由说话人持有的另一装置。

当说话人被指定并且信息被发送至说话人的另一装置时，控制设备100可以将信息发送至事先确定的装置、说话人手中持有的装置或者由说话人动态指定的装置。当信息被发送至说话人的另一装置时，控制设备100可以另外地向另一装置(例如，用户观看内容的装置)通知响应被发送至该装置的事实。

(4)说话人执行关于内容中的多个候选的指定

图21是示出使用根据本公开内容的实施方式的控制设备100的使用情况示例的说明图。图21中示出的使用情况示例是说话人执行关于内容中的多个候选的指定的示例，并且是说话人产生话语并且同时指定候选的示例。

当说话人在话语句子中明确执行指定例如“左方这个人是谁？”并且使用手势或者通过触摸屏来指定候选时，控制设备100可以针对由说话人指定的候选生成响应，并且输出所生成的响应。

图22是示出使用根据本公开内容的实施方式的控制设备100的使用情况示例的说明图。图22中示出的使用情况示例是说话人执行关于内容中的多个候选的指定的示例，并且是当说话人在其产生话语之后指定候选时的示例。

如果内容中包括多个人，并且说话人说出“这个人是谁？”，但是没有使用另外的手势来明确指定候选，例如如图22所示，则控制设备100反过来问说话人该说话人指的是谁。然后，当说话人通过说出“A”或者“左方”来执行指定、通过触摸屏幕来执行直接指定或者使用手势如手指或视线的移动来执行间接指定时，控制设备100基于指定来生成响应，并且可以输出所生成的响应。

图23是示出使用根据本公开内容的实施方式的控制设备100的使用情况示例的说明图。图23中示出的使用情况示例是说话人执行关于内容中的多个候选的指定的示例，并且是从说话人产生话语的时刻起的内容的屏幕截图被保持在控制设备100中然后说话人指定候选的示例。

如果内容中包括多个人，并且说话人说出“这个人是谁？”，但是没有使用另外的手势来明确指定候选，例如如图23所示，则控制设备100在从说话人产生话语的时刻起保持内容的屏幕截图，然后将屏幕截图呈现给说话人的装置，并且可以允许说话人指定所指示的人。另外，当由说话人持有的装置不具有显示器时，控制设备100输出语音如“请看具有屏幕的装置”，并且提示说话人使用具有显示器的装置。

(5)内容中包括多个候选并且控制设备执行确定的情况。

图24是示出使用根据本公开内容的实施方式的控制设备100的使用情况示例的说明图。图24中示出的使用情况示例是如下示例：从用户产生话语的时刻起的内容中存在多个候选，并且控制设备100确定优先级，并且输出响应。

如果内容中包括多个人，并且说话人说出“这个人是谁？”，但是没有使用另外的手势来明确指定候选，例如如图24所示，则控制设备100可以使用优先级来输出可能的候选的响应。在如图24所示的示例中，当两个人出现在内容中并且说话人没有明确指定候选时，控制设备100输出关于两个人的信息作为响应。

在控制设备100输出关于出现在内容中的两个人的信息作为响应之后，当用户产生用于指定的话语，或者通过触摸屏幕执行直接指定，或者使用手势如手指或视线的移动来执行间接指定时，控制设备100基于该指定再次生成响应，并且可以输出所生成的响应。

(6)当存在观看内容的多个用户时

当存在观看内容的多个用户时，控制设备100可以指定说话人，并且然后将响应输出给说话人，或者可以在没有指定说话人的情况下将响应输出给所有的用户。没有指定说话人的情况包括控制设备100被设置在不指定说话人的模式下的情况以及控制设备100不能够指定说话人的情况。

另外，当存在观看内容的多个用户时，控制设备100可以指定说话人，并且根据话语的详情来改变发送目的地。当用户A的话语的详情中包括发送目的地例如，话语为“发送给用户B”时，控制设备100可以将响应的发送目的地从用户A改变到用户B

(7)响应的信息量

当响应被输出时，控制设备100可以总是以相同的信息量输出响应，或者基于产生话语的用户的兴趣来改变信息量。当基于产生话语的用户的兴趣来改变信息量时，控制设备100可以显示指示信息量的程度的颜色或符号，并且改变声音的类型或音调。

(8)输出补充信息

当响应被输出时，控制设备100可以另外地输出补充信息。补充信息包括与用户相关联的信息以及扩展知识。例如，当从用户简档得知艺人的年龄与用户的母亲的年龄相同时，控制设备100可以输出信息如“该艺人和您的母亲年龄相同”作为补充信息。

<2.硬件配置示例>

接着，将参照图25来描述根据本公开内容的实施方式的控制设备100的硬件配置。图25是示出根据本公开内容的实施方式的控制设备100的硬件配置示例的框图。上述算法中的每一种可以通过使用例如图25中示出的信息处理设备的硬件配置来执行。即，可以通过使用计算机程序控制图中25示出的硬件来实现每一种算法的处理。

注意，图25中示出的这种硬件的模式是任意的，并且可以是例如个人计算机、移动信息终端如移动电话、PHS或PDA、游戏机、接触式或非接触式IC芯片、接触式或非接触式IC卡、扬声器、电视机、监视器、可穿戴式装置或者各种类型的信息电器。此外，PHS是个人手持式电话系统的缩写。另外，PDA是个人数字助理的缩写。

如图25所示，这种硬件主要包括CPU 902、ROM 904、RAM 906、主机总线908和桥910。此外，该硬件包括外部总线912、接口914、输入单元916、输出单元918、存储单元920、驱动器922、连接端口924和通信单元926。此外，CPU是中央处理单元的缩写。此外，ROM是只读存储器的缩写。此外，RAM是随机存取存储器的缩写。

CPU 902充当算术处理单元或控制单元，并且基于记录在ROM 904、RAM 906、存储单元920或可移除记录介质928上的各种程序来控制每个结构性元件的整体操作或一部分操作。ROM 904是用于存储待由CPU 902读取的程序或者在算术运算中使用的数据等的装置。RAM 906临时或永久地存储例如待由CPU 902读取的程序或者在程序的执行中适当地改变的各种参数等。

这些结构性元件由例如能够执行高速数据传输的主机总线908彼此连接。就其本身而言，例如，主机总线908通过桥910连接至数据传输速度相对低的外部总线912。此外，输入单元916是例如鼠标、键盘、触摸面板、按钮、开关或控制杆。另外，输入单元916可以是可以通过使用红外线或其它无线电波来发送控制信号的遥控器。

输出单元918是例如可以在视觉或听觉上将所获取的信息通知给用户的显示装置(如CRT、LCD、PDP或ELD)、音频输出装置(如扬声器或耳机)、打印机、移动电话或传真机。CRT是阴极射线管的缩写。另外，LCD为液晶显示器的缩写。PDP是等离子显示面板的缩写。此外，ELD是电致发光显示器的缩写。

存储单元920是用于存储各种数据的装置。存储单元920是例如磁存储装置如硬盘驱动器(HDD)、半导体存储装置、光学存储装置或者磁光存储装置。HDD是硬盘驱动器的缩写。

驱动器922是读取记录在可移除记录介质928上的信息的装置，例如磁盘、光盘、磁光盘或半导体存储器，或者是将信息写入可移除记录介质928的装置。可移除记录介质928是例如DVD介质、蓝光介质、HD-DVD介质、各种类型的半导体存储介质等。当然，可移除记录介质928可以是例如电子装置或者安装有非接触式IC芯片的IC卡。IC是集成电路的缩写。

连接端口924是例如USB端口、IEEE1394端口、SCSI、RS-232C端口或者用于连接外部连接装置930(如光学音频终端)的端口。外部连接装置930是例如打印机、移动音乐播放器、数字照相机、数字摄像机或IC记录器。USB是通用串行总线的缩写。另外，SCSI是小型计算机系统接口的缩写。

通信单元926是要连接至网络932的通信装置，并且是例如用于有线或无线LAN、蓝牙(注册商标)或WUSB、光学通信路由器、ADSL路由器的通信卡，或者用于接触式或非接触式通信的装置。此外，连接至通信单元926的网络932由有线连接网络或者无线连接网络配置而成，并且是例如因特网、家用LAN、红外通信、可见光通信、广播或卫星通信。LAN是局域网的缩写。此外，WUSB是无线USB的缩写。此外，ADSL是非对称数字用户线的缩写。

<3.结论>

如上所示，根据本公开内容的实施方式，提供了一种控制设备100，该控制设备100能够检测来自观看内容的用户的话语，分析话语的详情，并且以适于用户的形式输出对话语的响应。

可以不必以时间顺序——即按照序列图或流程图中描述的顺序——来执行由本说明书中的每个装置执行的处理中的各个步骤。例如，由每个装置执行的处理中的各个步骤可以按照与流程图中描述的顺序不同的顺序来处理，并且可以被并行处理。

此外，可以生成计算机程序，该计算机程序使并入每个装置中的硬件装置如CPU、ROM和RAM展现等效于上述装置的配置的功能。此外，还可以提供存储该计算机程序的存储介质。此外，功能框图中示出的各功能块可以由硬件装置或硬件电路构成，使得可以通过硬件装置或硬件电路来实现一系列的处理。

此外，在上面的描述中使用的功能框图中示出的一些或全部功能块可以由经由网络如因特网连接的服务器装置来实现。此外，在以上描述中使用的功能框图中示出的功能块的配置可以被实现为单个装置或者可以被实现为多个装置彼此协作的系统。多个装置彼此协作的系统可以包括例如多个服务器装置的组合以及服务器装置与终端装置的组合。

以上参照附图描述了本公开内容的一个或更多个优选实施方式，然而本公开内容不限于上述实施方式。本领域技术人员可以在所附权利要求的范围内发现各种替换和修改，并且应当理解，这些替换和修改本质上落入本公开内容的技术范围内。

此外，本技术还可以如以下进行配置。

(1)一种控制设备，包括：

控制单元，所述控制单元被配置成执行控制，使得关于输出至至少一个用户的内容生成对来自所述用户的询问的响应的详情和所述响应，决定所述响应被输出至的目标以及输出所述响应的时机。

(2)根据(1)所述的控制设备，

其中，作为输出所述响应的时机，所述控制单元决定是根据来自所述用户的询问来输出所述响应，还是不管来自所述用户的询问而等待直到满足预定条件才输出所述响应。

(3)根据(2)所述的控制设备，

其中，所述控制单元不管来自所述用户的询问而等待直到内容的状况满足预定条件才输出所述响应。

(4)根据(2)所述的控制设备，

其中，当所述响应被提供给所述用户时，所述控制单元根据所述内容的体裁来决定输出所述响应的时机。

(5)根据(2)所述的控制设备，

其中，当所述控制单元不管来自所述用户的询问而等待输出直到满足所述预定条件才所述响应时，所述控制单元将响应输出至与所述内容被输出至的设备不同的设备。

(6)根据(5)所述的控制设备，

其中，当所述控制单元不管来自所述用户的询问而等待输出直到满足所述预定条件才所述响应时，所述控制单元输出下述事实：存在对与所述内容被输出至的设备不同的设备的响应。

(7)根据(2)至(6)中任一项所述的控制设备，

其中，所述预定条件包括到达所述内容的预定时机的条件。

(8)根据(7)所述的控制设备，

其中，所述预定时机是所述内容结束的时机。

(9)根据(7)所述的控制设备，

其中，所述预定时机是所述内容转换到广告的时机。

(10)根据(2)至(6)中任一项所述的控制设备，

其中，所述预定条件包括到达预定时间的条件。

(11)根据(1)至(11)中任一项所述的控制设备，

其中，所述控制单元根据进行了所述询问的用户的兴趣水平来决定所述响应的所述详情。

(12)根据(11)所述的控制设备，

其中，所述控制单元基于所述用户的个人简档来决定进行了所述询问的用户的兴趣水平。

(13)根据(11)所述的控制设备，

其中，所述控制单元将与所述用户的兴趣水平对应的显示连同所述响应一起输出。

(14)根据(1)至(13)中任一项所述的控制设备，

其中，所述控制单元将所述响应输出至所述用户的手中持有的设备。

(15)根据(14)所述的控制设备，

其中，当所述内容的输出结束时，所述控制单元将所述响应输出至所述用户的手中持有的设备。

(16)根据(1)至(15)中任一项所述的控制设备，

其中，当检测到观看所述内容的多个用户时，所述控制单元检测进行了所述询问的用户，并且将所述响应输出至所检测到的用户。

(17)根据(16)所述的控制设备，

其中，所述控制单元通过检测进行了所述询问的方向来检测进行了所述询问的用户，并且将所述响应输出至所检测到的用户。

(18)根据(1)至(17)中任一项所述的控制设备，

其中，当检测到观看所述内容的多个用户时，所述控制单元将所述响应输出至所有的用户。

(19)一种控制方法，包括：

由计算机执行控制，使得关于输出至至少一个用户的内容生成对来自所述用户的询问的响应的详情，决定所述响应被输出至的目标以及输出所述响应的时机。

(20)一种计算机程序，所述计算机程序使计算机执行控制，使得关于输出至至少一个用户的内容生成对来自所述用户的询问的响应的详情，决定所述响应被输出至的目标以及输出所述响应的时机。

附图标记列表

100 控制设备

101 输入单元

102 输出单元

103 通信单元

104 控制单元

110 话语检测单元

111 信号处理单元

112 话语接收处理单元

113 语音识别单元

120 手势检测单元

130 内容分析单元

140 说话人识别单元

141 波束形成处理单元

142 说话人识别处理单元

150 话语分析单元

151 语言分析单元

152 语义分析单元

160 知识库系统单元

161 知识数据库

162 WEB信息保持单元

170 响应生成单元

180 输出控制单元

181 触发确定单元

182 个性化输出单元

190 装置管理单元

191 传感器信息获取单元

192 输出装置选择单元

权利要求书(按照条约第19条的修改)

1.(修改)一种信息处理设备，包括：

输入单元，所述输入单元被配置成接收包括不明确表达的问题的输入；

发送单元，所述发送单元被配置成发送关于所述问题的输入信息；

接收单元，所述接收单元被配置成在基于包括所述不明确表达的问题的输入时间处的状况信息来估计所述问题的语义详情并且生成响应信息之后接收所述响应信息；以及

输出单元，所述输出单元被配置成输出所述响应信息。

2.(修改)根据权利要求1所述的信息处理设备，

其中，所述不明确表达是包括指示代词的表达。

3.(修改)根据权利要求1所述的信息处理设备，

其中，所述输出单元实时地输出所述响应信息。

4.(修改)根据权利要求1所述的信息处理设备，

其中，当满足预定条件时，所述输出单元输出所述响应信息。

5.(修改)根据权利要求1所述的信息处理设备，

其中，所述状况信息包括：包括所述不明确表达的问题的提问者的说明。

6.(修改)根据权利要求5所述的信息处理设备，

其中，所述状况信息包括基于所述提问者的说明的提问者的偏好或属性。

7.(修改)根据权利要求6所述的信息处理设备，

其中，所述输出单元基于所述提问者的所述偏好或所述属性来改变所述响应信息的输出形式。

8.(修改)根据权利要求1所述的信息处理设备，

其中，在所述输入时间处从麦克风、照相机和传感器中的至少任何一者中获得所述状况信息。

9.(修改)根据权利要求1所述的信息处理设备，

其中，当不能够指定所述不明确表达的语义详情时，所述接收单元接收用于澄清所述不明确表达的所述语义详情的问题作为所述响应信息。

10.(修改)根据权利要求1所述的信息处理设备，

其中，当使用语音输出所述响应信息时，所述输出单元停止输出被分开输出的内容的语音或者降低音量。

11.(修改)根据权利要求1所述的信息处理设备，

其中，所述输出单元将所述响应信息输出至另一装置。

12.(修改)根据权利要求11所述的信息处理设备，

其中，当所述响应信息被输出至所述另一装置时，所述输出单元根据响应信息被输出至的所述另一装置来改变输出形式。

13.(修改)根据权利要求11所述的信息处理设备，

其中，当所述响应信息被输出至所述另一装置时，输出单元根据所述响应信息被输出至的所述另一装置来改变输出量。

14.(修改)根据权利要求1所述的信息处理设备，

其中，当所述响应信息中包括多个候选时，所述接收单元接收所述多个候选，并且所述输出单元输出所述多个候选。

15.(修改)根据权利要求14所述的信息处理设备，

其中，所述接收单元接收所述响应信息以及所述候选中的每个候选的分数，并且所述输出单元基于所述分数输出所述多个候选。

16.(修改)一种信息处理设备，包括：

接收单元，所述接收单元被配置成接收从终端输入的关于包括不明确表达的问题的信息；

生成单元，所述生成单元被配置成基于输入时的状况信息来估计包括所述不明确表达的问题的语义详情并且生成响应信息；以及

发送单元，所述发送单元被配置成发送所述响应信息。

17.(修改)根据权利要求16所述的信息处理设备，

其中，所述不明确表达是包括指示代词的表达。

18.(修改)一种信息处理方法，包括：

接收包括不明确表达的问题的输入；

发送关于所述问题的输入信息；

在基于包括所述不明确表达的问题的输入时间处的状况信息来估计所述问题的语义详情并且生成响应信息之后，接收所述响应信息；以及

输出所述响应信息。

19.(修改)一种信息处理方法，包括：

接收从终端输入的关于包括不明确表达的问题的信息；

基于输入时的状况信息来估计包括所述不明确表达的问题的语义详情并且生成响应信息；以及

发送所述响应信息。

20.(删除)

Claims

1.一种控制设备，包括：

控制单元，所述控制单元被配置成执行控制，使得关于输出至至少一个用户的内容生成对来自所述用户的询问的响应的详情，决定所述响应被输出至的目标以及输出所述响应的时机。

2.根据权利要求1所述的控制设备，

3.根据权利要求2所述的控制设备，

4.根据权利要求2所述的控制设备，

5.根据权利要求2所述的控制设备，

其中，当所述控制单元不管来自所述用户的询问而等待直到满足所述预定条件才输出所述响应时，所述控制单元将响应输出至与所述内容被输出至的设备不同的设备。

6.根据权利要求5所述的控制设备，

其中，当所述控制单元不管来自所述用户的询问而等待直到满足所述预定条件才输出所述响应时，所述控制单元输出下述事实：存在对与所述内容被输出至的设备不同的设备的响应。

7.根据权利要求2所述的控制设备，

其中，所述预定条件包括到达所述内容的预定时机的条件。

8.根据权利要求7所述的控制设备，

其中，所述预定时机是所述内容结束的时机。

9.根据权利要求7所述的控制设备，

其中，所述预定时机是所述内容转换到广告的时机。

10.根据权利要求2所述的控制设备，

其中，所述预定条件包括到达预定时间的条件。

11.根据权利要求1所述的控制设备，

12.根据权利要求11所述的控制设备，

13.根据权利要求11所述的控制设备，

14.根据权利要求1所述的控制设备，

15.根据权利要求14所述的控制设备，

16.根据权利要求1所述的控制设备，

17.根据权利要求12所述的控制设备，

18.根据权利要求1所述的控制设备，

19.一种控制方法，包括：

20.一种计算机程序，所述计算机程序使计算机执行控制，使得关于输出至至少一个用户的内容生成对来自所述用户的询问的响应的详情，决定所述响应被输出至的目标以及输出所述响应的时机。