CN108292314B

CN108292314B - 信息处理装置、信息处理方法和程序

Info

Publication number: CN108292314B
Application number: CN201680068463.9A
Authority: CN
Inventors: 长坂英夫
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-11-30
Filing date: 2016-09-28
Publication date: 2021-12-07
Anticipated expiration: 2036-09-28
Also published as: WO2017094212A1; US20180332357A1; JP6844545B2; CN108292314A; JPWO2017094212A1; US11388480B2

Abstract

根据本发明的信息处理装置包括接收单元、第一生成单元、收集单元以及第二生成单元。接收单元接收内容。第一生成单元分析所接收的内容并生成与内容相关的一条或多条分析信息。基于所生成的一条或多条分析信息，收集单元收集与内容相关的网络上的内容信息。第二生成单元基于一条或多条分析信息和/或所收集的内容信息生成话语句子。

Description

信息处理装置、信息处理方法和程序

技术领域

本技术涉及构成音频交互系统的信息处理装置、信息处理方法和程序。

背景技术

在专利文献1中描述的节目累积设备中，通过将接收的广播节目中发出的所有音频转变成文本而获得的数据被存储在存储介质中。在用户想要视听的节目的关键字被输入时，搜索存在该关键字的节目。在发现包括由用户输入的关键字的节目的情况下，包括关键字的一个句子等通过节目中发出的音频再现。结果，用户可以容易地搜索到想要的节目(专利文献1的说明书中的[0014]至[0018]段等)。

此外，专利文献1还描述了以下配置，其中在将广播节目中发出的所有音频转变成文本时，音频在被分类为“问题”或“回答”的同时被做成数据库。例如，在用户通过音频界面输入关键字时，选择该关键字的最佳响应关键字，并搜索包括响应关键字的节目。在发现包括响应关键字的节目的情况下，包括响应关键字的一个句子等通过节目中发出的音频再现。因此，用户可以基于与节目累积设备的伪会话来搜索想要的节目(专利文献1的说明书中的[0019]至[0023]段等)。

引用列表

专利文献

专利文献1：特开2004-362280号公报

发明内容

技术问题

例如，如在专利文献1中描述的基于伪会话的节目搜索的实现，使得用户能够有更多地乐趣来享受节目。预期将来会需要为观看内容的用户提供高品质的视听体验的技术。

考虑到如上所述的情况，本技术的目的是提供一种能够为观看内容的用户提供高品质视听体验的信息处理装置、信息处理方法和程序。

问题的解决方案

为了实现以上描述的目的，根据本技术的实施方式的信息处理装置包括接收单元、第一生成单元、收集单元以及第二生成单元。

接收单元接收内容。

第一生成单元分析所接收的内容并生成与该内容相关的一条或多条分析信息。

收集单元基于生成的一条或多条分析信息收集网络上的与该内容相关的内容信息。

第二生成单元基于一条或多条分析信息和收集的内容信息中的至少一个生成话语句子。

在这个信息处理装置中，网络上的内容信息是基于与该内容相关的一条或多条分析信息收集的。此外，话语句子(utterance sentence)是基于一条或多条分析信息或者内容信息生成的。因此，可以与视听该内容的用户就与该内容相关的各种类型的信息进行会话。结果，可以为用户提供高品质的视听体验。

该内容可以是节目内容。在这种情况下，第一生成单元可以通过分析包括在节目内容中的多个类型的信息中的每一个生成与该内容相关的一个或多个关键字。

因此，可以以高准确度收集关于节目内容的内容信息。此外，还可以与用户进行关于节目内容的内容的会话。

第二生成单元可以从生成的一个或多个关键字选择话语关键字并生成包括话语关键字和与话语关键字相关的相关关键字的话语句子。

因此，可以实现与节目内容相关的会话，并且因此，用户可以更有兴趣地视听节目内容。

第二生成单元可以基于收集的内容信息设置相关关键字。

因此，例如可以创建反映发布在网络上的评论等内容的话语句子，并且因此，用户可以在进行会话的同时更多地享受节目内容。

第二生成单元可以将与话语关键字共同出现的关键字设置为相关关键字。

因此，可以容易地生成话语句子。

生成单元能够获取在节目内容中包括的音频的内容。在这种情况下，第二生成单元可以基于包括话语关键字的音频的内容设置相关关键字。

因此，可以生成追随节目内容的内容的话语句子。

信息处理装置可以进一步包括检测单元以及判断单元，该检测单元能够检测节目内容中的场景切换，该判断单元基于检测的场景切换判断生成的一个或多个关键字中的每一个的有效性。在这种情况下，第二生成单元可以基于由判断单元判断为有效的关键字生成话语句子。

因此，可以根据场景切换以高准确度收集内容信息。此外，可以生成与场景切换相对应的话语句子。

信息处理装置可以进一步包括获取单元，该获取单元获取视听该内容的用户的偏好信息。在这种情况下，第二生成单元在生成的一个或多个关键字包括与偏好信息相关的关键字的情况下，可以选择该关键字作为话语关键字。

因此，与用户偏好相关的会话变成可能。

信息处理装置可以进一步包括设定单元，该设定单元设定说出生成的话语句子时的话语定时。

因此，可以在用户视听该内容的合适的时间开始会话。

设定单元可以将场景切换的时定时设置为话语定时。

因此，可以在不阻碍该内容的视听的情况下在场景切换的定时开始会话。

第二生成单元在生成的一个或多个关键字包括与偏好信息相关的关键字的情况下可以选择该关键字作为话语关键字。在这种情况下，设定单元可以将包括与偏好信息相关的关键字的话语句子被生成时的定时设定为话语定时。

在生成满足用户的偏好信息的关键字情况下，立即说出包括该关键字的话语句子。因此，可以在偏好的内容出现的定时，开始与用户偏好的内容相关的会话。

收集单元可以收集与生成的一个或多个关键字相关的并且利用通信服务已发布的评论。在这种情况下，设定单元可以基于收集的与由第二生成单元选择的话语关键字相关的发布的评论的数量来设置话语定时。

因此，例如可以在以上描述的服务中与话语关键字相关的内容活跃的定时开始与用户的会话。

获取单元可以基于话语句子的回答获取偏好信息。

因此，可以例如高准确度获取有关视听该内容的用户的偏好的信息。

该内容可以是由图像拾取装置拍摄的拍摄内容。在这种情况下，第一生成单元可以通过分析拍摄内容生成与包括在拍摄内容中的一个或多个被摄体相关的一个或多个关键字。此外，第二生成单元可以基于生成的一个或多个关键字和基于一个或多个关键字收集的内容信息中的至少一方生成话语句子。

因此，可以进行关于拍摄内容中出现的被摄体的会话。

可以分析视听该内容的用户的包括对话语句子的回答的话语内容，以判断用户感兴趣的对象并提供与感兴趣的对象相关的信息。

因此，用户的兴趣变得更深，并且节目内容的视听变得更有乐趣。

与感兴趣的对象相关的信息可以包括使得感兴趣的对象能够被购买的信息、使得用户能够遇到感兴趣的对象的信息、使得用户能够到达感兴趣的对象的信息以及使得用户能够学习感兴趣的对象的信息。

因此，用户变得更有兴趣，并且节目内容的视听变得更有乐趣。

根据本技术的实施方式的信息处理方法是由计算机执行的信息处理方法，包括接收内容。

分析所接收的内容并生成与该内容相关的一条或多条分析信息。

基于生成的一条或多条分析信息收集网络上与该内容相关的内容信息。

基于一条或多条分析信息和收集的内容信息中的至少一个生成话语句子。

根据本技术的实施方式的程序是使得计算机执行以下步骤的程序。

接收内容的步骤。

分析所接收的内容并生成与内容相关的一条或多条分析信息的步骤。

基于生成的一条或多条分析信息收集网络上与内容相关的内容信息的步骤。

基于一条或多条分析信息和收集的内容信息中的至少一个生成话语句子的步骤。

发明的有益效果

如上所述，根据本技术，可以为视听内容的用户提供高品质的视听体验。应注意，本文中描述的效果不一定是限制性的，并且可以获得在本公开中描述的任何效果。

附图说明

[图1]示出根据第一实施方式的音频交互系统的配置实例的示意图。

[图2]示出信息收集服务器、音频交互装置和SNS服务器的功能配置实例的框图。

[图3]示出信息收集服务器的关键字提取单元的操作实例的流程图。

[图4]示出分析关键字和得分的存储处理的实例的流程图。

[图5]示出音频交互装置的话语句子生成单元的操作实例的流程图。

[图6]示出话语定时逻辑切换的操作实例的流程图。

[图7]说明每个逻辑中的话语定时的示意图。

[图8]示出包括接收单元、第一生成单元、收集单元和第二生成单元的信息处理装置的操作实例的流程图。

[图9]示出根据第三实施方式的信息收集服务器、音频交互装置和SNS服务器的功能配置实例的框图。

具体实施方式

在后文中，将参照附图，描述本技术的实施方式。

<第一实施方式>

(音频交互系统)

图1是示出根据本实施方式的音频交互系统的配置实例的示意图。音频交互系统100包括：信息收集服务器10、音频交互作装置30、SNS(社交网络服务，Social NetworkingService)服务器40以及SNS用户终端50。这些装置可经由网络1彼此通信。

通常，诸如互联网的WAN(广域网)用作网络1，但可以使用诸如内联网的LAN(局域网)代替。此外，构造网络1的协议不受限制。

例如，信息收集服务器10接收电视广播等的节目内容，分析节目内容，并生成一个或多个关键字(在下文中，称为分析关键字)。此外，与节目内容相关的内容信息是经由网络1收集的。生成的一个或多个分析关键字和所收集的内容信息被发送至音频交互装置30。

音频交互装置30是用于就与节目内容相关的各种类型的信息与视听节目内容的用户5进行会话(交互)的装置。音频交互装置30基于从信息收集服务器10发送的一个或多个分析关键字和内容信息中的至少一个生成话语句子。生成的话语句子经由扬声器等输出给用户5，并且开始与节目内容相关的会话。

音频交互装置30设置在视听节目内容的用户5的附近。此外，音频交互装置30可通信地连接至广播节目内容的电视设备60。连接是通过诸如蓝牙(注册商标)的近程无线通信或诸如WiFi的无线LAN通信实现的。

SNS服务器40提供允许不特定多数的服务用户经由网络1发表评论的通信服务。根据本技术的通信服务包括诸如推特(Twitter)(注册商标)的各种SNS。在下文中，将参照作为SNS的通信服务进行描述。

SNS用户终端50是由使用SNS的SNS用户使用的终端。例如，SNS用户使用SNS用户终端50获取SNS账户。SNS可以通过使用SNS账户登录使用。

信息收集服务器10、音频交互装置30、SNS服务器40以及SNS用户终端50由诸如PC(个人计算机)、智能电话和平板电脑终端的各种计算机组成。换言之，每个装置包括配置计算机所必需的硬件，诸如CPU、ROM、RAM以及HDD。

由各个装置执行的信息处理通过存储在ROM中的软件、HDD等与各个装置的硬件资源合作实现。具体地，根据本技术的信息处理方法由将存储在ROM等中的配置软件的程序加载到RAM中并对其进行执行的CPU实现。程序经由例如各种记录介质而安装在每个装置中。可替换地，程序可以经由互联网等安装在每个装置中。

图2是示出信息收集服务器10、音频交互装置30和SNS服务器40的功能配置实例的框图。在图2中示出的功能块中的每一个由执行预定程序的每个装置的CPU配置。应当注意的是，专用硬件可以根据需要用于实现各个功能块。

信息收集服务器10包括广播接收单元11、元数据提取单元12、CM区间检测单元13、节目分析单元14、关键字提取单元15、关键字信息分配单元16、节目相关评论获取单元17以及节目相关信息获取/分配单元18。

广播接收单元11接收例如从地面数字电视广播、CS数字广播、BS数字广播等的广播站分配的节目内容。例如，已在广播站中生成的与节目内容相关的元数据被附加至节目内容。广播接收单元11还能够从广播站接收电子节目指南(EPG)。

元数据提取单元12提取附加至节目内容的元数据。元数据包括例如节目内容的频道、名称(title)、演员表、广播时间以及广播内容的概要等。此外，作为元数据，可以附加节目内容从开始到结束的时间进度表，使得可以提取各个场景的切换、CM区间等的位置(时间)。

CM区间检测单元13检测节目内容中的CM区间的位置。CM区间基于例如主视频的数据和CM视频的数据之间的差异而检测。可替换地，CM区间可以基于视频或音乐的改变点、水印的存在或不存在等来检测。根据需要可以使用任何其他任意技术。应当注意的是，在CM区间的位置作为如上所述的元数据进行附加的情况下，使用元数据。

节目分析单元14分析包括在节目内容中的各种类型的信息。在本实施方式中，节目分析单元14包括字幕提取单元19、图像分析单元20和音频分析单元21。字幕提取单元19提取节目内容中的字幕。图像分析单元20检测在节目内容中包括的诸如演员(cast)和有特点的物体等的人/物体22。此外，图像分析单元20检测在节目内容中的各个场景中显示的反射式字幕(telop，屏上文字)23。检测人/物体和反射式字幕的方法不受限制，并且可以使用任意技术。

音频分析单元21检测由节目内容中的表演者等演出或演唱的乐曲24。此外，音频分析单元21检测作为每个场景的背景音乐(BGM)而广播的乐曲。乐曲检测可以使用任意技术执行。

除乐曲之外，音频分析单元21还可以获取由演员、讲述者等口头评论或叙述的内容，也就是音频内容。此外，可以指定进行评论等的演员。

关键字提取单元15基于从节目分析单元14输出的分析结果，提取一个或多个分析关键字作为与节目内容相关的一条或多条分析信息。关键字提取单元15还判断一个或多个分析关键字中的每一个的有效性。在本实施方式中，为每个分析关键字设置有效期限，并基于有效期限判断有效性。

有效期限通常是自分析关键字生成起预定时段之后的时间。换言之，在自分析关键字生成起已经过预定时段的情况下，该分析关键字被判断为无效的。可替换地，满足预定条件的时间，诸如至一CM区间的切换以及场景切换，可以被设置为有效期限。

应当注意的是，场景切换的检测由关键字提取单元15基于来自节目分析单元14的分析结果执行。例如，检测到的人/物体22、反射式字幕23等大幅地切换的定时(timing)被检测为场景切换。应当注意的是，任意技术均可用于场景检测，并且也可以使用由元数据提取单元12提取的元数据。

在场景切换由关键字提取单元15检测到的情况下，该场景切换的时刻被获取为话语定时信息。获取的话语定时信息被发送至音频交互装置30作为用于设置话语定时的信息。

此外，关键字提取单元15判断被判断为有效的分析关键字的重要程度。具体地，对每个分析关键字有多重要进行判断，并且根据判断的重要程度执行加权。通过该加权，将得分添加至每个分析关键字。

关键字信息分配单元16将由关键字提取单元15提取的并判断为有效的分析关键字分配至SNS服务器40。在那个时候，每个分析关键字的重要程度(得分)和有效期限也会被分配。

在SNS服务器40中，节目相关评论获取单元17获取基于被判断为有效的分析关键字而收集的节目相关评论。节目相关评论包括在根据本实施方式的内容信息中。关键字信息分配单元16和节目相关评论获取单元17实现根据本实施方式的收集单元。应当注意的是，节目相关评论获取单元17可以将获取的节目相关评论分配至音频交互装置30。

节目相关信息获取/分配单元18从网络1上其他服务65可提供的各种类型的信息中获取与节目内容相关的节目相关信息。这些条信息是基于被判断为有效的分析关键字获取的。并不限于此，节目相关信息可以视情况而基于元数据等获取。

包括在由其他服务65可提供的各种信息DB(数据库)66中的信息包括例如其他SNS的发布的评论、图像、运动图像、音乐以及其他各种类型的信息。由SNS服务器40获取的节目相关评论和从各种信息DB获取的节目相关信息对应于网络1上的内容信息。

在本实施方式中，节目分析单元14和关键字提取单元15起到第一生成单元的作用，该第一生成单元分析所接收的内容并生成与内容相关的一条或多条分析信息。在本实施方式中，关键字提取单元15还起到判断单元和检测单元的作用。

SNS服务器40

SNS服务器40包括评论提取单元41和发布的评论DB 42。评论提取单元41基于从信息收集服务器10分配的分析关键字从发布的评论DB 42提取节目相关评论。通常，使用分析关键字作为检索字进行搜索，并提取包括检索字的评论。应当注意的是，发布的评论DB 42存储经由SNS用户终端50发布的评论。

评论提取单元41将多个提取的节目相关评论发送至音频交互装置30。可替换地，节目相关评论可以从评论提取单元41发送至信息收集服务器10的节目相关评论获取单元17，并且节目相关评论可以从节目相关评论获取单元17被发送至音频交互装置30。

音频交互装置30包括评论分析单元31、话语句子生成单元32、会话分析单元33、会话/数据累积单元34以及选择频道等信息获取/控制单元35。

评论分析单元31分析从SNS服务器40发送的节目相关评论并提取用于生成话语句子的关键字。在本实施方式中，评论分析单元31提取与用于提取节目相关评论的分析关键字相关的关键字。例如，提取与分析关键字共同出现的关键字(共同出现的表述)。此外，可以提取节目相关评论中的与分析关键字一起的所评论的各个关键字。要被提取的提取关键字的实例在以下列出。

(分析关键字)“XX事件”→(提取关键字)“吓人的”“可怕的”

(分析关键字)“拉面”→(提取关键字)“美味的”“(店名)是受欢迎的”

(分析关键字)“(女演员名)”→(提取关键字)“美丽的”“可爱的”“最新发布的作品”

(分析关键字)“台风”→(提取关键字)“XX”“直接袭击XX地区”

(分析关键字)“地名”→(提取关键字)“地标”“XX音乐节开始”

(分析关键字)“(歌曲名称)”→(提取关键字)“(歌手名)”“排名”

可以对一个分析关键字提取多个提取关键字。在这种情况下，可以计算包括各个提取关键字的节目相关评论的发布数量，并且各个提取关键字可以基于帖子的数量进行评估。使得能够掌握评论最多的提取关键字。应当注意的是，提取关键字中可以包括多个字。

通过从节目相关评论提取关键字，对于使用SNS的不特定多数的服务用户来说变得可以提取节目内容的主观感想等作为提取关键字。因此，可以体验与视听节目内容的其他视听者的伪会话。

此外，评论分析单元31能够基于关于分析关键字收集的节目相关评论的发布数量来判断与分析关键字相关的兴奋程度。例如，在包括分析关键字的评论的数量大于预定阈值(例如，1000等)时，判定许多人对分析关键字感到兴奋。在这种情况下，兴奋程度是“高”。有关分析关键字的兴奋定时的信息，就是说，发布数量大于预定阈值的定时被输出至话语句子生成单元32作为话语定时信息。

话语句子生成单元32基于与节目内容相关的一个或多个分析关键字和包括由SNS服务器40获取的节目相关评论和从各种信息DB 66获取的节目相关信息的内容信息中的至少一个来生成用于与用户5开始会话的话语句子。在本实施方式中，话语句子生成单元32对应于第二生成单元。

在本实施方式中，话语关键字选自一个或多个分析关键字。然后，生成包括话语关键字和与话语关键字相关的相关关键字的话语句子。例如，由评论分析单元31提取的提取关键字被设置为相关关键字。可替换地，与话语关键字相关的关键字从包括其他SNS的发布评论、图像、运动图像、音乐、各种其他类型的信息等的节目相关信息中提取，并且该关键字被设置为相关关键字。

例如，诸如“汤是黑色的”和“附近”的相关关键字可以基于选择为话语关键字的“拉面”的图像、面条店的地图信息等提取。如“从童星成功的”和“伟大的女演员”的相关关键字可以根据作为话语关键字的“(女演员名)”基于该女演员的资料信息、得奖历史等而提取。

生成话语句子的方法不受限制。例如，话语句子可以通过将预先准备的固定短语附加至话语关键字而生成。例如，与话语关键字具有共同出现关系的固定短语选自多个固定短语，从而生成话语句子。可替换地，话语句子可以仅使用分析关键字生成，或者话语句子可以仅基于节目相关评论或节目相关信息而生成。

此外，话语句子生成单元32设置说出所生成的话语句子的定时。如后将描述的，在本实施方式中，准备3个逻辑用语设置话语定时，并且话语定时通过视情况而定地选择各个逻辑来设定。换言之，话语句子生成单元32还在本实施方式中起到设定单元的作用。

会话分析单元33分析与用户5进行的会话的内容。基于分析结果生成第二句之后的话语句子，并且继续会话。会话分析通过例如任意音频识别技术实现。

同样在本实施方式中，会话分析单元33基于会话的内容获取用户5的偏好信息。例如，在诸如女演员名、食物、地名和运动的各种关键字被生成为节目内容的分析关键字的情况下，诸如“你喜欢(分析关键字)吗？”的话语句子被生成并输出。在话语句子的回答是积极的情况下，分析关键字被存储为代表用户偏好内容的偏好关键字。偏好关键字对应于与偏好信息相关的关键字。因此，与用户5喜欢的人、物体等相关的偏好信息(偏好关键字)可以在视听节目内容时高准确度地实时取得。

此外，偏好信息可以基于存储在图2中示出的会话/数据累积单元34中的用户5的视听历史、运动历史、照片分析等获取。例如，过去视听的内容所共有的共同的明星、导演、原作者等被存储为偏好关键字。此外，多次参观的地方、许多拍摄照片中出现的建筑物等被存储为偏好关键字。除此以外，用户5偏好的人、物体等可以通过任意方法自动推定。

还可以生成关于基于历史信息推定的偏好信息的话语句子并通过会话确定用户的偏好。结果，可以处理偏好的改变等并获取当前偏好作为偏好信息。获取的偏好信息(偏好)被存储在会话/数据累积单元34中并且视情况而定地通过话语句子生成单元32读出。

在本实施方式中，会话分析单元33起到获取用户5的偏好信息的获取单元的作用。应当注意的是，用于基于历史信息等获取偏好信息的模块可以独立于会话分析单元33而设置。在这种情况下，获取单元通过该模块和会话分析单元33来实现。

选择频道等信息获取/控制单元35被连接至电视设备60并获取包括例如当前广播的节目内容的频道信息的各种类型的信息。此外，选择频道等信息获取/控制单元35能够控制电视设备的诸如频道切换等操作。因此，音频交互装置30可以被用作远程控制器。

[音频交互系统的操作]

将描述从与节目内容相关的分析关键字的生成到话语句子的生成/说话的操作实例。图3是示出信息收集服务器10的关键字提取单元15的操作实例的流程图。基于由选择频道等信息获取/控制单元35发送的频道信息，对当前视听的节目内容执行如下所述的处理。

反射式字幕分析(步骤100A)、字幕分析(步骤100B)、音频分析(步骤100C)和图像分析(步骤100D)由关键字提取单元15基于通过节目分析单元获得的分析结果来执行。这些步骤可以并行执行。

在反射式字幕分析中，文字串从节目中显示的反射式字幕提取，并且有意义的字词通过例如形态分析等(步骤101A)提取。判断每个提取字词的重要程度，并添加得分。例如，得分基于以下参数确定(步骤102A)，尽管过程不限于此。

字词(word，单词)内容...内容的含义越强，得分越高

字词的文字大小(像素)...尺寸越大，得分越高

字词的显示色...颜色越是显眼，诸如颜色为红色，得分越高

屏幕上的出现位置...越靠近突出位置(屏幕中央等)，得分越高

出现的频度...出现的次数越多，得分越高

应当注意的是，具体数值计算方法不受限制，并且数值可以视情况设置。

在字幕分析中，从节目中显示的字幕中检测出字词、其显示色等。首先，通过词法分析等提取词，并基于上述参数等将得分添加至每个词(步骤101B和102B)。

在音频分析中，检测播放的乐曲和由演员说出的评论的声波纹等(步骤101C)。将演唱的乐曲的歌词和评论被转换成文字，从而提取字词(步骤102C和103C)。基于提取的字词的出现频度等将得分添加至每个字词(步骤104C)。

此外，基于声波纹判断指定评论等的说话人(步骤105C)。基于话语时间等将得分添加至每个指定的说话人(步骤106C)。应当注意的是，在这种情况下，要被提取的分析关键字通常是说话人的名字。

此外，提取播放的乐曲(步骤107C)。基于乐曲的演奏是实际演奏还是CD声源的再现等(例如，BGM等的情况)将得分添加至每个乐曲(步骤108C)。应当注意的是，要被提取的分析关键字通常是乐曲的名称。

在图像分析中，检测人脸、物体、文字等(步骤101D)。基于包括诸如人脸和物体等对象物的图像(部分图像)的尺寸、显示位置、显示时间等，将得分添加至检测的人脸、物体等(步骤102D)。

在此要被提取的分析关键字通常是部分图像中的人、物体等的名字。然而，在可以对SNS服务器40中的多个评论等进行图像搜索等的情况下，部分图像可照原样用作一条或多条分析信息。

关键字提取单元15进一步对于通过从步骤100A到100D的相应分析处理所提取的分析关键字进行加权(步骤109)。首先，判断分析关键字由从步骤100A到100D的哪个分析处理提取，并且基于该判断结果添加得分。例如，进行加权使得得分的数值变为“图像分析>音频分析>反射式字幕分析>字幕分析”，当然，这并不限于此。

根据分析处理的类型添加的得分和每个处理中添加的得分的总和被计算为每个分析关键字的得分。

如上所述，在本实施方式中，通过分析作为包括在节目内容中的多个类型的信息的反射式字幕、字幕、音频和图像中的每一个，生成一个或多个分析关键字作为一条或多条分析信息。然后，基于要被分析的信息类型，判断每个分析关键字的重要程度，并且添加得分。结果，可以根据节目内容的内容而实时高准确度地收集节目相关评论等。

此外，如上所述，在每个分析处理中，视情况而定地使用参数，并且微细地进行加权。因此，可以以较高的精确度收集节目相关评论等。因此，可以根据节目内容的内容生成话语句子。

图4示出分析关键字和得分的存储处理的实例的流程图。对在图3的步骤109中所生成的每个分析关键字执行存储处理。首先，读出上次存储的所有的分析关键字(步骤201)。

基于读取的分析关键字判断此次生成的分析关键字是否是相继生成的(步骤202)具体地，在图3中示出的每个分析处理中，判断相同的分析关键字是否是相继生成的。应当注意的是，这通常对应于相同的分析关键字由相同的分析处理相继生成的情况。除此之外，在不同的分析处理中，相同的分析关键字作为一结果而相继生成可以被视为分析关键字相继生成的情况。

在分析关键字没有相继生成的情况下(在步骤202中的否)，存储分析关键字和得分(步骤203)。另外存储分析关键字的出现时间。出现时间对应于例如通过将执行内容分析处理的时间间隔(例如，每隔一秒)与关键字相继生成的次数相乘获得的数值。在这种情况下，对于分析关键字首次生成，存储0次(回)的间隔时间，即，存储0秒。

在相继(连续，consecutively)生成分析关键字的情况下(在步骤202中的是)，一次的间隔时间被添加至过去存储的出现时间，并计算直至当前生成的出现时间，即，自第一生成以来的经过时间。然后，根据经过时间，减少在图3的步骤109中计算的得分(步骤204)

正常，节目内容包括多个场景，并且场景在顺次切换的同时进行广播。期望的是在场景切换时提取对应于新的场景的分析关键字。另一方面，在场景切换之后生成的分析关键字很可能是对应于新场景的刷新关键字，即，更可能匹配该内容的内容。

基于这样的视点，减少在一定程度上连续生成的分析关键字的得分以便与持续时间的长度成比例地变小。此外，在分析关键字连续生成时检测到场景切换的情况下，即，在有效期限到期之前(步骤205)，额外减少得分。

除场景切换之外或代替场景切换，得分的额外减少可以根据对切换到CM的检测来执行。这是基于场景切换通常跨CM进行而考虑的。应当注意的是，具体得分减少值等可以视情况而定地设置。

下面，判断分析关键字的经过时间是否已超过有效期限，并且有效期限已到期的分析关键字是无效的(步骤206中的是到步骤207)。有效期限没有到期的分析关键字与相减后的得分和出现时间(经过时间)一起存储(步骤206中的否到步骤203)。以这种方法，通过根据经过时间对得分进行相减并根据有效期限判断分析关键字的有效性，可以根据场景切换高准确度地实时收集信息。应当注意的是，可以使分析关键字在检测到场景切换的时间点变为无效的。换言之，每当场景切换时可以将分析关键字重置，以便再次提取分析关键字。

基于存储的分析关键字，按照重要程度的顺序创建搜索词，并且对于SNS服务器执行搜索处理(步骤208)。具体地，分析关键字和得分被发送到SNS服务器40，并且SNS服务器40的评论提取单元41提取反映该重要程度的节目相关评论。

对于反映重要程度的提取，通常执行提取使得设定可提取评论的数量的上限，并且与各个分析关键字相关的节目相关评论的数量的比例基本上等于表示各个分析关键字的重要程度的得分比率。在那时，可以为得分设置阈值，使得仅使用具有的得分大于阈值的分析关键字来提取节目相关评论，当然过程不限于此。

此外，节目相关信息获取/分配单元18从其他服务65的各种信息DB66获取反映分析关键字的重要程度的各种类型的节目相关信息。例如，在演员的服装被提取为分析关键字的情况下，获取可以购买到该服装的店铺的位置、该服装的价格等。也可以获取各种其他类型的信息。

图5是示出音频交互装置30的话语句子生成单元32的操作实例的流程图。首先，话语关键字选自由关键字提取单元15提取的一个或多个分析关键字(步骤301)。

选择话语关键字的方法不受限制。例如，话语关键字基于添加至每个分析关键字的得分来选择。通常，选择具有最高得分的分析关键字作为话语关键字。

话语关键字可以基于发布的与各个分析关键字有关的节目相关评论的数量，即，兴奋程度来选择。例如，选择具有最高兴奋程度(excitementdegree)的分析关键字作为话语关键字。

话语关键字可以基于存储在会话/数据累积单元34中的用户5的偏好信息来选择。例如，与偏好信息相关的偏好关键字通过诸如车辆、娱乐和食物等类型被分类。然后，选择与包括偏好关键字最多的类型相关的分析关键字作为话语关键字。

在本实施方式中，在一个或多个提取的分析关键字中的任意一个与会话/数据累积单元34中存储的偏好关键字相匹配的情况下，选择该分析关键字作为话语关键字。结果，在广播用户5偏好的人或物体的情况下，该用户可以进行关于该人或物体的会话，并且因此，用户5可以更多地享受该节目内容。

此外，例如，话语关键字可以基于一个或多个分析关键字的提取顺序来选择。可替换地，还可以基于从其他服务65的各种信息DB 66获取的节目相关信息来判断当前关注的分析关键字，并选择其作为话语关键字。此外，上述各种选择方法可以视情况而定地进行组合。

应当注意的是，可以将过去已经选择一次的话语关键字设置为非可选关键字并且在那之后限制其被选择为话语关键字，或者在选择预定次数的情况下将其设置为非可选关键字。通过这样的处理，可以防止多次输出相同的话语句子。

下面，设置话语句子的话语定时(步骤302)。在本实施方式中，准备3个逻辑，即，“偏好关键字话语逻辑”、“兴奋话语逻辑”和“场景切换话语逻辑”，并视情况而定进行切换。

图6是示出话语定时逻辑切换的操作实例的流程图。图7是用于说明每个逻辑中的话语定时的示意图。首先，将选择的话语关键字与存储在会话/数据累积单元34中的偏好关键字相比较(步骤401)。在存在与话语关键字相匹配的偏好关键字的情况下(在步骤402中的是)，根据“偏好关键字话语逻辑”设置话语定时(步骤403)。

具体地，包括话语关键字的话语句子生成的定时被设置为话语定时。具体地，在图5的步骤303中设置相关关键字并完成话语句子的定时，话语句子被输出给用户(步骤304)。

如图7A所示，在这种情况下，对于用户5偏好的人L、建筑M等，话语句子在人L等出现的定时说出，而与节目内容的进度无关。对于用户5，在用户偏好的人L等出现的定时，开始关于该人等的会话。结果，还提高了对节目内容的兴趣，他/她的关注度变高，并且可以得到高视听体验。

应当注意的是，在与存储的偏好关键字相匹配的分析关键字是在话语关键字选择处理中选择的情况下，可以在不执行图6的步骤401和402的情况下选择“偏好关键字话语逻辑”。

在话语关键字和偏好关键字不相配的情况下(在步骤402中的否)，基于节目体裁信息70选择“兴奋话语逻辑”和“场景切换话语逻辑”中的一个(步骤404)。节目体裁信息70可以基于来自节目分析单元14的分析结果、由元数据提取单元12提取的元数据等判断。

例如，在依次广播诸如新闻节目的多个主题T的体裁的节目的情况下，如图7B所示，选择“场景切换话语逻辑”(步骤405)。具体地，每个主题T切换的定时(包括至CM的切换定时)被设置为话语定时。因此，可以在不妨碍用户5视听新闻内容等(每个主题T的内容)的情况下在合适的定时开始会话。应当注意的是，在图7B中由长短交替的虚线围绕的主题T的切换定时和至CM的切换定时对应于本实施方式中的场景切换定时。

此外，在节目的体裁不是安排有多个主题的节目，即，例如表演、电影等节目以及足球、橄榄球等的体育节目的情况下，选择“兴奋话语逻辑”(步骤406)。在图7C中由一定的虚线围绕的与话语关键字相关的兴奋程度变高的定时被设置为话语定时。因此，例如，在显示显著兴奋的定时，诸如电影的高潮场景和足球中的得分场景，可以开始与其有关的会话。甚至已经与之谈话的用户5可以在不错过兴奋的情况下更有积极性地享受节目内容。

应当注意的是，在话语关键字选择处理中选择具有高兴奋程度的话语关键字情况下，生成包括该话语关键字的话语句子的定时被设置为话语定时。

设置话语定时的方法不受限制，并且可以使用例如除以上使用3个逻辑的方法以外的方法。例如，节目内容广播结束的定时被设置为话语定时。因此，可以在节目结束之后进行关于感想等的会话。此外，话语定时可以是用户5可设置的。

在设置话语定时时，设置与话语关键字相关的相关关键字(步骤303)。如图5所示，相关关键字是基于话语情景75设置的。话语情景75是用于将相关关键字设置为遵循节目内容的内容的信息并且包括以上描述的节目相关评论、节目相关信息、元数据等。

例如，由评论分析单元31从节目相关评论提取的提取关键字被设置为相关关键字。在那时，可以选择对话语关键字发帖最多的提取关键字。因此，可以根据视听节目内容的其他视听者的感想开始内容的会话。

此外，可以基于包括其他SNS的发布评论、图像、运动图像、音乐、各种其他类型的信息等的节目相关信息设置相关关键字。例如，基于当前事件信息等，指示话语关键字的最新情况等的关键字可以被设置为相关关键字。例如，使用“(歌曲的名字)的排名是第一名”等。

可替换地，可以基于由音频分析单元21获取的音频的内容来设置相关关键字。例如，与话语关键字相关的关键字，即共同出现的表述等，是从包括话语关键字的音频中提取的并且被选择为相关关键字。因此，可以根据节目的内容开始会话。此外，可以根据演员等的主观感想等开始内容的会话，并且这可以触发用户陈述对演员的认可或不认可。结果，可以更多地享受节目内容。

此外，设置相关关键字的方法不受限制。例如，固定短语可以被选为相关关键字。在这种情况下，尽管存在内容不追随节目情景75的可能性，但也可以享受包括该内容的会话。此外，基于由元数据提取单元12提取的元数据设置相关关键字。

在设定相关关键字时，包括话语关键字和相关关键字的话语句子在设定的话语定时说出。因此，与节目内容相关的会话在音频交互装置30和用户5之间开始(步骤304)。

如上所述，在根据本实施方式的音频交互系统100中，基于与节目内容相关的一个或多个分析关键字收集网络1上的内容信息。然后，基于一个或多个分析关键字和内容信息生成话语句子。因此，可以与视听节目内容的用户5就与节目内容相关的各种类型的信息进行会话。结果，可以为用户5提供高品质的视听体验。

此外，音频交互装置30可以说出用户5不知道的信息。通过了解该信息，用户可以有更多兴趣享受节目内容。

<第二实施方式>

将描述根据本技术的第二实施方式的音频交互系统。在以下描述中，省去或简化具有的配置和操作与在上文中的实施方式中描述的音频交互系统100的那些配置和操作相似的部分的描述。

在上文中的实施方式中，信息处理服务器10生成与内容相关的一个或多个分析关键字并从SNS服务器40收集与一个或多个分析关键字相关的内容信息。然后，音频交互装置30基于一个或多个关键字和收集的内容信息中的至少一个来生成话语句子。

换言之，信息收集服务器10被配置为根据本技术的信息处理装置，该信息处理装置包括接收单元、第一生成单元和收集单元。此外，音频交互装置30被配置为根据本技术的另一信息处理装置，该信息处理装置包括第二生成单元。

可以配置包括信息收集服务器10和音频交互装置30两者的功能的单个装置。换言之，包括接收单元、第一生成单元、收集单元和第二生成单元的装置可以被实现为根据本技术的信息处理装置。

例如，在图1和图2中示出的信息收集服务器10设置有音频交互装置30的功能。然后，信息收集服务器10可以执行话语关键字的选择、话语定时的设置以及相关关键字的设置，并且生成的话语句子可以被发送到音频交互装置30。在这种情况下，由音频交互装置30获取的偏好信息可以视情况而定地被发送到信息收集服务器10。

另一方面，音频交互装置30可以包括信息收集服务器10的功能。换言之，一个或多个分析关键字的生成、内容信息的收集以及话语句子的生成可以由电视设备60和靠近用户5而布置的音频交互装置30来执行。

图8是示出包括接收单元、第一生成单元、收集单元和第二生成单元的信息处理装置的操作实例的流程图。在接收节目内容时(步骤501)，生成分析关键字(步骤502)。基于分析关键字检测场景切换(步骤503)，并且判断在步骤502中生成的分析关键字的有效性并基于场景切换设置得分(步骤504)。被判断为有效的分析关键字被发送至SNS服务器40。

基于分析关键字，获取由SNS服务器40收集的节目相关评论(步骤505)，并且判断每个分析关键字的兴奋程度(步骤506)。此外，从节目相关评论提取共同出现的表述(步骤507)。

作为话语句子生成处理，从分析关键字选择话语关键字(步骤508)，并且设置话语定时(步骤509)。话语定时基于例如以上描述的逻辑设置。

基于从节目相关评论提取的共同出现表述、话语情景75、以及与节目内容相关的各种类型的外部信息，设置相关关键字并生成话语句子(步骤510)。生成的话语句子根据设置的话语定时说出(步骤511)。这可以为用户提供高品质视听体验。

<第三实施方式>

将描述根据本技术的第三实施方式的音频交互系统。在音频交互系统中，分析由安装在车辆上的车载相机(图像拾取装置)获取的视频图像和音频，以生成一个或多个分析关键字(一条或多条分析信息)。判断一条或多条分析关键字的有效性和重要程度，并且基于被判断为有效的分析关键字获取与由车载相机拍摄的被摄体相关的发布在SNS上的评论和其他服务的信息(内容信息)。

音频交互装置330设置在车辆中，并且话语句子基于一个或多个分析关键字和内容信息中的至少一个生成并输出给用户。因此，用户可以在看着周围景观的同时进行关于例如有名的建筑等的会话，并因此可更多地享受驾驶。应当注意的是，可以基于一个或多个分析关键字和内容信息执行音频引导等。因此，在更多地享受景观的同时可以实现非常有意义的观光游览。应当注意的是，音频交互装置30可以通过导航装置实现。

图9是示出根据本实施方式的信息收集单元310、音频交互装置330和SNS服务器340的功能配置实例的框图。信息收集单元310是能够收集网络上的内容信息的模块，并且安装在车辆上。

信息收集单元310包括视频/音频接收单元311、景观分析单元312、各种信息获取单元313、关键字提取单元314、关键字信息分配单元315、景观评论获取单元316以及风景相关信息获取/分配单元317。

视频/音频接收单元311接收来自车载相机(未示出)的视频和音频(在下文中，称为拍摄内容)。景观分析单元312分析包括在拍摄内容中的各种类型的信息。在本实施方式中，检测拍摄内容中的被摄体，具体地，人/物体319，并且通过图像分析单元318分析标志等320等。此外，音频分析单元321分析车辆上的乘客的音频等322。

关键字提取单元314基于从景观分析单元312输出的分析结果来提取与拍摄内容相关的一个或多个分析关键字。提取例如著名地点、古迹、商店等的名字，诸如拍摄内容中拍摄的城堡和神殿。可替换地，可以从与乘客的会话中提取著名地点和地区的名字或一排樱花树的名字等。此外，也可以提取与著名节日等相关的彩车的名字等。

关键字提取单元314判断所提取的分析关键字的有效性。例如，从由车载相机拍摄的景观适当变化的视点来看，在设置预定时段为有效期限时判断有效性。可替换地，在实时拍摄的图像(帧图像)中的被摄体的尺寸小于预定阈值的情况下，与被摄体相关的分析关键字变为无效。

此外，关键字提取单元判断被判定为有效的分析关键字的重要程度并且设置其得分。得分被适当算出使得实时拍摄的主要被摄体的重要程度变高。例如，图像中的被摄体的尺寸越大，得分越高。

此外，从在图9中示出的地图DB 323获取地图信息，并且检测使用GPS等计算出的车辆的当前位置周边的建筑等。然后，给建筑等高的得分。应当注意的是，在图9中示出的实例中，GPS和导航功能335安装在音频交互装置330上，使得GPS信息从音频交互装置330发送至信息收集单元310，但并不限于此。

此外，给与乘客的会话中频繁出现的分析关键字高的得分。得分可以通过各种其他方法给出。例如，可以基于车载相机的视频检测乘客的视线，并且可以基于检测结果执行分析关键字的提取、得分的设置等。

此外，对于连续提取的分析关键字，得分可以根据自提取以来的经过时间而减少。另外，在拍摄的景观切换的情况下，减少率可增加。可替换地，分析关键字可以根据景观的切换而重置。

提取的分析关键字和得分被发送到SNS服务器340，并且评论提取单元341收集与景观相关的景观相关评论。景观相关评论被收集以反映重要程度(得分)，并且被发送到音频交互装置330。

基于分析关键字和得分从其他服务365的各种信息DB 366获取与景观相关的景观相关信息。例如，获取著名地点的历史、与著名地点相关的人的信息、著名地点和历史遗址的美丽图像等。景观相关信息233被发送至音频交互装置330。

音频交互装置330包括评论分析单元331、话语句子生成单元332、会话分析单元333以及会话/数据累积单元334，执行话语关键字的选择、话语定时的设置和相关关键字的设置，并生成话语句子。话语关键字的选择和相关关键字的设置通过例如在上文中的实施方式中描述的方法执行。通常，生成话语句子的定时被设置为话语定时。换言之，一旦生成与景观相关的话语句子就开始会话。此外，可以基于诸如等待交通信号灯的状态和停车状态等驾驶状态适当地设置话语定时。

应当注意的是，景观相关信息等可以显示在音频交互装置330的显示器(未示出)上。可替换地，音频引导可以基于景观相关信息进行。因此，用户可以实时以高准确度地感测与周围景观匹配的被摄体的信息。

<其他实施方式>

本技术不限于以上实施方式，可以实现各种其他实施方式。对于话语定时的设置，也可以将节目广播内容存储在存储器中使得可以预先检测节目的构成(场景切换等)。在那之后，可以广播节目内容，并且可以基于关于检测到的节目构成的信息设置话语定时。这使得能够设置不防碍节目内容的视听的合适的话语定时。

可以为以上描述的偏好信息(偏好关键字)设置得分(权重)。为用户非常偏好的偏好关键字设置高的得分，为用户仅偏好一点儿的偏好关键字设置低得分。因此，可以优先地生成与用户非常偏好的内容相关的话语句子。

例如，在音频交互装置和用户之间开始会话的情况下，可以消除由音频交互装置的麦克风等获取的来自电视设备的音频。因此，可以仅获取从用户发出的音频并准确分析说出的内容。例如，通过使用众所周知的麦克风消音技术(microphone cancelingtechnology)等，电视音频的分量可以从由麦克风等获取的音频中消除。

在音频交互装置可以用作远程控制器的情况下，电视设备和音频交互装置之间的当前视听的节目的频道信息的传送可以被禁止。这是因为当前视听的节目的频道信息可以由用户通过对音频交互装置进行频道选择操作获取。上述话语句子生成处理仅需要基于节目频道信息执行。

音频交互装置可以分析用户的包括对话语句子的回答的说出内容以判断用户感兴趣的对象。然后，可以执行提供有关感兴趣的对象的信息以辅助用户期望进行的动作的辅助操作。

感兴趣的对象的实例包括诸如装饰品和电气设备的物体，诸如演艺人员和运动员的人、诸如游览地和著名建筑的地方、以及诸如运动和乐器的爱好，但并不限于此。

例如，在由音频交互装置生成的话语句子开始的会话中判断用户感兴趣的对象。音频交互装置提供关于感兴趣的对象的网络上的信息、辅助信息等。例如，在感兴趣的对象是物体的情况下，提供能够购买该物体的信息。例如，电视设备被切换至销售物体的节目内容的频道。可替换地，在电视设备被连接至网络并能够获取网页的情况下，显示销售物体的销售网站的主页。

在感兴趣的对象是人的情况下，音乐会或比赛的时间表、或能够买票的节目或网站被显示为使用户能够遇见那个人的信息。在感兴趣的对象是地方的情况下，可以确认地图的节目或可以买票的旅行网站的主页被显示为使用户能够去那个地方的信息。

在感兴趣的对象是爱好的情况下，能够购买体育设备或乐器的网站或者教技能的学校的主页被显示为使用户能够学习爱好的信息。此外，也可以显示可以视听关于感兴趣的对象的运动图像等的节目或主页。

在用户购买物体、进行预订等的情况下，音频交互装置可以辅助输入各种类型的信息。例如，可以执行辅助操作使得购买申请等可以仅通过音频的交互而输入。因此，用户的兴趣变的更深，并且内容的视听也变得更有趣。

应当注意的是，在用户购买物体、进行预定等的情况下，指示哪个节目内容已被视听从而变为感兴趣的对象的信息可以由音频交互装置提供至销售网站或服务供应商侧。例如，假定用户已预订用户感兴趣的宾馆。在那个时候，关于广播该宾馆的节目内容的信息被发送至宾馆侧。结果，宾馆侧可以从节目内容的内容推断用户期望什么，并且因此可以提供满足该期望的服务。因此，用户的满意度变高，并且宾馆的评价也变高。

内容的类型不受限制，并且本技术可以应用于无线电广播、互联网电视等的其他内容。此外，本技术不限于车载相机并且也可以应用于由用户携带的摄影机拍摄的内容以及安装在眼镜型可穿戴计算机(头戴式显示器：HMD)上的摄像机拍摄的内容。

怎样判断通过分析内容而生成的分析信息的重要程度不受限制并且仅需要使用任意参数等根据需要而设定。例如，重要程度可以基于预先附加至节目内容的元数据等确定。例如，将包括在元数据等中的与主要演员相关的分析信息设置为较高的重要程度的处理也是可以的。在分析车载相机的内容的情况下，重要程度可以基于地图信息和导航信息(路线信息等)确定。

在基于包括在节目内容中的字幕来提取分析信息的情况下，有时字幕相对于实际场景进度有一定延迟地显示。因此，分析信息仅需要考虑到这些延迟时间而提取。在一些情况下，根据节目内容的体裁，延迟时间会不同，并且因此，通过考虑到这一点可以以高准确度收集信息并生成话语句子。

在广播过程中，可以持续显示节目的标识(Logo)标记、宣传节目的反射式字幕等。因此，这些条信息可以被识别以使得从这些条信息提取的分析信息的得分被减少。

诸如Tf-idf(TF：词频)(IDF：逆向文件频度)和LSI(潜在的语义索引)的信息检索算法可以视情况而定地用作检测关键字的技术。

根据本技术的音频交互系统可以应用于CM区间中广播的CM本身。具体地，通过分析CM内容生成一条或多条分析信息，并判断其有效性和重要程度。基于有效性和重要程度收集与一条或多条分析信息相关的发布的评论和内容信息。基于这些条信息生成与CM相关的话语句子，并开始与用户会话。因此，例如，可以进行关于局部CM等的会话。

实时从内容分析的各种类型信息，诸如图像、音频和GPS信息，可以用作为收集内容信息而生成的分析信息，不限于以上描述的关键字。

根据本技术的音频交互装置可以通过将由根据本技术的程序组成的应用程序安装在智能手机或平板电脑终端中来实现。另外，根据本技术的音频交互装置可以由例如包括AI(人工智能)的机器人装置，即，类人机器人装置等构成。

可以结合以上描述的根据本技术的至少两个特征部分。换言之，相应的实施方式中描述的各个特征部分可以在彼此不区分实施方式的情况下任意组合。此外，以上描述的各个效果仅仅是示例性的并且应当不限于此，并且也可以发挥其他效果。

应当注意的是，本技术也可以采取以下配置。

(1)一种信息处理装置，包括：

接收单元，接收内容；

第一生成单元，分析所接收的内容并生成与该内容相关的一条或多条分析信息；

收集单元，基于所生成的一条或多条分析信息收集网络上与内容相关的内容信息；以及

第二生成单元，基于一条或多条分析信息和所收集的内容信息中的至少一个来生成话语句子(utterance sentence)。

(2)根据(1)所述的信息处理装置，其中

内容是节目内容，并且

第一生成单元通过分析在节目内容中包括的多个类型的信息中的每一个来生成与内容相关的一个或多个关键字。

(3)根据(2)所述的信息处理装置，其中

第二生成单元从生成的一个或多个关键字中选择话语关键字并生成包括话语关键字和与话语关键字相关的相关关键字的话语句子。

(4)根据(3)所述的信息处理装置，其中

第二生成单元基于所收集的内容信息设置相关关键字。

(5)根据(3)或(4)所述的信息处理装置，其中

第二生成单元将与话语关键字共同出现的关键字设置为相关关键字。

(6)根据(3)至(5)中的任意一个所述的信息处理装置，其中

生成单元能够获取在节目内容中包括的音频的内容，并且

第二生成单元基于包括话语关键字的音频的内容设置相关关键字。

(7)根据(2)至(6)中的任意一个所述的信息处理装置，进一步包括：

检测单元，能够检测节目内容中的场景切换；以及

判断单元，基于检测的场景切换来判断所生成的一个或多个关键字中的每一个的有效性，

其中

第二生成单元基于由判断单元判断为有效的关键字生成话语句子。

(8)根据(2)至(7)中的任意一个所述的信息处理装置，进一步包括

获取单元，获取视听内容的用户的偏好信息，

其中

第二生成单元在生成的一个或多个关键字包括与偏好信息相关的关键字的情况下选择该关键字作为话语关键字。

(9)根据(1)至(8)中的任意一个所述的信息处理装置，进一步包括

设定单元设置生成的话语句子将被说出的话语定时。

(10)根据(9)所述的信息处理装置，其中

内容是节目内容，

信息处理装置进一步包括能够检测节目内容中的场景切换的检测单元，并且

设定单元将场景切换的定时设定为话语定时。

(11)根据(9)或(10)所述的信息处理装置，进一步包括

获取单元，获取视听内容的用户的偏好信息，

其中

第一生成单元通过分析在内容中包括的多个类型的信息中的每一个来生成与内容相关的一个或多个关键字。

第二生成单元在生成的一个或多个关键字包括与偏好信息相关的关键字的情况下选择该关键字作为话语关键字，并且

设定单元将包括与偏好信息相关的关键字的话语句子生成的定时设置为话语定时。

(12)根据(9)至(11)中的任意一个所述的信息处理装置，其中

第一生成单元通过分析在内容中包括的多个类型的信息中的每一个来生成与内容相关的一个或多个关键字，

收集单元收集与生成的一个或多个关键字相关的并且利用通信服务发布的评论，并且

设定单元基于收集的与由第二生成单元选择的话语关键字相关的评论的发布数量来设置话语定时。

(13)根据(8)所述的信息处理装置，其中

获取单元基于对话语句子的回答来获取偏好信息。

(14)根据(1)所述的信息处理装置，其中

内容是由图像拾取装置拍摄的拍摄内容，

第一生成单元通过分析拍摄内容而生成与包括在拍摄内容中的一个或多个被摄体相关的一个或多个关键字，并且

第二生成单元基于生成的一个或多个关键字和基于一个或多个关键字而收集的内容信息中的至少一个来生成话语句子。

(15)根据(1)至(14)中的任意一个所述的信息处理装置，其中

分析观看内容的用户的包括话语句子的回答的话语内容，以判断用户感兴趣的对象并提供与感兴趣的对象相关的信息。

(16)根据(15)所述的信息处理装置，其中

与感兴趣的对象相关的信息包括使得感兴趣的对象能够被购买的信息、使得用户能够遇到感兴趣的对象的信息、使得用户能够到达感兴趣的对象的信息以及使得用户能够学习感兴趣的对象的信息。

参考符号列表

1 网络

5 用户

10 信息收集服务器

11 广播接收单元

14 节目分析单元

15，314 关键字提取单元

17 节目相关评论获取单元

18 节目相关信息获取/分配单元

30，330 音频交互装置

31，331 评论分析单元

32，332 话语句子生成单元

33，333 会话分析单元

34，334 会话/数据累积单元

40，340 SNS服务器

41，341 评论提取单元

42 发布的评论DB

50 SNS用户终端

60 电视设备

100 音频交互系统

310 信息收集单元

311 视频/音频接收单元

312 景观分析单元

313 各种信息获取单元

316 景观评论获取单元

317 景观相关信息获取/分配单元

Claims

1.一种信息处理装置，包括：

接收单元，对内容进行接收；

第一生成单元，分析所接收的内容，并且生成与所述内容相关的一条或多条分析信息；

收集单元，基于所生成的一条或多条分析信息来收集网络上与所述内容相关的内容信息；以及

第二生成单元，基于所述一条或多条分析信息和所收集的内容信息中的至少一方来生成话语句子，

其中，

所述内容是节目内容，并且

所述第一生成单元通过分析在所述节目内容中包括的多个类型的信息中的每一类信息来生成与所述内容相关的一个或多个关键字，

所述的信息处理装置，进一步包括：

检测单元，能够检测所述节目内容中的场景切换；以及

判断单元，基于所检测的场景切换来判断所生成的一个或多个关键字中的每一个关键字的有效性，

其中，

所述第二生成单元基于被所述判断单元判定为有效的关键字来生成所述话语句子。

2.根据权利要求1所述的信息处理装置，其中

所述第二生成单元从所生成的一个或多个关键字中选择话语关键字并且生成包括所述话语关键字和与所述话语关键字相关的相关关键字的所述话语句子。

3.根据权利要求2所述的信息处理装置，其中

所述第二生成单元基于所收集的内容信息来设定所述相关关键字。

4.根据权利要求2所述的信息处理装置，其中

所述第二生成单元将与所述话语关键字共同出现的关键字设定为所述相关关键字。

5.根据权利要求2所述的信息处理装置，其中

所述第一生成单元能够获取在所述节目内容中包括的音频的内容，并且

所述第二生成单元基于包括所述话语关键字的音频的内容来设定所述相关关键字。

6.根据权利要求1所述的信息处理装置，进一步包括：

获取单元，获取观看所述内容的用户的偏好信息，

其中

所述第二生成单元在所生成的一个或多个关键字包括与所述偏好信息相关的关键字的情况下，选择该关键字作为话语关键字。

7.根据权利要求1所述的信息处理装置，进一步包括：

设定单元，设定所生成的话语句子被发出时的话语定时。

8.根据权利要求7所述的信息处理装置，其中

所述内容是节目内容，

所述信息处理装置进一步包括能够检测所述节目内容中的场景切换的检测单元，并且

所述设定单元将所述场景切换的定时设定为所述话语定时。

9.根据权利要求7所述的信息处理装置，进一步包括：

获取单元，获取观看所述内容的用户的偏好信息，

其中

所述第一生成单元通过分析在所述内容中包括的多个类型的信息中的每一类信息来生成与所述内容相关的一个或多个关键字，

所述第二生成单元在所生成的一个或多个关键字包括与所述偏好信息相关的关键字的情况下，选择该关键字作为话语关键字，并且

所述设定单元将生成包括与所述偏好信息相关的该关键字的所述话语句子时的定时设定为所述话语定时。

10.根据权利要求7所述的信息处理装置，其中

所述收集单元收集与所生成的一个或多个关键字相关的并且利用通信服务已发布的评论，并且

所述设定单元基于所收集的与由所述第二生成单元选择的话语关键字相关的评论的发布数量来设定所述话语定时。

11.根据权利要求6所述的信息处理装置，其中

所述获取单元基于对所述话语句子的回答来获取所述偏好信息。

12.根据权利要求1所述的信息处理装置，其中

所述内容是由图像拾取装置拍摄的拍摄内容，

所述第一生成单元通过分析所述拍摄内容来生成与包括在所述拍摄内容中的一个或多个被摄体相关的一个或多个关键字，并且

所述第二生成单元基于所生成的一个或多个关键字和基于所述一个或多个关键字而收集的所述内容信息中的至少一方，来生成所述话语句子。

13.根据权利要求1所述的信息处理装置，其中

观看所述内容的用户的包括对所述话语句子的回答的话语内容被分析，以判断所述用户的感兴趣的对象并且提供与所述感兴趣的对象相关的信息。

14.根据权利要求13所述的信息处理装置，其中

与所述感兴趣的对象相关的所述信息包括：使得所述感兴趣的对象能够被购买的信息、使得所述用户能够遇到所述感兴趣的对象的信息、使得所述用户能够到达所述感兴趣的对象的信息以及使得所述用户能够学习所述感兴趣的对象的信息。

15.一种由计算机执行的信息处理方法，包括：

对内容进行接收，其中，所述内容是节目内容；

分析所接收的内容并且生成与所述内容相关的一条或多条分析信息，其中，通过分析在所述节目内容中包括的多个类型的信息中的每一类信息来生成与所述内容相关的一个或多个关键字；

基于所生成的一条或多条分析信息收集网络上与所述内容相关的内容信息；以及

基于所述一条或多条分析信息和所收集的内容信息中的至少一方来生成话语句子，

检测所述节目内容中的场景切换；

基于所检测的场景切换来判断所生成的一个或多个关键字中的每一个关键字的有效性，

其中，

基于被判定为有效的关键字来生成所述话语句子。

16.一种计算机可读存储介质，所述计算机可读存储介质存储使计算机执行以下步骤的程序：

对内容进行接收，其中，所述内容是节目内容；

检测所述节目内容中的场景切换；

其中，

基于被判定为有效的关键字来生成所述话语句子。