CN109313901A - 信息处理装置、接收装置和信息处理方法 - Google Patents
信息处理装置、接收装置和信息处理方法 Download PDFInfo
- Publication number
- CN109313901A CN109313901A CN201880002467.6A CN201880002467A CN109313901A CN 109313901 A CN109313901 A CN 109313901A CN 201880002467 A CN201880002467 A CN 201880002467A CN 109313901 A CN109313901 A CN 109313901A
- Authority
- CN
- China
- Prior art keywords
- content
- user
- sound
- server
- institute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims description 33
- 238000003672 processing method Methods 0.000 title description 6
- 238000012545 processing Methods 0.000 claims abstract description 282
- 230000004044 response Effects 0.000 claims abstract description 57
- 230000004913 activation Effects 0.000 claims description 107
- 238000000034 method Methods 0.000 claims description 102
- 230000005540 biological transmission Effects 0.000 claims description 40
- 238000009877 rendering Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 138
- 230000008859 change Effects 0.000 description 52
- 230000008569 process Effects 0.000 description 51
- 238000004891 communication Methods 0.000 description 33
- 238000010586 diagram Methods 0.000 description 20
- 238000005516 engineering process Methods 0.000 description 18
- 238000006243 chemical reaction Methods 0.000 description 16
- 230000015654 memory Effects 0.000 description 14
- 238000012546 transfer Methods 0.000 description 7
- 230000003213 activating effect Effects 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000001755 vocal effect Effects 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 3
- 230000005611 electricity Effects 0.000 description 3
- 238000009434 installation Methods 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 239000012190 activator Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- NRNCYVBFPDDJNE-UHFFFAOYSA-N pemoline Chemical compound O1C(N)=NC(=O)C1C1=CC=CC=C1 NRNCYVBFPDDJNE-UHFFFAOYSA-N 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000010977 unit operation Methods 0.000 description 2
- 230000001154 acute effect Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013329 compounding Methods 0.000 description 1
- 235000014510 cooky Nutrition 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000032696 parturition Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/70—Media network packetisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/462—Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
- H04N21/4622—Retrieving content or additional data from different sources, e.g. from a broadcast channel and the Internet
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/4722—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting additional data associated with the content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
- Selective Calling Equipment (AREA)
Abstract
一种接收装置,包括处理电路,处理电路被配置为在向用户呈现内容期间,从用户接收与内容相关的语音命令。处理电路被配置为将语音命令传输到服务器系统以进行处理。处理电路被配置为从服务器系统接收对语音命令的响应。对语音命令的响应基于语音命令和用于识别与语音命令相关的内容的内容信息而生成。
Description
技术领域
本技术涉及一种信息处理装置、一种接收装置和一种信息处理方法,具体地,涉及能够在再现内容时使用声音对话实现提高操作的便利性的一种信息处理装置、一种接收装置和一种信息处理方法。
<交叉引用相关申请>
本申请要求2017年4月21日提交的日本优先权专利申请JP2017-084575的权益,其全部内容通过引用结合于此。
背景技术
已经提出了与广播内容相关联地执行的广播应用程序(例如,参见PTL 1)。例如,通过使用广播应用程序,可以显示与广播内容相关的信息。
另外,已经提出了为了分析用户的言语内容而执行的声音识别技术(例如,参见PTL 2)。例如,当技术应用于电视接收机或便携式终端装置时,可以分析用户说出的单词,并且可以执行根据言语的处理。
引用列表
专利文献
PTL 1:JP 2013-187781A
PTL 2:JP 2014-153663A
发明内容
技术问题
顺便提及,在电视接收机中,通常使用附件遥控器来执行操作。然而,在再现内容时执行与广播应用程序相关的操作的情况下,可能不一定是说适合于使用遥控器执行操作,并且期望使用声音对话执行操作的方法。
期望在再现内容时使用声音对话实现提高操作的便利性。
解决问题的方法
在本公开的实施方式中,提供了一种接收装置。该接收装置包括处理电路,处理电路被配置为在向用户呈现内容期间,从用户接收与内容相关的语音命令。处理电路被配置为将语音命令传输到服务器系统以进行处理。处理电路被配置为从服务器系统接收对语音命令的响应。对语音命令的响应基于语音命令和用于识别与语音命令相关的内容的内容信息而生成。
在本公开的实施方式中,提供了一种接收对语音命令的响应的方法。方法包括:在向用户呈现内容期间,从用户接收与内容相关的语音命令;并且由接收装置的处理电路将语音命令传输到服务器系统以进行处理。方法还包括由接收装置的处理电路从服务器系统接收对语音命令的响应。对语音命令的响应基于语音命令和用于识别与语音命令相关的内容的内容信息而生成。
在本公开的实施方式中,提供了一种存储指令的非暂时性计算机可读介质,该指令在由处理器执行时使处理器执行用于接收对语音命令的响应的方法。方法包括:在向用户呈现内容期间,从用户接收与内容相关的语音命令;并且将语音命令传输到服务器系统以进行处理。方法还包括从服务器系统接收对语音命令的响应。对语音命令的响应基于语音命令和用于识别与语音命令相关的内容的内容信息而生成。
在本公开的实施方式中,提供了一种包括处理电路的信息处理系统。处理电路被配置为从接收装置接收与呈现给用户的内容相关的语音命令并且获得用于识别与语音命令相关的内容的内容信息。处理电路被配置为基于语音命令和获得的用于识别与语音命令相关的内容的内容信息,生成对语音命令的响应。处理电路被进一步配置为向接收装置传输所生成的对语音命令的响应。
在本公开的实施方式中,提供了一种用于处理语音命令的方法。方法包括:从接收装置接收与呈现给用户的内容相关的语音命令;并且获得用于识别与语音命令相关的内容的内容信息。方法包括:由信息处理装置的处理电路基于语音命令和获得的用于识别与语音命令相关的内容的内容信息,生成对语音命令的响应。方法还包括向接收装置传输所生成的对语音命令的响应。
在本公开的实施方式中,提供了一种存储指令的非暂时性计算机可读介质,该指令在由处理器执行时使处理器执行用于处理语音命令的方法。方法包括:从接收装置接收与呈现给用户的内容相关的语音命令;并且获得用于识别与语音命令相关的内容的内容信息。方法包括基于语音命令和获得的用于识别与语音命令相关的内容的内容信息,生成对语音命令的响应。方法还包括向接收装置传输所生成的对语音命令的响应。
发明的有益效果
根据本技术的第一和第二实施方式,可以在再现内容时使用声音对话实现提高操作的便利性。
此外,在此处提到的有益效果不一定是限制性的,并且可以获得本公开中描述的任何有益效果。
附图说明
[图1]图1是示出应用了本技术的声音对话系统的实施方式的配置示例的方框图;
[图2]图2是示出传输装置的配置示例的方框图;
[图3]图3是示出声音转换服务器和功能提供服务器的配置示例的方框图;
[图4]图4是示出功能处理单元的详细配置的示例的方框图;
[图5]图5是示出接收装置的配置示例的方框图;
[图6]图6是示出声音处理装置的配置示例的方框图;
[图7]图7是用于描述第一实施方式的概述的示图;
[图8]图8是用于描述声音对话处理的流程的流程图;
[图9]图9是用于描述声音对话处理的流程的流程图;
[图10]图10是用于描述应用程序配合处理的流程的流程图;
[图11]图11是用于描述第二实施方式的概述的示图;
[图12]图12是示出激活关键字的表格的示例的示图;
[图13]图13是用于描述激活关键字匹配处理的流程的流程图;
[图14]图14是用于描述第三实施方式的概述的示图;
[图15]图15是用于描述配合图标显示处理的流程的流程图;
[图16]图16是示出通知信息的另一显示形式的示图;
[图17]图17是示出与声音代理服务对应的操作装置的示例的示图;
[图18]图18是示出计算机的配置示例的方框图。
具体实施方式
在下文中,将参考附图描述本技术的实施方式。此外,将按以下顺序进行描述。
1、系统的配置
2、第一实施方式:通过应用配合的声音对话功能
3、第二实施方式:简化激活关键字
4、第三实施方式:显示应用配合
5、修改示例
6、计算机的配置
<1、系统的配置>
(声音对话系统的配置示例)
图1是示出应用了本技术的声音对话系统的实施方式的配置示例的方框图。
声音对话系统1是实现与正在观看内容的用户的声音对话的系统。在图1中,声音对话系统1包括传输装置10、声音转换服务器20、功能提供服务器30、接收装置50和声音处理装置60。
此外,在声音对话系统1中,声音转换服务器20、功能提供服务器30、接收装置50和声音处理装置60可以连接到互联网90,从而可以交换各种数据。
传输装置10处理广播内容或广播应用程序,并且从安装在传输站中的天线来作为广播波传输处理后的广播内容或广播应用程序。此外,作为在本文中的广播方案,例如,可以使用作为一个下一代地面广播标准的高级电视系统委员会(ATSC)3.0。
在此处,广播内容例如是诸如新闻、体育、电视剧和购物频道等电视节目。另外,广播应用程序是使用诸如超文本标记语言5(HTML5)等标记语言或诸如JavaScript(注册商标)等脚本语言开发的应用程序。此外,在以下NPL 1中公开了与ATSC 3.0对应的广播应用程序的细节。
NPL 1:ATSC候选标准ATSC 3.0互动内容(A/344)
声音转换服务器20是提供基于云的声音识别服务的服务器。声音转换服务器20将从连接到互联网90的装置传输的声音数据转换为文本数据,并将文本数据传输到功能提供服务器30。
功能提供服务器30是通过对从声音转换服务器20传输的文本数据执行处理来提供各种功能(功能服务)的服务器。功能提供服务器30将通过处理文本数据而获得的处理数据经由互联网90传输到接收装置50或声音处理装置60。
由功能提供服务器30提供的功能服务包括例如与正在观看广播内容的用户的声音对话功能。通过允许功能提供服务器30执行服务器应用程序来实现声音对话功能。此外,服务器应用程序是针对每个功能服务开发的。另外,声音转换服务器20和功能提供服务器30安装在数据中心中,以彼此可连接。
接收装置50和声音处理装置60安装在例如用户家庭的同一房间或不同房间中。
接收装置50包括例如固定接收机(例如,电视接收机、机顶盒(STB)、个人计算机或游戏控制台)或移动接收机(例如,智能电话、蜂窝电话或平板电脑)。
接收装置50通过接收和处理从传输站传输的广播波来再现广播内容,并输出视频和声音。另外,接收装置50可以执行通过处理广播波而获得的广播应用程序。此外,接收装置50经由互联网90接收从功能提供服务器30传输的处理数据,并输出适合于处理数据的声音。
声音处理装置60例如是可以连接到诸如家庭局域网(LAN)等网络的扬声器,并且也被称为所谓的智能扬声器。例如,这种类型的扬声器可以再现音乐并且还可以在诸如照明设备或空调设备等装置上执行声音操作。此外,声音处理装置60可以通过诸如蓝牙(注册商标)等无线通信连接到各种装置。
此外,声音处理装置60可以经由互联网90与声音转换服务器20或功能提供服务器30配合,来向用户提供声音代理服务(声音代理服务的用户界面)。
在此处,声音代理服务是指组合诸如声音识别处理和自然语言处理等处理并且响应于口头语言的问题或请求而适当地执行回复或操作的功能或服务。即,声音处理装置60安装在客户端侧,并且用作声音代理服务的用户界面。另外,声音转换服务器20或功能提供服务器30安装在诸如数据中心等服务器侧,并执行实现声音对话功能的处理。
声音处理装置60接收用户发出的声音,并经由互联网90将声音数据传输到声音转换服务器20。此外,声音处理装置60经由互联网90接收从功能提供服务器30传输的处理数据,并且输出适合于处理数据的声音。
(传输装置的配置示例)
图2是示出图1中的传输装置10的配置示例的方框图。
在图2中,传输装置10包括内容生成单元111、编码器112、应用程序生成单元113、应用程序处理单元114、多路复用器115和传输单元116。
内容生成单元111生成广播内容并将所生成的广播内容提供给编码器112。此外,还可以从外部服务器、相机、记录介质等获取广播内容。
编码器112根据预定编码方案对从内容生成单元111提供的广播内容中包括的声音数据和视频数据进行编码,并将编码后的声音数据和视频数据提供给多路复用器115。
应用程序生成单元113生成广播应用程序并将所生成的广播应用程序提供给应用程序处理单元114。此外,还可以从外部服务器、记录介质等获取广播应用程序。
应用程序处理单元114对从应用程序生成单元113提供的广播应用程序的数据执行必要的处理,并将作为结果获得的数据提供给多路复用器115。
多路复用器115多路复用来自编码器112的数据和来自应用程序处理单元114的数据,并将作为结果获得的流提供给传输单元116。
传输单元116对从多路复用器115提供的流执行必要的处理(例如,纠错编码处理或调制处理),并且从安装在传输站上的天线传输作为结果获得的信号,作为广播波。
(服务器的配置示例)
图3是示出图1中的声音转换服务器20和功能提供服务器30的配置示例的方框图。
在图3中,声音转换服务器20包括声音到文本转换处理单元211、通信I/F 212和数据库213。
声音到文本转换处理单元211包括诸如中央处理单元(CPU)或微处理器等运算装置。另外,通信I/F 212包括通信接口电路。数据库213包括诸如硬盘驱动器(HDD)或半导体存储器等大容量记录装置。
声音到文本转换处理单元211参考数据库213将声音数据转换为文本数据。在此处,例如,数据库213累积海量声音数据库,并且因此,声音到文本转换处理单元211可以使用预定的识别算法并且可以将输入到预定识别算法的声音数据转换成文本数据。
通信I/F 212经由互联网90接收从诸如声音处理装置60等装置传输的声音数据,并将声音数据提供给声音到文本转换处理单元211。此外,通信I/F 212将从声音到文本转换处理单元211提供的文本数据传输到功能提供服务器30。
另外,在图3中,功能提供服务器30包括功能处理单元311、通信I/F 312和数据库313。
功能处理单元311包括诸如CPU或微处理器等运算装置。另外,通信I/F 312包括通信接口电路。数据库313包括诸如硬盘驱动器(HDD)或半导体存储器等大容量记录装置。
功能处理单元311通过执行为每个功能开发的服务器应用程序来执行提供各种功能服务的处理。例如,功能处理单元311通过执行具有实现与正在观看广播内容的用户的声音对话的声音对话功能(在下文中也称为电视节目功能)的广播应用程序,来执行与正在观看广播内容的用户的声音对话相关的处理。
在此处,通过允许由接收装置50在客户端侧执行的广播应用程序与由功能提供服务器30在服务器侧执行的服务器应用程序配合,可以获得关于再现目标广播内容的再现信息。因此,功能处理单元311可以基于在包括在数据库313中的对话信息之中的通过再现信息缩小的对话信息,根据来自声音转换服务器20的文本数据,执行回答用户的言语的对话处理。
在此处,图4是示出功能处理单元311的详细配置的示例的方框图。如图4所示,功能处理单元311包括言语理解单元331、对话控制单元332和言语生成单元333。
言语理解单元331参考数据库313来分析来自声音转换服务器20的文本数据,并基于上下文,执行理解用户的言语的主题或意图的处理。
对话控制单元332基于通过参考数据库313或言语理解单元331的处理结果而获得的主题、用户的言语意图、先前对话历史的历史等,来执行决定要执行哪个回答的处理。
言语生成单元333基于对话控制单元332的处理结果或通过参考数据库313而获得的信息,执行根据用户的意图生成言语(对用户的言语的回答)的处理。
此外,除了知识数据库或言语数据库之外,数据库313还可以包括诸如言语历史或用户信息等数据库,作为用于获得用于实现言语功能的对话信息的数据库。
返回参考图3,为了描述,通信I/F 312接收从声音转换服务器20传输的文本数据,并将文本数据提供给功能处理单元311。另外,通信I/F 312经由互联网90接收从接收装置50传输的再现信息并将再现信息提供给功能处理单元311。另外,通信I/F 312经由互联网90将从功能处理单元311提供的回答(对用户的言语的回答)传输到诸如接收装置50或声音处理装置60等装置。
(接收装置的配置示例)
图5是示出图1中的接收装置50的配置示例的方框图。
在图5中,接收装置50包括处理单元511、存储器512、输入单元513、调谐器514、多路分用器515、声音解码器516、声音输出单元517、视频解码器518、视频输出单元519、浏览器520、扬声器521、显示单元522和通信I/F 523。
处理单元511包括例如CPU或微处理器。处理单元511作为接收装置50中的用于各种算术处理、每个单元的操作控制等的中央处理装置而操作。处理单元511可以在接收装置50中的单元之间交换各种数据。
存储器512是非易失性存储器,例如,非易失性RAM(NVRAM),并且在处理单元511的控制下记录各种数据。输入单元513例如是物理按钮等,并提供适合于用户对处理单元511的操作的操作信号。处理单元511基于从输入单元513提供的操作信号控制每个单元的操作。
调谐器514通过接收经由天线531从传输装置10传输的广播波来执行必要的处理(例如,解调处理、纠错解码处理等),并将作为结果而获得的流提供给多路分用器515。
多路分用器515将从调谐器514提供的流多路分用为声音数据、视频数据和广播应用程序的数据。多路分用器515将声音数据提供给声音解码器516,将视频数据提供给视频解码器518,并将广播应用程序的数据提供给浏览器520。
声音解码器516根据预定的解码方案对从多路分用器515提供的声音数据进行解码,并将解码的声音数据提供给声音输出单元517。声音输出单元517将从声音解码器516提供的声音数据提供给扬声器521。因此,从扬声器521输出广播内容的声音。
视频解码器518根据预定的解码方案对从多路分用器515提供的视频数据进行解码,并将解码的视频数据提供给视频输出单元519。视频输出单元519将从视频解码器518提供的视频数据提供给显示单元522。因此,在包括显示器(例如,液晶显示器(LCD)或有机发光二极管(OLED))的显示单元522上显示广播内容的视频。
浏览器520是对应于例如HTML5或JavaScript(注册商标)的浏览器。浏览器520在处理单元511的控制下处理从多路分用器515提供的广播应用程序的数据,并将处理后的数据提供给视频输出单元519。视频输出单元519显示适合于从浏览器520提供的数据的应用程序,使得应用程序叠加在适合于从视频解码器518提供的视频数据的视频上。
通信I/F 523包括通信接口电路。通信I/F 523在处理单元511的控制下访问连接到互联网90的每个服务器(例如,图1中的功能提供服务器30),以交换各种数据。
(声音处理装置的配置示例)
图6是示出图1的声音处理装置60的配置示例的方框图。
在图6中,声音处理装置60包括声音处理单元611、存储器612、通信I/F 613、麦克风614和扬声器615。
声音处理单元611包括例如CPU或微处理器。声音处理单元611作为声音处理装置60中的用于各种算术处理、每个单元的操作控制等的中央处理装置而操作。
存储器612是诸如NVRAM等非易失性存储器,并且在声音处理单元611的控制下记录各种数据。
通信I/F 613包括通信接口电路。通信I/F 613在声音处理单元611的控制下访问连接到互联网90的每个服务器(例如,图1中的声音转换服务器20或功能提供服务器30),以交换各种数据。
麦克风614是将来自外部的声音转换为电信号的装置(声音收集器)。麦克风614将通过转换而获得的声音信号提供给声音处理单元611。
声音处理单元611处理从麦克风614提供的声音信号,并将处理后的声音信号提供给通信I/F 613。此外,声音处理单元611处理从通信I/F 613提供的声音信号并将经处理的声音信号提供给扬声器615。
扬声器615是将电信号变为物理振动并输出声音的装置。扬声器615输出适合于从声音处理单元611提供的声音信号的声音。
声音对话系统1具有上述配置。
此外,为了便于描述,示出了在声音对话系统1中安装一个传输装置10和一对声音转换服务器20和功能提供服务器30的情况。然而,可以为诸如广播站等每个服务提供商安装多个传输装置10或多个功能提供服务器30。
另外,示出了每个用户家庭在图1的声音对话系统1中安装一个接收装置50和一个声音处理装置60的情况。然而,例如,可以为多个用户家庭各自安装接收装置50和声音处理装置60。
<2、第一实施方式>
顺便提及,在图1的声音对话系统1中,包括电视接收机的接收装置50可以与广播内容一起执行广播应用程序。然而,在操作广播应用程序的情况下,当用户使用电视接收机的附件遥控器等时,用户可能感觉难以执行操作。
因此,在本技术中,通过允许由接收装置50在客户端侧执行的广播应用程序与由功能提供服务器30在服务器侧执行的服务器应用程序配合,实现提高操作的便利性,使得由声音处理装置60提供的声音代理服务的用户界面可以与由接收装置50执行的广播应用程序一起使用。
例如,如图7所示,当正在观看由包括电视接收机的接收装置50再现的广播内容的电视剧的用户希望知道该电视剧中所示的女演员的姓名并且在该地方询问“女演员是谁?”时,可以获得女演员的名字,作为中继。
具体地,通过允许由接收装置50执行的广播应用程序与由功能提供服务器30执行的服务器应用程序配合,可以使用由声音处理装置60提供的声音代理服务的用户界面。因此,声音处理装置60接收用户说出的问题“女演员是谁?”,并且经由互联网90将其传输到声音转换服务器20和功能提供服务器。
在声音转换服务器20和功能提供服务器30中处理来自用户的问题,并且生成对问题的回复。经由互联网90将回复传输到接收装置50,并且通过广播应用程序从扬声器521输出与回复“该女演员是xxxx”(xxxx是女演员的姓名)对应的声音。因此,通过仅在用户正在观看电视剧时询问,用户可以知道在该地方在电视剧中所示的女演员的姓名。
此外,在图7的示例中,示出了广播应用程序输出与该回复对应的声音的情况,但是本技术不限于从扬声器521输出的声音。在接收装置50中,可以通过广播应用程序在显示单元522的屏幕上显示与该回复对应的文本信息、图像信息等。
另外,在图7的示例中,包含在接收装置50中的扬声器521输出与回复对应的声音,但是可以从包含在声音处理装置60中的扬声器615输出与回复对应的声音。在这种情况下,由声音转换服务器20和功能提供服务器30处理的处理数据经由互联网90传输到声音处理装置60。
在此处,在相对于诸如电视接收机等接收装置50的安装位置和用作在用户家中的智能扬声器的声音处理装置60的安装位置,考虑正在观看广播内容的用户的观看位置的情况下,用户通常比声音处理装置60更接近接收装置50的可能性很高。因此,假设在许多情况下,最好从来自接收装置50的扬声器521输出与回复对应的声音。
另外,为了验证(激活)用作声音代理服务的用户界面的声音处理装置60,通常使用预先确定的关键字(下文中称为激活关键字)。在此处,由于“服务A”被设置为用于使用声音对话功能(电视节目功能)的激活关键字,所以来自用户的问题“服务A,询问电视节目女演员是谁?”包括激活关键字“服务A”和“询问电视节目”来指定电视节目功能中的对话。
(声音对话处理)
接下来,参考图8和图9的流程图描述由图1的声音对话系统1执行的声音对话处理的流程。
在此处,在图8和图9中,步骤S101和S102的处理由安装在广播站或传输站的设施中的传输装置10执行。步骤S111至S114的处理和步骤S121和S122的处理分别由安装在数据中心的功能提供服务器30和声音转换服务器20执行。
另外,在图8和图9中,步骤S131和S132的处理以及步骤S141至S143的处理分别由安装在用户家中的声音处理装置60和接收装置50执行。
在步骤S101中,内容生成单元111生成广播内容。另外,在步骤S101中,应用程序生成单元113生成广播应用程序。
在步骤S101的处理中生成的广播内容和广播应用程序经历诸如编码、纠错编码处理或调制处理等预定处理,随后,作为广播波(广播信号)从安装在传输站中的天线中传输(S102)。
从传输站传输的广播波(广播信号)由连接到接收装置50的天线531接收,并且执行步骤S141和S142的处理。
在接收装置50中,调谐器514、声音解码器516、视频解码器518等执行预定处理,例如,解码处理、纠错解码处理、以及对由天线531接收到的广播波解码,以再现广播内容(S141)。在此处,例如,响应于用户的调谐操作,再现诸如电视剧等电视节目。
另外,在接收装置50中,由浏览器520激活从广播波获得的广播应用程序(S142)。广播应用程序与广播内容配合操作。另一方面,在功能提供服务器30中,服务器应用程序由功能处理单元311激活(S111)。
在此处,由接收装置50在客户端侧执行的广播应用程序和由功能提供服务器30在服务器侧执行的服务器应用程序经由互联网90彼此配合,并且由声音处理装置60提供的声音代理服务的用户界面可以与广播应用程序一起使用。此外,稍后将参考图10的流程图,描述广播应用程序和服务器应用程序的配合处理的细节。
此后,当正在观看由接收装置50再现的广播内容的用户说话时,由用作声音代理服务的用户界面的声音处理装置60的声音处理单元611接收用户的言语(S131)。
例如,当正在观看电视剧的用户询问在电视剧中所示的女演员的名字时,该问题(例如,问题“女演员是谁?”)由麦克风614收集、被转换成电信号、并被提供给声音处理单元611。以这种方式,接收了用户的问题。
此外,如上所述,实际上,当用户提问时,用户必须说出诸如“电视节目”等激活关键字。在此处,为了便于描述,将省略其描述。稍后将描述激活关键字的细节。
以这种方式接收的用户言语的声音数据经由互联网90通过声音处理装置60的通信I/F 613,经由互联网90传输到声音转换服务器20(S132)。
从声音处理装置60传输的声音数据由声音转换服务器20经由互联网90接收,并且执行步骤S121和S122的处理。
在步骤S121中,声音到文本转换处理单元211参考数据库213将来自声音处理装置60的声音数据转换为文本数据。通过步骤S121的处理转换的文本数据传输到功能提供服务器30(S122)。来自声音转换服务器20的文本数据由功能提供服务器30接收,并且执行步骤S112至S114的处理。
在步骤S112中,功能处理单元311获取再现信息。在此处,由于广播应用程序和服务器应用程序彼此配合,所以可以由服务器应用程序从广播应用程序获取再现信息。例如,再现信息包括关于用户正在观看的广播内容的信息,例如,标识符、再现时间位置、以及广播内容的声音或字幕的语言。
在步骤S113中,功能处理单元311基于在数据库313中包括的对话信息之中的随着在步骤S112的处理中获取的再现信息而缩小的对话信息,执行对话处理,以对来自声音转换服务器20的文本数据作出回答(对用户的言语的回答)。
例如,当正在观看电视剧的用户希望知道该电视剧中所示的女演员的姓名并且询问“女演员是谁?”时,该问题的声音被声音处理装置60接收并经由互联网90传输到声音转换服务器20。在声音转换服务器20中,声音数据“女演员是谁?”被转换成文本数据,以传输到功能提供服务器30。
另一方面,在功能提供服务器30中,获取指示用户正在观看的电视剧的标识符、制作时间位置、声音语言或字幕的信息,作为再现信息。然后,功能提供服务器30(功能提供服务器30的功能处理单元311)可以通过利用再现信息缩小累积在数据库313中的海量数据库,而将用于实现声音对话功能的对话信息的范围限制为用户正在观看电视剧的时间段。
此外,各种处理中的任何一个可以用作在此处执行的对话处理。例如,可以使用以下处理。
即,在功能处理单元311中,言语理解单元331首先分析来自声音转换服务器20的文本数据,并且基于上下文理解用户的言语的主题或意图。随后,对话控制单元332基于由言语理解单元331理解的用户的言语的主题或意图、先前对话的历史等来决定执行哪个回答。最后,言语生成单元333基于对话控制单元332的决定结果,生成适合于用户意图的言语(对用户的言语的回答)。
此时,言语理解单元331至言语生成单元333参考数据库313执行处理。然而,包括在数据库313中的对话信息利用再现信息而缩小,可以基于关于受限制的对话信息执行对话处理。
在此处,除了知识数据库或语音数据库之外,数据库313还可以包括诸如言语历史或用户信息等数据库,作为用于获得用于实现声音对话功能的对话信息的数据库。此外,在本文中例证的对话处理仅仅是示例,并且可以使用已知对话处理的技术。
以这种方式获得的回答(对用户的言语的回答)由功能提供服务器30的通信I/F312经由互联网90传输到接收装置50(S114)。
从功能提供服务器30传输的回答由接收装置50经由互联网90接收,并且执行步骤S143的处理。即,接收装置50(接收装置50执行的广播应用程序)从来自扬声器521的功能提供服务器30输出适合于回答(对用户的言语的回答)的声音(S143)。
例如,当用户询问用户正在观看的电视剧中所示的女演员的姓名时,输出与回复“该女演员是xxxx”(“xxxx”是女演员的姓名)对应的声音,作为这个问题的回答(例如,问题“女演员是谁?”)。因此,正在观看该电视剧的用户可以知道该电视剧中所示的女演员的姓名。
此外,如上所述,在接收装置50中,可以在显示单元522的屏幕上显示适合于来自功能提供服务器30的回答的信息。另外,可以从声音处理装置60的扬声器615输出适合于来自功能提供服务器30的回答的声音。
另外,在上述描述中,假设通知与服务器应用程序配合的广播应用程序再现信息,如上所述。然而,可以通过接收装置50的常驻应用程序来通知再现信息,或者可以通过广播应用程序来通知使用接收装置50的应用编程界面(API)。简而言之,服务器应用程序可以获取再现信息,并且可以使用任何通知。此外,常驻应用程序是预先嵌入在接收装置50中的应用程序。
上面已经描述了声音对话处理的流程。
(应用程序配合处理)
接下来,将参考图10的流程图描述对应于图8的步骤S111和S142的处理的应用程序配合处理。
在此处,在图10中,步骤S161至S165的处理由安装在数据中心中的功能提供服务器30执行。另外,步骤S171至S176的处理由安装在用户家中的接收装置50或声音处理装置60执行。
当功能提供服务器30的功能处理单元311将具有电视节目功能的服务器应用程序注册为用于使用声音代理服务的服务器应用程序时(S161),激活服务器应用程序(S162)。
另一方面,在接收装置50中,再现广播内容(S171)。此外,激活广播应用程序(S172)。
以这种方式,在服务器侧的功能提供服务器30中激活服务器应用程序并且在客户端侧的接收装置50中激活广播应用程序的情况下,服务器应用程序生成个人识别号码(PIN)码并经由互联网90将PIN码传输到广播应用程序(S163)。由接收装置50接收PIN码(PIN码的文本数据)。
在接收装置50中,由广播应用程序在显示单元522上显示来自服务器应用程序的PIN码(S173)。以这种方式,确认在接收装置50的屏幕上显示的PIN码的用户读取PIN码。
在此处,例如,当用户读取PIN码以及预定关键字(命令字)时,如同“服务A要求电视节目激活PIN****”(****:显示的PIN码)一样,可以在声音代理服务端识别用户读取的PIN码。
在声音处理装置60中,声音处理单元611确定是否可以识别用户读取的PIN码(S174)。在步骤S174中确定不能识别PIN码的情况下,重复步骤S174的确定处理。在声音处理装置60中,在可能无法识别PIN码的情况下,用户可以再次读取PIN码。
相反,在步骤S174中确定可以识别PIN码的情况下,该处理进入步骤S175。在步骤S175中,声音处理装置60的通信I/F 613经由互联网90传输用户读取的PIN码的声音数据。
此外,尽管没有描述,以便于描述,但是来自声音处理装置60的PIN码的声音数据传输到声音转换服务器20,使得声音数据可以被转换为文本数据。以这种方式获得的PIN码的文本数据由功能提供服务器30接收。
在功能提供服务器30中,功能处理单元311通过比较和检查为广播应用程序传输的PIN码(PIN码的文本数据)和从声音处理装置60传输的PIN码(文本数据的PIN码),来确定来自声音处理装置60的PIN码是否合法(S164)。
在步骤S165中确定来自声音处理装置60的PIN码是合法的情况下,该处理进入步骤S165(S176)。在步骤S165(S176)中,在客户端侧的接收装置50中激活的广播应用程序与在功能提供服务器30中激活的服务器应用程序之间的配合开始。
以这种方式,传送给未指定用户的广播应用程序与使用广播应用程序的特定用户的属性相关联。即,当服务器应用程序通知执行广播应用程序的接收装置50现有标识信息(PIN码)并且通过使用声音用户代理服务接收确认所通知的标识信息(PIN码)的特定用户的言语时,特定用户的属性被关联。
当应用程序之间的配合以这种方式开始时,可以执行在上述图8的步骤S111和S142的处理之后的处理。
此外,在步骤S165中确定来自声音处理装置60的PIN码不合法的情况下,跳过步骤S166的处理(S176),并且认为广播应用程序不与服务器应用程序配合。
上面已经描述了应用程序配合处理的流程。
此外,在图10的描述中举例说明了处理顺序,其中,在诸如电视接收机等接收装置50上显示来自功能提供服务器30的PIN码、用户读取PIN码、从声音处理装置60传输PIN码的声音数据。然而,另一通知方式可以用作PIN码的通知方式。
例如,与上述图10中所示的处理的流程相反,来自功能提供服务器30的PIN码的声音数据(或文本数据)经由互联网90发送到声音处理装置60,并且声音处理装置60输出适合于PIN码的声音。然后,可以允许用户根据接收装置50执行的广播应用程序中的声音输入PIN码。广播应用程序中输入的PIN码由服务器应用程序经由互联网90接收,以用于服务器应用程序的PIN码检查处理(S164)。
另外,各种处理顺序中的任何一个可以用作应用程序配合处理时的处理顺序。例如,可以在便携式终端装置(例如,用户携带的智能手机)上显示来自功能提供服务器30的PIN码。可替换地,用户可以不读取PIN码,但是可以从诸如智能手机等便携式终端装置输入PIN码,以作为文本数据传输。
此外,当在接收装置50中激活广播应用程序时,不必执行图10中所示的应用程序配合处理。例如,可以通过执行以下处理来实现应用程序之间的配合,而不执行图10中所示的处理。即,当在图10的步骤S164的处理中确认PIN码是合法的时,功能提供服务器30使用浏览器的cookie结构记录令牌信息。在下一次之后,相同的广播应用程序执行与功能提供服务器30的通信的情况下,通过使用记录的令牌信息,实现应用程序之间的配合,而不执行图10所示的处理。
上面已经描述了第一实施方式。在第一实施方式中,由客户端侧的接收装置50执行的广播应用程序经由互联网90与服务器侧的功能提供服务器30执行的服务器应用程序配合。因此,声音处理装置60提供的声音代理服务的用户界面被认为可用于由接收装置50执行的广播应用程序中。
然后,在功能提供服务器30中,当执行与正在观看广播内容的用户的对话处理时,使用从与服务器应用程序配合的广播应用程序获得的再现信息来缩小累积在数据库313中的海量数据库,然后,基于利用再现信息缩小的对话信息执行对话处理。
例如,当累积关于与每个广播站的所有频道等效的电视节目的数据,作为功能提供服务器30中的数据库313中的知识数据库时,可能在接收到仅关于女演员姓名的问题时未指定女演员正在表演的节目和时间段,并因此可能不会做出适当的回答。
另一方面,当可以利用来自接收装置50执行的广播应用程序的再现信息缩小知识数据库的数据,并且可以基于利用再现信息缩小的对话信息来执行对话处理时,可以指定女演员表演的电视节目和时间段。因此,即使在仅接收关于女演员的姓名的问题时,也可以做出适当的回答。
以这种方式,根据本技术,由于广播应用程序和服务器应用程序在再现内容时彼此配合并且可以使用声音代理服务的用户界面,因此可以实现使用声音对话提高操作的便利性。另外,当执行对话处理时,在功能提供服务器30中使用再现信息。因此,可以与正在观看广播内容的用户执行适当的声音对话。
<3、第二实施方式>
顺便提及,在图1的声音对话系统1中,为了验证(激活)用作声音代理服务的用户界面的声音处理装置60,如上所述,用户通常会说出预先确定的激活关键字。即,当用户说出激活关键字时,声音处理装置60将适合于用户的言语的声音数据传输到数据中心的声音转换服务器20,从而可以执行声音对话的处理。
例如,在“服务A”被设置为用于声音代理服务的激活关键字的情况下,用户说出“服务A”并随后说出问题、命令等。
另外,在服务器侧的功能提供服务器30中,激活具有不同功能的多个服务器应用程序。因此,在服务器应用程序与由客户端侧的接收装置50激活的广播应用程序配合的情况下,需要说出为声音代理服务预先设置的关键字“服务A”和“电视节目”,用于将具有电视节目功能的服务器应用程序用作激活关键字。
然而,由于用户具有说出两个关键字作为激活关键字的负担,因此关键字的数量优选地尽可能小。因此,在本技术中,有效服务器应用程序的激活关键字当前注册在声音处理装置60中,使得当在使用服务器应用程序时说出激活关键字时,可以使用期望的服务器应用程序。
具体地,如图11所示,在可以使用具有电视节目功能的服务器应用程序的情况下,用户说出“服务A,开始电视节目”(其中,“开始”是命令字)。然后,用预先设置的激活关键字“服务A”验证用作声音代理服务的用户界面的声音处理装置60,并且用户说出的声音数据经由互联网90传输到声音转换服务器20。
声音转换服务器20允许功能提供服务器30根据命令词“开始”激活具有电视节目功能的服务器应用程序。此外,在具有电视节目功能的服务器应用程序通过功能提供服务器30正常激活的情况下,声音转换服务器20请求声音处理装置60注册激活关键字“电视节目”。因此,在声音处理装置60中注册激活关键字“电视节目”。
此后,除了预先设置的激活关键字“服务A”之外,声音处理装置60还识别具有电视节目功能的服务器应用程序的激活关键字“电视节目”,并将用户说出的声音数据传输到声音转换服务器20。图12示出了记录在声音处理装置60的存储器612上的激活关键字的表格的示例。
此外,当与由功能提供服务器30执行的电视节目的功能的服务器应用程序无效,声音转换服务器20通知声音处理装置60经由互联网90指示服务器应用程序的无效的消息。在声音处理装置60中,根据该消息从记录在存储器612上的表格中删除激活关键字“电视节目”。
此外,在该示例中,假设激活关键字是文本串,并且声音处理装置60的声音处理单元611如上所述识别激活关键字。为了提高声音识别的精度(识别率),也可以使用激活关键字的声音特征数据等。
返回参考图11,为了描述,在注册激活关键字“电视节目”并且随后正在观看电视剧的用户询问“电视节目,女演员是谁?”的情况下,由于已经注册了激活关键字“电视节目”,因此声音处理装置60经由互联网90向声音转换服务器20传输问题的声音数据。结果,例如,声音处理装置60向正在观看该电视剧的用户回复该电视剧中所示的女演员的姓名。
在10分钟之后正在观看电视剧的用户询问“电视节目,她多大了?”的情况下,声音处理装置60经由互联网90将问题的声音数据传输到声音转换服务器20。结果,例如,声音处理装置60向正在观看电视剧的用户回复电视剧中所示的女演员的年龄。
在15分钟之后正在观看电视剧的用户说出命令“服务A,关闭室内灯”的情况下,因为激活关键字“服务A”是声音代理服务的激活关键字,所以声音处理装置60控制在用户家中的通过诸如家庭局域网(LAN)或蓝牙(注册商标)等无线通信连接的照明设备,以便打开或关闭照明设备。
在25分钟之后正在观看该电视剧的用户询问“电视节目,男演员是谁?”的情况下,声音处理装置60经由互联网90将该问题的声音数据传输到声音转换服务器20。结果,例如,声音处理装置60向正在观看电视剧的用户回复电视剧中所示的演员的姓名。
通过在用作声音代理服务的用户界面的声音处理装置60中如上所述预先注册用于使用正在服务器侧激活的服务器应用程序的激活关键字,甚至在用户只说出“电视节目”而不说出“服务A”时,可以使用具有电视节目功能的服务器应用程序。
此外,激活关键字“电视节目”仅在广播应用程序与广播内容相关联地操作时有效。因此,当广播内容结束时,激活关键字可以无效。因此,在接收装置50中,在用户没有观看广播内容的情况下,激活关键字“电视节目”被认为是无效的。即使当用户说出“电视节目”时,在不接收激活关键字的情况下,声音处理装置60也不对激活关键字回应。
另外,当接收装置50断电或切换频道时,可以取消由功能提供服务器30执行的广播应用程序和服务器应用程序之间的配合,并且可以使激活关键字“电视节目”无效。
此外,与在相关技术的声音用户界面服务中一样,服务器应用程序可能由于超时而自然地无效,声音转换服务器20可使服务器应用程序无效,或者可使用现有命令字使服务器应用程序无效。例如,在“停止”用作现有命令字的情况下,通过说出“服务A停止电视节目”使服务器应用程序无效。
另外,如上所述,声音处理装置60管理激活关键字的表格(参见图12)并确定激活关键字是否有效。然而,可以由声音转换服务器20或功能提供服务器30而不是声音处理装置60来确定激活关键字是否有效。
(激活关键字匹配处理)
接下来,将参考图13的流程图描述激活关键字匹配处理的流程。
在接收装置50中,再现广播内容(S211)并且进一步激活广播应用程序(S212)。
在使用服务器应用程序的情况下,用户向用作声音代理服务的用户界面的声音处理装置60说出用于在默认激活关键字之后激活功能服务的命令字。在此处,例如,当用户说出“服务A开始电视节目”时,“服务A”等同于默认激活关键字,“开始电视节目”等同于用于激活功能服务的命令字。
在声音处理装置60中,声音处理单元611确定用户说出的字是否是默认激活关键字(S201)。
在步骤S201中确定默认激活关键字(例如,“服务A”)的情况下,该处理进入步骤S202。在步骤S202中,声音处理装置60的通信I/F 613经由互联网90将用户的言语的声音数据传输到声音转换服务器20。
声音处理装置60传输的声音数据由声音转换服务器20经由互联网90接收,并且执行步骤S231至S233的处理。
在声音转换服务器20中,声音到文本转换处理单元211从用户的言语的声音数据中识别命令词,并请求功能提供服务器30激活功能服务的服务器应用程序(S231)。在功能提供服务器30中,功能处理单元311响应于来自声音转换服务器20的请求,激活功能服务的服务器应用程序(S221)。
在此处,例如,在声音到文本转换处理单元211识别命令词“开始电视节目”的情况下,请求激活具有电视节目功能的服务器应用程序,并且由功能处理单元311激活具有电视节目功能的服务器应用程序。
另一方面,在声音转换服务器20中,确定是否在功能提供服务器30中正常激活服务器应用程序(S232)。在步骤S232中确定正常激活服务器应用程序的情况下,该处理进入步骤S233。
在步骤S233中,声音到文本转换处理单元211请求声音处理装置60经由互联网90注册目标的激活关键字(例如,“电视节目”)。
声音处理装置60确定是否存在来自声音转换服务器20的注册激活关键字的请求(S203)。在步骤S203中确定存在注册激活关键字的请求的情况下,该处理进入步骤S204。
在步骤S204中,声音处理单元611在记录在存储器612上的表格中,注册来自声音转换服务器20的目标的激活关键字(参见图12)。因此,例如,“电视节目”被注册为激活关键字,用于使用具有电视节目功能的服务器应用程序。
在此处,在正在观看广播内容的用户说话的情况下,可以由声音处理装置60(声音处理装置60的声音处理单元611)接收言语(S205)。
在步骤S206中,声音处理单元611确定在步骤S202的处理中接收的言语中包括的关键字是否是默认激活关键字(例如,声音代理服务“服务A”的激活关键字)。
在步骤S206中确定关键字是默认激活关键字的情况下,该处理进入步骤S209。在这种情况下,由于激活关键字是合法的,因此适合于用户言语的声音数据传输到声音转换服务器20(S209)。
相反,在步骤S206中确定关键字不是默认激活关键字的情况下,该处理进入步骤S207。在步骤S207中,声音处理单元611确定在步骤S205的处理中接收的言语中包括的关键字是否包括在记录在存储器612上的表格的激活关键字中。
在步骤S207中确定关键字包括在激活关键字中的情况下,该处理进入步骤S208。在步骤S208中,声音处理单元611确定步骤S207中的处理目标的激活关键字是否有效。
在步骤S208中确定目标的激活关键字有效的情况下,该处理进入步骤S209。在这种情况下,由于激活关键字是合法的,因此适合于用户言语的声音数据传输到声音转换服务器20(S209)。
在步骤S201中确定关键字不是默认激活关键字(S201中的“否”)或者在步骤S203中确定没有注册激活关键字的请求(S203中的“否”)的情况下,不必执行后续处理。因此,跳过后续处理。类似地,在步骤S232中确定服务器应用程序未在功能提供服务器30中激活(S232中的“否”)的情况下,不必执行后续处理。因此,跳过后续处理。
相反,在步骤S207中确定关键字不包括在激活关键字中(S207中的“否”)或者在步骤S208中确定目标的激活关键字无效(S208中的“否”)的情况下,跳过步骤S206的处理。在这种情况下,由于激活关键字不合法,因此认为不执行将声音数据传输到声音转换服务器20的处理。
以这种方式,在声音处理装置60中,在使用声音代理服务时的正常上下文和使用声音对话功能(电视节目功能)时的特定上下文是可接收的情况下,当用户说出用于验证特定上下文的声音对话功能(电视节目功能)的激活关键字并且通过声音代理服务接收时,验证正常上下文和特定上下文的声音对话功能(电视节目功能)并接收特定上下文。
然后,在声音处理装置60中,仅在特定上下文有效的时段期间,利用声音代理服务接收用于验证声音对话功能(电视节目功能)的激活关键字的言语。另外,声音处理装置60记录用于验证声音对话功能(电视节目功能)的激活关键字,并且仅在特定上下文有效的时段期间验证激活关键字,以便当用户在特定上下文有效的时段内说出激活关键字时,接收到特定上下文。
上面已经描述了第二实施方式。在第二实施方式中,声音处理装置60管理激活关键字的表格(参见图12)并执行确定用户说出的激活关键字是否有效的处理。因此,例如,当使用具有电视节目功能的服务器应用程序时,用户可以仅说出激活关键字“电视节目”。
因此,例如,不必说出为声音代理服务预先设置的关键字“服务A”和使用服务器应用程序的“电视节目”。在使用服务器应用程序时,可以减轻用户的负担。
此外,第二实施方式中描述的细节当然可以单独执行。还可以结合第一或第三实施方式中描述的处理来执行细节。
<4、第三实施方式>
顺便提及,即使在由客户端侧的接收装置50执行的广播应用程序和由服务器侧的功能提供服务器30执行的服务器应用程序彼此配合的情况下,用户也可能难以识别广播应用程序和服务器应用程序的配合。
特别地,当用户正在观看由诸如电视接收机等接收装置50再现的广播内容时,用户朝向接收装置50定向。因此,由于用户没有朝向用作用作声音代理服务的用户界面的声音处理装置60定向,所以发生难以识别声音处理装置60的反应的情况。
因此,根据本技术,在广播应用程序和服务器应用程序彼此配合的同时显示配合。
具体地,如图14所示,在广播应用程序和服务器应用程序彼此配合的情况下,配合图标551显示在右下区域中,以在接收装置50的屏幕上重叠诸如电视剧等广播内容的视频上。
配合图标551是指示广播应用程序和服务器应用程序正在彼此配合的图标。另外,如关键字551A所示,服务器应用程序的激活关键字可以在配合图标551中显示。在该示例中,显示用于使用具有电视节目功能的服务器应用程序的激活关键字“电视节目”,作为关键字551A。
此外,在确认配合图标551的用户说出激活关键字并且验证(激活)声音处理装置60的情况下,可以通过广播应用程序来实现适合于用户的言语的显示。
(配合图标显示处理)
接下来,将参考图15的流程图描述配合图标显示处理的流程。
在接收装置50中,再现广播内容(S311)。此外,激活广播应用程序(S312)。
在步骤S313中,处理单元511确定广播应用程序和服务器应用程序是否彼此配合。
在步骤S313中确定这两个应用程序彼此配合的情况下,该处理进入步骤S314。在步骤S314中,处理单元511根据来自服务器应用程序的通知,在显示单元522的屏幕的预定区域中显示配合图标(图14中的配合图标551)。
在步骤S315中,处理单元511确定是否使用了激活关键字。
在步骤S315中确定使用激活关键字的情况下,该处理进入步骤S316。在步骤S316中,处理单元511显示激活关键字(图14的关键字551A),使得激活关键字包括在步骤S314的处理中显示的配合图标中。
相反,在步骤S313中确定这两个应用程序彼此不配合(S313中的“否”)或者在步骤S315中确定不使用激活关键字(S315中的“否”)的情况下,跳过步骤S314的处理或步骤S316的处理。在这种情况下,认为不显示配合图标。
在此处,在正在观看广播内容的用户说话的情况下,声音处理装置60(声音处理装置60的声音处理单元611)接收言语(S301)。在言语包括激活关键字(例如,“电视节目”)的情况下,适合于言语的声音数据传输到声音转换服务器20。另一方面,在接收装置50中,由广播应用程序实现适合于用户的言语的显示(S317)。
上面已经描述了配合图标显示处理的流程。
(配合以外的显示示例)
在以上描述中,已经描述了通过在接收装置50中的广播应用程序显示配合图标的情况。然而,可以使用另一种显示方式,只要可以显示指示广播应用程序和服务器应用程序彼此配合的配合信息即可。
例如,如图16所示,接收装置50包含的常驻应用程序可以在屏幕的上部区域显示指示广播应用程序和服务器应用程序彼此配合的配合信息552。在配合信息中,显示用于使用具有电视节目功能的服务器应用程序的激活关键字“电视节目”,作为关键字552A。
另外,例如,如图17所示,可以使用能够操作诸如电视接收机等接收装置50的操作装置70(例如,遥控器)。操作装置70可以接收与声音代理服务有关的操作。例如,当用户按下声音代理服务的激活按钮71时,可以由在接收装置50中的常驻应用程序显示配合信息552。
此外,在操作装置70具有显示功能的情况下,可以在操作装置70的显示单元(未示出)上显示配合信息552。此外,在用户按下激活按钮71的情况下,可以在不说出激活关键字的情况下验证声音处理装置60。
另外,配合图标551或配合信息552是用于通知用户使用声音代理服务可以接收在使用声音对话功能(电视节目功能)时的特定上下文的通知信息的示例。当信息是能够通知用户可以使用声音代理服务接收特定上下文的信息时,可以使用另一信息。另外,例如,作为通知信息,可以在接收装置50或操作装置70中打开灯。
上面已经描述了第三实施方式。在第三实施方式中,当广播应用程序和服务器应用程序彼此配合时,在接收装置50中显示在广播应用程序和服务器应用程序之间的配合。因此,用户可以毫不犹豫地说出激活关键字,用于使用服务器应用程序。
此外,第三实施方式中描述的细节可以与第一或第二实施方式中描述的细节组合。
<5、修改示例>
(接收装置的另一种配置)
在以上描述中,已经描述了作为不同装置的接收装置50和声音处理装置60。接收装置50和声音处理装置60可以实现为集成装置(捆绑装置)。例如,可以通过将声音处理装置60设置为声音处理模块并且在接收装置50的功能中提供声音处理模块,来实现捆绑装置。
另外,在以上描述中,接收装置50已被描述为诸如电视接收机等固定接收机或诸如智能电话等移动接收机。然而,接收装置50可以是诸如头戴式显示器(HMD)等可穿戴计算机。此外,接收装置50可以是例如安装在诸如车载电视等汽车上的装置。即,只要该装置是能够再现或记录内容的装置,任何装置都可以用作接收装置50。
(服务器的其他配置)
在以上描述中,声音转换服务器20和功能提供服务器30已被描述为不同的服务器。但是,服务器可以集成,以具有这两个服务器的功能。
另外,在以上描述中,声音识别服务已经由声音转换服务器20提供。然而,可以在声音处理装置60侧执行声音识别功能。
即,声音处理装置60可以将用户说出的声音数据转换为文本数据,并且经由互联网90可以将作为结果获得的文本数据传输到功能提供服务器30。此外,在转换时使用的数据库213可以通过互联网90由服务器提供,或者可以由声音处理装置60保留。
(广播方案的示例)
在上面的描述中,已经描述了ATSC(特别是ATSC 3.0),该ATSC是在美国等作为广播内容的广播方案采用的方案。本技术可以应用于作为日本等国采用的方案的综合业务数字广播(ISDB)或作为欧洲国家采用的方案的数字视频广播(DVB)。
另外,在上面的描述中,已经描述了ATSC 3.0,作为示例,其中,采用使用UDP/IP分组的IP传输方案。然而,本技术不限于IP传输方案。例如,可以应用诸如MPEG2-传输流(TS)方案等另一种方案。
此外,地面广播已被描述为用于传输广播内容的传输路径。在本技术中,除了地面广播之外,还使用卫星广播,其中,使用广播卫星(BS)、通信卫星(CS)等。可替换地,当然,可以使用诸如有线电视(CATV)等有线广播的广播传输路径。可以使用互联网协议电视(IPTV)网络、互联网等的通信传输路径。
此外,在图1的声音对话系统1中,已经举例说明了仅包括执行流多路复用处理的多路复用器115的广播站和执行调制处理等的传输单元116传输装置10(参见图2)。然而,在通用数字广播系统中,多路复用器115和传输单元116安装在不同的位置。例如,多路复用器115安装在广播站中,并且传输单元116安装在传输站中。
(应用程序的示例)
广播应用程序不限于使用诸如HTML5等标记语言或诸如JavaScript(注册商标等脚本语言开发的应用程序。例如,可以使用利用诸如Java(注册商标)等程序语言开发的应用程序。另外,广播应用程序不限于显示,而是可以在背景上或以非显示方式执行。
另外,由接收装置50执行的应用程序不限于由浏览器执行的应用程序,而是可以在操作系统(OS)环境(呈现控制环境)中执行所谓的本机应用程序。此外,由接收装置50执行的应用程序不限于通过广播获取,而是可以通过互联网90通过来自服务器的通信来获取。
另外,由接收装置50再现的内容不限于通过广播传送的广播内容,而是可以使用通过通信传送的通信内容。通信内容包括例如以视频点播(VOD)流传输的方式传送的内容或可下载的内容。此外,除了电视节目(例如,新闻、体育、电视剧等)或电影之外,广播内容和通信内容可以包括诸如运动图像、音乐、电子书、游戏和广告等各种内容。
(其他)
本说明书中使用的名称是示例,并且在某些情况下实际使用不同的名称。名称的差异仅仅是形式上的差异,目标的实质细节并没有不同。例如,在某些情况下,上述激活关键字称为命令字。
<6、计算机配置>
上述一系列处理(例如,图8和图9中示出的声音对话处理、图13中示出的激活关键字匹配处理以及图15中示出的配合图标显示处理)可以通过硬件或软件执行。在通过软件执行一系列处理的情况下,包括软件的程序安装在每个装置的计算机上。图18是示出由程序执行上述一系列处理的计算机的硬件配置的示例的方框图。
在计算机1000中,中央处理单元(CPU)1001、只读存储器(ROM)1002和随机存取存储器(RAM)1003通过总线1004彼此连接。输入和输出接口1005进一步连接到总线1004。输入单元1006、输出单元1007、记录单元1008、通信单元1009和驱动器1010连接到输入和输出接口1005。
键盘、鼠标、麦克风等用作输入单元1006。显示器、扬声器等用作输出单元1007。硬盘、非易失性存储器等用作记录单元1008。网络界面等用作通信单元1009。驱动器1010驱动诸如磁盘、光盘、磁光盘或半导体存储器等记录介质1011。
在具有上述配置的计算机1000中,CPU 1001通过经由输入和输出接口1005和总线1004将记录在ROM 1002或记录单元1008上的程序加载到RAM 1003并执行该程序,来执行上述一系列处理。
由计算机1000(CPU 1001)执行的程序可以记录在例如可移动记录介质1011(例如,封装介质)上,用于供应。另外,可以经由诸如局域网、互联网或数字广播等有线或无线传输介质提供程序。
在计算机1000中,通过将可移除记录介质1011安装在驱动器1010上,可以经由输入和输出接口1005将程序安装在记录单元1008上。此外,程序可以由通信单元1009经由有线或无线传输介质接收,并且可以安装在记录单元1008上。另外,程序可以预先安装在ROM1002或记录单元1008上。
在此处,在本说明书中,由计算机根据程序执行的处理可以不必按照作为流程图描述的顺序按时间顺序执行。即,由计算机根据程序执行的处理还包括并行或单独执行的处理(例如,并行处理或对象处理)。另外,程序可以由一个计算机(处理器)处理,或者可以由多个计算机分发和处理。
此外,本技术的实施方式不限于上述实施方式,而是在不脱离本技术的主旨的情况下,可以在本技术的范围内进行各种变化。
另外,还可以如下配置本技术。
(1)一种接收装置,包括处理电路,处理电路被配置为:在向用户呈现内容期间,从用户接收与内容相关的语音命令;将语音命令传输到服务器系统以进行处理;并且从服务器系统接收对语音命令的响应,对语音命令的响应基于语音命令和用于识别与语音命令相关的内容的内容信息而生成。
(2)根据特征(1)所述的接收装置,其中,内容是音频内容或视频内容;并且处理电路被配置为解码音频内容或视频内容以显示给用户,并且在音频内容或视频内容的显示期间,接收与音频内容或视频内容相关的语音命令。
(3)根据特征(1)或(2)所述的接收装置,其中,处理电路被配置为在向用户呈现内容的同时,执行广播应用程序,并且广播应用程序被编程为向服务器系统提供内容信息。
(4)根据特征(1)至(3)中任一项所述的接收装置,其中,服务器系统包括第一服务器和第二服务器;并且处理电路被配置为将语音命令传输到服务器系统中包括的第一服务器,并且从服务器系统中包括的第二服务器接收对语音命令的响应。
(5)根据特征(1)至(4)中任一项所述的接收装置,其中,语音命令包括激活字,激活字指示语音命令与呈现给用户的内容相关。
(6)根据特征(1)至(5)中任一项所述的接收装置,其中,语音命令包括与呈现给用户的内容相关的查询,并且从服务器系统接收的对语音命令的响应包括对语音命令中包括的问题的回答。
(7)根据特征(1)至(6)中任一项所述的接收装置,其中,处理电路被进一步配置为解码内容以用于呈现给用户。
(8)一种接收对语音命令的响应的方法,方法包括:在向用户呈现内容期间,从用户接收与内容相关的语音命令;由接收装置的处理电路将语音命令传输到服务器系统以进行处理;并且由接收装置的处理电路从服务器系统接收对语音命令的响应,对语音命令的响应基于语音命令和用于识别与语音命令相关的内容的内容信息而生成。
(9)根据特征(8)所述的方法,其中,内容是音频内容或视频内容;并且方法还包括解码音频内容或视频内容以向用户进行显示,并且接收语音命令包括在音频内容或视频内容的显示期间,接收与音频内容或视频内容相关的语音命令。
(10)根据特征(8)或(9)所述的方法,还包括:在向用户呈现内容的同时,执行广播应用程序;并且广播应用程序被编程为向服务器系统提供内容信息。
(11)根据特征(8)至(10)中任一项所述的方法,其中,服务器系统包括第一服务器和第二服务器;传输包括将语音命令传输到服务器系统中包括的第一服务器;并且接收响应包括从服务器系统中包括的第二服务器接收对语音命令的响应。
(12)根据特征(8)至(11)中任一项所述的方法,其中,语音命令包括激活字,激活字指示语音命令与呈现给用户的内容相关。
(13)根据特征(8)至(12)中任一项所述的方法,其中,语音命令包括与呈现给用户的内容相关的查询,并且从服务器系统接收的对语音命令的响应包括对语音命令中包括的问题的回答。
(14)根据特征(8)至(13)中任一项所述的方法,还包括:解码内容以用于呈现给用户。
(15)一种存储指令的非暂时性计算机可读介质,该指令在由处理器执行时使处理器执行用于接收对语音命令的响应的方法,方法包括:在向用户呈现内容期间,从用户接收与内容相关的语音命令;将语音命令传输到服务器系统以进行处理;并且从服务器系统接收对语音命令的响应,对语音命令的响应基于语音命令和用于识别与语音命令相关的内容的内容信息而生成。
(16)根据特征(15)所述的非暂时性计算机可读介质,其中,内容是音频内容或视频内容;并且方法还包括解码音频内容或视频内容以显示给用户,并且接收语音命令包括在音频内容或视频内容的显示期间,接收与音频内容或视频内容相关的语音命令。
(17)根据特征(15)或(16)所述的非暂时性计算机可读介质,还包括:在向用户呈现内容的同时,执行广播应用程序,其中,广播应用程序被编程为向服务器系统提供内容信息。
(18)根据特征(15)至(17)中任一项所述的非暂时性计算机可读介质,其中,服务器系统包括第一服务器和第二服务器;并且传输包括将语音命令传输到服务器系统中包括的第一服务器,并且接收响应包括从服务器系统中包括的第二服务器接收对语音命令的响应。
(19)根据特征(15)至(18)中任一项所述的非暂时性计算机可读介质,其中,语音命令包括激活字,激活字指示语音命令与呈现给用户的内容相关。
(20)根据特征(15)至(19)中任一项所述的非暂时性计算机可读介质,其中,语音命令包括与呈现给用户的内容相关的查询,并且从服务器系统接收的对语音命令的响应包括对语音命令中包括的问题的回答。
(21)根据特征(15)至(20)中任一项所述的非暂时性计算机可读介质,还包括:将内容解码以用于呈现给用户。
(22)一种信息处理系统,包括处理电路,处理电路被配置为:从接收装置接收与呈现给用户的内容相关的语音命令;获得用于识别与语音命令相关的内容的内容信息;基于语音命令和获得的用于识别与语音命令相关的内容的内容信息,生成对语音命令的响应;并且向接收装置传输所生成的对语音命令的响应。
(23)根据特征(22)所述的信息处理系统,其中,处理电路被配置为在向用户呈现内容的同时,从在接收装置上执行的广播应用程序获得用于识别与语音命令相关的内容的内容信息。
(24)根据特征(22)或(23)所述的信息处理系统,其中,语音命令包括激活字,激活字指示语音命令与呈现给用户的内容相关。
(25)根据特征(22)至(24)中任一项所述的信息处理系统,其中,语音命令包括与呈现给用户的内容相关的查询,并且对语音命令的响应包括对语音命令中包括的查询的回答。
(26)一种用于处理语音命令的方法,方法包括:从接收装置接收与呈现给用户的内容相关的语音命令;获得用于识别与语音命令相关的内容的内容信息;由信息处理装置的处理电路基于语音命令和获得的用于识别与语音命令相关的内容的内容信息,生成对语音命令的响应;并且向接收装置传输所生成的对语音命令的响应。
(27)根据特征(26)所述的方法,其中,获得内容信息包括:在向用户呈现内容的同时,从在接收装置上执行的广播应用程序获得用于识别与语音命令相关的内容的内容信息。
(28)根据特征(26)或(27)所述的方法,其中,语音命令包括激活字,激活字指示语音命令与呈现给用户的内容相关。
(29)根据特征(26)至(28)中任一项所述的方法,其中,语音命令包括与呈现给用户的内容相关的查询,并且对语音命令的响应包括对语音命令中包括的查询的回答。
(30)一种存储指令的非暂时性计算机可读介质,该指令在由处理器执行时使处理器执行用于处理语音命令的方法,方法包括:从接收装置接收与呈现给用户的内容相关的语音命令;获得用于识别与语音命令相关的内容的内容信息;基于语音命令和获得的用于识别与语音命令相关的内容的内容信息,生成对语音命令的响应;并且向接收装置传输所生成的对语音命令的响应。
(31)根据特征(30)所述的非暂时性计算机可读介质,其中,获得内容信息包括:在向用户呈现内容的同时,从在接收装置上执行的广播应用程序获得用于识别与语音命令相关的内容的内容信息。
(32)根据特征(30)或(31)所述的非暂时性计算机可读介质,其中,语音命令包括激活字,激活字指示语音命令与呈现给用户的内容相关。
(33)根据特征(30)至(32)中任一项所述的非暂时性计算机可读介质,其中,语音命令包括与呈现给用户的内容相关的查询,并且对语音命令的响应包括对语音命令中包括的查询的回答。
(34)一种信息处理装置,包括:
处理单元,被配置为基于在用于实现包括在数据库中的声音对话功能的再现信息之中的随着关于该内容的再现信息而缩小的对话信息,执行与和观看作为再现目标的内容的用户的声音对话有关的处理。
(35)根据(34)所述的信息处理装置,其中,
处理单元执行在连接到互联网的服务器侧执行的第一应用程序,并且
通过允许第一应用程序与在再现该内容的客户端侧执行的第二应用程序配合,通过声音代理服务提供的用户界面能够实现声音对话功能。
(36)根据(35)所述的信息处理装置,其中,处理单元执行将要传送给非特定用户的第二应用程序与使用第二应用程序的特定用户的属性相关联的处理。
(37)根据(36)所述的信息处理装置,其中,
第一应用程序通知客户端侧执行现有标识信息的第二应用程序,并且
通过接收使用声音代理服务确认所通知的标识信息的特定用户的声音言语,来关联特定用户的属性。
(38)根据(36)所述的信息处理装置,其中,
执行第二应用程序的客户端使用声音代理服务输出适合于现有标识信息的声音,并且
通过由第二应用程序接收由确认适合于标识信息的输出声音的特定用户执行的输入,来关联特定用户的属性。
(39)根据(35)所述的信息处理装置,
其中,在使用声音代理服务时的正常上下文和使用声音对话功能时的特定上下文是可接收的情况下,并且当用于验证特定上下文的声音对话功能的关键字作为用户的声音说出并且通过使用声音代理服务而接收时,验证正常上下文和特定上下文的声音对话功能,并且接收特定上下文的声音对话。
(40)根据(39)所述的信息处理装置,其中,仅在特定上下文有效的时段期间,使用声音代理服务来接收作为用于验证声音对话功能的关键字的声音而说出的声音。
(41)根据(40)所述的信息处理装置,其中,
由声音代理服务提供的用户界面由安装在客户端侧的声音处理装置提供,并且
声音处理装置记录关键词,用于验证声音对话功能,并且仅在特定上下文有效的时段期间验证关键字,从而当关键字由特定用户在特定上下文有效的时段期间作为声音说出时,接收特定上下文。
(42)根据(34)至(41)中任一项所述的信息处理装置,其中,再现信息至少包括用于识别内容的标识信息、指示内容中的再现时间位置的位置信息以及关于内容的声音或字幕的语言的信息。
(43)根据(35)至(42)中任一项所述的信息处理装置,其中,
内容是作为广播波传送的广播内容,并且
第二应用程序是与广播内容联动的广播应用程序。
(44)一种信息处理装置的信息处理方法,方法包括由信息处理装置:
基于在用于实现包括在数据库中的声音对话功能的再现信息之中的随着关于该内容的再现信息而缩小的对话信息,执行与和观看作为再现目标的内容的用户的声音对话有关的处理。
(45)一种接收装置,包括:
接收单元,被配置为接收内容;
再现单元,被配置为再现所接收的内容;以及
处理单元,被配置为处理关于作为再现目标的内容的再现信息,并且将再现信息传输到提供与和观看内容的用户的声音对话有关的声音对话功能的服务器侧。
(46)根据(45)所述的接收装置,其中,
处理单元执行在再现内容的客户端侧执行的第二应用程序,
通过允许第二应用程序在连接到互联网并提供声音对话功能的服务器侧执行的第一应用程序配合,通过声音代理服务提供的用户界面能够用于实现声音对话功能,并且
第二应用程序输出通过声音对话功能获得的处理结果。
(47)根据(46)所述的接收装置,其中,
在能够使用声音代理服务接收使用声音代理服务时的正常上下文和使用声音对话功能时的特定上下文的情况下,仅在特定上下文可接收的时段期间,促使显示用于验证声音对话功能的关键字,并且促使显示适合于关键字的通知信息。
(48)根据(47)所述的接收装置,其中,
第二应用程序促使显示由第一应用程序通知的通知信息。
(49)根据(47)所述的接收装置,其中,
接收与声音代理服务相关的操作的操作装置促使显示由第一应用程序通知的通知信息。
(50)根据(47)至(49)中任一项的接收装置,其中,
由声音代理服务提供的用户界面由安装在客户端侧的接收装置或声音处理装置提供。
(51)根据(45)至(50)中任一项所述的接收装置,其中,再现信息至少包括用于识别内容的标识信息、指示内容中的再现时间位置的位置信息以及关于内容的声音或字幕的语言的信息。
(52)根据(46)至(51)中任一项的接收装置,其中,
内容是作为广播波传送的广播内容,并且
第二应用程序是与广播内容联动的广播应用程序。
(53)一种接收装置的信息处理方法,方法包括由接收装置:
接收内容;
再现接收到的内容;并且
处理关于作为再现目标的内容的再现信息,并且将再现信息传输到提供与和观看内容的用户的声音对话有关的声音对话功能的服务器侧。
附图标记列表
1 声音对话系统
10 传输装置
20 声音转换服务器
30 功能提供服务器
50 接收装置
60 声音处理装置
70 操作装置
90 互联网
111 内容生成单元
113 应用程序生成单元
116 传输单元
211 声音到文本转换处理单元
213 数据库
311 功能处理单元
313 数据库
331 言语理解单元
332 对话控制单元
333 言语生成单元
511 处理单元
512 存储器
514 调谐器
515 多路分用器
516 声音解码器
517 声音输出单元
518 视频解码器
519 视频输出单元
520 浏览器
521 扬声器
522 显示单元
523 通信I/F
1000 计算机
1001 CPU。
Claims (19)
1.一种接收装置,包括:
处理电路,被配置为
在向用户呈现内容期间,从所述用户接收与所述内容相关的语音命令,
将所述语音命令传输到服务器系统以进行处理,并且
从所述服务器系统接收对所述语音命令的响应,对所述语音命令的响应基于所述语音命令和用于识别与所述语音命令相关的所述内容的内容信息而生成。
2.根据权利要求1所述的接收装置,其中,
所述内容是音频内容或视频内容;并且
所述处理电路被配置为
解码所述音频内容或视频内容以显示给所述用户,并且
在所述音频内容或视频内容的显示期间,接收与所述音频内容或视频内容相关的语音命令。
3.根据权利要求1所述的接收装置,其中,
所述处理电路被配置为在向所述用户呈现所述内容的同时,执行广播应用程序,并且
所述广播应用程序被编程为向所述服务器系统提供所述内容信息。
4.根据权利要求1所述的接收装置,其中,
所述服务器系统包括第一服务器和第二服务器;并且
所述处理电路被配置为
将所述语音命令传输到所述服务器系统中包括的所述第一服务器,并且
从所述服务器系统中包括的所述第二服务器接收对所述语音命令的响应。
5.根据权利要求1所述的接收装置,其中,所述语音命令包括激活字,所述激活字指示所述语音命令与呈现给所述用户的内容相关。
6.根据权利要求1所述的接收装置,其中,
所述语音命令包括与呈现给所述用户的内容相关的查询,并且
从所述服务器系统接收的对所述语音命令的响应包括对所述语音命令中包括的问题的回答。
7.根据权利要求1所述的接收装置,其中,所述处理电路被进一步配置为解码所述内容以用于呈现给所述用户。
8.一种用于接收对语音命令的响应的方法,所述方法包括:
在向用户呈现内容期间,从所述用户接收与所述内容相关的语音命令,
由接收装置的处理电路将语音命令传输到服务器系统以进行处理,并且
由所述接收装置的所述处理电路从所述服务器系统接收对所述语音命令的响应,对所述语音命令的响应基于所述语音命令和用于识别与所述语音命令相关的所述内容的内容信息而生成。
9.根据权利要求8所述的方法,其中,
所述内容是音频内容或视频内容,
所述方法进一步包括解码所述音频内容或视频内容以显示给所述用户,并且
接收所述语音命令包括在所述音频内容或视频内容的显示期间,接收与所述音频内容或视频内容相关的语音命令。
10.根据权利要求8所述的方法,进一步包括:
在向所述用户呈现所述内容的同时,执行广播应用程序,其中,
所述广播应用程序被编程为向所述服务器系统提供所述内容信息。
11.根据权利要求8所述的方法,其中,
所述服务器系统包括第一服务器和第二服务器,
传输包括将所述语音命令传输到所述服务器系统中包括的所述第一服务器,并且
接收所述响应包括从所述服务器系统中包括的所述第二服务器接收对所述语音命令的响应。
12.根据权利要求8所述的方法,其中,所述语音命令包括激活字,所述激活字指示所述语音命令与呈现给所述用户的内容相关。
13.根据权利要求8所述的方法,其中,
所述语音命令包括与呈现给所述用户的内容相关的查询,并且
从所述服务器系统接收的对所述语音命令的响应包括对所述语音命令中包括的问题的回答。
14.根据权利要求8所述的方法,进一步包括:
解码所述内容以用于呈现给所述用户。
15.一种存储指令的非暂时性计算机可读介质,所述指令在由处理器执行时,使所述处理器执行用于接收对语音命令的响应的方法,所述方法包括:
在向用户呈现内容期间,从所述用户接收与所述内容相关的语音命令;
将所述语音命令传输到服务器系统以进行处理;并且
从所述服务器系统接收对所述语音命令的响应,对所述语音命令的响应基于所述语音命令和用于识别与所述语音命令相关的所述内容的内容信息而生成。
16.一种信息处理系统,包括:
处理电路,被配置为
从接收装置接收与呈现给用户的内容相关的语音命令,
获得用于识别与所述语音命令相关的所述内容的内容信息,
基于所述语音命令和获得的用于识别与所述语音命令相关的所述内容的内容信息,生成对所述语音命令的响应,并且
向所述接收装置传输所生成的对所述语音命令的响应。
17.根据权利要求16所述的信息处理系统,其中,所述处理电路被配置为在向所述用户呈现所述内容的同时,从在所述接收装置上执行的广播应用程序获得用于识别与所述语音命令相关的所述内容的内容信息。
18.根据权利要求16所述的信息处理系统,其中,所述语音命令包括激活字,所述激活字指示所述语音命令与呈现给所述用户的内容相关。
19.根据权利要求16所述的信息处理系统,其中,
所述语音命令包括与呈现给所述用户的内容相关的查询;并且
对所述语音命令的响应包括对所述语音命令中包括的查询的回答。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017084575A JP7026449B2 (ja) | 2017-04-21 | 2017-04-21 | 情報処理装置、受信装置、及び情報処理方法 |
JP2017-084575 | 2017-04-21 | ||
PCT/JP2018/014732 WO2018193878A1 (en) | 2017-04-21 | 2018-04-06 | Information processing device, reception device, and information processing method |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109313901A true CN109313901A (zh) | 2019-02-05 |
CN109313901B CN109313901B (zh) | 2024-04-16 |
Family
ID=62044913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880002467.6A Active CN109313901B (zh) | 2017-04-21 | 2018-04-06 | 信息处理装置、接收装置和信息处理方法 |
Country Status (8)
Country | Link |
---|---|
US (2) | US20190147881A1 (zh) |
EP (2) | EP3940526A1 (zh) |
JP (2) | JP7026449B2 (zh) |
KR (1) | KR20190141569A (zh) |
CN (1) | CN109313901B (zh) |
CA (1) | CA3027680A1 (zh) |
MX (1) | MX2018015642A (zh) |
WO (1) | WO2018193878A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111246024A (zh) * | 2020-02-28 | 2020-06-05 | 广州市讯飞樽鸿信息技术有限公司 | 一种通话过程中的互动点播交互方法、系统及装置 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108012173B (zh) * | 2017-11-16 | 2021-01-22 | 百度在线网络技术(北京)有限公司 | 一种内容识别方法、装置、设备和计算机存储介质 |
US10930278B2 (en) * | 2018-04-09 | 2021-02-23 | Google Llc | Trigger sound detection in ambient audio to provide related functionality on a user interface |
US11520821B2 (en) | 2018-11-27 | 2022-12-06 | Rovi Guides, Inc. | Systems and methods for providing search query responses having contextually relevant voice output |
JP7326731B2 (ja) * | 2018-11-30 | 2023-08-16 | 株式会社リコー | 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム |
CN113168829B (zh) | 2018-12-03 | 2024-11-01 | 谷歌有限责任公司 | 语音输入处理 |
JP2022036352A (ja) * | 2018-12-27 | 2022-03-08 | ソニーグループ株式会社 | 表示制御装置、及び表示制御方法 |
US20220084518A1 (en) * | 2019-01-07 | 2022-03-17 | Sony Group Corporation | Information Processing Device And Information Processing Method |
WO2020175384A1 (en) * | 2019-02-25 | 2020-09-03 | Clarion Co., Ltd. | Hybrid voice interaction system and hybrid voice interaction method |
CN113498538A (zh) * | 2020-02-07 | 2021-10-12 | 海信视像科技股份有限公司 | 接收装置、服务器以及语音信息处理系统 |
US11308958B2 (en) * | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
JP7463242B2 (ja) * | 2020-09-16 | 2024-04-08 | Tvs Regza株式会社 | 受信装置、サーバ及び音声情報処理システム |
US11996094B2 (en) * | 2020-07-15 | 2024-05-28 | Google Llc | Automated assistant with audio presentation interaction |
WO2022101890A1 (en) * | 2020-11-16 | 2022-05-19 | Vocal Power-House Systems, LLC | Responsive communication system |
WO2023188466A1 (ja) | 2022-03-31 | 2023-10-05 | Tdk株式会社 | 全固体二次電池 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1585479A (zh) * | 1998-05-19 | 2005-02-23 | 联合视频制品公司 | 具有点播电视浏览功能的节目向导系统 |
US20060075429A1 (en) * | 2004-04-30 | 2006-04-06 | Vulcan Inc. | Voice control of television-related information |
US20130002716A1 (en) * | 2004-01-12 | 2013-01-03 | United Video Properties, Inc. | Customizable flip and browse overlays in an interactive television system |
US20140165105A1 (en) * | 2012-12-10 | 2014-06-12 | Eldon Technology Limited | Temporal based embedded meta data for voice queries |
JP2015139035A (ja) * | 2014-01-21 | 2015-07-30 | 船井電機株式会社 | 表示装置 |
CN106462636A (zh) * | 2014-06-20 | 2017-02-22 | 谷歌公司 | 解释视频内容中的可听话语信息 |
CN106462617A (zh) * | 2014-06-30 | 2017-02-22 | 苹果公司 | 用于电视机用户交互的智能自动化助理 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004135133A (ja) | 2002-10-11 | 2004-04-30 | Tdk Corp | 無線通信方法および装置、無線lanアダプタ、ならびにコンピュータプログラム |
CN100574423C (zh) * | 2004-01-27 | 2009-12-23 | 松下电器产业株式会社 | 电视接收机和数字广播系统 |
JP4719153B2 (ja) * | 2004-07-05 | 2011-07-06 | パナソニック株式会社 | 番組検索装置 |
EP2470725A1 (en) * | 2009-08-27 | 2012-07-04 | Smart Solutions And Designs Pty Limited | Transport of fluids |
EP2741497A4 (en) * | 2011-08-05 | 2015-03-11 | Sony Corp | RECEIVING DEVICE, RECEIVING METHOD, PROGRAM, AND INFORMATION PROCESSING SYSTEM |
JP5903939B2 (ja) | 2012-03-08 | 2016-04-13 | ソニー株式会社 | 受信装置、受信方法、及びプログラム |
KR102056461B1 (ko) * | 2012-06-15 | 2019-12-16 | 삼성전자주식회사 | 디스플레이 장치 및 디스플레이 장치의 제어 방법 |
KR102009316B1 (ko) | 2013-01-07 | 2019-08-09 | 삼성전자주식회사 | 대화형 서버, 디스플레이 장치 및 그 제어 방법 |
JP5456189B2 (ja) | 2013-02-08 | 2014-03-26 | 株式会社東芝 | 表示制御装置、及び情報送信方法 |
JP2014153663A (ja) | 2013-02-13 | 2014-08-25 | Sony Corp | 音声認識装置、および音声認識方法、並びにプログラム |
US10585568B1 (en) | 2013-02-22 | 2020-03-10 | The Directv Group, Inc. | Method and system of bookmarking content in a mobile device |
US20150038047A1 (en) * | 2013-07-30 | 2015-02-05 | Mattel, Inc. | Building set |
JP6351987B2 (ja) | 2014-01-31 | 2018-07-04 | シャープ株式会社 | 発話制御装置、発話装置、発話制御システム、発話制御方法、発話装置の制御方法、および制御プログラム |
JP2015163920A (ja) | 2014-02-28 | 2015-09-10 | シャープ株式会社 | 音声システム |
JP6227459B2 (ja) * | 2014-03-31 | 2017-11-08 | Kddi株式会社 | 遠隔操作方法ならびにシステムならびにそのユーザ端末および視聴端末 |
EP2947635B1 (en) * | 2014-05-21 | 2018-12-19 | Samsung Electronics Co., Ltd. | Display apparatus, remote control apparatus, system and controlling method thereof |
JP6387287B2 (ja) * | 2014-11-14 | 2018-09-05 | 株式会社デンソーテン | 不明事項解消処理システム |
US9564177B1 (en) * | 2015-03-24 | 2017-02-07 | Amazon Technologies, Inc. | Intelligent video navigation techniques |
US9558784B1 (en) * | 2015-03-24 | 2017-01-31 | Amazon Technologies, Inc. | Intelligent video navigation techniques |
US10721499B2 (en) * | 2015-03-27 | 2020-07-21 | Twitter, Inc. | Live video streaming services |
US10331312B2 (en) * | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
JP7020799B2 (ja) * | 2017-05-16 | 2022-02-16 | ソニーグループ株式会社 | 情報処理装置、及び情報処理方法 |
-
2017
- 2017-04-21 JP JP2017084575A patent/JP7026449B2/ja active Active
-
2018
- 2018-04-06 MX MX2018015642A patent/MX2018015642A/es unknown
- 2018-04-06 EP EP21156710.2A patent/EP3940526A1/en active Pending
- 2018-04-06 EP EP18719679.5A patent/EP3446308A1/en not_active Ceased
- 2018-04-06 WO PCT/JP2018/014732 patent/WO2018193878A1/en active Application Filing
- 2018-04-06 KR KR1020187035957A patent/KR20190141569A/ko not_active Application Discontinuation
- 2018-04-06 US US16/303,284 patent/US20190147881A1/en not_active Abandoned
- 2018-04-06 CA CA3027680A patent/CA3027680A1/en active Pending
- 2018-04-06 CN CN201880002467.6A patent/CN109313901B/zh active Active
-
2020
- 2020-12-29 US US17/136,928 patent/US11676595B2/en active Active
-
2022
- 2022-02-15 JP JP2022021220A patent/JP7477547B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1585479A (zh) * | 1998-05-19 | 2005-02-23 | 联合视频制品公司 | 具有点播电视浏览功能的节目向导系统 |
US20130002716A1 (en) * | 2004-01-12 | 2013-01-03 | United Video Properties, Inc. | Customizable flip and browse overlays in an interactive television system |
US20060075429A1 (en) * | 2004-04-30 | 2006-04-06 | Vulcan Inc. | Voice control of television-related information |
US20140165105A1 (en) * | 2012-12-10 | 2014-06-12 | Eldon Technology Limited | Temporal based embedded meta data for voice queries |
JP2015139035A (ja) * | 2014-01-21 | 2015-07-30 | 船井電機株式会社 | 表示装置 |
CN106462636A (zh) * | 2014-06-20 | 2017-02-22 | 谷歌公司 | 解释视频内容中的可听话语信息 |
CN106462617A (zh) * | 2014-06-30 | 2017-02-22 | 苹果公司 | 用于电视机用户交互的智能自动化助理 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111246024A (zh) * | 2020-02-28 | 2020-06-05 | 广州市讯飞樽鸿信息技术有限公司 | 一种通话过程中的互动点播交互方法、系统及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2018182692A (ja) | 2018-11-15 |
EP3940526A1 (en) | 2022-01-19 |
JP7477547B2 (ja) | 2024-05-01 |
KR20190141569A (ko) | 2019-12-24 |
CN109313901B (zh) | 2024-04-16 |
JP2022058998A (ja) | 2022-04-12 |
US20210201904A1 (en) | 2021-07-01 |
US11676595B2 (en) | 2023-06-13 |
EP3446308A1 (en) | 2019-02-27 |
CA3027680A1 (en) | 2018-10-25 |
US20190147881A1 (en) | 2019-05-16 |
MX2018015642A (es) | 2019-03-06 |
WO2018193878A1 (en) | 2018-10-25 |
JP7026449B2 (ja) | 2022-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109313901A (zh) | 信息处理装置、接收装置和信息处理方法 | |
KR102520019B1 (ko) | 방송 환경들에서의 스피치 인식 애플리케이션들에 대한 스피치 강화 | |
CN103828382B (zh) | 视频显示装置、终端装置及其方法 | |
JP5905392B2 (ja) | オンラインソーシャルネットワークによる自動メディア資産アップデート | |
US9003452B2 (en) | Systems, methods, and apparatus for recording broadband content | |
CN104685895A (zh) | 接收装置、接收方法、发送装置,和发送方法 | |
US20140366055A1 (en) | Terminal, a set information inputting method of an electronic apparatus, a computer readable information storage medium, and an electronic apparatus | |
US20160294903A1 (en) | Method and device for pushing resources to mobile communication terminal by smart television | |
US9032452B2 (en) | Method and apparatus for simulating head-end connectivity on a set-top box | |
US11930248B2 (en) | Information processing apparatus, information processing method, transmission apparatus, and transmission method | |
CN101252674B (zh) | 网络系统、服务器设备、终端设备、内容指南的显示方法 | |
JP7029218B2 (ja) | 再生データ取得方法、装置、機器及び記憶媒体 | |
KR20050101791A (ko) | 맞춤형 프로그램 컨텐츠 제공 방법 및 시스템 | |
US11343588B2 (en) | Information processing apparatus, information processing method, transmission apparatus, and transmission method | |
CN104205864B (zh) | 信息处理方法、信息处理装置和信息处理系统 | |
KR20190093386A (ko) | 음성 인식을 기반으로 디지털 방송에서의 전자 서비스 안내 서비스를 제공하는 장치 및 그 방법 | |
JP2015115708A (ja) | テレビ受像機、コンテンツ再生方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |