CN110326300B - 信息处理设备、信息处理方法及计算机可读存储介质 - Google Patents

信息处理设备、信息处理方法及计算机可读存储介质 Download PDF

Info

Publication number
CN110326300B
CN110326300B CN201880012920.1A CN201880012920A CN110326300B CN 110326300 B CN110326300 B CN 110326300B CN 201880012920 A CN201880012920 A CN 201880012920A CN 110326300 B CN110326300 B CN 110326300B
Authority
CN
China
Prior art keywords
user
output control
information
sound source
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201880012920.1A
Other languages
English (en)
Other versions
CN110326300A (zh
Inventor
斋藤真里
杉原贤次
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN110326300A publication Critical patent/CN110326300A/zh
Application granted granted Critical
Publication of CN110326300B publication Critical patent/CN110326300B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/011Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

根据本技术的实施方式的信息处理设备包括:用户信息获取单元、对象信息获取单元以及输出控制单元。用户信息获取单元获取从位于用户所在的空间中的声源根据第一控制量正在自动地再现主题的内容时与用户的注视位置有关的信息。对象信息获取单元获取与声源有关的位置信息和与用户正在注视的第一对象有关的位置信息。输出控制单元在第一对象内的注视位置向声源移动的情况下根据与第一控制量不同的第二控制量来执行向用户提供主题的内容的第一输出控制。

Description

信息处理设备、信息处理方法及计算机可读存储介质
技术领域
本技术涉及适用于内容再现控制的信息处理设备、信息处理方法及程序。
背景技术
在专利文献1中公开了利用鸡尾酒会效应提供标签信息。如果用户将便携式终端的扬声器保持在耳朵上,则便携式终端通过语音同时输出与周围位置相关联的标签信息。即使在存在各种噪音的情况下,人类也可以自然地区分他们感兴趣的词或对话(鸡尾酒会效应)。因此,可以从同时输出的标签信息中快速地选择感兴趣的标签信息并且获取标签信息的详细信息(专利文献1的说明书第[0027]段至第[0029]段、第[0050]段至第[0052] 段、图3和图9等)。
引用列表
专利文献
专利文献1:JP-A-2013-101248
发明内容
技术问题
需要一种能够有效地向人类提供信息的技术,诸如使用这样的人类特征的信息提供方法。例如,也期望有效地提供主题的内容(substance of content)以用于内容再现控制。
鉴于前述情况,本技术的目的是提供能够有效地提供主题的内容的信息处理设备、信息处理方法及程序。
问题的解决方案
为了实现上述目的,根据本技术的一个方面的信息处理设备包括:用户信息获取单元、对象信息获取单元以及输出控制单元。用户信息获取单元获取从位于用户所在的空间中的声源根据第一控制量正在自动地再现主题的内容的期间的与用户的注视位置有关的信息。对象信息获取单元获取与声源有关的位置信息和与用户正在注视的第一对象有关的位置信息。输出控制单元在第一对象内的注视位置向声源移动的情况下,根据与第一控制量不同的第二控制量来执行向用户提供主题的内容的第一输出控制。
在该信息处理设备中,分别获取与用户的注视位置有关的信息、再现内容的声源的位置信息以及由用户注视的第一对象的位置信息。然后,在第一对象内的注视位置向声源移动的情况下执行第一输出控制。因此,例如,可以根据用户的反应等执行再现控制,并且有效地提供主题的内容。
根据本技术的一个方面的信息处理方法是一种由计算机系统执行的信息处理方法,并且包括:获取从位于用户所在的空间中的声源根据第一控制量正在自动地再现主题的内容的期间的与用户的注视位置有关的信息。获取与声源有关的位置信息和与用户正在注视的第一对象有关的位置信息。在第一对象内的注视位置向声源移动的情况下根据与第一控制量不同的第二控制量来执行向用户提供主题的内容的第一输出控制。
根据本技术的一个方面的程序使计算机系统执行以下步骤:
获取从位于用户所在的空间中的声源在根据第一控制量正在自动地再现主题的内容的期间的与用户的注视位置有关的信息的步骤;
获取与声源有关的位置信息和与用户正在注视的第一对象有关的位置信息的步骤;以及
在第一对象内的注视位置向声源移动的情况下根据与第一控制量不同的第二控制量来执行向用户提供主题的内容的第一输出控制的步骤。本发明的有益效果
如上所述,根据本技术,可以有效地提供主题的内容。注意,本文中所描述的效果不必受限制,并且可以包括本公开内容中描述的任何效果。
附图说明
[图1]图1是示出根据实施方式的内容提供系统的配置示例的示意图。
[图2]图2是示出根据本实施方式的用作信息处理设备的个人计算机 (PC)的功能配置示例的框图。
[图3]图3是示出内容输出控制的基本处理示例的流程图。
[图4]图4是示出用于确定对内容的感兴趣程度的增加的处理示例的流程图。
[图5]图5是用于描述用于确定注视位置的移动目的地是否是声源的示例的示意图。
[图6]图6是示出用于确定对内容的感兴趣程度的增加的另一处理示例的流程图。
[图7]图7是示出用于确定对内容的感兴趣程度的增加的另一处理示例的流程图。
[图8]图8是示出用于确定对内容的感兴趣程度的增加的另一处理示例的流程图。
[图9]图9是用于描述第一区域和第二区域的设置示例的示意图。
[图10]图10是用于描述人类视野特性的示意图。
[图11]图11是用于描述第一区域和第二区域的另一设置示例的示意图。
[图12]图12是示出用于确定对内容的感兴趣程度的增加的另一处理示例的流程图。
[图13]图13是示出用于确定对内容的感兴趣程度的增加的另一处理示例的流程图。
[图14]图14是示出用于确定对内容的感兴趣程度的增加的另一处理示例的流程图。
[图15]图15是示出内容再现控制的另一处理示例的流程图。
[图16]图16是示出逐步输出控制的另一处理示例的流程图。
[图17]图17是用于描述根据用户对内容的感兴趣程度的增加而执行的第一输出控制的另一示例的图。
[图18]图18是示出根据本技术的头戴式显示器的配置示例的透视图。
[图19]图19是示出根据本技术的头戴式显示器的配置示例的透视图。
[图20]图20是用于描述用作第一输出控制的显示单元的控制示例的图。
具体实施方式
在下文中,将参照附图描述本技术的实施方式。
[内容提供系统的配置]
图1是示出根据本技术的实施方式的内容提供系统的配置示例的示意图。图2是示出根据本实施方式的用作信息处理设备的个人计算机(PC) 的功能配置示例的框图。
如图1中所示,内容提供系统100包括由用户1使用的PC 10和用作再现内容的声源的电视设备30。在本实施方式中,PC 10是用户1在其上执行工作的设备,并且PC 10与用户1注视的第一对象对应。
如图2中所示,PC 10包括通信单元11、存储单元12、显示单元13、操作单元14、成像单元15、外部I/F(接口)16、麦克风17、扬声器18 和控制器19。
通信单元11是用于经由网络诸如局域网(LAN)或广域网(WAN) 与其他设备通信的通信模块。可以安装用于近场通信的通信模块诸如 Bluetooth(注册商标)。而且,可以使用通信装置诸如调制解调器或路由器。
在本实施方式中,PC 10经由通信单元11连通地连接至网络3上的各种服务器装置5。服务器装置5包括例如任何类型的服务器装置,诸如提供各种网络服务的网络服务器和电子邮件服务器。
例如,可以经由通信单元11与提供社交网络服务(SNS)(诸如LINE (注册商标)或Twitter(注册商标))或提供信使服务(诸如Skype(注册商标))的服务器装置5建立连接。用户1可以经由PC 10使用这些服务(应用)。此外,可以使用各种网络服务诸如用于通过增强现实(AR)、虚拟现实(VR)等实现通信的服务和新闻分发服务。
存储单元12是非易失性存储装置诸如硬盘驱动器(HDD)、固态驱动器(SSD)、闪存存储器或其他固态存储器。
存储单元12存储用于控制PC 10的整体操作的控制程序、用于执行根据本技术的信息处理方法的应用程序以及各种数据。在PC 10中安装应用程序等的方法不受限制。例如,可以经由各种记录介质、网络等通过任意方法执行安装。
显示单元13是利用例如液晶、电致发光(EL)等的显示装置。操作单元14的示例包括键盘、指向装置、触摸面板和其他操作装置。在操作单元14包括触摸面板的情况下,触摸面板可以与显示单元13集成在一起。
成像单元15可以使用PC 10对用户1的面部、上身等进行成像。例如,使用包括图像传感器诸如互补金属氧化物半导体(CMOS)或电荷耦合器件(CCD)传感器的数字摄像装置作为成像单元15。
外部I/F 16是基于标准与外部装置建立连接的接口诸如USB或高清晰度多媒体接口(HDMI)。麦克风17可以收集由用户1说出的语音。扬声器18可以输出语音。
控制器19包括配置计算机所需的硬件诸如中央处理单元(CPU)、只读存储器(ROM)和随机存取存储器(RAM)。当CPU将存储在存储单元12中的控制程序加载至RAM上并且执行控制程序时,执行各种处理。
控制器19的具体配置不受限制,并且例如,可以使用诸如现场可编程门阵列(FPGA)、图像处理集成电路(IC)或其他专用集成电路(ASIC) 的装置。
在本实施方式中,当控制器19的CPU执行根据本实施方式的程序时,内容分析单元21、输出声音控制单元22、声源控制单元23、视线检测单元24、运动检测单元25和语音确定单元26被实现为功能块。可以适当地使用专用硬件来实现每个功能块。
如图1中所示,用作声源的电视设备30包括显示单元31和示意性地示出的扬声器32。在本实施方式中,PC 10的声源控制单元23控制电视设备30的显示单元31和扬声器32中的每一个的操作。
例如,经由通信单元11在PC 10与电视设备30之间建立网络通信或近场通信,并且在其间发送控制信号。可替选地,可以经由外部I/F 16以有线或无线方式发送控制信号。此外,可以使用任意通信方法诸如红外 (IR)通信。
(用户信息的获取)
在本实施方式中,PC 10获取与用户1有关的各种用户信息。例如,与用户1的注视位置E有关的信息被包括为用户信息。与注视位置E有关的信息是可以根据其检测或估计用户1的注视位置E的信息,并且通常是用户1的视线方向的信息。当然,与注视位置E有关的信息不限于视线方向的信息,并且可以获取其他信息作为与注视位置E有关的信息。另外,可以获取与注视位置E本身有关的信息作为与注视位置E有关的信息。
在本实施方式中,视线检测单元24基于由成像单元15捕获的用户1 的图像来检测用户1的视线方向。然后,估计用户1的注视位置E。例如,可以基于用户1的眼睛的图像来检测视线方向,或者可以基于用户1的头部(面部)的方向来检测视线方向。此外,可以采用其他任意算法,并且可以使用机器学习诸如深度学习。在本实施方式中,成像单元15和视线检测单元24用作用户信息获取单元。
注意,与用户1的注视位置E有关的信息可以由与PC 10不同的设备等生成并且可以将该信息经由通信单元11或外部I/F 16发送至PC 10。例如,在电视设备30侧安装摄像装置,并且基于摄像装置所捕获的图像检测信息(诸如用户1的视线方向)。信息(诸如所检测到的视线方向)可以经由通信单元11等发送至PC 10作为与注视位置E有关的信息。在这种情况下,接收与注视位置E有关的信息的通信单元11等用作用户信息获取单元。
而且,在本实施方式中,与注视位置E有关的信息不同的与用户1 的行为有关的信息被获取为用户信息。与用户1的行为有关的信息包括与用户1的活动量有关的信息,并且当用户1的活动量小时,用户1的行为的信息量小。当用户1的活动量大时,用户1的行为的信息量大。
例如,运动检测单元25基于由成像单元15捕获的用户1的图像来检测用户1的表情、姿势、面部(头部)运动、手部运动等。然后,基于姿势或手部运动等的改变来生成与用户1的行为有关的信息。
例如,当表情改变、上身移动、脸部(头部)从一侧摇动至另一侧并且用户用双手操作PC 10的键盘(操作单元14)时,与用户1的行为有关的信息量增加。另一方面,当上身的移动停止、面部(头部)运动停止,双手的运动停止等时,与用户1的行为有关的信息的信息量减少。
另外,用户1正在进行的行为类型的特定信息(即诸如“用双手操作 PC 10的键盘(操作单元14)”、“双手的移动停止”等的信息)可以包括在与用户1的行为有关的信息中。可以通过任意技术诸如例如使用机器学习的行为分析来获取与用户1的行为有关的信息。运动检测单元25用作用户信息获取单元。
另外,本发明不限于使用所捕获的用户1的图像的情况,并且可以基于由用户1操作的PC 10上的操作的存在或不存在以及操作量来生成与用户1的行为有关的信息。例如,可以基于键盘上的操作量、鼠标的移动量等来生成与用户1的行为有关的信息。另外,可以通过与PC 10不同的设备生成与用户1的行为有关的信息并且发送到至PC 10。在这种情况下,通信单元11等用作用户信息获取单元。
而且,在本实施方式中,获取与用户1的语音有关的信息作为用户信息。与用户1的语音有关的信息包括例如由麦克风17收集的用户1的语音和与语音有关的各种类型的信息。
在本实施方式中,语音确定单元26确定用户1的语音是否是语言语音。语言语音是构成有意义的语言的语音,并且可以通过使用例如机器学习的任意语音分析技术来执行确定。
在本实施方式中,用户1是否是语言语音的确定结果被包括在与用户 1的语音有关的信息中。另外,指示用户1不是语言语音的确定结果对应于与非语言语音有关的信息。例如,假设由用户1说出不构成有意义的语言的非语言语音诸如“哦!”和“是吗?”。然后,语音确定单元26确定用户1的语音不是语言语音。确定结果的获取与非语言语音的信息的获取对应。当然,语音确定单元26可以确定用户1的语音是否是非语言语音。
例如,用于语音输入的语言可以被预先登记在PC 10中,并且可以确定由麦克风17收集的语音是否是构成所登记的语言的语音。在这种情况下,当用户1的语音不构成为语音输入而登记的语言时,可以将其处理为无意义的非语言语音。换言之,指示用户1的语音不是为语音输入而登记的语言的语音的确定结果可以作为与非语言语音有关的信息来处理。
(对象信息的获取)
而且,在本实施方式中,由PC 10获取对象信息。对象信息包括与位于用户1所在的空间2中的电视设备30有关的位置信息、与作为第一对象的PC 10有关的位置信息以及与位于空间2中的声源不同的第二对象有关的位置信息。
与声源不同的第二对象通常是用户1可能注视的对象,并且可以被视为具有一定程度的关注的对象。在图1中所示的示例中,时钟40被示为第二对象。本技术不限于此,并且日历、固定电话、书架等可以被视为第二对象。另外,人(诸如家庭成员)或动物(诸如宠物)也被视为第二对象。位于空间2中的第二对象的数目不受限制。
在本实施方式中,获取参考位置信息和边界位置信息作为与电视设备30有关的位置信息。参考位置信息是电视设备30的预定参考点的位置信息。参考点可以被设置在任何位置,诸如例如电视设备30的显示单元31 的中心或扬声器32的位置。在本实施方式中,参考点S1被设置在显示单元31的中心(参见图5)。
边界位置信息是电视设备30的内部与外部之间的边界的位置信息。通常,电视设备30的边缘B1的位置信息被用作边界位置信息(参见图5)。如稍后参照图5所述,参考位置信息用于确定用户1的注视位置E是否正在向电视设备30移动。边界位置信息用于确定注视位置E是在电视设备 30内还是在电视设备30外。
类似地,获取参考位置信息作为与PC 10相关的位置信息,该参考位置信息作为PC10的预定参考点的位置信息。另外,获取边界位置信息以限定PC 10的内部和外部。例如,设置在显示单元13的中心的参考点S2 的位置信息被用作参考位置信息。显示单元13的边缘B2的位置信息等被用作边界位置信息(参见图5)。
针对与作为第二对象的时钟40有关的位置信息也获得参考位置信息和边界位置信息。例如,获取设置在时钟40的中心的参考点S3的位置信息作为参考位置信息,并且获取时钟40的边缘B3的位置信息作为边界位置信息(参见图5)。
获取与电视设备30、PC 10和时钟40中的每一个有关的位置信息的方法不受限制。例如,可以由PC 10的成像单元15对整个空间2进行拍摄,并且可以由PC 10基于所捕获的图像来生成与每个设备有关的位置信息。在这种情况下,例如,由控制器19实现的用于生成位置信息的功能块用作对象信息获取单元。
可替选地,与每个设备有关的位置信息可以由与PC 10不同的另一设备诸如例如放置在空间2中的地图生成设备、网络3上的用于地图生成的服务器装置5等基于整个空间2的所捕获的图像等生成。在这种情况下,接收所生成的位置信息的通信单元11或外部I/F16用作对象信息获取单元。而且,用于生成与每个设备等有关的位置信息的算法等不受限制,并且可以使用包括机器学习等的任意算法。
[内容输出控制]
将描述向用户1提供主题的内容的输出控制。在本实施方式中,内容分析单元21、输出声音控制单元22和声源控制单元23实现输出控制单元并且执行内容输出控制。
此处,将作为示例描述如图1中示意性地示出的由电视设备30的扬声器32再现由包括用户1的多个用户组成的组经由网络3进行的对话的内容的情况。用户1在收听从扬声器32输出的组的对话的同时正在使用 PC 10工作。
图3是示出内容输出控制的基本处理示例的流程图。首先,由电视设备30的扬声器32根据第一控制量自动地再现对话的内容(步骤101)。
在本实施方式中,网络3上的服务器装置5发送包括组中的对话的内容的服务信息。服务信息包括与内容有关的各种类型的信息,诸如例如与正在进行对话的组有关的信息,或者包括诸如对话开始时间、每个语音的语音时间、对话类型,兴奋程度等的各种类型的信息。内容分析单元21 基于服务信息来分析主题的内容(此处,由组进行的对话的内容)以及与内容有关的各种类型的信息,并且向输出声音控制单元22输出该信息。
输出声音控制单元22执行与由电视设备30的扬声器32输出的语音数据有关的控制。在本实施方式中,输出声音控制单元22生成要从扬声器32再现的语音数据。例如,当通过文本输入来执行在组中进行的对话时,生成通过每个对话的语音合成而获得的合成语音数据。例如,可以使用任意的文本到语音(TTS)技术。
当通过语音输入来执行组的对话时,每个对话的语音数据被用作要输出的语音数据而无需改变。当然,可以将其一次性转换成文本以生成合成语音数据。
本发明不限于所有对话都作为语音输出的情况,并且可以提取预定关键词(例如,专有名词、具有高出现频率的词,重读发音的词等),并且可以生成关键词的语音数据。而且,可以适当地概括对话的内容,并且可以生成所概括的语音数据。可以使用任意算法来实现关键词的提取和概要的生成。
而且,可以针对组中的每个成员改变语音数据的频率。而且,可以以取决于兴奋程度的方式生成用于表达兴奋程度的语音数据。例如,当兴奋程度高时,以高音量再现每个成员的声音。可替选地,可以输出与对话不同的语音诸如背景声音(隆隆声)。此外,可以采用与主题的内容的再现有关的任意语音输出,并且执行对与其对应的语音数据的控制。
声源控制单元23经由电视设备30的扬声器32控制语音输出操作。例如,控制来自扬声器32的语音输出的音量、再现速度等。另外,可以进行与语音输出有关的各种类型的控制。
如图3的步骤101中所示,根据第一控制量执行由输出声音控制单元 22对输出语音的控制和由声源控制单元23对语音输出操作的控制。此处,“控制量”的示例包括与内容的再现有关的各种类型的控制有关的控制量 (诸如音量、再现速度、主题的内容的信息量和再现定时)。
音量和再现速度是要再现的内容的再现音量和再现速度。主题的内容的信息量是要向用户1提供的内容的信息量。例如,当从主题的内容中提取关键词并且再现关键词时,关键词量与信息量对应。而且,当概括和再现主题的内容时,概要的信息量与信息量对应。随着概要的信息量增加,主题的内容的概要的详细程度增加。
例如,第一控制量被设置成不干扰使用PC 10的用户1的工作的程度,并且通过鸡尾酒会效应拾取感兴趣的关键词等。特定音量、特定信息量、特定再现速度等不受限制并且可以被适当地设置。
如图3中所示,在电视设备30根据第一控制量正在自动地再现主题的内容时确定用户1对内容的感兴趣程度是否增加(步骤102)。在本实施方式中,输出声音控制单元22基于来自视线检测单元24、运动检测单元25和语音确定单元26的检测结果来执行确定步骤。
当用户1对内容的感兴趣程度没有增加(流程图102中为否)时,处理返回至步骤101,并且继续根据第一控制量再现内容。当用户1对内容的感兴趣程度增加(步骤102中为是)时,根据第二控制量执行用于向用户1提供主题的内容的第一输出控制。换言之,“控制量”从第一控制量改变为第二控制量,并且根据第二控制量再现内容(步骤103)。
例如,在第一输出控制时设置的第二控制量被设置为使得可以根据用户1对内容的感兴趣程度的增加来更详细地提供主题的内容。注意,第一控制量与第二控制量之间的大小关系以取决于控制参数的方式而不同。例如,当控制参数是再现音量时,第二控制量具有比第一控制量大的值。当控制参数是再现速度时,第二控制量具有比第一控制量小的值。因此,例如,当在进行第一输出控制时同时控制再现速度和再现音量时,第一控制量与第二控制量之间的再现音量的大小关系与第一控制量与第二控制量之间的再现速度的大小关系不同。当然,在第一输出控制中,可以使用一种类型的控制参数,或者可以使用两种或更多种类型的控制参数的组合。
例如,将声源的再现音量设置成大的值。因此,音量从扬声器32增加,并且再现主题的内容。将再现速度设置成小的值。例如,当根据第一控制量在再现时执行快进再现等时,以正常再现速度(例如,1.3至2.0 倍再现速度→1.0倍速度)再现主题的内容。当然,不一定限于此。
而且,将要再现的主题的内容的信息量设置成大的值。例如,当提取并再现关键词时,增加要再现的关键词的量。而且,当概括并再现主题的内容时,比根据第一控制量再现的概要更详细的主题的内容被再现。例如,可以再现更详细的概要,或者可以再现主题的内容而无需进行概括。
例如,假设由于鸡尾酒会效应等,用户1感兴趣的关键词到达耳朵,并且对内容的感兴趣程度增加。在本实施方式中,PC 10检测到感兴趣程度的增加并且根据第二控制量执行第一输出控制。因此,用户1可以易于检测包括感兴趣的关键词的对话内容的细节。
当检测到用户1对内容的感兴趣程度增加时,可以再现紧接在检测定时之前再现的主题的内容的至少一部分。例如,可以将主题的内容倒回预定时间并再现主题的内容。因此,用户1可以追溯用户感兴趣的对话的内容。另外,可以基于检测到感兴趣程度的增加的定时适当地控制内容的再现定时作为第一输出控制。
存在确定用户1对内容的感兴趣程度的增加的各种方法。例如,检测用户1对感兴趣的关键词的瞬时反应。例如,可以考虑各种反应诸如转向声源、突然抬起面部、提高声音“哦!”、停止工作、身体变硬等,并且可以通过检测这些反应来确定感兴趣程度的增加。
图4是示出用于确定对内容的感兴趣程度的增加的处理示例的流程图。在步骤201中,确定作为第一对象的PC 10内的注视位置E是否在根据第一控制量正在再现内容时移动(步骤202)。
可以参照PC 10的边界位置信息来确定注视位置E是否在PC 10内。当注视位置E没有移动(步骤202中为否)时,处理返回至步骤201,并且继续根据第一控制量再现内容。
当PC 10内的注视位置E移动(步骤202中为是)时,确定移动目的地是否是声音设备或电视设备30(步骤203)。当移动目的地不是电视设备30(步骤203中为否)时,处理返回至步骤201,并且继续根据第一控制量再现内容。
当移动目的地是电视设备30(步骤203中为是)时,第一控制量被改变为第二控制量,并且执行第一输出控制(步骤204)。换言之,在该示例中,当PC 10内的注视位置E向电视设备30移动时,确定对内容的感兴趣程度增加,并且执行第一输出控制。
图5是用于描述用于确定注视位置E的移动目的地是否是声源的示例的示意图。例如,假设PC 10(第一对象)、电视设备30(声源)和时钟 40(第二对象)如图5中所示放置。然后,假设存储了与每个设备有关的位置信息(参考位置信息和边界位置信息)。
可以基于注视位置E的移动方向来确定注视位置E的移动目的地。例如,计算将移动之前的注视位置E1与电视设备30的参考位置S1连接的直线L1,并且将直线L1的方向设置为从注视位置E1至电视设备30的方向。当然,可以使用除参考位置S1之外的点。
另外,计算将移动之前的注视位置E1与时钟40连接的直线L2,并且将直线L2的方向设置为从注视位置E1至时钟40的方向。然后,确定连接在从移动之前的注视位置E1移动之后的注视位置E2的注视位置E 的移动方向(附图标记L3)是更接近从注视位置E1至电视设备30的方向还是更接近从注视位置E1至时钟40的方向。具体地,计算直线L1和 L2中的每一个与注视位置E的移动方向(附图标记L3)之间的角度。然后,将由具有较小角度的直线表示的方向确定为更接近注视位置E的移动方向的方向。
在图5中所示的示例中,注视位置E的移动方向更接近连接注视位置 E1与时钟40的直线L2。在这种情况下,确定注视位置E正向时钟40而不是向电视设备30移动。因此,在步骤203中确定为否,并且继续根据第一控制量再现内容。
如上所述,确定注视位置E的移动目的地是电视设备30还是时钟40。因此,可以确定注视位置E似乎在电视设备30处,但是用户1实际上看着时钟40,并且用户1没有对声源作出反应。换言之,可以以高准确度确定对内容的感兴趣程度是否增加。
图6是示出用于确定对内容的感兴趣程度的增加的另一处理示例的流程图。如图6中所示,当注视位置E的移动目的地是声源(步骤303中为是)时,可以确定注视位置E是否移动至作为第一对象的PC 10的外部 (步骤304)。当注视位置E没有移动至PC 10的外部(步骤304中为否) 时,继续根据第一控制量再现内容(步骤301)。当注视位置E移动至PC 10的外部(步骤304中为是)时,执行根据第二控制量的第一输出控制 (步骤305)。
如上所述,在注视位置E在向电视设备30移动的同时注视位置E移动至PC 10的外部时,执行第一输出控制,并且当注视位置E在向电视设备30移动的同时注视位置E保持在PC 10内部时,可以不执行第一输出控制。
例如,考虑在使用PC 10的用户1正在工作的同时视线(注视位置E) 在显示单元13上来回移动的情况。通过执行图6中所示的处理,可以根据对内容的感兴趣程度的增加来区分和确定工作时显示单元13上的视线的移动。因此,可以以非常高的准确度执行第一输出控制。
图7是示出用于确定对内容的感兴趣程度的增加的另一处理示例的流程图。在图7中所示的示例中,当注视位置E的移动目的地是声源(步骤403中为是)时,确定注视位置E是否在移动之后紧接着基本上停止(步骤404)。注视位置E基本上停止的情况的示例包括以下两者:注视位置E 完全停留在相同位置的情况以及注视位置E保持在预定的窄范围内的情况。
当注视位置E在移动之后紧接着没有基本上停止时,即当注视位置E 的移动继续(步骤404中为否)时,继续根据第一控制量再现内容(步骤 401)。当注视位置E基本上停止(步骤404中为是)时,执行根据第二控制量的第一输出控制(步骤405)。
如上所述,当在注视位置E向电视设备30移动之后注视位置E紧接着基本上停止时,执行第一输出控制,并且当注视位置E正在连续向电视设备30移动时可以不执行第一输出控制。因此,可以确定例如其是否是对感兴趣的关键词等的瞬时反应或者是向另一对象的视线的改变。换言之,可以准确地确定对内容的感兴趣程度的增加。
图8是示出用于确定对内容的感兴趣程度的增加的另一处理示例的流程图。图9至图11是用于描述图8中所示的处理示例的示意图。
在图8中所示的示例中,当注视位置E从第二区域R2(参见图9) 内向电视设备30移动时,执行第一输出控制(步骤502中为是、步骤503 中为是以及步骤504)。
为了执行本处理,如图9中所示,设置围绕电视设备30(声源)的第一区域R1。例如,将与相对于电视设备30的边缘B1的预定宽度对应的尺寸的区域设置为第一区域R1。可以将距边缘B1的宽度的尺寸全部设置为相同的尺寸,或者可以针对每个边缘B1设置不同的宽度。
第二区域R2设置在第一区域R1的外部。换言之,在图8中所示的示例中,通过检测从用户1不看电视设备30的状态向电视设备30移动视线(注视位置E)的运动来确定用户1对内容的感兴趣程度的增加。
由于第一区域R1设置在电视设备30周围,并且外部被设置为第二区域R2,因此可以以高准确度检测至电视设备30的视线的改变。换言之,可以检测对内容的兴趣的增加。
在图8中所示的处理中,无论移动之前的注视位置E是否在PC 10 内都执行步骤502和503。换言之,图9中所示的附图标记L4和L5的注视位置E的移动二者都满足用于执行第一输出控制的条件。当然,当注视位置E在PC 10内并且在第二区域R2内、而且注视位置E从其中向电视设备30移动时,可以执行第一输出控制。
如图10中示意性所示,人类视野可以分成中心视野CF和周边视野 PF。中心视野CF是由用户1以中心视觉CV为中心所视的区域,并且是可以完全识别对象的区域。通常,作为中心视野CF的中心的中心视觉CV 的位置与注视位置E对应。周边视野PF是中心视野CF周围的区域,并且是可以模糊地识别对象的区域。
可以基于这样的人类视野特性来设置第一区域R1的宽度。具体地,可以参照用户1的视点基于中心视野CF的半径来设置第一区域R1的宽度。例如,基于从PC 10至电视设备30的距离(从用户1至声源的距离) 来计算基于用户1的视点的中心视野CF的半径。可替选地,可以使用预定值作为中心视野CF的半径。而且,中心视野CF通常具有椭圆形形状。在本公开内容中,“中心视野的半径”包括诸如在一个方向(诸如水平方向或垂直方向)上的半径的各种值或者在各个方向上的半径的最大值或平均值。
例如,将第一区域R1在水平方向上的宽度设置成等于或大于中心视野CF的半径(通常,水平方向上的半径)的最大值的一半的尺寸。将第一区域R1在垂直方向上的宽度设置成等于或大于垂直方向上的中心视野 CF的半径的一半的值。
因此,在中心视野CF与电视设备30交叠的状态下,注视位置E(中心视觉CV)包括在第一区域R1中。换言之,当注视位置E在第二区域R2内时中心视野CF与电视设备30交叠的状态被排除在外。因此,可以将用户1不直接看电视设备30的区域限定为第二区域R2。因此,可以以高准确度检测从用户1不看电视设备30的状态向电视设备30移动视线的运动。还可以在用户1看电视设备30之前根据第二控制量开始第一输出控制。
另外,如图9中所示,考虑到用户1的视野特性,将第一区域R1在垂直方向上的宽度设置为小于在水平方向上的宽度。因此,可以以高准确度确定由视线的移动引起的感兴趣程度的增加。而且,提高了与水平方向上的视线的移动相关联的确定的准确性,水平方向为用户的视野的主要移动方向。
如图11中所示,第一对象PC 10与用作声源的电视设备30可以相对于用户1的视点交叠。在这种情况下,可以参照PC 10的边缘B3为交叠部分设置第一区域R1。因此,可以准确地检测交叠部分中注视位置E至电视设备30的移动是否是对内容的感兴趣程度的增加。
例如,为了确定对内容的感兴趣程度的增加,当注视位置E在PC 10 内时,确定注视位置E是否从PC 10向电视设备30移动。当注视位置E 在PC 10外部时,确定注视位置E是否从第二区域R2向电视设备30移动。当执行这样的处理时,可以不在交叠部分中设置第一区域R1。
图12是示出用于确定对内容的感兴趣程度的增加的另一处理示例的流程图。在图12中所示的示例中,当注视位置E位于第二区域R2中时,基于注视位置E与电视设备30之间的距离的改变来确定对内容的感兴趣程度的增加。具体地,当注视位置E与电视设备30之间的距离重复地减小和增加时,确定对内容的感兴趣程度增加,并且执行第一输出控制(步骤602中为是、步骤603中为是以及步骤604)。
这种确定是当感兴趣的关键词等到达耳朵时基于瞄向电视设备30的方向的运动而执行的处理。例如,当用户1在PC 10等上工作时,即使用户1对内容感兴趣,用户1也可以执行瞄向电视设备30的运动。用户1 可以移动视线直到电视设备30与中心视野CF交叠,并且用户1可以在工作期间将注视位置E稍微移向电视设备30并且再次将注视位置E移动至窄范围内。通过检测这样的运动,可以以高准确度检测对感兴趣程度的增加。
可以基于电视设备30的参考位置S1来计算注视位置E与电视设备30之间的距离。可替选地,可以基于边缘B1来计算注视位置E与电视设备30之间的距离。另外,可以适当地设置用于确定存在或不存在重复减小和增加的循环等。
图13是示出用于确定对内容的感兴趣程度的增加的另一处理示例的流程图。在图13中所示的示例中,基于与由运动检测单元25获取的用户 1的行为有关的信息确定用户1的行为的信息量是否等于或小于预定阈值 (步骤702)。该处理还可以被视为基于与用户1的行为有关的信息来确定用户1的活动量是否等于或小于预定阈值。
当用户1的行为的信息量不等于或不小于阈值(步骤702中为否)时,处理返回至步骤701,并且继续根据第一控制量再现内容。当用户1的行为的信息量等于或小于阈值(步骤702中为是)时,基于信息量变成等于或小于阈值的时间确定是否经过了预定时间(步骤703)。
当经过了预定时间(步骤703中为是)时,处理返回至步骤701,并且继续根据第一控制量再现内容。当没有经过预定时间(步骤703中为否) 时,确定注视位置E是否向电视设备30移动(步骤704)。当注视位置E 没有向电视设备30移动(步骤704中为否)时,处理返回至步骤701,并且继续根据第一控制量再现内容。当注视位置E向电视设备30移动时,执行根据第二控制量的第一输出控制(步骤705)。
如上所述,在该示例中,当注视位置E在基于用户1的行为的信息量变成等于或小于预定值所处的时间的预定时间内向电视设备30移动时,执行第一输出,并且当用户1的行为的信息量大于预定值时,可以不执行第一输出控制。
因此,可以以高准确度检测用户1在感兴趣的关键词等到达耳朵时停止工作并且将视线转向电视设备30的反应,并且可以以高准确度执行第一输出控制。
在图13中所示的处理中,可以既检测在移动视线之后停止运动的情况又检测在移动视线之前停止运动的情况。因此,如果这两种情况都发生,则确定对内容的感兴趣程度增加,并且执行第一输出控制。
可以适当地设置与步骤702中的信息量有关的阈值。另外,还可以任意地设置步骤703的预定时间,并且例如,可以将预定时间设置为可以视为视线移动与移动停止之间相关的时间。因此,可以以高准确度确定对内容的感兴趣程度的增加。
图14是示出用于确定对内容的感兴趣程度的增加的另一处理示例的流程图。在图14中所示的示例中,确定注视位置E是否向电视设备30移动(步骤802)。当注视位置E没有移动(步骤802中为否)时,处理返回至步骤801,并且继续根据第一控制量再现内容。
当注视位置E移动(步骤802中为是)时,确定在注视位置E正在移动时是否经由麦克风17获取语音(步骤803)。当未获取语音(步骤803 中为否)时,处理返回至步骤801,并且继续根据第一控制量再现内容。当在注视位置E正在移动时获取了语音(步骤803中为是)时,确定语音是否是语言语音(步骤804)。
当获取的语音是语言语音时,处理返回至步骤801,并且继续根据第一控制量再现内容。当语音不是语言语音时,假设说出非语言的语音,并且执行根据第二控制量的第一输出控制(步骤805)。
在步骤804中指示所获取的语音不是语言语音的确定结果对应于与非语言的语音有关的信息。换言之,步骤804可以被视为确定是否获取了与非语言的语音有关的信息。当未获取与非语言的语音有关的信息时,继续根据第一控制量再现内容。当获取了与非语言的语音有关的信息时,执行根据第二控制量的第一输出控制。
如上所述,当在步骤804中确定所获取的语音不是为语音输入而登记的语言的语音时,可以确定获取了与非语言语音有关的信息,并且可以执行根据第二控制量的第一输出控制。
因此,在图14中所示的示例中,当在注视位置E向电视设备30移动的同时获取了与非语言语音有关的信息时,执行第一输出控制,并且当在注视位置E向电视设备30移动的同时未获取与非语言语音有关的信息时,可以不执行第一输出控制。
因此,可以以高准确度检测在感兴趣的词到达耳朵时用户1不自觉地发出声音诸如“哦!”或“是吗?”的反应,并且可以有效地提供主题的内容。
用于确定用户1对内容的感兴趣程度的增加的处理不限于以上示例,并且可以被任意设置。例如,上述流程图中的步骤可以被任意组合并且被执行。而且,每个流程图中的每个步骤可以作为确定对内容的感兴趣程度的增加的处理而独立地被执行。例如,与图13的步骤702的行为的信息量有关的确定步骤或与图14的步骤804的语言语音/非语言语音有关的确定步骤可以被独立地实现为确定对内容的感兴趣程度的增加的处理。此外,可以执行任意的处理。
图15是示出内容再现控制的另一处理示例的流程图。如图15中所示,在执行步骤903的第一输出控制之后,可以基于对内容的感兴趣程度的改变来改变控制量。
例如,在执行第一输出控制之后,确定对内容的感兴趣程度是否改变 (步骤904)。当未检测到感兴趣程度的改变(步骤904中为否)时,处理返回至步骤901,并且根据第一控制量再现内容。换言之,控制量从第二控制量返回至第一控制量。
当检测到感兴趣程度的改变(步骤904中为是)时,确定改变是否是增加(步骤905)。当感兴趣程度的改变是减小(步骤905中为否)时,处理返回至步骤901,并且根据第一控制量再现内容。当感兴趣程度的改变是增加(步骤905中为是)时,控制量增加,并且根据增加的控制量执行向用户1提供主题的内容的增加输出控制(步骤906)。
此后,当对内容的感兴趣程度减小(步骤907中为是)时,处理返回至步骤901,并且根据第一控制量再现内容。当感兴趣程度没有减小(步骤907中为否)时,确定用户1是否正在直接注视电视设备30(步骤908)。例如,当注视位置E移动至电视设备30中时,确定用户1正在注视电视设备30。可替选地,当图10中所示的中心视野CF与电视设备30交叠时,可以确定用户1正在注视电视设备30。
当用户1没有注视电视设备30(步骤908中为否)时,处理返回至步骤906,并且继续根据增加的控制量进行输出控制。当用户1正在注视电视设备30时,开始对电视设备30的直接控制(步骤909)。对电视设备30的直接控制通常是与提供主题的内容不同的输出控制。例如,执行要提供的内容的切换、电视设备30的再现模式的切换、功率控制等。此外,可以组合使用视线输入的各种类型的控制,并且可以执行已知的控制。
注意,代替步骤908,可以确定用户1注视电视设备30的注视时间段是否等于或大于预定阈值。当注视时间等于或大于阈值时,也就是说,当用户1注视电视设备30达预定时间段或更长时间时,可以开始对电视设备30的直接控制。
作为图15的再现控制的具体示例,在步骤902中,确定注视位置E 是否从第二区域R2内移动,并且当确定结果为肯定结果时,执行第一输出控制(步骤903)。在步骤904中,当注视位置E向电视设备30移动时,确定内容的程度改变。在步骤905中,当注视位置E移动至第一区域R1 内时,确定感兴趣程度的改变是增加。然后,根据增加的控制量来执行增加输出控制(步骤906)。在这种情况下,增加的控制量与第五控制量对应,并且增加的输出控制与第四输出控制对应。第二控制量是第一控制量与第五控制量之间的值。
在步骤907中,当注视位置E在第一区域R1中向电视设备30移动时,确定感兴趣程度没有减小(增加)。然后,当注视位置E移动至电视设备30上时,开始对电视设备30的直接控制(步骤909)。
如上所述,可以根据不同的控制量逐步地执行根据对内容的感兴趣程度向用户1提供主题的内容的输出控制。因此,可以根据用户1的反应等以高准确度执行内容再现控制,并且可以有效地提供主题的内容。
用于确定用户1对内容的感兴趣程度的具体处理方法诸如步骤902、 904、905和907不受限制,并且可以任意地设置。例如,可以适当地使用上述每个流程图中的每个步骤的处理、其任意组合等。
图16是示出逐步输出控制的另一处理示例的流程图。如图16中所示,在执行第一输出控制之前,可以执行根据作为第一控制量与第二控制量之间的值的中间控制量向用户提供主题的内容的中间输出控制。
在根据第一控制量正在再现内容时确定用户1对内容的感兴趣程度是否改变(步骤1002)。当未检测到感兴趣程度的改变(步骤1002中为否)时,处理返回至步骤1001,并且继续根据第一控制量再现内容。
当检测到感兴趣程度的改变(步骤1002中为是)时,确定改变是否是增加(步骤1003)。当感兴趣程度的改变是减小(步骤1003中为否) 时,处理返回至步骤1001,并且继续根据第一控制量再现内容。当感兴趣程度的改变是增加(步骤1003中为是)时,执行根据中间控制量的中间输出控制(步骤1004)。
此后,当对内容的感兴趣程度减小(步骤1005中为是)时,处理返回至步骤1001,并且根据第一控制量再现内容。换言之,控制量从中间控制量返回至第一控制量。当感兴趣程度没有减小(步骤1005中为否) 时,确定对内容的感兴趣程度是否增加,并且当确定感兴趣程度增加时,执行根据第二控制量的第一输出控制(步骤1006中为是以及步骤1007)。
当对内容的感兴趣程度在第一输出控制之后减小(步骤1008中为是) 时,处理返回至步骤1001,并且再现根据第一控制量的内容。换言之,控制量从第二控制量返回至第一控制量。当感兴趣程度没有减小(步骤 1008中为否)时,确定用户1是否正在直接注视电视设备30(步骤1009)。当用户1正在注视电视设备30(步骤1009中为是)时,开始对电视设备30的直接控制(步骤1010)。
例如,当注视位置E在用户1的行为的信息量大于预定值的状态下向电视设备30移动时,执行根据中间控制量的中间输出控制。在这种情况下,中间控制量与第三控制量对应,并且中间输出控制与第二输出控制对应。
然后,当用户1的行为的信息量在注视位置E的移动继续的状态下变成等于或小于预定值时,确定对内容的感兴趣程度进一步增加,并且执行根据第二控制量的第一输出控制。利用这样的逐步输出控制,当仅视线移动时,可以首先执行中间输出控制,并且当用户1的运动停止时,可以执行第一输出控制。因此,可以有效地提供主题的内容。
而且,例如,当在注视位置E正在向电视设备30移动时未获取与非语言语音有关的信息时,执行根据中间控制量的中间输出控制。在这种情况下,中间控制量与第四控制量对应,并且中间输出控制与第三输出控制对应。第四控制量可以具有与上述第三控制量相同的值或者可以具有与上述第三控制量不同的值。
然后,当在注视位置E的移动继续的状态下获取了与非源语音有关的信息时,确定对内容的感兴趣程度进一步增加,并且执行根据第二控制量的第一输出控制。利用这样的逐渐输出控制,当仅视线移动时,可以首先执行中间输出控制,并且可以根据对非语言语音诸如“哦!”或“是吗?”的反应来执行第一输出控制。因此,可以有效地提供主题的内容。
用于确定用户1对内容的感兴趣程度的具体处理方法诸如步骤1002、 1003、1005,1006和1007不受限制并且可以任意地被设置。例如,可以适当地使用上述每个流程图中的每个步骤的处理、其任意组合等。
例如,可以同时确定用户1的语音和运动,并且可以以多个模态以多个步骤确定感兴趣程度。当然,可以通过深度学习等来分析多个模态,并且可以适当地控制/改变用于用户1的意图估计的每个模态的权重。
图17是用于描述根据用户1对内容的感兴趣程度的增加而执行的第一输出控制的另一示例的图。例如,可以通过控制用户1的视野内的显示单元来执行第一输出控制。在图17中所示的示例中,控制用作声源的电视设备30的显示单元31,但是,可以控制与用作声源的设备不同的显示设备作为显示单元。
如图17中所示,例如,当从电视设备30再现关键词作为主题的内容时,假设检测到用户1对关键词“台场”的反应。在这种情况下,显示与“台场”有关的内容的标题50诸如要在台场举办的事件。因此,用户1 可以详细地了解与感兴趣的关键词有关的主题的内容。
另外,可以通过控制显示单元使得显示主题的内容的再现历史的至少一部分来执行第一输出控制。例如,根据关键词或检测到用户1的反应的定时等在显示单元上选择并且显示要显示的再现历史。因此,可以了解在过去已经再现的主题的内容。作为再现历史,可以在没有改变的情况下再现在过去再现的内容或者可以再现概要。
另外,用于显示单元的具体控制方法不受限制,并且可以执行能够向用户1提供内容的细节等的任意控制。例如,如图17中所示,可以控制显示单元31使得根据用户1的注视位置E执行与主题的内容有关的显示。因此,可以自然地注视与内容有关的信息。
如上所述,在根据本实施方式的内容提供系统中,分别获取与用户1 的注视位置E有关的信息、再现内容的电视设备30的位置信息和由用户 1注视的PC 10的位置信息。当PC10内的注视位置E向电视设备30移动时,执行根据第二控制量的第一输出控制。因此,可以根据例如用户1 的反应来执行再现控制,并且有效地提供主题的内容。
例如,在工作期间,即使当在显示单元13诸如PC 10上显示指示已经配置了组并且对话已经开始的视觉通知时,通常也不会注意到这样的通知。另一方面,如果响应于对话的开始等而作出通知所有对话的内容的尝试,则此时不清楚用户1是否感兴趣。因此,对于用户1而言这可能是令人烦恼的并且可能干扰工作。
在本实施方式中,例如,根据不干扰用户1的工作的程度的第一控制量来再现内容,并且通过鸡尾酒会效应来拾取感兴趣的关键词等。另外,响应于用户1对内容的感兴趣程度的增加,执行根据其中控制量增加的第二控制量的第一输出控制。因此,可以在适当的定时向用户1提供用户1 感兴趣等的主题的内容的细节。另外,用户1可以在正在讨论用户1感兴趣的内容的定时参与该组的对话并且享受交流。
而且,如图15和图16中所示,由于可以根据不同的控制量执行逐步输出控制,例如,当用户1响应内容一次然后再次返回工作时,可以进行将控制量返回至小的值的灵活处理。
本技术可以应用于任意内容诸如聊天对话、电子邮件的自动阅读、新闻的自动阅读,正在再现的移动图像的语音等。
<其他实施方式>
本技术不限于上述实施方式,并且可以实现各种其他实施方式。
图18和图19是示出根据本技术的可以用作信息处理设备的头戴式显示器(HMD)的配置的示例的透视图。
图18中所示的HMD 200是包括透射型显示器的眼镜型设备,并且在 HMD 200佩戴在用户1的头部的状态下使用。HMD 200包括左透镜201L 和右透镜201R、左眼显示器202L和右眼显示器202R、左眼摄像装置203L 和右眼摄像装置203R以及传感器单元204。
左透镜201L和右透镜201R分别放置在用户的左眼和右眼的前面。左眼显示器202L和右眼显示器202R分别安装在左透镜201L和右透镜 201R中,以覆盖用户1的视野。
左眼显示器202L和右眼显示器202R是透射型显示器并且分别显示左眼图像和右眼图像。佩戴HMD 200的用户1可以在视觉地识别显示在各自显示器上的图像时视觉地识别真实场景。因此,用户可以体验增强现实(AR)等。
注意,可以在左眼显示器202L和右眼显示器202R的外部(与用户1 的眼睛相对的侧)上安装光控制元件(未示出)等。光控制元件是能够调节通过元件的光量的元件。由于安装了光控制元件,因此例如可以限制通过各自显示器并且被用户识别的实际场景、强调显示在各自显示器上的图像并且使用户视觉地识别它们。因此,用户可以体验虚拟现实(VR)等。
例如,使用透射型有机EL显示器、液晶显示器(LCD)显示器等作为左眼显示器202L和右眼显示器202R。另外,例如,使用能够电控制透射率的光控制玻璃、光控制片、液晶快门等作为光控制元件。
左眼摄像装置203L和右眼摄像装置203R安装在可以对用户的左眼和右眼进行成像的任意位置处。例如,基于由左眼摄像装置203L和右眼摄像装置203R捕获的左眼图像和右眼图像来获取与注视位置E诸如视线方向有关的信息。
例如,使用包括图像传感器诸如互补金属氧化物半导体(CMOS)传感器或电荷耦合器件(CCD)传感器的数码摄像装置作为左眼摄像装置 203L和右眼摄像装置203R。而且,例如,可以使用包括红外照明诸如红外LED的红外摄像装置。
传感器单元204包括例如加速度传感器、陀螺仪传感器、地磁传感器 (9轴传感器)等,并且获取与用户1的行为有关的信息,该信息包括用户1的运动或姿势(跑步、行走、停止等)。可以基于由传感器单元204 检测到的用户1的头部(面部)的方向来获取与注视位置E诸如视线方向有关的信息。另外,可以安装能够获取用户的生物信息的传感器诸如心率传感器、汗液传感器、温度(体温)传感器或脑电图传感器作为传感器单元204。然后,可以基于用户1的生物信息的变化等来检测用户1对内容的感兴趣程度的增加等。
图19A是示意性地示出HMD 300的外观的透视图。图19B是示意性地示出HMD 300被拆卸的状态的透视图。HMD 300包括佩戴在用户1的头部上的安装单元301、安装在用户1的双眼前方的显示单元302以及被配置成覆盖显示单元302的盖单元303。HMD 300是被配置成覆盖用户的视野的沉浸式头戴式显示器,并且用作用于虚拟现实(VR)的HMD。
根据本技术的内容提供系统可以通过图18中所示的HMD 200或图 19中所示的HMD300而不是图1中所示的PC 10来实现。例如,根据用户1对内容的感兴趣程度的增加等的内容输出控制可以在佩戴HMD 200 的状态下在包括用作声源的电视设备30的AR空间中执行。而且,根据用户1对内容的感兴趣程度的增加等的内容输出控制可以在佩戴HMD 300的状态下能够体验的VR空间内执行。在这种情况下,再现内容的声源安装在VR空间中,并且内容由安装在HMD 300中的扬声器等再现。换言之,在本技术中,“用户所处的空间”包括真实空间和虚拟空间二者。
图20是用于描述作为第一输出控制的显示单元的控制示例的图。例如,当佩戴HMD200或HMD 300时,可以自由地控制与AR空间或VR 空间中的主题的内容有关的显示。例如,如图20中所示,还可以在注视位置E与电视设备30之间设置主题的内容的标题50等。换言之,可以根据用户1的视线来移动与内容有关的显示,并且还可以将其显示在视线的末端或移动视线的点上。因此,可以自然地注视与内容有关的信息。
可以同时再现多条内容作为根据第一控制量的内容再现方法。例如,在相同的定时再现由多个组进行的对话。在这种情况下,可以以预定的时间间隔依次再现每个组中的对话使得可以容易地区分每个组的对话。例如,当存在组A至组D时,按照从组A至组D的顺序以两分钟的间隔再现对话。
例如,当使用能够执行多频道再现等的声源时,可以从不同的频道再现多条内容。而且,可以以不同的音量、不同的音质、不同的方位等再现多条内容。因此,可以有效地向用户1提供多条主题的内容。
可以适当地设置任意输出控制作为根据第一控制量的内容再现、根据第二控制量的第一输出控制、根据中间控制量的中间输出控制以及根据增加的控制量的增加输出控制。
以上已经描述了由计算机诸如PC 10或由用户1操作的HMD 200或 HMD 300执行根据本技术的信息处理方法的示例。然而,根据本技术的信息处理方法及程序可以由能够经由网络等与由用户1操作的计算机通信的另一计算机执行。而且,由用户1操作的计算机可以与另一计算机链接以构建根据本技术的内容提供系统。
换言之,根据本技术的信息处理方法及程序不仅可以在由单个计算机构成的计算机系统中执行,而且可以在多个计算机彼此协同操作的计算机系统中执行。在本公开内容中,系统意味着多个组件(设备、模块(部件) 等)的集合,并且所有组件是否在同一壳体中并不重要。因此,容纳在单独的壳体中并且经由网络连接的多个设备以及在单个壳体中容纳多个模块的单个设备都是系统。
通过计算机系统执行根据本技术的信息处理方法及程序包括例如以下两种情况:由单个计算机执行用户信息的获取、每条位置信息的获取、根据每个控制量的内容输出控制等的情况以及由不同的计算机执行各自处理的情况。而且,由预定的计算机执行每个处理包括使其他计算机执行一些或所有处理并且获取结果的操作。
换言之,根据本技术的信息处理方法及程序还可以应用于一个功能由多个设备经由网络共享和处理的云计算的配置。
在上述根据本技术的特征中,可以组合至少两个特征。换言之,在不区分每个实施方式的情况下,可以任意组合每个实施方式中描述的各种特征。另外,上述各种效果仅是示例而不受限制,并且可以包括其他效果。
注意,本技术还可以具有以下配置。
(1)一种信息处理设备,包括:
用户信息获取单元,其获取从位于用户所在的空间中的声源在根据第一控制量正在自动地再现主题的内容时与所述用户的注视位置有关的信息;
对象信息获取单元,其获取与所述声源有关的位置信息和与由所述用户正在注视的第一对象有关的位置信息;以及
输出控制单元,其在所述第一对象内的所述注视位置向所述声源移动的情况下根据与所述第一控制量不同的第二控制量来执行向所述用户提供所述主题的内容的第一输出控制。
(2)根据(1)所述的信息处理设备,其中,
所述对象信息获取单元获取与第二对象有关的位置信息,第二对象不同于位于所述空间中的所述声源,并且
所述输出控制单元在其中所述注视位置正在向所述第二对象而不是所述声源移动的情况下不执行所述第一输出控制。
(3)根据(1)或(2)所述的信息处理设备,其中,
所述输出控制单元在所述注视位置向所述声源移动时移动至所述第一对象的外部的情况下执行所述第一输出控制,并且在其中所述注视位置向所述声源移动时保持在所述第一对象内的情况下不执行所述第一输出控制。
(4)根据(1)至(3)中任一项所述的信息处理设备,其中,
所述输出控制单元在所述注视位置从围绕所述声源的第一区域外部的第二区域向所述声源移动的情况下执行所述第一输出控制。
(5)根据(4)所述的信息处理设备,其中,
所述输出控制单元在所述注视位置位于所述第二区域内时所述注视位置与所述声源之间的距离重复地减小和增加的情况下执行所述第一输出控制。
(6)根据(4)或(5)所述的信息处理设备,其中,
以所述用户的视点为基准,围绕所述声源的所述第一区域的宽度等于或大于所述用户的中心视野的半径的一半。
(7)根据(1)至(6)中任一项所述的信息处理设备,其中,
所述用户信息获取单元获取与所述用户的行为有关的信息,与所述用户的行为有关的信息不同于与所述注视位置有关的信息,并且
所述输出控制单元在所述注视位置在预定时间段内向所述声源移动的情况下执行所述第一输出控制,所述预定时间段以所述用户的行为的信息量变成等于或小于预定值时为基准,并且在所述用户的行为的信息量大于所述预定值的情况下不执行所述第一输出控制。
(8)根据(7)所述的信息处理设备,其中,
所述输出控制单元在所述用户的行为的信息量大于所述预定值的状态下在所述注视位置向所述声源移动的情况下根据第三控制量来执行向所述用户提供所述主题的内容的第二输出控制,所述第三控制量为所述第一控制量与所述第二控制量之间的值。
(9)根据(1)至(8)中任一项所述的信息处理设备,其中,
所述用户信息获取单元获取与所述用户的语音有关的信息,并且
所述输出控制单元在所述用户信息获取单元在所述注视位置正在向所述声源移动时获取与所述用户的非语言的语音相关的信息的情况下执行所述第一输出控制,并且在所述用户信息获取单元在所述注视位置正在向所述声源移动时没有获取与所述用户的非语言的语音有关的信息的情况下不执行所述第一输出控制。
(10)根据(9)所述的信息处理设备,其中,
所述输出控制单元在所述用户信息获取单元在所述注视位置正在向所述声源移动时没有获取与所述用户的非语言的语音有关的信息的情况下,根据第四控制量来执行向所述用户提供所述主题的内容的第三输出控制,所述第四控制量为所述第一控制量与所述第二控制量之间的值。
(11)根据(1)至(10)中任一项所述的信息处理设备,其中,
所述输出控制单元通过控制所述声源来执行所述第一输出控制。
(12)根据(11)所述的信息处理设备,其中,
所述第一控制量和所述第二控制量至少与所述声源的音量相关联,并且
所述输出控制单元通过增加所述声源的音量来执行所述第一输出控制。
(13)根据(11)或(12)所述的信息处理设备,其中,
所述第一控制量和所述第二控制量至少与要再现的所述主题的内容的信息量相关联。
(14)根据(13)所述的信息处理设备,其中,
所述输出控制单元通过再现在紧接所述注视位置向所述声源移动之前再现的所述主题的内容的至少一部分来执行所述第一输出控制。
(15)根据(13)或(14)所述的信息处理设备,其中,
所述输出控制单元在所述声源从所述主题的内容中提取关键词并且再现所述关键词的情况下通过增加要再现的关键词的量来执行所述第一输出控制。
(16)根据(1)至(15)中任一项所述的信息处理设备,其中,
所述输出控制单元通过控制所述用户的视野内的显示单元来执行所述第一输出控制。
(17)根据(16)所述的信息处理设备,其中,
所述输出控制单元通过控制所述显示单元使得显示所述主题的内容的再现历史的至少一部分来执行所述第一输出控制。
(18)根据(16)或(17)所述的信息处理设备,其中,
所述输出控制单元通过控制所述显示单元使得显示正在再现的所述主题的内容的标题来执行所述第一输出控制。
(19)一种由计算机系统执行的信息处理方法,包括:
获取从位于用户所在的空间中的声源根据第一控制量正在自动地再现主题的内容时与所述用户的注视位置有关的信息;
获取与所述声源有关的位置信息和与所述用户正在注视的第一对象有关的位置信息;以及
在所述第一对象内的所述注视位置向所述声源移动的情况下根据与所述第一控制量不同的第二控制量来执行向所述用户提供所述主题的内容的第一输出控制。
(20)一种计算机可读存储介质,所述计算机可读存储介质上存储程序,所述程序用于使计算机系统执行以下步骤:
获取从位于用户所在的空间中的声源根据第一控制量正在自动地再现主题的内容时与所述用户的注视位置有关的信息的步骤;
获取与所述声源有关的位置信息和与所述用户正在注视的第一对象有关的位置信息的步骤;以及
在所述第一对象内的所述注视位置向所述声源移动的情况下根据与所述第一控制量不同的第二控制量来执行向所述用户提供所述主题的内容的第一输出控制的步骤。
(21)根据(1)至(18)中任一项所述的信息处理设备,其中,
所述输出控制单元在所述注视位置紧接在所述注视位置向所述声源移动之后基本上停止的情况下执行所述第一输出控制,并且在所述注视位置正在继续向所述声源移动时不执行所述第一输出控制。
(22)根据(4)至(6)中任一项所述的信息处理设备,其中,
所述输出控制单元在所述注视位置移动至所述第一区域中的情况下根据与所述第一控制量和所述第二控制量不同的第五控制量来执行向所述用户提供所述主题的内容的第四输出控制,并且
所述第二控制量是所述第一控制量与所述第五控制量之间的值。
(23)根据(4)至(7)中任一项所述的信息处理设备,其中,
所述输出控制单元在所述注视位置移动至所述声源上的情况下执行与提供所述主题的内容不同的输出控制。
(24)根据(1)至(18)中任一项所述的信息处理设备,其中,
所述第一控制量和所述第二控制量与所述主题的内容的再现速度相关,并且
所述输出控制单元通过降低所述主题的内容的再现速度来执行所述第一输出控制。
(25)根据(13)至(15)中任一项所述的信息处理设备,其中,
所述输出控制单元通过在所述声源再现概要的情况下再现比所述主题的内容的概要更详细的所述主题的内容来执行所述第一输出控制。
(26)根据(16)至(18)中任一项所述的信息处理设备,其中,
所述输出控制单元通过控制所述显示单元使得在所述注视位置处或在所述注视位置与所述声源之间设置与所述主题的内容有关的显示来执行所述第一输出控制。
附图标记列表
E 注视位置
R1 第一区域
R2 第二区域
2 空间
10 PC
21 内容分析单元
22 输出声音控制单元
23 声源控制单元
24 视线检测单元
25 运动检测单元
26 语音确定单元
30 电视设备
31 显示单元
32 扬声器
40 时钟
100 内容提供系统
200,300 HMD

Claims (18)

1.一种信息处理设备,包括:
用户信息获取单元,其获取从位于用户所在的空间中的声源根据第一控制量正在自动地再现主题的内容时与所述用户的注视位置有关的信息;
对象信息获取单元,其获取与所述声源有关的位置信息和与所述用户正在注视的第一对象有关的位置信息;以及
输出控制单元,其在所述第一对象内的所述注视位置向所述声源移动的情况下根据与所述第一控制量不同的第二控制量来执行向所述用户提供所述主题的内容的第一输出控制,
其中,所述输出控制单元在所述注视位置从围绕所述声源的第一区域外部的第二区域向所述声源移动的情况下执行所述第一输出控制,其中以所述用户的视点为基准,围绕所述声源的所述第一区域的宽度等于或大于所述用户的中心视野的半径的一半。
2.根据权利要求1所述的信息处理设备,其中,
所述对象信息获取单元获取与第二对象有关的位置信息,所述第二对象不同于位于所述空间中的所述声源,并且
所述输出控制单元在所述注视位置正在向所述第二对象而不是向所述声源移动的情况下不执行所述第一输出控制。
3.根据权利要求1所述的信息处理设备,其中,
所述输出控制单元在所述注视位置向所述声源移动时移动至所述第一对象的外部的情况下执行所述第一输出控制,并且在所述注视位置向所述声源移动时保持在所述第一对象内的情况下不执行所述第一输出控制。
4.根据权利要求1所述的信息处理设备,其中,
所述输出控制单元在所述注视位置位于所述第二区域内时所述注视位置与所述声源之间的距离反复地减小和增加的情况下执行所述第一输出控制。
5.根据权利要求1所述的信息处理设备,其中,
所述用户信息获取单元获取与所述用户的行为有关的信息,与所述用户的行为有关的信息不同于与所述注视位置有关的信息,并且
所述输出控制单元在所述注视位置在预定时间段内向所述声源移动的情况下执行所述第一输出控制,所述预定时间段以所述用户的行为的信息量变成等于或小于预定值时为基准,并且在所述用户的行为的信息量大于所述预定值的情况下不执行所述第一输出控制。
6.根据权利要求5所述的信息处理设备,其中,
所述输出控制单元在所述用户的行为的信息量大于所述预定值的状态下在所述注视位置向所述声源移动的情况下根据第三控制量来执行向所述用户提供所述主题的内容的第二输出控制,所述第三控制量为所述第一控制量与所述第二控制量之间的值。
7.根据权利要求1所述的信息处理设备,其中,
所述用户信息获取单元获取与所述用户的语音有关的信息,并且
所述输出控制单元在所述用户信息获取单元在所述注视位置正在向所述声源移动时获取与所述用户的非语言的语音相关的信息的情况下执行所述第一输出控制,并且在所述用户信息获取单元在所述注视位置正在向所述声源移动时没有获取与所述用户的非语言的语音有关的信息的情况下不执行所述第一输出控制。
8.根据权利要求7所述的信息处理设备,其中,
所述输出控制单元在所述用户信息获取单元在所述注视位置正在向所述声源移动时没有获取与所述用户的非语言的语音有关的信息的情况下,根据第四控制量来执行向所述用户提供所述主题的内容的第三输出控制,所述第四控制量为所述第一控制量与所述第二控制量之间的值。
9.根据权利要求1所述的信息处理设备,其中,
所述输出控制单元通过控制所述声源来执行所述第一输出控制。
10.根据权利要求9所述的信息处理设备,其中,
所述第一控制量和所述第二控制量至少与所述声源的音量相关联,并且
所述输出控制单元通过增加所述声源的音量来执行所述第一输出控制。
11.根据权利要求9所述的信息处理设备,其中,
所述第一控制量和所述第二控制量至少与要再现的所述主题的内容的信息量相关联。
12.根据权利要求11所述的信息处理设备,其中,
所述输出控制单元通过再现在紧接所述注视位置向所述声源移动之前再现的所述主题的内容的至少一部分来执行所述第一输出控制。
13.根据权利要求11所述的信息处理设备,其中,
所述输出控制单元在所述声源从所述主题的内容中提取关键词并且再现所述关键词的情况下通过增加要再现的关键词的量来执行所述第一输出控制。
14.根据权利要求1所述的信息处理设备,其中,
所述输出控制单元通过控制所述用户的视野内的显示单元来执行所述第一输出控制。
15.根据权利要求14所述的信息处理设备,其中,
所述输出控制单元通过控制所述显示单元使得显示所述主题的内容的再现历史的至少一部分来执行所述第一输出控制。
16.根据权利要求14所述的信息处理设备,其中,
所述输出控制单元通过控制所述显示单元使得显示正在再现的所述主题的内容的标题来执行所述第一输出控制。
17.一种由计算机系统执行的信息处理方法,包括:
获取从位于用户所在的空间中的声源根据第一控制量正在自动地再现主题的内容时与所述用户的注视位置有关的信息;
获取与所述声源有关的位置信息和与所述用户正在注视的第一对象有关的位置信息;以及
在所述第一对象内的所述注视位置向所述声源移动的情况下根据与所述第一控制量不同的第二控制量来执行向所述用户提供所述主题的内容的第一输出控制,
其中在所述注视位置从围绕所述声源的第一区域外部的第二区域向所述声源移动的情况下执行所述第一输出控制,其中以所述用户的视点为基准,围绕所述声源的所述第一区域的宽度等于或大于所述用户的中心视野的半径的一半。
18.一种计算机可读存储介质,所述计算机可读存储介质上存储程序,所述程序用于使计算机系统执行以下步骤:
获取从位于用户所在的空间中的声源根据第一控制量正在自动地再现主题的内容时与所述用户的注视位置有关的信息的步骤;
获取与所述声源有关的位置信息和与所述用户正在注视的第一对象有关的位置信息的步骤;以及
在所述第一对象内的所述注视位置向所述声源移动的情况下根据与所述第一控制量不同的第二控制量来执行向所述用户提供所述主题的内容的第一输出控制的步骤,
其中在所述注视位置从围绕所述声源的第一区域外部的第二区域向所述声源移动的情况下执行所述第一输出控制,其中以所述用户的视点为基准,围绕所述声源的所述第一区域的宽度等于或大于所述用户的中心视野的半径的一半。
CN201880012920.1A 2017-02-27 2018-01-19 信息处理设备、信息处理方法及计算机可读存储介质 Expired - Fee Related CN110326300B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017034588 2017-02-27
JP2017-034588 2017-02-27
PCT/JP2018/001535 WO2018155026A1 (ja) 2017-02-27 2018-01-19 情報処理装置、情報処理方法、及びプログラム

Publications (2)

Publication Number Publication Date
CN110326300A CN110326300A (zh) 2019-10-11
CN110326300B true CN110326300B (zh) 2021-12-21

Family

ID=63252565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880012920.1A Expired - Fee Related CN110326300B (zh) 2017-02-27 2018-01-19 信息处理设备、信息处理方法及计算机可读存储介质

Country Status (6)

Country Link
US (1) US11205426B2 (zh)
EP (1) EP3588494B1 (zh)
JP (1) JP7092108B2 (zh)
KR (1) KR20190121758A (zh)
CN (1) CN110326300B (zh)
WO (1) WO2018155026A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190121758A (ko) * 2017-02-27 2019-10-28 소니 주식회사 정보 처리 장치, 정보 처리 방법, 및 프로그램
WO2019133698A1 (en) * 2017-12-29 2019-07-04 DMAI, Inc. System and method for personalizing dialogue based on user's appearances
WO2019133689A1 (en) 2017-12-29 2019-07-04 DMAI, Inc. System and method for selective animatronic peripheral response for human machine dialogue
US11222632B2 (en) 2017-12-29 2022-01-11 DMAI, Inc. System and method for intelligent initiation of a man-machine dialogue based on multi-modal sensory inputs
WO2019160613A1 (en) 2018-02-15 2019-08-22 DMAI, Inc. System and method for dynamic program configuration
JP7010073B2 (ja) * 2018-03-12 2022-01-26 株式会社Jvcケンウッド 出力内容制御装置、出力内容制御方法、及び出力内容制御プログラム
KR102661340B1 (ko) 2018-09-21 2024-04-30 삼성전자주식회사 전자 장치 및 이의 제어 방법
US10770059B2 (en) * 2019-01-29 2020-09-08 Gridspace Inc. Conversational speech agent
JP7484377B2 (ja) 2020-04-22 2024-05-16 富士フイルムビジネスイノベーション株式会社 情報処理装置およびプログラム
CN115989528A (zh) * 2020-09-07 2023-04-18 索尼集团公司 显示处理装置、显示处理方法、存储介质和信息处理装置
CN112489683A (zh) * 2020-11-24 2021-03-12 广州市久邦数码科技有限公司 基于关键词语定位实现音频快进快退的方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102655576A (zh) * 2011-03-04 2012-09-05 索尼公司 信息处理设备、信息处理方法和程序
WO2013049755A1 (en) * 2011-09-30 2013-04-04 Geisner Kevin A Representing a location at a previous time period using an augmented reality display
CN103918284A (zh) * 2011-11-09 2014-07-09 索尼公司 语音控制装置、语音控制方法和程序
WO2016008354A1 (en) * 2014-07-14 2016-01-21 Huawei Technologies Co., Ltd. System and method for display enhancement
CN105899337A (zh) * 2013-11-06 2016-08-24 皇家飞利浦有限公司 用于处理身体部分的系统和方法

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4973149A (en) * 1987-08-19 1990-11-27 Center For Innovative Technology Eye movement detector
US5333029A (en) * 1990-10-12 1994-07-26 Nikon Corporation Camera capable of detecting eye-gaze
US5517021A (en) * 1993-01-19 1996-05-14 The Research Foundation State University Of New York Apparatus and method for eye tracking interface
US5835083A (en) * 1996-05-30 1998-11-10 Sun Microsystems, Inc. Eyetrack-driven illumination and information display
US6152563A (en) * 1998-02-20 2000-11-28 Hutchinson; Thomas E. Eye gaze direction tracker
WO2005018097A2 (en) * 2003-08-18 2005-02-24 Nice Systems Ltd. Apparatus and method for audio content analysis, marking and summing
JP4728982B2 (ja) 2007-03-05 2011-07-20 株式会社東芝 利用者と対話する装置、方法およびプログラム
US8145482B2 (en) * 2008-05-25 2012-03-27 Ezra Daya Enhancing analysis of test key phrases from acoustic sources with key phrase training models
US20100074460A1 (en) * 2008-09-25 2010-03-25 Lucent Technologies Inc. Self-steering directional hearing aid and method of operation thereof
US9897805B2 (en) * 2013-06-07 2018-02-20 Sony Interactive Entertainment Inc. Image rendering responsive to user actions in head mounted display
US9517776B2 (en) * 2011-12-29 2016-12-13 Intel Corporation Systems, methods, and apparatus for controlling devices based on a detected gaze
US10488919B2 (en) * 2012-01-04 2019-11-26 Tobii Ab System for gaze interaction
US10394320B2 (en) * 2012-01-04 2019-08-27 Tobii Ab System for gaze interaction
US9024844B2 (en) * 2012-01-25 2015-05-05 Microsoft Technology Licensing, Llc Recognition of image on external display
US9423870B2 (en) * 2012-05-08 2016-08-23 Google Inc. Input determination method
US10134401B2 (en) * 2012-11-21 2018-11-20 Verint Systems Ltd. Diarization using linguistic labeling
US9661230B2 (en) * 2013-07-05 2017-05-23 Lg Electronics Inc. Image display apparatus and method of operating the image display apparatus
WO2015027241A1 (en) * 2013-08-23 2015-02-26 Tobii Technology Ab Systems and methods for providing audio to a user based on gaze input
CN106663183B (zh) * 2013-11-27 2020-04-24 深圳市汇顶科技股份有限公司 眼睛跟踪及用户反应探测
US10564714B2 (en) * 2014-05-09 2020-02-18 Google Llc Systems and methods for biomechanically-based eye signals for interacting with real and virtual objects
US20160080874A1 (en) * 2014-09-16 2016-03-17 Scott Fullam Gaze-based audio direction
US20180004288A1 (en) * 2015-01-29 2018-01-04 Kyocera Corporation Electronic device
US10248194B2 (en) * 2015-05-01 2019-04-02 Massachusetts Institute Of Technology Methods and apparatus for retinal retroreflection imaging
US11269403B2 (en) * 2015-05-04 2022-03-08 Disney Enterprises, Inc. Adaptive multi-window configuration based upon gaze tracking
KR20170130582A (ko) * 2015-08-04 2017-11-28 구글 엘엘씨 가상현실에서 시선 인터렉션을 위한 호버 행동
JP6460255B2 (ja) * 2015-10-19 2019-01-30 富士通株式会社 作業支援システム、作業支援方法および作業支援プログラム
US9451210B1 (en) * 2015-12-10 2016-09-20 Google Inc. Directing communications using gaze interaction
US9906885B2 (en) * 2016-07-15 2018-02-27 Qualcomm Incorporated Methods and systems for inserting virtual sounds into an environment
US10638250B2 (en) * 2016-09-23 2020-04-28 Apple Inc. Systems and methods for determining estimated head orientation and position with ear pieces
KR20190121758A (ko) * 2017-02-27 2019-10-28 소니 주식회사 정보 처리 장치, 정보 처리 방법, 및 프로그램
US20180032612A1 (en) * 2017-09-12 2018-02-01 Secrom LLC Audio-aided data collection and retrieval
EP4100787A4 (en) * 2020-02-06 2024-03-06 Valve Corporation FIELD-OF-VIEW-BASED OPTICAL CORRECTION USING SPATIAL VARIATION POLARIZERS

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102655576A (zh) * 2011-03-04 2012-09-05 索尼公司 信息处理设备、信息处理方法和程序
WO2013049755A1 (en) * 2011-09-30 2013-04-04 Geisner Kevin A Representing a location at a previous time period using an augmented reality display
CN103918284A (zh) * 2011-11-09 2014-07-09 索尼公司 语音控制装置、语音控制方法和程序
CN105899337A (zh) * 2013-11-06 2016-08-24 皇家飞利浦有限公司 用于处理身体部分的系统和方法
WO2016008354A1 (en) * 2014-07-14 2016-01-21 Huawei Technologies Co., Ltd. System and method for display enhancement

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Natural communication with information systems;I. Marsic et al.;《in Proceedings of the IEEE》;20000831;第88卷(第8期);第1354-1366页 *
面向实体博物馆陈展的声音增强环境设计研究;姜璟;《中国优秀硕士学位论文全文数据库信息科技辑,2014年第04 期》;20140415;全文 *

Also Published As

Publication number Publication date
WO2018155026A1 (ja) 2018-08-30
EP3588494A4 (en) 2020-03-18
KR20190121758A (ko) 2019-10-28
JPWO2018155026A1 (ja) 2019-12-19
EP3588494B1 (en) 2024-04-03
US11205426B2 (en) 2021-12-21
JP7092108B2 (ja) 2022-06-28
EP3588494A1 (en) 2020-01-01
US20200013401A1 (en) 2020-01-09
CN110326300A (zh) 2019-10-11

Similar Documents

Publication Publication Date Title
CN110326300B (zh) 信息处理设备、信息处理方法及计算机可读存储介质
EP3616050B1 (en) Apparatus and method for voice command context
US9900498B2 (en) Glass-type terminal and method for controlling the same
EP3465680B1 (en) Automatic audio attenuation on immersive display devices
US20200073122A1 (en) Display System
US11017257B2 (en) Information processing device, information processing method, and program
US20140129207A1 (en) Augmented Reality Language Translation
US10409324B2 (en) Glass-type terminal and method of controlling the same
EP3286619B1 (en) A scene image analysis module
CN110546601B (zh) 信息处理装置、信息处理方法和程序
JP2015528120A (ja) 目のトラッキングに基づくディスプレイの一部の選択的強調
US20170163866A1 (en) Input System
KR20140052263A (ko) 콘텐츠 서비스 시스템, 그 시스템에서의 콘텐츠 서비스를 위한 장치 및 방법
US20230005471A1 (en) Responding to a user query based on captured images and audio
CN117061849A (zh) 捕获和存储物理环境的图像
US11493959B2 (en) Wearable apparatus and methods for providing transcription and/or summary
KR102457953B1 (ko) 인터랙티브 사진 서비스 방법
WO2023058393A1 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2023058451A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US20240319789A1 (en) User interactions and eye tracking with text embedded elements
GB2539183A (en) A method, an apparatus, a computer program product for augmented reality
CN115499687A (zh) 在多人内容呈现环境中重定向事件通知的电子设备和对应方法
CN118251667A (zh) 用于生成视觉字幕的系统和方法
CN115499688A (zh) 在多人内容呈现环境中重定向事件通知的电子设备和对应方法
KR20150041401A (ko) 전자 기기 및 그 제어 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211221