CN117750110A

CN117750110A - 信息处理装置、信息处理方法和视频声音输出系统

Info

Publication number: CN117750110A
Application number: CN202311786318.2A
Authority: CN
Inventors: 吉田明; 安达浩; 冈本直树
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2018-08-10
Filing date: 2019-07-24
Publication date: 2024-03-22
Also published as: WO2020031696A1; US20230269537A1

Abstract

提供了一种执行与视频信号同步的音频信号的输出处理的信息处理装置、信息处理方法及视频声音输出系统。该信息处理装置配备有控制单元，该控制单元检测在显示单元的屏幕上显示的视频内出现的声源的位置，并使用一个或多个振动器振动显示器以控制音频输出，以这种方式使得与视频同步的声音的音频图像定位在显示视频的屏幕上出现声源的位置。如果来自两个或更多个视频源的视频显示在单独的窗口上，则控制单元将从每个视频源的视频检测到的音频源的音频图像定位在对应窗口中的出现声源的位置。

Description

信息处理装置、信息处理方法和视频声音输出系统

本申请为国际申请日为2019年07月24日、国际申请号为PCT/JP2019/028972、发明名称为“信息处理装置、信息处理方法和视频声音输出系统”的中国国家阶段申请的分案申请，该中国国家阶段申请的进入国家阶段日为2021年01月29日、申请号为201980051043.3、发明名称为“信息处理装置、信息处理方法和视频声音输出系统”。

技术领域

本说明书中公开的技术涉及执行与视频信号同步的声学信号的输出处理的信息处理装置、信息处理方法和视频声音输出系统。

背景技术

近年来，提出了一种电视装置(或连接到电视装置的放大器装置等)，该电视装置使用声音定位技术以用于虚拟地将再现声音的声源定位在期望的位置(参见专利文献1)。基本上，可以在电视装置上布置左扬声器和右扬声器，并且可以再现两个左声道和右声道的立体声信号，以实现声音定位。可以增加声音信号的声道数量，并且可以使扬声器多路复用，以更高的分辨率控制声场。例如，提出了一种声学信号处理装置，该声学信号处理装置使用多个扬声器输出声音，从而提高预定收听区域的声音质量(参见专利文献2)。

同时，有机EL(电致发光)技术等被使用并且屏幕的尺寸正在增大。大屏幕不仅可以显示一条内容(例如，TV节目)，还可以并行显示多条内容。例如，用于在屏幕中显示特定视频的主屏幕的子屏幕上显示视频的PIP(画中画)、用于在屏幕中显示特定视频之外的另一视频的PAP(多种画面)等是已知的(参见专利文献3)。此外，并行显示的视频源不限于广播内容，并且视频源可以是各种类型的内容(例如，通过互联网传输的网络内容和从蓝光或其他盘再现装置输出的再现内容)。例如，提出了处理广播内容和网络内容的混合终端(参见专利文献4)。

引文列表

专利文献

专利文献1：JP 2011-259299A

专利文献2：JP 2013-102389A

专利文献3：日本专利号3526056

专利文献4：JP 2013-31046A

发明内容

技术问题

本说明书中公开的技术的目的是提供执行与视频信号同步的声学信号的输出处理的信息处理装置、信息处理方法和视频声音输出系统。

问题的解决方案

本说明书中公开的技术的第一方面提供：

一种信息处理装置，包括：控制部，检测在显示单元的屏幕上显示的视频中出现的声源的位置，并且使用一个或多个振动器振动显示单元，并且从而控制声音的输出，使得与视频同步的声音的声像定位在声源出现在显示视频的屏幕上的位置。

在单独的窗口上显示两个或更多个视频源的视频的情况下，控制部将从每个视频源的视频中检测到的声源的声像定位在声源出现在对应窗口中的位置。

此外，本说明书中公开的技术的第二方面提供：

一种信息处理方法，包括：

检测步骤，用于检测在显示单元的屏幕上显示的视频中出现的声源的位置；以及

控制步骤，用于使用一个或多个振动器振动显示单元，并且从而控制声音的输出，使得与视频同步的声音的声像定位在声源出现在显示视频的屏幕上的位置。

此外，本说明书中公开的技术的第三方面提供：

一种视频声音输出系统，包括：

显示单元；

声音输出单元，使用一个或多个振动器振动显示单元，并且从而输出声音；以及

控制部，检测在显示单元的屏幕上显示的视频中出现的声源的位置，并且控制声音输出单元，使得与视频同步的声音的声像定位在声源出现在显示视频的屏幕上的位置。

此处提到的“系统”表示多个装置(或实现特定功能的功能模块)的逻辑集合，并且装置或功能模块是否在单个壳体中并不特别重要。

本发明的有利效果

根据本说明书中公开的技术，可以提供执行与视频信号同步的声学信号的输出处理的信息处理装置、信息处理方法和视频声音输出系统。

注意，本说明书中描述的有利效果仅是说明性的，并且本发明的有利效果不限于此。此外，除了上述有利效果之外，本发明还可以获得额外的有利效果。

从基于稍后描述的实施例和附图的更详细描述中，本说明书中公开的技术的其他目的、特征和优点将变得显而易见。

附图说明

图1是示出应用本说明书中公开的技术的环境的示例的图；

图2是示意性示出电视装置200的内部配置示例的图；

图3是示意性示出用于执行使声像与视频传输内容中的图像一致的处理的功能配置的图；

图4是示意性示出用于执行使声像与在视觉通信中的图像一致的处理的功能配置的图；

图5是示意性示出用于执行使声音代理的声像与图像一致的处理的功能配置的图；

图6是示出声音代理根据交互用户的移动在大屏幕中移动的状态的图；

图7是示出根据用户位置控制声音代理的声音输出的处理过程的流程图；

图8是示出OSD从屏幕的左上角出现的状态的图；

图9是示出并行执行使声像与多个图像一致的处理的处理单元201的配置示例的图；

图10是示出在视频存储器中叠覆平面的状态的图；

图11是示出屏幕振动扬声器技术的应用示例的图；

图12是示出手术室系统1200的总体配置的图；

图13是示出在显示手术部位的内窥镜视频的屏幕上定位警告声音的声像的状态的图；

图14是示出在显示手术部位的内窥镜视频的屏幕上定位警告声音的声像的状态的图；

图15是示出在显示手术部位的内窥镜视频的屏幕上定位警告声音的声像的状态的图；

图16是示出在显示手术部位的内窥镜视频的屏幕上定位警告声音的声像的状态的图；

图17是示出车辆控制系统1700的示意性配置示例的图；

图18是示出成像单元17410和车辆外部信息检测部17420的安装位置的示例的图；

图19是示出车辆控制系统1700中的声音定位的具体示例的图；

图20是示出车辆控制系统1700中的声音定位的具体示例的另一图；

图21是示出车辆控制系统1700中的声音定位的具体示例的又一图；

图22是示出车辆控制系统1700中的声音定位的另一具体示例的图；

图23是示出车辆控制系统1700中的声音定位的另一具体示例的另一图；

图24是示出车辆控制系统1700中的声音定位的另一具体示例的又一图。

具体实施方式

在下文中，将参照附图详细描述本说明书中公开的技术的实施例。

图1示出应用本说明书中公开的技术的环境的示例。在图1中，电视装置100安装在面向放松并坐在客厅沙发上的多个用户(例如，家庭成员)的墙面上。电视装置100包括使用有机EL技术等的大屏幕。

电视装置100配备有扬声器阵列，该扬声器阵列包括多个未示出的扬声器或者该扬声器阵列外部连接。扬声器阵列可以被配置为使用二维排列在电视装置100的屏幕背面的一个或多个振动器(致动器)以振动屏幕，并从而输出声音。此外，振动器(致动器)的布置位置不限于屏幕的背面，并且阵列不限于二维阵列。在本实施例中，假设电视装置100可以使用扬声器阵列以高分辨率控制声场。

电视装置100可以通过内置调谐器或外部调谐器来选择并接收广播信号。此外，电视装置100配备有网络接口卡，并且能够发送并接收与视觉通信(例如，由提供商提供的跨顶(Over the Top，OTT)服务和视频会议)相关的数据。此外，可以在电视装置100上执行预先安装的应用程序(例如，声音代理和助手)。

因此，在电视装置100的大屏幕上显示多条内容中的至少一条，例如，直播(on-air)或记录的广播内容、由OTT服务传送的流式内容、视频会议(或网络会议)或其他视觉通信以及声音代理或助手的角色。此外，还可以使用一种技术(例如，PIP和PAP)以在大屏幕上同时并行显示两条或更多条内容。在图1所示的示例中，在电视装置100的大屏幕上同时并行显示直播广播内容101、视觉通信102和声音代理的角色103。此外，尽管图1中未示出，但是在大屏幕上也可以显示在电视装置100中生成的图形信息(例如，屏幕上显示(On ScreenDisplay，OSD))。

注意，尽管在图1所示的示例中，TV屏幕仅安装在客厅的一面墙上，但是TV屏幕可以安装在两面或更多面墙上。此外，在TV屏幕依次安装在相邻墙上的情况下，可以执行一显示方法，在该方法中，所有TV屏幕被同步驱动，并且例如声音代理等的角色跨两个或更多个表面上的TV屏幕连续移动。

图2示意性地示出电视装置200的内部配置示例。在此处，电视装置200可以是包括广播调谐器的信息处理装置。示出的电视装置200包括处理单元201、调谐器202、通信单元203、显示单元204、声音输入单元205、声音输出单元206、成像单元207、传感器单元208、遥控接收单元209和记录单元210。

调谐器202选择并接收地面广播和卫星广播的广播信号。此外，通信单元203使用例如以太网(注册商标)的有线通信或例如Wi-Fi(注册商标)的无线通信与连接到外部网络(例如，互联网)。例如，通信单元203发送并接收与由提供商提供的OTT服务或视觉通信相关的数据。此外，通信单元203包括发送高清晰度多媒体接口(High Definition MultimediaInterface，HDMI(注册商标))等的视频和声音的数字信号并且可用于将记录和再现设备(例如，蓝光和硬盘、游戏机等)从外部连接到电视装置200的通信接口。此外，通信单元203可以通过根据标准(例如，数字生活网络联盟(Digital Living Network Alliance，DLNA(注册商标)))的家用网络互连到家庭中的每个CE设备，或者还可以具有用于IoT(物联网)设备的接口功能。

显示单元204包括例如有机EL元件，并且包括纵横比(aspect ratio)为16:9的大屏幕。显示单元204用于显示由调谐器202选择并接收的节目内容的视频、电子节目指南(Electronic Program Guide，EPG)和数据广播内容，显示由OTT服务传送的流式内容，或者显示视觉通信(例如，视频会议)的视频。此外，也在显示单元204上显示图形(例如，预先安装在电视装置200上的声音代理或其他应用程序的图像和在电视装置200中生成的OSD)。注意，触摸传感器可以叠覆在显示单元204的屏幕的部分或全部区域上。

声音输入单元205包括声音收集元件(例如，麦克风)，并且用于输入安装有电视装置200的房间(在图1所示的客厅中)中所生成的声音。房间中生成的声音的示例包括电视节目的观众或使用声音代理的用户的话语。声音输入单元205可以包括麦克风阵列，该麦克风阵列包括多个麦克风的组合。此外，部分或全部麦克风可以从外部连接到电视装置200。可替代地，可以包括安装在用于电视装置200的遥控器上的麦克风，或者可以包括安装在电视装置200的外部设备上的麦克风(例如，智能电话和可穿戴设备)。在声音输入单元205包括多个麦克风的情况下，可以执行波束成形处理，以增加来自期望声源位置的声音(例如，用户与声音代理交谈的声音)的声音收集灵敏度，或者相反地，降低来自不必要的声源位置的声音(例如，其他用户的语音和从房间中的其他AV设备输出的声音)的声音收集灵敏度。

声音输出单元206用于输出由调谐器202选择并接收的节目内容或数据广播内容的声音，输出声音代理功能的合成声音等。声音输出单元206包括声音生成元件(例如，扬声器)。在本实施例中，假设声音输出单元206包括扬声器阵列(多声道扬声器或超级多声道扬声器)，该扬声器阵列包括多个扬声器的组合(部分或全部扬声器可以从外部连接到电视装置200)。因此，声音输出单元206可以基于对每个扬声器的输出控制来生成声场，以将声像定位在期望的位置，或者使得难以从期望位置以外的地方听到声音。

除了锥形扬声器之外，平板扬声器也可以排列成阵列并用作声音输出单元206。显然，包括不同类型扬声器的组合的扬声器阵列也可以用作声音输出单元206。此外，扬声器阵列还可以包括一个或多个振动器(致动器)，该一个或多个振动器(致动器)生成振动以使显示单元204振动，并从而输出声音。振动器(致动器)可以是添加到显示单元204上的致动器。

图11示出屏幕振动扬声器技术应用于显示器的示例。显示器1100由背面上的支架1102支撑。此外，扬声器单元1101附接到显示器1100的背面。振动器(致动器)1101-1布置在扬声器单元1101的左端，并且振动器(致动器)1101-2布置在右端，以提供扬声器阵列。振动器(致动器)1101-1和振动器(致动器)1101-2可以分别基于左声音信号和右声音信号振动显示器1101，以输出声音。此外，支架1102可以包括输出低频声音的低音扬声器。注意，显示器1100与使用有机EL元件的显示单元204相对应。

再次参考图2继续描述电视装置200的内部配置。成像单元207例如包括相机，该相机包括图像传感器(例如，互补金属氧化物半导体(Complementary Metal OxideSemiconductor，CMOS)和电荷耦合器件(Charge Coupled Device，CCD))，并且主要对例如显示单元204的大屏幕前面的用户或者电视装置200前面方向的房间中的场景进行成像。成像单元207例如可以是使用两个相机的立体相机或者使用三个或更多个相机的多相机。此外，部分或全部相机可以从外部连接到电视装置200。

传感器单元208主要感测设置有电视装置200的房间中的环境信息。传感器单元208的配置(即，包括何种传感器元件)是可选的。例如，传感器单元208可以包括对象检测传感器或深度传感器。可以基于对象检测传感器或深度传感器的检测结果(如果需要，结合由成像单元207捕获的图像的图像识别结果)来检测安装在房间中的家具或房间的布局。此外，传感器单元208还可以包括检测环境信息的环境传感器(例如，照度传感器、温度传感器和湿度传感器)。此外，传感器单元208还可以包括红外传感器或运动传感器，以检测房间中的用户的位置或移动。此外，传感器单元208还可以包括检测用户的脉搏、出汗量、脑电波、肌生成电位、呼气量等的生物传感器。传感器单元208包括的部分或全部传感器单元可以从外部或无线连接到电视装置200。

遥控接收单元209执行通过使用红外通信、近场通信等来从遥控器(未示出)发送的遥控命令的接收处理。遥控器的操作者例如是图1所示的在客厅中观看电视装置200的用户。

记录单元210例如包括大容量记录设备(例如，硬盘驱动器(Hard Disc Drive，HDD))，并且主要用于记录由调谐器202接收的节目内容。在一种情况下，记录单元210安装在电视装置200中，并且在另一种情况下，记录单元210通过接口(例如高清晰度多媒体接口(High Definition Multimedia Interface，HDMI(注册商标))和通用串行总线(UniversalSerial Bus，USB))从外部连接到电视装置200。

处理单元201包括处理器和存储器，并且执行加载在存储器上的程序，以执行各种处理并全面控制电视装置200中的动作。在处理单元201中，各种应用程序基本上在由操作系统(OS)提供的执行环境下执行。例如，在多处理器可以使用的情况下，或者在OS能够多线程执行的情况下，可并行执行的处理的每个单元可以被读出到存储器并且并行地执行。

由处理单元201执行的处理的示例包括电视装置100中的操作，例如，与由遥控接收单元209接收的遥控命令相对应的频道选择、音量调节、记录和图像质量调节、由调谐器202选择并接收的节目内容的视频和声音的输出处理、记录在记录单元210中的节目内容的再现输出处理、由OTT服务传送的流式内容的再现输出处理、应用程序的执行、OSD显示的控制等。此外，由处理单元201执行的应用程序的示例包括通过调谐器202或通信单元203接收的数据广播应用程序、OTT服务的应用程序以及预先安装在处理单元201上的应用程序(例如，声音代理和视觉通信)。此外，处理单元201还可以并行执行多个代理应用程序，并且电视装置200可以用作多个代理设备。

电视装置200并行地执行混合视频显示，例如，输出所选择并接收的广播内容的视频和声音，再现并输出由OTT服务传送的流式内容，再现并输出视觉通信(例如视频会议)，并且显示声音代理的图形等。因此，处理单元201包括视频存储器，该视频存储器包括用于广播内容、流式内容、视觉通信和图形的多个平面。此外，当多条视频内容同时显示时，应用如图1还示出的多窗口。即，在处理单元201中，根据为每个视频设定的窗口大小来转换广播内容、流式内容、视觉通信和图形的每个视频的分辨率，并且将该视频复制到每个平面上的窗口位置。随后，视频存储器中的平面以预定顺序叠覆，以生成一个图像帧。图像帧被临时存储在视频缓冲器中，然后显示单元204显示视频。

此外，根据本实施例的电视装置200的特征在于，在声音信号处理中执行用于使声像与图像一致的声音定位。

如果与视频相对应的声音被定位在与视频的显示位置不同的位置，则观看屏幕的用户感觉不舒服。例如，当多个表演者出现在广播内容的窗口中，并且一个或多个视频会议参与者在视觉通信的窗口上时，如果视频会议参与者说出的语音的声像未定位在视觉通信的窗口中，则用户可能会混淆这是谁的声音，或者相互理解可能会有障碍。

当全部的大屏幕用于显示出现多个表演者的电视节目时，如果表演者说出的语音被定位在与显示表演者的位置分开的地方，则用户难以识别说话者，并且用户感到不舒服。此外，在屏幕中移动的声音代理的声像被连续定位在某个地方是不自然的。随着屏幕尺寸的增大，声像与图像不匹配的问题变得更加突出。

此外，如上所述，如果在并行显示多个视频(例如，广播或流式传送的视频内容、视觉通信和声音代理)的情况下声像与图像不匹配，则用户可能会误会生成声音的窗口。

因此，根据本实施例的电视装置200被配置为执行检测出现在视频中的声源、计算声源在屏幕上的显示位置、以及将声源生成的声音定位在声源的显示位置处的处理，从而使声像与图像一致。

在下文中，将描述在显示视频内容(包括广播和OTT服务)、视觉通信和图形时由电视装置200执行的使声像与图像一致的处理。

(1)视频内容的情况

在视频是广播内容的情况下，出现在视频中的声源是电视节目的表演者(或在屏幕上显示的说话者)。例如，可以通过视频分析来检测图像中表演者的面部位置，从而检测声源。当多个表演者同时出现时，可以将每个表演者的面部位置检测为声源。可替代地，可以发送每个表演者的面部位置的数据作为广播内容的元信息。当电视节目显示在整个屏幕上时，检测到的面部位置是声源的显示位置。此外，在应用多窗口的情况下，将显示电视节目的窗口中的面部位置计算为声源的显示位置。此外，每当每个表演者讲话时，执行声音信号处理，以将声音的声像定位在屏幕上显示的表演者的面部的位置，并且从声音输出单元206输出声音。

注意，在由OTT服务传送的流式内容中使声像与图像一致的处理类似于上述处理。

图3示意性地示出用于执行使声像与视频内容中的图像一致的处理的功能配置。在此处，假设图3所示的每个功能模块基本上在处理单元201中实现。

由调谐器202(图3中未示出)选择并接收的广播信号被解调并解复用成视频和声音。随后，解码处理进一步应用于视频信号和声音信号中的每一者。图3基于一假设，即输入经过解码处理的视频信号和声音信号。

在OTT服务的情况下，由通信单元203(图3中未示出)接收的通信信号被解调并解复用成视频和声音。随后，解码处理进一步应用于视频信号和声音信号中的每一者。在提供服务的每个提供商中，流的传递系统和数据的格式可以不同。在任何情况下，图3基于一假设，即输入经过解码处理的视频信号和声音信号。此外，在视频和声音的数字信号通过数字通信接口(例如HDMI(注册商标))从记录和再现设备(例如蓝光和硬盘、游戏机)输入的情况下，假设执行根据OTT服务的处理。

一旦输入经过解码的视频信号，视频处理单元301检测包括在视频帧中的声源的位置。声源是说话者(例如，节目的表演者)。在输出声音的对象(例如，乐器)包括在帧中的情况下，对象的位置也被检测为声源。视频处理单元301在例如视频信号的图像质量调整处理的过程中执行视频分析等，以检测图像中说话者的面部位置并检测声源。可替代地，在声源位置的信息包括在与流相关联地发送的元信息中的情况下，可以通过元信息的解码处理来检测声源位置。在视频中同时包括多个说话者的情况下，视频处理单元301将每个说话者检测为声源，并检测声源位置。由视频处理单元301处理的视频信号被一次写入视频存储器(图3中未示出)中的视频平面，并且然后视频信号与其他平面的图像信息叠覆，并被显示和输出到显示单元204的屏幕。

一旦输入经过解码的声音信号，声音处理单元302使用包括在声音输出单元206中的多个扬声器来输出声音。在从视频处理单元301提供声源的位置信息的情况下，声音处理单元302将声像定位在声源的位置处，并且从声音输出单元206输出声音。

在视频帧显示在显示单元204的整个屏幕上的情况下，声音处理单元302将由视频处理单元301检测到的声源位置转换成屏幕上的显示位置的信息，并定位声像。另一方面，在多窗口应用于显示单元204的屏幕的情况下，一旦声音处理单元302从窗口控制部303获取了分配给视频的显示的显示位置和窗口大小的信息，声音处理单元302就将由视频处理单元301检测到的帧中的声源位置转换成窗口中的位置，并向该位置添加窗口的显示位置(偏移)，从而获得声源在屏幕上的位置的信息并定位声像。

在视频包括多个声源的情况下(例如，在视频中同时出现多个说话者的情况下)，视频处理单元301检测每个说话者的声源位置。另外，声音处理单元302将输入的声音信号分离成每个声源(例如，每个说话者)的声音，并将每个声源定位在相应的声源位置，以从声音输出单元206输出声音。

注意，在电视装置200包括多调谐器的情况下，或者在同时执行观看电视节目和使用OTT服务的情况下，针对每条视频内容并行执行处理。

(2)视觉通信的情况

在视频是视觉通信(例如，视频会议)的情况下，出现在视频中的声源是视频会议的参与者。例如，可以通过视频分析来检测图像中的会议的出席者的面部位置，以检测声源。在会议中存在多个参与者的情况下，会议的每个参与者的面部位置被检测为声源。随后，将会议的参与者的面部位置计算为声源在视觉通信的窗口中的显示位置。此外，每次会议的参与者讲话时，执行声音信号处理，以将声音的声像定位在会议的参与者的面部位置，并且从声音输出单元206输出声音。

图4示意性地示出用于在视觉通信中执行使声像与图像一致的处理的功能配置。在此处，图4所示的每个功能模块基本上在处理单元201中实现。

一旦通信单元203(图4中未示出)接收到用于视觉通信的通信信号，该通信信号被解复用为视频和声音，并且然后解码处理进一步应用于视频信号和声音信号中的每一者。在提供服务的每个提供商中，流的传递系统和数据的格式可以不同。在任何情况下，图4基于一假设，即输入经过解码处理的视频信号和声音信号。

一旦输入经过解码的视频信号，视觉通信(VC)处理单元401执行视频会议的视频的显示处理。在此处，在使用多点通信来执行视觉通信的情况下，视觉通信处理单元401执行将显示单元204的屏幕(或分配给视觉通信的窗口区域)划分成多个区域的处理，以向被划分区域显示和输出在其他点成像的视频会议视频(即，将划分的区域分配给每个点)。另外，当被划分区域的总数小于连接点的数量时，视觉通信处理单元401切换每个划分区域的屏幕。例如，在说话者接下来要说话的点的视频或者新发起讲话的点的视频被隐藏的情况下，视觉通信处理单元401将当前的另一点的显示视频切换到该视频。经过视觉通信处理单元401处理的视频信号被一次写入视频存储器(图4中未示出)中的视觉通信平面，并且然后视频信号与其他平面的图像信息叠覆，并被显示和输出到显示单元204的屏幕。

视觉通信处理单元401检测包括在视频帧中的声源的位置。声源是说话者(例如，视频中视频会议的参与者)。视觉通信处理单元401例如执行面部检测处理，以检测视频帧中的会议的参与者的面部位置，从而检测声源。此外，在如上所述使用多点通信以执行视觉通信的情况下，视觉通信处理单元401将显示说话者当前正在讲话的点的视频的被划分区域检测为声源的位置。

一旦输入经过解码的声音信号，声音处理单元402使用包括在声音输出单元206中的多个扬声器来输出声音。在从视觉通信处理单元401提供声源的位置信息的情况下，声音处理单元402将声像定位在声源的位置处，并从声音输出单元206输出声音。在使用多点通信(如上所述)执行视觉通信的情况下，声音处理单元402将声像定位在显示说话者当前正在说话的点的视频的被划分区域中。

在显示单元204在整个屏幕上显示视觉通信的视频的情况下，声音处理单元402将由视觉通信处理单元401检测到的声源位置转换成屏幕上的显示位置的信息，并定位声像。在使用多点通信执行视觉通信的情况下，声像被定位在再现说话者当前正在说话的点的视频的被划分区域中。

另一方面，在多窗口应用于显示单元204的屏幕的情况下，一旦声音处理单元402从窗口控制部303获取分配给视觉通信的显示位置和窗口大小的信息，声音处理单元402就将由视觉通信处理单元401检测到的声源位置转换成窗口中的位置，并向该位置添加窗口的显示位置(偏移)，从而获得声源在屏幕上的显示位置的信息并定位声像。在使用多点通信来执行视觉通信的情况下，声像被定位在再现说话者当前正在说话的点的视频的被划分区域中。

在通过电视装置200同时登录了多个视觉通信的情况下，针对每个视觉通信并行执行上述过程。

(3)图形的情况

声音代理的声源是声音代理的视频。因此，声音代理的显示位置可以从生成声音代理的视频的图形处理单元获取，以检测声源的位置。此外，在声音代理跟随用户并且当用户在房间中移动时在大屏幕中移动的情况下，基于用户的位置信息来检测声源的位置。此外，每当声音代理说话时，执行声音信号处理，以将声音代理的合成声音的声像定位在声音代理的显示位置处，并且从声音输出单元206输出声音。

图5示意性地示出用于执行使声音代理的声像与图像一致的处理的功能配置。在此处，假设图5所示的每个功能模块基本上在处理单元201中实现。

在本实施例中，假设用于声音代理的应用程序预先安装在电视装置200上。在处理单元201中，执行这样的应用程序，以在显示单元204的屏幕上显示声音代理的图形(例如，动画角色)，或者从声音输出单元206输出来自声音代理的声音消息的声音。在此处，可以存在在电视装置200中不执行声音代理的应用程序的情况，而是电视装置200使用外部代理服务。在这种情况下，电视装置200使用通信单元203以使用外部代理服务的交互处理，并且在电视装置200上仅执行声音的输入和输出以及声音代理的图形的显示。

图形处理单元501基于由处理单元201中的处理器执行的交互处理的结果(或者基于通过通信单元203从外部代理服务接收的交互处理结果)，生成声源的角色的图形。此外，合成器502合成生成的角色的动画。所合成的角色动画的图像被一次写入视频存储器(图5中未示出)中的图形平面，并且然后该图像与其他平面的图像信息叠覆，并显示和输出在显示单元204的屏幕上。

此外，图形处理单元501向声音处理单元503输出关于用于在显示单元204的屏幕上显示声音代理的图形的位置的信息。

声音处理单元503合成由处理单元201中的处理器(或外部代理服务)生成的声音代理的消息(文本)的声音，并使用声音输出单元206中包括的多个扬声器输出声音。如上所述，在从图形处理单元501提供声音代理的显示位置的信息的情况下，声音处理单元503将声像定位在显示位置处，并从声音输出单元206输出声音代理的声音。

在本实施例中，如图6所示，假设当与声音代理交互的用户在房间中移动时，声音代理跟随用户并在大屏幕中移动。此外，成像单元207或包括红外传感器或运动传感器的传感器单元208的捕获图像可用于检测在房间中移动的用户的位置。

图7以流程图的形式示出了根据用户的位置控制声音代理的声音输出的处理过程。假设所示出的处理过程在处理单元201中的处理器的控制下执行。

当成像单元207或包括红外传感器或运动传感器的传感器单元208的捕获图像用于检测在房间中移动的用户的位置(或从上次检测到的位置移动)时(步骤S701中为是)，图形处理单元501基于用户的位置计算用于在显示单元204的屏幕上显示声音代理的图形的位置(步骤S702)。另外，图形处理单元501向声音处理单元503输出关于用于在显示单元204的屏幕上显示声音代理的图形的位置的信息。

接下来，声音处理单元503基于从图形处理单元501提供的声音代理的显示位置的信息，定位声音代理的声音的声像并计算声场(步骤S703)。

此外，声音处理单元503从包括在声音输出单元206中的多个扬声器中确定用于输出声音代理的声音的声音输出位置，以便实现在前一步骤S703中计算的声场(步骤S704)，并且从声音输出位置输出声音代理的声音(步骤S705)。

此外，还存在根据OSD、用户界面(User Interface，UI)等的图形显示生成声音效果的情况。声音效果的作用是通知用户发生了需要用户快速响应的事件。在这种情况下，与声音代理的情况一样，声音效果的声像也定位在图形的显示位置处，并且声音效果更有效地在用户的耳朵中回响。

当处理单元201中的处理器在应用程序执行期间检测到需要显示ODS、UI等的图形的事件时，处理器指示图形处理单元501显示图形。

图形处理单元501基于来自处理单元201中的处理器的指令生成OSD、UI等的图形。此外，合成器502合成生成的图形。所合成的图形的图像被一次写入视频存储器(图5中未示出)中的图形平面，然后该图像与其他平面的图像信息叠覆，并被显示和输出到显示单元204的屏幕。此外，图形处理单元501向声音处理单元503输出关于在显示单元204的屏幕上显示OSD、UI等的图形的位置的信息。

声音处理单元503合成用于OSD、UI等的图形的声音效果，并使用包括在声音输出单元206中的多个扬声器输出声音。如上所述，在从图形处理单元501提供图形的显示位置的信息的情况下，声音处理单元503将声像定位在显示位置，并从声音输出单元206输出图形的声音效果。

图8示出由附图标记801指示的OSD从屏幕的左上角出现的状态。当大屏幕的外围部分用于显示图形时，用户可能不会注意到图形。在如图1所示的多窗口的情况下，屏幕的显示起初比较复杂，并且OSD隐藏在墙纸等的纹理中，使得用户难以找到图形的显示位置。此外，当声音效果从OSD的显示位置之外的位置发出时，与OSD的显示同步地生成的声音效果(例如警告声音)不会为用户提供找到显示的线索。另一方面，根据本实施例，声音效果从OSD出现的位置发出。所以，用户因此朝声像位置的方向看，并且用户可以容易地找到OSD的显示。

已经在上面针对视频内容、视觉通信和图形单独描述了用于使声像与电视装置200中的图像一致的功能配置。在本实施例中，电视装置200采用多窗口系统并行显示视频内容、视觉通信和图形，并且并行执行使声像与图像一致的处理。

图9示出处理单元201的配置示例，该处理单元201并行显示视频内容、视觉通信和图形，并且并行执行使声像与图像一致的处理。

由广播服务或OTT服务提供的信号被解复用为视频和声音，并且解码处理进一步应用于视频信号和声音信号中的每一者。随后，视频信号和声音信号分别输入到视频处理单元901和声音处理单元905。

一旦输入经过解码的视频信号，视频处理单元901检测包括在视频帧中的声源的位置。声源是说话者(例如，节目的表演者)。在输出声音的对象(例如，乐器)包括在帧中的情况下，对象的位置也被检测为声源。视频处理单元901在例如视频信号的图像质量调整处理的过程中执行视频分析等，以检测图像中说话者的面部位置，从而检测声源。在视频中同时包括多个说话者的情况下，视频处理单元901将每个说话者检测为声源，并检测声源位置。由视频处理单元901处理的视频信号被输出到叠覆单元907，并且被一次写入视频存储器(图9中未示出)的视频平面中。

一旦从窗口控制部906获取了分配给视频的显示的显示位置和窗口大小的信息，声音处理单元905就将由视频处理单元901检测到的帧中的声源位置转换成窗口中的位置，并向该位置添加窗口的显示位置(偏移)，从而获得声源在屏幕上事务位置的信息并定位声像。

一旦输入经过解码的视频信号，视觉通信处理单元902执行视频会议的视频的显示处理，并且还检测包括在视频帧中的声源的位置。声源是说话者(例如，视频中视频会议的参与者)。在使用多点通信(如上所述)执行视觉通信的情况下，视觉通信处理单元902将显示说话者当前正在讲话的点的视频的被划分区域检测为声源的位置。由视觉通信处理单元902处理的视频信号输出到叠覆单元907，并且被一次写入视频存储器(图9中未示出)的视觉通信平面中。

在通过电视装置200同时登录了多个视觉通信的情况下，针对每个视觉通信并行执行视觉通信处理。

一旦从窗口控制部906获取了分配给视觉通信的显示的显示位置和窗口大小的信息，声音处理单元905就将从视觉通信处理单元902提供的声源位置转换成窗口中的位置，并将窗口的显示位置(偏移)添加到该位置，从而获得声源在屏幕上的位置的信息并定位声像。此外，在使用多点通信(如上所述)来执行视觉通信的情况下，声音处理单元905将声像定位在显示说话者当前正在说话的点的视频的被划分区域中。

图形处理单元903基于由处理单元201中的处理器执行的交互处理的结果来生成声音代理的角色的图形。此外，合成器904合成生成的角色的动画。所合成的角色动画的图像被一次写入视频存储器(图9中未示出)中的图形平面中。此外，图形处理单元903将关于用于在显示单元204的屏幕上显示声音代理的图形的位置的信息输出到声音处理单元905。

声音处理单元905合成由处理单元201中的处理器生成的声音代理的消息(文本)的声音。此外，声音处理单元905将角色声音的声像定位在从图形处理单元903提供的图形的显示位置处，并从声音输出单元206输出声音。

叠覆单元907将从视频处理单元901输出的视频信号一次写入视频存储器中的视频平面。此时，叠覆单元907从窗口控制部906获取分配给视频的显示的显示位置和窗口大小的信息，并将视频写入分配给视频平面上的视频显示的窗口区域中。

此外，叠覆单元907将从视觉通信处理单元902输出的视频信号一次写入视频存储器中的视觉通信平面。此时，叠覆单元907从窗口控制部906获取分配给视觉通信的显示的显示位置和窗口大小的信息，并将视频写入分配给视觉通信平面上的视频的显示的窗口区域中。

此外，叠覆单元907将从合成器904输出的角色的视频和OSD、UI等的图形写入图形平面中。

此外，叠覆单元907以预定顺序在视频存储器中叠覆多个平面，以完成一个图像帧。在本实施例中，如图10所示，背景平面、视频平面和图形平面从后侧向前依次叠覆。然而，平面的排列顺序是可选的。图像帧随后被显示并输出到显示单元204的屏幕。平面正面的显示是优先的。在图1所示的电视装置100的屏幕配置示例中，直播广播内容(例如电视节目)101的窗口和视觉通信102的窗口以及声音代理的角色103被排列成彼此不重叠，并且在至少部分区域彼此重叠的情况下，后侧的视频被前侧的视频隐藏。

示例1

根据本公开的技术可以应用于各种产品。例如，根据本公开的技术可以应用于手术室系统。下面将描述根据本公开的技术应用于手术室系统的情况。

图12示意性地示出手术室系统1200的总体配置，在该总体配置中，可以应用根据本公开的技术。示出的手术室系统1200包括视听控制器(AV控制器)1207和手术室控制装置1209。视听控制器1207和手术室控制装置1209彼此连接并且能够彼此协作。

可以在手术室中安装各种装置。在图12所示的示例中，用于内窥镜手术的各种装置组1201、设置在手术室的天花板上并对操作者的手周围的区域进行成像的天花板相机1287、设置在手术室的天花板上并对整个手术室的状态进行成像的手术室相机1289、多个显示装置1203A至1203D、记录仪1205、病床1283、灯1291等安装在手术室中。

在这些装置当中，装置组1201属于内窥镜手术系统，并且包括内窥镜、显示由内窥镜捕获的图像的显示装置等。属于内窥镜手术系统的每个装置也被称为医疗设备。另一方面，显示装置1203A至显示装置1203D、记录仪1205、病床1283和灯1291是安装在同一手术室中的不属于内窥镜手术系统的装置。不属于内窥镜手术系统的每个装置也被称为非医疗设备。视听控制器1207和手术室控制装置1209彼此协作，以控制医疗设备和非医疗方法设备的动作。

视听控制器1207综合控制与手术室系统1200中的医疗设备和非医疗设备中的图像显示相关的处理。在此处，在手术室系统1200中包括的装置中，装置组1201、天花板相机1287和手术室相机1289是具有用于在手术期间发送要显示的信息(以下也被称为“显示信息”)的功能的装置(以下被也称为“传输源装置”)。此外，显示装置1203A至显示装置1203D是输出显示信息的装置(以下也被称为“输出目的地装置”)。另外，记录仪1205是既用作传输源装置又用作输出目的地装置的装置。在手术室系统1200中，视听控制器1207具有用于控制传输源装置和输出目的地装置的动作、从传输源装置获取显示信息、将显示信息发送到输出目的地装置、以及使输出目的地装置显示或记录显示信息的功能。注意，显示信息包括手术期间捕获的各种图像、关于手术的各种类型的信息(例如，患者的身体信息、过去的检查结果和关于手术方法的信息)等。

具体地，与由内窥镜成像的患者体腔中的手术部位的图像有关的信息作为显示信息从装置组1201发送到视听控制器1207。此外，与由天花板相机1287成像的操作者的手周围区域的图像有关的信息作为显示信息从天花板相机1287发送到视听控制器1207。另外，与指示由手术室相机1289成像的整个手术室的状态的图像有关的信息作为显示信息从手术室相机1289发送到视听控制器1207。注意，在手术室系统1200中还存在具有成像功能的另一装置(未示出)的情况下，视听控制器1207可以从该另一装置获取与由该另一装置捕获的图像有关的信息以作为显示信息。

另外，视听控制器1207在记录仪1205中记录与过去由如上所述的具有成像功能的装置捕获的图像有关的信息。视听控制器1207可以从记录仪1205获取与过去捕获的图像有关的信息作为显示信息。注意，关于手术的各种类型的信息也可以预先记录在记录仪1205中。

视听控制器1207使作为输出目的地装置的显示装置1203A至显示装置1203D中的至少一个显示从传输源装置获取的显示信息(即，手术期间捕获的图像和关于手术的各种类型的信息)。在图12所示的示例中，显示装置1203A是安装并悬挂在手术室天花板上的显示装置。显示装置1203B是安装在手术室的墙面上的显示装置。显示装置1203C是安装在手术室中的桌子上的显示装置。此外，显示装置1203D例如是具有显示功能的移动设备(例如，平板个人计算机(Personal Computer，PC))。

此外，尽管在图12中未示出，手术室系统1200还可以包括安装在手术室外部的装置。安装在手术室外部的装置的示例包括连接到建立在医院内部及外部的网络的服务器、医务人员使用的PC以及安装在医院会议室中的投影仪。此外，手术室系统1200可以包括安装在医院外部的用于远程医疗等目的的装置。在这种情况下，视听控制器1207还可以通过视频会议系统等在另一家医院的显示装置上显示显示信息。

手术室控制装置1209综合控制非医疗设备中的图像显示之外的处理。例如，手术室控制装置1209控制病床1283、天花板相机1287、手术室相机1289和灯1291的驱动。

在手术室系统1200上提供集中式操作面板1211。用户(例如，操作者)可以向视听控制器1207提供与图像显示有关的指令，并且通过集中式操作面板1211向手术室控制装置1209提供与非医疗设备的动作有关的指令。集中式操作面板1211包括设置在显示装置的显示表面上的触摸面板。

在配备有手术室系统1200的医疗场所中，可以在例如患者的身体的部分(例如，手术部位)显示在显示装置1203A至显示装置1203D的屏幕上的同时，进行手术。在这种情况下，可以输出与屏幕上显示的手术部位的位置相对应的声音的声像，并将该声像定位在与屏幕上的手术部位的显示位置相对应的位置处。例如，当内窥镜视频的屏幕上的手术部位如图13所示出血时，警告声音的声像定位在与出血手术部位相对应的位置处。此外，可以基于手术部位的三维深度信息，在操作者与屏幕之间三维地改变声像的定位位置。例如，如图14所示，在显示在屏幕上的手术部位的出血位置的深度较深的情况下，声像定位在更靠近屏幕的位置(或更远离操作者的位置)处。相反，如图15所示，在出血位置较浅的情况下，声像定位在更靠近操作者的位置。本技术可用于适当地将操作者的注意力吸引到需要快速治疗的手术部位。

关于手术部位的图像由天花板相机1287或内窥镜获得。此外，根据本公开的技术可以应用于由手术室相机1289捕获的手术室图像，并且显然，该技术可以类似地应用于由其他相机捕获的图像、过去捕获的图像以及从手术室外部传送的图像。

此外，本技术还可以应用于存在于显示装置1203A至显示装置1203D的屏幕外部的手术部位。例如，尽管假设显示在显示装置1203A至显示装置1203D的屏幕上的手术部位是整个手术部位的部分，但是在手术期间可能存在来自在屏幕上未显示的手术部位的出血等。根据本技术，可以根据屏幕上未显示的手术部位来定位警告声音的声像。

在存在来自显示装置1203A至显示装置1203D的屏幕外部的手术部位的出血的情况下，声像可以定位在与手术部位相对应的方向上，以引起操作者的注意。例如，如图16所示，在从屏幕上显示的手术部位的右侧出血的情况下，实现声像的定位，使得可以从屏幕的右侧听到警告声音。在此处，在采用通用扬声器系统的情况下，在屏幕右侧的声像定位可以是在显示装置的屏幕范围的右侧的声像定位，或者在采用具有振动器的屏幕振动扬声器系统(见图11)的情况下，在屏幕右侧的声像定位可以是使得从屏幕的右半部或从屏幕的右端生成声音的声像定位。此外，在组合和使用多个扬声器系统的情况下，可以组合和使用多个声场生成方法。

在手术部位在显示屏的范围之外的情况下，可以应用根据本公开的技术，以在任何方向上定位警告声音的声像，并且另外，声像的定位位置可以根据从屏幕上的显示范围到手术部位的距离而改变。例如，在从屏幕上的显示范围到手术部位的距离大的情况下，声像可以被定位成使得从比在距离小的情况下更远的地方听到声音。此外，输出声音的音量可以根据从屏幕上的显示范围到手术部位的距离而改变。在这种情况下，在从屏幕上的显示范围到手术部位的距离大的情况下，生成的声音可以比在距离小的情况下更大。

此外，根据本公开的技术可以与用于将操作者的注意力吸引到显示装置1203A至显示装置1203D的屏幕的显示一起使用。用于吸引操作者的注意力的显示的示例包括指示屏幕上从显示范围到手术部位的方向的图形用户界面(GUI)的显示。GUI可以仅包括简单的显示，例如，指示手术部位方向的箭头符号，或者还可以包括关于手术部位的位置和方向的信息的描述。

示例2

根据本公开的技术还可以应用于安装在移动体(例如，汽车、电动车、混合电动车、摩托车、自行车、个人移动体、飞机、无人机、轮船、机器人、建筑机械和农业机械(拖拉机))上的装置。下面将描述根据本公开的技术应用于移动体控制系统的情况。

图17示出作为可以应用根据本公开的技术的移动体控制系统的示例的车辆控制系统1700的示意性配置示例。示出的车辆控制系统1700包括驱动系统控制单元17100、主体系统控制单元17200、电池控制单元17300、车辆外部信息检测单元17400、车辆内部信息检测单元17500和集成控制单元17600。连接多个控制单元的通信网络17010例如包括符合任何网络(例如，控制器域网(Controller Area Network，CAN)、本地互连网络(LocalInterconnect Network，LIN)、局域网(Local Area Network，LAN)和FlexRay(注册商标))的车载通信网络。

每个控制单元包括根据各种程序执行算术处理的微型计算机、存储由微型计算机执行的程序、用于各种算术运算的参数等的存储单元、以及以各种方式驱动要控制的装置的驱动电路。每个控制单元包括用于通过通信网络17010与其他控制单元进行通信的网络接口(IF)，并且包括用于通过有线通信或无线通信与在车辆的内部和外部的装置或传感器通信的通信接口(IF)。图17示出了集成控制单元17600的功能组件，该功能组件包括微型计算机17610、通用通信接口(IF)17620、专用通信接口(IF)17630、定位单元17640、信标接收单元17650、车辆内部设备接口(IF)17660、声音图像输出单元17670、车载网络接口(IF)17680和存储单元17690。其他控制单元类似地包括微型计算机、通信接口、存储单元等。

驱动系统控制单元17100根据各种程序控制与车辆驱动系统相关的装置的动作。例如，驱动系统控制单元17100用作生成车辆驱动力的驱动力生成装置(例如，内燃机和驱动马达)、将驱动力传输到车轮的驱动力传输机构、调节车辆转向角的转向机构、生成车辆制动力的制动装置等的控制装置。驱动系统控制单元17100可以具有防抱死制动系统(Antilock Brake System，ABS)、电子稳定控制(Electronic Stability Control，ESC)等的控制装置的功能。

车辆状态检测部17110连接到驱动系统控制单元17100。车辆状态检测部17110包括例如检测车身的轴向旋转运动的角速度的陀螺仪传感器、检测车辆加速度的加速度传感器以及用于检测加速器踏板的操作量、制动踏板的操作量、方向盘的转向角、发动机速度、车轮的旋转速度等的传感器中的至少一者。驱动系统控制单元17100使用从车辆状态检测部17110输入的信号来执行算术处理并控制内燃机、驱动马达、电动转向装置、制动装置等。

主体系统控制单元17200根据各种程序控制装配在车身上的各种装置的动作。例如，主体系统控制单元17200用作无钥匙进入系统、智能钥匙系统、电动车窗装置和各种灯(例如，头灯、倒车灯、刹车灯、转向信号灯和雾灯)的控制装置。在这种情况下，从替代钥匙的便携式设备发送的无线电波或各种开关的信号可以输入到主体系统控制单元17200。主体系统控制单元17200接收无线电波或信号的输入，以控制车辆的门锁装置、电动车窗装置、灯等。

电池控制单元17300根据各种程序控制作为驱动电机的电源的二次电池17310。例如，信息(例如电池温度、电池输出电压和电池剩余容量)从包括二次电池17310的电池装置输入到电池控制单元17300。电池控制单元17300使用这些信号执行算术处理，以控制二次电池17310的温度调节或者控制包括在电池装置中的冷却装置等。

车辆外部信息检测单元17400检测配备有车辆控制系统1700的车辆外部的信息。例如，成像单元17410以及车辆外部信息检测部17420中的至少一者连接到车辆外部信息检测单元17400。成像单元17410包括ToF(飞行时间)相机、立体相机、单目相机、红外相机以及其他相机中的至少一者。车辆外部信息检测部17420包括例如检测当前天气或气候条件的环境传感器以及检测设置有车辆控制系统1700的车辆周围的其他车辆、障碍物、行人等的周围信息检测传感器中的至少一者。

环境传感器可以包括例如检测雨天的雨传感器、检测雾的雾传感器、检测阳光程度的阳光传感器和检测降雪的雪传感器中的至少一者。周围信息检测传感器可以包括超声波传感器、雷达装置以及光检测和测距、激光成像检测和测距(Light Detection andRanging,Laser Imaging Detection and Ranging，LIDAR)装置中的至少一者。成像单元17410和车辆外部信息检测部17420可以被设置为独立的传感器和装置，或者可以被设置为包括多个传感器和装置的集成装置。

图18示出成像单元17410和车辆外部信息检测部17420的安装位置的示例。成像单元2910、成像单元2912、成像单元2914、成像单元2916和2918设置在包括例如车辆2900的前鼻、侧镜、后保险杠、后门以及车辆内部的挡风玻璃的上部的至少一者位置上。设置在前鼻上的成像单元2910和设置在车辆内部挡风玻璃的上部的成像单元2918主要获取车辆2900前方的图像。设置在侧镜上的成像单元2912和成像单元2914主要分别获取车辆2900左侧和右侧的图像。设置在后保险杠或后门上的成像单元2916主要获取车辆2900后方的图像。设置在车辆内部挡风玻璃上部的成像单元2918主要用于检测前方车辆、行人、障碍物、交通灯、交通标志、车道等。

注意，图18还示出了成像单元2910、成像单元2912、成像单元2914和成像单元2916的成像范围的示例。成像范围a指示设置在前鼻上的成像单元2910的成像范围。成像范围b和成像范围c分别指示设置在侧镜上的成像单元2912和成像单元2914的成像范围。成像范围d指示设置在后保险杠或后门上的成像单元2916的成像范围。例如，合成处理可以应用于由成像单元2910、成像单元2912、成像单元2914和成像单元2916捕获的图像数据，以获得从上方观看的车辆2900的鸟瞰图像。

设置在车辆2900的前部、后部、侧面、拐角和车辆内部的挡风玻璃的上部的车辆外部信息检测部2920、车辆外部信息检测部2922、车辆外部信息检测部2924、车辆外部信息检测部2926、车辆外部信息检测部2928和车辆外部信息检测部2930例如包括超声波传感器或雷达装置。设置在车辆2900的前鼻、后保险杠、后门和车辆内部的挡风玻璃的上部的车辆外部信息检测部2920、车辆外部信息检测部2926和车辆外部信息检测部2930例如包括LIDAR装置。车辆外部信息检测部2920至车辆外部信息检测部2930主要用于检测前方车辆、行人、障碍物等。

将再次参照图17继续描述车辆控制系统1700。车辆外部信息检测单元17400使成像单元17410捕获车辆外部的图像，并接收捕获的图像数据。另外，车辆外部信息检测单元17400从连接的车辆外部信息检测部17420接收检测信息。在车辆外部信息检测部17420是超声波传感器、雷达装置或LIDAR装置的情况下，车辆外部信息检测单元17400使车辆外部信息检测部17420发送超声波、电磁波等，并且接收所接收到的反射波的信息。此外，车辆外部信息检测单元17400可以基于接收到的信息执行对人、车、障碍物、标志、路面上的文字等的对象检测处理或距离检测处理。此外，车辆外部信息检测单元17400可以基于接收到的信息执行识别雨、雾、路面状况等的环境识别处理。此外，车辆外部信息检测单元17400可以基于接收到的信息计算到车辆外部的对象的距离。

另外，车辆外部信息检测单元17400可以基于接收到的图像数据执行识别人、车、障碍物、标志、路面上的文字等的图像识别处理或距离检测处理。车辆外部信息检测单元17400可以对接收到的图像数据应用例如失真校正或位置调整的处理，并组合由不同成像单元17410捕获到的图像数据，以生成鸟瞰图像或全景图像。车辆外部信息检测单元17400可以使用由不同成像单元17410捕获到的图像数据来执行视点转换处理。

车辆内部信息检测单元17500检测车辆内部的信息。例如，检测驾驶员状态的驾驶员状态检测部17510连接到车辆内部信息检测单元17500。驾驶员状态检测部17510包括对驾驶员进行成像的相机、检测驾驶员的生物信息的生物传感器、收集车辆内部声音的麦克风等。生物传感器设置在例如座椅表面、方向盘等上，并检测坐在座椅上的乘客或握着方向盘的驾驶员的生物信息。车辆内部信息检测单元17500可以基于从驾驶员状态检测部17510输入的检测信息来计算驾驶员的疲劳程度或集中程度，或者可以确定驾驶员是否正在打瞌睡。车辆内部信息检测单元17500可以对收集的声音信号应用处理(例如，噪声消除处理)。

集成控制单元17600根据各种程序控制车辆控制系统1700中的整个动作。输入单元17800连接到集成控制单元17600。输入单元17800例如由允许乘客执行输入操作的装置(例如，触摸面板、按钮、麦克风、开关和杆)实现。通过对麦克风输入的声音的声音识别获得的数据可以输入到集成控制单元17600。

另外，输入单元17800可以是例如使用红外线或其他无线电波的遥控装置，或者可以是与车辆控制系统1700的操作相对应的外部连接设备(例如，便携式电话和个人数字助理PDA(Personal Digital Assistant))。

另外，输入单元17800可以是例如相机，并且在这种情况下，乘客可以通过手势输入信息。可替代地，通过检测乘客佩戴的可穿戴装置的动作而获得的数据可以输入到集成控制单元17600。

此外，输入单元17800可以包括例如输入控制电路等，该输入控制电路等基于乘客等使用输入单元17800输入的信息生成输入信号，并且该输入单元17800将输入信号输出到集成控制单元17600。乘客等操作输入单元17800，以将各种类型的数据输入至车辆控制系统1700或指示处理操作。

存储单元17690可以包括存储由微型计算机执行的各种程序的只读存储器(ReadOnly Memory，ROM)和存储各种参数、算术运算结果、传感器值等的随机存取存储器(RandomAccess Memory，RAM)。此外，存储单元17690可以包括磁存储设备，例如，硬盘驱动器(HardDisc Drive，HDD)、半导体存储设备、光存储设备、磁光存储设备等。

通用通信接口17620是通用通信接口，该通用通信接口协调与外部环境17750中存在的各种设备的通信。通用通信接口17620可以设置有蜂窝通信协议，例如，全球移动通信系统(Global System of Mobile communications，GSM(注册商标))、WiMAX(注册商标)、长期演进(Long Term Evolution，LTE(注册商标))和高级LTE((LTE-Advanced，LTE-A)或者其他无线通信协议，例如，无线LAN(也被称为Wi-Fi(注册商标))和蓝牙(注册商标)。通用通信接口17620可以通过例如基站或接入点连接到存在于外部网络(例如，互联网、云网络或业务专用网络)上的设备(例如，应用服务器或控制服务器)。此外，通用通信接口17620可以使用例如对等(Peer To Peer，P2P)技术来连接到存在于车辆附近的终端(例如，驾驶员、行人或商店的终端或机器类型通信(Machine Type Communication，MTC)终端)。

专用通信接口17630是支持为在车辆中使用而建立的通信协议的通信接口。专用通信接口17630设置有例如标准协议，例如，作为下层的IEEE 802.11p和上层的IEEE 1609的组合的车辆环境中的无线接入(Wireless Access in Vehicle Environment，WAVE)、专用短程通信(Dedicated Short Range Communications，DSRC)和蜂窝通信协议。专用通信接口17630通常进行V2X通信，该V2X通信是包括车辆对车辆(Vehicle to Vehicle)通信、车辆对基础设施(Vehicle to Infrastructure)通信、车辆对家庭(vehicle to Home)通信以及车辆对行人(Vehicle to Pedestrian)通信中的至少一种的概念。

定位单元17640从全球导航卫星系统(Global Navigation Satellite System，GNSS)卫星接收例如GNSS信号(例如，来自全球定位系统(Global Positioning System，GPS)卫星的GPS信号)，以执行位置测量，并生成包括车辆的纬度、经度和高度的位置信息。注意，定位单元17640可以与无线接入点交换信号，以指定当前位置，或者可以从具有定位功能的终端(例如，便携式电话、个人手持电话系统(Personal Handy-phone System，PHS)和智能电话)获取位置信息。

信标接收单元17650接收从例如安装在道路上的无线站等发送的无线电波或电磁波，并获取当前位置、交通堵塞、道路关闭、所需时间等的信息。注意，信标接收单元17650的功能可以包括在专用通信接口17630中。

车辆内部设备接口17660是协调微型计算机17610与存在于车辆内部的各种车辆内部设备17760之间的连接的通信接口。车辆内部设备接口17660可以使用无线通信协议(例如，无线LAN、蓝牙(注册商标)、近场通信(Near Field Communication，NFC)和无线USB(Wireless USB，WUSB))建立无线通信。此外，车辆内部设备接口17660可以通过未示出的连接终端(如果需要，还有电缆)建立有线通信(例如，USB、HDMI(注册商标)和移动高清链接(Mobile High-definition Link，MHL))。车辆内部设备17760可以例如包括乘客拥有的移动设备以及可穿戴设备或者携带在车辆中或附接到车辆的信息设备中的至少一者。此外，车辆内部设备17760可以包括搜索到任何目的地的路线的导航装置。车辆内部设备接口17660与车辆内部设备17760交换控制信号或数据信号。

车载网络接口17680是协调微型计算机17610与通信网络17010之间的通信的接口。车载网络接口17680根据通信网络17010支持的预定协议发送和接收信号等。

集成控制单元17600中的微型计算机17610基于通过通用通信接口17620、专用通信接口17630、定位单元17640、信标接收单元17650、车辆内部设备接口17660以及车载网络接口17680中的至少一者获取的信息根据各种程序来控制车辆控制系统1700。例如，微型计算机17610可以基于所获取的车辆内部和外部的信息来计算驱动力生成装置、转向机构或制动装置的控制目标值，并且向驱动系统控制单元17100输出控制命令。具体地，微型计算机17610可以执行协作控制，以用于实现高级驾驶员辅助系统(Advanced DriverAssistance System，ADAS)的功能，该功能包括避免车辆碰撞或减轻车辆震动、基于跟随距离的跟随行驶、以恒定速度行驶、车辆碰撞警告、车辆的车道偏离警告等。另外，微型计算机17610可以基于获取的车辆周围的信息来控制驱动力生成装置、转向机构、制动装置等，以执行用于自动驾驶等的协作控制，从而在无需驾驶员的操作的情况下自主行驶。

微型计算机17610可以基于通过通用通信接口17620、专用通信接口17630、定位单元17640、信标接收单元17650、车辆内部设备接口17660以及车载网络接口17680中的至少一者获取的信息，来生成车辆与对象(例如，周围结构和人)之间的三维距离信息，以创建包括车辆当前位置的外围信息的局部地图信息。此外，微型计算机17610可以预测危险(例如，车辆碰撞、行人接近等)以及进入封闭的道路，以基于获取的信息生成警告信号。警告信号可以是例如用于生成警告声音或用于点亮警告灯的信号。

声音图像输出单元17670将声音以及图像中的至少一者的输出信号传输到输出装置，该输出装置可以在视觉上或听觉上将信息发送到车辆的乘客或车辆的外部。在图17所示的示例中，音频扬声器17710、显示单元17720和仪表板17730被设置为输出装置。显示单元17720可以包括例如车载显示器以及平视显示器中的至少一种。显示单元17720可以是汽车导航系统的显示单元。显示单元17720可以具有增强现实(Augmented Reality，AR)显示功能。输出装置可以是除这些装置之外的装置，例如，耳机、包括由乘客穿戴的头戴式显示器的可穿戴设备、投影仪和灯。作为输出装置的显示装置在视觉上显示通过微型计算机17610执行的各种处理而获得的结果或从其他控制单元接收的各种格式(例如，文本、图像、表格和图形)的信息。此外，作为输出装置的声音输出装置将包括再现的声音数据、声学数据等的音频信号转换成模拟信号，并在听觉上输出该模拟信号。

注意，在图17所示的车辆控制系统1700中，通过通信网络7010连接的至少两个控制单元可以集成到一个控制单元中。可替代地，单独的控制单元可以包括多个控制单元。此外，车辆控制系统1700可以包括未示出的其他控制单元。另外，上述控制单元中的一个的部分或全部功能可以提供给另一控制单元。即，只要通过通信网络17010发送和接收信息，任何控制单元都可以执行预定的算术处理。类似地，连接到控制单元中的一个的传感器或装置可以连接到另一控制单元，并且多个控制单元可以通过通信网络17010相互发送和接收检测信息。

在如上所述的车辆控制系统1700中，例如，可以存在由车辆外部信息检测单元17400检测到的关于周围环境中的其他车辆的信息显示在显示单元17720上的情况。在这种情况下，可以根据在显示单元17720上显示的另一车辆与设置有车辆外部信息检测单元17400的车辆之间的关系来执行微型计算机17610等的处理，以定位从音频扬声器17710输出的声音的声像。因此，根据本公开的技术可以用于通过声像的定位位置适当地将驾驶员或乘客的注意力吸引到另一车辆或行人。

图19至图21示出了使用根据本公开的技术的声音定位的具体示例。在图19所示的示例中，挡风玻璃1900的部分被分配给显示或投影图像的显示单元17720。此外，挡风玻璃1900中的显示单元17720用作显示或投影由后相机捕获到的图像的后相机图像显示单元1901。如所示出的，当跟随车辆被显示或投影到后相机图像显示单元1901时，声音的声像(例如，警告声音)被定位在与跟随车辆的显示位置相对应的位置。在该情况下，可以根据跟随车辆的位置和速度以及从车辆到跟随车辆的跟随距离，在驾驶员或乘客与显示单元17720之间三维地改变声像的定位位置。在该情况下，也可以控制定位声像时的音量。

在声音定位处理应用于跟随车辆的显示位置的同时，车辆控制系统1700可以使用驾驶员状态检测部17510检测车辆内部的驾驶员或乘客的位置和姿势，并且考虑驾驶员或乘客的位置和姿势以控制声像的定位位置。例如，在车辆与跟随车辆之间的跟随距离大的情况下，声音的声像如图20所示被定位在更靠近屏幕的位置，以在听觉上表示跟随距离大。相反，在跟随距离小的情况下，声像如图21所示被定位在更靠近驾驶员或乘客的位置，以在听觉上表示跟随距离小。

类似地，在跟随车辆的行驶速度小于车辆的行驶速度的情况下，声音的声像被定位在更靠近屏幕的位置。相反，在跟随车辆的行驶速度大于车辆的行驶速度的情况下，声音的声像被定位在更靠近驾驶员或乘客的位置，以在听觉上表示跟随车辆正在接近车辆的情况。

注意，如上所述的跟随车辆与声像的定位位置之间的关系只是示例，并且该关系不限于该示例。例如，可以控制声音定位，使得在屏幕上显示的跟随车辆与车辆之间的跟随距离大的情况下，声像定位在更靠近驾驶员或乘客的位置，并且在跟随距离小的情况下，声像定位在更靠近屏幕的位置。此外，输出声音的音量可以根据车辆与跟随车辆之间的关系而改变。

尽管已经参照图19至图21描述了根据车辆与跟随车辆之间的关系控制声像的定位位置的情况，但是根据本公开的技术不限于此。根据本公开的技术，还可以根据由车辆外部信息检测单元17400可以检测到的除跟随车辆之外的对象来控制声像的定位位置。

图22示出使用根据本公开的技术的声音定位的另一具体示例。在图22所示的示例中，挡风玻璃2200的部分被分配给显示或投影图像的显示单元17720。此外，由车辆外部信息检测单元17400检测到的与位于车辆前方的行人和前方车辆相对应的声音的声像被定位在显示单元17720(或挡风玻璃2200)上。

如图22所示，在由车辆外部信息检测单元17400检测到对象位于车辆行驶方向的前方的情况下，驾驶员可以通过驾驶员前方的挡风玻璃2200在视觉上识别该对象。在这种情况下，驾驶员不必总是通过显示单元17720在视觉上识别位于车辆前方的对象。然而，如在对象位于车辆后方的情况下(参见图19至图21)，根据前方对象的位置和速度以及从车辆到前方对象的距离，声像的定位位置可以在挡风玻璃2200与驾驶员之间三维改变。在这种情况下，也可以控制定位声像时的音量。

注意，透射显示器可以用于挡风玻璃2200。在这种情况下，存在由驾驶员在视觉上识别为来自外部的透射光的对象以及由驾驶员基于透射显示器的输出光而在视觉上识别的对象。对于在视觉上被识别为透射光的对象和在视觉上被识别为输出光的对象，可以类似地定位声像，或者定位声像的方法可以根据对象是基于透射光的对象还是基于输出光的对象而变化。例如，对于在包括透射显示器的挡风玻璃上显示的跟随汽车的图像，声像可以被定位成使得从后面听到声音。

此外，在屏幕振动扬声器技术应用于普通挡风玻璃或使用透射显示器的挡风玻璃的情况下，可以在挡风玻璃上安装振动器，或者可以输出声音，使得车身的框架振动挡风玻璃。使用屏幕振动扬声器的技术不仅可以应用于挡风玻璃，还可以应用于侧窗或后窗。

到目前为止，已经描述了在作为显示单元17720的挡风玻璃上的对象(例如，跟随车辆、前方车辆和行人)的显示位置与驾驶员或乘客之间三维地改变声像的定位位置的示例。另一方面，声像的定位位置可以在对象的实际位置与驾驶员或乘客之间改变。

具体地，车辆控制系统1700使用车辆外部信息检测单元17400检测车辆与跟随车辆之间的跟随距离，并使用驾驶员状态检测部17510检测车辆内部的驾驶员或乘客的位置和姿势，并且从而在跟随车辆的实际位置与驾驶员或乘客之间三维地改变声像的定位位置。例如，如图23所示，在车辆与跟随车辆之间的跟随距离大的情况下，声音的声像定位在更靠近跟随车辆的位置(例如，在后窗附近)，以在听觉上表示跟随距离大。相反，如图24所示，在跟随距离小的情况下，声像被定位在更靠近驾驶员或乘客的位置(例如，在头部后侧附近)，以在听觉上表示跟随距离小。

类似地，在跟随车辆的行驶速度小于车辆的行驶速度的情况下，声音的声像被定位在更靠近跟随车辆的位置(例如，在后窗附近)。相反，在跟随车辆的行驶速度大于车辆的行驶速度的情况下，声音的声像被定位在更靠近驾驶员或乘客的位置(例如，在头部后侧附近)，并且在听觉上表示跟随车辆正在接近车辆的情况。

注意，跟随车辆的实际位置与声像的定位位置之间的关系只是示例，并且该关系不限于这些示例。例如，可以控制声音定位，使得在跟随车辆与车辆之间的跟随距离大的情况下，声像被定位在更靠近驾驶员或乘客的位置(例如，在头部后侧附近)，并且在与跟随车辆的距离小的情况下，声像被定位在更靠近跟随车辆的位置(例如，在后窗附近)。此外，输出声音的音量可以根据车辆与跟随车辆之间的关系而改变。

示例3

最后，将描述在车辆控制系统1700中应用和使用根据本公开的技术的情况，在该车辆控制系统1700中，挡风玻璃、后窗和侧窗的部分或全部是显示单元17720。在此处，显示单元17720可以是使用挡风玻璃、后窗和侧窗的部分或全部的透射显示器。

例如，在设置有车辆控制系统1700的车辆是自动驾驶汽车的情况下，在车辆行驶或停止期间，驾驶员和乘客可以将挡风玻璃、后窗和侧窗的部分或全部用作显示单元17720，以观看视频内容或浏览互联网。此外，根据本公开的技术可以应用于定位声像并且生成与显示单元17720上显示的显示对象协作的声场，并且可以提高驾驶员和乘客对内容的沉浸感。在这种情况下，由驾驶员状态检测部17510检测的与车辆内部的驾驶员或乘客的位置和姿势有关的信息可以用于定位声像。

具体地，在挡风玻璃、后窗和侧窗都是显示单元17720并且安装了使用振动器的屏幕振动扬声器技术的情况下，声音的声像可以定位在对应内容中的对象的显示位置，并且该显示位置可以部分振动，以将声音发送给驾驶员或乘客。

注意，多窗口(例如，参见图1)可以应用于使用挡风玻璃、后窗和侧窗的部分或全部的显示单元17720。在这种情况下，在挡风玻璃、后窗和侧窗的部分或全部上显示每个视频(例如，广播内容、流式内容、视觉通信和图形)。此外，多窗口可以包括用于显示由车辆外部信息检测单元17400获取的信息(例如，跟随车辆、前方车辆和行人)的窗口。

此外，根据本公开的技术，可以在车辆控制系统1700上提供如图9所示的处理功能，以检测显示在每个窗口上的对象的位置，从而将声像定位在适当的位置处。如图9所示，可以检测窗口中表演者(说话者)的面部位置，并且声像可以定位在与表演者(说话者)的面部位置相对应的位置处。此外，声像可以定位在与窗口中的对象相对应的位置处，该对象与由车辆外部信息检测单元17400获取的对象相对应。

尽管以上描述基于屏幕振动扬声器用作音频扬声器17710这一假设，但是显然也可以使用通用扬声器系统，并且也可以组合并使用屏幕振动扬声器和另一扬声器系统。然而，在使用屏幕振动扬声器的情况下，通用扬声器系统不必放置在车辆内部，并且可以有效地利用车辆内部的空间。

另外，以上描述基于挡风玻璃、后窗和侧窗的部分或全部是显示单元17720并且屏幕振动扬声器用作音频扬声器17710这一假设。然而，用于实现根据本公开的技术的配置不限于此。例如，布置在车辆内部天花板上的灯可以具有使用振动器的壳体振动扬声器功能。通过这种方式，通用扬声器系统不必设置在车辆内部，并且可以有效地利用车辆内部的空间。

[工业适用性]

已经参考具体实施例详细描述了本说明书中公开的技术。然而，显而易见的是，本领域技术人员可以在不脱离本说明书中公开的技术范围的情况下修改或替换该实施例。

尽管在本说明书中主要描述了本说明书中公开的技术应用于电视装置的实施例，但是本说明书中公开的技术的范围不限于此。本说明书中公开的技术可以类似地应用于显示视频并与视频同步地输出声音的各种类型的显示装置(例如，投影仪、个人计算机、平板电脑和智能电话)。

此外，可以通过将本说明书中公开的技术与例如屏幕振动扬声器技术相结合来更合适地操作本说明书中公开的技术。

此外，本说明书中公开的技术可以应用于使用显示器和扬声器的各种产品。例如，本说明书中公开的技术也可以应用于手术室系统和车辆控制系统。车辆的示例包括汽车、电动车、混合电动车、摩托车、自行车、个人移动体、飞机、无人机(例如，无人驾驶飞机)、步行或轮式机器人、建筑机械和农业机械(例如，拖拉机)。

即，已经以示例的形式描述了本发明中公开的技术，并且本说明书的描述不应被限制性地解释。应该考虑权利要求以确定本说明书中公开的技术的范围。

注意，本说明书中公开的技术也可以如下配置。

(1)一种信息处理装置，包括：

控制部，检测在显示单元的屏幕上显示的视频中出现的声源的位置，并且使用一个或多个振动器振动显示单元，并且从而控制声音的输出，使得与视频同步的声音的声像定位在声源出现在显示视频的屏幕上的位置。

(2)根据(1)的信息处理装置，其中，

控制部检测出现在广播或OTT服务的视频中或外部输入的视频中的声源，并且将声像定位在声源出现在屏幕上的位置。

(3)根据(1)或(2)的信息处理装置，其中，

控制部检测出现在视觉通信的视频中的声源，并且将声像定位在声源出现在屏幕上的位置。

(4)根据(1)至(3)中任一项的信息处理装置，其中，

控制部将显示在屏幕上的预定图形检测为声源，并且将与图形有关的声音定位在图形显示在屏幕上的位置。

(5)根据(4)的信息处理装置，其中，

控制部将在信息处理装置上执行的声音代理的图形检测为声源，并且将声源的声音的声像定位在图形显示在屏幕上的位置。

(6)根据(5)的信息处理装置，还包括：

检测部，检测与声音代理交互的用户，其中，

控制部还根据用户的位置控制角色的显示位置。

(7)根据(4)的信息处理装置，其中，

控制部将出现在屏幕上的OSD或UI的图形检测为声源，并且与图形在屏幕上的显示同步地定位与图形相关联的声音效果的声像。

(8)根据(1)至(7)中任一项的信息处理装置，其中，

在单独的窗口上显示两个或更多个视频源的视频的情况下，

控制部将从每个视频源的视频中检测到的声源的声像定位在声源出现在对应窗口中的位置。

(9)一种信息处理方法，包括：

(10)一种视频声音输出系统，包括：

显示单元；

[附图标记列表]

100电视装置

200电视装置(信息处理装置)

201处理单元，202调谐器，203通信单元，204显示单元

205声音输入单元，206声音输出单元，207成像单元

208传感器单元，209遥控接收单元，210记录单元

301视频处理单元，302声音处理单元，303窗口控制部

401视觉通信处理单元，402声音处理单元

403窗口控制部

501图形处理单元，502合成器

503声音处理单元，504窗口控制部

501视频处理单元，502合成器，503声音处理单元

504窗口控制部

901视频处理单元，902视觉通信处理单元

903图形处理单元，904合成器

905声音处理单元，906窗口控制部，907叠覆单元

1100显示器，1101扬声器单元

1101-1和1101-2振动器(致动器)

1102支架

1200手术室系统，1201装置组

1203A至1203AD显示装置，1205记录仪

1207视听控制器(AC控制器)

1209手术室控制装置，1283病床

1287天花板相机，1289手术室相机，1291灯

1700车辆控制系统，17010通信网络

17100驱动系统控制单元，17110车辆状态检测部

17200主体系统控制单元，17300电池控制单元

17310二次电池，17400车辆外部信息检测单元

17410成像单元，17420车辆外部信息检测部

17500车辆内部信息检测单元，17510驾驶员状态检测部

17600集成控制单元，17610微型计算机

17620通用通信接口

17630专用通信接口，17640定位单元

17650信标接收单元，17660车辆内部设备接口

17670声音图像输出单元

17680车载网络接口，17690存储单元。

Claims

1.一种信息处理装置，包括：

控制部，检测在显示单元的屏幕上显示的视频中出现的声源的位置，并且使用一个或多个振动器振动所述显示单元并且从而控制声音的输出，使得与所述视频同步的声音的声像定位在所述声源出现在显示所述视频的所述屏幕上的所述位置。

2.根据权利要求1所述的信息处理装置，其中，

所述控制部检测出现在广播或OTT服务的视频中或外部输入的视频中的声源，并且将声像定位在所述声源出现在所述屏幕上的所述位置。

3.根据权利要求1所述的信息处理装置，其中，

所述控制部检测出现在视觉通信的视频中的声源，并且将声像定位在所述声源出现在所述屏幕上的所述位置。

4.根据权利要求1所述的信息处理装置，其中，

所述控制部将显示在所述屏幕上的预定的图形检测为声源，并且将与所述图形有关的声音定位在所述图形显示在所述屏幕上的位置。

5.根据权利要求4所述的信息处理装置，其中，

所述控制部将在所述信息处理装置上执行的声音代理的图形检测为声源，并且将所述声源的声音的声像定位在所述图形显示在所述屏幕上的所述位置。

6.根据权利要求5所述的信息处理装置，还包括：

检测部，检测与所述声音代理交互的用户，其中，

所述控制部还根据所述用户的位置控制角色的显示位置。

7.根据权利要求4所述的信息处理装置，其中，

所述控制部将出现在所述屏幕上的OSD或UI的图形检测为声源，并且与所述图形在所述屏幕上的显示同步地定位与所述图形相关联的声音效果的声像。

8.根据权利要求1所述的信息处理装置，其中，

在单独的窗口上显示两个或更多个视频源的视频的情况下，

所述控制部将从每个所述视频源的所述视频中检测到的声源的声像定位在所述声源出现在对应窗口中的位置。

9.一种信息处理方法，包括：

控制步骤，用于使用一个或多个振动器振动所述显示单元并且从而控制声音的输出，使得与所述视频同步的声音的声像定位在所述声源出现在显示所述视频的所述屏幕上的所述位置。

10.一种视频声音输出系统，包括：

显示单元；

声音输出单元，使用一个或多个振动器振动所述显示单元，并且从而输出声音；以及

控制部，检测在所述显示单元的屏幕上显示的视频中出现的声源的位置，并且控制所述声音输出单元，使得与所述视频同步的声音的声像定位在所述声源出现在显示所述视频的所述屏幕上的所述位置。