CN114008566A

CN114008566A - 信息处理装置、信息处理方法和程序

Info

Publication number: CN114008566A
Application number: CN202080045646.5A
Authority: CN
Inventors: 荻田猛史; 山野郁男
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2019-06-28
Filing date: 2020-05-18
Publication date: 2022-02-01
Also published as: WO2020261805A1; JPWO2020261805A1; US20220353457A1

Abstract

[问题]提供一种信息处理装置、信息处理方法和程序，利用该信息处理装置、信息处理方法和程序可以在运动图像再现期间帮助听力障碍者进行收听。[解决方案]该信息处理装置包括控制器。该控制器对包括具有以文本信息指示音效的音效字幕数据和以文本信息指示人的发声的发声字幕数据的字幕信息以及具有声音数据的声音信息的运动图像文件进行分析，并且使用对这些字幕信息和声音信息进行分析而得到的分析结果，基于声音数据的波形来生成对应于音效字幕数据的振动信号和/或对应于发声字幕数据的振动信号。

Description

信息处理装置、信息处理方法和程序

技术领域

本技术涉及帮助观看者观看视频文件的信息处理装置、信息处理方法和程序。

背景技术

用于解释声音内容的字幕一般显示在诸如适合听力障碍者的电影或戏剧的视频中，以帮助听力障碍者在没有声音信息的情况下观看视频。不仅以字幕的形式显示人的发声，而且还显示用于解释情景的音效。然而，难以使用基于文本的字幕来表示例如角色语音的音调变化和音量以及角色发声的速度。

此处，专利文献1公开了使用自动触感算法生成触觉效果。自动触感算法执行分析以用于对电影的音频轨道和视频轨道执行模式识别，以生成触觉效果。另外，A/V接收器分析关键字的闭合字幕文本。例如，当发现“爆炸”作为关键字时，自动触感算法在发现的关键字的时间戳周围寻找爆炸模式，并且进一步地，自动触感算法生成相应的触觉效果，例如与爆炸相对应的强烈振动。A/V接收器在与电影中发生的事件相对应的时间处输出触觉效果。

引用列表

专利文献

专利文献1：日本专利申请特许公开第2015-53048号

本发明的公开内容

技术问题

专利文献1中公开的技术使得可以向用户提供对应于诸如“爆炸”的所谓的音效的触觉效果。然而，听力障碍者难以识别例如人们在谈话时的语音音调变化和发声速度。

本技术的目的是提供使得可以在回放视频时帮助听力障碍者观看视频的信息处理装置、信息处理方法和程序。

问题的解决方案

为了实现上述目的，根据本技术的实施方式的信息处理装置包括控制器。

该控制器使用对包括在视频文件中的字幕信息和声音信息进行分析的结果，基于声音数据的波形，生成与音效字幕数据相对应的振动信号以及与发声字幕数据相对应的振动信号中的至少一者，音效字幕数据用于以文本信息的形式表示音效，发声字幕数据用于以文本信息的形式表示人的发声，音效字幕数据和发声字幕数据包括在字幕信息中所包括的字幕数据中，声音数据包括在声音信息中。

由于基于声音数据生成对应于音效或发声的振动信号，因此这样的配置使得可以使用振动来帮助观看者观看视频文件。

控制器可以将声音数据划分为与音效字幕数据相对应的声音数据和与发声字幕数据相对应的声音数据，并且控制器可以基于与音效字幕数据相对应的声音数据的波形生成与音效字幕数据相对应的振动信号，并且可以基于与发声字幕数据相对应的声音数据的波形生成与发声字幕数据相对应的振动信号。

控制器可以使用包括在字幕信息中的显示位置信息、标记信息、字体信息以及颜色信息中的至少一者来确定字幕数据是音效字幕数据还是发声字幕数据，显示位置信息是关于在图像上显示字幕的位置的信息，标记信息是关于在图像上显示的标记的信息，字体信息是关于字幕中的文字的字体的信息，颜色信息是关于字幕中的文字的颜色的信息。

在字幕信息包括与多个人在谈话的场景相对应的字幕信息的情况下，该控制器可以使用字幕信息并按照谈话中的发声顺序对多个人在谈话的场景中的发声字幕数据进行分割，并且可以生成与通过分割获得的每条发声字幕数据相对应的振动信号。

控制器可以生成与音效相对应的振动信号和与人的发声相对应的振动信号，以使得基于与音效相对应的振动信号的振动与基于与人的发声相对应的振动信号的振动之间在幅度上存在相对差异。

视频文件可以包括内容元信息，并且控制器可以在考虑内容元信息的情况下生成振动信号。

控制器可以在考虑关于用户的信息的情况下生成振动信号。

还可以包括振动提供部，该振动提供部基于振动信号向用户提供振动。

可以包括多个振动提供部。

该控制器可以使用对字幕信息和声音信息进行分析的结果来生成与音效字幕数据相对应的振动信号以及与发声字幕数据相对应的振动信号，并且可以将生成的振动信号输出到多个振动提供部中的不同的振动提供部。

为了实现上述目的，根据本技术的实施方式的信息处理方法包括：使用对包括在视频文件中的字幕信息和声音信息进行分析的结果，基于声音数据的波形，生成与音效字幕数据相对应的振动信号以及与发声字幕数据相对应的振动信号中的至少一者，音效字幕数据用于以文本信息的形式表示音效，发声字幕数据用于以文本信息的形式表示人的发声，音效字幕数据和发声字幕数据包括在字幕信息中所包括的字幕数据中，声音数据包括在声音信息中。

为了实现上述目的，根据本技术的实施方式的程序使得信息处理装置执行包括以下操作的处理：对包括在视频文件中的字幕信息和声音信息进行分析，字幕信息包括包含音效字幕数据和发声字幕数据的字幕数据，声音信息包括声音数据，音效字幕数据用于以文本信息的形式表示音效，发声字幕数据用于以文本信息的形式表示人的发声；以及使用分析的结果，基于声音数据的波形，生成与音效字幕数据相对应的振动信号以及与发声字幕数据相对应的振动信号中的至少一者。

附图说明

图1示意性地示出了振动提供系统的配置。

图2是示出用户正在使用作为振动提供系统的一部分并且包括振动提供设备的信息处理装置的状态的透视图。

图3是用于生成振动的方法的基本流程的图。

图4是生成振动的示例的流程的图。

图5示出包括在视频中并且其上显示字幕的场景的示例、该场景中的人的发声的声音波形和音效的声音波形、以及基于各个声音波形分别生成的振动信号的波形。

图6示出包括在另一视频中并且其上显示字幕的场景的示例、该场景中人的发声的声音波形、以及基于各个声音波形分别生成的振动信号的波形。

图7示出包括在又一视频中并且其上显示字幕的场景的示例、该场景中的音效的声音波形、以及基于该声音波形生成的振动信号的波形。

图8示出包括在另一视频中并且其上显示字幕的场景的示例。

具体实施方式

[振动提供系统的概述]

使用图1和图2描述根据本技术的实施方式的振动提供系统。

图1示出振动提供系统的配置并且包括作为振动提供系统的一部分的信息处理装置的功能框图。

图2是示出用户U正在使用包括振动提供设备的信息处理装置的状态的透视图。

本实施方式的振动提供系统在有听力障碍的用户U(在下文中在某些情况下称为“观看者”)使用诸如电影、电视剧和游戏的视频内容时帮助用户U理解例如声音呈现。

更具体地，使用包括声音信息、视频信息和字幕信息的视频文件的声音信息和字幕信息，将对应于声音的振动实时提供给用户U。在本实施方式中，分别生成对应于音效的振动和对应于人的发声的振动。因此，例如，在电影的情况下，观看者通过振动知道电影中角色语音的音调变化和音量、角色发声的速度、音效的音量和持续时间以及音量变化。这使得观看者能够更深入地理解电影中的情景。

例如，当用于解释音效的“爆炸声”以用于解释声音内容的字幕的形式显示在图像上以帮助有听力障碍的用户U在没有声音信息的情况下观看视频时，观看者仅凭字幕信息不知道爆炸声是持续低沉的大地隆隆声还是瞬间的巨响。

在本实施方式中，基于音效的声音数据的波形生成振动信号，这使得可以使用振动向用户提供爆炸声的类型。这使得用户U能够深入地理解电影中的情景。

此外，以下是另一示例。当显示人的发声的字幕时，仅使用字幕信息可能难以理解人的感受。在本实施方式中，基于人的发声的声音数据的波形生成振动，这使得可以使用振动提供人的语音的音调变化和音量以及人的发声的速度。这使得用户U能够深入地理解电影中的情景。

这在以下将详细描述。

如图1所示，振动提供系统20包括信息处理装置1和内容分发服务器10。

当正在回放由内容分发服务器10分发的视频文件时，振动提供系统20基于视频文件中包括的字幕信息和声音信息实时地向观看者提供振动。

在振动提供系统20中，信息处理装置1和内容分发服务器10通过诸如因特网的网络相互连接以能够相互通信。信息处理装置1向内容分发服务器10发送获取列表数据的请求和下载的视频(在一些情况下称为“视频文件”)的请求。此外，内容分发服务器10例如向信息处理装置1发送列表数据和视频文件。

下面描述在正在回放下载的视频时基于视频文件中包括的字幕信息和声音信息提供振动的示例。

(内容分发服务器)

内容分发服务器10保存付费或免费的内容数据。内容分发服务器10提供视频文件。当信息处理装置1访问内容分发服务器10时，内容列表显示在信息处理装置1中包括的并且将在后面描述的显示部2上。当用户U选择内容时，从内容分发服务器10下载该内容的视频文件。

视频文件包括：内容元信息、字幕信息、视频信息和声音信息。

内容元信息包括：例如关于视频类别的类别信息、关于视频类型的类型信息和关于广播状态的状态信息。

视频类别的示例包括电影、体育、动画和新闻。视频类型的示例包括动作、SF和爱情。广播状态的示例包括在节目期间和广告插播期间。

视频信息包括视频数据。包括在视频数据中的信息的示例包括：关于诸如车辆、火车、枪和人的对象的对象信息；关于诸如喜、怒、哀、乐的人类感受的感受信息；关于对象的运动(例如停止和快速运动)的运动信息；关于爆炸或起泡时闪光的闪光信息；以及手语信息。

声音信息包括例如声音数据、声音通道数、声源位置信息和第二音频通道信息。

声音数据包括例如频率信息和关于声压变化的信息。频率信息提供关于音调(例如高音和低音)的信息。关于声压变化的信息提供关于诸如爆炸声和强大音效的声音的响度的信息。

第二音频通道信息的示例不仅包括双语广播中的第二音频通道的语言的声音数据，而且还包括用于视障人士的画外音等。

字幕信息包括：例如字幕数据、关于在图像上显示字幕的位置的显示位置信息、关于在图像上显示的标记的标记信息、关于字幕中的文字的字体的字体信息、以及关于字幕中的文字的颜色的颜色信息。

字幕数据是字幕文本数据。字幕数据包括两种类型的字幕数据，即用于以文本信息的形式表示人的发声的发声字幕数据和辅助字幕数据。

辅助字幕数据是用于帮助观看者理解视频内容的字幕数据。辅助字幕数据包括：用于以文本信息的形式解释音效的音效字幕数据以及情景解释字幕数据。

音效字幕数据本质上是用来解释不是人的发声的声音。音效的示例不仅包括回放视频时实际发出的环境声音(例如车辆的喇叭声、通知电梯到达的声音、狗的吠叫声、开门和关门的声音以及爆炸声)，而且还包括例如在回放视频时作为人的发声而发出的、但不是人的实际发声的用于人的感受和讲述的声音。

情景解释字幕数据有助于理解回放视频时没有发出声音的情景。例如，在多个人在谈话的场景中，在字幕中、在与人的发声相对应的文本之前的圆括号或方括号中显示该发声的人的名字等。该人的名字对应于情景解释字幕数据的情况。这样的情景解释字幕数据使观看者能够理解哪个发声是哪个人的发声。注意，当圆括号或方括号中显示的文字是人的名字时，女性的名字和男性的名字可以用不同的颜色显示，例如用红色显示女性的名字而用蓝色显示男性的名字，以使得可以确定人的性别。圆括号或方括号中显示的文字的颜色使得可以确定字幕数据是否为情景解释字幕数据。

(信息处理装置的配置)

信息处理装置1访问内容分发服务器10，并且下载视频文件。信息处理装置1包括用于使用视频文件中包括的字幕信息和声音信息来生成提供给用户的振动的振动信号的应用程序。

例如，信息处理装置1可以是蜂窝电话、个人数字助理(PDA)或便携式游戏机。此处，蜂窝电话被描述为包括作为振动提供部的振动设备和显示部的信息处理装置的示例。

信息处理装置1可以包括使用诸如无线局域网(LAN)或蜂窝电话的无线通信系统的通信功能。此外，信息处理装置1可以被配置成通过使用诸如USB线缆的优先线缆连接至外部装置来与内容分发服务器进行通信。

如图2所示，本实施方式的信息处理装置1包括横长的显示部2，并且用户U用他/她的手以所谓的横长握持的状态握持信息处理装置1。信息处理装置1包括左手振动设备4L和右手振动设备4R。在用户U握持信息处理装置1的状态下，左手振动设备4L被定位成对应于用户U的左手，并且右手振动设备4R被定位成对应于用户U的右手。基于由稍后描述的控制器6输出的振动信号驱动左手振动设备4L以进行振动。这使得向用户U的左手提供振动。同样，基于控制器6输出的振动信号驱动右手振动设备4R以进行振动。这使得向用户U的右手提供振动。

此处，当不需要特别区分左手振动设备4L和右手振动设备4R时，振动设备被称为振动设备4L和4R。

本实施方式的信息处理装置1输出输入声音信号的波形作为振动。

如图1所示，信息处理装置1包括：显示部2、声音输出部3、左手振动设备4L、右手振动设备4R、通信部5、控制器6、输入部7、用于扬声器的放大器8、用于驱动左手振动设备的放大器9L和用于驱动右手振动设备的放大器9R。

显示部2作为测试或者以图像的形式在其上显示各种信息，例如回放内容的视频数据和内容列表。显示部2包括例如阴极射线管(CRT)显示器、液晶显示器(LCD)或有机发光二极管(OLED)。

显示部2在其上显示基于由控制器6输出的视频数据和字幕数据的图像。

声音输出部3例如是扬声器和耳机。声音输出部3例如将控制器6输出的声音数据改变为声音，并且输出声音。

振动设备4L、4R基于控制器6输出的振动信号被驱动以向用户提供振动。由稍后描述的振动发生器64基于视频文件的声音数据的波形生成振动信号。

使用诸如能够在高达约20kHz的声音信号的频带中跟随振动的电磁振动器的振动器作为振动设备4。可以使用诸如偏心马达致动器或线性谐振致动器的已知设备作为振动设备4。

本实施方式的信息处理装置1包括两个振动设备4L和4R。

通信部5向外部装置发送信息并且从外部装置接收信息。例如，通信部5通过例如LAN、蓝牙(注册商标)或Wi-Fi连接至外部装置以能够与外部装置通信，并且发送和接收信息。本实施方式的信息处理装置1从与外部装置相对应的内容分发服务器10接收视频文件。

控制器6控制信息处理装置1。控制器6使用包括在获取的视频文件中的字幕信息和声音信息生成用于振动设备4的振动信号，并且将振动信号输出至振动设备4。此外，控制器6将视频数据和字幕数据输出至显示部2，并且将声音数据输出至声音输出部3。稍后将详细描述控制器6。

输入部7是用于对信息处理装置1执行输入的接口。通过输入部7，用户可以输入作为用户信息的观看者信息。

观看者信息包括关于作为用户的观看者的属性的属性信息和观看环境信息。

关于观看者的属性的属性信息的示例包括观看者的听力损失状态、年龄和振动偏好。

观看者的听力损失状态是左耳和右耳各自的听力损失程度，例如双耳听力困难、仅右耳听力困难以及左耳完全听不到。

观看环境信息是关于当观看者使用信息处理装置1观看内容时观看者周围的环境的环境信息。环境的示例包括室内、室外以及通过例如汽车或火车旅行期间。

可以通过基于观看者信息执行综合确定来调整振动的幅度。

输入部7的类型没有限制，并且输入部7可以是任何已知的输入部。在本实施方式中，触摸面板用作输入部7，并且触摸面板设置在显示部2的显示表面上。输入部7的其他示例包括鼠标、键盘和开关。

用于扬声器的放大器8放大控制器6输出的声音数据，并且将放大的声音数据输出至声音输出部3。

用于驱动左手振动设备的放大器9L放大由控制器6输出的左手振动信号，并且将放大的信号输出至左手振动设备4L。

用于驱动右手振动设备的放大器9R放大由控制器6输出的右手振动信号，并且将放大的信号输出至右手振动设备4R。

描述控制器6。

控制器6包括存储器61、获取部62、分析器63和振动发生器64。

获取部62获取通过通信部5从内容分发服务器10接收的视频文件，以及通过输入部7输入的观看者信息。

存储器61中存储在由控制器6执行处理时使用的各种数据和程序以及从外部获取的各种数据，例如由获取部62获取的观看者信息。

分析器63对包括在视频文件中字幕信息和声音信息进行分析。

更具体地，分析器63在回放视频时分析字幕信息，并且使用下述信息中的至少一者将字幕数据划分为发声字幕数据和音效字幕数据：关于在图像上显示字幕的位置的显示位置信息、关于在图像上显示的标记的标记状态、关于字幕中字体的字体信息或关于字幕的中文字颜色的颜色信息。在这种情况下，分析器63执行分析以确定：以直立字体显示、不在圆括号或方括号中且水平显示的字幕数据为发声字幕数据，并且发声字幕数据以外的字幕数据为辅助字幕数据。此外，分析器63执行分析以确定：在辅助字幕数据中，使用圆括号或方括号中的红色或蓝色文字显示的字幕的数据是情景解释字幕数据，并且除了情景解释字幕数据以外的字幕数据是效果字幕数据。

此处，参考在视频上显示字幕的示例，使用附图描述如何区分音效字幕数据和发声字幕数据。

图5的(A)、图6的(A)、图7的(A)、图8的(A)至(C)分别示出视频中的场景并且是用于描述在图像上显示字幕的示例的图。

在视频(例如日本电影)的情况下，其中文本可以水平书写并且可以竖直书写的日语主要用于字幕，可以根据在图像上显示字幕的位置来确定字幕数据是发声字幕数据还是音效字幕数据。

例如，在其中使用日语作为字幕的视频中包括的图5的(A)的场景40中，水平显示发声字幕数据42，并且竖直显示用于解释对应于音效的警报声的音效字幕数据41。如上所述，可以根据在图像上显示字幕的位置来确定字幕数据是发声字幕数据还是音效字幕数据。

此外，可以使用在图像上显示的标记将字幕数据划分为发声字幕数据和辅助字幕数据。

例如，在图5的(A)所示的视频的场景40中，以方括号显示音效字幕数据，而诸如方括号的标记不用于发声字幕数据。

此外，在对应于其中使用日语作为字幕的视频的示例的图7的(A)的场景45中，在圆括号中水平显示用于解释对应于音效的车辆喇叭声的辅助字幕数据46。

此外，在对应于诸如外语电影的视频的示例的图8的(B)的场景50中，其中，水平书写的语言主要用于字幕，在方括号中显示用于表示对应于音效的电梯声的辅助字幕数据51，而诸如方括号的标记不用于发声字幕数据52。

此外，在对应于外语电影的视频的示例的图8的(C)的场景53中，在方括号中显示用于表示对应于音效的人的笑声的辅助字幕数据54以及用于表示对应于音效的门的吱吱声的音效字幕数据56，而诸如方括号的标记不用于发声字幕数据55。

如上所述，使用诸如圆括号或方括号的标记使得可以区分发声字幕数据和辅助字幕数据。注意，在图5的(A)的场景40中，除了显示在方括号中以外，由于竖直显示，也可以将字幕数据确定为音效字幕数据41。

此外，除了使用圆括号或方括号以外，还可以使用图像上显示的圆括号或方括号(标记)中字幕中的文字颜色来将辅助字幕数据划分为音效字幕数据和情景解释字幕数据。

当圆括号或方括号中的文字是红色或蓝色时，可以将圆括号或方括号中的文字确定为情景解释字幕数据。当圆括号或方括号中的文字不是红色或蓝色时，可以将圆括号或方括号中的文字确定为音效字幕数据。

在图7的(A)、图8的(B)和图8的(C)中分别示出的场景45、场景47和场景50的每一个中，圆括号或方括号中的文字以不是红色或蓝色的颜色显示。因此，可以将圆括号或方括号中的字幕确定为音效字幕数据。

另一方面，在其中字幕中使用日语的视频中包括的图6的(A)的场景43是两个人正在谈话的场景，并且人的名字作为字幕显示在圆括号中，使得观看者理解哪个发声是哪个人的发声。在图6的(A)中，圆括号中的“直美”、日本女性常用名字之一、显示为红色，而圆括号中的“一郎”、日本男性常用名字之、显示为蓝色。因此，由于字幕中圆括号中的文字颜色为红色或蓝色，因此可以将圆括号中的字幕确定为情境解释字幕数据。

此外，在其中字幕中使用日语的视频中包括的图8的(A)的场景47的字幕中，人的名字显示在圆括号中，并且人的名字的颜色为蓝色。因此，由于圆括号中字幕的文字的颜色为红色或蓝色，因此可以将圆括号中的字幕确定为情境解释字幕数据。

如上所述，可以使用字幕中的文字的颜色将字幕数据划分为音效字幕数据和情景解释字幕数据。

注意，当没有通过颜色彼此区分音效字幕数据和情景解释字幕数据时，稍后描述的分析器可以执行分析以确定显示在圆括号或方括号中的文字是否是人的名字。在这种情况下，例如，包括多个人的名字的人名数据预先存储在稍后描述的存储器61中，稍后描述的分析器63可以通过参考人名数据来确定圆括号或方括号中的文字是否是人的名字。当圆括号或方括号中的文字已被确定为人的名字时，可以将圆括号或方括号中的字幕确定为情景解释字幕数据。

此外，当在多个人在谈话的场景43中圆括号中的文字表示人的名字时，在圆括号中的人的名字后面显示与该人的发声相对应的文本。例如，如图6的(A)所示，显示了字幕“(直美)你决定了吗？(一郎)是的”。在这种情况下，可以使用关于圆括号的信息(标记信息)按照谈话中的发声顺序来分割发声字幕数据。具体地，可以将发声字幕数据区分为发声字幕数据“你决定了吗？”和发声字幕数据“是的”。因此，可以将不同人的多条发声数据彼此分割。

此外，可以使用字幕中的文字的字体将字幕数据划分为发声字幕数据和辅助字幕数据。

例如，在图5的(A)的场景40中，与人的发声相对应的文本以直立型字体显示，直立型字体是没有倾斜的直立字体。另一方面，在其中字幕中使用日语的视频中包括的图8的(A)的场景47中，辅助字幕数据48以倾斜字体的倾斜型字体显示，辅助字幕数据48用于表示在回放视频时作为人的发声而发出的、但不是人的实际发声的用于人的感受的声音。

因此，可以将与不在圆括号或方括号中且为倾斜字体的字幕相对应的部分确定为音效字幕数据。此外，可以将与不在圆括号或方括号中且为直立字体的字幕相对应的部分确定为发声字幕数据。

如上所述，可以将与倾斜字体的字幕相对应的部分确定为辅助字幕数据。可以将与没有在圆括号或方括号中的除了倾斜字体之外的字幕相对应的部分确定为音效字幕数据。可以将在圆括号或方括号中且以红色或蓝色显示的字幕确定为情景解释字幕数据，并且可以将以红色和蓝色以外的颜色显示的字幕确定为音效字幕数据。

如上所述，可以通过字幕的字体来彼此区分音效字幕数据和发声字幕数据，音效字幕数据用于表示与在回放视频时作为人的发声而发出的、但不是人的实际发声的用于人的感受或讲述的声音相对应的音效。

如上所述，可以通过分析器63分析关于视频文件的字幕的字幕信息来将字幕数据划分为音效字幕数据和发声字幕数据。

此外，分析器63对声音数据进行分析，并且将声音数据划分为人发声的声音数据和音效的声音数据。

通过利用例如音量和频率的差异，可以将人的发声的声音数据和音效的声音数据彼此分离。此外，分离可以基于通过使用大量发声的声音数据和大量音效的声音数据进行机器学习而构建的数据库来执行。

振动发生器64基于通过分析器63执行的分析的结果来生成振动信号。振动发生器64基于对应于发声的声音数据的波形生成对应于人的发声的振动信号，并且基于对应于音效的声音数据的波形生成对应于音效的振动信号。

此外，在本实施方式中，振动发生器64将与人的发声相对应的振动信号输出至右手振动设备4R，并且将与音效相对应的振动信号输出至左手振动设备4L。当正在回放视频时，即当正在再现声音数据时，振动发生器64输出对应于声音数据的振动信号。

例如，日本专利申请特许公开第2008-283305号中公开的用于生成用于驱动振动器(振动设备)的振动信号的方法可以用于生成振动信号。更具体地，从正在针对其再现声音数据的声音信号的时间波形中，获取同一时间处的声音信号的频谱图。频谱图显示了声音信号频谱相对于频率的时间变化，其中纵轴表示频率并且横轴表示时间。提取生成在频谱图的宽频率范围内瞬时发生的高强度频谱的定时。具体地，获得频谱的时间导数，提取所获得的值(即，频谱的时间变化量)大的定时以获取作为强度程度的时间导数值，并且生成具有以与强度程度相对应的幅度发生振动的波形的振动信号。如上所述的那样生成的振动信号被称为根据基本设置的振动信号。

如上所述，基于声音数据的波形生成振动信号。因此，例如在对应于人的发声的振动的情况下，人的发声的音调变化和音量、发声的速度等反映在振动中。因此，振动使观看者能够容易地想象例如人的感受并且更深入地理解场景中的情景。这使得可以帮助观看者进行观看。

同样，在对应于音效的振动情况下，诸如车辆喇叭声和爆炸声的音效的音量、音量的变化、声音的持续时间等反映在由于基于声音数据的波形生成的振动信号而发生的振动中。因此，该振动使得观看者能够更深入地理解情景。这使得可以帮助观看者进行观看。

此外，振动发生器64可以基于分析字幕信息的结果调整根据基本设置的振动信号以生成振动信号。

以下是具体示例。振动发生器64可以调整并生成振动信号，以使得对应于人的发声的振动弱于根据振动设备4中的基本设置的振动。振动发生器64还可以调整并生成振动信号，以使得对应于音效的振动相对弱于与人的发声相对应的振动。通常，人的发声时间段倾向于比较长，并且如果相应地长时间提供强烈的振动，观看者可能会感到不舒服。因此，例如，当基于对应于人的发声的声音数据调整如上所述的那样生成的根据基本设置的振动信号以生成振动信号、以使得波形的幅度变低时，这使得可以提供更舒适的观看。

此外，以下是另一具体示例。振动发生器64可以调整根据基本设置的振动信号以生成振动信号，以使得对应于女性的发声的振动频率高于对应于男性的发声的振动频率。通常，成年女性的语音高于成年男性。因此，可以根据频率是否高来直观地掌握男性和女性谈话的场景中振动对应于男性的发声和女性的发声中的哪一个。

此外，除了使用字幕信息和声音信息以外，还可以使用内容元信息来生成振动信号。例如，当内容元信息指示动作为视频类型时，可以仅针对音效生成振动信号，而不针对人的发声生成振动信号。这使得可以在整个视频中提供取决于动作场景的动态振动信号。

[用于生成振动的方法]

接下来，使用图3描述由控制器6执行的用于生成振动的方法。

图3是用于生成振动的方法的基本流程的图。

首先，由获取部62获取视频文件，并且回放视频(S1)。

接下来，由分析器63执行关于视频文件中的字幕信息的存在或不存在的分析(S2)，并且确定是否存在字幕信息(S3)。

当分析字幕信息时，确定字幕信息的存在或不存在。此外，当存在字幕信息时，分析器63使用包括在字幕信息中的下述信息将字幕数据划分为音效字幕数据和发声字幕数据：关于在图像上显示字幕的位置的显示位置信息、关于在图像上显示的标记的标记信息、关于字幕中的文字的字体的字体信息、以及关于字幕中的文字的颜色的颜色信息。此外，在多个人正在谈话的场景的情况下，根据圆括号或方括号的位置，按照谈话中的发声的顺序来分割发声字幕数据。

当确定不存在字幕信息时(否)，处理返回到S2，并且重复S2和S3的处理。当确定存在字幕信息时(是)，处理移动到S4。

在S4中，由分析器63分析包括在视频文件中的声音信息(S3)。

当分析器63对字幕信息的分析结果确定既存在音效字幕数据又存在发声字幕数据时，通过分析声音信息将对应于音效的声音数据和对应于人的发声的声音数据彼此分开，并且将这些声音数据分别与音效字幕数据和发声字幕数据相关联。

此外，当分析器63对字幕信息的分析结果确定存在音效字幕数据和发声字幕数据中的仅一者时，不需要分离声音数据，并且将字幕数据与声音数据相关联。

接下来，由振动发生器64基于对字幕信息和声音信息进行分析的结果来生成振动信号，并且由振动发生器64将振动信号输出到振动设备(S5)。换言之，基于对应于音效的声音数据的波形来生成与音效相对应的振动信号，基于对应于发声的声音数据的波形来生成与发声相对应的振动信号，并且将振动信号输出到各个振动设备。

例如，当观看者握持用作振动提供设备的信息处理装置1时开始生成振动的处理，并且当观看者将他/她的手从信息处理装置1移开时终止生成振动的处理。此外，当屏幕上没有字幕时，执行控制以防止振动设备4L、4R生成振动。

接下来，使用图4描述用于生成振动信号的方法的具体示例。

此处，描述了下述示例：其中，对应于音效的振动被输出到左手振动设备4L并且对应于发声的振动被输出到右手振动设备4R。然而，可以将与音效相对应的振动输出到右手振动设备4R，并且可以将与发声相对应的振动输出到左手振动设备4L。

当如上所述的那样通过不同的振动设备分别生成对应于音效的振动和对应于人的发声的振动时，这使得观看者能够深入地理解场景中的情景。

图4是当两个振动设备4R和4L各自用于提供振动时用于生成振动的方法的示例的流程的图，并且更详细地示出图3的S5的处理。与参照图3描述的步骤类似的步骤由与图3中使用的步骤名称类似的步骤名称表示，并且省略对其的描述。图4中的S51至S54对应于图3中的S5。

如图4所示，在S4之后，由振动发生器64使用分析结果，基于音效和人的发声中的每一个的声音数据的波形来生成振动信号(S51)。更具体地，生成左手振动信号和右手振动信号，左手振动信号是与对应于音效的声音数据相对应的振动信号，并且右手振动信号是与对应于发声的声音数据相对应的振动信号，声音数据通过分析而彼此分离。

接下来，由振动发生器64确定所生成的振动信号是否对应于音效(S52)。当确定所生成的振动信号对应于音效时(是)，处理进行到S53，并且将作为对应于音效的振动信号的左手振动信号输出到左手振动设备4L。当确定所生成的振动信号不对应于音效时(否)，处理进行到S54，并且将作为对应于人的发声的振动信号的右手振动信号输出到右手振动设备4R。

因此，基于输入的左手振动信号驱动左手振动设备4L，并且向用户提供对应于音效的振动。同样，基于输入的右手振动信号驱动右手振动设备4R，并且向用户提供对应于音效的振动。

在图5的(A)所示的场景40的示例中，基于对应于发声的声音数据的波形来生成对应于发声的振动信号，并且基于对应于警报的声音数据的波形来生成对应于与音效相对应的警报的振动信号，如图5的(B)所示。基于振动信号驱动振动设备4R、4L，并且向观看者提供振动。

注意，在图5的(B)中，“声音”表示声音数据，并且“振动”表示振动信号。这同样适用于图6的(B)和图7的(B)。

此外，在图6的(A)中所示的场景43的示例中，基于对应于男性的发声的声音数据的波形来生成对应于男性的发声的振动信号，并且基于对应于女性的发声的声音数据的波形来生成对应于女性的发声的振动信号，如图6的(B)所示。

此外，在图7的(A)中所示的场景45的示例中，基于对应于喇叭声的声音数据的波形来生成与对应于音效的喇叭声相对应的振动信号，如图7的(B)所示。

当如上所述的那样基于对应于发声的声音数据生成振动信号以向观看者提供振动时，这使得观看者能够通过触感来理解仅使用字幕信息(例如发声的音调变化和音量以及发声的速度)是不可读的内容。因此，观看者可以容易地想象例如人的个性和感受，并且可以更深入地理解情景。同样，在音效的情况下，振动使得观看者能够理解例如声音的音量、音量的变化以及持续时间。因此，观看者可以更深入地理解情景。

此外，在生成振动时，可以通过执行调整以使得对应于音效的振动相对弱于对应于人的发声的振动来生成振动信号。如上所述，这使得可以提供舒适的观看。

此外，当在生成振动时作为分析字幕信息的结果确定了发声的人的性别时，振动发生器64可以通过执行调整以使得对应于女性的发声的振动频率高于对应于男性的发声的振动频率来生成振动信号。因此，当观看者正在观看男性和女性正在谈话的场景时，向观看者提供振动，并且这使得观看者能够容易直观地识别出该发声是男性的发声和女性的发声中的哪一个。

此外，对于多个人正在谈话的场景，当分析发声字幕数据以确定使用圆括号或方括号按谈话中的发声顺序分割发声字幕数据时，振动发生器64可以停止对应于场景中的音效的振动，可以限制确定提供对应于第一发声的振动的振动设备，并且此后可以针对每个分割交替地使左侧的振动设备和右侧的振动设备的振动。

例如，对于两个人正在谈话的场景，生成左手振动信号和右手振动信号，诸如将对应于第一发声的振动输出到右手振动设备4R，以及将对应于第二发声的振动输出到左手振动设备4L。

此外，对于三个人或更多人正在谈话的情景，生成左手振动信号和右手振动信号，使得交替地驱动振动设备4R和振动设备4L，例如将对应于第一发声的振动输出到右手振动设备4R，将对应于第二发声的振动输出到左手振动设备4L，以及将对应于第三发声的振动输出到右手振动设备4R。

因此，振动使得观看者能够理解谈话中的暂停和每个人的发声速度。因此，观看者可以更深入地理解场景中的情景。

当通过分析字幕信息确定场景中多个人正在谈话时，如上所述，可以生成用于谈话模式的振动信号，并且在其他情况下，可以生成用于普通模式的振动信号。在谈话模式中，停止对应于音效的振动，并且按每个谈话分割交替地将振动信号输出到左侧的振动设备4L和右侧的振动设备4R。在普通模式中，将对应于音效的振动信号输出到左手振动设备，并且将对应于人的发声的振动信号输出到右手振动设备。

注意，上面已经描述了其中存在两个振动设备的示例。然而，振动设备的数目可以是一个，并且单个振动设备可以被配置成使得单个振动设备可以基于对应于发声的振动信号振动并且可以基于对应于音效的振动信号振动。

在这种情况下，如果同时发生对应于发声的振动和对应于音效的振动，则可以停止对应于发声的振动和对应于音效的振动之一。例如，可以使用内容元信息来确定停止对应于发声的振动和对应于音效的振动中的哪一个。

例如，当内容元信息指示动作为视频类型时，停止对应于人的发声的振动，并且输出对应于音效的振动信号。这使得提供根据动作场景的动态振动，并且更深入地理解该情景。

本技术的实施方式不限于上述实施方式，并且在不脱离本技术的范围的情况下可以对其进行各种修改。

在上述实施方式中，已经描述了除了控制器以外还包括显示部和振动设备的蜂窝电话作为信息处理装置的示例。然而，信息处理装置不限于此。如果信息处理装置至少包括控制器和用于建立与外部装置的连接的通信部，这就足够了。

例如，上述振动提供系统可以应用于电影院；并且用作显示部的屏幕以及包括振动设备的椅子或眼镜或背心等可以用作外部装置，其中眼镜或背心等可以由观看者直接佩戴。于是，信息处理装置能够与外部装置通信。如果椅子、眼镜、背心等包括至少一个振动设备，这就足够了，其中至少一个振动设备可以如在上述实施方式中的振动设备的情况下那样地提供振动。

此外，助听器可以包括振动设备，并且可以用作能够与包括控制器的信息处理装置进行通信的外部装置。这使得例如如果助听器的用户的听力下降，可以通过提供振动来警告用户注意声音。

此外，在以上实施方式中已经描述了其中假设视频文件是例如电影或戏剧的示例。然而，本技术可以应用于例如游戏的视频文件。例如，角色扮演游戏(RPG)或模拟游戏的视频文件包括字幕信息和声音信息。因此，可以使用字幕信息和声音信息生成振动信号。

此外，当回放包括声音位置信息的视频文件(例如虚拟现实(VR)内容)时，声音位置信息还可以用于确定例如要使用哪个振动信号来驱动多个振动设备中的哪个振动设备。

此外，在以上实施方式中已经描述了使用两个振动设备或单个振动设备的示例。然而，可以使用三个或更多个振动设备。

此外，在以上实施方式中已经描述了主要使用字幕信息和声音信息生成振动的示例。然而，除了使用字幕信息和声音信息以外，还可以使用内容元信息、视频信息和观看者信息来生成振动信号。这使得可以提供适合于帮助理解场景的细节的振动。

通过在考虑内容元信息的情况下生成振动信号，可以提供根据图像内容的特征的振动。例如，当回放视频类型为动作的视频文件时，如上所述，可以仅针对音效生成振动，而不针对人的发声生成振动。

此外，通过在考虑视频信息的情况下生成振动信号，可以更深入地理解场景的细节。例如，在图5的(A)中所示的场景40中，使用视频信息来检测将其头部埋在手中的人，并且将该人识别为悲伤。根据识别的结果，可以生成振动信号，以使得对应于人的发声的振动弱于根据基本设置的振动信号。因此，振动使得可以更深入地理解该人是悲伤的。

此外，通过在考虑观看者信息的情况下生成振动信号，可以提供对于观看者更有利的振动。如上所述，观看者信息包括关于作为用户的观看者的属性的属性信息和观看环境信息。关于观看者的属性的属性信息的示例包括观看者的听力损失状态、年龄和振动偏好。

根据观看者的听力损失状态，可以调整振动的幅度，从而使得例如振动在完全不能听到的情况下比在部分不能听到的情况下更强。

此外，老年人通常由于衰老而经历听力下降和感觉振动的能力的降低。因此，使用年龄信息，可以调整振动的幅度，从而使得例如当观看者是老年人时振动更强。

此外，在关于振动的幅度的偏好方面存在个体差异。因此，通过观看者设置他/她的振动偏好可以提供更有利的振动。

此外，对于观看者环境信息，室外环境通常比室内环境噪音更大。因此，例如，通过执行调整以使得室外环境中的振动比室内环境中的振动更强，可以向观看者提供适合于观看环境的振动。

可以通过基于观看者信息执行综合确定来调整振动的幅度。

此外，在以上实施方式中已经描述了提供振动感觉作为提供皮肤感觉的示例。然而，可以向用户提供诸如温暖和寒冷的温度感觉或诸如压力感受的压力感觉作为皮肤感觉。在这种情况下，使用用于提供例如温暖、凉或压力的感觉的设备。

例如，当除了使用字幕信息和声音信息以外还使用视频信息来提供皮肤感觉时，并且当通过分析字幕信息和声音信息已经确定包括诸如烈火、火或火焰的文字、并且通过分析视频信息还确定图像由于火焰而是红色时，可以使用用于提供温暖感觉的设备来向用户提供温度的温暖感觉。

此外，通过使用例如鼓风设备或能够排水的设备向用户提供风或水，可以向用户提供风感或水感。这是提供皮肤感觉的示例。

此外，可以组合振动感觉、温度感觉、压力感觉、风感、水感等中的两种或更多种感觉，使得可以提供多种感觉。

注意，本技术还可以采用以下配置。

(1)一种信息处理装置，包括：

控制器，其使用对包括在视频文件中的字幕信息和声音信息进行分析的结果，基于声音数据的波形，生成与音效字幕数据相对应的振动信号以及与发声字幕数据相对应的振动信号中的至少一者，所述音效字幕数据用于以文本信息的形式表示音效，所述发声字幕数据用于以文本信息的形式表示人的发声，所述音效字幕数据和所述发声字幕数据包括在所述字幕信息中所包括的字幕数据中，所述声音数据包括在所述声音信息中。

(2)根据(1)所述的信息处理装置，其中，

所述控制器将所述声音数据划分为与所述音效字幕数据相对应的声音数据以及与所述发声字幕数据相对应的声音数据，并且

所述控制器基于与所述音效字幕数据相对应的声音数据的波形生成与所述音效字幕数据相对应的振动信号，并且基于与所述发声字幕数据相对应的声音数据的波形生成与所述发声字幕数据相对应的振动信号。

(3)根据(2)所述的信息处理装置，其中，

所述控制器使用包括在所述字幕信息中的显示位置信息、标记信息、字体信息以及颜色信息中的至少一者来确定所述字幕数据是所述音效字幕数据还是所述发声字幕数据，所述显示位置信息是关于在图像上显示字幕的位置的信息，所述标记信息是关于在所述图像上显示的标记的信息，所述字体信息是关于所述字幕中的文字的字体的信息，所述颜色信息是关于所述字幕中的文字的颜色的信息。

(4)根据(1)或(2)所述的信息处理装置，其中，

在所述字幕信息包括与多个人在谈话的场景相对应的字幕信息的情况下，所述控制器使用所述字幕信息并按照所述谈话中的发声顺序对多个人在谈话的所述场景中的所述发声字幕数据进行分割，并且生成与通过所述分割获得的每条发声字幕数据相对应的振动信号。

(5)根据(3)所述的信息处理装置，其中，

所述控制器生成与所述音效相对应的振动信号以及与所述人的发声相对应的振动信号，以使得基于与所述音效相对应的振动信号的振动与基于与所述人的发声相对应的振动信号的振动之间在幅度上存在相对差异。

(6)根据(1)至(4)中任一项所述的信息处理装置，其中，

所述视频文件包括内容元信息，并且

所述控制器在考虑所述内容元信息的情况下生成所述振动信号。

(7)根据(1)至(6)中任一项所述的信息处理装置，其中，

所述控制器在考虑关于所述用户的信息的情况下生成所述振动信号。

(8)根据(1)至(7)中任一项所述的信息处理装置，还包括：

振动提供部，其基于所述振动信号向所述用户提供振动。

(9)根据(8)所述的信息处理装置，包括：

多个所述振动提供部。

(10)根据(9)所述的信息处理装置，其中，

所述控制器使用对所述字幕信息和所述声音信息进行分析的结果来生成与所述音效字幕数据相对应的振动信号以及与所述发声字幕数据相对应的振动信号，并且将生成的振动信号输出到所述多个振动提供部中的不同的振动提供部。

(11)一种信息处理方法，包括：

使用对包括在视频文件中的字幕信息和声音信息进行分析的结果，基于声音数据的波形，生成与音效字幕数据相对应的振动信号以及与发声字幕数据相对应的振动信号中的至少一者，所述音效字幕数据用于以文本信息的形式表示音效，所述发声字幕数据用于以文本信息的形式表示人的发声，所述音效字幕数据和所述发声字幕数据包括在所述字幕信息中所包括的字幕数据中，所述声音数据包括在所述声音信息中。

(12)一种程序，所述程序使得信息处理装置执行包括以下操作的处理：

对包括在视频文件中的字幕信息和声音信息进行分析，所述字幕信息包括包含音效字幕数据和发声字幕数据的字幕数据，所述声音信息包括声音数据，所述音效字幕数据用于以文本信息的形式表示音效，所述发声字幕数据用于以文本信息的形式表示人的发声；以及

使用所述分析的结果，基于所述声音数据的波形，生成与所述音效字幕数据相对应的振动信号以及与所述发声字幕数据相对应的振动信号中的至少一者。

附图标记列表

1…信息处理装置

6…控制器

42,44,52,55…发声字幕数据

41,46,48,51,54,56…音效字幕数据

Claims

1.一种信息处理装置，包括：

2.根据权利要求1所述的信息处理装置，其中，

3.根据权利要求2所述的信息处理装置，其中，

4.根据权利要求3所述的信息处理装置，其中，

在所述字幕信息包括与多个人在谈话的场景相对应的字幕信息的情况下所述控制器使用所述字幕信息并按照所述谈话中的发声顺序对多个人在谈话的所述场景中的发声字幕数据进行分割，并且生成与通过所述分割获得的每条发声字幕数据相对应的振动信号。

5.根据权利要求3所述的信息处理装置，其中，

6.根据权利要求3所述的信息处理装置，其中，

所述视频文件包括内容元信息，并且

7.根据权利要求3所述的信息处理装置，其中，

8.根据权利要求3所述的信息处理装置，还包括：

振动提供部，其基于所述振动信号向所述用户提供振动。

9.根据权利要求8所述的信息处理装置，包括：

多个所述振动提供部。

10.根据权利要求9所述的信息处理装置，其中，

11.一种信息处理方法，包括：

12.一种程序，所述程序使得信息处理装置执行包括以下操作的处理：