CN114731456A

CN114731456A - 信息处理装置、信息处理方法和程序

Info

Publication number: CN114731456A
Application number: CN202080077002.4A
Authority: CN
Inventors: 横山谅; 荻田猛史
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2019-11-12
Filing date: 2020-10-29
Publication date: 2022-07-08
Also published as: WO2021095536A1; US11887631B2; US20220392496A1

Abstract

本技术涉及使得可以提供彼此匹配的视频和音频的信息处理装置、信息处理方法和程序。该信息处理装置配备有：确定单元，该确定单元用于确定内容是否存在音频相对于视频的延迟；以及处理单元，当该确定单元确定该内容存在音频相对于视频的延迟的情况下，该处理单元用于通过使视频延迟正好规定的时间间隔来重放该视频。该处理单元以当声源产生音频时音频和视频彼此匹配的方式延迟该视频的重放。规定的间隔对应于该音频被延迟的时间量。本技术可应用于例如用于处理视频的信息处理装置。

Description

信息处理装置、信息处理方法和程序

技术领域

本技术涉及信息处理装置、信息处理方法和程序，例如，能够在没有任何奇怪的感觉的情况下呈现视频和声音的信息处理装置、信息处理方法和程序。

背景技术

例如，当观看声音和产生声音的声源的视频时，由于光速与声速之间的差异，声音会比视频较晚到达观看者。随着离声源的距离增加，这样的声音延迟变得更加明显。

PTL1提出了当使用向用户提供触感的触觉装置时考虑到声音到达的延迟来调整触觉装置的输出时序。

引用列表

专利文献

PTL 1WO 2019/013056A1

发明内容

技术问题

如上所述，当观看声音和产生声音的声源的视频时，声音会比视频较晚到达。这样的声音延迟，换句话说，视频与声音之间的失配，会给观看者带来奇怪的感觉。

本技术是鉴于这样的情况而作出的，并且旨在提供没有任何奇怪的感觉的视频和声音。

问题解决方案

根据本技术的一个方面的信息处理装置包括：确定单元，该确定单元确定是否是声音相对于视频延迟的内容；以及处理单元，当该确定单元确定是声音相对于视频延迟的内容时，该处理单元将该视频延迟预定时段并且播放该视频。

根据本技术的一个方面的信息处理方法使处理视频的信息处理装置执行以下操作：确定是否是声音相对于视频延迟的内容；以及当确定是声音相对于视频延迟的内容时，将该视频延迟预定时段并且播放该视频。

根据本技术的一个方面的程序使计算机执行以下操作：确定是否是声音相对于视频延迟的内容；以及当确定是声音相对于视频延迟的内容时，将该视频延迟预定时段并且播放该视频。

在根据本技术的一个方面的信息处理装置、信息处理方法和程序中，当内容具有相对于视频延迟的声音时，以预定时间的延迟播放该视频。

注意，该信息处理装置可以是独立的装置，或者可以是构成单个装置的内部块。

该程序可以通过经由传输介质进行传输或者通过记录在记录介质上来提供。

附图说明

[图1]

图1是示出应用本技术的系统的实施方式的配置的图。

[图2]

图2是示出应用本技术的内容处理装置的实施方式的配置的图。

[图3]

图3是用于说明包括延迟的内容的图。

[图4]

图4是用于说明包括延迟的内容的图。

[图5]

图5是示出AR眼镜的外观的配置示例的图。

[图6]

图6是用于说明视频中的延迟的图。

[图7]

图7是用于说明内容的第一处理的流程图。

[图8]

图8是用于说明延迟量设置处理的细节的流程图。

[图9]

图9是用于说明视频和声音被延迟的情况的图。

[图10]

图10是用于说明视频和声音被延迟的情况的图。

[图11]

图11是用于说明内容的第二处理的流程图。

[图12]

图12是用于说明延迟量设置处理的细节的流程图。

[图13]

图13是用于说明声音延迟量设置方法的图。

[图14]

图14是用于说明广播内容的处理示例的图。

[图15]

图15是用于说明广播内容的处理示例的图。

[图16]

图16是用于说明VR内容的处理示例的图。

[图17]

图17是示出个人计算机的配置示例的图。

具体实施方式

下面将描述用于实施本技术的模式(以下称为“实施方式”)。

<信息处理系统的配置>

本技术可以应用于生成包括视频和声音的内容并播放所生成的内容的系统。可以编辑视频和声音，使得用户不会感到奇怪的感觉，并且可以将编辑的内容应用于用于重放编辑的内容的系统。

在以下描述中，内容是包括视频和声音的内容。内容可以是其中视频和声音中的任一者或两者被直接或间接地提供给观看者的内容。

直接提供给观看者意味着在没有任何处理的情况下提供给观看者，而间接提供意味着在经过特定处理之后提供给观看者。

例如，声音直接提供给观看者意味着由声源产生的声音在没有任何处理的情况下到达观看者的耳朵，而声音间接提供给观看者意味着由声源产生的声音在经过诸如效果的特定处理之后到达观看者的耳朵。

如后面将要描述的，将视频以相对于声音的预定延迟量提供给观看者，并且提供给观看者的这样的延迟的视频是将视频间接提供给观看者的情况的示例。

图1是示出应用本技术的处理内容的信息处理系统的实施方式的配置的图。信息处理系统包括内容分发装置11、内容处理装置12、视频呈现装置13、声音呈现装置14以及触觉呈现装置15。

内容分发装置11分发内容。内容通过网络或作为电视广播被分发。内容可以通过记录在记录介质上来分发。

内容处理装置12接收并处理从内容分发装置11分发的内容。内容处理装置12是电视接收机、个人计算机(personal computer，PC)、智能电话等。内容分发装置11与内容处理装置12之间的通信可以是有线的或无线的。

内容处理装置12本身可以具有生成内容的功能。例如，内容处理装置12可以具有摄像机并且可以被配置成将由摄像机拍摄的视频处理为内容。例如，如稍后将描述的，内容处理装置12可以是AR眼镜(增强现实眼镜)等。

视频呈现装置13是基于包括在由内容处理装置12处理的内容中的视频数据向用户呈现视频的装置。视频呈现装置13例如是监视器、投影仪、HMD(头戴式显示器)等。

声音呈现装置14是基于包括在由内容处理装置12处理的内容中的声音数据向用户呈现声音的装置。声音呈现装置14是扬声器、耳机等。

触觉呈现装置15是向用户呈现与视频和声音同步的振动的装置。触觉呈现装置15例如是其中并入了振荡器的腕带、手套、背心、控制器等。

内容处理装置12、视频呈现装置13和声音呈现装置14可以被配置为一个装置，并且可以被配置为电视接收机、个人计算机(personal computer，PC)、智能电话等。触觉呈现装置15还可以被并入一个装置中。例如，智能电话等具有振动功能，并且实现振动功能的装置可以用作触觉呈现装置15。

图2是示出内容处理装置12的功能配置示例的图。内容处理装置12包括内容获取单元31、内容分析单元32、延迟处理单元33、视频控制单元34、声音控制单元35以及触觉控制单元36。

内容获取单元31控制分发内容的接收，并且获取由其中设置的摄像机拍摄的视频作为内容。当设置诸如麦克风的声音收集装置时，内容获取单元31也获取由声音收集装置收集的声音。将由内容获取单元31控制其获取的内容提供给内容分析单元32。

内容分析单元32分析从内容获取单元31提供的内容。内容分析单元32主要执行用于确定内容是否包括延迟的分析。

为了确定内容是否包括延迟，内容分析单元32分析例如视频数据以估计到被摄体的距离，或者分析声音数据以按类型对声音进行分类。

当设置用于测量距离等的传感器时，从这样的传感器获得的信息可以用作用于确定内容是否包括延迟的信息。在这样的配置中，内容分析单元32使用来自传感器的信息来分析由内容获取单元31获取的内容是否是包括延迟的内容。

将由内容分析单元32获得的分析结果提供给延迟处理单元33。

延迟处理单元33使用由内容分析单元32获得的分析结果来调整视频中的延迟量。如稍后将描述的，执行延迟图像的处理，使得呈现其中视频和声音同步的图像。在延迟处理单元33中执行与该延迟相关的处理。当延迟处理单元33被配置成延迟声音时，延迟处理单元33还调整声音的延迟量。

在延迟处理单元33设置了延迟量的情况下，视频控制单元34执行控制，使得由视频呈现装置13(图1)呈现延迟了该延迟量的视频。

当延迟处理单元33设置了与声音相关的延迟量时，声音控制单元35执行控制，使得由声音呈现装置14(图1)呈现延迟了延迟量的声音。触觉控制单元36执行控制，使得由触觉呈现装置15(图1)呈现与声音同步的触感。

本技术可以应用于未被配置成控制声音呈现装置14和触觉呈现装置15的内容处理装置12，并且内容处理装置12可以被配置成不包括声音控制单元35和触觉控制单元36。

提供给触觉控制单元36的触觉数据与内容一起从内容分发装置11(图1)提供。替选地，触觉数据可以通过内容分析单元32分析视频数据和声音数据来生成。

<内容处理装置的处理概要>

将描述由内容处理装置12执行的处理的概要。这里，将内容是烟花的视频的情况作为示例进行描述。

烟花被发射到空中，并且在打开时发出很大的噪音。这里，该声音由称为“黎明”的模仿声音表达。观众可以发出欢乐的声音来观看打开的烟花。

如图3所示，将假设通过摄像机51-1和摄像机51-2拍摄烟花的情况。摄像机51-1在距绽放烟花距离L1处拍摄烟花，并且摄像机51-2在距绽放烟花距离L2处拍摄烟花。距离L1比距离L2更近。也就是说，满足距离L1＜距离L2的关系。

当比较烟花的视频和烟花的声音时，视频以光速到达摄像机51，而声音以声速到达摄像机51，使得视频比声音较早地到达摄像机51。当烟花绽放时，绽放的烟花的视频几乎立即到达摄像机51并且被拍摄。然而，当烟花绽放时产生的声音比视频晚到达摄像机51并且被记录。声音到达所花费的时间随着距离的增加而增加。

这不仅在摄像机51拍摄烟花时是真实的，而且在有观众而不是摄像机51时也是真实的。也就是说，当烟花绽放时，绽放的烟花的视频几乎立即到达观众并且被看到。然而，当烟花绽放时产生的声音晚于视频到达观众并且被听到。

图4是示出到达摄像机51(观众)的视频与声音之间的关系的图。在时间t1，由摄像机51-1和摄像机51-2几乎同时拍摄绽放时的烟花。在时间t2，摄像机51-1收集绽放时的烟花的声音。在晚于时间t2的时间t3，摄像机51-2收集绽放时的烟花的声音。

即使摄像机正在拍摄相同的烟花，声音的到达时间也根据与烟花的距离而不同。当从烟花绽放时的视频经过了对应于(时间t2-时间t1)的时段时，在摄像机51-1处观看烟花的观众将听到烟花绽放的声音。当从烟花绽放时的视频经过了对应于(时间t3-时间t2)的时段时，在摄像机51-2处观看烟花的观众听到烟花绽放的声音。

即使在烟花绽放时获取视频和声音，观众(摄像机51)也不会同时体验视频和声音。换句话说，烟花的视频和烟花的声音以偏离的方式到达观众(摄像机51)。离烟花越远，视频与声音之间的偏离越大。

即使观众正在实时观看烟花，他们也可能不能同时体验烟花的视频和声音，这会导致真实性的损失。

当观看者观看包括由摄像机51获取的视频和声音的内容时，同样适用。当观看者观看由摄像机51获取的烟花内容时，观看者更可以感觉到视频与声音之间的偏离感。

当摄像机51拍摄烟花并且使观众观看烟花时，摄像机51通常通过推近到烟花来向观众(观看者)提供在烟花的放大状态下拍摄的视频。

在推近状态下拍摄烟花相当于在附近拍摄烟花。也就是说，即使视频是在附近拍摄的烟花，声音也是在一定距离处收集的烟花，并且存在视频与声音之间的偏离变大的可能性。

这样的偏离导致如上述情况中的真实性的损失。另外，由于观看者观看放大的烟花，他/她可能不能掌握与烟花的距离感，并且可能感到奇怪的感觉，因为声音被延迟地听到。

在以下描述中，将描述用于消除视频与声音之间的这样的偏离并在视频与声音同步的状态下提供给用户(观众、观看者等被统称为用户)的处理。

<视频和声音的同步的第一处理>

作为用于使视频和声音同步的第一处理，例如，将描述以下情况：当用户在可以看到烟花的地方实时观看烟花时，不管烟花与观看位置之间的距离如何，都以同步的方式向用户呈现烟花绽放定时的视频和声音。

例如，假设用户佩戴被称为AR眼镜等的可穿戴装置并且正在观看烟花的情况。在该示例中，将描述AR眼镜是图2所示的内容处理装置12的情况作为示例。例如，作为AR眼镜的内容处理装置12具有如图5所示的外部配置。

如图5所示，AR眼镜是具有眼镜形状的可穿戴终端。作为图5所示的AR眼镜的内容处理装置12整体上具有眼镜形状，并且包括视频呈现装置13和摄像机51。

视频呈现装置13对应于眼镜的透镜部分，并且例如，整个部分被配置为透射型显示器。因此，视频呈现装置13将注释(虚拟被摄体)透明地重叠显示在用户直接观看的现实世界中的图像(现实对象)上。

摄像机51设置在视频呈现装置13的与佩戴AR眼镜的用户的左眼相对应的端部处，并且捕获包括在用户的视野中的现实空间的图像。摄像机51使用诸如CCD(Charge CoupledDevice，电荷耦合器件)图像传感器或CMOS(Complementary Metal Oxide Semiconductor，互补金属氧化物半导体)图像传感器的固态图像传感器来配置。传感器可以分别设置多个。也就是说，摄像机51可以被配置为立体摄像机。

视频呈现装置13可以显示由摄像机51获取的图像，并且可以显示注释以便叠加在图像上。在本实施方式中，如将在后面描述的，将由摄像机51获取的图像显示在视频呈现装置13上即可，不是必须叠加并显示注释。

尽管未示出，但是在作为内容处理装置12的AR眼镜中，各种传感器、按钮、扬声器等可以容纳或安装在与眼镜的镜框相对应的壳体中。

AR眼镜的形状不限于图5所示的形状，而是可以使用各种形状，例如帽子形状、固定在用户头部周围的带状、以及覆盖用户的整个头部的头盔形状。这里，将通过以图5所示的AR眼镜作为示例来继续描述，但是根据本公开内容的技术一般可以应用于HMD(头戴式显示器)。

作为AR眼镜的内容处理装置12执行参照图6描述的处理。内容处理装置12利用摄像机51(图5)拍摄烟花。假设烟花在时间t11绽放并且通过摄像机51拍摄绽放的烟花。当烟花在时间t11绽放时，则此时产生的声音在时间t12到达用户。

在视频到达用户的时间与声音到达的时间之间存在时段T11(＝时间t12-时间t11)的偏离。内容处理装置12将视频偏移了该偏离，并且将其呈现给用户。也就是说，在这种情况下，声音相对于视频被延迟了时段T11，因此视频被延迟了该声音的延迟并且呈现给用户。

内容处理装置12向用户提供从时间t12起由摄像机51拍摄的视频。内容处理装置12在从时间t11到时间t12的时段(时段T11)中对视频进行屏蔽，使得不将视频提供给用户。

内容处理装置12从时间t11起对烟花进行拍摄，在从时间t11到时间t12的时段中对视频进行屏蔽，并且从时间t12起对所拍摄的烟花进行再现。

例如，通过向用户呈现在时间t11之前拍摄的视频(该视频是在烟花上升之前的视频)来对视频进行屏蔽。然后，在时间t11绽放的烟花的视频在时间t12被提供给用户。然后，在时间t11绽放的烟花的声音在时间t12直接到达用户。

在该示例中，视频经过被称为延迟的处理并且被间接地提供给用户，而声音被直接提供给用户而没有任何处理。通过照原样利用声音并以这种方式延迟视频，提供了与声音同步的视频。

用户将被同时提供在时间t12绽放的烟花的视频和声音。通过以这种方式同时提供视频和声音，用户可以体验更逼真的感觉，并且具有更少奇怪性的自发体验变得可能。

如图6所示，当触觉呈现装置15(图1)提供触感时，在时间t12开始呈现。也就是说，在这种情况下，根据声音向用户呈现触感(振动)。

将参照图7所示的流程图描述执行这样的处理的内容处理装置12的处理。

在步骤S11中，内容获取单元31(图2)获取内容数据。在这种情况下，内容数据是由摄像机51(图5)拍摄的视频的数据。当内容获取单元31包括麦克风并且被配置成收集声音时，可以获取声音数据作为内容数据。

在步骤S12中，内容分析单元32分析由内容获取单元31获取的内容数据。该分析是用于确定内容是否包括延迟的分析。

例如，如果内容数据是视频数据，则识别作为基于视频数据的视频出现的被摄体，并且确定是否存在被摄体与拍摄被摄体时的声音偏离的可能性。例如，当识别到烟花被拍摄为被摄体时，确定内容包括延迟。可以提供用于进行这样的确定的数据库，并且可以参照这样的数据库来进行该确定。

可以使用由摄像机51获取的视频数据和由麦克风(未示出)获取的声音数据来执行该确定。例如，可以通过以下操作来执行确定：提取通过分析视频数据获得的被摄体和通过分析声音数据估计已经由被摄体产生作为声源的声音，并且确定在当声源产生声音时的拍摄时间与当收集声音时的时间之间是否存在偏离。

可以分析视频数据以计算到被摄体的距离，并且当到被摄体的距离是预定距离或更大时，例如，当距离等于或大于声音在一秒内传播的距离时，可以确定内容包括延迟。

在步骤S13中，确定步骤S12中的分析结果是否示出了该内容包括延迟。该确定可以由内容分析单元32执行，或者可以由接收从内容分析单元32提供的分析结果的延迟处理单元33执行。

如果在步骤S13中确定内容不包括延迟，则处理进行到步骤S14。在这种情况下，由于内容不包括延迟，因此将由内容获取单元31获取的内容(视频数据)提供给视频控制单元34，并且由视频呈现装置13无延迟地提供。

另一方面，如果在步骤S13中确定内容包括延迟，则处理进行到步骤S15。在步骤S15中，对视频进行屏蔽。例如，视频控制单元34通过暂时停止视频呈现装置13中的视频呈现并且控制显示以使得连续显示此时显示的图像，也就是说显示静止图像，来执行视频屏蔽。替选地，视频控制单元34可以显示黑屏。

在执行视频屏蔽的同时，在步骤S16中，延迟处理单元33执行延迟量设置处理。延迟量对应于参照图6描述的时段T11，并且是用于将视频的重放的开始时间偏移以使得视频与声音同步的量。将参照图8的流程图描述在步骤S16中执行的延迟量设置处理。

在步骤S31中，估计或测量视频中包括的最大距离。分析视频数据，识别视频中的被摄体，并且估计到被摄体的距离。例如，使用立体摄像机拍摄视频，并且通过使用从立体摄像机获得的视频数据的图像识别来估计到声源的距离。

替选地，可以通过使用麦克风阵列测量距离来测量到声源的距离。替选地，可以使用多普勒传感器来测量到声源的距离。

对于距离估计和测量，可以组合多个估计方法和测量方法来确定到声源的距离。当检测到多个被摄体时，估计或测量(以下，将其描述为估计，但还包括测量)到各个被摄体的距离，并且提取它们之中的最远距离。

步骤S31的处理可以使用在步骤S12的处理中获得的信息来执行。具体地，例如，当在步骤S12(图7)中确定内容是否包括延迟时，检测被摄体，计算到被摄体的距离以做出确定，或者测量到被摄体的距离以基于距离做出确定。

在步骤S31中，估计视频中包括的最大距离。所估计的最大距离被称为最大距离Lmax。在步骤S32中，根据最大距离设置视频延迟量。例如，视频延迟量t0通过下面的等式(1)来计算。

延迟量t0＝(最大距离Lmax)/(声速v)(1)

等式(1)是通过将最大距离Lmax除以声速v来计算延迟量t0的等式。

这里应当注意，当检测到多个被摄体时，提取最远距离，并且计算该距离的延迟量。然而，当检测到多个被摄体时，可以针对这些被摄体中的每一个计算延迟。

这里，已经将通过执行图8所示的流程图的处理来计算延迟量的情况作为示例进行描述，但是可以通过其他方法(计算公式)来计算延迟量。

例如，可以预先设置被摄体和延迟量，并且例如，当确定被摄体是烟花时，可以应用针对烟花设置的延迟量。

当在步骤S32中设置了视频延迟量t0时，处理进行到步骤S14(图7)。在步骤S14中，提供延迟了设置延迟量t0的视频。通过将提供视频的开始延迟延迟量t0，提供与实时传送给用户的声音同步的视频。

通过以这种方式使视频的重放开始时间偏移，可以提供与声音同步的视频。

以这种方式，可以使用所设置的延迟量，直到内容的类型改变，换句话说，直到被拍摄的被摄体改变。在这种情况下，例如，在烟花的拍摄开始之后并且在发射若干个烟花的同时，执行图7中所示的流程图的处理。然后，当计算延迟量时，并且一旦基于延迟量延迟了视频，则重放保持原样。

这里，将被摄体是烟花的情况作为示例进行描述，但是当然，本技术也可以应用于其他被摄体。

例如，当在足球场观看足球比赛时，延迟踢球时刻的视频，使得踢球时刻的视频和此时产生的声音同步。

另外，例如，通过使棒球场中的击球时刻的视频延迟，使击球时的视频和此时的击打声音同步。

本技术可以应用于除足球和棒球比赛之外的比赛，例如乒乓球和排球，并且例如，可以在产生击打声音时的击打声音和视频同步时应用本技术。

这里，已经描述了视频被延迟而声音不被延迟的情况作为示例。然而，当用户使用的内容处理装置12设置有声音呈现装置14(图1)和诸如麦克风的声音收集装置(未示出)时，声音也可以如图9所示被延迟。

内容处理装置12利用摄像机51(图5)拍摄例如烟花。假设在时间t21烟花绽放并且通过摄像机51拍摄绽放的烟花。当在时间t21烟花绽放，则此时产生的声音在时间t22到达用户。在内容处理装置12不进行任何处理而呈现视频和声音的情况下，从时间t21起呈现绽放的烟花的视频，并且呈现时间t22烟花绽放时的声音。

内容处理装置12在仅从时间t21过去了时段T21时的时间t23向用户呈现绽放的烟花的视频。内容处理装置12在仅从时间t22过去了时段T22时，在时间t23烟花绽放时，向用户呈现声音。也就是说，内容处理装置12将视频和声音的呈现的开始延迟到时间t23，然后开始呈现。

通过以这种方式延迟视频和声音两者，可以在视频和声音同步的状态下向用户呈现视频和声音。例如，它可以应用于能够充分分析内容(诸如广播内容)的情况。

内容处理装置12在从时间t21到时间t23的时段屏蔽视频。内容处理装置12还在从时间t22到时间t23的时段屏蔽声音。以与上述情况相同的方式执行与视频相关的处理。

在声音处理中，在时间t22由麦克风收集的声音被记录一次，并且在时间t23播放所记录的声音。

此外，从时间t22至时间t23，通过生成具有与收集的声音的频率相反的相位的声音来消除外部声音(在这种情况下，烟花的声音)。声音可以通过应用所谓的噪声消除器中使用的技术来屏蔽。替选地，可以应用处理，使得声音不会由于再次再现时间t22之前记录的声音而中断。

如图9所示，当触觉呈现装置15(图1)提供触感时，从时间t23开始呈现。也就是说，在这种情况下，与视频和声音同步地向用户呈现触感(振动)。

<视频和声音的同步的第二处理>

将描述与视频和声音的同步相关的第二处理。

在与视频和声音的同步相关的第一处理中，例如，已经将当实时观看烟花时，将烟花绽放时的视频和声音同步并且呈现给用户的情况作为示例进行描述。在第一处理中，如参照图9所述，即使当视频和声音被延迟时，也已经将仅存在一个声源的情况作为示例进行描述。

作为用于视频和声音的同步的第二处理，将视频和声音被延迟并且存在多个声音的情况作为示例进行描述。这里，将烟花绽放的情况作为示例进行描述。

例如，在观看烟花时，声音包括烟花绽放时的声音和从用户周围的观众产生的声音(欢乐的声音)。如参照图6所述，将考虑当烟花绽放时的视频被延迟以便与当烟花绽放时的声音同步的情况。人们认为，当烟花绽放时，用户周围的观众发出欢乐的声音。

如果烟花绽放时的视频被延迟，则就会在听到用户周围观众的欢乐的声音之后向用户呈现烟花绽放时的视频。换句话说，在图像被屏蔽而无法看到烟花时，用户听到观众的欢乐的声音(以下，适当地称为观众声音)。烟花的绽放与观众声音之间的偏离会导致用户感到奇怪的感觉，并且导致真实性的损失。

因此，如参照图10所述，内容处理装置12执行该处理。在该示例中，假设内容处理装置12是诸如AR眼镜的可穿戴装置。

内容处理装置12利用摄像机51(图5)拍摄烟花。假设在时间t31烟花绽放并且通过摄像机51拍摄绽放的烟花。当在时间t31烟花绽放时，在该时间产生的声音(适当地称为烟花声音)在时间t32到达用户。

烟花绽放时的观众声音在时间t31到达用户。这里，将观众声音是靠近用户的观众的声音并且没有延迟地到达用户的情况作为示例进行描述。观众声音包括来自靠近烟花的发射位置的观众和来自远离用户的观众的声音，并且在这样的情况下，观众声音可以在时间t32到达用户，就像在烟花声音的情况下一样。

也就是说，由于观众声音到达用户的到达时间根据与用户的距离而不同，因此，稍后将描述的观众声音的延迟量根据将处理哪种声音而不同。因此，能够估计各个观众声音(各被摄体)的距离，并且为这些观众声音中的每个观众声音设置延迟量。虽然这里使用了各个观众声音，但也可以处理观众声音以外的声音。

在图像到达用户的时间与烟花声音到达的时间之间存在时段T31(＝时间t32-时间t31)的偏离。内容处理装置12将视频偏移了该偏离，并且将其呈现给用户。也就是说，在这种情况下，内容处理装置12从时间t32起向用户提供由摄像机51拍摄的视频。在从时间t31至时间t32的时段中，视频被屏蔽，使得视频不被提供给用户。

当视频到达用户时，观众声音也到达，但是除非该观众声音与烟花声音同时到达或者在烟花声音之后不久到达，否则用户可能感到奇怪的感觉。因此，在这种情况下，内容处理装置12通过将观众声音偏移时段T31来向用户呈现观众声音。也就是说，在这种情况下，内容处理装置12从时间t32起向用户呈现由诸如麦克风的声音收集装置(未示出)收集的观众声音。在从时间t31到时间t32的时段(T31)，观众声音被屏蔽，使得不向用户呈现观众声音。

通过执行这样的处理，例如，在从时间t31到时间t32的时段中，在时间t31之前和烟花上升之前拍摄和记录的视频和声音被呈现给用户。然后，在时间t31绽放的烟花的视频和声音在时间t32被呈现给用户。然后，被在时间t31绽放的烟花所愉悦的观众的欢乐的声音也在时间t32到达用户。

因此，用户同时被提供在时间t32绽放的烟花的视频和声音，以及观众的声音。通过以这种方式同时提供视频和声音，用户可以体验更逼真的感觉，并且具有更少奇怪性的自发体验变得可能。

如图10所示，当触觉呈现装置15(图1)提供触感时，在时间t32开始呈现。也就是说，在这种情况下，根据声音向用户呈现触感(振动)。尽管图10中未示出，但是当处理多个声音时，可以呈现与多个声音相对应的触感。在图10所示的示例的情况下，可以分别呈现与烟花声音相对应的触感和与观众声音相对应的触感。

将参照图11所示的流程图描述执行这样的处理的内容处理装置12的处理。

步骤S51至S54的处理与步骤S11至S14(图7)的处理相同，并且重复描述。因此，这里将省略其描述。如果在步骤S53中确定内容包括延迟，则处理进行到步骤S55。

在步骤S55中，应用声源分离技术分离声源。例如，从由麦克风收集的声音中提取烟花声音和观众声音。在执行声源分离的同时，在步骤S56中，执行视频和声音屏蔽。

与声源分离相关的处理可以由内容分析单元32(图2)执行，并且声音控制单元35可以使用该结果执行屏蔽和延迟处理。声音控制单元35可以执行与声源分离、屏蔽和延迟相关的处理。

在执行视频和声音屏蔽的同时，在步骤S57中执行延迟量设置处理。将参照图12的流程图描述在步骤S57中执行的延迟量设置处理。

由于步骤S71和步骤S72的处理以与步骤S13和步骤S32(图8)的处理相同的方式执行，因此将省略其描述。也就是说，在步骤S71和S72中，设置视频延迟量。

在步骤S73中，估计或测量到每个声源的距离。对在步骤S55中分离的每个声源执行该处理。在这种情况下，由于烟花声音和观众声音被提取作为声源，因此分别估计(测量)到烟花声音的声源的距离和到观众声音的声源的距离。如上所述，可以通过利用麦克风阵列测量距离或者利用多普勒传感器测量距离来执行该估计(测量)。替选地，可以通过分析来自立体摄像机的图像来估计到声源的距离。

另外，预先获得的信息可以用于估计(测量)。例如，当到达场所时，可以下载该场所的3D模型的数据，并且可以使用该3D模型数据来估计(测量)到声源的距离。在这种情况下，可以预先(在实际观看开始之前的时间)获取关于用户观看的位置的信息，并且如果可以获取这样的信息，则这样的信息还可以用于基于3D模型数据来计算到用户位置和声源的位置的距离。

这里，到烟花声音的声源的距离被定义为距离L1，并且到观众声音的声源的距离被定义为距离L2。当在步骤S73中获得了到每个声源的距离时，处理进行到步骤S74。

在步骤S74中，设置与距离对应的声音延迟量。例如，声音延迟量ti通过以下等式(2)来计算。

声音延迟量ti＝(视频延迟量t0)-(距离Li)/(声速v)……(2)

等式(2)是通过从视频延迟量t0减去距离Li除以声速v而得到的值来计算声音延迟量ti的等式。

例如，如下计算烟花声音的延迟量。

声音延迟量t1＝视频延迟量t0-距离L1/声速v

在这种情况下，由于烟花声音的声源位于烟花已经绽放的位置，因此距离L1是到烟花的距离，并且是最大距离Lmax。因此，(距离L1)/(声速v)成为(最大距离Lmax)/(声速v)，其结果成为与视频延迟量t0相同的值。因此，烟花声音的延迟量变为0。烟花声音被无延迟地呈现给用户。

例如，如下计算观众声音的延迟量。

声音延迟量t2＝(视频延迟量t0)-(距离L2)/(声速v)

在这种情况下，由于观众的声音是针对用户周围的观众的，因此用户所在的位置(周围)是声源，使得距离L2是接近0的值(在该示例中为0)。因此，(距离L2)/(声速v)为0。因此，观众声音的延迟量与视频延迟量t0几乎相同。由于视频延迟量t0在图10所示的示例中是时段T31，因此，在烟花绽放时观众的声音呈现有与在呈现绽放的烟花的视频时的视频等同的延迟。

当在步骤S74中设置声音延迟量时，处理进行到步骤S54(图11)。

这里，已经描述了通过执行步骤S73和步骤S74的处理，换句话说，根据距离来设置声音延迟量，但是可以通过其他方法(计算公式)来设置声音延迟量。

例如，可以预先设置被摄体和延迟量，当被摄体被确定为烟花时，可以应用为烟花设置的延迟量，并且当被摄体被确定为观众时，可以应用为观众设置的延迟量。

在步骤S54中，将视频延迟视频延迟量t0，将声音延迟声音延迟量ti，并且将视频和声音呈现给用户。

以这种方式，视频和声音被适当地延迟，使得用户不会感到奇怪的感觉，并且不会体验到真实性的损失。

在第二处理中，已经将被摄体是烟花的情况作为示例进行描述，但是与第一处理中一样，其可以应用于其他被摄体。例如，当在足球场观看足球比赛时，踢球时刻的视频可能被延迟，使得踢球时刻的视频和此时产生的声音可以同步。观众的声音和现场声音可以根据距离而延迟。

此外，例如，通过在棒球场中击球的时刻延迟视频，可以使击球时的视频和此时的击打声音同步。观众的声音和现场声音可以根据距离而延迟。球下落时的声音、球击打栅栏时的声音等可以根据距离而延迟。

这里，将描述当观看棒球比赛时(当正在拍摄棒球比赛时)的声音的延迟量。用户正在观看游戏的位置，也就是说，图13中作为观看位置的位置，被定义为位置L0。该位置L0是安装麦克风的位置，并且也是观众的位置。在位置L0处，与用户的距离是0。

从用户位置L0到击球员的击球区位置的距离被定义为距离L1。从用户位置L0到球已经落下的位置的距离被定义为距离L2。从用户位置L0到围栏位置的距离被定义为距离L3。

在击球员的击球区中，击球员击球时的击打声音被延迟声音延迟量t1。如下计算声音延迟量t1。

声音延迟量t1＝(视频延迟量t0)-(距离L1)/(声速v)

当击球员击球并且球落在地面上时，落下的声音被延迟声音延迟量t2。如下计算声音延迟量t2。

声音延迟量t2＝(视频延迟量t0)-(距离L2)/(声速v)

击球员击球时和球击打栅栏时的碰撞声音被延迟声音延迟量t3。如下计算声音延迟量t3。

声音延迟量t3＝(视频延迟量t0)-(距离L3)/(声速v)

如图13所示，在距离L1＜距离L2＜距离L3的情况下，设置声音延迟量，使得声音延迟量t1＜声音延迟量t2＜声音延迟量t3。也就是说，距离越长，声音延迟量越大。

以这种方式，通过根据距离来精细地调整声音的延迟量(校正量)，可以更好地同步视频的定时。

如参照图13所述，声音延迟量根据距离来设置，并且视频延迟量也根据距离来设置，如在上述情况中那样。通过以这种方式延迟视频和声音两者，例如，可以执行显著延迟(校正)视频以及精细地调整声音的延迟的处理。以这种方式，可以更适当地同步视频和声音。

<当处理广播内容时>

当内容是广播内容时，也可以应用上述与视频和声音的同步相关的第一处理和第二处理。

通过应用本技术，例如，在棒球广播期间，可以广播与视频同步的声音。在棒球广播的情况下，摄像机所处的位置和例如击球员的击球区位于一定距离处，但是摄像机所拍摄和广播的是站在击球员的击球区中的击球员的放大视频。

由于击球员的击球区和摄像机(麦克风)的位置相隔很远，因此当击球员击球时的击打声音可能与正在广播的击球员的放大视频不同步。

如参照图13所述，可以将摄像机(麦克风)的位置设置为观看位置L0，可以考虑到距击球员的击球区的距离L2来延迟视频，并且还可以根据需要来延迟击打声音。以这种方式，当球击打球棒时，可以在声音与视频同步的状态下进行广播。

本技术不仅可以在实时广播时应用，而且可以在广播记录的内容时应用。例如，在广播之前，可以执行上述处理以编辑内容，使得视频和声音同步，并且可以广播编辑的内容。

当内容处理装置12处理广播内容时，延迟量可以作为与广播内容相关联的信息被发送和接收。例如，当广播内容是通过拍摄烟花而获得的内容时，指示烟花声音将被延迟1秒并且观众声音将被延迟0.1秒的信息被作为与广播内容相关联的信息(该信息可以以信息发送格式来描述并且被发送和接收)发送和接收。

内容处理装置12可以被配置成使用关于与这样的广播内容相关联的延迟量的信息来执行用于延迟视频或声音的处理。此外，可以提供如下机制：可以在内容处理装置12侧设置是否实际执行这样的延迟。例如，可以提供由用户设置是否执行延迟处理的机制。

当广播内容是实时拍摄(收集)并广播的内容(例如棒球广播)时，需要考虑广播时间。在广播的情况下，设置广播开始时间和广播结束时间，并且内容的重放必须适合在它们之间。即使当内容不是被拍摄(声音收集)并实时广播的这样的内容(例如棒球广播时)时，这也是相同的。

当执行诸如根据需要延迟视频和延迟声音的处理时，视频可以在广播开始时被屏蔽，或者不能广播的视频可以在广播结束时保留。

因此，可以执行如图14所示的处理。当广播开始时间被设置为时间t42时，拍摄从广播开始时间t42之前的时间t41开始。在时间t41拍摄的视频被延迟，直到时间t42，并且广播从时间t42开始。至于声音，从广播开始的时间t42收集的声音按原样广播。

如果广播结束时间是时间t43，则声音在广播结束时结束。由于视频在延迟状态下广播，因此在广播结束时间t43时，广播在时间t43之前的时间(称为时间t43')拍摄的视频。在时间t43'与时间t43之间拍摄的视频被剪切。

在图14所示的示例中，广播部分是从视频的开始到声音的结束。当呈现触感时，在该广播部分内执行呈现。

广播期间的其他处理将参照图15进行描述。视频从广播开始时间t51到时间t52被缓慢地播放。至于声音，从广播开始时间t51起原样广播收集的声音。

视频从广播结束时间t54之前的时间t53被快进并播放。至于声音，收集的声音在广播结束时间t54之前被原样广播。

在图15所示的示例中，视频的开始被缓慢地播放，视频的结束被快进播放，并且其他部分以延迟的方式被播放。从开始到结束的整个声音部分是广播部分。当呈现触感时，在该广播部分内执行呈现。

在广播内容的情况下，发送内容的一方，例如图1所示的内容分发装置11，可以执行与上述视频和声音的同步相关的第一处理或第二处理，并且可以执行参照图14或图15描述的处理。在这种情况下，可以在内容分发装置11中提供图2所示的内容处理装置12的一些功能。

替选地，内容处理装置12可以执行与上述视频和声音的同步相关的第一处理或第二处理，并且还可以执行参照图14或图15描述的处理。当内容处理装置12执行该处理时，可以从内容分发装置11向内容处理装置12提供内容包括延迟的信息，然后，当接收到这样的信息时，内容处理装置12可以执行上述处理。

如参照图9所述，当视频和声音两者都被延迟以同步视频和声音，并且这样的内容被广播时，延迟可以显著地增加到例如30秒。如果可以显著地延迟，则可以在充分分析之后设置延迟量，并且可以生成根据延迟量延迟的内容并将其提供给用户方。当充分分析这样的内容时，可以生成适当的触感(振动等)。

<当处理VR内容时>

即使当内容是VR(虚拟现实)内容时，也可以应用上述与视频和声音的同步相关的第一处理和第二处理。

通过应用本技术，例如，当棒球广播作为VR内容被分发时，变得可以提供其中视频和声音被同步的内容。在VR内容的情况下，可以提供视频与声音之间的偏离，以便给出逼真的感觉。这里，将通过以提供棒球广播作为VR内容的情况作为示例来描述参照图13描述的提供棒球广播以使得在视频与声音之间存在偏离的处理。

在图16中，麦克风的位置被设置为位置L0。从麦克风的位置L0到击球员击球区的位置的距离被定义为距离L1，到球已经落下的位置的距离被定义为距离L2，并且到围栏的位置的距离被定义为距离L3。

如果VR内容被设计为使得用户可以在空间中四处移动，例如，在这种情况下，用户可以位于地面并且从地面观看游戏。在图16中，观看位置被定义为观看位置Lv，其是击球员的击球区与落球位置之间的位置。从麦克风位置L0到观看位置Lv的距离被定义为距离Lv。

在击球员击球区中，与击球员击球时的击打声音相对应的视频被延迟视频延迟量t1。如下计算视频延迟量t1。

视频延迟量t1＝(|距离L1-距离Lv|-距离L1)/(声速v)

在这种情况下，通过从距离L1与距离Lv之间的差的绝对值中减去距离L1，并且将所减去的值除以声速v，来获得视频延迟量t1。

与击球员击球并且球落在地面上时的落下声音相对应的视频被延迟视频延迟量T2。如下计算视频延迟量t2。

视频延迟量t2＝(|距离L2-距离Lv|-距离L2)/(声速v)

在这种情况下，通过从距离L2与距离Lv之间的差的绝对值中减去距离L2，并且将所减去的值除以声速v，来获得视频延迟量t2。

与击球员击球并且球击打栅栏时的碰撞声音相对应的视频被延迟视频延迟量t3。如下计算视频延迟量t3。

视频延迟量t3＝(|距离L3-距离Lv|-距离L3)/(声速v)

在这种情况下，通过从距离L3与距离Lv之间的差的绝对值中减去距离L3，并且将所减去的值除以声速v，来获得视频延迟量t3。

根据图16所示的计算式，计算正值或负值作为视频延迟量t。如果它是正值，则将重放的开始偏移到在设置为视频重放的开始时间的时间之后的时间。如果是负值，则将重放的开始时间偏移到设置为视频重放的开始时间的时间之前的时间。

在视频和声音同步的状态下创建VR内容的情况下，通过将视频的重放开始时间偏移到所设置的重放开始时间之前或之后，可以在虚拟空间中向用户给出类似于现实空间的偏离。如参照图16所述，偏离量可以根据距离而被精细地调整。

作为VR内容，已经将观看棒球比赛的情况作为示例进行描述，但是本技术也可以应用于其他内容。

<其他应用示例>

在上述实施方式中，已经将观看烟花的情况或观看诸如棒球比赛的体育活动的情况作为内容的示例进行描述，但是本技术可以应用于除了这些内容之外的其他内容。也就是说，本技术可以与内容无关地应用。

在进行比赛诸如棒球比赛的体育场中，存在被称为VIP室的台子，并且存在安装有玻璃并且具有难以传递外部声音的结构的房间。对于在这样的房间中观看游戏的用户，在房间外收集的声音可以通过诸如房间中的扬声器的装置输出并提供给用户。在这种情况下，收集声音的麦克风安装在声源附近。通过向用户提供由安装在声源附近的麦克风收集的声音，可以使视频和声音同步。

当以这种方式向用户提供由诸如麦克风的声音收集装置收集的声音时，来自现实世界的声音被消除。当收集的声音被提供给用户时，一些效果可以被应用于提供的声音，使得效果被应用于的声音被提供给用户。

例如，当向用户提供由安装在击球员的击球区附近的麦克风收集的声音时，可以提供一种机制对在击球员在空气中摆动时的声音施加效果，以产生闪光效果。CG效果可以被叠加在玻璃上，并且提供给在以上提到的玻璃壁房间等中观看游戏的用户。

诸如麦克风的声音收集设备可以安装在声源附近，以向用户提供收集的声音，并且可以向用户提供其中收集的声音和视频同步的内容。在这种情况下，视频和声音可以被分别获取，视频可以被延迟(细调)以与声音同步，并且其中声音和视频被同步的内容可以被提供给用户。

另外，当通过诸如扬声器的声音输出设备向用户提供声音时，该声音可以被转换为用户易于听到的频带中的声音、用户喜爱的音质(男性声音、女性声音、喜爱的歌手的声音等)或感觉像在耳朵中说话的声音，并且被提供给用户。

本技术可以应用于例如用户在现场场所佩戴作为图5所示的可穿戴装置的AR眼镜并且享受现场表演的情况。在现场场所，用户听到的声音是现场声音(未被内容处理装置12处理而直接被用户听到的声音)，并且内容处理装置12延迟地提供视频。例如，由于舞台与观众的位置之间的距离不同，声音到达所花费的时间根据观众的位置而不同。然而，通过吸收这样的差异，场所中的人可以在相同的时间欣赏相同的视频和声音。

另外，现场表演被分成表演和称为MC的聊天。延迟方法可以在表演与MC之间切换。例如，表演与MC之间的延迟时间可以不同，例如，表演与MC可以具有或不具有延迟。延迟视频的模式和延迟音频的模式可以根据你希望现场体验的表演和MC中的哪一个来切换。此外，这样的切换可以由用户设置。

在上述实施方式中，例如，已经将用户佩戴作为图5所示的可穿戴装置的AR眼镜并且观看棒球比赛等的情况作为示例进行描述。例如，当观看棒球比赛时，球可能跳到观众的座位中。应用本技术观看延迟视频的用户可能不会注意到球正在飞行，即使球飞向用户。

为了避免这样的危险，当检测到危险时，可以提供一种机制，使得停止延迟视频的显示，并且将视频切换到实时视频。为了检测危险，可以提供如下机制：内容处理装置12分析正在拍摄的视频，并且例如，当以大尺寸拍摄球并且确定球正在接近时检测危险。为了检测危险，可以提供如下机制：安装在场所中的装置检测危险，并且通知危险的信号从该装置被发送到用户终端(内容处理装置12)。

<记录介质>

上述一系列处理步骤可以由硬件或软件来执行。当通过软件执行一系列处理步骤时，软件的程序被安装在计算机中。这里，计算机包括嵌入在专用硬件中的计算机，或者例如能够通过安装各种程序来执行各种功能的通用个人计算机。

图17是示出根据程序执行上述一系列处理的计算机的硬件的配置示例的框图。在该计算机中，中央处理单元(central processing unit，CPU)501、只读存储器(read onlymemory，ROM)502和随机存取存储器(random access memory，RAM)503通过总线504彼此连接。输入/输出接口505进一步连接至总线504。输入单元506、输出单元507、存储单元508、通信单元509和驱动器510连接至输入/输出接口505。

输入单元506是键盘、鼠标、麦克风等。输出单元507是显示器、扬声器等。存储单元508是硬盘、非易失性存储器等。通信单元509是网络接口等。驱动器510驱动诸如磁盘、光盘、磁光盘或半导体存储器的可移动记录介质511。

在具有以上配置的计算机中，例如，CPU 501通过经由输入/输出接口505和总线504将存储在存储单元508中的程序加载到RAM 503并执行该程序来执行上述一系列处理。

由计算机(CPU 501)执行的程序可以记录在例如用作封装介质以便供应的可移动记录介质511上。程序可以经由有线或无线传输介质提供，例如局域网、因特网或数字卫星广播。

在计算机中，通过将可移动记录介质511安装在驱动器510上，可以经由输入/输出接口505将程序安装在存储单元508中。程序可以由通信单元509经由有线或无线传输介质接收以安装在存储单元508中。另外，程序可以预先安装在ROM 502或存储单元508中。

同时，由计算机执行的程序可以是以本说明书中描述的顺序按时间顺序执行处理的程序，或者可以是并行地或者在诸如调用时间的必要时序执行处理的程序。

另外，这里使用的系统指的是由多个装置配置的整个装置。

此外，本说明书中描述的有利效果仅仅是示例性的，而不是限制性的，并且可以获得其他有利效果。

同时，本技术的实施方式不限于上述实施方式，并且在不脱离本技术的主旨的情况下可以进行各种改变。

同时，本技术还可以采用以下配置。

(1)一种信息处理装置，包括：确定单元，所述确定单元确定是否是声音相对于视频延迟的内容；以及处理单元，当所述确定单元确定是声音相对于视频延迟的内容时，所述处理单元将所述视频延迟预定时段并且播放所述视频。

(2)根据(1)所述的信息处理装置，其中，所述处理单元延迟并且播放所述视频，使得声源产生所述声音时的所述视频与所述声音同步。

(3)根据(1)或(2)所述的信息处理装置，其中，所述预定时段对应于所述声音被延迟的时段。

(4)根据(1)至(3)中任一项所述的信息处理装置，其中，所述预定时段根据到所述声音的声源的距离来设置。

(5)根据(1)至(4)中任一项所述的信息处理装置，还包括：拍摄单元，所述拍摄单元拍摄所述视频，其中，所述处理单元延迟由所述拍摄单元拍摄的视频。

(6)根据(5)所述的信息处理装置，其中，所述声音是直接到达用户的声音，并且所述拍摄单元拍摄直接到达所述用户的视频。

(7)根据(1)至(6)中任一项所述的信息处理装置，其中，所述处理单元将所述视频屏蔽预定时段。

(8)根据(1)至(7)中任一项所述的信息处理装置，其中，将收集的声音分离成声源，以及所述处理单元根据到通过声源分离而分离的声源的距离来延迟并且播放所述声音。

(9)根据(1)至(8)中任一项所述的信息处理装置，其中，为所述内容设置开始时间和结束时间，并且从所述开始时间起播放在所述开始时间之前的时间点拍摄的视频。

(10)根据(1)至(8)中任一项所述的信息处理装置，其中，为所述内容设置开始时间和结束时间，在从所述开始时间起的预定时段内缓慢地播放所述内容，并且在所述结束时间之前的预定时段内快进播放所述内容。

(11)根据(1)至(10)中任一项所述的信息处理装置，其中，所述内容是VR(虚拟现实)内容，以及所述处理单元通过根据用户在虚拟空间中观看所述视频的位置与收集所述内容的声音的位置之间的距离将所述视频延迟预定时段来播放所述视频。

(12)根据(1)至(11)中任一项所述的信息处理装置，其呈现与所述声音同步的触觉。

(13)一种信息处理方法，其用于使处理视频的信息处理装置执行以下操作：确定是否是声音相对于视频延迟的内容；以及当确定是声音相对于视频延迟的内容时，将所述视频延迟预定时段并且播放所述视频。

(14)一种用于使计算机执行以下操作的程序：确定是否是声音相对于视频延迟的内容；以及当确定是声音相对于视频延迟的内容时，将所述视频延迟预定时段并且播放所述视频。

参考符号列表

11 内容分发装置

12 内容处理装置

13 视频呈现装置

14 声音呈现装置

15 触觉呈现装置

31 内容获取单元

32 内容分析单元

33 延迟处理单元

34 视频控制单元

35 声音控制单元

36 触觉控制单元

Claims

1.一种信息处理装置，包括：

确定单元，所述确定单元确定是否是声音相对于视频延迟的内容；以及

处理单元，在所述确定单元确定是声音相对于视频延迟的内容的情况下，所述处理单元将所述视频延迟预定时段并且播放所述视频。

2.根据权利要求1所述的信息处理装置，其中，

所述处理单元延迟并且播放所述视频，使得声源产生所述声音时的所述视频与所述声音同步。

3.根据权利要求1所述的信息处理装置，其中，

所述预定时段对应于所述声音被延迟的时段。

4.根据权利要求1所述的信息处理装置，其中，

所述预定时段根据到所述声音的声源的距离来设置。

5.根据权利要求1所述的信息处理装置，还包括：

拍摄单元，所述拍摄单元拍摄所述视频，其中，

所述处理单元延迟由所述拍摄单元拍摄的视频。

6.根据权利要求5所述的信息处理装置，其中，

所述声音是直接到达用户的声音，以及

所述拍摄单元拍摄直接到达所述用户的视频。

7.根据权利要求1所述的信息处理装置，其中，

所述处理单元将所述视频屏蔽预定时段。

8.根据权利要求1所述的信息处理装置，其中，

将收集的声音分离成声源，以及

所述处理单元根据到通过声源分离而分离的声源的距离来延迟并且播放所述声音。

9.根据权利要求1所述的信息处理装置，其中，

为所述内容设置开始时间和结束时间，并且从所述开始时间起播放在所述开始时间之前的时间点拍摄的视频。

10.根据权利要求1所述的信息处理装置，其中，

为所述内容设置开始时间和结束时间，在从所述开始时间起的预定时段内缓慢地播放所述内容，并且在所述结束时间之前的预定时段内快进播放所述内容。

11.根据权利要求1所述的信息处理装置，其中，

所述内容是VR(虚拟现实)内容，以及

所述处理单元通过根据用户在虚拟空间中观看所述视频的位置与收集所述内容的声音的位置之间的距离将所述视频延迟预定时段来播放所述视频。

12.根据权利要求1所述的信息处理装置，其中，所述信息处理装置呈现与所述声音同步的触觉。

13.一种信息处理方法，其用于使处理视频的信息处理装置执行以下操作：

确定是否是声音相对于视频延迟的内容；以及

在确定是声音相对于视频延迟的内容的情况下，将所述视频延迟预定时段并且播放所述视频。

14.一种用于使计算机执行以下操作的程序：

确定是否是声音相对于视频延迟的内容；以及