CN106162206A

CN106162206A - 全景录制、播放方法及装置

Info

Publication number: CN106162206A
Application number: CN201610630218.4A
Authority: CN
Inventors: 杨忠伟; 黄业桃
Original assignee: Beijing Madv Technology Co Ltd
Current assignee: BEIJING FENGJING TECHNOLOGY Co.,Ltd.; Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2016-08-03
Filing date: 2016-08-03
Publication date: 2016-11-23

Abstract

本发明公开了一种全景录制、播放方法及装置，所述方法包括通过多个图像采集单元拍摄外界图像得到多路广角视频数据，在拍摄图像的同时，通过多个音频采集单元采集外界声音得到多路音频数据；将多路广角视频数据展开并拼接融合为全景视频；根据每个音频采集单元设置在拍摄装置上的位置和多路音频数据，生成与全景视频对应的全景声场，全景声场中包含多个音频采集单元采集到的每个音源的音频信息和音频数据；对全景视频和全景声场进行编码。本申请可以使用全景拍摄装置直接输出完整的全景音视频文件，所录制的全景视频与全景声场准确关联，与真实场景保持一致，声音的位置、声强与图像相匹配，用户沉浸感更强，且简单易操作。

Description

全景录制、播放方法及装置

技术领域

本发明涉及音视频录制技术，尤指一种全景录制、播放方法及装置。

背景技术

全景拍摄可以在拍摄位置拍摄左右上下360度的视频，让观看者有一种身临其境的感觉。现有技术中，全景拍摄装置通过两个鱼眼镜头或多个广角镜头采集外界图像，然后通过算法进行拼接，形成全景视频。

全景技术的目的是真实还原、真实写照所拍摄的环境，为了观看者能够达到真正身临其境的感觉，除了视频全景拍摄外，声音亦需要完整记录并在播放时能够还原，在播放时能够根据观看者的视角对应调整声音输出。

现有全景相机等拍摄装置存在以下缺陷：

1)相机装置自带的录音功能，一般是按照传统的单声道或左右声道方案进行录音。所录制的声音信号不能与拼接后的全景视频准确关联，还原后的声音与视频存在较大的相位或位置误差，最终的全景视频中的声音信号与实际场景的声场不能准确吻合，不能再现实际场景，导致观看的用户体验差；

2)全景相机本身不能记录全景声场，如果要记录全景声场，需要专业的外围辅助装置，专业的人员操作并进行后期合成及专业处理(例如时间同步，个别音源特殊处理等等)，无法实现个人普通用户简便使用。

发明内容

为了解决上述技术问题，本发明提供了一种全景录制、播放方法及装置，能够通过拍摄装置简单、方便的实现全景声场的录制、播放。

为了达到本发明目的，本发明提供了一种全景录制方法，应用于包含多个图像采集单元的拍摄装置中，所述拍摄装置还包含多个音频采集单元，所述方法包括：

通过所述多个图像采集单元拍摄外界图像得到多路广角视频数据，在拍摄图像的同时，通过所述多个音频采集单元采集外界声音得到多路音频数据；

将所述多路广角视频数据展开并拼接融合为全景视频；

根据每个音频采集单元设置在所述拍摄装置上的位置和所述多路音频数据，生成与所述全景视频对应的全景声场，所述全景声场中包含所述多个音频采集单元采集到的每个音源的音频信息和音频数据；

对所述全景视频和所述全景声场进行编码。

本发明还提供了一种全景播放方法，包括：

对全景视频和对应的全景声场进行解码，其中，所述全景声场是根据拍摄装置上的每个音频采集单元设置在所述拍摄装置上的位置和每个音频采集单元采集外界声音得到的多路音频数据所生成，所述拍摄装置包含多个音频采集单元，所述全景声场中包含所述多个音频采集单元采集到的每个音源的音频信息和音频数据；

播放所述全景视频，在播放的过程中，识别人眼观看的视频区域，根据人眼观看的视频区域和人头模型计算出人耳的位置；

根据全景声场和人耳的位置生成左耳声场信息和右耳声场信息，并分别在对应的音频播放器中播放所述左耳声场信息和右耳声场信息。

本发明还提供了一种全景录制装置，包括：多个图像采集单元、多个音频采集单元、图像处理单元、音频处理单元和音视频编码处理单元，其中：

所述图像采集单元，用于拍摄外界图像得到多路广角视频数据；

所述音频采集单元，用于在所述图像采集单元拍摄图像的同时，采集外界声音得到多路音频数据；

所述图像处理单元，用于将所述多路广角视频数据展开并拼接融合为全景视频；

所述音频处理单元，用于根据每个音频采集单元设置在所述拍摄装置上的位置和所述多路音频数据，生成与所述全景视频对应的全景声场，所述全景声场中包含所述多个音频采集单元采集到的每个音源的音频信息和音频数据；

所述音视频编码处理单元，用于对所述全景视频和所述全景声场进行编码。

本发明还提供了一种全景播放装置，包括：解码单元、视频播放单元、识别单元和音频播放单元，其中：

所述解码单元，用于对全景视频和对应的全景声场进行解码，其中，所述全景声场是根据拍摄装置上的每个音频采集单元设置在所述拍摄装置上的位置和每个音频采集单元采集外界声音得到的多路音频数据所生成，所述拍摄装置包含多个音频采集单元，所述全景声场中包含所述多个音频采集单元采集到的每个音源的音频信息和音频数据；

所述视频播放单元，用于播放所述全景视频；

所述识别单元，用于在所述视频播放单元播放的过程中，识别人眼观看的视频区域，根据人眼观看的视频区域和人头模型计算出人耳的位置；

所述音频播放单元，用于根据全景声场和人耳的位置生成左耳声场信息和右耳声场信息，并分别在对应的音频播放器中播放所述左耳声场信息和右耳声场信息。

与现有技术相比，本申请包括通过多个图像采集单元拍摄外界图像得到多路广角视频数据，在拍摄图像的同时，通过多个音频采集单元采集外界声音得到多路音频数据；将多路广角视频数据展开并拼接融合为全景视频；根据每个音频采集单元设置在拍摄装置上的位置和多路音频数据，生成与全景视频对应的全景声场，全景声场中包含多个音频采集单元采集到的每个音源的音频信息和音频数据；对全景视频和全景声场进行编码。本申请可以使用全景拍摄装置直接输出完整的全景音视频文件，所录制的全景视频与全景声场准确关联，与真实场景保持一致，声音的位置、声强与图像相匹配，用户沉浸感更强，且简单易操作。并且，不需要辅助外围全景音频录音装置；在播放时，也更容易进行全景声场与视频的匹配，所还原的全景声场和全景视频保持完美对应。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本申请的一实施例的全景录制方法的流程图；

图2为本申请的另一实施例的全景录制装置的架构图；

图3为本申请实施例的空间坐标系的示意图；

图4为本申请实施例的镜头和麦克的位置示意图；

图5为本申请实施例的全景视频的示意图；

图6为本申请的又一实施例的全景播放方法的流程图；

图7为本申请的又一实施例的全景播放装置的架构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在现有的全景录制方法中，对于音频是采用传统的单声道或左右声道的方式录制。通过单声道或左右声道的方式录制的音频不能与全景视频准确关联，且在播放端，还原后的声音与全景视频与实际场景不能准确吻合，用户体验较差。如果想要获得全景声场，需要专业的辅助设备，并通过专业人员的后期制作，成本很高且操作复杂，对普通用户无法适用。

针对上述问题，本申请实施例提供的一种解决方案的主要原理是：在拍摄装置(或称全景拍摄装置)上设置多个音频采集单元，在拍摄装置拍摄全景视频的同时，通过多个音频采集单元采集外界声音，并根据每个音频采集单元在拍摄装置上的位置和采集的多路音频数据生成全景声场，生成的全景声场与拼接融合后全景视频相对应，包含多个音频采集单元采集到的每个音源的音频信息和音频数据。

由于本申请中是通过多个音频采集单元在拍摄外界图像的同时采集外界声音，并以此为基础，生成全景声场，所获得的全景声场能够与拼接后的全景视频准确关联，并能够真实反映实际录制的场景，用户体验较好。并且，无需投入额外的辅助设备，降低了录制成本，也无需专业人员的后期制作，降低了录制的复杂度，对普通用户同样适用。

以下结合附图详细说明本申请各实施例提供的技术方案。

如图1所示，本申请的一实施例提供的全景录制方法，包括：

步骤101：通过多个图像采集单元拍摄外界图像得到多路广角视频数据，在拍摄图像的同时，通过多个音频采集单元采集外界声音得到多路音频数据；

步骤102：将多路广角视频数据展开并拼接融合为全景视频；

步骤103：根据每个音频采集单元设置在拍摄装置上的位置和多路音频数据，生成与全景视频对应的全景声场，全景声场中包含多个音频采集单元采集到的每个音源的音频信息和音频数据；

步骤104：对全景视频和全景声场进行编码。

如图2所示，本申请的拍摄装置包含拍摄全景视频所需的n(n≥2)个图像采集单元(每个图像采集单元包含一广角镜头和一图像传感器)，图像处理单元，同时包含音频声场采集所需的m(m≥2)个音频采集单元(如麦克风、特制的全景麦克风)，音频处理单元和音视频编码处理单元。

本申请的全景录制方法应用于拍摄设置中。在实际应用中，为了获得全景视频，出现了全景拍摄装置，如全景相机、全景摄像机等。这些全景拍摄装置中包括至少两个图像采集单元，图像采集单元包括一个广角镜头(如鱼眼镜头)和一个摄取由该广角镜头形成的图像的图像传感器。至少两个图像采集单元背向设置，保证采集到水平和垂直各360°的全景图像。拍摄装置通过将各图像采集单元摄取的图像结合在一起获得立体角弧度为4π的图像。

为了能够通过拍摄装置直接获得全景声场，需要在拍摄装置上设置多个音频采集单元。音频采集单元可以采用音频麦克。多个音频麦克作为声音采集部件，负责拍摄时拍摄装置所在位置在不同方位的声音的采集记录。麦克分别朝向不同方向，麦克的具体数量不限，以能够准确记录拍摄场景中的声音为好。音频处理单元将采集的音频数据理后生成全景声场。

为了得到全景视频，拍摄装置需要首先通过图像采集单元拍摄外界图像，得到多路广角视频数据。例如，在图像采集单元采用鱼眼镜头的情况下，拍摄后得到两路鱼眼视频数据。两图像采集单元拍摄的图像需保证有部分重叠区域。拍摄装置接下来会对多路(如两路)广角视频数据进行拼接融合处理，得到全景视频。

本申请中为了能够通过拍摄装置获得全景声场而不必借助于外部的辅助装置，在拍摄装置上设置了多个音频采集单元。该多个音频采集单元在图像采集单元拍摄图像的同时，同时采集当前所拍摄场景中拍摄装置所在位置的外界声音，从而得到多路音频数据。每一个音频采集单元对应一路音频数据。拍摄装置接下来会将上述多路音频数据生成全景声场。全景声场是指，在环境中不同角度、位置的音源在不同的时间，发出不同的声音，整个环境中各个音源的音频数据和音频信息共同构成一个声场。音频信息包含音源的坐标、朝向和声音强度等。全景声场与全景视频相对应。

多个图像采集单元进行视频拍摄、捕捉全角度的图像数据，得到多路广角视频数据后，图像处理单元进行对应的图像展开、拼接融合处理，将采集的广角视频数据拼接为全景视频。

为了将采集的广角视频数据拼接为全景视频，需要以拍摄装置所在的空间坐标系建立成像模型。该空间坐标系可以以拍摄装置上的任意一点为圆心。如图3所示，空间坐标系以圆心O为坐标原点；空间坐标系包括X轴、Y轴和Z轴。为便于理解空间概念，在图3中示出了半个单位球。这个空间坐标系作为后续全景视频拼接及全景声场形成的参考基准。

另外，拍摄装置的多个镜头在拍摄装置中的具体位置是固定的，此位置信息记录在拍摄装置中。如图4所示，以图中方体表示拍摄装置(相机)，在拍摄装置的正面、背面以及底面各设置一个镜头(图中未示出)，拍摄装置中存储有各个镜头的位置信息。拍摄装置中还设置有加速度计及陀螺仪传感器(Accelerometer&gyroscope Sensor)，该加速度计及陀螺仪传感器在出厂时可以标定相同的初始值。在拍摄装置使用中，加速度计及陀螺仪传感器能够记录拍摄装置所处的相对位置。

拍摄装置在多个图像采集单元拍摄得到多路广角视频数据后，根据保存的上述每个镜头的位置信息、加速度计及陀螺仪传感器的参数，以上述空间坐标系为参考基准，将多路广角视频数据拼接融合形成全景视频。如图5所示，拼接融合后得到全景视频可以观看到以拍摄装置为中心的360的全景。

融合的方法如采用小波融合、加权平均融合等。例如，对双镜头的拍照设备拍摄的两路广角视频数据，对两个展开后的视频图像进行重叠区域的融合处理，两个视频图像经融合后合二为一，形成拼接好的全景视频图像。

如上所述，要拍摄的场景中包含有多个不同音源，在场景中的不同位置听到的声音也并不相同，构建全景声场的目的是与全景视频相对应，为用户提供与其所观看的视频部分真实匹配的声音，使用户在视频与声音两个维度均有身临其境之感。用于采集外界声音的多个麦克在拍摄装置具体位置是固定的，为了生成全景声场，在拍摄装置中记录每个麦克的位置信息。例如，请再次参考图4，以图中方体表示拍摄装置，在拍摄装置的每个侧面均设置一个麦克，麦克可以朝向不同的角度。

在多个音频采集单元采集得到多路音频数据后，拍摄装置会根据上述每个麦克的位置信息和得到的多路音频数据，生成全景声场。全景声场中包含了麦克能够采集到的每个音源的音频信息和音频数据。音频信息包含音源的坐标、朝向和音源声音强度等信息。

录音时由于不同麦克位置不同，声源距离各个麦克不等距，造成声音传递到不同麦克存在着时间差和相位差；各个麦克朝向亦有不同，同样的声音传递到不同麦克亦有强度差；即同样一个声源传递到不同麦克，存在不同的强度差、时间差和相位差，也就带来了声源相对相机的方位信息。

本申请中，拼接全景视频和生成全景声场实时、同步进行，拍摄的多路广角视频数据实时拼接为全景视频，采集的多路音频数据实时生成全景视频，且两者同步进行，并无逻辑上的先后关系。

在将多路广角视频数据拼接为全景视频，将多路音频数据生成全景声场后，音视频编码处理单元可以将一一对应后的全景视频和全景声场进行编码、存储和传输等。因为全景视频和全景声场基于同一坐标系，故全景视频和全景声场可以做到准确的一一对应，编码后的音视频文件即自带了全景声场，使录制的视频与声音能够更真实的对应，不需要单独进行时间同步，在播放时可以真实还原拍摄场景的音视频信息，提高用户的沉浸感和体验。

如图6所示，本申请的另一实施例的全景播放方法，包括：

步骤601：对全景视频和对应的全景声场进行解码，其中，全景声场是根据拍摄装置上的每个音频采集单元设置在拍摄装置上的位置和每个音频采集单元采集外界声音得到的多路音频数据所生成，拍摄装置包含多个音频采集单元，全景声场中包含多个音频采集单元采集到的每个音源的音频信息和音频数据；

步骤602：播放全景视频，在播放的过程中，识别人眼观看的视频区域，根据人眼观看的视频区域和人头模型计算出人耳的位置；

步骤603：根据全景声场和人耳的位置生成左耳声场信息和右耳声场信息，并分别在对应的音频播放器中播放左耳声场信息和右耳声场信息。

本申请中为了获得与拍摄的实际场景相一致的音视频体验，在拍摄装置上设置了多个音频采集单元采集外界的声音，并在拼接全景视频的同时，根据麦克在拍摄装置上的位置和采集得到的音频数据生成全景声场，并对全景视频和全景声场进行编码，得到音视频文件。

在用户选择播放全景视频和全景声场时，需要先对全景视频和相应的全景声场进行解码。在屏幕上播放全景视频，用户可以按照个人的喜好选择不同的视角观看。为了达到随着视频播放视角的变化，相应的调整声音效果的目的，在播放全景视频的过程中，首先需要实时识别人眼观看的视频区域，根据人眼观看的视频区域和人头模型计算出人耳的位置，以根据人耳的位置生成全景声场在人耳位置的音频数据。人头模型的中心点与上述全景视频和全景音频基于的空间坐标系的圆心重合。

本申请的全景播放方法可以应用于拍摄装置，也就是直接在拍摄装置中进行播放，也可以通过头显设备进行播放。如果直接在拍摄装置中进行播放，可以根据显示屏上显示的图像的坐标确定人眼观看的视频区域；如果是通过头显设备进行播放，则可由头显设备直接识别出人眼观看的视频区域。

人在观看全景视频时，相当于处于全景视频的球心位置，由球心向外看向球的内壁，球心即拍摄时的相机位置；根据头显设备现有的头部追踪技术(6轴追踪、九轴追踪、眼动追踪等)，可以得出人在观看全景视频时人脸的具体朝向，在人头模型的脸部朝向明确后，即可在人头模型上根据人脸的朝向得到左、右两只人耳的坐标和两耳朝向。

然后，根据全景声场和人耳的位置生成左耳声场信息和右耳声场信息，并分别在对应的音频播放器中播放所述左耳声场信息和右耳声场信息。左耳声场信息和右耳声场信息是声场中各音源传输到对应两只耳朵所在位置的两个不同声场信息，分别对应在左、右耳机中播放。

根据录制时得到的全景声场信息以及两耳的位置、朝向，可分离出音床(静态环境声音)和多个声音对象(可以准确定位的动态音频内容，即带定位信息的动态音频内容)，头显设备分别计算出音床传递到左耳所在位置的声音强度，以及各声音对象传递到左耳所在位置的声音强度，根据计算出的声音强度，采用音床和各声音对象合成左耳声场信息，作为播放设备的左声道输出；同理音床和各声音对象传递到右耳生成右耳声场信息，作为播放设备的右声道输出。

上述形成的左、右声道输出，可以真实还原用户观看时对应场景中的声音发生的位置，使用户沉浸感更强。

请再次参考图2，本申请的全景录制装置，包括：多个图像采集单元、多个音频采集单元、图像处理单元、音频处理单元和音视频编码处理单元，其中：

图像采集单元，用于拍摄外界图像得到多路广角视频数据；

音频采集单元，用于在图像采集单元拍摄图像的同时，采集外界声音得到多路音频数据；

图像处理单元，用于将多路广角视频数据展开并拼接融合为全景视频；

音频处理单元，用于根据每个音频采集单元设置在拍摄装置上的位置和多路音频数据，生成与全景视频对应的全景声场，全景声场中包含多个音频采集单元采集到的每个音源的音频信息和音频数据；

音视频编码处理单元，用于对全景视频和全景声场进行编码。

进一步，音频信息包含音源的坐标、朝向和声音强度。

如图7所示，本申请的全景播放装置，包括：解码单元、视频播放单元、识别单元和音频播放单元，其中：

解码单元，用于对全景视频和对应的全景声场进行解码，其中，全景声场是根据拍摄装置上的每个音频采集单元设置在拍摄装置上的位置和每个音频采集单元采集外界声音得到的多路音频数据所生成，拍摄装置包含多个音频采集单元，全景声场中包含多个音频采集单元采集到的每个音源的音频信息和音频数据；

视频播放单元，用于播放全景视频；

识别单元，用于在视频播放单元播放的过程中，识别人眼观看的视频区域，根据人眼观看的视频区域和人头模型计算出人耳的位置；

音频播放单元，用于根据全景声场和人耳的位置生成左耳声场信息和右耳声场信息，并分别在对应的音频播放器中播放左耳声场信息和右耳声场信息。

进一步，识别单元根据人眼观看的视频区域和人头模型计算出人耳的位置，包括：

根据人眼观看的视频区域识别出在观看全景视频时人脸的朝向，在人头模型上根据人脸的朝向得到左耳和右耳的坐标和朝向。

进一步，音频播放单元根据全景声场和人耳的位置生成左耳声场信息和右耳声场信息，包括：

根据全景声场以及人耳的位置，分离出音床和多个声音对象；

分别计算出音床传递到左、右耳所在位置的声音强度，以及各声音对象传递到左、右耳所在位置的声音强度，根据音床和个声音对象传递到左、右耳所在位置的声音强度，采用音床和各声音对象合成左、右耳声场信息。

虽然本发明所揭露的实施方式如上，但所述的内容仅为便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种全景录制方法，应用于包含多个图像采集单元的拍摄装置中，其特征在于，所述拍摄装置还包含多个音频采集单元，所述方法包括：

将所述多路广角视频数据展开并拼接融合为全景视频；

对所述全景视频和所述全景声场进行编码。

2.根据权利要求1所述的方法，其特征在于，所述音频信息包含音源的坐标、朝向和声音强度。

3.一种全景播放方法，其特征在于，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据人眼观看的视频区域和人头模型计算出人耳的位置，包括：

5.根据权利要求3或4所述的方法，其特征在于，所述根据全景声场和人耳的位置生成左耳声场信息和右耳声场信息，包括：

根据所述全景声场以及人耳的位置，分离出音床和多个声音对象；

6.一种全景录制装置，其特征在于，包括：多个图像采集单元、多个音频采集单元、图像处理单元、音频处理单元和音视频编码处理单元，其中：

7.根据权利要求6所述的装置，其特征在于，所述音频信息包含音源的坐标、朝向和声音强度。

8.一种全景播放装置，其特征在于，包括：解码单元、视频播放单元、识别单元和音频播放单元，其中：

所述视频播放单元，用于播放所述全景视频；

9.根据权利要求8所述的装置，其特征在于，所述识别单元根据人眼观看的视频区域和人头模型计算出人耳的位置，包括：

10.根据权利8或9所述的装置，其特征在于，所述音频播放单元根据全景声场和人耳的位置生成左耳声场信息和右耳声场信息，包括：