CN105794197A

CN105794197A - 能够生成全景文件的便携式设备

Info

Publication number: CN105794197A
Application number: CN201580002784.4A
Authority: CN
Inventors: 刘子明; 曾奎彰; 朱启诚; 王智鸣
Original assignee: MediaTek Inc
Current assignee: MediaTek Inc
Priority date: 2014-07-28
Filing date: 2015-07-28
Publication date: 2016-07-20
Also published as: WO2016015624A1; CN105814880A; WO2016015623A1; US20170272698A1; US10187569B2; US10419668B2; US20170272649A1

Abstract

一种能够生成全景图、全景视频和/或全景音频的便携式设备。所述便携式设备包括多个传感器和输入装置，所述多个传感器具有重叠的感测区域，所述输入装置接收触发信号，所述触发信号触发所述多个传感器来感测数据，以生成全景照片/视频/音频文件。

Description

能够生成全景文件的便携式设备

相关申请的交叉引用

本申请要求2014年7月28日递交的申请号为62/029,657的美国临时案的优先权，在此合并参考该申请案的申请标的。

技术领域

本发明涉及一种能够生成全景照片/视频/音频文件的便携式设备。

背景技术

传统上，全景照片是由智能手机的单一摄像头(例如，后置摄像头)拍摄的多幅照片来产生的。它可能需要较长的时间来由单一摄像头捕捉所有的照片，这是非常不方便。

因此需要一种便携式设备，可以方便地生成全景照片、全景视频、或全景音频文件。

发明内容

根据本发明的一实施例的一种便携式设备，包括具有重叠感测区域(overlappingsensingareas)的多个传感器和接收触发信号的输入装置，该触发信号触发该多个传感器以感测数据，以产生全景文件。该全景文件可以是全景照片/视频/音频文件。

在一实施例中，该便携式设备还包括全景图像处理器，该多个传感器包括用于捕捉多个图像的多个图像传感器。全景图像处理器处理(如，图像标准化)该多个图像，以形成全景图。

该便携式设备还可以包括运动传感模块，在拍摄图像时，该运动传感模块收集有关该便携式设备的运动信息。全景图像处理器可以处理图像，以形成基于运动信息的全景图。

在一实施例中，该多个图像传感器连续捕捉图像以记录视频，该视频被全景图像处理器处理以生成全景视频。

在一实施例中，该多个传感器还包括多个麦克风。该多个麦克风录制声音(sounds)，用于产生全景音频，全景音频随全景视窗(panoramicviewwindow)而变化。可根据用于同步视频和音频的时间戳将声音封包(pack)到全景视频中。

下面的实施例中参考附图给出了详细的说明。

附图说明

通过阅读随后的详细描述与附图，可以更充分地理解本发明，其中：

图1为能够构建全景照片/视频/音频文件的便携式设备100的框图。

图2为便携式设备100周围的720°视场/声场(720°fieldofview/sound)。

图3为720°全景图的扩展视图。

图4A-4F为根据本发明一实施例的用于产生全景照片/视频/音频文件的便携式设备中的传感器的布置的示意图。

图5为本发明一实施例的智能手机上的左侧、右侧、底部和顶部的摄像头/麦克风如何在智能手机周围覆盖360°的感测区域的示意图。

图6为根据本发明另一实施例的如何在智能手机周围覆盖360°的感测区域的示意图。

图7A、7B和7C为关于便携式设备的姿势信息，偏航(yaw)、俯仰(pitch)和横滚(roll)，可用于处理由摄像头/麦克风捕捉的信号。

图8为通过不同摄像机拍摄的图像的纹理编码的流程图。

图9A为大图像900被步骤804中的大图像纹理编码进行处理的示意图，以及图9B为由不同的摄像机捕捉的图像被步骤806中的单个摄像机的纹理编码分别处理的示意图。

图10A列出了图9A中的组合图像的有效载荷字节的示例格式，以及图10B列出了图9B中单独的图像的有效载荷字节的示例格式。

图11为根据本发明一实施例的解封包和解码处理的流程图。

图12为根据本发明一实施例的全景数据流的数据结构的示意图。

图13显示不同的用户可以使用他们的智能手机在建筑不同的地方拍摄全景照片的示意图。

图14为全景图像处理器106的操作流程图。

图15为讨论步骤1406的图像对准、图像组合和图像提取的实施例。

图16A、图16B、和图16C分别显示了球形浏览模式、圆柱形浏览模式和立方体(cubic)浏览模式。

图17为根据触摸屏上的用户触摸改变全景视窗的实施例。

图18显示了在本发明根据由图像传感器IS1-ISN或超声波传感器来捕捉的用户生成的手势改变全景视窗的实施例。

图19显示了根据由图像传感器IS1-ISN捕捉的眼球运动(另一种用户生成的动作)改变全景视窗的实施例。

图20显示了根据由运动传感模块110检测到的便携式设备100的运动(例如，空间移位)改变全景视窗的实施例

图21显示了便携式设备100具有内置的姿势控制系统130，姿势控制系统130作为远程控制以检测用户生成的手势以及通过无线通信(如Wi-Fi或蓝牙)或电缆连接(如USB)将手势指令传递至显示装置2100(如电视、电脑或任何其他类型的显示装置)。

图22显示了具有在视频会议中追踪用户的脸的视频会议系统132的便携式设备100的实施例。

图23为全景音频处理器136操作的流程图。

图24为根据本发明一实施例的具有全景视窗View_W的720°全景图以及移动全景视窗View_W以形成显示图像，全景音频随着全景视窗而改变。

图25为描述如何根据头相关传输函数生成立体声的流程图。

图26为根据用于同步音频和视频的时间戳2600将由麦克风M1-MM记录的声音封包至全景视频的示意图。

图27为解复用包含视频和音频数据的比特流以及根据时间戳分别解码和显示的示意图。

具体实施方式

下面的描述为实施本发明的示范性实施例。以下实施例仅用来说明本发明的一般原理，并非用来限制本发明的范围。本发明的范围应以权利要求书所界定的为准。

图1为能够构建全景照片/视频/音频文件的便携式设备100的框图。根据全景照片、全景视频或全景音频文件建立的全景图，可以提供超过180度的视场(FOV)/声场(FOS)。

便携式设备100包括：多个图像传感器(如摄像机)IS1、IS2…ISN，多个麦克风M1、M2…MM，以及显示单元104中的至少一个或其组合。当用户操作触发功能(例如，对显示在触摸屏上的快门/触发图标的单一触摸，或对快门/触发按钮的单一的按压)以生成全景照片/视频/音频文件时，图像传感器IS1-ISN可被触发以捕捉图像或录制视频，或麦克风M1-MM可被触发以记录声音。在一些实施例中，当用户操作触发功能以生成全景照片/视频/音频文件时，图像传感器IS1-ISN和麦克风M1-MM可被同时触发。图像传感器IS1-ISN有重叠的视场(overlappingfieldsofview)。例如，至少一对相邻的图像传感器对应于重叠的感测区域。麦克风M1-MM具有重叠的声场(overlappingfieldsofsound)。例如，至少一对相邻的麦克风对应重叠的感测区域。

在一实施例中，为生成全景照片/视频文件，全景图像处理器106耦接到图像传感器IS1-ISN的图像信号处理器108，以处理N个图像以形成全景图。在一些实施例中，全景图像处理器106可以进一步标准化该N个图像以形成全景图。例如，自适应全景图像处理器106可以标准化该N个图像的配置，以使该N个图像的配置(例如，镜头设置、感光度(ISO)设置、图像分辨率、与该N个图像相关的任何其他设置，或上述设置的组合)相同或相似，然后，基于标准化的N个图像以形成全景图。图14为全景图像处理器106(但不限于此)执行的生成全景照片/视频文件的操作流程图，显示了标准化图像的例子，包括标准化的镜头差异或图像差异(感光度差异、摄像机分辨率差异等)。运动传感模块110可以耦接到全景图像处理器106。当图像被捕捉时，运动传感模块110可以收集有关便携式设备100的运动信息，例如，便携式设备100的姿势或移动。全景图像处理器106在处理该N个图像的过程中，会参考运动信息。全景图像处理器106可以通过个便携式设备100的显示处理器116耦接到图像编码器112和视频编码器114。当图像传感器IS1-ISN只进行了一次拍摄(onephotoshoot)时，全景照片的文件是由图像编码器112来产生的。当图像传感器IS1-ISN正在录制视频时，一系列的全景图可以被视频编码器114编码以作为全景视频文件。被便携式设备100的定位模块118检测到的便携式设备100的位置或高度信息，可被封包至全景照片/视频文件中，这样，根据便携式设备100的位置或高度信息，全景照片/视频文件可被集成到由相邻的便携式设备所产生的另一全景照片/视频文件中。因此，可以形成具有更广的视场的全景照片/视频。

该便携式设备100可以进一步包括全景显示处理器120。全景显示处理器120可提供全景图(或全景视频)至驱动集成电路122，这样驱动集成电路122可驱动显示单元104显示全景图(或全景视频)。

在一些实施例中，在显示单元104上显示的全景图或者全景视频可以从存储设备获得，而不是从图像传感器IS1-ISN直接传送。从存储设备得到的全景图和全景视频可以分别通过图像解码器124和视频解码器126进行解码，然后通过显示处理器116，全景显示处理器120被操作以提供全景图或全景视频，使得驱动集成电路122驱动显示单元104来显示全景图或全景视频。全景图或全景视频的全景视窗(panoramicviewwindow)可以通过用户控制器128来调整。

此外，便携式设备100可以进一步包括手势控制系统130或使用全景照片拍摄技术的视频会议系统132。手势控制系统130从所捕捉的全景视频中提取用户生成的手势，并根据用户生成的手势控制目标设备。视频会议系统132从全景视频中提取用户的脸的图像，以将全景视窗聚焦到用户的脸上。

在一实施例中，为生成全景音频文件，由麦克风M1-MM采集的多个声音信号被便携式设备100的音频编解码器134编码，并作为单独的文件存储到存储设备中。当生成随全景视窗而改变的全景音频时，单独的声音文件可被音频编解码器134读取和解码。便携式设备100包括全景音频处理器136，根据依赖于全景视窗的可变加权因子，通过全景音频处理器136总结出(summedup)单独的声音文件，从而全景音频可由便携式设备100的扬声器138生成。

图2为便携式设备100周围的720°的视场/声场的一实施例。720°的视场/声场可通过至少一个平面来定义(例如，平面1、平面2、平面3或其他平面，或它们的组合)。在本实施例中，720°的场可参照2个360°的场，其中每一个360°的场对应于一个平面。图像传感器IS1-ISN或麦克风M1-MM可设置在便携式设备100上并对应于至少一个平面。

图3为720°全景图720_panorama的扩展视图的示意图。如图所示，720°全景图720_panoramais从多个图像形成。在显示单元104上显示的显示图像，可以通过移动720°全景图720_panorama上的全景视窗View_w来确定。例如，利用全景视窗View_w，可以选择720°全景图720_panorama的区域，使得将被显示在显示单元104上的显示图像可根据选定的区域来生成。根据全景视窗View_w的位置，可分别产生左声道音频Audio_l和右声道音频Audio_r，这样一来，全景音频的左声道音频Audio_l和右声道音频Audio_r的内容可随着全景视窗View_w的运动而变化。

图4A-4F为根据本发明一实施例的用于产生全景照片/视频/音频文件的便携式设备中的传感器的布置的示意图。在该实施例中，传感器(例如，图像传感器IS1、IS2…ISN或麦克风M1、M2…MM)可设置在便携式设备的不同的侧面。参考图4A，从便携式设备的左视图(由箭头Left_View表示)可以看出，便携式设备的左侧可具有左摄像头L_C或左麦克风L_M。参考图4B，从便携式设备的右视图(由箭头Right_View表示)可以看出，便携式设备右侧可具有右摄像头Right_C或右麦克风Right_M。参考图4C，从便携式设备的俯视图(由箭头Top_View表示)可以看出，便携式设备的顶部可具有顶部摄像头T_C或顶部麦克风T_M。参考图4D，从便携式设备的仰视图(由箭头Bottom_View表示)可以看出，便携式设备的底部可具有底部摄像头B_C或底部麦克风B_M。参考图4E，从便携式设备的正视图，便携式设备的正面可具有前置摄像头F_C或前置麦克风F_M。参考图4F，从便携式设备的后视图，便携式设备的后面可具有后置摄像头Rear_C或后置麦克风Rear_M。根据图4A-图4F的传感器布置，便携式设备能够在便携式设备周围的720°视场/声场中生成全景照片/视频/音频文件。便携式设备的某些侧面或所有这六个侧面的摄像头可具有不同的配置(non-identicalconfigurations)，例如，不同的ISO值、不同的像素分辨率、不同的像素类型、不同的帧率或其组合。由于不同的配置，图1中的全景图像处理器106可以进一步执行一些调整(如，依据不同硬件配置进行对应的标准化)。在另一实施例中，可在便携式设备的六个侧面中的一部分或全部中设置闪光模块。多个闪光模块可具有不同的光强度。此外，声音文件的采样率也可以是不同的，图1的全景音频处理器136可以进一步调整(如标准化)采样率。

在一些其他实施例中，安装在便携式设备100上的摄像头/麦克风的布置的形式可以为覆盖全景视场/声场，而不限于720°。摄像头/麦克风的布置需被精心设计，不应被限制为本实施例所示的方式。

图5为便携式设备上的左侧、右侧、底部和顶部的摄像头/麦克风如何在便携式设备周围覆盖360°的感测区域(sensingarea)的一实施例。如图所示，顶部的摄像头/麦克风和左侧的摄像头/麦克风具有重叠的感测区域A1，左侧的摄像头/麦克风和底部的摄像头/麦克风具有重叠的感测区域A2，底部的摄像头/麦克风和右侧的摄像头/麦克风具有重叠的感测区域A3，以及右侧的摄像头/麦克风和顶部的摄像头/麦克风具有重叠的感测区域A4。在圆以外是360°的有效感测区域。

图6为根据本发明另一实施例的如何在便携式设备周围覆盖360°的感测区域的示意图。在便携式设备的正面，可能具有两个摄像头/麦克风，而不是只有一个单一的摄像头/麦克风。因此，正面的视场可以有效地扩展。同样地，在便携式设备的后面可具有两个摄像头/麦克风，以及后面的视场可以有效地扩展。

图7A、7B和7C为关于便携式设备的姿势信息，偏航(yaw)、俯仰(pitch)和横滚(roll)，可用于处理由摄像头/麦克风捕捉的信号。例如，全景图像处理器106可以根据姿势信息来进行图像处理，以保证将形成全景图的图像对准(align)到相同的参考(例如，右边缘面向东，底部边缘均对准水平面，或在被对准后面向同一个方向)。可为图像对准而旋转捕捉的图像(例如，捕捉的图像可被旋转，以使形成全景图的所有图像的右边缘都朝东，或使形成全景图的所有图像的底部边缘对准水平面)。即使在图像传感器IS1-ISN的捕捉期间便携式设备100有移动，通过这样的图像处理，全景图或全景视频的图像质量可能不会受到影响。加速度传感器(Gsensor)、磁性传感器(MagneticSensor)、陀螺仪或任何其他能够感测姿势信息的传感器，可以感测到姿势信息(包括偏航、俯仰或横滚)。图1中的运动传感模块110可以包括加速度传感器、磁性传感器、陀螺仪、任何其他能够感测姿势信息的传感器、或其组合。

图8为通过不同摄像机拍摄的图像的纹理编码的流程图。当在步骤802中检查到，全景图像处理器106正处理由不同的摄像机(IS1-ISN)捕捉的图像以形成组合图像(combinedimage)，由不同的摄像机(IS1-ISN)捕捉的图像被作为单一的大图像(singlelargeimage)进行处理，以及在步骤804中执行大图像纹理编码(large-imagetexturecoding)。当在步骤802中检查到，由不同的摄像机(IS1-ISN)捕捉的图像形成的组合图像被(例如，全景图像处理器106)提供时，由不同的摄像机(IS1-ISN)捕捉的图像被逐一进行处理。在步骤806中，每次对一个图像执行纹理编码。图9A为大图像900(或称为组合图像)被步骤804中的大图像纹理编码进行处理的示意图。与图9A相比较，图9B为由不同的摄像机捕捉的单独的图像(separateimages)被步骤806中的单个摄像机的纹理编码分别处理的实施例。

在一些示例性实施例中，在步骤806中，不同的编码器用于不同的摄像机使用。在一些实施例中，JPEG、GIF、PNG等可用于图像的纹理编码，以及MPEG-1、MPEG-2、MPEG-4、WMV、AVS、H.261、H.263、H.264、H.265、VP6、VP8和VP9等的静态轮廓(stillprofile)可用于视频的纹理编码。

封包子系统(packingsub-system)可用于封包产生的全景数据。封包子系统将来自不同传感器的子数据流(sub-streams)多路复用(multiplex)为一个。在发送端，一些有用的信息可被封包成数据流，例如，摄像机/传感器的总数、麦克风的总数、图像/视频的分辨率、或其组合。在一个实施例中，使用H.264的补充增强信息(supplementalenhancementinformation，SEI)。未注册SEI消息语法的用户数据显示出用户数据的有效载荷字节(payloadbytes)。图10A列出了图9A中的组合图像的有效载荷字节的示例格式。图10B列出了图9B中单独的图像的有效载荷字节的示例格式，在有效载荷之前，包括摄像机的总数和麦克风的总数，以及根据摄像机ID和麦克风ID将单独的图像数据和音频数据封包数据流中。通用唯一标识符(universaluniqueidentifier)可被进一步编码到有效载荷字节的开始处。在一些其他实施例中，上述格式可以不同，不应该被限制在本发明所揭露的实施例中。

在一些示范性实施例中，解封包和解码可以是上述封包和编码过程的反向函数。图11为根据本发明一实施例的解封包和解码处理的流程图。当接收到全景数据流时，在步骤1102中检查分辨率模式。当分辨率模式显示在全景数据流中包含组合传感数据(如图9A所示的组合图像)时，执行步骤1104以解封包数据流，以及其中包含的视频或音频在步骤1106和步骤1108中分别被解码。当分辨率模式显示在全景数据流包含单独的传感数据(如图9B所示的单独的图像)，执行步骤1110以分别得到摄像机的数量、麦克风的数量或其他信息，根据在步骤1110中所获得的信息，对单独的视频或单独的音频执行步骤1112的解封包、步骤1114的视频解码、步骤1116的音频解码。

图12为根据本发明一实施例的全景数据流的数据结构的示意图。来自运动传感模块110或定位模块118的传感器数据，例如，方向传感器数据、位置传感器数据、微压力传感器数据(pressuremicrosensordata)或任何其他运动传感器相关的数据，可被附加或插入到全景数据流的图像数据中。图13显示了几个相邻的便携式设备被用来在几个地方拍摄全景照片的场景。全景照片可发送到云数据库，并可根据来自运动传感模块110或定位模块118的传感器数据组合在一起。因此，在某些实施例中，可以建立这些便携式设备周围的现实世界的真实的三维模块。三维模块可以进一步包含每个元素(例如，每个像素或三维模块中的任何其他元素)的纬度、经度、高度和颜色的信息。

图14为根据本发明一实施例的全景图像处理器106(不限于此)执行的用于生成全景照片/视频文件的操作的流程图。步骤1402可使图像传感器IS1-ISN的镜头之间的差异相关。在某些实施例中，可建立镜头相关的映射表。在步骤S1404，执行图像校正处理，以校正由图像传感器IS1-ISN捕捉的照片/视频由于图像传感器IS1-ISN之间的不同配置而产生的影响。这些配置可包括：ISO值、分辨率、帧速率、可能会影响到由图像传感器IS1-ISN捕捉的照片/视频的其他配置、或它们的组合。在一示例性实施例中，使用1200万(12M)像素的前置摄像头和800万(8M)像素的后置摄像头，在步骤1404中，由前置摄像头拍摄的图像的分辨率从1200万像素被缩小到800万像素。在一个示例性实施例中，前置摄像头的ISO设置为1200以及后置摄像头的ISO设置为100，在步骤1404中，由前置摄像头拍摄的图像可以从ISO(如，ISO1200)混合到低ISO(如，ISO100)。在步骤S1406中，可执行图像对准、图像合成和图像提取，以对准不同图像的方向、将多个图像组合成单一图像、以及提取全景图。图像对准处理(eimagealignmentprocess)几何对准在不同的条件下(例如，不同的视角、不同的深度、不同的捕捉时间、不同的传感器、任何其他条件或其组合)捕捉的两个图像。图像对准处理的算法可包括：特征检测(如，检测的边缘、轮廓线、角(corner)、或任何其他类型的特征)；特征匹配(例如，建立两个图像的对应关系)；以及基于特征对应的图像对准。在步骤1408中，图像旋转处理可以根据来自运动传感模块110的运动传感器数据旋转全景图。在一些示例性实施例中，图像旋转过程还可以旋转全景图用以对象跟踪(objecttracking)。

图15为讨论步骤1406的图像对准、图像组合和图像提取的实施例。两个不同的摄像机捕捉的图像1502和图像1504具有重叠区域1506。在步骤1406的图像对准、图像组合和图像提取后，生成全景图1508。

在一些示例性实施例中，在提取图像特征点(imagefeaturepoints)后，可以根据所提取的特征点执行图像变形处理(imagewarpingprocess)。此外，可执行图像内插以得到更大的全景图。

在下面的段落中讨论的全景照片/视频/音频的显示。

图16A、图16B、和图16C分别显示了球形浏览模式、圆柱形浏览模式和立方体(cubic)浏览模式。全景体验可以提供上述任何浏览模式。

在图16A的球形浏览模式中，假定视角周围的环境在一系列图像中被拍摄，该一系列图像覆盖住所有的360度空间，根据球形上的所选区域可产生将被显示在显示单元104上的显示图像。

在图16B的圆柱形浏览模式中，假定摄像机位于典型的位置，其中视轴(opticaxis)与z轴对准以及y轴为垂直的。拍摄照片时，光线穿过镜头，落在摄像机的图像平面(imageplane)上。图片(picture)被投影到图像平面上。根据圆柱形上的选定区域可产生将被显示在显示单元104上的显示图像。

在图16C的立方体浏览模式中，假定视角周围的环境在一系列图像中被拍摄，该一系列图像穿过表面从三个轴向(x，y和z)投影。多边形基于其法线方向(normaldirection)收到特定投影。根据立方体上的选定区域可产生将被显示在显示单元104上的显示图像。

当驱动显示单元104用于全景显示时，全景显示处理器120可以根据全景视窗的改变来改变显示单元104上的显示图像。

图17显示了根据用户的触摸，在便携式设备100的触摸屏上从位置P1移动到位置P2，改变全景视窗(从View_w_P1到View_w_P2)的实施例。换句话说，用户可以滑动便携式设备100的触摸屏来调整显示在显示单元104上的全景视窗。图18显示了在本发明根据用户生成的手势，从位置P1移至P2，改变全景视窗(从View_w_P1到View_w_P2)的实施例。在一实施例中，上述用户生成的手势可以由图像传感器IS1-ISN或超声波传感器来检测。图19显示了根据眼球运动(从位置P1到位置P2，另一种用户生成的动作)改变全景视窗(从View_w_P1到View_w_P2)的实施例，所述眼球运动可以由图像传感器IS1-ISN来捕捉。图20显示了根据便携式设备100的运动(例如，从位置P1到位置P2的空间移位或倾斜)改变全景视窗(从View_w_P1到View_w_P2)的实施例，便携式设备100的运动可以通过运动传感模块110来检测。

全景显示处理器120可驱动显示单元104在单一视角(singleview)或多视角(multipleviews)中显示全景文件。例如，在多视角模式中，可以有几个全景视窗来选择全景文件的若干区域，以使对应于这些选定区域的图像可以显示在显示单元104上。

图21显示了便携式设备100具有内置的姿势控制系统130，姿势控制系统130作为远程控制以检测用户生成的手势以及通过无线通信(如Wi-Fi或蓝牙)或电缆连接(如USB)将手势指令传递至显示设备2100(如电视、电脑或任何其他类型的显示装置)。由于便携式设备100的全景照片拍摄能力，用户可以通过在任何地方的便携式设备100控制目标设备(如显示设备2100)。在另一个示例性实施例中，便携式设备100本身可以是用户手势控制的目标设备。在一个示例性实施例中，该目标设备上的光标根据便携式设备100检测到的用户生成的手势移动。

图22显示了具有在视频会议中追踪用户的脸的视频会议系统132的便携式设备100的实施例。由于全景照片拍摄能力，即使用户在会议室里走动，用户的脸部也可以被便携式设备100正确地捕捉。在一些实施例中，该便携式设备100可以捕捉包含人脸或某些选定的在固定位置上的物体的全景照片/视频。

图23为根据本发明一实施例的全景音频处理器136(不限于此)执行的用于生成全景音频文件的操作的流程图。在步骤2302中，当便携式设备100已被切换到全景模式时，在步骤2304中，决定显示位置(如全景视窗)。在步骤2306中，不同的麦克风(如M1-MM)感测的声音信号被混合在一起，以形成对应于显示位置的全景音频。在步骤2308中，扬声器138制造混合声音。在一些示范性实施例中，有多个扬声器用于播放多声道音频。每个扬声器发出的声音因显示位置而异。

图24为根据本发明一实施例的720°全景图720_panorama以及移动全景视窗View_W以形成显示图像。720°全景图720_panorama是通过组合分别由便携式设备100的左摄像头(如图4A的摄像头)、前置摄像头(如图4E的摄像头)和底部的摄像头(如图4D的摄像头)所捕捉的图像而形成的。根据全景视窗，设置左麦克风(如图4A的麦克风)贡献的音频对应的因子A_left、前面的麦克风(如图4E的麦克风)贡献的音频对应的因子A_front和底部的麦克风(如图4D的麦克风)贡献的音频对应的因子A_bottom。在一些实施例中，该因子A_left、A_front和A_bottom可分别根据全景视窗View_W内对应的区域来确定。例如，如果全景视窗View_W内对应于因子A_left的区域最大，因子A_left、A_front和A_bottom中的最大权重值可被分配到的因子A_left。由单一扬声器138播放的全景音频可以是Sp，如下：

Sp＝(S_left*A_left+S_front*A_frontt+S_bottom*A_bottom)/(A_left+A_frontt+A_bottom)；

S_left是由左麦克风先前记录的声音，S_front是由前面的麦克风先前记录的声音以及S_bottom是由底部的麦克风先前记录的声音。在一些实施例中，可进一步处理全景音频Sp以产生多声道扬声器信号，给多声道扬声器播放。

在另一个实施例中，为了模仿立体音频(stereoaudio)，头相关传递函数(head-relatedtransferfunction，HRTF)被用来模拟从不同方向的双声道声音，但不限于，双耳式耳机。头相关传输函数可以是预定义的函数或是在线训练的。图25为描述如何根据头相关传输函数生成立体声的流程图。在步骤2502中，便携式设备100切换到全景模式，在步骤2504中，不同的麦克风M1-MM记录来自不同方向的声音。在步骤2506中，根据预先定义的函数集建立头相关传递函数。在步骤2508中，基于头相关传递函数，对记录的声音进行插值。在步骤2510，在步骤2508中产生的用于提供全景体验的声音信号输出至立体声扬声器以发出相应的声音。

图27为解复用包含视频和音频数据的比特流以及根据时间戳分别解码和显示的示意图。在图27中，当全景视频随着便携式设备100的运动而改变时，进一步引入依赖传感器控制2704的音频和视频同步控制2702，以保持音频和视频之间的同步。传感器控制2704是基于由运动传感模块110检测的信息。

本发明虽以较佳实施例揭露如上，然其本非用以限制本发明的范围。本领域的技术人员，在不脱离本发明之精神和范围内，当可作出各种替换或改变。因此，本发明的范围应以权利要求书及其均等范围所界定为限。

Claims

1.一种便携式设备，其特征在于，包括：

具有重叠感测区域的多个传感器；以及

输入装置，接收触发信号，所述触发信号触发所述多个传感器来感测数据，以生成全景文件。

2.如权利要求1所述的便携式设备，其特征在于，还包括：

全景图像处理器，

其中，所述多个传感器包括用于捕捉多个图像的多个图像传感器，所述多个图像传感器具有重叠的视场；以及所述全景图像处理器处理所述多个图像以形成全景图。

3.如权利要求2所述的便携式设备，其特征在于，还包括：

运动传感模块，当所述多个图像被捕捉时，采集所述便携式设备的运动信息，

其中所述全景图像处理器处理所述多个图像，以形成基于所述运动信息的所述全景图。

4.如权利要求2所述的便携式设备，其特征在于，还包括：

定位模块，当所述多个图像被捕捉时，检测所述便携式设备的位置或高度信息，根据所述便携式设备的所述位置或高度信息，所述全景图被集成到由相邻的便携式设备产生的另一个全景图中。

5.如权利要求2所述的便携式设备，其特征在于，

所述图像传感器连续捕捉图像，以记录将被所述全景图像处理器处理的视频，用以生成全景视频。

6.如权利要求5所述的便携式设备，其特征在于，

所述多个传感器还包括具有重叠的声场的多个麦克风；以及

所述麦克风记录声音，用于产生随着全景视窗而改变的全景音频。

7.如权利要求6所述的便携式设备，其特征在于，

根据用于同步视频和音频的时间戳将所述声音封包至所述全景视频中。

8.如权利要求6所述的便携式设备，其特征在于，还包括：

扬声器；以及

全景音频处理器，根据所述全景视窗驱动所述扬声器以输出所述声音。

9.如权利要求8所述的便携式设备，其特征在于，

当驱动所述扬声器播放全景音频时，所述全景音频处理器通过依赖于所述全景视窗的可变加权因子来加权多个声音文件。

10.如权利要求5所述的便携式设备，其特征在于，还包括：

视频会议系统，从所述全景视频中提取用户的脸的图像，以将全景视窗聚焦到所述用户的脸上。

11.如权利要求5所述的便携式设备，其特征在于，还包括：

手势控制系统，从所述全景视频中提取手势以控制目标设备。

12.如权利要求5所述的便携式设备，其特征在于，所述全景图像处理器调整所述多个图像传感器的帧速率。

13.如权利要求2所述的便携式设备，其特征在于，还包括：

全景显示处理器和显示单元；

其中，所述全景显示处理器提供所述显示单元显示的所述全景图。

14.如权利要求13所述的便携式设备，其特征在于，

当所述显示单元被驱动为全景显示时，所述全景显示处理器根据全景视窗的改变来改变所述显示单元上的显示图像。

15.如权利要求14所述的便携式设备，其特征在于，

所述显示单元为触摸屏，以及根据所述触摸屏上的触摸操作改变所述全景视窗。

16.如权利要求14所述的便携式设备，其特征在于，

根据所述多个图像传感器中的至少一个捕捉的手势来改变所述全景视窗。

17.如权利要求14所述的便携式设备，其特征在于，还包括：

超声波传感器；

其中，根据所述超声波传感器检测到的手势来改变所述全景视窗。

18.如权利要求14所述的便携式设备，其特征在于，还包括：

运动传感模块；

其中，根据所述运动传感模块检测到的所述便携式设备的运动来改变所述全景视窗。

19.如权利要求2所述的便携式设备，其特征在于，

所述全景图像处理器执行图像传感器之间的镜头相关、处理所述多个图像的感光度值或分辨率、对准所述多个图像、或组合所述多个图像，以提取所述全景图。

20.如权利要求2所述的便携式设备，其特征在于，所述全景图依据由所述多个图像形成的单帧来个别编码。